JP3896014B2 - Information collection system, information collection method, and program causing computer to collect information - Google Patents
Information collection system, information collection method, and program causing computer to collect information Download PDFInfo
- Publication number
- JP3896014B2 JP3896014B2 JP2002081642A JP2002081642A JP3896014B2 JP 3896014 B2 JP3896014 B2 JP 3896014B2 JP 2002081642 A JP2002081642 A JP 2002081642A JP 2002081642 A JP2002081642 A JP 2002081642A JP 3896014 B2 JP3896014 B2 JP 3896014B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- collection
- community
- result
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、インターネットやイントラネットなどの情報ネットワークに分散して配置された複数の情報源から、ユーザの要求を満足する情報を収集する情報収集システムに関する。
【0002】
【従来の技術】
大規模情報ネットワーク技術の普及により、誰もが大量の情報を自由に利用できるようになっている。インターネットやイントラネットなどの情報ネットワーク上には、大量の情報がハイパーテキスト形式の文書(ウェブページ)として公開されており、その数は数十億とも言われている。これらの情報を利用する方法として、ブラウザと呼ばれる情報閲覧ソフトウェアを用い、関心のある項目(ハイパーリンク)を選択していく(ブラウジングする)方法が用いられるのが一般的である。また、大量の情報の中から、キーワード等で指定した条件を満足する情報を検索するための検索サービスサイトや、情報を利用しやすい形に分類して提供するディレクトリサイトが、各種運用されている。ユーザは、所望の情報を得るためには、まず、検索サービスサイトやディレクトリサイトを用いて自分の関心に合致しそうな文書を求めた後に、その文書の内容や、その文書にリンクされた他の文書の内容を、ブラウジングすることによって調べるという、一連の作業を繰返し行う。また、頻繁に利用する情報や特に重要な情報については、ブラウザの付属機能であるブックマークと呼ばれる手段を用いてその情報の位置(URL)を記憶したり、有用な情報の位置をリストアップした文書(リンク集)を作成して利用することが行われている。
【0003】
しかし、大量の情報の中から、検索やブラウジングによって必要な情報を集める作業は時間と労力を要する。また、検索サービスサイトやディレクトリサイトでは、最新の情報や、専門性の高い情報が十分に提供されていないという問題もある。これらの問題を解決する技術の一つに、自動クローリング技術が知られている。これは、ハイパーテキストのハイパーリンクを再起的に辿る(すなわち、クローリングする)ソフトウェア(すなわち、クローラ)を用いて、大量の文書情報を自動的に走査し、ユーザが指定した条件を満足する文書を収集する方法である。ユーザがクローラに与えることのできる収集条件には、収集する文書の個数・容量の制限や、収集を開始する起点の文書、起点の文書から辿るリンクの段数の上限、収集する範囲(ウェブサーバのドメインなど)、文書の更新日時の条件、などがある。また、文書の内容に関する条件としては、キーワード・フレーズ等が対象文書中で出現する頻度や、例示した文書と対象文書との類似度、ユーザの興味・関心の記述(プロファイル)と対象文書との類似度、などについての条件がある。さらには、対象文書の重要度を、アクセス数やハイパーリンクの構造に基づいて計算し、重要度の大きい文書を優先的に収集する方法なども提案されている。自動クローリング技術に関する公知文献には、"Focused Crawling: A New Approach for Topic-Specific Resource Discovery", Soumen Chakrabarti他, The Eighth International World Wide Web Conference, 1999(以下、「文献1」と称する)や、特開平10−260978号公報「情報収集方法及び装置」(以下、「文献2」と称する)などがある。
【0004】
一方、複数のユーザが互いに情報を交換するための手段としては、電子メールおよびメーリングリスト、電子掲示板、チャットなどの手段が、広く普及している。メーリングリストは、複数のユーザの電子メールアドレスをまとめて、その全員に一括してメッセージを送信できるようにした手段である。また、電子掲示板は、ネットワーク上に情報共有のためのスペースを設けて、複数の登録ユーザあるいは匿名ユーザが自由にメッセージを記入できるようにした手段である。チャットは、電子掲示板と同様に情報共有スペースを設けて、テキストのメッセージをリアルタイムに送受信できるようにした手段である。メーリングリストや電子掲示板、チャット等のように、比較的多数のユーザによる(一対一のみでない)メッセージの交換を目的としたコミュニケーション手段では、参加メンバーの大部分が共通に関心を持つ話題に関するメッセージがやり取りされることが多い。このように、共通の目的や話題を持って電子的なメッセージを交換するユーザの集団を、本明細書においては、以下、「コミュニティ」と称する。
【0005】
コミュニティのメンバーの一人が有用な情報を得た場合、上述のコミュニケーション手段を用いて他のメンバーに通知することによって、メンバー間で情報を共有するということが日常的に行われている。このようにして交換される情報のうち、とくに有用な情報については、メンバーの有志が自発的に、有用な情報を手作業でリストアップし、他のメンバーが利用しやすいようにリンク集などの形に整理し、定期的に保守するということが行われる場合もある。コミュニティのメンバーが関心を持つ話題は、コミュニティの趣旨を逸脱しない範囲内にある場合が多いが、多少は動的に変遷する。コミュニティのメンバーがどのような話題に関心を持っているかを自動的に調べる技術については、特開2000−293526号公報「嗜好情報収集システム」(以下、「文献3」と称する)や、特開2001−92755号公報「プロファイル作成方法及びシステム」(以下、「文献4」と称する)などの公知文献がある。
【0006】
【発明が解決しようとする課題】
自動クローリングは、収集に要する時間とネットワーク資源の消費が大きいわりに収集の効率が良くないという問題がある。インターネットからのクローリングによる収穫率、すなわち、収集したウェブページの中にユーザの要求と関連する情報が含まれる割合は、最良の場合で50%程度とされており(文献1)、残りの50%のページは利用されずに捨てられることになる。文献1と文献2では、収集の効率を改善するための方法が開示されているが、そもそもインターネット上には、有用でない情報も多数含まれている。例えば、ユーザの収集要求をキーワード集合で記述した場合、そのキーワード集合を多く含んだ文書でさえ、ユーザにとって実際に有用であるとは限らず、古い情報や誤った情報、冗長な情報である可能性がある。したがって、収集効率の改善には限界があり、収集された情報が有用かどうかの判断はユーザに委ねざるを得ない。また、個々のユーザが個別にクローラを利用することは、通信ネットワークやプロキシサーバ、ウェブサーバなどにかかる負荷が大きくなるため、現実的でない。従って、より効率的な収集方法と、収集結果を無駄にせずに再利用する方法が望まれる。
【0007】
さらに、クローリングによってウェブページを収集するには、収集の条件として、収集を開始する起点のURLや収集する範囲、キーワードなどの条件をユーザが指定する必要がある。しかし、どのような条件を指定すれば有用な情報が得られるかが不可知である上、上述のように収集効率が良くない。従って、一般的に、検索サービスサイトや、配信型の情報フィルタリングシステムと比較して、クローラを利用するには熟練を要する。このため、有用な情報を効率よく収集するための知識やノウハウをユーザ間で共有することが望まれる。
【0008】
以上のような理由のため、クローラは、主に、検索サービスサイトが、任意の内容のウェブページを大量に収集してインデキシングする目的と、既知の限定されたウェブサイトを定期的に巡回して、更新された情報の有無を監視する目的に利用されるにとどまっている。従って、クローラが、未知の情報源から積極的に情報を収集したり、潜在的にユーザの関心に合致するであろう新しい情報を発見したりする目的に活用されていないのが現状である。
【0009】
一方、コミュニティのメンバーが電子掲示板等の従来のコミュニケーション手段を用いて情報をやり取りする方法では、メンバー各々の知識や専門性を生かした情報の共有を柔軟に行うことができる。しかしこの方法は、個々のユーザの能力と自発性に依存するところが大きい。有用な情報を探して他のメンバーに知らせる作業は労力を要するし、そもそも、コミュニティのメンバー全員が知らないような新しい情報を発見することは不可能である。文献3と文献4には、コミュニティでやり取りされるメッセージを解析して、ユーザの関心や嗜好(プロファイル)を求める発明が開示されているが、これらの発明は、コミュニティのメンバーの関心・嗜好に合った情報を新たに収集する手段を提供するものではない。
【0010】
また、有用な情報が個々のメンバーの努力によって数多く得られたとしても、その各々が未整理のまま別々のメッセージに分散している状態では、収集した情報を有効活用することができない。有用な情報を大量のメッセージの中から選び出してコミュニティのメンバー間で共有できる形に整理する作業には労力を要するが、その作業もメンバー各々の自発的な手作業に負っている。文献3に係る発明はユーザの嗜好調査、文献4に係る発明は、ユーザを関心・嗜好に基づいてカテゴライズした結果を明示することにより、コミュニケーションの円滑化を図ることを目的とする。いずれの発明も、コミュニティのメンバーのために有用な情報を整理したり保守するという作業を支援するものではない。
【0011】
本発明は、上記の課題を解決するためになされたものであり、ユーザの要求を満足する情報を効率よく収集するとともに、その収集結果を複数のユーザで有効に活用し、かつ、有用な情報を継続的に整理・保守する作業を支援することを目的とする。
【0012】
【課題を解決するための手段】
前記課題を解決するために、本発明に係る情報収集システムは、ユーザの要求を満足する情報を収集して提示する情報収集システムにおいて、それぞれ複数のユーザをメンバーとする複数のコミュニティを管理するコミュニティ管理手段と、各コミュニティに属するメンバーがメッセージの送受信を行うためのメッセージ送受信手段と、前記複数のコミュニティの各々で共有されている情報をユーザが閲覧するためのコミュニティ情報提示手段と、各コミュニティに属するメンバーが共同で、当該コミュニティにおける収集要求を編集するための収集要求編集手段と、各複数のコミュニティにおいて編集された複数の収集要求のいずれかを満足する情報を情報ネットワーク上の複数の情報源から収集する情報収集手段と、前記収集した情報に基づいて前記複数の収集要求の各々に対応する収集結果を各々生成する収集結果生成手段と、各コミュニティに属するメンバーが共同で、当該コミュニティにおける収集結果を編集するための収集結果編集手段と、を具備し、前記コミュニティ情報提示手段は、複数のコミュニティで各々作成された複数の収集結果を、当該コミュニティまたは当該コミュニティ内で送受信されるメッセージと関連付けて、当該コミュニティのメンバーおよび非メンバーのユーザに提示することを特徴とする。
【0013】
本発明に係る情報収集システムの好ましい実施態様は以下のとおりである。なお、以下の各実施態様は、単独で適用しても良いし、適宜組み合わせて適用しても良い。
【0014】
(1) コミュニティのメンバーが前記メッセージ送受信手段を用いて送受信するメッセージに基づき、当該コミュニティの収集要求及び当該コミュニティの収集結果の少なくとも一方を自動的に更新すること。
【0015】
(2) コミュニティのメンバーが前記収集結果編集手段を用いて行った収集結果の編集内容に基づき、当該収集結果に対応する収集要求を更新すること。
【0016】
(3) コミュニティの収集結果と、当該コミュニティの収集結果に含まれる情報を重複して含む他のコミュニティの収集結果とを関連付けて提示すること。
【0017】
(4) ユーザが入力する検索条件を満足する情報を、前記情報収集手段で収集した情報の中から検索する収集情報検索手段をさらに具備し、当該収集情報検索手段は、検索された情報と、コミュニティで作成した収集結果のうち前記検索された情報を含む収集結果とを、関連付けて提示すること。
【0018】
本発明に係る情報収集方法は、ユーザの要求を満足する情報を収集して提示する情報収集方法において、各コミュニティに属するメンバーが共同で、当該コミュニティにおける収集要求を編集し、各コミュニティにおいて編集された複数の収集要求のいずれかを満足する情報を情報ネットワーク上の複数の情報源から収集し、前記収集した情報に基づいて前記複数の収集要求の各々に対応する収集結果を各々生成し、各コミュニティに属するメンバーが共同で、当該コミュニティにおける収集結果を編集し、複数のコミュニティが各々作成された複数の収集結果を、当該コミュニティまたは当該コミュニティ内で送受信されるメッセージと関連付けて、前記複数のコミュニティの各々で共有されている情報を、当該コミュニティのメンバーおよび非メンバーのユーザに提示することを特徴とする。
【0019】
本発明に係る情報収集コンピュータにユーザの要求を満足する情報を収集して提示する情報収集を実行させるプログラムは、コンピュータにユーザの要求を満足する情報を収集して提示する情報収集を実行させるプログラムにおいて、各コミュニティに属するメンバーによって共同で編集された当該コミュニティにおける収集要求を入力し、各コミュニティにおいて編集された複数の収集要求のいずれかを満足する情報を情報ネットワーク上の複数の情報源から収集し、前記収集した情報に基づいて前記複数の収集要求の各々に対応する収集結果を各々生成し、各コミュニティに属するメンバーが共同で編集された当該コミュニティにおける収集結果を入力し、複数のコミュニティで各々作成された複数の収集結果を、当該コミュニティまたは当該コミュニティ内で送受信されるメッセージと関連付けて、前記複数のコミュニティの各々で共有されている情報を、当該コミュニティのメンバーおよび非メンバーのユーザに提示することを特徴とする。
【0020】
【発明の実施の形態】
以下、図面を用いて本発明の実施の形態を説明する。
【0021】
図1は、本発明の一実施形態に係る情報収集システムの構成を示す図である。図1において、コミュニティ管理部1は、複数のコミュニティを管理する。すなわち、コミュニティ管理部1は、複数のコミュニティの各コミュニティにおけるメンバーである複数のユーザの情報と、各コミュニティにおけるユーザ間で送受信されるメッセージとを記憶管理する。コミュニティ管理部1は、従来技術による電子掲示板あるいはメーリングリスト等の管理手段と同様に、ユーザ情報記憶部11とメッセージ記憶部12を有する。通常、コミュニティのメンバーと非メンバーでは、アクセス権、すなわち、ユーザ情報の閲覧やメッセージの送受信などが行えるか否かの権限が異なるが、このコミュニティ管理部1が、そのアクセス制御を行う。また、本明細書においては、ユーザは、メンバーと非メンバーを含むものとする。また、詳細は後述するように、コミュニティ管理部1は、ユーザからの情報収集の要求を複数記憶する収集要求記憶部13と、情報収集の結果としてユーザに提示する情報を複数記憶する収集結果記憶部14とを有する。
【0022】
コミュニティ情報提示部2は、複数のコミュニティの名称やメンバーなどの基本的な情報や、個々のコミュニティ内でやり取りされるメッセージや共有文書などの情報をユーザに提示する。これにより、ユーザが様々な情報を閲覧できる。
【0023】
メッセージ送受信部3は、コミュニティのメンバーが、他のメンバーに対してメッセージを送信・受信するための手段である。メッセージ送受信部3で送受信されたメッセージは、コミュニティ毎に整理されて、メッセージ記憶部12に記憶される。
【0024】
収集要求編集部4は、情報収集の要求をコミュニティの複数のメンバーが共同で編集して登録するための手段であり、収集要求編集部4で編集された結果は、収集要求記憶部13にコミュニティ毎に記憶される。同様に、収集結果編集部5は、情報収集の結果をコミュニティの複数のメンバーが利用しやすい形に編集するための手段であり、収集結果編集部5で編集された結果は、収集結果記憶部14に、コミュニティ毎に記憶される。
【0025】
情報収集部6は、収集要求記憶部13に記憶された複数の収集要求を入力として、インターネットやイントラネットなどの情報ネットワークから、いずれかの収集要求を満足する情報(本実施形態の場合はウェブ文書)を収集する。情報収集部6で収集されたウェブ文書は、ウェブ文書記憶部7にインデキシングされて記憶される。
【0026】
収集結果生成部8は、コミュニティ毎に登録された収集要求に基づき、収集したウェブ文書から要求に合致するものを選択・加工して、コミュニティ毎に収集結果を生成する。この収集結果は収集結果記憶部14に記憶されるが、ユーザは、必要に応じて収集結果編集部5を用いて収集結果をより利用しやすい形に編集して保存することができる。
【0027】
以上に説明した構成は、本発明を実施するための最小の構成であるが、上記の構成に加え、さらに、収集要求生成部9を備えてもよい。収集要求生成部9は、個々のコミュニティのメンバーが送受信するメッセージに基づき、当該コミュニティの収集要求を自動的に生成あるいは追加する。これと同様に、収集結果生成部8に、メッセージに基づいて収集結果を生成あるいは追加する機能を持たせることも可能である。さらに、収集結果生成部8に、ユーザが収集結果を編集した場合に、その編集内容に基づいて、対応する収集要求を変更する機能を持たせることも可能である。
【0028】
ウェブ文書検索部10は、情報ネットワークから収集して前記のウェブ文書記憶部7に記憶したウェブ文書を、ユーザが検索して利用するための手段である。ウェブ文書検索部10の手段の検索機能は、従来技術によるウェブ文書の検索手段と概ね同じである。本発明の実施形態に係るウェブ文書検索部10は、検索結果を提示する際に、収集結果記憶部14に記憶されている収集結果を併せて提示する処理を行う機能を備えている。
【0029】
以上に説明した本発明の実施形態に係る情報収集システムの構成と、従来の情報収集システムの構成との違いを、図2を参照して説明する。図2は、従来の一般的な情報収集システムの概略ブロック図である。図2に示す情報収集システムは、図1の構成要素でもある、収集要求編集部4、収集要求記憶部13、情報収集部6、ウェブ文書記憶部7、収集結果生成部8、収集結果記憶部14、収集結果編集部5、および、場合によりウェブ文書検索部10を具備している。しかしながら、従来の情報収集システムは、収集要求の作成から収集結果の作成、編集までを一人のユーザが行うように構成されている。このため、従来の情報収集システムは、複数のユーザ、すなわちコミュニティで協力しあって情報を収集する目的には利用できない。また、従来の情報収集システムは、収集された情報や新たに収集すべき情報についての議論や情報交換といった活動を行うための手段も具備せず、加えて、収集結果を複数のユーザで共有し保守するための手段も備えていない。このような構成では、ユーザの労力が大きいだけでなく、複数のユーザによる情報収集結果の共有・再利用が行えないという問題がある。
【0030】
以下、本発明の実施形態について詳細に説明する。
【0031】
図3は、ユーザ情報記憶手段に記憶されるユーザの情報とコミュニティの情報を示す図である。図3(a)は、ユーザ情報31の一例であり、図3(b)は、コミュニティ情報32の一例である。ユーザ情報31は、本情報収集システムを利用する個々の登録ユーザ(所定の権限が与えられている既知のユーザ)の情報であり、ユーザID、パスワード、氏名、メールアドレス、所属コミュニティ、ホームページURL等の項目を有する。コミュニティ情報32は、本情報収集システムが管理するコミュニティの情報であり、コミュニティID、コミュニティ名、メーリングリストアドレス、掲示板URL、および、参加メンバーのユーザID等の項目を有する。メーリングリストアドレスは、コミュニティのメンバー全員に一括してメッセージを送信する際の宛先である。掲示板URLは、メッセージを記入して共有するスペースの位置を表す。メーリングリストアドレスと掲示板URLのどちらか一方が設定されていれば、その手段を用いてメンバー間のメッセージの交換が可能となる。メーリングリストアドレスと掲示板URLの両方が設定されていれば、ユーザは、利用しやすい方の手段を利用することができる。また、コミュニティ情報32のコミュニティのメンバーの項目は、ユーザ情報31のユーザIDによって記述される。逆に、ユーザ情報31の所属コミュニティの項目は、コミュニティIDによって記述される。
【0032】
ユーザがコミュニティを利用して情報交換の作業を行うための手順を、図4のフローチャートを用いて説明する。まず、ユーザが登録ユーザなら(ステップ41)、ユーザ認証を行う(ステップ42)。ステップ42で、認証に成功すれば(ステップ43)、当該登録ユーザの権限でコミュニティを利用できるようになる。ユーザ認証の手続きは、従来の方法と同じく、ユーザが入力したユーザのIDとパスワードを認証する方法でよい。ユーザが未登録のユーザであり、かつ新規にユーザ登録を希望するなら(ステップ44)、ユーザ登録手続き(ステップ45)を行う。ステップ45で、登録が正しく行えたならば(ステップ46)、新規の登録ユーザとしての権限でコミュニティを利用できるようになる。ユーザの登録の手続きは、従来の方法と同様に、図3(a)に示すユーザ情報31を、ユーザID31のうち氏名、パスワード等の必須項目をユーザに入力させ、ユーザIDを新しく発行することによってなされる。以上の処理は、コミュニティ管理部1が行う。
【0033】
その後、コミュニティ情報提示部にて、既存のコミュニティの一覧をユーザに提示する。まず、登録ユーザに対してのみ、当該ユーザが参加しているコミュニティの一覧を提示する(ステップ47)。次に、登録ユーザと、未登録の匿名ユーザの両方に対して、非参加のコミュニティの一覧を提示する(ステップ48)。ここで、コミュニティに参加していないユーザや匿名ユーザについては、制限した情報のみを提示する。図5は、複数のコミュニティ情報の一覧を提示例した画面の例を示す。この画面は、登録ユーザ「aoki」(図3のユーザIDがu1のユーザ)がユーザ認証を行った段階において提示される「aokiのポータルページ」51を示す図である。図5において、ユーザが参加しているコミュニティの一覧(図4のステップ47)を示す部分52には、「eコマース調査グループ」53や、「プロ野球ファンの集い」などの参加コミュニティが提示される。各々のコミュニティに関連付けて「新着メッセージ」54、「新着情報」54の情報が提示される。新着メッセージとは、当該コミュニティに新しく送信されたメッセージの一覧である。また、新着情報とは、後述する情報収集の処理によって新しく収集された情報である。このように、コミュニティ情報の一覧画面では、コミュニティ毎に、メンバーが注目すべき新しい情報が明示的に提示される。一方、非参加コミュニティ56とは、ユーザ「aoki」が参加していないコミュニティであり、「Linuxユーザ会」57、「ガーデニング倶楽部」などのコミュニティが提示される。非参加コミュニティに関連付けて表示される「トピック」58は、当該コミュニティが関心を持って情報を収集しているトピック(話題)を表すものであり、例えば「Linuxユーザ会」57は「Linux」「ディストリビューション」などのトピックに関心を持つコミュニティであることが、非参加ユーザにも提示される一方で、具体的なメッセージなどの情報は非参加ユーザには提示されないようになっている。以上に説明したコミュニティ情報の提示の処理は図1のコミュニティ情報提示部2にて行われる。
【0034】
次に、ユーザが、ある一つのコミュニティを選択してこれに加わり、メッセージ送受信などの活動をおこなうための処理の流れを説明する。ユーザが、図4のステップ49にて選択したコミュニティに入ると、まず、ユーザがコミュニティのメンバーかどうかが確認される(ステップ410)。ステップ410において、ユーザが、当該コミュニティのメンバーでなく、かつ、コミュニティへの新規参加をユーザが希望するなら(ステップ411)、コミュニティへの加入手続きを行う(ステップ412)。この際、前記の登録ユーザのみがコミュニティへの加入対象となり、匿名ユーザはコミュニティへの参加は行えない。この加入手続き(ステップ412)は、図3(b)に示したコミュニティ情報32のメンバーの項目に、新規ユーザのIDを加えることによってなされるが、コミュニティの管理者や他のメンバーによって加入の可否を決定する手続きを含めてもよい。コミュニティのメンバーは、当該コミュニティ内でのメッセージの送受信と、収集要求・収集結果の閲覧・編集などの活動を行うことができる(ステップ414)。一方、コミュニティのメンバーでないユーザや、匿名ユーザは、コミュニティの利用が制限付きで許される(ステップ415)。図4に示した例では、非メンバーは、メッセージと収集結果の閲覧のみ許可され、編集は禁止するとして説明したが、コミュニティの性質によっては、これと異なるかたちで権限を許可あるいは禁止してもよい。ユーザは、コミュニティ内での活動を適宜行った後、コミュニティから出て(ステップ416)終了したり(ステップ417)、他のコミュニティに入って活動を行ってもよい。なお、図4では省略するが、コミュニティからの脱退やユーザ情報の変更、コミュニティの新規作成など、従来のコミュニティ管理システムで備えるべき処理機能も本発明の実施形態に係る情報収集システムは具備するものとする。さらに、本実施形態では主に、従来技術での電子掲示板と類似した画面例を用いて説明するが、メーリングリストのような手段を用い、ユーザ登録やコミュニティへの参加、情報の閲覧などの処理を電子メールで行うことも可能である。
【0035】
図6から図8は、コミュニティ内でのユーザの活動として、メッセージの送信、収集要求の編集、収集結果の編集の処理の流れを示した図である。また、図9から図13は、これらの処理に対応する画面の表示例である。メッセージの送受信は、本実施形態の場合は電子掲示板用の手段を用い、図1のメッセージ送受信部3にて行う。図9に示した画面例では、コミュニティ「eコマース調査グループ」に入ったユーザが、掲示板のメニュー91を選択すると、画面上には最近に送信されたメッセージ92、94、95等が表示される。個々のメッセージの間には返信関係が付されており、たとえばメッセージ95とメッセージ96は、ともにメッセージ94の返信メッセージである。画面上でユーザが一つのメッセージを選択すると、その内容が提示されるようになっており、例えば図9では、ユーザが選択したメッセージ96「著名なオークションサイト」(1月10日にユーザyamadaによって送信されたメッセージ)の内容として、テキスト97が表示された場面を示している。メッセージのうち、後述する情報収集の結果と関連するものについては、これらが互いに関連付けられて提示される。例えば図9では、メッセージ92「音楽配信ビジネス」に対して、このコミュニティが共同で情報収集を行っているトピック「コンテンツ配信」93が関連付けられて表示される。
【0036】
一方、メッセージの送信は、図6で示した処理により行われる。ユーザは、まずステップ61で、送信したいメッセージが既存メッセージの返信であるか、あるいは、新規のメッセージであるかを選択する。この選択は、図9の画面例ではボタン98またはボタン99を押すことによって行う。ここで、「返信メッセージ」のボタン98を押した場合は、図9で現在表示しているメッセージ96に対する返信メッセージを作成することになる。図10は返信メッセージの作成(図6のステップ62)の画面例を表す図である。ユーザは、図10に示す返信メッセージのタイトル101と本文102とを、必要ならば返信元のメッセージを引用して編集し、返信メッセージを作成する。その後、既存メッセージの返信メッセージとして送信する(ステップ63)と、上記に説明した返信関係が付されてシステムに記憶される。メッセージの送信は、図10に示す「送信」ボタン103を押すことによって行われる。新規メッセージの場合も、既存メッセージの返信メッセージの送信と同様に、図6のステップ64、ステップ65の処理を経て送信が行われる。送信されたメッセージは図1のメッセージ記憶部12に記憶され、コミュニティのメンバーが図9で説明した形で閲覧したり、新しいメッセージを返信したりすることができるようになる。
【0037】
図7は、収集要求をコミュニティのメンバーが編集する処理の流れを示す図である。収集要求は、本明細書においては、ユーザが、どのような情報を収集したいかの要求や条件を記述したデータをいい、図1の情報収集部6の入力となる。本実施形態では、収集要求をコミュニティの複数のメンバーが共同で編集することとしているため、編集内容の整合性を保つ必要がある。このため、まず、既に収集要求が存在するかどうかを確認する(ステップ71)。ステップ71において、収集要求が存在していない場合には、新規の収集要求を作成する(ステップ76)。ステップ71において、既に収集要求が存在する場合には、収集要求が他のユーザにチェックアウトされていないことを確認する(ステップ72)。この確認後に、ユーザが収集要求を編集できるようになる。ステップ72において、収集要求が他のユーザにチェックアウトされていなければ(ステップ72のYes)、まず、編集対象の収集要求が当該ユーザにチェックアウトされる(ステップ73)。そして、ユーザによる編集作業(ステップ74)の後に、チェックイン(ステップ75)を経て、システムへの登録(ステップ77)が行われる。なお、ステップ72において、収集要求が他のユーザにチェックアウトされていれば(ステップ72のNo)、当該ユーザの収集要求は編集できないので、そのまま終了する。
【0038】
以上説明した収集要求編集処理は、図1の収集要求編集部4にて行われ、編集された結果は収集要求記憶部13に記憶される。なお、編集された収集要求は、過去の収集要求と置き換えて記憶してもよいし、過去のリビジョンを保存しておいて、編集毎に新たな収集要求を追加記憶してもよい。
【0039】
図11には、収集要求を編集する画面の例を示す。ユーザが画面上で収集要求のメニュー111を選択すると、収集要求を編集するための手段が表示される。コミュニティ内で収集を行いたいトピックは、通常複数あると考えられるので、一つのコミュニティが作成する収集要求の中で、複数のトピックを記述することができるようにしている。
【0040】
図11の例では「eコマース調査グループ」というコミュニティの収集要求の例として、「電子モール」「コンテンツ配信」「オンライン・トレード」のトピックが示されている。ユーザは、これらの既存のトピックの他に新しいトピックを追加したり(ボタン116)、不要となったトピックを削除したり(ボタン113)といった編集も可能である。なお、図7で説明したチェックアウト・チェックインの処理単位は、収集要求全体を1つの処理単位とするのでなく、トピックを1つの処理単位としてもよい。個々のトピック毎に記述するデータとしては、図11に示すように、トピックの名称112、キーワード114、収集起点URL115がある。キーワード114は、収集した情報(本実施形態の場合はウェブ文書)がその内容に含むべきキーワードの論理式を記述する項目である。また、収集起点URLは、クローリングを開始するウェブ文書のURLを記述する項目である。収集起点URLは、必ずしも設定する必要はない。なぜならば、あるトピックの収集起点URLが未指定であっても、複数のコミュニティが複数のトピックに記述した収集起点URLのいずれかからクローリングすることによって、ユーザが所望する当該トピックの情報が収集できる可能性が高いからである。また、場合によっては、デフォルトの収集起点URLとして、代表的なディレクトリサイト等を選ぶことにしてもよい。以上説明した項目を図11の画面上で編集した後、「登録」ボタン117を押すことによって、編集後の収集要求がシステムに登録される。
【0041】
図8は、収集結果をコミュニティのメンバーが編集する処理の流れを示す図である。収集結果は、情報要求に応じてシステムが収集した情報を、コミュニティのメンバーが利用しやすい形式に加工したデータをいい、主には図1の収集結果生成部8の出力である。収集結果は、必ずしもクローリングによって収集した情報のみからなるわけでなく、ユーザが明示的に有用と思う情報を記述してもよいし、後述するように、コミュニティのメンバー間で送受信されるメッセージに含まれる情報を追加してもよい。本実施形態では、前述の収集要求と同様に、収集結果もコミュニティの複数のメンバーが共同で編集することとしているため、編集内容の整合性を保つ必要がある。このため、まず、既に収集結果が存在するかどうかを確認する(ステップ81)。ステップ81において、収集結果が存在していない場合には、新規の収集結果を作成する(ステップ86)。ステップ81において、既に収集要求が存在する場合には、収集結果が他のユーザにチェックアウトされていないことを確認する(ステップ82)。この確認後に、ユーザが編集できるようになる。ステップ82において、収集結果が他のユーザにチェックアウトされていなければ(ステップ82のYes)、まず、編集対象の収集結果がチェックアウトされる(ステップ83)。そして、ユーザによる編集作業(ステップ84)の後に、チェックイン(ステップ85)を経て、システムへの登録(ステップ87)が行われる。なお、ステップ82において、収集結果が他のユーザにチェックアウトされていれば(ステップ82のNo)、当該ユーザの収集結果は編集できないので、そのまま終了する。
【0042】
以上説明した収集結果編集処理は、図1の収集結果編集部5にて行われ、編集された結果は収集結果記憶部14に記憶される。図12には、収集結果を表示する画面の例を示す。ユーザが画面上で収集結果のメニュー121を選択すると、収集結果を表示するための手段が表示される。収集結果は、上述の収集要求のトピック毎に整理されて表示される。図12の例では、「eコマース調査グループ」の収集結果として、「電子モール」122、「コンテンツ配信」126等のトピック毎に整理されて情報が表示されている。さらに、個々のトピック中の情報は、サイト別に整理される。サイトは、インターネットにおける情報サービスの主体であり、情報源の単位でもある。図12の例では、トピック「電子モール」122の中にサイト「○○モール」123が分類されている。テキスト124は、「○○モール」123を説明するコメント文であって、コミュニティのメンバーが当該サイトの内容を理解しやすいように、メンバーの一人または複数が共同で作成したテキストである。個々のサイトの中で特に有用な情報や、新しい情報については、図12に示したように、サイト内の詳細情報125として提示する。
【0043】
クローリングによる情報収集の結果としては、このような既知のサイト内の情報が収集される場合(図12の情報125参照)と、新しいサイトが収集される場合(図12の情報128の例)がある。後者の場合、新しいサイトを説明するテキストはまだユーザによって作成されていないため、当該サイトのウェブ文書のテキストがそのまま提示される(図12の情報129参照)が、これをより理解しやすいコメント文に直す必要がある。また一般に、クローラによって収集された情報は全てが有用な情報とは限らず、コミュニティのメンバーが共有するに値する情報を取捨・整理する作業が必要である。収集結果編集部5は、この作業をコミュニティの複数のメンバーが行うために設けられた手段であり、図13は収集結果を編集するための画面の例である。
【0044】
ユーザが図12で示した画面上の「編集」ボタン(1210)を押すと、図13に示すような画面が表示される。収集結果は上述のように、複数のトピック(「電子モール」131等)によって整理され、さらにトピックは、サイト(「○○モール」134等)によって整理される。ユーザは、新しいトピックの追加と不要なトピックの削除を行うことができる(図13のボタン1311、133)。さらに、新しいサイトの追加と不要なサイトの削除を行うことができる(図13のボタン132、136)。個々のサイト毎に編集すべき項目としては、サイト名134、サイトのURL135、サイトを説明するためのコメント文137、および、サイト内の詳細情報138である。このうち、クローリングによる情報収集で自動的に獲得できないデータはコメント文なので、ユーザの編集作業としては、コメント文を作成することが主な作業の一つであるが、これは、当該サイトのウェブ文書から取得したテキストをもとに作成すればよい。その他の作業としては、サイトや詳細情報を取捨して不要なものを削除する作業が主となる。
【0045】
以上の説明では、ユーザがコミュニティ内で行う活動と、そのために提供された本発明の実施形態に係る手段を中心に説明したが、以下は、ユーザが要求する情報を情報ネットワークから収集してユーザの要求に合った収集結果を生成する処理について説明する。図14は、図1の情報収集部6が行う処理の流れを表す図である。また、図14の処理の複数のステップから、収集した情報を収集結果に加える処理である図15の処理が呼び出されるが、これは図1の収集結果生成部8が行う処理である。
【0046】
情報収集部6は、収集対象の候補であるURLの集合を保持し、その個々のURLについて、ウェブ文書を既に取得したかどうかに係る情報や、最後に取得した日時、当該URLのリンク元URLおよびそのリンクのアンカーテキストの情報を、図1のウェブ文書記憶部7に記憶する。このURL集合をUとする。また、全コミュニティが作成する収集要求の集合をRとする。
【0047】
まず、Uの初期値を空集合とする(ステップ141)。その後、Rに新しい収集要求rが作成されるたびに、個々のrのトピックの収集起点URLとして新しいURLが登録されたかどうかをチェックする(ステップ142)。新しいURLu(以下、単に、「u」とのみ表記する)が登録されれば、そのスコアを計算する(ステップ143)。ここで、uの、ある収集要求rに対するスコアs(u,r)は、次式で計算する。
【0048】
【数1】
【0049】
ここで、α、β、γは定数である。vはUに含まれるURL(以下、単に、「v」とのみ表記する)であり、かつ、vはuのリンク元であるとする。s(v,r)はvの収集要求rに対するスコアである。また、a:v→uはvからuへのリンクに付されたアンカーテキストである。sim(a,r)は、アンカーテキストaと収集要求rのキーワード集合との類似度である。duはuのウェブ文書のテキストである。sim(du,r)はduのテキストと収集要求rのキーワード集合との類似度である。収集要求rのキーワード集合とは、収集要求rの全てのトピックに記述されたキーワードの論理式に出現する(否定表現以外の)すべてのキーワードである。テキストtとキーワード集合との類似度は、キーワードkの重みwkにテキストt中のkの頻度f(t,k)を乗じた値を、キーワード集合の個々の要素について合計をとった値として計算する。すなわち、
【数2】
とする。nrは収集要求rのキーワード集合の要素数である。キーワードの重みwkはIDF(Inverted Document Frequency:すなわち、より多くのテキストに現れるキーワードほど値が小さくなる重み)で求めるのが一般的である。また、頻度f(t,k)は、単純にテキストt中のキーワードkの出現回数としてもよいが、テキストtのテキスト長によって正規化した値であってもよい。s(u,r)を計算する時点でduすなわちuのウェブ文書が未取得である場合は、sim(du,r)の値は0とする。上記の式から分かるように、duが未取得であっても、uが収集要求rを満足する可能性の大小が、uをリンクするvのスコアや、そのリンクのアンカーテキストに基づいて推測できる。このようにして個々の収集要求rに対するuのスコアs(u,r)が求められるが、R中の全ての収集要求rについてのs(u,r)の最大値をs(u,R)とする。すなわち、
s(u,R)=Max{s(u,r)}(ここで、r∈R)
である。s(u,R)の値が大きいuほど、全てのRを考慮した上で最も優先的に収集すべきURLであるとみなすことができる。
【0050】
s(u,r)とs(u,R)の計算方法は、上記に説明した方法に限らない。ウェブ文書が未取得のURLに対して、取得する優先順位が十分に精度良く決定できる計算方法であれば、他の計算方法を採用してもよい。優先順位の精度がよいほど、ウェブ文書を取得するコストに対して、収集要求を満たす情報が収集できる割合が高くなる。s(u,r)とs(u,R)は、図14におけるステップ143とステップ1414のように、新たなURLに対して常に計算される。また、既知のURLに対しても、ステップ145とステップ1412のように、Rの内容が変更される毎、uのウェブ文書やuのリンク元のスコアが変化する毎にも計算される。図14のステップ144で、ある収集要求rのキーワードの条件が変更された場合には、ステップ145にて、s(u,r)とs(u,R)が計算し直される。
【0051】
s(u,r)とs(u,R)をつねに最新の値に維持した上で、ステップ146では、URL集合Uの中から、ウェブ文書をまだ取得していないuを選択するか、もしくは、最後にウェブ文書を取得してから閾値以上の時間が経過したURLで、かつ、スコアs(u,R)が最大であるようなuを選択する。そこで、uが存在すれば(ステップ147)、このuが、情報ネットワークから最優先に取得すべきURLである。ステップ147において、uが一つも存在しなければ、取得すべきURLがないので、処理を終了する(ステップ148)か、もしくは、収集要求集合Rの変更の有無をチェックしつつ処理を待機することになる。ステップ149では、uのウェブ文書を取得する。本実施形態が対象とするインターネットのウェブ文書については、HTTPプロトコルに従った取得を行う。取得に失敗すれば(ステップ1410)、前のステップに戻り、他のURLに対して上述の処理を繰り返し行う。取得に成功すれば、これを図1のウェブ文書記憶部7に記憶する(ステップ1411)。次に、uのウェブ文書の内容に基づいて、上述のsim(du,r)の項を計算して、スコアs(u,r)およびs(u,R)を計算し直す(ステップ1412)。その後、取得したウェブ文書のパージング(タグの解析)を行って、当該ウェブ文書がリンクするリンク先URLを抽出し、その各々のvについて(ステップ1413)、スコアs(v,r)およびs(v,R)を計算し、URL集合Uにvを追加する(ステップ1414)。情報収集部6は、以上に説明した処理を再帰的に行い、複数のコミュニティの全ての収集要求に対して、一括して並列に、要求を満たす可能性の高いウェブ文書を収集する。したがって、個々の収集要求毎に独立にクローリングを行って収集する場合と比べて、不要なウェブ文書を取得する割合が減るとともに、一つのトピックに着目したクローリングでは発見しにくいような、新たな情報を発見する機会が増えるという効果がある。
【0052】
図14のステップ145、ステップ1412、及びステップ1414でスコアを計算したURLのうち、ウェブ文書を取得済みのURLの中には、個々のコミュニティの収集結果として追加すべきものがある。あるいは逆に、収集結果の中にすでに含まれているURLのうち、収集要求の条件を満たさなくなったURLについては、これを収集結果から削除する必要がある。そこで、収集結果生成部8が行う処理を図15を参照して説明する。
【0053】
まず、対象とするuのウェブ文書が取得済みであれば(ステップ151)、収集要求集合Rの中の、スコアs(u,r)が変化した収集要求について、下記の処理を繰り返し行う(ステップ152)。すなわち、収集要求rに対応する収集結果cに既にuが含まれていれば(ステップ153)、収集要求rの各々のトピックにキーワードの論理式の形式で記述された条件をuが満たすかどうかを調べる(ステップ154)。この処理は、uのウェブ文書のテキストが、収集要求rの論理式を満足する形でキーワードを含むかどうかを調べることによってなされる。uのウェブ文書のテキストが、収集要求rの中のどのトピックの条件も満たさなければ、uを収集結果cから削除する必要がある。しかし、過去にユーザがuを有用であるとみなし、収集結果cの中にuを含めるように明示的に編集を行ったことがある場合には(ステップ155)、uは収集結果cから削除しない。ステップ155において、明示的な編集とは、前述の図13で示したような編集手段を用いて、uを追加したり、あるいはコメント文などの付加情報の作成を行う編集をいう。ステップ155において、ユーザが明示的な編集を行っていない場合は、uを収集結果cから削除する(ステップ156)。一方、ステップ153にて、uが収集結果cに含まれておらず、かつ、uが収集要求rの条件を満たす(ステップ157)ならば、uは収集結果cに追加すべきである。ただし、過去にユーザがuを不要であるとみなし、収集結果cの中にuを含めないように明示的に編集を行ったことがある場合には(ステップ158)、uを収集結果cに追加しない。ステップ158において、明示的な編集とは、前述の図13で示したような編集手段を用いてuを削除した場合をいう。このような場合以外は、uを収集結果cに追加する(ステップ159)。ここで、本実施形態の収集結果は、図12と図13で説明したように、トピックとサイトによって整理した形式で作成されるので、uを収集結果cの中のトピックのうち、条件を最もよく満たすトピックの中に追加する。また、uが既知のサイト内のURLである場合には、そのサイトの詳細情報として、図12の情報125に示したような形で追加するし、未知のサイトの情報である場合には、図12の情報128に示したように新しいサイトとして追加し、コメント文129としてウェブ文書から取得したテキストを付加する。
【0054】
本発明の実施形態に係る情報収集システムにおいては、収集要求と収集結果を、ユーザが明示的に編集するだけなく、コミュニティ内でやり取りしたメッセージから収集要求と収集結果を自動的に更新する処理をも行う。この処理によって、動的に変化するユーザの興味・関心に常に合致するように収集要求と収集結果とを維持することができる。
【0055】
図16を用いて、メッセージに基づいて収集要求と収集結果を更新する処理の流れを説明する。
【0056】
未処理のメッセージmについて(ステップ161)、まず、mの返信メッセージを再帰的に集め、mを含むこれらのメッセージの集合をMmとする(ステップ162)。図17に示したメッセージの例では、メッセージ171に対して、メッセージ172、173等が返信メッセージである。次に、Mmのメッセージの各々から、URLの記述、すなわち、「http://」等で始まる記述を抽出して、これをMm全てのメッセージについて集めたURL集合をUmとする(ステップ163)。図17の例では、174、176、178、1712がURLである。なお、テキスト1711は、URL174と同一であるし、メッセージ171の引用部分に含まれるので、この部分は処理しない。ステップ163の処理と同時に、Umの各URLに対してメッセージ中に記述されているコメント文を抽出し、Umの各要素に対応したコメント文集合Dmを得る(ステップ164)。ステップ164において、メッセージからURLへのコメント文を抽出する処理は、単純には、URLと同一メッセージ内の同一の段落のテキストをそのまま抽出することで実現できるが、より複雑には、メッセージの返信関係に基づき、引用されているテキストまでも含めて文脈を理解し、複数のメッセージ間にまたがってコメント文を抽出する方法もある。図17の例では、URL174に対するテキスト175、URL176に対するテキスト177、URL178に対するテキスト179、および、URL1712に対するテキスト1711が、コメント文として抽出される。また、URL1712はURL1710(すなわち174)のサイト内のURLであり、さらに、URL1710はメッセージ171を引用した部分に含まれることから、テキスト1711およびURL1712は、URL174をより詳細に説明する情報であると解釈できる。
【0057】
このようにして、URL集合Umとコメント文集合Dmとをメッセージ集合Mmから得た後は、これを当該コミュニティの収集要求r(または収集結果c)の、どのトピックに追加すべきかを決定する処理を行う。
【0058】
まず、ステップ165にて、収集要求rの各トピックに記述された収集起点URL(あるいは、収集結果cの各トピックに記述されたURL)と、前記Umとを比較し、最も重複の多いトピックtmを選択することを試みる(ステップ165)。URLの重複を調べる処理では、URLが完全に一致する場合だけでなく、URLのサイトが一致する場合も考慮する。ステップ165でtmが選択できない場合(ステップ166)には、収集要求rの各トピックに記述されたキーワード集合(あるいは収集結果cの各トピックに記述されたサイト名やコメント文などのテキスト)と、Dmのテキストとを比較し、最も重複の多いトピックをtmとする(ステップ167)。ステップ167でもtmが選択できない場合(ステップ168)には、トピックを新たに作成してこれをtmとする(ステップ169)。この場合、トピック名には、メッセージのタイトルを用いる。さらに、収集要求を更新する場合には、新規トピックであるtmに対するキーワードとして、Dmから抽出した重要語を選択する(ステップ1610)。ここでの重要語は、コメント文テキストに高い頻度で含まれ、かつ、他のトピックのコメント文テキストには低い頻度でしか含まれない語とする(従来の統計的手法により求めることができる)。ステップ165から1610の処理でトピックtmを選択もしくは作成した後、tmに、先のUmを(収集結果の更新の場合には、Dmのコメント文と関連付けて)追加する(ステップ1611)。
【0059】
以上に説明した処理によって、図17のメッセージに対して、図18に示した収集要求、および、図19に示した収集結果が生成される。図18のトピック名181は図17のメッセージ171のタイトルであり、キーワード182は、図17のテキスト175、177、179、1711から抽出した重要語のORからなる論理式である。また、収集起点URL183には、URL174、176、178、1712が設定される。ユーザは、自動的に生成されたこれらの項目を、必要ならば前述の収集要求編集手段を用いて適宜修正して、メッセージで議論された話題に関連する情報を収集するための収集要求を簡単に作成することができる。一方、図19の収集結果については、トピック名191には図17のメッセージ171のタイトルが用いられ、サイト192、195、197にはそれぞれ図17のURL174、176、178が用いられる。各サイトに対するコメント文193、196、198には、それぞれ、図17のテキスト175、177、179が用いられる。また、メッセージ173の1711の部分は、サイト192の詳細情報として情報194に示した形で埋め込まれる。このようにして自動生成された収集結果は、常にユーザにとって利用しやすい内容に作られるとは限らず、例えばコメント文198のように余分なテキストが含まれる場合もある。この場合には、前述の収集結果編集手段を用いて、ユーザが見やすい形に自由に編集することが容易に行える。
【0060】
以上に説明した処理によって、一連のメッセージMmに対して、収集要求あるいは収集結果のトピックtmが関連付けられる(ステップ165、167)か、あるいは、新たに作成される(ステップ169)。このようなメッセージとトピックとの関連をユーザに提示することによって、ユーザがメッセージを理解したり、メッセージと関連する情報にアクセスしたりする作業を支援することができる。これは例えば、図9に示したように、メッセージ「音楽配信ビジネス」92に対して、関連するトピック「コンテンツ配信」93を関連付けて表示することによって行われる。
【0061】
一方、収集結果に対してユーザが行う編集に応じて、収集要求を自動的に更新することも可能である。この処理は、図16で説明した処理と同様の処理で実現される。ユーザが自由な形式で記述するメッセージと異なり、収集結果は、上述の収集結果編集手段(図13)で説明したような所定の形式で記述するため、この処理は図16の処理よりも比較的容易に実現できる。収集要求の条件とするキーワードは、収集結果に記述されるコメント文等から作成する。
【0062】
図1のウェブ文書検索部10の処理の流れを、図20を用いて説明する。ウェブ文書検索部10は、図1の情報収集部6が収集してウェブ文書記憶部7に記憶したウェブ文書を、ユーザが検索して利用するための手段である。
【0063】
図20において、まず、ユーザによって検索条件qが入力されると(ステップ201)、収集済みのウェブ文書からqを満足する文書を検索し、その結果のURL集合をUqとする(ステップ202)。次に、Uqの各々の要素uについて(ステップ203)、uを含む収集結果cを探す(ステップ204)。この収集結果cは、u自体を含む収集結果であってもよいし、あるいは、uと同一サイトのURLや、uをリンクするリンク元のURLを含む収集結果であってもよい。このような収集結果cが存在すれば(ステップ205)、uを説明する見出しおよび説明文として収集結果cに記述されているサイト名、コメント文のテキストを用い、uと収集結果cとを関連付けてユーザに提示する(ステップ206)。収集結果cが存在しなければ、uを説明する見出しおよび説明文として、uのウェブ文書に記述されているタイトルや本文等のテキストを用いてuをユーザに提示する(ステップ207)。
【0064】
図21は、図20で説明した処理によってユーザに提示された検索結果の画面例を示す図である。ユーザが入力した検索条件「オークション」211に対して検索された個々のウェブ文書のURL「http://xyz.com/」212等に対して、見出し「○○オークション」213、説明文214等を、ステップ204で求めた収集結果、例えば図19に示すサイト名192、コメント文193を用いてユーザに提示する。さらに、図21に示すように、収集結果のトピック215を収集結果と関連付けて提示する。検索結果のURLと関連する収集結果がなければ、例えば、検索結果の説明文としてウェブ文書のテキストの一部217(一般的には、冒頭部分のテキストや、検索語が出現する近傍のテキスト)を提示する。このように、ウェブ文書からそのまま得たテキストは、意味が理解し難しかったり、必ずしもそのサイトの内容を適切に表した記述でない場合がある。これに対し、説明文214のように、コミュニティのメンバーが収集結果の中で記述したテキストは、簡潔で理解しやすい記述である場合が多い。また、検索結果の情報に対して図21に示すように収集結果のトピックを関連付けて表示することにより、その情報がどのような分野・文脈の情報であるかが容易に理解できるようになる。さらに、ユーザは、当該トピックに含まれる他の有用な情報を利用することができる。あるトピックに関する情報を収集しているコミュニティは、そのトピックに関心を持つ専門家の集団であると言えるので、検索結果中の個々の情報について、どのようなコミュニティがこれを有用とみなしているか、いないかを、即座に知ることができるという効果もある。
【0065】
以上に説明した処理は、検索結果と収集結果とを関連付けて提示する処理であったが、これと同様の方法により、あるコミュニティの収集結果に対して、他のコミュニティの収集結果を関連付けて表示することも可能である。
【0066】
図12の情報127の例では、「eコマース調査グループ」が「コンテンツ配信」のトピックとして収集した情報「××エンターテインメント」に対し、別のコミュニティである「カラオケ友の会」が収集した「家庭用コンテンツ」のトピック127が関連付けて提示される。この処理も、図20のステップ204と同様に、あるURLが収集結果に含まれているかどうかを調べることって実現される。このように、検索結果や収集結果に対し、他のコミュニティが関心のあるトピックや収集した情報を関連付けて提示することは、ユーザが検索結果や収集結果を利用する際の手助けになるだけでなく、ユーザが参加していない他のコミュニティがどのようなトピックに関心を持って活動を行っているかを、知る機会を増やす働きをする。その結果、複数のコミュニティ間の交流が活発になるという効果がある。
【0067】
本発明は、上記の発明の実施の形態に限定されるものではない。本発明の要旨を変更しない範囲で種々変形して実施できるのは勿論である。
【0068】
【発明の効果】
以上説明したように、本発明によれば、共通の関心を持ったコミュニティのメンバーが共同で収集要求と収集結果を編集し、これを継続的に洗練・保守していくことができるので、メンバー一人一人の少ない労力の寄与によって、コミュニティ全員にとって有用な情報を収集・整理して共有することができる。さらに、コミュニティ内で日常的に行われるメッセージのやり取りに基づいて、収集要求と収集結果が自動的に更新されるので、収集要求と収集結果を編集するユーザの作業が軽減するとともに、コミュニティの活動に応じて動的に変化する関心に対応した情報収集を行うことができる。
【図面の簡単な説明】
【図1】 本発明の一実施形態である情報収集システムの構成を示す図。
【図2】 従来の情報収集システムの構成の一例を表す図。
【図3】 ユーザ情報の例を表す図。
【図4】 ユーザの登録、認証およびコミュニティへの参加の処理の流れを表す図。
【図5】 コミュニティ情報の一覧提示画面の例を表す図。
【図6】 メッセージの送信の処理の流れを表す図。
【図7】 収集要求の編集の処理の流れを表す図。
【図8】 収集結果の編集の処理の流れを表す図。
【図9】 メッセージの閲覧画面の例を表す図。
【図10】 メッセージの編集画面の例を表す図。
【図11】 収集要求の編集画面の例を表す図。
【図12】 収集結果の閲覧画面の例を表す図。
【図13】 収集結果の編集画面の例を表す図。
【図14】 情報収集の処理の流れを表す図。
【図15】 収集結果の生成の処理の流れを表す図。
【図16】 メッセージから収集要求または収集結果を生成する処理の流れを表す図。
【図17】 メッセージの例を表す図。
【図18】 メッセージから生成された収集要求の例を表す図。
【図19】 メッセージから生成された収集結果の例を表す図。
【図20】 ウェブページ検索の処理の流れを表す図。
【図21】 ウェブページ検索の検索結果画面の例を表す図。
【符号の説明】
1…コミュニティ管理部
2…コミュニティ情報提示部
3…メッセージ送受信部
4…収集要求編集部
5…収集結果編集部
6…情報収集部
7…ウェブ文書記憶部
8…収集結果生成部
9…収集要求生成部
10…ウェブ文書検索部
11…ユーザ情報記憶部
12…メッセージ記憶部
13…収集要求記憶部
14…収集結果記憶部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information collection system that collects information satisfying a user's request from a plurality of information sources distributed in an information network such as the Internet or an intranet.
[0002]
[Prior art]
With the spread of large-scale information network technology, everyone can freely use a large amount of information. A large amount of information is disclosed as hypertext documents (web pages) on information networks such as the Internet and intranet, and the number is said to be several billion. As a method of using such information, a method of selecting (browsing) an item of interest (hyperlink) using information browsing software called a browser is generally used. Also, there are various types of search service sites for searching for information that satisfies the conditions specified by keywords, etc. from a large amount of information, and directory sites that classify and provide information in a form that is easy to use. . In order to obtain the desired information, the user first searches for a document that is likely to meet his interests using a search service site or directory site, and then the content of the document or other linked documents. A series of operations of repeatedly examining the contents of a document by browsing is performed. In addition, for frequently used information and particularly important information, the location (URL) of the information is stored using a means called bookmark, which is a browser-attached function, or the location of useful information is listed. (Links) are created and used.
[0003]
However, it takes time and labor to collect necessary information from a large amount of information by searching and browsing. In addition, search service sites and directory sites have a problem that the latest information and highly specialized information are not sufficiently provided. One of the techniques for solving these problems is an automatic crawling technique. It automatically scans a large amount of document information using software (ie, a crawler) that recursively follows (ie, crawling) hypertext hyperlinks, and documents that satisfy user-specified conditions. How to collect. The collection conditions that can be given to the crawler by the user include restrictions on the number and capacity of documents to be collected, the document at the starting point of collection, the upper limit of the number of links to be traced from the document at the starting point, the range to be collected (web server Domain etc.), document update date and time conditions, etc. In addition, as conditions regarding the contents of the document, the frequency of occurrence of keywords, phrases, etc. in the target document, the similarity between the illustrated document and the target document, the description (profile) of the user's interest / interest and the target document There are conditions for similarity, etc. Furthermore, a method has been proposed in which the importance of a target document is calculated based on the number of accesses and the structure of hyperlinks, and documents with a high importance are preferentially collected. Known documents on automatic crawling techniques include “Focused Crawling: A New Approach for Topic-Specific Resource Discovery”, Soumen Chakrabarti et al., The Eighth International World Wide Web Conference, 1999 (hereinafter referred to as “Reference 1”), No. 10-260978 “Information Collection Method and Apparatus” (hereinafter referred to as “
[0004]
On the other hand, as means for exchanging information among a plurality of users, means such as e-mail, mailing list, electronic bulletin board, and chat are widely used. The mailing list is a means for collecting e-mail addresses of a plurality of users and sending a message to all of them at once. The electronic bulletin board is a means for providing a space for information sharing on the network so that a plurality of registered users or anonymous users can freely enter messages. Chat is a means for providing an information sharing space in the same way as an electronic bulletin board so that text messages can be transmitted and received in real time. In communication methods aimed at exchanging messages (not only one-on-one) by a relatively large number of users, such as mailing lists, electronic bulletin boards, chats, etc., messages related to topics that the majority of participating members are commonly interested in exchange Often done. A group of users exchanging electronic messages with a common purpose and topic is hereinafter referred to as a “community” in this specification.
[0005]
When one member of a community obtains useful information, it is routinely performed to share information among members by notifying other members using the communication means described above. Of the information exchanged in this way, especially useful information is voluntarily listed by member volunteers, and useful information is listed manually so that other members can use it easily. In some cases, it is organized into shapes and regularly maintained. The topics of interest to community members are often within a range that does not depart from the spirit of the community, but change somewhat dynamically. For techniques for automatically examining what topics community members are interested in, see Japanese Patent Application Laid-Open No. 2000-293526 “Preference Information Collection System” (hereinafter referred to as “
[0006]
[Problems to be solved by the invention]
The automatic crawling has a problem that the collection efficiency is not good although the time required for collection and the consumption of network resources are large. Harvest rate due to crawling from the Internet, that is, the ratio of information related to user requests in the collected web pages is about 50% in the best case (Reference 1), and the remaining 50% Will be discarded without being used.
[0007]
Furthermore, in order to collect a web page by crawling, it is necessary for the user to specify conditions such as a starting URL, a range to be collected, and a keyword as collection conditions. However, it is unknown how to specify useful conditions to obtain useful information, and the collection efficiency is not good as described above. Therefore, in general, skill is required to use a crawler as compared with a search service site or a distribution type information filtering system. For this reason, it is desired to share knowledge and know-how for efficiently collecting useful information among users.
[0008]
For the reasons described above, the crawler is mainly used by search service sites to collect and index a large number of web pages of arbitrary contents and to periodically visit known limited websites. It is used only for the purpose of monitoring the presence or absence of updated information. Therefore, the current situation is that crawlers are not utilized for the purpose of actively collecting information from unknown sources or discovering new information that would potentially match the user's interest.
[0009]
On the other hand, in a method in which members of a community exchange information using conventional communication means such as an electronic bulletin board, it is possible to flexibly share information utilizing the knowledge and expertise of each member. However, this method relies heavily on the capabilities and spontaneity of individual users. Finding useful information and letting other members know is labor intensive, and in the first place it is impossible to discover new information that all members of the community do not know.
[0010]
Moreover, even if a lot of useful information is obtained by the efforts of individual members, the collected information cannot be effectively used in a state where each piece is unsorted and distributed in separate messages. It takes a lot of work to select useful information from a large number of messages and arrange it in a form that can be shared among members of the community. The invention according to
[0011]
The present invention has been made to solve the above-described problems, and efficiently collects information that satisfies the user's request, and effectively uses the collected results for a plurality of users, and is useful information. The purpose is to support the work of continuously organizing and maintaining
[0012]
[Means for Solving the Problems]
In order to solve the above problems, an information collection system according to the present invention is a community that manages a plurality of communities each of which is a member of a plurality of users in an information collection system that collects and presents information that satisfies a user's request. Management means, message transmission / reception means for members belonging to each community to send and receive messages, community information presentation means for users to view information shared by each of the plurality of communities, A collection request editing means for the members belonging to each other to edit a collection request in the community, and information satisfying any of the plurality of collection requests edited in each of the plurality of communities are information sources on the information network. Information collecting means to collect from the information collected A collection result generation means for generating a collection result corresponding to each of the plurality of collection requests, and a collection result editing means for the members belonging to each community to jointly edit the collection result in the community. The community information presenting means presents a plurality of collection results respectively created in a plurality of communities to a member of the community and non-member users in association with a message transmitted / received in the community or the community. It is characterized by doing.
[0013]
A preferred embodiment of the information collecting system according to the present invention is as follows. In addition, each following embodiment may be applied independently and may be applied in combination as appropriate.
[0014]
(1) Automatically updating at least one of the community collection request and the community collection result based on a message transmitted and received by a member of the community using the message transmission / reception means.
[0015]
(2) Update the collection request corresponding to the collection result based on the edited contents of the collection result performed by the community member using the collection result editing means.
[0016]
(3) To present a collection result of a community in association with a collection result of another community that redundantly contains information included in the collection result of the community.
[0017]
(4) It further comprises a collection information search means for searching information satisfying a search condition input by the user from the information collected by the information collection means, and the collection information search means includes the searched information, Presenting the collection results including the searched information among the collection results created by the community in association with each other.
[0018]
The information collecting method according to the present invention is an information collecting method for collecting and presenting information satisfying a user's request, wherein members belonging to each community edit the collection request in the community and edit the information in each community. Collecting information satisfying any of the plurality of collection requests from a plurality of information sources on the information network, and generating a collection result corresponding to each of the plurality of collection requests based on the collected information, The members belonging to the community collaborate to edit the collection results in the community, and associate the plurality of collection results each created by the plurality of communities with the community or a message transmitted / received within the community. Information shared by each of the community members Characterized in that it presented to the user of the beauty non-members.
[0019]
A program for causing an information collection computer according to the present invention to execute information collection for collecting and presenting information satisfying a user's request is a program for causing a computer to collect information for presenting and presenting a user's request. , Input the collection request in the community edited jointly by the members belonging to each community, and collect information satisfying any of the multiple collection requests edited in each community from multiple information sources on the information network And generating a collection result corresponding to each of the plurality of collection requests based on the collected information, and inputting a collection result in the community edited by members belonging to each community. Multiple collection results created for each In association with messages sent and received in the within the community, the information that is shared by each of the plurality of communities, characterized by presenting to the user of the members and non-members of the community.
[0020]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0021]
FIG. 1 is a diagram showing a configuration of an information collection system according to an embodiment of the present invention. In FIG. 1, a community management unit 1 manages a plurality of communities. That is, the community management unit 1 stores and manages information on a plurality of users who are members in each community of the plurality of communities and messages transmitted and received between users in each community. The community management unit 1 includes a user information storage unit 11 and a
[0022]
The community
[0023]
The message transmission /
[0024]
The collection
[0025]
The
[0026]
Based on the collection request registered for each community, the collection
[0027]
The configuration described above is the minimum configuration for carrying out the present invention. However, in addition to the above configuration, a collection
[0028]
The web
[0029]
The difference between the configuration of the information collection system according to the embodiment of the present invention described above and the configuration of the conventional information collection system will be described with reference to FIG. FIG. 2 is a schematic block diagram of a conventional general information collection system. The information collection system shown in FIG. 2 includes the collection
[0030]
Hereinafter, embodiments of the present invention will be described in detail.
[0031]
FIG. 3 is a diagram showing user information and community information stored in the user information storage means. FIG. 3A is an example of
[0032]
A procedure for a user to exchange information using a community will be described with reference to the flowchart of FIG. First, if the user is a registered user (step 41), user authentication is performed (step 42). If authentication is successful in step 42 (step 43), the community can be used with the authority of the registered user. The user authentication procedure may be a method of authenticating the user ID and password entered by the user, as in the conventional method. If the user is an unregistered user and wishes to newly register a user (step 44), a user registration procedure (step 45) is performed. If the registration is correctly performed in step 45 (step 46), the community can be used with the authority as a new registered user. As with the conventional method, the user registration procedure is to issue the
[0033]
Then, the community information presentation unit presents a list of existing communities to the user. First, a list of communities in which the user participates is presented only to registered users (step 47). Next, a list of non-participating communities is presented to both registered users and unregistered anonymous users (step 48). Here, only limited information is presented for users who are not participating in the community or anonymous users. FIG. 5 shows an example of a screen on which a list of a plurality of community information is presented. This screen is a diagram showing an “aoki portal page” 51 presented at the stage when the registered user “aoki” (the user whose user ID is u1 in FIG. 3) performs user authentication. In FIG. 5, a
[0034]
Next, the flow of processing for the user to select and join a certain community and perform activities such as message transmission and reception will be described. When the user enters the community selected in
[0035]
FIG. 6 to FIG. 8 are diagrams showing the flow of processing of message transmission, collection request editing, and collection result editing as user activities in the community. 9 to 13 are display examples of screens corresponding to these processes. In the case of this embodiment, message transmission / reception is performed by the message transmission /
[0036]
On the other hand, message transmission is performed by the processing shown in FIG. In
[0037]
FIG. 7 is a diagram illustrating a flow of processing in which a community member edits a collection request. In this specification, the collection request refers to data describing a request or condition that the user wants to collect, and is an input to the
[0038]
The collection request editing process described above is performed by the collection
[0039]
FIG. 11 shows an example of a screen for editing a collection request. When the user selects the collection request menu 111 on the screen, a means for editing the collection request is displayed. Since it is generally considered that there are a plurality of topics to be collected in a community, a plurality of topics can be described in a collection request created by one community.
[0040]
In the example of FIG. 11, topics of “electronic mall”, “content distribution”, and “online trade” are shown as examples of the collection request of the community “e-commerce research group”. In addition to these existing topics, the user can also edit such as adding new topics (button 116) and deleting unnecessary topics (button 113). Note that the check-out / check-in processing unit described with reference to FIG. 7 is not limited to the entire collection request as one processing unit, but may be a topic as one processing unit. As data described for each topic, there are a
[0041]
FIG. 8 is a diagram illustrating a flow of processing in which a community member edits a collection result. The collection result refers to data obtained by processing the information collected by the system in response to an information request into a format that can be easily used by members of the community, and is mainly output from the collection
[0042]
The collection result editing process described above is performed by the collection
[0043]
As a result of information collection by crawling, information in such a known site is collected (see
[0044]
When the user presses an “edit” button (1210) on the screen shown in FIG. 12, a screen as shown in FIG. 13 is displayed. As described above, the collection results are organized by a plurality of topics (such as “electronic mall” 131), and the topics are further organized by site (such as “XX mall” 134). The user can add new topics and delete unnecessary topics (
[0045]
In the above description, the activities performed by the user in the community and the means according to the embodiment of the present invention provided therefor have been mainly described. However, in the following, the information requested by the user is collected from the information network and the user A process for generating a collection result that meets the above request will be described. FIG. 14 is a diagram illustrating a flow of processing performed by the
[0046]
The
[0047]
First, the initial value of U is set as an empty set (step 141). Thereafter, each time a new collection request r is created in R, it is checked whether or not a new URL has been registered as the collection starting URL of each r topic (step 142). If a new URL u (hereinafter simply referred to as “u”) is registered, its score is calculated (step 143). Here, the score s (u, r) of u for a certain collection request r is calculated by the following equation.
[0048]
[Expression 1]
[0049]
Here, α, β, and γ are constants. It is assumed that v is a URL included in U (hereinafter simply expressed as “v”), and v is a link source of u. s (v, r) is a score for the collection request r of v. Moreover, a: v → u is an anchor text attached to a link from v to u. Sim (a, r) is the similarity between the anchor text a and the keyword set of the collection request r. du is the text of u's web document. Sim (du, r) is the similarity between the text of du and the keyword set of the collection request r. The keyword set of the collection request r is all keywords (other than negative expressions) that appear in the logical expressions of the keywords described in all topics of the collection request r. The similarity between the text t and the keyword set is calculated as a value obtained by multiplying the weight w of the keyword k by the frequency f (t, k) of k in the text t and totaling the individual elements of the keyword set. To do. That is,
[Expression 2]
And nr is the number of elements in the keyword set of the collection request r. The keyword weight wk is generally obtained by IDF (Inverted Document Frequency: that is, a weight that decreases as the keyword appears in more text). The frequency f (t, k) may be simply the number of appearances of the keyword k in the text t, but may be a value normalized by the text length of the text t. If du, that is, the web document of u has not been acquired at the time of calculating s (u, r), the value of sim (du, r) is set to 0. As can be seen from the above formula, even if du is not acquired, the possibility of u satisfying the collection request r can be estimated based on the score of v linking u and the anchor text of the link. . In this way, the score s (u, r) of u for each collection request r is obtained. The maximum value of s (u, r) for all the collection requests r in R is set to s (u, R). And That is,
s (u, R) = Max {s (u, r)} (where r∈R)
It is. It can be considered that u with a larger value of s (u, R) is a URL that should be collected most preferentially in consideration of all Rs.
[0050]
The calculation method of s (u, r) and s (u, R) is not limited to the method described above. Other calculation methods may be employed as long as the calculation priority can be determined with sufficient accuracy for URLs from which web documents have not been acquired. The higher the accuracy of the priority, the higher the ratio of collecting information that satisfies the collection request with respect to the cost of acquiring the web document. s (u, r) and s (u, R) are always calculated for a new URL, as in
[0051]
In
[0052]
Among the URLs whose scores have been calculated in
[0053]
First, if the target u web document has been acquired (step 151), the following processing is repeated for the collection request in which the score s (u, r) has changed in the collection request set R (step 151). 152). That is, if u is already included in the collection result c corresponding to the collection request r (step 153), whether u satisfies the condition described in the form of the keyword logical expression in each topic of the collection request r (Step 154). This process is done by checking whether the text of u's web document contains keywords in a way that satisfies the logical expression of the collection request r. If the text of u's web document does not satisfy the condition of any topic in the collection request r, u must be deleted from the collection result c. However, if the user has regarded u as useful in the past and has explicitly edited u to be included in the collection result c (step 155), u is deleted from the collection result c. do not do. In
[0054]
In the information collection system according to the embodiment of the present invention, not only the user explicitly edits the collection request and the collection result, but also a process of automatically updating the collection request and the collection result from messages exchanged in the community. Also do. By this processing, the collection request and the collection result can be maintained so as to always match the dynamically changing user's interest.
[0055]
The flow of processing for updating the collection request and the collection result based on the message will be described with reference to FIG.
[0056]
For the unprocessed message m (step 161), first, m reply messages are collected recursively, and a set of these messages including m is defined as Mm (step 162). In the example of the message shown in FIG. 17,
[0057]
In this way, after the URL set Um and the comment sentence set Dm are obtained from the message set Mm, a process for determining which topic of the collection request r (or collection result c) of the community should be added thereto. I do.
[0058]
First, in
[0059]
Through the processing described above, the collection request shown in FIG. 18 and the collection result shown in FIG. 19 are generated for the message in FIG. The
[0060]
Through the processing described above, a collection request or collection result topic tm is associated with a series of messages Mm (
[0061]
On the other hand, it is possible to automatically update the collection request in accordance with the editing performed by the user on the collection result. This processing is realized by the same processing as the processing described in FIG. Unlike the message described by the user in a free format, the collection result is described in a predetermined format as described in the above collection result editing means (FIG. 13). It can be easily realized. The keyword used as the condition for the collection request is created from a comment sentence described in the collection result.
[0062]
The processing flow of the web
[0063]
In FIG. 20, first, when a search condition q is input by the user (step 201), a document satisfying q is searched from the collected web documents, and the resulting URL set is set as Uq (step 202). Next, for each element u of Uq (step 203), a collection result c including u is searched (step 204). The collection result c may be a collection result including u itself, or may be a collection result including a URL of the same site as u and a link source URL to link u. If such a collection result c exists (step 205), the site name described in the collection result c and the text of the comment sentence are used as a headline and explanation for explaining u, and u is associated with the collection result c. To the user (step 206). If the collection result c does not exist, u is presented to the user by using text such as a title and a body described in the web document of u as a headline and an explanatory text explaining u (step 207).
[0064]
FIG. 21 is a diagram illustrating an example of a search result screen presented to the user by the processing described in FIG. For the URL “http://xyz.com/” 212 etc. of the individual web documents searched for the search condition “auction” 211 entered by the user, the heading “XX auction” 213, the
[0065]
The process described above was a process of presenting search results and collection results in association with each other, but using the same method, display the collection results of another community in association with the collection results of another community. It is also possible to do.
[0066]
In the example of information 127 in FIG. 12, “household content” collected by another community “Karaoke Tomo no Kai” for information “XX Entertainment” collected as a topic of “content distribution” by “e-commerce research group”. ”Topic 127 is presented in association with each other. This process is also realized by checking whether or not a certain URL is included in the collection result, as in
[0067]
The present invention is not limited to the above-described embodiments. Of course, various modifications can be made without departing from the scope of the present invention.
[0068]
【The invention's effect】
As described above, according to the present invention, members of a community who have a common interest can edit a collection request and a collection result jointly, and continuously refine and maintain this. Thanks to the small effort of each person, we can collect, organize and share useful information for the whole community. Furthermore, since collection requests and collection results are automatically updated based on daily message exchanges within the community, the user's work to edit collection requests and collection results is reduced and community activities are reduced. It is possible to collect information corresponding to interests that dynamically change according to the situation.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration of an information collection system according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of a configuration of a conventional information collection system.
FIG. 3 is a diagram illustrating an example of user information.
FIG. 4 is a diagram showing a flow of processing for user registration, authentication, and community participation.
FIG. 5 is a diagram illustrating an example of a list display screen for community information.
FIG. 6 is a diagram showing a flow of message transmission processing.
FIG. 7 is a diagram illustrating a flow of processing for editing a collection request.
FIG. 8 is a diagram illustrating a flow of processing for editing a collection result.
FIG. 9 is a diagram illustrating an example of a message browsing screen.
FIG. 10 is a diagram illustrating an example of a message editing screen.
FIG. 11 is a diagram illustrating an example of a collection request editing screen.
FIG. 12 is a diagram illustrating an example of a collection result browsing screen.
FIG. 13 is a diagram illustrating an example of a collection result editing screen.
FIG. 14 is a diagram showing a flow of information collection processing.
FIG. 15 is a diagram illustrating a flow of processing for generating a collection result.
FIG. 16 is a diagram showing a flow of processing for generating a collection request or a collection result from a message.
FIG. 17 is a diagram illustrating an example of a message.
FIG. 18 is a diagram illustrating an example of a collection request generated from a message.
FIG. 19 is a diagram illustrating an example of a collection result generated from a message.
FIG. 20 is a diagram showing a flow of web page search processing.
FIG. 21 is a diagram illustrating an example of a search result screen for web page search.
[Explanation of symbols]
1 ... Community Management Department
2 ... Community information presentation part
3 ... Message transmission / reception unit
4 ... Collection request editor
5 ... Collection result editing department
6 ... Information collection department
7 ... Web document storage
8 ... Collection result generator
9 ... Collection request generator
10 ... Web document search part
11: User information storage unit
12 ... Message storage
13 ... Collection request storage unit
14 ... Collection result storage unit
Claims (6)
それぞれ複数のユーザをメンバーとする複数のコミュニティを管理するコミュニティ管理手段と、
各コミュニティに属するメンバーがメッセージの送受信を行うためのメッセージ送受信手段と、
前記複数のコミュニティの各々で共有されている情報をユーザが閲覧するためのコミュニティ情報提示手段と、
各コミュニティに属するメンバーが共同で、当該コミュニティにおける収集要求として、収集の起点とする情報と、情報が含むべき語句の条件とを記述した収集要求を編集するための収集要求編集手段と、
各複数のコミュニティにおいて編集された複数の収集要求のいずれかを満足する情報を、前記各々の収集要求に記述された収集の起点である情報からハイパーリンクを辿って前記語句の条件を満たす情報を探索することにより、情報ネットワーク上の複数の情報源から収集する情報収集手段と、
前記収集した情報に基づいて前記複数の収集要求の各々に対応する収集結果を各々生成する収集結果生成手段と、
各コミュニティに属するメンバーが共同で、当該コミュニティにおける収集結果を編集するための収集結果編集手段と、を具備し、
前記コミュニティ情報提示手段は、複数のコミュニティで各々作成された複数の収集結果を、当該コミュニティまたは当該コミュニティ内で送受信されるメッセージと関連付けて、当該コミュニティのメンバーおよび非メンバーのユーザに提示すると共に、当該コミュニティにおける当該収集結果を構成する前記情報収集手段で収集された情報と、他のコミュニティにおける収集結果を構成する前記情報収集手段で収集された情報とが、重複する場合には、当該コミュニティにおける当該収集結果と、当該他のコミュニティにおける収集結果とを、関連付けて提示することを特徴とする情報収集システム。In an information collection system that collects and presents information that satisfies user requirements,
Community management means for managing multiple communities each of which has multiple users as members,
Message sending and receiving means for members belonging to each community to send and receive messages;
Community information presenting means for a user to browse information shared by each of the plurality of communities;
A collection request editing means for editing a collection request in which members belonging to each community jointly describe information as a collection request in the community and information on a starting point of the collection and a phrase condition to be included in the information ,
Information satisfying any one of a plurality of collection requests edited in each of the plurality of communities is information that satisfies a condition of the phrase by following a hyperlink from information that is a starting point of collection described in each of the collection requests. Information collecting means for collecting from a plurality of information sources on the information network by searching ;
A collection result generating means for generating a collection result corresponding to each of the plurality of collection requests based on the collected information;
A collection result editing means for the members belonging to each community to jointly edit the collection results in the community,
The community information presenting means presents a plurality of collection results respectively created in a plurality of communities in association with a message transmitted / received in the community or the community, to members of the community and non-member users , If the information collected by the information collecting means constituting the collection result in the community overlaps with the information collected by the information collecting means constituting the collection result in another community, An information collection system characterized by presenting the collection result and the collection result in the other community in association with each other .
コンピュータが、各コミュニティに属するメンバーが共同で、当該コミュニティにおける収集要求として、収集の起点とする情報と、情報が含むべき語句の条件とを記述した収集要求を編集し、 The computer edits the collection request that describes the information that is the starting point of the collection and the terms of the phrase that the information should contain as a collection request in the community, together with members belonging to each community.
コンピュータが、各コミュニティにおいて編集された複数の収集要求のいずれかを満足する情報を、前記各々の収集要求に記述された収集の起点である情報からハイパーリンクを辿って前記語句の条件を満たす情報を探索することにより、情報ネットワーク上の複数の情報源から収集し、 Information that satisfies any of the plurality of collection requests edited in each community by satisfying the above phrase by following a hyperlink from information that is the starting point of collection described in each of the collection requests. By collecting information from multiple sources on the information network,
コンピュータが、前記収集した情報に基づいて前記複数の収集要求の各々に対応する収 A computer collects data corresponding to each of the plurality of collection requests based on the collected information. 集結果を各々生成し、Each result is generated,
コンピュータが、各コミュニティに属するメンバーが共同で、当該コミュニティにおける収集結果を編集し、 Computers collaborate with members of each community to edit the results collected in that community,
コンピュータが、複数のコミュニティが各々作成された複数の収集結果を、当該コミュニティまたは当該コミュニティ内で送受信されるメッセージと関連付けて、前記複数のコミュニティの各々で共有されている情報を、当該コミュニティのメンバーおよび非メンバーのユーザに提示すると共に、当該コミュニティにおける当該収集結果を構成する前記情報収集手段で収集された情報と、他のコミュニティにおける収集結果を構成する前記情報収集手段で収集された情報とが、重複する場合には、当該コミュニティにおける当該収集結果と、当該他のコミュニティにおける収集結果とを、関連付けて提示することを特徴とする情報収集方法。 A computer associates a plurality of collection results, each of which is created by a plurality of communities, with a message transmitted or received within the community or the community, and information shared by each of the plurality of communities is displayed as a member of the community. And the information collected by the information collecting means constituting the collection result in the community and the information collected by the information collecting means constituting the collection result in another community. In the case of overlapping, the information collection method characterized by presenting the collection result in the community and the collection result in the other community in association with each other.
コンピュータに、各コミュニティに属するメンバーによって共同で編集された当該コミュニティにおける収集要求として、収集の起点とする情報と、情報が含むべき語句の条件とを記述した収集要求を入力させ、
コンピュータに、各コミュニティにおいて編集された複数の収集要求のいずれかを満足する情報を、前記各々の収集要求に記述された収集の起点である情報からハイパーリンクを辿って前記語句の条件を満たす情報を探索することにより、情報ネットワーク上の複数の情報源から収集させ、
コンピュータに、前記収集した情報に基づいて前記複数の収集要求の各々に対応する収集結果を各々生成させ、
コンピュータに、各コミュニティに属するメンバーが共同で編集された当該コミュニティにおける収集結果を入力させ、
コンピュータに、複数のコミュニティで各々作成された複数の収集結果を、当該コミュニティまたは当該コミュニティ内で送受信されるメッセージと関連付けて、前記複数のコミュニティの各々で共有されている情報を、当該コミュニティのメンバーおよび非メンバーのユーザに提示させると共に、当該コミュニティにおける当該収集結果を構成する前記情報収集手段で収集された情報と、他のコミュニティにおける収集結果を構成する前記情報収集手段で収集された情報とが、重複する場合には、当該コミュニティにおける当該収集結果と、当該他のコミュニティにおける収集結果とを、関連付けて提示させることを特徴とするプログラム。 In a program that causes a computer to execute information collection that collects and presents information that satisfies a user's request,
Let the computer input a collection request that describes the information that is the starting point of the collection and the terms of the phrase that the information should contain as a collection request in the community that has been edited by members belonging to each community,
Information that satisfies any of a plurality of collection requests edited in each community on a computer is traced to the information that is the starting point of collection described in each of the collection requests, and information that satisfies the conditions of the phrase By collecting information from multiple sources on the information network,
Causing a computer to generate a collection result corresponding to each of the plurality of collection requests based on the collected information;
Let the computer input the collected results in the community edited by members belonging to each community,
Associating a computer with a plurality of collection results respectively created by a plurality of communities with messages sent and received within the community or the community, and sharing information shared by each of the plurality of communities with members of the community And the information collected by the information collecting means constituting the collection result in the community and the information collected by the information collecting means constituting the collection result in another community. In the case of duplication, the collection result in the community and the collection result in the other community are related and presented.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002081642A JP3896014B2 (en) | 2002-03-22 | 2002-03-22 | Information collection system, information collection method, and program causing computer to collect information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002081642A JP3896014B2 (en) | 2002-03-22 | 2002-03-22 | Information collection system, information collection method, and program causing computer to collect information |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003281173A JP2003281173A (en) | 2003-10-03 |
JP3896014B2 true JP3896014B2 (en) | 2007-03-22 |
Family
ID=29230196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002081642A Expired - Fee Related JP3896014B2 (en) | 2002-03-22 | 2002-03-22 | Information collection system, information collection method, and program causing computer to collect information |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3896014B2 (en) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7769579B2 (en) | 2005-05-31 | 2010-08-03 | Google Inc. | Learning facts from semi-structured text |
US8239394B1 (en) | 2005-03-31 | 2012-08-07 | Google Inc. | Bloom filters for query simulation |
US8682913B1 (en) | 2005-03-31 | 2014-03-25 | Google Inc. | Corroborating facts extracted from multiple sources |
US7587387B2 (en) | 2005-03-31 | 2009-09-08 | Google Inc. | User interface for facts query engine with snippets from information sources that include query terms and answer terms |
US9208229B2 (en) | 2005-03-31 | 2015-12-08 | Google Inc. | Anchor text summarization for corroboration |
US8996470B1 (en) | 2005-05-31 | 2015-03-31 | Google Inc. | System for ensuring the internal consistency of a fact repository |
US7831545B1 (en) | 2005-05-31 | 2010-11-09 | Google Inc. | Identifying the unifying subject of a set of facts |
JP2007122450A (en) * | 2005-10-28 | 2007-05-17 | Nippon Telegr & Teleph Corp <Ntt> | Automatic information acquisition device and automatic information acquisition method |
JP2007140696A (en) * | 2005-11-15 | 2007-06-07 | Nec Corp | Communication system and equipment and program |
US8954426B2 (en) | 2006-02-17 | 2015-02-10 | Google Inc. | Query language |
US20070185870A1 (en) | 2006-01-27 | 2007-08-09 | Hogue Andrew W | Data object visualization using graphs |
US8260785B2 (en) | 2006-02-17 | 2012-09-04 | Google Inc. | Automatic object reference identification and linking in a browseable fact repository |
US8954412B1 (en) | 2006-09-28 | 2015-02-10 | Google Inc. | Corroborating facts in electronic documents |
US8122026B1 (en) | 2006-10-20 | 2012-02-21 | Google Inc. | Finding and disambiguating references to entities on web pages |
US8347202B1 (en) | 2007-03-14 | 2013-01-01 | Google Inc. | Determining geographic locations for place names in a fact repository |
US8239350B1 (en) | 2007-05-08 | 2012-08-07 | Google Inc. | Date ambiguity resolution |
US8812435B1 (en) | 2007-11-16 | 2014-08-19 | Google Inc. | Learning objects and facts from documents |
WO2011052116A1 (en) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | Web crawling initial point selection system, method, and program |
WO2013122269A1 (en) * | 2012-02-13 | 2013-08-22 | 엘지전자 주식회사 | Method for providing user interface on terminal |
US9529924B2 (en) | 2012-07-31 | 2016-12-27 | Apple Inc. | User interface providing localized search capabilities |
JP7062571B2 (en) * | 2018-10-05 | 2022-05-06 | 株式会社日立製作所 | Organization management support system, organization management support method, and organization management support device |
WO2022154054A1 (en) * | 2021-01-14 | 2022-07-21 | 株式会社オシンテック | Rule watch system |
-
2002
- 2002-03-22 JP JP2002081642A patent/JP3896014B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003281173A (en) | 2003-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3896014B2 (en) | Information collection system, information collection method, and program causing computer to collect information | |
US11681654B2 (en) | Context-based file selection | |
Chau et al. | Design and evaluation of a multi-agent collaborative Web mining system | |
US9479474B2 (en) | Systems and methods for establishing or maintaining a personalized trusted social network | |
US8312381B2 (en) | Systems and methods for webpage creation and updating | |
US8977644B2 (en) | Collaborative search results | |
CN101124576B (en) | Search system and methods with integration of user annotations from a trust network | |
US20050182745A1 (en) | Method and apparatus for sharing information over a network | |
US20080281807A1 (en) | Search engine | |
US20030204485A1 (en) | Gathering change data from information provider network indicative of event changes at information provider node relative to pre-stored information in the database by information collection agents | |
KR20090100430A (en) | Seeking answers to questions | |
JP2003030103A (en) | Knowledge storage support system and message moving method for the same system | |
WO2002010982A2 (en) | Computer system for collecting information from web sites | |
JP2008250661A (en) | Information retrieval system, information retrieval device, history sharing method and history sharing processing program | |
JP2006185409A (en) | Alternate processing system and alternate processing method | |
JP2008117267A (en) | Browsing history provision system, browsing history provision device, browsing history provision method and browsing history provision program | |
US20140019545A1 (en) | Social Graph Expanding Method, Program and System | |
US8799501B2 (en) | System and method for anonymously sharing and scoring information pointers, within a system for harvesting community knowledge | |
JP2980167B2 (en) | Discussion group creation support system | |
JP2008108105A (en) | Information providing device, information providing method and information providing program | |
US20120005183A1 (en) | System and method for aggregating and interactive ranking of search engine results | |
JP2004220177A (en) | Information sharing system, information sharing method, and program for information sharing method | |
WO2009007897A1 (en) | Method of operating an information retrieval system | |
WO2014054309A1 (en) | Relevant search system, search window device, database and program | |
JP2007025753A (en) | Weblog server and weblog service providing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060620 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061003 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061215 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3896014 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091222 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111222 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121222 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131222 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |