JP2006331070A

JP2006331070A - コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法

Info

Publication number: JP2006331070A
Application number: JP2005153535A
Authority: JP
Inventors: Yuichiro Miyazaki; 雄一朗宮崎; Hiroko Onoe; 裕子尾上; Yuugo Watanabe; 有吾渡辺; Wataru Uchida; 渉内田; Kazuo Sugiyama; 一雄杉山
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2005-05-26
Filing date: 2005-05-26
Publication date: 2006-12-07

Abstract

【課題】コミュニティ間の類似度評価によって、検索キーワードのみに依存することなく、検索エンジンでは発見できなかった情報へユーザを誘導する。
【解決手段】インターネット上の複数の情報群からなるコミュニティを生成し、生成したコミュニティの特徴をベクトルで表現し、複数のコミュニティ間で類似度を算出し、類似性の高いコミュニティに含まれる情報を利用者に提供する。このベクトルを求めるために、コミュニティから重要語を抽出し、その重みを評価する。利用者からの情報探索依頼を受け取ると、上記のコミュニティ間類似度に基づき、順次話題の類似性の高いコミュニティにある情報を利用者へ提示する。
【選択図】図２

Description

本発明はコミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法に関し、特にコミュニティの探索に利用するコミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法に関する。

現在、急速なインターネットの普及に伴い、インターネット上には無数の情報が溢れ、その中には価値のある知識が含まれている場合がある。しかし、価値のある知識は、有用でない大量のメッセージの中に埋もれてしまい、価値のある知識が利用者に発見されず、有効に用いられていない場合が多い。そこで、意味検索・曖昧検索技術などの高度検索技術や、類似度に基づいて、情報間の関係の強さを抽出し、特定の情報と強い関連を持つ情報を選択することができるシステムが開示されている（例えば、特許文献１）。

また、情報探索や知識獲得のために、リンク付けされた複数の文書を文書群としてグルーピングして解析する技術も注目されている（例えば、特許文献２）。
さらに、コミュニティの類似度を算出し、重み付けを行う技術も知られている（例えば、特許文献３）。
特開２００５−１０８８０号公報特開２００２−２３００７号公報特開２００１−６１９９５号公報

しかしながら、上記背景技術にかかる情報検索方法には、以下に示すような問題点があった。上記背景技術では予め与えた検索キーワードに基づいて、そのキーワードとのマッチングによって情報の探索を行う。このため、事前に与える検索キーワードが適切でない場合には、所望の情報が発見できない、あるいは逆に大量の検索結果が一度にリストアップされ、情報をうまく絞り込めないという問題が起こる。適切な検索のためには、ユーザは適切な検索キーワードを事前に知っている必要があり、適切なキーワードを知らない場合には、何度も試行錯誤的に検索キーワードを組み替えながら検索を繰り返さなければならず、その結果、利便性の低下を招くことになる。

ここで、１回の検索において検索キーワードを複数個指定することによって、検索結果を絞り込むことも考えられる。しかし、そのためには予め絞り込むために必要な複数の検索キーワードを知っている必要があるが、全てのユーザが、全ての分野について、適切な検索キーワードを予め知っているということは想定し難い。
また、情報探索を効率的に行うために、ユーザ間相互のコミュニケーションによって問題を解決するアプローチとしてコミュニティを導入した例があり、コミュニティの一例として類似した文書群を類似度によって解析する手法が注目されている。しかし、既存の類似度を用いて関連の強い情報を提示するシステムでは個々の情報間の関連度に着目しているため、コミュニティ内に閉じた範囲で情報を管理し、有用な情報を抽出することはできるが、コミュニティ内の文書に有用な情報が含まれていない場合は、有用な情報を検索することは困難であった。

本発明は上述した従来技術の問題点を解決するためになされたものであり、その目的は、コミュニティ間の類似度評価によって、検索キーワードのみに依存することなく、検索エンジンでは発見できなかった情報へユーザを誘導することができるコミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法を提供することである。

本発明の請求項１によるコミュニティ制御装置は、インターネット上のＷｅｂサーバからＷｅｂサイトを収集してコミュニティを生成するコミュニティ生成手段と、前記コミュニティ生成手段によって生成されたコミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することによってコミュニティ間の類似度を算出するコミュニティ間類似度判定手段とを含むことを特徴とする。ベクトル演算を行うことにより、元のコミュニティの特徴が変化した場合、それに応じてコミュニティ間の類似性の変化も容易に反映できる。また、ベクトル表現を採用することにより、計算が容易であり、かつ、複数の文書群の比較を効率的に行うことができる。

本発明の請求項２によるコミュニティ制御装置は、請求項１において、前記コミュニティ生成手段は、インターネット上からＷｅｂサイトを収集するＷｅｂクローラ部と、前記Ｗｅｂクローラ部によって収集されたＷｅｂサイトのハイパーリンクを抽出し、リンク構造を解析してコミュニティの境界を判定するリンク解析部とを含むことを特徴とする。このように構成すれば、インターネット上のＷｅｂサイトを自動的に収集できる。

本発明の請求項３によるコミュニティ制御装置は、請求項１又は２において、前記コミュニティ間類似度判定手段は、前記コミュニティを構成する記事全体に対してｔｆ・ｉｄｆ法を適用することにより、コミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することを特徴とする。ｔｆ・ｉｄｆ法を用いることにより、コミュニティを表現する特徴的な単語を機械的に抽出することができる。なお、ｔｆ・ｉｄｆ法は、単語重要度の評価手法である。この手法では、同一文書で繰り返し出現する単語を重要視するｔｆ（term frequency）法と、出現する文書数が少ない単語は文書の絞り込みに役立つのでこれを重要視するｉｄｆ（inverted document frequency）法とを組み合わせて単語の重要度を計算する。

本発明の請求項４によるコミュニティ情報探索システムは、請求項１から請求項３までのいずれか１項に記載のコミュニティ制御装置と、ユーザからの要求があった場合に、前記コミュニティ間の類似度に基づいて、コミュニティの探索を行うコミュニティ探索装置とを含むことを特徴とする。類似したＷｅｂサイト群に予め探索範囲を限定することで、探索範囲の無用な拡大を制限することができる。

本発明の請求項５によるコミュニティ情報探索システムは、請求項４において、前記コミュニティ探索装置は、ユーザからの要求があった場合に、
前記コミュニティ間類似度判定手段によって算出され、既に登録されているコミュニティ間の類似度に基づいて、複数のコミュニティの構成要素であるＷｅｂサイト群に並列に、ユーザからの要求を書き込むことを特徴とする。Ｗｅｂサイト群に並列に、ユーザからの要求を書き込むことにより、広範囲に探索を行うことができる。

本発明の請求項６によるコミュニティ情報探索方法は、インターネット上のＷｅｂサーバからＷｅｂサイトを収集してコミュニティを生成するコミュニティ生成ステップ（例えば図６中のステップＳ４及びＳ６に対応）と、この生成されたコミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することによってコミュニティ間の類似度を算出するコミュニティ間類似度判定ステップ（例えば図６中のステップＳ７及びＳ８に対応）と、前記コミュニティ生成ステップにおいて生成されたコミュニティを登録するステップ（例えば図６中のステップＳ９に対応）とを含み、登録されたコミュニティについて探索を行うことを特徴とする。ベクトル演算を行うことにより、元のコミュニティの特徴が変化した場合、それに応じてコミュニティ間の類似性の変化も容易に反映できる。また、ベクトル表現を採用することにより、計算が容易であり、かつ、複数の文書群の比較を効率的に行うことができる。

本発明の請求項７によるコミュニティ情報探索方法は、請求項６において、初期コミュニティを設定するステップ（例えば図６中のステップＳ１１に対応）と、設定された初期コミュニティの類似コミュニティ群を通知するステップ（例えば図６中のステップＳ１２に対応）と、通知した類似コミュニティ群の中から選択された結果を取得するステップ（例えば図６中のステップＳ１５に対応）と、取得した結果に従ってＷｅｂログへ質問を書き込むステップ（例えば図６中のステップＳ１６に対応）と、前記質問に対する回答を受信した場合に、それを通知するステップ（例えば図６中のステップＳ２１に対応）とを更に含むことを特徴とする。こうすることにより、初期コミュニティを設定し、コミュニティ情報を容易に探索できる。

本発明の請求項８によるコミュニティ情報探索方法は、請求項６において、コミュニティ探索要求を受信した場合に、類似コミュニティ群を通知するステップ（例えば図７中のステップＳ１２に対応）と、通知した類似コミュニティ群の中から選択された結果を取得するステップ（例えば図７中のステップＳ１５に対応）と、取得した結果に従ってＷｅｂログへ質問を書き込むステップ（例えば図７中のステップＳ１６に対応）と、前記質問に対する回答を受信した場合に、それを通知するステップ（例えば図７中のステップＳ２１に対応）とを更に含むことを特徴とする。こうすることにより、初期コミュニティを設定しない場合でも、コミュニティ情報を容易に探索できる。

本発明では、インターネット上のＷｅｂサイト群のリンク構造に基づいてコミュニティを生成し、コミュニティ内における単語の重要度評価の結果に基づいてコミュニティの特徴をベクトルで表現する。また、生成されたコミュニティベクトルを用いてコミュニティ間の類似度を算出し、類似度の降順に従い決定される複数のコミュニティに対してユーザのクエリを転送する、あるいは同時に書き込みを行うことにより、広範囲に探索を行うと同時に、類似したＷｅｂサイト群に予め探索範囲を限定することで、探索範囲の無用な拡大を制限することが可能となる。また従来の個々のＷｅｂサイトに基づいた評価とは異なり、コミュニティの特徴に基づいて情報探索を行うことで、従来の検索方式ではユーザが訪問することがないコミュニティまで情報探索の範囲を拡大することが可能となり、そこでの新たなコミュニケーション機会の増大が期待できる。

以下、本発明の実施の形態を、図面を参照して説明する。なお、以下の説明において参照する各図では、他の図と同等部分は同一符号によって示されている。
（コミュニティ情報探索システムの構成）
まず、本実施形態にかかるコミュニティ情報探索システムの構成について説明する。図１は、本実施形態にかかるコミュニティ情報探索システムの構成図である。同図に示されているように、本実施形態にかかるコミュニティ情報探索システムは、携帯電話機やパーソナルコンピュータなどから構成されるユーザ利用端末２１０ａ〜２１０ｎと、様々なＷｅｂサイトを保持しているＷｅｂサーバ２０ａ〜２０ｎと、広帯域ネットワーク（ＮＷ）３０と、コミュニティ制御ノード装置１００とを備えて構成される。コミュニティ制御ノード装置１００は、コミュニティ制御装置１０１と、コミュニティ管理データベース１０２と、コミュニティの探索を行うコミュニティ探索装置１４０とを備えて構成されている。

（コミュニティ制御ノード装置）
続いて、本実施形態にかかるコミュニティ制御ノード装置１００の構成例について説明する。図２は、本実施形態にかかるコミュニティ制御ノード装置１００の構成図である。
同図に示されているように、コミュニティ制御装置１０１は、広帯域ネットワーク３０を経由して、ユーザが利用している端末２１０ａ〜２１０ｎ及びＷｅｂサーバ２０ａ〜２０ｎ（図１参照）とデータの送受信を行う送受信処理部１１０と、収集したＷｅｂサイトからコミュニティを生成するコミュニティ生成部１２０と、コミュニティ間の類似度を算出するコミュニティ間類似度判定部１３０とを備えて構成されている。

コミュニティ生成部１２０は、インターネット上のＷｅｂサイトをクローリングによって収集するＷｅｂクローラ（ｃｒａｗｌｅｒ）部１２１と、収集したＷｅｂサイトに含まれるハイパーリンクを抽出し、リンク構造の解析を行い、コミュニティを形成するリンク解析部１２２と、収集したＷｅｂサイトの本文を品詞分解し、結果をコミュニティ単位で集計する形態素解析部１２３と、形態素解析の結果からコミュニティ内で利用されている単語の重要度を算出し、コミュニティを表現するコミュニティベクトルを生成する重要度評価部１２４とを備えて構成されている。

コミュニティ間類似度判定部１３０はコミュニティ間の類似度を計算する類似度計算部１３１を備えて構成されている。
このような構成において、Ｗｅｂクローラ部１２１は定期的にインターネット上のＷｅｂサーバ２０ａ〜２０ｎヘアクセスし、リンクを辿りながら様々なＷｅｂサーバを巡回してＷｅｂサイトをコミュニティ制御ノード装置１００へダウンロードする。まずＷｅｂクローラ部１２１は既知のＷｅｂサイトを開始地点とし、Ｗｅｂサイトをダウンロードする。次にリンク解析部１２２はＷｅｂクローラ部１２１によってダウンロードされたＷｅｂサイトのハイパーリンクを抽出し、抽出したハイパーリンクのリストをクローラ部１２１へ結果を返す。以後再帰的にＷｅｂクローラ部１２１とリンク解析部１２２の間でＷｅｂサイトの巡回およびダウンロードとリンク抽出を、リンク解析部１２２において抽出されるハイパーリンクが無くなるまで繰り返す。

続いて、最初に収集を開始したＷｅｂサイトから、最終的にハイパーリンクが無くなるまでに収集された全てのＷｅｂサイトをメンバとしたコミュニティを形成する。
続いて、形態素解析部１２３はコミュニティメンバとして収集されたＷｅｂサイトに対して形態素解析を行い、Ｗｅｂサイトに含まれる単語とその利用回数を抽出する。
このとき、例えば挨拶表現や人称代名詞など、一般的な用語やあまり意味を為さない単語が多量に含まれる可能性があるが、ここでの形態素解析は所望の結果が得られるよう、例えば、抽出する品詞を指定するなど、フィルタをかけて抽出する方法が含まれている。

重要度評価部１２４は、前記の形をコミュニティ単位で集計された態素解析部の結果から、コミュニティ内における各単語の重要度を算出し、コミュニティを表現するベクトルを生成する。重要度を算出するためには、例えばｔｆ・ｉｄｆ法などの文書間の重みを算出する方法を用いて、各単語と算出された重みの組によってコミュニティにベクトルを付与した後、コミュニティ管理データベース１０２へコミュニティ情報の登録を行う。このベクトルは、コミュニティを表現する特徴的な「単語」とその単語の「重み」とから構成されるベクトルである。

例えば、コミュニティ内重要度評価をｔｆ・ｉｄｆ法によって求める場合、評価式は以下のように表すことができる。
ｔｆ・ｉｄｆ＝ｔｆ（ｔ,ｄ）×ｉｄｆ（ｔ）
＝ｔｆ（ｔ,ｄ）×ｌｏｇ｛Ｎ／ｄｆ（ｔ）｝＋１
ここで、コミュニティ重内重要度評価におけるｔｆとはコミュニティｄにおける単語ｔの出現頻度を表す。一方、ｉｄｆ（ｔ）は出現コミュニティの偏りを評価するものである。Ｎは総コミュニティ数であり、コミュニティ管理データベース１０２に格納されている。ｔｆ（ｔ,ｄ）はコミュニティｄに含まれる単語ｔの頻度、ｄｆ（ｔ）は単語ｔを含むコミュニティ数である。

ところで、一般に、ｔｆ・ｉｄｆ法は、一対一の文書間の比較に使用されるが、本例では、複数の文書群で構成されるコミュニティ（つまりＢｌｏｇ記事の集まり）に対してｔｆ・ｉｄｆ法を適用する点が独自性であり、複数の文書群の比較が効率的に行える。また、新たにコミュニティメンバ（Ｂｌｏｇ記事）がコミュニティに追加された場合には、ｔｆ・ｉｄｆ法によってコミュニティベクトルが再計算される。よって、本例のコミュニティは従来の掲示板のようにトピックが固定された静的なものではなく、その記事の中身やリンクで繋がったＢｌｏｇ記事の内容の変化に応じてコミュニティベクトルが更新され、動的にコミュニティの特徴を変化させることができる。

コミュニティ間類似度判定部１３０は、類似度計算部１３１を備えており、コミュニティ生成部１２０で生成されたコミュニティに対し、これまでにコミュニティ生成部によって生成され、コミュニティ管理データベース１０２へ登録されている全て、あるいは一部のコミュニティと順に、ベクトル演算によって類似度を求める。ここで、類似度計算部１３１においてコミュニティ間の類似度を計算するために用いるベクトル演算の方法として、例えば、内積、あるいはJaccard係数を求めるなどの手法を用いることができる。

コミュニティ探索装置１４０は、クエリ処理部１４１とコミュニティ探索制御部１４２とを備えている。このコミュニティ探索装置１４０は、クエリ処理部１４１は、ユーザからのコミュニティ情報探索要求の受け取り、およびユーザへの探索結果の通知などの処理を行う。
また、コミュニティ探索制御部１４２は、コミュニティ管理データベース１０２を参照し、既にコミュニティ間類似度評価ステップを経て登録済みのコミュニティ間類似度テーブルを参照し、類似性の高い探索コミュニティを決定し、ユーザから受け取ったクエリと類似性の高いコミュニティのメンバであるＷｅｂサイトに対して書き込みを行う。

（コミュニティ生成処理）
以下、コミュニティ生成処理について、図３のフローチャートを参照して詳細に説明する。
最初にＷｅｂｌｏｇ(以下、Ｂｌｏｇと称する)Ｂｌｏｇ記事を収集する（ステップＳ１０１）。収集したＢｌｏｇ記事について、トラックバック及びリンクを抽出する（ステップＳ１０２）。以上の処理は残存トラックバックリンクが無くなるまで繰返し行われる（ステップＳ１０３→Ｓ１０１…）。
次に、収集したＢｌｏｇ記事を入力し（ステップＳ１０４）、形態素解析を行う（ステップＳ１０５）。そして、単語の利用回数をカウントする（ステップＳ１０６）。以上の処理は、全Ｂｌｏｇ記事の形態素解析を終了するまで繰返し行われる（ステップＳ１０７→Ｓ１０４…）。

さらに、重要度計算が行われる。この重要度計算においては、最初に、単語ａ１について、ｔｆ、ｉｄｆをそれぞれ求める（ステップＳ１０８→Ｓ１０９）。その後、ｔｆ・ｉｄｆを計算する（ステップＳ１１０）。以上の処理は、単語ａｎまですなわち全ての単語について重要度計算が終了するまで繰返し行われる（ステップＳ１１１→Ｓ１０８…）。最後に、コミュニティ管理データベースへの登録が行われる（ステップＳ１１２）。
（情報探索処理）
図４は、図２中のコミュニティ探索装置による情報探索処理を示すフローチャートである。

図４において、探索クエリを受け付けると（ステップＳ２０１）、初期コミュニティが設定される（ステップＳ２０２）。そして、コミュニティ管理データベースを参照し（ステップＳ２０３）、類似コミュニティ群を設定する（ステップＳ２０４）。このとき、複数のコミュニティをユーザ端末へ提示し、ユーザに選択させても良い（ステップＳ２０４ａ）。

次に、コミュニティへ質問を書き込む（ステップＳ２０５）。質問の書き込みは、未探索コミュニティが無くなるまで繰り返される（ステップＳ２０６→Ｓ２０５…）。最後に、定期タイマ及び終了タイマを設定し、処理は終了となる（ステップＳ２０７）。
（情報探索の回答有無の確認処理）
図５は、図２中のコミュニティ探索装置による情報探索の回答有無の確認処理を示すフローチャートである。

図５において、定期タイマがタイムアウトになると、ステップＳ２０５において書き込んだ質問に対する回答の書き込みがあったか判断する（ステップＳ３０１→Ｓ３０２）。質問に対する回答の書き込みがあった場合、ユーザ（質問者）へその書き込みを通知し（ステップＳ３０２→Ｓ３０３）、処理は終了となる（ステップＳ３０６）。
一方、質問に対する回答の書き込みが無い場合、終了タイマがタイムアウトになったか判断され（ステップＳ３０４）、タイムアウトになっていなければ、定期タイマが再度設定され（ステップＳ３０４→Ｓ３０５）、処理は終了となる（ステップＳ３０６）。終了タイマがタイムアウトになっていれば、そのまま処理は終了となる（ステップＳ３０４→Ｓ３０６）。
（コミュニティ情報探索システムの動作例）
続いて、図２の構成からなるコミュニティ制御ノード装置を利用したコミュニティ情報探索システムの動作について説明する。図６は探索時の初期コミュニティが与えられる場合のコミュニティ生成手順２２０とコミュニティ探索手順２３０とを示すシーケンス図である。同図には、情報を探しているユーザの端末２１０、Ｂｌｏｇユーザの端末２１１ａ〜２１１ｎ、Ｂｌｏｇサーバ２１２ａ〜２１１ｎ、コミュニティ制御装置１００、及び、コミュニティ探索装置１４０の動作が示されている。

本実施形態にかかるコミュニティ情報探索システムにおいては、Ｂｌｏｇのような個人の情報発信ツールが、トラックバックリンクなど興味、関心、話題によってハイパーリンク(トラックバックリンク)を互いに張り合っていること、掲示板サービスのようなコメント機能を有する点で好適であり、以下ではＢｌｏｇを例に取り上げて動作を説明する。
本実施形態にかかるコミュニティ情報探索システムにおいてコミュニティ生成を行うにあたっては、まずＢｌｏｇユーザ端末２１１ａからＢｌｏｇサーバ２１２ａに対してＢｌｏｇ記事あるいはトラックバックリンク情報（ＴＢ）が送信される（ステップＳ１）。かかるＢｌｏｇユーザ端末２１１ａからの記事送信に対して、Ｂｌｏｇサーバ２１２ａは記事を受信し（ステップＳ２）、その後それを蓄積する（ステップＳ３）。

コミュニティ制御ノード装置１００は、定期的にＢｌｏｇサーバ２１２ａ〜２１２ｎに対して各Ｂｌｏｇサーバがローカルに蓄積しているＢｌｏｇ記事のデータの転送を要求する（ステップＳ４）。サーバ２１２ａ〜２１２ｎは、Ｂｌｏｇ記事のデータを送信し（ステップＳ５）、コミュニティ制御ノード装置１００は順次転送されてくるＢｌｏｇ記事の受信を行う（ステップＳ６）。

コミュニティ制御ノード装置１００は受信したＢｌｏｇ記事からトラックバックリンクを抽出し、コミュニティの境界を判定する（ステップＳ７）。さらに、収集したＢｌｏｇ記事群の形態素解析を行い、抽出した情報に基づいてコミュニティ内の重要語の重みを計算し、コミュニティにベクトルを付与する。
続いて、ステップＳ７おいて算出されたコミュニティと、既にコミュニティ管理データベース１０２に登録されているコミュニティとの間の類似度をベクトル演算によって求める（ステップＳ８）。

続いて、そのコミュニティと登録済みのコミュニティとの類似度を、コミュニティメンバとコミュニティベクトル、コミュニティＩＤと共に、コミュニティ管理データベース１０２に登録して記憶する（ステップＳ９）。
続いて、コミュニティ探索手順２３０について説明する。本実施形態にかかるコミュニティ情報探索システムおいてコミュニティ探索を行うにあたっては、まず情報を探しているユーザの端末２１０からコミュニティ探索装置１４０へコミュニティ探索依頼のクエリが送信される（ステップＳ１０）。

次に、コミュニティ探索を行うための初期コミュニティの設定を行う（ステップＳ１１）。この初期コミュニティの設定は、ユーザ自身が指定することが可能である。また、情報を探しているユーザが現在所属しているコミュニティ情報を、ステップＳ１０において送信するクエリ内に含めておくことで、コミュニティを初期コミュニティとして設定することも可能である。

続いて、コミュニティ探索装置１４０はコミュニティ管理データベース１０２を参照し、初期コミュニティと類似度の高い複数のコミュニティのリストを、情報を探しているユーザの端末２１０へ送信する（ステップＳ１２）。端末２１０は、受け取った類似度の高いコミュニティを、情報を探しているユーザの端末の画面上に表示し（ステップＳ１３）、ユーザは提示された結果の中から所望のコミュニティを選択する（ステップＳ１４）。すると、コミュニティ制御ノード装置は、選択結果を受信する（ステップＳ１５）。

ステップＳ１３、ステップＳ１４、ステップＳ１５において、ユーザがコミュニティを選択することでユーザにとって自由度が高いシステムを提供できる。ただし、ここでのステップＳ１３、ステップＳ１４、ステップＳ１５を省略し、コミュニティ探索装置１４０が類似度判定の結果に基づいて、以降の処理を続けることも可能である。
ユーザが掲示板のように自由記述によって質問を投稿する場合、コミュニティ制御ノード装置１００は、既定のタイマを設定し、情報を探しているユーザから受け取ったクエリに関する質問を、ステップＳ１４で選択された複数のコミュニティのＷｅｂサイトヘ、ユーザの代理で書き込みを行う（ステップＳ１６）。Ｂｌｏｇサーバ２１２ｎは、その質問を受信する（ステップＳ１７）。

ここで、書き込みとは、ユーザが質問を自然言語で記述したものである。例えば、「○○について教えて下さい！」である。ここでは、これをコピーし、掲示板やＢｌｏｇにおけるコメント欄に記述する。このとき、複数の話題が類似した掲示板やＢｌｏｇに、同時に質問を書き込むことで、利用者が何度も似た内容の掲示板を探す必要は無く、一度に複数のＷｅｂサイトに同時に質問投稿することができる。

次に、ステップＳ１６において書き込みを行ったコミュニティ制御ノード装置１００は、タイムアウトするまでの間、書き込みを行ったＷｅｂサイトを定期的に監視する。
続いて、Ｂｌｏｇ記事を閲覧したユーザ端末２１１ｎがクエリの質問を見て回答を送信すると（ステップＳ１８）、その投稿された回答を、Ｂｌｏｇサーバ２１２ｎが受信する（ステップＳ１９）。このとき、ステップＳ１６において設定したタイマがタイムアウトする前であれば、コミュニティ探索装置１４０は、その回答を受信する（ステップＳ２０）。

次に、コミュニティ探索装置１４０は、情報を探しているユーザの端末２１０へ回答が得られたことを通知する（ステップＳ２１）。
情報を探しているユーザの端末２１０では、通知結果を画面に表示する（ステップＳ２２）。この場合、具体的には、電子メールを利用して通知するか、又は、本システムが起動している時に画面上にポップアップで質問の回答が来たことを通知する。

このとき、ユーザにとって満足のいく回答が得られなかった場合、上記のＳ１０に戻り、再度コミュニティ制御ノードに対して類似コミュニティの提示を要求するか、別のクエリを送信することで、再帰的に類似度に基づいて情報探索を継続することが可能である。

（コミュニティ情報探索システムの他の動作例）
図６を参照して説明したコミュニティ情報探索システムの動作例は、初期コミュニティが予め与えられている場合の動作例である。続いて、本実施形態にかかるコミュニティ情報探索システムの他の動作例について説明する。

図７はコミュニティ探索時の初期コミュニティを必要としない場合における、コミュニティ探索の動作を示すシーケンス図である。同図には、情報を探しているユーザの端末２１０、Ｂｌｏｇユーザの端末２１１ａ〜２１１ｎ、Ｂｌｏｇサーバ２１２ａ〜２１１ｎ、コミュニティ制御装置１００、及び、コミュニティ探索装置１４０の動作が示されている。

同図において、コミュニティ生成手順であるステップＳ１からステップＳ９までの処理、および、ステップＳ１２以降の処理は、図６の場合と同様である。
本実施形態にかかるコミュニティ情報探索システムにおいてコミュニティ探索を行うにあたっては、情報を探しているユーザの端末２１０からＢｌｏｇサーバ２１２ａヘクエリが質問形式で送信される（ステップＳ３０）。この質問は、Ｂｌｏｇサーバで受信される（ステップＳ３１）。

一定期間回答が得られない場合、その旨がユーザの端末２１０に通知される（ステップＳ３２）。その後、なおユーザが情報を探そうとする場合、情報を探しているユーザの端末から探索依頼のクエリがコミュニティ制御ノード装置１００へ送信される（ステップＳ３３）。
続いて、コミュニティ制御ノードはユーザのクエリに適する初期コミュニティの設定を行う（ステップＳ３４）。このとき、例えば、ユーザのクエリに対して形態素解析を行い、それらの語と登録済みのコミュニティの類似度を求めて初期コミュニティを設定する必要がある。ここで、初期コミュニティとは、コミュニティ間の類似度を比較する際、自分が属しているコミュニティを指す。その場合、ユーザが明示的に所属するコミュニティを指定する、あるいはユーザ自身が事前にプリファレンス情報として登録することで決定される。
以降の処理は、図６の場合と同様である。

（コミュニティ管理データベースの構成例）
次に、コミュニティ管理データベース１０２に管理されるコミュニティ情報に関するテーブルについて説明する。
図８はコミュニティ生成の過程においてコミュニティごとの単語の利用頻度を格納したテーブルの例を示す図である。同図のテーブルには、コミュニティごとに（すなわちＣｏｍｍｕｎｉｔｙＡ、ＣｏｍｍｕｎｉｔｙＢ、ＣｏｍｍｕｎｉｔｙＣ）、抽出された各単語の利用回数と、各単語の重要度とが格納されている。

図９はコミュニティ間の類似度を格納するコミュニティ間類似度テーブルの構成例を示す図である。同図に示されているコミュニティ間類似度テーブル中の各セルの数値は、その行と列とに記載されたコミュニティ間の類似度を示している。
図１０は、各コミュニティメンバ(Ｗｅｂサイト)個別のコミュニティ情報を格納したコミュニティテーブルの構成例を示す図である。このテーブルには、コミュニティＩＤ（すなわちＣｏｍｍｕｎｉｔｙＡ、ＣｏｍｍｕｎｉｔｙＢ、ＣｏｍｍｕｎｉｔｙＣ、ＣｏｍｍｕｎｉｔｙＤ）と各メンバとなるＷｅｂサイトの情報（日付、時間、ブログ名、記事タイトル、ＵＲＬ）とが格納されている。

また、属性欄には、重要度計算で求められたコミュニティベクトルが、単語と重みのベクトルとして格納されている。同図中のＣｏｍｎ＝｛…｝は、ｎ番目のコミュニティの特徴を表現するベクトルであり、「ａ」は単語、「ａｗ」はその単語の重みである。
Ｃｏｍｎ＝｛（ａ１，ａｗ１）…｝は、ｎ番目のコミュニティは単語ａ１と、その重みａｗ１、単語ａ２とその重みａｗ２…を意味している。

例えば、ｎ番目のコミュニティが「野球」のコミュニティであったとすると、
Ｃｏｍｎ＝｛（タイガース，０．８７），（連勝，０．７１），（阪神，０．７０），（２ベース，０．２４）…｝のように表現される。

（コミュニティ情報探索方法）
上述したコミュニティ情報探索システムにおいては、以下のようなコミュニティ情報探索方法が実現されている。
すなわち、インターネット上のＷｅｂサーバからＷｅｂサイトを収集してコミュニティを生成するコミュニティ生成ステップ（例えば図６中のステップＳ４及びＳ６に対応）と、この生成されたコミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することによってコミュニティ間の類似度を算出するコミュニティ間類似度判定ステップ（例えば図６中のステップＳ７及びＳ８に対応）と、上記コミュニティ生成ステップにおいて生成されたコミュニティを登録するステップ（例えば図６中のステップＳ９に対応）とを含み、登録されたコミュニティについて探索を行うコミュニティ情報探索方法が実現されている。ベクトル演算を行うことにより、元のコミュニティの特徴が変化した場合、それに応じてコミュニティ間の類似性の変化も容易に反映できる。また、ベクトル表現を採用することにより、計算が容易であり、かつ、複数の文書群の比較を効率的に行うことができる。

また、初期コミュニティを設定するステップ（例えば図６中のステップＳ１１に対応）と、設定された初期コミュニティの類似コミュニティ群を通知するステップ（例えば図６中のステップＳ１２に対応）と、通知した類似コミュニティ群の中から選択された結果を取得するステップ（例えば図６中のステップＳ１５に対応）と、取得した結果に従ってＷｅｂログへ質問を書き込むステップ（例えば図６中のステップＳ１６に対応）と、上記質問に対する回答を受信した場合に、それを通知するステップ（例えば図６中のステップＳ２１に対応）とを更に含むコミュニティ情報探索方法が実現されている。こうすることにより、初期コミュニティを設定し、コミュニティ情報を容易に探索できる。

さらに、コミュニティ探索要求を受信した場合に、類似コミュニティ群を通知するステップ（例えば図７中のステップＳ１２に対応）と、通知した類似コミュニティ群の中から選択された結果を取得するステップ（例えば図７中のステップＳ１５に対応）と、取得した結果に従ってＷｅｂログへ質問を書き込むステップ（例えば図７中のステップＳ１６に対応）と、上記質問に対する回答を受信した場合に、それを通知するステップ（例えば図７中のステップＳ２１に対応）とを更に含むコミュニティ情報探索方法が実現されている。こうすることにより、初期コミュニティを設定しない場合でも、コミュニティ情報を容易に探索できる。

本発明は、コミュニティの探索に利用することができる。

本発明の実施の形態に係るコミュニティ情報探索システムの構成例を示すブロック図である。図１中のコミュニティ制御ノード装置の構成例を示すブロック図である。コミュニティ生成処理を示すフローチャートである。情報探索処理を示すフローチャートである。情報探索の回答有無の確認処理を示すフローチャートである。コミュニティ情報探索システムにおける、初期コミュニティを設定する場合のコミュニティ生成及びコミュニティ探索の手順を示す図である。コミュニティ情報探索システムにおける、初期コミュニティを設定しない場合のコミュニティ生成及びコミュニティ探索の手順を示す図である。複数コミュニティの単語利用頻度に関する管理テーブルの構成例を示す図である。コミュニティ間類似度テーブルの構成例を示す図である。各コミュニティメンバ個別のコミュニティ情報を格納したコミュニティテーブルの構成例を示す図である。

符号の説明

２０ａ〜２０ｎＷｅｂサーバ
３０広帯域ネットワーク
１００コミュニティ制御ノード装置
１０１コミュニティ制御装置
１０２コミュニティ管理データベース
１１０送受信処理部
１２０コミュニティ生成部
１２１クローラ部
１２２リンク解析部
１２３形態素解析部
１２４重要度評価部
１３０コミュニティ間類似度判定部
１３１類似度計算部
１４０コミュニティ探索装置
１４１クエリ処理部
１４２コミュニティ探索制御部
２１０、２１０ａ〜２１０ｎ端末
２１１ａ〜２１１ｎＢｌｏｇユーザ端末
２１２ａ〜２１２ｎＷｅｂサーバ

Claims

インターネット上のＷｅｂサーバからＷｅｂサイトを収集してコミュニティを生成するコミュニティ生成手段と、前記コミュニティ生成手段によって生成されたコミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することによってコミュニティ間の類似度を算出するコミュニティ間類似度判定手段とを含むことを特徴とするコミュニティ制御装置。
前記コミュニティ生成手段は、インターネット上からＷｅｂサイトを収集するＷｅｂクローラ部と、前記Ｗｅｂクローラ部によって収集されたＷｅｂサイトのハイパーリンクを抽出し、リンク構造を解析してコミュニティの境界を判定するリンク解析部とを含むことを特徴とする請求項１記載のコミュニティ制御装置。
前記コミュニティ間類似度判定手段は、前記コミュニティを構成する記事全体に対してｔｆ・ｉｄｆ法を適用することにより、コミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することを特徴とする請求項１又は２記載のコミュニティ制御装置。
請求項１から請求項３までのいずれか１項に記載のコミュニティ制御装置と、ユーザからの要求があった場合に、前記コミュニティ間の類似度に基づいて、コミュニティの探索を行うコミュニティ探索装置とを含むことを特徴とするコミュニティ情報探索システム。
前記コミュニティ探索装置は、ユーザからの要求があった場合に、
前記コミュニティ間類似度判定手段によって算出され、既に登録されているコミュニティ間の類似度に基づいて、複数のコミュニティの構成要素であるＷｅｂサイト群に並列に、ユーザからの要求を書き込むことを特徴とする請求項４記載のコミュニティ情報探索システム。
インターネット上のＷｅｂサーバからＷｅｂサイトを収集してコミュニティを生成するコミュニティ生成ステップと、この生成されたコミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することによってコミュニティ間の類似度を算出するコミュニティ間類似度判定ステップと、前記コミュニティ生成ステップにおいて生成されたコミュニティを登録するステップとを含み、登録されたコミュニティについて探索を行うことを特徴とするコミュニティ情報探索方法。
初期コミュニティを設定するステップと、設定された初期コミュニティの類似コミュニティ群を通知するステップと、通知した類似コミュニティ群の中から選択された結果を取得するステップと、取得した結果に従ってＷｅｂログへ質問を書き込むステップと、前記質問に対する回答を受信した場合に、それを通知するステップとを更に含むことを特徴とする請求項６記載のコミュニティ情報探索方法。
コミュニティ探索要求を受信した場合に、類似コミュニティ群を通知するステップと、通知した類似コミュニティ群の中から選択された結果を取得するステップと、取得した結果に従ってＷｅｂログへ質問を書き込むステップと、前記質問に対する回答を受信した場合に、それを通知するステップとを更に含むことを特徴とする請求項６記載のコミュニティ情報探索方法。