JP2006331070A - コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法 - Google Patents

コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法 Download PDF

Info

Publication number
JP2006331070A
JP2006331070A JP2005153535A JP2005153535A JP2006331070A JP 2006331070 A JP2006331070 A JP 2006331070A JP 2005153535 A JP2005153535 A JP 2005153535A JP 2005153535 A JP2005153535 A JP 2005153535A JP 2006331070 A JP2006331070 A JP 2006331070A
Authority
JP
Japan
Prior art keywords
community
communities
similarity
search
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005153535A
Other languages
English (en)
Inventor
Yuichiro Miyazaki
雄一朗 宮崎
Hiroko Onoe
裕子 尾上
Yuugo Watanabe
有吾 渡辺
Wataru Uchida
渉 内田
Kazuo Sugiyama
一雄 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2005153535A priority Critical patent/JP2006331070A/ja
Publication of JP2006331070A publication Critical patent/JP2006331070A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 コミュニティ間の類似度評価によって、検索キーワードのみに依存することなく、検索エンジンでは発見できなかった情報へユーザを誘導する。
【解決手段】 インターネット上の複数の情報群からなるコミュニティを生成し、生成したコミュニティの特徴をベクトルで表現し、複数のコミュニティ間で類似度を算出し、類似性の高いコミュニティに含まれる情報を利用者に提供する。このベクトルを求めるために、コミュニティから重要語を抽出し、その重みを評価する。利用者からの情報探索依頼を受け取ると、上記のコミュニティ間類似度に基づき、順次話題の類似性の高いコミュニティにある情報を利用者へ提示する。
【選択図】 図2

Description

本発明はコミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法に関し、特にコミュニティの探索に利用するコミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法に関する。
現在、急速なインターネットの普及に伴い、インターネット上には無数の情報が溢れ、その中には価値のある知識が含まれている場合がある。しかし、価値のある知識は、有用でない大量のメッセージの中に埋もれてしまい、価値のある知識が利用者に発見されず、有効に用いられていない場合が多い。そこで、意味検索・曖昧検索技術などの高度検索技術や、類似度に基づいて、情報間の関係の強さを抽出し、特定の情報と強い関連を持つ情報を選択することができるシステムが開示されている(例えば、特許文献1)。
また、情報探索や知識獲得のために、リンク付けされた複数の文書を文書群としてグルーピングして解析する技術も注目されている(例えば、特許文献2)。
さらに、コミュニティの類似度を算出し、重み付けを行う技術も知られている(例えば、特許文献3)。
特開2005−10880号公報 特開2002−23007号公報 特開2001−61995号公報
しかしながら、上記背景技術にかかる情報検索方法には、以下に示すような問題点があった。上記背景技術では予め与えた検索キーワードに基づいて、そのキーワードとのマッチングによって情報の探索を行う。このため、事前に与える検索キーワードが適切でない場合には、所望の情報が発見できない、あるいは逆に大量の検索結果が一度にリストアップされ、情報をうまく絞り込めないという問題が起こる。適切な検索のためには、ユーザは適切な検索キーワードを事前に知っている必要があり、適切なキーワードを知らない場合には、何度も試行錯誤的に検索キーワードを組み替えながら検索を繰り返さなければならず、その結果、利便性の低下を招くことになる。
ここで、1回の検索において検索キーワードを複数個指定することによって、検索結果を絞り込むことも考えられる。しかし、そのためには予め絞り込むために必要な複数の検索キーワードを知っている必要があるが、全てのユーザが、全ての分野について、適切な検索キーワードを予め知っているということは想定し難い。
また、情報探索を効率的に行うために、ユーザ間相互のコミュニケーションによって問題を解決するアプローチとしてコミュニティを導入した例があり、コミュニティの一例として類似した文書群を類似度によって解析する手法が注目されている。しかし、既存の類似度を用いて関連の強い情報を提示するシステムでは個々の情報間の関連度に着目しているため、コミュニティ内に閉じた範囲で情報を管理し、有用な情報を抽出することはできるが、コミュニティ内の文書に有用な情報が含まれていない場合は、有用な情報を検索することは困難であった。
本発明は上述した従来技術の問題点を解決するためになされたものであり、その目的は、コミュニティ間の類似度評価によって、検索キーワードのみに依存することなく、検索エンジンでは発見できなかった情報へユーザを誘導することができるコミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法を提供することである。
本発明の請求項1によるコミュニティ制御装置は、インターネット上のWebサーバからWebサイトを収集してコミュニティを生成するコミュニティ生成手段と、前記コミュニティ生成手段によって生成されたコミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することによってコミュニティ間の類似度を算出するコミュニティ間類似度判定手段とを含むことを特徴とする。ベクトル演算を行うことにより、元のコミュニティの特徴が変化した場合、それに応じてコミュニティ間の類似性の変化も容易に反映できる。また、ベクトル表現を採用することにより、計算が容易であり、かつ、複数の文書群の比較を効率的に行うことができる。
本発明の請求項2によるコミュニティ制御装置は、請求項1において、前記コミュニティ生成手段は、インターネット上からWebサイトを収集するWebクローラ部と、前記Webクローラ部によって収集されたWebサイトのハイパーリンクを抽出し、リンク構造を解析してコミュニティの境界を判定するリンク解析部とを含むことを特徴とする。このように構成すれば、インターネット上のWebサイトを自動的に収集できる。
本発明の請求項3によるコミュニティ制御装置は、請求項1又は2において、前記コミュニティ間類似度判定手段は、前記コミュニティを構成する記事全体に対してtf・idf法を適用することにより、コミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することを特徴とする。tf・idf法を用いることにより、コミュニティを表現する特徴的な単語を機械的に抽出することができる。なお、tf・idf法は、単語重要度の評価手法である。この手法では、同一文書で繰り返し出現する単語を重要視するtf(term frequency)法と、出現する文書数が少ない単語は文書の絞り込みに役立つのでこれを重要視するidf(inverted document frequency)法とを組み合わせて単語の重要度を計算する。
本発明の請求項4によるコミュニティ情報探索システムは、請求項1から請求項3までのいずれか1項に記載のコミュニティ制御装置と、ユーザからの要求があった場合に、前記コミュニティ間の類似度に基づいて、コミュニティの探索を行うコミュニティ探索装置とを含むことを特徴とする。類似したWebサイト群に予め探索範囲を限定することで、探索範囲の無用な拡大を制限することができる。
本発明の請求項5によるコミュニティ情報探索システムは、請求項4において、前記コミュニティ探索装置は、ユーザからの要求があった場合に、
前記コミュニティ間類似度判定手段によって算出され、既に登録されているコミュニティ間の類似度に基づいて、複数のコミュニティの構成要素であるWebサイト群に並列に、ユーザからの要求を書き込むことを特徴とする。Webサイト群に並列に、ユーザからの要求を書き込むことにより、広範囲に探索を行うことができる。
本発明の請求項6によるコミュニティ情報探索方法は、インターネット上のWebサーバからWebサイトを収集してコミュニティを生成するコミュニティ生成ステップ(例えば図6中のステップS4及びS6に対応)と、この生成されたコミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することによってコミュニティ間の類似度を算出するコミュニティ間類似度判定ステップ(例えば図6中のステップS7及びS8に対応)と、前記コミュニティ生成ステップにおいて生成されたコミュニティを登録するステップ(例えば図6中のステップS9に対応)とを含み、登録されたコミュニティについて探索を行うことを特徴とする。ベクトル演算を行うことにより、元のコミュニティの特徴が変化した場合、それに応じてコミュニティ間の類似性の変化も容易に反映できる。また、ベクトル表現を採用することにより、計算が容易であり、かつ、複数の文書群の比較を効率的に行うことができる。
本発明の請求項7によるコミュニティ情報探索方法は、請求項6において、初期コミュニティを設定するステップ(例えば図6中のステップS11に対応)と、設定された初期コミュニティの類似コミュニティ群を通知するステップ(例えば図6中のステップS12に対応)と、通知した類似コミュニティ群の中から選択された結果を取得するステップ(例えば図6中のステップS15に対応)と、取得した結果に従ってWebログへ質問を書き込むステップ(例えば図6中のステップS16に対応)と、前記質問に対する回答を受信した場合に、それを通知するステップ(例えば図6中のステップS21に対応)とを更に含むことを特徴とする。こうすることにより、初期コミュニティを設定し、コミュニティ情報を容易に探索できる。
本発明の請求項8によるコミュニティ情報探索方法は、請求項6において、コミュニティ探索要求を受信した場合に、類似コミュニティ群を通知するステップ(例えば図7中のステップS12に対応)と、通知した類似コミュニティ群の中から選択された結果を取得するステップ(例えば図7中のステップS15に対応)と、取得した結果に従ってWebログへ質問を書き込むステップ(例えば図7中のステップS16に対応)と、前記質問に対する回答を受信した場合に、それを通知するステップ(例えば図7中のステップS21に対応)とを更に含むことを特徴とする。こうすることにより、初期コミュニティを設定しない場合でも、コミュニティ情報を容易に探索できる。
本発明では、インターネット上のWebサイト群のリンク構造に基づいてコミュニティを生成し、コミュニティ内における単語の重要度評価の結果に基づいてコミュニティの特徴をベクトルで表現する。また、生成されたコミュニティベクトルを用いてコミュニティ間の類似度を算出し、類似度の降順に従い決定される複数のコミュニティに対してユーザのクエリを転送する、あるいは同時に書き込みを行うことにより、広範囲に探索を行うと同時に、類似したWebサイト群に予め探索範囲を限定することで、探索範囲の無用な拡大を制限することが可能となる。また従来の個々のWebサイトに基づいた評価とは異なり、コミュニティの特徴に基づいて情報探索を行うことで、従来の検索方式ではユーザが訪問することがないコミュニティまで情報探索の範囲を拡大することが可能となり、そこでの新たなコミュニケーション機会の増大が期待できる。
以下、本発明の実施の形態を、図面を参照して説明する。なお、以下の説明において参照する各図では、他の図と同等部分は同一符号によって示されている。
(コミュニティ情報探索システムの構成)
まず、本実施形態にかかるコミュニティ情報探索システムの構成について説明する。図1は、本実施形態にかかるコミュニティ情報探索システムの構成図である。同図に示されているように、本実施形態にかかるコミュニティ情報探索システムは、携帯電話機やパーソナルコンピュータなどから構成されるユーザ利用端末210a〜210nと、様々なWebサイトを保持しているWebサーバ20a〜20nと、広帯域ネットワーク(NW)30と、コミュニティ制御ノード装置100とを備えて構成される。コミュニティ制御ノード装置100は、コミュニティ制御装置101と、コミュニティ管理データベース102と、コミュニティの探索を行うコミュニティ探索装置140とを備えて構成されている。
(コミュニティ制御ノード装置)
続いて、本実施形態にかかるコミュニティ制御ノード装置100の構成例について説明する。図2は、本実施形態にかかるコミュニティ制御ノード装置100の構成図である。
同図に示されているように、コミュニティ制御装置101は、広帯域ネットワーク30を経由して、ユーザが利用している端末210a〜210n及びWebサーバ20a〜20n(図1参照)とデータの送受信を行う送受信処理部110と、収集したWebサイトからコミュニティを生成するコミュニティ生成部120と、コミュニティ間の類似度を算出するコミュニティ間類似度判定部130とを備えて構成されている。
コミュニティ生成部120は、インターネット上のWebサイトをクローリングによって収集するWebクローラ(crawler)部121と、収集したWebサイトに含まれるハイパーリンクを抽出し、リンク構造の解析を行い、コミュニティを形成するリンク解析部122と、収集したWebサイトの本文を品詞分解し、結果をコミュニティ単位で集計する形態素解析部123と、形態素解析の結果からコミュニティ内で利用されている単語の重要度を算出し、コミュニティを表現するコミュニティベクトルを生成する重要度評価部124とを備えて構成されている。
コミュニティ間類似度判定部130はコミュニティ間の類似度を計算する類似度計算部131を備えて構成されている。
このような構成において、Webクローラ部121は定期的にインターネット上のWebサーバ20a〜20nヘアクセスし、リンクを辿りながら様々なWebサーバを巡回してWebサイトをコミュニティ制御ノード装置100へダウンロードする。まずWebクローラ部121は既知のWebサイトを開始地点とし、Webサイトをダウンロードする。次にリンク解析部122はWebクローラ部121によってダウンロードされたWebサイトのハイパーリンクを抽出し、抽出したハイパーリンクのリストをクローラ部121へ結果を返す。以後再帰的にWebクローラ部121とリンク解析部122の間でWebサイトの巡回およびダウンロードとリンク抽出を、リンク解析部122において抽出されるハイパーリンクが無くなるまで繰り返す。
続いて、最初に収集を開始したWebサイトから、最終的にハイパーリンクが無くなるまでに収集された全てのWebサイトをメンバとしたコミュニティを形成する。
続いて、形態素解析部123はコミュニティメンバとして収集されたWebサイトに対して形態素解析を行い、Webサイトに含まれる単語とその利用回数を抽出する。
このとき、例えば挨拶表現や人称代名詞など、一般的な用語やあまり意味を為さない単語が多量に含まれる可能性があるが、ここでの形態素解析は所望の結果が得られるよう、例えば、抽出する品詞を指定するなど、フィルタをかけて抽出する方法が含まれている。
重要度評価部124は、前記の形をコミュニティ単位で集計された態素解析部の結果から、コミュニティ内における各単語の重要度を算出し、コミュニティを表現するベクトルを生成する。重要度を算出するためには、例えばtf・idf法などの文書間の重みを算出する方法を用いて、各単語と算出された重みの組によってコミュニティにベクトルを付与した後、コミュニティ管理データベース102へコミュニティ情報の登録を行う。このベクトルは、コミュニティを表現する特徴的な「単語」とその単語の「重み」とから構成されるベクトルである。
例えば、コミュニティ内重要度評価をtf・idf法によって求める場合、評価式は以下のように表すことができる。
tf・idf=tf(t,d)×idf(t)
=tf(t,d)×log{N/df(t)}+1
ここで、コミュニティ重内重要度評価におけるtfとはコミュニティdにおける単語tの出現頻度を表す。一方、idf(t)は出現コミュニティの偏りを評価するものである。Nは総コミュニティ数であり、コミュニティ管理データベース102に格納されている。tf(t,d)はコミュニティdに含まれる単語tの頻度、df(t)は単語tを含むコミュニティ数である。
ところで、一般に、tf・idf法は、一対一の文書間の比較に使用されるが、本例では、複数の文書群で構成されるコミュニティ(つまりBlog記事の集まり)に対してtf・idf法を適用する点が独自性であり、複数の文書群の比較が効率的に行える。また、新たにコミュニティメンバ(Blog記事)がコミュニティに追加された場合には、tf・idf法によってコミュニティベクトルが再計算される。よって、本例のコミュニティは従来の掲示板のようにトピックが固定された静的なものではなく、その記事の中身やリンクで繋がったBlog記事の内容の変化に応じてコミュニティベクトルが更新され、動的にコミュニティの特徴を変化させることができる。
コミュニティ間類似度判定部130は、類似度計算部131を備えており、コミュニティ生成部120で生成されたコミュニティに対し、これまでにコミュニティ生成部によって生成され、コミュニティ管理データベース102へ登録されている全て、あるいは一部のコミュニティと順に、ベクトル演算によって類似度を求める。ここで、類似度計算部131においてコミュニティ間の類似度を計算するために用いるベクトル演算の方法として、例えば、内積、あるいはJaccard係数を求めるなどの手法を用いることができる。
コミュニティ探索装置140は、クエリ処理部141とコミュニティ探索制御部142とを備えている。このコミュニティ探索装置140は、クエリ処理部141は、ユーザからのコミュニティ情報探索要求の受け取り、およびユーザへの探索結果の通知などの処理を行う。
また、コミュニティ探索制御部142は、コミュニティ管理データベース102を参照し、既にコミュニティ間類似度評価ステップを経て登録済みのコミュニティ間類似度テーブルを参照し、類似性の高い探索コミュニティを決定し、ユーザから受け取ったクエリと類似性の高いコミュニティのメンバであるWebサイトに対して書き込みを行う。
(コミュニティ生成処理)
以下、コミュニティ生成処理について、図3のフローチャートを参照して詳細に説明する。
最初にWeblog(以下、Blogと称する)Blog記事を収集する(ステップS101)。収集したBlog記事について、トラックバック及びリンクを抽出する(ステップS102)。以上の処理は残存トラックバックリンクが無くなるまで繰返し行われる(ステップS103→S101…)。
次に、収集したBlog記事を入力し(ステップS104)、形態素解析を行う(ステップS105)。そして、単語の利用回数をカウントする(ステップS106)。以上の処理は、全Blog記事の形態素解析を終了するまで繰返し行われる(ステップS107→S104…)。
さらに、重要度計算が行われる。この重要度計算においては、最初に、単語a1について、tf、idfをそれぞれ求める(ステップS108→S109)。その後、tf・idfを計算する(ステップS110)。以上の処理は、単語anまですなわち全ての単語について重要度計算が終了するまで繰返し行われる(ステップS111→S108…)。最後に、コミュニティ管理データベースへの登録が行われる(ステップS112)。
(情報探索処理)
図4は、図2中のコミュニティ探索装置による情報探索処理を示すフローチャートである。
図4において、探索クエリを受け付けると(ステップS201)、初期コミュニティが設定される(ステップS202)。そして、コミュニティ管理データベースを参照し(ステップS203)、類似コミュニティ群を設定する(ステップS204)。このとき、複数のコミュニティをユーザ端末へ提示し、ユーザに選択させても良い(ステップS204a)。
次に、コミュニティへ質問を書き込む(ステップS205)。質問の書き込みは、未探索コミュニティが無くなるまで繰り返される(ステップS206→S205…)。最後に、定期タイマ及び終了タイマを設定し、処理は終了となる(ステップS207)。
(情報探索の回答有無の確認処理)
図5は、図2中のコミュニティ探索装置による情報探索の回答有無の確認処理を示すフローチャートである。
図5において、定期タイマがタイムアウトになると、ステップS205において書き込んだ質問に対する回答の書き込みがあったか判断する(ステップS301→S302)。質問に対する回答の書き込みがあった場合、ユーザ(質問者)へその書き込みを通知し(ステップS302→S303)、処理は終了となる(ステップS306)。
一方、質問に対する回答の書き込みが無い場合、終了タイマがタイムアウトになったか判断され(ステップS304)、タイムアウトになっていなければ、定期タイマが再度設定され(ステップS304→S305)、処理は終了となる(ステップS306)。終了タイマがタイムアウトになっていれば、そのまま処理は終了となる(ステップS304→S306)。
(コミュニティ情報探索システムの動作例)
続いて、図2の構成からなるコミュニティ制御ノード装置を利用したコミュニティ情報探索システムの動作について説明する。図6は探索時の初期コミュニティが与えられる場合のコミュニティ生成手順220とコミュニティ探索手順230とを示すシーケンス図である。同図には、情報を探しているユーザの端末210、Blogユーザの端末211a〜211n、Blogサーバ212a〜211n、コミュニティ制御装置100、及び、コミュニティ探索装置140の動作が示されている。
本実施形態にかかるコミュニティ情報探索システムにおいては、Blogのような個人の情報発信ツールが、トラックバックリンクなど興味、関心、話題によってハイパーリンク(トラックバックリンク)を互いに張り合っていること、掲示板サービスのようなコメント機能を有する点で好適であり、以下ではBlogを例に取り上げて動作を説明する。
本実施形態にかかるコミュニティ情報探索システムにおいてコミュニティ生成を行うにあたっては、まずBlogユーザ端末211aからBlogサーバ212aに対してBlog記事あるいはトラックバックリンク情報(TB)が送信される(ステップS1)。かかるBlogユーザ端末211aからの記事送信に対して、Blogサーバ212aは記事を受信し(ステップS2)、その後それを蓄積する(ステップS3)。
コミュニティ制御ノード装置100は、定期的にBlogサーバ212a〜212nに対して各Blogサーバがローカルに蓄積しているBlog記事のデータの転送を要求する(ステップS4)。サーバ212a〜212nは、Blog記事のデータを送信し(ステップS5)、コミュニティ制御ノード装置100は順次転送されてくるBlog記事の受信を行う(ステップS6)。
コミュニティ制御ノード装置100は受信したBlog記事からトラックバックリンクを抽出し、コミュニティの境界を判定する(ステップS7)。さらに、収集したBlog記事群の形態素解析を行い、抽出した情報に基づいてコミュニティ内の重要語の重みを計算し、コミュニティにベクトルを付与する。
続いて、ステップS7おいて算出されたコミュニティと、既にコミュニティ管理データベース102に登録されているコミュニティとの間の類似度をベクトル演算によって求める(ステップS8)。
続いて、そのコミュニティと登録済みのコミュニティとの類似度を、コミュニティメンバとコミュニティベクトル、コミュニティIDと共に、コミュニティ管理データベース102に登録して記憶する(ステップS9)。
続いて、コミュニティ探索手順230について説明する。本実施形態にかかるコミュニティ情報探索システムおいてコミュニティ探索を行うにあたっては、まず情報を探しているユーザの端末210からコミュニティ探索装置140へコミュニティ探索依頼のクエリが送信される(ステップS10)。
次に、コミュニティ探索を行うための初期コミュニティの設定を行う(ステップS11)。この初期コミュニティの設定は、ユーザ自身が指定することが可能である。また、情報を探しているユーザが現在所属しているコミュニティ情報を、ステップS10において送信するクエリ内に含めておくことで、コミュニティを初期コミュニティとして設定することも可能である。
続いて、コミュニティ探索装置140はコミュニティ管理データベース102を参照し、初期コミュニティと類似度の高い複数のコミュニティのリストを、情報を探しているユーザの端末210へ送信する(ステップS12)。端末210は、受け取った類似度の高いコミュニティを、情報を探しているユーザの端末の画面上に表示し(ステップS13)、ユーザは提示された結果の中から所望のコミュニティを選択する(ステップS14)。すると、コミュニティ制御ノード装置は、選択結果を受信する(ステップS15)。
ステップS13、ステップS14、ステップS15において、ユーザがコミュニティを選択することでユーザにとって自由度が高いシステムを提供できる。ただし、ここでのステップS13、ステップS14、ステップS15を省略し、コミュニティ探索装置140が類似度判定の結果に基づいて、以降の処理を続けることも可能である。
ユーザが掲示板のように自由記述によって質問を投稿する場合、コミュニティ制御ノード装置100は、既定のタイマを設定し、情報を探しているユーザから受け取ったクエリに関する質問を、ステップS14で選択された複数のコミュニティのWebサイトヘ、ユーザの代理で書き込みを行う(ステップS16)。Blogサーバ212nは、その質問を受信する(ステップS17)。
ここで、書き込みとは、ユーザが質問を自然言語で記述したものである。例えば、「○○について教えて下さい!」である。ここでは、これをコピーし、掲示板やBlogにおけるコメント欄に記述する。このとき、複数の話題が類似した掲示板やBlogに、同時に質問を書き込むことで、利用者が何度も似た内容の掲示板を探す必要は無く、一度に複数のWebサイトに同時に質問投稿することができる。
次に、ステップS16において書き込みを行ったコミュニティ制御ノード装置100は、タイムアウトするまでの間、書き込みを行ったWebサイトを定期的に監視する。
続いて、Blog記事を閲覧したユーザ端末211nがクエリの質問を見て回答を送信すると(ステップS18)、その投稿された回答を、Blogサーバ212nが受信する(ステップS19)。このとき、ステップS16において設定したタイマがタイムアウトする前であれば、コミュニティ探索装置140は、その回答を受信する(ステップS20)。
次に、コミュニティ探索装置140は、情報を探しているユーザの端末210へ回答が得られたことを通知する(ステップS21)。
情報を探しているユーザの端末210では、通知結果を画面に表示する(ステップS22)。この場合、具体的には、電子メールを利用して通知するか、又は、本システムが起動している時に画面上にポップアップで質問の回答が来たことを通知する。
このとき、ユーザにとって満足のいく回答が得られなかった場合、上記のS10に戻り、再度コミュニティ制御ノードに対して類似コミュニティの提示を要求するか、別のクエリを送信することで、再帰的に類似度に基づいて情報探索を継続することが可能である。
(コミュニティ情報探索システムの他の動作例)
図6を参照して説明したコミュニティ情報探索システムの動作例は、初期コミュニティが予め与えられている場合の動作例である。続いて、本実施形態にかかるコミュニティ情報探索システムの他の動作例について説明する。
図7はコミュニティ探索時の初期コミュニティを必要としない場合における、コミュニティ探索の動作を示すシーケンス図である。同図には、情報を探しているユーザの端末210、Blogユーザの端末211a〜211n、Blogサーバ212a〜211n、コミュニティ制御装置100、及び、コミュニティ探索装置140の動作が示されている。
同図において、コミュニティ生成手順であるステップS1からステップS9までの処理、および、ステップS12以降の処理は、図6の場合と同様である。
本実施形態にかかるコミュニティ情報探索システムにおいてコミュニティ探索を行うにあたっては、情報を探しているユーザの端末210からBlogサーバ212aヘクエリが質問形式で送信される(ステップS30)。この質問は、Blogサーバで受信される(ステップS31)。
一定期間回答が得られない場合、その旨がユーザの端末210に通知される(ステップS32)。その後、なおユーザが情報を探そうとする場合、情報を探しているユーザの端末から探索依頼のクエリがコミュニティ制御ノード装置100へ送信される(ステップS33)。
続いて、コミュニティ制御ノードはユーザのクエリに適する初期コミュニティの設定を行う(ステップS34)。このとき、例えば、ユーザのクエリに対して形態素解析を行い、それらの語と登録済みのコミュニティの類似度を求めて初期コミュニティを設定する必要がある。ここで、初期コミュニティとは、コミュニティ間の類似度を比較する際、自分が属しているコミュニティを指す。その場合、ユーザが明示的に所属するコミュニティを指定する、あるいはユーザ自身が事前にプリファレンス情報として登録することで決定される。
以降の処理は、図6の場合と同様である。
(コミュニティ管理データベースの構成例)
次に、コミュニティ管理データベース102に管理されるコミュニティ情報に関するテーブルについて説明する。
図8はコミュニティ生成の過程においてコミュニティごとの単語の利用頻度を格納したテーブルの例を示す図である。同図のテーブルには、コミュニティごとに(すなわちCommunity A、Community B、Community C)、抽出された各単語の利用回数と、各単語の重要度とが格納されている。
図9はコミュニティ間の類似度を格納するコミュニティ間類似度テーブルの構成例を示す図である。同図に示されているコミュニティ間類似度テーブル中の各セルの数値は、その行と列とに記載されたコミュニティ間の類似度を示している。
図10は、各コミュニティメンバ(Webサイト)個別のコミュニティ情報を格納したコミュニティテーブルの構成例を示す図である。このテーブルには、コミュニティID(すなわちCommunity A、Community B、Community C、Community D)と各メンバとなるWebサイトの情報(日付、時間、ブログ名、記事タイトル、URL)とが格納されている。
また、属性欄には、重要度計算で求められたコミュニティベクトルが、単語と重みのベクトルとして格納されている。同図中のCom n={…}は、n番目のコミュニティの特徴を表現するベクトルであり、「a」は単語、「aw」はその単語の重みである。
Com n={(a1,aw1)…}は、n番目のコミュニティは単語a1と、その重みaw1、単語a2とその重みaw2…を意味している。
例えば、n番目のコミュニティが「野球」のコミュニティであったとすると、
Com n={(タイガース,0.87),(連勝,0.71),(阪神,0.70),(2ベース,0.24)…}のように表現される。
(コミュニティ情報探索方法)
上述したコミュニティ情報探索システムにおいては、以下のようなコミュニティ情報探索方法が実現されている。
すなわち、インターネット上のWebサーバからWebサイトを収集してコミュニティを生成するコミュニティ生成ステップ(例えば図6中のステップS4及びS6に対応)と、この生成されたコミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することによってコミュニティ間の類似度を算出するコミュニティ間類似度判定ステップ(例えば図6中のステップS7及びS8に対応)と、上記コミュニティ生成ステップにおいて生成されたコミュニティを登録するステップ(例えば図6中のステップS9に対応)とを含み、登録されたコミュニティについて探索を行うコミュニティ情報探索方法が実現されている。ベクトル演算を行うことにより、元のコミュニティの特徴が変化した場合、それに応じてコミュニティ間の類似性の変化も容易に反映できる。また、ベクトル表現を採用することにより、計算が容易であり、かつ、複数の文書群の比較を効率的に行うことができる。
また、初期コミュニティを設定するステップ(例えば図6中のステップS11に対応)と、設定された初期コミュニティの類似コミュニティ群を通知するステップ(例えば図6中のステップS12に対応)と、通知した類似コミュニティ群の中から選択された結果を取得するステップ(例えば図6中のステップS15に対応)と、取得した結果に従ってWebログへ質問を書き込むステップ(例えば図6中のステップS16に対応)と、上記質問に対する回答を受信した場合に、それを通知するステップ(例えば図6中のステップS21に対応)とを更に含むコミュニティ情報探索方法が実現されている。こうすることにより、初期コミュニティを設定し、コミュニティ情報を容易に探索できる。
さらに、コミュニティ探索要求を受信した場合に、類似コミュニティ群を通知するステップ(例えば図7中のステップS12に対応)と、通知した類似コミュニティ群の中から選択された結果を取得するステップ(例えば図7中のステップS15に対応)と、取得した結果に従ってWebログへ質問を書き込むステップ(例えば図7中のステップS16に対応)と、上記質問に対する回答を受信した場合に、それを通知するステップ(例えば図7中のステップS21に対応)とを更に含むコミュニティ情報探索方法が実現されている。こうすることにより、初期コミュニティを設定しない場合でも、コミュニティ情報を容易に探索できる。
本発明は、コミュニティの探索に利用することができる。
本発明の実施の形態に係るコミュニティ情報探索システムの構成例を示すブロック図である。 図1中のコミュニティ制御ノード装置の構成例を示すブロック図である。 コミュニティ生成処理を示すフローチャートである。 情報探索処理を示すフローチャートである。 情報探索の回答有無の確認処理を示すフローチャートである。 コミュニティ情報探索システムにおける、初期コミュニティを設定する場合のコミュニティ生成及びコミュニティ探索の手順を示す図である。 コミュニティ情報探索システムにおける、初期コミュニティを設定しない場合のコミュニティ生成及びコミュニティ探索の手順を示す図である。 複数コミュニティの単語利用頻度に関する管理テーブルの構成例を示す図である。 コミュニティ間類似度テーブルの構成例を示す図である。 各コミュニティメンバ個別のコミュニティ情報を格納したコミュニティテーブルの構成例を示す図である。
符号の説明
20a〜20n Webサーバ
30 広帯域ネットワーク
100 コミュニティ制御ノード装置
101 コミュニティ制御装置
102 コミュニティ管理データベース
110 送受信処理部
120 コミュニティ生成部
121 クローラ部
122 リンク解析部
123 形態素解析部
124 重要度評価部
130 コミュニティ間類似度判定部
131 類似度計算部
140 コミュニティ探索装置
141 クエリ処理部
142 コミュニティ探索制御部
210、210a〜210n 端末
211a〜211n Blogユーザ端末
212a〜212n Webサーバ

Claims (8)

  1. インターネット上のWebサーバからWebサイトを収集してコミュニティを生成するコミュニティ生成手段と、前記コミュニティ生成手段によって生成されたコミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することによってコミュニティ間の類似度を算出するコミュニティ間類似度判定手段とを含むことを特徴とするコミュニティ制御装置。
  2. 前記コミュニティ生成手段は、インターネット上からWebサイトを収集するWebクローラ部と、前記Webクローラ部によって収集されたWebサイトのハイパーリンクを抽出し、リンク構造を解析してコミュニティの境界を判定するリンク解析部とを含むことを特徴とする請求項1記載のコミュニティ制御装置。
  3. 前記コミュニティ間類似度判定手段は、前記コミュニティを構成する記事全体に対してtf・idf法を適用することにより、コミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することを特徴とする請求項1又は2記載のコミュニティ制御装置。
  4. 請求項1から請求項3までのいずれか1項に記載のコミュニティ制御装置と、ユーザからの要求があった場合に、前記コミュニティ間の類似度に基づいて、コミュニティの探索を行うコミュニティ探索装置とを含むことを特徴とするコミュニティ情報探索システム。
  5. 前記コミュニティ探索装置は、ユーザからの要求があった場合に、
    前記コミュニティ間類似度判定手段によって算出され、既に登録されているコミュニティ間の類似度に基づいて、複数のコミュニティの構成要素であるWebサイト群に並列に、ユーザからの要求を書き込むことを特徴とする請求項4記載のコミュニティ情報探索システム。
  6. インターネット上のWebサーバからWebサイトを収集してコミュニティを生成するコミュニティ生成ステップと、この生成されたコミュニティの特徴を単語とその単語の重みとから構成されるベクトルで表現することによってコミュニティ間の類似度を算出するコミュニティ間類似度判定ステップと、前記コミュニティ生成ステップにおいて生成されたコミュニティを登録するステップとを含み、登録されたコミュニティについて探索を行うことを特徴とするコミュニティ情報探索方法。
  7. 初期コミュニティを設定するステップと、設定された初期コミュニティの類似コミュニティ群を通知するステップと、通知した類似コミュニティ群の中から選択された結果を取得するステップと、取得した結果に従ってWebログへ質問を書き込むステップと、前記質問に対する回答を受信した場合に、それを通知するステップとを更に含むことを特徴とする請求項6記載のコミュニティ情報探索方法。
  8. コミュニティ探索要求を受信した場合に、類似コミュニティ群を通知するステップと、通知した類似コミュニティ群の中から選択された結果を取得するステップと、取得した結果に従ってWebログへ質問を書き込むステップと、前記質問に対する回答を受信した場合に、それを通知するステップとを更に含むことを特徴とする請求項6記載のコミュニティ情報探索方法。
JP2005153535A 2005-05-26 2005-05-26 コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法 Pending JP2006331070A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005153535A JP2006331070A (ja) 2005-05-26 2005-05-26 コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005153535A JP2006331070A (ja) 2005-05-26 2005-05-26 コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法

Publications (1)

Publication Number Publication Date
JP2006331070A true JP2006331070A (ja) 2006-12-07

Family

ID=37552696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005153535A Pending JP2006331070A (ja) 2005-05-26 2005-05-26 コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法

Country Status (1)

Country Link
JP (1) JP2006331070A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026133A (ja) * 2007-07-20 2009-02-05 Kansai Electric Power Co Inc:The 文書合致度合い評価方法
JP2009031868A (ja) * 2007-07-24 2009-02-12 Ntt Docomo Inc コミュニティ管理装置及びコミュニティ管理方法
JP2010055494A (ja) * 2008-08-29 2010-03-11 Oki Electric Ind Co Ltd 検索分析サーバ装置及び検索分析方法
JP2010160534A (ja) * 2009-01-06 2010-07-22 Yahoo Japan Corp 地域特性辞書生成方法及び装置
JP2012003709A (ja) * 2010-06-21 2012-01-05 Kddi Corp 分類装置、分類方法及び分類プログラム
JP2013003694A (ja) * 2011-06-14 2013-01-07 Kddi Corp Id割当装置、方法及びプログラム
JP2014010698A (ja) * 2012-06-29 2014-01-20 Kddi Corp 送信制御装置、送信制御方法、およびプログラム
JP2015503163A (ja) * 2012-01-18 2015-01-29 テンセント テクノロジー (シェンツェン) カンパニー リミテッド ユーザ質問の処理方法及び処理システム
JP2015504223A (ja) * 2012-01-18 2015-02-05 アルカテル−ルーセント ソーシャル・ネットワークの第1サブセットのサービスのセットを前記ソーシャル・ネットワークの第2サブセットのユーザに提供する方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026133A (ja) * 2007-07-20 2009-02-05 Kansai Electric Power Co Inc:The 文書合致度合い評価方法
JP2009031868A (ja) * 2007-07-24 2009-02-12 Ntt Docomo Inc コミュニティ管理装置及びコミュニティ管理方法
JP2010055494A (ja) * 2008-08-29 2010-03-11 Oki Electric Ind Co Ltd 検索分析サーバ装置及び検索分析方法
JP2010160534A (ja) * 2009-01-06 2010-07-22 Yahoo Japan Corp 地域特性辞書生成方法及び装置
JP2012003709A (ja) * 2010-06-21 2012-01-05 Kddi Corp 分類装置、分類方法及び分類プログラム
JP2013003694A (ja) * 2011-06-14 2013-01-07 Kddi Corp Id割当装置、方法及びプログラム
JP2015503163A (ja) * 2012-01-18 2015-01-29 テンセント テクノロジー (シェンツェン) カンパニー リミテッド ユーザ質問の処理方法及び処理システム
JP2015504223A (ja) * 2012-01-18 2015-02-05 アルカテル−ルーセント ソーシャル・ネットワークの第1サブセットのサービスのセットを前記ソーシャル・ネットワークの第2サブセットのユーザに提供する方法
US9223775B2 (en) 2012-01-18 2015-12-29 Tencent Technology (Shenzhen) Company Limited User question processing method and system
KR101623052B1 (ko) * 2012-01-18 2016-05-20 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 사용자 질의 처리 방법 및 시스템
JP2014010698A (ja) * 2012-06-29 2014-01-20 Kddi Corp 送信制御装置、送信制御方法、およびプログラム

Similar Documents

Publication Publication Date Title
US8060456B2 (en) Training a search result ranker with automatically-generated samples
US9262532B2 (en) Ranking entity facets using user-click feedback
US9122756B2 (en) On-line social search
Hotho et al. Information retrieval in folksonomies: Search and ranking
US9213961B2 (en) Systems and methods for generating social index scores for key term analysis and comparisons
Meo et al. Analyzing user behavior across social sharing environments
JP2006331070A (ja) コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法
US20080160490A1 (en) Seeking Answers to Questions
US20120011129A1 (en) Faceted exploration of media collections
US10698901B1 (en) Query completions
KR20080031928A (ko) 태그를 분석하여 관련 문서를 찾기 위한 시스템 및 방법
JP2009169924A (ja) 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体
CN101661490B (zh) 搜索引擎、其客户端及搜索网页的方法
US20080306914A1 (en) Method and system for performing a search
Jin et al. Personal web revisitation by context and content keywords with relevance feedback
US20140280174A1 (en) Interactive user-controlled search direction for retrieved information in an information search system
JP2006164256A (ja) 属性評価プログラム、属性評価システムおよび属性評価方法
US20100332491A1 (en) Method and system for utilizing user selection data to determine relevance of a web document for a search query
JP5084796B2 (ja) 関連性判定装置、関連性判定方法およびプログラム
JP2009301540A (ja) 情報検索装置及び情報検索方法
JP2003030100A (ja) インターネット情報提供システムおよびインターネット情報提供方法
JP4853915B2 (ja) 検索システム
US20110208718A1 (en) Method and system for adding anchor identifiers to search results
JP2007513440A (ja) 情報を概念的に編成してプレゼンテーションする方法及びシステム
JP2005190065A (ja) 情報検索収集用利用者端末、情報検索収集システム、および情報検索収集方法