JP2007094552A - コミュニティ抽出装置、コミュニティ抽出方法、プログラム、及び記録媒体 - Google Patents

コミュニティ抽出装置、コミュニティ抽出方法、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP2007094552A
JP2007094552A JP2005280349A JP2005280349A JP2007094552A JP 2007094552 A JP2007094552 A JP 2007094552A JP 2005280349 A JP2005280349 A JP 2005280349A JP 2005280349 A JP2005280349 A JP 2005280349A JP 2007094552 A JP2007094552 A JP 2007094552A
Authority
JP
Japan
Prior art keywords
community
search result
phrase
search
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005280349A
Other languages
English (en)
Inventor
Shigeru Fujimura
滋 藤村
Takashi Fujimura
考 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005280349A priority Critical patent/JP2007094552A/ja
Publication of JP2007094552A publication Critical patent/JP2007094552A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】代表語句を直接含んでいなくとも、関連性の高いコンテンツを幅広くコミュニティに取り込み、ユーザに提示することを可能としたコミュニティ抽出技術を提供する。
【解決手段】コミュニティ抽出装置において、コミュニティを代表するシードとなる語句を得る手段と、前記語句を検索条件としてコンテンツ検索を行い第一検索結果を得る手段と、前記第一検索結果から代表語句と関連性の高い関連語句集合を抽出する手段と、前記関連語句集合中の各関連語句を検索条件としてコンテンツ検索を行うことで得られた第二検索結果と、前記第一検索結果との間の関連性の強さを表すスコアを算出する手段と、前記スコアの値に基づいて、前記関連語句をコミュニティを代表する代表語句集合へ結合し、前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するか否かを判定する手段とを備える。
【選択図】 図1

Description

本発明は、インターネット上のコンテンツの集合から話題が類似しているコンテンツをコミュニティとして抽出する技術に関する。
インターネット上のコンテンツからコミュニティを抽出する技術においては、検索アルゴリズムとして提案されたHITSアルゴリズムを応用する手法がある(非特許文献1)。
ここで、本明細書及び特許請求の範囲でのコンテンツとは、例えばインターネット上のWebページ、Webサイト中のWebページの集合、blog記事、blogサイト中のblog記事の集合などのことを指す。
HITSはコンテンツ間のハイパーリンクの情報のみを利用し、authorityスコアおよびhubスコアを計算し、スコアの大きさで順位付けを行う。ここで定性的には、authorityスコアはそのコンテンツの重要性の指標であり、hubスコアはリンク先のコンテンツの重要性を表す指標である。また、直感的には、authorityスコアは大きなスコアをもつhubから多くリンクされている程大きくなり、逆に、hubスコアは大きなスコアをもつauthorityを多くリンクしているほど大きくなる。両スコアは繰り返し計算によって求められる。
HITSを応用し関連するページ集合をコミュニティとして抽出する手法は、一例として簡単には次のように述べられる。シードとなる語句から検索されたコンテンツからハイパーリンクにおける近傍の部分グラフ、例えば、深さ2以内にあるコンテンツを含む部分グラフを与え、authorityスコアとhubスコアを計算すると、authorityスコアが大きいコンテンツをシードと関連するコンテンツと考えることができる。したがって、authorityスコアの大きなコンテンツ群をコミュニティとして抽出する。
また、言語処理の分野では情報検索で得られた結果をコンテンツのテキストの類似性を基に、クラスタリングを行い、内容の類似しているコンテンツをグループ化する方法がある。
類似度の計算法としては、一例として、テキストを単語のベクトルとして考え、その内積を類似度として採用する手法などがある。
クラスタリングの手法としては、大きく分類すると階層的手法と、分割最適化手法がある(非特許文献2、非特許文献3)。
J.Kleinberg, Authoritative Sources in a Hyperlinked Environment, In Proceedings ACM-SIAM Symposium on Discrete Algorithms, 1998 神蔦敏弘、"データマイニング分野のクラスタリング手法(1)−クラスタリングを使ってみよう!−"、人工知能学会誌vol.18、no.1、pp.59−65(2003) 神蔦敏弘"データマイニング分野のクラスタリング手法(2)−大規模データへの挑戦と次元の呪いの克服−"、人工知能学会誌vol.18、no.2、pp.170−176(2003) 徳永健伸、"情報検索と言語処理"、pp26−28、東京大学出版会、ISBN4−13−065405−5、1999
HITSを応用したハイパーリンクに基づくコミュニティ抽出法においては、シードとなる語句を一度決定すると、抽出されるコミュニティも一意に決定され、最終出力はそのコミュニティのみである。したがって、そのコミュニティとの関連性は強いが、シードの語句とは異なる語句で構成されるコンテンツからなるコミュニティをユーザに提示することはできなかった。また、ハイパーリンクにおける近傍に存在していない関連するコンテンツはコミュニティに取り込むことができない場合もあった。
一方、検索結果に対するクラスタリングにおいては、あくまで検索結果をグループ化するのみであるから、関連する情報について検索結果に含まれていないコンテンツをユーザに提示することはできなかった。
本発明は上記の点に鑑みてなされたものであり、上記の問題点を解決し、関連するコンテンツを幅広くコミュニティに取り込み、ユーザに提示することを可能としたコミュニティ抽出技術を提供することを目的とする。
上記の課題は、ハイパーリンクで接続された多数のコンテンツの中から、お互いに関連するコンテンツを含むコミュニティを抽出するコミュニティ抽出装置において、コミュニティを代表するシードとなる語句を得るための代表語句入手手段と、前記語句を検索条件としてコンテンツ検索を行い第一検索結果を得るコンテンツ検索手段と、前記第一検索結果から代表語句と関連性の高い関連語句集合を抽出する関連語句集合抽出手段と、前記関連語句集合中の各関連語句を検索条件としてコンテンツ検索を行うことで得られた第二検索結果と、前記第一検索結果との間の関連性の強さを表すスコアを算出するスコア算出手段と、前記スコアの値に基づいて、前記関連語句をコミュニティを代表する代表語句集合へ結合し、前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するか否かを判定する結合判定手段と、を有することを特徴とするコミュニティ抽出装置により解決される。
前記コミュニティ抽出装置のスコア算出手段は、前記スコアとして前記第一検索結果と前記第二検索結果との間でのハイパーリンクの密度を表す集合間結合度を算出する手段を有し、前記結合判定手段は、前記集合間結合度に基づいて前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するかどうかを判定するようにしてもよい。また、スコア算出手段が、前記スコアとして前記第一検索結果と前記第二検索結果との間でのコンテンツの重なりの程度を表す内包度を算出する手段を有し、前記結合判定手段は、前記内包度に基づいて前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するかどうかを判定するようにしてもよく、更に前記スコアとして前記第一検索結果と第二検索結果との和集合のハイパーリンクの密度を表す和集合結合度を算出し、前記和集合結合度に基づいて前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するかどうかを判定するようにしてもよい。
また、前記コミュニティ抽出装置において、前記スコア算出手段は前記関連語句集合の要素語句間で関連性の強さを表すスコアを算出し、前記コミュニティ抽出装置は、当該スコアを基に関連語句集合内の語句のグループ化を行うグルーピング手段をさらに備えることとしてもよい。
また、前記関連語句集合抽出手段が、前記第一検索結果に対してTF・IDF法を行うことで前記関連語句集合を抽出してもよいし、前記第一検索結果中のコンテンツに対してハイパーリンクを持つコンテンツ中の当該ハイパーリンクのアンカーテキスト中での語句に対してTF法もしくはTF・IDF法を行うことで前記関連語句集合を抽出してもよい。
また、本発明は、ハイパーリンクで接続された多数のコンテンツの中から、お互いに関連するコンテンツを含むコミュニティを抽出するコミュニティ抽出装置が実行するコミュニティ抽出方法、前記コミュニティ抽出装置の機能をコンピュータに実現させるためのプログラム、及び当該プログラムを記録したコンピュータ読み取り可能な記録媒体として構成することもできる。
本発明では、リンク解析と言語処理を組み合わせることで、シードとなる語句と関連性の強い語句集合を発見し、関連語句集合中の各語句を検索語句として用いた場合の検索結果集合を基に必要に応じてグループ化を行い、その検索結果集合とシードとなる語句での検索結果とのリンク密度、内包性、両集合の和集合内のリンク密度のうちのいずれか1つ又は複数を基にコミュニティ抽出を行う。これにより、基となるコンテンツ集合に含まれていないコンテンツを関連情報として提示することができなかったという従来の問題が解決される。
また、得られたコミュニティをシードとなる語句での検索結果と考え、上記の処理をバッチ処理的に数回繰り返し行うことで、コミュニティの綱羅性の向上を図ることができる。
本発明では、関連語句集合も同時に作成されるので、ユーザに対し検索の関心に関連する語句およびコミュニティの提示を行うことができ、ユーザに対する検索支援が可能になる。すなわち、関連語句集合の中から選択的に語句を選ばせることによって、コミュニティの絞込みを行うことが可能になる。
以下、本発明の実施の形態について図面を参照して詳細に説明する。
(装置構成概要)
図1は本発明の実施形態の一例であるコミュニティ抽出装置10の構成を示す図である。本実施形態のコミュニティ抽出装置10は、所定のプログラムに基づいて動作する一般的なコンピュータ装置からなり、代表語句入手手段11と、コンテンツ保持部12と、コンテンツ検索手段13と、関連語句集合抽出手段14と、スコア算出手段15と、関連語句集合に関するグルーピング手段16、結合判定手段17とを有している。図1に示す各種検索結果、語句集合、コミュニティなどの各種データはコミュニティ抽出装置10を構成するコンピュータ装置の記憶装置に格納される。上記の各手段の機能をコンピュータ装置に実現させるプログラムは、CD−ROM、メモリ等の記録媒体に格納して配布することもできるし、インターネット等のネットワークを介して配布することもできる。
代表語句入手手段11は、抽出を行うコミュニティの中心となる代表語句を入手するための手段である。
コンテンツ保持部12は、コンテンツ情報を保持する記憶手段である。図2にコンテンツ保持部12に保持されるコンテンツ情報の例を示す。図2に示すようにコンテンツ保持部12は、コンテンツID、コンテンツのテキスト情報、リンク情報、アンカーテキスト情報を、コンテンツごとに関連付けを行った形でデータとして保持している。ここで、コンテンツIDは、文書情報に基づきユニークに得られる識別子であり、例えば識別子としてユニークな数字やURL等を用いることができる。コンテンツのテキスト情報は、コンテンツのテキストそのものである。リンク情報は、そのコンテンツがハイパーリンクしているコンテンツのコンテンツIDを要素としたべクトルである。アンカーテキスト情報は、上記ハイパーリンクのアンカーテキストを要素としたべクトルである。なお、コミュニティ抽出装置10がコンテンツ保持部12を備えることに代えて、コンテンツ保持部12を、コミュニティ抽出装置10にネットワーク接続された外部装置に備えることとしてもよい。
コンテンツ検索手段13は、検索語句に基づきコンテンツ保持部12に保持されたコンテンツ情報を検索する手段である。
関連語句集合抽出手段14は、代表語句を検索語句としてコンテンツ検索手段13によって得られた検索結果1から、検索結果1の内容を代表する特徴的な語句を関連語句集合として抽出する手段である。
スコア算出手段15は、2つの検索結果の結合度(以降、集合間結合度と呼ぶ)および内包度と、両検索結果の和集合内での結合度(以降、和集合内結合度)の3つのスコアを算出する手段である。
グルーピング手段16は、スコア算出手段15を関連語句集合に対する検索結果集合の要素同士に適用することで求められた集合間結合度および内包度を基に、関連語句集合内の語句のクラスタリングを行い、語句のグルーピングを行う手段である。
結合判定手段17は、スコア算出手段15によって得られた集合間結合度、和集合内結合度および内包度を基に、検索結果1と、後述する検索結果集合中の各検索結果2とを一つの集合に結合するかどうかを判定し、集合の結合を行った結果をコミュニティとして抽出するための手段である。
上述した各手段の詳細処理内容については後に詳しく説明する。
(動作概要)
コミュニティ抽出装置10で実行される処理の概要は次の通りである。まず、シードとなる代表語句を検索語句として検索を行って得られた検索結果1から、関連語句集合を抽出する。次に、関連語句集合の各要素語句を検索語句として得られた検索結果の集合において、各検索結果間の結合度および内包性を基に、関連語句集合をグループ化する。さらに、検索結果1と検索結果集合の各検索結果2間の結合度、内包性、および和集合内での結合度を基に、検索結果の結合判定を行い、両検索結果を結合しコミュニティ化する。これを、関連語句集合が空集合になるまで繰り返し行う。
関連語句集合内でグループ化を行うことにより、一例として、シード語句が“スポーツ”の場合などには、語句集合が{サッカー、Jリーグ}、{野球、巨人}のようにグループ化されることで、結果的に複数のコミュニティが得られる。また、得られたコミュニティを処理の前記手順中の検索結果1と置き換え再び関連語句集合の抽出から処理を繰り返し、コミュニティ抽出作業を行うことで、網羅性の向上を図ることもできる。
(動作詳細)
図3にコミュニティ抽出装置10が実行する処理の手順を示す。以下、この手順に沿って各手段の処理を詳細に説明する。
まず、代表語句入手手段11が、これから抽出を行うコミュニティの中心となる代表語句を取得する(ステップ1)。また、この時点ではコミュニティの代表語句集合の要素はここで取得した代表語句となる。代表語句の入手方法としては、例えばシステムの利用者が入力した語句を取得する方法や、新聞記事などの文書集合から固有表現抽出を行い、その固有表現のTF・IDF値の上位語を採用することで、現在話題になっている人物名や組織名等を代表語句とするなどの方法がある。
ここでTF・IDF法とは、文書中での出現頻度が大きい語句で、かつ、その文書に特有な語句を抽出するための手法である(非特許文献4)。また、ここでの固有表現とは、例えば人物名や地名、組織名など、ある実体に特有の表現を持つ語句のことを言う。
次に、コンテンツ検索手段13が代表語句を用いてコンテンツ検索処理を行う(ステップ2)。ここでの処理を図4を用いて説明する。検索語句を受け取り(ステップ21)、ステップ1で取得した代表語句を用いてコンテンツ保持部12中のコンテンツを検索し(ステップ22)、適合コンテンツリストを検索結果1として取得し、出力する(ステップ23)。ここで、検索結果として次手段に渡すコンテンツの数は、計算量を削減する為、数十〜数千件程度に制限してもよい。
続いて、関連語句集合抽出手段14が、ステップ2で得られた検索結果1の内容を代表する特徴的な語句を関連語句集合として抽出する(図3のステップ3)。実際の語句抽出手法としては、例えば、検索結果1中のコンテンツのテキスト情報中に出現する固有表現の中で、出現頻度があらかじめ設定した閾値より大きく、かつ、TF・IDF値の大きいものを関連語句の候補とする。あるいは、検索結果1中のコンテンツに対しリンクをはっているコンテンツをコンテンツ保持部12より検索し、そのリンクのアンカーテキストの集合から、同様にTF・IDF値の高い固有表現を関連語句の候補としてもよい。
コンテンツ検索手段12での検索結果数と同様に、ここでの関連語句の抽出件数は計算量の問題から数十件程度に制限してもよい。
図3中の処理の流れにおいて、代表語句を入手し、代表語句を検索語句とした検索結果1を得て、その検索結果1より関連語句集合を抽出した時点において、代表語句と関連語句が、図5に示すようなデータ構造で記憶装置に蓄積される。また、この時点では、代表語句とその検索結果1が図6に示すようなデータ構造でコミュニティとして蓄積されている。
図5に示す語句集合は、“語句ID”、“語句”、“シード?”、“シード”、“グループID”、“結合判定?”の各情報を含む。語句ID”は“語句”に対応付けられた識別情報である。“語句”は代表語句、又は関連語句集合の中の語句である。“シード?”はその語句がシードであるかどうかを示すブール値である。“シード”はその語句を抽出する検索結果1の基となった代表語句である。“グループID”は以降で説明する関連語句集合を語句の関連性でグルーピングを行った際の識別記号である。“結合判定?”は以降で述べる結合判定手段17における判定の結果を保持するブール値である。
図6に示すコミュニティは、“コミュニティID”、“コンテンツリスト”、“コミュニティ代表語句”の各情報を含む。“コミュニティID”はコミュニティを識別するための識別情報である。“コンテンツリスト”はコミュニティを構成するコンテンツのコンテンツIDのリストであり、“コミュニティ代表語句”はそのコミュニティを抽出するために用いられた語句集合である。
図3のステップ4において、関連語句集合の要素が存在しなければ処理を終了する。ステップ5において、コンテンツ検索手段13が関連語句集合中の各語句を検索語句としてコンテンツ保持部12のコンテンツを検索し、各語句に対応した検索結果の集合を取得する。なお、ここで各検索結果を得る際にも計算量の問題から、検索結果1と同数のコンテンツに出力を制限してもよい。
次に、スコア算出手段15が、ステップ5で得られた検索結果集合内の検索結果間で集合間結合度、及び内包度を算出する(ステップ6)。集合間結合度および内包度で、検索結果間の関連性の強さをスコアリング化する。関連語句集合内の語句の数をkとすると、kC2 組の検索結果対に対しスコア算出を行うことになる。集合間結合度および内包度の詳細は後述する。
そして、グルーピング手段16は、ステップ6で求められた集合間結合度および内包度を基に、関連語句集合内の語句のクラスタリングを行うことにより、関連語句集合内で語句をグループ化する(ステップ7)。
実際のクラスタリング手法としては、非特許文献2および非特許文献3に示される階層的クラスタリング手法を用いる。クラスタリングにおける距離Dは、集合間結合度をr、内包度をiとすると以下のように定義される。ただし、αはα>0の実定数であり、結合度の影響力を調整するために用いられるパラメタである。
D = αr+i
一例として、代表語句が“スポーツ”の場合に、関連語句集合として、{サッカー、Jリーグ、セリエA、プロ野球、巨人、阪神、…}のように“サッカー”と“野球”に関する語句が抽出されたとする。この例の場合、図7に示すように、サッカーに関する語句と野球に関する語句での検索結果間の結合度・内包度よりは、サッカーに関する語句同士、もしくは野球に関する語句同士の検索結果の結合度・内包度が大きくなっていると考えられる。ただし、図中ではコミュニティ内の各コンテンツのリンク情報より求めたリンク密度のみを太矢印で示し、コンテンツ間のハイパーリンクは簡単のため図から省略している。
以上より、結果として関連語句集合は{サッカー、Jリーグ、セリェA}、{プロ野球、巨人、阪神}のように、2つのグループに分割される。関連語句集合内の語句のグルーピング処理の結果、語句集合は図8に示すようになる。図8では、グルーピング処理前の図5と比較して、関連語句集合の各要素にグルーピング結果に基づくグループIDが追加されている。
次に、図3のステップ8において、スコア算出手段15が、ステップ2で取得した検索結果1と、ステップ5で取得した検索結果集合における各検索結果(以下、検索結果2と呼ぶ)との間で、集合間結合度、和集合内結合度、及び内包度を算出する。集合間結合度および内包度で、検索結果間の関連性の強さをスコアリング化し、また、和集合内結合度で、2つの検索結果を結合してコミュニティ化した際のリンク密度をスコアリング化する。
[スコア算出手段の処理の詳細]
以下、スコア算出手段15の処理を、検索結果1とある検索結果2との間のスコア算出を例にとって詳細に説明する。スコア算出手段15は、検索結果の中のコンテンツ情報におけるコンテンツIDおよびリンク情報を基に、集合間結合度等のスコアの算出を行う。
集合間結合度の計算には、両集合間のハイパーリンクの本数を用い、両集合間のハイパーリンクの密度が高いほど、結合度が大きくなるような計算式を用いる。
例えば、検索結果1のコンテンツ数をm、検索結果1との結合度を算定する対象となる検索結果2のコンテンツ数をn、両検索結果の積集合のコンテンツ数をc、積集合のコンテンツを除いた状態での検索結果間のハイパーリンクの本数、つまり積集合内のコンテンツ間でのハイパーリンクや積集合内のノードから、もしくはノードへのリンクを除いた状態での検索結果間のハイパーリンクの本数をlとする。積集合を除いた状態での両検索結果間でのハイパーリンクの最大の本数は2・(m-c)・(n-c)であるので、集合間結合度は以下の式により算出する。
Figure 2007094552
一例として、検索結果1および対象となる検索結果2が、図9に示されるように積集合を持たない場合、検索結果1のコンテンツ数は6、検索結果2のコンテンツ数は5、積集合のコンテンツ数は0、文書集合間のハイパーリンクの本数は8であるので、結合度は8/(2・6・5)=0.133...である。
同様に、図10に示されるように積集合を持つ場合、検索結果1のコンテンツ数は7、検索結果2のコンテンツ数は6、積集合のコンテンツ数は3、文書集合間のハイパーリンクの本数は3であるので、結合度は3/{2・(7−3)・(6−3)}=0.125...である。
あるいは、集合間結合度算出の際に、ハイパーリンクの方向性を考慮して、検索結果1から検索結果2へのハイパーリンクのみを考慮することも考えられる。これは、検索結果2が、例えば検索結果1とは特に関係のない商品の宣伝のコミュニティであった場合に、検索結果2から大量に検索結果1ヘハイパーリンクを張ることで、不正に結合度を大きくすることができると考えられるためである。この場合、m、n、cを同様に定義し、1を積集合中のノードと関係のない検索結果1から検索結果2へのハイパーリンクの本数とすると、両コンテンツ集合間のハイパーリンクの最大の本数は(m-c)・(n-c)であるので、集合間結合度は以下の式により算出する。
Figure 2007094552
一例として、検索結果1および検索結果2が図9のように示される場合、結合度は5/(6・5)=0.1666...である。同様に、検索結果1および検索結果2が図10のように示される場合、結合度は2/{(7−3)・(6−3)}=0.1666...である。
別の実施例としては、一つのコンテンツ当たりの接続リンク数、即ち平均リンク数として、集合間結合度の結合度を算出する方法もある。例えば、m、n、c、lを同様に定義したとすると、集合間結合度を以下のように算出する。
Figure 2007094552
一例として、図9のような場合には、8/(6+5−0)=0.727…である。一方、図10のような場合には、3/(7+6−2・3)=0.428…である。同様に、リンクの方向性を考慮した場合には、検索結果1からのリンクのみを考慮すればよいので、集合間結合度は以下のように算出してもよい。
Figure 2007094552
この場合、図9のような場合には、5/(6−0)=0.833...である。一方、図10のような場合には、2/(7−3)=0.500である。
また、上記[数1]〜[数4]まででは、ハイパーリンク一本の重みは全て1として考えているが、リンク自体に重みを付与することで、多くのリンクを張っているコンテンツの影響を考慮することもできる。
具体的には、コンテンツjから出るリンクの重みw(j)は、コンテンツjからのリンクの本数out(j)が多いほどリンク一本あたりの影響度は弱くなると考え、以下のように定義する方法がある。ただし、kはk>0とする重みを調整するためのパラメータであり、例えば1や1/2等を用いる。
Figure 2007094552
次に、内包度の算出方法について説明する。検索結果1と検索結果2との間の内包度は、検索結果1と検索結果2との和集合と積集合のコンテンツ数から以下のように算出する。
Figure 2007094552
一例として、図10の場合には、内包度は3/10=0.300である。
和集合内結合度の算出法としては、和集合内のハイパーリンクの本数を用い、和集合内でのハイパーリンクの密度が高いほど、結合度が大きくなるような計算式を用いる。例えば、和集合中のコンテンツ数をu、ハイパーリンクの本数をlとすると、和集合内での最大のハイパーリンクの本数はuP2であるので、和集合内結合度は以下の式で表される。
Figure 2007094552
一例として、和集合が図11のように示される場合、コンテンツ数は9、ハイパーリンクの本数は10であるので、和集合内結合度は10/9・8=0.139…である。別の実施例としては、平均リンク数として、和集合内結合度を算出する方法もある。この場合、以下のように定義することができる。
Figure 2007094552
和集合が図11のように示される場合、コンテンツ数は9、ハイパーリンクの本数は10であるので、結合度は10/9=1.11…である。
スコア算出手段15は、上記のような処理により、集合間結合度、内包度、和集合内結合度を算出する。
図3に戻り、ステップ9において結合判定手段17は、スコア算出手段15によって得られた集合間結合度、和集合内結合度および内包度を基に、検索結果1と検索結果集合中の各検索結果2とを一つの集合に結合するかどうかを判定する。そして、集合の結合を行った結果をコミュニティ、語句集合に反映させる(ステップ10)。
実際の結合判定の方法としては、例えば、3つのスコア(集合間結合度、和集合内結合度および内包度)全てに闘値を設定し、全てのスコアが闘値を超えた場合には両集合を結合するといった方法が考えられる。ここで、闘値設定の方法としては、例えば、あらかじめ3つのスコアに対し闘値を定数として与える方法などがある。
もしくは、r12を集合間結合度、r1∪2を和集合内結合度、iを内包度とし、α、β(α>0、β>0)を実定数とし、それぞれ、和集合内結合度、内包度の影響力を調整するためのパラメタとすると以下の式の値に基づき判定を行っても良い。つまり、以下の式の値が所定の閾値を超えた場合に両集合を結合すると判定する。
Figure 2007094552
ステップ9においては、関連語句集合中の語句のグループに対応を取りながら、検索結果の結合判定を行う。ここで、もし結合判定の結果、結合を行わない場合には、対応する語句は以降で説明する繰り返し処理の際には用いられなくなる。例えば、図8に示される語句集合の中で、“セリエA”の検索結果2のみが結合判定の結果、不適と判定された場合には、語句集合は図12のように示される。一方、抽出されたコミュニティについては図13のように示される。検索結果1との結合の適すると判定された同じグループに属する語句に対応する検索結果2と検索結果1とが1つのコミュニティとなる。また、代表語句とグループの関連語句とがマージされてコミュニティ代表語句となる。
コミュニティを抽出する際において、検索結果1の中には、抽出を行おうとしているコミュニティとは関係のないコンテンツも含まれていると考えられる。例えば、図14のように、代表語句として「スポーツ」を選んだ際には、検索結果1中には“サッカー”、“野球”、“バレーボール”などのように様々な種類のスポーツのコンテンツが含まれていると考えられる。関連語句集合中の1グループである、サッカーに関連する語句群によるコミュニティを抽出する際には、検索結果1中に含まれる“野球”や“バレーボール”のコンテンツは、サッカー関連のコミュニティに対する関連性は低いと考えられる。
したがって、結合判定で結合すべきと判定されたコミュニティ(例えばサッカー)をコミュニティ(ここではスポーツ)に統合する際には、サッカーを検索語句とする検索結果2のコンテンツから、ハイパーリンクでの距離k(ただし、kは正数)以内にない検索結果1中のコンテンツ(この例では、野球とバレーボール)をコミュニティから取り除いてもよい。
本実施形態では、上記の処理によって取得した各コミュニティを検索結果1として、繰り返し処理を行なう(ステップ11)。以下、その手順について説明する。ただし、この繰り返し処理は省略しても良い。
図13のコミュニティ集合において、上記の処理によって新たに得られた各コミュニティを各検索結果1として、関連語句集合を抽出した結果、語句集合は図15のようになる。図15ではコミュニティIDが2のコミュニティを検索結果1として抽出された語句が示されている。
なお、繰り返し処理においては、既に語句集合中に含まれている語句が再び語句集合に採用されることのないように処理が行われる。以下、同様にスコア算出手段15、グルーピング手段16、結合判定手段17により処理を行った結果の一例として、語句集合は図16のように、コミュニティは図17のように示される。再び繰り返し処理を行う際には、同様に抽出されたコミュニティを検索結果1に置き換えて処理を行う。
上記で示した実施例の外にも様々な実施の形態が考えられる。特に、上記実施例ではコミュニティ結合判定に用いるスコアとして集合間結合度、内包度、和集合結合度の3つのスニアを利用したが、内包度および和集合結合度は利用せず、集合間結合度のみによって代表語句集合およびコミュニティを抽出してもよい。また、関連語句のグルーピングの処理は省略することもできる。
(効果について)
以上説明したように、本実施形態のコミュニティ抽出装置によれば、従来ではテキスト情報およびハイパーリンク情報単独でコミュニティ抽出を行っていた結果、基となるコンテンツ集合に含まれていないコンテンツを関連情報として提示することができなかったが、関連語句集合を抽出しその語句を検索語句とした検索結果のハイパーリンク情報を基にした関連性を調べることで、テキスト情報として関連性があるだけでなく、Web上におけるハイパーリンク構造に関しても関連性のあるコンテンツをコミュニティとして抽出することができる。
尚、本コミュニティ抽出装置は、計算量が比較的大きいが、バッチ処理により、予め取得した大量のコンテンツに対して、コミュニティおよび代表語句集合を抽出しておくことができる。
そして、本コミュニティ抽出装置をコンテンツの検索システムに適用する場合には、ユーザから入力された検索語句に一致するコミュニティ代表語句を持つコミュニティを図17に示すコミュニティ情報から検索し、関連する他の代表語句をユーザに提示し、目的とするコミュニティを選択させることで、ユーザの検索支援につなげることができる。つまり、単一の検索語句のみを入れるだけで、関連語句を提示できるので、ユーザは、提示された関連語句の中から目的に合う語句をクリックするだけで目的のコンテンツ集合(コミュニティ)にたどり着くことができる。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
本発明の一実施形態であるコミュニティ抽出装置10の構成図である。 コンテンツ保持部12に保持されるコンテンツ情報の例を示す図である。 コミュニティ抽出装置10が実行する処理の手順を示すフローチャートである。 コンテンツ検索手段13が実行する処理の手順を示すフローチャートである。 関連語句集合を抽出した時点における語句集合を示す図である。 検索結果1を抽出した時点におけるコミュニティを示す図である。 グループ化を説明するための図である。 グルーピング処理後の語句集合を示す図である。 検索結果1と検索結果2との間で積集合を持たない場合を示す図である。 検索結果1と検索結果2との間で積集合を持つ場合を示す図である。 検索結果1と検索結果2の和集合の例を示す図である。 結合判定後の語句集合を示す図である。 結合判定後に抽出されたコミュニティを示す図である。 コミュニティを抽出する際の留意点を説明するための図である。 繰り返し処理において関連語句集合を抽出した後の語句集合を示す図である。 繰り返し処理がなされた後の語句集合を示す図である。 繰り返し処理がなされた後のコミュニティを示す図である。
符号の説明
10 コミュニティ抽出装置
11 代表語句入手手段
12 コンテンツ保持部
13 コンテンツ検索手段
14 関連語句集合抽出手段
15 スコア算出手段
16 グルーピング手段
17 結合判定手段

Claims (10)

  1. ハイパーリンクで接続された多数のコンテンツの中から、お互いに関連するコンテンツを含むコミュニティを抽出するコミュニティ抽出装置において、
    コミュニティを代表するシードとなる語句を得るための代表語句入手手段と、
    前記語句を検索条件としてコンテンツ検索を行い第一検索結果を得るコンテンツ検索手段と、
    前記第一検索結果から代表語句と関連性の高い関連語句集合を抽出する関連語句集合抽出手段と、
    前記関連語句集合中の各関連語句を検索条件としてコンテンツ検索を行うことで得られた第二検索結果と、前記第一検索結果との間の関連性の強さを表すスコアを算出するスコア算出手段と、
    前記スコアの値に基づいて、前記関連語句をコミュニティを代表する代表語句集合へ結合し、前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するか否かを判定する結合判定手段と、
    を有することを特徴とするコミュニティ抽出装置。
  2. 請求項1に記載のコミュニティ抽出装置のスコア算出手段は、
    前記スコアとして前記第一検索結果と前記第二検索結果との間でのハイパーリンクの密度を表す集合間結合度を算出する手段を有し、前記結合判定手段は、前記集合間結合度に基づいて前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するかどうかを判定する、
    ことを特徴とするコミュニティ抽出装置。
  3. 請求項1又は2に記載のコミュニティ抽出装置のスコア算出手段は、
    前記スコアとして前記第一検索結果と前記第二検索結果との間でのコンテンツの重なりの程度を表す内包度を算出する手段を有し、前記結合判定手段は、前記内包度に基づいて前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するかどうかを判定する、
    ことを特徴とするコミュニティ抽出装置。
  4. 請求項1ないし3のうちいずれか1項に記載のコミュニティ抽出装置のスコア算出手段は、
    前記スコアとして前記第一検索結果と第二検索結果との和集合のハイパーリンクの密度を表す和集合結合度を算出する手段を有し、前記結合度判定手段は、前記和集合結合度に基づいて前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するかどうかを判定する、
    ことを特徴とするコミュニティ抽出装置。
  5. 請求項1ないし4のうちいずれか1項に記載のコミュニティ抽出装置において、前記スコア算出手段は前記関連語句集合の要素語句間で関連性の強さを表すスコアを算出し、
    前記コミュニティ抽出装置は、当該スコアを基に関連語句集合内の語句のグループ化を行うグルーピング手段をさらに備える、
    ことを特徴とするコミュニティ抽出装置。
  6. 請求項1ないし5のうちいずれか1項に記載のコミュニティ抽出装置において、
    前記関連語句集合抽出手段は、前記第一検索結果に対し、TF・IDF法を行うことで、前記関連語句集合を抽出する、
    ことを特徴とするコミュニティ抽出装置。
  7. 請求項1ないし5のうちいずれか1項に記載のコミュニティ抽出装置において、
    前記関連語句集合抽出手段は、前記第一検索結果中のコンテンツに対してハイパーリンクを持つコンテンツ中の当該ハイパーリンクのアンカーテキスト中での語句に対してTF法もしくはTF・IDF法を行うことで前記関連語句集合を抽出する、
    ことを特徴とするコミュニティ抽出装置。
  8. ハイパーリンクで接続された多数のコンテンツの中から、お互いに関連するコンテンツを含むコミュニティを抽出するコミュニティ抽出装置が実行するコミュニティ抽出方法であって、
    代表語句入手手段が、コミュニティを代表するシードとなる語句を得る代表語句入手ステップと、
    コンテンツ検索手段が、前記語句を検索条件としてコンテンツ検索を行い第一検索結果を得るコンテンツ検索ステップと、
    関連語句集合抽出手段が、前記第一検索結果から代表語句と関連性の高い関連語句集合を抽出する関連語句集合抽出ステップと、
    スコア算出手段が、前記関連語句集合中の各関連語句を検索条件としてコンテンツ検索を行うことで得られた第二検索結果と、前記第一検索結果との間の関連性の強さを表すスコアを算出するスコア算出ステップと、
    結合判定手段が、前記スコアの値に基づいて、前記関連語句をコミュニティを代表する代表語句集合へ結合し、前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するか否かを判定する結合判定ステップと、
    を有することを特徴とするコミュニティ抽出方法。
  9. ハイパーリンクで接続された多数のコンテンツの中から、お互いに関連するコンテンツを含むコミュニティを抽出するコミュニティ抽出装置の機能をコンピュータに実現させるためのプログラムであって、前記コンピュータを、
    コミュニティを代表するシードとなる語句を得るための代表語句入手手段、
    前記語句を検索条件としてコンテンツ検索を行い第一検索結果を得るコンテンツ検索手段、
    前記第一検索結果から代表語句と関連性の高い関連語句集合を抽出する関連語句集合抽出手段、
    前記関連語句集合中の各関連語句を検索条件としてコンテンツ検索を行うことで得られた第二検索結果と、前記第一検索結果との間の関連性の強さを表すスコアを算出するスコア算出手段、
    前記スコアの値に基づいて、前記関連語句をコミュニティを代表する代表語句集合へ結合し、前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するか否かを判定する結合判定手段、
    として機能させるためのプログラム。
  10. 請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2005280349A 2005-09-27 2005-09-27 コミュニティ抽出装置、コミュニティ抽出方法、プログラム、及び記録媒体 Pending JP2007094552A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005280349A JP2007094552A (ja) 2005-09-27 2005-09-27 コミュニティ抽出装置、コミュニティ抽出方法、プログラム、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005280349A JP2007094552A (ja) 2005-09-27 2005-09-27 コミュニティ抽出装置、コミュニティ抽出方法、プログラム、及び記録媒体

Publications (1)

Publication Number Publication Date
JP2007094552A true JP2007094552A (ja) 2007-04-12

Family

ID=37980232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005280349A Pending JP2007094552A (ja) 2005-09-27 2005-09-27 コミュニティ抽出装置、コミュニティ抽出方法、プログラム、及び記録媒体

Country Status (1)

Country Link
JP (1) JP2007094552A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009031868A (ja) * 2007-07-24 2009-02-12 Ntt Docomo Inc コミュニティ管理装置及びコミュニティ管理方法
JP2009294768A (ja) * 2008-06-03 2009-12-17 Toshiba Corp 情報共有装置及び情報共有プログラム
JP2010211793A (ja) * 2009-02-26 2010-09-24 Fujitsu Ltd 自動オントロジーのためのドメインコーパス及び辞書の生成
JP2011081549A (ja) * 2009-10-06 2011-04-21 Canon Inc メタデータ付与方法及びメタデータ付与装置
JP2011090377A (ja) * 2009-10-20 2011-05-06 Nippon Telegr & Teleph Corp <Ntt> 地域特性分類装置、方法、およびプログラム
JP2012518221A (ja) * 2009-02-17 2012-08-09 エヌエイチエヌ コーポレーション 寄与スコアに基づいた文書順位決定システムおよび方法
JP2014092818A (ja) * 2012-10-31 2014-05-19 Kddi R & D Laboratories Inc 収集装置、収集方法及び収集プログラム
US11163765B2 (en) 2017-04-19 2021-11-02 Fujitsu Limited Non-transitory compuyer-read able storage medium, information output method, and information processing apparatus

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009031868A (ja) * 2007-07-24 2009-02-12 Ntt Docomo Inc コミュニティ管理装置及びコミュニティ管理方法
JP2009294768A (ja) * 2008-06-03 2009-12-17 Toshiba Corp 情報共有装置及び情報共有プログラム
JP4675986B2 (ja) * 2008-06-03 2011-04-27 株式会社東芝 情報共有装置及び情報共有プログラム
JP2012518221A (ja) * 2009-02-17 2012-08-09 エヌエイチエヌ コーポレーション 寄与スコアに基づいた文書順位決定システムおよび方法
US8838611B2 (en) 2009-02-17 2014-09-16 Nhn Corporation Document ranking system and method based on contribution scoring
JP2010211793A (ja) * 2009-02-26 2010-09-24 Fujitsu Ltd 自動オントロジーのためのドメインコーパス及び辞書の生成
JP2011081549A (ja) * 2009-10-06 2011-04-21 Canon Inc メタデータ付与方法及びメタデータ付与装置
JP2011090377A (ja) * 2009-10-20 2011-05-06 Nippon Telegr & Teleph Corp <Ntt> 地域特性分類装置、方法、およびプログラム
JP2014092818A (ja) * 2012-10-31 2014-05-19 Kddi R & D Laboratories Inc 収集装置、収集方法及び収集プログラム
US11163765B2 (en) 2017-04-19 2021-11-02 Fujitsu Limited Non-transitory compuyer-read able storage medium, information output method, and information processing apparatus

Similar Documents

Publication Publication Date Title
JP5074378B2 (ja) クエリ用語および返答用語を含む情報ソースからのスニペットを有するファクトクエリエンジンのユーザインタフェース
US7783644B1 (en) Query-independent entity importance in books
Lempel et al. The stochastic approach for link-structure analysis (SALSA) and the TKC effect
US9594826B2 (en) Co-selected image classification
US8725732B1 (en) Classifying text into hierarchical categories
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
US8745039B2 (en) Method and system for user guided search navigation
US8498999B1 (en) Topic relevant abbreviations
JP2007094552A (ja) コミュニティ抽出装置、コミュニティ抽出方法、プログラム、及び記録媒体
US20060095430A1 (en) Web page ranking with hierarchical considerations
IL183391A (en) Filtering method based on ontology and content for personal newspapers
US20100185623A1 (en) Topical ranking in information retrieval
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
JP2002215659A (ja) 情報検索支援方法および情報検索支援システム
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
CN109952571B (zh) 基于上下文的图像搜索结果
KR101818717B1 (ko) 컨셉 키워드 확장 데이터 셋을 이용한 검색방법, 장치 및 컴퓨터로 판독 가능한 기록매체
CN107153687B (zh) 一种社交网络文本数据的索引方法
US20120124060A1 (en) Method and system of identifying adjacency data, method and system of generating a dataset for mapping adjacency data, and an adjacency data set
JP5250009B2 (ja) サジェスチョンクエリ抽出装置及び方法、並びにプログラム
Toba et al. Enhanced unsupervised person name disambiguation to support alumni tracer study
Godoy et al. Leveraging semantic similarity for folksonomy-based recommendation
JP2006277061A (ja) 知識検索システム、知識検索方法及びプログラム
JP5890413B2 (ja) 多数のデータレコードをサーチする方法及びサーチエンジン
Wang et al. DIKEA: Exploiting Wikipedia for keyphrase extraction