JP2007041700A

JP2007041700A - トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体

Info

Publication number: JP2007041700A
Application number: JP2005223076A
Authority: JP
Inventors: Kazumi Saito; 和巳斉藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-08-01
Filing date: 2005-08-01
Publication date: 2007-02-15

Abstract

【課題】多様なキーワードが使用されており文書間の関係が規定されている文書群から主要トピックを抽出すること。
【解決手段】トピック抽出装置１は、隣接行列の固有ベクトルを計算する固有ベクトル計算部２２と、固有ベクトル計算部２２により算出された固有ベクトルの要素値に基づきノードのランキングを行い、ランキング結果より結合が密なコア部を抽出するトピックコア計算部２４と、トピックコア計算部２４により抽出されたコア部のリンクをグラフから削除するコアリンク削除部２６と、主要トピック抽出部２０により抽出されたコア部を出力するデータ出力部３０と、を有することを特徴とする。
【選択図】図１

Description

本発明は、トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体に関する。

ブログ、ウェブページ、電子図書、特許、論文などの文書は、他の文書と関係を有することがある。この文書間の関係は、例えば、引用、ブログのトラックバック、ウェブページのハイパーリンクなどにより表現されている。そして、関係の有する複数の文書群は、共通するトピック（話題）について記述していることも多い。よって、このトピック（特に話題性の高い主要トピック）を抽出することは、人気商品を探すなどのマーケティングを行うためのデータマイニングとして重要な課題となる。

まず、従来の主要技術（非特許文献１）は、文書キーワードを重視したものである。次に、人間関係によって形成されるコミュニティを抽出する従来の技術（非特許文献２〜非特許文献４）を、文書間の関係に応用することが考えられる。
R.Swan and J.Allan著，"Automatic generation of overview timelines"，In Proceedings of SIGIR'00(2000) 49-56. R.Shi and J.Malik著，"Normalized cuts and image segmentation"，IEEE Trans.PAMI,22(8),(2000)888-905. M.Girvan and E.J.Newman著，"Community structure in social and biological networks"，Proceedings of the National Academy of Sciences of the United States of America,99(2002)7821-7826. G.W.Flake,S.Lawrence and C.L.Giles著，"Efficient identification of Web communities"，In Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(2000)150-160.

しかし、非特許文献１では、ブログのように、多様な文体で書かれている場合には、キーワード抽出が困難であったり、新語が次から次へと作られるような文書群への適用が困難であった。

また、normalized cut法（非特許文献２）、非特許文献３、および、非特許文献４では、全てのコミュニティを網羅する計算方法であったため、単に「こんにちは」とだけ書いてあるような、内容が殆んどないエントリも過剰に抽出してしまい、主要トピックの抽出としては実用的ではない。さらに、非特許文献２〜非特許文献４では、１人が１つのコミュニティに属するように排他的にコミュニティを抽出するため、トピックドリフトに対応できなかった。トピックドリフトとは、例えば、仕事の話題中に趣味の話題へと話題が逸れる事象である。実際のブログデータなどでは、トピックドリフトが頻繁に発生する。

そこで、本発明は、前記した問題を解決し、多様なキーワードが使用されており文書間の関係が規定されている文書群から主要トピックを抽出することを主な目的とする。

前記課題を解決するために、本発明は、文書を示すノードおよび文書間の関係を示すリンクにより構成される隣接行列のグラフから文書のトピックを抽出するトピック抽出装置であって、隣接行列の固有ベクトルを計算する固有ベクトル計算部と、前記固有ベクトル計算部により計算された固有ベクトルの要素値に基づきノードのランキングを行い、そのランキングの結果より結合が密なコア部を抽出するトピックコア計算部と、前記トピックコア計算部により抽出されたコア部のリンクを前記隣接行列のグラフから削除するコアリンク削除部と、前記固有ベクトル計算部、前記トピックコア計算部、および、前記コアリンク削除部を繰り返し実行させて、以前抽出されたコア部とは別のコア部を抽出する主要トピック抽出部と、前記主要トピック抽出部により抽出されたコア部を出力するデータ出力部と、を有することを特徴とする。

これにより、多様なキーワードが使用されており文書間の関係が規定されている文書群から主要トピックを抽出することができる。

本発明は、前記固有ベクトル計算部が、パワー法を土台とした方法で固有ベクトルを計算することを特徴とする。

これにより、ノード数の多い大規模グラフにてノードの組合せ爆発を抑制できる。

本発明は、前記トピックコア計算部が、所定の更新式を利用して、平均リンク数が最大となるグラフの部分集合をコア部として抽出することを特徴とする。

これにより、ノード数の多い大規模グラフにて組合せ爆発を抑制できる。

本発明は、文書を示すノードおよび文書間の関係を示すリンクにより構成される隣接行列のグラフから文書のトピックを抽出するトピック抽出方法であって、コンピュータが、記憶手段から読み取った隣接行列の固有ベクトルを計算する固有ベクトル計算手順と、前記固有ベクトル計算手順により計算された固有ベクトルの要素値に基づきノードのランキングを行い、そのランキングの結果より結合が密なコア部を抽出するコア部抽出手順と、前記コア部抽出手順により抽出されたコア部のリンクを前記隣接行列のグラフから削除するコア部削除手順と、前記固有ベクトル計算手順、前記コア部抽出手順、および、前記コア部削除手順を繰り返し実行して、以前抽出されたコア部とは別のコア部を抽出する繰り返し手順と、前記繰り返し手順により抽出されたコア部を出力するデータ出力手順と、を実行することを特徴とする。

本発明は、前記固有ベクトル計算手順が、パワー法を土台とした方法で固有ベクトルを計算することを特徴とする。

本発明は、前記コア部抽出手順が、所定の更新式を利用して、平均リンク数が最大となるグラフの部分集合をコア部として抽出することを特徴とする。

本発明は、前記トピック抽出方法をコンピュータに実行させるためのトピック抽出プログラムである。

本発明は、前記トピック抽出プログラムを格納したコンピュータに読み取り可能な記憶媒体である。

本発明により、多様なキーワードが使用されており文書間の関係が規定されている文書群から主要トピックを抽出することができる。

本発明の一実施形態について、図面を参照して説明する。まず、本実施形態が対象とする文書群を、計算機が扱うグラフデータへとモデル化する。ここで、文書群を構成する各文書は、電子データでもよいし、紙面のものでもよい。紙面の文書を扱うときには、文書全てを電子化する必要はなく、グラフデータに必要なメタデータ（引用など）を電子化すればよい。これにより、本実施形態は、主に紙面で提供されるような文書群（小説などの書籍など）にも容易に適用ができる。

グラフ（ネットワークとも呼ばれる）は、ノード（頂点とも呼ばれる）間をリンク（辺とも呼ばれる）で接続したものであり、隣接行列として表現される。ノードは、ブログ、ウェブページ、電子図書、特許、論文などの文書に対応する。１つのノードは、１つの文書に対応させることとしてもよいし、同一の属性を有する複数の文書を１つのノードに対応させてもよい。なお、同一の属性を有する複数の文書とは、例えば、同一の著者によって書かれた複数の文書や、同一の組織に属する複数の著者によって書かれた複数の文書などが挙げられる。

グラフのリンクは、引用、トラックバック、ハイパーリンクなどの文書間の関係である。グラフのトピックは、グラフの部分集合である。そして、グラフの主要トピック（以下、コア部とする）は、グラフのリンクが比較的に密なトピックである。主要トピックにおけるノードのランキングとは、主要トピックを構成する各ノードについて、リンクの密度が高いノード順に並べたものである。

本実施形態は、Ｗｅｂのハイパーリンクで構成されるようなグラフにおいて、比較的にリンクが密集する部分には潜在トピックが内在すると考えて、そのコア部の抽出を試みることである。つまり、隣接行列の固有ベクトルを求めてノードのランキングを行い、結合が密なコア部を抽出すること、およびすでに抽出したコア部のリンクを削除することにより、別のコア部抽出を再帰的に行うことである。

グラフは、与えられたグラフの全ノード集合（Ｓ＝[１，…，Ｎ]）の隣接行列Ａとする。すなわち、隣接行列Ａの第（ｉ，ｊ）成分であるＡ（ｉ，ｊ）は、ノードｉとｊとの間にリンクがあれば１に、なければ０に設定する。本実施形態では簡略化のため、自己リンクなしの無向グラフのみを対象とする。つまり、Ａ（ｉ，ｉ）＝０かつＡ（ｉ，ｊ）＝Ａ（ｊ，ｉ）である。ただし、本実施形態は説明を簡潔にするために無向グラフを扱うが、有向グラフヘの拡張も容易に行える。なお、有向グラフのときには、例えば、ノードｉからノードｊへのリンクが存在するときにはＡ（ｉ，ｊ）＝１とし、存在しないときにはＡ（ｉ，ｊ）＝０とすればＡ（ｉ，ｊ）≠Ａ（ｊ，ｉ）となる。

ノード集合Ｃ⊂Ｓに対し、リンクの密度を示す平均リンク数は（式１）で定義できる。ただし、｜Ｃ｜は集合Ｃの要素数を表す。すでに述べたように、潜在トピックがあれば、平均リンク数の高いノード集合が形成されると想定する。そこで、（式１）を最大にするノード集合Ｃの探索問題を考える。ただし、単純な数え挙げによる網羅的な探索では、ノード数の多い大規模グラフにて組合せ爆発が容易に起こる。よって、本実施形態では以下で述べるように、緩和問題が最適に解けることに着目したアプローチを採用する。

図１のトピック抽出装置１は、文書群を示すグラフからＭ個の主要トピックを抽出するために、データ入力部１０、主要トピック抽出部２０、固有ベクトル計算部２２、トピックコア計算部２４、コアリンク削除部２６、および、データ出力部３０を有する。トピック抽出装置１は、演算処理を行う際に用いられる記憶手段としてのメモリと、前記演算処理を行う演算処理装置とを少なくとも備えるコンピュータとして構成される。なお、メモリは、ＲＡＭ（Random Access Memory）などにより構成される。演算処理は、ＣＰＵ（Central Processing Unit）によって構成される演算処理装置が、メモリ上のプログラムを実行することで、実現される。

図２のフローチャートは、トピック抽出装置１の動作を説明するものである。まず、データ入力部１０は、ユーザから抽出コア数（主要トピック数）Ｍを含むデータの入力を受け付ける（Ｓ１０２）。次に、主要トピック抽出部２０は、ｍ＝１からＭまで以下のステップを繰り返し実行する（Ｓ１０４，Ｓ１０６，Ｓ１１８）。固有ベクトル計算部２２は、記憶手段から読み取った隣接行列の固有ベクトルｑ_m ^*を計算する（Ｓ１１０）。トピックコア計算部２４は、前記固有ベクトルの要素値に基づきノードのランキングを行い、このランキング結果より結合が密なコア部Ｃ_m（ｋ^*）を抽出する（Ｓ１１２）。

ここで、コアリンク削除部２６は、ｉ，ｊ∈Ｃ_m（ｋ^*）ならば（Ｓ１１４，Ｙｅｓ）、Ａ（ｉ，ｊ）＝０に設定する（Ｓ１１６）ことにより、すでに抽出したコア部のリンクを削除する。繰り返しが終了すると（Ｓ１０６，Ｙｅｓ）、データ出力部３０は、Ｍ個のコア部（Ｃ₁ ^*，…，Ｃ_M ^*）を結果としてデータ出力する（Ｓ１０８）。これにより、結合が密なＭ個のコア部を抽出することができる。

図３は、固有ベクトル計算部２２の動作を説明するフローチャートであり、ｑ_m ^*を求める処理（Ｓ１１０）を具体化したものである。固有ベクトル計算部２２が、後記するパワー法を土台としたアルゴリズムによって後記する緩和問題を解くことにより、大規模問題にも適用可能であることを示す。なお、パワー法は、行列の固有ベクトルを求める手法であり、文献「G. H. Golub and C.F. Van Loan著，“Matrix Computations”，Johns Hopkins University Press, Balimore, MD (1989).」に詳しい。

固有ベクトルの計算が緩和問題へと代替可能なことを説明する。ノード集合Ｃに対して、Ｎ次元ベクトルｑを、ｉ∈Ｃならばｑ_i＝１、さもなければｑ_i＝０で定義する。このとき、（式１）は（式２）に書き換えられる。

ただし、ｑ^Tはベクトルｑの転置を表す。ここで、ベクトルｑの各要素に対して連続値まで許容すれば、（式２）の右辺はＲａｙｌｅｉｇｈ商に他ならない。よって、Ｇ（ｑ）の最大値は、行列Ａにて、固有値を最大にする固有ベクトルｑ^*で与えられる。固有ベクトルｑ^*を求めるには、以下のパワー法を土台としたアルゴリズムが適用できる。なお、ｑ〜は、図３においてｑの上に波線を示す記号で表されており、ｑの更新を実施するための中間変数を示す。

ｔ＝１，ｑ⁽⁰⁾＝（１，Ｌ，１）^Tと初期化する（Ｓ２０２）。ｑ〜＝Ａｑ^(t-1)，ｑ^(t)＝ｑ〜／ｍａｘ_iｑ〜（ｉ）を計算する（Ｓ２０４）。ｍａｘ_i｜ｑ^(t)（ｉ）−ｑ^(t-1)（ｉ）｜＜εか否かを判定し（Ｓ２０６）、Ｙｅｓならば終了、または、Ｎｏならばｔに１を加算して（Ｓ２０８）からＳ２０４に戻るように分岐する。

ここで、εは終了条件を制御する正の実数であり、反復終了後にｑ^*＝ｑ^(t)として結果が求まる。明らかに、Ａとｑ⁽⁰⁾の全要素が非負のため、任意の反復でｑ〜の各要素は非負となる、さらに、Ｓ２０４でスケーリングを施すことより、０≦ｑ^(t)（ｉ）≦１が保証される、つまり、前記アルゴリズムで固有値最大の固有ベクトルが求まり、基本設定の妥当な緩和問題を最適に解いていると言える。

前記アルゴリズムにおける１反復の主要計算量は以下となる。グラフの総リンク数をＬとすれば、Ａの要素がバイナリ｛０、１｝であるため、ｑ〜は高々Ｌ回の加算で求まる。一方、ｑ〜のスケーリングはノード数（Ｎ）回の乗算で求まる。この計算量は、総リンク数の線形オーダであってグラフがスパースなら、つまり総ノード数に比較して総リンク数が多くなく結合が疎なグラフなら、大規模問題にも適用可能であることを示している。

図４は、トピックコア計算部２４の動作を説明するフローチャートであり、Ｃ_m（ｋ^*）を求める処理（Ｓ１１２）を具体化したものである。トピックコア計算部２４が、後記するコア抽出アルゴリズムによって、後記する量子化問題を解くことにより、大規模問題にも適用可能であることを示す。

固有ベクトルｑ^*の各要素をバイナリ化することで基本問題の解を求める。まず、ｑ^*の要素の大小に基づき各ノードをランキングすれば、リストＲ＝［ｒ（１），…，ｒ（Ｎ）］が定まる。ここで、ｒ（ｉ）はランクｉに対して元のノード番号を与える関数で、ｑ^*（ｒ（ｉ））＞ｑ^*（ｒ（ｉ＋１））の関係を満たす。なお、ｔｉｅ−ｂｒｅａｋは任意に行うとする。リストＲ＝［ｒ（１），…，ｒ（Ｎ）］の上位ｋ個のノード集合を（式３）に示す。

（式３）の平均リンク数は（式４）で求まる。トピックコア計算部２４では、（式１）を直接解く代わりに、（式４）を最大にするｋ^*を探索して、ノード集合Ｃ（ｋ^*）求める。

効率よくｋ^*を探索するため、（式４）の定義より導ける漸化式（式５）を利用する。

ここで、△（ｋ＋１）はノードｒ（ｋ＋１）を加えたことによるリンク数の増分であり（式６）で計算できる。請求項における所定の更新式は、（式５）および（式６）に相当する。ここで、定義よりＧ（１）＝０である。

前記手順をまとめれば図４のフローチャートとなる。まず、トピックコア計算部２４は、ｑ^*の要素をソートしランク関数ｒ（ｉ）を求める（Ｓ３０２）。次に、トピックコア計算部２４は、Ｇ（２），…，Ｇ（Ｎ）を（式５）と（式６）で求める（Ｓ３０４）。そして、トピックコア計算部２４は、ｋ^*＝ａｒｇｍａｘ_kＧ（ｋ）を求めてＣ（ｋ^*）を出力する（Ｓ３０６）。

なお、ランク関数の算出（Ｓ３０２）には、ＨＩＴＳの文献「J.Kleinberg著，“Authoritative sources in a hyperlinked environment”，In Proceedings of the Ninth ACM-SIAM Symposium on Discrete Algorithms(1998)668-677.」、または、Page Rankの文献「S.Brin and L.Page著，“The anatomy of a large scale hypertextual Web search engine”，In Proceedings of the Seventh International World Wide Web Conference(1998)107-117.」などの公知技術を活用することができる。

コア抽出アルゴリズムの主要計算量は以下となる。Ｓ３０２のソートはＯ（ＮｌｏｇＮ）の計算量で実行できる。Ｓ３０４で順次Ｇ（２），…，Ｇ（Ｎ）を求めるには、トータルで（式６）は高々Ｌ回の加算で、（式５）はＮ回の除算で行える。通常の計算法ではＯ（ｎ²）なので、コア抽出アルゴリズムのほうが計算量は少なくて済む。

以上説明したトピック抽出装置１の実行結果を評価する。評価にはブログデータを使用する。ブログとは、ウェブ上で急速に広まりつつある個人のオンライン日記であり、通常のウェブページにはない、トラックバックと呼ばれる機能が備えられている。トラックバックを使えば、他者日記（エントリ）にハイパーリンクを作成し、自分のものを参照させることができる。よって、ブログ空間には、トラックバックによる多様なグラフが構成されている。実際に、ｇｏｏ（登録商標）テーマサロン（http://blog.goo.ne.jp/userstheme/）の「とっておきのサイト紹介」からトラックバックを１０段までたどり、ブロググラフを収集したところ、得られたエントリ数は９３３８で、総トラックバック（リンク）数は７０１３８となった（２００５年３月に実施）。

表１に、本実施形態による主要トピックの抽出結果を示す、ここではｑ_m ^*で高ランクの上位５エントリのタイトルのみをサンプルとして表示している。本実施形態を用いれば、リンク情報のみを利用して、各トピックともに類似したタイトルのエントリ群が抽出できていることを表１は示している。

第１トピックのコア部としては、「電脳プリオン」や「生サナーギ」（表１には未出）をキーワードとして持ち、アスキーアートが描かれているエントリ群が抽出された。第２から第４トピックでは、ＳＥＯ（Search Engine Optimization）コンテスト（http://www.seo-association.com/）に関連したエントリ群が抽出された。ここで、ＳＥＯとは自サイトヘのアクセス数を増やすため、サーチエンジン検索結果のランキングを高めるテクニックの総称である（ HYPERLINK "http://www.webopedia.com/TERM/S/SEO.html" http://www.webopedia.com/TERM/S/SEO.htmlを参照）。

ＳＥＯコンテストでは、無意味な人工キーワード「ゴッゴル」や「デースケドガー」で参加者が検索ランキングを競い合う。表１より、第４トピックのコア部としては、データ収集時点ですでに終了していた第１回コンテストのキーワード「ゴッゴル」を含むエントリ群が抽出された。一方、第２と第３トピックのコア部としては、その時点で進行中の第２回コンテストのキーワード「デースケドガー」を含むエントリ群が抽出された。また、表１には示していないが、第５トピックのコア部として、アダルトエントリ群が抽出された。

本実施形態の特徴として、複数トピックに属すエントリを抽出できる点が挙げられる。実際に、第２と第３トピックのコア部として抽出されたエントリ群を比較すると、上位にランクされたエントリ群は両トピックに共通して現れ、下位のエントリ群はそれぞれのトピックに固有であった。すなわち、グラフからのコミュニティ抽出の多くの従来法では、排他的グラフ分割を行っていたのに対して、本実施形態では、重複を許容したコア部の抽出を行っている点が特徴と言える。

一方、本実施形態により、主要トピックの抽出だけでなく、スパムエントリ検出への応用も展開できると考える。例えば、検索結果ランキングの向上のみが目的で、内容的にほとんど無関係な多数エントリに対してトラックバックを行うようなＳＥＯスパム行為を行うエントリ群のフィルタリングである。アダルトエントリ群とともに、このようなスパムの検出・除去は、検索ランキングの信頼性向上だけでなく、多くのユーザからも望まれるものである。

以下、前記抽出結果の定量評価を説明する。各トピックのコア抽出のために求めた固有ベクトルｑ_m ^*のランキング性能について定量評価を行った。すなわち、第１トピックでは、「電脳プリオン」か「生サナーギ」をキーワードとして含むエントリ群をＵ₁とした。同様に第２と第４トピックでは、「デースケドガー」と「ゴッゴル」を含むエントリ群を、それぞれＵ₂およびＵ₄とした。また、人手判定によりアダルトエントリ群を抽出してＵ₅とした。そして、ベクトルｑ_m ^*がＵ_mのエントリを上位にランクできたか否かで評価を行った。

前記ランキング性能を定量的に評価するため、情報検索などで広く使われるＦ値と精度（precision）を用いた。すなわち、エントリ集合Ｕ_mに対して、ｑ_m ^*で上位Ｋ番以内にランクされたエントリ集合をＺｍ，Ｋとすれば、Ｆ値Ｆ_m（Ｋ）と精度Ｐ_m（Ｋ）は（式７）のように定義される。ここで、｜Ａ｜は集合Ａの要素数を表す。

図５および図６に、各トピックにおけるＦ値Ｆ_m（Ｋ）と精度Ｐ_m（Ｋ）を示す。ただし、第２と第３コア部のトピックはともに「デースケドガー」であり、すでに述べたように、両者のコア部に重複したエントリが複数現れたため、第３トピックのｑ₃ ^*での評価は省略している。図５および図６より、どのトピックでも高い性能でエントリ群の抽出ができたことを示している。詳細には、図１より、どのｑ_m ^*でもＫ≒｜Ｕ_m｜程度でＦ値が８０％から９０％くらいに達していること、および、図２より、その時点程度までの精度が１００％に近い点が特筆できる。したがって、前記したスパムエントリ検出への応用に向けて、本実施形態の有望性が示唆されたと言える。

さらに、図７に示すトピックマップを説明する。本実施形態をさらに評価するため、ｇｏｏ（登録商標）テーマサロンの別のテーマ「鉄道会社Ｊの脱線衝突事故」からトラックバックを１０段までたどり、ブロググラフを収集した。得られたエントリ数は１２０４７で、総トラックバック数は４００５８となった（２００５年５月に実施）。

提案法の適用ではＭ＝３０に設定して、トピックのコア部Ｃ₁ ^*，…，Ｃ₃₀ ^*を求めた。これらには、共通エントリを含み類似したトピック群もあれば、かなりトピックドリフト（所定のトピックの会話中に、別のトピックに脱線する）を起こしたと考えられるものも存在した。以下では、抽出したトピックコア部の関係を視覚的に理解するためのトピックマップ構築について述べる。

トピックマップ構築では、まずバネモデルを用いて、全エントリからなるグラフを２次元に埋め込み、各エントリの２次元座標を求めた。次いで、Ｃ₁ ^*，…，Ｃ₃₀ ^*に出現するエントリのみを表示した。

図７に、トピックマップの構築結果を示す。ここで、各トピックに対するアノテーションは以下のようにして付与した。まず、各エントリのタイトルを形態素解析して頻度２以上のｎ−ｇｒａｍを求め、ターム集合｛ｔ₁，…，ｔ_J｝を構成した。

次に、コアＣ_mとタームｔ_jのペアに対して、表２に示す２×２分割表（contingency table）を構築した。ここで、ａはコアＣ_mに属しタームｔ_jを含むエントリ数を、ｂはコアＣ_mに属しタームｔ_jを含まないエントリ数を、ｃはコアＣ_mに属さないがタームｔ_jを含むエントリ数を、そしてｄはコアＣ_mに属さずタームｔ_jも含まないエントリ数を表す。

そして、Fisher's exact testで、各コアＣ_mに対して独立性検定の直接確率が最小のタームｔ_j ^*を選定した。図７より、類似したトピックは比較的近くに配置されていることが分かる。中央下部には、本来のテーマである「鉄道会社Ｊ」や「事故」などを特徴語とするトピックのエントリ群があり、その上には、アダルトエントリ群が密集していることが分かる。

図７の右側には、ＩＴ企業Ｌの問題や中国・韓国の反日デモなどのトピックがあり、右下の特徴語「牛」を特徴語とするトピックは政府のＢＳＥ（Bovine Spongiform Encephalopathy）対策、飲食チェーン店Ｙの１日復活などに関するエントリであった。

図７の左側には、スポーツ、映画、芸能ニュースなどに関するトピックが配置された。この実験結果より、本実施形態で抽出したトピックのコア部を組み立てれば、ブロググラフにおける主要トピックの階層構造の自動構築が期待でき、その有望性が示唆されたと考える。なお、図７に関する「鉄道会社Ｊ」、「ＩＴ企業Ｌ」、「飲食チェーン店Ｙ」、「野球チームＬ」、「野球チームＨ」は、実験においては実名のデータを使用した。

以上説明した本実施形態と、比較例とを比較する。

まず、文書キーワードを重視する従来技術（非特許文献１）と比較する。従来技術はキーワードという字面に依存しているため、新しいキーワードやキーワードの表記揺れに弱く、充分な主要トピックの抽出ができない。しかし、本実施形態では文書の作成者が明示的に示した文書間の関係を使用しているため、キーワードに依存せずに主要トピックの抽出が可能である。なお、我々が別途行った調査では、ほとんどの場合でエントリ作成日に対して、トラックバックが張られるタイミングは１日から２日以内であった。よって、トラックバックで結合したエントリは時間的にも近い関係にあると想定できる。

次に、グラフのクラスタリング（コミュニティ抽出）に関する従来技術（非特許文献２〜非特許文献４）と比較する。これらの従来技術は、本実施形態と同様にグラフからその部分集合を分離することを可能とする。従来技術の基本アイデアに従えば、比較的密結合する２つの部分が両者の隘路で分離できる。しかし、従来技術では排他的グラフ分割を行うことによりトピックドリフトに対応できなかったのに対して、本実施形態ではノード群の重複を許容したコア部の抽出を行うことにより、トピックドリフトに対応することができる。

そして、従来のランキング手法（ＨＩＴＳ、Page Rankなど）は、本実施形態と同様に、スペクトラルグラフ分析を行っている点で類似する。しかし、従来のランキング手法ではランキング結果を出力するところまでを開示しているのに対し、本実施形態では、そのランキング結果から平均リンク数を求めてコア部を抽出し、そのコア部に含まれるリンクを削除して再帰的に別のコア部を抽出することにより、複数の主要トピックを実現している点に明確な差分がある。

本発明の一実施形態に関するトピック抽出装置を示す構成図である。本発明の一実施形態に関するトピック抽出装置の動作を示すフローチャートである。本発明の一実施形態に関する固有ベクトル計算部の動作を示すフローチャートである。本発明の一実施形態に関するトピックコア計算部の動作を示すフローチャートである。本発明の一実施形態に関するトピックにおけるＦ値Ｆ_m（Ｋ）を示すグラフである。本発明の一実施形態に関するトピックにおける精度Ｐ_m（Ｋ）を示すグラフである。本発明の一実施形態に関するトピックマップの構築結果を示すグラフである。

符号の説明

１トピック抽出装置
１０データ入力部
２０主要トピック抽出部
２２固有ベクトル計算部
２４トピックコア計算部
２６コアリンク削除部
３０データ出力部

Claims

文書を示すノードおよび文書間の関係を示すリンクにより構成される隣接行列のグラフから文書のトピックを抽出するトピック抽出装置であって、
隣接行列の固有ベクトルを計算する固有ベクトル計算部と、
前記固有ベクトル計算部により計算された固有ベクトルの要素値に基づきノードのランキングを行い、そのランキングの結果より結合が密なコア部を抽出するトピックコア計算部と、
前記トピックコア計算部により抽出されたコア部のリンクを前記隣接行列のグラフから削除するコアリンク削除部と、
前記固有ベクトル計算部、前記トピックコア計算部、および、前記コアリンク削除部を繰り返し実行させて、以前抽出されたコア部とは別のコア部を抽出する主要トピック抽出部と、
前記主要トピック抽出部により抽出されたコア部を出力するデータ出力部と、
を有することを特徴とするトピック抽出装置。
前記固有ベクトル計算部は、パワー法を土台とした方法で固有ベクトルを計算することを特徴とする請求項１に記載のトピック抽出装置。
前記トピックコア計算部は、所定の更新式を利用して、平均リンク数が最大となるグラフの部分集合をコア部として抽出することを特徴とする請求項１または請求項２に記載のトピック抽出装置。
文書を示すノードおよび文書間の関係を示すリンクにより構成される隣接行列のグラフから文書のトピックを抽出するトピック抽出方法であって、
コンピュータが、
記憶手段から読み取った隣接行列の固有ベクトルを計算する固有ベクトル計算手順と、
前記固有ベクトル計算手順により計算された固有ベクトルの要素値に基づきノードのランキングを行い、そのランキングの結果より結合が密なコア部を抽出するコア部抽出手順と、
前記コア部抽出手順により抽出されたコア部のリンクを前記隣接行列のグラフから削除するコア部削除手順と、
前記固有ベクトル計算手順、前記コア部抽出手順、および、前記コア部削除手順を繰り返し実行して、以前抽出されたコア部とは別のコア部を抽出する繰り返し手順と、
前記繰り返し手順により抽出されたコア部を出力するデータ出力手順と、
を実行することを特徴とするトピック抽出方法。
前記固有ベクトル計算手順は、パワー法を土台とした方法で固有ベクトルを計算することを特徴とする請求項４に記載のトピック抽出方法。
前記コア部抽出手順は、所定の更新式を利用して、平均リンク数が最大となるグラフの部分集合をコア部として抽出することを特徴とする請求項４または請求項５に記載のトピック抽出方法。
請求項４ないし請求項６のいずれか１項に記載のトピック抽出方法をコンピュータに実行させるためのトピック抽出プログラム。
請求項７に記載のトピック抽出プログラムを格納したコンピュータに読み取り可能な記憶媒体。