JP2007041700A - トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体 - Google Patents
トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体 Download PDFInfo
- Publication number
- JP2007041700A JP2007041700A JP2005223076A JP2005223076A JP2007041700A JP 2007041700 A JP2007041700 A JP 2007041700A JP 2005223076 A JP2005223076 A JP 2005223076A JP 2005223076 A JP2005223076 A JP 2005223076A JP 2007041700 A JP2007041700 A JP 2007041700A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- core
- eigenvector
- unit
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 多様なキーワードが使用されており文書間の関係が規定されている文書群から主要トピックを抽出すること。
【解決手段】 トピック抽出装置1は、隣接行列の固有ベクトルを計算する固有ベクトル計算部22と、固有ベクトル計算部22により算出された固有ベクトルの要素値に基づきノードのランキングを行い、ランキング結果より結合が密なコア部を抽出するトピックコア計算部24と、トピックコア計算部24により抽出されたコア部のリンクをグラフから削除するコアリンク削除部26と、主要トピック抽出部20により抽出されたコア部を出力するデータ出力部30と、を有することを特徴とする。
【選択図】 図1
【解決手段】 トピック抽出装置1は、隣接行列の固有ベクトルを計算する固有ベクトル計算部22と、固有ベクトル計算部22により算出された固有ベクトルの要素値に基づきノードのランキングを行い、ランキング結果より結合が密なコア部を抽出するトピックコア計算部24と、トピックコア計算部24により抽出されたコア部のリンクをグラフから削除するコアリンク削除部26と、主要トピック抽出部20により抽出されたコア部を出力するデータ出力部30と、を有することを特徴とする。
【選択図】 図1
Description
本発明は、トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体に関する。
ブログ、ウェブページ、電子図書、特許、論文などの文書は、他の文書と関係を有することがある。この文書間の関係は、例えば、引用、ブログのトラックバック、ウェブページのハイパーリンクなどにより表現されている。そして、関係の有する複数の文書群は、共通するトピック(話題)について記述していることも多い。よって、このトピック(特に話題性の高い主要トピック)を抽出することは、人気商品を探すなどのマーケティングを行うためのデータマイニングとして重要な課題となる。
まず、従来の主要技術(非特許文献1)は、文書キーワードを重視したものである。次に、人間関係によって形成されるコミュニティを抽出する従来の技術(非特許文献2〜非特許文献4)を、文書間の関係に応用することが考えられる。
R.Swan and J.Allan著,"Automatic generation of overview timelines",In Proceedings of SIGIR'00(2000) 49-56. R.Shi and J.Malik著,"Normalized cuts and image segmentation",IEEE Trans.PAMI,22(8),(2000)888-905. M.Girvan and E.J.Newman著,"Community structure in social and biological networks",Proceedings of the National Academy of Sciences of the United States of America,99(2002)7821-7826. G.W.Flake,S.Lawrence and C.L.Giles著,"Efficient identification of Web communities",In Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(2000)150-160.
R.Swan and J.Allan著,"Automatic generation of overview timelines",In Proceedings of SIGIR'00(2000) 49-56. R.Shi and J.Malik著,"Normalized cuts and image segmentation",IEEE Trans.PAMI,22(8),(2000)888-905. M.Girvan and E.J.Newman著,"Community structure in social and biological networks",Proceedings of the National Academy of Sciences of the United States of America,99(2002)7821-7826. G.W.Flake,S.Lawrence and C.L.Giles著,"Efficient identification of Web communities",In Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(2000)150-160.
しかし、非特許文献1では、ブログのように、多様な文体で書かれている場合には、キーワード抽出が困難であったり、新語が次から次へと作られるような文書群への適用が困難であった。
また、normalized cut法(非特許文献2)、非特許文献3、および、非特許文献4では、全てのコミュニティを網羅する計算方法であったため、単に「こんにちは」とだけ書いてあるような、内容が殆んどないエントリも過剰に抽出してしまい、主要トピックの抽出としては実用的ではない。さらに、非特許文献2〜非特許文献4では、1人が1つのコミュニティに属するように排他的にコミュニティを抽出するため、トピックドリフトに対応できなかった。トピックドリフトとは、例えば、仕事の話題中に趣味の話題へと話題が逸れる事象である。実際のブログデータなどでは、トピックドリフトが頻繁に発生する。
そこで、本発明は、前記した問題を解決し、多様なキーワードが使用されており文書間の関係が規定されている文書群から主要トピックを抽出することを主な目的とする。
前記課題を解決するために、本発明は、文書を示すノードおよび文書間の関係を示すリンクにより構成される隣接行列のグラフから文書のトピックを抽出するトピック抽出装置であって、隣接行列の固有ベクトルを計算する固有ベクトル計算部と、前記固有ベクトル計算部により計算された固有ベクトルの要素値に基づきノードのランキングを行い、そのランキングの結果より結合が密なコア部を抽出するトピックコア計算部と、前記トピックコア計算部により抽出されたコア部のリンクを前記隣接行列のグラフから削除するコアリンク削除部と、前記固有ベクトル計算部、前記トピックコア計算部、および、前記コアリンク削除部を繰り返し実行させて、以前抽出されたコア部とは別のコア部を抽出する主要トピック抽出部と、前記主要トピック抽出部により抽出されたコア部を出力するデータ出力部と、を有することを特徴とする。
これにより、多様なキーワードが使用されており文書間の関係が規定されている文書群から主要トピックを抽出することができる。
本発明は、前記固有ベクトル計算部が、パワー法を土台とした方法で固有ベクトルを計算することを特徴とする。
これにより、ノード数の多い大規模グラフにてノードの組合せ爆発を抑制できる。
本発明は、前記トピックコア計算部が、所定の更新式を利用して、平均リンク数が最大となるグラフの部分集合をコア部として抽出することを特徴とする。
これにより、ノード数の多い大規模グラフにて組合せ爆発を抑制できる。
本発明は、文書を示すノードおよび文書間の関係を示すリンクにより構成される隣接行列のグラフから文書のトピックを抽出するトピック抽出方法であって、コンピュータが、記憶手段から読み取った隣接行列の固有ベクトルを計算する固有ベクトル計算手順と、前記固有ベクトル計算手順により計算された固有ベクトルの要素値に基づきノードのランキングを行い、そのランキングの結果より結合が密なコア部を抽出するコア部抽出手順と、前記コア部抽出手順により抽出されたコア部のリンクを前記隣接行列のグラフから削除するコア部削除手順と、前記固有ベクトル計算手順、前記コア部抽出手順、および、前記コア部削除手順を繰り返し実行して、以前抽出されたコア部とは別のコア部を抽出する繰り返し手順と、前記繰り返し手順により抽出されたコア部を出力するデータ出力手順と、を実行することを特徴とする。
これにより、多様なキーワードが使用されており文書間の関係が規定されている文書群から主要トピックを抽出することができる。
本発明は、前記固有ベクトル計算手順が、パワー法を土台とした方法で固有ベクトルを計算することを特徴とする。
これにより、ノード数の多い大規模グラフにて組合せ爆発を抑制できる。
本発明は、前記コア部抽出手順が、所定の更新式を利用して、平均リンク数が最大となるグラフの部分集合をコア部として抽出することを特徴とする。
これにより、ノード数の多い大規模グラフにて組合せ爆発を抑制できる。
本発明は、前記トピック抽出方法をコンピュータに実行させるためのトピック抽出プログラムである。
これにより、多様なキーワードが使用されており文書間の関係が規定されている文書群から主要トピックを抽出することができる。
本発明は、前記トピック抽出プログラムを格納したコンピュータに読み取り可能な記憶媒体である。
これにより、多様なキーワードが使用されており文書間の関係が規定されている文書群から主要トピックを抽出することができる。
本発明により、多様なキーワードが使用されており文書間の関係が規定されている文書群から主要トピックを抽出することができる。
本発明の一実施形態について、図面を参照して説明する。まず、本実施形態が対象とする文書群を、計算機が扱うグラフデータへとモデル化する。ここで、文書群を構成する各文書は、電子データでもよいし、紙面のものでもよい。紙面の文書を扱うときには、文書全てを電子化する必要はなく、グラフデータに必要なメタデータ(引用など)を電子化すればよい。これにより、本実施形態は、主に紙面で提供されるような文書群(小説などの書籍など)にも容易に適用ができる。
グラフ(ネットワークとも呼ばれる)は、ノード(頂点とも呼ばれる)間をリンク(辺とも呼ばれる)で接続したものであり、隣接行列として表現される。ノードは、ブログ、ウェブページ、電子図書、特許、論文などの文書に対応する。1つのノードは、1つの文書に対応させることとしてもよいし、同一の属性を有する複数の文書を1つのノードに対応させてもよい。なお、同一の属性を有する複数の文書とは、例えば、同一の著者によって書かれた複数の文書や、同一の組織に属する複数の著者によって書かれた複数の文書などが挙げられる。
グラフのリンクは、引用、トラックバック、ハイパーリンクなどの文書間の関係である。グラフのトピックは、グラフの部分集合である。そして、グラフの主要トピック(以下、コア部とする)は、グラフのリンクが比較的に密なトピックである。主要トピックにおけるノードのランキングとは、主要トピックを構成する各ノードについて、リンクの密度が高いノード順に並べたものである。
本実施形態は、Webのハイパーリンクで構成されるようなグラフにおいて、比較的にリンクが密集する部分には潜在トピックが内在すると考えて、そのコア部の抽出を試みることである。つまり、隣接行列の固有ベクトルを求めてノードのランキングを行い、結合が密なコア部を抽出すること、およびすでに抽出したコア部のリンクを削除することにより、別のコア部抽出を再帰的に行うことである。
グラフは、与えられたグラフの全ノード集合(S=[1,…,N])の隣接行列Aとする。すなわち、隣接行列Aの第(i,j)成分であるA(i,j)は、ノードiとjとの間にリンクがあれば1に、なければ0に設定する。本実施形態では簡略化のため、自己リンクなしの無向グラフのみを対象とする。つまり、A(i,i)=0かつA(i,j)=A(j,i)である。ただし、本実施形態は説明を簡潔にするために無向グラフを扱うが、有向グラフヘの拡張も容易に行える。なお、有向グラフのときには、例えば、ノードiからノードjへのリンクが存在するときにはA(i,j)=1とし、存在しないときにはA(i,j)=0とすればA(i,j)≠A(j,i)となる。
ノード集合C⊂Sに対し、リンクの密度を示す平均リンク数は(式1)で定義できる。ただし、|C|は集合Cの要素数を表す。すでに述べたように、潜在トピックがあれば、平均リンク数の高いノード集合が形成されると想定する。そこで、(式1)を最大にするノード集合Cの探索問題を考える。ただし、単純な数え挙げによる網羅的な探索では、ノード数の多い大規模グラフにて組合せ爆発が容易に起こる。よって、本実施形態では以下で述べるように、緩和問題が最適に解けることに着目したアプローチを採用する。
図1のトピック抽出装置1は、文書群を示すグラフからM個の主要トピックを抽出するために、データ入力部10、主要トピック抽出部20、固有ベクトル計算部22、トピックコア計算部24、コアリンク削除部26、および、データ出力部30を有する。トピック抽出装置1は、演算処理を行う際に用いられる記憶手段としてのメモリと、前記演算処理を行う演算処理装置とを少なくとも備えるコンピュータとして構成される。なお、メモリは、RAM(Random Access Memory)などにより構成される。演算処理は、CPU(Central Processing Unit)によって構成される演算処理装置が、メモリ上のプログラムを実行することで、実現される。
図2のフローチャートは、トピック抽出装置1の動作を説明するものである。まず、データ入力部10は、ユーザから抽出コア数(主要トピック数)Mを含むデータの入力を受け付ける(S102)。次に、主要トピック抽出部20は、m=1からMまで以下のステップを繰り返し実行する(S104,S106,S118)。固有ベクトル計算部22は、記憶手段から読み取った隣接行列の固有ベクトルqm *を計算する(S110)。トピックコア計算部24は、前記固有ベクトルの要素値に基づきノードのランキングを行い、このランキング結果より結合が密なコア部Cm(k*)を抽出する(S112)。
ここで、コアリンク削除部26は、i,j∈Cm(k*)ならば(S114,Yes)、A(i,j)=0に設定する(S116)ことにより、すでに抽出したコア部のリンクを削除する。繰り返しが終了すると(S106,Yes)、データ出力部30は、M個のコア部(C1 *,…,CM *)を結果としてデータ出力する(S108)。これにより、結合が密なM個のコア部を抽出することができる。
図3は、固有ベクトル計算部22の動作を説明するフローチャートであり、qm *を求める処理(S110)を具体化したものである。固有ベクトル計算部22が、後記するパワー法を土台としたアルゴリズムによって後記する緩和問題を解くことにより、大規模問題にも適用可能であることを示す。なお、パワー法は、行列の固有ベクトルを求める手法であり、文献「G. H. Golub and C.F. Van Loan著,“Matrix Computations”,Johns Hopkins University Press, Balimore, MD (1989).」に詳しい。
固有ベクトルの計算が緩和問題へと代替可能なことを説明する。ノード集合Cに対して、N次元ベクトルqを、i∈Cならばqi=1、さもなければqi=0で定義する。このとき、(式1)は(式2)に書き換えられる。
ただし、qTはベクトルqの転置を表す。ここで、ベクトルqの各要素に対して連続値まで許容すれば、(式2)の右辺はRayleigh商に他ならない。よって、G(q)の最大値は、行列Aにて、固有値を最大にする固有ベクトルq*で与えられる。固有ベクトルq*を求めるには、以下のパワー法を土台としたアルゴリズムが適用できる。なお、q〜は、図3においてqの上に波線を示す記号で表されており、qの更新を実施するための中間変数を示す。
t=1,q(0)=(1,L,1)Tと初期化する(S202)。q〜=Aq(t-1),q(t)=q〜/maxiq〜(i)を計算する(S204)。maxi|q(t)(i)−q(t-1)(i)|<εか否かを判定し(S206)、Yesならば終了、または、Noならばtに1を加算して(S208)からS204に戻るように分岐する。
ここで、εは終了条件を制御する正の実数であり、反復終了後にq*=q(t)として結果が求まる。明らかに、Aとq(0)の全要素が非負のため、任意の反復でq〜の各要素は非負となる、さらに、S204でスケーリングを施すことより、0≦q(t)(i)≦1が保証される、つまり、前記アルゴリズムで固有値最大の固有ベクトルが求まり、基本設定の妥当な緩和問題を最適に解いていると言える。
前記アルゴリズムにおける1反復の主要計算量は以下となる。グラフの総リンク数をLとすれば、Aの要素がバイナリ{0、1}であるため、q〜は高々L回の加算で求まる。一方、q〜のスケーリングはノード数(N)回の乗算で求まる。この計算量は、総リンク数の線形オーダであってグラフがスパースなら、つまり総ノード数に比較して総リンク数が多くなく結合が疎なグラフなら、大規模問題にも適用可能であることを示している。
図4は、トピックコア計算部24の動作を説明するフローチャートであり、Cm(k*)を求める処理(S112)を具体化したものである。トピックコア計算部24が、後記するコア抽出アルゴリズムによって、後記する量子化問題を解くことにより、大規模問題にも適用可能であることを示す。
固有ベクトルq*の各要素をバイナリ化することで基本問題の解を求める。まず、q*の要素の大小に基づき各ノードをランキングすれば、リストR=[r(1),…,r(N)]が定まる。ここで、r(i)はランクiに対して元のノード番号を与える関数で、q*(r(i))>q*(r(i+1))の関係を満たす。なお、tie−breakは任意に行うとする。リストR=[r(1),…,r(N)]の上位k個のノード集合を(式3)に示す。
ここで、△(k+1)はノードr(k+1)を加えたことによるリンク数の増分であり(式6)で計算できる。請求項における所定の更新式は、(式5)および(式6)に相当する。ここで、定義よりG(1)=0である。
前記手順をまとめれば図4のフローチャートとなる。まず、トピックコア計算部24は、q*の要素をソートしランク関数r(i)を求める(S302)。次に、トピックコア計算部24は、G(2),…,G(N)を(式5)と(式6)で求める(S304)。そして、トピックコア計算部24は、k*=argmaxkG(k)を求めてC(k*)を出力する(S306)。
なお、ランク関数の算出(S302)には、HITSの文献「J.Kleinberg著,“Authoritative sources in a hyperlinked environment”,In Proceedings of the Ninth ACM-SIAM Symposium on Discrete Algorithms(1998)668-677.」、または、Page Rankの文献「S.Brin and L.Page著,“The anatomy of a large scale hypertextual Web search engine”,In Proceedings of the Seventh International World Wide Web Conference(1998)107-117.」などの公知技術を活用することができる。
コア抽出アルゴリズムの主要計算量は以下となる。S302のソートはO(NlogN)の計算量で実行できる。S304で順次G(2),…,G(N)を求めるには、トータルで(式6)は高々L回の加算で、(式5)はN回の除算で行える。通常の計算法ではO(n2)なので、コア抽出アルゴリズムのほうが計算量は少なくて済む。
以上説明したトピック抽出装置1の実行結果を評価する。評価にはブログデータを使用する。ブログとは、ウェブ上で急速に広まりつつある個人のオンライン日記であり、通常のウェブページにはない、トラックバックと呼ばれる機能が備えられている。トラックバックを使えば、他者日記(エントリ)にハイパーリンクを作成し、自分のものを参照させることができる。よって、ブログ空間には、トラックバックによる多様なグラフが構成されている。実際に、goo(登録商標)テーマサロン(http://blog.goo.ne.jp/userstheme/)の「とっておきのサイト紹介」からトラックバックを10段までたどり、ブロググラフを収集したところ、得られたエントリ数は9338で、総トラックバック(リンク)数は70138となった(2005年3月に実施)。
表1に、本実施形態による主要トピックの抽出結果を示す、ここではqm *で高ランクの上位5エントリのタイトルのみをサンプルとして表示している。本実施形態を用いれば、リンク情報のみを利用して、各トピックともに類似したタイトルのエントリ群が抽出できていることを表1は示している。
第1トピックのコア部としては、「電脳プリオン」や「生サナーギ」(表1には未出)をキーワードとして持ち、アスキーアートが描かれているエントリ群が抽出された。第2から第4トピックでは、SEO(Search Engine Optimization)コンテスト(http://www.seo-association.com/)に関連したエントリ群が抽出された。ここで、SEOとは自サイトヘのアクセス数を増やすため、サーチエンジン検索結果のランキングを高めるテクニックの総称である( HYPERLINK "http://www.webopedia.com/TERM/S/SEO.html" http://www.webopedia.com/TERM/S/SEO.htmlを参照)。
SEOコンテストでは、無意味な人工キーワード「ゴッゴル」や「デースケドガー」で参加者が検索ランキングを競い合う。表1より、第4トピックのコア部としては、データ収集時点ですでに終了していた第1回コンテストのキーワード「ゴッゴル」を含むエントリ群が抽出された。一方、第2と第3トピックのコア部としては、その時点で進行中の第2回コンテストのキーワード「デースケドガー」を含むエントリ群が抽出された。また、表1には示していないが、第5トピックのコア部として、アダルトエントリ群が抽出された。
本実施形態の特徴として、複数トピックに属すエントリを抽出できる点が挙げられる。実際に、第2と第3トピックのコア部として抽出されたエントリ群を比較すると、上位にランクされたエントリ群は両トピックに共通して現れ、下位のエントリ群はそれぞれのトピックに固有であった。すなわち、グラフからのコミュニティ抽出の多くの従来法では、排他的グラフ分割を行っていたのに対して、本実施形態では、重複を許容したコア部の抽出を行っている点が特徴と言える。
一方、本実施形態により、主要トピックの抽出だけでなく、スパムエントリ検出への応用も展開できると考える。例えば、検索結果ランキングの向上のみが目的で、内容的にほとんど無関係な多数エントリに対してトラックバックを行うようなSEOスパム行為を行うエントリ群のフィルタリングである。アダルトエントリ群とともに、このようなスパムの検出・除去は、検索ランキングの信頼性向上だけでなく、多くのユーザからも望まれるものである。
以下、前記抽出結果の定量評価を説明する。各トピックのコア抽出のために求めた固有ベクトルqm *のランキング性能について定量評価を行った。すなわち、第1トピックでは、「電脳プリオン」か「生サナーギ」をキーワードとして含むエントリ群をU1とした。同様に第2と第4トピックでは、「デースケドガー」と「ゴッゴル」を含むエントリ群を、それぞれU2およびU4とした。また、人手判定によりアダルトエントリ群を抽出してU5とした。そして、ベクトルqm *がUmのエントリを上位にランクできたか否かで評価を行った。
前記ランキング性能を定量的に評価するため、情報検索などで広く使われるF値と精度(precision)を用いた。すなわち、エントリ集合Umに対して、qm *で上位K番以内にランクされたエントリ集合をZm,Kとすれば、F値Fm(K)と精度Pm(K)は(式7)のように定義される。ここで、|A|は集合Aの要素数を表す。
図5および図6に、各トピックにおけるF値Fm(K)と精度Pm(K)を示す。ただし、第2と第3コア部のトピックはともに「デースケドガー」であり、すでに述べたように、両者のコア部に重複したエントリが複数現れたため、第3トピックのq3 *での評価は省略している。図5および図6より、どのトピックでも高い性能でエントリ群の抽出ができたことを示している。詳細には、図1より、どのqm *でもK≒|Um|程度でF値が80%から90%くらいに達していること、および、図2より、その時点程度までの精度が100%に近い点が特筆できる。したがって、前記したスパムエントリ検出への応用に向けて、本実施形態の有望性が示唆されたと言える。
さらに、図7に示すトピックマップを説明する。本実施形態をさらに評価するため、goo(登録商標)テーマサロンの別のテーマ「鉄道会社Jの脱線衝突事故」からトラックバックを10段までたどり、ブロググラフを収集した。得られたエントリ数は12047で、総トラックバック数は40058となった(2005年5月に実施)。
提案法の適用ではM=30に設定して、トピックのコア部C1 *,…,C30 *を求めた。これらには、共通エントリを含み類似したトピック群もあれば、かなりトピックドリフト(所定のトピックの会話中に、別のトピックに脱線する)を起こしたと考えられるものも存在した。以下では、抽出したトピックコア部の関係を視覚的に理解するためのトピックマップ構築について述べる。
トピックマップ構築では、まずバネモデルを用いて、全エントリからなるグラフを2次元に埋め込み、各エントリの2次元座標を求めた。次いで、C1 *,…,C30 *に出現するエントリのみを表示した。
図7に、トピックマップの構築結果を示す。ここで、各トピックに対するアノテーションは以下のようにして付与した。まず、各エントリのタイトルを形態素解析して頻度2以上のn−gramを求め、ターム集合{t1,…,tJ}を構成した。
次に、コアCmとタームtjのペアに対して、表2に示す2×2分割表(contingency table)を構築した。ここで、aはコアCmに属しタームtjを含むエントリ数を、bはコアCmに属しタームtjを含まないエントリ数を、cはコアCmに属さないがタームtjを含むエントリ数を、そしてdはコアCmに属さずタームtjも含まないエントリ数を表す。
そして、Fisher's exact testで、各コアCmに対して独立性検定の直接確率が最小のタームtj *を選定した。図7より、類似したトピックは比較的近くに配置されていることが分かる。中央下部には、本来のテーマである「鉄道会社J」や「事故」などを特徴語とするトピックのエントリ群があり、その上には、アダルトエントリ群が密集していることが分かる。
図7の右側には、IT企業Lの問題や中国・韓国の反日デモなどのトピックがあり、右下の特徴語「牛」を特徴語とするトピックは政府のBSE(Bovine Spongiform Encephalopathy)対策、飲食チェーン店Yの1日復活などに関するエントリであった。
図7の左側には、スポーツ、映画、芸能ニュースなどに関するトピックが配置された。この実験結果より、本実施形態で抽出したトピックのコア部を組み立てれば、ブロググラフにおける主要トピックの階層構造の自動構築が期待でき、その有望性が示唆されたと考える。なお、図7に関する「鉄道会社J」、「IT企業L」、「飲食チェーン店Y」、「野球チームL」、「野球チームH」は、実験においては実名のデータを使用した。
以上説明した本実施形態と、比較例とを比較する。
まず、文書キーワードを重視する従来技術(非特許文献1)と比較する。従来技術はキーワードという字面に依存しているため、新しいキーワードやキーワードの表記揺れに弱く、充分な主要トピックの抽出ができない。しかし、本実施形態では文書の作成者が明示的に示した文書間の関係を使用しているため、キーワードに依存せずに主要トピックの抽出が可能である。なお、我々が別途行った調査では、ほとんどの場合でエントリ作成日に対して、トラックバックが張られるタイミングは1日から2日以内であった。よって、トラックバックで結合したエントリは時間的にも近い関係にあると想定できる。
次に、グラフのクラスタリング(コミュニティ抽出)に関する従来技術(非特許文献2〜非特許文献4)と比較する。これらの従来技術は、本実施形態と同様にグラフからその部分集合を分離することを可能とする。従来技術の基本アイデアに従えば、比較的密結合する2つの部分が両者の隘路で分離できる。しかし、従来技術では排他的グラフ分割を行うことによりトピックドリフトに対応できなかったのに対して、本実施形態ではノード群の重複を許容したコア部の抽出を行うことにより、トピックドリフトに対応することができる。
そして、従来のランキング手法(HITS、Page Rankなど)は、本実施形態と同様に、スペクトラルグラフ分析を行っている点で類似する。しかし、従来のランキング手法ではランキング結果を出力するところまでを開示しているのに対し、本実施形態では、そのランキング結果から平均リンク数を求めてコア部を抽出し、そのコア部に含まれるリンクを削除して再帰的に別のコア部を抽出することにより、複数の主要トピックを実現している点に明確な差分がある。
1 トピック抽出装置
10 データ入力部
20 主要トピック抽出部
22 固有ベクトル計算部
24 トピックコア計算部
26 コアリンク削除部
30 データ出力部
10 データ入力部
20 主要トピック抽出部
22 固有ベクトル計算部
24 トピックコア計算部
26 コアリンク削除部
30 データ出力部
Claims (8)
- 文書を示すノードおよび文書間の関係を示すリンクにより構成される隣接行列のグラフから文書のトピックを抽出するトピック抽出装置であって、
隣接行列の固有ベクトルを計算する固有ベクトル計算部と、
前記固有ベクトル計算部により計算された固有ベクトルの要素値に基づきノードのランキングを行い、そのランキングの結果より結合が密なコア部を抽出するトピックコア計算部と、
前記トピックコア計算部により抽出されたコア部のリンクを前記隣接行列のグラフから削除するコアリンク削除部と、
前記固有ベクトル計算部、前記トピックコア計算部、および、前記コアリンク削除部を繰り返し実行させて、以前抽出されたコア部とは別のコア部を抽出する主要トピック抽出部と、
前記主要トピック抽出部により抽出されたコア部を出力するデータ出力部と、
を有することを特徴とするトピック抽出装置。 - 前記固有ベクトル計算部は、パワー法を土台とした方法で固有ベクトルを計算することを特徴とする請求項1に記載のトピック抽出装置。
- 前記トピックコア計算部は、所定の更新式を利用して、平均リンク数が最大となるグラフの部分集合をコア部として抽出することを特徴とする請求項1または請求項2に記載のトピック抽出装置。
- 文書を示すノードおよび文書間の関係を示すリンクにより構成される隣接行列のグラフから文書のトピックを抽出するトピック抽出方法であって、
コンピュータが、
記憶手段から読み取った隣接行列の固有ベクトルを計算する固有ベクトル計算手順と、
前記固有ベクトル計算手順により計算された固有ベクトルの要素値に基づきノードのランキングを行い、そのランキングの結果より結合が密なコア部を抽出するコア部抽出手順と、
前記コア部抽出手順により抽出されたコア部のリンクを前記隣接行列のグラフから削除するコア部削除手順と、
前記固有ベクトル計算手順、前記コア部抽出手順、および、前記コア部削除手順を繰り返し実行して、以前抽出されたコア部とは別のコア部を抽出する繰り返し手順と、
前記繰り返し手順により抽出されたコア部を出力するデータ出力手順と、
を実行することを特徴とするトピック抽出方法。 - 前記固有ベクトル計算手順は、パワー法を土台とした方法で固有ベクトルを計算することを特徴とする請求項4に記載のトピック抽出方法。
- 前記コア部抽出手順は、所定の更新式を利用して、平均リンク数が最大となるグラフの部分集合をコア部として抽出することを特徴とする請求項4または請求項5に記載のトピック抽出方法。
- 請求項4ないし請求項6のいずれか1項に記載のトピック抽出方法をコンピュータに実行させるためのトピック抽出プログラム。
- 請求項7に記載のトピック抽出プログラムを格納したコンピュータに読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005223076A JP2007041700A (ja) | 2005-08-01 | 2005-08-01 | トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005223076A JP2007041700A (ja) | 2005-08-01 | 2005-08-01 | トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007041700A true JP2007041700A (ja) | 2007-02-15 |
Family
ID=37799642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005223076A Pending JP2007041700A (ja) | 2005-08-01 | 2005-08-01 | トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007041700A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010039997A (ja) * | 2008-08-08 | 2010-02-18 | Ricoh Co Ltd | 情報検索装置、情報検索方法、プログラム、および記録媒体 |
JP2010055173A (ja) * | 2008-08-26 | 2010-03-11 | Ricoh Co Ltd | 情報検索システム、情報検索方法、プログラムおよび記録媒体 |
JP2010061178A (ja) * | 2008-08-05 | 2010-03-18 | Ricoh Co Ltd | 情報処理装置、情報検索システム、情報処理方法およびプログラム |
KR20180078712A (ko) * | 2016-12-30 | 2018-07-10 | 서울대학교산학협력단 | 그래프 랭킹 수행 방법 및 장치 |
CN113435184A (zh) * | 2021-07-05 | 2021-09-24 | 平安科技(深圳)有限公司 | 文本主题抽取方法、系统、设备及存储介质 |
-
2005
- 2005-08-01 JP JP2005223076A patent/JP2007041700A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010061178A (ja) * | 2008-08-05 | 2010-03-18 | Ricoh Co Ltd | 情報処理装置、情報検索システム、情報処理方法およびプログラム |
JP2010039997A (ja) * | 2008-08-08 | 2010-02-18 | Ricoh Co Ltd | 情報検索装置、情報検索方法、プログラム、および記録媒体 |
JP2010055173A (ja) * | 2008-08-26 | 2010-03-11 | Ricoh Co Ltd | 情報検索システム、情報検索方法、プログラムおよび記録媒体 |
KR20180078712A (ko) * | 2016-12-30 | 2018-07-10 | 서울대학교산학협력단 | 그래프 랭킹 수행 방법 및 장치 |
CN113435184A (zh) * | 2021-07-05 | 2021-09-24 | 平安科技(深圳)有限公司 | 文本主题抽取方法、系统、设备及存储介质 |
CN113435184B (zh) * | 2021-07-05 | 2022-07-12 | 平安科技(深圳)有限公司 | 文本主题抽取方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Das et al. | Text mining and topic modeling of compendiums of papers from transportation research board annual meetings | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN106095949A (zh) | 一种基于混合推荐的数字化图书馆资源个性化推荐方法与系统 | |
CN106484764A (zh) | 基于人群画像技术的用户相似度计算方法 | |
Kataria et al. | Context sensitive topic models for author influence in document networks | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
Mirani et al. | Sentiment analysis of isis related tweets using absolute location | |
CN103150382A (zh) | 基于开放知识库的短文本语义概念自动化扩展方法及系统 | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
JP2007041700A (ja) | トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体 | |
CN106202552A (zh) | 基于云计算的数据搜索方法 | |
Song et al. | Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media | |
Chen et al. | WTR: A test collection for web table retrieval | |
Quan et al. | Feature-level sentiment analysis by using comparative domain corpora | |
Zaïane et al. | Mining research communities in bibliographical data | |
Huang et al. | Design a batched information retrieval system based on a concept-lattice-like structure | |
Zhang et al. | A tag recommendation system for folksonomy | |
Li et al. | Mining Community Structure of Named Entities from Web Pages and Blogs. | |
Ren et al. | Role-explicit query extraction and utilization for quantifying user intents | |
Sonawane et al. | Context-based multi-document summarization | |
Sharma et al. | Tourview: Sentiment based analysis on tourist domain | |
Yang et al. | An Opinion-aware Approach to Contextual Suggestion. | |
Zhang et al. | A tag recommendation system based on contents | |
Jayabharathy et al. | Correlation based multi-document summarization for scientific articles and news group | |
Boujarwah et al. | A new unsupervised web services classification based on conceptual graphs |