JP2008059442A - 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 - Google Patents

文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 Download PDF

Info

Publication number
JP2008059442A
JP2008059442A JP2006237663A JP2006237663A JP2008059442A JP 2008059442 A JP2008059442 A JP 2008059442A JP 2006237663 A JP2006237663 A JP 2006237663A JP 2006237663 A JP2006237663 A JP 2006237663A JP 2008059442 A JP2008059442 A JP 2008059442A
Authority
JP
Japan
Prior art keywords
document
documents
document set
relationship
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006237663A
Other languages
English (en)
Other versions
JP4769151B2 (ja
Inventor
Hiroyuki Toda
浩之 戸田
Takashi Fujimura
考 藤村
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006237663A priority Critical patent/JP4769151B2/ja
Publication of JP2008059442A publication Critical patent/JP2008059442A/ja
Application granted granted Critical
Publication of JP4769151B2 publication Critical patent/JP4769151B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】強い繋がりが存在する文書集合のみを特定し、その文書集合をクラスタに分類し、そのクラスタ中の各文書の役割を明確に分析する。
【解決手段】特定条件に基づいて文書集合を特定する手段10と、前記特定された文書集合に含まれる各文書間の類似性を評価する手段20と、前記評価された類似性に基づいて、文書間の関係性を抽出する手段30と、前記抽出された文書間の関係性に基づき、該文書の中心性を算出する手段40によって、文書間の関係性と文書の中心性を取得する。そして、前記取得した文書間の関係性と、取得した個々の文書の中心性に基づいて、話題語,話題語に関連する文書集合,文書の役割を特定する手段50によって、それら特定し、可視化して出力する。
【選択図】図1

Description

本発明は、データマイニング技術に関するものである。
現在、Webページやブログ記事等、ニュース記事等のテキストを含む文書集合(文書データ集合とも言う)に対して検索やデータマイニングを行う技術が広く知られている。
その技術において、ユーザが大量の文書を取り扱う場合に、ユーザが「文書集合中に存在する主要な話題が知りたい」や「文書集合中の特定の話題に関連する情報群にアクセスしたい」という文書に関連した情報を取得する要求を持つことが多い。
これらの要求を実現する実現方法としては、次のようなものが知られている。
一つは、クラスタリングアルゴリズムを利用する方法(例えば、非特許文献1参照)である。この方法では、それぞれの文書を単語ベクトルで表現し、ベクトル間の類似度(コサイン類似度等)を利用して、類似したベクトルを統合することによって、類似した話題(あるいは話題語)に関する文書をクラスタとして特定する。そして、この個々のクラスタを特定の話題に関連する情報の集合と見做す事によって、上述の要求を実現するものである。
他の実現方法としては、話題語抽出を利用する方法(例えば、特許文献1参照)が知られている。この方法は、文書集合の中から、キーワードの出現頻度や出現分布に基づいて、文書集合中の特定の話題に関連するキーワードを抽出する技術を利用する。その技術で抽出した特定のキーワードを含む文書を特定の話題に関連する文書の集合と見なすことによって、上述の要求を実現するものである。
なお、関連技術として、文書をノードと見做して、各ノード(文書)の中心性を算出方法(例えば、PageRank(例えば、非特許文献2参照))が知られている。文書の集合を特定するために、web上に存在する検索エンジン(例えば、非特許文献3参照)も広く知られている。文書を単語ベクトルに表す技術(例えば、非特許文献4参照)も広く知られている。
特開2005−208838号公報(段落[0066]〜[0144]等)。 D.Cutting,D.Karger,J.Pedersen,and J.Tukry,"Scatter/Gather: a cluster−based approach to browsing large document collections",Proc.of SIGIR 1992,ACM,June 1992,pp318−329. S.Brin,and L.Page,"The anatomy of a large−scale hypertexutual Web Search Engine",Proc.of WWW7,Elsevier science,April 1998,pp107−117. エヌ・ティ・ティ レゾナント株式会社、"ポータルサイト goo"、[online]、平成18年、エヌ・ティ・ティ レゾナント株式会社、[平成18年7月31日検索]、インターネット<URL:http://www.goo.ne.jp/> 北研二、津田和彦、獅子掘正幹、「情報検索アルゴリズム」、共立出版、2002年1月。
上述の文書に関連した情報を取得する要求を実現する技術には、以下のような問題点が知られている。
上述のクラスタリングアルゴリズムを用いる手法では、全ての文書が何れかのクラスタに属することを前提としている。一方、現実のデータでは、他の文書と関係ない、いわゆる「その他」に属する文書が存在するため、必ずしも適切なクラスタリングが行えず、結果的に上記の要求に対して取得した情報にも、多くのノイズを含む等の問題を有する。
上述の話題語抽出を用いた手法では、文書を一つの集合にするときのルールが、キーワードを含むか否かと言う非常に単純なものであるため、必ずしも有益な文書の集合が作られているとは限らない。例えば、この手法で出力される一つのキーワードが複数の話題に関連していたり、逆に一つの話題が複数のキーワードに関連することもしばしばある。
本発明は、前記課題に基づいてなされたものであって、強い繋がりが存在する文書集合のみを特定し、その文書集合をクラスタに分類し、そのクラスタ中の各文書の役割を明確に分析する文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体を提供することにある。
前記課題の解決を図るために、請求項1記載の発明は、文書データ管理手段によって管理される文書集合内の文書間の関連性に基いて、文書の役割を特定する文書集合分析装置であって、入力手段から入力された文書集合特定条件に基づいて前記文書集合を特定する文書集合特定手段と、前記特定された文書集合に含まれる各文書間で話題語に関する類似度を評価する類似性評価手段と、前記類似性評価手段によって評価された類似度に基づいて、文書間の関係性を抽出する関係抽出手段と、前記関係抽出手段によって抽出された文書間の関係性に基づき、文書と該文書以外の文書間の関連性の高さを示す指標として、該文書の中心性を算出する中心性判定手段と、前記関係抽出手段によって得られた文書間の関係性と、中心性判定手段によって得られた個々の文書の中心性に基づいて、文書集合全体から文書集合中に含まれる話題語,話題語に関連する文書集合,その文書集合中における文書の役割を特定する情報分析手段と、前記特定された文書集合全体から文書集合中に含まれる話題語,話題語に関連する文書集合,その文書集合中における文書の役割に基づいて文書集合を可視化して出力する情報出力手段と、を備えることを特徴とする。
請求項2記載の発明は、請求項1記載の発明において、前記情報分析手段が、前記文書間の関連性と、各文書の中心性に基づいて、文書間の関連性を二次元座標で表現し、その二次元座標に対する三次元目の座標で中心性を表現し、前記文書集合を三次元のグラフ構造で表現するグラフ構造構築手段と、前記得られたグラフ構造から、エッジで連結している自身以外のノードより高い中心性を持つノードを頂点として抽出する頂点ノード抽出手段と、前記得られた頂点ノードから、中心性が低くなる方向にグラフ構造をたどり、ノードで構成される山を特定する山状ノード群特定手段と、前記特定される頂点ノード及び山状ノードに基づいて、ノードに対し役割を示すラベルを付与するラベル付け手段と、を備えることを特徴とする。
請求項3記載の発明は、文書データ管理手段によって管理される文書集合内の文書間の関連性に基いて、文書の役割を特定する文書集合分析方法であって、入力手段から入力された文書集合特定条件に基づいて前記文書集合を特定する文書集合特定ステップと、前記特定された文書集合に含まれる各文書間で話題語に関する類似度を評価する類似性評価ステップと、前記類似性評価ステップによって評価された類似度に基づいて、文書間の関係性を抽出する関係抽出ステップと、前記関係抽出ステップによって抽出された文書間の関係性に基づき、文書と該文書以外の文書間の関連性の高さを示す指標として、該文書の中心性を算出する中心性判定ステップと、前記関係抽出ステップによって得られた文書間の関係性と、中心性判定手段によって得られた個々の文書の中心性に基づいて、文書集合全体から文書集合中に含まれる話題語,話題語に関連する文書集合,その文書集合中における文書の役割を特定する情報分析ステップと、前記特定された文書集合全体から文書集合中に含まれる話題語,話題語に関連する文書集合,その文書集合中における文書の役割に基づいて文書集合を可視化して出力する情報出力ステップと、を有することを特徴とする。
請求項4記載の発明は、請求項3記載の発明において、前記情報分析ステップが、前記文書間の関連性と、各文書の中心性に基づいて、文書間の関連性を二次元座標で表現し、その二次元座標に対する三次元目の座標で中心性を表現し、前記文書集合を三次元のグラフ構造で表現するグラフ構造構築ステップと、前記得られたグラフ構造から、エッジで連結している自身以外のノードより高い中心性を持つノードを頂点として抽出する頂点ノード抽出ステップと、前記得られた頂点ノードから、中心性が低くなる方向にグラフ構造をたどり、ノードで構成される山を特定する山状ノード群特定ステップと、前記特定される頂点ノード及び山状ノードに基づいて、ノードに対し役割を示すラベルを付与するラベル付けステップと、を有することを特徴とする。
請求項5記載の発明は、文書集合分析プログラムであって、請求項3または4に記載の文書集合分析方法を、コンピュータで実行可能なコンピュータプログラムとして記述したことを特徴とする。
請求項6記載の発明は、記録媒体であって、請求項3または4に記載の文書集合分析方法を、コンピュータで実行可能なコンピュータプログラムとして記述し、そのコンピュータプログラムを記録したことを特徴とする。
前記請求項1,3の発明によれば、中心性に基づく文書間の関連性を取得できる。
前記請求項2,4の発明によれば、文書間の関係に基づくグラフ構造を取得できる。
前記請求項5の発明によれば、請求項3または4に記載の文書集合分析方法をコンピュータプログラムとして記載できる。
前記請求項6の発明によれば、請求項3または4に記載の文書集合分析方法を実装したコンピュータプログラムを記録媒体に記録できる。
以上示したように請求項1,3の発明によれば、文書の関連性に基づいて、その文書の役割を明確に分析できる。
請求項2,4の発明によれば、強い繋がりを有する文書集合のみを特定できる。
請求項5の発明によれば、請求項3または4に記載の文書集合分析方法を実装したコンピュータプログラムを提供できる。
請求項6の発明によれば、請求項3または4に記載の文書集合分析方法を実装したコンピュータプログラムを記録した記録媒体を提供できる。
これを以ってデータマイニング技術分野に貢献できる。
以下、本発明の実施形態を図面等に基づいて詳細に説明する。本実施形態における文書集合分析装置は、検索したニュース記事の中に存在する話題(即ち、話題語)を特定し、その特定した話題に関連する文書をクラスタ化し、さらに、そのクラスタ中の文書に対してそれぞれの文書の位置付けを明らかにする文書分析を行う装置である。
本実施形態における文書集合分析装置の構成を図1に基づいて説明する。
文書集合分析装置は、文書集合特定部10,類似性評価部20,関係抽出部30,中心性判定部40,情報分析部50,情報出力部60,文書データ管理手段(例えば、文書DB(Database))70から構成される。さらに、情報分析部50は、グラフ構造構築部51,頂点ノード抽出部52,山状ノード群特定部53,ラベル付け部54から構成される。
文書集合特定部10は、文書集合を特定する文書集合特定条件を含む指定や要求(例えば、ユーザからの指定や要求)、もしくは、あらかじめ決められた文書集合特定条件に基づいて文書データ管理手段70にアクセスし、複数文書で構成される文書集合を特定する。なお、文書集合特定条件は、予め備えられた入力手段(例えば、キーボード装置)によって、入力されても良い。
類似性評価部20は、話題(あるいは、話題語)に関して文書集合内の各文書間の類似度を評価する。例えば、文書間の類似度は、各文書を単語ベクトルで評価しコサイン類似度を利用する方法(例えば、非特許文献1参照)や、一方の文書に基づいて言語モデルを構築し、他方の文書がその言語モデルからどの程度の確率で生成されるかという言語モデルに基づく評価を行う方法が考えられる。
関係抽出部30は、前記類似性評価部20で評価した文書間の類似度に基づいて、文書間に関係があるか否かの関係性を特定する。例えば、文書間の関係を行列Aと表現した場合、以下の式のように定義することが考えられる。
Figure 2008059442
ここで、TopSimp(i)は文書iとの類似度が高い文書p件に含まれる文書の集合を示す。一般に全ての類似度を利用した場合には、低い類似度がノイズとなる傾向があるため、類似度が高い文書間に対してのみリンクを設定している。sim(i,j)は、文書をlog tf−idf重み(例えば、非特許文献4)による単語ベクトルとして表現した場合の文書iと文書jのコサイン類似度を示している。なお、log tf−idf重みは、個々の文書をベクトルで表現するときの個々の要素の重みである。
さらに、上記のように全ての類似度を利用した場合には、他のリンクと比較して明らかに重みが小さいリンクが存在している。そこで、アウトリンクのうちごく少ない確率でしか遷移しないリンクを除去する事が考えられる。この操作は以下の式で示される。
Figure 2008059442
ここで、li,qはノードiからのアウトリンクを遷移確率の降順に並べ、閾値qを越えるまで加算した遷移確率の合計値を示す。TopLinkq(i)は、加算対象になったリンクのリンク先ノードの集合を示す。
中心性判定部40は、関係抽出部30で得られた文書間の関係を、文書をノードと見做して文書間の関係を重み(即ち、文書間の類似度)つきのエッジとするグラフ構造と見做し、各ノード(文書)の中心性を算出する。なお、前述の中心性は、単純なリンク本数を計算する方法やPageRank(非特許文献2参照)等を利用することが考えられる。
グラフ構造構築部51は、中心性判定部40で得られる、各文書間の関係と、各文書の中心性のスコアに基づいて、文書間の関係を示すグラフ構造を二次元平面(例えば、xy平面)上に配置し、個々の文書の中心性のスコアを三次元目(例えば、z軸)に割り当てた三次元のグラフ構造を構築する。図2は、この三次元のグラフ構造の概念図である。なお、この図2に関しては、後で説明する。
頂点ノード抽出部52は、グラフ構造構築部51で構築されたグラフ構造から、ノードとノードを繋ぐ辺(即ち、エッジ)で連結している自身以外のノード(文書と一対一で対応)より高い中心性を持つノードを頂点として抽出する。
山状ノード群特定部53は、頂点ノード抽出部52で抽出された頂点ノードから、中心性が低くなる方向にグラフ構造をたどり、ノードで構成される山を特定する。即ち、山状ノード群特定部53までの処理によって、文書がクラスタ化されることになる。
ラベル付け部54は、頂点ノード抽出部52で抽出した頂点ノード,山状ノード群特定部53で特定した頂点を中心とする山状のノード群,それらの間の関係に対して、ラベル付けを行う。
ここで、グラフ構造と中心性について説明する。中心性スコアの定義によれば、多くのエッジが存在するエリアのノードは高いスコアを有する。グラフ構造に基づき、ある人がノードを渡り歩くモデル(ユーザがグラフに沿ってノードを閲覧するモデル)を考えた場合、そのような中心性の高いエリアでは、エリア内での遷移が多く、ノード間の関連性も高い。つまり、そのエリアは同じ話題に関連するノードで構成される。したがって、図2のそれぞれの山は、それぞれ異なる話題に対応すると考えられる。
また、図2中の山に含まれるノードの位置に応じて、文書にはそれぞれ特徴があると考えられる。以下では、それぞれのノードに該当する文書の特徴を説明する。さらに、それぞれの特徴を持つノード毎に、文書集合における役割の特定方法を説明する。
図2における最初の段階のノードは、山の頂上にあるノード(例えば、符号a1やb1で示されるノードに該当)であり、1つの山には1つのノードが存在するのみである。これらのノードは、周囲のノードから最も高い状態遷移があるノードであり、周囲のノードと最もよく関係するノードであるため、話題を最もよく表現する文書であると言える。つまり、頂点ノードが示す文書は、そのエリアの話題を特定する。以後、このエリアの話題を特定する文書(ノード)のラベルをコア文書(または、コアノード)とする。
第2段階目のノードは、頂点と近接したノード(例えば、図2中の符号a2,a3,a4やb2,b3で示されるノード)である。これらのノードはコアノードから直接もしくは間接的に双方向リンクのみをたどって到達できるノードである。双方向リンクは、相互にリンクが張られており、高い関連性を示す。これらのノードはコアノードとの間で多くの状態遷移があり、文書の内容もコア文書との高い関連性を有する。以後、このコア文書との高い関連性を有する文書(ノード)のラベルをサプリメンタル文書(または、サプリメンタルノード)とする。
第3段階目のノードは、例えば、図2中の符号a5,a6,a7,b4で示されるノードのように、コアノードもしくはサプリメンタルノードにリンクしているノードである。外部のノードへの状態遷移や自己遷移と比べて、特定の話題のコアノードやサプリメンタルノードへの遷移確率が高いノードである。これらのノード必ずしも話題の中心ではないが話題に関連する情報を含んでおり、話題の周辺の情報等ノベルティの高い情報を含む事が多いノードである。以後、この話題の周辺の情報等ノベルティの高い情報を含む事が多い文書(ノード)のラベルをサブトピック文書(またはサブトピックノード)とする。
最終段階目のノードは、どの話題のノードに対しても強い関連性がないノードである。例えば、図2中の符号c1で示されるノードである。このノードは、他に似ているノードが少なく、自己遷移確率が高い。以後、この他に似ているノードが少なく、自己遷移確率が高い文書(ノード)のラベルをアウトライヤー文書(アウトライヤーノード)とする。このアウトライヤー文書の存在を許容することによって、その他文書が無理にいづれかのクラスタに属しノイズの原因となることを防ぐことになる。
以上のような方法に基づいて、それぞれのノードに対し以下のようにラベル付けを行う。
まず、各ノードに対しては、各ノードがどのような話題に関連する文書なのか、その話題を表現する場合にどの程度の役割を持つ文書であるのか、という情報をラベル(即ち、コアノード)として付与する。
次に、山状のノード群に対しては、頂点ノードが表現する話題に関連する文書のクラスタとしてのラベル(即ち、サプリメンタルノード)を付与する。
そして、山状ノード群の組合せについては、それらの連結状態から、二つの山が表現する話題の関連性の高さに付いてラベル付け(即ち、サブトピックノードまたはアウトライヤーノード)を行う。
情報出力部60は、情報分析部50によって得られた、ノード間の関係,個々のノードの中心性及び文書集合中での役割を利用して、ユーザに対して文書集合の内容を表示(可視化)する。可視化は、例えば、ディスプレイ装置で行う。
三次元イメージを利用した可視化(例えば、3D(Dimension)マップ)の一例として、図3が挙げられる。図3は、新聞記事に対して、「地震」という検索キーワード(即ち、話題語)を利用して得られた検索結果の文書集合を可視化したものである。図3中の符号CNで示されるノードがコアノードである。
この図3では、山状の部分が見られるが、個々の山が個々の話題を示しており、個々の山に属するノードに該当する文書がそれぞれの話題に関する文書群である。
また、図4には図3の一部を拡大したイメージを示す。この拡大イメージ上では、二つの山がサプリメンタルノード(例えば、符号SNで示されるノード)によって連結している事がわかる。これは、二つの山の関連性が高いことを示している。実際に、この二つの山は、日本で発生した地震について触れており、提案手法により、話題間の関連性を発見する事が可能であることも示している。
例えば、図4中の一つの山状の構造は、一つの話題「阪神大震災」や「関東大震災」を表している。その山の中で中心的な部分は、実際に発生したイベントの主要な内容(例えば、地震が発生したこと)、それ以外では、主要な話題に付随する情報(例えば、地震後の火事、復興支援のニュースなど)に該当するノードである。
文書データ管理手段70は、ユーザが指定した検索キーワードや文書の最終更新日等の条件に応じて文書集合を特定できる検索機能を持った文書データ格納装置(例えば、ハードディスク装置やメモリを含む装置)である。この文書データ管理手段70は、web等からあらかじめ情報を収集してきて構築する事が考えられる。また、web上に存在する検索エンジン(非特許文献3参照)をそのまま文書データ管理手段70として利用することも考えられる。
本実施形態における文書集合分析方法を図5に基づいて説明する。
まず、ユーザから指定、もしくは、予め決められた文書集合特定条件を入力手段から読み込む(S101)。なお、入力手段は、例えば、キーボード装置などが想定できる。
次に、文書集合特定部10が、前記文書集合特定条件に合致した文書の集合を特定する(S102)。
次に、類似性評価部20が、文書集合特定部10で特定した文書群中の各文書ペア間の類似度を算出する(S103)。
次に、関係抽出部30は、算出された類似度に基づいて関連性の強いペアを抽出し、重み付きで関連性を特定する(S104)。
次に、中心性判定部40は、類似性評価部20及び関係抽出部30によって特定された情報に基づいて、指標(例えば、PageRankなど)を作成し、各ノードの中心性を特定する(S105)。
次に、グラフ構造構築部51は、類似性評価部20,関係抽出部30,中心性判定部40から得られた情報に基づいて、三次元空間状にノード(文書と一対一対応)を配置したグラフ構造を構築する(S106)。
次に、頂点ノード抽出部52は、グラフ構造構築部51で得られたグラフ構造に基づいて、頂点ノードを抽出する(S107)。
次に、山状ノード群特定部53は、グラフ構造構築部51で得られたグラフ構造と頂点ノード抽出部52で得られた頂点から山状のノード群を抽出する(S108)。
次に、ラベル付け部54は、グラフ構造構築部51,頂点ノード抽出部52,山状ノード群特定部53で得られた情報に基づいてノード,山状のノード群,ノード群の関係に対してラベル付けを行う(S109)。
そして、ラベル付けされノード,山状のノード群,ノード群の関係をリストや3Dマップとして可視化する(S110)。
以上のように、本実施形態によれば、文書集合特定条件によって与えられる文書集合から、各文書間の類似度を特定し、その類似度に基づいて文書間に強い繋がりを有する部分を重み付きで特定し、この情報に基づいて文書間の繋がりをグラフ構造に見立てて各文書の中心性を算出し、以上で得た文書間の関係と各文書の中心性の値から文書群を三次元に配置されるグラフ構造と見立てて、その位置関係から各文書の位置付けを特定することによって、文書集合中に含まれる「主要な話題の特定」、「話題に関連する文書の特定」、「各話題に関連する文書のうち、各文書の役割」、「話題間の関係」等を取得できる。
さらに詳述すると、本実施形態では、ユーザからの要求に基づき特定した文書集合を元に、各文書間の相互の類似度を評価し、類似度に基づき文書間の関連性を特定する。この関連性に基づき、各文書の中心性を評価する。この文書間の関連性と、個々の文書の中心性をともに用いる事で、文書集合中の特定の話題の検出や、特定の話題に属する文書のクラスタ化、クラスタ内の各文書の位置付けの明確化を実現する。
また、文書間の関連性と各文書の中心性の値に基づき、文書集合を三次元のグラフ構造と見做し、その中の頂点や、山状のノード群を特定することで、文書集合中の特定の話題の検出や、特定の話題に属する文書のクラスタ化、クラスタ内の各文書の位置付けの明確化を実現する。
なお、本実施形態の文書集合分析装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の文書集合分析方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)、DVD(Digital Versatile Disk)、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
さらに、上述の文書集合分析装置に関する方法を記述したコンピュータプログラムを、文書集合分析装置に関する方法に必要とされる入出力データを格納したメモリや外部記憶装置等にアクセスするように実装してもよい。
以上、本発明の実施形態について説明したが、本発明は説明した実施形態に限定されるものでなく、各請求項に記載した範囲において各種の変形を行うことが可能である。
例えば、本実施形態における情報分析部は、グラフ構造構築部からラベル付け部のような手段で構成されているが、これらの手段に限らず、文書群と文書間の関連をグラフ構造と見做す他の処理手段も考えられる。より具体的には、ラベル付け部において、ラベル付けを更に細かく(例えば、5段階以上)して役割の特定を行っても良い。
本実施形態における文書集合分析装置の構成図。 本実施形態における三次元構造概念図。 本実施形態における可視化結果の一例を示す図。 本実施形態における可視化結果の一例の拡大図。 本実施形態における文書集合分析方法を示すフローチャート。
符号の説明
10…文書集合特定部
20…類似性評価部
30…関係抽出部
40…中心性判定部
50…情報分析部
51…グラフ構造構築部
52…頂点ノード抽出部
53…山状ノード群特定部
54…ラベル付け部
60…情報出力部
70…文書データ管理手段
a1,a2,a3,a4,a5,a6,a7,a8,b1,b2,b3,b4,c1…ノード
CN,CN1,CN2…コアノード
SN…サプリメンタルノード

Claims (6)

  1. 文書データ管理手段によって管理される文書集合内の文書間の関連性に基づいて、文書の役割を特定する文書集合分析装置であって、
    入力手段から入力された文書集合特定条件に基づいて前記文書集合を特定する文書集合特定手段と、
    前記特定された文書集合に含まれる各文書間で話題語に関する類似度を評価する類似性評価手段と、
    前記類似性評価手段によって評価された類似度に基づいて、文書間の関係性を抽出する関係抽出手段と、
    前記関係抽出手段によって抽出された文書間の関係性に基づき、文書と該文書以外の文書間の関連性の高さを示す指標として、該文書の中心性を算出する中心性判定手段と、
    前記関係抽出手段によって得られた文書間の関係性と、中心性判定手段によって得られた個々の文書の中心性に基づいて、文書集合全体から文書集合中に含まれる話題語,話題語に関連する文書集合,その文書集合中における文書の役割を特定する情報分析手段と、
    前記特定された文書集合全体から文書集合中に含まれる話題語,話題語に関連する文書集合,その文書集合中における文書の役割に基づいて文書集合を可視化して出力する情報出力手段と、
    を備えることを特徴とする文書集合分析装置。
  2. 請求項1記載の文書集合分析装置であって、
    前記情報分析手段が、
    前記文書間の関連性と、各文書の中心性に基づいて、文書間の関連性を二次元座標で表現し、その二次元座標に対する三次元目の座標で中心性を表現し、前記文書集合を三次元のグラフ構造で表現するグラフ構造構築手段と、
    前記得られたグラフ構造から、エッジで連結している自身以外のノードより高い中心性を持つノードを頂点として抽出する頂点ノード抽出手段と、
    前記得られた頂点ノードから、中心性が低くなる方向にグラフ構造をたどり、ノードで構成される山を特定する山状ノード群特定手段と、
    前記特定される頂点ノード及び山状ノードに基づいて、ノードに対し役割を示すラベルを付与するラベル付け手段と、
    を備えることを特徴とする文書集合分析装置。
  3. 文書データ管理手段によって管理される文書集合内の文書間の関連性に基づいて、文書の役割を特定する文書集合分析方法であって、
    入力手段から入力された文書集合特定条件に基づいて前記文書集合を特定する文書集合特定ステップと、
    前記特定された文書集合に含まれる各文書間で話題語に関する類似度を評価する類似性評価ステップと、
    前記類似性評価ステップによって評価された類似度に基づいて、文書間の関係性を抽出する関係抽出ステップと、
    前記関係抽出ステップによって抽出された文書間の関係性に基づき、文書と該文書以外の文書間の関連性の高さを示す指標として、該文書の中心性を算出する中心性判定ステップと、
    前記関係抽出ステップによって得られた文書間の関係性と、中心性判定手段によって得られた個々の文書の中心性に基づいて、文書集合全体から文書集合中に含まれる話題語,話題語に関連する文書集合,その文書集合中における文書の役割を特定する情報分析ステップと、
    前記特定された文書集合全体から文書集合中に含まれる話題語,話題語に関連する文書集合,その文書集合中における文書の役割に基づいて文書集合を可視化して出力する情報出力ステップと、
    を有することを特徴とする文書集合分析方法。
  4. 請求項3記載の文書集合分析方法であって、
    前記情報分析ステップが、
    前記文書間の関連性と、各文書の中心性に基づいて、文書間の関連性を二次元座標で表現し、その二次元座標に対する三次元目の座標で中心性を表現し、前記文書集合を三次元のグラフ構造で表現するグラフ構造構築ステップと、
    前記得られたグラフ構造から、エッジで連結している自身以外のノードより高い中心性を持つノードを頂点として抽出する頂点ノード抽出ステップと、
    前記得られた頂点ノードから、中心性が低くなる方向にグラフ構造をたどり、ノードで構成される山を特定する山状ノード群特定ステップと、
    前記特定される頂点ノード及び山状ノードに基づいて、ノードに対し役割を示すラベルを付与するラベル付けステップと、
    を有することを特徴とする文書集合分析方法。
  5. 請求項3または4に記載の文書集合分析方法を、コンピュータで実行可能なコンピュータプログラムとして記述したことを特徴とする文書集合分析プログラム。
  6. 請求項3または4に記載の文書集合分析方法を、コンピュータで実行可能なコンピュータプログラムとして記述し、そのコンピュータプログラムを記録したことを特徴とする記録媒体。
JP2006237663A 2006-09-01 2006-09-01 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 Expired - Fee Related JP4769151B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006237663A JP4769151B2 (ja) 2006-09-01 2006-09-01 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006237663A JP4769151B2 (ja) 2006-09-01 2006-09-01 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体

Publications (2)

Publication Number Publication Date
JP2008059442A true JP2008059442A (ja) 2008-03-13
JP4769151B2 JP4769151B2 (ja) 2011-09-07

Family

ID=39242070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006237663A Expired - Fee Related JP4769151B2 (ja) 2006-09-01 2006-09-01 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体

Country Status (1)

Country Link
JP (1) JP4769151B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288989A (ja) * 2008-05-28 2009-12-10 Nippon Telegr & Teleph Corp <Ntt> ネットワーク可視化装置、ネットワーク可視化方法、プログラムおよび記録媒体
JP2010044617A (ja) * 2008-08-13 2010-02-25 Fuji Xerox Co Ltd 表示情報生成装置、及びプログラム
JP2010211793A (ja) * 2009-02-26 2010-09-24 Fujitsu Ltd 自動オントロジーのためのドメインコーパス及び辞書の生成
JP2011003156A (ja) * 2009-06-22 2011-01-06 Nec Corp データ分類装置、データ分類方法及びデータ分類プログラム
JP2015162246A (ja) * 2014-02-26 2015-09-07 パロ・アルト・リサーチ・センター・インコーポレーテッドPalo Alto Research Center Incorporated グラフクラスタリングのための効率的なリンク管理
JP2015170062A (ja) * 2014-03-06 2015-09-28 日本電信電話株式会社 文書集合分析装置、文書集合分析方法、文書集合分析プログラム
JP2018055310A (ja) * 2016-09-28 2018-04-05 トヨタテクニカルディベロップメント株式会社 情報処理装置、文書分類方法、文書分類プログラム
WO2020235468A1 (ja) * 2019-05-17 2020-11-26 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153387A (ja) * 1997-08-06 1999-02-26 Ibm Japan Ltd 文書の関連付け方法及びそのシステム
JP2002230012A (ja) * 2000-12-01 2002-08-16 Sumitomo Electric Ind Ltd ドキュメントクラスタリング装置
JP2003345811A (ja) * 2002-05-27 2003-12-05 Hitachi Ltd 文書情報表示システム、文書情報表示方法及び文書検索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153387A (ja) * 1997-08-06 1999-02-26 Ibm Japan Ltd 文書の関連付け方法及びそのシステム
JP2002230012A (ja) * 2000-12-01 2002-08-16 Sumitomo Electric Ind Ltd ドキュメントクラスタリング装置
JP2003345811A (ja) * 2002-05-27 2003-12-05 Hitachi Ltd 文書情報表示システム、文書情報表示方法及び文書検索方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288989A (ja) * 2008-05-28 2009-12-10 Nippon Telegr & Teleph Corp <Ntt> ネットワーク可視化装置、ネットワーク可視化方法、プログラムおよび記録媒体
JP2010044617A (ja) * 2008-08-13 2010-02-25 Fuji Xerox Co Ltd 表示情報生成装置、及びプログラム
JP2010211793A (ja) * 2009-02-26 2010-09-24 Fujitsu Ltd 自動オントロジーのためのドメインコーパス及び辞書の生成
JP2011003156A (ja) * 2009-06-22 2011-01-06 Nec Corp データ分類装置、データ分類方法及びデータ分類プログラム
JP2015162246A (ja) * 2014-02-26 2015-09-07 パロ・アルト・リサーチ・センター・インコーポレーテッドPalo Alto Research Center Incorporated グラフクラスタリングのための効率的なリンク管理
JP2015170062A (ja) * 2014-03-06 2015-09-28 日本電信電話株式会社 文書集合分析装置、文書集合分析方法、文書集合分析プログラム
JP2018055310A (ja) * 2016-09-28 2018-04-05 トヨタテクニカルディベロップメント株式会社 情報処理装置、文書分類方法、文書分類プログラム
WO2020235468A1 (ja) * 2019-05-17 2020-11-26 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
JP6852941B1 (ja) * 2019-05-17 2021-03-31 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
TWI733453B (zh) * 2019-05-17 2021-07-11 日商愛酷賽股份有限公司 集群分析方法、集群分析系統、及集群分析程式
US11636144B2 (en) 2019-05-17 2023-04-25 Aixs, Inc. Cluster analysis method, cluster analysis system, and cluster analysis program
TWI806069B (zh) * 2019-05-17 2023-06-21 日商愛酷賽股份有限公司 集群分析方法、集群分析系統、及集群分析程式
JP7490241B2 (ja) 2019-05-17 2024-05-27 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Also Published As

Publication number Publication date
JP4769151B2 (ja) 2011-09-07

Similar Documents

Publication Publication Date Title
Nunez‐Mir et al. Automated content analysis: addressing the big literature challenge in ecology and evolution
Carpineto et al. Exploiting the potential of concept lattices for information retrieval with CREDO.
Chakrabarti et al. A graph-theoretic approach to webpage segmentation
US9183436B2 (en) Matching text to images
Crescenzi et al. Clustering web pages based on their structure
JP4769151B2 (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
US20090327259A1 (en) Automatic concept clustering
KR100859918B1 (ko) 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치
JP2008210024A (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JP2011154668A (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
Joshi et al. Web document text and images extraction using DOM analysis and natural language processing
KR101543680B1 (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
JP2007164633A (ja) コンテンツ検索方法及び装置及びプログラム
Wei et al. DF-Miner: Domain-specific facet mining by leveraging the hyperlink structure of Wikipedia
Feng et al. Web page segmentation and its application for web information crawling
JP2004240887A (ja) 検索情報表示システム及び検索キーワード情報表示方法及び検索キーワード情報表示プログラム
CN109213830B (zh) 专业性技术文档的文档检索系统
JP2014102625A (ja) 情報検索システム、プログラム、および方法
Moumtzidou et al. Discovery of environmental nodes in the web
Murata Visualizing the structure of web communities based on data acquired from a search engine
JP5368900B2 (ja) 情報提示装置、情報提示方法およびプログラム
Yang et al. Web site topic‐hierarchy generation based on link structure
Rana et al. Analysis of web mining technology and their impact on semantic web
Kim et al. Formulating representative features with respect to genre classification
Lindholm Extracting content from online news sites

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080908

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090609

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110614

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110617

R150 Certificate of patent or registration of utility model

Ref document number: 4769151

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees