JP6145064B2

JP6145064B2 - 文書集合分析装置、文書集合分析方法、文書集合分析プログラム

Info

Publication number: JP6145064B2
Application number: JP2014043387A
Authority: JP
Inventors: 浩之戸田; 鷲崎　誠司; 誠司鷲崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-03-06
Filing date: 2014-03-06
Publication date: 2017-06-07
Anticipated expiration: 2034-03-06
Also published as: JP2015170062A

Description

本発明は、コンピュータ内部に存在もしくはコンピュータネットワークを介してアクセス可能な大量の電子文書（以下、文書とする。）の集合を分析する技術に関する。

現在、Ｗｅｂページやブログ記事やニュース記事などのテキストを含む大量の文書が存在する。この大量文書に対してコンピュータのユーザは、「文書集合に存在する主要な話題が知りたい。」あるいは「文書集合中の話題に関連する文書群にアクセスしたい。」という要求を持つ場合がある。

これを実現する方法として非特許文献１の方法と特許文献１の方法とが公知となっている。非特許文献１では文書をクラスタリングして分析を実施する方法が提案され、それぞれの文書を単語ベクトルで表現し、ベクトル間の類似度（コサイン類似度など）を利用して、類似したベクトルを統合することで、類似した話題に関する文書をクラスタとして特定し、個々のクラスタを特定の話題に関連する情報の集合とみなしている。

特許文献１では文書中の話題を分析する方法が提案され、文書間の類似性を元に文書集合の関係をグラフ構造で表現し、そのグラフ構造中での関係の集中度合に着目し、文書集合中の主要な話題を構成する文書群を特定する。この分析方法を利用することで、単に主要な話題を特定し、それに関連する文書を集めるだけでなく、話題の中心的な内容を示す文書や、話題に関連するが独特の内容を含む文書等を分けて特定することが可能となる。

特開２００８−０５９４４２

D. Cutting, D. Karger, J. Pedersen, and J. Tukry, ``Scatter/Gather: a cluster-based approach to browsing large document collections,'' Proc. of SIGIR’92, (1992) H. Tong and C. Faloutsos: "Center-piece subgraphs: problem de≡nition and fast solutions", Proc. of KDD’06, (2006) Haveliwala, T. H.: Topic-sensitive PageRank, Proc. of WWW ’02, (2002) Konstas, I., Stathopoulos, V. and Jose, J. M.: On social networks and collaborative recommendation, Proc. of SIGIR '09, (2009) Takeshi Yamada,Kazumi Saito, and Naonori Ueda. "Cross-Entropy Directed Embedding of Network Data," Proc. of the 20th International Conference on Machine Learning (ICML2003), pp.832--839, 2003.

しかしながら、従来の技術（非特許文献１，特許文献１など）には以下の問題があった。

（１）すなわち、非特許文献１などの文書クラスタリングの方法の多くは、全ての文書はいずれかのクラスタに属する事が前提となっている。特にソーシャルメディアの分析を考えた場合は他の文書との関係があまりない文書、即ちいわゆる「その他」に属する文書が多く存在する。したがって、必ずしも適切なクラスタリングができず、話題を特定しようとしても、多くのノイズにまぎれて本当に意味のある情報の取得ができないおそれがある。

（２）その一方で、特許文献１などのグラフ構造を利用して文書間の関係の集中度合いを分析しようとする方法によれば、前述の「その他」文書の影響は省くことができる。また、単に文書集合をクラスタに分割するだけでなく、クラスタの中でも中心的な内容の文書や関連情報を提示する文書のように各文書の位置付けを分析することも可能とする。

しかしながら、特許文献１の方法は文書間の関係のみを利用して分析を行うため、分析するユーザの観点、例えば世の中の話題を分析するにしてもニュースになった話題を中心に分析したい要求や、特定のトピックに関係する内容を中心に分析したい要求等を考慮することができないおそれがある。

（３）本発明は、上述のような従来技術の問題点を解決するためになされ、文書集合の分析にあたって、文書間の関係を考慮しつつユーザの分析の観点を加味した文書集合の分析を可能にすることを解決課題としている。

そこで、本発明は、文書集合を元に各文書間の関係性を評価し、その関係をグラフ構造で表現する。このグラフ構造で表現された文書間の関係から主要な話題の分析を実施する。その際にユーザから与えられる観点の情報を元にグラフ構造中で注目点を特定し、その注目点との関係も合わせて評価し、ユーザの観点に応じた文書集合中の話題分析を可能とする。特に文書集合を３次元のグラフ構造とみなし、特定の話題に関する文書間の関係を分析すれば、話題の中心となる文書や関連情報を与える文書等が特定可能となる。

本発明に係る文書集合分析装置は、ユーザの要求や予め定められた条件に基づき文書集合を特定する文書集合特定手段と、文書集合特定手段で特定された文書集合に含まれる各文書間の関係性を評価する関係性評価手段と、関係性評価手段によって評価された関係性と、あらかじめ決められた基準に基づき文書間の関係有無を特定する関係抽出手段と、ユーザの要求により指定された観点と関係の強い観点文書を特定する観点文書抽出手段と、関係抽出手段によって特定された文書間の関係と、観点文書抽出手段によって抽出された観点文書とを利用し、個々の文書における他の文書との関係の高さを示す指標と、個々の文書における観点文書との関係の高さを示す指標とで各文書のスコアを算出するスコア算出手段と、関係抽出手段によって得られた文書間の関係と、スコア算出手段によって得られた個々の文書のスコアを利用して、文書集合の全体から文書集合中に含まれる話題や話題に関連する文書の集合と、該集合中での個々の文書の役割を特定する情報分析手段と、関係抽出手段とスコア算出手段と情報分析手段とによって得られた情報を元に文書集合中に含められる主要な話題のリストやその話題について示す文書を出力する情報出力手段と、を備える。

本発明に係る文書集合分析方法は、ユーザの要求や予め定められた条件に基づき文書集合を特定する文書集合特定ステップと、文書集合特定ステップで特定された文書集合に含まれる各文書間の関係性を評価する関係性評価ステップと、
関係性評価ステップによって評価された関係性と、あらかじめ決められた基準に基づき文書間の関係有無を特定する関係抽出ステップと、ユーザの要求により指定された観点と関係の強い観点文書を特定する観点文書抽出ステップと、関係抽出ステップによって特定された文書間の関係と、観点文書抽出手段によって抽出された観点文書とを利用し、個々の文書における他の文書との関係の高さを示す指標と、個々の文書における観点文書との関係の高さを示す指標とで各文書のスコアを算出するスコア算出ステップと、関係抽出ステップによって得られた文書間の関係と、スコア算出手段によって得られた個々の文書のスコアを利用して、文書集合の全体から文書集合中に含まれる話題や話題に関連する文書の集合と、該集合中での個々の文書の役割を特定する情報分析ステップと、関係抽出ステップとスコア算出ステップと情報分析ステップとによって得られた情報を元に文書集合中に含められる主要な話題のリストやその話題について示す文書を出力する情報出力ステップと、を有する。

なお、本発明は、前記装置としてコンピュータを機能させる文書集合分析プログラムとしてもよい。このプログラムはネットワークや記録媒体などを通じて提供することができる。

本発明によれば、文書集合の分析にあたって文書間の関係を考慮しつつユーザの分析の観点を加味した分析が可能となる。

本発明の実施形態に係る文書集合分析装置の構成図。文書間の関係を示すグラフ構造の概念図。３次元グラフ構造の概念図。本発明の実施形態に係る文書集合分析装置の処理フロー図。

以下、本発明の実施形態に係る文書集合分析装置を説明する。この文書集合分析装置は従来の文書分類にユーザ視点（ユーザからの観点）を与える。関連が高い文書は有向グラフとして結び付き、これをランダムウォークアルゴリズムでスコアをつける。ここにユーザ視点が反映され、ユーザ視点の文書は高いスコアが付く。このスコアを縦にとれると、起伏のある３次元表示となり、ユーザに提示される。

≪装置構成例≫
図１に基づき前記文書集合分析装置の構成例を説明する。ここでは前記文書集合分析装置１は、ユーザクライアント２とネットワークを通じてデータ通信可能に接続されているものとする。このユーザクライアント２は、ユーザ所有のパーソナルコンピュータ（ＰＣ）やスマートフォンなどでよい。

具体的には前記文書集合分析装置１は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース（例えばＣＰＵ，ＲＡＭ，ＲＯＭなどの一次記憶装置，ＨＤＤやＳＳＤなどの二次記憶装置，通信デバイスなど）を備える。

このハードウェアリソースとソフトウェアリソース（ＯＳ，アプリケーションなど）との協働の結果、前記文書集合分析装置１は文書集合特定部１０，関係性評価部２０，関係抽出部３０，観点文書抽出部４０，スコア算出部５０，グラフ構造構築部６０，頂点ノード抽出部６１，山状ノード群特定部６２，ラベル付け部６３，情報出力部７０，文書ＤＢ１００を実装する。以下、各部１０〜７０の詳細を説明する。

（１）文書集合特定部１０，関係性評価部２０
文書集合特定部１０は、ユーザクライアント２を通じて入力されたユーザからの要求もしくは予め決められた基準、即ち「文書集合の条件」を元に文書ＤＢ１００にアクセスし、「文書集合の条件」に合致する複数文書で構成される文書集合を特定する。

この文書ＤＢ１００は、ユーザが指定した検索キーワードや文書の最終更新日、文書のメタデータ等の条件に応じて文書集合を特定できる検索機能を持った文書格納装置に関する。この文書ＤＢ１００は、Ｗｅｂなどから予め情報を収集してきてハードディスクドライブ装置などの記憶装置に構築してもよく、またＷｅｂ上に存在する検索エンジン（例えば「http://www.goo.ne.jp/」など）をそのまま文書ＤＢ１００として利用することもできる。

また、関係性評価部２０は、文書集合内の各文書間の関係性を評価する。文書間の関係性は、各文書を単語ベクトルで評価しコサイン類似度を利用する方法や、一方の文書を元に言語モデルを構築し、他方の文書がその言語モデルからどの程度の確率で生成されるかという言語モデルに基づき評価を行う文書間の類似度を利用する方法や、文書のタイムスタンプを利用しその時刻の近さを利用する方法などでよく、これ以外にも文書間の関係性を評価する指標を用いてその関係性を評価してもよい。

（２）関係抽出部３０
関係抽出部３０は、関係性評価部２０で評価した文書間の関係性を元に、文書間が予め決められた基準を満たす関係を有するか否かを特定する。例えば文書間の関係を行列Ａと表現した場合、式（１）のように定義することができる。

式（１）中、「ＴｏｐＲｅｌ_p（ｉ）」は文書ｉとの関連性が強い文書ｐ件に含まれる文書の集合を示している。ここでは一般に全ての関連性がある文書を利用した場合、低い関連性がノイズとなる傾向にあるため、関連性の薄い関係を無視するような操作とする。

また、式（１）中、「ｒｅｌ（ｉ，ｊ）」は文書間の関連性を評価する指標（基準）を示し、関連性が高いほど高い値を示す指標に関する。例えば文書間の内容の類似度を関連性に用いる場合は、「ｔｆ−ｉｄｆ」の重みによる単語ベクトルとして表現し、文書ｉと文書ｊとのコサイン類似度などを利用することができる。

さらに上記の場合には各ノード（後述する図２のグラフ構造における各ノード）から上位ｐ件の関連度を持つ関係を利用することを想定しているため、他の関係と比較して関連度が小さい関係が存在することが予想できる。そこで、文書ｉに関係する文書のうち、極小さい関連度を持つ関係を取り除くことが好ましい。この操作は式（２）で示される。

式（２）中、「ＴｏｐＬｉｎｋ_q（ｉ）」は、文書ｉと関係のある文書を関連度の大きさの降順に並べ、その関連度を閾値「ｑ」を越えるまで加算した場合に加算対象となる関連文書の集合を示している。

このような式（１）（２）の操作により文書間の関連性は有向グラフのグラフ構造で表され、文書のペアを考えた場合に一方の文書からは類似しているものの、他方の文書からは相対的に類似していないという状態も表現することが可能である。

（３）観点文書抽出部４０
観点文書抽出部４０は、ユーザクライアント２を通じて入力されたユーザからの観点を元に文書集合特定部１０の特定した文書集合の中から観点文書を抽出する。例えば、ユーザから与えられた「分析の観点」が「ニュースになった話題を中心に分析したい」というものであれば、文書のタイプがニュース記事であるものを観点文書として抽出する。

また、ユーザから与えられた観点が「特定のトピックに関係する内容を中心に分析したい」というものであり、特定のトピックを表すキーワードが与えられた場合には、当該キーワードを含む文書もしくは、そのキーワードとの関連性が強い記事を観点文書として抽出する。

（４）スコア算出部５０
スコア算出部５０は、関係抽出部３０にて得られた文書間の関係を、文書をノードとみなして文書間の関係を重み付きのエッジとする図２のグラフ構造とみなし、さらに観点文書抽出部４０で得られた観点文書をユーザの注目点とみなし、文書群内の文書相互の関連性および観点文書との関連性を考慮したスコアを計算する。なお、前記グラフ構造ではユーザの観点、即ち観点文書は観点ノードとして表現されている。例えば図２のグラフ構造ではノードａ１，ａ２のようにノードの一部が観点ノードとして扱われる。

具体的なスコア算出に際しては、非特許文献２〜４の「グラフ構造の特定のノードにバイアスを与えるリスタート付きランダムウォークアルゴリズム」を利用することができる。これを利用してスコアを計算する際には、関係抽出部３０で得た文書間の関係を元に文書をノードとし、文書間の関係をエッジとするグラフ構造における遷移確率を表現するマトリックスを式（３）で算出する。

この式（３）を利用して式（４）により各ノードの滞在確率を求め、各ノード（各文書）のスコアとする。

式（４）中、「Ｐ」は各ノードのスコアを表現するベクトルを示している。「ｑ」は観点文書抽出部４０で特定した観点文書に対応する要素に「１」、それ以外の要素を「０」としたベクトルを示している。「α」は観点文書の影響を軽減するパラメータを示している。

（５）グラフ構造構築部６０
グラフ構造構築部６０では、関係抽出部３０から得た文書間の関連性と、スコア算出部５０から得た各文書に該当するノードのスコアとを元に図３に示す３次元のグラフ構造を構築する。

その際、まず関係抽出部３０から得た文書間の関係性を元に二次元平面状の各文書をあらわすノードの配置を決定する。これを実現するためにノード間の類似度が配置の関係として反映できる非特許文献５の手法を利用する。また、三次元目の高さについてはスコア算出部５０で計算したスコアを元に高さ方向の座標を決定するものとする。

（６）頂点ノード抽出部６１
頂点ノード抽出部６１では、グラフ構造構築部６０で構築された３次元のグラフ構造から、ノードとノードとを繋ぐ辺（エッジ）で連結している自身以外のノード(文書と一対一で対応)より高いスコアを持つノードを頂点として抽出する。

（７）山状ノード群特定部６２
山状ノード群特定部６２では、頂点ノード抽出部６１で抽出された頂点ノードから、スコアが低くなる方向にグラフ構造をたどってノードで構成される山（山型）を特定する。これにより頂点ノードを中心に前記山を構成する山状のノード群が特定される。なお、ノード抽出の詳細はラベル付け部６３にて説明する．
（８）ラベル付け部６３
ラベル付け部６３では、前記各部６１，６２で抽出した頂点ノードや山状のノード群、それらノード間の関係について三種類のラベル付けをおこなう。このラベル付けの前にグラフ構造とスコアについて考察すると、スコア算出部５０で示したスコアの定義によれば、観点ノードとの関係が強く、多くのエッジが存在するエリアのノードは高いスコアを持つ。

グラフ構造に基づき、ある人がノードを渡り歩くモデルを考えた場合、そのようなスコアの高いエリアでは、エリア内での遷移が多く、ノード間の関連性も高い。したがって、前記エリアは同じ話題に関連するノードで構成され、図３のそれぞれの山は、それぞれ異なる話題に対応すると考えられる。また、この山に含まれるノードの位置に応じて、文書にはそれぞれ特徴があると考えられる。以下では、それぞれのノードに該当する文書の特徴を説明する。また、それぞれの特徴を持つノード毎に文書集合中での役割の特定方法を説明する。

＜ノードの役割，文書特徴＞
（Ａ）最初に特定されるノードは、図３中で山の頂上にある頂点ノード、即ちノードｂ１，ｂ２であり、山の頂上には必ず１つのノードが存在する。このノードｂ１，ｂ２は観点ノードａ１，ａ２から近く、周囲のノードから最も高い状態遷移があるノードであり、周囲のノードと最もよく関係するノードであることから、話題を最もよく表現する文書であるといえる。

すなわち、ノードｂ１，ｂ２が示す文書は、そのエリアの話題を特定するものであり、観点ノードａ１，ａ２にも近いことから、ユーザが分析したい観点に関連する話題を最もよく示す文書と言える。このノードｂ１，ｂ２のようなノードをコアノードと呼び、コアノードが示す文書をコア文書と呼ぶ。

（Ｂ）２番目に特定されるノードは、山頂と近接したノード、即ち山頂から直接たどって到達可能なノードである。例えば図３の山を構成するノードでありながら山頂でないノードｃ１，ｃ２は、上記の山頂を占めるコアノードｂ１，ｂ２から直接たどって到達できる。このノードｃ１，ｃ２は、コアノードｂ１，ｂ２との間で多くの遷移があり、文書の内容もコアノードｂ１，ｂ２と高い関連性がある。これらのノードｃ１，ｃ２のようなノードをサプリメンタルノードと呼び、サプリメンタルノードの示す文書をサプリメンタル文書と呼ぶ。

ここではコアノードから双方向グラフで連結しているノード群およびそれらのノードに対して，遷移確率が十分高い（例えば０．５以上）ノードをサプリメンタルノードと定義するものとする。

（Ｃ）３番目に特定されるノードは、図３のノードｄ１〜ｄ５のようにコアノードｂ１，ｂ２もしくはサプリメンタルノードｃ１，ｃ２にリンクしているノードである。この種のノードは、外部のノードへの状態遷移や自己遷移と比べて、特定の話題のコアノードやサプリメンタルノードへの遷移確率が高いノードに該当し、必ずしも話題の中心ではないが話題に関連する情報を含んでおり、話題の周辺の情報等ノベルティの高い情報を含むことが多いノードである。このノードｄ１〜ｄ５のようなノードをサブトピックノードと呼び、サブトピックノードの示す文書をサブトピック文書と呼ぶ。

（Ｄ）最後に特定されるノードは、どの話題のノードに対しても強い関連性がないノード、即ち山を構成しないノード若しくは一定以上のスコアを有しないノードである。これらのノードは、他の文書との関連性が薄く若しくは観点ノードから遠く離れているノードである。このノードをアウトライヤーノードと呼び、アウトライヤーノードの示す文書をアウトライヤー文書と呼ぶ。

＜ラベル付け＞
以上の分析を下に行う三種類のラベル付けについて説明する。

（Ａ）まず、第一のラベルは，グラフ構造中でのノードの位置付けに基づくラベルである。これは個々のノードに対して付与されるものであり、そのラベルは前述の通り「コアノード」，「サプリメンタルノード」，「サブトピックノード」，「アウトライヤーノード」である。

（Ｂ）第二のラベルは前述のラベルで付与されたノードから構成される３次元グラフ構造中の個々の山に対して付与するものである。一つの山は一つのコアノードと、1つ以上のサプリメンタルノードおよびサブトピックノードから構成される。この一つの山として表現されるノード群はひとつのトピックについて示された文書の集合である。

そこで、個々の山に対して、その山を構成する文書で述べられているトピックを表現するのが第二のラベルである。具体的にはコアノードに対応する文書のタイトル自体を山のラベルとする方法が考えられる。

（Ｃ）第三のラベルは山と山の関係に対して付与するラベルである。まずは山同士で関係を有するか否かを示すラベルであり、それは山と山の関係を元に分析して付与される。山と山がいずれかのサブトピックノードやサプリメンタルノードを介してつながる場合には互いの山が示すトピック間のつながりを肯定することができる。また、この場合その接続点の文書を分析することで、どのようなつながりを有するのかを示すラベルを抽出することができる。

（９）情報出力部７０
情報出力部７０では、前記各部３０，５０，６３によって得られた「ノード間の関係」、「個々のノードのスコア」、「文書集合中での役割」を利用して文書集合の中の話題および該話題に関連する文書の情報を出力する。ここで出力された情報はネットワーク経由でユーザクライアント２の画面に表示され、ユーザに分析結果として提示される。

このときグラフ構造構築部６０で構築した３次元グラフ構造を直接用いてもよく、該３次元グラフから得た情報を表形式などで提示してもよい。ここで３次元グラフ構造を提示することで文書集合に含まれ、かつユーザが与えた観点に関係する文書間にどのような関係があるかを提示することができる。

例えば３次元グラフ構造で複数の山が観測される場合は、複数の話題群が存在することを示しており、視覚的に把握することが可能となる。また、山と山との関係は、その山と山をつなぐ構造中の文書で表現されており、それらの文書を分析することで関係の深さや関係が深い場合のそのつながりを発見することができる。

また，３次元グラフ構造から得られた情報を表形式などで提示する場合の典型的な情報としては文書集合に含まれ，かつユーザが与えた観点に関係する文書がどのようなクラスタに分かれるかを提示すること、または個々のクラスタの内容がどのような内容であるのかを提示するものとなる。

その結果、前記文書集合分析装置１によれば、文書集合をグラフ構造で表現し、（１）文書間の関係，（２）ユーザが指定する観点と各文書との関係を元に、文書集合に含まれる話題分析を行う事が可能となる。特にユーザが指定する観点を考慮しつつ、いわゆる「その他」に関する文書の影響を排除でき、話題が集中する文書集合の分析を行うことが可能となる。

≪処理プロセス≫
以下、図４に基づき前記文書集合分析装置１の処理プロセスを説明する。ここではユーザクライアント２から対象とする「文書集合の条件」および「分析の観点」をネットワーク経由で入力する場合の処理プロセスを説明する。

Ｓ０１：前記文書集合分析装置１は、通信デバイスを通じてユーザクライアント２からの「文書集合の条件」および「分析の観点」を受信し、それぞれの入力を受け付ける。ここで入力された「文書集合の条件」は文書集合特定部１０に送られる一方、「分析の観点」は観点文書抽出部４０に送られる。

Ｓ０２〜Ｓ０４：文書集合特定部１０は「文書集合の条件」を受け取ると、文書ＤＢ１００にアクセスして「文書集合の条件」に合致する文書の集合、即ち分析対象の文書群を特定する（Ｓ０２）。特定された文書群は関係性評価部２０に送られる。

この特定された文書群を受け取ると関係性評価部２０は、該文書群中の文書間の関係性を分析し、分析結果を関係抽出部３０に送る（Ｓ０３）。この分析結果を受け取ると関係抽出部３０は、受け取った文書集合における文書間の関係性と、予め決められた基準とを元に文書間の関係の有無を特定する。特定された文書間の関係は有向グラフで表され、文書集合はグラフ構造で表現される。このグラフ構造はスコア算出部５０に送られる（Ｓ０４）。

Ｓ０５：観点文書抽出部４０は「分析の観点」を受け取ると、文書ＤＢ１００にアクセスし、受け取った「分析の観点」に合致する文書を特定し、特定した文書群をスコア算出部５０に送る。

Ｓ０６：スコア算出部５０は、Ｓ０４のグラフ構造およびＳ０５の文書を受け取ると、Ｓ０４のグラフ構造を元にＳ０５の各文書に該当するノードのスコアを算出し、算出したスコアをグラフ構造構築部６０に送る（Ｓ０６）。

Ｓ０７：グラフ構造構築部６０は、Ｓ０４のグラフ構造とＳ０６で得た各ノードにスコアを元に三次元空間状にノードを配置したグラフ構造を構築し、構築したグラフ構造を頂点ノード抽出部６１に送る。

Ｓ０８〜Ｓ１０：頂点ノード抽出部６１はＳ０７のグラフ構造を受け取ると、受け取ったグラフ構造を元に頂点ノードを抽出し、グラフ構造と頂点ノードとを山状ノード群特定部６２に送る（Ｓ０８）。

このグラフ構造と頂点ノードとを受け取った山状ノード群特定部６２は、受け取ったグラフ構造と頂点から山状のノード群を抽出し、抽出したノード群をラベル付け部６３に送る（Ｓ０９）。

このノード群を受け取るとラベル付け部６３は、グラフ構造，頂点ノードや山状のノード群の情報を元に該ノード群に対してラベル付けを行い、その結果の情報を情報出力部７０に送る（Ｓ１０）。

Ｓ１１：情報出力部７０は、Ｓ０４，Ｓ０６，Ｓ１０で取得した情報を元に出力用のデータを作成し、作成したデータをユーザクライアント２にネットワーク経由で送信し、ユーザに結果を提示する。

≪その他，プログラム等≫
本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で応用・変形して実施することができる。例えば「文書集合の条件」および「分析の観点」は、前記文書集合分析装置１の入力手段（キーボード，ポインティングデバイスなど）で入力してもよい。

また、本発明は、前記文書集合分析装置１の各部１０，２０，３０，４０，５０，６０〜６３，７０，１００の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによれば、Ｓ０１〜Ｓ１１の一部あるいは全部をコンピュータに実行させることが可能となる。

前記プログラムは、Ｗｅｂサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、ＣＤ−ＲＯＭ，ＤＶＤ−ＲＯＭ，ＣＤ−Ｒ，ＣＤ−ＲＷ，ＤＶＤ−Ｒ，ＤＶＤ−ＲＷ，ＭＯ，ＨＤＤ，ＢＤ−ＲＯＭ，ＢＤ−Ｒ，ＢＤ−ＲＥなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。

１…文書集合分析装置
２…ユーザクライアント
１０…文書集合特定部（文書集合特定手段）
２０…関係性評価部（関係性評価手段）
３０…関係抽出部（関係抽出手段）
４０…観点文書抽出部（観点文書抽出手段）
５０…スコア算出部（スコア算出手段）
６０…グラフ構造構築部（グラフ構造構築手段）
６１…頂点ノード抽出部（頂点ノード抽出手段）
６２…山状ノード群特定部（山状ノード群特定手段）
６３…ラベル付け部（ラベル付け手段）
７０…情報出力部（情報出力手段）
１００…文書ＤＢ

Claims

複数の電子文書の文書集合を分析し、文書集合からの話題を特定する文書集合分析装置であって、
ユーザの要求又は予め定められた条件に基づき文書集合を特定する文書集合特定手段と、
文書集合特定手段で特定された文書集合に含まれる各文書間の関係性を評価する関係性評価手段と、
関係性評価手段によって評価された関係性と、あらかじめ決められた基準に基づき文書間の関係有無を特定する関係抽出手段と、
ユーザの要求により指定された観点と関係の強い観点文書を特定する観点文書抽出手段と、
関係抽出手段によって特定された文書間の関係と、観点文書抽出手段によって抽出された観点文書とを利用し、個々の文書における他の文書との関係の高さを示す指標と、個々の文書における観点文書との関係の高さを示す指標とで各文書のスコアを算出するスコア算出手段と、
関係抽出手段によって得られた文書間の関係と、スコア算出手段によって得られた個々の文書のスコアを利用して、文書集合の全体から文書集合中に含まれる話題又は話題に関連する文書の集合と、該集合中での個々の文書の役割を特定する情報分析手段と、
関係抽出手段とスコア算出手段と情報分析手段とによって得られた情報を元に文書集合中に含められる主要な話題のリスト又はその話題について示す文書を出力する情報出力手段と、
を備えることを特徴とする文書集合分析装置。
情報分析手段は、文書間の関係と各文書のスコアとを元に文書間の関係を２次元で表現し、３次元目に各文書のスコアを配置することで文書集合を３次元のグラフ構造で表現するグラフ構造構築手段と、
グラフ構造構築手段で表現されたグラフ構造において、エッジで連結している自身以外のノードであって文書と一対一で対応するノードよりも高いスコアを持つノードを頂点として抽出する頂点ノード抽出手段と、
頂点ノード抽出手段で抽出された頂点ノードからスコアが低くなる方向にグラフ構造をたどってノードで構成される山を特定する山状ノード群特定手段と、
頂点ノード抽出手段で抽出された頂点ノードと該頂点ノードを中心に前記山を構成する山状のノード群とからノードの示す文書、前記山を構成する文書群、該文書群間の関係にラベル付けを行うラベル付け手段と、
を備えることを特徴とする請求項１記載の文書集合分析装置。
複数の電子文書の文書集合を分析し、文書集合からの話題を特定する装置の実行する文書集合分析方法であって、
ユーザの要求又は予め定められた条件に基づき文書集合を特定する文書集合特定ステップと、
文書集合特定ステップで特定された文書集合に含まれる各文書間の関係性を評価する関係性評価ステップと、
関係性評価ステップによって評価された関係性と、あらかじめ決められた基準に基づき文書間の関係有無を特定する関係抽出ステップと、
ユーザの要求により指定された観点と関係の強い観点文書を特定する観点文書抽出ステップと、
関係抽出ステップによって特定された文書間の関係と、観点文書抽出手段によって抽出された観点文書とを利用し、個々の文書における他の文書との関係の高さを示す指標と、個々の文書における観点文書との関係の高さを示す指標とで各文書のスコアを算出するスコア算出ステップと、
関係抽出ステップによって得られた文書間の関係と、スコア算出手段によって得られた個々の文書のスコアを利用して、文書集合の全体から文書集合中に含まれる話題又は話題に関連する文書の集合と、該集合中での個々の文書の役割を特定する情報分析ステップと、
関係抽出ステップとスコア算出ステップと情報分析ステップとによって得られた情報を元に文書集合中に含められる主要な話題のリスト又はその話題について示す文書を出力する情報出力ステップと、
を有することを特徴とする文書集合分析方法。
情報分析ステップは、文書間の関係と各文書のスコアとを元に文書間の関係を２次元で表現し、３次元目に各文書のスコアを配置することで文書集合を３次元のグラフ構造で表現するグラフ構造構築ステップと、
グラフ構造構築ステップで表現されたグラフ構造において、エッジで連結している自身以外のノードであって文書と一対一で対応するノードよりも高いスコアを持つノードを頂点として抽出する頂点ノード抽出ステップと、
頂点ノード抽出ステップで抽出された頂点ノードからスコアが低くなる方向にグラフ構造をたどってノードで構成される山を特定する山状ノード群特定ステップと、
頂点ノード抽出ステップで抽出された頂点ノードと該頂点ノードを中心に前記山を構成する山状のノード群とからノードの示す文書、前記山を構成する文書群、該文書群間の関係にラベル付けを行うラベル付けステップと、
を有することを特徴とする請求項３記載の文書集合分析方法。
請求項１または２のいずれか１項に記載の文書集合分析装置としてコンピュータを機能させる文書集合分析プログラム。