JP6145064B2 - 文書集合分析装置、文書集合分析方法、文書集合分析プログラム - Google Patents

文書集合分析装置、文書集合分析方法、文書集合分析プログラム Download PDF

Info

Publication number
JP6145064B2
JP6145064B2 JP2014043387A JP2014043387A JP6145064B2 JP 6145064 B2 JP6145064 B2 JP 6145064B2 JP 2014043387 A JP2014043387 A JP 2014043387A JP 2014043387 A JP2014043387 A JP 2014043387A JP 6145064 B2 JP6145064 B2 JP 6145064B2
Authority
JP
Japan
Prior art keywords
document
relationship
documents
node
document set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014043387A
Other languages
English (en)
Other versions
JP2015170062A (ja
Inventor
浩之 戸田
浩之 戸田
鷲崎 誠司
誠司 鷲崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014043387A priority Critical patent/JP6145064B2/ja
Publication of JP2015170062A publication Critical patent/JP2015170062A/ja
Application granted granted Critical
Publication of JP6145064B2 publication Critical patent/JP6145064B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、コンピュータ内部に存在もしくはコンピュータネットワークを介してアクセス可能な大量の電子文書(以下、文書とする。)の集合を分析する技術に関する。
現在、Webページやブログ記事やニュース記事などのテキストを含む大量の文書が存在する。この大量文書に対してコンピュータのユーザは、「文書集合に存在する主要な話題が知りたい。」あるいは「文書集合中の話題に関連する文書群にアクセスしたい。」という要求を持つ場合がある。
これを実現する方法として非特許文献1の方法と特許文献1の方法とが公知となっている。非特許文献1では文書をクラスタリングして分析を実施する方法が提案され、それぞれの文書を単語ベクトルで表現し、ベクトル間の類似度(コサイン類似度など)を利用して、類似したベクトルを統合することで、類似した話題に関する文書をクラスタとして特定し、個々のクラスタを特定の話題に関連する情報の集合とみなしている。
特許文献1では文書中の話題を分析する方法が提案され、文書間の類似性を元に文書集合の関係をグラフ構造で表現し、そのグラフ構造中での関係の集中度合に着目し、文書集合中の主要な話題を構成する文書群を特定する。この分析方法を利用することで、単に主要な話題を特定し、それに関連する文書を集めるだけでなく、話題の中心的な内容を示す文書や、話題に関連するが独特の内容を含む文書等を分けて特定することが可能となる。
特開2008−059442
D. Cutting, D. Karger, J. Pedersen, and J. Tukry, ``Scatter/Gather: a cluster-based approach to browsing large document collections,'' Proc. of SIGIR’92, (1992) H. Tong and C. Faloutsos: "Center-piece subgraphs: problem de≡nition and fast solutions", Proc. of KDD’06, (2006) Haveliwala, T. H.: Topic-sensitive PageRank, Proc. of WWW ’02, (2002) Konstas, I., Stathopoulos, V. and Jose, J. M.: On social networks and collaborative recommendation, Proc. of SIGIR '09, (2009) Takeshi Yamada,Kazumi Saito, and Naonori Ueda. "Cross-Entropy Directed Embedding of Network Data," Proc. of the 20th International Conference on Machine Learning (ICML2003), pp.832--839, 2003.
しかしながら、従来の技術(非特許文献1,特許文献1など)には以下の問題があった。
(1)すなわち、非特許文献1などの文書クラスタリングの方法の多くは、全ての文書はいずれかのクラスタに属する事が前提となっている。特にソーシャルメディアの分析を考えた場合は他の文書との関係があまりない文書、即ちいわゆる「その他」に属する文書が多く存在する。したがって、必ずしも適切なクラスタリングができず、話題を特定しようとしても、多くのノイズにまぎれて本当に意味のある情報の取得ができないおそれがある。
(2)その一方で、特許文献1などのグラフ構造を利用して文書間の関係の集中度合いを分析しようとする方法によれば、前述の「その他」文書の影響は省くことができる。また、単に文書集合をクラスタに分割するだけでなく、クラスタの中でも中心的な内容の文書や関連情報を提示する文書のように各文書の位置付けを分析することも可能とする。
しかしながら、特許文献1の方法は文書間の関係のみを利用して分析を行うため、分析するユーザの観点、例えば世の中の話題を分析するにしてもニュースになった話題を中心に分析したい要求や、特定のトピックに関係する内容を中心に分析したい要求等を考慮することができないおそれがある。
(3)本発明は、上述のような従来技術の問題点を解決するためになされ、文書集合の分析にあたって、文書間の関係を考慮しつつユーザの分析の観点を加味した文書集合の分析を可能にすることを解決課題としている。
そこで、本発明は、文書集合を元に各文書間の関係性を評価し、その関係をグラフ構造で表現する。このグラフ構造で表現された文書間の関係から主要な話題の分析を実施する。その際にユーザから与えられる観点の情報を元にグラフ構造中で注目点を特定し、その注目点との関係も合わせて評価し、ユーザの観点に応じた文書集合中の話題分析を可能とする。特に文書集合を3次元のグラフ構造とみなし、特定の話題に関する文書間の関係を分析すれば、話題の中心となる文書や関連情報を与える文書等が特定可能となる。
本発明に係る文書集合分析装置は、ユーザの要求や予め定められた条件に基づき文書集合を特定する文書集合特定手段と、文書集合特定手段で特定された文書集合に含まれる各文書間の関係性を評価する関係性評価手段と、関係性評価手段によって評価された関係性と、あらかじめ決められた基準に基づき文書間の関係有無を特定する関係抽出手段と、ユーザの要求により指定された観点と関係の強い観点文書を特定する観点文書抽出手段と、関係抽出手段によって特定された文書間の関係と、観点文書抽出手段によって抽出された観点文書とを利用し、個々の文書における他の文書との関係の高さを示す指標と、個々の文書における観点文書との関係の高さを示す指標とで各文書のスコアを算出するスコア算出手段と、関係抽出手段によって得られた文書間の関係と、スコア算出手段によって得られた個々の文書のスコアを利用して、文書集合の全体から文書集合中に含まれる話題や話題に関連する文書の集合と、該集合中での個々の文書の役割を特定する情報分析手段と、関係抽出手段とスコア算出手段と情報分析手段とによって得られた情報を元に文書集合中に含められる主要な話題のリストやその話題について示す文書を出力する情報出力手段と、を備える。
本発明に係る文書集合分析方法は、ユーザの要求や予め定められた条件に基づき文書集合を特定する文書集合特定ステップと、文書集合特定ステップで特定された文書集合に含まれる各文書間の関係性を評価する関係性評価ステップと、
関係性評価ステップによって評価された関係性と、あらかじめ決められた基準に基づき文書間の関係有無を特定する関係抽出ステップと、ユーザの要求により指定された観点と関係の強い観点文書を特定する観点文書抽出ステップと、関係抽出ステップによって特定された文書間の関係と、観点文書抽出手段によって抽出された観点文書とを利用し、個々の文書における他の文書との関係の高さを示す指標と、個々の文書における観点文書との関係の高さを示す指標とで各文書のスコアを算出するスコア算出ステップと、関係抽出ステップによって得られた文書間の関係と、スコア算出手段によって得られた個々の文書のスコアを利用して、文書集合の全体から文書集合中に含まれる話題や話題に関連する文書の集合と、該集合中での個々の文書の役割を特定する情報分析ステップと、関係抽出ステップとスコア算出ステップと情報分析ステップとによって得られた情報を元に文書集合中に含められる主要な話題のリストやその話題について示す文書を出力する情報出力ステップと、を有する。
なお、本発明は、前記装置としてコンピュータを機能させる文書集合分析プログラムとしてもよい。このプログラムはネットワークや記録媒体などを通じて提供することができる。
本発明によれば、文書集合の分析にあたって文書間の関係を考慮しつつユーザの分析の観点を加味した分析が可能となる。
本発明の実施形態に係る文書集合分析装置の構成図。 文書間の関係を示すグラフ構造の概念図。 3次元グラフ構造の概念図。 本発明の実施形態に係る文書集合分析装置の処理フロー図。
以下、本発明の実施形態に係る文書集合分析装置を説明する。この文書集合分析装置は従来の文書分類にユーザ視点(ユーザからの観点)を与える。関連が高い文書は有向グラフとして結び付き、これをランダムウォークアルゴリズムでスコアをつける。ここにユーザ視点が反映され、ユーザ視点の文書は高いスコアが付く。このスコアを縦にとれると、起伏のある3次元表示となり、ユーザに提示される。
≪装置構成例≫
図1に基づき前記文書集合分析装置の構成例を説明する。ここでは前記文書集合分析装置1は、ユーザクライアント2とネットワークを通じてデータ通信可能に接続されているものとする。このユーザクライアント2は、ユーザ所有のパーソナルコンピュータ(PC)やスマートフォンなどでよい。
具体的には前記文書集合分析装置1は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース(例えばCPU,RAM,ROMなどの一次記憶装置,HDDやSSDなどの二次記憶装置,通信デバイスなど)を備える。
このハードウェアリソースとソフトウェアリソース(OS,アプリケーションなど)との協働の結果、前記文書集合分析装置1は文書集合特定部10,関係性評価部20,関係抽出部30,観点文書抽出部40,スコア算出部50,グラフ構造構築部60,頂点ノード抽出部61,山状ノード群特定部62,ラベル付け部63,情報出力部70,文書DB100を実装する。以下、各部10〜70の詳細を説明する。
(1)文書集合特定部10,関係性評価部20
文書集合特定部10は、ユーザクライアント2を通じて入力されたユーザからの要求もしくは予め決められた基準、即ち「文書集合の条件」を元に文書DB100にアクセスし、「文書集合の条件」に合致する複数文書で構成される文書集合を特定する。
この文書DB100は、ユーザが指定した検索キーワードや文書の最終更新日、文書のメタデータ等の条件に応じて文書集合を特定できる検索機能を持った文書格納装置に関する。この文書DB100は、Webなどから予め情報を収集してきてハードディスクドライブ装置などの記憶装置に構築してもよく、またWeb上に存在する検索エンジン(例えば「http://www.goo.ne.jp/」など)をそのまま文書DB100として利用することもできる。
また、関係性評価部20は、文書集合内の各文書間の関係性を評価する。文書間の関係性は、各文書を単語ベクトルで評価しコサイン類似度を利用する方法や、一方の文書を元に言語モデルを構築し、他方の文書がその言語モデルからどの程度の確率で生成されるかという言語モデルに基づき評価を行う文書間の類似度を利用する方法や、文書のタイムスタンプを利用しその時刻の近さを利用する方法などでよく、これ以外にも文書間の関係性を評価する指標を用いてその関係性を評価してもよい。
(2)関係抽出部30
関係抽出部30は、関係性評価部20で評価した文書間の関係性を元に、文書間が予め決められた基準を満たす関係を有するか否かを特定する。例えば文書間の関係を行列Aと表現した場合、式(1)のように定義することができる。
Figure 0006145064
式(1)中、「TopRelp(i)」は文書iとの関連性が強い文書p件に含まれる文書の集合を示している。ここでは一般に全ての関連性がある文書を利用した場合、低い関連性がノイズとなる傾向にあるため、関連性の薄い関係を無視するような操作とする。
また、式(1)中、「rel(i,j)」は文書間の関連性を評価する指標(基準)を示し、関連性が高いほど高い値を示す指標に関する。例えば文書間の内容の類似度を関連性に用いる場合は、「tf−idf」の重みによる単語ベクトルとして表現し、文書iと文書jとのコサイン類似度などを利用することができる。
さらに上記の場合には各ノード(後述する図2のグラフ構造における各ノード)から上位p件の関連度を持つ関係を利用することを想定しているため、他の関係と比較して関連度が小さい関係が存在することが予想できる。そこで、文書iに関係する文書のうち、極小さい関連度を持つ関係を取り除くことが好ましい。この操作は式(2)で示される。
Figure 0006145064
式(2)中、「TopLinkq(i)」は、文書iと関係のある文書を関連度の大きさの降順に並べ、その関連度を閾値「q」を越えるまで加算した場合に加算対象となる関連文書の集合を示している。
このような式(1)(2)の操作により文書間の関連性は有向グラフのグラフ構造で表され、文書のペアを考えた場合に一方の文書からは類似しているものの、他方の文書からは相対的に類似していないという状態も表現することが可能である。
(3)観点文書抽出部40
観点文書抽出部40は、ユーザクライアント2を通じて入力されたユーザからの観点を元に文書集合特定部10の特定した文書集合の中から観点文書を抽出する。例えば、ユーザから与えられた「分析の観点」が「ニュースになった話題を中心に分析したい」というものであれば、文書のタイプがニュース記事であるものを観点文書として抽出する。
また、ユーザから与えられた観点が「特定のトピックに関係する内容を中心に分析したい」というものであり、特定のトピックを表すキーワードが与えられた場合には、当該キーワードを含む文書もしくは、そのキーワードとの関連性が強い記事を観点文書として抽出する。
(4)スコア算出部50
スコア算出部50は、関係抽出部30にて得られた文書間の関係を、文書をノードとみなして文書間の関係を重み付きのエッジとする図2のグラフ構造とみなし、さらに観点文書抽出部40で得られた観点文書をユーザの注目点とみなし、文書群内の文書相互の関連性および観点文書との関連性を考慮したスコアを計算する。なお、前記グラフ構造ではユーザの観点、即ち観点文書は観点ノードとして表現されている。例えば図2のグラフ構造ではノードa1,a2のようにノードの一部が観点ノードとして扱われる。
具体的なスコア算出に際しては、非特許文献2〜4の「グラフ構造の特定のノードにバイアスを与えるリスタート付きランダムウォークアルゴリズム」を利用することができる。これを利用してスコアを計算する際には、関係抽出部30で得た文書間の関係を元に文書をノードとし、文書間の関係をエッジとするグラフ構造における遷移確率を表現するマトリックスを式(3)で算出する。
Figure 0006145064
この式(3)を利用して式(4)により各ノードの滞在確率を求め、各ノード(各文書)のスコアとする。
Figure 0006145064
式(4)中、「P」は各ノードのスコアを表現するベクトルを示している。「q」は観点文書抽出部40で特定した観点文書に対応する要素に「1」、それ以外の要素を「0」としたベクトルを示している。「α」は観点文書の影響を軽減するパラメータを示している。
(5)グラフ構造構築部60
グラフ構造構築部60では、関係抽出部30から得た文書間の関連性と、スコア算出部50から得た各文書に該当するノードのスコアとを元に図3に示す3次元のグラフ構造を構築する。
その際、まず関係抽出部30から得た文書間の関係性を元に二次元平面状の各文書をあらわすノードの配置を決定する。これを実現するためにノード間の類似度が配置の関係として反映できる非特許文献5の手法を利用する。また、三次元目の高さについてはスコア算出部50で計算したスコアを元に高さ方向の座標を決定するものとする。
(6)頂点ノード抽出部61
頂点ノード抽出部61では、グラフ構造構築部60で構築された3次元のグラフ構造から、ノードとノードとを繋ぐ辺(エッジ)で連結している自身以外のノード(文書と一対一で対応)より高いスコアを持つノードを頂点として抽出する。
(7)山状ノード群特定部62
山状ノード群特定部62では、頂点ノード抽出部61で抽出された頂点ノードから、スコアが低くなる方向にグラフ構造をたどってノードで構成される山(山型)を特定する。これにより頂点ノードを中心に前記山を構成する山状のノード群が特定される。なお、ノード抽出の詳細はラベル付け部63にて説明する.
(8)ラベル付け部63
ラベル付け部63では、前記各部61,62で抽出した頂点ノードや山状のノード群、それらノード間の関係について三種類のラベル付けをおこなう。このラベル付けの前にグラフ構造とスコアについて考察すると、スコア算出部50で示したスコアの定義によれば、観点ノードとの関係が強く、多くのエッジが存在するエリアのノードは高いスコアを持つ。
グラフ構造に基づき、ある人がノードを渡り歩くモデルを考えた場合、そのようなスコアの高いエリアでは、エリア内での遷移が多く、ノード間の関連性も高い。したがって、前記エリアは同じ話題に関連するノードで構成され、図3のそれぞれの山は、それぞれ異なる話題に対応すると考えられる。また、この山に含まれるノードの位置に応じて、文書にはそれぞれ特徴があると考えられる。以下では、それぞれのノードに該当する文書の特徴を説明する。また、それぞれの特徴を持つノード毎に文書集合中での役割の特定方法を説明する。
<ノードの役割,文書特徴>
(A)最初に特定されるノードは、図3中で山の頂上にある頂点ノード、即ちノードb1,b2であり、山の頂上には必ず1つのノードが存在する。このノードb1,b2は観点ノードa1,a2から近く、周囲のノードから最も高い状態遷移があるノードであり、周囲のノードと最もよく関係するノードであることから、話題を最もよく表現する文書であるといえる。
すなわち、ノードb1,b2が示す文書は、そのエリアの話題を特定するものであり、観点ノードa1,a2にも近いことから、ユーザが分析したい観点に関連する話題を最もよく示す文書と言える。このノードb1,b2のようなノードをコアノードと呼び、コアノードが示す文書をコア文書と呼ぶ。
(B)2番目に特定されるノードは、山頂と近接したノード、即ち山頂から直接たどって到達可能なノードである。例えば図3の山を構成するノードでありながら山頂でないノードc1,c2は、上記の山頂を占めるコアノードb1,b2から直接たどって到達できる。このノードc1,c2は、コアノードb1,b2との間で多くの遷移があり、文書の内容もコアノードb1,b2と高い関連性がある。これらのノードc1,c2のようなノードをサプリメンタルノードと呼び、サプリメンタルノードの示す文書をサプリメンタル文書と呼ぶ。
ここではコアノードから双方向グラフで連結しているノード群およびそれらのノードに対して,遷移確率が十分高い(例えば0.5以上)ノードをサプリメンタルノードと定義するものとする。
(C)3番目に特定されるノードは、図3のノードd1〜d5のようにコアノードb1,b2もしくはサプリメンタルノードc1,c2にリンクしているノードである。この種のノードは、外部のノードへの状態遷移や自己遷移と比べて、特定の話題のコアノードやサプリメンタルノードへの遷移確率が高いノードに該当し、必ずしも話題の中心ではないが話題に関連する情報を含んでおり、話題の周辺の情報等ノベルティの高い情報を含むことが多いノードである。このノードd1〜d5のようなノードをサブトピックノードと呼び、サブトピックノードの示す文書をサブトピック文書と呼ぶ。
(D)最後に特定されるノードは、どの話題のノードに対しても強い関連性がないノード、即ち山を構成しないノード若しくは一定以上のスコアを有しないノードである。これらのノードは、他の文書との関連性が薄く若しくは観点ノードから遠く離れているノードである。このノードをアウトライヤーノードと呼び、アウトライヤーノードの示す文書をアウトライヤー文書と呼ぶ。
<ラベル付け>
以上の分析を下に行う三種類のラベル付けについて説明する。
(A)まず、第一のラベルは,グラフ構造中でのノードの位置付けに基づくラベルである。これは個々のノードに対して付与されるものであり、そのラベルは前述の通り「コアノード」,「サプリメンタルノード」,「サブトピックノード」,「アウトライヤーノード」である。
(B)第二のラベルは前述のラベルで付与されたノードから構成される3次元グラフ構造中の個々の山に対して付与するものである。一つの山は一つのコアノードと、1つ以上のサプリメンタルノードおよびサブトピックノードから構成される。この一つの山として表現されるノード群はひとつのトピックについて示された文書の集合である。
そこで、個々の山に対して、その山を構成する文書で述べられているトピックを表現するのが第二のラベルである。具体的にはコアノードに対応する文書のタイトル自体を山のラベルとする方法が考えられる。
(C)第三のラベルは山と山の関係に対して付与するラベルである。まずは山同士で関係を有するか否かを示すラベルであり、それは山と山の関係を元に分析して付与される。山と山がいずれかのサブトピックノードやサプリメンタルノードを介してつながる場合には互いの山が示すトピック間のつながりを肯定することができる。また、この場合その接続点の文書を分析することで、どのようなつながりを有するのかを示すラベルを抽出することができる。
(9)情報出力部70
情報出力部70では、前記各部30,50,63によって得られた「ノード間の関係」、「個々のノードのスコア」、「文書集合中での役割」を利用して文書集合の中の話題および該話題に関連する文書の情報を出力する。ここで出力された情報はネットワーク経由でユーザクライアント2の画面に表示され、ユーザに分析結果として提示される。
このときグラフ構造構築部60で構築した3次元グラフ構造を直接用いてもよく、該3次元グラフから得た情報を表形式などで提示してもよい。ここで3次元グラフ構造を提示することで文書集合に含まれ、かつユーザが与えた観点に関係する文書間にどのような関係があるかを提示することができる。
例えば3次元グラフ構造で複数の山が観測される場合は、複数の話題群が存在することを示しており、視覚的に把握することが可能となる。また、山と山との関係は、その山と山をつなぐ構造中の文書で表現されており、それらの文書を分析することで関係の深さや関係が深い場合のそのつながりを発見することができる。
また,3次元グラフ構造から得られた情報を表形式などで提示する場合の典型的な情報としては文書集合に含まれ,かつユーザが与えた観点に関係する文書がどのようなクラスタに分かれるかを提示すること、または個々のクラスタの内容がどのような内容であるのかを提示するものとなる。
その結果、前記文書集合分析装置1によれば、文書集合をグラフ構造で表現し、(1)文書間の関係,(2)ユーザが指定する観点と各文書との関係を元に、文書集合に含まれる話題分析を行う事が可能となる。特にユーザが指定する観点を考慮しつつ、いわゆる「その他」に関する文書の影響を排除でき、話題が集中する文書集合の分析を行うことが可能となる。
≪処理プロセス≫
以下、図4に基づき前記文書集合分析装置1の処理プロセスを説明する。ここではユーザクライアント2から対象とする「文書集合の条件」および「分析の観点」をネットワーク経由で入力する場合の処理プロセスを説明する。
S01:前記文書集合分析装置1は、通信デバイスを通じてユーザクライアント2からの「文書集合の条件」および「分析の観点」を受信し、それぞれの入力を受け付ける。ここで入力された「文書集合の条件」は文書集合特定部10に送られる一方、「分析の観点」は観点文書抽出部40に送られる。
S02〜S04:文書集合特定部10は「文書集合の条件」を受け取ると、文書DB100にアクセスして「文書集合の条件」に合致する文書の集合、即ち分析対象の文書群を特定する(S02)。特定された文書群は関係性評価部20に送られる。
この特定された文書群を受け取ると関係性評価部20は、該文書群中の文書間の関係性を分析し、分析結果を関係抽出部30に送る(S03)。この分析結果を受け取ると関係抽出部30は、受け取った文書集合における文書間の関係性と、予め決められた基準とを元に文書間の関係の有無を特定する。特定された文書間の関係は有向グラフで表され、文書集合はグラフ構造で表現される。このグラフ構造はスコア算出部50に送られる(S04)。
S05:観点文書抽出部40は「分析の観点」を受け取ると、文書DB100にアクセスし、受け取った「分析の観点」に合致する文書を特定し、特定した文書群をスコア算出部50に送る。
S06:スコア算出部50は、S04のグラフ構造およびS05の文書を受け取ると、S04のグラフ構造を元にS05の各文書に該当するノードのスコアを算出し、算出したスコアをグラフ構造構築部60に送る(S06)。
S07:グラフ構造構築部60は、S04のグラフ構造とS06で得た各ノードにスコアを元に三次元空間状にノードを配置したグラフ構造を構築し、構築したグラフ構造を頂点ノード抽出部61に送る。
S08〜S10:頂点ノード抽出部61はS07のグラフ構造を受け取ると、受け取ったグラフ構造を元に頂点ノードを抽出し、グラフ構造と頂点ノードとを山状ノード群特定部62に送る(S08)。
このグラフ構造と頂点ノードとを受け取った山状ノード群特定部62は、受け取ったグラフ構造と頂点から山状のノード群を抽出し、抽出したノード群をラベル付け部63に送る(S09)。
このノード群を受け取るとラベル付け部63は、グラフ構造,頂点ノードや山状のノード群の情報を元に該ノード群に対してラベル付けを行い、その結果の情報を情報出力部70に送る(S10)。
S11:情報出力部70は、S04,S06,S10で取得した情報を元に出力用のデータを作成し、作成したデータをユーザクライアント2にネットワーク経由で送信し、ユーザに結果を提示する。
≪その他,プログラム等≫
本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で応用・変形して実施することができる。例えば「文書集合の条件」および「分析の観点」は、前記文書集合分析装置1の入力手段(キーボード,ポインティングデバイスなど)で入力してもよい。
また、本発明は、前記文書集合分析装置1の各部10,20,30,40,50,60〜63,70,100の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによれば、S01〜S11の一部あるいは全部をコンピュータに実行させることが可能となる。
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
1…文書集合分析装置
2…ユーザクライアント
10…文書集合特定部(文書集合特定手段)
20…関係性評価部(関係性評価手段)
30…関係抽出部(関係抽出手段)
40…観点文書抽出部(観点文書抽出手段)
50…スコア算出部(スコア算出手段)
60…グラフ構造構築部(グラフ構造構築手段)
61…頂点ノード抽出部(頂点ノード抽出手段)
62…山状ノード群特定部(山状ノード群特定手段)
63…ラベル付け部(ラベル付け手段)
70…情報出力部(情報出力手段)
100…文書DB

Claims (5)

  1. 複数の電子文書の文書集合を分析し、文書集合からの話題を特定する文書集合分析装置であって、
    ユーザの要求又は予め定められた条件に基づき文書集合を特定する文書集合特定手段と、
    文書集合特定手段で特定された文書集合に含まれる各文書間の関係性を評価する関係性評価手段と、
    関係性評価手段によって評価された関係性と、あらかじめ決められた基準に基づき文書間の関係有無を特定する関係抽出手段と、
    ユーザの要求により指定された観点と関係の強い観点文書を特定する観点文書抽出手段と、
    関係抽出手段によって特定された文書間の関係と、観点文書抽出手段によって抽出された観点文書とを利用し、個々の文書における他の文書との関係の高さを示す指標と、個々の文書における観点文書との関係の高さを示す指標とで各文書のスコアを算出するスコア算出手段と、
    関係抽出手段によって得られた文書間の関係と、スコア算出手段によって得られた個々の文書のスコアを利用して、文書集合の全体から文書集合中に含まれる話題又は話題に関連する文書の集合と、該集合中での個々の文書の役割を特定する情報分析手段と、
    関係抽出手段とスコア算出手段と情報分析手段とによって得られた情報を元に文書集合中に含められる主要な話題のリスト又はその話題について示す文書を出力する情報出力手段と、
    を備えることを特徴とする文書集合分析装置。
  2. 情報分析手段は、文書間の関係と各文書のスコアとを元に文書間の関係を2次元で表現し、3次元目に各文書のスコアを配置することで文書集合を3次元のグラフ構造で表現するグラフ構造構築手段と、
    グラフ構造構築手段で表現されたグラフ構造において、エッジで連結している自身以外のノードであって文書と一対一で対応するノードよりも高いスコアを持つノードを頂点として抽出する頂点ノード抽出手段と、
    頂点ノード抽出手段で抽出された頂点ノードからスコアが低くなる方向にグラフ構造をたどってノードで構成される山を特定する山状ノード群特定手段と、
    頂点ノード抽出手段で抽出された頂点ノードと該頂点ノードを中心に前記山を構成する山状のノード群とからノードの示す文書、前記山を構成する文書群、該文書群間の関係にラベル付けを行うラベル付け手段と、
    を備えることを特徴とする請求項1記載の文書集合分析装置。
  3. 複数の電子文書の文書集合を分析し、文書集合からの話題を特定する装置の実行する文書集合分析方法であって、
    ユーザの要求又は予め定められた条件に基づき文書集合を特定する文書集合特定ステップと、
    文書集合特定ステップで特定された文書集合に含まれる各文書間の関係性を評価する関係性評価ステップと、
    関係性評価ステップによって評価された関係性と、あらかじめ決められた基準に基づき文書間の関係有無を特定する関係抽出ステップと、
    ユーザの要求により指定された観点と関係の強い観点文書を特定する観点文書抽出ステップと、
    関係抽出ステップによって特定された文書間の関係と、観点文書抽出手段によって抽出された観点文書とを利用し、個々の文書における他の文書との関係の高さを示す指標と、個々の文書における観点文書との関係の高さを示す指標とで各文書のスコアを算出するスコア算出ステップと、
    関係抽出ステップによって得られた文書間の関係と、スコア算出手段によって得られた個々の文書のスコアを利用して、文書集合の全体から文書集合中に含まれる話題又は話題に関連する文書の集合と、該集合中での個々の文書の役割を特定する情報分析ステップと、
    関係抽出ステップとスコア算出ステップと情報分析ステップとによって得られた情報を元に文書集合中に含められる主要な話題のリスト又はその話題について示す文書を出力する情報出力ステップと、
    を有することを特徴とする文書集合分析方法。
  4. 情報分析ステップは、文書間の関係と各文書のスコアとを元に文書間の関係を2次元で表現し、3次元目に各文書のスコアを配置することで文書集合を3次元のグラフ構造で表現するグラフ構造構築ステップと、
    グラフ構造構築ステップで表現されたグラフ構造において、エッジで連結している自身以外のノードであって文書と一対一で対応するノードよりも高いスコアを持つノードを頂点として抽出する頂点ノード抽出ステップと、
    頂点ノード抽出ステップで抽出された頂点ノードからスコアが低くなる方向にグラフ構造をたどってノードで構成される山を特定する山状ノード群特定ステップと、
    頂点ノード抽出ステップで抽出された頂点ノードと該頂点ノードを中心に前記山を構成する山状のノード群とからノードの示す文書、前記山を構成する文書群、該文書群間の関係にラベル付けを行うラベル付けステップと、
    を有することを特徴とする請求項記載の文書集合分析方法。
  5. 請求項1または2のいずれか1項に記載の文書集合分析装置としてコンピュータを機能させる文書集合分析プログラム。
JP2014043387A 2014-03-06 2014-03-06 文書集合分析装置、文書集合分析方法、文書集合分析プログラム Active JP6145064B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014043387A JP6145064B2 (ja) 2014-03-06 2014-03-06 文書集合分析装置、文書集合分析方法、文書集合分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014043387A JP6145064B2 (ja) 2014-03-06 2014-03-06 文書集合分析装置、文書集合分析方法、文書集合分析プログラム

Publications (2)

Publication Number Publication Date
JP2015170062A JP2015170062A (ja) 2015-09-28
JP6145064B2 true JP6145064B2 (ja) 2017-06-07

Family

ID=54202767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014043387A Active JP6145064B2 (ja) 2014-03-06 2014-03-06 文書集合分析装置、文書集合分析方法、文書集合分析プログラム

Country Status (1)

Country Link
JP (1) JP6145064B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6959164B2 (ja) * 2018-02-19 2021-11-02 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP6976202B2 (ja) * 2018-03-14 2021-12-08 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN113127572B (zh) * 2019-12-31 2023-03-03 深圳云天励飞技术有限公司 档案合并方法、装置、设备及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3964630B2 (ja) * 2001-03-07 2007-08-22 日本電信電話株式会社 情報検索装置と情報検索プログラムおよび該プログラムを記録した記録媒体
JP4769151B2 (ja) * 2006-09-01 2011-09-07 日本電信電話株式会社 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体

Also Published As

Publication number Publication date
JP2015170062A (ja) 2015-09-28

Similar Documents

Publication Publication Date Title
US20210049198A1 (en) Methods and Systems for Identifying a Level of Similarity Between a Filtering Criterion and a Data Item within a Set of Streamed Documents
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
JP6646650B2 (ja) データ項目をスパース分散表現にマッピングする方法およびシステム
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
WO2017097231A1 (zh) 话题处理方法及装置
US9817908B2 (en) Systems and methods for news event organization
US20160098433A1 (en) Method for facet searching and search suggestions
US9875301B2 (en) Learning multimedia semantics from large-scale unstructured data
JP2019537128A (ja) 複数のデータ表現間の類似性を識別するための方法およびシステム
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
US9720979B2 (en) Method and system of identifying relevant content snippets that include additional information
US20160188633A1 (en) A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
Hou et al. Newsminer: Multifaceted news analysis for event search
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
KR20150018880A (ko) 정보 취합 분류의 디스플레이 방법 및 시스템
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
Chen et al. Modeling and exploiting tag relevance for Web service mining
Gorrell et al. Using@ Twitter conventions to improve# LOD-based named entity disambiguation
JP2008210024A (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JP2023551418A (ja) 意味マップの生成におけるデータ項目フィンガープリントの再利用のための方法およびシステム
US9552415B2 (en) Category classification processing device and method
JP6145064B2 (ja) 文書集合分析装置、文書集合分析方法、文書集合分析プログラム
KR101931859B1 (ko) 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
Avigdor-Elgrabli et al. Structural clustering of machine-generated mail
US9323721B1 (en) Quotation identification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170321

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170512

R150 Certificate of patent or registration of utility model

Ref document number: 6145064

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150