JP2009199576A - 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体 - Google Patents

文書解析支援装置、文書解析支援方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2009199576A
JP2009199576A JP2008167354A JP2008167354A JP2009199576A JP 2009199576 A JP2009199576 A JP 2009199576A JP 2008167354 A JP2008167354 A JP 2008167354A JP 2008167354 A JP2008167354 A JP 2008167354A JP 2009199576 A JP2009199576 A JP 2009199576A
Authority
JP
Japan
Prior art keywords
word
document
analysis
display
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008167354A
Other languages
English (en)
Inventor
Kenji Ejima
賢司 江島
Shuichi Mitarai
秀一 御手洗
Sachio Hirokawa
佐千男 廣川
Takashi Mizukoshi
孝 水越
Tatsunori Yumen
達憲 宥免
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lafla
LAFLA Inc
YANO KEIZAI KENKYUSHO KK
Original Assignee
Lafla
LAFLA Inc
YANO KEIZAI KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lafla, LAFLA Inc, YANO KEIZAI KENKYUSHO KK filed Critical Lafla
Priority to JP2008167354A priority Critical patent/JP2009199576A/ja
Publication of JP2009199576A publication Critical patent/JP2009199576A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】 mindex分析を用いて、例えば有価証券報告書の解析のように文書自体の記載を確認しつつ行われる複数の文書の解析を支援することに適した文書解析支援装置等を提案する。
【解決手段】 例えばAAA社、BBB社、CCC社という3つの有価証券報告書を対比して分析する場合に、文書表示領域105、107及び109には各社の有価証券報告書をそのまま表示し、分析結果表示領域103には、mindex分析を用いて、各有価証券報告書に特徴的に現れる単語について階層的に表示する。利用者は、関心のある単語を表示指定することにより、有価証券報告書の記載を対比することができる。さらに、利用者は、関心のある単語を分析指定することにより、さらにmindex分析を行い、指定された単語を中心とした、関連する特徴的な単語を表示することができる。
【選択図】 図4

Description

本願発明は、文書解析支援装置、文書解析支援方法、プログラム及び記録媒体に関し、特に複数の文書データの解析を支援する文書解析支援装置等に関する。
発明者らは、複数の文書等のデータからキーワード等を抽出し、抽出したキーワード等及びその関係を可視化する研究を行っている(以下、「mindex分析」という。特許文献1、非特許文献1〜3など参照。)。
特開2007−257420号公報 廣川佐千男、外2名著,「文書群からの概念グラフの構成」,情報処理学会第169回自然言語処理研究会,pp.79-84,2005 廣川佐千男、外4名著,「プレーリストからの曲目やアーティストの相互関連抽出」,情報処理学会第81回情報学基礎研究会,Vol.2005,No.108,pp.31-36,2005 下司義寛、外3名著,「プレーリストにおける単語・曲・アーティストの共起関連分析」,日本知能情報ファジィ学会第4回ラフ集合と感性工学ワークショップ,pp.44-47,2005
例えば有価証券報告書を複数対比して解析する場合には、解析をする者にとって、有価証券報告書におけるキーワードだけでなく、その報告書自体の記載により直接解析することも重要である。
しかしながら、特許文献1等にあるように、mindex分析に関して、キーワード等及びその関係を示すに留まっていた。そのため、mindex分析結果と分析の基礎となった文書自体の記載との関係を有効に利用者に示すことができなかった。そのため、従来のmindex分析によっては、例えば有価証券報告書のように、その文書自体の記載を確認することが重要なものを解析する場合については、十分に活用することができなかった。
そこで、本願発明は、mindex分析を用いて、例えば有価証券報告書の解析のように文書自体の記載を確認しつつ行われる複数の文書の解析を支援することに適した文書解析支援装置等を提案することを目的とする。
請求項1に係る発明は、複数の文書データの解析を支援する文書解析支援装置であって、前記複数の文書データに含まれる単語について、所定の条件に基づいて他の単語と上位下位の関係にあるか否かを判断する単語関係付け手段と、前記複数の文書データに含まれる単語を複数抽出する単語抽出手段と、表示装置に対して、前記単語抽出手段により抽出された複数の単語、及び、前記複数の単語に関する前記単語関係付け手段により求められた関係を表示させる分析結果表示制御手段と、表示装置に対して、前記複数の文書データを表示させる文書表示制御手段を備え、前記分析結果表示制御手段は、前記単語抽出手段により抽出された単語のいずれかが表示対象として指定された場合に、指定された単語を強調して表示し、前記文書表示制御手段は、前記複数の文書データのいずれかに含まれる単語が表示指定された場合に、前記複数の文書データのそれぞれについて表示指定された単語を含むか否かを判断し、表示装置に対して、表示指定された単語を含む文書データについては表示指定された単語を強調して表示させるものである。
請求項2に係る発明は、請求項1記載の文書解析支援装置であって、前記分析結果表示制御手段が、前記単語抽出手段により抽出された単語を、前記複数の文書データのそれぞれにおける出現頻度を示す情報と共に表示させるものである。
請求項3に係る発明は、請求項1又は2に記載の文書解析支援装置であって、前記分析結果表示制御手段が、ユーザの指定に応じて、前記単語抽出手段により抽出された単語のうち、少なくとも、前記複数の文書データにおける分散度が異なる2つの単語について、一方の単語を表示させて他方の単語を表示させないか、又は、2つの単語を分散度が異なることを示して表示させるものである。
請求項4に係る発明は、請求項1から3のいずれかに記載の文書解析支援装置であって、前記単語抽出手段は、前記複数の文書データのいずれかに含まれる単語が分析指定された場合に、前記複数の文書データから分析指定された単語と関連する特徴的な単語を抽出し、前記分析結果表示制御手段は、分析指定された単語及び前記単語抽出手段により抽出された複数の単語、並びに、これらの単語に関する前記単語関係付け手段により求められた関係を表示させるものである。
請求項5に係る発明は、複数の文書データの解析を支援する文書解析支援装置であって、前記複数の文書データに含まれる単語について、所定の条件に基づいて他の単語と上位下位の関係にあるか否かを判断する単語関係付け手段と、前記複数の文書データに含まれる単語を複数抽出する単語抽出手段と、表示装置に対して、前記単語抽出手段により抽出された複数の単語、及び、前記複数の単語に関する前記単語関係付け手段により求められた関係を表示させる分析結果表示制御手段と、表示装置に対して、前記複数の文書データを表示させる文書表示制御手段を備え、前記単語抽出手段は、前記複数の文書データのいずれかに含まれる単語が分析指定された場合に、前記複数の文書データから分析指定された単語と関連する特徴的な単語を抽出し、前記分析結果表示制御手段は、分析指定された単語及び前記単語抽出手段により抽出された複数の単語、並びに、これらの単語に関する前記単語関係付け手段により求められた関係を表示させるものである。
請求項6に係る発明は、複数の文書データの解析を支援する文書解析支援方法であって、単語関係付け手段が、前記複数の文書データに含まれる単語について、所定の条件に基づいて他の単語と上位下位の関係にあるか否かを判断するステップと、単語抽出手段が、前記複数の文書データに含まれる単語を複数抽出するステップと、分析結果表示制御手段が、表示装置に対して、前記単語抽出手段により抽出された複数の単語、及び、前記複数の単語に関する前記単語関係付け手段により求められた関係を表示させるステップと、文書表示制御手段が、表示装置に対して、前記複数の文書データを表示させるステップと、前記分析結果表示制御手段が、前記単語抽出手段により抽出された単語のいずれかが表示対象として指定された場合に、指定された単語を強調して表示するステップと、前記文書表示制御手段が、前記複数の文書データのいずれかに含まれる単語が表示指定された場合に、前記複数の文書データのそれぞれについて表示指定された単語を含むか否かを判断し、表示装置に対して、表示指定された単語を含む文書データについては表示指定された単語を強調して表示させるステップ、を含むものである。
請求項7に係る発明は、コンピュータを請求項1から5のいずれかに記載の文書解析支援装置として機能させるためのプログラムである。
請求項8に係る発明は、請求項7記載のプログラムを記録する記録媒体である。
本願発明によれば、mindex分析の分析結果を単に表示するだけでなく、その分析の基礎となった複数の文書データと共に関係付けて表示することが可能となる。そのため、元の文書データ自体を解析するにあたり、mindex分析を有効に活用することが可能となる。
また、請求項2に係る発明にあるように、文書データを参考にしつつ局所的なmindex分析をさらに行うことが可能となり、複数の文書データの解析をさらに有効に支援することが可能となる。
以下では、図面を参照して、本願発明の実施の形態の一例について説明する。
図1は、本願発明の実施の形態に係る文書解析支援装置の一例を示すブロック図である。
図1を参照して、文書解析支援装置1は、複数の文書データを記憶する記憶装置3と、記憶装置3から分析対象となる複数の文書データを抽出し、抽出した文書データ基づいてmindex分析を行うmindex分析部5と、表示装置7に対して分析対象となった複数の文書データ及びmindex分析部5の分析結果を表示させる表示制御部9と、利用者が情報を入力する入力部11と、文書解析支援装置1全体の処理を制御する制御部13を備える。
mindex分析部5は、分析対象となる複数の文書データに含まれる単語を相互に関係づける単語関係付け部15と、分析対象となる複数の文書データから単語を抽出する単語抽出部17を有する。
また、表示制御部9は、表示装置7に対してmindex分析部5による分析結果を表示させる分析結果表示制御部19と、表示装置7に対してmindex分析部5による分析の対象となった複数の文書データを表示させる文書表示制御部21を有する。
図2は、図1の文書解析支援装置1の動作を示すフロー図である。図2を参照して、図1の文書解析支援装置1の動作について説明する。また、図3〜7を参照して、3つの文書データを抽出する場合について、表示装置7における具体的な表示例を説明する。
まず、mindex分析部5は、入力部9に入力された利用者からの指定に基づいて、記憶装置3より、分析対象となる複数の文書データを抽出する(図2のステップST1)。
次に、mindex分析部5は、抽出した文書データに基づいてmindex分析を行う(図2のステップST2)。mindex分析の一例について、以下説明する。
まず、単語関係付け部15は、次のようにして分析対象となる複数の文書データに基づいて単語間の上位下位の関係付けを行う。複数の文書データを含む集合を文書集合という。記憶装置3に記憶された文書データの集合を全体文書集合U、抽出された複数の文書データの集合を分析対象の文書集合D、wを単語とする。wが現れるD中の文書データの個数(文書頻度)、すなわち、#{d∈D|wがdに現れる}をdf(w,D)で表す。2つの単語u,vの両方が現れる文書数をdf(u*v,D)で表す。図1の単語関係付け部11は、単語uとvについて、df(u*v,D)/df(v,D)>βかつdf(u,D)>df(v,D)となっているとき、「文書頻度の観点からuはvの上位である」ということにする。ここで、βは、0以上1以下の範囲の数値であり、例えば、βが0の場合は全く重なりがなくとも抽出し、βが1の場合は完全に重なるときに抽出する。
なお、Dの文書数が少ないために上下関係が分析しにくい場合も考えられる。そのため、df(u*v,D)/df(v,D)>βという条件に代えて、例えば全体文書集合Uに対してdf(u*v,U)/df(v,U)>βという条件を用いてもよく、また、Uに含まれる集合G(例えばDが複数の会社に関する文書集合である場合に、これらの会社の業界に関する文書集合など)に対してdf(u*v,G)/df(v,G)>βという条件を用いてもよい。
次に、単語抽出部17は、例えば文書頻度に基づいて、Dの文書データから単語を抽出する。df(w,D)/df(w、U)>αを満たす単語wを特徴語とする。ここで、αは0以上1以下の範囲の数値である。
なお、ある文書d中に出現する単語tの頻度tf(t,d)以外にも、例えば、IDF(全文書数をNとし、単語tが出現する文書数をdf(t)とすると、単語tに対するIDFはidf(t)=log(N/df(t))+1で定義される。)、信号/雑音比、識別値などにより単語をランク付けして、特徴的な単語を抽出してもよい。また、単語の頻度は索引語の網羅性に関係し、IDF、信号/雑音比及び識別値は索引語の特定性に関係する。そのため、複数の尺度を組み合わせて計算してもよい。例えば、2つの尺度の組み合わせとして、単語頻度tf(t、d)とIDFidf(t)の積(TF−IDF法)、単語頻度と信号/雑音比の積、単語頻度と識別値の積を用いてもよい。(徳永健伸著,「言語と計算5 情報検索と言語処理」,東京大学出版会出版など参照)
以上の手順により、mindex分析が行われる。
続いて、表示制御部9の分析結果表示制御部19は、表示装置7に対して、mindex分析部5の分析結果を表示させ、表示制御部9の文書表示制御部21は、分析対象となった複数の文書データを表示させる(図2のステップST3)。
図3は、図2のステップST3における、図1の表示装置7の具体的な表示例を示す図である。表示装置7の表示画面101上には、分析結果表示領域103と、分析対象となった3つの文書データのそれぞれを表示する文書表示領域105、107及び109と、再分析対象となる単語を指定するための再分析対象単語指定領域111と、表示対象となる単語を指定するための表示対象単語指定領域113が含まれている。分析結果表示制御部19により、分析結果表示領域103において、単語抽出部17により抽出された単語が、単語関係付け部15による上位下位の関係が明確になる形で表示される。文書表示制御部21により、文書表示領域105、107及び109において、分析対象となった3つの文書データが、文頭より表示される。
続いて、制御部13は、抽出された文書データに含まれる単語について、表示指定がなされたか否かを判断する(ステップST4)。単語の表示指定は、例えば、利用者が図3の分析結果表示領域103において表示されている単語が指定されたり(図4参照)、利用者が表示対象単語指定領域113において分析結果表示領域103に表示されている単語や文書表示領域105、107又は109に表示されている文書データ中の単語を入力したり(図5参照)することによりなされる。
図2のステップST4において抽出された文書データに含まれる単語について表示指定がなされた場合、表示制御部9は、表示装置7に対して、表示指定された単語を中心とした表示に変更させる(図2のステップST5)。そして、図2のステップST4の処理に戻る。
図4は、図2のステップST5において、分析結果表示領域103に表示されている単語である「燃料」が表示指定された場合の図1の表示装置7の具体的な表示例を示す図である。単語の表示指定がなされた場合、表示制御部9の文書表示制御部21は、複数の文書データのそれぞれにおいて「燃料」という単語が含まれるか否かを判断する。そして、表示装置7に対して、「燃料」という単語を含む文書データについては、最初に現れるものから「燃料」という単語を強調して表示させ(図4の文書表示領域105及び107におけるAAA社、BBB社に関する表示参照)、「燃料」という単語を含まない文書データについては文頭から表示する(図4の文書表示領域109におけるCCC社に関する表示参照)。なお、例えば分析結果表示領域103において表示されている単語が指定された場合のように、表示指定された単語が分析結果表示領域に表示されている単語である場合には、図1の分析結果表示制御部19は、図4の分析結果表示領域103にあるように、表示指定された単語を強調して表示するようにしてもよい。また、表示指定された単語を含まない文書に関しては、表示を変更しないようにしてもよい。
また、図5は、図2のステップST5において、分析結果表示領域103に表示されていない単語である「通信」が指定された場合の図1の表示装置7の具体的な表示例を示す図である。表示制御部9の文書表示制御部21は、複数の文書データのそれぞれにおいて「通信」という単語が含まれるか否かを判断する。そして、表示装置7に対して、「通信」という単語を含む文書データについては、最初に現れるものから「通信」という単語を強調して表示させ(図5の文書表示領域105及び109におけるAAA社、CCC社に関する表示参照)、「通信」という単語を含まない文書データについては文頭から表示する(図4の文書表示領域107におけるBBB社に関する表示参照)。
図2のステップST4において単語の表示指定がなされていない場合、制御部13は、抽出された文書データに含まれる単語について、再分析指定がなされたか否かを判断する(ステップST6)。単語の再分析指定は、例えば、利用者が図3の分析結果表示領域103において表示されている単語が指定されたり(図6参照)、利用者が表示対象単語指定領域113において分析結果表示領域103に表示されている単語や文書表示領域105、107又は109に表示されている文書データ中の単語を入力したり(図7参照)することによりなされる。
図2のステップST6において抽出された文書データに含まれる単語について再分析指定がなされた場合、mindex分析部5は再分析指定がなされた単語を中心として単語の抽出を行い(図2のステップST7)、表示制御部9は、表示装置7に対して、再分析指定された単語を中心とした表示に変更させる(図5のステップST8)。そして、図2のステップST4の処理に戻る。
図6は、図2のステップST8において、「原油」という単語が再分析指定された場合の図1の表示装置7の具体的な表示例を示す図である。単語の表示指定がなされた場合、mindex分析部5は、3つの文書データから「原油」に関連する特徴的な単語を抽出する。例えば、3つの文書を段落区切りなど適当な長さで分割し、分割後の文書を含む文書集合のうち「原油」を含む文書の集合をDとする。そして、先に説明したように、mindex分析部5の単語抽出部17は、df(w,D)/df(w、U)>αを満たす単語wを特徴語とする。ここで、αは0以上1以下の範囲の数値である。そして、分析結果表示制御部19は、図6の分析結果表示領域103にあるように、表示装置7に対して、mindex分析部5の分析結果を表示させる。
なお、文書の分割は、句点区切り、改行区切り、固定長区切りなどでもよく、また、特に分割をしなくてもよい。また、複数の単語がクエリとして指定されてもよく、1つ又は複数の単語がクエリとして指定された場合、それらの単語のブール式によって絞り込まれる文書集合をDとして、単語を抽出するようにしてもよい。さらに、単語抽出部17は、df(w,D)/df(w、U)>αという条件以外にも、例えば、単語wについて、集合Dと集合Uの1文書あたりの頻度を比較するようにしてもよい。
図7は、図2のステップST8において、分析結果表示領域103に表示されている単語である「原油」という単語が再分析指定された場合の図1の表示装置7の具体的な表示例を示す図である。このように、分析結果表示領域103に表示された単語を再分析指定してもよく、また、再分析後の表示(図2のステップST8)において、文書表示制御部21が、各文書データにおいて再分析指定された単語を中心とした表示を行うようにしてもよい。
続いて、図8〜図11を参照して、本願発明の他の実施例について説明する。本実施例における文書解析支援装置は、図1におけるものである。
図8は、本実施例における文書解析支援装置1の他の動作例を示すフロー図である。図8を参照して、図1の文書解析支援装置1の他の動作例について説明する。
まず、mindex分析部5は、図2のステップST1と同様に、入力部9に入力された利用者からの指定に基づいて、記憶装置3より、分析対象となる複数の文書データを抽出する(図8のステップSTV1)。図9は、図1の記憶装置3に記憶される有価証券報告書の一例を示す図である。5000社の三期分、計15,000個の有価証券報告書が存在するとする。有価証券報告書は、業績等の概要など7つのセクションに分かれている。以下、図8のフロー図の説明としては、図9にあるように、B社、C社及びD社の「財政状態と経営製成績の分析」のセクションS、S及びSを比較するものとする。
次に、mindex分析部5は、図2のステップST2と同様に、抽出した文書データに基づいてmindex分析を行う(図2のステップST2)。ただし、分析対象は、S、S、Sの3セクションであるのに対して、全文書数は105,000セクションである。一般的には、そのまま特徴語を抽出しても、有効なものとはならない。
そのため、単語抽出部17は、さらに、例えば単語の頻度tf、IDF、信号/雑音比、識別値、又は、これらの2つの尺度の積(TF−IDF法など)などにより、特徴的な単語を抽出する。以下では、単語抽出部17は、実施例1において説明したTF−IDF法により、tfidf(単語頻度tf(t、d)とIDFidf(t)の積)が大きい単語を100個抽出するとする。この段階で、レア単語(他の文書データではほとんど見られない単語)やノイズ(他の文書データでも頻繁に見られる単語など)は、ほとんど含まれず、有効な特徴語が抽出される。
抽出された100個の単語については、それぞれ、S、S及びSにおける出現頻度TFは計算されている。そこで、単語抽出部17は、S、S及びSに対する分散の度合いを示す分散度(例えば、分散、標準偏差など)を計算する。例えば、標準偏差σは、(1)式で示される単語の出現頻度の平均値tfに対して(2)式を利用して計算する。
続いて、表示制御部9の分析結果表示制御部19は、表示装置7に対して、mindex分析部5の分析結果を表示させ、表示制御部9の文書表示制御部21は、分析対象となった複数の文書データを表示させる(図2のステップSTV3)。
図10は、図8のステップSTV3における図1の表示装置7の具体的な表示例を示す図である。表示装置7の表示画面201上には、分析結果表示領域203と、分析対象となったS1、S2及びS3を含む3つの有価証券報告書を示す文書データを表示する文書表示領域205、207及び209と、表示対象となる単語を指定するための表示対象単語指定領域211と、分析結果表示領域203におけるグラフの種類として「共通の言葉」と「固有の言葉」のいずれかを選択可能な種類選択領域213が含まれている。
分析結果表示制御部19により、分析結果表示領域203において、単語抽出部17により抽出された単語が、単語関係付け部15による上位下位の関係が明確になる形で表示される。図11は、図10の分析結果表示領域203における表示例を示す図である。図11(a)にあるように、各単語には、S、S及びSにおける単語の出現頻度TFに応じた割合を示す円グラフを付して表示する。文書表示制御部21により、文書表示領域205、207及び209において、分析対象となったS、S及びSを含む3つの有価証券報告書を示す文書データが表示される。
制御部13は、図2のステップST4と同様に、抽出された文書データに含まれる単語について、ユーザにより、分析結果表示領域203に表示された単語が指定又は表示対象単語指定領域211に直接入力されることにより、表示指定がなされたか否かを判断する(図8のステップSTV4)。そして、図8のステップSTV4において抽出された文書データに含まれる単語について表示指定がなされた場合、表示制御部9は、表示装置7に対して、表示指定された単語を中心とした表示に変更させる(図8のステップSTV5)。図10は、「セラミック」という単語が指定された場合の表示例を示す図である。「セラミック」という単語は、D社の有価証券報告書にのみ存在しており、B社、C社の有価証券報告書については文頭から表示し、D社については、7箇所に含まれ、ユーザの操作により、各単語を順に表示することができるように表示している。そして、図8のステップSTV4の処理に戻る。
図8のステップSTV4において単語の表示指定がなされていない場合、制御部13は、図10の種類選択領域213において、「共通の言葉」が新たに指定されたか否かを判断する(図8のステップSTV6)。「共通の単語」が新たに指定された場合、分析結果表示制御部19は、標準偏差の値が小さいものから50個について、単語関係付け部15による上位下位の関係が明確になる形で表示する(図8のステップSTV7)。図11(b)は、その表示例を示す図である。図11(b)に示されるように、一般に、「共通の単語」指定により表示される単語は、相互に関連するものとなる。そのため、横断的な文書解析が可能となる。
図8のステップSTV6において単語の表示指定がなされていない場合、制御部13は、図10の種類選択領域213において、「固有の言葉」が新たに指定されたか否かを判断する(図8のステップSTV8)。「固有の単語」が新たに指定された場合、分析結果表示制御部19は、標準偏差の値が大きいものから50個について、単語関係付け部15による上位下位の関係が明確になる形で表示する(図8のステップSTV9)。図11(c)は、その表示例を示す図である。図11(c)に示されるように、一般に、「固有の単語」指定により表示される単語は、各文書データについてクラスタ化している。そのため、ユーザは、各文書の特徴を示す単語を知ることができる。
このように、分散度(分散・標準偏差など)を用いて、分析対象となる単語の絞込みを行うことにより、利用者は、各文書を横断的に分析したり、各文書に特徴的な単語により分析したりすることが可能となる。さらに、各単語について分析対象となる文書における出現頻度の割合を表示することにより、利用者は、分析対象の文書における各単語の位置づけをより明確に把握することが可能となる。
なお、図8のフロー図において、ステップSTV7及びSTV9にあるように、個数を基準として表示を行っているが、これに代えて、標準偏差の値を基準とするようにしてもよい。また、図11(c)にあるように、標準偏差の値が大きいところは、各文献に応じてクラスタ化する傾向があり、このようなクラスタ化が可能な標準偏差の値を基準とするようにしてもよい。
また、図8のフロー図において、ステップSTV6〜9(図11参照)にあるように、標準偏差の値が大きいものと小さいものを別々に表示しているが、同時に表示するようにしてもよい。この場合、例えば標準偏差の値に応じて区別して表示を行うようにしてもよい。このとき、一般的に、標準偏差の値が小さいもの(図11(b)参照)は各文献に共通にあることから出現頻度が高く、階層の上位に出現する傾向にあり、標準偏差の値が大きいもの(図11(c)参照)は階層の下位に出現する傾向にある。
さらに、実施例2においても、図2のステップSAT6〜8にあるように、再分析を行うようにしてもよい。
本願発明の実施の形態に係る文書解析支援装置の一例を示すブロック図である。 図1の文書解析支援装置1の実施例1の動作例を示すフロー図である。 図2のステップST3における、図1の表示装置7の具体的な表示例を示す図である。 図2のステップST5において、分析結果表示領域103に表示されている単語である「燃料」が表示指定された場合の図1の表示装置7の具体的な表示例を示す図である。 図2のステップST5において、分析結果表示領域103に表示されていない単語である「通信」が指定された場合の図1の表示装置7の具体的な表示例を示す図である。 図2のステップST8において、「原油」という単語が再分析指定された場合の図1の表示装置7の具体的な表示例を示す図である。 図2のステップST8において、分析結果表示領域103に表示されている単語である「原油」という単語が再分析指定された場合の図1の表示装置7の具体的な表示例を示す図である。 図1の文書解析支援装置1の実施例2の動作例を示すフロー図である。 図1の記憶装置3に記憶される有価証券報告書の一例を示す図である。 図8のステップSTV3における図1の表示装置7の具体的な表示例を示す図である。 図10の分析結果表示領域203における表示例を示す図である。
符号の説明
1 文書解析支援装置、15 単語関係付け部、17 単語抽出部、19 分析結果表示制御部、21 文書表示制御部

Claims (8)

  1. 複数の文書データの解析を支援する文書解析支援装置であって、
    前記複数の文書データに含まれる単語について、所定の条件に基づいて他の単語と上位下位の関係にあるか否かを判断する単語関係付け手段と、
    前記複数の文書データに含まれる単語を複数抽出する単語抽出手段と、
    表示装置に対して、前記単語抽出手段により抽出された複数の単語、及び、前記複数の単語に関する前記単語関係付け手段により求められた関係を表示させる分析結果表示制御手段と、
    表示装置に対して、前記複数の文書データを表示させる文書表示制御手段
    を備え、
    前記分析結果表示制御手段は、前記単語抽出手段により抽出された単語のいずれかが表示対象として指定された場合に、指定された単語を強調して表示し、
    前記文書表示制御手段は、前記複数の文書データのいずれかに含まれる単語が表示指定された場合に、前記複数の文書データのそれぞれについて表示指定された単語を含むか否かを判断し、表示装置に対して、表示指定された単語を含む文書データについては表示指定された単語を強調して表示させる、
    文書解析支援装置。
  2. 前記分析結果表示制御手段は、前記単語抽出手段により抽出された単語を、前記複数の文書データのそれぞれにおける出現頻度を示す情報と共に表示させる、
    請求項1記載の文書解析支援装置。
  3. 前記分析結果表示制御手段は、ユーザの指定に応じて、前記単語抽出手段により抽出された単語のうち、少なくとも、前記複数の文書データにおける分散度が異なる2つの単語について、一方の単語を表示させて他方の単語を表示させないか、又は、2つの単語を分散度が異なることを示して表示させる、
    請求項1又は2に記載の文書解析支援装置。
  4. 前記単語抽出手段は、前記複数の文書データのいずれかに含まれる単語が分析指定された場合に、前記複数の文書データから分析指定された単語と関連する特徴的な単語を抽出し、
    前記分析結果表示制御手段は、分析指定された単語及び前記単語抽出手段により抽出された複数の単語、並びに、これらの単語に関する前記単語関係付け手段により求められた関係を表示させる、
    請求項1から3のいずれかに記載の文書解析支援装置。
  5. 複数の文書データの解析を支援する文書解析支援装置であって、
    前記複数の文書データに含まれる単語について、所定の条件に基づいて他の単語と上位下位の関係にあるか否かを判断する単語関係付け手段と、
    前記複数の文書データに含まれる単語を複数抽出する単語抽出手段と、
    表示装置に対して、前記単語抽出手段により抽出された複数の単語、及び、前記複数の単語に関する前記単語関係付け手段により求められた関係を表示させる分析結果表示制御手段と、
    表示装置に対して、前記複数の文書データを表示させる文書表示制御手段
    を備え、
    前記単語抽出手段は、前記複数の文書データのいずれかに含まれる単語が分析指定された場合に、前記複数の文書データから分析指定された単語と関連する特徴的な単語を抽出し、
    前記分析結果表示制御手段は、分析指定された単語及び前記単語抽出手段により抽出された複数の単語、並びに、これらの単語に関する前記単語関係付け手段により求められた関係を表示させる、
    文書解析支援装置。
  6. 複数の文書データの解析を支援する文書解析支援方法であって、
    単語関係付け手段が、前記複数の文書データに含まれる単語について、所定の条件に基づいて他の単語と上位下位の関係にあるか否かを判断するステップと、
    単語抽出手段が、前記複数の文書データに含まれる単語を複数抽出するステップと、
    分析結果表示制御手段が、表示装置に対して、前記単語抽出手段により抽出された複数の単語、及び、前記複数の単語に関する前記単語関係付け手段により求められた関係を表示させるステップと、
    文書表示制御手段が、表示装置に対して、前記複数の文書データを表示させるステップと、
    前記分析結果表示制御手段が、前記単語抽出手段により抽出された単語のいずれかが表示対象として指定された場合に、指定された単語を強調して表示するステップと、
    前記文書表示制御手段が、前記複数の文書データのいずれかに含まれる単語が表示指定された場合に、前記複数の文書データのそれぞれについて表示指定された単語を含むか否かを判断し、表示装置に対して、表示指定された単語を含む文書データについては表示指定された単語を強調して表示させるステップ、
    を含む文書解析支援方法。
  7. コンピュータを請求項1から5のいずれかに記載の文書解析支援装置として機能させるためのプログラム。
  8. 請求項7記載のプログラムを記録する記録媒体。
JP2008167354A 2008-01-23 2008-06-26 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体 Pending JP2009199576A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008167354A JP2009199576A (ja) 2008-01-23 2008-06-26 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008012603 2008-01-23
JP2008167354A JP2009199576A (ja) 2008-01-23 2008-06-26 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2009199576A true JP2009199576A (ja) 2009-09-03

Family

ID=41142962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008167354A Pending JP2009199576A (ja) 2008-01-23 2008-06-26 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2009199576A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059814A (ja) * 2009-09-07 2011-03-24 Nippon Telegr & Teleph Corp <Ntt> 文書群処理装置、文書群処理方法および文書群処理プログラム
US8793266B2 (en) 2010-09-30 2014-07-29 International Business Machines Corporation Graphical user interface for a search query
JP2019185478A (ja) * 2018-04-12 2019-10-24 富士通株式会社 分類プログラム、分類方法、および情報処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059814A (ja) * 2009-09-07 2011-03-24 Nippon Telegr & Teleph Corp <Ntt> 文書群処理装置、文書群処理方法および文書群処理プログラム
US8793266B2 (en) 2010-09-30 2014-07-29 International Business Machines Corporation Graphical user interface for a search query
JP2019185478A (ja) * 2018-04-12 2019-10-24 富士通株式会社 分類プログラム、分類方法、および情報処理装置
JP7031462B2 (ja) 2018-04-12 2022-03-08 富士通株式会社 分類プログラム、分類方法、および情報処理装置

Similar Documents

Publication Publication Date Title
US9922383B2 (en) Patent claims analysis system and method
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
US9582486B2 (en) Apparatus and method for classifying and analyzing documents including text
JP2017515249A (ja) 結果文書セットに関する推定関連性指示子を表示するため及びクエリ可視化を表示するためのシステム及び方法
US20080021891A1 (en) Searching a document using relevance feedback
Smith et al. Evaluating visual representations for topic understanding and their effects on manually generated topic labels
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
EP3151135A1 (en) Organization and visualization of content from multiple media sources
KR20150032164A (ko) 심층적 문서 분석에 기초한 능동적 지식 안내
CN104298683A (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
JP2015106340A (ja) 情報処理装置及び情報処理プログラム
US11640499B2 (en) Systems, methods and computer program products for mining text documents to identify seminal issues and cases
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
KR20110035001A (ko) 키워드 시각화 장치 및 그 방법
CA3189504A1 (en) Systems and methods to facilitate enhanced document retrieval in electronic discovery
JP2009199576A (ja) 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体
JP5096850B2 (ja) 検索結果表示方法、検索結果表示プログラムおよび検索結果表示装置
JPWO2016147220A1 (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
JP4569179B2 (ja) ドキュメント検索装置
KR20060114569A (ko) 특허정보시스템의 작동방법
CN113407678A (zh) 知识图谱构建方法、装置和设备
JP2019053764A (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
JP2019053763A (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
JP5417359B2 (ja) 文書評価支援システム、及び文書評価支援方法