JP2009199576A

JP2009199576A - 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体

Info

Publication number: JP2009199576A
Application number: JP2008167354A
Authority: JP
Inventors: Kenji Ejima; 賢司江島; Shuichi Mitarai; 秀一御手洗; Sachio Hirokawa; 佐千男廣川; Takashi Mizukoshi; 孝水越; Tatsunori Yumen; 達憲宥免
Original assignee: Lafla; LAFLA Inc; YANO KEIZAI KENKYUSHO KK
Current assignee: Lafla; LAFLA Inc; YANO KEIZAI KENKYUSHO KK
Priority date: 2008-01-23
Filing date: 2008-06-26
Publication date: 2009-09-03

Abstract

【課題】ｍｉｎｄｅｘ分析を用いて、例えば有価証券報告書の解析のように文書自体の記載を確認しつつ行われる複数の文書の解析を支援することに適した文書解析支援装置等を提案する。
【解決手段】例えばＡＡＡ社、ＢＢＢ社、ＣＣＣ社という３つの有価証券報告書を対比して分析する場合に、文書表示領域１０５、１０７及び１０９には各社の有価証券報告書をそのまま表示し、分析結果表示領域１０３には、ｍｉｎｄｅｘ分析を用いて、各有価証券報告書に特徴的に現れる単語について階層的に表示する。利用者は、関心のある単語を表示指定することにより、有価証券報告書の記載を対比することができる。さらに、利用者は、関心のある単語を分析指定することにより、さらにｍｉｎｄｅｘ分析を行い、指定された単語を中心とした、関連する特徴的な単語を表示することができる。
【選択図】図４

Description

本願発明は、文書解析支援装置、文書解析支援方法、プログラム及び記録媒体に関し、特に複数の文書データの解析を支援する文書解析支援装置等に関する。

発明者らは、複数の文書等のデータからキーワード等を抽出し、抽出したキーワード等及びその関係を可視化する研究を行っている（以下、「ｍｉｎｄｅｘ分析」という。特許文献１、非特許文献１〜３など参照。）。

特開２００７−２５７４２０号公報廣川佐千男、外２名著，「文書群からの概念グラフの構成」，情報処理学会第169回自然言語処理研究会，pp.79-84，2005 廣川佐千男、外４名著，「プレーリストからの曲目やアーティストの相互関連抽出」，情報処理学会第81回情報学基礎研究会，Vol.2005，No.108，pp.31-36，2005 下司義寛、外３名著，「プレーリストにおける単語・曲・アーティストの共起関連分析」，日本知能情報ファジィ学会第４回ラフ集合と感性工学ワークショップ，pp.44-47，2005

例えば有価証券報告書を複数対比して解析する場合には、解析をする者にとって、有価証券報告書におけるキーワードだけでなく、その報告書自体の記載により直接解析することも重要である。

しかしながら、特許文献１等にあるように、ｍｉｎｄｅｘ分析に関して、キーワード等及びその関係を示すに留まっていた。そのため、ｍｉｎｄｅｘ分析結果と分析の基礎となった文書自体の記載との関係を有効に利用者に示すことができなかった。そのため、従来のｍｉｎｄｅｘ分析によっては、例えば有価証券報告書のように、その文書自体の記載を確認することが重要なものを解析する場合については、十分に活用することができなかった。

そこで、本願発明は、ｍｉｎｄｅｘ分析を用いて、例えば有価証券報告書の解析のように文書自体の記載を確認しつつ行われる複数の文書の解析を支援することに適した文書解析支援装置等を提案することを目的とする。

請求項１に係る発明は、複数の文書データの解析を支援する文書解析支援装置であって、前記複数の文書データに含まれる単語について、所定の条件に基づいて他の単語と上位下位の関係にあるか否かを判断する単語関係付け手段と、前記複数の文書データに含まれる単語を複数抽出する単語抽出手段と、表示装置に対して、前記単語抽出手段により抽出された複数の単語、及び、前記複数の単語に関する前記単語関係付け手段により求められた関係を表示させる分析結果表示制御手段と、表示装置に対して、前記複数の文書データを表示させる文書表示制御手段を備え、前記分析結果表示制御手段は、前記単語抽出手段により抽出された単語のいずれかが表示対象として指定された場合に、指定された単語を強調して表示し、前記文書表示制御手段は、前記複数の文書データのいずれかに含まれる単語が表示指定された場合に、前記複数の文書データのそれぞれについて表示指定された単語を含むか否かを判断し、表示装置に対して、表示指定された単語を含む文書データについては表示指定された単語を強調して表示させるものである。

請求項２に係る発明は、請求項１記載の文書解析支援装置であって、前記分析結果表示制御手段が、前記単語抽出手段により抽出された単語を、前記複数の文書データのそれぞれにおける出現頻度を示す情報と共に表示させるものである。

請求項３に係る発明は、請求項１又は２に記載の文書解析支援装置であって、前記分析結果表示制御手段が、ユーザの指定に応じて、前記単語抽出手段により抽出された単語のうち、少なくとも、前記複数の文書データにおける分散度が異なる２つの単語について、一方の単語を表示させて他方の単語を表示させないか、又は、２つの単語を分散度が異なることを示して表示させるものである。

請求項４に係る発明は、請求項１から３のいずれかに記載の文書解析支援装置であって、前記単語抽出手段は、前記複数の文書データのいずれかに含まれる単語が分析指定された場合に、前記複数の文書データから分析指定された単語と関連する特徴的な単語を抽出し、前記分析結果表示制御手段は、分析指定された単語及び前記単語抽出手段により抽出された複数の単語、並びに、これらの単語に関する前記単語関係付け手段により求められた関係を表示させるものである。

請求項５に係る発明は、複数の文書データの解析を支援する文書解析支援装置であって、前記複数の文書データに含まれる単語について、所定の条件に基づいて他の単語と上位下位の関係にあるか否かを判断する単語関係付け手段と、前記複数の文書データに含まれる単語を複数抽出する単語抽出手段と、表示装置に対して、前記単語抽出手段により抽出された複数の単語、及び、前記複数の単語に関する前記単語関係付け手段により求められた関係を表示させる分析結果表示制御手段と、表示装置に対して、前記複数の文書データを表示させる文書表示制御手段を備え、前記単語抽出手段は、前記複数の文書データのいずれかに含まれる単語が分析指定された場合に、前記複数の文書データから分析指定された単語と関連する特徴的な単語を抽出し、前記分析結果表示制御手段は、分析指定された単語及び前記単語抽出手段により抽出された複数の単語、並びに、これらの単語に関する前記単語関係付け手段により求められた関係を表示させるものである。

請求項６に係る発明は、複数の文書データの解析を支援する文書解析支援方法であって、単語関係付け手段が、前記複数の文書データに含まれる単語について、所定の条件に基づいて他の単語と上位下位の関係にあるか否かを判断するステップと、単語抽出手段が、前記複数の文書データに含まれる単語を複数抽出するステップと、分析結果表示制御手段が、表示装置に対して、前記単語抽出手段により抽出された複数の単語、及び、前記複数の単語に関する前記単語関係付け手段により求められた関係を表示させるステップと、文書表示制御手段が、表示装置に対して、前記複数の文書データを表示させるステップと、前記分析結果表示制御手段が、前記単語抽出手段により抽出された単語のいずれかが表示対象として指定された場合に、指定された単語を強調して表示するステップと、前記文書表示制御手段が、前記複数の文書データのいずれかに含まれる単語が表示指定された場合に、前記複数の文書データのそれぞれについて表示指定された単語を含むか否かを判断し、表示装置に対して、表示指定された単語を含む文書データについては表示指定された単語を強調して表示させるステップ、を含むものである。

請求項７に係る発明は、コンピュータを請求項１から５のいずれかに記載の文書解析支援装置として機能させるためのプログラムである。

請求項８に係る発明は、請求項７記載のプログラムを記録する記録媒体である。

本願発明によれば、ｍｉｎｄｅｘ分析の分析結果を単に表示するだけでなく、その分析の基礎となった複数の文書データと共に関係付けて表示することが可能となる。そのため、元の文書データ自体を解析するにあたり、ｍｉｎｄｅｘ分析を有効に活用することが可能となる。

また、請求項２に係る発明にあるように、文書データを参考にしつつ局所的なｍｉｎｄｅｘ分析をさらに行うことが可能となり、複数の文書データの解析をさらに有効に支援することが可能となる。

以下では、図面を参照して、本願発明の実施の形態の一例について説明する。

図１は、本願発明の実施の形態に係る文書解析支援装置の一例を示すブロック図である。

図１を参照して、文書解析支援装置１は、複数の文書データを記憶する記憶装置３と、記憶装置３から分析対象となる複数の文書データを抽出し、抽出した文書データ基づいてｍｉｎｄｅｘ分析を行うｍｉｎｄｅｘ分析部５と、表示装置７に対して分析対象となった複数の文書データ及びｍｉｎｄｅｘ分析部５の分析結果を表示させる表示制御部９と、利用者が情報を入力する入力部１１と、文書解析支援装置１全体の処理を制御する制御部１３を備える。

ｍｉｎｄｅｘ分析部５は、分析対象となる複数の文書データに含まれる単語を相互に関係づける単語関係付け部１５と、分析対象となる複数の文書データから単語を抽出する単語抽出部１７を有する。

また、表示制御部９は、表示装置７に対してｍｉｎｄｅｘ分析部５による分析結果を表示させる分析結果表示制御部１９と、表示装置７に対してｍｉｎｄｅｘ分析部５による分析の対象となった複数の文書データを表示させる文書表示制御部２１を有する。

図２は、図１の文書解析支援装置１の動作を示すフロー図である。図２を参照して、図１の文書解析支援装置１の動作について説明する。また、図３〜７を参照して、３つの文書データを抽出する場合について、表示装置７における具体的な表示例を説明する。

まず、ｍｉｎｄｅｘ分析部５は、入力部９に入力された利用者からの指定に基づいて、記憶装置３より、分析対象となる複数の文書データを抽出する（図２のステップＳＴ１）。

次に、ｍｉｎｄｅｘ分析部５は、抽出した文書データに基づいてｍｉｎｄｅｘ分析を行う（図２のステップＳＴ２）。ｍｉｎｄｅｘ分析の一例について、以下説明する。

まず、単語関係付け部１５は、次のようにして分析対象となる複数の文書データに基づいて単語間の上位下位の関係付けを行う。複数の文書データを含む集合を文書集合という。記憶装置３に記憶された文書データの集合を全体文書集合Ｕ、抽出された複数の文書データの集合を分析対象の文書集合Ｄ、ｗを単語とする。ｗが現れるＤ中の文書データの個数（文書頻度）、すなわち、＃｛ｄ∈Ｄ｜ｗがｄに現れる｝をｄｆ（ｗ，Ｄ）で表す。２つの単語ｕ，ｖの両方が現れる文書数をｄｆ（ｕ＊ｖ，Ｄ）で表す。図１の単語関係付け部１１は、単語ｕとｖについて、ｄｆ（ｕ＊ｖ，Ｄ）／ｄｆ（ｖ，Ｄ）＞βかつｄｆ（ｕ，Ｄ）＞ｄｆ（ｖ，Ｄ）となっているとき、「文書頻度の観点からｕはｖの上位である」ということにする。ここで、βは、０以上１以下の範囲の数値であり、例えば、βが０の場合は全く重なりがなくとも抽出し、βが１の場合は完全に重なるときに抽出する。

なお、Ｄの文書数が少ないために上下関係が分析しにくい場合も考えられる。そのため、ｄｆ（ｕ＊ｖ，Ｄ）／ｄｆ（ｖ，Ｄ）＞βという条件に代えて、例えば全体文書集合Ｕに対してｄｆ（ｕ＊ｖ，Ｕ）／ｄｆ（ｖ，Ｕ）＞βという条件を用いてもよく、また、Ｕに含まれる集合Ｇ（例えばＤが複数の会社に関する文書集合である場合に、これらの会社の業界に関する文書集合など）に対してｄｆ（ｕ＊ｖ，Ｇ）／ｄｆ（ｖ，Ｇ）＞βという条件を用いてもよい。

次に、単語抽出部１７は、例えば文書頻度に基づいて、Ｄの文書データから単語を抽出する。ｄｆ（ｗ，Ｄ）／ｄｆ（ｗ、Ｕ）＞αを満たす単語ｗを特徴語とする。ここで、αは０以上１以下の範囲の数値である。

なお、ある文書ｄ中に出現する単語ｔの頻度ｔｆ（ｔ，ｄ）以外にも、例えば、ＩＤＦ（全文書数をＮとし、単語ｔが出現する文書数をｄｆ（ｔ）とすると、単語ｔに対するＩＤＦはｉｄｆ（ｔ）=ｌｏｇ（Ｎ/ｄｆ（ｔ））+１で定義される。）、信号／雑音比、識別値などにより単語をランク付けして、特徴的な単語を抽出してもよい。また、単語の頻度は索引語の網羅性に関係し、ＩＤＦ、信号／雑音比及び識別値は索引語の特定性に関係する。そのため、複数の尺度を組み合わせて計算してもよい。例えば、２つの尺度の組み合わせとして、単語頻度ｔｆ（ｔ、ｄ）とＩＤＦｉｄｆ（ｔ）の積（ＴＦ−ＩＤＦ法）、単語頻度と信号／雑音比の積、単語頻度と識別値の積を用いてもよい。（徳永健伸著，「言語と計算５情報検索と言語処理」，東京大学出版会出版など参照）

以上の手順により、ｍｉｎｄｅｘ分析が行われる。

続いて、表示制御部９の分析結果表示制御部１９は、表示装置７に対して、ｍｉｎｄｅｘ分析部５の分析結果を表示させ、表示制御部９の文書表示制御部２１は、分析対象となった複数の文書データを表示させる（図２のステップＳＴ３）。

図３は、図２のステップＳＴ３における、図１の表示装置７の具体的な表示例を示す図である。表示装置７の表示画面１０１上には、分析結果表示領域１０３と、分析対象となった３つの文書データのそれぞれを表示する文書表示領域１０５、１０７及び１０９と、再分析対象となる単語を指定するための再分析対象単語指定領域１１１と、表示対象となる単語を指定するための表示対象単語指定領域１１３が含まれている。分析結果表示制御部１９により、分析結果表示領域１０３において、単語抽出部１７により抽出された単語が、単語関係付け部１５による上位下位の関係が明確になる形で表示される。文書表示制御部２１により、文書表示領域１０５、１０７及び１０９において、分析対象となった３つの文書データが、文頭より表示される。

続いて、制御部１３は、抽出された文書データに含まれる単語について、表示指定がなされたか否かを判断する（ステップＳＴ４）。単語の表示指定は、例えば、利用者が図３の分析結果表示領域１０３において表示されている単語が指定されたり（図４参照）、利用者が表示対象単語指定領域１１３において分析結果表示領域１０３に表示されている単語や文書表示領域１０５、１０７又は１０９に表示されている文書データ中の単語を入力したり（図５参照）することによりなされる。

図２のステップＳＴ４において抽出された文書データに含まれる単語について表示指定がなされた場合、表示制御部９は、表示装置７に対して、表示指定された単語を中心とした表示に変更させる（図２のステップＳＴ５）。そして、図２のステップＳＴ４の処理に戻る。

図４は、図２のステップＳＴ５において、分析結果表示領域１０３に表示されている単語である「燃料」が表示指定された場合の図１の表示装置７の具体的な表示例を示す図である。単語の表示指定がなされた場合、表示制御部９の文書表示制御部２１は、複数の文書データのそれぞれにおいて「燃料」という単語が含まれるか否かを判断する。そして、表示装置７に対して、「燃料」という単語を含む文書データについては、最初に現れるものから「燃料」という単語を強調して表示させ（図４の文書表示領域１０５及び１０７におけるＡＡＡ社、ＢＢＢ社に関する表示参照）、「燃料」という単語を含まない文書データについては文頭から表示する（図４の文書表示領域１０９におけるＣＣＣ社に関する表示参照）。なお、例えば分析結果表示領域１０３において表示されている単語が指定された場合のように、表示指定された単語が分析結果表示領域に表示されている単語である場合には、図１の分析結果表示制御部１９は、図４の分析結果表示領域１０３にあるように、表示指定された単語を強調して表示するようにしてもよい。また、表示指定された単語を含まない文書に関しては、表示を変更しないようにしてもよい。

また、図５は、図２のステップＳＴ５において、分析結果表示領域１０３に表示されていない単語である「通信」が指定された場合の図１の表示装置７の具体的な表示例を示す図である。表示制御部９の文書表示制御部２１は、複数の文書データのそれぞれにおいて「通信」という単語が含まれるか否かを判断する。そして、表示装置７に対して、「通信」という単語を含む文書データについては、最初に現れるものから「通信」という単語を強調して表示させ（図５の文書表示領域１０５及び１０９におけるＡＡＡ社、ＣＣＣ社に関する表示参照）、「通信」という単語を含まない文書データについては文頭から表示する（図４の文書表示領域１０７におけるＢＢＢ社に関する表示参照）。

図２のステップＳＴ４において単語の表示指定がなされていない場合、制御部１３は、抽出された文書データに含まれる単語について、再分析指定がなされたか否かを判断する（ステップＳＴ６）。単語の再分析指定は、例えば、利用者が図３の分析結果表示領域１０３において表示されている単語が指定されたり（図６参照）、利用者が表示対象単語指定領域１１３において分析結果表示領域１０３に表示されている単語や文書表示領域１０５、１０７又は１０９に表示されている文書データ中の単語を入力したり（図７参照）することによりなされる。

図２のステップＳＴ６において抽出された文書データに含まれる単語について再分析指定がなされた場合、ｍｉｎｄｅｘ分析部５は再分析指定がなされた単語を中心として単語の抽出を行い（図２のステップＳＴ７）、表示制御部９は、表示装置７に対して、再分析指定された単語を中心とした表示に変更させる（図５のステップＳＴ８）。そして、図２のステップＳＴ４の処理に戻る。

図６は、図２のステップＳＴ８において、「原油」という単語が再分析指定された場合の図１の表示装置７の具体的な表示例を示す図である。単語の表示指定がなされた場合、ｍｉｎｄｅｘ分析部５は、３つの文書データから「原油」に関連する特徴的な単語を抽出する。例えば、３つの文書を段落区切りなど適当な長さで分割し、分割後の文書を含む文書集合のうち「原油」を含む文書の集合をＤとする。そして、先に説明したように、ｍｉｎｄｅｘ分析部５の単語抽出部１７は、ｄｆ（ｗ，Ｄ）／ｄｆ（ｗ、Ｕ）＞αを満たす単語ｗを特徴語とする。ここで、αは０以上１以下の範囲の数値である。そして、分析結果表示制御部１９は、図６の分析結果表示領域１０３にあるように、表示装置７に対して、ｍｉｎｄｅｘ分析部５の分析結果を表示させる。

なお、文書の分割は、句点区切り、改行区切り、固定長区切りなどでもよく、また、特に分割をしなくてもよい。また、複数の単語がクエリとして指定されてもよく、１つ又は複数の単語がクエリとして指定された場合、それらの単語のブール式によって絞り込まれる文書集合をＤとして、単語を抽出するようにしてもよい。さらに、単語抽出部１７は、ｄｆ（ｗ，Ｄ）／ｄｆ（ｗ、Ｕ）＞αという条件以外にも、例えば、単語ｗについて、集合Ｄと集合Ｕの１文書あたりの頻度を比較するようにしてもよい。

図７は、図２のステップＳＴ８において、分析結果表示領域１０３に表示されている単語である「原油」という単語が再分析指定された場合の図１の表示装置７の具体的な表示例を示す図である。このように、分析結果表示領域１０３に表示された単語を再分析指定してもよく、また、再分析後の表示（図２のステップＳＴ８）において、文書表示制御部２１が、各文書データにおいて再分析指定された単語を中心とした表示を行うようにしてもよい。

続いて、図８〜図１１を参照して、本願発明の他の実施例について説明する。本実施例における文書解析支援装置は、図１におけるものである。

図８は、本実施例における文書解析支援装置１の他の動作例を示すフロー図である。図８を参照して、図１の文書解析支援装置１の他の動作例について説明する。

まず、ｍｉｎｄｅｘ分析部５は、図２のステップＳＴ１と同様に、入力部９に入力された利用者からの指定に基づいて、記憶装置３より、分析対象となる複数の文書データを抽出する（図８のステップＳＴＶ１）。図９は、図１の記憶装置３に記憶される有価証券報告書の一例を示す図である。5000社の三期分、計15,000個の有価証券報告書が存在するとする。有価証券報告書は、業績等の概要など７つのセクションに分かれている。以下、図８のフロー図の説明としては、図９にあるように、Ｂ社、Ｃ社及びＤ社の「財政状態と経営製成績の分析」のセクションＳ_１、Ｓ_２及びＳ_３を比較するものとする。

次に、ｍｉｎｄｅｘ分析部５は、図２のステップＳＴ２と同様に、抽出した文書データに基づいてｍｉｎｄｅｘ分析を行う（図２のステップＳＴ２）。ただし、分析対象は、Ｓ_１、Ｓ_２、Ｓ_３の３セクションであるのに対して、全文書数は105,000セクションである。一般的には、そのまま特徴語を抽出しても、有効なものとはならない。

そのため、単語抽出部１７は、さらに、例えば単語の頻度ｔｆ、ＩＤＦ、信号／雑音比、識別値、又は、これらの２つの尺度の積（ＴＦ−ＩＤＦ法など）などにより、特徴的な単語を抽出する。以下では、単語抽出部１７は、実施例１において説明したＴＦ−ＩＤＦ法により、ｔｆｉｄｆ（単語頻度ｔｆ（ｔ、ｄ）とＩＤＦｉｄｆ（ｔ）の積）が大きい単語を１００個抽出するとする。この段階で、レア単語（他の文書データではほとんど見られない単語）やノイズ（他の文書データでも頻繁に見られる単語など）は、ほとんど含まれず、有効な特徴語が抽出される。

抽出された１００個の単語については、それぞれ、Ｓ_１、Ｓ_２及びＳ_３における出現頻度ＴＦは計算されている。そこで、単語抽出部１７は、Ｓ_１、Ｓ_２及びＳ_３に対する分散の度合いを示す分散度（例えば、分散、標準偏差など）を計算する。例えば、標準偏差σは、(1)式で示される単語の出現頻度の平均値ｔｆ_Ａに対して(2)式を利用して計算する。

続いて、表示制御部９の分析結果表示制御部１９は、表示装置７に対して、ｍｉｎｄｅｘ分析部５の分析結果を表示させ、表示制御部９の文書表示制御部２１は、分析対象となった複数の文書データを表示させる（図２のステップＳＴＶ３）。

図１０は、図８のステップＳＴＶ３における図１の表示装置７の具体的な表示例を示す図である。表示装置７の表示画面２０１上には、分析結果表示領域２０３と、分析対象となったＳ１、Ｓ２及びＳ３を含む３つの有価証券報告書を示す文書データを表示する文書表示領域２０５、２０７及び２０９と、表示対象となる単語を指定するための表示対象単語指定領域２１１と、分析結果表示領域２０３におけるグラフの種類として「共通の言葉」と「固有の言葉」のいずれかを選択可能な種類選択領域２１３が含まれている。

分析結果表示制御部１９により、分析結果表示領域２０３において、単語抽出部１７により抽出された単語が、単語関係付け部１５による上位下位の関係が明確になる形で表示される。図１１は、図１０の分析結果表示領域２０３における表示例を示す図である。図１１（ａ）にあるように、各単語には、Ｓ_１、Ｓ_２及びＳ_３における単語の出現頻度ＴＦに応じた割合を示す円グラフを付して表示する。文書表示制御部２１により、文書表示領域２０５、２０７及び２０９において、分析対象となったＳ_１、Ｓ_２及びＳ_３を含む３つの有価証券報告書を示す文書データが表示される。

制御部１３は、図２のステップＳＴ４と同様に、抽出された文書データに含まれる単語について、ユーザにより、分析結果表示領域２０３に表示された単語が指定又は表示対象単語指定領域２１１に直接入力されることにより、表示指定がなされたか否かを判断する（図８のステップＳＴＶ４）。そして、図８のステップＳＴＶ４において抽出された文書データに含まれる単語について表示指定がなされた場合、表示制御部９は、表示装置７に対して、表示指定された単語を中心とした表示に変更させる（図８のステップＳＴＶ５）。図１０は、「セラミック」という単語が指定された場合の表示例を示す図である。「セラミック」という単語は、Ｄ社の有価証券報告書にのみ存在しており、Ｂ社、Ｃ社の有価証券報告書については文頭から表示し、Ｄ社については、７箇所に含まれ、ユーザの操作により、各単語を順に表示することができるように表示している。そして、図８のステップＳＴＶ４の処理に戻る。

図８のステップＳＴＶ４において単語の表示指定がなされていない場合、制御部１３は、図１０の種類選択領域２１３において、「共通の言葉」が新たに指定されたか否かを判断する（図８のステップＳＴＶ６）。「共通の単語」が新たに指定された場合、分析結果表示制御部１９は、標準偏差の値が小さいものから５０個について、単語関係付け部１５による上位下位の関係が明確になる形で表示する（図８のステップＳＴＶ７）。図１１（ｂ）は、その表示例を示す図である。図１１（ｂ）に示されるように、一般に、「共通の単語」指定により表示される単語は、相互に関連するものとなる。そのため、横断的な文書解析が可能となる。

図８のステップＳＴＶ６において単語の表示指定がなされていない場合、制御部１３は、図１０の種類選択領域２１３において、「固有の言葉」が新たに指定されたか否かを判断する（図８のステップＳＴＶ８）。「固有の単語」が新たに指定された場合、分析結果表示制御部１９は、標準偏差の値が大きいものから５０個について、単語関係付け部１５による上位下位の関係が明確になる形で表示する（図８のステップＳＴＶ９）。図１１（ｃ）は、その表示例を示す図である。図１１（ｃ）に示されるように、一般に、「固有の単語」指定により表示される単語は、各文書データについてクラスタ化している。そのため、ユーザは、各文書の特徴を示す単語を知ることができる。

このように、分散度（分散・標準偏差など）を用いて、分析対象となる単語の絞込みを行うことにより、利用者は、各文書を横断的に分析したり、各文書に特徴的な単語により分析したりすることが可能となる。さらに、各単語について分析対象となる文書における出現頻度の割合を表示することにより、利用者は、分析対象の文書における各単語の位置づけをより明確に把握することが可能となる。

なお、図８のフロー図において、ステップＳＴＶ７及びＳＴＶ９にあるように、個数を基準として表示を行っているが、これに代えて、標準偏差の値を基準とするようにしてもよい。また、図１１（ｃ）にあるように、標準偏差の値が大きいところは、各文献に応じてクラスタ化する傾向があり、このようなクラスタ化が可能な標準偏差の値を基準とするようにしてもよい。

また、図８のフロー図において、ステップＳＴＶ６〜９（図１１参照）にあるように、標準偏差の値が大きいものと小さいものを別々に表示しているが、同時に表示するようにしてもよい。この場合、例えば標準偏差の値に応じて区別して表示を行うようにしてもよい。このとき、一般的に、標準偏差の値が小さいもの（図１１（ｂ）参照）は各文献に共通にあることから出現頻度が高く、階層の上位に出現する傾向にあり、標準偏差の値が大きいもの（図１１（ｃ）参照）は階層の下位に出現する傾向にある。

さらに、実施例２においても、図２のステップＳＡＴ６〜８にあるように、再分析を行うようにしてもよい。

本願発明の実施の形態に係る文書解析支援装置の一例を示すブロック図である。図１の文書解析支援装置１の実施例１の動作例を示すフロー図である。図２のステップＳＴ３における、図１の表示装置７の具体的な表示例を示す図である。図２のステップＳＴ５において、分析結果表示領域１０３に表示されている単語である「燃料」が表示指定された場合の図１の表示装置７の具体的な表示例を示す図である。図２のステップＳＴ５において、分析結果表示領域１０３に表示されていない単語である「通信」が指定された場合の図１の表示装置７の具体的な表示例を示す図である。図２のステップＳＴ８において、「原油」という単語が再分析指定された場合の図１の表示装置７の具体的な表示例を示す図である。図２のステップＳＴ８において、分析結果表示領域１０３に表示されている単語である「原油」という単語が再分析指定された場合の図１の表示装置７の具体的な表示例を示す図である。図１の文書解析支援装置１の実施例２の動作例を示すフロー図である。図１の記憶装置３に記憶される有価証券報告書の一例を示す図である。図８のステップＳＴＶ３における図１の表示装置７の具体的な表示例を示す図である。図１０の分析結果表示領域２０３における表示例を示す図である。

符号の説明

１文書解析支援装置、１５単語関係付け部、１７単語抽出部、１９分析結果表示制御部、２１文書表示制御部

Claims

複数の文書データの解析を支援する文書解析支援装置であって、
前記複数の文書データに含まれる単語について、所定の条件に基づいて他の単語と上位下位の関係にあるか否かを判断する単語関係付け手段と、
前記複数の文書データに含まれる単語を複数抽出する単語抽出手段と、
表示装置に対して、前記単語抽出手段により抽出された複数の単語、及び、前記複数の単語に関する前記単語関係付け手段により求められた関係を表示させる分析結果表示制御手段と、
表示装置に対して、前記複数の文書データを表示させる文書表示制御手段
を備え、
前記分析結果表示制御手段は、前記単語抽出手段により抽出された単語のいずれかが表示対象として指定された場合に、指定された単語を強調して表示し、
前記文書表示制御手段は、前記複数の文書データのいずれかに含まれる単語が表示指定された場合に、前記複数の文書データのそれぞれについて表示指定された単語を含むか否かを判断し、表示装置に対して、表示指定された単語を含む文書データについては表示指定された単語を強調して表示させる、
文書解析支援装置。
前記分析結果表示制御手段は、前記単語抽出手段により抽出された単語を、前記複数の文書データのそれぞれにおける出現頻度を示す情報と共に表示させる、
請求項１記載の文書解析支援装置。
前記分析結果表示制御手段は、ユーザの指定に応じて、前記単語抽出手段により抽出された単語のうち、少なくとも、前記複数の文書データにおける分散度が異なる２つの単語について、一方の単語を表示させて他方の単語を表示させないか、又は、２つの単語を分散度が異なることを示して表示させる、
請求項１又は２に記載の文書解析支援装置。
前記単語抽出手段は、前記複数の文書データのいずれかに含まれる単語が分析指定された場合に、前記複数の文書データから分析指定された単語と関連する特徴的な単語を抽出し、
前記分析結果表示制御手段は、分析指定された単語及び前記単語抽出手段により抽出された複数の単語、並びに、これらの単語に関する前記単語関係付け手段により求められた関係を表示させる、
請求項１から３のいずれかに記載の文書解析支援装置。
複数の文書データの解析を支援する文書解析支援装置であって、
前記複数の文書データに含まれる単語について、所定の条件に基づいて他の単語と上位下位の関係にあるか否かを判断する単語関係付け手段と、
前記複数の文書データに含まれる単語を複数抽出する単語抽出手段と、
表示装置に対して、前記単語抽出手段により抽出された複数の単語、及び、前記複数の単語に関する前記単語関係付け手段により求められた関係を表示させる分析結果表示制御手段と、
表示装置に対して、前記複数の文書データを表示させる文書表示制御手段
を備え、
前記単語抽出手段は、前記複数の文書データのいずれかに含まれる単語が分析指定された場合に、前記複数の文書データから分析指定された単語と関連する特徴的な単語を抽出し、
前記分析結果表示制御手段は、分析指定された単語及び前記単語抽出手段により抽出された複数の単語、並びに、これらの単語に関する前記単語関係付け手段により求められた関係を表示させる、
文書解析支援装置。
複数の文書データの解析を支援する文書解析支援方法であって、
単語関係付け手段が、前記複数の文書データに含まれる単語について、所定の条件に基づいて他の単語と上位下位の関係にあるか否かを判断するステップと、
単語抽出手段が、前記複数の文書データに含まれる単語を複数抽出するステップと、
分析結果表示制御手段が、表示装置に対して、前記単語抽出手段により抽出された複数の単語、及び、前記複数の単語に関する前記単語関係付け手段により求められた関係を表示させるステップと、
文書表示制御手段が、表示装置に対して、前記複数の文書データを表示させるステップと、
前記分析結果表示制御手段が、前記単語抽出手段により抽出された単語のいずれかが表示対象として指定された場合に、指定された単語を強調して表示するステップと、
前記文書表示制御手段が、前記複数の文書データのいずれかに含まれる単語が表示指定された場合に、前記複数の文書データのそれぞれについて表示指定された単語を含むか否かを判断し、表示装置に対して、表示指定された単語を含む文書データについては表示指定された単語を強調して表示させるステップ、
を含む文書解析支援方法。
コンピュータを請求項１から５のいずれかに記載の文書解析支援装置として機能させるためのプログラム。
請求項７記載のプログラムを記録する記録媒体。