JP2004206391A

JP2004206391A - 文書情報分析装置

Info

Publication number: JP2004206391A
Application number: JP2002374540A
Authority: JP
Inventors: Tomohiro Masushio; 智宏増塩; Akito Nagai; 明人永井; Yasuhiro Takayama; 泰博高山; Makoto Imamura; 誠今村
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-12-25
Filing date: 2002-12-25
Publication date: 2004-07-22

Abstract

【課題】利用者が必要とする情報を含む文書を検索するためのキーワード群を精度よく求める。
【解決手段】主キーワードを含む文書を収集し、これらの文書に出現する各語の重要性を示す第１の特徴量を算出する第１の特徴量算出手段と、複数の文書を収集し、この文書に出現する各語の重要性を示す第２の特徴量を算出する第２の特徴量算出手段と、第１の特徴量を第２の特徴量に基づいて低減した値を上記主キーワードとの相関度として算出し、この相関度に基づいて関連キーワードを求める関連キーワード出力手段とを備えた。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、利用者が指定したキーワードに関係した特徴キーワードを抽出する文書情報分析装置に関する。
【０００２】
【従来の技術】
インターネット上のＷｅｂ文書や電子メール、あるいは蓄積されたテキストデータなどの電子化文書は非常な勢いで増加している。中には企業や個人にとって重要となる文書も含まれている場合があるものの、重要な文書の出現をあらかじめ知ることはできず、また、大量の文書を常時人手で監視して、重要な文書を収集・調査することは困難である。よって、重要な文書の出現傾向をマクロに分析し、必要に応じて重点的に調査するといった対応が求められる。そのためには、大量の文書の中から重要な文書の出現傾向をマクロに把握する必要がある。
【０００３】
重要文書の出現傾向をマクロに把握する技術の一つとして、文書の重要度を表すスコアの変化を時系列で分析するトレンド分析技術がある。トレンド分析技術では、利用者の指定したキーワードを含む文書のセットにおいて、各文書のスコアの時系列変化を分析して提示することで、重要な文書の急増を検出することができる。
【０００４】
しかし、トレンド分析技術では利用者がトレンド分析の対象とする文書を指定するためのキーワードを全て入力しなければならないという課題があった。特にトレンド分析の対象とする文書をもれなく指定するためには、新規に登場したキーワードの追加や必要でなくなったキーワードの削除を常に行う必要があるが、利用者にとってキーワードの追加・削除は大きな負担であった。
【０００５】
この問題を解決する従来技術として、利用者が収集した文書セットに特徴的なキーワードを、あらかじめパタンやヒューリスティックスを用意することなく抽出する方法が開示されている（例えば特許文献１）。
【０００６】
【特許文献１】
特開２０００−６７０５４公報（第４頁−９頁、第２図）
【０００７】
【発明が解決しようとする課題】
従来技術における検索方法では、利用者が必要としている情報を含む文書を取得するために、その利用者が必要としている情報を少数のキーワードによって表し、このキーワードに基づいて検索を実行している。ところが、このような検索方法では、それらの少数のキーワードが利用者が必要としている情報を必ずしも的確に表現しているとは限らない。その結果、それらの少数のキーワードに基づいて得た検索結果が、利用者が必要としている情報と乖離してしまうという課題があった。
【０００８】
本発明は、上記のような問題点を解決するためになされたもので、利用者が所望する内容を表すキーワードと相関の高いキーワードを優先的に抽出し、利用者の情報分析行為を支援する文書情報分析装置を提供することを目的とする。
【０００９】
【課題を解決するための手段】
本発明に係る文書情報分析装置は、主キーワードを入力する入力手段と、
上記主キーワードを含む文書を収集する第１の文書収集手段と、
上記第１の文書収集手段が収集した文書からなる第１の文書集合を記憶する第１の文書記憶手段と、
上記第１の文書集合の各文書について、この文書に出現する各語の重要性を示す第１の特徴量を上記各語ごとに算出する第１の特徴量算出手段と、
複数の文書を収集する第２の文書収集手段と、
上記第２の文書収集手段が収集した文書からなる第２の文書集合を記憶する第２の文書記憶手段と、
上記第２の文書集合の各文書について、この文書に出現する各語の重要性を示す第２の特徴量を上記各語ごとに算出する第２の特徴量算出手段と、
上記第１の文書集合の文書と、上記第２の文書集合の文書との双方に出現する語について、第１の特徴量を第２の特徴量に基づいて低減した値を上記主キーワードとの相関度として算出し、この相関度が所定の条件を満たす語を上記主キーワードの関連キーワードとして出力する関連キーワード出力手段とを備えるものである。
【００１０】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。
実施の形態１．
実施の形態１による文書情報分析装置は、主キーワードを入力として、この主キーワードに対する関連キーワードと相関度を求めるものである。ここで、関連キーワードとは、主キーワードと文書における内容的な関連度の高い語をいい、ある文書の概念上、主キーワードと同時に使用される（共起する）可能性の高い語を指す。
【００１１】
利用者がある内容の文書の検索をしようとする場合には、検索時にその利用者が必要とする内容（概念）を表現して検索システムに与える必要がある。そのためには、その概念を適切に表現するものと利用者が考えている語を検索キーワードとして指定することになる。このような語は通常一個又は二個の語、あるいは極めて少数の語に限られるが、そのような少数の語によって利用者が必要としている概念を表現できるとは限らない。その結果、たとえば利用者が指定した検索キーワードが限定的な範囲の意味しか持たない語である場合（たとえば特定製品の一つの型番など）には、検索される文書の数が少なく、十分な情報が得られない場合がある。一方、利用者が指定した検索キーワードが多くの文書に用いられる可能性のある語（たとえばメーカ名など）である場合には、利用者が閲覧しきれないほどの文書がヒットしてしまい、またその中にはしばしば本来その利用者が必要としている内容の文書以外の文書も含まれてしまう場合も生じる。
【００１２】
このような場合に、主キーワードと関連キーワードを組み合わせて用いることにより、より適切な検索結果が得られることが期待できる。たとえば主キーワードが限定的な範囲の意味しか持たない場合には、関連キーワードでの検索も合わせて行い、その論理和を検索結果として取得するようにすれば、主キーワードのみの検索結果よりも豊富な情報が得られる。一方、主キーワードが多義的であるために、不必要な情報も検索結果に含んでしまうような場合には、主キーワードと関連キーワードの論理積により与えられる検索条件による検索を行うことによって、さらに検索結果を絞り込み、適切な量と内容の情報のみを取得することができる。
【００１３】
上述のとおり、本文書情報分析装置が出力する関連キーワードとは、主キーワードに概念上関連性の高い語をいうが、文書における主キーワードとの共起頻度のみに基づいて関連キーワードを抽出しようとすると、主キーワードとそれほど概念的関連性のない一般的な用語も抽出されるおそれがある。例えば、主キーワードが出現する文書において出現頻度が高い語が、一般的な文書においても出現頻度が高い場合には、その語が主キーワードと概念的な関連性が高いとはいえない。そこで、主キーワードが用いられている文書における語の特徴量を求める一方で、主キーワードが出現するとは限らない一般的な文書における語の特徴量をも合わせて求め、前者の特徴量を後者の特徴量によって調整することによって、主キーワードと概念的関連性の低い語を関連キーワードとして抽出してしまうことを回避できる。本発明は、このような知見に基づきなされたものである。
【００１４】
図１は、本発明の実施の形態１による文書情報分析装置の構成を示す構成図である。図において、主キーワード入力手段１は、利用者が必要とする情報を表現する語として、利用者自身が適切であると判断する語（主キーワード）を入力するための手段であって、キーボードやスタイラスペン、マウスなどのポインティングデバイスによる入力の他、マイクを通じて入力された音声を音声認識により文字列に変換する方法で文字列の入力を行うものである。
【００１５】
第１の文書収集手段２は、主キーワード入力手段１によって指定されたキーワードを含む一以上の文書ファイルを収集する手段であり、インターネットや電子図書館など、大量の文書の母集合から主キーワードを含む文書を検索して収集するものであって、例えばインターネットの検索エンジンのようなものが該当する。一般的に、インターネットの検索エンジンでは、検索キーワードを入力するユーザインターフェースを有しているので、主キーワード入力手段１に相当する機能も兼ね備えている。なお、ここで文書ファイルとは、個々に独立したファイルである場合のみならず、たとえば一つの大きな文書ファイルが複数の文書を含んでいるような場合も含まれる。
【００１６】
第１の文書記憶手段３は、第１の文書収集手段２が収集した文書を構成要素とする文書集合（以下、第１の文書集合と呼ぶ）を記憶する記憶装置であって、ハードディスク装置や磁気テープ装置のような不揮発性の記憶装置はもちろん、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような揮発性の記憶装置でもよく、またネットワークを介して入出力可能な他のコンピュータ上の記憶装置であってもよい。第１の特徴量算出手段４は、第１の文書集合の各文書に出現する語のそれぞれについて特徴量（以下、第１の特徴量という）を算出する手段であって、その実体は、図示せぬＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央演算装置）によって実行されるコンピュータプログラムである。
【００１７】
第２の文書収集手段５は、文書を収集する手段であるが、第１の文書集合とは異なり、特に検索条件を定めずに文書を収集する手段である。第２の文書収集手段５の収集対象となる文書の情報源はインターネットや電子図書館などのように、特に条件を定めずに無作為に収集した文書の集合であることが望ましいが、これは必須の構成要件ではなく、たとえば特にテーマを定めずに利用者が書き込みを行うインターネット掲示板のようなものを通じて文書を収集してもよい。また第２の文書集合と、第１の文書集合との間には特別な包含関係は必要とせず、それぞれ異なる母集合から収集してもよいし、同一の母集合で双方を収集してもよい。
【００１８】
第２の文書記憶手段６は、第２の文書収集手段５が収集した文書を構成要素とする文書集合（以下、第２の文書集合と呼ぶ）を記憶する記憶装置であって、第１の文書記憶手段２と同様に各種不揮発性記憶装置および揮発性記憶装置などにより構成される。第２の特徴量算出手段７は、第２の文書集合の各文書に出現する語のそれぞれについて特徴量（以下、第２の特徴量という）を算出する手段であって、その実体は、図示せぬＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央演算装置）によって実行されるコンピュータプログラムである。
【００１９】
関連キーワード出力手段８は、第１の文書集合に基づいて算出された第１の特徴量と、第２の文書集合に基づいて算出された第２の特徴量から、第１の文書集合が含む各語の主キーワードに対する相関度を算出し、この相関度が所定の条件を満たす場合に、その語を主キーワードに対する関連キーワードとして出力する手段である。
【００２０】
次に、実施の形態１による文書情報分析装置における処理について説明する。図２は本文書情報分析装置の処理を示すフローチャートである。まずステップＳ１０１において、第２の文書収集手段２は、インターネットやイントラネットなどのネットワークや、データベースおよびファイルシステム等の文書を格納可能な媒体から、これらの媒体が格納する文書の全てまたは無作為に選択した一部の文書を収集する。次にステップＳ２０１において、第２の文書記憶手段６は、第２の文書収集手段２が収集した文書を第２の文書集合として記憶する。次に、ステップＳ３０１において、第２の特徴量算出手段は、第２の文書集合に出現する語を全て抽出し、さらにこれら全ての語についてその特徴量を算出する。文書中に出現する語の抽出には、たとえば形態素解析などの公知の技術を用いて行うことができるが、その他にも、例えば語を網羅的に収録した電子辞書と照合しながら語を抽出してもよい。またここでいう特徴量とは、一の文書における語の重要度を現す数値であり、たとえば、ある文書における語の出現頻度を用いる。図３は、ステップＳ３０１の結果得られる特徴量の一例を示す図である。図は、例えば文書における各語の出現回数（出現度数）を文書の総語数によって除算した値を、小数点第一位の精度で表示したものである。またこのような出現頻度を算出する方法以外にも、次のような特徴量算出方法が考えられる。
【００２１】
（１）例えば語が出現する文書の各部位に応じたスコアを予め定めておき、さらに各文書を走査して出現する語のスコアを文書の部位に基づいて加算していく方法である。たとえば文書のタイトルに語が出現する場合と、大見出しに出現する場合、中見出しに出現する場合、段落の中の文中に出現する場合では、語の重要度が異なると考えられる。そこで、文書のタイトルに出現した語に対してはより大きなスコアを与え、段落の中の文に出現する語には小さなスコアを与えるようにする。そして各語について出現位置ごとにスコアを加算していき、その合計を特徴量とする。またこれらのスコアを前述した出現頻度に重み付けを行うために用いてもよい。
【００２２】
（２）語とそのスコアを予め記憶する対象語辞書をさらに備えて、ステップＳ３０１における特徴量算出処理時にこの対象語辞書を参照して各語のスコアを取得し、このスコアに基づいて語の特徴量を算出する方法である。この方法によれば、注目すべき語にはより大きなスコアを与えることができる。たとえば人名や社名、製品名、型番などを対象語辞書に登録し、これらに大きなスコアを付しておくことで、第２の文書集合中の文書にこれらの語が出現した場合に大きな特徴量が得られるように調整することも可能となる。具体的な特徴量の算出方法としては、対象語辞書中のスコアのみを語ごとに加算して行く方法や、前述した出現頻度に対し、対象語辞書のスコアを用いて重み付けをする方法などが考えられる。
【００２３】
（３）第２の文書集合中の文書がＨＴＭＬ文書などの書式情報付き文書である場合に、この書式情報を利用してスコアを算出する方法である。たとえばある語に対して、その語がボールド文字で表示されるような書式が設定されている場合、文書におけるその語の重要度はボールド文字で表示されていない語に比べて高いと考えられる。このような場合に、ボールド文字表示という書式情報を利用して、このような書式情報のない語よりも大きな特徴量が得られるようにすることができる。これ以外にも、フォントのサイズ情報を利用して重要度を調整する方法や、テーブル化された文字列であれば、テーブルの左端に近い位置に表示される語、テーブルの上端に近い位置に表示される語の特徴量が大きくなるような調整を行うことも考えられる。
【００２４】
続いてステップＳ４０１において、主キーワード入力手段１は、利用者から指定されたキーワードの入力を行う。ここでの具体的な入力手段としては前述したとおり、キーボードやポインティングデバイスによる入力方法、音声認識による入力方法などを用いる。また主キーワード入力手段１は、複数のキーワードを入力してもよい。たとえば入力用のテキストボックス（入力フィールド）を複数設けてもよいし、複数のキーワードをブランク（空白文字）で区切って入力するようにしてもよい。さらに「三菱電機の携帯電話」のように助詞や接続詞で接続されている語を複数のキーワードに分割してもよい。次に、ステップＳ５０１において、第１の文書を収集する。ここでは、主キーワード入力手段１を通じて入力された主キーワードを含む文書を、インターネットやイントラネットなどのネットワークや、データベース、および、ファイルシステム等の文書を格納可能な媒体から収集する。そのための収集手段としては、たとえば全文検索エンジンに主キーワードを検索キーワードを指定して、その検索結果となる文書を収集する。上記の例では、最初に主キーワード入力手段１によって主キーワードを入力し、次にこの主キーワードに基づいて、第１の文書を収集する構成としているが、この他に、第１の文書収集手段によって予め所定のテーマに基づいて文書を収集しておき、これらの各文書に共通して含まれる語の中から主キーワード入力手段１によって主キーワードを選択するような構成をとってもよい。さらにステップＳ６０１において、第１の文書記憶手段２は第１の文書収集手段が収集した文書を構成要素とする第１の文書集合を記憶する。
【００２５】
次にステップＳ７０１において、第１の特徴量算出手段４は、第１の文書記憶手段２が記憶する第１の文書集合の各文書に出現する語と第１の特徴量を、文書ごとに算出する。文書中に出現する語の抽出方法については、ステップＳ３０１で説明した語の抽出方法と同様であるので、説明を省略する。ここで、第１の文書は、もともと主キーワードを検索キーワードとして収集した文書であり、第１の文書集合は第１の文書を構成要素とする集合であるので、第１の文書集合の各文書には、主キーワードが少なくとも１回以上出現する。したがってステップＳ７０１では、主キーワードも抽出される語に含めるようにする。
【００２６】
ステップＳ７０１ではさらに、抽出した各語について第１の特徴量を算出する。ここで算出する第１の特徴量とは、ステップ３０１で第２の特徴量算出手段７で求める特徴量と同じく、その語の各文書における重要度を現す数値であるので、ここでは説明を省略する。ただし、第２の特徴量の算出方法は必ずしもステップ３０１で算出する第１の特徴量の算出方法と同じである必要はない。例えばステップＳ３０１では、出現頻度を第２の特徴量として用いたが、第１の特徴量として語ごとのスコアを加算していく方法を採用してもよい。
【００２７】
次にステップＳ８０１において、関連キーワード出力手段８は、第１の特徴量算出手段４の出力する語の第１の特徴量と第２の特徴量算出手段７が算出する語の第２の特徴量に基づいて、語の相関度を算出し、関連キーワードの抽出を行う。そのためには、まず（１）第１の特徴量と第２の特徴量から合成特徴量を算出し（以下、処理１という）、その後（２）この合成特徴量から関連キーワードを抽出して（以下、処理２という）、（３）関連キーワードの相関度を算出する（以下、処理３という）。そこで次に、これらの処理について説明する。
【００２８】
まず、上記処理１の「第１の特徴量と第２の特徴量から合成特徴量を算出する処理」について説明する。図４は、処理１における合成特徴量算出処理を示すフローチャートである。図のステップＳ８０１１において、第１の文書集合の語数を変数Ｍに代入する。ここで、第１の文書集合の語数とは、各文書を構成する語の総数ではなく、第１の文書集合の文書に出現する語の種類の数を指すものである。したがって同じ語が何度も出現する文書の場合、その文書を構成する語の数よりもＭは小さい値になる。さらに、Ｓ８０１１において、第１の文書集合に収集された文書の個数を変数Ｎに代入する。次にステップＳ８０１２において、変数ｉに１を代入する。このｉは第１の文書集合の文書に出現する語の種類に対するカウンタである。ステップＳ８０１３において、カウンタｉがＭを超えているかどうかを調べる。その結果超えていない場合にはステップＳ８０１４に進む（Ｓ８０１３：ＹＥＳ）。超えている場合は第１の文書集合のすべての語について処理を終えたので、処理を終了する。
【００２９】
ステップＳ８０１４において、第１の文書集合に出現する語を語の種類ごとに順次配列Ｗ［ｉ］に格納する。またそれと同時に、語Ｗ［ｉ］の第２の特徴量をＰ_２［ｉ］に格納する。次にステップＳ８０１５において、変数ｊに１を代入する。このｊは第１の文書集合に収集された文書に対するカウンタである。ステップＳ８０１６において、カウンタｊがＮを超えているかどうかを調べる。その結果超えていない場合には、ステップＳ８０１７に進む（Ｓ８０１６：ＹＥＳ）。超えている場合には、ステップＳ８０２０に進むが（Ｓ８０１６：ＮＯ）、この場合については後述する。
【００３０】
ステップＳ８０１７において、語Ｗ［ｉ］の第１の文書集合のｊ番目の文書についての第１の特徴量をＰ_１［ｉ，ｊ］に格納する。ステップＳ８０１８では、語Ｗ［ｉ］の第１の文書集合のｊ番目の文書についての合成特徴量Ｐ_ｓ［ｉ，ｊ］を算出する。ここでは、第１の特徴量Ｐ_１［ｉ，ｊ］を第２の特徴量Ｐ_２［ｉ］で割ったものをＰ_ｓ［ｉ，ｊ］に代入する。このような演算を行う理由は、次のとおりである。すなわち、第１の特徴量Ｐ_１［ｉ，ｊ］とは、第１の文書集合のｊ番目の文書において、語Ｗ［ｉ］が主キーワードとの概念的な関連性を有していると考えられる程度を示す指標であり、一方で第２の特徴量Ｐ_２［ｉ］とは、語Ｗ［ｉ］が主キーワードとは無関係に使用される頻度の高さを示す指標である。合成特徴量Ｐ_ｓ［ｉ，ｊ］は、これらの特徴量を総合的に考慮して決定される値とすることが望ましい。そこで、第１の特徴量Ｐ_１［ｉ，ｊ］に比例し、第２の特徴量Ｐ_２［ｉ］に反比例するような値を合成特徴量Ｐ_ｓ［ｉ，ｊ］として採用する。なお、合成特徴量Ｐ_ｓ［ｉ，ｊ］を求めるための演算は、第１の特徴量Ｐ_１［ｉ，ｊ］が大きければ大きい値をとり、また第２の特徴量Ｐ_２［ｉ］が小さければ小さい値をとるような演算であればよいので、Ｐ_１［ｉ，ｊ］／Ｐ_２［ｉ］という演算に限られるものではない。たとえば、第１の特徴量Ｐ_１［ｉ，ｊ］に何らかの値を乗じて、そこから第２の特徴量Ｐ_２［ｉ］を減算した結果を合成特徴量Ｐ_ｓ［ｉ，ｊ］としてもよい。
【００３１】
次に、ステップＳ８０１９でカウンタｊに１を加えて、ステップＳ８０１３に戻る。この結果ステップＳ８０１６でカウンタｊがＮを超えた場合（ステップＳ８０１６：ＮＯ）は、ステップＳ８０２０に進む。ステップＳ８０２０では、カウンタｉに１を加えて、ステップＳ８０１３に戻る。これらにより第１の文書集合中の全ての語Ｗ［ｉ］（ｉ＝１，２，…，Ｍ）について処理することで、（１）の処理は終了する。
【００３２】
続いて、前述の処理２である「（２）合成特徴量から関連キーワードを抽出する処理」および処理３である「（３）関連キーワードの相関度を算出する処理」について説明する。図５は、処理２及び処理３のフローチャートである。図のステップＳ８０２１において、変数ｉに１を代入する。この変数ｉは以下の処理においてカウンタとして用いられる。ステップＳ８０２２において、カウンタｉとＭを比較し、Ｍ以下である場合にはステップＳ８０２３に進む（Ｓ８０２２：ＹＥＳ）。ここで、Ｍとは上記（１）と同じく第１の文書集合の語数を代入した変数であって、上記（１）のステップＳ８０１１ですでに設定しているものを用いればよい。なお、カウンタｉがＭを超える場合（ステップ８０２２：ＮＯ）については後述する。
【００３３】
次に、ステップＳ８０２３の処理を実行する。ここで、上記処理１によって求められた、合成特徴量Ｐ_ｓ［ｉ，ｊ］をｊ番目の成分とするベクトルを、語Ｗ［ｉ］の合成特徴量ベクトルと呼ぶこととし、Ｐ_ｓ［ｉ］で表すこととする。ステップＳ８０２３においては、この合成特徴量ベクトルＰ_ｓ［ｉ］の正規化を行い、その結果をＲ_Ｓ［ｉ］に代入する。「合成特徴量ベクトルＰ_ｓ［ｉ］の正規化」とは、次式によって表されるものであり、合成特徴量ベクトルＰ_ｓ［ｉ］の各成分をその総和によって除算したものである。
【００３４】
【数１】

上式において、Ｎは処理１における場合と同じく第１の文書集合に収集された文書の個数である。この結果、正規化後の合成特徴量ベクトルの成分の和は１となる。
【００３５】
上記のように正規化を行う理由は次の通りである。すなわち、処理１において、第１の特徴量を第２の特徴量で割った値を合成特徴量とした。第１の特徴量や第２の特徴量は、それぞれの文書において重要と考えられる語を、出現頻度や出現に基づくスコアを積算することで得た値である。ここで出現頻度や出現に基づくスコア、例えば第２の特徴量を算出するための母集団である第２の文書集合で収集された文書の数が大量にあり、第１の特徴量を算出するための母集団である第１の文書集合で収集された文書の数が少数である場合、第２の特徴量が第１の特徴量に比べて大きい値となることが予想される。すなわち、第１の文書集合及び第２の文書集合それぞれの文書の収集の仕方によって、得られる合成特徴量の大きさが変動することになってしまう。そこで、それぞれの文書間及び集合間でのこのような影響を排除するために、合成特徴量ベクトルの成分の和が１となるような正規化を行う。
【００３６】
ステップＳ８０２４において、カウンタｉに１を加え、ステップＳ８０２２に戻る。ステップＳ８０２２においてカウンタｉがＭ以下である場合（Ｓ８０２２：ＹＥＳ）には、上記のステップＳ８０２３及びステップＳ８０２４を繰り返し実行する。またステップＳ８０２２においてカウンタｉがＭを超える場合（Ｓ８０２２：ＮＯ）は、ステップＳ８０２５に進む。
【００３７】
ステップＳ８０２５において、正規化された第１の文書集合の各語Ｗ［ｉ］の合成特徴量ベクトルＲ_Ｓ［ｉ］（ｉ＝１，２，…，Ｍ）のうち、主キーワードの合成特徴量ベクトルをＭ_ｓに代入する。なお、前述したとおり、第１の文書集合は、主キーワードを含む文書を収集したものであるから、その中に含まれる語には主キーワードが含まれている。
【００３８】
続いてステップＳ８０２６において、カウンタｉを再び１に初期化する。ステップＳ８０２７において、ｉがＭを超えるかどうかを調べ、Ｍ以下である場合（Ｓ８０２７：ＹＥＳ）には、ステップＳ８０２８に進む。ステップＳ８０２８では、Ｗ［ｉ］が主キーワードでない場合に、合成特徴量ベクトルＲ_Ｓ［ｉ］と主キーワードの合成特徴量ベクトルＭ_ｓとの内積を計算する。この計算結果（スカラー量）をＩ［ｉ］に代入する。ステップＳ８０２９においてＩ［ｉ］を所定の値と比較し、Ｉ［ｉ］が所定の値を超える場合（Ｓ８０２９：ＹＥＳ）には、ステップＳ８０３０に進む。ステップＳ８０３０において、Ｉ［ｉ］が所定の値を超えるので、Ｗ［ｉ］とＩ［ｉ］をそれぞれ関連キーワードとその相関度として算出する。算出先はコンピュータのディスプレイ装置や記憶装置などである。なおここで、上記ステップＳ８０２９においてＩ［ｉ］が所定の値を超える場合に、Ｗ［ｉ］を関連キーワードとして抽出することとしたが、Ｉ［ｉ］が所定の値以上である場合に、Ｗ［ｉ］を関連キーワードとして抽出する構成としてもよい。
【００３９】
次にステップＳ８０３１において、カウンタｉに１を加えてステップＳ８０２７に戻る。ステップＳ８０２７において、カウンタｉがＭを超えた場合（Ｓ８０２７：ＮＯ）は、処理を終了する。
【００４０】
なお、上記の説明においては、主キーワードが１個の場合を想定したが、主キーワードが複数ある場合は主キーワードの合成特徴量ベクトルＭ_ｓが複数のベクトルになる。この場合は、それぞれの主キーワードの合成特徴量ベクトルと各語の正規化後の合成特徴量ベクトルとの内積を算出し、さらにそれぞれの内積による値を加算あるいは乗算した値を用いる。加算と乗算のいずれを用いるかについては、検索用途による。例えば、複数の主キーワードの検索結果の論理和をとる場合には、上記の内積値の和を求めればよいし、また複数の主キーワードの検索結果の論理積をとる場合には、上記の内積値の積を求める。
【００４１】
上述のとおり、実施の形態１による文書情報分析装置によれば、主キーワードと概念上関連性の高い語を精度よく抽出することができるという効果を有する。
【００４２】
なお、実施の形態１による文書情報分析装置では、まず第２の特徴量を算出した後に第１の特徴量を算出し、最後に関連キーワード出力手段８が第１の特徴量と第２の特徴量に基づいて関連キーワードの抽出と相関度の算出を行った。しかしこの他にも、先に第１の特徴量を算出してから、第２の特徴量を算出し、関連キーワードの抽出と相関度の算出を行うようにしてもよいし、また並列プロセッサや複数のコンピュータを協働させることによって第１の特徴量の算出と第２の特徴量の算出を並行して実行するようにしても構わない。また第２の特徴量の算出処理は主キーワードには依存しないので、最初に一度だけ第２の特徴量を算出しておき、以後主キーワード入力手段１から第１の特徴量算出手段４までの処理のみを繰り返すような構成にしてもよい。
【００４３】
また、実施の形態１による文書情報分析装置では、一以上の主キーワードに基づいて、関連キーワードを抽出することとしたが、このほかに主キーワードから抽出した関連キーワードを主キーワードとして、再びこれらの主キーワードに基づく関連キーワードを抽出するようにしてもよい。このような処理を多段階で行うことにより、主キーワードにより表される概念にまつわる文書の検索を効率的に行うことができる。
【００４４】
なお、実施の形態１による文書情報分析装置と同様の機能をコンピュータに実行させるプログラムとして構成してもよい。この場合、このプログラムは主キーワード入力手段１と同様の利用者インターフェースを有し、第１の文書収集手段２と同じく主キーワードを含む文書を収集し、第１の文書記憶手段３を構成する記憶装置にこれらの文書を記憶させる処理と、この記憶装置が記憶する文書から第１の特徴量を算出する処理と、第２の文書収集手段と同じく文書を収集し、記憶装置にこれらの文書を記憶させる処理と、この記憶装置が記憶する文書から第２の特徴量を算出する処理と、第１の特徴量と第２の特徴量から関連キーワードを抽出し、さらに相関度を算出する処理から構成される。
【００４５】
実施の形態２．
次に、本発明の別の実施の形態について説明する。本発明の実施の形態２による文書情報分析装置は、主キーワードと関連キーワードの相関度の時間変化を分析するための手段を提供するものであり、これによって利用者は文書のトレンド変化を把握することができる。
【００４６】
図６は、本発明の実施の形態２による文書情報分析装置の構成を示す構成図である。図において、スコアリング手段９は、前記第１の文書集合中の各文書（以下、対象文書と呼ぶ）に対して、文書の重要度をスコアとして与える手段である。対象文書作成日時取得手段１０は、対象文書の作成日時を取得する。トレンド分析手段１１は、第１の文書記憶手段が記憶している対象文書の集合と、スコアリング手段９により対象文書に与えられたスコアと、対象文書作成日時取得手段１０により取得された対象文書の作成日時を用い、対象文書のスコアの時間変化を求めて利用者に提示する手段であり、具体的には、図示せぬＣＲＴ（ＣａｔｈｏｄＲａｙＴｕｂｅ）装置、液晶スクリーン装置などの表示装置や、プリンタ装置に出力を行う手段である。時系列特徴記憶手段１２は、前記トレンド分析手段１１により算出された対象文書のスコアの時間変化を記憶する手段であって、具体的にはハードディスク装置やフラッシュメモリ装置などの不揮発性記憶装置あるいはＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などによって構成されるものであって、データ容量が大きくなる場合には、データアクセスの効率性を確保するために、関係データベースなどの公知の技術を用いて構成してもよい。なお、図６において実施の形態１と同じ符号を付した構成要素については、実施の形態１と同様であるので説明を省略する。
【００４７】
次に、実施の形態２による文書情報分析装置の処理について説明する。図７は本文書情報分析装置の処理を示すフローチャートである。図のステップＳ１０１からステップＳ７０１においては、実施の形態１と同様に第２の文書を収集し、それらに基づく第２の特徴量を算出するとともに、主キーワードの入力を受けて第１の文書を収集し、第１の特徴量を算出する。これらの処理については、実施の形態１と同様であるので、ここでは説明を省略する。
【００４８】
次にステップＳ８０１において、実施の形態１と同じく主キーワードに関連する関連キーワードの抽出と、各関連キーワードの相関度の算出を行う。ここで、実施の形態１では相関度を算出するために、主キーワードと各関連キーワードとの間で、それぞれの第１の文書集合に含まれる文書ごとの特徴量を成分とする特徴量ベクトルの内積を求める方法によって相関度を算出した。これに対して実施の形態２では、主キーワードと各関連キーワードとの間で、それぞれの第１の文書集合に含まれる文書ごとの特徴量同士の積を算出し、文書ごとにその積を保持することとする。
【００４９】
図８は、実施の形態２における相関度の算出方法の例を説明する図である。図において、主キーワードを「携帯電話」とし、また第１の文書集合に文書Ｄ１、Ｄ２、Ｄ３、Ｄ４が含まれるものとする。さらに、これらの文書における関連キーワード「メール」の合成特徴量をそれぞれ３．０、１．０、１．０、４．０であるものとし、主キーワード「携帯電話」の合成特徴量を０．３６、０，０９、０．３６、０．１８とする。そうすると、実施の形態２における相関度は、文書毎にこれらの合成特徴量の積をとって、文書Ｄ１については１．０８（＝３．０×０．３６）、文書Ｄ２については０．０９（＝１．０×０．０９）、文書Ｄ３については０．３６（＝１．０×０．３６）、文書Ｄ４については０．７２（＝４．０×０．１８）となる。
【００５０】
続いてステップＳ９０１において、スコアリング手段９は第１の文書記憶手段３が記憶する文書の集合における文書に対して文書の重要度をスコアとして与える。ここで、文書の重要度とは、利用者がその文書を注目すべき尺度を文書毎に表した数値である。このような文書の重要度としては、たとえば、特開２００１−３２５２７５「インターネット上で運用されている複数の検索エンジンを使ってＷＥＢページの検索レポートを作成する方法と装置」で開示されている技術を用いて、文書中でのクレーム表現の出現量を示すクレーム出現率や、その文書が他の文書により参照されている割合を示す被参照度などを算出することができるが、このようなクレーム出現率や被参照度を文書の重要度として用いると効果的である。この他、実施の形態１による文書情報分析装置によって抽出できる主キーワードと関連キーワードが文書内に出現する頻度や、同じく実施の形態１で算出する特徴量を文書毎に分析して、それぞれの文書の重要度を決定してもよい。
【００５１】
次に、ステップＳ１００１において対象文書作成日時取得手段１０は、第１の文書集合の文書を入力として受け取り、各文書の作成日時を取得する。文書作成日時の取得方法としては、対象文書がオペレーティングシステムにおけるファイルシステムやネットワークファイルシステムで管理される文書を取得したものであれば、それらのシステムが管理するファイルのタイムスタンプを取得すればよい。また、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）で公開される文書であれば、Ｗｅｂサーバより送信されるｈｔｔｐヘッダ中に含まれる文書の更新日時情報を取得してもよい。対象文書作成日時取得手段１０は、対象文書の文書作成日時を、対象文書に対応付けて作成日時情報として出力する。
【００５２】
続いて、トレンド分析ステップＳ１１０１においてトレンド分析手段１１は、対象文書作成日時取得手段１０により取得された作成日時情報について、関連キーワード出力手段８が出力した各文書ごとの関連キーワードと相関度との組と、スコアリング手段９により各対象文書に与えられたスコア情報とを関連づけ、その結果を出力する。図９は、ステップＳ１１０１により作成される時系列情報の一例を示す図である。時系列特徴は、各対象文書について文書作成日時、文書スコア、文書名やキーワードの特徴量などの文書特徴情報を記述したものとなっている。さらに、ステップＳ１２０１において、時系列特徴記憶手段１２はトレンド分析手段１１により作成された時系列特徴を格納する。なお時系列特徴記憶手段１２は、特徴キーワードを指定することで、指定された特徴キーワードを文書特徴情報中に含むすべての対象文書の時系列特徴を取得できるものとする。
【００５３】
次に、ステップＳ１３０１において、トレンド分析手段１１は対話ステップを実行する。このステップでは、ステップＳ１２０１までに分析した各キーワードの時系列変化を利用者に表示する。利用者に表示する方法としては、図９に示した表の形式によって、各キーワードの特徴量を画面またはプリンタなどの出力手段に出力する方法や、文書スコア及び一以上のキーワードについての時系列変化をグラフ化して表示する方法がある。ここでは、後者の時系列変化をグラフ化して表示する方法について説明する。図１０は、ステップＳ１３０１における処理をより詳細化したフローチャートである。図のステップＳ１３０２において、トレンド分析手段１１はメニューを表示する。ここで表示するメニューの例としては図１１に示すようなものであり、一般的なグラフィカル利用者インターフェース（以下ＧＵＩという）システムのサポートするメニューシステムによって実現される。図において、ポップアップメニュー２１は、ステップＳ１３０１の対話ステップで選択しうるメニューの一覧を表示するものであり、またマウスポインタ２２は現在利用者が選択しようとしている位置を表示するものである。さらに「表示」という文字列の後ろに表示される「（Ｄ）」、「キーワード毎の時系列変化表示」という文字列の後ろに表示される「（Ｋ）」、「文書スコアの時系列変化表示」という文字列の後ろに表示される「（Ｄ）」、「終了」という文字列の後ろに表示される「（Ｘ）」という文字列は、それぞれキーボードとメニュー選択の対応関係（ショートカットキーまたはアクセラレータ）を示している。この他にもメニューの表示方法としては、それぞれのメニューをアイコンとして表示する方法や、キャラクタのみを表示しうる表示デバイスの場合は、メニュー文字列を列挙し、選択しようとしているメニューをハイライト（強調）表示するようなインターフェースを採用するなどの方法がある。またメニューのような方法ではなく、同じくＧＵＩシステムがサポートするボタンインターフェースを採用してもよい。
【００５４】
また図１１のようなポップアップメニューによるメニューの表示ではなく、たとえば図１２に示すような個別のウィンドウ（ダイアログボックス）を用いて、表示する内容を選択させてもよい。図１２において、キーワード２３は後述するキーワード選択のためのテキストボックス（テキスト入力フィールド）であり、またキーワード毎の時系列変化表示ボタン２４は、キーワード毎の時系列変化表示を選択する際に押下するボタンである。また文書スコアの時系列変化表示ボタン２５は、文書スコアの時系列変化表示を選択する際に押下するボタンである。終了ボタン２６は、終了を選択する際に押下するボタンである。この他メニュー表示方法としては、メニューとキーボード、マウスなどのポインティングデバイスなどの入力装置を対応づけて操作できるようにしてあるものであれば、どのようなものであってもよい。
【００５５】
次にステップＳ１３０３において、Ｓ１３０２で表示したメニューの選択を読み込む。図１１のようなグラフィカル利用者インターフェースの場合、それぞれのメニューアイテムに対して、ＩＤ（識別子）が割り振られていることが一般的であり、メニューが選択されるとＧＵＩシステムによって、メッセージが送信されることが多い。本文書情報分析装置においては、このＧＵＩシステムから送信されるメッセージを読み込むことによってメニューの選択を取得するが、このようなメッセージパッシングによるメニュー選択識別ではなく、所定のライブラリルーチンを呼び出してメニュー識別子を取得するようなＧＵＩシステムである場合には、このライブラリルーチンを呼び出してメニュー識別子を取得してもよい。メニュー選択によって取得したメニュー識別子によって、以降の処理は異なる。利用者がキーワード毎の時系列変化表示メニューを選択した場合には、ステップＳ１３０４に進み、また文書スコアの時系列変化表示を選択した場合には、ステップ１３０７に進む。さらに終了メニューを選択した場合にはステップＳ１３０１の処理全体を終了する。そこでステップＳ１３０４およびステップＳ１３０７以降の処理について説明する。
【００５６】
まずステップＳ１３０４では、メニュー選択後にキーワード入力を行う。ここでのキーワードとは、関連キーワード出力手段８が抽出した関連キーワードであって、キーボードを通じて入力する。次にステップＳ１３０５において、入力されたキーワードについて、時系列特徴記憶手段１２が記憶する時系列毎の相関度を取得し、ステップＳ１３０６において相関度と時間を座標軸としてグラフ表示を行う。これによって、関連キーワード個別の時間毎の主キーワードとの相関度の変化を視覚的に確認することができる。ステップＳ１３０６におけるグラフ表示が終了すると、再びＳ１３０２に戻りメニューを表示する。
【００５７】
またステップＳ１３０７では、時系列特徴記憶手段１２が記憶する時系列毎の文書スコアを取得する。次にステップＳ１３０８において、各時系列ごとの文書スコア（これをプロットと呼ぶ）に各関連キーワードの相関度を付随データ（プロパティと呼ぶ）として対応させる。
【００５８】
さらに、ステップＳ１３０９では、時系列特徴の時間変化検出を行う。トレンド分析手段１１は時系列特徴記憶手段１２に格納されている時系列特徴を文書ごとに先頭から走査し、各文書のスコアと文書作成日時の組を取得し、これを文書作成日時の昇順となるようリストを作成する。次に、リストの先頭から順に走査し、現在操作中の文書とその次の文書について、スコアの差分を文書作成日時の差分で割った値を求める。この値が所定の範囲を超えている場合は、リスト中の現在操作中の文書の位置にフラグを立てる。この処理をリスト中のすべての文書について行う。最後に、リスト中のフラグのつけられた文書の文書作成日時のみを集めたリストを新たに生成する。なお、所定の範囲とは、あらかじめ利用者が指定した数値の範囲のことである。
【００５９】
次に、ステップＳ１３１０において、トレンド分析手段１１はステップＳ１３０９において生成された文書作成日時のリストと同一の文書作成日時の文書プロパティを提示する。トレンド分析手段１１は時系列特徴記憶手段１２に格納されている時系列特徴を文書ごとに先頭から走査し、文書作成日時が、ステップＳ１３０９において生成された文書作成日時のリストに含まれているか検査する。含まれていない場合は次の文書の検査に進む。含まれている場合は、その文書のプロパティを取得する。この処理をステップＳ１３０９において生成された文書作成日時のリストと同一の文書作成日時のすべての文書に対して行う。
【００６０】
続いて、ステップＳ１３１１において、文書スコアと時間をそれぞれ座標軸としてグラフ表示を行う。このグラフ表示の例を図１３に示す。図において、各時系列は折れ線グラフ上の黒点として表されている。さらにこの黒点をマウスでクリックすると、ステップＳ１３０８で対応づけられたプロパティを表示するようにしてもよい。また、図において1点鎖線で囲まれた範囲は、ステップＳ１３０９によって検出された、スコアの変化量が所定の範囲を超えている部分であり、「スコア変化範囲関連キーワード」で示された部分は、スコア変化量が所定の範囲を超えている部分の文書の関連キーワードを表示している。ステップＳ１３１１におけるグラフ表示が終了すると、再びＳ１３０２に戻りメニューを表示する。
【００６１】
上記より明らかなように、スコアリング手段９と対象文書作成日時取得手段１０とトレンド分析手段１１とを設け、対象文書の重要度をあらわすスコアと対象文書の作成日時を取得することとしたので、対象文書のスコアの時間変化の情報を取得することができる。
【００６２】
また、対象文書に含まれている関連キーワードを提示することで、対象文書中での話題について把握することができる。
【００６３】
さらに、対象文書のスコアの時間変化を分析し、スコアの変化量が所定の範囲を超えていることを対象文書の作成日時ごとに検知することで、スコアの値が注目したい値の範囲にある対象文書を把握することができる。
【００６４】
また、対象文書のスコアの変化量が所定の範囲を超えていることが検出された作成日時範囲に含まれる対象文書の抽出特徴キーワードを提示することで、スコアの値が注目したい値の範囲にある対象文書中での話題について把握することができる。
【００６５】
【発明の効果】
本発明による文書情報分析装置は、主キーワードを含む文書を収集して得た第１の文書集合から抽出した語ごとの第１の特徴量を、主キーワードを含む文書とは異なる文書も含む文書を収集して得た第２の文書集合に基づいて算出した第２の特徴量によって低減することにより相関度を算出し、関連キーワードを抽出することとしたので、一般的用語として頻出する語を排除しながら主キーワードを補完する関連キーワードを精度よく求めることができるという効果を有する。
【図面の簡単な説明】
【図１】本発明の実施の形態１による文書情報分析装置の構成図である。
【図２】本発明の実施の形態１による文書情報分析装置のフローチャートである。
【図３】本発明の実施の形態１による文書情報分析装置で算出される特徴量の例を示す一覧表である。
【図４】本発明の実施の形態１による文書情報分析装置における合成特徴量算出処理のフローチャートである。
【図５】本発明の実施の形態１による文書情報分析装置における相関度算出処理のフローチャートである。
【図６】本発明の実施の形態２による文書情報分析装置の構成図である。
【図７】本発明の実施の形態２による文書情報分析装置のフローチャートである。
【図８】本発明の実施の形態２による文書情報分析装置における相関度算出方法を示す説明図である。
【図９】本発明の実施の形態２による文書情報分析装置による時系列特徴の例を示す一覧表である。
【図１０】本発明の実施の形態２による文書情報分析装置における対話処理のフローチャートである。
【図１１】本発明の実施の形態２による文書情報分析装置における対話処理におけるメニューの一例の構成図である。
【図１２】本発明の実施の形態２による文書情報分析装置における対話処理におけるメニューの別の例の構成図である。
【図１３】本発明の実施の形態２による文書情報分析装置によって表示される時系列変化グラフである。
【符号の説明】
１：主キーワード入力手段
２：第１の文書収集手段
３：第１の文書記憶手段
４：第１の特徴量算出手段
５：第２の文書収集手段
６：第２の文書記憶手段
７：第２の特徴量算出手段
８：関連キーワード出力手段
９：スコアリング手段
１０：対象文書作成日時取得手段
１１：トレンド分析手段
１２：時系列特徴記憶手段

Claims

主キーワードを入力する入力手段と、
上記主キーワードを含む文書を収集する第１の文書収集手段と、
上記第１の文書収集手段が収集した文書からなる第１の文書集合を記憶する第１の文書記憶手段と、
上記第１の文書集合の各文書について、この文書に出現する各語の重要性を示す第１の特徴量を上記各語ごとに算出する第１の特徴量算出手段と、
上記第１の文書収集手段が収集した文書とは異なる文書を含む複数の文書を収集する第２の文書収集手段と、
上記第２の文書収集手段が収集した文書からなる第２の文書集合を記憶する第２の文書記憶手段と、
上記第２の文書集合の各文書について、この文書に出現する各語の重要性を示す第２の特徴量を上記各語ごとに算出する第２の特徴量算出手段と、
上記第１の文書集合の文書と、上記第２の文書集合の文書との双方に出現する語について、第１の特徴量を第２の特徴量に基づいて低減した値を上記主キーワードとの相関度として算出し、この相関度が所定の条件を満たす語を上記主キーワードの関連キーワードとして出力する関連キーワード出力手段とを備えることを特徴とする文書情報分析装置。
前記第１の特徴量算出手段は、前記第１の文書集合の文書について、この文書における前記各語出現頻度を前記第１の特徴量として算出することを特徴とする請求項１に記載された文書情報分析装置。
前記第１の特徴量算出手段は、前記第１の文書集合の文書にについて、この文書における前記各語が使われている文書の部位によって特定される所定のスコアに基づいて、第１の特徴量を算出することを特徴とする請求項１に記載された文書情報分析装置。
所定の対象語についてのスコアを記憶する第１の対象語辞書をさらに備え、
前記第１の特徴量算出手段は、前記第１の文書集合の文書について、この文書における前記各語が上記第１の対象語辞書の記憶するいずれかの対象語である場合に、上記第１の対象語辞書が記憶する上記対象語のスコアを積算することにより、前記第１の特徴量を算出することを特徴とする請求項１に記載された文書情報分析装置。
前記第１の特徴量算出手段は、前記第１の文書集合の各文書について、この文書に出現する各語の書式情報を取得し、この書式情報により特定される所定のスコアを積算することによって、前記第１の特徴量を算出することを特徴とする請求項１に記載された文書情報分析装置。
前記第２の特徴量算出手段は、前記第２の文書集合の文書について、この文書における前記各語出現頻度を前記第２の特徴量として算出することを特徴とする請求項１乃至請求項５のいずれか一に記載された文書情報分析装置。
前記第２の特徴量算出手段は、前記第２の文書集合の文書にについて、この文書における前記各語が使われている文書の部位によって特定される所定のスコアに基づいて、第２の特徴量を算出することを特徴とする請求項１乃至請求項５のいずれか一に記載された文書情報分析装置。
所定の対象語についてのスコアを記憶する第２の対象語辞書をさらに備え、
前記第２の特徴量算出手段は、前記第２の文書集合の文書について、この文書における前記各語が上記第２の対象語辞書の記憶するいずれかの対象語である場合に、上記第２の対象語辞書が記憶する上記対象語のスコアを積算することにより、前記第２の特徴量を算出することを特徴とする請求項１乃至請求項５のいずれか一に記載された文書情報分析装置。
前記第２の特徴量算出手段は、前記第２の文書集合の各文書について、この文書に出現する各語の書式情報を取得し、この書式情報により特定される所定のスコアを積算することによって、前記第２の特徴量を算出することを特徴とする請求項１乃至請求項５のいずれか一に記載された文書情報分析装置。
前記関連キーワード出力手段は、前記第１の特徴量と前記第２の特徴量とを正規化した後に、正規化後の第１の特徴量を正規化後の第２の特徴量に基づいて低減した値を上記主キーワードとの相関度として算出することを特徴とする請求項１乃至請求項９のいずれか一に記載された文書情報分析装置。
前記関連キーワード出力手段は、前記関連キーワードとともに前記相関度を出力することを特徴とする請求項１乃至請求項９のいずれか一に記載された文書情報分析装置。
前記第１の文書集合の文書についてその文書の重要度を算出する文書スコアリング手段と、
前記第１の文書集合の文書の作成日時を取得して出力する文書作成日時取得手段と、
上記文書の作成日時に基づいて、上記文書の重要度と、前記関連キーワード出力手段が出力する関連キーワードの相関度とのそれぞれの時間変化を算出して出力するトレンド分析手段とをさらに備えることを特徴とする請求項１１に記載された文書情報分析装置。
前記文書スコアリング手段は、前記文書について前記第１の文書集合における他の文書からの参照度数に基づいて重要度を算出することを特徴とする請求項１２に記載された文書情報分析装置。
前記文書スコアリング手段は、前記文書におけるクレーム表現の個数に基づいて重要度を算出することを特徴とする請求項１２に記載された文書情報分析装置。
前記トレンド分析手段が出力する前記文書の重要度と、前記関連キーワードの相関度とのそれぞれの時間変化を記憶する時系列特徴記憶手段と、
上記時系列特徴記憶手段が記憶する前記文書の重要度と、前記関連キーワードの相関度とのそれぞれの時間変化を表示する表示手段を備えたことを特徴とする請求項１２乃至請求項１４のいずれか一に記載された文書情報分析装置。