JP2009294993A

JP2009294993A - 関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラム

Info

Publication number: JP2009294993A
Application number: JP2008149164A
Authority: JP
Inventors: Susumu Yasunaga; 晋安永
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2008-06-06
Filing date: 2008-06-06
Publication date: 2009-12-17

Abstract

【課題】ユーザが文書間の関連度を表現したマップを見ながら、自らの意図を反映する操作が可能で、それにより自動的に関連度が再計算され、マップを修正することができ、効率的に、よりユーザの指向にあった関連文書を見つけることができる関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラムを提供する。
【解決手段】表示されたマップに基づく関連の大きい有効文書指定をユーザから受け取り、その関連度を大きくするよう関連度算出規則を変更し、各文書の関連度を再計算し、マップを再表示する。
【選択図】図４

Description

本発明は、指定した文書に関連のある文書を抽出するための関連文書抽出方法、関連文書抽出システム及び関連文書抽出プログラムに関する。特に、指定した文書との関連度を距離で表現したマップを生成し、表示する関連文書抽出方法、関連文書抽出システム及び関連文書抽出プログラムに関する。

新しく入手した記事や、文書、あるいは新たに作成した文書等に対して、既存の多数の文書の中から関連する内容の文書を見つけたいという要請は、古くからある。しかしそのために多数の文書を逐次読んでいくのは手間が掛かりすぎる。そのため、様々な検索手法が研究されてきた。

近年は、文書等もデジタル化され、デジタル処理で関連する文書かどうかを効率的に比較検討し、探索する技術が発展してきている。

文書間で内容が関連しているかどうかを自動処理で判断するための代表的な手法として、予め文書の特徴量を定義しておき、文書毎にその特徴量を計算して、互いに比較し、特徴量が近いほど関連度が大きいと判断する方法が使用されてきた。

特徴量としては、特徴ベクトルがよく利用される。文書の場合であれば、例えば文書中によく出現する単語の出現頻度を求め、それらの成分からなるベクトルを特徴量とする。

文書間でこの特徴ベクトルが類似しているということは、同じ単語が、特に出現頻度の高い単語が、より共通して出現しているということであり、それらの文書は内容的にも関連度が大きいと推定できる。従って特徴ベクトルの類似度を関連度として計算する方法などが一般的に行われている。

また、これらの手法で関連度を算定するだけではなく、関連文書を見つけるために指定した文書を含む多数の文書集合に対して、指定した文書との関連度が２次元、あるいは３次元の空間に配置された文書間の距離で表現されるようなマップを生成し、表示する技術も開発されている（例えば特許文献１、及び２参照）。

特許文献１、及び２に記載の技術によれば、何れにおいても、平面上に文書のマップを生成し、しかも２つの文書の関連度が大きいほど、マップ上での距離が近くなるように配置している。従って、視覚的なイメージを利用して、文書間の関連度を把握することができ、関連文書を容易に見つけることができる。
特開平１０−１７１８２３号公報特開２００６−１９０２３５号公報

上記のように、特許文献１、及び２に記載の技術によれば、文書の関連度をマップで表示し、視覚的なイメージを利用して、関連文書を容易に見つけることができる。しかしながら、そこで表現されている関連度は予め定められた計算法によって求められるものであり、固定的なものである。

本来は、「どういう点で関連した文書が欲しいか」は、各ユーザ毎に異なるものであり、ユーザの指向に合わせた関連度の計算方法を設定することが望ましい。しかし、特許文献１、及び２に記載の技術は何れも、関連度は予め定められた計算法によって求められるものであり、そこにユーザの指向を取り込む手だては用意されていない。かといって、ユーザに関連度の計算方法そのものを提示させることにも無理がある。

本発明の目的は、上記の課題を解決し、ユーザが文書間の関連度を表現したマップを見ながら、自らの意図を反映する操作が可能で、それにより自動的に関連度が再計算され、マップを修正することができ、効率的に、よりユーザの指向にあった関連文書を見つけることができる関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラムを提供することである。

本発明は、上記の課題を解決するために、以下の特徴を有するものである。

１．関連する文書を文書集合から抽出するための基準となる基準文書を指定する基準文書指定工程と、前記基準文書及び他の文書の特徴量をそれぞれ算出する特徴量算出工程と、関連度算出規則に基づいて、前記基準文書と他の文書それぞれとの間の関連度を、前記特徴量から算出する関連度算出工程と、前記関連度を前記基準文書と他の文書それぞれとの間の距離で表現したマップを生成するマップ生成工程と、生成された前記マップを表示するマップ表示工程と、を備えた関連文書抽出方法であって、表示された前記マップに基づいて、前記基準文書と関連の大きい有効文書を指定する有効文書指定工程と、指定された前記有効文書と前記基準文書との関連度を大きくする方向に関連度算出規則を変更する関連度算出規則変更工程と、変更された関連度算出規則に基づいて、文書間の関連度を再計算する関連度修正工程と、修正された前記関連度に基づいて、前記マップを再生成するマップ再生成工程と、再生成された前記マップを表示するマップ再表示工程と、を備えたことを特徴とする関連文書抽出方法。

２．前記有効文書指定工程と、前記関連度算出規則変更工程と、前記関連度修正工程と、前記マップ再生成工程と、前記マップ再表示工程と、を順次複数回繰り返すことを特徴とする１に記載の関連文書抽出方法。

３．前記マップ再表示工程の後に前記基準文書指定工程が実行され、前記基準文書指定工程では、基準文書の指定が変更されることを特徴とする２に記載の関連文書抽出方法。

４．前記特徴量算出工程では、前記特徴量として特徴ベクトルが算出され、該特徴ベクトルの各成分は、文書内での各単語の出現頻度に基づき算出されることを特徴とする１乃至３の何れか１項に記載の関連文書抽出方法。

５．前記関連度算出規則は、前記関連度を算出するにあたっての前記特徴ベクトルの各成分の重み付けを定めており、前記関連度算出工程では、前記関連度算出規則に従って重み付け計算された前記特徴ベクトル間の内積に基づき関連度が算出されることを特徴とする４に記載の関連文書抽出方法。

６．前記有効文書指定工程では、表示された前記マップに対するユーザの操作入力に基づき、有効文書の特定と、基準文書との距離で表現された関連度を取得し、前記関連度算出規則変更工程では、取得した前記基準文書との距離に応じて、前記関連度算出規則の特徴ベクトルの各成分に対する重み付けを変更することを特徴とする５に記載の関連文書抽出方法。

７．前記有効文書指定工程では、前記基準文書に対する有効文書指定の履歴を参照し、過去に記録された有効文書指定に基づき有効文書を特定することを特徴とする１乃至５の何れか１項に記載の関連文書抽出方法。

８．前記マップ再表示工程では、再生成した前記マップと再生成する前の前記マップとを組み合わせた形で表示することを特徴とする１乃至７の何れか１項に記載の関連文書抽出方法。

９．前記基準文書指定工程では、前記基準文書としてユーザが作成した文書を新たに追加して指定することを特徴とする１乃至８の何れか１項に記載の関連文書抽出方法。

１０．前記基準文書指定工程では、前記基準文書として複数の文書が指定され、前記特徴量算出工程では、該複数の文書の特徴量を組み合わせて前記基準文書の特徴量とすることを特徴とする１乃至９の何れか１項に記載の関連文書抽出方法。

１１．関連する文書を文書集合から抽出するための基準となる基準文書を指定する基準文書指定手段と、前記基準文書及び他の文書の特徴量をそれぞれ算出する特徴量算出手段と、関連度算出規則に基づいて、前記基準文書と他の文書それぞれとの間の関連度を、前記特徴量から算出する関連度算出手段と、前記関連度を前記基準文書と他の文書それぞれとの間の距離で表現したマップを生成するマップ生成手段と、生成された前記マップを表示するマップ表示手段と、を有する関連文書抽出システムであって、表示された前記マップに基づいて、前記基準文書と関連の大きい有効文書を指定する有効文書指定手段と、指定された前記有効文書と前記基準文書との関連度を大きくする方向に関連度算出規則を変更する関連度算出規則変更手段と、変更された関連度算出規則に基づいて、文書間の関連度を再計算する関連度修正手段と、修正された前記関連度に基づいて、前記マップを再生成するマップ再生成手段と、再生成された前記マップを表示するマップ再表示手段と、を備えたことを特徴とする関連文書抽出システム。

１２．前記特徴量算出手段は、前記特徴量として特徴ベクトルを算出し、該特徴ベクトルの各成分は、文書内での各単語の出現頻度に基づき算出することを特徴とする１１に記載の関連文書抽出システム。

１３．前記関連度算出規則は、前記関連度を算出するにあたっての前記特徴ベクトルの各成分の重み付けを定めており、前記関連度算出手段は、前記関連度算出規則に従って重み付け計算した前記特徴ベクトル間の内積に基づき関連度を算出することを特徴とする１２に記載の関連文書抽出システム。

１４．前記有効文書指定手段は、表示された前記マップに対するユーザの操作入力に基づき、有効文書の特定と、基準文書との距離で表現された関連度を取得し、前記関連度算出規則変更手段は、取得した前記基準文書との距離に応じて、前記関連度算出規則の特徴ベクトルの各成分に対する重み付けを変更することを特徴とする１３に記載の関連文書抽出システム。

１５．コンピュータを、関連する文書を文書集合から抽出するための基準となる基準文書を指定する基準文書指定手段、前記基準文書及び他の文書の特徴量をそれぞれ算出する特徴量算出手段、関連度算出規則に基づいて、前記基準文書と他の文書それぞれとの間の関連度を、前記特徴量から算出する関連度算出手段、及び前記関連度を前記基準文書と他の文書それぞれとの間の距離で表現したマップを生成するマップ生成手段として機能させる関連文書抽出プログラムであって、コンピュータを、生成された前記マップに基づいて、前記基準文書と関連の大きい有効文書を指定する有効文書指定手段、指定された前記有効文書と前記基準文書との関連度を大きくする方向に関連度算出規則を変更する関連度算出規則変更手段、変更された関連度算出規則に基づいて、文書間の関連度を再計算する関連度修正手段、及び修正された前記関連度に基づいて、前記マップを再生成するマップ再生成手段として機能させることを特徴とする関連文書抽出プログラム。

本発明に係る関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラムによれば、表示されたマップに基づく関連の大きい有効文書指定をユーザから受け取り、その関連度を大きくするよう関連度算出規則を変更し、各文書の関連度を再計算し、マップを再表示する。

これにより、ユーザが文書間の関連度を表現したマップを見ながら、自らの意図を反映する操作が可能で、それに従い自動的に関連度を再計算し、マップを修正することができ、効率的に、よりユーザの指向にあった関連文書を容易に見つけることができる。

以下、図を参照して本発明に係る関連文書抽出システム、関連文書抽出方法、及び関連文書抽出プログラムの実施形態を説明する。

（関連文書抽出システムの構成）
図１は、本実施形態に係る関連文書抽出システムの概略構成例を示す構成図である。図１を用いて関連文書抽出システムの装置構成を説明する。

図１に示すように、本実施形態に係る関連文書抽出システムは、情報処理装置である文書サーバ１と複数のクライアントとしての端末２（図１では１台のみ記載）とがネットワーク接続されている。端末２は、装置としてＰＣ（パーソナルコンピュータ）を用いており、以後単にクライアント２またはクライアントＰＣ２と呼称する。

それぞれのクライアントＰＣ２にはマップ表示手段３と文書指定手段４が接続している。マップ表示手段３は、液晶パネルなどのディスプレイ装置であり、文書指定手段４はキーボードやマウスなどのユーザが操作可能な入力装置である。

文書サーバ１とクライアントＰＣ２の詳細な構成のうち、関連文書抽出の機能に関わる部分を以下に説明する。なお、上記のように、文書サーバ１、クライアントＰＣ２はそれぞれ情報処理装置であり、以下に説明する各手段の機能は、関連文書抽出プログラムにより、コンピュータとしての文書サーバ１、クライアントＰＣ２の各機能部分に実行させることができる。

文書サーバ１の役割は、多数の文書情報を保持し、クライアント２の要請に応じて、文書データを送信する、あるいは検索や関連文書抽出のための文書データのデータ処理を行いクライアント２に提供することである。文書サーバ１は、そのための記憶装置、制御装置、通信装置などをハードウェアとして擁しており、その機能を構成する部分は、大きくデータ保持部１０とデータ処理部２０として示すことができる。

データ保持部１０は、関連文書を抽出するための文書集合となる多数の文書情報を保持している文書情報保持部１１と、それらの文書について算出された特徴量を保持する特徴情報保持部１２と、各文書の特徴量に基づいて算出された文書間の関連度を保持する関連度情報保持部１３とを備えている。

またデータ保持部１０は、関連度算出のためのルールを定めた関連度算出規則を保持する関連度算出規則保持部１４と、関連文書抽出の基準となる基準文書として指定された文書を特定する情報を保持する基準文書情報保持部１５と、関連度修正のために有効文書として指定された文書を特定する情報を保持する有効文書情報保持部１６とを備えている。

データ処理部２０は、特徴量算出手段として機能する特徴量抽出部２１と、関連度算出手段または関連度修正手段として機能する関連度算出部２２と、関連度算出規則変更手段として機能する関連度算出規則設定部２３とを備えている。

特徴量抽出部２１は、各文書の特徴量を算出する。関連度算出部２２は、各文書の特徴量から、関連度算出規則に基づいて関連度を算出する、または変更された関連度算出規則に基づいて関連度を再計算する。関連度算出規則設定部２３は、関連度算出規則を設定する、または変更する。

クライアントＰＣ２の役割は、多数の文書情報を保持する文書サーバ１に要請して、文書データを受け取る、あるいは検索や関連文書抽出のための文書データのデータ処理を依頼する、そのための情報を送信することである。クライアントＰＣ２も、そのための記憶装置、制御装置、通信装置などを保有しており、その機能を構成する部分は、文書サーバ１と同様にデータ保持部３０とデータ処理部４０とで示すことができる。

データ保持部３０は、生成したマップまたは再生成されたマップのマップデータを保持するマップ情報保持部を備えている。

データ処理部４０は、各文書の関連度に応じてマップを生成する、または再生成するマップ生成部４１を備えている。すなわち、マップ生成部４１は、マップ生成手段またはマップ再生成手段として機能する。

またデータ処理部４０は、関連文書を抽出する基準となる基準文書を特定し、文書サーバ１に送信する基準文書情報通知部４２と、関連度を修正するための有効文書を特定し、文書サーバ１に送信する有効文書情報通知部４３とを備えている。

クライアントＰＣ２に接続するマップ表示手段３は、生成したマップまたは再生成したマップを表示する、すなわちマップ表示手段またはマップ再表示手段として機能する。

またクライアントＰＣ２に接続する文書特定手段４は、ユーザの操作を受けて、基準文書を特定するための情報、または有効文書を特定するための情報を入力する。すなわち、上記基準文書情報通知部４２と協働し、基準文書指定手段として機能する。また、上記有効文書情報通知部４３と協働し、有効文書指定手段として機能する。

以上、本実施形態では、情報処理装置である文書サーバ１と複数のクライアントＰＣ２（及びマップ表示手段３と文書指定手段４）がネットワーク接続されている関連文書抽出システムの構成について説明したが、システムの構成はこれに限定されるものではなく、同様の機能を有する構成であればよい。例えば、文書サーバ１とクライアントＰＣ２の各機能要素を兼ね備えた情報処理装置が、１台ですべての関連する処理を行うような構成も可能である。

（関連文書抽出システムの機能動作）
図２は、本実施形態に係る関連文書抽出システムの各機能動作の関連を示すブロック図である。図３は、本システムでの関連文書抽出方法の概略の処理動作を示すフロー図である。図２及び図３を用いて関連文書抽出システムの機能動作と関連文書抽出方法の概略フローを説明する。

図２は、図１に示した文書サーバ１とクライアントＰＣ２の各機能要素を同符号で再配置し、処理の流れを矢印線で示したものである。実線の矢印線は後述するステップＳ１（特徴量算出処理）とステップＳ２（マップ生成処理）の処理の流れを示し、破線の矢印線は後述するステップＳ３（マップ再生成処理）の処理の流れを示したものである。

以下、図２を参照しながら図３の各ステップの概略を説明する。

＜特徴量算出処理＞
図３において、ステップＳ１は特徴量算出処理であり、文書情報保持部１１で保持されている文書集合について、各文書の特徴量を特徴量抽出部２１が算出し、算出した各文書の特徴量を特徴情報保持部１２に保持しておく。特徴量として特徴ベクトルを算出する例について、詳細を後述する。

この処理は関連文書抽出のための準備処理でもあり、実際の抽出のための処理は、次のステップで関連文書抽出の基準となる基準文書を指定してから開始する。

＜マップ生成処理＞
ステップＳ２はマップ生成処理であり、指定した基準文書に対して、他の文書との関連度を算出し、算出した関連度を文書間の距離で表現したマップを生成、表示する。

まず文書情報保持部１１で保持されている文書集合について、文書指定手段４により、基準文書を指定し、基準文書情報通知部４２が通知して、基準文書情報保持部１５に基準文書を特定する情報を保持する。

次に関連度算出部２２が関連度算出規則保持部１４の保持する関連度算出規則に基づき、特徴情報保持部１２の保持する各文書の特徴量から、基準文書情報保持部１５に保持する基準文書と他の文書との関連度を算出し、関連度情報保持部１３に保持する。関連度算出の詳細な例については後述する。

そして関連度情報保持部１３に保持する基準文書と他の文書の関連度に基づき、マップ生成部４１がマップを生成し、マップ情報保持部３１に保持する。最後に、マップ情報保持部３１に保持するマップ情報をマップ表示手段３にマップとして表示し、ユーザに関連文書情報として提示する。

しかしながら、関連文書抽出処理はこれで終わりではなく、この後、ステップＳ３のマップ再生成処理が引き続く。マップ再生成処理のねらいは、関連文書抽出処理が上述の処理でユーザにマップを提供するだけでなく、ユーザが文書間の関連度を表現したマップを見ながら、自らの意図を反映する操作を行うことができるようにすることである。また、それにより自動的に関連度が再計算され、マップを修正する処理を行うことである。すなわち、効率的に、よりユーザの指向にあった関連文書を見つけることができるようにするための処理である。

＜マップ再生成処理＞
ステップＳ３のマップ再生成処理では、関連度が大きいとユーザが指定した有効文書に対して、基準文書との関連度がより大きくなるように関連度の算出規則を変更した上で、各関連度を再計算し、マップを再生成、再表示する。

まず、マップ表示手段３に表示されたマップを見たユーザの文書指定手段４による操作入力を受けて、基準文書と関連の大きい有効文書情報を取得し、有効文書情報通知部４３が通知して、有効文書情報保持部１６に有効文書を特定する情報を保持する。

次に関連度算出規則設定部２３が、基準文書情報保持部１５に保持する基準文書と有効文書情報保持部１６に保持する有効文書との関連度がより大きくなる方向に、関連度算出規則保持部１４に保持する関連度算出規則を変更する。

そして関連度算出部２２が、関連度算出規則保持部１４に保持する変更された関連度算出規則に基づき、基準文書と他の文書との関連度を再計算して、修正した関連度を算出し、関連度情報保持部１３に保持する。関連度算出規則の変更と関連度の修正の詳細例については後述する。

さらに関連度情報保持部１３に保持する基準文書と他の文書の修正された関連度に基づき、マップ生成部４１がマップを再生成し、マップ情報保持部３１に保持する。最後に、マップ情報保持部３１に保持する再生成されたマップ情報をマップ表示手段３に再表示し、ユーザに修正された関連文書情報として提示する。

上記のステップＳ３のマップ再生成処理は、複数回繰り返してもよい。その都度、ユーザにより新たに有効文書が指定されれば、再生成されるマップは、よりユーザの指向を反映したものとなる。また繰り返しするにあたって、これもユーザの判断により基準文書の変更を行うようにしてもよい。例えば、指定した有効文書を次の繰り返し時に基準文書としてマップを再生成するようにしてもよい。

ステップＳ３のマップ再生成処理を適当な回数繰り返し、意図するように適切な関連文書が得られたと判断した時点で、任意に繰り返しを終了する、すなわち関連文書抽出処理を終了することができる。

（関連文書抽出方法のフロー）
図４は、本実施形態に係る関連文書抽出方法の詳細な処理手順例を示すフローチャートである。図４を用いて関連文書抽出方法の詳細な処理手順例を説明する。適時図２も参照する。

＜特徴量算出工程＞
ステップＳ１１は特徴量算出工程である。特徴量抽出部２１が、文書情報保持部１１で保持されている各文書の特徴量を算出し、各文書の特徴量を特徴情報保持部１２に保持する。特徴量として特徴ベクトルを算出する例の詳細について説明する。

例えば手順としては、文書情報保持部１１で保持されているすべての文書の内容を形態素解析し、単語の出現頻度情報を得ておく。これに基づき各文書の特徴ベクトルを算出する。すなわち、各単語の出現頻度がベクトル成分となる多次元のベクトルである。

形態素解析には公知の手法を用いることができる。例えば、ｃｈａｓｅｎのプログラム（ｈｔｔｐ：／／ｃｈａｓｅｎ−ｌｅｇａｃｙ．ｓｏｕｒｃｅｆｏｒｇｅ．ｊｐ／）などが挙げられる。

具体的な特徴ベクトルの生成例を図５に示す。

図５の１０１は文書の内容を示している。文書１０１の短い文章から形態素解析により出現頻度が１以上の単語を抽出したのが１０２の特徴情報である。例えば単語「チームＧ」は出現頻度が１であり、単語「Ｆ．」は出現頻度が２である。なお、この例では助詞などの特徴の弱い語を除去しているが、これは必須ではない。

この場合、特徴情報１０２が文書１０１の特徴ベクトルを表していることになる。各語の出現頻度が特徴ベクトルの各成分に相当する。

なお、単純な出現頻度情報を用いる代わりにＴＦＩＤＦ値を用いてもよい。ＴＦＩＤＦ値とは、出現頻度（ＴＦ値）と、他の文書における出現率から算出した値（ＩＤＦ値）の積を取ったものである。ＩＤＦ値の一例としては、ある文書集合で全文書数がＮ、そのうちｔという単語が出現する文書数がｆ（ｔ）である場合に、単語ｔのＩＤＦ値を、
ｉｄｆ（ｔ）＝ｌｏｇ（Ｎ／ｆ（ｔ））＋１、
と定める。

＜基準文書指定工程＞
ステップＳ２１は基準文書指定工程である。ユーザが文書指定手段４により、文書情報保持部１１で保持されている文書集合から関連文書抽出の基準となる基準文書を指定し、基準文書情報通知部４２が通知して、基準文書情報保持部１５に基準文書を特定する情報を保持する。

基準文書情報保持部１５に保持する基準文書情報は文書のタイトルやＩＤなど文書を特定する最小限の情報でよい。文書の内容を保持する必要はない。文書指定手段４により基準文書を指定する方法も任意である。既存のマップをマップ表示手段３に表示させ、文書指定手段４により選択させるような方法でもよい。

基準文書の指定は、１つに限定する必要はない。複数の基準文書を指定してもよい。その場合、複数の基準文書の特徴量を組み合わせて特徴量とすることもできる。例えば、複数の文書の特徴ベクトルの平均（特徴ベクトルの単純な和をとり、文書数で割る）を複数の基準文書の特徴ベクトルとするなどが考えられる。

また、文書情報保持部１１で保持されている文書集合から基準文書を指定するのではなく、例えば、ユーザの作成した新しい文書などを文書集合に追加するような形で、基準文書に指定してもよい。その場合、特徴量も追加して算出しておくことになる。

＜関連度算出工程＞
ステップＳ２２は関連度算出工程である。関連度算出部２２が関連度算出規則保持部１４の保持する関連度算出規則に基づき、特徴情報保持部１２の保持する各文書の特徴量から、基準文書情報保持部１５に保持する基準文書と他の文書との関連度を算出し、関連度情報保持部１３に保持する。

関連度を算出する手順の例について詳細に説明する。

例えば手順として、文書Ａと文書Ｂの関連度を求める場合、文書Ａの特徴ベクトルＡと文書Ｂの特徴ベクトルＢの内積を求め、特徴ベクトルＡと特徴ベクトルＢの大きさの積で割って関連度を算出する。

こうすれば関連度は０から１の範囲の値を取り、２つのベクトルが一致するときに関連度は１となり、共通して出現する語がないときに関連度は０となる。なお、これらは関連度算出規則保持部１４の保持する関連度算出規則に基づく。

具体的な関連度の算出例を図６に示す。

１０３は文書Ａの特徴情報、すなわち特徴ベクトルＡであり、１０４は文書Ｂの特徴情報、すなわち特徴ベクトルＢである。１０３と１０４それぞれで下線を引いたのは、共通して出現している単語、すなわち共通するベクトル成分である。１０５は文書Ａと文書Ｂの関連度を算出する過程を示している。

この場合、特徴ベクトルＡと特徴ベクトルＢの各大きさは、各成分の２乗和の平方根で表される。１０５に示すように、特徴ベクトルＡの大きさは、１^２が１２個と２^２が１個で足すと１６、その平方根だから１６^１／２となる。同様にして特徴ベクトルＢの大きさは、３０^１／２となる。

また特徴ベクトルＡと特徴ベクトルＢの内積は、各ベクトルの共通する成分（下線部）の積の和で表されるので、２×２が１個、１×２が２個、１×１が４個、これらを足して１２となる。

従って、文書Ａと文書Ｂの関連度は、１２／４８０^１／２≒０．５５となる。

なおこの例では示していないが、関連度算出規則保持部１４の保持する関連度算出規則には、関連度算出時に各特徴ベクトルの成分に重み付けを行うことを定めることができる。具体例は後述するが、関連度算出規則変更工程では、重み付けした関連度算出処理を行っている。

＜マップ生成工程＞
ステップＳ２３はマップ生成工程である。マップ生成部４１が、関連度情報保持部１３に保持する基準文書と他の文書の関連度に基づきマップを生成し、マップ情報保持部３１に保持する。

マップは、基準文書の周りに他の文書を、基準文書との関連度が大きいほど近くに来る（距離が小さくなる）ように配置する。

例えばマップにおける距離の算出の例を示すと、関連度は０から１の範囲の値を取るのであるから、文書間の関連度をｘとするなら、その文書間の距離は−ｌｏｇ（ｘ）とすればよい。こうすれば関連度が１に近づくにつれて距離は０に近づく。

図７に生成したマップの例を示す。「基準文書」２００に対して、他の文書は関連度が大きいほど近くに配置される。このマップ例では、「文書１」が最も「基準文書」２００との関連度が大きく（距離が小さく）、「文書５」が最も「基準文書」２００との関連度が小さい（距離が大きい）。

＜マップ表示工程＞
ステップＳ２４はマップ表示工程である。マップ情報保持部３１に保持するマップ情報をマップ表示手段３にマップとして表示し、ユーザに関連文書情報として提示する。

例えば、図７に示したようなマップがマップ表示手段３に表示される。これによりユーザは、視覚的なイメージで関連文書の関連度を把握することができる。

さて、既述したように本実施形態では、よりユーザの指向を反映した関連文書抽出が行えるように、この後、以下のマップ再生成処理が引き続く。

＜有効文書指定工程＞
ステップＳ３１は有効文書指定工程である。マップ表示手段３に表示されたマップを見たユーザの文書指定手段４による操作入力を受けて、基準文書と関連の大きい有効文書情報を取得し、有効文書情報通知部４３が通知して、有効文書情報保持部１６に有効文書を特定する情報を保持する。

有効文書情報保持部１６に保持する有効文書情報は、基準文書の場合と同様に、文書のタイトルやＩＤなど文書を特定する最小限の情報でよい。文書の内容を保持する必要はない。

図８を参照して、文書指定手段４による有効文書指定の具体例を説明する。図８はマップ表示手段３の画面にマップが表示されている状態を示す。文書指定手段４はマウスであり、ユーザにより操作される。

例えば、「基準文書」２００を中心とした関連文書（「文書１」〜「文書５」）のマップをユーザが見て、「文書２」２０１を参照したいと思ったとき、画面の「文書２」２０１をマウスクリックする。すると、画面には別ウィンドウ１１０が開き、「文書２」の内容１１１が表示され、参照可能となる。

ユーザは「文書２」の内容１１１を確認して、基準文書と関連度が大きい、すなわち関連文書抽出のための有効文書として採り上げるべきと判断した場合、ウィンドウ１１０内に設けられた有効文書指定のためのボタン１１２をクリックする。これで有効文書指定が終わり、自動的に、以下のマップ再生成、再表示のための処理が進む。

＜関連度算出規則変更工程＞
ステップＳ３２は関連度算出規則変更工程である。関連度算出規則設定部２３が、基準文書情報保持部１５に保持する基準文書と有効文書情報保持部１６に保持する有効文書との関連度がより大きくなる方向に、関連度算出規則保持部１４に保持する関連度算出規則を変更する。

関連度算出規則を変更する目的は、基準文書と有効文書との関連度がより大きくなるような関連度の算出法に変えることであり、例えば、関連度計算のために各文書の特徴ベクトルの内積を計算するに際して、ベクトル成分に重み付けを行う方法が考えられる。

すなわち、基準文書と有効文書との共通するベクトル成分、すなわち共通して出現する単語をベクトル比較して求め、その単語（ベクトル成分）に対して重み付けを大きくして関連度を算出する（内積をベクトルの大きさの積で割る。）
共通する単語（ベクトル成分）の重み付けを大きくすると、内積が大きくなる、すなわち関連度が大きくなるのである。

これにより、ここで重み付けを大きくした共通する単語が共通して出現する文書が他にあれば、それらの文書とも関連度が大きくなるような関連度算出規則になる。それらの重み付けを大きくした単語が出現しない文書は、相対的に関連度が小さくなる。

次の関連度修正工程で、重み付けを変更し、関連度を再計算した例を説明する。

＜関連度修正工程＞
ステップＳ３３は関連度修正工程である。関連度算出部２２が、関連度算出規則保持部１４に保持する変更された関連度算出規則に基づき、基準文書と他の文書との関連度を再計算して、修正した関連度を算出し、関連度情報保持部１３に保持する。

上述したように、変更された関連度算出規則はベクトル成分の重み付けを変更したものである。文書Ａと文書Ｂの関連度を求める手順として、文書Ａの特徴ベクトルＡと文書Ｂの特徴ベクトルＢの内積を求め、特徴ベクトルＡと特徴ベクトルＢの大きさの積で割って関連度を算出するのは同じであり、重み付けだけが異なる。

図９には、重み付けを変更した場合の具体的な関連度算出の例を示す。図９を参照して関連度修正の手順の具体例を説明する。

図９において、１０３ａは文書Ａの特徴情報（特徴ベクトルＡ）であり、１０４ａは文書Ｂの特徴情報（特徴ベクトルＢ）である。１０３ａと１０４ａそれぞれで下線を引いたのは、文書Ａと文書Ｂに共通して出現している単語、すなわち共通するベクトル成分である。

変更された関連度算出規則を適用して、ベクトル成分には重み付けがなされている。ここでは、チーム名、すなわち「チームＤ」「チームＧ」「チームＴ」という語に、それぞれ２倍の重み付けがされている。基準文書と有効文書とでこれらの単語が共通していたということである。

１０５ａは、文書Ａと文書Ｂの重み付けが変更された状態で、関連度を再計算する過程を示している。

この場合、特徴ベクトルＡと特徴ベクトルＢの各大きさは、各成分の２乗和の平方根で表されるので、特徴ベクトルＡの大きさは、１^２が１０個と２^２が３個で足すと２２、その平方根だから２２^１／２となる。同様にして特徴ベクトルＢの大きさは、４８^１／２となる。

また特徴ベクトルＡと特徴ベクトルＢの内積は、各ベクトルの共通する成分（下線部）の積の和で表されるので、２×４が１個、２×２が２個、１×２が１個、１×１が３個、これらを足して２１となる。

従って、文書Ａと文書Ｂの修正された関連度は、２１／１０５６^１／２≒０．６５となる。これは修正前の（重み付け変更前の）関連度０．５５より大きくなっている。文書Ａと文書Ｂとでは、重み付けした単語（基準文書と有効文書に共通する単語）が共通して現れる傾向がある（すなわち、関連度が高い）ということである。

＜マップ再生成工程＞
ステップＳ３４はマップ再生成工程である。マップ生成部４１が、関連度情報保持部１３に保持する基準文書と他の文書の修正された関連度に基づきマップを再生成し、マップ情報保持部３１に保持する。

再生成したマップも、関連度修正前と同様に、基準文書の周りに他の文書を、基準文書との関連度が大きいほど近くに来る（距離が小さくなる）ように配置している。

図１０に再生成したマップの例を示す。図１０（ａ）は、修正する前の（「文書２」を有効文書として指定した時点の）マップであり、図１０（ｂ）が再生成したマップの例である。

何れも「基準文書」２００に対して、他の文書は関連度が大きいほど近くに配置されるが、この再生成マップ例では、有効文書として指定した「文書２」に加えて、「文書４」と「文書５」も「基準文書」２００との関連度が大きく（距離が小さく）なっている。また、「文書１」と「文書３」は、逆に「基準文書」２００との関連度が小さく（距離が大きく）なっている。

＜マップ再表示工程＞
ステップＳ３５はマップ再表示工程である。マップ情報保持部３１に保持する再生成されたマップ情報をマップ表示手段３に再表示し、ユーザに修正された関連文書情報として提示する。

図１０（ｂ）に示したように、有効文書指定という形でユーザの指向をより反映した再生成マップが表示され、関連文書の修正された関連度を視覚的なイメージで把握することができる。

また再生成マップの表示については、修正前の、すなわち既定の関連度算出規則に従って生成したマップと組み合わせて表示するようにしてもよい。組み合わせの方法は任意であるが、例えば図１１に示すような組み合わせでもよい。

図１１は、既定のマップ生成での関連度（文書間距離）と再生成したマップでの関連度（文書間距離）とを、それぞれＸ軸とＹ軸にとってグラフ化したものである。「文書１」から「文書７」までを記載しているが、原点０が基準文書そのものを示しており、０に近いほど関連度が大きいことを表している。

図１１で、１２１は、既定の算出方法では関連度が大きいが、ユーザの指向を反映すると関連度は小さくなる文書のグループを示す。１２２は逆に、既定の算出方法では関連度が小さいが、ユーザの指向を反映すると関連度は大きくなる文書のグループを示す。

図１１のような表示を図１０のような表示と任意に切り換えられるようにしてもよい。

＜工程の繰り返し＞
ステップＳ３１からステップＳ３５の工程は、複数回繰り返してもよい。

上記工程を適当な回数繰り返し、意図するように適切な関連文書が得られたと判断した時点で、任意に繰り返しを終了する、すなわち関連文書抽出処理を終了することができる。既述したように、その都度、ユーザにより新たに有効文書が指定されれば、再生成されるマップは、よりユーザの指向を反映したものとなる。

また、繰り返しするにあたって、これもユーザの判断により基準文書の変更を行うようにしてもよい。例えば、有効文書指定工程で指定した有効文書を基準文書として同時に指定し、その後の工程（関連度修正工程以後）、または次の繰り返し時に基準文書としてマップを再生成するようにしてもよい。

図１２に、有効文書を基準文書に指定して、マップ再生成処理したときの再生成マップの例を示す。この例では「文書１」を有効文書として関連度算出規則を変更し、かつ基準文書として他の文書との関連度を算出する、すなわち有効文書を基準文書として位置づけた上で、マップの再生成処理を行っている。

「文書１」２００が基準文書の位置づけでマップの中央に位置し、他の文書との関連度が表現され、元々の「基準文書」２０２は、再生成マップ上では他の文書の１つという位置づけになっている。

（別の関連文書抽出方法フロー例）
上述したステップＳ３１からステップＳ３２の工程について、別の処理手順の例を説明する。以下に、各々の工程において異なる点を説明する。

＜有効文書指定工程２＞
図１３を参照して、文書指定手段４による有効文書指定の別の具体例を説明する。図１３はマップ表示手段３の画面にマップが表示されている状態を示す。文書指定手段４はマウスであり、ユーザにより操作される。

例えば、「基準文書」２００を中心とした関連文書（「文書１」〜「文書５」）のマップをユーザが見て、「文書２」２０３を基準文書と関連度が大きい、すなわち関連文書抽出のための有効文書として指定すべきと判断した場合、マップ上の「文書２」２０３をドラッグしてより関連度の大きい（「基準文書」２００との距離が近い）位置２０４に移動させる。結果、図１３（ｂ）のようになる。

この動作により、「文書２」２０３を有効文書として指定するとともに、どのくらい関連度が大きくなるように関連度算出規則を変更すべきかという情報も入力する。すなわち、移動した「文書２」２０４の位置（「基準文書」２００との距離）を取得して、その距離で表現された関連度になるよう関連度算出規則を変更する（具体的には重み付けを変更する）のである。

これにより、ユーザは、有効文書を指定するのみならず、どの程度有効かを、有効文書をドラッグで移動させる距離で反映させることが可能になるのである。

＜関連度算出規則変更工程２＞
図１４を参照して、上述のように有効文書指定された場合の関連度算出規則の変更処理の具体例を説明する。

関連度算出規則の変更が基準文書と有効文書に共通する単語の重み付けの変更であることは同様であるが、異なるのは、関連度を再計算したときに、修正した関連度から得られるマップ上の距離が、ユーザによって移動させられた後の基準文書と有効文書の距離と一致するように重み付けを変更するという点である。

そのために、重み付けを未知数ａ倍として、関連度を算出し、距離から求めた関連度となるように未知数ａを求める。

図１４において、１０３ｂは文書Ａ（ここでは基準文書とする）の特徴情報（特徴ベクトルＡ）であり、１０４ｂは文書Ｂ（ここでは有効文書とする）の特徴情報（特徴ベクトルＢ）である。１０３ｂと１０４ｂそれぞれで下線を引いたのは、基準文書Ａと有効文書Ｂに共通して出現している単語、すなわち共通するベクトル成分である。

変更された関連度算出規則を適用して、ベクトル成分に重み付けをする。ここでは、基準文書Ａと有効文書Ｂに共通する単語（下線部分）に、それぞれａ倍の重み付けをしている。１０５ｂは、このように重み付けが変更された状態で、関連度を再計算する過程を示している。

基準文書Ａと有効文書Ｂ（「文書２」）の距離は、既定の重み付け（ａ＝１）であったときは、０．６０であったものが、０．４になるよう移動させられたものとする。そうすると関連度は、０．５５であったものが、０．６７となるように重み付けａを設定しなければならない。

この場合、特徴ベクトルＡと特徴ベクトルＢの各大きさは、各成分の２乗和の平方根で表されるので、特徴ベクトルＡの大きさは、（２ａ）^２が１個とａ^２が６個と１^２が６個で足すと１０ａ^２＋６、その平方根だから（１０ａ^２＋６）^１／２となる。同様にして特徴ベクトルＢの大きさは、（１６ａ^２＋１４）^１／２となる。

また特徴ベクトルＡと特徴ベクトルＢの内積は、各ベクトルの共通する成分（下線部）の積の和で表されるので、２ａ×２ａが１個、１ａ×２ａが２個、ａ×ａが４個、これらを足して１２ａ^２となる。

従って、基準文書Ａと有効文書Ｂの修正された関連度０．６７は、１２ａ^２／（（１０ａ^２＋６）（１６ａ^２＋１４））^１／２と等しくなる必要がある。これを解くと、ａ≒１．３３となる。関連度算出規則変更工程では重み付けの値をこのように変更する。

ステップＳ３３の関連度算出工程以後は、既述したと同様に進めればよい。マップ再表示工程まで終了すると、図１３（ｂ）のようなマップが表示された。このマップ例では、関連度の修正の結果、有効文書である「文書２」２０４に加えて、「文書４」と「文書５」の関連度が大きく（基準文書との距離が小さく）なっており、「文書１」と「文書３」の関連度が小さく（基準文書との距離が大きく）なっている。

なお上記では、関連度を大きくする有効文書を指定する例について述べたが、有効文書とは逆に関連のない、すなわち関連度を小さくすべき文書を指定して、どの程度関連度を小さくすべきかを距離で指定することで、関連度算出規則を変更するような手法を採ることも可能である。

上述してきたように、本実施形態に係る関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラムによれば、表示されたマップに基づく関連の大きい有効文書指定をユーザから受け取り、その関連度を大きくするよう関連度算出規則を変更し、各文書の関連度を再計算し、マップを再表示する。

なお、上記の実施形態では、有効文書を指定するのにユーザ自身の操作に基づいているが、同じ基準文書に対する、他のユーザによる有効文書指定の履歴等を参照し、過去に記録された有効文書指定に基づき、自動的に有効文書が特定されるような形態であってもよい。

例えば、あるユーザが基準文書を指定したときに、他のユーザ（複数も可）がその基準文書に対して有効文書を指定した履歴があった場合、自動的にそれらの履歴を参照して関連度算出規則の変更がなされ（共通する単語の重み付け変更がなされ）、最初から修正された関連度に基づくマップが生成表示されるようにしてもよい。

もちろんその後、ユーザ自身の有効文書指定によるマップ再生成処理が引き続き繰り返される形態としてもよい。

また上述の実施形態では、関連度を算出するための特徴量として、文書内に出現する単語の出現頻度を用いたが、必ずしも語句にとらわれる必要はなく、例えば文書内で使用されている図表や画像等を特徴量として比較し、類似した図表や画像が使用されているかどうかで関連度を算出するようにしてもよい。

上述の実施形態は、すべての点で例示であって制限的なものではない。本発明の範囲は上記した説明ではなく特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

本実施形態に係る関連文書抽出システムの概略構成例を示す構成図である。関連文書抽出システムの各機能動作の関連を示すブロック図である。関連文書抽出方法の概略の処理動作を示すフロー図である。本実施形態に係る関連文書抽出方法の詳細な処理手順例を示すフローチャートである。特徴量算出工程での具体的な特徴ベクトルの生成例を示す図である。関連度算出工程での具体的な関連度の算出例を示す図である。マップ生成工程で生成したマップの例を示す図である。文書指定手段による有効文書指定の具体例を説明する図である。重み付けを変更した場合の具体的な関連度算出の例を示す図である。（ａ）修正前のマップと（ｂ）再生成したマップの例を示す図である。既定のマップ生成での関連度（文書間距離）と再生成したマップでの関連度（文書間距離）とを、それぞれＸ軸とＹ軸にとってグラフ化した図である。有効文書を基準文書に指定したときの再生成マップの例を示す図である。文書指定手段による有効文書指定の別の具体例を説明する図である。関連度算出規則の変更処理の別の具体例を説明する図である。

符号の説明

１文書サーバ
２クライアントＰＣ
３マップ表示手段
４文書指定手段
１１文書情報保持部
１２特徴情報保持部
１３関連度情報保持部
１４関連度算出規則保持部
１５基準文書情報保持部
１６有効文書情報保持部
２１特徴量抽出部
２２関連度算出部
２３関連度算出規則設定部
３１マップ情報保持部
４１マップ生成部
４２基準文書情報通知部
４３有効文書情報通知部

Claims

関連する文書を文書集合から抽出するための基準となる基準文書を指定する基準文書指定工程と、
前記基準文書及び他の文書の特徴量をそれぞれ算出する特徴量算出工程と、
関連度算出規則に基づいて、前記基準文書と他の文書それぞれとの間の関連度を、前記特徴量から算出する関連度算出工程と、
前記関連度を前記基準文書と他の文書それぞれとの間の距離で表現したマップを生成するマップ生成工程と、
生成された前記マップを表示するマップ表示工程と、
を備えた関連文書抽出方法であって、
表示された前記マップに基づいて、前記基準文書と関連の大きい有効文書を指定する有効文書指定工程と、
指定された前記有効文書と前記基準文書との関連度を大きくする方向に関連度算出規則を変更する関連度算出規則変更工程と、
変更された関連度算出規則に基づいて、文書間の関連度を再計算する関連度修正工程と、
修正された前記関連度に基づいて、前記マップを再生成するマップ再生成工程と、
再生成された前記マップを表示するマップ再表示工程と、を備えた
ことを特徴とする関連文書抽出方法。
前記有効文書指定工程と、前記関連度算出規則変更工程と、前記関連度修正工程と、前記マップ再生成工程と、前記マップ再表示工程と、を順次複数回繰り返す
ことを特徴とする請求項１に記載の関連文書抽出方法。
前記マップ再表示工程の後に前記基準文書指定工程が実行され、
前記基準文書指定工程では、基準文書の指定が変更される
ことを特徴とする請求項２に記載の関連文書抽出方法。
前記特徴量算出工程では、前記特徴量として特徴ベクトルが算出され、
該特徴ベクトルの各成分は、文書内での各単語の出現頻度に基づき算出される
ことを特徴とする請求項１乃至３の何れか１項に記載の関連文書抽出方法。
前記関連度算出規則は、前記関連度を算出するにあたっての前記特徴ベクトルの各成分の重み付けを定めており、
前記関連度算出工程では、前記関連度算出規則に従って重み付け計算された前記特徴ベクトル間の内積に基づき関連度が算出される
ことを特徴とする請求項４に記載の関連文書抽出方法。
前記有効文書指定工程では、表示された前記マップに対するユーザの操作入力に基づき、有効文書の特定と、基準文書との距離で表現された関連度を取得し、
前記関連度算出規則変更工程では、取得した前記基準文書との距離に応じて、前記関連度算出規則の特徴ベクトルの各成分に対する重み付けを変更する
ことを特徴とする請求項５に記載の関連文書抽出方法。
前記有効文書指定工程では、前記基準文書に対する有効文書指定の履歴を参照し、過去に記録された有効文書指定に基づき有効文書を特定する
ことを特徴とする請求項１乃至５の何れか１項に記載の関連文書抽出方法。
前記マップ再表示工程では、再生成した前記マップと再生成する前の前記マップとを組み合わせた形で表示する
ことを特徴とする請求項１乃至７の何れか１項に記載の関連文書抽出方法。
前記基準文書指定工程では、前記基準文書としてユーザが作成した文書を新たに追加して指定する
ことを特徴とする請求項１乃至８の何れか１項に記載の関連文書抽出方法。
前記基準文書指定工程では、前記基準文書として複数の文書が指定され、
前記特徴量算出工程では、該複数の文書の特徴量を組み合わせて前記基準文書の特徴量とする
ことを特徴とする請求項１乃至９の何れか１項に記載の関連文書抽出方法。
関連する文書を文書集合から抽出するための基準となる基準文書を指定する基準文書指定手段と、
前記基準文書及び他の文書の特徴量をそれぞれ算出する特徴量算出手段と、
関連度算出規則に基づいて、前記基準文書と他の文書それぞれとの間の関連度を、前記特徴量から算出する関連度算出手段と、
前記関連度を前記基準文書と他の文書それぞれとの間の距離で表現したマップを生成するマップ生成手段と、
生成された前記マップを表示するマップ表示手段と、
を有する関連文書抽出システムであって、
表示された前記マップに基づいて、前記基準文書と関連の大きい有効文書を指定する有効文書指定手段と、
指定された前記有効文書と前記基準文書との関連度を大きくする方向に関連度算出規則を変更する関連度算出規則変更手段と、
変更された関連度算出規則に基づいて、文書間の関連度を再計算する関連度修正手段と、
修正された前記関連度に基づいて、前記マップを再生成するマップ再生成手段と、
再生成された前記マップを表示するマップ再表示手段と、を備えた
ことを特徴とする関連文書抽出システム。
前記特徴量算出手段は、前記特徴量として特徴ベクトルを算出し、
該特徴ベクトルの各成分は、文書内での各単語の出現頻度に基づき算出する
ことを特徴とする請求項１１に記載の関連文書抽出システム。
前記関連度算出規則は、前記関連度を算出するにあたっての前記特徴ベクトルの各成分の重み付けを定めており、
前記関連度算出手段は、前記関連度算出規則に従って重み付け計算した前記特徴ベクトル間の内積に基づき関連度を算出する
ことを特徴とする請求項１２に記載の関連文書抽出システム。
前記有効文書指定手段は、表示された前記マップに対するユーザの操作入力に基づき、有効文書の特定と、基準文書との距離で表現された関連度を取得し、
前記関連度算出規則変更手段は、取得した前記基準文書との距離に応じて、前記関連度算出規則の特徴ベクトルの各成分に対する重み付けを変更する
ことを特徴とする請求項１３に記載の関連文書抽出システム。
コンピュータを、
関連する文書を文書集合から抽出するための基準となる基準文書を指定する基準文書指定手段、
前記基準文書及び他の文書の特徴量をそれぞれ算出する特徴量算出手段、
関連度算出規則に基づいて、前記基準文書と他の文書それぞれとの間の関連度を、前記特徴量から算出する関連度算出手段、
及び前記関連度を前記基準文書と他の文書それぞれとの間の距離で表現したマップを生成するマップ生成手段
として機能させる関連文書抽出プログラムであって、
コンピュータを、
生成された前記マップに基づいて、前記基準文書と関連の大きい有効文書を指定する有効文書指定手段、
指定された前記有効文書と前記基準文書との関連度を大きくする方向に関連度算出規則を変更する関連度算出規則変更手段、
変更された関連度算出規則に基づいて、文書間の関連度を再計算する関連度修正手段、
及び修正された前記関連度に基づいて、前記マップを再生成するマップ再生成手段として機能させる
ことを特徴とする関連文書抽出プログラム。