JP2009294993A - 関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラム - Google Patents
関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラム Download PDFInfo
- Publication number
- JP2009294993A JP2009294993A JP2008149164A JP2008149164A JP2009294993A JP 2009294993 A JP2009294993 A JP 2009294993A JP 2008149164 A JP2008149164 A JP 2008149164A JP 2008149164 A JP2008149164 A JP 2008149164A JP 2009294993 A JP2009294993 A JP 2009294993A
- Authority
- JP
- Japan
- Prior art keywords
- document
- relevance
- map
- documents
- valid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザが文書間の関連度を表現したマップを見ながら、自らの意図を反映する操作が可能で、それにより自動的に関連度が再計算され、マップを修正することができ、効率的に、よりユーザの指向にあった関連文書を見つけることができる関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラムを提供する。
【解決手段】表示されたマップに基づく関連の大きい有効文書指定をユーザから受け取り、その関連度を大きくするよう関連度算出規則を変更し、各文書の関連度を再計算し、マップを再表示する。
【選択図】図4
【解決手段】表示されたマップに基づく関連の大きい有効文書指定をユーザから受け取り、その関連度を大きくするよう関連度算出規則を変更し、各文書の関連度を再計算し、マップを再表示する。
【選択図】図4
Description
本発明は、指定した文書に関連のある文書を抽出するための関連文書抽出方法、関連文書抽出システム及び関連文書抽出プログラムに関する。特に、指定した文書との関連度を距離で表現したマップを生成し、表示する関連文書抽出方法、関連文書抽出システム及び関連文書抽出プログラムに関する。
新しく入手した記事や、文書、あるいは新たに作成した文書等に対して、既存の多数の文書の中から関連する内容の文書を見つけたいという要請は、古くからある。しかしそのために多数の文書を逐次読んでいくのは手間が掛かりすぎる。そのため、様々な検索手法が研究されてきた。
近年は、文書等もデジタル化され、デジタル処理で関連する文書かどうかを効率的に比較検討し、探索する技術が発展してきている。
文書間で内容が関連しているかどうかを自動処理で判断するための代表的な手法として、予め文書の特徴量を定義しておき、文書毎にその特徴量を計算して、互いに比較し、特徴量が近いほど関連度が大きいと判断する方法が使用されてきた。
特徴量としては、特徴ベクトルがよく利用される。文書の場合であれば、例えば文書中によく出現する単語の出現頻度を求め、それらの成分からなるベクトルを特徴量とする。
文書間でこの特徴ベクトルが類似しているということは、同じ単語が、特に出現頻度の高い単語が、より共通して出現しているということであり、それらの文書は内容的にも関連度が大きいと推定できる。従って特徴ベクトルの類似度を関連度として計算する方法などが一般的に行われている。
また、これらの手法で関連度を算定するだけではなく、関連文書を見つけるために指定した文書を含む多数の文書集合に対して、指定した文書との関連度が2次元、あるいは3次元の空間に配置された文書間の距離で表現されるようなマップを生成し、表示する技術も開発されている(例えば特許文献1、及び2参照)。
特許文献1、及び2に記載の技術によれば、何れにおいても、平面上に文書のマップを生成し、しかも2つの文書の関連度が大きいほど、マップ上での距離が近くなるように配置している。従って、視覚的なイメージを利用して、文書間の関連度を把握することができ、関連文書を容易に見つけることができる。
特開平10−171823号公報
特開2006−190235号公報
上記のように、特許文献1、及び2に記載の技術によれば、文書の関連度をマップで表示し、視覚的なイメージを利用して、関連文書を容易に見つけることができる。しかしながら、そこで表現されている関連度は予め定められた計算法によって求められるものであり、固定的なものである。
本来は、「どういう点で関連した文書が欲しいか」は、各ユーザ毎に異なるものであり、ユーザの指向に合わせた関連度の計算方法を設定することが望ましい。しかし、特許文献1、及び2に記載の技術は何れも、関連度は予め定められた計算法によって求められるものであり、そこにユーザの指向を取り込む手だては用意されていない。かといって、ユーザに関連度の計算方法そのものを提示させることにも無理がある。
本発明の目的は、上記の課題を解決し、ユーザが文書間の関連度を表現したマップを見ながら、自らの意図を反映する操作が可能で、それにより自動的に関連度が再計算され、マップを修正することができ、効率的に、よりユーザの指向にあった関連文書を見つけることができる関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラムを提供することである。
本発明は、上記の課題を解決するために、以下の特徴を有するものである。
1. 関連する文書を文書集合から抽出するための基準となる基準文書を指定する基準文書指定工程と、前記基準文書及び他の文書の特徴量をそれぞれ算出する特徴量算出工程と、関連度算出規則に基づいて、前記基準文書と他の文書それぞれとの間の関連度を、前記特徴量から算出する関連度算出工程と、前記関連度を前記基準文書と他の文書それぞれとの間の距離で表現したマップを生成するマップ生成工程と、生成された前記マップを表示するマップ表示工程と、を備えた関連文書抽出方法であって、表示された前記マップに基づいて、前記基準文書と関連の大きい有効文書を指定する有効文書指定工程と、指定された前記有効文書と前記基準文書との関連度を大きくする方向に関連度算出規則を変更する関連度算出規則変更工程と、変更された関連度算出規則に基づいて、文書間の関連度を再計算する関連度修正工程と、修正された前記関連度に基づいて、前記マップを再生成するマップ再生成工程と、再生成された前記マップを表示するマップ再表示工程と、を備えたことを特徴とする関連文書抽出方法。
2. 前記有効文書指定工程と、前記関連度算出規則変更工程と、前記関連度修正工程と、前記マップ再生成工程と、前記マップ再表示工程と、を順次複数回繰り返すことを特徴とする1に記載の関連文書抽出方法。
3. 前記マップ再表示工程の後に前記基準文書指定工程が実行され、前記基準文書指定工程では、基準文書の指定が変更されることを特徴とする2に記載の関連文書抽出方法。
4. 前記特徴量算出工程では、前記特徴量として特徴ベクトルが算出され、該特徴ベクトルの各成分は、文書内での各単語の出現頻度に基づき算出されることを特徴とする1乃至3の何れか1項に記載の関連文書抽出方法。
5. 前記関連度算出規則は、前記関連度を算出するにあたっての前記特徴ベクトルの各成分の重み付けを定めており、前記関連度算出工程では、前記関連度算出規則に従って重み付け計算された前記特徴ベクトル間の内積に基づき関連度が算出されることを特徴とする4に記載の関連文書抽出方法。
6. 前記有効文書指定工程では、表示された前記マップに対するユーザの操作入力に基づき、有効文書の特定と、基準文書との距離で表現された関連度を取得し、前記関連度算出規則変更工程では、取得した前記基準文書との距離に応じて、前記関連度算出規則の特徴ベクトルの各成分に対する重み付けを変更することを特徴とする5に記載の関連文書抽出方法。
7. 前記有効文書指定工程では、前記基準文書に対する有効文書指定の履歴を参照し、過去に記録された有効文書指定に基づき有効文書を特定することを特徴とする1乃至5の何れか1項に記載の関連文書抽出方法。
8. 前記マップ再表示工程では、再生成した前記マップと再生成する前の前記マップとを組み合わせた形で表示することを特徴とする1乃至7の何れか1項に記載の関連文書抽出方法。
9. 前記基準文書指定工程では、前記基準文書としてユーザが作成した文書を新たに追加して指定することを特徴とする1乃至8の何れか1項に記載の関連文書抽出方法。
10. 前記基準文書指定工程では、前記基準文書として複数の文書が指定され、前記特徴量算出工程では、該複数の文書の特徴量を組み合わせて前記基準文書の特徴量とすることを特徴とする1乃至9の何れか1項に記載の関連文書抽出方法。
11. 関連する文書を文書集合から抽出するための基準となる基準文書を指定する基準文書指定手段と、前記基準文書及び他の文書の特徴量をそれぞれ算出する特徴量算出手段と、関連度算出規則に基づいて、前記基準文書と他の文書それぞれとの間の関連度を、前記特徴量から算出する関連度算出手段と、前記関連度を前記基準文書と他の文書それぞれとの間の距離で表現したマップを生成するマップ生成手段と、生成された前記マップを表示するマップ表示手段と、を有する関連文書抽出システムであって、表示された前記マップに基づいて、前記基準文書と関連の大きい有効文書を指定する有効文書指定手段と、指定された前記有効文書と前記基準文書との関連度を大きくする方向に関連度算出規則を変更する関連度算出規則変更手段と、変更された関連度算出規則に基づいて、文書間の関連度を再計算する関連度修正手段と、修正された前記関連度に基づいて、前記マップを再生成するマップ再生成手段と、再生成された前記マップを表示するマップ再表示手段と、を備えたことを特徴とする関連文書抽出システム。
12. 前記特徴量算出手段は、前記特徴量として特徴ベクトルを算出し、該特徴ベクトルの各成分は、文書内での各単語の出現頻度に基づき算出することを特徴とする11に記載の関連文書抽出システム。
13. 前記関連度算出規則は、前記関連度を算出するにあたっての前記特徴ベクトルの各成分の重み付けを定めており、前記関連度算出手段は、前記関連度算出規則に従って重み付け計算した前記特徴ベクトル間の内積に基づき関連度を算出することを特徴とする12に記載の関連文書抽出システム。
14. 前記有効文書指定手段は、表示された前記マップに対するユーザの操作入力に基づき、有効文書の特定と、基準文書との距離で表現された関連度を取得し、前記関連度算出規則変更手段は、取得した前記基準文書との距離に応じて、前記関連度算出規則の特徴ベクトルの各成分に対する重み付けを変更することを特徴とする13に記載の関連文書抽出システム。
15. コンピュータを、関連する文書を文書集合から抽出するための基準となる基準文書を指定する基準文書指定手段、前記基準文書及び他の文書の特徴量をそれぞれ算出する特徴量算出手段、関連度算出規則に基づいて、前記基準文書と他の文書それぞれとの間の関連度を、前記特徴量から算出する関連度算出手段、及び前記関連度を前記基準文書と他の文書それぞれとの間の距離で表現したマップを生成するマップ生成手段として機能させる関連文書抽出プログラムであって、コンピュータを、生成された前記マップに基づいて、前記基準文書と関連の大きい有効文書を指定する有効文書指定手段、指定された前記有効文書と前記基準文書との関連度を大きくする方向に関連度算出規則を変更する関連度算出規則変更手段、変更された関連度算出規則に基づいて、文書間の関連度を再計算する関連度修正手段、及び修正された前記関連度に基づいて、前記マップを再生成するマップ再生成手段として機能させることを特徴とする関連文書抽出プログラム。
本発明に係る関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラムによれば、表示されたマップに基づく関連の大きい有効文書指定をユーザから受け取り、その関連度を大きくするよう関連度算出規則を変更し、各文書の関連度を再計算し、マップを再表示する。
これにより、ユーザが文書間の関連度を表現したマップを見ながら、自らの意図を反映する操作が可能で、それに従い自動的に関連度を再計算し、マップを修正することができ、効率的に、よりユーザの指向にあった関連文書を容易に見つけることができる。
以下、図を参照して本発明に係る関連文書抽出システム、関連文書抽出方法、及び関連文書抽出プログラムの実施形態を説明する。
(関連文書抽出システムの構成)
図1は、本実施形態に係る関連文書抽出システムの概略構成例を示す構成図である。図1を用いて関連文書抽出システムの装置構成を説明する。
図1は、本実施形態に係る関連文書抽出システムの概略構成例を示す構成図である。図1を用いて関連文書抽出システムの装置構成を説明する。
図1に示すように、本実施形態に係る関連文書抽出システムは、情報処理装置である文書サーバ1と複数のクライアントとしての端末2(図1では1台のみ記載)とがネットワーク接続されている。端末2は、装置としてPC(パーソナルコンピュータ)を用いており、以後単にクライアント2またはクライアントPC2と呼称する。
それぞれのクライアントPC2にはマップ表示手段3と文書指定手段4が接続している。マップ表示手段3は、液晶パネルなどのディスプレイ装置であり、文書指定手段4はキーボードやマウスなどのユーザが操作可能な入力装置である。
文書サーバ1とクライアントPC2の詳細な構成のうち、関連文書抽出の機能に関わる部分を以下に説明する。なお、上記のように、文書サーバ1、クライアントPC2はそれぞれ情報処理装置であり、以下に説明する各手段の機能は、関連文書抽出プログラムにより、コンピュータとしての文書サーバ1、クライアントPC2の各機能部分に実行させることができる。
文書サーバ1の役割は、多数の文書情報を保持し、クライアント2の要請に応じて、文書データを送信する、あるいは検索や関連文書抽出のための文書データのデータ処理を行いクライアント2に提供することである。文書サーバ1は、そのための記憶装置、制御装置、通信装置などをハードウェアとして擁しており、その機能を構成する部分は、大きくデータ保持部10とデータ処理部20として示すことができる。
データ保持部10は、関連文書を抽出するための文書集合となる多数の文書情報を保持している文書情報保持部11と、それらの文書について算出された特徴量を保持する特徴情報保持部12と、各文書の特徴量に基づいて算出された文書間の関連度を保持する関連度情報保持部13とを備えている。
またデータ保持部10は、関連度算出のためのルールを定めた関連度算出規則を保持する関連度算出規則保持部14と、関連文書抽出の基準となる基準文書として指定された文書を特定する情報を保持する基準文書情報保持部15と、関連度修正のために有効文書として指定された文書を特定する情報を保持する有効文書情報保持部16とを備えている。
データ処理部20は、特徴量算出手段として機能する特徴量抽出部21と、関連度算出手段または関連度修正手段として機能する関連度算出部22と、関連度算出規則変更手段として機能する関連度算出規則設定部23とを備えている。
特徴量抽出部21は、各文書の特徴量を算出する。関連度算出部22は、各文書の特徴量から、関連度算出規則に基づいて関連度を算出する、または変更された関連度算出規則に基づいて関連度を再計算する。関連度算出規則設定部23は、関連度算出規則を設定する、または変更する。
クライアントPC2の役割は、多数の文書情報を保持する文書サーバ1に要請して、文書データを受け取る、あるいは検索や関連文書抽出のための文書データのデータ処理を依頼する、そのための情報を送信することである。クライアントPC2も、そのための記憶装置、制御装置、通信装置などを保有しており、その機能を構成する部分は、文書サーバ1と同様にデータ保持部30とデータ処理部40とで示すことができる。
データ保持部30は、生成したマップまたは再生成されたマップのマップデータを保持するマップ情報保持部を備えている。
データ処理部40は、各文書の関連度に応じてマップを生成する、または再生成するマップ生成部41を備えている。すなわち、マップ生成部41は、マップ生成手段またはマップ再生成手段として機能する。
またデータ処理部40は、関連文書を抽出する基準となる基準文書を特定し、文書サーバ1に送信する基準文書情報通知部42と、関連度を修正するための有効文書を特定し、文書サーバ1に送信する有効文書情報通知部43とを備えている。
クライアントPC2に接続するマップ表示手段3は、生成したマップまたは再生成したマップを表示する、すなわちマップ表示手段またはマップ再表示手段として機能する。
またクライアントPC2に接続する文書特定手段4は、ユーザの操作を受けて、基準文書を特定するための情報、または有効文書を特定するための情報を入力する。すなわち、上記基準文書情報通知部42と協働し、基準文書指定手段として機能する。また、上記有効文書情報通知部43と協働し、有効文書指定手段として機能する。
以上、本実施形態では、情報処理装置である文書サーバ1と複数のクライアントPC2(及びマップ表示手段3と文書指定手段4)がネットワーク接続されている関連文書抽出システムの構成について説明したが、システムの構成はこれに限定されるものではなく、同様の機能を有する構成であればよい。例えば、文書サーバ1とクライアントPC2の各機能要素を兼ね備えた情報処理装置が、1台ですべての関連する処理を行うような構成も可能である。
(関連文書抽出システムの機能動作)
図2は、本実施形態に係る関連文書抽出システムの各機能動作の関連を示すブロック図である。図3は、本システムでの関連文書抽出方法の概略の処理動作を示すフロー図である。図2及び図3を用いて関連文書抽出システムの機能動作と関連文書抽出方法の概略フローを説明する。
図2は、本実施形態に係る関連文書抽出システムの各機能動作の関連を示すブロック図である。図3は、本システムでの関連文書抽出方法の概略の処理動作を示すフロー図である。図2及び図3を用いて関連文書抽出システムの機能動作と関連文書抽出方法の概略フローを説明する。
図2は、図1に示した文書サーバ1とクライアントPC2の各機能要素を同符号で再配置し、処理の流れを矢印線で示したものである。実線の矢印線は後述するステップS1(特徴量算出処理)とステップS2(マップ生成処理)の処理の流れを示し、破線の矢印線は後述するステップS3(マップ再生成処理)の処理の流れを示したものである。
以下、図2を参照しながら図3の各ステップの概略を説明する。
<特徴量算出処理>
図3において、ステップS1は特徴量算出処理であり、文書情報保持部11で保持されている文書集合について、各文書の特徴量を特徴量抽出部21が算出し、算出した各文書の特徴量を特徴情報保持部12に保持しておく。特徴量として特徴ベクトルを算出する例について、詳細を後述する。
図3において、ステップS1は特徴量算出処理であり、文書情報保持部11で保持されている文書集合について、各文書の特徴量を特徴量抽出部21が算出し、算出した各文書の特徴量を特徴情報保持部12に保持しておく。特徴量として特徴ベクトルを算出する例について、詳細を後述する。
この処理は関連文書抽出のための準備処理でもあり、実際の抽出のための処理は、次のステップで関連文書抽出の基準となる基準文書を指定してから開始する。
<マップ生成処理>
ステップS2はマップ生成処理であり、指定した基準文書に対して、他の文書との関連度を算出し、算出した関連度を文書間の距離で表現したマップを生成、表示する。
ステップS2はマップ生成処理であり、指定した基準文書に対して、他の文書との関連度を算出し、算出した関連度を文書間の距離で表現したマップを生成、表示する。
まず文書情報保持部11で保持されている文書集合について、文書指定手段4により、基準文書を指定し、基準文書情報通知部42が通知して、基準文書情報保持部15に基準文書を特定する情報を保持する。
次に関連度算出部22が関連度算出規則保持部14の保持する関連度算出規則に基づき、特徴情報保持部12の保持する各文書の特徴量から、基準文書情報保持部15に保持する基準文書と他の文書との関連度を算出し、関連度情報保持部13に保持する。関連度算出の詳細な例については後述する。
そして関連度情報保持部13に保持する基準文書と他の文書の関連度に基づき、マップ生成部41がマップを生成し、マップ情報保持部31に保持する。最後に、マップ情報保持部31に保持するマップ情報をマップ表示手段3にマップとして表示し、ユーザに関連文書情報として提示する。
しかしながら、関連文書抽出処理はこれで終わりではなく、この後、ステップS3のマップ再生成処理が引き続く。マップ再生成処理のねらいは、関連文書抽出処理が上述の処理でユーザにマップを提供するだけでなく、ユーザが文書間の関連度を表現したマップを見ながら、自らの意図を反映する操作を行うことができるようにすることである。また、それにより自動的に関連度が再計算され、マップを修正する処理を行うことである。すなわち、効率的に、よりユーザの指向にあった関連文書を見つけることができるようにするための処理である。
<マップ再生成処理>
ステップS3のマップ再生成処理では、関連度が大きいとユーザが指定した有効文書に対して、基準文書との関連度がより大きくなるように関連度の算出規則を変更した上で、各関連度を再計算し、マップを再生成、再表示する。
ステップS3のマップ再生成処理では、関連度が大きいとユーザが指定した有効文書に対して、基準文書との関連度がより大きくなるように関連度の算出規則を変更した上で、各関連度を再計算し、マップを再生成、再表示する。
まず、マップ表示手段3に表示されたマップを見たユーザの文書指定手段4による操作入力を受けて、基準文書と関連の大きい有効文書情報を取得し、有効文書情報通知部43が通知して、有効文書情報保持部16に有効文書を特定する情報を保持する。
次に関連度算出規則設定部23が、基準文書情報保持部15に保持する基準文書と有効文書情報保持部16に保持する有効文書との関連度がより大きくなる方向に、関連度算出規則保持部14に保持する関連度算出規則を変更する。
そして関連度算出部22が、関連度算出規則保持部14に保持する変更された関連度算出規則に基づき、基準文書と他の文書との関連度を再計算して、修正した関連度を算出し、関連度情報保持部13に保持する。関連度算出規則の変更と関連度の修正の詳細例については後述する。
さらに関連度情報保持部13に保持する基準文書と他の文書の修正された関連度に基づき、マップ生成部41がマップを再生成し、マップ情報保持部31に保持する。最後に、マップ情報保持部31に保持する再生成されたマップ情報をマップ表示手段3に再表示し、ユーザに修正された関連文書情報として提示する。
上記のステップS3のマップ再生成処理は、複数回繰り返してもよい。その都度、ユーザにより新たに有効文書が指定されれば、再生成されるマップは、よりユーザの指向を反映したものとなる。また繰り返しするにあたって、これもユーザの判断により基準文書の変更を行うようにしてもよい。例えば、指定した有効文書を次の繰り返し時に基準文書としてマップを再生成するようにしてもよい。
ステップS3のマップ再生成処理を適当な回数繰り返し、意図するように適切な関連文書が得られたと判断した時点で、任意に繰り返しを終了する、すなわち関連文書抽出処理を終了することができる。
(関連文書抽出方法のフロー)
図4は、本実施形態に係る関連文書抽出方法の詳細な処理手順例を示すフローチャートである。図4を用いて関連文書抽出方法の詳細な処理手順例を説明する。適時図2も参照する。
図4は、本実施形態に係る関連文書抽出方法の詳細な処理手順例を示すフローチャートである。図4を用いて関連文書抽出方法の詳細な処理手順例を説明する。適時図2も参照する。
<特徴量算出工程>
ステップS11は特徴量算出工程である。特徴量抽出部21が、文書情報保持部11で保持されている各文書の特徴量を算出し、各文書の特徴量を特徴情報保持部12に保持する。特徴量として特徴ベクトルを算出する例の詳細について説明する。
ステップS11は特徴量算出工程である。特徴量抽出部21が、文書情報保持部11で保持されている各文書の特徴量を算出し、各文書の特徴量を特徴情報保持部12に保持する。特徴量として特徴ベクトルを算出する例の詳細について説明する。
例えば手順としては、文書情報保持部11で保持されているすべての文書の内容を形態素解析し、単語の出現頻度情報を得ておく。これに基づき各文書の特徴ベクトルを算出する。すなわち、各単語の出現頻度がベクトル成分となる多次元のベクトルである。
形態素解析には公知の手法を用いることができる。例えば、chasenのプログラム(http://chasen−legacy.sourceforge.jp/)などが挙げられる。
具体的な特徴ベクトルの生成例を図5に示す。
図5の101は文書の内容を示している。文書101の短い文章から形態素解析により出現頻度が1以上の単語を抽出したのが102の特徴情報である。例えば単語「チームG」は出現頻度が1であり、単語「F.」は出現頻度が2である。なお、この例では助詞などの特徴の弱い語を除去しているが、これは必須ではない。
この場合、特徴情報102が文書101の特徴ベクトルを表していることになる。各語の出現頻度が特徴ベクトルの各成分に相当する。
なお、単純な出現頻度情報を用いる代わりにTFIDF値を用いてもよい。TFIDF値とは、出現頻度(TF値)と、他の文書における出現率から算出した値(IDF値)の積を取ったものである。IDF値の一例としては、ある文書集合で全文書数がN、そのうちtという単語が出現する文書数がf(t)である場合に、単語tのIDF値を、
idf(t)=log(N/f(t))+1、
と定める。
idf(t)=log(N/f(t))+1、
と定める。
<基準文書指定工程>
ステップS21は基準文書指定工程である。ユーザが文書指定手段4により、文書情報保持部11で保持されている文書集合から関連文書抽出の基準となる基準文書を指定し、基準文書情報通知部42が通知して、基準文書情報保持部15に基準文書を特定する情報を保持する。
ステップS21は基準文書指定工程である。ユーザが文書指定手段4により、文書情報保持部11で保持されている文書集合から関連文書抽出の基準となる基準文書を指定し、基準文書情報通知部42が通知して、基準文書情報保持部15に基準文書を特定する情報を保持する。
基準文書情報保持部15に保持する基準文書情報は文書のタイトルやIDなど文書を特定する最小限の情報でよい。文書の内容を保持する必要はない。文書指定手段4により基準文書を指定する方法も任意である。既存のマップをマップ表示手段3に表示させ、文書指定手段4により選択させるような方法でもよい。
基準文書の指定は、1つに限定する必要はない。複数の基準文書を指定してもよい。その場合、複数の基準文書の特徴量を組み合わせて特徴量とすることもできる。例えば、複数の文書の特徴ベクトルの平均(特徴ベクトルの単純な和をとり、文書数で割る)を複数の基準文書の特徴ベクトルとするなどが考えられる。
また、文書情報保持部11で保持されている文書集合から基準文書を指定するのではなく、例えば、ユーザの作成した新しい文書などを文書集合に追加するような形で、基準文書に指定してもよい。その場合、特徴量も追加して算出しておくことになる。
<関連度算出工程>
ステップS22は関連度算出工程である。関連度算出部22が関連度算出規則保持部14の保持する関連度算出規則に基づき、特徴情報保持部12の保持する各文書の特徴量から、基準文書情報保持部15に保持する基準文書と他の文書との関連度を算出し、関連度情報保持部13に保持する。
ステップS22は関連度算出工程である。関連度算出部22が関連度算出規則保持部14の保持する関連度算出規則に基づき、特徴情報保持部12の保持する各文書の特徴量から、基準文書情報保持部15に保持する基準文書と他の文書との関連度を算出し、関連度情報保持部13に保持する。
関連度を算出する手順の例について詳細に説明する。
例えば手順として、文書Aと文書Bの関連度を求める場合、文書Aの特徴ベクトルAと文書Bの特徴ベクトルBの内積を求め、特徴ベクトルAと特徴ベクトルBの大きさの積で割って関連度を算出する。
こうすれば関連度は0から1の範囲の値を取り、2つのベクトルが一致するときに関連度は1となり、共通して出現する語がないときに関連度は0となる。なお、これらは関連度算出規則保持部14の保持する関連度算出規則に基づく。
具体的な関連度の算出例を図6に示す。
103は文書Aの特徴情報、すなわち特徴ベクトルAであり、104は文書Bの特徴情報、すなわち特徴ベクトルBである。103と104それぞれで下線を引いたのは、共通して出現している単語、すなわち共通するベクトル成分である。105は文書Aと文書Bの関連度を算出する過程を示している。
この場合、特徴ベクトルAと特徴ベクトルBの各大きさは、各成分の2乗和の平方根で表される。105に示すように、特徴ベクトルAの大きさは、12が12個と22が1個で足すと16、その平方根だから161/2となる。同様にして特徴ベクトルBの大きさは、301/2となる。
また特徴ベクトルAと特徴ベクトルBの内積は、各ベクトルの共通する成分(下線部)の積の和で表されるので、2×2が1個、1×2が2個、1×1が4個、これらを足して12となる。
従って、文書Aと文書Bの関連度は、12/4801/2≒0.55となる。
なおこの例では示していないが、関連度算出規則保持部14の保持する関連度算出規則には、関連度算出時に各特徴ベクトルの成分に重み付けを行うことを定めることができる。具体例は後述するが、関連度算出規則変更工程では、重み付けした関連度算出処理を行っている。
<マップ生成工程>
ステップS23はマップ生成工程である。マップ生成部41が、関連度情報保持部13に保持する基準文書と他の文書の関連度に基づきマップを生成し、マップ情報保持部31に保持する。
ステップS23はマップ生成工程である。マップ生成部41が、関連度情報保持部13に保持する基準文書と他の文書の関連度に基づきマップを生成し、マップ情報保持部31に保持する。
マップは、基準文書の周りに他の文書を、基準文書との関連度が大きいほど近くに来る(距離が小さくなる)ように配置する。
例えばマップにおける距離の算出の例を示すと、関連度は0から1の範囲の値を取るのであるから、文書間の関連度をxとするなら、その文書間の距離は−log(x)とすればよい。こうすれば関連度が1に近づくにつれて距離は0に近づく。
図7に生成したマップの例を示す。「基準文書」200に対して、他の文書は関連度が大きいほど近くに配置される。このマップ例では、「文書1」が最も「基準文書」200との関連度が大きく(距離が小さく)、「文書5」が最も「基準文書」200との関連度が小さい(距離が大きい)。
<マップ表示工程>
ステップS24はマップ表示工程である。マップ情報保持部31に保持するマップ情報をマップ表示手段3にマップとして表示し、ユーザに関連文書情報として提示する。
ステップS24はマップ表示工程である。マップ情報保持部31に保持するマップ情報をマップ表示手段3にマップとして表示し、ユーザに関連文書情報として提示する。
例えば、図7に示したようなマップがマップ表示手段3に表示される。これによりユーザは、視覚的なイメージで関連文書の関連度を把握することができる。
さて、既述したように本実施形態では、よりユーザの指向を反映した関連文書抽出が行えるように、この後、以下のマップ再生成処理が引き続く。
<有効文書指定工程>
ステップS31は有効文書指定工程である。マップ表示手段3に表示されたマップを見たユーザの文書指定手段4による操作入力を受けて、基準文書と関連の大きい有効文書情報を取得し、有効文書情報通知部43が通知して、有効文書情報保持部16に有効文書を特定する情報を保持する。
ステップS31は有効文書指定工程である。マップ表示手段3に表示されたマップを見たユーザの文書指定手段4による操作入力を受けて、基準文書と関連の大きい有効文書情報を取得し、有効文書情報通知部43が通知して、有効文書情報保持部16に有効文書を特定する情報を保持する。
有効文書情報保持部16に保持する有効文書情報は、基準文書の場合と同様に、文書のタイトルやIDなど文書を特定する最小限の情報でよい。文書の内容を保持する必要はない。
図8を参照して、文書指定手段4による有効文書指定の具体例を説明する。図8はマップ表示手段3の画面にマップが表示されている状態を示す。文書指定手段4はマウスであり、ユーザにより操作される。
例えば、「基準文書」200を中心とした関連文書(「文書1」〜「文書5」)のマップをユーザが見て、「文書2」201を参照したいと思ったとき、画面の「文書2」201をマウスクリックする。すると、画面には別ウィンドウ110が開き、「文書2」の内容111が表示され、参照可能となる。
ユーザは「文書2」の内容111を確認して、基準文書と関連度が大きい、すなわち関連文書抽出のための有効文書として採り上げるべきと判断した場合、ウィンドウ110内に設けられた有効文書指定のためのボタン112をクリックする。これで有効文書指定が終わり、自動的に、以下のマップ再生成、再表示のための処理が進む。
<関連度算出規則変更工程>
ステップS32は関連度算出規則変更工程である。関連度算出規則設定部23が、基準文書情報保持部15に保持する基準文書と有効文書情報保持部16に保持する有効文書との関連度がより大きくなる方向に、関連度算出規則保持部14に保持する関連度算出規則を変更する。
ステップS32は関連度算出規則変更工程である。関連度算出規則設定部23が、基準文書情報保持部15に保持する基準文書と有効文書情報保持部16に保持する有効文書との関連度がより大きくなる方向に、関連度算出規則保持部14に保持する関連度算出規則を変更する。
関連度算出規則を変更する目的は、基準文書と有効文書との関連度がより大きくなるような関連度の算出法に変えることであり、例えば、関連度計算のために各文書の特徴ベクトルの内積を計算するに際して、ベクトル成分に重み付けを行う方法が考えられる。
すなわち、基準文書と有効文書との共通するベクトル成分、すなわち共通して出現する単語をベクトル比較して求め、その単語(ベクトル成分)に対して重み付けを大きくして関連度を算出する(内積をベクトルの大きさの積で割る。)
共通する単語(ベクトル成分)の重み付けを大きくすると、内積が大きくなる、すなわち関連度が大きくなるのである。
共通する単語(ベクトル成分)の重み付けを大きくすると、内積が大きくなる、すなわち関連度が大きくなるのである。
これにより、ここで重み付けを大きくした共通する単語が共通して出現する文書が他にあれば、それらの文書とも関連度が大きくなるような関連度算出規則になる。それらの重み付けを大きくした単語が出現しない文書は、相対的に関連度が小さくなる。
次の関連度修正工程で、重み付けを変更し、関連度を再計算した例を説明する。
<関連度修正工程>
ステップS33は関連度修正工程である。関連度算出部22が、関連度算出規則保持部14に保持する変更された関連度算出規則に基づき、基準文書と他の文書との関連度を再計算して、修正した関連度を算出し、関連度情報保持部13に保持する。
ステップS33は関連度修正工程である。関連度算出部22が、関連度算出規則保持部14に保持する変更された関連度算出規則に基づき、基準文書と他の文書との関連度を再計算して、修正した関連度を算出し、関連度情報保持部13に保持する。
上述したように、変更された関連度算出規則はベクトル成分の重み付けを変更したものである。文書Aと文書Bの関連度を求める手順として、文書Aの特徴ベクトルAと文書Bの特徴ベクトルBの内積を求め、特徴ベクトルAと特徴ベクトルBの大きさの積で割って関連度を算出するのは同じであり、重み付けだけが異なる。
図9には、重み付けを変更した場合の具体的な関連度算出の例を示す。図9を参照して関連度修正の手順の具体例を説明する。
図9において、103aは文書Aの特徴情報(特徴ベクトルA)であり、104aは文書Bの特徴情報(特徴ベクトルB)である。103aと104aそれぞれで下線を引いたのは、文書Aと文書Bに共通して出現している単語、すなわち共通するベクトル成分である。
変更された関連度算出規則を適用して、ベクトル成分には重み付けがなされている。ここでは、チーム名、すなわち「チームD」「チームG」「チームT」という語に、それぞれ2倍の重み付けがされている。基準文書と有効文書とでこれらの単語が共通していたということである。
105aは、文書Aと文書Bの重み付けが変更された状態で、関連度を再計算する過程を示している。
この場合、特徴ベクトルAと特徴ベクトルBの各大きさは、各成分の2乗和の平方根で表されるので、特徴ベクトルAの大きさは、12が10個と22が3個で足すと22、その平方根だから221/2となる。同様にして特徴ベクトルBの大きさは、481/2となる。
また特徴ベクトルAと特徴ベクトルBの内積は、各ベクトルの共通する成分(下線部)の積の和で表されるので、2×4が1個、2×2が2個、1×2が1個、1×1が3個、これらを足して21となる。
従って、文書Aと文書Bの修正された関連度は、21/10561/2≒0.65となる。これは修正前の(重み付け変更前の)関連度0.55より大きくなっている。文書Aと文書Bとでは、重み付けした単語(基準文書と有効文書に共通する単語)が共通して現れる傾向がある(すなわち、関連度が高い)ということである。
<マップ再生成工程>
ステップS34はマップ再生成工程である。マップ生成部41が、関連度情報保持部13に保持する基準文書と他の文書の修正された関連度に基づきマップを再生成し、マップ情報保持部31に保持する。
ステップS34はマップ再生成工程である。マップ生成部41が、関連度情報保持部13に保持する基準文書と他の文書の修正された関連度に基づきマップを再生成し、マップ情報保持部31に保持する。
再生成したマップも、関連度修正前と同様に、基準文書の周りに他の文書を、基準文書との関連度が大きいほど近くに来る(距離が小さくなる)ように配置している。
図10に再生成したマップの例を示す。図10(a)は、修正する前の(「文書2」を有効文書として指定した時点の)マップであり、図10(b)が再生成したマップの例である。
何れも「基準文書」200に対して、他の文書は関連度が大きいほど近くに配置されるが、この再生成マップ例では、有効文書として指定した「文書2」に加えて、「文書4」と「文書5」も「基準文書」200との関連度が大きく(距離が小さく)なっている。また、「文書1」と「文書3」は、逆に「基準文書」200との関連度が小さく(距離が大きく)なっている。
<マップ再表示工程>
ステップS35はマップ再表示工程である。マップ情報保持部31に保持する再生成されたマップ情報をマップ表示手段3に再表示し、ユーザに修正された関連文書情報として提示する。
ステップS35はマップ再表示工程である。マップ情報保持部31に保持する再生成されたマップ情報をマップ表示手段3に再表示し、ユーザに修正された関連文書情報として提示する。
図10(b)に示したように、有効文書指定という形でユーザの指向をより反映した再生成マップが表示され、関連文書の修正された関連度を視覚的なイメージで把握することができる。
また再生成マップの表示については、修正前の、すなわち既定の関連度算出規則に従って生成したマップと組み合わせて表示するようにしてもよい。組み合わせの方法は任意であるが、例えば図11に示すような組み合わせでもよい。
図11は、既定のマップ生成での関連度(文書間距離)と再生成したマップでの関連度(文書間距離)とを、それぞれX軸とY軸にとってグラフ化したものである。「文書1」から「文書7」までを記載しているが、原点0が基準文書そのものを示しており、0に近いほど関連度が大きいことを表している。
図11で、121は、既定の算出方法では関連度が大きいが、ユーザの指向を反映すると関連度は小さくなる文書のグループを示す。122は逆に、既定の算出方法では関連度が小さいが、ユーザの指向を反映すると関連度は大きくなる文書のグループを示す。
図11のような表示を図10のような表示と任意に切り換えられるようにしてもよい。
<工程の繰り返し>
ステップS31からステップS35の工程は、複数回繰り返してもよい。
ステップS31からステップS35の工程は、複数回繰り返してもよい。
上記工程を適当な回数繰り返し、意図するように適切な関連文書が得られたと判断した時点で、任意に繰り返しを終了する、すなわち関連文書抽出処理を終了することができる。既述したように、その都度、ユーザにより新たに有効文書が指定されれば、再生成されるマップは、よりユーザの指向を反映したものとなる。
また、繰り返しするにあたって、これもユーザの判断により基準文書の変更を行うようにしてもよい。例えば、有効文書指定工程で指定した有効文書を基準文書として同時に指定し、その後の工程(関連度修正工程以後)、または次の繰り返し時に基準文書としてマップを再生成するようにしてもよい。
図12に、有効文書を基準文書に指定して、マップ再生成処理したときの再生成マップの例を示す。この例では「文書1」を有効文書として関連度算出規則を変更し、かつ基準文書として他の文書との関連度を算出する、すなわち有効文書を基準文書として位置づけた上で、マップの再生成処理を行っている。
「文書1」200が基準文書の位置づけでマップの中央に位置し、他の文書との関連度が表現され、元々の「基準文書」202は、再生成マップ上では他の文書の1つという位置づけになっている。
(別の関連文書抽出方法フロー例)
上述したステップS31からステップS32の工程について、別の処理手順の例を説明する。以下に、各々の工程において異なる点を説明する。
上述したステップS31からステップS32の工程について、別の処理手順の例を説明する。以下に、各々の工程において異なる点を説明する。
<有効文書指定工程2>
図13を参照して、文書指定手段4による有効文書指定の別の具体例を説明する。図13はマップ表示手段3の画面にマップが表示されている状態を示す。文書指定手段4はマウスであり、ユーザにより操作される。
図13を参照して、文書指定手段4による有効文書指定の別の具体例を説明する。図13はマップ表示手段3の画面にマップが表示されている状態を示す。文書指定手段4はマウスであり、ユーザにより操作される。
例えば、「基準文書」200を中心とした関連文書(「文書1」〜「文書5」)のマップをユーザが見て、「文書2」203を基準文書と関連度が大きい、すなわち関連文書抽出のための有効文書として指定すべきと判断した場合、マップ上の「文書2」203をドラッグしてより関連度の大きい(「基準文書」200との距離が近い)位置204に移動させる。結果、図13(b)のようになる。
この動作により、「文書2」203を有効文書として指定するとともに、どのくらい関連度が大きくなるように関連度算出規則を変更すべきかという情報も入力する。すなわち、移動した「文書2」204の位置(「基準文書」200との距離)を取得して、その距離で表現された関連度になるよう関連度算出規則を変更する(具体的には重み付けを変更する)のである。
これにより、ユーザは、有効文書を指定するのみならず、どの程度有効かを、有効文書をドラッグで移動させる距離で反映させることが可能になるのである。
<関連度算出規則変更工程2>
図14を参照して、上述のように有効文書指定された場合の関連度算出規則の変更処理の具体例を説明する。
図14を参照して、上述のように有効文書指定された場合の関連度算出規則の変更処理の具体例を説明する。
関連度算出規則の変更が基準文書と有効文書に共通する単語の重み付けの変更であることは同様であるが、異なるのは、関連度を再計算したときに、修正した関連度から得られるマップ上の距離が、ユーザによって移動させられた後の基準文書と有効文書の距離と一致するように重み付けを変更するという点である。
そのために、重み付けを未知数a倍として、関連度を算出し、距離から求めた関連度となるように未知数aを求める。
図14において、103bは文書A(ここでは基準文書とする)の特徴情報(特徴ベクトルA)であり、104bは文書B(ここでは有効文書とする)の特徴情報(特徴ベクトルB)である。103bと104bそれぞれで下線を引いたのは、基準文書Aと有効文書Bに共通して出現している単語、すなわち共通するベクトル成分である。
変更された関連度算出規則を適用して、ベクトル成分に重み付けをする。ここでは、基準文書Aと有効文書Bに共通する単語(下線部分)に、それぞれa倍の重み付けをしている。105bは、このように重み付けが変更された状態で、関連度を再計算する過程を示している。
基準文書Aと有効文書B(「文書2」)の距離は、既定の重み付け(a=1)であったときは、0.60であったものが、0.4になるよう移動させられたものとする。そうすると関連度は、0.55であったものが、0.67となるように重み付けaを設定しなければならない。
この場合、特徴ベクトルAと特徴ベクトルBの各大きさは、各成分の2乗和の平方根で表されるので、特徴ベクトルAの大きさは、(2a)2が1個とa2が6個と12が6個で足すと10a2+6、その平方根だから(10a2+6)1/2となる。同様にして特徴ベクトルBの大きさは、(16a2+14)1/2となる。
また特徴ベクトルAと特徴ベクトルBの内積は、各ベクトルの共通する成分(下線部)の積の和で表されるので、2a×2aが1個、1a×2aが2個、a×aが4個、これらを足して12a2となる。
従って、基準文書Aと有効文書Bの修正された関連度0.67は、12a2/((10a2+6)(16a2+14))1/2と等しくなる必要がある。これを解くと、a≒1.33となる。関連度算出規則変更工程では重み付けの値をこのように変更する。
ステップS33の関連度算出工程以後は、既述したと同様に進めればよい。マップ再表示工程まで終了すると、図13(b)のようなマップが表示された。このマップ例では、関連度の修正の結果、有効文書である「文書2」204に加えて、「文書4」と「文書5」の関連度が大きく(基準文書との距離が小さく)なっており、「文書1」と「文書3」の関連度が小さく(基準文書との距離が大きく)なっている。
なお上記では、関連度を大きくする有効文書を指定する例について述べたが、有効文書とは逆に関連のない、すなわち関連度を小さくすべき文書を指定して、どの程度関連度を小さくすべきかを距離で指定することで、関連度算出規則を変更するような手法を採ることも可能である。
上述してきたように、本実施形態に係る関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラムによれば、表示されたマップに基づく関連の大きい有効文書指定をユーザから受け取り、その関連度を大きくするよう関連度算出規則を変更し、各文書の関連度を再計算し、マップを再表示する。
これにより、ユーザが文書間の関連度を表現したマップを見ながら、自らの意図を反映する操作が可能で、それに従い自動的に関連度を再計算し、マップを修正することができ、効率的に、よりユーザの指向にあった関連文書を容易に見つけることができる。
なお、上記の実施形態では、有効文書を指定するのにユーザ自身の操作に基づいているが、同じ基準文書に対する、他のユーザによる有効文書指定の履歴等を参照し、過去に記録された有効文書指定に基づき、自動的に有効文書が特定されるような形態であってもよい。
例えば、あるユーザが基準文書を指定したときに、他のユーザ(複数も可)がその基準文書に対して有効文書を指定した履歴があった場合、自動的にそれらの履歴を参照して関連度算出規則の変更がなされ(共通する単語の重み付け変更がなされ)、最初から修正された関連度に基づくマップが生成表示されるようにしてもよい。
もちろんその後、ユーザ自身の有効文書指定によるマップ再生成処理が引き続き繰り返される形態としてもよい。
また上述の実施形態では、関連度を算出するための特徴量として、文書内に出現する単語の出現頻度を用いたが、必ずしも語句にとらわれる必要はなく、例えば文書内で使用されている図表や画像等を特徴量として比較し、類似した図表や画像が使用されているかどうかで関連度を算出するようにしてもよい。
上述の実施形態は、すべての点で例示であって制限的なものではない。本発明の範囲は上記した説明ではなく特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 文書サーバ
2 クライアントPC
3 マップ表示手段
4 文書指定手段
11 文書情報保持部
12 特徴情報保持部
13 関連度情報保持部
14 関連度算出規則保持部
15 基準文書情報保持部
16 有効文書情報保持部
21 特徴量抽出部
22 関連度算出部
23 関連度算出規則設定部
31 マップ情報保持部
41 マップ生成部
42 基準文書情報通知部
43 有効文書情報通知部
2 クライアントPC
3 マップ表示手段
4 文書指定手段
11 文書情報保持部
12 特徴情報保持部
13 関連度情報保持部
14 関連度算出規則保持部
15 基準文書情報保持部
16 有効文書情報保持部
21 特徴量抽出部
22 関連度算出部
23 関連度算出規則設定部
31 マップ情報保持部
41 マップ生成部
42 基準文書情報通知部
43 有効文書情報通知部
Claims (15)
- 関連する文書を文書集合から抽出するための基準となる基準文書を指定する基準文書指定工程と、
前記基準文書及び他の文書の特徴量をそれぞれ算出する特徴量算出工程と、
関連度算出規則に基づいて、前記基準文書と他の文書それぞれとの間の関連度を、前記特徴量から算出する関連度算出工程と、
前記関連度を前記基準文書と他の文書それぞれとの間の距離で表現したマップを生成するマップ生成工程と、
生成された前記マップを表示するマップ表示工程と、
を備えた関連文書抽出方法であって、
表示された前記マップに基づいて、前記基準文書と関連の大きい有効文書を指定する有効文書指定工程と、
指定された前記有効文書と前記基準文書との関連度を大きくする方向に関連度算出規則を変更する関連度算出規則変更工程と、
変更された関連度算出規則に基づいて、文書間の関連度を再計算する関連度修正工程と、
修正された前記関連度に基づいて、前記マップを再生成するマップ再生成工程と、
再生成された前記マップを表示するマップ再表示工程と、を備えた
ことを特徴とする関連文書抽出方法。 - 前記有効文書指定工程と、前記関連度算出規則変更工程と、前記関連度修正工程と、前記マップ再生成工程と、前記マップ再表示工程と、を順次複数回繰り返す
ことを特徴とする請求項1に記載の関連文書抽出方法。 - 前記マップ再表示工程の後に前記基準文書指定工程が実行され、
前記基準文書指定工程では、基準文書の指定が変更される
ことを特徴とする請求項2に記載の関連文書抽出方法。 - 前記特徴量算出工程では、前記特徴量として特徴ベクトルが算出され、
該特徴ベクトルの各成分は、文書内での各単語の出現頻度に基づき算出される
ことを特徴とする請求項1乃至3の何れか1項に記載の関連文書抽出方法。 - 前記関連度算出規則は、前記関連度を算出するにあたっての前記特徴ベクトルの各成分の重み付けを定めており、
前記関連度算出工程では、前記関連度算出規則に従って重み付け計算された前記特徴ベクトル間の内積に基づき関連度が算出される
ことを特徴とする請求項4に記載の関連文書抽出方法。 - 前記有効文書指定工程では、表示された前記マップに対するユーザの操作入力に基づき、有効文書の特定と、基準文書との距離で表現された関連度を取得し、
前記関連度算出規則変更工程では、取得した前記基準文書との距離に応じて、前記関連度算出規則の特徴ベクトルの各成分に対する重み付けを変更する
ことを特徴とする請求項5に記載の関連文書抽出方法。 - 前記有効文書指定工程では、前記基準文書に対する有効文書指定の履歴を参照し、過去に記録された有効文書指定に基づき有効文書を特定する
ことを特徴とする請求項1乃至5の何れか1項に記載の関連文書抽出方法。 - 前記マップ再表示工程では、再生成した前記マップと再生成する前の前記マップとを組み合わせた形で表示する
ことを特徴とする請求項1乃至7の何れか1項に記載の関連文書抽出方法。 - 前記基準文書指定工程では、前記基準文書としてユーザが作成した文書を新たに追加して指定する
ことを特徴とする請求項1乃至8の何れか1項に記載の関連文書抽出方法。 - 前記基準文書指定工程では、前記基準文書として複数の文書が指定され、
前記特徴量算出工程では、該複数の文書の特徴量を組み合わせて前記基準文書の特徴量とする
ことを特徴とする請求項1乃至9の何れか1項に記載の関連文書抽出方法。 - 関連する文書を文書集合から抽出するための基準となる基準文書を指定する基準文書指定手段と、
前記基準文書及び他の文書の特徴量をそれぞれ算出する特徴量算出手段と、
関連度算出規則に基づいて、前記基準文書と他の文書それぞれとの間の関連度を、前記特徴量から算出する関連度算出手段と、
前記関連度を前記基準文書と他の文書それぞれとの間の距離で表現したマップを生成するマップ生成手段と、
生成された前記マップを表示するマップ表示手段と、
を有する関連文書抽出システムであって、
表示された前記マップに基づいて、前記基準文書と関連の大きい有効文書を指定する有効文書指定手段と、
指定された前記有効文書と前記基準文書との関連度を大きくする方向に関連度算出規則を変更する関連度算出規則変更手段と、
変更された関連度算出規則に基づいて、文書間の関連度を再計算する関連度修正手段と、
修正された前記関連度に基づいて、前記マップを再生成するマップ再生成手段と、
再生成された前記マップを表示するマップ再表示手段と、を備えた
ことを特徴とする関連文書抽出システム。 - 前記特徴量算出手段は、前記特徴量として特徴ベクトルを算出し、
該特徴ベクトルの各成分は、文書内での各単語の出現頻度に基づき算出する
ことを特徴とする請求項11に記載の関連文書抽出システム。 - 前記関連度算出規則は、前記関連度を算出するにあたっての前記特徴ベクトルの各成分の重み付けを定めており、
前記関連度算出手段は、前記関連度算出規則に従って重み付け計算した前記特徴ベクトル間の内積に基づき関連度を算出する
ことを特徴とする請求項12に記載の関連文書抽出システム。 - 前記有効文書指定手段は、表示された前記マップに対するユーザの操作入力に基づき、有効文書の特定と、基準文書との距離で表現された関連度を取得し、
前記関連度算出規則変更手段は、取得した前記基準文書との距離に応じて、前記関連度算出規則の特徴ベクトルの各成分に対する重み付けを変更する
ことを特徴とする請求項13に記載の関連文書抽出システム。 - コンピュータを、
関連する文書を文書集合から抽出するための基準となる基準文書を指定する基準文書指定手段、
前記基準文書及び他の文書の特徴量をそれぞれ算出する特徴量算出手段、
関連度算出規則に基づいて、前記基準文書と他の文書それぞれとの間の関連度を、前記特徴量から算出する関連度算出手段、
及び前記関連度を前記基準文書と他の文書それぞれとの間の距離で表現したマップを生成するマップ生成手段
として機能させる関連文書抽出プログラムであって、
コンピュータを、
生成された前記マップに基づいて、前記基準文書と関連の大きい有効文書を指定する有効文書指定手段、
指定された前記有効文書と前記基準文書との関連度を大きくする方向に関連度算出規則を変更する関連度算出規則変更手段、
変更された関連度算出規則に基づいて、文書間の関連度を再計算する関連度修正手段、
及び修正された前記関連度に基づいて、前記マップを再生成するマップ再生成手段として機能させる
ことを特徴とする関連文書抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008149164A JP2009294993A (ja) | 2008-06-06 | 2008-06-06 | 関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008149164A JP2009294993A (ja) | 2008-06-06 | 2008-06-06 | 関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009294993A true JP2009294993A (ja) | 2009-12-17 |
Family
ID=41543106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008149164A Pending JP2009294993A (ja) | 2008-06-06 | 2008-06-06 | 関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009294993A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013012160A1 (ko) * | 2011-07-19 | 2013-01-24 | (주)마인드메이플코리아 | 좌표인식기반 마인드맵 사용자 편집 시스템 |
JP2013084060A (ja) * | 2011-10-06 | 2013-05-09 | Ntt Data Corp | 類似文書可視化装置、類似文書可視化方法およびプログラム |
JP2013114597A (ja) * | 2011-11-30 | 2013-06-10 | Canon Marketing Japan Inc | 情報処理装置、及びその制御方法、プログラム |
JP2013191122A (ja) * | 2012-03-15 | 2013-09-26 | Fuji Xerox Co Ltd | 情報処理装置及び情報処理プログラム |
JP2014119874A (ja) * | 2012-12-14 | 2014-06-30 | Ricoh Co Ltd | サーバ装置、電子会議システム及びプログラム |
JP2016081200A (ja) * | 2014-10-15 | 2016-05-16 | 株式会社toor | 情報表示方法及び情報表示装置 |
JP6555704B1 (ja) * | 2019-04-08 | 2019-08-07 | 株式会社AI Samurai | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム |
JP2020173759A (ja) * | 2019-07-02 | 2020-10-22 | 株式会社AI Samurai | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム |
US11079901B2 (en) | 2013-03-13 | 2021-08-03 | Ganalila, Llc | Systems and methods for presenting and discovering relationships between information units |
US11361024B2 (en) | 2012-04-18 | 2022-06-14 | Ganalila, Llc | Association mapping game |
-
2008
- 2008-06-06 JP JP2008149164A patent/JP2009294993A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013012160A1 (ko) * | 2011-07-19 | 2013-01-24 | (주)마인드메이플코리아 | 좌표인식기반 마인드맵 사용자 편집 시스템 |
JP2013084060A (ja) * | 2011-10-06 | 2013-05-09 | Ntt Data Corp | 類似文書可視化装置、類似文書可視化方法およびプログラム |
JP2013114597A (ja) * | 2011-11-30 | 2013-06-10 | Canon Marketing Japan Inc | 情報処理装置、及びその制御方法、プログラム |
JP2013191122A (ja) * | 2012-03-15 | 2013-09-26 | Fuji Xerox Co Ltd | 情報処理装置及び情報処理プログラム |
US11361024B2 (en) | 2012-04-18 | 2022-06-14 | Ganalila, Llc | Association mapping game |
JP2014119874A (ja) * | 2012-12-14 | 2014-06-30 | Ricoh Co Ltd | サーバ装置、電子会議システム及びプログラム |
US11079901B2 (en) | 2013-03-13 | 2021-08-03 | Ganalila, Llc | Systems and methods for presenting and discovering relationships between information units |
JP2016081200A (ja) * | 2014-10-15 | 2016-05-16 | 株式会社toor | 情報表示方法及び情報表示装置 |
JP6555704B1 (ja) * | 2019-04-08 | 2019-08-07 | 株式会社AI Samurai | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム |
WO2020208693A1 (ja) * | 2019-04-08 | 2020-10-15 | 株式会社 AI Samurai | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム |
US11023721B2 (en) | 2019-04-08 | 2021-06-01 | Ai Samurai Inc. | Document information evaluating device, document information evaluating method, and document information evaluating program |
JP2020173759A (ja) * | 2019-07-02 | 2020-10-22 | 株式会社AI Samurai | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009294993A (ja) | 関連文書抽出方法、関連文書抽出システム、及び関連文書抽出プログラム | |
US11314801B2 (en) | Multiple partial-image compositional searching | |
JP6480925B2 (ja) | 識別されたエンティティーに基づく属性値の取り出し | |
KR102705048B1 (ko) | 콘텐츠 제안 시스템 | |
KR102369604B1 (ko) | 고정 포맷 문서를 리플로우 포맷으로 프리젠트하는 기법 | |
US20140330821A1 (en) | Recommending context based actions for data visualizations | |
US9053196B2 (en) | Methods for interacting with and manipulating information and systems thereof | |
CN113011400A (zh) | 对数据的自动识别和洞察 | |
KR20160131103A (ko) | 메타데이터 기반 사진 및/또는 비디오 애니메이션화 | |
JP5645614B2 (ja) | 文書管理装置、文書管理装置の制御方法およびコンピュータプログラム | |
CN105393200A (zh) | 用户接口反馈元素 | |
US20190034455A1 (en) | Dynamic Glyph-Based Search | |
CN105550217B (zh) | 场景音乐搜索方法及场景音乐搜索装置 | |
KR102063425B1 (ko) | 무한 검색 결과 페이지 | |
KR101910179B1 (ko) | 데이터 시각화를 위한 웹 기반 차트 라이브러리 시스템 | |
US8875052B2 (en) | Keystroke activated dynamic task menu | |
US10366138B2 (en) | Method and apparatus for generating a web page | |
US11003467B2 (en) | Visual history for content state changes | |
WO2016018682A1 (en) | Processing image to identify object for insertion into document | |
US20140344250A1 (en) | Enhanced search refinement for personal information services | |
US10324975B2 (en) | Bulk keyword management application | |
CN107015733B (zh) | 选项信息呈现系统及方法 | |
KR101798139B1 (ko) | 웹 기반 데이터 시각화 시스템에서의 데이터 변수타입에 따른 필터 시스템 및 방법 | |
JP2009271671A (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
KR20190011186A (ko) | 데이터 시각화를 위한 웹 기반 차트 라이브러리 시스템 |