JP2004318528A

JP2004318528A - 情報抽出システム、文書抽出システム、情報抽出プログラム及び文書抽出プログラム、並びに情報抽出方法及び文書抽出方法

Info

Publication number: JP2004318528A
Application number: JP2003111983A
Authority: JP
Inventors: Naoki Kayahara; 直樹萱原; Hirotaka Ohashi; 洋貴大橋
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2003-04-16
Filing date: 2003-04-16
Publication date: 2004-11-11
Anticipated expiration: 2023-04-16
Also published as: JP4356347B2

Abstract

【課題】内容の重複を排除することについてユーザの希望に適合した情報抽出を行うことができ、作業に要するコストを低減するのに好適な情報抽出システムを提供する。
【解決手段】複数の文書データを登録した文書データ登録ＤＢ１２と、冗長度を設定する冗長度設定部２２と、抽出される文書データの冗長度が冗長度設定部２２で設定した冗長度以下となるように文書データ登録ＤＢ１２のなかから文書データを抽出する文書データ抽出部２０と、冗長度設定部２２で設定されるであろう設定値と文書データ抽出部２０で抽出される抽出文書量との関係を表示する設定支援案内表示部２８とを備える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、ニュース等の文書をユーザの好みに応じて自動的に配信する文書配信システム等に係り、特に、内容の重複を排除することについてユーザの希望に適合した情報抽出を行うことができ、作業に要するコストを低減するのに好適な情報抽出システム、文書抽出システム、情報抽出プログラムおよび文書抽出プログラム、並びに情報抽出方法および文書抽出方法に関する。
【０００２】
【従来の技術】
ユーザごとにカスタマイズが可能な情報配信システムは、ユーザがフィルタリング条件を設定し、リアルタイムで送られてくるニュース等の各種情報（以下、文字情報を主体とした文書という。）のなかからコンピュータが自動的にその設定されたフィルタリング条件に合う文書のみを抽出してユーザに配信する形態が一般的である。
【０００３】
このような形態の文書配信システムの場合、フィルタリング条件によっては、配信される文書が偏りすぎたり、また、同じような内容の文書が繰り返し送られてくるといった問題点がある。特に、後者の問題点に関しては、文書の内容が重複することにより、配信される情報に無駄が多くなったり、文書掲載スペースが限られている場合には他の重要な文書がカットされてしまう等の不都合を招き、文書配信システム自体の利便性や信頼性等を大きく損なう結果となる。
【０００４】
そのため、このような文書の重複配信を防止すべく必要な文書のみを効率的に抽出するためのフィルタリング、または分類技術が極めて重要となっている。これらに関する従来技術としては、例えば、以下の特許文献１ないし３に示すような技術が提案されている。
特許文献１（特開平１０−２７５１６０号公報）には、すべての文書にキーワードを付与し、そのキーワードから文書をベクトル化し、ある文書Ａが他の文書Ｂに包含されているときに最大値をとるような類似度評価尺度を導入して、代表文書、従属文書、独立文書等を認識して適宜関係のある文書をまとめる等の技術が開示されている。
【０００５】
特許文献２（特開平９−１０１９９０号公報）には、ユーザが指定した検索条件と情報との類似度を算出し、類似度順に一定数の記事または一定の閾値以上の記事を抽出する技術が開示されている。
特許文献３（特開２０００−１４８７７０号公報）には、分類対象となる文書の特徴量を計算し、それら各特徴量の類似度を求めたのち、数学的、統計的なクラスタ分析によって文書を分類する等の技術が開示されている。
【０００６】
【特許文献１】
特開平１０−２７５１６０号公報
【特許文献２】
特開平９−１０１９９０号公報
【特許文献３】
特開２０００−１４８７７０号公報
【０００７】
【発明が解決しようとする課題】
このように、特許文献１ないし３記載の技術にあってはいずれも、情報を関連付けてユーザに提示するために、クラスタリング手法またはグルーピング手法により関連性の高い情報をグループ化するようになっている。
ところで、ユーザごとにカスタマイズが可能な情報配信システムでは、関連性の高い記事をグループ化するだけでは足りず、グループ化した記事のなかから、ユーザの希望に添って配信対象となる記事を抽出しなければならない。例えば、ユーザが許容できる重複の範囲内で記事を配信する場合、各ユーザごとに重複の許容範囲を設定しておき、関連の高い記事をグループ化したのちは、記事の内容の重複がユーザの許容範囲内となるようにグループ化した記事のなかから配信対象となる記事を抽出することが必要である。
【０００８】
ユーザが重複の許容範囲を設定する場合、例えば、冗長度というような指標を設定し、配信候補の記事の冗長度を定量的に算出するとともに、ユーザが設定した冗長度以下となるように、グループ化した記事のなかから配信対象となる記事を抽出するという構成が考えられる。ところが、配信候補の記事の量が一定である場合、冗長性を排除しようとすると抽出される記事量（記事のデータ量または記事の数）が少なくなり、逆に、抽出される記事量を多くしようとすると冗長性が高くなるという関係がある。したがって、冗長度を設定する場合、ユーザは、自己の設定内容によって抽出される記事量がどのように影響を受けるかを設定時に把握することができれば、ユーザにとって使い勝手がよい。すなわち、記事量が多少少なくなっても冗長性をできるだけ排除したいといった要望（冗長性優先型）や、逆に、冗長性が多少高くなっても記事量をできるだけ多くしたいといった要望（記事量優先型）に応えることが可能となる。
【０００９】
しかしながら、特許文献１ないし３記載の技術にあってはいずれも、クラスタリング手法またはグルーピング手法により関連性の高い情報を単にグループ化するだけにすぎず、ユーザのこうした要望に添って重複の許容範囲を設定することはできない。
また、特許文献１ないし３記載の技術にあってはいずれも、グループ化する手法までは開示されているものの、グループ化したのちに情報を抽出する手法までは開示されていない。したがって、内容の重複を排除することについてユーザの希望に適合した情報抽出を行うことができないという問題があった。
【００１０】
また、特許文献１記載の技術にあっては、すべての文書にキーワード等の特徴を付与する必要性があるが、すべての文書に対してキーワードを付与する作業には多くのコストがかかる。
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、内容の重複を排除することについてユーザの希望に適合した情報抽出を行うことができ、作業に要するコストを低減するのに好適な情報抽出システム、文書抽出システム、情報抽出プログラムおよび文書抽出プログラム、並びに情報抽出方法および文書抽出方法を提供することを目的としている。
【００１１】
【課題を解決するための手段】
〔発明１〕
上記目的を達成するために、発明１の情報抽出システムは、
抽出対象となる複数の情報のなかから情報を抽出するシステムであって、
情報量を設定する情報量設定手段と、抽出される情報の情報量が前記情報量設定手段で設定した情報量以下または以上となるように前記複数の情報のなかから情報を抽出する情報抽出手段と、前記情報量設定手段で設定されるであろう設定値と前記情報抽出手段で抽出される抽出情報量との関係を出力する設定支援案内出力手段とを備えることを特徴とする。
【００１２】
このような構成であれば、設定支援案内出力手段により、情報量の設定値と抽出情報量との関係が出力される。この出力を受けて、ユーザは、自己の設定内容によって抽出情報量がどのように影響を受けるかを把握しやすくなるので、自己の要望に添った比較的適切な情報量を情報量設定手段で設定することができる。情報量設定手段で情報量が設定されると、情報抽出手段により、抽出される情報の情報量が設定の情報量以下または以上となるように、複数の情報のなかから情報が抽出される。
【００１３】
これにより、ユーザは、自己の設定内容によって抽出情報量がどのように影響を受けるかを把握しやすくなるので、自己の要望に添った比較的適切な情報量を設定することができるという効果が得られる。
〔発明２〕
さらに、発明２の情報抽出システムは、
抽出対象となる複数の情報のなかから情報を抽出するシステムであって、
冗長度を設定する冗長度設定手段と、抽出される情報の冗長度が前記冗長度設定手段で設定した冗長度以下となるように前記複数の情報のなかから情報を抽出する情報抽出手段と、前記冗長度設定手段で設定されるであろう設定値と前記情報抽出手段で抽出される抽出情報量との関係を出力する設定支援案内出力手段とを備えることを特徴とする。
【００１４】
このような構成であれば、設定支援案内出力手段により、冗長度の設定値と抽出情報量との関係が出力される。この出力を受けて、ユーザは、自己の設定内容によって抽出情報量がどのように影響を受けるかを把握しやすくなるので、自己の要望（例えば、冗長度優先型または情報量優先型）に添った比較的適切な冗長度を冗長度設定手段で設定することができる。冗長度設定手段で冗長度が設定されると、情報抽出手段により、抽出される情報の冗長度が設定の冗長度以下となるように、複数の情報のなかから情報が抽出される。
【００１５】
これにより、ユーザは、自己の設定内容によって抽出情報量がどのように影響を受けるかを把握しやすくなるので、自己の要望に添った比較的適切な冗長度を設定することができる。また、類似度が大きい情報同士は選択されにくくなるので、内容が類似するような情報を重複して抽出する可能性を低減することができる。したがって、従来に比して、内容の重複を排除することについてユーザの希望に比較的適合した情報抽出を行うことができるという効果が得られる。
【００１６】
ここで、情報には、文書データのほか、画像データ、音楽データまたはその他の種別のデータが含まれる。以下、発明１７の情報抽出プログラム、および発明１９の情報抽出方法において同じである。
また、抽出情報量には、抽出される情報のデータ量または情報の数が含まれる。以下、発明１７の情報抽出プログラム、および発明１９の情報抽出方法において同じである。
【００１７】
また、設定支援案内出力手段は、冗長度の設定値と抽出情報量との関係を出力するようになっていればどのような構成であってもよく、例えば、設定値と抽出情報量とを対応付けたものを１組または複数組出力するようになっていてもよいし、設定値の変化に対する抽出情報量の変化をグラフ形式等により出力するようになっていてもよい。以下、発明１７の情報抽出プログラムにおいて同じである。
【００１８】
また、設定支援案内出力手段は、冗長度の設定値と抽出情報量との関係を出力するようになっていればどのような構成であってもよく、例えば、冗長度の設定値と抽出情報量との関係を表示または印刷等により視覚的に出力するようになっていてもよいし、冗長度の設定値と抽出情報量との関係を所定の音声パターン等により聴覚的に出力するようになっていてもよい。その他、ユーザが知覚可能な方法であればいかなる方法により出力するようになっていてもよい。以下、発明１７の情報抽出プログラムにおいて同じである。
【００１９】
また、本システムは、単一の装置、端末その他の機器として実現するようにしてもよいし、複数の装置、端末その他の機器を通信可能に接続したネットワークシステムとして実現するようにしてもよい。後者の場合、各構成要素は、それぞれ通信可能に接続されていれば、複数の機器等のうちいずれに属していてもよい。以下、発明３および４の文書抽出システムにおいて同じである。
〔発明３〕
一方、上記目的を達成するために、発明３の文書抽出システムは、
抽出対象となる複数の文書のなかから文書を抽出するシステムであって、
冗長度を設定する冗長度設定手段と、抽出される文書の冗長度が前記冗長度設定手段で設定した冗長度以下となるように前記複数の文書のなかから文書を抽出する文書抽出手段と、前記冗長度設定手段で設定されるであろう設定値と前記文書抽出手段で抽出される抽出文書量との関係を出力する設定支援案内出力手段とを備えることを特徴とする。
【００２０】
このような構成であれば、設定支援案内出力手段により、冗長度の設定値と抽出文書量との関係が出力される。この出力を受けて、ユーザは、自己の設定内容によって抽出文書量がどのように影響を受けるかを把握しやすくなるので、自己の要望（例えば、冗長度優先型または文書量優先型）に添った比較的適切な冗長度を冗長度設定手段で設定することができる。冗長度設定手段で冗長度が設定されると、文書抽出手段により、抽出される文書の冗長度が設定の冗長度以下となるように、複数の文書のなかから文書が抽出される。
【００２１】
これにより、ユーザは、自己の設定内容によって抽出文書量がどのように影響を受けるかを把握しやすくなるので、自己の要望に添った比較的適切な冗長度を設定することができる。また、類似度が大きい文書同士は選択されにくくなるので、内容が類似するような文書を重複して抽出する可能性を低減することができる。したがって、従来に比して、内容の重複を排除することについてユーザの希望に比較的適合した文書抽出を行うことができるという効果が得られる。
【００２２】
ここで、抽出文書量には、抽出される文書のデータ量または文書の数が含まれる。以下、発明４の文書抽出システム、発明１８の文書抽出プログラム、および発明２０の文書抽出方法において同じである。
また、設定支援案内出力手段は、冗長度の設定値と抽出文書量との関係を出力するようになっていればどのような構成であってもよく、例えば、設定値と抽出文書量とを対応付けたものを１組または複数組出力するようになっていてもよいし、設定値の変化に対する抽出文書量の変化をグラフ形式等により出力するようになっていてもよい。以下、発明４の文書抽出システム、および発明１８の文書抽出プログラムにおいて同じである。
【００２３】
また、設定支援案内出力手段は、冗長度の設定値と抽出文書量との関係を出力するようになっていればどのような構成であってもよく、例えば、冗長度の設定値と抽出文書量との関係を表示または印刷等により視覚的に出力するようになっていてもよいし、冗長度の設定値と抽出文書量との関係を所定の音声パターン等により聴覚的に出力するようになっていてもよい。その他、ユーザが知覚可能な方法であればいかなる方法により出力するようになっていてもよい。以下、発明４の文書抽出システム、および発明１８の文書抽出プログラムにおいて同じである。
〔発明４〕
さらに、発明４の文書抽出システムは、
抽出対象となる複数の文書のなかから文書を抽出するシステムであって、
複数の文書データを記憶するための文書データ記憶手段と、冗長度を設定する冗長度設定手段と、抽出される文書データの冗長度が前記冗長度設定手段で設定した冗長度以下となるように前記文書データ記憶手段のなかから文書データを抽出する文書データ抽出手段と、前記冗長度設定手段で設定されるであろう設定値と前記文書データ抽出手段で抽出される抽出文書量との関係を出力する設定支援案内出力手段とを備えることを特徴とする。
【００２４】
このような構成であれば、設定支援案内出力手段により、冗長度の設定値と抽出文書量との関係が出力される。この出力を受けて、ユーザは、自己の設定内容によって抽出文書量がどのように影響を受けるかを把握しやすくなるので、自己の要望（例えば、冗長度優先型または文書量優先型）に添った比較的適切な冗長度を冗長度設定手段で設定することができる。冗長度設定手段で冗長度が設定されると、文書データ抽出手段により、抽出される文書データの冗長度が設定の冗長度以下となるように、文書データ記憶手段のなかから文書データが抽出される。
【００２５】
これにより、ユーザは、自己の設定内容によって抽出文書量がどのように影響を受けるかを把握しやすくなるので、自己の要望に添った比較的適切な冗長度を設定することができる。また、類似度が大きい文書同士は選択されにくくなるので、内容が類似するような文書を重複して抽出する可能性を低減することができる。したがって、従来に比して、内容の重複を排除することについてユーザの希望に比較的適合した文書抽出を行うことができるという効果が得られる。
【００２６】
ここで、文書データ記憶手段は、文書データをあらゆる手段でかつあらゆる時期に記憶するものであり、文書データをあらかじめ記憶してあるものであってもよいし、文書データをあらかじめ記憶することなく、本システムの動作時に外部からの入力等によって文書データを記憶するようになっていてもよい。
〔発明５〕
さらに、発明５の文書抽出システムは、発明４の文書抽出システムにおいて、
前記設定支援案内出力手段は、前記冗長度設定手段の設定可能範囲内で前記設定値を変化させた場合にその設定値の変化に対する前記抽出文書量の変化を出力するようになっていることを特徴とする。
【００２７】
このような構成であれば、設定支援案内出力手段により、冗長度設定手段の設定可能範囲内で設定値を変化させた場合にその設定値の変化に対する抽出文書量の変化が出力される。
これにより、ユーザは、自己の設定内容によって抽出文書量がどのように影響を受けるかをさらに把握しやすくなる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。
〔発明６〕
さらに、発明６の文書抽出システムは、発明５の文書抽出システムにおいて、
さらに、前記設定値と前記抽出文書量との関係を示す設定支援情報を記憶するための設定支援情報記憶手段を備え、
前記設定支援案内出力手段は、前記設定支援情報記憶手段の設定支援情報に基づいて前記設定値と前記抽出文書量との関係を出力するようになっていることを特徴とする。
【００２８】
このような構成であれば、設定支援案内出力手段により、設定支援情報記憶手段の設定支援情報に基づいて設定値と抽出文書量との関係が出力される。
これにより、設定値に比較的適合した抽出文書量が出力されるので、ユーザは、自己の設定内容によって抽出文書量がどのように影響を受けるかをさらに把握しやすくなる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。
【００２９】
ここで、設定支援情報記憶手段は、設定支援情報をあらゆる手段でかつあらゆる時期に記憶するものであり、設定支援情報をあらかじめ記憶してあるものであってもよいし、設定支援情報をあらかじめ記憶することなく、本システムの動作時に外部からの入力等によって設定支援情報を記憶するようになっていてもよい。
〔発明７〕
さらに、発明７の文書抽出システムは、発明５の文書抽出システムにおいて、
さらに、前記文書データ抽出手段の抽出結果に基づいて前記設定値と前記抽出文書量との関係を示す設定支援情報を生成する設定支援情報生成手段を備え、
前記設定支援案内出力手段は、前記設定支援情報生成手段で生成した設定支援情報に基づいて前記設定値と前記抽出文書量との関係を出力するようになっていることを特徴とする。
【００３０】
このような構成であれば、設定支援情報生成手段により、文書データ抽出手段の抽出結果に基づいて設定値と抽出文書量との関係を示す設定支援情報が生成され、設定支援案内出力手段により、生成された設定支援情報に基づいて設定値と抽出文書量との関係が出力される。
これにより、設定値に比較的適合した抽出文書量が出力されるので、ユーザは、自己の設定内容によって抽出文書量がどのように影響を受けるかをさらに把握しやすくなる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。
〔発明８〕
さらに、発明８の文書抽出システムは、発明４ないし７のいずれかの文書抽出システムにおいて、
さらに、前記文書データ記憶手段の文書データについてそれら文書データ相互間の類似度を算出する類似度算出手段と、前記類似度算出手段で算出した類似度に基づいて前記文書データ記憶手段の文書データを階層的に分類する文書データ分類手段とを備え、
前記文書データ抽出手段は、抽出される文書データの冗長度が前記冗長度設定手段で設定した冗長度以下となるように、前記文書データ分類手段で分類した文書データ群のなかから所定の分類規則に基づいて前記文書データを抽出するようになっていることを特徴とする。
【００３１】
このような構成であれば、類似度算出手段により、文書データ記憶手段の文書データについてそれら文書データ相互間の類似度が算出され、文書データ分類手段により、算出された類似度に基づいて文書データ記憶手段の文書データが階層的に分類される。そして、文書データ抽出手段により、抽出される文書データの冗長度が設定の冗長度以下となるように、分類された文書データ群のなかから所定の分類規則に基づいて文書データが抽出される。
【００３２】
これにより、類似度が大きい文書同士はさらに選択されにくくなるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。また、文書の抽出に際しては各文書にキーワードを付与する等の作業を要しないので、従来に比して、その作業に要するコストを低減することができるという効果も得られる。
〔発明９〕
さらに、発明９の文書抽出システムは、発明８の文書抽出システムにおいて、
前記文書データ分類手段は、前記類似度算出手段で算出した類似度に基づいて、前記文書データを分類したときの分類間の距離であって分類間の類似度が大きいものほど距離が小さくなるクラスタ間距離を算出し、算出したクラスタ間距離に基づいて、類似度が大きい文書データ同士ほど近い階層となるように、前記文書データ記憶手段の文書データを階層的に分類するようになっており、
前記文書データ抽出手段は、前記文書データ分類手段で分類した階層構造のうち階層下のクラスタ間距離に相当する冗長度が前記冗長度設定手段で設定した冗長度以下となる点を特定し、特定した点の階層下の文書データを前記文書データ群のなかから抽出するようになっていることを特徴とする。
【００３３】
このような構成であれば、文書データ分類手段により、算出された類似度に基づいて、文書データを分類したときの分類間のクラスタ間距離が算出され、算出されたクラスタ間距離に基づいて、類似度が大きい文書データ同士ほど近い階層となるように、文書データ記憶手段の文書データが階層的に分類される。そして、文書データ抽出手段により、分類された階層構造のうち階層下のクラスタ間距離に相当する冗長度が設定の冗長度以下となる点が特定され、特定された点の階層下の文書データが文書データ群のなかから抽出される。
【００３４】
これにより、各文書データをその類似度に応じて比較的適切に分類・抽出することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。
〔発明１０〕
さらに、発明１０の文書抽出システムは、発明８および９のいずれかの文書抽出システムにおいて、
前記文書データ分類手段は、クラスタリング手法またはグルーピング手法により前記文書データ記憶手段の文書データを階層的に分類するようになっていることを特徴とする。
【００３５】
このような構成であれば、文書データ分類手段により、クラスタリング手法またはグルーピング手法により文書データ記憶手段の文書データが階層的に分類される。
これにより、各文書データをその類似度に応じて比較的適切に分類することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。
〔発明１１〕
さらに、発明１１の文書抽出システムは、発明８ないし１０のいずれかの文書抽出システムにおいて、
さらに、ユーザに関するユーザ情報を記憶するためのユーザ情報記憶手段と、前記ユーザ情報記憶手段のユーザ情報に基づいて前記文書データ記憶手段のなかから複数の文書データを選択する文書データ選択手段とを備え、
前記類似度算出手段および前記文書データ分類手段は、前記文書データ選択手段で選択した文書データを対象として前記類似度の算出および前記文書データの分類を行うようになっていることを特徴とする。
【００３６】
このような構成であれば、文書データ選択手段により、ユーザ情報記憶手段のユーザ情報に基づいて文書データ記憶手段のなかから複数の文書データが選択される。次いで、類似度算出手段により、選択された文書データについてそれら文書データ相互間の類似度が算出され、文書データ分類手段により、算出された類似度に基づいて、選択された文書データが階層的に分類される。そして、文書データ抽出手段により、分類された文書データ群のなかから所定の分類規則に基づいて文書データが抽出される。
【００３７】
これにより、ユーザの希望に適合した内容の文書データが選択されたのちに、そのなかから類似度が大きい文書データが除外されるので、ユーザの好みによる偏りを大きくし、情報の均一性よりもユーザの好みを重視した文書抽出を行うことができるという効果も得られる。例えば、幅広い情報よりも自己の好みに適合した情報を求めているユーザに対しては、好適な情報提供を行うことができる。
【００３８】
ここで、ユーザ情報記憶手段は、ユーザ情報をあらゆる手段でかつあらゆる時期に記憶するものであり、ユーザ情報をあらかじめ記憶してあるものであってもよいし、ユーザ情報をあらかじめ記憶することなく、本システムの動作時に外部からの入力等によってユーザ情報を記憶するようになっていてもよい。以下、発明１２の文書抽出システムにおいて同じである。
〔発明１２〕
さらに、発明１２の文書抽出システムは、発明８ないし１０のいずれかの文書抽出システムにおいて、
さらに、ユーザに関するユーザ情報を記憶するためのユーザ情報記憶手段と、前記文書データ抽出手段で抽出した文書データ群のなかから前記ユーザ情報記憶手段のユーザ情報に基づいて文書データを選択する文書データ選択手段とを備えることを特徴とする。
【００３９】
このような構成であれば、文書データ抽出手段により、分類された文書データ群のなかから所定の分類規則に基づいて文書データが抽出され、文書データ選択手段により、ユーザ情報記憶手段のユーザ情報に基づいて、抽出された文書データ群のなかから文書データが選択される。
これにより、類似度が大きい文書データが除外されたのちに、そのなかからユーザの希望に適合した内容の文書データが選択されるので、ユーザの好みによる偏りを小さくし、ユーザの好みよりも情報の均一性を重視した文書抽出を行うことができるという効果も得られる。例えば、自己の好みに適合した情報よりも幅広い情報を求めているユーザに対しては、好適な情報提供を行うことができる。
〔発明１３〕
さらに、発明１３の文書抽出システムは、発明８ないし１２のいずれかの文書抽出システムにおいて、
前記類似度算出手段は、前記文書データ記憶手段の各文書データの文書を所定の文字要素に分割する文書分割手段と、前記文書分割手段で分割した文字要素の出現頻度に基づいて前記文書データ記憶手段の各文書データについて文書ベクトルを生成する文書ベクトル生成手段と、前記文書ベクトル生成手段で生成した文書ベクトルに基づいて前記文書データ記憶手段の文書データ相互間の類似度を算出するベクトル演算類似度算出手段とを有することを特徴とする。
【００４０】
このような構成であれば、文書分割手段により、文書データ記憶手段の各文書データの文書が所定の文字要素に分割され、文書ベクトル生成手段により、分割された文字要素の出現頻度に基づいて文書データ記憶手段の各文書データについて文書ベクトルが生成される。そして、ベクトル演算類似度算出手段により、生成された文書ベクトルに基づいて文書データ記憶手段の文書データ相互間の類似度が算出される。
【００４１】
これにより、各文書データ相互間の類似度を比較的適切に算出することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。
ここで、文字要素は、文字列を含むほか、単一の文字も含まれる。単一の文字としては、例えば、助詞（「の」、「は」、「が」、「に」、「を」、「や」）がある。
【００４２】
また、文書ベクトル生成手段は、文字要素の出現頻度に基づいて文書ベクトルを生成するようになっていればどのような構成であってもよく、例えば、文字要素の出現頻度から文書ベクトルを直接生成するようになっていてもよいし、文字要素の出現頻度から中間生成物（例えば、他のベクトル）を生成し、生成した中間生成物から文書ベクトルを生成するようになっていてもよい。
〔発明１４〕
さらに、発明１４の文書抽出システムは、発明１３の文書抽出システムにおいて、
前記文書分割手段は、形態素解析、ｎ−ｇｒａｍおよびストップワードのいずれかの文字要素分割方式を用いて前記文書データ記憶手段の各文書データの文書を所定の文字要素に分割するようになっていることを特徴とする。
【００４３】
このような構成であれば、文書分割手段により、形態素解析、ｎ−ｇｒａｍおよびストップワードのいずれかの文字要素分割方式を用いて文書データ記憶手段の各文書データの文書が所定の文字要素に分割される。
形態素解析、ｎ−ｇｒａｍおよびストップワードといった文字列分割方式は、従来から多用されている信頼性に優れた方式であり、これらを本発明の文書分割手段として用いることにより、各文書を比較的適切に文字要素に分割できることは勿論、これらいずれかの方式を用いることにより様々な形態の文書にも対応することができるという効果も得られる。
〔発明１５〕
さらに、発明１５の文書抽出システムは、発明１３および１４のいずれかの文書抽出システムにおいて、
前記文書ベクトル生成手段は、前記文字要素が出現する文書における当該文字要素の出現頻度、および前記複数の文書における前記文字要素の出現頻度に基づいて、前記文書データ記憶手段の各文書データについてＴＦＩＤＦで重み付けした文書ベクトルを生成するようになっていることを特徴とする。
【００４４】
このような構成であれば、文書ベクトル生成手段により、文字要素が出現する文書におけるその文字要素の出現頻度、および複数の文書における文字要素の出現頻度に基づいて、文書データ記憶手段の各文書データについてＴＦＩＤＦで重み付けした文書ベクトルが生成される。
各文書の文書ベクトルを生成するに際し、分割された文字要素の出現頻度をそのまま用いてもよいが、ＴＦＩＤＦという文字要素の重要度を反映した公知の重み付け方法を用いると各文書の特徴を反映した文書ベクトルを生成することができる。そのため、各文書データ相互間の類似度をさらに適切に算出することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができるという効果も得られる。
〔発明１６〕
さらに、発明１６の文書抽出システムは、発明１３ないし１５のいずれかの文書抽出システムにおいて、
前記ベクトル演算類似度算出手段は、前記文書ベクトル生成手段で生成した文書ベクトルに基づいてベクトル空間法により文書データ相互間の類似度を算出するようになっていることを特徴とする。
【００４５】
このような構成であれば、ベクトル演算類似度算出手段により、生成された文書ベクトルに基づいてベクトル空間法により文書データ相互間の類似度が算出される。
各文書データ相互間の類似度を算出する方式としてベクトル空間法を用いれば、２つの文書ベクトルの類似度は２つのベクトルのなす角の余弦値（０〜１）として定量的に表現することが可能となり、文書抽出をより的確に行うことが可能となるという効果も得られる。
〔発明１７〕
一方、上記目的を達成するために、発明１７の情報抽出プログラムは、
抽出対象となる複数の情報のなかから情報を抽出するプログラムであって、
冗長度を設定する冗長度設定手段、抽出される情報の冗長度が前記冗長度設定手段で設定した冗長度以下となるように前記複数の情報のなかから情報を抽出する情報抽出手段、および前記冗長度設定手段で設定されるであろう設定値と前記情報抽出手段で抽出される抽出情報量との関係を出力する設定支援案内出力手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする。
【００４６】
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、発明２の情報抽出システムと同等の作用および効果が得られる。
〔発明１８〕
一方、上記目的を達成するために、発明１８の文書抽出プログラムは、
抽出対象となる複数の文書のなかから文書を抽出するプログラムであって、
冗長度を設定する冗長度設定手段、抽出される文書の冗長度が前記冗長度設定手段で設定した冗長度以下となるように前記複数の文書のなかから文書を抽出する文書抽出手段、および前記冗長度設定手段で設定されるであろう設定値と前記文書抽出手段で抽出される抽出文書量との関係を出力する設定支援案内出力手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする。
【００４７】
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、発明３の文書抽出システムと同等の作用および効果が得られる。
〔発明１９〕
一方、上記目的を達成するために、発明１９の情報抽出方法は、
抽出対象となる複数の情報のなかから情報を抽出する方法であって、
設定支援に関する案内を出力する設定支援案内出力ステップと、冗長度を設定する冗長度設定ステップと、抽出される情報の冗長度が前記冗長度設定ステップで設定した冗長度以下となるように前記複数の情報のなかから情報を抽出する情報抽出ステップとを含み、
前記設定支援案内出力ステップは、前記冗長度設定ステップでの設定に先立って、前記冗長度設定ステップで設定されるであろう設定値と前記情報抽出ステップで抽出される抽出情報量との関係を出力することを特徴とする。
【００４８】
これにより、発明２の情報抽出システムと同等の効果が得られる。
ここで、設定支援案内出力ステップは、冗長度の設定値と抽出情報量との関係を出力すればどのような方法であってもよく、例えば、設定値と抽出情報量とを対応付けたものを１組または複数組出力してもよいし、設定値の変化に対する抽出情報量の変化をグラフ形式等により出力してもよい。
【００４９】
また、設定支援案内出力ステップは、冗長度の設定値と抽出情報量との関係を出力すればどのような方法であってもよく、例えば、冗長度の設定値と抽出情報量との関係を表示または印刷等により視覚的に出力してもよいし、冗長度の設定値と抽出情報量との関係を所定の音声パターン等により聴覚的に出力してもよい。その他、ユーザが知覚可能な方法であればいかなる方法により出力してもよい。
〔発明２０〕
一方、上記目的を達成するために、発明２０の文書抽出方法は、
抽出対象となる複数の文書のなかから文書を抽出する方法であって、
設定支援に関する案内を出力する設定支援案内出力ステップと、冗長度を設定する冗長度設定ステップと、抽出される文書の冗長度が前記冗長度設定ステップで設定した冗長度以下となるように前記複数の文書のなかから文書を抽出する文書抽出ステップとを含み、
前記設定支援案内出力ステップは、前記冗長度設定ステップでの設定に先立って、前記冗長度設定ステップで設定されるであろう設定値と前記文書抽出ステップで抽出される抽出文書量との関係を出力することを特徴とする。
【００５０】
これにより、発明３の文書抽出システムと同等の効果が得られる。
ここで、設定支援案内出力ステップは、冗長度の設定値と抽出文書量との関係を出力すればどのような方法であってもよく、例えば、設定値と抽出文書量とを対応付けたものを１組または複数組出力してもよいし、設定値の変化に対する抽出文書量の変化をグラフ形式等により出力してもよい。
【００５１】
また、設定支援案内出力ステップは、冗長度の設定値と抽出文書量との関係を出力すればどのような方法であってもよく、例えば、冗長度の設定値と抽出文書量との関係を表示または印刷等により視覚的に出力してもよいし、冗長度の設定値と抽出文書量との関係を所定の音声パターン等により聴覚的に出力してもよい。その他、ユーザが知覚可能な方法であればいかなる方法により出力してもよい。
【００５２】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照しながら説明する。図１ないし図２２は、本発明に係る情報抽出システム、文書抽出システム、情報抽出プログラムおよび文書抽出プログラム、並びに情報抽出方法および文書抽出方法の実施の形態を示す図である。
【００５３】
本実施の形態は、本発明に係る情報抽出システム、文書抽出システム、情報抽出プログラムおよび文書抽出プログラム、並びに情報抽出方法および文書抽出方法を、図１に示すように、内容の重複が少ない複数の文書をユーザに提供する場合について適用したものである。
まず、本発明に係る文書抽出装置１０の構成を図１を参照しながら説明する。
【００５４】
図１は、本発明に係る文書抽出装置１０の実施の一形態を示したものである。
文書抽出装置１０は、図１に示すように、複数の文書データを登録する文書データ登録データベース（以下、データベースのことを単にＤＢと略記する。）１２と、文書データ登録ＤＢ１２の文書データについてそれら文書データ相互間の類似度を算出する類似度算出部１４と、類似度算出部１４で算出した類似度に基づいて文書データ登録ＤＢ１２の文書データを階層的に分類する文書データ分類部１６と、ユーザ情報を登録したユーザ情報登録ＤＢ１８と、文書データ分類部１６で分類した文書データ群のなかからユーザ情報登録ＤＢ１８のユーザ情報に基づいて文書データを抽出する文書データ抽出部２０と、冗長度を設定する冗長度設定部２２と、設定支援情報を生成する設定支援情報生成部２４と、設定支援情報を登録する設定支援情報登録ＤＢ２６と、冗長度設定部２２で冗長度を設定する際に参考となる支援案内を表示する設定支援案内表示部２８とで構成されている。
【００５５】
文書データ登録ＤＢ１２は、インターネット等の情報通信網内にある情報供給源Ｓから供給されるいくつかの情報をそれぞれ文書データとして登録するようになっている。
文書データ分類部１６は、類似度算出部１４で算出した類似度に基づいて、文書データを分類したときの分類（クラスタ）間の距離であってクラスタ間の類似度が大きいものほど距離が小さくなるクラスタ間距離を算出し、算出したクラスタ間距離に基づいて、類似度が大きい文書データ同士ほど近い階層となるように、文書データ登録ＤＢ１２の文書データを階層的に分類するようになっている。階層的分類手法としては、例えば、従来のクラスタリング手法やグルーピング手法を採用することができるが、本実施の形態では、クラスタリング手法により文書データを分類する。
【００５６】
文書データ抽出部２０は、ユーザ情報登録ＤＢ１８のユーザ情報に基づいて、文書データ分類部１６で分類した階層構造のうち階層下のクラスタ間距離に相当する冗長度が所定値（ユーザ設定の冗長度）以下となる点を特定し、特定した点の階層下の文書データを文書データ群のなかから抽出するようになっている。
類似度算出部１４は、図１に示すように、文書データ登録ＤＢ１２の各文書データの文書を所定の文字列に分割する文書分割部３０と、文書分割部３０で分割した文字列の出現頻度に基づいて文書データ登録ＤＢ１２の各文書データについて文書ベクトルを生成する文書ベクトル生成部３２と、文書ベクトル生成部３２で生成した文書ベクトルに基づいて文書データ登録ＤＢ１２の文書データ相互間の類似度を算出するベクトル演算類似度算出部３４とで構成されている。
【００５７】
類似度算出部１４は、まず、文書データ登録ＤＢ１２から選択した各文書データの文書を文書分割部３０によって文字列ごとに分割したのち、分割した各文字列の出現頻度を文書ベクトル生成部３２によって算出して各文書データの文書ベクトルを生成する。その後、文書ベクトル生成部３２で得られた各文書ベクトル相互の類似度をベクトル演算類似度算出部３４によって算出する。
【００５８】
冗長度設定部２２は、ユーザからの入力により、ユーザが許容できる重複の範囲の上限値（冗長度）を設定し、設定した冗長度を含むユーザ情報をユーザ情報登録ＤＢ１８に登録するようになっている。
設定支援情報生成部２４は、ユーザ情報登録ＤＢ１８のユーザ情報および文書データ抽出部２０の抽出結果に基づいて、冗長度設定部２２で設定されるであろう設定値と文書データ抽出部２０で抽出される抽出文書量との関係を示す設定支援情報を生成し、生成した設定支援情報を設定支援情報登録ＤＢ２６に登録するようになっている。
【００５９】
設定支援案内表示部２８は、ユーザからの要求により、設定支援情報登録ＤＢ２６の設定支援情報に基づいて、冗長度設定部２２の設定可能範囲内で設定値を変化させた場合にその設定値の変化に対する抽出文書量の変化を表示するようになっている。
文書抽出装置１０は、図２に示すような構成をしたコンピュータ１００により実現されることになる。
【００６０】
図２は、コンピュータ１００の構成を示すブロック図である。
コンピュータ１００は、図２に示すように、制御プログラムに基づいて演算および装置全体を制御するＣＰＵ５０と、所定領域にあらかじめＣＰＵ５０の制御プログラム等を格納しているＲＯＭ５２と、ＲＯＭ５２等から読み出したデータやＣＰＵ５０の演算過程で必要な演算結果を格納するためのＲＡＭ５４と、外部装置に対してデータの入出力を媒介するＩ／Ｆ５８とで構成されており、これらは、データを転送するための信号線であるバス５９で相互にかつデータ授受可能に接続されている。
【００６１】
Ｉ／Ｆ５８には、外部装置として、データ入力が可能なキーボードやマウス等からなる入力装置６０と、画像信号に基づいて画面を表示する表示装置６４と、文書データ登録ＤＢ１２と、ユーザ情報登録ＤＢ１８とが接続されている。
文書データ登録ＤＢ１２は、例えば、ハードディスク等の外部記憶装置であり、インターネット等の情報供給源Ｓから所定の情報が定期的にまたは随時供給されるようになっている。
【００６２】
ＣＰＵ５０は、マイクロプロセッシングユニット（ＭＰＵ）等からなり、ＲＯＭ５２の所定領域に格納されている文書抽出プログラムを起動させ、そのプログラムに従って、類似度算出部１４、文書データ分類部１６および文書データ抽出部２０として実現される文書データ抽出処理（図８）を実行するようになっている。
【００６３】
次に、本実施の形態の動作を説明する。
図１に示すように、まず、文書データ登録ＤＢ１２には、情報供給源Ｓからユーザの好みに対応した内容の文書データが一定の時間ごとまたは不定期に供給されて一時的に蓄積され、その文書データ数が所定数に達したとき、または保存時間が一定時間経過したならば、一旦、その蓄積された文書データのすべてが類似度算出部１４に送られ、ここで各文書データ相互間の類似度が算出される。
【００６４】
まず、類似度算出部１４に送られてきた各文書データは、文書分割部３０によってその文書が文字列に分割される。
図３は、形態素解析による文字列分割の一例を示す図である。
文字列の分割方式（手法）は、特に限定されるものではないが、例えば、図３に示すように、各文書Ｄ_１〜Ｄ_ｍを文字列に分割するに際して形態素解析を用いた場合は、形態素解析辞書を参照しながら文法的な区切りで文字列（単語）に分割することができる。ここで、形態素解析には、様々な手法があり、辞書の善し悪しによっても結果は異なるが、例えば、図３の「無線／の／セキュリティ／が／話題／に／なっ／ている／。／…」等のように、名詞、動詞、形容詞助詞、助動詞等の単語に分けることができる。また、形態素解析は、分割の精度がよいが、以前では精度を維持するために辞書の作成やメンテナンスにコストが掛かるといった欠点があったが、最近では、長年十分に作り込まれてきた辞書が資産として使えるため、コストの問題も次第に解消されてきており、現在最もよく使われる文字列分割方法である。ただし、形態素解析は、日本語用の辞書は日本語に限って使用できるものであり、英語や中国語などの他の言語にはその言語用の辞書が必要になるといった不利な面もある。
【００６５】
また、各文書Ｄ_１〜Ｄ_ｍを文字列に分割するに際して形態素解析ではなく、一定間隔ごとに文字列を切っていくｎ−ｇｒａｍという文字列分割方式を用いることも可能である。
図４は、ｎ−ｇｒａｍによる文字列分割の一例を示す図である。
ｎ−ｇｒａｍ方式を用いた場合、文書は、図４に示すように分割される。すなわち、ｎ−ｇｒａｍの「ｎ」とは何バイトごと（または何文字ごと）かを表す数字で、図４の場合では、２文字ごとなので２−ｇｒａｍと書くことができる。ただし、日本語などの２バイト文字の場合、２文字＝４バイトなので４−ｇｒａｍと書く場合もあるかもしれないが、ここでは、その数字の正確さは問題とするところではない。ｎ−ｇｒａｍは、意味のある単語を塊として切り出すことは困難であるが、分割したものをそのまま統計的に処理するだけであれば必ずしも意味のある単語が塊になっている必要がない場合もある。また、ｎ−ｇｒａｍは、形態素解析に比べてアルゴリズムが単純でどの言語に対しても使えるというメリットがある。
【００６６】
また、各文書Ｄ_１〜Ｄ_ｍを文字列に分割するに際して形態素解析およびｎ−ｇｒａｍではなく、ストップワードという文字列分割方式を用いることも可能である。
図５は、ストップワードによる文字列分割の一例を示す図である。
ストップワード方式とは、文書のなかで切れ目となる文字や規則を登録し、それに従って分割していく方法である。例えば、図５に示す例では、▲１▼助詞だと思われる「の」「は」「が」「に」「を」「や」、▲２▼句読点「、」「。」、▲３▼漢字、カタカナ、アルファベット等の字種の変わり目、等といった３つのルールのいずれかが成立するところで分割したものである。なお、ストップワードは、ある程度意味のある単語を抜き出すことが可能であるが、「情報通信技術」等といった長い熟語や「インターネットテクノロジー」等といった長いカタカナの複合語などは分割できないという問題もある。また、英語であれば、▲１▼スペース、▲２▼カンマ、ピリオド、コロン、セミコロン、その他の記号、▲３▼アルファベット、数字、記号などの字種の変わり目等といったルールをもとに、単語の活用形を落とすステミングという手法を使うことである程度の文字列分割を行うことができる。
【００６７】
このように、文書分割部３０によってすべての文書Ｄ_１〜Ｄ_ｍについての文字列分割が行われたならば、次に、文書ベクトル生成部３２によって文字列頻度を算出し、図６に示すような文字列−文書行列を作成する。
図６は、文字列−文書行列を示す図である。
図７は、形態素解析による文字列分割結果を示す図である。
【００６８】
文字列−文書行列は、図６に示すように、各文書Ｄ_１〜Ｄ_ｍとユニークな文字列Ｔ_１〜Ｔ_ｎとの対応関係を示したものであり、各文字列Ｔ_１〜Ｔ_ｎが各文書Ｄ_１〜Ｄ_ｍのなかに何回出現するかを数え、それを示したものである。例えば、文字列分割方式として形態素解析を用いた分割結果の場合では、図７に示すように、文書Ｄ_１のなかには「無線」（網掛け文字）という文字列（Ｔ_１）は３回出現しており、そのＷ_１１に相当する行列の要素は、その出現回数をそのまま用いた場合では「３」となる。
【００６９】
ここで、Ｗ_ｍｎに相当する行列の各要素は、文字列の出現回数をそのまま用いてもよいが、ＴＦＩＤＦという文字列の重要度を反映した重み付け方法を用いると、各文書の特徴をよく表現した文書ベクトルが生成できることが知られており、後の相互類似度算出で活用することができる。
すなわち、ＴＦＩＤＦは、下式（１）に示すように、ある文書Ｄ内での文字列Ｔの出現頻度（ＴＦ：ＴｅｒｍＦｒｅｑｕｅｎｃｙ）と、文書集合全体で文字列Ｔが出現する文書数の頻度を逆数（ＩＤＦ：ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）の積で求め、数値が大きいほどその文字列Ｔが重要であることを表すものである。ＴＦは、頻出する文字列は重要であるという指標であり、ある文書中に文字列が出現する頻度が増加すると大きくなる性質を持っている。ＩＤＦは、多くの文書中に出現する文字列は重要でない、つまり特定の文書に出現する文字列が重要であるという指標であり、ある文字列が使われている文書数が減少すると大きくなるという性質を持っている。したがって、ＴＦＩＤＦの値は、特定の文書に頻繁に出現する文字列に対しては大きくなる性質を持っており、逆に、頻繁に出現するが多くの文書に出現する文字列（接続詞や助詞等）や、特定の文書にのみ出現しその文書に低頻度で出現する文字列に対しては小さくなる性質を持っている。ＴＦＩＤＦによって文書中の文字列は数値化され、文字列の重要度を加味したその数値を要素として文書をベクトル化することができる。
【００７０】
【数１】

【００７１】
図８は、文書データ抽出処理の一部を示すフローチャートである。
文書データ抽出処理は、図８に示すように、まず、ステップＳ１００に移行するようになっている。なお、図８のフローチャートに示す処理は、文書データ抽出処理のうち類似度算出部１４として実現される処理である。
ステップＳ１００では、文書データ登録ＤＢ１２に登録された文書データが一つずつ選択され、ステップＳ１０２に移行して、選択された各文書データの文書が文字列ごとに分割され、ステップＳ１０４に移行する。
【００７２】
ステップＳ１０４では、文書と文字列との対応関係を示す文字列−文書行列に文字列の頻度情報が記憶され、ステップＳ１０６に移行して、文書データ登録ＤＢ１２に未処理の文書データが残っているか否かが判定され、未処理の文書データが残っていると判定されたとき（Ｙｅｓ）は、その文書データが選択されて同様な処理が行われ、すべての文書データがなくなるまでこれが繰り返される。
【００７３】
一方、ステップＳ１０６で、文書データ登録ＤＢ１２に未処理の文書データが残っていないと判定されたとき（Ｎｏ）は、ステップＳ１０８に移行して、完成した文字列−文書行列の頻度情報を基にＴＦＩＤＦによって重み付けし直した文字列−文書行列が生成される。これにより、すべての文書データは、それらに出現するユニークな文字列の数と同じ次元（数千〜数十万）の文書ベクトルとして表現できることになる。
【００７４】
このように、すべての文書データがベクトル化されたならば、ベクトル演算類似度算出部３４によって各文書データ相互間の類似度が算出される。具体的には、ベクトル演算類似度算出部３４は、公知のベクトル空間法を採用するものであり、ＴＦＩＤＦによって求められた各文書ベクトルは、ベクトル空間法によって相互の類似度が定義されることになる。すなわち、対比する２つの文書ベクトルの類似度は、図９に示すように、２つのベクトルのなす角θの余弦値（０〜１）として定義することができることから、文書データ同士の類似度は、図１０に示すような対称行列で表現できる。
【００７５】
図９は、文書ベクトルおよびその相関関係を示す図である。
図１０および図１１は、文書−文書間の対称行列を示す図である。
その後、その対称行列をもとに類似情報のグルーピングやカットを行うことで類似文書を除外した文書抽出が実現可能となる。例えば、図１０のような対称行列では、図１１に示すように、文書Ｄ_１と文書Ｄ_２の類似度が「０．９」、文書Ｄ_１と文書Ｄ_３の類似度が「０．３」というように各文書データ相互間の類似度が定量的に示される。
【００７６】
このように、類似度算出部１４によって各文書データ相互間の類似度が定量的に求められたならば、文書データ分類部１６により、類似度算出部１４で算出された類似度に基づいてクラスタリング手法により文書データ登録ＤＢ１２の文書データが階層的に分類される。
クラスタリング手法は、多変量を統計的に分析する一手法である。文書ベクトルＤ_１〜Ｄ_ｎは、多次元空間（ユニークな文字列の数と同じ次元数であり、一般には１万〜十万次元）空間内での一点を指しているとも考えられるので、それぞれの文書ベクトル同士には距離を定義することができる。その距離が、文書Ｄ_１〜Ｄ_ｎを分類したときのクラスタ間距離である。クラスタ間距離の定義方法として、例えば、従来の最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法を採用することができるが、本実施の形態では、重心法を用いて文書−文書間の対称行列からクラスタ分析を行う。なお、クラスタ間距離は、クラスタ間の類似度ではなく距離なので、図１２に示すように、０〜１に正規化されている類似度に対して「１−類似度」の関係となる。
【００７７】
図１２は、図１１の文書−文書間の類似度の対称行列をクラスタ間距離に変換したものである。
次に、クラスタ間距離に変換した図１２の場合を例にとって文書Ｄ_１〜Ｄ_４を分類する場合を説明する。
最も類似しているクラスタｐ，ｑを統合して新たなクラスタｔを構成した場合、クラスタｔと他のクラスタｒとのクラスタ間距離Ｓｔｒは、下式（２）により算出することができる。
【００７８】
【数２】

【００７９】
上式（２）において、Ｓｐｒはクラスタｐ，ｒのクラスタ間距離、Ｓｑｒはクラスタｑ，ｒのクラスタ間距離、Ｓｐｑはクラスタｐ，ｑのクラスタ間距離である。また、ｎｐはクラスタｐに含まれる文書数、ｎｑはクラスタｑに含まれる文書数、ｎｒはクラスタｒに含まれる文書数である。
図１３および図１４は、文書Ｄ_１〜Ｄ_４が属するクラスタのクラスタ間距離を算出する場合を説明するための図である。
【００８０】
まず、図１２に示すように、文書Ｄ_１〜Ｄ_４のうち文書Ｄ_１，Ｄ_２が距離「０．１」と最も近いので、その２つを統合して新たなクラスタＤ_１’を構成する。クラスタＤ_１’と他のクラスタとのクラスタ間距離は、ｐ＝Ｄ_１、ｑ＝Ｄ_２、ｔ＝Ｄ_１’として上式（２）により算出される。
クラスタＤ_１’と他のクラスタ（文書Ｄ_３）とのクラスタ間距離Ｓｔ３は、図１３に示すように、上式（２）により「０．８」となる。また、クラスタＤ_１’と他のクラスタ（文書Ｄ_４）とのクラスタ間距離Ｓｔ４は、図１３に示すように、上式（２）により「０．３７５」となる。
【００８１】
次に、図１３に示すように、クラスタＤ_１’とクラスタＤ_４が距離「０．３」と最も近いので、その２つのクラスタを統合して新たなクラスタＤ_１’’を構成する。クラスタＤ_１’’と他のクラスタとのクラスタ間距離は、ｐ＝Ｄ_１’、ｑ＝Ｄ_４、ｔ＝Ｄ_１’’として上式（２）により算出される。
クラスタＤ_１’’と他のクラスタ（文書Ｄ_３）とのクラスタ間距離Ｓｔ３は、図１４に示すように、上式（２）により「０．８５」となる。
【００８２】
図１５は、クラスタ分析によって構成された文書Ｄ_１〜Ｄ_４の階層構造を示す図である。
これにより、文書Ｄ_１〜Ｄ_４は、図１５に示すように、階層的に分類されることになる。
このように、文書データ分類部１６によって文書Ｄ_１〜Ｄ_４が階層的に分類されたならば、文書データ抽出部２０により、文書データ分類部１６で分類された文書データ群のなかからユーザ情報登録ＤＢ１８のユーザ情報に基づいて文書データが抽出される。
【００８３】
図１６は、文書データ分類部１６で分類した文書データ群のなかから文書データを抽出する場合を説明するための図である。
ここで、ユーザＡ，Ｂが設定した冗長度は、ユーザＡが「０．７」、ユーザＢが「０．４」であるとする。つまり、ユーザＡは、ある程度重複は許容してもよいと考えているが、ユーザＢは、あまり重複は許容しないと考えている。
【００８４】
ユーザＢの許容する冗長度は「０．４」なので、ユーザＢに対しては、図１６の階層構造との関係から、文書Ｄ_１，Ｄ_２，Ｄ_４のうちいずれかと、文書Ｄ_３との２つの文書を提供すればよいことが分かる。つまり、文書Ｄ_１，Ｄ_２，Ｄ_４のクラスタと、文書Ｄ_３のクラスタとはそれだけ十分に離れている（内容的に類似してない）ということになる。
【００８５】
具体的に、文書Ｄ_１〜Ｄ_４のなかからユーザＢに提供する文書を選択する方法を図１７を参照しながら詳細に説明する。
図１７は、文書Ｄ_１〜Ｄ_４のなかからユーザＢに提供する文書を選択する場合を説明するための図である。
まず、ユーザＢが設定している冗長度「０．４」に対して、図１７の階層構造との交点を求めると、文書Ｄ_３のクラスタから伸びている線と、文書Ｄ_１，Ｄ_２，Ｄ_４のクラスタから伸びている線の２つに交わることが分かる。この時点で、文書Ｄ_３が確定となり、残りは文書Ｄ_１，Ｄ_２，Ｄ_４から１つ選択するということにする。
【００８６】
既に文書Ｄ_３が確定しているので、類似度算出部１４の結果である図１１の文書−文書間の対称行列から、文書Ｄ_３と、残る文書Ｄ_１，Ｄ_２，Ｄ_４との類似度との関係で判断する。基本的に、文書Ｄ_１，Ｄ_２，Ｄ_４からどれでも１つ選べば冗長度「０．４」以下という大枠の要求はクリアしていることになる。仮に、ユーザＢが冗長度「０．４」以下で、さらにできるだけ冗長度を低くということを希望している属性が設定可能で、それを設定していたとすれば、文書Ｄ_３と最も類似度の低い文書Ｄ_２を選択する。
【００８７】
また、場合によっては、必ずしも冗長度の低いものばかりを選択するとは限らない。ある程度の冗長度を排除しながらも、ある程度の関連性をもった文書を選択することも可能である。図１７の例では、まず、文書Ｄ_３を選択することで冗長度「０．４」以下という条件を満たしているため、そのなかで可能な限りる類似している文書（Ｄ_１，Ｄ_４）を選択すれば、可能な限り冗長性を排除することができるとともに、可能な限り設定した冗長度に近い文書選択が可能になる。図１７の例では、文書Ｄ_３の類似度と、文書Ｄ_１，Ｄ_４の類似度が等しいため、どれか１つに絞るための明確な例とはならないが、実際には、何百〜何十万超の次元の文書ベクトルを扱うので、同値になる可能性はほとんどなく、多くの場合、数値的な大小で上述の２つの方法（冗長度を小さくする選択方法および設定した冗長度に近くする選択方法）で文書選択が可能となる。
【００８８】
一方、ユーザＡの許容する冗長度は「０．７」なので、ユーザＡに対しては、図１６の階層構造との関係から、文書Ｄ_１，Ｄ_２のうちいずれかと、文書Ｄ_３，Ｄ_４との３つの文書を提供すればよいことが分かる。つまり、文書Ｄ_１，Ｄ_２のクラスタと、文書Ｄ_３のクラスタと、文書Ｄ_４のクラスタとはそれだけ十分に離れている（内容的に類似してない）ということになる。文書Ｄ_１，Ｄ_２のクラスタからどれを選択するかについては、例えば、ランダムでもよいし、より重複の少ない組み合わせにするのであれば、図１１の文書−文書間の対称行列から、文書Ｄ_３，Ｄ_４との類似度が小さいものを選択すればよい。
【００８９】
この場合、文書Ｄ_１を選択すると、文書Ｄ_３とは「０．３」、文書Ｄ_４とは「０．５」となり、文書Ｄ_２を選択すると、文書Ｄ_３とは「０．２」、文書Ｄ_４とは「０．８」となるので、単純に類似度の総和で考えるなら文書Ｄ_１を選択する。文書Ｄ_１を選択すると、既に選択されている文書Ｄ_３，Ｄ_４との類似度の総和が小さくなる。また、図１６の例では、結果が変わらない場合もあるが、図１１に示すように、既に選択されている文書Ｄ_４との関係で類似度が最大値となる文書Ｄ_２を避けて文書Ｄ_１を選択するとか、逆に、既に選択されている文書Ｄ_３との関係で類似度が最小値となる文書Ｄ_２を選択するとか、様々に考えられる。
【００９０】
具体的に、文書Ｄ_１〜Ｄ_４のなかからユーザＡに提供する文書を選択する方法を図１８を参照しながら詳細に説明する。
図１８は、文書Ｄ_１〜Ｄ_４のなかからユーザＡに提供する文書を選択する場合を説明するための図である。
まず、ユーザＡが設定している冗長度「０．７」に対して、図１８の階層構造との交点を求めると、文書Ｄ_３のクラスタから伸びている線と、文書Ｄ_４のクラスタから伸びている線と、文書Ｄ_１，Ｄ_２のクラスタから伸びている線の３つに交わることが分かる。この時点で、文書Ｄ_３，Ｄ_４が確定となり、残りは文書Ｄ_１，Ｄ_２から１つ選択するということになる。
【００９１】
文書Ｄ_３，Ｄ_４が確定しているので、文書Ｄ_１，Ｄ_２のうちいずれかおよび文書Ｄ_３，Ｄ_４を含む３つの文書の組み合わせについて冗長度を算出し、取り得るすべての組み合わせのなかから、算出した冗長度が所定値以下となる組み合わせを決定し、決定した組み合わせとなるように残りの１つを選択する。
文書Ｄ_１，Ｄ_２のいずれかおよび文書Ｄ_３，Ｄ_４の組み合わせは、（Ｄ_１，Ｄ_３，Ｄ_４）および（Ｄ_２，Ｄ_３，Ｄ_４）の２通りであるが、冗長度は、各組み合わせにごとに、その組み合わせの文書群のなかから２個の文書を選択した場合のすべての組み合わせについての類似度を総和し、その値を平均したものを冗長度として算出する。
【００９２】
第１に、（Ｄ_１，Ｄ_３，Ｄ_４）の組み合わせについてそのなかから２個の文書を選択する場合は、（Ｄ_１，Ｄ_３）、（Ｄ_１，Ｄ_４）および（Ｄ_３，Ｄ_４）の３通りである。そして、それぞれの類似度は、図１１に示すように、「０．３」、「０．５」および「０．３」であるので、それらの総和は、「１．１」となる。したがって、その平均値は、「０．３７」となり、この値が（Ｄ_１，Ｄ_３，Ｄ_４）の組み合わせについての冗長度として算出される。
【００９３】
第２に、（Ｄ_２，Ｄ_３，Ｄ_４）の組み合わせについてそのなかから２個の文書を選択する場合は、（Ｄ_２，Ｄ_３）、（Ｄ_２，Ｄ_４）および（Ｄ_３，Ｄ_４）の３通りである。そして、それぞれの類似度は、図１１に示すように、「０．２」、「０．８」および「０．３」であるので、それらの総和は、「１．３」となる。したがって、その平均値は、「０．４３」となり、この値が（Ｄ_２，Ｄ_３，Ｄ_４）の組み合わせについての冗長度として算出される。
【００９４】
ここで、ユーザＡが設定した冗長度は、「０．７」であるので、（Ｄ_１，Ｄ_３，Ｄ_４）および（Ｄ_２，Ｄ_３，Ｄ_４）の組み合わせはユーザＡにとって許容範囲内である。したがって、ユーザＡには、文書Ｄ_１〜Ｄ_４のうちそれらの組み合わせのものを提供するのが望ましい。この場合、冗長度が低いものを選択するのであれば、文書Ｄ_１を選択し、設定された冗長度に近いものを選択するのであれば、文書Ｄ_２を選択すればよい。
【００９５】
次に、ユーザが冗長度を設定する場合を説明する。
ユーザが冗長度を設定する場合、設定に慣れたユーザにとっては、自己の要望に添った適切な冗長度を設定することができるが、設定に不慣れなユーザにとっては、自己の設定内容によって抽出文書量がどのように影響を受けるかを把握できていないので、自己の要望に添った適切な冗長度を設定することが困難である。そこで、本実施の形態では、ユーザの要求に応じて支援案内を表示することによりユーザの設定を支援する。
【００９６】
図１９は、冗長度の設定画面を示す図である。
ユーザが冗長度の設定を要求すると、図１９に示すような設定画面が表示される。図１９の設定画面には、冗長度を入力するテキストボックス３００と、支援案内の表示を要求するボタン３０２と、冗長度の登録を要求するボタン３０４とが配置されている。ユーザは、まず、冗長度の設定に先立ってボタン３０２をマウス等でクリックすると、設定支援案内表示部２８により、設定支援情報登録ＤＢ２６の設定支援情報に基づいて、冗長度設定部２２の設定可能範囲内で設定値を変化させた場合にその設定値の変化に対する抽出文書量の変化が表示される。設定支援情報登録ＤＢ２６には、設定支援情報が登録されているが、これは、設定支援情報生成部２４により、他のユーザが設定した冗長度と、その冗長度に基づいて文書データ抽出部２０で抽出された抽出文書量との関係が設定支援情報として設定支援情報登録ＤＢ２６に登録される。
【００９７】
ユーザは、この表示を参考にすれば、自己の設定内容によって抽出文書量がどのように影響を受けるかを把握することができるので、設定に不慣れなユーザであっても、自己の要望に添った適切な冗長度を設定することができる。
図２０は、文書データ分類部１６で文書データを階層的に分類した分類結果の一例を示す図である。
【００９８】
例えば、図２０の分類結果においては、文書Ｄ１と文書Ｄ２でクラスタＤ１２を構成し、文書Ｄ３と文書Ｄ４でクラスタＤ３４を構成し、クラスタＤ１２とクラスタＤ３４でクラスタＤ１４を構成し、クラスタＤ１４と文書Ｄ５でクラスタＤ１５を構成している。また、文書Ｄ７と文書Ｄ８でクラスタＤ７８を構成し、クラスタＤ７８と文書Ｄ６でクラスタＤ６８を構成している。さらに、クラスタＤ１５とクラスタＤ６８でクラスタＤ１８を構成している。
【００９９】
図２１は、設定値と文書数との関係をスライドバー形式により表示した図である。
図２０の場合に、ユーザは、図１９の設定画面においてボタン３０２をクリックすると、図２１に示すように、冗長度設定部２２の設定可能範囲内で設定値を変化させた場合にその設定値の変化に対する抽出文書量の変化がスライドバー形式により表示される。図２１の例では、冗長度を「０」、「０．１」、「０．２」、「０．３」、「０．４」、「０．５」、「０．６」、「０．７」、「０．８」、「０．９」および「１．０」に設定した場合は、０個、０個、２個、２個、２個、４個、４個、５個、６個、８個および８個の文書がそれぞれ抽出されることを示している。
【０１００】
ユーザは、スライドバーを操作しながら所望の冗長度にスライドさせ、ボタン３０６をクリックすると、図１９の設定画面においてスライドバーによる設定値がテキストボックス３００に入力される。そして、ボタン３０４をクリックすることにより冗長度を設定する。
図２２は、設定値と文書数との関係をグラフ形式により表示した図である。
【０１０１】
また、図２１に限らず、図２２に示すように、冗長度設定部２２の設定可能範囲内で設定値を変化させた場合にその設定値の変化に対する抽出文書量の変化をグラフにより表示することも可能である。図２２の場合の方が設定値と文書量との関係をより視覚的に把握することができる。
同様に、ユーザは、スライドバーを操作しながら所望の冗長度にスライドさせ、ボタン３０６をクリックすると、図１９の設定画面においてスライドバーによる設定値がテキストボックス３００に入力される。そして、ボタン３０４をクリックすることにより冗長度を設定する。
【０１０２】
このようにして、本実施の形態では、複数の文書データを登録した文書データ登録ＤＢ１２と、冗長度を設定する冗長度設定部２２と、抽出される文書データの冗長度が冗長度設定部２２で設定した冗長度以下となるように文書データ登録ＤＢ１２のなかから文書データを抽出する文書データ抽出部２０と、冗長度設定部２２で設定されるであろう設定値と文書データ抽出部２０で抽出される抽出文書量との関係を表示する設定支援案内表示部２８とを備える。
【０１０３】
これにより、ユーザは、自己の設定内容によって抽出文書量がどのように影響を受けるかを把握しやすくなるので、自己の要望に添った比較的適切な冗長度を設定することができる。また、類似度が大きい文書同士は選択されにくくなるので、内容が類似するような文書を重複して抽出する可能性を低減することができる。したがって、従来に比して、内容の重複を排除することについてユーザの希望に比較的適合した文書抽出を行うことができる。
【０１０４】
さらに、本実施の形態では、設定支援案内表示部２８は、冗長度設定部２２の設定可能範囲内で設定値を変化させた場合にその設定値の変化に対する抽出文書量の変化を表示するようになっている。
これにより、ユーザは、自己の設定内容によって抽出文書量がどのように影響を受けるかをさらに把握しやすくなる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができる。
【０１０５】
さらに、本実施の形態では、設定値と抽出文書量との関係を示す設定支援情報を登録する設定支援情報登録ＤＢ２６を備え、設定支援案内表示部２８は、設定支援情報登録ＤＢ２６の設定支援情報に基づいて設定値と抽出文書量との関係を表示するようになっている。
これにより、設定値に比較的適合した抽出文書量が表示されるので、ユーザは、自己の設定内容によって抽出文書量がどのように影響を受けるかをさらに把握しやすくなる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができる。
【０１０６】
さらに、本実施の形態では、文書データ抽出部２０の抽出結果に基づいて設定値と抽出文書量との関係を示す設定支援情報を生成する設定支援情報生成部２４を備え、設定支援案内表示部２８は、設定支援情報生成部２４で生成した設定支援情報に基づいて設定値と抽出文書量との関係を表示するようになっている。
これにより、設定値に比較的適合した抽出文書量が表示されるので、ユーザは、自己の設定内容によって抽出文書量がどのように影響を受けるかをさらに把握しやすくなる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができる。
【０１０７】
さらに、本実施の形態では、複数の文書データを登録した文書データ登録ＤＢ１２と、文書データ登録ＤＢ１２の文書データについてそれら文書データ相互間の類似度を算出する類似度算出部１４と、類似度算出部１４で算出した類似度に基づいて文書データ登録ＤＢ１２の文書データを階層的に分類する文書データ分類部１６と、文書データ分類部１６で分類した文書データ群のなかから所定の分類規則に基づいて文書データを抽出する文書データ抽出部２０とを備える。
【０１０８】
これにより、類似度が大きい文書同士はさらに選択されにくくなるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができる。また、文書の抽出に際しては各文書にキーワードを付与する等の作業を要しないので、従来に比して、その作業に要するコストを低減することができる。
【０１０９】
さらに、本実施の形態では、文書データ分類部１６は、類似度算出部１４で算出した類似度に基づいて、文書データを分類したときのクラスタ間距離を算出し、算出したクラスタ間距離に基づいて、類似度が大きい文書データ同士ほど近い階層となるように、文書データ登録ＤＢ１２の文書データを階層的に分類するようになっており、文書データ抽出部２０は、文書データ分類部１６で分類した階層構造のうち階層下のクラスタ間距離に相当する冗長度が所定値以下となる点を特定し、特定した点の階層下の文書データを文書データ群のなかから抽出するようになっている。
【０１１０】
これにより、各文書データをその類似度に応じて比較的適切に分類・抽出することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができる。
さらに、本実施の形態では、文書データ分類部１６は、クラスタリング手法またはグルーピング手法により文書データ登録ＤＢ１２の文書データを階層的に分類するようになっている。
【０１１１】
これにより、各文書データをその類似度に応じて比較的適切に分類することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができる。
さらに、本実施の形態では、類似度算出部１４は、文書データ登録ＤＢ１２の各文書データの文書を所定の文字列に分割する文書分割部３０と、文書分割部３０で分割した文字列の出現頻度に基づいて文書データ登録ＤＢ１２の各文書データについて文書ベクトルを生成する文書ベクトル生成部３２と、文書ベクトル生成部３２で生成した文書ベクトルに基づいて文書データ登録ＤＢ１２の文書データ相互間の類似度を算出するベクトル演算類似度算出部３４とを有する。
【０１１２】
これにより、各文書データ相互間の類似度を比較的適切に算出することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができる。
さらに、本実施の形態では、文書分割部３０は、形態素解析、ｎ−ｇｒａｍおよびストップワードのいずれかの文字列分割方式を用いて文書データ登録ＤＢ１２の各文書データの文書を所定の文字列に分割するようになっている。
【０１１３】
形態素解析、ｎ−ｇｒａｍおよびストップワードといった文字列分割方式は、従来から多用されている信頼性に優れた方式であり、これらを本発明の文書分割部３０として用いることにより、各文書を比較的適切に文字列に分割できることは勿論、これらいずれかの方式を用いることにより様々な形態の文書にも対応することができる。
【０１１４】
さらに、本実施の形態では、文書ベクトル生成部３２は、文字列が出現する文書におけるその文字列の出現頻度、および複数の文書における文字列の出現頻度に基づいて、文書データ登録ＤＢ１２の各文書データについてＴＦＩＤＦで重み付けした文書ベクトルを生成するようになっている。
各文書の文書ベクトルを生成するに際し、分割された文字列の出現頻度をそのまま用いてもよいが、ＴＦＩＤＦという文字列の重要度を反映した公知の重み付け方法を用いると各文書の特徴を反映した文書ベクトルを生成することができる。そのため、各文書データ相互間の類似度をさらに適切に算出することができるので、内容が類似するような文書を重複して抽出する可能性をさらに低減することができる。したがって、内容の重複を排除することについてユーザの希望にさらに適合した文書抽出を行うことができる。
【０１１５】
さらに、本実施の形態では、ベクトル演算類似度算出部３４は、文書ベクトル生成部３２で生成した文書ベクトルに基づいてベクトル空間法により文書データ相互間の類似度を算出するようになっている。
各文書データ相互間の類似度を算出する方式としてベクトル空間法を用いれば、２つの文書ベクトルの類似度は２つのベクトルのなす角の余弦値（０〜１）として定量的に表現することが可能となり、文書抽出をより的確に行うことが可能となる。
【０１１６】
上記実施の形態において、文書データ登録ＤＢ１２は、発明４、８ないし１０、１３ないし１５の文書データ記憶手段に対応し、類似度算出部１４は、発明８、９または１３の類似度算出手段に対応し、文書データ分類部１６は、発明８ないし１０の文書データ分類手段に対応している。また、文書データ抽出部２０は、発明１、２若しくは１７の情報抽出手段、発明３若しくは１８の文書抽出手段、または発明４、７ないし９の文書データ抽出手段に対応し、文書データ抽出部２０による抽出は、発明１９の情報抽出ステップ、または発明２０の文書抽出ステップに対応している。
【０１１７】
また、上記実施の形態において、冗長度設定部２２は、発明２ないし５、８、９、１７若しくは１８の冗長度設定手段、または発明１の情報量設定手段に対応し、冗長度設定部２２による設定は、発明１９または２０の冗長度設定ステップに対応し、設定支援情報生成部２４は、発明７の設定支援情報生成手段に対応している。また、設定支援情報登録ＤＢ２６は、発明６の設定支援情報記憶手段に対応し、設定支援案内表示部２８は、発明１ないし７、１７または１８の設定支援案内出力手段に対応し、設定支援案内表示部２８による表示は、発明１９または２０の設定支援案内出力ステップに対応している。
【０１１８】
また、上記実施の形態において、文書分割部３０は、発明１３または１４の文書分割手段に対応し、文書ベクトル生成部３２は、発明１３、１５または１６の文書ベクトル生成手段に対応し、ベクトル演算類似度算出部３４は、発明１３または１６のベクトル演算類似度算出手段に対応している。
なお、上記実施の形態においては、文書の重複度合いについてのみユーザの好みを反映させるように構成したが、これに限らず、文書の内容についてもユーザの好みを反映させるように構成することもできる。具体的には、例えば、次の２つの構成を提案することができる。
【０１１９】
図２３は、本発明に係る文書抽出装置１０の他の実施の形態を示したものである。
文書抽出装置１０は、図２３に示すように、文書データ登録ＤＢ１２と、ユーザ情報登録ＤＢ１８と、ユーザ情報登録ＤＢ１８のユーザ情報に基づいて文書データ登録ＤＢ１２のなかから文書データを選択する文書データ選択部７０と、文書データ選択部７０で選択した文書データについてそれら文書データ相互間の類似度を算出する類似度算出部１４と、類似度算出部１４で算出した類似度に基づいて文書データ選択部７０で選択した文書データを階層的に分類する文書データ分類部１６と、ユーザ情報を登録したユーザ情報登録ＤＢ１８と、文書データ分類部１６で分類した文書データ群のなかからユーザ情報登録ＤＢ１８のユーザ情報に基づいて文書データを抽出する文書データ抽出部２０とで構成されている。
【０１２０】
これにより、ユーザの希望に適合した内容の文書データが選択されたのちに、そのなかから類似度が大きい文書データが除外されるので、ユーザの好みによる偏りを大きくし、情報の均一性よりもユーザの好みを重視した文書抽出を行うことができる。例えば、幅広い情報よりも自己の好みに適合した情報を求めているユーザに対しては、好適な情報提供を行うことができる。
【０１２１】
この場合において、文書データ登録ＤＢ１２は、発明１１の文書データ記憶手段に対応し、ユーザ情報登録ＤＢ１８は、発明１１のユーザ情報記憶手段に対応し、類似度算出部１４は、発明１１の類似度算出手段に対応し、文書データ分類部１６は、発明１１の文書データ分類手段に対応している。また、文書データ選択部７０は、発明１１の文書データ選択手段に対応している。
【０１２２】
図２４は、本発明に係る文書抽出装置１０の他の実施の形態を示したものである。
文書抽出装置１０は、図２４に示すように、文書データ登録ＤＢ１２と、ユーザ情報登録ＤＢ１８と、文書データ登録ＤＢ１２の文書データについてそれら文書データ相互間の類似度を算出する類似度算出部１４と、類似度算出部１４で算出した類似度に基づいて文書データ登録ＤＢ１２の文書データを階層的に分類する文書データ分類部１６と、ユーザ情報を登録したユーザ情報登録ＤＢ１８と、文書データ分類部１６で分類した文書データ群のなかからユーザ情報登録ＤＢ１８のユーザ情報に基づいて文書データを抽出する文書データ抽出部２０と、文書データ抽出部２０で抽出した文書データ群のなかからユーザ情報登録ＤＢ１８のユーザ情報に基づいて文書データを選択する文書データ選択部７０とで構成されている。
【０１２３】
これにより、類似度が大きい文書データが除外されたのちに、そのなかからユーザの希望に適合した内容の文書データが選択されるので、ユーザの好みによる偏りを小さくし、ユーザの好みよりも情報の均一性を重視した文書抽出を行うことができる。例えば、自己の好みに適合した情報よりも幅広い情報を求めているユーザに対しては、好適な情報提供を行うことができる。
【０１２４】
この場合において、ユーザ情報登録ＤＢ１８は、発明１２のユーザ情報記憶手段に対応し、文書データ抽出部２０は、発明１２の文書データ抽出手段に対応し、文書データ選択部７０は、発明１２の文書データ選択手段に対応している。
図２３の構成を構成Ａとし、図２４の構成を構成Ｂとして、構成Ａ，Ｂの違いについて詳細に説明する。
【０１２５】
ユーザＡの文書データ選択のための属性として、ニュースカテゴリが「大リーグ」関係、それが少なければ上位の概念である「スポーツ」に選択範囲を広げる。そして、文書データ選択部７０で選択されるニュースは５個と指定されているものとする。「大リーグ」や「スポーツ」は、キーワードが直接指定されていることをも含めて、キーワード群や、関連文章や、その他何らかの公知技術を使って情報カテゴリが指定されているものとする。冗長性排除の属性は、別途同様に設定されているものとするが、簡略化のため、以下の例で「重複」の欄に記事番号が書かれているものが、その記事と重複しており冗長性排除によって排除される候補であることを示している。
【０１２６】
図２５および図２６は、図２３の構成と図２４の構成との違いを説明するための図である。
図２５および図２６において、「適合度」とは、ユーザＡが設定した情報カテゴリに、各記事がどれぐらい適合するかを文書データ選択部７０によって計算した結果得られる数値である。「重複」の欄には、別途指定されている冗長性排除のための属性に従って計算した結果、その欄に書かれてある記事と重複しているため、排除される候補になることを示している。図２５および図２６の例では、記事１は記事３と重複しており、記事１の方が排除候補になるということを示している。
【０１２７】
この例では、構成Ａ，Ｂの違いが、記事１０があるかないかに現れている。これは、図２５の例（構成Ａ）では、よりユーザの嗜好を重視しよりその嗜好に偏った記事選択が行われるのに対して、図２６の例（構成Ｂ）では、ユーザの嗜好を重視しながらも、それを逸脱しない範囲で冗長性が排除された記事選択が行われているといえる。
【０１２８】
この結果からは、通常は、冗長性を排除しながらも、情報量が指定した５つになる図２６の例の方が好ましい構成と考えられる。図２５の例は、絶対記事数が５以下になる可能性が大きい（数が保証される可能性が小さい）のに対して、図２６の例は数が保証される可能性が大きい。ただし、適合度の判定、重複の判定に左右される可能性が大いにあり、一概にどちらがよいとはいえない。
【０１２９】
また、上記実施の形態において、文書Ｄ_１，Ｄ_２のうちいずれかおよび文書Ｄ_３，Ｄ_４を含む３つの文書の組み合わせについて冗長度を算出にあたって相加平均を用いているが、これに限らず、積をとって平方根等を求めその値を冗長度とする方法、各文書データ相互間の類似度のうち最大値または最小値を冗長度とする方法を採用することもできる。
【０１３０】
長方形の面積で、「縦＋横」の長さが一定ならば正方形に近い方が面積が大きくなる原理と同じく、相乗平均は、相加平均と比較して以下のような特徴が挙げられる。
（ａ）文書データ相互間の類似度のばらつきが大きい組み合わせは、算出結果として小さくなる傾向がある。
（ｂ）文書データ相互間の類似度のばらつきが小さい組み合わせは、算出結果として大きくなる（小さくならない）傾向がある。
例えば、上記実施の形態において３個の文書を選択する組み合わせについて、相加平均を用いて冗長度を算出した場合は、次のようになる。ここで、（１）は（Ｄ_１，Ｄ_３，Ｄ_４）についての計算結果であり、（２）は（Ｄ_２，Ｄ_３，Ｄ_４）についての計算結果である。
（１）（０．３＋０．５＋０．３）／３＝０．３７
（２）（０．２＋０．８＋０．３）／３＝０．４３
また、上記実施の形態において３個の文書を選択する組み合わせについて、相乗平均を用いて冗長度を算出した場合は、次のようになる。ここで、（１）は（Ｄ_１，Ｄ_３，Ｄ_４）についての計算結果であり、（２）は（Ｄ_２，Ｄ_３，Ｄ_４）についての計算結果である。
（１）３√（０．３＊０．５＊０．３）＝０．３５６
（２）３√（０．２＊０．８＊０．３）＝０．３６３
相加平均の（１）（２）と、相乗平均の（１）（２）の結果を比較すると（２）の結果がほぼ同じなのに対して、相乗平均の（１）の結果は、相加平均の（１）に比べて小さくなっている。これは、（２）が文書データ相互間の類似度にばらつきのある組み合わせであるためであって、相加平均では、１つの高い数値に平均が押し上げられる場合であっても、相乗平均の方法を用いれば、部分的に類似している程度の冗長性であれば影響を受けない結果となる。したがって、相加平均の場合は、一部にでも文書データ相互間の類似度の大きい組み合わせが混じっているとリニアに影響を受ける文書群の冗長性算出方法といえる。この方法を用いれば、大部分の文書データ相互間の類似度が大きい場合は、文書群の冗長性が大きいと判定するが、一部の文書データ相互間の類似度が大きいだけでは（つまり、類似していない文書も多数含まれている文書群の場合は）、冗長度が低いと判断する特徴を持つことになる。相加平均および相乗平均の場合はいずれも、冗長度が低いものを選択するのであれば、文書Ｄ_１を選択し、設定された冗長度に近いものを選択するのであれば、文書Ｄ_２を選択すればよい。
【０１３１】
また、上記実施の形態において３個の文書を選択する組み合わせについて、各文書データ相互間の類似度のうち最小値を用いて冗長度を算出した場合は、次のようになる。ここで、（１）は（Ｄ_１，Ｄ_３，Ｄ_４）についての計算結果であり、（２）は（Ｄ_２，Ｄ_３，Ｄ_４）についての計算結果である。
（１）ｍｉｎ（０．３，０．５，０．３）＝０．３
（２）ｍｉｎ（０．２，０．８，０．３）＝０．２
文書データ相互間の類似度の組み合わせのなかから、最小値をその文書群の冗長度とする方法である。ある文書群のなかに少なくとも冗長度の小さい組み合わせが存在する場合に小さくなる。言い換えれば、全部類似しているわけではなく、少なくとも何らかの特徴的な文書が含まれている場合に小さくなる指標といえる。これは、文書群の冗長性を全体的に表現する指標としては最適でないかもしれない。しかし、例えば、通常は、冗長度が大きいものばかりで、時々文書群のなかに混じってくる特徴的な文書を見逃さないようにするような局所的な指標が必要とされる場合に有効である。この場合、冗長度が低いものを選択するのであれば、文書Ｄ_２を選択し、設定された冗長度に近いものを選択するのであれば、文書Ｄ_１を選択すればよい。
【０１３２】
また、上記実施の形態において３個の文書を選択する組み合わせについて、各文書データ相互間の類似度のうち最大値を用いて冗長度を算出した場合は、次のようになる。ここで、（１）は（Ｄ_１，Ｄ_３，Ｄ_４）についての計算結果であり、（２）は（Ｄ_２，Ｄ_３，Ｄ_４）についての計算結果である。
（１）ｍａｘ（０．３，０．５，０．３）＝０．５
（２）ｍａｘ（０．２，０．８，０．３）＝０．８
文書データ相互間の類似度の組み合わせのなかから、最大値をその文書群の冗長度とする方法である。ある文書群のなかに少なくとも冗長度の大きい組み合わせが存在する場合に大きくなる。言い換えれば、少しでも類似している文書がある場合に大きくなる指標といえる。これは、文書群の冗長性を全体的に表現する指標としては最適でないかもしれない。しかし、例えば、少しでも冗長な文書の組み合わせは選択したくないときや、文書の冗長性はある閾値以下に完全に排除したいときなど、局所的な指標が必要とされる場合に有効である。この場合、冗長度が低いものを選択するのであれば、文書Ｄ_１を選択し、設定された冗長度に近いものを選択するのであれば、文書Ｄ_２を選択すればよい。
【０１３３】
また、上記実施の形態においては、文書ベクトル同士の距離を利用するように構成したが、これに限らず、文書ベクトル同士の角度（余弦値）を利用するように構成することもできる。
また、上記実施の形態において、図８のフローチャートに示す処理を実行するにあたっては、ＲＯＭ５２にあらかじめ格納されている制御プログラムを実行する場合について説明したが、これに限らず、これらの手順を示したプログラムが記憶された記憶媒体から、そのプログラムをＲＡＭ５４に読み込んで実行するようにしてもよい。
【０１３４】
ここで、記憶媒体とは、ＲＡＭ、ＲＯＭ等の半導体記憶媒体、ＦＤ、ＨＤ等の磁気記憶型記憶媒体、ＣＤ、ＣＤＶ、ＬＤ、ＤＶＤ等の光学的読取方式記憶媒体、ＭＯ等の磁気記憶型／光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、あらゆる記憶媒体を含むものである。
【０１３５】
また、上記実施の形態においては、本発明に係る情報抽出システム、文書抽出システム、情報抽出プログラムおよび文書抽出プログラム、並びに情報抽出方法および文書抽出方法を、図１に示すように、内容の重複が少ない複数の文書をユーザに提供する場合について適用したが、これに限らず、本発明の主旨を逸脱しない範囲で他の場合にも適用可能である。
【図面の簡単な説明】
【図１】本発明に係る文書抽出装置１０の実施の一形態を示したものである。
【図２】コンピュータ１００の構成を示すブロック図である。
【図３】形態素解析による文字列分割の一例を示す図である。
【図４】ｎ−ｇｒａｍによる文字列分割の一例を示す図である。
【図５】ストップワードによる文字列分割の一例を示す図である。
【図６】文字列−文書行列を示す図である。
【図７】形態素解析による文字列分割結果を示す図である。
【図８】文書データ抽出処理の一部を示すフローチャートである。
【図９】文書ベクトルおよびその相関関係を示す図である。
【図１０】文書−文書間の対称行列を示す図である。
【図１１】文書−文書間の対称行列を示す図である。
【図１２】図１１の文書−文書間の類似度の対称行列をクラスタ間距離に変換したものである。
【図１３】文書Ｄ_１〜Ｄ_４が属するクラスタのクラスタ間距離を算出する場合を説明するための図である。
【図１４】文書Ｄ_１〜Ｄ_４が属するクラスタのクラスタ間距離を算出する場合を説明するための図である。
【図１５】クラスタ分析によって構成された文書Ｄ_１〜Ｄ_４の階層構造を示す図である。
【図１６】文書データ分類部１６で分類した文書データ群のなかから文書データを抽出する場合を説明するための図である。
【図１７】文書Ｄ_１〜Ｄ_４のなかからユーザＢに提供する文書を選択する場合を説明するための図である。
【図１８】文書Ｄ_１〜Ｄ_４のなかからユーザＡに提供する文書を選択する場合を説明するための図である。
【図１９】冗長度の設定画面を示す図である。
【図２０】文書データ分類部１６で文書データを階層的に分類した分類結果の一例を示す図である。
【図２１】設定値と文書数との関係をスライドバー形式により表示した図である。
【図２２】設定値と文書数との関係をグラフ形式により表示した図である。
【図２３】本発明に係る文書抽出装置１０の他の実施の形態を示したものである。
【図２４】本発明に係る文書抽出装置１０の他の実施の形態を示したものである。
【図２５】図２３の構成と図２４の構成との違いを説明するための図である。
【図２６】図２３の構成と図２４の構成との違いを説明するための図である。
【符号の説明】
１０…文書抽出装置，１２…文書データ登録ＤＢ，１４…類似度算出部，１６…文書データ分類部，１８…ユーザ情報登録ＤＢ，２０…文書データ抽出部，
２２…冗長度設定部，２４…設定支援情報生成部，２６…設定支援情報登録ＤＢ，２８…設定支援案内表示部，３０…文書分割部，３２…文書ベクトル生成部，
３４…ベクトル演算類似度算出部，５０…ＣＰＵ，５２…ＲＯＭ，５４…ＲＡＭ，５８…Ｉ／Ｆ，６０…入力装置，６４…表示装置，７０…文書データ選択部，
１００…コンピュータ，Ｄ_１〜Ｄ_ｍ…文書，Ｓ…情報供給源，３００…テキストボックス，３０２〜３０６…ボタン

Claims

抽出対象となる複数の情報のなかから情報を抽出するシステムであって、
情報量を設定する情報量設定手段と、抽出される情報の情報量が前記情報量設定手段で設定した情報量以下又は以上となるように前記複数の情報のなかから情報を抽出する情報抽出手段と、前記情報量設定手段で設定されるであろう設定値と前記情報抽出手段で抽出される抽出情報量との関係を出力する設定支援案内出力手段とを備えることを特徴とする情報抽出システム。
抽出対象となる複数の情報のなかから情報を抽出するシステムであって、
冗長度を設定する冗長度設定手段と、抽出される情報の冗長度が前記冗長度設定手段で設定した冗長度以下となるように前記複数の情報のなかから情報を抽出する情報抽出手段と、前記冗長度設定手段で設定されるであろう設定値と前記情報抽出手段で抽出される抽出情報量との関係を出力する設定支援案内出力手段とを備えることを特徴とする情報抽出システム。
抽出対象となる複数の文書のなかから文書を抽出するシステムであって、
冗長度を設定する冗長度設定手段と、抽出される文書の冗長度が前記冗長度設定手段で設定した冗長度以下となるように前記複数の文書のなかから文書を抽出する文書抽出手段と、前記冗長度設定手段で設定されるであろう設定値と前記文書抽出手段で抽出される抽出文書量との関係を出力する設定支援案内出力手段とを備えることを特徴とする文書抽出システム。
抽出対象となる複数の文書のなかから文書を抽出するシステムであって、
複数の文書データを記憶するための文書データ記憶手段と、冗長度を設定する冗長度設定手段と、抽出される文書データの冗長度が前記冗長度設定手段で設定した冗長度以下となるように前記文書データ記憶手段のなかから文書データを抽出する文書データ抽出手段と、前記冗長度設定手段で設定されるであろう設定値と前記文書データ抽出手段で抽出される抽出文書量との関係を出力する設定支援案内出力手段とを備えることを特徴とする文書抽出システム。
請求項４において、
前記設定支援案内出力手段は、前記冗長度設定手段の設定可能範囲内で前記設定値を変化させた場合にその設定値の変化に対する前記抽出文書量の変化を出力するようになっていることを特徴とする文書抽出システム。
請求項５において、
さらに、前記設定値と前記抽出文書量との関係を示す設定支援情報を記憶するための設定支援情報記憶手段を備え、
前記設定支援案内出力手段は、前記設定支援情報記憶手段の設定支援情報に基づいて前記設定値と前記抽出文書量との関係を出力するようになっていることを特徴とする文書抽出システム。
請求項５において、
さらに、前記文書データ抽出手段の抽出結果に基づいて前記設定値と前記抽出文書量との関係を示す設定支援情報を生成する設定支援情報生成手段を備え、
前記設定支援案内出力手段は、前記設定支援情報生成手段で生成した設定支援情報に基づいて前記設定値と前記抽出文書量との関係を出力するようになっていることを特徴とする文書抽出システム。
請求項４乃至７のいずれかにおいて、
さらに、前記文書データ記憶手段の文書データについてそれら文書データ相互間の類似度を算出する類似度算出手段と、前記類似度算出手段で算出した類似度に基づいて前記文書データ記憶手段の文書データを階層的に分類する文書データ分類手段とを備え、
前記文書データ抽出手段は、抽出される文書データの冗長度が前記冗長度設定手段で設定した冗長度以下となるように、前記文書データ分類手段で分類した文書データ群のなかから所定の分類規則に基づいて前記文書データを抽出するようになっていることを特徴とする文書抽出システム。
請求項８において、
前記文書データ分類手段は、前記類似度算出手段で算出した類似度に基づいて、前記文書データを分類したときの分類間の距離であって分類間の類似度が大きいものほど距離が小さくなるクラスタ間距離を算出し、算出したクラスタ間距離に基づいて、類似度が大きい文書データ同士ほど近い階層となるように、前記文書データ記憶手段の文書データを階層的に分類するようになっており、
前記文書データ抽出手段は、前記文書データ分類手段で分類した階層構造のうち階層下のクラスタ間距離に相当する冗長度が前記冗長度設定手段で設定した冗長度以下となる点を特定し、特定した点の階層下の文書データを前記文書データ群のなかから抽出するようになっていることを特徴とする文書抽出システム。
請求項８及び９のいずれかにおいて、
前記文書データ分類手段は、クラスタリング手法又はグルーピング手法により前記文書データ記憶手段の文書データを階層的に分類するようになっていることを特徴とする文書抽出システム。
請求項８乃至１０のいずれかにおいて、
さらに、ユーザに関するユーザ情報を記憶するためのユーザ情報記憶手段と、前記ユーザ情報記憶手段のユーザ情報に基づいて前記文書データ記憶手段のなかから複数の文書データを選択する文書データ選択手段とを備え、
前記類似度算出手段及び前記文書データ分類手段は、前記文書データ選択手段で選択した文書データを対象として前記類似度の算出及び前記文書データの分類を行うようになっていることを特徴とする文書抽出システム。
請求項８乃至１０のいずれかにおいて、
さらに、ユーザに関するユーザ情報を記憶するためのユーザ情報記憶手段と、前記文書データ抽出手段で抽出した文書データ群のなかから前記ユーザ情報記憶手段のユーザ情報に基づいて文書データを選択する文書データ選択手段とを備えることを特徴とする文書抽出システム。
請求項８乃至１２のいずれかにおいて、
前記類似度算出手段は、前記文書データ記憶手段の各文書データの文書を所定の文字要素に分割する文書分割手段と、前記文書分割手段で分割した文字要素の出現頻度に基づいて前記文書データ記憶手段の各文書データについて文書ベクトルを生成する文書ベクトル生成手段と、前記文書ベクトル生成手段で生成した文書ベクトルに基づいて前記文書データ記憶手段の文書データ相互間の類似度を算出するベクトル演算類似度算出手段とを有することを特徴とする文書抽出システム。
請求項１３において、
前記文書分割手段は、形態素解析、ｎ−ｇｒａｍ及びストップワードのいずれかの文字要素分割方式を用いて前記文書データ記憶手段の各文書データの文書を所定の文字要素に分割するようになっていることを特徴とする文書抽出システム。
請求項１３及び１４のいずれかにおいて、
前記文書ベクトル生成手段は、前記文字要素が出現する文書における当該文字要素の出現頻度、及び前記複数の文書における前記文字要素の出現頻度に基づいて、前記文書データ記憶手段の各文書データについてＴＦＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ＆ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）で重み付けした文書ベクトルを生成するようになっていることを特徴とする文書抽出システム。
請求項１３乃至１５のいずれかにおいて、
前記ベクトル演算類似度算出手段は、前記文書ベクトル生成手段で生成した文書ベクトルに基づいてベクトル空間法により文書データ相互間の類似度を算出するようになっていることを特徴とする文書抽出システム。
抽出対象となる複数の情報のなかから情報を抽出するプログラムであって、
冗長度を設定する冗長度設定手段、抽出される情報の冗長度が前記冗長度設定手段で設定した冗長度以下となるように前記複数の情報のなかから情報を抽出する情報抽出手段、及び前記冗長度設定手段で設定されるであろう設定値と前記情報抽出手段で抽出される抽出情報量との関係を出力する設定支援案内出力手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする情報抽出プログラム。
抽出対象となる複数の文書のなかから文書を抽出するプログラムであって、
冗長度を設定する冗長度設定手段、抽出される文書の冗長度が前記冗長度設定手段で設定した冗長度以下となるように前記複数の文書のなかから文書を抽出する文書抽出手段、及び前記冗長度設定手段で設定されるであろう設定値と前記文書抽出手段で抽出される抽出文書量との関係を出力する設定支援案内出力手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする文書抽出プログラム。
抽出対象となる複数の情報のなかから情報を抽出する方法であって、
設定支援に関する案内を出力する設定支援案内出力ステップと、冗長度を設定する冗長度設定ステップと、抽出される情報の冗長度が前記冗長度設定ステップで設定した冗長度以下となるように前記複数の情報のなかから情報を抽出する情報抽出ステップとを含み、
前記設定支援案内出力ステップは、前記冗長度設定ステップでの設定に先立って、前記冗長度設定ステップで設定されるであろう設定値と前記情報抽出ステップで抽出される抽出情報量との関係を出力することを特徴とする情報抽出方法。
抽出対象となる複数の文書のなかから文書を抽出する方法であって、
設定支援に関する案内を出力する設定支援案内出力ステップと、冗長度を設定する冗長度設定ステップと、抽出される文書の冗長度が前記冗長度設定ステップで設定した冗長度以下となるように前記複数の文書のなかから文書を抽出する文書抽出ステップとを含み、
前記設定支援案内出力ステップは、前記冗長度設定ステップでの設定に先立って、前記冗長度設定ステップで設定されるであろう設定値と前記文書抽出ステップで抽出される抽出文書量との関係を出力することを特徴とする文書抽出方法。