JP2004145753A

JP2004145753A - 文書検索方法及び装置及び文書検索プログラム

Info

Publication number: JP2004145753A
Application number: JP2002311698A
Authority: JP
Inventors: Naruhiro Ikeda; 池田　成宏; Yoshihiro Matsuo; 松尾　義博; Yoshihiko Hayashi; 林　良彦
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-10-25
Filing date: 2002-10-25
Publication date: 2004-05-20

Abstract

【課題】ある文書と同じ問題・事件などを扱う一連の文書を検索する際に、その文書がどのような問題・事件に関する文書なのかを記述している文書を抽出し、話題の類似性に基づいて関連文書を検索する。
【解決手段】本発明は、文書格納手段に格納されている文書から話題抽出用パターンを用いて話題や新情報を抽出し、文書のヘッドラインを生成し、各文書毎付与して文書格納手段に登録し、話題の類似性に基づいて、文書格納手段の処理対象文書と文書格納手段の他の文書の話題同士の関連度を計算し、関連度が閾値より大きい文書を関連文書とし、入力された文書ＩＤまたは、検索語句に基づいて、話題抽出を行い、話題に基づいて関連文書を文書格納手段から検索する。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、文書検索方法及び装置及び文書検索プログラムに係り、特に、ユーザが指定する文書と同じ問題・事件に関する一連の文書を文書群から検索する文書検索方法及び装置及び文書検索プログラムに関する。
【０００２】
【従来の技術】
あるテキストに対する類似文書を検索する方法としては、文書中の単語を用いて文書を多次元空間のベクトルで表現し、多次元空間での２つのベクトルの距離が近いほど、それぞれのベクトルが代表している文書が類似していると判断して、類似度順に検索結果を提示する方法がある（例えば、特許文献１）。
【０００３】
この方法は、予め指定された複数のフィールドそれぞれに適当な要素もしくは、データ項目を入力し、指定された一つのフィールドの値となりうる要素全てについて、ある超空間の座標を割り当てた概念ベースを参照しながら、入力であるデータ項目群に現れるすべてのフィールド名とその値となりうる要素との対に対応する超空間の座標を計算し、すべてのフィールド名−要素の対の座標を蓄積した概念空間を出力し、概念空間を参照することで、入力項目指定で指定されたフィールド名を持つものを、その座標との類似度に基づいた順序で整列し、出力するものである。
【０００４】
【特許文献１】
特願２０００−１５６４２１号「情報検索方法及び装置及び情報検索プログラムを格納した記憶媒体」
【０００５】
【発明が解決しようとする課題】
例えば、ニュース記事は新しい情報を視聴者に伝えるためのものであるから、その内容は新しい情報に焦点が置かれている。そのため、あるニュースとそれまでに報道されたニュースを比較すると、記事中に含まれる単語の分布は大きく変わることがある。
【０００６】
しかしながら、上記従来の技術を用いて類似ニュース記事の検索を行うと、例えば、ニュースという文書がどのような問題・事件に関する話題であるかを抽出していないため、対象のニュース記事と検索されたニュース記事との類似度が低くなり、検索結果に対する信頼度が低くなったり、検索結果に不適当な記事が含まれてしまうという問題がある。つまり、従来の方法では、話題同士の類似度は考慮されていないため、類似度が高い文書を検索することができないという問題がある。
【０００７】
本発明は、上記の点に鑑みなされたもので、ある文書と同じ問題・事件などを扱う一連の文書を検索する際に、その文書がどのような問題・事件に関する文書なのかを記述している文書を抽出し、話題の類似性に基づいて関連文書を検索することが可能な文書検索方法及び装置及び文書検索プログラムを提供することを目的とする。
【０００８】
【課題を解決するための手段】
図１は、本発明の原理を説明するための図である。
【０００９】
本発明は、文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索方法において、
文書格納手段に格納されている文書から話題抽出用パターンを用いて、話題や、当該文書で新たに伝えようとする新情報を抽出し（ステップ１）、文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録し（ステップ２）、
文書の話題の類似性に基づいて、文書格納手段の処理対象文書と該文書格納手段の他の文書の話題同士の関連度を計算し（ステップ３）、
計算された関連度が予め決められた閾値より大きい文書を関連文書とし（ステップ４）、
ユーザから入力された文書ＩＤに基づいて、該文書ＩＤに対応する関連文書を文書格納手段から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を該文書格納手段から検索する（ステップ５）。
【００１０】
また、本発明の文書検索方法は、話題及び、新情報を抽出する際に、
予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと文書格納手段に格納されている文書の１文とをマッチングさせ、マッチしなくなるまで繰り返し、
非話題テンプレートとマッチしなくなったら、話題抽出の対象となる文を抽出するための話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しない。
【００１１】
また、本発明の文書検索方法は、話題同士の関連度を計算する際に、
話題の自立語の共有単語数の割合に基づいて関連度を求め、
関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とし、
関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のＩＤを該処理中の文書の初期関連文書として文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のＩＤを該文書格納手段に登録する。
【００１２】
また、本発明の文書検索方法は、ユーザから関連文書検索要求として、文書ＩＤが入力された場合には、
文書ＩＤを保存し、
文書格納手段から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書ＩＤを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書ＩＤを削除し、保存されていた該初期関連文書の文書ＩＤを追加して最終的な関連文書とする。
【００１３】
また、本発明の文書検索方法は、ユーザから関連文書検索要求として、検索語句が入力された場合には、
検索語句から話題を抽出し、
話題に基づいて、文書格納手段から初期関連文書を検索し、初期関連文書がある場合には、該初期関連文書の文書ＩＤを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書ＩＤを削除し、保存されていた該初期関連文書の文書ＩＤを追加して最終的な関連文書とする。
【００１４】
図２は、本発明の原理構成図である。
【００１５】
本発明は、文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索装置であって、
ユーザによる入力を受け付ける入力手段１と、
文書を格納する文書格納手段２と、
文書格納手段２に格納されている文書から話題抽出用パターンを用いて、話題や、当該文書で新たに伝えようとする新情報を抽出し、文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録する話題抽出手段４と、
文書の話題の類似性に基づいて、文書格納手段２の処理対象文書と文書格納手段２の他の文書の話題同士の関連度を計算し、計算された関連度が予め決められた閾値より大きい文書を関連文書する関連文書検出手段５と、
ユーザから入力された文書ＩＤに基づいて、該文書ＩＤに対応する関連文書を文書格納手段２から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を文書格納手段２から検索する関連文書検索手段３と、
関連文書検索手段３で取得した関連文書を出力する出力手段６と、を有する。
また、上記の話題抽出手段４は、
話題抽出用パターンとしての、予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと、話題抽出の対象となる文を抽出するための話題テンプレートと、
非話題テンプレートと文書格納手段２に格納されている文書の１文とをマッチングさせ、マッチしなくなるまで繰り返し、該非話題テンプレートとマッチしなくなったら、話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しない手段と、を有する。
【００１６】
また、上記の関連文書検出手段５は、
話題の自立語の共有単語数の割合に基づいて関連度を求める手段と、
関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とする手段と、
関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のＩＤを該処理中の文書の初期関連文書として文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のＩＤを文書格納手段２に登録する手段と、を有する。
【００１７】
また、上記の関連文書検索手段３は、
入力手段１からユーザから関連文書検索要求として、文書ＩＤが入力された場合には、文書ＩＤを保存し、文書格納手段２から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書ＩＤを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書ＩＤを削除し、保存されていた該初期関連文書の文書ＩＤを追加して最終的な関連文書とする手段を有する。
【００１８】
また、上記の関連文書検索手段３は、
ユーザから関連文書検索要求として、検索語句が入力された場合には、該検索語句を話題抽出手段に渡し、話題を取得する手段と、
話題を関連文書検出手段５に渡し、初期関連文書を取得する手段と、
初期関連文書が取得できた場合には、該初期関連文書の文書ＩＤを保存し、該文書格納手段から該初期関連文書の情報を取得し、取得できない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書ＩＤを削除し、保存されていた該初期関連文書の文書ＩＤを追加して最終的な関連文書とする手段と、を有する。
【００１９】
本発明は、コンピュータのＣＰＵ上で実行される、文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索プログラムであって、
文書格納手段に格納されている文書から話題や、当該文書で新たに伝えようとする新情報を抽出し、文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録する話題抽出ステップと、
文書の話題の類似性に基づいて、文書格納手段の処理対象文書と該文書格納手段の他の文書の話題同士の関連度を計算し、計算された関連度が予め決められた閾値より大きい文書を関連文書とする関連文書検出ステップと、
ユーザから入力された文書ＩＤに基づいて、該文書ＩＤに対応する関連文書を文書格納手段から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を該文書格納手段から検索する関連文書検索ステップと、からなる。
【００２０】
また、上記の話題抽出ステップは、
予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと文書格納手段に格納されている文書の１文とをマッチングさせ、マッチしなくなるまで繰り返すステップと、
非話題テンプレートとマッチしなくなったら、話題抽出の対象となる文を抽出するための話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しないステップと、を有する。
【００２１】
また、上記の関連文書検出ステップは、
話題の自立語の共有単語数の割合に基づいて関連度を求めるステップと、
関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とするステップと、
関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のＩＤを該処理中の文書の初期関連文書として文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のＩＤを該文書格納手段に登録するステップと、を有する。
【００２２】
また、上記の関連文書検索ステップは、
ユーザから関連文書検索要求として、文書ＩＤが入力された場合には、
文書ＩＤを保存するステップと、
文書格納手段から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書ＩＤを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書ＩＤを削除し、保存されていた該初期関連文書の文書ＩＤを追加して最終的な関連文書とするステップと、を有する。
【００２３】
また、上記の関連文書検索ステップは、
ユーザから関連文書検索要求として、検索語句が入力された場合には、
検索語句から話題を抽出するステップと、
話題に基づいて、文書格納手段から初期関連文書を検索し、初期関連文書がある場合には、該初期関連文書の文書ＩＤを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書ＩＤを削除し、保存されていた該初期関連文書の文書ＩＤを追加して最終的な関連文書とするステップと、を有する。
【００２４】
上記のように、予め用意された話題抽出用パターンとマッチングを行うことによって文書から話題を抽出し、各文書から抽出された話題に基づいて文書間の関連度を計算して関連度がある閾値よりも高い文書同士を関連文書と判断することが可能となる。
【００２５】
また、文書から話題を抽出する段階において、予め用意されたパターンに基づいて、その文書で新たに伝えようとしている新情報を抽出することが可能となる。
【００２６】
さらに、文書から話題を抽出する段階において、予め用意されたパターンにもとづいて、抽出された話題と新情報からその文書のヘッドラインを生成することが可能となる。
【００２７】
例えば、ニュースの続報では短時間のうちに視聴者がわかりやすく内容を伝達する必要があるため、ニュースの冒頭においてそのニュースが何の問題に関するニュースかを伝え、それから新たにわかった事実などを伝えるという特徴がある。そのため、予め用意したパターンを用いて話題を高精度に抽出し、話題同士の類似度を計算することにより、類似度が高い文書同士を関連文書であると判断することができる。
【００２８】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態について説明する。
【００２９】
図３は、本発明の一実施の形態における関連文書検索装置の構成を示す。
【００３０】
同図に示す関連文書検索装置は、関連文書の検索を行うユーザが文書ＩＤまたは、文書を入力する入力部１、文書を格納する文書格納部２、文書格納部２に蓄積された文書から関連文書を検索する関連文書検索部３、文書から話題を抽出する話題抽出部４、文書の話題に基づいて２つの文書が関連しているかを判断する関連文書検出部５、非話題テンプレート、話題テンプレート及び後編集テンプレートを記憶するテンプレート記憶部７及び検索結果を出力する出力部６から構成される。
【００３１】
上記の文書格納部２、テンプレート記憶部７は、ハードディスク装置等のハードウェアで実現される。また、関連文書検索部３、話題抽出部４、関連文書検出部５は、コンピュータのＣＰＵ等の制御手段で実現される。また、入力部１は、キーボードやマウス等のハードウェアで実現され、出力部２は、ディスプレイ装置等のハードウェアで実現される。
【００３２】
次に、上記の構成における動作を説明する。
【００３３】
まず、文書間の関連性は、ユーザが検索を行う前に予め調べておくものとする。
【００３４】
話題抽出部４では、文書格納部２に格納されている文書から話題及び、新情報を抽出し、ヘッドラインを生成して文書格納部２の各文書にこれらの情報を付与する。文書からの話題及び、新情報の抽出とヘッドラインの生成は以下のように行う。
【００３５】
図４は、本発明の一実施の形態における話題抽出部の処理のフローチャートである。
【００３６】
以下では、話題抽出用パターンとして非話題テンプレート、話題テンプレート及び後編集テンプレートを用いる。
【００３７】
図５は、本発明の一実施の形態における非話題テンプレートの例を示しており、当該非話題テンプレートはパターンＩＤ及びパターンから構成される。図６は、本発明の一実施の形態における話題テンプレートの例を示し、当該話題テンプレートは、パターンＩＤ、パターン、話題、新情報、ヘッドラインから構成される。図７は、本発明の一実施の形態における後編集テンプレートの例を示し、当該後編集テンプレートは、パターンＩＤとパターン及び編集結果から構成される。
【００３８】
まず、文書の先頭部分にある話題抽出の対象となりえない文を非話題テンプレートを用いて読み飛ばす。
【００３９】
文書格納部２の文書の先頭から１文を取り出し（ステップ４１）、図５に示すよううな非話題テンプレートとマッチングを行う。処理中の文が非話題テンプレートにマッチした場合には（ステップ４２，Ｙｅｓ）、ステップ４１に移行して文書から次の文を取得する。そして、処理対象の文が非話題テンプレートにマッチしなくなるまでステップ４１、４２の処理を繰り返す。
【００４０】
次に、話題抽出部４は、図６に示すような話題テンプレートとマッチングを行う。テンプレートにマッチした場合には（ステップ４３、Ｙｅｓ）、話題・新情報をテンプレートに基づいて設定する（ステップ４４）。テンプレートルールとマッチしない場合には（ステップ４３，Ｎｏ）、処理中の文を話題とし、新情報は設定されない（ステップ４５）。話題・新情報に基づいてヘッドラインが作成される。話題テンプレートにマッチしなかった場合には、話題がヘッドラインとなる（ステップ４６）。その後、図７に示す後編集テンプレートを用いて話題・新情報、ヘッドラインから不要な語を削除するなどの後編集を行う（ステップ４７）。以上の話題・新情報抽出処理、及びヘッドライン作成処理を文書格納部２内の全文書に対して行う。
【００４１】
次に、文書の話題の類似性に基づいて、文書格納部２内の各文書について関連文書を検出する。関連文書の検出は、関連文書検出部５で行う。
【００４２】
図８は、本発明の一実施の形態における関連文書検出部の処理手順を示し、当該処理は、文書格納部２内の全文書に対して行われる。
【００４３】
まず、処理対象の文書と文書格納部２中のその他の文書の話題同士の関連度（類似度）を計算する（ステップ５１）。類似度の計算方法には、例えば、自立語の共有単語数の割合に基づく方法があり、２つの文書Ａ，Ｂの自立語数をＮａ，Ｎｂ、文書記事Ａ，Ｂに共通する自立語数をＮとすると、類似度は２Ｎ／（Ｎａ＋Ｎｂ）と定義できる。他には、概念ベース（熊本，島田，加藤：“概念ベースの情報検索への適用／概念ベースを用いた検索の特性評価”，情処学研報，９９−ＩＣＳ−１１５，知能と複雑系，１９９９）のように、単語を多次元ベクトルで表現し、話題に出現する単語のベクトルの総和を話題のベクトル表現とし、２つのベクトルのなす角を類似度とする方法も利用できる。また、話題中の単語の出現順序を考慮することができる類似度計算手法（特開２００１−２４３２４５）を利用することもできる。この方法は、全ての単語対応がスコアに寄与しているため、語順の異なりがある場合でも一致する単語が多いほど文マッチングスコアを大きくする方法である。
【００４４】
次に、処理対象の文書との関連度が予め決められた閾値よりも大きい文書があるかを調べる（ステップ５２）。関連度が閾値を越える文書がない場合には（ステップ５２，Ｎｏ）、処理中の文書には関連文書がないと見做される。一方、関連度が閾値を越える文書は関連文書とみなし（ステップ５２，Ｙｅｓ）、処理中の文書と関連文書が発表または、報道された日付の比較が行われる（ステップ５３）。関連文書中に処理中の文書以前の文書があれば（ステップ５３，Ｙｅｓ）、その文書のＩＤを処理中の文書の初期関連文書として、文書格納部２内の当該処理中の文書に登録（付与）する（ステップ５４）が、無い場合には（ステップ５３，Ｎｏ）、処理中の文書の後続関連文書として、関連文書のＩＤを文書格納部２内の処理中の文書に登録（付与）する（ステップ５５）。以上のような処理を文書格納部２の全文書に対して行い、各文書の関連文書を検出する。
【００４５】
以上のようにして作成された文書間の関連性に基づき、関連文書検索部３が関連文書の検索を行う。
【００４６】
最初に、ユーザが入力部１に文書ＩＤ（入力文書ＩＤ）を入力した場合について説明する。
【００４７】
図９は、本発明の一実施の形態における関連文書検索部の処理のフローチャート（その１）である。
【００４８】
入力部１に文書ＩＤ（入力文書ＩＤ）が入力されると、関連文書検索部３は、入力文書ＩＤに関連する文書を文書格納部２から検索する。
【００４９】
まず、入力文書ＩＤを保存する（ステップ３１１）。次に、関連文書検索部３は、文書格納部２から対象となっている文書に関する情報を取得する（ステップ３１２）。対象文書に初期関連文書があるか調べられる。初期関連文書がある場合には（ステップ３１３，Ｙｅｓ）、その初期関連文書ＩＤを保存し（ステップ３１４）、文書格納部２から初期関連文書の情報を取得し（ステップ３１５）、ステップ３１３に移行し、初期関連文書を処理対象とする。
【００５０】
初期関連文書がない場合には（ステップ３１３，Ｎｏ）、対象記事の後続関連文書を関連文書とする（ステップ３１６）。関連文書から入力入力文書ＩＤを削除し、保存されていた初期関連文書ＩＤを追加したものが最終的な関連文書となる（ステップ３１７）。
【００５１】
次に、ユーザが入力部１に文書ＩＤではなく、検索語句を入力した場合について説明する。
【００５２】
図１０は、本発明の一実施の形態における関連文書検索部の処理のフローチャート（その２）である。なお、検索語句は記事、文、フレーズ等どんな単位でもよい。
【００５３】
まず、関連文書検索部３は、話題検出部４に検索語句を送り、検索語句から話題を抽出する（ステップ３２１）。関連文書検出部５に話題を送り、初期関連文書を取得する（ステップ３２２）。なお、関連文書検出部５では、文書が発表、または、報道された日付の比較が行われるが、検索語句については検索語句の入力が行われた日付で比較が行われる。以下ステップ３２３以降の処理は、前述の図９のフローチャートのステップ３１３以降と同様に処理され、関連文書が得られる。
【００５４】
関連文書検索部２では、以上のようにして関連文書を検索し、関連文書の情報を出力部６に送り、ユーザに関連文書を提示する。
【００５５】
【実施例】
以下、図面と共に本発明の一実施例を説明する。
【００５６】
本実施例では、文書格納部２に図１１のようなテレビニュース音声を書き起こした文書が格納されている場合の具体例を示す。図１１に示す文書格納部２には、文書ＩＤ毎に、報道日時、文書、話題、新情報、ヘドライン、初期関連文書ＩＤ、後続関連文書ＩＤ等が格納される。このうち、話題、新情報、ヘッドライン、初期関連文書ＩＤ、後続関連文書ＩＤは、処理を行うことにより設定される項目である。
【００５７】
まず、ユーザが検索を行う前に事前に話題抽出部４において話題抽出が行われる。ここでは、「文書１」の話題抽出処理について説明する。
【００５８】
以下では、前述の図４、図８、図９、図１０の各フローチャートに沿って説明する。
【００５９】
文書の第１文『こんばんは。』を取得し（ステップ４１）、図５の非話題テンプレートとマッチングが行われる（ステップ４２）。『こんばんは。』は、非話題テンプレート１にマッチしているので、再びステップ４１が実行される。同様に第２文『５月２８日…』も非話題テンプレート３にマッチするので、再度ステップ４１に戻る。次の第３文『防衛庁に情報公開…』は、非話題テンプレートにマッチしないので、ステップ４３に移行する。
【００６０】
第３文『防衛庁に情報公開…わかりました』と図６の話題テンプレートのマッチングが行われる（ステップ４３）。第３文は話題テンプレートにマッチしないので、第３文が「文書１」の話題となる（ステップ４５）。次に、第３文は話題テンプレートにマッチしなかったので、第３文がそのまま「文書１」のヘッドラインとなる（ステップ４６）。次に、図７の後編集テンプレートに基づいて不要語句の削除などが行われ、最終的な話題、ヘッドラインは共に、『防衛庁に情報公開請求した人のリストが防衛庁の情報公開の担当者によって作られていた』となる（ステップ４７）。
【００６１】
これにより、「文書１」では、話題、新情報、ヘッドラインはそれぞれ次のようになる。
『話題：防衛庁に情報公開請求した人の個人情報リストが防衛庁の情報公開の担当者によって作られていた
新情報：なし
ヘッドライン：防衛庁に情報公開請求した人の個人情報リストが防衛庁の情報公開の担当者によって作られていたことがわかった』
また、「文書２」についても上記と同様に話題抽出が行われる。「文書２」の場合は、第１文が話題テンプレート１にマッチする（ステップ４３）。そのため話題、新情報、ヘッドラインはそれぞれ次のようになる（図１２）。
『話題：防衛庁に情報公開を請求した人の個人情報リストが作られていた問題
新情報：中谷防衛庁長官は、衆議院の特別委員会で徹底した調査を行いたいという考えを示した
ヘッドライン：防衛庁に情報公開を請求した人の個人情報リストが作られていた問題で、中谷防衛庁長官は、衆議院の特別委員会で徹底した調査を行いたいという考えを示した』
以上のような話題抽出処理が文書格納部２に格納されている全文書に対して行われる。
【００６２】
次に、関連文書検出部４で各文書に関連する文書が検出される。ここでは、関連度（類似度）計算方法として、話題中の自立語から単語ベクトルを作成し、単語ベクトルのなす角のコサインを関連度（類似度）とする方法を用いる。なお、関連文書と判断する関連度の閾値は０．５とし、関連度が０．５以上となる文書同士を関連文書とみなす。
【００６３】
「文書１」の関連文書検出処理は図８のフローチャートに基づき、次のように行われる。
【００６４】
まず、関連文書検索部５において、「文書１」と文書格納部２中のその他の文書の関連度が計算される（ステップ５１）。例えば、「文書１」と「文書２」の関連度は図１２のように計算され、関連度は０．９６８となる。また、「文書１」と「文書３」の類似度は図１３のように計算され、関連度は０．５８３となる。同様にして「記事４」との関連度は０．２１８となる。
【００６５】
次に、関連度が閾値を越える文書があるかを調べる（ステップ５２）。ここでは、閾値は０．５に設定されているため、関連度が閾値を越えるのは「文書２」と「文書３」のみである。閾値を越える関連度の文書があるため、ステップ５３に移行する。「文書１」と「文書２」、「文書３」が報道された日付の比較が行われ、「文書２」、「文書３」は、「文書１」よりも新しい文書のため、ステップ５５に移行し、図１１のように「文書１」の後続関連文書として「文書２」、「文書３」の文書ＩＤを文書格納部２に登録する。
【００６６】
「文書２」については、次のように関連文書が検出される。
【００６７】
前述の「文書１」の場合と同様に、ステップ５１で他文書との関連度を計算すると、関連度が閾値を越えるのは、「文書１」と「文書３」で、それぞれ関連度は、０．９６８、０．６１５である。「文書２」と「文書１」、「文書３」の日付の比較が行われるが（ステップ５３）、「文書１」は、「記事２」以前の文書であるため、「文書２」の初期関連文書として「文書１」の文書ＩＤが文書格納部２に登録される（ステップ５４）。
【００６８】
「文書３」についても、同様に関連文書検出が行われ、「文書３」の初期関連文書として「文書１」の文書ＩＤが文書格納部２に登録される。一方、「文書４」については、「文書１」、「文書２」、「文書３」との関連度はそれぞれ０．２２８、０．２６３、０．２６７となり、閾値０．５を越える文書がないため、関連文書はないと判断される。
【００６９】
以上のようにして各記事の関連文書の検出が行われる。
【００７０】
次に、関連文書の検索について述べる。
【００７１】
関連文書検索には２通りの方法があり、第１の方法では、ユーザには文書格納部２に格納されている文書の文書ＩＤを入力し、その文書の関連文書を得る。第２の方法では、ユーザは検索語句（文書、文、フレーズ等）を入力し、検索語句に関連する文書を検索する。
【００７２】
まず、第１の検索方法の例を示す。
【００７３】
入力部１において文書ＩＤが入力されると、文書ＩＤで指定された文書に関連する文書の検索が行われる。例えば、文書ＩＤに『２』が与えられた場合は、関連文書検索部２において図９のフローチャートに基づき以下のように関連文書の検索を行う。
【００７４】
入力文書ＩＤの『２』を保存する（ステップ３１１）。次に、「文書２」に初期関連文書があるか調べられる。初期関連文書がない場合にはステップ３１６に移行する。ここでは、「文書２」には初期関連文書として『１』が登録されているため、ステップ３１４に移行する。そして、初期関連文書ＩＤの『１』を保存し（ステップ３１４）、「文書１」の情報を取得し（ステップ３１５）、ステップ３１３に移行する。
【００７５】
「文書１」の初期関連文書があるか調べられるが（ステップ３１３）、「文書１」には初期関連文書がないため、ステップ３１６に移行し、「文書１」の後続関連文書「２」「３」を関連文書とする（ステップ３１６）。関連文書から入力文書ＩＤの『２』を削除し、また保存されていた初期関連文書のＩＤの『１』を追加したものを最終的な関連文書とみなす（ステップ３１７）。このようにして、「文書２」の関連文書として「１」「３」が得られる。
【００７６】
次に、第２の検索方法の例を示す。
【００７７】
入力部１において、『防衛庁の個人情報リスト問題』という語句が入力された場合、図１０に示すフローチャートに基づき以下のように関連文書の検索を行う。
【００７８】
まず、話題抽出部４において話題抽出が行われ、『防衛庁の個人情報リスト問題』が話題となる（ステップ３２１）。次に、関連文書検出部５で関連文書が検出される。『防衛庁の個人情報リスト問題』と「文書１」〜「文書４」との類似度は、それぞれ０．６５３，０．６７４，０．９１３，そして、０．２９３となり、閾値０．５を越える「文書１」〜「文書３」の中で最も古い記事の「文書１」が初期関連文書となり得る（ステップ３２２）。そして、文書ＩＤの『１』を保存する（ステップ３２３）。
【００７９】
「文書１」に初期関連記事があるか調べられるが、「文書１」に初期関連文書はないためステップ３２７に移行する（ステップ３２４）。「文書１」の後続関連文書「２」、「３」を関連文書とし（ステップ３２７）、さらに、「初期関連文書１」を追加し、最終的に『防衛庁の個人情報リスト問題』の関連文書として「文書１」「文書２」、「文書３」が得られる（ステップ３２８）。
【００８０】
出力部６では、『防衛庁の個人情報リスト問題』の関連文書として「文書１」〜「文書３」の情報を提示する。このとき、図１４のように、文書全文へのハイパーリンク付のヘッドラインを提示することにより、本発明のユーザは検索された関連文書を詳細に見る必要があるかどうかを判断でき、効率的に検索を行うこいとが可能となる。検索結果を提示する順番は、報道日順または、関連度順などで決めることができる。
【００８１】
なお、前述の図４、図８、図９、図１０に示すフローチャートをプログラムとして構築し、文書検索装置として利用されるコンピュータにインスートールする、または、ネットワークを介して流通させることが可能である。
【００８２】
また、構築されたプログラムを文書検索装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることも可能である。
【００８３】
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【００８４】
【発明の効果】
上述のように、本発明によれば、文書から話題を抽出し、話題に基づいて同じ問題・事件に関する一連の文書を検索することができる。
【００８５】
また、話題抽出と同時にその文書で新たに伝えようとしている新情報を抽出し、話題と新情報からその文書のヘッドラインを生成することができる。関連文書の検索結果としてユーザにヘッドラインを提示することができるため、ユーザはヘッドラインから所望の文書を効率的に見つけることができる。
【図面の簡単な説明】
【図１】本発明の原理を説明するための図である。
【図２】本発明の原理構成図である。
【図３】本発明の一実施の形態における関連文書検索装置の構成図である。
【図４】本発明の一実施の形態における話題抽出部の処理のフローチャートである。
【図５】本発明の一実施の形態におけるテンプレート記憶部の非話題テンプレートの例である。
【図６】本発明の一実施の形態におけるテンプレート記憶部の話題テンプレートの例である。
【図７】本発明の一実施の形態におけるテンプレート記憶部の後編集テンプレートの例である。
【図８】本発明の一実施の形態における関連文書検出部のフローチャートである。
【図９】本発明の一実施の形態における関連文書検索部のフローチャートである。
【図１０】本発明の一実施の形態における関連文書検索部のフローチャートである。
【図１１】本発明の一実施例の文書格納部に格納されている文書情報の例である。
【図１２】本発明の一実施例の図１１の文書１と記事２の関連度を説明するための図である。
【図１３】本発明の一実施例の図１１の記事１と記事３の関連度を説明するための図である。
【図１４】本発明の一実施例の検索結果画面例である。
【符号の説明】
１　入力手段、入力部
２　文書格納手段、文書格納部
３　関連文書検索手段、関連文書検索部
４　話題抽出手段、話題抽出部
５　関連文書検出手段、関連文書検出部
６　出力手段、出力部
７　テンプレート記憶部

Claims

文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索方法において、
文書格納手段に格納されている文書から話題抽出用パターンを用いて、話題や当該文書で新たに伝えようとする新情報を抽出し、該文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録し、
前記文書の話題の類似性に基づいて、前記文書格納手段の処理対象文書と該文書格納手段の他の文書の話題同士の関連度を計算し、
計算された前記関連度が予め決められた閾値より大きい文書を関連文書とし、
ユーザから入力された文書ＩＤに基づいて、該文書ＩＤに対応する関連文書を前記文書格納手段から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を該文書格納手段から検索することを特徴とする文書検索方法。
前記話題、前記新情報を抽出する際に、
予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと前記文書格納手段に格納されている文書の１文とをマッチングさせ、マッチしなくなるまで繰り返し、
前記非話題テンプレートとマッチしなくなったら、話題抽出の対象となる文を抽出するための話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しない請求項１記載の文書検索方法。
前記話題同士の関連度を計算する際に、
前記話題の自立語の共有単語数の割合に基づいて前記関連度を求め、
前記関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とし、
前記関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のＩＤを該処理中の文書の初期関連文書として前記文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のＩＤを該文書格納手段に登録する請求項１記載の文書検索方法。
前記ユーザから関連文書検索要求として、文書ＩＤが入力された場合には、
前記文書ＩＤを保存し、
前記文書格納手段から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書ＩＤを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書ＩＤを削除し、保存されていた該初期関連文書の文書ＩＤを追加して最終的な関連文書とする請求項１記載の文書検索方法。
前記ユーザから関連文書検索要求として、検索語句が入力された場合には、
前記検索語句から話題を抽出し、
前記話題に基づいて、前記文書格納手段から初期関連文書を検索し、初期関連文書がある場合には、該初期関連文書の文書ＩＤを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書ＩＤを削除し、保存されていた該初期関連文書の文書ＩＤを追加して最終的な関連文書とする請求項１記載の文書検索方法。
文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索装置であって、
ユーザによる入力を受け付ける入力手段と、
文書を格納する文書格納手段と、
文書格納手段に格納されている文書から話題抽出用パターンを用いて、話題や、当該文書で新たに伝えようとする新情報を抽出し、該文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録する話題抽出手段と、
前記文書の話題の類似性に基づいて、前記文書格納手段の処理対象文書と該文書格納手段の他の文書の話題同士の関連度を計算し、計算された前記関連度が予め決められた閾値より大きい文書を関連文書する関連文書検出手段と、
ユーザから入力された文書ＩＤに基づいて、該文書ＩＤに対応する関連文書を前記文書格納手段から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を該文書格納手段から検索する関連文書検索手段と、
前記関連文書検索手段で取得した前記関連文書を出力する出力手段と、を有することを特徴とする文書検索装置。
前記話題抽出手段は、
前記話題抽出用パターンとしての、予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと、話題抽出の対象となる文を抽出するための話題テンプレートと、
前記非話題テンプレートと前記文書格納手段に格納されている文書の１文とをマッチングさせ、マッチしなくなるまで繰り返し、該非話題テンプレートとマッチしなくなったら、前記話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しない手段と、を有する請求項６記載の文書検索装置。
前記関連文書検出手段は、
前記話題の自立語の共有単語数の割合に基づいて前記関連度を求める手段と、
前記関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とする手段と、
前記関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のＩＤを該処理中の文書の初期関連文書として前記文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のＩＤを該文書格納手段に登録する手段と、を有する請求項６記載の文書検索装置。
前記関連文書検索手段は、
前記入力手段から前記ユーザから関連文書検索要求として、文書ＩＤが入力された場合には、前記文書ＩＤを保存し、前記文書格納手段から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書ＩＤを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書ＩＤを削除し、保存されていた該初期関連文書の文書ＩＤを追加して最終的な関連文書とする手段を有する請求項６記載の文書検索装置。
前記関連文書検索手段は、
前記ユーザから関連文書検索要求として、検索語句が入力された場合には、該検索語句を前記話題抽出手段に渡し、話題を取得する手段と、
前記話題を前記関連文書検出手段に渡し、初期関連文書を取得する手段と、
初期関連文書が取得できた場合には、該初期関連文書の文書ＩＤを保存し、該文書格納手段から該初期関連文書の情報を取得し、取得できない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書ＩＤを削除し、保存されていた該初期関連文書の文書ＩＤを追加して最終的な関連文書とする手段と、を有する請求項６記載の文書検索装置。
コンピュータのＣＰＵ上で実行される、文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索プログラムであって、
文書格納手段に格納されている文書から話題や、当該文書で新たに伝えようとする新情報を抽出し、該文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録する話題抽出ステップと、
前記文書の話題の類似性に基づいて、前記文書格納手段の処理対象文書と該文書格納手段の他の文書の話題同士の関連度を計算し、計算された前記関連度が予め決められた閾値より大きい文書を関連文書とする関連文書検出ステップと、
ユーザから入力された文書ＩＤに基づいて、該文書ＩＤに対応する関連文書を前記文書格納手段から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を該文書格納手段から検索する関連文書検索ステップと、からなることを特徴とする文書検索プログラム。
前記話題抽出ステップは、
予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと前記文書格納手段に格納されている文書の１文とをマッチングさせ、マッチしなくなるまで繰り返すステップと、
前記非話題テンプレートとマッチしなくなったら、話題抽出の対象となる文を抽出するための話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しないステップと、を有する請求項１１記載の文書検索プログラム。
前記関連文書検出ステップは、
前記話題の自立語の共有単語数の割合に基づいて前記関連度を求めるステップと、
前記関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とするステップと、
前記関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のＩＤを該処理中の文書の初期関連文書として前記文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のＩＤを該文書格納手段に登録するステップと、を有する請求項１１記載の文書検索プログラム。
前記関連文書検索ステップは、
前記ユーザから関連文書検索要求として、文書ＩＤが入力された場合には、
前記文書ＩＤを保存するステップと、
前記文書格納手段から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書ＩＤを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書ＩＤを削除し、保存されていた該初期関連文書の文書ＩＤを追加して最終的な関連文書とするステップと、を有する請求項１１記載の文書検索プログラム。
前記関連文書検索ステップは、
前記ユーザから関連文書検索要求として、検索語句が入力された場合には、
前記検索語句から話題を抽出するステップと、
前記話題に基づいて、前記文書格納手段から初期関連文書を検索し、初期関連文書がある場合には、該初期関連文書の文書ＩＤを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書ＩＤを削除し、保存されていた該初期関連文書の文書ＩＤを追加して最終的な関連文書とするステップと、を有する請求項１１記載の文書検索プログラム。