JP2004145753A - 文書検索方法及び装置及び文書検索プログラム - Google Patents
文書検索方法及び装置及び文書検索プログラム Download PDFInfo
- Publication number
- JP2004145753A JP2004145753A JP2002311698A JP2002311698A JP2004145753A JP 2004145753 A JP2004145753 A JP 2004145753A JP 2002311698 A JP2002311698 A JP 2002311698A JP 2002311698 A JP2002311698 A JP 2002311698A JP 2004145753 A JP2004145753 A JP 2004145753A
- Authority
- JP
- Japan
- Prior art keywords
- document
- topic
- search
- related document
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ある文書と同じ問題・事件などを扱う一連の文書を検索する際に、その文書がどのような問題・事件に関する文書なのかを記述している文書を抽出し、話題の類似性に基づいて関連文書を検索する。
【解決手段】本発明は、文書格納手段に格納されている文書から話題抽出用パターンを用いて話題や新情報を抽出し、文書のヘッドラインを生成し、各文書毎付与して文書格納手段に登録し、話題の類似性に基づいて、文書格納手段の処理対象文書と文書格納手段の他の文書の話題同士の関連度を計算し、関連度が閾値より大きい文書を関連文書とし、入力された文書IDまたは、検索語句に基づいて、話題抽出を行い、話題に基づいて関連文書を文書格納手段から検索する。
【選択図】 図1
【解決手段】本発明は、文書格納手段に格納されている文書から話題抽出用パターンを用いて話題や新情報を抽出し、文書のヘッドラインを生成し、各文書毎付与して文書格納手段に登録し、話題の類似性に基づいて、文書格納手段の処理対象文書と文書格納手段の他の文書の話題同士の関連度を計算し、関連度が閾値より大きい文書を関連文書とし、入力された文書IDまたは、検索語句に基づいて、話題抽出を行い、話題に基づいて関連文書を文書格納手段から検索する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、文書検索方法及び装置及び文書検索プログラムに係り、特に、ユーザが指定する文書と同じ問題・事件に関する一連の文書を文書群から検索する文書検索方法及び装置及び文書検索プログラムに関する。
【0002】
【従来の技術】
あるテキストに対する類似文書を検索する方法としては、文書中の単語を用いて文書を多次元空間のベクトルで表現し、多次元空間での2つのベクトルの距離が近いほど、それぞれのベクトルが代表している文書が類似していると判断して、類似度順に検索結果を提示する方法がある(例えば、特許文献1)。
【0003】
この方法は、予め指定された複数のフィールドそれぞれに適当な要素もしくは、データ項目を入力し、指定された一つのフィールドの値となりうる要素全てについて、ある超空間の座標を割り当てた概念ベースを参照しながら、入力であるデータ項目群に現れるすべてのフィールド名とその値となりうる要素との対に対応する超空間の座標を計算し、すべてのフィールド名−要素の対の座標を蓄積した概念空間を出力し、概念空間を参照することで、入力項目指定で指定されたフィールド名を持つものを、その座標との類似度に基づいた順序で整列し、出力するものである。
【0004】
【特許文献1】
特願2000−156421号「情報検索方法及び装置及び情報検索プログラムを格納した記憶媒体」
【0005】
【発明が解決しようとする課題】
例えば、ニュース記事は新しい情報を視聴者に伝えるためのものであるから、その内容は新しい情報に焦点が置かれている。そのため、あるニュースとそれまでに報道されたニュースを比較すると、記事中に含まれる単語の分布は大きく変わることがある。
【0006】
しかしながら、上記従来の技術を用いて類似ニュース記事の検索を行うと、例えば、ニュースという文書がどのような問題・事件に関する話題であるかを抽出していないため、対象のニュース記事と検索されたニュース記事との類似度が低くなり、検索結果に対する信頼度が低くなったり、検索結果に不適当な記事が含まれてしまうという問題がある。つまり、従来の方法では、話題同士の類似度は考慮されていないため、類似度が高い文書を検索することができないという問題がある。
【0007】
本発明は、上記の点に鑑みなされたもので、ある文書と同じ問題・事件などを扱う一連の文書を検索する際に、その文書がどのような問題・事件に関する文書なのかを記述している文書を抽出し、話題の類似性に基づいて関連文書を検索することが可能な文書検索方法及び装置及び文書検索プログラムを提供することを目的とする。
【0008】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0009】
本発明は、文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索方法において、
文書格納手段に格納されている文書から話題抽出用パターンを用いて、話題や、当該文書で新たに伝えようとする新情報を抽出し(ステップ1)、文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録し(ステップ2)、
文書の話題の類似性に基づいて、文書格納手段の処理対象文書と該文書格納手段の他の文書の話題同士の関連度を計算し(ステップ3)、
計算された関連度が予め決められた閾値より大きい文書を関連文書とし(ステップ4)、
ユーザから入力された文書IDに基づいて、該文書IDに対応する関連文書を文書格納手段から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を該文書格納手段から検索する(ステップ5)。
【0010】
また、本発明の文書検索方法は、話題及び、新情報を抽出する際に、
予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと文書格納手段に格納されている文書の1文とをマッチングさせ、マッチしなくなるまで繰り返し、
非話題テンプレートとマッチしなくなったら、話題抽出の対象となる文を抽出するための話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しない。
【0011】
また、本発明の文書検索方法は、話題同士の関連度を計算する際に、
話題の自立語の共有単語数の割合に基づいて関連度を求め、
関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とし、
関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のIDを該処理中の文書の初期関連文書として文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のIDを該文書格納手段に登録する。
【0012】
また、本発明の文書検索方法は、ユーザから関連文書検索要求として、文書IDが入力された場合には、
文書IDを保存し、
文書格納手段から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とする。
【0013】
また、本発明の文書検索方法は、ユーザから関連文書検索要求として、検索語句が入力された場合には、
検索語句から話題を抽出し、
話題に基づいて、文書格納手段から初期関連文書を検索し、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とする。
【0014】
図2は、本発明の原理構成図である。
【0015】
本発明は、文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索装置であって、
ユーザによる入力を受け付ける入力手段1と、
文書を格納する文書格納手段2と、
文書格納手段2に格納されている文書から話題抽出用パターンを用いて、話題や、当該文書で新たに伝えようとする新情報を抽出し、文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録する話題抽出手段4と、
文書の話題の類似性に基づいて、文書格納手段2の処理対象文書と文書格納手段2の他の文書の話題同士の関連度を計算し、計算された関連度が予め決められた閾値より大きい文書を関連文書する関連文書検出手段5と、
ユーザから入力された文書IDに基づいて、該文書IDに対応する関連文書を文書格納手段2から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を文書格納手段2から検索する関連文書検索手段3と、
関連文書検索手段3で取得した関連文書を出力する出力手段6と、を有する。
また、上記の話題抽出手段4は、
話題抽出用パターンとしての、予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと、話題抽出の対象となる文を抽出するための話題テンプレートと、
非話題テンプレートと文書格納手段2に格納されている文書の1文とをマッチングさせ、マッチしなくなるまで繰り返し、該非話題テンプレートとマッチしなくなったら、話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しない手段と、を有する。
【0016】
また、上記の関連文書検出手段5は、
話題の自立語の共有単語数の割合に基づいて関連度を求める手段と、
関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とする手段と、
関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のIDを該処理中の文書の初期関連文書として文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のIDを文書格納手段2に登録する手段と、を有する。
【0017】
また、上記の関連文書検索手段3は、
入力手段1からユーザから関連文書検索要求として、文書IDが入力された場合には、文書IDを保存し、文書格納手段2から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とする手段を有する。
【0018】
また、上記の関連文書検索手段3は、
ユーザから関連文書検索要求として、検索語句が入力された場合には、該検索語句を話題抽出手段に渡し、話題を取得する手段と、
話題を関連文書検出手段5に渡し、初期関連文書を取得する手段と、
初期関連文書が取得できた場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、取得できない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とする手段と、を有する。
【0019】
本発明は、コンピュータのCPU上で実行される、文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索プログラムであって、
文書格納手段に格納されている文書から話題や、当該文書で新たに伝えようとする新情報を抽出し、文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録する話題抽出ステップと、
文書の話題の類似性に基づいて、文書格納手段の処理対象文書と該文書格納手段の他の文書の話題同士の関連度を計算し、計算された関連度が予め決められた閾値より大きい文書を関連文書とする関連文書検出ステップと、
ユーザから入力された文書IDに基づいて、該文書IDに対応する関連文書を文書格納手段から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を該文書格納手段から検索する関連文書検索ステップと、からなる。
【0020】
また、上記の話題抽出ステップは、
予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと文書格納手段に格納されている文書の1文とをマッチングさせ、マッチしなくなるまで繰り返すステップと、
非話題テンプレートとマッチしなくなったら、話題抽出の対象となる文を抽出するための話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しないステップと、を有する。
【0021】
また、上記の関連文書検出ステップは、
話題の自立語の共有単語数の割合に基づいて関連度を求めるステップと、
関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とするステップと、
関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のIDを該処理中の文書の初期関連文書として文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のIDを該文書格納手段に登録するステップと、を有する。
【0022】
また、上記の関連文書検索ステップは、
ユーザから関連文書検索要求として、文書IDが入力された場合には、
文書IDを保存するステップと、
文書格納手段から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とするステップと、を有する。
【0023】
また、上記の関連文書検索ステップは、
ユーザから関連文書検索要求として、検索語句が入力された場合には、
検索語句から話題を抽出するステップと、
話題に基づいて、文書格納手段から初期関連文書を検索し、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とするステップと、を有する。
【0024】
上記のように、予め用意された話題抽出用パターンとマッチングを行うことによって文書から話題を抽出し、各文書から抽出された話題に基づいて文書間の関連度を計算して関連度がある閾値よりも高い文書同士を関連文書と判断することが可能となる。
【0025】
また、文書から話題を抽出する段階において、予め用意されたパターンに基づいて、その文書で新たに伝えようとしている新情報を抽出することが可能となる。
【0026】
さらに、文書から話題を抽出する段階において、予め用意されたパターンにもとづいて、抽出された話題と新情報からその文書のヘッドラインを生成することが可能となる。
【0027】
例えば、ニュースの続報では短時間のうちに視聴者がわかりやすく内容を伝達する必要があるため、ニュースの冒頭においてそのニュースが何の問題に関するニュースかを伝え、それから新たにわかった事実などを伝えるという特徴がある。そのため、予め用意したパターンを用いて話題を高精度に抽出し、話題同士の類似度を計算することにより、類似度が高い文書同士を関連文書であると判断することができる。
【0028】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態について説明する。
【0029】
図3は、本発明の一実施の形態における関連文書検索装置の構成を示す。
【0030】
同図に示す関連文書検索装置は、関連文書の検索を行うユーザが文書IDまたは、文書を入力する入力部1、文書を格納する文書格納部2、文書格納部2に蓄積された文書から関連文書を検索する関連文書検索部3、文書から話題を抽出する話題抽出部4、文書の話題に基づいて2つの文書が関連しているかを判断する関連文書検出部5、非話題テンプレート、話題テンプレート及び後編集テンプレートを記憶するテンプレート記憶部7及び検索結果を出力する出力部6から構成される。
【0031】
上記の文書格納部2、テンプレート記憶部7は、ハードディスク装置等のハードウェアで実現される。また、関連文書検索部3、話題抽出部4、関連文書検出部5は、コンピュータのCPU等の制御手段で実現される。また、入力部1は、キーボードやマウス等のハードウェアで実現され、出力部2は、ディスプレイ装置等のハードウェアで実現される。
【0032】
次に、上記の構成における動作を説明する。
【0033】
まず、文書間の関連性は、ユーザが検索を行う前に予め調べておくものとする。
【0034】
話題抽出部4では、文書格納部2に格納されている文書から話題及び、新情報を抽出し、ヘッドラインを生成して文書格納部2の各文書にこれらの情報を付与する。文書からの話題及び、新情報の抽出とヘッドラインの生成は以下のように行う。
【0035】
図4は、本発明の一実施の形態における話題抽出部の処理のフローチャートである。
【0036】
以下では、話題抽出用パターンとして非話題テンプレート、話題テンプレート及び後編集テンプレートを用いる。
【0037】
図5は、本発明の一実施の形態における非話題テンプレートの例を示しており、当該非話題テンプレートはパターンID及びパターンから構成される。図6は、本発明の一実施の形態における話題テンプレートの例を示し、当該話題テンプレートは、パターンID、パターン、話題、新情報、ヘッドラインから構成される。図7は、本発明の一実施の形態における後編集テンプレートの例を示し、当該後編集テンプレートは、パターンIDとパターン及び編集結果から構成される。
【0038】
まず、文書の先頭部分にある話題抽出の対象となりえない文を非話題テンプレートを用いて読み飛ばす。
【0039】
文書格納部2の文書の先頭から1文を取り出し(ステップ41)、図5に示すよううな非話題テンプレートとマッチングを行う。処理中の文が非話題テンプレートにマッチした場合には(ステップ42,Yes)、ステップ41に移行して文書から次の文を取得する。そして、処理対象の文が非話題テンプレートにマッチしなくなるまでステップ41、42の処理を繰り返す。
【0040】
次に、話題抽出部4は、図6に示すような話題テンプレートとマッチングを行う。テンプレートにマッチした場合には(ステップ43、Yes)、話題・新情報をテンプレートに基づいて設定する(ステップ44)。テンプレートルールとマッチしない場合には(ステップ43,No)、処理中の文を話題とし、新情報は設定されない(ステップ45)。話題・新情報に基づいてヘッドラインが作成される。話題テンプレートにマッチしなかった場合には、話題がヘッドラインとなる(ステップ46)。その後、図7に示す後編集テンプレートを用いて話題・新情報、ヘッドラインから不要な語を削除するなどの後編集を行う(ステップ47)。以上の話題・新情報抽出処理、及びヘッドライン作成処理を文書格納部2内の全文書に対して行う。
【0041】
次に、文書の話題の類似性に基づいて、文書格納部2内の各文書について関連文書を検出する。関連文書の検出は、関連文書検出部5で行う。
【0042】
図8は、本発明の一実施の形態における関連文書検出部の処理手順を示し、当該処理は、文書格納部2内の全文書に対して行われる。
【0043】
まず、処理対象の文書と文書格納部2中のその他の文書の話題同士の関連度(類似度)を計算する(ステップ51)。類似度の計算方法には、例えば、自立語の共有単語数の割合に基づく方法があり、2つの文書A,Bの自立語数をNa,Nb、文書記事A,Bに共通する自立語数をNとすると、類似度は2N/(Na+Nb)と定義できる。他には、概念ベース(熊本,島田,加藤:“概念ベースの情報検索への適用/概念ベースを用いた検索の特性評価”,情処学研報,99−ICS−115,知能と複雑系,1999)のように、単語を多次元ベクトルで表現し、話題に出現する単語のベクトルの総和を話題のベクトル表現とし、2つのベクトルのなす角を類似度とする方法も利用できる。また、話題中の単語の出現順序を考慮することができる類似度計算手法(特開2001−243245)を利用することもできる。この方法は、全ての単語対応がスコアに寄与しているため、語順の異なりがある場合でも一致する単語が多いほど文マッチングスコアを大きくする方法である。
【0044】
次に、処理対象の文書との関連度が予め決められた閾値よりも大きい文書があるかを調べる(ステップ52)。関連度が閾値を越える文書がない場合には(ステップ52,No)、処理中の文書には関連文書がないと見做される。一方、関連度が閾値を越える文書は関連文書とみなし(ステップ52,Yes)、処理中の文書と関連文書が発表または、報道された日付の比較が行われる(ステップ53)。関連文書中に処理中の文書以前の文書があれば(ステップ53,Yes)、その文書のIDを処理中の文書の初期関連文書として、文書格納部2内の当該処理中の文書に登録(付与)する(ステップ54)が、無い場合には(ステップ53,No)、処理中の文書の後続関連文書として、関連文書のIDを文書格納部2内の処理中の文書に登録(付与)する(ステップ55)。以上のような処理を文書格納部2の全文書に対して行い、各文書の関連文書を検出する。
【0045】
以上のようにして作成された文書間の関連性に基づき、関連文書検索部3が関連文書の検索を行う。
【0046】
最初に、ユーザが入力部1に文書ID(入力文書ID)を入力した場合について説明する。
【0047】
図9は、本発明の一実施の形態における関連文書検索部の処理のフローチャート(その1)である。
【0048】
入力部1に文書ID(入力文書ID)が入力されると、関連文書検索部3は、入力文書IDに関連する文書を文書格納部2から検索する。
【0049】
まず、入力文書IDを保存する(ステップ311)。次に、関連文書検索部3は、文書格納部2から対象となっている文書に関する情報を取得する(ステップ312)。対象文書に初期関連文書があるか調べられる。初期関連文書がある場合には(ステップ313,Yes)、その初期関連文書IDを保存し(ステップ314)、文書格納部2から初期関連文書の情報を取得し(ステップ315)、ステップ313に移行し、初期関連文書を処理対象とする。
【0050】
初期関連文書がない場合には(ステップ313,No)、対象記事の後続関連文書を関連文書とする(ステップ316)。関連文書から入力入力文書IDを削除し、保存されていた初期関連文書IDを追加したものが最終的な関連文書となる(ステップ317)。
【0051】
次に、ユーザが入力部1に文書IDではなく、検索語句を入力した場合について説明する。
【0052】
図10は、本発明の一実施の形態における関連文書検索部の処理のフローチャート(その2)である。なお、検索語句は記事、文、フレーズ等どんな単位でもよい。
【0053】
まず、関連文書検索部3は、話題検出部4に検索語句を送り、検索語句から話題を抽出する(ステップ321)。関連文書検出部5に話題を送り、初期関連文書を取得する(ステップ322)。なお、関連文書検出部5では、文書が発表、または、報道された日付の比較が行われるが、検索語句については検索語句の入力が行われた日付で比較が行われる。以下ステップ323以降の処理は、前述の図9のフローチャートのステップ313以降と同様に処理され、関連文書が得られる。
【0054】
関連文書検索部2では、以上のようにして関連文書を検索し、関連文書の情報を出力部6に送り、ユーザに関連文書を提示する。
【0055】
【実施例】
以下、図面と共に本発明の一実施例を説明する。
【0056】
本実施例では、文書格納部2に図11のようなテレビニュース音声を書き起こした文書が格納されている場合の具体例を示す。図11に示す文書格納部2には、文書ID毎に、報道日時、文書、話題、新情報、ヘドライン、初期関連文書ID、後続関連文書ID等が格納される。このうち、話題、新情報、ヘッドライン、初期関連文書ID、後続関連文書IDは、処理を行うことにより設定される項目である。
【0057】
まず、ユーザが検索を行う前に事前に話題抽出部4において話題抽出が行われる。ここでは、「文書1」の話題抽出処理について説明する。
【0058】
以下では、前述の図4、図8、図9、図10の各フローチャートに沿って説明する。
【0059】
文書の第1文『こんばんは。』を取得し(ステップ41)、図5の非話題テンプレートとマッチングが行われる(ステップ42)。『こんばんは。』は、非話題テンプレート1にマッチしているので、再びステップ41が実行される。同様に第2文『5月28日…』も非話題テンプレート3にマッチするので、再度ステップ41に戻る。次の第3文『防衛庁に情報公開…』は、非話題テンプレートにマッチしないので、ステップ43に移行する。
【0060】
第3文『防衛庁に情報公開…わかりました』と図6の話題テンプレートのマッチングが行われる(ステップ43)。第3文は話題テンプレートにマッチしないので、第3文が「文書1」の話題となる(ステップ45)。次に、第3文は話題テンプレートにマッチしなかったので、第3文がそのまま「文書1」のヘッドラインとなる(ステップ46)。次に、図7の後編集テンプレートに基づいて不要語句の削除などが行われ、最終的な話題、ヘッドラインは共に、『防衛庁に情報公開請求した人のリストが防衛庁の情報公開の担当者によって作られていた』となる(ステップ47)。
【0061】
これにより、「文書1」では、話題、新情報、ヘッドラインはそれぞれ次のようになる。
『話題:防衛庁に情報公開請求した人の個人情報リストが防衛庁の情報公開の担当者によって作られていた
新情報:なし
ヘッドライン:防衛庁に情報公開請求した人の個人情報リストが防衛庁の情報公開の担当者によって作られていたことがわかった』
また、「文書2」についても上記と同様に話題抽出が行われる。「文書2」の場合は、第1文が話題テンプレート1にマッチする(ステップ43)。そのため話題、新情報、ヘッドラインはそれぞれ次のようになる(図12)。
『話題:防衛庁に情報公開を請求した人の個人情報リストが作られていた問題
新情報:中谷防衛庁長官は、衆議院の特別委員会で徹底した調査を行いたいという考えを示した
ヘッドライン:防衛庁に情報公開を請求した人の個人情報リストが作られていた問題で、中谷防衛庁長官は、衆議院の特別委員会で徹底した調査を行いたいという考えを示した』
以上のような話題抽出処理が文書格納部2に格納されている全文書に対して行われる。
【0062】
次に、関連文書検出部4で各文書に関連する文書が検出される。ここでは、関連度(類似度)計算方法として、話題中の自立語から単語ベクトルを作成し、単語ベクトルのなす角のコサインを関連度(類似度)とする方法を用いる。なお、関連文書と判断する関連度の閾値は0.5とし、関連度が0.5以上となる文書同士を関連文書とみなす。
【0063】
「文書1」の関連文書検出処理は図8のフローチャートに基づき、次のように行われる。
【0064】
まず、関連文書検索部5において、「文書1」と文書格納部2中のその他の文書の関連度が計算される(ステップ51)。例えば、「文書1」と「文書2」の関連度は図12のように計算され、関連度は0.968となる。また、「文書1」と「文書3」の類似度は図13のように計算され、関連度は0.583となる。同様にして「記事4」との関連度は0.218となる。
【0065】
次に、関連度が閾値を越える文書があるかを調べる(ステップ52)。ここでは、閾値は0.5に設定されているため、関連度が閾値を越えるのは「文書2」と「文書3」のみである。閾値を越える関連度の文書があるため、ステップ53に移行する。「文書1」と「文書2」、「文書3」が報道された日付の比較が行われ、「文書2」、「文書3」は、「文書1」よりも新しい文書のため、ステップ55に移行し、図11のように「文書1」の後続関連文書として「文書2」、「文書3」の文書IDを文書格納部2に登録する。
【0066】
「文書2」については、次のように関連文書が検出される。
【0067】
前述の「文書1」の場合と同様に、ステップ51で他文書との関連度を計算すると、関連度が閾値を越えるのは、「文書1」と「文書3」で、それぞれ関連度は、0.968、0.615である。「文書2」と「文書1」、「文書3」の日付の比較が行われるが(ステップ53)、「文書1」は、「記事2」以前の文書であるため、「文書2」の初期関連文書として「文書1」の文書IDが文書格納部2に登録される(ステップ54)。
【0068】
「文書3」についても、同様に関連文書検出が行われ、「文書3」の初期関連文書として「文書1」の文書IDが文書格納部2に登録される。一方、「文書4」については、「文書1」、「文書2」、「文書3」との関連度はそれぞれ0.228、0.263、0.267となり、閾値0.5を越える文書がないため、関連文書はないと判断される。
【0069】
以上のようにして各記事の関連文書の検出が行われる。
【0070】
次に、関連文書の検索について述べる。
【0071】
関連文書検索には2通りの方法があり、第1の方法では、ユーザには文書格納部2に格納されている文書の文書IDを入力し、その文書の関連文書を得る。第2の方法では、ユーザは検索語句(文書、文、フレーズ等)を入力し、検索語句に関連する文書を検索する。
【0072】
まず、第1の検索方法の例を示す。
【0073】
入力部1において文書IDが入力されると、文書IDで指定された文書に関連する文書の検索が行われる。例えば、文書IDに『2』が与えられた場合は、関連文書検索部2において図9のフローチャートに基づき以下のように関連文書の検索を行う。
【0074】
入力文書IDの『2』を保存する(ステップ311)。次に、「文書2」に初期関連文書があるか調べられる。初期関連文書がない場合にはステップ316に移行する。ここでは、「文書2」には初期関連文書として『1』が登録されているため、ステップ314に移行する。そして、初期関連文書IDの『1』を保存し(ステップ314)、「文書1」の情報を取得し(ステップ315)、ステップ313に移行する。
【0075】
「文書1」の初期関連文書があるか調べられるが(ステップ313)、「文書1」には初期関連文書がないため、ステップ316に移行し、「文書1」の後続関連文書「2」「3」を関連文書とする(ステップ316)。関連文書から入力文書IDの『2』を削除し、また保存されていた初期関連文書のIDの『1』を追加したものを最終的な関連文書とみなす(ステップ317)。このようにして、「文書2」の関連文書として「1」「3」が得られる。
【0076】
次に、第2の検索方法の例を示す。
【0077】
入力部1において、『防衛庁の個人情報リスト問題』という語句が入力された場合、図10に示すフローチャートに基づき以下のように関連文書の検索を行う。
【0078】
まず、話題抽出部4において話題抽出が行われ、『防衛庁の個人情報リスト問題』が話題となる(ステップ321)。次に、関連文書検出部5で関連文書が検出される。『防衛庁の個人情報リスト問題』と「文書1」〜「文書4」との類似度は、それぞれ0.653,0.674,0.913,そして、0.293となり、閾値0.5を越える「文書1」〜「文書3」の中で最も古い記事の「文書1」が初期関連文書となり得る(ステップ322)。そして、文書IDの『1』を保存する(ステップ323)。
【0079】
「文書1」に初期関連記事があるか調べられるが、「文書1」に初期関連文書はないためステップ327に移行する(ステップ324)。「文書1」の後続関連文書「2」、「3」を関連文書とし(ステップ327)、さらに、「初期関連文書1」を追加し、最終的に『防衛庁の個人情報リスト問題』の関連文書として「文書1」「文書2」、「文書3」が得られる(ステップ328)。
【0080】
出力部6では、『防衛庁の個人情報リスト問題』の関連文書として「文書1」〜「文書3」の情報を提示する。このとき、図14のように、文書全文へのハイパーリンク付のヘッドラインを提示することにより、本発明のユーザは検索された関連文書を詳細に見る必要があるかどうかを判断でき、効率的に検索を行うこいとが可能となる。検索結果を提示する順番は、報道日順または、関連度順などで決めることができる。
【0081】
なお、前述の図4、図8、図9、図10に示すフローチャートをプログラムとして構築し、文書検索装置として利用されるコンピュータにインスートールする、または、ネットワークを介して流通させることが可能である。
【0082】
また、構築されたプログラムを文書検索装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることも可能である。
【0083】
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0084】
【発明の効果】
上述のように、本発明によれば、文書から話題を抽出し、話題に基づいて同じ問題・事件に関する一連の文書を検索することができる。
【0085】
また、話題抽出と同時にその文書で新たに伝えようとしている新情報を抽出し、話題と新情報からその文書のヘッドラインを生成することができる。関連文書の検索結果としてユーザにヘッドラインを提示することができるため、ユーザはヘッドラインから所望の文書を効率的に見つけることができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における関連文書検索装置の構成図である。
【図4】本発明の一実施の形態における話題抽出部の処理のフローチャートである。
【図5】本発明の一実施の形態におけるテンプレート記憶部の非話題テンプレートの例である。
【図6】本発明の一実施の形態におけるテンプレート記憶部の話題テンプレートの例である。
【図7】本発明の一実施の形態におけるテンプレート記憶部の後編集テンプレートの例である。
【図8】本発明の一実施の形態における関連文書検出部のフローチャートである。
【図9】本発明の一実施の形態における関連文書検索部のフローチャートである。
【図10】本発明の一実施の形態における関連文書検索部のフローチャートである。
【図11】本発明の一実施例の文書格納部に格納されている文書情報の例である。
【図12】本発明の一実施例の図11の文書1と記事2の関連度を説明するための図である。
【図13】本発明の一実施例の図11の記事1と記事3の関連度を説明するための図である。
【図14】本発明の一実施例の検索結果画面例である。
【符号の説明】
1 入力手段、入力部
2 文書格納手段、文書格納部
3 関連文書検索手段、関連文書検索部
4 話題抽出手段、話題抽出部
5 関連文書検出手段、関連文書検出部
6 出力手段、出力部
7 テンプレート記憶部
【発明の属する技術分野】
本発明は、文書検索方法及び装置及び文書検索プログラムに係り、特に、ユーザが指定する文書と同じ問題・事件に関する一連の文書を文書群から検索する文書検索方法及び装置及び文書検索プログラムに関する。
【0002】
【従来の技術】
あるテキストに対する類似文書を検索する方法としては、文書中の単語を用いて文書を多次元空間のベクトルで表現し、多次元空間での2つのベクトルの距離が近いほど、それぞれのベクトルが代表している文書が類似していると判断して、類似度順に検索結果を提示する方法がある(例えば、特許文献1)。
【0003】
この方法は、予め指定された複数のフィールドそれぞれに適当な要素もしくは、データ項目を入力し、指定された一つのフィールドの値となりうる要素全てについて、ある超空間の座標を割り当てた概念ベースを参照しながら、入力であるデータ項目群に現れるすべてのフィールド名とその値となりうる要素との対に対応する超空間の座標を計算し、すべてのフィールド名−要素の対の座標を蓄積した概念空間を出力し、概念空間を参照することで、入力項目指定で指定されたフィールド名を持つものを、その座標との類似度に基づいた順序で整列し、出力するものである。
【0004】
【特許文献1】
特願2000−156421号「情報検索方法及び装置及び情報検索プログラムを格納した記憶媒体」
【0005】
【発明が解決しようとする課題】
例えば、ニュース記事は新しい情報を視聴者に伝えるためのものであるから、その内容は新しい情報に焦点が置かれている。そのため、あるニュースとそれまでに報道されたニュースを比較すると、記事中に含まれる単語の分布は大きく変わることがある。
【0006】
しかしながら、上記従来の技術を用いて類似ニュース記事の検索を行うと、例えば、ニュースという文書がどのような問題・事件に関する話題であるかを抽出していないため、対象のニュース記事と検索されたニュース記事との類似度が低くなり、検索結果に対する信頼度が低くなったり、検索結果に不適当な記事が含まれてしまうという問題がある。つまり、従来の方法では、話題同士の類似度は考慮されていないため、類似度が高い文書を検索することができないという問題がある。
【0007】
本発明は、上記の点に鑑みなされたもので、ある文書と同じ問題・事件などを扱う一連の文書を検索する際に、その文書がどのような問題・事件に関する文書なのかを記述している文書を抽出し、話題の類似性に基づいて関連文書を検索することが可能な文書検索方法及び装置及び文書検索プログラムを提供することを目的とする。
【0008】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0009】
本発明は、文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索方法において、
文書格納手段に格納されている文書から話題抽出用パターンを用いて、話題や、当該文書で新たに伝えようとする新情報を抽出し(ステップ1)、文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録し(ステップ2)、
文書の話題の類似性に基づいて、文書格納手段の処理対象文書と該文書格納手段の他の文書の話題同士の関連度を計算し(ステップ3)、
計算された関連度が予め決められた閾値より大きい文書を関連文書とし(ステップ4)、
ユーザから入力された文書IDに基づいて、該文書IDに対応する関連文書を文書格納手段から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を該文書格納手段から検索する(ステップ5)。
【0010】
また、本発明の文書検索方法は、話題及び、新情報を抽出する際に、
予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと文書格納手段に格納されている文書の1文とをマッチングさせ、マッチしなくなるまで繰り返し、
非話題テンプレートとマッチしなくなったら、話題抽出の対象となる文を抽出するための話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しない。
【0011】
また、本発明の文書検索方法は、話題同士の関連度を計算する際に、
話題の自立語の共有単語数の割合に基づいて関連度を求め、
関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とし、
関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のIDを該処理中の文書の初期関連文書として文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のIDを該文書格納手段に登録する。
【0012】
また、本発明の文書検索方法は、ユーザから関連文書検索要求として、文書IDが入力された場合には、
文書IDを保存し、
文書格納手段から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とする。
【0013】
また、本発明の文書検索方法は、ユーザから関連文書検索要求として、検索語句が入力された場合には、
検索語句から話題を抽出し、
話題に基づいて、文書格納手段から初期関連文書を検索し、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とする。
【0014】
図2は、本発明の原理構成図である。
【0015】
本発明は、文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索装置であって、
ユーザによる入力を受け付ける入力手段1と、
文書を格納する文書格納手段2と、
文書格納手段2に格納されている文書から話題抽出用パターンを用いて、話題や、当該文書で新たに伝えようとする新情報を抽出し、文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録する話題抽出手段4と、
文書の話題の類似性に基づいて、文書格納手段2の処理対象文書と文書格納手段2の他の文書の話題同士の関連度を計算し、計算された関連度が予め決められた閾値より大きい文書を関連文書する関連文書検出手段5と、
ユーザから入力された文書IDに基づいて、該文書IDに対応する関連文書を文書格納手段2から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を文書格納手段2から検索する関連文書検索手段3と、
関連文書検索手段3で取得した関連文書を出力する出力手段6と、を有する。
また、上記の話題抽出手段4は、
話題抽出用パターンとしての、予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと、話題抽出の対象となる文を抽出するための話題テンプレートと、
非話題テンプレートと文書格納手段2に格納されている文書の1文とをマッチングさせ、マッチしなくなるまで繰り返し、該非話題テンプレートとマッチしなくなったら、話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しない手段と、を有する。
【0016】
また、上記の関連文書検出手段5は、
話題の自立語の共有単語数の割合に基づいて関連度を求める手段と、
関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とする手段と、
関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のIDを該処理中の文書の初期関連文書として文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のIDを文書格納手段2に登録する手段と、を有する。
【0017】
また、上記の関連文書検索手段3は、
入力手段1からユーザから関連文書検索要求として、文書IDが入力された場合には、文書IDを保存し、文書格納手段2から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とする手段を有する。
【0018】
また、上記の関連文書検索手段3は、
ユーザから関連文書検索要求として、検索語句が入力された場合には、該検索語句を話題抽出手段に渡し、話題を取得する手段と、
話題を関連文書検出手段5に渡し、初期関連文書を取得する手段と、
初期関連文書が取得できた場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、取得できない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とする手段と、を有する。
【0019】
本発明は、コンピュータのCPU上で実行される、文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索プログラムであって、
文書格納手段に格納されている文書から話題や、当該文書で新たに伝えようとする新情報を抽出し、文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録する話題抽出ステップと、
文書の話題の類似性に基づいて、文書格納手段の処理対象文書と該文書格納手段の他の文書の話題同士の関連度を計算し、計算された関連度が予め決められた閾値より大きい文書を関連文書とする関連文書検出ステップと、
ユーザから入力された文書IDに基づいて、該文書IDに対応する関連文書を文書格納手段から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を該文書格納手段から検索する関連文書検索ステップと、からなる。
【0020】
また、上記の話題抽出ステップは、
予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと文書格納手段に格納されている文書の1文とをマッチングさせ、マッチしなくなるまで繰り返すステップと、
非話題テンプレートとマッチしなくなったら、話題抽出の対象となる文を抽出するための話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しないステップと、を有する。
【0021】
また、上記の関連文書検出ステップは、
話題の自立語の共有単語数の割合に基づいて関連度を求めるステップと、
関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とするステップと、
関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のIDを該処理中の文書の初期関連文書として文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のIDを該文書格納手段に登録するステップと、を有する。
【0022】
また、上記の関連文書検索ステップは、
ユーザから関連文書検索要求として、文書IDが入力された場合には、
文書IDを保存するステップと、
文書格納手段から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とするステップと、を有する。
【0023】
また、上記の関連文書検索ステップは、
ユーザから関連文書検索要求として、検索語句が入力された場合には、
検索語句から話題を抽出するステップと、
話題に基づいて、文書格納手段から初期関連文書を検索し、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とするステップと、を有する。
【0024】
上記のように、予め用意された話題抽出用パターンとマッチングを行うことによって文書から話題を抽出し、各文書から抽出された話題に基づいて文書間の関連度を計算して関連度がある閾値よりも高い文書同士を関連文書と判断することが可能となる。
【0025】
また、文書から話題を抽出する段階において、予め用意されたパターンに基づいて、その文書で新たに伝えようとしている新情報を抽出することが可能となる。
【0026】
さらに、文書から話題を抽出する段階において、予め用意されたパターンにもとづいて、抽出された話題と新情報からその文書のヘッドラインを生成することが可能となる。
【0027】
例えば、ニュースの続報では短時間のうちに視聴者がわかりやすく内容を伝達する必要があるため、ニュースの冒頭においてそのニュースが何の問題に関するニュースかを伝え、それから新たにわかった事実などを伝えるという特徴がある。そのため、予め用意したパターンを用いて話題を高精度に抽出し、話題同士の類似度を計算することにより、類似度が高い文書同士を関連文書であると判断することができる。
【0028】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態について説明する。
【0029】
図3は、本発明の一実施の形態における関連文書検索装置の構成を示す。
【0030】
同図に示す関連文書検索装置は、関連文書の検索を行うユーザが文書IDまたは、文書を入力する入力部1、文書を格納する文書格納部2、文書格納部2に蓄積された文書から関連文書を検索する関連文書検索部3、文書から話題を抽出する話題抽出部4、文書の話題に基づいて2つの文書が関連しているかを判断する関連文書検出部5、非話題テンプレート、話題テンプレート及び後編集テンプレートを記憶するテンプレート記憶部7及び検索結果を出力する出力部6から構成される。
【0031】
上記の文書格納部2、テンプレート記憶部7は、ハードディスク装置等のハードウェアで実現される。また、関連文書検索部3、話題抽出部4、関連文書検出部5は、コンピュータのCPU等の制御手段で実現される。また、入力部1は、キーボードやマウス等のハードウェアで実現され、出力部2は、ディスプレイ装置等のハードウェアで実現される。
【0032】
次に、上記の構成における動作を説明する。
【0033】
まず、文書間の関連性は、ユーザが検索を行う前に予め調べておくものとする。
【0034】
話題抽出部4では、文書格納部2に格納されている文書から話題及び、新情報を抽出し、ヘッドラインを生成して文書格納部2の各文書にこれらの情報を付与する。文書からの話題及び、新情報の抽出とヘッドラインの生成は以下のように行う。
【0035】
図4は、本発明の一実施の形態における話題抽出部の処理のフローチャートである。
【0036】
以下では、話題抽出用パターンとして非話題テンプレート、話題テンプレート及び後編集テンプレートを用いる。
【0037】
図5は、本発明の一実施の形態における非話題テンプレートの例を示しており、当該非話題テンプレートはパターンID及びパターンから構成される。図6は、本発明の一実施の形態における話題テンプレートの例を示し、当該話題テンプレートは、パターンID、パターン、話題、新情報、ヘッドラインから構成される。図7は、本発明の一実施の形態における後編集テンプレートの例を示し、当該後編集テンプレートは、パターンIDとパターン及び編集結果から構成される。
【0038】
まず、文書の先頭部分にある話題抽出の対象となりえない文を非話題テンプレートを用いて読み飛ばす。
【0039】
文書格納部2の文書の先頭から1文を取り出し(ステップ41)、図5に示すよううな非話題テンプレートとマッチングを行う。処理中の文が非話題テンプレートにマッチした場合には(ステップ42,Yes)、ステップ41に移行して文書から次の文を取得する。そして、処理対象の文が非話題テンプレートにマッチしなくなるまでステップ41、42の処理を繰り返す。
【0040】
次に、話題抽出部4は、図6に示すような話題テンプレートとマッチングを行う。テンプレートにマッチした場合には(ステップ43、Yes)、話題・新情報をテンプレートに基づいて設定する(ステップ44)。テンプレートルールとマッチしない場合には(ステップ43,No)、処理中の文を話題とし、新情報は設定されない(ステップ45)。話題・新情報に基づいてヘッドラインが作成される。話題テンプレートにマッチしなかった場合には、話題がヘッドラインとなる(ステップ46)。その後、図7に示す後編集テンプレートを用いて話題・新情報、ヘッドラインから不要な語を削除するなどの後編集を行う(ステップ47)。以上の話題・新情報抽出処理、及びヘッドライン作成処理を文書格納部2内の全文書に対して行う。
【0041】
次に、文書の話題の類似性に基づいて、文書格納部2内の各文書について関連文書を検出する。関連文書の検出は、関連文書検出部5で行う。
【0042】
図8は、本発明の一実施の形態における関連文書検出部の処理手順を示し、当該処理は、文書格納部2内の全文書に対して行われる。
【0043】
まず、処理対象の文書と文書格納部2中のその他の文書の話題同士の関連度(類似度)を計算する(ステップ51)。類似度の計算方法には、例えば、自立語の共有単語数の割合に基づく方法があり、2つの文書A,Bの自立語数をNa,Nb、文書記事A,Bに共通する自立語数をNとすると、類似度は2N/(Na+Nb)と定義できる。他には、概念ベース(熊本,島田,加藤:“概念ベースの情報検索への適用/概念ベースを用いた検索の特性評価”,情処学研報,99−ICS−115,知能と複雑系,1999)のように、単語を多次元ベクトルで表現し、話題に出現する単語のベクトルの総和を話題のベクトル表現とし、2つのベクトルのなす角を類似度とする方法も利用できる。また、話題中の単語の出現順序を考慮することができる類似度計算手法(特開2001−243245)を利用することもできる。この方法は、全ての単語対応がスコアに寄与しているため、語順の異なりがある場合でも一致する単語が多いほど文マッチングスコアを大きくする方法である。
【0044】
次に、処理対象の文書との関連度が予め決められた閾値よりも大きい文書があるかを調べる(ステップ52)。関連度が閾値を越える文書がない場合には(ステップ52,No)、処理中の文書には関連文書がないと見做される。一方、関連度が閾値を越える文書は関連文書とみなし(ステップ52,Yes)、処理中の文書と関連文書が発表または、報道された日付の比較が行われる(ステップ53)。関連文書中に処理中の文書以前の文書があれば(ステップ53,Yes)、その文書のIDを処理中の文書の初期関連文書として、文書格納部2内の当該処理中の文書に登録(付与)する(ステップ54)が、無い場合には(ステップ53,No)、処理中の文書の後続関連文書として、関連文書のIDを文書格納部2内の処理中の文書に登録(付与)する(ステップ55)。以上のような処理を文書格納部2の全文書に対して行い、各文書の関連文書を検出する。
【0045】
以上のようにして作成された文書間の関連性に基づき、関連文書検索部3が関連文書の検索を行う。
【0046】
最初に、ユーザが入力部1に文書ID(入力文書ID)を入力した場合について説明する。
【0047】
図9は、本発明の一実施の形態における関連文書検索部の処理のフローチャート(その1)である。
【0048】
入力部1に文書ID(入力文書ID)が入力されると、関連文書検索部3は、入力文書IDに関連する文書を文書格納部2から検索する。
【0049】
まず、入力文書IDを保存する(ステップ311)。次に、関連文書検索部3は、文書格納部2から対象となっている文書に関する情報を取得する(ステップ312)。対象文書に初期関連文書があるか調べられる。初期関連文書がある場合には(ステップ313,Yes)、その初期関連文書IDを保存し(ステップ314)、文書格納部2から初期関連文書の情報を取得し(ステップ315)、ステップ313に移行し、初期関連文書を処理対象とする。
【0050】
初期関連文書がない場合には(ステップ313,No)、対象記事の後続関連文書を関連文書とする(ステップ316)。関連文書から入力入力文書IDを削除し、保存されていた初期関連文書IDを追加したものが最終的な関連文書となる(ステップ317)。
【0051】
次に、ユーザが入力部1に文書IDではなく、検索語句を入力した場合について説明する。
【0052】
図10は、本発明の一実施の形態における関連文書検索部の処理のフローチャート(その2)である。なお、検索語句は記事、文、フレーズ等どんな単位でもよい。
【0053】
まず、関連文書検索部3は、話題検出部4に検索語句を送り、検索語句から話題を抽出する(ステップ321)。関連文書検出部5に話題を送り、初期関連文書を取得する(ステップ322)。なお、関連文書検出部5では、文書が発表、または、報道された日付の比較が行われるが、検索語句については検索語句の入力が行われた日付で比較が行われる。以下ステップ323以降の処理は、前述の図9のフローチャートのステップ313以降と同様に処理され、関連文書が得られる。
【0054】
関連文書検索部2では、以上のようにして関連文書を検索し、関連文書の情報を出力部6に送り、ユーザに関連文書を提示する。
【0055】
【実施例】
以下、図面と共に本発明の一実施例を説明する。
【0056】
本実施例では、文書格納部2に図11のようなテレビニュース音声を書き起こした文書が格納されている場合の具体例を示す。図11に示す文書格納部2には、文書ID毎に、報道日時、文書、話題、新情報、ヘドライン、初期関連文書ID、後続関連文書ID等が格納される。このうち、話題、新情報、ヘッドライン、初期関連文書ID、後続関連文書IDは、処理を行うことにより設定される項目である。
【0057】
まず、ユーザが検索を行う前に事前に話題抽出部4において話題抽出が行われる。ここでは、「文書1」の話題抽出処理について説明する。
【0058】
以下では、前述の図4、図8、図9、図10の各フローチャートに沿って説明する。
【0059】
文書の第1文『こんばんは。』を取得し(ステップ41)、図5の非話題テンプレートとマッチングが行われる(ステップ42)。『こんばんは。』は、非話題テンプレート1にマッチしているので、再びステップ41が実行される。同様に第2文『5月28日…』も非話題テンプレート3にマッチするので、再度ステップ41に戻る。次の第3文『防衛庁に情報公開…』は、非話題テンプレートにマッチしないので、ステップ43に移行する。
【0060】
第3文『防衛庁に情報公開…わかりました』と図6の話題テンプレートのマッチングが行われる(ステップ43)。第3文は話題テンプレートにマッチしないので、第3文が「文書1」の話題となる(ステップ45)。次に、第3文は話題テンプレートにマッチしなかったので、第3文がそのまま「文書1」のヘッドラインとなる(ステップ46)。次に、図7の後編集テンプレートに基づいて不要語句の削除などが行われ、最終的な話題、ヘッドラインは共に、『防衛庁に情報公開請求した人のリストが防衛庁の情報公開の担当者によって作られていた』となる(ステップ47)。
【0061】
これにより、「文書1」では、話題、新情報、ヘッドラインはそれぞれ次のようになる。
『話題:防衛庁に情報公開請求した人の個人情報リストが防衛庁の情報公開の担当者によって作られていた
新情報:なし
ヘッドライン:防衛庁に情報公開請求した人の個人情報リストが防衛庁の情報公開の担当者によって作られていたことがわかった』
また、「文書2」についても上記と同様に話題抽出が行われる。「文書2」の場合は、第1文が話題テンプレート1にマッチする(ステップ43)。そのため話題、新情報、ヘッドラインはそれぞれ次のようになる(図12)。
『話題:防衛庁に情報公開を請求した人の個人情報リストが作られていた問題
新情報:中谷防衛庁長官は、衆議院の特別委員会で徹底した調査を行いたいという考えを示した
ヘッドライン:防衛庁に情報公開を請求した人の個人情報リストが作られていた問題で、中谷防衛庁長官は、衆議院の特別委員会で徹底した調査を行いたいという考えを示した』
以上のような話題抽出処理が文書格納部2に格納されている全文書に対して行われる。
【0062】
次に、関連文書検出部4で各文書に関連する文書が検出される。ここでは、関連度(類似度)計算方法として、話題中の自立語から単語ベクトルを作成し、単語ベクトルのなす角のコサインを関連度(類似度)とする方法を用いる。なお、関連文書と判断する関連度の閾値は0.5とし、関連度が0.5以上となる文書同士を関連文書とみなす。
【0063】
「文書1」の関連文書検出処理は図8のフローチャートに基づき、次のように行われる。
【0064】
まず、関連文書検索部5において、「文書1」と文書格納部2中のその他の文書の関連度が計算される(ステップ51)。例えば、「文書1」と「文書2」の関連度は図12のように計算され、関連度は0.968となる。また、「文書1」と「文書3」の類似度は図13のように計算され、関連度は0.583となる。同様にして「記事4」との関連度は0.218となる。
【0065】
次に、関連度が閾値を越える文書があるかを調べる(ステップ52)。ここでは、閾値は0.5に設定されているため、関連度が閾値を越えるのは「文書2」と「文書3」のみである。閾値を越える関連度の文書があるため、ステップ53に移行する。「文書1」と「文書2」、「文書3」が報道された日付の比較が行われ、「文書2」、「文書3」は、「文書1」よりも新しい文書のため、ステップ55に移行し、図11のように「文書1」の後続関連文書として「文書2」、「文書3」の文書IDを文書格納部2に登録する。
【0066】
「文書2」については、次のように関連文書が検出される。
【0067】
前述の「文書1」の場合と同様に、ステップ51で他文書との関連度を計算すると、関連度が閾値を越えるのは、「文書1」と「文書3」で、それぞれ関連度は、0.968、0.615である。「文書2」と「文書1」、「文書3」の日付の比較が行われるが(ステップ53)、「文書1」は、「記事2」以前の文書であるため、「文書2」の初期関連文書として「文書1」の文書IDが文書格納部2に登録される(ステップ54)。
【0068】
「文書3」についても、同様に関連文書検出が行われ、「文書3」の初期関連文書として「文書1」の文書IDが文書格納部2に登録される。一方、「文書4」については、「文書1」、「文書2」、「文書3」との関連度はそれぞれ0.228、0.263、0.267となり、閾値0.5を越える文書がないため、関連文書はないと判断される。
【0069】
以上のようにして各記事の関連文書の検出が行われる。
【0070】
次に、関連文書の検索について述べる。
【0071】
関連文書検索には2通りの方法があり、第1の方法では、ユーザには文書格納部2に格納されている文書の文書IDを入力し、その文書の関連文書を得る。第2の方法では、ユーザは検索語句(文書、文、フレーズ等)を入力し、検索語句に関連する文書を検索する。
【0072】
まず、第1の検索方法の例を示す。
【0073】
入力部1において文書IDが入力されると、文書IDで指定された文書に関連する文書の検索が行われる。例えば、文書IDに『2』が与えられた場合は、関連文書検索部2において図9のフローチャートに基づき以下のように関連文書の検索を行う。
【0074】
入力文書IDの『2』を保存する(ステップ311)。次に、「文書2」に初期関連文書があるか調べられる。初期関連文書がない場合にはステップ316に移行する。ここでは、「文書2」には初期関連文書として『1』が登録されているため、ステップ314に移行する。そして、初期関連文書IDの『1』を保存し(ステップ314)、「文書1」の情報を取得し(ステップ315)、ステップ313に移行する。
【0075】
「文書1」の初期関連文書があるか調べられるが(ステップ313)、「文書1」には初期関連文書がないため、ステップ316に移行し、「文書1」の後続関連文書「2」「3」を関連文書とする(ステップ316)。関連文書から入力文書IDの『2』を削除し、また保存されていた初期関連文書のIDの『1』を追加したものを最終的な関連文書とみなす(ステップ317)。このようにして、「文書2」の関連文書として「1」「3」が得られる。
【0076】
次に、第2の検索方法の例を示す。
【0077】
入力部1において、『防衛庁の個人情報リスト問題』という語句が入力された場合、図10に示すフローチャートに基づき以下のように関連文書の検索を行う。
【0078】
まず、話題抽出部4において話題抽出が行われ、『防衛庁の個人情報リスト問題』が話題となる(ステップ321)。次に、関連文書検出部5で関連文書が検出される。『防衛庁の個人情報リスト問題』と「文書1」〜「文書4」との類似度は、それぞれ0.653,0.674,0.913,そして、0.293となり、閾値0.5を越える「文書1」〜「文書3」の中で最も古い記事の「文書1」が初期関連文書となり得る(ステップ322)。そして、文書IDの『1』を保存する(ステップ323)。
【0079】
「文書1」に初期関連記事があるか調べられるが、「文書1」に初期関連文書はないためステップ327に移行する(ステップ324)。「文書1」の後続関連文書「2」、「3」を関連文書とし(ステップ327)、さらに、「初期関連文書1」を追加し、最終的に『防衛庁の個人情報リスト問題』の関連文書として「文書1」「文書2」、「文書3」が得られる(ステップ328)。
【0080】
出力部6では、『防衛庁の個人情報リスト問題』の関連文書として「文書1」〜「文書3」の情報を提示する。このとき、図14のように、文書全文へのハイパーリンク付のヘッドラインを提示することにより、本発明のユーザは検索された関連文書を詳細に見る必要があるかどうかを判断でき、効率的に検索を行うこいとが可能となる。検索結果を提示する順番は、報道日順または、関連度順などで決めることができる。
【0081】
なお、前述の図4、図8、図9、図10に示すフローチャートをプログラムとして構築し、文書検索装置として利用されるコンピュータにインスートールする、または、ネットワークを介して流通させることが可能である。
【0082】
また、構築されたプログラムを文書検索装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることも可能である。
【0083】
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0084】
【発明の効果】
上述のように、本発明によれば、文書から話題を抽出し、話題に基づいて同じ問題・事件に関する一連の文書を検索することができる。
【0085】
また、話題抽出と同時にその文書で新たに伝えようとしている新情報を抽出し、話題と新情報からその文書のヘッドラインを生成することができる。関連文書の検索結果としてユーザにヘッドラインを提示することができるため、ユーザはヘッドラインから所望の文書を効率的に見つけることができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における関連文書検索装置の構成図である。
【図4】本発明の一実施の形態における話題抽出部の処理のフローチャートである。
【図5】本発明の一実施の形態におけるテンプレート記憶部の非話題テンプレートの例である。
【図6】本発明の一実施の形態におけるテンプレート記憶部の話題テンプレートの例である。
【図7】本発明の一実施の形態におけるテンプレート記憶部の後編集テンプレートの例である。
【図8】本発明の一実施の形態における関連文書検出部のフローチャートである。
【図9】本発明の一実施の形態における関連文書検索部のフローチャートである。
【図10】本発明の一実施の形態における関連文書検索部のフローチャートである。
【図11】本発明の一実施例の文書格納部に格納されている文書情報の例である。
【図12】本発明の一実施例の図11の文書1と記事2の関連度を説明するための図である。
【図13】本発明の一実施例の図11の記事1と記事3の関連度を説明するための図である。
【図14】本発明の一実施例の検索結果画面例である。
【符号の説明】
1 入力手段、入力部
2 文書格納手段、文書格納部
3 関連文書検索手段、関連文書検索部
4 話題抽出手段、話題抽出部
5 関連文書検出手段、関連文書検出部
6 出力手段、出力部
7 テンプレート記憶部
Claims (15)
- 文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索方法において、
文書格納手段に格納されている文書から話題抽出用パターンを用いて、話題や当該文書で新たに伝えようとする新情報を抽出し、該文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録し、
前記文書の話題の類似性に基づいて、前記文書格納手段の処理対象文書と該文書格納手段の他の文書の話題同士の関連度を計算し、
計算された前記関連度が予め決められた閾値より大きい文書を関連文書とし、
ユーザから入力された文書IDに基づいて、該文書IDに対応する関連文書を前記文書格納手段から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を該文書格納手段から検索することを特徴とする文書検索方法。 - 前記話題、前記新情報を抽出する際に、
予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと前記文書格納手段に格納されている文書の1文とをマッチングさせ、マッチしなくなるまで繰り返し、
前記非話題テンプレートとマッチしなくなったら、話題抽出の対象となる文を抽出するための話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しない請求項1記載の文書検索方法。 - 前記話題同士の関連度を計算する際に、
前記話題の自立語の共有単語数の割合に基づいて前記関連度を求め、
前記関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とし、
前記関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のIDを該処理中の文書の初期関連文書として前記文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のIDを該文書格納手段に登録する請求項1記載の文書検索方法。 - 前記ユーザから関連文書検索要求として、文書IDが入力された場合には、
前記文書IDを保存し、
前記文書格納手段から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とする請求項1記載の文書検索方法。 - 前記ユーザから関連文書検索要求として、検索語句が入力された場合には、
前記検索語句から話題を抽出し、
前記話題に基づいて、前記文書格納手段から初期関連文書を検索し、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とする請求項1記載の文書検索方法。 - 文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索装置であって、
ユーザによる入力を受け付ける入力手段と、
文書を格納する文書格納手段と、
文書格納手段に格納されている文書から話題抽出用パターンを用いて、話題や、当該文書で新たに伝えようとする新情報を抽出し、該文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録する話題抽出手段と、
前記文書の話題の類似性に基づいて、前記文書格納手段の処理対象文書と該文書格納手段の他の文書の話題同士の関連度を計算し、計算された前記関連度が予め決められた閾値より大きい文書を関連文書する関連文書検出手段と、
ユーザから入力された文書IDに基づいて、該文書IDに対応する関連文書を前記文書格納手段から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を該文書格納手段から検索する関連文書検索手段と、
前記関連文書検索手段で取得した前記関連文書を出力する出力手段と、を有することを特徴とする文書検索装置。 - 前記話題抽出手段は、
前記話題抽出用パターンとしての、予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと、話題抽出の対象となる文を抽出するための話題テンプレートと、
前記非話題テンプレートと前記文書格納手段に格納されている文書の1文とをマッチングさせ、マッチしなくなるまで繰り返し、該非話題テンプレートとマッチしなくなったら、前記話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しない手段と、を有する請求項6記載の文書検索装置。 - 前記関連文書検出手段は、
前記話題の自立語の共有単語数の割合に基づいて前記関連度を求める手段と、
前記関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とする手段と、
前記関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のIDを該処理中の文書の初期関連文書として前記文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のIDを該文書格納手段に登録する手段と、を有する請求項6記載の文書検索装置。 - 前記関連文書検索手段は、
前記入力手段から前記ユーザから関連文書検索要求として、文書IDが入力された場合には、前記文書IDを保存し、前記文書格納手段から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とする手段を有する請求項6記載の文書検索装置。 - 前記関連文書検索手段は、
前記ユーザから関連文書検索要求として、検索語句が入力された場合には、該検索語句を前記話題抽出手段に渡し、話題を取得する手段と、
前記話題を前記関連文書検出手段に渡し、初期関連文書を取得する手段と、
初期関連文書が取得できた場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、取得できない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とする手段と、を有する請求項6記載の文書検索装置。 - コンピュータのCPU上で実行される、文書群からユーザが指定する文書と同じ話題の一連の文書を検索する文書検索プログラムであって、
文書格納手段に格納されている文書から話題や、当該文書で新たに伝えようとする新情報を抽出し、該文書のヘッドラインを生成して、各文書毎に該話題、該新情報及び該ヘッドラインを付与して、該文書格納手段に登録する話題抽出ステップと、
前記文書の話題の類似性に基づいて、前記文書格納手段の処理対象文書と該文書格納手段の他の文書の話題同士の関連度を計算し、計算された前記関連度が予め決められた閾値より大きい文書を関連文書とする関連文書検出ステップと、
ユーザから入力された文書IDに基づいて、該文書IDに対応する関連文書を前記文書格納手段から検索する、または、該ユーザから入力された検索語句に基づいて、話題抽出を行い、該話題に基づいて関連文書を該文書格納手段から検索する関連文書検索ステップと、からなることを特徴とする文書検索プログラム。 - 前記話題抽出ステップは、
予め用意された話題抽出の対象となりえない文を読み飛ばすための非話題テンプレートと前記文書格納手段に格納されている文書の1文とをマッチングさせ、マッチしなくなるまで繰り返すステップと、
前記非話題テンプレートとマッチしなくなったら、話題抽出の対象となる文を抽出するための話題テンプレートとマッチングさせ、マッチした場合には、話題及び、新情報を該話題テンプレートに基づいて設定し、マッチしない場合には、処理中の文を話題とし、新情報を設定しないステップと、を有する請求項11記載の文書検索プログラム。 - 前記関連文書検出ステップは、
前記話題の自立語の共有単語数の割合に基づいて前記関連度を求めるステップと、
前記関連度が所定の閾値より大きい文書がある場合には、該文書を関連文書とするステップと、
前記関連文書と処理中の文書の発表または、報道された日付の比較を行い、該関連文書中に該処理中の文書以前の文書があれば、該関連文書のIDを該処理中の文書の初期関連文書として前記文書格納手段に登録し、ない場合には、処理中の文書の後続関連文書として該関連文書のIDを該文書格納手段に登録するステップと、を有する請求項11記載の文書検索プログラム。 - 前記関連文書検索ステップは、
前記ユーザから関連文書検索要求として、文書IDが入力された場合には、
前記文書IDを保存するステップと、
前記文書格納手段から検索対象文書に関する情報を取得して、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とするステップと、を有する請求項11記載の文書検索プログラム。 - 前記関連文書検索ステップは、
前記ユーザから関連文書検索要求として、検索語句が入力された場合には、
前記検索語句から話題を抽出するステップと、
前記話題に基づいて、前記文書格納手段から初期関連文書を検索し、初期関連文書がある場合には、該初期関連文書の文書IDを保存し、該文書格納手段から該初期関連文書の情報を取得し、ない場合には、該検索対象文書の後続関連文書を関連文書とし、該関連文書から入力文書IDを削除し、保存されていた該初期関連文書の文書IDを追加して最終的な関連文書とするステップと、を有する請求項11記載の文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002311698A JP2004145753A (ja) | 2002-10-25 | 2002-10-25 | 文書検索方法及び装置及び文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002311698A JP2004145753A (ja) | 2002-10-25 | 2002-10-25 | 文書検索方法及び装置及び文書検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004145753A true JP2004145753A (ja) | 2004-05-20 |
Family
ID=32456841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002311698A Pending JP2004145753A (ja) | 2002-10-25 | 2002-10-25 | 文書検索方法及び装置及び文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004145753A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011059920A (ja) * | 2009-09-09 | 2011-03-24 | Ricoh Co Ltd | 情報処理装置、情報処理システムおよびプログラム |
JP2012014643A (ja) * | 2010-07-05 | 2012-01-19 | Nippon Telegr & Teleph Corp <Ntt> | 期間別主題語句抽出装置及び方法及びプログラム |
US9449277B2 (en) | 2010-10-21 | 2016-09-20 | Nec Corporation | Implication determining device, implication determining method and implication determining program determining if hypothesis is a new fact |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05266072A (ja) * | 1992-03-24 | 1993-10-15 | Agency Of Ind Science & Technol | 話題抽出装置 |
JPH10154150A (ja) * | 1996-11-25 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 情報潮流提示方法及びその装置 |
JP2000242652A (ja) * | 1999-02-18 | 2000-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体 |
JP2001147923A (ja) * | 1999-11-18 | 2001-05-29 | Toshiba Corp | 類似文書検索装置、類似文書検索方法及び記録媒体 |
JP2002041543A (ja) * | 2000-07-25 | 2002-02-08 | Central Res Inst Of Electric Power Ind | 情報検索・閲覧支援方法、情報潮流検出・提示方法およびその装置ならびに記憶媒体 |
JP2002108917A (ja) * | 2000-10-02 | 2002-04-12 | Nippon Hoso Kyokai <Nhk> | ニュース話題トラッキング装置、ニュース話題構成要素抽出提示装置及び放送サービス方法 |
JP2002108916A (ja) * | 2000-10-02 | 2002-04-12 | Nippon Hoso Kyokai <Nhk> | ニュース話題タイトル抽出装置及びニュース原稿インデックス付与装置 |
JP2002222210A (ja) * | 2001-01-25 | 2002-08-09 | Hitachi Ltd | 文書検索システム、文書検索方法及び検索サーバ |
-
2002
- 2002-10-25 JP JP2002311698A patent/JP2004145753A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05266072A (ja) * | 1992-03-24 | 1993-10-15 | Agency Of Ind Science & Technol | 話題抽出装置 |
JPH10154150A (ja) * | 1996-11-25 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 情報潮流提示方法及びその装置 |
JP2000242652A (ja) * | 1999-02-18 | 2000-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体 |
JP2001147923A (ja) * | 1999-11-18 | 2001-05-29 | Toshiba Corp | 類似文書検索装置、類似文書検索方法及び記録媒体 |
JP2002041543A (ja) * | 2000-07-25 | 2002-02-08 | Central Res Inst Of Electric Power Ind | 情報検索・閲覧支援方法、情報潮流検出・提示方法およびその装置ならびに記憶媒体 |
JP2002108917A (ja) * | 2000-10-02 | 2002-04-12 | Nippon Hoso Kyokai <Nhk> | ニュース話題トラッキング装置、ニュース話題構成要素抽出提示装置及び放送サービス方法 |
JP2002108916A (ja) * | 2000-10-02 | 2002-04-12 | Nippon Hoso Kyokai <Nhk> | ニュース話題タイトル抽出装置及びニュース原稿インデックス付与装置 |
JP2002222210A (ja) * | 2001-01-25 | 2002-08-09 | Hitachi Ltd | 文書検索システム、文書検索方法及び検索サーバ |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011059920A (ja) * | 2009-09-09 | 2011-03-24 | Ricoh Co Ltd | 情報処理装置、情報処理システムおよびプログラム |
JP2012014643A (ja) * | 2010-07-05 | 2012-01-19 | Nippon Telegr & Teleph Corp <Ntt> | 期間別主題語句抽出装置及び方法及びプログラム |
US9449277B2 (en) | 2010-10-21 | 2016-09-20 | Nec Corporation | Implication determining device, implication determining method and implication determining program determining if hypothesis is a new fact |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105824959B (zh) | 舆情监控方法及系统 | |
JP5346279B2 (ja) | 検索による注釈付与 | |
Gottipati et al. | Linking entities to a knowledge base with query expansion | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
US9251274B2 (en) | Grouping search results into a profile page | |
US20070106657A1 (en) | Word sense disambiguation | |
WO2020258662A1 (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN108090077B (zh) | 一种基于自然语言检索的综合相似度计算方法 | |
JP2008542951A (ja) | 関連性ネットワーク | |
US20080168054A1 (en) | System and method for searching information and displaying search results | |
EP2307951A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
CN106095912B (zh) | 用于生成扩展查询词的方法和装置 | |
JP6664599B2 (ja) | 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム | |
US20180039632A1 (en) | Information processing apparatus, information processing method, and computer program | |
JP3584848B2 (ja) | 文書処理装置、項目検索装置及び項目検索方法 | |
KR102345401B1 (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체 | |
JP2005301856A (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP2013003663A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN111737523B (zh) | 一种视频标签、搜索内容的生成方法及服务器 | |
JP2010231526A (ja) | 辞書構築装置、辞書構築方法および辞書構築用プログラム | |
JP2004145753A (ja) | 文書検索方法及び装置及び文書検索プログラム | |
JP2015036892A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
CN113836399A (zh) | 主题推荐方法、装置、计算设备及存储介质 | |
JP2004258723A (ja) | 話題抽出装置、話題抽出方法およびプログラム | |
JP2018010482A (ja) | 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080115 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080520 |