JP4045728B2

JP4045728B2 - 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体

Info

Publication number: JP4045728B2
Application number: JP2000263240A
Authority: JP
Inventors: 忠孝松林; 伸也山本; 勝己多田; 菅谷　　奈津子
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2000-08-28
Filing date: 2000-08-28
Publication date: 2008-02-13
Anticipated expiration: 2020-08-28
Also published as: JP2002073681A

Description

【０００１】
【発明の属する技術分野】
本発明は、ユーザが指定した文書に記述されている内容と類似する内容を含む文書を、文書データベースの中から検索する方法に関する。
【０００２】
【従来の技術】
近年、パーソナルコンピュータやインターネット等の普及に伴い、電子化文書が爆発的に増加しており、今後も加速度的に増大していくものと予想される。このような状況において、ユーザが所望する情報を含んだ文書を高速かつ効率的に検索したいという要求が高まってきている。
【０００３】
このような要求に応える技術として、ユーザが自分の所望する内容を含んだ文書（以下、種文書と呼ぶ）を例示し、その文書と類似する文書を検索する類似文書検索技術が注目されている。
【０００４】
類似文書検索の方法としては、例えば「特開平１１−６６０８６」が開示されている（以下、従来技術１と呼ぶ）。
【０００５】
本従来技術１では、文書データベースに対して文書を登録する際に、登録対象となる文書を全文検索するために必要な情報（従来技術１では、転置インデックスと呼んでいる。以下、全文検索用インデクスと呼ぶ。）を作成しておき、類似文書の検索時に、本全文検索用インデクスを参照することで登録済みの文書（以下、登録文書と呼ぶ）に含まれる単語の出現頻度情報を要素としてもつベクトル（以下、特徴ベクトルと呼ぶ）を作成し、これと検索条件として指定された文書（以下、種文書と呼ぶ）の特徴ベクトルとが、ベクトル空間内においてなす角度の余弦を文書間の類似度として算出する技術である。
【０００６】
以下、従来技術１の処理手順を図２のＰＡＤ（Problem Analysis Diagram）図を用いて説明する。
【０００７】
従来技術１では、まずステップ２００において、文書の登録処理か類似文書の検索処理かを判定し、文書の登録処理と判定された場合には全文検索用インデクス作成ステップ２１０を実行し、全文検索用インデクスを作成する。
【０００８】
また、ステップ２００において類似文書の検索処理と判定された場合には、種文書特徴ベクトル生成ステップ２２０を実行し、種文書に対して特徴ベクトルを作成する。そして、全文検索用インデクスを用いた類似度算出ステップ２２１を実行し、該種文書の特徴ベクトルと登録文書の特徴ベクトルが、ベクトル空間内においてなす角度の余弦を文書間の類似度として算出する。
【０００９】
以上が、従来技術１の処理手順である。
【００１０】
以下、図３を用いて本従来技術１の概要を説明する。
【００１１】
従来技術１の文書登録処理では、まず全文検索用インデクス作成処理２１０で登録用文書１および文書２中に含まれる単語および出現位置を抽出し、全文検索用インデクス４０３を作成する。この結果、全文検索用インデクス４０３には、"構築：（文書１，５）（文書２，８）"のように記録される。ここで、"構築：（文書１，５）（文書２，８）"は、文字列"構築"が文書１の５文字目に、文書２の８文字目に出現していることを表している。
【００１２】
そして、類似文書の検索処理では、検索条件で指定された種文書を抽出し、種文書特徴ベクトル生成処理２２０を通じて該種文書に対応する種文書特徴ベクトル４０６を生成する。
【００１３】
次に、種文書特徴ベクトル４０６中に含まれる全ての単語に対して、前記文書登録処理で作成した全文検索用インデクス４０３を参照することで、各登録文書中の出現回数を取得する。
【００１４】
ここで図４に示すように、二つのベクトルＸおよびＹの余弦は、ベクトルの対応する成分同士（例えばx(i)とy(i)）の積和値をそれぞれのベクトルの大きさで除算することにより得られることに着目する。すなわち、特定のベクトル間の内積をベクトルの組ごとに算出していくのではなく、ベクトルの要素ごとの内積成分（以下、要素別類似度と呼ぶ）を計算した後に、全ての要素における要素別類似度の総和を算出する。なお図４では、ベクトルＸのi番目の要素を"x(i)"と表し、ベクトルＸの大きさを"|Ｘ|"と表す。
【００１５】
すなわち、図３において種文書特徴ベクトル４０６と登録文書の特徴ベクトルの余弦を算出するためには、種文書特徴ベクトル４０６中の全ての単語に対して、種文書と各登録文書での出現回数の積和値を各登録文書における単語毎の要素別類似度として算出し、全ての登録文書について単語毎の要素別類似度の総和をとることで算出できる。
【００１６】
以下、本類似度算出方法を図５を用いて具体的に説明する。
【００１７】
種文書特徴ベクトルをベクトルＸ、文書１の特徴ベクトル（以下、特徴ベクトル１と呼ぶ）をベクトルＹ、文書２の特徴ベクトル（以下、特徴ベクトル２と呼ぶ）をベクトルＺと表すとき、種文書特徴ベクトルと特徴ベクトル１および特徴ベクトル２の内積の第１成分は、それぞれ"x(1)y(1)"および"x(1)z(1)"として算出することができる。
【００１８】
ここで、"x(1)"は単語１の種文書での出現回数を表しており、"y(1)"および"z(1)"はそれぞれ単語１の文書１および文書２での出現回数を表している。
【００１９】
すなわち、単語１の各文書での出現回数６００は、種文書内での単語１の出現回数を計数すると共に、単語１に対応する全文検索用インデクスを参照することで取得することができる。
【００２０】
以下同様に、種文書中の全ての単語に対応する全文検索用インデクスを参照することで、種文書に対する登録文書の類似度を算出することができる。
【００２１】
以上が、従来技術１における類似度算出方法の具体的な説明である。
【００２２】
最後に、各登録文書全体の類似度４０７を出力する。
【００２３】
以上が、従来技術１の概要である。
【００２４】
以上説明したように従来技術１によれば、登録文書中に含まれる単語用の全文検索用単語インデクスを予め作成しておくことで、文書検索時に登録文書の特徴ベクトルの生成を可能とし、検索条件として指定された種文書に対応する種文書特徴ベクトルとの余弦を類似度として算出することで、文書データベース中から内容の類似する文書を検索することができる。
【００２５】
しかし従来技術１には、種文書から抽出された全ての単語に対して全文検索用インデクスを参照し、類似度算出に使用しているため、種文書に含まれる単語数が多いときには膨大な処理時間が必要になるということである。
【００２６】
例えば、種文書中の1種類の単語に対する全文検索用インデクスを0.5秒で参照可能としても、種文書から100種類の単語が抽出されているとすると、50秒もの処理時間を要してしまうことになる。
【００２７】
一方、処理時間を低減するために単純に種文書特徴ベクトルの単語を間引いてしまうと、単語の種類数を削減してしまうため種文書で重要な意味を持つ単語までもが排除される可能性があり、検索精度が極端に低下してしまう恐れがある。
【００２８】
【発明が解決しようとする課題】
このような問題に対し、本発明では以下の課題を解決することを目的とする。
【００２９】
すなわち本発明の課題は、文書データベースへの文書登録時に登録文書の特徴ベクトルを作成することなく、類似文書の検索時に全登録文書の特徴ベクトルを作成し、最新の単語情報を用いた類似度算出を行なう類似文書検索方法において、
検索精度を確保することのできる最低限の単語数を使用することにより、高速な類似文書検索方法を実現することである。
【００３０】
【課題を解決するための手段】
上記課題を解決するための、本発明に示す類似文書検索の処理手順を図７に示すＰＡＤ図に示す。
【００３１】
本発明に示す類似文書検索方法は、登録処理か研作処理かを判定する処理種別判定処理２００と、文書の登録処理として全文検索用インデクス作成処理２１０と、類似文書の検索処理として、種文書特徴ベクトル生成処理２２０と全文検索用インデクスを用いた類似度算出処理２２１を有する類似文書検索方法において、種文書特徴ベクトル生成処理２２０と全文検索用インデクスを用いた類似度算出処理２２１の間に、検索用単語抽出処理７０１を有することを特徴とする。
【００３２】
すなわち、本発明による類似文書検索方法は、文書データベースへの文書登録時の全文検索用インデクス作成処理２１００として、（ステップ１）登録対象文書を読み込む登録文書読込みステップ、（ステップ２）上記登録文書読込みステップで読み込まれた登録対象文書のテキストから、全文検索用情報を抽出し、全文検索用情報ファイルに格納する全文検索用情報ファイル作成登録ステップ、と、類似文書の検索処理における種文書特徴ベクトル生成処理２２０として、（ステップ３）検索条件で指定された種文書を取得する種文書取得ステップ、（ステップ４）前記種文書読込みステップで読み込まれた種文書を解析し、種文書中に含まれる単語を抽出する種文書解析単語抽出ステップ、（ステップ５）上記種文書解析ステップで抽出された単語の出現回数を計数する種文書内出現回数計数ステップと、検索用単語抽出処理７０１として、（ステップ６）上記種文書内出現回数計数ステップで計数された各単語の出現回数に基づき、該単語の重要度を算出する単語重要度算出ステップ、（ステップ７）上記（ステップ６）で算出された各単語の重みの降順に単語を選択し、種文書自体に対する該単語の要素別類似度を算出し、該要素別類似度が所定の閾値を超える場合に、該単語を検索用単語として抽出する検索用単語判定ステップと、全文検索用インデクスを用いた類似度算出処理２２１として、（ステップ８）上記種文書特徴ベクトル生成処理２２０において、種文書から抽出された検索用単語を用いて、以下の（ステップ９）〜（ステップ１０）を実行する類似度算出ステップ、（ステップ９）前記全文検索用情報ファイル作成登録ステップで作成された全文検索用情報を参照し該検索用単語の各登録文書での出現回数を取得する検索用単語出現回数取得ステップ、（ステップ１０）前記検索用単語選択ステップで選択された該検索用単語に関する
前記種文書内出現回数計数ステップで取得した種文書内出現回数および前記単語出現回数取得ステップで取得した各登録文書における検索用単語出現回数を用いて種文書と登録文書の要素別類似度を算出し、各登録文書の全体の類似度に加算する要素別類似度算出ステップ、（ステップ１１）上記要素別類似度算出ステップで算出された類似度を出力する検索結果出力ステップを有する。
【００３３】
上記類似文書検索方法を用いた本発明の原理について図８〜図１０を用いて説明する。
【００３４】
本発明の類似文書検索方法では、文書データベースへの文書登録時に（ステップ１）および（ステップ２）を実行する。
【００３５】
以下、図８を用いて、文書の登録に際する処理手順の概要を説明する。
【００３６】
まず、（ステップ１）で登録対象となる文書を読み込む。図８に示した例では、登録対象文書として文書１「ＬＡＮの構築と運用・保守に必要な機器を提供する。」および文書２「情報システムの構築や保守を手がけるＳＩベンダと提携する。」が登録対象文書として読み込まれる。
【００３７】
次に、（ステップ２）において、上記（ステップ１）で読み込まれた登録対象文書のテキストから、全文検索用情報を抽出し、全文検索用情報ファイルに格納する。
【００３８】
図８に示した例では、文書１中に含まれる"Ｌ"に対応する全文検索用情報として（文書１，１）が抽出され、全文検索用情報ファイル８０３中に格納される。なお、Ｌ（文書１，１）は、"文書１"の文字位置１に文字"Ｌ"が出現することを表す。
【００３９】
また、ここで用いる全文検索用情報としては、任意の単語あるいは文字列の各登録文書での出現回数を取得することができれば、従来技術１に示したように単語インデクス方式を用いるものとしてもよいし、「特開平０８−１９４７１８」に開示されているn-gramインデクス方式を用いるものとしてもよい。
【００４０】
以上が、本発明の文書登録に際する処理手順の概要である。
【００４１】
次に、本発明に示した類似文書検索方法では、文書の検索時に（ステップ３）〜（ステップ１１）を実行する。
【００４２】
以下、図９を用いて文書の検索に際する処理手順の概要を説明する。
【００４３】
まず（ステップ３）で検索条件として指定された種文書９０１「ＬＡＮシステムの構築ノウハウを武器にソリューションを展開する・・・」を読み込む。
【００４４】
そして、（ステップ４）において、種文書を解析し、種文書中に含まれる単語を抽出する。ここで用いる種文書解析処理としては、従来技術１に示されるように単語辞書を参照し、単語辞書に含まれる単語を抽出される方式でもよいし、「特開平１０−１４８７２１」に開示されているように文書データベース中の統計情報を用いた単語抽出方法を用いてもよいし、種文書中に含まれるn-gramを機械的に抽出する方法であってもよいし、その他の単語抽出技術を使用しても構わない。
【００４５】
図９に示した例では、この種文書解析処理の結果として、単語列９０３（ＬＡＮ，構築，ノウハウ，武器，ソリューション，展開，…）が抽出されている。
【００４６】
次に、（ステップ５）において、上記（ステップ４）で抽出された単語の種文書内での出現回数を計数し、単語と出現回数の組９０４（［ＬＡＮ，４］［構築，３］［ノウハウ，２］［武器，１］［ソリューション，２］［展開，１］…）を出力する。
【００４７】
ここで、［ＬＡＮ，３］は、単語"ＬＡＮ"が３回出現しているということを表している。
【００４８】
次に、（ステップ６）において、上記（ステップ５）で抽出された単語と出現回数の組９０４に対して、重要度を算出し、単語と重要度の組を出力する。この重要度の算出方法としては、例えば、種文書中の出現回数としてもよいし、データベースに登録された文書数に対する該単語の出現文書数の割合（以下、出現割合と呼ぶ）等を用いてもよい。図９に示した例では、種文書９０１中での出現回数を単語の重要度として算出し、単語重要度列９０５「［ＬＡＮ，４］［構築，３］［ソリューション，２］…を出力している。ここで、［ＬＡＮ，４］は、単語"ＬＡＮ"が重要度"４"として種文書に含まれていることを表す。
【００４９】
そして、（ステップ７）において、上記（ステップ８）において算出された各単語の重要度の降順に種文書自体に対する要素別類似度を算出し、該要素別類似度が所定の閾値を超えている場合、該単語を検索用単語として抽出する。この結果として、検索用単語［ＬＡＮ，４］［構築，３］が抽出される。
【００５０】
次に、（ステップ８）〜（ステップ１０）において、前記（ステップ７）で取得された各単語の種文書内出現回数および前記（ステップ２）で作成された全文検索用情報ファイル８０３を参照することで、種文書に対する各登録文書の類似度を算出する。
【００５１】
そして、（ステップ１１）において、類似度算出結果９０６を出力する。
【００５２】
以上が、本発明の文書検索に際する処理手順の概要である。
【００５３】
以下、上述した（ステップ７）により実行される検索用単語の抽出処理手順について、図１０を用いて説明する。
【００５４】
まず、（ステップ７）において、前記（ステップ６）で出力された単語重要度列９０５を読み込み、重要度の降順に単語を選択する。図１０では、単語重要度列９０５「［ＬＡＮ，４］、［構築，３］、［ソリューション，２］…」から、まず［ＬＡＮ，４］を抽出している。
【００５５】
そして、検索用単語"ＬＡＮ"の種文書内出現回数"４"を用いて、種文書に対する種文書の類似度の該検索用単語の要素別類似度を計算する。すなわち、登録文書として種文書と同一の文書が存在するもの（以下、仮想登録文書と呼ぶ）と仮定し、種文書特徴ベクトルと該仮想登録文書の特徴ベクトル間における該検索用単語の要素別類似度を算出し、総和を算出する。
【００５６】
図１０では、検索用単語"ＬＡＮ"の種文書内出現回数"４"と仮想登録文書内出現回数"４"の積を算出し、要素別類似度"１６"を得る。
【００５７】
この結果、検索用単語"ＬＡＮ"による種文書自体に対する要素別類似度は所定の閾値（本図に示した例では、５とする）を超えているため、検索用単語としてワークエリア１７０へ格納する。
【００５８】
次に、［ＬＡＮ，４］の次に重要度の高い［構築，３］を選択し、種文書に対する種文書の類似度の該検索用単語の要素別類似度を計算する。この結果、要素別類似度は９となり、所定の閾値５を超えているため、検索用単語としてワークエリア１７０へ格納する。
【００５９】
そして、［構築，３］の次に重要度の高い［ソリューション，２］を選択し、種文書に対する種文書の類似度の該検索用単語の要素別類似度を計算する。この結果、要素別類似度は４となり、所定の閾値を超えていないため、検索用単語として抽出せずに、終了する。
【００６０】
以上が、検索用単語抽出処理手順の説明である。
【００６１】
以上説明したように、文書データベースへの文書登録時に、登録文書に対する登録特徴ベクトルを作成する代わりに、全文検索用インデクスを作成しておき、類似文書の検索時には、種文書における特徴ベクトルの要素のうち種文書内での重要度の順に検索用単語を抽出し、種文書自体に対する類似度が収束するまで抽出した単語を検索用単語として使用するため、全ての単語を検索に使用する場合に比べて、検索精度を極端に落とすことなく種文書と登録文書の類似度を高速に算出することが可能となる。
【００６２】
【発明の実施の形態】
以下、本発明の第一の実施例について図１を用いて説明する。
【００６３】
本発明を適用した類似文書検索システムの第一例は、ディスプレイ１００、キーボード１０１、中央演算処理装置（ＣＰＵ）１０２、磁気ディスク装置１０３、フロッピディスクドライブ（ＦＤＤ）１０４、主メモリ１０５およびこれらを結ぶバス１０６から構成される。
【００６４】
磁気ディスク装置１０３は二次記憶装置の一つであり、全文検索用情報ファイル１８０が格納される。
【００６５】
ＦＤＤ１０４を介してフロッピディスク１０７に格納されている情報が、主メモリ１０５あるいは磁気ディスク装置１０３へ読み込まれる。
【００６６】
主メモリ１０５には、システム制御プログラム１１０、登録制御プログラム１１１、検索制御プログラム１１２、登録文書読込プログラム１２０、全文検索用情報ファイル作成登録プログラム１２１、検索条件解析プログラム１３０、検索用単語抽出プログラム１３１、類似度算出プログラム１３２、検索結果出力プログラム１３３が格納されると共にワークエリア１７０が確保される。
【００６７】
検索条件解析プログラム１３０は、種文書取得プログラム１４０、単語抽出プログラム１４２および種文書内出現回数計数プログラム１４３で構成される。
【００６８】
検索用単語抽出プログラム１３１は、単語重要度算出プログラム１５０および検索用単語抽出判定プログラム１５１で構成される。
【００６９】
類似度算出プログラム１３２は、検索用単語出現回数取得プログラム１６１および要素別類似度算出プログラム１６２で構成される。
【００７０】
登録制御プログラム１１１および検索制御プログラム１１２は、ユーザによるキーボード１０１からの指示に応じてシステム制御プログラム１１０によって起動され、それぞれ登録文書読込プログラム１２０および全文検索用情報ファイル作成登録プログラム１２１の制御と、検索条件解析プログラム１３０、検索用単語抽出プログラム１３１、類似度算出プログラム１３２および検索結果出力プログラム１３３の制御を行なう。
【００７１】
なお本実施例では、キーボード１０１から入力されたコマンドにより、登録制御プログラム１１１や検索制御プログラム１１２が起動されるものとしたが、他の入力装置を介して入力されたコマンドあるいはイベントにより起動されるものであってもかまわない。
【００７２】
また、これらのプログラムを磁気ディスク装置１０３、フロッピディスク１０７、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ（図１には示していない）等の記憶媒体に格納し、駆動装置を介して主メモリ１０５に読み込み、ＣＰＵ１０２によって実行することも可能である。
【００７３】
以下、本実施例における類似文書検索システムの処理手順について説明する。
【００７４】
まず、システム制御プログラム１１０の処理手順について図１１のＰＡＤ図を用いて説明する。
【００７５】
システム制御プログラム１１０は、まずステップ１１００で、キーボード１０１から入力されたコマンドを解析する。
【００７６】
そしてステップ１１０１で、この結果が登録実行のコマンドであると解析された場合には、ステップ１１０２で登録制御プログラム１１１を起動して、文書の登録を行なう。
【００７７】
またステップ１１０１で、検索実行のコマンドであると解析された場合には、ステップ７０３で検索制御プログラム１１２を起動して、類似文書の検索を行なう。
【００７８】
以上が、システム制御プログラム１１０の処理手順である。
【００７９】
次に、図１１に示したステップ１１０２でシステム制御プログラム１１０により起動される登録制御プログラム１１１の処理手順について、図１２のＰＡＤ図を用いて説明する。
【００８０】
登録制御プログラム１１１では、まずステップ１２００において登録文書読込プログラム１２０を起動し、登録対象として指定された文書（以下、登録対象文書と呼ぶ）を読み込み、ワークエリア１７０に格納する。
【００８１】
次に、ステップ１２０１において、全文検索用情報ファイル作成登録プログラム１２１を起動し、ワークエリア１７０に格納されている登録文書に対応する全文検索用情報を作成し、全文検索用情報ファイル１８０へ格納する。
【００８２】
以上が、登録制御プログラム１１１の処理手順である。
【００８３】
次に、図１１に示したステップ１１０３でシステム制御プログラム１１０により起動される検索制御プログラム１１２の処理手順について、図１３のＰＡＤ図を用いて説明する。
【００８４】
検索制御プログラム１１２は、まずステップ１３００において、検索条件解析プログラム１３０を起動し、種文書から単語を抽出する。
【００８５】
次にステップ１３０１において、検索用単語抽出プログラム１３１を起動し、上記ステップ１３００において種文書から抽出された単語の重要度を算出し、所定の条件に基づいて重要度の高い単語を検索用単語として抽出する。
【００８６】
そしてステップ１３０２において、類似度算出プログラム１３２を起動し、上記ステップ１３０１において種文書から抽出された検索用単語の出現情報を用いて、種文書に対する各登録文書の類似度を算出する。
【００８７】
そしてステップ１３０３において、検索結果出力プログラム１３３を起動し、上記ステップ１３０２で算出された類似度算出結果を検索結果として出力する。
【００８８】
ここで、検索結果の出力先は、ディスプレイ１００に表示するものとしてもよいし、ワークエリア１７０や磁気ディスク１０３上に格納するものとしてもよい。また、類似度算出結果をディスプレイ１００に出力する場合には、類似度の降順に出力するものとしてもよいし、文書に付与された管理番号の昇順あるいは降順に出力するものとしてもよい。
【００８９】
以上が検索制御プログラム１１２の処理手順である。
【００９０】
次に、図１３に示したステップ１３００で検索制御プログラム１１２により起動される検索条件解析プログラム１３０の処理手順について、図１４のＰＡＤ図を用いて説明する。
【００９１】
検索条件解析プログラム１３０は、まずステップ１４００において、種文書取得プログラム１４０を起動し、検索条件で指定された種文書を抽出し、ワークエリア１７０に格納する。
【００９２】
次にステップ１４０２において、単語抽出プログラム１４２を起動し、ワークエリア１７０に格納された種文書から単語を抽出する。
【００９３】
そしてステップ１４０３において、種文書内出現回数計数プログラム１４３を起動し、ステップ１４０２で抽出された単語について、種文書内での出現回数を計数し、ワークエリア１７０に格納する。
【００９４】
以上が検索条件解析プログラム１３０の処理手順である。
【００９５】
次に、図１３に示したステップ１３０１で検索制御プログラム１１２により起動される検索用単語抽出プログラム１３１の処理手順について、図１５のＰＡＤ図を用いて説明する。
【００９６】
検索用単語抽出プログラム１３１は、まずステップ１５００において、単語重要度算出プログラム１５１を起動し、所定の算出式に基づきワークエリア１７０に格納された単語の重要度を算出し、ワークエリア１７０に格納する。
【００９７】
次に、前記ステップ１５００でワークエリア１７０に格納された全ての単語に対して、ステップ１５０２〜１５０５を繰り返し実行する（ステップ１５０１）。
【００９８】
まず、ステップ１５０２において、ワークエリア１７０に格納されている単語を重要度の降順に取得する。
【００９９】
次に、ステップ１５０３において、検索用単語抽出判定プログラム１５１を起動し、種文書の要素別類似度を算出する。
【０１００】
そして、ステップ１５０４において、種文書の要素別類似度が、所定の閾値を超えているかを判定し、超えている場合にはステップ１５０５を、越えていない場合には繰り返し処理を終了する。
【０１０１】
そして、ステップ１５０５において、該単語を検索用単語としてワークエリア１７０に格納する。
【０１０２】
以上が検索用単語抽出プログラム１３１の処理手順である。
【０１０３】
なお、上述のステップ１５０２における各単語の要素別類似度の算出方法は、従来技術１に示されるように、各単語の種文書での出現回数を用いて算出してもよいし、
後述するように、該単語の文書データベースでの出現文書数等の統計情報を用いるものでもよいし、
さらには、文書内での出現位置情報を考慮することもできる。
【０１０４】
次に、図１３に示したステップ１３０２で検索制御プログラム１１２により起動される類似度算出プログラム１３２の処理手順について、図１６のＰＡＤ図を用いて説明する。
【０１０５】
類似度算出プログラム１３２は、ワークエリア１７０に格納された全ての検索用単語に対して、ステップ１６０２〜１６０３を繰り返し実行する（ステップ１６０１）。
【０１０６】
ステップ１６０２では、検索用単語出現回数取得プログラム１６１を起動し、検索用単語に対応する全文検索用情報ファイル１８０を参照して、各登録文書内での出現回数を取得し、ワークエリア１７０に格納する。
【０１０７】
次にステップ１６０３において、要素別類似度算出プログラム１６２を起動し、ワークエリア１７０に格納された検索用単語の種文書内出現回数および登録文書内出現回数を用いて、所定の算出式により種文書に対する登録文書の要素別類似度を算出し、登録文書全体の類似度に加算する。
【０１０８】
以上が類似度算出プログラム１３２の処理手順である。
【０１０９】
以上が、本発明の第一の実施形態である。
【０１１０】
なお、本実施例では、検索条件解析プログラム１３０により種文書から単語が抽出されるものとしたが、単語の代わりにn-gramが抽出されるものとしてもよい。この場合、検索用単語抽出プログラム１３１により処理される単位もn-gramとなる。
【０１１１】
また、検索用単語抽出プログラム１３１のステップ１５０４では、ステップ１５０３で算出された種文書の要素別類似度が所定の閾値を超えるか否かを判定するものとしたが、
要素別類似度ではなく類似度の総和が所定の閾値を超えているかを判定するものとしてもよいし、
さらには、種文書から抽出された全ての単語における要素別類似度の総和に対する類似度の算出割合が所定の閾値を超えているかを判定するものとしてもよい。
【０１１２】
また、本実施例では種文書に対する各登録文書の類似度の算出には、単語の出現回数を直接用いたが、さらにこれを種文書や登録文書の文書の長さ等により正規化してもよいことは明らかであろう。
【０１１３】
以上説明したように、本発明の第一の実施形態によれば、種文書に対する要素別類似度の値を目安にして類似度算出に使用する検索用単語数を削減しているため、種文書に対する類似度算出結果が収束する必要最低限の検索で処理を終了させることができる。
【０１１４】
この結果として、検索精度を極端に低下させることなく検索用単語数を削減することができ、高速な類似文書検索を実現することができるようになる。
【０１１５】
なお、本実施例では、登録対象文書や種文書を文書としたが、文章あるいは文字列であっても構わないことは明らかであろう。
【０１１６】
また、以上説明した本発明の第一の実施例における検索用単語抽出プログラム１３１では、種文書の要素別類似度の値を目安にして検索用単語を削減するものとしたが、予め指定された数の検索用単語を抽出するものとしてもよい。この場合の検索用単語数の設定方法としては、予め用意したテストパターンを用いて所定の時間以内に検索が終了するように検索用単語数を決定するものとしてもよい。
【０１１７】
次に本発明の第二の実施例について図１７を用いて説明する。
【０１１８】
本発明を適用した類似文書検索システムの第二の実施例は、種文書から抽出された単語の重要度を算出する際に、文書データベースに蓄積された登録文書の統計情報を利用するものである。
【０１１９】
本方法によれば、第一の実施例における単語重要度算出プログラム１５０による単語重要度算出の際に、種文書内の出現情報だけでなく文書データベース全体での出現情報を利用することができ、文書データベース内で頻繁に出現する単語の重要度を調整することが可能となり、第一の実施例に比べ高精度に単語重要度を算出できるようになる。
【０１２０】
本実施例は、第一の実施例（図１）とほぼ同様の構成を取るが、単語重要度算出プログラム１５０の構成が異なり、図１７に示すように統計情報参照プログラム１７００が加わる。
【０１２１】
以下、第一の実施例と異なる単語重要度算出プログラム１５０ａの処理手順について図１８を用いて説明する。
【０１２２】
単語重要度算出プログラム１５０ａは、まずステップ１８００において、統計情報参照プログラム１７００を起動し、全文検索用情報ファイル１８０を参照することにより、種文書から抽出された各単語の文書データベースにおける出現文書数を該単語の統計情報として取得する。
【０１２３】
なお、全文検索用情報ファイル１８０から該単語の出現文書数の取得は、図８に示した全文検索用情報ファイル８０３として示したように全文検索用情報ファイル１８０には各単語の文書番号および出現位置が格納されていることを利用し、該単語の異なる文書番号を計数することで実現することができる。
【０１２４】
そして、ステップ１８０１において、種文書から抽出された各単語の重要度を、該単語の種文書内出現回数および文書データベースにおける統計情報を用いて算出し、ワークエリア１７０に格納する。
【０１２５】
以上が、単語重要度算出プログラム１５０ａの処理手順である。
【０１２６】
なお、本実施例における単語重要度算出式としては、例えばＴＦ・ＩＤＦ（Text Frequency, Inverted Documents Frequency）法を用いるものとしてもよい。
【０１２７】
以上が本発明の第二の実施例である。
【０１２８】
以上説明したように、本発明の第二の実施例における類似文書検索システムを用いることにより、文書データベース内で頻繁に出現する単語（以下、頻出単語と呼ぶ）を考慮した単語重要度を算出できるようになる。すなわち、頻出単語の単語重要度を低く、希少な単語の単語重要度を高く設定することで、種文書の特徴を表す単語を優先的に選択することが可能となり、高精度な類似文書検索を実現することができるようになる。
【０１２９】
次に、本発明の第三の実施例について図１９を用いて説明する。
【０１３０】
本発明を適用した類似文書検索システムの第三の実施例は、第二の実施例と同様に種文書から抽出された単語の重要度を算出する際に、文書データベースに蓄積された登録文書の統計情報を利用するものであるが、統計情報の取得に統計情報ファイル１９００を利用する点が異なる。
【０１３１】
本方法によれば、第二の実施例における単語重要度算出の際に参照する統計情報取得を高速に行なうことができるようになる。
【０１３２】
本実施例は、第二の実施例（図１７）とほぼ同様の構成を取るが、登録制御プログラム１１１の構成が異なり、図１９に示すように統計情報ファイル作成登録プログラム１９００が加わる。また、磁気ディスク装置１０３には統計情報ファイル１９１０が格納される。前記単語重要度算出プログラム１５０ａのステップ１８００では、種文書から抽出された各単語の文書データベースにおける統計情報を取得する際に、全文検索用情報ファイル１８０を参照する代わりに、図１９に示す統計情報ファイル１９１０を参照するようになる。
【０１３３】
以下、第二の実施例と異なる登録制御プログラム１１１ａの処理手順について図２０を用いて説明する。
【０１３４】
登録制御プログラム１１１ａでは、まずステップ１２００において登録文書読込プログラム１２０を起動し、登録対象として指定された文書を読み込み、ワークエリア１７０に格納する。
【０１３５】
次に、ステップ１２０１において、全文検索用情報ファイル作成登録プログラム１２１を起動し、ワークエリア１７０に格納されている登録文書に対応する全文検索用情報を作成し、全文検索用情報ファイル１８０へ格納する。
【０１３６】
次に、ステップ２０００において、統計情報ファイル作成登録プログラム１９００を起動し、ワークエリア１７０に格納されている登録文書に対応する統計情報を作成し、統計情報ファイル１９１０へ格納する。
【０１３７】
以上が、登録制御プログラム１１１の処理手順である。
【０１３８】
図２１に統計情報ファイル作成登録プログラム１９００により作成される統計情報ファイル１９１０の例を示す。
【０１３９】
本図に示した統計情報ファイル１９１０には、管理番号２１００、単語２１０１および出現文書数２１０２が格納される。
【０１４０】
本図に示した例では、管理番号"０"の領域に、単語"ＬＡ"が格納され、該単語の出現文書数が"１"であるというように格納されることを示している。
【０１４１】
なお、図２１に示した例では、統計情報ファイル１９００を表形式で格納されるものとしたが、単語と出現文書数が取得できる形式であればどのような形式であってもかまわない。例えば、トライ形式で格納されるものとしてもかまわないし、全文検索用情報ファイル１８０の先頭領域に格納しておくものとしてもかまわない。
【０１４２】
以上が、本発明の第三の実施例である。
【０１４３】
以上説明したように本発明の第三の実施例によれば、種文書から抽出された各単語の統計情報を取得に、文書登録処理時に予め作成された統計情報ファイルを参照することにより、全文検索用情報を参照して異なる出現文書番号の個数を計数する必要がなくなり、高速に統計情報を取得することができるようになる。これにより、第二の実施例に比べ高速な類似文書検索を実現できるようになる。
【０１４４】
次に本発明の第四の実施例について図２２を用いて説明する。
【０１４５】
本発明を適用した類似文書検索システムの第四の実施例は、種文書から抽出された各単語の統計情報を近似して利用するものである。
【０１４６】
本方法によれば、統計情報の精度を極端に低下させることなく、第三の実施例における統計情報ファイル１９１０に格納される統計情報の容量を削減することができるようになる。
【０１４７】
本実施例は、第三の実施例（図１９）とほぼ同様の構成を取るが、統計情報参照プログラム１７００の構成が異なり、近似統計情報算出プログラム２２００が加わる。
【０１４８】
以下、第三の実施例と異なる統計情報参照プログラム１７００ｂの処理手順について図２３を用いて説明する。
【０１４９】
統計情報参照プログラム１７００ｂは、種文書から抽出された全ての単語についてステップ２３０１〜２３０４を繰り返し実行する（ステップ２３００）。
【０１５０】
ステップ２３０１では、統計情報ファイル１９１０を参照し、該単語に対応する統計情報が格納されているかを確認する。
【０１５１】
そして、該単語が統計情報ファイル１９１０中に格納されている場合にはステップ２３０３を実行し、格納されていない場合にはステップ２３０４を実行する（ステップ２３０２）。
【０１５２】
ステップ２３０３では、統計情報ファイル１９１０を参照し、該単語の統計情報を取得する。
【０１５３】
また、ステップ２３０４では、近似統計情報算出プログラム２２００を起動し、該単語の近似統計情報を算出する。
【０１５４】
以上が、統計情報参照プログラム１７００ｂの処理手順である。
【０１５５】
次に、近似統計情報算出プログラム２２００の処理手順について図２４を用いて具体的に説明する。
【０１５６】
本図に示した例では、まずステップ２３０１において、統計情報を取得する対象となる単語２４００"ＬＡＮ"対して、統計情報ファイル１９１０を参照する。
【０１５７】
ここでは、統計情報ファイル１９１０には"ＬＡＮ"が格納されていないため、ステップ２３０４を実行する。
【０１５８】
ステップ２３０４では、単語２４００"ＬＡＮ"の構成要素である"ＬＡ"と"ＡＮ"の統計情報をそれぞれ取得し、これらの出現文書数のうち少ない値を"ＬＡＮ"の統計情報として設定する。
【０１５９】
本図に示した例では、"ＬＡ"の統計情報２４０１に格納された出現文書数"８０７"と、"ＡＮ"の統計情報２４０２に格納された出現文書数"１５１２"とを比較し、この結果として"ＬＡＮ"の統計情報２４０３として値の小さい"ＬＡ"の出現文書数"８０７"を格納する（２４１０）。
【０１６０】
これは、単語"ＬＡＮ"の構成要素"ＬＡ"と"ＡＮ"の出現文書数が異なる場合、"ＬＡＮ"の出現文書数は各構成要素よりも多くなることはありえないという性質を利用するものである。すなわち、単語"ＬＡＮ"の出現文書数としては、本来"ＬＡＮ"そのものの出現文書数を用いるべきであるが、単語"ＬＡＮ"の構成要素である"ＬＡ"あるいは"ＡＮ"のうち、出現文書数の少ない値を近似した出現文書数として参照するものである。
【０１６１】
以上が近似統計情報算出プログラム２２００の具体的な処理手順である。
【０１６２】
以上が本発明の第四の実施例である。
【０１６３】
以上説明したように、本発明の第四の実施例における類似文書検索システムを用いることにより、全ての単語の出現文書数を統計情報ファイルへ格納する必要がなくなるため、第三の実施例に比べ、統計情報ファイルの容量を削減することができるようになる。
【０１６４】
以上説明したように、本発明の第一の実施例から第四の実施例における類似文書検索システムでは、種文書の類似度を算出し、これに基づいて検索用単語数を調整しているため、検索精度を確保しながら高速に類似文書検索を実現することができる。
【０１６５】
次に、本発明の第五の実施例について図２５を用いて説明する。
【０１６６】
本発明を適用した類似文書検索システムの第五の実施例は、所定の検索時間で検索結果を出力するものである。
【０１６７】
本方法によれば、ユーザは所定の検索時間で検索結果を取得できるため、検索条件で指定した種文書が検索目的に合致しているかをストレスなく判断できるようになる。
【０１６８】
本実施例は、第一の実施例（図１）とほぼ同様の構成を取るが、類似度算出プログラム１３２の構成が異なり、検索処理時間計測プログラム２５００が加わる。
【０１６９】
以下、第一の実施例と異なる類似度算出プログラム１３２ｂの処理手順を図２６のＰＡＤ図を用いて説明する。
【０１７０】
類似度算出プログラム１３２ｂは、ステップ２６００において、検索処理時間計測プログラム２５００を起動し、検索処理時間の計測を開始する。
【０１７１】
次に、ワークエリア１７０に格納された全ての検索用単語に対して、検索処理時間が所定の値（以下、検索制限時間と呼ぶ）以下ならば、ステップ１６０２、１６０３および２６０２を繰り返し実行する（ステップ２６０１）。
【０１７２】
ステップ１６０２では、検索用単語出現回数取得プログラム１６１を起動し、検索用単語に対応する全文検索用情報ファイル１８０を参照して、各登録文書内での出現回数を取得し、ワークエリア１７０に格納する。
【０１７３】
次にステップ１６０３において、要素別類似度算出プログラム１６２を起動し、ワークエリア１７０に格納された検索用単語の種文書内出現回数および登録文書内出現回数を用いて、所定の算出式により種文書に対する登録文書の要素別類似度を算出し、登録文書全体の類似度に加算する。
【０１７４】
そして、ステップ２６０２において、検索処理時間計測プログラム２５００を起動し、検索処理時間の経過時間を測定し、検索処理時間を算出する。
【０１７５】
以上が類似度算出プログラム１３２ｂの処理手順である。
【０１７６】
以上が本発明の第五の実施形態である。
【０１７７】
なお、本実施例のステップ２６０１における検索制限時間は、検索実行時に検索条件として指定するものとしてもよいし、システム設定値として予め設定しておくものとしてもよい。
【０１７８】
また、本実施例では、検索制限時間を設定するものとしたが、設定値によっては少数の検索用単語しか用いられない場合も考えられるため、検索精度を保つための最小限の検索用単語数を設定できるようにしてもよい。この場合は、検索処理時間が検索制限時間を上回ったとしても、指定された最小限の検索用単語数までは類似検索を繰り返すことになる。
【０１７９】
さらに、本実施例では、検索処理時間計測プログラム２５００を用いて類似度算出処理に要する時間を計測するものとしたが、検索処理自体を計測するものとしてもよい。この場合、図２６に示したステップ２６００で検索時間の計測を開始するのではなく、検索制御プログラム１１２により検索条件解析プログラム１３０が起動される前に、検索処理時間計測プログラム２５００を起動し、検索処理時間の測定を開始すればよい。
【０１８０】
以上説明したように本発明の第五の実施例における類似文書検索システムでは、検索に要する時間に基づいて検索用単語数を調整するため、所定の処理時間で検索結果を取得することができるようになる。
【０１８１】
この結果として、ユーザは検索終了時間を予測することができるようになる。
【０１８２】
なお、第一の実施例から第四の実施例で説明した種文書の類似度を目安に検索を終了する類似文書検索システムと第五の実施例で説明した検索時間を目安に検索を終了する類似文書検索システムを検索実行時あるいはシステム定義で切り替えて使用することも可能である。
【０１８３】
次に、本発明の第六の実施例について図２７を用いて説明する。
【０１８４】
本発明を適用した類似文書検索システムの第六の実施例は、種文書から抽出された単語から検索に使用される検索用単語から、検索時間を推定し、長大な時間を要する場合にはユーザに確認を求めるものである。
【０１８５】
本方法によれば、第一の実施例から第四の実施例で説明した類似文書検索システムにおける検索用単語抽出条件では検索に長大な時間を要する場合、事前に検索を取りやめることができるため、ユーザは不用意に待たされることがなくなる。
【０１８６】
本実施例は、第一の実施例（図１）とほぼ同様の構成を取るが、検索用単語抽出プログラム１３１の構成が異なり、図２７に示すように検索時間推定確認プログラム２７００が加わる。
【０１８７】
以下、第一の実施例と異なる検索用単語抽出プログラム１３１ｂの処理手順を図２８のＰＡＤ図を用いて説明する。
【０１８８】
検索用単語抽出プログラム１３１では、まずステップ１５００において、単語重要度算出プログラム１５１を起動し、所定の算出式に基づきワークエリア１７０に格納された単語の重要度を算出し、ワークエリア１７０に格納する。
【０１８９】
次に、前記ステップ１５００でワークエリア１７０に格納された全ての単語に対して、ステップ１５０２〜１５０５を繰り返し実行する（ステップ１５０１）。
【０１９０】
まず、ステップ１５０２において、ワークエリア１７０に格納されている単語を重要度の降順に取得する。
【０１９１】
次に、ステップ１５０３において、検索用単語抽出判定プログラム１５１を起動し、種文書の要素別類似度を算出する。
【０１９２】
そして、ステップ１５０４において、種文書の要素別類似度が、所定の閾値を超えているかを判定し、超えている場合にはステップ１５０５を、越えていない場合には繰り返し処理を終了する。
【０１９３】
そして、ステップ１５０５において、該単語を検索用単語としてワークエリア１７０に格納する。
【０１９４】
次に、ステップ２８００において、ワークエリア１７０に格納された検索用単語から検索時間を推定し、推定された検索時間（以下、推定検索時間と呼ぶ）が所定の値（指定検索時間）を超える場合には、検索の継続を確認するメッセージを表示し、ユーザの確認を受ける。この確認メッセージとしては、例えば図６に示したように、継続ボタン２９０１およびキャンセルボタン２９０１を有するメッセージ２９００を表示するものであってもよい。
【０１９５】
以上が検索用単語抽出プログラム１３１ｂの処理手順である。
【０１９６】
なお、上記ステップ２８００における指定検索時間としては、検索条件として指定するものとしてもよいし、システム定義として予め指定されるものとしてもよいし、あるいはいくつかのテストパターンの結果から自動的に設定されるものとしてもよい。
【０１９７】
また、上記ステップ２８００における検索時間の推定方法としては、該検索用単語の出現文書数から推定するものとしてもよいし、該検索用単語に対応する全文検索用情報ファイル１８０のサイズから推定するものとしてもよい。あるいは、いくつかのテストパターンを用いてひとつの検索用単語に要する平均時間を計測しておき、該平均時間を用いて検索時間を推定するものとしてもよい。
【０１９８】
以上説明したように、本実施例に示した類似文書検索システムでは、抽出された検索用単語から検索時間を推定し、推定検索時間が予め指定された時間を超える場合には検索用単語の抽出条件を調整することが可能となるため、ユーザは不用意に待たされることがなくなる。
【０１９９】
【発明の効果】
以上説明したように、本発明では、種文書の類似度を目安に検索用単語数を設定しているため、類似度算出に使用する検索用単語数を削減することができる。これにより、検索精度を確保することのできる高速な類似文書検索を実現することができる。
【図面の簡単な説明】
【図１】本発明の第一の実施例における類似文書検索システムの全体構成を示す図である。
【図２】従来技術１の処理手順を説明するＰＡＤ図である。
【図３】従来技術１の概要を説明する図である。
【図４】従来技術１の類似度算出方式の考え方を説明する図である。
【図５】従来技術１の類似度算出方式の考え方を説明する図である。
【図６】本発明の第六の実施例における検索時間推定確認プログラム２７００による確認メッセージの例である。
【図７】本発明の処理手順を説明するＰＡＤ図である。
【図８】本発明の登録処理の概要を説明する図である。
【図９】本発明の検索処理の概要を説明する図である。
【図１０】本発明の検索用単語抽出処理の概要を説明する図である。
【図１１】本発明の第一の実施例におけるシステム制御プログラム１１０の処理手順を説明する図である。
【図１２】本発明の第一の実施例における登録制御プログラム１１１の処理手順を説明する図である。
【図１３】本発明の第一の実施例における検索制御プログラム１１２の処理手順を説明するＰＡＤ図である。
【図１４】本発明の第一の実施例における検索条件解析プログラム１３０の処理手順を説明するＰＡＤ図である。
【図１５】本発明の第一の実施例における検索用単語抽出プログラム１３１の処理手順を説明するＰＡＤ図である。
【図１６】本発明の第一の実施例における類似度算出プログラム１３２の処理手順を説明するＰＡＤ図である。
【図１７】本発明の第二の実施例における単語重要度算出プログラム１５０ａの構成を示す図である。
【図１８】本発明の第三の実施例における単語重要度算出プログラム１５０ａの処理手順を説明するＰＡＤ図である。
【図１９】本発明の第三の実施例における登録制御プログラム１１１ａの構成図である。
【図２０】本発明の第三の実施例における登録制御プログラム１１１ａの処理手順を示すＰＡＤ図である。
【図２１】本発明の第三の実施例における統計情報ファイル１９１０の例である。
【図２２】本発明の第四の実施例における統計情報参照プログラム１７００ｂの構成を示す図である。
【図２３】本発明の第四の実施例における統計情報参照プログラム１７００ｂの処理手順を説明するＰＡＤ図である。
【図２４】本発明の第四の実施例における近似統計情報の算出方法を説明する図である。
【図２５】本発明の第五の実施例における類似度算出プログラム１３２ｂの構成を示す図である。
【図２６】本発明の第五の実施例における類似度算出プログラム１３２ｂの処理手順を説明するＰＡＤ図である。
【図２７】本発明の第六の実施例における検索用単語抽出プログラム１３１ｂの構成を示す図である。
【図２８】本発明の第六の実施例における検索用単語抽出プログラム１３１ｂの処理手順を説明するＰＡＤ図である。
【符号の説明】
１００…ディスプレイ、１０１…キーボード、１０２…中央演算処理装置（ＣＰＵ）、１０３…磁気ディスク装置、１０４…フロッピディスクドライブ（ＦＤＤ）、１０５…主メモリ、１０６…バス、１０７…フロッピディスク、１１０…システム制御プログラム、１１１…登録制御プログラム、１１２…検索制御プログラム、１２０…登録文書読込プログラム、１２１…全文検索用情報ファイル作成登録プログラム、１３０…検索条件解析プログラム、１３１…検索用単語抽出プログラム、１３２…類似度算出プログラム、１３３…検索結果出力プログラム、１４０…種文書取得プログラム、１４２…単語抽出プログラム、１４３…種文書内出現回数計数プログラム、１５０…単語重要度算出プログラム、１５１…検索用単語抽出判定プログラム、１６１…検索用単語出現回数取得プログラム、１６２…要素別類似度算出プログラム、１７０…ワークエリア、１８０…全文検索用情報ファイル。

Claims

文書データベースに登録された文章や文字列などの登録文書から指定された種文書に内容が類似する文書を検索する類似文書検索装置における類似文書検索方法であって、
前記類似文書検索装置は、
登録対象とする文書の全文検索用インデクスを作成し、全文検索用情報として格納する全文検索用情報作成ステップと、
指定された種文書から所定の文字列と該文字列が前記種文書中に出現する出現回数とを抽出する文字列抽出ステップと、
前記文字列の重要度を前記文字列の前記種文書における出現回数に基づいて抽出し、前記文字列の重要度の降順に前記文字列を処理対象文字列として選択し、継続判定ステップと類似度算出ステップとを繰り返す類似度算出繰り返しステップと、
前記処理対象文字列の前記重要度が所定の閾値より小さい場合は、前記類似度算出繰り返しステップの繰り返し処理を終了する前記継続判定ステップと、
前記全文検索用情報を参照して、前記処理対象文字列の前記登録文書内での出現回数を算出し、前記処理対象文字列の前記登録文書内での出現回数と前記種文書内での出現回数とに基づいて、前記種文書に対する各登録文書の前記処理対象文字列における類似度を算出し、前記各登録文書の総類似度に加算する前記類似度算出ステップと、
前記類似度算出ステップで算出された前記各登録文書の前記種文書に対する総類似度を出力する検索結果出力ステップと、を実行することを特徴とした類似文書検索方法。
請求項１記載の類似文書検索方法において、
前記継続判定ステップは、前記各登録文書の総類似度の増加率が所定の閾値より小さい場合に、前記類似度算出繰り返しステップの繰り返し処理を終了することを特徴とした類似文書検索方法。
請求項１または２に記載の類似文書検索方法において、
前記継続判定ステップは、類似文書検索開始からの経過時間が所定の時間を超えた場合に、前記類似度算出繰り返しステップの繰り返し処理を終了することを特徴とした類似文書検索方法。
文書データベースに登録された文章や文字列などの登録文書から指定された種文書に内容が類似する文書を検索する類似文書検索装置において、
登録対象とする文書の全文検索用インデクスを作成し、全文検索用情報として格納する全文検索用情報作成手段と、
指定された種文書から所定の文字列と該文字列が前記種文書中に出現する出現回数とを抽出する文字列抽出手段と、
前記文字列の重要度を前記文字列の前記種文書における出現回数に基づいて抽出し、前記文字列の重要度の降順に前記文字列を処理対象文字列として選択し、継続判定手段の処理と類似度算出手段の処理とを繰り返す類似度算出繰り返し手段と、
前記処理対象文字列の前記重要度が所定の閾値より小さい場合は、前記類似度算出繰り返し手段の繰り返し処理を終了する前記継続判定手段と、
前記全文検索用情報を参照して、前記処理対象文字列の前記登録文書内での出現回数を算出し、前記処理対象文字列の前記登録文書内での出現回数と、前記種文書内での出現回数とに基づいて、前記種文書に対する各登録文書の前記処理対象文字列における類似度を算出し、前記各登録文書の総類似度に加算する前記類似度算出手段と、
前記類似度算出手段で算出された前記各登録文書の前記種文書に対する総類似度を出力する検索結果出力手段と、
を有することを特徴とした類似文書検索装置。
請求項４記載の類似文書検索装置において、
前記継続判定手段は、前記各登録文書の総類似度の増加率が所定の閾値より小さい場合に、前記類似度算出繰り返し手段の繰り返し処理を終了することを特徴とした類似文書検索装置。
請求項４または５に記載の類似文書検索装置において、
前記継続判定ステップは、類似文書検索開始からの経過時間が所定の時間を超えた場合に、前記類似度算出繰り返しステップの繰り返し処理を終了することを特徴とした類似文書検索装置。
請求項１〜３のいずれか１項に記載の類似文書検索方法の各ステップをコンピュータに実現させるためのプログラムを格納した記憶媒体。