JP4045728B2 - 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体 - Google Patents

類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体 Download PDF

Info

Publication number
JP4045728B2
JP4045728B2 JP2000263240A JP2000263240A JP4045728B2 JP 4045728 B2 JP4045728 B2 JP 4045728B2 JP 2000263240 A JP2000263240 A JP 2000263240A JP 2000263240 A JP2000263240 A JP 2000263240A JP 4045728 B2 JP4045728 B2 JP 4045728B2
Authority
JP
Japan
Prior art keywords
document
search
similarity
word
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000263240A
Other languages
English (en)
Other versions
JP2002073681A (ja
Inventor
忠孝 松林
伸也 山本
勝己 多田
菅谷  奈津子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000263240A priority Critical patent/JP4045728B2/ja
Publication of JP2002073681A publication Critical patent/JP2002073681A/ja
Application granted granted Critical
Publication of JP4045728B2 publication Critical patent/JP4045728B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ユーザが指定した文書に記述されている内容と類似する内容を含む文書を、文書データベースの中から検索する方法に関する。
【0002】
【従来の技術】
近年、パーソナルコンピュータやインターネット等の普及に伴い、電子化文書が爆発的に増加しており、今後も加速度的に増大していくものと予想される。このような状況において、ユーザが所望する情報を含んだ文書を高速かつ効率的に検索したいという要求が高まってきている。
【0003】
このような要求に応える技術として、ユーザが自分の所望する内容を含んだ文書(以下、種文書と呼ぶ)を例示し、その文書と類似する文書を検索する類似文書検索技術が注目されている。
【0004】
類似文書検索の方法としては、例えば「特開平11−66086」が開示されている(以下、従来技術1と呼ぶ)。
【0005】
本従来技術1では、文書データベースに対して文書を登録する際に、登録対象となる文書を全文検索するために必要な情報(従来技術1では、転置インデックスと呼んでいる。以下、全文検索用インデクスと呼ぶ。)を作成しておき、類似文書の検索時に、本全文検索用インデクスを参照することで登録済みの文書(以下、登録文書と呼ぶ)に含まれる単語の出現頻度情報を要素としてもつベクトル(以下、特徴ベクトルと呼ぶ)を作成し、これと検索条件として指定された文書(以下、種文書と呼ぶ)の特徴ベクトルとが、ベクトル空間内においてなす角度の余弦を文書間の類似度として算出する技術である。
【0006】
以下、従来技術1の処理手順を図2のPAD(Problem Analysis Diagram)図を用いて説明する。
【0007】
従来技術1では、まずステップ200において、文書の登録処理か類似文書の検索処理かを判定し、文書の登録処理と判定された場合には全文検索用インデクス作成ステップ210を実行し、全文検索用インデクスを作成する。
【0008】
また、ステップ200において類似文書の検索処理と判定された場合には、種文書特徴ベクトル生成ステップ220を実行し、種文書に対して特徴ベクトルを作成する。そして、全文検索用インデクスを用いた類似度算出ステップ221を実行し、該種文書の特徴ベクトルと登録文書の特徴ベクトルが、ベクトル空間内においてなす角度の余弦を文書間の類似度として算出する。
【0009】
以上が、従来技術1の処理手順である。
【0010】
以下、図3を用いて本従来技術1の概要を説明する。
【0011】
従来技術1の文書登録処理では、まず全文検索用インデクス作成処理210で登録用文書1および文書2中に含まれる単語および出現位置を抽出し、全文検索用インデクス403を作成する。この結果、全文検索用インデクス403には、"構築:(文書1,5)(文書2,8)"のように記録される。ここで、"構築:(文書1,5)(文書2,8)"は、文字列"構築"が文書1の5文字目に、文書2の8文字目に出現していることを表している。
【0012】
そして、類似文書の検索処理では、検索条件で指定された種文書を抽出し、種文書特徴ベクトル生成処理220を通じて該種文書に対応する種文書特徴ベクトル406を生成する。
【0013】
次に、種文書特徴ベクトル406中に含まれる全ての単語に対して、前記文書登録処理で作成した全文検索用インデクス403を参照することで、各登録文書中の出現回数を取得する。
【0014】
ここで図4に示すように、二つのベクトルXおよびYの余弦は、ベクトルの対応する成分同士(例えばx(i)とy(i))の積和値をそれぞれのベクトルの大きさで除算することにより得られることに着目する。すなわち、特定のベクトル間の内積をベクトルの組ごとに算出していくのではなく、ベクトルの要素ごとの内積成分(以下、要素別類似度と呼ぶ)を計算した後に、全ての要素における要素別類似度の総和を算出する。なお図4では、ベクトルXのi番目の要素を"x(i)"と表し、ベクトルXの大きさを"|X|"と表す。
【0015】
すなわち、図3において種文書特徴ベクトル406と登録文書の特徴ベクトルの余弦を算出するためには、種文書特徴ベクトル406中の全ての単語に対して、種文書と各登録文書での出現回数の積和値を各登録文書における単語毎の要素別類似度として算出し、全ての登録文書について単語毎の要素別類似度の総和をとることで算出できる。
【0016】
以下、本類似度算出方法を図5を用いて具体的に説明する。
【0017】
種文書特徴ベクトルをベクトルX、文書1の特徴ベクトル(以下、特徴ベクトル1と呼ぶ)をベクトルY、文書2の特徴ベクトル(以下、特徴ベクトル2と呼ぶ)をベクトルZと表すとき、種文書特徴ベクトルと特徴ベクトル1および特徴ベクトル2の内積の第1成分は、それぞれ"x(1)y(1)"および"x(1)z(1)"として算出することができる。
【0018】
ここで、"x(1)"は単語1の種文書での出現回数を表しており、"y(1)"および"z(1)"はそれぞれ単語1の文書1および文書2での出現回数を表している。
【0019】
すなわち、単語1の各文書での出現回数600は、種文書内での単語1の出現回数を計数すると共に、単語1に対応する全文検索用インデクスを参照することで取得することができる。
【0020】
以下同様に、種文書中の全ての単語に対応する全文検索用インデクスを参照することで、種文書に対する登録文書の類似度を算出することができる。
【0021】
以上が、従来技術1における類似度算出方法の具体的な説明である。
【0022】
最後に、各登録文書全体の類似度407を出力する。
【0023】
以上が、従来技術1の概要である。
【0024】
以上説明したように従来技術1によれば、登録文書中に含まれる単語用の全文検索用単語インデクスを予め作成しておくことで、文書検索時に登録文書の特徴ベクトルの生成を可能とし、検索条件として指定された種文書に対応する種文書特徴ベクトルとの余弦を類似度として算出することで、文書データベース中から内容の類似する文書を検索することができる。
【0025】
しかし従来技術1には、種文書から抽出された全ての単語に対して全文検索用インデクスを参照し、類似度算出に使用しているため、種文書に含まれる単語数が多いときには膨大な処理時間が必要になるということである。
【0026】
例えば、種文書中の1種類の単語に対する全文検索用インデクスを0.5秒で参照可能としても、種文書から100種類の単語が抽出されているとすると、50秒もの処理時間を要してしまうことになる。
【0027】
一方、処理時間を低減するために単純に種文書特徴ベクトルの単語を間引いてしまうと、単語の種類数を削減してしまうため種文書で重要な意味を持つ単語までもが排除される可能性があり、検索精度が極端に低下してしまう恐れがある。
【0028】
【発明が解決しようとする課題】
このような問題に対し、本発明では以下の課題を解決することを目的とする。
【0029】
すなわち本発明の課題は、文書データベースへの文書登録時に登録文書の特徴ベクトルを作成することなく、類似文書の検索時に全登録文書の特徴ベクトルを作成し、最新の単語情報を用いた類似度算出を行なう類似文書検索方法において、
検索精度を確保することのできる最低限の単語数を使用することにより、高速な類似文書検索方法を実現することである。
【0030】
【課題を解決するための手段】
上記課題を解決するための、本発明に示す類似文書検索の処理手順を図7に示すPAD図に示す。
【0031】
本発明に示す類似文書検索方法は、登録処理か研作処理かを判定する処理種別判定処理200と、文書の登録処理として全文検索用インデクス作成処理210と、類似文書の検索処理として、種文書特徴ベクトル生成処理220と全文検索用インデクスを用いた類似度算出処理221を有する類似文書検索方法において、種文書特徴ベクトル生成処理220と全文検索用インデクスを用いた類似度算出処理221の間に、検索用単語抽出処理701を有することを特徴とする。
【0032】
すなわち、本発明による類似文書検索方法は、文書データベースへの文書登録時の全文検索用インデクス作成処理2100として、(ステップ1)登録対象文書を読み込む登録文書読込みステップ、(ステップ2)上記登録文書読込みステップで読み込まれた登録対象文書のテキストから、全文検索用情報を抽出し、全文検索用情報ファイルに格納する全文検索用情報ファイル作成登録ステップ、と、類似文書の検索処理における種文書特徴ベクトル生成処理220として、(ステップ3)検索条件で指定された種文書を取得する種文書取得ステップ、(ステップ4)前記種文書読込みステップで読み込まれた種文書を解析し、種文書中に含まれる単語を抽出する種文書解析単語抽出ステップ、(ステップ5)上記種文書解析ステップで抽出された単語の出現回数を計数する種文書内出現回数計数ステップと、検索用単語抽出処理701として、(ステップ6)上記種文書内出現回数計数ステップで計数された各単語の出現回数に基づき、該単語の重要度を算出する単語重要度算出ステップ、(ステップ7)上記(ステップ6)で算出された各単語の重みの降順に単語を選択し、種文書自体に対する該単語の要素別類似度を算出し、該要素別類似度が所定の閾値を超える場合に、該単語を検索用単語として抽出する検索用単語判定ステップと、全文検索用インデクスを用いた類似度算出処理221として、(ステップ8)上記種文書特徴ベクトル生成処理220において、種文書から抽出された検索用単語を用いて、以下の(ステップ9)〜(ステップ10)を実行する類似度算出ステップ、(ステップ9)前記全文検索用情報ファイル作成登録ステップで作成された全文検索用情報を参照し該検索用単語の各登録文書での出現回数を取得する検索用単語出現回数取得ステップ、(ステップ10)前記検索用単語選択ステップで選択された該検索用単語に関する
前記種文書内出現回数計数ステップで取得した種文書内出現回数および前記単語出現回数取得ステップで取得した各登録文書における検索用単語出現回数を用いて種文書と登録文書の要素別類似度を算出し、各登録文書の全体の類似度に加算する要素別類似度算出ステップ、(ステップ11)上記要素別類似度算出ステップで算出された類似度を出力する検索結果出力ステップを有する。
【0033】
上記類似文書検索方法を用いた本発明の原理について図8〜図10を用いて説明する。
【0034】
本発明の類似文書検索方法では、文書データベースへの文書登録時に(ステップ1)および(ステップ2)を実行する。
【0035】
以下、図8を用いて、文書の登録に際する処理手順の概要を説明する。
【0036】
まず、(ステップ1)で登録対象となる文書を読み込む。図8に示した例では、登録対象文書として文書1「LANの構築と運用・保守に必要な機器を提供する。」および文書2「情報システムの構築や保守を手がけるSIベンダと提携する。」が登録対象文書として読み込まれる。
【0037】
次に、(ステップ2)において、上記(ステップ1)で読み込まれた登録対象文書のテキストから、全文検索用情報を抽出し、全文検索用情報ファイルに格納する。
【0038】
図8に示した例では、文書1中に含まれる"L"に対応する全文検索用情報として(文書1,1)が抽出され、全文検索用情報ファイル803中に格納される。なお、L(文書1,1)は、"文書1"の文字位置1に文字"L"が出現することを表す。
【0039】
また、ここで用いる全文検索用情報としては、任意の単語あるいは文字列の各登録文書での出現回数を取得することができれば、従来技術1に示したように単語インデクス方式を用いるものとしてもよいし、「特開平08−194718」に開示されているn-gramインデクス方式を用いるものとしてもよい。
【0040】
以上が、本発明の文書登録に際する処理手順の概要である。
【0041】
次に、本発明に示した類似文書検索方法では、文書の検索時に(ステップ3)〜(ステップ11)を実行する。
【0042】
以下、図9を用いて文書の検索に際する処理手順の概要を説明する。
【0043】
まず(ステップ3)で検索条件として指定された種文書901「LANシステムの構築ノウハウを武器にソリューションを展開する・・・」を読み込む。
【0044】
そして、(ステップ4)において、種文書を解析し、種文書中に含まれる単語を抽出する。ここで用いる種文書解析処理としては、従来技術1に示されるように単語辞書を参照し、単語辞書に含まれる単語を抽出される方式でもよいし、「特開平10−148721」に開示されているように文書データベース中の統計情報を用いた単語抽出方法を用いてもよいし、種文書中に含まれるn-gramを機械的に抽出する方法であってもよいし、その他の単語抽出技術を使用しても構わない。
【0045】
図9に示した例では、この種文書解析処理の結果として、単語列903(LAN,構築,ノウハウ,武器,ソリューション,展開,…)が抽出されている。
【0046】
次に、(ステップ5)において、上記(ステップ4)で抽出された単語の種文書内での出現回数を計数し、単語と出現回数の組904([LAN,4][構築,3][ノウハウ,2][武器,1][ソリューション,2][展開,1]…)を出力する。
【0047】
ここで、[LAN,3]は、単語"LAN"が3回出現しているということを表している。
【0048】
次に、(ステップ6)において、上記(ステップ5)で抽出された単語と出現回数の組904に対して、重要度を算出し、単語と重要度の組を出力する。この重要度の算出方法としては、例えば、種文書中の出現回数としてもよいし、データベースに登録された文書数に対する該単語の出現文書数の割合(以下、出現割合と呼ぶ)等を用いてもよい。図9に示した例では、種文書901中での出現回数を単語の重要度として算出し、単語重要度列905「[LAN,4][構築,3][ソリューション,2]…を出力している。ここで、[LAN,4]は、単語"LAN"が重要度"4"として種文書に含まれていることを表す。
【0049】
そして、(ステップ7)において、上記(ステップ8)において算出された各単語の重要度の降順に種文書自体に対する要素別類似度を算出し、該要素別類似度が所定の閾値を超えている場合、該単語を検索用単語として抽出する。この結果として、検索用単語[LAN,4][構築,3]が抽出される。
【0050】
次に、(ステップ8)〜(ステップ10)において、前記(ステップ7)で取得された各単語の種文書内出現回数および前記(ステップ2)で作成された全文検索用情報ファイル803を参照することで、種文書に対する各登録文書の類似度を算出する。
【0051】
そして、(ステップ11)において、類似度算出結果906を出力する。
【0052】
以上が、本発明の文書検索に際する処理手順の概要である。
【0053】
以下、上述した(ステップ7)により実行される検索用単語の抽出処理手順について、図10を用いて説明する。
【0054】
まず、(ステップ7)において、前記(ステップ6)で出力された単語重要度列905を読み込み、重要度の降順に単語を選択する。図10では、単語重要度列905「[LAN,4]、[構築,3]、[ソリューション,2]…」から、まず[LAN,4]を抽出している。
【0055】
そして、検索用単語"LAN"の種文書内出現回数"4"を用いて、種文書に対する種文書の類似度の該検索用単語の要素別類似度を計算する。すなわち、登録文書として種文書と同一の文書が存在するもの(以下、仮想登録文書と呼ぶ)と仮定し、種文書特徴ベクトルと該仮想登録文書の特徴ベクトル間における該検索用単語の要素別類似度を算出し、総和を算出する。
【0056】
図10では、検索用単語"LAN"の種文書内出現回数"4"と仮想登録文書内出現回数"4"の積を算出し、要素別類似度"16"を得る。
【0057】
この結果、検索用単語"LAN"による種文書自体に対する要素別類似度は所定の閾値(本図に示した例では、5とする)を超えているため、検索用単語としてワークエリア170へ格納する。
【0058】
次に、[LAN,4]の次に重要度の高い[構築,3]を選択し、種文書に対する種文書の類似度の該検索用単語の要素別類似度を計算する。この結果、要素別類似度は9となり、所定の閾値5を超えているため、検索用単語としてワークエリア170へ格納する。
【0059】
そして、[構築,3]の次に重要度の高い[ソリューション,2]を選択し、種文書に対する種文書の類似度の該検索用単語の要素別類似度を計算する。この結果、要素別類似度は4となり、所定の閾値を超えていないため、検索用単語として抽出せずに、終了する。
【0060】
以上が、検索用単語抽出処理手順の説明である。
【0061】
以上説明したように、文書データベースへの文書登録時に、登録文書に対する登録特徴ベクトルを作成する代わりに、全文検索用インデクスを作成しておき、類似文書の検索時には、種文書における特徴ベクトルの要素のうち種文書内での重要度の順に検索用単語を抽出し、種文書自体に対する類似度が収束するまで抽出した単語を検索用単語として使用するため、全ての単語を検索に使用する場合に比べて、検索精度を極端に落とすことなく種文書と登録文書の類似度を高速に算出することが可能となる。
【0062】
【発明の実施の形態】
以下、本発明の第一の実施例について図1を用いて説明する。
【0063】
本発明を適用した類似文書検索システムの第一例は、ディスプレイ100、キーボード101、中央演算処理装置(CPU)102、磁気ディスク装置103、フロッピディスクドライブ(FDD)104、主メモリ105およびこれらを結ぶバス106から構成される。
【0064】
磁気ディスク装置103は二次記憶装置の一つであり、全文検索用情報ファイル180が格納される。
【0065】
FDD104を介してフロッピディスク107に格納されている情報が、主メモリ105あるいは磁気ディスク装置103へ読み込まれる。
【0066】
主メモリ105には、システム制御プログラム110、登録制御プログラム111、検索制御プログラム112、登録文書読込プログラム120、全文検索用情報ファイル作成登録プログラム121、検索条件解析プログラム130、検索用単語抽出プログラム131、類似度算出プログラム132、検索結果出力プログラム133が格納されると共にワークエリア170が確保される。
【0067】
検索条件解析プログラム130は、種文書取得プログラム140、単語抽出プログラム142および種文書内出現回数計数プログラム143で構成される。
【0068】
検索用単語抽出プログラム131は、単語重要度算出プログラム150および検索用単語抽出判定プログラム151で構成される。
【0069】
類似度算出プログラム132は、検索用単語出現回数取得プログラム161および要素別類似度算出プログラム162で構成される。
【0070】
登録制御プログラム111および検索制御プログラム112は、ユーザによるキーボード101からの指示に応じてシステム制御プログラム110によって起動され、それぞれ登録文書読込プログラム120および全文検索用情報ファイル作成登録プログラム121の制御と、検索条件解析プログラム130、検索用単語抽出プログラム131、類似度算出プログラム132および検索結果出力プログラム133の制御を行なう。
【0071】
なお本実施例では、キーボード101から入力されたコマンドにより、登録制御プログラム111や検索制御プログラム112が起動されるものとしたが、他の入力装置を介して入力されたコマンドあるいはイベントにより起動されるものであってもかまわない。
【0072】
また、これらのプログラムを磁気ディスク装置103、フロッピディスク107、MO、CD−ROM、DVD(図1には示していない)等の記憶媒体に格納し、駆動装置を介して主メモリ105に読み込み、CPU102によって実行することも可能である。
【0073】
以下、本実施例における類似文書検索システムの処理手順について説明する。
【0074】
まず、システム制御プログラム110の処理手順について図11のPAD図を用いて説明する。
【0075】
システム制御プログラム110は、まずステップ1100で、キーボード101から入力されたコマンドを解析する。
【0076】
そしてステップ1101で、この結果が登録実行のコマンドであると解析された場合には、ステップ1102で登録制御プログラム111を起動して、文書の登録を行なう。
【0077】
またステップ1101で、検索実行のコマンドであると解析された場合には、ステップ703で検索制御プログラム112を起動して、類似文書の検索を行なう。
【0078】
以上が、システム制御プログラム110の処理手順である。
【0079】
次に、図11に示したステップ1102でシステム制御プログラム110により起動される登録制御プログラム111の処理手順について、図12のPAD図を用いて説明する。
【0080】
登録制御プログラム111では、まずステップ1200において登録文書読込プログラム120を起動し、登録対象として指定された文書(以下、登録対象文書と呼ぶ)を読み込み、ワークエリア170に格納する。
【0081】
次に、ステップ1201において、全文検索用情報ファイル作成登録プログラム121を起動し、ワークエリア170に格納されている登録文書に対応する全文検索用情報を作成し、全文検索用情報ファイル180へ格納する。
【0082】
以上が、登録制御プログラム111の処理手順である。
【0083】
次に、図11に示したステップ1103でシステム制御プログラム110により起動される検索制御プログラム112の処理手順について、図13のPAD図を用いて説明する。
【0084】
検索制御プログラム112は、まずステップ1300において、検索条件解析プログラム130を起動し、種文書から単語を抽出する。
【0085】
次にステップ1301において、検索用単語抽出プログラム131を起動し、上記ステップ1300において種文書から抽出された単語の重要度を算出し、所定の条件に基づいて重要度の高い単語を検索用単語として抽出する。
【0086】
そしてステップ1302において、類似度算出プログラム132を起動し、上記ステップ1301において種文書から抽出された検索用単語の出現情報を用いて、種文書に対する各登録文書の類似度を算出する。
【0087】
そしてステップ1303において、検索結果出力プログラム133を起動し、上記ステップ1302で算出された類似度算出結果を検索結果として出力する。
【0088】
ここで、検索結果の出力先は、ディスプレイ100に表示するものとしてもよいし、ワークエリア170や磁気ディスク103上に格納するものとしてもよい。また、類似度算出結果をディスプレイ100に出力する場合には、類似度の降順に出力するものとしてもよいし、文書に付与された管理番号の昇順あるいは降順に出力するものとしてもよい。
【0089】
以上が検索制御プログラム112の処理手順である。
【0090】
次に、図13に示したステップ1300で検索制御プログラム112により起動される検索条件解析プログラム130の処理手順について、図14のPAD図を用いて説明する。
【0091】
検索条件解析プログラム130は、まずステップ1400において、種文書取得プログラム140を起動し、検索条件で指定された種文書を抽出し、ワークエリア170に格納する。
【0092】
次にステップ1402において、単語抽出プログラム142を起動し、ワークエリア170に格納された種文書から単語を抽出する。
【0093】
そしてステップ1403において、種文書内出現回数計数プログラム143を起動し、ステップ1402で抽出された単語について、種文書内での出現回数を計数し、ワークエリア170に格納する。
【0094】
以上が検索条件解析プログラム130の処理手順である。
【0095】
次に、図13に示したステップ1301で検索制御プログラム112により起動される検索用単語抽出プログラム131の処理手順について、図15のPAD図を用いて説明する。
【0096】
検索用単語抽出プログラム131は、まずステップ1500において、単語重要度算出プログラム151を起動し、所定の算出式に基づきワークエリア170に格納された単語の重要度を算出し、ワークエリア170に格納する。
【0097】
次に、前記ステップ1500でワークエリア170に格納された全ての単語に対して、ステップ1502〜1505を繰り返し実行する(ステップ1501)。
【0098】
まず、ステップ1502において、ワークエリア170に格納されている単語を重要度の降順に取得する。
【0099】
次に、ステップ1503において、検索用単語抽出判定プログラム151を起動し、種文書の要素別類似度を算出する。
【0100】
そして、ステップ1504において、種文書の要素別類似度が、所定の閾値を超えているかを判定し、超えている場合にはステップ1505を、越えていない場合には繰り返し処理を終了する。
【0101】
そして、ステップ1505において、該単語を検索用単語としてワークエリア170に格納する。
【0102】
以上が検索用単語抽出プログラム131の処理手順である。
【0103】
なお、上述のステップ1502における各単語の要素別類似度の算出方法は、従来技術1に示されるように、各単語の種文書での出現回数を用いて算出してもよいし、
後述するように、該単語の文書データベースでの出現文書数等の統計情報を用いるものでもよいし、
さらには、文書内での出現位置情報を考慮することもできる。
【0104】
次に、図13に示したステップ1302で検索制御プログラム112により起動される類似度算出プログラム132の処理手順について、図16のPAD図を用いて説明する。
【0105】
類似度算出プログラム132は、ワークエリア170に格納された全ての検索用単語に対して、ステップ1602〜1603を繰り返し実行する(ステップ1601)。
【0106】
ステップ1602では、検索用単語出現回数取得プログラム161を起動し、検索用単語に対応する全文検索用情報ファイル180を参照して、各登録文書内での出現回数を取得し、ワークエリア170に格納する。
【0107】
次にステップ1603において、要素別類似度算出プログラム162を起動し、ワークエリア170に格納された検索用単語の種文書内出現回数および登録文書内出現回数を用いて、所定の算出式により種文書に対する登録文書の要素別類似度を算出し、登録文書全体の類似度に加算する。
【0108】
以上が類似度算出プログラム132の処理手順である。
【0109】
以上が、本発明の第一の実施形態である。
【0110】
なお、本実施例では、検索条件解析プログラム130により種文書から単語が抽出されるものとしたが、単語の代わりにn-gramが抽出されるものとしてもよい。この場合、検索用単語抽出プログラム131により処理される単位もn-gramとなる。
【0111】
また、検索用単語抽出プログラム131のステップ1504では、ステップ1503で算出された種文書の要素別類似度が所定の閾値を超えるか否かを判定するものとしたが、
要素別類似度ではなく類似度の総和が所定の閾値を超えているかを判定するものとしてもよいし、
さらには、種文書から抽出された全ての単語における要素別類似度の総和に対する類似度の算出割合が所定の閾値を超えているかを判定するものとしてもよい。
【0112】
また、本実施例では種文書に対する各登録文書の類似度の算出には、単語の出現回数を直接用いたが、さらにこれを種文書や登録文書の文書の長さ等により正規化してもよいことは明らかであろう。
【0113】
以上説明したように、本発明の第一の実施形態によれば、種文書に対する要素別類似度の値を目安にして類似度算出に使用する検索用単語数を削減しているため、種文書に対する類似度算出結果が収束する必要最低限の検索で処理を終了させることができる。
【0114】
この結果として、検索精度を極端に低下させることなく検索用単語数を削減することができ、高速な類似文書検索を実現することができるようになる。
【0115】
なお、本実施例では、登録対象文書や種文書を文書としたが、文章あるいは文字列であっても構わないことは明らかであろう。
【0116】
また、以上説明した本発明の第一の実施例における検索用単語抽出プログラム131では、種文書の要素別類似度の値を目安にして検索用単語を削減するものとしたが、予め指定された数の検索用単語を抽出するものとしてもよい。この場合の検索用単語数の設定方法としては、予め用意したテストパターンを用いて所定の時間以内に検索が終了するように検索用単語数を決定するものとしてもよい。
【0117】
次に本発明の第二の実施例について図17を用いて説明する。
【0118】
本発明を適用した類似文書検索システムの第二の実施例は、種文書から抽出された単語の重要度を算出する際に、文書データベースに蓄積された登録文書の統計情報を利用するものである。
【0119】
本方法によれば、第一の実施例における単語重要度算出プログラム150による単語重要度算出の際に、種文書内の出現情報だけでなく文書データベース全体での出現情報を利用することができ、文書データベース内で頻繁に出現する単語の重要度を調整することが可能となり、第一の実施例に比べ高精度に単語重要度を算出できるようになる。
【0120】
本実施例は、第一の実施例(図1)とほぼ同様の構成を取るが、単語重要度算出プログラム150の構成が異なり、図17に示すように統計情報参照プログラム1700が加わる。
【0121】
以下、第一の実施例と異なる単語重要度算出プログラム150aの処理手順について図18を用いて説明する。
【0122】
単語重要度算出プログラム150aは、まずステップ1800において、統計情報参照プログラム1700を起動し、全文検索用情報ファイル180を参照することにより、種文書から抽出された各単語の文書データベースにおける出現文書数を該単語の統計情報として取得する。
【0123】
なお、全文検索用情報ファイル180から該単語の出現文書数の取得は、図8に示した全文検索用情報ファイル803として示したように全文検索用情報ファイル180には各単語の文書番号および出現位置が格納されていることを利用し、該単語の異なる文書番号を計数することで実現することができる。
【0124】
そして、ステップ1801において、種文書から抽出された各単語の重要度を、該単語の種文書内出現回数および文書データベースにおける統計情報を用いて算出し、ワークエリア170に格納する。
【0125】
以上が、単語重要度算出プログラム150aの処理手順である。
【0126】
なお、本実施例における単語重要度算出式としては、例えばTF・IDF(Text Frequency, Inverted Documents Frequency)法を用いるものとしてもよい。
【0127】
以上が本発明の第二の実施例である。
【0128】
以上説明したように、本発明の第二の実施例における類似文書検索システムを用いることにより、文書データベース内で頻繁に出現する単語(以下、頻出単語と呼ぶ)を考慮した単語重要度を算出できるようになる。すなわち、頻出単語の単語重要度を低く、希少な単語の単語重要度を高く設定することで、種文書の特徴を表す単語を優先的に選択することが可能となり、高精度な類似文書検索を実現することができるようになる。
【0129】
次に、本発明の第三の実施例について図19を用いて説明する。
【0130】
本発明を適用した類似文書検索システムの第三の実施例は、第二の実施例と同様に種文書から抽出された単語の重要度を算出する際に、文書データベースに蓄積された登録文書の統計情報を利用するものであるが、統計情報の取得に統計情報ファイル1900を利用する点が異なる。
【0131】
本方法によれば、第二の実施例における単語重要度算出の際に参照する統計情報取得を高速に行なうことができるようになる。
【0132】
本実施例は、第二の実施例(図17)とほぼ同様の構成を取るが、登録制御プログラム111の構成が異なり、図19に示すように統計情報ファイル作成登録プログラム1900が加わる。また、磁気ディスク装置103には統計情報ファイル1910が格納される。前記単語重要度算出プログラム150aのステップ1800では、種文書から抽出された各単語の文書データベースにおける統計情報を取得する際に、全文検索用情報ファイル180を参照する代わりに、図19に示す統計情報ファイル1910を参照するようになる。
【0133】
以下、第二の実施例と異なる登録制御プログラム111aの処理手順について図20を用いて説明する。
【0134】
登録制御プログラム111aでは、まずステップ1200において登録文書読込プログラム120を起動し、登録対象として指定された文書を読み込み、ワークエリア170に格納する。
【0135】
次に、ステップ1201において、全文検索用情報ファイル作成登録プログラム121を起動し、ワークエリア170に格納されている登録文書に対応する全文検索用情報を作成し、全文検索用情報ファイル180へ格納する。
【0136】
次に、ステップ2000において、統計情報ファイル作成登録プログラム1900を起動し、ワークエリア170に格納されている登録文書に対応する統計情報を作成し、統計情報ファイル1910へ格納する。
【0137】
以上が、登録制御プログラム111の処理手順である。
【0138】
図21に統計情報ファイル作成登録プログラム1900により作成される統計情報ファイル1910の例を示す。
【0139】
本図に示した統計情報ファイル1910には、管理番号2100、単語2101および出現文書数2102が格納される。
【0140】
本図に示した例では、管理番号"0"の領域に、単語"LA"が格納され、該単語の出現文書数が"1"であるというように格納されることを示している。
【0141】
なお、図21に示した例では、統計情報ファイル1900を表形式で格納されるものとしたが、単語と出現文書数が取得できる形式であればどのような形式であってもかまわない。例えば、トライ形式で格納されるものとしてもかまわないし、全文検索用情報ファイル180の先頭領域に格納しておくものとしてもかまわない。
【0142】
以上が、本発明の第三の実施例である。
【0143】
以上説明したように本発明の第三の実施例によれば、種文書から抽出された各単語の統計情報を取得に、文書登録処理時に予め作成された統計情報ファイルを参照することにより、全文検索用情報を参照して異なる出現文書番号の個数を計数する必要がなくなり、高速に統計情報を取得することができるようになる。これにより、第二の実施例に比べ高速な類似文書検索を実現できるようになる。
【0144】
次に本発明の第四の実施例について図22を用いて説明する。
【0145】
本発明を適用した類似文書検索システムの第四の実施例は、種文書から抽出された各単語の統計情報を近似して利用するものである。
【0146】
本方法によれば、統計情報の精度を極端に低下させることなく、第三の実施例における統計情報ファイル1910に格納される統計情報の容量を削減することができるようになる。
【0147】
本実施例は、第三の実施例(図19)とほぼ同様の構成を取るが、統計情報参照プログラム1700の構成が異なり、近似統計情報算出プログラム2200が加わる。
【0148】
以下、第三の実施例と異なる統計情報参照プログラム1700bの処理手順について図23を用いて説明する。
【0149】
統計情報参照プログラム1700bは、種文書から抽出された全ての単語についてステップ2301〜2304を繰り返し実行する(ステップ2300)。
【0150】
ステップ2301では、統計情報ファイル1910を参照し、該単語に対応する統計情報が格納されているかを確認する。
【0151】
そして、該単語が統計情報ファイル1910中に格納されている場合にはステップ2303を実行し、格納されていない場合にはステップ2304を実行する(ステップ2302)。
【0152】
ステップ2303では、統計情報ファイル1910を参照し、該単語の統計情報を取得する。
【0153】
また、ステップ2304では、近似統計情報算出プログラム2200を起動し、該単語の近似統計情報を算出する。
【0154】
以上が、統計情報参照プログラム1700bの処理手順である。
【0155】
次に、近似統計情報算出プログラム2200の処理手順について図24を用いて具体的に説明する。
【0156】
本図に示した例では、まずステップ2301において、統計情報を取得する対象となる単語2400"LAN"対して、統計情報ファイル1910を参照する。
【0157】
ここでは、統計情報ファイル1910には"LAN"が格納されていないため、ステップ2304を実行する。
【0158】
ステップ2304では、単語2400"LAN"の構成要素である"LA"と"AN"の統計情報をそれぞれ取得し、これらの出現文書数のうち少ない値を"LAN"の統計情報として設定する。
【0159】
本図に示した例では、"LA"の統計情報2401に格納された出現文書数"807"と、"AN"の統計情報2402に格納された出現文書数"1512"とを比較し、この結果として"LAN"の統計情報2403として値の小さい"LA"の出現文書数"807"を格納する(2410)。
【0160】
これは、単語"LAN"の構成要素"LA"と"AN"の出現文書数が異なる場合、"LAN"の出現文書数は各構成要素よりも多くなることはありえないという性質を利用するものである。すなわち、単語"LAN"の出現文書数としては、本来"LAN"そのものの出現文書数を用いるべきであるが、単語"LAN"の構成要素である"LA"あるいは"AN"のうち、出現文書数の少ない値を近似した出現文書数として参照するものである。
【0161】
以上が近似統計情報算出プログラム2200の具体的な処理手順である。
【0162】
以上が本発明の第四の実施例である。
【0163】
以上説明したように、本発明の第四の実施例における類似文書検索システムを用いることにより、全ての単語の出現文書数を統計情報ファイルへ格納する必要がなくなるため、第三の実施例に比べ、統計情報ファイルの容量を削減することができるようになる。
【0164】
以上説明したように、本発明の第一の実施例から第四の実施例における類似文書検索システムでは、種文書の類似度を算出し、これに基づいて検索用単語数を調整しているため、検索精度を確保しながら高速に類似文書検索を実現することができる。
【0165】
次に、本発明の第五の実施例について図25を用いて説明する。
【0166】
本発明を適用した類似文書検索システムの第五の実施例は、所定の検索時間で検索結果を出力するものである。
【0167】
本方法によれば、ユーザは所定の検索時間で検索結果を取得できるため、検索条件で指定した種文書が検索目的に合致しているかをストレスなく判断できるようになる。
【0168】
本実施例は、第一の実施例(図1)とほぼ同様の構成を取るが、類似度算出プログラム132の構成が異なり、検索処理時間計測プログラム2500が加わる。
【0169】
以下、第一の実施例と異なる類似度算出プログラム132bの処理手順を図26のPAD図を用いて説明する。
【0170】
類似度算出プログラム132bは、ステップ2600において、検索処理時間計測プログラム2500を起動し、検索処理時間の計測を開始する。
【0171】
次に、ワークエリア170に格納された全ての検索用単語に対して、検索処理時間が所定の値(以下、検索制限時間と呼ぶ)以下ならば、ステップ1602、1603および2602を繰り返し実行する(ステップ2601)。
【0172】
ステップ1602では、検索用単語出現回数取得プログラム161を起動し、検索用単語に対応する全文検索用情報ファイル180を参照して、各登録文書内での出現回数を取得し、ワークエリア170に格納する。
【0173】
次にステップ1603において、要素別類似度算出プログラム162を起動し、ワークエリア170に格納された検索用単語の種文書内出現回数および登録文書内出現回数を用いて、所定の算出式により種文書に対する登録文書の要素別類似度を算出し、登録文書全体の類似度に加算する。
【0174】
そして、ステップ2602において、検索処理時間計測プログラム2500を起動し、検索処理時間の経過時間を測定し、検索処理時間を算出する。
【0175】
以上が類似度算出プログラム132bの処理手順である。
【0176】
以上が本発明の第五の実施形態である。
【0177】
なお、本実施例のステップ2601における検索制限時間は、検索実行時に検索条件として指定するものとしてもよいし、システム設定値として予め設定しておくものとしてもよい。
【0178】
また、本実施例では、検索制限時間を設定するものとしたが、設定値によっては少数の検索用単語しか用いられない場合も考えられるため、検索精度を保つための最小限の検索用単語数を設定できるようにしてもよい。この場合は、検索処理時間が検索制限時間を上回ったとしても、指定された最小限の検索用単語数までは類似検索を繰り返すことになる。
【0179】
さらに、本実施例では、検索処理時間計測プログラム2500を用いて類似度算出処理に要する時間を計測するものとしたが、検索処理自体を計測するものとしてもよい。この場合、図26に示したステップ2600で検索時間の計測を開始するのではなく、検索制御プログラム112により検索条件解析プログラム130が起動される前に、検索処理時間計測プログラム2500を起動し、検索処理時間の測定を開始すればよい。
【0180】
以上説明したように本発明の第五の実施例における類似文書検索システムでは、検索に要する時間に基づいて検索用単語数を調整するため、所定の処理時間で検索結果を取得することができるようになる。
【0181】
この結果として、ユーザは検索終了時間を予測することができるようになる。
【0182】
なお、第一の実施例から第四の実施例で説明した種文書の類似度を目安に検索を終了する類似文書検索システムと第五の実施例で説明した検索時間を目安に検索を終了する類似文書検索システムを検索実行時あるいはシステム定義で切り替えて使用することも可能である。
【0183】
次に、本発明の第六の実施例について図27を用いて説明する。
【0184】
本発明を適用した類似文書検索システムの第六の実施例は、種文書から抽出された単語から検索に使用される検索用単語から、検索時間を推定し、長大な時間を要する場合にはユーザに確認を求めるものである。
【0185】
本方法によれば、第一の実施例から第四の実施例で説明した類似文書検索システムにおける検索用単語抽出条件では検索に長大な時間を要する場合、事前に検索を取りやめることができるため、ユーザは不用意に待たされることがなくなる。
【0186】
本実施例は、第一の実施例(図1)とほぼ同様の構成を取るが、検索用単語抽出プログラム131の構成が異なり、図27に示すように検索時間推定確認プログラム2700が加わる。
【0187】
以下、第一の実施例と異なる検索用単語抽出プログラム131bの処理手順を図28のPAD図を用いて説明する。
【0188】
検索用単語抽出プログラム131では、まずステップ1500において、単語重要度算出プログラム151を起動し、所定の算出式に基づきワークエリア170に格納された単語の重要度を算出し、ワークエリア170に格納する。
【0189】
次に、前記ステップ1500でワークエリア170に格納された全ての単語に対して、ステップ1502〜1505を繰り返し実行する(ステップ1501)。
【0190】
まず、ステップ1502において、ワークエリア170に格納されている単語を重要度の降順に取得する。
【0191】
次に、ステップ1503において、検索用単語抽出判定プログラム151を起動し、種文書の要素別類似度を算出する。
【0192】
そして、ステップ1504において、種文書の要素別類似度が、所定の閾値を超えているかを判定し、超えている場合にはステップ1505を、越えていない場合には繰り返し処理を終了する。
【0193】
そして、ステップ1505において、該単語を検索用単語としてワークエリア170に格納する。
【0194】
次に、ステップ2800において、ワークエリア170に格納された検索用単語から検索時間を推定し、推定された検索時間(以下、推定検索時間と呼ぶ)が所定の値(指定検索時間)を超える場合には、検索の継続を確認するメッセージを表示し、ユーザの確認を受ける。この確認メッセージとしては、例えば図6に示したように、継続ボタン2901およびキャンセルボタン2901を有するメッセージ2900を表示するものであってもよい。
【0195】
以上が検索用単語抽出プログラム131bの処理手順である。
【0196】
なお、上記ステップ2800における指定検索時間としては、検索条件として指定するものとしてもよいし、システム定義として予め指定されるものとしてもよいし、あるいはいくつかのテストパターンの結果から自動的に設定されるものとしてもよい。
【0197】
また、上記ステップ2800における検索時間の推定方法としては、該検索用単語の出現文書数から推定するものとしてもよいし、該検索用単語に対応する全文検索用情報ファイル180のサイズから推定するものとしてもよい。あるいは、いくつかのテストパターンを用いてひとつの検索用単語に要する平均時間を計測しておき、該平均時間を用いて検索時間を推定するものとしてもよい。
【0198】
以上説明したように、本実施例に示した類似文書検索システムでは、抽出された検索用単語から検索時間を推定し、推定検索時間が予め指定された時間を超える場合には検索用単語の抽出条件を調整することが可能となるため、ユーザは不用意に待たされることがなくなる。
【0199】
【発明の効果】
以上説明したように、本発明では、種文書の類似度を目安に検索用単語数を設定しているため、類似度算出に使用する検索用単語数を削減することができる。これにより、検索精度を確保することのできる高速な類似文書検索を実現することができる。
【図面の簡単な説明】
【図1】本発明の第一の実施例における類似文書検索システムの全体構成を示す図である。
【図2】従来技術1の処理手順を説明するPAD図である。
【図3】従来技術1の概要を説明する図である。
【図4】従来技術1の類似度算出方式の考え方を説明する図である。
【図5】従来技術1の類似度算出方式の考え方を説明する図である。
【図6】本発明の第六の実施例における検索時間推定確認プログラム2700による確認メッセージの例である。
【図7】本発明の処理手順を説明するPAD図である。
【図8】本発明の登録処理の概要を説明する図である。
【図9】本発明の検索処理の概要を説明する図である。
【図10】本発明の検索用単語抽出処理の概要を説明する図である。
【図11】本発明の第一の実施例におけるシステム制御プログラム110の処理手順を説明する図である。
【図12】本発明の第一の実施例における登録制御プログラム111の処理手順を説明する図である。
【図13】本発明の第一の実施例における検索制御プログラム112の処理手順を説明するPAD図である。
【図14】本発明の第一の実施例における検索条件解析プログラム130の処理手順を説明するPAD図である。
【図15】本発明の第一の実施例における検索用単語抽出プログラム131の処理手順を説明するPAD図である。
【図16】本発明の第一の実施例における類似度算出プログラム132の処理手順を説明するPAD図である。
【図17】本発明の第二の実施例における単語重要度算出プログラム150aの構成を示す図である。
【図18】本発明の第三の実施例における単語重要度算出プログラム150aの処理手順を説明するPAD図である。
【図19】本発明の第三の実施例における登録制御プログラム111aの構成図である。
【図20】本発明の第三の実施例における登録制御プログラム111aの処理手順を示すPAD図である。
【図21】本発明の第三の実施例における統計情報ファイル1910の例である。
【図22】本発明の第四の実施例における統計情報参照プログラム1700bの構成を示す図である。
【図23】本発明の第四の実施例における統計情報参照プログラム1700bの処理手順を説明するPAD図である。
【図24】本発明の第四の実施例における近似統計情報の算出方法を説明する図である。
【図25】本発明の第五の実施例における類似度算出プログラム132bの構成を示す図である。
【図26】本発明の第五の実施例における類似度算出プログラム132bの処理手順を説明するPAD図である。
【図27】本発明の第六の実施例における検索用単語抽出プログラム131bの構成を示す図である。
【図28】本発明の第六の実施例における検索用単語抽出プログラム131bの処理手順を説明するPAD図である。
【符号の説明】
100…ディスプレイ、101…キーボード、102…中央演算処理装置(CPU)、103…磁気ディスク装置、104…フロッピディスクドライブ(FDD)、105…主メモリ、106…バス、107…フロッピディスク、110…システム制御プログラム、111…登録制御プログラム、112…検索制御プログラム、120…登録文書読込プログラム、121…全文検索用情報ファイル作成登録プログラム、130…検索条件解析プログラム、131…検索用単語抽出プログラム、132…類似度算出プログラム、133…検索結果出力プログラム、140…種文書取得プログラム、142…単語抽出プログラム、143…種文書内出現回数計数プログラム、150…単語重要度算出プログラム、151…検索用単語抽出判定プログラム、161…検索用単語出現回数取得プログラム、162…要素別類似度算出プログラム、170…ワークエリア、180…全文検索用情報ファイル。

Claims (7)

  1. 文書データベースに登録された文章や文字列などの登録文書から指定された種文書に内容が類似する文書を検索する類似文書検索装置における類似文書検索方法であって
    前記類似文書検索装置は、
    登録対象とする文書の全文検索用インデクスを作成し、全文検索用情報として格納する全文検索用情報作成ステップと、
    定された種文書から所定の文字列と該文字列が前記種文書中に出現する出現回数抽出する文字列抽出ステップと
    前記文字列重要度を前記文字列の前記種文書における出現回数に基づいて抽出し、前記文字列重要度の降順に前記文字列を処理対象文字列として選択し、継続判定ステップと類似度算出ステップとを繰り返す類似度算出繰り返しステップと、
    前記処理対象文字列の前記重要度が所定の閾値より小さい場合は、前記類似度算出繰り返しステップの繰り返し処理を終了する前記継続判定ステップと、
    前記全文検索用情報を参照して、前記処理対象文字列の前記登録文書内での出現回数を算出し、前記処理対象文字列の前記登録文書内での出現回数と前記種文書内での出現回数とに基づいて、前記種文書に対する各登録文書の前記処理対象文字列における類似度を算出し、前記各登録文書の総類似度に加算する前記類似度算出ステップと、
    前記類似度算出ステップで算出された前記各登録文書の前記種文書に対する類似度を出力する検索結果出力ステップと、を実行することを特徴とした類似文書検索方法。
  2. 請求項1記載の類似文書検索方法において、
    前記継続判定ステップは、前記各登録文書の総類似度の増加率が所定の閾値より小さい場合に、前記類似度算出繰り返しステップの繰り返し処理を終了することを特徴とした類似文書検索方法。
  3. 請求項1または2に記載の類似文書検索方法において、
    前記継続判定ステップは、類似文書検索開始からの経過時間が所定の時間を超えた場合に、前記類似度算出繰り返しステップの繰り返し処理を終了することを特徴とした類似文書検索方法。
  4. 文書データベースに登録された文章や文字列などの登録文書から指定された種文書に内容が類似する文書を検索する類似文書検索装置において、
    登録対象とする文書の全文検索用インデクスを作成し、全文検索用情報として格納する全文検索用情報作成手段と、
    定された種文書から所定の文字列と該文字列が前記種文書中に出現する出現回数抽出する文字列抽出手段と、
    前記文字列重要度を前記文字列の前記種文書における出現回数に基づいて抽出し、前記文字列重要度の降順に前記文字列を処理対象文字列として選択し、継続判定手段の処理と類似度算出手段の処理とを繰り返す類似度算出繰り返し手段と、
    前記処理対象文字列の前記重要度が所定の閾値より小さい場合は、前記類似度算出繰り返し手段の繰り返し処理を終了する前記継続判定手段と、
    前記全文検索用情報を参照して、前記処理対象文字列の前記登録文書内での出現回数を算出し、前記処理対象文字列の前記登録文書内での出現回数と、前記種文書内での出現回数とに基づいて、前記種文書に対する各登録文書の前記処理対象文字列における類似度を算出し、前記各登録文書の総類似度に加算する前記類似度算出手段と、
    前記類似度算出手段で算出された前記各登録文書の前記種文書に対する類似度を出力する検索結果出力手段と、
    を有することを特徴とした類似文書検索装置。
  5. 請求項記載の類似文書検索装置において、
    前記継続判定手段は、前記各登録文書の総類似度の増加率が所定の閾値より小さい場合に、前記類似度算出繰り返し手段の繰り返し処理を終了することを特徴とした類似文書検索装置。
  6. 請求項またはに記載の類似文書検索装置において、
    前記継続判定ステップは、類似文書検索開始からの経過時間が所定の時間を超えた場合に、前記類似度算出繰り返しステップの繰り返し処理を終了することを特徴とした類似文書検索装置。
  7. 請求項1〜のいずれか1項に記載の類似文書検索方法の各ステップをコンピュータに実現させるためのプログラムを格納した記憶媒体。
JP2000263240A 2000-08-28 2000-08-28 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体 Expired - Fee Related JP4045728B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000263240A JP4045728B2 (ja) 2000-08-28 2000-08-28 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000263240A JP4045728B2 (ja) 2000-08-28 2000-08-28 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体

Publications (2)

Publication Number Publication Date
JP2002073681A JP2002073681A (ja) 2002-03-12
JP4045728B2 true JP4045728B2 (ja) 2008-02-13

Family

ID=18750811

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000263240A Expired - Fee Related JP4045728B2 (ja) 2000-08-28 2000-08-28 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体

Country Status (1)

Country Link
JP (1) JP4045728B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP3987924B2 (ja) 2002-12-13 2007-10-10 国立大学法人大阪大学 磁性メモリアレイ、磁性メモリアレイの書き込み方法及び磁性メモリアレイの読み出し方法
GB2402511A (en) * 2003-06-07 2004-12-08 Univ Sheffield Hallam Checking Visual Consistency of Web Pages
JP2005043977A (ja) 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
JP4574186B2 (ja) * 2004-02-17 2010-11-04 株式会社リコー 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
JP4520264B2 (ja) * 2004-09-17 2010-08-04 株式会社リコー 文書検索装置、文書検索方法、プログラム及び記憶媒体
JP4534690B2 (ja) * 2004-09-22 2010-09-01 富士ゼロックス株式会社 文書検索装置および方法
JP5245908B2 (ja) * 2009-02-25 2013-07-24 富士通株式会社 検索方法及び装置
JP5193952B2 (ja) * 2009-06-01 2013-05-08 日本電信電話株式会社 文書検索装置および文書検索プログラム
WO2014002775A1 (ja) * 2012-06-25 2014-01-03 日本電気株式会社 同義語抽出システム、方法および記録媒体
KR101996009B1 (ko) * 2018-11-22 2019-07-03 넷마블 주식회사 테스트케이스 작성 지원 방법 및 이를 수행하는 서버 및 사용자 단말

Also Published As

Publication number Publication date
JP2002073681A (ja) 2002-03-12

Similar Documents

Publication Publication Date Title
JP3918531B2 (ja) 類似文書検索方法およびシステム
US7130849B2 (en) Similarity-based search method by relevance feedback
JP4045728B2 (ja) 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体
US20030065658A1 (en) Method of searching similar document, system for performing the same and program for processing the same
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JP2003281186A (ja) 類似性判断のための例題ベース検索方法及び検索システム
JP2005043977A (ja) 文書間の類似度算出方法および装置
JP4238616B2 (ja) 類似文書検索方法および類似文書検索装置
JP4973503B2 (ja) ファイル検索プログラム、方法及び装置
JP4969209B2 (ja) 検索システム
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP4212347B2 (ja) 文書検索装置、プログラムおよび記録媒体
JP2006309377A (ja) 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体
JP2001014326A (ja) 構造指定による類似文書の検索装置及び検索方法
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP3351714B2 (ja) 訳語生成方法、その方法を実施する機械翻訳装置および記録媒体
JP3928351B2 (ja) 確率を用いた特徴単語の選択方法
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
KR100922693B1 (ko) 인물 검색 시스템 및 방법
JP2005025465A (ja) 文書検索方法及び文書検索装置
JP4377803B2 (ja) 文書検索装置
JP4574186B2 (ja) 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
JPH10254894A (ja) 類似文書検索装置、類似文書検索方法及び類似文書検索用記憶媒体
JP2004133510A (ja) 技術文献検索システム
JP2013182580A (ja) 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041112

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070424

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees