JP2001195408A - 大量文書類似検索システム - Google Patents

大量文書類似検索システム

Info

Publication number
JP2001195408A
JP2001195408A JP2000001044A JP2000001044A JP2001195408A JP 2001195408 A JP2001195408 A JP 2001195408A JP 2000001044 A JP2000001044 A JP 2000001044A JP 2000001044 A JP2000001044 A JP 2000001044A JP 2001195408 A JP2001195408 A JP 2001195408A
Authority
JP
Japan
Prior art keywords
document
field
similarity
index
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000001044A
Other languages
English (en)
Inventor
Yoshiaki Oshima
義明 大島
Ikuto Ishizuka
郁人 石塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information Systems Ltd
Original Assignee
Hitachi Information Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information Systems Ltd filed Critical Hitachi Information Systems Ltd
Priority to JP2000001044A priority Critical patent/JP2001195408A/ja
Publication of JP2001195408A publication Critical patent/JP2001195408A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 大量検索対象文書をインデックスを用いて類
似検索を行なう際、検索対象文書数が増大しても検索速
度が遅れない大量文書類似検索システムを提供する。 【解決手段】 分野別に複数文書を割り当て、分野別複
数文書から分野別文書インデックスを作成する文書イン
デックス作成手順、各分野別文書インデックスから分野
別概要文書を作成する分野別概要文書作成手順、各分野
別概要文書から分野インデックスを作成する分野インデ
ックス作成手順、分野インデックスを参照し、検索条件
に適合する分野の類似検索を行ない、各分野別概要文書
を類似度の高さ順に選択する分野類似検索手順、選択し
た類似度の高い分野別概要文書に対応した分野別文書イ
ンデックスを参照し、検索条件に適合する文書の類似検
索を行ない、各文書を類似度の高さ順に選択する文書類
似検索手順、選択した文書を表示する文書表示手順を経
て大量の文書の類似検索を行なう。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大量文書類似検索
システムに係わり、特に、大量の文書に対する類似検索
を行なう際に、2段階またはそれ以上の段階のインデッ
クスを用い、まず分野別類似検索を行なって類似分野を
特定し、次に特定した類似分野の文書類似検索を行なっ
て類似文書を特定するようにした大量文書群の類似検索
システムに関する。
【0002】
【従来の技術】一般に、類似文書検索は、検索対象とな
る多くの文書(検索対象文書)の中から検索条件に適合
または類似した1つまたはそれ以上の数の文書を検索す
るものである。この場合、検索対象文書と検索条件との
類似度は、通常、サーチエンジンとして、それぞれの検
索対象文書に示されている各語の出現頻度の値等を計算
し、その計算結果から類似度の高さを求めるものが用い
られる。
【0003】ところで、類似文書検索に限らず、一般的
なデータベース検索システムにおいては、インデックス
と呼ばれる索引データを作成し、そのインデックスを参
照して検索を行なう手法が多用されているが、検索対象
文書が大量になったり、検索対象データベースが大量に
なったりした場合、作成したインデックスが大きくなり
過ぎ、このような大きいインデックスを参照して検索す
ると、インデックスが大きくなった分だけ検索速度が遅
くなってしまう。
【0004】このような検索速度の遅れを解消するため
に、検索対象文書または検索対象データベースの内容に
基づいて、検索対象文書または検索対象データベースが
属する分野の分類分けを行ない、分類分けした検索対象
文書または検索対象データベースに対してそれぞれ分野
別インデックスを作成し、また、類似文書検索または類
似データベース検索を行なう際には、ユーザーが検索対
象となる分野を指定することにより、指定した分野に該
当する分野別インデックスを参照した検索が行なわれ、
結果的に、検索速度の遅れを少なくした類似検索手段が
提案されている。
【0005】これとは別に、複数のデータの類似検索を
行なう際に、インデックスを参照した検索を行なってい
るものとして、特開平7−200614号に開示の類似
検索装置が知られている。
【0006】特開平7−200614号に開示の類似検
索装置は、複数のデータに対して類似検索を行なう際
に、効率的な類似検索を行なうことによって検索速度の
改善を計っているものであり、記憶手段に蓄積されてい
る複数のデータについて、データ量絞込み用第一インデ
ックスと、データの蓄積状態に対応して第一インデック
スのデータ量絞込み基準を変更する第二インデックスと
を生成し、第一インデックス及び第二インデックスを参
照してデータの類似検索を行なっているものである。
【0007】特開平7−200614号に開示の類似検
索装置は、属性及び属性値で表されたデータの類似検索
に係わるもので、本発明で対象としている文書検索とは
異なっているが、データ量絞込みインデックスを前提と
して類似検索を行なっている点は、文書の類似検索にも
同じように適用可能である。
【0008】
【発明が解決しようとする課題】前記既提案による類似
検索手段は、正しく使用された場合に、検索速度の遅れ
を少なくすることができるものの、ユーザーが検索対象
分野を指定するときに、正しい検索対象分野を指定する
ことが難しいものであり、検索対象分野の正しい指定が
行なわれなかった場合、所望の類似検索を行なうことが
できなかったり、不所望な類似検索結果が得られたりす
る。
【0009】また、前記既提案による類似検索手段は、
正しく使用される場合であっても、ユーザーが、指定す
る検索対象分野を1つの分野に絞らず、複数の分野を指
定したい場合があったり、さらに、ユーザーが検索対象
分野を指定せずに全分野についての類似検索をしたい場
合もあり、特に、検索対象分野を指定せずに検索すると
きは、全分野が検索対象分野になり、類似検索時に全て
の分野別インデックスを参照するようになるので、検索
速度の遅れの解消に役立たなくなる。
【0010】一方、前記特開平7−200614号に開
示の類似検索装置は、複数データの類似検索を行なうも
のであって、複数文書の類似検索ではないが、同じ技術
思想を用いて複数文書の類似検索にも適用することは可
能である。ところで、前記特開平7−200614号に
開示の類似検索装置は、複数文書の類似検索に適用した
場合、検索速度の遅れを少なくすることができるもの
の、検索対象文書の文書数が増大した場合、文書量絞込
み用第一インデックスと、文書の蓄積状態に対応して第
一インデックスの文書量絞込み基準を変更する第二イン
デックスとがともに大きなものになるため、所望の類似
検索結果を得るまでの時間が長くなる、すなわち検索速
度に遅れを生じるようになる。
【0011】本発明は、このような技術的背景に鑑みて
なされたもので、その目的は、大量の検索対象文書に対
してインデックスを用いて類似検索を行なう際に、検索
対象文書の文書数が増大しても、検索速度に遅れを生じ
ない大量文書類似検索システムを提供することにある。
【0012】
【課題を解決するための手段】前記目的を達成するため
に、本発明による大量文書類似検索システムは、複数の
分野別にそれぞれ該当する複数の文書を割り当て、分野
別の複数の文書からそれぞれ分野別文書インデックスを
作成する文書インデックス作成手順と、各分野別文書イ
ンデックスからそれぞれ分野別概要文書を作成する分野
別概要文書作成手順と、各分野別概要文書から分野イン
デックスを作成する分野インデックス作成手順と、分野
インデックスを参照し、検索条件に適合する分野の類似
検索を行ない、各分野別概要文書を類似度の高い順に選
択する分野類似検索手順と、選択した類似度の高い分野
別概要文書に対応した分野別文書インデックスを参照
し、検索条件に適合する文書の類似検索を行ない、各文
書を類似度の高い順に選択する文書類似検索手順と、選
択した文書を表示する文書表示手順とを経て大量の文書
の類似検索を行なう構成を具備している。
【0013】前記構成を備えた大量文書類似検索システ
ムによれば、分野別の複数の文書に基づいて分野別文書
インデックスを作成し、得られた分野別文書インデック
スに基づいて分野別概要文書を作成しているもので、文
書の類似検索を行なう際に、まず、各分野別概要文書を
参照して検索条件に適合する分野の類似検索を行なって
類似度の高い分野別概要文書を選択し、次に、選択した
分野別概要文書に対応する分野別文書インデックスを参
照して検索条件に適合する文書の類似検索を行なって類
似度の高い文書を選択するようにしているので、分野別
概要文書の類似検索と文書の類似検索とを同じサーチエ
ンジンの使用で迅速な類似検索を行なうことができる。
【0014】この場合、前記構成における分野類似検索
手順は、類似度の高さが一定の基準を満たす分野別概要
文書を類似検索したとき、以後、分野類似検索手順の実
行を終了するような構成にしてもよい。
【0015】また、前記構成における文書類似検索手順
は、類似度の高さが一定の基準を満たす分野別概要文書
に対してのみ、文書類似検索手順を実行するような構成
にしてもよい。
【0016】また、前記構成における文書類似検索手順
は、入力操作によって任意の処理時点で文書類似検索手
順の実行を中断するような構成にしてもよい。
【0017】このような各構成によれば、ほぼ満足でき
る類似検索が得られた段階で、その後の全ての文書に対
する類似検索の結果を待つことなく、類似検索処理を終
了させることができ、類似検索結果を得るまでの時間を
短縮することができる。
【0018】さらに、前記構成における文書インデック
ス作成手順は、各分野別の複数の文書からそれぞれ第1
段階の分野別文書インデックスを作成した後、第1段階
の分野別文書インデックスの2つ以上のものからそれぞ
れ第2段階の分野別文書インデックスを作成するような
構成にすることもできる。
【0019】このような構成によれば、分野別概要文書
の総数が非常に多くなるような場合、各分野別文書イン
デックスをさらに幾つかのグループの下位分野別文書イ
ンデックスに分け、各分野別文書インデックスをそれぞ
れ対象とした上位分野別概要文書と、幾つかの下位分野
別文書インデックスをそれぞれ対象とした下位分野別概
要文書とを作成し、類似検索時に、まず検索条件に適合
する上位分野別概要文書から検索を行なって1つの上位
分野別概要文書を求め、次いで求めた上位分野別概要文
書に対してさらに検索条件に適合する下位分野別概要文
書の検索を行なって1つの下位分野別概要文書を求め、
この下位分野別概要文書に対応する分野別文書インデッ
クスを得るようにしているので、検索対象文書の文書数
が増大しても、検索速度に大きな遅れを出すことなく、
迅速な類似検索を行なうことができる。なお、各分野別
文書インデックスの段階構成は、前記のような2段階の
ものに限られず、分野別概要文書の総数に応じて3段階
またはそれ以上の段階のものであってもよく、段階構成
にしない場合に比べて迅速な類似検索を行なうことが可
能になる。
【0020】さらに、前記構成において、分野別概要文
書作成手順は、各文書インデックスに示された語の重要
度を求め、全語に対して重要度が一定の基準を満たして
いる語を選択し、選択した語について重要度に応じた整
数値を求め、得られた整数値の数だけその語を記述して
分野別概要文書を作成しているように構成することがで
きる。
【0021】このような構成によれば、通常、使用頻度
の高い語ほど重要度が高くなる傾向にあるため、検索対
象文書における重要度の高い語を、分野別概要文書にお
いても重要度を高くすることができる。また、類似検索
エンジンには、通常、重要度の計算機能が含まれている
ので、類似検索エンジンの利用により、余分な計算経緯
を設定することなく、分野別概要文書の作成が可能にな
る。
【0022】
【発明の実施の形態】以下、本発明の実施の形態を図面
を用いて説明する。
【0023】図1は、本発明による大量文書類似検索シ
ステムの実施の形態に係わるもので、システムの要部構
成を示すブロック図である。
【0024】図1において、1は文書インデックス作成
部、2は分野別概要文書作成部、3は分野インデックス
作成部、4は分野類似度判定部、5は文書インデックス
選択部、6は文書類似度判定部、7は入力部、8は表示
部、9(1)は分野Aに該当する第1文書群、9(k)
は分野Nに該当するは第k文書群である。そして、文書
インデックス作成部1、分野別概要文書作成部2、分野
インデックス作成部3、分野類似度判定部4、文書イン
デックス選択部5、文書類似度判定部6、入力部7、表
示部8、第1文書群9(1)、第k文書群9(k)は、
図1に図示されるように結合されている。なお、文書イ
ンデックス作成部1、分野別概要文書作成部2、分野イ
ンデックス作成部3、分野類似度判定部4、文書インデ
ックス選択部5、文書類似度判定部6は、図1に図示さ
れていない制御部によりそれぞれの動作が制御される。
【0025】また、図2は、図1に図示の大量文書類似
検索システムにおいて、第1文書群9(1)乃至第k文
書群9(k)に基づいて分野インデックスが作成される
までの動作経緯を示すフローチャートである。
【0026】また、図3は、図1に図示の大量文書類似
検索システムにおいて、分野インデックスに基づいて文
書の類似検索の結果が得られるまでの動作経緯を示すフ
ローチャートである。
【0027】ここで、図2及び図3に図示のフローチャ
ートを用い、図1に図示の大量文書類似検索システムの
動作について説明する。
【0028】始めに、ステップS1において、文書イン
デックス作成部1は、分野Aに該当する第1文書群9
(1)に基づいて分野Aの文書インデックス1Aを、分
野Nに該当する第k文書群9(k)に基づいて分野Nの
文書インデックス1Nをそれぞれ作成し、内部に収納し
ている。このとき、図1に図示を省略している他の分野
においても、同じようにその分野の文書インデックスを
それぞれ作成し、内部に収納している。
【0029】ここで、図4は、それぞれの分野、例えば
分野A乃至分野Cにおける各文書インデックス1A乃至
1Cの内容の一例を示す説明図である。
【0030】図4に示されるように、分野Aの文書イン
デックス1Aは、分野Aに該当する第1文書群9(1)
に用いられているそれぞれの語a、語b、語c、語d、
語e、…、…とその頻度数とからなっており、分野B及
び分野Cの文書インデックス1B及び1も、分野B及び
分野Cに該当する第2及び第3文書群に用いられている
それぞれの語a、語b、語c、語d、語e、…、…とそ
の頻度数とからなっている。
【0031】次に、ステップS2において、分野別概要
文書作成部2は、分野Aの文書インデックス1Aに基づ
いて分野Aの概要文書2Aを、分野Nの文書インデック
ス1Nに基づいて分野Nの概要文書2Nをそれぞれ作成
し、内部に収納している。このときも、図1に図示を省
略している他の分野においても、同じようにその分野の
概要文書をそれぞれ作成し、内部に収納している。
【0032】ここで、図5は、それぞれの分野、例えば
分野A乃至分野Cにおける各文書インデックス1A乃至
1Cに基づいて分野A乃至分野Cの概要文書2A乃至2
Cをそれぞれ作成する際の過程を示す説明図である。
【0033】図5において、21 は類似検索部、22
語と重要度判定部、23 は概要文書出力部であり、類似
検索部21 と語と重要度判定部22 と概要文書出力部2
3 とによって分野別概要文書作成部2が構成されてい
る。また、1Bは分野Bの文書インデックス、1Cは分
野Cの文書インデックス、2Bは分野Bの概要文書、2
Cは分野Cの概要文書であり、その他、図1に図示の構
成要素と同じ構成要素については同じ符号を付けてい
る。
【0034】図5に示されるように、分野別概要文書作
成部2は、検索条件として、分野Aの文書インデックス
1Aが類似検索部21 に入力されると、類似検索部21
及び語と重要度判定部22 とが協動して、分野Aの文書
インデックス1Aに含まれている各語a、語b、語c、
語d、語e、…、…とそれらの語の重要度を判定取得
し、概要文書出力部23 が取得した各語の文字列につい
て、全語もしくはシステムパラメータで与えられた重要
度しきい値を満たしている語に対して、その重要度に応
じた整数値、例えば重要度0.8を10倍して整数値8
にする等の処理を行なって得た整数値をを求め、その整
数値分の数だけ記述した分野Aの概要文書を形成し、そ
の形成文書を出力する。同じように、他の分野Bや分野
Cにおいても分野Bの概要文書や分野Cの概要文書を形
成し、その形成文書を出力する。
【0035】ここで、図6は、分野別概要文書作成部2
で作成された分野別概要文書、例えば分野Aの概要文書
の内容の一例を示す説明図である。
【0036】図6に示されるように、分野Aの概要文書
は、抽出語a、抽出語b、抽出語c、…、…の頻度に応
じた回数だけ、それらの抽出語を使用して作成したもの
で、図6に図示の例では、抽出語aを1回、抽出語bを
2回、抽出語cを5回、…、…それぞれ用いているもの
である。
【0037】続いて、ステップS3において、分野イン
デックス作成部3は、分野Aの概要文書2A、分野Bの
概要文書2B、…、…、分野Nの概要文書2Nに基づい
て分野インデックス3Iを作成し、内部に収納してい
る。
【0038】図7は、分野インデックス作成部3で作成
された分野インデックス3Iの内容の一例を示す説明図
である。
【0039】図7に示されるように、分野インデックス
3Iは、分野Aに該当する概要文書2Aから抽出したそ
れぞれの抽出語a、抽出語b、抽出語c、抽出語d、抽
出語e、…、…とその頻度数、分野Bに該当する概要文
書2Bから抽出したそれぞれの抽出語a、抽出語b、抽
出語c、抽出語d、抽出語e、…、…とその頻度数、分
野Cのに該当する概要文書2Cから抽出したそれぞれの
抽出語a、抽出語b、抽出語c、抽出語d、抽出語e、
…、…とその頻度数、その他の分野に該当する概要文書
から抽出したそれぞれの抽出語a、抽出語b、抽出語
c、抽出語d、抽出語e、…、…とその頻度数からなっ
ている。
【0040】次に、ステップS11において、分野類似
度判定部4は、分野インデックス作成部3から供給され
た分野インデックス3Iを参照し、入力部7から入力さ
れた検索条件と分野インデックス3Iとの分野類似度を
判定する。
【0041】次いで、ステップS12において、分野類
似度判定部4は、類似度を判定した結果、それぞれの分
野について分野類似度の順位付けを行ない、順位付けの
結果を文書インデックス選択部5に供給する。
【0042】続く、ステップS13において、文書イン
デックス選択部5は、分野類似度の順位付けが最上位の
分野別概要文書を選択する。
【0043】続いて、ステップS14において、文書イ
ンデックス選択部5は、選択した分野別概要文書につい
て、分野類似度が予め定めた設定値(第1しきい値)よ
りも高く、かつ、選択した分野別概要文書数が予め定め
た設定値(第2しきい値)よりも小さいか否かを判断す
る。そして、分野類似度が第1しきい値より高く、か
つ、分野別概要文書数が第2しきい値より小さいと判断
した(Y)ときは、次のステップS15に移行し、一
方、それらのいずれかを満たしていないと判断した
(N)ときは、この一連のフローチャートの動作を中止
終了させる。
【0044】次に、ステップS15において、文書イン
デックス選択部5は、選択した分野別概要文書に対応す
る分野別文書インデックスを選択し、選択した分野別文
書インデックスを文書類似度判定部6に供給する。
【0045】次いで、ステップS16において、文書類
似度判定部6は、文書インデックス選択部5から供給さ
れた分野別文書インデックスを参照し、入力部7から入
力された検索条件と分野別文書インデックスとの文書類
似度を判定し、それぞれの文書に対する類似度を出力す
る。
【0046】続く、ステップS17において、文書類似
度判定部6は、それぞれの文書に対する類似度の判定の
結果、文書類似度が予め定めた設定値(第3しきい値)
よりも高く、かつ、分野別文書インデックスに含まれる
文書数が予め定めた設定値(第4しきい値)よりも小さ
いか否かを判断する。そして、文書類似度が第3しきい
値より高く、かつ、分野別文書インデックスに含まれる
文書数が第4しきい値より小さいと判断した(Y)とき
は、次のステップS18に移行し、一方、それらのいず
れかを満たしていないと判断した(N)ときは、この一
連のフローチャートの動作を中止終了させる。
【0047】続いて、ステップS18において、文書類
似度判定部6は、文書類似度の判定の結果、ステップS
17の要件を満たした文書を表示部8に供給し、表示部
8で表示させる。
【0048】次に、ステップS19において、文書類似
度判定部6は、表示部8で文書の表示が行なわれた結
果、入力部7の操作によって類似検索の中止指令が出さ
れたか否かを判断する。そして、類似検索の中止指令が
出されたと判断した(Y)ときは、この一連のフローチ
ャートの動作を中止終了させ、一方、類似検索の中止指
令が出されていないと判断した(N)ときは、次のステ
ップS20に移行する。
【0049】次いで、ステップS20において、文書イ
ンデックス選択部5は、分野類似度の順位付けが次の上
位の分野別概要文書を選択し、以下、ステップS14以
降の動作が繰り返し実行される。
【0050】なお、このフローチャートの実行中に、任
意の時点でユーザーが入力部7を操作し、類似検索の中
止指令を出力した場合には、その時点でフローチャート
の動作を停止させ、以降の処理を中止させることができ
る。
【0051】前記の実施の形態においては、各分野別文
書インデックスからそれらに対応する分野別概要文書を
作成し、各分野別文書インデックスを1段階構成にした
例を挙げて説明したが、分野別概要文書の総数が非常に
多くなるような場合、各分野別文書インデックスを2段
階構成にする、すなわち、各分野別文書インデックスを
さらに幾つかのグループの下位分野別文書インデックス
に分け、各分野別文書インデックスをそれぞれ対象とし
た上位分野別概要文書と、幾つかの下位分野別文書イン
デックスをそれぞれ対象とした下位分野別概要文書とを
作成し、類似検索時に、まず検索条件に適合する上位分
野別概要文書から検索を行なって1つの上位分野別概要
文書を求め、次いで求めた上位分野別概要文書に対して
さらに検索条件に適合する下位分野別概要文書の検索を
行なって1つの下位分野別概要文書を求め、この下位分
野別概要文書に対応する分野別文書インデックスを得る
ようにしてもよい。
【0052】このような構成にすれば、検索対象文書の
文書数が増大しても、検索速度に大きな遅れを出すこと
なく、迅速な類似検索を行なうことができる。
【0053】なお、各分野別文書インデックスの段階構
成は、前記のような2段階のものに限られず、分野別概
要文書の総数に応じて3段階またはそれ以上の段階のも
のであってもよく、段階構成にしない場合に比べて迅速
な類似検索を行なうことが可能になる。
【0054】
【発明の効果】以上説明したように、本発明によれば、
分野別の複数の文書に基づいて分野別文書インデックス
を作成し、得られた分野別文書インデックスに基づいて
分野別概要文書を作成しているもので、文書の類似検索
を行なう際に、まず、各分野別概要文書を参照して検索
条件に適合する分野の類似検索を行なって類似度の高い
分野別概要文書を選択し、次に、選択した分野別概要文
書に対応する分野別文書インデックスを参照して検索条
件に適合する文書の類似検索を行なって類似度の高い文
書を選択するようにしているので、分野別概要文書の類
似検索と文書の類似検索とを同じサーチエンジンの使用
で迅速な類似検索を行なうことができるという効果があ
る。
【図面の簡単な説明】
【図1】本発明による大量文書類似検索システムの実施
の形態に係わるもので、システムの要部構成を示すブロ
ック図である。
【図2】図1に図示の大量文書類似検索システムにおい
て、文書群に基づいて分野インデックスが作成されるま
での動作経緯を示すフローチャートである。
【図3】図1に図示の大量文書類似検索システムにおい
て、分野インデックスに基づいて文書の類似検索の結果
が得られるまでの動作経緯を示すフローチャートであ
る。
【図4】それぞれの分野における文書インデックスの内
容の一例を示す説明図である。
【図5】それぞれの分野における各文書インデックスに
基づいて対応する分野の概要文書をそれぞれ作成する際
の過程を示す説明図である。
【図6】分野別概要文書作成部で作成された分野別概要
文書の内容の一例を示す説明図である。
【図7】分野インデックス作成部で作成された分野イン
デックスの内容の一例を示す説明図である。
【符号の説明】
1 文書インデックス作成部 1A、1B、1C、…、…、1N 分野別文書インデッ
クス 2 分野別概要文書作成部 2A、2B、2C、…、…、2N 分野別概要文書 3 分野インデックス作成部 3I 分野インデックス 4 分野類似度判定部 5 文書インデックス選択部 6 文書類似度判定部 7 入力部 8 表示部 9(1) 第1文書群 9(k) 第k文書群

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 複数の分野別にそれぞれ該当する複数の
    文書を割り当て、前記分野別の複数の文書からそれぞれ
    分野別文書インデックスを作成する文書インデックス作
    成手順と、前記各分野別文書インデックスからそれぞれ
    分野別概要文書を作成する分野別概要文書作成手順と、
    前記各分野別概要文書から分野インデックスを作成する
    分野インデックス作成手順と、前記分野インデックスを
    参照し、検索条件に適合する分野の類似検索を行ない、
    前記各分野別概要文書を類似度の高い順に選択する分野
    類似検索手順と、前記選択した類似度の高い分野別概要
    文書に対応した分野別文書インデックスを参照し、検索
    条件に適合する文書の類似検索を行ない、前記各文書を
    類似度の高い順に選択する文書類似検索手順と、前記選
    択した文書を表示する文書表示手順とを経て大量の文書
    の類似検索を行なうことを特徴とする大量文書類似検索
    システム。
  2. 【請求項2】 前記分野類似検索手順は、類似度の高さ
    が一定の基準を満たす分野別概要文書を類似検索したと
    き、以後、前記分野類似検索手順の実行を終了させるこ
    とを特徴とする請求項1に記載の大量文書類似検索シス
    テム。
  3. 【請求項3】 前記文書類似検索手順は、前記類似度の
    高さが一定の基準を満たす分野別概要文書に対しての
    み、前記文書類似検索手順を実行することを特徴とする
    請求項1乃至2に記載の大量文書類似検索システム。
  4. 【請求項4】 前記文書類似検索手順は、入力操作によ
    って任意の処理時点で前記文書類似検索手順の実行を中
    断することが可能であることを特徴とする請求項1に記
    載の大量文書類似検索システム。
  5. 【請求項5】 前記文書インデックス作成手順は、前記
    各分野別の複数の文書からそれぞれ第1段階の分野別文
    書インデックスを作成した後、前記第1段階の分野別文
    書インデックスの2つ以上のものからそれぞれ第2段階
    の分野別文書インデックスを作成することを特徴とする
    請求項1に記載の大量文書類似検索システム。
  6. 【請求項6】 前記分野別概要文書作成手順は、前記各
    文書インデックスに示された語の重要度を求め、全語に
    対して重要度が一定の基準を満たしている語を選択し、
    選択した語について重要度に応じた整数値を求め、得ら
    れた整数値の数だけその語を記述して分野別概要文書を
    作成していることを特徴とする請求項1に記載の大量文
    書類似検索システム。
JP2000001044A 2000-01-06 2000-01-06 大量文書類似検索システム Pending JP2001195408A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000001044A JP2001195408A (ja) 2000-01-06 2000-01-06 大量文書類似検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000001044A JP2001195408A (ja) 2000-01-06 2000-01-06 大量文書類似検索システム

Publications (1)

Publication Number Publication Date
JP2001195408A true JP2001195408A (ja) 2001-07-19

Family

ID=18530306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000001044A Pending JP2001195408A (ja) 2000-01-06 2000-01-06 大量文書類似検索システム

Country Status (1)

Country Link
JP (1) JP2001195408A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129176A (ja) * 2007-11-22 2009-06-11 Toshiba Corp 構造化文書検索装置、方法およびプログラム
WO2016157336A1 (ja) * 2015-03-27 2016-10-06 株式会社日立製作所 文書検索システムおよび検索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129176A (ja) * 2007-11-22 2009-06-11 Toshiba Corp 構造化文書検索装置、方法およびプログラム
WO2016157336A1 (ja) * 2015-03-27 2016-10-06 株式会社日立製作所 文書検索システムおよび検索方法

Similar Documents

Publication Publication Date Title
US5995962A (en) Sort system for merging database entries
US5329609A (en) Recognition apparatus with function of displaying plural recognition candidates
US7085761B2 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
JP2016532173A (ja) 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
US20020129012A1 (en) Document retrieval system and search method using word set and character look-up tables
US20110252062A1 (en) Electronic device for searching for entry word in dictionary data, control method thereof and program product
US20050278292A1 (en) Spelling variation dictionary generation system
JPH06266780A (ja) 意味パターン認識による文字列検索方法及びその装置
JP2017500664A (ja) 多ディメンション・データー構造に対する実行のためのクエリー構築
JPH11102374A (ja) データベースの文書表示方法およびその装置
EP3327592A1 (en) Information processing method, information processing apparatus, and non-transitory recording medium
JP2001216316A (ja) 電子マニュアル検索システム、方法、及び記録媒体
JPH08255172A (ja) 文書検索システム
JPH06131392A (ja) データベースシステム
JPH11161658A (ja) 追加検索語の優先度計算方法及び装置及び追加検索語の優先度計算プログラムを格納した記憶媒体
JPH10334106A (ja) 関連語提示装置及び関連語提示用プログラムを記録した媒体
JP2002230012A (ja) ドキュメントクラスタリング装置
JP2001195408A (ja) 大量文書類似検索システム
US6687694B2 (en) Configurable pattern recognition and filtering tool
JPH11338873A (ja) 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体
JPH11110408A (ja) 情報検索装置および方法
JPH03286371A (ja) 文書情報検索装置
JPH06215036A (ja) ドキュメントコレクションの探索方法
JPH09153049A (ja) 文書分類支援方法及び装置
JPH05250411A (ja) 検索条件式作成装置