JPH11175564A

JPH11175564A - 文書検索システム

Info

Publication number: JPH11175564A
Application number: JP9352083A
Authority: JP
Inventors: Kumiko Wada; 久美子和田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1997-12-05
Filing date: 1997-12-05
Publication date: 1999-07-02

Abstract

(57)【要約】【課題】検索解が大量に出現した場合でも検索者がチ
ェックし易いシステムを実現する。【解決手段】索引ファイル４は、検索対象文書中に出
現する文字列から抽出した索引語の出現位置情報を格納
する。索引語抽出部２は、検索パターン文字列入力部１
で入力された検索パターン文字列を索引語に分割する。
索引ファイル検索部３は、分割された各索引語で索引フ
ァイル４を参照し、その出現位置情報から、検索パター
ン文字列と同じ文字並びで、かつ、最後の索引語に前方
一致する文字列を類似語句として求める。検索結果分類
処理部５は、類似語句を代表値の閾値と比較し、閾値以
上である類似語句を抽出する。結果出力部６は、検索結
果分類処理部５で抽出された類似語句とその出現位置情
報を出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、大量の電子化文書
に対して指定された文字列を高速に検索するための文書
検索システムに関し、更に詳細には、検索結果の効率的
な表示方法に関するものである。

【０００２】

【従来の技術】電子メディアの著しい普及に伴い、報
道、出版、特許出願等様々な分野で大量の文書の電子化
が進んでいる。これらの大量の文書を必要に応じて簡単
かつ高速に検索するための検索方法として全文検索方式
がある。

【０００３】全文検索方式は、書誌情報やキーワード等
の、文書の本文データを元に加工作成されたデータ（二
次情報という）でなく、本文全体（一次情報という）を
直接参照して、検索者が自由に指定するキーワードを元
に検索する方式である。

【０００４】このような検索方式では、高速検索を実現
するために予め索引ファイルを生成しておき、その索引
ファイルを引くことによって検索を行う。索引ファイル
の大きさは小さい方がよいが、あまり小さいと格納でき
る情報量が少なくなってしまい検索性能に影響するの
で、効率のよい索引ファイルを設計することが重要であ
る。このような索引ファイルとして様々なものが提案さ
れ、実用化されている。

【０００５】例えば、本発明者らが先に出願した特願平
７−２３１９１５号明細書では、高速語句切り出し処理
によって日本語文書から索引語を抽出し、更に補助索引
語を自動生成して索引情報を格納することによって、索
引ファイルサイズを縮小化しながら、正語でない文字列
についても高速に検索可能としている。

【０００６】検索結果の表示方法は様々であるが、先ず
該当件数を表示し、その後、具体的に該当箇所を含む本
文を詳細表示するのが一般的である。

【０００７】

【発明が解決しようとする課題】しかしながら、現状で
は、電子化文書は急激に増加し続けており、そのような
大量の文書に対する検索では、検索者は適切な検索要求
を出すことが難しい。このため、一般的には検索要求を
広く解釈して検索するといったことが行われているが、
このような検索を行うと、検索解が非常に大量になる可
能性がある。検索解が大量になると、人間が個々の検索
解を一つずつチェックしていくには限界がある。従っ
て、検索システム側で、何らかの方法によりこれらの大
量の検索解を検索者がチェックし易くなるよう、表示方
法に配慮しなければならない。

【０００８】このような点から、検索解が大量に出現し
た場合でも検索者がチェックし易いシステムの実現が望
まれていた。

【０００９】

【課題を解決するための手段】本発明は、前述の課題を
解決するため次の構成を採用する。〈請求項１の構成〉検索対象文書中に出現する文字列か
ら予め決められた抽出規則により抽出した索引語の出現
位置情報を有する索引ファイルと、検索パターン文字列
を入力する検索パターン文字列入力部と、検索パターン
文字列を、索引ファイルにおける索引語の抽出規則と同
じ抽出規則により索引語に分割する索引語抽出部と、索
引ファイルを用いて、分割された先頭から最後の一つ前
までの索引語の出現位置を求めると共に、最後の索引語
に前方一致する索引語の出現位置を求め、各索引語の出
現位置が検索パターン文字列と同じ文字並びとなってい
る文字列を類似語句として抽出する索引ファイル検索部
と、求めた類似語句を予め設定した代表語の基準と比較
し、適合した類似語句を抽出する検索結果分類処理部
と、これら抽出した類似語句とその出現位置情報を出力
する結果出力部とを備えたことを特徴とする文書検索シ
ステムである。

【００１０】〈請求項１の説明〉索引ファイルは、検索
対象文書中に出現する全ての語句が索引語として登録さ
れているファイルである。また、予め決められた抽出規
則とは、例えば片仮名や漢字といった文字種で切り出す
規則であるが、これに限定されない。

【００１１】検索パターン文字列入力部に入力される検
索パターン文字列としては、どのような文字列であって
もよい。索引語抽出部は、検索パターン文字列を、例え
ば文字種で切り出すといったように、索引ファイルにお
ける索引語の抽出規則と同じ抽出規則により索引語に分
割する。

【００１２】索引ファイル検索部は、索引語抽出部で抽
出された索引語を索引ファイル中の出現位置情報に基づ
いて、検索パターン文字列と同じ文字並びになってお
り、かつ、最後の索引語に関しては、この索引語に前方
一致する索引語も求める。これにより、検索パターン文
字列と前方一致する文字列とその出現位置情報を求め
る。

【００１３】そして、検索結果分類処理部では、求めた
類似語句を予め設定した代表語の基準と比較して、代表
語としての条件を備えた語句のみを抽出し、これを結果
出力部が出力する。ここで、代表語の基準とは、例えば
その語句の文書中の出現頻度であるが、これ以外のもの
であってもよい。

【００１４】請求項１の発明は、このように検索結果を
分類して表示するため、ユーザは検索パターン文字列の
出現状況を、後続文字列によって大まかに把握すること
が可能となり、指定した検索パターン文字列が妥当なも
のであったかどうかといったことを確認することができ
る。

【００１５】〈請求項２の構成〉検索対象文書中に出現
する文字列から予め決められた抽出規則により抽出した
索引語の出現位置情報を有する索引ファイルと、検索パ
ターン文字列を入力する検索パターン文字列入力部と、
検索パターン文字列を、索引ファイルにおける索引語の
抽出規則と同じ抽出規則により索引語に分割する索引語
抽出部と、索引ファイルを用いて、分割された先頭より
二番目の索引語から最後の索引語の出現位置を求めると
共に、先頭の索引語に後方一致する索引語の出現位置を
求め、各索引語の出現位置が検索パターン文字列と同じ
文字並びとなっている文字列を類似語句として抽出する
索引ファイル検索部と、求めた類似語句を予め設定した
代表語の基準と比較し、適合した類似語句を抽出する検
索結果分類処理部と、これら抽出した類似語句とその出
現位置情報を出力する結果出力部とを備えたことを特徴
とする文書検索システムである。

【００１６】〈請求項２の説明〉請求項２の発明は、類
似語句として、ユーザが指定した検索パターン文字列に
後方一致する文字列を抽出するようにしたものである。
従って、索引ファイル検索部が、最後の索引語から先頭
方向の索引語に対して検索を行う点以外は請求項１の発
明と同様である。

【００１７】〈請求項３の構成〉検索対象文書中に出現
する文字列から予め決められた抽出規則により抽出した
索引語の出現位置情報を有する索引ファイルと、検索パ
ターン文字列を入力する検索パターン文字列入力部と、
検索パターン文字列を、索引ファイルにおける索引語の
抽出規則と同じ抽出規則により索引語に分割する索引語
抽出部と、検索パターン文字列に対して、先頭からの類
似語句展開開始文字数を設定し、索引ファイルを用い
て、分割された先頭の索引語から、類似語句展開開始文
字を含む索引語より一つ前の索引語までの出現位置を求
めると共に、類似語句展開開始文字を含む索引語の類似
語句展開開始文字までの文字列に前方一致する索引語の
出現位置を求め、求めた各索引語の出現位置が検索パタ
ーン文字列と同じ文字並びとなっている文字列を類似語
句として抽出する索引ファイル検索部と、求めた類似語
句を予め設定した代表語の基準と比較し、適合した類似
語句を抽出する検索結果分類処理部と、これら抽出した
類似語句とその出現位置情報を出力する結果出力部とを
備えたことを特徴とする文書検索システムである。

【００１８】〈請求項３の説明〉請求項３の発明は、検
索パターン文字列に対して、予め先頭から何文字目とい
った類似語句展開開始文字数を設定し、この類似語句展
開開始文字までの文字列に前方一致する文字列を類似語
句として抽出し、かつ、分類するようにしたものであ
る。この類似語句展開開始文字数としては、例えば４文
字といった値であるが、検索条件等に応じて適宜選択す
ることが可能である。

【００１９】請求項３の発明は、このように、ユーザが
指定した検索パターン文字列とは若干異なる文字列に対
しても分類して表示するようにしたので、あやふやな検
索パターン文字列を指定しても、ユーザにとって的確な
検索解を得ることができる。

【００２０】〈請求項４の構成〉検索対象文書中に出現
する文字列から予め決められた抽出規則により抽出した
索引語の出現位置情報を有する索引ファイルと、検索パ
ターン文字列を入力する検索パターン文字列入力部と、
検索パターン文字列を、索引ファイルにおける索引語の
抽出規則と同じ抽出規則により索引語に分割する索引語
抽出部と、検索パターン文字列に対して、最後の文字か
らの類似語句展開開始文字数を設定し、索引ファイルを
用いて、分割された最後の索引語から、類似語句展開開
始文字を含む索引語より一つ後の索引語までの出現位置
を求めると共に、類似語句展開開始文字を含む索引語の
類似語句展開開始文字までの文字列に後方一致する索引
語の出現位置を求め、求めた各索引語の出現位置が検索
パターン文字列と同じ文字並びとなっている文字列を類
似語句として抽出する索引ファイル検索部と、求めた類
似語句を予め設定した代表語の基準と比較し、適合した
類似語句を抽出する検索結果分類処理部と、これら抽出
した類似語句とその出現位置情報を出力する結果出力部
とを備えたことを特徴とする文書検索システムである。

【００２１】〈請求項４の説明〉請求項４の発明は、検
索パターン文字列に対して、予め最後の文字から何文字
目といった類似語句展開開始文字数を設定し、この類似
語句展開開始文字までの文字列に後方一致する文字列を
類似語句として抽出し、かつ、分類するようにしたもの
である。この類似語句展開開始文字数としては、例えば
４文字といった値であるが、検索条件等に応じて適宜選
択することが可能である。

【００２２】請求項４の発明は、このように、ユーザが
指定した検索パターン文字列とは若干異なる文字列に対
しても分類して表示するようにしたので、あやふやな検
索パターン文字列を指定しても、ユーザにとって的確な
検索解を得ることができる。

【００２３】〈請求項５の構成〉請求項３に記載の文書
検索システムにおいて、検索パターン文字列のうち、類
似語句展開開始文字以降から抽出される索引語に対し
て、この索引語の先頭１文字で始まる索引語の出現位置
を求め、求めた索引語の出現位置が検索パターン文字列
の文字並びとなっている文字列を類似語句として抽出す
る索引ファイル検索部を備えたことを特徴とする文書検
索システムである。

【００２４】〈請求項５の説明〉類似語句展開開始文字
以降から抽出される索引語とは、例えば、検索パターン
文字列を「Ｘウインドウ管理プロセス」とし、類似語句
展開開始文字数を４文字とした場合、「管理」や「プロ
セス」に相当する。従って、索引ファイル検索部は、
「Ｘウインドウ管…」や「Ｘウインドウ管理プ…」とい
った文字列を類似語句として抽出する。このような構成
であることにより、検索パターン文字列に対して類似度
の高い類似語句のみを抽出することができる。

【００２５】〈請求項６の構成〉請求項４に記載の文書
検索システムにおいて、検索パターン文字列のうち、類
似語句展開開始文字より前方で抽出される索引語に対し
て、この索引語の終端１文字で始まる索引語の出現位置
を求め、求めた索引語の出現位置が検索パターン文字列
の文字並びとなっている文字列を類似語句として抽出す
る索引ファイル検索部を備えたことを特徴とする文書検
索システムである。

【００２６】〈請求項６の説明〉請求項６の発明は、請
求項５の発明における類似語句展開開始文字以降に対し
て、類似語句展開開始文字より前方とし、かつ、先頭１
文字で始まる索引語に対して終端１文字で始まる索引語
としたものである。従って、検索パターン文字列の後方
に位置する類似語句展開開始文字数分の文字列に後方一
致する類似語句に対しても類似度の高い語句のみを抽出
することができる。

【００２７】〈請求項７の構成〉請求項１〜６のいずれ
かに記載の文書検索システムにおいて、代表語は、検索
対象文書中の出現頻度が予め定めた閾値以上の語句であ
ることを特徴とする文書検索システムである。

【００２８】〈請求項７の説明〉請求項７の発明は、代
表語の基準を検索対象文書中の出現頻度によって決定す
るようにしたものである。即ち、文書中で高頻度で出現
する語は代表語である可能性が高いという観点からある
頻度以上で出現する語を代表語と定義している。これに
より、出現頻度があまり高くない語句は、検索結果とし
て削除することができる。

【００２９】〈請求項８の構成〉請求項７に記載の文書
検索システムにおいて、閾値は、語長が長い文字列ほど
低い値とすることを特徴とする文書検索システムであ
る。

【００３０】〈請求項８の説明〉請求項８の発明は、代
表語としての基準を文字数毎に設けるようにしたもので
ある。これにより、閾値がより正確になり、文書中での
重要度に合った語句の抽出を行うことができる。

【００３１】〈請求項９の構成〉請求項１〜６のいずれ
かに記載の文書検索システムにおいて、索引ファイル検
索部で抽出した文字列が、検索パターン文字列と同じ文
字列長であった場合、この文字列を代表語とする検索結
果分類処理部を備えたことを特徴とする文書検索システ
ムである。

【００３２】〈請求項９の説明〉索引ファイル検索部で
抽出した文字列が、検索パターン文字列と同じ文字列長
であった場合とは、類似語句ではなく、検索パターン文
字列そのものである。従って、このような場合は、出現
頻度とは無関係に代表語として抽出する。これにより、
ユーザが入力した検索パターン文字列そのものの文書中
での出現頻度が低くても、的確に代表語として抽出する
ことができる。

【００３３】〈請求項１０の構成〉請求項１、３、５の
いずれかに記載の文書検索システムにおいて、対象とす
る文字列が代表語としての基準を満足しない場合は、こ
の文字列の最後の１文字を削除した文字列に等しい索引
語が存在するかを調べ、存在した場合は、この文字列が
代表語としての基準を満足するかを判定する処理を繰り
返し行う検索結果分類処理部を備えたことを特徴とする
文書検索システムである。

【００３４】〈請求項１０の説明〉請求項１０の発明
は、検索パターン文字列や、類似語句展開開始文字数の
文字列に前方一致する類似語句に対して、これらの類似
語句が代表語としての基準を満足しない場合は、最後の
１文字を削除して該当する索引語が存在するかを調べ、
存在したら、この文字列が代表値を満足するかを判定
し、満足しなかった場合は、更にもう１文字を削除して
該当する索引語が存在するかを調べるといった処理を繰
り返し行うようにしたものである。これにより、文書中
で重要な語句のみに絞り込むことができる。

【００３５】〈請求項１１の構成〉請求項２、４、６の
いずれかに記載の文書検索システムにおいて、対象とす
る文字列が代表語としての基準を満足しない場合は、こ
の文字列の先頭の１文字を削除した文字列に等しい索引
語が存在するかを調べ、存在した場合は、この文字列が
代表語としての基準を満足するかを判定する処理を繰り
返し行う検索結果分類処理部を備えたことを特徴とする
文書検索システムである。

【００３６】〈請求項１１の説明〉請求項１１の発明
は、検索パターン文字列や、類似語句展開開始文字数の
文字列に後方一致する類似語句に対して、請求項１０と
同様の構成としたものである。従って、この場合も文書
中で重要な語句のみに絞り込むことができるという効果
が得られる。

【００３７】〈請求項１２の構成〉請求項３〜６のいず
れかに記載の文書検索システムにおいて、代表語は、検
索対象文書中の出現頻度が予め定めた閾値以上の語句で
あり、かつ、類似語句の閾値は、検索パターン文字列と
完全一致する文字列の閾値より高い値とすることを特徴
とする文書検索システムである。

【００３８】〈請求項１２の説明〉請求項１２の発明
は、類似語句展開開始文字数分の文字列に前方一致また
は後方一致する類似語句と検索パターン文字列と完全一
致する文字列とは、代表語としての閾値を変えるように
したものである。これにより、類似語句として抽出され
る語句は代表語として確実なもののみとすることができ
る。

【００３９】

【発明の実施の形態】以下、本発明の実施の形態を図面
を用いて詳細に説明する。《具体例１》〈構成〉図１は本発明の文書検索システムの具体例１を
示す構成図である。図のシステムは、検索パターン文字
列入力部１、索引語抽出部２、索引ファイル検索部３、
索引ファイル４、検索結果分類処理部５、結果出力部６
からなる。

【００４０】検索パターン文字列入力部１は、ユーザ
（検索者）が所望する検索パターン文字列を入力する機
能部である。索引語抽出部２は、検索パターン文字列入
力部１で入力された検索パターン文字列から、索引ファ
イル４の抽出規則と同様の規則に基づき、索引語を切り
出す機能部である。索引ファイル検索部３は、索引語抽
出部２で抽出された索引語に基づき、索引ファイル４を
検索し、検索パターン文字列に前方一致する文字列を類
似語句として抽出する機能部である。

【００４１】索引ファイル４は、例えば特願平７−２３
１９１５号明細書に記載された構成で作成された索引フ
ァイルであり、これは次のような構成となっている。

【００４２】先ず、検索対象日本語文書から索引語抽出
処理によって語句を切り出す。日本語文を簡易的に区切
る方法としては様々なものがあるが、ここでは、例えば
句読点や漢字、アルファベット、片仮名等の文字種を区
切り記号とした文字種による簡易切り出しを使用すると
して説明する。この他には、例えば形態素解析等を用い
ることもできる。

【００４３】文字種により簡易切り出し等により抽出し
た索引語について、補助索引語を生成する。ここで、あ
る索引語Ｗ（語長をＬとする）の補助索引語はＬ−１個
あり、それぞれ索引語の第ｉ番目から最後までの文字か
らなる部分文字列（０＜ｉ＜Ｌ）である。

【００４４】索引語および補助索引語と、それらの文字
列の文書内における全ての出現位置を対応づけた組pair
（（補助）索引語，出現位置集合）を索引ファイルに格
納する。例えば、このような組pairは次のようになって
いる。

【００４５】図２は、索引ファイル４の構成を示す説明
図である。図示の組pairは、「論理回路」を索引語また
は補助索引語とする部分を示している。尚、実装時に
は、これらの（補助）索引語をキーとして出現位置集合
を高速アクセス可能となるような構造を取るが、本具体
例では直接関係ないので、その説明は省略する。また、
特願平７−２３１９１５号明細書では、不要語（索引語
として登録されない文字並び）が生じることがあるが、
本具体例では全ての文字が何らかの索引語として登録さ
れているとする。

【００４６】図１に戻って、検索結果分類処理部５は、
索引ファイル検索部３で求められた類似語句を予め設定
した代表値の閾値と比較して分類する機能部であり、こ
の詳細については〈動作〉の項で説明する。

【００４７】結果出力部６は、検索結果分類処理部５で
分類された結果を出力する機能部である。

【００４８】また、これら検索パターン文字列入力部１
〜結果出力部６は、コンピュータのプロセッサやメモリ
およびプロセッサが実行するプログラム等で機能構成さ
れ、索引ファイル４はハードディスク装置等に実現され
ている。従って、このような検索パターン文字列入力部
１〜結果出力部６の機能を実現するための制御プログラ
ムをフロッピーディスクやＣＤ−ＲＯＭ等の記録媒体に
記録してから、一般の該当するコンピュータにインスト
ールするといった方法や、ネットワークを経由してプロ
グラムをダウンロードするといった方法を用いることで
本発明の文書検索システムを実現することができる。

【００４９】〈動作〉図３は、上記具体例１の動作を示
すフローチャートである。先ず、検索パターン文字列を
検索パターン文字列入力部１に入力し（ステップＳ
１）、索引語抽出部２は索引語Ｗ_i（０≦ｉ＜Ｎ）を切
り出す（ステップＳ２）。尚、Ｎは抽出した索引語の総
数である。

【００５０】例えば、検索パターン文字列が「文字コー
ド情報」であった場合、文字種で切り出すとすると、Ｗ
₀＝「文字」、Ｗ₁＝「コード」、Ｗ₂＝「情報」という
ように索引語Ｗ_iが抽出される。

【００５１】次に、索引ファイル検索部３は、ステップ
Ｓ２で抽出された索引語Ｗ_iで順次索引ファイル４を検
索する。最初に、Ｗ₀で索引ファイル４を検索し、その
出現位置の集合をＨとする（ステップＳ３）。次に、ス
テップＳ４において、索引語Ｗ_i（１≦ｉ＜Ｎ−２）に
対して順に索引ファイル４を検索し、検索解を絞り込
む。

【００５２】検索解を絞り込むには具体的には次のよう
に行う。先ず、Ｗ_iの出現位置の集合Ｈ1を求める（ステ
ップＳ５）。出現位置ｐ∈Ｈ1のうち、ｐ−ｑ＝＝lengt
h（Ｗ_i-1）となるようなｑ∈Ｈが存在するｐのみを新た
にＨ1の要素とする（ステップＳ６）。そして、Ｈ1の集
合をＨに入れる（ステップＳ７）。尚、ｐ−ｑ＝＝leng
th（Ｗ_i-1）とは、出現位置の要素ｐから要素ｑを引い
た値が索引語Ｗ_iの長さに等しいという意味である。

【００５３】例えば、Ｗ₀＝「文字」の出現位置集合が
「1,23，45，85，…」、Ｗ₁＝「コード」の出現位置集
合が「5，49，90,…」であったとする。尚、出現位置は
文書中の何バイト目に索引語の先頭文字が位置するかで
表すとする。このような出現位置集合であった場合、Ｗ
_iをＷ₁＝「コード」とすると、出現位置ｐは「5，49，9
0,…」である。従って、この出現位置集合からｑ（＝
「1,23，45，85，…」を引いた長さが、Ｗ₀＝「文字」
の語長４バイトであるｐのみが、Ｗ₀＝「文字」に隣接
する「コード」であることが判定できる。この例では、
Ｗ₁＝「コード」の出現位置集合が「5，49，…」のみを
新たにＨ1の要素とし、これをＨに入れることになる。

【００５４】このようにして、ステップＳ４では、索引
語Ｗ_N-2までの検索解を絞り込む。

【００５５】最後に、索引語Ｗ_N-1に対する検索を行
う。検索結果は、pair（Ｕ，出現位置集合）の集合Ｘと
して表現される。先ず、Ｘを空に設定し（ステップＳ
８）、Ｗ_N- ₁に前方一致する全ての（補助）索引語Ｕを
求めて、各Ｕについて以下の処理を繰り返す（ステップ
Ｓ９）。例えば、上記の例では“情報”や、“情報…”
といった、「情報」に前方一致する全ての（補助）索引
語が抽出され、これらの語句に対して上記のステップＳ
９の処理が行われる。

【００５６】先ず、Ｕで索引ファイル４を検索し、出現
位置の集合をＨとする（ステップＳ１０）。次に、検索
解を絞り込む（ステップＳ１１）。具体的にはｐ−ｑ＝
＝length（Ｗ_N-2）となるようなｑ∈Ｈが存在するよう
なｐのみを新たにＨの要素とする。そして、Ｈが空でな
ければ（ステップＳ１２）、ステップＳ１０からの処理
を繰り返す。ステップＳ１２で、Ｈが空になれば、pair
（Ｕ，Ｈ）をＸの要素とする（ステップＳ１３）。

【００５７】以上のステップにより、検索パターン文字
列に前方一致する文字列が全て抽出されたことになる。
例えば、検索パターン文字列を「論理回路」とした場
合、集合Ｘには図２に示すようなpairが格納される。

【００５８】次に、検索結果分類処理部５は、Ｘの要素
をステップＳ１４以降の手順で分類する。先ず、Ｘの各
要素を文字列長で降順にソートする。文字列長が等しい
もの同士は文字コードに従って昇順にソートする（ステ
ップＳ１４）。そして、出力用の検索解集合ＯＵＴを空
に設定し（ステップＳ１５）、Ｘが空になるまで以下の
手順を繰り返す。

【００５９】Ｘの最初の要素をＸから取り出してＸ₀と
する（ステップＳ１６）。Ｘ₀が代表値としての条件を
満足するならば（ステップＳ１７）、Ｘ₀をＯＵＴの要
素とし（ステップＳ１８）、Ｘが空になるまで（ステッ
プＳ１９）、ステップＳ１７からの処理を繰り返す。

【００６０】ここで、代表値とは、ある語を代表語とし
て認めるか否かの単位文書容量当たりの出現頻度の閾値
である。即ち、文書中で高頻度で出現する語は代表語で
ある可能性が高いという観点から、ある頻度以上で出現
する語を代表語と定義している。また、閾値は一般に文
字数毎に設定し、長い単語ほど低い閾値で代表語として
認められるような閾値とする。従って、ステップＳ１７
でＸ₀の出現位置集合Ｈ₀が閾値を越えている場合は、Ｘ
₀を代表値とする。

【００６１】一方、ステップＳ１７において、Ｘ₀が代
表値としての条件を満足しないならば、Ｘ₀に対応する
索引語Ｕの文字列長が検索パターン文字列より長いかど
うかを調べる（ステップＳ２０）。もし、Ｕの文字列長
と検索パターン文字列長が等しければステップＳ１８に
移行し、これをＯＵＴの要素とする。即ち、その文字列
は代表値としての条件を満足してはいないが、ユーザが
指定した検索パターン文字列そのものであるため、検索
解集合ＯＵＴに加える。

【００６２】ステップＳ２０で、Ｘ₀に対応する索引語
Ｕの文字列長が検索パターン文字列より長い場合は、Ｕ
の最後の１文字を削除し（ステップＳ２１）、Ｕと等し
い索引語Ｕ_j（ｊ≠０）が存在するかを判定する（ステ
ップＳ２２）。このステップＳ２２において、存在する
ならば、Ｘ_j＝pair（Ｕ_j，Ｈ₀∪Ｈ_j）とし（ステップＳ
２３）、そうでなければ、Ｘ₀をＸに挿入して（ステッ
プＳ２４）、ステップＳ１９に移行する。

【００６３】このようなステップＳ１７〜ステップＳ２
４の処理により、例えば「論理回路素子では」や「論理
回路素子として」といった文書中で比較的出現頻度の低
い語はＯＵＴの要素とはならず、「論理回路素子」とい
った語がＯＵＴの要素となる。そして、ステップＳ１９
において、Ｘが空になったら、ＯＵＴに含まれる各要素
を出力し（ステップＳ２５）、終了する。

【００６４】図４は、結果出力の一例である。図示例
は、検索パターン文字列を「論理回路」とした場合の出
力結果であり、出現位置情報の図示は省略している。こ
こでは、検索パターン文字列そのものである「論理回
路」と共に、「論理回路情報」や「論理回路図」といっ
た検索解が表示されている。

【００６５】〈効果〉以上のように、具体例１によれ
ば、ユーザが指定した検索パターン文字列の直後に出現
する文字列によって分類するようにしたので、ユーザが
望むような文字列を的確に分類して表示することができ
る。

【００６６】検索結果が分類表示されなければ、どの検
索解も一様に検索パターン文字列の出現場所を示してい
るので、検索解数が非常に多い場合、ユーザは全ての出
現場所を確認し検索したかったものであるかどうか、検
索パターン文字列が妥当なものであったかどうかを調べ
なくてはならない。あるいは、新たな検索パターン文字
列を各自で再考して検索解を更に絞り込まなくてはなら
ない。

【００６７】例えば、検索パターン文字列が「論理回
路」であり、検索結果が分類表示されない場合は図２に
示すような状態が表示され、検索解数が非常に多いもの
となる。これに対して、本具体例では、図４に示すよう
に、検索結果を分類して表示するため、ユーザは検索パ
ターン文字列の出現状況を、後続文字列によって大まか
に把握することが可能となり、指定した検索パターン文
字列が妥当なものであったかどうかといったことを確認
することができる。

【００６８】例えば、ユーザが最初に指定した検索パタ
ーン文字列は「論理回路」であるが、「論理回路素子」
という検索解を見ることによって、ユーザが本当に検索
したかった文字列は「素子」に関する語句であったとい
う点を知ることができる。また、これ以外の「論理回路
図」や「論理回路遅延情報」といった検索解は「素子」
とは無関係であることが分かるため、ユーザは必要に応
じて不要な検索解を切り捨てることも可能となる。

【００６９】尚、上記具体例１では、後続文字列によっ
て分類するようにしたが、ユーザが指定した検索パター
ン文字列の直前に出現する文字列によって分類するよう
にしてもよい。このような場合、索引ファイル４の構成
として、ある索引語が、どの索引語に後方一致するかと
いう情報を備えたものとする。また、索引ファイル検索
部３の処理として、最後尾の文字から先頭文字に向かっ
て絞り込みを行い、先頭文字に後方一致する全てのＵを
抽出する。そして、検索結果分類処理部５では、ステッ
プＳ２１に進んだ場合、Ｕの最初の１文字を削除すると
いった処理を行うことによって実現することができる。

【００７０】《具体例２》〈構成〉具体例２における図面上の構成は、具体例１と
同様であるため、図１を援用して説明する。

【００７１】具体例２のシステムは、検索パターン文字
列入力部１、索引語抽出部２、索引ファイル検索部３、
索引ファイル４、検索結果分類処理部５、結果出力部６
からなる。検索パターン文字列入力部１および索引語抽
出部２は、それぞれ具体例１と同様に、ユーザ（検索
者）が所望する検索パターン文字列を入力する機能部お
よび検索パターン文字列入力部１で入力された検索パタ
ーン文字列から、索引ファイル４の抽出規則と同様の規
則に基づき、索引語を切り出す機能部である。

【００７２】索引ファイル検索部３は、予め決められた
類似語句展開開始文字数の情報を有し、索引語抽出部２
で抽出された索引語に基づき、索引ファイル４を検索し
て、検索パターン文字列の類似語句展開開始文字までの
文字列に前方一致する文字列を類似語句として抽出する
機能部である。

【００７３】索引ファイル４〜結果出力部６の構成は具
体例１と同様である。但し、検索結果分類処理部５にお
いて、類似語句の閾値は、入力された検索パターン文字
列と完全一致する文字列の閾値より高い値に設定されて
いる。

【００７４】〈動作〉図５および図６は、具体例２の動
作を示すフローチャートである。先ず、検索パターン文
字列Ｓtrを入力し（ステップＳ１）、その検索パターン
文字列Ｓtrの文字列長をｃ₀とする（ステップＳ２）。

【００７５】また、予め設定された類似語句展開開始文
字数をｃとする（ステップＳ３）。ｃの値があまり小さ
いと大量の文字列を検索することになり、あまり効率が
よくない。従って、ｃ≧４文字程度が適当である。

【００７６】次に、ｃ₀＞ｃであるかを判定し（ステッ
プＳ４）、そうであれば、ステップＳ５以降で、Ｓtrに
対する検索解と、更にｃ文字までが同一でそれ以降が異
なる索引語に対する検索解を分類表示する。一方、ｃ₀
≦ｃであれば、具体例１におけるステップＳ３以降の処
理を実行し（ステップＳ３２）、終了する。

【００７７】Ｓtrに対する検索解は次の手順で求める。
先ず、Ｓtrを、先頭ｃ文字分とそれ以降の文字分との二
つの文字列ＳtrＨ，ＳtrＴに分割する（ステップＳ
５）。次に、先頭ｃ文字分の文字列ＳtrＨの索引語Ｗ′
_i（０≦ｉ＜Ｎ₀）と、検索パターン文字列Ｓtrの索引語
Ｗ_j（０≦ｊ＜Ｎ）を求める（ステップＳ６）。尚、Ｎ₀
はＳtrＨから抽出した索引語の総数、ＮはＳtrから抽出
した索引語の総数である。

【００７８】そして、具体例１のステップＳ３からステ
ップＳ１９まで、pair（Ｕ，出現位置集合）の集合Ｘが
空になるまで繰り返し実行し、Ｓtrに対する出力検索解
集合ＯＵＴを求める（ステップＳ７）。但し、途中、具
体例１のステップＳ４で、Ｎ₀−１≦ｉ＜ＮのときのＨ
の値をそれぞれ中間結果としてＨtmp(i)に保持するよう
にする。

【００７９】次に、類似語句およびそれらの出現位置を
求める。先ず、Ｈtmp内における出現位置の重複を削除
するため、各Ｈtmp(i)（Ｎ₀−２≦ｉ＜Ｎ−２）からＨt
mp(i+1)に含まれる出現位置を削除する（ステップＳ
８）。

【００８０】そして、Ｘを空として（ステップＳ９）、
Ｗ_N0-1とは前方一致しないが、Ｗ′_N0-1に前方一致する
する全ての索引語Ｕに対して以下の処理を繰り返す（ス
テップＳ１０）。

【００８１】先ず、Ｕで索引ファイル４を検索し、出現
位置の集合をＨとする（ステップＳ１１）。次に、検索
解を絞り込む（ステップＳ１２）。具体的にはｐ−ｑ＝
＝length（Ｗ′_N0-2）となるようなｑ∈Ｈが存在するｐ
のみを新たにＨの要素とする。そして、Ｈが空でなけれ
ば（ステップＳ１３）、pair（Ｕ，Ｈ）をＸの要素とす
る（ステップＳ１４）。

【００８２】次に、Ｗ_k（Ｎ₀≦ｋ＜Ｎ）に対する類似語
展開を行う（ステップＳ１５）。先ず、Ｘ₀を空にして
（ステップＳ１６）、Ｗ_k-1とは完全一致しないが前方
一致する全ての索引語Ｕに対して、以下の処理を繰り返
す（ステップＳ１７）。

【００８３】先ず、Ｕで索引ファイル４を検索し、出現
位置の集合をＨとする（ステップＳ１８）。次に検索解
を絞り込む（ステップＳ１９）。そして、Ｈが空でなけ
れば（ステップＳ２０）、pair（Ｕ，Ｈ）をＸ₀の要素
とする（ステップＳ２１）。ここで、Ｈに含まれる出現
位置は、Ｈtmp(k-1)に含まれる筈なので、Ｈtmp(k-1)か
ら重複する出現位置を削除する（ステップＳ２２）。

【００８４】ステップＳ１７のループを完了したら、最
終的にpair（Ｗ_k-1，Ｈtmp(k-1)）をＸの要素とする
（ステップＳ２３）。更に、Ｘ₀の全要素をＸに移す
（ステップＳ２４）。

【００８５】次に、Ｗ_kの先頭１文字で始まり、Ｗ_kとは
前方一致しない全ての索引語Ｕに対して、以下の処理を
繰り返す（ステップＳ２５）。

【００８６】先ず、Ｕで索引ファイル４を検索し、出現
位置の集合をＨとする（ステップＳ２６）。次に検索解
を絞り込む（ステップＳ２７）。そして、Ｈが空でなけ
れば（ステップＳ２８）、pair（Ｕ，Ｈ）をＸの要素と
する（ステップＳ２９）。

【００８７】最後に、Ｘの要素をステップＳ１５以降の
手順で分類する。先ず、Ｘの各要素を文字列長で降順に
ソートする。また、文字列長が等しいもの同士は文字コ
ードに従って昇順にソートする（ステップＳ３０）。そ
して、Ｘが空になるまで具体例１におけるステップＳ１
６以降の処理を繰り返す（ステップＳ３１）。このよう
にしてＸが空になったら、ＯＵＴに含まれる各要素を出
力して終了する。

【００８８】尚、ここでは、指定された検索パターン文
字列Ｓtrに対する検索解の分類表示と、Ｓtrの類似文字
列の検索解の分類表示を一緒に行っているが、個別に表
示するよう構成してもよい。

【００８９】また、ある語が代表値を満たすかどうかを
判断するための閾値は、Ｓtrに対する場合よりも類似文
字列に対する場合をきつめに設定するのが望ましい。こ
の理由は、ユーザが指定した検索パターン文字列との差
をつけ、出現頻度が高く、代表語として確実な語とする
ためである。

【００９０】次に、具体例２の動作を一例により説明す
る。ここで、検索パターン文字列を「Ｘウインドウ管理
プロセス」とする。また、類似語句展開開始文字数ｃを
４とする。

【００９１】これにより、ＳtrＨ＝ＸウインＳtr＝Ｘウインドウ管理プロセスとなる。

【００９２】また、ＳtrＨに対する索引語集合は、Ｗ′₀＝ＸＷ′₁＝ウインＮ₀＝２となり、Ｓtrに対する索引語集合は、Ｗ₀＝ＸＷ₁＝ウインドウＷ₂＝管理Ｗ₃＝プロセスＮ＝４となる。

【００９３】これにより、図５のステップＳ７までの処
理で、「Ｘウインドウ管理プロセス」に前方一致する語
の出力検索解集合ＯＵＴが求められる。

【００９４】また、ステップＳ７において、Ｎ₀−２≦
ｉ＜Ｎの値がそれぞれＨtmp(i)に中間結果として保持さ
れている。即ち、Ｈtmp(0)＝「Ｘ」の出現位置集合Ｈtmp(1)＝「Ｘウインドウ」の出現位置集合Ｈtmp(2)＝「Ｘウインドウ管理」の出現位置集合Ｈtmp(3)＝「Ｘウインドウ管理プロセス」の出現位置集
合の値が保持されている。

【００９５】次にステップＳ８以降で、類似語句展開に
よる検索解を求める。先ず、Ｈtmp内における出現位置
の重複をなくすために以下のようにする。Ｈtmp(0)＝Ｈtmp(0)−Ｈtmp(1) Ｈtmp(1)＝Ｈtmp(1)−Ｈtmp(2) Ｈtmp(2)＝Ｈtmp(2)−Ｈtmp(3)

【００９６】そして、ステップＳ１０で、Ｈtmp(0)に属
する出現位置のうち、後続してＷ_N0 _-1＝Ｗ₁＝「ウイン
ドウ」以外で、Ｗ′_N0-1＝Ｗ′₁＝「ウイン」に前方一
致する索引語Ｕが出現するものを求めて、pair（Ｕ，
Ｈ）をＸの要素とする。これによって、例えば、 pair（「ウインドー」，Ｈ）（Ｈは「Ｘウインド
ー」の出現位置集合）をＸの要素とする。

【００９７】次に、ステップＳ１５において、Ｗ_k（Ｎ₀
≦ｋ＜Ｎ）に対する類似語展開を行う。即ち、ステップ
Ｓ１０では、「ウインドウ」には前方一致しないが、
「ウイン」には前方一致する全ての索引語Ｕを求めた。
しかしながら、あくまでも索引語であるため、ここで
は、例えば、索引語が異なる「Ｘウインドウ管理…」と
いった語は抽出できないことになる（「管理…」は文字
種が異なり、別の索引語であるため）。従って、このよ
うな語を抽出するために、ステップＳ１５において、Ｗ
_N0＝Ｗ₂以降、各索引語に対して類似語展開処理を行
う。

【００９８】先ず、ステップＳ１７において、「ウイン
ドウ」に完全一致しないが前方一致する索引語Ｕが出現
するものを求めて、pair（Ｕ，Ｈ）をＸ₀の要素とす
る。これによって、例えば、 pair（「ウインドウサイズ」，Ｈ）（Ｈは「Ｘウイン
ドウサイズ」の出現位置集合） pair（「ウインドウタイトル」，Ｈ）（Ｈは「Ｘウイ
ンドウタイトル」の出現位置集合） pair（「ウインドウシステム」，Ｈ）（Ｈは「Ｘウイ
ンドウシステム」の出現位置集合）が、Ｘ₀の要素となる。

【００９９】これらの出現位置は、Ｈtmp(1)に含まれて
いる筈なので、Ｈtmp(1)から重複する出現位置情報を削
除していき（ステップＳ２２）、ステップＳ１７のルー
プを完了したら最終的にpair（「ウインドウ」，Ｈtmp
(1)）をＸの要素として追加する（ステップＳ２３）。
また、Ｘ₀の全要素をＸの要素として追加する（ステッ
プＳ２４）。

【０１００】次に、Ｗ₂＝「管理」の先頭１文字「管」
で始まり、Ｗ₂とは前方一致しない索引語Ｕが、Ｈtmp(K
-1）＝Ｈtmp(1)に続いて出現する位置を求めてＨとし、
pair（Ｕ，Ｈ）をＸの要素とする（ステップＳ２５）。
尚、ここでは該当する索引語Ｕは存在しなかったとす
る。

【０１０１】以降、ステップＳ１５のループを繰り返
す。「管理」に完全一致しないが前方一致する索引語Ｕ
が出現するものを求めて、pair（Ｕ，Ｈ）をＸ₀の要素
とする（ステップＳ１７）。これによって例えば、 pair（「管理関数」，Ｈ）（Ｈは「Ｘウインドウ管理
関数」の出現位置集合） pair（「管理基準」，Ｈ）（Ｈは「Ｘウインドウ管理
基準」の出現位置集合）がＸ₀の要素となる。

【０１０２】これらの出現位置はＨtmp(2)に含まれてい
る筈なので、Ｈtmp(2)から重複する出現位置情報を削除
していき（ステップＳ２２）、ステップＳ１７のループ
を完了したら最終的にpair（「管理」，Ｈtmp(2)）をＸ
の要素として追加する（ステップＳ２３）。また、Ｘ₀
の全要素をＸの要素として追加する（ステップＳ２
４）。

【０１０３】次に、Ｗ₃＝「プロセス」の先頭１文字
「プ」で始まり、Ｗ₃とは前方一致しない索引語Ｕが、
Ｈtmp(K-1）＝Ｈtmp(2)に続いて出現する位置を求めて
Ｈとし、pair（Ｕ，Ｈ）をＸの要素とする（ステップＳ
２５）。これによって例えば、pair（「プログラム」，
Ｈ）（Ｈは「Ｘウインドウ管理プログラム」の出現位
置集合）がＸに追加される。

【０１０４】以上のステップＳ１５の処理により、結
局、Ｘには以下のpairが格納される。 pair（「ウインドー」，Ｈ）（Ｈは「Ｘウインドー」
の出現位置集合） pair（「ウインドウ」，Ｈ）（Ｈは「Ｘウインドウ」
の出現位置集合） pair（「ウインドウサイズ」，Ｈ）（Ｈは「Ｘウイン
ドウサイズ」の出現位置集合） pair（「ウインドウタイトル」，Ｈ）（Ｈは「Ｘウイ
ンドウタイトル」の出現位置集合） pair（「ウインドウシステム」，Ｈ）（Ｈは「Ｘウイ
ンドウシステム」の出現位置集合） pair（「管理」，Ｈ）（Ｈは「Ｘウインドウ管理」の
出現位置集合） pair（「管理関数」，Ｈ）（Ｈは「Ｘウインドウ管理
関数」の出現位置集合） pair（「管理基準」，Ｈ）（Ｈは「Ｘウインドウ管理
基準」の出現位置集合） pair（「プログラム」，Ｈ）（Ｈは「Ｘウインドウ管
理プログラム」の出現位置集合）

【０１０５】そして、これらのpairとステップＳ７で求
めたＯＵＴを合わせて分類表示する。これにより、検索
パターン文字列「Ｘウインドウ管理プロセス」と完全一
致する出現位置集合と、これに類似する文字列、即ち、「Ｘウインドー」「Ｘウインドウ」「Ｘウインドウサイズ」「Ｘウインドウタイトル」「Ｘウインドウシステム」「Ｘウインドウ管理」「Ｘウインドウ管理関数」「Ｘウインドウ管理基準」「Ｘウインドウ管理プログラム」の出現位置集合を表示することができる。

【０１０６】〈効果〉以上のように、具体例２によれ
ば、ユーザが指定した検索パターン文字列とは若干異な
る文字列に対しても分類して表示するようにしたので、
あやふやな検索パターン文字列を指定しても、ユーザに
とって的確な検索解を得ることができる。

【０１０７】全文検索システムでは、ユーザが指定した
検索パターン文字列に従って検索を実行するのが一般的
であり、指定しなかった文字列でどのようなものがある
かをガイドライン的に表示するものは少ない。文字単位
の出現位置を格納するような索引ファイル構成をとるシ
ステムでは一般にこのような機能を提供するためには、
別に情報を格納する必要があり、一般には重たい処理と
なる。

【０１０８】これに対して、本具体例では、検索性能を
大きく落とすことなく、索引ファイルに格納されている
情報を効率的に利用して類似語句を表示することが可能
となる。これによって、ユーザが指定した検索パターン
文字列があまり妥当でない場合でも、他に表示された類
似語句を確認することによって、検索方針を正しく変更
することが可能である。

【０１０９】尚、具体例２においても、検索パターン文
字列のうち、最後の文字から類似語句展開開始文字数分
の文字列に後方一致する文字列を類似語句として抽出す
ることも可能である。この場合、上記具体例１で説明し
たように、索引ファイル４の構成として、ある索引語
が、どの索引語に後方一致するかという情報を備えたも
のとする。また、索引ファイル検索部３の処理として、
最後尾の文字から先頭文字に向かって絞り込みを行い、
先頭文字に後方一致する全てのＵを抽出する。そして、
検索結果分類処理部５では、図３のステップＳ２１に進
んだ場合、Ｕの最初の１文字を削除するといった処理を
行うことによって実現することができる。

【図面の簡単な説明】

【図１】本発明の文書検索システムの構成図である。

【図２】本発明の文書検索システムにおける索引ファイ
ルの構成を示す説明図である。

【図３】本発明の文書検索システムの具体例１の動作を
示すフローチャートである。

【図４】本発明の文書検索システムの具体例１の出力結
果の一例を示す図である。

【図５】本発明の文書検索システムの具体例２の動作を
示すフローチャート（その１）である。

【図６】本発明の文書検索システムの具体例２の動作を
示すフローチャート（その２）である。

【符号の説明】

１検索パターン文字列入力部２索引語抽出部３索引ファイル検索部４索引ファイル５検索結果分類処理部６結果出力部

Claims

【特許請求の範囲】

【請求項１】検索対象文書中に出現する文字列から予
め決められた抽出規則により抽出した索引語の出現位置
情報を有する索引ファイルと、検索パターン文字列を入力する検索パターン文字列入力
部と、前記検索パターン文字列を、前記索引ファイルにおける
索引語の抽出規則と同じ抽出規則により索引語に分割す
る索引語抽出部と、前記索引ファイルを用いて、前記分割された先頭から最
後の一つ前までの索引語の出現位置を求めると共に、最
後の索引語に前方一致する索引語の出現位置を求め、各
索引語の出現位置が前記検索パターン文字列と同じ文字
並びとなっている文字列を類似語句として抽出する索引
ファイル検索部と、前記求めた類似語句を予め設定した代表語の基準と比較
し、適合した類似語句を抽出する検索結果分類処理部
と、これら抽出した類似語句とその出現位置情報を出力する
結果出力部とを備えたことを特徴とする文書検索システ
ム。
【請求項２】検索対象文書中に出現する文字列から予
め決められた抽出規則により抽出した索引語の出現位置
情報を有する索引ファイルと、検索パターン文字列を入力する検索パターン文字列入力
部と、前記検索パターン文字列を、前記索引ファイルにおける
索引語の抽出規則と同じ抽出規則により索引語に分割す
る索引語抽出部と、前記索引ファイルを用いて、前記分割された先頭より二
番目の索引語から最後の索引語の出現位置を求めると共
に、先頭の索引語に後方一致する索引語の出現位置を求
め、各索引語の出現位置が前記検索パターン文字列と同
じ文字並びとなっている文字列を類似語句として抽出す
る索引ファイル検索部と、前記求めた類似語句を予め設定した代表語の基準と比較
し、適合した類似語句を抽出する検索結果分類処理部
と、これら抽出した類似語句とその出現位置情報を出力する
結果出力部とを備えたことを特徴とする文書検索システ
ム。
【請求項３】検索対象文書中に出現する文字列から予
め決められた抽出規則により抽出した索引語の出現位置
情報を有する索引ファイルと、検索パターン文字列を入力する検索パターン文字列入力
部と、前記検索パターン文字列を、前記索引ファイルにおける
索引語の抽出規則と同じ抽出規則により索引語に分割す
る索引語抽出部と、前記検索パターン文字列に対して、先頭からの類似語句
展開開始文字数を設定し、前記索引ファイルを用いて、
前記分割された先頭の索引語から、前記類似語句展開開
始文字を含む索引語より一つ前の索引語までの出現位置
を求めると共に、前記類似語句展開開始文字を含む索引
語の前記類似語句展開開始文字までの文字列に前方一致
する索引語の出現位置を求め、求めた各索引語の出現位
置が前記検索パターン文字列と同じ文字並びとなってい
る文字列を類似語句として抽出する索引ファイル検索部
と、前記求めた類似語句を予め設定した代表語の基準と比較
し、適合した類似語句を抽出する検索結果分類処理部
と、これら抽出した類似語句とその出現位置情報を出力する
結果出力部とを備えたことを特徴とする文書検索システ
ム。
【請求項４】検索対象文書中に出現する文字列から予
め決められた抽出規則により抽出した索引語の出現位置
情報を有する索引ファイルと、検索パターン文字列を入力する検索パターン文字列入力
部と、前記検索パターン文字列を、前記索引ファイルにおける
索引語の抽出規則と同じ抽出規則により索引語に分割す
る索引語抽出部と、前記検索パターン文字列に対して、最後の文字からの類
似語句展開開始文字数を設定し、前記索引ファイルを用
いて、前記分割された最後の索引語から、前記類似語句
展開開始文字を含む索引語より一つ後の索引語までの出
現位置を求めると共に、前記類似語句展開開始文字を含
む索引語の前記類似語句展開開始文字までの文字列に後
方一致する索引語の出現位置を求め、求めた各索引語の
出現位置が前記検索パターン文字列と同じ文字並びとな
っている文字列を類似語句として抽出する索引ファイル
検索部と、前記求めた類似語句を予め設定した代表語の基準と比較
し、適合した類似語句を抽出する検索結果分類処理部
と、これら抽出した類似語句とその出現位置情報を出力する
結果出力部とを備えたことを特徴とする文書検索システ
ム。
【請求項５】請求項３に記載の文書検索システムにお
いて、検索パターン文字列のうち、類似語句展開開始文字以降
から抽出される索引語に対して、当該索引語の先頭１文
字で始まる索引語の出現位置を求め、求めた索引語の出
現位置が前記検索パターン文字列の文字並びとなってい
る文字列を類似語句として抽出する索引ファイル検索部
を備えたことを特徴とする文書検索システム。
【請求項６】請求項４に記載の文書検索システムにお
いて、検索パターン文字列のうち、類似語句展開開始文字より
前方で抽出される索引語に対して、当該索引語の終端１
文字で始まる索引語の出現位置を求め、求めた索引語の
出現位置が前記検索パターン文字列の文字並びとなって
いる文字列を類似語句として抽出する索引ファイル検索
部を備えたことを特徴とする文書検索システム。
【請求項７】請求項１〜６のいずれかに記載の文書検
索システムにおいて、代表語は、検索対象文書中の出現頻度が予め定めた閾値
以上の語句であることを特徴とする文書検索システム。
【請求項８】請求項７に記載の文書検索システムにお
いて、閾値は、語長が長い文字列ほど低い値とすることを特徴
とする文書検索システム。
【請求項９】請求項１〜６のいずれかに記載の文書検
索システムにおいて、索引ファイル検索部で抽出した文字列が、検索パターン
文字列と同じ文字列長であった場合、この文字列を代表
語とする検索結果分類処理部を備えたことを特徴とする
文書検索システム。
【請求項１０】請求項１、３、５のいずれかに記載の
文書検索システムにおいて、対象とする文字列が代表語としての基準を満足しない場
合は、この文字列の最後の１文字を削除した文字列に等
しい索引語が存在するかを調べ、存在した場合は、当該
文字列が代表語としての基準を満足するかを判定する処
理を繰り返し行う検索結果分類処理部を備えたことを特
徴とする文書検索システム。
【請求項１１】請求項２、４、６のいずれかに記載の
文書検索システムにおいて、対象とする文字列が代表語としての基準を満足しない場
合は、この文字列の先頭の１文字を削除した文字列に等
しい索引語が存在するかを調べ、存在した場合は、当該
文字列が代表語としての基準を満足するかを判定する処
理を繰り返し行う検索結果分類処理部を備えたことを特
徴とする文書検索システム。
【請求項１２】請求項３〜６のいずれかに記載の文書
検索システムにおいて、代表語は、検索対象文書中の出現頻度が予め定めた閾値
以上の語句であり、かつ、類似語句の閾値は、検索パタ
ーン文字列と完全一致する文字列の閾値より高い値とす
ることを特徴とする文書検索システム。