JPH11175564A - 文書検索システム - Google Patents
文書検索システムInfo
- Publication number
- JPH11175564A JPH11175564A JP9352083A JP35208397A JPH11175564A JP H11175564 A JPH11175564 A JP H11175564A JP 9352083 A JP9352083 A JP 9352083A JP 35208397 A JP35208397 A JP 35208397A JP H11175564 A JPH11175564 A JP H11175564A
- Authority
- JP
- Japan
- Prior art keywords
- index
- word
- character string
- search
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 検索解が大量に出現した場合でも検索者がチ
ェックし易いシステムを実現する。 【解決手段】 索引ファイル4は、検索対象文書中に出
現する文字列から抽出した索引語の出現位置情報を格納
する。索引語抽出部2は、検索パターン文字列入力部1
で入力された検索パターン文字列を索引語に分割する。
索引ファイル検索部3は、分割された各索引語で索引フ
ァイル4を参照し、その出現位置情報から、検索パター
ン文字列と同じ文字並びで、かつ、最後の索引語に前方
一致する文字列を類似語句として求める。検索結果分類
処理部5は、類似語句を代表値の閾値と比較し、閾値以
上である類似語句を抽出する。結果出力部6は、検索結
果分類処理部5で抽出された類似語句とその出現位置情
報を出力する。
ェックし易いシステムを実現する。 【解決手段】 索引ファイル4は、検索対象文書中に出
現する文字列から抽出した索引語の出現位置情報を格納
する。索引語抽出部2は、検索パターン文字列入力部1
で入力された検索パターン文字列を索引語に分割する。
索引ファイル検索部3は、分割された各索引語で索引フ
ァイル4を参照し、その出現位置情報から、検索パター
ン文字列と同じ文字並びで、かつ、最後の索引語に前方
一致する文字列を類似語句として求める。検索結果分類
処理部5は、類似語句を代表値の閾値と比較し、閾値以
上である類似語句を抽出する。結果出力部6は、検索結
果分類処理部5で抽出された類似語句とその出現位置情
報を出力する。
Description
【0001】
【発明の属する技術分野】本発明は、大量の電子化文書
に対して指定された文字列を高速に検索するための文書
検索システムに関し、更に詳細には、検索結果の効率的
な表示方法に関するものである。
に対して指定された文字列を高速に検索するための文書
検索システムに関し、更に詳細には、検索結果の効率的
な表示方法に関するものである。
【0002】
【従来の技術】電子メディアの著しい普及に伴い、報
道、出版、特許出願等様々な分野で大量の文書の電子化
が進んでいる。これらの大量の文書を必要に応じて簡単
かつ高速に検索するための検索方法として全文検索方式
がある。
道、出版、特許出願等様々な分野で大量の文書の電子化
が進んでいる。これらの大量の文書を必要に応じて簡単
かつ高速に検索するための検索方法として全文検索方式
がある。
【0003】全文検索方式は、書誌情報やキーワード等
の、文書の本文データを元に加工作成されたデータ(二
次情報という)でなく、本文全体(一次情報という)を
直接参照して、検索者が自由に指定するキーワードを元
に検索する方式である。
の、文書の本文データを元に加工作成されたデータ(二
次情報という)でなく、本文全体(一次情報という)を
直接参照して、検索者が自由に指定するキーワードを元
に検索する方式である。
【0004】このような検索方式では、高速検索を実現
するために予め索引ファイルを生成しておき、その索引
ファイルを引くことによって検索を行う。索引ファイル
の大きさは小さい方がよいが、あまり小さいと格納でき
る情報量が少なくなってしまい検索性能に影響するの
で、効率のよい索引ファイルを設計することが重要であ
る。このような索引ファイルとして様々なものが提案さ
れ、実用化されている。
するために予め索引ファイルを生成しておき、その索引
ファイルを引くことによって検索を行う。索引ファイル
の大きさは小さい方がよいが、あまり小さいと格納でき
る情報量が少なくなってしまい検索性能に影響するの
で、効率のよい索引ファイルを設計することが重要であ
る。このような索引ファイルとして様々なものが提案さ
れ、実用化されている。
【0005】例えば、本発明者らが先に出願した特願平
7−231915号明細書では、高速語句切り出し処理
によって日本語文書から索引語を抽出し、更に補助索引
語を自動生成して索引情報を格納することによって、索
引ファイルサイズを縮小化しながら、正語でない文字列
についても高速に検索可能としている。
7−231915号明細書では、高速語句切り出し処理
によって日本語文書から索引語を抽出し、更に補助索引
語を自動生成して索引情報を格納することによって、索
引ファイルサイズを縮小化しながら、正語でない文字列
についても高速に検索可能としている。
【0006】検索結果の表示方法は様々であるが、先ず
該当件数を表示し、その後、具体的に該当箇所を含む本
文を詳細表示するのが一般的である。
該当件数を表示し、その後、具体的に該当箇所を含む本
文を詳細表示するのが一般的である。
【0007】
【発明が解決しようとする課題】しかしながら、現状で
は、電子化文書は急激に増加し続けており、そのような
大量の文書に対する検索では、検索者は適切な検索要求
を出すことが難しい。このため、一般的には検索要求を
広く解釈して検索するといったことが行われているが、
このような検索を行うと、検索解が非常に大量になる可
能性がある。検索解が大量になると、人間が個々の検索
解を一つずつチェックしていくには限界がある。従っ
て、検索システム側で、何らかの方法によりこれらの大
量の検索解を検索者がチェックし易くなるよう、表示方
法に配慮しなければならない。
は、電子化文書は急激に増加し続けており、そのような
大量の文書に対する検索では、検索者は適切な検索要求
を出すことが難しい。このため、一般的には検索要求を
広く解釈して検索するといったことが行われているが、
このような検索を行うと、検索解が非常に大量になる可
能性がある。検索解が大量になると、人間が個々の検索
解を一つずつチェックしていくには限界がある。従っ
て、検索システム側で、何らかの方法によりこれらの大
量の検索解を検索者がチェックし易くなるよう、表示方
法に配慮しなければならない。
【0008】このような点から、検索解が大量に出現し
た場合でも検索者がチェックし易いシステムの実現が望
まれていた。
た場合でも検索者がチェックし易いシステムの実現が望
まれていた。
【0009】
【課題を解決するための手段】本発明は、前述の課題を
解決するため次の構成を採用する。 〈請求項1の構成〉検索対象文書中に出現する文字列か
ら予め決められた抽出規則により抽出した索引語の出現
位置情報を有する索引ファイルと、検索パターン文字列
を入力する検索パターン文字列入力部と、検索パターン
文字列を、索引ファイルにおける索引語の抽出規則と同
じ抽出規則により索引語に分割する索引語抽出部と、索
引ファイルを用いて、分割された先頭から最後の一つ前
までの索引語の出現位置を求めると共に、最後の索引語
に前方一致する索引語の出現位置を求め、各索引語の出
現位置が検索パターン文字列と同じ文字並びとなってい
る文字列を類似語句として抽出する索引ファイル検索部
と、求めた類似語句を予め設定した代表語の基準と比較
し、適合した類似語句を抽出する検索結果分類処理部
と、これら抽出した類似語句とその出現位置情報を出力
する結果出力部とを備えたことを特徴とする文書検索シ
ステムである。
解決するため次の構成を採用する。 〈請求項1の構成〉検索対象文書中に出現する文字列か
ら予め決められた抽出規則により抽出した索引語の出現
位置情報を有する索引ファイルと、検索パターン文字列
を入力する検索パターン文字列入力部と、検索パターン
文字列を、索引ファイルにおける索引語の抽出規則と同
じ抽出規則により索引語に分割する索引語抽出部と、索
引ファイルを用いて、分割された先頭から最後の一つ前
までの索引語の出現位置を求めると共に、最後の索引語
に前方一致する索引語の出現位置を求め、各索引語の出
現位置が検索パターン文字列と同じ文字並びとなってい
る文字列を類似語句として抽出する索引ファイル検索部
と、求めた類似語句を予め設定した代表語の基準と比較
し、適合した類似語句を抽出する検索結果分類処理部
と、これら抽出した類似語句とその出現位置情報を出力
する結果出力部とを備えたことを特徴とする文書検索シ
ステムである。
【0010】〈請求項1の説明〉索引ファイルは、検索
対象文書中に出現する全ての語句が索引語として登録さ
れているファイルである。また、予め決められた抽出規
則とは、例えば片仮名や漢字といった文字種で切り出す
規則であるが、これに限定されない。
対象文書中に出現する全ての語句が索引語として登録さ
れているファイルである。また、予め決められた抽出規
則とは、例えば片仮名や漢字といった文字種で切り出す
規則であるが、これに限定されない。
【0011】検索パターン文字列入力部に入力される検
索パターン文字列としては、どのような文字列であって
もよい。索引語抽出部は、検索パターン文字列を、例え
ば文字種で切り出すといったように、索引ファイルにお
ける索引語の抽出規則と同じ抽出規則により索引語に分
割する。
索パターン文字列としては、どのような文字列であって
もよい。索引語抽出部は、検索パターン文字列を、例え
ば文字種で切り出すといったように、索引ファイルにお
ける索引語の抽出規則と同じ抽出規則により索引語に分
割する。
【0012】索引ファイル検索部は、索引語抽出部で抽
出された索引語を索引ファイル中の出現位置情報に基づ
いて、検索パターン文字列と同じ文字並びになってお
り、かつ、最後の索引語に関しては、この索引語に前方
一致する索引語も求める。これにより、検索パターン文
字列と前方一致する文字列とその出現位置情報を求め
る。
出された索引語を索引ファイル中の出現位置情報に基づ
いて、検索パターン文字列と同じ文字並びになってお
り、かつ、最後の索引語に関しては、この索引語に前方
一致する索引語も求める。これにより、検索パターン文
字列と前方一致する文字列とその出現位置情報を求め
る。
【0013】そして、検索結果分類処理部では、求めた
類似語句を予め設定した代表語の基準と比較して、代表
語としての条件を備えた語句のみを抽出し、これを結果
出力部が出力する。ここで、代表語の基準とは、例えば
その語句の文書中の出現頻度であるが、これ以外のもの
であってもよい。
類似語句を予め設定した代表語の基準と比較して、代表
語としての条件を備えた語句のみを抽出し、これを結果
出力部が出力する。ここで、代表語の基準とは、例えば
その語句の文書中の出現頻度であるが、これ以外のもの
であってもよい。
【0014】請求項1の発明は、このように検索結果を
分類して表示するため、ユーザは検索パターン文字列の
出現状況を、後続文字列によって大まかに把握すること
が可能となり、指定した検索パターン文字列が妥当なも
のであったかどうかといったことを確認することができ
る。
分類して表示するため、ユーザは検索パターン文字列の
出現状況を、後続文字列によって大まかに把握すること
が可能となり、指定した検索パターン文字列が妥当なも
のであったかどうかといったことを確認することができ
る。
【0015】〈請求項2の構成〉検索対象文書中に出現
する文字列から予め決められた抽出規則により抽出した
索引語の出現位置情報を有する索引ファイルと、検索パ
ターン文字列を入力する検索パターン文字列入力部と、
検索パターン文字列を、索引ファイルにおける索引語の
抽出規則と同じ抽出規則により索引語に分割する索引語
抽出部と、索引ファイルを用いて、分割された先頭より
二番目の索引語から最後の索引語の出現位置を求めると
共に、先頭の索引語に後方一致する索引語の出現位置を
求め、各索引語の出現位置が検索パターン文字列と同じ
文字並びとなっている文字列を類似語句として抽出する
索引ファイル検索部と、求めた類似語句を予め設定した
代表語の基準と比較し、適合した類似語句を抽出する検
索結果分類処理部と、これら抽出した類似語句とその出
現位置情報を出力する結果出力部とを備えたことを特徴
とする文書検索システムである。
する文字列から予め決められた抽出規則により抽出した
索引語の出現位置情報を有する索引ファイルと、検索パ
ターン文字列を入力する検索パターン文字列入力部と、
検索パターン文字列を、索引ファイルにおける索引語の
抽出規則と同じ抽出規則により索引語に分割する索引語
抽出部と、索引ファイルを用いて、分割された先頭より
二番目の索引語から最後の索引語の出現位置を求めると
共に、先頭の索引語に後方一致する索引語の出現位置を
求め、各索引語の出現位置が検索パターン文字列と同じ
文字並びとなっている文字列を類似語句として抽出する
索引ファイル検索部と、求めた類似語句を予め設定した
代表語の基準と比較し、適合した類似語句を抽出する検
索結果分類処理部と、これら抽出した類似語句とその出
現位置情報を出力する結果出力部とを備えたことを特徴
とする文書検索システムである。
【0016】〈請求項2の説明〉請求項2の発明は、類
似語句として、ユーザが指定した検索パターン文字列に
後方一致する文字列を抽出するようにしたものである。
従って、索引ファイル検索部が、最後の索引語から先頭
方向の索引語に対して検索を行う点以外は請求項1の発
明と同様である。
似語句として、ユーザが指定した検索パターン文字列に
後方一致する文字列を抽出するようにしたものである。
従って、索引ファイル検索部が、最後の索引語から先頭
方向の索引語に対して検索を行う点以外は請求項1の発
明と同様である。
【0017】〈請求項3の構成〉検索対象文書中に出現
する文字列から予め決められた抽出規則により抽出した
索引語の出現位置情報を有する索引ファイルと、検索パ
ターン文字列を入力する検索パターン文字列入力部と、
検索パターン文字列を、索引ファイルにおける索引語の
抽出規則と同じ抽出規則により索引語に分割する索引語
抽出部と、検索パターン文字列に対して、先頭からの類
似語句展開開始文字数を設定し、索引ファイルを用い
て、分割された先頭の索引語から、類似語句展開開始文
字を含む索引語より一つ前の索引語までの出現位置を求
めると共に、類似語句展開開始文字を含む索引語の類似
語句展開開始文字までの文字列に前方一致する索引語の
出現位置を求め、求めた各索引語の出現位置が検索パタ
ーン文字列と同じ文字並びとなっている文字列を類似語
句として抽出する索引ファイル検索部と、求めた類似語
句を予め設定した代表語の基準と比較し、適合した類似
語句を抽出する検索結果分類処理部と、これら抽出した
類似語句とその出現位置情報を出力する結果出力部とを
備えたことを特徴とする文書検索システムである。
する文字列から予め決められた抽出規則により抽出した
索引語の出現位置情報を有する索引ファイルと、検索パ
ターン文字列を入力する検索パターン文字列入力部と、
検索パターン文字列を、索引ファイルにおける索引語の
抽出規則と同じ抽出規則により索引語に分割する索引語
抽出部と、検索パターン文字列に対して、先頭からの類
似語句展開開始文字数を設定し、索引ファイルを用い
て、分割された先頭の索引語から、類似語句展開開始文
字を含む索引語より一つ前の索引語までの出現位置を求
めると共に、類似語句展開開始文字を含む索引語の類似
語句展開開始文字までの文字列に前方一致する索引語の
出現位置を求め、求めた各索引語の出現位置が検索パタ
ーン文字列と同じ文字並びとなっている文字列を類似語
句として抽出する索引ファイル検索部と、求めた類似語
句を予め設定した代表語の基準と比較し、適合した類似
語句を抽出する検索結果分類処理部と、これら抽出した
類似語句とその出現位置情報を出力する結果出力部とを
備えたことを特徴とする文書検索システムである。
【0018】〈請求項3の説明〉請求項3の発明は、検
索パターン文字列に対して、予め先頭から何文字目とい
った類似語句展開開始文字数を設定し、この類似語句展
開開始文字までの文字列に前方一致する文字列を類似語
句として抽出し、かつ、分類するようにしたものであ
る。この類似語句展開開始文字数としては、例えば4文
字といった値であるが、検索条件等に応じて適宜選択す
ることが可能である。
索パターン文字列に対して、予め先頭から何文字目とい
った類似語句展開開始文字数を設定し、この類似語句展
開開始文字までの文字列に前方一致する文字列を類似語
句として抽出し、かつ、分類するようにしたものであ
る。この類似語句展開開始文字数としては、例えば4文
字といった値であるが、検索条件等に応じて適宜選択す
ることが可能である。
【0019】請求項3の発明は、このように、ユーザが
指定した検索パターン文字列とは若干異なる文字列に対
しても分類して表示するようにしたので、あやふやな検
索パターン文字列を指定しても、ユーザにとって的確な
検索解を得ることができる。
指定した検索パターン文字列とは若干異なる文字列に対
しても分類して表示するようにしたので、あやふやな検
索パターン文字列を指定しても、ユーザにとって的確な
検索解を得ることができる。
【0020】〈請求項4の構成〉検索対象文書中に出現
する文字列から予め決められた抽出規則により抽出した
索引語の出現位置情報を有する索引ファイルと、検索パ
ターン文字列を入力する検索パターン文字列入力部と、
検索パターン文字列を、索引ファイルにおける索引語の
抽出規則と同じ抽出規則により索引語に分割する索引語
抽出部と、検索パターン文字列に対して、最後の文字か
らの類似語句展開開始文字数を設定し、索引ファイルを
用いて、分割された最後の索引語から、類似語句展開開
始文字を含む索引語より一つ後の索引語までの出現位置
を求めると共に、類似語句展開開始文字を含む索引語の
類似語句展開開始文字までの文字列に後方一致する索引
語の出現位置を求め、求めた各索引語の出現位置が検索
パターン文字列と同じ文字並びとなっている文字列を類
似語句として抽出する索引ファイル検索部と、求めた類
似語句を予め設定した代表語の基準と比較し、適合した
類似語句を抽出する検索結果分類処理部と、これら抽出
した類似語句とその出現位置情報を出力する結果出力部
とを備えたことを特徴とする文書検索システムである。
する文字列から予め決められた抽出規則により抽出した
索引語の出現位置情報を有する索引ファイルと、検索パ
ターン文字列を入力する検索パターン文字列入力部と、
検索パターン文字列を、索引ファイルにおける索引語の
抽出規則と同じ抽出規則により索引語に分割する索引語
抽出部と、検索パターン文字列に対して、最後の文字か
らの類似語句展開開始文字数を設定し、索引ファイルを
用いて、分割された最後の索引語から、類似語句展開開
始文字を含む索引語より一つ後の索引語までの出現位置
を求めると共に、類似語句展開開始文字を含む索引語の
類似語句展開開始文字までの文字列に後方一致する索引
語の出現位置を求め、求めた各索引語の出現位置が検索
パターン文字列と同じ文字並びとなっている文字列を類
似語句として抽出する索引ファイル検索部と、求めた類
似語句を予め設定した代表語の基準と比較し、適合した
類似語句を抽出する検索結果分類処理部と、これら抽出
した類似語句とその出現位置情報を出力する結果出力部
とを備えたことを特徴とする文書検索システムである。
【0021】〈請求項4の説明〉請求項4の発明は、検
索パターン文字列に対して、予め最後の文字から何文字
目といった類似語句展開開始文字数を設定し、この類似
語句展開開始文字までの文字列に後方一致する文字列を
類似語句として抽出し、かつ、分類するようにしたもの
である。この類似語句展開開始文字数としては、例えば
4文字といった値であるが、検索条件等に応じて適宜選
択することが可能である。
索パターン文字列に対して、予め最後の文字から何文字
目といった類似語句展開開始文字数を設定し、この類似
語句展開開始文字までの文字列に後方一致する文字列を
類似語句として抽出し、かつ、分類するようにしたもの
である。この類似語句展開開始文字数としては、例えば
4文字といった値であるが、検索条件等に応じて適宜選
択することが可能である。
【0022】請求項4の発明は、このように、ユーザが
指定した検索パターン文字列とは若干異なる文字列に対
しても分類して表示するようにしたので、あやふやな検
索パターン文字列を指定しても、ユーザにとって的確な
検索解を得ることができる。
指定した検索パターン文字列とは若干異なる文字列に対
しても分類して表示するようにしたので、あやふやな検
索パターン文字列を指定しても、ユーザにとって的確な
検索解を得ることができる。
【0023】〈請求項5の構成〉請求項3に記載の文書
検索システムにおいて、検索パターン文字列のうち、類
似語句展開開始文字以降から抽出される索引語に対し
て、この索引語の先頭1文字で始まる索引語の出現位置
を求め、求めた索引語の出現位置が検索パターン文字列
の文字並びとなっている文字列を類似語句として抽出す
る索引ファイル検索部を備えたことを特徴とする文書検
索システムである。
検索システムにおいて、検索パターン文字列のうち、類
似語句展開開始文字以降から抽出される索引語に対し
て、この索引語の先頭1文字で始まる索引語の出現位置
を求め、求めた索引語の出現位置が検索パターン文字列
の文字並びとなっている文字列を類似語句として抽出す
る索引ファイル検索部を備えたことを特徴とする文書検
索システムである。
【0024】〈請求項5の説明〉類似語句展開開始文字
以降から抽出される索引語とは、例えば、検索パターン
文字列を「Xウインドウ管理プロセス」とし、類似語句
展開開始文字数を4文字とした場合、「管理」や「プロ
セス」に相当する。従って、索引ファイル検索部は、
「Xウインドウ管…」や「Xウインドウ管理プ…」とい
った文字列を類似語句として抽出する。このような構成
であることにより、検索パターン文字列に対して類似度
の高い類似語句のみを抽出することができる。
以降から抽出される索引語とは、例えば、検索パターン
文字列を「Xウインドウ管理プロセス」とし、類似語句
展開開始文字数を4文字とした場合、「管理」や「プロ
セス」に相当する。従って、索引ファイル検索部は、
「Xウインドウ管…」や「Xウインドウ管理プ…」とい
った文字列を類似語句として抽出する。このような構成
であることにより、検索パターン文字列に対して類似度
の高い類似語句のみを抽出することができる。
【0025】〈請求項6の構成〉請求項4に記載の文書
検索システムにおいて、検索パターン文字列のうち、類
似語句展開開始文字より前方で抽出される索引語に対し
て、この索引語の終端1文字で始まる索引語の出現位置
を求め、求めた索引語の出現位置が検索パターン文字列
の文字並びとなっている文字列を類似語句として抽出す
る索引ファイル検索部を備えたことを特徴とする文書検
索システムである。
検索システムにおいて、検索パターン文字列のうち、類
似語句展開開始文字より前方で抽出される索引語に対し
て、この索引語の終端1文字で始まる索引語の出現位置
を求め、求めた索引語の出現位置が検索パターン文字列
の文字並びとなっている文字列を類似語句として抽出す
る索引ファイル検索部を備えたことを特徴とする文書検
索システムである。
【0026】〈請求項6の説明〉請求項6の発明は、請
求項5の発明における類似語句展開開始文字以降に対し
て、類似語句展開開始文字より前方とし、かつ、先頭1
文字で始まる索引語に対して終端1文字で始まる索引語
としたものである。従って、検索パターン文字列の後方
に位置する類似語句展開開始文字数分の文字列に後方一
致する類似語句に対しても類似度の高い語句のみを抽出
することができる。
求項5の発明における類似語句展開開始文字以降に対し
て、類似語句展開開始文字より前方とし、かつ、先頭1
文字で始まる索引語に対して終端1文字で始まる索引語
としたものである。従って、検索パターン文字列の後方
に位置する類似語句展開開始文字数分の文字列に後方一
致する類似語句に対しても類似度の高い語句のみを抽出
することができる。
【0027】〈請求項7の構成〉請求項1〜6のいずれ
かに記載の文書検索システムにおいて、代表語は、検索
対象文書中の出現頻度が予め定めた閾値以上の語句であ
ることを特徴とする文書検索システムである。
かに記載の文書検索システムにおいて、代表語は、検索
対象文書中の出現頻度が予め定めた閾値以上の語句であ
ることを特徴とする文書検索システムである。
【0028】〈請求項7の説明〉請求項7の発明は、代
表語の基準を検索対象文書中の出現頻度によって決定す
るようにしたものである。即ち、文書中で高頻度で出現
する語は代表語である可能性が高いという観点からある
頻度以上で出現する語を代表語と定義している。これに
より、出現頻度があまり高くない語句は、検索結果とし
て削除することができる。
表語の基準を検索対象文書中の出現頻度によって決定す
るようにしたものである。即ち、文書中で高頻度で出現
する語は代表語である可能性が高いという観点からある
頻度以上で出現する語を代表語と定義している。これに
より、出現頻度があまり高くない語句は、検索結果とし
て削除することができる。
【0029】〈請求項8の構成〉請求項7に記載の文書
検索システムにおいて、閾値は、語長が長い文字列ほど
低い値とすることを特徴とする文書検索システムであ
る。
検索システムにおいて、閾値は、語長が長い文字列ほど
低い値とすることを特徴とする文書検索システムであ
る。
【0030】〈請求項8の説明〉請求項8の発明は、代
表語としての基準を文字数毎に設けるようにしたもので
ある。これにより、閾値がより正確になり、文書中での
重要度に合った語句の抽出を行うことができる。
表語としての基準を文字数毎に設けるようにしたもので
ある。これにより、閾値がより正確になり、文書中での
重要度に合った語句の抽出を行うことができる。
【0031】〈請求項9の構成〉請求項1〜6のいずれ
かに記載の文書検索システムにおいて、索引ファイル検
索部で抽出した文字列が、検索パターン文字列と同じ文
字列長であった場合、この文字列を代表語とする検索結
果分類処理部を備えたことを特徴とする文書検索システ
ムである。
かに記載の文書検索システムにおいて、索引ファイル検
索部で抽出した文字列が、検索パターン文字列と同じ文
字列長であった場合、この文字列を代表語とする検索結
果分類処理部を備えたことを特徴とする文書検索システ
ムである。
【0032】〈請求項9の説明〉索引ファイル検索部で
抽出した文字列が、検索パターン文字列と同じ文字列長
であった場合とは、類似語句ではなく、検索パターン文
字列そのものである。従って、このような場合は、出現
頻度とは無関係に代表語として抽出する。これにより、
ユーザが入力した検索パターン文字列そのものの文書中
での出現頻度が低くても、的確に代表語として抽出する
ことができる。
抽出した文字列が、検索パターン文字列と同じ文字列長
であった場合とは、類似語句ではなく、検索パターン文
字列そのものである。従って、このような場合は、出現
頻度とは無関係に代表語として抽出する。これにより、
ユーザが入力した検索パターン文字列そのものの文書中
での出現頻度が低くても、的確に代表語として抽出する
ことができる。
【0033】〈請求項10の構成〉請求項1、3、5の
いずれかに記載の文書検索システムにおいて、対象とす
る文字列が代表語としての基準を満足しない場合は、こ
の文字列の最後の1文字を削除した文字列に等しい索引
語が存在するかを調べ、存在した場合は、この文字列が
代表語としての基準を満足するかを判定する処理を繰り
返し行う検索結果分類処理部を備えたことを特徴とする
文書検索システムである。
いずれかに記載の文書検索システムにおいて、対象とす
る文字列が代表語としての基準を満足しない場合は、こ
の文字列の最後の1文字を削除した文字列に等しい索引
語が存在するかを調べ、存在した場合は、この文字列が
代表語としての基準を満足するかを判定する処理を繰り
返し行う検索結果分類処理部を備えたことを特徴とする
文書検索システムである。
【0034】〈請求項10の説明〉請求項10の発明
は、検索パターン文字列や、類似語句展開開始文字数の
文字列に前方一致する類似語句に対して、これらの類似
語句が代表語としての基準を満足しない場合は、最後の
1文字を削除して該当する索引語が存在するかを調べ、
存在したら、この文字列が代表値を満足するかを判定
し、満足しなかった場合は、更にもう1文字を削除して
該当する索引語が存在するかを調べるといった処理を繰
り返し行うようにしたものである。これにより、文書中
で重要な語句のみに絞り込むことができる。
は、検索パターン文字列や、類似語句展開開始文字数の
文字列に前方一致する類似語句に対して、これらの類似
語句が代表語としての基準を満足しない場合は、最後の
1文字を削除して該当する索引語が存在するかを調べ、
存在したら、この文字列が代表値を満足するかを判定
し、満足しなかった場合は、更にもう1文字を削除して
該当する索引語が存在するかを調べるといった処理を繰
り返し行うようにしたものである。これにより、文書中
で重要な語句のみに絞り込むことができる。
【0035】〈請求項11の構成〉請求項2、4、6の
いずれかに記載の文書検索システムにおいて、対象とす
る文字列が代表語としての基準を満足しない場合は、こ
の文字列の先頭の1文字を削除した文字列に等しい索引
語が存在するかを調べ、存在した場合は、この文字列が
代表語としての基準を満足するかを判定する処理を繰り
返し行う検索結果分類処理部を備えたことを特徴とする
文書検索システムである。
いずれかに記載の文書検索システムにおいて、対象とす
る文字列が代表語としての基準を満足しない場合は、こ
の文字列の先頭の1文字を削除した文字列に等しい索引
語が存在するかを調べ、存在した場合は、この文字列が
代表語としての基準を満足するかを判定する処理を繰り
返し行う検索結果分類処理部を備えたことを特徴とする
文書検索システムである。
【0036】〈請求項11の説明〉請求項11の発明
は、検索パターン文字列や、類似語句展開開始文字数の
文字列に後方一致する類似語句に対して、請求項10と
同様の構成としたものである。従って、この場合も文書
中で重要な語句のみに絞り込むことができるという効果
が得られる。
は、検索パターン文字列や、類似語句展開開始文字数の
文字列に後方一致する類似語句に対して、請求項10と
同様の構成としたものである。従って、この場合も文書
中で重要な語句のみに絞り込むことができるという効果
が得られる。
【0037】〈請求項12の構成〉請求項3〜6のいず
れかに記載の文書検索システムにおいて、代表語は、検
索対象文書中の出現頻度が予め定めた閾値以上の語句で
あり、かつ、類似語句の閾値は、検索パターン文字列と
完全一致する文字列の閾値より高い値とすることを特徴
とする文書検索システムである。
れかに記載の文書検索システムにおいて、代表語は、検
索対象文書中の出現頻度が予め定めた閾値以上の語句で
あり、かつ、類似語句の閾値は、検索パターン文字列と
完全一致する文字列の閾値より高い値とすることを特徴
とする文書検索システムである。
【0038】〈請求項12の説明〉請求項12の発明
は、類似語句展開開始文字数分の文字列に前方一致また
は後方一致する類似語句と検索パターン文字列と完全一
致する文字列とは、代表語としての閾値を変えるように
したものである。これにより、類似語句として抽出され
る語句は代表語として確実なもののみとすることができ
る。
は、類似語句展開開始文字数分の文字列に前方一致また
は後方一致する類似語句と検索パターン文字列と完全一
致する文字列とは、代表語としての閾値を変えるように
したものである。これにより、類似語句として抽出され
る語句は代表語として確実なもののみとすることができ
る。
【0039】
【発明の実施の形態】以下、本発明の実施の形態を図面
を用いて詳細に説明する。 《具体例1》 〈構成〉図1は本発明の文書検索システムの具体例1を
示す構成図である。図のシステムは、検索パターン文字
列入力部1、索引語抽出部2、索引ファイル検索部3、
索引ファイル4、検索結果分類処理部5、結果出力部6
からなる。
を用いて詳細に説明する。 《具体例1》 〈構成〉図1は本発明の文書検索システムの具体例1を
示す構成図である。図のシステムは、検索パターン文字
列入力部1、索引語抽出部2、索引ファイル検索部3、
索引ファイル4、検索結果分類処理部5、結果出力部6
からなる。
【0040】検索パターン文字列入力部1は、ユーザ
(検索者)が所望する検索パターン文字列を入力する機
能部である。索引語抽出部2は、検索パターン文字列入
力部1で入力された検索パターン文字列から、索引ファ
イル4の抽出規則と同様の規則に基づき、索引語を切り
出す機能部である。索引ファイル検索部3は、索引語抽
出部2で抽出された索引語に基づき、索引ファイル4を
検索し、検索パターン文字列に前方一致する文字列を類
似語句として抽出する機能部である。
(検索者)が所望する検索パターン文字列を入力する機
能部である。索引語抽出部2は、検索パターン文字列入
力部1で入力された検索パターン文字列から、索引ファ
イル4の抽出規則と同様の規則に基づき、索引語を切り
出す機能部である。索引ファイル検索部3は、索引語抽
出部2で抽出された索引語に基づき、索引ファイル4を
検索し、検索パターン文字列に前方一致する文字列を類
似語句として抽出する機能部である。
【0041】索引ファイル4は、例えば特願平7−23
1915号明細書に記載された構成で作成された索引フ
ァイルであり、これは次のような構成となっている。
1915号明細書に記載された構成で作成された索引フ
ァイルであり、これは次のような構成となっている。
【0042】先ず、検索対象日本語文書から索引語抽出
処理によって語句を切り出す。日本語文を簡易的に区切
る方法としては様々なものがあるが、ここでは、例えば
句読点や漢字、アルファベット、片仮名等の文字種を区
切り記号とした文字種による簡易切り出しを使用すると
して説明する。この他には、例えば形態素解析等を用い
ることもできる。
処理によって語句を切り出す。日本語文を簡易的に区切
る方法としては様々なものがあるが、ここでは、例えば
句読点や漢字、アルファベット、片仮名等の文字種を区
切り記号とした文字種による簡易切り出しを使用すると
して説明する。この他には、例えば形態素解析等を用い
ることもできる。
【0043】文字種により簡易切り出し等により抽出し
た索引語について、補助索引語を生成する。ここで、あ
る索引語W(語長をLとする)の補助索引語はL−1個
あり、それぞれ索引語の第i番目から最後までの文字か
らなる部分文字列(0<i<L)である。
た索引語について、補助索引語を生成する。ここで、あ
る索引語W(語長をLとする)の補助索引語はL−1個
あり、それぞれ索引語の第i番目から最後までの文字か
らなる部分文字列(0<i<L)である。
【0044】索引語および補助索引語と、それらの文字
列の文書内における全ての出現位置を対応づけた組pair
((補助)索引語,出現位置集合)を索引ファイルに格
納する。例えば、このような組pairは次のようになって
いる。
列の文書内における全ての出現位置を対応づけた組pair
((補助)索引語,出現位置集合)を索引ファイルに格
納する。例えば、このような組pairは次のようになって
いる。
【0045】図2は、索引ファイル4の構成を示す説明
図である。図示の組pairは、「論理回路」を索引語また
は補助索引語とする部分を示している。尚、実装時に
は、これらの(補助)索引語をキーとして出現位置集合
を高速アクセス可能となるような構造を取るが、本具体
例では直接関係ないので、その説明は省略する。また、
特願平7−231915号明細書では、不要語(索引語
として登録されない文字並び)が生じることがあるが、
本具体例では全ての文字が何らかの索引語として登録さ
れているとする。
図である。図示の組pairは、「論理回路」を索引語また
は補助索引語とする部分を示している。尚、実装時に
は、これらの(補助)索引語をキーとして出現位置集合
を高速アクセス可能となるような構造を取るが、本具体
例では直接関係ないので、その説明は省略する。また、
特願平7−231915号明細書では、不要語(索引語
として登録されない文字並び)が生じることがあるが、
本具体例では全ての文字が何らかの索引語として登録さ
れているとする。
【0046】図1に戻って、検索結果分類処理部5は、
索引ファイル検索部3で求められた類似語句を予め設定
した代表値の閾値と比較して分類する機能部であり、こ
の詳細については〈動作〉の項で説明する。
索引ファイル検索部3で求められた類似語句を予め設定
した代表値の閾値と比較して分類する機能部であり、こ
の詳細については〈動作〉の項で説明する。
【0047】結果出力部6は、検索結果分類処理部5で
分類された結果を出力する機能部である。
分類された結果を出力する機能部である。
【0048】また、これら検索パターン文字列入力部1
〜結果出力部6は、コンピュータのプロセッサやメモリ
およびプロセッサが実行するプログラム等で機能構成さ
れ、索引ファイル4はハードディスク装置等に実現され
ている。従って、このような検索パターン文字列入力部
1〜結果出力部6の機能を実現するための制御プログラ
ムをフロッピーディスクやCD−ROM等の記録媒体に
記録してから、一般の該当するコンピュータにインスト
ールするといった方法や、ネットワークを経由してプロ
グラムをダウンロードするといった方法を用いることで
本発明の文書検索システムを実現することができる。
〜結果出力部6は、コンピュータのプロセッサやメモリ
およびプロセッサが実行するプログラム等で機能構成さ
れ、索引ファイル4はハードディスク装置等に実現され
ている。従って、このような検索パターン文字列入力部
1〜結果出力部6の機能を実現するための制御プログラ
ムをフロッピーディスクやCD−ROM等の記録媒体に
記録してから、一般の該当するコンピュータにインスト
ールするといった方法や、ネットワークを経由してプロ
グラムをダウンロードするといった方法を用いることで
本発明の文書検索システムを実現することができる。
【0049】〈動作〉図3は、上記具体例1の動作を示
すフローチャートである。先ず、検索パターン文字列を
検索パターン文字列入力部1に入力し(ステップS
1)、索引語抽出部2は索引語Wi(0≦i<N)を切
り出す(ステップS2)。尚、Nは抽出した索引語の総
数である。
すフローチャートである。先ず、検索パターン文字列を
検索パターン文字列入力部1に入力し(ステップS
1)、索引語抽出部2は索引語Wi(0≦i<N)を切
り出す(ステップS2)。尚、Nは抽出した索引語の総
数である。
【0050】例えば、検索パターン文字列が「文字コー
ド情報」であった場合、文字種で切り出すとすると、W
0=「文字」、W1=「コード」、W2=「情報」という
ように索引語Wiが抽出される。
ド情報」であった場合、文字種で切り出すとすると、W
0=「文字」、W1=「コード」、W2=「情報」という
ように索引語Wiが抽出される。
【0051】次に、索引ファイル検索部3は、ステップ
S2で抽出された索引語Wiで順次索引ファイル4を検
索する。最初に、W0で索引ファイル4を検索し、その
出現位置の集合をHとする(ステップS3)。次に、ス
テップS4において、索引語Wi(1≦i<N−2)に
対して順に索引ファイル4を検索し、検索解を絞り込
む。
S2で抽出された索引語Wiで順次索引ファイル4を検
索する。最初に、W0で索引ファイル4を検索し、その
出現位置の集合をHとする(ステップS3)。次に、ス
テップS4において、索引語Wi(1≦i<N−2)に
対して順に索引ファイル4を検索し、検索解を絞り込
む。
【0052】検索解を絞り込むには具体的には次のよう
に行う。先ず、Wiの出現位置の集合H1を求める(ステ
ップS5)。出現位置p∈H1のうち、p−q==lengt
h(Wi-1)となるようなq∈Hが存在するpのみを新た
にH1の要素とする(ステップS6)。そして、H1の集
合をHに入れる(ステップS7)。尚、p−q==leng
th(Wi-1)とは、出現位置の要素pから要素qを引い
た値が索引語Wiの長さに等しいという意味である。
に行う。先ず、Wiの出現位置の集合H1を求める(ステ
ップS5)。出現位置p∈H1のうち、p−q==lengt
h(Wi-1)となるようなq∈Hが存在するpのみを新た
にH1の要素とする(ステップS6)。そして、H1の集
合をHに入れる(ステップS7)。尚、p−q==leng
th(Wi-1)とは、出現位置の要素pから要素qを引い
た値が索引語Wiの長さに等しいという意味である。
【0053】例えば、W0=「文字」の出現位置集合が
「1,23,45,85,…」、W1=「コード」の出現位置集
合が「5,49,90,…」であったとする。尚、出現位置は
文書中の何バイト目に索引語の先頭文字が位置するかで
表すとする。このような出現位置集合であった場合、W
iをW1=「コード」とすると、出現位置pは「5,49,9
0,…」である。従って、この出現位置集合からq(=
「1,23,45,85,…」を引いた長さが、W0=「文字」
の語長4バイトであるpのみが、W0=「文字」に隣接
する「コード」であることが判定できる。この例では、
W1=「コード」の出現位置集合が「5,49,…」のみを
新たにH1の要素とし、これをHに入れることになる。
「1,23,45,85,…」、W1=「コード」の出現位置集
合が「5,49,90,…」であったとする。尚、出現位置は
文書中の何バイト目に索引語の先頭文字が位置するかで
表すとする。このような出現位置集合であった場合、W
iをW1=「コード」とすると、出現位置pは「5,49,9
0,…」である。従って、この出現位置集合からq(=
「1,23,45,85,…」を引いた長さが、W0=「文字」
の語長4バイトであるpのみが、W0=「文字」に隣接
する「コード」であることが判定できる。この例では、
W1=「コード」の出現位置集合が「5,49,…」のみを
新たにH1の要素とし、これをHに入れることになる。
【0054】このようにして、ステップS4では、索引
語WN-2までの検索解を絞り込む。
語WN-2までの検索解を絞り込む。
【0055】最後に、索引語WN-1に対する検索を行
う。検索結果は、pair(U,出現位置集合)の集合Xと
して表現される。先ず、Xを空に設定し(ステップS
8)、WN- 1に前方一致する全ての(補助)索引語Uを
求めて、各Uについて以下の処理を繰り返す(ステップ
S9)。例えば、上記の例では“情報”や、“情報…”
といった、「情報」に前方一致する全ての(補助)索引
語が抽出され、これらの語句に対して上記のステップS
9の処理が行われる。
う。検索結果は、pair(U,出現位置集合)の集合Xと
して表現される。先ず、Xを空に設定し(ステップS
8)、WN- 1に前方一致する全ての(補助)索引語Uを
求めて、各Uについて以下の処理を繰り返す(ステップ
S9)。例えば、上記の例では“情報”や、“情報…”
といった、「情報」に前方一致する全ての(補助)索引
語が抽出され、これらの語句に対して上記のステップS
9の処理が行われる。
【0056】先ず、Uで索引ファイル4を検索し、出現
位置の集合をHとする(ステップS10)。次に、検索
解を絞り込む(ステップS11)。具体的にはp−q=
=length(WN-2)となるようなq∈Hが存在するよう
なpのみを新たにHの要素とする。そして、Hが空でな
ければ(ステップS12)、ステップS10からの処理
を繰り返す。ステップS12で、Hが空になれば、pair
(U,H)をXの要素とする(ステップS13)。
位置の集合をHとする(ステップS10)。次に、検索
解を絞り込む(ステップS11)。具体的にはp−q=
=length(WN-2)となるようなq∈Hが存在するよう
なpのみを新たにHの要素とする。そして、Hが空でな
ければ(ステップS12)、ステップS10からの処理
を繰り返す。ステップS12で、Hが空になれば、pair
(U,H)をXの要素とする(ステップS13)。
【0057】以上のステップにより、検索パターン文字
列に前方一致する文字列が全て抽出されたことになる。
例えば、検索パターン文字列を「論理回路」とした場
合、集合Xには図2に示すようなpairが格納される。
列に前方一致する文字列が全て抽出されたことになる。
例えば、検索パターン文字列を「論理回路」とした場
合、集合Xには図2に示すようなpairが格納される。
【0058】次に、検索結果分類処理部5は、Xの要素
をステップS14以降の手順で分類する。先ず、Xの各
要素を文字列長で降順にソートする。文字列長が等しい
もの同士は文字コードに従って昇順にソートする(ステ
ップS14)。そして、出力用の検索解集合OUTを空
に設定し(ステップS15)、Xが空になるまで以下の
手順を繰り返す。
をステップS14以降の手順で分類する。先ず、Xの各
要素を文字列長で降順にソートする。文字列長が等しい
もの同士は文字コードに従って昇順にソートする(ステ
ップS14)。そして、出力用の検索解集合OUTを空
に設定し(ステップS15)、Xが空になるまで以下の
手順を繰り返す。
【0059】Xの最初の要素をXから取り出してX0と
する(ステップS16)。X0が代表値としての条件を
満足するならば(ステップS17)、X0をOUTの要
素とし(ステップS18)、Xが空になるまで(ステッ
プS19)、ステップS17からの処理を繰り返す。
する(ステップS16)。X0が代表値としての条件を
満足するならば(ステップS17)、X0をOUTの要
素とし(ステップS18)、Xが空になるまで(ステッ
プS19)、ステップS17からの処理を繰り返す。
【0060】ここで、代表値とは、ある語を代表語とし
て認めるか否かの単位文書容量当たりの出現頻度の閾値
である。即ち、文書中で高頻度で出現する語は代表語で
ある可能性が高いという観点から、ある頻度以上で出現
する語を代表語と定義している。また、閾値は一般に文
字数毎に設定し、長い単語ほど低い閾値で代表語として
認められるような閾値とする。従って、ステップS17
でX0の出現位置集合H0が閾値を越えている場合は、X
0を代表値とする。
て認めるか否かの単位文書容量当たりの出現頻度の閾値
である。即ち、文書中で高頻度で出現する語は代表語で
ある可能性が高いという観点から、ある頻度以上で出現
する語を代表語と定義している。また、閾値は一般に文
字数毎に設定し、長い単語ほど低い閾値で代表語として
認められるような閾値とする。従って、ステップS17
でX0の出現位置集合H0が閾値を越えている場合は、X
0を代表値とする。
【0061】一方、ステップS17において、X0が代
表値としての条件を満足しないならば、X0に対応する
索引語Uの文字列長が検索パターン文字列より長いかど
うかを調べる(ステップS20)。もし、Uの文字列長
と検索パターン文字列長が等しければステップS18に
移行し、これをOUTの要素とする。即ち、その文字列
は代表値としての条件を満足してはいないが、ユーザが
指定した検索パターン文字列そのものであるため、検索
解集合OUTに加える。
表値としての条件を満足しないならば、X0に対応する
索引語Uの文字列長が検索パターン文字列より長いかど
うかを調べる(ステップS20)。もし、Uの文字列長
と検索パターン文字列長が等しければステップS18に
移行し、これをOUTの要素とする。即ち、その文字列
は代表値としての条件を満足してはいないが、ユーザが
指定した検索パターン文字列そのものであるため、検索
解集合OUTに加える。
【0062】ステップS20で、X0に対応する索引語
Uの文字列長が検索パターン文字列より長い場合は、U
の最後の1文字を削除し(ステップS21)、Uと等し
い索引語Uj(j≠0)が存在するかを判定する(ステ
ップS22)。このステップS22において、存在する
ならば、Xj=pair(Uj,H0∪Hj)とし(ステップS
23)、そうでなければ、X0をXに挿入して(ステッ
プS24)、ステップS19に移行する。
Uの文字列長が検索パターン文字列より長い場合は、U
の最後の1文字を削除し(ステップS21)、Uと等し
い索引語Uj(j≠0)が存在するかを判定する(ステ
ップS22)。このステップS22において、存在する
ならば、Xj=pair(Uj,H0∪Hj)とし(ステップS
23)、そうでなければ、X0をXに挿入して(ステッ
プS24)、ステップS19に移行する。
【0063】このようなステップS17〜ステップS2
4の処理により、例えば「論理回路素子では」や「論理
回路素子として」といった文書中で比較的出現頻度の低
い語はOUTの要素とはならず、「論理回路素子」とい
った語がOUTの要素となる。そして、ステップS19
において、Xが空になったら、OUTに含まれる各要素
を出力し(ステップS25)、終了する。
4の処理により、例えば「論理回路素子では」や「論理
回路素子として」といった文書中で比較的出現頻度の低
い語はOUTの要素とはならず、「論理回路素子」とい
った語がOUTの要素となる。そして、ステップS19
において、Xが空になったら、OUTに含まれる各要素
を出力し(ステップS25)、終了する。
【0064】図4は、結果出力の一例である。図示例
は、検索パターン文字列を「論理回路」とした場合の出
力結果であり、出現位置情報の図示は省略している。こ
こでは、検索パターン文字列そのものである「論理回
路」と共に、「論理回路情報」や「論理回路図」といっ
た検索解が表示されている。
は、検索パターン文字列を「論理回路」とした場合の出
力結果であり、出現位置情報の図示は省略している。こ
こでは、検索パターン文字列そのものである「論理回
路」と共に、「論理回路情報」や「論理回路図」といっ
た検索解が表示されている。
【0065】〈効果〉以上のように、具体例1によれ
ば、ユーザが指定した検索パターン文字列の直後に出現
する文字列によって分類するようにしたので、ユーザが
望むような文字列を的確に分類して表示することができ
る。
ば、ユーザが指定した検索パターン文字列の直後に出現
する文字列によって分類するようにしたので、ユーザが
望むような文字列を的確に分類して表示することができ
る。
【0066】検索結果が分類表示されなければ、どの検
索解も一様に検索パターン文字列の出現場所を示してい
るので、検索解数が非常に多い場合、ユーザは全ての出
現場所を確認し検索したかったものであるかどうか、検
索パターン文字列が妥当なものであったかどうかを調べ
なくてはならない。あるいは、新たな検索パターン文字
列を各自で再考して検索解を更に絞り込まなくてはなら
ない。
索解も一様に検索パターン文字列の出現場所を示してい
るので、検索解数が非常に多い場合、ユーザは全ての出
現場所を確認し検索したかったものであるかどうか、検
索パターン文字列が妥当なものであったかどうかを調べ
なくてはならない。あるいは、新たな検索パターン文字
列を各自で再考して検索解を更に絞り込まなくてはなら
ない。
【0067】例えば、検索パターン文字列が「論理回
路」であり、検索結果が分類表示されない場合は図2に
示すような状態が表示され、検索解数が非常に多いもの
となる。これに対して、本具体例では、図4に示すよう
に、検索結果を分類して表示するため、ユーザは検索パ
ターン文字列の出現状況を、後続文字列によって大まか
に把握することが可能となり、指定した検索パターン文
字列が妥当なものであったかどうかといったことを確認
することができる。
路」であり、検索結果が分類表示されない場合は図2に
示すような状態が表示され、検索解数が非常に多いもの
となる。これに対して、本具体例では、図4に示すよう
に、検索結果を分類して表示するため、ユーザは検索パ
ターン文字列の出現状況を、後続文字列によって大まか
に把握することが可能となり、指定した検索パターン文
字列が妥当なものであったかどうかといったことを確認
することができる。
【0068】例えば、ユーザが最初に指定した検索パタ
ーン文字列は「論理回路」であるが、「論理回路素子」
という検索解を見ることによって、ユーザが本当に検索
したかった文字列は「素子」に関する語句であったとい
う点を知ることができる。また、これ以外の「論理回路
図」や「論理回路遅延情報」といった検索解は「素子」
とは無関係であることが分かるため、ユーザは必要に応
じて不要な検索解を切り捨てることも可能となる。
ーン文字列は「論理回路」であるが、「論理回路素子」
という検索解を見ることによって、ユーザが本当に検索
したかった文字列は「素子」に関する語句であったとい
う点を知ることができる。また、これ以外の「論理回路
図」や「論理回路遅延情報」といった検索解は「素子」
とは無関係であることが分かるため、ユーザは必要に応
じて不要な検索解を切り捨てることも可能となる。
【0069】尚、上記具体例1では、後続文字列によっ
て分類するようにしたが、ユーザが指定した検索パター
ン文字列の直前に出現する文字列によって分類するよう
にしてもよい。このような場合、索引ファイル4の構成
として、ある索引語が、どの索引語に後方一致するかと
いう情報を備えたものとする。また、索引ファイル検索
部3の処理として、最後尾の文字から先頭文字に向かっ
て絞り込みを行い、先頭文字に後方一致する全てのUを
抽出する。そして、検索結果分類処理部5では、ステッ
プS21に進んだ場合、Uの最初の1文字を削除すると
いった処理を行うことによって実現することができる。
て分類するようにしたが、ユーザが指定した検索パター
ン文字列の直前に出現する文字列によって分類するよう
にしてもよい。このような場合、索引ファイル4の構成
として、ある索引語が、どの索引語に後方一致するかと
いう情報を備えたものとする。また、索引ファイル検索
部3の処理として、最後尾の文字から先頭文字に向かっ
て絞り込みを行い、先頭文字に後方一致する全てのUを
抽出する。そして、検索結果分類処理部5では、ステッ
プS21に進んだ場合、Uの最初の1文字を削除すると
いった処理を行うことによって実現することができる。
【0070】《具体例2》 〈構成〉具体例2における図面上の構成は、具体例1と
同様であるため、図1を援用して説明する。
同様であるため、図1を援用して説明する。
【0071】具体例2のシステムは、検索パターン文字
列入力部1、索引語抽出部2、索引ファイル検索部3、
索引ファイル4、検索結果分類処理部5、結果出力部6
からなる。検索パターン文字列入力部1および索引語抽
出部2は、それぞれ具体例1と同様に、ユーザ(検索
者)が所望する検索パターン文字列を入力する機能部お
よび検索パターン文字列入力部1で入力された検索パタ
ーン文字列から、索引ファイル4の抽出規則と同様の規
則に基づき、索引語を切り出す機能部である。
列入力部1、索引語抽出部2、索引ファイル検索部3、
索引ファイル4、検索結果分類処理部5、結果出力部6
からなる。検索パターン文字列入力部1および索引語抽
出部2は、それぞれ具体例1と同様に、ユーザ(検索
者)が所望する検索パターン文字列を入力する機能部お
よび検索パターン文字列入力部1で入力された検索パタ
ーン文字列から、索引ファイル4の抽出規則と同様の規
則に基づき、索引語を切り出す機能部である。
【0072】索引ファイル検索部3は、予め決められた
類似語句展開開始文字数の情報を有し、索引語抽出部2
で抽出された索引語に基づき、索引ファイル4を検索し
て、検索パターン文字列の類似語句展開開始文字までの
文字列に前方一致する文字列を類似語句として抽出する
機能部である。
類似語句展開開始文字数の情報を有し、索引語抽出部2
で抽出された索引語に基づき、索引ファイル4を検索し
て、検索パターン文字列の類似語句展開開始文字までの
文字列に前方一致する文字列を類似語句として抽出する
機能部である。
【0073】索引ファイル4〜結果出力部6の構成は具
体例1と同様である。但し、検索結果分類処理部5にお
いて、類似語句の閾値は、入力された検索パターン文字
列と完全一致する文字列の閾値より高い値に設定されて
いる。
体例1と同様である。但し、検索結果分類処理部5にお
いて、類似語句の閾値は、入力された検索パターン文字
列と完全一致する文字列の閾値より高い値に設定されて
いる。
【0074】〈動作〉図5および図6は、具体例2の動
作を示すフローチャートである。先ず、検索パターン文
字列Strを入力し(ステップS1)、その検索パターン
文字列Strの文字列長をc0とする(ステップS2)。
作を示すフローチャートである。先ず、検索パターン文
字列Strを入力し(ステップS1)、その検索パターン
文字列Strの文字列長をc0とする(ステップS2)。
【0075】また、予め設定された類似語句展開開始文
字数をcとする(ステップS3)。cの値があまり小さ
いと大量の文字列を検索することになり、あまり効率が
よくない。従って、c≧4文字程度が適当である。
字数をcとする(ステップS3)。cの値があまり小さ
いと大量の文字列を検索することになり、あまり効率が
よくない。従って、c≧4文字程度が適当である。
【0076】次に、c0>cであるかを判定し(ステッ
プS4)、そうであれば、ステップS5以降で、Strに
対する検索解と、更にc文字までが同一でそれ以降が異
なる索引語に対する検索解を分類表示する。一方、c0
≦cであれば、具体例1におけるステップS3以降の処
理を実行し(ステップS32)、終了する。
プS4)、そうであれば、ステップS5以降で、Strに
対する検索解と、更にc文字までが同一でそれ以降が異
なる索引語に対する検索解を分類表示する。一方、c0
≦cであれば、具体例1におけるステップS3以降の処
理を実行し(ステップS32)、終了する。
【0077】Strに対する検索解は次の手順で求める。
先ず、Strを、先頭c文字分とそれ以降の文字分との二
つの文字列StrH,StrTに分割する(ステップS
5)。次に、先頭c文字分の文字列StrHの索引語W′
i(0≦i<N0)と、検索パターン文字列Strの索引語
Wj(0≦j<N)を求める(ステップS6)。尚、N0
はStrHから抽出した索引語の総数、NはStrから抽出
した索引語の総数である。
先ず、Strを、先頭c文字分とそれ以降の文字分との二
つの文字列StrH,StrTに分割する(ステップS
5)。次に、先頭c文字分の文字列StrHの索引語W′
i(0≦i<N0)と、検索パターン文字列Strの索引語
Wj(0≦j<N)を求める(ステップS6)。尚、N0
はStrHから抽出した索引語の総数、NはStrから抽出
した索引語の総数である。
【0078】そして、具体例1のステップS3からステ
ップS19まで、pair(U,出現位置集合)の集合Xが
空になるまで繰り返し実行し、Strに対する出力検索解
集合OUTを求める(ステップS7)。但し、途中、具
体例1のステップS4で、N0−1≦i<NのときのH
の値をそれぞれ中間結果としてHtmp(i)に保持するよう
にする。
ップS19まで、pair(U,出現位置集合)の集合Xが
空になるまで繰り返し実行し、Strに対する出力検索解
集合OUTを求める(ステップS7)。但し、途中、具
体例1のステップS4で、N0−1≦i<NのときのH
の値をそれぞれ中間結果としてHtmp(i)に保持するよう
にする。
【0079】次に、類似語句およびそれらの出現位置を
求める。先ず、Htmp内における出現位置の重複を削除
するため、各Htmp(i)(N0−2≦i<N−2)からHt
mp(i+1)に含まれる出現位置を削除する(ステップS
8)。
求める。先ず、Htmp内における出現位置の重複を削除
するため、各Htmp(i)(N0−2≦i<N−2)からHt
mp(i+1)に含まれる出現位置を削除する(ステップS
8)。
【0080】そして、Xを空として(ステップS9)、
WN0-1とは前方一致しないが、W′N0-1に前方一致する
する全ての索引語Uに対して以下の処理を繰り返す(ス
テップS10)。
WN0-1とは前方一致しないが、W′N0-1に前方一致する
する全ての索引語Uに対して以下の処理を繰り返す(ス
テップS10)。
【0081】先ず、Uで索引ファイル4を検索し、出現
位置の集合をHとする(ステップS11)。次に、検索
解を絞り込む(ステップS12)。具体的にはp−q=
=length(W′N0-2)となるようなq∈Hが存在するp
のみを新たにHの要素とする。そして、Hが空でなけれ
ば(ステップS13)、pair(U,H)をXの要素とす
る(ステップS14)。
位置の集合をHとする(ステップS11)。次に、検索
解を絞り込む(ステップS12)。具体的にはp−q=
=length(W′N0-2)となるようなq∈Hが存在するp
のみを新たにHの要素とする。そして、Hが空でなけれ
ば(ステップS13)、pair(U,H)をXの要素とす
る(ステップS14)。
【0082】次に、Wk(N0≦k<N)に対する類似語
展開を行う(ステップS15)。先ず、X0を空にして
(ステップS16)、Wk-1とは完全一致しないが前方
一致する全ての索引語Uに対して、以下の処理を繰り返
す(ステップS17)。
展開を行う(ステップS15)。先ず、X0を空にして
(ステップS16)、Wk-1とは完全一致しないが前方
一致する全ての索引語Uに対して、以下の処理を繰り返
す(ステップS17)。
【0083】先ず、Uで索引ファイル4を検索し、出現
位置の集合をHとする(ステップS18)。次に検索解
を絞り込む(ステップS19)。そして、Hが空でなけ
れば(ステップS20)、pair(U,H)をX0の要素
とする(ステップS21)。ここで、Hに含まれる出現
位置は、Htmp(k-1)に含まれる筈なので、Htmp(k-1)か
ら重複する出現位置を削除する(ステップS22)。
位置の集合をHとする(ステップS18)。次に検索解
を絞り込む(ステップS19)。そして、Hが空でなけ
れば(ステップS20)、pair(U,H)をX0の要素
とする(ステップS21)。ここで、Hに含まれる出現
位置は、Htmp(k-1)に含まれる筈なので、Htmp(k-1)か
ら重複する出現位置を削除する(ステップS22)。
【0084】ステップS17のループを完了したら、最
終的にpair(Wk-1,Htmp(k-1))をXの要素とする
(ステップS23)。更に、X0の全要素をXに移す
(ステップS24)。
終的にpair(Wk-1,Htmp(k-1))をXの要素とする
(ステップS23)。更に、X0の全要素をXに移す
(ステップS24)。
【0085】次に、Wkの先頭1文字で始まり、Wkとは
前方一致しない全ての索引語Uに対して、以下の処理を
繰り返す(ステップS25)。
前方一致しない全ての索引語Uに対して、以下の処理を
繰り返す(ステップS25)。
【0086】先ず、Uで索引ファイル4を検索し、出現
位置の集合をHとする(ステップS26)。次に検索解
を絞り込む(ステップS27)。そして、Hが空でなけ
れば(ステップS28)、pair(U,H)をXの要素と
する(ステップS29)。
位置の集合をHとする(ステップS26)。次に検索解
を絞り込む(ステップS27)。そして、Hが空でなけ
れば(ステップS28)、pair(U,H)をXの要素と
する(ステップS29)。
【0087】最後に、Xの要素をステップS15以降の
手順で分類する。先ず、Xの各要素を文字列長で降順に
ソートする。また、文字列長が等しいもの同士は文字コ
ードに従って昇順にソートする(ステップS30)。そ
して、Xが空になるまで具体例1におけるステップS1
6以降の処理を繰り返す(ステップS31)。このよう
にしてXが空になったら、OUTに含まれる各要素を出
力して終了する。
手順で分類する。先ず、Xの各要素を文字列長で降順に
ソートする。また、文字列長が等しいもの同士は文字コ
ードに従って昇順にソートする(ステップS30)。そ
して、Xが空になるまで具体例1におけるステップS1
6以降の処理を繰り返す(ステップS31)。このよう
にしてXが空になったら、OUTに含まれる各要素を出
力して終了する。
【0088】尚、ここでは、指定された検索パターン文
字列Strに対する検索解の分類表示と、Strの類似文字
列の検索解の分類表示を一緒に行っているが、個別に表
示するよう構成してもよい。
字列Strに対する検索解の分類表示と、Strの類似文字
列の検索解の分類表示を一緒に行っているが、個別に表
示するよう構成してもよい。
【0089】また、ある語が代表値を満たすかどうかを
判断するための閾値は、Strに対する場合よりも類似文
字列に対する場合をきつめに設定するのが望ましい。こ
の理由は、ユーザが指定した検索パターン文字列との差
をつけ、出現頻度が高く、代表語として確実な語とする
ためである。
判断するための閾値は、Strに対する場合よりも類似文
字列に対する場合をきつめに設定するのが望ましい。こ
の理由は、ユーザが指定した検索パターン文字列との差
をつけ、出現頻度が高く、代表語として確実な語とする
ためである。
【0090】次に、具体例2の動作を一例により説明す
る。ここで、検索パターン文字列を「Xウインドウ管理
プロセス」とする。また、類似語句展開開始文字数cを
4とする。
る。ここで、検索パターン文字列を「Xウインドウ管理
プロセス」とする。また、類似語句展開開始文字数cを
4とする。
【0091】これにより、 StrH=Xウイン Str=Xウインドウ管理プロセス となる。
【0092】また、StrHに対する索引語集合は、 W′0=X W′1=ウイン N0=2となり、Strに対する索引語集合は、 W0=X W1=ウインドウ W2=管理 W3=プロセス N=4となる。
【0093】これにより、図5のステップS7までの処
理で、「Xウインドウ管理プロセス」に前方一致する語
の出力検索解集合OUTが求められる。
理で、「Xウインドウ管理プロセス」に前方一致する語
の出力検索解集合OUTが求められる。
【0094】また、ステップS7において、N0−2≦
i<Nの値がそれぞれHtmp(i)に中間結果として保持さ
れている。即ち、 Htmp(0)=「X」の出現位置集合 Htmp(1)=「Xウインドウ」の出現位置集合 Htmp(2)=「Xウインドウ管理」の出現位置集合 Htmp(3)=「Xウインドウ管理プロセス」の出現位置集
合 の値が保持されている。
i<Nの値がそれぞれHtmp(i)に中間結果として保持さ
れている。即ち、 Htmp(0)=「X」の出現位置集合 Htmp(1)=「Xウインドウ」の出現位置集合 Htmp(2)=「Xウインドウ管理」の出現位置集合 Htmp(3)=「Xウインドウ管理プロセス」の出現位置集
合 の値が保持されている。
【0095】次にステップS8以降で、類似語句展開に
よる検索解を求める。先ず、Htmp内における出現位置
の重複をなくすために以下のようにする。 Htmp(0)=Htmp(0)−Htmp(1) Htmp(1)=Htmp(1)−Htmp(2) Htmp(2)=Htmp(2)−Htmp(3)
よる検索解を求める。先ず、Htmp内における出現位置
の重複をなくすために以下のようにする。 Htmp(0)=Htmp(0)−Htmp(1) Htmp(1)=Htmp(1)−Htmp(2) Htmp(2)=Htmp(2)−Htmp(3)
【0096】そして、ステップS10で、Htmp(0)に属
する出現位置のうち、後続してWN0 -1=W1=「ウイン
ドウ」以外で、W′N0-1=W′1=「ウイン」に前方一
致する索引語Uが出現するものを求めて、pair(U,
H)をXの要素とする。これによって、例えば、 pair(「ウインドー」,H) (Hは「Xウインド
ー」の出現位置集合) をXの要素とする。
する出現位置のうち、後続してWN0 -1=W1=「ウイン
ドウ」以外で、W′N0-1=W′1=「ウイン」に前方一
致する索引語Uが出現するものを求めて、pair(U,
H)をXの要素とする。これによって、例えば、 pair(「ウインドー」,H) (Hは「Xウインド
ー」の出現位置集合) をXの要素とする。
【0097】次に、ステップS15において、Wk(N0
≦k<N)に対する類似語展開を行う。即ち、ステップ
S10では、「ウインドウ」には前方一致しないが、
「ウイン」には前方一致する全ての索引語Uを求めた。
しかしながら、あくまでも索引語であるため、ここで
は、例えば、索引語が異なる「Xウインドウ管理…」と
いった語は抽出できないことになる(「管理…」は文字
種が異なり、別の索引語であるため)。従って、このよ
うな語を抽出するために、ステップS15において、W
N0=W2以降、各索引語に対して類似語展開処理を行
う。
≦k<N)に対する類似語展開を行う。即ち、ステップ
S10では、「ウインドウ」には前方一致しないが、
「ウイン」には前方一致する全ての索引語Uを求めた。
しかしながら、あくまでも索引語であるため、ここで
は、例えば、索引語が異なる「Xウインドウ管理…」と
いった語は抽出できないことになる(「管理…」は文字
種が異なり、別の索引語であるため)。従って、このよ
うな語を抽出するために、ステップS15において、W
N0=W2以降、各索引語に対して類似語展開処理を行
う。
【0098】先ず、ステップS17において、「ウイン
ドウ」に完全一致しないが前方一致する索引語Uが出現
するものを求めて、pair(U,H)をX0の要素とす
る。これによって、例えば、 pair(「ウインドウサイズ」,H) (Hは「Xウイン
ドウサイズ」の出現位置集合) pair(「ウインドウタイトル」,H) (Hは「Xウイ
ンドウタイトル」の出現位置集合) pair(「ウインドウシステム」,H) (Hは「Xウイ
ンドウシステム」の出現位置集合) が、X0の要素となる。
ドウ」に完全一致しないが前方一致する索引語Uが出現
するものを求めて、pair(U,H)をX0の要素とす
る。これによって、例えば、 pair(「ウインドウサイズ」,H) (Hは「Xウイン
ドウサイズ」の出現位置集合) pair(「ウインドウタイトル」,H) (Hは「Xウイ
ンドウタイトル」の出現位置集合) pair(「ウインドウシステム」,H) (Hは「Xウイ
ンドウシステム」の出現位置集合) が、X0の要素となる。
【0099】これらの出現位置は、Htmp(1)に含まれて
いる筈なので、Htmp(1)から重複する出現位置情報を削
除していき(ステップS22)、ステップS17のルー
プを完了したら最終的にpair(「ウインドウ」,Htmp
(1))をXの要素として追加する(ステップS23)。
また、X0の全要素をXの要素として追加する(ステッ
プS24)。
いる筈なので、Htmp(1)から重複する出現位置情報を削
除していき(ステップS22)、ステップS17のルー
プを完了したら最終的にpair(「ウインドウ」,Htmp
(1))をXの要素として追加する(ステップS23)。
また、X0の全要素をXの要素として追加する(ステッ
プS24)。
【0100】次に、W2=「管理」の先頭1文字「管」
で始まり、W2とは前方一致しない索引語Uが、Htmp(K
-1)=Htmp(1)に続いて出現する位置を求めてHとし、
pair(U,H)をXの要素とする(ステップS25)。
尚、ここでは該当する索引語Uは存在しなかったとす
る。
で始まり、W2とは前方一致しない索引語Uが、Htmp(K
-1)=Htmp(1)に続いて出現する位置を求めてHとし、
pair(U,H)をXの要素とする(ステップS25)。
尚、ここでは該当する索引語Uは存在しなかったとす
る。
【0101】以降、ステップS15のループを繰り返
す。「管理」に完全一致しないが前方一致する索引語U
が出現するものを求めて、pair(U,H)をX0の要素
とする(ステップS17)。これによって例えば、 pair(「管理関数」,H) (Hは「Xウインドウ管理
関数」の出現位置集合) pair(「管理基準」,H) (Hは「Xウインドウ管理
基準」の出現位置集合) がX0の要素となる。
す。「管理」に完全一致しないが前方一致する索引語U
が出現するものを求めて、pair(U,H)をX0の要素
とする(ステップS17)。これによって例えば、 pair(「管理関数」,H) (Hは「Xウインドウ管理
関数」の出現位置集合) pair(「管理基準」,H) (Hは「Xウインドウ管理
基準」の出現位置集合) がX0の要素となる。
【0102】これらの出現位置はHtmp(2)に含まれてい
る筈なので、Htmp(2)から重複する出現位置情報を削除
していき(ステップS22)、ステップS17のループ
を完了したら最終的にpair(「管理」,Htmp(2))をX
の要素として追加する(ステップS23)。また、X0
の全要素をXの要素として追加する(ステップS2
4)。
る筈なので、Htmp(2)から重複する出現位置情報を削除
していき(ステップS22)、ステップS17のループ
を完了したら最終的にpair(「管理」,Htmp(2))をX
の要素として追加する(ステップS23)。また、X0
の全要素をXの要素として追加する(ステップS2
4)。
【0103】次に、W3=「プロセス」の先頭1文字
「プ」で始まり、W3とは前方一致しない索引語Uが、
Htmp(K-1)=Htmp(2)に続いて出現する位置を求めて
Hとし、pair(U,H)をXの要素とする(ステップS
25)。これによって例えば、pair(「プログラム」,
H) (Hは「Xウインドウ管理プログラム」の出現位
置集合)がXに追加される。
「プ」で始まり、W3とは前方一致しない索引語Uが、
Htmp(K-1)=Htmp(2)に続いて出現する位置を求めて
Hとし、pair(U,H)をXの要素とする(ステップS
25)。これによって例えば、pair(「プログラム」,
H) (Hは「Xウインドウ管理プログラム」の出現位
置集合)がXに追加される。
【0104】以上のステップS15の処理により、結
局、Xには以下のpairが格納される。 pair(「ウインドー」,H) (Hは「Xウインドー」
の出現位置集合) pair(「ウインドウ」,H) (Hは「Xウインドウ」
の出現位置集合) pair(「ウインドウサイズ」,H) (Hは「Xウイン
ドウサイズ」の出現位置集合) pair(「ウインドウタイトル」,H) (Hは「Xウイ
ンドウタイトル」の出現位置集合) pair(「ウインドウシステム」,H) (Hは「Xウイ
ンドウシステム」の出現位置集合) pair(「管理」,H) (Hは「Xウインドウ管理」の
出現位置集合) pair(「管理関数」,H) (Hは「Xウインドウ管理
関数」の出現位置集合) pair(「管理基準」,H) (Hは「Xウインドウ管理
基準」の出現位置集合) pair(「プログラム」,H) (Hは「Xウインドウ管
理プログラム」の出現位置集合)
局、Xには以下のpairが格納される。 pair(「ウインドー」,H) (Hは「Xウインドー」
の出現位置集合) pair(「ウインドウ」,H) (Hは「Xウインドウ」
の出現位置集合) pair(「ウインドウサイズ」,H) (Hは「Xウイン
ドウサイズ」の出現位置集合) pair(「ウインドウタイトル」,H) (Hは「Xウイ
ンドウタイトル」の出現位置集合) pair(「ウインドウシステム」,H) (Hは「Xウイ
ンドウシステム」の出現位置集合) pair(「管理」,H) (Hは「Xウインドウ管理」の
出現位置集合) pair(「管理関数」,H) (Hは「Xウインドウ管理
関数」の出現位置集合) pair(「管理基準」,H) (Hは「Xウインドウ管理
基準」の出現位置集合) pair(「プログラム」,H) (Hは「Xウインドウ管
理プログラム」の出現位置集合)
【0105】そして、これらのpairとステップS7で求
めたOUTを合わせて分類表示する。これにより、検索
パターン文字列「Xウインドウ管理プロセス」と完全一
致する出現位置集合と、これに類似する文字列、即ち、 「Xウインドー」 「Xウインドウ」 「Xウインドウサイズ」 「Xウインドウタイトル」 「Xウインドウシステム」 「Xウインドウ管理」 「Xウインドウ管理関数」 「Xウインドウ管理基準」 「Xウインドウ管理プログラム」 の出現位置集合を表示することができる。
めたOUTを合わせて分類表示する。これにより、検索
パターン文字列「Xウインドウ管理プロセス」と完全一
致する出現位置集合と、これに類似する文字列、即ち、 「Xウインドー」 「Xウインドウ」 「Xウインドウサイズ」 「Xウインドウタイトル」 「Xウインドウシステム」 「Xウインドウ管理」 「Xウインドウ管理関数」 「Xウインドウ管理基準」 「Xウインドウ管理プログラム」 の出現位置集合を表示することができる。
【0106】〈効果〉以上のように、具体例2によれ
ば、ユーザが指定した検索パターン文字列とは若干異な
る文字列に対しても分類して表示するようにしたので、
あやふやな検索パターン文字列を指定しても、ユーザに
とって的確な検索解を得ることができる。
ば、ユーザが指定した検索パターン文字列とは若干異な
る文字列に対しても分類して表示するようにしたので、
あやふやな検索パターン文字列を指定しても、ユーザに
とって的確な検索解を得ることができる。
【0107】全文検索システムでは、ユーザが指定した
検索パターン文字列に従って検索を実行するのが一般的
であり、指定しなかった文字列でどのようなものがある
かをガイドライン的に表示するものは少ない。文字単位
の出現位置を格納するような索引ファイル構成をとるシ
ステムでは一般にこのような機能を提供するためには、
別に情報を格納する必要があり、一般には重たい処理と
なる。
検索パターン文字列に従って検索を実行するのが一般的
であり、指定しなかった文字列でどのようなものがある
かをガイドライン的に表示するものは少ない。文字単位
の出現位置を格納するような索引ファイル構成をとるシ
ステムでは一般にこのような機能を提供するためには、
別に情報を格納する必要があり、一般には重たい処理と
なる。
【0108】これに対して、本具体例では、検索性能を
大きく落とすことなく、索引ファイルに格納されている
情報を効率的に利用して類似語句を表示することが可能
となる。これによって、ユーザが指定した検索パターン
文字列があまり妥当でない場合でも、他に表示された類
似語句を確認することによって、検索方針を正しく変更
することが可能である。
大きく落とすことなく、索引ファイルに格納されている
情報を効率的に利用して類似語句を表示することが可能
となる。これによって、ユーザが指定した検索パターン
文字列があまり妥当でない場合でも、他に表示された類
似語句を確認することによって、検索方針を正しく変更
することが可能である。
【0109】尚、具体例2においても、検索パターン文
字列のうち、最後の文字から類似語句展開開始文字数分
の文字列に後方一致する文字列を類似語句として抽出す
ることも可能である。この場合、上記具体例1で説明し
たように、索引ファイル4の構成として、ある索引語
が、どの索引語に後方一致するかという情報を備えたも
のとする。また、索引ファイル検索部3の処理として、
最後尾の文字から先頭文字に向かって絞り込みを行い、
先頭文字に後方一致する全てのUを抽出する。そして、
検索結果分類処理部5では、図3のステップS21に進
んだ場合、Uの最初の1文字を削除するといった処理を
行うことによって実現することができる。
字列のうち、最後の文字から類似語句展開開始文字数分
の文字列に後方一致する文字列を類似語句として抽出す
ることも可能である。この場合、上記具体例1で説明し
たように、索引ファイル4の構成として、ある索引語
が、どの索引語に後方一致するかという情報を備えたも
のとする。また、索引ファイル検索部3の処理として、
最後尾の文字から先頭文字に向かって絞り込みを行い、
先頭文字に後方一致する全てのUを抽出する。そして、
検索結果分類処理部5では、図3のステップS21に進
んだ場合、Uの最初の1文字を削除するといった処理を
行うことによって実現することができる。
【図1】本発明の文書検索システムの構成図である。
【図2】本発明の文書検索システムにおける索引ファイ
ルの構成を示す説明図である。
ルの構成を示す説明図である。
【図3】本発明の文書検索システムの具体例1の動作を
示すフローチャートである。
示すフローチャートである。
【図4】本発明の文書検索システムの具体例1の出力結
果の一例を示す図である。
果の一例を示す図である。
【図5】本発明の文書検索システムの具体例2の動作を
示すフローチャート(その1)である。
示すフローチャート(その1)である。
【図6】本発明の文書検索システムの具体例2の動作を
示すフローチャート(その2)である。
示すフローチャート(その2)である。
1 検索パターン文字列入力部 2 索引語抽出部 3 索引ファイル検索部 4 索引ファイル 5 検索結果分類処理部 6 結果出力部
Claims (12)
- 【請求項1】 検索対象文書中に出現する文字列から予
め決められた抽出規則により抽出した索引語の出現位置
情報を有する索引ファイルと、 検索パターン文字列を入力する検索パターン文字列入力
部と、 前記検索パターン文字列を、前記索引ファイルにおける
索引語の抽出規則と同じ抽出規則により索引語に分割す
る索引語抽出部と、 前記索引ファイルを用いて、前記分割された先頭から最
後の一つ前までの索引語の出現位置を求めると共に、最
後の索引語に前方一致する索引語の出現位置を求め、各
索引語の出現位置が前記検索パターン文字列と同じ文字
並びとなっている文字列を類似語句として抽出する索引
ファイル検索部と、 前記求めた類似語句を予め設定した代表語の基準と比較
し、適合した類似語句を抽出する検索結果分類処理部
と、 これら抽出した類似語句とその出現位置情報を出力する
結果出力部とを備えたことを特徴とする文書検索システ
ム。 - 【請求項2】 検索対象文書中に出現する文字列から予
め決められた抽出規則により抽出した索引語の出現位置
情報を有する索引ファイルと、 検索パターン文字列を入力する検索パターン文字列入力
部と、 前記検索パターン文字列を、前記索引ファイルにおける
索引語の抽出規則と同じ抽出規則により索引語に分割す
る索引語抽出部と、 前記索引ファイルを用いて、前記分割された先頭より二
番目の索引語から最後の索引語の出現位置を求めると共
に、先頭の索引語に後方一致する索引語の出現位置を求
め、各索引語の出現位置が前記検索パターン文字列と同
じ文字並びとなっている文字列を類似語句として抽出す
る索引ファイル検索部と、 前記求めた類似語句を予め設定した代表語の基準と比較
し、適合した類似語句を抽出する検索結果分類処理部
と、 これら抽出した類似語句とその出現位置情報を出力する
結果出力部とを備えたことを特徴とする文書検索システ
ム。 - 【請求項3】 検索対象文書中に出現する文字列から予
め決められた抽出規則により抽出した索引語の出現位置
情報を有する索引ファイルと、 検索パターン文字列を入力する検索パターン文字列入力
部と、 前記検索パターン文字列を、前記索引ファイルにおける
索引語の抽出規則と同じ抽出規則により索引語に分割す
る索引語抽出部と、 前記検索パターン文字列に対して、先頭からの類似語句
展開開始文字数を設定し、前記索引ファイルを用いて、
前記分割された先頭の索引語から、前記類似語句展開開
始文字を含む索引語より一つ前の索引語までの出現位置
を求めると共に、前記類似語句展開開始文字を含む索引
語の前記類似語句展開開始文字までの文字列に前方一致
する索引語の出現位置を求め、求めた各索引語の出現位
置が前記検索パターン文字列と同じ文字並びとなってい
る文字列を類似語句として抽出する索引ファイル検索部
と、 前記求めた類似語句を予め設定した代表語の基準と比較
し、適合した類似語句を抽出する検索結果分類処理部
と、 これら抽出した類似語句とその出現位置情報を出力する
結果出力部とを備えたことを特徴とする文書検索システ
ム。 - 【請求項4】 検索対象文書中に出現する文字列から予
め決められた抽出規則により抽出した索引語の出現位置
情報を有する索引ファイルと、 検索パターン文字列を入力する検索パターン文字列入力
部と、 前記検索パターン文字列を、前記索引ファイルにおける
索引語の抽出規則と同じ抽出規則により索引語に分割す
る索引語抽出部と、 前記検索パターン文字列に対して、最後の文字からの類
似語句展開開始文字数を設定し、前記索引ファイルを用
いて、前記分割された最後の索引語から、前記類似語句
展開開始文字を含む索引語より一つ後の索引語までの出
現位置を求めると共に、前記類似語句展開開始文字を含
む索引語の前記類似語句展開開始文字までの文字列に後
方一致する索引語の出現位置を求め、求めた各索引語の
出現位置が前記検索パターン文字列と同じ文字並びとな
っている文字列を類似語句として抽出する索引ファイル
検索部と、 前記求めた類似語句を予め設定した代表語の基準と比較
し、適合した類似語句を抽出する検索結果分類処理部
と、 これら抽出した類似語句とその出現位置情報を出力する
結果出力部とを備えたことを特徴とする文書検索システ
ム。 - 【請求項5】 請求項3に記載の文書検索システムにお
いて、 検索パターン文字列のうち、類似語句展開開始文字以降
から抽出される索引語に対して、当該索引語の先頭1文
字で始まる索引語の出現位置を求め、求めた索引語の出
現位置が前記検索パターン文字列の文字並びとなってい
る文字列を類似語句として抽出する索引ファイル検索部
を備えたことを特徴とする文書検索システム。 - 【請求項6】 請求項4に記載の文書検索システムにお
いて、 検索パターン文字列のうち、類似語句展開開始文字より
前方で抽出される索引語に対して、当該索引語の終端1
文字で始まる索引語の出現位置を求め、求めた索引語の
出現位置が前記検索パターン文字列の文字並びとなって
いる文字列を類似語句として抽出する索引ファイル検索
部を備えたことを特徴とする文書検索システム。 - 【請求項7】 請求項1〜6のいずれかに記載の文書検
索システムにおいて、 代表語は、検索対象文書中の出現頻度が予め定めた閾値
以上の語句であることを特徴とする文書検索システム。 - 【請求項8】 請求項7に記載の文書検索システムにお
いて、 閾値は、語長が長い文字列ほど低い値とすることを特徴
とする文書検索システム。 - 【請求項9】 請求項1〜6のいずれかに記載の文書検
索システムにおいて、 索引ファイル検索部で抽出した文字列が、検索パターン
文字列と同じ文字列長であった場合、この文字列を代表
語とする検索結果分類処理部を備えたことを特徴とする
文書検索システム。 - 【請求項10】 請求項1、3、5のいずれかに記載の
文書検索システムにおいて、 対象とする文字列が代表語としての基準を満足しない場
合は、この文字列の最後の1文字を削除した文字列に等
しい索引語が存在するかを調べ、存在した場合は、当該
文字列が代表語としての基準を満足するかを判定する処
理を繰り返し行う検索結果分類処理部を備えたことを特
徴とする文書検索システム。 - 【請求項11】 請求項2、4、6のいずれかに記載の
文書検索システムにおいて、 対象とする文字列が代表語としての基準を満足しない場
合は、この文字列の先頭の1文字を削除した文字列に等
しい索引語が存在するかを調べ、存在した場合は、当該
文字列が代表語としての基準を満足するかを判定する処
理を繰り返し行う検索結果分類処理部を備えたことを特
徴とする文書検索システム。 - 【請求項12】 請求項3〜6のいずれかに記載の文書
検索システムにおいて、 代表語は、検索対象文書中の出現頻度が予め定めた閾値
以上の語句であり、かつ、類似語句の閾値は、検索パタ
ーン文字列と完全一致する文字列の閾値より高い値とす
ることを特徴とする文書検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9352083A JPH11175564A (ja) | 1997-12-05 | 1997-12-05 | 文書検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9352083A JPH11175564A (ja) | 1997-12-05 | 1997-12-05 | 文書検索システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11175564A true JPH11175564A (ja) | 1999-07-02 |
Family
ID=18421673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9352083A Pending JPH11175564A (ja) | 1997-12-05 | 1997-12-05 | 文書検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11175564A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100813806B1 (ko) * | 2000-04-18 | 2008-03-13 | 주식회사 케이티 | 중심용어사전을 이용한 표제어의 중심용어 추출 방법 및그를 이용한 정보 검색 시스템 및 그 방법 |
-
1997
- 1997-12-05 JP JP9352083A patent/JPH11175564A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100813806B1 (ko) * | 2000-04-18 | 2008-03-13 | 주식회사 케이티 | 중심용어사전을 이용한 표제어의 중심용어 추출 방법 및그를 이용한 정보 검색 시스템 및 그 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7519590B2 (en) | Method and system for performing phrase/word clustering and cluster merging | |
JP5237335B2 (ja) | 対話形サーチクエリー改良のためのシステム及び方法 | |
JP3270783B2 (ja) | 複数の文書検索方法 | |
US7526497B2 (en) | Database retrieval apparatus, retrieval method, storage medium, and program | |
US10445359B2 (en) | Method and system for classifying media content | |
US6785677B1 (en) | Method for execution of query to search strings of characters that match pattern with a target string utilizing bit vector | |
JP2001524717A (ja) | 情報管理及び検索 | |
JP2002541580A (ja) | 文書をパージングするシステム及び方法 | |
US20070112839A1 (en) | Method and system for expansion of structured keyword vocabulary | |
JP2008198237A (ja) | 構造化文書管理システム | |
JP5418138B2 (ja) | 文書検索システム、情報処理装置およびプログラム | |
JP2001109754A (ja) | 索引ファイルを使用した検索方法及びそれに用いる装置 | |
JP4108337B2 (ja) | 電子ファイリングシステム及びその検索インデックス作成方法 | |
JPH11175564A (ja) | 文書検索システム | |
JP4682627B2 (ja) | 文書検索装置および方法 | |
JP4091586B2 (ja) | 構造化文書管理システム、索引構築方法及びプログラム | |
EP1876539A1 (en) | Method and system for classifying media content | |
JPH1196170A (ja) | データベース作成方法および情報検索方法および情報検索装置および記録媒体 | |
JPH1173422A (ja) | 類似文書検索システムおよびそれに用いる記憶媒体 | |
JP2001092831A (ja) | 文書検索装置及び文書検索方法 | |
KR19990084950A (ko) | 역화일을 이용한 데이터 부분검색 장치 및 그 방법 | |
JPH09212523A (ja) | 全文検索方法 | |
JP2004318328A (ja) | 情報検索方法 | |
JP3314720B2 (ja) | 文字列検索装置 | |
JP4355470B2 (ja) | 言語処理装置およびその制御方法ならびにプログラム |