JPH0991297A

JPH0991297A - 文字列検索方法及び装置

Info

Publication number: JPH0991297A
Application number: JP7247327A
Authority: JP
Inventors: Takuya Ichikawa; 卓哉市川; Yoshifumi Sakai; 良文坂井
Original assignee: Nippon Steel Corp
Current assignee: Nippon Steel Corp
Priority date: 1995-09-26
Filing date: 1995-09-26
Publication date: 1997-04-04
Anticipated expiration: 2015-09-26
Also published as: JP3665112B2

Abstract

(57)【要約】【課題】検索キーワードを連語に分割して行う文字列検
索において、完全一致検索や曖昧検索などの多様な検索
種別での検索を過検索が少なくて高速で実行でき、かつ
任意に漢字とかなが混じりあったような検索キーワード
での検索も可能にする。【解決手段】検索キーワードの文字の種類と検索種別と
に応じて、異なる生成規則による連語を検索キーワード
から抽出する。例えば、検索キーワードがかな文字のみ
からなりかつ検索種別が一致検索である場合には、文字
長が２である連語を検索キーワードから順次抽出し、そ
れ以外の場合には、文字長が１である連語を検索キーワ
ードから順次抽出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、与えられた検索キ
ーワードに応じて検索を行う情報検索における文字列検
索方法及び装置に関する。

【０００２】

【従来の技術】国語辞書や英和辞書、百科事典類などは
これまで紙媒体によって刊行されてきたが、近年、コン
ピュータ可読型の記憶媒体、特にＣＤ−ＲＯＭなどの読
み出し専用記憶媒体に格納された形態でこれら辞書、事
典類が流通するようになってきている。こういったＣＤ
−ＲＯＭ版の辞書・事典（電子化された辞書・事典）で
は、検索時間の短縮を目的として、インデックスファイ
ルを設けるのが一般的である。インデックスファイル
は、検索対象となる語（見出し語ないし索引語）ごと
に、その語に対応する物件（辞書などであれば説明文）
がＣＤ−ＲＯＭ中のどこに所在するかの情報（いわゆる
ポインタ）を記述したファイルであり、インデックスフ
ァイルに対して文字列検索を行うことにより、すなわち
利用者の入力した検索キーワードに一致する見出し語な
いし索引語がインデックスファイル中にあるかを調べる
ことによって、検索対象の物件に短時間でアクセスする
ことが可能になる。

【０００３】なお、国語辞書の場合には、見出し語とそ
の見出し語に対する物件（説明文）が１対１で対応する
と考えることができるが、百科事典などの場合には、１
つの索引語に複数の物件（説明文）が対応することがあ
りうる。また、特許文献などの全文データベースを格納
したＣＤ−ＲＯＭにおいても、例えば統制語方式によ
り、検索に使用されるキーワードに基づいてインデック
スファイルを予め構成しておくことにより、インデック
スファイルに登録されているキーワードについては短時
間で全文検索を行うことが可能になる。

【０００４】ところで、ファイル中に検索キーワードと
一致する文字列があるかどうかを検索する文字列検索方
法として、検索キーワードを分割して一群の連語を生成
し、ファイル中の文字列と一群の連語との一致度を求め
ことにより、文字列を検索する方法があり、この方法は
広く用いられている。連語とは、検索キーワード中で隣
接する文字の組み合わせで構成された１あるいは数文字
の長さの文字の並びのことである。検索キーワードのま
まであるとその長さが一定しないので処理が複雑になる
が、このように連語に分割して検索することにより、大
量のデータに対して高速での検索処理が可能になる。

【０００５】ここで、この連語を用いた文字列検索方法
について、図１３のフローチャートを用いて説明する。
ここでは、連語の文字長が２文字であり、検索キーワー
ドとして「あいうえお」が選ばれるものとする。

【０００６】まず、利用者によって検索キーワード（こ
こでは「あいうえお」）が入力され（ステップ９１）、
入力された検索キーワードが連語長２文字の連語「あ
い」、「いう」、「うえ」、「えお」に分割される（ス
テップ９２）。続いて、各連語に関して対象とするファ
イルを検索してファイル中の各項目にその連語が含まれ
ているかを調べ、連語と一致した文字列をカウントする
（ステップ９３）。全ての連語についての検索が終った
かを判断し（ステップ９４）、未検索の連語があればス
テップ９３に戻り、全ての連語についての検索が終って
いれば、文字列ごとにカウント数を合計して一致度を算
出し（ステップ９５）、一致度が１００％である文字列
を出力し（ステップ９６）、処理を終了する。

【０００７】一致度は、検索キーワードと文字列との一
致の度合を示す尺度であって、各文字列ごとに、一致度（％）＝［（カウント数の合計）／（連語の種
類）］×１００なる式で算出される。

【０００８】ここでは、連語長が２文字で検索キーワー
ドが「あいうえお」であるので、連語の種類は「あ
い」、「いう」、「うえ」、「えお」の４種類である。
表１は、各種の文字列に対する一致度を示した表であ
り、表中の○印はその連語がその文字列に含まれている
ことを示している。文字列に対する一致度が１００％で
ある場合に、その文字列が検索キーワードと同一の文字
列であることが多いので、検索者に対しては一致度が１
００％である文字列が出力される。

【０００９】

【表１】ところで、実際の文字列検索の局面では、検索キーワー
ドと完全に一致する文字列のみを検索（完全一致検索）
したのでは、利用者の検索要求に対して不十分であるこ
とがある。例えば、辞書の見出し項目の検索を例に挙げ
れば、表記のゆれなどがある場合には利用者の入力した
検索キーワードと辞書での見出し項目が一致しないこと
があり、あるいは、類似の単語を網羅的に検索したい場
合もあり、これらの場合には、完全一致の項目のみを検
索したのでは目的とする項目に達することはできず、曖
昧検索を行う必要がある。また、ある部分文字列で始ま
る全ての単語、ある部分文字列で終る全ての単語、ある
部分文字列を含む全ての単語を検索したい場合には、そ
れぞれ、先頭一致検索、後方一致検索、部分一致検索を
行う必要がある。なお、以下の説明において、完全一致
検索、先頭一致検索、後方一致検索、部分一致検索を総
称して一致検索とする。また、完全一致検索、先頭一致
検索、後方一致検索、部分一致検索、曖昧検索、一致検
索などの別を検索種別という。

【００１０】上述した連語を利用した文字列検索方法で
は、一致度があるしきい値以上であれば１００％未満で
あっても検索されたとすることにより、検索キーワード
に類似した文字列を検索することができ、曖昧検索を実
行することができる。

【００１１】

【発明が解決しようとする課題】しかしながら、上述し
た連語に基づく文字列検索方法には、完全一致検索、先
頭一致検索、後方一致検索、部分一致検索、曖昧検索な
どを含む多様な検索種別に的確に対応するのには不十分
であるという問題点がある。連語による方法では、一致
検索において検索キーワードと一致しないものも検出す
ること（過検出）が起こり得るが、過検出を少なくして
高速で文字列検索処理を行うために、まだ改善の余地が
ある。

【００１２】また、日本語の場合、表記用文字としてか
な文字と漢字とが併存するので、同一項目に対して利用
者が入力する検索キーワードも多種類にわたることがあ
る。そこで、辞書における索引語として、辞書単語のほ
かにその読みを登録する（索引語「富士山」に対して、
読み「ふじさん」を登録する）ことが考えられるが、そ
の場合であっても、例えば項目「富士山」に対する検索
キーワードとして、「ふじ山」、「富士山」、「ふじさ
ん」、「ふ士山」などの入力が考えられる。連語を用い
た従来の方法では、「ふじ山」や「ふ士山」の入力に対
して、目的とする文字列を検索することは容易ではな
い。

【００１３】本発明の目的は、完全一致検索や曖昧検索
などの多様な検索種別での検索を過検索が少なくて高速
で実行でき、かつ任意に漢字とかなが混じりあったよう
な検索キーワードでの検索も可能な文字列検索方法及び
装置を提供することにある。

【００１４】

【課題を解決するための手段】本発明の文字列検索方法
は、入力した検索キーワードと指定された検索種別に基
づいてファイル中から検索キーワードに対応する項目を
探索する文字列検索方法において、検索キーワードを構
成する文字の字種と検索種別とに応じて検索キーワード
から一群の連語を抽出し、ファイル中の各項目の文字列
と一群の連語とを比較して当該文字列に対する一致度を
算出し、一致度がしきい値以上である項目を検索された
項目とすることを特徴とする。

【００１５】本発明の文字列検索方法は、検索キーワー
ドの文字の字種と検索種別とに応じて異なる生成規則に
よる連語を検索キーワードから抽出しようとするもので
ある。ここで字種とは、漢字、かな文字などの種類の別
を指す。このように生成規則を変化させることにより、
多様な検索種別での検索を過検索が少なくて高速で実行
でき、かつ任意に漢字とかなが混じりあったような検索
キーワードでの検索も可能になる。

【００１６】具体的には、例えば、検索キーワードがか
な文字のみからなりかつ検索種別が一致検索である場合
には、文字長が２である連語を検索キーワードから順次
抽出し、それ以外の場合には、文字長が１である連語を
検索キーワードから順次抽出する。一致検索の際に検索
キーワードがかな文字のみで構成されている場合に連語
長を２文字とすることにより、過検出が抑止され、ま
た、その他の場合に連語長を１文字とすることにより、
曖昧検索などを的確に行うことが可能になる。

【００１７】さらに、任意に漢字とかな文字が混ってい
るような検索キーワードに対応するため、ファイル中の
各項目には、それぞれ、当該項目の読みに対応するかな
文字列が付加するようにすることが望ましい。上述のよ
うに、漢字かな混じりの検索キーワードに対しては連語
の文字長を短く、例えば１とすることによって、任意に
漢字かな混じりとなっている検索キーワードに対しても
有効に文字列検索を行うことが可能になる。

【００１８】本発明の文字列検索装置は、入力した検索
キーワードと指定された検索種別に基づいてファイル中
から検索キーワードに対応する項目を探索する文字列検
索装置において、検索キーワードと検索種別と検索種別
に応じてしきい値を入力する入力手段と、検索キーワー
ドを構成する文字の字種と検索種別とに応じて検索キー
ワードから一群の連語を抽出し、ファイル中の各項目の
文字列と一群の連語とを比較して当該文字列に対する一
致度を算出する処理手段とを有し、一致度が検索種別に
応じたしきい値以上である項目を検索された項目とする
ことを特徴とする。

【００１９】

【発明の実施の形態】次に、本発明の望ましい実施の形
態について、図面を参照して説明する。図１は、本発明
の実施の一形態の情報検索システムを説明するブロック
図である。

【００２０】この情報検索システムは、辞書や事典類を
内容とするＣＤ−ＲＯＭ２０と、利用者の入力した検索
キーワードに応じてＣＤ−ＲＯＭ２０を検索し検索結果
を表示する処理装置１０とによって構成されている。後
述するように、ＣＤ−ＲＯＭ２０の検索に際しては、イ
ンデックスデータファイル３０中の項目に対して本発明
の方法によって文字列検索が行われており、処理装置１
０は、本発明の文字列検索装置としても機能する。

【００２１】処理装置１０には、ＣＤ−ＲＯＭ２０を装
着して必要なデータを読み出すためのＣＤ−ＲＯＭドラ
イブ１１と、ＣＰＵなどで構成され検索処理やＣＤ−Ｒ
ＯＭドライブ１１の動作の制御などを行うための処理部
１２と、検索処理に必要なファイルを一時的に格納する
ためのファイル格納用メモリ１３と、タッチパネルやキ
ーボードなどからなり利用者からの検索要求、検索キー
ワード、検索種別、しきい値などが入力する入力部１４
と、液晶パネルなどからなり検索結果を利用者に対して
表示するための表示部１５とが設けられている。処理部
１２には、ＣＤ−ＲＯＭ２０中あるいはファイル格納用
メモリ１３内のファイルに対して連語による検索を行う
検索部１６と、入力した検索キーワードから検索条件に
応じて連語を生成する連語生成部１７と、一致度を算出
してしきい値と比較する比較部１８が設けられている。
また、表示部１５は、外部のテレビジョン受像機に対
し、検索結果をテレビジョン画像として表示するための
映像信号を出力するものであってもよい。

【００２２】ＣＤ−ＲＯＭ２０の記憶領域の構成が図２
に示されている。ここでは、ＣＤ−ＲＯＭ２０がＣＤ−
ＲＯＭ版の辞書である例が示されているが、別に辞書に
限定される必要はなく、百科事典類、写真集、旅行ガイ
ドブック、各種ハンドブック・規格書、論文集、特許公
報類など、検索を行って所望のデータにアクセスするこ
とを目的とするものであれば、どのようなものであって
もよい。

【００２３】ＣＤ−ＲＯＭ２０の格納領域は、検索処理
プログラムが格納される処理プログラム格納部２１と、
インデックスファイル類が格納されるインデックスファ
イル格納部２２と、辞書の説明文（物件）が格納される
辞書データ本体格納部２３とに分けられている。本実施
の形態では、処理装置１０の処理部１２で走らせるため
の検索処理プログラム自体を検索対象のＣＤ−ＲＯＭ２
０内に格納し、ＣＤ−ＲＯＭ２０がＣＤ−ＲＯＭドライ
ブ１１に装着された時点で、検索処理プログラムが処理
装置１０の処理部１２に読み込まれるようにしている。

【００２４】本実施の形態では、図３に示すように、イ
ンデックスファイルとしてインデックスデータファイル
３０を使用するとともに、検索の高速化のために、検索
用指示ファイル３１と検索用倒置ファイル３２を使用し
ている。検索用指示ファイル３１と検索用倒置ファイル
３２は、インデックスデータファイル３０から学習工程
を経て生成されるファイルである。これらインデックス
データファイル３０、検索用指示ファイル３１及び検索
用倒置ファイル３２はいずれもインデックスファイル格
納部２２内に格納され、このうち、検索用指示ファイル
３１は検索時には処理装置１０のファイル格納用メモリ
１３内に読み込まれるようになっている。また、説明文
ごとに連続番号でインデックス番号が付与されており、
索引語からインデックス番号を知ることによって、ＣＤ
−ＲＯＭ２０中での対応する説明文の格納場所に対して
即座にアクセスすることができるようになっている。以
下、各ファイル３０〜３２について説明する。

【００２５】インデックスデータファイル３０は、図４
に示すように、ＣＤ−ＲＯＭ２０内の説明文（物件）に
アクセスするため基本となるファイルであって、説明文
ごとに、その説明文に対するインデックス番号と索引語
（見出し語）とＣＤ−ＲＯＭ２０内での格納位置とを記
述したものである。説明文は索引語の読みの五十音順で
配置されており、各説明文に対して０から始まる連続番
号であるインデックス番号が、重複しないように付与さ
れている。各索引語は「読み」と「実体」とに分かれて
おり、「読み」にはその索引語の読みが格納され、「実
体」にはその索引語の実際の表記（漢字やアルファベッ
ト）が格納されている。なお、この実施の形態ではひら
がなとかたかなの区別、清音と濁音、半濁音の区別は行
っておらず、また、ひらがなのみで表記される索引語に
ついては、「実体」には何も格納していない。

【００２６】検索用倒置ファイル３２は、いわゆる倒置
（インバーテッド）ファイルとして構成されており、曖
昧検索などを実現するために、索引語（キーワード）を
１文字あるいは２文字の連語（例えば、「あ」,「い」,「あ
あ」,「山」）に分解し、連語をキーとしてその連語を含む
項目のインデックス番号が参照できるように構成されて
いる。連語とは本来は２文字以上の文字列集団を指す
が、本明細書においては、１文字のものも連語と呼ぶこ
とにする。索引語を連語に分解しているので、１索引語
に１つの説明文しか対応しない場合（国語辞書などの場
合）であっても１つの連語には複数のインデックス番号
が対応し、したがって、連語ごとにレコードを構成する
とすれば、検索用倒置ファイル３２は可変長レコードの
ファイルであるといえる。以下、検索用倒置ファイルに
おける連語ごとのインデックス番号の並びを連語のレコ
ードと呼ぶ。なお、検索用指示ファイル３１が設けられ
ているので、検索用倒置ファイル３２には、連語そのも
のを格納しておく必要はない。一方、検索用指示ファイ
ル３１は、連語をキーとして、検索用倒置ファイルにお
いてその連語のレコードがどこにあるかを指示するファ
イルである。したがって、連語をごとにレコードを構成
するとするすれば、検索用指示ファイルは固定長のファ
イルであるといえる。後述するように、実際に検索を行
う場合には、それに先立って検索用指示ファイル３１が
ＣＤ−ＲＯＭ２０から処理装置１０側に読み出される。

【００２７】次に、インデックスデータファイル３０か
ら検索用指示ファイル３１及び検索用倒置ファイル３２
を生成する学習工程について、図５を用いて説明する。
まず、各索引語から１文字の連語としての構成文字を抽
出する。「読み」の部分については、２文字の連語（構
成文字列）も抽出する。例えば、見出し語「（読み）あ
そさん、（実体）阿蘇山」からは、「あ」,「そ」,「さ」,
「ん」,「あそ」,「そさ」,「さん」,「阿」,「蘇」,「山」が抽出され
る。そして、これら各構成文字がどのインデックス番号
の見出し語に含まれているかを求め、そのインデックス
番号を保存する。つまり、構成文字（列）をキーとしイ
ンデックス番号を並びとするインバーテッドファイルを
生成する。そして、ページング処理を実行し、インデッ
クス番号の代りにページング後のインデックス番号が記
録されるようにする。ページングとは、検索速度の向上
を目的として、一連のインデックス番号を複数のページ
に分けることである。例えば、インデックス番号を６５
５３６（＝２¹⁶）で除算したとして、商をページの番
号、余りをページングのインデックス番号とする。この
ようにページングを定義すると、ページングの結果、イ
ンデックス番号２３２１０は第０ページの２３２１０
と、６５５３７は第１ページの１と表わされることにな
る。

【００２８】なお、インデックス番号は索引語の読みの
五十音順で付与されているから、索引語の読みの先頭文
字が指定されれば、対応するインデックス番号の値の取
り得る範囲やどのページに属しているかを知ることがで
きる。本実施の形態では、そのことを利用して、完全一
致検索と先頭一致検索の高速化を図っている。場合によ
っては、１ページに含まれるインデックス番号の数を可
変にしてページ境界と先頭文字の境目が一致するように
してもよく、そうすることにより、先頭文字が指定され
れば検索すべきページが１つに定まることになる。ま
た、補助ファイルとして先頭文字位置ファイルを設け、
「読み」の部分に関して先頭文字ごとにその先頭文字が
始まるインデックス番号を格納するようにしてもよい。
これにより、例えば、「読み」において先頭文字が
「う」であるものは、インデックス番号が２３６９から
３９５５の範囲にあるものと即座に分かり、検索対象を
絞り込むのに役立つ。

【００２９】図６は検索用指示ファイル３１の構成例を
示している。ここでは、各構成文字の各ページごとに、
その構成文字が出現した索引語の数（該当するインデッ
クス番号の数）が格納されている。検索用指示ファイル
３１での構成文字の順は検索用倒置ファイル３２での構
成文字の順と同じとなっており、検索用指示ファイル３
１において注目する構成文字の直前の構成文字までに出
現回数として格納された数の総和を求めれば、その総和
は、検索用倒置ファイル３２でのその注目する構成文字
に対するポインタとして扱うことができる。あるいは、
検索用指示ファイル３１には、各構成文字の各ページご
とに、検索用倒置ファイル３２における当該構成文字の
当該ページの先頭のアドレスを直接記録するようにして
もよく、このように構成すれば、検索用指示ファイル３
１での値を検索用倒置ファイル３２のレコードに対する
ポインタとしてそのまま使用することが可能になる。

【００３０】図７は検索用倒置ファイル３２の構成例を
示している。この検索用倒置ファイル３２では、各構成
文字の各ページを単位としてレコードが構成され、各レ
コードは、可変長であって、該当する構成文字の該当す
るページに出現するインデックス番号を並びとして格納
している。各レコードには、構成文字やページを表わす
データは格納されていない。インデックス番号自体は、
所定の整数型データとして表わされている。検索用指示
ファイル３１に格納されているデータが図６に示すよう
であれば、各レコードの要素数（格納されているインデ
ックス番号の数）は、図７において要素数として表わさ
れた数となる。

【００３１】次に、情報検索処理について説明する。ま
ず、情報検索の処理手順の概要について、図８及び図９
を用いて説明する。

【００３２】ＣＤ−ＲＯＭ２０が処理装置１０に装着さ
れると、まず、検索処理プログラムがＣＤ−ＲＯＭ２０
から読み出されて処理装置１０の処理部１２にロードさ
れ、この検索処理プログラムの実行が開始する（ステッ
プ１０１）。続いて、ＣＤ−ＲＯＭ２０から検索用指示
ファイル３１が読み出され、処理装置１０のファイル格
納用メモリ１３に格納される（ステップ１０２）。

【００３３】利用者が検索キーワードを入力すると（ス
テップ１０３）、入力した検索キーワードに応じてファ
イル格納用メモリ１３内の検索用指示ファイル３１が検
索され、その検索結果によってＣＤ−ＲＯＭ２０内の検
索用倒置ファイル３２が検索される（ステップ１０
４）。すなわち、図９に示すように、検索キーワードが
連語に分解され、連語によって検索用指示ファイル３１
が検索され、検索用倒置ファイル３２における検索すべ
きレコードの位置が求められる。そして、該当する連語
のレコードが検索用倒置ファイル３２から検索されて処
理装置１０側に読み込まれる。読み込まれた連語のレコ
ードの数に対するあるインデックス番号が出現するレコ
ードの数の割合すなわち一致度を求め、一致検索であれ
ばこの一致度が１００％であり、曖昧検索であればこの
一致度が所定のしきい値を上回っているときに、そのイ
ンデックス番号に基づいて説明文を読み込むようにす
る。そして、上述のように読み込まれた説明文すなわち
検索結果の説明文を表示部１５に表示し、利用者に対し
て次の検索を行うかどうかを問い合わせる（ステップ１
０５）。次の検索を行う場合にはステップ１０３に戻っ
て次の検索キーワードの入力を受け付け、次の検索を行
わない場合にはそのまま処理を終了する。

【００３４】この実施の形態では、データ量の大きなイ
ンデックスデータファイル３０や検索用倒置ファイル３
２をＣＤ−ＲＯＭ２０内に残しておき、データ量が小さ
くかつ検索用倒置ファイル３２に対するポインタとして
使用される検索用指示ファイル３１を処理装置１０内の
ファイル格納用メモリ１３にロードし、検索キーワード
に基づく検索をまず検索用指示ファイル３１に対して実
行することにより、十分なメモリを備えていないような
場合であっても、高速で検索を行うことが可能になる。
すなわち、最終的には検索用倒置ファイル３２からの処
理装置１０へのデータの読み込みが必要になるが、検索
用指示ファイル３１を用いて対象となる連語のレコード
を絞っているので、検索用倒置ファイル３２から読み込
まれるレコードの数を必要最小限にし、ＣＤ−ＲＯＭ２
０からの読み込みに要する時間を縮減することが可能に
なっている。検索用指示ファイル３１はファイル格納用
メモリ１３に常駐させておくことが可能なので、繰り返
して検索を行う場合に大幅に検索時間を減らすことが可
能である。

【００３５】以下、上述のステップ１０３及び１０４す
なわち文字列検索処理を含む情報検索処理の詳細につい
て、図１０及び図１１を用いて説明する。

【００３６】利用者によって検索種別（完全一致検索、
部分一致検索、先頭一致検索、後方一致検索あるいは曖
昧検索の別）と検索キーワードが入力されると（ステッ
プ１１１）、まず、曖昧検索かそうでないかの判断がな
される（ステップ１１２）。曖昧検索の場合には、利用
者から一致度に対するしきい値ｘの入力を受け（ステッ
プ１１３）、入力された検索キーワードから、漢字１文
字で構成された連語とひらがな１文字で構成された連語
を順次抽出する（ステップ１１４）。本実施の態様で
は、上述したように、１文字あるいは２文字からなる連
語に検索キーワードを分解し、分解して得た連語に基づ
いて検索を行う。例えば検索キーワード「あそ山」から
は「あ」,「そ」,「山」が連語として抽出される。なお、同一
の連語が重複しては抽出されないようにする。そして、
抽出された連語により、ファイル格納用メモリ１３に既
に格納されている検索用指示ファイル３１を検索する
（ステップ１１５）。検索キーワード「あそ山」の例で
いえば、検索用指示ファイル３１での構成文字「あ」,
「そ」,「山」の内容がそれぞれ読み出され、「あ」,「そ」,
「山」に関する検索用倒置ファイル３２へのポインタがそ
れぞれ算出される。そして、ステップ１２５に移行す
る。

【００３７】一方、ステップ１１２で曖昧検索でない場
合、すなわち一致検索の場合には、しきい値ｘを自動的
に１００％に設定し（ステップ１１６）、入力された検
索キーワードが全てかな文字からなるあるいは全て漢字
からなるかどうかを判定する（ステップ１１７）。全て
かな文字あるいは全て漢字ではない場合（典型的にはか
なと漢字が混在する場合）には、上述のステップ１１４
とステップ１２５を順次実行してステップ１２５に移行
し、全てかな文字あるいは全て漢字の場合には、検索キ
ーワードが全てかなであるかを判定する（ステップ１１
８）。ステップ１１８で全てかなの場合には、検索キー
ワードから、ひらがな２文字で構成された連語を順次抽
出する（ステップ１１９）。例えば、検索キーワードが
「あそさん」であれば、連語として「あそ」,「そさ」,「さ
ん」が抽出される。一方、ステップ１１８で全てかなで
ない場合、すなわち全て漢字の場合には、検索キーワー
ドから、漢字１文字で構成された連語を順次抽出する
（ステップ１２０）。例えば、検索キーワード「阿蘇
山」からは連語として「阿」,「蘇」,「山」が抽出される。そ
して、ステップ１１９を実行した場合もステップ１２０
を実行した場合も、このようにして抽出された連語によ
り、上述と同様に、ファイル格納用メモリ１３に既に格
納されている検索用指示ファイル３１を検索する（ステ
ップ１２１）。

【００３８】ところで、後述するように検索実行文字に
基づいて最終的にはＣＤ−ＲＯＭ２０内の検索用倒置フ
ァイル３２が検索されることになっており、その際、連
語が多数あると、それだけＣＤ−ＲＯＭ２０へのアクセ
ス回数が増えることになる。そこで、ステップ１２１の
実行後、連語がＮ個以上見つかったかどうかを判断し、
連語がＮ個以上であれば、出現回数が多い方の連語から
削って連語の数をＮ−１にする（ステップ１２２）。連
語の出現回数は検索用指示ファイル３１に記述されてい
る。Ｎは例えば７に設定する。ここで出現回数の多い方
から削るのは、出現回数の多い連語は多くの見出し語に
含まれていて、入力された検索キーワードを特定するの
に余り役立たないと考えられるからである。ステップ１
２２の実行後、検索種別が完全一致検索あるいは先頭
一致検索であって、かつ、先頭文字がかなである、が
満たされているかどうかを判断する（ステップ１２
３）。満たされていない場合にはそのままステップ１２
５に移行し、満たされている場合には、上述のように構
成文字の先頭文字が特定のページに対応していることか
ら、検索キーワードの先頭のかな文字に基づいて、検索
すべき対象のページを決定し（ステップ１２４）、その
後、ステップ１２６に移行する。

【００３９】ステップ１２５では、検索種別が曖昧検索
であるかを判定し、曖昧検索であればそのままステップ
１２６に移行し、曖昧検索でない場合にはステップ１２
３に移行する。

【００４０】ステップ１２６では、ステップ１１５ある
いはステップ１２１での検索用指示ファイル３１の検索
結果に応じ、ＣＤ−ＲＯＭ２０内の検索用倒置ファイル
３２から未処理の１ページ分のレコードを読み込む。検
索キーワード「あそ山」の例では、「あ」,「そ」,「山」のそ
れぞれについてのレコードが読み出される。後述するよ
うに、ステップ１２４で対象ページが設定されている場
合を除いてステップ１２５は繰り返して実行されるが、
例えばまず、第０ページに属するレコードが読み出さ
れ、次にステップ１２５が実行されるときに第１ページ
に属するレコードが読み出される。また、ステップ１２
４で対象ページが設定されている場合には、その対象ペ
ージに属するレコードが読み出される。上述したように
ステップ１１５あるいはステップ１２１では、各連語ご
とに検索用倒置ファイル３２でのその連語のレコードへ
のポインタ（格納位置に関する情報）が求められている
から、このポインタを用いて検索用倒置ファイル３２に
アクセスし、その連語のレコードを読み出せばよい。す
なわち、検索用倒置ファイル３２の全体を走査する必要
はなく、検索用倒置ファイル３２の必要な場所に直接ア
クセスすることが可能になっている。

【００４１】そして、検索キーワードから生成した一群
の連語に対する各インデックス番号の一致度を求める
（ステップ１２７）。図１２は一致度の集計を説明する
図である。すなわち、検索用倒置ファイル３２から読み
出されたレコードについて、各インデックス番号ごとに
出現回数をカウントする。図１５において○印はそのレ
コードにおいてそのインデックス番号が記録されていた
ことを示している。この例では、検索キーワード「あそ
山」から抽出された各連語「あ」,「そ」,「山」のレコードに
ついて、それぞれどのインデックス番号が出現したかが
示されており、例えば連語「あ」のレコードには、インデ
ックス番号０,３,８,９,１３,１５が記録されているこ
とが示されている。そして、連語の数（この例では３）
で出現回数を除算することにより、各インデックス文字
ごとに一致度が求められている。この例では、連語の各
レコードに共通にインデックス番号１３が含まれ（出現
回数が３）、インデックス番号１３に対する一致度が１
００％であることが示されている。

【００４２】一致度の集計が終了したら、検索種別が
完全一致か先頭一致検索であり、かつ、検索文字列の
先頭がかなである、という条件を満足するかどうかを判
定する（ステップ１２８）。この条件を満足しない場合
にはそのままステップ１３０に移行し、満足する場合に
は、検索キーワードの先頭文字に応じて評価対象となる
インデックス番号の範囲を求め（ステップ１２９）、以
後の処理ではその範囲内のインデックス番号のみを対象
とするようにして、ステップ１３０に移行する。このよ
うに先頭文字に応じてインデックス番号の範囲を絞るの
は、インデックス番号の一致度のみに着目すると検索キ
ーワード「あそ山」に対して見出し語「山あそ」もヒッ
トすることになるので、このような検索ノイズの発生を
防ぎ、ＣＤ−ＲＯＭ２０への不要なアクセスを減らすた
めである。先頭文字「あ」で範囲を限定すれば、検索キ
ーワード「あそ山」に対し、「あ山そ」はヒットする
が、「山あそ」などのヒットは防ぐことができる。

【００４３】ステップ１３０では、一致度がしきい値ｘ
以上となっているインデックス番号を求める。一致検索
に対してはステップ１１６でｘ＝１００％としているの
で、一致度が１００％のインデックス番号のみが求めら
れる。一方、曖昧検索の場合には、ステップ１１３で入
力したしきい値ｘに応じてインデックス番号が求められ
る。そして、求められたインデックス番号に基づいてＣ
Ｄ−ＲＯＭ２０内のインデックスデータファイル３０を
参照し、それらのインデックス番号に対応する見出し語
を求める（ステップ１３１）。その際、それらのインデ
ックス番号に対応する説明文の辞書データ本体格納部２
３での格納位置も求めておく。

【００４４】続いて、検索種別が曖昧検索であるかどう
かを判断し（ステップ１３２）、曖昧検索であればその
ままステップ１３４に移行し、曖昧検索でない場合すな
わち一致検索である場合には、求められた見出し語が検
索条件と合致しているかを判定する（ステップ１３
３）。ステップ１３３において検索条件と合致している
場合にはステップ１３４に移行し、検索条件に合致して
いない場合にはステップ１３５に移行する。ここで検索
条件と合致しているかを判断するのは、本実施の形態の
手順によれば、検索キーワード「あそ山」に対して「あ
そ山」と「あ山そ」の両方が見出し語として検出される
ので、ノイズである「あ山そ」を排除するためである。
なお、曖昧検索の場合には、利用者の意図する検索対象
に「あ山そ」も含まれている可能性があるので、検索条
件に合致しているかどうかのステップ１３３でのチェッ
クは行わない。

【００４５】曖昧検索である場合とステップ１３３で検
索条件に合致している場合にはステップ１３４に移行す
るが、ステップ１３４では、該当するインデックス番号
に対応する説明文をＣＤ−ＲＯＭ２０の辞書データ本体
格納部２３から読み出し、検索された見出し語と対応す
る説明文とを表示部１５に表示し、ステップ１３５に移
行する。辞書データ本体格納部２３にアクセスする場合
には、ステップ１３１においてインデックスデータファ
イル３０にアクセスした際に既に求めてある格納位置の
情報を使用する。

【００４６】ステップ１３５では、全ページの処理が終
了したかどうかを判断し、未処理のページが残っている
のであればステップ１２６に戻り、全ページの処理が終
了しているのであれば、入力された検索キーワードに対
する情報検索処理を終了する。ステップ１２４で対象ペ
ージが定められている場合には、未処理のページが存在
しないので、そのまま処理を終了する。

【００４７】

【発明の効果】以上説明したように本発明は、検索キー
ワードの文字種と検索種別とに応じて異なる生成規則に
よる連語を検索キーワードから抽出しようとするもので
ある。このように生成規則を変化させることにより、多
様な検索種別での検索を過検索が少なくて高速で実行で
き、かつ任意に漢字とかなが混じりあったような検索キ
ーワードでの検索も可能になるという効果がある。

【００４８】例えば、一致検索の際に検索キーワードが
かな文字のみで構成されている場合に連語長を２文字と
することにより、かな文字のみの一致検索での過検出が
抑止され、また、その他の場合に連語長を１文字とする
ことにより、曖昧検索などを的確に行うことが可能にな
る。

【００４９】ファイル中の各項目には、それぞれ、当該
項目の読みに対応するかな文字列が付加するようにする
ことにより、漢字かな混じりの検索キーワードに対して
も有効に文字列検索を行うことが可能になる。

【図面の簡単な説明】

【図１】本発明の実施の一形態の情報検索システムを説
明するブロック図である。

【図２】ＣＤ−ＲＯＭ内でのデータの配置を示す図であ
る。

【図３】情報検索処理に使用される各種ファイル間の関
係を示す図である。

【図４】インデックスデータファイルの内容の一例を示
す図である。

【図５】インデックスデータファイルから各種ファイル
を生成するための学習過程を示す図である。

【図６】検索用指示ファイルの内容の一例を示す図であ
る。

【図７】検索用倒置ファイルの内容の一例を示す図であ
る。

【図８】図１の情報検索システムにおける情報検索処理
の概要を示すフローチャートである。

【図９】図１の情報検索システムにおける情報検索処理
時のデータの流れの概略を示す図である。

【図１０】情報検索処理の具体的処理手順を示すフロー
チャートである。

【図１１】情報検索処理の具体的処理手順を示すフロー
チャートである。

【図１２】一致度の集計を説明する図である。

【図１３】従来の文字列検索方法の処理手順の一例を示
すフローチャートである。

【符号の説明】

１０処理装置１１ＣＤ−ＲＯＭドライブ１２処理部１３ファイル格納用メモリ１４入力部１５表示部１６検索部１７連語生成部１８比較部２０ＣＤ−ＲＯＭ２１処理プログラム格納部２２インデックスファイル格納部２３辞書データ本体格納部３０インデックスデータファイル３１検索用指示ファイル３２検索用倒置ファイル１０１〜１０５，１１１〜１３５ステップ

Claims

【特許請求の範囲】

【請求項１】入力した検索キーワードと指定された検
索種別に基づいてファイル中から前記検索キーワードに
対応する項目を探索する文字列検索方法において、前記検索キーワードを構成する文字の字種と前記検索種
別とに応じて前記検索キーワードから一群の連語を抽出
し、前記ファイル中の各項目の文字列と前記一群の連語とを
比較して当該文字列に対する一致度を算出し、前記一致度がしきい値以上である項目を検索された項目
とすることを特徴とする文字列検索方法。
【請求項２】前記検索キーワードがかな文字のみから
なりかつ検索種別が一致検索である場合には、文字長が
２である連語を前記検索キーワードから順次抽出し、そ
れ以外の場合には、文字長が１である連語を前記検索キ
ーワードから順次抽出する請求項１に記載の文字列検索
方法。
【請求項３】前記ファイル中の各項目には、それぞ
れ、当該項目の読みに対応するかな文字列が付加されて
いる請求項１または２に記載の文字列検索方法。
【請求項４】入力した検索キーワードと指定された検
索種別に基づいてファイル中から前記検索キーワードに
対応する項目を探索する文字列検索装置において、前記検索キーワードと前記検索種別とと前記検索種別に
応じてしきい値を入力する入力手段と、前記検索キーワードを構成する文字の字種と前記検索種
別とに応じて前記検索キーワードから一群の連語を抽出
し、前記ファイル中の各項目の文字列と前記一群の連語
とを比較して当該文字列に対する一致度を算出する処理
手段とを有し、前記一致度が前記検索種別に応じたしきい値以上である
項目を検索された項目とすることを特徴とする文字列検
索装置。