JPH0991297A - 文字列検索方法及び装置 - Google Patents

文字列検索方法及び装置

Info

Publication number
JPH0991297A
JPH0991297A JP7247327A JP24732795A JPH0991297A JP H0991297 A JPH0991297 A JP H0991297A JP 7247327 A JP7247327 A JP 7247327A JP 24732795 A JP24732795 A JP 24732795A JP H0991297 A JPH0991297 A JP H0991297A
Authority
JP
Japan
Prior art keywords
search
file
character string
keyword
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7247327A
Other languages
English (en)
Other versions
JP3665112B2 (ja
Inventor
Takuya Ichikawa
卓哉 市川
Yoshifumi Sakai
良文 坂井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Nippon Steel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Steel Corp filed Critical Nippon Steel Corp
Priority to JP24732795A priority Critical patent/JP3665112B2/ja
Publication of JPH0991297A publication Critical patent/JPH0991297A/ja
Application granted granted Critical
Publication of JP3665112B2 publication Critical patent/JP3665112B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】検索キーワードを連語に分割して行う文字列検
索において、完全一致検索や曖昧検索などの多様な検索
種別での検索を過検索が少なくて高速で実行でき、かつ
任意に漢字とかなが混じりあったような検索キーワード
での検索も可能にする。 【解決手段】検索キーワードの文字の種類と検索種別と
に応じて、異なる生成規則による連語を検索キーワード
から抽出する。例えば、検索キーワードがかな文字のみ
からなりかつ検索種別が一致検索である場合には、文字
長が2である連語を検索キーワードから順次抽出し、そ
れ以外の場合には、文字長が1である連語を検索キーワ
ードから順次抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、与えられた検索キ
ーワードに応じて検索を行う情報検索における文字列検
索方法及び装置に関する。
【0002】
【従来の技術】国語辞書や英和辞書、百科事典類などは
これまで紙媒体によって刊行されてきたが、近年、コン
ピュータ可読型の記憶媒体、特にCD−ROMなどの読
み出し専用記憶媒体に格納された形態でこれら辞書、事
典類が流通するようになってきている。こういったCD
−ROM版の辞書・事典(電子化された辞書・事典)で
は、検索時間の短縮を目的として、インデックスファイ
ルを設けるのが一般的である。インデックスファイル
は、検索対象となる語(見出し語ないし索引語)ごと
に、その語に対応する物件(辞書などであれば説明文)
がCD−ROM中のどこに所在するかの情報(いわゆる
ポインタ)を記述したファイルであり、インデックスフ
ァイルに対して文字列検索を行うことにより、すなわち
利用者の入力した検索キーワードに一致する見出し語な
いし索引語がインデックスファイル中にあるかを調べる
ことによって、検索対象の物件に短時間でアクセスする
ことが可能になる。
【0003】なお、国語辞書の場合には、見出し語とそ
の見出し語に対する物件(説明文)が1対1で対応する
と考えることができるが、百科事典などの場合には、1
つの索引語に複数の物件(説明文)が対応することがあ
りうる。また、特許文献などの全文データベースを格納
したCD−ROMにおいても、例えば統制語方式によ
り、検索に使用されるキーワードに基づいてインデック
スファイルを予め構成しておくことにより、インデック
スファイルに登録されているキーワードについては短時
間で全文検索を行うことが可能になる。
【0004】ところで、ファイル中に検索キーワードと
一致する文字列があるかどうかを検索する文字列検索方
法として、検索キーワードを分割して一群の連語を生成
し、ファイル中の文字列と一群の連語との一致度を求め
ことにより、文字列を検索する方法があり、この方法は
広く用いられている。連語とは、検索キーワード中で隣
接する文字の組み合わせで構成された1あるいは数文字
の長さの文字の並びのことである。検索キーワードのま
まであるとその長さが一定しないので処理が複雑になる
が、このように連語に分割して検索することにより、大
量のデータに対して高速での検索処理が可能になる。
【0005】ここで、この連語を用いた文字列検索方法
について、図13のフローチャートを用いて説明する。
ここでは、連語の文字長が2文字であり、検索キーワー
ドとして「あいうえお」が選ばれるものとする。
【0006】まず、利用者によって検索キーワード(こ
こでは「あいうえお」)が入力され(ステップ91)、
入力された検索キーワードが連語長2文字の連語「あ
い」、「いう」、「うえ」、「えお」に分割される(ス
テップ92)。続いて、各連語に関して対象とするファ
イルを検索してファイル中の各項目にその連語が含まれ
ているかを調べ、連語と一致した文字列をカウントする
(ステップ93)。全ての連語についての検索が終った
かを判断し(ステップ94)、未検索の連語があればス
テップ93に戻り、全ての連語についての検索が終って
いれば、文字列ごとにカウント数を合計して一致度を算
出し(ステップ95)、一致度が100%である文字列
を出力し(ステップ96)、処理を終了する。
【0007】一致度は、検索キーワードと文字列との一
致の度合を示す尺度であって、各文字列ごとに、 一致度(%)=[(カウント数の合計)/(連語の種
類)]×100 なる式で算出される。
【0008】ここでは、連語長が2文字で検索キーワー
ドが「あいうえお」であるので、連語の種類は「あ
い」、「いう」、「うえ」、「えお」の4種類である。
表1は、各種の文字列に対する一致度を示した表であ
り、表中の○印はその連語がその文字列に含まれている
ことを示している。文字列に対する一致度が100%で
ある場合に、その文字列が検索キーワードと同一の文字
列であることが多いので、検索者に対しては一致度が1
00%である文字列が出力される。
【0009】
【表1】 ところで、実際の文字列検索の局面では、検索キーワー
ドと完全に一致する文字列のみを検索(完全一致検索)
したのでは、利用者の検索要求に対して不十分であるこ
とがある。例えば、辞書の見出し項目の検索を例に挙げ
れば、表記のゆれなどがある場合には利用者の入力した
検索キーワードと辞書での見出し項目が一致しないこと
があり、あるいは、類似の単語を網羅的に検索したい場
合もあり、これらの場合には、完全一致の項目のみを検
索したのでは目的とする項目に達することはできず、曖
昧検索を行う必要がある。また、ある部分文字列で始ま
る全ての単語、ある部分文字列で終る全ての単語、ある
部分文字列を含む全ての単語を検索したい場合には、そ
れぞれ、先頭一致検索、後方一致検索、部分一致検索を
行う必要がある。なお、以下の説明において、完全一致
検索、先頭一致検索、後方一致検索、部分一致検索を総
称して一致検索とする。また、完全一致検索、先頭一致
検索、後方一致検索、部分一致検索、曖昧検索、一致検
索などの別を検索種別という。
【0010】上述した連語を利用した文字列検索方法で
は、一致度があるしきい値以上であれば100%未満で
あっても検索されたとすることにより、検索キーワード
に類似した文字列を検索することができ、曖昧検索を実
行することができる。
【0011】
【発明が解決しようとする課題】しかしながら、上述し
た連語に基づく文字列検索方法には、完全一致検索、先
頭一致検索、後方一致検索、部分一致検索、曖昧検索な
どを含む多様な検索種別に的確に対応するのには不十分
であるという問題点がある。連語による方法では、一致
検索において検索キーワードと一致しないものも検出す
ること(過検出)が起こり得るが、過検出を少なくして
高速で文字列検索処理を行うために、まだ改善の余地が
ある。
【0012】また、日本語の場合、表記用文字としてか
な文字と漢字とが併存するので、同一項目に対して利用
者が入力する検索キーワードも多種類にわたることがあ
る。そこで、辞書における索引語として、辞書単語のほ
かにその読みを登録する(索引語「富士山」に対して、
読み「ふじさん」を登録する)ことが考えられるが、そ
の場合であっても、例えば項目「富士山」に対する検索
キーワードとして、「ふじ山」、「富士山」、「ふじさ
ん」、「ふ士山」などの入力が考えられる。連語を用い
た従来の方法では、「ふじ山」や「ふ士山」の入力に対
して、目的とする文字列を検索することは容易ではな
い。
【0013】本発明の目的は、完全一致検索や曖昧検索
などの多様な検索種別での検索を過検索が少なくて高速
で実行でき、かつ任意に漢字とかなが混じりあったよう
な検索キーワードでの検索も可能な文字列検索方法及び
装置を提供することにある。
【0014】
【課題を解決するための手段】本発明の文字列検索方法
は、入力した検索キーワードと指定された検索種別に基
づいてファイル中から検索キーワードに対応する項目を
探索する文字列検索方法において、検索キーワードを構
成する文字の字種と検索種別とに応じて検索キーワード
から一群の連語を抽出し、ファイル中の各項目の文字列
と一群の連語とを比較して当該文字列に対する一致度を
算出し、一致度がしきい値以上である項目を検索された
項目とすることを特徴とする。
【0015】本発明の文字列検索方法は、検索キーワー
ドの文字の字種と検索種別とに応じて異なる生成規則に
よる連語を検索キーワードから抽出しようとするもので
ある。ここで字種とは、漢字、かな文字などの種類の別
を指す。このように生成規則を変化させることにより、
多様な検索種別での検索を過検索が少なくて高速で実行
でき、かつ任意に漢字とかなが混じりあったような検索
キーワードでの検索も可能になる。
【0016】具体的には、例えば、検索キーワードがか
な文字のみからなりかつ検索種別が一致検索である場合
には、文字長が2である連語を検索キーワードから順次
抽出し、それ以外の場合には、文字長が1である連語を
検索キーワードから順次抽出する。一致検索の際に検索
キーワードがかな文字のみで構成されている場合に連語
長を2文字とすることにより、過検出が抑止され、ま
た、その他の場合に連語長を1文字とすることにより、
曖昧検索などを的確に行うことが可能になる。
【0017】さらに、任意に漢字とかな文字が混ってい
るような検索キーワードに対応するため、ファイル中の
各項目には、それぞれ、当該項目の読みに対応するかな
文字列が付加するようにすることが望ましい。上述のよ
うに、漢字かな混じりの検索キーワードに対しては連語
の文字長を短く、例えば1とすることによって、任意に
漢字かな混じりとなっている検索キーワードに対しても
有効に文字列検索を行うことが可能になる。
【0018】本発明の文字列検索装置は、入力した検索
キーワードと指定された検索種別に基づいてファイル中
から検索キーワードに対応する項目を探索する文字列検
索装置において、検索キーワードと検索種別と検索種別
に応じてしきい値を入力する入力手段と、検索キーワー
ドを構成する文字の字種と検索種別とに応じて検索キー
ワードから一群の連語を抽出し、ファイル中の各項目の
文字列と一群の連語とを比較して当該文字列に対する一
致度を算出する処理手段とを有し、一致度が検索種別に
応じたしきい値以上である項目を検索された項目とする
ことを特徴とする。
【0019】
【発明の実施の形態】次に、本発明の望ましい実施の形
態について、図面を参照して説明する。図1は、本発明
の実施の一形態の情報検索システムを説明するブロック
図である。
【0020】この情報検索システムは、辞書や事典類を
内容とするCD−ROM20と、利用者の入力した検索
キーワードに応じてCD−ROM20を検索し検索結果
を表示する処理装置10とによって構成されている。後
述するように、CD−ROM20の検索に際しては、イ
ンデックスデータファイル30中の項目に対して本発明
の方法によって文字列検索が行われており、処理装置1
0は、本発明の文字列検索装置としても機能する。
【0021】処理装置10には、CD−ROM20を装
着して必要なデータを読み出すためのCD−ROMドラ
イブ11と、CPUなどで構成され検索処理やCD−R
OMドライブ11の動作の制御などを行うための処理部
12と、検索処理に必要なファイルを一時的に格納する
ためのファイル格納用メモリ13と、タッチパネルやキ
ーボードなどからなり利用者からの検索要求、検索キー
ワード、検索種別、しきい値などが入力する入力部14
と、液晶パネルなどからなり検索結果を利用者に対して
表示するための表示部15とが設けられている。処理部
12には、CD−ROM20中あるいはファイル格納用
メモリ13内のファイルに対して連語による検索を行う
検索部16と、入力した検索キーワードから検索条件に
応じて連語を生成する連語生成部17と、一致度を算出
してしきい値と比較する比較部18が設けられている。
また、表示部15は、外部のテレビジョン受像機に対
し、検索結果をテレビジョン画像として表示するための
映像信号を出力するものであってもよい。
【0022】CD−ROM20の記憶領域の構成が図2
に示されている。ここでは、CD−ROM20がCD−
ROM版の辞書である例が示されているが、別に辞書に
限定される必要はなく、百科事典類、写真集、旅行ガイ
ドブック、各種ハンドブック・規格書、論文集、特許公
報類など、検索を行って所望のデータにアクセスするこ
とを目的とするものであれば、どのようなものであって
もよい。
【0023】CD−ROM20の格納領域は、検索処理
プログラムが格納される処理プログラム格納部21と、
インデックスファイル類が格納されるインデックスファ
イル格納部22と、辞書の説明文(物件)が格納される
辞書データ本体格納部23とに分けられている。本実施
の形態では、処理装置10の処理部12で走らせるため
の検索処理プログラム自体を検索対象のCD−ROM2
0内に格納し、CD−ROM20がCD−ROMドライ
ブ11に装着された時点で、検索処理プログラムが処理
装置10の処理部12に読み込まれるようにしている。
【0024】本実施の形態では、図3に示すように、イ
ンデックスファイルとしてインデックスデータファイル
30を使用するとともに、検索の高速化のために、検索
用指示ファイル31と検索用倒置ファイル32を使用し
ている。検索用指示ファイル31と検索用倒置ファイル
32は、インデックスデータファイル30から学習工程
を経て生成されるファイルである。これらインデックス
データファイル30、検索用指示ファイル31及び検索
用倒置ファイル32はいずれもインデックスファイル格
納部22内に格納され、このうち、検索用指示ファイル
31は検索時には処理装置10のファイル格納用メモリ
13内に読み込まれるようになっている。また、説明文
ごとに連続番号でインデックス番号が付与されており、
索引語からインデックス番号を知ることによって、CD
−ROM20中での対応する説明文の格納場所に対して
即座にアクセスすることができるようになっている。以
下、各ファイル30〜32について説明する。
【0025】インデックスデータファイル30は、図4
に示すように、CD−ROM20内の説明文(物件)に
アクセスするため基本となるファイルであって、説明文
ごとに、その説明文に対するインデックス番号と索引語
(見出し語)とCD−ROM20内での格納位置とを記
述したものである。説明文は索引語の読みの五十音順で
配置されており、各説明文に対して0から始まる連続番
号であるインデックス番号が、重複しないように付与さ
れている。各索引語は「読み」と「実体」とに分かれて
おり、「読み」にはその索引語の読みが格納され、「実
体」にはその索引語の実際の表記(漢字やアルファベッ
ト)が格納されている。なお、この実施の形態ではひら
がなとかたかなの区別、清音と濁音、半濁音の区別は行
っておらず、また、ひらがなのみで表記される索引語に
ついては、「実体」には何も格納していない。
【0026】検索用倒置ファイル32は、いわゆる倒置
(インバーテッド)ファイルとして構成されており、曖
昧検索などを実現するために、索引語(キーワード)を
1文字あるいは2文字の連語(例えば、「あ」,「い」,「あ
あ」,「山」)に分解し、連語をキーとしてその連語を含む
項目のインデックス番号が参照できるように構成されて
いる。連語とは本来は2文字以上の文字列集団を指す
が、本明細書においては、1文字のものも連語と呼ぶこ
とにする。索引語を連語に分解しているので、1索引語
に1つの説明文しか対応しない場合(国語辞書などの場
合)であっても1つの連語には複数のインデックス番号
が対応し、したがって、連語ごとにレコードを構成する
とすれば、検索用倒置ファイル32は可変長レコードの
ファイルであるといえる。以下、検索用倒置ファイルに
おける連語ごとのインデックス番号の並びを連語のレコ
ードと呼ぶ。なお、検索用指示ファイル31が設けられ
ているので、検索用倒置ファイル32には、連語そのも
のを格納しておく必要はない。一方、検索用指示ファイ
ル31は、連語をキーとして、検索用倒置ファイルにお
いてその連語のレコードがどこにあるかを指示するファ
イルである。したがって、連語をごとにレコードを構成
するとするすれば、検索用指示ファイルは固定長のファ
イルであるといえる。後述するように、実際に検索を行
う場合には、それに先立って検索用指示ファイル31が
CD−ROM20から処理装置10側に読み出される。
【0027】次に、インデックスデータファイル30か
ら検索用指示ファイル31及び検索用倒置ファイル32
を生成する学習工程について、図5を用いて説明する。
まず、各索引語から1文字の連語としての構成文字を抽
出する。「読み」の部分については、2文字の連語(構
成文字列)も抽出する。例えば、見出し語「(読み)あ
そさん、(実体)阿蘇山」からは、「あ」,「そ」,「さ」,
「ん」,「あそ」,「そさ」,「さん」,「阿」,「蘇」,「山」が抽出され
る。そして、これら各構成文字がどのインデックス番号
の見出し語に含まれているかを求め、そのインデックス
番号を保存する。つまり、構成文字(列)をキーとしイ
ンデックス番号を並びとするインバーテッドファイルを
生成する。そして、ページング処理を実行し、インデッ
クス番号の代りにページング後のインデックス番号が記
録されるようにする。ページングとは、検索速度の向上
を目的として、一連のインデックス番号を複数のページ
に分けることである。例えば、インデックス番号を65
536(=216)で除算したとして、商をページの番
号、余りをページングのインデックス番号とする。この
ようにページングを定義すると、ページングの結果、イ
ンデックス番号23210は第0ページの23210
と、65537は第1ページの1と表わされることにな
る。
【0028】なお、インデックス番号は索引語の読みの
五十音順で付与されているから、索引語の読みの先頭文
字が指定されれば、対応するインデックス番号の値の取
り得る範囲やどのページに属しているかを知ることがで
きる。本実施の形態では、そのことを利用して、完全一
致検索と先頭一致検索の高速化を図っている。場合によ
っては、1ページに含まれるインデックス番号の数を可
変にしてページ境界と先頭文字の境目が一致するように
してもよく、そうすることにより、先頭文字が指定され
れば検索すべきページが1つに定まることになる。ま
た、補助ファイルとして先頭文字位置ファイルを設け、
「読み」の部分に関して先頭文字ごとにその先頭文字が
始まるインデックス番号を格納するようにしてもよい。
これにより、例えば、「読み」において先頭文字が
「う」であるものは、インデックス番号が2369から
3955の範囲にあるものと即座に分かり、検索対象を
絞り込むのに役立つ。
【0029】図6は検索用指示ファイル31の構成例を
示している。ここでは、各構成文字の各ページごとに、
その構成文字が出現した索引語の数(該当するインデッ
クス番号の数)が格納されている。検索用指示ファイル
31での構成文字の順は検索用倒置ファイル32での構
成文字の順と同じとなっており、検索用指示ファイル3
1において注目する構成文字の直前の構成文字までに出
現回数として格納された数の総和を求めれば、その総和
は、検索用倒置ファイル32でのその注目する構成文字
に対するポインタとして扱うことができる。あるいは、
検索用指示ファイル31には、各構成文字の各ページご
とに、検索用倒置ファイル32における当該構成文字の
当該ページの先頭のアドレスを直接記録するようにして
もよく、このように構成すれば、検索用指示ファイル3
1での値を検索用倒置ファイル32のレコードに対する
ポインタとしてそのまま使用することが可能になる。
【0030】図7は検索用倒置ファイル32の構成例を
示している。この検索用倒置ファイル32では、各構成
文字の各ページを単位としてレコードが構成され、各レ
コードは、可変長であって、該当する構成文字の該当す
るページに出現するインデックス番号を並びとして格納
している。各レコードには、構成文字やページを表わす
データは格納されていない。インデックス番号自体は、
所定の整数型データとして表わされている。検索用指示
ファイル31に格納されているデータが図6に示すよう
であれば、各レコードの要素数(格納されているインデ
ックス番号の数)は、図7において要素数として表わさ
れた数となる。
【0031】次に、情報検索処理について説明する。ま
ず、情報検索の処理手順の概要について、図8及び図9
を用いて説明する。
【0032】CD−ROM20が処理装置10に装着さ
れると、まず、検索処理プログラムがCD−ROM20
から読み出されて処理装置10の処理部12にロードさ
れ、この検索処理プログラムの実行が開始する(ステッ
プ101)。続いて、CD−ROM20から検索用指示
ファイル31が読み出され、処理装置10のファイル格
納用メモリ13に格納される(ステップ102)。
【0033】利用者が検索キーワードを入力すると(ス
テップ103)、入力した検索キーワードに応じてファ
イル格納用メモリ13内の検索用指示ファイル31が検
索され、その検索結果によってCD−ROM20内の検
索用倒置ファイル32が検索される(ステップ10
4)。すなわち、図9に示すように、検索キーワードが
連語に分解され、連語によって検索用指示ファイル31
が検索され、検索用倒置ファイル32における検索すべ
きレコードの位置が求められる。そして、該当する連語
のレコードが検索用倒置ファイル32から検索されて処
理装置10側に読み込まれる。読み込まれた連語のレコ
ードの数に対するあるインデックス番号が出現するレコ
ードの数の割合すなわち一致度を求め、一致検索であれ
ばこの一致度が100%であり、曖昧検索であればこの
一致度が所定のしきい値を上回っているときに、そのイ
ンデックス番号に基づいて説明文を読み込むようにす
る。そして、上述のように読み込まれた説明文すなわち
検索結果の説明文を表示部15に表示し、利用者に対し
て次の検索を行うかどうかを問い合わせる(ステップ1
05)。次の検索を行う場合にはステップ103に戻っ
て次の検索キーワードの入力を受け付け、次の検索を行
わない場合にはそのまま処理を終了する。
【0034】この実施の形態では、データ量の大きなイ
ンデックスデータファイル30や検索用倒置ファイル3
2をCD−ROM20内に残しておき、データ量が小さ
くかつ検索用倒置ファイル32に対するポインタとして
使用される検索用指示ファイル31を処理装置10内の
ファイル格納用メモリ13にロードし、検索キーワード
に基づく検索をまず検索用指示ファイル31に対して実
行することにより、十分なメモリを備えていないような
場合であっても、高速で検索を行うことが可能になる。
すなわち、最終的には検索用倒置ファイル32からの処
理装置10へのデータの読み込みが必要になるが、検索
用指示ファイル31を用いて対象となる連語のレコード
を絞っているので、検索用倒置ファイル32から読み込
まれるレコードの数を必要最小限にし、CD−ROM2
0からの読み込みに要する時間を縮減することが可能に
なっている。検索用指示ファイル31はファイル格納用
メモリ13に常駐させておくことが可能なので、繰り返
して検索を行う場合に大幅に検索時間を減らすことが可
能である。
【0035】以下、上述のステップ103及び104す
なわち文字列検索処理を含む情報検索処理の詳細につい
て、図10及び図11を用いて説明する。
【0036】利用者によって検索種別(完全一致検索、
部分一致検索、先頭一致検索、後方一致検索あるいは曖
昧検索の別)と検索キーワードが入力されると(ステッ
プ111)、まず、曖昧検索かそうでないかの判断がな
される(ステップ112)。曖昧検索の場合には、利用
者から一致度に対するしきい値xの入力を受け(ステッ
プ113)、入力された検索キーワードから、漢字1文
字で構成された連語とひらがな1文字で構成された連語
を順次抽出する(ステップ114)。本実施の態様で
は、上述したように、1文字あるいは2文字からなる連
語に検索キーワードを分解し、分解して得た連語に基づ
いて検索を行う。例えば検索キーワード「あそ山」から
は「あ」,「そ」,「山」が連語として抽出される。なお、同一
の連語が重複しては抽出されないようにする。そして、
抽出された連語により、ファイル格納用メモリ13に既
に格納されている検索用指示ファイル31を検索する
(ステップ115)。検索キーワード「あそ山」の例で
いえば、検索用指示ファイル31での構成文字「あ」,
「そ」,「山」の内容がそれぞれ読み出され、「あ」,「そ」,
「山」に関する検索用倒置ファイル32へのポインタがそ
れぞれ算出される。そして、ステップ125に移行す
る。
【0037】一方、ステップ112で曖昧検索でない場
合、すなわち一致検索の場合には、しきい値xを自動的
に100%に設定し(ステップ116)、入力された検
索キーワードが全てかな文字からなるあるいは全て漢字
からなるかどうかを判定する(ステップ117)。全て
かな文字あるいは全て漢字ではない場合(典型的にはか
なと漢字が混在する場合)には、上述のステップ114
とステップ125を順次実行してステップ125に移行
し、全てかな文字あるいは全て漢字の場合には、検索キ
ーワードが全てかなであるかを判定する(ステップ11
8)。ステップ118で全てかなの場合には、検索キー
ワードから、ひらがな2文字で構成された連語を順次抽
出する(ステップ119)。例えば、検索キーワードが
「あそさん」であれば、連語として「あそ」,「そさ」,「さ
ん」が抽出される。一方、ステップ118で全てかなで
ない場合、すなわち全て漢字の場合には、検索キーワー
ドから、漢字1文字で構成された連語を順次抽出する
(ステップ120)。例えば、検索キーワード「阿蘇
山」からは連語として「阿」,「蘇」,「山」が抽出される。そ
して、ステップ119を実行した場合もステップ120
を実行した場合も、このようにして抽出された連語によ
り、上述と同様に、ファイル格納用メモリ13に既に格
納されている検索用指示ファイル31を検索する(ステ
ップ121)。
【0038】ところで、後述するように検索実行文字に
基づいて最終的にはCD−ROM20内の検索用倒置フ
ァイル32が検索されることになっており、その際、連
語が多数あると、それだけCD−ROM20へのアクセ
ス回数が増えることになる。そこで、ステップ121の
実行後、連語がN個以上見つかったかどうかを判断し、
連語がN個以上であれば、出現回数が多い方の連語から
削って連語の数をN−1にする(ステップ122)。連
語の出現回数は検索用指示ファイル31に記述されてい
る。Nは例えば7に設定する。ここで出現回数の多い方
から削るのは、出現回数の多い連語は多くの見出し語に
含まれていて、入力された検索キーワードを特定するの
に余り役立たないと考えられるからである。ステップ1
22の実行後、検索種別が完全一致検索あるいは先頭
一致検索であって、かつ、先頭文字がかなである、が
満たされているかどうかを判断する(ステップ12
3)。満たされていない場合にはそのままステップ12
5に移行し、満たされている場合には、上述のように構
成文字の先頭文字が特定のページに対応していることか
ら、検索キーワードの先頭のかな文字に基づいて、検索
すべき対象のページを決定し(ステップ124)、その
後、ステップ126に移行する。
【0039】ステップ125では、検索種別が曖昧検索
であるかを判定し、曖昧検索であればそのままステップ
126に移行し、曖昧検索でない場合にはステップ12
3に移行する。
【0040】ステップ126では、ステップ115ある
いはステップ121での検索用指示ファイル31の検索
結果に応じ、CD−ROM20内の検索用倒置ファイル
32から未処理の1ページ分のレコードを読み込む。検
索キーワード「あそ山」の例では、「あ」,「そ」,「山」のそ
れぞれについてのレコードが読み出される。後述するよ
うに、ステップ124で対象ページが設定されている場
合を除いてステップ125は繰り返して実行されるが、
例えばまず、第0ページに属するレコードが読み出さ
れ、次にステップ125が実行されるときに第1ページ
に属するレコードが読み出される。また、ステップ12
4で対象ページが設定されている場合には、その対象ペ
ージに属するレコードが読み出される。上述したように
ステップ115あるいはステップ121では、各連語ご
とに検索用倒置ファイル32でのその連語のレコードへ
のポインタ(格納位置に関する情報)が求められている
から、このポインタを用いて検索用倒置ファイル32に
アクセスし、その連語のレコードを読み出せばよい。す
なわち、検索用倒置ファイル32の全体を走査する必要
はなく、検索用倒置ファイル32の必要な場所に直接ア
クセスすることが可能になっている。
【0041】そして、検索キーワードから生成した一群
の連語に対する各インデックス番号の一致度を求める
(ステップ127)。図12は一致度の集計を説明する
図である。すなわち、検索用倒置ファイル32から読み
出されたレコードについて、各インデックス番号ごとに
出現回数をカウントする。図15において○印はそのレ
コードにおいてそのインデックス番号が記録されていた
ことを示している。この例では、検索キーワード「あそ
山」から抽出された各連語「あ」,「そ」,「山」のレコードに
ついて、それぞれどのインデックス番号が出現したかが
示されており、例えば連語「あ」のレコードには、インデ
ックス番号0,3,8,9,13,15が記録されているこ
とが示されている。そして、連語の数(この例では3)
で出現回数を除算することにより、各インデックス文字
ごとに一致度が求められている。この例では、連語の各
レコードに共通にインデックス番号13が含まれ(出現
回数が3)、インデックス番号13に対する一致度が1
00%であることが示されている。
【0042】一致度の集計が終了したら、検索種別が
完全一致か先頭一致検索であり、かつ、検索文字列の
先頭がかなである、という条件を満足するかどうかを判
定する(ステップ128)。この条件を満足しない場合
にはそのままステップ130に移行し、満足する場合に
は、検索キーワードの先頭文字に応じて評価対象となる
インデックス番号の範囲を求め(ステップ129)、以
後の処理ではその範囲内のインデックス番号のみを対象
とするようにして、ステップ130に移行する。このよ
うに先頭文字に応じてインデックス番号の範囲を絞るの
は、インデックス番号の一致度のみに着目すると検索キ
ーワード「あそ山」に対して見出し語「山あそ」もヒッ
トすることになるので、このような検索ノイズの発生を
防ぎ、CD−ROM20への不要なアクセスを減らすた
めである。先頭文字「あ」で範囲を限定すれば、検索キ
ーワード「あそ山」に対し、「あ山そ」はヒットする
が、「山あそ」などのヒットは防ぐことができる。
【0043】ステップ130では、一致度がしきい値x
以上となっているインデックス番号を求める。一致検索
に対してはステップ116でx=100%としているの
で、一致度が100%のインデックス番号のみが求めら
れる。一方、曖昧検索の場合には、ステップ113で入
力したしきい値xに応じてインデックス番号が求められ
る。そして、求められたインデックス番号に基づいてC
D−ROM20内のインデックスデータファイル30を
参照し、それらのインデックス番号に対応する見出し語
を求める(ステップ131)。その際、それらのインデ
ックス番号に対応する説明文の辞書データ本体格納部2
3での格納位置も求めておく。
【0044】続いて、検索種別が曖昧検索であるかどう
かを判断し(ステップ132)、曖昧検索であればその
ままステップ134に移行し、曖昧検索でない場合すな
わち一致検索である場合には、求められた見出し語が検
索条件と合致しているかを判定する(ステップ13
3)。ステップ133において検索条件と合致している
場合にはステップ134に移行し、検索条件に合致して
いない場合にはステップ135に移行する。ここで検索
条件と合致しているかを判断するのは、本実施の形態の
手順によれば、検索キーワード「あそ山」に対して「あ
そ山」と「あ山そ」の両方が見出し語として検出される
ので、ノイズである「あ山そ」を排除するためである。
なお、曖昧検索の場合には、利用者の意図する検索対象
に「あ山そ」も含まれている可能性があるので、検索条
件に合致しているかどうかのステップ133でのチェッ
クは行わない。
【0045】曖昧検索である場合とステップ133で検
索条件に合致している場合にはステップ134に移行す
るが、ステップ134では、該当するインデックス番号
に対応する説明文をCD−ROM20の辞書データ本体
格納部23から読み出し、検索された見出し語と対応す
る説明文とを表示部15に表示し、ステップ135に移
行する。辞書データ本体格納部23にアクセスする場合
には、ステップ131においてインデックスデータファ
イル30にアクセスした際に既に求めてある格納位置の
情報を使用する。
【0046】ステップ135では、全ページの処理が終
了したかどうかを判断し、未処理のページが残っている
のであればステップ126に戻り、全ページの処理が終
了しているのであれば、入力された検索キーワードに対
する情報検索処理を終了する。ステップ124で対象ペ
ージが定められている場合には、未処理のページが存在
しないので、そのまま処理を終了する。
【0047】
【発明の効果】以上説明したように本発明は、検索キー
ワードの文字種と検索種別とに応じて異なる生成規則に
よる連語を検索キーワードから抽出しようとするもので
ある。このように生成規則を変化させることにより、多
様な検索種別での検索を過検索が少なくて高速で実行で
き、かつ任意に漢字とかなが混じりあったような検索キ
ーワードでの検索も可能になるという効果がある。
【0048】例えば、一致検索の際に検索キーワードが
かな文字のみで構成されている場合に連語長を2文字と
することにより、かな文字のみの一致検索での過検出が
抑止され、また、その他の場合に連語長を1文字とする
ことにより、曖昧検索などを的確に行うことが可能にな
る。
【0049】ファイル中の各項目には、それぞれ、当該
項目の読みに対応するかな文字列が付加するようにする
ことにより、漢字かな混じりの検索キーワードに対して
も有効に文字列検索を行うことが可能になる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の情報検索システムを説
明するブロック図である。
【図2】CD−ROM内でのデータの配置を示す図であ
る。
【図3】情報検索処理に使用される各種ファイル間の関
係を示す図である。
【図4】インデックスデータファイルの内容の一例を示
す図である。
【図5】インデックスデータファイルから各種ファイル
を生成するための学習過程を示す図である。
【図6】検索用指示ファイルの内容の一例を示す図であ
る。
【図7】検索用倒置ファイルの内容の一例を示す図であ
る。
【図8】図1の情報検索システムにおける情報検索処理
の概要を示すフローチャートである。
【図9】図1の情報検索システムにおける情報検索処理
時のデータの流れの概略を示す図である。
【図10】情報検索処理の具体的処理手順を示すフロー
チャートである。
【図11】情報検索処理の具体的処理手順を示すフロー
チャートである。
【図12】一致度の集計を説明する図である。
【図13】従来の文字列検索方法の処理手順の一例を示
すフローチャートである。
【符号の説明】
10 処理装置 11 CD−ROMドライブ 12 処理部 13 ファイル格納用メモリ 14 入力部 15 表示部 16 検索部 17 連語生成部 18 比較部 20 CD−ROM 21 処理プログラム格納部 22 インデックスファイル格納部 23 辞書データ本体格納部 30 インデックスデータファイル 31 検索用指示ファイル 32 検索用倒置ファイル 101〜105,111〜135 ステップ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力した検索キーワードと指定された検
    索種別に基づいてファイル中から前記検索キーワードに
    対応する項目を探索する文字列検索方法において、 前記検索キーワードを構成する文字の字種と前記検索種
    別とに応じて前記検索キーワードから一群の連語を抽出
    し、 前記ファイル中の各項目の文字列と前記一群の連語とを
    比較して当該文字列に対する一致度を算出し、 前記一致度がしきい値以上である項目を検索された項目
    とすることを特徴とする文字列検索方法。
  2. 【請求項2】 前記検索キーワードがかな文字のみから
    なりかつ検索種別が一致検索である場合には、文字長が
    2である連語を前記検索キーワードから順次抽出し、そ
    れ以外の場合には、文字長が1である連語を前記検索キ
    ーワードから順次抽出する請求項1に記載の文字列検索
    方法。
  3. 【請求項3】 前記ファイル中の各項目には、それぞ
    れ、当該項目の読みに対応するかな文字列が付加されて
    いる請求項1または2に記載の文字列検索方法。
  4. 【請求項4】 入力した検索キーワードと指定された検
    索種別に基づいてファイル中から前記検索キーワードに
    対応する項目を探索する文字列検索装置において、 前記検索キーワードと前記検索種別とと前記検索種別に
    応じてしきい値を入力する入力手段と、 前記検索キーワードを構成する文字の字種と前記検索種
    別とに応じて前記検索キーワードから一群の連語を抽出
    し、前記ファイル中の各項目の文字列と前記一群の連語
    とを比較して当該文字列に対する一致度を算出する処理
    手段とを有し、 前記一致度が前記検索種別に応じたしきい値以上である
    項目を検索された項目とすることを特徴とする文字列検
    索装置。
JP24732795A 1995-09-26 1995-09-26 文字列検索方法及び装置 Expired - Fee Related JP3665112B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24732795A JP3665112B2 (ja) 1995-09-26 1995-09-26 文字列検索方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24732795A JP3665112B2 (ja) 1995-09-26 1995-09-26 文字列検索方法及び装置

Publications (2)

Publication Number Publication Date
JPH0991297A true JPH0991297A (ja) 1997-04-04
JP3665112B2 JP3665112B2 (ja) 2005-06-29

Family

ID=17161757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24732795A Expired - Fee Related JP3665112B2 (ja) 1995-09-26 1995-09-26 文字列検索方法及び装置

Country Status (1)

Country Link
JP (1) JP3665112B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006221245A (ja) * 2005-02-08 2006-08-24 Xanavi Informatics Corp 車載情報端末
WO2008090606A1 (ja) * 2007-01-24 2008-07-31 Fujitsu Limited 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2315134A4 (en) 2008-10-14 2012-12-26 Mitsubishi Electric Corp SEARCHING DEVICE, RESEARCH INDEX CREATING DEVICE, AND SEARCHING SYSTEM
US20110320464A1 (en) 2009-04-06 2011-12-29 Mitsubishi Electric Corporation Retrieval device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03134773A (ja) * 1989-10-20 1991-06-07 Nippon Telegr & Teleph Corp <Ntt> 日本語辞書データ管理方式
JPH05174064A (ja) * 1991-12-25 1993-07-13 Hitachi Ltd 文書検索方法及び装置
JPH0756945A (ja) * 1993-08-18 1995-03-03 Toppan Printing Co Ltd 全文データベースシステム
JPH0756943A (ja) * 1993-08-18 1995-03-03 Toppan Printing Co Ltd 全文データベースシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03134773A (ja) * 1989-10-20 1991-06-07 Nippon Telegr & Teleph Corp <Ntt> 日本語辞書データ管理方式
JPH05174064A (ja) * 1991-12-25 1993-07-13 Hitachi Ltd 文書検索方法及び装置
JPH0756945A (ja) * 1993-08-18 1995-03-03 Toppan Printing Co Ltd 全文データベースシステム
JPH0756943A (ja) * 1993-08-18 1995-03-03 Toppan Printing Co Ltd 全文データベースシステム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006221245A (ja) * 2005-02-08 2006-08-24 Xanavi Informatics Corp 車載情報端末
JP4651402B2 (ja) * 2005-02-08 2011-03-16 クラリオン株式会社 車載情報端末
WO2008090606A1 (ja) * 2007-01-24 2008-07-31 Fujitsu Limited 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
JPWO2008090606A1 (ja) * 2007-01-24 2010-05-13 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
JP5141560B2 (ja) * 2007-01-24 2013-02-13 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
US9087118B2 (en) 2007-01-24 2015-07-21 Fujitsu Limited Information search apparatus, and information search method, and computer product

Also Published As

Publication number Publication date
JP3665112B2 (ja) 2005-06-29

Similar Documents

Publication Publication Date Title
US6876998B2 (en) Method for cross-linguistic document retrieval
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US6654717B2 (en) Multi-language document search and retrieval system
JP3270783B2 (ja) 複数の文書検索方法
JP3636941B2 (ja) 情報検索方法と情報検索装置
JP2742115B2 (ja) 類似文書検索装置
JPH0525138B2 (ja)
JPH04274557A (ja) フルテキストサーチ方法
JPH0944523A (ja) 関連語提示装置
JPH0991297A (ja) 文字列検索方法及び装置
US5682543A (en) Dictionary editing apparatus
JP3848014B2 (ja) 文書検索方法および文書検索装置
JP2000207404A (ja) 文書検索方法及び装置並びに記録媒体
JP3720882B2 (ja) 情報検索方法、情報検索システム及び情報検索装置
EP1076305A1 (en) A phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element
JPH06325091A (ja) 類似度評価型データベース検索装置
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JP3578618B2 (ja) 文書分割装置
JP3187671B2 (ja) 電子辞書表示装置
JPH1185765A (ja) タグ付文書検索システム
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JP3109187B2 (ja) 形態素解析方式
JPH09212523A (ja) 全文検索方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041102

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041227

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050331

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090408

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090408

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100408

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110408

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120408

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees