JPH07210569A

JPH07210569A - 情報検索方法および情報検索装置

Info

Publication number: JPH07210569A
Application number: JP6018887A
Authority: JP
Inventors: Emi Horikawa; 恵美堀川; Yoshihiro Shintani; 義弘新谷
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1994-01-19
Filing date: 1994-01-19
Publication date: 1995-08-11

Abstract

(57)【要約】【構成】木構造のルートから黒塗り四角形までの各ノ
ードに対応する文字列が、被検索文書中で１箇所しかな
い文字列の組合せを示している。被検索文書に対して、
任意の文字列を検索する場合は、その検索要求文字列中
の最初の文字列が被検索文書中で１箇所しかない文字列
であるかを木構造をたどって判定し、そうであった場合
はそのノードに示す位置を出力し、そうでなかった場合
は、最初の文字列に隣接する文字との組合せが被検索文
書中で１箇所しかない組合せであるかを判定する。そし
て、この作業を、検索要求文字列の最初の文字列から終
端の文字まで行い、終端の文字までの文字列が被検索書
中で１箇所しかない組合せではなかった場合は、その文
字列を含む被検索文書中で１箇所しかない全ての文字の
組合せの位置を検索要求文字列の検索位置とする。【効果】フルテキストサーチで検索効率および検索速
度が向上する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、被検索文書から特定の
文字列を検索する情報検索方法および情報検索装置に関
する。

【０００２】

【従来の技術】ＣＤ−ＲＯＭ等の普及に伴い、昨今、大
量の文書が電子化されてきている。そこで、これらの文
書を効率良く的確に検索し、取り出すことが必要とな
り、次のような検索が行われている。即ち、データの最
初からシーケンシャルに、直接照合する部分を検索して
いく方法と、予め前処理したものから検索していく方法
と、大きく分けて二つの方法がある。尚、この場合の前
処理とは、検索するためのインデックスを生成すること
であり、このインデックスを通して格納場所を参照する
ものである。

【０００３】

【発明が解決しようとする課題】しかしながら、上記従
来のインデックスを生成するものでは、次のような問題
があった。即ち、インデックスを生成して情報検索を行
うものでは、元データ（一次情報）から、例えば、“著
者、題”といった属性からなるインデックス（二次情
報）を作成し、このインデックス化された二次情報に登
録されているものから、検索を行っている。従って、一
次情報をいかに二次情報に反映させるかで、検索効率や
検索の的確さが大きく変わってくる。そのため、ある文
字列を検索したい場合に、元データには記載されていて
も、インデックスに登録されていないがために、検索が
できないといった問題が発生していた。

【０００４】そこで、一次情報を元にした検索方法（フ
ルテキストサーチ、全文検索）、特に、任意の文字列で
の検索方法への期待が高まっている。しかしながら、従
来のフルテキストサーチでは、検索効率や検索速度とい
った点で満足できるものではなく、フルテキストサーチ
で検索効率や検索速度等を満足させることのできる情報
検索装置の実現が望まれていた。

【０００５】

【課題を解決するための手段】本発明の情報検索方法お
よび情報検索装置は、上記の課題を解決するため、予
め、被検索文書中に出現する互いに隣接する全ての文字
の組合せが被検索文書中のどこに位置するかを示すテー
ブルを設けておき、任意の文字列を被検索文書から検索
する場合は、テーブルを参照してその文字列の被検索文
書中の位置を取り出すものである。

【０００６】

【作用】本発明の情報検索方法および情報検索装置にお
いては、任意の文字列を被検索文書から検索する場合、
テーブルを参照し、その文字列が被検索文書中のどの位
置にあるかを抽出し、この位置を検索結果とする。

【０００７】

【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。本発明の情報検索方法は、被検索文書中に出
現する互いに隣接する文字の全ての組合せが被検索文書
中のどこに位置するかを示すテーブルを予め設けてい
る。例えば、被検索文書中、「文字」の出現する位置は
「ａ、ｂ、ｃ、ｄ、ｅ、…」、「文字列」の出現する位
置は「ａ、ｃ、ｅ、…」、「文字列を」の出現する位置
は「ｃ、ｅ、…」といったように、全ての文字の組合せ
の位置（文字列の先頭文字の位置）が予めテーブルとし
て用意されている。そして、被検索文書から任意の文字
列を検索する場合は、このテーブルを参照して文字列の
被検索文書中の位置を取り出すものである。

【０００８】ただ、上記のテーブルにおいて、被検索文
書中のどこに位置するかのデータは、互いに隣接する文
字の組合せの全てでなくてもよく、被検索文書中で１箇
所しかない位置のデータのみでもよい。即ち、上記のテ
ーブルを、被検索文書中に出現する互いに隣接する文字
の組合せが被検索文書中で１箇所しかない位置を示すよ
う構成する。

【０００９】図１はこのようなテーブルを用いた情報検
索方法の原理説明図である。図において、木構造のルー
トから黒塗り四角形までの文字列が、被検索文書中で１
箇所しかない文字列の組合せを示している。被検索文書
に対して、任意の文字列を検索する場合は、その検索要
求文字列中の最初の文字が被検索文書中で１箇所しかな
い文字であるかをテーブルに基づき判定し、そうであっ
た場合はテーブルに示す位置を出力し、そうでなかった
場合は、最初の文字に隣接する文字との組合せが被検索
文書中で１箇所しかない組合せであるかをテーブルに基
づき判定する。

【００１０】そして、この作業を、検索要求文字列にお
ける最初の文字から終端の文字まで行い、終端の文字ま
での文字列が被検索書中で１箇所しかない組合せではな
かった場合は、その文字列を含む被検索文書中で１箇所
しかない全ての文字の組合せの位置を検索要求文字列の
検索位置とするものである。尚、この場合、検索要求文
字列とは例えば「案」といったように１文字の場合も含
むものである。また、この図１に示す情報検索方法は後
述する実施例３で詳細に説明する。

【００１１】次に、本発明の情報検索方法を実施する情
報検索装置を説明する。図２は本発明の情報検索装置の
実施例を示すブロック図である。図の装置は、被検索文
書１、文字コードテーブル２、文字列コードテーブル
３、検索ベクタ４、検索処理部５からなる。被検索文書
１は、複数の文字で構成され、ＣＤ−ＲＯＭや磁気ディ
スク等に格納されている。また、これらの文字は、各々
の文字コードで管理されている。文字コードテーブル２
は、図示省略したメモリに設けられ、全ての文字コード
分のデータとして、例えば、３２Ｋバイトの領域が確保
されている。

【００１２】図３は、文字コードテーブル２の説明図で
ある。この文字コードテーブル２は、全ての文字コード
分からなる１次元配列となっている。文字コードテーブ
ル２における各々のフィールドには被検索文書１中の文
字コードに対応した内部番号が格納されている。この内
部番号は、被検索文書１において、使用頻度の多い順か
らつけられた番号であり、最も多く使用されているもの
から、１，２，…と番号が付与されている。また、被検
索文書１中で、一度も出現しなかった文字については、
「０」が入っている。例えば、被検索文書１中、ＪＩＳ
１６進コード「３０８０」の文字は、２８６番目に多く
使われ、「４Ｆ５３」の文字は、一度も出現しなかった
ことを示している。

【００１３】尚、被検索文書１中、使用頻度数が等しい
文字については、ＪＩＳコードの順で内部番号を付与し
ている。また、内部番号の決定方法としては、このよう
なＪＩＳコードに基づいて付与する方法に限定されるも
のではなく、文字の種類が識別できる記号等であっても
よい。

【００１４】文字列コードテーブル３は、文字コードテ
ーブル２同様、図示省略したメモリに設けられ、文字コ
ードテーブル２に基づき形成されたテーブルであり、被
検索文書１中で使用されている文字のみについて形成さ
れている。図４は、その文字列コードテーブル３の説明
図である。文字列コードテーブル３は、被検索文書１に
おいて、Ｎ種類の文字が使用されている場合、（Ｎ＋
１）×Ｎのテーブルで表される。そして、文字列コード
テーブル３の要素は、文字コードテーブル２で示された
二つの内部番号の組合せで参照される。

【００１５】この要素は、内部番号（例えば、ａとす
る）で表される文字について、「ａ＊」（＊は任意の文
字を示す）という２文字からなる被検索文書１中の頻度
順を示した番号（＝インデックス）が付与されている。
尚、この文字列コードテーブル３においても、頻度数が
等しかった場合は、ＪＩＳコードの順（即ち、文字コー
ドテーブル２の内部番号順）でインデックスを付与して
いる。また、その組合せが被検索文書１中で存在しなか
った場合は、「０」となっている。尚、後に来る文字の
内部番号（縦方向）において、最後のＮ＋１行の値は、
被検索文書１の終端コードを意味している。更に、この
文字列コードテーブル３は、図示のような２次元配列の
テーブルではなく、二つの値でアクセスできる構造であ
れば、どんなものであってもよい。

【００１６】検索ベクタ４は、各文字に対応して設けら
れており、被検索文書１中の、各文字に隣合う候補文字
を示すと共に、ある文字と候補文字との組合せが被検索
文書１中で１箇所のみであった場合は、ある文字の被検
索文書１中の位置を示し、一方、この組合せを含む他の
文字列が存在する場合は、当該組合せに隣合う次の候補
文字を示すものである。即ち、検索ベクタ４は、図２に
示すように、木構造の、あるノードにおける全ての子を
まとめて配列で表したものである。

【００１７】この木構造とは、被検索文書１中の文字列
の関係を表しており、ノードは文字列コードテーブル３
に示されたインデックスである。先ず、木構造のルート
は被検索文書１中で使用されている文字数個（Ｎ種類の
文字が使用されている場合はＮ個）ある。そして、ある
ノードから次のノードへの枝は被検索文書１中、その文
字の次に来る可能性のある文字の数だけある。また、図
２中、黒塗り四角形で示したのは、図１で説明したよう
に被検索文書１中の位置、即ち、ルートからその文字ま
での組合せが被検索文書１中で１箇所しか存在しない位
置が示されている。

【００１８】図５は、あるインデックスに対する検索ベ
クタ４の説明図である。検索ベクタ４は、現在の文字に
対する次の文字列パターンを示すもので、各々の文字に
対してはその大きさが異なっており、各文字毎には、文
字列コードテーブル３の対応する内部番号の列の要素の
最大値サイズに予め設定されている。即ち、図５の各イ
ンデックスは、図２における各ノードからの枝に相当し
ており、そのインデックスの値は次のようになってい
る。

【００１９】図６は、インデックスのデータフォーマッ
トを示す図である。検索ベクタ４におけるインデックス
のデータは、ルートからの経路によって異なり、ルート
からの内部番号の組合せが反映されるようになってい
る。インデックスのデータは、例えば３２ビットで構成
されており、（ａ）に示すように、全てのビットが
“０”である場合は、そのインデックスに該当する文字
列が存在しないことを示している。また、（ｂ）で示す
ように、上位１ビットが“０”であり、下位ビットに値
が存在する場合は、下位ビットが次の検索ベクタを示し
ている。更に、（ｃ）に示すように、上位１ビットが
“１”である場合は、下位ビットの値がファイル番号
と、そのファイル上での位置（ファイルの先頭からのオ
フセット値）を表している。尚、ファイル番号の占める
領域は可変で、全てのファイル番号が表せるビット数の
分だけ用意される。従って、位置を示す領域も可変であ
る。

【００２０】検索処理部５は、任意の文字列の検索を行
う場合は、その文字列の任意の１文字と、この１文字に
隣合う文字との組合せのインデックスを文字列コードテ
ーブル３から取り出して、検索ベクタ４におけるインデ
ックスの値を参照し、その検索ベクタ４におけるインデ
ックスの値が次検索ベクタを示していた場合は、文字列
における隣合う文字と、更に隣合う文字との組合せのイ
ンデックスを文字列コードテーブル３から取り出して、
この取り出したインデックスで次検索ベクタの値を参照
し、これをインデックスの値が被検索文書中の位置を示
すまで実行するものである。

【００２１】図７は、検索処理部５の動作のアルゴリズ
ムを示すフローチャートである先ず、長さ（文字数）Ｔ
のある検索要求文字列Ｓに対し、文字コードテーブル２
を参照して内部番号Ｓ(n) （０＜ｎ≦Ｔ）に変換する
（ステップＳ１、Ｓ２）。そして、Ｓ(n) に０があるか
否かを判定し（ステップＳ３）、０があればその文字列
は存在しないため、検索は終了する。

【００２２】ステップＳ３において、０がなかった場合
は、ｎ＝１とし、木構造のルートに相当する検索ベクタ
Ｖを取り出し、それより、Ｓ(n) に対する値を取り出す
（ステップＳ４）。次に、ｎ＞Ｔであるかを判定し（ス
テップＳ５）、ｎ＞Ｔであった場合は、任意の検索ベク
タＶ(i) の上位１ビットが１のものを探し、真のものに
ついてファイル番号とファイル上の位置を計算し（ステ
ップＳ６）、該当場所を取り出す（ステップＳ７）。

【００２３】そして、ｎ＞Ｔかを判定し（ステップＳ
８）、このステップＳ８において、ｎ≦Ｔの場合のみ、
取り出した文字列と検索要求文字列とを比較して（ステ
ップＳ９）、一致した場合は該当文字列ありとし、一致
しなかった場合は、該当文字列なしとして、検索を終了
する。また、ステップＳ８において、ｎ＞Ｔであった場
合は該当文字列ありとして検索を終了する。

【００２４】一方、ステップＳ５において、ｎ＞Ｔでな
かった場合は、文字列コードテーブル３より、列Ｓ(n)
Ｓ(n+1) と続く文字列のＳ(n+1) に対するＳ(n) のイン
デックスｉを取り出し（ステップＳ１０）、インデック
スｉの検索ベクタＶ(i) における全てのビットが０かを
判定する（ステップＳ１１）。ここで、検索ベクタＶ
(i) の値が０であれば、該当する文字列は存在しないた
め、検索は終了する。

【００２５】また、検索ベクタＶ(i) の値が０でなけれ
ば、検索ベクタＶ(i) の上位１ビットが１か否かを判定
し（ステップＳ１２）、上位１ビットが１であれば、そ
れより下位にファイル番号と文字位置が示されるため、
これを計算し（ステップＳ１３）、ステップＳ７に移行
する。更に、ステップＳ１２において、検索ベクタＶ
(i) の上位１ビットが０であった場合は、インデックス
ｉで検索ベクタＶより値を取り出し、この値を次の検索
ベクタＶとすると共に（ステップＳ１４）、ｎ＝ｎ＋１
とし（ステップＳ１５）、ステップＳ５に戻る。

【００２６】次に、具体的な例を用いて、実施例を詳細
に説明する。《実施例１》１．「案の名称」という文字列を検索処理部５が被検索
文書１から検索するとする。

【００２７】図８は、この場合の情報検索方法の原理説
明図である。文字「案」「の」「名」「称」のＪＩＳコ
ードは、それぞれ、３０４６(H) 、２４４Ｅ(H) 、４Ｃ
３Ｅ(H) 、３Ｅ４Ｅ(H) であるため、これらをインデッ
クスとして、文字コードテーブル２より内部番号を求め
ると、それぞれ９、５９、３、２となる。即ち、Ｓ(1)
＝９、Ｓ(2) ＝５９、Ｓ(3) ＝３、Ｓ(4) ＝２である。２．そして、文字列Ｓの内部番号は、Ｓ(n) ≠０（１≦ｎ≦４）であるため、被検索文書１中に「案」「の」「名」
「称」という各々の文字は存在する。

【００２８】３．次に、検索処理部５は、検索ベクタ４
より、木構造でルートに相当する検索ベクタを取り出
し、これをカレント検索ベクタとする（図８中、１０１
で示す）。そして、検索要求文字列の１文字目「案」に
対するインデックスを文字列コードテーブル３より求め
ると９であった。尚、ルートの検索ベクタの場合は、文
字コードテーブル２で求めたインデックスをそのままイ
ンデックスとして採用する。ルートの検索ベクタにおけ
るインデックス９の値は、上位１ビットの値が「０」、
下位ビットの値が「１１０」であったとすると、これは
次の検索ベクタを示している。従って、「１１０」で示
された検索ベクタを次の検索ベクタとする。

【００２９】４．検索要求文字列における「案の」の
「の」に対する「案」のインデックスを文字列コードテ
ーブル３より求める。そして、この時、インデックスが
１２であったとする（図中、１０２）。５．カレント検索ベクタ１１０のインデックス１２の値
を求める。この値が、上位１ビットが「０」で、下位ビ
ットの値が４１２であったとする。従って、検索を続行
し、４１２で示された検索ベクタが次のカレント検索ベ
クタとなる。６．上記４．と同様に、検索要求文字列「の名」の
「名」に対する「の」のインデックスを文字列コードテ
ーブル３より求める。この時、インデックスは３５であ
ったとし、カレント検索ベクタ４１２のインデックス３
５の値を求めると、上位１ビットが０、下位ビットの値
が２３５であったので、検索を続行し、次の検索ベクタ
を２３５とする（図中、１０３）。

【００３０】７．更に、「名称」について、上記と同様
に処理を行っていくと、カレント検索ベクタ２３５のイ
ンデックス７の上位１ビットが１であったので、検索ベ
クタ２３５のインデックス７の値は検索要求文字列の該
当場所が存在したことを示し、それより下位にファイル
番号とファイル上での位置が含まれている（図中、１０
４）。ここでは、上位１ビット目より下位３ビットが１
０１（１０進で５）、更にそれより下位２８ビットが１
１１０１（１０進で２９）であったので、検索要求文字
列「案の名称」の被検索文書１中の該当場所は、ファイ
ル番号５の先頭より２９番目であることが抽出される。

【００３１】上記実施例１は、検索要求文字列が被検索
文書１中に存在した例であるが、検索要求文字列が被検
索文書１中に存在しなかった例を次に実施例２として説
明する。

【００３２】《実施例２》１．「終り」という文字列を検索処理部５が被検索文書
１から検索するとする。文字「終」「り」のＪＩＳコー
ドは、それぞれ３Ｄ２Ａ(H) 、２４６Ａ(H) であるた
め、これらをインデックスとして、その内部番号を文字
コードテーブル２より求めると、それぞれ、１７、８と
なる。即ち、Ｓ(1) ＝１７、Ｓ(2) ＝８である。２．文字列Ｓの内部番号がＳ(n) ≠０（１≦ｎ≦２）であるため、被検索文書１中に「終」「り」という各々
の文字は存在する。

【００３３】３．次に、検索処理部５は、検索ベクタ４
より、木構造でルートに相当する検索ベクタを取り出
し、これをカレント検索ベクタとする。１文字目「終」
に対するインデックスを文字列コードテーブル３より求
めると、１７であった。カレント検索ベクタのインデッ
クス１７の値は２２２で、かつ、その上位１ビットが０
であったため、これは次の検索ベクタを指している。従
って、２２２で示された次の検索ベクタをカレント検索
ベクタとする。４．文字列「終り」の「り」に対する「終」のインデッ
クスを文字列コードテーブル３より求める。この時、イ
ンデックスが０であったとする。これは、「終り」とい
う組合せの文字列が被検索文書１中に無いことを示して
いる。従って、該当場所なしとして検索を終了する。

【００３４】ところで、上記実施例１は、図６のフロー
チャートにおいて、ステップＳ５でｎ＞Ｔとはならず、
ステップＳ１０〜Ｓ１５およびステップＳ１３の処理に
よって該当場所を取り出す場合である。即ち、この場合
は、被検索文書１中、検索要求文字列は１箇所しか存在
しないことになる。しかしながら、通常は被検索文書１
中、検索要求文字列が複数箇所に存在するのが多く、こ
のような場合は、木構造の複数の子の値が被検索文書１
中の位置となる。このような場合を図１を用い、実施例
３として次に説明する。

【００３５】《実施例３》１．「文書」という文字列を検索処理部５が被検索文書
１から検索するとする。文字「文」「書」のＪＩＳコー
ドは、それぞれ４Ａ３８(H) 、３Ｄ７１(H) であるた
め、これらをインデックスとして、その内部番号を文字
コードテーブル２より求めると、それぞれ、５、２８と
なる。即ち、Ｓ(1) ＝５、Ｓ(2) ＝２８である。２．文字列Ｓの内部番号がＳ(n) ≠０（１≦ｎ≦２）であるため、被検索文書１中に「文」「書」という文字
は存在する。

【００３６】３．次に、検索処理部５は、検索ベクタ４
より、木構造でルートに相当する検索ベクタを取り出
し、これをカレント検索ベクタとする（図中、２０
１）。１文字目「文」に対するインデックスは５である
ため、カレント検索ベクタのインデックス５の値を求め
る。この値が上位１ビット目が０で下位ビットの値が１
５５２であったとすると、この１５５２が次の検索ベク
タを示している。４．文字列「文書」の「書」に対する「文」のインデッ
クスを文字列コードテーブル３より求める。この時、イ
ンデックスが２１であったとする。５．カレント検索ベクタ１５５２のインデックス２１の
値を求める（図中、２０２９。この値が上位１ビット目
が０で下位ビットの値が１７８４であったとすると、こ
の１７８４が次の検索ベクタを示している

【００３７】６．ここで、検索要求文字列の文字はこれ
以上ないが、この時点では該当場所が確定できていな
い。このような場合は、１７８４で示された検索ベクタ
以降の全てが該当場所となる（図中、２０３）。従っ
て、このカレント検索ベクタ以降をたどり、それ以下の
全ての木構造の終端が該当場所として抽出される。即
ち、図中、検索ベクタ１７８４より下側の黒塗り四角の
位置がすべて該当場所である。尚、この実施例３が図６
のフローチャートにおいて、ステップＳ５でｎ＞Ｔの場
合であり、被検索文書１中、検索要求文字列が複数の場
所に存在する場合である。

【００３８】上記実施例３では、検索要求文字列が複数
の場所に存在し、かつ、取り出した該当場所の文字列
が、検索要求文字列と全て一致した場合である。しかし
ながら、該当場所の候補と、検索要求文字列とが一致し
ない場合があり、この例を実施例４して次に説明する。

【００３９】《実施例４》１．「構造の場合」という文字列を検索処理部５が被検
索文書１から検索するとする。文字「構」「造」「の」
「場」「合」のＪＩＳコードは、それぞれ、３９３Ｄ
(H) 、４２２４(H) 、２４４Ｅ(H) 、３Ｅ６Ｃ(H) 、３
９６７(H) であるため、これらをインデックスとして、
文字コードテーブル２より内部番号を求めると、それぞ
れ３４、３５、５９、７８、１５となる。即ち、Ｓ(1)
＝３５、Ｓ(2) ＝３５、Ｓ(3) ＝５９、Ｓ(4) ＝７８、
Ｓ(5) ＝１５である。２．そして、文字列Ｓの内部番号は、Ｓ(n) ≠０（１≦ｎ≦５）であるため、被検索文書１中に「構」「造」「の」
「場」「合」という各々の文字は存在する。

【００４０】３．次に、検索処理部５は、上記実施例
１、２、３と同様な手順で木構造をたどっていく。検索
要求文字列の１文字目「構」に対するインデックスを文
字列コードテーブル３より求めると３４であった。カレ
ント検索ベクタのインデックス３４の値が「８８６１」
であったとし、かつ、その最上位ビットが０であるとす
ると、これは次の検索ベクタを指している。従って、
「８８６１」で示された検索ベクタを次の検索ベクタと
する。

【００４１】４．次に、検索要求文字列「構造」の
「造」に対する「構」のインデックスを文字列コードテ
ーブル３より求める。この時、インデックスが３であっ
たとする。５．カレント検索ベクタ８８６１のインデックス３の値
を求める。この値が、上位１ビットが「０」で、下位ビ
ットの値が４３９であったとする。従って、検索を続行
し、４３９で示された検索ベクタを次のカレント検索ベ
クタとする。６．更に、検索要求文字列「造の」の「の」に対する
「造」のインデックスを文字列コードテーブル３より求
める。この時、インデックスは１であったとし、かつ、
カレント検索ベクタ４３９のインデックス１の値を求め
ると、最上位１ビットが１であるため、該当場所が確定
される。

【００４２】７．ここで、得られた該当場所より、検索
要求文字列と同じ長さの文字列を被検索文書１から取り
出し、これを検索要求文字列と比較する。すると、被検
索文書１から実際に取り出した文字列は「構造の終端」
となっており、検索要求文字列「構造の場合」とは異な
る文字列であったため、該当場所なしとして検索を終了
する。

【００４３】以上のように、上記各実施例では、隣合う
二つの文字の組合せで、文字列パターンがある程度絞ら
れることを利用し、検索時の分岐を少なくすることで、
検索速度を向上させることができる。また、検索要求文
字列は、単なる文字コードの組合せとしか捕らえられて
いないため、属性からなるインデックスのように意味を
持つ必要がなく、任意の文字列に対応することができ
る。更に、頻度順に、内部番号およびインデックスを決
定しているため、被検索文書中の出現頻度の高い文字列
への検索であっても速やかに検索を行うことができる。

【００４４】尚、上記各実施例では、内部番号を被検索
文書１中で出現する頻度順に基づいて決定したが、これ
に限定されるものではなく、例えば、被検索文書１での
先頭から出現順に内部番号を付与していくといったよう
に、被検索文書１中の文字と内部番号とが一意に対応し
ているものであれば、他の決定方法であってもよい。ま
た、上記各実施例では、検索要求文字列の先頭文字を特
定文字として、この文字をルートとしたが、これ以外に
も、検索要求文字列の最後尾の文字を特定文字とすると
いった構成であってもよい。

【００４５】

【発明の効果】以上説明したように、本発明の情報検索
方法および情報検索装置によれば、被検索文書中に出現
する互いに隣接する文字の全ての組合せが、被検索文書
中のどこに位置するかを示すテーブルを予め設け、任意
の文字列を検索する場合は、このテーブルを参照して該
当する文字列の被検索文書中の位置を取り出すようにし
たので、任意の文字列に対して対応することができ、か
つ、フルテキストサーチであっても検索効率および検索
速度を向上させることができる。

【図面の簡単な説明】

【図１】本発明の情報検索方法の原理説明図である。

【図２】本発明の情報検索装置の構成説明図である。

【図３】本発明の情報検索装置における文字コードテー
ブルの説明図である。

【図４】本発明の情報検索装置における文字列コードテ
ーブルの説明図である。

【図５】本発明の情報検索装置における検索ベクタの説
明図である。

【図６】本発明の情報検索装置の検索ベクタにおけるイ
ンデックスのデータフォーマットを示す図である。

【図７】本発明の情報検索装置における検索処理部の動
作のアルゴリズムを示すフローチャートである。

【図８】本発明の情報検索装置における実施例１の情報
検索方法の原理説明図である。

【符号の説明】

１被検索文書２文字コードテーブル３文字列コードテーブル４検索ベクタ５検索処理部

Claims

【特許請求の範囲】

【請求項１】被検索文書中に出現する互いに隣接する
文字の全ての組合せが前記被検索文書中のどこに位置す
るかを示すテーブルを予め設け、前記被検索文書に対して、任意の文字列を検索する場合
は、前記テーブルを参照して当該文字列の前記被検索文
書中の位置を取り出すことを特徴とする情報検索方法。
【請求項２】被検索文書中に出現する互いに隣接する
文字の組合せが当該被検索文書中で１箇所しかない場所
の位置を示すテーブルを予め設け、前記被検索文書に対して、任意の文字列を検索する場合
は、当該検索要求文字列中の最初の文字が前記被検索文
書中で１箇所しかない文字であるかを前記テーブルに基
づき判定し、そうであった場合は前記テーブルに示す位置を出力し、
そうでなかった場合は、前記最初の文字に隣接する文字
との組合せが前記被検索文書中で１箇所しかない組合せ
であるかを前記テーブルに基づき判定し、この作業を、前記検索要求文字列の最初の文字から終端
の文字まで行い、当該終端の文字までの文字列が前記被
検索書中で１箇所しかない組合せではなかった場合は、
当該文字列を含む前記被検索文書中で１箇所しかない組
合せの全ての位置を前記検索要求文字列の検索位置とす
ることを特徴とする情報検索方法。
【請求項３】被検索文書に出現する文字であるか否か
を示すと共に、前記被検索文書に出現する文字に対して
は、当該文字の文字コードに対応して付与した内部番号
を示す文字コードテーブルと、前記文字コードテーブルに示された各文字の内部番号に
基づき、前記被検索文書に出現する隣合う文字の組合せ
を識別するためのインデックスを格納する文字列コード
テーブルと、前記インデックスに対応した値を有し、当該インデック
スが前記被検索文書中で１箇所のみ存在する場合は、前
記被検索文書中の位置を示し、前記インデックスを含む
文字列が複数存在する場合は、次検索ベクタを指定する
検索ベクタと、任意の文字列の検索を行う場合は、当該検索要求文字列
の任意の１文字と、この１文字に隣合う文字との組合せ
のインデックスを前記文字列コードテーブルから取り出
して、前記検索ベクタにおけるインデックスの値を参照
し、当該検索ベクタにおけるインデックスの値が次検索
ベクタを示していた場合は、前記検索要求文字列におけ
る前記隣合う文字と、更に隣合う文字との組合せのイン
デックスを前記文字列コードテーブルから取り出して、
この取り出したインデックスで次検索ベクタの値を参照
し、これをインデックスの値が被検索文書中の位置を示
すまで実行する検索処理部とを備えたことを特徴とする
情報検索装置。
【請求項４】検索処理部は、検索ベクタにおけるイン
デックスの値が被検索文書中の位置を示していた場合、
前記被検索文書の当該位置より文字列を取り出し、この
取り出した文字列と前記検索要求文字列とを比較して、
一致した場合のみ当該検索要求文字列の該当場所として
確定するよう構成されていることを特徴とする請求項３
記載の情報検索装置。
【請求項５】内部番号とインデックスは、被検索文書
中の出現頻度に基づき決定されていることを特徴とする
請求項３または４記載の情報検索装置。