JPH07210569A - 情報検索方法および情報検索装置 - Google Patents

情報検索方法および情報検索装置

Info

Publication number
JPH07210569A
JPH07210569A JP6018887A JP1888794A JPH07210569A JP H07210569 A JPH07210569 A JP H07210569A JP 6018887 A JP6018887 A JP 6018887A JP 1888794 A JP1888794 A JP 1888794A JP H07210569 A JPH07210569 A JP H07210569A
Authority
JP
Japan
Prior art keywords
character
character string
search
index
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6018887A
Other languages
English (en)
Inventor
Emi Horikawa
恵美 堀川
Yoshihiro Shintani
義弘 新谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP6018887A priority Critical patent/JPH07210569A/ja
Publication of JPH07210569A publication Critical patent/JPH07210569A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【構成】 木構造のルートから黒塗り四角形までの各ノ
ードに対応する文字列が、被検索文書中で1箇所しかな
い文字列の組合せを示している。被検索文書に対して、
任意の文字列を検索する場合は、その検索要求文字列中
の最初の文字列が被検索文書中で1箇所しかない文字列
であるかを木構造をたどって判定し、そうであった場合
はそのノードに示す位置を出力し、そうでなかった場合
は、最初の文字列に隣接する文字との組合せが被検索文
書中で1箇所しかない組合せであるかを判定する。そし
て、この作業を、検索要求文字列の最初の文字列から終
端の文字まで行い、終端の文字までの文字列が被検索書
中で1箇所しかない組合せではなかった場合は、その文
字列を含む被検索文書中で1箇所しかない全ての文字の
組合せの位置を検索要求文字列の検索位置とする。 【効果】 フルテキストサーチで検索効率および検索速
度が向上する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、被検索文書から特定の
文字列を検索する情報検索方法および情報検索装置に関
する。
【0002】
【従来の技術】CD−ROM等の普及に伴い、昨今、大
量の文書が電子化されてきている。そこで、これらの文
書を効率良く的確に検索し、取り出すことが必要とな
り、次のような検索が行われている。即ち、データの最
初からシーケンシャルに、直接照合する部分を検索して
いく方法と、予め前処理したものから検索していく方法
と、大きく分けて二つの方法がある。尚、この場合の前
処理とは、検索するためのインデックスを生成すること
であり、このインデックスを通して格納場所を参照する
ものである。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来のインデックスを生成するものでは、次のような問題
があった。即ち、インデックスを生成して情報検索を行
うものでは、元データ(一次情報)から、例えば、“著
者、題”といった属性からなるインデックス(二次情
報)を作成し、このインデックス化された二次情報に登
録されているものから、検索を行っている。従って、一
次情報をいかに二次情報に反映させるかで、検索効率や
検索の的確さが大きく変わってくる。そのため、ある文
字列を検索したい場合に、元データには記載されていて
も、インデックスに登録されていないがために、検索が
できないといった問題が発生していた。
【0004】そこで、一次情報を元にした検索方法(フ
ルテキストサーチ、全文検索)、特に、任意の文字列で
の検索方法への期待が高まっている。しかしながら、従
来のフルテキストサーチでは、検索効率や検索速度とい
った点で満足できるものではなく、フルテキストサーチ
で検索効率や検索速度等を満足させることのできる情報
検索装置の実現が望まれていた。
【0005】
【課題を解決するための手段】本発明の情報検索方法お
よび情報検索装置は、上記の課題を解決するため、予
め、被検索文書中に出現する互いに隣接する全ての文字
の組合せが被検索文書中のどこに位置するかを示すテー
ブルを設けておき、任意の文字列を被検索文書から検索
する場合は、テーブルを参照してその文字列の被検索文
書中の位置を取り出すものである。
【0006】
【作用】本発明の情報検索方法および情報検索装置にお
いては、任意の文字列を被検索文書から検索する場合、
テーブルを参照し、その文字列が被検索文書中のどの位
置にあるかを抽出し、この位置を検索結果とする。
【0007】
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。本発明の情報検索方法は、被検索文書中に出
現する互いに隣接する文字の全ての組合せが被検索文書
中のどこに位置するかを示すテーブルを予め設けてい
る。例えば、被検索文書中、「文字」の出現する位置は
「a、b、c、d、e、…」、「文字列」の出現する位
置は「a、c、e、…」、「文字列を」の出現する位置
は「c、e、…」といったように、全ての文字の組合せ
の位置(文字列の先頭文字の位置)が予めテーブルとし
て用意されている。そして、被検索文書から任意の文字
列を検索する場合は、このテーブルを参照して文字列の
被検索文書中の位置を取り出すものである。
【0008】ただ、上記のテーブルにおいて、被検索文
書中のどこに位置するかのデータは、互いに隣接する文
字の組合せの全てでなくてもよく、被検索文書中で1箇
所しかない位置のデータのみでもよい。即ち、上記のテ
ーブルを、被検索文書中に出現する互いに隣接する文字
の組合せが被検索文書中で1箇所しかない位置を示すよ
う構成する。
【0009】図1はこのようなテーブルを用いた情報検
索方法の原理説明図である。図において、木構造のルー
トから黒塗り四角形までの文字列が、被検索文書中で1
箇所しかない文字列の組合せを示している。被検索文書
に対して、任意の文字列を検索する場合は、その検索要
求文字列中の最初の文字が被検索文書中で1箇所しかな
い文字であるかをテーブルに基づき判定し、そうであっ
た場合はテーブルに示す位置を出力し、そうでなかった
場合は、最初の文字に隣接する文字との組合せが被検索
文書中で1箇所しかない組合せであるかをテーブルに基
づき判定する。
【0010】そして、この作業を、検索要求文字列にお
ける最初の文字から終端の文字まで行い、終端の文字ま
での文字列が被検索書中で1箇所しかない組合せではな
かった場合は、その文字列を含む被検索文書中で1箇所
しかない全ての文字の組合せの位置を検索要求文字列の
検索位置とするものである。尚、この場合、検索要求文
字列とは例えば「案」といったように1文字の場合も含
むものである。また、この図1に示す情報検索方法は後
述する実施例3で詳細に説明する。
【0011】次に、本発明の情報検索方法を実施する情
報検索装置を説明する。図2は本発明の情報検索装置の
実施例を示すブロック図である。図の装置は、被検索文
書1、文字コードテーブル2、文字列コードテーブル
3、検索ベクタ4、検索処理部5からなる。被検索文書
1は、複数の文字で構成され、CD−ROMや磁気ディ
スク等に格納されている。また、これらの文字は、各々
の文字コードで管理されている。文字コードテーブル2
は、図示省略したメモリに設けられ、全ての文字コード
分のデータとして、例えば、32Kバイトの領域が確保
されている。
【0012】図3は、文字コードテーブル2の説明図で
ある。この文字コードテーブル2は、全ての文字コード
分からなる1次元配列となっている。文字コードテーブ
ル2における各々のフィールドには被検索文書1中の文
字コードに対応した内部番号が格納されている。この内
部番号は、被検索文書1において、使用頻度の多い順か
らつけられた番号であり、最も多く使用されているもの
から、1,2,…と番号が付与されている。また、被検
索文書1中で、一度も出現しなかった文字については、
「0」が入っている。例えば、被検索文書1中、JIS
16進コード「3080」の文字は、286番目に多く
使われ、「4F53」の文字は、一度も出現しなかった
ことを示している。
【0013】尚、被検索文書1中、使用頻度数が等しい
文字については、JISコードの順で内部番号を付与し
ている。また、内部番号の決定方法としては、このよう
なJISコードに基づいて付与する方法に限定されるも
のではなく、文字の種類が識別できる記号等であっても
よい。
【0014】文字列コードテーブル3は、文字コードテ
ーブル2同様、図示省略したメモリに設けられ、文字コ
ードテーブル2に基づき形成されたテーブルであり、被
検索文書1中で使用されている文字のみについて形成さ
れている。図4は、その文字列コードテーブル3の説明
図である。文字列コードテーブル3は、被検索文書1に
おいて、N種類の文字が使用されている場合、(N+
1)×Nのテーブルで表される。そして、文字列コード
テーブル3の要素は、文字コードテーブル2で示された
二つの内部番号の組合せで参照される。
【0015】この要素は、内部番号(例えば、aとす
る)で表される文字について、「a*」(*は任意の文
字を示す)という2文字からなる被検索文書1中の頻度
順を示した番号(=インデックス)が付与されている。
尚、この文字列コードテーブル3においても、頻度数が
等しかった場合は、JISコードの順(即ち、文字コー
ドテーブル2の内部番号順)でインデックスを付与して
いる。また、その組合せが被検索文書1中で存在しなか
った場合は、「0」となっている。尚、後に来る文字の
内部番号(縦方向)において、最後のN+1行の値は、
被検索文書1の終端コードを意味している。更に、この
文字列コードテーブル3は、図示のような2次元配列の
テーブルではなく、二つの値でアクセスできる構造であ
れば、どんなものであってもよい。
【0016】検索ベクタ4は、各文字に対応して設けら
れており、被検索文書1中の、各文字に隣合う候補文字
を示すと共に、ある文字と候補文字との組合せが被検索
文書1中で1箇所のみであった場合は、ある文字の被検
索文書1中の位置を示し、一方、この組合せを含む他の
文字列が存在する場合は、当該組合せに隣合う次の候補
文字を示すものである。即ち、検索ベクタ4は、図2に
示すように、木構造の、あるノードにおける全ての子を
まとめて配列で表したものである。
【0017】この木構造とは、被検索文書1中の文字列
の関係を表しており、ノードは文字列コードテーブル3
に示されたインデックスである。先ず、木構造のルート
は被検索文書1中で使用されている文字数個(N種類の
文字が使用されている場合はN個)ある。そして、ある
ノードから次のノードへの枝は被検索文書1中、その文
字の次に来る可能性のある文字の数だけある。また、図
2中、黒塗り四角形で示したのは、図1で説明したよう
に被検索文書1中の位置、即ち、ルートからその文字ま
での組合せが被検索文書1中で1箇所しか存在しない位
置が示されている。
【0018】図5は、あるインデックスに対する検索ベ
クタ4の説明図である。検索ベクタ4は、現在の文字に
対する次の文字列パターンを示すもので、各々の文字に
対してはその大きさが異なっており、各文字毎には、文
字列コードテーブル3の対応する内部番号の列の要素の
最大値サイズに予め設定されている。即ち、図5の各イ
ンデックスは、図2における各ノードからの枝に相当し
ており、そのインデックスの値は次のようになってい
る。
【0019】図6は、インデックスのデータフォーマッ
トを示す図である。検索ベクタ4におけるインデックス
のデータは、ルートからの経路によって異なり、ルート
からの内部番号の組合せが反映されるようになってい
る。インデックスのデータは、例えば32ビットで構成
されており、(a)に示すように、全てのビットが
“0”である場合は、そのインデックスに該当する文字
列が存在しないことを示している。また、(b)で示す
ように、上位1ビットが“0”であり、下位ビットに値
が存在する場合は、下位ビットが次の検索ベクタを示し
ている。更に、(c)に示すように、上位1ビットが
“1”である場合は、下位ビットの値がファイル番号
と、そのファイル上での位置(ファイルの先頭からのオ
フセット値)を表している。尚、ファイル番号の占める
領域は可変で、全てのファイル番号が表せるビット数の
分だけ用意される。従って、位置を示す領域も可変であ
る。
【0020】検索処理部5は、任意の文字列の検索を行
う場合は、その文字列の任意の1文字と、この1文字に
隣合う文字との組合せのインデックスを文字列コードテ
ーブル3から取り出して、検索ベクタ4におけるインデ
ックスの値を参照し、その検索ベクタ4におけるインデ
ックスの値が次検索ベクタを示していた場合は、文字列
における隣合う文字と、更に隣合う文字との組合せのイ
ンデックスを文字列コードテーブル3から取り出して、
この取り出したインデックスで次検索ベクタの値を参照
し、これをインデックスの値が被検索文書中の位置を示
すまで実行するものである。
【0021】図7は、検索処理部5の動作のアルゴリズ
ムを示すフローチャートである先ず、長さ(文字数)T
のある検索要求文字列Sに対し、文字コードテーブル2
を参照して内部番号S(n) (0<n≦T)に変換する
(ステップS1、S2)。そして、S(n) に0があるか
否かを判定し(ステップS3)、0があればその文字列
は存在しないため、検索は終了する。
【0022】ステップS3において、0がなかった場合
は、n=1とし、木構造のルートに相当する検索ベクタ
Vを取り出し、それより、S(n) に対する値を取り出す
(ステップS4)。次に、n>Tであるかを判定し(ス
テップS5)、n>Tであった場合は、任意の検索ベク
タV(i) の上位1ビットが1のものを探し、真のものに
ついてファイル番号とファイル上の位置を計算し(ステ
ップS6)、該当場所を取り出す(ステップS7)。
【0023】そして、n>Tかを判定し(ステップS
8)、このステップS8において、n≦Tの場合のみ、
取り出した文字列と検索要求文字列とを比較して(ステ
ップS9)、一致した場合は該当文字列ありとし、一致
しなかった場合は、該当文字列なしとして、検索を終了
する。また、ステップS8において、n>Tであった場
合は該当文字列ありとして検索を終了する。
【0024】一方、ステップS5において、n>Tでな
かった場合は、文字列コードテーブル3より、列S(n)
S(n+1) と続く文字列のS(n+1) に対するS(n) のイン
デックスiを取り出し(ステップS10)、インデック
スiの検索ベクタV(i) における全てのビットが0かを
判定する(ステップS11)。ここで、検索ベクタV
(i) の値が0であれば、該当する文字列は存在しないた
め、検索は終了する。
【0025】また、検索ベクタV(i) の値が0でなけれ
ば、検索ベクタV(i) の上位1ビットが1か否かを判定
し(ステップS12)、上位1ビットが1であれば、そ
れより下位にファイル番号と文字位置が示されるため、
これを計算し(ステップS13)、ステップS7に移行
する。更に、ステップS12において、検索ベクタV
(i) の上位1ビットが0であった場合は、インデックス
iで検索ベクタVより値を取り出し、この値を次の検索
ベクタVとすると共に(ステップS14)、n=n+1
とし(ステップS15)、ステップS5に戻る。
【0026】次に、具体的な例を用いて、実施例を詳細
に説明する。 《実施例1》 1.「案の名称」という文字列を検索処理部5が被検索
文書1から検索するとする。
【0027】図8は、この場合の情報検索方法の原理説
明図である。文字「案」「の」「名」「称」のJISコ
ードは、それぞれ、3046(H) 、244E(H) 、4C
3E(H) 、3E4E(H) であるため、これらをインデッ
クスとして、文字コードテーブル2より内部番号を求め
ると、それぞれ9、59、3、2となる。即ち、S(1)
=9、S(2) =59、S(3) =3、S(4) =2である。 2.そして、文字列Sの内部番号は、 S(n) ≠0 (1≦n≦4) であるため、被検索文書1中に「案」「の」「名」
「称」という各々の文字は存在する。
【0028】3.次に、検索処理部5は、検索ベクタ4
より、木構造でルートに相当する検索ベクタを取り出
し、これをカレント検索ベクタとする(図8中、101
で示す)。そして、検索要求文字列の1文字目「案」に
対するインデックスを文字列コードテーブル3より求め
ると9であった。尚、ルートの検索ベクタの場合は、文
字コードテーブル2で求めたインデックスをそのままイ
ンデックスとして採用する。ルートの検索ベクタにおけ
るインデックス9の値は、上位1ビットの値が「0」、
下位ビットの値が「110」であったとすると、これは
次の検索ベクタを示している。従って、「110」で示
された検索ベクタを次の検索ベクタとする。
【0029】4.検索要求文字列における「案の」の
「の」に対する「案」のインデックスを文字列コードテ
ーブル3より求める。そして、この時、インデックスが
12であったとする(図中、102)。 5.カレント検索ベクタ110のインデックス12の値
を求める。この値が、上位1ビットが「0」で、下位ビ
ットの値が412であったとする。従って、検索を続行
し、412で示された検索ベクタが次のカレント検索ベ
クタとなる。 6.上記4.と同様に、検索要求文字列「の名」の
「名」に対する「の」のインデックスを文字列コードテ
ーブル3より求める。この時、インデックスは35であ
ったとし、カレント検索ベクタ412のインデックス3
5の値を求めると、上位1ビットが0、下位ビットの値
が235であったので、検索を続行し、次の検索ベクタ
を235とする(図中、103)。
【0030】7.更に、「名称」について、上記と同様
に処理を行っていくと、カレント検索ベクタ235のイ
ンデックス7の上位1ビットが1であったので、検索ベ
クタ235のインデックス7の値は検索要求文字列の該
当場所が存在したことを示し、それより下位にファイル
番号とファイル上での位置が含まれている(図中、10
4)。ここでは、上位1ビット目より下位3ビットが1
01(10進で5)、更にそれより下位28ビットが1
1101(10進で29)であったので、検索要求文字
列「案の名称」の被検索文書1中の該当場所は、ファイ
ル番号5の先頭より29番目であることが抽出される。
【0031】上記実施例1は、検索要求文字列が被検索
文書1中に存在した例であるが、検索要求文字列が被検
索文書1中に存在しなかった例を次に実施例2として説
明する。
【0032】《実施例2》 1.「終り」という文字列を検索処理部5が被検索文書
1から検索するとする。文字「終」「り」のJISコー
ドは、それぞれ3D2A(H) 、246A(H) であるた
め、これらをインデックスとして、その内部番号を文字
コードテーブル2より求めると、それぞれ、17、8と
なる。即ち、S(1) =17、S(2) =8である。 2.文字列Sの内部番号が S(n) ≠0 (1≦n≦2) であるため、被検索文書1中に「終」「り」という各々
の文字は存在する。
【0033】3.次に、検索処理部5は、検索ベクタ4
より、木構造でルートに相当する検索ベクタを取り出
し、これをカレント検索ベクタとする。1文字目「終」
に対するインデックスを文字列コードテーブル3より求
めると、17であった。カレント検索ベクタのインデッ
クス17の値は222で、かつ、その上位1ビットが0
であったため、これは次の検索ベクタを指している。従
って、222で示された次の検索ベクタをカレント検索
ベクタとする。 4.文字列「終り」の「り」に対する「終」のインデッ
クスを文字列コードテーブル3より求める。この時、イ
ンデックスが0であったとする。これは、「終り」とい
う組合せの文字列が被検索文書1中に無いことを示して
いる。従って、該当場所なしとして検索を終了する。
【0034】ところで、上記実施例1は、図6のフロー
チャートにおいて、ステップS5でn>Tとはならず、
ステップS10〜S15およびステップS13の処理に
よって該当場所を取り出す場合である。即ち、この場合
は、被検索文書1中、検索要求文字列は1箇所しか存在
しないことになる。しかしながら、通常は被検索文書1
中、検索要求文字列が複数箇所に存在するのが多く、こ
のような場合は、木構造の複数の子の値が被検索文書1
中の位置となる。このような場合を図1を用い、実施例
3として次に説明する。
【0035】《実施例3》 1.「文書」という文字列を検索処理部5が被検索文書
1から検索するとする。文字「文」「書」のJISコー
ドは、それぞれ4A38(H) 、3D71(H) であるた
め、これらをインデックスとして、その内部番号を文字
コードテーブル2より求めると、それぞれ、5、28と
なる。即ち、S(1) =5、S(2) =28である。 2.文字列Sの内部番号が S(n) ≠0 (1≦n≦2) であるため、被検索文書1中に「文」「書」という文字
は存在する。
【0036】3.次に、検索処理部5は、検索ベクタ4
より、木構造でルートに相当する検索ベクタを取り出
し、これをカレント検索ベクタとする(図中、20
1)。1文字目「文」に対するインデックスは5である
ため、カレント検索ベクタのインデックス5の値を求め
る。この値が上位1ビット目が0で下位ビットの値が1
552であったとすると、この1552が次の検索ベク
タを示している。 4.文字列「文書」の「書」に対する「文」のインデッ
クスを文字列コードテーブル3より求める。この時、イ
ンデックスが21であったとする。 5.カレント検索ベクタ1552のインデックス21の
値を求める(図中、2029。この値が上位1ビット目
が0で下位ビットの値が1784であったとすると、こ
の1784が次の検索ベクタを示している
【0037】6.ここで、検索要求文字列の文字はこれ
以上ないが、この時点では該当場所が確定できていな
い。このような場合は、1784で示された検索ベクタ
以降の全てが該当場所となる(図中、203)。従っ
て、このカレント検索ベクタ以降をたどり、それ以下の
全ての木構造の終端が該当場所として抽出される。即
ち、図中、検索ベクタ1784より下側の黒塗り四角の
位置がすべて該当場所である。尚、この実施例3が図6
のフローチャートにおいて、ステップS5でn>Tの場
合であり、被検索文書1中、検索要求文字列が複数の場
所に存在する場合である。
【0038】上記実施例3では、検索要求文字列が複数
の場所に存在し、かつ、取り出した該当場所の文字列
が、検索要求文字列と全て一致した場合である。しかし
ながら、該当場所の候補と、検索要求文字列とが一致し
ない場合があり、この例を実施例4して次に説明する。
【0039】《実施例4》 1.「構造の場合」という文字列を検索処理部5が被検
索文書1から検索するとする。文字「構」「造」「の」
「場」「合」のJISコードは、それぞれ、393D
(H) 、4224(H) 、244E(H) 、3E6C(H) 、3
967(H) であるため、これらをインデックスとして、
文字コードテーブル2より内部番号を求めると、それぞ
れ34、35、59、78、15となる。即ち、S(1)
=35、S(2) =35、S(3) =59、S(4) =78、
S(5) =15である。 2.そして、文字列Sの内部番号は、 S(n) ≠0 (1≦n≦5) であるため、被検索文書1中に「構」「造」「の」
「場」「合」という各々の文字は存在する。
【0040】3.次に、検索処理部5は、上記実施例
1、2、3と同様な手順で木構造をたどっていく。検索
要求文字列の1文字目「構」に対するインデックスを文
字列コードテーブル3より求めると34であった。カレ
ント検索ベクタのインデックス34の値が「8861」
であったとし、かつ、その最上位ビットが0であるとす
ると、これは次の検索ベクタを指している。従って、
「8861」で示された検索ベクタを次の検索ベクタと
する。
【0041】4.次に、検索要求文字列「構造」の
「造」に対する「構」のインデックスを文字列コードテ
ーブル3より求める。この時、インデックスが3であっ
たとする。 5.カレント検索ベクタ8861のインデックス3の値
を求める。この値が、上位1ビットが「0」で、下位ビ
ットの値が439であったとする。従って、検索を続行
し、439で示された検索ベクタを次のカレント検索ベ
クタとする。 6.更に、検索要求文字列「造の」の「の」に対する
「造」のインデックスを文字列コードテーブル3より求
める。この時、インデックスは1であったとし、かつ、
カレント検索ベクタ439のインデックス1の値を求め
ると、最上位1ビットが1であるため、該当場所が確定
される。
【0042】7.ここで、得られた該当場所より、検索
要求文字列と同じ長さの文字列を被検索文書1から取り
出し、これを検索要求文字列と比較する。すると、被検
索文書1から実際に取り出した文字列は「構造の終端」
となっており、検索要求文字列「構造の場合」とは異な
る文字列であったため、該当場所なしとして検索を終了
する。
【0043】以上のように、上記各実施例では、隣合う
二つの文字の組合せで、文字列パターンがある程度絞ら
れることを利用し、検索時の分岐を少なくすることで、
検索速度を向上させることができる。また、検索要求文
字列は、単なる文字コードの組合せとしか捕らえられて
いないため、属性からなるインデックスのように意味を
持つ必要がなく、任意の文字列に対応することができ
る。更に、頻度順に、内部番号およびインデックスを決
定しているため、被検索文書中の出現頻度の高い文字列
への検索であっても速やかに検索を行うことができる。
【0044】尚、上記各実施例では、内部番号を被検索
文書1中で出現する頻度順に基づいて決定したが、これ
に限定されるものではなく、例えば、被検索文書1での
先頭から出現順に内部番号を付与していくといったよう
に、被検索文書1中の文字と内部番号とが一意に対応し
ているものであれば、他の決定方法であってもよい。ま
た、上記各実施例では、検索要求文字列の先頭文字を特
定文字として、この文字をルートとしたが、これ以外に
も、検索要求文字列の最後尾の文字を特定文字とすると
いった構成であってもよい。
【0045】
【発明の効果】以上説明したように、本発明の情報検索
方法および情報検索装置によれば、被検索文書中に出現
する互いに隣接する文字の全ての組合せが、被検索文書
中のどこに位置するかを示すテーブルを予め設け、任意
の文字列を検索する場合は、このテーブルを参照して該
当する文字列の被検索文書中の位置を取り出すようにし
たので、任意の文字列に対して対応することができ、か
つ、フルテキストサーチであっても検索効率および検索
速度を向上させることができる。
【図面の簡単な説明】
【図1】本発明の情報検索方法の原理説明図である。
【図2】本発明の情報検索装置の構成説明図である。
【図3】本発明の情報検索装置における文字コードテー
ブルの説明図である。
【図4】本発明の情報検索装置における文字列コードテ
ーブルの説明図である。
【図5】本発明の情報検索装置における検索ベクタの説
明図である。
【図6】本発明の情報検索装置の検索ベクタにおけるイ
ンデックスのデータフォーマットを示す図である。
【図7】本発明の情報検索装置における検索処理部の動
作のアルゴリズムを示すフローチャートである。
【図8】本発明の情報検索装置における実施例1の情報
検索方法の原理説明図である。
【符号の説明】
1 被検索文書 2 文字コードテーブル 3 文字列コードテーブル 4 検索ベクタ 5 検索処理部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 被検索文書中に出現する互いに隣接する
    文字の全ての組合せが前記被検索文書中のどこに位置す
    るかを示すテーブルを予め設け、 前記被検索文書に対して、任意の文字列を検索する場合
    は、前記テーブルを参照して当該文字列の前記被検索文
    書中の位置を取り出すことを特徴とする情報検索方法。
  2. 【請求項2】 被検索文書中に出現する互いに隣接する
    文字の組合せが当該被検索文書中で1箇所しかない場所
    の位置を示すテーブルを予め設け、 前記被検索文書に対して、任意の文字列を検索する場合
    は、当該検索要求文字列中の最初の文字が前記被検索文
    書中で1箇所しかない文字であるかを前記テーブルに基
    づき判定し、 そうであった場合は前記テーブルに示す位置を出力し、
    そうでなかった場合は、前記最初の文字に隣接する文字
    との組合せが前記被検索文書中で1箇所しかない組合せ
    であるかを前記テーブルに基づき判定し、 この作業を、前記検索要求文字列の最初の文字から終端
    の文字まで行い、当該終端の文字までの文字列が前記被
    検索書中で1箇所しかない組合せではなかった場合は、
    当該文字列を含む前記被検索文書中で1箇所しかない組
    合せの全ての位置を前記検索要求文字列の検索位置とす
    ることを特徴とする情報検索方法。
  3. 【請求項3】 被検索文書に出現する文字であるか否か
    を示すと共に、前記被検索文書に出現する文字に対して
    は、当該文字の文字コードに対応して付与した内部番号
    を示す文字コードテーブルと、 前記文字コードテーブルに示された各文字の内部番号に
    基づき、前記被検索文書に出現する隣合う文字の組合せ
    を識別するためのインデックスを格納する文字列コード
    テーブルと、 前記インデックスに対応した値を有し、当該インデック
    スが前記被検索文書中で1箇所のみ存在する場合は、前
    記被検索文書中の位置を示し、前記インデックスを含む
    文字列が複数存在する場合は、次検索ベクタを指定する
    検索ベクタと、 任意の文字列の検索を行う場合は、当該検索要求文字列
    の任意の1文字と、この1文字に隣合う文字との組合せ
    のインデックスを前記文字列コードテーブルから取り出
    して、前記検索ベクタにおけるインデックスの値を参照
    し、当該検索ベクタにおけるインデックスの値が次検索
    ベクタを示していた場合は、前記検索要求文字列におけ
    る前記隣合う文字と、更に隣合う文字との組合せのイン
    デックスを前記文字列コードテーブルから取り出して、
    この取り出したインデックスで次検索ベクタの値を参照
    し、これをインデックスの値が被検索文書中の位置を示
    すまで実行する検索処理部とを備えたことを特徴とする
    情報検索装置。
  4. 【請求項4】 検索処理部は、検索ベクタにおけるイン
    デックスの値が被検索文書中の位置を示していた場合、
    前記被検索文書の当該位置より文字列を取り出し、この
    取り出した文字列と前記検索要求文字列とを比較して、
    一致した場合のみ当該検索要求文字列の該当場所として
    確定するよう構成されていることを特徴とする請求項3
    記載の情報検索装置。
  5. 【請求項5】 内部番号とインデックスは、被検索文書
    中の出現頻度に基づき決定されていることを特徴とする
    請求項3または4記載の情報検索装置。
JP6018887A 1994-01-19 1994-01-19 情報検索方法および情報検索装置 Pending JPH07210569A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6018887A JPH07210569A (ja) 1994-01-19 1994-01-19 情報検索方法および情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6018887A JPH07210569A (ja) 1994-01-19 1994-01-19 情報検索方法および情報検索装置

Publications (1)

Publication Number Publication Date
JPH07210569A true JPH07210569A (ja) 1995-08-11

Family

ID=11984084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6018887A Pending JPH07210569A (ja) 1994-01-19 1994-01-19 情報検索方法および情報検索装置

Country Status (1)

Country Link
JP (1) JPH07210569A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100414236B1 (ko) * 1998-07-10 2004-01-07 패스트 서치 & 트랜스퍼 에이에스에이 데이터의 검색을 위한 서치 시스템 및 방법
JP2009134744A (ja) * 2009-01-30 2009-06-18 S Grants Co Ltd ビット列検索装置
WO2009093290A1 (ja) * 2008-01-22 2009-07-30 S.Grants Co., Ltd. ビット列検索装置、検索方法及びプログラム
WO2009122651A1 (ja) * 2008-04-04 2009-10-08 株式会社エスグランツ ビット列検索装置、検索方法及びプログラム
US8073874B2 (en) 2006-07-07 2011-12-06 S. Grants Co., Ltd. Bit string searching apparatus, searching method, and program
US8150856B2 (en) 2006-07-07 2012-04-03 S. Grants Co., Ltd. Bit string searching apparatus, searching method, and program
US8190591B2 (en) 2007-01-24 2012-05-29 S. Grants Co., Ltd. Bit string searching apparatus, searching method, and program
US8224861B2 (en) 2006-11-28 2012-07-17 S. Grants Co., Ltd. Coupled node tree splitting/conjoining method and program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100414236B1 (ko) * 1998-07-10 2004-01-07 패스트 서치 & 트랜스퍼 에이에스에이 데이터의 검색을 위한 서치 시스템 및 방법
US8073874B2 (en) 2006-07-07 2011-12-06 S. Grants Co., Ltd. Bit string searching apparatus, searching method, and program
US8150856B2 (en) 2006-07-07 2012-04-03 S. Grants Co., Ltd. Bit string searching apparatus, searching method, and program
US8224861B2 (en) 2006-11-28 2012-07-17 S. Grants Co., Ltd. Coupled node tree splitting/conjoining method and program
US8190591B2 (en) 2007-01-24 2012-05-29 S. Grants Co., Ltd. Bit string searching apparatus, searching method, and program
WO2009093290A1 (ja) * 2008-01-22 2009-07-30 S.Grants Co., Ltd. ビット列検索装置、検索方法及びプログラム
WO2009122651A1 (ja) * 2008-04-04 2009-10-08 株式会社エスグランツ ビット列検索装置、検索方法及びプログラム
JP2009134744A (ja) * 2009-01-30 2009-06-18 S Grants Co Ltd ビット列検索装置

Similar Documents

Publication Publication Date Title
US7882109B2 (en) Computer representation of a data tree structure and the associated encoding/decoding methods
JPH11212980A (ja) インデクス作成方法および検索方法
JP2009543224A (ja) 可変圧縮による適応索引
US5553284A (en) Method for indexing and searching handwritten documents in a database
JPH09179872A (ja) 有限状態トランスデューサを用いてデータベースのインデックス付けを行う方法及び装置
US20210026893A1 (en) System and method for improving geocoding performance
JPH09245043A (ja) 情報検索装置
JPH07210569A (ja) 情報検索方法および情報検索装置
JP2008083769A (ja) 文書検索装置および文書検索方法
KR20010095215A (ko) 사이트 정보 데이터베이스 구축을 통한 인터넷 상에서의정보 검색 방법
JPH0773197A (ja) 異表記語辞書作成支援装置
JPH07234879A (ja) 情報処理装置及びデータベース検索方法
JP3859044B2 (ja) インデクス作成方法および検索方法
JPH07302347A (ja) グラフ生成装置
JPH10240741A (ja) 木構造型データの管理方法
JPH09259132A (ja) 情報登録検索装置及びその方法
JP3279002B2 (ja) 情報管理装置
JP2001092830A (ja) 文字列の照合装置およびその方法
JPH06180717A (ja) データベース検索方式
JP2001325293A (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
JPH09305619A (ja) 階層インデックス検索装置、及び文書検索方法
JPH1097542A (ja) 全文検索装置及び全文検索方法
JP2947832B2 (ja) 単語照合方法
JPS6261118A (ja) 木構造インデクスの検索方式
JPH04337867A (ja) データベース検索システム