JPH07109603B2

JPH07109603B2 - 情報検索処理方式および検索ファイル作成装置

Info

Publication number: JPH07109603B2
Application number: JP2417609A
Authority: JP
Inventors: 菊池忠一
Original assignee: 株式会社テレマティーク国際研究所
Priority date: 1990-12-12
Filing date: 1990-12-12
Publication date: 1995-11-22
Anticipated expiration: 2010-11-22
Also published as: JPH04215181A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、情報検索を行う情報検
索処理方式に関する。本発明は、特に全文検索を行うこ
とに適し、入力された検索入力と全文との照合回数を大
幅に削減して高速に情報検索を行うことができる情報検
索処理方式に関する。本発明はデータベースシステムに
おいて全文検索処理を行う情報検索処理方式に適する。

【０００２】

【従来の技術】従来から、全文の最初から最後まで、検
索入力文字列との文字列照合を行い、検索者が指定する
入力文字列と検索条件に合致する文書を選出する逐次検
索方式や全文からあらかじめキーワードを抽出して検索
ファイルを作成するインデックス方式が全文検索技術と
して一般的である。また全文に出現する文字や文字列を
表形式にして、検索入力文字列から分解して作成する文
字や文字列の出現文書を絞り込むプリサーチ方式があ
る。

【０００３】

【発明が解決しようとする課題】逐次検索方式では、全
文の最初から最後まで、検索入力文字列との照合を行う
ため、多量の文字列を有する文書を検索する場合、多く
の時間を要する。このため、多量文書の検索では、高速
な文字列照合を行う専用のプロセッサやＬＳＩが提案さ
れているが、これらの方式では、ハードウエアが限定さ
れるほか、検索処理を行う計算機と専用プロセッサやＬ
ＳＩとの間での文字列転送に時間がかかり、システムと
して満足できる高速性の実現が課題となっている。

【０００４】また、プリサーチ方式では、高速性を実現
するための並列処理機構や文字列照合に専用のハードウ
エアが必要であるほか、登録時に抽出する文字列の精度
向上が課題となっている。

【０００５】本発明者は、全文中に同じ文字や同じ文字
列が出現する頻度が低い特徴がある点に着目し、検索対
象文字列を先頭文字から１文字ずつ、その文字と次に続
く合計ｑ文字で文字セットを作成し、これらの文字セッ
ト種ごとにグループ化した文字セットグループで検索フ
ァイルを作成し、検索時には、検索ファイル中から文字
セットの連続性を照合することにより検索を高速化する
ことができることを見出した。

【０００６】本発明は、上述の観点から大量文書を対象
とする全文検索の高速化をソフトウエアだけで実現で
き、しかも特定のハードウエアに限定されず、検索処理
を主記憶上で行うことにより専用プロセッサやＬＳＩと
の文字列の転送が不要であり、文字セットと文字セット
位置に着目することにより任意の文字列検索が可能であ
る汎用性に富む情報検索処理方式を提供することを目的
とする。

【０００７】

【課題を解決するための手段】本発明の第一の特徴は、
それぞれが文字列で構成され検索を行う単位である複数
の検索単位によって構成される一連の文字列であって、
この検索単位にはその論理区分にしたがって属性が定め
られている一連の文字列を検索対象として所定の検索入
力文字列に合致する文字列を抽出する情報検索方式の検
索ファイル作成装置において、上記検索単位が現れるご
とに検索単位ごとの昇順の符号を付与する検索単位識別
符号付与手段と、上記検索単位にその属性にしたがって
定められている属性符号を付与する属性符号付与手段
と、検索対象となる文字列から１文字ずつ取り出し、そ
の文字と次に続く合成ｑ文字で文字セットを作成し、検
索単位における文字セットの先頭文字位置を示す文字セ
ット位置順序符号を付与する文字セット位置順序符号付
与手段と、上記検索単位識別符号と文字セット位置順序
符号と属性符号とからなる文字セット位置情報を作成し
て、この文字セット位置情報を文字セット種ごとの領域
に格納して検索ファイルを作成する手段とを備えたこと
を特徴とする。

【０００８】なお、文字セット位置情報は、ｎを最大検
索単位文字数、ａを最大属性数とするとき｛（検索単位
識別符号×ｎ）＋文字セット位置順序符号｝×ａ＋属性
符号なる数字として与えられることが好ましい。

【０００９】また本発明の第二の特徴は、第一の特徴で
作成された検索ファイルを備え、検索入力文字列の構成
文字を先頭文字からｑ文字単位の文字セットに分解して
検索入力文字セット列を作成し、この文字セットと同じ
文字セット種に格納されている文字セット位置情報を上
記検索ファイルから取り出す手段と、この取り出した各
文字セットの文字セット位置情報間で、検索単位識別符
号が共通で文字セット位置順序符号の差が検索入力文字
列の文字セットの先頭文字位置差に等しくかつその属性
符号が検索入力と等しい文字セット位置情報の組み合わ
せを抽出する手段と、この抽出された文字セット位置情
報に基づいて検索入力と等しい文字セット列が属する検
索単位および文字セット構成各文字の検索単位における
先頭文字からの位置を示す文字位置を検索結果として出
力する手段とを備えたことを特徴とする。

【００１０】また、検索入力文字セット列と等しい文字
セット位置情報の抽出は、検索入力の出現頻度の小さい
文字セットから順に行うことが好ましい。

【００１１】なお、検索対象文字列が記号を含む欧文字
列の場合は、少なくとも３文字単位の文字セットとし記
号を含む欧文字のみの文字セット種グループ検索ファイ
ルを用いることがよい。

【００１２】

【作用】文書中に同じ文字列が出現する頻度は低い。例
えば広辞苑の見出し語の説明文は約900 万文字あるが、
その中で仮名文字の出現頻度を調べると平均約53200 回
と高い。しかし、仮名２文字の文字列の出現頻度を調べ
ると平均出現頻度472 回と低くなる。このため、仮名２
文字を文字セットとすると、検索入力がｎ文字の場合、
全文から抽出する照合対象は平均すれば（ｎ／２）×47
2 個の文字セット位置情報となる。漢字は文字種が仮名
文字より多いので、漢字２文字の文字列の出現頻度は仮
名文字より低くなり、全文から抽出する照合対象も仮名
文字より少なくなる。一般的に検索入力は数十文字以下
であるため、出現頻度の高い文字列であっても、全部の
文字を逐次照合するものに比べるとその照合回数は極め
て少なくなる。

【００１３】例えば、「通信」という２つの文字列を使
用する用語は多々あるとしても「通信・・」という文字
列は「通信回線」、「通信装置」のように「通信」の文
字以降で同一の文字が発生する頻度が低くなる。この結
果、「通信」に続く「回線」や「装置」の文字列を照合
すると、検索対象が急激に絞り込まれていく。このよう
にして、検索入力文字セット列の構成文字セットで全文
との照合を進めていくと、それまでに得られた検索対象
候補の文字セット列の中から、検索入力文字セット列と
異なる文字セット列が削除され、照合する構成文字セッ
トごとに検索対象が絞り込まれていく。特に、検索入力
の中の全文出現頻度の低い文字セットから順に照合を行
うと一層絞り込まれて照合一致を取る回数を低減でき
る。

【００１４】したがって、検索対象となる文字列（全
文）を構成する各文字セットが文字列中のどの位置にあ
るかを示す文字セット位置情報を文字セット種ごとにグ
ループ化した検索ファイルを作成し、この検索ファイル
に対して検索入力文字セット列との照合一致を行うこと
により文字列検索における照合一致処理回数を大幅に低
減することができる。

【００１５】この検索ファイルの作成は次のように行
う。

【００１６】まず検索対象となる文字列を検索単位に分
ける。検索対象文字列が例えば書籍や論文の場合、目
次、序文、章または節等のタイトル、本文、図または表
等のタイトル、参考文献という順序で構成されており、
それぞれの構成部分が論理的に区分されているため、検
索単位として構成できる。そこで書籍または論文を論理
的に検索単位に分け、それぞれの検索単位ごとに出現順
序に従って昇順に識別符号を付与する。このとき本文に
ついては複数の検索単位に分割し、それぞれ他の検索単
位とともに一連の識別符号を付与することもできる。ま
た、この検索単位について、目次、序文、タイトル、本
文のようにその検索単位の論理的な種別が区分されるの
で、その論理的な種別を属性として、その属性を示す属
性符号を付与する。

【００１７】そして、文字列を先頭文字から１文字ずつ
取り出し、その文字と次に続く合計ｑ文字で文字セット
を作成し、各文字セットに検索単位識別符号と各文字セ
ットの先頭文字位置を示す文字セット位置順序符号と検
索単位の属性符号とからなる文字セット位置情報を生成
し、文字セット種ごとに構成された領域に格納し、検索
対象文字列を構成する各文字セット種別でグループ構成
される検索ファイルを作成する。

【００１８】この検索ファイルは、文字セットの種別ご
とに文字セット位置情報が格納された形のファイル構造
となり、周知の記憶媒体に記憶される。

【００１９】検索処理は、検索入力を先頭文字からｑ文
字単位の文字セットに分解して検索入力文字セット列を
構成し、分解した文字セットと同じ文字セットの文字セ
ット位置情報を検索ファイルから取り出して、検索単位
識別符号が共通しており文字セット位置順序符号の差が
検索入力文字列の文字セットの先頭文字位置差に等しく
かつ属性符号が同じ文字セット位置情報の組み合わせを
照合して取り出す。

【００２０】この照合処理は、検索入力と検索ファイル
との文字セット列の連続性の一致と属性の一致とをみる
もので、検索ファイル中の文字セット位置情報から検索
単位識別符号が共通していて文字セット位置順序符号の
差が検索入力文字列の文字セットの先頭文字位置差に等
しくかつ属性符号が検索入力と同じ文字セットの組み合
わせを取り出すことにより行う。

【００２１】これにより、全検索ファイルの照合が不要
になり、検索ファイルにある検索入力と同じ文字セット
の文字セット位置情報だけの照合一致を行えばよいの
で、照合回数は逐次照合に比べるときわめて低減するこ
とができる。また、一般的に同じ文字列の出現頻度が低
いので、ｑ文字の文字セットを照合するたびに検索対象
が絞り込まれるので、照合回数は低減していく。

【００２２】さらに、検索ファイルから取り出した文字
セット位置情報を照合するとき、検索入力の中の全文出
現頻度の低い文字セットから順に行うと検索対象が一層
絞り込まれ、照合一致をとる回数がさらに低減できる。

【００２３】このようにして同一の文字列を見出したと
きはその検索単位識別符号から抽出すべき検索単位と文
字セット構成各文字の検索単位における先頭文字からの
位置を示す文字位置を抽出して、検索者に検索結果とし
て出力する。

【００２４】

【実施例】以下図面を参照して本発明の実施例を説明す
る。

【００２５】図１は本発明一実施例における情報検索処
理装置の構成を示すものである。

【００２６】本実施例の情報検索処理装置は、各種演算
処理あるいは判断処理を行うＣＰＵ１と、検索処理、検
索ファイル作成等のプログラム、作成されたあるいは検
索処理を行うための検索ファイル、検索入力等を記憶す
るメモリ２、キーボード４、ディスプレイ５を接続する
入出力部３、各種情報が記憶される外部記憶装置７を接
続する外部記憶装置制御部６、ＣＰＵ１、メモリ２、入
出力部３、外部記憶装置制御部６を接続する共通バス８
とを備える。

【００２７】本実施例での情報検索処理は、検索処理に
供するための文字列について文字列の先頭文字から１文
字ずつ取り出し、その文字の次に続く文字の２文字で文
字セットを作成し、これらの文字セット種ごとにグルー
プ化した文字セットグループで作成される検索ファイル
を作成する検索ファイル作成処理と、検索ファイルとの
照合一致を行って検索入力に合致する文字列を抽出する
検索処理との二つに分けられる。

【００２８】まず、検索ファイル作成処理について説明
する。

【００２９】この検索ファイル作成処理は、大まかに分
けると、検索ファイル領域確保、各文字セットへの
文字セット位置情報の付与、文字セット種別ごとにグ
ループ化した文字セット位置情報の検索ファイルへの格
納の３つに分けることができる。この各処理についてそ
れぞれ説明する。

【００３０】検索ファイル領域確保検索ファイルは、図２に示すように、ＪＩＳコード表に
記載されている文字順に配列された文字セット群で構成
される。各文字セット群は図３に示すように、ＪＩＳコ
ード表に記載されている文字順に、記載文字を先頭文字
とする２文字の文字列で構成される文字セットグループ
で構成される。そこで全文の先頭文字から１文字ずつ取
り出し、その文字と次に続く文字の２文字で文字セット
を作成し、これらの文字セット種ごとに出現頻度を計数
する。これにより、検索ファイルを構成する各文字セッ
ト種グループに登録される文字セット位置情報の数がわ
かるので、全文字セット種グループで構成される検索フ
ァイルの領域を確保できる。また同時に、各文字セット
種グループに登録される文字セット位置情報の数から、
検索ファイル内に連続して格納される文字セット種グル
ープの先頭番地もわかる。この文字セット種グループの
先頭番地を図３の文字セット群一覧の記載順に配列した
のが図４に示す文字セットグループアドレス表である。

【００３１】各文字セットへの文字セット位置情報
の付与ここで述べる文字セット位置情報は、文字セットが属す
る検索単位が現れる順番を示す検索単位番号と、検索単
位におけるその文字セットの出現する位置をその文字セ
ットの先頭文字の位置で示す文字セット位置番号と、検
索単位の論理的な種別を示す属性番号で作成される。

【００３２】まず検索単位とその属性について説明す
る。例えば一般的な書籍は、目次、序文、章または節の
タイトル、本文、図または表のタイトル、参考文献など
の部分で構成されており、ほぼこの順序に従って現れ
る。この書籍の内容を検索するとき、検索対象としてこ
の部分部分を検索単位に分け、その検索単位ごとに検索
して検索出力とすることが便利であるし、また検索目的
に合致することが多い。すなわち、検索目的によってタ
イトルのみや本文のみを検索対象として指定することが
実際の検索では多いからである。

【００３３】したがって、一つの書籍を全文検索対象と
して検索する場合に、その書籍を構成する論理的な部分
に分けて検索結果を出力することが好ましい。この検索
単位は、検索対象の文字列の論理的な分類を示すもので
あるため、この検索単位に論理的区分に従って属性番号
を付与する。例えば、属性番号として、目次に「１」、
序文に「２」、章または節のタイトルに「３」、図また
は表のタイトルに「４」、本文に「５」、参考文献に
「６」を付与する。

【００３４】そしてこの検索単位が書籍に出現する順序
に１から昇順に番号を付与する。これを検索単位番号と
する。なおこの際に本文が長文である場合には適当な区
分に分けて本文を複数の検索単位に分け、検索単位ごと
に出現する順位で検索単位番号を付与することもでき
る。

【００３５】次に検索単位ごとに、検索単位の先頭から
１文字ずつ取り出し、その文字と次に続く文字の２文字
で文字セットを作成し、作成順に１、２、３・・・と昇
順に番号を付与して文字セット位置番号とする。検索単
位の構成文字が奇数個の場合には１文字が残るが、この
１文字には文末を示す特殊文字ＥＭ（エンドマーク）を
付加し、このＥＭ文字と連結させて文字セットとして、
文字セット位置番号を付与する。なお、ＥＭ文字は、Ｊ
ＩＳコード表の未使用領域を割り当てる。ここでは数字
９の直後にあるＪＩＳコードＡ３ＢＡとした。

【００３６】そして、このように与えられた検索単位番
号、文字セット位置番号、属性番号とから検索単位を構
成する文字セットを整数からなるコードに変換して文字
セット位置情報を作成する。

【００３７】この文字セット位置情報は、最大検索単位
文字数をｎ、最大属性数をａとするとき、文字セット位
置情報コード＝｛検索単位番号×ｎ＋文字セット位置番
号｝×ａ＋属性番号の式で与えられる数字コードであ
る。

【００３８】例えば、検索単位の最大文字数ｎ＝10000
、最大属性数ａ＝10とし、８番目の検索単位である本
文（属性番号＝５）の先頭から第121 〜125 番目の文字
位置に「通信文書の」という文字列があった場合、この
文字列「通信文書の」は、「通信」、「信文」、「文
書」、「書の」の文字セットに分解され、それぞれ「80
1215」、「801225」、「801235」、「801245」の文字セ
ット位置情報が与えられる。

【００３９】そしてこのように文字セット位置情報を４
バイトのコードで構成すれば、最大10000 文字数の検索
単位を２⁶⁴／（ｎ×ａ）≒４万個取り扱うことが可能で
ある。

【００４０】文字セット位置情報の検索ファイルへ
の登録次にこの各文字セットごとに付与された文字セット位置
情報を検索ファイルに登録する。

【００４１】上述のように文字セット種別グループは、
図３に記載された順に検索ファイルに格納される。そし
て各文字セット種別グループに文字セット位置情報を登
録する。この文字セット位置情報の登録は、文字セット
種グループの末尾にそれぞれ文字セット位置情報を格納
することによって行われる。このため、検索単位順に登
録するとすれば文字セット種グループ内には文字セット
位置情報が数値順の昇順に登録されることになる。

【００４２】上述の「通信文書の」の文字セット位置情
報を検索ファイルに登録した例を図５に示す。このと
き、各グループ内の文字セット位置情報は昇順に格納さ
れる。このファイル容量は、文字セット位置情報が４バ
イトであると、下記の数式１に示す容量になる。

【数１】

【００４３】なお、文字セット位置情報の追加登録は、
追加文書の各文字セットに該当するグループの末尾に新
規文字セット位置情報を追加することで行う。また、削
除は削除文書の各文字セットに該当するグループ内の該
当文字セット位置情報を特殊記号に変更することによっ
て行う。これにより追加登録と削除を短時間に行うこと
ができる。

【００４４】なお上述のようにこの検索ファイルの各文
字セット種グループごとに格納された文字セット位置情
報は、図４の文字セットグループアドレス表の各文字セ
ットグループ先頭番地をディレクトリとして取り出すこ
とができる。

【００４５】以上の検索ファイルの作成処理の流れを図
６に示す。

【００４６】すなわち、各文字セットの出現度数を計数
して文字セットグループアドレス表を作成し（Ｓ11、1
2）、検索ファイルの領域を確保する（Ｓ13）。次に検
索単位登録順位カウンタをｋ＝１に初期設定して、検索
単位番号を「１」に、最大検索単位文字数を「ｎ＝1000
0 」に、最大属性数をａ＝10に設定する（Ｓ14）。そし
て最初の検索単位を取り出す（Ｓ15）。ここまでが登録
の前処理である。ここから検索単位ごとの登録処理とな
り、まず、文字セット位置番号をｐ＝１に、登録する検
索単位の構成文字数ｍ、登録する検索単位の属性番号ａ
_iを設定する（Ｓ16）。次に、検索単位の先頭文字から
順に、文字セット位置番号ｐに該当する文字セット位置
情報をＤ＝（ｋ×10000 ＋ｐ）×10＋ａ_iの式で作成す
る（Ｓ17）。文字セット位置番号ｐにある文字セットと
同じ文字セット種グループが格納されている検索ファイ
ルの文字セットグループの先頭番地を示す文字セットグ
ループ先頭番地を文字セットグループアドレス表から取
り出して（Ｓ18）、文字セットグループ先頭番地が示す
検索ファイルの文字セットグループの空領域の先頭行に
文字セット位置情報を格納する（Ｓ19）。そして、ｐ＝
ｐ＋１、ｍ＝ｍ−１とし、検索単位内の全ての文字セッ
トを処理したところで、次の検索単位の処理に移る（Ｓ
23、24）。

【００４７】次にこのようにして作成された検索ファイ
ルを用いる検索処理について説明する。

【００４８】本実施例では、検索ファイルから取り出し
た文字セット位置情報をもとに検索入力文字セット列と
同じ文字セット列を文字列照合して全文検索を行う例で
説明する。まず、その検索処理は大まかに分けると以下
の構成からなっている。

【００４９】検索入力文字列の先頭文字から２文字
単位の文字セットに分解し、検索入力文字セット列を作
成する。検索入力文字セット列の各文字セットに該当する文字
セットグループアドレス表内文字セットグループ先頭番
地を算出する。検索入力文字セット列を出現頻度の少ない文字セット
から順に並べ変える。並べ変えた文字セット列の先頭から順に該当する文字
セット種グループを検索ファイルから取り出してそこに
格納されている文字セット位置情報から検索入力文字セ
ット列を構成できる文字セット位置情報の組み合わせを
取り出す。抽出した文字セット位置情報から検索入力と同じ属性
を有する文字セット位置情報を取り出し照合一致とす
る。照合一致した文字セット位置情報から検索単位番号と
文字セット構成各文字の検索単位における先頭文字から
の位置を示す文字位置番号を検索結果として出力する。

【００５０】次に具体的にそれぞれの処理を説明する。

【００５１】検索入力文字セット列の作成検索ファイルに格納されている文字セットと照合可能な
ように、検索入力文字列を先頭文字から２文字単位の文
字セットに分解し、検索入力文字セット列とする。

【００５２】各検索入力文字セットに該当する文字
セットグループアドレス表内文字セットグループ先頭番
地の算出検索ファイルの作成時と同様に、各検索入力文字セット
の図３の文字セット群一覧記載順位を算出し、これを文
字セットグループアドレス表における検索入力文字セッ
トのアドレスポインタとする。

【００５３】出現頻度順の並べ変えそして、検索ファイルの各文字セット種グループの先頭
番地を示す文字セットグループアドレス表の文字セット
グループ先頭番地を参照して、各検索入力文字セットの
出現頻度を調べ、検索入力文字セット列を全文出現頻度
の低いものから順に並べ変える。上述のように、文字セ
ットグループアドレス表内の先頭番地は、検索ファイル
に格納されている各文字セット種グループの先頭番地を
示しており、次に続く文字セットグループ先頭番地との
差をとれば、各文字セット種グループに格納されている
文字セット位置情報の数から、全文中に出現する文字セ
ット種別頻度がわかる。

【００５４】これは出現頻度の低い文字セットから照合
一致を行うことにより、検索ファイルに格納された各文
字セットの文字セット位置情報との照合回数をきわめて
低減できるためである。すなわち文字セット位置情報を
照合して各文字セットの連続性を調べる場合に二つの文
字セット種グループ内の文字セット位置情報中の文字セ
ット位置番号を照合するため、その二つの文字セット種
グループ内に格納されている文字セット位置情報の数が
少なければそれだけ照合回数を少なくすることができ
る。したがって、文字セット位置情報の照合を行うとき
に、出現頻度の低い文字セットから照合を行って照合回
数を低減させる。特に検索入力文字が多くなるほど出現
頻度の低い文字セットが含まれるため低減効果は大き
い。

【００５５】文字セット列の照合出現頻度の低い文字セットから文字セットグループアド
レス表を参照してそれぞれの文字セット種グループに格
納されている文字セット位置情報を取り出す。そして取
り出した文字セット位置情報をもとに、出現頻度の低い
文字セット種グループから、各文字セット種グループ間
で検索単位が等しくかつ文字セット位置番号の差が検索
入力文字列の文字セットの先頭文字位置差に等しい文字
セット位置情報の組み合わせを抽出する。この文字セッ
ト位置差の照合は、ａ＝最大属性数とすると、｛（検索
入力文字列ｉ番目文字を先頭とする文字セット種グルー
プ内文字セット位置情報）−（検索入力文字列ｊ番目文
字を先頭とする文字セット種グループ内文字セット位置
情報）｝÷ａ＝ｉ−ｊの式で照合すればよい。

【００５６】この文字セット種グループ間での文字セッ
ト位置差の照合処理は、出現頻度の低い文字セット種グ
ループの文字セット位置情報とそれより出現頻度の高い
文字セット種グループの文字セット位置情報との差を取
って文字セットの連続を照合する。

【００５７】この文字セット位置番号差に該当するもの
を抽出するときに、二つの文字セット種グループをＡＢ
とＣＤ、ＡとＣの文字位置差がＬであるとし、グループ
ＡＢの文字セット位置番号をＡ_x、グループＣＤの文字
セット位置番号をＣ_yとしたときＡ_x＋Ｌ＞Ｃ_yならＣ_yを削除Ａ_x＋Ｌ＜Ｃ_yならＡ_xを削除Ａ_x＋Ｌ＝Ｃ_yならＡ_x、Ｃ_yを合致として共に削除というように照合対象から削除していくことによりその
照合回数を削減させる。

【００５８】例えばグループＡＢの文字セット位置番号
が５、13、100 、200 、1000、1100 グループＣＤの文字セット位置番号が３、18、101 、150 、180 であった場合、この二つのグループ間の照合回数は全体
で７回だけですみ、グループ内の全ての文字セット位置
情報を照合する必要はない。

【００５９】属性番号の照合文字セット列照合から得られた文字セット位置情報の中
から、検索入力と同じ属性番号の文字セット位置情報を
取り出すことにより、検索入力で指定した属性に一致す
る文字セット位置情報を抽出できる。

【００６０】検索単位の抽出取り出した文字セット位置情報から検索単位番号と文字
セット構成各文字の検索単位における先頭文字からの位
置を示す文字位置番号を検索結果として抽出する。

【００６１】なお、検索入力が複数ある場合には、２番
目以降の検索入力に対しては、検索入力の最初の文字セ
ットに該当する文字セット種グループからそれまでに得
られた検索単位番号を有する文字セット位置情報を取り
出した後、検索入力の次の文字セット以降の処理を行う
ようにする。これは第１番目の検索入力で得られた検索
結果と同じ検索単位に含まれる文字セットを第２番目以
降の検索入力から抽出することを目的とする。

【００６２】以上の〜の動作を具体例を挙げて説明
する。検索対象として本文が指定され、検索入力文字列
としては「通信文書」が指定されたとする。この場合本
文の属性番号は「５」とする。なお、図５の検索ファイ
ルを対象として説明する。

【００６３】検索入力が「通信文書」であるから、検索
入力文字セットは「通信」と「文書」になる。全文出現
頻度が「通信」＜「文書」の順であり、照合をこの順序
に行うとすると、まず検索ファイル中の「通信」の文字
セットグループ欄から取り出した文字セット位置情報と
「文書」の文字セットグループ欄から取り出した文字セ
ット位置情報との間で、検索入力「通信文書」における
「通」と「文」との文字位置が各々「１」と「３」であ
るから、これらの差に最大属性数＝10を乗算した「−2
0」になる文字セット位置情報を抽出して、図５の検索
ファイルの「通信」内の文字セット位置情報の「80121
5」と「文書」内の「801235」とを連続性ある文字セッ
ト位置情報の組み合わせとして抽出することができる。

【００６４】さらに、検索条件は「本文」であるから、
これまでの文字列照合で残った文字セット位置情報の中
から、属性番号が「５」の文字セット位置情報として、
「801215」と「801235」を抽出できる。

【００６５】したがって、この文字列が属する検索単位
番号「８」の検索単位と文字位置番号「121 〜124 」を
検索結果として出力する。

【００６６】この検索処理動作を図７にフローチャート
として示す。

【００６７】すなわち、検索入力を取り出し、検索入力
文字列の先頭から２文字単位の文字セットに分割して検
索入力文字セット列を作成し、その文字セット数−１、
属性番号を設定し、各文字セットの出現頻度を文字セッ
トグループアドレス表を参照して調べ出現頻度の低いも
のから順に並び変える（Ｓ41〜Ｓ44）。そして並べ変え
た文字セットの中から先頭から２個の文字セットに該当
する文字セット種グループに格納されている文字セット
位置情報を検索ファイルから取り出す（Ｓ45）。そし
て、二つの文字セット種グループ間で、（出現頻度の低
い文字セット種グループの文字セット位置情報）−（出
現頻度の高い文字セット種グループの文字セット位置情
報）＝（検索入力における二つの文字セットの先頭文字
位置差）×（最大属性数）である文字セット位置情報を
一致結果として取り出す（Ｓ46）。そして照合が終わっ
たか否かを判断した後（Ｓ47、48）、文字セット位置情
報の中から属性番号がａ_iの文字セット位置情報を選別
し、検索入力に一致した検索単位と文字セット構成各文
字の検索単位における先頭文字からの位置を示す文字位
置番号を検索結果として出力する。（Ｓ49、50）。な
お、ステップＳ48で照合が連続した場合、これまでの一
致結果の文字セット位置情報と、検索入力を並べ変えた
文字セットの中の次の文字セットに該当する文字セット
種グループに格納されている文字セット位置情報とで照
合を行う（Ｓ46）。

【００６８】上記実施例では日本語文書の検索処理の例
を説明したが、他の例として例えば英文字のように字種
の少ない言語の文書では、ＪＩＳコード表の中から、仮
名文字と漢字文字を除いた字種だけで検索ファイルと文
字セット群一覧と文字セットグループアドレス表を作成
すると、日本語文書に比べ文字セットの少ない検索ファ
イルが構成でき、日本語文書に比してコンパクトに全文
検索が容易にできる。この場合、英文字（記号を含む）
についてはＪＩＳコードに変えて例えばＩＳＯコードを
用いた文字セットグループアドレス表を作成し、文字セ
ットは最低３文字で構成されたものとすることがよい。

【００６９】なお、全文検索の高速性が求められる場
合、文字セットの構成文字数を増加するとますます文字
セットの出現頻度が低くなり、各文字セット種グループ
に格納される文字セット位置情報が少なくなるため、容
易に高速化を実現できる。

【００７０】

【発明の効果】以上説明したように、本発明は検索対象
文字列の文字セット種ごとにその文字セットが属する検
索単位識別符号、文字セット位置順序符号、検索単位の
種別を示す属性番号からなる文字セット位置情報を格納
した検索ファイルを作成し、この検索ファイルを検索入
力の文字列を構成する文字セット種ごとにその文字セッ
ト位置情報を取り出して、検索入力に合致する文字列を
検索するようにした。このため、 (1) 検索処理のための文字列照合回数を低減することが
できるため、高速照合を行うことができる、 (2) 文字セットと文字位置に着目して検索処理を行うた
め任意の文字列検索を行うことができ、プリサーチ方式
のように登録時に文字列抽出を行う必要はない、 (3) 専用のハードウエアを用いることなくソフトウエア
だけで高速検索を実現できるため、汎用の情報処理装置
で全文検索を効率よく行うことができ汎用性に富む、 (4) 全文検索のデータベースシステムに利用したとき、
その検索ファイルの作成にキーワード抽出を行う必要が
なく、機械入力された論文などの文字列から自動的に検
索ファイルを作成することができるため、データベース
システムを経済的にかつ効率よく構築することが可能で
ある、 (5) 欧文字のように字種の少ない文字からなる文字列
も、その文字列を構成する文字セット種グループで文字
セット位置情報を格納した検索ファイルを作成して検索
することにより、同じ文字列の出現頻度は少ないため各
文字セットの出現頻度を低く抑えることができ、出現頻
度の少ない文字セットでの検索照合を可能とするので高
速検索を可能とする優れた効果がある。

【図面の簡単な説明】

【図１】本発明一実施例に使用する情報検索処理装置の
構成例。

【図２】実施例の検索ファイル例。

【図３】実施例文字セット群一覧。

【図４】実施例文字セットグループアドレス表。

【図５】実施例の検索ファイル例。

【図６】実施例の検索ファイル作成処理手順を説明する
フローチャート。

【図７】実施例の検索処理手順を説明するフローチャー
ト。

【符号の説明】

１ＣＰＵ２メモリ３入出力部４キーボード５ディスプレイ６外部記憶装置制御部７外部記憶装置８共通バス

Claims

【特許請求の範囲】

【請求項１】それぞれが文字列で構成され検索を行う
単位である複数の検索単位によって構成される一連の文
字列であって、この検索単位にはその論理区分にしたが
って属性が定められている一連の文字列を検索対象とし
て所定の検索入力文字列に合致する文字列を抽出する情
報検索方式の検索ファイル作成装置において、上記検索単位が現れるごとに検索単位ごとの昇順の符号
を付与する検索単位識別符号付与手段と、上記検索単位にその属性にしたがって定められている属
性符号を付与する属性符号付与手段と、検索対象となる文字列を各文字ごとにその文字と次に続
く合計ｑ文字（ただしｑは２以上の自然数）からなる文
字セットとし、この文字セットの属する検索単位中での
文字セットの先頭文字位置を示す文字セット位置順序符
号を付与する文字セット位置順序符号付与手段と、上記検索単位識別符号と文字セット位置順序符号と属性
符号とからなる文字セット位置情報を作成して、この文
字セット位置情報を文字セット種ごとの領域に格納して
検索ファイルを作成する手段とを備えた検索ファイル作
成装置。
【請求項２】文字セット位置情報は、｛（検索単位識別符号×ｎ）＋文字セット位置順序符号｝×ａ＋属性符号ｎ：最大検索単位文字数ａ：最大属性数なる数字として与えられる請求項１記載の検索ファイル
作成装置。
【請求項３】それぞれが文字列で構成され検索を行う
単位である複数の検索単位によって構成される一連の文
字列であって、この検索単位にはその論理区分にしたが
った属性が定められている一連の文字列を検索対象とし
て所定の検索入力文字列に合致する文字列を抽出する情
報検索方式において、検索対象となる一連の文字列について、文字列を構成す
る文字ごとに、文字セット列からなり検索を行う単位で
ある検索単位に昇順に付された検索単位識別符号と、検
索単位中でのその文字セットの先頭文字位置を示す文字
セット位置順序符号と、検索単位の論理区分を示す属性
符号とからなる文字セット位置情報を文字セット種別ご
とに格納した検索ファイルを備え、検索入力文字列の構成文字を先頭文字からｑ文字単位の
文字セットに分解した検索入力文字セット列を構成し、
分解した文字セットと同じ文字セットの文字セット位置
情報を上記検索ファイルから取り出す手段と、この取り出した各文字セットの文字セット位置情報間
で、検索単位識別符号が共通で文字セット位置順序符号
の差が検索入力文字列の文字セットの先頭文字位置差に
等しくかつその属性符号が検索入力と等しい文字セット
位置情報の組み合わせを抽出する手段と、この抽出された文字セット位置情報に基づいて検索入力
と等しい文字セット列が属する検索単位および文字セッ
ト構成各文字の検索単位における先頭文字からの位置を
示す文字位置を検索結果として出力する手段とを備えた
情報検索処理方式。
【請求項４】検索入力文字セット列と等しい文字セッ
ト位置情報の抽出は、検索入力の出現頻度の小さい文字
セットから順に行う請求項３記載の情報検索処理方式。
【請求項５】検索対象文字列が記号を含む欧文字列の
場合は、少なくとも３文字記号単位の文字セットで記号
を含む欧文字の文字セット種のみの検索ファイルを用い
る請求項１ないし４のいずれかに記載の情報検索処理方
式。