JP2519130B2

JP2519130B2 - マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置

Info

Publication number: JP2519130B2
Application number: JP3013879A
Authority: JP
Inventors: 忠一菊池
Original assignee: TELEMATIC KOKUSAI KENKYUSHO
Current assignee: TELEMATIC KOKUSAI KENKYUSHO
Priority date: 1991-01-10
Filing date: 1991-01-10
Publication date: 1996-07-31
Anticipated expiration: 2011-07-31
Also published as: JPH04340165A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、情報検索を行う情報検
索処理方式に関する。本発明は、特にマルチキーワード
を用いた部分一致検索を行うことに適し、入力されたマ
ルチ検索入力文字列と登録キーワードとの文字列照合回
数を大幅に削減して、マルチ検索入力文字列に対する部
分一致（中間一致、前方一致、後方一致）や完全一致の
各検索処理を、高速に行うことができる情報検索処理方
式に関する。本発明は、データベースシステムにおいて
マルチキーワード部分一致検索処理を行う情報検索処理
方式に適する。

【０００２】

【従来の技術】従来から、検索対象であるレコードが有
するキーワードの最初から最後まで、検索入力文字列と
の文字列照合を行い、検索者が指定する入力文字列と検
索条件に合致するキーワードからレコード番号をサーチ
する逐次検索方式や、キーワードから検索入力可能な文
字列を作成して索引形式に検索ファイルを格納し、検索
者が指定する入力文字列と検索条件に合致するキーワー
ドを検索ファイルのインデックス構造を利用してサーチ
するインデックス方式がマルチキーワードを用いた部分
一致検索技術として一般的である。

【０００３】

【発明が解決しようとする課題】しかし逐次検索方式で
は、検索対象レコードの有するキーワードの最初から最
後まで、検索入力文字列との照合を行うため、多量のキ
ーワードを有する場合、その検索に多くの時間を要す
る。このため、大規模データベースの検索では、高速な
文字列照合を行う専用のプロセッサやＬＳＩが提案され
ているが、これらの方式では、ハードウエアが限定され
るほか、検索処理を行う計算機と専用プロセッサやＬＳ
Ｉとの間での文字列転送に時間がかかり、システムとし
て満足できる高速性の実現が課題となっている。

【０００４】また、インデックス方式は、部分一致検索
の高速化が可能であるが、検索ファイルが巨大になると
いう欠点がある。このため完全一致、前方一致、後方一
致の検索が使用されているが、中間一致はサポートされ
ていないことが多い。これは、中間一致を行うために、
完全一致、前方一致、後方一致の検索インデックスとは
別に、中間一致用のインデックスが多量に必要になり、
検索ファイルの記憶容量が巨大となること、これに伴い
検索時間が増大すること、および検索ファイルの保守が
容易でないことが主な理由となっている。また、システ
ムによっては検索ファイルの規模の制約から、キーワー
ドの全ての前方一致や後方一致検索がサポートされない
こともある。しかし、検索者はキーワードの中の特徴あ
る文字や文字列を記憶することが多く、このため中間一
致を含む部分一致検索のサポートにより検索がスムーズ
に行なえるようになることが求められている。

【０００５】本発明者は、日本語の場合には、キーワー
ドになりうる単語に同じ文字や同じ文字列が出現する頻
度が低い特徴がある点に着目し、キーワード構成文字を
先頭文字から１文字ずつ、その文字と次に続く合計ｒ文
字で文字セットを作成し、これらを文字セット種ごとに
格納して検索ファイルを作成し、検索時には、検索入力
された任意の文字列の構成文字を先頭文字からｒ文字単
位の文字セットに分解し、分解した文字セットと同じ文
字セットを検索ファイルから取り出し、文字セットの連
続性を照合することにより検索を高速化することができ
ることを見出した。

【０００６】本発明は、上述の観点から巨大なデータベ
ースシステムを対象とするマルチキーワードを用いた部
分一致検索の高速化を実現することができ、しかも特定
のハードウエアに限定されず、検索処理を主記憶上で行
うことにより専用プロセッサやＬＳＩとの文字列の転送
が不要であり、文字セットと文字セット位置に着目する
ことにより任意の文字列検索が可能である汎用性に富む
情報検索処理方式を提供することを目的とする。

【０００７】

【課題を解決するための手段】本発明の第一の特徴は、
複数のキーワードから構成されたレコードを検索単位と
し、各キーワードはそのキーワードの論理区分にしたが
って属性が定められ、このレコードを検索対象として所
定の入力文字列に合致するキーワードのレコードを検索
するマルチキーワード情報検索処理方式の検索ファイル
作成装置において、検索対象となるレコードが現れるご
とに昇順の符号を付与するレコード識別符号付与手段
と、このレコードが有する各キーワードにキーワードの
論理的な区分を示す属性符号を付与するキーワード属性
符号付与手段と、上記レコードの有する全てのキーワー
ドをキーワード属性ごとによって定められた文字位置を
先頭位置とする固定長のキーワード属性領域に配列して
連結されたキーワード列を生成するキーワード列作成手
段と、上記生成されたキーワード列のキーワードを各文
字ごとに分解してその文字と次に続く合計ｒ文字（但し
ｒは２以上の自然数）からなる文字セットを作成し、こ
の文字セットにキーワード中での文字セットの先頭文字
位置を示す文字セット位置順序符号を付与する文字セッ
ト位置順序符号付与手段と、上記レコード識別符号とキ
ーワード属性符号と文字セット位置順序符号とからなり
文字セット位置順序情報を最下位情報とする文字セット
位置情報を作成して、この文字セット位置情報を文字セ
ット種ごとの領域に格納して検索ファイルを作成する手
段とを備えたことを特徴とする。

【０００８】なお、文字セット位置情報は、レコードが
有する各キーワードをキーワード属性符号に対応するキ
ーワード属性領域に配列して作成するキーワード列につ
いて、各キーワードの全ての文字セットを、レコード識
別符号とキーワード属性符号と文字セット位置順序符号
とで整数からなるコードに変換して作成するもので、レ
コード識別符号×ｎ＋（Ｐ_a−１）＋文字位置順序符号ｎ：キーワード列文字数Ｐ_a：キーワード属性符号ａのキーワード属性領域のキ
ーワード列における先頭文字位置なる数字として与えら
れることが好ましい。

【０００９】また本発明の第二の特徴は、第一の特徴で
作成された検索ファイルを備え、検索入力文字列の構成
文字を先頭文字からｒ文字単位の文字セットに分解して
検索入力文字セット列を作成し、この文字セットと同じ
文字セットの文字セット位置情報を上記検索ファイルか
ら取り出す手段と、この取り出した各文字セットの文字
セット位置情報間で、レコード識別符号とキーワード属
性符号が共通で文字セット位置順序符号の差が検索入力
文字列の該当する文字セットの先頭文字位置差に等し
く、かつそのキーワード属性符号が検索入力と等しい文
字セット位置情報の組み合わせを抽出する手段と、この
抽出された文字セット位置情報の組み合わせに基づいて
検索入力文字列に対応するレコード識別符号を検索結果
として出力する手段とを備えたことを特徴とする。

【００１０】なお、検索入力文字列を先頭文字からｒ文
字単位の文字セットに分解したとき、最後の文字セット
が（ｒ−１）以下になり、ｒ文字単位の文字セットを作
成できないことがある。このときには、最後の文字セッ
トの直前の文字セットの後部から不足文字数分の文字を
取り出し、最後の文字セットの前部に連結してｒ文字単
位の文字セットを作成することが好ましい。

【００１１】また、検索入力文字セット列と同じ文字セ
ット列を構成できる文字セット位置情報の組み合わせの
抽出は、検索入力の全キーワードにおける出現頻度の低
い文字セットから順に行うことが好ましい。

【００１２】また、検索入力文字セット列と同じ文字セ
ット列を構成できる文字セット位置情報の組み合わせの
抽出は、検索入力文字セット列の全キーワードにおける
出現頻度の低い文字セットの文字セット位置順序符号を
ｉ、出現頻度の高い文字セットの文字セット位置順序符
号をｊとするとき、（文字セット位置順序符号ｉの文字
セットの文字セット位置情報）−（文字セット位置順序
符号ｊの文字セットの文字セット位置情報）＝ｉ−ｊの
式により行うことが好ましい。

【００１３】なお、キーワードが記号を含む欧文文字列
の場合は、少なくとも３文字記号単位の文字セットと
し、記号を含む欧文字のみの文字セット種グループの検
索ファイルを用いることがよい。

【００１４】また、キーワードが漢字を含む場合は、漢
字については１文字単位の文字位置情報とし、仮名文字
については少なくとも２文字単位の文字セット位置情報
とする検索ファイルを用いることができる。

【００１５】

【作用】文書中に同じ文字列が出現する頻度は低い。例
えば広辞苑の見出し語の説明文書は約900 万字あるが、
その中で仮名文字の出現頻度を調べると平均約53200 回
と高い。しかし、仮名２文字の文字列の出現頻度を調べ
ると平均出現頻度472 回と低くなる。このため仮名2 文
字を文字セットとすると、検索入力がｎ文字の場合、抽
出する照合対象は平均すれば（ｎ／２）×472 個の文字
セット位置情報となる。漢字は文字種が仮名文字より多
いので、漢字２文字の文字列の出現頻度は仮名文字より
低くなり、抽出する照合対象も仮名文字より少なくな
る。一般的に検索入力は数十文字以下であるため、出現
頻度の高い文字を含む文字列であっても、全部の文字を
逐次照合するものに比べるとその照合回数は極めて少な
くなる。

【００１６】例えば、「通信」という２つの文字列を使
用する用語は多々あるとしても「通信・・」という文字
列は「通信回線」、「通信装置」のように４文字で同一
の文字が発生する頻度は非常に低くなる。この結果、
「通信」に続く「回線」や「装置」の文字列を照合する
と、検索対象が急激に絞り込まれていく。このようにし
て、検索入力文字セット列の構成文字セットで検索ファ
イルとの照合を進めていくと、それまでに得られた検索
対象候補のキーワードの中から、検索入力文字セット列
と異なるキーワードが削除され、照合する構成文字セッ
トごとに検索対象が絞り込まれていく。特に、検索入力
の中の全キーワードにおける出現頻度の低い文字セット
から順に照合を行うと一層絞り込まれて照合一致を取る
回数を低減できる。

【００１７】したがって、検索対象となるレコードが有
するキーワードを構成する各文字セットに対応して、レ
コードを特定できるレコード識別符号と、キーワードの
属性を特定できるキーワード属性符号と、キーワード中
の文字セット位置を特定できる文字セット位置順序符号
とから文字セット位置情報を作成し、この文字セット位
置情報を文字セット種ごとに格納して検索ファイルを作
成し、この検索ファイルに対して検索入力文字列との照
合一致を行うことにより文字列検索における照合一致処
理回数を大幅に低減することができる。

【００１８】この検索ファイルの作成は次のように行
う。

【００１９】まず検索対象となる各レコードに登録順序
に従って昇順にレコード識別符号を付与する。次に、各
レコードが有するキーワードの論理的な種別を属性とし
て、その属性を示すキーワード属性符号を付与する。例
えば図書検索システムの場合、図書名、著者名、発行者
名、刊行年、抄録などの属性を示すキーワード属性符号
が付与される。さらに、キーワードの先頭文字から１文
字ずつ取り出し、その文字と次に続く合計ｒ文字で文字
セットを作成し、各文字セットにキーワード中での文字
セットの先頭文字位置を示す文字セット位置順序符号を
付与する。これらのレコード識別符号とキーワード属性
符号と文字セット位置順序符号とから、キーワードの各
文字セットの文字セット位置情報を生成する。このとき
キーワード属性を文字位置で表せるように、キーワード
属性符号ごとにあらかじめ設定されたキーワードの先頭
文字位置が定数として文字セット位置情報に加算される
ようにしている。この文字セット位置情報を文字セット
種ごとにグループ化し、これらの各グループを集合して
検索ファイルを作成する。したがってこの検索ファイル
は、文字セット種ごとに文字セット位置情報が格納され
た形のファイル構造となり、周知の記憶媒体に記憶され
る。

【００２０】検索処理では、検索入力文字列と検索入力
文字列属性とが対で１個以上入力される。各検索入力文
字列について検索入力文字列を先頭文字からｒ文字単位
の文字セットに分解し、検索ファイル中から分解した文
字セットと同じ文字セットの文字セット位置情報を取り
出して、レコード識別符号が共通で文字セット位置順序
符号の差が該当する検索入力文字列の文字セットの先頭
文字位置差に等しく、かつそのキーワード属性符号が検
索入力と等しい文字位セット置情報の組み合わせを照合
して取り出す。取り出した各検索入力に対応する文字セ
ット位置情報の組み合わせから検索入力文字列に対応す
るレコード識別符号を検索結果として取り出す。

【００２１】なお、検索入力文字列を先頭文字からｒ文
字単位の文字セットに分解したとき、最後の文字セット
が（ｒ−１）以下になり、ｒ文字単位の文字セットを作
成できないことがある。このときには、最後の文字セッ
トの直前の文字セットの後部から不足文字数分の文字を
取り出し、最後の文字セットの前部に連結してｒ文字単
位の文字セットを作成する。

【００２２】この照合処理は、検索入力と検索ファイル
との文字セット列の連続性の一致と属性の一致とをみる
もので、検索ファイル中の文字セット位置情報からレコ
ードの識別符号が共通していて文字セット位置順序符号
の差が該当する検索入力文字列の文字セットの先頭文字
位置差に等しくかつキーワード属性符号が同じキーワー
ドを取り出すことにより行う。

【００２３】これにより、検索ファイル中の全キーワー
ドとの照合が不要になり、検索ファイルにある検索入力
と同じ文字セットの文字セット位置情報だけの照合一致
を行えばよいので、照合回数は逐次照合に比べるときわ
めて低減することができる。また、日本語の単語では、
同じ文字列の出現頻度が低いので、ｒ文字単位の文字セ
ットを照合するたびに、検索対象が絞り込まれるので、
照合回数は低減していく。

【００２４】さらに、検索ファイルから取り出した文字
セット位置情報を照合するとき、検索入力の中の全キー
ワードにおける出現頻度の低い文字セットから順に行う
と検索対象が一層絞り込まれ、照合一致をとる回数がさ
らに低減できる。

【００２５】このようにして検索入力に合致する文字セ
ット位置情報を見出したときは検索入力に対応するレコ
ード識別符号に該当するレコードを抽出して、検索者に
検索結果として出力する。

【００２６】

【実施例】以下図面を参照して本発明の実施例を説明す
る。

【００２７】図１は本発明一実施例における情報検索処
理装置の構成を示すものである。

【００２８】本実施例の情報検索処理装置は、各種演算
処理あるいは判断処理を行うＣＰＵ１と、検索処理、検
索ファイル作成等のプログラム、作成されたあるいは検
索処理を行うための検索ファイル、検索入力等を記憶す
るメモリ２、キーボード４、ディスプレイ５を接続する
入出力部３、各種情報が記憶される外部記憶装置７を接
続する外部記憶装置制御部６、ＣＰＵ１、メモリ２、入
出力部３、外部記憶装置制御部６を接続する共通バス８
とを備える。

【００２９】本実施例での情報検索処理は、検索処理に
供するための検索対象となるレコードが有するマルチキ
ーワードから作成するキーワード列について各キーワー
ドの構成文字をキーワード列の先頭文字から１文字ずつ
取り出し、その文字と次に続く文字の合計２文字で文字
セットを作成し、これらの文字セット種を文字セット種
ごとに格納して検索ファイルを作成する検索ファイル作
成処理と、検索ファイルとの照合一致を行って検索入力
に合致するキーワードのレコードを抽出する検索処理と
の二つに分けられる。

【００３０】まず、検索ファイル作成処理について説明
する。

【００３１】この検索ファイル作成処理は、大まかに分
けると、検索ファイル領域確保、各キーワード構成
文字セットへの文字セット位置情報の付与、文字セッ
ト種別ごとにグループ化した文字セット位置情報のファ
イルへの格納の３つに分けることができる。この各処理
についてそれぞれ説明する。

【００３２】検索ファイル領域確保検索ファイルは、図２に示すように、ＪＩＳコード表に
記載されている文字順に配列された文字セット群で構成
される。各文字セット群は図３に示すように、ＪＩＳコ
ード表に記載されている文字順に、記載文字を先頭文字
とする２文字の文字列で構成される文字セットグループ
で構成される。そこで登録するレコードの有するキーワ
ードの先頭文字から１文字ずつ取り出し、その文字と次
に続く合計２文字で文字セットを作成し、これらの文字
セット種ごとに出現頻度を計数する。これにより、検索
ファイルを構成する各文字セット種グループに登録され
る文字セット位置情報の数がわかるので、全文字セット
種グループで構成される検索ファイルの領域を確保でき
る。また同時に、各文字セット種グループに登録される
文字セット位置情報の数から、検索ファイル内に連続し
て格納される文字セット種グループの先頭番地もわか
る。この文字セット種グループの先頭番地を図３の文字
セット群一覧の記載順に配列したのが図４に示す文字セ
ットグループアドレス表である。

【００３３】各キーワード構成文字セットへの文字
セット位置情報の付与ここで述べる文字セット位置情報は、レコードが有する
各キーワードをキーワード属性番号に対応するキーワー
ド属性領域に配列して作成するキーワード列において、
各キーワードを構成するすべての文字セットが属するレ
コードの登録する順番を示すレコード番号と、キーワー
ドにおけるその文字セットの出現する位置をその文字セ
ットの先頭文字の位置で示す文字セット位置番号と、キ
ーワードの論理的な種別を示すキーワード属性番号とで
作成される。

【００３４】まずレコード番号を説明する。例えば、一
般的な図書検索システムでは、図書名、著者名、発行者
名、刊行年、抄録のキーワードで図書を検索する。この
ときレコードは、図書名、著者名、発行者名、刊行年、
抄録のキーワードで構成される検索対象であって、この
レコードが登録される順序に１から昇順に番号を付与し
てレコード番号とする。

【００３５】次にキーワード属性番号を説明する。一般
的に検索者は、検索する図書を特定しやすいキーワード
を検索入力としたり、あるいは記憶しているキーワード
を検索入力する。このため図書検索システムでは、例え
ば図書名、著者名、発行者名、刊行年、抄録の各キーワ
ードにキーワード属性を付加し、検索入力と図書検索シ
ステムのキーワード間に論理的な関連付けを行ってい
る。ここではキーワード属性番号として、図書名に
「１」、著者名に「２」、発行者名に「３」、刊行年に
「４」、抄録に「５」を付与する。

【００３６】次に文字セット位置番号を説明する。キー
ワードごとに、キーワードの先頭から１文字ずつ取り出
し、その文字と次に続く文字の合計２文字で文字セット
を作成し、作成順に１、２、３・・・と昇順に番号を付
与して文字セット位置番号とする。キーワードの最後の
文字にはキーワードの最後を示す特殊記号ＥＭ（エンド
マーク）を付加し、このＥＭ記号と連結させて文字セッ
トとし、文字セット位置番号を付与する。なおＥＭ記号
にはＪＩＳコード表の未使用コードを割り当てる。ここ
では数字９の直後にあるＪＩＳコードＡ３ＢＡを割り当
てる。

【００３７】次にキーワード列を説明する。レコードの
有するキーワードに対する部分一致検索を検索入力文字
セット列との文字セット列照合により実現するために、
レコードの有するすべてのキーワードを連結して文字列
を構成し、これをキーワード列とする。すなわち、各キ
ーワードをキーワード属性番号に対応する固定長のキー
ワード属性領域に配列しキーワード列を作成する。これ
によりキーワード列における文字位置から、その文字セ
ットが属するキーワードの属性がわかる。なお、各キー
ワード属性領域に続いてキーワード属性領域の区切りを
示すＥＮＤ記号がキーワード列に配列される。このＥＮ
Ｄ記号はＪＩＳコード表の未使用コードを割り当てる。
ここではＥＭ記号の直後にあるＪＩＳコードＡ３ＢＢを
割り当てる。

【００３８】そしてこのキーワード列を対象として、レ
コード番号とキーワード属性番号と文字セット位置番号
からキーワードを構成するすべての文字セットを整数か
らなるコードに変換して文字セット位置情報を作成す
る。この文字セット位置情報は、次の式（１）で与えら
れる整数のコードである。文字セット位置情報コード＝レコード番号×ｎ＋（Ｐ_a
−１）＋ｐ…（１）ｎ：キーワード列文字数Ｐ_a：キーワード属性番号ａのキーワード属性領域のキ
ーワード列における先頭文字位置ｐ：文字セット位置番号

【００３９】例えば、キーワード列のキーワード属性領
域サイズが、図書名＝64バイト32文字、著者名＝32バイ
ト16文字、発行者＝64バイト32文字、刊行年＝８バイト
４文字、抄録＝400 バイト200 文字の図書検索システム
において、レコード番号が100 のレコードが、「図書名
＝通信文書の構造」、「著者名＝田中一郎」、「発行者
＝太平洋出版」、「刊行年＝1990」、「抄録＝初めての
人にも〜ている」の場合、キーワード列は図５に示すよ
うになる。このときキーワード列は578 バイト（289 文
字）であるから各文字セットの文字セット位置情報は図
６に示すように構成される。

【００４０】そして、このように文字セット位置情報を
それぞれ４バイトのコードで構成すれば、289 文字数の
キーワード列を２³²÷289 ≒1486万個取り扱うことが可
能である。

【００４１】文字位置情報の検索ファイルへの登録次にこの各文字セットごとに付与された文字セット位置
情報を検索ファイルに登録する。上述のように文字セッ
ト種グループは、ＪＩＳコード表に記載された順に検索
ファイルに格納される。そして各文字セットの文字セッ
ト位置情報を各文字セット種グループに登録する。この
文字セット位置情報の登録は、文字セット種グループの
未格納領域の先頭にそれぞれ文字セット位置情報を格納
することによって行われる。このため、登録順にレコー
ド番号を付与すれば文字セット種グループ内には文字セ
ット位置情報が数値順の昇順に登録されることになる。

【００４２】上述の図書名「通信文書の構造」の文字セ
ット位置情報を検索ファイルに登録した例を図７に示
す。このとき、各グループ内の文字セット位置情報は昇
順に格納される。このファイル容量は、文字セット位置
情報が４バイトであると、

【数１】になる。

【００４３】なお、文字セット位置情報の追加登録は、
追加レコードが有する各キーワードの各文字セットに該
当するグループの未格納領域の先頭に新規コードを追加
することで行う。また、削除は削除レコードが有する各
キーワードの各文字セットに該当するグループ内の該当
文字セット位置情報を特殊記号に変更することによって
行う。これにより追加登録と削除を短時間に行うことが
できる。

【００４４】なお上述のようにこの検索ファイルの各文
字セット種グループごとに格納された文字セット位置情
報は、図４の文字セットグループアドレス表の各文字セ
ットグループ先頭番地をディレクトリとして取り出すこ
とができる。

【００４５】以上の検索ファイルの作成処理の流れを図
８および図９に示す。

【００４６】すなわち、文字セット種の出現度数を計数
して文字セット欄アドレス表を作成し（Ｓ11、12）、検
索ファイルの領域を確保する（Ｓ13）。次にレコード登
録順位カウンタをｋ＝１に初期設定して、レコード番号
を「１」に、キーワード列文字数をｎ＝289 に、キーワ
ード属性領域の先頭文字位置を図書名用としてＰ₁＝
１、著者名用としてＰ₂＝34、発行者名用としてＰ₃＝
51、刊行年用としてＰ₄＝84、抄録用としてＰ₅＝89を
設定する（Ｓ14）。そして最初のレコードを取り出す
（Ｓ15）。ここまでが登録の前処理である。ここからレ
コードごとの登録処理となり、まず、キーワード属性番
号をａ＝１にセットし（Ｓ16）、レコードの中からキー
ワード属性番号ａのキーワードを取り出す（Ｓ17）。さ
らに、キーワードの構成文字数をｍに、文字セット位置
番号をｐ＝１に、キーワード属性番号ａに該当するキー
ワード属性領域の先頭文字位置をＰ_aに設定する（Ｓ1
8）。次に、取り出したキーワードの先頭文字から順
に、文字セット位置番号ｐに相当する文字セット位置情
報をＤ＝ｋ×ｎ＋（Ｐ_a−１）＋ｐ …（２）の式（２）を用いて作成する（Ｓ19）。

【００４７】そして、文字セット位置番号ｐにある文字
セットの文字セット種グループが格納されている検索フ
ァイルの文字セット欄を示す文字セット欄ディレクトリ
（文字セット欄先頭番地）を文字セット欄アドレス表か
ら取り出して（Ｓ20）、文字セット欄ディレクトリが示
す検索ファイルの文字セット欄の未格納行の先頭に文字
セット位置情報を格納する（Ｓ21）。そして、ｐ＝ｐ＋
１、ｍ＝ｍ−１とし、キーワード内のすべての文字セッ
トを処理したところで、ａ＝ａ＋１でキーワード属性番
号を＋１して次のキーワード処理に移る（Ｓ24、Ｓ2
5）。また、レコードが有するすべてのキーワードを処
理すると、ｋ＝ｋ＋１でレコード登録順位カウンタを＋
１して次のレコードの処理に移る（Ｓ26、Ｓ27、Ｓ2
8）。全レコードの処理が終了すると登録処理が終わる
（Ｓ26）。

【００４８】次にこのようにして作成された検索ファイ
ルを用いる検索処理について説明する。

【００４９】本実施例では、検索ファイルから取り出し
た文字セット位置情報を対象として、検索入力文字列と
同じ文字列を含むキーワードを文字列照合し、かつ検索
入力と同じ属性であることを確認後、すべての検索入力
文字列に共通するレコードを検索する例で説明する。

【００５０】まず、その検索処理は大まかに分けると以
下の構成からなっている。検索入力文字列をその先頭文字から２文字単位の文字
セットに分解し、検索入力文字セット列を作成する。検索入力文字セット列の各文字セットに該当する文字
セットグループアドレス表内の文字セットグループ先頭
番地を算出する。検索入力文字セット列を出現頻度の少ない文字セット
から順に並べ変える。並べ変えた文字セット列の先頭から順に該当する文字
セット種グループを検索ファイルから取り出してそこに
格納されている文字セット位置情報から検索入力文字セ
ット列を構成できる文字セット位置情報の組み合わせを
取り出す。抽出した文字セット位置情報から検索入力と同じ属性
を有する文字セット位置情報を取り出し照合一致とす
る。〜を検索入力数分繰り返した後、すべての検索入
力文字列に共通するレコード番号を検索結果として出力
する。

【００５１】次に具体的にそれぞれの処理を説明する。

【００５２】検索入力文字セット列の作成検索ファイルに格納されている文字セットと照合可能な
ように、検索入力文字列を先頭文字から２文字単位の文
字セットに分解し、検索入力文字セット列とする。な
お、検索入力文字列を先頭文字から２文字単位の文字セ
ットに分解したとき、最後に１文字が残り２文字単位の
文字セットを作成できないことがある。このときには、
最後の１文字の直前の文字セットから不足分の１文字を
取り出し、最後の１文字の前部に連結した２文字単位の
文字セットを作成する。

【００５３】各検索入力文字セットに該当する文字
セットグループアドレス表内の文字セットグループ先頭
番地の算出検索ファイルの作成時と同様に、各検索入力文字セット
の図３における文字セット記載順位を算出し、これを文
字セットグループアドレス表における各検索入力文字セ
ットのアドレスポインタとする。

【００５４】出現頻度順の並べ変えそして、検索ファイルの各文字セット種グループの先頭
番地を示す文字セットグループアドレス表の文字セット
グループ先頭番地を参照して、各検索入力文字セットの
出現頻度を調べ、検索入力文字セット列を全キーワード
における出現頻度の低いものから順に並べ変える。上述
のように、文字セットグループアドレス表内の先頭番地
は、検索ファイルに格納されている各文字セット種グル
ープの先頭番地を示しており、次に続く文字セットグル
ープ先頭番地との差をとれば、各文字セット種グループ
に格納されている文字セット位置情報の数から、全キー
ワードにおける文字セット種別出現頻度がわかる。

【００５５】これは出現頻度の低い文字セットから照合
一致を行うことにより、検索ファイルに格納された各文
字セットの文字セット位置情報間の照合回数をきわめて
低減できるためである。すなわち文字セット位置情報を
照合して各文字セットの連続性を調べる場合に二つの文
字セット種グループ内の文字セット位置情報中のレコー
ド番号と文字セット位置番号とキーワード属性番号とを
照合するため、その二つの文字セット種グループ内に格
納されている文字セット位置情報の数が少なければそれ
だけ照合回数を少なくすることができる。したがって、
文字セット位置情報の照合を行うときに、出現頻度の低
い文字セットから照合を行うことが照合回数を低減させ
る。特に検索入力文字が多くなるほど出現頻度の低い文
字セットが含まれる割合が高まるため低減効果は大き
い。

【００５６】文字列の照合出現頻度の低い文字セットから文字セットグループアド
レス表を参照してそれぞれの文字セット種グループに格
納されている文字セット位置情報を取り出す。そして取
り出した文字セット位置情報をもとに、出現頻度の低い
文字セット種グループから順に、各文字セット種グルー
プ間でレコード番号が等しくかつ文字セット位置番号の
差が検索入力文字列の該当する文字セットの先頭文字位
置差に等しい文字セット位置情報の組み合わせを抽出す
る。

【００５７】この文字セット位置情報の照合は、検索入
力文字セット列の全キーワードにおける出現頻度の低い
文字セットの文字セット位置番号をｉ、出現頻度の高い
文字セットの文字セット位置番号をｊとするとき、次の
式（３）で（文字セット位置番号ｉの文字セットの文字セット位置
情報）−（文字セット位置番号ｊの文字セットの文字セ
ット位置情報）＝ｉ−ｊ … （３）となる文字セット位置情報の組み合わせを抽出すればよ
い。

【００５８】この文字セット種グループ間での文字セッ
ト位置情報の照合処理では、出現頻度の低い文字セット
種グループの文字セット位置情報とそれより出現頻度の
高い文字セット種グループの文字セット位置情報との差
を取って文字の連続を照合する。

【００５９】検索入力文字列における任意の文字セット
をＡＢとＣＤとすると、該当する文字セット位置情報を
抽出するには、ＡＢとＣＤとの文字セット位置番号差が
Ｌであるとし、グループＡＢの文字セット位置情報をＡ
_x、グループＣＤの文字セット位置情報をＣ_yとしたと
きＡ_x＋Ｌ＞Ｃ_yならＣ_yを削除Ａ_x＋Ｌ＜Ｃ_yならＣ_xを削除Ａ_x＋Ｌ＝Ｃ_yならＡ_x、Ｃ_yを合致として共に削除というように不連続な文字セット位置情報を照合対象か
ら削除していくことによりその照合回数を削減させる。

【００６０】例えばグループＡＢの文字セット位置情報
が 571 、1140、10230 、11365 、11928 、13069 グループＣＤの文字セット位置情報が 569 、1706、10231 、10235 、11362 文字セット位置番号差Ｌ＝２であった場合、この二つの
グループ間の照合回数は全体で７回だけですみ、グルー
プ内の全ての文字セット位置情報を照合する必要はな
い。

【００６１】キーワード属性番号の照合文字列照合から得られた文字セット位置情報の文字セッ
ト位置番号についてキーワード属性を照合する。すなわ
ち、文字セット位置番号が１〜32ならば文字セット位置
情報のキーワード属性は図書名であり、文字セット位置
番号が34〜49ならば文字セット位置情報のキーワード属
性は著者名であり、文字セット位置番号が51〜82ならば
文字セット位置情報のキーワード属性は発行者名であ
り、文字セット位置番号が84〜87ならば文字セット位置
情報のキーワード属性は刊行年であり、文字セット位置
番号が89〜288 ならば文字セット位置情報のキーワード
属性は抄録であることがわかる。そこで、文字セット列
照合で得られた文字セット位置情報の中から検索入力時
に指定された属性と同じ文字セット位置情報だけを取り
出す。

【００６２】レコード番号の抽出検索入力の数だけ〜を繰り返し、得られた各検索入
力文字列に該当する文字セット位置情報間で、すべての
検索入力文字列に共通するレコード番号を取り出す。な
お、この実施例では検索入力が１個以上の場合について
説明した。また、検索入力が複数の場合には、各検索入
力間で論理積演算を行う例として説明したが、論理積演
算以外の論理演算を伴う複数の検索入力の場合は、照合
結果として残ったレコード番号を各検索入力に対応付け
て指定された論理演算を行って検索入力の論理を満足す
るレコード番号を検索結果として出力する。

【００６３】なお、１検索入力を複数の文字列で指定す
る場合、例えば抄録のような文字数が多い項目を対象と
する場合よくあることであるが、最初の文字列のキーワ
ード属性照合終了後、２番目以降の文字列に対しては、
その文字列の最初の照合文字セットの文字セット種グル
ープから、それまで得られたレコード番号とキーワード
属性番号を有する文字セット位置情報を取り出し、得ら
れた文字セット位置情報を文字セット列照合の先頭文字
の文字セット種グループとして同じ文字列内の他の文字
セットについて照合処理を行う。

【００６４】以上の〜の動作を具体例を挙げて説明
する。

【００６５】検索対象として図書名が指定され、検索入
力文字列としては「通信文書の」が指定されたとする。
この場合図書名のキーワードの属性の属性番号は「１」
とする。

【００６６】検索入力が「通信文書の」であるから、検
索入力文字セットは「通信」と「文書」と「書の」にな
る。全キーワードにおける出現頻度が「通信」＜「文
書」＜「書の」の順であり、照合をこの順序に行うとす
ると、まず検索ファイル中の「通信」の文字セットグル
ープ欄から取り出した文字セット位置情報と「文書」の
文字セットグループ欄から取り出した文字セット位置情
報との間で、検索入力「通信文書の」における「通」と
「文」との文字位置が各々「１」と「３」であるから、
文字セット位置差が「−２」になる文字セット位置情報
を抽出すると、図７の検索ファイルの「通信」内の文字
セット位置情報の「28901 」と「文書」内の「28903 」
とを連続性ある文字セット位置情報の組み合わせとして
抽出することができる。次に「通信」の中で照合結果と
して残った文字セット位置情報と、検索ファイル中の
「書の」の文字セットグループ欄から取り出した文字セ
ット位置情報との間で、文字セット位置差が「−３」に
なる文字セット位置情報を抽出すると、図７の検索ファ
イルの「通信」内の文字セット位置情報の「28901 」と
「書の」内の文字セット位置情報の「28904 」とを連続
性ある文字セット位置情報の組み合わせとして抽出する
ことができる。さらに、キーワード属性は「図書名」で
あるから、これまでの文字セット列照合で残った文字セ
ット位置情報の中から、文字セット位置番号が１〜32の
文字位置情報として、「28901 」と「28903 」と「2890
4 」とを抽出できる。

【００６７】キーワード列の文字数が「289 」であるか
ら、文字セット位置番号は、28901÷289 ＝100 余り１
から、１であることがわかる。またこの文字列が属する
レコード番号は100 であることもわかる。

【００６８】この検索処理動作を図１０および図１１に
フローチャートとして示す。

【００６９】すなわち、キーワード列文字数をｎ＝289
に、キーワード属性領域の文字位置範囲Ｐ_aを図書名は
Ｐ₁＝1 〜32、著者名はＰ₂＝34〜49、発行者名はＰ₃
＝51〜82、刊行年はＰ₄＝84〜87、抄録はＰ₅＝89〜28
8 に、キーワード属性番号をａ＝１に設定し（Ｓ31）、
キーワード属性番号ａの検索入力文字列がある場合には
それを取り出す（Ｓ32、Ｓ33）。ここからは検索入力文
字列の照合処理になる。そこで、検索入力を取り出し、
検索入力文字列の先頭から２文字単位の文字セットに分
割して検索入力文字セット列を作成し、その文字セット
数−１を照合回数ｑとし（Ｓ34、Ｓ35）、検索入力文字
セット列を全キーワードにおける出現頻度の低いものか
ら順に並べ変える（Ｓ36）。そして検索ファイルから、
並べ変えた各文字セットに該当する文字セット種グルー
プに格納されている文字セット位置情報を取り出す（Ｓ
37）。次に検索入力文字セット列の全キーワードにおけ
る出現頻度の低い文字セットの文字セット位置番号を
ｉ、出現頻度の低い文字セットの文字セット位置番号を
ｊとするとき、二つの文字セット種グループ間で、（文
字セット位置番号ｉの文字セットの文字セット位置情
報）−（文字セット位置番号ｊの文字セットの文字セッ
ト位置情報）＝ｉ−ｊである文字セット位置情報の組み
合わせを取り出す（Ｓ38）。同様の処理を検索入力文字
セット列の残りの文字セットについても行い（Ｓ39、Ｓ
40）、残った文字セット位置情報の中から文字セット位
置番号がキーワード属性番号ａの文字位置範囲Ｐ_a内に
あるレコード番号だけを取り出す。文字セット位置情報
から文字セット位置番号を取り出すには、次の式（４）
を用いる。（文字セット位置情報）÷（キーワード列文字数）＝レ
コード番号余り文字セット位置番号…（４）ここまでの処理で、検索入力文字列を文字列として持
ち、さらに検索入力された属性と同じキーワードを有す
るレコード番号がわかる（Ｓ41）。抄録まで同様の処理
を行い、検索入力された属性と同じキーワードを有する
レコード番号を取り出す（Ｓ42、Ｓ43）。すべての検索
入力文字列の照合が終わると、残ったレコード番号を対
象として、すべての検索入力文字列に共通するレコード
番号を検索結果として出力する（Ｓ44）。

【００７０】上記実施例では日本語文書の検索処理の例
を説明したが、他の例として例えば英文字のように字種
の少ない言語の文書では、ＪＩＳコード表の中から、仮
名文字と漢字を除いた字種だけで検索ファイルと文字セ
ット群一覧と文字セットグループアドレス表を作成する
と、日本語文書に比べ文字セットの少ない検索ファイル
が構成でき、日本語文書に比較してコンパクトなマルチ
キーワード検索用検索ファイルが構成でき、またその検
索も容易にできる。この場合、英文字（記号を含む）に
ついてはＪＩＳコードに変えて、例えばＩＳＯコード、
ＡＳＣＩＩコードを用いた文字セットグループアドレス
表を作成し、文字セットは最低３文字で構成されたもの
とすることがよい。

【００７１】なお、マルチキーワード検索の高速性が求
められる場合、文字セットの構成文字数を増加するとま
すます文字セットの出現頻度が低くなり、各文字セット
種グループに格納される文字セット位置情報が少なくな
るため、容易に高速化を実現できる。

【００７２】また、日本語文書の場合に、連続する片仮
名文字または平仮名文字のみを文字セットとし、漢字に
ついては１文字単位とする検索ファイルを作成してもよ
い。漢字はその字種が多く、その出現頻度も低いため、
１文字単位の文字種グループとしても検索の高速化を図
ることができる。

【００７３】

【発明の効果】以上説明したように、本発明は検索対象
となるレコードが有するキーワードの構成文字の文字セ
ット種ごとにその文字セットが属するレコード識別符
号、文字セット位置順序符号、キーワードの種別を示す
キーワード属性番号からなる文字セット位置情報を格納
した検索ファイルを作成し、この検索ファイルを検索入
力の文字列を構成する文字セット種ごとにその文字セッ
ト位置情報を取り出して、検索入力を含む文字列を検索
するようにした。

【００７４】このため、 (1) 検索処理のための文字列照合回数を低減することが
できるため、高速検索を行うことができる、 (2) 文字セットと文字位置に着目して検索処理を行うた
め任意の文字列による検索ができ、 (3) 専用のハードウエアを用いることなくソフトウエア
だけで高速検索を実現できるため、汎用の情報処理装置
でマルチキーワードを用いた部分一致検索を効率よく行
うことができ汎用性に富む、 (4) データベースシステムに利用したとき、その検索フ
ァイルの作成に使用可能な部分一致検索文字列の作成を
行う必要がなく、検索対象となるレコードが有するキー
ワードから自動的に検索ファイルを作成することができ
るため、データベースシステムを経済的にかつ効率よく
構築することが可能である、 (5) 欧文字のように字種の少ない文字からなる文字列
も、同じ文字列の出現頻度は低いため各文字セットの出
現頻度は低くなり、その文字列を構成する文字セット種
グループで文字セット位置情報を格納した検索ファイル
を作成して検索することにより、高速検索を可能にする
優れた効果がある。

【図面の簡単な説明】

【図１】本発明一実施例に使用する情報検索処理装置の
構成例。

【図２】実施例の検索ファイル例表。

【図３】実施例の文字セット群一覧。

【図４】実施例の文字セットグループアドレス表。

【図５】実施例のキーワード例。

【図６】実施例の文字セット位置情報作成例。

【図７】実施例の検索ファイル例。

【図８】実施例の検索ファイル作成処理手順を説明する
フローチャート。

【図９】実施例の検索ファイル作成処理手順を説明する
フローチャート。

【図１０】実施例の検索処理手順を説明するフローチャ
ート。

【図１１】実施例の検索処理手順を説明するフローチャ
ート。

【符号の説明】

１…ＣＰＵ２…メモリ３…入出力部４…キーボード５…ディスプレイ６…外部記憶装置制御部７…外部記憶装置８…共通バス

Claims

(57)【特許請求の範囲】

【請求項１】複数のキーワードから構成されたレコー
ドを検索単位とし、各キーワードはそのキーワードの論
理区分にしたがって属性が定められ、このレコードを検
索対象として所定の入力文字列に合致するキーワードの
レコードを検索するマルチキーワード情報検索処理方式
の検索ファイル作成装置において、検索対象となるレコードが現れるごとに昇順の符号を付
与するレコード識別符号付与手段と、このレコードが有する各キーワードにキーワードの論理
的な区分を示す属性符号を付与するキーワード属性符号
付与手段と、上記レコードの有する全てのキーワードをキーワード属
性ごとによって定められた文字位置を先頭位置とする固
定長のキーワード属性に配列して連結されたキーワード
列を生成するキーワード列生成手段と、上記生成されたキーワード列の各キーワードを各文字ご
とに分解してその文字と次に続く合計ｒ文字（但しｒは
２以上の自然数）からなる文字セットを作成し、この文
字セットにキーワード中での文字セットの先頭文字位置
を示す文字セット位置順序符号を付与する文字セット位
置順序符号付与手段と、上記レコード識別符号とキーワード属性符号と文字セッ
ト位置順序符号とからなり文字セット位置順序符号を最
下位情報とする文字セット位置情報を作成して、この文
字セット位置情報を文字セット種ごとの領域に格納して
検索ファイルを作成する手段とを備えた検索ファイル作
成装置。
【請求項２】文字セット位置情報は、レコードを構成
する各キーワードをキーワード属性符号に対応してキー
ワード属性領域に配列したキーワード列の各キーワード
を構成するすべての文字セットについて、レコード識別符号×ｎ＋（Ｐ_a−１）＋文字セット位置
順序符号ｎ：キーワード列文字数Ｐ_a：キーワード属性符号ａのキーワード属性領域のキ
ーワード列における先頭文字位置なる数字コードとして
与えられる請求項１記載の検索ファイル作成装置。
【請求項３】複数のキーワードが連結されたキーワー
ド列から構成されたレコードを検索単位とし、各キーワ
ードはそのキーワードの論理区分にしたがって属性が定
められ、このレコードを検索対象として所定の入力文字
列に合致するキーワードのレコードを検索するマルチキ
ーワード情報検索処理方式において、検索対象となるレコードの複数のキーワードがその論理
区分に従って固定の文字位置を先頭位置とするキーワー
ド属性領域に配列されたキーワード列について、各キー
ワードを構成する文字ごとに、レコードごとに昇順に付
与されたレコード識別符号と、このレコードが有するキ
ーワードの論理区分を示すキーワード属性符号とキーワ
ード中でのその文字セットの先頭文字位置を示す文字セ
ット位置順序符号とからなり文字セット位置順序符号を
最下位情報とする文字セット位置情報を文字セット種別
ごとに格納した検索ファイルを備え、検索入力文字列の構成文字を先頭文字からｒ文字単位の
文字セットに分解した検索入力文字セット列を構成し、
分解した文字セットと同じ文字セットの文字セット位置
情報を上記検索ファイルから取り出す手段と、この取り出した各文字セットの文字セット位置情報間
で、レコード識別符号とキーワード属性符号が共通で文
字セット位置順序符号が検索入力文字列の該当する文字
セットの先頭文字位置差に等しく、かつそのキーワード
属性符号が検索入力と等しい文字セット位置情報の組み
合わせを抽出する手段と、この抽出された文字セット位置情報の組み合わせに基づ
いて検索入力に対応するレコード識別符号を検索結果と
して出力する手段とを備えたマルチキーワード情報検索
処理方式。
【請求項４】検索入力文字セット列と同じ文字セット
列を構成できる文字セット位置情報の組み合わせの抽出
は、検索入力文字セット列の全キーワードにおける出現
頻度の低い文字セットから順に行う請求項３記載のマル
チキーワード情報検索処理方式。
【請求項５】検索入力文字セット列と同じ文字セット
列を構成できる文字セット位置情報の組み合わせ抽出
は、検索入力文字セット列の全キーワードにおける出現
頻度の低い文字セットの文字セット位置順序符号をｉ、
出現頻度の高い文字セットの文字セット位置順序符号を
ｊとするとき、（文字セット位置順序符号ｉの文字セットの文字セット
位置情報）−（文字セット位置順序符号ｊの文字セット
の文字セット位置情報）＝ｉ−ｊに合致する文字位置情報の組み合わせを抽出する請求項
３または請求項４記載のマルチキーワード情報検索処理
方式。
【請求項６】キーワードが記号を含む欧文字列の場合
は、少なくとも３文字記号単位の文字セットで記号を含
む欧文字の文字セット種のみの検索ファイルを用いる請
求項１ないし請求項５のいずれか記載のマルチキーワー
ド情報検索処理方式。
【請求項７】キーワードが漢字を含む場合は、仮名文
字について少なくとも２文字単位の文字セット種で構成
された検索ファイルを用いる請求項１ないし請求項５の
いずれか記載のマルチキーワード情報検索処理方式。