JPH04274557A

JPH04274557A - フルテキストサーチ方法

Info

Publication number: JPH04274557A
Application number: JP3058311A
Authority: JP
Inventors: Atsushi Hatakeyama; 敦畠山; Hiromichi Fujisawa; 浩道藤澤; Kanji Kato; 加藤　寛次; Hisamitsu Kawaguchi; 川口　久光; Naoki Minegishi; 嶺岸　直材
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1991-02-28
Filing date: 1991-02-28
Publication date: 1992-09-30
Anticipated expiration: 2016-10-22
Also published as: JP3220865B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は，文書データベースを文
字列を指定して文書の全文を対象として探索するフルテ
キストサーチ方式に係わり，特に探索用に補助的なファ
イルを用いて全文探索処理を等価的に高速化するための
検索方法および装置に関する。

【０００２】

【従来の技術】従来の文書検索システムでは，登録する
文書の内容を表す単語（キーワードと呼ぶ）をインデク
スとする方式がとられている。しかし，この方式ではイ
ンデクサーとよばれるキーワード付けの専門家が文書を
逐一読み，内容を理解した上で適切なキーワードを振る
必要があった。この登録時の手間の掛かる作業を回避す
るために，「特開昭６３−１９８１２４」のような本文
中に出現する単語を全てキーワードとしてインデクスフ
ァイルに登録する方法も提案されている。しかし，上記
の方法ではインデクスファイルの作成時に，意味を持つ
最小の単位の単語を決定するのが難しく，単語辞書ある
いは，文法規則の不備のために，文章の解析に失敗して
，重要な単語がキーワードとして抽出されないという問
題がある。

【０００３】この問題を解決するために検索時に文書を
文字コード化したテキストとして直接計算機に登録し，
検索時にはテキストデータベース内の全ての文書の内容
を読んで，与えられたキーワード（従来システムにおけ
る統制キーワードと区別するために，以後検索タームと
呼ぶ）を含む文書を探し出だすフルテキストサーチが提
案されている。このフルテキストサーチ方式は，「情報
処理学会研究報告　　ｖｏｌ．８９，ｎｏ．６６　　情
報学基礎１４−７　　テキストデータベース管理システ
ムＳＩＧＭＡとその応用（１９８９．７．２７）」の第
２節冒頭で述べられているように，テキストファイル全
体を先頭から一文字ずつ走査することが大きな特徴であ
る。こうすることにより，キーワードに対応する文書識
別子等を記述したインデクスファイルがなくとも，テキ
ストデータベースのテキスト本体を手掛かりに検索する
ことが可能となる。すなわち，与えられた検索タームで
テキストデータ全体を文字列探索し，検索タームが記述
されている文書のみを検索結果として出力することがで
きる。しかしながら，このフルテキストサーチ方式は，テキス
トファイル全体を先頭から一文字ずつ走査するために処
理時間が掛かり，大規模なデータベースに適用できない
という問題があった。同文献第２節中にみられるように
，汎用の大型計算機を持ってしても，２ＭＢ／ｓ程度の
検索処理速度しか実現できない。この速度でも，数メガ
バイト程度のデータベースであれば，検索時間は実用域
内に入る。しかし，オフィス等の実用規模のデータベー
スには数百メガバイトの容量が必要とされ，この場合に
は十分な検索レスポンスが得られないことになる。

【０００４】

【発明が解決しようとする課題】本発明の解決しようと
する課題は，実用規模のテキストデータベースを対象と
した場合でも，実用上許容しうる十分な検索時間で検索
結果が得られる文書の全文を検索対象とする高速なフル
テキストサーチ方法および装置を提供することにある。

【０００５】

【課題を解決するための手段】上記課題を解決するため
に，以下の処理ステップから構成されるフルテキストサ
ーチ方法を用い，該方法を実施する装置を構成する。（１）本文自体を格納するステップ（２）格納した本文を単語レベルで部分文字列へ分解し
，分解した部分文字列間で相互に文字列の包含関係を調
べ，他の部分文字列に含まれる文字列を排除した部分文
字列の集合からなる凝縮本文を作成するステップ（３）
本文中で用いられている文字を重複なく集めた文字成分
表を作成するステップ（４）与えられた検索タームを文字レベルで分解し，検
索タームを構成する全ての文字を含む文書のみを抽出す
る文字成分表サーチのステップ（５）文字成分表で抽出された文書に対応する凝縮本文
を参照し，与えられた検索タームを含む文書を抽出する
凝縮本文サーチのステップ（６）与えられた検索条件式が複数の検索ターム間の本
文中での位置関係を指定している場合には，凝縮本文で
抽出された文書に対応する本文データを参照し，与えら
れた検索タームを含み，なおかつ検索ターム間に付与さ
れた位置関係等の検索条件を満たすもののみを抽出する
本文サーチのステップ

【０００６】

【作用】このように，文字成分表サーチ，凝縮本文サー
チと階層的に絞り込みを行い最後に本文サーチを行う階
層型プリサーチ手段を設けることによって，文字成分表
サーチ，凝縮本文サーチで与えられた条件式を満たさな
い文書をテキスト本文を参照する以前に切り捨てて，検
索対象のテキスト本文を探索する量を少なくすることが
できる。すなわち，検索処理時間に占める割合が高い本
文検索処理時間を減らすことによって，全体の検索処理
時間を短縮することが可能となる。例えば，「本文中に
“画像”と“処理”とが同一の文（センテンス）内にあ
る文書を探せ」という二つの検索タームの本文中での位
置的な関係まで指定した条件式が与えられた場合，直接
本文を参照する従来の方法では検索処理速度を２ＭＢ／
ｓと仮定して，５００ＭＢのフルテキストを全て探索す
るのに２５０秒，すなわち約４分掛かる。しかし，階層
型プリサーチでは，典型的な場合で，文字成分表でデー
タベース全件の１０％に，凝縮本文でさらにその１０％
に絞り込めたとすると，凝縮本文の容量が本文の３０％
の場合，文字成分表の容量はデータベース全体からみる
と無視できるほど小さいので，検索すべき凝縮本文の容
量は１５ＭＢで，本文データの探索量は全データベース
量の１％，すなわち５ＭＢとなるため，２ＭＢ／ｓの検
索速度でも，１０秒で検索処理を終了できることになる
。このように，「階層型プリサーチ方式」では，「文字
成分表」と「凝縮本文」という２段階のプリサーチを事
前に行い，それぞれ「文字レベル」と「単語レベル」の
ふるいに掛け，最も時間を要する本文サーチの対象とな
る文書数をあらかじめ最小に絞り込んでおくことによっ
て，探索文書容量を削減することができるため，等価的
に非常に高速なフルテキストサーチが実現できることに
なる。また，条件式が単一の検索タームあるいは複数の検索タ
ームでのＡＮＤ，ＯＲ，ＮＯＴ条件の場合には，凝縮本
文サーチでの結果をそのまま最終検索結果とすることが
できる。なぜなら，凝縮本文中に存在している単語は，
必ず本文中にも存在するためもう一度本文を検索する必
要がないためである。このように，「単語レベル」での
検索では処理時間のかかる本文サーチをまったく省略す
ることができるため，より一層全体の検索処理時間を短
縮することが可能となる。以上の処理ステップから構成
されるフルテキストサーチ方法によれば，直接本文を探
索する量を予め少なくすることができるため，高速なフ
ルテキストサーチが可能となる。

【０００７】

【実施例】以下，本発明の第一の実施例について図１を
用いて説明する。本装置は，ディスプレイ１００，キー
ボード１０１，中央制御装置ＣＰＵ１０２，文字成分表
１０５，凝縮本文１０４，及び本文１０３格納用ファイ
ル１１０，フロッピディスクドライバ１０６，主メモリ
２００から構成される。

【０００８】主メモリ２００には，本文登録プログラム
２０１，凝縮本文作成登録プログラム２０２，文字成分
表作成登録プログラム２０３，文字成分表サーチプログ
ラム２０４，凝縮本文サーチプログラム２０５，本文サ
ーチプログラム２０６，階層型プリサーチ制御プログラ
ム２０７が格納されるとともに，データエリア２０８が
確保されている。これらのプログラムはＣＰＵ１０２で
実行される。文書の登録の際は，キーボード１０１から
入力されるコマンドにより，ＣＰＵ１０２がフロッピデ
ィスクドライバ１０６に挿入されるフロッピディスクか
ら文書データを読込み，本文登録プログラム２０１を実
行して読み込んだ文書データを本文１０３としてファイ
ル１１０へ格納する。次にＣＰＵ１０２は，凝縮本文作
成登録プログラム２０２を実行して，本文１０３を単語
レベルで部分文字列へ分割し，分割した部分文字列間で
相互に文字列の包含関係を調べ，他の部分文字列に含ま
れる文字列を排除した部分文字列の集合からなる凝縮本
文を作成し，これを凝縮本文１０４としてファイル１１
０へ格納する。最後にＣＰＵ１０２は，文字成分表作成
登録プログラム２０３を実行して，本文１０３中で用い
られている文字を重複なく集めた文字成分表を作成し，
これを文字成分表１０５としてファイル１１０へ格納す
る。

【０００９】検索の際には，キーボード１０１から入力
された検索条件式が，ＣＰＵ１０２に送られる。ＣＰＵ
１０２では，まず階層検索制御プログラム２０７を実行
し，その制御に基づいて文字成分表サーチプログラム２
０４，凝縮本文サーチプログラム２０５，本文サーチプ
ログラム２０６を順次実行する。すなわち，文字成分表
サーチでは，入力された検索条件式中の検索タームを文
字レベルで分解し，検索タームを構成する全ての文字を
含む文書のみを抽出する。そして，文字成分表で抽出さ
れた文書に対応する凝縮本文を参照し，与えられた検索
タームを含む文書を抽出する。もし，与えられた検索条
件式中に単一の検索タームか，もしくは複数の検索ター
ム間の論理的な関係が指定されているのみで，本文中で
の位置関係までは指定されていない場合には，ここで検
索を終了し，凝縮本文サーチの結果を検索結果として出
力する。それ以外の場合，すなわち与えられた検索条件
式中に複数の検索ターム間の本文中での位置関係が指定
されている場合には，凝縮本文サーチで抽出された文書
に対応する本文データを参照し，与えられた検索ターム
を含み，なおかつ検索ターム間に付与された位置関係等
の検索条件を満たすもののみを抽出し，検索結果として
出力する。以上が本発明の第一の実施例のフルテキスト
サーチ装置の概略である。

【００１０】以下，本発明の特徴である文字成分表サー
チ，凝縮本文サーチ，及び本文サーチと絞り込みを行う
階層型プリサーチ方式の，登録及び検索方法について概
略を説明する。まず「凝縮本文」と「文字成分表」の作
成は，文書の登録時に自動的に行う。この処理内容を，
図２に示す。本図で，登録すべき文書が入力されると，
まずそのまま「本文」として格納する。　　次に，この
「本文」から「凝縮本文」を作成する。「凝縮本文」は
，「本文」の中から文字種（漢字、ひらがな、カタカナ
、英字等）ごとに文字列を分割し，繰り返し現れる言葉
の重複を排除して作成される。本文が「あいまい検索の
ための検索技術・・・・・」という文書１の場合には，
「検索」が重複語として切り捨てられ，「あいまい」と
「検索技術」及び「のための」が「凝縮本文」として残
ることになる。また，「本文」から「文字成分表」を作
成する。ここでは，「本文」に現われる文字を１ビット
の情報で表す。文書１の例では，「あ」と「い」がある
のでそれぞれ‘１’を，また「う」はないので‘０’を
設定する。「検」と「索」も同様にそれぞれ‘１’を設
定する。以下同様にして，文字成分表の該当文字部分に
，「本文」にその文字がある場合には‘１’を，存在し
ない場合には‘０’を設定する。このようにして，文書
の登録時に「凝縮本文」と「文字成分表」を自動的に作
成し，階層型プリサーチの準備をしておく。

【００１１】検索時には，図３に示すように，登録の逆
の順序でこれらの補助ファイルを参照する。まず第１に
，文字成分表サーチでは，文字成分表を参照し，検索タ
ーム中の全ての文字に対応する文字成分表の該当文字部
分に‘１’が設定されているものを選びだす。第２に，
凝縮本文サーチでは，文字成分表で選びだされた文書の
凝縮本文を参照し，条件式に与えられた検索タームを含
む文書を選びだす。最後に本文サーチでは，検索ターム
の本文での出現位置が条件式と適合するもののみを選び
だす。本図の例では，検索［４Ｃ］理解すなわち，「“検索”と“理解”が本文中で４文字以内
に近接して現れるものを探せ」という条件式で検索した
例を示している。結果として文書４の“検索”と“理解
”が本文中で４文字離れている文書が抽出される。

【００１２】以下，本実施例で用いる文字種分割・重複
語排除型凝縮本文及び文字コード依存型文字成分表の作
成方法と，これらを用いた階層型プリサーチの制御方法
について具体的に説明する。まず最初に本実施例で用い
る文字種分割・重複語排除型凝縮本文の作成方法につい
て説明する。図４に示すように，まず本文テキストから
文字種により文字列を分割する。この時の文字種とは，
漢字，ひらがな，カタカナ，英字，数字，記号その他で
ある。これらの単一文字種の連なりからなる文字列毎に
本文の文字列を分割する。次に，分割した文字列のそれ
ぞれについて，同一文書内にある他の部分文字列にその
部分文字列がそっくり含まれてしまう場合，その文字列
を重複文字列として凝縮本文の対象から排除する。例え
ば，“検索”という部分文字列は，同一文書内にある他
の“知的検索技術”という部分文字列に完全に含まれる
ので，この“検索”は凝縮本文には登録しない。しかし
，凝縮本文サーチでは，たとえ“検索”という文字列は
凝縮本文に登録されていなくとも，“知的検索技術”の
部分文字列としてヒットすることになる。このように，
部分文字列の重複登録を排除して，得られた部分文字列
には，図５に示すように文書毎に文字列の間にセパレー
タを挿入する。本図では，セパレータとして記号‘，’
を用いている。図２，図３ではこのセパレータは記号‘
｜’で表されているが，このセパレータは特に文字とし
て表す必要はなく，文字に割り当てられていない特殊な
コードを使用することもできる。

【００１３】次に本実施例で用いる文字コード依存型文
字成分表の作成方法について説明する。図６に示すよう
に，文字コード依存型文字成分表は，文字コードによっ
て存在を示すビット情報として，１を立てるビット位置
を決定する文字成分表である。本図ではシフトＪＩＳコ
ードを例に説明している。同図で（ＸＸＸＸ）Ｈは文字
コードを１６進表示したものである。例えば“検索”と
いう文字列が文書１の本文中に存在することを示すのに
，文書１のビットリストの（８Ｃ９Ｆ）Ｈ，（８ＤＦ５
）Ｈ番目に１を設定する。ビットリスト中のこの文字に
対応するビット位置を文字成分表のエントリ番号と呼ぶ
ことにする。例えば‘検’のエントリ番号は（８Ｃ９Ｆ
）Ｈ，または１０進表示すれば３５９９９となる。

【００１４】以上の文字成分表と凝縮本文を用いた階層
型プリサーチの制御及びサーチ動作について説明する。まず検索条件式中の検索タームをそれぞれ一文字単位に
分解し，文字成分表サーチを行う。ここでは与えられた
検索タームを構成する文字コードに対応するビットリス
ト中のエントリ番号の位置がすべて１となるビットリス
トを持つ文書を求めることとなる。例えば，“検索”と
いう文字列が検索タームとして与えられた場合，‘検’
，‘索’に対応するビットリストの（８Ｃ９Ｆ）Ｈ，（
８ＤＦ５）Ｈ番目のビットがすべて１である文書１，２
，３，４，．．．を文字成分表サーチの検索結果とする
。すなわち，図７に示すように‘検’を示す（８Ｃ９Ｆ
）Ｈのエントリ番号のビットリスト７０１と，‘索’を
示す（８ＤＦ５）Ｈのエントリ番号のビットリスト７０
２との間でビット毎にＡＮＤ演算を施し，ビットＡＮＤ
演算結果７０３を得る。このビットＡＮＤ演算結果７０
３のビットリスト中で，１となっているビット位置に対
応する文書番号が文字成分表サーチの検索結果としての
ヒット文書を表すことになる。すなわち，‘検’と‘索
’を全て含む文書が抽出されることになる。また，“湖
”のように検索タームがただ１個の文字から構成される
場合は，ここで文字成分表サーチの結果を出力して検索
を終了することができる。

【００１５】次に文字成分表サーチで抽出された文書の
凝縮本文に対してサーチを行う。ここでは図５のように
文書毎に登録された凝縮本文の内容をスキャンして，与
えられた検索タームを単語として含む文書を抽出する。つまり，‘検’と‘索’の２文字が“検索”と連続して
現れる文書のみを抽出する。すなわち，‘検’と‘索’
が含まれていても，“検出”と“探索”というように，
別の単語として現われるようなものはここで切り捨てて
しまう。このためには，文字成分表サーチで絞り込まれ
た文書毎の凝縮本文について本文テキストデータと同じ
ように，一文字ずつスキャンしながら探索する。この時
，文字成分表サーチで得られた結果の文書番号に対応す
る凝縮本文しかスキャンしない。例えば，文字成分表サ
ーチの結果が文書番号１，２，３，４，．．．であれば
，凝縮本文サーチでは，文書番号１，２，３，４，．．
．の凝縮本文をスキャンする。そして，実際に凝縮本文
中に検索タームが存在する文書を凝縮本文サーチの検索
結果として出力する。

【００１６】このように，「階層型プリサーチ方式」で
は，「文字成分表」と「凝縮本文」という２段階のプリ
サーチを事前に行い，それぞれ「文字レベル」と「単語
レベル」のふるいに掛け，最も時間を要する本文サーチ
の対象となる文書数をあらかじめ最小に絞り込んでおく
ことによって，探索文書容量を削減することができるた
め，等価的に非常に高速なフルテキストサーチが実現で
きることになる。すなわち，文字成分表サーチでは，文
字成分表が文字の存在を１ビットの情報で表しているた
め，サーチするデータ容量を極めて小さくすることがで
き，その結果検索時間も短時間に納めることが可能とな
る。さらに，キーワードを構成する文字毎のビットリス
トの論理積を取ることによって，キーワードに関連のな
い文書を大幅に切り捨て，以降の対象文書を格段に絞り
込むことが可能となる。また，凝縮本文サーチでは，本
文を直接スキャンするよりもデータ量が少ない分，検索
処理時間が短縮できることになる。

【００１７】次に，本発明の第二の実施例を説明する。本実施例は，複数の検索タームが指定された場合でも，
効率的に階層型プリサーチを行うことのできるフルテキ
ストサーチ方法を提供するものである。例えば，「“検
索”ＡＮＤ“理解”」という条件式が与えられたときに
は，まず，第１ステップとして文字成分表をサーチする
。ここでは与えられた検索ターム毎にそのすべての文字
を含む文書を探し，その後検索ターム間で与えられた条
件を満たすような文書を出力する。「“検索”ＡＮＤ“
理解”」という条件式の場合には，“検索”の２文字を
含み，かつ“理解”の２文字を含む文書を探す。すなわ
ち，「（‘検’ＡＮＤ‘索’）ＡＮＤ（‘理’ＡＮＤ‘解’）」従って，「‘検’ＡＮＤ‘索’ＡＮＤ‘理’ＡＮＤ‘解’」つまり，上記の４文字を同時に含む文書を検索する。次
に，この文字成分表サーチの結果絞り込まれた文書の凝
縮本文をサーチする。ここでは，指定されたキーワード
が単語として現われる文書だけを抽出する。すなわち，
“検索”と“理解”を両方同時に含む文書を検索する。

【００１８】この例の場合のように，検索ターム間の関
係が“ＡＮＤ”，“ＯＲ”等の論理条件だけで，その他
にキーワード間の位置関係を規定する条件が指定されて
いない場合には，ここで検索を終了し，凝縮本文サーチ
の結果を最終検索結果として出力する。もし，位置条件
が指定されている場合には，凝縮本文サーチで抽出され
た文書の本文をサーチし，指定条件に合致するものを抽
出し，これを最終検索条件として出力する。以上が本実
施例における検索動作の説明である。このように，文字
成分表サーチ，凝縮本文サーチで検索ターム間の論理積
を取ることにより，複数個の検索タームが指定された場
合でも，効率的に階層型プリサーチを行い，高速なフル
テキストサーチを実現することができる。

【００１９】これより第三の実施例として，さらに一般
的に階層型プリサーチの検索制御について詳細に説明す
る。図８にこのときの階層型プリサーチの制御の手順を
ＰＡＤ図にて説明する。ここでは「“計算機”と“知的
インタフェース”のどちらかを含む文書を探せ」すなわ
ち「“計算機”ＯＲ“知的インタフェース”」という検索
式を例にあげて説明する。まず，最初にステップ８００
０で文字成分表サーチを行う。ここでは与えられた検索
ターム毎にそのすべての文字を含む文書を探し，その後
検索ターム間に与えられた複合条件を満たすような文書
を出力する。この例では，図９に示すように“計算機”
を構成する３個の文字のそれぞれについて文字成分表の
該当するエントリ番号間のビットＡＮＤ演算を行い，次
に同様に“知的インタフェース”を構成する９個の文字
のそれぞれについて文字成分表の該当するエントリ番号
間のビットＡＮＤ演算を行い，最後に先に作成した“計
算機”に対するのときのビットＡＮＤ演算結果とそのビ
ット列のＯＲ演算を行う。すなわち，「（‘計’ＡＮＤ
‘算’ＡＮＤ‘機’）ＯＲ（‘知’ＡＮＤ‘的’ＡＮＤ‘イ’ＡＮＤ‘ン’ＡＮＤ
‘タ’ＡＮＤ‘フ’ＡＮＤ‘ェ’ＡＮＤ‘ー’ＡＮＤ‘
ス’）」という検索式を実行することになる。これにより，“計
算機”を構成する３個の文字をすべて含む文書，もしく
は“知的インタフェース”を構成する９個の文字をすべ
て含む文書が抽出される。以上の文字成分表サーチの結
果件数が０件であれば，第８図に示すようにここで０件
という検索結果を出力して検索を終了する。また，‘湖
’のように検索タームがただ１個の文字から構成される
場合も，ここで文字成分表サーチの結果を出力して検索
を終了する。

【００２０】もし，検索タームが複数の文字で構成され
ていて，かつ文字成分表サーチの結果件数が０件でなけ
れば，次に凝縮本文サーチを行う。凝縮本文に登録され
ている内容は，文字種ごとに分割された文字列である。例えば，“知的インタフェース”のように，途中で文字
種が異なれば凝縮本文では部分文字列へ分解され，「知
的，インタフェース」のように分割点にセパレータが入
る。したがって，“知的インタフェース”のように異な
る文字種から構成される検索タームの場合，このままで
は凝縮本文をサーチしても該当する文字列が存在しない
ことになる。そこで，凝縮本文サーチに入る前に検索タ
ームをチェックし，異なる文字種で構成される検索ター
ムはこれを文字種毎に分割する。このように文字種で分
割するという処理を施した検索タームを元々の検索ター
ムと区別して，分割検索タームと呼ぶ。そして凝縮本文
サーチは，例えば“計算機”，“知的”，“インタフェ
ース”のように分割検索タームで検索する。ただし，分
割検索タームに関しては，分割元を同じくするターム間
でＡＮＤ条件で検索を行う。例えば，「“計算機”ＯＲ“知的インタフェース”」という条件
式の場合，凝縮本文サーチでは「“計算機”ＯＲ（“知的”ＡＮＤ“インタフェース”）」すなわち，「
“知的”と“インタフェース”が同一文書内に存在する
か，または“計算機”が存在する文書を探せ」という条
件式として検索を行うことになる。

【００２１】凝縮本文サーチの結果が０件であれば，こ
こで０件という検索結果を出力して検索を終了する。　
　また近傍条件，または文脈条件の指定の有る場合，あ
るいは“知的インタフェース”のような分割される検索
タームがある場合，つまり検索タームと分割検索ターム
が異なる場合に限り本文サーチを行う。そうでない場合
，ここで階層型プリサーチを終了し凝縮本文の結果を検
索結果として出力する。ここで，文脈条件とは例えば，
「“計算機”［Ｓ］“知的インタフェース”」のように
示される条件式でこれは，「“計算機”と“知的インタ
フェース”が同一の文（センテンス）内にあるものを探
せ」という意味を表す。あるいは近傍条件とは，例えば
，「“計算機”　　［１０Ｃ］　　“知的インタフェース
”」のように記述されるもので，これは，「“計算機”
と“知的インタフェース”が１０文字以内に近接して現
れる文書を探せ」という意味を表す。すなわち，文脈条
件，近傍条件とも文書中に出現する検索タームの位置関
係を指定する検索条件のことである。

【００２２】このような本文中に現れる検索タームの位
置関係を指定した検索条件が与えられた場合，もしくは
凝縮本文中ではセパレータで区切られた途中で文字種の
変わる検索タームが与えられた場合には，凝縮本文サー
チの結果に対応する本文データを参照し，与えられた条
件通りに本文中に検索タームが出現するもののみを検索
結果として出力し，検索を終了することになる。このよ
うに，検索タームが異なる文字種で構成されている場合
，或いは検索ターム間の本文中での出現位置に関する条
件指定がある場合についても，効率的に階層型プリサー
チを行い，高速なフルテキストサーチを実現することが
できる。

【００２３】次に，本発明の第四の実施例について説明
する。本実施例は，第一の実施例における文字成分表の
容量を削減し，コンパクトにしたものである。第一の実
施例で用いた文字コード依存型文字成分表は，処理が簡
単であるが，文字成分表の１文書あたりのビットリスト
が長いため文字成分表が大きくなるという問題がある。また，該当する文字コードが存在しないのにエントリ番
号を割当てているためむだな部分が多いという問題があ
る。例えばシフトＪＩＳの場合，（００００）Ｈから（
８１４０）Ｈの間，及び（Ａ０００）Ｈから（Ｅ０４０
）Ｈの間，つまり０番目から３３０８７番目までと４０
９６０番目から５７４０８番目までのエントリ番号には
該当する文字コードがない。それにもかかわらず，文字
コードによってエントリ番号を決定するためにこの部分
も全て表のエントリとして持っている必要がある。この
ビットリスト中のむだな部分を排除するために一旦文字
コードを変換し，ビット位置を０番目からすきまなく使
用できるように文字成分表を作成する。この文字コード
変換型文字成分表を用いた実施例の詳細について以下説
明する。

【００２４】文字コード変換型文字成分表を作成するた
めの文字コードへの変換式の例として次式をあげる。ま
た，対応するＰＡＤ図を図１０に示す。ｉｆ　　　　ＳＪＩＳ　　＜　　（Ａ０００）Ｈｔｈｅ
ｎＳＣＯＤＥ　　＝　　ＳＪＩＳ　　−　　（８０４０）
ＨｅｌｓｅＳＣＯＤＥ　　＝　　ＳＪＩＳ　　−　　（Ｃ０４０）
ＨＳＣＯＤＥ　　＝　　ＳＣＯＤＥ　　−　　（ＳＣＯ
ＤＥ／２５６）×６４・・・・・・・　　（４−１）式
（但し、通常文字コードの小さい値の部分は制御コード
として用いることが多いために、本式では（８１４０）
Ｈとはせずに（８０４０）Ｈとして多少の余裕を持たせ
ている。また、（ＳＣＯＤＥ／２５６）の演算結果の小
数点以下は切り捨て、切り捨てた結果と６４との乗算を
行う。）式中でＳＪＩＳがもとのシフトＪＩＳコードを示し，Ｓ
ＣＯＤＥは変換後の文字コードを示す。ＫＥＩＳコード
や他のコード体系についてもシフトＪＩＳコードとの対
応がとれているので同様の式でＳＣＯＤＥへの変換が可
能である。（４−１）式は，文字コード表に表すと図１
１のような変換を意味している。すなわち，（００００
）Ｈから（ＦＦＦＦ）Ｈまでの間に（８１４０）Ｈ〜（９ＦＦＣ）Ｈ　　及び　　（Ｅ０４
０）Ｈ〜（ＦＥＦＣ）Ｈと分散して配置されている文字コードを，（００００）
Ｈ　　からすきまなく配置するように文字コードを変換
することになる。この（４−１）式を用いてコード変換
することにより，図１２に示すようにビットリストの長
さを非常に短くすることができ，文字成分表の全体の容
量を小さくすることができる。

【００２５】階層型プリサーチの制御は，第一の実施例
と同じである。すなわち，図８の制御手順をそのまま使
用し，第１に検索ターム中の文字を使い文字成分表サー
チを行い，第２に検索タームを用いて凝縮本文サーチを
行う。文脈条件の指定がなければここで検索結果を出力
し，検索を終了する。文脈条件の指定があれば第３に本
文サーチを行いその結果を出力する。但し，文字成分表
サーチのときには入力された検索タームは全て（４−１
）式に基づいて文字コード変換を施して用いることにな
る。以上，文字コード変換型文字成分表を用いた第四の
実施例について説明した。本実施例によれば，文字コー
ドをコード変換し，ビット位置を０番目からすきまなく
並べた文字成分表を作成することにより，文字成分表の
文字の割り振られていないエントリを無くすことができ
，文字成分表の容量を非常に小さくすることができる。

【００２６】次に，本発明の第五の実施例について説明
する。本実施例は，第四の実施例における文字成分表の
容量をハッシング手法を用いてさらに削減したものであ
る。第四の実施例の文字成分表の容量をさらに小さくす
るために，本実施例ではビットリスト中の一つのエント
リ番号に複数の文字を割り当てる。すなわち，ハッシュ
関数を用いて検索ターム中の文字とビットリスト中のビ
ット位置を対応付ける方法をとる。このハッシュ関数と
して例えば次の式を用いることができる。ｈ（ＳＣＯＤＥ）　　＝　　ｍｏｄ（ＳＣＯＤＥ，Ｎ）
・・・・・・　　（５−１）式式中でＳＣＯＤＥは（４−１）式によってシフトＪＩＳ
から変換した文字コードである。ｍｏｄは第１引き数を
第２引き数で割った余りを出力する関数である。Ｎは任
意の整数値である。Ｎとして，例えば５１２を用いると
，‘あ’はエントリ番号４８０，‘ま’はエントリ番号
１９３となる。

【００２７】このようにして作成した文字成分表の例を
図１３に示す。この場合は，Ｎを５１２と設定したが，
１文書を登録するのに５１２ビットしか必要としないこ
とが分かる。検索時には，与えられた検索タームの各文
字について登録時と同じように，（５−１）式のハッシ
ュ関数を用いてエントリ番号を求め，これに対応する文
字成分表のビット位置を参照する。例えば，“あいまい
”という文字列の場合図１３のようにエントリ番号４８
０，４８２，１９３の位置のビットがすべて１の文書を
文字成分表サーチの検索結果とする。こうして文字成分
表サーチで求められた文書について，次にその凝縮本文
をサーチする。

【００２８】以下，凝縮本文サーチ及び本文サーチの制
御手順について，図１４を用いて説明する。第一の実施
例では，文字成分表サーチの後検索タームが一文字から
なる場合には，文字成分表サーチの結果を検索結果とし
て出力して階層型プリサーチを終了していた。しかし，
この本実施例で用いた文字成分表の文字成分表サーチで
は，検索ノイズの生じる可能性があるために，凝縮本文
サーチまで階層型プリサーチを継続する必要がある。例
えば，ひらがなの‘は’（シフトＪＩＳコード（８２Ｃ
Ｄ）Ｈ）は，（５−１）式でエントリ番号１３であるが
，漢字の‘艦’（シフトＪＩＳコード（８ＡＣＤ）Ｈ）
も同じエントリ番号１３となる。このことは，検索ター
ムとして“艦”が与えられた場合，“は”を含む文書も
すべて文字成分表サーチの結果として検索されてくるこ
とになる。したがってさらに，凝縮本文をスキャンして
実際に漢字の“艦”を含む文書を抽出し，これを検索結
果として出力することになる。以上，第五の実施例につ
いて説明した。本実施例ではハッシュ関数を使って，文
字成分表の１エントリに複数個の文字を割り当てること
により，文字成分表の容量を格段に小さくできるという
効果が得られる。

【００２９】次に第六の実施例について説明する。第五
の実施例のように単純にハッシングした場合，ひらがな
のように文書中に出現しやすい文字と，ＪＩＳ第２水準
の漢字のようにめったに出現しない文字とが同じエント
リ番号となる可能性がでてくる。例えば，ひらがなの‘
は’と，漢字の‘艦’は同じエントリ番号１３となり，
検索タームとして“艦”が与えられた場合‘は’を含む
文書はすべて文字成分表サーチの結果としてヒットする
ことになる。ひらがなの‘は’は日本語の文書では非常
に使用頻度の高い文字のためほぼ全件の文書が文字成分
表サーチでヒットする。このように文字成分表サーチで
の絞り込みの率が低下すると，凝縮本文もスキャンする
文書量が増えるために全体の検索処理時間が増大するこ
とになる。

【００３０】このような絞り込み率の低下を防ぐために
は，ハッシュ関数を文字の使用頻度を考慮して定める必
要がある。本実施例で用いる文字成分表を文字種別ハッ
シング型文字成分表と呼ぶ。文字種別ハッシング型文字
成分表を作成するには，例えば図１５に示すように，各
文字種毎に文字成分表のエントリ領域を割り当て，その
領域内で文字コードにより折り返すようなハッシュ関数
を作る。このようなハッシュ関数を実現するには，文字
コードによって文字種を判定した後，ｍｏｄ関数で折り
返してもよいし，文字コードとエントリ番号との対応表
により実現することもできる。このハッシュ関数の一例
を図１６にＰＡＤ図で示す。本実施例では，ひらがな，
カタカナ，英字のエントリ数をそれぞれ２０とし，記号
のエントリ数を１０，数字のエントリ数を１０，ＪＩＳ
第１水準のエントリ数を３７０，ＪＩＳ第２水準のエン
トリ数を６１としている。まず，入力された検索ターム
に対して，文字コードにより文字種を判定し，それぞれ
の文字種ごとに文字成分表の割り当てられたエントリの
部分をｍｏｄ関数を用いて折り返す。

【００３１】すなわち，ＳＣＯＤＥが（０１ＤＦ）Ｈか
ら（０２３１）Ｈの範囲にあれば，ひらがな文字列であ
るので，そのＳＣＯＤＥを２０でｍｏｄをとってこれを
エントリ番号とする。ＳＣＯＤＥが（０２４０）Ｈから
（０２９６）Ｈの範囲にあれば，カタカナ文字列である
ので，そのＳＣＯＤＥを２０でｍｏｄをとって，これに
カタカナのハッシング領域の先頭である２０を足した値
をエントリ番号とする。ＳＣＯＤＥが（０１Ａ０）Ｈか
ら（０１ＤＡ）Ｈの範囲にあれば，英字文字列であるの
で，そのＳＣＯＤＥを２０でｍｏｄをとって，これに英
字のハッシング領域の先頭である４０を足した値をエン
トリ番号とする。ＳＣＯＤＥが（０１８Ｆ）Ｈから（０
１９８）Ｈの範囲にあれば，数字文字列であるので，そ
のＳＣＯＤＥを１０でｍｏｄをとって，これに数字のハ
ッシング領域の先頭である７０を足した値をエントリ番
号とする。ＳＣＯＤＥが（０６５Ｆ）Ｈから（１２３２
）Ｈの範囲にあれば，ＪＩＳ第１水準の漢字文字列であ
るので，そのＳＣＯＤＥを３７０でｍｏｄをとって，こ
れにＪＩＳ第１水準の漢字文字列のハッシング領域の先
頭である８０を足した値をエントリ番号とする。ＳＣＯ
ＤＥが（１２５Ｆ）Ｈから（１ＦＤＥ）Ｈの範囲にあれ
ば，ＪＩＳ第２水準の漢字文字列であるので，そのＳＣ
ＯＤＥを６１でｍｏｄをとって，これにＪＩＳ第２水準
の漢字文字列のハッシング領域の先頭である４５０を足
した値をエントリ番号とする。以上のＳＣＯＤＥ以外の
場合には，記号その他の文字種による文字列とみなし，
そのＳＣＯＤＥを１０でｍｏｄをとって，これに記号の
ハッシング領域の先頭である６０を足した値をエントリ
番号とする。

【００３２】この文字種別ハッシング型文字成分表を用
いた階層型プリサーチの制御手順は，第五の実施例と同
じである。すなわち，第１に検索ターム中の文字を用い
て文字成分表サーチを行い，第２に検索タームを用いて
凝縮本文サーチを行う。文脈条件等が指定されていない
場合には，ここで検索を終了するが，そうでない場合に
は，第３に本文サーチを行い結果を出力する。以上説明
したように，本実施例によれば，使用頻度を考慮して文
字種ごとに文字成分表のエントリ番号を対応させた文字
種別ハッシング型文字成分表を用いることにより，文字
成分表サーチでのノイズを少なくできるため，凝縮本文
における文書のスキャン量が減り，その分高速なフルテ
キストサーチが可能となる。

【００３３】次に第七の実施例として，さらに文字成分
表サーチにおける絞り込みの率を向上させ，凝縮本文の
スキャン量を減らすことのできる頻度情報ハッシング型
文字成分表を用いた階層型プリサーチの制御方法を説明
する。頻度情報ハッシング型文字成分表を作成するには
，データベースに登録してある文書の文字の使用頻度を
調べ，頻度情報によりハッシュ関数を決定する。頻度の
大きい文字については，同一エントリにできるだけ他の
文字が入らないようにし，頻度の少ない文字について同
一エントリに複数個の文字が入るようにハッシュ関数を
調整する。こうすることにより，平均的に安定した絞り
込み率が文字成分表サーチで得られることになる。具体
的には，図１７に示すように（４−１）式で得られるＳ
ＣＯＤＥをもとに一度データベース中で該当する文字を
使用している文書数を調べ頻度順に並べ替える。次に，
頻度の大きいものから文字成分表のエントリ数分Ｎｔだ
けとる。そしてＮｔ以内の頻度数分布のうち最も上位の
頻度を持つエントリだけを残して，その他のエントリに
順次Ｎｔ以上のエントリ番号を割り付けていく。このＮ
ｔ以上のエントリ番号の割付けには（Ｎｔ＋１）番目の
エントリをＮｔのエントリとし，（Ｎｔ＋２）番目を（
Ｎｔ−１）番目のエントリとするように，Ｎｔより順次
頻度の大きいエントリを割り付けていく。割り付けてい
く過程では，常に最上位の頻度を持つエントリの上には
，他のエントリを割り付けないようにする。割り付けた
エントリは，図１８に示すようにテーブルの形で，記憶
しておきこのテーブルを参照してハッシュ関数を構成す
る。すなわち，ＳＣＯＤＥが（０９５Ｆ）Ｈの文字‘検
’は，エントリ番号２３１であることが分かる。

【００３４】階層型プリサーチの制御手順は，第五の実
施例と同じである。すなわち，図１４の制御手順をその
まま使用し，第１に検索ターム中の文字を用いて文字成
分表サーチを行い，第２に検索タームを用いて凝縮本文
サーチを行う。文脈条件等が指定されていない場合には
，ここで検索を終了するが，そうでない場合には，第３
に本文サーチを行い結果を出力する。このように，本実
施例によれば，データベース中で実際に用いられる文字
の頻度分布をもとに文字成分表を作成することによって
，文字成分表サーチで常に安定して高い絞り込み率が得
られるため，検索タームに依存せず安定して短時間の検
索処理時間を得ることができる。

【００３５】以上，文字成分表の異なる実施例について
五つの実施例を説明した。これより凝縮本文の異なる実
施例についての説明をする。第一の実施例で用いた凝縮
本文は作成の処理が簡単であるが，図４でも分かるよう
に“のための”というような本来検索に使われないよう
な文字列まで凝縮本文に残ることになる。このことは凝
縮本文の圧縮率低下を招く。つまり，検索時にスキャン
する凝縮本文の量が増えるため，検索処理時間が増加し
てしまう。このような，凝縮本文の圧縮率を低下させる
主な要因は，“のための”というような付属語の連なっ
たそれ自体では意味を持たない文字列を凝縮本文に登録
してしまうところにある。

【００３６】そこで，第八の実施例として，この検索に
不要な付属語の連なりを除去した凝縮本文を用いる階層
型プリサーチを説明する。この凝縮本文を文字種分割・
重複排除・付属語除去型凝縮本文と呼ぶ。この凝縮本文
の作成方法は図１９に示すように，本文のテキスト文字
列から文字種分割して部分文字列に分け，それから重複
語を排除した後，付属語の除去を行う。文字種分割と重
複排除は第一の実施例と変わらない。付属語除去は，重
複排除の済んだひらがな文字列に対して行う。この付属
語除去のための解析は，図２０に示すように基本単語辞
書と単語間の接続規則を基に行う。基本単語辞書には，
図２１のようにひらがなのみから構成される動詞，指示
代名詞，形容詞，形容動詞，副詞，接続詞，助詞，助動
詞，またこれらの品詞の活用語尾が品詞情報とともに登
録されている。本図の例では，動詞として＜ある＞，＜
なる＞，＜もつ＞等がそれらの活用語尾とともに登録さ
れている。接続規則には基本単語辞書に登録された各語
が他のどの語と接続し得るかを登録する。例えば図２２
に示すように，＜動詞−もつ連体形＞に＜名詞−こと＞
が接続し，さらに＜名詞−こと＞には＜助詞−が＞が接
続し得ることが登録されている。このような基本単語辞
書及び接続規則を用いてひらがなの部分文字列が付属語
から構成されているか否かを判定し，凝縮本文へその文
字列を登録するか否かを決定する。例えば，“のための
”という部分文字列は＜助詞−の＞＜名詞−ため＞＜助
詞−の＞というように接続した文字列と解析できるため
，付属語のみから構成された文字列と判定し排除する。一方，“あいまい”という文字列は，付属語と解析がで
きないため排除せずにそのまま凝縮本文へ登録する。

【００３７】このように，付属語を解析してひらがな文
字列を排除し，検索に使われることのない無用の情報を
削除することによって，凝縮本文の圧縮率を高めること
が可能となる。また解析に用いる基本単語辞書と接続規
則は，時代とともに登録語数が増えていく従来のキーワ
ード辞書とは基本的に異り，普遍的なもので一度作成し
てしまえば更新していく必要がないという利点がある。付属語として解析できるものだけを排除するために，辞
書に存在しないひらがなから構成される新語が現れても
必ず凝縮本文に残るということになる。

【００３８】次に，文字種分割・重複排除・付属語除去
型凝縮本文を用いた階層型プリサーチ方式の制御につい
て説明する。文字種分割・重複排除・付属語除去型凝縮
本文では，ひらがな文字列を付属語解析して凝縮本文に
登録しない場合がある。そのため，特定のひらがな文字
列で検索しようとした場合，凝縮本文サーチで検索もれ
となる場合がある。例えば“めまい”という文字列は，
動詞の未然形活用語尾“め”と助動詞“まい”の終止形
が接続したものと解析できる。具体例としては，“認め
まい”があげられる。ところが“めまい”は，名詞とし
て使われている場合でも，付属語除去処理の結果凝縮本
文からは削除されてしまう。したがってこのような場合
，“めまい”で凝縮本文を検索すると検索もれが生じる
可能性がでてくる。そのため，検索タームが凝縮本文中
にもともとない言葉なのか，あるいは凝縮本文作成過程
で除去された可能性のある言葉なのかをチェックしてか
ら検索する必要が生じる。検索タームが凝縮本文に登録
されるべき語か否かというチェックは，凝縮本文を作成
したときに用いた付属語除去のアルゴリズムをそのまま
適用する。この例では，“めまい”という検索タームが
与えられたときは，これが付属語の連なりと判定するこ
とができる。

【００３９】以上の検索制御の手順を図２３で説明する
。まず文字成分表サーチを行う。結果件数が０件であれ
ば，０件を検索結果として出力して検索処理を終了する
。第一の実施例でも述べたが，ハッシュ関数を用いない
方式では検索タームが一文字の場合にかぎり，文字成分
表のサーチ結果を最終検索結果として出力できる。すな
わち，第一及び第四の実施例で説明した文字成分表を用
いる場合には，検索タームが一文字であるか否かを調べ
，一文字であれば文字成分表サーチの結果を検索結果と
して出力し，処理を終了する。第五，第六，第七の実施
例で述べたハッシュ関数による文字成分表を用いる場合
には，この検索タームが一文字か否かというチェックは
行わず，常に次の凝縮本文サーチを行う。この後，第一
の実施例と同様に，分割検索タームを生成する。

【００４０】次に，分割検索タームのそれぞれについて
付属語解析を行う。分割検索タームのうち一つでも付属
語と判定された場合，その分割検索タームは凝縮本文か
ら削除されている可能性があるので，凝縮本文サーチを
行わず，文字成分表サーチの結果に基づいて本文を直接
サーチする。一方，付属語解析の結果，分割検索ターム
が全て付属語でないと判定されたならば，第一の実施例
と同様に凝縮本文サーチを行う。近傍条件あるいは，文
脈条件の指定がない場合，あるいは分割検索タームがも
との検索タームと同じ場合には，この凝縮本文サーチの
結果を最終検索結果として出力し，検索を終了する。も
し，近傍条件ないし文脈条件が指定されている場合，あ
るいは分割検索タームと元の検索タームが異なる場合に
は，次に本文サーチを実行し，その結果を最終的な検索
結果出力とする。このように，本実施例によれば，ひら
がな文字列を解析し，不要な付属語の連なりを凝縮本文
から除去した文字種分割・重複排除・付属語除去型凝縮
本文を用いることにより，凝縮本文の圧縮率を向上させ
，検索処理時間を短縮することができる。

【００４１】次に，第九の実施例として，ひらがな文字
列を全て排除した，文字種分割・重複排除・ひらがな文
字列除去型凝縮本文を用いる階層型プリサーチを説明す
る。第八の実施例で説明した凝縮本文は，確かに圧縮率
が上がるものの付属語解析の際に誤った解析をする可能
性がある。例えば第八の実施例でも用いた“めまい”と
いう文字列の例の外にも，付属語解析だけでは本質的に
どれが付属語か正しく判定できない場合がまれにある。例えば，“動作してこの応用で．．．”という文書の中
の“してこの”という部分文字列は，，“〜して，この
〜”という意味で用いられているのか，“〜し，てこの
〜”のように機械のてこを意味しているのかが判定する
のが難しい。後者の意味で用いられている場合には，“
てこ”という検索タームを指定した際に，“てこ”は付
属語と判定されないため，凝縮本文をサーチしにいくこ
とになる。一方，凝縮本文作成では，“してこの”が付
属語と解析され凝縮本文から削除されているため凝縮本
文サーチで検索もれとなってしまう。この付属語解析の
不完全さを補正するために，ひらがな文字列か否かとい
う単純な判定方法で階層型プリサーチを実現するのが，
本第九の実施例である。この凝縮本文の作成方法を，図
２４に示す。本方法では文字種分割の後，ひらがなを除
去して重複登録排除を行う。

【００４２】この文字種分割・重複排除・ひらがな文字
列除去型凝縮本文を用いた階層型プリサーチの制御手順
について図２５を用いて説明する。まず第八の実施例と
同様に文字成分表サーチを行う。この後，分割検索ター
ムを生成する。次に，分割検索タームのそれぞれについ
てひらがな文字列か否かチェックを行う。分割検索ター
ムのうち一つでもひらがな文字列がある場合，凝縮本文
サーチを行わず，文字成分表サーチの結果に基づいて本
文を直接サーチする。一方，分割検索ターム中にひらが
な文字列がない場合，第一の実施例と同様に凝縮本文サ
ーチを行い，近傍，文脈条件の指定がある場合，あるい
は分割検索タームが元の検索タームと異なる場合には，
本文サーチまで検索処理を続行する。このように，本実
施例によれば，ひらがな文字列を全て排除した凝縮本文
を用いることによって，ひらがな文字列についても検索
もれのない正確なフルテキストサーチが実現できる。

【００４３】次に，本発明の第十の実施例について，説
明する。上記第九の実施例では，ひらがなの検索ターム
が与えられた場合，本文を直接参照する必要がある。し
たがって検索時間がより多く掛かることになる。そこで
，ひらがなの検索タームが与えられた場合でも高速にフ
ルテキストサーチできる方法として，第十の実施例の説
明をする。本実施例では，第九の実施例で用いた凝縮本
文の外に第九の実施例では除去したひらがな文字列を登
録した凝縮本文を別に作成する。図２６に示すように，
文字種分割，重複登録排除の後，残った部分文字列がひ
らがな文字列か否かを判定し，ひらがな文字列以外を凝
縮本文Ａとして登録し，ひらがな文字列を凝縮本文Ｂと
して登録する。こうすれば，ひらがなだけの検索ターム
が与えられた際，凝縮本文Ｂを探索することができるよ
うになるため，検索時間を短縮することが可能となる。実際の階層型プリサーチの検索制御の手順を図２７に示
す。まず第八の実施例と同様に文字成分表サーチを行う
。もし，検索結果が０件なら，ここで検索を終了する。この後，分割検索タームを生成する。次に，分割検索タ
ームをひらがな文字列のタームとそれ以外の文字列から
なるタームに分類する。その後，ひらがな以外の文字列
からなる分割検索タームがある場合には，凝縮Ａをサー
チする。次にひらがなの分割検索タームがある場合には
，凝縮Ｂをサーチする。その後は，第一の実施例と同様
に，近傍，文脈条件の指定がある場合，あるいは分割検
索タームがもとの検索タームと異なる場合には，本文サ
ーチまで検索処理を続行する。このように，ひらがなの
みの凝縮本文と，ひらがな以外の凝縮本文と分けて格納
することにより，どんな文字種の検索タームが入力され
ても，凝縮本文を有効に活用でき，常に高速なフルテキ
ストサーチが実現できる。

【００４４】次に，第十一の実施例について説明する。本実施例は，凝縮本文の圧縮率を上げるために，文字種
毎に独立した凝縮本文を用いる方法に基づいたものであ
る。本実施例で用いる凝縮本文を文字種分割・重複排除
・文字種別登録型凝縮本文と呼ぶ。この文字種分割・重
複排除・文字種別登録型凝縮本文を作成するには，図２
８に示すように，文字種分割，重複登録排除を行った後
，残った部分文字列の文字種を判定してひらがな凝縮本
文Ｈ，カタカナ凝縮本文Ｉ，漢字凝縮本文Ｊ，英字凝縮
本文Ｋ，数字凝縮本文Ｌ，記号その他の文字種凝縮本文
Ｍに分類して登録する。こうすることにより，例えば漢
字の検索タームで検索する場合には，漢字文字種の凝縮
本文Ｊのみをサーチすればよいことになるため，検索時
間をさらに短縮することができる。具体的な階層型プリ
サーチの制御手順を図２９を用いて説明する。まず，第
八の実施例と同様に文字成分表サーチを行う。検索結果
件数が０件なら，ここで検索を終了する。この後，分割
検索タームを生成する。次に，分割検索タームを文字種
毎に分類する。その後，ひらがなの分割検索タームがあ
る場合には凝縮Ｈを，カタカナの分割検索タームがある
場合には凝縮Ｉを，というように分解検索タームの文字
種にしたがってサーチする凝縮本文を選択する。その後
は，第一の実施例と同様に，近傍，文脈条件の指定があ
る場合，あるいは分割検索タームがもとの検索タームと
異なる場合には，本文サーチまで検索処理を続行する。このように，文字種ごとに凝縮本文ファイルを分離し個
々の凝縮本文の容量を小さくすることにより，漢字のみ
，カタカナのみ，あるいはひらがなのみ，といった単一
文字種の検索タームでのフルテキストサーチが高速に行
えるという効果が得られる。

【００４５】次に第十二の実施例について，図３０およ
び図３１を用いて説明する。本実施例は，特願平０２−
１９３０１５で提案した文書検索装置を用い，本発明を
実現したものである。本装置の主な構成は，キーボート
３００１，検索式解析プログラム３００２，ビットサー
チプロセッサ３００７ａ，ストリングサーチエンジン３
００６，複合条件判定用マイクロプロセッサ３０４５ａ
，検索結果格納メモリ３０４６，ディスプレイ３０２０
，半導体メモリ装置３０１０ａ，ＲＡＭディスク装置３
０１０ｂ，集合型磁気ディスク３０１０ｃ，及び検索実
行制御プログラム３００８よりなる。半導体メモリ装置
３０１０ａには文字成分表が，ＲＡＭディスク装置３０
１０ｂには凝縮本文，集合型磁気ディスク装置３０１０
ｃには本文がそれぞれ格納されている。但し，文字成分
表及び凝縮本文は，集合型磁気ディスク３０１０ｃに格
納されていて，本装置の運用開始時点でそれぞれ半導体
メモリ装置３０１０ａ及びＲＡＭディスク装置３０１０
ｂへローディングされる。

【００４６】階層プリサーチ制御の手順は，いままで実
施例で説明してきたものと変わらない。いままでの実施
例との相違点は，文字成分表を半導体メモリ，凝縮本文
をＲＡＭディスク，本文を集合型磁気ディスクに格納し
たところと，文字成分表サーチ専用のマイクロプロセッ
サ，凝縮本文サーチ及び本文サーチ専用のストリングサ
ーチエンジンを用いていることである。検索処理の手順
を以下に説明する。

【００４７】キーボード３００１から入力した検索条件
式はサーチマシン制御用マイクロプロセッサＭＰＵ０３
０５０上の検索式解析プログラム３００２により解析さ
れる。すなわち、検索式解析プログラム３００２では検
索条件式を構成するキーワード部分とそれらの包含条件
及び配置条件を記述した複号条件記述部に分離する。包
含条件は論理条件として記述され、配置条件は近傍条件
や文脈条件として記述されたものである。分離抽出後、
キーワード部分は同じくＭＰＵ０３０５０上の同義語展
開プログラム３００３に渡され、複号条件記述部は複号
条件解析プログラム３０４１に渡される。同義語展開プ
ログラム３００３では、ここに内蔵された同義語辞書を
参照して、入力されたキーワードの同義語が求められる
。そして、ここで同義語展開されたキーワード群は異表
記展開プログラム３００４へ渡される。本図の例の場合
、“計算機”から、“電算機”、“コンピュータ”、“
ＣＯＭＰＵＴＥＲ”などが生成される。異表記展開プロ
グラム３００４では、ここに入力されてきたキーワード
群に対して異表記展開処理が施される。本図の例の場合
、“コンピュータ”から“コンピューター”が、“ＣＯ
ＭＰＵＴＥＲ”から“Ｃｏｍｐｕｔｅｒ”などが生成さ
れる。こうして同義語及び異表記展開されたキーワード
群は、次にオートマトン生成用マイクロプロセッサＭＰ
Ｕ１３００５ａ上のオートマトン生成用プログラム３０
０５に送られる。オートマトン生成用プログラム３００
５では、異表記展開プログラム３００４から送られてき
たキーワード群に対して、これらを一括照合するオート
マトンを生成し、状態遷移テーブルと照合すべきキーワ
ードの識別コード情報として、サーチエンジン３００６
に設定する。サーチエンジン３００６は有限オートマト
ン方式に基づく高速多重文字照合回路である。また、異
表記展開プログラム３００４で異表記展開されたキーワ
ード群は、該当キーワードと共に、ビットサーチ用マイ
クロプロセッサＭＰＵ３３００７ａ上のビットサーチプ
ログラム３００７へ渡される。

【００４８】一方，近傍条件，文脈条件や，ＡＮＤ，Ｏ
Ｒ等の論理条件は検索式解析プログラム３００２から，
複合条件解析プログラム３０４１，近傍条件解析プログ
ラム３０４２，文脈条件解析プログラム３０４３，論理
条件解析プログラム３０４４を経て複合条件判定プログ
ラム３０４５へと送られる。必要な検索情報がビットサ
ーチプログラム３００７，ストリングサーチエンジン３
００６，複合条件判定プログラム３０４５へ送られた後
，検索制御実行プログラム３００８は，まずビットサー
チプログラム３００７に起動を掛ける。ビットサーチプ
ログラム３００７は，半導体メモリ装置３０１０ａに格
納してある文字成分表を読み出し，文字成分表サーチを
行う。文字成分表サーチの結果は，検索結果格納メモリ
３０４６へ格納する。

【００４９】文字成分表サーチが終った後，検索実行制
御プログラム３００８は，検索結果格納メモリ３０４６
を参照し，検索結果が０件であれば，０件を検索結果と
して出力し検索処理を中断する。検索結果が０件でなけ
れば，ストリングサーチエンジン３００６へ起動をかけ
ると同時に検索結果格納メモリ３０４６に格納されてい
る文字成分表サーチの結果でヒットした文書の凝縮本文
をＲＡＭディスク装置２９１０ｂから読み出し，ストリ
ングサーチエンジン３００６へ送り，凝縮本文サーチを
実行させる。この結果件数が０件であるか否かの条件判
定は検索実行制御プログラム３００８で行う。ストリン
グサーチエンジン３００６では，ＲＡＭディスク装置３
０１０ｂより読み出された，凝縮本文を分割検索ターム
でサーチする。照合結果は複合条件判定プログラム３０
４５に順次送られる。複合条件判定プログラム３０４５
では，検索ターム間に付与された論理条件を判定し，条
件に適合する文書の文書番号を検索結果格納メモリ３０
４６へ順次格納する。

【００５０】凝縮本文サーチが終了した後，検索実行制
御プログラム３００８は，もう一度検索結果格納メモリ
３０４６を参照し，結果件数が０件であれば，０件を検
索結果として出力し，検索を終了する。０件でない場合
で，近傍，文脈条件が設定されているか，もしくは分割
検索タームが検索タームと異なっている場合にかぎり検
索結果格納メモリから，検索結果文書番号を読み取り，
これに対応する本文を集合型磁気ディスク装置３０１０
ｃから読み出し，ストリングサーチエンジン３００６へ
送り，今度は本文サーチを実行させる。近傍，文脈条件
が設定されてなく，かつ分割検索タームが検索タームと
等しい場合には，検索結果格納メモリに格納されている
検索結果件数を出力し，検索を終了する。

【００５１】ストリングサーチエンジン３００６では，
集合型磁気ディスク装置３０１０ｃから読み出された本
文をスキャンして本文サーチを行う。結果は複合条件判
定プログラム３０４５に順次送られる。複合条件判定プ
ログラム３０４５では，検索ターム間に付与された論理
条件のほか近傍，文脈条件を判定し，条件に適合する文
書の文書番号を順次検索結果格納メモリ３０４６へ格納
する。本文サーチまで実行した場合は，本文サーチの終
了後，検索実行制御プログラム３００８は，検索結果格
納メモリ３０４６を参照し検索結果件数を出力して検索
を終了する。このように，容量の大きな本文データを磁
気ディスクに，容量の小さな文字成分表や凝縮本文を，
半導体メモリやＲＡＭディスクに格納することにより，
大規模なデータベースに対しても高速なフルテキストサ
ーチを実現することが可能となる。

【００５２】次に凝縮本文を磁気ディスクに格納した第
十三の実施例について説明する。凝縮本文を磁気ディス
クに格納する場合，階層型プリサーチの制御の手順を最
適化することによって，同一の構成を用いた通常の階層
型プリサーチを実行するよりも高速に処理することがで
きる。以下，この制御の手順について説明する。磁気デ
ィスクは通常，機械的に動く磁気ヘッドを持っている。このため，ディスク上の情報を飛び飛びに読み出す（ス
キップアクセスと呼ぶ）よりも，まとまった情報を一括
して読み出す（シーケンシャルアクセスと呼ぶ）方が速
いという特徴がある。いま，スキップアクセスの読み出
し速度をＶｓｋｉｐ　　ＭＢ／ｓ，シーケンシャルアク
セスの読み出し速度をＶｓｅｑ　　ＭＢ／ｓとすると，
データベース全件の文書数をＮａ件，文字成分表サーチ
の結果件数をＮｃ件とし，文書の容量が均一であるとし
た場合，　　　　Ｎｃ　　＞　　（Ｖｓｋｉｐ／Ｖｓｅｑ）・Ｎ
ａ　　　　……（１２−１）式のとき，シーケンシャル
アクセスにより凝縮本文を全件サーチした方が，文字成
分表サーチの結果に基づいてスキップアクセスするより
も処理時間が短くなる。したがって，図３２に示すよう
に文字成分表サーチの後，階層プリサーチ制御プログラ
ムにおいて結果件数を判定し，（１２−１）式を満たす
ヒット件数に達した場合には，文字成分表サーチの結果
を無視して，凝縮本文をデータベース全件分サーチする
。以上の方法を用いると，磁気ディスクに凝縮本文を格
納するために，大容量のＲＡＭディスクを使用しなくと
もすみ，比較的高速なフルテキストサーチを低価格の文
書検索装置で実現できることになる。

【００５３】次に凝縮本文を磁気ディスクに格納した第
十四の実施例について説明する。近傍，文脈条件が指定
されている場合には，文字成分表サーチ結果が非常に少
ない場合，凝縮本文サーチを行わずに，文字成分表サー
チ結果をもとに本文を直接サーチするほうが検索時間が
短くなる。今，凝縮本文のサーチ速度をＶｓｒ　ＭＢ／
ｓ，本文のサーチ速度を　ＶｔｘＭＢ／ｓ　とし，文字
成分表の結果件数を　Ｎｃ，凝縮本文の結果件数を　Ｎ
ｓｒ，凝縮本文の１件当たりのデータ容量を　Ｑｓｒ，
本文の１件当たりのデータ容量を　Ｑｔｘ　とすると，
　　　　ＮｃＱｓｒ／Ｖｓｒ＋ＮｓｒＱｔｘ／Ｖｔｘ　
　＞　　ＮｃＱｔｘ／Ｖｔｘ　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　…………（１３−１）式の
とき，凝縮本文サーチをせずに，本文サーチを直接行っ
たほうが検索時間が短くなる。Ｎｓｒ　は凝縮本文を実
際にサーチするまでわからないが，あらかじめ定数を設
定して凝縮本文サーチを行うか否か決定することになる
。たとえば，データベース全体の文書数を　Ｎａ　とし
て　　　　　　　　Ｎｓｒ＝αＮａ　　　　　　　　（０
＜α＜１）　　　　　　…………（１３−２）式として
，（１３−１）式を変形すると，　　Ｎｃ　　＜　　α
Ｎａ（Ｑｔｘ／Ｖｔｘ）／（Ｑｔｘ／Ｖｔｘ−Ｑｓｒ／
Ｖｓｒ）　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　…………（１３−３）式のとき，本文サーチを
直接行うことにする。αをしきい値として検索前にあら
かじめ値を設定しておき，文字成分表サーチの後（１３
−３）式により凝縮本文サーチを行うか否か決定する。この制御を行うことにより，近傍，文脈条件の指定の下
で高速なフルテキストサーチを実現することができる。以上，第十二の実施例の廉価版のシステム構成でフルテ
キストサーチを実現する第十三，第十四の実施例につい
て説明した。

【００５４】このほかにも，凝縮本文をまったく使用せ
ず凝縮本文サーチのステップを省いて，文字成分表サー
チから直接本文サーチを実行する制御方法によっても階
層型プリサーチを実現することができる。この方法によ
れば，本文をスキャンする量が増えるため検索時間は多
少掛かるが，高価なＲＡＭディスクを使用しなくとも済
み，また凝縮本文を格納する磁気ディスク容量が不要と
なるため，さらに低価格の文書検索装置を実現できるこ
とになる。また，文字成分表を使用せずに直接ＲＡＭデ
ィスクあるいは磁気ディスク上の凝縮本文を全件サーチ
し，近傍，文脈条件などの検索ターム間の位置関係の検
索条件指定があるときにのみ本文サーチする制御方法に
よっても階層型プリサーチを実現することができる。こ
の方法によれば，凝縮本文の探索量が増えるため検索時
間は多少掛かるが，文字成分表を格納する半導体メモリ
が不要となるため，その分低価格の文書検索装置を実現
できることになる。

【００５５】あるいは，今までの実施例で用いていたビ
ットリスト形式の文字成分表を図３３に示すように，文
書中に現れる文字を書き列ねた形式，すなわち１文字を
１ビットとして表すのではなく，そのまま文字コード自
体として格納した文字成分表を使用することもできる。あるいはこの時に，第五の実施例，第六の実施例，及び
第七の実施例で説明したハッシュ関数を用いて一つの文
字エントリに複数個の文字を対応させ文字成分表の容量
を削減することもできる。このように文字コードを格納
した文字成分表を用いた文字成分表サーチは，凝縮本文
や本文サーチと同様に，一文字ずつファイルからデータ
を読み出し該当する文字が存在するか否か判定すること
で実現できる。このように，本文中で用いられている文
字のみを集めた文字成分表を用いることにより，データ
構造を簡素化でき，かつビット演算をせずに凝縮本文，
本文サーチと同じスキャン型のサーチを用いることがで
きるため，検索処理方法が簡素化できるという効果が得
られる。

【００５６】さらに，文字成分表も磁気ディスクに格納
した構成でも，階層型プリサーチを実現することができ
る。この磁気ディスクに文字成分表を格納した場合には
，文字成分表サーチにおいて検索ターム中で用いられて
いる文字のビットリストを磁気ディスクから順次読み出
しながらビット演算処理を行っていく。もしくは，上記
の文字コードをそのまま文字成分表とした場合には，文
字成分表を順次読み出しながら該当する文字を全て含む
文書を選びだす。この文字成分表を磁気ディスクに格納
する方法によれば，半導体メモリを使わずに済むために
，さらに低価格の文書検索装置を実現することが可能と
なる。

【００５７】

【発明の効果】本発明によれば，文字成分表及び凝縮本
文を用いて，階層的に文字レベル及び単語レベルで入力
された検索タームに関連しない文書をふるい落すことに
より，無用の本文サーチを省くことができるため，等価
的に高速なフルテキストサーチの実現手段となり，大規
模な文書データベースでも実用的な応答速度で，フルテ
キストサーチすることが可能となる。

【図面の簡単な説明】

【図１】本発明の第一の実施例の構成を示す図である。

【図２】本発明の特徴となる階層型プリサーチのための
登録処理を示す図である。

【図３】本発明の特徴となる階層型プリサーチの検索処
理を示す図である。

【図４】凝縮本文を作成する一例を示した図である。

【図５】凝縮本文の格納形態を示す図である。

【図６】文字成分表の概要を示す図である。

【図７】文字成分表サーチの概要を示す図である。

【図８】階層型プリサーチの処理手順を示す図である。

【図９】第三の実施例における文字成分表サーチの処理
を示す図である。

【図１０】第四の実施例で用いる文字成分表のコード変
換の処理を示すＰＡＤ図である。

【図１１】第四の実施例で用いる文字成分表のコード変
換の概要を示す図である。

【図１２】第四の実施例で用いる文字成分表の概要を示
す図である。

【図１３】第五の実施例で用いる文字成分表の概要を示
す図である。

【図１４】第五の実施例で用いる階層型プリサーチの処
理手順を示す図である。

【図１５】第六の実施例で用いる文字成分表の概要を示
す図である。

【図１６】第六の実施例で用いる階層型プリサーチの処
理手順を示す図である。

【図１７】第七の実施例で用いる文字成分表の作成方法
の概要を示す図である。

【図１８】第七の実施例で用いる文字成分表のためのハ
ッシュ関数で用いる文字コード−エントリ番号の対応表
の概要を示す図である。

【図１９】第八の実施例で用いる凝縮本文の作成する方
法を示す図である。

【図２０】第八の実施例で用いる凝縮本文のためのひら
がな文字列の処理方法を示す図である。

【図２１】第八の実施例で用いる付属語解析のための基
本単語辞書を示す図である。

【図２２】第八の実施例で用いる付属語解析のための接
続規則を示す図である。

【図２３】第八の実施例で用いる階層型プリサーチの処
理手順を示す図である。

【図２４】第九の実施例で用いる凝縮本文の作成する方
法を示す図である。

【図２５】第九の実施例で用いる階層型プリサーチの処
理手順を示す図である。

【図２６】第十の実施例で用いる凝縮本文の作成する方
法を示す図である。

【図２７】第十の実施例で用いる階層型プリサーチの処
理手順を示す図である。

【図２８】第十一の実施例で用いる凝縮本文の作成する
方法を示す図である。

【図２９】第十一の実施例で用いる階層型プリサーチの
処理手順を示す図である。

【図３０】第十二の実施例の構成の部分を示す図である
。

【図３１】第十二の実施例の構成の残りの部分を示す図
である。

【図３２】第十二の実施例で用いる階層型プリサーチの
処理手順を示す図である。

【図３３】文字として格納した文字成分表の概要を示す
図である。

Claims

【特許請求の範囲】

【請求項１】　　文書情報を文字コードデータとして蓄
積した文書データベースを対象として，検索者が指定し
たキーワードを含む文書をその本文内容を参照して検索
するフルテキストサーチ方法において，該文書データベ
ースに文書を登録する際，該登録文書の本文文字列をひ
らがな，漢字，及び英数字等の文字種ごとに分割し，分
割した各部分文字列の間で相互に文字列の包含関係を調
べ，他の文字列に含まれる文字列を排除した部分文字列
の集合からなる凝縮本文を作成するステップと，該凝縮
本文中に現れる文字を重複なく登録した文字成分表を作
成するステップと，登録対象文書の本文のほかに凝縮本
文と文字成分表を合わせて文書データベースへ登録する
ステップと，検索時には先ず検索者が指定したキーワー
ドを構成する全ての種類の文字を含む文書を，文字成分
表を参照して抽出する文字成分表サーチのステップと，
次に該文字成分表サーチで抽出された文書の凝縮本文を
参照して，検索者が指定したキーワードを構成する部分
文字列を含む凝縮本文に対応する文書のみを抽出する凝
縮本文サーチのステップにより，指定キーワードを含む
文書を選び出し，最後にこうして絞り込まれた文書の本
文を参照して，キーワード間に付与された位置関係等の
検索条件を満たすもののみを抽出する本文サーチのステ
ップにより，等価的に高速なフルテキストサーチを行う
ことを特徴とするフルテキストサーチ方法。
【請求項２】　　文書情報を文字コードデータとして蓄
積した文書データベースを対象として，検索者が指定し
たキーワードを含む文書をその本文内容を参照して検索
するフルテキストサーチ方法において，該文書データベ
ースに文書を登録する際，該登録文書の本文文字列をひ
らがな，漢字，及び英数字等の文字種ごとに分割し，分
割した各部分文字列の間で相互に文字列の包含関係を調
べ，他の文字列に含まれる文字列を排除した部分文字列
の集合からなる凝縮本文を作成するステップと，元の本
文中に現れる文字を重複なく登録した文字成分表を作成
するステップと，登録対象文書の本文のほかに凝縮本文
と文字成分表を合わせて文書データベースへ登録するス
テップと，検索時には先ず検索者が指定したキーワード
を構成する全ての種類の文字を含む文書を，文字成分表
を参照して抽出する文字成分表サーチのステップと，次
に該文字成分表サーチで抽出された文書の凝縮本文を参
照して，検索者が指定したキーワードを構成する部分文
字列を含む凝縮本文に対応する文書のみを抽出する凝縮
本文サーチのステップにより，指定キーワードを含む文
書を選び出し，最後にこうして絞り込まれた文書の本文
を参照して，キーワード間に付与された位置関係等の検
索条件を満たすもののみを抽出する本文サーチのステッ
プにより，等価的に高速なフルテキストサーチを行うこ
とを特徴とするフルテキストサーチ方法。
【請求項３】　　請求項１記載のフルテキストサーチ方
法において，文字成分表は文書単位に使用されている全
ての文字を重複なく登録したものであることを特徴とす
るフルテキストサーチ方法。
【請求項４】　　請求項２記載のフルテキストサーチ方
法において，文字成分表は文書単位に使用されている全
ての文字を重複なく登録したものであることを特徴とす
るフルテキストサーチ方法。
【請求項５】　　請求項１記載のフルテキストサーチ方
法において，文字成分表は使用可能な全ての文字に１ビ
ットの情報を割り付けたビットリストを文書単位に用意
しておき，該文書中で使用されている文字について該当
ビット位置を１に，使用されていない文字については０
を設定しておき，検索時にはキーワード中の全文字につ
いてビットリスト中の該当ビット位置が全て１であるも
のを探し出す文字成分表サーチステップを備えたことを
特徴とするフルテキストサーチ方法。
【請求項６】　　請求項２記載のフルテキストサーチ方
法において，文字成分表は使用可能な全ての文字に１ビ
ットの情報を割り付けたビットリストを文書単位に用意
しておき，各文書中で使用されている文字について該当
ビット位置を１に，使用されていない文字については０
を設定しておき，検索時にはキーワード中の全文字につ
いてビットリスト中の該当ビット位置が全て１であるも
のを探し出す文字成分表サーチステップを備えたことを
特徴とするフルテキストサーチ方法。
【請求項７】　　請求項３記載のフルテキストサーチ方
法において，文字成分表は文字コードをハッシュ関数に
より，実際に使われている文字の数より少ないエントリ
のコードにマッピングすることを特徴としたフルテキス
トサーチ方法。
【請求項８】　　請求項４記載のフルテキストサーチ方
法において，文字成分表は文字コードをハッシュ関数に
より，実際に使われている文字の数より少ないエントリ
のコードにマッピングすることを特徴としたフルテキス
トサーチ方法。
【請求項９】　　請求項５記載のフルテキストサーチ方
法において，文字コードをハッシュ関数により，実際に
使われている文字の数より少ないエントリのコードにマ
ッピングすることにより，文字成分表のビットリストを
，実際に使われている文字種の数より少ないビット数の
ビットリストにすることを特徴としたフルテキストサー
チ方法。
【請求項１０】　　請求項６記載のフルテキストサーチ
方法において，文字コードをハッシュ関数により，実際
に使われている文字の数より少ないエントリのコードに
マッピングすることにより，文字成分表のビットリスト
を，実際に使われている文字種の数より少ないビット数
のビットリストにすることを特徴としたフルテキストサ
ーチ方法。
【請求項１１】　　文書情報を文字コードデータとして
蓄積した文書データベースを対象として，検索者が指定
した複数のキーワードを全て含む文書をその本文内容を
参照して検索するフルテキストサーチ方法において，該
文書データベースに文書を登録する際，該登録文書の本
文文字列をひらがな，漢字，及び英数字等の文字種ごと
に分割し，分割した各部分文字列の間で相互に文字列の
包含関係を調べ，他の文字列に含まれる文字列を排除し
た部分文字列の集合からなる凝縮本文を作成するステッ
プと，該凝縮本文中に現れる文字を重複なく登録した文
字成分表を作成するステップと，登録対象文書の本文の
ほかに凝縮本文と文字成分表を合わせて文書データベー
スへ登録するステップと，検索時には先ず検索者が指定
したキーワードのそれぞれを構成する全ての種類の文字
を含む文書を，文字成分表を参照して抽出する文字成分
表サーチのステップと，次に該文字成分表サーチで抽出
された文書の凝縮本文を参照して，検索者が指定したそ
れぞれのキーワードを構成する部分文字列を全て含む凝
縮本文に対応する文書のみを抽出する凝縮本文サーチの
ステップにより，指定キーワードを含む文書を選び出し
，最後にこうして絞り込まれた文書の本文を参照して，
キーワード間に付与された位置関係等の検索条件を満た
すもののみを抽出する本文サーチのステップにより，等
価的に高速なフルテキストサーチを行うことを特徴とす
るフルテキストサーチ方法。
【請求項１２】　　文書情報を文字コードデータとして
蓄積した文書データベースを対象として，検索者が指定
した複数のキーワードのいずれかを含む文書をその本文
内容を参照して検索するフルテキストサーチ方法におい
て，該文書データベースに文書を登録する際，該登録文
書の本文文字列をひらがな，漢字，及び英数字等の文字
種ごとに分割し，分割した各部分文字列の間で相互に文
字列の包含関係を調べ，他の文字列に含まれる文字列を
排除した部分文字列の集合からなる凝縮本文を作成する
ステップと，該凝縮本文中に現れる文字を重複なく登録
した文字成分表を作成するステップと，登録対象文書の
本文のほかに凝縮本文と文字成分表を合わせて文書デー
タベースへ登録するステップと，検索時には先ず検索者
が指定したいずれかのキーワードを構成する文字の全て
の種類の文字を含む文書を，文字成分表を参照して抽出
する文字成分表サーチのステップと，次に該文字成分表
サーチで抽出された文書の凝縮本文を参照して，検索者
が指定したいずれかのキーワードを構成する部分文字列
を全て含む凝縮本文に対応する文書のみを抽出する凝縮
本文サーチのステップにより，指定キーワードを含む文
書を選び出し，最後にこうして絞り込まれた文書の本文
を参照して，キーワード間に付与された位置関係等の検
索条件を満たすもののみを抽出する本文サーチのステッ
プにより，等価的に高速なフルテキストサーチを行うこ
とを特徴とするフルテキストサーチ方法。
【請求項１３】　　文書情報を文字コードデータとして
蓄積した文書データベースを対象として，検索者が指定
したキーワードを含む文書をその本文内容を参照して検
索するフルテキストサーチ方法において，該文書データ
ベースに文書を登録する際，該登録文書の本文文字列を
ひらがな，漢字，及び英数字等の文字種ごとに分割し，
分割した各部分文字列の間で相互に文字列の包含関係を
調べ，他の文字列に含まれる文字列を排除し，なおかつ
ひらがな文字列については，基本単語辞書と接続規則を
用いてキーワードとして意味を持たない付属語の連なり
であるか否かを判定し，付属語の連なりであると判定さ
れた場合，該ひらがな文字列をも排除した部分文字列の
集合からなる凝縮本文を作成するステップと，元の本文
中に現れる文字を重複なく登録した文字成分表を作成す
るステップと，登録対象文書の本文のほかに凝縮本文と
文字成分表を合わせて文書データベースへ登録するステ
ップと，検索時には先ず検索者が指定したキーワードを
構成する全ての種類の文字を含む文書を，文字成分表を
参照して抽出する文字成分表サーチのステップと，次に
検索者が指定したキーワードを構成する部分文字列の中
から，ひらがな部分文字列については，基本単語辞書と
接続規則を用いてキーワードとして意味を持たない付属
語の連なりであるか否かを判定し，付属語の連なりでは
ないと判定された場合には，文字成分表サーチで抽出さ
れた文書の凝縮本文を参照して，各部分文字列を含む凝
縮本文に対応する文書のみを抽出する凝縮本文サーチの
ステップにより，指定キーワードを含む文書を選び出し
，次いでこうして絞り込まれた文書の本文を参照して，
キーワード間に付与された位置関係等の検索条件を満た
すもののみを抽出する本文サーチのステップにより，ま
た，前記判定により付属語の連なりであと判定された場
合には，文字成分表サーチで抽出された文書の元の本文
を参照して，各部分文字列を含み，なおかつキーワード
間に付与された位置関係等の検索条件を満たすもののみ
を抽出する本文サーチのステップにより，等価的に高速
なフルテキストサーチを行うことを特徴とするフルテキ
ストサーチ方法。
【請求項１４】　　文書情報を文字コードデータとして
蓄積した文書データベースを対象として，検索者が指定
したキーワードを含む文書をその本文内容を参照して検
索するフルテキストサーチ方法において，該文書データ
ベースに文書を登録する際，該登録文書の本文文字列を
ひらがな，漢字，及び英数字等の文字種ごとに分割し，
ひらがな文字列を全て排除した後，各文字種毎に分割し
た各部分文字列の間で相互に文字列の包含関係を調べ，
他の文字列に含まれる文字列を排除した部分文字列の集
合からなる凝縮本文を作成するステップと，元の本文中
に現れる文字を重複なく登録した文字成分表を作成する
ステップと，登録対象文書の本文のほかに該文字種に応
じた複数の凝縮本文と文字成分表を合わせて文書データ
ベースへ登録するステップと，検索時には先ず検索者が
指定したキーワードを構成する全ての種類の文字を含む
文書を，文字成分表を参照して抽出する文字成分表サー
チのステップと，次に検索者が指定したキーワードを構
成する部分文字列の中にひらがな文字列が有るか否かを
判定し，無い場合には，文字成分表サーチで抽出された
文書の凝縮本文を参照して，該指定部分文字列を含む凝
縮本文に対応する文書のみを抽出する凝縮本文サーチの
ステップにより，指定キーワードを含む文書を選び出し
，次いでこうして絞り込まれた文書の本文を参照して，
キーワード間に付与された位置関係等の検索条件を満た
すもののみを抽出する本文サーチのステップにより，ま
た，有る場合には，文字成分表サーチで抽出された文書
の元の本文を参照して，該指定部分文字列を含み，なお
かつキーワード間に付与された位置関係等の検索条件を
満たすもののみを抽出する本文サーチのステップにより
，等価的に高速なフルテキストサーチを行うことを特徴
とするフルテキストサーチ方法。
【請求項１５】　　文書情報を文字コードデータとして
蓄積した文書データベースを対象として，検索者が指定
したキーワードを含む文書をその本文内容を参照して検
索するフルテキストサーチ方法において，該文書データ
ベースに文書を登録する際，該登録文書の本文文字列を
ひらがな，漢字，及び英数字等の文字種ごとに分割し，
分割した各部分文字列の間で相互に文字列の包含関係を
調べ，他の文字列に含まれる文字列を排除し，こうして
得られた部分文字列を文字種ごとに分離して別々の凝縮
本文を作成するステップと，元の本文中に現れる文字の
種類を記述した文字成分表を作成するステップと，登録
対象文書の本文のほかに該文字種に応じた複数の凝縮本
文と文字成分表を合わせて文書データベースへ登録する
ステップと，検索時には先ず検索者が指定したキーワー
ドを構成する全ての種類の文字を含む文書を，文字成分
表を参照して抽出する文字成分表サーチのステップと，
次に該文字成分表サーチで抽出された文書の，検索者が
指定したキーワードを構成する部分文字列の文字種に応
じた凝縮本文を参照して，該指定部分文字列を含む文書
のみを抽出する凝縮本文サーチのステップにより，指定
キーワードを含む凝縮本文に対応する文書を選び出し，
最後にこうして絞り込まれた文書の本文を参照して，キ
ーワード間に付与された位置関係等の検索条件を満たす
もののみを抽出する本文サーチのステップにより，等価
的に高速なフルテキストサーチを行うことを特徴とする
フルテキストサーチ方法。
【請求項１６】　　文書情報を文字コードデータとして
蓄積した文書データベースを対象として，検索者が指定
したキーワードを含む文書をその本文内容を参照して検
索するフルテキストサーチ方法において，該文書データ
ベースに文書を登録する際，該登録文書の本文文字列を
ひらがな，漢字，及び英数字等の文字種ごとに分割し，
分割した各部分文字列の間で相互に文字列の包含関係を
調べ，他の文字列に含まれる文字列を排除した部分文字
列の集合からなる凝縮本文を作成するステップと，該凝
縮本文中に現れる文字を重複なく登録した文字成分表を
作成するステップと，登録対象文書の本文のほかに凝縮
本文と文字成分表を合わせて文書データベースへ登録す
るステップと，検索時には先ず検索者が指定したキーワ
ードを構成する全ての種類の文字を含む文書を，文字成
分表を参照して抽出する文字成分表サーチのステップと
，次に該文字成分表サーチで抽出された文書の凝縮本文
を参照して，検索者が指定したキーワードを構成する部
分文字列を含む凝縮本文に対応する文書のみを抽出する
凝縮本文サーチのステップにより，指定キーワードを含
む文書を抽出して等価的に高速なフルテキストサーチを
行うことを特徴とするフルテキストサーチ方法。
【請求項１７】　　文書情報を文字コードデータとして
蓄積した文書データベースを対象として，検索者が指定
したキーワードを含む文書をその本文内容を参照して検
索するフルテキストサーチ方法において，該文書データ
ベースに文書を登録する際，該本文中に現れる文字を重
複なく登録した文字成分表を作成するステップと，登録
対象文書の本文のほかに文字成分表を合わせて文書デー
タベースへ登録するステップと，検索時には先ず検索者
が指定したキーワードを構成する全ての種類の文字を含
む文書を，文字成分表を参照して抽出する文字成分表サ
ーチのステップと，次に該文字成分表サーチで抽出され
た文書に対する本文を参照して，指定キーワードを含み
，なおかつキーワード間に付与された位置関係等の検索
条件を満たすもののみを抽出する本文サーチのステップ
により，等価的に高速なフルテキストサーチを行うこと
を特徴とするフルテキストサーチ方法。
【請求項１８】　　文書情報を文字コードデータとして
蓄積した文書データベースを対象として，検索者が指定
したキーワードを含む文書をその本文内容を参照して検
索するフルテキストサーチ方法において，該文書データ
ベースに文書を登録する際，該登録文書の本文文字列を
ひらがな，漢字，及び英数字等の文字種ごとに分割し，
分割した各部分文字列の間で相互に文字列の包含関係を
調べ，他の文字列に含まれる文字列を排除した部分文字
列の集合からなる凝縮本文を作成するステップと，登録
対象文書の本文のほかに凝縮本文を合わせて文書データ
ベースへ登録するステップと，検索時には先ず凝縮本文
を参照して検索者が指定したキーワードを構成する部分
文字列を含む凝縮本文に対応する文書のみを抽出する凝
縮本文サーチのステップにより，指定キーワードを含む
文書を選び出し，最後にこうして絞り込まれた文書の本
文を参照して，キーワード間に付与された位置関係等の
検索条件を満たすもののみを抽出する本文サーチのステ
ップにより，等価的に高速なフルテキストサーチを行う
ことを特徴とするフルテキストサーチ方法。
【請求項１９】　　文書情報を文字コードデータとして
蓄積した文書データベースを対象として，検索者が指定
したキーワードを含む文書をその本文内容を参照して検
索するフルテキストサーチ装置において，該文書データ
ベースに文書を登録する際，該登録文書の本文文字列を
ひらがな，漢字，及び英数字等の文字種ごとに分割し，
分割した各部分文字列の間で相互に文字列の包含関係を
調べ，他の文字列に含まれる文字列を排除した部分文字
列の集合からなる凝縮本文を作成する手段と，該凝縮本
文中に現れる文字を重複なく登録した文字成分表を作成
する手段と，登録対象文書の本文のほかに凝縮本文と文
字成分表を合わせて文書データベースへ登録する手段と
，検索時に検索者が指定したキーワードを構成する全て
の種類の文字を含む文書を，文字成分表を参照して抽出
する文字成分表サーチ手段と，前記文字成分表サーチで
抽出された文書の凝縮本文を参照して，検索者が指定し
たキーワードを構成する部分文字列を含む凝縮本文に対
応する文書のみを抽出する凝縮本文サーチ手段と，抽出
された文書の本文を参照して，キーワード間に付与され
た位置関係等の検索条件を満たすもののみを抽出する本
文サーチ手段を備え，高速なフルテキストサーチを行う
ことを特徴とするフルテキストサーチ装置。
【請求項２０】　　文書情報を文字コードデータとして
蓄積した文書データベースを対象として，検索者が指定
したキーワードを含む文書をその本文内容を参照して検
索するフルテキストサーチ装置において，該文書データ
ベースに文書を登録する際，該登録文書の本文文字列を
ひらがな，漢字，及び英数字等の文字種ごとに分割し，
分割した各部分文字列の間で相互に文字列の包含関係を
調べ，他の文字列に含まれる文字列を排除した部分文字
列の集合からなる凝縮本文を作成する手段と，該凝縮本
文中に現れる文字を重複なく登録した文字成分表を作成
する手段と，登録対象文書の本文のほかに凝縮本文と文
字成分表を合わせて文書データベースへ登録する手段と
，凝縮本文データはＲＡＭディスクに，文字成分表は半
導体メモリに格納する手段と，検索時に検索者が指定し
たキーワードを構成する全ての種類の文字を含む文書を
，文字成分表を参照して抽出する文字成分表サーチ手段
と，前記文字成分表サーチで抽出された文書の凝縮本文
を参照して，検索者が指定したキーワードを構成する部
分文字列を含む凝縮本文に対応する文書のみを抽出する
凝縮本文サーチ手段と，抽出された文書の本文を参照し
て，キーワード間に付与された位置関係等の検索条件を
満たすもののみを抽出する本文サーチ手段を備え，高速
なフルテキストサーチを行うことを特徴とするフルテキ
ストサーチ装置。
【請求項２１】　　文書情報を文字コードデータとして
蓄積した文書データベースを対象として，検索者が指定
したキーワードを含む文書をその本文内容を参照して検
索するフルテキストサーチ装置において，該文書データ
ベースに文書を登録する際，該登録文書の本文文字列を
ひらがな，漢字，及び英数字等の文字種ごとに分割し，
分割した各部分文字列の間で相互に文字列の包含関係を
調べ，他の文字列に含まれる文字列を排除した部分文字
列の集合からなる凝縮本文を作成する手段と，該凝縮本
文中に現れる文字を重複なく登録した文字成分表を作成
する手段と，登録対象文書の本文のほかに凝縮本文と文
字成分表を合わせて文書データベースへ登録するととも
に，本文データ及び凝縮本文データは磁気ディスクに，
文字成分表は半導体メモリに格納する手段と，検索時に
検索者が指定したキーワードを構成する全ての種類の文
字を含む文書を，文字成分表を参照して抽出する文字成
分表サーチ手段と，該文字成分表サーチで抽出された文
書の件数を検査する手段と，該検査の結果件数が所定数
以上の件数に達したときのみ文字成分表サーチの結果を
無視して凝縮本文を全件読み出して，検索者が指定した
キーワードを構成する部分文字列を含む凝縮本文に対応
する文書のみを抽出し，前記検査の結果件数が所定数以
下の場合には，前記文字成分表サーチで抽出された文書
の凝縮本文を参照して，検索者が指定したキーワードを
構成する部分文字列を含む凝縮本文に対応する文書のみ
を抽出する凝縮本文サーチ手段と，抽出された文書の本
文を参照して，キーワード間に付与された位置関係等の
検索条件を満たすもののみを抽出する本文サーチ手段を
備え，等価的に高速なフルテキストサーチを行うことを
特徴とするフルテキストサーチ装置。
【請求項２２】　　文書情報を文字コードデータとして
蓄積した文書データベースを対象として，検索者が指定
したキーワードを含む文書をその本文内容を参照して検
索するフルテキストサーチ装置において，該文書データ
ベースに文書を登録する際，該登録文書の本文文字列を
ひらがな，漢字，及び英数字等の文字種ごとに分割し，
分割した各部分文字列の間で相互に文字列の包含関係を
調べ，他の文字列に含まれる文字列を排除した部分文字
列の集合からなる凝縮本文を作成する手段と，該凝縮本
文中に現れる文字を重複なく登録した文字成分表を作成
する手段と，登録対象文書の本文のほかに凝縮本文と文
字成分表を合わせて文書データベースへ登録するととも
に，本文データ及び凝縮本文データは磁気ディスクに，
文字成分表は半導体メモリに格納する手段と，検索時に
検索者が指定したキーワードを構成する全ての種類の文
字を含む文書を，文字成分表を参照して抽出する文字成
分表サーチ手段と，該文字成分表サーチで抽出された文
書の件数を検査する手段と，該検査の結果件数が一定数
以上の件数に達したときのみ文字成分表サーチの結果を
無視して凝縮本文を全件読み出して，検索者が指定した
キーワードを構成する部分文字列を含む凝縮本文に対応
する文書のみを抽出する凝縮本文サーチ手段と，該凝縮
本文サーチ手段により抽出された文書の本文を参照して
，キーワード間に付与された位置関係等の検索条件を満
たす文書のみを抽出し，かつ前記の文字成分表サーチの
結果件数が一定数以下の場合に該文字成分表サーチで抽
出された文書に対する本文を参照して，指定キーワード
を含むとともにキーワード間に付与された位置関係等の
検索条件を満たす文書のみを抽出する本文サーチ手段に
より，等価的に高速なフルテキストサーチを行うことを
特徴とするフルテキストサーチ装置。