JP3511724B2

JP3511724B2 - 文書検索方法

Info

Publication number: JP3511724B2
Application number: JP06555095A
Authority: JP
Inventors: 勝己多田; 敦畠山; 川口　　久光; 奈津子水谷; 寛次加藤; 悟志浅川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-03-24
Filing date: 1995-03-24
Publication date: 2004-03-29
Anticipated expiration: 2019-03-29
Also published as: JPH08263508A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、大規模な文書データベ
ースの全文を対象として指定した文字列の存在する文書
を高速に検索するフルテキストサーチ（文書検索方法）
に関する。特に、データベース、文書管理システム、文
書ファイリングシステムおよびDTP(Desk Top Publishin
g)システムなどに適用されるものである。

【０００２】

【従来の技術】従来、インデクスを必要としない文書検
索システムとして、登録時に文書を文字コード化したテ
キストデータとして計算機に直接登録しテキストデータ
ベースとして蓄積し、検索時にテキストデータベース内
の全てのテキストの内容を読んで、指定された検索文字
列（以下、検索タームと呼ぶ）を含む文書を探し出すフ
ルテキストサーチが提案されている（L.A.Hollar,「Tex
t Retrieval Computers」,COMPUTER,March, 1979）。

【０００３】このフルテキストサーチは、テキストデー
タベースを構成する全文書のテキストをファイルとして
まとめたテキストファイル全体を先頭から一文字ずつ走
査して、指定された検索タームが存在するか否かを調べ
ることにより、指定された検索タームを含む文書を探し
出すことを特徴としている。こうすることにより、シソ
ーラス等の辞書を用いたインデキシングが不要となるた
め文書中に現れるどんな言葉でも検索タームに指定して
検索することが可能となる。

【０００４】しかし、このフルテキストサーチには以下
に示す二つの問題がある。

【０００５】（１）テキストファイル全体を先頭から一
文字ずつ走査するため大規模なデータベースを対象とし
た場合にはサーチ処理に要する時間が長大化してしま
う。

【０００６】（２）検索者が指定した検索タームとテキ
ストデータベースの文書中の文字列との間の表記の食違
いによる検索漏れを生じる可能性がある（例えば、検索
タームとして「インタフォーン」が指定されたとき、テ
キストデータベース中に「インターホン」を含む文書は
検索されず、検索漏れとなってしまう）。

【０００７】これらの問題のうち、検索時間の長大化に
対しては、特開平３−１７４６５２号公報に階層型プリ
サーチ方式と呼ばれる高速全文検索方式（以後、従来例
１と呼ぶ）が記載されている。さらに特開平５−１７４
０６４号公報には従来例１の改良方式である連接文字成
分表方式（以後、従来例２と呼ぶ）が記載されている。
また、検索タームとテキストデータベースの文書中の文
字列との間の表記の食違いにより生じる検索漏れの防止
に対しては、特開平３−１５９８０号公報に異表記検索
方式と呼ばれる（以後、従来例３と呼ぶ）が記載されて
いる。

【０００８】以下、従来例１と従来例２および従来例３
の概略を説明する。まず始めに、フルテキストサーチの
検索速度を等価的に高める従来例１における階層プリサ
ーチ方式および従来例２における連接文字成分表方式に
ついて説明する。

【０００９】従来例１における階層プリサーチ方式では
テキストをサーチする前に予め作成しておいた二つの補
助ファイル、すなわち「文字成分表」と「凝縮テキス
ト」を階層的にサーチして検索タームに関係のない文書
を検索対象からふるい落とし、テキストをサーチする文
書の件数を減らすことによって等価的に検索速度を高速
化する。すなわち、まず文字成分表のサーチで文字単位
の絞込みを行う。次に、この文字成分表サーチによって
絞り込まれた文書に対し凝縮テキストをサーチし、単語
単位での絞込みを行うことによって検索タームに関係の
ない文書を検索対象からふるい落とす。

【００１０】さらに、従来例２における連接文字成分表
方式では抽出する文字成分を複数の文字の組み合わせ
て、複数の文字を一単位として絞り込む。このことによ
って、一文字を単位として検索対象とする文書を絞り込
む従来例１に比べ高い絞込み率を実現する。例えば、図
２に示す例において検索タームとして「イラン」が指定
された場合には、従来例１における文字成分表では一文
字単位の文字成分表をサーチすることにより「イ」、
「ラ」および「ン」を含む文書を抽出する。この結果、
文書１、文書２および文書Ｎがそれぞれ抽出されること
になる。これに対し、従来例２における連接文字成分表
の場合、本図に示す例では二文字単位の連接文字成分表
をサーチすることにより「イラ」および「ラン」を含む
文書を抽出する。この結果、文書Ｎのみが抽出されるこ
ととなり、従来例１における文字成分表に比べ文書１お
よび文書２を検索の対象からふるい落とすことができ
る。

【００１１】次に、検索タームとテキストデータベース
の文書中の文字列との間の表記の食違いから生じる検索
漏れを防止する従来例３における異表記検索方式につい
て説明する。

【００１２】この方式では、カタカナ文字列の類似音節
表記、アルファベット文字の大小文字、ローマ字文字列
の表記法（ヘボン式、訓令式）、漢字の送り仮名および
漢字の新旧字体などについて、その表記しうるバリエー
ションを異表記文字列ルールとして登録しておく。検索
時には、先述した異表記文字列ルールに従い指定された
検索タームを先頭の文字から順次展開していくことによ
り、検索タームに対する展開結果文字列をシステム内部
で自動的に生成する。そして、これらの展開結果文字列
の全てを検索者が与えた検索タームであるとみなして検
索することにより検索タームとテキストデータベースの
文書中の文字列との間の表記の食違いから生じる検索漏
れを防止する。

【００１３】例えば、検索タームに「インタフォーン」
が指定された場合の異表記展開処理の例を図３を用いて
説明する。本図において、異表記文字列ルールは異表記
ルールテーブルの形式で登録されている。まず始めに、
検索タームの先頭文字である「イ」に対し異表記ルール
テーブル中の見出し文字列の部分を探索する。この場
合、「イ」で始まる見出し文字列は見つからないため表
記のバリエーションは存在しないものとして、展開処理
を行わず探索ポインタを一文字移動させる。「ン」につ
いても同様に、該当する見出し文字列は存在しないため
探索ポインタを一文字移動させ、次に「タ」で始まる見
出し文字列を探索する。今度は、該当する見出し文字列
として「タ」が見つかるため、「タ」に対応する異表記
文字列の「タ」と「ター」を表記のバリエーションとし
て抽出し、探索ポインタを一文字分移動させる。次に、
「フ」の文字から見出し文字列を探索することにより該
当する見出し文字列として「フォー」と「フォ」を得る
が、長い方の文字列である「フォー」に対応する異表記
文字列の「フォー」、「フォ」、「ホ」および「ホー」
を表記のバリエーションとして抽出する。さらに、
「ン」については対応する見出し文字列が見つからない
ため展開しない。

【００１４】以上の処理により、検索タームである「イ
ンタフォーン」は、異表記文字列リスト「イン{タ、タ
ー}{フォー、フォ、ホー、ホ}ン」に展開される（「{」
および「}」は各異表記文字列の先頭および末尾を表
す）。そして、最終的にこれらの異表記文字列リストを
組み合わせることにより、検索タームである「インタフ
ォーン」は、(1)「インタフォーン」、(2)「インタフォ
ン」、(3)「インタホーン」、(4)「インタホン」、(5)
「インターフォーン」、(6)「インターフォン」、(7)
「インターホーン」、(8)「インターホン」の８通りの
展開結果文字列に展開される。以上が従来例３における
異表記展開処理の例である。

【００１５】

【発明が解決しようとする課題】検索タームを異表記展
開した場合に、絞り込み率を高めることを望むときは、
以上説明した従来例２における連接文字成分表方式を従
来例３における異表記検索方式に適用することが考えら
れる。具体的には、次の二つの方法がある。第一の方法
として、異表記展開された全ての展開結果文字列に対し
それぞれ連接文字成分表サーチを行い各検索結果の論理
和をとる方法がある。また、第二の方法として異表記文
字列毎に連接文字成分表をサーチし各異表記文字列につ
いて得られた連接文字成分表サーチ結果の論理積をとる
方法である。

【００１６】しかし、これらの方法には以下に示す問題
がある。まず第一の方法（異表記展開された全ての展開
結果文字列に対しそれぞれ連接文字成分表サーチを行
い、各検索結果の論理和をとる方法）では、連接文字成
分表サーチに要する時間が長大化する。その理由は、展
開結果文字列の数が各異表記文字列の文字列数の積に比
例して増加するためである。特に、異表記文字列を多く
含む検索タームが指定された場合に、この問題が顕著に
なる。例えば、図３に示した「インタフォーン」の例で
は８通りの文字列全てに対し連接文字成分表サーチを行
い、これらの検索結果の論理和をとる必要がある。すな
わち、連接文字成分表の連接文字数を２としたときにつ
いて具体的に説明すると、(1)「インタフォーン」に対
する検索結果を得るために「イン」、「ンタ」、「タ
フ」、「フォ」、「ォー」および「ーン」の６個の連接
文字成分について文字成分表サーチが発生する。同様
に、(2)「インタフォン」については５個、(3)「インタ
ホーン」については５個、(4)「インタホン」について
は４個、(5)「インターフォーン」については７個、(6)
「インターフォン」については６個、(7)「インターホ
ーン」については６個、(8)「インターホン」について
は５個、合計４４個の連接文字成分について文字成分表
サーチが発生することになる。

【００１７】そして第二の方法（異表記文字列毎に連接
文字成分表をサーチし、各異表記文字列について得られ
た連接文字成分表サーチ結果の論理積をとる方法）で
は、連接文字成分表サーチの絞込み率が著しく低下する
という問題が生じる。その理由は、部分文字列間にまた
がった連接文字成分を絞込みに利用することができない
ためである。すなわち、図３に示す例では文字列を「イ
ン」、{「タ」or「ター」}、{「フォー」or「フォ」or
「ホー」or「ホ」}および「ン」に分解する。そして、
分解された各文字列に対し連接文字成分表をサーチし、
各検索結果の論理積をとることにより検索ターム「イン
タフォーン」の展開結果文字列に対する連接文字成分表
サーチ結果を得る。このため、異表記検索を行わない場
合には検索ターム「インタフォーン」に対し、「イン」and「ンタ」and「タフ」and「フォ」and「ォ
ー」and「ーン」の条件で連接文字成分表サーチを行う。このことに比
べ、異表記検索を行う場合には文字列が異表記文字列毎
に分解されるために「ンタ」、「タフ」および「ーン」
に対応する連接文字成分を検索に利用することができな
い。このため、異表記展開を行わない場合に比べ絞込み
率が低下してしまうという問題が生じる。

【００１８】すなわち本発明の解決しようとする課題
は、検索条件として検索タームとテキストデータベース
の文書中の文字列との間の表記の食違いを許容した検索
が指定された場合にも、検索ノイズの少ない連接文字成
分表サーチを高速に実現することである。

【００１９】

【課題を解決するための手段】検索条件として検索ター
ムとテキストデータベースの文書中の文字列との間に生
じるカタカナ文字列、アルファベット文字の大小文字、
ローマ字文字列の表記法（ヘボン式、訓令式）、漢字の
送り仮名および漢字の新旧字体などの表記の食違いを吸
収した検索が指定された場合でも、以下の構成により正
確かつ高速な検索が可能となる。

【００２０】文書情報を文字コードデータとして蓄積し
たテキストデータベースを対象として、対象テキストデ
ータから予め定められた形式２文字以上からなる部分文
字列を抽出し、抽出された部分文字列を連接文字成分と
して、その存在の有無を連接文字成分表に登録し、検索
時には、検索タームから予め定められた形式で２文字以
上からなる検索用部分文字列を抽出し、抽出された検索
用部分文字列に対応する前記連接文字成分表をサーチし
て、検索タームに関係のない文書を検索対象からふるい
落す文書検索方法において、検索タームに対し、文字と
して表した場合に表記が異なる異表記を生成する異表記
文字列ルールを参照して、検索タームを構成する部分文
字列毎に異表記文字列を生成し、生成された異表記文字
列の末尾に、異表記文字列の次に位置する異表記文字列
の先頭からの１文字以上の文字列を付加して付加型異表
記文字列を作成し、作成された付加型異表記文字列から
検索用部分文字列を抽出し、抽出された検索用部分文字
列に対応する連接文字成分表をサーチすることにより、
検索タームに関係のない文書を検索対象からふるい落す
ことを特徴とする。

【００２１】ここで、具体例として、異表記文字列に一
文字を付加する場合について説明する。

【００２２】例えば、検索タームとして「インタフォー
ン」が指定された場合には異表記文字列抽出ステップに
おいて図２に示したように、異表記文字列を含む文字列
として「イン{タ、ター}{フォー、フォ、ホー、ホ}ン」
を抽出する。

【００２３】次に、一文字付加型異表記文字列作成ステ
ップでは、まずはじめに部分文字列「イン」に着目す
る。そして、次の異表記文字列の先頭一文字として
「タ」を抽出し、これを部分文字列「イン」の末尾に付
加することにより一文字付加型の部分文字列として「イ
ンタ」を得る。次に、異表記文字列{タ、ター}に着目
し、次の異表記文字列の先頭一文字である「フ」と
「ホ」を各文字列の末尾に付加することにより、一文字
付加型の異表記文字列として「{タフ、ターフ、タホ、
ターホ}」を得る。さらに、異表記文字列「{フォー、フ
ォ、ホー、ホ}」に着目し、次の部分文字列の先頭一文
字である「ン」を各文字列の末尾に付加することによ
り、「{フォーン、フォン、ホーン、ホン}」を得る。最
後に、部分文字列「ン」に着目するが、部分文字列が単
一文字であり、かつ次に部分文字列が存在しないため削
除する。

【００２４】さらに異表記文字列サーチステップでは、
一文字付加型の部分文字列「インタ」について連接文字
成分表をサーチし検索結果１を得る。次に、一文字付加
型の異表記文字列「{タフ、ターフ、タホ、ターホ}」に
ついて「タフ」or「ターフ」or「タホ」or「ターホ」の
条件で連接文字成分表をサーチし検索結果２を得る。最
後に、一文字付加型の異表記文字列「{フォーン、フォ
ン、ホーン、ホン}」についても同様に「フォーン」or
「フォン」or「ホーン」or「ホン」の条件で連接文字成
分表をサーチし検索結果３を得る。

【００２５】そして、検索結果取得ステップで異表記文
字列サーチステップにおいて得られた検索結果１、検索
結果２および検索結果３の間で論理積をとることによ
り、検索ターム「インタフォーン」に対する検索結果を
得る。

【００２６】また、付加型異表記文字列を作成する際に
付加する文字数は、テキストデータから抽出された部分
文字列の文字数から１引いた数にしてもよい。

【００２７】

【作用】このように、本発明による文書検索方法では連
接文字成分表の連接文字数を２とした時、「ンタ」や
「タフ」などの異表記文字列間にまたがった連接文字成
分を利用した絞込みが行えるため検索ノイズの少ない連
接文字成分表サーチを実現することができる。

【００２８】また、本発明による文書検索方法では検索
結果１を得るために「イン」と「ンタ」の２個の連接文
字成分について文字成分表をサーチする。また、検索結
果２を得るために「タフ」、「ター」、「ーフ」、「タ
ホ」、「ター」、「ーホ」の６個、検索結果３を得るた
めに「フォ」、「ォー」、「ーン」、「フォ」、「ォ
ン」、「ホー」、「ーン」、「ホン」の８個の連接文字
成分について文字成分表をサーチする。このように、合
計１６個の連接文字成分について文字成分表をサーチす
ることにより検索が終了する。すなわち、検索タームで
ある「インタフォーン」を、(1)「インタフォーン」、
(2)「インタフォン」、(3)「インタホーン」、(4)「イ
ンタホン」、(5)「インターフォーン」、(6)「インター
フォン」、(7)「インターホーン」、(8)「インターホ
ン」の8通りの展開結果文字列に展開してから文字成分
表をサーチする場合に比べ、サーチする連接文字成分数
を４４個から約三分の一である１６個に削減することが
でき、ひいては検索時間を大幅に短縮することが可能に
なる。

【００２９】また、部分文字列にまたがった連接文字成
分を絞り込みに利用できる。つまり、上述した第２の方
法で利用できなかった「ンタ」「タフ」および「ーン」
に対応する連接成分を検索に利用できる。

【００３０】

【実施例】以下、本発明の実施例について図を用いて説
明する。本実施例では、説明の簡略化のため連接文字成
分表の連接文字数を２とした場合について説明する。ま
た、部分文字列に付加する文字数を一文字とした場合に
ついて説明する。

【００３１】本発明を適用した文書検索システムを図１
に示す。この文書検索システムは、ディスプレイ１０
０、キーボード１０１、中央演算装置ＣＰＵ１０２、磁
気ディスク１１０、フロッピディスクドライブ（ＦＤ
Ｄ）１０６、主メモり２００から構成される。また、こ
れらはバス１０８で接続されている。磁気ディスク１１
０にはテキスト１０３、凝縮テキスト１０４、連接文字
成分表１０５および後述する各種プログラム１１１やテ
ーブル１１２が格納される。１０７は新たに登録する文
書を格納したフロッピディスクである。

【００３２】主メモリ２００には、システム制御プログ
ラム２０１、文書登録制御プログラム２０２、テキスト
登録プログラム２０３、凝縮テキスト作成登録プログラ
ム２０４、連接文字成分表作成登録プログラム２０５、
検索制御プログラム２０６、検索条件式解析プログラム
２０７、連接文字成分表サーチプログラム２０８、凝縮
テキストサーチプログラム２１３、テキストサーチプロ
グラム２１４、ハッシュテーブル２１５、および異表記
ルールテーブル２１６が磁気ディスク１１０から読み出
されて格納されるとともにワークエリア２１７が確保さ
れる。

【００３３】連接文字成分表サーチプログラム２０８は
異表記文字列抽出プログラム２０９、一文字付加型異表
記文字列作成プログラム２１０、異表記文字列サーチプ
ログラム２１１および検索結果取得プログラム２１２か
ら構成される。これらのプログラムはユーザのキーボー
ド１０１からの指示に応じてシステム制御プログラム２
０１の制御の下で実行される。

【００３４】以下、本発明の対象となる階層プリサーチ
における登録処理と検索処理について説明する。

【００３５】文書の登録の際は図５に示すように、キー
ボード１０１から入力されたコマンドを受け、システム
制御プログラム２０１は文書登録制御プログラム２０２
を起動する。この文書登録制御プログラム２０２は、最
初にステップ１０００でテキスト登録プログラム２０３
を起動して、フロッピディスクドライブ１０６に挿入さ
れたフロッピディスク１０７から登録文書のテキストデ
ータをワークエリア２１７に読み込み、これをテキスト
１０３として磁気ディスク１１０へ格納する。登録文書
はフロッピディスクを用いて入力するだけでなく、通信
回線（図１には示していない）等を用いて他の装置から
入力するような構成をとってもかまわない。

【００３６】次に、文書登録制御プログラム２０２はス
テップ１００１で凝縮テキスト作成登録プログラム２０
４を起動して以下の処理を行う。テキストデータを単語
レベルで部分文字列へ分割する。分割した部分文字列間
で相互に文字列の包含関係を調べ、他の部分文字列に含
まれる文字列を排除する。そして、残った部分文字列の
集合を凝縮テキスト１０４として磁気ディスク１１０へ
格納する。

【００３７】最後に、文書登録制御プログラム２０２は
ステップ１００２で連接文字成分表作成登録プログラム
２０５を起動し、磁気ディスク１１０に格納されたテキ
スト１０３からテキストデータをワークエリア２１７に
読み込む。そして、このテキストデータから連続する２
文字の文字列を抽出し、ワークエリア２１７内の連接文
字成分表１０５の該当するエントリに「１」を設定し、
これを磁気ディスク１１０へ格納する。なお、テキスト
データから抽出された２文字の文字列に該当する文字成
分表のエントリを算出する方式として単純なハッシュ関
数を用いてもよいし、従来例２に示されている文書デー
タベース中の連接文字成分の頻度を利用したハッシュ方
式を用いてもよい。また、特願平７−２４０５号で示し
たハッシュ関数を用いない方式であってもよい。

【００３８】以上が、連接文字成分表作成登録プログラ
ムの処理内容である。

【００３９】検索の際には、検索条件式がキーボード１
０１から入力されると、システム制御プログラム２０１
により検索制御プログラム２０６が起動される。そし
て、本制御プログラムの下で検索条件式解析プログラム
２０７、連接文字成分表サーチプログラム２０８、凝縮
テキストサーチプログラム２１３およびテキストサーチ
プログラム２１４が順次起動される。

【００４０】以下、図６を用いて、連接文字成分表サー
チプログラム２１１、凝縮テキストサーチプログラム２
１４およびテキストサーチプログラム２１５による階層
検索処理の詳細について説明する。

【００４１】まず、検索制御プログラム２０６はステッ
プ１０１０で連接文字成分表サーチプログラム２０８を
起動し、検索タームから抽出された連接文字成分を含む
文書を抽出する。この連接文字成分表サーチの結果件数
が０件であれば、ここで０件という結果件数をシステム
制御プログラム２０１に出力して検索処理を終了する。

【００４２】もし、連接文字成分表サーチの結果件数が
０件でなければ、検索制御プログラム２０６はステップ
１０１１で凝縮テキストサーチプログラム２１３を実行
する。ここでは、上述の連接文字成分表サーチプログラ
ム２０８によって出力された文書番号に対応する凝縮テ
キスト１０４をワークエリア２１７に読み込む。

【００４３】そして、読み込まれた凝縮テキスト１０４
を凝縮テキストサーチプログラム２１３で探索し、検索
タームが含まれる凝縮テキストの文書番号を検索制御プ
ログラム２０６に出力する。

【００４４】この凝縮テキストサーチの結果件数が０件
であれば、ここで０件という結果件数をシステム制御プ
ログラム２０１に出力して検索処理を終了する。

【００４５】また、与えられた検索条件式の中に単一の
検索タームか、あるいは複数の検索ターム間の論理的な
関係(AND条件やOR条件)が指定されているだけで、テキ
スト中での位置関係までは指定されていない場合には、
ここで検索を終了し凝縮テキストサーチプログラム２１
３によって出力された文書番号を検索結果としてシステ
ム制御プログラム２０１に出力する。

【００４６】それ以外の場合、すなわち与えられた検索
条件式の中に複数の検索ターム間のテキスト中での位置
関係が指定されている場合には、ステップ１０１２でテ
キストサーチプログラム２１４を起動し、テキストサー
チを行う。

【００４７】単一の検索タームが指定されたり、あるい
は単にＡＮＤやＯＲ条件が指定されただけの場合に凝縮
テキストサーチで検索を終了できるのは、凝縮テキスト
１０４にはその作成アルゴリズムからも分かるように、
テキスト１０３中に存在する単語が漏れなく抽出されて
おり、凝縮テキスト１０４を検索するだけで指定された
単語がテキストデータ中に現われたか否かが判定できる
ためである。

【００４８】例えば、「インターフォン（ＡＮＤ）小型
化」のように記述される「「インターフォン」と「小型
化」の両方が現れる文書を探せ」という意味を持つＡＮ
Ｄ条件や、「インターフォン（ＯＲ）マイクロフォン」
のように記述される「「インターフォン」か「マイクロ
フォン」のどちらかが現れる文書を探せ」という意味を
持つＯＲ条件などは、複数の検索ターム間の論理的な関
係が指定されているだけで、テキスト中での位置関係ま
では指定されていない。そのため、「インターフォン」
と「マイクロフォン」の存在分かればよいだけなので凝
縮テキストサーチだけで検索条件の成否を判定すること
ができる。

【００４９】これに対し、以下の文脈条件、近傍条件お
よび隣接条件の場合、複数の検索ターム間のテキスト中
での位置関係が指定されているため、単語の出現位置情
報を持たない凝縮テキストサーチだけでは成否の判定が
できず、テキストサーチまで行わなければならない。

【００５０】例えば、文脈条件とは、「インターフォン
（Ｓ）小型化」のように記述される「「インターフォ
ン」と「小型化」が同一の文（センテンス）に共起（同
時に出現）する文書を探せ」という意味を持つものであ
る。

【００５１】次に近傍条件とは、「インターフォン（２
Ｗ）小型化」のように記述される「「インターフォン」
と「小型化」が２語以内に近接して現れる文書を探せ」
という意味を持つものである。

【００５２】さらに隣接条件とは、「小型化（Ａ）イン
ターフォン」のように記述される「「小型化」と「イン
ターフォン」が隣接して現れる文書を探せ」という意味
を持つものである。

【００５３】凝縮テキストサーチの結果件数が０件でな
く、かつ上述した文脈条件、近傍条件あるいは隣接条件
が指定されている場合には、テキストサーチプログラム
２１４が起動され、凝縮テキストサーチプログラム２１
３で出力された文書番号に対応するテキストデータをテ
キスト１０３からワークエリア２１７に読み込む。そし
て、テキストサーチプログラム２１４はこのテキストデ
ータを探索し、与えられた検索タームを含み、かつ検索
ターム間の位置関係に関する指定条件を満たすものを抽
出し、この抽出テキストデータに対応する文書番号を検
索結果として検索制御プログラム２０６に出力する。以
上が本発明の対象となる階層プリサーチの概略である。

【００５４】次に、本発明の実施例における連接文字成
分表の検索手順について図７を用いて説明する。

【００５５】まず、検索制御プログラム２０６はステッ
プ１０２０で異表記文字列抽出プログラム２０９を起動
する。ここでは、図３に示す異表記ルールテーブル２１
６を参照することにより検索タームを部分文字列に分割
し、各部分文字列について異表記文字列を抽出する。

【００５６】次に、ステップ１０２１で一文字付加型異
表記文字列作成プログラム２１０を起動し、異表記文字
列抽出プログラム２０９で抽出された各部分文字列の末
尾に次の部分文字列の先頭一文字を付加することにより
一文字付加型の異表記文字列を生成する。

【００５７】さらに、ステップ１０２２で異表記文字列
サーチプログラム２１１を起動し、一文字付加型異表記
文字列作成プログラム２１０で作成された異表記文字列
を含む部分文字列に対し、それぞれ連接文字成分表をサ
ーチする。

【００５８】最後に、ステップ１０２３で検索結果取得
プログラム２１２を起動し、異表記文字列サーチプログ
ラム２１１で得られた各部分文字列に対する検索結果間
で論理積演算を行うことにより検索結果を取得する。そ
して、この結果得られた文書の番号を連接文字成分表サ
ーチの結果として検索制御プログラム２０６に出力す
る。

【００５９】以上が、本実施例における連接文字成分表
の検索手順である。

【００６０】次に、上記連接文字成分表検索処理におけ
る異表記文字列抽出プログラム２０９および一文字付加
型異表記文字列作成プログラム２１０の処理手順につい
て、さらに詳細に説明する。

【００６１】始めに、異表記文字列抽出プログラム２０
９の処理手順について図８を用いて説明する。

【００６２】異表記文字列抽出プログラム２０９では、
まずステップ２０００で部分文字列数を１に初期化し、
ステップ２００１で探索ポインタを検索タームの先頭文
字にセットすることにより異表記文字列抽出処理の準備
をしておく。そして、ステップ２００２で探索ポインタ
から始まる文字列に対し異表記ルールテーブル２１６の
見出し文字列の部分を探索する。そして、探索ポインタ
から始まる文字列が見出し文字列中に見つかった場合に
は、ステップ２００３で文字列バッファ中に格納されて
いる文字列があるか否かの判定を行う。そして、文字列
バッファ中に文字列が格納されている場合には、ステッ
プ２００４で該当する文字列を部分文字列として抽出
し、ステップ２００５で文字列バッファを初期化する。
さらに、ステップ２００６で該当する見出し文字列に対
応する異表記文字列を抽出する。そして、ステップ２０
０７で部分文字列数をインクリメントする。また、探索
ポインタから始まる文字列が見出し文字列中に見つから
ない場合には、ステップ２００８で探索ポインタの示す
文字を文字列バッファに格納する。

【００６３】そして、上記処理を検索タームの末尾まで
繰り返すことにより、検索タームを異表記文字列を含む
部分文字列に展開していく。

【００６４】次に、一文字展開型異表記文字列作成プロ
グラム２１０の処理手順について図９を用いて説明す
る。

【００６５】一文字展開型異表記文字列作成プログラム
２１０では、まずステップ２１００で異表記文字列抽出
プログラム２０９で算出された部分文字列数が１である
か否かを判定する。そして、部分文字列数が１の場合に
は、次の部分文字列が存在しないものとしてステップ２
１０１で該当部分文字列をそのまま出力する。また、部
分文字列数が２以上の時には、ステップ２１０２で該当
文字列の末尾に次の部分文字列の先頭一文字を付加して
出力し、ステップ２１０３で着目部分文字列を一つ移動
させる。そして、この処理を(部分文字列数−１)回繰り
返し、ステップ２１０４で最後の部分文字列に対し文字
列長が１文字であるか否かを判定する。文字列長が一文
字の場合にはステップ２１０５で該当文字を削除する。
そして、２文字以上の時にはステップ２１０６で該当文
字列をそのまま出力して処理を終了する。

【００６６】以上が、異表記文字列抽出プログラム２０
９および一文字付加型異表記文字列作成プログラム２１
０の処理手順である。

【００６７】以上のプログラムにより構成される連接文
字成分表のサーチ処理について、検索タームとして「イ
ンタフォーン」が指定された時を例に図４を用いて具体
的に説明する。

【００６８】はじめに、検索制御プログラム２０６は連
接文字成分表サーチプログラム２０８において異表記文
字列抽出プログラム２０９を起動する。

【００６９】異表記文字列抽出プログラム２０９では、
初期設定として部分文字列数に１を設定し、探索ポイン
タを検索タームの先頭文字である「イ」に設定する(ス
テップ２００および２００１)。そして、着目文字であ
る「イ」から始まる文字列に対し図３に示す異表記ルー
ルテーブルの見出し文字列の部分を探索する(ステップ
２００２)。異表記ルールテーブルの見出し文字列には
「イ」から始まる文字列がみつからないため、「イ」を
文字列バッファに出力する(ステップ２００８)。そし
て、探索ポインタを一文字移動させ「ン」から始まる文
字列に着目する。「ン」についても同様に見出し文字列
中に見つからないため「ン」を文字列バッファに出力す
る。次に「タ」から始まる文字列について見出し文字列
を探索することにより、見出し文字列「タ」が見つか
る。この時、文字列バッファ中に文字列「イン」が格納
されているため(ステップ２００３)、「イン」を部分文
字列として抽出し(ステップ２００４)、文字列バッファ
を初期化する(ステップ２００５)。そして、該当する見
出し文字列「タ」に対応する異表記文字列である「タ」
と「ター」を抽出する(ステップ２００６)。また、部分
文字列数をインクリメントすることにより部分文字列数
は２となる(ステップ２００７)。次に「フ」の文字から
見出し文字列を探索することにより、該当する見出し文
字列として「フォ」と「フォー」を得るが、このような
場合には長い方の文字列である「フォー」を該当する見
出し文字列として得る。この時、文字列バッファ中に文
字列が格納されていないため(ステップ２００３)、ステ
ップ２００４と２００５を実行しない。そして、見出し
文字列「フォー」に対する異表記文字列として「フォ
ー」、「フォ」、「ホー」および「ホ」を抽出する(ス
テップ２００６)。また、部分文字列数をインクリメン
トすることにより部分文字列数は３となる(ステップ２
００７)。次に、「ン」については見出し文字列中に見
つからないため「ン」を文字列バッファに出力する(ス
テップ２００８)。そして、最後に文字列バッファに格
納された文字列「ン」を部分文字列として抽出する(ス
テップ２００９)。また、部分文字列数をインクリメン
トすることにより部分文字列数は４となる(ステップ２
０１０)。

【００７０】以上の処理により検索タームは異表記文字
列リスト「イン{タ、ター}{フォー、フォ、ホー、ホ}
ン」に展開され、部分文字列数として４を得る。

【００７１】次に、検索制御プログラム２０６は連接文
字成分表サーチプログラム２０８において一文字展開型
異表記文字列作成プログラム２１０を起動する。

【００７２】一文字展開型異表記文字列作成ステップ２
１０では、まずはじめに異表記文字列抽出プログラム２
０９で算出された部分文字列数が１であるか否かを判定
する(ステップ２１００)。この例の場合、部分文字列数
は４であるため２以上であると判定される。次に、(部
分文字列数−１)回、すなわち３回分の部分文字列につ
いて、各部分文字列の末尾に次の部分文字列の先頭文字
を付加する処理を行う(ステップ２１０２、２１０３)。
まず、１回目の処理では、部分文字列「イン」の末尾に
次の部分文字列である「タ」および「ター」の先頭文字
である「タ」を付加することにより部分文字列「イン
タ」を得る。また、２回目の処理では部分文字列「タ」
と「ター」の末尾に、次の部分文字列「フォー」、「フ
ォ」、「ホ」および「ホー」の先頭文字である「フ」と
「ホ」を付加することにより部分文字列「タフ」、「タ
ーフ」、「タホ」および「ターホ」を得る。最後に、３
回目の処理では部分文字列「フォー」、「フォ」、「ホ
ー」および「ホ」の末尾に次の部分文字列「ン」の先頭
文字である「ン」を付加することにより、部分文字列
「フォーン」、「フォン」、「ホーン」および「ホン」
を得る。

【００７３】次に、最後の部分文字列である「ン」は１
文字であるため(ステップ２１０４)、該当文字「ン」を
削除する(ステップ２１０５)。

【００７４】以上の処理により、異表記文字列リスト
「イン{タ、ター}{フォー、フォ、ホー、ホ}ン」は一文
字付加型の異表記文字列リスト「インタ{タフ、ター
フ、タホ、ターホ}{フォーン、フォン、ホーン、ホ
ン}」に展開される。

【００７５】さらに、異表記文字列サーチプログラム２
１１では一文字付加型異表記文字列作成ステップ２１０
で作成された異表記文字列リストに対し、各部分文字列
毎の文字成分表サーチを実行する。すなわち、一番目の
部分文字列である「インタ」に対し連接文字成分表をサ
ーチすることにより検索結果１を得る。次に、二番目の
部分文字列である{タフ、ターフ、タホ、ターホ}、三番
目の部分文字列である{フォーン、フォン、ホーン、ホ
ン}に対し連接文字成分表をサーチすることにより、そ
れぞれ検索結果２および３を得る。

【００７６】最後に、検索結果取得プログラム２１２で
は異表記文字列サーチプログラム２１１で得られた各部
分文字列に対する文字成分表サーチ結果である検索結果
１、検索結果２および検索結果３の間の論理積をとるこ
とにより、検索ターム「インタフォーン」に対する検索
結果を取得する。

【００７７】このように、本発明による文書検索方法で
は各部分文字列の末尾に次の部分文字列の先頭一文字を
付加して一文字付加型の異表記文字列を作成する。この
ため、本実施例に示した「インタフォーン」の例では、
「ンタ」や「タフ」などの部分文字列間にまたがった連
接文字成分を利用した検索ノイズの少ない連接文字成分
表サーチを高速に実現することができる。また、その結
果、階層プリサーチにおける凝縮テキストの探索量が削
減されることになるため、等価的に全体の検索速度を向
上できることになる。したがって、より大量のフルテキ
ストサーチを実時間で行うことが可能となる。

【００７８】なお、本実施例においては連接文字成分表
の連接文字数を二文字とした場合に、各部分文字列の末
尾に次の部分文字列の先頭一文字を付加する方式につい
て説明した。しかし、例えば連接文字数が三文字の場合
には、各部分文字列の末尾に次の部分文字列の先頭二文
字を付加する二文字付加型の異表記文字列を作成するこ
とにより、連接文字数が三文字の場合にも実現できるこ
とは明らかであろう。

【００７９】また、本実施例においては比較的単純な構
造の異表記文字列ルールを対象とした場合について説明
した。しかし、異表記文字列ルール内に階層的な構造を
持つ場合についても、階層構造を展開してから本実施例
に示した連接文字成分表サーチを実行することにより容
易に実現できる。例えば、本実施例で示した検索ターム
「インタフォーン」において「ー」(長音記号)に対し
「−」(マイナス)が異表記文字列として登録されている
場合には、異表記文字は階層構造を持つ異表記文字列リ
スト「イン{タ、タ{ー、−}}{フォ{ー、−}、フォ、ホ
{ー、−}、ホ}ン」で表されることになるが、この階層
構造を持つ部分を展開し異表記文字列リスト「イン
{タ、ター、タ−}{フォー、フォ−、フォ、ホー、ホ
−、ホ}ン」としてから本実施例に示した連接文字成分
表サーチを実行することにより検索ノイズの少ない連接
文字成分表サーチを高速に実現できることは明らかであ
ろう。

【００８０】さらに、本実施例においては連接文字成分
表１０５を全て磁気ディスク１１０上に格納した場合に
ついて説明した。しかし、表記の食違いを許容した検索
時に指定されるカタカナなどの検索タームは一般に単語
長が長く、さらにこれらが部分文字列ごとに展開される
ため磁気ディスク１１０から読み出される連接文字成分
表の数も増加し、通常の検索タ−ムに比べ検索レスポン
スが低下する。これに対し、異表記ルールテーブル２１
６中に登録されている異表記文字列の全てまたは一部に
含まれる連接文字成分に対応する文字成分表を、選択的
に磁気ディスク１１０から主メモリ２００上に予め常駐
させることにより、表記の食違いを許容した検索条件が
指定された場合にも一般の検索タームと同等のレスポン
スで連接文字成分表を検索することができる。

【００８１】このように、本実施例による連接文字成分
表サーチでは、従来例に比べ検索ノイズを大幅に削減す
ることができるため、連接文字成分表サーチの検索結果
は凝縮テキストおよびテキストをサーチすることにより
得られる検索結果と大きな差が生じない。このため、連
接文字成分表サーチの検索結果をシステムの検索結果と
してそのままシステム制御プログラム２０１に出力する
ことも可能である。

【００８２】

【発明の効果】本発明によれば、検索タームとテキスト
データベースの文書中の文字列との間に生じるカタカ
ナ、アルファベット、ローマ字、漢字の送り仮名や新旧
字体などの表記上の食違いを許容した検索が指定された
場合にも、高速かつ検索ノイズの少ない連接文字成分表
サーチを実現することができる。このため、無用の凝縮
テキストサーチを大幅に省くことができ、大規模な文書
データベースに対しても実用的な応答時間でフルテキス
トサーチを行うことが可能となる。

【図面の簡単な説明】

【図１】図１は、本発明を適用した文書検索システムの
構成を示す図である。

【図２】図２は、従来例１および従来例２の説明図であ
る。

【図３】図３は、従来例３の説明図である。

【図４】図４は、本発明の処理の流れを示す図である。

【図５】文書の登録手順を示すＰＡＤ図である。

【図６】階層検索の制御手順を示すＰＡＤ図である。

【図７】本発明における連接文字成分表の検索手順を示
すＰＡＤ図である。

【図８】本発明における異表記文字列抽出プログラムの
処置手順を示すＰＡＤ図である。

【図９】本発明における一文字付加型異表記文字列作成
プログラムの処置手順を示すＰＡＤ図である。

【符号の説明】

１００…ディスプレイ、１０１…キーボード、１０２…
中央演算装置ＣＰＵ１０３…テキスト、１０４…凝縮テキスト、１０５…連
接文字成分表１０６…フロッピディスクドライブ（ＦＤＤ）、１０７
…フロッピディスク１０８…バス、１１０…磁気ディスク、１１１…各種プ
ログラム１１２…テーブル、２００…主メモり

───────────────────────────────────────────────────── フロントページの続き (72)発明者川口久光神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者水谷奈津子神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者加藤寛次神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者浅川悟志神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウエア開発本部内 (56)参考文献特開平４−274557（ＪＰ，Ａ) 特開平５−174064（ＪＰ，Ａ) 特開平７−319920（ＪＰ，Ａ) 特開平８−30633（ＪＰ，Ａ) 岩崎雅二郎，小川泰嗣，文字成分表による文字列検索の実現と評価，情報処理学会研究報告（93−ＤＢＳ−92），1993 年３月22日，Ｖｏｌ．93，Ｎｏ．29, ｐ．１−10 小川泰嗣，岩崎雅二郎，林大川，全文検索のための文字成分表方式の改良，情報処理学会研究報告（94−ＤＢＳ− 99），1994年７月22日，Ｖｏｌ．94, Ｎｏ．62，ｐ．261−264 畠山敦，ソフトウェアによるテキストサーチマシンの実現，情報処理学会研究報告（92−ＦＩ−25），1992年５月12 日，Ｖｏｌ．92，Ｎｏ．32，ｐ．19−25 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】文書情報を文字コードデータとして蓄積し
たテキストデータベースを対象として、対象テキストデ
ータから予め定められた形式２文字以上からなる部分文
字列を抽出し、抽出された部分文字列を連接文字成分として、その存在
の有無を連接文字成分表に登録し、検索時には、検索タームから予め定められた形式で２文
字以上からなる検索用部分文字列を抽出し、抽出された検索用部分文字列に対応する前記連接文字成
分表をサーチすることにより、検索タームに関係のない
文書を検索対象からふるい落す文書検索方法において、前記検索タームに対し、文字として表した場合に表記が
異なる異表記を生成する異表記文字列ルールを参照し
て、前記検索タームを構成する部分文字列毎に異表記文
字列を生成し、生成された前記異表記文字列の末尾に、前記異表記文字
列の次に位置する異表記文字列の先頭からの１文字以上
の文字列を付加して付加型異表記文字列を作成し、作成された前記付加型異表記文字列から前記検索用部分
文字列を抽出し、抽出された検索用部分文字列に対応する前記連接文字成
分表をサーチすることにより、検索タームに関係のない
文書を検索対象からふるい落すことを特徴とした文書検
索方法。
【請求項２】請求項１記載の文書検索方法において、前記付加型異表記文字列を作成する際に付加する文字列
の文字数を、前記テキストデータから抽出された部分文
字列の文字数から１引いた数とすることを特徴とする文
書検索方法。
【請求項３】請求項１または請求項２記載の文書検索方
法において、前記異表記文字列が階層的な構造を持つ場合には、階層
構造部分を展開することを特徴とする文書検索方法。
【請求項４】請求項１乃至請求項３のいずれかに記載の
文書検索方法において、前記異表記文字列ルール中に登録されている異表記文字
列の全てまたは一部に含まれる連接文字成分に対応する
文字成分表を、記憶することを特徴とする文書検索方
法。
【請求項５】請求項１乃至請求項４のいずれかに記載の
文書検索方法において、連接文字成分表をサーチして前記各検索用部分文字列が
存在する文書を検索結果とすることを特徴とする文書検
索方法。