JPH07325831A

JPH07325831A - 文書検索方法及び文書検索装置

Info

Publication number: JPH07325831A
Application number: JP6117833A
Authority: JP
Inventors: Yasuo Tanosaki; 康雄田野崎
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1994-05-31
Filing date: 1994-05-31
Publication date: 1995-12-12

Abstract

(57)【要約】【目的】文書登録時にキーワード情報を付加すること
なく、検索時に適当に作成したキーワードによって大量
の文書中から指定された語句を含む文書を高速に検索す
ること。【構成】メモリ４には、外部記憶装置５に登録されて
いる文書に使用されている全ての文字の該当文書中の文
字出現位置を登録文書毎に一覧とした第１のテーブルが
保持され、又前記全ての登録文書で使用されている文字
毎にその文字を使用している登録文書を全て一覧とした
第２のテーブルが保持されている。制御装置３はユーザ
により入力装置２から入力されたキー文字列の各文字に
ついて対応する前記第２のテーブルを参照して、前記各
文字が同時に使用されている登録文書を検索する。次に
制御装置３は前記検索された各登録文書に対応する前記
第１のテーブルを参照して、前記キー文字列の各文字の
出現位置が前記文字列の順序で連続している登録文書を
検索し、検索された文書を表示装置１に表示する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はテキストデータを含む文
書の検索を行う文書検索装置に係り、特に大量の文書中
から目的の文書を高速検索することができる文書検索方
法に関する。

【０００２】

【従来の技術】従来、文書検索方法としては、データベ
ース作成時に予め文書に対してキーワード情報を付加し
ておき、検索時にこれを利用するという方法が用いられ
ていた。この方法によると、検索速度は比較的高速であ
るが、前記キーワード情報を付加する作業に労力を要
し、入力者に負担がかかっていた。更に、適当なキーワ
ードを常に付加することが困難であり、検索時に検索者
の目的とする文書が得られない場合もあった。

【０００３】これに対して近年、電算機の処理速度の高
速化、大容量化に伴い、フルテキストサーチによる方法
が実用化されつつある。この方法によると、検索時に、
文書中に含まれる文字列全てが検索可能となるため、予
めキーワードを付加する必要がなく、検索時にも、検索
者の指定した語句を含む文書を漏れなく得ることができ
る。その反面、この方法によると、検索時にテキストデ
ータの内容を全て読み取らねばならないため、特に文書
データが大量の場合には、現在の電算機の処理能力をも
ってしても、指定された文字列をサーチする際に膨大な
処理時間を要し、実用的範囲内の時間で文書を検索する
ことができないという不具合があった。

【０００４】

【発明が解決しようとする課題】上記のように、従来の
文書検索方法においてい、検索者の目的とする文書を適
格に検索できる点においてはフルテキストサーチ方式が
優れているが、その反面データ量が増加すると、処理時
間が著しく遅くなり、実用に供さなくなるという不具合
が生じていた。

【０００５】そこで本発明は上記の事情に鑑み、文書登
録時にキーワード情報を付加することなく、検索時に適
当に作成したキーワードによって大量の文書中から指定
された語句を含む文書を高速に検索することができる文
書検索方法及びこの文書検索方法を用いた文書検索装置
を提供することを目的としている。

【０００６】

【課題を解決するための手段】本発明は記憶装置内に登
録されている複数の文書の中から別途入力されたキー文
字列を含む文書を検索する文書検索装置において、前記
登録文書に使用されている全ての文字の該当文書中の文
字出現位置を登録文書毎に一覧とした第１のテーブルデ
ータを保持している第１の記憶手段と、前記全ての登録
文書で使用されている文字毎にその文字を使用している
登録文書を全て一覧とした第２のテーブルデータを保持
する第２の記憶手段と、前記入力されたキー文字列の各
文字について対応する前記第２の記憶手段内の第２のテ
ーブルデータを参照して、前記各文字が全て同時に使用
されている登録文書を検索する第１の検索手段と、この
第１の検索手段により検索された各登録文書に対応する
前記第１の記憶手段内の第１のテーブルデータを検索し
て、前記キー文字列の各文字の出現位置が前記文字列の
順序で連続している登録文書を検索し、これを目的の登
録文書として出力する第２の検索手段とを具備した構成
を有する。

【０００７】

【作用】本発明の文書検索装置において、第１の記憶手
段は登録文書に使用されている全ての文字の該当文書中
の文字出現位置を登録文書毎に一覧とした第１のテーブ
ルデータを保持している。第２の記憶手段は前記全ての
登録文書で使用されている文字毎にその文字を使用して
いる登録文書を全て一覧とした第２のテーブルデータを
保持する。第１の検索手段は前記入力されたキー文字列
の各文字について対応する前記第２の記憶手段内の第２
のテーブルデータを参照して、前記各文字が全て同時に
使用されている登録文書を検索する。第２の検索手段は
前記第１の検索手段により検索された各登録文書に対応
する前記第１の記憶手段内の第１のテーブルデータを検
索して、前記キー文字列の各文字の出現位置が前記文字
列の順序で連続している登録文書を検索し、これを目的
の登録文書として出力する。これにより、前記キー文字
列は検索時に作成した適当なものでよく且つ、前記第１
の検索手段と第２の検索手段は第２、第１のテーブル内
のデータだけを検索するため、登録文書が大量にあって
も、目的の文書を高速に検索することができる。

【０００８】

【実施例】以下、本発明の一実施例を図面を参照して説
明する。図１は本発明の文書検索装置の一実施例を示し
たブロック図である。１は本装置がユーザに対して与え
るプロンプトメッセージや、検索結果等を表示する表示
装置であり、例えばＶＲＡＭ、ＣＲＴ及びコントローラ
からなる。２は装置に対するコマンド、キーワード等を
入力するための入力装置であり、キーボード及びマウス
等からなる。３はＣＰＵからなり、メモリ４に格納され
ているプログラムを実行する制御装置。ここで、本装置
ではＯＳとしてＵＮＩＸを用いているものとする。４は
ＲＡＭ及びＲＯＭからなり、ＣＰＵを制御するためのプ
ログラムが格納されているメモリで、更に、このメモリ
には各種の処理を行うためのワークエリアも確保されて
いる。５は例えば磁気ディスク装置からなり、文字出現
位置テーブル及びこれらを管理するための情報を格納す
る外部記憶装置で、この外部記憶装置には検索結果の表
示のために必要なテキストデータあるいは図表データな
ども格納されている。この外部記憶装置５に格納されて
いるデータはファイルとして管理され、ファイルシステ
ムにアクセスすることができる。

【０００９】次に外部記憶装置５の中に格納されている
各ファイルの構造について詳しく述べる。外部記憶装置
５内には、まず、検索されるべき複数の文書データがそ
れぞれファイルとして格納されている。これを文書ファ
イルと呼ぶ。各文書データには、整数の文書番号が付け
られており、各文書ファイルの名もそれに対応したもの
になっている。ひとつの文書ファイルは、文書を構成す
るテキストデータと、文書に含まれる図表やイメージの
データを含んでいる。外部記憶装置５内には、文書デー
タの他に、文字出現位置テーブルを管理するためのファ
イル（これをテーブル管理ファイルと呼ぶ）が格納され
ている。

【００１０】先ず、文字出現位置テーブルの内容につい
て述べる。文字出現位置テーブルは、外部記憶装置５内
に格納されている任意の文書のテキストデータ中での任
意の文字が出現する全ての位置を記述したものである。
この文字出現位置テーブルの一般的な構造は図２（Ａ）
に示す如くである。この図２（Ａ）の文字出現位置テー
ブルの先頭には、任意の文字の任意の文書中のテキスト
データ中での出現総数Ｎが格納されており、これに続い
て、各出現位置がＮ個の整数列として格納されている。
図２（Ｂ）は「文」という文字の文書番号７の文書のテ
キスト中での出現位置を記述した具体例を示している。
「文」の出現総数は７個で、それぞれ出現位置５６、１
２３…６０１１であることが分かる。

【００１１】テーブル管理ファイルは図３に示すような
構造を有し、上記した文字出現位置テーブルを管理する
ためのファイルであり、同じＪＩＳコードに対応する各
文書の文字出現位置テーブルをまとめるものである。こ
れらのテーブルがファイル内部に配置されており、外部
記憶装置５中にＪＩＳコードに対応した複数個のテーブ
ル管理ファイルが格納されている。これらのファイル名
としては、対応するＪＩＳコードに関述した名前が付け
られている。

【００１２】図３は上記したようにテーブル管理ファイ
ルの一般的な構造例を示した図である。まず、ファイル
の先頭には、ファイルのサイズが格納されており、続い
て、該当する文字を含む文書の数：Ｎが格納されてお
り、その後に続いて、該当する文字を含む文書の文書番
号と、それに対応する文字出現位置テーブルの、ファイ
ルの先頭からの位置が順に対応づけて格納されており、
それらに続いて、図２（Ａ）に示した構造の各文字出現
位置テーブルの本体が格納されている。

【００１３】次にメモリ４の内部の構造を図４を用いて
説明する。メモリ４はＣＰＵ制御用のプログラム格納用
の領域と、処理のための作業領域に大別される。プログ
ラム領域には、メイン制御部４ａ、初期化部４ｂ、キー
ワード入力部４ｃ、文字出現位置テーブル選出部４ｄ、
文字列サーチ部４ｅ、文字選択部４ｆ、検索結果表示部
４ｇ等の各種プログラムが格納されている。

【００１４】メイン制御部４ａは装置全体の処理の流れ
を制御する部分で、ユーザに対してプロンプトメッセー
ジの表示や処理の分岐等を行う。初期化部４ｂは各ハー
ドウエァ装置の初期設定や作業領域の初期化を行う部
分、キーワード入力部４ｃはユーザに対して検索のため
のキーワードを入力する部分、文字出現位置テーブル選
出部４ｄは入力されたキーワードの各文字に対応するテ
ーブル管理ファイルを選び出し、メモリ装置中の作業領
域に格納する部分である。文字列サーチ部４ｅはメモリ
装置中に格納されている各テーブル管理ファイルの内容
を参照して、入力されたキーワード文字列を含む文書を
見付け出す部分、文書選択部４ｆは見付け出された候補
文書の一覧表を表示し、そのうちのひとつをユーザに選
択させる部分、検索結果表示部４ｇは候補文書のうちユ
ーザが指定した文書の内容を画面に表示する部分であ
る。

【００１５】他方、メモリ４の作業領域中には、キーワ
ード文字数格納バッファ４ｍ、キーワード格納バッファ
４ｎ、テーブル管理ファイル格納バッファ４ｐ、候補文
書数格納バッファ４ｒ、候補文書番号格納バッファ４
ｓ、表示文書番号格納バッファ４ｔが設定されている。
キーワード文字数格納バッファ４ｍはユーザが入力した
キーワードの文字数を格納するバッファ、キーワード格
納バッファ４ｎはキーワードを格納するバッファであ
り、図５で示すような配列になっている。テーブル管理
ファイル格納バッファ４ｐは図６（Ａ）に示すような構
造体の配列であり、ひとつの構造体の構成はテーブル管
理ファイルの構造に対応しており、この構造の形式は図
６（Ｂ）に示すようになっている。又、図６（Ｃ）は文
字出現位置テーブル格納領域０の構成例を示した図であ
る。

【００１６】上記したひとつの構造体の内部には、ファ
イルサイズ格納領域、格納されている文字出現位置テー
ブルの数を格納するための領域があり、更に文字出現位
置テーブルの本体を格納する領域及び各文字出現位置テ
ーブルへのポインタを格納する領域及びこれらに対応す
る文書番号を格納する領域がある。更に、この構造体の
内部には文字列サーチの際に各種の処理のために必要な
変数等を格納するための領域がある。この中には処理の
際に、内部の何番目の文字出現位置テーブルを参照して
いるか記憶しておくための、参照テーブル番号記憶領
域、文字出現位置テーブル中での何番目の出現位置を参
照してるかを記憶しておくための出現位置記憶領域があ
る。

【００１７】以降、テーブル管理ファイル格納バッファ
中のｉ番目の構造体をＴＭＦ［ｉ］で表わし、この中に
格納されているファイルサイズをＴＭＦ［ｉ］．ｆｓｉ
ｚｅ、ひとつの構造体に含まれる文字出現位置テーブル
の数をＴＭＦ［ｉ］．ｎＣＬＴで表し、参照テーブル番
号記憶領域をＴＭＦ［ｉ］．ｉＣＬＴで表し、出現位置
記憶領域をＴＭＦ［ｉ］．ｉＬＯＣで表わし、ｊ番目の
文字出現位置テーブルをＴＭＦ［ｉ］．ＣＬＴ［ｊ］で
表し、又、ｊ番目の文字出現位置テーブルに対応する文
書番号をＴＭＦ［ｉ］．ＩＤ［ｊ］で表わすことにす
る。

【００１８】候補文書数格納バッファ４ｒは検索の結
果、候補となる文書の数を格納するためのバッファ、候
補文書番号格納バッファ４ｓは候補となる文書のＩＤ番
号を順番に格納するためのバッファであり、図１４で示
すような配列になっている。表示文書番号格納バッファ
４ｔは候補文書中で、ユーザが表示を希望する文書のＩ
Ｄ番号を格納するためのバッファである。更にｊ番目の
文字出現位置テーブル中での出現総数ＴＭＦ［ｉ］．Ｃ
ＬＴ［ｊ］．Ｎで表わし、ｋ番目の出現位置をＴＭＦ
［ｉ］．ＣＬＴ［ｊ］．ＬＯＣ［ｋ］と表わすことにす
る。

【００１９】以上の構成要素を用いて図１に示した装置
の具体的な検索処理の流れについて図７を用いて説明す
る。まず、メモリ４のプログラム部のうち、初期化部４
ｂがステップ７０１にて起動する。ここでは、図１に示
した表示装置１、入力装置２、制御装置３及び外部記憶
装置５の初期設定、メモリ４中の作業領域の初期化、初
期化画面の表示等が行なわれる。次に、キーワード入力
部４ｃがステップ７０２にて起動する。ここでは、入力
装置２を用いてユーザに検索のためのキーワード文字列
を入力させる。本実施例のキーワード文字列を構成する
各文字は２バイトからなるＪＩＳコードで表わされ、入
力された順にキーワード格納バッファ４ｎに格納され、
入力された文字数がキーワード文字数格納バッファ４ｍ
に格納される。

【００２０】次に、文字出現位置テーブル選出部４ｄが
ステップ７０３にて起動する。ここでは、キーワード格
納バッファ４ｎ内に格納されている文字コード（これを
順番にＣ₀、Ｃ₁、…Ｃ_n-1と表わす。但し、ｎはキー
ワード文字数格納バッファに格納されている数値であ
る）に対応するテーブル管理ファイルを外部記憶装置５
の中から呼び出し、これを順番に、テーブル管理ファイ
ル格納バッファ４ｐの中の各構造体に格納する。

【００２１】この際、図１に示した装置では、テーブル
管理ファイルの名前として、対応する文字コードをａｓ
ｃｉｉ形式で表現したものにファイル識別子「．ｔｍ
ｆ」を付加したものを用いている。例えばＪＩＳコード
が１６進数の３０２６である文字「愛」に対応するテー
ブル管理ファイルの名前は「３０２６．ｔｍｆ」であ
る。そのため、ひとつのファイルを呼び出す際には、ま
ず文字コードを１６進数で表わした文字列にファイル識
別子「．ｔｍｆ」を付加した文字列を生成する。この文
字列をファイル名として、外部記憶装置５の中より対応
するファイルを呼び出す処理はＯＳが行う。こうして、
テーブル管理ファイル格納バッファ４ｎの中に、各テー
ブル管理ファイルの内容が格納された後、処理はステッ
プ７０４に移る。ステップ７０４では文字列サーチ部４
ｅが起動する。この文字列サーチ部４ｅはテーブル管理
ファイル格納バッファ４ｐ中に格納されている構造体の
データを参照し、キーワードを含む文書の文書番号を順
番に候補文書番号格納バッファ４ｓ中に格納するという
一連の処理を行う。

【００２２】次に文字列サーチ部４ｅでの処理について
図８を用いて説明する。尚、図８は前記処理の概略を説
明した図である。但し、図中ｉ及びおよびｊは整数型の
変数を示している。まず、ステップ８０１にて各変数の
初期化が行われる。この初期化では、候補文書数格納バ
ッファ４ｒ（ｎＣａｎｄ）の値に０が代入され、次に、
０≦ｉ＜ｎのＴＭＦ［ｉ］．ｉＣＬＴに０が代入され
る。

【００２３】ここで、上記したステップ８０２の文字存
在の判定処理の流れの詳細を図９を用いて説明する。こ
の文字存在の判定処理では、テーブル管理ファイル格納
バッファ４ｐ中に格納された０番目からｎ−１番目まで
の全てのテーブル管理データ中に、同一の文書から生成
された文字出現位置テーブルが含まれているかどうかの
判定を行う。即ち、ステップ９０１でｉ＝１とした後、
ステップ９０２では、ｉ番目のテーブル管理データ中の
何番目の文字出現テーブルを参照しているかを判定す
る。

【００２４】例えば、０番目のテーブル管理データ中の
何番目の文字出現テーブルを参照しているかは、ＴＭＦ
［０］．ｉＣＬＴで表わされる。この値は初期状態では
０で、後の処理で更新される。この文字出現テーブルに
対応する文書の文書番号はＴＭＦ［０］．ＩＤ［ＴＭＦ
［０］．ｉＣＬＴ］で表わすことができる。１番目から
ｎ−１番目までのテーブル管理データに対して、文書番
号：ＴＭＦ［ｉ］．ＩＤ［ｊ］がＴＭＦ［０］．ＩＤ
［ＴＭＦ［０］．ｉＣＬＴ］であるものを探すのである
が、この際に処理を高速化するために、ｊの最小値をＴ
ＭＦ［ｉ］．ｉＣＬＴとして最大値をＴＭＦ［ｉ］．ｎ
ＣＬＴ−１の範囲でバイナリサーチを行う。ＴＭＦ
［ｉ］．ｉＣＬＴは初期化が０でステップ９０３の処理
で更新される変数であり、ＴＭＦ［ｉ］．ｎＣＬＴは固
定値であって、ひとつのテーブル管理データ中に含まれ
る文字出現位置テーブルの総数が格納されている。

【００２５】ステップ９０３では、ＴＭＦ［ｉ］．ｉＣ
ＬＴの更新が行われる。ステップ９０２で、条件を満た
すｊの値が存在したなら、ＴＭＦ［ｉ］．ｉＣＬＴの値
としてｊの値が格納される。ここで、ｊの値がＴＭＦ
［ｉ］．ｎＣＬＴ−１であれば、ＴＭＦ［ｉ］．ｉＣＬ
Ｔの値としてｊを用いる。又、前記条件を満たすｊの値
が存在しなかったならば、ＴＭＦ［０］．ＩＤ［ＴＭＦ
［０］．ｉＣＬＴ］の値を越えるという条件を満たすＴ
ＭＦ［ｉ］．ＩＤ［ｊ］のうち、最小のものをＴＭＦ
［ｉ］．ｉＣＬＴの値として用いる。この条件を満たす
ＴＭＦ［ｉ］．ＩＤ［ｊ］が存在しない場合には、ＴＭ
Ｆ［ｉ］．ｉＣＬＴの値としてＴＭＦ［ｉ］．ｎＣＬＴ
−１の値を用いる。

【００２６】ステップ９０４では、ステップ９０２の処
理の結果により、処理の分岐が行われる。サーチが失敗
した場合には、ステップ９０５に進んで、判定失敗のフ
ラグを立てて、ステップ８０２の処理を終了する。サー
チが成功した場合は、ステップ９０６に進んで、ｉの値
を＋１インクリメントした後、ステップ９０７へ進む。
ステップ９０７にて前記ｉの値がｎよりも小さいかどう
かを判定し、小さい場合にはステップ９０２に戻り、大
きい場合にはステップ９０８に進む。このステップ９０
８へ進んだ場合、テーブル管理データに対してサーチが
成功したことになり、判定成功のフラグを立ててステッ
プ８０２の処理を終了する。

【００２７】ここで、図８の処理に戻り、ステップ８０
３以降の処理を説明する。ステップ８０３では、ステッ
プ８０２での結果を受けて、判定失敗のフラグが立って
いれば途中の処理を行わず、ステップ８０７の処理へ飛
ぶ。一方、判定成功のフラグが立っていたならば、ステ
ップ８０４へ進んで、文字接続判定の処理を行う。ステ
ップ８０２の処理では、キーワード文字列を構成する全
ての文字を含む文書が存在するかどうかの判定を行うの
みで、各文字の接続関係のチェックは行っていなかった
が、ステップ８０４の処理では、各文字の接続関係のチ
ェックを行う。

【００２８】このステップ８０４の処理の詳細について
図１０を用いて説明する。この処理の要点は、ステップ
８０２で格納されたＴＭＦ［ｉ］．ｉＣＬＴの値、即
ち、各テーブル管理データのうち文字コード：ＴＭＦ
［０］．ＩＤ［ＴＭＦ［０］．ｉＣＬＴ］に対応する文
字出現テーブルに対して、その内部の各出現位置データ
を参照する。そして、０≦ｉ＜ｎ−１に対して、ＴＭ
Ｆ［ｉ＋１］．ＣＬＴ［ＴＭＦ［ｉ＋１］．ｉＬＯＣ］
＝ＴＭＦ［ｉ］．ＣＬＴ［ＴＭＦ［ｉ］．ｉＬＯＣ］＋
１を満たすＴＭＦ［ｉ］．ｉＬＯＣの組み（０≦ｉ＜
ｎ）が存在するかどうか調べる。これにより、文書中
で、キーワード文字列を構成する全文字が互いに隣接し
て存在する部分が存在するか、即ち該当する文書中に、
指定されたキーワードが部分文字列として含まれている
かどうかの判定がなされる。

【００２９】図１０に示したステップ１０１では、各出
現位置データの中での現在の参照番号を格納するための
変数（これらは主にステップ１０４でバイナリサーチの
効率を高める目的で利用する）の初期化が行なわれる。
続いてステップ１０２では何番目のテーブル管理データ
を参照しているかを示す変数ｉの初期化を行い、更に、
ステップ１０３でキーワード文字列の先頭の文字の位置
を変数Ｐに代入する。０番目のテーブル管理データ中の
出現位置データ中に格納されている各出現位置は全てキ
ーワード文字列の先頭の文字の位置であり、その何番目
を参照しているかを変数ＴＭＦ［０］．ｉＬＯＣで表わ
している。

【００３０】次に、ステップ１０４では、各出現位置テ
ーブル中の出現位置データ中にＰ＋ｉ＋１即ち、キーワ
ードの先頭の文字位置のｉ＋１文字分あとのものがある
かどうかを、バイナリサーチによって調べる。このバイ
ナリサーチは、出現位置テーブル中で下限をＴＭＦ
［ｉ］．ｉＬＯＣ、上限をＴＭＦ［ｉ］．ｉＣＬＴ．Ｎ
番目の出現位置テーブルのみに限定して行われる。

【００３１】ステップ１０５では、ステップ１０４で用
いるＴＭＦ［ｉ］．ｉＬＯＣの値の更新が行われる。ス
テップ１０４でサーチが成功した場合には、ＴＭＦ
［ｉ］．ｉＬＯＣの値としてｋの値が代入される。サー
チが失敗した場合には、ＴＭＦ［ｉ］．ｉＬＯＣの値と
してＰ＋ｉ＋１の値を越えるという条件を満たすステッ
プ１０４におけるＴＭＦ［ｉ］．ＣＬＴ［ｉ］．ＣＬＴ
［ｊ］．ＬＯＣ［ｋ］のうち最小のものを用いる。条件
をみたすものが存在しない場合には、該当する出現位置
テーブルの要素数−１であるＴＭＦ［ｉ］．ＣＬＴ
［ｊ］．Ｎ−１の値を用いる。

【００３２】ステップ１０６ではステップ１０４での結
果をうけて処理の分岐が行われる。バイナリサーチが成
功した場合には、処理はステップ１０７に進み、失敗し
た場合にはステップ１１０に移る。ステップ１０７では
ｉの値を＋１インクリメントする。ステップ１０８では
インクリメントされたｉの値をｎの値、即ち、キーワー
ド文字列の文字数と比較する。ｉ≧ｎなら、全文字に関
して条件が満たされたため、ステップ１０９にて判定成
功のフラグを立てて復帰する。ｉ＜ｎならステップ１０
３に戻って上記処理を繰り返す。

【００３３】また、ステップ１１０では、０番目のテー
ブル管理データ中の出現位置テーブルの何番目を参照し
ているかを表わす変数ＴＭＦ［０］．ｉＬＯＣの値を＋
１インクリメントする。。ステップ１１１では、ステッ
プ１１０でインクリメントしたＴＭＦ［０］．ｉＬＯＣ
の値と、０番目のテーブル管理データ中の該当する出現
位置テーブルの要素数：ＴＭＦ［０］．ＣＬＴ［ＴＭＦ
［０］．ｉＣＬＴ］．Ｎとの比較を行い、前者の値が後
者の値以上ならばステップ１１２にて判定失敗のフラグ
を立てて復帰する。そうでない場合は、１≦ｉ＜ｎに対
応するバイナリサーチのための変数：ＴＭＦ［ｉ］．ｉ
ＬＯＣの値を＋１インクリメントする。これらの各値の
うちひとつでも、対応する出現位置テーブルの要素数以
上になっている場合には、ステップ１１１にて判定失敗
のフラグを立てて復帰する。以上の条件のいずれも満た
さない場合には、ステップ１０２に戻って、０番目のテ
ーブル管理データ中の出現位置テーブルの要素のうち前
回の次のものに対して一連の処理を行う。

【００３４】以上が図８のステップ８０４での詳細な処
理の流れである。ここで、再び図８に戻る。ステップ８
０５ではステップ８０４での処理結果を受け、判定失敗
のフラグが立っていれば途中の処理を行わず、処理はス
テップ８０７に飛ぶ。判定成功のフラグが立っていたな
ら、ステップ８０６にて候補文書番号の登録処理が行わ
れる。ステップ８０６では、候補文書番号格納バッファ
４ｓ中の候補文書番号で示される候補文書数格納バッフ
ァ４ｒの位置にステップ９０２の処理で現在参照してい
る文書のＩＤ番号、即ちＴＭＦ［０］．ＩＤ［ＴＭＤ
［０］．ｉＣＬＴ］を格納し、候補文書数格納バッファ
４ｒの内容をインクリメントして、処理をステップ８０
７に移す。ステップ８０７では、図８に示した一連の処
理の後処理として、０番目のテーブル管理データ中の何
番目の出現位置データを参照しているかを示す変数：Ｔ
ＭＦ［０］．ｉＣＬＴのインクリメントを行う。

【００３５】続くステップ８０８では、ステップ８０７
でインクリメントしたＴＭＦ［０］．ｉＣＬＴの値と、
０番目のテーブル管理データ中に含まれる出現位置テー
ブルの総数を示す変数：ＴＭＦ［０］．ｎＣＬＴとの値
を比較して、前者の値が後者の値以上ならば文字列サー
チ部４ｅでの処理を終え、復帰をする。しかし、前者の
値が後者の値以上でない場合は１≦ｉ＜ｎに対応するＴ
ＭＦ［ｉ］．ｉＣＬＴの値のインクリメントを行う。こ
れらの各値のうちひとつでも対応する出現位置テーブル
の総数：ＴＭＦ［ｉ］．ｎＣＬＴの値以上になっている
場合には文字列サーチ部４ｅでの処理を終え復帰を行
う。以上の条件のいずれも満たされない場合はステップ
８０２に戻り、一連の処理を繰り返す。

【００３６】次に図７のフローチャトのステップ７０５
処理に進む。このステップ７０５にて文書選択部４ｆが
駆動する。このステップでは、まず、候補文書格納バッ
ファ４ｓ中に格納されている各文書番号に対応する文書
のタイトルの一覧表を表示装置１の画面上に表示する。
タイトルの一覧表表示後の画面の状況を図１１に示す。
その後、文書選択部４ｆは入力装置２を用いて、ユーザ
に、タイトルのうちひとつを指定させ、指定されたタイ
トルの文書番号を表示文書番号格納バッファ４ｔに格納
する。このステップ７０６にて検索結果表示部４ｇが駆
動する。このステップでは、表示文書番号格納バッファ
４ｔに格納されている文書番号に対応する文書ファイル
を外部記憶装置５内より取り出し、この中のテキストデ
ータを文字フォントに展開して、表示装置１の画面上に
表示する。また、文書ファイル中の図表やイメージデー
タをビットイメージに展開し、表示装置１の画面上に表
示する。テキストデータおよび図表・イメージデータの
表示後の画面の状況は図１２に示すようになる。ステッ
プ７０６の処理後、検索結果表示部４ｇはステップ７０
７にて画面上に図１３に示すような２つのアイコンを表
示する。その後、入力装置２を用いて、ユーザにどちら
かのアイコンを指定させる。ステップ７０８にてユーザ
が、「終了」アイコンを指定した場合には、本装置の全
処理を終了する。ステップ７０９にてユーザが「再検
索」アイコンを指定した場合には、図７におけるステッ
プ７０２からの一連の処理を繰り返す。

【００３７】ここで、具体例を用いて図１に示した装置
の概略動作について説明する。例えば「本装置」という
単語を含んだ文書を外部記憶装置５から検索したい場
合、制御装置３は、まず、メモリ４内の「本」、
「装」、「置」に関わる図３に示した３個のテーブルを
参照して、上記「本」、「装」、「置」の３単語を共通
に持つ文書番号とテーブル位置（このテーブルは図２に
示したもの）を検索する。この段階で、文書番号１、
３、６、８が検索されたものとする。次に、制御装置３
は各文書番号に対応して検索された前記テーブル位置で
示される上記３単語の図２に示したテーブルを相互に参
照して、「本」、「装」、「置」の各文書中での出現位
置がこの順番で連続している文書を探し、このような文
書があった場合は、その文書番号の文書のタイトルを目
的の文書として、表示装置１に表示する。

【００３８】本実施例によれば、入力されたキーワード
を構成する文字列の各文字の図３に示したテーブルを検
索して、前記各文字を共通に含んでいる文書を検索し、
次に各文書について前記各文字の出現位置を図２のテー
ブルを参照して求め、前記各文字が前記文字列の順番で
連続して出現した文書を目的の文書として出力するた
め、検索対象文書が大量であっても、検索者が検索時に
入力した適当なキーワードにより迅速に目的の文書を検
索することができる。従って、文書を外部記憶装置５に
登録するときにキーワードを付与する必要がなく、文書
を外部記憶装置５に登録する際の労力を著しく軽減する
ことができる。

【００３９】尚、本実施例では、外部記憶装置５中に格
納してあるひとつのテーブル管理ファイルを全てメモリ
４上にロードしたが、処理に従って、その中の必要なテ
ーブルのみをメモリ４中にロードしても良い。さらに、
テーブル管理ファイル中のデータを一切メモリ４上にロ
ードせず、外部記憶装置５に入ったものを直接使用して
も同様の効果がある。

【００４０】又、本実施例は図８のステップ８０２でキ
ーワード文字列を全て含む文書を検索した後、ステップ
８０４で前記検索された文書の中で前記キーワード文字
列がこの順番で連続して存在する文書を最終的な検索文
書として出力する構成であったが、前記ステップ８０２
で前記検索された文書を最終的な検索文書として出力す
る構成としてもよい。但し、この構成では、前記キーワ
ード文字列を含む検索文書の絞り込みが行われておら
ず、その分、検索された文書の範囲が広くなってしまう
が、逆に検索範囲を広げる場合に有効な方法となる。

【００４１】

【発明の効果】以上記述した如く本発明の文書検索方法
及び文書検索装置によれば、文書登録時にキーワード情
報を付加することなく、検索時に適当に作成したキーワ
ードによって大量の文書中から指定された語句を含む文
書を高速に検索することができる。

【図面の簡単な説明】

【図１】本発明の文書検索装置の一実施例を示したブロ
ック図。

【図２】図１のメモリ内に格納されている文字出現テー
ブルの構造例を示した図。

【図３】図１のメモリ内のテーブル管理ファイルの構造
を示した図。

【図４】図１に示したメモリの構造例を示した図。

【図５】図４に示したキーワード格納バッファの構造例
を示した図。

【図６】図４に示したテーブル管理ファイル格納バッフ
ァの構造例を示した図。

【図７】図１に示した制御装置による文書検索処理の流
れを示したフローチャート。

【図８】図７に示したステップ７０４の処理の詳細な流
れを示したフローチャート。

【図９】図８に示したステップ８０２の文字存在判定処
理の詳細な流れを示したフローチャート。

【図１０】図８のステップ８０４に示した文書接続判定
処理の流れを示したフローチャート。

【図１１】検索された文書のタイトルの一覧表を図１に
示した表示装置に表示した際の画面例を示した図。

【図１２】検索された文書データを図１に示した表示装
置に表示する際の画面例を示した図。

【図１３】終了処理を行うために図１に示した表示装置
の画面に表示されたアイコン例を示した図。

【図１４】図４に示したメモリ内の候補文書番号格納バ
ッファの構造例を示した図。

【符号の説明】１…表示装置２…入力装置３…制御装置４…メモリ５…外部記憶装置４ａ…メイン制
御部４ｂ…初期化部４ｃ…キーワー
ド入力部４ｄ…文字出現位置テーブル選出部４ｅ…文字列サ
ーチ部４ｆ…文書選択部４ｇ…検索結果
表示部４ｍ…キーワード文字数格納バッファ４ｎ…キーワー
ド格納バッファ４ｐ…テーブル格納ファイル格納バッファ４ｒ…候補文書数格納バッファ４ｓ…候補文書
番号格納バッファ４ｔ…表示文書番号格納バッファ

Claims

【特許請求の範囲】

【請求項１】記憶装置内に登録されている複数の文書
の中から別途入力されたキー文字列を含む文書を検索す
る文書検索方法にあって、前記登録する文書に使用され
ている全ての文字の該当文書中の文字出現位置を登録文
書毎に一覧とした第１のテーブルデータを作成すると共
に、前記全ての登録文書で使用されている文字毎にその
文字を使用している登録文書を一覧とした第２のテーブ
ルデータを作成しておき、その後、キー文字列が入力さ
れると、先ず、このキー文字列の各文字について対応す
る前記第２のテーブルデータを参照し、これら各文字が
全て同時に使用されている登録文書を検索し、次に上記
のように検索された各登録文書に対応する前記第１のテ
ーブルデータを検索して前記キー文字列の各文字の出現
位置が前記文字列の順序で連続して存在する登録文書を
検索して、これを目的の登録文書として出力することを
特徴とした文書検索方法。
【請求項２】前記第１のテーブルデータに一覧として
記載された前記文字出現位置とは、１文書を構成する文
字データの中で、先頭の文字から前記該当文字が何番目
であるかを示す整数であることを特徴とした請求項１記
載の文書検索方法。
【請求項３】前記１つの文書に同じ文字が複数回出現
する場合には、その出現位置を番号の小さい順から或い
は大きい順に前記テーブルに記載し、且つこの文字の出
現位置情報の総数、即ち出現総数を前記テーブル内に記
載したことを特徴とする請求項２記載の文書検索装置。
【請求項４】前記入力されたキー文字列の文字コード
をＣ_iとすると、前記キー文字列はＣ₀Ｃ₁Ｃ₂…Ｃ
_n-1と表され、この文字列を前記第２のテーブルデータ
内から検索する際に、Ｃ₀〜Ｃ_n-1に対応する各第２の
テーブルデータをＴ₀〜Ｔ_n-1と表わし、且つ、第２の
テーブルデータＴ_i中の先頭からｊ番目に格納されてい
る出現位置情報をＴ_i，_jと表した場合に、０≦ｉ＜ｎ
−１を満たす全ての整数に対して、Ｔ_i+1,ji+1＝Ｔ_i,Ji
＋１を満たす整数の組ｊ_iが存在するか否かを調べるこ
とを特徴とした請求項１又は３記載の文書検索方法。
【請求項５】前記第２のテーブルデータＴ_o中のＴ
_0,0を選び、次に１≦ｉ≦ｎ−１に対して、順番にＴ_i
に対してバイナリサーチを行うことにより、Ｔ_i,xi＝Ｔ
_i-1,xi-1＋１を満たすｘ_iを求めていき、ｉ＝ｎ−１に
なるまでにｘ_iの値が全て求まったら検索ができたと判
定し、前記ｘ_iの値が求まらない場合には、前記Ｔ_0,0
に代わり、Ｔ_0,jに対してｊ＝１…Ｔ₀に含まれる出現
位置情報数−１回の上記処理を繰り返すことを特徴とし
た特許の請求の範囲第４項記載の文書検索方法。
【請求項６】前記第２のテーブルデータＴ_iに対して
バイナリサーチを行う際に、第２のテーブルデータＴ_i
の先頭から何番目までの出現位置情報を参照したかを、
この第２のテーブルデータＴ_iに対応づけて記憶し、こ
れを、次回第２のテーブルデータＴ_i内でバイナリサー
チを行うときの上限の値として利用することを特徴とし
た特許の請求の範囲第５項記載の文書検索方法。（１≦ｉ≦ｎ−１）
【請求項７】記憶装置内に登録されている複数の文書
の中から別途入力されたキー文字列を含む文書を検索す
る文書検索方法にあって、前記全ての登録文書で使用さ
れている文字毎にその文字を使用している登録文書を一
覧としたテーブルデータを作成しておき、その後、キー
文字列が入力されると、先ず、このキー文字列の各文字
について対応する前記テーブルデータを参照し、これら
各文字が全て同時に使用されている登録文書を検索し、
これを目的の登録文書として出力することを特徴とした
文書検索方法。
【請求項８】記憶装置内に登録されている複数の文書
の中から別途入力されたキー文字列を含む文書を検索す
る文書検索装置において、前記登録文書に使用されてい
る全ての文字の該当文書中の文字出現位置を登録文書毎
に一覧とした第１のテーブルデータを保持している第１
の記憶手段と、前記全ての登録文書で使用されている文
字毎にその文字を使用している登録文書を全て一覧とし
た第２のテーブルデータを保持する第２の記憶手段と、
前記入力されたキー文字列の各文字について対応する前
記第２の記憶手段内の第２のテーブルデータを参照し
て、前記各文字が全て同時に使用されている登録文書を
検索する第１の検索手段と、この第１の検索手段により
検索された各登録文書に対応する前記第１の記憶手段内
の第１のテーブルデータを検索して、前記キー文字列の
各文字の出現位置が前記文字列の順序で連続している登
録文書を検索し、これを目的の登録文書として出力する
第２の検索手段とを具備したことを特徴とする文書検索
装置。