JP2001109754A

JP2001109754A - 索引ファイルを使用した検索方法及びそれに用いる装置

Info

Publication number: JP2001109754A
Application number: JP27797899A
Authority: JP
Inventors: Nobuaki Takishita; 伸明滝下; Takao Suzuki; 隆夫鈴木
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-09-30
Filing date: 1999-09-30
Publication date: 2001-04-20
Also published as: US6640225B1

Abstract

(57)【要約】（修正有）【課題】索引ファイルの大きさを大幅に削減することの
できる索引ファイルを使用した検索方法及びそれに用い
る装置を提供する。【解決手段】キー文字列を含むキーファイルとキー文字
列に対応した位置情報からなる位置情報ファイルとから
構成される索引ファイルにおいて、位置情報ファイルの
内容を削除する索引ファイルの大きさをＡ、削除される
各キー文字列の位置情報の大きさをＢ、検索に利用でき
ない削除するキー文字列の位置情報の大きさをＣとし、
（１）索引ファイル全体の大きさがＡになったときに、
位置情報の大きさがＢ以上となるキー文字列に位置情報
削除フラグを立てるとともに、位置情報ファイルから削
除し、（２）索引ファイル全体の大きさがＡを超えた場
合に、位置情報の大きさがＣ以上となるキー文字列に位
置情報削除フラグを立てるとともに位置情報ファイルか
ら削除する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、キー文字列を含む
キーファイルとキー文字列に対応した位置情報からなる
位置情報ファイルとから構成される索引ファイルを使用
した検索方法及びそれに用いる装置に関するものであ
る。

【０００２】

【従来の技術】社内文書データやインターネットのホー
ムページを高速に検索するために、文書中に出現する文
字列に対し索引を作成し、その索引に基づき、ユーザの
探したい文字列あるいは文書を文書全体から求める全文
検索は従来から行われており、その重要性が認識されて
いる。最近これらの検索対象となるデータは飛躍的に増
大しており、全文検索で使用する索引もそれに伴って増
大し、膨大なハードディスクの資源が必要になることが
問題となっている。また、全文検索では、どんな文字列
でも検索したいという要求がある。この要求を満たすに
は、全ての文字列の索引を作成する必要があるが、索引
が大きくなっていくと検索結果が非常に大きくなってし
まい、ユーザの探したい文書を見つけるのが困難になる
問題もある。さらに、システム・リソースの関係で、検
索結果を取得できない文字列も出てくる。

【０００３】従来、これらの問題を索引ファイルの大き
さを小さくすることで解消しようとする技術として、以
下の二つの方法が知られている。まず第１の方法とし
て、ストップ・ワードを利用する方法がある。ストップ
・ワードを利用する方法とは、例えば英語の場合だと、
THIS,A,THEなど一般的に使用頻度の高いと思われる単語
のリストを作成し、それらの単語の情報を索引ファイル
に含めない方法を言う。次に第２の方法とは、索引情報
が小さくなるように圧縮する方法を言う。

【０００４】

【発明が解決しようとする課題】上述したストップ・ワ
ードによる方法及び圧縮による方法は、いずれも索引フ
ァイルを小さくする点で効果を有するが、以下に列記す
るような課題があった。ストップ・ワードの場合：・一般に頻度の高い文字列の情報は削除できるものの、
たとえば、FORUM の索引を作成するとFORUM や、APPEND
EDなどの出現頻度が高くなるような索引固有のその索引
では検索しない単語の情報を削除することができない。・ストップ・ワードは言語に固有のものであるので、そ
の言語固有のストップ・ワードを作成しなければならな
い。・ストップ・ワードを含めた検索をしたいという要求が
あるが、常にストップ・ワードの情報が削除されてい
て、検索できない。・索引が非常に大きくなると、検索結果数が多くても、
システムに影響がないように打ち切り数などを設定して
検索を途中で止めるが、ストップ・ワードでは、このよ
うな、実際には検索に使用されない索引情報を削除する
ことができない。圧縮の場合：・圧縮でも索引の大きさを小さくできるが、検索のとき
に、実際に使用されることができない索引情報を削除す
ることができない。

【０００５】一方、非効率な検索と無意味な検索結果を
排除する技術が、特開平１０−１７１６９２号公報にお
いて開示されている。しかし、この技術は、インデック
ス用語において末尾に位置する極めて一般的な用語を検
索索引から削除するもので、全文検索索引で問題となる
位置情報ファイルを小さくするアプローチとは異なる手
法であった。

【０００６】本発明の目的は上述した課題を解消して、
索引ファイルの大きさを大幅に削減することのできる索
引ファイルを使用した検索方法及びそれに用いる装置を
提供しようとするものである。

【０００７】

【課題を解決するための手段】本発明の索引ファイルを
使用した検索方法は、キー文字列を含むキーファイルと
キー文字列に対応した位置情報からなる位置情報ファイ
ルとから構成される索引ファイルを使用した検索方法を
対象とする。この検索方法において、所定のキー文字列
に対し、位置情報削除フラグを関連付けるとともに、前
記所定のキー文字列に対応する位置情報を前記位置情報
ファイルから削除する。そして、好ましい態様として、
前記所定のキー文字列に対応する位置情報の大きさが前
記位置情報ファイルの大きさに対し所定の割合に達した
ことに応答して、該位置情報の削除が行われる。また、
前記所定のキー文字列に対応する位置情報の大きさが所
定の値に達したことに応答して、該位置情報の削除が行
われる。

【０００８】また、本発明の索引ファイルを使用した検
索方法に用いる装置は、新規登録文書から新規差分索引
ファイルを作成するための新規差分索引作成部と、新規
差分索引作成部で作成した新規差分索引ファイルと既存
索引ファイルとをマージするとともに上述した位置情報
ファイルの削除の判断を行って新規索引ファイルを作成
するための索引マージ部と、索引マージ部で作成した新
規索引ファイルに基づき検索を実行するための検索部
と、を備える。

【０００９】本発明では、所定のキー文字列に対し、位
置情報削除フラグを関連付けるとともに、前記所定のキ
ー文字列に対応する位置情報を前記位置情報ファイルか
ら削除することで、全文検索に対する要求を満たしなが
ら、実際には検索には使用することができない文字列の
位置情報を削除することによって、索引ファイルの大き
さを大幅に削減することができる。

【００１０】本発明のさらなる好適例として、キーファ
イルの構造を、キー文字列、位置情報ファイル内の位
置、位置情報の大きさ、位置情報削除フラグから構成す
る。削除すべきと判断されても位置情報を削除しないキ
ー文字列群を予め定める。キー文字列の位置情報を索引
ファイルの位置情報ファイルに追加するにあたり、キー
文字列に対応する位置情報削除フラグが立っている場合
は追加せず、キー文字列に対応する位置情報削除フラグ
が立っていない場合のみ追加する。検索を、１つの単語
からなる検索キー文字列による方法、Ｎグラム方式で索
引を作成した場合において１つの検索キー文字列による
方法、複数の単語からなる検索キー文字列による方法の
いずれかの方法で行う。いずれの場合も本発明をより好
適に実施することができる。

【００１１】

【発明の実施の形態】本発明は、キー文字列を含むキー
ファイルとキー文字列に対応した位置情報から構成され
る索引ファイルを使用した検索方法を対象とする。その
ため、まず索引ファイルの構成とキーファイルの構成に
ついて説明する。

【００１２】図１は本発明の検索方法を実施するために
利用される索引ファイルの一例の構成を示す図である。
図１に示す例において、索引ファイル１は、キーファイ
ル２と位置情報ファイル３とから構成される。キーファ
イル２は、JAVA,SQLなどのキー文字列と各キー文字列に
付随する情報を記憶する。位置情報ファイル３は、キー
ファイル２内の各キー文字列の存在する位置を各キー文
字列毎にまとめて記憶する。例えば、キー文字列"JAVA"
は、文書１の００１文字目と文書３の００１文字目と文
書３の１００文字目とに存在し、キー文字列"SQL" は文
書２の０１０文字目に存在することがわかる。

【００１３】図２は図１に示すキーファイル２の一例の
構成を示す図である。図２に示す例において、キーファ
イル２は、キー文字列４、位置情報ファイル内の位置
５、位置情報の大きさ６、位置情報削除フラグ７から構
成されている。そして、各キー文字列４が実際にあった
文書と位置の情報を持つ位置情報ファイルの該当部分を
示すよう構成されている。例えば、キー文字列"JAVA"は
位置情報ファイル内の位置５００から大きさ４０００だ
け存在するとともに、検索にこのキー文字列を使用する
ことを示すため、位置情報削除フラグが"NO"となってい
る。また、キー文字列"FORUM" は、位置情報削除フラグ
が"YES" と立っていることから、検索時に位置情報を持
たないキー文字列であることがわかるとともに、位置情
報ファイル内の位置は使用しないこと示す"N/A" となっ
ている。さらに、キーファイル２内のキー文字列４は、
アルファベット順のようにソートされた状態になってい
る。

【００１４】本発明の対象となる検索の索引ファイル１
は、上述したようにキーファイル２と位置情報ファイル
３とから構成され、索引が大きくなるにつれてキーファ
イル２の大きさはあまり大きくならず、位置情報ファイ
ル３の大きさだけが大きくなるようになり、索引ファイ
ル１の大きさに占める位置情報ファイル３の割合がどん
どん大きくなる。索引ファイル１がある程度の大きさ、
例えば２０ＭＢや１００ＭＢの大きさになると、実際に
は、検索で処理することができない、または、処理して
も数が多すぎて検索で処理しても意味のないキー文字列
が出現する。本発明では、それらのキー文字列に削除フ
ラグを設定するとともにそのキー文字列に対応する位置
情報ファイル内の位置情報を削除することで、索引ファ
イル１の大きさを小さくしている。以下、その方法につ
いて説明する。

【００１５】図３は索引ファイル全体の大きさと各キー
文字列の位置情報の大きさとの関係を示すグラフであ
る。図３において、Ａ：位置情報ファイル３の内容を削
除する索引の大きさ、Ｂ：その時の削除される各キー文
字列の位置情報の大きさ、Ｃ：検索に利用できないため
削除する文字列の位置情報の大きさとすると、位置情報
ファイル３中の位置情報を削除するポイントは２個所存
在する。まず第１に、索引ファイル全体の大きさがＡと
なる時点がある。全文検索では、どんな文字列でも検索
したいとの要求があるため、索引ファイル全体の大きさ
がＡ例えば２０ＭＢまでは位置情報ファイル３の内容を
削除せずに検索する。そして、索引ファイル全体の大き
さがＡになった時点で、位置情報の大きさがＢ以上にな
ったもの、例えば索引全体の大きさに対し０．１％以上
の位置情報の大きさをもつ文字列の位置情報のみを削除
する（図３中直線ａ、ｂ）。この索引の全体の大きさが
Ａになった時点の位置情報の削除は、一度だけ行う。図
３の横軸は、実際の索引の大きさと削除された部分の大
きさを合わせたものを表す。次に、索引全体の大きさが
Ａを超えた後、システム・リソースのためや、あまりに
もヒット件数が多くて、実際の検索には利用できない位
置情報の大きさＣとなった時点でも位置情報の削除を行
う（図３中直線ｃ）。

【００１６】次に、上述した本発明の索引ファイルを使
用した検索方法に用いる装置について説明する。図４は
本発明の索引ファイルを使用した検索方法に用いる装置
の一例の構成を示すブロック図である。図４に示す例に
おいて、本発明の装置は、新規登録文書１２から新規差
分索引ファイル１４を作成するための新規差分索引作成
部１３と、新規差分索引作成部１３で作成した新規差分
索引ファイル１４と既存索引ファイル１１とをマージす
るとともに上述した位置情報ファイルの削除の判断を行
って新規索引ファイル１６を作成するための索引マージ
部１５と、索引マージ部１５で作成した新規索引ファイ
ル１６に基づき全文検索を実行するための検索部１７と
を備えている。

【００１７】各部について詳述すると、まず、既存索引
ファイル１１は、その時点までに作成されている索引フ
ァイルである。通常、全文検索の索引は、元文書の増加
に伴い何回も追加されていく。新規登録文書１２は、新
たに登録する文書群である。新規差分索引作成部１３
は、次の段階で既存索引ファイル１１とマージできるよ
うに新規差分登録分を新規差分索引ファイル１４として
索引構造と同じものにまとめる部分である。索引マージ
部１５は、既存索引ファイル１１と新規差分索引作成部
１３で出力として得られた新規差分索引ファイル１４と
を合わせて、新規索引ファイル１６を作成するととも
に、上記本発明の位置情報ファイルの削除の判断を行う
部分である。新規索引ファイル１６は、索引マージ部１
５から出力され、新たに検索に使用される索引である。
検索部１７は、ユーザからの検索文字列を受け取り、新
規索引ファイル１６から、その文字列がどの文書に入っ
ているかを求める部分である。

【００１８】以下、索引マージ部１５における位置情報
削除処理について説明する。図５は本発明の索引マージ
部１５における位置情報削除処理の一例を説明するため
のフローチャートである。また、図６は本発明のキー文
字列のマージの一例を説明するための図である。図５及
び図６に従って位置情報削除処理を説明すると、まずス
テップ４０１で、既存索引ファイルの大きさと新規差分
索引ファイルの大きさの和が大きさＡを始めて超えたと
きかどうかをチェックする。始めて超えたときには、ス
テップ４０２〜４０６の処理（１）を実施し、始めて超
えたときでなければ、言い換えると、大きさＡを超えて
いるが始めて超えたときでなければ、ステップ４０７〜
４１２の処理（２）を実施する。なお、本例では、処理
（１）と処理（２）を両方含む場合の位置情報削除処理
を説明しているが、処理（１）のみあるいは処理（２）
のみでも、本発明で対象としている位置情報削除処理を
実行できることは言うまでもない。

【００１９】処理（１）について：始めて超えたときな
らば、ステップ４０２に進む。ステップ４０２では、図
６に示す既存索引ファイル５０１と新規差分索引ファイ
ル５０２のキーファイルから順番に、つまり、既存索引
ファイル５０１と新規差分索引ファイル５０２とをマー
ジして得た新規索引ファイル５０３の順番で、キー文字
列を読み込む。次に、ステップ４０３で、読み込んだキ
ー文字列に対応する既存索引ファイルの位置情報と新規
差分ファイルの位置情報の和がＢ以上かどうかをチェッ
クする。そして、大きくなければステップ４０４に進
み、大きければステップ４０５に進む。ステップ４０４
では、キーファイルと位置情報ファイルにともにデータ
を書き込むことで、新規索引ファイルに追加する。ステ
ップ４０５では、新規索引ファイルのキーファイルのみ
にキー文字列のエントリーを追加し、対応する位置情報
削除フラグを"YES" にセットする。新規索引ファイルの
位置情報ファイルには、データを追加しない。次に、ス
テップ４０６で、処理していたキー文字列が最後のキー
文字列であれば、処理（１）におけるマージ処理を終了
する。最後のキー文字列でなければ、ステップ４０２か
らの処理を繰り返す。

【００２０】処理（２）について：大きさＡを超えてい
るが始めて超えたときでなければ、ステップ４０７に進
むステップ４０７では、図６に示す既存索引ファイル５
０１と新規差分索引ファイル５０２のキーファイルから
順番に、つまり、既存索引ファイル５０１と新規差分索
引ファイル５０２とをマージして得た新規索引ファイル
５０３の順番で、キー文字列を読み込む。次に、ステッ
プ４０８で、読み込んだキー文字列に対応する既存索引
ファイルの位置情報と新規差分ファイルの位置情報の和
がＣ以上かどうかをチェックする。そして、大きくなけ
ればステップ４０９に進み、大きければステップ４１１
に進む。ステップ４０９では、マージ前の索引ファイル
のキーファイルにおいて、位置情報削除フラグが"YES"
になっているかどうかをチェックし、"YES" になってい
なければステップ４１０に進み、"YES" になっていれば
ステップ４１１に進む。ステップ４１０では、キーファ
イルと位置情報ファイルにともにデータを書き込むこと
で、新規索引ファイルに追加する。ステップ４１１で
は、新規索引ファイルのキーファイルのみにキー文字列
のエントリーを追加し、対応する位置情報削除フラグ
を"YES" にセットする。新規索引ファイルの位置情報フ
ァイルには、データを追加しない。次に、ステップ４１
２で、処理していたキー文字列が最後のキー文字列であ
れば、処理（２）におけるマージ処理を終了する。最後
のキー文字列でなければ、ステップ４０７からの処理を
繰り返す。

【００２１】次に、検索部１７の動作について説明す
る。本発明の索引ファイルを使用した検索方法では、検
索部１７の構成は特に限定せずこれまでに知られている
構成のいずれの構成をも利用することができるが、以下
に示す３つの検索文字列に基づく検索を行うと本発明を
より好適に使用することができる。以下、典型的な３つ
の検索文字列について説明する。

【００２２】（１）検索文字列が一つの単語の場合：（２）Ｎグラム方式で索引を作成していて、検索文字列
が一つの場合：Ｎグラムの索引ファイルでは、たとえば
「日本銀行」を検索するときに、「日本」の位置情報が
削除されている場合、そのままでは該当文書を指定する
ことはできないが、「本銀」と「銀行」の文字列を検索
することにより、「日本銀行」の検索結果に近い検索結
果を得ることができる。つまり、ストップ・ワードを含
めた文字列を検索できる。（３）検索文字列が複数の単語の場合：索引ファイルの
大きさが非常に大きくなると、検索ヒット文書数が非常
に大きい検索文字列を含めた検索は、システム・リソー
スを非常に多く消費してしまう。複数の文字列からなる
検索の場合、検索ヒット文書数が一定以上になる検索文
字列、および、位置情報が削除されている文字列の演算
は、ないものとして検索結果を返すとともに、該当文字
列のヒット文書が多すぎるので、違う文字列で検索する
ことをメッセージで返す。こうすることにより、今まで
結果を得るのにかなり時間がかかっていたものが、すぐ
に結果を返すことができるようなり、システム・リソー
スを有効に利用できる。以下、上述した３つの典型的な
検索文字列について詳細に説明する。

【００２３】（１）検索文字列が一つの単語の場合：図
７は検索文字列が一つの単語の場合の検索処理を示すフ
ローチャートである。図７に従って検索文字列が一つの
単語の場合の検索処理を説明すると、まず、ステップ６
０１で検索文字列を受ける。次に、ステップ６０２で、
検索文字列の位置情報が削除されているかどうかを、位
置情報削除フラグを調べることでチェックする。削除さ
れていなければステップ６０３に進み、削除されていれ
ばステップ６０４に進む。ステップ６０３では、検索文
字列と同じ文字列をキーファイルから探し、該当する位
置情報ファイルの内容を返す。ステップ６０４では、ヒ
ット件数が多すぎるので、他の検索文字列で検索するよ
うにメッセージを返す。以上の処理で検索を終了する。

【００２４】（２）Ｎグラム方式で索引を作成していて
検索文字列が一つの場合：図８はＮグラム方式で索引を
作成していて検索文字列が一つの場合の検索処理を示す
フローチャートである。図８に従ってＮグラム方式で索
引を作成していて検索文字列が一つの場合の検索処理を
説明すると、まず、ステップ７０１で検索文字列を受け
る。次に、ステップ７０２で、検索文字列の位置情報が
削除されているかどうかを、位置情報削除フラグを調べ
ることでチェックする。削除されていなければステップ
７０３に進み、削除されていればステップ７０４に進
む。ステップ７０３では、検索文字列と同じ文字列をキ
ーファイルから探し、該当する位置情報ファイルの内容
を返す。ステップ７０４では、位置情報が削除されてい
る検索文字列に対しては、検索文字列に対し一文字ずら
した文字列で検索を実行する。たとえば、検索文字列が
「日本銀行」のとき、ステップ７０３では「日本」と
「銀行」で検索するが、「日本」の位置情報が削除され
ている場合、ステップ７０４では「本銀」と「銀行」で
検索処理を始める。次に、ステップ７０５で、「本銀」
の位置情報も削除されているかどうかを、検索文字列
「本銀」の位置情報削除フラグを調べることでチェック
する。削除されていればステップ７０６に進み、削除さ
れていなければステップ７０７に進む。ステップ７０６
では、ヒット件数が多すぎるので、他の検索文字列で検
索するようにメッセージを返す。ステップ７０７では、
「本銀」と「銀行」で検索した結果を返す。以上の処理
で検索を終了する。

【００２５】（３）検索文字列が複数の単語の場合：図
９は検索文字列が複数の単語の場合の検索処理を示すフ
ローチャートである。図９に従って検索文字列が複数の
単語の場合の検索処理を説明すると、まず、ステップ８
０１で検索文字列を受ける。次に、ステップ８０２で各
検索文字列の位置情報が削除されているかどうかを、各
検索文字列に対応する位置情報削除フラグを調べること
でチェックする。削除されていなければステップ８０３
に進み、削除されていればステップ８０４に進む。ステ
ップ８０３では、各検索文字列と同じ文字列をキーファ
イルから探し、該当する位置情報ファイルの内容を返
す。ステップ８０４では、さらに全検索文字列の各位置
情報が削除されているかどうかをチェックする。全検索
文字列の位置情報が削除されていればステップ８０５に
進み、削除されていなければステップ８０６に進む。ス
テップ８０５では、ヒット件数が多すぎるので、他の検
索文字列で検索するようにメッセージを返す。ステップ
８０６では、位置情報が削除されている検索文字列の演
算はないものとして検索結果を返す。また、同時に、位
置情報が削除されている文字列に関しては、ヒット件数
が多すぎたことをメッセージで返す。たとえば、検索文
字列が"FORUM and SQL" で"FORUM" の位置情報が削除さ
れている場合、"SQL" のみの検索結果を返し、同時に"F
ORUM" のヒット件数は多すぎたことをメッセージで返
す。以上の処理で検索を終了する。

【００２６】なお、上述した処理（１）、処理（２）の
位置情報の処理では、それぞれ位置情報の大きさがＢま
たはＣ以上となった文字列すべてを削除する。しかし、
処理（１）において、例えば日本の新聞記事データの場
合、ある程度Ｂを低くしようとすると削除対象に日本の
文字列が含まれる場合がある。これを削除したくない場
合、例えば漢字だけの文字列は削除しないなどを決め、
位置情報を削除しない文字列群の位置情報を常に削除し
ないようにすることもできる。また、上述した実施例に
おける任意の値Ａ、Ｂ、Ｃは、それぞれ常に一定の値を
示すものではなく、システム構成や要求性能などに応じ
て適宜選択して設定することは言うまでもない。

【００２７】

【発明の効果】以上の説明から明らかなように、本発明
によれば、所定のキー文字列に対し、位置情報削除フラ
グを関連付けるとともに、所定のキー文字列に対応する
位置情報を位置情報ファイルから削除しているため、具
体的には、索引ファイル全体の大きさが始めてＡに達し
たときに、位置情報の大きさがＢ以上となるキー文字列
に対応した位置情報削除フラグを立てるとともに、その
位置情報を位置情報ファイルから削除しているため、お
よび／または、索引ファイル全体の大きさがＡを超えた
場合に、位置情報の大きさがＣ以上となるキー文字列に
対応した位置情報削除フラグを立てるとともに、その位
置情報を位置情報ファイルから削除しているため、全文
検索に対する要求を満たしながら、実際には検索には使
用することができない文字列の位置情報を削除すること
ができ、索引ファイルの大きさを大幅に削減することが
できる。

【図面の簡単な説明】

【図１】本発明の検索方法を実施するために利用される
索引ファイルの一例の構成を示す図である。

【図２】図１に示すキーファイルの一例の構成を示す図
である。

【図３】索引ファイル全体の大きさと各キー文字列の位
置情報の大きさとの関係を示すグラフである。

【図４】本発明の索引ファイルを使用した検索方法に用
いる装置の一例の構成を示すブロック図である。

【図５】本発明の索引マージ部における位置情報削除処
理の一例を説明するためのフローチャートである。

【図６】本発明のキー文字列のマージの一例を説明する
ための図である。

【図７】検索文字列が一つの単語の場合の検索処理を示
すフローチャートである。

【図８】Ｎグラム方式で索引を作成していて検索文字列
が一つの場合の検索処理を示すフローチャートである。

【図９】検索文字列が複数の単語の場合の検索処理を示
すフローチャートである。

【符号の説明】

１索引ファイル、２キーファイル、３位置情報フ
ァイル、４キー文字列、５位置情報ファイル内の位
置、６位置情報の大きさ、７位置情報削除フラグ、
１１既存索引ファイル、１２新規登録文書、１３
新規差分索引作成部、１４新規差分索引ファイル、１
５索引マージ部、１６新規索引ファイル、１７検
索部

───────────────────────────────────────────────────── フロントページの続き (72)発明者鈴木隆夫神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社大和事業所内Ｆターム(参考） 5B075 ND03 NK49 NR05 NR06 NR20 QS01

Claims

【特許請求の範囲】

【請求項１】キー文字列を含むキーファイルと、キー
文字列に対応した位置情報からなる位置情報ファイルと
から構成される索引ファイルを使用した検索方法におい
て、所定のキー文字列に対し、位置情報削除フラグを関
連付けるとともに、前記所定のキー文字列に対応する位
置情報を前記位置情報ファイルから削除することを特徴
とする索引ファイルを使用した検索方法。
【請求項２】前記所定のキー文字列に対応する位置情
報の大きさが前記位置情報ファイルの大きさに対し所定
の割合に達したことに応答して、該位置情報の削除が行
われることを特徴とする請求項１記載の検索方法。
【請求項３】前記所定のキー文字列に対応する位置情
報の大きさが所定の値に達したことに応答して、該位置
情報の削除が行われることを特徴とする請求項１記載の
検索方法。
【請求項４】前記キーファイルの構造が、キー文字
列、位置情報ファイル内の位置、位置情報の大きさ、位
置情報削除フラグからなる請求項１に記載の検索方法。
【請求項５】削除すべきと判断されても位置情報を削
除しないキー文字列群を予め定める請求項１に記載の検
索方法。
【請求項６】キー文字列の位置情報を索引ファイルの
位置情報ファイルに追加するにあたり、キー文字列に対
応する位置情報削除フラグが立っている場合は追加せ
ず、キー文字列に対応する位置情報削除フラグが立って
いない場合のみ追加する請求項１に記載の検索方法。
【請求項７】検索を、１つの単語からなる検索キー文
字列による方法、Ｎグラム方式で索引を作成した場合に
おいて１つの検索キー文字列による方法、複数の単語か
らなる検索キー文字列による方法のいずれかの方法で行
う請求項１に記載の検索方法。
【請求項８】新規登録文書から新規差分索引ファイル
を作成するための新規差分索引作成部と、新規差分索引
作成部で作成した新規差分索引ファイルと既存索引ファ
イルとをマージするとともに請求項１〜７のいずれか１
項に記載の位置情報ファイルの削除の判断を行って新規
索引ファイルを作成するための索引マージ部と、索引マ
ージ部で作成した新規索引ファイルに基づき検索を実行
するための検索部と、を備えることを特徴とする装置。