JP2001109754A - 索引ファイルを使用した検索方法及びそれに用いる装置 - Google Patents

索引ファイルを使用した検索方法及びそれに用いる装置

Info

Publication number
JP2001109754A
JP2001109754A JP27797899A JP27797899A JP2001109754A JP 2001109754 A JP2001109754 A JP 2001109754A JP 27797899 A JP27797899 A JP 27797899A JP 27797899 A JP27797899 A JP 27797899A JP 2001109754 A JP2001109754 A JP 2001109754A
Authority
JP
Japan
Prior art keywords
position information
character string
file
search
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP27797899A
Other languages
English (en)
Inventor
Nobuaki Takishita
伸明 滝下
Takao Suzuki
隆夫 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP27797899A priority Critical patent/JP2001109754A/ja
Priority to US09/676,803 priority patent/US6640225B1/en
Publication of JP2001109754A publication Critical patent/JP2001109754A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【課題】索引ファイルの大きさを大幅に削減することの
できる索引ファイルを使用した検索方法及びそれに用い
る装置を提供する。 【解決手段】キー文字列を含むキーファイルとキー文字
列に対応した位置情報からなる位置情報ファイルとから
構成される索引ファイルにおいて、位置情報ファイルの
内容を削除する索引ファイルの大きさをA、削除される
各キー文字列の位置情報の大きさをB、検索に利用でき
ない削除するキー文字列の位置情報の大きさをCとし、
(1)索引ファイル全体の大きさがAになったときに、
位置情報の大きさがB以上となるキー文字列に位置情報
削除フラグを立てるとともに、位置情報ファイルから削
除し、(2)索引ファイル全体の大きさがAを超えた場
合に、位置情報の大きさがC以上となるキー文字列に位
置情報削除フラグを立てるとともに位置情報ファイルか
ら削除する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、キー文字列を含む
キーファイルとキー文字列に対応した位置情報からなる
位置情報ファイルとから構成される索引ファイルを使用
した検索方法及びそれに用いる装置に関するものであ
る。
【0002】
【従来の技術】社内文書データやインターネットのホー
ムページを高速に検索するために、文書中に出現する文
字列に対し索引を作成し、その索引に基づき、ユーザの
探したい文字列あるいは文書を文書全体から求める全文
検索は従来から行われており、その重要性が認識されて
いる。最近これらの検索対象となるデータは飛躍的に増
大しており、全文検索で使用する索引もそれに伴って増
大し、膨大なハードディスクの資源が必要になることが
問題となっている。また、全文検索では、どんな文字列
でも検索したいという要求がある。この要求を満たすに
は、全ての文字列の索引を作成する必要があるが、索引
が大きくなっていくと検索結果が非常に大きくなってし
まい、ユーザの探したい文書を見つけるのが困難になる
問題もある。さらに、システム・リソースの関係で、検
索結果を取得できない文字列も出てくる。
【0003】従来、これらの問題を索引ファイルの大き
さを小さくすることで解消しようとする技術として、以
下の二つの方法が知られている。まず第1の方法とし
て、ストップ・ワードを利用する方法がある。ストップ
・ワードを利用する方法とは、例えば英語の場合だと、
THIS,A,THEなど一般的に使用頻度の高いと思われる単語
のリストを作成し、それらの単語の情報を索引ファイル
に含めない方法を言う。次に第2の方法とは、索引情報
が小さくなるように圧縮する方法を言う。
【0004】
【発明が解決しようとする課題】上述したストップ・ワ
ードによる方法及び圧縮による方法は、いずれも索引フ
ァイルを小さくする点で効果を有するが、以下に列記す
るような課題があった。 ストップ・ワードの場合: ・一般に頻度の高い文字列の情報は削除できるものの、
たとえば、FORUM の索引を作成するとFORUM や、APPEND
EDなどの出現頻度が高くなるような索引固有のその索引
では検索しない単語の情報を削除することができない。 ・ストップ・ワードは言語に固有のものであるので、そ
の言語固有のストップ・ワードを作成しなければならな
い。 ・ストップ・ワードを含めた検索をしたいという要求が
あるが、常にストップ・ワードの情報が削除されてい
て、検索できない。 ・索引が非常に大きくなると、検索結果数が多くても、
システムに影響がないように打ち切り数などを設定して
検索を途中で止めるが、ストップ・ワードでは、このよ
うな、実際には検索に使用されない索引情報を削除する
ことができない。 圧縮の場合: ・圧縮でも索引の大きさを小さくできるが、検索のとき
に、実際に使用されることができない索引情報を削除す
ることができない。
【0005】一方、非効率な検索と無意味な検索結果を
排除する技術が、特開平10−171692号公報にお
いて開示されている。しかし、この技術は、インデック
ス用語において末尾に位置する極めて一般的な用語を検
索索引から削除するもので、全文検索索引で問題となる
位置情報ファイルを小さくするアプローチとは異なる手
法であった。
【0006】本発明の目的は上述した課題を解消して、
索引ファイルの大きさを大幅に削減することのできる索
引ファイルを使用した検索方法及びそれに用いる装置を
提供しようとするものである。
【0007】
【課題を解決するための手段】本発明の索引ファイルを
使用した検索方法は、キー文字列を含むキーファイルと
キー文字列に対応した位置情報からなる位置情報ファイ
ルとから構成される索引ファイルを使用した検索方法を
対象とする。この検索方法において、所定のキー文字列
に対し、位置情報削除フラグを関連付けるとともに、前
記所定のキー文字列に対応する位置情報を前記位置情報
ファイルから削除する。そして、好ましい態様として、
前記所定のキー文字列に対応する位置情報の大きさが前
記位置情報ファイルの大きさに対し所定の割合に達した
ことに応答して、該位置情報の削除が行われる。また、
前記所定のキー文字列に対応する位置情報の大きさが所
定の値に達したことに応答して、該位置情報の削除が行
われる。
【0008】また、本発明の索引ファイルを使用した検
索方法に用いる装置は、新規登録文書から新規差分索引
ファイルを作成するための新規差分索引作成部と、新規
差分索引作成部で作成した新規差分索引ファイルと既存
索引ファイルとをマージするとともに上述した位置情報
ファイルの削除の判断を行って新規索引ファイルを作成
するための索引マージ部と、索引マージ部で作成した新
規索引ファイルに基づき検索を実行するための検索部
と、を備える。
【0009】本発明では、所定のキー文字列に対し、位
置情報削除フラグを関連付けるとともに、前記所定のキ
ー文字列に対応する位置情報を前記位置情報ファイルか
ら削除することで、全文検索に対する要求を満たしなが
ら、実際には検索には使用することができない文字列の
位置情報を削除することによって、索引ファイルの大き
さを大幅に削減することができる。
【0010】本発明のさらなる好適例として、キーファ
イルの構造を、キー文字列、位置情報ファイル内の位
置、位置情報の大きさ、位置情報削除フラグから構成す
る。削除すべきと判断されても位置情報を削除しないキ
ー文字列群を予め定める。キー文字列の位置情報を索引
ファイルの位置情報ファイルに追加するにあたり、キー
文字列に対応する位置情報削除フラグが立っている場合
は追加せず、キー文字列に対応する位置情報削除フラグ
が立っていない場合のみ追加する。検索を、1つの単語
からなる検索キー文字列による方法、Nグラム方式で索
引を作成した場合において1つの検索キー文字列による
方法、複数の単語からなる検索キー文字列による方法の
いずれかの方法で行う。いずれの場合も本発明をより好
適に実施することができる。
【0011】
【発明の実施の形態】本発明は、キー文字列を含むキー
ファイルとキー文字列に対応した位置情報から構成され
る索引ファイルを使用した検索方法を対象とする。その
ため、まず索引ファイルの構成とキーファイルの構成に
ついて説明する。
【0012】図1は本発明の検索方法を実施するために
利用される索引ファイルの一例の構成を示す図である。
図1に示す例において、索引ファイル1は、キーファイ
ル2と位置情報ファイル3とから構成される。キーファ
イル2は、JAVA,SQLなどのキー文字列と各キー文字列に
付随する情報を記憶する。位置情報ファイル3は、キー
ファイル2内の各キー文字列の存在する位置を各キー文
字列毎にまとめて記憶する。例えば、キー文字列"JAVA"
は、文書1の001文字目と文書3の001文字目と文
書3の100文字目とに存在し、キー文字列"SQL" は文
書2の010文字目に存在することがわかる。
【0013】図2は図1に示すキーファイル2の一例の
構成を示す図である。図2に示す例において、キーファ
イル2は、キー文字列4、位置情報ファイル内の位置
5、位置情報の大きさ6、位置情報削除フラグ7から構
成されている。そして、各キー文字列4が実際にあった
文書と位置の情報を持つ位置情報ファイルの該当部分を
示すよう構成されている。例えば、キー文字列"JAVA"は
位置情報ファイル内の位置500から大きさ4000だ
け存在するとともに、検索にこのキー文字列を使用する
ことを示すため、位置情報削除フラグが"NO"となってい
る。また、キー文字列"FORUM" は、位置情報削除フラグ
が"YES" と立っていることから、検索時に位置情報を持
たないキー文字列であることがわかるとともに、位置情
報ファイル内の位置は使用しないこと示す"N/A" となっ
ている。さらに、キーファイル2内のキー文字列4は、
アルファベット順のようにソートされた状態になってい
る。
【0014】本発明の対象となる検索の索引ファイル1
は、上述したようにキーファイル2と位置情報ファイル
3とから構成され、索引が大きくなるにつれてキーファ
イル2の大きさはあまり大きくならず、位置情報ファイ
ル3の大きさだけが大きくなるようになり、索引ファイ
ル1の大きさに占める位置情報ファイル3の割合がどん
どん大きくなる。索引ファイル1がある程度の大きさ、
例えば20MBや100MBの大きさになると、実際に
は、検索で処理することができない、または、処理して
も数が多すぎて検索で処理しても意味のないキー文字列
が出現する。本発明では、それらのキー文字列に削除フ
ラグを設定するとともにそのキー文字列に対応する位置
情報ファイル内の位置情報を削除することで、索引ファ
イル1の大きさを小さくしている。以下、その方法につ
いて説明する。
【0015】図3は索引ファイル全体の大きさと各キー
文字列の位置情報の大きさとの関係を示すグラフであ
る。図3において、A:位置情報ファイル3の内容を削
除する索引の大きさ、B:その時の削除される各キー文
字列の位置情報の大きさ、C:検索に利用できないため
削除する文字列の位置情報の大きさとすると、位置情報
ファイル3中の位置情報を削除するポイントは2個所存
在する。まず第1に、索引ファイル全体の大きさがAと
なる時点がある。全文検索では、どんな文字列でも検索
したいとの要求があるため、索引ファイル全体の大きさ
がA例えば20MBまでは位置情報ファイル3の内容を
削除せずに検索する。そして、索引ファイル全体の大き
さがAになった時点で、位置情報の大きさがB以上にな
ったもの、例えば索引全体の大きさに対し0.1%以上
の位置情報の大きさをもつ文字列の位置情報のみを削除
する(図3中直線a、b)。この索引の全体の大きさが
Aになった時点の位置情報の削除は、一度だけ行う。図
3の横軸は、実際の索引の大きさと削除された部分の大
きさを合わせたものを表す。次に、索引全体の大きさが
Aを超えた後、システム・リソースのためや、あまりに
もヒット件数が多くて、実際の検索には利用できない位
置情報の大きさCとなった時点でも位置情報の削除を行
う(図3中直線c)。
【0016】次に、上述した本発明の索引ファイルを使
用した検索方法に用いる装置について説明する。図4は
本発明の索引ファイルを使用した検索方法に用いる装置
の一例の構成を示すブロック図である。図4に示す例に
おいて、本発明の装置は、新規登録文書12から新規差
分索引ファイル14を作成するための新規差分索引作成
部13と、新規差分索引作成部13で作成した新規差分
索引ファイル14と既存索引ファイル11とをマージす
るとともに上述した位置情報ファイルの削除の判断を行
って新規索引ファイル16を作成するための索引マージ
部15と、索引マージ部15で作成した新規索引ファイ
ル16に基づき全文検索を実行するための検索部17と
を備えている。
【0017】各部について詳述すると、まず、既存索引
ファイル11は、その時点までに作成されている索引フ
ァイルである。通常、全文検索の索引は、元文書の増加
に伴い何回も追加されていく。新規登録文書12は、新
たに登録する文書群である。新規差分索引作成部13
は、次の段階で既存索引ファイル11とマージできるよ
うに新規差分登録分を新規差分索引ファイル14として
索引構造と同じものにまとめる部分である。索引マージ
部15は、既存索引ファイル11と新規差分索引作成部
13で出力として得られた新規差分索引ファイル14と
を合わせて、新規索引ファイル16を作成するととも
に、上記本発明の位置情報ファイルの削除の判断を行う
部分である。新規索引ファイル16は、索引マージ部1
5から出力され、新たに検索に使用される索引である。
検索部17は、ユーザからの検索文字列を受け取り、新
規索引ファイル16から、その文字列がどの文書に入っ
ているかを求める部分である。
【0018】以下、索引マージ部15における位置情報
削除処理について説明する。図5は本発明の索引マージ
部15における位置情報削除処理の一例を説明するため
のフローチャートである。また、図6は本発明のキー文
字列のマージの一例を説明するための図である。図5及
び図6に従って位置情報削除処理を説明すると、まずス
テップ401で、既存索引ファイルの大きさと新規差分
索引ファイルの大きさの和が大きさAを始めて超えたと
きかどうかをチェックする。始めて超えたときには、ス
テップ402〜406の処理(1)を実施し、始めて超
えたときでなければ、言い換えると、大きさAを超えて
いるが始めて超えたときでなければ、ステップ407〜
412の処理(2)を実施する。なお、本例では、処理
(1)と処理(2)を両方含む場合の位置情報削除処理
を説明しているが、処理(1)のみあるいは処理(2)
のみでも、本発明で対象としている位置情報削除処理を
実行できることは言うまでもない。
【0019】処理(1)について:始めて超えたときな
らば、ステップ402に進む。ステップ402では、図
6に示す既存索引ファイル501と新規差分索引ファイ
ル502のキーファイルから順番に、つまり、既存索引
ファイル501と新規差分索引ファイル502とをマー
ジして得た新規索引ファイル503の順番で、キー文字
列を読み込む。次に、ステップ403で、読み込んだキ
ー文字列に対応する既存索引ファイルの位置情報と新規
差分ファイルの位置情報の和がB以上かどうかをチェッ
クする。そして、大きくなければステップ404に進
み、大きければステップ405に進む。ステップ404
では、キーファイルと位置情報ファイルにともにデータ
を書き込むことで、新規索引ファイルに追加する。ステ
ップ405では、新規索引ファイルのキーファイルのみ
にキー文字列のエントリーを追加し、対応する位置情報
削除フラグを"YES" にセットする。新規索引ファイルの
位置情報ファイルには、データを追加しない。次に、ス
テップ406で、処理していたキー文字列が最後のキー
文字列であれば、処理(1)におけるマージ処理を終了
する。最後のキー文字列でなければ、ステップ402か
らの処理を繰り返す。
【0020】処理(2)について:大きさAを超えてい
るが始めて超えたときでなければ、ステップ407に進
むステップ407では、図6に示す既存索引ファイル5
01と新規差分索引ファイル502のキーファイルから
順番に、つまり、既存索引ファイル501と新規差分索
引ファイル502とをマージして得た新規索引ファイル
503の順番で、キー文字列を読み込む。次に、ステッ
プ408で、読み込んだキー文字列に対応する既存索引
ファイルの位置情報と新規差分ファイルの位置情報の和
がC以上かどうかをチェックする。そして、大きくなけ
ればステップ409に進み、大きければステップ411
に進む。ステップ409では、マージ前の索引ファイル
のキーファイルにおいて、位置情報削除フラグが"YES"
になっているかどうかをチェックし、"YES" になってい
なければステップ410に進み、"YES" になっていれば
ステップ411に進む。ステップ410では、キーファ
イルと位置情報ファイルにともにデータを書き込むこと
で、新規索引ファイルに追加する。ステップ411で
は、新規索引ファイルのキーファイルのみにキー文字列
のエントリーを追加し、対応する位置情報削除フラグ
を"YES" にセットする。新規索引ファイルの位置情報フ
ァイルには、データを追加しない。次に、ステップ41
2で、処理していたキー文字列が最後のキー文字列であ
れば、処理(2)におけるマージ処理を終了する。最後
のキー文字列でなければ、ステップ407からの処理を
繰り返す。
【0021】次に、検索部17の動作について説明す
る。本発明の索引ファイルを使用した検索方法では、検
索部17の構成は特に限定せずこれまでに知られている
構成のいずれの構成をも利用することができるが、以下
に示す3つの検索文字列に基づく検索を行うと本発明を
より好適に使用することができる。以下、典型的な3つ
の検索文字列について説明する。
【0022】(1)検索文字列が一つの単語の場合: (2)Nグラム方式で索引を作成していて、検索文字列
が一つの場合:Nグラムの索引ファイルでは、たとえば
「日本銀行」を検索するときに、「日本」の位置情報が
削除されている場合、そのままでは該当文書を指定する
ことはできないが、「本銀」と「銀行」の文字列を検索
することにより、「日本銀行」の検索結果に近い検索結
果を得ることができる。つまり、ストップ・ワードを含
めた文字列を検索できる。 (3)検索文字列が複数の単語の場合:索引ファイルの
大きさが非常に大きくなると、検索ヒット文書数が非常
に大きい検索文字列を含めた検索は、システム・リソー
スを非常に多く消費してしまう。複数の文字列からなる
検索の場合、検索ヒット文書数が一定以上になる検索文
字列、および、位置情報が削除されている文字列の演算
は、ないものとして検索結果を返すとともに、該当文字
列のヒット文書が多すぎるので、違う文字列で検索する
ことをメッセージで返す。こうすることにより、今まで
結果を得るのにかなり時間がかかっていたものが、すぐ
に結果を返すことができるようなり、システム・リソー
スを有効に利用できる。以下、上述した3つの典型的な
検索文字列について詳細に説明する。
【0023】(1)検索文字列が一つの単語の場合:図
7は検索文字列が一つの単語の場合の検索処理を示すフ
ローチャートである。図7に従って検索文字列が一つの
単語の場合の検索処理を説明すると、まず、ステップ6
01で検索文字列を受ける。次に、ステップ602で、
検索文字列の位置情報が削除されているかどうかを、位
置情報削除フラグを調べることでチェックする。削除さ
れていなければステップ603に進み、削除されていれ
ばステップ604に進む。ステップ603では、検索文
字列と同じ文字列をキーファイルから探し、該当する位
置情報ファイルの内容を返す。ステップ604では、ヒ
ット件数が多すぎるので、他の検索文字列で検索するよ
うにメッセージを返す。以上の処理で検索を終了する。
【0024】(2)Nグラム方式で索引を作成していて
検索文字列が一つの場合:図8はNグラム方式で索引を
作成していて検索文字列が一つの場合の検索処理を示す
フローチャートである。図8に従ってNグラム方式で索
引を作成していて検索文字列が一つの場合の検索処理を
説明すると、まず、ステップ701で検索文字列を受け
る。次に、ステップ702で、検索文字列の位置情報が
削除されているかどうかを、位置情報削除フラグを調べ
ることでチェックする。削除されていなければステップ
703に進み、削除されていればステップ704に進
む。ステップ703では、検索文字列と同じ文字列をキ
ーファイルから探し、該当する位置情報ファイルの内容
を返す。ステップ704では、位置情報が削除されてい
る検索文字列に対しては、検索文字列に対し一文字ずら
した文字列で検索を実行する。たとえば、検索文字列が
「日本銀行」のとき、ステップ703では「日本」と
「銀行」で検索するが、「日本」の位置情報が削除され
ている場合、ステップ704では「本銀」と「銀行」で
検索処理を始める。次に、ステップ705で、「本銀」
の位置情報も削除されているかどうかを、検索文字列
「本銀」の位置情報削除フラグを調べることでチェック
する。削除されていればステップ706に進み、削除さ
れていなければステップ707に進む。ステップ706
では、ヒット件数が多すぎるので、他の検索文字列で検
索するようにメッセージを返す。ステップ707では、
「本銀」と「銀行」で検索した結果を返す。以上の処理
で検索を終了する。
【0025】(3)検索文字列が複数の単語の場合:図
9は検索文字列が複数の単語の場合の検索処理を示すフ
ローチャートである。図9に従って検索文字列が複数の
単語の場合の検索処理を説明すると、まず、ステップ8
01で検索文字列を受ける。次に、ステップ802で各
検索文字列の位置情報が削除されているかどうかを、各
検索文字列に対応する位置情報削除フラグを調べること
でチェックする。削除されていなければステップ803
に進み、削除されていればステップ804に進む。ステ
ップ803では、各検索文字列と同じ文字列をキーファ
イルから探し、該当する位置情報ファイルの内容を返
す。ステップ804では、さらに全検索文字列の各位置
情報が削除されているかどうかをチェックする。全検索
文字列の位置情報が削除されていればステップ805に
進み、削除されていなければステップ806に進む。ス
テップ805では、ヒット件数が多すぎるので、他の検
索文字列で検索するようにメッセージを返す。ステップ
806では、位置情報が削除されている検索文字列の演
算はないものとして検索結果を返す。また、同時に、位
置情報が削除されている文字列に関しては、ヒット件数
が多すぎたことをメッセージで返す。たとえば、検索文
字列が"FORUM and SQL" で"FORUM" の位置情報が削除さ
れている場合、"SQL" のみの検索結果を返し、同時に"F
ORUM" のヒット件数は多すぎたことをメッセージで返
す。以上の処理で検索を終了する。
【0026】なお、上述した処理(1)、処理(2)の
位置情報の処理では、それぞれ位置情報の大きさがBま
たはC以上となった文字列すべてを削除する。しかし、
処理(1)において、例えば日本の新聞記事データの場
合、ある程度Bを低くしようとすると削除対象に日本の
文字列が含まれる場合がある。これを削除したくない場
合、例えば漢字だけの文字列は削除しないなどを決め、
位置情報を削除しない文字列群の位置情報を常に削除し
ないようにすることもできる。また、上述した実施例に
おける任意の値A、B、Cは、それぞれ常に一定の値を
示すものではなく、システム構成や要求性能などに応じ
て適宜選択して設定することは言うまでもない。
【0027】
【発明の効果】以上の説明から明らかなように、本発明
によれば、所定のキー文字列に対し、位置情報削除フラ
グを関連付けるとともに、所定のキー文字列に対応する
位置情報を位置情報ファイルから削除しているため、具
体的には、索引ファイル全体の大きさが始めてAに達し
たときに、位置情報の大きさがB以上となるキー文字列
に対応した位置情報削除フラグを立てるとともに、その
位置情報を位置情報ファイルから削除しているため、お
よび/または、索引ファイル全体の大きさがAを超えた
場合に、位置情報の大きさがC以上となるキー文字列に
対応した位置情報削除フラグを立てるとともに、その位
置情報を位置情報ファイルから削除しているため、全文
検索に対する要求を満たしながら、実際には検索には使
用することができない文字列の位置情報を削除すること
ができ、索引ファイルの大きさを大幅に削減することが
できる。
【図面の簡単な説明】
【図1】本発明の検索方法を実施するために利用される
索引ファイルの一例の構成を示す図である。
【図2】図1に示すキーファイルの一例の構成を示す図
である。
【図3】索引ファイル全体の大きさと各キー文字列の位
置情報の大きさとの関係を示すグラフである。
【図4】本発明の索引ファイルを使用した検索方法に用
いる装置の一例の構成を示すブロック図である。
【図5】本発明の索引マージ部における位置情報削除処
理の一例を説明するためのフローチャートである。
【図6】本発明のキー文字列のマージの一例を説明する
ための図である。
【図7】検索文字列が一つの単語の場合の検索処理を示
すフローチャートである。
【図8】Nグラム方式で索引を作成していて検索文字列
が一つの場合の検索処理を示すフローチャートである。
【図9】検索文字列が複数の単語の場合の検索処理を示
すフローチャートである。
【符号の説明】
1 索引ファイル、2 キーファイル、3 位置情報フ
ァイル、4 キー文字列、5 位置情報ファイル内の位
置、6 位置情報の大きさ、7 位置情報削除フラグ、
11 既存索引ファイル、12 新規登録文書、13
新規差分索引作成部、14 新規差分索引ファイル、1
5 索引マージ部、16 新規索引ファイル、17 検
索部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 鈴木 隆夫 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 大和事業所内 Fターム(参考) 5B075 ND03 NK49 NR05 NR06 NR20 QS01

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 キー文字列を含むキーファイルと、キー
    文字列に対応した位置情報からなる位置情報ファイルと
    から構成される索引ファイルを使用した検索方法におい
    て、所定のキー文字列に対し、位置情報削除フラグを関
    連付けるとともに、前記所定のキー文字列に対応する位
    置情報を前記位置情報ファイルから削除することを特徴
    とする索引ファイルを使用した検索方法。
  2. 【請求項2】 前記所定のキー文字列に対応する位置情
    報の大きさが前記位置情報ファイルの大きさに対し所定
    の割合に達したことに応答して、該位置情報の削除が行
    われることを特徴とする請求項1記載の検索方法。
  3. 【請求項3】 前記所定のキー文字列に対応する位置情
    報の大きさが所定の値に達したことに応答して、該位置
    情報の削除が行われることを特徴とする請求項1記載の
    検索方法。
  4. 【請求項4】 前記キーファイルの構造が、キー文字
    列、位置情報ファイル内の位置、位置情報の大きさ、位
    置情報削除フラグからなる請求項1に記載の検索方法。
  5. 【請求項5】 削除すべきと判断されても位置情報を削
    除しないキー文字列群を予め定める請求項1に記載の検
    索方法。
  6. 【請求項6】 キー文字列の位置情報を索引ファイルの
    位置情報ファイルに追加するにあたり、キー文字列に対
    応する位置情報削除フラグが立っている場合は追加せ
    ず、キー文字列に対応する位置情報削除フラグが立って
    いない場合のみ追加する請求項1に記載の検索方法。
  7. 【請求項7】 検索を、1つの単語からなる検索キー文
    字列による方法、Nグラム方式で索引を作成した場合に
    おいて1つの検索キー文字列による方法、複数の単語か
    らなる検索キー文字列による方法のいずれかの方法で行
    う請求項1に記載の検索方法。
  8. 【請求項8】 新規登録文書から新規差分索引ファイル
    を作成するための新規差分索引作成部と、新規差分索引
    作成部で作成した新規差分索引ファイルと既存索引ファ
    イルとをマージするとともに請求項1〜7のいずれか1
    項に記載の位置情報ファイルの削除の判断を行って新規
    索引ファイルを作成するための索引マージ部と、索引マ
    ージ部で作成した新規索引ファイルに基づき検索を実行
    するための検索部と、を備えることを特徴とする装置。
JP27797899A 1999-09-30 1999-09-30 索引ファイルを使用した検索方法及びそれに用いる装置 Withdrawn JP2001109754A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP27797899A JP2001109754A (ja) 1999-09-30 1999-09-30 索引ファイルを使用した検索方法及びそれに用いる装置
US09/676,803 US6640225B1 (en) 1999-09-30 2000-09-29 Search method using an index file and an apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27797899A JP2001109754A (ja) 1999-09-30 1999-09-30 索引ファイルを使用した検索方法及びそれに用いる装置

Publications (1)

Publication Number Publication Date
JP2001109754A true JP2001109754A (ja) 2001-04-20

Family

ID=17590930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27797899A Withdrawn JP2001109754A (ja) 1999-09-30 1999-09-30 索引ファイルを使用した検索方法及びそれに用いる装置

Country Status (2)

Country Link
US (1) US6640225B1 (ja)
JP (1) JP2001109754A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073797A (ja) * 2010-09-28 2012-04-12 Yahoo Japan Corp 電子端末機及び方法
JP2012533819A (ja) * 2009-07-23 2012-12-27 アリババ・グループ・ホールディング・リミテッド 文書インデックス化およびデータクエリングのための方法およびシステム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907610B2 (en) * 2001-06-15 2005-06-14 Microsoft Corporation System and method for building a target operating system from a source operating system
US7702666B2 (en) * 2002-06-06 2010-04-20 Ricoh Company, Ltd. Full-text search device performing merge processing by using full-text index-for-registration/deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part
US7636710B2 (en) * 2004-03-04 2009-12-22 Symantec Operating Corporation System and method for efficient file content searching within a file system
GB0511919D0 (en) * 2005-06-11 2005-07-20 Ibm Device permitting partial disabling of information retrievability on worm media
JP4241704B2 (ja) * 2005-09-30 2009-03-18 ブラザー工業株式会社 情報管理装置、及び、プログラム
US7873625B2 (en) * 2006-09-18 2011-01-18 International Business Machines Corporation File indexing framework and symbolic name maintenance framework
US20080120319A1 (en) 2006-11-21 2008-05-22 International Business Machines Corporation System and method for identifying computer users having files with common attributes
JP2009037359A (ja) * 2007-07-31 2009-02-19 Hitachi Ltd データ登録検索方法、データ登録検索プログラムおよびデータベースシステム
CN102081649B (zh) * 2010-12-31 2012-08-15 深圳联友科技有限公司 一种搜索电脑文件的方法及其系统
US10235431B2 (en) 2016-01-29 2019-03-19 Splunk Inc. Optimizing index file sizes based on indexed data storage conditions

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6427147B1 (en) * 1995-12-01 2002-07-30 Sand Technology Systems International Deletion of ordered sets of keys in a compact O-complete tree
US5745890A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Sequential searching of a database index using constraints on word-location pairs
US5745894A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Method for generating and searching a range-based index of word-locations
US6055526A (en) * 1998-04-02 2000-04-25 Sun Microsystems, Inc. Data indexing technique

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012533819A (ja) * 2009-07-23 2012-12-27 アリババ・グループ・ホールディング・リミテッド 文書インデックス化およびデータクエリングのための方法およびシステム
JP2012073797A (ja) * 2010-09-28 2012-04-12 Yahoo Japan Corp 電子端末機及び方法

Also Published As

Publication number Publication date
US6640225B1 (en) 2003-10-28

Similar Documents

Publication Publication Date Title
US9195738B2 (en) Tokenization platform
JP3178475B2 (ja) データ処理装置
JP3554459B2 (ja) テキストデータ登録検索方法
US8423885B1 (en) Updating search engine document index based on calculated age of changed portions in a document
Williams et al. What's Next? Index Structures for Efficient Phrase Querying.
US7783589B2 (en) Inverted index processing
JP2001109754A (ja) 索引ファイルを使用した検索方法及びそれに用いる装置
JP4237813B2 (ja) 構造化文書管理システム
JP3022539B1 (ja) 文書検索装置
JP2008083769A (ja) 文書検索装置および文書検索方法
JPH05324722A (ja) 文書検索方式
JP4108337B2 (ja) 電子ファイリングシステム及びその検索インデックス作成方法
JP2007133682A (ja) 全文検索システム、及び、その全文検索方法
US6397216B1 (en) Ordering keys in a table using an ordering mask
JP4091586B2 (ja) 構造化文書管理システム、索引構築方法及びプログラム
JPH09212523A (ja) 全文検索方法
JP2002132789A (ja) 文書検索方法
WO2013069149A1 (ja) データ検索装置、データの検索方法及びプログラム
JP4521413B2 (ja) データベース管理システム及びプログラム
JP3555181B2 (ja) 構造化文書検索方法
JP4304226B2 (ja) 構造化文書管理システム、構造化文書管理方法及びプログラム
JP3187671B2 (ja) 電子辞書表示装置
JP2013178711A (ja) 全文検索装置、プログラム及び記録媒体
JPH0668159A (ja) 検索装置
JPH1185585A (ja) 完全メモリ常駐型インデックス方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060727

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060829

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20081119