JPH06243009A

JPH06243009A - 全テキストインデックスを圧縮する方法

Info

Publication number: JPH06243009A
Application number: JP5308060A
Authority: JP
Inventors: Brian T Berkowitz; ティーバーコウィッツブライアン; Max L Benson; エルベンソンマックス
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1992-12-08
Filing date: 1993-12-08
Publication date: 1994-09-02
Anticipated expiration: 2019-08-04
Also published as: CA2110870A1; JP3550173B2; US5832479A; DE69330993T2; EP0601569A1; DE69330993D1; US5649183A; ATE207635T1; EP0601569B1

Abstract

(57)【要約】【目的】全テキストインデックスを圧縮する方法であ
って、インデックスに必要なメモリオーバーヘッドがデ
ータベースに必要な記憶容量の僅かな部分であるように
する方法を提供する。【構成】複数のデータキーフィールドを含むテキスト
インデックスを記録する方法であって、各データキーフ
ィールドは、データキー識別子と、文書識別子データ
と、オフセットフィールドとを含み、文書識別子データ
は、データキー識別子が現れる各文書を識別するもので
あり、オフセットフィールドは複数のオフセットシーケ
ンスを含み、各オフセットシーケンスは、文書識別子デ
ータによって識別された各文書に関連されると共に、手
前のデータキーからのデータキーのオフセットを識別す
ることによりその関連文書内の各データキーの位置を識
別し、本発明により、文書識別子データとオフセットデ
ータフィールドを圧縮するようにした方法。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データベース記憶技術
に係り、より詳細には、全テキストインデックスを圧縮
する改良された方法に係る。

【０００２】

【従来の技術】全テキストインデックスを記憶するため
のコンピュータデータベースがテキスト記憶及び検索に
対して一般的となってきている。これらデータベース
は、記憶されたテキスト内の特定のデータストリングに
対するインデックスをユーザがサーチできるようにす
る。典型的に、インデックスデータは、データベースの
テキストデータとは個別のデータ構造体に記憶され、そ
れ故、メモリオーバーヘッドを構成する。インデックス
はユーザが所望のデータストリングに対するテキストデ
ータを迅速にサーチできるようにするので、このメモリ
オーバーヘッドは正当とされる。しかしながら、インデ
ックスに必要とされるメモリオーバーヘッドを最小にす
ることが所望される。

【０００３】

【発明が解決しようとする課題】多数の公知方法は、各
データストリングを識別しそしてそのデータストリング
が現れるデータベース内の各位置の識別子をデータスト
リングに関連させることによりインデックスを形成す
る。これらのインデックスは明らかにやっかいなもの
で、多量のメモリオーバーヘッドを使用する。同様に、
このようなインデックスを用いる他の公知方法は、必要
なメモリオーバーヘッドを減少するためにデータ圧縮技
術を使用している。しかしながら、これらの方法は、デ
ータベースに必要なメモリの５０％ないし１００％に等
しいインデックス用メモリを必要とし、即ち５０％ない
し１００％のオーバーヘッドを必要とする。

【０００４】テキストインデックスを形成する他の方法
は、あるデータシーケンスにコードを指定し、データシ
ーケンスを上記したようにインデックスできるようにす
る。この方法は、データシーケンスに強力なパターンを
示すデータベースについては良好に機能するが、データ
シーケンスに比較的僅かなパターンしかもたないデータ
ベースには受け入れられない。それ故、インデックスに
必要なメモリオーバーヘッドがデータベースに必要な記
憶容量の２０％未満であるようにして全テキストインデ
ックスを記憶する方法及び装置を提供することが所望さ
れる。

【０００５】

【課題を解決するための手段】本発明は、複数の文書が
記憶されている記憶ボリュームのための内容インデック
スを与える形式のインデックスデータを記憶する方法を
提供する。各文書は独特の文書識別子を有し、複数のデ
ータキーを含んでいる。データキーのフィールドは、タ
ーゲットデータキーに対する記憶ボリューム内の発生数
及び位置を与える。この方法は、データキーフィールド
の目的であるターゲットデータキーを識別するためのデ
ータキー識別子を与える段階を備えている。ターゲット
データキーが配置された複数のターゲット文書を各々記
述する複数の文書識別子を含む文書データセットを定義
し、その後、第１の所定の圧縮機構に基づいてこの文書
データセットを文書識別子データに圧縮し、圧縮解除の
ときに、文書データセットが回復されるようにする。複
数のカウント値を与え、各カウント値は文書データセッ
ト内の複数の文書識別子の各々に関連したものであり、
そして各文書識別子により識別された文書におけるター
ゲットデータキーの発生数を識別する。又、この方法
は、複数のデータキーオフセット値のセットを与える段
階も備え、各々のデータキーオフセット値セットは上記
複数のカウント値の各々に関連され、そして各データキ
ーオフセット値セットは、各々のカウント値によって識
別されたターゲットデータキーの発生数に数値が等しい
複数のデータオフセット値を含んでいる。従って、各デ
ータキーオフセット値は、各データキーオフセット値セ
ットのカウント値に関連した文書識別子により識別され
た文書内におけるターゲットデータキーの位置を識別す
る。

【０００６】本発明の第１の実施例では、文書識別子の
範囲の終了点として最小文書識別子及び最大文書識別子
を選択することにより文書識別子の範囲を定義する段階
を備えた方法によって文書データセットが圧縮される。
上記範囲が選択された後に、文書識別子の上記範囲の終
了点間の中点が識別され、文書識別子の上記範囲が第１
及び第２のグループに仕切られる。次いで、第１グルー
プと第２グループとの間の文書の分布を特徴付ける文書
識別子データを設けることによって文書識別子が圧縮さ
れ、文書識別子データは上記範囲内の文書識別子の各々
を識別するものである。

【０００７】本発明の第２の実施例では、データビット
Ｎのベース数を選択する段階を含む方法に基づいて複数
のデータキーオフセット値が圧縮される。この方法で
は、更に、データキーオフセット値がエンコードされた
ことを指示するためにデービットのベース数から最上位
ビットの一部分ｒを選択し、そして残りの最下位データ
ビットｑをベース数として識別し、ｒ＋ｑ＝Ｎとする段
階を備えている。その後に、ｒ個の最上位ビットがセッ
トされない状態でデータキーオフセット値をＮビットで
表すことができるかどうかの判断を行い、もしできるな
らば、データキーオフセット値をＮビットで表示する。
しかしながら、ｒ個の最上位ビットがセットされない状
態でデータキーオフセット値をＮビットで表すことがで
きない場合には、ｒ個の最上位ビットをセットし、そし
てこのｒ個の最上位ビットと共に使用されるデータキー
オフセット値のｑ個の最下位ビットをセットして、デー
タキーオフセット値の最上位ビットがエンコードされた
ことを指示する。

【０００８】

【実施例】上記したように、本発明は、インデックスを
記憶するのに必要なメモリオーバーヘッドを最小にする
ようにして全テキストインデックスを記憶する方法を提
供する。一般に、本発明のインデックスは、複数のデー
タキーフィールド１００を備え、その構造が図１に示さ
れている。各データキーフィールド１００は、データキ
ー識別子１０２と、文書識別子データ１０４と、オフセ
ットフィールド１０６とを含んでいる。データキー識別
子１０２は、インデックスされるべきテキスト或いはデ
ータシーケンスを識別するのに使用されるデータワード
である。例えば、月刊誌のような定期刊行物からの文献
のテキストを記録するためのテキストデータベースを開
発することができる。テキストインデックスは、定期刊
行物の文献に現れるワードで構成される。テキストイン
デックスのデータキー識別子１０２は、定期刊行物内に
探索されるべき個別のワードを識別するのに使用される
ものである。

【０００９】データキーフィールド１００は、データキ
ー識別子１０２をその各々の文書識別子データ１０４及
びオフセットフィールド１０６に関連させるために設け
られる。文書識別子データ１０４は、データキー識別子
１０２に関連したテキストシーケンスが現れるデータベ
ースにおいて各文書を識別するデータである。上記の例
において、文書識別子データ１０４は、データキー識別
子１０２によって識別されたワードが現れる定期刊行物
データベースにおいて各文献を識別する。

【００１０】オフセットフィールド１０６は、図２に示
すように、複数のオフセットデータシーケンス２００−
１ないし２００−ｉを備えている。本発明によれば、オ
フセットデータシーケンス２００は、文書識別子データ
１０４（図１）によって識別された各文書ごとに設けら
れる。各オフセットデータシーケンス２００は、複数の
オフセットｎを含み、各オフセットは、そのオフセット
データシーケンスに対応する文書におけるデータキー識
別子１０２の位置を識別する。例えば、第１のオフセッ
トデータシーケンス２００−１は、文書識別子データ１
０４により識別された第１文書に対応する。オフセット
＃１は、第１文書内のデータキー識別子１０２によって
識別されたテキストシーケンスの第１オフセットを識別
する。オフセット＃２は、第１文書内のテキストシーケ
ンスの第２オフセットを識別し、等々となる。以下に詳
細に述べるように、本発明の現在好ましいと考えられる
１つの実施例は、各オフセットをその手前のオフセット
から測定することによりオフセットデータシーケンス２
００に与えられるオフセットの値を最小にするように構
成される。しかしながら、本発明の範囲から逸脱せずに
複数のオフセットを与える他の方法も存在することが当
業者に明らかであろう。

【００１１】定期刊行物のデータベースの上記例を更に
説明すれば、所定ワードを識別するためにデータキー識
別子１０２が与えられる。データキーフィールド１００
は、そのワードが現れる各文献を識別するためにこのデ
ータキー識別子１０２を文書識別子データと共に含んで
いる。オフセットフィールド１０６は、文書識別子デー
タ１０４により識別された各文書に関連したオフセット
のカウントを含む。各オフセットは、手前のオフセット
からのワードのオフセットを表す値を与えることにより
文書内のそのワードの位置を識別する。例えば、第１の
オフセットは、２０であり、これはそのワードが文書の
２０番目のワードとして最初に現れることを示す。第２
のオフセットは５０であり、これはそのワードが２回目
に現れるのが最初の発生から５０ワード目であり、文書
の始めから７０ワードであることを示している。

【００１２】上記した方法によれば、テキストインデッ
クスは、ユーザがオフセットデータシーケンスをデータ
ベース内で見つけられるように効率的に記憶することが
できる。テキストインデックスを記憶する上記の方法
は、メモリを効率的に保存し、メモリオーバーヘッドを
減少する。しかしながら、データキーフィールド１００
の種々の成分を圧縮する方法を提供することにより、テ
キストインデックスを記憶するのに必要なメモリオーバ
ーヘッドの量のそれ以上の減少を達成することができ
る。特に、以下に詳細に述べるように、文書識別データ
１０４及びオフセットフィールド１０６を圧縮するため
の方法が提供される。

【００１３】図３、４及び５には、上記複数のデータキ
ーフィールド１００を与える方法が示されている。最初
に、ステップ３００において、ターゲットデータキーと
称するテキストシーケンスを識別するためにデータキー
識別子１０２が指定される。ターゲットデータキーは、
データキーフィールドが所望される何らかのテキスト又
はデータシーケンスである。上記の例では、ターゲット
データキーは、定期刊行物のデータベースに現れる特定
のワードである。その後、ステップ３０２において、タ
ーゲットデータキーが現れる各文書が識別されて文書デ
ータセットが定められ、文書データセットは、ターゲッ
トデータキーが現れる各文書の文書識別子を含む。上記
例を更に参照すれば、文書データセットは、ターゲット
データキー即ち特定のワードが現れる各文献を識別する
ための文書識別子を含む。その後に、ステップ３０４に
おいて、文書データセットから第１文書が選択されて、
オフセットフィールド１０６（図１）が決定される。

【００１４】オフセットフィールド１０６を形成するた
めに、ステップ３０６において、選択された文書におけ
るターゲットデータキーの発生数を決定し、その発生数
を表す現在値を与える。その後、ステップ３０８（図
４）において、データキーオフセットシーケンスが与え
られ、これは、上記したように第１文書内のターゲット
データキーの位置を指示する複数のデータキーオフセッ
ト値を含む。本発明の方法によれば、ステップ３１０に
おいて、当該文書のオフセットシーケンスを表すのに必
要なデータを最小にするために各データキーオフセット
シーケンスが圧縮される。データキーオフセットシーケ
ンスを圧縮するには種々の方法が使用できるが、本発明
のここに述べる好ましい実施例では、図６及び７を参照
して以下に詳細に述べるように、特定の方法が使用され
る。

【００１５】選択された何らかの方法によってデータキ
ーオフセット値セットが圧縮された後に、ステップ３１
２において、その圧縮されたデータがカウント値と共に
アッセンブルされ、選択された文書に対するオフセット
フィールドが作られる。次いで、文書データセット（上
記ステップ３０２で定めた）の最後の文書が選択された
かどうかの判断がなされ、もしそうでなければ、ステッ
プ３１６において、次の文書が選択され、文書データセ
ットで識別された各文書に対しオフセットフィールドが
与えられるまでステップ３０６ないし３１６が繰り返さ
れる。その後、ステップ３１８（図５）において、文書
データセットが圧縮されて、図１に示す文書識別子デー
タ１０４が作られる。ステップ３１０を参照して述べた
データキーオフセット値の圧縮と同様に、文書データセ
ットの圧縮は、公知の種々の方法で行うことができる。
しかしながら、文書データセットを圧縮するためのここ
に示す好ましい方法は、図８、９、１０及び１１を参照
して以下に説明する。

【００１６】ステップ３２０において、データキー識別
子１０２、文書識別子データ及びオフセットフィールド
を用いて、データキーフィールド１００が組み立てられ
る。ステップ３２２において、次のターゲットデータキ
ーを選択し、各ターゲットデータキーにデータキーフィ
ールド１００が設けられるまで図３、４及び５の方法が
繰り返される。

【００１７】上記したように、オフセットフィールド１
０６及び文書識別子データ１０４は両方とも圧縮され、
複数のデータキーフィールド１００を記憶するに必要な
メモリが減少される。又、上記したように、オフセット
フィールド１０６は、データキーの手前の位置を参照と
して使用して文書内のデータキーの位置を各々識別する
複数のオフセットを備えている。オフセットフィールド
１０６を圧縮するためのここに示す好ましい方法は、図
６及び７の判断流れ線図に示されている。

【００１８】一般に、各オフセットデータシーケンス
（図４のステップ３０８）は、図６に示す方法に基づい
てシーケンスをエンコードすることにより圧縮される。
図６には、可変長さエンコード技術が示されており、先
ず、ステップ４００において、参照数Ｎを、２^N＞（ｍａｘ−ｍｉｎ）／ｋ（１）であるような最小の整数として定義する。ここで、ｍａ
ｘ（最大）は文書における最後のデータキーオフセッ
ト、即ち７０番目のワードを識別するオフセットであ
り、そしてｍｉｎ（最小）は文書における最初のデータ
キーオフセット、即ち２０番目のワードを識別するオフ
セットであり、従って、最大−最小は、文書におけるデ
ータキーの範囲を指し、そして更に、ｋはステップ３０
６（図３）を参照して上記したように文書におけるデー
タキーの数、即ちオフセットのカウントである。基準数
Ｎが定められた後に、エンコード変数ＥＤが次のように
定められる。即ち、ＥＤ＝３ｘ（２^N-2）（２）ＥＤは、２つの最上位ビットの両方を１に等しくセット
することなくＮビットを用いて表すことのできる最大数
より１大きいものである。例えば、基準数Ｎが７に等し
い場合には、エンコード変数ＥＤは９６に等しい。この
例では、両方の最上位データビットをセットすることな
く表すことのできる最大数が９５であり、即ち、両方の
最上位データビットをセットせずに表すことのできる最
大２進数は１０１１１１１であって、９５に等しい。

【００１９】図６に戻ると、ステップ４０４において、
各オフセットがエンコード変数ＥＤと比較される。オフ
セット値が変数ＥＤより小さく、上記例では９５より小
さい場合には、ステップ４０６において、そのオフセッ
ト値はエンコードせずに使用される。しかしながら、オ
フセットが変数ＥＤに等しいか又はそれより大きい場合
には、ステップ４０８において、そのオフセットの下位
のＮ−２ビットが「１１」との組み合わせで使用され
る。当業者に明らかなように、エンコード変数ＥＤより
小さいオフセットだけはエンコードせずに使用されるの
で、いかなるフィールドの２つの最上位ビットをセット
しても、オフセットがＥＤより大きいことが指示され、
そしてオフセットの最下位のＮ−２ビットのみが与えら
れる。別の言い方をすれば、フィールドの最上位２ビッ
トのいずれかがセットされないときには、オフセット値
が変数ＥＤより小さく、上記例では９６より小さく、そ
のフィールドはエンコードされない。逆に、フィールド
の両方の最上位ビットがセットされる場合には、オフセ
ット値が変数ＥＤより大きく、フィールドはエンコード
される。

【００２０】上記したように、オフセットが変数ＥＤよ
り大きい場合には、そのオフセットの最下位のＮ−２ビ
ットが使用され、「１１」と組み合わされて、フィール
ドがエンコードされたことを指示する。次いで、オフセ
ットの最上位ビットが、ステップ４１０において、所定
のエンコード方法によりエンコードされる。ステップ４
１２において、インデックス変数ｊがオフセット値の数
と比較されて各オフセットがエンコードされたかどうか
判断され、もしそうでなければ、インデックス変数ｊは
ステップ４１４において増加され、そしてオフセットデ
ータシーケンスの各オフセットがエンコードされるまで
ステップ４０４ないし４１４が繰り返される。

【００２１】残りのデータビットをエンコードするここ
に示す好ましい方法は、「マーカーエンコード方法」と
称するもので、ステップ４１０を参照して述べたが、こ
れが図７に示されている。図７を参照すれば、ステップ
５００において、多数のインデックス値ｍ、ｒ及びｂが
各々１にセットされる。その後、ステップ５０２におい
て、残りのビットの２進表示として、即ちエンコードさ
れるべきオフセットの最上位ビットとして（上記のステ
ップ４１０を参照）、Ｑが定められる。２進表示は非ゼ
ロであることが知られており、即ち１より大きいことが
知られているので、ステップ５０４において、Ｑから１
を減算し、残りのビットに対するメモリオーバーヘッド
を更に少なくする。その後に、ステップ５０５におい
て、第１のエンコードされたビットＥＱ１がＱの最下位
ビットに等しくセットされる。例えば、図６のステップ
４０８及び４１０で最下位のＮ−２のビットが選択され
た後に残っているビットが次のものである場合には、Ｑ＝１０１０（３）ステップ５０４において、次のようになり、Ｑ−１＝１００１（４）そしてステップ５０５において最下位ビット即ちＥＱ１
が１に等しくなる。その後、ステップ５０６においてイ
ンデックス変数ｂ及びｒが増加され、そしてステップ５
０８においてインデックス変数ｒがインデックス変数ｍ
と比較される。本発明の方法によれば、残りのビットの
数が小さいと仮定する。従って、最初はＱの１ビットだ
けがエンコードされ、即ちＮ＝１である。その後、更に
エンコードが必要な場合には、ｍが増加され、付加的な
ビットが以下に述べるようにエンコードされる。それ
故、ｍは、エンコードされるべき残りのビット数であ
る。ステップ５０８でのｒとｍの比較は、残りの適当な
数のビットがエンコードされたかどうか判断することで
ある。

【００２２】上記例では、増加の後に、ｒは２に等しく
なりそしてｍは１に等しくなり、従って、ｒはｍより大
きくなり、ステップ５１０が実行され、ｍは１だけ増加
されそしてｒは１の値に戻される。次いで、ステップ５
１２において、Ｑは、最初のビット（１つ又は複数）が
エンコードされた後に残っているビットの２進表示に等
しくセットされる。上記例において、１００１の最下位
ビットがエンコードされて、ＥＱ１＝１となった後に、
残りのビットの２進表示は「１００」となる。ステップ
５１４においてＱが０に等しい場合には、ステップ５２
０においてこの方法は終了する。しかしながら、上記例
のように、Ｑが０に等しくない場合は、次にエンコード
されるビットがステップ５１６において１に等しくセッ
トされ、ステップ５１８においてインデックス変数ｂが
１だけ増加される。ステップ５１４においてＱが０に等
しくなるまでステップ５０４ないし５１８が繰り返さ
れ、Ｑが０になった時点で、次にエンコードされるビッ
トＥＱｂがステップ５２０において０に等しくセットさ
れる。

【００２３】当業者に明らかなように、ステップ５１６
及び５２０は、エンコードが完了したかどうかの指示を
与えるように作用し、即ち「１」は更にエンコードが行
われることを指示し、一方「０」はエンコードが終了し
たことを指示する。更に、エンコードは一度に１ビット
づつ行うことができ、更にエンコードが存在するかどう
かを１つおきのビットが指示する。しかしながら、上記
したように、ステップ５０８の判断により、第１ビット
がエンコードされた後に指示が与えられる。この指示が
その後のエンコード動作を示す場合には、ｍが増加され
て２ビットがエンコードされた後に、指示が与えられ
る。この指示がそれに続くエンコード動作を示す場合に
は、ｍが増加されて、３ビットがエンコードされた後に
次の指示が与えられる、等々となる。当業者であれば、
エンコード動作を増加する他の方法が容易に明らかであ
ろう。

【００２４】オフセットフィールド１０６（図１）を圧
縮するのに加えて、文書識別子データ１０４も圧縮され
る。文書識別子データ１０４を圧縮するためのここに示
す好ましい方法は、図８、９、１０及び１１の判断流れ
線図を参照して説明する。図１、３、４及び５を参照し
て上記した文書識別子データ１０４に関してこの方法を
説明したが、図８、９、１０及び１１に示された方法
は、データシーケンスに適用でき、特に、データが比較
的均一に分布されたデータシーケンスに適用できること
が当業者に明らかであろう。

【００２５】図８、９、１０及び１１を参照し、仕切り
エンコード方法に従って文書識別子データをエンコード
する方法を説明する。ステップ６００において、カウン
タｊ及びスタックが初期化される。カウンタｊは、エン
コードされる文書識別子データのビットを識別するのに
使用され、これラビットは、ビット「ａ」のビットアレ
イＤＩｊに記憶される。スタックは、図８、９、１０及
び１１の方法を以下で詳細に述べるように繰り返し実行
するように使用される。文書識別子データ又は他のシー
ケンスが最初に検査され、シーケンス中のエレメント
数、即ち文書識別子データによって識別された文書の数
Ｋ、シーケンス中のエレメントの最小値ＭＩＮ、及びシ
ーケンス中のエレメントの最大数ＭＡＸの記述がなされ
る。その後に、ステップ６０２において、変数Ｋ、ＭＩ
ＮＤＯＣ及びＭＡＸＤＯＣが定義される。最初に、ＭＩ
ＮＤＯＣ及びＭＡＸＤＯＣが各々ＭＩＮ及びＭＡＸに等
しくされる。その後、ＭＩＮＤＯＣとＭＡＸＤＯＣとの
間の中点が、ステップ６０４において、Ｍとして次のよ
うに記述される。Ｍ＝セイリング((ＭＩＮＤＯＣ＋ＭＡＸＤＯＣ）／２）（５）

【００２６】ステップ６０６において、上記範囲内の文
書数が上記範囲に等しいかどうか、即ち文書が互いに離
間されているかどうかを決定する判断がなされ、もしそ
うであれば、方法はステップ７００へと続き、以下に述
べるようにスタックが評価される。その後、ステップ６
０８において、その範囲内の文書の数が１に等しいかの
判断がなされ、もしそうであれば、文書識別子Ｋは、ス
テップ６０７及び６０９においてエンコードの次のｔビ
ットとして使用され、方法はステップ７００へと続く。
上記基準のいずれも真でなければ、ステップ６１０にお
いて、Ｍに等しいか又はそれより大きい文書識別子を有
する文書の数、及びＭより小さい文書識別子を有する文
書の数として各々Ｃ⁺及びＣ^-が定義される。Ｃ⁺及び
Ｃ^-は、ステップ６１２において、Ｃ⁺がＣ^-と「０」
だけ異なる（即ち、Ｃ⁺はＣ^-に等しい）か又は「１」
だけ異なる（即ち、Ｃ⁺はＣ^-より１大きいか１小さ
い）かを決定するための比較が行われ、もしそうであれ
ば、ステップ６１４及び６１６において、エンコードさ
れた識別子ビットが「０」に等しくセットされそしてイ
ンデックス変数ｊが１だけ増加される。しかしながら、
相当数の文書が上記範囲においてＭより大きいか又は小
さい場合には、ステップ６１８において、エンコードさ
れたデータビットが「１」に等しくセットされる。その
後、ステップ６２０において、インデックス変数ｊが増
加される。次いで、ステップ６２２において、Ｃ⁺がＣ
^-より大きいかどうかの判断が行われ、もしそうであれ
ば、エンコードされたデータビットはステップ６２４に
おいて「０」に等しくセットされそしてもしそうでなけ
れば、エンコードされたデータビットはステップ６２６
において「１」に等しくセットされる。その後、インデ
ックス変数ｊはステップ６２８において再び増加され
る。次いで、ステップ６３２が実行され、上位範囲にお
ける文書の数と下位範囲における文書の数との差が表示
され、エンコードされた差は、ステップ６３４におい
て、エンコードされた文書識別子データの次のｔビット
として使用される。その後、インデックス変数ｊがイン
デックス変数ｔだけ増加される。次いで、ステップ６０
２へ復帰し、別の仕切りが識別される。

【００２７】ステップ６１６（図９）へ戻ると、ステッ
プ６１２でＣ⁺がＣ^-と比較されてそれらが０だけ異な
るか１だけ異なるかが判断されそしてその比較結果が肯
定である場合にステップ６１４及び６１６において０の
エンコードビットが加えられた後に、その差の性質を特
徴付けるために追加のデータビットが与えられる。特
に、ステップ６４０においてＣ⁺がＣ^-より大きいかど
うかの判断がなされ、もしそうであれば、ステップ６４
２において、次のエンコードデータビットとして０ビッ
トが与えられ、そしてステップ６４４においてｊが１だ
け増加される。ステップ６４０においてＣ⁺がＣ^-より
大きくなければ、ステップ６４６においてＣ^-がＣ⁺よ
り大きいかどうかの判断がなされる。もしそうであれ
ば、ステップ６４８において、次のエンコードデータビ
ットに１が加えられ、そしてステップ６５０においてイ
ンデックス変数ｊが１だけ増加される。Ｃ⁺がＣ^-に等
しく、即ちステップ６４０及び６４６の両方の判断が否
定であれば、追加のエンコードデータビットは加えられ
ない。当業者に明らかなように、ステップ６１０ないし
６２８及び６４０ないし６５０は、ＭＩＮＤＯＣないし
ＭＡＸＤＯＣの範囲内における文書の分布を特徴付ける
ために設けられたものである。この範囲は値Ｍによって
仕切られ、そしてエンコードデータビットが与えられ、
その第１は、その範囲においてＭより上にＭの下と同数
の文書があるかどうかを識別し、そしてその第２は、そ
の範囲においてＭの上の方がＭの下のよりも多数の文書
が与えられるかどうかを識別する。

【００２８】この方法を繰り返し実行できるように、ス
テップ６１０ないし６２８及び６４０ないし６５０によ
って特徴付けられた範囲が半分に分割され、各半分の範
囲に対してステップ６０４ないし６３６の方法が繰り返
される。スタックは、後で動作するためにセーブされた
その範囲の部分の状態を思い出すのに使用される。従っ
て、スタックの状態は１だけ増加され、そして思い出す
べき範囲の上位部分を定める変数がステップ７０２にお
いてスタックに記憶される。その後、仕切られた範囲の
下位部分に作用する変数がステップ７０４で定められ
る。同様に、ある範囲内の文書の数がステップ６０６に
おいてその範囲に等しいか又はある範囲内の文書の数が
ステップ６０８において１に等しいことが決定された後
に、ステップ７００において、スタックを調べて、上位
部分がエンコードすべきものとして残っているかどうか
判断する。変数ＳＴＡＴＥが０に等しい場合には、上位
部分は残っておらず、この方法は終了となる。或いは
又、変数ＳＴＡＴＥが非ゼロの場合には、作用すべき範
囲がスタックへの最後の入力によって定められ、変数Ｓ
ＴＡＴＥは、ステップ７０６において、１だけ減少され
る。

【００２９】以上、本発明の特定の実施例を説明した
が、本発明の精神及び範囲内で種々の変更がなされ得る
ことが当業者に明らかであろう。従って、本発明は、特
許請求の範囲のみによって限定されるものとする。

【図面の簡単な説明】

【図１】本発明の方法によって記憶されるテキストイン
デックスデータベースの全構造を示す図である。

【図２】本発明の方法によって記憶されるテキストイン
デックスのオフセットフィールドの構造を示す図であ
る。

【図３】テキストインデックスデータを記憶するための
本発明の方法を示す判断フローチャートである。

【図４】テキストインデックスデータを記憶するための
本発明の方法を示す判断フローチャートである。

【図５】テキストインデックスデータを記憶するための
本発明の方法を示す判断フローチャートである。

【図６】図１及び２に示したオフセットフィールドデー
タを記憶する方法の判断フローチャートである。

【図７】図１及び２に示したオフセットフィールドデー
タを記憶する方法の判断フローチャートである。

【図８】図１及び２に示した文書識別子データを記憶す
る方法の判断フローチャートである。

【図９】図１及び２に示した文書識別子データを記憶す
る方法の判断フローチャートである。

【図１０】図１及び２に示した文書識別子データを記憶
する方法の判断フローチャートである。

【図１１】図１及び２に示した文書識別子データを記憶
する方法の判断フローチャートである。

【符号の説明】

１００データキーフィールド１０２データキー識別子１０４文書識別子データ１０６オフセットフィールド２００オフセットデータシーケンス

───────────────────────────────────────────────────── フロントページの続き (72)発明者マックスエルベンソンアメリカ合衆国ワシントン州 98052 レッドモンドノースイーストシックスティファーストコート 15735

Claims

【特許請求の範囲】

【請求項１】複数の文書が記憶されている記憶ボリュ
ームのための内容インデックスを与える形式のインデッ
クスデータを圧縮する方法であって、上記文書の各々は
独特の文書識別子を有しそして上記内容インデックスは
複数のデータキーに対する上記記憶ボリューム内の発生
数と位置とを与えるものである方法において、（ａ）文書識別子のセットと、ターゲットデータキーが
現れる文書の対応セットとを記述する文書識別子データ
を与え、上記ターゲットデータキーは、複数のデータキ
ーのうちの特定の１つであり、そして上記文書識別子の
セットは、最小文書識別子ＭｉｎＤｏｃ及び最大文書識
別子ＭａｘＤｏｃを有する範囲を有しており、上記文書
識別子データを次のサブ段階に基づいて圧縮し、即ち、
(i) 上記文書識別子の範囲を第１及び第２グループに仕
切るための値Ｍを選択し、Ｍより小さい値を有する文書
識別子は第１グループに関連させそしてＭより大きい値
を有する文書識別子は第２グループに関連させ、(ii)第
１グループに関連した文書識別子の数と第２グループに
関連した文書識別子の数との差が１より大きいかどうか
を指示するために文書識別子データを与え、(iii) 第１
グループに関連した文書識別子の数が第２グループに関
連した文書識別子の数より大きいかどうかを指示するた
めに文書識別子データビットを与え、(iv)第１グループ
に関連した文書識別子の数と第２グループに関連した文
書識別子の数との差を指示するために差のデータキーを
与え、(v) ＭａｘＤｏｃ、ＭｉｎＤｏｃ及びＭの新たな
値を選択して新たな仕切りを定め、そして上記段階ａ
(i) ないし(iv)を繰り返し、そして(vi)全ての文書識別
子がエンコードされるまで上記段階ａ(i) ないし(v) を
繰り返し、そして（ｂ）複数のデータキーオフセット値セットを与え、各
データキーオフセット値セットは、特定の文書内におけ
るターゲットデータキーの次々の発生間のデータキーオ
フセットを指示するための複数のデータキーオフセット
値を含むものであり、データキーオフセット値セットの
各データキーオフセット値を次のサブ段階に基づいて圧
縮し、即ち、(i) 所定数Ｎのデータビットを有するベー
スデータキーオフセット値長さを選択し、(ii)データビ
ットにより表示できる残りの指示値であって、Ｎより小
さい値の所定の定数をｒとすれば、Ｎ−ｒのデータビッ
トにより表すことのできる最大数よりも大きい残りの指
示値を選択し、(iii) データキーオフセット値が上記残
りの指示値よりも大きいかどうかを判断し、もしそうで
あれば、段階ｂ(iv)ないし(vii) を実行し、そしてもし
そうでなければ、Ｎ個のデータビットを用いてデータキ
ーオフセット値を表しそして段階ｂ(viii)を実行し、(i
v)データキーオフセット値の下位のＮ−ｒのデータビッ
トを使用しそして上位のｒ個のデータビットをセットし
て残りが存在することを指示し、(v) 残りの上位データ
ビットから１を減算して次のｓビットのエンコードを決
定し、ここでｓは所定の定数であり、そして次のｓビッ
トをエンコードとして使用し、(vi)データキーオフセッ
ト値の全てのデータビットがエンコードされたかどうか
を決定し、もしそうでなければ、段階ｂ(vii) を実行
し、そしてもしそうであれば、データキーオフセット値
が完全にエンコードされたことを指示するマーカーを与
えて、段階ｂ(viii)を実行し、(vii) マーカービットを
加えて更に上位データビットが残っていることを指示
し、ｓを所定値ｔだけ増加し、そして段階ｂ(v) を繰り
返し、そして(viii)全てのオフセットデータキーがエン
コードされるまで段階ｂ(iii) ないし(vii) を繰り返す
ことを特徴とする方法。
【請求項２】ベースデータキーオフセット値長さを選
択する上記の段階ｂ(i) は、更に、最小のあり得べき数
としてＮを選択して、Ｎ＋１のデータビットを有する２
進データ値の最上位ビットにより表された値が平均オフ
セット値より大きくなるようにするサブ段階を備え、上
記平均オフセット値は、記憶媒体の一部分におけるデー
タキーの数を記憶媒体のその一部分におけるターゲット
データキーの発生数で除算したものに等しい請求項１に
記載の方法。
【請求項３】上記残りの指示値は、３^N-2に等しくな
るよう選択される請求項１に記載の方法。
【請求項４】差のデータキーを与える上記段階ａ(iv)
は、（ｃ）第１グループに関連した文書識別子の数と第２グ
ループに関連した文書識別子の数との差の絶対値をとり
そしてその差を２で除算することにより差のデータを与
える、というサブ段階を含む請求項１に記載の方法。
【請求項５】差のデータを与える上記段階ｃは、更
に、（ｄ）差のデータから１を減算しそして差のデータの下
位ａビットを差のデータキーの第１のエンコードされた
ビットとして使用し、（ｅ）差のデータの全てのデータビットがエンコードさ
れたかどうかを決定しそしてもしそうでなければ、段階
ｆを実行し、もしそうであれば、差のデータキーが完了
したことを指示するマーカービットを追加し、そして（ｆ）付加的な上位データビットが残っていることを指
示するマーカービットを追加し、ａを所定値ｂだけ増加
し、そして上記段階ｄを繰り返す、というサブ段階を含
む請求項４に記載の方法。
【請求項６】請求項６の記載を除く請求項５に記載の
方法。
【請求項７】複数の文書が記憶されている記憶ボリュ
ームのための内容インデックスを与える形式のインデッ
クスデータ用のデータキーフィールドを形成する方法で
あって、上記文書の各々は独特の文書識別子を有しそし
て複数のデータキーを含み、上記データキーフィールド
は、ターゲットデータキーに対する上記記憶ボリューム
内の発生数と位置とを与えるものである方法において、（ａ）上記データキーフィールドの目的であるターゲッ
トデータキーを識別するためのデータキー識別子を与
え、（ｂ）複数の文書識別子を含む文書データセットを定義
し、各文書識別子は、ターゲットキーが配置された複数
のターゲット文書を記述するものであり、（ｃ）第１の所定の圧縮機構に基づいて上記文書データ
セットを文書識別子データに圧縮して、圧縮解除時にそ
の文書データセットが回復されるようにし、（ｄ）複数のカウント値を与え、各カウント値は、上記
文書データセットにおける複数の文書識別子の各々に関
連されていて、その各々の文書識別子により識別された
文書におけるターゲットデータキーの発生数を識別する
ものであり、そして（ｅ）複数のデータキーオフセット値セットを与え、各
データキーオフセット値セットは上記複数のカウント値
の各々に関連され、そして各データキーオフセット値セ
ットは、その各々のカウント値によって識別されたター
ゲットデータキーの発生数に数値が等しい複数のデータ
オフセット値を含み、各データキーオフセット値は、そ
の各データキーオフセット値セットに関連したカウント
値に関連した文書識別子によって識別された文書におけ
るターゲットデータキーの位置を識別するものである、
という段階を備えたことを特徴とする方法。
【請求項８】文書データセットを文書識別子データに
圧縮する上記の段階（ｃ）は、（ｆ）最小文書識別子及び最大文書識別子を範囲の終了
点として選択することによって文書識別子の範囲を定義
し、（ｇ）上記文書識別子の範囲の終了点間の中点を選択し
て、文書識別子の範囲を第１グループと第２グループに
仕切り、（ｈ）上記第１グループと第２グループとの間の文書の
分布を特徴付けるための文書識別子データを与え、この
文書識別子データは上記範囲において文書識別子の各々
を識別するものである、というサブ段階を備え請求項７
に記載の方法。
【請求項９】（ｉ）上記第１又は第２グループがゼロ
文書を含むか又は上記範囲において各段階ごとに文書を
含むかを決定し、そしてもしそうであれば、段階（ｋ）
を実行し、もしそうでなければ、段階（ｊ）を実行し、（ｊ）文書識別子の範囲を、第１グループにより定めら
れた範囲となるように再定義することにより段階（ｆ）
ないし（ｉ）を繰り返し、（ｋ）文書識別子の範囲を、第２グループにより定めら
れた範囲となるように再定義することにより段階（ｆ）
ないし（ｉ）を繰り返し、そして（ｌ）全ての文書識別子がエンコードされるまで段階
（ｆ）ないし（ｋ）を繰り返す、というサブ段階を更に
備えた請求項８に記載の方法。
【請求項１０】（ｍ）複数のデータキーオフセット値
を圧縮する段階を更に備えた請求項７に記載の方法。
【請求項１１】複数のデータキーオフセット値を圧縮
する上記段階（ｍ）は、更に、（ｎ）データビットＮのベース数を選択し、（ｏ）データキーオフセット値がエンコードされたこと
を指示するためにデータビットのベース数から最上位ビ
ットの一部分ｒを選択し、そして残りの最下位データビ
ットｑをベース数として識別して、ｒ＋ｑ＝Ｎとし、（ｐ）ｒ個の最上位ビットをセットせずにＮビットでデ
ータキーオフセット値を表示できるかどうかを決定し、
もしそうであれば、データキーオフセット値をＮビット
で表示し、もしそうでなければ、Ｎデータビットのｒ個
の最上位ビットをセットしそしてデータキーオフセット
値のｑ個の最下位ビットを表示すると共にデータキーオ
フセット値の残りの最上位ビットをエンコードする、と
いうサブ段階を備えた請求項１０に記載の方法。
【請求項１２】データビットＮのベース数を選択する
上記段階（ｎ）は、（ｑ）エンコードされるべき複数のデータキーオフセッ
ト値の平均値を決定しそしてその平均値を表すのに必要
なビット数としてＮを選択する、というサブ段階を備え
た請求項１１に記載の方法。
【請求項１３】複数のデータ値をエンコードする方法
において、（ａ）最小データ値と最大データ値を範囲の終了点とし
て選択することにより複数のデータ値の範囲を定め、（ｂ）上記複数のデータ値の範囲の終了点間の中点を選
択して、複数のデータ値の範囲を第１グループと第２グ
ループに仕切り、（ｃ）上記第１グループと第２グループとの間のデータ
値の分布を特徴付けるためのエンコードされたデータを
与え、このエンコードされたデータは上記範囲において
データ値の各々を識別するものである、という段階を備
えたことを特徴とする方法。
【請求項１４】（ｄ）上記第１又は第２グループがゼ
ロデータ値を含むか又は上記範囲内で各段階ごとにデー
タ値を含むかを決定し、もしそうならば、段階（ｆ）を
実行し、もしそうでなければ、段階（ｅ）を実行し、（ｅ）文書識別子の範囲を第１グループにより定められ
た範囲となるように再定義することにより段階（ｃ）な
いし（ｄ）を繰り返し、（ｆ）文書識別子の範囲を第２グループにより定められ
た範囲となるように再定義することにより段階（ｃ）な
いし（ｅ）を繰り返し、そして（ｇ）全ての文書識別子がエンコードされるまで段階
（ｃ）ないし（ｆ）を繰り返す、というサブ段階を更に
備えた請求項１３に記載の方法。
【請求項１５】複数のデータ値をエンコードする方法
において、（ａ）データビットＮのベース数を選択し、（ｂ）データ値がエンコードされたことを指示するため
にデータビットのベース数から最上位ビットの一部分ｒ
を選択し、そして残りの最下位データビットｑをベース
数として識別して、ｒ＋ｑ＝Ｎとし、（ｃ）ｒ個の最上位ビットをセットせずにＮビットでデ
ータ値を表示できるかどうかを決定し、もしそうであれ
ば、データ値をＮビットで表示し、もしそうでなけれ
ば、Ｎベースビットのｒ個の最上位ビットをセットしそ
してデータ値のｑ個の最下位ビットを表示すると共にデ
ータ値の残りの最上位ビットをエンコードする、という
段階を備えたことを特徴とする方法。
【請求項１６】データビットＮのベース数を選択する
上記段階（ａ）は、（ｄ）エンコードされるべき複数のデータ値の平均値を
決定しそしてその平均値を表すのに必要なビット数とし
てＮを選択する、というサブ段階を備えた請求項１５に
記載の方法。
【請求項１７】データビットＮのベース数を選択する
上記段階（ａ）は、２^N＞（最大−最小）／ｋとなるよ
うにＮを選択するサブ段階を備え、ここで、ｋはデータ
値の数を表し、最大は最大データ値を表しそして最小は
最小データ値を表す請求項１５に記載の方法。
【請求項１８】ｒ個の最上位ビットをセットせずにＮ
ビットでデータ値を表示できるかどうかを決定する上記
段階（ｃ）は、データ値が３（２^N-r）未満であるかど
うかを決定するサブステップを含む請求項１５に記載の
方法。