JP2008117407A

JP2008117407A - 有損失インデックス圧縮装置

Info

Publication number: JP2008117407A
Application number: JP2007303708A
Authority: JP
Inventors: David Carmel; カーメル、デイビッド; Doron Cohen; コーヘン、ドロン; Ronald Fagin; フェーギン、ロナルド; Eitan Farchi; ファーチ、イータン; Michael Herscovici; ハースコビッチ、マイケル; Yoelle Maarek; マーレック、ヨエリ; Aya Soffer; ソッファ、アヤ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-12-29
Filing date: 2007-11-22
Publication date: 2008-05-22
Anticipated expiration: 2021-12-19
Also published as: CN1191540C; EP1346296B1; EP1346296A4; WO2002054289A1; JP2004525442A; JP4080878B2; EP1346296A1; CN1483169A; JP4808697B2; CA2432357A1

Abstract

【課題】テキスト・ドキュメントのコーパスのインデックスをプルーニングする方法を実行するための装置を提供する。
【解決手段】この方法は、インデックスにおけるポスティングをランク付けするステップ（５０）及びそのランク付けにおいて所与のレベルよりも低いポスティングをインデックスからプルーニングするステップ（４８）を含む。所与のレベルは、ユーザから受け取ったパラメータ及びランキングに基づいて、プルーニング前の逆インデックスを使用して戻される結果の上位と、プルーニング後の逆インデックスを使用して戻される結果の上位とが類似するように設定される。
【選択図】図２

Description

本発明は、一般的に云えば、大量のテキスト・データをコンピュータ・サーチするための方法及びシステムに関し、特に、サーチ・インデックスの作成に関するものである。

ウェブ及びデスクトップ・アプリケーションでは、高速且つ正確なテキスト・サーチ・エンジンが広範囲に使用されている。Palm Pilot（商標）のような新生のハンドヘルド装置は、普通サイズ・ドキュメントの集合体全体がクイック・リファレンス及びブラウジングを目的としてその装置に記憶されることを可能にするに十分な記憶容量を持っている。これらの装置に拡張インデックス・ベースのサーチ機能を具備させることは望ましいが、ハンドヘルド装置における記憶装置はむしろ制限を受ける。

ほとんどの先進的な情報検索（ＩＲ）アプリケーションは、所与のドキュメント集合体における高品質のサーチ・サービスをサポートするために逆インデックスを作っている。そのようなシステムの１つの例は、Guru サーチエンジンである。それは、１９８９年発行の Proceedings of the Twelfth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 誌の１９８−２０６ページにおける "Full text indexing based on lexical relations, an application: Software libraries" と題した Maarek 及び Smadja 氏による論文に開示されている（非特許文献１参照）。ドキュメント集合体における各ドキュメントは、そのドキュメントの内容に基づいてインデキシング・ユニット又はターム（term）によって分析及び表示される。タームは、ワード、一対の密接に関連したワード（字句類似性 - lexical affinities）、又はフレーズであってもよい。ドキュメントにおける各タームは、関連のポスティング・リスト（posting list）と共にインデックスに記憶される。

ポスティング・リストはポスティング（postings）を含み、各ポスティングは、そのタームを含むドキュメントの識別子、そのドキュメントにおけるそのタームのスコア（score）、及び、発生の回数及び発生のオフセットのようなドキュメントにおけるそのタームの発生に関する何らかの付加的情報を含む。多くの情報検索システムにおいて使用される典型的なスコア・モデルが、"An Introduction to Modern Information Retrieval" と題した Salton 及び McGill 著（１９８３年、McGraw-Hill ＳＨＡ発行）の文献に開示された tf-idf 公式である（非特許文献２参照）。ドキュメント d に対するターム t のスコアは、d における t のターム頻度(tf)、ドキュメント d の長さ、及び集合体において t を含むドキュメントの数の逆数（idf）に依存する。

例示的な tf-idf 公式は、Proceedings of the Fourth Text Retrieval Conference(TRE-4),（Gaithersberg, Maryland, November 1995）誌の２５−４８ページにおける "New retreival approaches using SMART:TREC 4" と題した Chris Buckley 氏他による論文に開示されている（非特許文献３参照）。この公式は、ターム t に対するドキュメント d のスコア A(t,d) を次のように提供する。

但し、avg_tf はドキュメント d における平均的なターム頻度であり、N はその集合体におけるドキュメントの数であり、N_t は、ターム t を含むドキュメントの数であり、|d| はドキュメントの d の長さである。|d| は、d における（唯一の）タームの数の平方根によって近似化される。

サーチ時、複数のタームがユーザの照会から取り出され、それらのそれぞれのポスティング・リストが逆インデックスから検索される。ドキュメント・ポスティング・スコアは、同じドキュメントに関連したポスティングのスコアを合計することによりドキュメント・スコアを形成するために累算される。このプロセスの終了時に、ドキュメントがそれらのスコアによってソートされ、トップ・スコアを有するドキュメントが戻される。

大きなドキュメント集合体をインデックス化すると、その結果として維持することが難しい巨大なインデックス・ファイルが生じる。インデックス圧縮の分野では、多くの研究がなされ、その結果、より小型のインデックス・ファイルが生じた。この技術分野には、２つの相補的な方法が存在する。１つの方法は、データ構造レベルにおける圧縮、即ち、ポスティング・リストのよりコンパクトな表記を得ようとすると共にすべてのインデックス・データを保存する圧縮である。別の方法は、ストップ・ワード省略（stop-word omission）のようなタームを削除又は結合することによって及び潜在的意味インデキシング（Latent Semantic Indexing - LSI）によってインデックスをプルーニング（pruning）することである。この種のインデックス・プルーニングの主たる目的は、サーチ精度を下げる傾向のあるインデックス・タームから「ノイズ」を除去することによってインデキシング・システムにおける「ノイズ」を減少させることであるが、インデックス・サイズを縮小するというそれの実用的効果は、インデックス圧縮という主題に大いに関連している。
Ｍａａｒｅｋ及びSmadja、「Full text indexing based on lexical relations, an application: Software libraries」、Proceedings of the Twelfth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval、1989年、198-206頁 Salton及びMcGill、「An Introduction to Modern Information Retrieval」、McGraw-Hill ＳＨＡ、1983年 Chris Buckley、外、「New retreival approaches using SMART:TREC 4」、Proceedings of the Fourth Text Retrieval Conference(TRE-4)、1995年、25-48頁「Overview of the Seventh Text Retrieval Conference(TREC」、Proceedings of the Ｓｅｖｅｎｔｈ Text Retrieval Conference(TRE-７)、National Institute of Standards and Technology、1999年 Witten、外、「Managing Gigabytes」、Morgan Kaufman Publishers、1999年 Deerweester、外、「Indexing by Latent Semantic Analysis」、Journal of the American Society for Information Science、41巻、1号、1990年、391-407頁 Persin、「Document Filtering for Fast Ranking」、Proceeedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval、1994年、339-348頁

ストップ・ワード省略の場合、ほとんどのドキュメントにおいて必然的に生じるというほど頻繁にその言語において生じるワードを見つけるために、言語統計が使用される。その言語では非常に頻繁にあるワード（ストップ・ワード）は、逆インデックスを形成するときには無視される。"the" 及び "is" のようなワードは、検索タスクには寄与しない。Proceedings of the Seventh Text Retrieval Conference(TREC-7)(National Institute of Standards and Technology, 1999)誌の "Overview of the Seventh Text Retrieval Conference(TREC)" において発表されたＴＲＥＣ集合体は、一般的なテキスト・ドキュメントにおけるワードの頻度を列挙している（非特許文献４参照）。ＴＲＥＣ集合体における１３５個の最も頻繁に生じるワードのセットを無視することがポスティングの約２５％を除去するということがわかった（１９９９年発行の米国カリフォルニア州サンフランシスコの Morgan Kaufman Publishers 社の "Managing Gigabytes" と題した Witten 氏他による文献（非特許文献５）参照）。

潜在的意味インデキシング（ＬＳＩ）は、例えば、Journal of the American Society for Information Science 誌の Vol.41, No.1, (1990), pp.391-407 における "Indexing by Latent Semantic Analysis" と題した Deerweester 氏他による論文に開示されている（非特許文献６参照）。ＬＳＩは、特異値分解（singular-value decomposition - SVD）と呼ばれる統計的手法を使用して、逆インデックスを３つのマトリクスの積として表す。この表記法は、最も重要なタームを保持すると共に他のすべてのタームを除去することによって、インデックスにおけるタームの数を減少させることを可能にする。ＬＳＩ及びストップ・ワード省略の両方とも、タームの細分化（granularity）時に動作する。換言すれば、それらは、単に、インデックスからターム全体をプルーニングすることを可能にするものであり、従って、一旦プルーニングされると、最早、そのタームはそのインデックスにおいて全く現れない。タームがプルーニングされるとき、そのポスティング・リスト全体がインデックスから除去される。

ダイナミック・プルーニング技法は、インデックスが既に作成されていた場合、或るターム又はドキュメント・ポスティングが、累積されたドキュメント・スコアに加える価値があるものであるかどうか、及びランキング・プロセスが継続すべきか又は停止すべきかを、ドキュメント・ランク付けプロセス中に決定する。このソートの例示的技法が、Proceeedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval(Dublin, Ireland,July 1994, Special Issue of the SIGIR Forum)誌の３３９−３４８ページにおける "Document Filtering for Fast Ranking" と題した Persin 氏による論文に開示されている（非特許文献７参照）。そのダイナミック技法は、所与の照会に対して適用され、従って、照会時間を減少させる。ダイナミック技法は、それらが既に記憶済みのインデックスに適用されるので、インデックス・サイズには影響しない。

実施例では、集合体におけるドキュメントにタームを関連付ける逆インデックスが、その分野における既知のシステムにおけるように、ターム・レベルの細分化持ではなく、ドキュメント・ポスティング・レベルの細分化持にプルーニングされる。

望ましくは、ドキュメント・ポスティングに対するメトリクス（metrics）が決定され、それが逆インデックスから除去すべきポスティングを選択するために適用される。メトリクスは、ユーザが圧縮された逆インデックスを所与の照会持にサーチするとき、戻されたドキュメントのリストが、プルーニングされてないインデックスにおける同じ照会によって戻された最高ランクのドキュメントのリストと実質的に同じになるように適用される。本発明のプルーニング方法は、ポスティング・リストにデータを記憶するためのコンパクトなデータ構造及び表記法を使用することによってインデックスを圧縮するというその分野で知られた方法とは反対に、或るドキュメント・ポスティングがインデックスから除去されるので、損失的である。損失的方法及び非損失的方法は、相互に補足的である。損失的態様でインデックスをプルーニングした後、そのインデックスは、更に、非損失的態様で圧縮可能であり、それによってそれらの方法の１つを単独で使用した場合に可能なサイズよりも小さいインデックス・サイズを得ることができる。

従って、本発明の望ましい実施例によれば、テキスト・ドキュメントのコーパス（corpus）をインデックス化するための方法を遂行する装置が提供される。その方法は、
ドキュメントに現れるタームの逆インデックスであって、ドキュメントにおけるタームのポスティングを含むインデックスを作成するステップと、
インデックスにおけるポスティングをランク付けするステップと、
ランク付けにおいて所与のレベルよりも低いポスティングをインデックスからプルーニングするステップと、
を含む。

ポスティングのランク付けは、それらタームの少なくとも幾つかの各々に対する個別のランキングを別々に決定することを含み得るし、インデックスのプルーニングは、それらタームの少なくとも幾つかの各々に対する個別のランキングをプルーニングすることを含み得る。

望ましくは、インデックスのプルーニングは、ユーザから少なくとも１つのパラメータを受け取ること、及びそのパラメータ及び個別のインデックス・ランキングに基づいて所与のレベルを設定することを含む。

更に、少なくとも１つのパラメータは、望ましくは、インデックスから検索すべきドキュメントの数ｋ及び１つの照会において許容されるターム数ｒを含み、所与のレベルの設定は、ランキングにおけるトップからｋにランク付けされたそれらドキュメントの１つのスコアに基づいてそのレベルを設定することを含む。

１つの実施例によれば、所与のレベルの設定は、望ましくは、ドキュメントの１つのスコアをｒによって除することを含む。

別の実施例では、少なくとも１つのパラメータは、ランキングから検索すべきドキュメントの部分の数δ、及び１つの照会において許容されるタームの数ｒを含み、所与のレベルの設定は、ランキングにおけるドキュメントのうちの１番目のドキュメントのスコア、並びにδ及びｒに基づいてレベルを設定することを含む。

望ましくは、所与のレベルの設定は、１番目のドキュメントのスコアをδによって乗じること及びｒによって除することを含む。

更に別の実施例では、インデックスのプルーニングは、ドキュメント・ポスティングに関して、サーチ・スペースにおける照会の統計分布に関する情報に基づいて、プルーニングすべきポスティングを選択することを含む。

インデックスのプルーニングは、ユーザから少なくとも１つのパラメータを受け取ること、及びそのパラメータ及びインデックス・ランキングに基づいて所与のレベルを設定することを含み得る。

少なくとも１つのパラメータは、プルーニングされた逆インデックスにおいて残すべきスコアの数Ｍを含み得る。

望ましくは、ポスティングの選択は、タームのうちの少なくとも幾つかの確率を決定すること及びタームのうちの少なくとも幾つかの各々に対するポスティング・スコアをタームの確率によって乗じることを含み、インデックスのランク付けは、乗じられたポスティング・スコアによってポスティングをすべてランク付けすることを含み、所与のレベルは、ランキングのトップからのＭのドキュメントのスコアを含む。

望ましい実施例では、インデックスの作成は、大きなメモリ容量を有するコンピュータにおいてそのインデックスを作成すること、及び限定されたメモリ容量を有する装置にプルーニング後のインデックスを転送することを含む。
望ましくは、限定されたメモリ容量の装置は、ハンドヘルド・コンピュータ装置を含む。

所与のタームに対してプルーニングすべきポスティングの適切な選択によって、ユーザの観点からインデックスのサーチ精度に大きな影響を与えることなく、インデックスのサイズを実質的に減少させることができる。

図１は、本発明の望ましい実施例に従って、圧縮されたサーチ・インデックスを作成するためのシステムの概略図である。ユーザ１０は、インデックス処理装置１２を使用してドキュメント・アーカイブ１４をアクセスする。ドキュメント・アーカイブ１４から検索されたドキュメントは、装置１２における既存のドキュメント・アーカイブと結合可能である。装置１２は、詳細に後述される方法を使用して、アーカイブの圧縮された逆インデックス２２を作成する。一般的に、圧縮された逆インデックス又はアーカイブ２２は、コンピュータ装置２４に転送される。装置２４は、大量のインデックスを記憶するためのそれの能力が限定されていることによって、装置１２とは区別される。望ましくは、インデックスを作成するために使用されるドキュメント・アーカイブも同様に装置２４に転送される。そこで、ユーザは、装置２４を使用して照会をドキュメント・アーカイブの形に公式化し、装置２４の限定された記憶容量にもかかわらず適正なドキュメントのリストを検索する。

一般に、装置１２は、デスクトップ・コンピュータ又はサーバを含み、一方、装置２４は、図示のように、パーム装置又はハンドヘルド・コンピュータのような携帯型パーベイシブ（pervasive）装置である。しかし、代替えとして、装置２４は、デスクトップ・コンピュータ又は他のコンピュータ・ワークステーションを含み得る。

図２は、本発明の望ましい実施例に従って、圧縮された逆インデックス２２を作成するための方法を概略的に示すフローチャートである。この方法のステップは、望ましくは、装置１２上で走る適当なソフトウェアによって実行される。そのソフトウェアは、ネットワークを介してダウンロードすることによって電子的形式で装置１２に供給可能であり、或いは、別の方法として、ＣＤ−ＲＯＭ又は不揮発性メモリのような実体的な媒体によって供給可能である。

ユーザ１０は、ドキュメント追加ステップ４４において、ドキュメント・アーカイブ１４を作成するか、又は既存のアーカイブにドキュメントを追加する。インデックス圧縮ソフトウェアは、その分野では知られているように、各ドキュメントからタームを抽出すること、各ドキュメントにおける各タームに対してドキュメント・ポスティングを作成すること、及びそのドキュメント・ポスティングをインデックスにおいてリストすることによって、インデックス作成ステップ４６において初期インデックスＡを作成する。

各ドキュメント・ポスティングは、前述のように、それと関連したスコアを有する。スコアを計算する種々の方法がその分野では知られており、選択された方法は、本発明にとって本質的なものではない。むしろ、t が d 内にない場合には A(t,d) = 0、そうでない場合には、A(t,d) > 0 であるということで十分である。

そこで、ユーザは、パラメータ入力ステップ４８において、プルーニング・パラメータを入力する。それらのパラメータは、インデックス・ランク付けステップ５０において、インデックスＡにおけるそれらポスティングのランク付けのために使用される。

プルーニング・パラメータの条件を満足させるそれらポスティングのランキングにおけるカットオフ・レベルが決定される。所与のタームに対するそのカットオフ・レベルよりも低くランク付けされたすべてのポスティングがインデックスＡから削除される。この方法では、インデックスＡ^*と呼ばれる圧縮されたインデックスがポスティング除去ステップ５２において作成される。このインデックスは、前述の方法のようなその分野において知られたターム・プルーニング及びデータ構造圧縮の方法によって、サイズを更に減少し得る。インデックスＡ^*という圧縮バージョンは、インデックス記憶ステップ５４において、圧縮済みインデックスとして記憶される。

圧縮済みインデックスＡ^*は、ユーザの観点からは、オリジナル・インデックスＡと同じである。ユーザがインデックスＡ又はＡ^*を照会するとき、ユーザは、タームのポスティング・リストに基づいて、照会タームに対する関連に従ってランク付けされるドキュメントのリストを受け取る。ステップ４８におけるプルーニング・パラメータの適正な選択並びにステップ５０及び５２におけるそれらパラメータの適用によって、照会に応答してＡ^*に戻されたドキュメントのリスト及びそのリストにおけるドキュメントの順序は、Ａによって戻されたそのリストのトップと実質的に同じになるであろう。これは、一般に、ユーザにとって興味のあるそのリストの唯一の部分である。この意味で、本発明の方法は、イメージ及びサウンドの有損失圧縮の方法に類似している。即ち、その有損失圧縮では、ほとんどの場合ユーザにとって些細なことである詳細事項を犠牲にすることによって、データ量の実質的な減少が得られる。

入力パラメータを指定し（ステップ４８）、それらのパラメータを応用する（ステップ５０及び５２）ための３つの望ましい方法を次に説明する。最初の２つの方法は、照会に応答して、プルーニングされたインデックスにより戻されるトップ・アンサー（top-answer）をオリジナル・インデックスによって戻されるトップ・アンサーにできるだけ近くなるよう維持する一方で、できるだけ多くのドキュメント・ポスティングを削除する。その近さは、プルーニングされたインデックスにより戻されるトップ結果のセットとオリジナル・インデックスにより戻されるトップ結果のセットとの類似性によって決定されるトップ・アンサー・メトリックを使用して測定される。

第３の方法である独特のドキュメント・ポスティング・プルーニング方法は、予想されたエラーをできるだけ少なく保ちながら、所与のインデックス・サイズを得るために必要とするほど多くのドキュメント・ポスティングを除去する。その予想されるエラーは、各照会に対してオリジナル・インデックスにより戻されたドキュメント・スコア及び圧縮済みインデックスによって戻されたドキュメント・スコアの間の差を可能な照会すべてにわたって合計したものとして定義されるメトリックを使って測定される。

圧縮済みインデックスは、任意の所与の照会に対して、オリジナル・インデックスの「トップ・アンサー」と同じ「トップ・アンサー」を照会に戻す場合、オリジナル・インデックスと同じであるとして定義される。本発明の２つの望ましい実施例は、「トップ・アンサー」に対する次のような２つの可能な測定から抽出する。
（１）「ｋ-トップ・アンサー」方法は、１つの照会に対して最高のスコアを有するｋ個のドキュメントとして「トップ・アンサー」を定義する（ここでＫはステップ４８における入力である）。任意の照会における最大の許容可能なターム数としてｒを定義する。各タームｔに対して、値 A(t,d₀),A(t,d₁),.....が、ステップ５０において、それらの絶対値に従ってランク付けされる。z_t をランキングにおけるｋ番目のタームの絶対値であると仮定する。そこで、ステップ５２において、A(t,d) < Z_t/r である場合、A^*(t,d) は 0 にセットされる。しかし、そうでない場合、A^*(t,d) = A(t,d) である。A^*(t,d)=0 の場合のポスティングは、勿論、インデックスから除去される。
（２）「δ-トップ・アンサー」方法は、所与の照会に対してスコアリング関数のトップ・スコアからの距離における閾値の点から「トップ・アンサー」を定義する。この場合、δは、ステップ４８において入力される。例えば、δ＝０.９に対して、トップ・スコアの９０％よりも高いスコアを有するいずれのドキュメントも、トップ・アンサーと見なされる。ここでも、ステップ５０において、A(t,d) の値がランク付けされる。ステップ５２において、各タームｔに対し、最大値 max(A(t,d)) が検出される。Z_t= δ* max(A(t,d)) あると仮定する。そこで、他の点では、A(t,d) < Z_t/r である場合、A^*(t,d) = 0 であり、そうでない場合、A^*(t,d) = A(t,d) である。A^*(t,d) = 0 の場合のポスティングは、勿論、インデックスから除去される。

図３は、上記の第３の独特なポスティング・プルーニング方法に対するプルーニング・パラメータ入力ステップ４８を拡張したものである。外部プロセスが、プルーニング・パラメータ入力ステップ５６におけるシステムへの分布入力時に、すべての可能な照会セットの確率分布 Dist_q を決定する。Dist_q は、例えば、言語におけるタームの分布から、又はサーチ・エンジンの照会ログ・ファイルから、又は他の適当な方法から得ることができる。インデックス Dist_t におけるタームの分布は、決定ステップ６０において、照会及び Dist_q から誘導される。そのタームの分布は、サーチ・エンジンに実行依頼された照会にタームｔが出現する確率を反映している。タームが出現する確率は、Pr(t) = Σ_{q in Q, t in q}Pr(q) として照会確率によって表すことができる。但し、Ｑは、すべての可能な照会のセットである。ユーザは、ステップ５８において、インデックス A^* に維持するポスティングの所望の数Ｍを入力する。しかる後、インデックス圧縮ランクの第３の望ましい実施例では、ステップ５０において、Ａの値がランク付けられ、そして、ステップ５２において、次のように、 A^* が作成される。先ず、A 及び Dist_tに基づいて、A'(t,d) = Pr(t)A(t,d) スコアリング・インデックス A' が作成される。A' におけるすべてのスコアがランク付けされ、z よりも大きい、Ｍ個のスコアが A' に存在するように Z が決定される。この方法では、z は、前述の第１の２つの方法におけるようにタームｔ単位ではなく、A' にわたってグローバル・パラメータであることに留意されたい。そこで、A'(t,d) < z である場合、A^*(t,d) = 0 であり、そうでない場合、A^*(t,d) = A(t,d) である。

約１３２,０００個のドキュメントを含む、ＴＲＥＣにおいて提供されたロサンゼルス・タイムスのデータを使用して、これら３つの方法が経験的なデータに関してテストされた。その方法のパフォーマンスを改善するために、オリジナル・インデックスが修正された。各タームに関して、そのタームに対するすべてのドキュメント・ポスティングにおける最小スコアが他のスコアすべてから差し引かれた。前述の方法に対するこの修正の後、トップ-ｋプルーニング方法は、１ターム当たり１０個のスコア及び１０個以下のタームの照会を使用して、サーチ結果を大きく低下させることなく、ドキュメント・ポスティングの２５％までのプルーニングを可能にした。トップ-δプルーニング方法は、１ターム当たりトップ７０％のスコア及び１０個以下のタームの照会を使用して、サーチ結果を大きく低下させることなく、ドキュメント・ポスティングの２５％までのプルーニングを可能にした。トップ-ｋ及びトップ-δのプルーニング方法の両方とも、選択されたドキュメント・アーカイブに対する一様なポスティング・プルーニング方法よりも良好に遂行された。

工業的応用：本発明は、例えば、ドキュメントに出現するタームの逆インデックスを作成するように構成されたインデックス・プロセッサを含むテキスト・ドキュメントのコーパスをインデックス化するための装置を提供することによって、産業の開発を可能にする。なお、そのインデックスは、ドキュメントにおけるタームのポスティングを含み、プロセッサは、更に、インデックスにおけるポスティングのランキングを作成するように、及びランキングにおける所与のレベル以下のポスティングをそのインデックスからプルーニングするように構成される。

本発明は、更に、望ましい実施例によれば、プログラム命令が記憶されるコンピュータ可読媒体を含み、テキスト・ドキュメントのコーパスをインデックス化するためのコンピュータ・ソフトウェア製品を提供することによって使用可能である。なお、そのプログラム命令は、コンピュータによって読み取られるとき、ドキュメントに出現するタームの逆インデックスをコンピュータに作成させ、そのインデックスは、ドキュメントにおけるタームのポスティングを含み、それらの命令は、更に、そのインデックスにおいてポスティングをコンピュータにランク付けさせ、しかも、ランキングにおける所与のレベル以下のポスティングをインデックスからコンピュータにプルーニングする。

上述の望ましい実施例は例として示されたこと、及び本発明が、詳細に示された事項及び記述された事項に限定されないことは明らかであろう。むしろ、本発明の範囲は、上述の種々の特徴の組み合わせ、及び上記説明を読むことにより当業者が思いつき且つ従来技術では開示されてないそれらの種々の変更及び修正も含むものである。

本発明の望ましい実施例に従って、サーチ・インデックスを作成するためのシステムの概略図である。本発明の望ましい実施例に従って、インデックスを圧縮するための方法を概略的に示すフローチャートである。本発明の望ましい実施例に従って、図２の方法において使用されるプルーニング・パラメータを入力するための技法の詳細を概略的に示すフローチャートである。

符号の説明

１０ユーザ
１２インデックス処理装置
１４ドキュメント・アーカイブ
２２圧縮されたアーカイブ
２４コンピュータ装置

Claims

テキスト・ドキュメントのコーパスをインデックス化するための装置であって、
前記ドキュメントに現れるタームの逆インデックスを作成するように構成されたインデックス・プロセッサと、
少なくとも１つのパラメータを受け取るためのユーザ・インターフェースとを含み、
前記逆インデックスは、各タームについて、当該タームを含むドキュメントの識別子及び当該ドキュメントにおける前記タームのスコアを含むポスティングのリストを含み、
前記プロセッサは、前記タームの少なくともいくつかの各々について、ポスティングのランキングを決定し、前記ランキングにおける所与のレベルよりも低い前記ポスティングを前記インデックスからプルーニングし、
前記所与のレベルは、前記パラメータ及び前記ランキングに基づいて、プルーニング前の前記逆インデックスを使用して戻される照会結果の上位と、プルーニング後の前記逆インデックスを使用して戻される照会結果の上位とが類似するように設定される、
装置。
前記少なくとも１つのパラメータは、前記逆インデックスから検索すべきドキュメントの数ｋ及び１つの照会において許容されるタームの数ｒを含み、
前記プロセッサは、前記ランキングにおけるトップからｋにランク付けされた前記ドキュメントの１つの前記スコアに基づいて前記所与のレベルを設定するように構成される、請求項１に記載の装置。
前記プロセッサは、前記ドキュメントの１つの前記スコアをｒによって除することによって前記所与のレベルを設定するように構成される、請求項２に記載の装置。
前記少なくとも１つのパラメータは、前記ランキングから検索すべきドキュメントの数δ及び１つの照会において許容されるタームの数ｒを含み、
前記プロセッサは、前記ランキングにおけるドキュメントのうちの１番目のドキュメントのスコア、並びにδ及びｒに基づいて前記所与のレベルを設定するように構成される、請求項１に記載の装置。
前記プロセッサは、前記１番目のドキュメントのスコアをδによって乗じ、かつｒによって除して前記所与のレベルを設定するよう構成される、請求項４に記載の装置。