JP4080878B2 - 有損失インデックス圧縮装置 - Google Patents

有損失インデックス圧縮装置 Download PDF

Info

Publication number
JP4080878B2
JP4080878B2 JP2002555320A JP2002555320A JP4080878B2 JP 4080878 B2 JP4080878 B2 JP 4080878B2 JP 2002555320 A JP2002555320 A JP 2002555320A JP 2002555320 A JP2002555320 A JP 2002555320A JP 4080878 B2 JP4080878 B2 JP 4080878B2
Authority
JP
Japan
Prior art keywords
index
document
term
posting
ranking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002555320A
Other languages
English (en)
Other versions
JP2004525442A (ja
Inventor
カーメル、デイビッド
コーヘン、ドロン
フェーギン、ロナルド
ファーチ、イータン
ハースコビッチ、マイケル
マーレック、ヨエリ
ソッファ、アヤ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2004525442A publication Critical patent/JP2004525442A/ja
Application granted granted Critical
Publication of JP4080878B2 publication Critical patent/JP4080878B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists

Description

【0001】
本発明は、一般的に云えば、大量のテキスト・データをコンピュータ・サーチするための方法及びシステムに関し、特に、サーチ・インデックスの作成に関するものである。
【0002】
ウェブ及びデスクトップ・アプリケーションでは、高速且つ正確なテキスト・サーチ・エンジンが広範囲に使用されている。Palm Pilot(商標)のような新生のハンドヘルド装置は、普通サイズ・ドキュメントの集合体全体がクイック・リファレンス及びブラウジングを目的としてその装置に記憶されることを可能にするに十分な記憶容量を持っている。これらの装置に拡張インデックス・ベースのサーチ機能を具備させることは望ましいが、ハンドヘルド装置における記憶装置はむしろ制限を受ける。
【0003】
ほとんどの先進的な情報検索(IR)アプリケーションは、所与のドキュメント集合体における高品質のサーチ・サービスをサポートするために逆インデックスを作っている。そのようなシステムの1つの例は、Guru サーチエンジンである。それは、1989年発行の Proceedings of the Twelfth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 誌の198−206ページにおける "Full text indexing based on lexical relations, an application: Software libraries" と題した Maarek 及び Smadja 氏による論文に開示されている。ドキュメント集合体における各ドキュメントは、そのドキュメントの内容に基づいてインデキシング・ユニット又はターム(term)によって分析及び表示される。タームは、ワード、一対の密接に関連したワード(字句類似性 - lexical affinities)、又はフレーズであってもよい。ドキュメントにおける各タームは、関連のポスティング・リスト(posting list)と共にインデックスに記憶される。
【0004】
ポスティング・リストはポスティング(postings)を含み、各ポスティングは、そのタームを含むドキュメントの識別子、そのドキュメントにおけるそのタームのスコア(score)、及び、発生の回数及び発生のオフセットのようなドキュメントにおけるそのタームの発生に関する何らかの付加的情報を含む。多くの情報検索システムにおいて使用される典型的なスコア・モデルが、"An Introduction to Modern Information Retrieval" と題した Salton 及び McGill 著(1983年、McGraw-Hill SHA発行)の文献に開示された tf-idf 公式である。ドキュメント d に対するターム t のスコアは、d における t のターム頻度(tf)、ドキュメント d の長さ、及び集合体において t を含むドキュメントの数の逆数(idf)に依存する。
【0005】
例示的な tf-idf 公式は、Proceedings of the Fourth Text Retrieval Conference(TRE-4),(Gaithersberg, Maryland, November 1995)誌の25−48ページにおける "New retreival approaches using SMART:TREC 4" と題した Chris Buckley 氏他による論文に開示されている。この公式は、ターム t に対するドキュメント d のスコア A(t,d) を次のように提供する。
【0006】
【数1】
Figure 0004080878
【0007】
但し、avgtf はドキュメント d における平均的なターム頻度であり、N はその集合体におけるドキュメントの数であり、Nt は、ターム t を含むドキュメントの数であり、|d| はドキュメントの d の長さである。|d| は、d における(唯一の)タームの数の平方根によって近似化される。
【0008】
サーチ時、複数のタームがユーザの照会から取り出され、それらのそれぞれのポスティング・リストが逆インデックスから検索される。ドキュメント・ポスティング・スコアは、同じドキュメントに関連したポスティングのスコアを合計することによりドキュメント・スコアを形成するために累算される。このプロセスの終了時に、ドキュメントがそれらのスコアによってソートされ、トップ・スコアを有するドキュメントが戻される。
【0009】
大きなドキュメント集合体をインデックス化すると、その結果として維持することが難しい巨大なインデックス・ファイルが生じる。インデックス圧縮の分野では、多くの研究がなされ、その結果、より小型のインデックス・ファイルが生じた。この技術分野には、2つの相補的な方法が存在する。1つの方法は、データ構造レベルにおける圧縮、即ち、ポスティング・リストのよりコンパクトな表記を得ようとすると共にすべてのインデックス・データを保存する圧縮である。別の方法は、ストップ・ワード省略(stop-word omission)のようなタームを削除又は結合することによって及び潜在的意味インデキシング(Latent Semantic Indexing - LSI)によってインデックスをプルーニング(pruning)することである。この種のインデックス・プルーニングの主たる目的は、サーチ精度を下げる傾向のあるインデックス・タームから「ノイズ」を除去することによってインデキシング・システムにおける「ノイズ」を減少させることであるが、インデックス・サイズを縮小するというそれの実用的効果は、インデックス圧縮という主題に大いに関連している。
【0010】
ストップ・ワード省略の場合、ほとんどのドキュメントにおいて必然的に生じるというほど頻繁にその言語において生じるワードを見つけるために、言語統計が使用される。その言語では非常に頻繁にあるワード(ストップ・ワード)は、逆インデックスを形成するときには無視される。"the" 及び "is" のようなワードは、検索タスクには寄与しない。Proceedings of the Seventh Text Retrieval Conference(TREC-7)(National Institute of Standards and Technology, 1999)誌の "Overview of the Seventh Text Retrieval Conference(TREC)" において発表されたTREC集合体は、一般的なテキスト・ドキュメントにおけるワードの頻度を列挙している。TREC集合体における135個の最も頻繁に生じるワードのセットを無視することがポスティングの約25%を除去するということがわかった(1999年発行の米国カリフォルニア州サンフランシスコの Morgan Kaufman Publishers 社の "Managing Gigabytes" と題した Witten 氏他による文献参照)。
【0011】
潜在的意味インデキシング(LSI)は、例えば、Journal of the American Society for Information Science 誌の Vol.41, No.1, (1990), pp.391-407 における "Indexing by Latent Semantic Analysis" と題した Deerweester 氏他による論文に開示されている。LSIは、特異値分解(singular-value decomposition - SVD)と呼ばれる統計的手法を使用して、逆インデックスを3つのマトリクスの積として表す。この表記法は、最も重要なタームを保持すると共に他のすべてのタームを除去することによって、インデックスにおけるタームの数を減少させることを可能にする。LSI及びストップ・ワード省略の両方とも、タームの細分化(granularity)時に動作する。換言すれば、それらは、単に、インデックスからターム全体をプルーニングすることを可能にするものであり、従って、一旦プルーニングされると、最早、そのタームはそのインデックスにおいて全く現れない。タームがプルーニングされるとき、そのポスティング・リスト全体がインデックスから除去される。
【0012】
ダイナミック・プルーニング技法は、インデックスが既に作成されていた場合、或るターム又はドキュメント・ポスティングが、累積されたドキュメント・スコアに加える価値があるものであるかどうか、及びランキング・プロセスが継続すべきか又は停止すべきかを、ドキュメント・ランク付けプロセス中に決定する。このソートの例示的技法が、Proceeedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval(Dublin, Ireland,July 1994, Special Issue of the SIGIR Forum)誌の339−348ページにおける "Document Filtering for Fast Ranking" と題した Persin 氏による論文に開示されている。そのダイナミック技法は、所与の照会に対して適用され、従って、照会時間を減少させる。ダイナミック技法は、それらが既に記憶済みのインデックスに適用されるので、インデックス・サイズには影響しない。
【0013】
本発明の望ましい実施例では、集合体におけるドキュメントにタームを関連付ける逆インデックスが、その分野における既知のシステムにおけるように、ターム・レベルの細分化ではなく、ドキュメント・ポスティング・レベルの細分化にプルーニングされる。所与のタームに対してプルーニングすべきポスティングの適切な選択によって、ユーザの観点からインデックスのサーチ精度に大きな影響を与えることなく、インデックスのサイズを実質的に減少させることができる。
【0014】
望ましくは、ドキュメント・ポスティングに対するメトリクス(metrics)が決定され、それが逆インデックスから除去すべきポスティングを選択するために適用される。メトリクスは、ユーザが圧縮された逆インデックスを所与の照会にサーチするとき、戻されたドキュメントのリストが、プルーニングされてないインデックスにおける同じ照会によって戻された最高ランクのドキュメントのリストと実質的に同じになるように適用される。本発明のプルーニング方法は、ポスティング・リストにデータを記憶するためのコンパクトなデータ構造及び表記法を使用することによってインデックスを圧縮するというその分野で知られた方法とは反対に、或るドキュメント・ポスティングがインデックスから除去されるので、損失的である。損失的方法及び非損失的方法は、相互に補足的である。損失的態様でインデックスをプルーニングした後、そのインデックスは、更に、非損失的態様で圧縮可能であり、それによってそれらの方法の1つを単独で使用した場合に可能なサイズよりも小さいインデックス・サイズを得ることができる。
【0015】
従って、本発明の望ましい実施例によれば、テキスト・ドキュメントのコーパス(corpus)をインデックス化するための方法を遂行する装置が提供される。その方法は、
ドキュメントに現れるタームの逆インデックスであって、ドキュメントにおけるタームのポスティングを含むインデックスを作成するステップと、
インデックスにおけるポスティングをランク付けするステップと、
ランク付けにおいて所与のレベルよりも低いポスティングをインデックスからプルーニングするステップと、
を含む。
【0016】
ポスティングのランク付けは、それらタームの少なくとも幾つかの各々に対する個別のランキングを別々に決定することを含み得るし、インデックスのプルーニングは、それらタームの少なくとも幾つかの各々に対する個別のランキングをプルーニングすることを含み得る。
【0017】
望ましくは、インデックスのプルーニングは、ユーザから少なくとも1つのパラメータを受け取ること、及びそのパラメータ及び個別のインデックス・ランキングに基づいて所与のレベルを設定することを含む。
【0018】
更に、少なくとも1つのパラメータは、望ましくは、インデックスから検索すべきドキュメントの数k及び1つの照会において許容されるターム数rを含み、所与のレベルの設定は、ランキングにおけるトップからkにランク付けされたそれらドキュメントの1つのスコアに基づいてそのレベルを設定することを含む。
【0019】
1つの実施例によれば、所与のレベルの設定は、望ましくは、ドキュメントの1つのスコアをrによって除することを含む。
【0020】
別の実施例では、少なくとも1つのパラメータは、ランキングから検索すべきドキュメントの部分の数δ、及び1つの照会において許容されるタームの数rを含み、所与のレベルの設定は、ランキングにおけるドキュメントのうちの1番目のドキュメントのスコア、並びにδ及びrに基づいてレベルを設定することを含む。
【0021】
望ましくは、所与のレベルの設定は、1番目のドキュメントのスコアをδによって乗じること及びrによって除することを含む。
【0022】
更に別の実施例では、インデックスのプルーニングは、ドキュメント・ポスティングに関して、サーチ・スペースにおける照会の統計分布に関する情報に基づいて、プルーニングすべきポスティングを選択することを含む。
【0023】
インデックスのプルーニングは、ユーザから少なくとも1つのパラメータを受け取ること、及びそのパラメータ及びインデックス・ランキングに基づいて所与のレベルを設定することを含み得る。
【0024】
少なくとも1つのパラメータは、プルーニングされた逆インデックスにおいて残すべきスコアの数Mを含み得る。
【0025】
望ましくは、ポスティングの選択は、タームのうちの少なくとも幾つかの確率を決定すること及びタームのうちの少なくとも幾つかの各々に対するポスティング・スコアをタームの確率によって乗じることを含み、インデックスのランク付けは、乗じられたポスティング・スコアによってポスティングをすべてランク付けすることを含み、所与のレベルは、ランキングのトップからのMのドキュメントのスコアを含む。
【0026】
望ましい実施例では、インデックスの作成は、大きなメモリ容量を有するコンピュータにおいてそのインデックスを作成すること、及び限定されたメモリ容量を有する装置にプルーニング後のインデックスを転送することを含む。
【0027】
望ましくは、限定されたメモリ容量の装置は、ハンドヘルド・コンピュータ装置を含む。
【0028】
図1は、本発明の望ましい実施例に従って、圧縮されたサーチ・インデックスを作成するためのシステムの概略図である。ユーザ10は、インデックス処理装置12を使用してドキュメント・アーカイブ14をアクセスする。ドキュメント・アーカイブ14から検索されたドキュメントは、装置12における既存のドキュメント・アーカイブと結合可能である。装置12は、詳細に後述される方法を使用して、アーカイブの圧縮された逆インデックス22を作成する。一般的に、圧縮された逆インデックス又はアーカイブ22は、コンピュータ装置24に転送される。装置24は、大量のインデックスを記憶するためのそれの能力が限定されていることによって、装置12とは区別される。望ましくは、インデックスを作成するために使用されるドキュメント・アーカイブも同様に装置24に転送される。そこで、ユーザは、装置24を使用して照会をドキュメント・アーカイブの形に公式化し、装置24の限定された記憶容量にもかかわらず適正なドキュメントのリストを検索する。
【0029】
一般に、装置12は、デスクトップ・コンピュータ又はサーバを含み、一方、装置24は、図示のように、パーム装置又はハンドヘルド・コンピュータのような携帯型パーベイシブ(pervasive)装置である。しかし、代替えとして、装置24は、デスクトップ・コンピュータ又は他のコンピュータ・ワークステーションを含み得る。
【0030】
図2は、本発明の望ましい実施例に従って、圧縮された逆インデックス22を作成するための方法を概略的に示すフローチャートである。この方法のステップは、望ましくは、装置12上で走る適当なソフトウェアによって実行される。そのソフトウェアは、ネットワークを介してダウンロードすることによって電子的形式で装置12に供給可能であり、或いは、別の方法として、CD−ROM又は不揮発性メモリのような実体的な媒体によって供給可能である。
【0031】
ユーザ10は、ドキュメント追加ステップ44において、ドキュメント・アーカイブ14を作成するか、又は既存のアーカイブにドキュメントを追加する。インデックス圧縮ソフトウェアは、その分野では知られているように、各ドキュメントからタームを抽出すること、各ドキュメントにおける各タームに対してドキュメント・ポスティングを作成すること、及びそのドキュメント・ポスティングをインデックスにおいてリストすることによって、インデックス作成ステップ46において初期インデックスAを作成する。
【0032】
各ドキュメント・ポスティングは、前述のように、それと関連したスコアを有する。スコアを計算する種々の方法がその分野では知られており、選択された方法は、本発明にとって本質的なものではない。むしろ、t が d 内にない場合には A(t,d) = 0、そうでない場合には、A(t,d) > 0 であるということで十分である。
【0033】
そこで、ユーザは、パラメータ入力ステップ48において、プルーニング・パラメータを入力する。それらのパラメータは、インデックス・ランク付けステップ50において、インデックスAにおけるそれらポスティングのランク付けのために使用される。
【0034】
プルーニング・パラメータの条件を満足させるそれらポスティングのランキングにおけるカットオフ・レベルが決定される。所与のタームに対するそのカットオフ・レベルよりも低くランク付けされたすべてのポスティングがインデックスAから削除される。この方法では、インデックスA*と呼ばれる圧縮されたインデックスがポスティング除去ステップ52において作成される。このインデックスは、前述の方法のようなその分野において知られたターム・プルーニング及びデータ構造圧縮の方法によって、サイズを更に減少し得る。インデックスA*という圧縮バージョンは、インデックス記憶ステップ54において、圧縮済みインデックスとして記憶される。
【0035】
圧縮済みインデックスA*は、ユーザの観点からは、オリジナル・インデックスAと同じである。ユーザがインデックスA又はA*を照会するとき、ユーザは、タームのポスティング・リストに基づいて、照会タームに対する関連に従ってランク付けされるドキュメントのリストを受け取る。ステップ48におけるプルーニング・パラメータの適正な選択並びにステップ50及び52におけるそれらパラメータの適用によって、照会に応答してA*に戻されたドキュメントのリスト及びそのリストにおけるドキュメントの順序は、Aによって戻されたそのリストのトップと実質的に同じになるであろう。これは、一般に、ユーザにとって興味のあるそのリストの唯一の部分である。この意味で、本発明の方法は、イメージ及びサウンドの有損失圧縮の方法に類似している。即ち、その有損失圧縮では、ほとんどの場合ユーザにとって些細なことである詳細事項を犠牲にすることによって、データ量の実質的な減少が得られる。
【0036】
入力パラメータを指定し(ステップ48)、それらのパラメータを応用する(ステップ50及び52)ための3つの望ましい方法を次に説明する。最初の2つの方法は、照会に応答して、プルーニングされたインデックスにより戻されるトップ・アンサー(top-answer)をオリジナル・インデックスによって戻されるトップ・アンサーにできるだけ近くなるよう維持する一方で、できるだけ多くのドキュメント・ポスティングを削除する。その近さは、プルーニングされたインデックスにより戻されるトップ結果のセットとオリジナル・インデックスにより戻されるトップ結果のセットとの類似性によって決定されるトップ・アンサー・メトリックを使用して測定される。
【0037】
第3の方法である独特のドキュメント・ポスティング・プルーニング方法は、予想されたエラーをできるだけ少なく保ちながら、所与のインデックス・サイズを得るために必要とするほど多くのドキュメント・ポスティングを除去する。その予想されるエラーは、各照会に対してオリジナル・インデックスにより戻されたドキュメント・スコア及び圧縮済みインデックスによって戻されたドキュメント・スコアの間の差を可能な照会すべてにわたって合計したものとして定義されるメトリックを使って測定される。
【0038】
圧縮済みインデックスは、任意の所与の照会に対して、オリジナル・インデックスの「トップ・アンサー」と同じ「トップ・アンサー」を照会に戻す場合、オリジナル・インデックスと同じであるとして定義される。本発明の2つの望ましい実施例は、「トップ・アンサー」に対する次のような2つの可能な測定から抽出する。
(1)「k-トップ・アンサー」方法は、1つの照会に対して最高のスコアを有するk個のドキュメントとして「トップ・アンサー」を定義する(ここでKはステップ48における入力である)。任意の照会における最大の許容可能なターム数としてrを定義する。各タームtに対して、値 A(t,d0),A(t,d1),.....が、ステップ50において、それらの絶対値に従ってランク付けされる。zt をランキングにおけるk番目のタームの絶対値であると仮定する。そこで、ステップ52において、A(t,d) < Zt/r である場合、A*(t,d) は 0 にセットされる。しかし、そうでない場合、A*(t,d) = A(t,d) である。A*(t,d)=0 の場合のポスティングは、勿論、インデックスから除去される。
(2)「δ-トップ・アンサー」方法は、所与の照会に対してスコアリング関数のトップ・スコアからの距離における閾値の点から「トップ・アンサー」を定義する。この場合、δは、ステップ48において入力される。例えば、δ=0.9に対して、トップ・スコアの90%よりも高いスコアを有するいずれのドキュメントも、トップ・アンサーと見なされる。ここでも、ステップ50において、A(t,d) の値がランク付けされる。ステップ52において、各タームtに対し、最大値 max(A(t,d)) が検出される。Zt = δ* max(A(t,d)) あると仮定する。そこで、他の点では、A(t,d) < Zt/r である場合、A*(t,d) = 0 であり、そうでない場合、A*(t,d) = A(t,d) である。A*(t,d) = 0 の場合のポスティングは、勿論、インデックスから除去される。
【0039】
図3は、上記の第3の独特なポスティング・プルーニング方法に対するプルーニング・パラメータ入力ステップ48を拡張したものである。外部プロセスが、プルーニング・パラメータ入力ステップ56におけるシステムへの分布入力時に、すべての可能な照会セットの確率分布 Distq を決定する。Distq は、例えば、言語におけるタームの分布から、又はサーチ・エンジンの照会ログ・ファイルから、又は他の適当な方法から得ることができる。インデックス Distt におけるタームの分布は、決定ステップ60において、照会及び Distq から誘導される。そのタームの分布は、サーチ・エンジンに実行依頼された照会にタームtが出現する確率を反映している。タームが出現する確率は、Pr(t) = Σq in Q, t in q Pr(q) として照会確率によって表すことができる。但し、Qは、すべての可能な照会のセットである。ユーザは、ステップ58において、インデックス A* に維持するポスティングの所望の数Mを入力する。しかる後、インデックス圧縮ランクの第3の望ましい実施例では、ステップ50において、Aの値がランク付けられ、そして、ステップ52において、次のように、 A* が作成される。先ず、A 及び Disttに基づいて、A'(t,d) = Pr(t)A(t,d) スコアリング・インデックス A' が作成される。A' におけるすべてのスコアがランク付けされ、z よりも大きい、M個のスコアが A' に存在するように Z が決定される。この方法では、z は、前述の第1の2つの方法におけるようにタームt単位ではなく、A' にわたってグローバル・パラメータであることに留意されたい。そこで、A'(t,d) < z である場合、A*(t,d) = 0 であり、そうでない場合、A*(t,d) = A(t,d) である。
【0040】
約132,000個のドキュメントを含む、TRECにおいて提供されたロサンゼルス・タイムスのデータを使用して、これら3つの方法が経験的なデータに関してテストされた。その方法のパフォーマンスを改善するために、オリジナル・インデックスが修正された。各タームに関して、そのタームに対するすべてのドキュメント・ポスティングにおける最小スコアが他のスコアすべてから差し引かれた。前述の方法に対するこの修正の後、トップ-kプルーニング方法は、1ターム当たり10個のスコア及び10個以下のタームの照会を使用して、サーチ結果を大きく低下させることなく、ドキュメント・ポスティングの25%までのプルーニングを可能にした。トップ-δプルーニング方法は、1ターム当たりトップ70%のスコア及び10個以下のタームの照会を使用して、サーチ結果を大きく低下させることなく、ドキュメント・ポスティングの25%までのプルーニングを可能にした。トップ-k及びトップ-δのプルーニング方法の両方とも、選択されたドキュメント・アーカイブに対する一様なポスティング・プルーニング方法よりも良好に遂行された。
【0041】
工業的応用:
本発明は、例えば、ドキュメントに出現するタームの逆インデックスを作成するように構成されたインデックス・プロセッサを含むテキスト・ドキュメントのコーパスをインデックス化するための装置を提供することによって、産業の開発を可能にする。なお、そのインデックスは、ドキュメントにおけるタームのポスティングを含み、プロセッサは、更に、インデックスにおけるポスティングのランキングを作成するように、及びランキングにおける所与のレベル以下のポスティングをそのインデックスからプルーニングするように構成される。
【0042】
本発明は、更に、望ましい実施例によれば、プログラム命令が記憶されるコンピュータ可読媒体を含み、テキスト・ドキュメントのコーパスをインデックス化するためのコンピュータ・ソフトウェア製品を提供することによって使用可能である。なお、そのプログラム命令は、コンピュータによって読み取られるとき、ドキュメントに出現するタームの逆インデックスをコンピュータに作成させ、そのインデックスは、ドキュメントにおけるタームのポスティングを含み、それらの命令は、更に、そのインデックスにおいてポスティングをコンピュータにランク付けさせ、しかも、ランキングにおける所与のレベル以下のポスティングをインデックスからコンピュータにプルーニングする。
【0043】
上述の望ましい実施例は例として示されたこと、及び本発明が、詳細に示された事項及び記述された事項に限定されないことは明らかであろう。むしろ、本発明の範囲は、上述の種々の特徴の組み合わせ、及び上記説明を読むことにより当業者が思いつき且つ従来技術では開示されてないそれらの種々の変更及び修正も含むものである。
【図面の簡単な説明】
【図1】 本発明の望ましい実施例に従って、サーチ・インデックスを作成するためのシステムの概略図である。
【図2】 本発明の望ましい実施例に従って、インデックスを圧縮するための方法を概略的に示すフローチャートである。
【図3】 本発明の望ましい実施例に従って、図2の方法において使用されるプルーニング・パラメータを入力するための技法の詳細を概略的に示すフローチャートである。
【符号の説明】
10 ユーザ
12 インデックス処理装置
14 ドキュメント・アーカイブ
22 圧縮されたアーカイブ
24 コンピュータ装置

Claims (1)

  1. テキスト・ドキュメントのコーパスをインデックス化するための装置であって、
    前記ドキュメントに現れるタームの逆インデックスを作成するように構成されたインデックス・プロセッサ
    少なくとも1つのパラメータであって、プルーニングされた逆インデックスにおいて残すべきスコアの数Mを含むパラメータを受け取るためのユーザ・インターフェースを含み、
    前記インデックスは、各タームについて、当該タームを含むドキュメントの識別子及び当該ドキュメントにおける前記タームの前記スコアを含むポスティングのリストを含み、
    前記プロセッサは、実行依頼された照会の統計分布に関する情報に基づいて前記タームの少なくとも幾つかの、照会に出現する確率を決定し、前記タームの少なくとも幾つかの各々についてポスティング・スコアを前記タームの前記確率によって乗じ、前記乗じられたポスティング・スコアによってすべてのポスティングをランク付け、前記ランキングにおける所与のレベルよりも低い前記ポスティングを前記インデックスからプルーニングし、
    前記所与のレベルは、前記ランキングのトップからMのドキュメントのスコアを含む、
    置。
JP2002555320A 2000-12-29 2001-12-19 有損失インデックス圧縮装置 Expired - Lifetime JP4080878B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25899100P 2000-12-29 2000-12-29
PCT/US2001/049260 WO2002054289A1 (en) 2000-12-29 2001-12-19 Lossy index compression

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007303708A Division JP4808697B2 (ja) 2000-12-29 2007-11-22 有損失インデックス圧縮装置

Publications (2)

Publication Number Publication Date
JP2004525442A JP2004525442A (ja) 2004-08-19
JP4080878B2 true JP4080878B2 (ja) 2008-04-23

Family

ID=22983032

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002555320A Expired - Lifetime JP4080878B2 (ja) 2000-12-29 2001-12-19 有損失インデックス圧縮装置
JP2007303708A Expired - Lifetime JP4808697B2 (ja) 2000-12-29 2007-11-22 有損失インデックス圧縮装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2007303708A Expired - Lifetime JP4808697B2 (ja) 2000-12-29 2007-11-22 有損失インデックス圧縮装置

Country Status (5)

Country Link
EP (1) EP1346296B1 (ja)
JP (2) JP4080878B2 (ja)
CN (1) CN1191540C (ja)
CA (1) CA2432357A1 (ja)
WO (1) WO2002054289A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US8417693B2 (en) * 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
US8600997B2 (en) * 2005-09-30 2013-12-03 International Business Machines Corporation Method and framework to support indexing and searching taxonomies in large scale full text indexes
US7689559B2 (en) 2006-02-08 2010-03-30 Telenor Asa Document similarity scoring and ranking method, device and computer program product
CN102918524B (zh) 2010-05-28 2016-06-01 富士通株式会社 信息生成程序、装置、方法以及信息检索程序、装置、方法
CN102929988B (zh) * 2012-10-19 2015-07-08 中国科学院计算技术研究所 用于对倒排索引进行压缩的文档序号重排方法及其系统
CN108804477A (zh) * 2017-05-05 2018-11-13 广东神马搜索科技有限公司 动态截断方法、装置及服务器

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257774A (ja) * 1992-03-10 1993-10-08 Fujitsu Ltd インデックス・レコード番号を圧縮・格納した情報検索装置
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US5867799A (en) * 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
US5915249A (en) * 1996-06-14 1999-06-22 Excite, Inc. System and method for accelerated query evaluation of very large full-text databases
AU3484897A (en) * 1996-06-17 1998-01-07 Idd Enterprises, L.P. Hypertext document retrieval system and method
US6163782A (en) * 1997-11-19 2000-12-19 At&T Corp. Efficient and effective distributed information management
JPH11306203A (ja) * 1998-04-20 1999-11-05 Intec Inc インデックス作成方法及び文書検索処理方法
JP2000285116A (ja) * 1999-03-31 2000-10-13 Just Syst Corp 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
EP1328871A2 (en) * 1999-07-23 2003-07-23 Merck &amp; Co., Inc. Method and storage/retrieval system of chemical substances in a database

Also Published As

Publication number Publication date
WO2002054289A1 (en) 2002-07-11
CA2432357A1 (en) 2002-07-11
JP2004525442A (ja) 2004-08-19
EP1346296A4 (en) 2008-07-02
JP2008117407A (ja) 2008-05-22
CN1191540C (zh) 2005-03-02
CN1483169A (zh) 2004-03-17
EP1346296A1 (en) 2003-09-24
JP4808697B2 (ja) 2011-11-02
EP1346296B1 (en) 2012-09-19

Similar Documents

Publication Publication Date Title
US7356527B2 (en) Lossy index compression
US8626781B2 (en) Priority hash index
US8290975B2 (en) Graph-based keyword expansion
JP4808697B2 (ja) 有損失インデックス圧縮装置
US8620907B2 (en) Matching funnel for large document index
JP5494454B2 (ja) 検索結果生成方法、検索結果生成プログラムおよび検索システム
US20170083553A1 (en) Tiering of posting lists in search engine index
JP2012533819A (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
US8375022B2 (en) Keyword determination based on a weight of meaningfulness
Carmel et al. Juru at TREC 10-Experiments with Index Pruning.
Billerbeck et al. Techniques for efficient query expansion
Blanco et al. Static pruning of terms in inverted files
Broschart et al. High-performance processing of text queries with tunable pruned term and term pair indexes
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
Yi et al. A content based approach for discovering missing anchor text for web search
Tonellotto et al. Efficient Dynamic Pruning with Proximity Support.
Billerbeck et al. Efficient query expansion with auxiliary data structures
Garcia Search engine optimisation using past queries
Zheng et al. Document-oriented pruning of the inverted index in information retrieval systems
Veretennikov An efficient algorithm for three-component key index construction
Lacour et al. Efficiency comparison of document matching techniques
Chen et al. An empirical analysis of pruning techniques: performance, retrievability and bias
AU2002232665A1 (en) Lossy index compression
Dang et al. Fast forward index methods for pseudo-relevance feedback retrieval
Praba et al. Evaluation of Web Searching Method Using a Novel WPRR Algorithm for Two Different Case Studies

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060822

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061114

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070221

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070910

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071122

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4080878

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110215

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110215

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120215

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120215

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130215

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130215

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140215

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term