JP4080878B2 - 有損失インデックス圧縮装置 - Google Patents
有損失インデックス圧縮装置 Download PDFInfo
- Publication number
- JP4080878B2 JP4080878B2 JP2002555320A JP2002555320A JP4080878B2 JP 4080878 B2 JP4080878 B2 JP 4080878B2 JP 2002555320 A JP2002555320 A JP 2002555320A JP 2002555320 A JP2002555320 A JP 2002555320A JP 4080878 B2 JP4080878 B2 JP 4080878B2
- Authority
- JP
- Japan
- Prior art keywords
- index
- document
- term
- posting
- ranking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
Description
本発明は、一般的に云えば、大量のテキスト・データをコンピュータ・サーチするための方法及びシステムに関し、特に、サーチ・インデックスの作成に関するものである。
【0002】
ウェブ及びデスクトップ・アプリケーションでは、高速且つ正確なテキスト・サーチ・エンジンが広範囲に使用されている。Palm Pilot(商標)のような新生のハンドヘルド装置は、普通サイズ・ドキュメントの集合体全体がクイック・リファレンス及びブラウジングを目的としてその装置に記憶されることを可能にするに十分な記憶容量を持っている。これらの装置に拡張インデックス・ベースのサーチ機能を具備させることは望ましいが、ハンドヘルド装置における記憶装置はむしろ制限を受ける。
【0003】
ほとんどの先進的な情報検索(IR)アプリケーションは、所与のドキュメント集合体における高品質のサーチ・サービスをサポートするために逆インデックスを作っている。そのようなシステムの1つの例は、Guru サーチエンジンである。それは、1989年発行の Proceedings of the Twelfth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 誌の198−206ページにおける "Full text indexing based on lexical relations, an application: Software libraries" と題した Maarek 及び Smadja 氏による論文に開示されている。ドキュメント集合体における各ドキュメントは、そのドキュメントの内容に基づいてインデキシング・ユニット又はターム(term)によって分析及び表示される。タームは、ワード、一対の密接に関連したワード(字句類似性 - lexical affinities)、又はフレーズであってもよい。ドキュメントにおける各タームは、関連のポスティング・リスト(posting list)と共にインデックスに記憶される。
【0004】
ポスティング・リストはポスティング(postings)を含み、各ポスティングは、そのタームを含むドキュメントの識別子、そのドキュメントにおけるそのタームのスコア(score)、及び、発生の回数及び発生のオフセットのようなドキュメントにおけるそのタームの発生に関する何らかの付加的情報を含む。多くの情報検索システムにおいて使用される典型的なスコア・モデルが、"An Introduction to Modern Information Retrieval" と題した Salton 及び McGill 著(1983年、McGraw-Hill SHA発行)の文献に開示された tf-idf 公式である。ドキュメント d に対するターム t のスコアは、d における t のターム頻度(tf)、ドキュメント d の長さ、及び集合体において t を含むドキュメントの数の逆数(idf)に依存する。
【0005】
例示的な tf-idf 公式は、Proceedings of the Fourth Text Retrieval Conference(TRE-4),(Gaithersberg, Maryland, November 1995)誌の25−48ページにおける "New retreival approaches using SMART:TREC 4" と題した Chris Buckley 氏他による論文に開示されている。この公式は、ターム t に対するドキュメント d のスコア A(t,d) を次のように提供する。
【0006】
【数1】
【0007】
但し、avgtf はドキュメント d における平均的なターム頻度であり、N はその集合体におけるドキュメントの数であり、Nt は、ターム t を含むドキュメントの数であり、|d| はドキュメントの d の長さである。|d| は、d における(唯一の)タームの数の平方根によって近似化される。
【0008】
サーチ時、複数のタームがユーザの照会から取り出され、それらのそれぞれのポスティング・リストが逆インデックスから検索される。ドキュメント・ポスティング・スコアは、同じドキュメントに関連したポスティングのスコアを合計することによりドキュメント・スコアを形成するために累算される。このプロセスの終了時に、ドキュメントがそれらのスコアによってソートされ、トップ・スコアを有するドキュメントが戻される。
【0009】
大きなドキュメント集合体をインデックス化すると、その結果として維持することが難しい巨大なインデックス・ファイルが生じる。インデックス圧縮の分野では、多くの研究がなされ、その結果、より小型のインデックス・ファイルが生じた。この技術分野には、2つの相補的な方法が存在する。1つの方法は、データ構造レベルにおける圧縮、即ち、ポスティング・リストのよりコンパクトな表記を得ようとすると共にすべてのインデックス・データを保存する圧縮である。別の方法は、ストップ・ワード省略(stop-word omission)のようなタームを削除又は結合することによって及び潜在的意味インデキシング(Latent Semantic Indexing - LSI)によってインデックスをプルーニング(pruning)することである。この種のインデックス・プルーニングの主たる目的は、サーチ精度を下げる傾向のあるインデックス・タームから「ノイズ」を除去することによってインデキシング・システムにおける「ノイズ」を減少させることであるが、インデックス・サイズを縮小するというそれの実用的効果は、インデックス圧縮という主題に大いに関連している。
【0010】
ストップ・ワード省略の場合、ほとんどのドキュメントにおいて必然的に生じるというほど頻繁にその言語において生じるワードを見つけるために、言語統計が使用される。その言語では非常に頻繁にあるワード(ストップ・ワード)は、逆インデックスを形成するときには無視される。"the" 及び "is" のようなワードは、検索タスクには寄与しない。Proceedings of the Seventh Text Retrieval Conference(TREC-7)(National Institute of Standards and Technology, 1999)誌の "Overview of the Seventh Text Retrieval Conference(TREC)" において発表されたTREC集合体は、一般的なテキスト・ドキュメントにおけるワードの頻度を列挙している。TREC集合体における135個の最も頻繁に生じるワードのセットを無視することがポスティングの約25%を除去するということがわかった(1999年発行の米国カリフォルニア州サンフランシスコの Morgan Kaufman Publishers 社の "Managing Gigabytes" と題した Witten 氏他による文献参照)。
【0011】
潜在的意味インデキシング(LSI)は、例えば、Journal of the American Society for Information Science 誌の Vol.41, No.1, (1990), pp.391-407 における "Indexing by Latent Semantic Analysis" と題した Deerweester 氏他による論文に開示されている。LSIは、特異値分解(singular-value decomposition - SVD)と呼ばれる統計的手法を使用して、逆インデックスを3つのマトリクスの積として表す。この表記法は、最も重要なタームを保持すると共に他のすべてのタームを除去することによって、インデックスにおけるタームの数を減少させることを可能にする。LSI及びストップ・ワード省略の両方とも、タームの細分化(granularity)時に動作する。換言すれば、それらは、単に、インデックスからターム全体をプルーニングすることを可能にするものであり、従って、一旦プルーニングされると、最早、そのタームはそのインデックスにおいて全く現れない。タームがプルーニングされるとき、そのポスティング・リスト全体がインデックスから除去される。
【0012】
ダイナミック・プルーニング技法は、インデックスが既に作成されていた場合、或るターム又はドキュメント・ポスティングが、累積されたドキュメント・スコアに加える価値があるものであるかどうか、及びランキング・プロセスが継続すべきか又は停止すべきかを、ドキュメント・ランク付けプロセス中に決定する。このソートの例示的技法が、Proceeedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval(Dublin, Ireland,July 1994, Special Issue of the SIGIR Forum)誌の339−348ページにおける "Document Filtering for Fast Ranking" と題した Persin 氏による論文に開示されている。そのダイナミック技法は、所与の照会に対して適用され、従って、照会時間を減少させる。ダイナミック技法は、それらが既に記憶済みのインデックスに適用されるので、インデックス・サイズには影響しない。
【0013】
本発明の望ましい実施例では、集合体におけるドキュメントにタームを関連付ける逆インデックスが、その分野における既知のシステムにおけるように、ターム・レベルの細分化時ではなく、ドキュメント・ポスティング・レベルの細分化時にプルーニングされる。所与のタームに対してプルーニングすべきポスティングの適切な選択によって、ユーザの観点からインデックスのサーチ精度に大きな影響を与えることなく、インデックスのサイズを実質的に減少させることができる。
【0014】
望ましくは、ドキュメント・ポスティングに対するメトリクス(metrics)が決定され、それが逆インデックスから除去すべきポスティングを選択するために適用される。メトリクスは、ユーザが圧縮された逆インデックスを所与の照会時にサーチするとき、戻されたドキュメントのリストが、プルーニングされてないインデックスにおける同じ照会によって戻された最高ランクのドキュメントのリストと実質的に同じになるように適用される。本発明のプルーニング方法は、ポスティング・リストにデータを記憶するためのコンパクトなデータ構造及び表記法を使用することによってインデックスを圧縮するというその分野で知られた方法とは反対に、或るドキュメント・ポスティングがインデックスから除去されるので、損失的である。損失的方法及び非損失的方法は、相互に補足的である。損失的態様でインデックスをプルーニングした後、そのインデックスは、更に、非損失的態様で圧縮可能であり、それによってそれらの方法の1つを単独で使用した場合に可能なサイズよりも小さいインデックス・サイズを得ることができる。
【0015】
従って、本発明の望ましい実施例によれば、テキスト・ドキュメントのコーパス(corpus)をインデックス化するための方法を遂行する装置が提供される。その方法は、
ドキュメントに現れるタームの逆インデックスであって、ドキュメントにおけるタームのポスティングを含むインデックスを作成するステップと、
インデックスにおけるポスティングをランク付けするステップと、
ランク付けにおいて所与のレベルよりも低いポスティングをインデックスからプルーニングするステップと、
を含む。
【0016】
ポスティングのランク付けは、それらタームの少なくとも幾つかの各々に対する個別のランキングを別々に決定することを含み得るし、インデックスのプルーニングは、それらタームの少なくとも幾つかの各々に対する個別のランキングをプルーニングすることを含み得る。
【0017】
望ましくは、インデックスのプルーニングは、ユーザから少なくとも1つのパラメータを受け取ること、及びそのパラメータ及び個別のインデックス・ランキングに基づいて所与のレベルを設定することを含む。
【0018】
更に、少なくとも1つのパラメータは、望ましくは、インデックスから検索すべきドキュメントの数k及び1つの照会において許容されるターム数rを含み、所与のレベルの設定は、ランキングにおけるトップからkにランク付けされたそれらドキュメントの1つのスコアに基づいてそのレベルを設定することを含む。
【0019】
1つの実施例によれば、所与のレベルの設定は、望ましくは、ドキュメントの1つのスコアをrによって除することを含む。
【0020】
別の実施例では、少なくとも1つのパラメータは、ランキングから検索すべきドキュメントの部分の数δ、及び1つの照会において許容されるタームの数rを含み、所与のレベルの設定は、ランキングにおけるドキュメントのうちの1番目のドキュメントのスコア、並びにδ及びrに基づいてレベルを設定することを含む。
【0021】
望ましくは、所与のレベルの設定は、1番目のドキュメントのスコアをδによって乗じること及びrによって除することを含む。
【0022】
更に別の実施例では、インデックスのプルーニングは、ドキュメント・ポスティングに関して、サーチ・スペースにおける照会の統計分布に関する情報に基づいて、プルーニングすべきポスティングを選択することを含む。
【0023】
インデックスのプルーニングは、ユーザから少なくとも1つのパラメータを受け取ること、及びそのパラメータ及びインデックス・ランキングに基づいて所与のレベルを設定することを含み得る。
【0024】
少なくとも1つのパラメータは、プルーニングされた逆インデックスにおいて残すべきスコアの数Mを含み得る。
【0025】
望ましくは、ポスティングの選択は、タームのうちの少なくとも幾つかの確率を決定すること及びタームのうちの少なくとも幾つかの各々に対するポスティング・スコアをタームの確率によって乗じることを含み、インデックスのランク付けは、乗じられたポスティング・スコアによってポスティングをすべてランク付けすることを含み、所与のレベルは、ランキングのトップからのMのドキュメントのスコアを含む。
【0026】
望ましい実施例では、インデックスの作成は、大きなメモリ容量を有するコンピュータにおいてそのインデックスを作成すること、及び限定されたメモリ容量を有する装置にプルーニング後のインデックスを転送することを含む。
【0027】
望ましくは、限定されたメモリ容量の装置は、ハンドヘルド・コンピュータ装置を含む。
【0028】
図1は、本発明の望ましい実施例に従って、圧縮されたサーチ・インデックスを作成するためのシステムの概略図である。ユーザ10は、インデックス処理装置12を使用してドキュメント・アーカイブ14をアクセスする。ドキュメント・アーカイブ14から検索されたドキュメントは、装置12における既存のドキュメント・アーカイブと結合可能である。装置12は、詳細に後述される方法を使用して、アーカイブの圧縮された逆インデックス22を作成する。一般的に、圧縮された逆インデックス又はアーカイブ22は、コンピュータ装置24に転送される。装置24は、大量のインデックスを記憶するためのそれの能力が限定されていることによって、装置12とは区別される。望ましくは、インデックスを作成するために使用されるドキュメント・アーカイブも同様に装置24に転送される。そこで、ユーザは、装置24を使用して照会をドキュメント・アーカイブの形に公式化し、装置24の限定された記憶容量にもかかわらず適正なドキュメントのリストを検索する。
【0029】
一般に、装置12は、デスクトップ・コンピュータ又はサーバを含み、一方、装置24は、図示のように、パーム装置又はハンドヘルド・コンピュータのような携帯型パーベイシブ(pervasive)装置である。しかし、代替えとして、装置24は、デスクトップ・コンピュータ又は他のコンピュータ・ワークステーションを含み得る。
【0030】
図2は、本発明の望ましい実施例に従って、圧縮された逆インデックス22を作成するための方法を概略的に示すフローチャートである。この方法のステップは、望ましくは、装置12上で走る適当なソフトウェアによって実行される。そのソフトウェアは、ネットワークを介してダウンロードすることによって電子的形式で装置12に供給可能であり、或いは、別の方法として、CD−ROM又は不揮発性メモリのような実体的な媒体によって供給可能である。
【0031】
ユーザ10は、ドキュメント追加ステップ44において、ドキュメント・アーカイブ14を作成するか、又は既存のアーカイブにドキュメントを追加する。インデックス圧縮ソフトウェアは、その分野では知られているように、各ドキュメントからタームを抽出すること、各ドキュメントにおける各タームに対してドキュメント・ポスティングを作成すること、及びそのドキュメント・ポスティングをインデックスにおいてリストすることによって、インデックス作成ステップ46において初期インデックスAを作成する。
【0032】
各ドキュメント・ポスティングは、前述のように、それと関連したスコアを有する。スコアを計算する種々の方法がその分野では知られており、選択された方法は、本発明にとって本質的なものではない。むしろ、t が d 内にない場合には A(t,d) = 0、そうでない場合には、A(t,d) > 0 であるということで十分である。
【0033】
そこで、ユーザは、パラメータ入力ステップ48において、プルーニング・パラメータを入力する。それらのパラメータは、インデックス・ランク付けステップ50において、インデックスAにおけるそれらポスティングのランク付けのために使用される。
【0034】
プルーニング・パラメータの条件を満足させるそれらポスティングのランキングにおけるカットオフ・レベルが決定される。所与のタームに対するそのカットオフ・レベルよりも低くランク付けされたすべてのポスティングがインデックスAから削除される。この方法では、インデックスA*と呼ばれる圧縮されたインデックスがポスティング除去ステップ52において作成される。このインデックスは、前述の方法のようなその分野において知られたターム・プルーニング及びデータ構造圧縮の方法によって、サイズを更に減少し得る。インデックスA*という圧縮バージョンは、インデックス記憶ステップ54において、圧縮済みインデックスとして記憶される。
【0035】
圧縮済みインデックスA*は、ユーザの観点からは、オリジナル・インデックスAと同じである。ユーザがインデックスA又はA*を照会するとき、ユーザは、タームのポスティング・リストに基づいて、照会タームに対する関連に従ってランク付けされるドキュメントのリストを受け取る。ステップ48におけるプルーニング・パラメータの適正な選択並びにステップ50及び52におけるそれらパラメータの適用によって、照会に応答してA*に戻されたドキュメントのリスト及びそのリストにおけるドキュメントの順序は、Aによって戻されたそのリストのトップと実質的に同じになるであろう。これは、一般に、ユーザにとって興味のあるそのリストの唯一の部分である。この意味で、本発明の方法は、イメージ及びサウンドの有損失圧縮の方法に類似している。即ち、その有損失圧縮では、ほとんどの場合ユーザにとって些細なことである詳細事項を犠牲にすることによって、データ量の実質的な減少が得られる。
【0036】
入力パラメータを指定し(ステップ48)、それらのパラメータを応用する(ステップ50及び52)ための3つの望ましい方法を次に説明する。最初の2つの方法は、照会に応答して、プルーニングされたインデックスにより戻されるトップ・アンサー(top-answer)をオリジナル・インデックスによって戻されるトップ・アンサーにできるだけ近くなるよう維持する一方で、できるだけ多くのドキュメント・ポスティングを削除する。その近さは、プルーニングされたインデックスにより戻されるトップ結果のセットとオリジナル・インデックスにより戻されるトップ結果のセットとの類似性によって決定されるトップ・アンサー・メトリックを使用して測定される。
【0037】
第3の方法である独特のドキュメント・ポスティング・プルーニング方法は、予想されたエラーをできるだけ少なく保ちながら、所与のインデックス・サイズを得るために必要とするほど多くのドキュメント・ポスティングを除去する。その予想されるエラーは、各照会に対してオリジナル・インデックスにより戻されたドキュメント・スコア及び圧縮済みインデックスによって戻されたドキュメント・スコアの間の差を可能な照会すべてにわたって合計したものとして定義されるメトリックを使って測定される。
【0038】
圧縮済みインデックスは、任意の所与の照会に対して、オリジナル・インデックスの「トップ・アンサー」と同じ「トップ・アンサー」を照会に戻す場合、オリジナル・インデックスと同じであるとして定義される。本発明の2つの望ましい実施例は、「トップ・アンサー」に対する次のような2つの可能な測定から抽出する。
(1)「k-トップ・アンサー」方法は、1つの照会に対して最高のスコアを有するk個のドキュメントとして「トップ・アンサー」を定義する(ここでKはステップ48における入力である)。任意の照会における最大の許容可能なターム数としてrを定義する。各タームtに対して、値 A(t,d0),A(t,d1),.....が、ステップ50において、それらの絶対値に従ってランク付けされる。zt をランキングにおけるk番目のタームの絶対値であると仮定する。そこで、ステップ52において、A(t,d) < Zt/r である場合、A*(t,d) は 0 にセットされる。しかし、そうでない場合、A*(t,d) = A(t,d) である。A*(t,d)=0 の場合のポスティングは、勿論、インデックスから除去される。
(2)「δ-トップ・アンサー」方法は、所与の照会に対してスコアリング関数のトップ・スコアからの距離における閾値の点から「トップ・アンサー」を定義する。この場合、δは、ステップ48において入力される。例えば、δ=0.9に対して、トップ・スコアの90%よりも高いスコアを有するいずれのドキュメントも、トップ・アンサーと見なされる。ここでも、ステップ50において、A(t,d) の値がランク付けされる。ステップ52において、各タームtに対し、最大値 max(A(t,d)) が検出される。Zt = δ* max(A(t,d)) あると仮定する。そこで、他の点では、A(t,d) < Zt/r である場合、A*(t,d) = 0 であり、そうでない場合、A*(t,d) = A(t,d) である。A*(t,d) = 0 の場合のポスティングは、勿論、インデックスから除去される。
【0039】
図3は、上記の第3の独特なポスティング・プルーニング方法に対するプルーニング・パラメータ入力ステップ48を拡張したものである。外部プロセスが、プルーニング・パラメータ入力ステップ56におけるシステムへの分布入力時に、すべての可能な照会セットの確率分布 Distq を決定する。Distq は、例えば、言語におけるタームの分布から、又はサーチ・エンジンの照会ログ・ファイルから、又は他の適当な方法から得ることができる。インデックス Distt におけるタームの分布は、決定ステップ60において、照会及び Distq から誘導される。そのタームの分布は、サーチ・エンジンに実行依頼された照会にタームtが出現する確率を反映している。タームが出現する確率は、Pr(t) = Σq in Q, t in q Pr(q) として照会確率によって表すことができる。但し、Qは、すべての可能な照会のセットである。ユーザは、ステップ58において、インデックス A* に維持するポスティングの所望の数Mを入力する。しかる後、インデックス圧縮ランクの第3の望ましい実施例では、ステップ50において、Aの値がランク付けられ、そして、ステップ52において、次のように、 A* が作成される。先ず、A 及び Disttに基づいて、A'(t,d) = Pr(t)A(t,d) スコアリング・インデックス A' が作成される。A' におけるすべてのスコアがランク付けされ、z よりも大きい、M個のスコアが A' に存在するように Z が決定される。この方法では、z は、前述の第1の2つの方法におけるようにタームt単位ではなく、A' にわたってグローバル・パラメータであることに留意されたい。そこで、A'(t,d) < z である場合、A*(t,d) = 0 であり、そうでない場合、A*(t,d) = A(t,d) である。
【0040】
約132,000個のドキュメントを含む、TRECにおいて提供されたロサンゼルス・タイムスのデータを使用して、これら3つの方法が経験的なデータに関してテストされた。その方法のパフォーマンスを改善するために、オリジナル・インデックスが修正された。各タームに関して、そのタームに対するすべてのドキュメント・ポスティングにおける最小スコアが他のスコアすべてから差し引かれた。前述の方法に対するこの修正の後、トップ-kプルーニング方法は、1ターム当たり10個のスコア及び10個以下のタームの照会を使用して、サーチ結果を大きく低下させることなく、ドキュメント・ポスティングの25%までのプルーニングを可能にした。トップ-δプルーニング方法は、1ターム当たりトップ70%のスコア及び10個以下のタームの照会を使用して、サーチ結果を大きく低下させることなく、ドキュメント・ポスティングの25%までのプルーニングを可能にした。トップ-k及びトップ-δのプルーニング方法の両方とも、選択されたドキュメント・アーカイブに対する一様なポスティング・プルーニング方法よりも良好に遂行された。
【0041】
工業的応用:
本発明は、例えば、ドキュメントに出現するタームの逆インデックスを作成するように構成されたインデックス・プロセッサを含むテキスト・ドキュメントのコーパスをインデックス化するための装置を提供することによって、産業の開発を可能にする。なお、そのインデックスは、ドキュメントにおけるタームのポスティングを含み、プロセッサは、更に、インデックスにおけるポスティングのランキングを作成するように、及びランキングにおける所与のレベル以下のポスティングをそのインデックスからプルーニングするように構成される。
【0042】
本発明は、更に、望ましい実施例によれば、プログラム命令が記憶されるコンピュータ可読媒体を含み、テキスト・ドキュメントのコーパスをインデックス化するためのコンピュータ・ソフトウェア製品を提供することによって使用可能である。なお、そのプログラム命令は、コンピュータによって読み取られるとき、ドキュメントに出現するタームの逆インデックスをコンピュータに作成させ、そのインデックスは、ドキュメントにおけるタームのポスティングを含み、それらの命令は、更に、そのインデックスにおいてポスティングをコンピュータにランク付けさせ、しかも、ランキングにおける所与のレベル以下のポスティングをインデックスからコンピュータにプルーニングする。
【0043】
上述の望ましい実施例は例として示されたこと、及び本発明が、詳細に示された事項及び記述された事項に限定されないことは明らかであろう。むしろ、本発明の範囲は、上述の種々の特徴の組み合わせ、及び上記説明を読むことにより当業者が思いつき且つ従来技術では開示されてないそれらの種々の変更及び修正も含むものである。
【図面の簡単な説明】
【図1】 本発明の望ましい実施例に従って、サーチ・インデックスを作成するためのシステムの概略図である。
【図2】 本発明の望ましい実施例に従って、インデックスを圧縮するための方法を概略的に示すフローチャートである。
【図3】 本発明の望ましい実施例に従って、図2の方法において使用されるプルーニング・パラメータを入力するための技法の詳細を概略的に示すフローチャートである。
【符号の説明】
10 ユーザ
12 インデックス処理装置
14 ドキュメント・アーカイブ
22 圧縮されたアーカイブ
24 コンピュータ装置
Claims (1)
- テキスト・ドキュメントのコーパスをインデックス化するための装置であって、
前記ドキュメントに現れるタームの逆インデックスを作成するように構成されたインデックス・プロセッサと、
少なくとも1つのパラメータであって、プルーニングされた逆インデックスにおいて残すべきスコアの数Mを含むパラメータを受け取るためのユーザ・インターフェースを含み、
前記インデックスは、各タームについて、当該タームを含むドキュメントの識別子及び当該ドキュメントにおける前記タームの前記スコアを含むポスティングのリストを含み、
前記プロセッサは、実行依頼された照会の統計分布に関する情報に基づいて、前記タームの少なくとも幾つかの、照会に出現する確率を決定し、前記タームの少なくとも幾つかの各々についてポスティング・スコアを前記タームの前記確率によって乗じ、前記乗じられたポスティング・スコアによってすべてのポスティングをランク付け、前記ランキングにおける所与のレベルよりも低い前記ポスティングを前記インデックスからプルーニングし、
前記所与のレベルは、前記ランキングのトップからMのドキュメントのスコアを含む、
装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25899100P | 2000-12-29 | 2000-12-29 | |
PCT/US2001/049260 WO2002054289A1 (en) | 2000-12-29 | 2001-12-19 | Lossy index compression |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007303708A Division JP4808697B2 (ja) | 2000-12-29 | 2007-11-22 | 有損失インデックス圧縮装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004525442A JP2004525442A (ja) | 2004-08-19 |
JP4080878B2 true JP4080878B2 (ja) | 2008-04-23 |
Family
ID=22983032
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002555320A Expired - Lifetime JP4080878B2 (ja) | 2000-12-29 | 2001-12-19 | 有損失インデックス圧縮装置 |
JP2007303708A Expired - Lifetime JP4808697B2 (ja) | 2000-12-29 | 2007-11-22 | 有損失インデックス圧縮装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007303708A Expired - Lifetime JP4808697B2 (ja) | 2000-12-29 | 2007-11-22 | 有損失インデックス圧縮装置 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1346296B1 (ja) |
JP (2) | JP4080878B2 (ja) |
CN (1) | CN1191540C (ja) |
CA (1) | CA2432357A1 (ja) |
WO (1) | WO2002054289A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6947930B2 (en) * | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
US8417693B2 (en) * | 2005-07-14 | 2013-04-09 | International Business Machines Corporation | Enforcing native access control to indexed documents |
US8600997B2 (en) * | 2005-09-30 | 2013-12-03 | International Business Machines Corporation | Method and framework to support indexing and searching taxonomies in large scale full text indexes |
US7689559B2 (en) | 2006-02-08 | 2010-03-30 | Telenor Asa | Document similarity scoring and ranking method, device and computer program product |
CN102918524B (zh) | 2010-05-28 | 2016-06-01 | 富士通株式会社 | 信息生成程序、装置、方法以及信息检索程序、装置、方法 |
CN102929988B (zh) * | 2012-10-19 | 2015-07-08 | 中国科学院计算技术研究所 | 用于对倒排索引进行压缩的文档序号重排方法及其系统 |
CN108804477A (zh) * | 2017-05-05 | 2018-11-13 | 广东神马搜索科技有限公司 | 动态截断方法、装置及服务器 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05257774A (ja) * | 1992-03-10 | 1993-10-08 | Fujitsu Ltd | インデックス・レコード番号を圧縮・格納した情報検索装置 |
US5926811A (en) * | 1996-03-15 | 1999-07-20 | Lexis-Nexis | Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching |
US5867799A (en) * | 1996-04-04 | 1999-02-02 | Lang; Andrew K. | Information system and method for filtering a massive flow of information entities to meet user information classification needs |
US5915249A (en) * | 1996-06-14 | 1999-06-22 | Excite, Inc. | System and method for accelerated query evaluation of very large full-text databases |
AU3484897A (en) * | 1996-06-17 | 1998-01-07 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US6163782A (en) * | 1997-11-19 | 2000-12-19 | At&T Corp. | Efficient and effective distributed information management |
JPH11306203A (ja) * | 1998-04-20 | 1999-11-05 | Intec Inc | インデックス作成方法及び文書検索処理方法 |
JP2000285116A (ja) * | 1999-03-31 | 2000-10-13 | Just Syst Corp | 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
EP1328871A2 (en) * | 1999-07-23 | 2003-07-23 | Merck & Co., Inc. | Method and storage/retrieval system of chemical substances in a database |
-
2001
- 2001-12-19 CA CA002432357A patent/CA2432357A1/en not_active Abandoned
- 2001-12-19 CN CNB018212808A patent/CN1191540C/zh not_active Expired - Lifetime
- 2001-12-19 EP EP01992199A patent/EP1346296B1/en not_active Expired - Lifetime
- 2001-12-19 JP JP2002555320A patent/JP4080878B2/ja not_active Expired - Lifetime
- 2001-12-19 WO PCT/US2001/049260 patent/WO2002054289A1/en active Application Filing
-
2007
- 2007-11-22 JP JP2007303708A patent/JP4808697B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
WO2002054289A1 (en) | 2002-07-11 |
CA2432357A1 (en) | 2002-07-11 |
JP2004525442A (ja) | 2004-08-19 |
EP1346296A4 (en) | 2008-07-02 |
JP2008117407A (ja) | 2008-05-22 |
CN1191540C (zh) | 2005-03-02 |
CN1483169A (zh) | 2004-03-17 |
EP1346296A1 (en) | 2003-09-24 |
JP4808697B2 (ja) | 2011-11-02 |
EP1346296B1 (en) | 2012-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7356527B2 (en) | Lossy index compression | |
US8626781B2 (en) | Priority hash index | |
US8290975B2 (en) | Graph-based keyword expansion | |
JP4808697B2 (ja) | 有損失インデックス圧縮装置 | |
US8620907B2 (en) | Matching funnel for large document index | |
JP5494454B2 (ja) | 検索結果生成方法、検索結果生成プログラムおよび検索システム | |
US20170083553A1 (en) | Tiering of posting lists in search engine index | |
JP2012533819A (ja) | 文書インデックス化およびデータクエリングのための方法およびシステム | |
US8375022B2 (en) | Keyword determination based on a weight of meaningfulness | |
Carmel et al. | Juru at TREC 10-Experiments with Index Pruning. | |
Billerbeck et al. | Techniques for efficient query expansion | |
Blanco et al. | Static pruning of terms in inverted files | |
Broschart et al. | High-performance processing of text queries with tunable pruned term and term pair indexes | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
Yi et al. | A content based approach for discovering missing anchor text for web search | |
Tonellotto et al. | Efficient Dynamic Pruning with Proximity Support. | |
Billerbeck et al. | Efficient query expansion with auxiliary data structures | |
Garcia | Search engine optimisation using past queries | |
Zheng et al. | Document-oriented pruning of the inverted index in information retrieval systems | |
Veretennikov | An efficient algorithm for three-component key index construction | |
Lacour et al. | Efficiency comparison of document matching techniques | |
Chen et al. | An empirical analysis of pruning techniques: performance, retrievability and bias | |
AU2002232665A1 (en) | Lossy index compression | |
Dang et al. | Fast forward index methods for pseudo-relevance feedback retrieval | |
Praba et al. | Evaluation of Web Searching Method Using a Novel WPRR Algorithm for Two Different Case Studies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060822 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061114 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070221 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070910 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071122 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080207 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110215 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4080878 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110215 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110215 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120215 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120215 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130215 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130215 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140215 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |