JP2008117407A - 有損失インデックス圧縮装置 - Google Patents

有損失インデックス圧縮装置 Download PDF

Info

Publication number
JP2008117407A
JP2008117407A JP2007303708A JP2007303708A JP2008117407A JP 2008117407 A JP2008117407 A JP 2008117407A JP 2007303708 A JP2007303708 A JP 2007303708A JP 2007303708 A JP2007303708 A JP 2007303708A JP 2008117407 A JP2008117407 A JP 2008117407A
Authority
JP
Japan
Prior art keywords
index
document
ranking
documents
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007303708A
Other languages
English (en)
Other versions
JP4808697B2 (ja
Inventor
David Carmel
カーメル、デイビッド
Doron Cohen
コーヘン、ドロン
Ronald Fagin
フェーギン、ロナルド
Eitan Farchi
ファーチ、イータン
Michael Herscovici
ハースコビッチ、マイケル
Yoelle Maarek
マーレック、ヨエリ
Aya Soffer
ソッファ、アヤ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2008117407A publication Critical patent/JP2008117407A/ja
Application granted granted Critical
Publication of JP4808697B2 publication Critical patent/JP4808697B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】 テキスト・ドキュメントのコーパスのインデックスをプルーニングする方法を実行するための装置を提供する。
【解決手段】 この方法は、インデックスにおけるポスティングをランク付けするステップ(50)及びそのランク付けにおいて所与のレベルよりも低いポスティングをインデックスからプルーニングするステップ(48)を含む。所与のレベルは、ユーザから受け取ったパラメータ及びランキングに基づいて、プルーニング前の逆インデックスを使用して戻される結果の上位と、プルーニング後の逆インデックスを使用して戻される結果の上位とが類似するように設定される。
【選択図】 図2

Description

本発明は、一般的に云えば、大量のテキスト・データをコンピュータ・サーチするための方法及びシステムに関し、特に、サーチ・インデックスの作成に関するものである。
ウェブ及びデスクトップ・アプリケーションでは、高速且つ正確なテキスト・サーチ・エンジンが広範囲に使用されている。Palm Pilot(商標)のような新生のハンドヘルド装置は、普通サイズ・ドキュメントの集合体全体がクイック・リファレンス及びブラウジングを目的としてその装置に記憶されることを可能にするに十分な記憶容量を持っている。これらの装置に拡張インデックス・ベースのサーチ機能を具備させることは望ましいが、ハンドヘルド装置における記憶装置はむしろ制限を受ける。
ほとんどの先進的な情報検索(IR)アプリケーションは、所与のドキュメント集合体における高品質のサーチ・サービスをサポートするために逆インデックスを作っている。そのようなシステムの1つの例は、Guru サーチエンジンである。それは、1989年発行の Proceedings of the Twelfth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 誌の198−206ページにおける "Full text indexing based on lexical relations, an application: Software libraries" と題した Maarek 及び Smadja 氏による論文に開示されている(非特許文献1参照)。ドキュメント集合体における各ドキュメントは、そのドキュメントの内容に基づいてインデキシング・ユニット又はターム(term)によって分析及び表示される。タームは、ワード、一対の密接に関連したワード(字句類似性 - lexical affinities)、又はフレーズであってもよい。ドキュメントにおける各タームは、関連のポスティング・リスト(posting list)と共にインデックスに記憶される。
ポスティング・リストはポスティング(postings)を含み、各ポスティングは、そのタームを含むドキュメントの識別子、そのドキュメントにおけるそのタームのスコア(score)、及び、発生の回数及び発生のオフセットのようなドキュメントにおけるそのタームの発生に関する何らかの付加的情報を含む。多くの情報検索システムにおいて使用される典型的なスコア・モデルが、"An Introduction to Modern Information Retrieval" と題した Salton 及び McGill 著(1983年、McGraw-Hill SHA発行)の文献に開示された tf-idf 公式である(非特許文献2参照)。ドキュメント d に対するターム t のスコアは、d における t のターム頻度(tf)、ドキュメント d の長さ、及び集合体において t を含むドキュメントの数の逆数(idf)に依存する。
例示的な tf-idf 公式は、Proceedings of the Fourth Text Retrieval Conference(TRE-4),(Gaithersberg, Maryland, November 1995)誌の25−48ページにおける "New retreival approaches using SMART:TREC 4" と題した Chris Buckley 氏他による論文に開示されている(非特許文献3参照)。この公式は、ターム t に対するドキュメント d のスコア A(t,d) を次のように提供する。
Figure 2008117407
但し、avgtf はドキュメント d における平均的なターム頻度であり、N はその集合体におけるドキュメントの数であり、Nt は、ターム t を含むドキュメントの数であり、|d| はドキュメントの d の長さである。|d| は、d における(唯一の)タームの数の平方根によって近似化される。
サーチ時、複数のタームがユーザの照会から取り出され、それらのそれぞれのポスティング・リストが逆インデックスから検索される。ドキュメント・ポスティング・スコアは、同じドキュメントに関連したポスティングのスコアを合計することによりドキュメント・スコアを形成するために累算される。このプロセスの終了時に、ドキュメントがそれらのスコアによってソートされ、トップ・スコアを有するドキュメントが戻される。
大きなドキュメント集合体をインデックス化すると、その結果として維持することが難しい巨大なインデックス・ファイルが生じる。インデックス圧縮の分野では、多くの研究がなされ、その結果、より小型のインデックス・ファイルが生じた。この技術分野には、2つの相補的な方法が存在する。1つの方法は、データ構造レベルにおける圧縮、即ち、ポスティング・リストのよりコンパクトな表記を得ようとすると共にすべてのインデックス・データを保存する圧縮である。別の方法は、ストップ・ワード省略(stop-word omission)のようなタームを削除又は結合することによって及び潜在的意味インデキシング(Latent Semantic Indexing - LSI)によってインデックスをプルーニング(pruning)することである。この種のインデックス・プルーニングの主たる目的は、サーチ精度を下げる傾向のあるインデックス・タームから「ノイズ」を除去することによってインデキシング・システムにおける「ノイズ」を減少させることであるが、インデックス・サイズを縮小するというそれの実用的効果は、インデックス圧縮という主題に大いに関連している。
Maarek及びSmadja、「Full text indexing based on lexical relations, an application: Software libraries」、Proceedings of the Twelfth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval、1989年、198-206頁 Salton及びMcGill、「An Introduction to Modern Information Retrieval」、McGraw-Hill SHA、1983年 Chris Buckley、外、「New retreival approaches using SMART:TREC 4」、Proceedings of the Fourth Text Retrieval Conference(TRE-4)、1995年、25-48頁 「Overview of the Seventh Text Retrieval Conference(TREC」、Proceedings of the Seventh Text Retrieval Conference(TRE-7)、National Institute of Standards and Technology、1999年 Witten、外、「Managing Gigabytes」、Morgan Kaufman Publishers、1999年 Deerweester、外、「Indexing by Latent Semantic Analysis」、Journal of the American Society for Information Science、41巻、1号、1990年、391-407頁 Persin、「Document Filtering for Fast Ranking」、Proceeedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval、1994年、339-348頁
ストップ・ワード省略の場合、ほとんどのドキュメントにおいて必然的に生じるというほど頻繁にその言語において生じるワードを見つけるために、言語統計が使用される。その言語では非常に頻繁にあるワード(ストップ・ワード)は、逆インデックスを形成するときには無視される。"the" 及び "is" のようなワードは、検索タスクには寄与しない。Proceedings of the Seventh Text Retrieval Conference(TREC-7)(National Institute of Standards and Technology, 1999)誌の "Overview of the Seventh Text Retrieval Conference(TREC)" において発表されたTREC集合体は、一般的なテキスト・ドキュメントにおけるワードの頻度を列挙している(非特許文献4参照)。TREC集合体における135個の最も頻繁に生じるワードのセットを無視することがポスティングの約25%を除去するということがわかった(1999年発行の米国カリフォルニア州サンフランシスコの Morgan Kaufman Publishers 社の "Managing Gigabytes" と題した Witten 氏他による文献(非特許文献5)参照)。
潜在的意味インデキシング(LSI)は、例えば、Journal of the American Society for Information Science 誌の Vol.41, No.1, (1990), pp.391-407 における "Indexing by Latent Semantic Analysis" と題した Deerweester 氏他による論文に開示されている(非特許文献6参照)。LSIは、特異値分解(singular-value decomposition - SVD)と呼ばれる統計的手法を使用して、逆インデックスを3つのマトリクスの積として表す。この表記法は、最も重要なタームを保持すると共に他のすべてのタームを除去することによって、インデックスにおけるタームの数を減少させることを可能にする。LSI及びストップ・ワード省略の両方とも、タームの細分化(granularity)時に動作する。換言すれば、それらは、単に、インデックスからターム全体をプルーニングすることを可能にするものであり、従って、一旦プルーニングされると、最早、そのタームはそのインデックスにおいて全く現れない。タームがプルーニングされるとき、そのポスティング・リスト全体がインデックスから除去される。
ダイナミック・プルーニング技法は、インデックスが既に作成されていた場合、或るターム又はドキュメント・ポスティングが、累積されたドキュメント・スコアに加える価値があるものであるかどうか、及びランキング・プロセスが継続すべきか又は停止すべきかを、ドキュメント・ランク付けプロセス中に決定する。このソートの例示的技法が、Proceeedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval(Dublin, Ireland,July 1994, Special Issue of the SIGIR Forum)誌の339−348ページにおける "Document Filtering for Fast Ranking" と題した Persin 氏による論文に開示されている(非特許文献7参照)。そのダイナミック技法は、所与の照会に対して適用され、従って、照会時間を減少させる。ダイナミック技法は、それらが既に記憶済みのインデックスに適用されるので、インデックス・サイズには影響しない。
実施例では、集合体におけるドキュメントにタームを関連付ける逆インデックスが、その分野における既知のシステムにおけるように、ターム・レベルの細分化持ではなく、ドキュメント・ポスティング・レベルの細分化持にプルーニングされる。
望ましくは、ドキュメント・ポスティングに対するメトリクス(metrics)が決定され、それが逆インデックスから除去すべきポスティングを選択するために適用される。メトリクスは、ユーザが圧縮された逆インデックスを所与の照会持にサーチするとき、戻されたドキュメントのリストが、プルーニングされてないインデックスにおける同じ照会によって戻された最高ランクのドキュメントのリストと実質的に同じになるように適用される。本発明のプルーニング方法は、ポスティング・リストにデータを記憶するためのコンパクトなデータ構造及び表記法を使用することによってインデックスを圧縮するというその分野で知られた方法とは反対に、或るドキュメント・ポスティングがインデックスから除去されるので、損失的である。損失的方法及び非損失的方法は、相互に補足的である。損失的態様でインデックスをプルーニングした後、そのインデックスは、更に、非損失的態様で圧縮可能であり、それによってそれらの方法の1つを単独で使用した場合に可能なサイズよりも小さいインデックス・サイズを得ることができる。
従って、本発明の望ましい実施例によれば、テキスト・ドキュメントのコーパス(corpus)をインデックス化するための方法を遂行する装置が提供される。その方法は、
ドキュメントに現れるタームの逆インデックスであって、ドキュメントにおけるタームのポスティングを含むインデックスを作成するステップと、
インデックスにおけるポスティングをランク付けするステップと、
ランク付けにおいて所与のレベルよりも低いポスティングをインデックスからプルーニングするステップと、
を含む。
ポスティングのランク付けは、それらタームの少なくとも幾つかの各々に対する個別のランキングを別々に決定することを含み得るし、インデックスのプルーニングは、それらタームの少なくとも幾つかの各々に対する個別のランキングをプルーニングすることを含み得る。
望ましくは、インデックスのプルーニングは、ユーザから少なくとも1つのパラメータを受け取ること、及びそのパラメータ及び個別のインデックス・ランキングに基づいて所与のレベルを設定することを含む。
更に、少なくとも1つのパラメータは、望ましくは、インデックスから検索すべきドキュメントの数k及び1つの照会において許容されるターム数rを含み、所与のレベルの設定は、ランキングにおけるトップからkにランク付けされたそれらドキュメントの1つのスコアに基づいてそのレベルを設定することを含む。
1つの実施例によれば、所与のレベルの設定は、望ましくは、ドキュメントの1つのスコアをrによって除することを含む。
別の実施例では、少なくとも1つのパラメータは、ランキングから検索すべきドキュメントの部分の数δ、及び1つの照会において許容されるタームの数rを含み、所与のレベルの設定は、ランキングにおけるドキュメントのうちの1番目のドキュメントのスコア、並びにδ及びrに基づいてレベルを設定することを含む。
望ましくは、所与のレベルの設定は、1番目のドキュメントのスコアをδによって乗じること及びrによって除することを含む。
更に別の実施例では、インデックスのプルーニングは、ドキュメント・ポスティングに関して、サーチ・スペースにおける照会の統計分布に関する情報に基づいて、プルーニングすべきポスティングを選択することを含む。
インデックスのプルーニングは、ユーザから少なくとも1つのパラメータを受け取ること、及びそのパラメータ及びインデックス・ランキングに基づいて所与のレベルを設定することを含み得る。
少なくとも1つのパラメータは、プルーニングされた逆インデックスにおいて残すべきスコアの数Mを含み得る。
望ましくは、ポスティングの選択は、タームのうちの少なくとも幾つかの確率を決定すること及びタームのうちの少なくとも幾つかの各々に対するポスティング・スコアをタームの確率によって乗じることを含み、インデックスのランク付けは、乗じられたポスティング・スコアによってポスティングをすべてランク付けすることを含み、所与のレベルは、ランキングのトップからのMのドキュメントのスコアを含む。
望ましい実施例では、インデックスの作成は、大きなメモリ容量を有するコンピュータにおいてそのインデックスを作成すること、及び限定されたメモリ容量を有する装置にプルーニング後のインデックスを転送することを含む。
望ましくは、限定されたメモリ容量の装置は、ハンドヘルド・コンピュータ装置を含む。
所与のタームに対してプルーニングすべきポスティングの適切な選択によって、ユーザの観点からインデックスのサーチ精度に大きな影響を与えることなく、インデックスのサイズを実質的に減少させることができる。
図1は、本発明の望ましい実施例に従って、圧縮されたサーチ・インデックスを作成するためのシステムの概略図である。ユーザ10は、インデックス処理装置12を使用してドキュメント・アーカイブ14をアクセスする。ドキュメント・アーカイブ14から検索されたドキュメントは、装置12における既存のドキュメント・アーカイブと結合可能である。装置12は、詳細に後述される方法を使用して、アーカイブの圧縮された逆インデックス22を作成する。一般的に、圧縮された逆インデックス又はアーカイブ22は、コンピュータ装置24に転送される。装置24は、大量のインデックスを記憶するためのそれの能力が限定されていることによって、装置12とは区別される。望ましくは、インデックスを作成するために使用されるドキュメント・アーカイブも同様に装置24に転送される。そこで、ユーザは、装置24を使用して照会をドキュメント・アーカイブの形に公式化し、装置24の限定された記憶容量にもかかわらず適正なドキュメントのリストを検索する。
一般に、装置12は、デスクトップ・コンピュータ又はサーバを含み、一方、装置24は、図示のように、パーム装置又はハンドヘルド・コンピュータのような携帯型パーベイシブ(pervasive)装置である。しかし、代替えとして、装置24は、デスクトップ・コンピュータ又は他のコンピュータ・ワークステーションを含み得る。
図2は、本発明の望ましい実施例に従って、圧縮された逆インデックス22を作成するための方法を概略的に示すフローチャートである。この方法のステップは、望ましくは、装置12上で走る適当なソフトウェアによって実行される。そのソフトウェアは、ネットワークを介してダウンロードすることによって電子的形式で装置12に供給可能であり、或いは、別の方法として、CD−ROM又は不揮発性メモリのような実体的な媒体によって供給可能である。
ユーザ10は、ドキュメント追加ステップ44において、ドキュメント・アーカイブ14を作成するか、又は既存のアーカイブにドキュメントを追加する。インデックス圧縮ソフトウェアは、その分野では知られているように、各ドキュメントからタームを抽出すること、各ドキュメントにおける各タームに対してドキュメント・ポスティングを作成すること、及びそのドキュメント・ポスティングをインデックスにおいてリストすることによって、インデックス作成ステップ46において初期インデックスAを作成する。
各ドキュメント・ポスティングは、前述のように、それと関連したスコアを有する。スコアを計算する種々の方法がその分野では知られており、選択された方法は、本発明にとって本質的なものではない。むしろ、t が d 内にない場合には A(t,d) = 0、そうでない場合には、A(t,d) > 0 であるということで十分である。
そこで、ユーザは、パラメータ入力ステップ48において、プルーニング・パラメータを入力する。それらのパラメータは、インデックス・ランク付けステップ50において、インデックスAにおけるそれらポスティングのランク付けのために使用される。
プルーニング・パラメータの条件を満足させるそれらポスティングのランキングにおけるカットオフ・レベルが決定される。所与のタームに対するそのカットオフ・レベルよりも低くランク付けされたすべてのポスティングがインデックスAから削除される。この方法では、インデックスA*と呼ばれる圧縮されたインデックスがポスティング除去ステップ52において作成される。このインデックスは、前述の方法のようなその分野において知られたターム・プルーニング及びデータ構造圧縮の方法によって、サイズを更に減少し得る。インデックスA*という圧縮バージョンは、インデックス記憶ステップ54において、圧縮済みインデックスとして記憶される。
圧縮済みインデックスA*は、ユーザの観点からは、オリジナル・インデックスAと同じである。ユーザがインデックスA又はA*を照会するとき、ユーザは、タームのポスティング・リストに基づいて、照会タームに対する関連に従ってランク付けされるドキュメントのリストを受け取る。ステップ48におけるプルーニング・パラメータの適正な選択並びにステップ50及び52におけるそれらパラメータの適用によって、照会に応答してA*に戻されたドキュメントのリスト及びそのリストにおけるドキュメントの順序は、Aによって戻されたそのリストのトップと実質的に同じになるであろう。これは、一般に、ユーザにとって興味のあるそのリストの唯一の部分である。この意味で、本発明の方法は、イメージ及びサウンドの有損失圧縮の方法に類似している。即ち、その有損失圧縮では、ほとんどの場合ユーザにとって些細なことである詳細事項を犠牲にすることによって、データ量の実質的な減少が得られる。
入力パラメータを指定し(ステップ48)、それらのパラメータを応用する(ステップ50及び52)ための3つの望ましい方法を次に説明する。最初の2つの方法は、照会に応答して、プルーニングされたインデックスにより戻されるトップ・アンサー(top-answer)をオリジナル・インデックスによって戻されるトップ・アンサーにできるだけ近くなるよう維持する一方で、できるだけ多くのドキュメント・ポスティングを削除する。その近さは、プルーニングされたインデックスにより戻されるトップ結果のセットとオリジナル・インデックスにより戻されるトップ結果のセットとの類似性によって決定されるトップ・アンサー・メトリックを使用して測定される。
第3の方法である独特のドキュメント・ポスティング・プルーニング方法は、予想されたエラーをできるだけ少なく保ちながら、所与のインデックス・サイズを得るために必要とするほど多くのドキュメント・ポスティングを除去する。その予想されるエラーは、各照会に対してオリジナル・インデックスにより戻されたドキュメント・スコア及び圧縮済みインデックスによって戻されたドキュメント・スコアの間の差を可能な照会すべてにわたって合計したものとして定義されるメトリックを使って測定される。
圧縮済みインデックスは、任意の所与の照会に対して、オリジナル・インデックスの「トップ・アンサー」と同じ「トップ・アンサー」を照会に戻す場合、オリジナル・インデックスと同じであるとして定義される。本発明の2つの望ましい実施例は、「トップ・アンサー」に対する次のような2つの可能な測定から抽出する。
(1)「k-トップ・アンサー」方法は、1つの照会に対して最高のスコアを有するk個のドキュメントとして「トップ・アンサー」を定義する(ここでKはステップ48における入力である)。任意の照会における最大の許容可能なターム数としてrを定義する。各タームtに対して、値 A(t,d0),A(t,d1),.....が、ステップ50において、それらの絶対値に従ってランク付けされる。zt をランキングにおけるk番目のタームの絶対値であると仮定する。そこで、ステップ52において、A(t,d) < Zt/r である場合、A*(t,d) は 0 にセットされる。しかし、そうでない場合、A*(t,d) = A(t,d) である。A*(t,d)=0 の場合のポスティングは、勿論、インデックスから除去される。
(2)「δ-トップ・アンサー」方法は、所与の照会に対してスコアリング関数のトップ・スコアからの距離における閾値の点から「トップ・アンサー」を定義する。この場合、δは、ステップ48において入力される。例えば、δ=0.9に対して、トップ・スコアの90%よりも高いスコアを有するいずれのドキュメントも、トップ・アンサーと見なされる。ここでも、ステップ50において、A(t,d) の値がランク付けされる。ステップ52において、各タームtに対し、最大値 max(A(t,d)) が検出される。Zt = δ* max(A(t,d)) あると仮定する。そこで、他の点では、A(t,d) < Zt/r である場合、A*(t,d) = 0 であり、そうでない場合、A*(t,d) = A(t,d) である。A*(t,d) = 0 の場合のポスティングは、勿論、インデックスから除去される。
図3は、上記の第3の独特なポスティング・プルーニング方法に対するプルーニング・パラメータ入力ステップ48を拡張したものである。外部プロセスが、プルーニング・パラメータ入力ステップ56におけるシステムへの分布入力時に、すべての可能な照会セットの確率分布 Distq を決定する。Distq は、例えば、言語におけるタームの分布から、又はサーチ・エンジンの照会ログ・ファイルから、又は他の適当な方法から得ることができる。インデックス Distt におけるタームの分布は、決定ステップ60において、照会及び Distq から誘導される。そのタームの分布は、サーチ・エンジンに実行依頼された照会にタームtが出現する確率を反映している。タームが出現する確率は、Pr(t) = Σq in Q, t in q Pr(q) として照会確率によって表すことができる。但し、Qは、すべての可能な照会のセットである。ユーザは、ステップ58において、インデックス A* に維持するポスティングの所望の数Mを入力する。しかる後、インデックス圧縮ランクの第3の望ましい実施例では、ステップ50において、Aの値がランク付けられ、そして、ステップ52において、次のように、 A* が作成される。先ず、A 及び Disttに基づいて、A'(t,d) = Pr(t)A(t,d) スコアリング・インデックス A' が作成される。A' におけるすべてのスコアがランク付けされ、z よりも大きい、M個のスコアが A' に存在するように Z が決定される。この方法では、z は、前述の第1の2つの方法におけるようにタームt単位ではなく、A' にわたってグローバル・パラメータであることに留意されたい。そこで、A'(t,d) < z である場合、A*(t,d) = 0 であり、そうでない場合、A*(t,d) = A(t,d) である。
約132,000個のドキュメントを含む、TRECにおいて提供されたロサンゼルス・タイムスのデータを使用して、これら3つの方法が経験的なデータに関してテストされた。その方法のパフォーマンスを改善するために、オリジナル・インデックスが修正された。各タームに関して、そのタームに対するすべてのドキュメント・ポスティングにおける最小スコアが他のスコアすべてから差し引かれた。前述の方法に対するこの修正の後、トップ-kプルーニング方法は、1ターム当たり10個のスコア及び10個以下のタームの照会を使用して、サーチ結果を大きく低下させることなく、ドキュメント・ポスティングの25%までのプルーニングを可能にした。トップ-δプルーニング方法は、1ターム当たりトップ70%のスコア及び10個以下のタームの照会を使用して、サーチ結果を大きく低下させることなく、ドキュメント・ポスティングの25%までのプルーニングを可能にした。トップ-k及びトップ-δのプルーニング方法の両方とも、選択されたドキュメント・アーカイブに対する一様なポスティング・プルーニング方法よりも良好に遂行された。
工業的応用: 本発明は、例えば、ドキュメントに出現するタームの逆インデックスを作成するように構成されたインデックス・プロセッサを含むテキスト・ドキュメントのコーパスをインデックス化するための装置を提供することによって、産業の開発を可能にする。なお、そのインデックスは、ドキュメントにおけるタームのポスティングを含み、プロセッサは、更に、インデックスにおけるポスティングのランキングを作成するように、及びランキングにおける所与のレベル以下のポスティングをそのインデックスからプルーニングするように構成される。
本発明は、更に、望ましい実施例によれば、プログラム命令が記憶されるコンピュータ可読媒体を含み、テキスト・ドキュメントのコーパスをインデックス化するためのコンピュータ・ソフトウェア製品を提供することによって使用可能である。なお、そのプログラム命令は、コンピュータによって読み取られるとき、ドキュメントに出現するタームの逆インデックスをコンピュータに作成させ、そのインデックスは、ドキュメントにおけるタームのポスティングを含み、それらの命令は、更に、そのインデックスにおいてポスティングをコンピュータにランク付けさせ、しかも、ランキングにおける所与のレベル以下のポスティングをインデックスからコンピュータにプルーニングする。
上述の望ましい実施例は例として示されたこと、及び本発明が、詳細に示された事項及び記述された事項に限定されないことは明らかであろう。むしろ、本発明の範囲は、上述の種々の特徴の組み合わせ、及び上記説明を読むことにより当業者が思いつき且つ従来技術では開示されてないそれらの種々の変更及び修正も含むものである。
本発明の望ましい実施例に従って、サーチ・インデックスを作成するためのシステムの概略図である。 本発明の望ましい実施例に従って、インデックスを圧縮するための方法を概略的に示すフローチャートである。 本発明の望ましい実施例に従って、図2の方法において使用されるプルーニング・パラメータを入力するための技法の詳細を概略的に示すフローチャートである。
符号の説明
10 ユーザ
12 インデックス処理装置
14 ドキュメント・アーカイブ
22 圧縮されたアーカイブ
24 コンピュータ装置

Claims (5)

  1. テキスト・ドキュメントのコーパスをインデックス化するための装置であって、
    前記ドキュメントに現れるタームの逆インデックスを作成するように構成されたインデックス・プロセッサと、
    少なくとも1つのパラメータを受け取るためのユーザ・インターフェースとを含み、
    前記逆インデックスは、各タームについて、当該タームを含むドキュメントの識別子及び当該ドキュメントにおける前記タームのスコアを含むポスティングのリストを含み、
    前記プロセッサは、前記タームの少なくともいくつかの各々について、ポスティングのランキングを決定し、前記ランキングにおける所与のレベルよりも低い前記ポスティングを前記インデックスからプルーニングし、
    前記所与のレベルは、前記パラメータ及び前記ランキングに基づいて、プルーニング前の前記逆インデックスを使用して戻される照会結果の上位と、プルーニング後の前記逆インデックスを使用して戻される照会結果の上位とが類似するように設定される、
    装置。
  2. 前記少なくとも1つのパラメータは、前記逆インデックスから検索すべきドキュメントの数k及び1つの照会において許容されるタームの数rを含み、
    前記プロセッサは、前記ランキングにおけるトップからkにランク付けされた前記ドキュメントの1つの前記スコアに基づいて前記所与のレベルを設定するように構成される、請求項1に記載の装置。
  3. 前記プロセッサは、前記ドキュメントの1つの前記スコアをrによって除することによって前記所与のレベルを設定するように構成される、請求項2に記載の装置。
  4. 前記少なくとも1つのパラメータは、前記ランキングから検索すべきドキュメントの数δ及び1つの照会において許容されるタームの数rを含み、
    前記プロセッサは、前記ランキングにおけるドキュメントのうちの1番目のドキュメントのスコア、並びにδ及びrに基づいて前記所与のレベルを設定するように構成される、請求項1に記載の装置。
  5. 前記プロセッサは、前記1番目のドキュメントのスコアをδによって乗じ、かつrによって除して前記所与のレベルを設定するよう構成される、請求項4に記載の装置。
JP2007303708A 2000-12-29 2007-11-22 有損失インデックス圧縮装置 Expired - Lifetime JP4808697B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25899100P 2000-12-29 2000-12-29
US60/258,991 2000-12-29

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002555320A Division JP4080878B2 (ja) 2000-12-29 2001-12-19 有損失インデックス圧縮装置

Publications (2)

Publication Number Publication Date
JP2008117407A true JP2008117407A (ja) 2008-05-22
JP4808697B2 JP4808697B2 (ja) 2011-11-02

Family

ID=22983032

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002555320A Expired - Lifetime JP4080878B2 (ja) 2000-12-29 2001-12-19 有損失インデックス圧縮装置
JP2007303708A Expired - Lifetime JP4808697B2 (ja) 2000-12-29 2007-11-22 有損失インデックス圧縮装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2002555320A Expired - Lifetime JP4080878B2 (ja) 2000-12-29 2001-12-19 有損失インデックス圧縮装置

Country Status (5)

Country Link
EP (1) EP1346296B1 (ja)
JP (2) JP4080878B2 (ja)
CN (1) CN1191540C (ja)
CA (1) CA2432357A1 (ja)
WO (1) WO2002054289A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US8417693B2 (en) * 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
US8600997B2 (en) * 2005-09-30 2013-12-03 International Business Machines Corporation Method and framework to support indexing and searching taxonomies in large scale full text indexes
US7689559B2 (en) * 2006-02-08 2010-03-30 Telenor Asa Document similarity scoring and ranking method, device and computer program product
JP5741577B2 (ja) 2010-05-28 2015-07-01 富士通株式会社 情報生成プログラム、情報生成装置、および情報生成方法
CN102929988B (zh) * 2012-10-19 2015-07-08 中国科学院计算技术研究所 用于对倒排索引进行压缩的文档序号重排方法及其系统
CN108804477A (zh) * 2017-05-05 2018-11-13 广东神马搜索科技有限公司 动态截断方法、装置及服务器
CN112513831A (zh) * 2018-06-06 2021-03-16 西门子股份公司 在数字时间序列数据中施行范围搜索的方法和计算机化设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257774A (ja) * 1992-03-10 1993-10-08 Fujitsu Ltd インデックス・レコード番号を圧縮・格納した情報検索装置
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
JPH11306203A (ja) * 1998-04-20 1999-11-05 Intec Inc インデックス作成方法及び文書検索処理方法
JP2000285116A (ja) * 1999-03-31 2000-10-13 Just Syst Corp 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867799A (en) * 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
US5915249A (en) * 1996-06-14 1999-06-22 Excite, Inc. System and method for accelerated query evaluation of very large full-text databases
AU3484897A (en) 1996-06-17 1998-01-07 Idd Enterprises, L.P. Hypertext document retrieval system and method
US6163782A (en) * 1997-11-19 2000-12-19 At&T Corp. Efficient and effective distributed information management
AU6233800A (en) * 1999-07-23 2001-02-13 Merck & Co., Inc. Text influenced molecular indexing system and computer-implemented and/or computer-assisted method for same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257774A (ja) * 1992-03-10 1993-10-08 Fujitsu Ltd インデックス・レコード番号を圧縮・格納した情報検索装置
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
JPH11306203A (ja) * 1998-04-20 1999-11-05 Intec Inc インデックス作成方法及び文書検索処理方法
JP2000285116A (ja) * 1999-03-31 2000-10-13 Just Syst Corp 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
EP1346296A4 (en) 2008-07-02
CN1191540C (zh) 2005-03-02
EP1346296A1 (en) 2003-09-24
JP4080878B2 (ja) 2008-04-23
JP2004525442A (ja) 2004-08-19
CA2432357A1 (en) 2002-07-11
CN1483169A (zh) 2004-03-17
EP1346296B1 (en) 2012-09-19
WO2002054289A1 (en) 2002-07-11
JP4808697B2 (ja) 2011-11-02

Similar Documents

Publication Publication Date Title
US7356527B2 (en) Lossy index compression
JP4808697B2 (ja) 有損失インデックス圧縮装置
US8626781B2 (en) Priority hash index
US8290975B2 (en) Graph-based keyword expansion
JP5494454B2 (ja) 検索結果生成方法、検索結果生成プログラムおよび検索システム
US20170083553A1 (en) Tiering of posting lists in search engine index
US8620907B2 (en) Matching funnel for large document index
JP5616444B2 (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
Asadi et al. Fast candidate generation for two-phase document ranking: Postings list intersection with Bloom filters
Blanco et al. Static pruning of terms in inverted files
Billerbeck et al. Techniques for efficient query expansion
Bast et al. Efficient index-based snippet generation
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
Billerbeck et al. Efficient query expansion with auxiliary data structures
Veretennikov An efficient algorithm for three-component key index construction
Chen et al. An empirical analysis of pruning techniques: performance, retrievability and bias
US20200117735A1 (en) Method for identifying complex textual patterns containing keywords within data records
Lacour et al. Efficiency comparison of document matching techniques
AU2002232665A1 (en) Lossy index compression
JP2011128669A (ja) 情報検索装置および情報検索プログラム
Dang et al. Fast forward index methods for pseudo-relevance feedback retrieval
Veretennikov Proximity Full-Text Search with a Response Time Guarantee by Means of Additional Indexes with Multi-Component Keys.
Praba et al. Evaluation of Web Searching Method Using a Novel WPRR Algorithm for Two Different Case Studies
JP5903370B2 (ja) 情報検索装置、情報検索方法、及びプログラム
Chen et al. ICTNET at Web Track 2010 Ad-hoc Task.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100921

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110506

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110817

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4808697

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

EXPY Cancellation because of completion of term