JP2008529138A - 多重索引に基づく情報検索システム - Google Patents

多重索引に基づく情報検索システム Download PDF

Info

Publication number
JP2008529138A
JP2008529138A JP2007552403A JP2007552403A JP2008529138A JP 2008529138 A JP2008529138 A JP 2008529138A JP 2007552403 A JP2007552403 A JP 2007552403A JP 2007552403 A JP2007552403 A JP 2007552403A JP 2008529138 A JP2008529138 A JP 2008529138A
Authority
JP
Japan
Prior art keywords
phrase
document
documents
list
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007552403A
Other languages
English (en)
Other versions
JP4881322B2 (ja
Inventor
パターソン,アナ,エル.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36741037&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2008529138(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Google LLC filed Critical Google LLC
Publication of JP2008529138A publication Critical patent/JP2008529138A/ja
Application granted granted Critical
Publication of JP4881322B2 publication Critical patent/JP4881322B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報検索システムは語句を利用して文書を索引付け、検索、整理、説明する。文書において他の語句の存在を予測する語句を特定する。文書は、それらに含まれている語句に応じて索引付けされる。文書の索引は、一次索引および二次索引を含む複数の索引に分割される。一次索引は、関連性で順位付けされた文書を含む語句登録リストを記憶する。二次索引は前記登録リストに入らなかった文書を文書順に索引付けする。
【選択図】 図1

Description

本発明は、インターネット等上の文書の膨大な集積における文書を索引(index:インデックス)、検索(search:サーチ)、及び分類(classify:クラシファイ)するための情報検索(retrieval:リトリーバル)システムに係る。
関連出願の相互参照
本出願は、この参照より開示に含まれる2005年1月25日付特許出願第11/043,695号「多重索引に基づく情報検索システム」に基づく優先権を主張する。また、本出願は、この参照より開示に含まれる2004年7月26日に提出された出願第10/900,021号の一部継続出願であり、出願人が共通する。
現在、一般に検索エンジンと呼ばれる情報検索システムは、インターネット等、多岐にわたり年々拡大する膨大な文書の集積において情報を見つけ出すのに不可欠なツールである。一般に、検索エンジンは、文書(あるいは「ページ」)を各文書における個々の単語に関連付ける索引を作成する。文書は多数の検索語を含む検索に応じて、通常は該文書中に検索語がいくつか含まれていることに基づき検索される。そして、検索された文書は他の統計的な尺度、例えば検索語の出現頻度、ホスト・ドメイン、リンク解析等に応じて順位付けされる。そして、検索された文書は、通常は順位付けされた順序で、更にグループ分けされたり階層に分けたりされずに、ユーザに示される。ユーザが文書の内容を垣間見ることできるよう、文書のテキストのうち選択された部分がユーザに示される場合もある。
検索語の直接的な「ブール」検索には、よく知られている制約があり、特に、検索語を含まないが関連語を含む文書を割り出すことができない。例えば、通常のブール・システムにおいて、「オーストラリアンシェパード」についての検索では、ボーダー・コリーのような他の牧畜犬についての文書であって検索語を含まない文書は返されない。むしろ、このようなシステムは、また、オーストラリアに関する(犬とは関係ない)文書や一般的な「シェパード」に関する文書を検索し、上位に順位付けする可能性がある。
ここで問題となるのは、従来のシステムが概念ではなく個々の単語に基づいて文書を索引付けしていることである。概念は、「オーストラリアンシェパード」、「合衆国の大統領」、「サンダンス映画祭」等、一連の語句で表されることが多い。せいぜい、一般に人間のオペレータによって選択される所定の限られた一連の「既知の」語句に関して文書を索引付けする従来のシステムがいくらかあるだけである。3つ、4つ、5つ、あるいは6つ以上の単語から成る全ての可能性がある語句を特定するために必要とされる演算・記憶領域のため、語句の索引付けを行うことは通常避けられる。例えば、ある5つの単語が1つの語句を構成し、文書の膨大な集積が少なくとも200,000個の固有の単語を含むと仮定すると、およそ3.2ラ1026個の可能性がある語句が存在することになるが、これは既存のシステムが記憶領域に記憶できる数、またはプログラムで操作できる数よりも明らかに多い。更に問題となるのは、個々の新しい単語が作り出されるよりもはるかに頻繁に、語句が使用頻度によって連続的に用語集に出たり入ったりすることである。技術、芸術、世界情勢、及び法律等のソースから新しい語句は常に作り出されている。その他の語句は時とともに廃れていく。
個々の単語の共出現パターンを利用し概念の検索を試みる既存の情報検索システムも存在する。これらのシステムでは、「大統領」のような1つの単語の検索で、「大統領」と共に頻繁に出現する他の単語、例えば「ホワイト」や「ハウス」等を含む文書が検索される。この方法では、個々の単語レベルで概念的に関連する文書を含む検索結果が作成されるが、通常、共に出現する語句間に内在するトピックの関連性を把握するものではない。
従って、文書の膨大な集積において語句を包括的に特定し、語句に応じて文書を索引付けし、語句に応じて文書を検索し順位付けし、該文書についてまとまった記述的な情報を更に提供することができる情報検索システム及び方法が必要とされる。
従来の情報検索システムのその他の問題は、インターネット上で入手可能な文書のうち比較的小さい部分しか索引付けできないことである。今日、インターネット上には2,000億以上のページが存在すると推定されている。しかしながら、最良の検索エンジンでも60〜80億ページを検索できるのみであり、入手可能なページの大部分を見逃してしまうことになる。従来のシステムに限られた索引付け能力しかないのにはいくつかの理由がある。最大の理由は、通常のシステムは、(上で述べたように)各語句に対して該語句が出現する全ページのリストを保持するある種の逆索引、及びページ上における該語句の正確な各出現位置を特定する位置情報に依存していることである。個々の語句の索引付けと位置情報の索引付けとを組み合わせて行うには、膨大な記憶領域が必要である。
インターネット検索に用いられる多くの情報検索システムに関する更なる問題は、時間とともに変化するページをアーカーブできないことである。従来、殆どのインターネット検索エンジンは、特定のページの現在のインスタンス(あるいはバージョン)に対して関連性情報を記憶し、該ページが再度索引付けされるたびに該情報を更新するのみである。その結果、ユーザは、ページの以前のインスタンスや、特定の日付間隔に存在していたページを検索することができない。同様に、これらの検索エンジンは、検索クエリを調べて検索結果を提供する際に、バージョンあるいは日付に関連した関連性情報を利用しない。
従って、既存のシステムのように膨大な記憶容量を必要とせず、数百億ページの内容、最終的には1,000億ページ以上の内容を効果的に索引付けすることができる情報検索システムを提供することが望ましい。
情報検索システム及び方法は、語句(phrase:フレーズ)を利用して、文書集合における文書を索引付け、検索、順位付け、説明する。本システムは、文書集合において十分に頻繁に、及び/あるいは目立った外観で使用されている語句を特定し、それらが「有効な」あるいは「良い」語句であることを示す。このように、複数の単語から成る語句、例えば、4つ、5つ、あるいはそれ以上の単語から成る語句を特定することができる。これにより、ある数の単語から成るシーケンスの全てに由来する全ての可能性がある単語を特定して索引付けする必要があるという問題が回避できる。
本システムは、更に、文書のおける他の語句の存在を予測する能力が語句にあるかどうかに基づいて、相互に関連する語句を特定する。より具体的には、2つの語句の実際の共出現率を該2つの語句の予測共出現率に関連付ける予測尺度を用いる。実際の共出現率と予測共出現率との比率としての情報ゲインが、そのような予測尺度である。予測尺度が所定の閾値を超えている場合、2つの語句には関連性がある。この場合、第2の語句は、第1の語句に対して大きな情報ゲインを持つ。意味論的に、関連語句は、例えば、「合衆国の大統領」と「ホワイトハウス」のように、あるトピックや概念について述べたり説明したりするために一般的に用いられる語句をいう。任意の語句に対し、関連語句はその関連性及び重要性によって、各予測尺度に基づき、順位付けすることができる。
本情報検索システムは、文書集合における文書を、有効あるいは良い語句によって索引付け(インデックス)する。各語句について、登録リストは該語句を含む文書を特定する。更に、任意の語句に対し、第2のリスト、ベクトル、あるいはその他の構造を利用して、該任意の語句の関連語句のうち何れの語句が、該任意の語句を含む各文書に存在しているか示すデータを記憶する。このように、本システムは、検索クエリに対し、どの文書がどの語句を含むかを直ちに特定するだけでなく、クエリ語句に関連する語句を含み、そのためクエリ語句に表されているトピックや概念に特に関連する可能性が最も高い文書をも特定する。
本情報検索システムは、更に、クエリに対して文書を検索する際に語句を利用するように構成されている。クエリ語句の関連登録リスト及び連語句情報を検索するため、上記クエリは、該クエリ中に存在するあらゆる語句を特定するように処理される。更に、あるインスタンスにおいて、ユーザが検索クエリに不完全語句、例えば「President of」を入力する場合がある。このような不完全語句は、「President of the United States」等、延長した語句によって特定されて置き換えられる。これにより、ユーザによる最も可能性が高い検索が実際に実行される。
本発明の別の態様では、多重索引構造によって約1,000億以上という膨大な数の文書を索引付けすることができる。一実施例では、一次索引及び二次索引が設けられる。一次索引は、各語句に対して索引付けされた限られた数の文書とともに、語句の索引データを記憶する。ある特定の語句について、該語句に対する文書の関連性の順に、文書の索引データが記憶される。この記憶装置は論理的及び物理的であることが好ましい(つまり、基礎となる記憶装置上にデータがどのように記憶されるか)。上記限られた数よりも多い数の文書が特定の語句を含む場合、その余った文書の索引データは二次索引に記憶されるが、ここでは関連性の順ではなく文書番号によって順位付けされ、例えばスキャッタ・ギャザー(scatter-gather)法で検索される。
例えば、一次索引は、各語句に対して32,000個の文書エントリを記憶するように構成することができ、二次索引は該語句を含む32,000個よりも多い数の文書に対する文書エントリを記憶するように構成することができる。一次索引の文書エントリを得るには、語句への関連性に対して文書にスコア(点数)を付与し、その関連性スコアによって順位付けする。または、関連性の解析に有用な様々な文書の特徴によって文書を順位付けしてもよい。文書エントリに対する順位付けを利用して、該エントリを一次索引と二次索引との間で分割する。語句を含む文書が限られた数よりも少ない場合、全エントリが一次索引に記憶され、ここでも関連性の順に記憶される。このような索引付けによって、索引の記憶容量を10〜15倍に増加させ、最適化された索引情報のお陰でサーバの性能を10倍に増加させることができる。
本発明の別の態様では、アーカイブするために文書の複数バージョンあるいはインスタンスを索引付けすることができる。これにより、ユーザが特定の日付範囲内における文書を検索することが可能になり、検索クエリに対して文書を評価する際、及び検索結果を整理する際に日付やバージョンに関連する関連性情報を用いることが可能になる。一実施例において、ある文書は1以上の日付範囲に関連付けられる。各日付範囲は該文書から導き出され該日付範囲内で有効であると考えられる関連性データに関連付けられる。現在の日付範囲は、文書の現在のインスタンスに関連付けられ、文書が直前に索引付けされた日付から開始する。索引付けパスにおいて文書が見つかった場合、該文書は前のバージョンと照合され、文書に変更があったかどうか判断される。文書に変更がなかった場合には、索引付けされた関連性データが保持される。文書に変更があった場合、該文書に対する現在の日付範囲がクローズされ、文書は再度索引付けされ、新しい現在の日付範囲が設定され、現在の関連性データに関連付けられる。
本発明は、更に、システム及びソフトウェアの構造、コンピュータプログラム製品及びコンピュータで実行可能な方法、及びコンピュータで生成されるユーザインターフェース及び表示の点において他の実施例を有する。
上述の内容は、語句に基づく情報検索システム及び方法の特徴のいくつかを説明しただけのものである。情報検索分野の当業者は、語句情報の一般性の自由度により、索引付け、文書注記、検索、順位付け、その他の文書解析及び処理における多種多様な使用及び応用が可能であることを理解するであろう。
上記図面は本発明の好適な実施例を例示しただけである。当業者であれば、ここで説明する発明の原則から逸脱せずに、ここに例示されている構造及び方法について他の実施例を用いることが可能であることを以下の説明から容易に理解するであろう。
I. システムの概要
図1には、本発明の一実施例に係る検索システム100の実施例のソフトウェア構造が示される。本実施例において、システムは索引システム100、検索システム120、表示システム130、及びフロントエンド・サーバ140を備える。
索引システム110は、各種ウェブサイト190及びその他の文書集合にアクセスすることにより、文書内の語句を特定し、該語句に応じて文書の索引付けを行う役割を果たす。フロントエンド・サーバ140は、クライアント170のユーザからクエリを受け取り、該クエリを検索システム120に送る。検索システム120は、検索クエリに関連する文書(検索結果)を検索し、検索クエリにおける何れかの語句を特定し、順位に影響する語句の存在に応じて索結果において文書を順位付けする役割を果たす。検索システム120は、検索結果を表示システム130に送る。表示システム130は、検索結果に変更を加え、重複する文書を削除し、文書のトピック別の説明を作成し、変更を加えた検索結果をフロントエンド・サーバ140に送り、フロントエンド・サーバ140は該結果をクライアント170に送る。システム100は、更に、一次索引150、文書に関連する索引情報を記憶する二次索引152、語句及び関連する統計情報を記憶する語句データ記憶部160を備える。一次索引150は、多数のプライマリサーバ1・・・M1に分散される、同様に、二次索引152も多数のプライマリサーバ1・・・M2に分散される。
本出願の文脈の中で、「文書」とは、ウェブ文書、画像、マルチメディア・ファイル、テキスト文書、PDFあるいはその他の画像フォーマットされたファイル等、検索システムによって索引付け及び検索することが可能な任意の媒体とする。文書は、その内容及び種類に応じて、1あるいは2以上のページ、区分、セグメントあるいはその他の構成要素により構成することができる。「文書」という総称を用いることで、本発明の範囲に対する制限が示唆されることはない。検索システム100は、膨大な文書の集積、例えばインターネットやワールドワイドウェブにわたって作業を行うが、図書館や民間企業の文書集合等、より限られた集合で用いることもできる。どちらの場合でも、当然のことながら、文書は通常多数の異なるコンピュータシステム及びサイトにわたって分散される。そして、一般性を欠くことなく、文書は、その形式あるいは位置(例えば、どのウェブサイトあるいはデータベースか)に関わらずまとめて文書の集積あるいは文書集合と呼ぶことにする。各文書は該文書を一意に特定する対応識別子を有し、該識別子はURLであることが好ましいが、その他の識別子(例えば、文書番号)を用いることもできる。本開示では、文書を特定するためにURLを用いるものとする。
II.索引システム
一実施例において、索引システム110は、次の3つの主な機能的作用を提供する:1)語句及びそれに関連する語句の特定、2)語句に関する文書の索引付け、及び、3)語句に基づく分類の作成及び保持。当業者は索引システム110が従来の索引機能を支援するために他の機能を実行できることを理解できるだろう。よって、該他の機能についてはここで更に説明をしない。索引システム110は、一次索引150、二次索引152、語句データのデータ・リポジトリ160上で動作する。これらのデータ・リポジトリについて更に以下で説明する。
1.語句の特定
索引システム110の語句特定作業では、文書集合において文書を索引付け及び検索するのに有用な「良い」語句と「悪い」語句を特定する。1の形態において、良い語句とは文書集合において一定の割合以上の文書で出現する傾向がある語句、及び/あるいは、そのような文書において外観が目立っている語句、例えばマークアップ・タグやその他の形態学的、形式、文法的マーカーによって区切られている語句として示される。別の形態において、良い語句とは他の良い語句を予測するものであり、単に語彙の集まりにおいて現れる一連の単語ではない。例えば、「合衆国の大統領」は、「ジョージ・ブッシュ」や「ビル・クリントン」等、他の語句を予測する語句である。しかしながら、「階段から落ちた」、「ご機嫌いかがですか」、「前触れもなく」等の語句は他の単語を予測するものではない。何故なら、このような慣用句や口語は他の様々な無関係の語句と一緒に出現する傾向があるためである。従って、語句の特定では、どの語句が良い語句で、どの語句が悪い語句(即ち、予測性に欠ける語句)か決定する。
次に図2を参照すると、語句特定処理は以下の機能的段階から成る。
200:可能性がある語句及び良い語句を、その頻度と出現回数の統計値と共に収集する。
202:可能性がある語句を、出現頻度の統計値に基づいて良い語句あるいは悪い語句に分類する。
204:共出現頻度の統計値から導き出された予測尺度に基づき良い語句のリストから不要な語句を除く。
これらの段階についてそれぞれ更に詳細に説明する。
第1段階200は、索引システム110が文書集合における一組の文書を巡回し、時間の経過とともに文書集合の区分を繰り返し作成する。1つの区分はパス毎に処理される。パス毎に巡回される文書の数は変更できるが、1区分につき約1,000,000個であることが好ましい。全文書が処理されるまで、あるいは他の終了条件が満たされるまで、各区分において、未巡回の文書のみを処理するのが好ましい。実際には、新しい文書が文書集合に連続的に追加されている間、巡回が継続する。巡回される各文書に対して、索引システム110は以下の工程を行う。
語句ウィンドウの長さがnであり、nは所望の最大語句長さである文書の単語を横断する。ウィンドウの長さは、通常少なくとも2語であり、好ましくは、4あるいは5語(単語)である。好ましくは、語句には語句ウィンドウ内の全単語が含まれ、それ以外の場合ではストップワードと性格付けられるようなもの、例えば、「a」や「the」等も含まれる。語句ウィンドウは、列の末尾、パラグラフリターン、マークアップ・タグ、又はその他の内容や形式の変化を示すもので終わらせることができる。
図3は、横断中の文書300の一部分を示す図であり、「stock」という単語から始まり、右側に5語延びる語句ウィンドウ302を示す。ウィンドウ302内における第1番目の単語は、候補語句iであり、同様に、一連の語であるi+1、i+2、i+3、i+4、i+5もそれぞれ候補語句である。よって、この例において、候補語句は、「stock」、「stock dogs」、「stock dogs for」、「stock dogs for the」、「stock dogs for the Basque」、「stock dogs for the Basque shepherdss」である。
各語句ウィンドウ302において、各候補語句を順にチェックして、良い語句のリスト208又は可能性がある語句のリスト206に既に入っているかどうかを判断する。候補語句が、良い語句のリスト208及び可能性がある語句のリスト206のいずれにも入っていない場合、その候補語句は「悪い」と判断し、スキップする。
候補語句が、良い語句のリスト208にエントリgjとして入っている場合、語句giに対する索引150のエントリを更新して文書(例えば、そのURLやその他の文書識別子)を入れることにより、この候補語句gjが当該文書に出現していることを示す。語句gj(あるいは語)に対する索引150のエントリは、語句gjの登録リストと呼ばれる。登録リストには、語句が出現する文書のリスト(文書番号あるいはURL等の文書識別子ごとの)含まれるが含まれる。一実施例において、文書番号は、例えばMD5を用いて、URLの一方向性ハッシュにより導き出される。
加えて、以下で更に説明するように共出現マトリクス212が更新される。第一番目のパスでは、良いリスト及び悪いリストが空であるため、大部分の語句が可能性のある語句のリスト206に加えられる傾向がある。
候補語句が良い語句のリスト208に入っていない場合、該語句は可能性のある語句のリスト206に既に入っている場合を除き追加される。可能性のある語句のリスト206上の各エントリpには以下の3つの数が対応付けられている。
P(p): 可能性のある語句が出現する文書の数、
S(p):可能性のある語句の全インスタンスの数、及び
M(P):可能性のある語句の興味を引くインスタンスの数。可能性のある語句の一例は、「interesting」であり、該可能性のある語句は文書中の隣接する内容から文法的あるいは形式的マーカー、例えば、ボールド体、下線、ハイパーリンクにおけるアンカーテキスト、引用符によって目立たせる。このような(及びその他の)目立つ外観は、各種HTMLマークアップ言語タグ及び文法的マーカーによって示される。語句が良い語句のリスト208に置かれる際、これらの統計値が該語句のために保持される。
各種リストに加えて、良い語句に対応する共出現マトリクス212(G)が保持される。マトリクスGは、mラmの大きさを有し、ここでmは良い語句の数を示す。マトリックス内の各エントリG(j、k)は、一対の良い語句(gj,gk)を表す。共出現マトリクス212は、当該単語iを中心とし +/SYMBOL 45 \f "Symbol" \s 12 h語にわたるを二次ウィンドウ304について、論理的に(必ずしも物理的ではなく)、良い語句の各対(gj,gk)に対し3つの異なる数を保持する。例えば図3に示すような一実施例において、二次ウィンドウ304は30語にわたっている。よって、共出現マトリクス212は、以下を保持する:
R(j,k):生の共出現カウント数。語句gkとともに二次ウィンドウ304に語句gjが出現する回数。
D(j,k):分離的な興味深い語句のカウント数。語句gj及び語句gkのどちらかが二次ウィンドウ内に目立つテキストとして出現する回数。
C(j,k):接続的な興味深い語句のカウント数。語句gj及び語句gkの両方が二次ウィンドウ内に目立つテキストとして出現する回数。接続的な興味深い語句のカウント数を使用することは、語句(例えば、著作権表示)がサイドバー、フッター、あるいはヘッダーに頻繁に出現し、よって実際には他のテキストを予測するものではないという状況を避ける上で特に有効である。
図3の例を参照し、「stock dogs」とともに「Australian shepherds」及び「Australian Shepard Club of America」が良い語句のリスト208上にあると仮定する。後者の2つの語句は、両方とも二次ウィンドウ304内であって「stock dogs」という語句の周辺に出現している。しかしながら、「Australian Shepard Club of America」という語は、ウェブサイトへのハイパーリンク(下線で示される)のアンカーテキストとして出現している。よって、{"stock dogs”, "Australian shepherd”}という対に対する生の共出現カウント数がインクリメントされ、{"stock dogs”, "Australian Shepherds of America”}に対する生の出現カウント数及び分離的な興味深い語句のカウント数は、後者が目立つテキストとして出現しているため、両方ともインクリメントされる。
シーケンス・ウィンドウ302及び二次ウィンドウ304を有する各文書を横断する方法は、区分の各文書に対して繰り返される。
区分内の文書が横断されると、索引付け作業の次の段階では、202において良い語句のリスト208を可能性のある語句のリスト206から更新する。可能性のある語句のリスト206上の可能性のある語句pは、該語句の出現回数及び該語句が出現する文書の数が十分な意味を持つ語句として使用されていることを示す場合、良い語句のリスト208に移動される。
一実施例において、これは以下のようにテストされる。可能性のある語句pは、以下の場合に、可能性のある語句のリスト206から削除され、良い語句のリスト208上に置かれる:
a)P(p)>10及びS(P)>20(語句pを含む文書の数が10より大きく、語句pの出現回数が20より大きい)、または
b)M(p)>5(語句pの興味深い例の数が10より大きい)
これらの閾値は区分内の文書の数によって変動する。例えば、2,000,000個の文書を1区分内で巡回する場合、閾値はほぼ2倍になる。勿論、当業者は閾値の具体的数値あるいはそれらをテストするロジックは任意に変更可能であるを理解するであろう。
語句pが良い語句リスト208に適格でない場合には、該語句が悪い語句として適しているかどうか確認する。語句pは以下の場合に悪い語句となる:
a)語句を含む文書の数、P(p)<2
b)語句の興味深いインスタンスの数、M(p)=0
これらの条件は、該語句が頻繁に出現せず、意味のある内容を示すものとして使用されているものではないことを示しており、また、これらの閾値は区分内の文書の数によって変更可能である。
なお、良い語句のリスト208は、当然、上述のように複数の単語から成る語句に加えて個々の単語を語句として含める。何故なら、語句ウィンドウ302の第1番目の単語は常に候補語句であり、適当なインスタンスのカウント数がインクリメントされる。したがって、索引システム110は自動的に個々の単語(即ち、単一の語から成る語句)及び複数の語から成る語句の両方を索引付けする。また、良い語句のリスト208は、m個の語句について考えられる全ての組み合わせに基づく理論上の最大長さよりはるかに短くなる。システムは可能性のある語句及び良い語句を把握していればよいため、悪い語句のリストは保存する必要がない。
文書集合を最後に通過するまで、文書の膨大な集積における語句の使用の期待分布により、可能性のある語句のリストは比較的短くなる。よって、例えば、10番目のパス(例えば、10,000,000個の文書)までに、語句が初めて出現する場合、その時点でその語句が良い語句である可能性は少ない。該語句は使われ始めたばかりの新しい語句であり、そのため、その後の巡回中に次第に多く使われるようになる可能性がある。この場合、その各回数は増えていき、最終的に良い語句であるための閾値を満たすことがある。
索引付けの最終段階では、共出現マトリクス212から導き引き出された予測尺度を用い、204で良い語句のリスト208から不要な語句を除く。不要な語句を除かない場合、良い語句のリスト208は、語彙集に出現するものの、それ自体は他の語句の存在を十分に予測するものではない、あるいはそれ自体はより長い語句に続くものである多数の語句を含む可能性がある。これらのあまり良くない語句を削除する結果、良い語句が非常に強固に得られる。良い語句を識別するため、別の語句の存在を前提とした文書において1の語句が出現する可能性がより高いことを表す予測尺度を用いる。一実施例において、これは以下のように行われる:
上記のように、共出現マトリクス212は、良い語句に関連するデータを記憶したmラmのマトリクスである。マトリクスにおける生のjはそれぞれ良い語句gjを表し、各列kは良い語句gkを表す。良い語句gjのそれぞれに対し、期待値E(gj)が算出される。期待値Eは、gjを含むと期待される文書集合中の文書の割合である。これは、例えば、gjを含む文書の数と巡回された文書集合における文書の総数Tの割合として算出される:P(j)/T。
上記のように、gjが文書に出現する毎に、gjを含む文書の数が更新される。E(gj)の値は、gjのカウント数がインクリメントされる毎に、あるいはこの第3段階において更新される。
次に、他の良い語句gk(例えば、マトリクスの列)のそれぞれに対して、gjがgkを予測するか否か判断する。gjに対する予測尺度は以下のように決定される:
i)期待値E(gk)を算出する。gj及びgkの期待共出現率E(j,k)は、これらの語句に相互の関連性がない場合、E(gi)*E(gk)となる。
ii)gj及びgkの実際の共出現率A(j,k)を算出する。これは、文書の総数Tで生の共出現回数R(j,k)を除算したものである。
iii)実際の共出現率A(j,k)が期待共出現率E(j,k)より閾値の分だけ大きい場合、gjはgkを予測するものといえる。
一実施例において、予測尺度は情報ゲインである。よって、gjが存在する場合にgkの情報ゲインIが閾値より大きい場合に語句gjは語句gkを予測する。一実施例において、これは以下のように算出される:
I(j,k)= A(j,k)/E(j,k)
そして、以下の場合に語句gjは語句gkを予測する:
I(j,k)>情報ゲイン閾値
一実施例において情報ゲイン閾値は1.5であり、1.1〜1.7であることが好ましい。閾値を1.0より大きくすることにより、本来なら無関係な2つの語句が任意に予測したよりも多い回数で共出現する可能性が少なくなる。
上記のように、任意の行jに対し、マトリクスGの各列kについて情報ゲインの算出が繰り返される。行が完了すると、良い語句gkのいずれについても情報ゲインが情報ゲイン閾値を超えない場合は、語句gjが他の良い語句を予測するものではないことを意味する。その場合、gjが良い語句のリスト208から削除され、基本的には悪い語句となる。なお、語句gjに対する列jは、該語句そのものは他の良い語句によって予測されるかもしれないため削除されない。
共出現マトリクス212の全行について解析が終了すると、本工程が終了する。
本段階の最終工程では、不完全な語句を削除するために良い語句のリスト208を切り取る。不完全な語句とは、その語句の延長しか予測しない語句であり、語句の一番左側(即ち、語句の頭の部分)から始まる語句である。語句pの「語句延長」は語句pで始まるスーパーシーケンスである。例えば、「President of」という語句は「President of the United States」、「President of Mexico」、「President of AT&T」等を予測する。後者の語句の全ては、「President of」で始まり、そのスーパーシーケンスであるため、「President of」という語句の延長である。
したがって、良い語句のリスト208に残っている各語句gjは、上述した情報ゲイン閾値に基づき、他のいくつかの語句を予測する。ところで、各語句gjに対して、索引付けシステム110は予測される各語句gkとの文字列照合を行う。文字列照合では、各予測される語句gkが語句gjの延長であるかどうか調べる。予測される語句gkの全てが語句gjの延長である場合、語句gjは不完全であり、良い語句のリスト208から削除され、不完全語句リスト216に追加される。よって、語句gjの延長ではない少なくとも1の語句gkがある場合、該語句gkは完全な語句であり、良い語句のリスト208に保持される。例えば、「President of the United」は、それが予測する語句は延長である「President of the United states」のみであるため、不完全な語句である。
実際の検索において不完全語句リスト216自体は非常に有用である。検索クエリを受け取ると、該クエリを不完全語句リスト216と照合する。クエリ(あるいはその一部)がリスト中のエントリと一致する場合、検索システム120は該不完全な語句の最も可能性が高い延長語句(不完全な語句に対して最も大きい情報ゲインを有する延長語句)を検索し、その延長語句をユーザに示したり、あるいは、延長語句を対象に検索することができる。例えば、検索クエリが「President of the United」である場合、検索システム120はユーザに自動的に「President of the United States」を検索クエリとして示す。
索引付け処理の最終段階が終了すると、良い語句のリスト208は、文書の集積において発見された多数の良い語句を含むことになる。これらの良い語句はそれぞれ少なくとも1の他の語句であって、該良い語句の延長部分ではない語句を予測する。つまり、良い語句はそれぞれ十分な頻度で独立して使用され、文書の集積において意味のある概念や考えを表す。所定の、あるいは手動で選択された語句を用いる従来のシステムと異なり、良い語句のリストは文書の集積において実際に使用されている語句を反映する。更に、新しい文書が文書集合に追加される際に上述の巡回・索引付け処理が周期的に繰り返されるため、索引付けシステム110は新しい語句が語彙に追加されると自動的に該新しい語句を検出する。
2.関連語句及び関連語句のクラスタの特定
図4に示すように、関連語句特定処理は以下の機能動作を含む。
400:情報ゲイン値が大きい関連語句を特定する。
402:関連語句のクラスタを特定する。
404:クラスタ・ビットベクトル及びクラスタ番号を記憶する。
これらの動作について、それぞれ以下で詳細に説明する。
まず、共出現マトリクス212が、それぞれが情報ゲイン閾値よりも大きい情報ゲインを有する少なくとも1の他の語句を予測する良い語句gkを含む場合を想定する。そして400で関連語句を特定するために、良い語句(gj、gk)の各組に対して、情報ゲインを関連語句閾値、例えば100と照合する。つまり、gj及びgkは以下の場合に関連語句となる:
I(gj,gk)>100
この大きい閾値によって、統計上期待される率よりも十分に大きい良い語句の共出現回数を特定する。統計上、これは語句gj及びgkは期待される共出現率よりも多く100回共出現することを意味する。例えば、「Monica Lewinsky」という語が文書中にあると仮定すると、「Bill Clinton」 という語は同じ文書に100回以上出現する可能性があり、更に、「Bill Clilnton 」という語は、任意に選択された文書に出現する可能性がある。言い換えると、出現率が100:1であるため、予測の精度は99.999%である。
従って、関連語句閾値よりも小さいエントリ(gj、gk)はいずれも消去し、語句gj、gkは関連性がないことを示す。共出現マトリクス212に残されたエントリは全て関連語句である。
そして、共出現マトリクス212の各行gjにおける列gkが情報ゲイン値I(gj,gk)ごとにソートされ、最大情報ゲイン値を有する関連語句gkがリストの第1番目にくる。よって、このソートにより、任意のgjに対して最も関連性の高い語句を識別する。
次の工程では、402でどの関連語句が共に関連語句のクラスタを構成するか判断する。クラスタとは、各語句が少なくとも1の他の語句に対して大きい情報ゲインを有する関連語句のグループである。一実施例において、クラスタは以下のように特定される:
マトリクスの各行gjには、語句gjに関連する1以上の他の語句がある。これは関連語句のグループRjであり、ここでR={gk,gl,...gm}とする。
jにおける各関連語句に対し、索引システム110はRのその他の各関連語句もgjに関連するかどうか判断する。よって、(gj、gk)がゼロではない場合、gj、gk及びglはクラスタの一部である。このクラスタ検査はRの各組(gl、gm)について繰り返し行われる。
例えば、「Bill Clinton」という良い語句が、該語句に対するそれぞれの情報ゲインが関連語句閾値より大きいという理由で「President」及び「Monica Lewinsky」という語句と関連性があると仮定する。更に、「Monica Lewinsky」という語句が「purse designer」という語句に関連すると仮定する。そして、これらの語句はグループRを構成する。クラスタを特定するために、索引システム110は、これらの語句の他の語句に対するそれぞれの情報ゲインを、該他の語句の情報ゲインを求めることにより確認する。よって、索引システム110は、Rの全ての組に対して、情報ゲインI(「President」、「Monica Lewinsky)、I(「Presidnet」、「purse designer」)等を確認する。この例では、「Bill Clinton」、「President」及び「Monica Lewinsky」が1つのクラスタを構成し、「Bill Clinton」及び「President」が第2のクラスタを構成し、「Monica Lewinsky」及び「purse designer」が第3のクラスタを構成し、「Monica Lewinsky」、「Bill Clinton」及び「purse designer」が第4のクラスタを構成する。何故なら、「Bill Clinton」は「purse desiner」を十分な情報ゲインで予測しない一方、「Monica Lewinsky」はこれら2つの語句を両方とも予測しないからである。
404でクラスタ情報を記録するために、各クラスタに固有のクラスタ番号(クラスタID)を付与する。そして、この情報を各良い語句gjと一緒に記録する。
一実施例において、クラスタ番号は、語句間の直交関係を示すクラスタ・ビットベクトルによって決定される。クラスタ・ビットベクトルは、長さnのビットのシーケンスであり、nは良い語句のリスト208に含まれる良い語句の数である。任意の良い語句gjに対し、ビット位置はソートされたgjの関連語句Rに対応する。Rの関連語句gkが語句gjと同じクラスタにある場合、ビットがセットされる。一般に、これは、gjとgkとの間の何れかの方向に情報ゲインがある場合、クラスタ・ビットベクトル中の対応ビットがセットされることを意味する。
クラスタ番号は、結果として得られるビット列の値である。これには、複数あるいは1方向の情報ゲインを有する関連語句が同じクラスタに現れるという特徴がある。
上記語句を用いたクラスタ・ビットベクトルの例を以下に挙げる。
Figure 2008529138
要約すると、本処理の終了後、各良い語句gjに対し、一組の関連語句Rが特定され、該関連語句は情報ゲインI(gj、gk)の高い方から順に記憶される。更に、各良い語句gjに対して、その値が語句gjが構成要素である主クラスタを識別するクラスタ番号であるクラスタ・ビットベクトル、及び、Rにおける関連語句のうち何れがgjと共通のクラスタにあるかを示す直交値(各ビット位置に対して1あるいは0)がある。よって、上記例では、「Bill Clinton」という語句の行におけるビットの値に基づき、「Bill Clinton」、「President」及び「Monica Lewinsky」がクラスタ14に含まれる。
この情報を記憶するには、2つの基本的な表現を利用することができる。まず、上記のように、情報は以下の共出現マトリクス212に記憶することができる:
エントリG[行j、列k]= (I(j,k), クラスタ番号、クラスタ・ビットベクトル)
あるいは、マトリクス表現を使用せず、各行が以下のように良い語句を表す良い語句のリスト208に全情報を記憶してもよい:
語句行j=リスト[語句gk,(I(j,k)、クラスタ番号、クラスタ・ビットベクトル)]
この方法によって、クラスタに有用な構成が実現される。まず、厳格に--多くの場合恣意的に--定義されたトピック及び概念の階層の代わりに、この方法では、語句によって示されるトピックが、いくつかの語句が他の多数の語句に関連し、いくつかの語句がより限られた範囲を有するという複雑な関係の図式を形成すると認識され、該関係は相互(各語句が他の語句を予測する)でも一方向(1の語句が他の語句を予測するが逆はない)の関係でもよい。その結果、クラスタは各良い語句に対して「局所的」であると特徴付けることができ、いくつかのクラスタは1以上の良い語句を共通して含むことによって一部重複する。
任意の良い語句gjに対して、関連語句を情報ゲインによって順位付けするこで、語句のクラスタを命名するための分類法が実現される:クラスタ名は、クラスタにおける最大情報ゲインを有する関連語句の名である。
上述の方法によって、文書集合に出現する重要な語句を特定するための非常に強固な方法が提供され、また実際の実務ではこれらの関連語句が自然な「クラスタ」において共に使用される方法が提供されるため有益である。その結果、関連語句をデータ駆動によりクラスタリングする方法により、多くのシステムで一般的に行われている関連用語及び概念について手動で行なう「編集上の」選別に固有な偏りが回避される。
3.語句及び関連語句を含む文書の索引付け
良い語句のリスト208が関連語句及びクラスタに関連する情報を含むと仮定すると、索引システム110の次の機能的動作は、文書集合における文書を良い語句及びクラスタについて索引付けし、更新された情報を一次索引150及び二次索引152に記憶することである。図5は、文書を索引付けする以下の機能的段階から成る処理を示す:
500:文書を、該文書内で見つけられた良い語句のリストに登録する。
502:関連語句及び二次関連語句のインスタンス数及び関連するビットベクトルを更新する。
504:索引のエントリを登録リストのサイズに応じて並べ替える。
506: 情報検索スコアあるいは特徴値によって各登録リストの索引エントリを順位付けする。
508:各登録リストをプライマリサーバ150とセカンダリサーバ152との間で区切る。
以下、これらの段階について更に詳しく説明する。
前述同様、一組の文書を横断あるいは巡回するが、該一組の文書は同一の文書でも違う文書でも良い。任意の文書dに対して、上述の方法により500において長さnのシーケンス・ウィンドウ302で単語毎に位置iから横断する。
任意の語句ウィンドウ302において、該ウィンドウにおける全ての良い語句を位置iから特定する。良い語句はそれぞれgiと表される。よって、g1が第1番目の良い語句であり、g2は第2番目の良い語句であり、以下同様である。
各良い語句gi(例えば、g1「President」及びg4「President of ATT」)に対して、文書識別子(例えば、URL)を索引150における良い語句giの登録リストに書き込む。この更新により、良い語句giが特定の文書に出現していることが確認される。
一実施例では良い語句gjの登録リストは以下の論理形式をとる:
語句gj:リスト:(文書d、[リスト:関連語句数][関連語句情報])
各良い語句gjに対して、該語句が出現する文書dのリストが存在する。各文書に対して、文書dに出現する語句gjの関連語句Rの出現回数のカウントのリストが存在する。
一実施例において、関連語句情報は関連語句ビットベクトルである。このビットベクトルは、「バイナリビット」ベクトルと特徴付けることができ、該ベクトルでは各関連語句gkに対して2つのビット位置gk−1及びgk−2が存在する。第1のビット位置には、関連語句gkが文書dに存在するか否かを示すフラグが記憶される(即ち、文書dにおけるgkのカウントは0より大きい)。第2のビット位置には、gkの関連語句glもまた文書dに存在するか否かを示すフラグが記憶される。ここでは、語句gjの関連語句gkの関連語句glを「gjの二次関連語句」と称する。カウントとビット位置は、(情報ゲインが大きい方から順にソートされた)Rにおける語句の正規順序に対応する。このソート順序には、gjによって最も予測されやすい関連語句gkを関連語句ビットベクトルの最上位ビットに関連させ、gjによって最も予測されにくいglを最下位ビットに関連付ける効果がある。
なお、所定の語句gに対し、関連語句ビットベクトルの長さ、及びベクトルの各ビットに対する関連語句の対応付けは、gを含む全ての文書に関して同様である。これにより、システムがgを含む何れかの(あるいは全ての)文書について関連語句ビットベクトルを容易に比較し、どの文書が所定の関連語句を含むか確認することができる。これは、検索クエリに対して文書を特定する検索処理を容易にするために有益である。従って、所定の文書は多数の異なる語句の登録リストに出現し、該文書の関連語句ベクトルは登録リストを持つ語句に固有のものである。この側面により、個々の語句及び文書に対する関連語句ビットベクトルの局所性が維持される。
従って、次の段階502では、文書における現在の索引位置の二次ウィンドウ304(前述同様、+/SYMBOL 45 \f "Symbol" \s 12K個の単語、例えば30個の単語から成る二次ウィンドウ)を、例えばi−Kからi+Kまで横断する。二次ウィンドウ304に出現するgiの各関連語句gkに対し、索引システム110は、関連語句カウントにおける文書dに関するgkのカウントをインクリメントする。giが該文書の更に後方の箇所に出現し、後の二次ウィンドウ内から関連語句が再び見つけ出される場合、カウントが更にインクリメントされる。
上で述べたように、関連語句ビットマップにおいて対応する第1ビットgk−1は、カウントに基づいて設定され、gkのカウントが0より大きい場合はビットが1に設定され、カウントが0である場合はビットが0に設定される。
次に、索引150で関連語句gkを検索し、gkの登録リストにおいて文書dのエントリを特定し、gkの二次関連語句カウント(あるいはビット)をいずれの関連語句についてもチェックすることにより、第2ビットgk−2が設定される。これらの二次関連語句カウント/ビットの何れかが設定される場合、gjの二次関連語句もまた文書dに存在することを示す。
上記方法により文書dの処理が終了すると、索引システム110は以下に挙げるものを特定していることになる:
i) 文書dにおける各良い語句gj
ii) 各良い語句gjについて、その関連語句gkのうち何れが文書dに存在するか
iii) 文書dに存在する各良い語句gkについて、その関連語句gk(gjの二次関連語句)のうち何れがまた文書dに存在するか
a)索引の分割
索引150の各語句には、文書の集積における出現回数に基づき語句番号が付与される。語句の出現回数が多ければ多いほど、索引で付与される語句番号は小さくなる。そして、索引システム110は504において一次索引150の登録リスト214全てを、各登録リストにおいて列挙されている文書の数に応じて多いものから順にソートするため、最も出現頻度の高い語句が最も小さい語句番号を持ち、一次索引150の第1番目にくる。上で述べたように、一次索引150はM1台のプライマリサーバに分散される。ディスクの競合を減らすため、語句は、ハッシュ機能、例えばhash_number MOD M1 によりこれらの機器に分散する。
システムにより索引付け可能な文書の数を著しく増加させるため、一次索引150は、更に、登録リスト214の各々を選択的に分割するように処理される。上で述べたように、各語句の登録リストは文書のリストを含む。登録リストにおける各文書は、506において該語句に関して情報検索型スコアが付与される。ただし、該スコアは算出され、登録リストにおける文書はこのスコアによって大きい方から順に順位付けされ、最も高い順位を付けられた文書が登録リストの第1番目にくるようにする。このように文書を予め順位付けすることは、検索クエリに対して文書を検索する際の性能の向上に特に有効である。
文書を予め順位付けするためのスコアリング・アルゴリズムは、検索システム120において関連性スコアを生成するために使用される同様の基本的関連性スコアリング・アルゴリズムとすることができる。一実施例において、米国特許第6,285,999号で説明されているように、IRスコアはページ順位アルゴリズムに基づいている。あるいは、もしくは更に、文書のIR関連の属性の数についての統計値、例えば内リンク数、外リンク数、文書の長さ等も記憶することができ、単独で、あるいは組み合わせて使用することにより文書を順位付けすることができる。例えば、内リンク数によって多い方から順に文書を順位付けすることができる。一次索引150からの可能な限り一番速い情報検索を更に容易にするためには、各登録リスト214のエントリを、IR型スコアによる順位付けにおいて適当なプライマリサーバ上に物理的に記憶してもよい。
ここで、任意に語句に対して最も高いスコアが付けられた文書が登録リストの第一番目にくると仮定した場合、登録リスト214は508で一次索引150と二次索引152に分割される。最初のK個の文書に対する登録リストのエントリはプライマリサーバ150に記憶されたままである一方、残りのn>K個の文書に対する登録リストのエントリは二次索引152に記憶され、一次索引150の登録リストの末尾から削除される。一実施例において、Kは32,768(32k)に設定されるが、それより大きい値あるいは小さい値をKとすることもできる。登録リストが一次索引と二次索引に分割されている語句を「一般」語句と呼び、登録リストが分割されていない語句を「希少」語句と呼ぶ。一次索引150に記憶された登録リストの部分は主登録リストと呼ばれ、主エントリを含み、二次索引152に記憶された登録リストの部分は二次登録リストと呼ばれ二次エントリを含む。所定の登録リスト214の二次エントリは、語句番号、例えば語句番号MOD M2の別のハッシュ機能に応じてセカンダリサーバに割り当てられる。セカンダリサーバIDはプライマリサーバ上の登録リストに記憶され、これにより検索システム120は必要に応じて適当なセカンダリサーバに直ちにアクセスできるようになる。セカンダリサーバの1つに記憶されている各語句登録リストに対して、(一次索引150における関連性順位付けとは対照的に)二次エントリが文書番号の小さいものから順に物理的に記憶される。好ましくは、二次エントリには関連性についての情報が記憶されず、そのため例えば文書番号及び文書の場所を示すコード(例えば、URL)のような最小限のデータのみがエントリに含まれる。順位付け・分割工程は、各語句に対して順次実行することができ、あるいは全ての(あるいは多くの)語句を最初に順位付けし、次に分割することもでき、アルゴリズム設計は設計上の選択に過ぎず、上記変更例は均等なものであると考えられる。順位付け・分割工程は、一組の文書に対する各索引付け操作の間に行われるため、索引付け操作において新しい文書によって更新された語句は再順位付け・再分割される。また、その他の最適化及び動作も可能である。
一実施例において登録リスト214の各文書に対する一次索引150に記憶された文書属性の選択は変更可能であり、特に、一次索引の登録リスト214の末尾に向かうにつれて減らすことができる。言い換えると、関連性スコア(あるいはその他の関連性に基づく属性)に基づき登録リストにおいて高い順位が付けられた文書は、登録リストの文書エントリに記憶された文書属性の全てあるいは殆どを持つ。一次索引の登録リスト214の末尾近くの文書は、そのような記憶された属性をより限られた数しか持たない。
一実施例において、一次索引150の各登録リスト214は、それぞれ長さm、3m、5mの3つの部分(あるいは段)を有し、ここでmは文書エントリの数を示す。本実施例において、各部分は上で述べたようにm=Kである長さKを有し、一次索引全体は9K個のエントリを有することが望ましく、二次索引はn>9Kである二次エントリを有する。
第一の部分(最初のm個のエントリ)には、所定の語句の登録リストにおける各文書エントリに対して以下の関連性の属性が記憶される。
1.文書の関連性スコア(例えば、ページ順位)
2. 文書における上記語句の総出現回数
3.上記語句を含む最大10,000個のアンカー文書の順位付けリスト、及び各アンカー文書に対して、その関連性スコア(例えば、ページ順位)、及びアンカーテキスト自体
4.各語句の出現位置、及び各出現語句について、該出現語句がタイトル、ボールド体、標題であるか、URL、本文、サイドバー、フッター、広告にあるか、大文字になっているか、あるいはその他のHTMLマークアップにあるかを示す一組のフラグ
第2の部分(次の3m個のエントリ)には、項目1〜3が記憶される。
第3の部分(最後の5m個のエントリ)には、項目1のみが記憶される。
各登録リスト214の末尾近くの文書は特定の語句に対する関連性がより低いものである(より低い関連性スコア)と既に判断されているため、各登録リスト214における後ろの箇所に記憶される文書属性は故意に減らしても構わない。よって、関連性に関する特徴の全てを記憶する必要はない。
上述の記憶方法により、従来の技術に比較して、ハードディスクにおける所定の記憶容量で、はるかに多くのエントリを記憶することができるようになる。第一に、各文書の各語句に対する語句位置情報を削除することにより、所定の一組の文書に必要な記憶容量を50%削減することができ、そのため記憶可能な文書の数を実質的に2倍にすることができる。第二に、登録リストを一次索引及び二次索引で分割し、一次索引のみに関連情報を記憶することで更に節約できる。多くの語句は、100,000個、更に1,000,000個を超える文書をその登録リストに含む。限られた数のエントリのみに対する関連情報を一次索引に記憶することにより、検索で返される可能性が低い文書に必要な記憶容量分をなくすことができる。これにより、記憶できる文書の数を約10倍に増加できる。最後に、各登録リスト214におけるより関連性の低い(より順位が低い)文書に対して索引150により関連性が低い情報を選択的に記憶することにより、更なる節約(必要な記憶容量の25〜50%の削減)が達成できる。
b)文書のトピックの決定
文書を語句により索引付けし、クラスタ情報を利用することにより、索引システム110に更にもう一つの利点が提供されるが、該利点とは、関連語句情報に基づき文書が関連するトピックを決定する機能である。
所定の良い語句gj及び所定の文書dに対して、登録リストのエントリが以下のようになっていると仮定する:
j:文書d:関連語句カウント={3,4,3,0,0,3,1,1,0}
関連語句ビットベクトル={11 11 10 00 00 10 10 10 01}
ここで、関連語句ビットベクトルはバイナリビットの対で表される。
関連語句ビットベクトルから、文書dの一次トピック及び二次トピックが決定できる。一次トピックはビット対(1,1)で示され、二次トピックはビット対(1、0)で示される。関連語句ビット対(1,1)は、該ビット対に対する関連語句gkが、関連語句gjとともに文書dに存在することを示す。これにより、文書dの作成者が文書を作成する際にいくつかの関連語句gj、gk及びglを一緒に使用したことを意味すると考えられる。ビット対(1,0)は、gj及びgkの両方が存在するが、gkの二次関連語句は存在しないため、重要性がより低いトピックであることを示す。
c)アーカーブ検索のための文書のインスタンスの索引付け
本発明の別の実施例では、索引に履歴文書を記憶し保持する機能が実現されるため、個々の文書あるいはページのデータ特有のインスタンス(バージョン)のアーカーブ検索が可能になる。この機能には各種有効な用途があり、例えば、ユーザがある特定の日付範囲内で文書を検索できるようにしたり、検索システム120が検索クエリに対して文書を評価する際及び検索結果を整理する際にデータあるいはバージョンに関連する関連性情報を使用することができるようにしたりする。
本実施例において、文書識別子は、日付間隔に関する文書の同一性を符号化する。文書が索引システム110によって初めて巡回されると、文書識別子が文書のURL及び文書の日付印のハッシュ、例えばMD5(URL、最初の日付)として記憶される。文書インスタンスが有効であると思われる日付範囲から成る日付範囲フィールドが文書の特定のインスタンスに関連付けられる。日付範囲は、文書が有効だと思われる最初の日付(索引付けの日付)、及び文書が有効だと思われる最後の日付から成る一組の日付(例えば、11−01−04、12−15−04)として記載することができる。あるいは、日付範囲は、最初の日付及び該最初の日付に続く日数を示す数として記載することもできる(例えば、11−01−04、45)。日付は、任意の便利なフォーマット、一連の日付あるいは日数番号で記載することができる。文書が現在有効な文書である期間において、第二の値は状態フラグあるいはトークン(ヌル値を含む)であり、該状態を示す。これを現在の期間と呼ぶ。例えば、(11−01−04、“open”)は、文書が現在有効であることを示す。これは、最初の日付後に日数制限がある検索に文書が適合することを示す。実施態様に関わらず、所定の日付間隔の最後の日付は、「open date」と呼び、所定の間隔の最後の日付は「closed date」と呼ぶことができる。
続く索引システム110による索引付け操作において、索引システム110は文書が変更されたか否か判断する。文書に変更がない場合、索引システム110は文書に何も操作を行わない。文書に変更があった場合(文書の新しいインスタンスあるいはバージョン)、索引システム110は文書を再度索引付けする。再度の索引付け次第、索引システム110は、現在の日付から1日を引いた日付にオープン状態フラグを変更することにより、現在の期間をクローズする。例えば、索引システム110が12/16/04に文書を索引付けし、文書が変更されたと判断した場合、現在の間隔(11−01−04,12−15−04)はクローズされ、新しい現在の間隔、例えば(12−16−04、"open")が作成される。索引システム110は、文書に対する各日付範囲を、それに対応する索引付けされた日付範囲の関連性データ(例えば、語句、関連性統計値、文書ページ内リンク等)と一緒に保持する。よって、各日付範囲及び一組の関連性データは、文書の特定のインスタンスあるいはバージョンに関連付けられる。所定の文書に対する日付期間について、索引システムが固有の文書識別子、例えばMD5(URL、最初の日付)を保持することにより、適当なキャッシュ文書インスタンスを検索できるようにする。一次索引及び二次索引を用いる実施例では、索引付け操作が完了すると、一次索引の登録リスト214にスコアが再度付けられ、再順位付けされ、再分割される。
前回の索引付け操作後に所定の文書に変更があったか否かについての判断は、統計的法則、文法上の規則、あるいは同様の経験則を用いる等、あらゆる方法で行われる。一実施例において、索引システム110は、文書に変更があったか否かを判断するために文書の語句を利用する。文書が索引付される度に、日付範囲情報に関連して上からN個のトピックが、例えば、日付範囲(11−04−04、12−15−04)に対しては上から20個のトピックがリストとして示され、保持される。そして、索引付けされているインスタンスのトピックリストが先の文書インスタンス、好ましくは直前にクローズされた日付範囲と照合される。トピックのM%以上が変更された場合(例えば、5%)、文書に変更があったものと考えられ、全ての語句に対して再度索引付けされる。なお、文書に変更があったか否かについての判断を別の方法で行うこともでき、語句に基づいた索引付けは必ずしも行わなくてよい。例えば、文書の長さの変更、どの単語が最も頻繁に出現するかという点に関する変更、用語の出現頻度の変更、HTMLマークアップの種類数の変更、またはその他の文書の構造や内容の尺度に基づいて一連の統計的法則を用いることができる。
III. 検索システム
検索システム120はクエリを受け取り、該クエリに関連する文書を検索する機能を有し、一組の検索結果における該文書のリスト(該文書へのリンクを含む)を提供する。図6は、検索システム120の以下の主な機能動作を示す:
600:クエリにおける語句を特定する
602:クエリの語句に関連する文書を検索する
604:検索結果の文書を語句に従って順位付けする
上記段階の各々について以下で詳細に説明する。
1.クエリ及びクエリ延長における語句の特定
1.検索システム120の第1段階600では、効果的に索引を検索するためにクエリに存在する語句を特定する。この項では以下の専門用語を用いる:
q: 入力され、検索システム120によって受け取られたクエリ
Qp:クエリに存在する語句
Qr: Qpの関連語句
Qe: Qpの語句拡張部分
Q: QpとQrの集合
クライアント190から、ある最大数までの文字あるいは単語を含むクエリqを受け取る。
検索システム120はサイズN(例えば、5)の語句ウィンドウを用いてクエリqの単語を横断する。語句ウィンドウは、クエリの最初の単語から始まり、右に向かって単語N個分だけ伸びる。そして、Mがクエリにおける単語数を示す場合、このウィンドウは右にM−N回シフトされる。
各ウィンドウ位置には、ウィンドウ内にN個(あるいはそれよりも少ない数の)単語がある。これらの単語は、クエリの語句である可能性があるものを構成する。この可能性がある語句を良い語句のリスト208において検索し、それが良い語句であるか否か判断する。この可能性がある語句が良い語句のリスト208にある場合には、語句番号を語句に対して返し、該語句は候補語句となる。
各ウィンドウにおける全ての可能性のある語句を調べて、それらが良い候補語句であるか否か決定した後は、検索システム120はクエリの対応語句に対して一組の語句番号を有することになる。そして、これらの語句番号が(降順に)ソートされる。
第1候補となる語句としての最も大きい語句番号から、検索システム120は、ソートされたリストにおいて一定の数値距離内に別の候補語句があるか、即ち、語句番号の差が閾値、例えば20,000以内であるか否かについて判断する。もし、そうである場合には、クエリにおいて一番左の語句が有効なクエリ語句Qpとして選択される。このクエリ語句及びその二次語句の全ては候補リストから削除され、該リストは再ソートされ処理が繰り返される。本処理の結果、一組の有効なクエリ語句Qpが得られる。
例えば、検索クエリが「Hillary Rodham Clinton Bill on the Senater Floor」であると仮定する。検索システム120は以下の候補語句を特定する:「Hillary Rodham Clinto Bill on」、「Hillary Rodham Clinton Bill」及び「Hillary Rodham Clinton」。最初の2つは捨てられ、最後の1つが有効なクエリ語句として残される。次に、検索システム120は、「Bill on the Senater Floor」及び副語句「Bill on the Senater」、「Bill on the」、「Bill on」、「Bill」を特定し、「Bill」を有効なクエリ語句Qpとして選択する。最後に、検索システム120は、「on the Senater Floor」を解析し、「Senater Floor」を有効なクエリ語句として特定する。
次に、検索システム120は有効な語句Qpを調整して大文字表記を行う。クエリを解析する際、検索システム120は各有効な語句において大文字で始められそうなものを特定する。これは、「united states」を「United States of America」とするような周知の大文字表を用いて、あるいは文法に基づく大文字表記アルゴリズムを用いて行われる。これにより、正しく大文字表記された一組のクエリ語句が生成される。
次に、検索システム120は、大文字表記された語句に対して2回目の横断を行い、語及びその副語句が一組のクエリ語句において存在する場合、一番左に位置し、かつ大文字表記される語句のみを選択する。例えば、「president of the United States」の検索は、「President of the United States」として大文字表記される。
次の段階において、検索システム120は620でクエリ語句Qに関連する文書を特定する。そして、検索語句120はクエリ語句Qの登録リストを検索し、必要に応じて、該リストを横断することにより、クエリ語句に対する登録リストの全てにどの文書が出現するか判断する。クエリにおける語句Qが一組の語句拡張部分Qe(以下で更に詳しく説明する)を有する場合、検索システム120は。登録リストを横断する前に、まず該語句拡張部分の登録リストの集合を作成する。検索システム120は、上で述べたように、不完全な語句のリスト126において各クエリ語句Qを検索することにより語句拡張部分を特定する。
一次索引150及び二次索引152を用いて、検索システム120は更に横断作業を最適化することができる。クエリ語句が一般語句であるか希少語句であるかに基づいて検索システム120が行う必要がある横断解析には4つの一般的な場合がある。
第1の場合は、単一のクエリ語句に対するものであり、該語句は一般語句でも希少語句でもよい。この場合、検索システム120は、語句の登録リストの最初のエントリのうち選択された限られた数(例えば、100や1,000)を一次索引150から順位付け段階604に渡し、最終的な順位付けを行う。順位付け段階では、文書が既に順位付けされているため、順位付け作業を最適化することができる。あるいは、文書が語句に対する関連性によって予め順位付けされているため、一組の文書を検索結果として直接提供することができ、実質的に瞬時の結果をユーザに提供することができる。
第2の場合は、2つの一般語句であるクエリ語句がある場合である。ここで、検索システム120は一次索引150の各語句に対する登録リスト214にアクセスし、これらのリストを横断して最終的な文書リストを作成し、該文書リストは順位付け段階604に渡され、文書に関連付けられた一組の関連性の属性に基づき関連性のスコアが付される。各登録リストには少なくともK個の文書が含まれるため、十分な数の文書が両方の語句を含む可能性が非常に高く、よって、二次索引152の二次エントリを横断する必要はない。これにより、検索に要する時間が更に短縮される。
第3の場合は、2つの生のクエリ語句がある場合である。この場合は、各語句に対する登録リスト全体が一次索引に記憶されるため、第2のケアと同様に処理が行われる。
最後の場合は、有効なクエリ語句が一般語句及び希少語句から成る場合である。この場合、検索システム120は、まず、両方の語句に対する一次索引150から登録リスト214を横断し、第1の組あるいは共通する文書を作成する。次に、検索システム120は、希少な語句に対する登録リストを一般語句に対する二次エントリ(既に文書番号の順に記憶されている)とともに横断し、共通する文書の第2組を作成する。この2つの組は統合され、順位付け段階に渡される。
2以上のクエリ語句がある全ての場合は、上に述べた方法により1回の連続的な横断によって還元的に対処することができる。
2.順位付け
a) 含まれる語句に基づく文書の順位付け
検索システム120は、各文書の関連語句ビットベクトルにおける語句情報及びクエリ語句に対するクラスタ・ビットベクトルとともに関連性情報及び文書属性を利用して検索結果における文書を順位付けする順位付け段階604を提供する。この方法では、文書に含まれる語句、砕けた言い方では「ボディ・ヒット」に応じて文書を順位付けする。
上で述べたように、ある所定の語句gjに対し、該gjの登録リストにおける各文書dは、どの関連語句gk及びどの二次関連語句glが文書dに存在するかを特定する対応関連語句ビットベクトルを有する。所定の文書に存在する関連語句及び二次関連語句が多ければ多いほど、該語句に対する文書の関連語句ビットベクトルに設定されるビットが多くなる。設定されるビットが多ければ多いほど、関連語句ビットベクトルの数値は大きくなる。
従って、一実施例において、検索システム120は検索結果の文書をその関連語句ビットベクトルに応じてソートする。クエリ語句Qに対する関連性が最も高い語句を含む文書は最も高い関連語句ビットベクトルを有し、これらの文書は検索結果において最も高い順位が付けられた文書となる。
この方法は、意味論的にこれらの文書はクエリ語句に対してトピックの点で最も高い関連性を有するため、望ましい。なお、この方法では、入力されたクエリ語句qが頻繁に出現しない文書であっても、関連文書を特定し該文書を順位付けするために関連語句情報を利用しているので、高い関連性を持つ文書を提供できる。入力されたクエリ語句が頻繁に出現しない文書は、クエリ語句に関連する多数の語句を含むため、クエリ単語及び語句だけは頻繁に出現するが関連語句は含まれない文書よりも高い関連性を有する場合がある。
第2の実施例において、検索システム120は、文書がクエリ語句Qのどの関連語句を含むかに応じて検索結果の各文書にスコアを付与する。これは以下のように行われる。
各クエリ語句Qを想定すると、語句特定処理において特定されるように、ある数Nの関連語句Qrが存在する。上で述べたように、関連クエリ語句Qrはクエリ語句Qからの情報ゲインに応じて順位付けされる。そして、これらの関連語句には点数が付与され、第1の関連語句Qr1(即ち、Qからの情報ゲインが最も高い関連語句Qr)にはN点が付与され、次の関連語句Qr2にはN−1点が付与され、Qr3にはN−2点が付与され、以下同様に続き、最後の関連語句QrNには1点が付与される。
次に、クエリ語句Qのどの関連語句Qrが存在するかを判断し、そのような関連語句Qrの各々に付与された点数を文書に付与することにより、検索結果の各文書に点数が付けられる。そして、文書は点数の高いほうから順にソートされる。
更に改良した方法として、検索結果120は検索結果から特定の文書を選択することができる。文書が多数の異なるトピックに関連している場合があるが、これは特に文書が比較的長い場合である。多くの場合、ユーザは、多数の異なるトピックに関連する文書よりも、クエリに表された単一のトピックにポイントが置かれている文書を好む。
後者のような文書を選択するために、検索システム120はクエリ語句のクラスタ・ビットベクトルにおけるクラスタ情報を利用し、文書に閾値より大きい数のクラスタが含まれている文書があれば削除する。例えば、検索システム120は3以上のクラスタを含む文書があれば削除することができる。このクラスタ閾値は予め設定することができ、あるいはユーザが検索パラメータとして設定することもできる。
b)アンカー語句に基づく文書の順位付け
1の文書におけるクエリ語句のボディ・ヒットに基づき検索結果の文書を順位付けすることに加えて、一実施例においては、検索システム120が他文書へのアンカーにおけるクエリ語句Q及び関連クエリ語句Qrの出現に基づき文書を順位付けする。一実施例において、検索システム120は、ボディ・ヒット・スコア及びアンカー・ヒット・スコアという2つのスコアの関数(例えば、一時結合)であるスコアを各文書に対して算出する。
例えば、所定の文書に対する文書スコアは以下のように算出できる:
スコア=0.30*(ボディ・ヒット・スコア)+0.70*(アンカー・ヒット・スコア)
0.30及び0.70という重みは任意で調整できる。1の文書に対するボディ・ヒット・スコアは、クエリ語句Qpを想定した場合、上で述べたように、該文書に対する最も高い値の関連語句ビットベクトルの数値である。あるいは、この値は、索引150で各クエリ語句Qを検索し、該クエリ語句Qの登録リストから文書にアクセスし、関連ビットベクトルにアクセスすることにより、検索システム120が直接的に得ることもできる。
文書dのアンカー・ヒット・スコアは、クエリ語句Qの関連語句ビットベクトルの関数であり、Qは文書dを参照する文書におけるアンカー語句である。文書集合の文書を索引付けする際、索引システム110は、各語句に対して、該語句が外リンクのアンカーテキストである文書のリストを保持し、また、各文書に対して、他の文書からのリンクのリスト(及び関連するアンカーテキスト)を保持する。1の文書に対するリンクは、他の文書(参照文書)からある文書への参照(例えば、ハイパーリンク)である。
そして、所定の文書dに対してアンカー・ヒット・スコアを決定するために、検索システム120は、アンカー語句Qごとに索引に列挙された一組の参照文書R(i=1は参照文書の数)について繰り返し、以下の積を求める:
i.Q.関連語句ビットベクトル*D.Q.関連語句ビットベクトル
積の値は、アンカー語句Qが文書Dに対してどの程度トピックを表しているかを示すスコアである。このスコアをここでは「インバウンドスコア要素」と呼ぶ。この積は、現在の文書Dの関連ビットベクトルを参照文書Rのアンカー語句の関連ビットベクトルで実質上重み付けするものである。参照文書R自体がクエリ語句Qに関連する場合(よって、より大きい値の関連語句ビットベクトルを有する場合、現在の文書Dのスコアの重要性が増加する。そして、ボディ・ヒット・スコア及びアンカー・ヒット・スコアを合計して、上述のように文書スコアを作成する。
次に、参照文書Rの各々に対して、各アンカー語句Qの関連語句ビットベクトルを得る。これは、アンカー語句Qが文書Rに対してどの程度トピックを表しているかを示す尺度である。この値をここでは「アウトバウンドスコア要素」と呼ぶ。
そして、索引150から、アンカー語句Qについて全ての対(参照する文書、参照された文書)が取り出される。そして、これらの対は、関連付けられた値(アウトバウンドスコア要素、インバウンドスコア要素)によってソートされる。実施態様によっては、これら要素の一方を一次ソートキーとし、他方を二次キーとすることができる。そして、ソート結果がユーザに提供される。アウトバウンドスコア要素で文書をソートすると、クエリに対する多数の関連語句をアンカー・ヒットとして有する文書が最上位に順位付けられるため、これらの文書を「エキスパート」文書として提供する。インバウンド文書スコアに基づいて文書をソートすると、アンカー語句によって頻繁に参照される文書が最上位に順位づけられる。
c)日付範囲の関連性に基づく文書の順位付け
検索システム120は、検索・順位付け作業においていくつかの方法で日付範囲情報を利用することができる。まず、検索システム120は日付範囲を明示的な検索デリミタとして利用することができる。例えば、「United States Patent and Trademark Office 12/04/04」のように、単語や語句及び日付を含む。検索システム120は日付条件を特定し、所望の語句を含み、かつクエリの日付条件を含む日付範囲に対して索引付けされた文書を選択する。そして、選択された文書から、検索システム120は、日付範囲に対応する索引付けされた関連性データを利用して、各文書に対する関連性スコアを得る。この方法で、検索クエリにより近い場合は、文書の古いあるいは前回のインスタンスが現在のインスタンスの代わりに検索される。これは、頻繁に変更される情報を含むニュースサイトや他のサイトのホームページ等、頻繁に変更される文書及びページについて特に有効である。
第2に、検索クエリに日付条件が含まれていない場合、検索システム120は、文書関連性スコアを古さによって重み付けし、古い文書ほど関連性スコアに低い重みを課す(あるいは文書が新しいほど高い重みを課す)ことによって、することにより、関連性の順位付けの際に索引の日付情報を利用することができる。一方、あるトピックに対する関連性が最も高いのは、文書の最新のバージョンではなく、文書の古いバージョンである場合がある。例えば、歴史的事件の際に同時に作成されたニュースポータルサイトは、その事件に関する特定のクエリに対する関連性が高く、そして新しいポータルの現在のインスタンス。この場合、検索システム120は、例えば文書のインスタンス全てに対する文書関連性スコアが何れかの歴史的日付付近で増加している場合、古い文書インスタンスに高い重みを課し、文書の最近のインスタンスの関連性スコアを低くする。
1以上の日付条件が検索クエリに含まれている場合、上記のように、日付条件と文書の日付範囲との差に応じて、文書の関連性スコアに低い重みを課し、日付範囲(開始日あるいは終了日から計算される)よりも古い文書あるいは所望の日付条件よりもはるかに新しい文書の関連性スコアには低い重みが課されるようにすることができる。逆に、文書の日付範囲が所望の日付に近い場合、関連性スコアに低い重みを課す代わりに高い重みを課すこともできる。
第3に、検索システム120は、日付情報を、検索結果を順位付けするための一次あるいは二次要素として利用することができる。例えば、文書を逆年代順にグループ分けすることができ(例えば、月ごとのグループ)、各グループにおいて、検索クエリに対する関連性が高い方から低い方へ順に列挙することができる。
日付範囲情報の別の使用例では、更新される頻度に基づいて文書を順位付けする。検索システム120は、一定の期間にわたって特定の文書のインスタンス数(例えば、別個の日付範囲の数)を決定することができる(この回数は索引付けの間保持される)。そして、インスタンス数を用いて最も更新頻度の高い文書に高い重みを課す。
本発明の一実施例のソフトウェア構造を示すブロック図である。 文書中の語句を特定する方法を示す。 語句ウィンドウ及び二次ウィンドウを有する文書を示す。 関連語句を特定する方法を示す。 関連語句に対して文書を索引付けする方法を示す。 語句に基づいて文書を索引付けする方法を示す。

Claims (12)

  1. 或る語句に関して複数の文書を索引付けするためにコンピュータによって実行される方法であって、各文書は文書識別子を有し、前記方法は、
    当該語句を含む文書のリストを作成することと、
    関連性スコアによって前記リスト内の文書を順位付けすることと、
    高い順位がつけられた文書から成る前記リストの第1部分を、一次索引において前記関連性スコア順に記憶することと、
    低い順位がつけられた文書から成る前記リストの第2部分を、二次索引において前記文書識別子の番号順に記憶することと
    で構成されることを特徴とする方法。
  2. 請求項1に記載された方法であって、前記関連スコアはページ順位に基づくスコアから成ることを特徴とする方法。
  3. 請求項1に記載された方法であって、更に、各文書に対して該文書の関連性属性を前記一次索引に記憶することを特徴とする方法。
  4. 請求項3に記載された方法であって、前記関連性属性は、文書における前記語句の総出現回数、前記語句を含み前記文書を示すアンカー文書を順位付けしたリスト、前記文書における各語句出現位置、前記出現語句のフォーマットの一部を示す1以上のフラグ、前記出現語句を含む文書の一部のうち、少なくとも1つを含むことを特徴とする方法。
  5. 請求項3に記載された方法であって、前記リストの第2部分を二次索引に記憶する際、実質的に文書識別情報のみを記憶することを特徴とする方法。
  6. 請求項1に記載された方法であって、前記リストの第1部分を一次索引に記憶する際、物理的記憶装置上に前記リストの第1部分を関連性スコアの順に記憶することを特徴とする方法。
  7. 請求項1に記載された方法であって、前記リストの第2部分を二次索引に記憶する際、物理的記憶装置上に前記リストの第2部分を文書識別子の番号順に記憶することを特徴とする方法。
  8. 請求項1に記載された方法であって、文書の各リストの前記第1部分は、列挙されている各文書が第1の複数の関連性属性を含む第1区分と、列挙されている各文書が前記第1の関連性属性の一部である第2の複数の関連性属性を含む第2区分とを有し、前記第1区分に列挙されている文書には前記第1区分に列挙されている文書よりも高い順位が付けられていることを特徴とする方法。
  9. 請求項8に記載された方法であって、文書の各リストの前記第1部分は、列挙されている各文書が前記第2の関連性属性の一部である第3の複数の関連性属性を含む第3区分を有し、前記第2区分に列挙されている文書には前記第3区分に列挙されている文書よりも高い順位が付けられていることを特徴とする方法。
  10. 請求項8に記載された方法であって、各リストの前記第1部分はn個のエントリを含み、該リストの第2部分はm*n個のエントリを含み、m>nであり、該リストの第3部分はI*n個のエントリを含み、I>4であることを特徴とする方法。
  11. 情報検索システムを提供するための方法であって、
    一次語句登録リストを含む一次索引を記憶するステップと、ここで、各登録リストは語句に関連付けられるとともに該語句を含む最大数までの文書を含み、該文書は各関連性スコアによって順位付けされており、
    二次語句登録リストを含む二次索引を記憶するステップと、ここで、各登録リストは一次索引の一次語句登録リストに関連付けられるとともに、該語句を含み、かつ該語句に対する一次登録リストで最下位に順位付けされた文書の関連性スコアよりも低い関連性スコアを有する文書を含み、該文書は各関連性スコアによって順位付けされており、
    少なくとも1の語句から成る検索クエリを受け取るステップと、
    一次登録リスト及び二次登録リストを有する第1語句及び一次登録リストのみを有する第2語句を含む前記検索クエリに応答して、前記第1語句の一次登録リストを前記第2語句の一次登録リストと交差させて共通文書の第1の集合を得て、前記第1語句の二次登録リストを前記第2語句の一次登録リストと交差させて共通文書の第2の集合を得て、前記共通文書の第1の集合及び第2の集合を統合するステップと、
    前記共通文書を順位付けするステップと
    を具備することを特徴とする方法。
  12. 一次語句登録リストを含む一次索引であって、各登録リストは語句に関連付けられるとともに該語句を含む最大数までの文書を含み、該文書は各関連性スコアによって順位付けされる一次索引と、
    二次語句登録リストを含む二次索引であって、各登録リストは一次索引の一次語句登録リストに関連付けられるとともに、該語句を含み、かつ該語句に対する一次登録リストで最下位に順位付けされた文書の関連性スコアよりも低い関連性スコアを有する文書を含み、該文書は各関連性スコアによって順位付けされる二次索引と
    を具備する情報検索システム。
JP2007552403A 2005-01-25 2006-01-25 多重索引に基づく情報検索システム Active JP4881322B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/043,695 US7567959B2 (en) 2004-07-26 2005-01-25 Multiple index based information retrieval system
US11/043,695 2005-01-25
PCT/US2006/002709 WO2006081325A2 (en) 2005-01-25 2006-01-25 Multiple index based information retrieval system

Publications (2)

Publication Number Publication Date
JP2008529138A true JP2008529138A (ja) 2008-07-31
JP4881322B2 JP4881322B2 (ja) 2012-02-22

Family

ID=36741037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007552403A Active JP4881322B2 (ja) 2005-01-25 2006-01-25 多重索引に基づく情報検索システム

Country Status (11)

Country Link
US (5) US7567959B2 (ja)
EP (1) EP1844391B1 (ja)
JP (1) JP4881322B2 (ja)
KR (1) KR101273520B1 (ja)
CN (1) CN101133388B (ja)
AU (2) AU2006208079B2 (ja)
BR (1) BRPI0614024B1 (ja)
CA (1) CA2595674C (ja)
DK (1) DK1844391T3 (ja)
NO (1) NO338518B1 (ja)
WO (1) WO2006081325A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010061322A (ja) * 2008-09-03 2010-03-18 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置および情報検索プログラム
JP2012003740A (ja) * 2010-06-16 2012-01-05 Fuji Xerox Co Ltd 検索結果生成方法、検索結果生成プログラムおよび検索システム

Families Citing this family (140)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7266553B1 (en) * 2002-07-01 2007-09-04 Microsoft Corporation Content data indexing
US7536408B2 (en) 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7584175B2 (en) 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7580921B2 (en) 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7711679B2 (en) * 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7199571B2 (en) * 2004-07-27 2007-04-03 Optisense Network, Inc. Probe apparatus for use in a separable connector, and systems including same
US20060036598A1 (en) * 2004-08-09 2006-02-16 Jie Wu Computerized method for ranking linked information items in distributed sources
US7539661B2 (en) * 2005-06-02 2009-05-26 Delphi Technologies, Inc. Table look-up method with adaptive hashing
US20070150721A1 (en) * 2005-06-13 2007-06-28 Inform Technologies, Llc Disambiguation for Preprocessing Content to Determine Relationships
US7451135B2 (en) * 2005-06-13 2008-11-11 Inform Technologies, Llc System and method for retrieving and displaying information relating to electronic documents available from an informational network
JP4756953B2 (ja) * 2005-08-26 2011-08-24 富士通株式会社 情報検索装置および情報検索方法
US20070078889A1 (en) * 2005-10-04 2007-04-05 Hoskinson Ronald A Method and system for automated knowledge extraction and organization
US7676463B2 (en) * 2005-11-15 2010-03-09 Kroll Ontrack, Inc. Information exploration systems and method
US8126874B2 (en) * 2006-05-09 2012-02-28 Google Inc. Systems and methods for generating statistics from search engine query logs
JP4322887B2 (ja) * 2006-06-01 2009-09-02 株式会社東芝 スレッド順位付け装置及び方法
US9015197B2 (en) 2006-08-07 2015-04-21 Oracle International Corporation Dynamic repartitioning for changing a number of nodes or partitions in a distributed search system
US20080033943A1 (en) * 2006-08-07 2008-02-07 Bea Systems, Inc. Distributed index search
US20080071732A1 (en) * 2006-09-18 2008-03-20 Konstantin Koll Master/slave index in computer systems
US20080082554A1 (en) * 2006-10-03 2008-04-03 Paul Pedersen Systems and methods for providing a dynamic document index
CN101523391A (zh) * 2006-10-06 2009-09-02 日本电气株式会社 信息检索系统和信息检索方法及程序
US8005822B2 (en) * 2007-01-17 2011-08-23 Google Inc. Location in search queries
US8966407B2 (en) 2007-01-17 2015-02-24 Google Inc. Expandable homepage modules
US8326858B2 (en) * 2007-01-17 2012-12-04 Google Inc. Synchronization of fixed and mobile data
US7966321B2 (en) 2007-01-17 2011-06-21 Google Inc. Presentation of local results
US7966309B2 (en) * 2007-01-17 2011-06-21 Google Inc. Providing relevance-ordered categories of information
US8280877B2 (en) * 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US7702614B1 (en) * 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US8583419B2 (en) * 2007-04-02 2013-11-12 Syed Yasin Latent metonymical analysis and indexing (LMAI)
US7809610B2 (en) * 2007-04-09 2010-10-05 Platformation, Inc. Methods and apparatus for freshness and completeness of information
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US7814107B1 (en) 2007-05-25 2010-10-12 Amazon Technologies, Inc. Generating similarity scores for matching non-identical data strings
US7908279B1 (en) 2007-05-25 2011-03-15 Amazon Technologies, Inc. Filtering invalid tokens from a document using high IDF token filtering
US8046372B1 (en) 2007-05-25 2011-10-25 Amazon Technologies, Inc. Duplicate entry detection system and method
US7917516B2 (en) * 2007-06-08 2011-03-29 Apple Inc. Updating an inverted index
EP2031508A1 (en) * 2007-08-31 2009-03-04 Ricoh Europe PLC Network printing apparatus and method
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8073682B2 (en) * 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information
US8671104B2 (en) * 2007-10-12 2014-03-11 Palo Alto Research Center Incorporated System and method for providing orientation into digital information
US8165985B2 (en) 2007-10-12 2012-04-24 Palo Alto Research Center Incorporated System and method for performing discovery of digital information in a subject area
US20090112843A1 (en) * 2007-10-29 2009-04-30 International Business Machines Corporation System and method for providing differentiated service levels for search index
US7895225B1 (en) * 2007-12-06 2011-02-22 Amazon Technologies, Inc. Identifying potential duplicates of a document in a document corpus
US8799264B2 (en) * 2007-12-14 2014-08-05 Microsoft Corporation Method for improving search engine efficiency
US9037560B2 (en) * 2008-03-05 2015-05-19 Chacha Search, Inc. Method and system for triggering a search request
GB2471432A (en) * 2008-04-03 2010-12-29 Icurrent Inc Information display system based on user profile data with assisted and explicit profile modification
CN101359331B (zh) * 2008-05-04 2014-03-19 索意互动(北京)信息技术有限公司 对搜索结果重新排序的方法和系统
US20090287684A1 (en) * 2008-05-14 2009-11-19 Bennett James D Historical internet
US8161036B2 (en) * 2008-06-27 2012-04-17 Microsoft Corporation Index optimization for ranking using a linear model
US8171031B2 (en) * 2008-06-27 2012-05-01 Microsoft Corporation Index optimization for ranking using a linear model
US8788476B2 (en) * 2008-08-15 2014-07-22 Chacha Search, Inc. Method and system of triggering a search request
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US8209616B2 (en) * 2008-08-28 2012-06-26 Palo Alto Research Center Incorporated System and method for interfacing a web browser widget with social indexing
US8010545B2 (en) * 2008-08-28 2011-08-30 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation
US8326829B2 (en) * 2008-10-17 2012-12-04 Centurylink Intellectual Property Llc System and method for displaying publication dates for search results
US8874564B2 (en) * 2008-10-17 2014-10-28 Centurylink Intellectual Property Llc System and method for communicating search results to one or more other parties
US8156130B2 (en) 2008-10-17 2012-04-10 Embarq Holdings Company Llc System and method for collapsing search results
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US9245033B2 (en) 2009-04-02 2016-01-26 Graham Holdings Company Channel sharing
WO2011013007A2 (en) * 2009-07-29 2011-02-03 Purapharm International (Hk) Limited Ontological information retrieval system
GB2472250A (en) * 2009-07-31 2011-02-02 Stephen Timothy Morris Method for determining document relevance
US20110040762A1 (en) * 2009-08-12 2011-02-17 Globalspec, Inc. Segmenting postings list reader
US20110078131A1 (en) * 2009-09-30 2011-03-31 Microsoft Corporation Experimental web search system
US8838576B2 (en) * 2009-10-12 2014-09-16 Yahoo! Inc. Posting list intersection parallelism in query processing
US8756215B2 (en) * 2009-12-02 2014-06-17 International Business Machines Corporation Indexing documents
US20110258212A1 (en) * 2010-04-14 2011-10-20 Microsoft Corporation Automatic query suggestion generation using sub-queries
US9031944B2 (en) 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
US10216831B2 (en) * 2010-05-19 2019-02-26 Excalibur Ip, Llc Search results summarized with tokens
WO2012027262A1 (en) * 2010-08-23 2012-03-01 Google Inc. Parallel document mining
US8655648B2 (en) * 2010-09-01 2014-02-18 Microsoft Corporation Identifying topically-related phrases in a browsing sequence
US8738673B2 (en) 2010-09-03 2014-05-27 International Business Machines Corporation Index partition maintenance over monotonically addressed document sequences
JP5492814B2 (ja) * 2011-03-28 2014-05-14 デジタルア−ツ株式会社 検索装置、検索システム、方法およびプログラム
US9201895B2 (en) 2011-06-03 2015-12-01 Apple Inc. Management of downloads from a network-based digital data repository based on network performance
US20120311080A1 (en) * 2011-06-03 2012-12-06 Thomas Alsina Management of Downloads from a Network-Based Digital Data Repository
US8595238B2 (en) 2011-06-22 2013-11-26 International Business Machines Corporation Smart index creation and reconciliation in an interconnected network of systems
US9152697B2 (en) * 2011-07-13 2015-10-06 International Business Machines Corporation Real-time search of vertically partitioned, inverted indexes
US20130024459A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Combining Full-Text Search and Queryable Fields in the Same Data Structure
US8818971B1 (en) 2012-01-30 2014-08-26 Google Inc. Processing bulk deletions in distributed databases
US9892198B2 (en) * 2012-06-07 2018-02-13 Oath Inc. Page personalization performed by an edge server
US8892422B1 (en) 2012-07-09 2014-11-18 Google Inc. Phrase identification in a sequence of words
US20140046976A1 (en) * 2012-08-11 2014-02-13 Guangsheng Zhang Systems, methods, and user interface for effectively presenting information
GB2505183A (en) * 2012-08-21 2014-02-26 Ibm Discovering composite keys
US10198776B2 (en) 2012-09-21 2019-02-05 Graham Holdings Company System and method for delivering an open profile personalization system through social media based on profile data structures that contain interest nodes or channels
US9721000B2 (en) * 2012-12-20 2017-08-01 Microsoft Technology Licensing, Llc Generating and using a customized index
US20140195961A1 (en) * 2013-01-07 2014-07-10 Apple Inc. Dynamic Index
US10387429B2 (en) * 2013-02-08 2019-08-20 Jive Software, Inc. Fast ad-hoc filtering of time series analytics
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US9256644B1 (en) * 2013-03-15 2016-02-09 Ca, Inc. System for identifying and investigating shared and derived content
US9575958B1 (en) * 2013-05-02 2017-02-21 Athena Ann Smyros Differentiation testing
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
US9146980B1 (en) 2013-06-24 2015-09-29 Google Inc. Temporal content selection
US20150019565A1 (en) * 2013-07-11 2015-01-15 Outside Intelligence Inc. Method And System For Scoring Credibility Of Information Sources
US9489411B2 (en) * 2013-07-29 2016-11-08 Sybase, Inc. High performance index creation
US9424345B1 (en) 2013-09-25 2016-08-23 Google Inc. Contextual content distribution
US9336258B2 (en) 2013-10-25 2016-05-10 International Business Machines Corporation Reducing database locking contention using multi-version data record concurrency control
US9450771B2 (en) 2013-11-20 2016-09-20 Blab, Inc. Determining information inter-relationships from distributed group discussions
KR101592670B1 (ko) * 2014-02-17 2016-02-11 포항공과대학교 산학협력단 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
CN103810300B (zh) * 2014-03-10 2017-08-01 北京国双科技有限公司 用于非索引覆盖的数据查询方法和装置
US9817855B2 (en) * 2014-03-17 2017-11-14 SynerScope B.V. Method and system for determining a measure of overlap between data entries
US10162882B2 (en) 2014-07-14 2018-12-25 Nternational Business Machines Corporation Automatically linking text to concepts in a knowledge base
US10437869B2 (en) * 2014-07-14 2019-10-08 International Business Machines Corporation Automatic new concept definition
US10503761B2 (en) 2014-07-14 2019-12-10 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations
US9864741B2 (en) * 2014-09-23 2018-01-09 Prysm, Inc. Automated collective term and phrase index
US9785724B2 (en) 2014-10-30 2017-10-10 Microsoft Technology Licensing, Llc Secondary queue for index process
US10042928B1 (en) 2014-12-03 2018-08-07 The Government Of The United States As Represented By The Director, National Security Agency System and method for automated reasoning with and searching of documents
US10025783B2 (en) * 2015-01-30 2018-07-17 Microsoft Technology Licensing, Llc Identifying similar documents using graphs
CN104715063B (zh) * 2015-03-31 2018-11-02 百度在线网络技术(北京)有限公司 搜索排序方法和装置
US10467215B2 (en) 2015-06-23 2019-11-05 Microsoft Technology Licensing, Llc Matching documents using a bit vector search index
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
US10242071B2 (en) 2015-06-23 2019-03-26 Microsoft Technology Licensing, Llc Preliminary ranker for scoring matching documents
US10733164B2 (en) 2015-06-23 2020-08-04 Microsoft Technology Licensing, Llc Updating a bit vector search index
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
US10229143B2 (en) * 2015-06-23 2019-03-12 Microsoft Technology Licensing, Llc Storage and retrieval of data from a bit vector search index
US10565198B2 (en) 2015-06-23 2020-02-18 Microsoft Technology Licensing, Llc Bit vector search index using shards
US11392582B2 (en) * 2015-10-15 2022-07-19 Sumo Logic, Inc. Automatic partitioning
CN107015992A (zh) * 2016-01-28 2017-08-04 珠海金山办公软件有限公司 一种文档显示方法及装置
US10885009B1 (en) * 2016-06-14 2021-01-05 Amazon Technologies, Inc. Generating aggregate views for data indices
US10810236B1 (en) * 2016-10-21 2020-10-20 Twitter, Inc. Indexing data in information retrieval systems
US10169331B2 (en) * 2017-01-29 2019-01-01 International Business Machines Corporation Text mining for automatically determining semantic relatedness
CN107357846B (zh) * 2017-06-26 2018-12-14 北京金堤科技有限公司 关系图谱的展示方法以及装置
US11449484B2 (en) * 2018-06-25 2022-09-20 Ebay Inc. Data indexing and searching using permutation indexes
CN108897730B (zh) * 2018-06-29 2022-07-29 国信优易数据股份有限公司 一种pdf文本的处理方法以及装置
CN109376121B (zh) * 2018-08-10 2021-07-02 南京华讯方舟通信设备有限公司 一种基于ElasticSearch全文检索的文件索引系统及方法
CN109086456B (zh) * 2018-08-31 2020-11-03 中国联合网络通信集团有限公司 数据索引方法及装置
US10902069B2 (en) 2018-12-18 2021-01-26 Runtime Collective Limited Distributed indexing and aggregation
CN112084435A (zh) * 2020-08-07 2020-12-15 北京三快在线科技有限公司 搜索排序模型训练方法及装置、搜索排序方法及装置
US11442971B1 (en) * 2021-05-26 2022-09-13 Adobe Inc. Selective database re-indexing
WO2023059909A2 (en) * 2021-10-08 2023-04-13 Open Text Holdings, Inc. System and method for efficient multi-stage querying of archived data
US20230109804A1 (en) * 2021-10-08 2023-04-13 Open Text Holdings, Inc. System and method for efficient multi-stage querying of archived data

Family Cites Families (191)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS619753A (ja) * 1984-06-26 1986-01-17 Hitachi Ltd 文書処理装置における頻発熟語の自動登録方法
US4773039A (en) * 1985-11-19 1988-09-20 International Business Machines Corporation Information processing system for compaction and replacement of phrases
JPH02270067A (ja) 1987-04-16 1990-11-05 Westinghouse Electric Corp <We> インテリジェント問合せシステム
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
US5278980A (en) 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5523946A (en) 1992-02-11 1996-06-04 Xerox Corporation Compact encoding of multi-lingual translation dictionaries
US5353401A (en) * 1992-11-06 1994-10-04 Ricoh Company, Ltd. Automatic interface layout generator for database systems
JPH0756933A (ja) * 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US5734749A (en) 1993-12-27 1998-03-31 Nec Corporation Character string input system for completing an input character string with an incomplete input indicative sign
JPH07262217A (ja) 1994-03-24 1995-10-13 Fuji Xerox Co Ltd テキスト検索装置
US5715443A (en) 1994-07-25 1998-02-03 Apple Computer, Inc. Method and apparatus for searching for information in a data processing system and for providing scheduled search reports in a summary format
JP3669016B2 (ja) 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
US5694593A (en) 1994-10-05 1997-12-02 Northeastern University Distributed computer database system and method
US6460036B1 (en) 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
JP2929963B2 (ja) * 1995-03-15 1999-08-03 松下電器産業株式会社 文書検索装置および単語索引作成方法および文書検索方法
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document
US5659732A (en) 1995-05-17 1997-08-19 Infoseek Corporation Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
JPH0934911A (ja) 1995-07-18 1997-02-07 Fuji Xerox Co Ltd 情報検索装置
US5668987A (en) 1995-08-31 1997-09-16 Sybase, Inc. Database system with subquery optimizer
US6366933B1 (en) 1995-10-27 2002-04-02 At&T Corp. Method and apparatus for tracking and viewing changes on the web
US5757917A (en) 1995-11-01 1998-05-26 First Virtual Holdings Incorporated Computerized payment system for purchasing goods and services on the internet
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US5924108A (en) * 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
US7051024B2 (en) * 1999-04-08 2006-05-23 Microsoft Corporation Document summarizer for word processors
US5794233A (en) 1996-04-09 1998-08-11 Rubinstein; Seymour I. Browse by prompted keyword phrases
US5721897A (en) 1996-04-09 1998-02-24 Rubinstein; Seymour I. Browse by prompted keyword phrases with an improved user interface
US5826261A (en) * 1996-05-10 1998-10-20 Spencer; Graham System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query
US5915249A (en) * 1996-06-14 1999-06-22 Excite, Inc. System and method for accelerated query evaluation of very large full-text databases
EP0822502A1 (en) * 1996-07-31 1998-02-04 BRITISH TELECOMMUNICATIONS public limited company Data access system
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US6085186A (en) 1996-09-20 2000-07-04 Netbot, Inc. Method and system using information written in a wrapper description language to execute query on a network
US20030093790A1 (en) * 2000-03-28 2003-05-15 Logan James D. Audio and video program recording, editing and playback systems using metadata
JP3584848B2 (ja) 1996-10-31 2004-11-04 富士ゼロックス株式会社 文書処理装置、項目検索装置及び項目検索方法
JP3902825B2 (ja) * 1997-01-16 2007-04-11 キヤノン株式会社 文書検索システムおよび方法
US5960383A (en) 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US6539430B1 (en) * 1997-03-25 2003-03-25 Symantec Corporation System and method for filtering data received by a computer system
US6185550B1 (en) 1997-06-13 2001-02-06 Sun Microsystems, Inc. Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US5995962A (en) * 1997-07-25 1999-11-30 Claritech Corporation Sort system for merging database entries
US6018733A (en) 1997-09-12 2000-01-25 Infoseek Corporation Methods for iteratively and interactively performing collection selection in full text searches
US5845278A (en) 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US5983216A (en) * 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US5956722A (en) 1997-09-23 1999-09-21 At&T Corp. Method for effective indexing of partially dynamic documents
US6542888B2 (en) * 1997-11-26 2003-04-01 International Business Machines Corporation Content filtering for electronic documents generated in multiple foreign languages
JP4183311B2 (ja) 1997-12-22 2008-11-19 株式会社リコー 文書の注釈方法、注釈装置および記録媒体
US6185558B1 (en) 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
JP3664874B2 (ja) * 1998-03-28 2005-06-29 松下電器産業株式会社 文書検索装置
JPH11293535A (ja) * 1998-04-10 1999-10-26 Mitsubishi Rayon Co Ltd 熱融着複合糸の製造方法
US6638314B1 (en) 1998-06-26 2003-10-28 Microsoft Corporation Method of web crawling utilizing crawl numbers
US6363377B1 (en) 1998-07-30 2002-03-26 Sarnoff Corporation Search data processor
US6377949B1 (en) * 1998-09-18 2002-04-23 Tacit Knowledge Systems, Inc. Method and apparatus for assigning a confidence level to a term within a user knowledge profile
US6366911B1 (en) * 1998-09-28 2002-04-02 International Business Machines Corporation Partitioning of sorted lists (containing duplicate entries) for multiprocessors sort and merge
US6415283B1 (en) * 1998-10-13 2002-07-02 Orack Corporation Methods and apparatus for determining focal points of clusters in a tree structure
US7058589B1 (en) * 1998-12-17 2006-06-06 Iex Corporation Method and system for employee work scheduling
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
JP4021583B2 (ja) * 1999-04-08 2007-12-12 富士通株式会社 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体
US6430539B1 (en) 1999-05-06 2002-08-06 Hnc Software Predictive modeling of consumer financial behavior
US6175830B1 (en) * 1999-05-20 2001-01-16 Evresearch, Ltd. Information management, retrieval and display system and associated method
US7089236B1 (en) * 1999-06-24 2006-08-08 Search 123.Com, Inc. Search engine interface
US6601026B2 (en) * 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6996775B1 (en) * 1999-10-29 2006-02-07 Verizon Laboratories Inc. Hypervideo: information retrieval using time-related multimedia:
US6751612B1 (en) 1999-11-29 2004-06-15 Xerox Corporation User query generate search results that rank set of servers where ranking is based on comparing content on each server with user query, frequency at which content on each server is altered using web crawler in a search engine
US6684183B1 (en) 1999-12-06 2004-01-27 Comverse Ltd. Generic natural language service creation environment
US6785671B1 (en) * 1999-12-08 2004-08-31 Amazon.Com, Inc. System and method for locating web-based product offerings
US6963867B2 (en) * 1999-12-08 2005-11-08 A9.Com, Inc. Search query processing to provide category-ranked presentation of search results
US6772150B1 (en) 1999-12-10 2004-08-03 Amazon.Com, Inc. Search query refinement using related search phrases
AU4517501A (en) 1999-12-10 2001-06-18 Amazon.Com, Inc. Search query refinement using related search phrases
CA2293064C (en) * 1999-12-22 2004-05-04 Ibm Canada Limited-Ibm Canada Limitee Method and apparatus for analyzing data retrieval using index scanning
US6981040B1 (en) * 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US6820237B1 (en) * 2000-01-21 2004-11-16 Amikanow! Corporation Apparatus and method for context-based highlighting of an electronic document
US6883135B1 (en) 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US6654739B1 (en) * 2000-01-31 2003-11-25 International Business Machines Corporation Lightweight document clustering
US6571240B1 (en) * 2000-02-02 2003-05-27 Chi Fai Ho Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases
JP2001303279A (ja) * 2000-02-17 2001-10-31 Toyo Gurahoiru:Kk 自己犠牲型金属防食剤および金属防食方法
US7137065B1 (en) * 2000-02-24 2006-11-14 International Business Machines Corporation System and method for classifying electronically posted documents
US20060143714A1 (en) 2000-03-09 2006-06-29 Pkware, Inc. System and method for manipulating and managing computer archive files
US6859800B1 (en) * 2000-04-26 2005-02-22 Global Information Research And Technologies Llc System for fulfilling an information need
CN1465018A (zh) 2000-05-11 2003-12-31 南加利福尼亚大学 机器翻译技术
US6691106B1 (en) * 2000-05-23 2004-02-10 Intel Corporation Profile driven instant web portal
US7096220B1 (en) 2000-05-24 2006-08-22 Reachforce, Inc. Web-based customer prospects harvester system
US20020042707A1 (en) 2000-06-19 2002-04-11 Gang Zhao Grammar-packaged parsing
US20020078090A1 (en) 2000-06-30 2002-06-20 Hwang Chung Hee Ontological concept-based, user-centric text summarization
EP1182577A1 (en) 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
KR100426382B1 (ko) 2000-08-23 2004-04-08 학교법인 김포대학 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
US7017114B2 (en) 2000-09-20 2006-03-21 International Business Machines Corporation Automatic correlation method for generating summaries for text documents
US20020147578A1 (en) 2000-09-29 2002-10-10 Lingomotors, Inc. Method and system for query reformulation for searching of information
US20020065857A1 (en) 2000-10-04 2002-05-30 Zbigniew Michalewicz System and method for analysis and clustering of documents for search engine
CA2322599A1 (en) 2000-10-06 2002-04-06 Ibm Canada Limited-Ibm Canada Limitee System and method for workflow control of contractual activities
JP2002132789A (ja) 2000-10-19 2002-05-10 Hitachi Ltd 文書検索方法
US7130790B1 (en) 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation
JP2002169834A (ja) 2000-11-20 2002-06-14 Hewlett Packard Co <Hp> 文書のベクトル解析を行うコンピュータおよび方法
US20020091671A1 (en) 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
KR20020045343A (ko) 2000-12-08 2002-06-19 오길록 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법
JP2002207760A (ja) 2001-01-10 2002-07-26 Hitachi Ltd 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
US6778980B1 (en) 2001-02-22 2004-08-17 Drugstore.Com Techniques for improved searching of electronically stored information
US6741984B2 (en) * 2001-02-23 2004-05-25 General Electric Company Method, system and storage medium for arranging a database
US6823333B2 (en) * 2001-03-02 2004-11-23 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for conducting a keyterm search
US6741981B2 (en) * 2001-03-02 2004-05-25 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) System, method and apparatus for conducting a phrase search
US6721728B2 (en) * 2001-03-02 2004-04-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for discovering phrases in a database
US6697793B2 (en) * 2001-03-02 2004-02-24 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for generating phrases from a database
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7171619B1 (en) 2001-07-05 2007-01-30 Sun Microsystems, Inc. Methods and apparatus for accessing document content
US6769016B2 (en) 2001-07-26 2004-07-27 Networks Associates Technology, Inc. Intelligent SPAM detection system using an updateable neural analysis engine
US20030031996A1 (en) 2001-08-08 2003-02-13 Adam Robinson Method and system for evaluating documents
WO2003014975A1 (en) 2001-08-08 2003-02-20 Quiver, Inc. Document categorization engine
US6778979B2 (en) 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries
US6978274B1 (en) 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
JP2003242176A (ja) 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US6741982B2 (en) * 2001-12-19 2004-05-25 Cognos Incorporated System and method for retrieving data from a database system
US7356527B2 (en) 2001-12-19 2008-04-08 International Business Machines Corporation Lossy index compression
US7243092B2 (en) 2001-12-28 2007-07-10 Sap Ag Taxonomy generation for electronic documents
US7137062B2 (en) 2001-12-28 2006-11-14 International Business Machines Corporation System and method for hierarchical segmentation with latent semantic indexing in scale space
JP4108337B2 (ja) * 2002-01-10 2008-06-25 三菱電機株式会社 電子ファイリングシステム及びその検索インデックス作成方法
US7139756B2 (en) * 2002-01-22 2006-11-21 International Business Machines Corporation System and method for detecting duplicate and similar documents
US7028045B2 (en) 2002-01-25 2006-04-11 International Business Machines Corporation Compressing index files in information retrieval
US7421660B2 (en) 2003-02-04 2008-09-02 Cataphora, Inc. Method and apparatus to visually present discussions for data mining purposes
JP4092933B2 (ja) 2002-03-20 2008-05-28 富士ゼロックス株式会社 文書情報検索装置及び文書情報検索プログラム
US7743045B2 (en) 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US20030195937A1 (en) 2002-04-16 2003-10-16 Kontact Software Inc. Intelligent message screening
US6877001B2 (en) 2002-04-25 2005-04-05 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
NZ518744A (en) 2002-05-03 2004-08-27 Hyperbolex Ltd Electronic document indexing using word use nodes, node objects and link objects
US7085771B2 (en) 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents
US7028026B1 (en) * 2002-05-28 2006-04-11 Ask Jeeves, Inc. Relevancy-based database retrieval and display techniques
JP4452012B2 (ja) * 2002-07-04 2010-04-21 ヒューレット・パッカード・カンパニー 文書の特有性評価方法
JP2004046438A (ja) 2002-07-10 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体
US7379978B2 (en) 2002-07-19 2008-05-27 Fiserv Incorporated Electronic item management and archival system and method of operating the same
US20040034633A1 (en) 2002-08-05 2004-02-19 Rickard John Terrell Data search system and method using mutual subsethood measures
US7151864B2 (en) 2002-09-18 2006-12-19 Hewlett-Packard Development Company, L.P. Information research initiated from a scanned image media
US7158983B2 (en) 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
US20040064442A1 (en) 2002-09-27 2004-04-01 Popovitch Steven Gregory Incremental search engine
US6886010B2 (en) 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
JP2004139150A (ja) 2002-10-15 2004-05-13 Ricoh Co Ltd 文書検索装置、プログラム及び記憶媒体
US7970832B2 (en) 2002-11-20 2011-06-28 Return Path, Inc. Electronic message delivery with estimation approaches and complaint, bond, and statistics panels
JP2004192546A (ja) * 2002-12-13 2004-07-08 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法、装置、プログラム、および記録媒体
US20040133560A1 (en) 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
US7725544B2 (en) 2003-01-24 2010-05-25 Aol Inc. Group based spam classification
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
US7945567B2 (en) * 2003-03-17 2011-05-17 Hewlett-Packard Development Company, L.P. Storing and/or retrieving a document within a knowledge base or document repository
US6947930B2 (en) 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US7051023B2 (en) 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7149748B1 (en) 2003-05-06 2006-12-12 Sap Ag Expanded inverted index
US7146361B2 (en) * 2003-05-30 2006-12-05 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)
US7664732B2 (en) 2003-05-31 2010-02-16 Nhn Corporation Method of managing websites registered in search engine and a system thereof
US7272853B2 (en) 2003-06-04 2007-09-18 Microsoft Corporation Origination/destination features and lists for spam prevention
US7051014B2 (en) * 2003-06-18 2006-05-23 Microsoft Corporation Utilizing information redundancy to improve text searches
US7162473B2 (en) 2003-06-26 2007-01-09 Microsoft Corporation Method and system for usage analyzer that determines user accessed sources, indexes data subsets, and associated metadata, processing implicit queries based on potential interest to users
US8707312B1 (en) 2003-07-03 2014-04-22 Google Inc. Document reuse in a search engine crawler
US7254580B1 (en) * 2003-07-31 2007-08-07 Google Inc. System and method for selectively searching partitions of a database
JP2005056233A (ja) 2003-08-06 2005-03-03 Nec Corp 移動体通信装置、移動体通信装置の電子メールの受信動作方法及びその電子メールの受信動作プログラム
US20050043940A1 (en) 2003-08-20 2005-02-24 Marvin Elder Preparing a data source for a natural language query
US20050060295A1 (en) 2003-09-12 2005-03-17 Sensory Networks, Inc. Statistical classification of high-speed network data through content inspection
US20050071328A1 (en) 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
US7346839B2 (en) 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US20050071310A1 (en) 2003-09-30 2005-03-31 Nadav Eiron System, method, and computer program product for identifying multi-page documents in hypertext collections
US7257564B2 (en) 2003-10-03 2007-08-14 Tumbleweed Communications Corp. Dynamic message filtering
US7240064B2 (en) * 2003-11-10 2007-07-03 Overture Services, Inc. Search engine with hierarchically stored indices
US20050160107A1 (en) * 2003-12-29 2005-07-21 Ping Liang Advanced search, file system, and intelligent assistant agent
US7206389B1 (en) * 2004-01-07 2007-04-17 Nuance Communications, Inc. Method and apparatus for generating a speech-recognition-based call-routing system
US20060294124A1 (en) 2004-01-12 2006-12-28 Junghoo Cho Unbiased page ranking
US7310632B2 (en) 2004-02-12 2007-12-18 Microsoft Corporation Decision-theoretic web-crawling and predicting web-page change
US20050198559A1 (en) 2004-03-08 2005-09-08 Kabushiki Kaisha Toshiba Document information management system, document information management program, and document information management method
US20050216564A1 (en) 2004-03-11 2005-09-29 Myers Gregory K Method and apparatus for analysis of electronic communications containing imagery
US20050256848A1 (en) * 2004-05-13 2005-11-17 International Business Machines Corporation System and method for user rank search
EP1767010B1 (en) 2004-06-15 2015-11-11 Tekelec Global, Inc. Method, system, and computer program products for content-based screening of MMS messages
JP2006026844A (ja) * 2004-07-20 2006-02-02 Fujitsu Ltd ポリッシングパッド、それを備えた研磨装置及び貼り付け装置
US7584175B2 (en) 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7426507B1 (en) 2004-07-26 2008-09-16 Google, Inc. Automatic taxonomy generation in search results using phrases
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7536408B2 (en) 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7580929B2 (en) 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7580921B2 (en) 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7599914B2 (en) 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7711679B2 (en) * 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7395260B2 (en) 2004-08-04 2008-07-01 International Business Machines Corporation Method for providing graphical representations of search results in multiple related histograms
US8407239B2 (en) * 2004-08-13 2013-03-26 Google Inc. Multi-stage query processing system and method for use with tokenspace repository
US8504565B2 (en) 2004-09-09 2013-08-06 William M. Pitts Full text search capabilities integrated into distributed file systems— incrementally indexing files
US20060200464A1 (en) 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
US20080195601A1 (en) 2005-04-14 2008-08-14 The Regents Of The University Of California Method For Information Retrieval
US7552230B2 (en) 2005-06-15 2009-06-23 International Business Machines Corporation Method and apparatus for reducing spam on peer-to-peer networks
US20080005064A1 (en) 2005-06-28 2008-01-03 Yahoo! Inc. Apparatus and method for content annotation and conditional annotation retrieval in a search context
US7512596B2 (en) 2005-08-01 2009-03-31 Business Objects Americas Processor for fast phrase searching
US7454449B2 (en) * 2005-12-20 2008-11-18 International Business Machines Corporation Method for reorganizing a set of database partitions
JP2007262217A (ja) 2006-03-28 2007-10-11 Toray Ind Inc ポリフェニレンサルファイド樹脂組成物およびそれからなる成形品
US7483820B2 (en) 2006-04-18 2009-01-27 Gemini Design Technology, Inc. Method for ranking webpages via circuit simulation
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
JP2008305730A (ja) 2007-06-11 2008-12-18 Fuji Electric Holdings Co Ltd 多色発光デバイスの製造方法
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010061322A (ja) * 2008-09-03 2010-03-18 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置および情報検索プログラム
JP2012003740A (ja) * 2010-06-16 2012-01-05 Fuji Xerox Co Ltd 検索結果生成方法、検索結果生成プログラムおよび検索システム

Also Published As

Publication number Publication date
EP1844391B1 (en) 2012-10-17
CA2595674C (en) 2012-07-03
US20100030773A1 (en) 2010-02-04
WO2006081325A3 (en) 2007-08-09
US7567959B2 (en) 2009-07-28
WO2006081325A2 (en) 2006-08-03
AU2010200478B2 (en) 2012-10-04
KR20070094972A (ko) 2007-09-27
BRPI0614024B1 (pt) 2018-02-14
US20180101528A1 (en) 2018-04-12
US9361331B2 (en) 2016-06-07
US20160283474A1 (en) 2016-09-29
AU2010200478A1 (en) 2010-03-04
NO20074329L (no) 2007-10-23
EP1844391A2 (en) 2007-10-17
BRPI0614024A2 (pt) 2012-12-25
CN101133388B (zh) 2011-07-06
US20140095511A1 (en) 2014-04-03
US8560550B2 (en) 2013-10-15
NO338518B1 (no) 2016-08-29
US20060106792A1 (en) 2006-05-18
KR101273520B1 (ko) 2013-06-14
DK1844391T3 (da) 2013-01-28
JP4881322B2 (ja) 2012-02-22
US9817825B2 (en) 2017-11-14
US10671676B2 (en) 2020-06-02
AU2006208079B2 (en) 2009-11-26
CA2595674A1 (en) 2006-08-03
AU2006208079A1 (en) 2006-08-03
CN101133388A (zh) 2008-02-27
EP1844391A4 (en) 2010-05-19

Similar Documents

Publication Publication Date Title
JP4881322B2 (ja) 多重索引に基づく情報検索システム
US9817886B2 (en) Information retrieval system for archiving multiple document versions
US7603345B2 (en) Detecting spam documents in a phrase based information retrieval system
KR101223172B1 (ko) 정보 검색 시스템에서의 문구 기반 서치
KR101223173B1 (ko) 정보 검색 시스템에서의 문구 기반 인덱싱
KR101176079B1 (ko) 문서 설명의 문구 기반 생성

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111101

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111202

R150 Certificate of patent or registration of utility model

Ref document number: 4881322

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250