JP5255766B2 - 対話形サーチクエリー改良のためのシステム及び方法 - Google Patents

対話形サーチクエリー改良のためのシステム及び方法 Download PDF

Info

Publication number
JP5255766B2
JP5255766B2 JP2006507450A JP2006507450A JP5255766B2 JP 5255766 B2 JP5255766 B2 JP 5255766B2 JP 2006507450 A JP2006507450 A JP 2006507450A JP 2006507450 A JP2006507450 A JP 2006507450A JP 5255766 B2 JP5255766 B2 JP 5255766B2
Authority
JP
Japan
Prior art keywords
candidate terms
terms
candidate
document
ranked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2006507450A
Other languages
English (en)
Other versions
JP2006523344A (ja
Inventor
ピーター ジー アニック
アラステア ゴアリー
ジョン ジョセフ スロール
Original Assignee
ヤフー! インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤフー! インコーポレイテッド filed Critical ヤフー! インコーポレイテッド
Publication of JP2006523344A publication Critical patent/JP2006523344A/ja
Application granted granted Critical
Publication of JP5255766B2 publication Critical patent/JP5255766B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本出願は、2003年3月21日に出願した代理人整理番号10130−044−888の名称が「対話形サーチクエリー改良のためのシステム及び方法」の米国特許出願番号第60/456,905号に対する優先権を主張し、その全体が引用により本明細書に組み込まれる。本発明は、データベース内の文書、或いはインターネット又はイントラネットに結合されたサーバ上に格納された文書を探し出すためのサーチエンジンなどのサーチエンジン分野に関し、詳細には、本発明は、ユーザにとって関心のある文書を探し出すためにそのサーチクエリーを改良する際にサーチエンジンのユーザを支援するためのシステム及び方法に関する。
ユーザの情報のニーズを伝え、該ニーズが目標文書の語彙内で表現される方法と一致する検索式を作ることは、テキストサーチエンジンのユーザにとって困難な認知タスクとして長い間認識されてきた。サーチエンジンユーザの大多数は、1つ又は2つの語だけのクエリーを用いて文書のサーチを始め、次いで、サーチエンジンによって得られた最初の10位の結果の中にユーザが求める文書又は複数の文書が見つからないと失望する。少なくとも幾つかのサーチでは、結果をランク付けする方法を改善することによってユーザの満足度を向上させることができるが、極めて広範なサーチクエリーでは、多くの様々なサーチエンジンユーザのより具体的な情報要求を満たすことはできない。ユーザがクエリー式を改良するのを助ける1つの方法は、丁度司書が情報を探している人と対面した会話で行うように、用語の提案を提供することである。しかしながら、システムでは、概念的にクエリーに関係する可能性のある何百の中から、サーチを行っているユーザに最も関係がありそうな用語がどれであるかを「推測」しなければならないので、これを自動的に行うことは全く別のことである。関連する用語を選択するための一般的な方法には、オンラインシソーラス又は以前のログに記録されたクエリーのデータベース(現在のクエリー内の1つ又はそれ以上の語を含む以前のクエリーを見つけるためにサーチすることができる)に照会することが含まれる。このような方法の欠点は、このようにして得られた関連用語が文書自体のコーパス内で使用される内容又は語彙を実際に反映している保証がないことである。この理由により、関連用語をクエリーの実際の結果から動的に収集しようと試みる代替方法が多くの関心を集めている。
改良提案を生成するためにサーチ結果セットを使用する幾つかの従来方法には、用語関連性フィードバック(例えば、「Fast and Effective Query Refinement」, Velez他, SIGIR’97会報 p6−p15)、ハイパーインデックス(「Query Reformulation on the Internet:Empirical Data and the Hyperindex Search Engine」, Bruza及びDennis, RIAO’97会報 p500−p509)、パラフレーズ(「The Paraphrase Search Assistant:Terminological Feedback for Iterative Information Seeking」, Anick及びTipirneni,SIGIR’99会報、p153−p159)、及びクラスタリング(「Web Document Clustering:A Feasibility Demonstration」, Zamir及びEtzioni, SIGIR’98会報 p46−p54)がある。ほとんどの関連性フィードバック法は、部分一致サーチエンジン用に設計されており、通常、ユーザによって関連するもの或いは関連しないものとして明示的にタグ付けされた検索文書のサブセット全体にわたる計算から得られた複数の重み付けされた用語を付加することによって、クエリー式を展開することを伴う。ハイパーインデックスは、サーチエンジンによって返された断片の全体にわたり構文解析器を作動させて、クエリー用語を包含する名詞句を抽出する。パラフレーズは、結果として得られたセット文書から名詞句を抽出し、語句拡散に基づいて表示するためのフィードバック用語を選択する。クラスタリング法は、結果のセット断片をクラスタ化し、それぞれのクラスタ内に出現してくる用語から代表的なクエリー用語を得ようとするものである。これらの方法の多くは機能的であるが、生成されたフィードバック用語のランタイム性能又は関連性のいずれかの原因により、巨大なウェブサーチエンジンでも多少不十分である。サーチを向上させるための関連のサーチ用語の識別において、ユーザを支援する効率的な方法に対する当該技術分野における必要性がある。
従来技術の限界をよく理解するためには、「Fast and Effective Query Refinement」, Velez他, SIGIR’97会報 p6−p15を綿密に調べることで保証される。Velez他は、初期クエリーを改良するために、自動的な提案からの用語を初期クエリーに付加するクエリー改良のシステム及び方法を提供する。Velez他の文献では、一般的なクエリー改良プログラムDMをベースに構成されている。Velez他文献で示されるように、DMは以下のステップを有する:
C=文書コーパス
q=ユーザクエリー
r=検討するマッチング文書の数
fcn(S)=アルゴリズム特定重み用語セットS
とすると、
1.クエリーqにマッチする文書のセットD(q)∈Cを計算する。
2.文書にマッチするトップrのサブセットDr(q)を選択する。
3.dが文書、tが用語である場合に、T(q)={t|∃d∈Dr(q):t∈d}であるような文書Dr(q)から用語のセットT(q)を計算する。
4.最も高い重みWfcn(S)でT(q)からn個の用語のサブセットSを計算する。
5.Sを用語提案のセットとしてユーザに提示する。
Velez他文献で示されるように、この方法は、高コストのランタイム技法であるので満足できるものではない。言い換えると、文書データベース(コーパス)が大きい場合において、DMを使用して用語提案のセットSを計算するために不満足な時間量を取ることになる。
Velez他は、DMによって動的に実行される作業のかなりの量を事前計算することによってDMの速度を向上させようとしている。この事前計算段階では、Velez他は、コーパスの各単語の用語tを、単一の用語クエリーtを所与としてDMアルゴリズムが提案する用語のそれぞれのセットmにマップするデータ構造を作成する。次に、ランタイムにおいて、ユーザから任意のクエリーが受信される。クエリーは通常、用語のセットを含む。クエリーに応答して、Velez他は、クエリーの用語の各々に対応する用語のそれぞれのセットmを収集し、これらのセットの各々を単一のセットにマージし、次いで、これが改良されたサーチのための提案としてユーザに戻される。例えば、ユーザがクエリー「スペースシャトル」を入力する場合を考える。この事例では、Velez他は、語「スペース」に対して事前計算されている用語のセットmと、語「シャトル」に対して事前計算されている用語のセットmとを取得することができ、これらを一緒にマージしてクエリー「スペースシャトル」に対して提案される用語のセットを得るようにする。
この方法は、オフラインで用語の関連性のサブセットを事前計算することによってランタイム性能を向上させるが、Velez他の方法には欠点がある。第1に、文脈の問題がある。Velez他の方法は、用語tがそれ自体で或いは複数用語クエリーの一部として現れるかどうかに関わらず、所与の用語tに関連する用語のセットmが同じであるという仮定に依存する。しかしながら、この仮定は常に真であるとは限らない。複数用語句内に現れる用語は、ある事例においては、それ自体が現れている用語に対して完全に異なる意味を表すことがある。Velez他でのベースとなる仮定により、この方法は幾つかの事例では不適切なサーチ用語提案を潜在的にもたらす可能性があり、或いは、クエリー全体の文脈内でより関連性があるはずの他の提案を見逃す可能性がある。第2に、コーパス(文書データベース)が変わると、Velez他の方法は、用語の各セットmが、場合によってはコーパスに最近加えられたファイルを含むコーパスの複数のファイルのコンテンツに依存するので、コーパスの用語tにそれぞれ関連する用語のセットmを再計算することが必要となる。
Xu及びCroft,SIGIR’97、p4−p11は、幾つかの概念(サーチ用語)を含むことができるサーチクエリーが受け取られる前に、所与の概念に関係する用語のセットが事前計算される別の方法を説明している。Velez他の方法と同様に、Xu及びCroftの方法は、コーパスが時間につれて変化するときに概念に関連する用語の広範な再計算を必要とする、静的クロス文書データ構造及び統計の構成に依存する。従って、Xu及びCroftの計算要求は、極めて大きな動的文書データベースにとっては不満足なものである。
米国特許出願番号第60/456,905号公報 「Fast and Effective Query Refinement」, Velez他, SIGIR’97会報 p6−p15 「Query Reformulation on the Internet:Empirical Data and the Hyperindex Search Engine」, Bruza及びDennis, RIAO’97会報 p500−p509 「The Paraphrase Search Assistant:Terminological Feedback for Iterative Information Seeking」, Anick及びTipirneni,SIGIR’99会報、p153−p159 「Web Document Clustering:A Feasibility Demonstration」, Zamir及びEtzioni, SIGIR’98会報 p46−p54
上記従来技術から、ユーザの好みにより近いサーチ結果をもたらすために、サーチクエリーをより絞り込んで定義されたクエリーに改良する際にユーザへの支援を提供することが望まれる。
本発明は、文書インデックスから文書を検索するよう設計されたサーチクエリーを改良するための改善された方法を提供する。本発明は、コーパスが更新される度に再計算しなければならないクロス文書データ構造又はグローバル統計に依存しないので有利である。更に本発明は、句のミックス、単語用語、及び特殊化(クエリー用語を含む句)を含む関連のある提案の短いリストを作成するために、周知の方法に比べてランタイムでフェッチする必要のある結果が少ないので、クエリー時(ランタイム)にI/O資源を必要とすることが著しく少ない。本発明において、文書インデックスでの各文書は、例えば文書インデックスの作成中にクエリーに先立つある時間に処理される。この処理では、文書インデックスでの各文書は、文書がその文書に対するランク付けされた候補用語のセット内に含むのに何らかの適切な用語を含むかどうかを判定するために調べられる。文書がこのような用語を含む場合、文書への文書インデックスの入力は、文書と関連付けられた用語のセットを含むよう構成される。この用語のセットは、ランク付けされた候補用語のセットと呼ばれる。
クエリーが受け取られると、文書の初期グループが文書インデックスから検索される。文書の初期グループは、クエリーに対する関連性によってランク付けされる。文書の「初期グループ」は、クエリーに対して潜在的に関係があるものとして識別された文書のフルセットのうちのセブセットとすることができる。1つの実施形態において、初期グループでの文書の数は、クエリーに潜在的に関係があるものとして識別された全文書より少なく、パラメータ値は通常20と200の間(例えば50)である。次に、重み付け関数は、ランク付けされた文書の初期グループでの文書に関連するランク付けされた候補用語のいずれかのセットに現れる各候補用語に加えられる。トップスコアリング候補用語は、クエリーに応答してランク付けされた文書の初期グループと共に提示される。提示された候補用語の1つをユーザが選択することにより、オリジナルのサーチクエリーへ用語を付加することになる。
本発明の1つの態様は、受信クエリーを改良する方法を提供する。受信クエリーは、受信クエリーに対応するランク付けされた文書の初期グループを作成するように処理される。ランク付けされた文書の初期グループでの文書の全部又は一部の各文書は、ランク付けされた候補用語のそれぞれのセットに関連付けられる。候補用語の種々のそれぞれのセットにおける各候補用語は、ランク付けされた文書の初期グループの文書内に組み込まれる。各候補用語は、語又は句とすることができる。更に、好ましい実施形態において、候補用語の種々のそれぞれのセットは受信クエリーを処理する前の時点で構成される。この方法は、続いて、ランク付けされた候補用語の種々のそれぞれのセットの1つまたはそれ以上内にある候補用語のサブセットを選択する。選択関数は、この候補用語のサブセットを選択するのに使用される。次に受信クエリーに応答して、ランク付けされた文書の初期グループと候補用語のサブセットとが提示される。幾つかの実施形態において、処理、選択、及び提示が、オリジナルの受信クエリーと候補用語のサブセットからの候補用語とを含む変更されたクエリーを使用して繰り返される。
幾つかの実施形態において、文書と関連付けられた候補用語のセットは、文書の用語を候補用語のマスターリストと比較することによって構成される。用語が候補用語のマスターリストに存在する場合、その用語は、候補用語として文書と関連付けられた候補用語のセットに加えられる。幾つかの実施形態において、候補用語のマスターリストは、10,000,000より多い候補用語を含む。この比較は、文書内の用語の最大数が検討されるか或いは固有の用語の閾値数が検討されるまで繰り返される。次に重み付け及び/又は選択関数が、ランク付けされた候補用語のセットを作成するために候補用語のセットに加えられる。一般的に、この重み付け及び/又は選択関数は、候補用語をランク付けし、次いで、高くランク付けされた用語だけが保持されるカットオフを適用する。幾つかの実施形態において、候補用語のマスターリストは、特定の言語(例えば、英語、スペイン語、フランス語、ドイツ語、ポルトガル語、イタリア語、ロシア語、中国語、又は日本語)について最適化される。幾つかの実施形態において、ランク付けされた文書の初期グループにおける文書の全部又は一部の各文書は、候補用語のマスターリストが最適化された言語と同じ言語である。
幾つかの実施形態において、文書インデックスの各文書は、クエリープロセスの前(例えば初期文書インデックス中)の時点で分類される。幾つかの実施形態において、2つの可能なクラス、すなわち第1の家族向けクラスと第2の非家族向けクラスがある。文書の分類の指定は、文書インデックスに含まれる。
幾つかの実施形態において、実際には、ランク付けされた候補用語のセットのより複雑な用語のサブセット(サブストリング)であるランク付けされた候補用語のセット内の単語候補用語が廃棄される。更に、より複雑な用語は、ランク付けされた候補用語のセットに関連する文書の全部或いは上位部分において単純な用語が現れた事例の回数に対してクレジットが与えられる。この廃棄及びクレジットは、ランク付けされた候補用語のセットにおけるより複雑な候補用語のサブセットである単語候補用語が無くなるまで繰り返される。更に、同じ手順をより複雑な用語のサブセットである複数語候補用語に適用できる。
幾つかの実施形態において、ランク付けされた候補用語のセット内の第2用語の正字の異形又は屈折異形であるランク付けされた候補用語のセットにおける候補用語が廃棄される。更に、第2用語は、ランク付けされた候補用語のセットに関連する文書の全部又は上位部分において正字の異形又は屈折異形用語が現れた事例の回数に対してクレジットが与えられる。この廃棄及びクレジットは、ランク付けされた候補用語のセット内の別の用語の正字の異形又は屈折異形である用語が無くなるまで繰り返される。幾つかの事例では、第2用語は、両方の(例えば複数の)正字の異形又は屈折異形を含む結合用語として候補セット内に上書きされ、関連する文書の全部或いは上位部分に最も現れた異形が結合用語に最初に現れる。幾つかの実施形態において、結合用語が提示された候補用語のサブセットに含めるために選択される場合、結合用語の第1部分のみがユーザに提示される。
本発明の幾つかの実施形態は、クエリーに応答して提示されることになる候補用語のサブセットを選択するのに使用される種々の選択関数を提供する。幾つかの実施形態において、この選択関数は、ランク付けされた文書の初期グループ内のトップランクの文書と関連付けられた候補用語のセットにおいて見つけられた情報を利用する。この情報は、ランキングの2つの形式を含む。最初に、文書がランク付けされる。次に、ランク付けされた文書の初期グループ内の文書と関連するランク付けされた候補用語の各セット内の各候補用語がランク付けされる。
1つの実施形態において、選択関数は、(i)ランク付けされた文書の初期グループ内のトップランクの文書に関連するランク付けされた候補用語の各それぞれのセット内の各候補用語に対して重み付け関数を適用することを含む。本明細書で使用されるランク付けされた文書の初期グループの各トップランクの文書は、ある閾値ランキングよりも数値的に小さいランク(例えば50、すなわちトップランクの文書がクエリーに戻されたランク付けされた文書の初期グループのトップ50の文書内にある)を有する文書である。例えば、ランク付けされた文書の初期グループが100の文書を含み、閾値ランキングが50である場合を考える。このとき、最初の50の文書はトップランクの文書とみなすことになる。最も高い重みを受け取っているこれらの候補用語は、クエリー結果と共に提示される候補用語のサブセット内に含まれる。幾つかの実施形態において、重み付け関数によって候補用語に加えられる重みは、候補用語が現れるトップランクの文書と関連付けられた候補用語のセットの数に応じて、ランク付けされた候補用語の各こうしたセット内の候補用語の平均位置に応じて、受信クエリーの用語が候補用語内に存在するかどうかによって、候補用語内の文字数によって、或いは候補用語の関連するセット内に用語を含むトップランクの文書の平均ランク位置によって決定される。幾つかの実施形態において、重み付け関数によって候補用語に加えられる重みは、TermCount、TermPosition、ResultPosition、TermLength、及びQueryInclusionのいずれかの組合せ又はいずれかの重み付けサブセットに応じて決定され、ここで、
TermCountは、(i)候補用語を含み、且つ(ii)トップランクの文書にそれぞれ関連するランク付けされた候補用語のセットの数であり、
TermPositionは、(i)候補用語を含み、且つ(ii)トップランクの文書にそれぞれ関連するランク付けされた候補用語のこれらのセットにおける候補用語の位置の関数(例えば平均)であり、
ResultPositionは、候補用語を含むランク付けされた候補用語のセットに関連付けられるこれらのトップランクの文書のランクの関数(例えば平均)であり、
TermLengthは、候補用語の文字の数(候補用語の複雑性)であり、
QueryInclusionは、受信クエリーの用語が候補用語内に存在するかどうかを示す値である。
幾つかの実施形態において、重み付け関数によって候補用語に加えられる重みは、次式に応じて決定される。
TermCount+TermPosition+ResultPosition+TermLength+QueryInclusion
幾つかの実施形態において、TermCount、TermPosition、ResultPosition、TermLength、及びQueryInclusionは各々、別々に重み付けされる。幾つかの実施形態において、重み付け関数によって候補用語に加えられる重みは、次式に応じて決定される。
(TermCount*1)+
(TermPosition*(w2+(RefinementDepth*2´)))+
(ResultPosition*3)+
(TermLength*(w4+(RefinementDepth*4´)))+
(QueryInclusion*(w5+(RefinementDepth*5´)))
ここで、w1、w2、w3、w4、w5、w2´、w4´、及びw5´は別々の重みであり、RefinementDepthは受信クエリーに対して処理が行われた回数である。
幾つかの実施形態において、選択関数は、ランク付けされた文書の初期グループ内の各文書について文書の分類を決定する段階を含む。次いで、文書のセットの閾値パーセンテージが第1分類(例えば、家族向けカテゴリー)に属する場合には、第2分類(例えば、非家族向けカテゴリー)のメンバーである文書に属するランク付けされた候補用語の全セットは、候補用語のサブセットを形成するのには使用されない。
本発明の別の態様は、コンピュータシステムと共に使用するコンピュータプログラム製品を提供する。コンピュータプログラム製品は、コンピュータ可読記憶媒体とこれに組み込まれたコンピュータプログラム機構とを含む。コンピュータプログラム機構は、受信クエリーを改良するためのクエリー改良提案エンジンを含む。このエンジンは、受信クエリーに対応するランク付けされた文書の初期グループを作成するように受信クエリーを処理する命令を含む。ランク付けされた文書の初期グループ内の文書の全部又は一部の各文書は、ランク付けされた候補用語のそれぞれのセットの各候補用語が文書内に組み込まれるように、ランク付けされた候補用語のそれぞれのセットに関連付けられる。ランク付けされた候補用語の各それぞれのセットは、受信クエリーの処理の前の時点で識別される。エンジンは更に、選択関数に従って、候補用語のそれぞれのセットの1つ又はそれ以上内にある候補用語のサブセットを選択する命令を含む。更に、エンジンは、受信クエリーに応答して、ランク付けされた文書の初期グループと候補用語のサブセットとを提示する命令を含む。
本発明の更に別の態様は、複数のユニフォームリソースロケータ(URL)から構成される文書インデックスデータ構造を提供する。各URLはそれぞれの文書を指定する。複数のURLによって指定されたそれぞれの文書の全部又は一部の各文書は、ランク付けされた候補用語のそれぞれのセットに関連付けられる。ランク付けされた候補用語のそれぞれのセットの各候補用語は、ランク付けされた候補用語のセットに関連する文書に組み込まれる候補用語を含む。更に、これらの候補用語は、重み付け関数によってランク付けされる。幾つかの実施形態において、ランク付けされた候補用語のそれぞれのセットは、
(A)ランク付けされた候補用語のそれぞれのセットに関連する文書内の用語を候補用語のマスターリストと比較し、ここで、その用語が候補用語のマスターリスト内に存在する場合には、その用語をランク付けされた候補用語のそれぞれのセットに候補用語として加え、
(B)文書内の用語の最大数が検討されるまで比較を繰り返し、
(C)重み付け関数に従って候補用語をランク付けし、これによりランク付けされた候補用語を形成する、
ことによって生成される。
本発明の上述の特徴及び利点、並びに本発明の付加的な特徴及び利点は、図面を併用しながら本発明の好ましい実施形態の詳細な説明の結果として以下でより明確に理解されるであろう。
同じ参照符号は、幾つかの図面全体を通して対応する要素を示す。
典型的な実施形態において、本発明は、効率的な方法でユーザのクエリーに潜在的により高度に関連し、且つ目標文書の語彙を反映するクエリー改良提案(候補用語のサブセット)の小さなセット(10−20)を作成する。
図1に示されるように、サーチクエリーは、クライアントコンピュータ100によってサーチエンジンサーバ110に提出される。サーチエンジンサーバ110は、サーチクエリーを受信すると、該サーチクエリーに関連する文書インデックス120において文書を識別する。更に、サーチエンジンサーバ110は、例えば他のランキング要因のうちでサーチクエリーに対するこれらの関連性によって関連する文書をランク付けする。次いで、このランク付けされた文書のグループの記述(サーチ結果)は、ランク付けされた文書のグループとしてクライアントコンピュータ100に戻される。本発明においては、候補用語のサブセットの形式(サーチ改良提案)での付加的な情報は、ランク付けされた文書の初期グループと共にクライアントコンピュータに戻される。
サーバ110が候補用語のサブセットを作成する方法の詳細に移る前に、本発明の利点をより良く理解できるように、サーチエンジンサーバ110の実施形態によって戻されたサーチ結果及びサーチ改良提案のスクリーンショットが図2に提供されている。図2で、ユーザは初期クエリー(受信クエリー)132を提供する。検索ボタン134が押されると、クエリー132がクライアントコンピュータ100からサーチエンジンサーバ110に送られる。クエリー132が受信されると、サーチエンジンサーバ110は、受信クエリー132を処理し、サーチ結果及びサーチ改良提案をランク付けされた文書の初期グループ及び候補用語のサブセットの形式でクライアントコンピュータ100に送り返す。候補用語のサブセットは、インターフェース180のパネル140に表示される。具体的には、候補用語のサブセットの各用語136が、タグ138と共に領域140内に表示される。同時に、サーチ結果のリスティング(ランク付けされた文書の初期リストのトップランクの文書)がパネル142に表示される。本発明のシステム及び方法は、オリジナルのクエリー132を絞り込み、変更し、又は改善することができる用語136を識別することに関する。ユーザがタグ138を押すと、タグ138に対応する用語136が初期クエリー132に付加され、新しいクエリーに関してプロセス全体が繰り返される。ユーザが別のタグ139を押すと、タグ138に対応する用語136は初期クエリー132を更新し、サーチエンジンサーバは、当該用語136を新しいクエリーとして処理する。図示されていない実施形態において、各用語136に対応する1つ又はそれ以上の付加的なタグは、パネル140に追加することができる。1つの実施例では、対応する用語136を例外リストに付加するのに使用されるタグが存在する。例えば、オリジナルクエリーを「A」とし、ユーザが用語「B」の排他タグを押すと、新しいクエリーが「A」になり「B」ではなくなる。パネル140に表示された用語のサブセットに加えて、ランク付けされた文書の初期グループがパネル140に表示される。コンピュータ100とサーバ110との間の帯域幅を節約するために、典型的な実施形態では、ランク付けされた文書の初期グループは通常、ランク付けされた文書の初期グループの各文書の標識を含み、ユーザが初期のランク付けされた文書における該文書の各々の性質を判断できるようにする。このような標識(indicia)は更に、本明細書ではランク付けされた文書の初期グループと呼ばれる。
本発明のシステム及び方法の概要が開示されてきた。この概要から、本発明の多くの利点及び特徴が明らかにされる。本発明の新しいアルゴリズムは、初期クエリーの改良に使用することができる提案された用語136のリストをユーザに自動的に提供する。例えば図2において、初期クエリー132は「スペースシャトル」である。この初期クエリーに応答して、本発明の実施形態は、「チャレンジャー大事故」のような用語136を含む候補用語のサブセットを提供する。初期クエリーへの用語「チャレンジャー大事故」の追加、或いは初期クエリーの用語「チャレンジャー大事故」への置換は、ユーザの関心事に恐らくはより近接して一致するクエリーをユーザに提供する。候補用語の新しいサブセットを使用することによって、ユーザは、ランク付けされた文書の初期グループ内の文書(又はその標識(indicia))を分析することなく改善されたクエリーを構築することができる。従って、本発明を使用すると、多すぎる(又は少なすぎる)結果、或いはユーザの情報の必要性に直接関係しない結果を初期クエリーが生成する理由を識別する必要性がもはやなくなる。
本発明の概要及び利点を提示してきたので、次に本発明のシステム及び方法の更に詳細な説明を開示する。この目的のために、図3は、本発明の1つの実施形態によるサーチエンジンサーバ110を示している。好ましい実施形態において、サーチエンジンサーバ110は、図3に概略的に示すように1つ又はそれ以上のコンピュータシステム300を使用して実施される。大量のクエリーを処理するよう設計されたサーチエンジンは、図3に示されるものよりも更に複雑なコンピュータアーキテクチャを使用することができることは当業者には理解されるであろう。例えば、サーバのフロントエンドセットを用いて、実際にクエリーを処理するバックエンドサーバのセット間でクエリーを受信及び分散することができる。このようなシステムでは、図3に示されたシステム300は、バックエンドサーバの1つとなる。
コンピュータシステム300は通常、ユーザインターフェース304(ディスプレイ306及びキーボード308を含む)、1つ又はそれ以上の処理ユニット(CPU)302、ネットワーク又は他の通信インターフェース310、メモリ314、及びこれらの構成要素を相互接続するための1つ又はそれ以上の通信バス312を有することになる。メモリ314は、高速ランダムアクセスメモリを含むことができ、また、1つ又はそれ以上の磁気ディスク記憶装置(図示せず)などの不揮発性メモリを含むことができる。メモリ314は、(1つ又は複数の)中央処理ユニット302から遠隔に設置される大容量記憶装置を含むことができる。メモリ314は、
・ 種々の基本システムサービスを扱い、且つハードウェア従属タスクを実行するための手順を含むオペレーティングシステム316と、
・ インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク(例えば、ローカル無線ネットワークはクライアントコンピュータ100をコンピュータ300に接続できる)、メトロポリタンエリアネットワークなどの1つ又はそれ以上の通信ネットワークを介して種々のクライアントコンピュータ100(図1)及び場合によっては他のサーバ又はコンピュータにシステム300を接続するのに使用されるネットワーク通信モジュール318と、
・ クライアントコンピュータ100からクエリーを受信するためのクエリーハンドラ320と、
・ クエリーに関係のある文書の文書インデックス352をサーチして、クエリーに関係のあるランク付けされた文書の初期グループを形成するためのサーチエンジン322と、
・ 本発明の多くの態様を実施するためのクエリー改良提案エンジン324と、
を記憶することが好ましい。
クエリー改良提案エンジン324は、実行可能な手順、サブモジュール、テーブル、及び他のデータ構造を含むことができる。1つの実施形態において、改良提案エンジン324は、
・ ランク付けされた文書の初期グループと共に提示するための候補用語のサブセットを識別するための選択関数326と、
・ 提示のために候補用語のサブセットとランク付けされた文書の初期グループとをフォーマッティングするための結果フォーマッティングモジュール328と、
を含む。
本発明の方法は、クエリー132が文書インデクサ344の動作でクエリーハンドラ320によって受信される前に始まる。文書インデクサ344は、ウェブクローリング及びインデキシング技術を使用して文書インデックス352を構築する。しかしながら、この従来の機能に加えて、文書インデクサ344は、文書インデックス352の文書を更に処理する新しいプログラムモジュールを含む。例えば、文書インデクサ344は、「候補用語セットのコンストラクタ」346を含む。好ましい実施形態において、コンストラクタ346は、文書インデックス352の各文書を調べる。他の実施形態において、予め定められた基準を満たしている文書(例えば、予め定められた言語のセットのうちの1つのテキストが含まれている文書)だけがコンストラクタ346によって調べられる。
調べられる各文書について、コンストラクタ346は、文書に埋め込まれた何らかの候補用語を該文書が含むかどうかを判定する。このタスクをコンストラクタ346が達成することができる多くの異なる方法が存在し、全てのこのような方法は本発明の範囲内に含まれる。1つの実施形態において、タスクは、文書からの用語を候補用語のマスターリスト342に一致させることによって達成される。候補用語のマスターリスト342は、全ての可能性のある候補用語を含む。幾つかの実施形態において、リスト342は、有効な候補用語のリストを備えるUnixスタイルのテキストファイルである。リスト342の代表的なフォーマットは、1行につき1つの候補用語があり、リスト342固有の各候補用語は、全てのコンマ、タブ、エンドライン、及び@記号が省略されてUTF−8で符号化される。幾つかの実施形態において、マスターリストは、名詞及び名詞句(クエリー用語として有用となる可能性が最も高い用語の種類)に限定され、制限されたクエリー改良値のどのような名詞句も明示的に取り除かれる。
典型的な実施形態では、文書インデックス352の各文書の第1部分のみが候補用語について調べられる。例えば、幾つかの事例では、文書インデックス352の各文書の最初の100,000バイトのみがコンストラクタ346によって調べられる。幾つかの実施形態において、コンストラクタ346は、文書の用語の最大数(例えば、100、1000、5000など)が検討されるまで文書インデックス352の文書を調べる。幾つかの実施形態において、文書の候補用語のサーチは、文書の固有の用語の閾値数がマスターリスト342(例えば100用語)内で発生したことが判明した時点で終了する。
本発明の幾つかの実施形態は、1つより多い候補用語のマスターリスト342を提供する。各マスターリスト342は、種々の言語について最適化される。例えば、第1リスト342は英語について最適化され、第2リスト342はスペイン語について最適化される。従って、英語リスト342は英語の文書において見られる情報用語を含むことになり、スペイン語リスト342はスペイン語の文書において見られる情報用語を含むことになる。同様に、本発明の幾つかの実施形態は、フランス語、ドイツ語、ポルトガル語、イタリア語、ロシア語、中国語、又は日本語について最適化されたリストを含む。本発明の幾つかの実施形態において、リスト342は、カテゴリーの他のタイプについて最適化される。例えば、幾つかの実施形態において、リスト342は、科学用語、ファッション用語、光学用語、又は旅行用語を含めるように最適化される。しかしながら、好ましい実施形態において、各マスターリスト342は、情報用語を可能な限り含む。実際に、マスターリスト342は、10,000,000より多い用語を含むことができ、通常は1,000,000よりかなり多い用語を含む。これらの用語の各々は、語又は句とすることができる。理解しやすいように、代表的な句は「チャレンジャー大事故」である。
文書で使用される主たる言語を決定する方法は、当該技術分野で公知である。従って、本発明の幾つかの実施形態においては、コンストラクタ346は、(i)調べられている文書の言語を決定し、及び(ii)文書と同じ言語について最適化されたマスターリスト342を使用するためにこうした方法を用いる。
マスターリスト342にある1つ又はそれ以上の候補用語がインデックス352の文書の上位部分(例えば、最初の100キロバイト)に組み込まれている場合、コンストラクタ346による文書の調査の最終結果は、これらの用語の識別である。こうした用語がコンストラクタ346によって識別されると、これらはランク付けされた形式で文書と関連付けられたデータ構造に付加される。このデータ構造は、候補用語のセットと呼ばれる。インデックス352がコンストラクタ346によって調べられた後、その上位部分に候補用語を組み込んだインデックス352内の各文書は、こうした用語を含む候補用語のそれぞれのセットに関連付けられることになる。従って、例えば、インデックス352において候補用語を含む2つの文書AとBがある場合、候補用語の第1セットが文書Aに関連付けられ、候補用語の第2セットは文書Bに関連付けられる。候補用語の第1セットは、文書Aの上位部分に組み込まれた各候補用語を含むことになり、ランク付けされた候補用語の第2セットは、文書Bの上位部分に組み込まれた各用語を含むことになる。実際には、候補用語の各セットは、以下に更に詳細に開示されるように内部的にランク付けされて、候補用語のそれぞれのランク付けされたセットを形成するようにする。
図4は、コンストラクタ346による文書インデックス352での文書402の調査が文書インデックス352の修正をどのように生じさせるかを示している。コストラクター346がインデックス352の文書を調べる前に、インデックス352の各文書402は、文書402のユニフォームリソースロケーション(URL)406並びに特徴値のセット408を含む。特徴値408は、文書に関連付けられたメタデータを含み、更に、ランキング文書がクエリーに潜在的に関係するものとして識別されたときにサーチエンジンを支援する値を含む。特徴値は、文書のファイルフォーマット、文書の長さ、文書への周知のインバウンドリンク(他の文書からの)の数、文書のタイトル(例えば、クエリーに応答するものとして文書が選択された時間を表示するための)などの指標を含むことができる。文書402がコンストラクタ346(図3)によって調べられた後で、候補用語のセット410は文書402に関連付けられる。
本発明の幾つかの実施形態において、文書内の用語をリスト342の候補用語と一致させる方法は、その用語をリスト342の可能性のある最も複雑な候補用語と確実に一致させる方式で実行される。例えば、AとBを各語とするときに用語「AB」がインデックス352の文書に組み込まれる場合を考える。更に、リスト342は、「A」、「B」、及び「AB」を含むと仮定する。これが起こる場合、文書の用語「AB」は、リスト342の「AB」と一致することになり、「A」又は「B」とは一致しない。このようなマッチングを行うことができる幾つかの方法が存在し、全てのこのようなマッチング手法は本発明の範囲内にある。1つのこのようなマッチング方法は、以下の論理を有する「左−右貪欲アルゴリズム」を使用する:
調べられる文書の形式「ABCD...」の各文について:
Aはリスト342の候補用語の接頭辞であるか?
○はい:「AB」はリスト342の候補用語の接頭辞であるか?
■はい:「ABC」はリスト342の候補用語の接頭辞であるか?
●はい−>同じ方式で文全体のドリリングを続ける
●いいえ:文書と関連付けられた候補用語のセット410に「AB」を加え、Cに移り、「CDEF...」を検討する
■いいえ:文書と関連付けられた候補用語のセット410に「A」を加え、Bに移り、「BCDE...」を検討する
○いいえ:Bに移り、「BCDE...」の検討を始める
このようなアルゴリズムは、「文」が行のような文書のある任意の量であるか、或いは2つの句の境界又は他の区切り点の間の文書の部分であり、及び「ABCD...」が用語の各語である場合、リスト342の最も複雑な用語を文書の用語に確実に一致させる。関連する方法では、コンストラクタ346は、第1候補用語が候補用語のセットにおける第2候補用語のサブセットである場合、候補用語のセット410の第1候補用語を廃棄する。
本発明の幾つかの実施形態において、、セット410に関連付けられた文書の全部又は上位部分(例えば最初の100キロバイト)においてランク付けされた用語のセット410の各候補用語が現れる回数が追跡される。例えば、セット410の候補用語「A」がセット410と関連付けられた文書の上位部分に12回現れる場合には、用語「A」が文書に12回現れるという指示が示され、どの候補用語がランク付けされた候補用語の最終セットに残ることになるかを判定するよう設計された重み付け方式で使用される。
幾つかの実施形態において、関連する文書に用語が現れる回数の表示は、用語が文書の語の第1閾値数内に現れる事例毎に重みが追加される。例えば、第1閾値の値が15語である場合を考えてみる。更に、この例示的な場合において、候補用語「A」は正確に二度現れる。句「A」の第1の出現は、15語限界の前であり、「A」の第2の出現は15語限界の後である。この例示的な場合に使用される重み付け方式において、最初の15語内に現れている語は、二倍の重みを受け取る。従って、文書と関連付けられる候補用語のセット402では、候補用語「A」は、用語が文書の上位部分において(2*1+1)、すなわち3回出現する指示と共にリストされることになる。最初の閾値のより複雑な形式が可能であることは、当業者であれば理解するであろう。例えば、候補用語カウントに加えられた重みは、文書の候補用語の位置の関数とすることができる。例えば、これは、文書の始めに最大値を有し、且つ文書の最後に最小値を有する線形関数(又は非線形関数、もしくは区分線形関数)とすることができる。代替えとして重みをバスケットに加えることができ、この場合、文書の始め(第1バスケット)に大きな重みがあり、文書の第2部分(第2バスケット)に低い重みがあり、文書の第3部分(第3バスケット)に更に低い重みなどがある。
(i)候補用語の回数の指示が関連する文書に現れ、且つ(ii)コンストラクタ346がランク付けされた候補用語のセット410の第1候補用語を廃棄する実施形態では、第1候補用語がランク付けされた候補用語のセットの第2候補用語のサブセットである場合には、第2候補用語は、第1候補用語がコンストラクタ346によって文書内で識別された回数でクレジットされる。
コンストラクタ346に加えて、インデクサ344は冗長フィルタ348を含む。フィルタ348は、正字の異形又は屈折異形を取り除いて最後に候補用語のセットとなることができるよう設計されている。用語の正字の異形は、用語についての他の正しいスペル(綴り)を有する。用語の屈折異形は、別の接尾辞、又は用語のアクセント形式を有する。幾つかの実施形態において、正字の異形及び/又は屈折異形は、異形リスト360に記憶される(図3)。従って、冗長フィルタ348の仕事は、候補用語のセット410の候補用語のペアが異形リスト360に確実に存在しないようにすることである。候補用語のセット410の候補用語のペアが異形リスト360に存在するときには、ペアに由来する1つの用語は、フィルタ348によってセット410から廃棄される。幾つかの実施形態において、ペアの第1用語がセット410から効率的に廃棄され、ペアの第2用語は保存されることになる。しかしながら、幾つかの実施形態において、第2用語は、廃棄された第1用語と結合されるように修正されることになる。例えば、用語A及びBが屈折異形又は正字の異形である場合、用語の1つ、すなわちAは廃棄され、別の用語Bが保存される。更に、用語BはA,Bとして上書きされる。この特徴は、クエリー改良提案エンジン324のような本発明のより高レベルのモジュールによって使用可能な基礎となる文書についての有用な情報を保存するので有利である。通常、エンジン324は、これらのマージされた正字の異形又は屈折異形の候補用語が現れる場合の第1(廃棄されなかった)用語だけを提示することになる。例えば、上書きされた用語A、Bの場合、用語「A」だけがパネル140に提示された候補用語のサブセットに含まれる。通常、リスト360に現れている用語のペアで廃棄された用語は、関連する文書においてあまり頻繁には現れない用語である。幾つかの実施形態において、ある種のノイズワード(例えば、a、the、who、what、whereなど)の有無だけが相違する候補用語は、正字の異形又は屈折異形を含む候補用語が共にフォールドされるのと同じ方式でフォールドされる。同様に、幾つかの実施形態において、候補用語の所与のセットの2つの用語の違いが句読点の有無だけである場合、2つの用語は、正字の異形又は屈折異形を含む候補用語が共にフォールドされるのと同じ方式で共にフォールドされる。幾つかの実施形態において、候補用語のセットの各句は、同じケース(例えば小文字)に変換される。この規則の例外は、6つ又はこれより少ない大文字の単語であるこれらの用語が、こうした用語が頭辞語になる可能性がある理由から小文字には変換されないことである。
(i)候補用語の回数の指示が関連する文書に現れ、(ii)候補用語のセットの第1候補用語が候補用語のセットの第2候補用語の正字の異形又は屈折異形であるために、候補用語のセットの第1候補用語をフィルタ348が廃棄する両方の実施形態において、第2候補用語は、第1候補用語がコンストラクタ346によって文書で識別された回数でクレジットされる。言い換えると、2つの候補用語の間の違いが、候補用語の一方が他方の候補用語の対応する語の屈折異形又は正字の異形である単語を含むだけである場合に、候補用語の一方が廃棄される。この実施例は、候補用語「tow truck」と「tow trucks」の場合に起こる。この実施例では、2つの候補用語の間の違いは、第1用語の「truck」の列挙と第2用語での「trucks」の列挙だけである。
文書インデクサ344についての多くの詳細が開示されてきた。このステージでは、インデクサ344の幾つかの実施形態によって用いられるステップを開示する図5のフロー線図を検証することが有益である。他のインデキシングデューティ(例えば、ウェブクローラによって見出される文書の中の語の従来のインデキシング)の全部又は一部の後で、インデクサ344はコンストラクタ346に制御をわたし、該コンストラクタ346はインデックスされた文書を選択する(図5のステップ502)。
ステップ504で、文書中の用語が候補用語のマスターリスト342と比較される。用語がマスターリスト342にある(506−はい)の場合、用語は、文書に関連付けられた候補用語のセット402に加えられる(510)。ステップ504が、上記に説明された左−右貪欲アルゴリズムなどのより複雑なマッチング方式を包含できる点に留意されたい。
幾つかの実施形態において、比較されることになる文書はウェブページである。従って、マスターリスト342に対する比較に適した有効な語を構成するものに関して幾つかの決定を行う必要がある。1つの方法では、実際にはウェブページである文書を構文解析して句抽出のためのテキストを見出す。1つの実施形態において、句マッチングは、全ての「ビジブル」テキストプラスメタページ記述を使用してステップ504で実行され、このような句は、HTMLコード、ジャバスクリプトなどを含まない。有効な句を得るために、ウェブページ内の「句境界」(例えばテーブルタグ)が、リスト342との比較のために文書から抽出された表現が句境界を跨がないように保存される。本発明の幾つかの実施形態に使用される句境界の付加的な実施例は、限定ではないが「,」、「?」のような句読点、空行などを含む。
本発明の幾つかの実施形態において、マスターリスト342は、幾つかの異種ソースから集められた用語の極めて大きなセットである。従って、ステップ504で、情報の候補用語だけが確実に選択されて候補用語のセットに含まれるように付加的なフィルタリングを実行することができる。幾つかの実施形態において、マスターリスト342内の用語と比較される文書内の用語は、比較の前に処理される。例えば、幾つかの実施形態において、句読点マークはリスト342との比較の前に用語から取り除かれる。幾つかの実施形態において、句読点文字は、リスト342との比較の前にスペースに置き換えられる。幾つかの実施形態において、ノイズ用語のリスト354がメモリ314に記憶される。代表的なノイズ用語は、限定ではないが、「a」、「the」、「who」、「what」、及び「where」などの語を含む。従って、ノイズ用語のリスト354がメモリ314に記憶される実施形態において、比較ステップ504では、マスターリスト342と比較されることになる用語がノイズ用語のリスト354内に存在するかどうかが最初に判定されることになる。存在する場合には、用語は無視され、リスト342とは比較されない。幾つかの実施形態において、ステップ504で文字の少なくともある最小閾値を包含する用語だけが比較される。例えば、幾つかの実施形態では、ステップ504で少なくとも4つの文字を包含する用語だけを比較する。
決定506の結果に関わらず、コンストラクタ346によって文書内の他のいずれかの用語をマスターリスト342と比較する必要があるかどうかに関して判定508が行われる。決定508の結果を判定するために使用できる多くの種々の条件(例えば、用語カットオフの最大数、固有用語カットオフの最大数、セット410内に既に存在する候補用語の最大数など)が開示されている。
図5のフローチャートに続くのは任意選択のステップである。任意選択のステップ512で、冗長用語は、文書に関連付けられた候補用語のセットにフォールドされる。任意選択のステップ514で、インデックス352内の文書が分類される(例えば第1及び第2クラスに)。
分類ステップ514を行うことができる幾つかの異なる方法があり、全てのこのような方法は本発明の範囲内に含まれる。例えば、幾つかの実施形態において、各文書402は第1又は第2クラスに分類される。好ましい実施形態において、第1クラスは家族向けクラスであり、第2クラスは非家族向けクラスである。文書402は、性的に露骨な、不快な、或いは暴力的な言葉を含む場合には第2クラスに分類される。それ以外は、第1クラスに分類される。幾つかの実施形態において、分類モジュール350(図3)は、このような分類を行うために使用される。一般的に分類モジュール350は、文書が、性的に露骨な、不快な、或いは暴力を含む傾向があるかどうか判定することによって働く。このような傾向がある場合には、該文書は非家族向けと指定される。この指定は、分類されたセット410に関連付けられる文書に対応する特徴値408(図4)に記憶される。
この段階では、通常候補用語のセット内に多数の候補用語が存在する。例えば、1000もの数の候補用語を候補用語のセットに加えることができる実施形態では、候補用語のセットはこの段階で1000の用語を含むことができる。各候補用語セット内の候補用語の数に関わらず、これらはランク付けされない。従って、ステップ516において候補用語がランク付けされ、ランク付けされた候補用語のN番目までの最も高い数が、候補セットに残ることが許可され、全ての他の候補用語が取り除かれて、ランク付けされたセット(516)のN番目(例えば20)までの最も代表的な用語だけを保持するようにする。従って、ステップ516の有効作用は、候補用語のセットからランク付けされた候補用語のセットを作り出すことである。更にステップ516で、トップランクの用語(例えばトップ20)だけがランク付けされた候補用語のセットに残ることが許可される。
ランク付け関数によって使用される基準又はパラメータは、各用語が文書に現れる回数、用語が文書の予め定義された初期部分に現れるかどうか、文書での用語の最初の位置、及び用語の文字数のうちの1つ又はそれ以上を含むことができる。これらのパラメータに基づいて、ランクが各候補用語に割り当てられ、次いで、最も高いランクを有するN番目までの用語だけがランク付け候補用語のセット内に保持される。他の用語は、そのセットから削除される。各文書と関連付けられた候補用語の数を制限することは、文書インデックスが過剰に大きくなるのを防ぐのに役立ち、処理の速度を最優先する場合にクエリー時に考慮する必要のある用語の量を低減する。ある文書についてランク付けされた候補用語のセットは、文書のインデックスエントリー(図4の410を参照)、候補用語を表わしているストリングのセット(任意選択的に圧縮される)又はインデックスに記憶することによって文書と関連付けることができ、ここでは各インデックス値は、候補用語のマスターリスト342における用語を示す。関係する値は、ランキングプロセスで使用される用語スコアが文書及び/又は文書の用語の第1位置に現れるように、文書と関連付けられた各候補用語(又は候補用語へのポインタ)と共に文書の文書インデックス352エントリーに記憶することができる。しかしながら、好ましい実施形態において、このような付加的な値は文書インデックス352には記憶されない。
ランク付けされた候補用語のセット410が文書インデックス352の文書に関連付けられるプロセスを説明してきた。次に、本発明の1つの実施形態に従って、このようなセット410が提示用の候補用語のサブセットを構成するのに使用される方法を説明する図6に注目されたい。ステップ602で、クエリーはクエリーハンドラ320によって受信される。ステップ604で、クエリーは、文書インデックス352からランク付けされた文書の初期グループを検索することによって処理される。幾つかの実施形態において、ランク付けされた文書の初期グループがその文書自体以外の文書の標識(indicia)のみを包含できる点は理解されるであろう。しかしながら、この標識(indicia)は、文書の初期セットの各文書に対するユニフォームリソースロケータ(URL)を含むことになる。従って、各文書は、ユーザによって引き続き要求される場合にはインターネット(又はネットワークの他のある形態)から検索することができる。幾つかの実施形態において、文書の初期セットは、サーバ300(図3)のメモリ314にサーチ結果340として記憶される。再び図6を参照すると、提案されたクエリー改良のリスト(候補用語のサブセット)がサーチ結果340を使用して作成される(606)。
提案されたクエリー改良のリスト(候補用語のサブセット)が作成される方法は、クエリーが家族向けサーチであるかどうかに依存することになる。任意選択のステップ608で、サーチ結果340(ランク付けされた文書の初期グループ)の各トップランクの文書(例えば最初の50文書)について文書の分類が行われる。サーチ結果340でのトップランクの文書の閾値パーセンテージが、第1分類(家族向け分類)に属する場合、第1分類に属さないトップランクの文書と関連付けられた候補用語の全てのセット410は、図6の後続のあらゆるステップにおいても使用されない。幾つかの実施形態において、家族向け以外の分類はインデキシング(図5)中に文書を分類するのに使用される。このような実施形態では、このような分類を使用して、ランク付けされた候補用語のどのセットが候補用語のサブセットを構成するのに使用されるかをステップ608で判定することができる。例示的な実施形態において、M個のトップランクの文書(例えば、サーチ結果340からの10個のトップランクの文書)のみの分類は、ステップ608で判定を行うのに使用される。例えば、10個のトップランクの文書の少なくとも8つが家族向けであると分類される場合、非家族向け文書からの候補用語は、提案されたクエリー改良のリストを作成するのに使用されるランク付けされた候補用語のセットから除外される。
ステップ610で、サーチ結果340の文書に関連するランク付けされた候補用語のそれぞれのセットの1つ又はそれ以上内に存在する候補用語のサブセットが選択される。1つの実施形態において、この選択関数は、ランク付けされた文書の初期グループ(サーチ結果340)のトップランクの文書に関連するランク付けされた候補用語の各それぞれのセット410における各候補用語に重み付け関数を適用する段階を含む。ランク付けされた文書の初期グループ内の各トップランクの文書は、閾値ランキングより数値的に小さいランキングを有する。幾つかの実施形態において、トップランクの文書は、Tを50などの予め定義された数(及び好ましくは5から200までの範囲、更に好ましくは20から100までの範囲にある)とすると、T個のトップランクの文書である。ステップ610では、関係する用語をユーザに提示される候補用語のサブセットに集める機会を最大にするために、トップランクの文書だけが検討される。種々の実施形態において、トップ5、10、15、20、50、又は100の文書だけが検討される。最も高い重みを受け取るこれらの候補用語は、候補用語のサブセットに含まれる。幾つかの実施形態において、候補用語のサブセットの用語の数は、25より少ない数に制限される。
幾つかの実施形態において、サーチ結果340の初期グループに文書のカットオフ数より少ない文書がある場合、候補用語のサブセットは構築されず、候補用語のサブセットはユーザに提示されない。例えば、1つの実施形態において、サーチ結果340の初期グループにおいて35より少ない文書がある場合には候補用語のサブセットは構築されない。
本発明は、サーチ結果340のトップランクの文書に関連付けられたセット410の各々において候補用語をスコアするための幾つかの異なる重み付け関数を提供する。これらの異なる重み付け関数は、エンジン322(図3)の選択関数324の種々の実施形態で使用される。
幾つかの実施形態において、関数324(重み付け関数)によって候補用語に加えられる重みは、(i)候補用語を含むもの、及び(ii)トップランクの文書にそれぞれ関連付けられるものの両方であるランク付けされた候補用語のセットの数に応じて決定される。例えば、50のトップランクの文書があり、候補用語「スペースシャトル」がトップランクの文書にそれぞれ関連するランク付けされた候補用語のセットの3つにおいて現れる場合を考える。この場合、3の重みが、候補用語「スペースシャトル」に加えられることになる。
幾つかの実施形態において、選択関数326によって候補用語に加えられる重みは、(i)候補用語を含み(ii)トップランクの文書にそれぞれ関連するランク付けされた候補用語のこれらのセットの候補用語の関数(例えば平均)に応じて決定される。幾つかの実施形態は、用語を含むセットと用語を含まないセットの両方を考慮する。用語を含まないセットは、用語がセット内に存在しないことを示す平均化のための数値を割り当てられる。このような重み付け係数は、ランク付けされた候補用語の各セットが実際にはランク付けされた順序リストであることを利用する。従って、候補用語「スペースシャトル」がトップランク文書にそれぞれ関連付けられた候補用語の多くのセットのランク付けリストのトップに現れる場合には、この重み付け方式では比較的高い重みを受け取ることになる。逆に、用語「スペースシャトル」が、これが現れるランク付けされた候補用語の各セットの最終用語の間にある場合、該用語はこの重み付け方式で比較的低い重みを受け取ることになる。
幾つかの実施形態において、関数324によって候補用語に加えられる重みは、受信クエリーの用語が候補用語内に存在するかどうかに応じて決定される。例えば、クエリー用語が「シャトル」であって候補用語が「スペースシャトル」である場合、候補用語は全重みが与えられ、これ以外は重みを与えられない。
幾つかの実施形態において、関数324(重み付け関数)によって候補用語に加えられる重みは、候補用語の文字数に応じて決定される。例えば、候補用語「スペースシャトル」は、候補用語「犬」よりもより大きな重みを受け取ることになる。
幾つかの実施形態において、関数324によって候補用語に加えられる重みは、候補用語を含むランク付けされた候補用語のセットに関連付けられたトップランクの文書のランクの関数(例えば平均)に応じて決定される。このような重み付け方式は、サーチエンジン322によってサーチ結果の初期セットに既に加えられているランキングを活用する。このような重み付け方式では、より高いランクの文書と関連付けられたセット410からの候補用語は、より低いランクの文書と関連付けられた候補用語よりも高い優先度が与えられる。例えば、候補用語「スペースシャトル」が、ランク付けされた文書の初期グループ内のトップランクの文書の文書2、4、及び6に関連するランク付けされた候補用語のそれぞれのセットに現れる場合を考える。すなわち、この重み付け方式では、用語「スペースシャトル」は値4の関数である重みを受け取ることになる。ここで、用語「スペースシャトル」が、ランク付けされた文書の初期グループのトップランク文書におくる文書10、20、及び30に関連するランク付けされた候補用語のそれぞれのセットに現れると仮定する。すなわち、この重み付け方式では、用語「スペースシャトル」は値20の関数である重みを受け取ることになる。この重み付け方式では、値4は値20で作られた重みに比べてより良好な重みを作り出すことになる(候補用語の重みを上げることになる)。幾つかの実施形態において、候補用語を含まないセットがこの重み付け関数で考慮される。これらは平均するための数値を割り当てられる。
幾つかの実施形態において、語が最初に候補用語として生じる文書のランクは重み付け関数に使用される。
選択関数326の種々の実施形態によって使用される特定の重み付け係数を、このような係数を導入するために概説してきた。しかしながら、好ましい実施形態において、幾つかのこのような係数は望ましい結果をもたらすために組み合わされる。以下は、選択関数326の幾つかの好ましい実施形態である。
幾つかの実施形態において、関数324によって候補用語に加えられる重みは、TermCount、TermPosition、ResultPosition、TermLength、及びQueryInclusionのいずれかの組合せ(又はいずれかの重み付けの組合せ)に応じて決定され、ここで、
TermCountは、(i)候補用語を含み、且つ(ii)トップランクの文書にそれぞれ関連するランク付けされた候補用語のセットの数であり、
TermPositionは、(i)候補用語を含み、且つ(ii)トップランクの文書にそれぞれ関連するランク付けされた候補用語のセットにおける候補用語の位置の関数(例えば平均)であり、
ResultPositionは、候補用語を含むランク付けされた候補用語のセットに関連付けられたトップランクの文書のランクの関数(例えば平均)であり、
TermLengthは、候補用語の文字数(候補用語の複雑性)であり、
QueryInclusionは、受信クエリーの用語が候補用語内に存在するかどうかを示す値である。
本明細書で使用されるQueryInclusionの適用(例えば、QueryInclusionが1のような非ゼロ値である場合)は、受信クエリーの用語が候補用語内に存在する場合に候補用語の重みが増やされることを意味する。更に、QueryInclusionの非適用(例えば、QueryInclusionがゼロに等しく設定される場合)は、受信クエリーの用語が候補用語内に存在しい場合に候補用語の重みが増やされないことを意味する。幾つかの実施形態において、候補用語はノイズ用語(例えば、a、the、who、what、whereなど)に対してクレジットされない。従って、クエリーがノイズワード「for」を含み、且つ候補用語がワード「for」を含む場合には、クレジットは候補用語に与えられず、QueryInclusionは重みが増やされない。
幾つかの実施形態において、関数324によって候補用語に加えられる重みは次式に従って求められる。
TermCount+TermPosition+ResultPosition+TermLength+QueryInclusion
ここで、重みTermCount、TermPosition、ResultPosition、TermLength、及びQueryInclusionは、上記に定義されたものと同じである。幾つかの実施形態において、TermCount、TermPosition、ResultPosition、TermLength、及びQueryInclusionは、各々別々に重み付けされる。
幾つかの実施形態において、関数324によって候補用語に加えられる重みは、次式に従って求められる。
(TermCount*1)+
(TermPosition*(w2+(RefinementDepth*2´)))+
(ResultPosition*3)+
(TermLength*(w4+(RefinementDepth*4´)))+
(QueryInclusion*(w5+(RefinementDepth*5´)))
ここで、w1、w2、w3、w4、w5、w2´、w4´、及びw5´は別々の重みである。更に、RefinementDepthは、受信クエリーについて処理が行われた回数である。言い換えると、RefinementDepthは、ユーザがオリジナルのサーチクエリーに候補用語のサブセットからの用語を加える任意選択のステップ614の実行操作によってステップ602から612が繰り返される回数である。1つの実施形態において、
1=100
2=15
2´=15
3=1
4=1
4´=0
5=100、及び
5´=50である。
本発明の幾つかの実施形態において、選択関数610はランク付けされた候補用語のセットの幾つかの候補用語を取り除くことになる。例えば、幾つかの実施形態において、ある接頭辞又は接尾辞だけが異なるランク付けされた候補用語のセットの候補用語は、共にフォールドされる。例えば、幾つかの実施形態において、接頭辞のリスト及び接尾辞のリストはメモリ314に記憶される。2つの候補用語の違いが、候補用語の一方が他方の候補用語の対応する語に対して語の最初にある接頭辞、又は語の最後にある接尾辞が異なる語を含むだけの場合、2つの候補用語は共にフォールドされる。幾つかの実施形態において、接頭辞の3つのクラス(及び接尾辞の3つの類似のクラス)がある。候補用語が第1クラスに属している接頭辞を含む場合、その語は廃棄される。候補用語が第2クラスに属する接頭辞を含む場合、その接頭辞は取り除かれる。候補用語が第3クラスに属する接頭辞を含む場合、評価が行われる。この評価において、トップランクの文書と関連するランク付けされた候補用語のセットの各々は、接頭辞を含まない同じ用語の事例についてサーチされる。このような事例が見つからない場合、接頭辞はストリップされない。このような事例が見つかった場合、接頭辞はストリップされる。このタイプの接頭辞(及び接尾辞)処理は、多くの事例で有用である。例えば、候補用語が「the cars」である場合を考える。通常、接頭辞「the」は、ストリップすべき接頭辞であると考えられる。しかしながら、候補用語が名称「the cars」で一般的に呼ばれている有名な音楽グループを意味する場合がある。従って、サーチは、接頭辞「the」のない用語「cars」がトップランクの文書と関連するランク付けされた候補用語の他のセットのいずれかに見つかるかどうかを確実に調べる。このような事例が現れない場合には、接頭辞はストリップされない。この実施例では、本明細書で使用される接頭辞を上述の接辞(例えば、un−、non−など)或いは上述の語又は句(例えば、the、of、to goなど)とすることができる点に留意されたい。
ステップ612で、候補用語のサブセットがユーザに提示される。ステップ614で、ユーザは、候補用語のサブセットの用語136(図2)を任意選択的に選択し、オリジナル(受信された)クエリーとパネル140(図2)に表示された候補用語のサブセットから選択された候補用語136とを含む変更されたクエリーで、処理(ステップ604)、選択(ステップ606)、及び提示(ステップ612)が繰り返される。上記に説明されたように、幾つかの実施形態では、ユーザは、以前に提出されたクエリーに追加するため、以前に提出されたクエリーと置き換えるため、又は以前に提出されたクエリーと共に排他的な用語として使用するために用語136を選択することができる。
本明細書で引用される全ての引例は、全体的に、及び各個々の出版物又は特許もしくは特許出願が具体的であり且つ全ての目的のためその全てにおいて本明細書に組み込まれることが個々に示される程度まで全ての目的のために本明細書に組み込まれる。
本発明は、コンピュータ可読記憶媒体に組み込まれたコンピュータプログラム機構を含むコンピュータプログラム製品として実施することができる。例えば、このコンピュータプログラム製品は、図3に示されたプログラムモジュールを包含できる。これらのプログラムモジュールは、CD−ROM、磁気ディスク記憶製品、或いは他の何らかのコンピュータ可読データ又はプログラム記憶製品に記憶できる。コンピュータプログラム製品のソフトウェアモジュールもまた、インターネット又は他の方法を介して、搬送波上のコンピュータデータ信号(これにソフトウェアモジュールが組み込まれる)の伝送によって電気的に配信することができる。
本発明の多くの修正及び変形は、当業者には明らかなように本発明の精神及び範囲から逸脱することなく行うことができる。本明細書で説明された特定の実施形態は、例証としてのみ提供される。実施形態は、本発明の原理、及びその実際的応用を正しく説明するために選ばれて説明されたが、これによって当業者は企図される特定の用途に適する種々の修正により本発明及び種々の実施形態をより良好に利用することができる。本発明は、添付の請求項が与える均等物の全範囲と共にこれらの請求項によってのみ限定されるものとする。
サーチエンジンにクエリーを依頼しているクライアントコンピュータを示す図である。 本発明の実施形態に従って作り出される、クエリー改良提案を含むサーチ結果ページを示す図である。 サーチエンジンサーバのブロック図である。 サーチエンジンインデックスのブロック図である。 文書インデックス方法のフローチャートである。 ユーザによって提出されたクエリーを処理するための手順のフローチャートである。
符号の説明
100 クライアントコンピュータ
110 サーチエンジンサーバ
120 文書インデックス

Claims (9)

  1. 受信したクエリーに対して、候補用語のサブセットを提示することによってクエリーを改良するための方法であって、
    選択された文書とマスタリストを比較することによって、候補用語を選択する段階と、
    前記文書と選択した前記候補用語を関連付けて、候補用語のセットに記憶する段階と、
    前記候補用語のセットの中で、ランク付け関数によって前記候補用語のランク付けを行う段階と、
    前記ランク付け上位の候補用語をトップランク付けされた候補用語としてセットに残し、それ以外の候補用語を削除する段階と、
    前記各段階を文書のグループに対して実行して、トップランク付けされた候補用語のセットを有する文書の初期グループを生成する段階と、
    クエリーを受信すると、前記トップランク付けされた候補用語のセットを有する文書の初期グループを検索する段階と、
    検索された文書グループのトップランク付けされた候補用語セットの中から選択関数を用いて候補用語を選択し、選択した候補用語を前記クエリーのサブセットとして提示する段階と、
    を含む方法。
  2. 候補用語のセットに記憶する段階に続いて、
    前記文書が、家族向け又は非家族向けいずれに属するか分類され、当該分類を、前記文書と開運する前記ランク付けされた候補用語とともに特徴値に記憶する段階を含むことを特徴とする請求項1に記載の方法。
  3. 選択した候補用語を前記クエリーのサブセットとして提示する段階は、前記記憶された分類を使用して文書を分類する段階を含み、
    前記トップランク付けされた文書の初期グループ内の文書の分類が、前記非家族向けに属している場合、当該分類に属する文書に関連付けられた候補用語の全てのセットは、前記候補用語のサブセットを形成するのに使用されないことを特徴とする請求項2に記載の方法。
  4. コンピュータシステムと共に使用されるコンピュータ読み取り可能な記録媒体であって、受信したクエリーに対して、候補用語のサブセットを提示することによってクエリーを改良するためのクエリー改良提案エンジンに、
    選択された文書とマスタリストを比較することによって、候補用語を選択し、
    前記文書と選択した前記候補用語を関連付けて、候補用語のセットに記憶し、
    前記候補用語のセットの中で、ランク付け関数によって前記候補用語のランク付けを行い、
    前記ランク付け上位の候補用語をトップランク付けされた候補用語としてセットに残し、それ以外の候補用語を削除し、
    前記各段階を文書のグループに対して実行して、トップランク付けされた候補用語のセットを有する文書の初期グループを生成し
    クエリーを受信すると、前記トップランク付けされた候補用語のセットを有する文書の初期グループを検索し、
    検索された文書グループのトップランク付けされた候補用語セットの中から選択関数を用いて候補用語を選択し、選択した候補用語を前記クエリーのサブセットとして提示させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  5. 候補用語のセットに記憶することに続いて、
    前記文書が、家族向け又は非家族向けいずれに属するか分類され、当該分類を、前記文書と開運する前記ランク付けされた候補用語とともに特徴値に記憶することを特徴とする請求項に記載のコンピュータ読み取り可能な記録媒体。
  6. 選択した候補用語を前記クエリーのサブセットとして提示することは、前記記憶された分類を使用して文書を分類することを含み、
    前記トップランク付けされた文書の初期グループ内の文書の分類が、前記非家族向けに属している場合、当該分類に属する文書に関連付けられた候補用語の全てのセットは、前記候補用語のサブセットを形成するのに使用されないことを特徴とする請求項5に記載のコンピュータ読み取り可能な記録媒体。
  7. 受信したクエリーに対して、候補用語のサブセットを提示することによってクエリーを改良するためのコンピュータシステムであって、
    中央処理ユニットと、
    前記中央処理ユニットに結合された、クエリー改良提案エンジンを記憶するメモリと、を含み、
    前記中央処理ユニットは、前記クエリー改良提案エンジンを用いて、
    選択された文書とマスタリストを比較することによって、候補用語を選択し、
    前記文書と選択した前記候補用語を関連付けて、候補用語のセットに記憶し、
    前記候補用語のセットの中で、ランク付け関数によって前記候補用語のランク付けを行い、
    前記ランク付け上位の候補用語をトップランク付けされた候補用語としてセットに残し、それ以外の候補用語を削除し、
    前記各段階を文書のグループに対して実行して、トップランク付けされた候補用語のセットを有する文書の初期グループを生成し、
    クエリーを受信すると、前記トップランク付けされた候補用語のセットを有する文書の初期グループを検索し、
    検索された文書グループのトップランク付けされた候補用語セットの中から選択関数を用いて候補用語を選択し、選択した候補用語を前記クエリーのサブセットとして提示する、ことを特徴とするコンピュータシステム。
  8. 候補用語のセットに記憶することに続いて、
    前記文書が、家族向け又は非家族向けいずれに属するか分類され、当該分類を、前記文書と開運する前記ランク付けされた候補用語とともに特徴値に記憶することを特徴とする請求項に記載のコンピュータシステム。
  9. 選択した候補用語を前記クエリーのサブセットとして提示することは、前記記憶された分類を使用して文書を分類することを含み、
    前記トップランク付けされた文書の初期グループ内の文書の分類が、前記非家族向けに属している場合、当該分類に属する文書に関連付けられた候補用語の全てのセットは、前記候補用語のサブセットを形成するのに使用されないことを特徴とする請求項に記載のコンピュータシステム。
JP2006507450A 2003-03-21 2004-03-22 対話形サーチクエリー改良のためのシステム及び方法 Expired - Lifetime JP5255766B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US45690503P 2003-03-21 2003-03-21
US60/456,905 2003-03-21
US10/424,180 US6947930B2 (en) 2003-03-21 2003-04-25 Systems and methods for interactive search query refinement
US10/424,180 2003-04-25
PCT/US2004/008713 WO2004086192A2 (en) 2003-03-21 2004-03-22 Systems and methods for interactive search query refinement

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2010176034A Division JP5237335B2 (ja) 2003-03-21 2010-08-05 対話形サーチクエリー改良のためのシステム及び方法
JP2013031890A Division JP5611390B2 (ja) 2003-03-21 2013-02-21 対話型サーチクエリーを改良するためのシステム及び方法

Publications (2)

Publication Number Publication Date
JP2006523344A JP2006523344A (ja) 2006-10-12
JP5255766B2 true JP5255766B2 (ja) 2013-08-07

Family

ID=32993957

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2006507450A Expired - Lifetime JP5255766B2 (ja) 2003-03-21 2004-03-22 対話形サーチクエリー改良のためのシステム及び方法
JP2010176034A Expired - Lifetime JP5237335B2 (ja) 2003-03-21 2010-08-05 対話形サーチクエリー改良のためのシステム及び方法
JP2013031890A Expired - Lifetime JP5611390B2 (ja) 2003-03-21 2013-02-21 対話型サーチクエリーを改良するためのシステム及び方法
JP2014087480A Expired - Lifetime JP5740029B2 (ja) 2003-03-21 2014-04-21 対話型サーチクエリーを改良するためのシステム及び方法

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2010176034A Expired - Lifetime JP5237335B2 (ja) 2003-03-21 2010-08-05 対話形サーチクエリー改良のためのシステム及び方法
JP2013031890A Expired - Lifetime JP5611390B2 (ja) 2003-03-21 2013-02-21 対話型サーチクエリーを改良するためのシステム及び方法
JP2014087480A Expired - Lifetime JP5740029B2 (ja) 2003-03-21 2014-04-21 対話型サーチクエリーを改良するためのシステム及び方法

Country Status (5)

Country Link
US (2) US6947930B2 (ja)
EP (1) EP1606704A4 (ja)
JP (4) JP5255766B2 (ja)
KR (1) KR100666064B1 (ja)
WO (1) WO2004086192A2 (ja)

Families Citing this family (333)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US6883135B1 (en) 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US20010053991A1 (en) * 2000-03-08 2001-12-20 Bonabeau Eric W. Methods and systems for generating business models
US7035864B1 (en) 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
US7617184B2 (en) * 2000-05-18 2009-11-10 Endeca Technologies, Inc. Scalable hierarchical data-driven navigation system and method for information retrieval
US7444309B2 (en) * 2001-10-31 2008-10-28 Icosystem Corporation Method and system for implementing evolutionary algorithms
US8590013B2 (en) 2002-02-25 2013-11-19 C. S. Lee Crawford Method of managing and communicating data pertaining to software applications for processor-based devices comprising wireless communication circuitry
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US20070038614A1 (en) * 2005-08-10 2007-02-15 Guha Ramanathan V Generating and presenting advertisements based on context data for programmable search engines
US20040117366A1 (en) * 2002-12-12 2004-06-17 Ferrari Adam J. Method and system for interpreting multiple-term queries
US20050038781A1 (en) * 2002-12-12 2005-02-17 Endeca Technologies, Inc. Method and system for interpreting multiple-term queries
US8065277B1 (en) 2003-01-17 2011-11-22 Daniel John Gardner System and method for a data extraction and backup database
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US8943024B1 (en) 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US8630984B1 (en) 2003-01-17 2014-01-14 Renew Data Corp. System and method for data extraction from email files
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
KR101123426B1 (ko) 2003-04-04 2012-03-23 야후! 인크. 서브도메인 힌트를 포함하는 검색 결과를 생성하고서브도메인에 의해 스폰서되는 결과를 제공하는 시스템
WO2004090692A2 (en) 2003-04-04 2004-10-21 Icosystem Corporation Methods and systems for interactive evolutionary computing (iec)
US7340480B2 (en) * 2003-05-08 2008-03-04 International Business Machines Corporation Iterative data analysis enabled through query result abstraction
US7260571B2 (en) * 2003-05-19 2007-08-21 International Business Machines Corporation Disambiguation of term occurrences
US7401072B2 (en) * 2003-06-10 2008-07-15 Google Inc. Named URL entry
US7228301B2 (en) * 2003-06-27 2007-06-05 Microsoft Corporation Method for normalizing document metadata to improve search results using an alias relationship directory service
GB2403636A (en) * 2003-07-02 2005-01-05 Sony Uk Ltd Information retrieval using an array of nodes
US7627613B1 (en) 2003-07-03 2009-12-01 Google Inc. Duplicate document detection in a web crawler system
US8136025B1 (en) 2003-07-03 2012-03-13 Google Inc. Assigning document identification tags
US7428700B2 (en) * 2003-07-28 2008-09-23 Microsoft Corporation Vision-based document segmentation
US8856163B2 (en) * 2003-07-28 2014-10-07 Google Inc. System and method for providing a user interface with search query broadening
US7617203B2 (en) * 2003-08-01 2009-11-10 Yahoo! Inc Listings optimization using a plurality of data sources
EP1649346A2 (en) 2003-08-01 2006-04-26 Icosystem Corporation Methods and systems for applying genetic operators to determine system conditions
US8869061B1 (en) 2003-08-29 2014-10-21 Microsoft Corporation User interface for searching an electronic document
US7617205B2 (en) * 2005-03-30 2009-11-10 Google Inc. Estimating confidence for query revision models
US7590936B1 (en) 2003-09-30 2009-09-15 Microsoft Corporation Method for extracting information associated with a search term
US7231399B1 (en) 2003-11-14 2007-06-12 Google Inc. Ranking documents based on large data sets
US7844589B2 (en) * 2003-11-18 2010-11-30 Yahoo! Inc. Method and apparatus for performing a search
US7890526B1 (en) * 2003-12-30 2011-02-15 Microsoft Corporation Incremental query refinement
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US20050182755A1 (en) * 2004-02-14 2005-08-18 Bao Tran Systems and methods for analyzing documents over a network
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US20050210003A1 (en) * 2004-03-17 2005-09-22 Yih-Kuen Tsay Sequence based indexing and retrieval method for text documents
US7584221B2 (en) 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US7519608B2 (en) * 2004-03-22 2009-04-14 Sliccware Secure virtual data warehousing system and method
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US7716225B1 (en) 2004-06-17 2010-05-11 Google Inc. Ranking documents based on user behavior and/or feature data
US9223868B2 (en) 2004-06-28 2015-12-29 Google Inc. Deriving and using interaction profiles
US20060010117A1 (en) * 2004-07-06 2006-01-12 Icosystem Corporation Methods and systems for interactive search
US7707220B2 (en) 2004-07-06 2010-04-27 Icosystem Corporation Methods and apparatus for interactive searching techniques
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7584175B2 (en) 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7426507B1 (en) * 2004-07-26 2008-09-16 Google, Inc. Automatic taxonomy generation in search results using phrases
US7580921B2 (en) 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7536408B2 (en) 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7199571B2 (en) * 2004-07-27 2007-04-03 Optisense Network, Inc. Probe apparatus for use in a separable connector, and systems including same
US8819051B2 (en) * 2005-09-29 2014-08-26 Yahoo! Inc. Tagging offline content with context-sensitive search-enabling keywords
US20070016559A1 (en) * 2005-07-14 2007-01-18 Yahoo! Inc. User entertainment and engagement enhancements to search system
US7603349B1 (en) * 2004-07-29 2009-10-13 Yahoo! Inc. User interfaces for search systems using in-line contextual queries
US7421441B1 (en) * 2005-09-20 2008-09-02 Yahoo! Inc. Systems and methods for presenting information based on publisher-selected labels
US8972856B2 (en) * 2004-07-29 2015-03-03 Yahoo! Inc. Document modification by a client-side application
US7958115B2 (en) * 2004-07-29 2011-06-07 Yahoo! Inc. Search systems and methods using in-line contextual queries
US7962465B2 (en) * 2006-10-19 2011-06-14 Yahoo! Inc. Contextual syndication platform
US7917480B2 (en) * 2004-08-13 2011-03-29 Google Inc. Document compression system and method for use with tokenspace repository
US7275052B2 (en) * 2004-08-20 2007-09-25 Sap Ag Combined classification based on examples, queries, and keywords
US20060059134A1 (en) * 2004-09-10 2006-03-16 Eran Palmon Creating attachments and ranking users and attachments for conducting a search directed by a hierarchy-free set of topics
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US8065316B1 (en) * 2004-09-30 2011-11-22 Google Inc. Systems and methods for providing search query refinements
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7827181B2 (en) 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US8069151B1 (en) 2004-12-08 2011-11-29 Chris Crafford System and method for detecting incongruous or incorrect media in a data recovery process
US20060129531A1 (en) * 2004-12-09 2006-06-15 International Business Machines Corporation Method and system for suggesting search engine keywords
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US20060161520A1 (en) * 2005-01-14 2006-07-20 Microsoft Corporation System and method for generating alternative search terms
US7630980B2 (en) 2005-01-21 2009-12-08 Prashant Parikh Automatic dynamic contextual data entry completion system
WO2006086179A2 (en) * 2005-01-31 2006-08-17 Textdigger, Inc. Method and system for semantic search and retrieval of electronic documents
US7890503B2 (en) * 2005-02-07 2011-02-15 Microsoft Corporation Method and system for performing secondary search actions based on primary search result attributes
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
US7461059B2 (en) * 2005-02-23 2008-12-02 Microsoft Corporation Dynamically updated search results based upon continuously-evolving search query that is based at least in part upon phrase suggestion, search engine uses previous result sets performing additional search tasks
US20060212415A1 (en) * 2005-03-01 2006-09-21 Alejandro Backer Query-less searching
US7792833B2 (en) 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US7526476B2 (en) * 2005-03-14 2009-04-28 Microsoft Corporation System and method for generating attribute-based selectable search extension
US7870147B2 (en) * 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US7565345B2 (en) * 2005-03-29 2009-07-21 Google Inc. Integration of multiple query revision models
WO2006110684A2 (en) * 2005-04-11 2006-10-19 Textdigger, Inc. System and method for searching for a query
US20060248078A1 (en) * 2005-04-15 2006-11-02 William Gross Search engine with suggestion tool and method of using same
US7519580B2 (en) * 2005-04-19 2009-04-14 International Business Machines Corporation Search criteria control system and method
US20060248037A1 (en) * 2005-04-29 2006-11-02 International Business Machines Corporation Annotation of inverted list text indexes using search queries
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
EP1889181A4 (en) * 2005-05-16 2009-12-02 Ebay Inc METHOD AND SYSTEM FOR SEARCHING SEARCH
US7962504B1 (en) * 2005-05-26 2011-06-14 Aol Inc. Sourcing terms into a search engine
CA2510644A1 (en) * 2005-06-23 2006-12-23 Cognos Incorporated Quality of service feedback for technology-neutral data reporting
US20070016545A1 (en) * 2005-07-14 2007-01-18 International Business Machines Corporation Detection of missing content in a searchable repository
US20070027848A1 (en) * 2005-07-29 2007-02-01 Microsoft Corporation Smart search for accessing options
US7599917B2 (en) 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US7747639B2 (en) * 2005-08-24 2010-06-29 Yahoo! Inc. Alternative search query prediction
US7844599B2 (en) * 2005-08-24 2010-11-30 Yahoo! Inc. Biasing queries to determine suggested queries
US7672932B2 (en) * 2005-08-24 2010-03-02 Yahoo! Inc. Speculative search result based on a not-yet-submitted search query
JP4756953B2 (ja) * 2005-08-26 2011-08-24 富士通株式会社 情報検索装置および情報検索方法
US8103545B2 (en) 2005-09-14 2012-01-24 Jumptap, Inc. Managing payment for sponsored content presented to mobile communication facilities
US8812526B2 (en) 2005-09-14 2014-08-19 Millennial Media, Inc. Mobile content cross-inventory yield optimization
US7548915B2 (en) 2005-09-14 2009-06-16 Jorey Ramer Contextual mobile content placement on a mobile communication facility
US7912458B2 (en) 2005-09-14 2011-03-22 Jumptap, Inc. Interaction analysis and prioritization of mobile content
US8832100B2 (en) 2005-09-14 2014-09-09 Millennial Media, Inc. User transaction history influenced search results
US20110313853A1 (en) 2005-09-14 2011-12-22 Jorey Ramer System for targeting advertising content to a plurality of mobile communication facilities
US9471925B2 (en) 2005-09-14 2016-10-18 Millennial Media Llc Increasing mobile interactivity
US7577665B2 (en) 2005-09-14 2009-08-18 Jumptap, Inc. User characteristic influenced search results
US8156128B2 (en) 2005-09-14 2012-04-10 Jumptap, Inc. Contextual mobile content placement on a mobile communication facility
US8209344B2 (en) 2005-09-14 2012-06-26 Jumptap, Inc. Embedding sponsored content in mobile applications
US9201979B2 (en) 2005-09-14 2015-12-01 Millennial Media, Inc. Syndication of a behavioral profile associated with an availability condition using a monetization platform
US8027879B2 (en) 2005-11-05 2011-09-27 Jumptap, Inc. Exclusivity bidding for mobile sponsored content
US8503995B2 (en) 2005-09-14 2013-08-06 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US8989718B2 (en) 2005-09-14 2015-03-24 Millennial Media, Inc. Idle screen advertising
US8290810B2 (en) 2005-09-14 2012-10-16 Jumptap, Inc. Realtime surveying within mobile sponsored content
US8131271B2 (en) 2005-11-05 2012-03-06 Jumptap, Inc. Categorization of a mobile user profile based on browse behavior
US8666376B2 (en) 2005-09-14 2014-03-04 Millennial Media Location based mobile shopping affinity program
US7676394B2 (en) 2005-09-14 2010-03-09 Jumptap, Inc. Dynamic bidding and expected value
US7752209B2 (en) 2005-09-14 2010-07-06 Jumptap, Inc. Presenting sponsored content on a mobile communication facility
US8660891B2 (en) 2005-11-01 2014-02-25 Millennial Media Interactive mobile advertisement banners
US7769764B2 (en) 2005-09-14 2010-08-03 Jumptap, Inc. Mobile advertisement syndication
US7603360B2 (en) 2005-09-14 2009-10-13 Jumptap, Inc. Location influenced search results
US8515401B2 (en) 2005-09-14 2013-08-20 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US10038756B2 (en) 2005-09-14 2018-07-31 Millenial Media LLC Managing sponsored content based on device characteristics
US7860871B2 (en) 2005-09-14 2010-12-28 Jumptap, Inc. User history influenced search results
US8229914B2 (en) 2005-09-14 2012-07-24 Jumptap, Inc. Mobile content spidering and compatibility determination
US7660581B2 (en) 2005-09-14 2010-02-09 Jumptap, Inc. Managing sponsored content based on usage history
US8364540B2 (en) 2005-09-14 2013-01-29 Jumptap, Inc. Contextual targeting of content using a monetization platform
US7702318B2 (en) 2005-09-14 2010-04-20 Jumptap, Inc. Presentation of sponsored content based on mobile transaction event
US8819659B2 (en) 2005-09-14 2014-08-26 Millennial Media, Inc. Mobile search service instant activation
CA2622625A1 (en) * 2005-09-14 2007-03-22 O-Ya!, Inc. Networked information indexing and search apparatus and method
US8364521B2 (en) 2005-09-14 2013-01-29 Jumptap, Inc. Rendering targeted advertisement on mobile communication facilities
US8615719B2 (en) 2005-09-14 2013-12-24 Jumptap, Inc. Managing sponsored content for delivery to mobile communication facilities
US9703892B2 (en) 2005-09-14 2017-07-11 Millennial Media Llc Predictive text completion for a mobile communication facility
US9076175B2 (en) 2005-09-14 2015-07-07 Millennial Media, Inc. Mobile comparison shopping
US8302030B2 (en) 2005-09-14 2012-10-30 Jumptap, Inc. Management of multiple advertising inventories using a monetization platform
US8195133B2 (en) 2005-09-14 2012-06-05 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US8805339B2 (en) 2005-09-14 2014-08-12 Millennial Media, Inc. Categorization of a mobile user profile based on browse and viewing behavior
US10911894B2 (en) 2005-09-14 2021-02-02 Verizon Media Inc. Use of dynamic content generation parameters based on previous performance of those parameters
US9058406B2 (en) 2005-09-14 2015-06-16 Millennial Media, Inc. Management of multiple advertising inventories using a monetization platform
US10592930B2 (en) 2005-09-14 2020-03-17 Millenial Media, LLC Syndication of a behavioral profile using a monetization platform
US8688671B2 (en) 2005-09-14 2014-04-01 Millennial Media Managing sponsored content based on geographic region
US8238888B2 (en) 2006-09-13 2012-08-07 Jumptap, Inc. Methods and systems for mobile coupon placement
US8311888B2 (en) 2005-09-14 2012-11-13 Jumptap, Inc. Revenue models associated with syndication of a behavioral profile using a monetization platform
WO2007035848A2 (en) 2005-09-21 2007-03-29 Icosystem Corporation System and method for aiding product design and quantifying acceptance
WO2007041343A2 (en) * 2005-09-29 2007-04-12 Icosystem Corporation Methods and apparatus for interactive searching techniques
US7480652B2 (en) * 2005-10-26 2009-01-20 Microsoft Corporation Determining relevance of a document to a query based on spans of query terms
US8175585B2 (en) 2005-11-05 2012-05-08 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US8019752B2 (en) * 2005-11-10 2011-09-13 Endeca Technologies, Inc. System and method for information retrieval from object collections with complex interrelationships
US8571999B2 (en) 2005-11-14 2013-10-29 C. S. Lee Crawford Method of conducting operations for a social network application including activity list generation
US20070143255A1 (en) * 2005-11-28 2007-06-21 Webaroo, Inc. Method and system for delivering internet content to mobile devices
US7668887B2 (en) * 2005-12-01 2010-02-23 Object Positive Pty Ltd Method, system and software product for locating documents of interest
US8903810B2 (en) 2005-12-05 2014-12-02 Collarity, Inc. Techniques for ranking search results
US8429184B2 (en) * 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
US7925649B2 (en) * 2005-12-30 2011-04-12 Google Inc. Method, system, and graphical user interface for alerting a computer user to new results for a prior search
WO2007081681A2 (en) 2006-01-03 2007-07-19 Textdigger, Inc. Search system with query refinement and search method
US20070185860A1 (en) * 2006-01-24 2007-08-09 Michael Lissack System for searching
US20070192293A1 (en) * 2006-02-13 2007-08-16 Bing Swen Method for presenting search results
EP1826692A3 (en) * 2006-02-22 2009-03-25 Copernic Technologies, Inc. Query correction using indexed content on a desktop indexer program.
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
US8195683B2 (en) 2006-02-28 2012-06-05 Ebay Inc. Expansion of database search queries
US7676460B2 (en) * 2006-03-03 2010-03-09 International Business Machines Corporation Techniques for providing suggestions for creating a search query
US7657523B2 (en) * 2006-03-09 2010-02-02 Customerforce.Com Ranking search results presented to on-line users as a function of perspectives of relationships trusted by the users
US8862573B2 (en) * 2006-04-04 2014-10-14 Textdigger, Inc. Search system and method with text function tagging
JP2009533767A (ja) * 2006-04-13 2009-09-17 セアルクフメ,インコーポレーテッド 垂直ドメイン内で検索を実行するシステム及び方法
JP4761460B2 (ja) * 2006-05-01 2011-08-31 コニカミノルタビジネステクノロジーズ株式会社 検索装置による情報検索方法、情報検索装置及び情報検索処理プログラム
US20070271255A1 (en) * 2006-05-17 2007-11-22 Nicky Pappo Reverse search-engine
US9443022B2 (en) 2006-06-05 2016-09-13 Google Inc. Method, system, and graphical user interface for providing personalized recommendations of popular search queries
US20080189273A1 (en) * 2006-06-07 2008-08-07 Digital Mandate, Llc System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data
US8150827B2 (en) * 2006-06-07 2012-04-03 Renew Data Corp. Methods for enhancing efficiency and cost effectiveness of first pass review of documents
US7849078B2 (en) * 2006-06-07 2010-12-07 Sap Ag Generating searchable keywords
US7548909B2 (en) * 2006-06-13 2009-06-16 Microsoft Corporation Search engine dash-board
US7761464B2 (en) * 2006-06-19 2010-07-20 Microsoft Corporation Diversifying search results for improved search and personalization
US20080010250A1 (en) * 2006-07-07 2008-01-10 Yahoo! Inc. System and method for generalization search in hierarchies
US7991769B2 (en) * 2006-07-07 2011-08-02 Yahoo! Inc. System and method for budgeted generalization search in hierarchies
US8301616B2 (en) 2006-07-14 2012-10-30 Yahoo! Inc. Search equalizer
US8001114B2 (en) 2006-07-18 2011-08-16 Wilson Chu Methods and apparatuses for dynamically searching for electronic mail messages
US7822764B2 (en) 2006-07-18 2010-10-26 Cisco Technology, Inc. Methods and apparatuses for dynamically displaying search suggestions
US7761805B2 (en) 2006-09-11 2010-07-20 Yahoo! Inc. Displaying items using a reduced presentation
US8442972B2 (en) * 2006-10-11 2013-05-14 Collarity, Inc. Negative associations for search results ranking and refinement
US20080109274A1 (en) * 2006-11-03 2008-05-08 Yahoo! Inc. System and method for predicting a casing variation of a term
US8635203B2 (en) * 2006-11-16 2014-01-21 Yahoo! Inc. Systems and methods using query patterns to disambiguate query intent
US8131722B2 (en) * 2006-11-20 2012-03-06 Ebay Inc. Search clustering
US7840076B2 (en) * 2006-11-22 2010-11-23 Intel Corporation Methods and apparatus for retrieving images from a large collection of images
US8676802B2 (en) 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
US7793230B2 (en) * 2006-11-30 2010-09-07 Microsoft Corporation Search term location graph
US7921092B2 (en) * 2006-12-04 2011-04-05 Yahoo! Inc. Topic-focused search result summaries
US20080154878A1 (en) * 2006-12-20 2008-06-26 Rose Daniel E Diversifying a set of items
US7792816B2 (en) 2007-02-01 2010-09-07 Icosystem Corporation Method and system for fast, generic, online and offline, multi-source text analysis and visualization
US7925644B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US20080250008A1 (en) * 2007-04-04 2008-10-09 Microsoft Corporation Query Specialization
US20080256056A1 (en) * 2007-04-10 2008-10-16 Yahoo! Inc. System for building a data structure representing a network of users and advertisers
US8261200B2 (en) * 2007-04-26 2012-09-04 Fuji Xerox Co., Ltd. Increasing retrieval performance of images by providing relevance feedback on word images contained in the images
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US7831587B2 (en) * 2007-05-10 2010-11-09 Xerox Corporation Event hierarchies and memory organization for structured data retrieval
US20080294619A1 (en) * 2007-05-23 2008-11-27 Hamilton Ii Rick Allen System and method for automatic generation of search suggestions based on recent operator behavior
US8019742B1 (en) 2007-05-31 2011-09-13 Google Inc. Identifying related queries
US8392446B2 (en) * 2007-05-31 2013-03-05 Yahoo! Inc. System and method for providing vector terms related to a search query
WO2009003124A1 (en) 2007-06-26 2008-12-31 Seeqpod, Inc. Media discovery and playlist generation
US8713001B2 (en) * 2007-07-10 2014-04-29 Asim Roy Systems and related methods of user-guided searching
GB2454161A (en) * 2007-08-15 2009-05-06 Transversal Corp Ltd A mechanism for improving the effectiveness of an internet search engine
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
WO2009036372A2 (en) * 2007-09-14 2009-03-19 Google Inc. Suggesting alterntive queries in query results
US8271493B2 (en) * 2007-10-11 2012-09-18 Oracle International Corporation Extensible mechanism for grouping search results
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
CN101159967B (zh) * 2007-10-29 2011-08-31 中国移动通信集团设计院有限公司 一种将路测数据用于传播模型校正的方法及装置
WO2009059297A1 (en) * 2007-11-01 2009-05-07 Textdigger, Inc. Method and apparatus for automated tag generation for digital content
US20090150387A1 (en) * 2007-11-08 2009-06-11 Marchewitz Jodi L Guided research tool
US7856434B2 (en) 2007-11-12 2010-12-21 Endeca Technologies, Inc. System and method for filtering rules for manipulating search results in a hierarchical search and navigation system
US8301651B2 (en) * 2007-11-21 2012-10-30 Chacha Search, Inc. Method and system for improving utilization of human searchers
US20090171907A1 (en) * 2007-12-26 2009-07-02 Radovanovic Nash R Method and system for searching text-containing documents
US20090171929A1 (en) * 2007-12-26 2009-07-02 Microsoft Corporation Toward optimized query suggeston: user interfaces and algorithms
US8255386B1 (en) * 2008-01-30 2012-08-28 Google Inc. Selection of documents to place in search index
US9122743B2 (en) * 2008-01-30 2015-09-01 International Business Machines Corporation Enhanced search query modification
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
US7930287B2 (en) 2008-03-14 2011-04-19 Michelli Capital Limited Liability Company Systems and methods for compound searching
US8694526B2 (en) * 2008-03-18 2014-04-08 Google Inc. Apparatus and method for displaying search results using tabs
KR100926876B1 (ko) * 2008-04-01 2009-11-16 엔에이치엔(주) 랭크 발생 확률을 이용한 랭크 학습 모델 생성 방법 및랭크 학습 모델 생성 시스템
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8051080B2 (en) * 2008-04-16 2011-11-01 Yahoo! Inc. Contextual ranking of keywords using click data
US8086590B2 (en) * 2008-04-25 2011-12-27 Microsoft Corporation Product suggestions and bypassing irrelevant query results
US8082248B2 (en) * 2008-05-29 2011-12-20 Rania Abouyounes Method and system for document classification based on document structure and written style
US8438178B2 (en) 2008-06-26 2013-05-07 Collarity Inc. Interactions among online digital identities
US9183323B1 (en) 2008-06-27 2015-11-10 Google Inc. Suggesting alternative query phrases in query results
US8521731B2 (en) 2008-07-09 2013-08-27 Yahoo! Inc. Systems and methods for query expansion in sponsored search
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
US8171043B2 (en) * 2008-10-24 2012-05-01 Yahoo! Inc. Methods for improving the diversity of image search results
US10210179B2 (en) * 2008-11-18 2019-02-19 Excalibur Ip, Llc Dynamic feature weighting
US20100131496A1 (en) * 2008-11-26 2010-05-27 Yahoo! Inc. Predictive indexing for fast search
US7949647B2 (en) * 2008-11-26 2011-05-24 Yahoo! Inc. Navigation assistance for search engines
US8458171B2 (en) * 2009-01-30 2013-06-04 Google Inc. Identifying query aspects
US9330165B2 (en) * 2009-02-13 2016-05-03 Microsoft Technology Licensing, Llc Context-aware query suggestion by mining log data
US8418055B2 (en) 2009-02-18 2013-04-09 Google Inc. Identifying a document by performing spectral analysis on the contents of the document
US8041729B2 (en) * 2009-02-20 2011-10-18 Yahoo! Inc. Categorizing queries and expanding keywords with a coreference graph
KR101056412B1 (ko) * 2009-02-24 2011-08-11 전북대학교산학협력단 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
EP2406767A4 (en) 2009-03-12 2016-03-16 Google Inc AUTOMATIC CONTENT SUPPLY ASSOCIATED WITH CAPTURED INFORMATION, TYPE INFORMATION CAPTURED IN REAL TIME
US8392443B1 (en) * 2009-03-17 2013-03-05 Google Inc. Refining search queries
US8930350B1 (en) 2009-03-23 2015-01-06 Google Inc. Autocompletion using previously submitted query data
US8190601B2 (en) * 2009-05-22 2012-05-29 Microsoft Corporation Identifying task groups for organizing search results
US8244749B1 (en) 2009-06-05 2012-08-14 Google Inc. Generating sibling query refinements
US8533202B2 (en) 2009-07-07 2013-09-10 Yahoo! Inc. Entropy-based mixing and personalization
US9436777B2 (en) * 2009-08-13 2016-09-06 Yahoo! Inc. Method and system for causing a browser to preload web page components
US8583675B1 (en) 2009-08-28 2013-11-12 Google Inc. Providing result-based query suggestions
US8676828B1 (en) * 2009-11-04 2014-03-18 Google Inc. Selecting and presenting content relevant to user input
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US8682900B2 (en) * 2009-12-08 2014-03-25 International Business Machines Corporation System, method and computer program product for documents retrieval
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
WO2011075610A1 (en) 2009-12-16 2011-06-23 Renew Data Corp. System and method for creating a de-duplicated data set
US8849785B1 (en) 2010-01-15 2014-09-30 Google Inc. Search query reformulation using result term occurrence count
US8875038B2 (en) 2010-01-19 2014-10-28 Collarity, Inc. Anchoring for content synchronization
US8498983B1 (en) * 2010-01-29 2013-07-30 Guangsheng Zhang Assisting search with semantic context and automated search options
US8176067B1 (en) 2010-02-24 2012-05-08 A9.Com, Inc. Fixed phrase detection for search
US8560536B2 (en) * 2010-03-11 2013-10-15 Yahoo! Inc. Methods, systems, and/or apparatuses for use in searching for information using computer platforms
US20110258202A1 (en) * 2010-04-15 2011-10-20 Rajyashree Mukherjee Concept extraction using title and emphasized text
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US20110307504A1 (en) * 2010-06-09 2011-12-15 Microsoft Corporation Combining attribute refinements and textual queries
US8326861B1 (en) 2010-06-23 2012-12-04 Google Inc. Personalized term importance evaluation in queries
US8316019B1 (en) 2010-06-23 2012-11-20 Google Inc. Personalized query suggestions from profile trees
US20110320442A1 (en) * 2010-06-25 2011-12-29 International Business Machines Corporation Systems and Methods for Semantics Based Domain Independent Faceted Navigation Over Documents
US8600979B2 (en) 2010-06-28 2013-12-03 Yahoo! Inc. Infinite browse
US8694527B2 (en) * 2010-06-30 2014-04-08 International Business Machines Corporation Simplified query generation from prior query results
US8560562B2 (en) 2010-07-22 2013-10-15 Google Inc. Predictive query suggestion caching
US8812733B1 (en) 2010-08-19 2014-08-19 Google Inc. Transport protocol independent communications library
US20120047025A1 (en) 2010-08-19 2012-02-23 Google Inc. Query stem advertising
US9240020B2 (en) 2010-08-24 2016-01-19 Yahoo! Inc. Method of recommending content via social signals
US9779168B2 (en) 2010-10-04 2017-10-03 Excalibur Ip, Llc Contextual quick-picks
US20120095984A1 (en) * 2010-10-18 2012-04-19 Peter Michael Wren-Hilton Universal Search Engine Interface and Application
AU2010362878A1 (en) * 2010-10-18 2013-05-02 Pingar Holdings Limited Universal search engine interface and application
US8489604B1 (en) 2010-10-26 2013-07-16 Google Inc. Automated resource selection process evaluation
US20120110453A1 (en) * 2010-10-29 2012-05-03 Microsoft Corporation Display of Image Search Results
US20120158765A1 (en) * 2010-12-15 2012-06-21 Microsoft Corporation User Interface for Interactive Query Reformulation
US9251185B2 (en) 2010-12-15 2016-02-02 Girish Kumar Classifying results of search queries
CN102646103B (zh) * 2011-02-18 2016-03-16 腾讯科技(深圳)有限公司 检索词的聚类方法和装置
US10068022B2 (en) * 2011-06-03 2018-09-04 Google Llc Identifying topical entities
US8762356B1 (en) 2011-07-15 2014-06-24 Google Inc. Detecting change in rate of input reception
US8788436B2 (en) 2011-07-27 2014-07-22 Microsoft Corporation Utilization of features extracted from structured documents to improve search relevance
US8645825B1 (en) 2011-08-31 2014-02-04 Google Inc. Providing autocomplete suggestions
US9075799B1 (en) * 2011-10-24 2015-07-07 NetBase Solutions, Inc. Methods and apparatus for query formulation
US8566340B2 (en) * 2011-12-07 2013-10-22 Microsoft Corporation Provision of query suggestions independent of query logs
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US9767144B2 (en) 2012-04-20 2017-09-19 Microsoft Technology Licensing, Llc Search system with query refinement
US8930181B2 (en) 2012-12-06 2015-01-06 Prashant Parikh Automatic dynamic contextual data entry completion
US10108699B2 (en) 2013-01-22 2018-10-23 Microsoft Technology Licensing, Llc Adaptive query suggestion
US20170270159A1 (en) * 2013-03-14 2017-09-21 Google Inc. Determining query results in response to natural language queries
US9898537B2 (en) 2013-03-14 2018-02-20 Open Text Sa Ulc Systems, methods and computer program products for information management across disparate information systems
US10182054B2 (en) * 2013-03-14 2019-01-15 Open Text Sa Ulc Systems, methods and computer program products for information integration across disparate information systems
US10073956B2 (en) 2013-03-14 2018-09-11 Open Text Sa Ulc Integration services systems, methods and computer program products for ECM-independent ETL tools
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
US9613132B2 (en) * 2013-06-28 2017-04-04 Yandex Europe Ag Method of and system for displaying a plurality of user-selectable refinements to a search query
US20150032729A1 (en) * 2013-07-23 2015-01-29 Salesforce.Com, Inc. Matching snippets of search results to clusters of objects
US9846740B2 (en) * 2013-09-09 2017-12-19 Mimecast Services Ltd. Associative search systems and methods
US9536522B1 (en) * 2013-12-30 2017-01-03 Google Inc. Training a natural language processing model with information retrieval model annotations
CN103995870A (zh) * 2014-05-21 2014-08-20 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
US10769176B2 (en) * 2015-06-19 2020-09-08 Richard Chino Method and apparatus for creating and curating user collections for network search
US9710468B2 (en) 2014-09-04 2017-07-18 Salesforce.Com, Inc. Topic profile query creation
US10459608B2 (en) 2014-12-01 2019-10-29 Ebay Inc. Mobile optimized shopping comparison
CN104376115B (zh) * 2014-12-01 2017-08-29 北京奇虎科技有限公司 一种基于全局搜索的模糊词确定方法及装置
KR102251811B1 (ko) 2015-01-02 2021-05-13 삼성전자주식회사 하드웨어 필터를 포함하는 데이터 저장 장치 및 상기 데이터 저장 장치를 포함하는 데이터 처리 시스템
US10503764B2 (en) * 2015-06-01 2019-12-10 Oath Inc. Location-awareness search assistance system and method
US20170068712A1 (en) * 2015-09-04 2017-03-09 Palantir Technologies Inc. Systems and methods for database investigation tool
US20170153798A1 (en) * 2015-11-30 2017-06-01 International Business Machines Corporation Changing context and behavior of a ui component
US10467291B2 (en) * 2016-05-02 2019-11-05 Oath Inc. Method and system for providing query suggestions
US10318563B2 (en) * 2017-08-23 2019-06-11 Lead Technologies, Inc. Apparatus, method, and computer-readable medium for recognition of a digital document
US11360958B2 (en) 2017-09-29 2022-06-14 Apple Inc. Techniques for indexing and querying a set of documents at a computing device
EP3635575A1 (en) 2018-08-21 2020-04-15 Google LLC. Sibling search queries
US11048767B2 (en) * 2018-11-16 2021-06-29 Sap Se Combination content search
US11790017B2 (en) 2021-04-30 2023-10-17 CS Disco, Inc. Systems and methods for searching related documents and associated search operators

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US6044365A (en) * 1993-09-01 2000-03-28 Onkor, Ltd. System for indexing and retrieving graphic and sound data
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
JP3282937B2 (ja) * 1995-01-12 2002-05-20 日本アイ・ビー・エム株式会社 情報検索方法及びシステム
JPH08305710A (ja) * 1995-04-28 1996-11-22 Toshiba Corp 文書のキーワード抽出方法及び文書検索装置
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US6067552A (en) * 1995-08-21 2000-05-23 Cnet, Inc. User interface system and method for browsing a hypertext database
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US6128613A (en) * 1997-06-26 2000-10-03 The Chinese University Of Hong Kong Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6014665A (en) * 1997-08-01 2000-01-11 Culliss; Gary Method for organizing information
US6018733A (en) * 1997-09-12 2000-01-25 Infoseek Corporation Methods for iteratively and interactively performing collection selection in full text searches
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
EP0938053B1 (en) * 1998-02-20 2003-08-20 Hewlett-Packard Company, A Delaware Corporation Methods of refining descriptors
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
US6363378B1 (en) * 1998-10-13 2002-03-26 Oracle Corporation Ranking of query feedback terms in an information retrieval system
US6480843B2 (en) * 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6411950B1 (en) * 1998-11-30 2002-06-25 Compaq Information Technologies Group, Lp Dynamic query expansion
US6295529B1 (en) * 1998-12-24 2001-09-25 Microsoft Corporation Method and apparatus for indentifying clauses having predetermined characteristics indicative of usefulness in determining relationships between different texts
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
US6901402B1 (en) * 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
JP2001005830A (ja) * 1999-06-23 2001-01-12 Canon Inc 情報処理装置及びその方法、コンピュータ可読メモリ
US6546385B1 (en) * 1999-08-13 2003-04-08 International Business Machines Corporation Method and apparatus for indexing and searching content in hardcopy documents
US6324534B1 (en) * 1999-09-10 2001-11-27 Requisite Technology, Inc. Sequential subset catalog search engine
US7028267B1 (en) * 1999-12-07 2006-04-11 Microsoft Corporation Method and apparatus for capturing and rendering text annotations for non-modifiable electronic content
US6516312B1 (en) * 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
US7062483B2 (en) * 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
DE60017727T2 (de) * 2000-08-18 2005-12-29 Exalead Suchwerkzeug und Prozess zum Suchen unter Benutzung von Kategorien und Schlüsselwörtern
WO2002027541A1 (en) * 2000-08-23 2002-04-04 Intel Corporation A method and apparatus for concept-based searching across a network
US7249121B1 (en) * 2000-10-04 2007-07-24 Google Inc. Identification of semantic units from within a search query
AUPR082400A0 (en) * 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system
US6983239B1 (en) * 2000-10-25 2006-01-03 International Business Machines Corporation Method and apparatus for embedding grammars in a natural language understanding (NLU) statistical parser
US6678694B1 (en) * 2000-11-08 2004-01-13 Frank Meik Indexed, extensible, interactive document retrieval system
CN1191540C (zh) * 2000-12-29 2005-03-02 国际商业机器公司 为文本文档语料库建立索引的方法和装置
US7254773B2 (en) * 2000-12-29 2007-08-07 International Business Machines Corporation Automated spell analysis
JP3844193B2 (ja) * 2001-01-24 2006-11-08 Kddi株式会社 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム
US6725217B2 (en) * 2001-06-20 2004-04-20 International Business Machines Corporation Method and system for knowledge repository exploration and visualization
JP4888677B2 (ja) * 2001-07-06 2012-02-29 独立行政法人情報通信研究機構 文書検索システム
US7092936B1 (en) * 2001-08-22 2006-08-15 Oracle International Corporation System and method for search and recommendation based on usage mining
US7356527B2 (en) * 2001-12-19 2008-04-08 International Business Machines Corporation Lossy index compression
AUPS300402A0 (en) * 2002-06-17 2002-07-11 Canon Kabushiki Kaisha Indexing and querying structured documents
US6983273B2 (en) * 2002-06-27 2006-01-03 International Business Machines Corporation Iconic representation of linked site characteristics
US7236923B1 (en) * 2002-08-07 2007-06-26 Itt Manufacturing Enterprises, Inc. Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
US7412453B2 (en) * 2002-12-30 2008-08-12 International Business Machines Corporation Document analysis and retrieval
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement

Also Published As

Publication number Publication date
US20040186827A1 (en) 2004-09-23
JP5611390B2 (ja) 2014-10-22
KR100666064B1 (ko) 2007-01-10
WO2004086192A2 (en) 2004-10-07
JP2010257488A (ja) 2010-11-11
JP2013109781A (ja) 2013-06-06
US20060010126A1 (en) 2006-01-12
JP5740029B2 (ja) 2015-06-24
KR20060002831A (ko) 2006-01-09
US6947930B2 (en) 2005-09-20
EP1606704A2 (en) 2005-12-21
JP2014160498A (ja) 2014-09-04
JP2006523344A (ja) 2006-10-12
WO2004086192A3 (en) 2005-02-17
EP1606704A4 (en) 2006-07-26
JP5237335B2 (ja) 2013-07-17

Similar Documents

Publication Publication Date Title
JP5255766B2 (ja) 対話形サーチクエリー改良のためのシステム及び方法
US9436781B2 (en) Method and system for autocompletion for languages having ideographs and phonetic characters
US6850934B2 (en) Adaptive search engine query
JP4241934B2 (ja) テキスト処理及び検索システム及び方法
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US7783644B1 (en) Query-independent entity importance in books
JP3636941B2 (ja) 情報検索方法と情報検索装置
EP1555625A1 (en) Query recognizer
US20080294619A1 (en) System and method for automatic generation of search suggestions based on recent operator behavior
US11573989B2 (en) Corpus specific generative query completion assistant
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
US20150339387A1 (en) Method of and system for furnishing a user of a client device with a network resource
JPH0944523A (ja) 関連語提示装置
US20110022591A1 (en) Pre-computed ranking using proximity terms
JP2004506960A (ja) 蓋然論マッチング・エンジン
JP2012014741A (ja) Webページ検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070322

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20090528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090907

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091127

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100308

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100922

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20111202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130422

R150 Certificate of patent or registration of utility model

Ref document number: 5255766

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term