JP4831795B2 - 多数のクエリー修正モデルの統合 - Google Patents

多数のクエリー修正モデルの統合 Download PDF

Info

Publication number
JP4831795B2
JP4831795B2 JP2008504001A JP2008504001A JP4831795B2 JP 4831795 B2 JP4831795 B2 JP 4831795B2 JP 2008504001 A JP2008504001 A JP 2008504001A JP 2008504001 A JP2008504001 A JP 2008504001A JP 4831795 B2 JP4831795 B2 JP 4831795B2
Authority
JP
Japan
Prior art keywords
query
modified
queries
subset
search results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008504001A
Other languages
English (en)
Other versions
JP2008537624A5 (ja
JP2008537624A (ja
Inventor
ベイリー,デビッド,アール.
バトル,アレクシス,ジェイ.
ゴメス,ベネディクト,エー.
ナヤク,パンデュラン,ピー.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2008537624A publication Critical patent/JP2008537624A/ja
Publication of JP2008537624A5 publication Critical patent/JP2008537624A5/ja
Application granted granted Critical
Publication of JP4831795B2 publication Critical patent/JP4831795B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、一般に、情報検索システムに関し、より詳細には、ユーザークエリーを修正するためのシステムアーキテクチャに関する。
関連出願の相互参照
本出願は以下に関連し、それぞれを引用して本明細書に組み込む。
・2003年9月22日出願の米国特許出願第10/668,721号、発明の名称「検索クエリー絞り込みを提供するためのシステムおよび方法」。
・2003年9月30日出願の米国特許出願第10/676,571号、発明の名称「関連ワードのクラスタに基づいて文書を特徴付けるための方法および装置」。
・2003年12月15日出願の米国特許出願第10/734,584号、発明の名称「大規模マシン学習システムおよび方法」。
・2004年6月28日出願の米国特許出願第10/878,926号、発明の名称「相互作用プロファイルを導出し、使用するためのシステムおよび方法」。
・2004年7月26日出願の米国特許出願第10/900,021号、発明の名称「情報検索システムにおけるフレーズ識別」。
・2005年3月28日出願の米国特許出願第11/xxx,xxx号、発明の名称「重要性が希薄なクエリー用語の決定」。
・2005年3月30日出願の米国特許出願第11/xxx,xxx号、発明の名称「クエリー文脈内のクエリー用語の類語決定」。および、
・米国特許第6,285,999号。
インターネット検索エンジンにより具体化されているような情報検索システムは、一般に、ユーザークエリーに概ね関連する文書を迅速に提供できる。検索エンジンは、文書間および用語間の結び付きと併せて、用語および文書の出現頻度に各種統計的尺度を用いて、クエリーに対する文書の関連性を決定できる。大部分の検索エンジン設計の基底をなす主要な技術的仮定は、ユーザークエリーが、ユーザが所望する情報目標を正確に表しているということである。
現実には、ユーザが有効なクエリーを考えるのは困難なのが普通である。単一のクエリーでは所望の結果をもたらさないことが多いので、ユーザは、同一の話題について幾つかの異なるクエリーを入力することが多い。これら多数のクエリーは、クエリー用語や推測企業名の範囲または特異性の変形、ワード順序やワード数の変形等を含むのが普通である。クエリーをうまく修正するよう幅広く変化させる能力を有している様々なユーザ達がいるので、クエリー修正を自動化した各種の方法がこれまでに提案されている。
ごく普通には、クエリー絞り込みを通じて、より一般的なクエリーから、より正確な(すなわちより狭い)クエリーを自動生成する。その上位検索結果がユーザの情報必要性に関連する文書の上位セット(上位集合)を含む、範囲が広すぎるクエリーをユーザが入力する場合、クエリー絞り込み法は最も有効である。例えば、三菱ギャラン自動車に関する情報を求めるユーザが、自動車会社だけでなく多くの異なる三菱企業を検索結果が含む広すぎるクエリー「三菱」を、入力するかもしれない。従って、クエリーを絞り込みすることが望ましい(ユーザの特定情報の必要性を決定するのは、追加文脈欠如によりここでは困難であるが)。
しかし、正しい修正法がクエリー範囲を広げる場合において具体的過ぎるクエリーをユーザが入力する場合、または上位結果がユーザの情報必要性に無関連である場合は、クエリー絞り込み法は有効ではない。例えば、クエリー「三菱ギャラン情報」は、用語「情報」のために貧弱な結果をもたらすかもしれない(この場合には、三菱ギャラン自動車についての結果はほとんどない)。この場合、正しい修正はクエリー範囲を「三菱ギャラン」へ広げることである。従って、クエリー絞り込み法は幾つかの状況では作用するが、他のクエリー修正技法を用いることにより、ユーザの情報必要性が最も満たされる状況が、非常に多く存在する。
別のクエリー修正戦略は、類義語リストつまりシソーラスを用いてクエリーを拡張し、ユーザの潜在的情報必要性を取得することである。しかし、クエリー絞り込み法と同様に、クエリー拡張法が、常にクエリー修正の適切な方法であるとは限らず、結果の品質はクエリー用語の文脈に大きく依存する。
一つのクエリー修正技法だけでは、あらゆる事例で所望する結果を提供できないので、幾つかの異なるクエリー修正方法(つまり戦略)を提供する方法論を持つことが望ましい。
情報検索システムは、自己のクエリー修正戦略をそれぞれが実施する幾つかの異なるクエリー修正手段を提供する、クエリー修正アーキテクチャを含む。それぞれのクエリー修正手段は、ユーザクエリーを評価して、ユーザクエリーの一つ以上の潜在的修正クエリーを決定する。修正サーバは、クエリー修正手段と相互交流して潜在的修正クエリーを得る。修正サーバは、情報検索システム内の検索エンジンとも相互交流して、潜在的修正クエリー毎に一組の検索結果を得る。修正サーバは、ユーザへ提示するために修正クエリーの内の一つ以上を選定し、選定した修正クエリー毎に検索結果のサブセットを添える。従って、ユーザは修正クエリーに対する検索結果の品質を観察でき、修正クエリーの内の一つを選択して、その修正クエリーに対する検索結果の全セットを得ることができる。
次に、各種の図、ダイヤグラム、および技術情報と関連させて本発明を説明する。図は、本発明の多様な実施の形態を、説明だけを目的として示す。当該分野の技術者には言うまでもなく、以下の説明から、図示し、かつ説明する構造、方法、および機能の代替の実施の形態は、本発明の原理から逸脱することなく利用できる。
システム概観
図1aは、本発明の一実施の形態によるシステム100を示す。システム100は、フロントエンドサーバ102、検索エンジン104ならびに関係するコンテンツサーバ106、修正サーバ107、および幾つかのクエリー修正手段(reviser: リバイザ)108を備える。動作中は、ユーザが、ネットワーク(不図示のインターネット等)上の任意の種類のクライアントコンピュータ装置上で動作する、例えば、インターネット関連プロトコル(例えばTCP/IPおよびHTTP)で通信するよう適合しているブラウザーアプリケーションまたは他のアプリケーションを実行する従来型クライアント118を経由して、システム100にアクセスする。単一のクライアント118を示しているが、システム100は、多くのクライアントに対して大量の同時セッションをサポートできる。一実施の形態では、システム100は、高性能サーバークラスコンピュータ上で動作し、クライアント装置118は任意の種類のコンピュータ装置でよい。サーバおよびクライアントコンピュータのハードウエア面についての詳細は、当該分野の技術者には周知であり、本明細書ではこれ以上言及しない。
フロントエンドサーバ102は、クライアント118が提出した検索クエリーの受信に関与する。フロントエンドサーバ102はそのクエリーを検索エンジン104へ提供し、検索エンジンはクエリーを評価して、一セットの検索結果を検索クエリーにより検索し、その結果をフロントエンドサーバ102へ返す。検索エンジン104は、コンテンツサーバ106の内の一台以上と通信して、ユーザの検索クエリーと関連する複数の文書を選定する。コンテンツサーバ106は、異なるウェブサイトからインデックスされる(および/または検索される)大量の文書を格納する。代替としてまたは追加して、コンテンツサーバ106は、各種のウェブサイト上に格納される文書のインデックスを格納する。「文書」は、本明細書では、任意のテキスト形式または画像形式のテキスト文書、画像、ビデオ、オーディオ、マルチメディア、プレゼンテーション、ウェブページ(組込み型ハイパーリンクおよび他のメタデータ、および/またはプログラム、例えばJavaスクリプト、を含めることができる)等を含む、任意の形式のインデックス可能なコンテンツであると理解される。一実施の形態では、インデックスされる各文書は、文書のリンク構造によるページランクを割り当てられる。ページランクは、クエリーとは無関係の、文書の重要性尺度として機能する。ページランクの例示の形式は、引用して本明細書に組み込まれた、米国特許第6,285,999号に記載されている。検索エンジン104は、文書のページランク(および/または他のクエリーと無関係な、文書の重要性尺度)に基づく各文書の得点、および文書の重要性のクエリーと関係する一つ以上の信号(例えば、文書内の検索用語の場所および頻度)を割り当てる。
フロントエンドサーバ102は、修正サーバ107にもクエリーを提供する。修正サーバ107は、複数の異なるクエリー修正手段108とインターフェース(相互交流)し、該クエリー修正手段108の各々は、異なるクエリー修正戦略(修正計画又は修正手法)または一組のクエリー修正戦略(修正計画又は修正手法)を実行する。一実施の形態では、該クエリー修正手段108として、拡張型修正手段108.1、構文(syntax)型修正手段108.2、絞り込み型修正手段108.3、およびセッション基準型修正手段108.4などが含まれる。修正サーバ107は、クエリーを各修正手段108へ提供し、各修正手段108からの応答内で、一つ以上の潜在的修正クエリー(ここで「潜在的」と呼ぶのは、この時点では修正サーバ107がまだその修正クエリーを採用していないから)を得る。システムアーキテクチャは、任意の数の異なるクエリー修正手段108を用いることができ、低性能のクエリー修正手段108については削除し、新規クエリー修正手段108(ジェネリック修正手段108.nで示す)に対しては将来要望されるとして追加することができるよう、特別に設計されている。これはシステム100に特別なフレキシビリティを与え、特定の主題の分野(例えば、医薬品、法律等の分野で用いるための修正手段)、企業(内部情報検索システムのための、特定ビジネス分野または企業領域に特有の修正手段)、または異なる言語(例えば、特定言語および方言のための修正手段)に対して、カスタム化し適合することもできる。
好ましくは、その修正が良好な修正である確率、すなわち、元のクエリーよりユーザの情報必要性に一層深く関連する結果を生成する確率、を表す信頼性尺度と、それぞれの修正クエリーが関係していることである。従って、それぞれの潜在的修正クエリーは、タプル(組)(Ri、Ci)で表すことができ、ここでRは潜在的修正クエリー、Cは修正クエリーと関係する信頼性尺度である。一実施の形態では、これらの信頼性尺度は、各修正手段108の各修正戦略について予め手動で評価する。尺度は、試験中のサンプルクエリーおよび修正クエリーの結果解析から導出できる。例えば、絞り込み型修正手段108.3には、元の短いクエリー(例えば、3つ以下の用語)からの修正クエリーへ高い信頼性尺度を、元の長いクエリー(4つ以上の用語)からの修正クエリーへ低い信頼性尺度を割り当てることができる。これらの割り当ては、短いクエリーへの用語追加が、基底となる情報の必要性に対するクエリーの関連性を著しく改良する傾向がある(すなわち、短いクエリーは範囲が広くなりやすいので、そのようなクエリーの絞り込みは、より狭く、より関連のある結果セットに絞りやすい)ことを示す経験的評価に基づく。逆に、拡張型修正手段108.1は、長いクエリーから一つ以上の用語を削除するか、または長いクエリーへ類義語を追加した修正クエリーに、高い信頼性尺度を割り当てることができる。他の実施の形態では、一つ以上の修正手段108が、潜在的修正クエリーの内の一つ以上に対して、信頼性尺度を動的に(例えば、実行時間に)生成できる。このような実施の形態は、図1bと併せて詳細に後述する。信頼性尺度の割り当ては、他の構成体(例えば、修正サーバ107)により実行でき、クエリー関係データおよびクエリー無関係データをともに考慮することができる。
修正サーバ107は、前記潜在的修正クエリーの内の一つ以上(または全て)からなる該潜在的修正クエリーのサブセットを選択し、これらを検索エンジン104へ提供できる。検索エンジン104は、通常のクエリーと同一の方法で修正クエリーを処理し、提示される修正クエリーそれぞれの結果を修正サーバ107へ提供する。修正サーバ107は、修正クエリーの結果と元のクエリーの結果との比較を含む、各修正クエリーの結果を評価する。次いで、修正サーバ107は、以下に説明するように、最良の修正クエリー(または少なくとも、元のクエリーによく適合している修正クエリー)であるとして、修正クエリーの内の一つ以上を選定できる。
修正サーバ107は、潜在的修正クエリーRを全て受信し、それらが関係する信頼性尺度Cにより、最高信頼度から最低信頼度に至るまで順にそれらを分類する。修正サーバ107は、潜在的修正クエリーの分類リストを通して繰り返し、潜在的修正クエリーそれぞれを検索エンジン104へ渡して、一セットの検索結果を得る。(代替として、修正サーバ107は、潜在的修正クエリーのサブセット、例えば、閾値を越える信頼性尺度を持つものを最初に選択してもよい)。場合によっては、上位検索結果は、修正戦略を実行しながらまたは信頼性尺度を評価中に、既に取得してあり(例えば、修正手段108または修正サーバ107が)、その場合、修正サーバ107は、そのようにして得られた検索結果を用いることができる。
それぞれの潜在的修正クエリーに対して、修正サーバ107は、潜在的修正クエリーを選択するか、またはそれを破棄するかを決定する。選択は、元のクエリーの検索結果と独立させた、および関係させた両方の、修正クエリーの上位N個の検索結果の評価に応じて行うことができる。一般に、修正クエリーは、元のクエリーよりユーザの情報必要性を正確に反映していると考えられる検索結果を生成すべきである。必要に応じて、それより多いかまたは少ない結果を処理できるが、普通は上位10個の結果を評価する。
一実施の形態では、以下の条件が維持される場合、潜在的修正クエリーを選択する。
i)修正クエリーが少なくとも最小数の検索結果を生成する。例えば、このパラメータを1に設定すると、検索結果がない全ての(かつ唯一の)修正を破棄する。許容できる最小数の結果の範囲は、概ね1から100までである。
ii)修正クエリーは、修正の上位結果内に最小数の「新規」検索結果を生成する。元のクエリーまたは以前に選択した修正クエリーの上位結果内にも生成されない場合、検索結果は「新規」である。例えば、このパラメータを2に設定すると、以前に選択したどれかの修正クエリーの上位結果内に生成されず、または元のクエリーの上位結果内にも生成されない少なくとも二つの上位結果を有するよう、それぞれの選択した修正に要求することになる。この制約により、選択した修正内に多様な結果が存在することが確実になり、修正の内の少なくとも一つが有用であることを証明する機会が最多となる。例えば、図3に見られるように、修正クエリーそれぞれに対する上位3つの結果304は、他の結果セットと異なっている。これにより、ユーザは、修正クエリーとの関連性が高い検索結果を幅広く見渡すことができる。
iii)最大数の修正クエリーはまだ選択されていない。換言すると、最大数の修正クエリーが既に選択されている場合、残りの全ての修正クエリーは破棄される。一実施の形態では、修正クエリーの最大数は4に設定される。別の実施の形態では、修正クエリーの最大数は2〜10の間に設定される。
上記選択パラメータの結果は、修正クエリーのページ300上に含まれる選択した修正クエリーのセットである。修正サーバ107は、先に説明したように、このページへのリンクを構築し、このリンクをフロントエンドサーバ102へ提供する。修正サーバ107は、修正クエリーのページ300上の、修正クエリーの順序およびレイアウトを決定する。修正クエリーは信頼性尺度の順に(最高から最低まで)リストアップされることが好ましい。
フロントエンドサーバ102は、検索結果ページ内に提供されたリンクを含み、次いで、クライアント118へ送信される。ユーザは次いで、元のクエリーに対する検索結果を概観でき、または修正クエリーへのリンクを選択して、それにより、選択された修正クエリーおよび関係する結果を見る。
修正クエリーの提示
図2は、クライアント118へ提供されるサンプル結果のページ200である。この単純な実施では、検索結果200のページに、元のクエリー202の[シーツ]が、このクエリーへの結果204と併せて含まれる。一セットの修正クエリーへのリンク206が、ページ200の下部に含まれる。次いでユーザは、リンク206上をクリックし、修正クエリーのページにアクセスできる。例示のページ300を図3に示す。ここでは、修正クエリー[リネン]、[寝具類]、および[ベッドシーツ]それぞれに対する修正クエリーリンク302.1、302.2、および302.3が示すように、上位3つの修正クエリーが提示される。各修正クエリーリンク302の下が、そのクエリーに対する上位3つの検索結果304である。
元の結果ページ200とは別のページ300上に修正クエリーを提供するのには、様々な利点がある。第1に、画面領域は制約のあるリソースなので、修正クエリー自体によるそのリスト化は、可能ではあるが、ユーザが彼らの検索結果の文脈で修正クエリーを見ないので望ましくない。別のページ300に修正クエリーを置くことにより、ユーザは、最良の修正クエリーおよびそれと関係する上位結果を見ることができ、ユーザは、どの修正クエリーが彼らの情報必要性を最も満たしているように見えるかを選択してから、修正クエリー自体を選択できる。元のクエリーおよび修正クエリーの結果を両方とも、単一ページ(長くはなるが)に含めることは可能ではあるが、この手法は、ユーザにページをスクロールダウンして、全ての修正クエリーを評価するよう要求するか、またはそのページの最初に見える部分に詰め込むかのどちらかとなる。代替として、図2および図3に示す好適な実施の形態では、ユーザは、クエリー修正と関係する結果を見て、それぞれの修正クエリーリンク302をクリックし、選択した修正クエリーに対する検索結果の全セットにアクセスすることができる。また多くの場合、この手法は、自動的に修正クエリーを用いて検索結果を取得し、それをユーザに自動的に提示することが好ましい(例えば、ユーザ選択または相互作用がなくても)。さらにこの手法は、最良の潜在的修正を示すことにより、有効なクエリーを生み出す方法をユーザに間接的に教示する、という利点を付け加える。別の実施の形態では、修正サーバ107は、クエリー修正を元の結果ページ200上に、例えば別のウィンドウとするか、元の結果ページ200内に表示させることができる。
クエリー修正についての追加情報(例えば検索結果304)を表示して、ユーザに修正をよく理解させるのに役立てる方法は、メインの結果ページ200上で用いることもできる。これは、スペルを補正する修正の状況のような、単一の非常に高品質の修正クエリー(または少数の非常に高品質の修正)がある場合に特に有用である。スペル補正の修正クエリーは、タイトル、URL、および上位結果の抜粋等の、追加情報と併せて結果ページ200上に表示し、スペル補正の示唆が正しいものかどうかをユーザが決定するのに役立てることができる。
別の実施の形態では、修正サーバ107は、信頼性尺度を用いて、クエリー修正をとにかく表示するかどうかを決定し、もし表示するなら、修正または修正へのリンクを目立つように配置する方法を決定する。この実施の形態は、後述する。
クエリー修正手段
再び図1を参照して、様々なクエリー修正手段108について説明する。拡張型修正手段108.1は、元のクエリー範囲を効果的に広げた一つ以上の修正クエリーを生成する。これらの修正は、元のクエリーが狭すぎる場合に特に有用である。拡張型修正手段108.1が使用できる幾つかの異なる戦略がある。
第1に、この修正手段108.1は、離接として類義語および関連用語を追加することにより、クエリーを拡張できる。ユーザは一般的概念を説明する特定ワードを何気なく選択するので、クエリーが具体的すぎることが多い。対象の文書がそのワードを含まない場合、ユーザの情報必要性は満たされないままとなる。離接として類義語を追加するクエリー修正は、クエリーを拡張し、結果セットに所望の文書をもたらすことができる。同様に、離接として、類義語そのものではなく関連語を追加することが有用なことがある。関連語、類義語、シソーラスまたは辞書等のような、クエリーを拡張する任意の適切な方法を、ここで用いることができる。クエリー拡張の一方法は、引用して本明細書に組み込まれた、2005年3月30日出願の米国特許出願第11/xxx,xxx号、発明の名称「クエリー文脈内のクエリー用語の類語決定」、に開示されている。
第2に、修正手段108.1は、一つ以上のクエリー用語を削除することにより、クエリーを広げることができる。先に示した例示のように、時には、クエリー用語を削除すると(例示のクエリー「三菱ギャラン情報」内の「情報」のように)、良好なクエリー修正を生み出すことができる。この手法では、拡張型修正手段108.1は、そのクエリー用語が存在しても、それが欠如しているのと比較すると検索結果をさほど絞り込みしないという点から、クエリーのどの用語が重要でないかを決定する。検索のためには重要でない用語を識別するための技法は、引用して本明細書に組み込まれた、2005年3月28日出願の米国特許出願第11/xxx,xxx号、発明の名称「重要性が希薄なクエリー用語の決定」、に記載されている。このような技法の結果を用いて、重要でない用語を削除することによりクエリーを修正できる。
構文型修正手段108.2は、元のクエリーに様々な種類の構文変更を加えることによりクエリーを修正できる。これらは以下の修正戦略を含む:
・元のクエリーに引用符があれば除去する。引用符内のクエリーは検索エンジン104が単一の文字として取り扱い、その全てのクエリー文字列をもつ文書だけが返される。この修正は、クエリー用語のどれかと文書との全関連性に基づく文書を、検索エンジン104に返させるので検索結果数が増加する。
・クエリー全体の前後に引用符を追加する。場合によっては、クエリーを全体フレーズとして取り扱う方が適切である。
・現実のフレーズであるかのように、クエリーのnグラム(クエリー内の連続用語の或る数)の前後に引用符を追加する。クエリー内のnグラムは、様々なソースを用いて識別できる。
A)常用フレーズの手作り辞書
B)頻出データから作製したフレーズリスト。ここで、フレーズは、統計的に有意差のある頻度を伴って発生する連続用語に基づいて識別される。例えば、良好なバイグラム[t1 t2]は、[t1]および[t2]の両者がともに、ランダムより高い尤度(可能性)で文書内に現れる場合、バイグラム[t1 t2]として現れるという特性を有する。フレーズのリストを構築するための一方法は、引用して本明細書に組み込まれた、2004年7月26日出願の米国特許出願第10/900,021号、発明の名称「情報検索システムにおけるフレーズ識別」、に開示されている。
C)普通の姓および名前のリスト(例えば、人口統計データまたは何らかの他のソースから得たもの)。構文型修正手段108.2は、連続するクエリー用語の対[t1 t2]に対して、[t1]が普通の名前のリストに含まれるかどうか、[t2]が普通の姓のリストに含まれるかどうか決定する。含まれていれば、クエリー[t1 t2]の下位部分を引用符内に置いて、潜在的修正クエリーを形成する。
共通する問題は、クエリー内のストップワード(無視されるワード)使用である。ランク(序列)付けアルゴリズムは、「the」、「a」、「an」、「to」等のような頻出用語を無視するのが普通である。場合によっては、これらがクエリー内の、実際に重要な用語である(「to be or not to be」のようなクエリーを考えてみるとよい)。従って、構文型修正手段108.2は、「+」演算子(または同様な演算子)を用いて、その演算子がクエリーに存在しているときは常に、このような用語を含めさせる幾つかの修正クエリーも創出する。例えば、クエリー[the link]に対して[+the link]を提案する。
・句読点や他のシンボルを削除する。ユーザは、時折、クエリーの意味を変化させる句読点や他の構文(シンボルのような)を付け加える。これを行うほとんどのユーザは、無意識にそれを行うので、構文型修正手段108.2もまた、句読点や他の同様な構文があるときは常に、それを削除することにより修正クエリーを生成する。例えば、クエリー[rear window+ movie]に対して、構文型修正手段はクエリー[rear window movie]を生成して、結果を何も生みそうにない文字列「widow+」に対して検索エンジン104が検索するのを防ぐ。
絞り込み型修正手段108.3は、クエリーを絞り込みする、つまり狭くする、何らかの適切な方法を用いて、ユーザの潜在的情報必要性をより特定して記述することができる。一実施の形態では、絞り込み型修正手段108.3は、検索クエリーの用語ベクトル表現を、以前から既に、それぞれの検索結果と関係付けられ、重み付けされている既知の検索クエリーの用語ベクトルと比較することにより、クエリー修正を生成する。最も近いベクトルを持つ既知の検索クエリー(または
より詳細には、一実施の形態では、絞り込み型修正手段108.3は、以下のように動作する。絞り込み型修正手段108.3は、ユーザの元のクエリーを用いて、選定した幾つかの検索結果を検索エンジン104から取得する(例えば、上位100個の結果)。絞り込み型修正手段108.3は、以前から存在するデータベースにアクセスし、これらの文書それぞれを、以前に用いて、結果としてその文書を含むことになった一つ以上の検索クエリーと一致させる。以前から存在するデータベースは、検索クエリーと関係する文書を格納し、クエリーと文書との関係付けは、その文書に対するクエリーの関連姓得点により重み付けされる。
第2に、絞り込み型修正手段108.3は、クラスター化アルゴリズムを用いて、一致した格納クエリーの用語から形成される用語ベクトルおよび一致の重み付けに基づいて検索結果文書のクラスターを形成する。用語ベクトルは、単位長さの正規化した多次元ベクトルであり、それぞれの次元は、個々のワードまたはワードの組み合わせとすることができる用語に対応する。クラスターは、一致する格納文書と対応する元の検索文書の関連性得点、およびクラスター毎に発生する格納文書の数に基づいてランク付けされる。最高ランクのクラスターは、潜在的細分クラスターとして選択される。クラスターは、「情報検索」(W. Frakes & R. Baeza-Yates eds. 92)内のE. Rasmussen著「クラスター化アルゴリズム」に記載されているような、階層型凝集(agglomerative)クラスター化アルゴリズム等の、各種クラスター化アルゴリズムを用いて形成することができる。この開示を引用して本明細書に組み込む。
第3に、絞り込み型修正手段108.3は、潜在的絞り込みクラスター毎にクラスター重心を計算する。絞り込み型修正手段108.3は次いで、クラスター毎に潜在的修正クエリーを決定する。所与の絞り込みクラスター内で、そのクラスター内の文書と関係する以前格納した検索クエリー毎に、クラスター重心までのその用語ベクトルの距離および検索クエリーが関係する格納文書の数に基づいて、絞り込み型修正手段108.3は格納した検索クエリーを採点する。各潜在的絞り込みクラスター内で、最高得点の以前格
最後に、絞り込み型修正手段108.3は、選択した修正絞り込みクエリーを修正サーバ107へ提供する。適切な一絞り込み型修正手段の詳細については、引用して本明細書に組み込まれた、2003年9月22日出願の米国特許出願第10/668,721号、発明の名称「検索クエリー絞り込みを提供するためのシステムおよび方法」、に記載されている。
セッション基準型修正手段108.4は、セッション基準ユーザーデータを用いる任意の適切な方法を用いて、他のユーザが過去に行った変更の解析に基づいて、ユーザの潜在的情報必要性をより正確に取得することができる。一実施の形態では、セッション基準型修正手段108.4は、多くの個々のユーザーセッションから収集したクリックデータに基づいて一つ以上の修正クエリーを提供する。最初に、セッション基準型修正手段108.4が生成した2つのテーブルを用いて、クエリー対の発生頻度を計算する。クエリー対は、単一のユーザーセッションで発生する2つのクエリーのシーケンス、例えば、第1クエリー[シーツ]、続く第2クエリー[リネン]または第2クエリー[絹シーツ]である。繰り返し発生する個々のクエリーの第1のテーブルは、例えば、図1bのログファイル110に格納されるユーザーセッションのクエリーデータから生成される。一実施の形態では、繰り返し発生するクエリーは、最小頻度、例えば一日一回、発生する。繰り返し発生するクエリー対の第2のテーブルは、同様にログファイル110から生成され、各クエリー対は第1クエリーとそれに続く第2クエリーとを含む。二つのテーブルから、各クエリー対の発生頻度は、第1のテーブルの第1クエリーに対する発生カウントの比として計算される。例えば、第1クエリー[シーツ]が100回発生し、続いて第2クエリー[リネン]が100回の内の30回発生する場合、クエリー対[シーツ、リネン]の発生頻度は、第1クエリーに対する発生カウントの比として、30/100または30%である。任意の所与の第1クエリーに対して、クエリー対は、発生頻度が特定閾値を越える場合、第1クエリーの修正候補としての第2クエリーにより維持される。一実施の形態では、この閾値は1%である。
候補の修正クエリーについて、クエリー対の第2クエリーの品質がクエリー対の第1クエリーの品質を越える増加量を、セッション基準型修正手段108.4が、ユーザークリックデータから生成した2つの追加のテーブルを用いて計算する。対となるクエリーそれぞれに対して品質得点のテーブルを生成する。対の第1クエリーを越える対の第2クエリーの品質の改善がもしあるなら、そのテーブルから、それを計算する。
一実施の形態では、品質得点は、クリック行動データからユーザ満足度を評価することにより決定する。品質得点を決定するためのそのような一方法は、引用して本明細書に組み込まれた、2004年6月28日出願の米国特許出願第10/878,926号、発明の名称「相互交流プロファイルを導出し、使用するためのシステムおよび方法」に記載されているような、相互交流プロファイルの使用である。
一実施の形態では、品質得点計算は、例えば、ログファイル110内に格納されている、ユーザクリックデータに基づく。品質得点は、検索結果上の最初のクリックの推定の継続時間に基づく。一実施の形態では、特定クリックの継続時間は、例えば図1bのログファイル110内の、他のユーザーセッションクエリーデータとともに格納できる、最初のクリックおよび後続のクリックが発生した時間から推定する。採点は、クリックがない検索結果には得点ゼロを割り当て、最初のクリックと後続のクリックとの間の持続時間へ適用されるS曲線に沿って進み、より長いクリックは品質得点1に近づく。一実施の形態では、20秒は0.1に、40秒は0.5に、そして60秒は0.9に対応する。関連のないコンテンツ、例えばバナー広告上のクリックはデータから排除する。別の実施の形態では、最初のクリックだけでなく、クエリーに対する全ての結果のクリックを収集する。
次いでセッション基準型修正手段108.4は、発生頻度および上記の品質得点データを用いて、最初のクエリーを越える候補の修正クエリーとしての第2クエリーについての予測実用性を計算できる。一実施の形態では、予測実用性は、クエリー対の発生頻度と、その対の第1クエリーを越える第2クエリーの品質改善分との積である。この実施例では、品質改善分は、第2クエリーの品質得点が、第1クエリーの品質得点より高い場合に発生する。第2クエリーの予測実用性が閾値を越える場合、第2クエリーは潜在的修正クエリーとしてマークされる。一実施の形態では、閾値は0.02であり、これは例えば、10%頻度と品質得点の0.2増加に対応し、あるいは20%頻度と品質得点の0.1増加に対応する。予測実用性計算の他の変形を同様に用いることができる。
上記説明のように、各修正クエリーは、修正が有効な修正となる確率を表す信頼性尺度と関係付けることができる。セッション基準型修正手段108.4の場合には、その修正クエリーに対する信頼性尺度として、修正クエリーの予測実用性を用いることができる。
セッション基準型修正手段108.4を用いるクエリー修正の実施例を以下に挙げる。第1ユーザークエリーは[シーツ]である。格納されているデータは、[シーツ]に続く通常ユーザ入力の(第2の)クエリーは[リネン]であり、別の通常入力の第2のクエリー入力は[絹シーツ]であることを示す。ログファイル110に格納されるデータに基づくと、第1クエリー[シーツ]に対する発生率としては、クエリー対[シーツ、リネン]の頻度は30%であり、クエリー対[シーツ、絹シーツ]の頻度は1%である。例えば、クエリー[シーツ]が表中で100回発生した場合、[シーツ、リネン]は30回発生し、[シーツ、絹シーツ]は一回発生している。候補の修正として第2クエリーに対して1%閾値を仮定すると、これらのクエリーはともに維持される。
次にデータが示すところによれば、[シーツ]の品質得点は0.1であり、一方、第2クエリー[リネン]および[絹シーツ]の品質得点はそれぞれ0.7および0.8である。従って、[シーツ]を越える[リネン]の品質改善分は0.6(0.7−0.1)であり、[シーツ]を越える[絹シーツ]の品質改善分は0.7(0.8−0.1)である。
次いで、セッション基準型修正手段108.4は、各修正の予測実用性を頻度得点と品質改善分との積として計算する。[シーツ、リネン]に対しては、頻度(30%)と品質増加(0.6)との積は、予測実用性0.18となる。[シーツ、絹シーツ]に対しては、頻度(1%)と品質増加(0.7)との積は、予測実用性0.007となる。このように、第1クエリー[シーツ]を入力するユーザにとって、第2クエリー[リネン]は、クエリー[絹シーツ]より高い予測実用性を有し、従って、[リネン]はより有効なクエリー修正の示唆である。上記説明のように、これらの予測実用性は修正クエリーの信頼性尺度として用いることができる。
実行時に修正信頼性尺度を生成
次に図1bを参照して、本発明による情報検索システムの別の実施の形態を示す。図1aの先に説明した要素の他に、ログファイル110、セッション追跡器114、および修正手段信頼性評価器112がある。上記説明のように、クエリー修正手段108は、修正サーバ107へ提供する修正クエリーの内の一つ以上と併せて信頼性尺度を提供する。修正サーバ107は、信頼性尺度を用いて、修正クエリーページ300上に含めるためにどの潜在的修正クエリーを選択するかを決定する。一実施の形態では、所与の元のクエリーに対して修正クエリーを選択する際のユーザ活動履歴に少なくとも一部基づいて、信頼性尺度を実行時に導出できる。
図1bの実施の形態では、フロントエンドサーバ102は、元のクエリーおよび修正クエリー情報を伴うユーザのクリックスルー行動を、セッション追跡器114に提供する。セッション追跡器114は、ユーザがアクセスしたクエリー修正リンク302と関係付けられている各ユーザークエリーを格納し、修正クエリーの品質をモデル化するための元のクエリーおよび修正クエリーの様々な特徴に加えて、各修正クエリーと関係する結果を格納するログファイル110を維持する。格納される情報は、例えば、以下を含む。
元のクエリーに対しては、
・元のクエリー自体
・元のクエリー内の各ワード
・元のクエリーの長さ
・元のクエリーのトピッククラスタ
・元のクエリーの情報検索得点
・元のクエリーの結果の数。
修正クエリーに対しては、
・修正クエリー自体
・修正クエリー内の各ワード
・それを生成した修正技法の識別
・修正クエリーの長さ
・修正クエリーと関係するトピッククラスタ
・上位検索結果の情報検索得点(例えば、ページランク)
・修正クエリーの見付けた結果の数
・修正クエリーリンク302上のクリックの長さ
・修正クエリー結果304上をクリックする長さ。
クエリーのトピッククラスタは、任意の適切なトピック識別法を用いて識別される。適切な一方法は、引用して本明細書に組み込まれた、2003年9月30日出願の米国特許出願第10/676,571号、発明の名称「関連ワードのクラスタに基づいて文書を特徴付けるための方法および装置」、に記載されている。
修正手段信頼性評価器112は、予測モデル、例えば論理的重回帰モデル、を用いてログファイル110を解析し、所与のクエリーに対して有効な修正となる修正クエリーの尤度を評価するために用いることができるクエリーおよび修正クエリーの特徴に基づく1セットの規則を生成する。適切な一回帰モデルは、引用して本明細書に組み込まれた、2003年12月15日出願の米国特許出願第10/734,584号、発明の名称「大規模マシン学習システムおよび方法」に記載されている。修正手段信頼性評価器112は、修正クエリーリンク302上のユーザによる長時間クリックが、ユーザの元の情報必要性の正確な提示となるような修正により、満足していることを示すという仮定の上で動作する。長時間クリックは、ある最小時間経過、例えば最低60秒、の間、クリックスルーページにユーザが留まる場合に、発生すると見なすことができる。修正クエリーリンク302上のクリックの長さから、修正手段信頼性評価器112は、予測モデルを教育して、修正クエリーおよび元のクエリーの各種の特徴を与える長いクリックの尤度を予測できる。長いクリックの高い予測尤度を有する修正クエリーは、それが関係する元のクエリーに対してより良好な(すなわちより成功率が高い)修正であると考えることができる。
予測モデルの一実施の形態では、信頼性評価器112は、修正クエリーと関係する特徴を選定し、ログファイルからクリックデータを収集し、その特徴およびクリックデータを用いて規則を定式化し、そして予測モデルへその規則を加える。さらに信頼性評価器112は、クリックデータを用いて追加規則を公式化でき、モデルへ追加規則を選択的に追加する。
実行時に、修正サーバ107は、元のクエリー、および各種のクエリー修正手段108から受信するそれぞれの修正クエリーを修正手段信頼性評価器112に提供する。修正手段信頼性評価器112は、元のクエリーおよび修正クエリーを予測モデルに適用して、前述の信頼性尺度として役立つ予測尺度を得る。代替として、各クエリー修正手段108は、修正手段信頼性評価器112を直接呼び出し、予測尺度を得てこれらの値を修正サーバ107へ戻す。図示した実施の形態は、修正手段信頼性評価器112を別のモジュールとして示すが、代替として修正サーバ107が、信頼性評価器の機能を提供してもよい。いずれの場合でも、修正サーバ107は、上記説明のように信頼性尺度を用いて、どの修正クエリーがユーザに示されるかを選択し順序を定める。
一実施の形態では、修正サーバ107は、信頼性尺度を用いて、クエリー修正を全て表示するかどうか、表示するならその修正またはそれへのリンクを、どれくらい目立つように配置するかを決定する。そのために、修正サーバ107は、先に説明した最初の信頼性尺度か、上記の動的に生成した信頼性尺度のどちらかを用いることができる。例えば、最良の信頼性尺度が閾値未満になる場合、これは、どの潜在的候補修正も非常に良好とは言えず、その場合は、元の結果ページ200に修正が行われないことを示唆する。他方、一つ以上の修正クエリーが、別の閾値を越える非常に高い信頼性尺度を有する場合、修正サーバ107は、クエリー修正、または修正クエリーページ300へのリンクを、元の結果ページ200上に非常に目立つように、例えば、ページの上部近くに、かつ目立つフォントで、またはどこか他の目立つ場所に、表示させることができる。信頼性尺度が、二つの閾値の間にある場合、修正クエリーページ300へのリンクは少し目立たない場所、例えば、検索結果ページ200の最後に、例えばリンク206について示すように、配置することができる。
上記説明の処理ステップは、並列で(例えば、クエリー修正の結果を得るステップと、クエリー修正の信頼性尺度を計算するステップとを並列に)、および/または交互に(例えば、全てのクエリー修正を受信してからクエリー修正リストを分類するステップではなく、クエリー修正手段から多数のクエリー修正を受信するステップと、オンザフライでクエリー修正の格納リストを構築するステップとを交互に)実行できる。さらに、上記実施の形態はクライアント/サーバ検索システムに関連して説明しているが、本発明は、スタンドアロン型マシン(例えば、スタンドアロン型PC)の一部として実施することもできる。これは例えば、Google Desktop Searchのようなデスクトップ検索アプリケーションの状況では有用である。
一つの可能性のある実施の形態に対して、特に詳細に本発明を説明してきた。当該分野の技術者には言うまでもなく、本発明は他の実施の形態で実践できる。第1に、構成体の特定の名称、用語の大文字化、属性、データ構造、または何らかの他のプログラミングもしくは構造的局面は、必須でも重要でもなく、本発明またはその特徴を実施するメカニズムは、異なる名称、フォーマット、またはプロトコルを持っていてもよい。さらに、本システムは、上記したように、ハードウエアとソフトウエアとの組み合わせにより実施してもよく、または全体的にハードウエア要素で実施してもよい。また、本明細書で説明した各種システム構成体間の特定の機能分割は、単なる例示であって必須ではなく;単一システム構成体により実行される機能は、代替として多数の構成体により実行することができ、多数の構成体により実行される機能は、代替として単一構成体により実行してもよい。
上記説明の幾つかの部分は、情報に関する操作のアルゴリズムおよびシンボル表現の点から本発明の特徴を表している。これらのアルゴリズム説明および表現は、データ処理分野の技術者が、彼らの業務内容を他の当該分野の技術者に伝えるために用いる最も効果的な手段である。これらの操作は、機能的または論理的に説明したが、言うまでもなくコンピュータプログラムにより実施される。さらに、これらの操作の編成を、一般性を失わずにモジュールとしてまたは機能名称により参照するのは、時として便利であることも判明している。
上記説明から明らかなように他に特別に言及しない限り、言うまでもなく、説明全体を通じて説明した行動および処理は、コンピュータシステムメモリもしくはレジスタまたは他のそのような情報の格納、送信、もしくはディスプレイ装置内の物理量(電子量)として表されるデータを操作し、変換するコンピュータシステム、または類似の電子計算装置によるものである。このようなコンピュータシステムの基底をなすハードウエアの詳細な説明は、コンピュータ工学分野の技術者には周知の情報なので、本明細書では提供しない。
本発明の特定態様は、本明細書においてアルゴリズムの形式で説明した処理ステップおよび命令を含む。注意すべきは、本発明の処理ステップおよび命令は、ソフトウエア、ファームウエア、またはハードウエアで組み込むことができ、ソフトウエアに組み込む場合は、リアルタイムのネットワークオペレーティングシステムが用いる異なるプラットフォームに常駐させて、操作するようダウンロードできる、ということである。
本発明の特定態様について個々または単一の実施例について説明してきたが;言うまでもなく、本発明の動作はこの観点に制限されない。従って、単一の要素または構成体への全ての参照は、複数のこのような構成体をも参照していると解釈すべきである。同様に、「或る」、または「その」への参照は、他に特別に言及しない限り、複数への参照を含むと解釈すべきである。最後に、用語「複数」の意味は、説明中の本発明の部分に見合う二つ以上の実体やデータ項目等を指し、無限またはさもなくば過剰なほどの項目数を含む。
本発明は、本明細書の動作を実行するための装置にも関連する。本装置は、要求する目的のために特別に構成してもよく、またはコンピュータがアクセスできるコンピュータ可読媒体上に格納されるコンピュータプログラムにより、選択的に作動または再構成される汎用コンピュータを備えてもよい。このようなコンピュータプログラムは、限定はしないが、フロッピーディスク、光ディスク、CD−ROM、光磁気ディスクを含む任意の種類のディスク、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カードや光カード、または電子命令を格納するための、それぞれがコンピュータシステムバスに接続される任意の種類の媒体、のような、コンピュータ可読格納媒体内に格納できる。集積回路設計およびビデオコーデックの分野の技術者には言うまでもなく、本発明は、上記機能および構造説明に基づいて、特定用途向け集積回路(ASIC)を含む多様な種類の集積回路内で容易に製作できる。さらに、本発明は、多様な種類のビデオコーディング装置内に組み込むことができる。
本明細書で提示したアルゴリズムおよび操作は、何らかの特定コンピュータまたは他の装置とは本質的に関連しない。多様な汎用システムを本明細書の教示に基づくプログラムとともに用いることもでき、またはより専用化した装置を構築して、要求される方法ステップを実行すると好都合であることがわかる。これらの多様なシステムに要求される構成は、等価な改変と併せて、当該分野の技術者には明らかであろう。さらに、何らかの特定プログラミング言語を参照して本発明を説明していない。言うまでもなく、多様なプログラミング言語を用いて、本明細書で説明した本発明の教示を実施でき、どのような特定言語の参照であっても、本発明の可能性の開示および最良の態様が提供される。
最後に、注意すべきは、本明細書で用いられる言語は、原則として可読性および説明目的のために選択されていて、進歩性のある主題を範囲設定したり、または制限するために選択したものではない。従って、本発明の開示は、本発明の説明を意図したものであって、制限する意図はない。
クエリー修正を提供する情報検索システムの実施の形態の全体システム図である。 代替の情報検索システムの全体システム図である。 元のユーザクエリーへのサンプル結果ページの図である。 サンプルの修正クエリーページの図である。

Claims (30)

  1. サーバコンピュータシステムによって実行される方法であって、
    クライアント装置からユーザにより入力された最初のクエリーを受信するステップと、
    異なる複数のクエリー修正戦略を用いて、前記最初のクエリーの用語を変更した複数修正クエリー生成するステップと、
    前記最初のクエリーと前記修正クエリーとからなるクエリー対の発生頻度に基づいて、各修正クエリー毎の信頼性尺度を算出するステップと、
    前記信頼性尺度に従い前記各修正クエリーを分類し、この分類に基づき、前記修正クエリーの総数より少ない数の修正クエリーからなる修正クエリーのサブセットを自動的に選択するステップと、
    前記修正クエリーのサブセット中の各修正クエリーに対応付けられた検索結果を得るステップと、
    前記修正クエリーのサブセット中の各修正クエリーに対応付けられた前記検索結果のサブセットを自動的に選択するステップと、ここで、前記検索結果のサブセットは、前記各修正クエリー毎に、前記検索結果の総数より少ない数の検索結果からなり、
    前記クライアント装置に対して、前記最初のクエリーに対応付けられた検索結果及び前記修正クエリーのサブセットに属する1又は複数の修正クエリーと該各修正クエリーに対応付けられた1又は複数の前記検索結果を提示するウェブページを提供するステップと、
    を具える方法。
  2. 前記最初のクエリーを受信するステップは、前記クライアント装置から前記ユーザにより入力された前記最初のクエリーをフロントエンドサーバを介して受信する、請求項1の方法。
  3. 前記ウェブページを提供するステップは、最初のクエリーに対応付けられた検索結果、前記フロントエンドサーバを介して前記クライアント装置に提供する、請求項2の方法。
  4. 前記修正クエリーサブセットを自動的に選択するステップは、
    前記信頼性尺度により前記修正クエリーを分類して、前記修正クエリーの序列を作成するステップを含む、請求項1乃至3のいずれかの方法。
  5. 前記修正クエリーのサブセットを自動的に選択するステップは、3以上の修正クエリー選択するステップを含み、ここで、
    当該3以上の修正クエリーについての前記検索結果として、或る最小数以上の検索結果を含み、
    当該3以上の修正クエリーについての前記検索結果として、前記最初のクエリー又は以前に選択した修正クエリーの上位検索結果内に生じていない或る最小数以上の新規上位検索結果を含み、かつ、
    選択される前記3以上の修正クエリーの数が所定の最大数を越えないものとすることを特徴とする請求項1乃至4のいずれかの方法。
  6. 前記検索結果の最小数は1であり、前記新規の上位検索結果の最小数は2であり、前記選択される前記3以上の修正クエリーの数としての前記所定の最大数は4である、請求項の方法。
  7. 前記各修正クエリーに対応付けられた検索結果を得るステップは、
    検索エンジンへ前記修正クエリーのサブセットを提供するステップと、
    前記検索エンジンから、前記修正クエリーのサブセットの前記検索結果を受信するステップと、
    を具える、請求項1乃至6のいずれかの方法。
  8. 前記複数のクエリー修正戦略には、最初のクエリーの範囲を広げる拡張型修正法、最初のクエリーの範囲を狭くする絞り込み型修正法、最初のクエリーの構文を変更する修正法、から成るグループの内の少なくとも一つが含まれる、請求項1乃至7のいずれかの方法。
  9. 前記修正クエリーのサブセットを自動的に選択するステップは、前記生成された修正クエリーの少なくとも1つを除外することを含む、請求項1乃至8のいずれかの方法。
  10. ユーザセッションデータに基づき繰り返し発生する個々のクエリーを第1クエリーとして記憶する第1テーブルを生成するステップと、
    前記ユーザセッションデータに基づき繰り返し発生するクエリー対を記憶する第2テーブルを生成するステップと、ここで、前記クエリー対は前記第1クエリーとそれに続く第2クエリーの対を含み、
    前記第1テーブル内の前記最初のクエリーの発生回数を第1発生回数として求めるステップと、
    前記第2テーブル内の前記クエリー対の発生回数を第2発生回数として求めるステップと、
    前記第1発生回数によって前記第2発生回数を割ることに基づき、前記クエリー対の発生頻度を計算するステップ
    を更に備え、
    前記各修正クエリー毎の信頼性尺度を算出するステップは、前記最初のクエリーを前記第1クエリーとし前記修正クエリーを前記第2クエリーとする前記クエリー対についての前記計算された発生頻度を取得し、該取得した発生頻度に基づいて前記信頼性尺度を算出する、
    請求項1乃至9のいずれかの方法。
  11. 前記ウェブページを提供するステップは、前記最初のクエリーに対応付けられた検索結果を提示する第1のウェブページを提供するステップと、前記修正クエリーのサブセットに属する1又は複数の修正クエリーと該各修正クエリーに対応付けられた1又は複数の前記検索結果を提示する第2のウェブページを提供するステップとを含み、
    前記第1のウェブページは、前記最初のクエリーに対応付けられた検索結果と共に前記第2のウェブページへのリンクを提示し、
    前記第2のウェブページを提供するステップは、前記リンクをユーザが選択したことを示す情報の受信に応じて前記第2のウェブページを提供する、
    請求項1乃至10のいずれかの方法。
  12. 前記第2のウェブページにおいて、前記各修正クエリーに対応付けられた前記検索結果のサブセットが、対応する各修正クエリーの下に表示される、請求項11の方法。
  13. 前記修正クエリーのサブセットを自動的に選択するステップは、前記修正クエリーのサブセット内の各修正クエリーを序列化するステップと、この序列化に基づいて上位3つの修正クエリーを選択するステップとを含み、
    更に、前記上位3つの修正クエリーのそれぞれについて、
    各上位3つの修正クエリーのそれぞれに対応付けられた1又は複数の前記検索結果を序列化するステップと、
    この序列化に基づいて上位3つの検索結果を選択するステップと
    を備える、請求項1乃至3のいずれかの方法。
  14. 前記最初のクエリーは、以前に修正されたクエリーである、請求項1乃至13のいずれかの方法。
  15. サーバコンピュータシステムに、
    クライアント装置からユーザにより入力された最初のクエリーを受信する手順と、
    異なる複数のクエリー修正戦略を用いて、前記最初のクエリーの用語を変更した複数の修正クエリーを生成する手順と、
    前記最初のクエリーと前記修正クエリーとからなるクエリー対の発生頻度に基づいて、各修正クエリー毎の信頼性尺度を算出する手順と、
    前記信頼性尺度に従い前記各修正クエリーを分類し、この分類に基づき、前記修正クエリーの総数より少ない数の修正クエリーからなる修正クエリーのサブセットを自動的に選択する手順と、
    前記修正クエリーのサブセット中の各修正クエリーに対応付けられた検索結果を得る手順と、
    前記修正クエリーのサブセット中の各修正クエリーに対応付けられた前記検索結果のサブセットを自動的に選択する手順と、ここで、前記検索結果のサブセットは、前記各修正クエリー毎に、前記検索結果の総数より少ない数の検索結果からなり、
    前記クライアント装置に対して、前記最初のクエリーに対応付けられた検索結果及び前記修正クエリーのサブセットに属する1又は複数の修正クエリーと該各修正クエリーに対応付けられた1又は複数の前記検索結果を提示するウェブページを提供する手順と、
    を実行させるためのコンピュータプログラム。
  16. 前記修正クエリーのサブセットを自動的に選択する手順は、前記生成された修正クエリーの少なくとも1つを除外する手順を、前記サーバコンピュータシステムに実行させることを含む、請求項15のコンピュータプログラム。
  17. 前記複数の修正クエリーを生成する手順は、前記異なる複数のクエリー修正戦略のそれぞれを実行するように構成された修正装置に対して前記最初のクエリーを送信し、これに応じて該修正装置から生成された複数の修正クエリーを受信することからなる、請求項15又は16のコンピュータプログラム。
  18. 前記サーバコンピュータシステムに、
    ユーザセッションデータに基づき繰り返し発生する個々のクエリーを第1クエリーとして記憶する第1テーブルを生成する手順と、
    前記ユーザセッションデータに基づき繰り返し発生するクエリー対を記憶する第2テーブルを生成する手順と、ここで、前記クエリー対は前記第1クエリーとそれに続く第2クエリーの対を含み、
    前記第1テーブル内の前記最初のクエリーの発生回数を第1発生回数として求める手順と、
    前記第2テーブル内の前記クエリー対の発生回数を第2発生回数として求める手順と、
    前記第1発生回数によって前記第2発生回数を割ることに基づき、前記クエリー対の発生頻度を計算する手順
    を更に実行させ、
    前記各修正クエリー毎の信頼性尺度を算出する手順は、前記最初のクエリーを前記第1クエリーとし前記修正クエリーを前記第2クエリーとする前記クエリー対についての前記計算された発生頻度を取得し、該取得した発生頻度に基づいて前記信頼性尺度を算出する、
    請求項15乃至17のいずれかのコンピュータプログラム。
  19. 前記ウェブページを提供する手順は、前記最初のクエリーに対応付けられた検索結果を提示する第1のウェブページを提供する手順と、前記修正クエリーのサブセットに属する1又は複数の修正クエリーと該各修正クエリーに対応付けられた1又は複数の前記検索結果を提示する第2のウェブページを提供する手順とを含み、
    前記第1のウェブページは、前記最初のクエリーに対応付けられた検索結果と共に前記第2のウェブページへのリンクを提示し、
    前記第2のウェブページを提供する手順は、前記リンクをユーザが選択したことを示す情報の受信に応じて前記第2のウェブページを提供する、
    請求項15乃至18のいずれかのコンピュータプログラム。
  20. 前記第2のウェブページにおいて、前記各修正クエリーに対応付けられた前記検索結果のサブセットが、対応する各修正クエリーの下に表示される、請求項19のコンピュータプログラム。
  21. 前記修正クエリーのサブセットを自動的に選択する手順は、前記修正クエリーのサブセット内の各修正クエリーを序列化する手順と、この序列化に基づいて上位3つの修正クエリーを選択する手順とを、前記サーバコンピュータシステムに実行させることを含み、
    更に、前記上位3つの修正クエリーのそれぞれについて、
    各上位3つの修正クエリーのそれぞれに対応付けられた1又は複数の前記検索結果を序列化する手順と、
    この序列化に基づいて上位3つの検索結果を選択する手順と
    を前記サーバコンピュータシステムに実行させる、請求項15乃至20のいずれかのコンピュータプログラム。
  22. 前記最初のクエリーは、以前に修正されたクエリーである、請求項15乃至21のいずれかのコンピュータプログラム。
  23. クライアント装置からユーザにより入力された最初のクエリーを受信する手段と、
    異なる複数のクエリー修正戦略を用いて、前記最初のクエリーの用語を変更した複数の修正クエリーを生成する手段と、
    前記最初のクエリーと前記修正クエリーとからなるクエリー対の発生頻度に基づいて、各修正クエリー毎の信頼性尺度を算出する手段と、
    前記信頼性尺度に従い前記各修正クエリーを分類し、この分類に基づき、前記修正クエリーの総数より少ない数の修正クエリーからなる修正クエリーのサブセットを自動的に選択する手段と、
    前記修正クエリーのサブセット中の各修正クエリーに対応付けられた検索結果を得る手段と、
    前記修正クエリーのサブセット中の各修正クエリーに対応付けられた前記検索結果のサブセットを自動的に選択する手段と、ここで、前記検索結果のサブセットは、前記各修正クエリー毎に、前記検索結果の総数より少ない数の検索結果からなり、
    前記クライアント装置に対して、前記最初のクエリーに対応付けられた検索結果及び前記修正クエリーのサブセットに属する1又は複数の修正クエリーと該各修正クエリーに対応付けられた1又は複数の前記検索結果を提示するウェブページを提供する手段と、
    を具えるシステム。
  24. 前記システムは、特定の主題の分野に合わせてカスタム化が可能である、請求項23のシステム。
  25. 前記複数の修正クエリーを生成する手段は、前記異なる複数のクエリー修正戦略のそれぞれを実行するように構成された修正装置に対して前記最初のクエリーを送信し、これに応じて該修正装置から生成された複数の修正クエリーを受信する、請求項23又は24のシステム。
  26. ユーザセッションデータに基づき繰り返し発生する個々のクエリーを第1クエリーとして記憶する第1テーブルを生成する手段と、
    前記ユーザセッションデータに基づき繰り返し発生するクエリー対を記憶する第2テーブルを生成する手段と、ここで、前記クエリー対は前記第1クエリーとそれに続く第2クエリーの対を含み、
    前記第1テーブル内の前記最初のクエリーの発生回数を第1発生回数として求める手段と、
    前記第2テーブル内の前記クエリー対の発生回数を第2発生回数として求める手段と、
    前記第1発生回数によって前記第2発生回数を割ることに基づき、前記クエリー対の発生頻度を計算する手段
    を更に具備し、
    前記各修正クエリー毎の信頼性尺度を算出する手段は、前記最初のクエリーを前記第1クエリーとし前記修正クエリーを前記第2クエリーとする前記クエリー対についての前記計算された発生頻度を取得し、該取得した発生頻度に基づいて前記信頼性尺度を算出する、
    請求項23乃至25のいずれかのシステム。
  27. 前記ウェブページを提供する手段は、前記最初のクエリーに対応付けられた検索結果を提示する第1のウェブページを提供する手段と、前記修正クエリーのサブセットに属する1又は複数の修正クエリーと該各修正クエリーに対応付けられた1又は複数の前記検索結果を提示する第2のウェブページを提供する手段とを含み、
    前記第1のウェブページは、前記最初のクエリーに対応付けられた検索結果と共に前記第2のウェブページへのリンクを提示し、
    前記第2のウェブページを提供する手段は、前記リンクをユーザが選択したことを示す情報の受信に応じて前記第2のウェブページを提供する、
    請求項23乃至26のいずれかのシステム。
  28. 前記第2のウェブページにおいて、前記各修正クエリーに対応付けられた前記検索結果のサブセットが、対応する各修正クエリーの下に表示される、請求項27のシステム。
  29. 前記修正クエリーのサブセットを自動的に選択する手段は、前記修正クエリーのサブセット内の各修正クエリーを序列化する手段と、この序列化に基づいて上位3つの修正クエリーを選択する手段とを含み、
    更に、前記上位3つの修正クエリーのそれぞれについて、
    各上位3つの修正クエリーのそれぞれに対応付けられた1又は複数の前記検索結果を序列化する手段と、
    この序列化に基づいて上位3つの検索結果を選択する手段と
    を備える、請求項23乃至28のいずれかのシステム。
  30. 前記最初のクエリーは、以前に修正されたクエリーである、請求項23乃至29のいずれかのシステム。
JP2008504001A 2005-03-29 2005-03-30 多数のクエリー修正モデルの統合 Active JP4831795B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/094,814 US7565345B2 (en) 2005-03-29 2005-03-29 Integration of multiple query revision models
US11/094,814 2005-03-29
PCT/US2005/010681 WO2006104488A2 (en) 2005-03-29 2005-03-30 Integration of multiple query revision models

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011158495A Division JP5265739B2 (ja) 2005-03-29 2011-07-19 多数のクエリー修正モデルの統合

Publications (3)

Publication Number Publication Date
JP2008537624A JP2008537624A (ja) 2008-09-18
JP2008537624A5 JP2008537624A5 (ja) 2011-09-15
JP4831795B2 true JP4831795B2 (ja) 2011-12-07

Family

ID=37053818

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008504001A Active JP4831795B2 (ja) 2005-03-29 2005-03-30 多数のクエリー修正モデルの統合
JP2011158495A Active JP5265739B2 (ja) 2005-03-29 2011-07-19 多数のクエリー修正モデルの統合

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2011158495A Active JP5265739B2 (ja) 2005-03-29 2011-07-19 多数のクエリー修正モデルの統合

Country Status (8)

Country Link
US (1) US7565345B2 (ja)
EP (2) EP1869580A4 (ja)
JP (2) JP4831795B2 (ja)
KR (1) KR101043640B1 (ja)
CN (3) CN103136329B (ja)
AU (2) AU2005330021B2 (ja)
CA (1) CA2603673C (ja)
WO (1) WO2006104488A2 (ja)

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617205B2 (en) 2005-03-30 2009-11-10 Google Inc. Estimating confidence for query revision models
US8521725B1 (en) 2003-12-03 2013-08-27 Google Inc. Systems and methods for improved searching
US9223868B2 (en) 2004-06-28 2015-12-29 Google Inc. Deriving and using interaction profiles
US8150846B2 (en) * 2005-02-17 2012-04-03 Microsoft Corporation Content searching and configuration of search results
US7870147B2 (en) * 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US8429184B2 (en) * 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
US8903810B2 (en) * 2005-12-05 2014-12-02 Collarity, Inc. Techniques for ranking search results
US8214394B2 (en) 2006-03-01 2012-07-03 Oracle International Corporation Propagating user identities in a secure federated search system
US8027982B2 (en) * 2006-03-01 2011-09-27 Oracle International Corporation Self-service sources for secure search
US7941419B2 (en) * 2006-03-01 2011-05-10 Oracle International Corporation Suggested content with attribute parameterization
US8707451B2 (en) 2006-03-01 2014-04-22 Oracle International Corporation Search hit URL modification for secure application integration
US8332430B2 (en) 2006-03-01 2012-12-11 Oracle International Corporation Secure search performance improvement
US8433712B2 (en) * 2006-03-01 2013-04-30 Oracle International Corporation Link analysis for enterprise environment
US8875249B2 (en) 2006-03-01 2014-10-28 Oracle International Corporation Minimum lifespan credentials for crawling data repositories
US9177124B2 (en) 2006-03-01 2015-11-03 Oracle International Corporation Flexible authentication framework
US8868540B2 (en) * 2006-03-01 2014-10-21 Oracle International Corporation Method for suggesting web links and alternate terms for matching search queries
US8005816B2 (en) 2006-03-01 2011-08-23 Oracle International Corporation Auto generation of suggested links in a search system
US8200688B2 (en) * 2006-03-07 2012-06-12 Samsung Electronics Co., Ltd. Method and system for facilitating information searching on electronic devices
US20070214123A1 (en) * 2006-03-07 2007-09-13 Samsung Electronics Co., Ltd. Method and system for providing a user interface application and presenting information thereon
US8843467B2 (en) * 2007-05-15 2014-09-23 Samsung Electronics Co., Ltd. Method and system for providing relevant information to a user of a device in a local network
US8209724B2 (en) * 2007-04-25 2012-06-26 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
US20080235209A1 (en) * 2007-03-20 2008-09-25 Samsung Electronics Co., Ltd. Method and apparatus for search result snippet analysis for query expansion and result filtering
US8510453B2 (en) * 2007-03-21 2013-08-13 Samsung Electronics Co., Ltd. Framework for correlating content on a local network with information on an external network
US8115869B2 (en) 2007-02-28 2012-02-14 Samsung Electronics Co., Ltd. Method and system for extracting relevant information from content metadata
US8863221B2 (en) * 2006-03-07 2014-10-14 Samsung Electronics Co., Ltd. Method and system for integrating content and services among multiple networks
US20070233679A1 (en) * 2006-04-03 2007-10-04 Microsoft Corporation Learning a document ranking function using query-level error measurements
US8442972B2 (en) * 2006-10-11 2013-05-14 Collarity, Inc. Negative associations for search results ranking and refinement
US9519715B2 (en) 2006-11-02 2016-12-13 Excalibur Ip, Llc Personalized search
US8935269B2 (en) 2006-12-04 2015-01-13 Samsung Electronics Co., Ltd. Method and apparatus for contextual search and query refinement on consumer electronics devices
US7707198B2 (en) * 2006-12-12 2010-04-27 Yahoo! Inc. Harvesting of media objects from searched sites without a user having to enter the sites
US20090055393A1 (en) * 2007-01-29 2009-02-26 Samsung Electronics Co., Ltd. Method and system for facilitating information searching on electronic devices based on metadata information
US9286385B2 (en) 2007-04-25 2016-03-15 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
US7996392B2 (en) 2007-06-27 2011-08-09 Oracle International Corporation Changing ranking algorithms based on customer settings
US8316007B2 (en) 2007-06-28 2012-11-20 Oracle International Corporation Automatically finding acronyms and synonyms in a corpus
US7917490B2 (en) * 2007-07-09 2011-03-29 Google Inc. Interpreting local search queries
US20090077065A1 (en) * 2007-09-13 2009-03-19 Samsung Electronics Co., Ltd. Method and system for information searching based on user interest awareness
US20090094211A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Implementing an expanded search and providing expanded search results
US8655862B1 (en) 2007-10-17 2014-02-18 Google Inc. System and method for query re-issue in search engines
CN101159967B (zh) * 2007-10-29 2011-08-31 中国移动通信集团设计院有限公司 一种将路测数据用于传播模型校正的方法及装置
US8176068B2 (en) 2007-10-31 2012-05-08 Samsung Electronics Co., Ltd. Method and system for suggesting search queries on electronic devices
US7953746B1 (en) 2007-12-07 2011-05-31 Google Inc. Contextual query revision
US8346791B1 (en) * 2008-05-16 2013-01-01 Google Inc. Search augmentation
US8438178B2 (en) 2008-06-26 2013-05-07 Collarity Inc. Interactions among online digital identities
US8938465B2 (en) 2008-09-10 2015-01-20 Samsung Electronics Co., Ltd. Method and system for utilizing packaged content sources to identify and provide information based on contextual information
US8055638B2 (en) * 2008-12-11 2011-11-08 Microsoft Corporation Providing recent history with search results
US9569770B1 (en) 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
US20100241893A1 (en) * 2009-03-18 2010-09-23 Eric Friedman Interpretation and execution of a customizable database request using an extensible computer process and an available computing environment
US8930350B1 (en) 2009-03-23 2015-01-06 Google Inc. Autocompletion using previously submitted query data
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8577910B1 (en) * 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
US8244749B1 (en) * 2009-06-05 2012-08-14 Google Inc. Generating sibling query refinements
US9298700B1 (en) * 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US8392440B1 (en) 2009-08-15 2013-03-05 Google Inc. Online de-compounding of query terms
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
EP2629211A1 (en) * 2009-08-21 2013-08-21 Mikko Kalervo Väänänen Method and means for data searching and language translation
US8583675B1 (en) 2009-08-28 2013-11-12 Google Inc. Providing result-based query suggestions
US8706717B2 (en) * 2009-11-13 2014-04-22 Oracle International Corporation Method and system for enterprise search navigation
US8875038B2 (en) 2010-01-19 2014-10-28 Collarity, Inc. Anchoring for content synchronization
CN102141990B (zh) 2010-02-01 2014-02-26 阿里巴巴集团控股有限公司 一种搜索方法和装置
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
US20110258212A1 (en) * 2010-04-14 2011-10-20 Microsoft Corporation Automatic query suggestion generation using sub-queries
IT1400269B1 (it) 2010-05-31 2013-05-24 Google Inc Distanza di editazione generalizzata per interrogazioni
US8768861B2 (en) * 2010-05-31 2014-07-01 Yahoo! Inc. Research mission identification
US20110295897A1 (en) * 2010-06-01 2011-12-01 Microsoft Corporation Query correction probability based on query-correction pairs
EP2407897A1 (en) * 2010-07-12 2012-01-18 Accenture Global Services Limited Device for determining internet activity
US8346792B1 (en) 2010-11-09 2013-01-01 Google Inc. Query generation using structural similarity between documents
US20120179705A1 (en) * 2011-01-11 2012-07-12 Microsoft Corporation Query reformulation in association with a search box
US8473507B2 (en) 2011-01-14 2013-06-25 Apple Inc. Tokenized search suggestions
US8868590B1 (en) * 2011-11-17 2014-10-21 Sri International Method and system utilizing a personalized user model to develop a search request
US9152698B1 (en) 2012-01-03 2015-10-06 Google Inc. Substitute term identification based on over-represented terms identification
US9141672B1 (en) * 2012-01-25 2015-09-22 Google Inc. Click or skip evaluation of query term optionalization rule
CN103577416B (zh) * 2012-07-20 2017-09-22 阿里巴巴集团控股有限公司 扩展查询方法及系统
US9146966B1 (en) 2012-10-04 2015-09-29 Google Inc. Click or skip evaluation of proximity rules
US9116957B1 (en) 2013-03-05 2015-08-25 Google Inc. Substitute term scoring
US8996559B2 (en) 2013-03-17 2015-03-31 Alation, Inc. Assisted query formation, validation, and result previewing in a database having a complex schema
US9514230B2 (en) * 2013-07-30 2016-12-06 Facebook, Inc. Rewriting search queries on online social networks
US8949250B1 (en) 2013-12-19 2015-02-03 Facebook, Inc. Generating recommended search queries on online social networks
US10579652B2 (en) * 2014-06-17 2020-03-03 Microsoft Technology Licensing, Llc Learning and using contextual content retrieval rules for query disambiguation
CN105446982A (zh) 2014-06-30 2016-03-30 国际商业机器公司 用于管理数据存储系统的方法和装置
US9858265B1 (en) * 2016-06-08 2018-01-02 Rovi Guides, Inc. Systems and methods for determining context switching in conversation
CN107491447B (zh) * 2016-06-12 2021-01-22 百度在线网络技术(北京)有限公司 建立查询改写判别模型、查询改写判别的方法和对应装置
JP6248365B1 (ja) * 2016-12-22 2017-12-20 クックパッド株式会社 情報処理システム、情報処理方法、及びプログラム
JP6587732B1 (ja) * 2018-11-20 2019-10-09 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN110188337B (zh) * 2019-06-05 2023-08-18 中国联合网络通信集团有限公司 修订标注方法、装置、设备及计算机可读存储介质
CN116578693B (zh) * 2023-07-14 2024-02-20 深圳须弥云图空间科技有限公司 一种文本检索方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198697A (ja) * 1997-01-14 1998-07-31 Fuji Xerox Co Ltd 構造化文書検索装置
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US20030212666A1 (en) * 2002-05-10 2003-11-13 Sankar Basu Adaptive probabilistic query expansion
US6651054B1 (en) * 1999-10-30 2003-11-18 International Business Machines Corporation Method, system, and program for merging query search results
JP2004515829A (ja) * 2000-04-13 2004-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 検索タスクモデル及び双方向検索タスク改良処理を有する検索エンジン
US6751611B2 (en) * 2002-03-01 2004-06-15 Paul Jeffrey Krupin Method and system for creating improved search queries
US20040186827A1 (en) * 2003-03-21 2004-09-23 Anick Peter G. Systems and methods for interactive search query refinement

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6519585B1 (en) * 1999-04-27 2003-02-11 Infospace, Inc. System and method for facilitating presentation of subject categorizations for use in an on-line search query engine
US6493702B1 (en) * 1999-05-05 2002-12-10 Xerox Corporation System and method for searching and recommending documents in a collection using share bookmarks
US7225182B2 (en) * 1999-05-28 2007-05-29 Overture Services, Inc. Recommending search terms using collaborative filtering and web spidering
US20040236721A1 (en) * 2003-05-20 2004-11-25 Jordan Pollack Method and apparatus for distributing information to users
US6718363B1 (en) * 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
US6772150B1 (en) 1999-12-10 2004-08-03 Amazon.Com, Inc. Search query refinement using related search phrases
US6732088B1 (en) * 1999-12-14 2004-05-04 Xerox Corporation Collaborative searching by query induction
US6671711B1 (en) 2000-03-31 2003-12-30 Xerox Corporation System and method for predicting web user flow by determining association strength of hypermedia links
US6701309B1 (en) * 2000-04-21 2004-03-02 Lycos, Inc. Method and system for collecting related queries
JP2002013938A (ja) * 2000-06-28 2002-01-18 Mazda Motor Corp 情報提供システム、該情報提供システムに用いられるサーバー装置及び車載装置、並びに該車載装置又はコンピュータが読みとり可能なプログラムを記録した記録媒体
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
US6678679B1 (en) * 2000-10-10 2004-01-13 Science Applications International Corporation Method and system for facilitating the refinement of data queries
US6856957B1 (en) * 2001-02-07 2005-02-15 Nuance Communications Query expansion and weighting based on results of automatic speech recognition
US7194454B2 (en) * 2001-03-12 2007-03-20 Lucent Technologies Method for organizing records of database search activity by topical relevance
US7149732B2 (en) 2001-10-12 2006-12-12 Microsoft Corporation Clustering web queries
US7499907B2 (en) * 2001-10-12 2009-03-03 Teradata Us, Inc. Index selection in a database system
US8117072B2 (en) * 2001-11-13 2012-02-14 International Business Machines Corporation Promoting strategic documents by bias ranking of search results on a web browser
JP2003208538A (ja) * 2002-01-11 2003-07-25 Oki Electric Ind Co Ltd 広告配信システム及びその制御用プログラム
US7272122B2 (en) * 2002-04-26 2007-09-18 Nokia Corporation Relocation of application-specific functionality during seamless network layer-level handoffs
US6829599B2 (en) * 2002-10-02 2004-12-07 Xerox Corporation System and method for improving answer relevance in meta-search engines
US7051023B2 (en) * 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7617202B2 (en) 2003-06-16 2009-11-10 Microsoft Corporation Systems and methods that employ a distributional analysis on a query log to improve search results
US8156041B2 (en) * 2003-06-29 2012-04-10 Digital River, Inc. Dynamic indicator for context sensitive real-time communications
US8856163B2 (en) * 2003-07-28 2014-10-07 Google Inc. System and method for providing a user interface with search query broadening
US8086619B2 (en) 2003-09-05 2011-12-27 Google Inc. System and method for providing search query refinements
US20050071337A1 (en) * 2003-09-25 2005-03-31 International Business Machines Corporation Encryption of query execution details in a database management system
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US20050149499A1 (en) * 2003-12-30 2005-07-07 Google Inc., A Delaware Corporation Systems and methods for improving search quality
US8676830B2 (en) * 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
US7254774B2 (en) * 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US20050256848A1 (en) * 2004-05-13 2005-11-17 International Business Machines Corporation System and method for user rank search
US7519595B2 (en) * 2004-07-14 2009-04-14 Microsoft Corporation Method and system for adaptive categorial presentation of search results
US7958115B2 (en) * 2004-07-29 2011-06-07 Yahoo! Inc. Search systems and methods using in-line contextual queries
US7836076B2 (en) * 2004-08-20 2010-11-16 Hewlett-Packard Development Company, L.P. Distributing content indices
US20060074883A1 (en) * 2004-10-05 2006-04-06 Microsoft Corporation Systems, methods, and interfaces for providing personalized search and information access
US7475340B2 (en) 2005-03-24 2009-01-06 International Business Machines Corporation Differential dynamic content delivery with indications of interest from non-participants
US8266162B2 (en) 2005-10-31 2012-09-11 Lycos, Inc. Automatic identification of related search keywords

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
JPH10198697A (ja) * 1997-01-14 1998-07-31 Fuji Xerox Co Ltd 構造化文書検索装置
US6651054B1 (en) * 1999-10-30 2003-11-18 International Business Machines Corporation Method, system, and program for merging query search results
JP2004515829A (ja) * 2000-04-13 2004-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 検索タスクモデル及び双方向検索タスク改良処理を有する検索エンジン
US6751611B2 (en) * 2002-03-01 2004-06-15 Paul Jeffrey Krupin Method and system for creating improved search queries
US20030212666A1 (en) * 2002-05-10 2003-11-13 Sankar Basu Adaptive probabilistic query expansion
US20040186827A1 (en) * 2003-03-21 2004-09-23 Anick Peter G. Systems and methods for interactive search query refinement

Also Published As

Publication number Publication date
WO2006104488A2 (en) 2006-10-05
CN103136329B (zh) 2016-11-02
US7565345B2 (en) 2009-07-21
AU2005330021B2 (en) 2011-01-20
CA2603673C (en) 2013-08-27
CA2603673A1 (en) 2006-10-05
JP2011248914A (ja) 2011-12-08
US20060230022A1 (en) 2006-10-12
AU2011201646B2 (en) 2011-09-15
JP2008537624A (ja) 2008-09-18
CN101180625A (zh) 2008-05-14
EP1869580A4 (en) 2009-06-24
KR20070120558A (ko) 2007-12-24
JP5265739B2 (ja) 2013-08-14
CN101176058A (zh) 2008-05-07
WO2006104488A3 (en) 2006-12-21
EP2405370A1 (en) 2012-01-11
WO2006104488A8 (en) 2007-11-22
CN103136329A (zh) 2013-06-05
EP1869580A2 (en) 2007-12-26
AU2011201646A1 (en) 2011-05-12
KR101043640B1 (ko) 2011-06-22
AU2005330021A1 (en) 2006-10-05
CN101176058B (zh) 2012-09-05

Similar Documents

Publication Publication Date Title
JP4831795B2 (ja) 多数のクエリー修正モデルの統合
US9697249B1 (en) Estimating confidence for query revision models
US9916366B1 (en) Query augmentation
US20060230005A1 (en) Empirical validation of suggested alternative queries
US7870147B2 (en) Query revision using known highly-ranked queries
US8938463B1 (en) Modifying search result ranking based on implicit user feedback and a model of presentation bias
US9009146B1 (en) Ranking search results based on similar queries
US8417692B2 (en) Generalized edit distance for queries
US8417718B1 (en) Generating word completions based on shared suffix analysis
US8423554B2 (en) Content category scoring for nodes in a linked database
AU2011247862B2 (en) Integration of multiple query revision models

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110415

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110422

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110517

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110524

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110615

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110719

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20110719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110823

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110917

R150 Certificate of patent or registration of utility model

Ref document number: 4831795

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140930

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250