JP4908214B2 - サーチクエリのリファインメントを提供するシステム及び方法。 - Google Patents

サーチクエリのリファインメントを提供するシステム及び方法。 Download PDF

Info

Publication number
JP4908214B2
JP4908214B2 JP2006525450A JP2006525450A JP4908214B2 JP 4908214 B2 JP4908214 B2 JP 4908214B2 JP 2006525450 A JP2006525450 A JP 2006525450A JP 2006525450 A JP2006525450 A JP 2006525450A JP 4908214 B2 JP4908214 B2 JP 4908214B2
Authority
JP
Japan
Prior art keywords
query
search
stored
document
search query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006525450A
Other languages
English (en)
Other versions
JP2007504561A (ja
Inventor
ハーアー・ポール
ベーカー・スティーブン
Original Assignee
グーグル・インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グーグル・インク filed Critical グーグル・インク
Publication of JP2007504561A publication Critical patent/JP2007504561A/ja
Application granted granted Critical
Publication of JP4908214B2 publication Critical patent/JP4908214B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Description

本発明は、一般的には、クエリ処理に関する。特に、サーチクエリのリファインメントを提供するシステム及び方法に関する。
インターネット技術は1960年代後半まで遡るが、個人によるコンピュータの使用及びインターネットワークが広範囲にわたり利用可能になったことで、情報共有化技術が爆発的に成長し、前例のない進歩がもたらされた。特に、ワールドワイド・ウェブ(「ウェブ」)は、世界中の情報の受け取り手に対して、アーカイブ及びリアルタイム形式の両者による書かれ話され(オーディオ)画像化され(画像及びビデオ)も含む電子形式で格納された莫大な情報へのアクセスの簡便性を革命的に変えた。つまり、ウェブにより、世界中のほぼ全ての言語での情報に満ちた仮想の無限に広がる図書館に、全ての接続ユーザが、デスクトップ上からアクセスできるようになった。
サーチエンジンはウェブの使用が増加するにつれて進化し、ユーザは、効率よく適時に、関連するウェブコンテンツを見つけ、検索することが出来るようになった。ウェブコンテンツの量および種類が増加するにつれ、サーチエンジンは高度化し、精度も同様に改善されてきた。一般に、サーチエンジンは、サーチクエリへの応答において最も精度の高い結果を提供するように構成されている。しかし、検索されたウェブコンテンツのサーチ能力は、本質的に主観的であり、ユーザの興味や知識および取り組み方に依存するものであるため、精度を確定するのは困難である。
サーチエンジンが用いる従来の方法は、ウェブページから索引された用語に、サーチクエリの用語をマッチングさせることに基づいている。検索されたウェブコンテンツの重要性を決定するより高度な方法には、例えば、ハイパーリンクを用いた構造分析がある。詳しくは、以下の文献に詳しい。
典型的なサーチクエリの流れは、自然言語による質問あるいは個々の用語のいずれかを、大抵はキーワードの形をとって、サーチエンジンに送信することから始まる。サーチエンジンは、潜在的に検索可能なウェブコンテンツの情報特性を記録するデータレポジトリ(データ蓄積)に対してサーチを実行し、候補となるウェブページを特定する。
サーチは、しばしば何千もの更には何万もの件数の結果を返すため、大抵のサーチエンジンは、通例、最も見込みのある結果の一部分のみに順位や評価をつける。上位のウェブページは、通常、ウェブコンテンツのタイトルやハイパーリンク及びウェブページから抜粋したテキストの断片といったその他記述的な情報の形式で、ユーザに提示される。
S.Brin及びL.Page"The Anatomy of a Large−Scale Hypertextual Search Engine"(1998) 米国特許6,285,999
質の高いサーチ結果を提供することは、サーチクエリ自体が持つ文字どおりの範囲及び潜在的な範囲から複雑になってしまうことがある。不十分に枠組みされたサーチクエリは、曖昧であったり、あるいは一般的または特定的になりすぎることがあり、対応する高い精度のサーチ結果を出すことができない。例えば、サーチクエリにおける用語は、構文論または意味上のレベルで曖昧になりうる。構文的に曖昧な表現は、同音でひょっとしたら同じスペルを有するが、単語の実際の意味とは別の意味を持つ間違った単語を特定してしまい、不注意にも同音異義語の結果となることもある。
例えば、単語“bear”は、運ぶ、動物の熊、あるいは衣服のない状態の裸等を意味することがある。意味上の曖昧な表現は、不適当な文脈の結果でもある。例えば、単語“jaguar”は動物のアメリカヒョウ、マッキントッシュのオペレーティングシステムの一バージョンあるいはジャガーという自動車の商標を指すことがある。同様に、一般的すぎるサーチ用語は過度に広いサーチ結果となり、一方で、狭すぎるサーチ用語は、過度に限定的で希望しないサーチ結果となってしまう。
従って、不十分に枠組みされたサーチクエリで発生する曖昧さ、過度の一般化、過度の限定化を解消するようなサーチクエリのリファインメントを行う提案を提供するアプローチが必要となる。好ましくは、そのようなアプローチは、サーチクエリが出された場合、オリジナルのサーチクエリの意図が潜在する実際の話題に密接に関連したサーチ結果となるようなリファインされたサーチクエリを提供し、潜在的なサーチ用語として、概念上の独立性および明確な意味を反映した提案を提供する。
本発明の一実施形態は、クエリのリファインメント提案を作成するシステムと方法を提供する。クエリに応じて検索された少なくとも一つのサーチドキュメントは、一つ以上の格納されたクエリ(以下、格納クエリという。)にマッチングさせられる。格納クエリは、潜在的なクエリリファインメント提案としてスコア付けされる。
更なる実施形態は、サーチクエリリファインメントを提供するシステムと方法を提供する。格納クエリおよび格納されたドキュメント(以下、格納ドキュメントという。)は、論理的ペアとして関連付けられる。重み付けが、論理的ペアに割り当てられる。サーチクエリが発行され、サーチドキュメントの集合が生成される。少なくとも一つのサーチドキュメントは、少なくとも一つの格納ドキュメントにマッチさせられる。格納クエリと少なくとも一つの格納ドキュメントのマッチングと関連付けられた割り当てられた重み付けが検索される。
格納クエリと少なくとも一つの格納ドキュメントのマッチングと関連付けられた割り当てられた重み付けに基づき、少なくとも一つのクラスタが形成される。少なくとも一つの格納ドキュメントのマッチングと関連付けられた格納クエリはスコア付けされ、そのスコア付けは少なくとも一つの他のクラスタと関連する少なくとも一つのクラスタについてなされる。少なくとも一つのそのようなスコアが付けられたサーチクエリは、クエリリファインメントの集合として提案される。
更なる実施形態は、クエリリファインメントの候補を統合する方法およびシステムを提供する。クエリに反応して検索された少なくとも一つのサーチドキュメントは、格納クエリおよび重み付けに関連付けられた一つ以上の格納ドキュメントとマッチングさせられる。少なくとも一つのクラスタは、格納クエリと、クエリと反応してマッチングした各格納ドキュメントと関連付けられたおよび重み付けに基づいて形成される。候補クエリに反応して検索された少なくとも一つの更なるサーチドキュメントは、一つ以上の格納ドキュメントにマッチさせられる。
少なくとも一つの更なるクラスタは、格納クエリと、候補クエリに反応してマッチングした各格納ドキュメントに関連付けられた重み付けに基づき形成される。少なくとも一つのクラスタと少なくとも一つの更なるクラスタが結合される。少なくとも一つの他のクラスタに関連する結合されたクラスタの格納クエリは、潜在的なクエリリファインメント提案としてスコア付けられる。
本発明に関するその他の実施形態は、本発明の実施形態として本発明を実施するにあたっての最良の実施形態(ベストモード)が記載されている下記の詳細な説明から、当業者にとって明白である。
明白ではあるが、本発明の主旨及び範囲から逸脱しない範囲で、本発明は他の違った実施形態で実施することもでき、いくつかの部分は様々な自明の点において変更が可能である。従って、図面と詳細な説明は、本質的に一例としてみなされ、限定としてみなされない。
本発明の一実施形態によれば、サーチエンジン21は、最適に、サーチ特性と最もマッチしたウェブコンテンツ22を特定し、高い精度のウェブページを提供する。
(実施例1)
図1は、本発明に従い、サーチクエリリファインメントを提供するシステム10を示すブロック図である。複数の個々のクライアント12は、インターネットやその他通信ネットワーク形式等の当業者に認識されているインターネットワーク13を介して、サーバ11と通信的にインターフェースで接続される。ウェブコンテンツへの要求や各クライアント12を通じて他の処理を行うユーザ19により、個々のクライアント12は操作される。
一般的に、各クライアント12は、インターネット13等のネットワークに接続可能で、アプリケーションプログラムと相互利用できるいかなる形式のコンピュータプラットホームでもよい。
代表的な個々のクライアントの例として、当業者に認識されている、コンピュータ、携帯情報端末、「スマート(知的)」携帯電話やポケットベル、軽量クライアント、ワークステーション、アプリケーションサーバとインターフェース接続された「ダム(空)」端末や様々な装置や構成等を含むがこれに限定されない。インターネットワーク13は、様々なトポロジ、設定、ネットワークに相互接続できる部品の装置を含み、上記は企業が提供する広域及びローカルなネットワークと相互運用が可能なように設定され、同業者に認識されている従来の有線、無線、衛星、工学および同等のネットワーク技術を含むがこれに限定されない。
ウェブコンテンツの変換、特にサーチ処理については、各クライアント12は、ウェブブラウザ18(「ウェブブラウザ」)を実行し、グラフィカル・ユーザ・インターフェースを好適に実行し、サーバ11上で実行しているウェブサーバ20にサーチクエリは送信される。各サーチクエリは、一般的にウェブコンテンツの形式で、ウェブサーバ20を介して潜在的に検索可能な情報を記述または特定する。
サーチクエリはサーチ特性を提供し、サーチ特性はキーワードおよびこれに類似するものといった個々の用語で一般的に表現され、言語等の文字の暗号化などを行い、それによってサーバ11上で実行中のサーチエンジン21が、通常ウェブ形式によるサーチ結果ドキュメントを識別し、返送することができる。当業者にとって認識されているサーチクエリおよび特性のその他の形式、様式、定義は可能である。
ウェブページは、通常、ウェブコンテンツのタイトル、ハイパーリンク、ウェブページから抜粋したテキストの断片等のその他記述的情報の形をとり、提示するためウェブブラウザ18に返送される。ユーザは、グラフィカル・ユーザ・インターフェース上でウェブページを閲覧またはアクセスすることができ、テキストのタイプ入力、クリックまたはその両方を行う形式で、選択や応答を入力することが出来る。
サーバ11は、ウェブコンテンツ22が保存されているサーチデータベース15を有している。ウェブコンテンツ22は、直接的にまたは間接的にインターネットワーク13を介して相互に接続され、好ましくは各クライアント12によりアクセス可能な他のウェブサーバ上(図示せず)において、遠隔で維持することができる。
更なる実施形態では、サーバ11は、キャッシュされたドキュメント24およびキャッシュされたクエリ25が保存されているキャッシュ23を保持する。当技術分野で知られているように、キャッシュ23は、サーチパフォーマンスを向上するため、一つ以上のキャッシュされたクエリ25と各キャッシュされたドキュメント24を関連付ける。最後に、更なる実施形態では、サーチエンジン21は、前のサーチクエリ27の記録を追跡するクエリログ26を維持する。
サーチエンジン21は、好適に、サーチ特性と最もマッチしたウェブコンテンツ22を特定し、高い精度のウェブページを提供する。詳しくは、S.Brin及びL.Pageによる文献“The Anatomy of a Large−Scale Hypertextual Search Engine”(1998)、及びPageに付与された2001年9月4日発行の米国特許6,285,999に記載され、その開示内容を参照文献とする。
マッチするウェブコンテンツ22を識別するにあたり、サーチエンジン21は、潜在的に検索可能なウェブコンテンツを記載する情報特性について実行する。ウェブサーバ20及びサーチエンジン21を含むサーバ20により提供される機能は、ユニプロセッシング(単一処理)環境に加えて、疎結合または密結合の分散平行計算処理を用いることができることに注意されたい。
サーチクエリは、潜在的に曖昧であったり、一般性や限定性が欠如していたりすることがある。このように不十分な枠組みのサーチクエリは、サーチクエリの発行に応答して提供されるサーチクエリリファインメントを通じて改善される。サーチクエリリファインメントは、2部構成の処理として生成、示唆される。
第1に、サーチクエリは一対一関連でサーチ結果ドキュメントに関連付けられ、重み付けは、各サーチクエリサーチ結果ドキュメント関連に割り当てられる。これについては、図2を参照し更に下記に詳述される。
第2に、サーチクエリ−サーチ結果ドキュメント関連および割り当てられた重み付けは、スコアの付けられたクラスタを形成するため、少なくとも1つの新しいサーチクエリとマッチする。これについては、図3を参照し更に下記に詳述される。
クラスタは、構成クエリ用語に基づいた多次元空間から投射され、各クラスタにおけるいかなるドキュメントと関連付けられた特有のサーチクエリにスコアが付けられる。クラスタは、スコアに基づき名づけられ、好ましくは最も高いスコアにより名付けられる。名前の付いたクラスタはソートされ、オリジナルのサーチクエリに提示するリファインメントとして提供される。
サーバ11およびクライアント12を含む個々のコンピュータシステムは、中央処理装置(各プロセッサ13および16)、ランダムアクセスメモリ(各メモリ14および17)、ハードドライブまたはCD−ROMドライブ等の不揮発性補助記憶装置15、ネットワークまたはワイヤレスのインターフェース、キーボードとディスプレイ等のユーザインターフェースをする手段を含む周辺機器からなる一般的な用途のプログラムされたデジタル計算装置を含む。ソフトウェアプログラムを含むプログラムコードおよびデータはRAMにロードされ、CPUが実行と処理を行い、結果はディスプレイ、出力、伝達あるいは記憶装置に生成される。
ウェブブラウザ18は、HTTPと互換性のあるウェブブラウザとし、例えば、当技術分野で知られているワシントン州レドモンドに所在するMicrosoft Corporationによりライセンスされているインターネットエクスプローラ、または、カリフォルニア州マウンテンビューに所在するNetscape Corporationにより許諾されているNavigator、あるいは他のウェブブラウザなどがある。
図2は、本発明による、前計算サーバ34を示す機能ブロック30である。前計算システム31は、関連付けられたクエリおよびドキュメントの集合を好ましくはオフライン処理で構築する。前計算システム31は、前計算エンジン34を含み、前計算エンジン34は、格納ドキュメントと格納クエリを関連付け、重み付け43を各アソシエーション42に割り当てる。これについては、図5を参照し、更に下記に記述される。
前計算システム31はアソシエーションデータベース39を構築し維持する。データベース39は、格納クエリ40、格納ドキュメント41、アソシエーション42および重み付け43を格納し、クエリリファインメントを定式化し、提案するためクエリリファインメントサーバにより使用される。これについては、図3を参照し、更に下記に記述される。更なる実施形態において、前計算システム31は、サーチデータベース15に格納されるクエリログ26とキャッシュに格納されたキャッシュドキュメント24及びキャッシュクエリ25(両方とも図1で図示される)を参照する。
前計算エンジン34は、論理上4つのモジュールを含む。当業者によって認識される、他の論理的配置および機能的モジュールの定義も可能である。第1に、関連付け装置(アソシエータ)35は、格納ドキュメント41と格納クエリ40を関連付け、格納クエリを有する格納ドキュメントのペアは、アソシエーション42の一組としてアソシエーションデータベース39の中で保持される。各格納されたクエリ40は、一つの格納されたドキュメントとのみ関連付けられるが、いかなる任意の格納クエリは、一対複数という関係で、一つ以上の格納ドキュメントとペアになることができる。個々の各ペアは、それぞれアソシエーションデータベース39にある独立のアソシエーション42として保持される。
しかし、明示的にアソシエーション42の形式で個々のペアを格納する必要はなく、代りに、例えば、当業者によって認識されるであろうマッピングやテーブル及び格納ドキュメント41と格納クエリ40とをマッチングさせるための他の手段を用いることにより、論理的に記録または追跡することができる。
アソシエータ35は、さらに各アソシエーション42に重み付け43を割り当てる。重み付け43はそれぞれ、格納ドキュメント41と関連付けられた格納クエリ40との関連性を評価する。複数のアソシエーション42が、同じ格納クエリを有する格納ドキュメントのペアに対して発生した場合、各複数のアソシエーションに対する重み付け43が合計される。クエリ頻度データが利用可能な場合、例えばサーチクエリ59がキャッシュされた場合、重み付け43にサーチクエリ頻度、すなわちサーチクエリ59が出された時の回数を掛ける。
第2に、セレクタ36は、発行されたサーチに基づき格納クエリ40と関連付けられた格納ドキュメント41の1つ以上を選択する。当該実施形態において、セレクタ36は格納ドキュメント41を選択し、格納ドキュメント41は、発行されたサーチに続いてまたは発行されたサーチから受け取ったサーチ結果の一組から選択されたサーチドキュメントに基づき格納クエリ40と関連付けられる。これについては、それぞれ図6と図7を参照して後述される。
第3に、リジェネレータ37は、クエリログ26に基づき、格納クエリ40と別々に関連付けられた格納ドキュメント41の一つ以上を選択する。更なる実施形態において、リジェネレータ37は、クエリログ26に反映された前に追跡したクエリ27からサーチ結果を再生成する。リジェネレータ37は、格納ドキュメント41として再生成されたサーチ結果を選択し、前に追跡したクエリ27とそれぞれ別々に関連付けられる。これについては、図8を参照して後述する。
第4に、インバータ38は、一つ以上の格納ドキュメントを選択し、格納ドキュメントは、キャッシュされたデータに基づく格納クエリ40とそれぞれ別に関連付けられる。更なる実施形態では、インバータ38はキャッシュされたドキュメント24およびキャッシュされたクエリ25を評価し、キャッシュドキュメントとキャッシュクエリのペアをキャッシュクエリとキャッシュドキュメントのペアに反転する。インバータ38は、キャッシュドキュメント24を格納ドキュメント41として反転し、キャッシュクエリ25とそれぞれ別々に関連付けられる。詳しくは、図9を参照して後述する。
前計算システム31を含む個々のコンピュータシステムは、一般的な用途のプログラムされたデジタルの計算機器を含み、それはハードドライブ、CD ROMドライブ、ネットワークまたはワイヤレスインターフライス等の中央処理装置(プロセッサ33)、ランダムアクセスメモリ(メモリ32)、不揮発性補助記録装置からなり、キーボードやディスプレィ等のユーザインターフェイス手段を含む周辺機器等を含む。
ソフトウェアプログラムを含むプログラムコードおよびデータは、RAMにロードされ、CPUで実行及び処理される。また、結果はディスプレイ、出力、伝達あるいは記憶装置に生成される。前計算システム31により提供される機能性は、単一処理環境に加えて疎結合または密結合の分散並列処理設定により提供される。
図3は、本発明に従って、クエリリファインメントシステム51を示す機能ブロック図50である。クエリリファインメントシステム51は、1つ以上のクエリリファインメント67を定式化し、提案する。サーチクエリ発行に続くオンライン処理として、または任意のサーチクエリのセットの前計算に基づき、クエリリファインメントは、定式化することができる。
クエリリファインメントシステム51は、クエリリファインメントエンジン54を含み、実際のサーチクエリ59に応答して、クエリリファインメント67を提案として定式化され得る。詳しくは、下記に図10(A及びB)を参照して記載される。また、クエリリファインメントシステム51は、クエリリファインメント候補48を統合し、図11(A及びB)を参照し下記に記載される。
クエリリファインメントエンジン54は、論理上4つのモジュールを含む。当業者によって認識されるであろう、他の論理的な配置および機能的モジュールの定義も可能である。第1に、マッチャ55は、一つ以上の格納ドキュメント41をサーチクエリ59の発行に応答してサーチエンジン21(図1に図示)に生成された実際のサーチドキュメント60にマッチングさせる。サーチエンジン21は、サーチクエリ発行の一部として、関連スコア60を生成する。マッチャ55は、マッチングした格納ドキュメント41に対応するアソシエーション43を用いて、格納クエリ40を識別し、重み付け43を割り当てる。
第2に、クラスタラ56は、マッチングした格納クエリ40に発生した用語及び重み付け43に対応する用語から形成された用語ベクタに基づき、一つ以上のクラスタ62を形成する。用語ベクタ62は、正規化されたベクタであり、多次元の空間に投射され、各次元は各用語に対応し、それは個々の単語でも単語の組み合わせでもよい。
クラスタ62はマッチングした格納ドキュメント41及び各クラスタ62に発生した格納ドキュメント数に対応するサーチドキュメント60に割り当てられた関連スコアに基づき、ランク付けされる。最もランクの高いクラスタ62は、潜在的なリファインメントクラスタ64として選択される。当該実施形態において、階層的かつ塊的なクラスタリングアルゴリズムを用いて、クラスタ62は形成される。詳しくは、「Information Retrieval)」(W. Frakes & R. Baeza−Yates eds. 1992)中に記載される「Clustering Algorithms)」に記載され、その開示内容は参考引例として組み込まれる。しかし、当業者に認識されている他の種類のクラスタリングアルゴリズムも可能である。
第3に、スコアラ(scorer;スコア付け装置)57は、以下セントロイド(centroids;重心)65として参照される、中央に重みを付けられた用語ベクタを計算し、各クラスタ63の用語ベクタ62の重み付けされた中央部として、それぞれ提示される。
セントロイド65は、潜在的リファインメントクラスタ64のそれぞれから計算される。スコアラ57は、スコア66をサーチクエリが関連付けられた格納ドキュメント数とセントロイド65からの距離に基づき、各潜在的リファインメントクラスタ64における各特有の格納クエリに割り当てる。セントロイド65を計算する他の試みは可能であり、当業者に認識されているような、重み付けをしていない値を用いたり、重み付けや平均化の形式を変更することができる。
最後に、プレゼンタ(presenter)58は、実質的に最高スコアのサーチクエリを一つ以上のクエリリファインメント67としてユーザ19に特定する。重要なこととして、用語ベクタ62、クラスタ63、潜在的リファインメントクラスタ64、セントロイド65、スコア66を含むサーチクエリリファインメントの定式化の詳細は、クエリリファインメントエンジン54により、小分けにされる。ユーザ19は、実際に提示されたクエリリファインメント67のみ認識することになる。
クエリリファインメントシステム51を含む個々のコンピュータシステムは、一般的な用途のプログラムされたデジタルの計算機器を含み、それはハードドライブ、CD ROMドライブ、ネットワークまたはワイヤレスインターフライス等の中央処理装置(プロセッサ33)、ランダムアクセスメモリ(メモリ32)、不揮発性補助記録装置からなり、キーボードやディスプレィ等のユーザインターフェイス手段を含む周辺機器等を含む。ソフトウェアプログラムを含むプログラムコードおよびデータは、RAMにロードされ、CPUで実行及び処理される。また、結果は、ディスプレイ、アウトプット、送信、送付、あるいは記憶として生成される。クエリリファインメントシステム51により提供される機能性は、単一処理環境に加えて疎結合または密結合の分散並列処理設定により提供されることに注意されたい。
図4は、本発明に従って、サーチクエリリファインメントを提供する方法70を示すフロー図である。方法70は、プロセス処理または段階の流れを記載したものであり、例えば、図2における前計算エンジン34や図3におけるクエリリファインメントエンジン54または同等の部品により実行される。
方法70は、前計算(ブロック71)とクエリリファインメント(ブロック72)を行う。前計算(ブロック71)は、アソシエーションデータベース39(図2に示す)を構築し、代表的な格納クエリ40をアソシエーション42と重み付け43を伴って、格納ドキュメント41と関連付けし、格納する。このことについては、図5を参照し下記に記される。当該実施形態においては、前計算は、いかなる特定のサーチクエリと無関係にオフライン処理として行なわれる。
クエリリファインメント(ブロック72)は、ユーザが登録したサーチクエリの枠組みをより改善するよう構築されたクエリリファインメント提案を定式化する。実施形態の一つとして、クエリリファインメントの提案は、発行されたサーチクエリに従ったサーチクエリ結果に基づきオンライン処理にて行われ、アソシエーションデータベース39に保持されるデータとマッチングされ適応される。詳しくは、図10(A及びB)を参照して後述する。更なる実施形態において、クエリリファインメント候補68は、クエリリファインメント提案に統合され、アソシエーションデータベース39に保持されるデータとマッチングされ適応される。詳しくは、図11(A及びB)を参照して下記に記載される。
当該方法は、最後のクエリリファインメント処理が完了次第、終了する。
図5は、図4における方法70で使用される前計算を行なうルーチン80を示すフロー図である。本ルーチンの目的は、アソシエーションデータベース39(図3に示す)を構築し、格納ドキュメント41と格納クエリ40を関連付け、アソシエーション42を形成し重み付け43を割り当てる。
初めに、クエリ供給ソースは、アソシエーションデータベース39に保持された格納クエリ40と格納ドキュメント41を構築するため参照される。簡潔には、クエリ供給ソースの参照は、実行中で格納されキャッシュされたサーチクエリの発行を含む実際のサーチクエリ発行に基づく適切なサーチクエリとサーチ結果のドキュメントのペアを識別することを言う。
このように、格納クエリ40は、詳しくは下記に図6及び図7を参照して記載される実際のサーチクエリ、図8を参照して下記に更に記載されるクエリログ26で追跡された前のサーチクエリ27、図9を参照して下記に更に記載されるキャッシュ13で保持されるキャッシュされたクエリ25から起こすことができる。
さらに、格納ドキュメント41は、実際のサーチクエリ59に応答し検索されたサーチドキュメント60であることも可能で、再生成されたサーチ結果であったり、キャッシュ13に保持されたキャッシュされたドキュメント24であることも可能である。当業者に認識されるであろう、その他のサーチクエリのソースと格納クエリ40と格納ドキュメント41についてのアソシエーションのためのドキュメントも可能である。
一旦、アソシエーションデータベース39の格納クエリ40が特定され、格納されると、格納クエリのそれぞれは、下記のように反復的に処理される(ブロック82)。格納クエリ40は、別々に格納ドキュメント41(ブロック83)のそれぞれに関係付けられる。一対一のアソシエーション42が形成される。但し、各関連付けられた格納ドキュメント41は、対応する関連付けられた格納クエリ40の発行に基づく。
各格納クエリ40は、別々に一つの格納ドキュメントとのみ関連付けられるが、いかなる任意の格納クエリ40も一対複数の関係で一つ以上の格納ドキュメント41とペアになることができる。重み付け43がアソシエーション42に割り当てられ(ブロック84)、格納クエリ40と格納ドキュメント41の関連性を反映する。処理は、残りの格納クエリそれぞれについて継続され(ブロック85)、その後ルーチンに戻る。
図6〜図9は、図5における方法80で使用されるクエリソースを参照するルーチンを示すフロー図である。このルーチンの目的は、アソシエーションデータベース39に保持された格納クエリ40と格納ドキュメント41を取り込むことである。各ルーチンは、サーチクエリ59と関連するサーチドキュメント60を特定し、それぞれ格納クエリ40と格納ドキュメント41として使用される。
アソシエーション42にある各格納クエリ40は、格納ドキュメント41と関連付けられるが、いかなる任意の格納クエリ40は、一対複数の関係で一つ以上の格納クエリ41とペアになることができる。個々のペアのそれぞれは、別個のアソシエーション42として保持される。
しかし、個々のペアは、明確にアソシエーション42の形式で格納される必要はなく、例えば、マッピング、テーブル、格納ドキュメントと格納クエリをマッチングさせる当業者が認識するであろうその他の方法などを使用することにより、論理的に記録、追跡されることができる。
アソシエーションデータベースにおいて、各格納クエリ40は、サーチクエリ59の形式をとり、例えば、キーワードや用語により表現される。用語とは、個々の単語または単語の組み合わせを含む。各格納ドキュメント41は、好ましくは、参照先として格納され、実際のコンテンツとしては格納しない。
一般的に、各格納ドキュメント41は、例えば、URL形式、ハイパーリンク、アンカ(anchor)またはドキュメント抜粋の形式を取ってもよい。
図6は、選ばれたサーチドキュメントに基づき前計算を行なうルーチン90を示すフロー図である。このルーチンの目的は、サーチクエリ59と選択されたサーチドキュメント60が一対一のペアになる関係を識別することである。一対一の関係は、例えば、ユーザ19が特定のサーチドキュメント60をサーチクエリ59の発行に続くサーチ結果のセットから選択した場合に起こる。第一に、サーチクエリ59が発行され(ブロック91)、サーチドキュメント60(図3に示す)からなるサーチ結果が受領される(ブロック92)。
実際のサーチクエリ59は、格納クエリ40として選択される(ブロック93)。サーチドキュメント59がサーチ結果の中からサーチを実行するユーザ19により選択された場合、サーチドキュメント59は、格納ドキュメント41として選択される。その後、ルーチンに戻る。
図7は、サーチ結果に基づく前計算を行うルーチンを示すフロー図である。本ルーチンの目的は、サーチクエリ59とサーチ結果60のセットとの間の一対複数のペアの関係を特定することである。一対複数の関係は、サーチ結果のセットがサーチクエリ59の発行に続いて特定された場合に発生する。
サーチクエリは発行され(ブロック101)、サーチドキュメント60(図3に示す)からなるサーチ結果が受領される(ブロック102)。実際のサーチクエリ59は、格納クエリ40として選択される(ブロック103)。サーチドキュメント59のセットは、格納ドキュメント41として選択される(ブロック104)。各サーチクエリは、別々に一つのサーチドキュメントとのみ関連付けられ、複数のクエリサーチとサーチドキュメントのアソシエーションは、いかなる任意のサーチクエリについても形成されることに注意されたい。その後、ルーチンに戻る。
図8は、以前に追跡されたクエリに基づく前計算を行なうルーチン110を示すフロー図である。本ルーチンの目的は、前のサーチクエリ27のクエリログ26(図1に示す)を参照し、これら以前に追跡したクエリ27に基づくサーチ結果を再生成することである。
最初に、前のサーチクエリ27はクエリログ26(ブロック111)を用いて追跡される。前のサーチクエリ27の各々は、格納クエリ40として選択され(ブロック112)、前のサーチクエリに基づくサーチ結果が再生成される(ブロック113)。再生成された結果は、格納ドキュメント41として選択される(ブロック114)。各前のサーチクエリは、別々に一つの再生成されたサーチ結果ドキュメントとのみ関連付けられ、複数の前のクエリサーチにより再生成されたサーチ結果ドキュメントアソシエーションは、いかなる任意の前のサーチクエリのために形成することができる。更に前のサーチクエリ27がクエリログ26に残っていた場合(ブロック115)、処理は、次の前のサーチクエリ27を用いて継続する(ブロック112)。そうでない場合には、ルーチンに戻る。
図9は、キャッシュされたドキュメントおよびクエリに基づき前計算を行なうルーチン120を示すフロー図である。本ルーチンの目的は、使用するキャッシュ23に保持されたキャッシュされたドキュメントとキャッシュされたクエリとのペアを格納クエリ40と格納ドキュメント41に反転することである。
キャッシュされたドキュメント24とキャッシュされたクエリ25は、キャッシュ23(図1に示す)に保持される。
キャッシュされたドキュメント24とキャッシュされたクエリ25は、キャッシュ23の中で、キャッシュクエリとキャッシュドキュメントのペアとして組織化される。しかし、アソシエーション42と重み付け43(図3に示す)は格納ドキュメントと格納クエリのペアに基づく。従って、キャッシュ23の組織において暗示のキャッシュクエリ―キャッシュドキュメントのペアは、ドキュメントがキャッシュされたキャッシュクエリのペアを形成するよう反転される。
反転したサーチクエリは格納クエリとして選択され(ブロック123)、対応する反転されたドキュメントは、格納ドキュメント41として選択される(ブロック124)。各反転されたサーチクエリは、別々に一つの反転されたドキュメントと関連付けられ、複数の反転されたクエリが反転されたサーチドキュメントアソシエーションは、いかなる任意の反転したサーチクエリのために形成されることができることに注意されたい。
更にクエリがキャッシュされたキャッシュドキュメントのペアが残っている場合(ブロック125)、次の反転されたペアの選択を用いて処理が継続する(ブロック123)。そうでなければ、つまり、更にドキュメントがキャッシュされたキャッシュクエリのペアが残っていない場合には(ブロック125)、ルーチンに戻る。
図10(A及びB)は、図4の方法80で使用されるオンライン・クエリリファインメントを行なうルーチン130を示すフロー図である。本ルーチンの目的は、一つ以上のサーチクエリリファインメント67を好ましくはオンラインで定式化することで、実際にサーチクエリ59が発行された後で提示することができる。初めに、サーチクエリ59が発行され(ブロック131)、サーチドキュメント60の形式をとるサーチ結果と関連するスコア61が受領される(ブロック132)。
可能であれば、サーチドキュメント41は、サーチ結果とマッチングされる(ブロック133)。理想としては、少なくとも一つのサーチ結果が格納ドキュメントとマッチさせられる。しかし、アソシエーションデータベース39は、好ましくはオフライン処理で構築されるので、格納ドキュメント41のセットは完全に全ての可能性のあるサーチ結果とマッチングしないかもしれない。したがって、マッチする格納ドキュメント41を持たないこれらのサーチ結果は省略される。
次に、各マッチングしたサーチ結果について、マッチングした格納ドキュメント41に対応するアソシエーション42は決定され、関連付けられた格納クエリ40と重み付け43を検索するため使用される(ブロック134)。用語ベクタ62は、マッチングした格納クエリ40と対応するウェイト43で発生した用語から計算される。各用語ベクタ62は、各次元が別個の用語に対応しており、各用語は個々の単語または単語の組み合わせを表している多次元空間におけるベクタである。
各次元での用語ベクタ62の長さは、関連付けられたクエリのセットにおける対応する用語の重み付けの合計と等しい。オリジナルのサーチクエリ59からの用語に対応するこれらの用語ベクタの要素は、オリジナルのサーチクエリ59からの独立を実施するため、下方に用語に重み付けする定数で掛け算される。用語ベクタ62は正規化される(ブロック136)。記述された実施形態において、用語ベクタ62は、一つの長さに正規化された長さであるが、当業者により認識される他の正規化も可能である。
クラスタ63は、次に、用語ベクタ62と共通のオリジナルからの距離に基づき形成される(ブロック137)。記述された実施形態において、クラスタ62は、階層的集塊性クラスタリングアルゴリズムを用いて形成され、前述のE.Rasmussenにおいて記載され、その開示内容は参考例として組み込まれる。ただし、当業者に認識されているような他の形式のクラスタも適応することができる。
結果として出たクラスタ63は、マッチングした格納ドキュメント41と各クラスタ63に発生した格納ドキュメント41の数に対応するサーチドキュメント60に割り当てられた関連性のあるスコアを用いてランク付けされる(ブロック138)。最も高いランクのクラスタは、潜在的なリファインメントクラスタ64として選択される(ブロック139)。記載された実施形態において、潜在的なリファインメントクラスタ63は、予め定義した閾値に基づき選択されるが、当業者が認識するであろう他のクラスタ選択の基準も可能である。
各潜在的なリファインメントクラスタ64(ブロック140)に対して、セントロイド65が計算される(ブロック141)。各セントロイド65は、各クラスタ63における用語ベクタ62の重み付けされた中心をオリジナルのサーチクエリ59とマッチングした格納ドキュメント41に対応するサーチドキュメント60に割り当てられた各格納クエリ40と関連性のあるスコア61の用語ベクタ62の製品の正規化された合計として表す。当業者に認識されている重み付けを用いずに値を使用したり、重み付けや平均化の形式を変更する等といったセントロイド65を計算するその他の方法も可能である。
スコア66は、次に、潜在的なリファインメントクラスタ64に発生した特有のサーチクエリ59のそれぞれを計算する(ブロック143)。各スコア66は、格納クエリ40の用語ベクタ62からクラスタ63におけるセントロイド65まで測定されたベクタ距離の長さを計算したクラスタ63に対する格納クエリ40の回数の製品として計算される。
当業者に認識されている、スコア付けや順位付けおよびランク付けのその他の形式は可能である。最高スコア66を有する格納クエリ40は、クラスタ63という名前で選択される(ブロック143)。代わりになるものとして、当業者に認識される最高値、平均値、最低値またはスコア付け、順位付けおよびランク付けといったその他形式を用いた、名前を付けるその他選択基準も可能である。特有の格納クエリ60に対するスコア66が、既定の閾値を超えた場合は(ブロック144)、クエリリファインメント67のセットに名前が追加される(ブロック145)。各残りの潜在的リファインメントクラスタ64について処理が続く(ブロック146)。
最後に、多数の格納ドキュメント41におけるクラスタ63の大きさに加えて各クラスタ63に現れたマッチングした格納ドキュメント41に対応するサーチドキュメント60に割り当てられた関連するスコア61の機能として、リファインメント67のセットがランク別にソートされる。任意の手順として、リファインメント67のセットは、補足クエリで拡張される(ブロック148)。当該実施形態において、各補足クエリは、初めのサーチクエリ59に現れ、リファインメント67のセットに現れた全ての用語の形式を無効にしたものであるが、オリジナルのサーチクエリに現れていない用語からなる。当業者に認識されている拡張するリファインメント67のセットのその他形式は可能である。
リファインメント67のセットは、ランク及び任意でクラスタスコアに基づいて表示される(ブロック149)。そして、ルーチンに戻る。
(実施例2)
図11(A及びB)は、更なる実施形態に従い、図4における方法80で使用される候補となるクエリリファインメントを統合するルーチン160を示すフロー図である。本ルーチンの目的は、候補のクエリリファインメント68を統合して提案することができる一つ以上のサーチクエリリファインメント67を定式化することである。
候補のクエリリファインメント68は、当業者に認識される、ユーザ19によるユーザが特定するクエリリファインメント、第三者及び不十分に枠組みされたサーチクエリを治癒するよう試みるその他アプローチを含むいかなる外部のソースを起源とすることができる。簡潔にするため、図10(A及びB)を参照し上記に表示されたこれら詳述された処理は、適用できる部分については、要約の形式で詳述する。
例として、不十分に枠組みされたサーチクエリを治癒するその他アプローチは、オリジナルのサーチクエリに対する補足または代わりとして、ユーザにより検討および選択されたリファインメントを提示することにより可能である。一つのアプローチは、その他の用語と共にオリジナルのサーチクエリで使用された用語を含む前の繰り返し起こるサーチクエリを提案する。
しかし、提案されたクエリは、オリジナルのサーチクエリと意味が重複することもあり、用語の同時発生および頻発により、概念的に独立した仕切りでサーチ空間を不十分に分割することもある。その他の関連するアプローチは、他のユーザにより入力されたサーチクエリリファインメントを追跡し、オリジナルのサーチクエリを修正する頻繁に使用されるリファインメントを提示する。
しかし、頻繁に発生するリファインメントのみに頼ることは、概念的に独立した仕切りでサーチ空間を不十分に分割することもある。しかし、その他関連するアプローチにより、各ドキュメントに発生した用語に基づくオリジナルのサーチクエリに反応して受領されたドキュメントはクラスタされる。各クラスタを特徴付ける用語は、クラスタ名をして使用され、リファインメントとして提示される。
しかし、リファインメントの結果は、ユーザが特定したサーチクエリに一般的に発生する用語からしばしば構成され、結果として、リファインメントの結果は理解が難しくなり、サーチクエリとして使用された場合に、不十分に実行することもある。
初めに、前述の通り、サーチクエリ59が発行され(ブロック161)、サーチドキュメント60の形式のサーチ結果と関連のあるスコア61が受領される(ブロック162)。サーチ結果をマッチングさせ、用語ベクタの計算と正規化に続き、初めのクラスタ63のセットが、用語ベクタ62の距離に基づき形成される(ブロック163)。各候補となるクエリリファインメント68について(ブロック164)、クラスタ63の一つに候補となるクエリリファインメントを割り当てる試みがなされる。
候補となるクエリリファインメント68が、クラスタ63に割り当てられなかった場合(ブロック166)、候補なるクエリリファインメント68が、直交クエリのセットに追加される(ブロック167)。各残りの候補となるクエリリファインメント68について、処理が継続される(ブロック168)。
次に、直交クエリのセットで候補となる各クエリリファインメントにおいて(ブロック169)、サーチクエリ59が発行され(ブロック170)、サーチドキュメント60の形式を取るサーチ結果および関連するスコア61が、再度、受領される(ブロック171)。サーチ結果は、第2のドキュメントのセット(ブロック172)にプールされる。サーチ結果をマッチングさせ、用語ベクタの計算と正規化に続いて、第2のクラスタ63のセットが、用語ベクタ62との距離に基づき形成される(ブロック173)。
初期と第2のクラスタ63とのセットによる結合が形成される(ブロック174)。クラスタのランク付けに続き、潜在的リファインメントクラスタ64の選択、セントロイド65の計算、特有のクエリのスコア付け、結合におけるクラスタ63は、最高スコアを用いた特有のクエリにちなんで名前を付けられる(ブロック175)。最後に、リファインメント67のセットが、順位及び任意でクラスタスコアに基づき表示される。その後、ルーチンに戻る。
例えば、ユーザ19は、個々の単語“jaguar”を含むサーチクエリ59を提出する。発行したら直ちに、サーチドキュメント60のセットは受領され、上位100個のドキュメントがクラスタリングのために選択される。100個のドキュメントのセットは、単に例として使用されたものであり、当業者に認識されるいかなる他の限定も同じ程度に適切であることに注意されたい。
サーチドキュメント60は、自然にいくつかの関連する意味上のグループ化を特定し、例えば、米国、英国の公式のジャガー株式会社のウェブサイト及びジャガーブランドの自動車所有者協会へのハイパーリンクへの参照を含むジャガー株式会社が製造する自動車に関するドキュメントを含む。意味上のグループ化は、ジャガーという名前のマッキントッシュ(Macintosh)のオペレーションシステムのバージョンコードに関するドキュメント、動物のジャガーに関するドキュメント、または同様に、結合力のあるドキュメントクラスタ63にグループ化することができないその他多数の雑多なトピックに関するドキュメントを含むかもしれない。
クラスタリングの段階の間、用語ベクタ62は、関連するスコアにランク付けされたトップ100のドキュメントのそれぞれについて計算される。上記の通り、100個のドキュメントのセットは単に例として使用されたものであり、当業者に認識されているいかなる他の限定も同じ程度に適切である。各選択されたサーチドキュメント60は、アソシエーションデータベース39における格納ドキュメント41とマッチングされ、対応する格納クエリ40は、各マッチングした格納ドキュメント41に対するアソシエーション42を調べることにより決定される。
用語ベクタ62は、各対応する格納クエリ40について構成用語を単調化して単純なベクタスペースに形成される。クラスタ63は、上記に詳述したグループ等の関連する意味上のグループを典型的に抜粋する用語ベクタ62から発生する。
クラスタセントロイド65は、各クラスタ63について計算される。クラスタ63におけるサーチドキュメント60と関連付けられた全てのサーチクエリ59は、クラスタセントロイド65と各格納ドキュメント41が関連付けられたクラスタ63に発生した格納ドキュメント41のパーセントからの距離により、スコア付けされる。
例えば、クラスタ63が、ジャガーブランドの自動車についてのドキュメントを含む意味上のグループをサーチするため、例として“jaguar”というサーチクエリについて計算されると仮定する。対応するクラスタセントロイド65において、主要な用語は、“jaguar”、“automobile”、“auto”、“car”、“USA”、“UK”等といった単語を含む。提示されたクエリリファインメント67として最もマッチングしたクエリ名は、“jaguar car”であり、クラスタ全体を十分にカバーし、クラスタセントロイド65における最高の重み付けをもつ二つの用語を含んでいる。
同様に、さらに、マッキントッシュのコード名がjaguarであるオペレーティングシステムについてのドキュメントを含むクラスタ63が意味上のグループについて計算されると仮定する。対応するクラスタセントロイド65において、主要な用語は、“jaguar”、“x”、“Mac”、“OS”等といった用語を含む。提示されたクエリリファインメント67として適切な最もマッチングしたクエリ名は、単純な場合を想定すると、“mac os x jaguar”となり、全ての上位のサーチクエリ用語の全てを含み、クラスタ63における多数のドキュメントに現れる。
提示されたクエリリファインメント67として適切なその他の発生されたクラスタ63とクエリ名は、“jaguar racing”というジャガーの自動車レースクラブに関するドキュメントと“jaguar cat”という動物のジャガーについてのドキュメントを含む。
最後に、リファインメント67は、多数の格納ドキュメント41におけるクラスタの大きさに加えて各クラスタ63に現れたマッチングした格納ドキュメント41に対応するサーチドキュメント60に割り当てられた関連するスコア61の機能として、ソートされる。
もしクラスタ63がより大きいか、またはより高位の関連するスコア61を有する格納ドキュメントを有しているかのいずれかの場合において、クラスタ63は、その他のクラスタ63よりも高位にランク付けされる。例としては、リファインメント67の最終的な順位は、“jaguar car”、“mac os x jaguar”、“jaguar racing”、“jaguar cat”を含む。順位及び任意でクラスタスコアは、プレゼンテーション目的で使用される。
(実施例3)
さらなる実施形態において、リファインメント67は、リファインメント67のセットに現れたが、オリジナルのサーチクエリでは現れていない全ての用語の無効になった形式を含む。従って、代替のリファインメント67は、“jaguar−car−mac−os−x−racing−cat”を含む。
(実施例4)
さらなる実施形態において、過去のユーザクエリから選択された既定のサーチクエリ59のセットは、既定のクエリに対する可能性のあるリファインメント67のセットを前計算する時に使用される。既定のクエリは発行され、サーチ結果は、既定のクエリに基づいたユーザからのサーチ要求に反応して調べられたデータベースに保存される。
本発明は詳細に示され、本明細書に記載される実施形態を参照とし記述されたので、当業者は上記を理解し、形式または詳細事項についてのその他変更は、本発明の趣旨および範囲から逸脱しない範囲で行うことができる。
本発明に従い、サーチクエリリファインメントを提供するシステムを示すブロック図である。 本発明に従い、前計算サーバを示す機能ブロック図である。 本発明に従い、クエリリファインメントサーバを示す機能ブロック図である。 本発明に従いサーチクエリリファインメントを提供する方法を示すフロー図である。 図4の方法で使用される前計算を行なうルーチンを示すフロー図である。 図5の方法で使用されるクエリソースを参照するルーチンを示すフロー図である。 図5の方法で使用されるクエリソースを参照するルーチンを示すフロー図である。 図5の方法で使用されるクエリソースを参照するルーチンを示すフロー図である。 図5の方法で使用されるクエリソースを参照するルーチンを示すフロー図である。 図4の方法で使用されるオンライン上のクエリリファインメントを行なうルーチンを示すフロー図である。 図4の方法で使用されるオンライン上のクエリリファインメントを行なうルーチンを示すフロー図である。 更なる実施形態に従い、図4の方法で使用される候補のクエリリファインメントを統合するルーチンを示すフロー図である。 更なる実施形態に従い、図4の方法で使用される候補のクエリリファインメントを統合するルーチンを示すフロー図である。
符号の説明
39 アソシエーションデータベース
40 格納クエリ
41 格納ドキュメント
42 アソシエーション
43 重み付け
51 クエリリファインメントシステム
52 メモリ
53 プロセッサ
54 クエリリファインメントエンジン
55 マッチャ
56 クラスタ
57 スコアラ
58 プレゼンタ
59 サーチクエリ
60 サーチドキュメント
61 適切なスコア
62 用語ベクタ
63 クラスタ
64 潜在的なリファインメントクラスタ
65 セントロイド
66 スコア
67 リファインメント
68 候補のリファインメント

Claims (19)

  1. サーチクエリリファインメント(67)を提供するシステム(31、51)において、
    前記システム中のプロセッサを用いて、
    データベースに格納された格納クエリ(40)と該格納クエリによるサーチ結果である格納ドキュメント(41)とをサーチクエリと該サーチクエリによるサーチ結果であるサーチ結果ドキュメントとの一対一のペア(42)として関連づけ、各一対一の前記ペア(42)に対して前記格納クエリ(40)と前記格納ドキュメント(41)との関連性を表す重み付け(43)を割り当てるアソシエータ(35)と、
    サーチクエリ(59)を発行し、サーチドキュメント(60)のセットを生成するサーチャ(21)と、
    前記サーチドキュメント(60)のセットを前記格納ドキュメント(41)にマッチングさせ、前記マッチングさせた格納ドキュメントに前記一対一のペアとして関連付けられた前記格納クエリ(40)と、関連付けられた前記格納クエリ(40)と前記マッチングさせた格納ドキュメント(41)との関連性を表す前記重み付け(43)とを検索するマッチャ(55)と、
    前記検索された格納クエリ(40)中の単語と、前記検索された重み付け(43)に基づき計算される複数の用語ベクタ(62)の、共通のオリジナルのサーチクエリからの距離に基づいて少なくとも一つの意味の集合であるクラスタ(63)をクラスタリングアルゴリズムを用いて形成するクラスタラ(56)と、
    少なくとも一つの前記クラスタ(63)に関連する前記検索された格納クエリ(40)を前記少なくとも一つのクラスタ(63)との関連性の高さに基づいてランク付けし、前記サーチクエリリファインメント(67)のセットとして、1つ以上のランク付けされた前記格納クエリ(40)をユーザに提示するスコアラ(57)と、
    を具備することを特徴とするシステム。
  2. 請求項1記載のシステム(31及び51)において、
    前記サーチドキュメント(60)のセットとして、前記サーチャ(21)により発行された前記サーチクエリ(59)に対応して前記サーチャ(21)により生成された前記サーチドキュメント(60)のセットから選択された複数の前記サーチドキュメント(60)のうちの1つを選択するセレクタ(36)
    を具備することを特徴とするシステム。
  3. 請求項1記載のシステム(31及び51)において、
    前記ペア(42)について、前記格納クエリ(40)と前記格納ドキュメント(41)との関連性を評価し、前記重み付け(43)がされることを特徴とするシステム。
  4. 請求項1記載のシステム(31及び51)において、
    閾値に関連する前記マッチする少なくとも一つの格納ドキュメント(41)に関連付けられる前記格納クエリ(40)を選択するセレクタ(36)を具備することを特徴とするシステム。
  5. 請求項1記載のシステム(31及び51)において、
    前記サーチクエリリファインメント(67)のセットをソートするソータを具備することを特徴とするシステム。
  6. 請求項1記載のシステム(31及び51)において、
    前記サーチクエリリファインメント(67)のセットをユーザに提示するプレゼンタを具備することを特徴とするシステム。
  7. 請求項1記載のシステム(31及び51)において、
    前記サーチクエリ(59)において存在しない前記サーチクエリリファインメント(67)の前記セットにおける各用語を無効化し、少なくとも一つの補足的なサーチクエリリファインメント(67)として前記サーチクエリ(59)と組み合わせて前記無効化された用語を使用する補足的なサーチクエリリファインメント(67)のセットを更に具備することを特徴とするシステム。
  8. 請求項1記載のシステム(31及び51)において、
    前記ペア(42)を保持するアソシエーションデータベース(39)を具備することを特徴とするシステム。
  9. 請求項1記載のシステム(31及び51)において、
    少なくとも1つの各々のかかる格納ドキュメント(41)と各々のかかるサーチドキュメント(60)がユニフォームリソースロケータ(URL)、ハイパーリンク、アンカ、及びドキュメントの引用の少なくとも1つとして、特定されていることを特徴とするシステム。
  10. サーチクエリ(59)のサーチクエリリファインメント(67)を提供するためのコンピュータシステムにより実行される方法(70)において、
    コンピュータシステムにより、
    サーチクエリとサーチ結果ドキュメントとの一対一のペア(42)として格納クエリ(40)と格納ドキュメント(41)を関連付けて(83)、前記格納クエリへの前記格納ドキュメントの関連性に基づき各一対一の前記ペア(42)に対する重み付けを割り当て(84)、
    前記サーチクエリ(59)を発行し(91)、前記サーチドキュメント(60)のセットを生成し(92)、
    前記サーチドキュメント(60)を前記格納ドキュメント(41)にマッチングさせ(133)、前記一対一のペアにおいて前記マッチングさせた格納ドキュメントに関連付けられた前記格納クエリ(40)と、関連付けられた前記格納クエリ(40)と前記マッチングさせた格納ドキュメント(41)に関連付けられた前記割り当てられた重み付け(43)とを検索し(134)、
    前記マッチングさせた格納ドキュメントに対応する検索された前記格納クエリ(40)と前記検索された重み付け(43)に基づき計算される複数の用語ベクタ(62)の、共通のオリジナルのサーチクエリからの距離に基づいて、少なくとも1つの意味の集合であるクラスタ(63)をクラスタリングアルゴリズムを用いて形成(137)し、
    少なくとも他の1つのクラスタ(63)に関連する前記少なくとも1つのクラスタ(63)について前記格納クエリ(40)をスコア付けし(142)、一組の前記サーチクエリリファインメント(67)として少なくとも一例としての格納サーチクエリ(59)をユーザに提示する(149)
    ことを特徴とする方法。
  11. 請求項1記載の方法(70)において、
    前記サーチドキュメント(60)のセットとして前記サーチクエリ(59)の発行に対応する前記サーチドキュメント(60)のセットから選択される一例としてのサーチドキュメント(60)を選択する(94)ことを具備することを特徴とする方法。
  12. 請求項1記載の方法(70)において、
    各前記ペア(42)について、前記格納クエリと前記格納ドキュメントとの関連性を評価し、前記重み付け(43)がされることを特徴とする方法。
  13. 請求項1記載の方法(70)において、
    前記格納クエリ(40)と前記格納ドキュメント(41)に対応する複数のペア(42)に対する各々のかかる割り当てられた重み付け(43)を合計することを特徴とする方法。
  14. 請求項1記載の方法(70)において、
    閾値に関連する前記マッチする少なくとも1つの格納ドキュメント(41)に関連付けられる前記格納クエリ(40)を選択する(145)ことを特徴とする方法。
  15. 請求項1記載の方法(70)において、
    前記サーチクエリリファインメント(67)の前記セットをソートする(147)ことを特徴とする方法。
  16. 請求項1記載の方法(70)において、
    前記サーチクエリリファインメント(67)の前記セットを提示する(149)ことを特徴とする方法。
  17. 請求項1記載の方法(70)において、
    前記サーチクエリ(59)において現に存在しないクエリリファインメント(67)の前記セットにおける各用語を無効化し、少なくとも一つの補足的な前記サーチクエリリファインメント(67)として、前記サーチクエリ(59)と組み合わせ前記無効化された用語を使用することを更に具備することを特徴とする方法。
  18. 請求項1記載の方法(70)において、
    データベースにおいて前記ペア(42)を保持することを更に具備することを特徴とする方法。
  19. 請求項1記載の方法(70)において、
    少なくとも一つのユニフォームリソースロケータ(URL)、ハイパーリンク、アンカ、及びドキュメントの引用として、少なくとも1つの各格納ドキュメント(41)と各サーチドキュメント(60)を特定することを特徴とする方法。
JP2006525450A 2003-09-05 2004-09-01 サーチクエリのリファインメントを提供するシステム及び方法。 Expired - Fee Related JP4908214B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US50053903P 2003-09-05 2003-09-05
US60/500,539 2003-09-05
US10/668,721 US8086619B2 (en) 2003-09-05 2003-09-22 System and method for providing search query refinements
US10/668,721 2003-09-22
PCT/US2004/028651 WO2005026989A1 (en) 2003-09-05 2004-09-01 Providing search query refinements

Publications (2)

Publication Number Publication Date
JP2007504561A JP2007504561A (ja) 2007-03-01
JP4908214B2 true JP4908214B2 (ja) 2012-04-04

Family

ID=34228721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006525450A Expired - Fee Related JP4908214B2 (ja) 2003-09-05 2004-09-01 サーチクエリのリファインメントを提供するシステム及び方法。

Country Status (5)

Country Link
US (3) US8086619B2 (ja)
EP (1) EP1665090A1 (ja)
JP (1) JP4908214B2 (ja)
WO (1) WO2005026989A1 (ja)
ZA (1) ZA200602743B (ja)

Families Citing this family (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030948A9 (en) * 2001-08-31 2009-01-29 Lipman L K Method and apparatus for matter-centric document management
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US8229957B2 (en) * 2005-04-22 2012-07-24 Google, Inc. Categorizing objects, such as documents and/or clusters, with respect to a taxonomy and data structures derived from such categorization
US7854009B2 (en) 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US8086619B2 (en) 2003-09-05 2011-12-27 Google Inc. System and method for providing search query refinements
US8548995B1 (en) * 2003-09-10 2013-10-01 Google Inc. Ranking of documents based on analysis of related documents
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
US8014997B2 (en) 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US7617205B2 (en) 2005-03-30 2009-11-10 Google Inc. Estimating confidence for query revision models
US7418455B2 (en) * 2003-11-26 2008-08-26 International Business Machines Corporation System and method for indexing weighted-sequences in large databases
US7890526B1 (en) * 2003-12-30 2011-02-15 Microsoft Corporation Incremental query refinement
US7689585B2 (en) * 2004-04-15 2010-03-30 Microsoft Corporation Reinforced clustering of multi-type data objects for search term suggestion
US8065383B2 (en) * 2004-05-17 2011-11-22 Simplefeed, Inc. Customizable and measurable information feeds for personalized communication
US9223868B2 (en) 2004-06-28 2015-12-29 Google Inc. Deriving and using interaction profiles
US9026534B2 (en) * 2004-07-21 2015-05-05 Cisco Technology, Inc. Method and system to collect and search user-selected content
US7496563B2 (en) * 2004-08-04 2009-02-24 International Business Machines Corporation Method for locating documents a user has previously accessed
US7831601B2 (en) * 2004-08-04 2010-11-09 International Business Machines Corporation Method for automatically searching for documents related to calendar and email entries
US7634461B2 (en) * 2004-08-04 2009-12-15 International Business Machines Corporation System and method for enhancing keyword relevance by user's interest on the search result documents
US7421421B2 (en) 2004-08-04 2008-09-02 International Business Machines Corporation Method for providing multi-variable dynamic search results visualizations
US20060031043A1 (en) * 2004-08-04 2006-02-09 Tolga Oral System and method for utilizing a desktop integration module to collect user metrics
US8261196B2 (en) * 2004-08-04 2012-09-04 International Business Machines Corporation Method for displaying usage metrics as part of search results
US20060031199A1 (en) * 2004-08-04 2006-02-09 Newbold David L System and method for providing a result set visualizations of chronological document usage
US7395260B2 (en) * 2004-08-04 2008-07-01 International Business Machines Corporation Method for providing graphical representations of search results in multiple related histograms
US7493303B2 (en) * 2004-08-04 2009-02-17 International Business Machines Corporation Method for remotely searching a local user index
US8065316B1 (en) * 2004-09-30 2011-11-22 Google Inc. Systems and methods for providing search query refinements
US8005853B2 (en) * 2004-11-09 2011-08-23 Snap-On Incorporated Method and system for dynamically adjusting searches for diagnostic information
US8346757B1 (en) * 2005-03-28 2013-01-01 Google Inc. Determining query terms of little significance
US7565345B2 (en) 2005-03-29 2009-07-21 Google Inc. Integration of multiple query revision models
US7870147B2 (en) * 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US20070016545A1 (en) * 2005-07-14 2007-01-18 International Business Machines Corporation Detection of missing content in a searchable repository
US7725485B1 (en) 2005-08-01 2010-05-25 Google Inc. Generating query suggestions using contextual information
KR100643309B1 (ko) * 2005-08-19 2006-11-10 삼성전자주식회사 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그방법
US7921109B2 (en) * 2005-10-05 2011-04-05 Yahoo! Inc. Customizable ordering of search results and predictive query generation
US20070078803A1 (en) * 2005-10-05 2007-04-05 Gilmour David L Method, system and apparatus for searchcasting with privacy control
US7676517B2 (en) * 2005-10-14 2010-03-09 Microsoft Corporation Search results injected into client applications
US7756855B2 (en) * 2006-10-11 2010-07-13 Collarity, Inc. Search phrase refinement by search term replacement
US8429184B2 (en) 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
US8903810B2 (en) 2005-12-05 2014-12-02 Collarity, Inc. Techniques for ranking search results
CN100524307C (zh) * 2006-06-27 2009-08-05 国际商业机器公司 一种建立文档间关联关系的方法和装置
BRPI0713830A2 (pt) * 2006-07-24 2017-10-17 Chacha Search Inc "método, mémoria que pode ser lida por computador para controlar um computador incluindo um banco de dados de guia, memória que pode ser lida por computador para controlar um computador incluindo um banco de dados de treinamento de vídeo e sistema"
WO2008091387A2 (en) * 2006-08-07 2008-07-31 Chacha Search, Inc. Electronic previous search results log
US7831472B2 (en) 2006-08-22 2010-11-09 Yufik Yan M Methods and system for search engine revenue maximization in internet advertising
US9069750B2 (en) 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9098489B2 (en) 2006-10-10 2015-08-04 Abbyy Infopoisk Llc Method and system for semantic searching
US9189482B2 (en) 2012-10-10 2015-11-17 Abbyy Infopoisk Llc Similar document search
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US9075864B2 (en) 2006-10-10 2015-07-07 Abbyy Infopoisk Llc Method and system for semantic searching using syntactic and semantic analysis
US8442972B2 (en) * 2006-10-11 2013-05-14 Collarity, Inc. Negative associations for search results ranking and refinement
US7917528B1 (en) * 2007-04-02 2011-03-29 Google Inc. Contextual display of query refinements
US20080250008A1 (en) * 2007-04-04 2008-10-09 Microsoft Corporation Query Specialization
US8935249B2 (en) 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
US8832140B2 (en) * 2007-06-26 2014-09-09 Oracle Otc Subsidiary Llc System and method for measuring the quality of document sets
US8655868B2 (en) 2007-09-12 2014-02-18 Ebay Inc. Inference of query relationships based on retrieved attributes
US7765204B2 (en) * 2007-09-27 2010-07-27 Microsoft Corporation Method of finding candidate sub-queries from longer queries
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
US20090144262A1 (en) * 2007-12-04 2009-06-04 Microsoft Corporation Search query transformation using direct manipulation
US8001152B1 (en) 2007-12-13 2011-08-16 Zach Solan Method and system for semantic affinity search
US20090171929A1 (en) * 2007-12-26 2009-07-02 Microsoft Corporation Toward optimized query suggeston: user interfaces and algorithms
US20090228296A1 (en) * 2008-03-04 2009-09-10 Collarity, Inc. Optimization of social distribution networks
US8082278B2 (en) * 2008-06-13 2011-12-20 Microsoft Corporation Generating query suggestions from semantic relationships in content
US8438178B2 (en) 2008-06-26 2013-05-07 Collarity Inc. Interactions among online digital identities
US8538943B1 (en) * 2008-07-24 2013-09-17 Google Inc. Providing images of named resources in response to a search query
US8768933B2 (en) * 2008-08-08 2014-07-01 Kabushiki Kaisha Toshiba System and method for type-ahead address lookup employing historically weighted address placement
NL1035823C2 (en) * 2008-08-15 2010-02-16 Cornelis Remigius Verheijen Method and system for ordering and maintaining information.
JP5552582B2 (ja) * 2008-08-20 2014-07-16 株式会社G02 コンテンツ検索装置
US9213961B2 (en) * 2008-09-21 2015-12-15 Oracle International Corporation Systems and methods for generating social index scores for key term analysis and comparisons
US9449078B2 (en) 2008-10-01 2016-09-20 Microsoft Technology Licensing, Llc Evaluating the ranking quality of a ranked list
US8515950B2 (en) * 2008-10-01 2013-08-20 Microsoft Corporation Combining log-based rankers and document-based rankers for searching
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
US8719249B2 (en) * 2009-05-12 2014-05-06 Microsoft Corporation Query classification
US9020936B2 (en) * 2009-08-14 2015-04-28 Microsoft Technology Licensing, Llc Using categorical metadata to rank search results
US20120011432A1 (en) 2009-08-19 2012-01-12 Vitrue, Inc. Systems and methods for associating social media systems and web pages
US10339541B2 (en) 2009-08-19 2019-07-02 Oracle International Corporation Systems and methods for creating and inserting application media content into social media system displays
US11620660B2 (en) 2009-08-19 2023-04-04 Oracle International Corporation Systems and methods for creating and inserting application media content into social media system displays
US7831609B1 (en) * 2009-08-25 2010-11-09 Vizibility Inc. System and method for searching, formulating, distributing and monitoring usage of predefined internet search queries
US9104737B2 (en) * 2009-10-08 2015-08-11 Microsoft Technology Licensing, Llc Social distance based search result order adjustment
US8700652B2 (en) * 2009-12-15 2014-04-15 Ebay, Inc. Systems and methods to generate and utilize a synonym dictionary
US8631004B2 (en) * 2009-12-28 2014-01-14 Yahoo! Inc. Search suggestion clustering and presentation
US8875038B2 (en) 2010-01-19 2014-10-28 Collarity, Inc. Anchoring for content synchronization
US8150841B2 (en) * 2010-01-20 2012-04-03 Microsoft Corporation Detecting spiking queries
US8150859B2 (en) * 2010-02-05 2012-04-03 Microsoft Corporation Semantic table of contents for search results
US8983989B2 (en) * 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
US8903794B2 (en) * 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US8260664B2 (en) * 2010-02-05 2012-09-04 Microsoft Corporation Semantic advertising selection from lateral concepts and topics
US8954404B2 (en) * 2010-02-24 2015-02-10 Demand Media, Inc. Rule-based system and method to associate attributes to text strings
US20110231395A1 (en) * 2010-03-19 2011-09-22 Microsoft Corporation Presenting answers
US9704165B2 (en) 2010-05-11 2017-07-11 Oracle International Corporation Systems and methods for determining value of social media pages
US8909623B2 (en) 2010-06-29 2014-12-09 Demand Media, Inc. System and method for evaluating search queries to identify titles for content production
US8560562B2 (en) 2010-07-22 2013-10-15 Google Inc. Predictive query suggestion caching
KR101274419B1 (ko) * 2010-12-30 2013-06-17 엔에이치엔(주) 사용자 그룹별로 키워드의 순위를 결정하는 시스템 및 방법
CN102567408B (zh) 2010-12-31 2014-06-04 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
US8688667B1 (en) * 2011-02-08 2014-04-01 Google Inc. Providing intent sensitive search results
US8515985B1 (en) * 2011-06-24 2013-08-20 Google Inc. Search query suggestions
US20130110827A1 (en) * 2011-10-26 2013-05-02 Microsoft Corporation Relevance of name and other search queries with social network feature
US20130124490A1 (en) * 2011-11-10 2013-05-16 Microsoft Corporation Contextual suggestion of search queries
US9015160B2 (en) * 2011-12-14 2015-04-21 Brainspace Corporation Multi-concept latent semantic analysis queries
US8862592B2 (en) 2012-01-10 2014-10-14 Swoop Search, Llc Systems and methods for graphical search interface
US8694513B2 (en) 2012-01-10 2014-04-08 Swoop Search, Llc Systems and methods for graphical search interface
US9384184B2 (en) * 2012-01-11 2016-07-05 International Business Machines Corporation Predicting a command in a command line interface
US9201964B2 (en) * 2012-01-23 2015-12-01 Microsoft Technology Licensing, Llc Identifying related entities
US9342601B1 (en) 2012-02-24 2016-05-17 Google Inc. Query formulation and search in the context of a displayed document
US8423567B1 (en) * 2012-03-23 2013-04-16 Sap Ag Dynamic query data visualizer
US8560522B1 (en) 2012-03-29 2013-10-15 Sap Ag Additional query date term granularity
US11202958B2 (en) * 2012-04-11 2021-12-21 Microsoft Technology Licensing, Llc Developing implicit metadata for data stores
US9767144B2 (en) 2012-04-20 2017-09-19 Microsoft Technology Licensing, Llc Search system with query refinement
US9892198B2 (en) * 2012-06-07 2018-02-13 Oath Inc. Page personalization performed by an edge server
US20140075282A1 (en) * 2012-06-26 2014-03-13 Rediff.Com India Limited Method and apparatus for composing a representative description for a cluster of digital documents
US8918416B1 (en) * 2012-09-19 2014-12-23 Google Inc. Classifying queries
US8843470B2 (en) * 2012-10-05 2014-09-23 Microsoft Corporation Meta classifier for query intent classification
US9858314B2 (en) * 2012-11-27 2018-01-02 International Business Machines Corporation System and method for refining search results
US9116957B1 (en) * 2013-03-05 2015-08-25 Google Inc. Substitute term scoring
US9116952B1 (en) 2013-05-31 2015-08-25 Google Inc. Query refinements using search data
US9779182B2 (en) * 2013-06-07 2017-10-03 Microsoft Technology Licensing, Llc Semantic grouping in search
US9646166B2 (en) 2013-08-05 2017-05-09 International Business Machines Corporation Masking query data access pattern in encrypted data
US9852306B2 (en) 2013-08-05 2017-12-26 International Business Machines Corporation Conjunctive search in encrypted data
US9418103B2 (en) * 2013-12-06 2016-08-16 Quixey, Inc. Techniques for reformulating search queries
RU2580431C2 (ru) * 2014-03-27 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для обработки поискового запроса и машиночитаемый носитель
US20150293925A1 (en) * 2014-04-09 2015-10-15 Apple Inc. Automatic generation of online media stations customized to individual users
CN103914552B (zh) * 2014-04-14 2017-06-20 百度在线网络技术(北京)有限公司 应用检索方法和装置
US20160140130A1 (en) * 2014-11-18 2016-05-19 Radialpoint Safecare Inc. Method of Naming Query Clusters
US9727648B2 (en) * 2014-12-19 2017-08-08 Quixey, Inc. Time-box constrained searching in a distributed search system
US10362060B2 (en) * 2015-12-30 2019-07-23 International Business Machines Corporation Curtailing search engines from obtaining and controlling information
CN105808761A (zh) * 2016-03-16 2016-07-27 山东大学 一种基于大数据Solr网页排序优化方法
US10540378B1 (en) * 2016-06-28 2020-01-21 A9.Com, Inc. Visual search suggestions
KR101916798B1 (ko) * 2016-10-21 2018-11-09 네이버 주식회사 검색 컨텍스트를 이용한 질의 추천 방법 및 시스템
US11074280B2 (en) * 2017-05-18 2021-07-27 Aiqudo, Inc Cluster based search and recommendation method to rapidly on-board commands in personal assistants
US20180341686A1 (en) * 2017-05-26 2018-11-29 Nanfang Hu System and method for data search based on top-to-bottom similarity analysis
US11514095B2 (en) * 2018-05-04 2022-11-29 International Business Machines Corporation Tiered retrieval of secured documents
RU2731658C2 (ru) 2018-06-21 2020-09-07 Общество С Ограниченной Ответственностью "Яндекс" Способ и система выбора для ранжирования поисковых результатов с помощью алгоритма машинного обучения
CN109388711A (zh) * 2018-09-05 2019-02-26 广州视源电子科技股份有限公司 日志流聚类的方法和装置
RU2733481C2 (ru) 2018-12-13 2020-10-01 Общество С Ограниченной Ответственностью "Яндекс" Способ и система генерирования признака для ранжирования документа
RU2744029C1 (ru) 2018-12-29 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Система и способ формирования обучающего набора для алгоритма машинного обучения
US10803065B1 (en) * 2019-09-12 2020-10-13 Business Objects Software Ltd Microcubes
US11100170B2 (en) * 2019-11-15 2021-08-24 Microsoft Technology Licensing, Llc Domain-agnostic structured search query exploration

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000227922A (ja) * 1999-02-08 2000-08-15 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体
JP2001202390A (ja) * 1999-12-14 2001-07-27 Xerox Corp ネットワークベース情報検索システム及びドキュメントサーチ促進方法
JP2002324077A (ja) * 2001-04-24 2002-11-08 Mitsubishi Electric Corp 文書検索装置および文書検索方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2801561A (en) * 1954-04-16 1957-08-06 Vern G Bonner Wrench with segmental work engaging portions
US5056021A (en) * 1989-06-08 1991-10-08 Carolyn Ausborn Method and apparatus for abstracting concepts from natural language
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US6173275B1 (en) * 1993-09-20 2001-01-09 Hnc Software, Inc. Representation and retrieval of images using context vectors derived from image information elements
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
AU8102198A (en) * 1997-07-01 1999-01-25 Partran Aps A method of noise reduction in speech signals and an apparatus for performing the method
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
US6574632B2 (en) * 1998-11-18 2003-06-03 Harris Corporation Multiple engine information retrieval and visualization system
US6510406B1 (en) 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6493702B1 (en) * 1999-05-05 2002-12-10 Xerox Corporation System and method for searching and recommending documents in a collection using share bookmarks
US6701305B1 (en) * 1999-06-09 2004-03-02 The Boeing Company Methods, apparatus and computer program products for information retrieval and document classification utilizing a multidimensional subspace
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US6560597B1 (en) * 2000-03-21 2003-05-06 International Business Machines Corporation Concept decomposition using clustering
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US6823333B2 (en) * 2001-03-02 2004-11-23 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for conducting a keyterm search
US7194454B2 (en) * 2001-03-12 2007-03-20 Lucent Technologies Method for organizing records of database search activity by topical relevance
JP4003468B2 (ja) * 2002-02-05 2007-11-07 株式会社日立製作所 適合性フィードバックによる類似データ検索方法および装置
US6745650B1 (en) * 2002-12-02 2004-06-08 Tsung-Chieh Chang Spanner head orientation positioning device
US7158969B2 (en) * 2003-06-12 2007-01-02 International Business Machines Corporation Iterative data analysis process via query result augmentation and result data feedback
US7162473B2 (en) * 2003-06-26 2007-01-09 Microsoft Corporation Method and system for usage analyzer that determines user accessed sources, indexes data subsets, and associated metadata, processing implicit queries based on potential interest to users
US7617203B2 (en) * 2003-08-01 2009-11-10 Yahoo! Inc Listings optimization using a plurality of data sources
US8086619B2 (en) 2003-09-05 2011-12-27 Google Inc. System and method for providing search query refinements

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000227922A (ja) * 1999-02-08 2000-08-15 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体
JP2001202390A (ja) * 1999-12-14 2001-07-27 Xerox Corp ネットワークベース情報検索システム及びドキュメントサーチ促進方法
JP2002324077A (ja) * 2001-04-24 2002-11-08 Mitsubishi Electric Corp 文書検索装置および文書検索方法

Also Published As

Publication number Publication date
US8086619B2 (en) 2011-12-27
US20120054216A1 (en) 2012-03-01
ZA200602743B (en) 2007-05-30
US20140149415A1 (en) 2014-05-29
JP2007504561A (ja) 2007-03-01
US8645407B2 (en) 2014-02-04
US20050055341A1 (en) 2005-03-10
EP1665090A1 (en) 2006-06-07
US9552388B2 (en) 2017-01-24
WO2005026989A1 (en) 2005-03-24

Similar Documents

Publication Publication Date Title
JP4908214B2 (ja) サーチクエリのリファインメントを提供するシステム及び方法。
Agichtein et al. Learning search engine specific query transformations for question answering
EP1596313B1 (en) Method and system for schema matching of web databases
US9817920B1 (en) Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems
US7689585B2 (en) Reinforced clustering of multi-type data objects for search term suggestion
KR101109236B1 (ko) 복수-의미 질의에 대한 관련 용어 제안
US7392238B1 (en) Method and apparatus for concept-based searching across a network
US7865495B1 (en) Word deletion for searches
US7840577B2 (en) Search query processing to identify related search terms and to correct misspellings of search terms
US20040249808A1 (en) Query expansion using query logs
US20100131563A1 (en) System and methods for automatic clustering of ranked and categorized search objects
Joshi et al. Retriever: Improving web search engine results using clustering
Agichtein et al. Learning to find answers to questions on the web
WO2006108069A2 (en) Searching through content which is accessible through web-based forms
CA2504181A1 (en) Verifying relevance between keywords and web site contents
Shang et al. Precision evaluation of search engines
Ahamed et al. Deduce user search progression with feedback session
Veningston et al. Semantic association ranking schemes for information retrieval applications using term association graph representation
Kulkarni et al. Information retrieval based improvising search using automatic query expansion
Hung et al. Reorganization of search results based on semantic clustering
CN116414939B (zh) 基于多维度数据的文章生成方法
Campos et al. Clustering of Web Page Search Results: A Full Text Based Approach
Parnto Suffix stripping, improving information retrieval efficiency
Rastegari et al. An immune system approach to personalize search results
Ingale INTERNATIONAL JOURNAL OF ENGINEERING SCIENCES & RESEARCH TECHNOLOGY A NOVEL APPROACH TO INFER USER SEARCH GOALS FOR OPTIMIZE RESULT

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100316

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100615

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100622

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100629

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100706

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100816

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101019

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110119

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110126

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110218

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110225

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110317

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110325

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350