JP2009528636A - 複数の書記体系を有する言語に対する関連のクエリーを識別するためのシステム及び方法 - Google Patents

複数の書記体系を有する言語に対する関連のクエリーを識別するためのシステム及び方法 Download PDF

Info

Publication number
JP2009528636A
JP2009528636A JP2008557464A JP2008557464A JP2009528636A JP 2009528636 A JP2009528636 A JP 2009528636A JP 2008557464 A JP2008557464 A JP 2008557464A JP 2008557464 A JP2008557464 A JP 2008557464A JP 2009528636 A JP2009528636 A JP 2009528636A
Authority
JP
Japan
Prior art keywords
query
queries
candidate set
characters
received
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008557464A
Other languages
English (en)
Inventor
ロージー ジョーンズ
ケヴィン バーツ
ベンジャミン レイ
Original Assignee
ヤフー! インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤフー! インコーポレイテッド filed Critical ヤフー! インコーポレイテッド
Publication of JP2009528636A publication Critical patent/JP2009528636A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 複数の書記体系を有する言語に従って書かれた所定の検索クエリーに関連する1つ又はそれよりも多くのクエリーを識別する方法及びシステムを提供する。
【解決手段】 所定のクエリーに関連する1つ又はそれよりも多くのクエリーを識別するためのシステム及び方法。本発明の方法は、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーを受け取る段階を含む。複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーの候補セットが識別される。受け取られたクエリーに対する1つ又はそれよりも多くのクエリーの類似性を示すスコアが、候補セット内の1つ又はそれよりも多くのクエリーに対して計算される。
【選択図】 図1

Description

著作権通知
本特許文書の開示の部分は、著作権保護された材料を包含する。著作権所有者は、「特許及び商標事務所」特許ファイル又は記録に現れる場合の本特許文書又は特許開示の他者によるファクシミリ複製に異議はないが、それ以外は全ての著作権を保有するものである。
関連出願への相互参照
本出願は、各々が本明細書においてその全内容が引用により組み込まれている以下の係属中の出願に関連する。
・2005年8月10日出願の「代替検索クエリーを判断するためのシステム及び方法」という名称の米国特許出願出願番号第11/200、851号、及び
・2005年11月9日出願の「モジュラー最適化動的セット」という名称の米国特許仮出願第60/736、133号。
本発明は、一般的に、複数の書記体系を有する言語に従って書かれた所定の検索クエリーに関連する1つ又はそれよりも多くのクエリーを識別する方法及びシステムを提供する。より具体的には、本発明は、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系の組合せに従って書かれた検索クエリーを受け取り、クエリーの候補セットから1つ又はそれよりも多くの関連するクエリーを識別する方法及びシステムを提供する。
「ワールド・ワイド・ウェブ」(ウェブ)を通じてユーザに利用可能な「インターネット」及び多数のウェブページ、メディアコンテンツ、広告などの進歩と共に、ウェブから該当する情報を取得するための能率化された手法をユーザに供給する必要が生じている。このような情報を取得するユーザの必要性を満たすために、検索システム及び処理が開発されている。このような技術の例は、Yahoo!、Google、及び他の検索プロバイダウェブサイトを通じてアクセス可能である。
現在、ユーザは、コンテンツを検索して取り出すためにワイドエリアネットワーク、例えば「インターネット」へのアクセスを備えたクライアントデバイス(パーソナルコンピュータ(PC)、PDA、スマートフォンなど)を利用することができる。一般的に、ユーザは、クライアントデバイスを通じてクエリーを入力し、検索処理は、クエリーに関連したリンク、文書、ウェブページ、広告などのような1つ又はそれよりも多くのコンテンツの項目を戻す。所定のクエリーに応答して戻されるコンテンツの項目は、ユーザが実際に求めていたサブジェクト又はトピックに密接に関連することもあり、又は全く関連しないこともある。取り出されたコンテンツの項目が所定のクエリーにどのくらい近く関連するかに基づいて測ることができる所定の検索の成功は、検索クエリーの適正な解釈に大きく依存する場合がある。
クエリーは、1つ又はそれよりも多くの語及び語句から作られる。しかし、人間ユーザによって入力されたクエリーは、所定のユーザが求めているコンテンツを適切に表わせないことが多い。更に、ユーザは、求めているコンテンツの一般的な又は漠然とした知識しか持たない可能性がある。例えば、ユーザが、テレビで宣伝された製品に対してYahoo!検索エンジンを使用して検索を行いたい場合がある。ユーザは、製品の名前、製造業者などを知らない場合があり、製品を一般的に表現することができるのみである場合がある。従って、ユーザによって作成されたクエリーが広義すぎて、ユーザによって求められたコンテンツに全く関係ないコンテンツ項目の検索をもたらす。同様に、ユーザによって選択されたクエリー用語は、製品を適切に表現できない場合があり、たとえあったとしてもごく少ないコンテンツ項目の取り出しをもたらす。
所定のクエリーに関連すると考えられるクエリーの候補セットを生成する現在の技術は公知である。例えば、ユーザは、「アップル(登録商標)MP3プレーヤ」というクエリーを入力することができ、「IPOD(登録商標)」、「Itunes(登録商標)」などのような1つ又はそれよりも多くの関連するクエリーを表示される。しかし、検索プロバイダは、所定のクエリーに意味において最も該当するか又は密接に関連する1つ又はそれよりも多くのクエリーをクエリーの候補セットから識別するという問題を呈示される。更に、日本語のようなある一定の言語は、複数の書記体系を有し、これは、所定のクエリーに意味において最も該当するか又は類似のクエリーをクエリーの候補セットから識別するという複雑さを更に増大させる。例えば、検索エンジンに提出された単一の日本語のクエリーは、漢字、カタカナ、ひらがな、JASCII、ASCIIなどのような1つ又はそれよりも多くの日本語書記体系の様々な組合せに従って書かれる場合がある。日本語の漢字書記体系に従って書かれたクエリーは、日本語のカタカナ及びひらがな書記体系に従って書かれたクエリーとは全く異なるように見えるであろうが、2つのクエリーは、非常に類似又は同一の意味を有する場合がある。
更に、Yahoo!、MSN、又はGoogleのような検索プロバイダは、広告主が、クエリーに応答して1つ又はそれよりも多くの広告を表示させるために用語に対して入札することができる入札市場を利用することができる。例えば、1つ又はそれよりも多くの広告主は、ラップトップコンピュータに対する1つ又はそれよりも多くの広告を表示したい場合があり、従って、「ノートブックコンピュータ」という用語に対して入札することができる。しかし、「ノートブックコンピュータ」という用語は、日本語のような複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書くことができる。例えば、「ノートブックコンピュータ」という用語は、日本語ひらがな書記体系、日本語カタカナ書記体系などに従って書くことができる。
ユーザは、日本語カタカナ書記体系に従って書かれた「ノートブックコンピュータ」という用語を含むクエリーをYahoo!のような所定の検索プロバイダに提出することができる。カタカナ用語「ノートブックコンピュータ」に対する関連の入札値を有する1つ又はそれよりも多くの広告が取り出されて、ユーザに表示することができる。入札市場では、カタカナ語「ノートブックコンピュータ」に対して最も大きな入札値を供給した広告主に関連付けられた広告が、ウェブページの最も目立つ、例えば、広告のランク付けリストで一番にランク付けされ、所定の検索結果ページの最上部に表示される位置に表示される、等々である。
ユーザが、表示された広告の1つ又はそれよりも多くを選択した場合、検索プロバイダは、選択された広告に関連付けられた広告主に広告主の指し値に基づく金額を請求することなどにより、ユーザの選択を貨幣化することができる。しかし、1つ又はそれよりも多くの用語に対する関連の指し値を有する広告のみを取り出して表示することは、所定の検索プロバイダへの収入のかなりの損失をもたらすであろう。例えば、ユーザが、1つ又はそれよりも多くの広告主によって入札されていない用語から成るクエリーを入力した場合、検索プロバイダは、ユーザにどの広告も戻すことができず、ユーザがどの結果も選択できないことになるので、検索プロバイダに収入の損失をもたらす。上述の例に関して、ユーザによって入力されたクエリーがカタカナ用語「ノートブックコンピュータ」を含まず、しかし、代わりにひらがな用語「らっぷとっぷこんぴゅーた」を含んでいた場合、検索プロバイダは、カタカナクエリー「ラップトップコンピュータ」とひらがなクエリー「のーとぶっくこんぴゅーた」の意味の類似性にも関わらず、目標の広告を適正に表示できない場合がある。
所定のクエリーに意味において同一又は類似の1つ又はそれよりも多くのクエリーをクエリーの候補セットから識別するための技術は存在するが、既存の技術は、単一の書記体系に従って書かれた言語に制限される。従って、現在の技術は、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれたオリジナルのクエリーに意味において最も該当するか又は密接に関連するクエリーの識別を提供できない。既存の技術に関連した欠点を克服するために、本発明は、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた所定の検索クエリーに関して意味において最も類似する1つ又はそれよりも多くのクエリーを関連するクエリーの候補セットから識別するためのシステム及び方法を提供する。
米国特許出願出願番号第11/200、851号 米国特許仮出願第60/736、133号
本発明は、所定のクエリーに関連する1つ又はそれよりも多くのクエリーを識別する方法及びシステムに関連する。本発明の方法は、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーを受け取る段階を含む。本発明の一実施形態によると、受け取られたクエリーは、日本語のひらがな、カタカナ、かな、ローマ字、JASCII、及び漢字書記体系を含む1つ又はそれよりも多くの日本語書記体系の組合せに従って書かれたクエリーを含む。
受け取られたクエリーに付随する複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーの候補セットが識別される。本発明の一実施形態によると、クエリーの候補セットは、1つ又はそれよりも多くのクエリーログにおいて指示されたような受け取られたクエリーに関連する1つ又はそれよりも多くのクエリーを含む。
本方法は、受け取られたクエリーに対する1つ又はそれよりも多くのクエリーの類似性を示す候補セット内の1つ又はそれよりも多くのクエリーに対するスコアを計算する段階を更に含む。候補セット内の1つ又はそれよりも多くのクエリーに対して計算されたスコアは、受け取られたクエリーに対する候補セットからの所定のクエリーの意味における類似性を示している。本発明の一実施形態によると、スコアを計算する段階は、各クエリーの1つ又はそれよりも多くの文字をローマ字に変換した後で、受け取られたクエリーと候補セットから選択されたクエリーとの間の文字編集距離を計算する段階を含む。本発明の別の実施形態によると、スコアを計算する段階は、各クエリーの1つ又はそれよりも多くの文字をローマ字に変換して各クエリーからスペース文字を取り除いた後で、受け取られたクエリーと候補セットから選択されたクエリーとの間の文字編集距離を計算する段階を含む。本発明の更に別の実施形態によると、スコアを計算する段階は、受け取られたクエリーと候補セットから選択されたクエリーとの文字をローマ字に変換する段階、及び1と、受け取られたクエリーと選択されたクエリーにおけるスペースで区切られた固有の共起語の数と両方のクエリーにおけるスペースで区切られた固有の語の総数との商との間の差を計算する段階を含む。
本発明の更に別の実施形態によると、スコアを計算する段階は、数字が、受け取られたクエリーと候補セットから選択されたクエリーとに固有のものであるか否かを識別する段階を含む。更に別の実施形態によると、スコアを計算する段階は、値1と、受け取られたクエリーと候補セットからの選択されたクエリーとにおける共起日本語漢字文字の数と、受け取られたクエリーと候補セットからの選択されたクエリーとにおける固有の日本語漢字文字の総数との商との間の差を計算する段階を含む。本発明の別の実施形態によると、スコアを計算する段階は、受け取られたクエリー及び候補セットから選択されたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、これらのクエリーが共通して有するローマ字の数を計算する段階とを含む。本発明の更に別の実施形態によると、スコアを計算する段階は、受け取られたクエリー又は候補セットからの選択されたクエリーのいずれかが非ローマ字文字を包含するか否かを識別する段階を含む。本発明の更に別の実施形態によると、スコアを計算する段階は、各クエリーの日本語漢字文字を日本語かな文字に変換して各クエリーから全ての非日本語文字を取り除いた後で、受け取られたクエリーと候補セットからの選択されたクエリーとの間の文字編集距離を計算する段階を含む。更に別の実施形態によると、スコアを計算する段階は、候補セットからの選択されたクエリーが1つ又はそれよりも多くのクエリーログ内で受け取られたクエリーに続く頻度と、1つ又はそれよりも多くのクエリーログ内の受け取られたクエリーの頻度との商を計算する段階を含む。
本方法は、分配のために候補セットからクエリーの1つ又はそれよりも多くを選択する段階を更に含む。本発明の一実施形態によると、分配のために候補セットから選択された1つ又はそれよりも多くのクエリーは、所定の閾値を超えるスコアを有するクエリーを含む。分配のために選択された1つ又はそれよりも多くのクエリーは、分配することができる。本発明の一実施形態によると、分配のために選択されたクエリーは、1つ又はそれよりも多くのウェブページに組み込まれる。
本発明は、所定のクエリーに関連する1つ又はそれよりも多くのクエリーを識別するためのシステムにも関連する。本発明のシステムは、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーを受け取るように作動する検索エンジンを含む。本発明の一実施形態によると、検索エンジンは、1つ又はそれよりも多くの日本語書記体系に従って書かれたクエリーを受け取るように作動する。検索エンジンは、受け取られたクエリーに付随する複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた1つ又はそれよりも多くのクエリーの候補セットを識別するように更に作動する。本発明の一実施形態によると、検索エンジンは、1つ又はそれよりも多くのクエリーログにおいて指示されたような受け取られたクエリーに関連する1つ又はそれよりも多くのクエリーから成る候補セットを識別するように作動する。
変換構成要素は、受け取られたクエリーと候補セット内の1つ又はそれよりも多くのクエリーとを1つ又はそれよりも多くの文書フォーマットに変換するように作動する。本発明の一実施形態によると、変換構成要素は、1つ又はそれよりも多くの書記体系に従ってクエリーを1つ又はそれよりも多くの文書フォーマットに変換するように作動する。
類似性構成要素は、受け取られたクエリーに対する1つ又はそれよりも多くのクエリーの類似性を示すスコアを候補セット内の1つ又はそれよりも多くのクエリーに対して計算するように作動する。類似性構成要素は、受け取られたクエリーに対して候補セットからの選択されたクエリーの意味における類似性を示すスコアを計算するように作動する。本発明の一実施形態によると、類似性構成要素は、受け取られたクエリーと候補セットからの選択されたクエリーとの間の文字編集距離を計算するように作動する。本発明の更に別の実施形態によると、類似性構成要素は、1と、受け取られたクエリーと候補セットから選択されたクエリーとにおけるスペースで区切られた固有の共起語の数と両方のクエリーにおけるスペースで区切られた固有の語の総数との商との間の差を計算するように作動する。本発明の更に別の実施形態によると、類似性構成要素は、数字が、受け取られたクエリー又は候補セットからの選択されたクエリーに固有であるか否かを識別するように作動する。
別の実施形態によると、類似性構成要素は、1と、受け取られたクエリーと候補セットから選択されたクエリーとにおける共起日本語漢字文字の数と両方のクエリーにおける固有の日本語漢字文字の総数との商との間の差を計算するように作動する。本発明の更に別の実施形態によると、類似性構成要素は、受け取られたクエリーと候補セットからの選択されたクエリーとが共通して有する文字の数を計算するように作動する。本発明の更に別の実施形態によると、類似性構成要素は、受け取られたクエリー又は候補セットからの選択されたクエリーが、所定の書記体系の1つ又はそれよりも多くの文字を包含するか否かを識別するように作動する。更に別の実施形態によると、類似性構成要素は、候補セットからの選択されたクエリーが1つ又はそれよりも多くのクエリーログ内の受け取られたクエリーに続く頻度と、クエリーログ内の受け取られたクエリーの頻度との商を計算するように作動する。
本発明は、同じ参照が同じか又は対応する部分を示すものとする添付図面において例示的であって制限を意図しない図に例証される。
以下の説明では、説明の一部を形成する添付の図面を参照し、図面には、本発明を実施することができる特定的な実施形態を例証によって示している。他の実施形態を利用することができること、及び本発明の範囲から逸脱することなく構造的な変更を行い得ることは理解されるものとする。
図1は、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた所定のクエリーに関連する1つ又はそれよりも多くのクエリーを識別するためのシステムの一実施形態を示すブロック図である。図1の実施形態によると、クライアントデバイス124a、124b、及び124cは、「インターネット」のような1つ又はそれよりも多くのローカル及び/又はワイドエリアネットワークへの接続を含むことができるネットワーク122に通信することができるように連結されている。本発明の一実施形態によると、クライアントデバイス124a、124b、及び124cは、プロセッサ、一時及び永続記憶デバイス、入力/出力サブシステム、及び汎用パーソナルコンピュータを含む構成要素間の通信経路を提供するバスを含む汎用パーソナルコンピュータである。例えば、512MBのRAM、40GBのハードドライブ記憶スペース、及びネットワークへの「イーサネット(登録商標)」インタフェースを備えた3.5GHz「Pentium(登録商標) 4」パーソナルコンピュータである。
ネットワーク122に通信することができるように連結されたクライアントデバイス124a、124b、及び124cのユーザは、1つ又はそれよりも多くの用語を含む検索クエリーを検索プロバイダ100に提出することができる。ユーザによってネットワーク122を通じて検索プロバイダ100に提出された検索クエリーは、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた1つ又はそれよりも多くの文字、用語、又は語句を含むことができる。例えば、クライアントデバイス124a、124b、及び124cのユーザは、日本語漢字文字、日本語カタカナ文字、及びJASCII文字を含むクエリーを作成することができる。同様に、クライアントデバイス124a、124b、及び124cのユーザは、日本語ローマ字文字、日本語ひらがな文字、及び数字を含むクエリーを作成することができる。例えば、ユーザは、日本語のカタカナ、ひらがな、漢字、及びASCII書記体系の組合せに従って書かれた以下のクエリー、すなわち、「1リットルの涙 沢尻エリカ」を提出することができる。
クライアントデバイス124a、124b、及び124cのユーザによって提出された複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた文字及び用語を含むことができる1つ又はそれよりも多くの検索クエリーは、関連するクエリーの候補セットを識別するために検索プロバイダ100で検索エンジン107によって使用される。関連するクエリーの候補セットを含む1つ又はそれよりも多くのクエリーは、所定のクエリーに関連する1つ又はそれよりも多くのクエリーを保持するようにそれぞれが作動する1つ又はそれよりも多くのローカル又はリモートデータ記憶装置102及び108に保持することができる。本発明の一実施形態によると、データ記憶装置102及び108は、1つ又はそれよりも多くのクエリー又は用語に関連するクエリーのセットを識別するエントリを備えた索引を保持するように作動する。データ記憶装置102及び108によって保持される索引は、関連する用語又はクエリーを示す人間が編集する情報で補足される。例えば、データ記憶装置102及び108内の索引エントリは、日本語のカタカナ、ひらがな、漢字、及びASCII書記体系に従って書かれたクエリー「1リットルの涙 沢尻エリカ」と、1つ又はそれよりも多くの日本語書記体系に従って書かれた1つ又はそれよりも多くの関連するクエリー又は用語とを含むことができる。
データ記憶装置102及び108は、データベース、CD−ROM、テープ、デジタル記憶ライブラリのようなクエリーの1つ又はそれよりも多くのセットの検索及び記憶のために供給することができるデータベース又は記憶構造のあらゆる他のタイプとして実施することができる。データ記憶装置102及び108に保持されるクエリーは、複数の書記体系を有する所定の言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーを含むことができる。例えば、データ記憶装置102及び108に保持されるクエリーは、日本語の漢字、ひらがな、カタカナ、JASCII、及びローマ字書記体系に従って書かれたクエリーを含むことができる。
本発明の別の実施形態によると、検索エンジン107によって識別された関連するクエリーの候補セットは、1つ又はそれよりも多くのクエリーログにおいて統計的有意性で共起するクエリーの1つ又はそれよりも多くの連続する対を含む。検索エンジン107は、クライアントデバイス124a、124b、及び124cから受け取られたクエリーに関連する1つ又はそれよりも多くのクエリーを含む候補セットを識別するためにクエリーログを利用することができる。ユーザによって検索プロバイダ100に提出された複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれる複数のクエリーは、クエリーログ構成要素106に保持することができる。クエリーログ構成要素106は、1つ又はそれよりも多くの書記体系に従って書かれた1つ又はそれよりも多くのクエリーの記憶のために供給することができるデータベース又は類似の記憶構造として実施することができる。
クエリーログ構成要素106は、クエリーが検索プロバイダ100に提出された頻度を識別する情報を保持することができる。同様に、クエリーログ構成要素106は、所定のクエリーが関連するクエリーに続く頻度を識別する情報を保持することができる。例えば、所定のセッション中、検索を行うユーザは、複数の書記体系を有する言語、例えば、日本語の1つ又はそれよりも多くの書記体系に従って書かれた「知的財産」という用語を含むクエリーを提出することができる。同じセッション中、ユーザは、1つ又はそれよりも多くの日本語書記体系に従って書かれた「特許弁理士」という用語を含むクエリーを提出することができる。クエリーログ構成要素106は、所定のユーザのセッション中にクエリー「特許弁理士」がクエリー「知的財産」に続く頻度を識別する情報を保持することができる。
検索エンジン107は、所定のクライアントデバイス124a、124b、及び124cから受け取られたクエリーに統計的に深く関連する1つ又はそれよりも多くのクエリーを含む候補セットを識別するためにクエリーログ構成要素106によって保持されたクエリーログを利用することができる。所定のクエリーに関連すると識別された1つ又はそれよりも多くのクエリーは、クエリーログ構成要素106に保持されたクエリーログで示すように、関連するクエリーの候補セットを補足するか又は生成するために使用することができる。関連するクエリーの候補セットは、日本語のような複数の書記体系を有する所定の言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーを含むことができる。クエリーログを使用して所定のクエリーに関連する1つ又はそれよりも多くのクエリーを識別するための例示的な方法は、「代替検索クエリーを判断するためのシステム及び方法」という名称の共同所有の米国特許出願出願番号第11/200、851号、及び「モジュラー最適化動的セット」という名称の米国特許仮出願第60/736、133号に説明されており、これらの開示は、本明細書においてその全内容が引用により組み込まれている。
類似性構成要素104は、検索エンジン107によって識別された候補セットを使用して、関連するクエリーの候補セット内の1つ又はそれよりも多くのクエリーに対する類似性スコアを計算する。類似性構成要素104は、関連するクエリーの候補セットから所定のクエリーQ’を選択し、所定のクライアントデバイス124a、124b、及び124cから受け取られた所定のクエリーQに対するQ’の意味における類似性の強さを示すQ’の類似性スコアを計算するように作動する。類似性構成要素104は、本明細書に説明される方法に従って検索エンジン107によって識別された関連するクエリーの候補セット内の1つ又はそれよりも多くのクエリーの各々に対して類似性スコアを計算するように作動する。
類似性構成要素104は、検索エンジン107によって識別された関連するクエリーの候補セットにおける各クエリーQ’に対する類似性スコアを計算するために変換構成要素110を利用することができる。本発明の一実施形態によると、変換構成要素110は、所定のクエリーを1つ又はそれよりも多くの文書フォーマットに変換する。変換構成要素110によって生成された所定のクエリーQ’の1つ又はそれよりも多くの文書フォーマットは、類似性スコアの計算を容易にするために類似性構成要素104に分配することができる。例えば、類似性構成要素104は、正確な類似性スコアを計算するために、ユーザから受け取られた所定のクエリーQと、関連するクエリーの候補セットから選択された関連するクエリーQ’との多数の比較を行うことができる。しかし、上述のように、関連するクエリーの候補セット内の1つ又はそれよりも多くのクエリーは、複数の書記体系を有する所定の言語の1つ又はそれよりも多くの書記体系に従って書くことができる。同様に、所定のクライアントデバイス124a、124b、及び124cから受け取られたクエリーは、複数の書記体系を有する所定の言語の1つ又はそれよりも多くの書記体系に従って書くことができる。類似性構成要素104によって行われる1つ又はそれよりも多くの比較は、ユーザから受け取られたクエリーQと、関連するクエリーの候補セットから選択された所定のクエリーQ’とを特定の書記体系に従って表現することができるように要求することができる。例えば、類似性構成要素104は、2つのクエリーを比較するために、所定のクエリーQ及び関連するクエリーQ’の1つ又はそれよりも多くのJASCII文字をASCII文字に変換するように要求することができる。
様々な書記体系に従って書かれる可能なクエリーQとクエリーQ’を比較するために、類似性構成要素104は、所定のクエリーを変換構成要素110に分配することができる。本発明の一実施形態によると、変換構成要素110は、所定のクエリーに関連付けられた言語と書記体系を識別し、クエリーを1つ又はそれよりも多くの代替文書フォーマットに変換するように作動する。検索エンジン107によって識別された候補セットは、日本語の漢字、かな、JASCII、及びローマ字書記体系のような複数の書記体系を有する所定の言語の広範な書記体系に従って書かれたクエリーを含むことができる。変換構成要素110は、1つ又はそれよりも多くの日本語書記体系に従って書かれたクエリーを識別し、クエリーを1つ又はそれよりも多くの代替書記体系に変換するように作動する。例えば、変換構成要素110は、日本語のカタカナ書記体系に従って書かれたクエリーを識別し、日本語ローマ字書記体系に従ってクエリーを変換するように作動する。同様に、変換構成要素110は、1つ又はそれよりも多くのJASCII文字を含むクエリーを識別し、類似性構成要素104による類似性スコアの計算を容易にするために1つ又はそれよりも多くのJASCII文字をASCII文字に変換するように作動する。
本発明の一実施形態によると、関連するクエリーの候補セット内の1つ又はそれよりも多くのクエリーに対する類似性構成要素104によって計算された類似性スコアは、分配のために候補セットから1つ又はそれよりも多くのクエリーを選択するために分配構成要素116によって使用される。類似性スコアに基づくクエリーの選択は、所定のクエリーQに対して意味において最も類似のクエリーの選択を可能にする。例えば、分配構成要素116は、所定の閾値を超える類似性スコアを有する1つ又はそれよりも多くのクエリーを関連するクエリーの候補セットから選択することができる。同様に、分配構成要素は、最も高い類似性スコアを有するN個のクエリーを候補セットから選択することができる。当業者は、類似性スコアを使用して候補セットから1つ又はそれよりも多くのクエリーを選択するための他の技術を認識する。
分配構成要素116は、候補セットから選択された1つ又はそれよりも多くのクエリーを分配することができる。本発明の一実施形態によると、分配構成要素116は、「示唆される代替クエリー」又は「意味において類似のクエリー」として候補セットから選択されたクエリーをユーザにネットワーク122を通じて表示する。代替的に又は上述のものと共に、分配構成要素116は、ネットワーク122に通信することができるように連結されたクライアントデバイス124a、124b、及び124cの所定のユーザによってビューされる検索結果ウェブページに選択されたクエリーを組み込むことができる検索エンジン107に選択された1つ又はそれよりも多くのクエリーを分配するように作動する。
候補セット内の1つ又はそれよりも多くのクエリーに対して類似性構成要素104によって計算された類似性スコアは、所定の要求に応じた分配のための広告を含むコンテンツの1つ又はそれよりも多くの項目を選択するために更に使用することができる。本発明の一実施形態によると、広告は、上述のデータ記憶装置102及び108、又は1つ又はそれよりも多くの異なるデータ記憶装置(示されない)に保持することができる。1つ又はそれよりも多くのローカル102、リモート108、又は異なるデータ記憶装置は、1つ又はそれよりも多くの広告及び広告に対応する語に対する関連の指し値を保持するように作動する。例えば、所定の広告主が、ノートブックコンピュータに対する所定の広告の表示を望むとする。従って、広告主は、「ノートブックコンピュータ」という用語に対して入札し、「ノートブックコンピュータ」という用語を含むクエリーに応答して表示される広告を識別することができる。検索プロバイダ100がクエリーを受け取った場合、検索エンジン107は、ローカル及びリモートデータ記憶装置102及び108、又は1つ又はそれよりも多くの異なるデータ記憶装置を検索し、1つ又はそれよりも多くの広告主が受け取られたクエリーを含む1つ又はそれよりも多くの用語に対して入札したか否かを判断することができる。クエリーを含む用語に対する1つ又はそれよりも多くの指し値が識別された場合、1つ又はそれよりも多くの用語に対する指し値に関連付けられた広告が検索され、分配構成要素116を使用してユーザのクライアントデバイス124a、124b、及び124c上でユーザに表示される。ユーザが表示された所定の広告を選択した場合、選択された広告に関連付けられた広告主に、広告主の指し値に従って合計額が請求される。
しかし、広告主は、複数の書記体系を有する言語の単に1つの書記体系に従って書かれた用語への入札を選択することができる。例えば、広告主は、日本語のひらがな書記体系だけに従って書かれた用語への入札を選択することができる。しかし、上述のように、クライアントデバイス124a、124b、及び124cのユーザによって提出された1つ又はそれよりも多くの検索クエリーは、1つ又はそれよりも多くの書記体系に従って書かれた用語及び語句を含むことができる。従って、検索エンジン107は、所定のクエリーに応答して検索される広告の幅を拡大するために所定の閾値を超える類似性スコアを有するクエリーを利用することができる。本発明の一実施形態によると、検索エンジン107は、所定の閾値を超える類似性スコアを有する1つ又はそれよりも多くのクエリーを含む用語に応答して1つ又はそれよりも多くの広告を識別する。所定の閾値を超える類似性スコアを有するクエリーを含む用語に応じるとして識別された1つ又はそれよりも多くの広告を、1つ又はそれよりも多くのクライアントデバイス124a、124b、及び124cへの分配のために選択することができる。
例えば、クライアントデバイス124a、124b、及び124cのユーザは、日本語の漢字及びローマ字書記体系の両方に従って書かれた日本語の語から成る検索クエリーQを作成することができる。ユーザは、ネットワーク122を通じて検索プロバイダ100にクエリーを提出することができる。検索エンジン107は、ユーザによって用いられた漢字及びローマ字語に対して入札した広告主がないと判断することができる。代替的に又は上述の事柄と共に、検索エンジン107は、ユーザによって用いられた漢字及びローマ字語に関連付けられた指し値に対応する広告を表示することは殆ど収益をもたらさないと判断することができる。しかし、検索エンジン107は、関連した指し値を有する1つ又はそれよりも多くの用語を識別するために、所定の閾値を超える類似性スコアを有する候補セットから選択された1つ又はそれよりも多くのクエリーを含む用語を利用することができる。同様に、検索エンジン107は、所定の閾値を超える指し値を有する1つ又はそれよりも多くの用語を識別するために、所定の閾値を超える類似性スコアを有する候補セットから選択された1つ又はそれよりも多くのクエリーを含む用語を利用することができる。検索エンジン107は、その後、ユーザによって作成された検索クエリーQに応答して1つ又はそれよりも多くの広告を選択するために、関連の指し値を有する1つ又はそれよりも多くの用語、又は所定の閾値を超える関連の指し値を有する1つ又はそれよりも多くの用語を利用することができる。
別の実施例によると、所定の閾値を超える類似性スコアを有する候補セットから選択された所定のクエリーQ’がひらがな用語を含むとすると、ユーザによって作成された上述のクエリーQは、漢字とローマ字語を含む。検索エンジンは、1つ又はそれよりも多くの広告主がクエリーQ’を含むひらがな用語に入札したか否かを判断するために、クエリーQ’を含む1つ又はそれ上のひらがな用語を利用することができる。同様に、検索エンジンは、1つ又はそれよりも多くの広告主が、所定の閾値を超えるクエリーQ’を含む1つ又はそれよりも多くのひらがな用語に入札したか否かを判断することができる。検索エンジン107は、クエリーQ’を含む用語に対して関連の指し値を有する1つ又はそれよりも多くの広告を検索し、1つ又はそれよりも多くの広告を分配構成要素に分配することができる。本発明の一実施形態によると、検索エンジン107は、クエリーQ’を含む1つ又はそれよりも多くの用語に対して最も関連のある指し値を有する1つ又はそれよりも多くの広告を検索する。分配構成要素116は、その後、クエリーQを提出したユーザに1つ又はそれよりも多くの広告を分配することができる。
上述の実施形態は、クエリーの受け取り及び処理を示しているが、図1に示されている検索プロバイダ100システムは、クエリーに対する類似性スコアの受け取り及び計算に制限されず、テキストの1つ又はそれよりも多くのストリングを含む1つ又はそれよりも多くの用語に対する類似性スコアを計算するために更に使用することができる。クライアントデバイス124a、124b、及び124cのユーザは、検索プロバイダ100に、限定ではないが、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた語句、文、段落、及び文書を含む1つ又はそれよりも多くの用語を含むテキストの1つ又はそれよりも多くのストリングを分配することができる。従って、検索プロバイダ100は、テキストのこれらの1つ又はそれよりも多くのストリングのログを1つ又はそれよりも多くのログファイルに記録する。検索プロバイダ100は、このログファイルから1つ又はそれよりも多くの項目を含む候補セットを識別するように作動可能であり、ここで、所定の項目は、クライアントデバイス124a、124b、及び124cの所定のユーザによって分配された1つ又はそれよりも多くの用語に関連する用語の1つ又はそれよりも多くのセットを含む。例えば、候補セットの所定の項目は、語句又は文を含むことができる。同様に、候補セットの所定の項目は、段落又は全文書を含むことができる。検索プロバイダは、クライアントデバイス124a、124b、及び124cから受け取られた1つ又はそれよりも多くの用語に対して項目の意味における類似性の強さを示す候補セットの1つ又はそれよりも多くの項目に対する類似性スコアを計算することができる。
図2は、所定のクエリーQに意味において関連する1つ又はそれよりも多くのクエリーQ’を候補セットから選択する方法の一実施形態を示し、ここで、クエリーQ及びクエリーQ’は、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれる。図2に示すように、検索クエリーが所定のユーザから受け取られる(段階205)。クエリーは、「インターネット」のようなネットワークに通信することができるように連結されたクライアントデバイスから受け取られ、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系の組合せに従って書かれた1つ又はそれよりも多くの用語又は語句を含むことができる。例えば、ユーザから受け取られたクエリーは、漢字、カタカナ、及びひらがな書記体系に従って書かれた日本語の語を含むことができる。
ユーザによって作成された所定のクエリーQに関連するクエリーから成る候補セットが識別される(段階210)。候補セットは、ユーザのクエリーに関連付けられた言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーから構成することができる。例えば、所定のクエリーQは、クエリー「ラクテン」のような日本語のカタカナ書記体系に従って書かれた用語を含むことができる。従って、関連するクエリーの候補セットは、1つ又はそれよりも多くの日本語書記体系の1つ又はそれよりも多くの組合せに従って書かれた1つ又はそれよりも多くのクエリーを含むことができる。例えば、上述のひらがなクエリー「ラクテン」に関連するクエリーの候補セットは、ローマ字クエリー「rakuten」、漢字クエリー「楽天」、ひらがなクエリー「らくてん」などを含むことができる。
所定のクエリーQに関連するクエリーの候補セットは、1つ又はそれよりも多くのクエリーログを使用して生成することができる。本発明の一実施形態によると、クエリーログは、所定のクエリーセッション中にユーザによって作成された1つ又はそれよりも多くのクエリーを識別することができる。例えば、所定のクエリーセッション中、ユーザは、日本語のひらがな及び漢字書記体系に従って書かれた用語を含むクエリーを作成することができる。同じクエリーセッション中、ユーザは、日本語のカタカナ及びローマ字書記体系に従って書かれた用語を含むクエリーを作成することができる。2つのクエリーが統計的有意性で1つ又はそれよりも多くのクエリーログに共起するか否かを判断するための分析を行うことができる。本発明の一実施形態によると、統計的有意性閾値は、1つ又はそれよりも多くのクエリーログで示すような所定のクエリーQに最も関連する1つ又はそれよりも多くのクエリーを選択するために使用することができる。
候補セットは、統計的有意性、又は1つ又はそれよりも多くのクエリーログで示すような所定の閾値を超える統計的有意性で所定のクエリーに関連するとして識別された1つ又はそれよりも多くのクエリーで生成することができる。関連するクエリーの候補セットを含む1つ又はそれよりも多くのクエリーは、全体が引用により組み込まれている上述の出願に説明されるクエリーログを使用して統計的有意性で関連するクエリーを判断する方法に従って選択される。
所定のクエリーQ’は、関連するクエリーの候補セットから選択される(段階215)。図2に示す実施形態によると、類似性スコアは、選択されたクエリーQ’に対して計算される(段階220)。所定のクエリーQ’に対して計算された類似性スコアは、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた所定のクエリーQの意味に対するクエリーQ’の意味の類似性の強さを示す数値を提供する。表Aは、所定のクエリーQ’に対する類似性スコアを計算するために使用することができる方程式の一実施形態を示している。
表Aに示す式は、限定ではないが、漢字、かな、JASCII、かな、カタカナ、ローマ字、及びひらがなを含む1つ又はそれよりも多くの日本語書記体系に従って書かれる所定のクエリーQに対する所定のクエリーQ’の意味における類似性の強さを示すスコアを計算するために使用することができる。当業者は、複数の書記体系を有する他の言語に対する類似性スコアの計算を提供することができるように表Aに示されている式を修正することができることを認識する。
(表A)
Figure 2009528636
表Aに示す式によると、Qは、1つ又はそれよりも多くの日本語書記体系に従って書かれた所定のクエリーを表している。Q’は、クエリーQに関連するクエリーの候補セットから選択されたクエリーを表している。Levrは、全ての日本語文字をローマ字に変換した後にQとQ’間の文字編集距離を計算するための関数である。levrsは、全ての日本語文字をローマ字に変換しスペースを取り除いた後にQとQ’間の文字編集距離を計算するための関数である。Wordrは、全ての日本語文字をローマ字に変換した後のQとQ’間の語編集距離である。数字は、QがQ’に現れないどの数字も包含するか否かを及び逆も同様か否かを識別するための関数である。Kanjiidは、Q又はQ’のいずれかが漢字文字を包含するか否かを判断するための関数であり、包含する場合、QとQ’間の漢字相違を識別するための関数である。Oprは、各クエリーの全ての日本語文字がローマ字に変換された後、第1文字の不一致まで各クエリーの最左端文字から始まるQ及びQ’が共通して有する文字の数を計算し、計算を継続させるための関数である。levkは、全ての漢字文字がかな文字に変換され全ての非日本語文字が取り除かれた後に、QとQ’間の文字編集距離を計算するための関数である。P12minは、ユーザクエリーセッションのログにおいてクエリーQに続くクエリーQ’のクエリー置換確率を計算するための関数である。表Aに示す類似性スコア関数によって利用される関数の実施形態を図3から図11に示している。
類似性スコアが候補セット内の1つ又はそれよりも多くのクエリーに対して計算されたか否かを判断するための検査が行われる(段階225)。候補セット内の1つ又はそれよりも多くのクエリーが関連する類似性スコアを持たない場合、付加的なクエリーQ’が、候補セットから選択される(段階215)。代替的に、類似性スコアが候補セット内の1つ又はそれよりも多くのクエリーに対して計算されている場合、所定のクエリーQ’が、候補セットから選択される(段階230)。候補セットから選択されたクエリーQ’に関連した類似性スコアが、所定の類似性スコア閾値を超えるか否かを判断するための検査が行われる(段階235)。本発明の一実施形態によると、類似性スコア閾値は、所定のクエリーQ’に関連付けられた類似性スコアとの比較を行うために使用することができる数値を含む。類似性スコアは、クエリーQに対する所定のクエリーQ’の意味における類似性の強さを示すので、類似性スコア閾値の使用は、クエリーQに対して意味において最も類似する1つ又はそれよりも多くのクエリーの候補セットからの選択を容易にする。
所定のクエリーQ’に関連付けられた類似性スコアが、類似性スコア閾値を超える場合、クエリーQ’が分配セットに加えられる(段階245)。本発明の一実施形態によると、分配セットは、類似性スコア閾値を超える類似性スコアを有する候補セットから選択された1つ又はそれよりも多くのクエリーを含む。所定のクエリーQ’に関連付けられた類似性スコアが、類似性スコア閾値を超えない場合、クエリーQ’は、分配セットに加えられない(段階240)。
分析を必要とする候補セットの付加的なクエリーがあるか否かを判断するための検査が行われる(段階250)。候補の1つ又はそれよりも多くのクエリーが分析を必要とする場合、付加的なクエリーQ’が、候補セットから選択される(段階230)。代替的に、候補セットの全てのクエリーが分析され、分配セットに類似性スコア閾値を超える1つ又はそれよりも多くのクエリーがポピュレートされた後、分配セットの1つ又はそれよりも多くのクエリーが分配される(段階255)。
類似性スコア閾値を超えるクエリーの分配セットの1つ又はそれよりも多くのクエリーが、クエリーQを提出したユーザに分配される。本発明の一実施形態によると、分配セットの1つ又はそれよりも多くのクエリーが、結果ウェブページでユーザに表示される。例えば、ユーザには、クエリーQに応じたコンテンツ項目へのリンク、並びにクエリーQに対する意味において最も類似の分配セットを含む1つ又はそれよりも多くのQ’クエリーのような結果を含むウェブページが表示される。所定のユーザに分配された分配セットの1つ又はそれよりも多くのクエリーは、クエリーQに対する所定のクエリーQ’の意味における類似性の相対的な強さをユーザに示すために、類似性スコアに従ってランク付けされたリストで表示される。
図3から11は、クエリーの候補セットから選択された所定のクエリーQ’に対する類似性スコアを計算するために使用することができる表Aに示す関数の実施形態を示している。上述のように、表A、更に図3から11に示す複数の関数は、1つ又はそれよりも多くの日本語書記体系に従って書かれたクエリーQに対する所定のクエリーQ’の意味における類似性の強さを示す類似性スコアを計算するために使用することができる。しかし、当業者は、図3から11に示す関数の実施形態が例示的なものであり、日本語言語及び書記体系に制限されないものであること、及び複数の書記体系を有する他の言語に対する類似性スコアの計算を提供するように修正することができることを認識する。当業者は、更に、図3から11に示されている関数が、所定のクエリーに関連する1つ又はそれよりも多くのクエリーを含む候補セットに対する類似性スコアを計算することに制限されないこと、及び複数の技術に従って選択された1つ又はそれよりも多くのクエリーを含むクエリーの候補セットに対する類似性スコアを計算するために使用することができることを認識する。更に、当業者は、図3から11に示す関数が、1つ又はそれよりも多くのクエリーを含む候補セットに対する類似性スコアを計算することに制限されないこと、更に、限定ではないが、語句、文、段落、及び文書を含む用語の1つ又はそれよりも多くのセットに対する類似性スコアを計算するために修正することができることを認識する。
図3は、1つ又はそれよりも多くの日本語書記体系に従って書かれた所定のクエリーQと、クエリーの候補セットから選択されたクエリーQ’との間の文字編集距離を計算する方法の一実施形態を示している。図3に示す方法は、表Aに示す類似性スコア関数によって利用されるlevk関数の一実施形態を示している。
漢字、カタカナ、ひらがなのような1つ又はそれよりも多くの日本語書記体系に従って書かれるクエリーQを含む1つ又はそれよりも多くの文字がローマ字に変換される(段階305)。所定のクエリーQ’は、1つ又はそれよりも多くのクエリーから構成される候補セットから選択される(段階310)。候補セットから選択されたクエリーQ’は、クエリーQに関連付けられた言語の1つ又はそれよりも多くの書記体系に従って書くことができる。例えば、Q’は、クエリーQと同じ書記体系、又は日本語ローマ字書記体系、日本語かな書記体系のような1つ又はそれよりも多くの代替日本語書記体系に従って書くことができる。Q’を含む文字がローマ字形式であるか否かを判断するための検査が行われる(段階315)。クエリーQ’がローマ字形式でない場合、Q’を含む1つ又はそれよりも多くの文字がローマ字に変換される(段階320)。Q’を含む1つ又はそれよりも多くの用語が既にローマ字形式である場合、又はQ’の文字全てがローマ字形式に変換された後に、クエリーQとクエリーQ’間の文字編集距離を識別するための計算が行われる(段階325)。文字編集距離値は、Q’に対する類似性スコアを計算するために、表Aに示す類似性スコア関数に供給される。
図4は、1つ又はそれよりも多くの日本語書記体系に従って書かれた所定のクエリーQと、クエリーの候補セットから選択されたクエリーQ’との間の文字編集距離を計算する方法の一実施形態を示している。図4に示す実施形態は、表Aに示す類似性スコア関数によって使用されるlevrs関数の一実施形態を提供する。
図4に示す実施形態によると、漢字、カタカナ、又はひらがなのような1つ又はそれよりも多くの日本語書記体系に従って書かれたクエリーQがローマ字形式に変換される(段階405)。その後、クエリーQからローマ字で現れる全てのスペース文字が取り除かれる(段階408)。例えば、所定のクエリーQは、漢字の用語「電車男」を含むことができる。ローマ字形式に変換後、クエリーQは、用語「densha otoko」を含むことができ、スペースを取り除いた後、クエリーQは、文字「denshaotoko」を含むことができる。
所定のクエリーQ’が1つ又はそれよりも多くのクエリーを含む候補セットから選択される(段階410)。Q’がローマ字形式であるか否かを判断するための検査が行われる(段階415)。クエリーQ’がローマ字形式でない場合、クエリーQ’を含む1つ又はそれよりも多くの文字がローマ字に変換される(段階420)。クエリーQ’を含む文字が既にローマ字形式である場合、又はクエリーQ’を含む文字がローマ字形式に変換された後に、クエリーQ’内の全てのスペースが取り除かれる(段階425)。その後、クエリーQとQ’のローマ字形式間の文字編集距離が計算される(段階430)。クエリーQとQ’間の計算された文字編集距離は、Q’に対する類似性スコアを計算するために、表Aに示す類似性スコア関数によって使用される。
図5は、表Aに示すwordr関数の一実施形態を示している。図5に示すwordr関数の実施形態は、1つ又はそれよりも多くの日本語書記体系に従って書かれた所定のクエリーQとクエリーの候補セットから選択されたクエリーQ’との間の語編集距離の計算を提供する。本発明の一実施形態によると、所定のクエリーQとクエリーQ’間の語編集距離は、値1と、QとQ’におけるスペースで区切られた固有の共起語の数とQとQ’の両方におけるスペースで区切られた固有の語の総数との商との間の差である。
1つ又はそれよりも多くの日本語書記体系に従って書かれた所定のクエリーQを含む文字がローマ字形式に変換される(段階505)。その後、所定のクエリーQ’がクエリーの候補セットから選択される(段階506)。クエリーQ’がローマ字形式であるか否かを判断するための検査が行われる(段階508)。クエリーQ’がローマ字形式でない場合、クエリーQ’を含む文字がローマ字に変換される(段階510)。クエリーQ’を含む文字が既にローマ字形式である場合、又はQ’を含む文字がローマ字形式に変換された後に、Q及びQ’におけるスペースで区切られた固有の共起語の数が識別される(段階515)。Q及びQ’におけるスペースで区切られた固有の共起語の数とQ及びQ’両方におけるスペースで区切られた固有の語の総数との商が計算される(段階520)。本発明の一実施形態によると、スペースで区切られた固有の共起語の数は、所定のクエリーQ及びクエリーQ’の両方に現れる固有の語の数を含む。更に、Q及びQ’の両方におけるスペースで区切られた固有の語の総数は、所定のクエリーQ及びクエリーQ’におけるスペースで区切られた固有の語の和を含む。
値1と、計算された商との間の差が計算され(段階525)、「wordr」レジスタに割り当てられる(段階530)。本発明の一実施形態によると、「wordr」レジスタは、所定の数値を記憶するためのメモリデバイスを含む。「wordr」レジスタに割り当てられた値は、クエリーQ’に対する類似性スコアを計算するために、表Aに示されている類似性スコア関数によって使用される。
例えば、ローマ字形式の所定のクエリーQは、用語「kuruma kemuri」から構成される。同様に、ローマ字形式の所定のクエリーQ’は、用語「sora kemuri」から構成される。Q及びQ’におけるスペースで区切られた固有の共起語の数は、1、すなわち、語「kemuri」であり、ここで、Q及びQ’両方におけるスペースで区切られた固有の語の総数は、3、すなわち、語「kuruma」、「sora」、及び「kemuri」である。従って、Q及びQ’におけるスペースで区切られた固有の共起語の数と、Q及びQ’両方におけるスペースで区切られた固有の共起語の総数との商は、1/3である。更に、1と計算された商との間の差は、2/3である。値2/3は、「wordr」レジスタに割り当てられ、クエリーQ’に対する類似性スコアを計算するために、表Aに示す類似性スコア関数によって使用される。
図6は、クエリーの候補セットから選択されたクエリーQ’との比較において、数字が1つ又はそれよりも多くの日本語書記体系に従って書かれた所定のクエリーQに固有であるか否かを判断する方法の一実施形態を示している。図6に示す実施形態は、表Aに示す類似性スコア関数によって使用される「数字」関数の一実施形態を提供する。
所定のクエリーQ’は、1つ又はそれよりも多くの書記体系に従って書かれたクエリーから構成される候補セットから選択される(段階605)。所定のクエリーQにおける数字が、クエリーQ’に現れないか否かを判断するための検査が行われる。例えば、所定のクエリーQは、日本語漢数字「六十八」(アラビア数字「68」によって表される値に対応する)を包含することができ、所定のクエリーQ’は、日本語漢数字「九十八」(アラビア数字「98」によって表される値に対応する)を包含することができる。従って、段階610で行われる検査は、日本語漢数字「六」がクエリーQ’に現れない場合、日本語漢数字「六」がクエリーQに固有であると判断する。同様に、所定のクエリーQは、日本語漢字文字とアラビア数字の「楽天2005」を含むことができ、所定のクエリーQ’は、日本語漢字文字とアラビア数字の「楽天2004」を含むことができる。段階610で行われる検査は、アラビア数字5がクエリーQ’に現れない場合、アラビア数字5がクエリーQに固有であると判断する。
数字がクエリーQに現われて、クエリーQ’に現われないと識別された場合、「数字」レジスタは、クエリーQが、クエリーQ’にない数字を包含することを示す値1に設定される(段階620)。本発明の一実施形態によると、「数字」レジスタは、所定の数値を記憶するためのメモリデバイスを含む。
代替的に、Q’が、クエリーQに現われる1つ又はそれよりも多くの数字の各々を包含する場合、クエリーQ’の数字がクエリーQに現われないか否かを判断するための付加的な検査が行われる(段階615)。クエリーQ’が、クエリーQに現われない数字を包含する場合、上述の「数字」レジスタは、クエリーQ’が、Q’に固有の数字を包含することを示す値1に設定される(段階620)。代替的に、クエリーQがQ’における1つ又はそれよりも多くの数字の各々を包含する場合、「数字」レジスタは、クエリーQ’における1つ又はそれよりも多くの数字がクエリーQに現われること及び逆も同様に示す0に設定される(段階625)。「数字」レジスタに割り当てられる値、0又は1のいずれかは、クエリーQ’に対する類似性スコアを計算するために、表Aに示す類似性スコア関数によって使用される。
図7は、表Aに示す類似性スコア関数によって使用される「kanjid」関数の一実施形態を示している。1つ又はそれよりも多くの日本語書記体系に従って書かれる所定のクエリーQが受け取られる(段階705)。クエリーQが1つ又はそれよりも多くの日本語漢字文字を包含するか否かを判断するための検査が行われる(段階710)。クエリーQがいずれの漢字文字も包含しない場合、「kanjid」レジスタは、0に設定され(段階708)、ここで、「kanjid」レジスタは、所定の数値を記憶するためのメモリデバイスを含むことができる。代替的に、クエリーQが1つ又はそれよりも多くの漢字文字を包含する場合、クエリーQ’が、クエリーの候補セットから選択される(段階715)。
候補セットから選択されたクエリーQ’が、1つ又はそれよりも多くの漢字文字を包含するか否かを判断するための検査が行われる(段階720)。クエリーQ’がいずれの漢字文字も包含しない場合、上述の「kanjid」レジスタは、0に設定される(段階708)。対照的に、Q’が1つ又はそれよりも多くの漢字文字を包含する場合、Q及びQ’における1つ又はそれよりも多くの漢字でない文字が取り除かれる(段階722)。その後、クエリーQ及びクエリーQ’に共起する固有の漢字文字の数が識別される(段階725)。例えば、漢字でない文字を取り除いた後、クエリーQが、漢字文字「楽天市場」から構成され、漢字でない文字を取り除いた後、クエリーQ’が、漢字文字「楽天」から構成される場合、Q及びQ’における固有の共起漢字文字の数は、2、すなわち、「楽天」である。
その後、Q及びQ’両方における固有の漢字文字の総数が識別される(段階727)。例えば、漢字文字「楽天市場」から構成されるQ及び漢字文字「楽天」から構成されるQ’両方における固有の漢字文字の総数は、6、すなわち、クエリーQからの固有の漢字文字「楽天市場」とクエリーQ’からの固有の漢字文字「楽天」である。共起する漢字文字の数と総固有漢字文字との商が計算される(段階730)。「kanjid」レジスタは、1と計算された商との間の差の値に設定される(段階735)。「kanjid」レジスタ値は、Q’に対する類似性スコアを計算するために、表Aに示す類似性スコア関数によって使用される。
図8は、1つ又はそれよりも多くの日本語書記体系に従って書かれた所定のクエリーQと、クエリーの候補セットから選択されたクエリーQ’との接頭辞において重なる文字の数を識別し、更に、第1文字の不一致まで各クエリーの最左端の文字の比較から始めて比較を継続させる方法の一実施形態を示している。図8に示す方法は、表Aに示す類似性スコア関数によって利用されるopr関数の一実施形態を示している。
1つ又はそれよりも多くの日本語書記体系に従って書かれた所定のクエリーQが、ローマ字形式に変換される(段階805)。クエリーQ’が、クエリーの候補セットから選択される(段階810)。クエリーQ’を含む1つ又はそれよりも多くの文字が、ローマ字形式であるか否かを判断するための検査が行われる(段階815)。クエリーQ’を含む1つ又はそれよりも多くの文字がローマ字形式でない場合、文字が、ローマ字に変換される(段階820)。Q’を含む文字が既にローマ字形式である場合、又はQ’を含む1つ又はそれよりも多くの文字がローマ字形式に変換された後に、クエリーQ及びクエリーQ’の第1ローマ字文字が選択される(段階825)。
クエリーQから選択された第1文字とクエリーQ’から選択された第1文字とが適合するか否かを判断するための検査が行われる(段階835)。Q及びQ’から選択された第1文字が適合しない場合、処理は終了する(段階830)。代替的に、選択された文字が適合した場合、クエリーQ及びクエリーQ’に対する文字適合が識別されたことを示す文字適合計数レジスタが増分される(段階850)。本発明の一実施形態によると、文字適合計数レジスタは、値0で初期化され、クエリーQ及びクエリーQ’からの文字が適合として識別された場合に増分される。
Q及びQ’からの次の文字が選択され(段階840)、次の文字が適合するか否かを判断するための検査が行われる(段階835)。Q及びQ’から選択された文字が適合しない場合、文字適合計数レジスタは増分されず、処理は終了する(段階830)。処理が終了した場合(段階830)、文字適合計数レジスタの値は、Q及びQ’において適合する文字の数を示すことになる。文字適合計数レジスタの値は、クエリーQ’に対する類似性スコアを計算するために、表Aに示す類似性スコア関数によって利用される。
図9は、1つ又はそれよりも多くの日本語書記体系に従って書かれた所定のクエリーQ又はクエリーの候補セットから選択されたクエリーQ’が非ローマ字文字を包含するか否かを識別する方法の一実施形態を示している。図9に示す実施形態は、表Aに示されている類似性スコア関数によって使用される「日本語」関数を示している。
1つ又はそれよりも多くの日本語書記体系に従って書かれた所定のクエリーQが受け取られる(段階905)。クエリーQが1つ又はそれよりも多くの非ローマ字文字を包含するか否かを判断するための検査が行われる(段階910)。クエリーQが1つ又はそれよりも多くの非ローマ字文字を包含する場合、「日本語」レジスタは、値1に設定される(段階908)。本発明の一実施形態によると、「日本語」レジスタは、所定の数値を記憶するためのメモリデバイスを含む。
クエリーQが1つ又はそれよりも多くの非ローマ字文字を包含しない場合、クエリーQ’が、1つ又はそれよりも多くのクエリーを含む候補セットから選択される(段階915)。クエリーQ’が、1つ又はそれよりも多くの非ローマ字文字を包含するか否かを判断するための検査が行われる(段階920)。クエリーQ’が、1つ又はそれよりも多くの非ローマ字文字を包含する場合、「日本語」レジスタは、値(「1」)に設定される(段階908)。代替的に、クエリーQ’が非ローマ字文字だけを包含する場合、「日本語」レジスタは、値0に設定され(段階922)、その後、処理が終了する(段階925)。「日本語」レジスタに保持される値は、クエリーQ’に対する類似性スコアを計算するために、表Aに示す類似性スコア関数によって利用される。
図10は、全ての漢字及び非日本語文字が各それぞれのクエリーから取り除かれた後、所定のクエリーQ及びクエリーQ’の間の文字編集距離を判断する方法の一実施形態を示している。図10に示されている方法は、表Aに示す類似性スコア関数によって利用されるlevk関数の一実施形態を示している。
図10に示すように、所定のクエリーQ’が、クエリーの候補セットから選択される(段階1005)。1つ又はそれよりも多くの日本語書記体系に従って書かれたクエリーQ’又は所定のクエリーQが、1つ又はそれよりも多くの漢字文字を包含するか否かを判断するための検査が行われる(段階1010)。クエリーQ又はクエリーQ’のいずれかが、1つ又はそれよりも多くの漢字文字を包含する場合、各それぞれのクエリーにおける漢字文字が、かな文字に変換される(段階1015)。例えば、クエリーQは、「人200」のような漢字文字とアラビア数字の両方から構成される。漢字文字をかな文字に変換した後、クエリーQは、文字「ひと200」を含むことができる。
クエリーQ又はクエリーQ’のいずれも漢字文字を包含しない場合、又は各それぞれのクエリーにおける全ての漢字文字がかな文字に変換された後に、いずれかのクエリーが非日本語文字を包含するか否かを判断するための検査が行われる(段階1020)。本発明の一実施形態によると、非日本語文字は、1つ又はそれよりも多くの日本語書記体系に従って書かれていない文字を含む。例えば、クエリーQが、「ひと200」のようなかな文字とアラビア数字を含む場合、アラビア数字「200」は、非日本語文字を構成することができる。
クエリーQ又はクエリーQ’のいずれかが、非日本語文字を包含する場合、非日本語文字が取り除かれる(段階1025)。上述の実施例に関して、クエリーQから非日本語文字、すなわち、アラビア数字「200」を取り除いた後、クエリーQは、かな文字「ひと」を含むことができる。クエリーQ又はクエリーQ’のいずれも非日本語文字を包含しない場合、又は全ての非日本語文字が取り除かれた後に、QとQ’間の文字編集距離が計算される(段階1030)。クエリーQとクエリーQ’間の文字編集距離は、Q’に対する類似性スコアを計算するために、表Aに示す類似性スコア関数によって使用される。
図11は、表Aに示す類似性スコア関数によって利用される「p12min」関数の一実施形態を示している。本発明の一実施形態によると、「p12min」関数は、所定のクエリーQに続く所定のクエリーQ’のクエリー置換確率を計算し、所定の語句Pに続く語句P’の語句置換を計算するために使用される。例えば、1つ又はそれよりも多くのクエリーログは、クエリーセッション中に所定のユーザによって提出された1つ又はそれよりも多くのクエリー及び語句を識別する段階を保持することができる。クエリーログは、例えば、ユーザがクエリーQをどのように精錬したか、ユーザがクエリーQをどのように書き換えたか、クエリーQを表すためにユーザが複数の書記体系を有する言語の1つ又はそれよりも多くの代替書記体系をどのように利用したかなどの指示を提供するために、ユーザによって提出された1つ又はそれよりも多くのクエリー及び語句の順序を識別することができる。クエリーログは、更に、1人又はそれよりも多くのユーザが、1つ又はそれよりも多くのクエリー又は語句を提出した頻度を指示することができる。
所定のクエリーQが1つ又はそれよりも多くのクエリーログに現われる頻度が識別される(段階1105)。所定のクエリーQ’が、クエリーの候補セットから選択される(段階1110)。1つ又はそれよりも多くのクエリーログのいずれかにおいてクエリーQ’がクエリーQに続くか否かを判断するための検査が行われる(段階1115)。本発明の一実施形態によると、所定のユーザのクエリーセッションに対してクエリーログにおいてクエリーQ’がクエリーQに続くか否かを判断するための検査が行われ、クエリーセッションは、所定の期間にユーザによって提出された1つ又はそれよりも多くのクエリーを含むことができる。
クエリーQ’が、1つ又はそれよりも多くのクエリーログのいずれかにおいてクエリーQに続かない場合、「p12min」レジスタは、0に設定され(段階1125)、「p12min」レジスタは、所定の数値を記憶するためのメモリデバイスを含むことができる。代替的に、クエリーQ’が、クエリーログの1つ又はそれよりも多くにおいてQに続くものとして識別された場合、クエリーQ’がクエリーログにおいてクエリーQに続く頻度が識別される(段階1120)。「p12min」レジスタは、クエリーQ’がクエリーログにおいてクエリーQに続く頻度と、クエリーログにおけるクエリーQの頻度との商の値に設定される(段階1140)。例えば、クエリーQがクエリーログに12回現われ、Q’がクエリーログにおいてクエリーQに7回続く場合、「p12min」レジスタは、値「7/12」に設定される。
当業者は、図3から11に示し、かつ表Aに示す類似性スコア関数によって利用される関数が日本語に制限されないこと、及び複数の書記体系を有する1つ又はそれよりも多くの言語に対して修正することができることを認識する。当業者は、更に、表Aに示す類似性スコア関数は、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた所定のクエリーに対する類似性スコアを計算するために図3から11に示されている関数の1つ又はそれよりも多くの組合せを利用することができることを認識する。
本発明を好ましい実施形態に関連して説明して例証したが、当業者には明らかなように、本発明の精神及び範囲から逸脱することなく多くの変形及び変更を行うことができ、本発明は、従って、そのような変形及び変更が本発明の範囲に含まれるように意図しているので、上述の方法又は構成の厳密な詳細に制限されないものとする。
本発明の一実施形態による複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系の組合せに従って書かれた1つ又はそれよりも多くの関連するクエリーを識別するためのシステムを示すブロック図である。 本発明の一実施形態による複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系の組合せに従って書かれた1つ又はそれよりも多くの関連するクエリーを選択する方法の一実施形態を示す流れ図である。 本発明の一実施形態による複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた2つのクエリーの間の文字編集距離を計算する方法の一実施形態を示す流れ図である。 本発明の一実施形態による複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた2つのクエリーの間の文字編集距離を計算するための別の実施形態を示す流れ図である。 本発明の一実施形態による複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた2つのクエリーの間の語編集距離を計算する方法の一実施形態を示す流れ図である。 本発明の一実施形態による複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた2つのクエリーに現れる数字の差を識別する方法の一実施形態を示す流れ図である。 本発明の一実施形態による書記体系の1つのみの文字を考慮に入れて複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた2つのクエリーの間の文字編集距離を計算する方法の一実施形態を示す流れ図である。 本発明の一実施形態による複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた2つのクエリーの接頭辞に重なった文字の数を識別する方法の一実施形態を示す流れ図である。 本発明の一実施形態による複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた2つのクエリーが非ローマ字文字を有するか否かを識別する方法の一実施形態を示す流れ図である。 本発明の一実施形態による複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた2つのクエリーの間の文字編集距離を両方のクエリーが所定の書記体系に変換された後に計算する方法の一実施形態を示す流れ図である。 本発明の一実施形態による複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれた2つのクエリーのクエリー及び語句置換確率を計算する方法の一実施形態を示す流れ図である。
符号の説明
100 検索プロバイダ
107 検索エンジン
108 データ記憶装置
122 ネットワーク
124a、124b、124c クライアントデバイス

Claims (38)

  1. 所定のクエリーに関連する1つ又はそれよりも多くのクエリーを識別する方法であって、
    複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーを受け取る段階と、
    複数の書記体系を有する前記言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーの候補セットを識別する段階と、
    前記候補セット内の前記1つ又はそれよりも多くのクエリーに対して、前記受け取られたクエリーに対する該1つ又はそれよりも多くのクエリーの類似性を示すスコアを計算する段階と、
    を含むことを特徴とする方法。
  2. 前記クエリーを受け取る段階は、1つ又はそれよりも多くの日本語書記体系の組合せに従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
  3. 前記クエリーの候補セットを識別する段階は、前記受け取られたクエリーに関連する1組の1つ又はそれよりも多くのクエリーを識別する段階を含むことを特徴とする請求項1に記載の方法。
  4. 前記受け取られたクエリーに関連する前記クエリーの候補セットを識別する段階は、1つ又はそれよりも多くのクエリーログにおいて示されるような該受け取られたクエリーに関連する1つ又はそれよりも多くのクエリーを識別する段階を含むことを特徴とする請求項3に記載の方法。
  5. 前記クエリーを受け取る段階は、日本語ひらがな書記体系に従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
  6. 前記クエリーを受け取る段階は、日本語カタカナ書記体系に従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
  7. 前記クエリーを受け取る段階は、日本語かな書記体系に従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
  8. 前記クエリーを受け取る段階は、日本語ローマ字書記体系に従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
  9. 前記クエリーを受け取る段階は、日本語JASCII書記体系に従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
  10. 前記クエリーを受け取る段階は、日本語漢字書記体系に従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
  11. 前記クエリーを受け取る段階は、語句を含む1組の用語を受け取る段階を含むことを特徴とする請求項1に記載の方法。
  12. 前記候補セット内の前記1つ又はそれよりも多くのクエリーに対するスコアを計算する段階は、前記受け取られたクエリーに対する前記候補からの所定のクエリーの意味における類似性を示すスコアを計算する段階を含むことを特徴とする請求項1に記載の方法。
  13. スコアを計算する段階は、
    前記受け取られたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
    前記候補セットから選択されたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
    前記受け取られたクエリーと前記候補セットからの前記選択されたクエリーの間の文字編集距離を計算する段階と、
    を含む、
    ことを特徴とする請求項1に記載の方法。
  14. スコアを計算する段階は、
    前記受け取られたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
    前記候補セットから選択されたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
    前記受け取られたクエリーと前記候補セットからの前記選択されたクエリーからスペース文字を取り除く段階と、
    前記受け取られたクエリーと前記候補セットからの前記選択されたクエリーとの間の文字編集距離を計算する段階と、
    を含む、
    ことを特徴とする請求項1に記載の方法。
  15. スコアを計算する段階は、
    前記受け取られたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
    前記候補セットから選択されたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
    前記受け取られたクエリー及び前記選択されたクエリー内のスペースで区切られた固有の共起語の数を識別する段階と、
    前記受け取られたクエリーと前記選択されたクエリーの両方におけるスペースで区切られた固有の語の総数を識別する段階と、
    両方のクエリー内のスペースで区切られた固有の共起語の前記数とスペースで区切られた固有の語の前記総数との商を計算する段階と、
    数値1と前記計算された商との間の差を計算する段階と、
    を含む、
    ことを特徴とする請求項1に記載の方法。
  16. スコアを計算する段階は、数字が、前記受け取られたクエリー又は前記候補セットから選択されたクエリーに固有であるか否かを識別する段階を含むことを特徴とする請求項1に記載の方法。
  17. スコアを計算する段階は、
    前記受け取られたクエリー及び前記候補セットから選択されたクエリー内の共起する日本語漢字文字の数を識別する段階と、
    前記受け取られたクエリー及び前記候補セットからの前記選択されたクエリー内の固有の日本語漢字文字の総数を識別する段階と、
    共起する日本語漢字文字の前記数と固有の日本語漢字文字の前記総数との商を計算する段階と、
    数値1と前記計算された商との間の差を計算する段階と、
    を含む、
    ことを特徴とする請求項1に記載の方法。
  18. スコアを計算する段階は、
    前記受け取られたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
    前記候補セットから選択されたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
    前記受け取られたクエリーと前記選択されたクエリーとが共通して有するローマ字の数を計算する段階と、
    を含む、
    ことを特徴とする請求項1に記載の方法。
  19. スコアを計算する段階は、前記受け取られたクエリー又は前記候補セットから選択されたクエリーのいずれかが、非ローマ字文字を包含するか否かを識別する段階を含むことを特徴とする請求項1に記載の方法。
  20. スコアを計算する段階は、
    前記受け取られたクエリーの1つ又はそれよりも多くの日本語漢字文字を日本語かな文字に変換する段階と、
    前記候補セットから選択されたクエリーの1つ又はそれよりも多くの日本語漢字文字を日本語かな文字に変換する段階と、
    前記受け取られたクエリー及び前記候補セットからの前記選択されたクエリーから全ての非日本語文字を取り除く段階と、
    前記受け取られたクエリーと前記候補セットからの前記選択されたクエリーとの間の文字編集距離を計算する段階と、
    を含む、
    ことを特徴とする請求項1に記載の方法。
  21. スコアを計算する段階は、前記候補セットからの選択されたクエリーが、1つ又はそれよりも多くのクエリーログ内で前記受け取られたクエリーに続く頻度と、該1つ又はそれよりも多くのクエリーログ内の該受け取られたクエリーの頻度との商を計算する段階を含むことを特徴とする請求項1に記載の方法。
  22. 分配のために前記候補セットからの前記クエリーの1つ又はそれよりも多くを選択する段階を含むことを特徴とする請求項1に記載の方法。
  23. 分配のために前記候補セットからの前記クエリーの1つ又はそれよりも多くを選択する段階は、所定の閾値を超えるスコアを有する1つ又はそれよりも多くのクエリーを選択する段階を含むことを特徴とする請求項22に記載の方法。
  24. 所定の閾値を超えるスコアを有する前記候補セットからの前記1つ又はそれよりも多くのクエリーを分配する段階を含むことを特徴とする請求項1に記載の方法。
  25. 前記候補セットからの前記1つ又はそれよりも多くのクエリーを分配する段階は、該1つ又はそれよりも多くのクエリーをウェブページに組み込む段階を含むことを特徴とする請求項24に記載の方法。
  26. 所定のクエリーに関連する1つ又はそれよりも多くのクエリーを識別するためのシステムであって、
    複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーを受け取り、かつ
    複数の書記体系を有する前記言語の1つ又はそれよりも多くの書記体系に従って書かれた1つ又はそれよりも多くのクエリーの候補セットを識別する、
    ように作動する検索エンジンと、
    前記受け取られたクエリーと前記候補セット内の前記1つ又はそれよりも多くのクエリーとを1つ又はそれよりも多くの文書フォーマットに変換するように作動する変換構成要素と、
    前記受け取られたクエリーに対する前記1つ又はそれよりも多くのクエリーの類似性を示す、前記候補セット内の前記1つ又はそれよりも多くのクエリーに対するスコアを計算するように作動する類似性構成要素と、
    を含むことを特徴とするシステム。
  27. 前記検索エンジンは、1つ又はそれよりも多くの日本語書記体系に従って書かれたクエリーを受け取るように作動することを特徴とする請求項26に記載のシステム。
  28. 前記検索エンジンは、前記受け取られたクエリーに関連する1つ又はそれよりも多くのクエリーから成る候補セットを識別するように作動することを特徴とする請求項26に記載のシステム。
  29. 前記検索エンジンは、前記受け取られたクエリーに関連する1つ又はそれよりも多くのクエリーを識別するために1つ又はそれよりも多くのクエリーログを検索するように作動することを特徴とする請求項28に記載のシステム。
  30. 前記変換構成要素は、1つ又はそれよりも多くの書記体系に従ってクエリーを1つ又はそれよりも多くの文書フォーマットに変換するように作動することを特徴とする請求項26に記載のシステム。
  31. 前記類似性構成要素は、前記受け取られたクエリーに対する前記候補セットから選択されたクエリーの意味における類似性を示すスコアを計算するように作動することを特徴とする請求項26に記載のシステム。
  32. 前記類似性構成要素は、前記受け取られたクエリーと前記候補セットから選択されたクエリーとの間の文字編集距離を計算するように作動することを特徴とする請求項26に記載のシステム。
  33. 前記類似性構成要素は、
    前記受け取られたクエリー及び前記選択されたクエリー内のスペースで区切られた固有の共起語の数を識別し、
    前記受け取られたクエリー及び前記選択されたクエリーの両方におけるスペースで区切られた固有の語の総数を識別し、
    両方のクエリー内のスペースで区切られた固有の共起語の前記数とスペースで区切られた固有の語の前記総数との商を計算し、かつ
    数値1と前記計算された商との間の差を計算する、
    ように作動する、
    ことを特徴とする請求項26に記載のシステム。
  34. 前記類似性構成要素は、数字が、前記受け取られたクエリー又は前記候補セットから選択されたクエリーに固有であるか否かを識別するように作動することを特徴とする請求項26に記載のシステム。
  35. 前記類似性構成要素は、
    前記受け取られたクエリー及び前記候補セットから選択されたクエリー内の共起する日本語漢字文字の数を識別し、
    前記受け取られたクエリー及び前記候補セットからの前記選択されたクエリー内の固有の日本語漢字文字の総数を識別し、
    共起する日本語漢字文字の前記数と固有の日本語漢字文字の前記総数との商を計算し、
    数値1と前記計算された商との間の差を計算する、
    ように作動する、
    ことを特徴とする請求項26に記載のシステム。
  36. 前記類似性構成要素は、前記受け取られたクエリーと前記候補セットから選択されたクエリーとが共通して有する文字の数を計算するように作動することを特徴とする請求項26に記載のシステム。
  37. 前記類似性構成要素は、前記受け取られたクエリー又は前記候補セットから選択されたクエリーが、所定の書記体系の1つ又はそれよりも多くの文字を包含するか否かを識別するように作動することを特徴とする請求項26に記載のシステム。
  38. 前記類似性構成要素は、前記候補セットから選択されたクエリーが、1つ又はそれよりも多くのクエリーログ内で前記受け取られたクエリーに続く頻度と、該1つ又はそれよりも多くのクエリーログ内の該受け取られたクエリーの頻度との商を計算するように作動することを特徴とする請求項26に記載のシステム。
JP2008557464A 2006-02-28 2007-02-27 複数の書記体系を有する言語に対する関連のクエリーを識別するためのシステム及び方法 Pending JP2009528636A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/365,315 US7689554B2 (en) 2006-02-28 2006-02-28 System and method for identifying related queries for languages with multiple writing systems
PCT/US2007/062876 WO2007101194A2 (en) 2006-02-28 2007-02-27 System and method for identifying related queries for languages with multiple writing systems

Publications (1)

Publication Number Publication Date
JP2009528636A true JP2009528636A (ja) 2009-08-06

Family

ID=38445252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008557464A Pending JP2009528636A (ja) 2006-02-28 2007-02-27 複数の書記体系を有する言語に対する関連のクエリーを識別するためのシステム及び方法

Country Status (7)

Country Link
US (2) US7689554B2 (ja)
EP (2) EP1929415A4 (ja)
JP (1) JP2009528636A (ja)
KR (1) KR101098703B1 (ja)
CN (2) CN102750323B (ja)
HK (2) HK1130912A1 (ja)
WO (1) WO2007101194A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012515379A (ja) * 2009-01-12 2012-07-05 アリババ・グループ・ホールディング・リミテッド 情報をクエリするための方法およびシステム

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7030863B2 (en) 2000-05-26 2006-04-18 America Online, Incorporated Virtual keyboard system with automatic correction
US7821503B2 (en) 2003-04-09 2010-10-26 Tegic Communications, Inc. Touch screen and graphical user interface
US7750891B2 (en) 2003-04-09 2010-07-06 Tegic Communications, Inc. Selective input system based on tracking of motion parameters of an input device
US7286115B2 (en) 2000-05-26 2007-10-23 Tegic Communications, Inc. Directional input system with automatic correction
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
US8442965B2 (en) * 2006-04-19 2013-05-14 Google Inc. Query language identification
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US7689548B2 (en) * 2006-09-22 2010-03-30 Microsoft Corporation Recommending keywords based on bidding patterns
US7925498B1 (en) 2006-12-29 2011-04-12 Google Inc. Identifying a synonym with N-gram agreement for a query phrase
US8225203B2 (en) 2007-02-01 2012-07-17 Nuance Communications, Inc. Spell-check for a keyboard system with automatic correction
US8201087B2 (en) * 2007-02-01 2012-06-12 Tegic Communications, Inc. Spell-check for a keyboard system with automatic correction
US20080250008A1 (en) * 2007-04-04 2008-10-09 Microsoft Corporation Query Specialization
WO2008151466A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
US8290921B2 (en) * 2007-06-28 2012-10-16 Microsoft Corporation Identification of similar queries based on overall and partial similarity of time series
US8090709B2 (en) * 2007-06-28 2012-01-03 Microsoft Corporation Representing queries and determining similarity based on an ARIMA model
WO2009070927A1 (en) * 2007-12-03 2009-06-11 Ebay Inc. Live search chat room
US7831588B2 (en) * 2008-02-05 2010-11-09 Yahoo! Inc. Context-sensitive query expansion
US8150838B2 (en) * 2008-03-31 2012-04-03 International Business Machines Corporation Method and system for a metadata driven query
JP5391583B2 (ja) * 2008-05-29 2014-01-15 富士通株式会社 検索装置、生成装置、プログラム、検索方法および生成方法
US8171021B2 (en) 2008-06-23 2012-05-01 Google Inc. Query identification and association
US8745051B2 (en) * 2008-07-03 2014-06-03 Google Inc. Resource locator suggestions from input character sequence
US20100106704A1 (en) * 2008-10-29 2010-04-29 Yahoo! Inc. Cross-lingual query classification
US9053197B2 (en) * 2008-11-26 2015-06-09 Red Hat, Inc. Suggesting websites
FR2940693B1 (fr) * 2008-12-30 2016-12-02 Thales Sa Procede et systeme optimises de gestion des noms propres pour l'optimisation de la gestion et de l'interrogation des bases de donnees.
EP2328366A1 (en) * 2009-11-20 2011-06-01 Alcatel Lucent Method and system for conducting surveys
US20110153414A1 (en) * 2009-12-23 2011-06-23 Jon Elvekrog Method and system for dynamic advertising based on user actions
US20110153423A1 (en) * 2010-06-21 2011-06-23 Jon Elvekrog Method and system for creating user based summaries for content distribution
US8751305B2 (en) * 2010-05-24 2014-06-10 140 Proof, Inc. Targeting users based on persona data
US20110295897A1 (en) * 2010-06-01 2011-12-01 Microsoft Corporation Query correction probability based on query-correction pairs
CN102298582B (zh) * 2010-06-23 2016-09-21 商业对象软件有限公司 数据搜索和匹配方法和系统
US8442987B2 (en) * 2010-08-19 2013-05-14 Yahoo! Inc. Method and system for providing contents based on past queries
US20120136718A1 (en) * 2010-11-29 2012-05-31 Microsoft Corporation Display of Search Ads in Local Language
CN102567408B (zh) 2010-12-31 2014-06-04 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
CN103502990A (zh) * 2011-04-29 2014-01-08 惠普发展公司,有限责任合伙企业 用于事件的内存中处理的系统和方法
US8417718B1 (en) * 2011-07-11 2013-04-09 Google Inc. Generating word completions based on shared suffix analysis
US8725497B2 (en) * 2011-10-05 2014-05-13 Daniel M. Wang System and method for detecting and correcting mismatched Chinese character
KR101461062B1 (ko) * 2011-10-24 2014-11-17 네이버 주식회사 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법
US8756241B1 (en) * 2012-08-06 2014-06-17 Google Inc. Determining rewrite similarity scores
US9971837B2 (en) * 2013-12-16 2018-05-15 Excalibur Ip, Llc Contextual based search suggestion
US9690860B2 (en) 2014-06-30 2017-06-27 Yahoo! Inc. Recommended query formulation
CN104572836A (zh) * 2014-12-10 2015-04-29 百度在线网络技术(北京)有限公司 一种确定候选查询序列的综合相关度的方法与装置
US10380192B2 (en) * 2015-12-08 2019-08-13 Oath Inc. Method and system for providing context based query suggestions
US10169414B2 (en) 2016-04-26 2019-01-01 International Business Machines Corporation Character matching in text processing
US10891578B2 (en) * 2018-03-23 2021-01-12 International Business Machines Corporation Predicting employee performance metrics
US11170183B2 (en) * 2018-09-17 2021-11-09 International Business Machines Corporation Language entity identification
CN110162593B (zh) * 2018-11-29 2023-03-21 腾讯科技(深圳)有限公司 一种搜索结果处理、相似度模型训练方法及装置
US11194850B2 (en) * 2018-12-14 2021-12-07 Business Objects Software Ltd. Natural language query system
US10956466B2 (en) * 2018-12-26 2021-03-23 Paypal, Inc. Machine learning approach to cross-language translation and search
CN110008237B (zh) * 2019-01-14 2023-05-02 创新先进技术有限公司 一种相似查询识别方法及装置
CN111629020A (zh) * 2019-12-03 2020-09-04 蘑菇车联信息科技有限公司 一种远程输入方法、装置、pc端、安卓设备及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329118A (ja) * 1994-11-18 1996-12-13 Matsushita Electric Ind Co Ltd 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
JP2003296443A (ja) * 2002-03-29 2003-10-17 Konica Corp 医用画像撮影装置、表示制御方法、プログラム
US20040261021A1 (en) * 2000-07-06 2004-12-23 Google Inc., A Delaware Corporation Systems and methods for searching using queries written in a different character-set and/or language from the target pages
JP2006039866A (ja) * 2004-07-26 2006-02-09 Patolis Corp 類似単語検索装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報検索装置

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4833610A (en) * 1986-12-16 1989-05-23 International Business Machines Corporation Morphological/phonetic method for ranking word similarities
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5778361A (en) * 1995-09-29 1998-07-07 Microsoft Corporation Method and system for fast indexing and searching of text in compound-word languages
AU757550B2 (en) * 1998-03-03 2003-02-27 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US6493709B1 (en) * 1998-07-31 2002-12-10 The Regents Of The University Of California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
US6876997B1 (en) * 2000-05-22 2005-04-05 Overture Services, Inc. Method and apparatus for indentifying related searches in a database search system
JP2001337980A (ja) * 2000-05-29 2001-12-07 Sony Corp 電子番組ガイド検索方法及び電子番組ガイド検索装置
US6999932B1 (en) * 2000-10-10 2006-02-14 Intel Corporation Language independent voice-based search system
TW476895B (en) * 2000-11-02 2002-02-21 Semcity Technology Corp Natural language inquiry system and method
AU2002230745A1 (en) * 2000-12-12 2002-06-24 Time Warner Entertainment Company, L.P. Digital asset data type definitions
US6892377B1 (en) * 2000-12-21 2005-05-10 Vignette Corporation Method and system for platform-independent file system interaction
US20020165717A1 (en) * 2001-04-06 2002-11-07 Solmer Robert P. Efficient method for information extraction
US7293014B2 (en) * 2001-06-18 2007-11-06 Siebel Systems, Inc. System and method to enable searching across multiple databases and files using a single search
US7051119B2 (en) * 2001-07-12 2006-05-23 Yahoo! Inc. Method and system for enabling a script on a first computer to communicate and exchange data with a script on a second computer over a network
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US20030065650A1 (en) * 2001-10-03 2003-04-03 Annand Ritchie I. Method and query application tool for searching hierarchical databases
US7149732B2 (en) * 2001-10-12 2006-12-12 Microsoft Corporation Clustering web queries
US20070208698A1 (en) * 2002-06-07 2007-09-06 Dougal Brindley Avoiding duplicate service requests
JP2004280259A (ja) * 2003-03-13 2004-10-07 National Institute Of Information & Communication Technology 検索装置
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
CN100485603C (zh) * 2003-04-04 2009-05-06 雅虎公司 用于从搜索查询中产生概念单元的系统和方法
CN100403305C (zh) * 2003-04-04 2008-07-16 雅虎公司 包括按子域线索搜索及按子域提供赞助结果的产生搜索结果的系统
US7051023B2 (en) * 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7051014B2 (en) * 2003-06-18 2006-05-23 Microsoft Corporation Utilizing information redundancy to improve text searches
US20040260681A1 (en) * 2003-06-19 2004-12-23 Dvorak Joseph L. Method and system for selectively retrieving text strings
WO2005029370A1 (en) * 2003-09-17 2005-03-31 Language Analysis Systems, Inc. Identifying related names
US7346629B2 (en) * 2003-10-09 2008-03-18 Yahoo! Inc. Systems and methods for search processing using superunits
JP4635004B2 (ja) * 2003-10-21 2011-02-16 サントリーホールディングス株式会社 抗p−lap抗体を用いた癌の予後評価方法
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US20050210008A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
US7523102B2 (en) * 2004-06-12 2009-04-21 Getty Images, Inc. Content search in complex language, such as Japanese
US8341135B2 (en) * 2004-09-07 2012-12-25 Interman Corporation Information search provision apparatus and information search provision system
US20060106769A1 (en) * 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
US7707201B2 (en) * 2004-12-06 2010-04-27 Yahoo! Inc. Systems and methods for managing and using multiple concept networks for assisted search processing
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
US7428533B2 (en) * 2004-12-06 2008-09-23 Yahoo! Inc. Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
US20060161520A1 (en) * 2005-01-14 2006-07-20 Microsoft Corporation System and method for generating alternative search terms
JP2006201907A (ja) * 2005-01-19 2006-08-03 Konica Minolta Holdings Inc 更新検出装置
US7574436B2 (en) * 2005-03-10 2009-08-11 Yahoo! Inc. Reranking and increasing the relevance of the results of Internet searches
US7668808B2 (en) * 2005-03-10 2010-02-23 Yahoo! Inc. System for modifying queries before presentation to a sponsored search generator or other matching system where modifications improve coverage without a corresponding reduction in relevance
US7752220B2 (en) * 2005-08-10 2010-07-06 Yahoo! Inc. Alternative search query processing in a term bidding system
US7634462B2 (en) * 2005-08-10 2009-12-15 Yahoo! Inc. System and method for determining alternate search queries
US20070214118A1 (en) * 2005-09-27 2007-09-13 Schoen Michael A Delivery of internet ads
US8924412B2 (en) * 2005-12-21 2014-12-30 Digimarc Corporation Rules driven pan ID metadata routing system and network
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
US8005816B2 (en) * 2006-03-01 2011-08-23 Oracle International Corporation Auto generation of suggested links in a search system
US7571162B2 (en) * 2006-03-01 2009-08-04 Microsoft Corporation Comparative web search
US8868540B2 (en) * 2006-03-01 2014-10-21 Oracle International Corporation Method for suggesting web links and alternate terms for matching search queries
US20070208702A1 (en) * 2006-03-02 2007-09-06 Morris Robert P Method and system for delivering published information associated with a tuple using a pub/sub protocol
US7599931B2 (en) * 2006-03-03 2009-10-06 Microsoft Corporation Web forum crawler
US8832097B2 (en) * 2006-03-06 2014-09-09 Yahoo! Inc. Vertical search expansion, disambiguation, and optimization of search queries
US20070208704A1 (en) * 2006-03-06 2007-09-06 Stephen Ives Packaged mobile search results

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329118A (ja) * 1994-11-18 1996-12-13 Matsushita Electric Ind Co Ltd 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US20040261021A1 (en) * 2000-07-06 2004-12-23 Google Inc., A Delaware Corporation Systems and methods for searching using queries written in a different character-set and/or language from the target pages
JP2003296443A (ja) * 2002-03-29 2003-10-17 Konica Corp 医用画像撮影装置、表示制御方法、プログラム
JP2006039866A (ja) * 2004-07-26 2006-02-09 Patolis Corp 類似単語検索装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報検索装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012515379A (ja) * 2009-01-12 2012-07-05 アリババ・グループ・ホールディング・リミテッド 情報をクエリするための方法およびシステム

Also Published As

Publication number Publication date
US7689554B2 (en) 2010-03-30
WO2007101194A2 (en) 2007-09-07
US20070203894A1 (en) 2007-08-30
EP3301591A1 (en) 2018-04-04
EP1929415A4 (en) 2011-06-15
EP1929415A2 (en) 2008-06-11
KR101098703B1 (ko) 2011-12-23
US20080077588A1 (en) 2008-03-27
CN101390097B (zh) 2012-07-04
WO2007101194A3 (en) 2008-03-13
HK1176711A1 (zh) 2013-08-02
CN101390097A (zh) 2009-03-18
CN102750323B (zh) 2016-05-11
KR20080114764A (ko) 2008-12-31
HK1130912A1 (en) 2010-01-08
CN102750323A (zh) 2012-10-24

Similar Documents

Publication Publication Date Title
JP2009528636A (ja) 複数の書記体系を有する言語に対する関連のクエリーを識別するためのシステム及び方法
US11294970B1 (en) Associating an entity with a search query
US7774333B2 (en) System and method for associating queries and documents with contextual advertisements
US9323827B2 (en) Identifying key terms related to similar passages
US8856145B2 (en) System and method for determining concepts in a content item using context
US7017114B2 (en) Automatic correlation method for generating summaries for text documents
US7783644B1 (en) Query-independent entity importance in books
US7509313B2 (en) System and method for processing a query
CA2504106C (en) Related term suggestion for multi-sense query
US20100235311A1 (en) Question and answer search
US20080177717A1 (en) Support for reverse and stemmed hit-highlighting
US20070136251A1 (en) System and Method for Processing a Query
US20110106807A1 (en) Systems and methods for information integration through context-based entity disambiguation
US20120095984A1 (en) Universal Search Engine Interface and Application
US20190065502A1 (en) Providing information related to a table of a document in response to a search query
EP3485394A1 (en) Contextual based image search results
Leveling et al. On metonymy recognition for geographic information retrieval
Razmara et al. Concordia University at the TREC 2007 QA Track.
Figueroa et al. Mining Web Snippets to Answer List Questions.
AU2010362878A1 (en) Universal search engine interface and application
WO2007121171A2 (en) Systems and methods for ranking terms found in a data product
Feldman Search and Discovery Technologies: An Overview

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110627

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110927

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120921

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121022