JP2009528636A - 複数の書記体系を有する言語に対する関連のクエリーを識別するためのシステム及び方法 - Google Patents
複数の書記体系を有する言語に対する関連のクエリーを識別するためのシステム及び方法 Download PDFInfo
- Publication number
- JP2009528636A JP2009528636A JP2008557464A JP2008557464A JP2009528636A JP 2009528636 A JP2009528636 A JP 2009528636A JP 2008557464 A JP2008557464 A JP 2008557464A JP 2008557464 A JP2008557464 A JP 2008557464A JP 2009528636 A JP2009528636 A JP 2009528636A
- Authority
- JP
- Japan
- Prior art keywords
- query
- queries
- candidate set
- characters
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 240000000220 Panda oleosa Species 0.000 claims description 14
- 235000016496 Panda oleosa Nutrition 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 46
- 238000013500 data storage Methods 0.000 description 13
- 238000012360 testing method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 241000036848 Porzana carolina Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 所定のクエリーに関連する1つ又はそれよりも多くのクエリーを識別するためのシステム及び方法。本発明の方法は、複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーを受け取る段階を含む。複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーの候補セットが識別される。受け取られたクエリーに対する1つ又はそれよりも多くのクエリーの類似性を示すスコアが、候補セット内の1つ又はそれよりも多くのクエリーに対して計算される。
【選択図】 図1
Description
本特許文書の開示の部分は、著作権保護された材料を包含する。著作権所有者は、「特許及び商標事務所」特許ファイル又は記録に現れる場合の本特許文書又は特許開示の他者によるファクシミリ複製に異議はないが、それ以外は全ての著作権を保有するものである。
本出願は、各々が本明細書においてその全内容が引用により組み込まれている以下の係属中の出願に関連する。
・2005年8月10日出願の「代替検索クエリーを判断するためのシステム及び方法」という名称の米国特許出願出願番号第11/200、851号、及び
・2005年11月9日出願の「モジュラー最適化動的セット」という名称の米国特許仮出願第60/736、133号。
本方法は、受け取られたクエリーに対する1つ又はそれよりも多くのクエリーの類似性を示す候補セット内の1つ又はそれよりも多くのクエリーに対するスコアを計算する段階を更に含む。候補セット内の1つ又はそれよりも多くのクエリーに対して計算されたスコアは、受け取られたクエリーに対する候補セットからの所定のクエリーの意味における類似性を示している。本発明の一実施形態によると、スコアを計算する段階は、各クエリーの1つ又はそれよりも多くの文字をローマ字に変換した後で、受け取られたクエリーと候補セットから選択されたクエリーとの間の文字編集距離を計算する段階を含む。本発明の別の実施形態によると、スコアを計算する段階は、各クエリーの1つ又はそれよりも多くの文字をローマ字に変換して各クエリーからスペース文字を取り除いた後で、受け取られたクエリーと候補セットから選択されたクエリーとの間の文字編集距離を計算する段階を含む。本発明の更に別の実施形態によると、スコアを計算する段階は、受け取られたクエリーと候補セットから選択されたクエリーとの文字をローマ字に変換する段階、及び1と、受け取られたクエリーと選択されたクエリーにおけるスペースで区切られた固有の共起語の数と両方のクエリーにおけるスペースで区切られた固有の語の総数との商との間の差を計算する段階を含む。
変換構成要素は、受け取られたクエリーと候補セット内の1つ又はそれよりも多くのクエリーとを1つ又はそれよりも多くの文書フォーマットに変換するように作動する。本発明の一実施形態によると、変換構成要素は、1つ又はそれよりも多くの書記体系に従ってクエリーを1つ又はそれよりも多くの文書フォーマットに変換するように作動する。
漢字、カタカナ、ひらがなのような1つ又はそれよりも多くの日本語書記体系に従って書かれるクエリーQを含む1つ又はそれよりも多くの文字がローマ字に変換される(段階305)。所定のクエリーQ’は、1つ又はそれよりも多くのクエリーから構成される候補セットから選択される(段階310)。候補セットから選択されたクエリーQ’は、クエリーQに関連付けられた言語の1つ又はそれよりも多くの書記体系に従って書くことができる。例えば、Q’は、クエリーQと同じ書記体系、又は日本語ローマ字書記体系、日本語かな書記体系のような1つ又はそれよりも多くの代替日本語書記体系に従って書くことができる。Q’を含む文字がローマ字形式であるか否かを判断するための検査が行われる(段階315)。クエリーQ’がローマ字形式でない場合、Q’を含む1つ又はそれよりも多くの文字がローマ字に変換される(段階320)。Q’を含む1つ又はそれよりも多くの用語が既にローマ字形式である場合、又はQ’の文字全てがローマ字形式に変換された後に、クエリーQとクエリーQ’間の文字編集距離を識別するための計算が行われる(段階325)。文字編集距離値は、Q’に対する類似性スコアを計算するために、表Aに示す類似性スコア関数に供給される。
図4に示す実施形態によると、漢字、カタカナ、又はひらがなのような1つ又はそれよりも多くの日本語書記体系に従って書かれたクエリーQがローマ字形式に変換される(段階405)。その後、クエリーQからローマ字で現れる全てのスペース文字が取り除かれる(段階408)。例えば、所定のクエリーQは、漢字の用語「電車男」を含むことができる。ローマ字形式に変換後、クエリーQは、用語「densha otoko」を含むことができ、スペースを取り除いた後、クエリーQは、文字「denshaotoko」を含むことができる。
例えば、ローマ字形式の所定のクエリーQは、用語「kuruma kemuri」から構成される。同様に、ローマ字形式の所定のクエリーQ’は、用語「sora kemuri」から構成される。Q及びQ’におけるスペースで区切られた固有の共起語の数は、1、すなわち、語「kemuri」であり、ここで、Q及びQ’両方におけるスペースで区切られた固有の語の総数は、3、すなわち、語「kuruma」、「sora」、及び「kemuri」である。従って、Q及びQ’におけるスペースで区切られた固有の共起語の数と、Q及びQ’両方におけるスペースで区切られた固有の共起語の総数との商は、1/3である。更に、1と計算された商との間の差は、2/3である。値2/3は、「wordr」レジスタに割り当てられ、クエリーQ’に対する類似性スコアを計算するために、表Aに示す類似性スコア関数によって使用される。
所定のクエリーQ’は、1つ又はそれよりも多くの書記体系に従って書かれたクエリーから構成される候補セットから選択される(段階605)。所定のクエリーQにおける数字が、クエリーQ’に現れないか否かを判断するための検査が行われる。例えば、所定のクエリーQは、日本語漢数字「六十八」(アラビア数字「68」によって表される値に対応する)を包含することができ、所定のクエリーQ’は、日本語漢数字「九十八」(アラビア数字「98」によって表される値に対応する)を包含することができる。従って、段階610で行われる検査は、日本語漢数字「六」がクエリーQ’に現れない場合、日本語漢数字「六」がクエリーQに固有であると判断する。同様に、所定のクエリーQは、日本語漢字文字とアラビア数字の「楽天2005」を含むことができ、所定のクエリーQ’は、日本語漢字文字とアラビア数字の「楽天2004」を含むことができる。段階610で行われる検査は、アラビア数字5がクエリーQ’に現れない場合、アラビア数字5がクエリーQに固有であると判断する。
代替的に、Q’が、クエリーQに現われる1つ又はそれよりも多くの数字の各々を包含する場合、クエリーQ’の数字がクエリーQに現われないか否かを判断するための付加的な検査が行われる(段階615)。クエリーQ’が、クエリーQに現われない数字を包含する場合、上述の「数字」レジスタは、クエリーQ’が、Q’に固有の数字を包含することを示す値1に設定される(段階620)。代替的に、クエリーQがQ’における1つ又はそれよりも多くの数字の各々を包含する場合、「数字」レジスタは、クエリーQ’における1つ又はそれよりも多くの数字がクエリーQに現われること及び逆も同様に示す0に設定される(段階625)。「数字」レジスタに割り当てられる値、0又は1のいずれかは、クエリーQ’に対する類似性スコアを計算するために、表Aに示す類似性スコア関数によって使用される。
1つ又はそれよりも多くの日本語書記体系に従って書かれた所定のクエリーQが受け取られる(段階905)。クエリーQが1つ又はそれよりも多くの非ローマ字文字を包含するか否かを判断するための検査が行われる(段階910)。クエリーQが1つ又はそれよりも多くの非ローマ字文字を包含する場合、「日本語」レジスタは、値1に設定される(段階908)。本発明の一実施形態によると、「日本語」レジスタは、所定の数値を記憶するためのメモリデバイスを含む。
図10に示すように、所定のクエリーQ’が、クエリーの候補セットから選択される(段階1005)。1つ又はそれよりも多くの日本語書記体系に従って書かれたクエリーQ’又は所定のクエリーQが、1つ又はそれよりも多くの漢字文字を包含するか否かを判断するための検査が行われる(段階1010)。クエリーQ又はクエリーQ’のいずれかが、1つ又はそれよりも多くの漢字文字を包含する場合、各それぞれのクエリーにおける漢字文字が、かな文字に変換される(段階1015)。例えば、クエリーQは、「人200」のような漢字文字とアラビア数字の両方から構成される。漢字文字をかな文字に変換した後、クエリーQは、文字「ひと200」を含むことができる。
107 検索エンジン
108 データ記憶装置
122 ネットワーク
124a、124b、124c クライアントデバイス
Claims (38)
- 所定のクエリーに関連する1つ又はそれよりも多くのクエリーを識別する方法であって、
複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーを受け取る段階と、
複数の書記体系を有する前記言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーの候補セットを識別する段階と、
前記候補セット内の前記1つ又はそれよりも多くのクエリーに対して、前記受け取られたクエリーに対する該1つ又はそれよりも多くのクエリーの類似性を示すスコアを計算する段階と、
を含むことを特徴とする方法。 - 前記クエリーを受け取る段階は、1つ又はそれよりも多くの日本語書記体系の組合せに従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
- 前記クエリーの候補セットを識別する段階は、前記受け取られたクエリーに関連する1組の1つ又はそれよりも多くのクエリーを識別する段階を含むことを特徴とする請求項1に記載の方法。
- 前記受け取られたクエリーに関連する前記クエリーの候補セットを識別する段階は、1つ又はそれよりも多くのクエリーログにおいて示されるような該受け取られたクエリーに関連する1つ又はそれよりも多くのクエリーを識別する段階を含むことを特徴とする請求項3に記載の方法。
- 前記クエリーを受け取る段階は、日本語ひらがな書記体系に従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
- 前記クエリーを受け取る段階は、日本語カタカナ書記体系に従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
- 前記クエリーを受け取る段階は、日本語かな書記体系に従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
- 前記クエリーを受け取る段階は、日本語ローマ字書記体系に従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
- 前記クエリーを受け取る段階は、日本語JASCII書記体系に従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
- 前記クエリーを受け取る段階は、日本語漢字書記体系に従って書かれたクエリーを受け取る段階を含むことを特徴とする請求項1に記載の方法。
- 前記クエリーを受け取る段階は、語句を含む1組の用語を受け取る段階を含むことを特徴とする請求項1に記載の方法。
- 前記候補セット内の前記1つ又はそれよりも多くのクエリーに対するスコアを計算する段階は、前記受け取られたクエリーに対する前記候補からの所定のクエリーの意味における類似性を示すスコアを計算する段階を含むことを特徴とする請求項1に記載の方法。
- スコアを計算する段階は、
前記受け取られたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
前記候補セットから選択されたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
前記受け取られたクエリーと前記候補セットからの前記選択されたクエリーの間の文字編集距離を計算する段階と、
を含む、
ことを特徴とする請求項1に記載の方法。 - スコアを計算する段階は、
前記受け取られたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
前記候補セットから選択されたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
前記受け取られたクエリーと前記候補セットからの前記選択されたクエリーからスペース文字を取り除く段階と、
前記受け取られたクエリーと前記候補セットからの前記選択されたクエリーとの間の文字編集距離を計算する段階と、
を含む、
ことを特徴とする請求項1に記載の方法。 - スコアを計算する段階は、
前記受け取られたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
前記候補セットから選択されたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
前記受け取られたクエリー及び前記選択されたクエリー内のスペースで区切られた固有の共起語の数を識別する段階と、
前記受け取られたクエリーと前記選択されたクエリーの両方におけるスペースで区切られた固有の語の総数を識別する段階と、
両方のクエリー内のスペースで区切られた固有の共起語の前記数とスペースで区切られた固有の語の前記総数との商を計算する段階と、
数値1と前記計算された商との間の差を計算する段階と、
を含む、
ことを特徴とする請求項1に記載の方法。 - スコアを計算する段階は、数字が、前記受け取られたクエリー又は前記候補セットから選択されたクエリーに固有であるか否かを識別する段階を含むことを特徴とする請求項1に記載の方法。
- スコアを計算する段階は、
前記受け取られたクエリー及び前記候補セットから選択されたクエリー内の共起する日本語漢字文字の数を識別する段階と、
前記受け取られたクエリー及び前記候補セットからの前記選択されたクエリー内の固有の日本語漢字文字の総数を識別する段階と、
共起する日本語漢字文字の前記数と固有の日本語漢字文字の前記総数との商を計算する段階と、
数値1と前記計算された商との間の差を計算する段階と、
を含む、
ことを特徴とする請求項1に記載の方法。 - スコアを計算する段階は、
前記受け取られたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
前記候補セットから選択されたクエリーの1つ又はそれよりも多くの文字をローマ字に変換する段階と、
前記受け取られたクエリーと前記選択されたクエリーとが共通して有するローマ字の数を計算する段階と、
を含む、
ことを特徴とする請求項1に記載の方法。 - スコアを計算する段階は、前記受け取られたクエリー又は前記候補セットから選択されたクエリーのいずれかが、非ローマ字文字を包含するか否かを識別する段階を含むことを特徴とする請求項1に記載の方法。
- スコアを計算する段階は、
前記受け取られたクエリーの1つ又はそれよりも多くの日本語漢字文字を日本語かな文字に変換する段階と、
前記候補セットから選択されたクエリーの1つ又はそれよりも多くの日本語漢字文字を日本語かな文字に変換する段階と、
前記受け取られたクエリー及び前記候補セットからの前記選択されたクエリーから全ての非日本語文字を取り除く段階と、
前記受け取られたクエリーと前記候補セットからの前記選択されたクエリーとの間の文字編集距離を計算する段階と、
を含む、
ことを特徴とする請求項1に記載の方法。 - スコアを計算する段階は、前記候補セットからの選択されたクエリーが、1つ又はそれよりも多くのクエリーログ内で前記受け取られたクエリーに続く頻度と、該1つ又はそれよりも多くのクエリーログ内の該受け取られたクエリーの頻度との商を計算する段階を含むことを特徴とする請求項1に記載の方法。
- 分配のために前記候補セットからの前記クエリーの1つ又はそれよりも多くを選択する段階を含むことを特徴とする請求項1に記載の方法。
- 分配のために前記候補セットからの前記クエリーの1つ又はそれよりも多くを選択する段階は、所定の閾値を超えるスコアを有する1つ又はそれよりも多くのクエリーを選択する段階を含むことを特徴とする請求項22に記載の方法。
- 所定の閾値を超えるスコアを有する前記候補セットからの前記1つ又はそれよりも多くのクエリーを分配する段階を含むことを特徴とする請求項1に記載の方法。
- 前記候補セットからの前記1つ又はそれよりも多くのクエリーを分配する段階は、該1つ又はそれよりも多くのクエリーをウェブページに組み込む段階を含むことを特徴とする請求項24に記載の方法。
- 所定のクエリーに関連する1つ又はそれよりも多くのクエリーを識別するためのシステムであって、
複数の書記体系を有する言語の1つ又はそれよりも多くの書記体系に従って書かれたクエリーを受け取り、かつ
複数の書記体系を有する前記言語の1つ又はそれよりも多くの書記体系に従って書かれた1つ又はそれよりも多くのクエリーの候補セットを識別する、
ように作動する検索エンジンと、
前記受け取られたクエリーと前記候補セット内の前記1つ又はそれよりも多くのクエリーとを1つ又はそれよりも多くの文書フォーマットに変換するように作動する変換構成要素と、
前記受け取られたクエリーに対する前記1つ又はそれよりも多くのクエリーの類似性を示す、前記候補セット内の前記1つ又はそれよりも多くのクエリーに対するスコアを計算するように作動する類似性構成要素と、
を含むことを特徴とするシステム。 - 前記検索エンジンは、1つ又はそれよりも多くの日本語書記体系に従って書かれたクエリーを受け取るように作動することを特徴とする請求項26に記載のシステム。
- 前記検索エンジンは、前記受け取られたクエリーに関連する1つ又はそれよりも多くのクエリーから成る候補セットを識別するように作動することを特徴とする請求項26に記載のシステム。
- 前記検索エンジンは、前記受け取られたクエリーに関連する1つ又はそれよりも多くのクエリーを識別するために1つ又はそれよりも多くのクエリーログを検索するように作動することを特徴とする請求項28に記載のシステム。
- 前記変換構成要素は、1つ又はそれよりも多くの書記体系に従ってクエリーを1つ又はそれよりも多くの文書フォーマットに変換するように作動することを特徴とする請求項26に記載のシステム。
- 前記類似性構成要素は、前記受け取られたクエリーに対する前記候補セットから選択されたクエリーの意味における類似性を示すスコアを計算するように作動することを特徴とする請求項26に記載のシステム。
- 前記類似性構成要素は、前記受け取られたクエリーと前記候補セットから選択されたクエリーとの間の文字編集距離を計算するように作動することを特徴とする請求項26に記載のシステム。
- 前記類似性構成要素は、
前記受け取られたクエリー及び前記選択されたクエリー内のスペースで区切られた固有の共起語の数を識別し、
前記受け取られたクエリー及び前記選択されたクエリーの両方におけるスペースで区切られた固有の語の総数を識別し、
両方のクエリー内のスペースで区切られた固有の共起語の前記数とスペースで区切られた固有の語の前記総数との商を計算し、かつ
数値1と前記計算された商との間の差を計算する、
ように作動する、
ことを特徴とする請求項26に記載のシステム。 - 前記類似性構成要素は、数字が、前記受け取られたクエリー又は前記候補セットから選択されたクエリーに固有であるか否かを識別するように作動することを特徴とする請求項26に記載のシステム。
- 前記類似性構成要素は、
前記受け取られたクエリー及び前記候補セットから選択されたクエリー内の共起する日本語漢字文字の数を識別し、
前記受け取られたクエリー及び前記候補セットからの前記選択されたクエリー内の固有の日本語漢字文字の総数を識別し、
共起する日本語漢字文字の前記数と固有の日本語漢字文字の前記総数との商を計算し、
数値1と前記計算された商との間の差を計算する、
ように作動する、
ことを特徴とする請求項26に記載のシステム。 - 前記類似性構成要素は、前記受け取られたクエリーと前記候補セットから選択されたクエリーとが共通して有する文字の数を計算するように作動することを特徴とする請求項26に記載のシステム。
- 前記類似性構成要素は、前記受け取られたクエリー又は前記候補セットから選択されたクエリーが、所定の書記体系の1つ又はそれよりも多くの文字を包含するか否かを識別するように作動することを特徴とする請求項26に記載のシステム。
- 前記類似性構成要素は、前記候補セットから選択されたクエリーが、1つ又はそれよりも多くのクエリーログ内で前記受け取られたクエリーに続く頻度と、該1つ又はそれよりも多くのクエリーログ内の該受け取られたクエリーの頻度との商を計算するように作動することを特徴とする請求項26に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/365,315 US7689554B2 (en) | 2006-02-28 | 2006-02-28 | System and method for identifying related queries for languages with multiple writing systems |
PCT/US2007/062876 WO2007101194A2 (en) | 2006-02-28 | 2007-02-27 | System and method for identifying related queries for languages with multiple writing systems |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009528636A true JP2009528636A (ja) | 2009-08-06 |
Family
ID=38445252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008557464A Pending JP2009528636A (ja) | 2006-02-28 | 2007-02-27 | 複数の書記体系を有する言語に対する関連のクエリーを識別するためのシステム及び方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US7689554B2 (ja) |
EP (2) | EP1929415A4 (ja) |
JP (1) | JP2009528636A (ja) |
KR (1) | KR101098703B1 (ja) |
CN (2) | CN102750323B (ja) |
HK (2) | HK1130912A1 (ja) |
WO (1) | WO2007101194A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012515379A (ja) * | 2009-01-12 | 2012-07-05 | アリババ・グループ・ホールディング・リミテッド | 情報をクエリするための方法およびシステム |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7030863B2 (en) | 2000-05-26 | 2006-04-18 | America Online, Incorporated | Virtual keyboard system with automatic correction |
US7821503B2 (en) | 2003-04-09 | 2010-10-26 | Tegic Communications, Inc. | Touch screen and graphical user interface |
US7750891B2 (en) | 2003-04-09 | 2010-07-06 | Tegic Communications, Inc. | Selective input system based on tracking of motion parameters of an input device |
US7286115B2 (en) | 2000-05-26 | 2007-10-23 | Tegic Communications, Inc. | Directional input system with automatic correction |
US7689554B2 (en) * | 2006-02-28 | 2010-03-30 | Yahoo! Inc. | System and method for identifying related queries for languages with multiple writing systems |
US8442965B2 (en) * | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US8762358B2 (en) * | 2006-04-19 | 2014-06-24 | Google Inc. | Query language determination using query terms and interface language |
US7689548B2 (en) * | 2006-09-22 | 2010-03-30 | Microsoft Corporation | Recommending keywords based on bidding patterns |
US7925498B1 (en) | 2006-12-29 | 2011-04-12 | Google Inc. | Identifying a synonym with N-gram agreement for a query phrase |
US8225203B2 (en) | 2007-02-01 | 2012-07-17 | Nuance Communications, Inc. | Spell-check for a keyboard system with automatic correction |
US8201087B2 (en) * | 2007-02-01 | 2012-06-12 | Tegic Communications, Inc. | Spell-check for a keyboard system with automatic correction |
US20080250008A1 (en) * | 2007-04-04 | 2008-10-09 | Microsoft Corporation | Query Specialization |
WO2008151466A1 (en) * | 2007-06-14 | 2008-12-18 | Google Inc. | Dictionary word and phrase determination |
US8290921B2 (en) * | 2007-06-28 | 2012-10-16 | Microsoft Corporation | Identification of similar queries based on overall and partial similarity of time series |
US8090709B2 (en) * | 2007-06-28 | 2012-01-03 | Microsoft Corporation | Representing queries and determining similarity based on an ARIMA model |
WO2009070927A1 (en) * | 2007-12-03 | 2009-06-11 | Ebay Inc. | Live search chat room |
US7831588B2 (en) * | 2008-02-05 | 2010-11-09 | Yahoo! Inc. | Context-sensitive query expansion |
US8150838B2 (en) * | 2008-03-31 | 2012-04-03 | International Business Machines Corporation | Method and system for a metadata driven query |
JP5391583B2 (ja) * | 2008-05-29 | 2014-01-15 | 富士通株式会社 | 検索装置、生成装置、プログラム、検索方法および生成方法 |
US8171021B2 (en) | 2008-06-23 | 2012-05-01 | Google Inc. | Query identification and association |
US8745051B2 (en) * | 2008-07-03 | 2014-06-03 | Google Inc. | Resource locator suggestions from input character sequence |
US20100106704A1 (en) * | 2008-10-29 | 2010-04-29 | Yahoo! Inc. | Cross-lingual query classification |
US9053197B2 (en) * | 2008-11-26 | 2015-06-09 | Red Hat, Inc. | Suggesting websites |
FR2940693B1 (fr) * | 2008-12-30 | 2016-12-02 | Thales Sa | Procede et systeme optimises de gestion des noms propres pour l'optimisation de la gestion et de l'interrogation des bases de donnees. |
EP2328366A1 (en) * | 2009-11-20 | 2011-06-01 | Alcatel Lucent | Method and system for conducting surveys |
US20110153414A1 (en) * | 2009-12-23 | 2011-06-23 | Jon Elvekrog | Method and system for dynamic advertising based on user actions |
US20110153423A1 (en) * | 2010-06-21 | 2011-06-23 | Jon Elvekrog | Method and system for creating user based summaries for content distribution |
US8751305B2 (en) * | 2010-05-24 | 2014-06-10 | 140 Proof, Inc. | Targeting users based on persona data |
US20110295897A1 (en) * | 2010-06-01 | 2011-12-01 | Microsoft Corporation | Query correction probability based on query-correction pairs |
CN102298582B (zh) * | 2010-06-23 | 2016-09-21 | 商业对象软件有限公司 | 数据搜索和匹配方法和系统 |
US8442987B2 (en) * | 2010-08-19 | 2013-05-14 | Yahoo! Inc. | Method and system for providing contents based on past queries |
US20120136718A1 (en) * | 2010-11-29 | 2012-05-31 | Microsoft Corporation | Display of Search Ads in Local Language |
CN102567408B (zh) | 2010-12-31 | 2014-06-04 | 阿里巴巴集团控股有限公司 | 推荐搜索关键词的方法和装置 |
CN103502990A (zh) * | 2011-04-29 | 2014-01-08 | 惠普发展公司,有限责任合伙企业 | 用于事件的内存中处理的系统和方法 |
US8417718B1 (en) * | 2011-07-11 | 2013-04-09 | Google Inc. | Generating word completions based on shared suffix analysis |
US8725497B2 (en) * | 2011-10-05 | 2014-05-13 | Daniel M. Wang | System and method for detecting and correcting mismatched Chinese character |
KR101461062B1 (ko) * | 2011-10-24 | 2014-11-17 | 네이버 주식회사 | 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법 |
US8756241B1 (en) * | 2012-08-06 | 2014-06-17 | Google Inc. | Determining rewrite similarity scores |
US9971837B2 (en) * | 2013-12-16 | 2018-05-15 | Excalibur Ip, Llc | Contextual based search suggestion |
US9690860B2 (en) | 2014-06-30 | 2017-06-27 | Yahoo! Inc. | Recommended query formulation |
CN104572836A (zh) * | 2014-12-10 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 一种确定候选查询序列的综合相关度的方法与装置 |
US10380192B2 (en) * | 2015-12-08 | 2019-08-13 | Oath Inc. | Method and system for providing context based query suggestions |
US10169414B2 (en) | 2016-04-26 | 2019-01-01 | International Business Machines Corporation | Character matching in text processing |
US10891578B2 (en) * | 2018-03-23 | 2021-01-12 | International Business Machines Corporation | Predicting employee performance metrics |
US11170183B2 (en) * | 2018-09-17 | 2021-11-09 | International Business Machines Corporation | Language entity identification |
CN110162593B (zh) * | 2018-11-29 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 一种搜索结果处理、相似度模型训练方法及装置 |
US11194850B2 (en) * | 2018-12-14 | 2021-12-07 | Business Objects Software Ltd. | Natural language query system |
US10956466B2 (en) * | 2018-12-26 | 2021-03-23 | Paypal, Inc. | Machine learning approach to cross-language translation and search |
CN110008237B (zh) * | 2019-01-14 | 2023-05-02 | 创新先进技术有限公司 | 一种相似查询识别方法及装置 |
CN111629020A (zh) * | 2019-12-03 | 2020-09-04 | 蘑菇车联信息科技有限公司 | 一种远程输入方法、装置、pc端、安卓设备及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08329118A (ja) * | 1994-11-18 | 1996-12-13 | Matsushita Electric Ind Co Ltd | 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。 |
JP2003296443A (ja) * | 2002-03-29 | 2003-10-17 | Konica Corp | 医用画像撮影装置、表示制御方法、プログラム |
US20040261021A1 (en) * | 2000-07-06 | 2004-12-23 | Google Inc., A Delaware Corporation | Systems and methods for searching using queries written in a different character-set and/or language from the target pages |
JP2006039866A (ja) * | 2004-07-26 | 2006-02-09 | Patolis Corp | 類似単語検索装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報検索装置 |
Family Cites Families (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4833610A (en) * | 1986-12-16 | 1989-05-23 | International Business Machines Corporation | Morphological/phonetic method for ranking word similarities |
US6006221A (en) * | 1995-08-16 | 1999-12-21 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US5778361A (en) * | 1995-09-29 | 1998-07-07 | Microsoft Corporation | Method and system for fast indexing and searching of text in compound-word languages |
AU757550B2 (en) * | 1998-03-03 | 2003-02-27 | Amazon.Com, Inc. | Identifying the items most relevant to a current query based on items selected in connection with similar queries |
US6493709B1 (en) * | 1998-07-31 | 2002-12-10 | The Regents Of The University Of California | Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment |
US6876997B1 (en) * | 2000-05-22 | 2005-04-05 | Overture Services, Inc. | Method and apparatus for indentifying related searches in a database search system |
JP2001337980A (ja) * | 2000-05-29 | 2001-12-07 | Sony Corp | 電子番組ガイド検索方法及び電子番組ガイド検索装置 |
US6999932B1 (en) * | 2000-10-10 | 2006-02-14 | Intel Corporation | Language independent voice-based search system |
TW476895B (en) * | 2000-11-02 | 2002-02-21 | Semcity Technology Corp | Natural language inquiry system and method |
AU2002230745A1 (en) * | 2000-12-12 | 2002-06-24 | Time Warner Entertainment Company, L.P. | Digital asset data type definitions |
US6892377B1 (en) * | 2000-12-21 | 2005-05-10 | Vignette Corporation | Method and system for platform-independent file system interaction |
US20020165717A1 (en) * | 2001-04-06 | 2002-11-07 | Solmer Robert P. | Efficient method for information extraction |
US7293014B2 (en) * | 2001-06-18 | 2007-11-06 | Siebel Systems, Inc. | System and method to enable searching across multiple databases and files using a single search |
US7051119B2 (en) * | 2001-07-12 | 2006-05-23 | Yahoo! Inc. | Method and system for enabling a script on a first computer to communicate and exchange data with a script on a second computer over a network |
US7403938B2 (en) * | 2001-09-24 | 2008-07-22 | Iac Search & Media, Inc. | Natural language query processing |
US20030065650A1 (en) * | 2001-10-03 | 2003-04-03 | Annand Ritchie I. | Method and query application tool for searching hierarchical databases |
US7149732B2 (en) * | 2001-10-12 | 2006-12-12 | Microsoft Corporation | Clustering web queries |
US20070208698A1 (en) * | 2002-06-07 | 2007-09-06 | Dougal Brindley | Avoiding duplicate service requests |
JP2004280259A (ja) * | 2003-03-13 | 2004-10-07 | National Institute Of Information & Communication Technology | 検索装置 |
US6947930B2 (en) * | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
CN100485603C (zh) * | 2003-04-04 | 2009-05-06 | 雅虎公司 | 用于从搜索查询中产生概念单元的系统和方法 |
CN100403305C (zh) * | 2003-04-04 | 2008-07-16 | 雅虎公司 | 包括按子域线索搜索及按子域提供赞助结果的产生搜索结果的系统 |
US7051023B2 (en) * | 2003-04-04 | 2006-05-23 | Yahoo! Inc. | Systems and methods for generating concept units from search queries |
US7051014B2 (en) * | 2003-06-18 | 2006-05-23 | Microsoft Corporation | Utilizing information redundancy to improve text searches |
US20040260681A1 (en) * | 2003-06-19 | 2004-12-23 | Dvorak Joseph L. | Method and system for selectively retrieving text strings |
WO2005029370A1 (en) * | 2003-09-17 | 2005-03-31 | Language Analysis Systems, Inc. | Identifying related names |
US7346629B2 (en) * | 2003-10-09 | 2008-03-18 | Yahoo! Inc. | Systems and methods for search processing using superunits |
JP4635004B2 (ja) * | 2003-10-21 | 2011-02-16 | サントリーホールディングス株式会社 | 抗p−lap抗体を用いた癌の予後評価方法 |
US7240049B2 (en) * | 2003-11-12 | 2007-07-03 | Yahoo! Inc. | Systems and methods for search query processing using trend analysis |
US20050210008A1 (en) * | 2004-03-18 | 2005-09-22 | Bao Tran | Systems and methods for analyzing documents over a network |
US7523102B2 (en) * | 2004-06-12 | 2009-04-21 | Getty Images, Inc. | Content search in complex language, such as Japanese |
US8341135B2 (en) * | 2004-09-07 | 2012-12-25 | Interman Corporation | Information search provision apparatus and information search provision system |
US20060106769A1 (en) * | 2004-11-12 | 2006-05-18 | Gibbs Kevin A | Method and system for autocompletion for languages having ideographs and phonetic characters |
US7707201B2 (en) * | 2004-12-06 | 2010-04-27 | Yahoo! Inc. | Systems and methods for managing and using multiple concept networks for assisted search processing |
US7620628B2 (en) * | 2004-12-06 | 2009-11-17 | Yahoo! Inc. | Search processing with automatic categorization of queries |
US7428533B2 (en) * | 2004-12-06 | 2008-09-23 | Yahoo! Inc. | Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies |
US20060161520A1 (en) * | 2005-01-14 | 2006-07-20 | Microsoft Corporation | System and method for generating alternative search terms |
JP2006201907A (ja) * | 2005-01-19 | 2006-08-03 | Konica Minolta Holdings Inc | 更新検出装置 |
US7574436B2 (en) * | 2005-03-10 | 2009-08-11 | Yahoo! Inc. | Reranking and increasing the relevance of the results of Internet searches |
US7668808B2 (en) * | 2005-03-10 | 2010-02-23 | Yahoo! Inc. | System for modifying queries before presentation to a sponsored search generator or other matching system where modifications improve coverage without a corresponding reduction in relevance |
US7752220B2 (en) * | 2005-08-10 | 2010-07-06 | Yahoo! Inc. | Alternative search query processing in a term bidding system |
US7634462B2 (en) * | 2005-08-10 | 2009-12-15 | Yahoo! Inc. | System and method for determining alternate search queries |
US20070214118A1 (en) * | 2005-09-27 | 2007-09-13 | Schoen Michael A | Delivery of internet ads |
US8924412B2 (en) * | 2005-12-21 | 2014-12-30 | Digimarc Corporation | Rules driven pan ID metadata routing system and network |
US7689554B2 (en) * | 2006-02-28 | 2010-03-30 | Yahoo! Inc. | System and method for identifying related queries for languages with multiple writing systems |
US8005816B2 (en) * | 2006-03-01 | 2011-08-23 | Oracle International Corporation | Auto generation of suggested links in a search system |
US7571162B2 (en) * | 2006-03-01 | 2009-08-04 | Microsoft Corporation | Comparative web search |
US8868540B2 (en) * | 2006-03-01 | 2014-10-21 | Oracle International Corporation | Method for suggesting web links and alternate terms for matching search queries |
US20070208702A1 (en) * | 2006-03-02 | 2007-09-06 | Morris Robert P | Method and system for delivering published information associated with a tuple using a pub/sub protocol |
US7599931B2 (en) * | 2006-03-03 | 2009-10-06 | Microsoft Corporation | Web forum crawler |
US8832097B2 (en) * | 2006-03-06 | 2014-09-09 | Yahoo! Inc. | Vertical search expansion, disambiguation, and optimization of search queries |
US20070208704A1 (en) * | 2006-03-06 | 2007-09-06 | Stephen Ives | Packaged mobile search results |
-
2006
- 2006-02-28 US US11/365,315 patent/US7689554B2/en not_active Expired - Fee Related
-
2007
- 2007-02-27 EP EP07757547A patent/EP1929415A4/en not_active Ceased
- 2007-02-27 JP JP2008557464A patent/JP2009528636A/ja active Pending
- 2007-02-27 KR KR1020087023584A patent/KR101098703B1/ko active IP Right Grant
- 2007-02-27 WO PCT/US2007/062876 patent/WO2007101194A2/en active Application Filing
- 2007-02-27 EP EP17183610.9A patent/EP3301591A1/en not_active Withdrawn
- 2007-02-27 CN CN201210167021.3A patent/CN102750323B/zh active Active
- 2007-02-27 CN CN200780006965XA patent/CN101390097B/zh active Active
- 2007-11-30 US US11/948,374 patent/US20080077588A1/en not_active Abandoned
-
2009
- 2009-09-18 HK HK09108573.9A patent/HK1130912A1/xx not_active IP Right Cessation
-
2013
- 2013-03-27 HK HK13103868.8A patent/HK1176711A1/zh not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08329118A (ja) * | 1994-11-18 | 1996-12-13 | Matsushita Electric Ind Co Ltd | 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。 |
US20040261021A1 (en) * | 2000-07-06 | 2004-12-23 | Google Inc., A Delaware Corporation | Systems and methods for searching using queries written in a different character-set and/or language from the target pages |
JP2003296443A (ja) * | 2002-03-29 | 2003-10-17 | Konica Corp | 医用画像撮影装置、表示制御方法、プログラム |
JP2006039866A (ja) * | 2004-07-26 | 2006-02-09 | Patolis Corp | 類似単語検索装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報検索装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012515379A (ja) * | 2009-01-12 | 2012-07-05 | アリババ・グループ・ホールディング・リミテッド | 情報をクエリするための方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
US7689554B2 (en) | 2010-03-30 |
WO2007101194A2 (en) | 2007-09-07 |
US20070203894A1 (en) | 2007-08-30 |
EP3301591A1 (en) | 2018-04-04 |
EP1929415A4 (en) | 2011-06-15 |
EP1929415A2 (en) | 2008-06-11 |
KR101098703B1 (ko) | 2011-12-23 |
US20080077588A1 (en) | 2008-03-27 |
CN101390097B (zh) | 2012-07-04 |
WO2007101194A3 (en) | 2008-03-13 |
HK1176711A1 (zh) | 2013-08-02 |
CN101390097A (zh) | 2009-03-18 |
CN102750323B (zh) | 2016-05-11 |
KR20080114764A (ko) | 2008-12-31 |
HK1130912A1 (en) | 2010-01-08 |
CN102750323A (zh) | 2012-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009528636A (ja) | 複数の書記体系を有する言語に対する関連のクエリーを識別するためのシステム及び方法 | |
US11294970B1 (en) | Associating an entity with a search query | |
US7774333B2 (en) | System and method for associating queries and documents with contextual advertisements | |
US9323827B2 (en) | Identifying key terms related to similar passages | |
US8856145B2 (en) | System and method for determining concepts in a content item using context | |
US7017114B2 (en) | Automatic correlation method for generating summaries for text documents | |
US7783644B1 (en) | Query-independent entity importance in books | |
US7509313B2 (en) | System and method for processing a query | |
CA2504106C (en) | Related term suggestion for multi-sense query | |
US20100235311A1 (en) | Question and answer search | |
US20080177717A1 (en) | Support for reverse and stemmed hit-highlighting | |
US20070136251A1 (en) | System and Method for Processing a Query | |
US20110106807A1 (en) | Systems and methods for information integration through context-based entity disambiguation | |
US20120095984A1 (en) | Universal Search Engine Interface and Application | |
US20190065502A1 (en) | Providing information related to a table of a document in response to a search query | |
EP3485394A1 (en) | Contextual based image search results | |
Leveling et al. | On metonymy recognition for geographic information retrieval | |
Razmara et al. | Concordia University at the TREC 2007 QA Track. | |
Figueroa et al. | Mining Web Snippets to Answer List Questions. | |
AU2010362878A1 (en) | Universal search engine interface and application | |
WO2007121171A2 (en) | Systems and methods for ranking terms found in a data product | |
Feldman | Search and Discovery Technologies: An Overview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110627 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110927 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20111004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120625 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120921 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121022 |