JP2010282639A - ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法 - Google Patents

ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法 Download PDF

Info

Publication number
JP2010282639A
JP2010282639A JP2010161104A JP2010161104A JP2010282639A JP 2010282639 A JP2010282639 A JP 2010282639A JP 2010161104 A JP2010161104 A JP 2010161104A JP 2010161104 A JP2010161104 A JP 2010161104A JP 2010282639 A JP2010282639 A JP 2010282639A
Authority
JP
Japan
Prior art keywords
format
query
word
probability
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010161104A
Other languages
English (en)
Other versions
JP5231491B2 (ja
Inventor
Vibhu Mittal
ミッタル ビブ
Jay M Ponte
エム. ポンテ ジェイ
Mehran Sahami
サハミ メヘラーン
Sanjay Ghemawat
ゲマワット サンジャイ
John A Bauer
エー. バウアー ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2010282639A publication Critical patent/JP2010282639A/ja
Application granted granted Critical
Publication of JP5231491B2 publication Critical patent/JP5231491B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Abstract

【課題】曖昧な検索クエリに応じて、適切な検索結果を提供する方法および装置を提供すること。
【解決手段】本発明と合致する方法および装置により、ユーザは、曖昧な検索クエリを提出し、適切な検索結果を受け取ることが可能である。クエリは、検索されるデータの少なくとも一部の文字セットおよび/または言語とは異なる文字セットおよび/または言語を使用して表され得る。これらの文字セットおよび/または言語の間の変換は、連係されたテキストにおいて、言葉の使用を検証することによって実行され得る。確率は、それぞれの可能な変更に関連付けられ得る。改良は、検索結果を用いて、ユーザの相互作用を検証することによって、これらの確率に対してなされ得る。
【選択図】図7

Description

(関連出願の参照)
本出願は、2000年12月26日に出願され、「METHODS AND APPARATUS FOR PROVIDING SEARCH RESULTS IN RESPONSE TO AN AMBIGUOUS SEARCH QUERY」と題された、米国特許出願シリアル番号第09/748,431号の一部継続であり、2000年7月6日に出願され、「DATA ENTRY AND SEARCH FOR HANDHELD DEVICES」と題された、米国特許仮出願シリアル番号第60/216,530号の優先権を、米国特許法第119条(e)に基づき主張し、その両方は、それらの全体においてここに援用される。
(発明の分野)
本発明は一般に、情報検索に関する。より詳細には、検索される文章の少なくとも一部の文字セットまたは言語とは異なる文字セットまたは言語において書かれたクエリを使用して検索を実行するためのシステムおよび方法が開示される。
多くの検索エンジンは、エンドユーザが従来のキーボードなどのようなものを用いて検索クエリを入力するという想定の下で動作し、そこで、英数字の入力は難しいことではない。小さなデバイスがより一般的になってはいるが、しかしながら、この想定はいつも有効とは限らない。例えば、ユーザは、WAP(ワイヤレス・アプリケーション・プロトコル)規格をサポートする携帯電話を使用して、検索エンジンにクエリし得る。携帯電話などのデバイスは通常、データ入力インターフェースを有し、ユーザによる特定のアクション(例えばキーを押すなど)が一つ以上の英数字文字に対応し得る。WAP構成の詳細は、http://www1.wapforum.org/tech/documents/SPEC−WAPArch−19980439.pdf(「WAP 100 Wireless Application Protocol Architecture Specification」)にて利用可能である。
通常の場合、WAPユーザは、検索クエリのページにナビゲートされ、ユーザが検索クエリを入力するフォームを提示される。従来の方法では、ユーザは、多数のキーを押して、特定の文字を選択し得る。標準の電話のキーパッドでは、ユーザは、例えば、文字「b」を選択する場合、「2」のキーを2回押す。または、文字「s」を選択したい場合は、「7」のキーを4回押す。従って、「ben smith」というクエリを入力するには、ユーザは通常、223366077776444844という一連のキーを押して入力する必要があり、以下のような文字に対応する。
22→b
33→e
66→n
0→スペース
7777→s
6→m
444→i
8→t
44→h
ユーザが検索リクエストを入力した後、検索エンジンは、ユーザから文字を受け取り、あたかも、ユーザが従来のキーボードを用いて、デスクトップのブラウザからリクエストを受け取ったかのように、同様の方法で処理する。
前述の例から理解できるように、データ入力のこの形式は、「ben smith」に対応する9つの英数字文字(スペースを含む)を入力するために18回もキー入力を必要とする点で、非効率的である。
同様の困難さは、ターゲットでない(non−target)言語のキーボードを用いてクエリをタイピングする場合に生じ得る。例えば、日本語のテキストは、ひらがな、カタナカ、および漢字などを含む様々な異なる文字セットを用いて表現され得、そのどれもが、ローマ字(Roman alphabet)に基づいた通常のASCIIキーボードを用いて容易に入力されるものではない。そのような状況において、ユーザはしばしば、日本の徳島市所在のJustSystem Corp.によって製造されたIchitaro(登録商標)などのようなワードプロセッサのソフトを使用し、romaji(日本語における音声的なローマ字(Roman alphabet)の表現)で書かれたテキストを、カタカナ、ひらがな、および漢字に変換することができる。ワードプロセッサソフトを使用し、ユーザはローマ字でクエリをタイピングし、次いで、ワードプロセッサのスクリーンから変換されたテキストを、ブラウザの検索ボックスへとカットアンドペーストする。このアプローチの不利な点は、相対的に遅く、面倒であり得、ユーザがワードプロセッサのコピーにアクセスすることが要求されるゆえ、コストの制約やメモリの制約などのために、ふさわしいとはいえない。
それゆえ、曖昧な検索クエリに応じて、適切な検索結果を提供する方法および装置が必要とされるのである。
具体化され、ここで広く記載される本発明と合致する方法および装置は、曖昧な検索クエリに応じた適切な検索結果を提供する。本発明と合致し、そのような方法は、ユーザからの一連の曖昧な情報構成要素を受け取ることを含む。その方法は、曖昧な情報構成要素を、より曖昧でない情報にマッピングする、マッピング情報を含む。このマッピング情報は、一連の曖昧な情報構成要素を、一つ以上の対応する一連の、より曖昧でない情報構成要素に変換するために使用される。一つ以上のこれらの一連の、より曖昧でない情報構成要素は検索エンジンへの入力として提供される。その検索結果は検索エンジンから得られ、ユーザに提示される。
付け加えて、システムおよび方法は、検索される文書の少なくとも一部の文字セットまたは言語とは異なる文字セットにて表されたクエリを用いて検索を実行することが開示される。本発明の実施形態により、ユーザは、標準の入力デバイス(例えば、ASCIIキーボード)を用いてクエリをタイプすることができ、クエリをサーバにおいて適切な形式に変換させることができ(たとえば、ローマ字で書かれたクエリをカタカナ、ひらがな、および/または漢字に変換する)、ならびに、変換された形式に基づいて、検索結果を受け取ることができる。
本発明は、プロセス、装置、システム、デバイス、方法、または、コンピュータ可読格納媒体、搬送波、またはコンピュータネットワークなどのコンピュータ可読媒体を含み、多様な方法においてインプリメントされ得ることは理解されるべきであり、プログラムの命令は、光学式または電気の通信線を介して送信される。いくつかの発明の実施形態は以下に記載される。
一実施形態において、方法は、クエリの言葉を、一つの言語および/または文字セットから別のものへと、自動的に変換することが記載される。所定のクエリの言葉を含むアンカーテキストの第1のセットが識別され、それはアンカーテキストが提示する文書(例えばウェブページなど)のセットである。次いで、第2のフォーマットで書かれ、同じ文書のセットを提示するアンカーテキストの第2のセットが識別される。アンカーテキストの第2のセットは、次いで、分析され、第1のフォーマットにおける所定のクエリの言葉の表示が、第2のフォーマットにおける所定のクエリの言葉の表示に対応する確率を得る。
別の実施形態において、確率辞書が作成され、第1のフォーマット(例えば、言語および/または文字セット)で書かれた言葉を、第2のフォーマット(例えば、別の言語および/または文字セット)にマッピングする。確率辞書は、第1のフォーマットで書かれたクエリを第2のフォーマットに変換するために使用される。変換されたクエリは、次いで、検索を実行するために使用され、その結果は、ユーザに戻される。一部の実施形態において、検索結果を用いたユーザの相互作用は、監視され得、確率辞書における確率を更新するために使用される。また、一部の実施形態において、クエリ自体は、検索に先立って、代替的な言語および/または文字セットのマッピングを含むように拡張され得る。
さらなる別の実施形態において、確率辞書を作成する方法が記載される。確率辞書は、第1のフォーマットにおける言葉を第2のフォーマットに変換するために使用され得る。辞書は、アンカーテキストまたはその言葉を含む他のデータを識別することによって、好ましくは言葉毎に作成される。次に、アンカーテキストまたは他のデータに連係される(aligned with)データは分析され、第1のフォーマットにおける所定の言葉が、第2のフォーマットにおける一つ以上の言葉にマッピングされる確率を決定する。
さらなる別の実施形態において、第1の言語または文字セットに提供されたクエリは、一つ以上のクエリの言葉を含み、第1の言語または文字セットで書かれたアンカーテキストと、第1のアンカーテキストに対応し、第2の言語または文字セットで書かれたアンカーテキストとを比較することによって、第2の言語または文字セットに変換される。
別の実施形態において、コンピュータプログラム製品は、第1のフォーマットで書かれた言葉を第2のフォーマットに変換するために提供される。コンピュータプログラム製品は、コンピュータシステムに、連係されたアンカーテキストを識別させ、第1のフォーマットにおける所定の言葉の表示が、第2のフォーマットにおける一つ以上の言葉に対応する確率を決定させるように動作可能である。
別の実施形態において、方法は、曖昧なクエリを用いて検索を実行するために提供される。ユーザが第1のフォーマットにおいてクエリを入力する場合、それは、第2のフォーマットで書かれた一つ以上の変形の一群に変換される。次いで、検索は、変換された変形を用いて実行され、応答の情報は、ユーザに戻される。例えば、第1のフォーマットは、電話キーパッドを用いて入力された一連の数を含み得、第2のフォーマットは、英数字のテキスト(例えば、英語、ローマ字、romaja、ピンインなど)を含み得る。一部の実施形態において、一つ以上の変形の群は、所定の語彙に現れない、および/または、所定の低い確率の文字の組み合わせを含む、変換された変形を除去することによって選択される。一部の実施形態において、確率辞書は、検索が実行される前に、一つ以上の変形の群を、第3のフォーマットに変換する。例えば、確率辞書は、ローマ字、romaja、またはピンインの一つ以上の変形の群を、漢字、カタカナ、ひらがな、ハングル、ハンジャ、または伝統的な中国文字(traditional Chinese character)に変換するために使用され得、検索は、次いで、変換された変形を用いて実行され得る。
本発明のこれらおよび他の特徴および利点は、以下の詳細な記載、ならびに、本発明の原理の例によって例示された、添付された図面に、さらに詳細に提示されている。
例えば、本発明は、以下の項目を提供する。
(項目1)
第1のフォーマットで書かれ、所定の言葉を含む第1のアンカーテキストのセットを識別することと、
該第1のアンカーテキストのセットが指す文書のセットを識別することと、
第2のフォーマットで書かれ、該識別された文書のセットを指す第2のアンカーテキストのセットを識別することと、
該第1のフォーマットにおける該所定の言葉の表示が該第2のフォーマットにおける該所定の言葉の表示に対応することを決定するために該第2のアンカーテキストのセットを分析することと
を包含する、方法。
(項目2)
上記第1のフォーマットは第1の文字セットを含み、上記第2のフォーマットは第2の文字セットを含む、項目1に記載の方法。
(項目3)
上記第1のフォーマットは第1の言語を含み、上記第2のフォーマットは第2の言語を含む、項目1に記載の方法。
(項目4)
上記第2のアンカーテキストのセットを分析することは、該第2のアンカーテキストのセットで最も頻繁に現われる言葉を識別することと、該第2のフォーマットにおいて、該最も頻繁に現われる言葉を上記所定の言葉の表示として指定することを含む、項目1に記載の方法。
(項目5)
上記第2のアンカーテキストのセットを分析することは、上記所定の言葉が上記第2のアンカーテキストのセットにおける言葉に対応する確率を計算することを包含する、項目1に記載の方法。
(項目6)
上記確率は、ベイズ法、ヒストグラムスムージング、カーネルスムージング、および縮小推定量のうちの少なくとも一つを用いて得られる、項目5に記載の方法。
(項目7)
上記所定の言葉が上記第2のアンカーテキストのセットにおける言葉に対応する上記確率は、該第2のアンカーテキストのセットにおける該言葉の発生回数を、該第2のアンカーテキストのセットにおける全言葉の総発生回数で割ることによって得られる、項目5に記載の方法。
(項目8)
上記第2のアンカーテキストのセットを分析することは、上記所定の言葉が該第2のアンカーテキストのセットにおけるそれぞれの言葉に対応する確率を計算することを包含する、項目1に記載の方法。
(項目9)
上記第2のアンカーテキストのセットを分析することは、該第2のアンカーテキストのセットにおいて最も頻繁に現われる言葉を識別することを包含する、項目1に記載の方法。
(項目10)
上記第1のフォーマットは、ローマ字、romaja、およびピンインから成る群から選択され、上記第2の文字セットは、カタカナ、ひらがな、漢字、ハングル、ハンジャ、および伝統的な中国文字から成る群から選択される、項目2に記載の方法。
(項目11)
上記文書がウェブページを構成する、項目1に記載の方法。
(項目12)
上記第1のフォーマットで書かれ、上記所定の言葉を含むクエリを得ることと、
少なくとも部分的に上記分析するステップに基づいて、該クエリを上記第2のフォーマットに変換することと、
該変換されたクエリに応じた、該第2のフォーマットで書かれた情報のためにデータベースを検索することと
をさらに包含する、項目1に記載の方法。
(項目13)
上記ステップは、上記列挙された順序で実行される、項目12に記載の方法。
(項目14)
ユーザーから第1のフォーマットで書かれたクエリを得ることと、
確率辞書を用いて該クエリを第2のフォーマットに変換することであって、該確率的辞書は該第1のフォーマットから該第2のフォーマットに言葉をマッピングする、ことと、
該変換されたクエリに応じた情報のためにデータベースを検索することと、
該第2のフォーマットで書かれた検索結果を該ユーザーに戻すことと
を包含する、検索方法。
(項目15)
上記ユーザーからの検索結果選択を得ることと、
言葉マッピングの上記確率辞書を修正するために該検索結果選択を用いることと
をさらに包含する、項目14に記載の検索方法。
(項目16)
上記修正は、上記確率辞書における少なくとも一つのマッピングに関連する少なくとも一つの確率を調整することを包含する、項目15に記載の検索方法。
(項目17)
上記クエリを上記第2のフォーマットに変換する上記ステップは、該クエリを拡張することを含む、項目14に記載の検索方法。
(項目18)
上記拡張されたクエリは、上記クエリ言葉の代替のエンコーディングを含む、項目17に記載の検索方法。
(項目19)
上記拡張されたクエリは、上記クエリ言葉の代替の言語変換を含む、項目17に記載の検索方法。
(項目20)
上記拡張されたクエリは、上記クエリ言葉の、代替のエンコーディングおよび代替の言語変換を含む、項目17に記載の検索方法。
(項目21)
上記拡張されたクエリは、上記クエリ言葉の上記代替のエンコーディングの同義語を含む、項目18に記載の検索方法。
(項目22)
確率辞書を作成する方法であって、該確率辞書は第1のフォーマットにおける言葉を第2のフォーマットにおける言葉にマッピングするものであり、該方法は、
所定の言葉に対して、該言葉を含む、上記第1のフォーマットにおける第1のデータのセットを識別することと、
該第1のデータのセットと連係する、上記第2のフォーマットにおける第2のデータのセットを識別することと、
該所定の言葉が該第2のデータのセットにおける一つ以上の言葉にマッピングするのに用いる一つ以上の確率を決定するために、該第2のデータのセットを分析することと
を包含する、該方法。
(項目23)
上記所定の言葉が上記第2のデータのセットにおける一つ以上の言葉にマッピングするのに用いる一つ以上の確率とともに、該所定の言葉を上記辞書に加えることをさらに包含する、項目22に記載の方法。
(項目24)
上記辞書に加えられるそれぞれの言葉に対して、第1のデータのセットを識別する上記ステップと、第2のデータのセットを識別する上記ステップと、該第2のデータのセットを分析する上記ステップを繰り返すことをさらに包含する、項目23に記載の方法。
(項目25)
上記第1のデータのセットは、一つ以上のウェブページのセットを指す第1のアンカーテキストのセットを含み、上記第2のデータのセットは、一つ以上のウェブページの同じセットを指す第2のアンカーテキストのセットを含む、項目22に記載の方法。
(項目26)
上記第1のデータのセットは第1の言語で書かれたテキストのセットを含み、上記第2のデータのセットは第2の言語で書かれた同じテキストのセットを含む、項目22に記載の方法。
(項目27)
上記所定の言葉が上記第2のデータのセットにおける言葉にマッピングするのに用いる上記確率は、該第2のデータのセットでの該言葉の上記発生回数を該第2のデータのセットにおける言葉の総回数で割ることによって計算される、項目22に記載の方法。
(項目28)
上記所定の言葉が少なくとも部分的にユーザーの検索結果選択の分析に基づいて上記第2のデータのセットにおける言葉にマッピングするのに用いる、上記確率を修正することをさらに包含する、項目22に記載の方法。
(項目29)
上記所定の言葉が少なくとも部分的にユーザーの以前のクエリの分析に基づいて上記第2のデータのセットにおける言葉にマッピングするのに用いる、上記確率を修正することをさらに包含する、項目22に記載の方法。
(項目30)
コンピュータ読み取り可能媒体に内蔵のコンピュータプログラム製品であって、該コンピュータプログラム製品は、コンピュータシステムによって実行される場合に該コンピュータシステムに動作を実行させるように操作可能な命令を含み、該動作が、
第1のフォーマットで書かれ、所定の言葉を含む第1のアンカーテキストのセットを識別することと、
該第1のアンカーテキストのセットが指すウェブページのセットを識別することと、
第2のフォーマットで書かれ、該識別されたウェブページのセットを指す第2のアンカーテキストのセットを識別することと、
該第1のフォーマットにおける該所定の言葉の表示が該第2のフォーマットにおける該所定の言葉の表示に対応する確率を決定することと
を包含する、コンピュータプログラム製品。
(項目31)
上記コンピュータシステムによって実行される場合に該コンピュータシステムに動作を実行させるように操作可能な命令をさらに含み、該動作が、
少なくとも部分的にユーザーの検索結果の選択の分析に基づいて、上記第1のフォーマットにおける上記所定の言葉の表示が上記第2のフォーマットにおける該所定の言葉の表示に対応する確率を修正することを包含する、項目30に記載のコンピュータプログラム製品。
(項目32)
上記コンピュータシステムによって実行される場合に該コンピュータシステムに動作を実行させるように操作可能な命令をさらに含み、該動作が、
少なくとも部分的にユーザーの以前のクエリの分析に基づいて、上記第1のフォーマットにおける上記所定の言葉の表示が上記第2のフォーマットにおける該所定の言葉の表示に対応する確率を修正することを包含する、項目30に記載のコンピュータプログラム製品。
(項目33)
上記確率は、ベイズ法、ヒストグラムスムージング、カーネルスムージング、および縮小推定量の少なくとも一つを用いて少なくとも部分的に決定される、項目30に記載のコンピュータプログラム製品。
(項目34)
第1のフォーマットで書かれた第1のテキスト本体を識別することと、
第2のフォーマットで書かれた第2のテキスト本体を識別することであって、該第2のテキスト本体は該第1のテキスト本体と連係する、識別することと、
該第1のテキスト本体における上記言葉の発生と該第2のテキスト本体における言葉の発生を比べて、該第1のテキスト本体における言葉と該第2のテキスト本体における言葉の間の変換辞書を作ることと
を包含する、変換方法。
(項目35)
上記変換辞書は該変換に関する一つ以上の確率を含む、項目34に記載の変換方法。
(項目36)
上記第1のフォーマットは第1の文字セットを含み、上記第2のフォーマットは第2の文字セットを含む、項目34に記載の変換方法。
(項目37)
上記第1のフォーマットは第1の言語を含み、上記第2のフォーマットは第2の言語を含む、項目34に記載の変換方法。
(項目38)
上記第1のテキスト本体はアンカーテキストを含み、上記第2のテキスト本体はアンカーテキストを含む、項目34に記載の変換方法。
(項目39)
第1のフォーマットで書かれた少なくとも一つのクエリ言葉を含むクエリを受け取ることと、
該クエリ言葉を第2のフォーマットで書かれた複数の変形に変換することと、
該クエリに応じた該第2のフォーマットで書かれた情報を検索するために、一つ以上の該変形を用いることと
を包含する方法。
(項目40)
上記第1のフォーマットは電話キーパッドから入力された数字の順序を含み、上記第2のフォーマットは英数字テキストを含む、項目39に記載の方法。
(項目41)
所定の辞書の一部でない上記複数の変形における変形を除去することによって、上記一つ以上の変形を得ることをさらに包含する、項目39に記載の方法。
(項目42)
所定の低い確率の文字組合せを含む上記複数の変形における変形を除去することによって上記一つ以上の変形を得ることをさらに包含する、項目39に記載の方法。
(項目43)
上記第1のフォーマットはローマ字、romaja、およびピンインから成る群から選択された文字セットで書かれた英数字テキストを含み、上記第2のフォーマットは漢字、カタカナ、ひらがな、ハングル、ハンジャ、および伝統的な中国文字から成る群から選択される文字セットで書かれた英数字テキストを含む、項目39に記載の方法。
(項目44)
電話キーパッドから入力された数字クエリを受け取ることと、
該数字クエリを第1のフォーマットにおけるポテンシャル英数字変換の群に変換することと、
所定の低い確率文字組合せを含むために決定されたポテンシャル変換を除去することと、
確率辞書を用いて、残りの英数字変換を該第1のフォーマットから第2のフォーマットに変換することと、
該第2のフォーマットにおいて該英数字変換を用いて検索を実行することと
を包含する方法。
(項目45)
上記第1のフォーマットはローマ字、romaja、およびピンインから成る群から選択された文字セットで書かれたテキストを含み、上記第2のフォーマットは漢字、カタカナ、ひらがな、ハングル、ハンジャ、および伝統的な中国文字から成る群から選択される文字セットで書かれたテキストを含む、項目44に記載の方法。
本発明と合致する方法および装置がインプリメントされ得るシステムのブロック図を例示する。 本発明と合致する、クライアントデバイスのブロック図を例示する。 3つの文書を例示する図である。 従来の英数字のインデックスを例示する。 従来の英数字の検索クエリに応じて、検索結果を提供するフロー図である。 曖昧な検索クエリに応じた検索結果を提供するための、本発明に合致したフロー図を例示する。 数字の情報を数字の情報にマッピングする図を例示する。 (記載なし) 曖昧な検索クエリに応じた検索結果を提供するための、本発明に合致した別のフロー図を例示する。 本発明の実施形態に従い、検索を実行する方法を例示する。 文字セットの変換の確率辞書を例示する。 確率辞書を構築するためのパラレルアンカーテキストの使用を例示する。 アンカーテキストを使用してリンクされた文書の集まりを例示する。 図11Aおよび図11Bは、図10に示されたアンカーテキストに基づく適当な変換の計算を例示する。 例示的な言葉の変換と関連した確率分配を示す。
添付された図面は、この明細書にて援用され、その一部として構成され、本発明の実施形態を例示し、記載とともに、本発明の利点および原理を説明するのに役立つ。
添付された図面にて例示される本発明の実施形態を詳細に参照する。同様の数字は、図面や以下に続く記載を通して、同様の部分を示す。以下に続く記載は、当業者が本発明を利用することができるように提示される。特定の実施形態および応用の記載は例としてのみ提供されるのであり、様々な修正は当業者にとって容易に明白である。例えば、多くの例がインターネットのウェブページに記載されているが、本発明の実施形態は、本、新聞、雑誌などの文章および/または情報の他のタイプを検索するために使用され得る。同様に、例示のために、日本語のテキストをローマ字からカタカナ、ひらがなおよび/または漢字へと変換されることが記載されるが、当業者に明らかなように、本発明のシステムおよび方法は、任意の適切な変換へと応用され得る。例えば、限定なしに、本発明の実施形態は、一部の他のフォーマット(例えば、ピンインやローマ字など)において受け取られるクエリに基づき、伝統的な漢字、または韓国のハングル文字またはハンジャ文字にて書かれたテキストを検索するために用いられ得る。ここで記載される一般的な原理は、本発明の趣旨および範囲から逸脱することなく他の実施形態および応用に適用され得る。したがって、本発明は、ここで開示される原理および特徴に合致する多数の代替、修正、および均等物を含み、最も広い範囲に従うものである。明瞭さのために、本発明に関連する領域で既知である技術的事項に関する詳細は、本発明を不必要に曖昧にしないように、詳細に記載されていない。
A.概説
本発明に合致する方法および装置により、ユーザは、曖昧な検索クエリを提出し、場合によっては明確にされた検索結果を受け取ることが可能である。一実施形態において、標準の電話のキーパッドのユーザから受け取る一連の数が、場合によってはそれに対応する英数字のシーケンスのセットに変換される。これらの対応する英数字のシーケンスは、ブール式の「OR」結果を使用し、従来の検索エンジンへ入力として提供される。この方法において、検索エンジンは、ユーザが興味を持ちそうなものに対する検索結果を制限するのに役立つ。
B.構成
本発明に合致する方法および装置がインプリメントされ得る、システム100が図1に示される。システム100は、ネットワーク140を介して、多数のサーバ120および130に接続される多数のクライアントデバイス110を含み得る。ネットワーク140は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、公衆交換電話網(PSTN)などのような電話網、インターネット、またはネットワークの組み合わせを含み得る。2つのクライアントデバイス110および3つのサーバ120および130は、単純に、ネットワーク140に接続されるように例示される。実際には、ほぼ同数のクライアントデバイスおよびサーバが存在し得る。たま、一部の場合においては、クライアントデバイスは、サーバ機能を実行し得、サーバはクライアントデバイス機能を実行し得る。
クライアントデバイス110は、メインフレーム、ミニコンピュータ、パーソナルコンピュータ、ラップトップ、PDA(携帯情報端末)などのようなデバイスを含み得、ネットワーク140に接続可能である。クライアントデバイス110は、ネットワーク140を介してデータを送信し、あるいは、有線、無線、または光学式の接続を介してネットワーク140からデータを受信する。
図2は、本発明と合致する例示的なクライアントデバイス110を図示する。クライアントデバイス110は、バス210、プロセッサ220、メインメモリ230、読み出し専用メモリ(ROM)240、記憶装置250、入力デバイス260、出力デバイス270、および通信インターフェース280を含み得る。
バス210は、一つ以上の従来のバスを含み得、クライアントデバイス110の間で通信を可能にする。プロセッサ220は、従来のタイプのプロセッサまたはミニコンピュータを含み得、命令を解釈し実行する。メインメモリ230はランダムアクセスメモリ(RAM)または他のタイプのダイナミック記憶装置を含み得、プロセッサ220による実行のための情報および命令を格納する。ROM240は、従来のROMデバイスまたは他のタイプのスタティック記憶装置を含み得、プロセッサ220が使用するためのスタティックな情報および命令を格納する。記憶装置250は磁気および/または光学式の記憶媒体、ならびにそれに対応するドライブを含み得る。
入力デバイス260は、キーボード、マウス、ペン、音声認識および/または生体認識メカニズムなどのような一つ以上の従来のメカニズムを含み得、それによって、ユーザは、クライアントデバイス110へ情報を入力することが可能である。出力デバイス270は、一つ以上の従来のメカニズム(ディスプレイ、プリンタ、スピーカなど)を含み得、ユーザに情報を出力する。通信インターフェース280は、任意の送受信器のようなメカニズムを含み得、クライアントデバイス110が他のデバイスおよび/またはシステムと通信することが可能となる。例えば、通信インターフェース280は、ネットワーク140などのようなネットワークを介して、別のデバイスまたはシステムと通信するためのメカニズムを含み得る。
以下で詳細に記載するように、本発明と合致するクライアントデバイス110は、所定の検索に関連する動作を実行する。クライアントデバイス110は、メモリ230などのコンピュータ可読媒体に含まれるソフトウェアの命令を実行するプロセッサ220に応答した動作を実行し得る。コンピュータ可読媒体は一つ以上のメモリデバイスおよび/または搬送波として定義され得る。ソフトウェアの命令は、データ記憶装置250などのような別のコンピュータ可読媒体から、または、通信インターフェース280を介して別のデバイスから、メモリ230へと読み出され得る。メモリ230に含まれるソフトウェアの命令により、プロセッサ220は、以下で記載される、検索に関連する動きを実行する。あるいは、ハードウェアに組み込まれている回路は、ソフトウェアの命令の代わりに、またはソフトウェアの命令と組み合わされて使用され得、本発明と合致する処理をインプリメントし得る。したがって、本発明は、特定のハードウェアに組み込まれている回路とソフトウェアとの任意の組み合わせに限定されるわけではない。
サーバ120および130は、メインフレーム、ミニコンピュータ、またはパーソナルコンピュータなどの、一つ以上のコンピュータシステムのタイプを含み得、ネットワーク140と接続することができ、サーバ120および130は、クライアントデバイス110と通信することができる。代替的な実施において、サーバ120および130は、一つ以上のクライアントデバイス110と直接に接続するメカニズムを含み得る。サーバ120および130は、ネットワーク140を介してデータを送信し得、あるいは、有線、無線、または光学式の接続を介して、ネットワーク140からデータを受信し得る。
サーバは、クライアントデバイス110に対して、図2を参照し上記されたのと同様な方法にて、構成され得る。本発明と合致する実施において、サーバ120は、クライアントデバイス110によって使用可能である検索エンジン125を含み得る。サーバ130は、クライアントデバイス110によってアクセス可能である文書(またはウェブページ)を格納し得る。
C.構成動作
図3は、3つの文書を表す図を示し、サーバ130のうちの一つにおける例示として格納され得る。
第1の文書(文書1)は、「car repair」および「car rental」の2つのデータ入力を含み、底に「3」という数がある。第2の文書(文書2)は「video rental」というデータ入力を含む。第3の文書(文書3)は、「wine」、「champagne」、および「bar items」という3つのデータ入力を含み、ならびに、文書2へのリンク(または参照)を含む。
例示を単純にするために、図3に示される文書は、英数字文字列の情報(例えば、「car」、「repair」、「wine」など)のみを含む。しかしながら、当業者は、他の状況において、文書は、音声的、視聴覚的な情報などといった、他のタイプの情報を含み得ることを理解する。
図4aは、図3に示された文書に基づき、従来の英数字のインデックスを示す。インデックスの第1の列は英数字のリストを含み、第2の列は、それらの言葉に対応する文書のリストを含む。英数字の「3」などの一部の言葉は、一つの文書(この場合は文書1)に対応する(にある)。「rental」などの他の言葉は、多数の文書(この場合は文書1および2)に対応する。
図4bは、検索エンジン125のような従来の検索エンジンが、図4aにて示されたインデックスをどのように使用し、英数字の検索クエリに応じた検索結果を提供するのかを示す。英数字のクエリは、任意の従来の技術を用いて生成され得る。図示のために、図4bは2つの英数字のクエリ、「car」および「wine」を表す。従来のアプローチの下では、検索エンジン125は、「car」などの英数字のクエリを受け取り(ステージ410)、その英数字のインデックスを用いて、どの文書がそのクエリに対応するのかを決定する(ステージ420)。この例において、従来の検索エンジン125は、図4aにて示されたインデックスを用い、「car」が文書1に対応し、検索結果としてユーザに、文書1(またはそれへの参照)を戻す。同様に、従来の検索エンジンは、「wine」が文書3に対応し、ユーザに文書3(またはそれへの参照)を戻すことを決定する(ステージ430)。
図5aは、本発明と合致し、個々に図3および図4aに示された文書およびインデックスに基づき、数字の検索クエリに応じた検索結果を提供する好ましい技術のフロー図を示す。理解し易い例示のために、図5aは標準の電話端末のマッピングに基づき、数字のクエリを処理する特定の技術を記載する。しかし、当業者は、本発明に合致する他の技術もまた使用され得ることを理解する。
ステージ510において、シーケンス「227」(数字の構成要素「2」、「2」、および「7」からなる)がユーザから受け取られる。ステージ520において、数字の構成要素が文字へとマッピングされる方法についての情報が得られる。ユーザが標準の電話キーパッドから情報を入力したと想定し、このマッピング情報が図5bに示される。図5bに示されるように、文字「a」、「b」、および「c」はそれぞれ、「1」にマッピングされ、文字「p」、「q」、および「r」はそれぞれ、「7」にマッピングされている。
ステージ530において、このマッピング情報を用い、シーケンス「227」は、その英数字の相当物に変換される。図5bに示される情報に基づいて、シーケンス「227」に対応する文字の可能な組み合わせは36通りあり、その組み合わせは、aap、bap、cap、abp、bbp、・・・bar・・・car・・・ccsなどを含む。数字が可能な組み合わせ(例えば「aa7」)に含まれる場合、80通りの可能な組み合わせが存在する。全ての可能な英数字の相当物を生成するよりもむしろ、一部の語彙に基づき、生成された相当物を限定するのが望ましい。例えば、辞書、または以前の検索クエリの検索エンジンログなどに存在する英数字の相当物のみを生成することが望ましい。あるいは、既知の統計的な技術(例えば、所定の言葉が一緒に現れる確率など)を用いることによって英数字の相当物を限定することが望ましい。
ステージ540において、これらの英数字の相当物は、論理「OR」動作を用いて、図4aおよび図4bを参照して記載されたような、従来の検索エンジンへの入力データとして提供される。例えば、検索エンジンへ提供される検索クエリは、「aap OR bap OR cap OR abp・・・OR bar・・・OR car」であり得る。全ての可能な英数字の相当物が検索クエリに提供され得るが、サブセットは、その代わりに、意図されない相当物を除去する従来の技術を用いて使用され得る。例えば、ユーザは、言葉の使用についての確率的な情報を引き出す技術を用いて、可能な組み合わせのより狭いリストを生成することが可能である。すなわち、ユーザは、「qu」で始まる組み合わせを含む(好む)が「qt」で始まる組み合わせを無視することが可能である。
ステージ550において、検索結果は検索エンジンから得られる。なぜなら、「aap」や「abp」などの言葉は検索エンジンのインデックスには存在せず、それらは効果的に無視されるからである。実際には、図4bに示されたインデックス内に含まれた言葉は「car」および「bar」のみであり、戻ってきた検索結果は、文書1および文書3を参照するもののみである。ステージ560において、これらの検索結果はユーザに提示される。その検索結果は、検索エンジンによって提供されたのと同じ順序にて提示され得るか、または、ユーザの言語などの検討材料に基づき、記録され得る。ユーザが「bar」という言葉を含む文書のみに興味を持っていると想定すると、ユーザは、望んでいない結果(文書3)、および望んだ結果(文書1)を受け取る。ユーザの利点として、検索クエリを編成する3つのキーを押すことが必要とされるのみであるが、これは許容可能な対価であり得る。
図6は、本発明に合致し、個々に図3および図4aに示された文書およびインデックスに基づき、数字の検索クエリに対応する検索結果を提供する好ましい技術の、別のフロー図を示す。このフロー図は、受け取られたシーケンスのサイズの増加が、ユーザによって望まれたものへの検索結果をどのように限定するのを助けるのかを例証する。理解し易い例示のために、図6は、標準の電話キーパッドのマッピングに基づいて、数字のクエリを処理する特定の技術を再び記載するが、当業者は、本発明に合致する他の技術が利用され得ることを理解する。
ステージ610において、シーケンス「227 48367」(数字の構成要素、「2」、「2」、「7」、「4」、「8」、「3」、「6」、「7」からなる)が、ユーザから受け取られる。説明のために、シーケンス「227」を「数字ワード」(number
word)と呼び、全体のシーケンス「227 48367」を「数字フレーズ」(number phrase)と呼ぶ。数字ワードの可能な英数字の相当物を「文字ワード」(letter word)と呼び、数字フレーズの可能な英数字の相当物を「文字フレーズ」(letter phrase)と呼ぶ。
ステージ620において、数字の構成要素が文字にマッピングされる方法についての情報が得られる。ステージ630において、同様のマッピング情報が、図5bに示されるように使用されると想定し、数字フレーズ「227 48367」は、それに対応する文字フレーズに変換される。図5bに示される情報に基づき、シーケンス「227 48367」に対応する、11664通りの可能な文字フレーズが存在する。
ステージ640において、これらの文字フレーズは、論理「OR」動作を用いて、図4aおよび図4bを参照して記載された、従来の検索エンジンへの入力データとして提供される。例えば、検索エンジンに提供された検索クエリは、「aap gtdmp‘OR’aap htdmp‘・・・OR’bar items‘・・・OR’car items‘」であり得る。全ての可能な文字フレーズが検索エンジンに提供され得るが、サブセットは、その代わり、意図されていない文字フレーズを除去するために従来の技術を用いて、使用され得る。
ステージ650において、検索結果は検索エンジンから得られる。なぜなら、多くの検索エンジンが、ソートされた正確なフレーズを含むそれらの文書を上位にランクさせるように設計されており、文書3は、最上位にランクされた検索結果であるからである(つまり、正確なフレーズ、「bar items」を含むからである)。例における文書で、ステージ620にて生成された他の文字フレーズのうちの一つを含む文書はない。さらに、多くの検索結果は、フレーズの個々の部分を含む検索結果を減らす(除去する)が、全体のフレーズではない。例えば、文書1は、それが、「car」という文字ワードを含むゆえに減らされ(除去され)、その文字ワードは文字フレーズの第1の部分に対応するが、それは、文字フレーズの第2の部分に対応する任意の文字ワードを含まない。最後に、「aap htdmp」などの文字フレーズは効果的に無視される。というのは、それらは、検索エンジンのインデックスに存在する文字ワードを含まないからである。
ステージ660において、検索結果がユーザに提示される。例において、ユーザに示された第1の結果は文書3であり、それは、ユーザのクエリに最も適切なものである。文書1は、可能な文字フレーズのうちの一つを含まないゆえに、共に除去され得る。この方法において、ユーザは、最も適切な検索結果が提供される。
図5および図6を参照した上記は、数字の情報を受け取り、それを英数字の情報にマッピングすることを参照してなされるが、当業者は、他の実施が本発明と合致して可能であることを理解する。例えば、ユーザによって押されたキーに対応する数のシーケンスを受け取る代わりに、受け取られたシーケンスは、ユーザによって押されたキーに対応する第1の文字からなり得る。つまり、「227」を受け取る代わりに、受け取られたシーケンスは「aap」であり得る。本発明と合致し、ステージ530または630において生成された、その相当する文字シーケンスは、「aap」に対応する他の文字シーケンス(例えば「bar」)であり得る。実際には、受け取られたシーケンスは、音声的、視聴覚的、または他の任意の情報構成要素のタイプを含み得る。
シーケンスが受け取られるフォームに関係なく、受け取られたシーケンスは、情報が検索エンジンのインデックスに格納されるフォーマットに対応するシーケンスに変換されるのが、通常は好ましい。例えば、検索エンジンのインデックスが英数字のフォーマットにて記憶される場合、受け取られたシーケンスは英数字のシーケンスに変換されるべきである。
さらに、情報構成要素の受け取られたシーケンスを変換するために使用されるマッピング技術は、ユーザの入力をデバイスによって生成される情報にマッピングするためのユーザのデバイスにて用いられるのと同じ技術であることが通常は望ましい。しかしながら、ユーザの入力に使用されるのとは異なるマッピング技術が使用されるのが好ましい場合もあり得る。
また、本発明の実施形態により、ユーザは、ターゲットではない言語のキーボードを用いて入力された検索を実行することを可能にする。例えば、日本語のテキストを含むウェブページは漢字で書かれる一方、そのページを検索しようとするユーザは、ローマ字のアルファベットに基づいて標準のASCIIキーボード(または携帯電話機)にアクセスを有するのみである。
図7は、そのような検索を実行する方法を例示する。図7において示されるように、ユーザは、標準の入力デバイス(例えば、ASCIIキーボード、携帯電話機、など)を使用してクエリをタイプし、そのクエリを検索エンジンに送る。そのクエリは、それに対応する文書の一部が書かれている(例えば漢字)文字セットとは異なる文字セット(例えばローマ字)で書かれ得る。検索エンジンは、クエリを受信し(ブロック702)、それを適切な形式に変換し(ブロック704)、従来の検索技術などを使用して、変換されたクエリに対応して、文書の検索を実行する(ブロック706)。次いで検索エンジンは、対応する文書のリスト(および/または、文書のコピー)を、ユーザに戻す(ブロック708)。例えば、図6と関連して上記されたものと同様の方法にて、結果はユーザに戻され得る。
図7に示されるように、ユーザのクエリは、好ましくは、クライアントとは逆の、検索エンジンサーバ側にて変換され、変換を実行するための、特殊な目的のためのソフトウェアを得る必要から、ユーザを解放させる。しかしながら、他の実施形態において、変換の一部または全ては、クライアント側にて実行され得ることは理解される。付け加えて、一部の実施形態において、クエリは、電話機のキーパッドなどのようなデバイスを使用して入力され得る。そのような実施形態において、初期の数字のクエリは、図5および図6に関連する上記されたマッピング技術を用いて、英数字の形式(例えばローマ字)に変換され得、例えば、低い確率のマッピング(例えば、ローマ字においては生じない文字の組み合わせなどを含むマッピング)を除去するための、語彙および/または確率的な技術の応用を含む。いったん、クエリの英数字の変換が得られると、図7に示されるステップの残りが実行され得る(つまり、704、706、および708)。
一つの文字セットまたは言語から別のものへの変換(つまり、図7におけるブロック704)は、様々な方法にて実行され得る。一つの技術は、クエリにおけるそれぞれの言葉を、ターゲットの言語または文字セットにおいて対応する言葉にマッピングするために、言葉の意味または変換の従来のスタティックの辞書を使用する。しかしながら、このアプローチの問題は、しばしば不正確な結果を生じることである。というのは、言葉はしばしば曖昧であり、クエリはしばしば、短すぎて、この曖昧さを解消する十分な手掛かりを提供しない。例えば、「bank」という言葉は、川の土手、金融機関、飛行機による演習、などを意味し得、理論上、正確に変換することは困難である。付け加えて、辞書が相対的に、大きくなく、および/または頻繁に更新されていない場合、滅多に使用しない言葉、スラング、イディオム、適切な名前などの、検索エンジンが出くわし得る全ての言葉の入力が含まれ得ない。
本発明の実施形態はまた、一つの言語または文字セット(例えばASCII)から別のもの(例えば漢字)へ、クエリの言葉を変換するために、確率辞書(probabilistic dictionary)を使用して、一部または全ての問題を克服または改善するために使用され得る。好ましい実施形態において、確率辞書は、一つの言葉のセットを別の言葉のセットへとマッピングし、確率をそのマッピングそれぞれに関連付ける。便宜上、「言葉(term)」または「トークン」は、言葉(words)、フレーズ、および/または、スペースを含み得る一つ以上の文字のシーケンスを参照する。
図8は、上記されたような確率辞書800の例を示す。図8に示された例示的な確率辞書800は、romaji(日本語のローマ字のアルファベットの表示)で書かれた言葉を、漢字(ローマ字ではない、表意文字ベースの日本語の文字セット)で書かれた言葉にマッピングする。説明を容易にするために、図8は、ローマ字の言葉を、「<term>romaji」とし、漢字の言葉を「<term>kanji」とする。漢字辞典に対する実際のローマ字において、実際のローマ字および漢字の言葉は、図8にて示される英語変換よりも、使用されることが理解される。したがって、図8は、本発明の実施形態の説明を容易にするために提供されるのであり、日本語のテキストの実際の文字および意味を例示しているのではない。
辞書800は、様々なローマ字の言葉802のための808、810、812、814のデータ入力を含む。辞書はまた、漢字804におけるそれぞれの言葉の表示を含み、それぞれの表示が正しい場合の、対応する確率806に沿っている。例えば、ローマ字の言葉「bank」は、「steep slope」を意味する言葉に、0.3の確率でマッピングされ得、「financial institution」を意味する言葉には、0.4の確率でマッピングされ得、「airplane maneuver」には0.2の確率でマッピングされ得る。0.1の確率では、その言葉は「その他」にマッピングされ得、それは単に、辞書に存在し得ない言葉に、それぞれの言葉をマッピングさせる、包括的な方法である。
再び、図8に示された例は、第1の文字セットまたは言語における所定の言葉(例えば、「bank」など)が、別の文字セットまたは言語において2つ以上の言葉にマッピングされ得ることを例示するように構成されることが理解される。しかしながら、当業者が理解するように、明瞭さのために、図8における特定の例は、英語の言葉や意味を使用する原理を例示しており、「bank」などの言葉の実際のローマ字表示は、例えば、その英語の相当物と同じような方法にて曖昧ではあり得ない(例えば、financial institutionとairplane maneuverとの言葉の間で、ローマ字に曖昧さは存在し得ない)。また、理解すべきことは、説明を容易にするために、図8に示される辞書は、他の点においても単純化されている。例えば、実施の確率辞書は、それぞれの言葉の、さらに多くのマッピングを含み得、または、所定の確率閾値を超過するマッピングを含み得る。
本発明の好ましい実施形態は、そのような確率辞書を用い、一つの言語および/または文字セットにおいて表現されたクエリを、別の言語および/または文字セットに変換し、それにより、ユーザが、元々のクエリとは異なる文字セットおよび/または言語にて書かれた文書を発見することを可能にする。例えば、ユーザがローマ字で「cars」というクエリを入力した場合、確率辞書は、「cars」というローマ字の言葉を、「cars」という漢字の言葉へとマッピングするために使用され得る。この方法において、クエリの文字セット(例えばローマ字)とマッチングする文書の文字セット(例えば漢字)とが同じではない場合でさえも、ユーザは、それらのクエリに関連する文書を発見することができる。この特定の例において、クエリの実際の言語は変化せず(ローマ字および漢字は日本語を表現するために使用される)、文字エンコードのみが変化することに注意されたい。
別の例として、ASCIIの英語における「tired」という言葉は、Latin1の文字エンコードを用いたドイツ語における「muede」という言葉にマッピングされ得る。というのは、ウムラウトuという文字は、ASCIIに存在しないからである。この例において、辞書は、辞書は他の言語に変換され(英語からドイツ語)、他の文字エンコード(ASCIIからLatin1)へと変換されることに注意されたい。
好ましい実施形態において、上記されたマッピング辞書は、自動的な方法において構築され、統計的な技術に関連して、ウェブ上で利用可能な情報を用いる。好ましい実施形態は、正確な変換に達するために、異なる言語および/または文字セットにて書かれたアンカーテキストなどのような、パラレルで連係されたバイリンガルのコーパスを用いる。このデータを用いて、好ましい実施形態は、言葉のマッピングの辞書を構築することが可能である。これは、例えば、単に言語S(ソース言語)が、連係されたテキストの対(例えばアンカー、文、など)におけるトークンT(ターゲット言語)と同時に生じる回数を数えることによってなされ得る。しかしながら、任意の適切な技術が用いられ得ることは理解されたい。十分に広く正確に連係されたセットが存在しない場合において、この方法は、相対的に曖昧な多対多のマッピングを生成し得る。したがって、例えば、Sは、一部の確率を用いて、T、T、TおよびTにマッピングされ得ることが決定され得る。しかしながら、これは、以下で詳細に記載するように、許容可能であり、一部の実施形態において、追加的な改良が、それぞれのマッピングの個々の可能性(例えば、以前のユーザのクエリ、結果ページ上のアイテムのユーザ選択および/またはそのようなものを調べることによって)を増加させるためになされ得る。
図9は、確率辞書を構築するための、パラレルアンカーテキストの使用を示す。アンカーテキストは、ウェブページ間(または、所定のウェブページ内の位置)のハイパーリンクに関連付けられたテキストを含む。例えば、ハイパーテキストマークアップ言語(HTML)において、「<A href=”http://www.abc.com”>Banks and Savings and Loans</A>」というコマンドは、「Banks and Savings and Loans」というテキストを、http://www.abc.comのウェブページを提示するハイパーリンクとして表示させる。「Banks and Savings and Loans」というテキストは、アンカーテキストと呼ばれ、通常は、提示されるウェブページ(例えば、www.abc.com)の短い記載を提供する。実際は、アンカーテキストは、しばしば、そのページ自体よりも、より正確なウェブページの記載を提供し、提示するウェブページの性質を決定するのに、特に有用であり得る。付け加えて、アンカーテキストにおける言葉の使用および配布は、しばしば、趣旨および長さにおいて、ユーザのクエリにて見出されるものに近い。また、所定のページを提示するアンカーの多くは、同じか、または高度に類似したテキストである場合がある。例えば、www.google.comを提示するアンカーは、単に、「Google」であるか、または、他のテキストとともに、この言葉を少なくとも使用する。したがって、例えばカタカナなど、www.google.comを提示する全てのアンカーを検証することで、「Google」のカタカナ変換は、最も高い頻度で現れる言葉を単に探すことによって、相対的に高い信頼度でもって推測され得る(可能であれば、単なる「ここをクリック」といったような、所定の低い情報内容を除去した後で)。本発明の好ましい実施形態は、正確な変換を提供するために、アンカーテキストのこれらの特性の利点を持つ。
図9を参照すると、第1の文字セット(例えばASCII)に書かれた言葉を含むクエリを受け取ると(ブロック902)、サーバは、言葉にあるアンカーテキストのセットを検証し得る(ブロック904)。例えば、サーバは、その言葉を含むそれらのアンカーを識別するために、全ての既知のアンカーのインデックスを検証し得る。次に、それらのアンカーが提示するウェブページは識別され(ブロック906)、アンカーは、それらのページを提示するターゲット言語またはターゲット文字セット(例えば、ひらがな、カタカナ、および/または漢字)で書かれる(ブロック908)。システムはここで、2つの文書のセットを有する(そこでは、アンカーテキストは、文書のフォームと見なされる)。一つの文書のセット(例えば、もともとのASCIIのクエリを含むアンカー)におけるクエリの言葉の分配は、次いで、他の文書セット(例えば、パラレルアンカー)における変換されたフレーズの最も適当な候補を識別するために使用される。統計は、アンカーテキストが現れる頻度に関して計算され得、これらの統計は、アンカーテキストに見出される言葉の相対的な頻度または確率が、もともとのクエリの正しい変換であるかどうかを決定するために使用され得る(ブロック910)。多数の言葉を有するクエリに対して、上記のプロセスは、それぞれの言葉に対して繰り返され得、または、全体のクエリは、単一の言葉として扱われ得、あるいは、一部の他の適切な言葉の群が使用され得る。例えば、クエリが「big houses」である場合、可能な変換の辞書は、そのフレーズを含む、連係されたアンカーテキストを見出すことによって構築され得る。同様に、クエリが3つ以上の言葉を含む場合、適切なマッピングを決定するための経験は、クエリの言葉の適切なサブセットを取り上げ、それらの言葉の結果を生成することによって構築され得る。
図9に示される方法において変換を実行する利点は、変換システムが一つの言語または文字セットにおける言葉とターゲットセットにおけるそれらとの間のマッピングの予備的知識を必要としない。その代わり、マッピングは、統計的分析を実行するために利用可能であるデータの本体に基づいて、ダイナミックに決定され得る。したがって、例えば、従来のスタティックな辞書を維持する労力または費用(例えば、言語的分析および調査)を負うことなしに、スラング、イディオム、適切な名前などに対する正確な変換を発見することが可能である。
前述の変換の例示的な実施形態は、ここで、図10〜図12と関連して記載される。この例において、ユーザは「house」というクエリの言葉を入力し、スペイン語で書かれた検索結果(または、単に、クエリの言葉の変換)を得ることを望んでいると想定する。サーバは、英語の「house」を、スペイン語の相当物に変換することを企てる。
図10を参照すると、様々なウェブページ959、961、963、965が、アンカーテキスト960、962、964、966を介して、ページ972および974にリンクされる。一部のページおよびそれらに関連するアンカーテキストは、英語で書かれており(つまり、ページ959a〜959eおよび963a〜963t)、一部はスペイン語で書かれている(ページ961a〜961eおよび965a〜965j)。サーバは、第1に、「house」という言葉を使用する全てのアンカーの位置を突き止める。これらのアンカーは、例えば、サーバにおいて格納されたアンカーテキストのインデックスを検索することによって、位置が突き止められ得る。そのようなインデックスを使用して、サーバは第1に5つのアンカー960を見出し得、それぞれが「big house」というフレーズを使用し、ウェブページ972を提示する。サーバはまた、次に、ページ972を提示する5つのターゲット言語(例えばスペイン語)のアンカー962が存在することを決定する。図10に示される例において、これらのアンカーは「casa grande」というテキストを含む。同じページ(アンカー960およびアンカー962など)、またはそれに対して所定の関係を有するページに提示されるアンカーは、「連係(aligned)」されているといい、そこでは、より一般的な意味では、配置が通常、連係されたアイテムの相当物(またはほぼ相当物)を意味する。
図11Aは、それぞれのターゲット言語の言葉は、ターゲット言語のアンカー962に現れる頻度を示す。図11Aに示されるように、「casa」および「grande」はそれぞれ、5回現れる(つまり、それぞれのアンカー962に一度)。したがって、ターゲットアンカー962に現れる、トータルで10の言葉(つまり、5つのアンカーのそれぞれにおいて、アンカー毎に2つの言葉)から、「casa」は半分を占め、「grande」はもう半分を占める。したがって、図11Aで示されるように、この時点で、「house」という言葉は、「casa」および「grande」の両方の言葉が等しい頻度で現れるゆえに、等しい確率で、「casa」または「grande」のいずれかにマッピングされ得る。
しかしながら、図10にて示されるように、システムはまた、「house」という言葉を含む20個の英語のアンカー964を見出し、ページ974に提示し、ならびに、「casa」という言葉を含む10個のスペイン語のアンカー966を見出し、ページ974を提示する。図11Bにて示されるように、「house」という言葉は、「casa」という言葉に、0.75の確率(つまり、15/20)でマッピングされ、「grande」という言葉に、0.25の確率(つまり5/20)でマッピングされる。これらの確率は、そのターゲット言語のアンカーにおけるそれぞれの言葉の出現回数のトータル(「casa」の場合は15)を、ターゲット言語のアンカーにおける言葉のトータル数(重複を含む)によって、単に割ることによって計算される(つまり、20の言葉とは、アンカー962に含まれる10、および964に含まれる10)。代替的には、または追加的には、他の技術が、所定の変換またはマッピングの確率を計算および/または改良するために使用され得る。例えば、当業者が理解するように、任意の様々な既知の技術は、ベイズ法(Bayesian methods)、ヒストグラムスムージング(histogram smoothing)、カーネルスムージング(kernel smoothing)、縮小推定量(shrinkage estimators)、および/または他の推定方法などの確率推定の分散エラーを減少させるために使用され得る。
さらなるアンカーテキストが利用可能である場合、確率は、一層さらに改良され得る。例えば、最終確率分配は、図12にて示されたものと同様であり得、「house」は、相対的に高確率で、「casa」、および、それに接尾語が付いた形式「casita」にマッピングされ、幾分か低い確率で、「casino」および
Figure 2010282639
(スペイン語でmansionに相当する)にマッピングされ、僅かな確率で、「grande」にマッピングされる。したがって、正確な変換、およびほぼ同意語の識別は、変換される言語および/または文字セットの知識なしで得られ得る。
クエリの言葉を変換すると、サーバは、変換を使用して検索を実行し得る。例えば、ユーザは「hotels in Kyoto」に対するローマ字のクエリを入力する場合、上記された技術は、サーバに、カタカナ、ひらがな、および漢字のクエリのフォームを推測させることができ、それらのクエリを使用して検索を実行させることができ、ならびに、適切なユーザインターフェース内で、ユーザへのそれらのクエリのフォームのそれぞれに対する、組み合わされた結果を提示させることができる。
図10〜図12に関連して記載された例は、例示のために提供されるのであり、限定のためではなく、多くの変更がそこに表された方法論に対してなされ得ることは理解されるべきである。例えば、異なる統計的な技術が一定の確率に達するために使用され得、および/または、修正は、上記された基本的な技術に対してなされ得る。同様に、上記された変換技術は、単に、ユーザによって入力された言葉またはフレーズの変換を実行するために使用され得、関連するインターネット検索を実行し、または確率辞書を作成するために使用される必要はない。付け加えて、先行する例は、ユーザのクエリの受け取りのアプリケーションとに生じるものとして、変換プロセスを記載するが、他の実施形態においては、マッピングプロセスは、ユーザのクエリが受け取られる前に実行され得ることは理解されるべきである。そのような計算前のマッピングは、図8に記載されたような辞書に格納され得、次いで、それらが受け取られたときに、ユーザのクエリを変換するように適合される。最後に、連係されたアンカーテキストとは異なるテキストは、変換を実行するために使用され得ることは理解されるべきである。例えば、連係された文章または他のデータは、同様な方法にて使用され得る。多くの国では、一つ以上の公式言語または認められた言語が存在しており、新聞や定期刊行物はしばしばこれらの言語のそれぞれにて書かれた同じ記事を含む。これらのパラレルな変換は、言葉の変換の確率辞書を準備するために、前記されたアンカーテキストと同様の方法において使用され得る。
したがって、好ましい実施形態により、有利にも、ユーザは、従来の方法において、検索クエリおよび/または変換要求を入力することができ、正確で自動の変換および検索を提供する。一部の実施形態において、追加の改良が上記された基本的なモデルに対してなされ得る。例えば、一部の実施形態において、優先(加重)は、もともとのクエリおよび/または他の連係されたアンカーにおける言葉の数と同様の言葉の数を含むアンカーに与えられ得る。例えば、図10に示されるシステムにおいて、優先は、ページ974に提示されるアンカーに与えられ得る。というのは、もともとのクエリと同様に、それらは、それぞれ単一の言葉を含むからである。同様に、「la casa grande」のテキストを含むアンカーがまたページ972に提示された場合、その加重は、適切な要因によって軽減され得、というのは、それが連係された他のアンカーよりも多くの言葉(例えば3つ)を含むからである。そのような加重スキームは、適切な要因によってこれらのアンカーの言葉と関連される頻度を増加させることによって、図11Bに示される確率計算に反映され得る。
上記された変換プロセスはまた、検索それ自体の効率を改善するために利用され得る。例えば、確率辞書は、様々な変換およびもともとのクエリの言葉の同意語などを含む、進行中のクエリを拡張するために使用され得る。文書検索に先立つユーザのクエリを拡張することによって、同じ「概念」の同時検索が実行され得、それにより、検索結果は、ユーザが探しているものを含む可能性を増加させる。代替的には、または追加的には、確率辞書は、文書の言葉の拡張を提供することによって、通常の文書インデックス付けのプロセスを補うために使用され得る。例えば、文書にて見出される言葉は、確率辞書からの変換を用いて、文書のインデックスにおいて補われ得、その文書は、もともとの文書にて見出された同じ言葉を正確に使用しない検索によってさえも、位置を突き止められる可能性を増加させる。
上記された変換技術を使用する場合に生じ得る問題は、データの希薄(例えば、「casa」を「house」にマップすることを最終的に決定するには十分なアンカーがない)、または、多様性の欠如(全てのアンカーが同じものを示す)などのためであり、システムは、十分に正確な確率のマッピングに達することが不可能であり得る。したがって、一部の実施形態において、確率マッピングは、ユーザの行動を検証することでさらに改良され得る。いくつかの例示的な技術が以下に記載される。
例えば、再度、サーバが「house」に対する変換を得ることを望んでいる場合を想定する。しかしながら、見出され得るアンカーテキストが、「big house」というフレーズ、または「casa grande」というフレーズのいずれかを含むことを想定する。そのアンカーテキストにおける多様性の欠如のために、確率辞書は以下のマッピングに達し得る。
house→casa、0.5の確率
house→grande、0.5の確率

big→casa、0.5の確率
big→grande、0.5の確率

grande→house、0.5の確率
grande→big、0.5の確率

casa→house、0.5の確率
casa→big、0.5の確率

ここでユーザが「casa」という言葉を用いて検索エンジンにクエリすると想定する。この時点で、検索エンジンは、「casa」という言葉を含むページを返答し得、また、「house」という言葉をちょうど含むN結果と、「big」という言葉をちょうど含むM結果とを合わせる。実際には、NおよびMは、マッピングに内在する確率を考慮するように調整され得、その結果、相対的に見込みのないマッピングは、より少ない結果が表示されることになる。ユーザが、「big」という言葉を含む結果をクリックするよりも、「house」という言葉を含む結果を10倍、クリックした場合、マッピングの確率は、例えば、以下のように調整される。
house→casa、0.9の確率
house→grande、0.1の確率

big→casa、0.1の確率
big→grande、0.9の確率

grande→house、0.1の確率
grande→big、0.9の確率

casa→house、0.9の確率
casa→big、0.1の確率

実際の数は、クリックが考慮されるユーザの数、その言葉の両方を含むページのクリックの回数、結果のセットの中の、当該の言葉を含む結果の置換、および/またはそれらのようなものなど、他の様々な要因に依存し得ることに注意されたい。この例(つまり、0.1および0.9)に与えられた調整された確率は、例示の目的のためであることは理解されたい。当業者は、上記されたものなどのユーザフィードバックに与えられた実際の加重は、任意の適切な方法にてインプリメントされ得ることは理解する。
また、前述の例は、ユーザフィードバックの使用の例を容易にするように簡易化されていることに注意されたい。例えば、一部のシステムにおいて、所定の変換を実行することを補助するために、他の変換から得られた情報を利用することが可能である。例えば、今提示された例において、「house」という言葉が「big house」という言葉を含んだアンカーテキストに現れる場合、「house」は、「grande」にマッピングされるよりも、より適切に「casa」にマッピングされることを決定することは可能であり得る。例えば、既に、「big」が非常に高確率で、および、十分に大きなデータのセットにわたって、「grande」にマッピングされるように決定されている場合(および、アンカーテキストが同意語のリストで構成されてない場合)、次いで、house−to−casaのマッピングは、たとえ、「house」または「casa」を含むアンカーが要領を得ない場合であっても、house−to−grandeのマッピングを介して、優先を与えられ得る。
変換の正確さおよび/または検索結果の有用性はまた、ユーザのクエリセッションの履歴を検証することによって改善され得る。例えば、多くの場合、システムは、ユーザが入力した以前のクエリを知っている(例えば、クッキーまたはサーバ上のユーザアカウントに格納された情報などを介して)。この履歴データは、そのユーザからのクエリの、可能な意味をランクするために使用され得、飛行に関連するものから、フィッシングに関するクエリに対して「bank」を明確にする。したがって、このプロセスは、可能な変換のセットを狭めるために使用され得る。一部の実施形態において、ユーザインターフェースにて、「Xの検索を意図しますか?」(ここで、Xは所定の変換の優先を意味する)などのメッセージに関連して、それらを表示することによって、これらを示唆し得、その一方で、結果の第1のページにおいて、可能な再公式化のそれぞれからの結果の一部を表示する。ユーザが「…意図しますか?」によって示唆された代替のうちの一つを選択するか、結果ページに提示された結果のうちの一つを選択する場合、システムは、クエリの言葉の適当な変換、およびユーザの適当な検索バイアスに関する追加的な証拠を得る。これらの信号の両方は、次いで、システムによって利用され得、一般的な場合、およびユーザに特殊な場合の両方において、言葉のマッピングの適当な根拠を更新する(例えば、確率辞書において)。
D.結論
上記されたように、本発明と合致する方法およびシステムは、曖昧な検索結果に応じて検索結果を提供し、言葉を他の文字セットおよび/または言語に変換するために使用され得る。様々な変換および検索技術、ならびにシステムが記載されている。しかしながら、前述の記載は、例示のために提示されるものであり、多くの修正および変更が、上記の教示に照らし合わせて、または、本発明の実施を通して、可能であることは理解されたい。例えば、前述の記載はクライアント−サーバ構成に基づいているが、当業者は、ピアツーピア構成もまた、本発明に合致して使用され得ることは理解されたい。さらに、記載された実施はソフトウェアを含むが、本発明は、ハードウェアとソフトウェアとの組み合わせ、またはハードウェアのみとして実施され得る。付け加えて、本発明の局面は、メモリに格納されるように記載されたが、当業者は、これらの局面もまた、ハードディスク、フロッピーディスク(登録商標)、またはCD−ROMなどのような二次的格納装置、インターネットからの搬送波、あるいは、RAMまたはROMの他の形式などの、他のタイプのコンピュータ可読媒体に格納され得る。本発明の範囲は、それゆえ、請求項およびそれらの均等物によって定義される。

Claims (28)

  1. ユーザーから第1のフォーマットで書かれたクエリを得ることと、
    確率辞書を用いて前記クエリを第2のフォーマットに変換することであって、前記確率辞書は前記第1のフォーマットから前記第2のフォーマットに言葉をマッピングする、ことと、
    データベースで、前記変換されたクエリに応じて情報を検索することと、
    前記第2のフォーマットで書かれた検索結果を前記ユーザーに戻すことと
    を包含する、検索方法。
  2. 前記ユーザーからの検索結果選択を得ることと、
    言葉マッピングの前記確率辞書を修正するために前記検索結果選択を用いることと
    をさらに包含する、請求項1に記載の検索方法。
  3. 前記修正は、前記確率辞書における少なくとも一つのマッピングに関連する少なくとも一つの確率を調整することを包含する、請求項2に記載の検索方法。
  4. 前記クエリを第2のフォーマットに変換するステップは、前記クエリを拡張することを含む、請求項1に記載の検索方法。
  5. 前記拡張されたクエリは、クエリ言葉の代替のエンコーディングを含む、請求項4に記載の検索方法。
  6. 前記拡張されたクエリは、クエリ言葉の代替の言語変換を含む、請求項4に記載の検索方法。
  7. 前記拡張されたクエリは、クエリ言葉の代替のエンコーディングおよび代替の言語変換を含む、請求項4に記載の検索方法。
  8. 前記拡張されたクエリは、クエリ言葉の前記代替のエンコーディングの同義語を含む、請求項5に記載の検索方法。
  9. 確率辞書を作成する方法であって、前記確率辞書は第1のフォーマットにおける言葉を第2のフォーマットにおける言葉にマッピングし、前記方法は、
    所定の言葉に対して、前記言葉を含む、前記第1のフォーマットにおける第1のデータのセットを識別することと、
    前記第1のデータのセットと連係する、前記第2のフォーマットにおける第2のデータのセットを識別することと、
    前記所定の言葉が前記第2のデータのセットにおける一つ以上の言葉にマッピングする一つ以上の確率を決定するために、前記第2のデータのセットを分析することと
    を包含する、方法。
  10. 前記所定の言葉が前記第2のデータのセットにおける一つ以上の言葉にマッピングする一つ以上の確率とともに、前記所定の言葉を前記辞書に加えることをさらに包含する、請求項9に記載の方法。
  11. 前記辞書に加えられるそれぞれの言葉に対して、前記第1のデータのセットを識別するステップと、前記第2のデータのセットを識別するステップと、前記第2のデータのセットを分析するステップを繰り返すことをさらに包含する、請求項10に記載の方法。
  12. 前記第1のデータのセットは、一つ以上のウェブページのセットを指す第1のアンカーテキストのセットを含み、前記第2のデータのセットは、一つ以上のウェブページの同じセットを指す第2のアンカーテキストのセットを含む、請求項9に記載の方法。
  13. 前記第1のデータのセットは第1の言語で書かれたテキストのセットを含み、前記第2のデータのセットは第2の言語で書かれた同じテキストのセットを含む、請求項9に記載の方法。
  14. 前記所定の言葉が前記第2のデータのセットにおける言葉にマッピングする確率は、前記第2のデータのセットでの前記言葉の発生回数を前記第2のデータのセットにおける言葉の総数で割ることによって計算される、請求項9に記載の方法。
  15. 前記所定の言葉が少なくとも部分的にユーザーの検索結果選択の分析に基づいて前記第2のデータのセットにおける言葉にマッピングする確率を修正することをさらに包含する、請求項9に記載の方法。
  16. 前記所定の言葉が少なくとも部分的にユーザーの以前のクエリの分析に基づいて前記第2のデータのセットにおける言葉にマッピングする確率を修正することをさらに包含する、請求項9に記載の方法。
  17. 第1のフォーマットで書かれた第1のテキスト本体を識別することと、
    第2のフォーマットで書かれた第2のテキスト本体を識別することであって、前記第2のテキスト本体は前記第1のテキスト本体と連係する、ことと、
    前記第1のテキスト本体における言葉の発生と前記第2のテキスト本体における言葉の発生を比べて、前記第1のテキスト本体における言葉と前記第2のテキスト本体における言葉の間の変換辞書を作ることと
    を包含する、変換方法。
  18. 前記変換辞書は前記変換に関する一つ以上の確率を含む、請求項17に記載の変換方法。
  19. 前記第1のフォーマットは第1の文字セットを含み、前記第2のフォーマットは第2の文字セットを含む、請求項17に記載の変換方法。
  20. 前記第1のフォーマットは第1の言語を含み、前記第2のフォーマットは第2の言語を含む、請求項17に記載の変換方法。
  21. 前記第1のテキスト本体はアンカーテキストを含み、前記第2のテキスト本体はアンカーテキストを含む、請求項17に記載の変換方法。
  22. 第1のフォーマットで書かれた少なくとも一つのクエリ言葉を含むクエリを受け取ることと、
    前記クエリ言葉を第2のフォーマットで書かれた複数の変形に変換することと、
    前記クエリに応じた前記第2のフォーマットで書かれた情報を検索するために、前記変形のうちの一つ以上を用いることと
    を包含する、方法。
  23. 前記第1のフォーマットは電話キーパッドから入力された数字の順序を含み、前記第2のフォーマットは英数字テキストを含む、請求項22に記載の方法。
  24. 所定の辞書の一部でない前記複数の変形における変形を除去することによって、前記一つ以上の変形を得ることをさらに包含する、請求項22に記載の方法。
  25. 所定の低い確率の文字組合せを含む前記複数の変形における変形を除去することによって前記一つ以上の変形を得ることをさらに包含する、請求項22に記載の方法。
  26. 前記第1のフォーマットはローマ字、romaja、およびピンインから成る群から選択された文字セットで書かれた英数字テキストを含み、前記第2のフォーマットは漢字、カタカナ、ひらがな、ハングル、ハンジャ、および伝統的な中国文字から成る群から選択される文字セットで書かれた英数字テキストを含む、請求項22に記載の方法。
  27. 電話キーパッドから入力された数字クエリを受け取ることと、
    前記数字クエリを第1のフォーマットにおける可能性のある英数字変換の群に変換することと、
    所定の低い確率文字組合せを含むように決定された可能性のある変換を除去することと、
    確率辞書を用いて、残りの英数字変換を前記第1のフォーマットから第2のフォーマットに変換することと、
    前記第2のフォーマットにおいて前記英数字変換を用いて検索を実行することと
    を包含する、方法。
  28. 前記第1のフォーマットはローマ字、romaja、およびピンインから成る群から選択された文字セットで書かれたテキストを含み、前記第2のフォーマットは漢字、カタカナ、ひらがな、ハングル、ハンジャ、および伝統的な中国文字から成る群から選択される文字セットで書かれたテキストを含む、請求項27に記載の方法。
JP2010161104A 2003-09-30 2010-07-15 ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法 Active JP5231491B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/676,724 2003-09-30
US10/676,724 US8706747B2 (en) 2000-07-06 2003-09-30 Systems and methods for searching using queries written in a different character-set and/or language from the target pages

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2006533909A Division JP4717821B2 (ja) 2003-09-30 2004-09-13 ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のための方法

Publications (2)

Publication Number Publication Date
JP2010282639A true JP2010282639A (ja) 2010-12-16
JP5231491B2 JP5231491B2 (ja) 2013-07-10

Family

ID=34422117

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2006533909A Active JP4717821B2 (ja) 2003-09-30 2004-09-13 ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のための方法
JP2010161104A Active JP5231491B2 (ja) 2003-09-30 2010-07-15 ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法
JP2011024457A Active JP5425820B2 (ja) 2003-09-30 2011-02-07 ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法
JP2013015114A Active JP5608766B2 (ja) 2003-09-30 2013-01-30 ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2006533909A Active JP4717821B2 (ja) 2003-09-30 2004-09-13 ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のための方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2011024457A Active JP5425820B2 (ja) 2003-09-30 2011-02-07 ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法
JP2013015114A Active JP5608766B2 (ja) 2003-09-30 2013-01-30 ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法

Country Status (13)

Country Link
US (3) US8706747B2 (ja)
EP (3) EP2388709B1 (ja)
JP (4) JP4717821B2 (ja)
KR (4) KR101140187B1 (ja)
CN (2) CN102236702B (ja)
AT (1) ATE426206T1 (ja)
DE (1) DE602004020086D1 (ja)
ES (1) ES2323786T3 (ja)
HK (1) HK1163846A1 (ja)
PL (1) PL2388709T3 (ja)
RU (1) RU2363983C2 (ja)
TR (1) TR201816343T4 (ja)
WO (1) WO2005033967A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021513103A (ja) * 2018-02-01 2021-05-20 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド オーディオ情報の処理方法、装置、記憶媒体並びに電子装置

Families Citing this family (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136854B2 (en) * 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
CA2371731A1 (en) * 2002-02-12 2003-08-12 Cognos Incorporated Database join disambiguation by grouping
US8055669B1 (en) * 2003-03-03 2011-11-08 Google Inc. Search queries improved based on query semantic information
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
JP2007514249A (ja) * 2003-12-16 2007-05-31 スピーチギア,インコーポレイティド 翻訳機データベース
US20050138007A1 (en) * 2003-12-22 2005-06-23 International Business Machines Corporation Document enhancement method
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US8825591B1 (en) * 2003-12-31 2014-09-02 Symantec Operating Corporation Dynamic storage mechanism
US8655904B2 (en) * 2004-02-11 2014-02-18 Ebay, Inc. Method and system to enhance data integrity in a database
US7487145B1 (en) 2004-06-22 2009-02-03 Google Inc. Method and system for autocompletion using ranked results
US7836044B2 (en) 2004-06-22 2010-11-16 Google Inc. Anticipated query generation and processing in a search engine
US8392453B2 (en) 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
CN101091155B (zh) * 2004-06-29 2012-11-28 布莱克·布克斯塔夫 用于自动智能电子广告的方法和系统
US7895218B2 (en) 2004-11-09 2011-02-22 Veveo, Inc. Method and system for performing searches for television content using reduced text input
US7499940B1 (en) 2004-11-11 2009-03-03 Google Inc. Method and system for URL autocompletion using ranked results
US20060106769A1 (en) * 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
US8122034B2 (en) 2005-06-30 2012-02-21 Veveo, Inc. Method and system for incremental search with reduced text entry where the relevance of results is a dynamically computed function of user input search string character count
US10735576B1 (en) * 2005-07-14 2020-08-04 Binj Laboratories, Inc. Systems and methods for detecting and controlling transmission devices
US7788266B2 (en) 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US7779011B2 (en) 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US7737999B2 (en) 2005-08-26 2010-06-15 Veveo, Inc. User interface for visual cooperation between text input and display device
US7672831B2 (en) * 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US7805455B2 (en) * 2005-11-14 2010-09-28 Invention Machine Corporation System and method for problem analysis
US7644054B2 (en) 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
US7895223B2 (en) * 2005-11-29 2011-02-22 Cisco Technology, Inc. Generating search results based on determined relationships between data objects and user connections to identified destinations
US7729901B2 (en) * 2005-12-13 2010-06-01 Yahoo! Inc. System for classifying words
US8010523B2 (en) 2005-12-30 2011-08-30 Google Inc. Dynamic search box for web browser
US7849144B2 (en) 2006-01-13 2010-12-07 Cisco Technology, Inc. Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
US7657526B2 (en) 2006-03-06 2010-02-02 Veveo, Inc. Methods and systems for selecting and presenting content based on activity level spikes associated with the content
JP5057546B2 (ja) * 2006-03-24 2012-10-24 キヤノン株式会社 文書検索装置および文書検索方法
US8073860B2 (en) 2006-03-30 2011-12-06 Veveo, Inc. Method and system for incrementally selecting and providing relevant search engines in response to a user query
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US8442965B2 (en) * 2006-04-19 2013-05-14 Google Inc. Query language identification
US8255376B2 (en) 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
EP3822819A1 (en) 2006-04-20 2021-05-19 Veveo, Inc. User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content
US8732314B2 (en) * 2006-08-21 2014-05-20 Cisco Technology, Inc. Generation of contact information based on associating browsed content to user actions
US7536384B2 (en) 2006-09-14 2009-05-19 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
US7925986B2 (en) 2006-10-06 2011-04-12 Veveo, Inc. Methods and systems for a linear character selection display interface for ambiguous text input
US7979425B2 (en) * 2006-10-25 2011-07-12 Google Inc. Server-side match
WO2008063987A2 (en) 2006-11-13 2008-05-29 Veveo, Inc. Method of and system for selecting and presenting content based on user identification
US8549424B2 (en) 2007-05-25 2013-10-01 Veveo, Inc. System and method for text disambiguation and context designation in incremental search
US8296294B2 (en) 2007-05-25 2012-10-23 Veveo, Inc. Method and system for unified searching across and within multiple documents
ITTO20070508A1 (it) * 2007-07-11 2009-01-12 Selex Communications Spa Procedimento per la codifica di dati numerici in un elaboratore e procedimento per la codifica di strutture dati per la trasmissione in un sistema di telecomunicazioni, basato su detto procedimento di codifica di dati numerici
EP2570945A1 (en) * 2007-09-21 2013-03-20 Google Inc. Cross-language search
US8725756B1 (en) 2007-11-12 2014-05-13 Google Inc. Session-based query suggestions
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US20090287474A1 (en) * 2008-05-16 2009-11-19 Yahoo! Inc. Web embedded language input arrangement
US8312032B2 (en) 2008-07-10 2012-11-13 Google Inc. Dictionary suggestions for partial user entries
KR20120009446A (ko) * 2009-03-13 2012-01-31 인벤션 머신 코포레이션 자연 언어 텍스트의 자동화 의미적 라벨링 시스템 및 방법
US8275604B2 (en) * 2009-03-18 2012-09-25 Microsoft Corporation Adaptive pattern learning for bilingual data mining
US8577910B1 (en) 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
WO2010139277A1 (en) 2009-06-03 2010-12-09 Google Inc. Autocompletion for partially entered query
US9870572B2 (en) 2009-06-29 2018-01-16 Google Llc System and method of providing information based on street address
US20150261858A1 (en) * 2009-06-29 2015-09-17 Google Inc. System and method of providing information based on street address
KR101083540B1 (ko) * 2009-07-08 2011-11-14 엔에이치엔(주) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
US9166714B2 (en) 2009-09-11 2015-10-20 Veveo, Inc. Method of and system for presenting enriched video viewing analytics
US20110191332A1 (en) 2010-02-04 2011-08-04 Veveo, Inc. Method of and System for Updating Locally Cached Content Descriptor Information
US8577915B2 (en) 2010-09-10 2013-11-05 Veveo, Inc. Method of and system for conducting personalized federated search and presentation of results therefrom
US20140379680A1 (en) * 2010-09-21 2014-12-25 Qiliang Chen Generating search query suggestions
US20120167009A1 (en) * 2010-12-22 2012-06-28 Apple Inc. Combining timing and geometry information for typing correction
CN102737015A (zh) * 2011-04-07 2012-10-17 英业达股份有限公司 具即时翻译的写作系统及其写作方法
US20140310585A1 (en) * 2011-04-28 2014-10-16 Rakuten, Inc. Browsing system, terminal, image server, program, computer-readable recording medium storing program, and method
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
US9313219B1 (en) * 2014-09-03 2016-04-12 Trend Micro Incorporated Detection of repackaged mobile applications
RU2580432C1 (ru) 2014-10-31 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ для обработки запроса от потенциального несанкционированного пользователя на доступ к ресурсу и серверу, используемый в нем
RU2610280C2 (ru) 2014-10-31 2017-02-08 Общество С Ограниченной Ответственностью "Яндекс" Способ авторизации пользователя в сети и сервер, используемый в нем
KR102244110B1 (ko) 2015-02-17 2021-04-26 삼성전자주식회사 이종 언어간 동일성을 판단하는 전자 장치 및 방법
US9762385B1 (en) 2015-07-20 2017-09-12 Trend Micro Incorporated Protection of program code of apps of mobile computing devices
CN105069171B (zh) * 2015-08-31 2018-07-13 百度在线网络技术(北京)有限公司 汉字查询方法和系统
CN105335357B (zh) * 2015-11-18 2018-07-06 成都优译信息技术有限公司 翻译系统中语料推荐方法
US9916448B1 (en) 2016-01-21 2018-03-13 Trend Micro Incorporated Detection of malicious mobile apps
US10169414B2 (en) 2016-04-26 2019-01-01 International Business Machines Corporation Character matching in text processing
US9760627B1 (en) * 2016-05-13 2017-09-12 International Business Machines Corporation Private-public context analysis for natural language content disambiguation
US10375576B1 (en) 2016-09-09 2019-08-06 Trend Micro Incorporated Detection of malware apps that hijack app user interfaces
US10614109B2 (en) * 2017-03-29 2020-04-07 International Business Machines Corporation Natural language processing keyword analysis
US11509794B2 (en) * 2017-04-25 2022-11-22 Hewlett-Packard Development Company, L.P. Machine-learning command interaction
US10831801B2 (en) 2017-05-12 2020-11-10 International Business Machines Corporation Contextual-based high precision search for mail systems
US10387576B2 (en) * 2017-11-30 2019-08-20 International Business Machines Corporation Document preparation with argumentation support from a deep question answering system
JP7247460B2 (ja) * 2018-03-13 2023-03-29 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
KR102637340B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 문장 매핑 방법 및 장치
US11250221B2 (en) * 2019-03-14 2022-02-15 Sap Se Learning system for contextual interpretation of Japanese words
US11308096B2 (en) * 2019-03-29 2022-04-19 Rovi Guides, Inc. Bias quotient measurement and debiasing for recommendation engines
JP7238199B2 (ja) 2019-07-04 2023-03-13 キヤノン株式会社 テレコンバータレンズ、レンズ装置、および、撮像装置
JP7171519B2 (ja) 2019-07-04 2022-11-15 キヤノン株式会社 テレコンバータレンズ、レンズ装置、および、撮像装置
US11227101B2 (en) * 2019-07-05 2022-01-18 Open Text Sa Ulc System and method for document translation in a format agnostic document viewer
CN111368557B (zh) * 2020-03-06 2023-04-07 北京字节跳动网络技术有限公司 视频内容的翻译方法、装置、设备及计算机可读介质
US11458409B2 (en) * 2020-05-27 2022-10-04 Nvidia Corporation Automatic classification and reporting of inappropriate language in online applications

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09259144A (ja) * 1996-03-27 1997-10-03 Sharp Corp 音声による情報検索装置
JP2000163441A (ja) * 1998-11-30 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム
JP2002092018A (ja) * 2000-09-18 2002-03-29 Nec Software Hokkaido Ltd 片仮名平仮名も含めた検索システム
JP2002251410A (ja) * 2001-02-26 2002-09-06 Sharp Corp 情報検索装置、情報検索プログラムおよび情報検索プログラムを記録したコンピュータ読取可能な記録媒体
US20020133481A1 (en) * 2000-07-06 2002-09-19 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
JP2004054918A (ja) * 2002-05-30 2004-02-19 Osaka Industrial Promotion Organization 情報処理システム、情報表示装置、コンピュータプログラム、及び記録媒体

Family Cites Families (162)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4674112A (en) * 1985-09-06 1987-06-16 Board Of Regents, The University Of Texas System Character pattern recognition and communications apparatus
US4754474A (en) * 1985-10-21 1988-06-28 Feinson Roy W Interpretive tone telecommunication method and apparatus
DE69032576T2 (de) * 1990-02-27 1999-04-15 Oracle Corp Dynamische Optimierung eines einzelnen relationalen Zugriffs
KR950008022B1 (ko) * 1991-06-19 1995-07-24 가부시끼가이샤 히다찌세이사꾸쇼 문자처리방법 및 장치와 문자입력방법 및 장치
RU2039376C1 (ru) 1991-11-01 1995-07-09 Сергей Станиславович Ковалевский Устройство для информационного поиска
US5535119A (en) 1992-06-11 1996-07-09 Hitachi, Ltd. Character inputting method allowing input of a plurality of different types of character species, and information processing equipment adopting the same
US5337347A (en) * 1992-06-25 1994-08-09 International Business Machines Corporation Method and system for progressive database search termination and dynamic information presentation utilizing telephone keypad input
US6760695B1 (en) * 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
GB2272091B (en) 1992-10-30 1996-10-23 Canon Europa Nv Apparatus for use in aligning bilingual corpora
JP3919237B2 (ja) * 1994-05-20 2007-05-23 キヤノン株式会社 画像記録再生装置、画像再生装置、及びその方法
US5543789A (en) * 1994-06-24 1996-08-06 Shields Enterprises, Inc. Computerized navigation system
AU3734395A (en) * 1994-10-03 1996-04-26 Helfgott & Karas, P.C. A database accessing system
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US5758145A (en) * 1995-02-24 1998-05-26 International Business Machines Corporation Method and apparatus for generating dynamic and hybrid sparse indices for workfiles used in SQL queries
JP3571408B2 (ja) 1995-03-31 2004-09-29 株式会社日立製作所 文書加工方法および装置
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US5701469A (en) 1995-06-07 1997-12-23 Microsoft Corporation Method and system for generating accurate search results using a content-index
AU5969896A (en) * 1995-06-07 1996-12-30 International Language Engineering Corporation Machine assisted translation tools
US5818437A (en) * 1995-07-26 1998-10-06 Tegic Communications, Inc. Reduced keyboard disambiguating computer
CN1154910C (zh) * 1995-07-26 2004-06-23 蒂吉通信系统公司 压缩键盘的明义系统
US5634053A (en) * 1995-08-29 1997-05-27 Hughes Aircraft Company Federated information management (FIM) system and method for providing data site filtering and translation for heterogeneous databases
US5920859A (en) * 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5778157A (en) * 1996-06-17 1998-07-07 Yy Software Corporation System and method for expert system analysis using quiescent and parallel reasoning and set structured knowledge representation
US5845273A (en) 1996-06-27 1998-12-01 Microsoft Corporation Method and apparatus for integrating multiple indexed files
US5878386A (en) * 1996-06-28 1999-03-02 Microsoft Corporation Natural language parser with dictionary-based part-of-speech probabilities
US5832480A (en) * 1996-07-12 1998-11-03 International Business Machines Corporation Using canonical forms to develop a dictionary of names in a text
US5953073A (en) * 1996-07-29 1999-09-14 International Business Machines Corp. Method for relating indexing information associated with at least two indexing schemes to facilitate the play-back of user-specified digital video data and a video client incorporating the same
US5745894A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Method for generating and searching a range-based index of word-locations
US5987446A (en) * 1996-11-12 1999-11-16 U.S. West, Inc. Searching large collections of text using multiple search engines concurrently
US5953541A (en) * 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
JPH10247201A (ja) * 1997-03-05 1998-09-14 Nippon Telegr & Teleph Corp <Ntt> 情報評価値付き情報案内システム
US6278992B1 (en) * 1997-03-19 2001-08-21 John Andrew Curtis Search engine using indexing method for storing and retrieving data
JP3143079B2 (ja) * 1997-05-30 2001-03-07 松下電器産業株式会社 辞書索引作成装置と文書検索装置
US6061718A (en) * 1997-07-23 2000-05-09 Ericsson Inc. Electronic mail delivery system in wired or wireless communications system
US6055528A (en) 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
JP2965010B2 (ja) * 1997-08-30 1999-10-18 日本電気株式会社 関連情報検索方法及び装置並びにプログラムを記録した機械読み取り可能な記録媒体
KR100552085B1 (ko) * 1997-09-25 2006-02-20 테직 커뮤니케이션 인코포레이티드 감소된 키보드 명확화 시스템
US6026411A (en) * 1997-11-06 2000-02-15 International Business Machines Corporation Method, apparatus, and computer program product for generating an image index and for internet searching and querying by image colors
US6377965B1 (en) * 1997-11-07 2002-04-23 Microsoft Corporation Automatic word completion system for partially entered data
US5945928A (en) * 1998-01-20 1999-08-31 Tegic Communication, Inc. Reduced keyboard disambiguating system for the Korean language
KR100313462B1 (ko) * 1998-01-23 2001-12-31 윤종용 웹검색엔진에서검색된정보를지역적으로근접한순서대로표시하는방법
US6185558B1 (en) * 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US5974121A (en) * 1998-05-14 1999-10-26 Motorola, Inc. Alphanumeric message composing method using telephone keypad
GB2337611A (en) * 1998-05-20 1999-11-24 Sharp Kk Multilingual document retrieval system
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US6470333B1 (en) * 1998-07-24 2002-10-22 Jarg Corporation Knowledge extraction system and method
US6226635B1 (en) * 1998-08-14 2001-05-01 Microsoft Corporation Layered query management
US6370518B1 (en) * 1998-10-05 2002-04-09 Openwave Systems Inc. Method and apparatus for displaying a record from a structured database with minimum keystrokes
US7194679B1 (en) * 1998-10-20 2007-03-20 International Business Machines Corporation Web-based file review system utilizing source and comment files
IE980941A1 (en) * 1998-11-16 2000-05-17 Buy Tel Innovations Ltd A transaction processings system
JP3842913B2 (ja) * 1998-12-18 2006-11-08 富士通株式会社 文字通信方法及び文字通信システム
GB2347247A (en) * 1999-02-22 2000-08-30 Nokia Mobile Phones Ltd Communication terminal with predictive editor
US20020038308A1 (en) * 1999-05-27 2002-03-28 Michael Cappi System and method for creating a virtual data warehouse
US6421662B1 (en) * 1999-06-04 2002-07-16 Oracle Corporation Generating and implementing indexes based on criteria set forth in queries
US6598039B1 (en) 1999-06-08 2003-07-22 Albert-Inc. S.A. Natural language interface for searching database
US20010003184A1 (en) * 1999-07-16 2001-06-07 Ching Jamison K. Methods and articles of manufacture for interfacing, advertising and navigating with internet television
CN1176432C (zh) 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和系统
US6606486B1 (en) * 1999-07-29 2003-08-12 Ericsson Inc. Word entry method for mobile originated short messages
US6601026B2 (en) * 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6453315B1 (en) * 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6353820B1 (en) * 1999-09-29 2002-03-05 Bull Hn Information Systems Inc. Method and system for using dynamically generated code to perform index record retrieval in certain circumstances in a relational database manager
US6484179B1 (en) 1999-10-25 2002-11-19 Oracle Corporation Storing multidimensional data in a relational database management system
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6675165B1 (en) 2000-02-28 2004-01-06 Barpoint.Com, Inc. Method for linking a billboard or signage to information on a global computer network through manual information input or a global positioning system
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US7177798B2 (en) * 2000-04-07 2007-02-13 Rensselaer Polytechnic Institute Natural language interface using constrained intermediate dictionary of results
US6564213B1 (en) 2000-04-18 2003-05-13 Amazon.Com, Inc. Search query autocompletion
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6604101B1 (en) * 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US6714905B1 (en) * 2000-05-02 2004-03-30 Iphrase.Com, Inc. Parsing ambiguous grammar
JP2001325252A (ja) 2000-05-12 2001-11-22 Sony Corp 携帯端末及びその情報入力方法、辞書検索装置及び方法、媒体
US6456234B1 (en) 2000-06-07 2002-09-24 William J. Johnson System and method for proactive content delivery by situation location
JP3686312B2 (ja) * 2000-07-05 2005-08-24 日本電信電話株式会社 訳語検索方法、訳語検索装置及び訳語検索プログラムを記録した記録媒体
US6529903B2 (en) * 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
WO2002009302A1 (en) 2000-07-25 2002-01-31 Cypus Communication terminal capable for searching internet domain name, system and method for searching internet domain name using the same
US6968179B1 (en) 2000-07-27 2005-11-22 Microsoft Corporation Place specific buddy list services
US20020021311A1 (en) * 2000-08-14 2002-02-21 Approximatch Ltd. Data entry using a reduced keyboard
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
GB2366698A (en) * 2000-09-01 2002-03-13 Nokia Mobile Phones Ltd Insertion of pre-stored text strings
CA2323856A1 (en) * 2000-10-18 2002-04-18 602531 British Columbia Ltd. Method, system and media for entering data in a personal computing device
US20060149686A1 (en) * 2000-11-30 2006-07-06 Allison Debonnett Method of payment and settlement of goods and services via the INTERNET
US7028306B2 (en) 2000-12-04 2006-04-11 International Business Machines Corporation Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers
EP1215659A1 (en) * 2000-12-14 2002-06-19 Nokia Corporation Locally distibuted speech recognition system and method of its operation
EP1215661A1 (en) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Mobile terminal controllable by spoken utterances
JP2002215660A (ja) * 2001-01-16 2002-08-02 Mitsubishi Heavy Ind Ltd 検索システム及びこれに用いられるソフトウェア
JP3768105B2 (ja) * 2001-01-29 2006-04-19 株式会社東芝 翻訳装置、翻訳方法並びに翻訳プログラム
GB0103053D0 (en) * 2001-02-07 2001-03-21 Nokia Mobile Phones Ltd A communication terminal having a predictive text editor application
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
JP3764058B2 (ja) * 2001-03-01 2006-04-05 株式会社東芝 翻訳装置、翻訳方法及び翻訳プログラム
JP3379090B2 (ja) * 2001-03-02 2003-02-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム
US7231381B2 (en) * 2001-03-13 2007-06-12 Microsoft Corporation Media content search engine incorporating text content and user log mining
US8744835B2 (en) * 2001-03-16 2014-06-03 Meaningful Machines Llc Content conversion method and apparatus
US7103534B2 (en) * 2001-03-31 2006-09-05 Microsoft Corporation Machine learning contextual approach to word determination for text input via reduced keypad keys
KR20020084739A (ko) 2001-05-02 2002-11-11 이재원 숫자입력을 이용한 인터넷 검색 및 접속 방법
GB0111012D0 (en) * 2001-05-04 2001-06-27 Nokia Corp A communication terminal having a predictive text editor application
US7366712B2 (en) 2001-05-31 2008-04-29 Intel Corporation Information retrieval center gateway
US6947770B2 (en) * 2001-06-22 2005-09-20 Ericsson, Inc. Convenient dialing of names and numbers from a phone without alpha keypad
US20030035519A1 (en) * 2001-08-15 2003-02-20 Warmus James L. Methods and apparatus for accessing web content from a wireless telephone
JP3895955B2 (ja) * 2001-08-24 2007-03-22 株式会社東芝 情報検索方法および情報検索システム
US20030054830A1 (en) * 2001-09-04 2003-03-20 Zi Corporation Navigation system for mobile communication devices
US6944609B2 (en) * 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
KR100501079B1 (ko) 2001-11-12 2005-07-18 주식회사 아이니드 네트워크 기반의 유사어 검색기술 응용시스템 및 방법
US7533093B2 (en) 2001-11-13 2009-05-12 Koninklijke Philips Electronics N.V. Method and apparatus for evaluating the closeness of items in a recommender of such items
US7149550B2 (en) * 2001-11-27 2006-12-12 Nokia Corporation Communication terminal having a text editor application with a word completion feature
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US7283992B2 (en) * 2001-11-30 2007-10-16 Microsoft Corporation Media agent to suggest contextually related media content
US20030125947A1 (en) * 2002-01-03 2003-07-03 Yudkowsky Michael Allen Network-accessible speaker-dependent voice models of multiple persons
US7565367B2 (en) * 2002-01-15 2009-07-21 Iac Search & Media, Inc. Enhanced popularity ranking
US6952691B2 (en) 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US7167831B2 (en) * 2002-02-04 2007-01-23 Microsoft Corporation Systems and methods for managing multiple grammars in a speech recognition system
EP1347362B1 (en) 2002-03-22 2005-05-11 Sony Ericsson Mobile Communications AB Entering text into an electronic communications device
US20030187658A1 (en) * 2002-03-29 2003-10-02 Jari Selin Method for text-to-speech service utilizing a uniform resource identifier
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system
US7013154B2 (en) * 2002-06-27 2006-03-14 Motorola, Inc. Mapping text and audio information in text messaging devices and methods therefor
US7103854B2 (en) * 2002-06-27 2006-09-05 Tele Atlas North America, Inc. System and method for associating text and graphical views of map information
US7380724B2 (en) * 2002-07-01 2008-06-03 Sony Ericsson Mobile Communications Ab Entering text into an electronic communication device
US7016895B2 (en) * 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
US7386442B2 (en) * 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
EP2154613A1 (en) 2002-07-23 2010-02-17 Research in Motion Limited Systems and methods of building and using custom word lists
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US20040163032A1 (en) 2002-12-17 2004-08-19 Jin Guo Ambiguity resolution for predictive text entry
GB2396529B (en) * 2002-12-20 2005-08-10 Motorola Inc Location-based mobile service provision
EP1584023A1 (en) * 2002-12-27 2005-10-12 Nokia Corporation Predictive text entry and data compression method for a mobile communication terminal
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7369988B1 (en) * 2003-02-24 2008-05-06 Sprint Spectrum L.P. Method and system for voice-enabled text entry
FI116168B (fi) * 2003-03-03 2005-09-30 Flextronics Odm Luxembourg Sa Datan syöttö
US7729913B1 (en) 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
KR100563787B1 (ko) 2003-04-03 2006-03-30 주식회사 시티기술단 단위 옹벽판넬에 설치된 고강도 철근을 커플러로상호연결하여 단면력에 저항토록하면서, 프리스트레스를도입한 단위 옹벽판넬로 이루어진 옹벽조립체 및 이의조립시공방법
KR100515641B1 (ko) 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US8200865B2 (en) * 2003-09-11 2012-06-12 Eatoni Ergonomics, Inc. Efficient method and apparatus for text entry based on trigger sequences
GB2433002A (en) * 2003-09-25 2007-06-06 Canon Europa Nv Processing of Text Data involving an Ambiguous Keyboard and Method thereof.
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US20050114312A1 (en) * 2003-11-26 2005-05-26 Microsoft Corporation Efficient string searches using numeric keypad
US20050188330A1 (en) * 2004-02-20 2005-08-25 Griffin Jason T. Predictive text input system for a mobile communication device
US7293019B2 (en) 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US8676830B2 (en) 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
US7218249B2 (en) 2004-06-08 2007-05-15 Siemens Communications, Inc. Hand-held communication device having navigation key-based predictive text entry
US8595687B2 (en) 2004-06-23 2013-11-26 Broadcom Corporation Method and system for providing text information in an application framework for a wireless device
US8392453B2 (en) 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
WO2006047654A2 (en) * 2004-10-25 2006-05-04 Yuanhua Tang Full text query and search systems and methods of use
US7779011B2 (en) 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US7788266B2 (en) * 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US7737999B2 (en) 2005-08-26 2010-06-15 Veveo, Inc. User interface for visual cooperation between text input and display device
US20070061211A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Preventing mobile communication facility click fraud
US9471925B2 (en) * 2005-09-14 2016-10-18 Millennial Media Llc Increasing mobile interactivity
US7647228B2 (en) 2005-11-03 2010-01-12 Apptera, Inc. Method and apparatus for speech processing incorporating user intent
JP2007141123A (ja) * 2005-11-22 2007-06-07 Internatl Business Mach Corp <Ibm> 異なるファイルの同一文字列のリンク
US7644054B2 (en) * 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
AU2006318417B2 (en) * 2005-11-23 2012-01-19 Dun And Bradstreet Corporation System and method for searching and matching data having ideogrammatic content
US20070195063A1 (en) * 2006-02-21 2007-08-23 Wagner Paul T Alphanumeric data processing in a telephone
US7657526B2 (en) 2006-03-06 2010-02-02 Veveo, Inc. Methods and systems for selecting and presenting content based on activity level spikes associated with the content
EP3822819A1 (en) 2006-04-20 2021-05-19 Veveo, Inc. User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content
US7536384B2 (en) * 2006-09-14 2009-05-19 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
US7979425B2 (en) * 2006-10-25 2011-07-12 Google Inc. Server-side match
KR20100041145A (ko) * 2008-10-13 2010-04-22 삼성전자주식회사 쿼티 키패드를 갖는 휴대 단말기의 발신 방법 및 전화번호 저장 방법
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
US20130304818A1 (en) * 2009-12-01 2013-11-14 Topsy Labs, Inc. Systems and methods for discovery of related terms for social media content collection over social networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09259144A (ja) * 1996-03-27 1997-10-03 Sharp Corp 音声による情報検索装置
JP2000163441A (ja) * 1998-11-30 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム
US20020133481A1 (en) * 2000-07-06 2002-09-19 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
JP2002092018A (ja) * 2000-09-18 2002-03-29 Nec Software Hokkaido Ltd 片仮名平仮名も含めた検索システム
JP2002251410A (ja) * 2001-02-26 2002-09-06 Sharp Corp 情報検索装置、情報検索プログラムおよび情報検索プログラムを記録したコンピュータ読取可能な記録媒体
JP2004054918A (ja) * 2002-05-30 2004-02-19 Osaka Industrial Promotion Organization 情報処理システム、情報表示装置、コンピュータプログラム、及び記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021513103A (ja) * 2018-02-01 2021-05-20 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド オーディオ情報の処理方法、装置、記憶媒体並びに電子装置
JP7071514B2 (ja) 2018-02-01 2022-05-19 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド オーディオ情報の処理方法、装置、記憶媒体並びに電子装置
US11475894B2 (en) 2018-02-01 2022-10-18 Tencent Technology (Shenzhen) Company Limited Method and apparatus for providing feedback information based on audio input

Also Published As

Publication number Publication date
KR101242961B1 (ko) 2013-03-12
JP2011090718A (ja) 2011-05-06
EP2043003A3 (en) 2009-06-03
US20040261021A1 (en) 2004-12-23
RU2006114696A (ru) 2007-11-10
EP2388709A1 (en) 2011-11-23
CN1860473A (zh) 2006-11-08
KR20060090689A (ko) 2006-08-14
PL2388709T3 (pl) 2018-12-31
WO2005033967A2 (en) 2005-04-14
US20170351673A1 (en) 2017-12-07
CN102236702B (zh) 2013-08-14
JP2013084306A (ja) 2013-05-09
KR20110117218A (ko) 2011-10-26
KR101261158B1 (ko) 2013-05-09
JP5425820B2 (ja) 2014-02-26
DE602004020086D1 (de) 2009-04-30
KR20110117219A (ko) 2011-10-26
WO2005033967A3 (en) 2005-10-13
CN102236702A (zh) 2011-11-09
HK1163846A1 (en) 2012-09-14
US20140188454A1 (en) 2014-07-03
KR101140187B1 (ko) 2012-05-02
EP1676211B1 (en) 2009-03-18
US8706747B2 (en) 2014-04-22
JP2007507796A (ja) 2007-03-29
TR201816343T4 (tr) 2018-11-21
JP4717821B2 (ja) 2011-07-06
KR20120039755A (ko) 2012-04-25
RU2363983C2 (ru) 2009-08-10
ES2323786T3 (es) 2009-07-24
JP5608766B2 (ja) 2014-10-15
EP2043003A2 (en) 2009-04-01
JP5231491B2 (ja) 2013-07-10
EP2388709B1 (en) 2018-08-08
EP1676211A2 (en) 2006-07-05
US9734197B2 (en) 2017-08-15
ATE426206T1 (de) 2009-04-15

Similar Documents

Publication Publication Date Title
JP5608766B2 (ja) ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法
US7136854B2 (en) Methods and apparatus for providing search results in response to an ambiguous search query
US8606826B2 (en) Augmenting queries with synonyms from synonyms map
KR101465770B1 (ko) 단어 확률 결정
US8762358B2 (en) Query language determination using query terms and interface language
US8745051B2 (en) Resource locator suggestions from input character sequence
US7475063B2 (en) Augmenting queries with synonyms selected using language statistics
US7835903B2 (en) Simplifying query terms with transliteration
US20120239834A1 (en) Automatic correction of user input using transliteration
US9875232B2 (en) Method and system for generating a definition of a word from multiple sources
JP3438947B2 (ja) 情報検索装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120613

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120912

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120918

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120927

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121002

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121109

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130321

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5231491

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250