JP2008504605A - 非ローマ文字および単語のスペル修正のためのシステムおよび方法 - Google Patents

非ローマ文字および単語のスペル修正のためのシステムおよび方法 Download PDF

Info

Publication number
JP2008504605A
JP2008504605A JP2007518226A JP2007518226A JP2008504605A JP 2008504605 A JP2008504605 A JP 2008504605A JP 2007518226 A JP2007518226 A JP 2007518226A JP 2007518226 A JP2007518226 A JP 2007518226A JP 2008504605 A JP2008504605 A JP 2008504605A
Authority
JP
Japan
Prior art keywords
input
entry
language
suspicious
user input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007518226A
Other languages
English (en)
Other versions
JP2008504605A5 (ja
Inventor
ジュン ウー,
ホンジュン チュー,
ウイカン チュー,
ウェイ−ホワ ファン,
チウ−キ チャン,
Original Assignee
グーグル、インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グーグル、インコーポレイテッド filed Critical グーグル、インコーポレイテッド
Publication of JP2008504605A publication Critical patent/JP2008504605A/ja
Publication of JP2008504605A5 publication Critical patent/JP2008504605A5/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

規則に基づいた分類子および隠れマルコフモデルを使用して、中国語、日本語、韓国語のような非ローマ語に基づいた単語に対するスペルミスを処理および修正するシステム、方法が開示される。該方法は、概して中国語のような第一言語での入力エントリーを、第一言語とは異なるピンインのような中間表現での少なくとも一つの中間エントリーに変換する工程と、中間エントリーを第一言語での入力の少なくとも一つの可能性のある代替のスペルまたは形式に変換する工程と、入力エントリーと入力エントリーに対する全ての可能性のある代替のスペルとの間での一致が特定されたまたはされない場合、入力エントリーが正確な入力エントリーと疑わしい入力エントリーのうちの何れかであることをそれぞれ決定する工程とを含む。疑わしい入力エントリーは、例えば、変換規則生成器により生成される変換規則に基づいて、変換規則に基づいた分類子を使用して分類され得る。

Description

本発明は一般に非ローマ語に基づく言語を処理することに関する。より具体的には、規則に基づいた分類子および隠れマルコフモデルを使用して、中国語、日本語および韓国語のような非ローマ語に基づいた単語に対するスペルミスを処理および修正するシステムおよび方法が開示される。
スペル修正は一般に誤りのある単語を検出すること、および誤りのある単語に対して適切な置換を決定することを含む。英語のようなアルファベットのすなわちローマ語に基づく言語での大多数のスペルミスは、用語集の単語以外であるか(例えば、「than」ではなく「thna」)、または前後関係で不適切に使用される有効な単語である(例えば、「stranger than」ではなく「stranger then」)。ローマ語に基づく言語での用語集のスペルエラーの中から検出および修正するスペルチェッカーは周知である。
しかしながら、中国語、日本語および韓国語(CJK)のような非ローマ語に基づく言語には、大多数のスペルミスが用語集以外のスペルミスよりもむしろ前後関係で不適切に使用される有効な単語であるように、任意のコンピュータの文字コード系(例えば、UTF―8)にコード化される無効な文字はない。中国語では、単語の正確な使用は一般的に前後関係のみで決定され得る。従って、非ローマ語に基づく言語のための効果的なスペルチェッカーは、前後関係でどの文字および/または単語が適切でないか決定するために、文脈情報を使用するべきである。
CJK言語のような非ローマ語言語のためのスペル修正は、CJK単語の定義は明確ではないため、そのような言語では標準的な辞典がない点において複雑でありまた挑戦的でもある。例えば、いくつかは中国語で「北京市」を二語と見なし得る一方で、その他はそれを一語と見なし得る。それにひきかえ、英語の辞典/単語リストの特定は、英語のスペル修正での重要な特色である。従って、英語のスペル修正方法はCJK言語の使用に簡単に適用できない。さらに、英語での26文字と対照的に、一般に使用される漢字は数千ある。従って、全ての代替物により非合法的な中国語の単語中の不正確な文字を置換すること、またその後新しく作られた単語が適切であることを決定することは非現実的となる。さらに、中国語は、あいまいさを生み出す、また効率的および効果的な中国語のスペル修正をインプリメントするのに複雑および困難にもする、目に見えない(または隠された)単語の境界と同様に多量の同形異義語および同音異義語を有している。中国語と英語のこのような違いから明白であるように、英語のスペル修正に利用できる多くの効率的な技法は中国語のスペル修正には適切ではない。
従って、中国語、日本語および韓国語のような非ローマ語におけるスペルエラーの効果的、効率的および正確な検出および修正をするためのコンピュータシステムおよび方法が必要とされている。
規則に基づいた分類子および隠れマルコフモデルを使用して、中国語、日本語および韓国語のような非ローマ語に基づいた言語に対するスペルミスを処理および修正するシステムおよび方法が開示されている。具体的には、前記システムおよび方法は変換規則、隠れマルコフモデルおよび混乱させるような文字の類似行列を使用する。中国語スペルチェックアプリケーションでは、一対の混乱させるような文字間の前記類似は、前記文字が同じ発音を有する、および/または簡体字または繁体字中国語でのいくつかの入力キーストロークを共有する場合は、正の数であってもよい。それ以外の場合では、値は零である。一つの実施では、前記類似はブール値、例えば、1は一対の混乱させるような文字、また0は一対の混乱させない文字、を有していてもよい。前記システムと方法はとりわけ、例えば、ツールバーまたはデスクバーに実装される、クライアントサイトで、ウェブに基づく検索エンジンおよびダウンロード可能性のあるアプリケーションに適用できるが、その他の様々なアプリケーションに適用できる。本発明は、プロセス、器具、システム、装置、方法、またはプログラム命令が光回線または電子通信回線上で送信されるコンピュータ可読の記憶媒体またはコンピュータネットワークのようなコンピュータ可読の媒体を含み、多数の手段で実行できることが理解されるべきである。用語コンピュータとは一般に、携帯情報端末(PDA)、携帯電話およびネットワークスイッチのような計算能力を持ついかなる装置をもいう。本発明の独創的な実施形態がいくつか以下に説明されている。
前記方法は一般に、中国語のような第一言語での入力エントリーを第一言語とは異なるピンインのような中間表現での少なくとも一つの中間エントリーに変換すること、前記中間エントリーを前記第一言語での入力の少なくとも一つの可能性のある代替のスペルに変換すること、および前記入力エントリーと前記入力エントリーに対する全ての可能性のある代替のスペル間での一致がそれぞれ特定されたまたはされない場合、前記入力エントリーが正確な入力エントリーかまたは疑わしい入力エントリーであることを決定することを含む。本発明においては、「ピンイン」とは、注音符号(ボポモフォ)、すなわち「注釈音声の表記法」を含む、簡体字または繁体字中国語のための全ての音声表記法をいう。前記第一言語での混乱させるような文字の対の間の類似は、中間表現での共通のトークン信号に従い定義できる。前記疑わしい入力エントリーは、例えば、変換規則生成器により生成される変換規則に基づいて、変換規則に基づいた分類子を使用して分類されてもよい。決定ツリーおよびニューラルネットワーク分類子などのその他の様々な分類子は同様に採用されてもよい。
前記変換は、クエリーログ中のユーザークエリーのような複数の入力エントリーを変換することを含んでもよい。前記方法はさらに、例えば、変換規則に基づく分類子により、スペル修正変換規則のような一組の規則に基づいて正確にスペルされたエントリーまたは誤ってスペルされたエントリーとして前記疑わしいエントリーを分類することを含んでもよい。ユーザーの投票、例えば、クエリーログおよび/またはウェブページは、前記変換規則を生成するために好ましくは使用される。前記方法は前記疑わしい入力エントリーおよび前記可能性のある代替のスペルを使用する変換規則生成器を使用して、前記スペル修正変換規則を生成および訓練することも含んでもよい。前記方法はさらに、前記第一言語でユーザー入力を受信すること、前記規則の何れかが前記ユーザー入力に適合することを決定すること、少なくとも一つの規則が前記ユーザー入力に適合することを決定した後に、前記ユーザー入力に対応する前記第一言語での少なくとも一つの代替のスペルを生成すること、前記ユーザー入力についての可能性と前記ユーザー入力の少なくとも一つの代替のスペルについての可能性を比較することと、前記ユーザー入力よりも高い可能性を有する前記ユーザー入力の少なくとも一つの代替のスペルを伴うスペル修正提案およびスペル修正をすることを含んでもよい。
システムは一般に、第一言語での入力を前記入力エントリーの少なくとも一つの中間表現(前記中間表現は前記第一言語と異なる)に、変換するように構成された第一変換器、および前記可能性のある代替のスペルを前記入力エントリーと比較することにより一致を特定し、一致が全ての可能性のある代替のスペルから特定されない場合、前記入力エントリーは疑わしい入力エントリーであると決定、また一致が特定された場合、前記入力エントリーは正確な入力エントリーであると決定し、前記中間表現を前記第一言語での入力の少なくとも一つの可能性のある代替のスペルに変換するように構成された第二変換器を含む。
コンピュータシステムと協働して用いるコンピュータプログラム製品であって、前記コンピュータプログラム製品はコンピュータプロセッサ上で実行可能性のある命令を記憶するコンピュータ可読の記憶媒体を有し、前記命令は一般に、第一言語での入力エントリーを受信すること、前記入力エントリーを前記入力エントリーの少なくとも一つの中間表現に変換すること、前記中間表現は前記第一言語と異なるが、前記中間表現を前記第一言語での少なくとも一つの可能性のある代替のスペルに変換すること、少なくとも一つの可能性のある代替のスペルを前記入力エントリーと比較することにより一致を特定すること、また一致が全ての可能性のある代替のスペルから特定されない場合、前記入力エントリーは疑わしい入力エントリーであると決定し、また一致が特定された場合、前記入力エントリーは正確な入力エントリーであると決定することを含む。
前記システムおよび方法をインプリメントするアプリケーションは、文書に入力するテキストにスペル修正を行なうために、または検索エンジンのようなリモートサーバーとインターフェースをとるために、検索エンジンのようなサーバーサイト上でインプリメントされてもよく、または、例えば、ダウンロードされた、ユーザーのコンピュータのようなクライアントサイト上でインプリメントされてもよい。前記クライアントサイトのアプリケーションは任意で、例えば、XがZの先に来るまたは後に来る場合を除きXおよびYを絶対に置換しないなど、特定のスペル修正を許可しないことを指示することにより、前記ユーザーが前記アプリケーションをカスタマイズすることを可能にするユーザーが編集できる停止規則パターンテーブルを含んでもよい。
本発明のこれらおよびその他の特徴および長所は、以下の詳細な説明および本発明における例示的な実施形態を介して説明する添付の図でさらに詳しく提示される。
本発明は、類似する参照数番号が類似する構造要素を指定する添付の図面とともに、以下の詳細な説明によって容易に理解される。
規則に基づいた分類子および隠れマルコフモデルを使用して、中国語、日本語および韓国語のような非ローマ語に基づいた単語に対するスペルミスを処理および修正するシステムおよび方法が開示されている。明確にするだけの目的で、ここで提示されている例は中国語のスペルエラー検出および修正、より具体的には、簡体字中国語のスペルエラー検出および修正に適用可能である。しかしながら、スペルエラー検出および修正のための前記システムおよび方法は同様に、繁体字中国語、日本語、韓国語、タイ語などのような他の非ローマ語に基づく言語に適用可能であり得る。以下の説明は、当業者であれば誰でも本発明を作りまた使用することが出来るように示されている。具体的な実施形態およびアプリケーションの説明は、実例としてのみ提供される。様々な改良は当業者にとって容易に明白となる。本明細書で定義される一般的な原理は、本発明の精神および範囲を逸脱することなく、その他の実施形態およびアプリケーションに適用され得る。従って、本発明は、本明細書で開示されている原理および特徴と一致する多数の代替物、改良および相当物を網羅する最も幅広い範囲を与えるものである。明確にする目的で、本発明に関連して当該技術分野において知られている技術上の資材に関する詳細は、本発明を不必要に分かりにくくしないために、詳細には説明されていない。
本明細書で説明されているシステムおよび方法は、一般に、入力エントリーから生成されるスペル修正変換規則を使用して、非ローマ語の言語でのスペルエラーを処理および修正することに関連している。本明細書では、「スペル」という用語は、前後関係で不適切に使用される有効な文字または単語と同様に、語彙の文字または単語以外であることどちらも指す。さらに、入力の代替のスペルまたは代替形式という用語は、本明細書において、入力が単一文字または単語、一連または一固まりの文字および/または単語、句、文などであろうとなかろうと、前記入力とは異なるが同じ言語である代替の組の文字または/および単語を指すために使用される。疑わしい入力エントリーは入力エントリーから識別され、また可能性のある代替のスペルは、図1で示される疑わしい入力エントリー検出器によって生成される。入力の時に疑わしい入力エントリー検出器から出る疑わしい入力エントリーおよび可能性のある代替のスペルを使用して、スペル修正変換規則はその後生成および訓練され(train)、疑わしいエントリーは、図2に示すように変換規則生成器および分類子によって、正確であるか、または不正確であるとして分類されている。前記システムおよび方法は変換規則、隠れマルコフモデルおよび混乱させるような文字の類似行列を使用する。中国語のアプリケーションでは、一対の混乱させるような文字間の類似度は、文字が同じ発音を有する、および/または簡体字または繁体字中国語でのいくつかの入力キーストロークを共有する場合は、正の数であり得る。それ以外の場合、値は零である。一つのインプリメンテーションでは、類似度はブール値(例えば、1は一対の混乱させるような文字、また0は一対の混乱させない文字)を有し得る。訓練された一組のスペル修正変換規則を使用して、スペルエラーを識別し、提案されたスペル修正を生成するプロセスを図4のフローチャートに示す。従って、変換規則を訓練するための一組の入力を使用して、最もよく起こるスペルエラーおよび修正は、スペルチェックおよび修正システムの効率および効果を高めるために決定および処理され得る。
図1は、疑わしいオリジナルの入力を識別するために、また疑わしいオリジナルの入力に対する可能性のある代替のスペルを決定するために、例えば、簡体字中国語のピンインのような中間形式への、または中間形式からの、順方向および逆方向の変換を実行するための例示的な疑わしい入力エントリー検出器100のブロック図である。図1に示される疑わしい入力エントリー検出器100は、ピンインが簡体字中国語ではよく使われる入力方法であるという都合のよい事実を使用する。しかしながら、ローマ語に基づくまたは非ローマ語に基づくその他のどのような中間形式もインプリメントおよび利用され得る。同様に、疑わしい入力エントリー検出器100は、様々なその他の非ローマ語に基づく言語とともに使用するために適合され得る。
図1に示すように、単語ピンイン変換器104は、中国語文字でのそれぞれのオリジナルのエントリー102を、オリジナルのエントリー102に対応する一つ以上の発音またはピンイン106に変換する。ピンイン単語変換器108は、その後ピンイン106を中国語の文字での可能性のあるスペル110に変換する。第一言語でのテキストを中間表現に変換、そしてその後第一言語に戻すためのその他の適切な変換器104、106が採用され得る。ピンインはただ単に中国語または簡体字中国語のための都合のよい中間表現に過ぎない。比較器112は、オリジナルの入力102と、可能性のあるスペル110を、第一言語で、および一致することを決定するために比較する。オリジナルのエントリー102がピンイン単語変換108により出力される、可能性のあるスペル110のうちの一つに一致する場合、オリジナルのエントリー102は正確にスペルされた114と一致すると見なされる。しかしながら、オリジナルのエントリー102がピンイン単語変換108により出力される、どの可能性のあるスペル110に一致しない場合、オリジナルのエントリー102は疑わしいエントリー116(すなわち不正確であり得るもの)となる。
ピンインは簡体字中国語の文字を入力するために主に使用される音声入力方法である。本明細書で参照される場合、ピンインは一般に、中国語の文字に関連する音の表現の有無を問わず、中国語の文字の音声表現を指す。とりわけ、「ピンイン」は、注音符号(ボポモフォ)、すなわち「注釈音の表記法」を含む、簡体字または繁体字中国語のための全ての音声表記法を指す。
ピンインはローマ字を使用し、複数の音節単語の形で挙げられる語彙を有する。中国語は多数の同形異義語および同音異義語を有するために、それぞれのオリジナルのエントリー102は単語ピンイン104により複数のピンイン106に変換され得、同様に、それぞれのピンイン106はピンイン変換器108により中国語の文字110での複数の可能性のあるスペルに変換され得る。とりわけ、数万ある中国語の文字(漢字)を表現するトーンを含み異なる音声音節(ピンインにより表現されるように)は約1,300のみ、またトーンを含まない音声音節は約400のみしかないので、一つの音声音節(トーンを含む、含まないを問わず)は多くの異なる漢字に対応し得る。例えば、マンダリンでの「yi」の発音は100を超える漢字に対応し得る。従って、それぞれのオリジナルのエントリー102をピンイン106に変換し、その後中国語の文字110に戻すという、単語ピンイン変換器104およびピンイン単語変換器108によりインプリメントされるプロセスは、同形異義語および/または同音意義語である単語が中国語では大部分を占めることを考慮に入れれば重要なことであり得る。
本明細書で説明されるシステムおよび方法は、変換規則、隠れマルコフモデルおよび混乱させるような文字の類似行列を使用する。中国語のアプリケーションでは、一対の混乱させるような文字間の類似度は、文字が同じ発音を有する、同様の入力キーストロークを共有する、および/または同様にスペルされる、すなわち視覚的に同様である場合は、正の数であり得る。それ以外の場合では、値は零である。一つのインプリメンテーションでは、類似度はブール値(例えば、1は一対の混乱させるような文字、また0は一対の混乱させない文字)を有し得る。第一言語での混乱させるような文字の対間の類似度は、中間表現での共通のトークン信号に従って定義され得る。
中国語の単語をピンインに変換、またピンインを中国語の単語に変換する様々な適切なメカニズムがインプリメントされ得る。例えば、様々なデコーダはピンインを漢字(中国語の文字)に翻訳するのに適している。一実施形態では、隠れマルコフモデルを使用するビタビデコーダがインプリメントされ得る。隠れマルコフモデルのための訓練は、例えば、経験によるカウントをまとめることにより、または予想をコンピュータで計算し、また反復最大化プロセスを実行することにより達成され得る。ビタビアルゴリズムは、マルコフコミュニケーションチャネルの出力観察に従ってソース入力を復号するために有用および効率的なアルゴリズムである。ビタビアルゴリズムは、音声認識、光学式文字認識、機械翻訳、スピーチタグ、構文解析およびスペルチェックのような自然言語の処理のための様々なアプリケーションにうまくインプリメントされている。しかしながら、マルコフ仮定の代わりに、その他の様々な仮定が復号アルゴリズムをインプリメントするのになさ得ることは理解されるべきである。さらに、ビタビアルゴリズムは単に、デコーダによりインプリメンとされ得る一つの適切な復号アルゴリズムおよび有限状態機械のようなその他の様々な適切な復号アルゴリズムにすぎず、ベイジアンネットワーク、決定平面アルゴリズム(高次元ビタビアルゴリズム)またはBahl−Cocke−Jelinek−Raviv(BCJR)アルゴリズム(2パス順方向/逆方向ビタビアルゴリズム)がインプリメントされ得る。
疑わしい入力エントリー検出器100により検出される疑わしいエントリーはほぼ全てのスペルエラーを含む。しかしながら、疑わしいエントリーは一般に、比較的高い誤警報/偽陽性率、すなわち、不正確なクエリーの数に対して不正確であると表示される正確なクエリーの数の比率をも含む。以下でより詳細に説明されるように、疑わしいエントリー検出器100により決定される疑わしいクエリー116は、その後正確または不正確であると分類され得る。分類子は変換規則に基づく分類子、好ましくは、決定ツリー分類子、ニューラルネットワーク分類子および同等のものであってもよい。正確として分類されたエントリーに対しては、提案はなされない。不正確として分類されたエントリーに対しては、それぞれの可能性のある代替のスペルの可能性によるが、提案がなされてもよい。
図2は、疑わしいエントリー検出器100により処理されるときに、一組のオリジナルの入力102からスペル修正変換規則を生成するための例示的なシステムおよび方法120のブロック図である。とりわけ、一組のオリジナルのエントリー102は、ウェブの検索エンジンのためのクエリーログのようなユーザー入力エントリーおよび/または、例えばインターネット上で入手可能な文書のようなものから得られるエントリーを含んでもよい。ユーザー入力エントリーの場合は、一組のオリジナルの入力102は、例えば過去三週間または二ヶ月からユーザークエリーの集合を含んでもよい。文書の例は、新聞、本、雑誌、ウェブページまたは同等のもののようなウェブコンテンツおよび様々な公表物を含んでもよい。一組のオリジナルの入力102は、文書(例えばインターネット上で入手可能な簡体字および/または繁体字中国語で書かれた文書)の一式、集合または保存場所から引き出されてもよい。本明細書で説明される例示的なシステムおよび方法はとりわけ、ウェブ検索エンジンの文脈内および組織データを含んでいるデータベースのための検索エンジンに適用できることに留意されたい。しかしながら、前記システムおよび方法は、特に非ローマ語でのエントリーに対してのスペルエラー検出および修正のためのその他の様々なアプリケーションに適合および採用されてもよいことは理解されるべきである。例えば、前記システムおよび方法は、スペルエラーを検出および修正するCJKテキスト入力アプリケーション、例えば、文書処理アプリケーションに適合されてもよい。
変換規則生成器および分類子120は、訓練データ、例えば人により注釈がつけられた不正確なスペルからの信頼度に従い、訓練の期間中、変換規則を自動的に引き出し(学習し)また順位付けをする、Eric Brillにより導入された、変換に基づく学習アルゴリズムをインプリメントする。これらの変換規則は注釈器/投票器124により使用される。変換規則は、変換規則が言語的知識よりもむしろ統計に基づいている言語学に使用されるという点で、文法規則と異なることに留意されたい。従って、例えば、ほとんどのエントリーが同様の不正確な方法で特定の単語を不正確にスペルした場合、前記不正確なスペルは正確として分類される。変換規則に基づく方法についての追加情報は、その全容が参考により本明細書に援用される、2004年1月27日にEric Brillに発行された、「Linguistic Disambiguation System and Method Using String−Based Pattern Training to Learn to Resolve Ambiguity Sites」と表題のついた米国特許第6,684201号に示されている。従って、変換規則生成器120は自動的に、すなわち、ユーザーの投票を利用し監視されずに、規則を生成する。言い換えれば、文字のパターンの正確さは、データベースでの大多数の投票(例えば人により注釈がつけられたデータよりもクエリーログ)に従い決定される。
それぞれの変換規則は、より高い信頼度の規則がより低い信頼度の規則よりも遅い時点で適用されるように、信頼度と関連している。一例として、第一の変換規則は、BがXより先に来る場合、XとYを置換することを特定してもよい。より高い信頼度のある第二の変換規則は、EがYの後に来る場合、YとXを置換することを特定してもよい。従って、第一の変換規則は、BYEを生成するためにエントリーBXEに最初に適用される。第二の変換規則はその後、エントリーをBXEに戻すために結果として生じるエントリーBYEに適用される。明確であるように、変換規則が適用される順番は結果に影響を与え得る。置換される文字および置換文字はエントリーのどの要素であってもよく、必ずしも単語である必要はないことも留意されたい。同様に、条件はどのような文脈、発話の一部であるタグまたは文法上の非末端ラベル(例えば、名詞句のNP)に基づいてもよい。変換規則に基づく分類子が好ましいとはいえ、単純ベイズ分類子、決定ツリー分類子、ニューラルネットワーク分類子またはその他の様々で適切などの分類子も同様に、疑わしいエントリー116を分類するためにインプリメントされてもよいことにさらに留意されたい。
図2に戻り、示すように、疑わしいエントリー検出器100により出力されるそれぞれの疑わしいエントリー116およびそれに対応する可能性のある代替のスペル110は、スペル修正変換規則生成器120の注釈器124により受信される。注釈器124は最初の変換規則126に最初に、また引き出されまた順位付けをされた変換規則130に最終的に基づくエントリー128を分類する。
学習段階では監督されても、すなわち人員による、および/または監督されなくてもよい。一つのインプリメンテーションでは、最初の組の手作業により作成された2、3の一般的な変換規則は、何らかの人間による監視付き、またはユーザーの投票を利用して人間による監視なしで、小さな組の疑わしいエントリーに自動的に注釈を付けるために利用される。最初の学習段階の後では、追加の変換規則は生成され、好ましくは、同様にいくつかの人による監視付きで、また追加の疑わしいエントリーは注釈を付けられる。例えば、比較的少ない規則を伴うかなりの量のユーザー情報を管理する結果として生じる規則は、非常に信頼性があると見なされてもよく、また、従って高い信頼度に相当するとしてもよい。より高い信頼を有する規則は概して、より低い信頼を有するものよりも対象範囲が狭いので、高い信頼を有する規則および比較的より低い信頼を有する規則と両方が使用されることに留意されたい。
例えば、比較的小さな割合のユーザー情報を占める比較的多数の残った疑わしいエントリーは費用効果の目的から人による監視なしで自動的に生成されてもよい。そのような規則を自動的に生成する一つの実例となるプロセス150を図3のフローチャートに示す。とりわけ、ループ152でのそれぞれの疑わしいクエリーQに対して、またループ154でのそれぞれの対応する代替のスペルQ’に対して、Qおよび代替スペルQ’の比較は、場合により不適切なQの中の文字およびそれらの代用C’を決定するためにブロック156でされる。ブロック158では、幅2N+1の窓は、Cに先行するN個の文字および後続するN個の文字を伴い開かれる。文脈の適切などの長さも、例えば、2N+1はインプリメントされてもよく、また問題になっている文字の前および後の文脈の長さは同等であってもよいが必ずそうであるという必要はない。C_{−N}、...、C、...、C_{N}からの全ての部分列(Cの前、C、Cの後)の頻度F(Cの前、C、Cの後)は、規則が有効であること、すなわち、規則が疑わしいエントリーの中で適度に多くの割合のスペルエラーを対象範囲にすることが出来るかどうかを確実にするためにカウントされる。文字列S=xs1,xs2,...、xsjは、1≦sl<s2...<sj<kの場合、文字列X=x,x,...xの部分列である。
次に、ブロック160では、CおよびC’の置換により対応頻度が決定される。決定ブロック162はその後、規則に信頼性があるかどうか、例えば、クエリーログおよびウェブページ、つまりユーザーの投票を利用して、判断する。規則は信頼性があると決定された場合、変換規則、すなわち、Cの前、Cの後である場合のCの代用C’を引き出す。とりわけ、Tlが最小有意閾値およびT2が最小信頼閾値である時、
F(Cの前、C、Cの後)>T1および
F(Cの前、C’、Cの後)/F(Cの前、C、Cの後)>T2
の場合、規則は信頼性があると見なされる。上で述べたように、変換規則生成器によりインプリメントされるプロセス150は自動的に、すなわち、監督なしで、データベースでの多数の投票、例えば、人により注釈がつけられたデータよりもクエリーログに従い決定される文字パターンの正確性のようなユーザーの投票を利用して規則を生成する。
最も頻度の高い変換規則はエラーパターンの非常に大きな割合を管理するので、規則の集まりの大きさは好ましくは、疑わしいエントリーの数とともに急速に増加しない。それぞれの規則の最低限の発生は、変換規則の集まりの大きさを限定するために設定されてもよい。
本明細書で説明されるシステムおよび方法をインプリメントするアプリケーションは、テキスト入力用のスペル修正をワープロ文書へ提供するために、または検索エンジンのようなリモートサーバーとインターフェースするために、検索エンジン上のようなサーバーサイトでインプリメントされてもよく、またはエンドユーザーのコンピュータのようなクライアントサイトで、例えばダウンロードしてインプリメントされもよい。クライアントサイトアプリケーションは、例えば、ツールバー内にインプリメントされてもよく、またオプションとして、XがZの先に来るまたは後に来る場合を除きXおよびYを絶対に置換しないなど、特定のスペル修正を許可しないことを指示することにより、ユーザーがアプリケーションをカスタマイズすることを可能にするユーザーが編集できる停止規則パターンテーブルを含んでもよい。例えば、「買う」および「売る」などいくつかの中国語の文字は、同じ発音「マイ」(しかし、異なるトーン)を有し、また言語でのほとんど同じ構文的役割を有するが完全に異なる意味を有する。多くの自動的なスペル規則生成プログラムは、「買う」を「売る」、または逆もまた同様に不正確に変更する傾向がある。エンドユーザーは、スペル修正アプリケーションにXとYの置換が起こらないようにするために、停止規則パターンテーブルの中に、停止規則「(X、Y)」を指示してもよい。
図4は、もしあれば、スペル修正提案を決定するためにエントリーを処理する変換規則を利用するプロセス200を示すフローチャートである。決定ブロック202は、いかなるスペル修正規則もユーザー入力に適用できることを決定する。決定ブロック202を実行するために、スペル修正変換規則のハッシュテーブルは、いかなる変換規則もユーザー入力に適用できることを決定するために検査されてもよい。例えば、既定の中国語のユーザー入力ABCDEに対して、変換規則が文字CをC’に置換することを指示する場合、Cの前に来る文字がABである場合、ひいてはこの特定の規則はユーザー入力に適用できる。どの規則もユーザー入力に適用できない場合は、スペル修正提案はユーザー入力に対してなされない。あるいは、ユーザー入力に適用できるそれぞれのスペル修正変換規則に対して、適用できるスペル修正変換規則に対応するユーザー入力に対する代替のスペルはブロック204で生成される。上記の例では、代替のスペルABC’DEは、適用できるスペル修正変換規則に対応するユーザー入力ABCEDに対して生成される。
決定ブロック206では、それぞれの代替のスペルの可能性は決定され、またユーザー入力の可能性と比較される。一つの実施形態では、決定ブロック206は、可能性を計算するために隠れマルコフモデルおよびビタビデコーダを利用してもよい。現在の例では、ABCEDおよびABC’DEの相対的な出力の可能性は決定されまた比較されている。代替のスペルはユーザー入力よりもより高い可能性有し、従って、
P(ABC’DE)*P(変換規則)>P(ABCDE)
であって、P(変換規則)が成功した修正の数および修正の総数の比率として定義され得る場合、有効な修正と見なされる。P(ABCDE)は区分内でのあいまい性を考慮に入れることに注目されたい。例えば、ABCDEがAB―CDEとABC―DEの二つの可能性のある区分を有する場合、確率性はベイズ確率の積の合計となる。
P(ABCDE)=P(入力−終了|CDE)*P(CDE|AB)*P(AB|入力−始まり)+P(入力−終了|DE)*P(DE|ABC)*P(ABC|入力−開始)
上記の方程式は、全体の履歴よりもむしろ前に来る単語により現在の単語を決定するマルコフ仮定を適用することによる最初のベイズ確率から得られるベイズ確率であることに留意されたい。P(ABC’DE)の決定は同様にされてもよい。
既定の代替のスペルが、決定ブロック206で決定されるようにユーザー入力よりも可能性は高くない場合、特定のスペル修正提案はされない。しかしながら、既定の代替のスペルが、決定ブロック206で決定されるようにユーザー入力よりも可能性は高い場合、ユーザーの入力に対する対応の代替のスペルは提案され、および/またはブロック208で自動的にスペルがなされる。
本明細書で説明されるようにスペル修正のシステムおよび方法は、特に非ローマ語に基づく言語での使用にたいへん適切で、またスペルエラーの検出および代替のスペル提案および修正の生成の両方に非常に効果的となることが出来る。さらに、スペル修正のためのシステムと方法はとりわけ、様々なユーザー入力またはクエリーのスペル修正を実行するときに、ウェブ検索エンジンの文脈内および組織データを含んでいるデータベースに対する検索エンジンにも適用できる。
本発明の例示的な実施形態を本明細書に説明し示したが、それらは単に説明に役立つものにすぎず、また改良を本発明の精神および範囲を逸脱することなくこれらの実施形態に施すことができることが理解される。従って、本発明の範囲は、本発明の実施形態として本具体的な実施形態の説明に明示的に含まれる各請求項と共に、修正され得る添付の請求項に関してのみ定義されることが意図されている。
図1は、疑わしいオリジナルの入力に対する可能性のある代替のスペルを決定するために、非ローマ語に基づく言語の中間形式への、または中間形式からの、順方向および逆方向の変換を実行するための例示的なシステムおよび方法のブロック図である。 図2は、一組の入力からスペル修正変換規則を生成するための例示的なシステムおよび方法のブロック図である。 図3は、スペル修正変換規則を自動的に生成するプロセスを示すフローチャートである。 図4は、スペル修正提案(存在する場合)を決定するために入力を処理するための変換規則を使用するプロセスを示すフローチャートである。

Claims (39)

  1. 第一言語における入力エントリーを受信することと、
    前記入力エントリーを、前記第一言語とは異なる中間表現における少なくとも一つの中間エントリーに変換することと、
    前記中間エントリーを、前記第一言語における前記入力エントリーの少なくとも一つの可能性のある代替形式に変換することと、
    一致を特定するために、前記入力エントリーを前記入力エントリーの少なくとも一つの可能性のある代替形式と比較することと、
    前記比較することに基づいて、前記入力エントリーが疑わしい入力エントリーであることを決定することと
    を包含する、方法。
  2. 前記中間エントリーは、前記第一言語における前記入力エントリーの複数の可能性のある代替形式へ変換され、
    前記比較することは、前記入力エントリーを前記第一言語における前記入力エントリーのそれぞれの可能性のある代替物と比較することを含み、
    前記決定することは、一致が前記可能性のある全ての代替形式から特定されない場合、前記入力エントリーは疑わしい入力エントリーであると決定し、一致が特定された場合、前記入力エントリーは正確な入力エントリーであると決定することを含む、請求項1に記載の方法。
  3. 前記第一言語は非ローマ語に基づいた言語である、請求項1に記載の方法。
  4. 前記第一言語は中国語であり、前記中間表現はピンインである、請求項1に記載の方法。
  5. 前記入力エントリーはクエリーログ内のユーザークエリーである、請求項1に記載の方法。
  6. 前記受信することは、複数の入力エントリーを受信することを含む、請求項1に記載の方法。
  7. 一組の規則に基づいて、正確にスペルされたエントリーと不正確にスペルされたエントリーとのうちの一つとして、前記疑わしいエントリーを分類することをさらに含む、請求項1に記載の方法。
  8. 前記分類することは、変換規則に基づく分類子により実行される、請求項7に記載の方法。
  9. 前記規則はスペル修正変換規則であり、
    前記疑わしい入力エントリーと前記少なくとも一つの可能性のある代替形式とを使用する変換規則生成器を使用して、前記スペル修正変換規則を生成および訓練することをさらに備える、請求項7に記載の方法。
  10. 前記スペル修正変換規則を生成および訓練することは、疑わしい入力エントリーのデータベースを使用して自動的に実行される、請求項9に記載の方法。
  11. 前記分類することは、自動監視と手動監視とのうちの少なくとも一つにより実行される、請求項7に記載の方法。
  12. 前記第一言語においてユーザー入力を受信することと、
    前記規則の何れかが前記ユーザー入力に適用されるか否かを決定することと、
    少なくとも一つの規則が前記ユーザー入力に適用されることを決定した後に、前記ユーザー入力に対応する、前記第一言語における少なくとも一つの代替形式を生成することと、
    前記ユーザー入力の可能性と、前記ユーザー入力の少なくとも一つの代替形式の可能性とを比較することと、
    前記ユーザー入力よりも高い可能性を有する前記ユーザー入力の少なくとも一つの代替形式を用いて、スペル修正提案とスペル修正とのうちの少なくとも一つを行なうことと
    をさらに含む、請求項7に記載の方法。
  13. ユーザー入力と代替のスペルとの特定の規定された組み合わせに対して、スペル修正提案またはスペル修正を行なうことを許可しない停止規則パターンのユーザー編集可能なテーブルを維持することをさらに含む、請求項12に記載の方法。
  14. 第一言語における入力を、前記第一言語とは異なる中間表現における少なくとも一つの中間エントリーに変換するように構成された第一変換器と、
    前記中間エントリーを、前記第一言語における入力の少なくとも一つの可能性のある代替のスペルに変換するように構成された第二変換器と、
    前記入力エントリーを、一致を特定するために少なくとも一つの可能性のある代替のスペルと比較するように構成された比較器であって、前記比較に基づいて前記入力エントリーが疑わしい入力エントリーであるかどうかを決定するようさらに構成されている、比較器と
    を備える、システム。
  15. 前記第二変換器は、前記中間エントリーを前記第一言語における前記入力エントリーの複数の可能性のある代替形式へ変換するように構成されており、
    前記比較器は、前記入力エントリーを前記第一言語における前記入力エントリーの前記少なくとも一つの可能性のある代替物のそれぞれと比較するように構成されており、また、一致が全ての前記可能性のある代替形式から特定されない場合、前記入力エントリーは疑わしい入力エントリーであると決定し、一致が特定された場合、前記入力エントリーは正確な入力エントリーであと決定するように構成されている、請求項14に記載のシステム。
  16. 前記第一言語は非ローマ語に基づいた言語である、請求項14に記載のシステム。
  17. 前記第一言語は中国語であり、前記中間表現はピンインである、請求項14に記載のシステム。
  18. 前記入力エントリーはクエリーログ内のユーザークエリーである、請求項14に記載のシステム。
  19. 一組の規則に基づいて、正確にスペルされたエントリーと不正確にスペルされたエントリーとのうちの一つとして、前記疑わしいエントリーを分類するように構成された分類子をさらに備える、請求項14に記載のシステム。
  20. 前記分類子は変換規則に基づく分類子である、請求項19に記載のシステム。
  21. 前記分類子の前記規則はスペル修正変換規則であり、前記分類子は、前記第一言語における前記入力の前記疑わしい入力エントリーと、前記少なくとも一つの可能性のある代替のスペルとを使用する前記スペル修正変換規則を生成する変換規則生成器をさらに含む、請求項19に記載のシステム。
  22. 前記変換規則生成器は、疑わしい入力エントリーのデータベースを使用して、前記変換規則を自動的に生成する、請求項21に記載のシステム。
  23. 前記分類子は自動監視と手動監視とのうちの少なくとも一つを実行する、請求項19に記載のシステム。
  24. 前記規則の何れかがユーザー入力に適用されるかどうか決定するように構成された検出器と、
    少なくとも一つの規則が前記ユーザー入力に適用されることを決定した後に、前記第一言語における前記ユーザー入力の少なくとも一つの代替のスペルを生成するように構成された生成器と、
    前記ユーザー入力の可能性と、前記ユーザー入力の少なくとも一つの代替のスペルの可能性とを比較するように構成された比較器と、
    前記ユーザー入力よりも高い可能性を有する前記ユーザー入力のうちの少なくとも一つの代替のスペルを用いて、スペル修正提案とスペル修正とのうちの少なくとも一つを行なうように構成された修正器と
    をさらに備える、請求項19に記載のシステム。
  25. ユーザー入力と代替のスペルとの特定の規定された組み合わせに対して、前記修正器がスペル修正提案またはスペル修正を行なうことを許可しないカスタマイズ可能な停止規則パターンテーブルをさらに備える、請求項24に記載のシステム。
  26. コンピュータシステムと協働して用いるコンピュータプログラム製品であって、前記コンピュータプログラム製品は、コンピュータプロセッサ上で実行可能な命令を記憶するコンピュータ可読記憶媒体を備え、前記命令は、
    第一言語において入力エントリーを受信することと、
    前記入力エントリーを、前記第一言語とは異なる中間表現における少なくとも一つの中間エントリーに変換することと、
    前記中間エントリーを、前記第一言語における前記入力エントリーの少なくとも一つの可能性のある代替形式に変換することと、
    前記入力エントリーを、一致を特定するために前記入力エントリーの少なくとも一つの可能性のある代替形式と比較することと、
    前記比較することに基づいて前記入力エントリーが疑わしい入力エントリーであることを決定することと
    を包含する、コンピュータプログラム製品。
  27. 前記中間エントリーは、前記第一言語における前記入力エントリーの複数の可能性のある代替形式へ変換され、
    前記比較することは、前記入力エントリーを、前記第一言語における前記入力エントリーのそれぞれの可能性のある代替物と比較することを含み、
    前記決定することは、一致が全ての前記可能性のある代替形式から特定されない場合、前記入力エントリーは疑わしい入力エントリーであると決定し、一致が特定された場合、前記入力エントリーは正確な入力エントリーであると決定することを含む、請求項26に記載のコンピュータプログラム製品。
  28. 前記第一言語は非ローマ語に基づいた言語である、請求項26に記載のコンピュータプログラム製品。
  29. 前記第一言語は中国語であり、前記中間表現はピンインである、請求項26に記載のコンピュータプログラム製品。
  30. 前記入力エントリーはクエリーログ内のユーザークエリーである、請求項26に記載のコンピュータプログラム製品。
  31. 前記受信することは複数の入力エントリーを受信することを含む、請求項26に記載のコンピュータプログラム製品。
  32. 前記コンピュータプログラム製品は、ツールバー内のクライアントサイトにインプリメンとされる、請求項26に記載のコンピュータプログラム製品。
  33. 前記命令は、
    一組の規則に基づいて、正確にスペルされたものと、不正確にスペルされたものとのうちの一つとして、前記疑わしいエントリーを分類することをさらに含む、請求項26に記載のコンピュータプログラム製品。
  34. 前記分類することは変換規則に基づいた分類である、請求項33に記載のコンピュータプログラム製品。
  35. 前記規則はスペル修正変換規則であり、前記命令は、
    前記疑わしい入力エントリーと前記少なくとも一つの可能性のある代替形式とを使用する変換規則生成器を用いて、前記スペル修正変換規則を生成および訓練することをさらに含む、請求項33に記載のコンピュータプログラム製品。
  36. 前記スペル修正変換規則は、疑わしい入力エントリーのデータベースを使用して自動的に生成される、請求項35に記載のコンピュータプログラム製品。
  37. 前記分類することは、自動監視と手動監視とのうちの少なくとも一つで実行される、請求項33に記載のコンピュータプログラム製品。
  38. 前記命令は、
    前記第一言語においてユーザー入力を受信することと、
    前記規則の何れかが前記ユーザー入力に適用されることかどうか決定することと、
    少なくとも一つの規則が前記ユーザー入力に適用されると決定した後に、前記ユーザー入力に対応する前記第一言語における少なくとも一つの代替形式を生成することと、
    前記ユーザー入力の可能性と前記ユーザー入力の少なくとも一つの代替形式の可能性とを比較することと、
    前記ユーザー入力よりも高い可能性を有する前記ユーザー入力の少なくとも一つの代替形式を使用して、スペル修正提案とスペル修正とのうちの少なくとも一つを行なうことと
    をさらに含む、請求項33に記載のコンピュータプログラム製品。
  39. 前記命令は、
    ユーザー入力と代替形式との特定の規定された組み合わせに対して、スペル修正提案またはスペル修正を行なうことを許可しない停止規則パターンのユーザーが編集可能なテーブルを維持することをさらに含む、請求項38に記載のコンピュータプログラム製品。
JP2007518226A 2004-06-23 2005-06-21 非ローマ文字および単語のスペル修正のためのシステムおよび方法 Withdrawn JP2008504605A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/875,449 US20050289463A1 (en) 2004-06-23 2004-06-23 Systems and methods for spell correction of non-roman characters and words
PCT/US2005/022027 WO2006002219A2 (en) 2004-06-23 2005-06-21 Systems and methods for spell correction of non-roman characters and words

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011242872A Division JP5444308B2 (ja) 2004-06-23 2011-11-04 非ローマ文字および単語のスペル修正のためのシステムおよび方法

Publications (2)

Publication Number Publication Date
JP2008504605A true JP2008504605A (ja) 2008-02-14
JP2008504605A5 JP2008504605A5 (ja) 2008-08-07

Family

ID=35427493

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007518226A Withdrawn JP2008504605A (ja) 2004-06-23 2005-06-21 非ローマ文字および単語のスペル修正のためのシステムおよび方法
JP2011242872A Expired - Fee Related JP5444308B2 (ja) 2004-06-23 2011-11-04 非ローマ文字および単語のスペル修正のためのシステムおよび方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2011242872A Expired - Fee Related JP5444308B2 (ja) 2004-06-23 2011-11-04 非ローマ文字および単語のスペル修正のためのシステムおよび方法

Country Status (5)

Country Link
US (1) US20050289463A1 (ja)
JP (2) JP2008504605A (ja)
KR (1) KR101146539B1 (ja)
CN (1) CN101002198B (ja)
WO (1) WO2006002219A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018330A (ja) * 2009-07-08 2011-01-27 Nhn Corp 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
JP2022003539A (ja) * 2020-12-11 2022-01-11 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト誤り訂正方法、装置、電子機器及び記憶媒体

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8650187B2 (en) * 2003-07-25 2014-02-11 Palo Alto Research Center Incorporated Systems and methods for linked event detection
US7260780B2 (en) * 2005-01-03 2007-08-21 Microsoft Corporation Method and apparatus for providing foreign language text display when encoding is not available
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7321892B2 (en) * 2005-08-11 2008-01-22 Amazon Technologies, Inc. Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7895223B2 (en) 2005-11-29 2011-02-22 Cisco Technology, Inc. Generating search results based on determined relationships between data objects and user connections to identified destinations
US8006180B2 (en) * 2006-01-10 2011-08-23 Mircrosoft Corporation Spell checking in network browser based applications
US7849144B2 (en) 2006-01-13 2010-12-07 Cisco Technology, Inc. Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users
US8732314B2 (en) * 2006-08-21 2014-05-20 Cisco Technology, Inc. Generation of contact information based on associating browsed content to user actions
US9552349B2 (en) * 2006-08-31 2017-01-24 International Business Machines Corporation Methods and apparatus for performing spelling corrections using one or more variant hash tables
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8019595B1 (en) 2006-09-11 2011-09-13 WordRake Holdings, LLC Computer processes for analyzing and improving document readability
US8024319B2 (en) * 2007-01-25 2011-09-20 Microsoft Corporation Finite-state model for processing web queries
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2008151466A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
KR101465770B1 (ko) * 2007-06-25 2014-11-27 구글 인코포레이티드 단어 확률 결정
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8589149B2 (en) 2008-08-05 2013-11-19 Nuance Communications, Inc. Probability-based approach to recognition of user-entered data
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9026426B2 (en) * 2009-03-19 2015-05-05 Google Inc. Input method editor
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9183834B2 (en) * 2009-07-22 2015-11-10 Cisco Technology, Inc. Speech recognition tuning tool
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
CN102541837A (zh) * 2010-12-22 2012-07-04 张家港市赫图阿拉信息技术有限公司 一种校正输入中文拼写的方法
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8712931B1 (en) * 2011-06-29 2014-04-29 Amazon Technologies, Inc. Adaptive input interface
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8976118B2 (en) 2012-01-20 2015-03-10 International Business Machines Corporation Method for character correction
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
TW201403354A (zh) * 2012-07-03 2014-01-16 Univ Nat Taiwan Normal 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
KR102069697B1 (ko) * 2013-07-29 2020-02-24 한국전자통신연구원 자동 통역 장치 및 방법
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
WO2015109468A1 (en) * 2014-01-23 2015-07-30 Microsoft Corporation Functionality to reduce the amount of time it takes a device to receive and process input
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9377871B2 (en) 2014-08-01 2016-06-28 Nuance Communications, Inc. System and methods for determining keyboard input in the presence of multiple contact points
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US9753915B2 (en) 2015-08-06 2017-09-05 Disney Enterprises, Inc. Linguistic analysis and correction
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN113536731A (zh) * 2015-12-29 2021-10-22 微软技术许可有限责任公司 用于格式化文档对象的方法、设备和介质
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10180930B2 (en) 2016-05-10 2019-01-15 Go Daddy Operating Company, Inc. Auto completing domain names comprising multiple languages
US10430485B2 (en) 2016-05-10 2019-10-01 Go Daddy Operating Company, LLC Verifying character sets in domain name requests
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
TWI614618B (zh) * 2016-06-17 2018-02-11 National Central University 字詞校正方法
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10269352B2 (en) * 2016-12-23 2019-04-23 Nice Ltd. System and method for detecting phonetically similar imposter phrases
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11586810B2 (en) * 2017-06-26 2023-02-21 Microsoft Technology Licensing, Llc Generating responses in automated chatting
CN112445953A (zh) * 2019-08-14 2021-03-05 阿里巴巴集团控股有限公司 信息的搜索纠错方法、计算设备及存储介质
US11443734B2 (en) * 2019-08-26 2022-09-13 Nice Ltd. System and method for combining phonetic and automatic speech recognition search

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10269204A (ja) * 1997-03-28 1998-10-09 Matsushita Electric Ind Co Ltd 中国語文書自動校正方法及びその装置
US6167367A (en) * 1997-08-09 2000-12-26 National Tsing Hua University Method and device for automatic error detection and correction for computerized text files

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972349A (en) * 1986-12-04 1990-11-20 Kleinberger Paul J Information retrieval system and method
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5903861A (en) * 1995-12-12 1999-05-11 Chan; Kun C. Method for specifically converting non-phonetic characters representing vocabulary in languages into surrogate words for inputting into a computer
US5706502A (en) * 1996-03-25 1998-01-06 Sun Microsystems, Inc. Internet-enabled portfolio manager system and method
US5956739A (en) * 1996-06-25 1999-09-21 Mitsubishi Electric Information Technology Center America, Inc. System for text correction adaptive to the text being corrected
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
CN1311881A (zh) * 1998-06-04 2001-09-05 松下电器产业株式会社 语言变换规则产生装置、语言变换装置及程序记录媒体
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US6649222B1 (en) * 1998-09-07 2003-11-18 The Procter & Gamble Company Modulated plasma glow discharge treatments for making superhydrophobic substrates
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6684201B1 (en) * 2000-03-31 2004-01-27 Microsoft Corporation Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US7024360B2 (en) * 2003-03-17 2006-04-04 Rensselaer Polytechnic Institute System for reconstruction of symbols in a sequence
US20050177358A1 (en) * 2004-02-10 2005-08-11 Edward Melomed Multilingual database interaction system and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10269204A (ja) * 1997-03-28 1998-10-09 Matsushita Electric Ind Co Ltd 中国語文書自動校正方法及びその装置
US6167367A (en) * 1997-08-09 2000-12-26 National Tsing Hua University Method and device for automatic error detection and correction for computerized text files

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018330A (ja) * 2009-07-08 2011-01-27 Nhn Corp 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
JP2022003539A (ja) * 2020-12-11 2022-01-11 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト誤り訂正方法、装置、電子機器及び記憶媒体
JP7267365B2 (ja) 2020-12-11 2023-05-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト誤り訂正方法、装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
KR20070027726A (ko) 2007-03-09
WO2006002219A2 (en) 2006-01-05
JP2012069142A (ja) 2012-04-05
CN101002198A (zh) 2007-07-18
JP5444308B2 (ja) 2014-03-19
KR101146539B1 (ko) 2012-05-25
US20050289463A1 (en) 2005-12-29
WO2006002219A3 (en) 2006-08-03
CN101002198B (zh) 2013-10-23

Similar Documents

Publication Publication Date Title
JP5444308B2 (ja) 非ローマ文字および単語のスペル修正のためのシステムおよび方法
CN110914827B (zh) 生成多语言语义解析器的系统和计算机实现方法
Abandah et al. Automatic diacritization of Arabic text using recurrent neural networks
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
Mohtaj et al. Parsivar: A language processing toolkit for Persian
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN109977220B (zh) 一种基于关键句和关键字的反向生成摘要的方法
Azmi et al. Real-word errors in Arabic texts: A better algorithm for detection and correction
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
Mishra et al. A survey of spelling error detection and correction techniques
Zhang et al. A survey on syntactic processing techniques
CN109815497B (zh) 基于句法依存的人物属性抽取方法
Tufiş et al. DIAC+: A professional diacritics recovering system
Huang Multilingual named entity extraction and translation from* text and speech
Kaur et al. Spell checker for Punjabi language using deep neural network
Yang et al. Spell Checking for Chinese.
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
Shekhar et al. Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants
KS et al. Automatic error detection and correction in malayalam
Laukaitis et al. Sentence level alignment of digitized books parallel corpora
Sonnadara et al. Sinhala spell correction: A novel benchmark with neural spell correction
US20180033425A1 (en) Evaluation device and evaluation method
Bhargava et al. bioPDFX: preparing PDF scientific articles for biomedical text mining
Sampath et al. Hybrid Tamil spell checker with combined character splitting
Alosaimy Ensemble Morphosyntactic Analyser for Classical Arabic

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080619

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100825

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101124

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101224

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110704

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111214

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120112

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20120316

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20120726