JP2003514304A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2003514304A5 JP2003514304A5 JP2001536716A JP2001536716A JP2003514304A5 JP 2003514304 A5 JP2003514304 A5 JP 2003514304A5 JP 2001536716 A JP2001536716 A JP 2001536716A JP 2001536716 A JP2001536716 A JP 2001536716A JP 2003514304 A5 JP2003514304 A5 JP 2003514304A5
- Authority
- JP
- Japan
- Prior art keywords
- typing
- text
- probability
- model
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Description
この最後の理由により、タイピング誤りは、ピンイン入力の文脈ではきわめて厄介なものである。ピンイン文字列は、文字間にスペーシングがないため再検討、訂正が非常に難しい。その代わりに、ピンイン文字は、ピンイン文字で構成される単語の数に関係なく混在する。さらに、ピンイン−漢字変換はすぐに実行されることはないが、追加ピンインを入力するにつれ正しい解釈が定式化され続ける。従って、ユーザが間違ったピンイン記号をタイプした場合、単一の誤りが変換プロセスによって複合され、下流に伝播して、いくつかの追加誤りの原因となる場合がある。その結果、システムが漢字に確定変換しその後ユーザが誤りのあったことに気づくまでに、1回訂正するのにユーザは数回バックスペースを入力せざるをえないため、誤り訂正の時間が長くかかる。システムによっては、元の誤りを明らかにできない場合さえある。
従って、モード切替を必要としない「モードレス」システムが必要なのである。モードを無用とするために、システムは、タイプしている言語を検出し、文字シーケンスを1単語ずつ一方の言語または他方の言語に動的に変換することができなければならない。
例えば、ユーザがピンイン入力テキスト「woshiyigezhongguoren」をタイプすると、システムはこの文字列を中国語文字(一般に「私は中国人である」と翻訳される)に変換する。
(好ましい実施形態の詳細な説明)
本発明は、言語のある形式(例えば、表音バージョン)から言語の別の形式(例えば、書き言葉バージョン)に変換する言語入力システムおよび方法に関連する。このシステムおよび方法は、テキスト入力時に発生するスペルミスおよびタイプミスおよびある言語形式から別の言語形式への変換時に発生する変換誤りに対する誤り耐性がある。説明のため、本発明は、汎用コンピュータで実行される文書処理プログラムの一般的なコンテキスト(context)において説明される。ただし、本発明は、文書処理以外の異なる多くの環境に実装することができ、またさまざまな種類のデバイスで実施することができる。他のコンテキストとしては、電子メールプログラム、表計算ソフト、ブラウザなどを含む。
本発明は、言語のある形式(例えば、表音バージョン)から言語の別の形式(例えば、書き言葉バージョン)に変換する言語入力システムおよび方法に関連する。このシステムおよび方法は、テキスト入力時に発生するスペルミスおよびタイプミスおよびある言語形式から別の言語形式への変換時に発生する変換誤りに対する誤り耐性がある。説明のため、本発明は、汎用コンピュータで実行される文書処理プログラムの一般的なコンテキスト(context)において説明される。ただし、本発明は、文書処理以外の異なる多くの環境に実装することができ、またさまざまな種類のデバイスで実施することができる。他のコンテキストとしては、電子メールプログラム、表計算ソフト、ブラウザなどを含む。
言語入力システムは、統計的言語モデルを採用して非常に高い精度を達成している。一実施例では、言語入力アーキテクチャは、最高確率ベースの方法による統計的言語モデリング(statistical language modeling)を使用し、自動で、単語をセグメント化し、語彙を選択し、トレーニングデータをフィルタ処理し、可能な最良の変換候補を求める。
センテンスベースの統計的言語モデリング(Statistical sentence−based language modeling)では、ユーザの入力が完全であると仮定している。実際には、ユーザの入力にはタイピング誤りやスペルミスが多数ある。従って、言語入力アーキテクチャは、確率論的スペリングモデルを使用して、ありがちなタイピング誤りやスペルミスを許容しながら正しいタイピングを受け入れる1つまたは複数のタイピングモデルを含む。タイピングモデルを英語や中国語など複数言語についてトレーニングし、どれくらいの確からしさで入力シーケンスがある言語の単語であって別の言語の単語ではないかを識別するようにできる。両方のモデルは並列実行でき、その言語モデル(例えば、中国語モデル)により誘導されて最も可能性の高い文字シーケンス(つまり、英語および中国語の文字)を出力する。
コンピュータシステム100は、I/Oインタフェース106を介して接続された1つまたは複数の周辺装置を備える。例として、周辺装置は、マウス110、キーボード112(例えば、英数字QWERTYキーボード、表音キーボードなど)、ディスプレイモニタ114、プリンタ116、周辺記憶装置118、およびマイクロホン120を備える。例えば、コンピュータシステムは、汎用コンピュータで実装できる。従って、コンピュータシステム100は、メモリ104に格納され、CPU 102で実行されるコンピュータのオペレーティングシステム(図に示されていない)を実装する。オペレーティングシステムは、ウィンドウ操作環境をサポートするマルチタスクオペレーティングシステムであるのが好ましい。適当なオペレーティングシステムの例として、Microsoft Corporation社のWindows(登録商標)ブランドのオペレーティングシステムがある。
説明の目的のために、ワードプロセッサ130は、中国語ベースのワードプロセッサでのコンテキストにおいて説明され、言語入力アーキテクチャ131はピンインを漢字に変換するように構成されている。つまり、表音テキストはピンインであり、言語テキストは漢字である。しかし、言語入力アーキテクチャは、言語と無関係であり、他の言語にも使用できる。例えば、表音テキストは日本語の話し言葉の形態でよいが、言語テキストは漢字などの日本語の書き言葉を表す。他の多くの例としては、アラビア語、韓国語、インド語、その他のアジア言語などを含むが、これに限定されるものではない。
UI 132では、表音テキストを入力と同時に表示する。このUIは、グラフィカルユーザインタフェースであるのが好ましい。
ユーザインタフェース132は、表音テキスト(P)を検索エンジン134に渡し、さらに、これは表音テキストをタイピングモデル135に渡す。タイピングモデル135は、表音テキストに誤りが含まれていると思われる場合にユーザが意図した表音テキストの適当な編集結果と考えられるさまざまなタイピング候補(TC1,...,TCN)を生成する。タイピングモデル135は、妥当な確率が設定されている複数のタイピング候補を検索エンジン134に渡し、さらに、これはタイピング候補を言語モデル136に渡す。この言語モデル136は、センテンス処理中のテキスト文字列(すなわち、context:コンテキスト(文脈))内でタイピング候補を求め、ユーザが意図した表音テキストの変換された形式を表すと考えられる言語テキストで書かれているさまざまな変換候補(CC1,...,CCN)を生成する。変換候補は、タイピング候補と関連付けられている。
検索エンジン134は、タイピングモデル135から返された有望なタイピング候補のリストを言語モデル136に送る。簡単にいうと、言語モデルは、語句やセンテンスなどの指定された文脈内に単語またはテキスト文字列がある確率を測定する。つまり、言語モデルは、項目(単語、文字、英字など)のシーケンスを取り、そのシーケンスの確率を推定することができる。言語モデル136は、検索エンジン134から有望なタイピング候補と前のテキストとを組み合わせ、タイピング候補に対応する言語テキストの1つまたは複数の候補を生成する。
言語入力アーキテクチャ131は、入力テキスト文字列の入力時に生じる誤りを許容し、入力文字列となる単語およびセンテンスで最も確率の高いものを返そうとする。言語モデル136は、タイピングモデル135でユーザが入力した入力文字列に対しどのセンテンスが最も妥当かを判別する際に役立つ。2つのモデルは、辞書から、入力された文字列sが認識可能でかつ有効な単語wである確率P(w|s)として統計的に記述することができる。ベイズの公式を使用すると、確率P(w|s)は次のように記述される。
分母P(s)は、所与の単語(w)を比較可能とする目的で、入力文字列(s)が与えられる。したがって、分析は、分子の積P(s|w)・P(w)のみに関係し、確率P(s|w)はスペルまたはタイピングモデルの確率を表し、確率P(w)は言語モデルの確率を表す。より具体的には、タイピングモデルの確率P(s|w)は、単語(w)としてXを入力するつもりの人がどの程度代わりにYを入力することになるかを示す確率を記述する。言語モデルの確率P(w)は、与えられたセンテンスの文脈において特定の単語(w)がどの程度生成されているべきかを示す確率を記述する。
ピンインを漢字に変換するコンテキストにおいては、確率P(w|s)は確率P(H|p)と言い換えることができ、Hは漢字文字列、pはピンイン文字列を表す。目標は、確率P(H|p)を最大にする、最も確率の高い中国語文字H′を見つけることである。従って、確率P(H|p)は、入力されたピンイン文字列pが有効な漢字文字列Hである確率である。pは固定されており、従って、確率P(p)は与えられたピンイン文字列に対し一定であるため、ベイズ公式により、次のように確率P(H|p)が小さくなる。
H′=arg max P(H|p)
=arg max P(p|H)*P(H)
=arg max P(p|H)*P(H)
確率P(p|H)はスペルまたはタイピングモデルの確率を表す。通常、漢字文字列Hは、さらに、複数の単語W1,W2,W3,...,WMに分割され、確率P(p|H)は次のように推定できる。
Pr(p|H) ΠP(pf(i)|Wi)
従来技術の統計ベースのピンイン−漢字変換システムでは、確率P(pf(i)|Wi)は、Pf(i)が単語Wiの受け入れ可能なスペルである場合に1に設定され、pf(i)が単語Wiの受け入れ可能スペルでない場合に0に設定される。そのため、従来のシステムは、誤って入力された文字に対する耐性がない。一部のシステムでは、「南部訛りの発音」機能があり、このような問題に対応しているが、これはプリセット値確率1および0を採用している。さらに、このようなシステムは、(実際のタイピング誤りから学習する)データ駆動方式でないため、タイピング誤りのうちごくわずかしか扱えない。
対照的に、本発明で説明している言語入力アーキテクチャでは、タイピングモデルと言語モデルの両方を利用して変換を実行する。タイピングモデルでは、実際のコーパスから確率P(p f(i) |W i )をトレーニングすることにより誤って入力した文字に対する誤り耐性が可能になっている。タイピングモデルを構築する方法は多数ある。理論的には、すべての可能なP(p f(i) |W i )をトレーニングできるが、実際には、パラメータが多すぎる。トレーニングする必要のあるパラメータの個数を減らす1つの方法として、1文字単語のみを考察し、発音が等価なすべての文字を単一の音節に対応づける方法がある。中国語にはおおよそ406個の音節があり、これは本質的にP(ピンインテキスト|音節)をトレーニングし、各文字を対応する音節に対応づけることである。以下では「タイピングモデルのトレーニング」という見出しのもとでこれについて詳述する。
言語入力アーキテクチャ131では、広範な確率が計算される。ピンイン−漢字変換の一目標は、確率P(p|H)を最大にする漢字文字列Hを見つけることである。これは、最大の確率を最良の漢字シーケンスとして求めるWiを選択することにより実行する。実際、よく知られているViterbi Beam検索のような効率的な検索方法を使用できる。Viterbi Beam検索法の詳細については、「Automatic Speech Recognition」(Kluwer Academic Publishers、1989)という表題のKai−Fu Leeの記事、および「Automatic Speech and Speaker Recognition − Advanced Topics」(Kluwer Academic Publishers、1996)という表題のChin−Hui Lee、Frank K.Soong、Kuldip K.Paliwalの記事に記載されている。
確率P(H)は、言語モデルを表し、所与の単語列のアプリオリな確率を測定する。統計的言語モデル構築の一般的な方法として、プレフィックスツリー風のデータ構造を利用して、知られているテキストのトレーニングセットからN重文字言語モデルを構築する方法がある。広く使用されている統計的言語モデルの一実施例として、N重文字マルコフモデルがあり、これについては、Frederick Jelinek著「Statistical Methods for Speech Recognition」(The MIT Press,Cambridge、Massachusetts、1997)に説明がある。プレフィックスツリーデータ構造(a.k.a.サフィックスツリー、またはPATツリー)の使用により、高レベルアプリケーションで言語モデルを素早く実行し、実質的にリアルタイムに実行する特性を持つ。N重文字言語モデルでは、テキスト全体を通して文字列(サイズN)内の特定のアイテム(単語、文字など)の出現数をカウントする。このカウントを使用して、そのアイテムの列の使用の確率を計算する。
言語モデル136は、三重文字言語モデル(つまり、N=3とするN重文字)であるのが好ましいが、状況によっては二重文字が適している場合がある。三重文字言語モデルは、英語に適しており、また中国にも十分機能するが、大きなトレーニングコーパスを利用すると想定している。
P(W1,W2,W3,...,WM)|ΠP(Wn〜Wn-1,Wn-2)
(1)
(1)
図3は、ユーザによって入力された入力テキスト300の例を示しており、タイピングモデル135および言語モデル136に渡される。入力テキスト300を受け取ると、タイピングモデル135は入力テキスト300を種々の方法でセグメント化し、キーボード入力時に生じる可能性のあるタイプミスを考慮した有望なタイピング候補のリストを生成する。タイピング候補302は、前の単語の終了時刻が現在の単語の開始時刻となるように、各時間フレーム内に異なる複数のセグメンテーション(segmentations)が存在する。例えば、候補302の上行は、入力文字列300「mafangnitryyis...」を「ma」、「fan」、「ni」、「try」、「yi」などにセグメント分割する。タイピング候補302の第2行は、入力文字列「mafangnitryyis...」を異なる形で「ma」、「fang」、「nit」、「yu」、「xia」などにセグメント分割する。
これらの候補から、検索エンジン134は、候補のうちどれがユーザが意図するものである確率が最も高いかを判別する統計分析を実行する。タイピング候補は、各行毎に互いの関連性はなく、検索エンジンはいずれかの行から種々のセグメントを自由に選択し、受け入れ可能な変換候補を定義することができる。図3の例では、検索エンジンは、ハイライト表示になっているタイピング候補304、306、308、310、312、および314が最高の確率であることを示していると判断している。これらの候補は、左から右に連結され、候補304の後に候補306が続くなどして、入力テキスト300の受け入れ可能な解釈を形成することができる。
ステップ402では、ユーザインタフェース132は、ユーザが入力したピンインなどの表音テキスト列を受け取る。入力テキスト文字列には、1つまたは複数のタイプミスが含まれる。UI 132は、エディタ204を介して入力テキストを検索エンジン134に渡し、検索エンジンは入力テキストをタイピングモデル135とセンテンス文脈モデル216に配送する。
有望なタイピング候補が、検索エンジン134に返され、その後、言語モデル136に伝達される。言語モデル136は、有望なタイピング候補と以前の入力テキストとを組み合わせ、タイピング候補に対応する言語テキストの1つまたは複数の候補を生成する。例えば、図3の候補302を参照すると、言語モデルはボックス302a−j内に言語テキストを可能な出力テキストとして返す。
<タイピングモデルのトレーニング>
上で指摘したように、タイピングモデル135は、確率P(s|w)に基づいて処理がなされる。タイピングモデルでは、入力テキストを出力テキストに変換するのに使用できる異なるタイピング候補の確率を計算し、有望な候補を選択する。この方法で、タイピングモデルは、タイピング誤りが存在していても入力テキストの有望なタイピング候補を返すことにより誤りを許容する。
上で指摘したように、タイピングモデル135は、確率P(s|w)に基づいて処理がなされる。タイピングモデルでは、入力テキストを出力テキストに変換するのに使用できる異なるタイピング候補の確率を計算し、有望な候補を選択する。この方法で、タイピングモデルは、タイピング誤りが存在していても入力テキストの有望なタイピング候補を返すことにより誤りを許容する。
本発明の一態様は、実際のデータからのタイピングモデルP(s|w)のトレーニングに関するものである。タイピングモデルは、数百または好ましくは数千などできる限り多くのトレーナによるテキスト入力に基づいて開発またはトレーニングされる。トレーナは同じまたは異なるトレーニングデータを入力し、入力されたデータとトレーニングデータとの差異をタイピング誤りとして捕らえる。目標は、同じトレーニングテキストをタイプさせ、タイピングでの誤りの個数またはタイピング候補に基づいて確率を求めることである。このようにして、タイピングモデルはトレーナのタイピング誤りの確率を学習する。
タイピングモデル135をトレーニングするためにさまざまな手法を使用できる。一方法では、タイピングモデルは、単一文字テキストについて、すべての同等な発音の文字テキストを単一音節に対応付けることにより直接トレーニングされる。例えば、中国語ピンインには400を超える音節がある。音節を与える表音テキストの確率(例えば、P(ピンインテキスト|音節)をトレーニングし、各文字テキストを対応する音節に対応付ける。
図6は、音節対応付けトレーニング手法600を示している。ステップ602で、トレーニングプログラム508は、トレーナが入力したテキスト文字列を読みとる。テキスト文字列は、センテンスでも、また単語および/または文字のその他のグループでもよい。プログラム508は、音節をテキストの文字列内の対応する英字に合わせるか、または対応付ける(ステップ604)。各テキスト文字列では、各音節に対応付けた英字の頻度が更新される(ステップ606)。これは、ステップ608から「はい」分岐で表されているように、トレーナにより入力されたトレーニングデータに含まれるテキスト文字列ごとに繰り返される。最終的に、入力されたテキスト文字列は、中国語ピンインの多くのまたはすべての音節を表す。ステップ608から「いいえ」分岐により表されるように、すべての文字列が読み込まれたら、トレーニングプログラムは、ユーザが各音節をタイピングする確率P(ピンインテキスト|音節)を決定する(ステップ610)。一実装では、そのタイピングする確率P(ピンインテキスト|音節)は、すべての音節を最初に正規化して決定される。
さらに他のトレーニング手法では、トレーニングは英字の挿入(φ→x)、
英字の削除(x→φ)、
および一方の文字を他方に置換(x→y)
H′=arg max P(H|p)
=arg max P(p|H)*P(H)
=arg max P(p|H)*P(H)
目的関数は、英語ではスペルモデルP(p|H)、中国語では言語モデルP(H)の2つの部分があることで特徴付けることができる。
多言語変換を説明するために、ユーザが「私はINTERNETマガジンを読むのが好きだ」という意味のテキスト文字列「woaiduinternetzazhi」を入力すると仮定する。初期文字列「woaidu」を受け取った後、中国語タイピングモデルは、英語タイピングモデルよりも高い確率となり、入力テキストのその部分を「INTERNET」に変換する。このアーキテクチャは、続いてタイプした曖昧な部分「interne」を英字「t」がタイプされるまで探し続ける。このときに、英語タイピングモデルは、「INTERNET」について中国語タイピングモデルよりも高い確率を返し、言語入力アーキテクチャは入力テキストのこの部分を「INTERNET」に変換する。次に、中国語タイピングモデルは、「zazhi」について英語タイピングモデルよりも高い確率を示し、言語入力アーキテクチャは入力テキストのその部分について変換する。
タイピングモデルはそれぞれ、ステップ804(1)〜804(N)によって表されるような入力テキストに基づいて有望なタイピング候補を生成する。ステップ806では、妥当な確率が設定された有望なタイピング候補が検索エンジン134に返される。ステップ808では、検索エンジン134がタイピング確率とともにタイピング候補を言語モデル136に送る。ステップ810では、言語モデルが有望なタイピング候補と以前の入力テキストとを組み合わせることによってセンテンスベースの文脈を提供し、図3に示したように、複数のタイピング候補を通じてセグメント経路を選択することによりタイピング候補に対応する言語テキストの1つまたは複数の変換候補を生成する。ステップ812では、検索エンジン134は統計分析を実行して、ユーザが意図する最高の確率を示す変換候補を選択する。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16390299P | 1999-11-05 | 1999-11-05 | |
US60/163,902 | 1999-11-05 | ||
US09/606,660 | 2000-06-28 | ||
US09/606,660 US6848080B1 (en) | 1999-11-05 | 2000-06-28 | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
PCT/US2000/028486 WO2001035250A2 (en) | 1999-11-05 | 2000-10-13 | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003514304A JP2003514304A (ja) | 2003-04-15 |
JP2003514304A5 true JP2003514304A5 (ja) | 2013-10-10 |
JP5535417B2 JP5535417B2 (ja) | 2014-07-02 |
Family
ID=26860054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001536716A Expired - Fee Related JP5535417B2 (ja) | 1999-11-05 | 2000-10-13 | スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ |
Country Status (6)
Country | Link |
---|---|
US (3) | US6848080B1 (ja) |
JP (1) | JP5535417B2 (ja) |
CN (1) | CN1205572C (ja) |
AU (1) | AU1086801A (ja) |
HK (1) | HK1050411A1 (ja) |
WO (1) | WO2001035250A2 (ja) |
Families Citing this family (223)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143616A (ja) * | 1997-11-10 | 1999-05-28 | Sega Enterp Ltd | 文字通信装置 |
US8938688B2 (en) | 1998-12-04 | 2015-01-20 | Nuance Communications, Inc. | Contextual prediction of user words and user actions |
US7712053B2 (en) | 1998-12-04 | 2010-05-04 | Tegic Communications, Inc. | Explicit character filtering of ambiguous text entry |
US7403888B1 (en) * | 1999-11-05 | 2008-07-22 | Microsoft Corporation | Language input user interface |
US6848080B1 (en) | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US7047493B1 (en) * | 2000-03-31 | 2006-05-16 | Brill Eric D | Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction |
WO2001090879A1 (en) * | 2000-05-26 | 2001-11-29 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for displaying information |
US20020007382A1 (en) * | 2000-07-06 | 2002-01-17 | Shinichi Nojima | Computer having character input function,method of carrying out process depending on input characters, and storage medium |
CN1226717C (zh) * | 2000-08-30 | 2005-11-09 | 国际商业机器公司 | 自动新词提取方法和系统 |
US20020078106A1 (en) * | 2000-12-18 | 2002-06-20 | Carew David John | Method and apparatus to spell check displayable text in computer source code |
US7254773B2 (en) * | 2000-12-29 | 2007-08-07 | International Business Machines Corporation | Automated spell analysis |
US6934683B2 (en) * | 2001-01-31 | 2005-08-23 | Microsoft Corporation | Disambiguation language model |
US7013258B1 (en) * | 2001-03-07 | 2006-03-14 | Lenovo (Singapore) Pte. Ltd. | System and method for accelerating Chinese text input |
US7103549B2 (en) * | 2001-03-22 | 2006-09-05 | Intel Corporation | Method for improving speech recognition performance using speaker and channel information |
US7512666B2 (en) * | 2001-04-18 | 2009-03-31 | Yahoo! Inc. | Global network of web card systems and method thereof |
US20060253784A1 (en) * | 2001-05-03 | 2006-11-09 | Bower James M | Multi-tiered safety control system and methods for online communities |
WO2003005166A2 (en) * | 2001-07-03 | 2003-01-16 | University Of Southern California | A syntax-based statistical translation model |
US7613601B2 (en) * | 2001-12-26 | 2009-11-03 | National Institute Of Information And Communications Technology | Method for predicting negative example, system for detecting incorrect wording using negative example prediction |
CN100442275C (zh) * | 2002-01-17 | 2008-12-10 | 戴尔产品有限公司 | 用于鉴别中文地址数据的方法和系统 |
JP4073215B2 (ja) * | 2002-01-28 | 2008-04-09 | 富士通株式会社 | 文字入力装置 |
US7620538B2 (en) * | 2002-03-26 | 2009-11-17 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
JP4333078B2 (ja) * | 2002-04-26 | 2009-09-16 | 株式会社ニコン | 投影光学系、該投影光学系を備えた露光装置および該投影光学系を用いた露光方法並びにデバイス製造方法 |
CA2413055C (en) * | 2002-07-03 | 2006-08-22 | 2012244 Ontario Inc. | Method and system of creating and using chinese language data and user-corrected data |
KR100881000B1 (ko) * | 2002-07-22 | 2009-02-03 | 삼성전자주식회사 | 이동 무선단말기의 문자 입력 방법 |
US20040078189A1 (en) * | 2002-10-18 | 2004-04-22 | Say-Ling Wen | Phonetic identification assisted Chinese input system and method thereof |
US7315982B2 (en) | 2003-02-26 | 2008-01-01 | Xerox Corporation | User-tailorable romanized Chinese text input systems and methods |
US7024360B2 (en) * | 2003-03-17 | 2006-04-04 | Rensselaer Polytechnic Institute | System for reconstruction of symbols in a sequence |
WO2004107202A1 (en) * | 2003-05-28 | 2004-12-09 | Loquendo S.P.A. | Automatic segmentation of texts comprising chunsks without separators |
KR100634496B1 (ko) * | 2003-06-16 | 2006-10-13 | 삼성전자주식회사 | 입력언어모드 인식방법 및 장치와 이를 이용한 입력언어모드 자동전환방법 및 장치 |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7395203B2 (en) * | 2003-07-30 | 2008-07-01 | Tegic Communications, Inc. | System and method for disambiguating phonetic input |
US20050027534A1 (en) * | 2003-07-30 | 2005-02-03 | Meurs Pim Van | Phonetic and stroke input methods of Chinese characters and phrases |
US8543378B1 (en) * | 2003-11-05 | 2013-09-24 | W.W. Grainger, Inc. | System and method for discerning a term for an entry having a spelling error |
US7412385B2 (en) * | 2003-11-12 | 2008-08-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
US20050125218A1 (en) * | 2003-12-04 | 2005-06-09 | Nitendra Rajput | Language modelling for mixed language expressions |
US7587307B2 (en) * | 2003-12-18 | 2009-09-08 | Xerox Corporation | Method and apparatus for evaluating machine translation quality |
US7912159B2 (en) * | 2004-01-26 | 2011-03-22 | Hewlett-Packard Development Company, L.P. | Enhanced denoising system |
US20060184280A1 (en) * | 2005-02-16 | 2006-08-17 | Magnus Oddsson | System and method of synchronizing mechatronic devices |
US8200475B2 (en) | 2004-02-13 | 2012-06-12 | Microsoft Corporation | Phonetic-based text input method |
US7376938B1 (en) * | 2004-03-12 | 2008-05-20 | Steven Van der Hoeven | Method and system for disambiguation and predictive resolution |
US7478033B2 (en) | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
CA2496872C (en) * | 2004-03-17 | 2010-06-08 | America Online, Inc. | Phonetic and stroke input methods of chinese characters and phrases |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
JP4424057B2 (ja) * | 2004-05-10 | 2010-03-03 | 富士ゼロックス株式会社 | 学習装置およびプログラム |
US8095364B2 (en) | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US20050289463A1 (en) * | 2004-06-23 | 2005-12-29 | Google Inc., A Delaware Corporation | Systems and methods for spell correction of non-roman characters and words |
US7502632B2 (en) * | 2004-06-25 | 2009-03-10 | Nokia Corporation | Text messaging device |
US8036893B2 (en) | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
WO2006021973A2 (en) * | 2004-08-23 | 2006-03-02 | Geneva Software Technologies Limited | A system and a method for a sim card based multi-lingual messaging application |
US20060048055A1 (en) * | 2004-08-25 | 2006-03-02 | Jun Wu | Fault-tolerant romanized input method for non-roman characters |
DE112005002534T5 (de) * | 2004-10-12 | 2007-11-08 | University Of Southern California, Los Angeles | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
US7624092B2 (en) * | 2004-11-19 | 2009-11-24 | Sap Aktiengesellschaft | Concept-based content architecture |
JP2006163651A (ja) * | 2004-12-03 | 2006-06-22 | Sony Computer Entertainment Inc | 表示装置、表示装置の制御方法、プログラム及びフォントデータ |
TWI281145B (en) * | 2004-12-10 | 2007-05-11 | Delta Electronics Inc | System and method for transforming text to speech |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
KR20070024771A (ko) * | 2005-08-30 | 2007-03-08 | 엔에이치엔(주) | 질의어 자동변환을 이용한 자동완성 질의어 제공 시스템 및방법 |
CN1928860B (zh) * | 2005-09-05 | 2010-11-10 | 日电(中国)有限公司 | 用于校正按键错误的方法、搜索装置和搜索系统 |
US7908132B2 (en) * | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
KR100643801B1 (ko) * | 2005-10-26 | 2006-11-10 | 엔에이치엔(주) | 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법 |
US7861164B2 (en) * | 2005-11-03 | 2010-12-28 | Bin Qin | Method to sequentially encode PINYIN of Chinese character with few symbols |
US9697231B2 (en) * | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for providing virtual media channels based on media search |
US20070118873A1 (en) * | 2005-11-09 | 2007-05-24 | Bbnt Solutions Llc | Methods and apparatus for merging media content |
US7801910B2 (en) * | 2005-11-09 | 2010-09-21 | Ramp Holdings, Inc. | Method and apparatus for timed tagging of media content |
US20070106646A1 (en) * | 2005-11-09 | 2007-05-10 | Bbnt Solutions Llc | User-directed navigation of multimedia search results |
US10319252B2 (en) * | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US9697230B2 (en) | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications |
US20070106685A1 (en) * | 2005-11-09 | 2007-05-10 | Podzinger Corp. | Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same |
TWI426399B (zh) * | 2005-11-23 | 2014-02-11 | Dun & Bradstreet Corp | 用於搜尋輸入資料及使與儲存資料相匹配的電腦化方法及裝置 |
US8041556B2 (en) * | 2005-12-01 | 2011-10-18 | International Business Machines Corporation | Chinese to english translation tool |
US8176128B1 (en) * | 2005-12-02 | 2012-05-08 | Oracle America, Inc. | Method of selecting character encoding for international e-mail messages |
US7536295B2 (en) * | 2005-12-22 | 2009-05-19 | Xerox Corporation | Machine translation using non-contiguous fragments of text |
KR101265263B1 (ko) * | 2006-01-02 | 2013-05-16 | 삼성전자주식회사 | 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체 |
US20070178918A1 (en) * | 2006-02-02 | 2007-08-02 | Shon Jin H | International messaging system and method for operating the system |
US7831911B2 (en) * | 2006-03-08 | 2010-11-09 | Microsoft Corporation | Spell checking system including a phonetic speller |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US7562811B2 (en) | 2007-01-18 | 2009-07-21 | Varcode Ltd. | System and method for improved quality management in a product logistic chain |
WO2007129316A2 (en) | 2006-05-07 | 2007-11-15 | Varcode Ltd. | A system and method for improved quality management in a product logistic chain |
US7542893B2 (en) * | 2006-05-10 | 2009-06-02 | Xerox Corporation | Machine translation using elastic chunks |
US9020804B2 (en) * | 2006-05-10 | 2015-04-28 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
US7801722B2 (en) * | 2006-05-23 | 2010-09-21 | Microsoft Corporation | Techniques for customization of phonetic schemes |
US7558725B2 (en) * | 2006-05-23 | 2009-07-07 | Lexisnexis, A Division Of Reed Elsevier Inc. | Method and apparatus for multilingual spelling corrections |
US8386232B2 (en) * | 2006-06-01 | 2013-02-26 | Yahoo! Inc. | Predicting results for input data based on a model generated from clusters |
US7565624B2 (en) | 2006-06-30 | 2009-07-21 | Research In Motion Limited | Method of learning character segments during text input, and associated handheld electronic device |
US7665037B2 (en) * | 2006-06-30 | 2010-02-16 | Research In Motion Limited | Method of learning character segments from received text, and associated handheld electronic device |
US8395586B2 (en) * | 2006-06-30 | 2013-03-12 | Research In Motion Limited | Method of learning a context of a segment of text, and associated handheld electronic device |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US7818332B2 (en) * | 2006-08-16 | 2010-10-19 | Microsoft Corporation | Query speller |
US8364468B2 (en) | 2006-09-27 | 2013-01-29 | Academia Sinica | Typing candidate generating method for enhancing typing efficiency |
US8433556B2 (en) * | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
TWI322964B (en) * | 2006-12-06 | 2010-04-01 | Compal Electronics Inc | Method for recognizing character |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8024319B2 (en) * | 2007-01-25 | 2011-09-20 | Microsoft Corporation | Finite-state model for processing web queries |
CN101231636B (zh) * | 2007-01-25 | 2013-09-25 | 北京搜狗科技发展有限公司 | 一种便捷的信息搜索方法、系统及一种输入法系统 |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US20080221866A1 (en) * | 2007-03-06 | 2008-09-11 | Lalitesh Katragadda | Machine Learning For Transliteration |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
CN101271450B (zh) * | 2007-03-19 | 2010-09-29 | 株式会社东芝 | 裁剪语言模型的方法及装置 |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
CN105204617B (zh) * | 2007-04-11 | 2018-12-14 | 谷歌有限责任公司 | 用于输入法编辑器集成的方法和系统 |
WO2008135962A2 (en) | 2007-05-06 | 2008-11-13 | Varcode Ltd. | A system and method for quality management utilizing barcode indicators |
US20080288481A1 (en) * | 2007-05-15 | 2008-11-20 | Microsoft Corporation | Ranking online advertisement using product and seller reputation |
US20080288348A1 (en) * | 2007-05-15 | 2008-11-20 | Microsoft Corporation | Ranking online advertisements using retailer and product reputations |
EG25474A (en) * | 2007-05-21 | 2012-01-11 | Sherikat Link Letatweer Elbarmaguey At Sae | Method for translitering and suggesting arabic replacement for a given user input |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
WO2009016631A2 (en) * | 2007-08-01 | 2009-02-05 | Ginger Software, Inc. | Automatic context sensitive language correction and enhancement using an internet corpus |
US8365071B2 (en) * | 2007-08-31 | 2013-01-29 | Research In Motion Limited | Handheld electronic device and associated method enabling phonetic text input in a text disambiguation environment and outputting an improved lookup window |
US8500014B2 (en) | 2007-11-14 | 2013-08-06 | Varcode Ltd. | System and method for quality management utilizing barcode indicators |
US8010465B2 (en) | 2008-02-26 | 2011-08-30 | Microsoft Corporation | Predicting candidates using input scopes |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8312022B2 (en) | 2008-03-21 | 2012-11-13 | Ramp Holdings, Inc. | Search engine optimization |
EP2120130A1 (en) * | 2008-05-11 | 2009-11-18 | Research in Motion Limited | Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input |
US20090287474A1 (en) * | 2008-05-16 | 2009-11-19 | Yahoo! Inc. | Web embedded language input arrangement |
US20090300126A1 (en) * | 2008-05-30 | 2009-12-03 | International Business Machines Corporation | Message Handling |
US11704526B2 (en) | 2008-06-10 | 2023-07-18 | Varcode Ltd. | Barcoded indicators for quality management |
US8745051B2 (en) * | 2008-07-03 | 2014-06-03 | Google Inc. | Resource locator suggestions from input character sequence |
KR100953043B1 (ko) | 2008-07-09 | 2010-04-14 | 엔에이치엔(주) | 동의어를 이용한 검색 서비스 제공 방법 및 시스템 |
US20100017293A1 (en) * | 2008-07-17 | 2010-01-21 | Language Weaver, Inc. | System, method, and computer program for providing multilingual text advertisments |
US8122353B2 (en) * | 2008-11-07 | 2012-02-21 | Yahoo! Inc. | Composing a message in an online textbox using a non-latin script |
US8224642B2 (en) * | 2008-11-20 | 2012-07-17 | Stratify, Inc. | Automated identification of documents as not belonging to any language |
US8291069B1 (en) * | 2008-12-23 | 2012-10-16 | At&T Intellectual Property I, L.P. | Systems, devices, and/or methods for managing sample selection bias |
CN102439540B (zh) * | 2009-03-19 | 2015-04-08 | 谷歌股份有限公司 | 输入法编辑器 |
CN102439544A (zh) * | 2009-03-20 | 2012-05-02 | 谷歌股份有限公司 | 与输入法编辑器计算设备的交互 |
GB0905457D0 (en) * | 2009-03-30 | 2009-05-13 | Touchtype Ltd | System and method for inputting text into electronic devices |
US9424246B2 (en) | 2009-03-30 | 2016-08-23 | Touchtype Ltd. | System and method for inputting text into electronic devices |
GB201016385D0 (en) * | 2010-09-29 | 2010-11-10 | Touchtype Ltd | System and method for inputting text into electronic devices |
US9189472B2 (en) | 2009-03-30 | 2015-11-17 | Touchtype Limited | System and method for inputting text into small screen devices |
GB0917753D0 (en) | 2009-10-09 | 2009-11-25 | Touchtype Ltd | System and method for inputting text into electronic devices |
US8798983B2 (en) * | 2009-03-30 | 2014-08-05 | Microsoft Corporation | Adaptation for statistical language model |
US10191654B2 (en) | 2009-03-30 | 2019-01-29 | Touchtype Limited | System and method for inputting text into electronic devices |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US7809550B1 (en) * | 2009-10-08 | 2010-10-05 | Joan Barry Barrows | System for reading chinese characters in seconds |
WO2011050494A1 (en) * | 2009-10-29 | 2011-05-05 | Google Inc. | Generating input suggestions |
CN101706689B (zh) * | 2009-11-25 | 2013-03-13 | 福州福昕软件开发有限公司 | 通过方向键进行字符输入的方法和装置 |
EP2531930A1 (en) * | 2010-02-01 | 2012-12-12 | Ginger Software, Inc. | Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices |
EP2537083A1 (en) * | 2010-02-18 | 2012-12-26 | Sulaiman Alkazi | Configurable multilingual keyboard |
US10417646B2 (en) * | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US9552125B2 (en) * | 2010-05-21 | 2017-01-24 | Google Inc. | Input method editor |
US8463592B2 (en) * | 2010-07-27 | 2013-06-11 | International Business Machines Corporation | Mode supporting multiple language input for entering text |
US9081761B1 (en) * | 2010-08-31 | 2015-07-14 | The Mathworks, Inc. | Mistake avoidance and correction suggestions |
EP2439614B1 (en) * | 2010-09-16 | 2018-06-27 | ABB Oy | Frequency converter with text editor |
GB201200643D0 (en) | 2012-01-16 | 2012-02-29 | Touchtype Ltd | System and method for inputting text |
US9465798B2 (en) * | 2010-10-08 | 2016-10-11 | Iq Technology Inc. | Single word and multi-word term integrating system and a method thereof |
US9058105B2 (en) * | 2010-10-31 | 2015-06-16 | International Business Machines Corporation | Automated adjustment of input configuration |
US20120233584A1 (en) * | 2011-03-09 | 2012-09-13 | Nec Laboratories America, Inc. | Analysis of Interactions of C and C++ Strings |
CN102135814B (zh) * | 2011-03-30 | 2017-08-08 | 北京搜狗科技发展有限公司 | 一种字词输入方法及系统 |
CN102156551B (zh) * | 2011-03-30 | 2014-04-23 | 北京搜狗科技发展有限公司 | 一种字词输入的纠错方法及系统 |
US8977535B2 (en) * | 2011-04-06 | 2015-03-10 | Pierre-Henry DE BRUYN | Transliterating methods between character-based and phonetic symbol-based writing systems |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US9552213B2 (en) * | 2011-05-16 | 2017-01-24 | D2L Corporation | Systems and methods for facilitating software interface localization between multiple languages |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
CN102955770B (zh) * | 2011-08-17 | 2017-07-11 | 深圳市世纪光速信息技术有限公司 | 一种拼音自动识别方法及系统 |
US20140358516A1 (en) * | 2011-09-29 | 2014-12-04 | Google Inc. | Real-time, bi-directional translation |
US8725497B2 (en) * | 2011-10-05 | 2014-05-13 | Daniel M. Wang | System and method for detecting and correcting mismatched Chinese character |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
CN103324621B (zh) * | 2012-03-21 | 2017-08-25 | 北京百度网讯科技有限公司 | 一种泰语文本拼写纠正方法及装置 |
US8996356B1 (en) * | 2012-04-10 | 2015-03-31 | Google Inc. | Techniques for predictive input method editors |
US8818791B2 (en) | 2012-04-30 | 2014-08-26 | Google Inc. | Techniques for assisting a user in the textual input of names of entities to a user device in multiple different languages |
US8983211B2 (en) * | 2012-05-14 | 2015-03-17 | Xerox Corporation | Method for processing optical character recognizer output |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US20140078065A1 (en) * | 2012-09-15 | 2014-03-20 | Ahmet Akkok | Predictive Keyboard With Suppressed Keys |
US8807422B2 (en) | 2012-10-22 | 2014-08-19 | Varcode Ltd. | Tamper-proof quality management barcode indicators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
CN103970765B (zh) * | 2013-01-29 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 一种改错模型训练方法、装置和文本改错方法、装置 |
US20140214401A1 (en) | 2013-01-29 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and device for error correction model training and text error correction |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US8990068B2 (en) | 2013-02-08 | 2015-03-24 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
CN104007952A (zh) * | 2013-02-27 | 2014-08-27 | 联想(北京)有限公司 | 一种输入方法、装置及电子设备 |
US9875237B2 (en) * | 2013-03-14 | 2018-01-23 | Microsfot Technology Licensing, Llc | Using human perception in building language understanding models |
US20160078013A1 (en) * | 2013-04-27 | 2016-03-17 | Google Inc. | Fault-tolerant input method editor |
JP6155821B2 (ja) | 2013-05-08 | 2017-07-05 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US20140372856A1 (en) | 2013-06-14 | 2014-12-18 | Microsoft Corporation | Natural Quick Functions Gestures |
US10664652B2 (en) * | 2013-06-15 | 2020-05-26 | Microsoft Technology Licensing, Llc | Seamless grid and canvas integration in a spreadsheet application |
CN105580004A (zh) * | 2013-08-09 | 2016-05-11 | 微软技术许可有限责任公司 | 提供语言帮助的输入方法编辑器 |
US9384191B2 (en) * | 2013-09-25 | 2016-07-05 | International Business Machines Corporation | Written language learning using an enhanced input method editor (IME) |
WO2015042819A1 (en) * | 2013-09-26 | 2015-04-02 | Google Inc. | Context sensitive input tools |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
CN103678560A (zh) * | 2013-12-06 | 2014-03-26 | 乐视网信息技术(北京)股份有限公司 | 多媒体资源纠错检索方法、多媒体资源服务器及系统 |
US9362659B2 (en) * | 2013-12-10 | 2016-06-07 | Delphi Technologies, Inc. | Electrical connector terminal |
CN104808806B (zh) * | 2014-01-28 | 2019-10-25 | 北京三星通信技术研究有限公司 | 根据不确定性信息实现汉字输入的方法和装置 |
US9037967B1 (en) * | 2014-02-18 | 2015-05-19 | King Fahd University Of Petroleum And Minerals | Arabic spell checking technique |
CN103885608A (zh) | 2014-03-19 | 2014-06-25 | 百度在线网络技术(北京)有限公司 | 一种输入方法及系统 |
CN104050255B (zh) * | 2014-06-13 | 2017-10-03 | 上海交通大学 | 基于联合图模型的纠错方法及系统 |
US9524293B2 (en) * | 2014-08-15 | 2016-12-20 | Google Inc. | Techniques for automatically swapping languages and/or content for machine translation |
US9372848B2 (en) | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
KR102167719B1 (ko) * | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
CN107615027B (zh) | 2015-05-18 | 2020-03-27 | 发可有限公司 | 用于可激活质量标签的热致变色墨水标记 |
CA2991275A1 (en) | 2015-07-07 | 2017-01-12 | Varcode Ltd. | Electronic quality indicator |
US9785252B2 (en) * | 2015-07-28 | 2017-10-10 | Fitnii Inc. | Method for inputting multi-language texts |
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
US10592603B2 (en) | 2016-02-03 | 2020-03-17 | International Business Machines Corporation | Identifying logic problems in text using a statistical approach and natural language processing |
US11042702B2 (en) | 2016-02-04 | 2021-06-22 | International Business Machines Corporation | Solving textual logic problems using a statistical approach and natural language processing |
US10268561B2 (en) * | 2016-02-22 | 2019-04-23 | International Business Machines Corporation | User interface error prediction |
GB201610984D0 (en) | 2016-06-23 | 2016-08-10 | Microsoft Technology Licensing Llc | Suppression of input images |
US10318632B2 (en) | 2017-03-14 | 2019-06-11 | Microsoft Technology Licensing, Llc | Multi-lingual data input system |
KR102329127B1 (ko) * | 2017-04-11 | 2021-11-22 | 삼성전자주식회사 | 방언을 표준어로 변환하는 방법 및 장치 |
US10769387B2 (en) | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
US10599645B2 (en) * | 2017-10-06 | 2020-03-24 | Soundhound, Inc. | Bidirectional probabilistic natural language rewriting and selection |
US11423208B1 (en) * | 2017-11-29 | 2022-08-23 | Amazon Technologies, Inc. | Text encoding issue detection |
US10635305B2 (en) * | 2018-02-01 | 2020-04-28 | Microchip Technology Incorporated | Touchscreen user interface with multi-language support |
CN108549637A (zh) * | 2018-04-19 | 2018-09-18 | 京东方科技集团股份有限公司 | 基于拼音的语义识别方法、装置以及人机对话系统 |
CN109325227A (zh) | 2018-09-14 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于生成修正语句的方法和装置 |
CN109831543B (zh) * | 2018-12-13 | 2021-08-24 | 山东亚华电子股份有限公司 | 一种组网方法、医疗通信设备和医疗分机 |
CN112328737B (zh) * | 2019-07-17 | 2023-05-05 | 北方工业大学 | 一种拼写数据的生成方法 |
CN110415679B (zh) * | 2019-07-25 | 2021-12-17 | 北京百度网讯科技有限公司 | 语音纠错方法、装置、设备和存储介质 |
US11328712B2 (en) * | 2019-08-02 | 2022-05-10 | International Business Machines Corporation | Domain specific correction of output from automatic speech recognition |
CN110633461B (zh) * | 2019-09-10 | 2024-01-16 | 北京百度网讯科技有限公司 | 文档检测处理方法、装置、电子设备和存储介质 |
CN113553832B (zh) * | 2020-04-23 | 2024-07-23 | 阿里巴巴集团控股有限公司 | 文字处理方法和装置、电子设备以及计算机可读存储介质 |
CN113763961B (zh) * | 2020-06-02 | 2024-04-09 | 阿里巴巴集团控股有限公司 | 一种文本处理方法及装置 |
CN112464650A (zh) * | 2020-11-12 | 2021-03-09 | 创新工场(北京)企业管理股份有限公司 | 一种文本纠错方法和装置 |
JP2022096311A (ja) * | 2020-12-17 | 2022-06-29 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
US12086542B2 (en) * | 2021-04-06 | 2024-09-10 | Talent Unlimited Online Services Private Limited | System and method for generating contextualized text using a character-based convolutional neural network architecture |
Family Cites Families (83)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3435124A (en) | 1966-02-07 | 1969-03-25 | William H Channell | Pedestal and underground terminals for buried cable systems |
US4383307A (en) | 1981-05-04 | 1983-05-10 | Software Concepts, Inc. | Spelling error detector apparatus and methods |
JPS6097426A (ja) | 1983-10-31 | 1985-05-31 | Ricoh Co Ltd | 日本語入力装置 |
GB2158776A (en) | 1984-02-24 | 1985-11-20 | Chang Chi Chen | Method of computerised input of Chinese words in keyboards |
JPH0664585B2 (ja) * | 1984-12-25 | 1994-08-22 | 株式会社東芝 | 翻訳編集装置 |
CA1251570A (en) * | 1985-05-14 | 1989-03-21 | Kouji Miyao | Bilingual translation system with self intelligence |
US5175803A (en) | 1985-06-14 | 1992-12-29 | Yeh Victor C | Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language |
US5384701A (en) * | 1986-10-03 | 1995-01-24 | British Telecommunications Public Limited Company | Language translation system |
US4833610A (en) | 1986-12-16 | 1989-05-23 | International Business Machines Corporation | Morphological/phonetic method for ranking word similarities |
US4864503A (en) * | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
JPH01193968A (ja) | 1988-01-28 | 1989-08-03 | Ricoh Co Ltd | 文字処理装置 |
US5218536A (en) | 1988-05-25 | 1993-06-08 | Franklin Electronic Publishers, Incorporated | Electronic spelling machine having ordered candidate words |
JPH02140868A (ja) | 1988-11-22 | 1990-05-30 | Toshiba Corp | 機械翻訳システム |
JPH0330048A (ja) | 1989-06-28 | 1991-02-08 | Matsushita Electric Ind Co Ltd | 文字入力装置 |
US5095432A (en) | 1989-07-10 | 1992-03-10 | Harris Corporation | Data processing system implemented process and compiling technique for performing context-free parsing algorithm based on register vector grammar |
US5258909A (en) | 1989-08-31 | 1993-11-02 | International Business Machines Corporation | Method and apparatus for "wrong word" spelling error detection and correction |
US5278943A (en) | 1990-03-23 | 1994-01-11 | Bright Star Technology, Inc. | Speech animation and inflection system |
US5572423A (en) * | 1990-06-14 | 1996-11-05 | Lucent Technologies Inc. | Method for correcting spelling using error frequencies |
JPH0475162A (ja) * | 1990-07-18 | 1992-03-10 | Toshiba Corp | 仮名漢字変換装置 |
JPH0485660A (ja) * | 1990-07-30 | 1992-03-18 | Matsushita Electric Ind Co Ltd | 入力誤り自動訂正装置 |
US5270927A (en) | 1990-09-10 | 1993-12-14 | At&T Bell Laboratories | Method for conversion of phonetic Chinese to character Chinese |
JPH04167051A (ja) | 1990-10-31 | 1992-06-15 | Toshiba Corp | 文書編集方法及び装置 |
TW268115B (ja) | 1991-10-14 | 1996-01-11 | Omron Tateisi Electronics Co | |
JPH05108647A (ja) | 1991-10-14 | 1993-04-30 | Omron Corp | 漢字変換装置 |
US5267345A (en) | 1992-02-10 | 1993-11-30 | International Business Machines Corporation | Speech recognition apparatus which predicts word classes from context and words from word classes |
US5459739A (en) | 1992-03-18 | 1995-10-17 | Oclc Online Computer Library Center, Incorporated | Merging three optical character recognition outputs for improved precision using a minimum edit distance function |
JPH05282360A (ja) * | 1992-03-31 | 1993-10-29 | Hitachi Ltd | 多国語入力装置 |
US5535119A (en) | 1992-06-11 | 1996-07-09 | Hitachi, Ltd. | Character inputting method allowing input of a plurality of different types of character species, and information processing equipment adopting the same |
JPH0689302A (ja) * | 1992-09-08 | 1994-03-29 | Hitachi Ltd | 辞書メモリ |
US5675815A (en) | 1992-11-09 | 1997-10-07 | Ricoh Company, Ltd. | Language conversion system and text creating system using such |
US5568383A (en) * | 1992-11-30 | 1996-10-22 | International Business Machines Corporation | Natural language translation system and document transmission network with translation loss information and restrictions |
US5671426A (en) | 1993-06-22 | 1997-09-23 | Kurzweil Applied Intelligence, Inc. | Method for organizing incremental search dictionary |
DE4323241A1 (de) | 1993-07-12 | 1995-02-02 | Ibm | Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text |
JPH0736878A (ja) | 1993-07-23 | 1995-02-07 | Sharp Corp | 同音異義語選択装置 |
JP3351039B2 (ja) | 1993-08-17 | 2002-11-25 | ソニー株式会社 | 情報処理装置および方法 |
WO1995017729A1 (en) | 1993-12-22 | 1995-06-29 | Taligent, Inc. | Input methods framework |
US5930755A (en) | 1994-03-11 | 1999-07-27 | Apple Computer, Inc. | Utilization of a recorded sound sample as a voice source in a speech synthesizer |
US5704007A (en) | 1994-03-11 | 1997-12-30 | Apple Computer, Inc. | Utilization of multiple voice sources in a speech synthesizer |
US6154758A (en) | 1994-05-13 | 2000-11-28 | Apple Computer, Inc. | Text conversion method for computer systems |
US5521816A (en) * | 1994-06-01 | 1996-05-28 | Mitsubishi Electric Research Laboratories, Inc. | Word inflection correction system |
US5510998A (en) | 1994-06-13 | 1996-04-23 | Cadence Design Systems, Inc. | System and method for generating component models |
JP2773652B2 (ja) * | 1994-08-04 | 1998-07-09 | 日本電気株式会社 | 機械翻訳装置 |
JPH0877173A (ja) | 1994-09-01 | 1996-03-22 | Fujitsu Ltd | 文字列修正システムとその方法 |
WO1996010795A1 (en) | 1994-10-03 | 1996-04-11 | Helfgott & Karas, P.C. | A database accessing system |
SG42314A1 (en) | 1995-01-30 | 1997-08-15 | Mitsubishi Electric Corp | Language processing apparatus and method |
CA2170669A1 (en) | 1995-03-24 | 1996-09-25 | Fernando Carlos Neves Pereira | Grapheme-to phoneme conversion with weighted finite-state transducers |
US5774588A (en) | 1995-06-07 | 1998-06-30 | United Parcel Service Of America, Inc. | Method and system for comparing strings with entries of a lexicon |
US5893133A (en) * | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
JPH0962672A (ja) * | 1995-08-29 | 1997-03-07 | Niigata Nippon Denki Software Kk | 日本語入力装置 |
US5806021A (en) | 1995-10-30 | 1998-09-08 | International Business Machines Corporation | Automatic segmentation of continuous text using statistical approaches |
US6356886B1 (en) * | 1995-11-30 | 2002-03-12 | Electronic Data Systems Corporation | Apparatus and method for communicating with a knowledge base |
US5875443A (en) * | 1996-01-30 | 1999-02-23 | Sun Microsystems, Inc. | Internet-based spelling checker dictionary system with automatic updating |
JPH09259126A (ja) * | 1996-03-21 | 1997-10-03 | Sharp Corp | データ処理装置 |
US5933525A (en) | 1996-04-10 | 1999-08-03 | Bbn Corporation | Language-independent and segmentation-free optical character recognition system and method |
US6161083A (en) * | 1996-05-02 | 2000-12-12 | Sony Corporation | Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation |
US5987403A (en) | 1996-05-29 | 1999-11-16 | Sugimura; Ryoichi | Document conversion apparatus for carrying out a natural conversion |
US5956739A (en) * | 1996-06-25 | 1999-09-21 | Mitsubishi Electric Information Technology Center America, Inc. | System for text correction adaptive to the text being corrected |
US6085162A (en) * | 1996-10-18 | 2000-07-04 | Gedanken Corporation | Translation system and method in which words are translated by a specialized dictionary and then a general dictionary |
US5907705A (en) | 1996-10-31 | 1999-05-25 | Sun Microsystems, Inc. | Computer implemented request to integrate (RTI) system for managing change control in software release stream |
JP2806452B2 (ja) * | 1996-12-19 | 1998-09-30 | オムロン株式会社 | かな漢字変換装置および方法、並びに記録媒体 |
CN1193779A (zh) * | 1997-03-13 | 1998-09-23 | 国际商业机器公司 | 中文语句分词方法及其在中文查错系统中的应用 |
TW421750B (en) * | 1997-03-14 | 2001-02-11 | Omron Tateisi Electronics Co | Language identification device, language identification method and storage media recorded with program of language identification |
US6047300A (en) | 1997-05-15 | 2000-04-04 | Microsoft Corporation | System and method for automatically correcting a misspelled word |
JPH113338A (ja) | 1997-06-11 | 1999-01-06 | Toshiba Corp | 多言語入力システム、多言語入力方法及び多言語入力プログラムを記録した記録媒体 |
JP3548747B2 (ja) * | 1997-06-17 | 2004-07-28 | オムロン株式会社 | 記録媒体および文字入力装置 |
US5974413A (en) | 1997-07-03 | 1999-10-26 | Activeword Systems, Inc. | Semantic user interface |
CA2242065C (en) | 1997-07-03 | 2004-12-14 | Henry C.A. Hyde-Thomson | Unified messaging system with automatic language identification for text-to-speech conversion |
JPH1196141A (ja) | 1997-09-18 | 1999-04-09 | Toshiba Corp | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 |
JPH11175518A (ja) | 1997-12-11 | 1999-07-02 | Omron Corp | 文字列入力装置、文字列入力方法および文字列入力プログラムを記録したプログラム記録媒体 |
US6131102A (en) | 1998-06-15 | 2000-10-10 | Microsoft Corporation | Method and system for cost computation of spelling suggestions and automatic replacement |
US6490563B2 (en) | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
US7191393B1 (en) * | 1998-09-25 | 2007-03-13 | International Business Machines Corporation | Interface for providing different-language versions of markup-language resources |
US6356866B1 (en) * | 1998-10-07 | 2002-03-12 | Microsoft Corporation | Method for converting a phonetic character string into the text of an Asian language |
US6148285A (en) | 1998-10-30 | 2000-11-14 | Nortel Networks Corporation | Allophonic text-to-speech generator |
KR100749289B1 (ko) * | 1998-11-30 | 2007-08-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 텍스트의 자동 세그멘테이션 방법 및 시스템 |
US6204848B1 (en) | 1999-04-14 | 2001-03-20 | Motorola, Inc. | Data entry apparatus having a limited number of character keys and method |
US6782505B1 (en) | 1999-04-19 | 2004-08-24 | Daniel P. Miranker | Method and system for generating structured data from semi-structured data sources |
US6401065B1 (en) | 1999-06-17 | 2002-06-04 | International Business Machines Corporation | Intelligent keyboard interface with use of human language processing |
US6848080B1 (en) * | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US6573844B1 (en) * | 2000-01-18 | 2003-06-03 | Microsoft Corporation | Predictive keyboard |
US6646572B1 (en) * | 2000-02-18 | 2003-11-11 | Mitsubish Electric Research Laboratories, Inc. | Method for designing optimal single pointer predictive keyboards and apparatus therefore |
US7047493B1 (en) | 2000-03-31 | 2006-05-16 | Brill Eric D | Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction |
US7076731B2 (en) | 2001-06-02 | 2006-07-11 | Microsoft Corporation | Spelling correction system and method for phrasal strings using dictionary looping |
-
2000
- 2000-06-28 US US09/606,660 patent/US6848080B1/en not_active Expired - Fee Related
- 2000-10-13 JP JP2001536716A patent/JP5535417B2/ja not_active Expired - Fee Related
- 2000-10-13 CN CNB008152934A patent/CN1205572C/zh not_active Expired - Fee Related
- 2000-10-13 WO PCT/US2000/028486 patent/WO2001035250A2/en active Application Filing
- 2000-10-13 AU AU10868/01A patent/AU1086801A/en not_active Abandoned
-
2003
- 2003-04-10 HK HK03102606A patent/HK1050411A1/xx not_active IP Right Cessation
-
2004
- 2004-09-27 US US10/951,307 patent/US7424675B2/en not_active Expired - Fee Related
- 2004-10-21 US US10/970,438 patent/US7302640B2/en not_active Expired - Fee Related
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003514304A5 (ja) | ||
JP5535417B2 (ja) | スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ | |
JP4833476B2 (ja) | モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ | |
Abandah et al. | Automatic diacritization of Arabic text using recurrent neural networks | |
JP5997217B2 (ja) | 言語変換において複数の読み方の曖昧性を除去する方法 | |
US9471566B1 (en) | Method and apparatus for converting phonetic language input to written language output | |
JP2013117978A (ja) | タイピング効率向上のためのタイピング候補の生成方法 | |
KR20120006489A (ko) | 입력 방법 편집기 | |
WO2008134208A1 (en) | Recognition architecture for generating asian characters | |
Alkanhal et al. | Automatic stochastic arabic spelling correction with emphasis on space insertions and deletions | |
Roy et al. | Unsupervised context-sensitive bangla spelling correction with character n-gram | |
Nugues | Language Processing with Perl and Prolog | |
Sharma et al. | Word prediction system for text entry in Hindi | |
UzZaman et al. | A comprehensive bangla spelling checker | |
JP4084515B2 (ja) | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 | |
Liang et al. | An efficient error correction interface for speech recognition on mobile touchscreen devices | |
Cissé et al. | Automatic Spell Checker and Correction for Under-represented Spoken Languages: Case Study on Wolof | |
JP2008059389A (ja) | 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム | |
Mahar et al. | Probabilistic analysis of sindhi word prediction using N-Grams | |
Islam et al. | A context-sensitive approach to find optimum language model for automatic Bangla spelling correction | |
ASAHIAH et al. | A survey of diacritic restoration in abjad and alphabet writing systems | |
Wasala et al. | A data-driven approach to checking and correcting spelling errors in sinhala | |
Sharma | Assigning the correct word class to Punjabi unknown words using CRF | |
Abdussaitova et al. | Normalization of Kazakh Texts | |
JP3285149B2 (ja) | 外国語電子辞書検索方法及び装置 |