JP2003514304A5 - - Google Patents

Download PDF

Info

Publication number
JP2003514304A5
JP2003514304A5 JP2001536716A JP2001536716A JP2003514304A5 JP 2003514304 A5 JP2003514304 A5 JP 2003514304A5 JP 2001536716 A JP2001536716 A JP 2001536716A JP 2001536716 A JP2001536716 A JP 2001536716A JP 2003514304 A5 JP2003514304 A5 JP 2003514304A5
Authority
JP
Japan
Prior art keywords
typing
text
probability
model
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001536716A
Other languages
English (en)
Other versions
JP5535417B2 (ja
JP2003514304A (ja
Filing date
Publication date
Priority claimed from US09/606,660 external-priority patent/US6848080B1/en
Application filed filed Critical
Publication of JP2003514304A publication Critical patent/JP2003514304A/ja
Publication of JP2003514304A5 publication Critical patent/JP2003514304A5/ja
Application granted granted Critical
Publication of JP5535417B2 publication Critical patent/JP5535417B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

この最後の理由により、タイピング誤りは、ピンイン入力の文脈ではきわめて厄介なものである。ピンイン文字列は、文字間にスペーシングがないため再検討、訂正が非常に難しい。その代わりに、ピンイン文字は、ピンイン文字で構成される単語の数に関係なく混在する。さらに、ピンイン−漢字変換はすぐに実行されることはないが、追加ピンインを入力するにつれ正しい解釈が定式化され続ける。従って、ユーザが間違ったピンイン記号をタイプした場合、単一の誤りが変換プロセスによって複合され、下流に伝播して、いくつかの追加誤りの原因となる場合がある。その結果、システムが漢字に確定変換しその後ユーザが誤りのあったことに気づくまでに、1回訂正するのにユーザは数回バックスペースを入力せざるをえないため、誤り訂正の時間が長くかかる。システムによっては、元の誤りを明らかにできない場合さえある。
従って、モード切替を必要としない「モードレス」システムが必要なのである。モードを無用とするために、システムは、タイプしている言語を検出し、文字シーケンスを1単語ずつ一方の言語または他方の言語に動的に変換することができなければならない。
例えば、ユーザがピンイン入力テキスト「woshiyigezhongguoren」をタイプすると、システムはこの文字列を中国語文字(一般に「私は中国人である」と翻訳される)に変換する。
(好ましい実施形態の詳細な説明)
本発明は、言語のある形式(例えば、表音バージョン)から言語の別の形式(例えば、書き言葉バージョン)に変換する言語入力システムおよび方法に関連する。このシステムおよび方法は、テキスト入力時に発生するスペルミスおよびタイプミスおよびある言語形式から別の言語形式への変換時に発生する変換誤りに対する誤り耐性がある。説明のため、本発明は、汎用コンピュータで実行される文書処理プログラムの一般的なコンテキスト(context)において説明される。ただし、本発明は、文書処理以外の異なる多くの環境に実装することができ、またさまざまな種類のデバイスで実施することができる。他のコンテキストとしては、電子メールプログラム、表計算ソフト、ブラウザなどを含む。
言語入力システムは、統計的言語モデルを採用して非常に高い精度を達成している。一実施例では、言語入力アーキテクチャは、最高確率ベースの方法による統計的言語モデリング(statistical language modeling)を使用し、自動で、単語をセグメント化し、語彙を選択し、トレーニングデータをフィルタ処理し、可能な最良の変換候補を求める。
センテンスベースの統計的言語モデリング(Statistical sentence−based language modeling)では、ユーザの入力が完全であると仮定している。実際には、ユーザの入力にはタイピング誤りやスペルミスが多数ある。従って、言語入力アーキテクチャは、確率論的スペリングモデルを使用して、ありがちなタイピング誤りやスペルミスを許容しながら正しいタイピングを受け入れる1つまたは複数のタイピングモデルを含む。タイピングモデルを英語や中国語など複数言語についてトレーニングし、どれくらいの確からしさで入力シーケンスがある言語の単語であって別の言語の単語ではないかを識別するようにできる。両方のモデルは並列実行でき、その言語モデル(例えば、中国語モデル)により誘導されて最も可能性の高い文字シーケンス(つまり、英語および中国語の文字)を出力する。
コンピュータシステム100は、I/Oインタフェース106を介して接続された1つまたは複数の周辺装置を備える。例として、周辺装置は、マウス110、キーボード112(例えば、英数字QWERTYキーボード、表音キーボードなど)、ディスプレイモニタ114、プリンタ116、周辺記憶装置118、およびマイクロホン120を備える。例えば、コンピュータシステムは、汎用コンピュータで実装できる。従って、コンピュータシステム100は、メモリ104に格納され、CPU 102で実行されるコンピュータのオペレーティングシステム(図に示されていない)を実装する。オペレーティングシステムは、ウィンドウ操作環境をサポートするマルチタスクオペレーティングシステムであるのが好ましい。適当なオペレーティングシステムの例として、Microsoft Corporation社のWindows(登録商標)ブランドのオペレーティングシステムがある。
説明の目的のために、ワードプロセッサ130は、中国語ベースのワードプロセッサでのコンテキストにおいて説明され、言語入力アーキテクチャ131はピンインを漢字に変換するように構成されている。つまり、表音テキストはピンインであり、言語テキストは漢字である。しかし、言語入力アーキテクチャは、言語と無関係であり、他の言語にも使用できる。例えば、表音テキストは日本語の話し言葉の形態でよいが、言語テキストは漢字などの日本語の書き言葉を表す。他の多くの例としては、アラビア語、韓国語、インド語、その他のアジア言語などを含むが、これに限定されるものではない。
UI 132では、表音テキストを入力と同時に表示する。このUIは、グラフィカルユーザインタフェースであるのが好ましい。
ユーザインタフェース132は、表音テキスト(P)を検索エンジン134に渡し、さらに、これは表音テキストをタイピングモデル135に渡す。タイピングモデル135は、表音テキストに誤りが含まれていると思われる場合にユーザが意図した表音テキストの適当な編集結果と考えられるさまざまなタイピング候補(TC1,...,TCN)を生成する。タイピングモデル135は、妥当な確率が設定されている複数のタイピング候補を検索エンジン134に渡し、さらに、これはタイピング候補を言語モデル136に渡す。この言語モデル136は、センテンス処理中のテキスト文字列(すなわち、context:コンテキスト(文脈))内でタイピング候補を求め、ユーザが意図した表音テキストの変換された形式を表すと考えられる言語テキストで書かれているさまざまな変換候補(CC1,...,CCN)を生成する。変換候補は、タイピング候補と関連付けられている。
検索エンジン134は、タイピングモデル135から返された有望なタイピング候補のリストを言語モデル136に送る。簡単にいうと、言語モデルは、語句やセンテンスなどの指定された文脈内に単語またはテキスト文字列がある確率を測定する。つまり、言語モデルは、項目(単語、文字、英字など)のシーケンスを取り、そのシーケンスの確率を推定することができる。言語モデル136は、検索エンジン134から有望なタイピング候補と前のテキストとを組み合わせ、タイピング候補に対応する言語テキストの1つまたは複数の候補を生成する。
言語入力アーキテクチャ131は、入力テキスト文字列の入力時に生じる誤りを許容し、入力文字列となる単語およびセンテンスで最も確率の高いものを返そうとする。言語モデル136は、タイピングモデル135でユーザが入力した入力文字列に対しどのセンテンスが最も妥当かを判別する際に役立つ。2つのモデルは、辞書から、入力された文字列sが認識可能でかつ有効な単語wである確率P(w|s)として統計的に記述することができる。ベイズの公式を使用すると、確率P(w|s)は次のように記述される。
分母P(s)は、所与の語(w)を比較可能とする目的で、入力文字列(s)が与えられる。したがって、分析は、分子の積P(s|w)・P(w)のみに関係し、確率P(s|w)はスペルまたはタイピングモデルの確率を表し、確率P(w)は言語モデルの確率を表す。より具体的には、タイピングモデルの確率P(s|w)は、単語(w)としてXを入力するつもりの人がどの程度代わりにYを入力することになるかを示す確率を記述する。言語モデルの確率P(w)は、与えられたセンテンスの文脈において特定の単語(w)がどの程度生成されているべきかを示す確率を記述する。
ピンインを漢字に変換するコンテキストにおいては、確率P(w|s)は確率P(H|p)と言い換えることができ、Hは漢字文字列、pはピンイン文字列を表す。目標は、確率P(H|p)を最大にする、最も確率の高い中国語文字H′を見つけることである。従って、確率P(H|p)は、入力されたピンイン文字列pが有効な漢字文字列Hである確率である。pは固定されており、従って、確率P(p)は与えられたピンイン文字列に対し一定であるため、ベイズ公式により、次のように確率P(H|p)が小さくなる。
H′=arg maP(H|p)
=arg maP(p|H)*P(H)
確率P(p|H)はスペルまたはタイピングモデルの確率を表す。通常、漢字文字列Hは、さらに、複数の単語W1,W2,W3,...,WMに分割され、確率P(p|H)は次のように推定できる。
Pr(p|H) ΠP(pf(i)|Wi
従来技術の統計ベースのピンイン−漢字変換システムでは、確率P(pf(i)|Wi)は、Pf(i)が単語Wiの受け入れ可能なスペルである場合に1に設定され、pf(i)が単語Wiの受け入れ可能スペルでない場合に0に設定される。そのため、従来のシステムは、誤って入力された文字に対する耐性がない。一部のシステムでは、「南部訛りの発音」機能があり、このような問題に対応しているが、これはプリセット値確率1および0を採用している。さらに、このようなシステムは、(実際のタイピング誤りから学習する)データ駆動方式でないため、タイピング誤りのうちごくわずかしか扱えない。
対照的に、本発明で説明している言語入力アーキテクチャでは、タイピングモデルと言語モデルの両方を利用して変換を実行する。タイピングモデルでは、実際のコーパスから確率P(p f(i) |W i をトレーニングすることにより誤って入力した文字に対する誤り耐性が可能になっている。タイピングモデルを構築する方法は多数ある。理論的には、すべての可能なP(p f(i) |W i をトレーニングできるが、実際には、パラメータが多すぎる。トレーニングする必要のあるパラメータの個数を減らす1つの方法として、1文字単語のみを考察し、発音が等価なすべての文字を単一の音節に対応づける方法がある。中国語にはおおよそ406個の音節があり、これは本質的にP(ピンインテキスト|音節)をトレーニングし、各文字を対応する音節に対応づけることである。以下では「タイピングモデルのトレーニング」という見出しのもとでこれについて詳述する。
言語入力アーキテクチャ131では、広範な確率が計算される。ピンイン−漢字変換の一目標は、確率P(p|H)を最大にする漢字文字列Hを見つけることである。これは、最大の確率を最良の漢字シーケンスとして求めるWiを選択することにより実行する。実際、よく知られているViterbi Beam検索のような効率的な検索方法を使用できる。Viterbi Beam検索法の詳細については、「Automatic Speech Recognition」(Kluwer Academic Publishers、1989)という表題のKai−Fu Leeの記事、および「Automatic Speech and Speaker Recognition − Advanced Topics」(Kluwer Academic Publishers、1996)という表題のChin−Hui Lee、Frank K.Soong、Kuldip K.Paliwalの記事に記載されている。
確率P(H)は、言語モデルを表し、所与の単語列のアプリオリな確率を測定する。統計的言語モデル構築の一般的な方法として、プレフィックスツリー風のデータ構造を利用して、知られているテキストのトレーニングセットからN重文字言語モデルを構築する方法がある。広く使用されている統計的言語モデルの一実施例として、N重文字マルコフモデルがあり、これについては、Frederick Jelinek著「Statistical Methods for Speech Recognition」(The MIT Press,Cambridge、Massachusetts、1997)に説明がある。プレフィックスツリーデータ構造(a.k.a.サフィックスツリー、またはPATツリー)の使用により、高レベルアプリケーションで言語モデルを素早く実行し、実質的にリアルタイムに実行する特性を持つ。N重文字言語モデルでは、テキスト全体を通して文字列(サイズN)内の特定のアイテム(単語、文字など)の出現数をカウントする。このカウントを使用して、そのアイテムの列の使用の確率を計算する。
言語モデル136は、三重文字言語モデル(つまり、N=3とするN重文字)であるのが好ましいが、状況によっては二重文字が適している場合がある。三重文字言語モデルは、英語に適しており、また中国にも十分機能するが、大きなトレーニングコーパスを利用すると想定している。
P(W1,W2,W3,...,WM)|ΠP(Wn〜Wn-1,Wn-2
(1)
図3は、ユーザによって入力された入力テキスト300の例を示しており、タイピングモデル135および言語モデル136に渡される。入力テキスト300を受け取ると、タイピングモデル135は入力テキスト300を種々の方法でセグメント化し、キーボード入力時に生じる可能性のあるタイプミスを考慮した有望なタイピング候補のリストを生成する。タイピング候補302は、前の単語の終了時刻が現在の単語の開始時刻となるように、各時間フレーム内に異なる複数のセグメンテーション(segmentations)が存在する。例えば、候補302の上行は、入力文字列300「mafangnitryyis...」を「ma」、「fan」、「ni」、「try」、「yi」などにセグメント分割する。タイピング候補302の第2行は、入力文字列「mafangnitryyis...」を異なる形で「ma」、「fang」、「nit」、「yu」、「xia」などにセグメント分割する。
これらの候補から、検索エンジン134は、候補のうちどれがユーザが意図するものである確率が最も高いかを判別する統計分析を実行する。タイピング候補は、各行毎に互いの関連性はなく、検索エンジンはいずれかの行から種々のセグメントを自由に選択し、受け入れ可能な変換候補を定義することができる。図3の例では、検索エンジンは、ハイライト表示になっているタイピング候補304、306、308、310、312、および314が最高の確率であることを示していると判断している。これらの候補は、左から右に連結され、候補304の後に候補306が続くなどして、入力テキスト300の受け入れ可能な解釈を形成することができる。
ステップ402では、ユーザインタフェース132は、ユーザが入力したピンインなどの表音テキスト列を受け取る。入力テキスト文字列には、1つまたは複数のタイプミスが含まれる。UI 132は、エディタ204を介して入力テキストを検索エンジン134に渡し、検索エンジンは入力テキストをタイピングモデル135とセンテンス文脈モデル216に配送する。
有望なタイピング候補が、検索エンジン134に返され、その後、言語モデル136に伝達される。言語モデル136は、有望なタイピング候補と前の入力テキストとを組み合わせ、タイピング候補に対応する言語テキストの1つまたは複数の候補を生成する。例えば、図3の候補302を参照すると、言語モデルはボックス302a−j内に言語テキストを可能な出力テキストとして返す。
タイピングモデルのトレーニング
上で指摘したように、タイピングモデル135は、確率P(s|w)に基づいて処理がなされる。タイピングモデルでは、入力テキストを出力テキストに変換するのに使用できる異なるタイピング候補の確率を計算し、有望な候補を選択する。この方法で、タイピングモデルは、タイピング誤りが存在していても入力テキストの有望なタイピング候補を返すことにより誤りを許容する。
本発明の一態様は、実際のデータからのタイピングモデルP(s|w)のトレーニングに関するものである。タイピングモデルは、数百または好ましくは数千などできる限り多くのトレーナによるテキスト入力に基づいて開発またはトレーニングされる。トレーナは同じまたは異なるトレーニングデータを入力し、入力されたデータとトレーニングデータとの差異をタイピング誤りとして捕らえる。目標は、同じトレーニングテキストをタイプさせ、タイピングでの誤りの個数またはタイピング候補に基づいて確率を求めることである。このようにして、タイピングモデルはトレーナのタイピング誤りの確率を学習する。
タイピングモデル135をトレーニングするためにさまざまな手法を使用できる。一方法では、タイピングモデルは、単一文字テキストについて、すべての同等な発音の文字テキストを単一音節に対応付けることにより直接トレーニングされる。例えば、中国語ピンインには400を超える音節がある。音節を与える表音テキストの確率(例えば、P(ピンインテキスト|音節)をトレーニングし、各文字テキストを対応する音節に対応付ける。
図6は、音節対応付けトレーニング手法600を示している。ステップ602で、トレーニングプログラム508は、トレーナが入力したテキスト文字列を読みとる。テキスト文字列は、センテンスでも、また単語および/または文字のその他のグループでもよい。プログラム508は、音節をテキストの文字列内の対応する英字に合わせるか、または対応付ける(ステップ604)。各テキスト文字列では、各音節に対応付けた英字の頻度が更新される(ステップ606)。これは、ステップ608から「はい」分岐で表されているように、トレーナにより入力されたトレーニングデータに含まれるテキスト文字列ごとに繰り返される。最終的に、入力されたテキスト文字列は、中国語ピンインの多くのまたはすべての音節を表す。ステップ608から「いいえ」分岐により表されるように、すべての文字列が読み込まれたら、トレーニングプログラムは、ユーザが各音節をタイピングする確率P(ピンインテキスト|音節)を決定する(ステップ610)。一実装では、そのタイピングする確率P(ピンインテキスト|音節)は、すべての音節を最初に正規化して決定される。
さらに他のトレーニング手法では、トレーニングは英字の挿入(φ→x)
英字の削除(x→φ)
および一方の文字を他方に置換(x→y)
H′=arg maP(H|p)
=arg maP(p|H)*P(H)
目的関数は、英語ではスペルモデルP(p|H)、中国語では言語モデルP(H)の2つの部分があることで特徴付けることができる。
多言語変換を説明するために、ユーザが「私はINTERNETマガジンを読むのが好きだ」という意味のテキスト文字列「woaiduinternetzazhi」を入力すると仮定する。初期文字列「woaidu」を受け取った後、中国語タイピングモデルは、英語タイピングモデルよりも高い確率となり、入力テキストのその部分を「INTERNET」に変換する。このアーキテクチャは、続いてタイプした曖昧な部分「interne」を英字「t」がタイプされるまで探し続ける。このときに、英語タイピングモデルは、「INTERNET」について中国語タイピングモデルよりも高い確率を返し、言語入力アーキテクチャは入力テキストのこの部分を「INTERNET」に変換する。次に、中国語タイピングモデルは、「zazhi」について英語タイピングモデルよりも高い確率を示し、言語入力アーキテクチャは入力テキストのその部分について変換する。
タイピングモデルはそれぞれ、ステップ804(1)〜804(N)によって表されるような入力テキストに基づいて有望なタイピング候補を生成する。ステップ806では、妥当な確率が設定された有望なタイピング候補が検索エンジン134に返される。ステップ808では、検索エンジン134がタイピング確率とともにタイピング候補を言語モデル136に送る。ステップ810では、言語モデルが有望なタイピング候補と前の入力テキストとを組み合わせることによってセンテンスベースの文脈を提供し、図3に示したように、複数のタイピング候補を通じてセグメント経路を選択することによりタイピング候補に対応する言語テキストの1つまたは複数の変換候補を生成する。ステップ812では、検索エンジン134は統計分析を実行して、ユーザが意図する最高の確率を示す変換候補を選択する。
JP2001536716A 1999-11-05 2000-10-13 スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ Expired - Fee Related JP5535417B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US16390299P 1999-11-05 1999-11-05
US60/163,902 1999-11-05
US09/606,660 2000-06-28
US09/606,660 US6848080B1 (en) 1999-11-05 2000-06-28 Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
PCT/US2000/028486 WO2001035250A2 (en) 1999-11-05 2000-10-13 Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors

Publications (3)

Publication Number Publication Date
JP2003514304A JP2003514304A (ja) 2003-04-15
JP2003514304A5 true JP2003514304A5 (ja) 2013-10-10
JP5535417B2 JP5535417B2 (ja) 2014-07-02

Family

ID=26860054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001536716A Expired - Fee Related JP5535417B2 (ja) 1999-11-05 2000-10-13 スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ

Country Status (6)

Country Link
US (3) US6848080B1 (ja)
JP (1) JP5535417B2 (ja)
CN (1) CN1205572C (ja)
AU (1) AU1086801A (ja)
HK (1) HK1050411A1 (ja)
WO (1) WO2001035250A2 (ja)

Families Citing this family (223)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143616A (ja) * 1997-11-10 1999-05-28 Sega Enterp Ltd 文字通信装置
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7047493B1 (en) * 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
WO2001090879A1 (en) * 2000-05-26 2001-11-29 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for displaying information
US20020007382A1 (en) * 2000-07-06 2002-01-17 Shinichi Nojima Computer having character input function,method of carrying out process depending on input characters, and storage medium
CN1226717C (zh) * 2000-08-30 2005-11-09 国际商业机器公司 自动新词提取方法和系统
US20020078106A1 (en) * 2000-12-18 2002-06-20 Carew David John Method and apparatus to spell check displayable text in computer source code
US7254773B2 (en) * 2000-12-29 2007-08-07 International Business Machines Corporation Automated spell analysis
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
US7013258B1 (en) * 2001-03-07 2006-03-14 Lenovo (Singapore) Pte. Ltd. System and method for accelerating Chinese text input
US7103549B2 (en) * 2001-03-22 2006-09-05 Intel Corporation Method for improving speech recognition performance using speaker and channel information
US7512666B2 (en) * 2001-04-18 2009-03-31 Yahoo! Inc. Global network of web card systems and method thereof
US20060253784A1 (en) * 2001-05-03 2006-11-09 Bower James M Multi-tiered safety control system and methods for online communities
WO2003005166A2 (en) * 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
CN100442275C (zh) * 2002-01-17 2008-12-10 戴尔产品有限公司 用于鉴别中文地址数据的方法和系统
JP4073215B2 (ja) * 2002-01-28 2008-04-09 富士通株式会社 文字入力装置
US7620538B2 (en) * 2002-03-26 2009-11-17 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
JP4333078B2 (ja) * 2002-04-26 2009-09-16 株式会社ニコン 投影光学系、該投影光学系を備えた露光装置および該投影光学系を用いた露光方法並びにデバイス製造方法
CA2413055C (en) * 2002-07-03 2006-08-22 2012244 Ontario Inc. Method and system of creating and using chinese language data and user-corrected data
KR100881000B1 (ko) * 2002-07-22 2009-02-03 삼성전자주식회사 이동 무선단말기의 문자 입력 방법
US20040078189A1 (en) * 2002-10-18 2004-04-22 Say-Ling Wen Phonetic identification assisted Chinese input system and method thereof
US7315982B2 (en) 2003-02-26 2008-01-01 Xerox Corporation User-tailorable romanized Chinese text input systems and methods
US7024360B2 (en) * 2003-03-17 2006-04-04 Rensselaer Polytechnic Institute System for reconstruction of symbols in a sequence
WO2004107202A1 (en) * 2003-05-28 2004-12-09 Loquendo S.P.A. Automatic segmentation of texts comprising chunsks without separators
KR100634496B1 (ko) * 2003-06-16 2006-10-13 삼성전자주식회사 입력언어모드 인식방법 및 장치와 이를 이용한 입력언어모드 자동전환방법 및 장치
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US20050027534A1 (en) * 2003-07-30 2005-02-03 Meurs Pim Van Phonetic and stroke input methods of Chinese characters and phrases
US8543378B1 (en) * 2003-11-05 2013-09-24 W.W. Grainger, Inc. System and method for discerning a term for an entry having a spelling error
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US20050125218A1 (en) * 2003-12-04 2005-06-09 Nitendra Rajput Language modelling for mixed language expressions
US7587307B2 (en) * 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
US7912159B2 (en) * 2004-01-26 2011-03-22 Hewlett-Packard Development Company, L.P. Enhanced denoising system
US20060184280A1 (en) * 2005-02-16 2006-08-17 Magnus Oddsson System and method of synchronizing mechatronic devices
US8200475B2 (en) 2004-02-13 2012-06-12 Microsoft Corporation Phonetic-based text input method
US7376938B1 (en) * 2004-03-12 2008-05-20 Steven Van der Hoeven Method and system for disambiguation and predictive resolution
US7478033B2 (en) 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
CA2496872C (en) * 2004-03-17 2010-06-08 America Online, Inc. Phonetic and stroke input methods of chinese characters and phrases
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
JP4424057B2 (ja) * 2004-05-10 2010-03-03 富士ゼロックス株式会社 学習装置およびプログラム
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US20050289463A1 (en) * 2004-06-23 2005-12-29 Google Inc., A Delaware Corporation Systems and methods for spell correction of non-roman characters and words
US7502632B2 (en) * 2004-06-25 2009-03-10 Nokia Corporation Text messaging device
US8036893B2 (en) 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
WO2006021973A2 (en) * 2004-08-23 2006-03-02 Geneva Software Technologies Limited A system and a method for a sim card based multi-lingual messaging application
US20060048055A1 (en) * 2004-08-25 2006-03-02 Jun Wu Fault-tolerant romanized input method for non-roman characters
DE112005002534T5 (de) * 2004-10-12 2007-11-08 University Of Southern California, Los Angeles Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
US7624092B2 (en) * 2004-11-19 2009-11-24 Sap Aktiengesellschaft Concept-based content architecture
JP2006163651A (ja) * 2004-12-03 2006-06-22 Sony Computer Entertainment Inc 表示装置、表示装置の制御方法、プログラム及びフォントデータ
TWI281145B (en) * 2004-12-10 2007-05-11 Delta Electronics Inc System and method for transforming text to speech
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
KR20070024771A (ko) * 2005-08-30 2007-03-08 엔에이치엔(주) 질의어 자동변환을 이용한 자동완성 질의어 제공 시스템 및방법
CN1928860B (zh) * 2005-09-05 2010-11-10 日电(中国)有限公司 用于校正按键错误的方法、搜索装置和搜索系统
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
KR100643801B1 (ko) * 2005-10-26 2006-11-10 엔에이치엔(주) 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법
US7861164B2 (en) * 2005-11-03 2010-12-28 Bin Qin Method to sequentially encode PINYIN of Chinese character with few symbols
US9697231B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for providing virtual media channels based on media search
US20070118873A1 (en) * 2005-11-09 2007-05-24 Bbnt Solutions Llc Methods and apparatus for merging media content
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US20070106646A1 (en) * 2005-11-09 2007-05-10 Bbnt Solutions Llc User-directed navigation of multimedia search results
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US9697230B2 (en) 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
TWI426399B (zh) * 2005-11-23 2014-02-11 Dun & Bradstreet Corp 用於搜尋輸入資料及使與儲存資料相匹配的電腦化方法及裝置
US8041556B2 (en) * 2005-12-01 2011-10-18 International Business Machines Corporation Chinese to english translation tool
US8176128B1 (en) * 2005-12-02 2012-05-08 Oracle America, Inc. Method of selecting character encoding for international e-mail messages
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
KR101265263B1 (ko) * 2006-01-02 2013-05-16 삼성전자주식회사 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체
US20070178918A1 (en) * 2006-02-02 2007-08-02 Shon Jin H International messaging system and method for operating the system
US7831911B2 (en) * 2006-03-08 2010-11-09 Microsoft Corporation Spell checking system including a phonetic speller
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
WO2007129316A2 (en) 2006-05-07 2007-11-15 Varcode Ltd. A system and method for improved quality management in a product logistic chain
US7542893B2 (en) * 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7801722B2 (en) * 2006-05-23 2010-09-21 Microsoft Corporation Techniques for customization of phonetic schemes
US7558725B2 (en) * 2006-05-23 2009-07-07 Lexisnexis, A Division Of Reed Elsevier Inc. Method and apparatus for multilingual spelling corrections
US8386232B2 (en) * 2006-06-01 2013-02-26 Yahoo! Inc. Predicting results for input data based on a model generated from clusters
US7565624B2 (en) 2006-06-30 2009-07-21 Research In Motion Limited Method of learning character segments during text input, and associated handheld electronic device
US7665037B2 (en) * 2006-06-30 2010-02-16 Research In Motion Limited Method of learning character segments from received text, and associated handheld electronic device
US8395586B2 (en) * 2006-06-30 2013-03-12 Research In Motion Limited Method of learning a context of a segment of text, and associated handheld electronic device
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US7818332B2 (en) * 2006-08-16 2010-10-19 Microsoft Corporation Query speller
US8364468B2 (en) 2006-09-27 2013-01-29 Academia Sinica Typing candidate generating method for enhancing typing efficiency
US8433556B2 (en) * 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
TWI322964B (en) * 2006-12-06 2010-04-01 Compal Electronics Inc Method for recognizing character
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8024319B2 (en) * 2007-01-25 2011-09-20 Microsoft Corporation Finite-state model for processing web queries
CN101231636B (zh) * 2007-01-25 2013-09-25 北京搜狗科技发展有限公司 一种便捷的信息搜索方法、系统及一种输入法系统
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
CN101271450B (zh) * 2007-03-19 2010-09-29 株式会社东芝 裁剪语言模型的方法及装置
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
CN105204617B (zh) * 2007-04-11 2018-12-14 谷歌有限责任公司 用于输入法编辑器集成的方法和系统
WO2008135962A2 (en) 2007-05-06 2008-11-13 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US20080288481A1 (en) * 2007-05-15 2008-11-20 Microsoft Corporation Ranking online advertisement using product and seller reputation
US20080288348A1 (en) * 2007-05-15 2008-11-20 Microsoft Corporation Ranking online advertisements using retailer and product reputations
EG25474A (en) * 2007-05-21 2012-01-11 Sherikat Link Letatweer Elbarmaguey At Sae Method for translitering and suggesting arabic replacement for a given user input
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
WO2009016631A2 (en) * 2007-08-01 2009-02-05 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
US8365071B2 (en) * 2007-08-31 2013-01-29 Research In Motion Limited Handheld electronic device and associated method enabling phonetic text input in a text disambiguation environment and outputting an improved lookup window
US8500014B2 (en) 2007-11-14 2013-08-06 Varcode Ltd. System and method for quality management utilizing barcode indicators
US8010465B2 (en) 2008-02-26 2011-08-30 Microsoft Corporation Predicting candidates using input scopes
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8312022B2 (en) 2008-03-21 2012-11-13 Ramp Holdings, Inc. Search engine optimization
EP2120130A1 (en) * 2008-05-11 2009-11-18 Research in Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
US20090287474A1 (en) * 2008-05-16 2009-11-19 Yahoo! Inc. Web embedded language input arrangement
US20090300126A1 (en) * 2008-05-30 2009-12-03 International Business Machines Corporation Message Handling
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
US8745051B2 (en) * 2008-07-03 2014-06-03 Google Inc. Resource locator suggestions from input character sequence
KR100953043B1 (ko) 2008-07-09 2010-04-14 엔에이치엔(주) 동의어를 이용한 검색 서비스 제공 방법 및 시스템
US20100017293A1 (en) * 2008-07-17 2010-01-21 Language Weaver, Inc. System, method, and computer program for providing multilingual text advertisments
US8122353B2 (en) * 2008-11-07 2012-02-21 Yahoo! Inc. Composing a message in an online textbox using a non-latin script
US8224642B2 (en) * 2008-11-20 2012-07-17 Stratify, Inc. Automated identification of documents as not belonging to any language
US8291069B1 (en) * 2008-12-23 2012-10-16 At&T Intellectual Property I, L.P. Systems, devices, and/or methods for managing sample selection bias
CN102439540B (zh) * 2009-03-19 2015-04-08 谷歌股份有限公司 输入法编辑器
CN102439544A (zh) * 2009-03-20 2012-05-02 谷歌股份有限公司 与输入法编辑器计算设备的交互
GB0905457D0 (en) * 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB201016385D0 (en) * 2010-09-29 2010-11-10 Touchtype Ltd System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US7809550B1 (en) * 2009-10-08 2010-10-05 Joan Barry Barrows System for reading chinese characters in seconds
WO2011050494A1 (en) * 2009-10-29 2011-05-05 Google Inc. Generating input suggestions
CN101706689B (zh) * 2009-11-25 2013-03-13 福州福昕软件开发有限公司 通过方向键进行字符输入的方法和装置
EP2531930A1 (en) * 2010-02-01 2012-12-12 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
EP2537083A1 (en) * 2010-02-18 2012-12-26 Sulaiman Alkazi Configurable multilingual keyboard
US10417646B2 (en) * 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9552125B2 (en) * 2010-05-21 2017-01-24 Google Inc. Input method editor
US8463592B2 (en) * 2010-07-27 2013-06-11 International Business Machines Corporation Mode supporting multiple language input for entering text
US9081761B1 (en) * 2010-08-31 2015-07-14 The Mathworks, Inc. Mistake avoidance and correction suggestions
EP2439614B1 (en) * 2010-09-16 2018-06-27 ABB Oy Frequency converter with text editor
GB201200643D0 (en) 2012-01-16 2012-02-29 Touchtype Ltd System and method for inputting text
US9465798B2 (en) * 2010-10-08 2016-10-11 Iq Technology Inc. Single word and multi-word term integrating system and a method thereof
US9058105B2 (en) * 2010-10-31 2015-06-16 International Business Machines Corporation Automated adjustment of input configuration
US20120233584A1 (en) * 2011-03-09 2012-09-13 Nec Laboratories America, Inc. Analysis of Interactions of C and C++ Strings
CN102135814B (zh) * 2011-03-30 2017-08-08 北京搜狗科技发展有限公司 一种字词输入方法及系统
CN102156551B (zh) * 2011-03-30 2014-04-23 北京搜狗科技发展有限公司 一种字词输入的纠错方法及系统
US8977535B2 (en) * 2011-04-06 2015-03-10 Pierre-Henry DE BRUYN Transliterating methods between character-based and phonetic symbol-based writing systems
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US9552213B2 (en) * 2011-05-16 2017-01-24 D2L Corporation Systems and methods for facilitating software interface localization between multiple languages
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
CN102955770B (zh) * 2011-08-17 2017-07-11 深圳市世纪光速信息技术有限公司 一种拼音自动识别方法及系统
US20140358516A1 (en) * 2011-09-29 2014-12-04 Google Inc. Real-time, bi-directional translation
US8725497B2 (en) * 2011-10-05 2014-05-13 Daniel M. Wang System and method for detecting and correcting mismatched Chinese character
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
CN103324621B (zh) * 2012-03-21 2017-08-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
US8996356B1 (en) * 2012-04-10 2015-03-31 Google Inc. Techniques for predictive input method editors
US8818791B2 (en) 2012-04-30 2014-08-26 Google Inc. Techniques for assisting a user in the textual input of names of entities to a user device in multiple different languages
US8983211B2 (en) * 2012-05-14 2015-03-17 Xerox Corporation Method for processing optical character recognizer output
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US20140078065A1 (en) * 2012-09-15 2014-03-20 Ahmet Akkok Predictive Keyboard With Suppressed Keys
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
CN103970765B (zh) * 2013-01-29 2016-03-09 腾讯科技(深圳)有限公司 一种改错模型训练方法、装置和文本改错方法、装置
US20140214401A1 (en) 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US8990068B2 (en) 2013-02-08 2015-03-24 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
CN104007952A (zh) * 2013-02-27 2014-08-27 联想(北京)有限公司 一种输入方法、装置及电子设备
US9875237B2 (en) * 2013-03-14 2018-01-23 Microsfot Technology Licensing, Llc Using human perception in building language understanding models
US20160078013A1 (en) * 2013-04-27 2016-03-17 Google Inc. Fault-tolerant input method editor
JP6155821B2 (ja) 2013-05-08 2017-07-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US20140372856A1 (en) 2013-06-14 2014-12-18 Microsoft Corporation Natural Quick Functions Gestures
US10664652B2 (en) * 2013-06-15 2020-05-26 Microsoft Technology Licensing, Llc Seamless grid and canvas integration in a spreadsheet application
CN105580004A (zh) * 2013-08-09 2016-05-11 微软技术许可有限责任公司 提供语言帮助的输入方法编辑器
US9384191B2 (en) * 2013-09-25 2016-07-05 International Business Machines Corporation Written language learning using an enhanced input method editor (IME)
WO2015042819A1 (en) * 2013-09-26 2015-04-02 Google Inc. Context sensitive input tools
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN103678560A (zh) * 2013-12-06 2014-03-26 乐视网信息技术(北京)股份有限公司 多媒体资源纠错检索方法、多媒体资源服务器及系统
US9362659B2 (en) * 2013-12-10 2016-06-07 Delphi Technologies, Inc. Electrical connector terminal
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
CN103885608A (zh) 2014-03-19 2014-06-25 百度在线网络技术(北京)有限公司 一种输入方法及系统
CN104050255B (zh) * 2014-06-13 2017-10-03 上海交通大学 基于联合图模型的纠错方法及系统
US9524293B2 (en) * 2014-08-15 2016-12-20 Google Inc. Techniques for automatically swapping languages and/or content for machine translation
US9372848B2 (en) 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
CN107615027B (zh) 2015-05-18 2020-03-27 发可有限公司 用于可激活质量标签的热致变色墨水标记
CA2991275A1 (en) 2015-07-07 2017-01-12 Varcode Ltd. Electronic quality indicator
US9785252B2 (en) * 2015-07-28 2017-10-10 Fitnii Inc. Method for inputting multi-language texts
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
US10592603B2 (en) 2016-02-03 2020-03-17 International Business Machines Corporation Identifying logic problems in text using a statistical approach and natural language processing
US11042702B2 (en) 2016-02-04 2021-06-22 International Business Machines Corporation Solving textual logic problems using a statistical approach and natural language processing
US10268561B2 (en) * 2016-02-22 2019-04-23 International Business Machines Corporation User interface error prediction
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
US10318632B2 (en) 2017-03-14 2019-06-11 Microsoft Technology Licensing, Llc Multi-lingual data input system
KR102329127B1 (ko) * 2017-04-11 2021-11-22 삼성전자주식회사 방언을 표준어로 변환하는 방법 및 장치
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
US10599645B2 (en) * 2017-10-06 2020-03-24 Soundhound, Inc. Bidirectional probabilistic natural language rewriting and selection
US11423208B1 (en) * 2017-11-29 2022-08-23 Amazon Technologies, Inc. Text encoding issue detection
US10635305B2 (en) * 2018-02-01 2020-04-28 Microchip Technology Incorporated Touchscreen user interface with multi-language support
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
CN109325227A (zh) 2018-09-14 2019-02-12 北京字节跳动网络技术有限公司 用于生成修正语句的方法和装置
CN109831543B (zh) * 2018-12-13 2021-08-24 山东亚华电子股份有限公司 一种组网方法、医疗通信设备和医疗分机
CN112328737B (zh) * 2019-07-17 2023-05-05 北方工业大学 一种拼写数据的生成方法
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
US11328712B2 (en) * 2019-08-02 2022-05-10 International Business Machines Corporation Domain specific correction of output from automatic speech recognition
CN110633461B (zh) * 2019-09-10 2024-01-16 北京百度网讯科技有限公司 文档检测处理方法、装置、电子设备和存储介质
CN113553832B (zh) * 2020-04-23 2024-07-23 阿里巴巴集团控股有限公司 文字处理方法和装置、电子设备以及计算机可读存储介质
CN113763961B (zh) * 2020-06-02 2024-04-09 阿里巴巴集团控股有限公司 一种文本处理方法及装置
CN112464650A (zh) * 2020-11-12 2021-03-09 创新工场(北京)企业管理股份有限公司 一种文本纠错方法和装置
JP2022096311A (ja) * 2020-12-17 2022-06-29 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
US12086542B2 (en) * 2021-04-06 2024-09-10 Talent Unlimited Online Services Private Limited System and method for generating contextualized text using a character-based convolutional neural network architecture

Family Cites Families (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3435124A (en) 1966-02-07 1969-03-25 William H Channell Pedestal and underground terminals for buried cable systems
US4383307A (en) 1981-05-04 1983-05-10 Software Concepts, Inc. Spelling error detector apparatus and methods
JPS6097426A (ja) 1983-10-31 1985-05-31 Ricoh Co Ltd 日本語入力装置
GB2158776A (en) 1984-02-24 1985-11-20 Chang Chi Chen Method of computerised input of Chinese words in keyboards
JPH0664585B2 (ja) * 1984-12-25 1994-08-22 株式会社東芝 翻訳編集装置
CA1251570A (en) * 1985-05-14 1989-03-21 Kouji Miyao Bilingual translation system with self intelligence
US5175803A (en) 1985-06-14 1992-12-29 Yeh Victor C Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language
US5384701A (en) * 1986-10-03 1995-01-24 British Telecommunications Public Limited Company Language translation system
US4833610A (en) 1986-12-16 1989-05-23 International Business Machines Corporation Morphological/phonetic method for ranking word similarities
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
JPH01193968A (ja) 1988-01-28 1989-08-03 Ricoh Co Ltd 文字処理装置
US5218536A (en) 1988-05-25 1993-06-08 Franklin Electronic Publishers, Incorporated Electronic spelling machine having ordered candidate words
JPH02140868A (ja) 1988-11-22 1990-05-30 Toshiba Corp 機械翻訳システム
JPH0330048A (ja) 1989-06-28 1991-02-08 Matsushita Electric Ind Co Ltd 文字入力装置
US5095432A (en) 1989-07-10 1992-03-10 Harris Corporation Data processing system implemented process and compiling technique for performing context-free parsing algorithm based on register vector grammar
US5258909A (en) 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5278943A (en) 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
US5572423A (en) * 1990-06-14 1996-11-05 Lucent Technologies Inc. Method for correcting spelling using error frequencies
JPH0475162A (ja) * 1990-07-18 1992-03-10 Toshiba Corp 仮名漢字変換装置
JPH0485660A (ja) * 1990-07-30 1992-03-18 Matsushita Electric Ind Co Ltd 入力誤り自動訂正装置
US5270927A (en) 1990-09-10 1993-12-14 At&T Bell Laboratories Method for conversion of phonetic Chinese to character Chinese
JPH04167051A (ja) 1990-10-31 1992-06-15 Toshiba Corp 文書編集方法及び装置
TW268115B (ja) 1991-10-14 1996-01-11 Omron Tateisi Electronics Co
JPH05108647A (ja) 1991-10-14 1993-04-30 Omron Corp 漢字変換装置
US5267345A (en) 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
US5459739A (en) 1992-03-18 1995-10-17 Oclc Online Computer Library Center, Incorporated Merging three optical character recognition outputs for improved precision using a minimum edit distance function
JPH05282360A (ja) * 1992-03-31 1993-10-29 Hitachi Ltd 多国語入力装置
US5535119A (en) 1992-06-11 1996-07-09 Hitachi, Ltd. Character inputting method allowing input of a plurality of different types of character species, and information processing equipment adopting the same
JPH0689302A (ja) * 1992-09-08 1994-03-29 Hitachi Ltd 辞書メモリ
US5675815A (en) 1992-11-09 1997-10-07 Ricoh Company, Ltd. Language conversion system and text creating system using such
US5568383A (en) * 1992-11-30 1996-10-22 International Business Machines Corporation Natural language translation system and document transmission network with translation loss information and restrictions
US5671426A (en) 1993-06-22 1997-09-23 Kurzweil Applied Intelligence, Inc. Method for organizing incremental search dictionary
DE4323241A1 (de) 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
JPH0736878A (ja) 1993-07-23 1995-02-07 Sharp Corp 同音異義語選択装置
JP3351039B2 (ja) 1993-08-17 2002-11-25 ソニー株式会社 情報処理装置および方法
WO1995017729A1 (en) 1993-12-22 1995-06-29 Taligent, Inc. Input methods framework
US5930755A (en) 1994-03-11 1999-07-27 Apple Computer, Inc. Utilization of a recorded sound sample as a voice source in a speech synthesizer
US5704007A (en) 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer
US6154758A (en) 1994-05-13 2000-11-28 Apple Computer, Inc. Text conversion method for computer systems
US5521816A (en) * 1994-06-01 1996-05-28 Mitsubishi Electric Research Laboratories, Inc. Word inflection correction system
US5510998A (en) 1994-06-13 1996-04-23 Cadence Design Systems, Inc. System and method for generating component models
JP2773652B2 (ja) * 1994-08-04 1998-07-09 日本電気株式会社 機械翻訳装置
JPH0877173A (ja) 1994-09-01 1996-03-22 Fujitsu Ltd 文字列修正システムとその方法
WO1996010795A1 (en) 1994-10-03 1996-04-11 Helfgott & Karas, P.C. A database accessing system
SG42314A1 (en) 1995-01-30 1997-08-15 Mitsubishi Electric Corp Language processing apparatus and method
CA2170669A1 (en) 1995-03-24 1996-09-25 Fernando Carlos Neves Pereira Grapheme-to phoneme conversion with weighted finite-state transducers
US5774588A (en) 1995-06-07 1998-06-30 United Parcel Service Of America, Inc. Method and system for comparing strings with entries of a lexicon
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
JPH0962672A (ja) * 1995-08-29 1997-03-07 Niigata Nippon Denki Software Kk 日本語入力装置
US5806021A (en) 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US6356886B1 (en) * 1995-11-30 2002-03-12 Electronic Data Systems Corporation Apparatus and method for communicating with a knowledge base
US5875443A (en) * 1996-01-30 1999-02-23 Sun Microsystems, Inc. Internet-based spelling checker dictionary system with automatic updating
JPH09259126A (ja) * 1996-03-21 1997-10-03 Sharp Corp データ処理装置
US5933525A (en) 1996-04-10 1999-08-03 Bbn Corporation Language-independent and segmentation-free optical character recognition system and method
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
US5987403A (en) 1996-05-29 1999-11-16 Sugimura; Ryoichi Document conversion apparatus for carrying out a natural conversion
US5956739A (en) * 1996-06-25 1999-09-21 Mitsubishi Electric Information Technology Center America, Inc. System for text correction adaptive to the text being corrected
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
US5907705A (en) 1996-10-31 1999-05-25 Sun Microsystems, Inc. Computer implemented request to integrate (RTI) system for managing change control in software release stream
JP2806452B2 (ja) * 1996-12-19 1998-09-30 オムロン株式会社 かな漢字変換装置および方法、並びに記録媒体
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
TW421750B (en) * 1997-03-14 2001-02-11 Omron Tateisi Electronics Co Language identification device, language identification method and storage media recorded with program of language identification
US6047300A (en) 1997-05-15 2000-04-04 Microsoft Corporation System and method for automatically correcting a misspelled word
JPH113338A (ja) 1997-06-11 1999-01-06 Toshiba Corp 多言語入力システム、多言語入力方法及び多言語入力プログラムを記録した記録媒体
JP3548747B2 (ja) * 1997-06-17 2004-07-28 オムロン株式会社 記録媒体および文字入力装置
US5974413A (en) 1997-07-03 1999-10-26 Activeword Systems, Inc. Semantic user interface
CA2242065C (en) 1997-07-03 2004-12-14 Henry C.A. Hyde-Thomson Unified messaging system with automatic language identification for text-to-speech conversion
JPH1196141A (ja) 1997-09-18 1999-04-09 Toshiba Corp 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JPH11175518A (ja) 1997-12-11 1999-07-02 Omron Corp 文字列入力装置、文字列入力方法および文字列入力プログラムを記録したプログラム記録媒体
US6131102A (en) 1998-06-15 2000-10-10 Microsoft Corporation Method and system for cost computation of spelling suggestions and automatic replacement
US6490563B2 (en) 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US7191393B1 (en) * 1998-09-25 2007-03-13 International Business Machines Corporation Interface for providing different-language versions of markup-language resources
US6356866B1 (en) * 1998-10-07 2002-03-12 Microsoft Corporation Method for converting a phonetic character string into the text of an Asian language
US6148285A (en) 1998-10-30 2000-11-14 Nortel Networks Corporation Allophonic text-to-speech generator
KR100749289B1 (ko) * 1998-11-30 2007-08-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 텍스트의 자동 세그멘테이션 방법 및 시스템
US6204848B1 (en) 1999-04-14 2001-03-20 Motorola, Inc. Data entry apparatus having a limited number of character keys and method
US6782505B1 (en) 1999-04-19 2004-08-24 Daniel P. Miranker Method and system for generating structured data from semi-structured data sources
US6401065B1 (en) 1999-06-17 2002-06-04 International Business Machines Corporation Intelligent keyboard interface with use of human language processing
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US6573844B1 (en) * 2000-01-18 2003-06-03 Microsoft Corporation Predictive keyboard
US6646572B1 (en) * 2000-02-18 2003-11-11 Mitsubish Electric Research Laboratories, Inc. Method for designing optimal single pointer predictive keyboards and apparatus therefore
US7047493B1 (en) 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
US7076731B2 (en) 2001-06-02 2006-07-11 Microsoft Corporation Spelling correction system and method for phrasal strings using dictionary looping

Similar Documents

Publication Publication Date Title
JP2003514304A5 (ja)
JP5535417B2 (ja) スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ
JP4833476B2 (ja) モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ
Abandah et al. Automatic diacritization of Arabic text using recurrent neural networks
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
US9471566B1 (en) Method and apparatus for converting phonetic language input to written language output
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
KR20120006489A (ko) 입력 방법 편집기
WO2008134208A1 (en) Recognition architecture for generating asian characters
Alkanhal et al. Automatic stochastic arabic spelling correction with emphasis on space insertions and deletions
Roy et al. Unsupervised context-sensitive bangla spelling correction with character n-gram
Nugues Language Processing with Perl and Prolog
Sharma et al. Word prediction system for text entry in Hindi
UzZaman et al. A comprehensive bangla spelling checker
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
Liang et al. An efficient error correction interface for speech recognition on mobile touchscreen devices
Cissé et al. Automatic Spell Checker and Correction for Under-represented Spoken Languages: Case Study on Wolof
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
Mahar et al. Probabilistic analysis of sindhi word prediction using N-Grams
Islam et al. A context-sensitive approach to find optimum language model for automatic Bangla spelling correction
ASAHIAH et al. A survey of diacritic restoration in abjad and alphabet writing systems
Wasala et al. A data-driven approach to checking and correcting spelling errors in sinhala
Sharma Assigning the correct word class to Punjabi unknown words using CRF
Abdussaitova et al. Normalization of Kazakh Texts
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置