JP2003514304A - スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ - Google Patents
スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャInfo
- Publication number
- JP2003514304A JP2003514304A JP2001536716A JP2001536716A JP2003514304A JP 2003514304 A JP2003514304 A JP 2003514304A JP 2001536716 A JP2001536716 A JP 2001536716A JP 2001536716 A JP2001536716 A JP 2001536716A JP 2003514304 A JP2003514304 A JP 2003514304A
- Authority
- JP
- Japan
- Prior art keywords
- input
- string
- language
- text
- typing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims description 61
- 238000012549 training Methods 0.000 claims description 45
- 238000012937 correction Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims 1
- 238000012986 modification Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000007619 statistical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 206010035148 Plague Diseases 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
Description
テキスト入力時に発生するタイプミスおよびある言語形式から別の言語形式への
変換時に発生する変換誤りの両方に対する誤り耐性(error tolera
nce)のある言語入力方法およびシステムを実現する。
ードプロセッサは、スペルおよび文法の訂正など、ユーザに高等なツールを提供
し、文書を起草する際に補助する。例えば、多数のワードプロセッサは、スペル
ミスの単語や文法的に間違っているセンテンス構造を識別し、場合によっては、
識別された誤りを自動的に訂正することができる。
単に、正しいスペルまたはセンテンス構造を知らないことである。ワードプロセ
ッサは、ユーザが正しいスペルまたは言葉使いを選択する際に手助けするために
提案することができる。第2のより一般的な誤りの原因は、ユーザが、正しいス
ペルまたは文法構造を知っていても単語またはセンテンスを間違ってコンピュー
タに入力することである。このような状況では、ワードプロセッサは、不適切に
入力された文字列を識別し、意図した単語または語句に訂正するのに大変役立つ
ことが多い。
こりがちである。英語バージョンのQWERTYキーボードなど言語固有のキー
ボードは、多くの言語の場合、そのような言語がキーボードのキーとして使いや
すく配列できるよりも多くの文字を有するため、存在していない。例えば、多く
のアジア言語は数千文字を含む。これだけ多くの様々な文字について別々のキー
をサポートするキーボードを構築することは実際上不可能である。
有の文書処理システムは、ユーザが小さな文字セットキーボード(例えば、QW
ERTYキーボード)から表音テキスト(phonetic text)を入力
し、その表音テキストを言語テキストに変換することができる。「表音テキスト
」は、所与の言語を発話したときに発生する音を表すが、「言語テキスト」はテ
キストで表示されたとき実際に書かれた文字を表す。例えば、中国語では、ピン
インは表音テキストの一例であり、漢字は言語テキストの一例である。表音テキ
ストを言語テキストに変換することにより、多くの様々な言語を、従来のコンピ
ュータおよび標準QWERTYキーボードを使用して言語固有のワードプロセッ
サによって処理できる。
能性がある。1つの種類の誤りは、一般的なタイプミスである。しかし、テキス
トにタイプミスがないとしても、文書処理エンジンが表音テキストを意図しない
文字テキストに誤って変換するという誤りもありえる。これら2つの問題の両方
が、同じ表音テキスト入力文字列で作用した場合、一連の複数の誤りが生じるこ
とがある。状況によっては、語句またはセンテンスの文脈全体を時間をかけて調
査しなければ、タイピングで生じる誤りが容易に追跡できない場合がある。
前者のタイプの入力誤りを主に対象としているが、文書処理エンジンで生じた変
換誤りに対する耐性も提供する。このようなタイピング誤りと関連する問題をよ
く説明するために、表音テキストであるピンインを言語テキストである漢字に変
換する中国語ベースのワードプロセッサを考察する。
ある。理由の1つは、英語用のキーボードでの平均タイピング精度は英語を話す
国々の場合よりも中国の場合の方が低いということである。第2の理由は、表音
はそれほど頻繁に使用されているわけではないということである。初期の教育期
間中、ユーザは、例えば、英語を話すユーザが英語で単語を綴ることを教わるほ
ど、表音綴りを勉強、学習する傾向はない。
準語ではなく方言を母語として話すというものである。表音テキストの起源であ
る標準語は、第2言語である。特定の方言およびアクセントでは、話し言葉は、
対応する適切な表音と一致しない場合があり、従って、ユーザが表音テキストを
タイプすることをより難しくする。例えば、多くの中国人はさまざまな中国語方
言を自分の第1言語として話しており、ピンインの起源である北京語を第2言語
として教えられている。例えば、いくつかの中国語方言では、一定の文脈で「h
」と「w」を発音する際に区別がなく、他の方言では、「ng」と「n」につい
ても同じことが言え、さらに他の方言では、「r」は明瞭に発音されない。その
ため、北京語を第2言語として話す中国人ユーザは、ピンインを入力しようとし
てタイピング誤りをしがちである。
りをチェックすることが困難であるということが考えられる。これは、1つには
、表音テキストが長く判読しにくくなり、読むことが困難になる傾向があるとい
うことによる。見たものがタイプしたものである英語ベースのテキスト入力と対
照的に、表音テキストの入力は、「見たものが得られるもの」でないことが多い
。むしろ、ワードプロセッサは、表音テキストを言語テキストに変換する。その
ため、ユーザは一般に、表音テキストに誤りがないか調べることをしないが、表
音テキストが言語テキストに変換されるまで多少待つ。
うっとうしいものである。ピンイン文字列は、文字間にスペーシングがないため
再検討、訂正が非常に難しい。その代わりに、ピンイン文字は、ピンイン文字で
構成される単語の数に関係なく混在する。さらに、ピンイン−漢字変換はすぐに
実行されることはないが、追加ピンインを入力するにつれ正しい解釈が定式化さ
れ続ける。従って、ユーザが間違ったピンイン記号をタイプした場合、単一の誤
りが変換プロセスによって複合され、下流に伝播して、いくつかの追加誤りの原
因となる場合がある。その結果、システムが漢字に確定変換しその後ユーザが誤
りのあったことに気づくまでに、1回訂正するのにユーザは数回バックスペース
を入力せざるをえないため、誤り訂正の時間が長くかかる。システムによっては
、元の誤りを明らかにできない場合さえある。
許容できるシステムが必要である。システムは、表音列がわずかに誤りのある文
字列を含むとしても正しい答えを返すのが望ましい。
別であって、異なる言語から同じテキストに単語を入力するために2つの言語間
でモードを切り替えることに関するものである。例えば、技術用語(例えば、I
nternet)などの英単語と翻訳が難しい用語(例えば、頭字語、記号、サ
ーネーム、社名など)を含む文書草稿を中国語で作成することがよくある。従来
のワードプロセッサでは、ユーザは異なる単語を入力するときに、一方の言語を
他方の言語にモード切替をする必要がある。そのため、ユーザが異なる言語から
単語を入力したい場合、ユーザはテキスト入力についての思考を停止し、モード
をある言語から別の言語に切り替えて、単語を入力し、それからモードを最初の
言語に戻す必要がある。このため、ユーザのタイピング速度が著しく低下し、ユ
ーザは自分の注意をテキスト入力作業と、言語モードの変更という異質な制御作
業との間で切り替える必要がある。
。モードを避けるために、システムは、タイプしている言語を検出し、文字シー
ケンスを1単語ずつ一方の言語または他方の言語に動的に変換することができな
ければならない。
ほど簡単ではない。例えば、多くの有効な英単語はさらに有効なピンイン文字列
でもある。さらに、ピンイン入力時に中国語文字間、および中国語文字と英単語
との間にスペースがないため、曖昧さが増すことがある。
oren」をタイプすると、システムはこの文字列を中国語文字「 」(
一般に「私は中国人である」と翻訳される)に変換する。
りに、ユーザは次のようにタイプします。 wosiyigezhongguoren(誤りは「sh」と「s」の混同) woshiyigezongguoren(誤りは「zh」と「z」の混同) woshiygezhongguoren(誤りは、「y」の後の「i」の脱
落) woshiyigezhonggouren(誤りは、「ou」の並列) woshiyigezhongguiren(誤りは「i」と「o」の混同)
理システムと方法をすでに開発しており、自動言語認識機能により複数言語のモ
ードレス入力が可能になっている。
の入力文字列を言語テキスト(例えば、漢字)の出力文字列に変換するが、表音
テキストから言語テキストに変換する際に発生するタイプミスおよび変換誤りを
極力減らす。言語入力アーキテクチャは、文書処理プログラム、電子メールプロ
グラム、表計算ソフト、ブラウザなどさまざまな分野で実装することができる。
キスト要素を受け取るユーザインタフェースを備える。入力文字列は、表音テキ
ストおよび非表音テキスト、さらに1つまたは複数の言語を含むことができる。
このユーザインタフェースにより、ユーザは、異なるテキスト形式または異なる
言語の入力のモードを切り替えることなく単一の編集行に入力テキスト文字列を
入力することができる。この方法により言語入力アーキテクチャは、ユーザが使
いやすいように複数の言語のモードレス入力を実現している。
ピングモデル、言語モデル、および異なる言語用の1つまたは複数の用語集を備
える。検索エンジンは、ユーザインタフェースから入力文字列を受け取り、入力
文字列を1つまたは複数のタイピングモデルに分配する。各入力モデルは、各候
補文字列が入力文字列として間違って入力された場合のタイピング誤り確率に基
づいて入力文字列に置換できる有望なタイピング候補のリストを生成するように
構成されている。有望なタイピング候補は、データベースに格納できる。
ら集めたデータでトレーニングする。例えば、中国語の文脈では、トレーナはピ
ンインで書かれているトレーニングテキストを入力する。トレーニングテキスト
を入力しているときに見つかった誤りを使用して、タイピング誤りを修正するの
に使用できるタイピング候補と関連する確率を計算する。複数のタイピングモデ
ルを採用している場合、各タイピングモデルを異なる言語でトレーニングできる
。
節を対応するタイプされた各文字列の文字に対応付けることによりトレーニング
できる。タイプされた各文字が音節の1つに対応づけられる回数を表す頻度カウ
ントを保持し、各音節のタイピングの確率をその頻度カウントから計算する タイピングモデルは、入力文字列内に存在する可能性のあるタイプミスの原因
となりうるタイピング候補の集まりを返す。タイピング候補は、入力文字列と同
じ言語またはテキスト形式で書かれる。
の可能性のある変換文字列となる。より具体的には、言語モデルは三重文字言語
モデルであり、有望な変換出力文字列が前の2つのテキストエレメントに基づい
て候補文字列を表す言語テキスト確率を求めようとする。変換文字列は、入力文
字列と異なる言語または異なるテキスト形式で書かれている。例えば、入力文字
列は、中国語ピンインまたはその他の表音テキストで構成され、出力文字列は漢
字またはその他の言語テキストで構成される。
率を示す関連するタイピング候補および変換候補を選択する。検索エンジンは、
入力文字列(例えば、表音テキストで書かれている)を言語モデルから返された
変換候補からなる出力文字列に変換し、入力されたテキスト形式(例えば、表音
テキスト)を他のテキスト形式(例えば、言語テキスト)に置き換える。この方
法により、表音テキストの入力時のユーザによる入力誤りがなくなる。
なし)との組み合わせを持つことができる。後者の例では、中国語ベースの言語
入力アーキテクチャは、両方の変換されたピンイン−漢字テキストを変換されて
いない英語テキストとともに出力する。
出力文字列を表示する。この方法では、変換は自動的に行われ、ユーザが追加テ
キストを入力するのと同時に行われる。
いる。
例えば、書き言葉バージョン)に変換する言語入力システムおよび方法に関連す
る。このシステムおよび方法は、テキスト入力時に発生するスペルミスおよびタ
イプミスおよびある言語形式から別の言語形式への変換時に発生する変換誤りに
対する誤り耐性がある。説明のため、本発明は、汎用コンピュータで実行される
文書処理プログラムの一般的文脈で説明する。ただし、本発明は、文書処理以外
の異なる多くの環境に実装することができ、またさまざまな種類のデバイスで実
施することができる。他に、電子メールプログラム、表計算ソフト、ブラウザな
どでの文脈が考えられる。
いる。一実施例では、言語入力アーキテクチャは、自動的な最高確率ベースの方
法で統計的言語モデリング(statistical language mo
deling)を使用し、単語をセグメント化し、語彙を選択し、トレーニング
データをフィルタ処理し、可能な最良の変換候補を求める。
sentence−based language modeling)では、
ユーザの入力が完全であると仮定している。実際には、ユーザの入力にはタイピ
ング誤りやスペルミスが多数ある。従って、言語入力アーキテクチャは、確率論
的スペリングモデルを使用して、ありがちなタイピング誤りやスペルミスを許容
しながら正しいタイピングを受け入れる1つまたは複数のタイピングモデルを含
む。タイピングモデルを英語や中国語など複数言語についてトレーニングし、ど
れくらいの確からしさで入力シーケンスがある言語の単語であって別の言語の単
語ではないかを識別するようにできる。両方のモデルは並列実行でき、その言語
モデル(例えば、中国語モデル)により誘導されて最も可能性の高い文字シーケ
ンス(つまり、英語および中国語の文字)を出力する。
O)インタフェース106を備えるコンピュータシステム実施例100を示して
いる。CPU 102は、メモリ104およびI/Oインタフェース106と通
信する。メモリ 104は、揮発性メモリ(例えば、RAM)および不揮発性メ
モリ(例えば、ROM、ハードディスクなど)を表す。
れた1つまたは複数の周辺装置を備える。周辺装置実施例は、マウス110、キ
ーボード112(例えば、英数字QWERTYキーボード、表音キーボードなど
)、ディスプレイモニタ114、プリンタ116、周辺記憶装置118、および
マイクロホン120を備える。例えば、コンピュータシステムは、汎用コンピュ
ータで実装できる。従って、コンピュータシステム100は、メモリ104に格
納され、CPU 102で実行されるコンピュータのオペレーティングシステム
(図に示されていない)を実装する。オペレーティングシステムは、ウィンドウ
操作環境をサポートするマルチタスクオペレーティングシステムであるのが好ま
しい。適当なオペレーティングシステムの例として、Microsoft Co
rporation社のWindows(登録商標)ブランドのオペレーティン
グシステムがある。
スのまたはプログラム可能な家電製品、ネットワークPC、ミニコンピュータ、
メインフレームコンピュータなど、他のコンピュータシステム構成を使用できる
ことに注意されたい。さらに、図1にはスタンドアローンのコンピュータが示さ
れているが、通信ネットワーク(例えば、LAN、インターネットなど)を介し
てリンクされているリモート処理デバイスによってタスクが実行される分散コン
ピューティング環境で言語入力システムを実用することもできる。分散コンピュ
ーティング環境では、プログラムモジュールをローカルとリモートの両方のメモ
リ記憶デバイスに配置できる。
102によって実行される。他のプログラム、データ、ファイルなども、メモ
リ104に格納できるが、説明を簡単にするため示していない。文書処理プログ
ラム130は、表音テキストを受け取り、自動的に言語テキストに変換するよう
に構成されている。より具体的には、文書処理プログラム130は、説明のため
メモリ内に格納されプロセッサによって実行されるコンピュータソフトウェアと
して実装されている言語入力アーキテクチャ131を実装する。文書処理プログ
ラム130は、アーキテクチャ131に加えて他のコンポーネントも備えること
ができるが、そのようなコンポーネントは、文書処理プログラムに標準のもので
あると考えられるため、図に詳細に示したり、詳細に説明していない。
フェース(UI)132、検索エンジン134、1つまたは複数のタイピングモ
デル135、言語モデル136、および異なる言語用の1つまたは複数の用語集
137を備える。アーキテクチャ131は、言語独立である。UI 132およ
び検索エンジン134は、汎用であり、どの言語でも使用できる。アーキテクチ
ャ131は、言語モデル136、タイピングモデル135、用語集137を変更
することにより特定の言語に合わせる。
、表音テキスト−言語テキスト間のコンバータ138を形成する。タイピングモ
デル135の助けを借りて、コンバータ138はユーザのタイピング誤りおよび
スペルミスに対し許容性を持つ。この開示の目的のために、「テキスト」は、1
つまたは複数の文字および/または文字以外の記号とする。「表音テキスト」は
一般に、所与の言語を話すときに生じる音声を表す英数字テキストである。「言
語テキスト」は、書き言葉を表す文字と非文字記号である。「非表音テキスト」
は、所与の言語を話すときに生じる音声を表さない英数字テキストである。非表
音テキストは、言語テキスト以外の書き言葉を表す句読点、特殊文字、および英
数字テキストを含む場合がある。
スの文字セットを使用しない所与の言語を話したときに出る音声を表す欧文文字
セット(例えば、英語のアルファベット)で表された英数字でよい。言語テキス
トは、所与の言語に対応する書かれた記号である。
セッサの文脈で説明し、言語入力アーキテクチャ131はピンインを漢字に変換
するように構成されている。つまり、表音テキストはピンインであり、言語テキ
ストは漢字である。しかし、言語入力アーキテクチャは、言語独立であり、他の
言語にも使用できる。例えば、表音テキストは日本語の話し言葉の形態でよいが
、言語テキストは漢字などの日本語の書き言葉を表す。アラビア語、韓国語、イ
ンド語、その他のアジア言語などを含むが、これだけに限定されない他の例も多
数存在する。
0などの1つまたは複数の周辺入力デバイスを介して入力する。この方法で、ユ
ーザは、キー入力または音声による表音テキスト入力が可能である。音声入力の
場合、コンピュータシステムはさらに、話し言葉を受け取る音声認識モジュール
(図に示されていない)を実装し、表音テキストに変換することができる。以下
の説明では、キーボード112によるテキストの入力をフルサイズの標準英数字
QWERTYキーボードで実行すると想定している。
フィカルユーザインタフェースであるのが好ましい。UI 132の詳細な説明
は、引用により本発明に取り込まれている、「LANGUAGE INPUT
USER INTERFACE」という表題の同時係属出願第___号にある。
渡し、さらに、これは表音テキストをタイピングモデル137に渡す。タイピン
グモデル137は、表音テキストに誤りが含まれていると思われる場合にユーザ
が意図した表音テキストの適当な編集結果と考えられるさまざまなタイピング候
補(TC1,...,TCN)を生成する。タイピングモデル137は、妥当な確
率が設定されている複数のタイピング候補を検索エンジン134に渡し、さらに
、これはタイピング候補を言語モデル136に渡す。この言語モデル136は、
処理中のセンテンスの文脈の範囲内でタイピング候補を評価し、ユーザが意図し
た表音テキストの変換された形式を表すと考えられる言語テキストで書かれてい
るさまざまな変換候補(CC1,...,CCN)を生成する。変換候補は、タイ
ピング候補と関連付けられている。
類似した表音テキストが言語テキスト内の多数の文字または記号を表すことがあ
る。従って、表音テキストの文脈は、言語テキストへの変換前に解釈される。他
方、非表音テキストの変換は、通常、表示される英数字テキストが英数字入力と
同じである直接的な1対1変換となる。
ンにより、タイピング候補および変換候補のうちどれがユーザが意図するもので
ある確率が最も高いかを判別する統計分析が実行される。確率が計算されると、
検索エンジン134により、確率が最も高い候補が選択され、変換候補の言語テ
キストがUI 132に返される。UI 132では、表音テキストを変換候補
の言語テキストに置き換え、同じ行に表示する。一方で、新規入力した表音テキ
ストが新規挿入された言語テキストの前の行に表示され続ける。
合、ユーザインタフェース132に、選択が実際に意図した回答である可能性の
高さの順序でランク付けられた他の高確率の候補の第1のリストが表示される。
ユーザがまだ可能な候補に満足しない場合、UI 132は可能なすべての選択
肢を与える第2のリストを表示する。第2のリストは、確率またはその他の測定
基準(例えば、ストロークカウントまたは中国語文字の複雑さ)に関してランク
付けることができる。
131は、タイプミスおよび変換誤りの両方を含む、言語入力の誤り耐性をサポ
ートする。UI 132、検索エンジン134、言語モデル136、およびタイ
ピングモデル135に加えて、アーキテクチャ131はさらに、エディタ204
およびセンテンス文脈モデル216を備える。センテンス文脈モデル216は、
検索エンジン134に結合されている。
スト)および非表音テキスト(例えば、英語)などの入力テキストを1つまたは
複数の周辺装置(例えば、キーボード、マウス、マイクロホン)から受け取り、
その入力テキストをエディタ204に渡す。エディタ204は、検索エンジン1
32がタイピングモデル135および言語モデル136とともに入力テキストを
、言語テキスト(例えば、漢字テキスト)などの出力テキストに変換するよう要
求する。エディタ204は、出力テキストをUI 132に戻して表示させる。
を受け取ると、その入力テキスト文字列をタイピングモデル135の1つまたは
複数に送り、さらにセンテンス文脈モデル216にも送る。タイピングモデル1
35は、入力テキスト内のタイピング誤りのアプリオリな確率を測定する。タイ
ピングモデル135は、入力誤り(例えば、タイプミス)を修正することを実際
に求めるユーザによって入力された入力テキストの有望なタイピング候補を生成
して出力する。一実施形態では、タイピングモデル135は候補データベース2
10内で有望な候補を検索する。他の実装では、タイピングモデル135は統計
ベースのモデリングを使用して、入力テキストの有望な候補を生成する。
用する検索エンジン132にセンテンス内のすでに入力されているテキストを送
ることができる。この方法では、タイピングモデルは、テキストの新しい文字列
とセンテンスにすでに入力されているテキストの文字列との組み合わせに基づい
て有望なタイピング候補を生成することができる。
相互に入れ替えることができ、入力テキストのキー入力時に生じた誤りを指すこ
とは明白である。音声入力の場合、このような誤りは、音声入力の不適切な認識
から生じることがある。
率の低い有望なタイピング候補を取り除き、それにより、高い確率の有望なタイ
ピング候補のみを検索エンジン134に返すことができる。さらに、タイピング
モデル135よりはむしろ検索エンジン134が取り除き機能を実行できること
も明白であろう。
を観察するため数百あるいは数千のトレーナにセンテンス入力を依頼して集めた
実際のデータ212を使用してトレーニングされる。以下では「タイピングモデ
ルのトレーニング」という見出しのもとでタイピングモデルおよびトレーニング
について詳述する。
グ候補のリストを言語モデル136に送る。簡単にいうと、言語モデルは、語句
やセンテンスなど、指定された文脈内に単語またはテキスト文字列がある確率を
測定する。つまり、言語モデルは、項目(単語、文字、英字など)のシーケンス
を取り、そのシーケンスの確率を推定することができる。言語モデル136は、
検索エンジン134から有望なタイピング候補と前のテキストとを組み合わせ、
タイピング候補に対応する言語テキストの1つまたは複数の候補を生成する。
モデル136をトレーニングする。トレーニングコーパス214は、新聞記事な
どの日々のテキストなどの一般的な任意の種類のデータ、あるいは特定の分野(
例えば、医薬品)を対象とするテキストなどの環境固有のデータとすることがで
きる。言語モデル136のトレーニングは、文書処理技術の分野では知られてお
り、ここでは詳述しない。
を許容し、入力文字列となる単語およびセンテンスで最も確率の高いものを返そ
うとする。言語モデル136は、タイピングモデル135でユーザが入力した入
力文字列に対しどのセンテンスが最も妥当かを判別する際に役立つ。2つのモデ
ルは、入力された文字列sが辞書、つまりP(w|s)から認識可能で有効な単
語wである確率として統計的に記述することができる。ベイズの公式を使用する
と、確率P(w|s)は次のように記述される。
る目的では同じである。したhがって、分析は、分子の積P(s|w)・P(w
)のみに関係し、確率P(s|w)はスペルまたはタイピングモデルを表し、確
率P(w)は言語モデルを表す。より具体的には、タイピングモデルP(s|w
)は、Xを入力するつもりの人が代わりにYを入力することになる確率を記述す
るが、言語モデルP(w)はセンテンス文脈を与えたときに特定の単語が生成さ
れているべき確率を記述する。
換えることができ、Hは漢字文字列、Pはピンイン文字列を表す。目標は、P(
H|P)を最大にする、最も確率の高い中国語文字H′を見つけることである。
従って、確率P(H|P)は、入力されたピンイン文字列Pが有効な漢字文字列
Hである確率である。Pは固定されており、従ってP(P)は与えられたピンイ
ン文字列に対し一定であるため、ベイズ公式により、次のように確率P(H|P
)が小さくなる。
Hは、さらに、複数の単語W1,W2,W3,...,WMに分割され、確率P(P
|H)は次のように推定できる。
Wi)は、Pf(i)が単語Wiの受け入れ可能なスペルである場合に1に設定され、
Pf(i)が単語Wiの受け入れ可能スペルでない場合に0に設定される。そのため
、従来のシステムは、誤って入力された文字に対する耐性がない。一部のシステ
ムでは、「南部訛りの発音」機能があり、このような問題に対応しているが、こ
れはプリセット値確率1および0を採用している。さらに、このようなシステム
は、データ駆動方式でないためタイピング誤りのうちごくわずかしか扱えない(
実際のタイピング誤りから学習する)。
デルと言語モデルの両方を利用して変換を実行する。タイピングモデルでは、実
際のコーパスから確率P(Pf(i)|Wi)をトレーニングすることにより誤って
入力した文字に対する誤り耐性が可能になっている。タイピングモデルを構築す
る方法は多数ある。理論的には、すべての可能なP(Pf(i)|Wi)をトレーニ
ングできるが、実際には、パラメータが多すぎる。トレーニングする必要のある
パラメータの個数を減らす1つの方法として、1文字単語のみを考察し、発音が
等価なすべての文字を単一の音節に対応づける方法がある。中国語にはおおよそ
406個の音節があり、これは本質的にP(ピンインテキスト|音節)をトレー
ニングし、各文字を対応する音節に対応づけることである。以下では「タイピン
グモデルのトレーニング」という見出しのもとでこれについて詳述する。
字変換の一目標は、確率P(P|H)を最大にする漢字文字列Hを見つけること
である。これは、最大の確率を最良の漢字シーケンスとして求めるWiを選択す
ることにより実行する。実際、よく知られているViterbi Beam検索
のような効率的な検索方法を使用できる。Viterbi Beam検索法の詳
細については、「Automatic Speech Recognition
」(Kluwer Academic Publishers、1989)とい
う表題のKai−Fu Leeの記事、および「Automatic Spee
ch and Speaker Recognition − Advance
d Topics」(Kluwer Academic Publishers
、1996)という表題のChin−Hui Lee、Frank K.Soo
ng、Kuldip K.Paliwalの記事をに記載されている。
する。統計的言語モデル構築の一般的な方法として、プレフィックスツリー風の
データ構造を利用して、知られているテキストのトレーニングセットからN重文
字言語モデルを構築する方法がある。広く使用されている統計的言語モデルの一
実施例として、N重文字マルコフモデルがあり、これについては、Freder
ick Jelinek著「Statistical Methods for
Speech Recognition」(The MIT Press,C
ambridge、Massachusetts、1997)に説明がある。プ
レフィックスツリーデータ構造(a.k.a.サフィックスツリー、またはPA
Tツリー)の使用により、高レベルアプリケーションで言語モデルを素早く横断
し、上述のように、実質的にリアルタイムに実行する特性を持つ。N重文字言語
モデルでは、テキスト全体を通して文字列(サイズN)内の特定のアイテム(単
語、文字など)の出現数をカウントする。このカウントを使用して、そのアイテ
ムの列の使用の確率を計算する。
であるのが好ましいが、二重文字が文脈によっては適当な場合がある。三重文字
言語モデルは、英語に適しており、また中国にも十分機能するが、大きなトレー
ニングコーパスを利用すると想定している。
内の最も前の2つの文字を考慮する。 (a)文字(C)は、定義済み用語集を使用して離散言語テキストまたは単語
(W)にセグメント化され、ツリー内の各Wは1つまたは複数のCに対応づけら
れる。 (b)前の2つの単語から単語のシーケンス(W1,W2,...,WM)の確
率を予測する。
イピングモデル135および言語モデル136に渡される。入力テキスト300
を受け取ると、タイピングモデル135は入力テキスト300を異なる方法でセ
グメント化し、キーボード入力時に生じる可能性のあるタイプミスを考慮した有
望なタイピング候補のリストを生成する。タイピング候補302は、各時間フレ
ーム内に異なるセグメントがあり、前の単語の終了時間が現在の単語の開始時間
となる。例えば、候補302の上行は、入力文字列300「mafangnit
ryyis...」を「ma」、「fan」、「ni」、「try」、「yi」
などにセグメント分割する。タイピング候補302の第2行は、入力文字列「m
afangnitryyis...」を異なる形で「ma」、「fang」、「
nit」、「yu」、「xia」などにセグメント分割する。
に格納できる。図3は、単なる一例にすぎず、入力テキストに対する有望なタイ
ピング候補は多数あり得ることは明白であろう。
グメントを評価し、関連する言語テキストを生成する。説明のため、有望なタイ
ピングテキスト302の各セグメントおよび対応する有望な言語テキストはボッ
クスにまとめられている。
るものである確率が最も高いかを判別する統計分析を実行する。各行内のタイピ
ング候補は、互いに関連がなく、検索エンジンは任意の行からさまざまなセグメ
ントを自由に選択し、受け入れ可能な変換候補を定義することができる。図3の
例では、検索エンジンは、ハイライト表示になっているタイピング候補304、
306、308、310、312、および314が最高の確率であることを示し
ていると判断している。これらの候補は、左から右に連結され、候補304の後
に候補306が続くなどして、入力テキスト300の受け入れ可能な解釈を形成
することができる。
索エンジンは次に、入力された表音テキストを選択した候補と関連する言語テキ
ストに変換する。例えば、検索エンジンは入力テキスト300をボックス304
、306、308、310、312、および314で示されている言語テキスト
に変換し、エディタ204を介して言語テキストをユーザインタフェース132
に返す。句読点がユーザインタフェースに届いた後、つまり新しい入力テキスト
文字列が新しいセンテンス内に入ると、タイピングモデル135は新しいセンテ
ンス内の新しいテキスト文字列に対する操作を開始する。
に変換する一般的プロセス400を示している。このプロセスは、言語入力アー
キテクチャ131によって実装されており、図2をさらに参照して説明する。
インなどの表音テキスト列を受け取る。入力テキスト文字列には、1つまたは複
数のタイプミスが含まれる。UI 132は、エディタ204を介して入力テキ
ストを検索エンジン134に渡し、検索エンジンは入力テキストをタイピングモ
デル135とセンテンス文脈モデル216に分配する。
なタイピング候補を生成する。候補を導く一方法として、入力テキスト文字列を
異なるパーティションに分割し、その入力文字列セグメントに最もよく類似する
候補をデータベース内で検索する。例えば、図3で、候補302は可能なセグメ
ント「ma」、「fan」などを示すセグメンテーションを持つ。
136に伝達される。言語モデル136は、有望なタイピング候補と前のテキス
トとを組み合わせ、タイピング候補に対応する言語テキストの1つまたは複数の
候補を生成する。例えば、図3の候補302を参照すると、言語モデルはボック
ス302a−j内に言語テキストを可能な出力テキストとして返す。
するものである確率が最も高いかを判別する統計分析を実行する。表音テキスト
に最も可能性の高いタイピング候補を選択した後、検索エンジンは入力された表
音テキストをタイピング候補と関連する言語テキストに変換する。この方法によ
り、表音テキストの入力時のユーザによる入力誤りがなくなる。検索エンジン1
34は、エディタ204を介して誤りのない言語テキストをUI 132に返す
。ステップ408では、変換された言語テキストは、ユーザが表音テキストを入
力し続けているUI 132の画面上の同じ行内位置に表示される。
ている。タイピングモデルでは、入力テキストを出力テキストに変換するのに使
用できる異なるタイピング候補の確率を計算し、有望な候補を選択する。この方
法で、タイピングモデルは、タイピング誤りが存在していても入力テキストの有
望なタイピング候補を返すことにより誤りを許容する。
ーニングに関するものである。タイピングモデルは、数百または好ましくは数千
などできる限り多くのトレーナによるテキスト入力に基づいて開発またはトレー
ニングされる。トレーナは同じまたは異なるトレーニングデータを入力し、入力
されたデータとトレーニングデータとの分散をタイピング誤りとして捕らえる。
目標は、同じトレーニングテキストをタイプさせ、タイピングでの誤りの個数ま
たはタイピング候補に基づいて確率を求めることである。このようにして、タイ
ピングモデルはトレーナのタイピング誤りの確率を学習する。
6を備えるトレーニング用コンピュータ500を示している。トレーニング用コ
ンピュータ500では、ユーザが入力したデータ510から確率512(つまり
、P(s|w))を求めるトレーニングプログラム508を実行する。トレーニ
ングプログラム508は、プロセッサ502で実行するように図に示されている
が、不揮発性メモリ506のストレージからプロセッサにロードされる。トレー
ニング用コンピュータ500は、オンザフライでの入力時に、あるいは収集しメ
モリに格納した後にデータ510に基づいてトレーニングを行うように構成する
ことができる。
ンテキストは中国語文字テキストに変換する。この場合、数千人の人々にピンイ
ンテキストを入力してくれるよう勧誘する。好ましくは、数千個またはそれ以上
のセンテンスを各人から収集し、目標はタイピングでの誤りの種類および個数が
類似するようにすることである。タイピングモデルは、検索エンジンからピンイ
ンテキストを受け取り、入力文字列内の文字の置き換えに使用できる有望な候補
を供給するように構成されている。
る。一方法では、タイピングモデルは、単一文字テキストを考察し、すべての同
等な発音の文字テキストを単一音節に対応付けることにより直接トレーニングさ
れる。例えば、中国語ピンインには400を超える音節がある。音節を与える表
音テキストの確率(例えば、P(ピンインテキスト|音節)をトレーニングし、
各文字テキストを対応する音節に対応付ける。
で、トレーニングプログラム508は、トレーナが入力したテキスト文字列を読
みとる。テキスト文字列は、センテンスでも、また単語および/または文字のそ
の他のグループでもよい。プログラム508は、音節をテキストの文字列内の対
応する英字に合わせるか、または対応付ける(ステップ604)。各テキスト文
字列では、各音節に対応付けた英字の頻度が更新される(ステップ606)。こ
れは、ステップ608から「はい」分岐で表されているように、トレーナにより
入力されたトレーニングデータに含まれるテキスト文字列ごとに繰り返される。
最終的に、入力されたテキスト文字列は、中国語ピンインの多くのまたはすべて
の音節を表す。ステップ608から「いいえ」分岐により表されるように、すべ
ての文字列が読み込まれたら、トレーニングプログラムは、各音節をタイプする
ユーザの確率P(ピンインテキスト|音節)を決定する(ステップ610)。一
実装では、タイピングの確率は、最初にすべての音節を正規化することにより決
定される。
ーは、HMMで対応付けられている状態のシーケンスとして表示できる。正しい
入力および実際の入力をすりあわせて状態間の遷移確率を求める。異なるHMM
を使用して、異なる技能レベルのタイピストをモデル化することができる。
である。このデータ要件を緩和するために、異なる音節内の同じ文字を1つの状
態として結びつける。これにより、状態の個数は27にまで減らされる(つまり
、「a」から「z」までの26個の異なる英字に、不明な文字を表す文字1つ)
。このモデルは、三重文字言語モデルを利用するViterbi beam検索
法に統合することもできる。
のように統計的に表すことができる。
を超えるかなり広い文脈のテキストを考慮したN重文字タイピングモデルに拡張
することもできる。従って、入力テキストの可能な文字列について、タイピング
モデルは、まず正しい文字シーケンスを供給し、次に動的プログラミングを使用
して正しい文字シーケンスを与えられた文字シーケンスに変換する最低コスト経
路を求めることにより、すべての可能な文字シーケンスを生成する確率を持つ。
コストを、最小数の誤り文字または他の何らかの測定基準として決めることがで
きる。実際には、この誤りモデルは、Viterbi Beam検索法の一部と
して実装できる。
ーニングできることは明白であろう。さらに、異なるトレーニング手法を使用し
て、本発明の範囲から逸脱することなくタイピングモデルをトレーニングするこ
とができることも明白であろう。
言語を入力したときのモードの切り替えの必要性である。例えば、中国語でタイ
プしているユーザは、英語の単語を入力したい場合がある。従来の入力システム
では、ユーザは英単語のタイピングと中国語の単語のタイプのモード切替が必要
である。残念なことに、ユーザが切り替えを忘れやすいということである。
け入れトレーニングすることができ、従って、多言語文書処理システムにおいて
2つまたはそれ以上の言語間のモード切替をなくすことができる。これは、「モ
ードレス入力」と呼ばれる。
単語を自動的に識別するスペル/タイピングモデルを実装している。これは、多
くの正当な英単語は正当なピンイン文字列であるため容易ではない。さらに、ピ
ンイン、英語、および中国語文字の間にスペースが入らないため、入力時に曖昧
さが増すことがある。以下のベイズ規則を使用すると、
)の2つの部分があることで特徴付けることができる。
カテゴリとして取り扱うことにより、第1言語(例えば、中国語)の言語モデル
をトレーニングする方法がある。例えば、第2言語からの単語を第1言語の単一
単語として取り扱う。
スとして使用する。中国語ベースの文書処理システムで採用しているタイピング
モデルは、中国語言語モデルであって、英単語と中国語単語を混ぜたテキストで
トレーニングされる。
タイピングモデル、中国語タイピングモデルと英語タイピングモデルを実装し、
それぞれを別々にトレーニングする方法がある。つまり、中国語タイピングモデ
ルは、上で説明した方法でトレーナにより入力された表音列などのキーボード入
力のストリーム上でトレーニングされ、英語タイピングモデルは英語を話すトレ
ーナによって入力された英語テキスト上でトレーニングされる。
語モデル。このモデルは、多くの頻繁に使用される英単語を取り扱えるが、見た
ことのない英単語は予測できない。
スに対し確率が0でないが、英語に似た単語になる可能性のある単語については
確率が高くなる。これは、実際の英単語からもトレーニングでき、見たことのな
い英単語も取り扱える。
語テキストのように見える英字列には高い確率、非英語テキストには低い確率を
返す。
700を示しており、これは複数のタイピングモデル135(1)〜135(N
)を採用している。各タイピングモデルは、特定の言語に合わせて構成されてい
る。各タイピングモデル135は、単語と、特定の言語に共通する誤りを使用し
て別々にトレーニングされる。従って、別々のトレーニングデータ212(1)
〜212(N)が、関連するタイピングモデル135(1)〜135(N)につ
いて供給される。実施例では、英語に対して1つのタイピングモデル、中国語に
対してもう1つのタイピングモデルというようにタイピングモデルを2つだけ使
用している。ただし、言語入力アーキテクチャを修正して、2つよりも多いタイ
ピングモデルを含めて、2つよりも多い言語の入力に対応するようにできること
は明白であろう。また、言語入力アーキテクチャは、日本語、韓国語、フランス
語、ドイツ語などの他の多くの多言語文書処理システムでも使用できることも指
摘しておくべきであろう。
グモデルと並列に動作する。2つのタイピングモデルは互いに競合しており、入
力したテキスト文字列が中国語文字列(誤りを含む)または英語文字列(さらに
潜在的に誤りを含む)である可能性のある確率を計算することにより入力テキス
トが英語か中国語かを識別する。
合、中国語タイピングモデルは英語タイピングモデルよりもかなり高い確率を返
す。そこで、言語入力アーキテクチャは、入力されたピンインテキストを漢字テ
キストに変換する。入力テキストの文字列またはシーケンスが明確に英語(例え
ば、サーネーム、頭字語(「IEEE」)、会社名(「Microsoft」)
、技術(「INTERNET」)、など)の場合、英語タイピングモデルは中国
語タイピングモデルよりもかなり高い確率を示す。従って、このアーキテクチャ
は、英語タイピングモデルに基づいて入力テキストを英語テキストに変換する。
ピングモデルは、中国語か英語かわからない曖昧さを解消するためにさらなる文
脈から情報が得られるまで確率を計算し続ける。入力テキストの文字列またはシ
ーケンスが中国語にも英語にも似ていない場合、中国語タイピングモデルは英語
タイピングモデルよりも許容性が低い。そのため、英語タイピングモデルは確率
が、中国語タイピングモデルよりも高くなる。
むのが好きだ」という意味のテキスト文字列「woaiduinternetz
azhi」を入力すると仮定する。初期文字列「woaidu」を受け取った後
、中国語タイピングモデルは、英語タイピングモデルよりも高い確率となり、入
力テキストのその部分を「INTERNET」に変換する。このアーキテクチャ
は、続いてタイプした曖昧な部分「interne」を英字「t」がタイプされ
るまで探し続ける。このときに、英語タイピングモデルは、「INTERNET
」について中国語タイピングモデルよりも高い確率を返し、言語入力アーキテク
チャは入力テキストのこの部分を「INTERNET」に変換する。次に、中国
語タイピングモデルは、「zazhi」について英語タイピングモデルよりも高
い確率を示し、言語入力アーキテクチャは入力テキストのその部分を「 」
に変換する。
い多言語出力テキスト文字列に変換するプロセス800を示している。このプロ
セスは、言語入力アーキテクチャ700によって実装されており、図7をさらに
参照して説明する。
字列を受け取る。これは、少なくとも1つの他の言語(例えば、英語)の表音単
語(例えば、ピンイン)および単語を含む。入力テキストはさらに、ユーザが表
音単語および第2言語の単語を入力したときのタイプミスも含む場合がある。U
I 132は、エディタ204を介して多言語入力テキスト文字列を検索エンジ
ン134に渡し、検索エンジンは入力テキストをタイピングモデル135(1)
〜135(N)とセンテンス文脈モデル216に分配する。
表されるような入力テキストに基づいて有望なタイピング候補を生成する。ステ
ップ806では、妥当な確率が設定された有望なタイピング候補が検索エンジン
134に返される。ステップ808では、検索エンジン134がタイピング確率
とともにタイピング候補を言語モデル136に送る。ステップ810では、言語
モデルが有望なタイピング候補と前のテキストとを組み合わせて、センテンスベ
ースの文脈を用意し、図3に関して上で説明したように、そのタイピング候補を
通じて経路を選択することによりタイピング候補に対応する言語テキストの1つ
または複数の変換候補を生成する。ステップ812では、検索エンジン134は
統計分析を実行して、ユーザが意図する最高の確率を示す変換候補を選択する。
スト文字列に変換される。出力テキスト文字列は、言語テキスト(例えば、漢字
)と第2言語(例えば、英語)を含むが、タイピング誤りは省かれる。検索エン
ジン134は、エディタ204を介して誤りのない出力テキストをUI 132
に返す。ステップ816では、変換された言語テキストは、ユーザが表音テキス
トを入力し続けているUI 132の画面上の同じ行内位置に表示される。
方とも、主言語として指定できることは明白であろう。さらに、2つよりも多い
言語は混合入力テキスト文字列を形成することができる。
いるが、付属の請求項で定義されている本発明は説明した特定の機能または動作
に限られるわけではない。むしろ、特定の機能および動作は、本発明を実装する
実施例として開示されている。
ピュータシステムのブロック図である。
、テキスト文字列に誤りが含まれると仮定してそれらの音節を置き換えるのに使
用することができる候補を説明しているブロック図である。
するために使用されるトレーニングコンピュータのブロック図である。
ブロック図である。
Claims (53)
- 【請求項1】 スペルミスを含む入力文字列を受け取る工程と、 少なくとも一部は統計的言語モデルを使用して前記スペルミスを修正する工程
と を具えたことを特徴とする方法。 - 【請求項2】 前記修正する工程は、 N重文字統計的言語モデルを使用することを含むことを特徴とする請求項1記
載の方法。 - 【請求項3】 タイピングモデルを使用して前記スペルミスを修正するため
可能な候補文字列を生成する工程 をさらに具えたことを特徴とする請求項1記載の方法。 - 【請求項4】 前記統計的言語モデルと前記タイピングモデルから返された
組み合わせ確率により複数の可能な候補文字列を分析する工程 をさらに具えたことを特徴とする請求項3記載の方法。 - 【請求項5】 入力文字列を受け取る工程と、 前記候補文字列が前記入力文字列として間違って入力された確率に基づいて前
記入力文字列を置き換えるのに使用できる、少なくとも1つの候補文字列を判別
する工程と、 前記候補文字列を使用して少なくとも1つの出力文字列を導出する工程と、 前記入力文字列を前記出力文字列に変換する工程と を具えたことを特徴とする方法。 - 【請求項6】 前記入力文字列は表音テキストを含み、前記出力文字列は言
語テキストを含むことを特徴とする請求項5記載の方法。 - 【請求項7】 前記入力文字列はピンインを含み、前記出力文字列は漢字を
含むことを特徴とする請求項5記載の方法。 - 【請求項8】 前記判別する工程は、 データベースから前記1つ又は複数の候補文字列を取得することを含むことを
特徴とする請求項5記載の方法。 - 【請求項9】 トレーニングテキストを入力した複数のユーザから集めたデ
ータをもとに、前記候補文字列が前記表音列として間違って入力された前記確率
を導出する工程 をさらに具えたことを特徴とする請求項5記載の方法。 - 【請求項10】 前記判別する工程は、 複数の異なる方法で前記入力文字列をセグメント分割し、前記入力文字列を置
き換えるのに使用できる複数の候補文字列を生成し、前記候補文字列のそれぞれ
が前記候補文字列を前記入力文字列として間違って入力した確率に基づくことを
特徴とする請求項5記載の方法。 - 【請求項11】 前記使用は、 前記候補文字列のそれぞれを出力文字列と関連付けることを含むことを特徴と
する請求項10記載の方法。 - 【請求項12】 前記入力文字列を置き換えるのに使用できる複数の候補文
字列を判別する工程と、ここで、前記候補文字列のそれぞれは、前記候補文字列
を前記入力文字列として間違って入力する確率に基づくものであり、 前記複数の候補文字列を使用して、複数の関連する出力文字列を導出する工程
と、 前記確率に応じて前記候補文字列を選択し、前記変換のため前記選択した候補
文字列と関連付けられる前記出力文字列を使用する工程と をさらに具えたことを特徴とする請求項5記載の方法。 - 【請求項13】 ユーザが入力している前記入力文字列と同じ行に前記出力
文字列を表示する工程 をさらに具えたことを特徴とする請求項5記載の方法。 - 【請求項14】 プロセッサ上で実行すると請求項5記載の前記方法を実行
するようコンピュータに指令するコンピュータ実行可能命令を具えたことを特徴
とする1つ又は複数のコンピュータ読み取り可能媒体。 - 【請求項15】 複数の異なる方法で入力文字列をセグメント分割し、前記
入力文字列を置き換えるのに使用できる複数の候補文字列を生成する工程と、こ
こで、前記候補文字列のそれぞれは、前記候補文字列を前記入力文字列として間
違って入力する確率に基づくものであり、 少なくとも1つの出力文字列を前記候補文字列のそれぞれと関連付ける工程と
を具えたことを特徴とする方法。 - 【請求項16】 前記入力文字列は表音テキストを含み、前記出力文字列は
言語テキストを含むことを特徴とする請求項15記載の方法。 - 【請求項17】 前記入力文字列はピンインを含み、前記出力文字列は漢字
を含むことを特徴とする請求項15記載の方法。 - 【請求項18】 前記入力文字列はピンインと英語の組み合わせを含み、前
記出力文字列は漢字と英語の組み合わせを含むことを特徴とする請求項15記載
の方法。 - 【請求項19】 最高の確率が設定された特定の候補文字列を選択し、表音
テキストの前記入力文字列を前記特定の候補文字列と関連する前記出力文字列に
変換する工程 をさらに具えたことを特徴とする請求項15記載の方法。 - 【請求項20】 プロセッサ上で実行すると請求項15記載の前記方法を実
行するようコンピュータに指令するコンピュータ実行可能命令を具えたことを特
徴とする1つ又は複数のコンピュータ読み取り可能媒体。 - 【請求項21】 入力文字列を受け取る工程と、 少なくとも1つのトレーニングテキストを入力する複数のユーザから集めた実
際のデータをもとにトレーニングされたタイピングモデルを使用して、前記入力
文字列を可能な修正について評価する工程 を具えたことを特徴とする方法。 - 【請求項22】 言語モデルを使用し、前記入力文字列の言語の文脈に基づ
いて前記入力文字列を置き換えるため有望な候補文字列を導出する工程 をさらに具えたことを特徴とする請求項21記載の方法。 - 【請求項23】 タイピングモデルを構築する工程と、 前記タイピングモデルをトレーニングして、ユーザが第2の文字列が入力され
たときに第1の文字列を入力するつもりであった確率を求める工程と を具え、ここで、前記トレーニングは、少なくとも1つのトレーニングテキスト
を入力する複数のユーザから集めたデータに基づくことを特徴とする方法。 - 【請求項24】 前記トレーニングは、発音が等しいすべての文字列を個々
の音節に対応付けることを含むことを特徴とする請求項23記載の方法。 - 【請求項25】 前記トレーニングは、 複数の文字からなる文字列を読み取る工程と、 音節を前記文字列内の対応する文字に対応付ける工程と、 個々の音節について、前記音節に対応付ける前記文字列内の前記文字の頻度カ
ウント数を維持する工程と、 前記音節が前記頻度カウント数に基づいて前記文字列の正しい入力を表す確率
を決定する工程と を含むことを特徴とする請求項23記載の方法。 - 【請求項26】 プロセッサ上で実行すると請求項23記載の前記方法を実
行するようコンピュータに指令するコンピュータ実行可能命令を具えたことを特
徴とする1つ又は複数のコンピュータ読み取り可能媒体。 - 【請求項27】 タイピングモデルをトレーニングする方法であって、 複数の文字からなるテキスト文字列を読み取る工程と、 音節を前記テキスト文字列内の対応する文字に対応付ける工程と、 個々の音節について、前記音節に対応付ける前記テキスト文字列内の前記文字
の頻度カウント数を維持する工程と、 前記音節が前記頻度カウント数に基づいて前記テキスト文字列の正しい入力を
表す確率を決定する工程と を具えたことを特徴とする方法。 - 【請求項28】 前記テキスト文字列は、表音テキストを含むことを特徴と
する請求項27記載の方法。 - 【請求項29】 前記テキスト文字列は、表音テキストと非表音テキストと
の混合を含むことを特徴とする請求項27記載の方法。 - 【請求項30】 プロセッサ上で実行すると請求項27記載の前記方法を実
行するようコンピュータに指令するコンピュータ実行可能命令を具えたことを特
徴とする1つ又は複数のコンピュータ読み取り可能媒体。 - 【請求項31】 言語入力アーキテクチャであって、 入力文字列を受け取り前記入力文字列にスペルミスが含まれるユーザインタフ
ェースと、 先行する文字列の文脈において前記入力文字列を評価し、前記入力文字列を置
換して前記スペルミスを修正することができる有望な代替文字列を生成する言語
モデルと を具えたことを特徴とする言語入力アーキテクチャ。 - 【請求項32】 前記言語モデルは、N重文字統計的言語モデルを含むこと
を特徴とする請求項31記載の言語入力アーキテクチャ。 - 【請求項33】 前記候補文字列のそれぞれが前記入力文字列として間違っ
て入力されたタイピング誤りの確率に基づいて前記入力文字列に代用可能な、有
望なタイピング候補のリストを生成するタイピングモデル をさらに具えたことを特徴とする請求項31記載の言語入力アーキテクチャ。 - 【請求項34】 言語入力アーキテクチャであって、 入力文字列を受け取り前記入力文字列にスペルミスが含まれるユーザインタフ
ェースと、 前記候補文字列のそれぞれが入力文字列として間違って入力されたタイピング
誤りの確率に基づいて前記入力文字列を置き換えられる有望なタイピング候補の
リストを生成するタイピングモデルと を具え、 ここで、前記タイピングモデルは少なくとも1つのトレーニングテキストを入
力する複数のユーザから集めた実際にデータをもとにトレーニングされることを
特徴とする言語入力アーキテクチャ。 - 【請求項35】 前記タイピングモデルは、第1の言語を使用してトレーニ
ングされ、 前記候補文字列のそれぞれが前記入力文字列として間違って入力されたタイピ
ング誤りの確率に基づいて前記入力文字列に代用可能な、有望なタイピング候補
のリストを生成する第2のタイピングモデル をさらに具え、 前記第2のタイピングモデルは、第2の言語でトレーニングされることを特徴
とする請求項34記載の言語入力アーキテクチャ。 - 【請求項36】 言語入力アーキテクチャであって、 前記候補文字列のそれぞれが前記入力文字列として間違って入力されたタイピ
ング誤りの確率に基づいて表音テキストで書かれた入力文字列の代わりにできる
有望なタイピング候補のリストを生成するタイピングモデルと、 前記タイピング候補のそれぞれについて言語テキストで書かれた出力文字列を
供給する言語モデルと を具えたことを特徴とする言語入力アーキテクチャ。 - 【請求項37】 前記表音テキストはピンインであり、前記言語テキストは
漢字であることを特徴とする請求項36記載の言語入力アーキテクチャ。 - 【請求項38】 前記タイピングモデルは、トレーニングテキストを入力す
る複数のユーザから集めたデータを使用してトレーニングされることを特徴とす
る請求項36記載の言語入力アーキテクチャ。 - 【請求項39】 表音テキストで書かれた前記入力文字列を受け取るユーザ
インタフェースをさらに具えたことを特徴とする請求項36記載の言語入力アー
キテクチャ。 - 【請求項40】 前記タイピング候補を格納するデータベースをさらに具え
たことを特徴とする請求項36記載の言語入力アーキテクチャ。 - 【請求項41】 請求項36記載の前記言語入力アーキテクチャを具えたコ
ンピュータ読み取り可能媒体上に実現されることを特徴とするワードプロセッサ
。 - 【請求項42】 言語入力アーキテクチャであって、 入力文字列を受け取り、候補文字列が間違って前記入力文字列として入力され
たタイピング誤りの確率を決定するタイピングモデルと、 出力文字列が前記候補文字列を表す場合の言語テキストの確率を決定する言語
モデルと、 前記タイピング誤りの確率と前記言語テキストの確率に基づいて前記入力文字
列を前記出力文字列に選択的に変換する検索エンジンと を具えたことを特徴とする言語入力アーキテクチャ。 - 【請求項43】 前記入力文字列は表音テキストを含み、前記出力文字列は
言語テキストを含むことを特徴とする請求項42記載の方法。 - 【請求項44】 前記入力文字列はピンインを含み、前記出力文字列は漢字
を含むことを特徴とする請求項42記載の方法。 - 【請求項45】 前記入力文字列は表音テキストと非表音テキストの組み合
わせを含み、前記出力文字列は言語テキストと非表音テキストの組み合わせを含
むことを特徴とする請求項42記載の方法。 - 【請求項46】 前記タイピングモデルは、トレーニングテキストを入力す
る複数のユーザから集めたデータを使用してトレーニングされることを特徴とす
る請求項42記載の言語入力アーキテクチャ。 - 【請求項47】 前記入力文字列を受け取り、前記出力文字列を表示するユ
ーザインタフェースをさらに具えたことを特徴とする請求項42記載の言語入力
アーキテクチャ。 - 【請求項48】 前記タイピング候補を格納するデータベースをさらに具え
たことを特徴とする請求項42記載の言語入力アーキテクチャ。 - 【請求項49】 前記入力文字列も含むセンテンス内のすでに入力されてい
るテキストをタイピングモデルに供給するセンテンス文脈モデルをさらに具え、 ここで、前記タイピングモデルは、前記入力文字列と前記センテンス内のテキ
ストの組み合わせを使用して、前記タイピング誤りの確率を導出するように構成
されていることを特徴とする請求項42記載の言語入力アーキテクチャ。 - 【請求項50】 請求項42記載の前記言語入力アーキテクチャを具えたコ
ンピュータ読み取り可能媒体上に実現されることを特徴とするワードプロセッサ
。 - 【請求項51】 コンピュータで実行可能な命令を有する1つ又は複数のコ
ンピュータ読み取り可能媒体であって、プロセッサで実行されたときコンピュー
タに、 スペルミスを含む入力文字列を分析させ、 統計的言語モデルを使用して前記スペルミスを修正することを命令させること
を特徴とするコンピュータ読み取り可能媒体。 - 【請求項52】 コンピュータで実行可能な命令を格納した1つ又は複数の
コンピュータ読み取り可能媒体であって、プロセッサで実行されたときコンピュ
ータに、 入力文字列を受け取らせ、 少なくとも1つのトレーニングテキストを入力する複数のユーザから集めた実
際のデータをもとにトレーニングされたタイピングモデルを使用して前記入力文
字列を可能な修正について評価させることを特徴とするコンピュータ読み取り可
能媒体。 - 【請求項53】 コンピュータで実行可能な命令を格納した1つ又は複数の
コンピュータ読み取り可能媒体であって、プロセッサで実行されたときコンピュ
ータに、 入力文字列を受け取らせ、 前記候補文字列が前記入力文字列として間違って入力された確率に基づいて前
記入力文字列を置き換えるのに使用可能な、少なくとも1つの候補文字列を判別
させ、 前記候補文字列を使用して少なくとも1つの出力文字列を導出させ、 前記入力文字列を前記出力文字列に変換させることを特徴とするコンピュータ
読み取り可能媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16390299P | 1999-11-05 | 1999-11-05 | |
US60/163,902 | 1999-11-05 | ||
US09/606,660 | 2000-06-28 | ||
US09/606,660 US6848080B1 (en) | 1999-11-05 | 2000-06-28 | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
PCT/US2000/028486 WO2001035250A2 (en) | 1999-11-05 | 2000-10-13 | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003514304A true JP2003514304A (ja) | 2003-04-15 |
JP2003514304A5 JP2003514304A5 (ja) | 2013-10-10 |
JP5535417B2 JP5535417B2 (ja) | 2014-07-02 |
Family
ID=26860054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001536716A Expired - Fee Related JP5535417B2 (ja) | 1999-11-05 | 2000-10-13 | スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ |
Country Status (6)
Country | Link |
---|---|
US (3) | US6848080B1 (ja) |
JP (1) | JP5535417B2 (ja) |
CN (1) | CN1205572C (ja) |
AU (1) | AU1086801A (ja) |
HK (1) | HK1050411A1 (ja) |
WO (1) | WO2001035250A2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7395203B2 (en) | 2003-07-30 | 2008-07-01 | Tegic Communications, Inc. | System and method for disambiguating phonetic input |
KR100914370B1 (ko) * | 2002-04-26 | 2009-08-28 | 가부시키가이샤 니콘 | 투영 광학계와 이를 구비한 노광 장치 및 노광 방법 |
JP2010505208A (ja) * | 2006-09-27 | 2010-02-18 | アカデミア シニカ | タイピング効率向上のためのタイピング候補の生成方法 |
JP2010524139A (ja) * | 2007-04-11 | 2010-07-15 | グーグル・インコーポレーテッド | 入力メソッドエディタの統合 |
JP2013509623A (ja) * | 2009-10-29 | 2013-03-14 | グーグル・インコーポレーテッド | 入力示唆を発生させること |
Families Citing this family (218)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143616A (ja) | 1997-11-10 | 1999-05-28 | Sega Enterp Ltd | 文字通信装置 |
US8938688B2 (en) | 1998-12-04 | 2015-01-20 | Nuance Communications, Inc. | Contextual prediction of user words and user actions |
US7712053B2 (en) | 1998-12-04 | 2010-05-04 | Tegic Communications, Inc. | Explicit character filtering of ambiguous text entry |
US6848080B1 (en) * | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US7403888B1 (en) * | 1999-11-05 | 2008-07-22 | Microsoft Corporation | Language input user interface |
US7047493B1 (en) * | 2000-03-31 | 2006-05-16 | Brill Eric D | Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction |
WO2001090879A1 (en) * | 2000-05-26 | 2001-11-29 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for displaying information |
US20020007382A1 (en) * | 2000-07-06 | 2002-01-17 | Shinichi Nojima | Computer having character input function,method of carrying out process depending on input characters, and storage medium |
CN1226717C (zh) * | 2000-08-30 | 2005-11-09 | 国际商业机器公司 | 自动新词提取方法和系统 |
US20020078106A1 (en) * | 2000-12-18 | 2002-06-20 | Carew David John | Method and apparatus to spell check displayable text in computer source code |
US7254773B2 (en) * | 2000-12-29 | 2007-08-07 | International Business Machines Corporation | Automated spell analysis |
US6934683B2 (en) * | 2001-01-31 | 2005-08-23 | Microsoft Corporation | Disambiguation language model |
US7013258B1 (en) * | 2001-03-07 | 2006-03-14 | Lenovo (Singapore) Pte. Ltd. | System and method for accelerating Chinese text input |
US7103549B2 (en) * | 2001-03-22 | 2006-09-05 | Intel Corporation | Method for improving speech recognition performance using speaker and channel information |
US7512666B2 (en) * | 2001-04-18 | 2009-03-31 | Yahoo! Inc. | Global network of web card systems and method thereof |
US20060253784A1 (en) * | 2001-05-03 | 2006-11-09 | Bower James M | Multi-tiered safety control system and methods for online communities |
US8214196B2 (en) * | 2001-07-03 | 2012-07-03 | University Of Southern California | Syntax-based statistical translation model |
US7613601B2 (en) * | 2001-12-26 | 2009-11-03 | National Institute Of Information And Communications Technology | Method for predicting negative example, system for detecting incorrect wording using negative example prediction |
CN100442275C (zh) * | 2002-01-17 | 2008-12-10 | 戴尔产品有限公司 | 用于鉴别中文地址数据的方法和系统 |
JP4073215B2 (ja) * | 2002-01-28 | 2008-04-09 | 富士通株式会社 | 文字入力装置 |
WO2004001623A2 (en) * | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
CA2413055C (en) * | 2002-07-03 | 2006-08-22 | 2012244 Ontario Inc. | Method and system of creating and using chinese language data and user-corrected data |
KR100881000B1 (ko) * | 2002-07-22 | 2009-02-03 | 삼성전자주식회사 | 이동 무선단말기의 문자 입력 방법 |
US20040078189A1 (en) * | 2002-10-18 | 2004-04-22 | Say-Ling Wen | Phonetic identification assisted Chinese input system and method thereof |
US7315982B2 (en) * | 2003-02-26 | 2008-01-01 | Xerox Corporation | User-tailorable romanized Chinese text input systems and methods |
US7024360B2 (en) * | 2003-03-17 | 2006-04-04 | Rensselaer Polytechnic Institute | System for reconstruction of symbols in a sequence |
AU2003232839A1 (en) * | 2003-05-28 | 2005-01-21 | Leonardo Badino | Automatic segmentation of texts comprising chunsks without separators |
KR100634496B1 (ko) * | 2003-06-16 | 2006-10-13 | 삼성전자주식회사 | 입력언어모드 인식방법 및 장치와 이를 이용한 입력언어모드 자동전환방법 및 장치 |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US20050027534A1 (en) * | 2003-07-30 | 2005-02-03 | Meurs Pim Van | Phonetic and stroke input methods of Chinese characters and phrases |
US8543378B1 (en) * | 2003-11-05 | 2013-09-24 | W.W. Grainger, Inc. | System and method for discerning a term for an entry having a spelling error |
US7412385B2 (en) * | 2003-11-12 | 2008-08-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
US20050125218A1 (en) * | 2003-12-04 | 2005-06-09 | Nitendra Rajput | Language modelling for mixed language expressions |
US7587307B2 (en) * | 2003-12-18 | 2009-09-08 | Xerox Corporation | Method and apparatus for evaluating machine translation quality |
US7912159B2 (en) * | 2004-01-26 | 2011-03-22 | Hewlett-Packard Development Company, L.P. | Enhanced denoising system |
US20060184280A1 (en) * | 2005-02-16 | 2006-08-17 | Magnus Oddsson | System and method of synchronizing mechatronic devices |
US8200475B2 (en) | 2004-02-13 | 2012-06-12 | Microsoft Corporation | Phonetic-based text input method |
US7376938B1 (en) * | 2004-03-12 | 2008-05-20 | Steven Van der Hoeven | Method and system for disambiguation and predictive resolution |
US7478033B2 (en) * | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
CA2496872C (en) * | 2004-03-17 | 2010-06-08 | America Online, Inc. | Phonetic and stroke input methods of chinese characters and phrases |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
JP4424057B2 (ja) * | 2004-05-10 | 2010-03-03 | 富士ゼロックス株式会社 | 学習装置およびプログラム |
US8095364B2 (en) | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US20050289463A1 (en) * | 2004-06-23 | 2005-12-29 | Google Inc., A Delaware Corporation | Systems and methods for spell correction of non-roman characters and words |
US7502632B2 (en) * | 2004-06-25 | 2009-03-10 | Nokia Corporation | Text messaging device |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
WO2006021973A2 (en) * | 2004-08-23 | 2006-03-02 | Geneva Software Technologies Limited | A system and a method for a sim card based multi-lingual messaging application |
US20060048055A1 (en) * | 2004-08-25 | 2006-03-02 | Jun Wu | Fault-tolerant romanized input method for non-roman characters |
DE112005002534T5 (de) * | 2004-10-12 | 2007-11-08 | University Of Southern California, Los Angeles | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
US7624092B2 (en) * | 2004-11-19 | 2009-11-24 | Sap Aktiengesellschaft | Concept-based content architecture |
JP2006163651A (ja) * | 2004-12-03 | 2006-06-22 | Sony Computer Entertainment Inc | 表示装置、表示装置の制御方法、プログラム及びフォントデータ |
TWI281145B (en) * | 2004-12-10 | 2007-05-11 | Delta Electronics Inc | System and method for transforming text to speech |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
KR20070024771A (ko) * | 2005-08-30 | 2007-03-08 | 엔에이치엔(주) | 질의어 자동변환을 이용한 자동완성 질의어 제공 시스템 및방법 |
CN1928860B (zh) * | 2005-09-05 | 2010-11-10 | 日电(中国)有限公司 | 用于校正按键错误的方法、搜索装置和搜索系统 |
US7908132B2 (en) * | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
KR100643801B1 (ko) * | 2005-10-26 | 2006-11-10 | 엔에이치엔(주) | 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법 |
US7861164B2 (en) * | 2005-11-03 | 2010-12-28 | Bin Qin | Method to sequentially encode PINYIN of Chinese character with few symbols |
US7801910B2 (en) * | 2005-11-09 | 2010-09-21 | Ramp Holdings, Inc. | Method and apparatus for timed tagging of media content |
US9697231B2 (en) * | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for providing virtual media channels based on media search |
US20070118873A1 (en) * | 2005-11-09 | 2007-05-24 | Bbnt Solutions Llc | Methods and apparatus for merging media content |
US9697230B2 (en) | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications |
US20070106685A1 (en) * | 2005-11-09 | 2007-05-10 | Podzinger Corp. | Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same |
US20070106646A1 (en) * | 2005-11-09 | 2007-05-10 | Bbnt Solutions Llc | User-directed navigation of multimedia search results |
US10319252B2 (en) * | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
DK1952285T3 (da) * | 2005-11-23 | 2011-01-10 | Dun & Bradstreet Inc | Anlæg og fremgangsmåde til gennemsøgning og sammenligning af data, som har ordbilled-agtigt indhold |
US8041556B2 (en) * | 2005-12-01 | 2011-10-18 | International Business Machines Corporation | Chinese to english translation tool |
US8176128B1 (en) * | 2005-12-02 | 2012-05-08 | Oracle America, Inc. | Method of selecting character encoding for international e-mail messages |
US7536295B2 (en) * | 2005-12-22 | 2009-05-19 | Xerox Corporation | Machine translation using non-contiguous fragments of text |
KR101265263B1 (ko) * | 2006-01-02 | 2013-05-16 | 삼성전자주식회사 | 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체 |
US20070178918A1 (en) * | 2006-02-02 | 2007-08-02 | Shon Jin H | International messaging system and method for operating the system |
US7831911B2 (en) * | 2006-03-08 | 2010-11-09 | Microsoft Corporation | Spell checking system including a phonetic speller |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US7562811B2 (en) | 2007-01-18 | 2009-07-21 | Varcode Ltd. | System and method for improved quality management in a product logistic chain |
EP2024863B1 (en) | 2006-05-07 | 2018-01-10 | Varcode Ltd. | A system and method for improved quality management in a product logistic chain |
US9020804B2 (en) * | 2006-05-10 | 2015-04-28 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
US7542893B2 (en) * | 2006-05-10 | 2009-06-02 | Xerox Corporation | Machine translation using elastic chunks |
US7558725B2 (en) * | 2006-05-23 | 2009-07-07 | Lexisnexis, A Division Of Reed Elsevier Inc. | Method and apparatus for multilingual spelling corrections |
US7801722B2 (en) * | 2006-05-23 | 2010-09-21 | Microsoft Corporation | Techniques for customization of phonetic schemes |
US8386232B2 (en) * | 2006-06-01 | 2013-02-26 | Yahoo! Inc. | Predicting results for input data based on a model generated from clusters |
US7665037B2 (en) * | 2006-06-30 | 2010-02-16 | Research In Motion Limited | Method of learning character segments from received text, and associated handheld electronic device |
US8395586B2 (en) | 2006-06-30 | 2013-03-12 | Research In Motion Limited | Method of learning a context of a segment of text, and associated handheld electronic device |
US7565624B2 (en) | 2006-06-30 | 2009-07-21 | Research In Motion Limited | Method of learning character segments during text input, and associated handheld electronic device |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US7818332B2 (en) * | 2006-08-16 | 2010-10-19 | Microsoft Corporation | Query speller |
US8433556B2 (en) * | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
TWI322964B (en) * | 2006-12-06 | 2010-04-01 | Compal Electronics Inc | Method for recognizing character |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8024319B2 (en) * | 2007-01-25 | 2011-09-20 | Microsoft Corporation | Finite-state model for processing web queries |
CN101231636B (zh) * | 2007-01-25 | 2013-09-25 | 北京搜狗科技发展有限公司 | 一种便捷的信息搜索方法、系统及一种输入法系统 |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US20080221866A1 (en) * | 2007-03-06 | 2008-09-11 | Lalitesh Katragadda | Machine Learning For Transliteration |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
CN101271450B (zh) * | 2007-03-19 | 2010-09-29 | 株式会社东芝 | 裁剪语言模型的方法及装置 |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
JP2010526386A (ja) | 2007-05-06 | 2010-07-29 | バーコード リミティド | バーコード標識を利用する品質管理のシステムと方法 |
US20080288481A1 (en) * | 2007-05-15 | 2008-11-20 | Microsoft Corporation | Ranking online advertisement using product and seller reputation |
US20080288348A1 (en) * | 2007-05-15 | 2008-11-20 | Microsoft Corporation | Ranking online advertisements using retailer and product reputations |
EG25474A (en) * | 2007-05-21 | 2012-01-11 | Sherikat Link Letatweer Elbarmaguey At Sae | Method for translitering and suggesting arabic replacement for a given user input |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
JP5638948B2 (ja) | 2007-08-01 | 2014-12-10 | ジンジャー ソフトウェア、インコーポレイティッド | インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善 |
US8365071B2 (en) * | 2007-08-31 | 2013-01-29 | Research In Motion Limited | Handheld electronic device and associated method enabling phonetic text input in a text disambiguation environment and outputting an improved lookup window |
WO2009063464A2 (en) | 2007-11-14 | 2009-05-22 | Varcode Ltd. | A system and method for quality management utilizing barcode indicators |
US8010465B2 (en) | 2008-02-26 | 2011-08-30 | Microsoft Corporation | Predicting candidates using input scopes |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8312022B2 (en) | 2008-03-21 | 2012-11-13 | Ramp Holdings, Inc. | Search engine optimization |
EP2120130A1 (en) * | 2008-05-11 | 2009-11-18 | Research in Motion Limited | Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input |
US20090287474A1 (en) * | 2008-05-16 | 2009-11-19 | Yahoo! Inc. | Web embedded language input arrangement |
US20090300126A1 (en) * | 2008-05-30 | 2009-12-03 | International Business Machines Corporation | Message Handling |
US11704526B2 (en) | 2008-06-10 | 2023-07-18 | Varcode Ltd. | Barcoded indicators for quality management |
US8745051B2 (en) * | 2008-07-03 | 2014-06-03 | Google Inc. | Resource locator suggestions from input character sequence |
KR100953043B1 (ko) | 2008-07-09 | 2010-04-14 | 엔에이치엔(주) | 동의어를 이용한 검색 서비스 제공 방법 및 시스템 |
US20100017293A1 (en) * | 2008-07-17 | 2010-01-21 | Language Weaver, Inc. | System, method, and computer program for providing multilingual text advertisments |
US8122353B2 (en) * | 2008-11-07 | 2012-02-21 | Yahoo! Inc. | Composing a message in an online textbox using a non-latin script |
US8224642B2 (en) * | 2008-11-20 | 2012-07-17 | Stratify, Inc. | Automated identification of documents as not belonging to any language |
US8291069B1 (en) * | 2008-12-23 | 2012-10-16 | At&T Intellectual Property I, L.P. | Systems, devices, and/or methods for managing sample selection bias |
WO2010105428A1 (en) * | 2009-03-19 | 2010-09-23 | Google Inc. | Input method editor |
WO2010105440A1 (en) * | 2009-03-20 | 2010-09-23 | Google Inc. | Interaction with ime computing device |
GB0917753D0 (en) | 2009-10-09 | 2009-11-25 | Touchtype Ltd | System and method for inputting text into electronic devices |
US9189472B2 (en) | 2009-03-30 | 2015-11-17 | Touchtype Limited | System and method for inputting text into small screen devices |
US8798983B2 (en) * | 2009-03-30 | 2014-08-05 | Microsoft Corporation | Adaptation for statistical language model |
US10191654B2 (en) | 2009-03-30 | 2019-01-29 | Touchtype Limited | System and method for inputting text into electronic devices |
GB201016385D0 (en) * | 2010-09-29 | 2010-11-10 | Touchtype Ltd | System and method for inputting text into electronic devices |
US9424246B2 (en) | 2009-03-30 | 2016-08-23 | Touchtype Ltd. | System and method for inputting text into electronic devices |
GB0905457D0 (en) * | 2009-03-30 | 2009-05-13 | Touchtype Ltd | System and method for inputting text into electronic devices |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US7809550B1 (en) * | 2009-10-08 | 2010-10-05 | Joan Barry Barrows | System for reading chinese characters in seconds |
CN101706689B (zh) * | 2009-11-25 | 2013-03-13 | 福州福昕软件开发有限公司 | 通过方向键进行字符输入的方法和装置 |
US9015036B2 (en) | 2010-02-01 | 2015-04-21 | Ginger Software, Inc. | Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices |
EP2537083A1 (en) * | 2010-02-18 | 2012-12-26 | Sulaiman Alkazi | Configurable multilingual keyboard |
US10417646B2 (en) * | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US9552125B2 (en) * | 2010-05-21 | 2017-01-24 | Google Inc. | Input method editor |
US8463592B2 (en) * | 2010-07-27 | 2013-06-11 | International Business Machines Corporation | Mode supporting multiple language input for entering text |
US9081761B1 (en) * | 2010-08-31 | 2015-07-14 | The Mathworks, Inc. | Mistake avoidance and correction suggestions |
DK2439614T3 (en) * | 2010-09-16 | 2018-09-10 | Abb Schweiz Ag | Frequency converter with text editor |
GB201200643D0 (en) | 2012-01-16 | 2012-02-29 | Touchtype Ltd | System and method for inputting text |
US9465798B2 (en) * | 2010-10-08 | 2016-10-11 | Iq Technology Inc. | Single word and multi-word term integrating system and a method thereof |
US9058105B2 (en) * | 2010-10-31 | 2015-06-16 | International Business Machines Corporation | Automated adjustment of input configuration |
US20120233584A1 (en) * | 2011-03-09 | 2012-09-13 | Nec Laboratories America, Inc. | Analysis of Interactions of C and C++ Strings |
CN102135814B (zh) * | 2011-03-30 | 2017-08-08 | 北京搜狗科技发展有限公司 | 一种字词输入方法及系统 |
CN102156551B (zh) * | 2011-03-30 | 2014-04-23 | 北京搜狗科技发展有限公司 | 一种字词输入的纠错方法及系统 |
US8977535B2 (en) * | 2011-04-06 | 2015-03-10 | Pierre-Henry DE BRUYN | Transliterating methods between character-based and phonetic symbol-based writing systems |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US9552213B2 (en) * | 2011-05-16 | 2017-01-24 | D2L Corporation | Systems and methods for facilitating software interface localization between multiple languages |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
CN102955770B (zh) * | 2011-08-17 | 2017-07-11 | 深圳市世纪光速信息技术有限公司 | 一种拼音自动识别方法及系统 |
US20140358516A1 (en) * | 2011-09-29 | 2014-12-04 | Google Inc. | Real-time, bi-directional translation |
US8725497B2 (en) * | 2011-10-05 | 2014-05-13 | Daniel M. Wang | System and method for detecting and correcting mismatched Chinese character |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
CN103324621B (zh) * | 2012-03-21 | 2017-08-25 | 北京百度网讯科技有限公司 | 一种泰语文本拼写纠正方法及装置 |
US8996356B1 (en) * | 2012-04-10 | 2015-03-31 | Google Inc. | Techniques for predictive input method editors |
US8818791B2 (en) * | 2012-04-30 | 2014-08-26 | Google Inc. | Techniques for assisting a user in the textual input of names of entities to a user device in multiple different languages |
US8983211B2 (en) * | 2012-05-14 | 2015-03-17 | Xerox Corporation | Method for processing optical character recognizer output |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US20140078065A1 (en) * | 2012-09-15 | 2014-03-20 | Ahmet Akkok | Predictive Keyboard With Suppressed Keys |
US8807422B2 (en) | 2012-10-22 | 2014-08-19 | Varcode Ltd. | Tamper-proof quality management barcode indicators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US20140214401A1 (en) | 2013-01-29 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and device for error correction model training and text error correction |
CN103970765B (zh) * | 2013-01-29 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 一种改错模型训练方法、装置和文本改错方法、装置 |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US8990068B2 (en) | 2013-02-08 | 2015-03-24 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
CN104007952A (zh) * | 2013-02-27 | 2014-08-27 | 联想(北京)有限公司 | 一种输入方法、装置及电子设备 |
US9875237B2 (en) * | 2013-03-14 | 2018-01-23 | Microsfot Technology Licensing, Llc | Using human perception in building language understanding models |
WO2014172918A1 (en) * | 2013-04-27 | 2014-10-30 | Google Inc. | Fault-tolerant input method editor |
JP6155821B2 (ja) * | 2013-05-08 | 2017-07-05 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US20140372856A1 (en) | 2013-06-14 | 2014-12-18 | Microsoft Corporation | Natural Quick Functions Gestures |
US10664652B2 (en) * | 2013-06-15 | 2020-05-26 | Microsoft Technology Licensing, Llc | Seamless grid and canvas integration in a spreadsheet application |
CN105580004A (zh) * | 2013-08-09 | 2016-05-11 | 微软技术许可有限责任公司 | 提供语言帮助的输入方法编辑器 |
US9384191B2 (en) * | 2013-09-25 | 2016-07-05 | International Business Machines Corporation | Written language learning using an enhanced input method editor (IME) |
US20160239470A1 (en) * | 2013-09-26 | 2016-08-18 | Google Inc. | Context sensitive input tools |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
CN103678560A (zh) * | 2013-12-06 | 2014-03-26 | 乐视网信息技术(北京)股份有限公司 | 多媒体资源纠错检索方法、多媒体资源服务器及系统 |
US9362659B2 (en) * | 2013-12-10 | 2016-06-07 | Delphi Technologies, Inc. | Electrical connector terminal |
CN104808806B (zh) * | 2014-01-28 | 2019-10-25 | 北京三星通信技术研究有限公司 | 根据不确定性信息实现汉字输入的方法和装置 |
US9037967B1 (en) * | 2014-02-18 | 2015-05-19 | King Fahd University Of Petroleum And Minerals | Arabic spell checking technique |
CN103885608A (zh) | 2014-03-19 | 2014-06-25 | 百度在线网络技术(北京)有限公司 | 一种输入方法及系统 |
CN104050255B (zh) * | 2014-06-13 | 2017-10-03 | 上海交通大学 | 基于联合图模型的纠错方法及系统 |
US9524293B2 (en) * | 2014-08-15 | 2016-12-20 | Google Inc. | Techniques for automatically swapping languages and/or content for machine translation |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US9372848B2 (en) | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
KR102167719B1 (ko) * | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
CA2985160C (en) | 2015-05-18 | 2023-09-05 | Varcode Ltd. | Thermochromic ink indicia for activatable quality labels |
JP6898298B2 (ja) | 2015-07-07 | 2021-07-07 | バーコード リミティド | 電子品質表示指標 |
US9785252B2 (en) * | 2015-07-28 | 2017-10-10 | Fitnii Inc. | Method for inputting multi-language texts |
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
US10592603B2 (en) | 2016-02-03 | 2020-03-17 | International Business Machines Corporation | Identifying logic problems in text using a statistical approach and natural language processing |
US11042702B2 (en) | 2016-02-04 | 2021-06-22 | International Business Machines Corporation | Solving textual logic problems using a statistical approach and natural language processing |
US10268561B2 (en) * | 2016-02-22 | 2019-04-23 | International Business Machines Corporation | User interface error prediction |
GB201610984D0 (en) | 2016-06-23 | 2016-08-10 | Microsoft Technology Licensing Llc | Suppression of input images |
US10318632B2 (en) | 2017-03-14 | 2019-06-11 | Microsoft Technology Licensing, Llc | Multi-lingual data input system |
KR102329127B1 (ko) * | 2017-04-11 | 2021-11-22 | 삼성전자주식회사 | 방언을 표준어로 변환하는 방법 및 장치 |
WO2019060353A1 (en) | 2017-09-21 | 2019-03-28 | Mz Ip Holdings, Llc | SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES |
US10599645B2 (en) * | 2017-10-06 | 2020-03-24 | Soundhound, Inc. | Bidirectional probabilistic natural language rewriting and selection |
US11423208B1 (en) * | 2017-11-29 | 2022-08-23 | Amazon Technologies, Inc. | Text encoding issue detection |
US10635305B2 (en) * | 2018-02-01 | 2020-04-28 | Microchip Technology Incorporated | Touchscreen user interface with multi-language support |
CN108549637A (zh) * | 2018-04-19 | 2018-09-18 | 京东方科技集团股份有限公司 | 基于拼音的语义识别方法、装置以及人机对话系统 |
CN109325227A (zh) * | 2018-09-14 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于生成修正语句的方法和装置 |
CN109831543B (zh) * | 2018-12-13 | 2021-08-24 | 山东亚华电子股份有限公司 | 一种组网方法、医疗通信设备和医疗分机 |
CN112328737B (zh) * | 2019-07-17 | 2023-05-05 | 北方工业大学 | 一种拼写数据的生成方法 |
CN110415679B (zh) * | 2019-07-25 | 2021-12-17 | 北京百度网讯科技有限公司 | 语音纠错方法、装置、设备和存储介质 |
US11328712B2 (en) * | 2019-08-02 | 2022-05-10 | International Business Machines Corporation | Domain specific correction of output from automatic speech recognition |
CN110633461B (zh) * | 2019-09-10 | 2024-01-16 | 北京百度网讯科技有限公司 | 文档检测处理方法、装置、电子设备和存储介质 |
CN113553832B (zh) * | 2020-04-23 | 2024-07-23 | 阿里巴巴集团控股有限公司 | 文字处理方法和装置、电子设备以及计算机可读存储介质 |
CN113763961B (zh) * | 2020-06-02 | 2024-04-09 | 阿里巴巴集团控股有限公司 | 一种文本处理方法及装置 |
CN112464650A (zh) * | 2020-11-12 | 2021-03-09 | 创新工场(北京)企业管理股份有限公司 | 一种文本纠错方法和装置 |
JP2022096311A (ja) * | 2020-12-17 | 2022-06-29 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
US12086542B2 (en) * | 2021-04-06 | 2024-09-10 | Talent Unlimited Online Services Private Limited | System and method for generating contextualized text using a character-based convolutional neural network architecture |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6097426A (ja) | 1983-10-31 | 1985-05-31 | Ricoh Co Ltd | 日本語入力装置 |
JPH01193968A (ja) | 1988-01-28 | 1989-08-03 | Ricoh Co Ltd | 文字処理装置 |
JPH0330048A (ja) | 1989-06-28 | 1991-02-08 | Matsushita Electric Ind Co Ltd | 文字入力装置 |
JPH0475162A (ja) * | 1990-07-18 | 1992-03-10 | Toshiba Corp | 仮名漢字変換装置 |
JPH0485660A (ja) * | 1990-07-30 | 1992-03-18 | Matsushita Electric Ind Co Ltd | 入力誤り自動訂正装置 |
JPH04167051A (ja) | 1990-10-31 | 1992-06-15 | Toshiba Corp | 文書編集方法及び装置 |
JPH05108647A (ja) | 1991-10-14 | 1993-04-30 | Omron Corp | 漢字変換装置 |
JPH05282360A (ja) * | 1992-03-31 | 1993-10-29 | Hitachi Ltd | 多国語入力装置 |
JPH0736878A (ja) | 1993-07-23 | 1995-02-07 | Sharp Corp | 同音異義語選択装置 |
JPH0757055A (ja) | 1993-08-17 | 1995-03-03 | Sony Corp | 形状入力装置 |
JPH0962672A (ja) * | 1995-08-29 | 1997-03-07 | Niigata Nippon Denki Software Kk | 日本語入力装置 |
JPH10232863A (ja) * | 1996-12-19 | 1998-09-02 | Omron Corp | かな漢字変換装置および方法、並びに記録媒体 |
JPH113338A (ja) | 1997-06-11 | 1999-01-06 | Toshiba Corp | 多言語入力システム、多言語入力方法及び多言語入力プログラムを記録した記録媒体 |
JPH117448A (ja) * | 1997-06-17 | 1999-01-12 | Omron Corp | 記録媒体および文字入力装置 |
JPH1196141A (ja) | 1997-09-18 | 1999-04-09 | Toshiba Corp | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 |
JPH11175518A (ja) | 1997-12-11 | 1999-07-02 | Omron Corp | 文字列入力装置、文字列入力方法および文字列入力プログラムを記録したプログラム記録媒体 |
Family Cites Families (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3435124A (en) | 1966-02-07 | 1969-03-25 | William H Channell | Pedestal and underground terminals for buried cable systems |
US4383307A (en) | 1981-05-04 | 1983-05-10 | Software Concepts, Inc. | Spelling error detector apparatus and methods |
GB2158776A (en) | 1984-02-24 | 1985-11-20 | Chang Chi Chen | Method of computerised input of Chinese words in keyboards |
JPH0664585B2 (ja) | 1984-12-25 | 1994-08-22 | 株式会社東芝 | 翻訳編集装置 |
DE3615972A1 (de) | 1985-05-14 | 1986-11-20 | Sharp K.K., Osaka | Zweisprachiges uebersetzungssystem mit eigen-intelligenz |
US5175803A (en) | 1985-06-14 | 1992-12-29 | Yeh Victor C | Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language |
US5384701A (en) | 1986-10-03 | 1995-01-24 | British Telecommunications Public Limited Company | Language translation system |
US4833610A (en) | 1986-12-16 | 1989-05-23 | International Business Machines Corporation | Morphological/phonetic method for ranking word similarities |
US4864503A (en) | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
US5218536A (en) | 1988-05-25 | 1993-06-08 | Franklin Electronic Publishers, Incorporated | Electronic spelling machine having ordered candidate words |
JPH02140868A (ja) | 1988-11-22 | 1990-05-30 | Toshiba Corp | 機械翻訳システム |
US5095432A (en) | 1989-07-10 | 1992-03-10 | Harris Corporation | Data processing system implemented process and compiling technique for performing context-free parsing algorithm based on register vector grammar |
US5258909A (en) | 1989-08-31 | 1993-11-02 | International Business Machines Corporation | Method and apparatus for "wrong word" spelling error detection and correction |
US5278943A (en) | 1990-03-23 | 1994-01-11 | Bright Star Technology, Inc. | Speech animation and inflection system |
US5572423A (en) * | 1990-06-14 | 1996-11-05 | Lucent Technologies Inc. | Method for correcting spelling using error frequencies |
US5270927A (en) | 1990-09-10 | 1993-12-14 | At&T Bell Laboratories | Method for conversion of phonetic Chinese to character Chinese |
TW268115B (ja) | 1991-10-14 | 1996-01-11 | Omron Tateisi Electronics Co | |
US5267345A (en) | 1992-02-10 | 1993-11-30 | International Business Machines Corporation | Speech recognition apparatus which predicts word classes from context and words from word classes |
US5459739A (en) | 1992-03-18 | 1995-10-17 | Oclc Online Computer Library Center, Incorporated | Merging three optical character recognition outputs for improved precision using a minimum edit distance function |
US5535119A (en) | 1992-06-11 | 1996-07-09 | Hitachi, Ltd. | Character inputting method allowing input of a plurality of different types of character species, and information processing equipment adopting the same |
JPH0689302A (ja) | 1992-09-08 | 1994-03-29 | Hitachi Ltd | 辞書メモリ |
US5675815A (en) | 1992-11-09 | 1997-10-07 | Ricoh Company, Ltd. | Language conversion system and text creating system using such |
US5568383A (en) | 1992-11-30 | 1996-10-22 | International Business Machines Corporation | Natural language translation system and document transmission network with translation loss information and restrictions |
US5671426A (en) | 1993-06-22 | 1997-09-23 | Kurzweil Applied Intelligence, Inc. | Method for organizing incremental search dictionary |
DE4323241A1 (de) | 1993-07-12 | 1995-02-02 | Ibm | Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text |
AU7511794A (en) | 1993-12-22 | 1995-07-10 | Taligent, Inc. | Input methods framework |
US5930755A (en) | 1994-03-11 | 1999-07-27 | Apple Computer, Inc. | Utilization of a recorded sound sample as a voice source in a speech synthesizer |
US5704007A (en) | 1994-03-11 | 1997-12-30 | Apple Computer, Inc. | Utilization of multiple voice sources in a speech synthesizer |
US6154758A (en) | 1994-05-13 | 2000-11-28 | Apple Computer, Inc. | Text conversion method for computer systems |
US5521816A (en) * | 1994-06-01 | 1996-05-28 | Mitsubishi Electric Research Laboratories, Inc. | Word inflection correction system |
US5510998A (en) | 1994-06-13 | 1996-04-23 | Cadence Design Systems, Inc. | System and method for generating component models |
JP2773652B2 (ja) | 1994-08-04 | 1998-07-09 | 日本電気株式会社 | 機械翻訳装置 |
JPH0877173A (ja) | 1994-09-01 | 1996-03-22 | Fujitsu Ltd | 文字列修正システムとその方法 |
AU3734395A (en) | 1994-10-03 | 1996-04-26 | Helfgott & Karas, P.C. | A database accessing system |
SG42314A1 (en) | 1995-01-30 | 1997-08-15 | Mitsubishi Electric Corp | Language processing apparatus and method |
CA2170669A1 (en) | 1995-03-24 | 1996-09-25 | Fernando Carlos Neves Pereira | Grapheme-to phoneme conversion with weighted finite-state transducers |
US5774588A (en) | 1995-06-07 | 1998-06-30 | United Parcel Service Of America, Inc. | Method and system for comparing strings with entries of a lexicon |
US5893133A (en) | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
US5806021A (en) | 1995-10-30 | 1998-09-08 | International Business Machines Corporation | Automatic segmentation of continuous text using statistical approaches |
US6356886B1 (en) * | 1995-11-30 | 2002-03-12 | Electronic Data Systems Corporation | Apparatus and method for communicating with a knowledge base |
US5875443A (en) | 1996-01-30 | 1999-02-23 | Sun Microsystems, Inc. | Internet-based spelling checker dictionary system with automatic updating |
JPH09259126A (ja) | 1996-03-21 | 1997-10-03 | Sharp Corp | データ処理装置 |
US5933525A (en) | 1996-04-10 | 1999-08-03 | Bbn Corporation | Language-independent and segmentation-free optical character recognition system and method |
US6161083A (en) | 1996-05-02 | 2000-12-12 | Sony Corporation | Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation |
DE69711761T2 (de) | 1996-05-29 | 2002-08-14 | Matsushita Electric Industrial Co., Ltd. | Anordnung zur Dokumentkonvertierung |
US5956739A (en) | 1996-06-25 | 1999-09-21 | Mitsubishi Electric Information Technology Center America, Inc. | System for text correction adaptive to the text being corrected |
US6085162A (en) | 1996-10-18 | 2000-07-04 | Gedanken Corporation | Translation system and method in which words are translated by a specialized dictionary and then a general dictionary |
US5907705A (en) | 1996-10-31 | 1999-05-25 | Sun Microsystems, Inc. | Computer implemented request to integrate (RTI) system for managing change control in software release stream |
CN1193779A (zh) * | 1997-03-13 | 1998-09-23 | 国际商业机器公司 | 中文语句分词方法及其在中文查错系统中的应用 |
TW421750B (en) | 1997-03-14 | 2001-02-11 | Omron Tateisi Electronics Co | Language identification device, language identification method and storage media recorded with program of language identification |
US6047300A (en) | 1997-05-15 | 2000-04-04 | Microsoft Corporation | System and method for automatically correcting a misspelled word |
US5974413A (en) | 1997-07-03 | 1999-10-26 | Activeword Systems, Inc. | Semantic user interface |
CA2242065C (en) | 1997-07-03 | 2004-12-14 | Henry C.A. Hyde-Thomson | Unified messaging system with automatic language identification for text-to-speech conversion |
US6131102A (en) | 1998-06-15 | 2000-10-10 | Microsoft Corporation | Method and system for cost computation of spelling suggestions and automatic replacement |
US6490563B2 (en) | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
US7191393B1 (en) | 1998-09-25 | 2007-03-13 | International Business Machines Corporation | Interface for providing different-language versions of markup-language resources |
US6356866B1 (en) | 1998-10-07 | 2002-03-12 | Microsoft Corporation | Method for converting a phonetic character string into the text of an Asian language |
US6148285A (en) | 1998-10-30 | 2000-11-14 | Nortel Networks Corporation | Allophonic text-to-speech generator |
JP4302326B2 (ja) * | 1998-11-30 | 2009-07-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | テキストの自動区分 |
US6204848B1 (en) | 1999-04-14 | 2001-03-20 | Motorola, Inc. | Data entry apparatus having a limited number of character keys and method |
US6782505B1 (en) | 1999-04-19 | 2004-08-24 | Daniel P. Miranker | Method and system for generating structured data from semi-structured data sources |
US6401065B1 (en) | 1999-06-17 | 2002-06-04 | International Business Machines Corporation | Intelligent keyboard interface with use of human language processing |
US6848080B1 (en) * | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US6573844B1 (en) * | 2000-01-18 | 2003-06-03 | Microsoft Corporation | Predictive keyboard |
US6646572B1 (en) * | 2000-02-18 | 2003-11-11 | Mitsubish Electric Research Laboratories, Inc. | Method for designing optimal single pointer predictive keyboards and apparatus therefore |
US7047493B1 (en) | 2000-03-31 | 2006-05-16 | Brill Eric D | Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction |
US7076731B2 (en) | 2001-06-02 | 2006-07-11 | Microsoft Corporation | Spelling correction system and method for phrasal strings using dictionary looping |
-
2000
- 2000-06-28 US US09/606,660 patent/US6848080B1/en not_active Expired - Fee Related
- 2000-10-13 AU AU10868/01A patent/AU1086801A/en not_active Abandoned
- 2000-10-13 WO PCT/US2000/028486 patent/WO2001035250A2/en active Application Filing
- 2000-10-13 JP JP2001536716A patent/JP5535417B2/ja not_active Expired - Fee Related
- 2000-10-13 CN CNB008152934A patent/CN1205572C/zh not_active Expired - Fee Related
-
2003
- 2003-04-10 HK HK03102606A patent/HK1050411A1/xx not_active IP Right Cessation
-
2004
- 2004-09-27 US US10/951,307 patent/US7424675B2/en not_active Expired - Fee Related
- 2004-10-21 US US10/970,438 patent/US7302640B2/en not_active Expired - Fee Related
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6097426A (ja) | 1983-10-31 | 1985-05-31 | Ricoh Co Ltd | 日本語入力装置 |
JPH01193968A (ja) | 1988-01-28 | 1989-08-03 | Ricoh Co Ltd | 文字処理装置 |
JPH0330048A (ja) | 1989-06-28 | 1991-02-08 | Matsushita Electric Ind Co Ltd | 文字入力装置 |
JPH0475162A (ja) * | 1990-07-18 | 1992-03-10 | Toshiba Corp | 仮名漢字変換装置 |
JPH0485660A (ja) * | 1990-07-30 | 1992-03-18 | Matsushita Electric Ind Co Ltd | 入力誤り自動訂正装置 |
JPH04167051A (ja) | 1990-10-31 | 1992-06-15 | Toshiba Corp | 文書編集方法及び装置 |
JPH05108647A (ja) | 1991-10-14 | 1993-04-30 | Omron Corp | 漢字変換装置 |
JPH05282360A (ja) * | 1992-03-31 | 1993-10-29 | Hitachi Ltd | 多国語入力装置 |
JPH0736878A (ja) | 1993-07-23 | 1995-02-07 | Sharp Corp | 同音異義語選択装置 |
JPH0757055A (ja) | 1993-08-17 | 1995-03-03 | Sony Corp | 形状入力装置 |
JPH0962672A (ja) * | 1995-08-29 | 1997-03-07 | Niigata Nippon Denki Software Kk | 日本語入力装置 |
JPH10232863A (ja) * | 1996-12-19 | 1998-09-02 | Omron Corp | かな漢字変換装置および方法、並びに記録媒体 |
JPH113338A (ja) | 1997-06-11 | 1999-01-06 | Toshiba Corp | 多言語入力システム、多言語入力方法及び多言語入力プログラムを記録した記録媒体 |
JPH117448A (ja) * | 1997-06-17 | 1999-01-12 | Omron Corp | 記録媒体および文字入力装置 |
JPH1196141A (ja) | 1997-09-18 | 1999-04-09 | Toshiba Corp | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 |
JPH11175518A (ja) | 1997-12-11 | 1999-07-02 | Omron Corp | 文字列入力装置、文字列入力方法および文字列入力プログラムを記録したプログラム記録媒体 |
Non-Patent Citations (3)
Title |
---|
CSNG199800179005; 匂坂 芳典: '音声処理技術とその応用 4.音声認識技術' 情報処理 第38巻,第11号, 19971115, pp.992-997, 社団法人情報処理学会 * |
JPN6010021810; 匂坂 芳典: '音声処理技術とその応用 4.音声認識技術' 情報処理 第38巻,第11号, 19971115, pp.992-997, 社団法人情報処理学会 * |
JPN7010001217; Mark Kernighan, 外2名: 'A Spelling Correction Program Based on a Noisy Channel Model' Proc. of the 13th Conference on Computational Linguistics Vol. 2, 1990, pp. 205-210, Association for Computational Linguistics * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100914370B1 (ko) * | 2002-04-26 | 2009-08-28 | 가부시키가이샤 니콘 | 투영 광학계와 이를 구비한 노광 장치 및 노광 방법 |
US7395203B2 (en) | 2003-07-30 | 2008-07-01 | Tegic Communications, Inc. | System and method for disambiguating phonetic input |
JP2010505208A (ja) * | 2006-09-27 | 2010-02-18 | アカデミア シニカ | タイピング効率向上のためのタイピング候補の生成方法 |
US8364468B2 (en) | 2006-09-27 | 2013-01-29 | Academia Sinica | Typing candidate generating method for enhancing typing efficiency |
US8594999B2 (en) | 2006-09-27 | 2013-11-26 | Academia Sinica | Typing candidate generating method for enhancing typing efficiency |
KR101425182B1 (ko) * | 2006-09-27 | 2014-08-01 | 아카데미아 시니카 | 타이핑 효율을 증강시키기 위한 타이핑 후보생성방법 |
JP2010524139A (ja) * | 2007-04-11 | 2010-07-15 | グーグル・インコーポレーテッド | 入力メソッドエディタの統合 |
US9043300B2 (en) | 2007-04-11 | 2015-05-26 | Google Inc. | Input method editor integration |
JP2013509623A (ja) * | 2009-10-29 | 2013-03-14 | グーグル・インコーポレーテッド | 入力示唆を発生させること |
Also Published As
Publication number | Publication date |
---|---|
WO2001035250A2 (en) | 2001-05-17 |
US7424675B2 (en) | 2008-09-09 |
US20050044495A1 (en) | 2005-02-24 |
AU1086801A (en) | 2001-06-06 |
CN1387650A (zh) | 2002-12-25 |
WO2001035250A3 (en) | 2002-06-06 |
US6848080B1 (en) | 2005-01-25 |
JP5535417B2 (ja) | 2014-07-02 |
US20050086590A1 (en) | 2005-04-21 |
CN1205572C (zh) | 2005-06-08 |
US7302640B2 (en) | 2007-11-27 |
HK1050411A1 (en) | 2003-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003514304A (ja) | スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ | |
JP4833476B2 (ja) | モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ | |
US9471566B1 (en) | Method and apparatus for converting phonetic language input to written language output | |
CN106598939B (zh) | 一种文本纠错方法及装置、服务器、存储介质 | |
JP5997217B2 (ja) | 言語変換において複数の読み方の曖昧性を除去する方法 | |
EP2153352B1 (en) | Recognition architecture for generating asian characters | |
US7149970B1 (en) | Method and system for filtering and selecting from a candidate list generated by a stochastic input method | |
US7810030B2 (en) | Fault-tolerant romanized input method for non-roman characters | |
EP0686286B1 (en) | Text input transliteration system | |
TWI421708B (zh) | 增進打字或按鍵輸入效率的候選字產生方法 | |
JP2003514304A5 (ja) | ||
JPH07325828A (ja) | 文法チェックシステム | |
JPH07325824A (ja) | 文法チェックシステム | |
JP2004516527A (ja) | クロス言語ライティングウィザードを伴うコンピュータ支援ライティングのシステムおよび方法 | |
US20070288240A1 (en) | User interface for text-to-phone conversion and method for correcting the same | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
Lee et al. | Automatic word spacing using probabilistic models based on character n-grams | |
Roy et al. | Unsupervised context-sensitive bangla spelling correction with character n-gram | |
Sharma et al. | Word prediction system for text entry in Hindi | |
UzZaman et al. | A comprehensive bangla spelling checker | |
JPH08272780A (ja) | 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法 | |
JPH08241315A (ja) | 文書処理装置の単語登録機構 | |
JPH0546612A (ja) | 文章誤り検出装置 | |
JPH0567076A (ja) | かな漢字変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071015 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071015 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110126 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110325 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110725 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20110726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110726 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110816 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20111021 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130702 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130708 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130802 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130815 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20130815 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20130829 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130903 |
|
RD15 | Notification of revocation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7435 Effective date: 20130903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140423 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5535417 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |