JP2014067062A

JP2014067062A - アジア文字を生成するための認識アーキテクチャ

Info

Publication number: JP2014067062A
Application number: JP2013259167A
Authority: JP
Inventors: Shiun-Zu Kuo; クオシウン−ツ; E Feige Kevin; イー．ファイゲケビン; Yifan Gong; ゴンイーファン; Taro Miwa; ミワタロウ; Chitrapu Arun; チットラプアラン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2007-04-26
Filing date: 2013-12-16
Publication date: 2014-04-17
Anticipated expiration: 2028-04-08
Also published as: JP2010525415A; EP2153352A1; JP5819924B2; WO2008134208A1; BRPI0810626A2; US20080270118A1; CN101669116B; EP2153352A4; CN101669116A; KR20100015696A; JP5622566B2; KR101532447B1; EP2153352B1; RU2009139274A; US8457946B2; RU2477518C2

Abstract

【課題】アジア言語音声認識システムにおいて、不正確な認識結果を訂正するアーキテクチャを提供する。
【解決手段】認識結果の不正確な綴りを訂正し、新語を生成するための綴りモードは、音声入力に応答して起動することができる。訂正は、音声および／または手動での選択とエントリとを使用して得られる。このアーキテクチャは、従来のシステムのように複数回でなく、単一パスでの訂正を容易にする。綴りモードを使用して訂正された単語は一単位として訂正され、一単語として扱われる。綴りモードは、少なくともアジア大陸の言語、例えば、簡体字中国語、繁体字中国語、および／または日本語などのアジア言語に適用できる。
【選択図】図１

Description

本発明は、音声認識に関し、より具体的には、アジア文字（ａｓｉａｎｃｈａｒａｃｔｅｒ）を生成するための認識アーキテクチャに関する。

英語の音声認識（ＳＲ：ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）エンジンには、主に全てまたはほぼ全ての固有名詞を含むことができないため、特にエンジンレキシコン（ｅｎｇｉｎｅｌｅｘｉｃｏｎ）内に名前を含むことができないため、綴りウィザード（ｓｐｅｌｌｉｎｇｗｉｚａｒｄ）が必要である。一方、中国語の文字の組は、中国語の文字全てがレキシコン内に含まれるので、クローズドであると考えることができる。語彙以外の文字を考慮する必要がない、またはその文字について悩む必要がない。しかし、中国語音声認識エンジンの大きな問題は、多くの異なる文字が共有する同音異義語である。約４７，０００の有効な中国語の文字が存在するが、中国語では異なるが固定である音節は約１，６００しかない。これは、音節が均一に異なる文字に割り当てられた場合、各音節は約２３〜３１個の異なる文字に対応することができ、この文字の多くは異なるものを意味するということである。

固定音節は、有効な中国語の文字に関連付けられた音節の組である。例えば、音節「ｃｈｕ」は、出初處．．．（ピンイン（Ｐｉｎｙｉｎ）で／ｃｈｕｈ／）に対応するが、「ｃｈｉｕ」に対応する有効な文字はない。固定音節の数が制限されているために、同じ発音を共有する文字はかなりの数になる。以下は、／ｌｉｈ／として同じ発音を共有する５４個の文字の一例である。なお、この／ｌｉｈ／のリストは包括的なものではない。

したがって、エンジンが単語を誤って認識した場合に、ユーザは、代替のリストから単語の訂正を試みること、または所望の単語を認識するために繰り返し発声することを試みることができる。成功しない場合は、以下の問題による。

第一に、音声オーディオ（ｖｏｉｃｅａｕｄｉｏ）が音響モデル（ＡＭ：ａｃｏｕｓｔｉｃｍｏｄｅｌ）により正確に処理されていないか、または音響モデルでは他の単語よりもその所望の単語の関連性スコアが低く、他の単語の言語モデル（ＬＭ：ｌａｎｇｕａｇｅｍｏｄｅｌ）スコアの方が高い場合、ユーザが何度単語を発声しても、出力されるのは代替リストからの正確な単語でない場合がある。

第二に、音声オーディオ（ｖｏｉｃｅｄａｕｄｉｏ）が音響モデルにより正確に処理されると仮定しても、所望の文字が代替のアイテムの数を超えたリスト・エントリ内にあって、ユーザに提示されない場合、ユーザはタイプせずに単語を取得することができなくなる。この問題は、中国語で特に文字が数字や番号の同音である時に発生しやすく、この場合、音声認識エンジンはさらに、数に対して逆テキスト正規化（ＩＴＮ：Ｉｎｖｅｒｓｅｄ−ＴｅｘｔＮｏｒｍａｌｉｚａｔｉｏｎ）（例えば、「ｔｗｅｌｖｅ」から「１２」への正規化）結果のさまざまな形式を表示する。

第三に、中国語音声認識エンジンにとって考慮しなければならない語彙以外の文字がなくても、異なる文字の組み合わせで新語がユーザによって作成される可能性がある。新語に加えて、単語の境界を示すスペースが単語間にない。単語の境界を判断するために、アジア言語簡体字中国語（ＣＨＳ：ＳｉｍｐｌｉｆｉｅｄＣｈｉｎｅｓｅ）、繁体字中国語（ＣＨＴ：ＴｒａｄｉｔｉｏｎａｌＣｈｉｎｅｓｅ）、日本語（ＪＰＮ）は、エンジン内またはインプット・メソッド・エディタ（ＩＭＥ：ｉｎｐｕｔｍｅｔｈｏｄｅｄｉｔｏｒ）処理で単語分割が必要である。このため、ユーザが中国語音声認識エンジンに対して、知られていない単語である可能性が極めて高い人名などの固有名詞を指示した場合、その名前が非常に一般的でトレーニングデータ内で見られるものでない限り、音声認識エンジンがその名前を正確に処理する可能性は極めて低い。音響モデルおよび言語モデルが正確に動作していても、ユーザは「劉麗」のような文字の名前の出力を受信する場合がある（焦点は二番目の文字である。最初の文字は性であり、二番目の文字は名である）。この名前の出力は、すでに説明した同音の問題のために所望の出力の「劉莉」とは異なる。すなわち、「麗」と「莉」とは同音であるが、異なる人物の名前で使用されるためである。このことは、同様に中国語の会話時の人間の知覚にも当てはまる。第１の人が第２の人に自分の名前を伝えた場合、第２の人は第１の人にその名前にはどんな文字を使うのかを具体的に尋ねる必要があるだろう。

最後に、ユーザが音声認識処理時に単語の文字を訂正しようとする場合に、文字（単数または複数）を選択することにより、および／または文字（単数または複数）を繰り返し発声して正確な文字が最終的に代替リスト上に現れるか否かを判断することにより、正確な出力を取得することが可能である。多くの場合、文字が多くの同音を持たない時は、置換するための正確な単語を取得することが可能である。しかし、この種の訂正は個々の文字に基づいて行われることになる。音声認識は１文字単位でなく単語単位で学習するので、音声認識ではこの訂正は学習されないことになる。したがって、ユーザがドキュメント内でこの文字を複数回必要とする場合に、ユーザはその文字が発話される度に訂正処理を繰り返さなければならなくなる。このように、従来の認識処理は面倒で効率が悪い。

本発明は、上述したような問題に鑑みてなされたものであり、その目的とするところは、アジア言語音声認識システムにおいて、不正確な認識結果を訂正するアーキテクチャを提供することにある。

以下は、本明細書内で説明するいくつかの新規な実施形態の基本的な理解のために簡略化した要約を示すものである。この要約は広範な概略ではない。この要約は、重要な／クリティカルな要素を特定するものでもなく、その範囲を線引きするものでもない。唯一の目的は、以下のより詳細な説明への前置きとして、簡略化した形でいくつかの概念を提示することである。

開示するアーキテクチャは、アジア語音声認識アルゴリズムの綴りモード（ｓｐｅｌｌｉｎｇｍｏｄｅ）を提供する。これは、新語の境界を判断することや、新語をレキシコンに追加することを容易にする。したがって、単語訂正が複数回生じる従来システムとは異なり、綴りモードに基づいて１回だけ単語訂正が生じる。

具体的には、中国語の文字の文脈では、綴りモードは、音声認識エンジンがディクテーション（ｄｉｃｔａｔｉｏｎ）で不正確な文字を返した時に、中国語の文字の入力を容易にする。綴りモードを使用して訂正される単語は一単位として訂正され、一単語として扱われる。これは、例えば、単語の境界が容易に見分けられる英語の単語とは異なり、アジア言語の境界は不明瞭であるためである。したがって、綴りモードの使用による中国語の文字の入力（この例では）は、次の認識処理において単語の誤認識を減らすか、またはなくす。

開示する綴りモードは、簡体字中国語、繁体字中国語、および／または日本語などの他のアジア言語に適用される。これらの言語では、文字は対応する固定の音を有する。

上述の関連する目的を達成するために、特定の実施態様を以下の説明および添付図面と併せて本明細書に示す。しかし、これらの態様は、本明細書で開示した原理を使用することができるほんの数例の種々の方法を示すものであり、このような全ての態様および等価物を含むものである。他の利点および新規な特徴は、図面と併せて考察すれば、以下の詳細な説明から明らかになるであろう。

コンピュータに実装された翻訳システムを示す図である。綴り／訂正処理時に学習された新語に基づいたレキシコン共有を容易にするシステムを示す図である。１つまたは複数の機能の自動化を容易にする推論コンポーネントを使用するシステムを示す図である。本明細書で開示する綴り／訂正アーキテクチャにより使用できる１つまたは複数の方法を示す図である。文字指定方法として単語発音を使用するシステムを示す図である。ユーザが出力としてアジア語の文字／単語を望む場合に表示される綴りダイアログパネルのスクリーンショットの図である。ユーザが出力として英語の単語を望む場合に表示される綴りダイアログパネルのスクリーンショットの図である。同音コマンド処理のために表示される綴りダイアログパネルのスクリーンショットの図である。同音の訂正のための発声起動コマンドに応答して表示される綴りモードダイアログパネルのスクリーンショットの図である。誤認識の単語が訂正され、発声によるインデックス選択に応答してリストボックスがクリアされたパネルを示す図である。発声発音のために表示される綴りダイアログパネルのスクリーンショットの図である。発声発音の訂正のために表示される綴りダイアログパネルのスクリーンショットの図である。発声発音の訂正に基づいて、修正された同音リストボックスと共に表示される綴りダイアログパネルのスクリーンショットの図である。誤認識の単語が訂正され、必要に応じてユーザが次の文字の訂正を継続することができるようにカーソルが、発声発音処理の次の文字に移動する時に表示される綴りダイアログパネルのスクリーンショットの図である。第２の方法による文字重み付けの肯定的、中立的、否定的な意味を使用するシステムを示す図である。第３の方法による所望の文字のサブコンポーネントの音声入力による単語分解を使用するシステムを示す図である。漢字を取得するため、ひらがなの発声／タイプ入力による日本語の認識および処理のために表示される、綴りダイアログパネルのスクリーンショットの図である。ローマ字取得に関連する日本語認識および処理のために表示される、綴りダイアログパネルのスクリーンショットの図である。開示するアーキテクチャに従う音声認識の方法を示す図である。綴りウィザードを使用して、認識結果を訂正する方法を示す図である。音声発音を文字に変換する方法を示す図である。訂正処理のためのアジア語および英語の分割コマンドを使用する方法を示す図である。アジア語綴りウィザードの同音コマンドを使用する方法を示す図である。単語の意味に重み値を付与する方法を示す図である。更新されたレキシコンを共有する方法を示す図である。綴り訂正のために文字分解を使用する方法を示す図である。綴り訂正の複数の方法に基づく訂正処理の方法を示す図である。綴り訂正の複数の方法に基づく訂正処理の方法を示す図である。開示するアーキテクチャに従って訂正処理を実行するように動作可能なコンピューティングシステムのブロック図である。開示するアーキテクチャに従う訂正処理のための例示的なコンピューティング環境の略ブロック図である。

本明細書で開示するのは、アルゴリズム、データ、アジア語の音声認識および新語／文字の取得または誤認識の文字の訂正のための綴りモードを含む少なくとも１つのユーザインタフェース（ＵＩ：ｕｓｅｒｉｎｔｅｒｆａｃｅ）を提供するアーキテクチャである。

ここで、図を参照する。図面内では、同じ符番は全体を通して同じ要素を指すのに使用されている。以下の記述では、説明のために、多数の具体的な詳細を述べて十分に理解できるようにする。しかし、新規な実施形態はこれらの具体的な詳細を示さなくても実施可能であることは明らかである場合がある。他の例では、説明を容易にするために周知の構造およびデバイスはブロック図の形式で示されている。

まず図１を参照すると、図１は、コンピュータに実装された翻訳システム１００を示す。システム１００は、アジア語の発声入力または音声入力を受信し、その入力に関して認識処理を行う音声認識コンポーネント１０２を含む。時には、認識処理は不正確なアジア語の文字および／または単語を出力することになる。このため、システム１００は、音声認識コンポーネントによる不正確なアジア語の文字／単語および／または新しいアジア語の文字／単語の出力に基づいて、正確な文字および／または単語を生成するため、さらに訂正コンポーネント１０４を含む。

システム１００は、少なくともユーザ対話のためのユーザインタフェース、英語およびアジア語の単語を検索するための、およびさらにユーザインタフェースパネルを起動しユーザインタフェースパネルと対話する異なるコマンドを提供し実行するための分割綴りパネルユーザインタフェース、新語を取り込み、単語の境界を判断するためのユーザ綴りモードを、より詳細に示す。システム１００は、さらにユーザが発音、所望の文字を含む単語、所望の文字を含むサブコンポーネント、同音リストからの選択を使用して、発声入力により文字を取得するのを支援し、その後、変換候補から所望の文字を選択する。音声システムおよび混同行列（ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘ）テーブルに音素の音声距離情報を記憶するデータを含むデータストアが提供される。この情報は、ユーザが誤認識の発音を迅速および簡単に訂正する手助けとなり、システムが同様の間違いをする可能性を低減する。

各文字の使用頻度、さらに個人名や会社名などの文字が存在する可能なカテゴリを含むデータストアが提供される。したがって、キーワードが検出されると、対応するカテゴリがトリガされ、そのカテゴリで使用される文字がリスト内でより高い位置に押し上げられることになる。単語内の重要な文字を読み込むことや所望の文字が残りの訂正リストのトップに現れるように文字リストを再調整することも、本明細書で開示する方法の一部である。

システム１００は、所望の文字を含む単語を使用して発声入力することにより文字を取得すること、さらに文字のサブコンポーネントを検査することにより文字を取得することを容易にする。システム１００のユーザインタフェースは、正確な単語を取得するために、および発音の再入力を避けるために同音コマンドを処理する。また、ユーザは、新語のレキシコンを共有し、新語を評価するために、また異なるレキシコンを更新するために新語を返送することができる。さらに、他のアジア語（例えば、日本語）音声入力は多くの（例えば、４つの）異なる書記体系の間で切り替えることができる。

図２は、訂正処理時に学習された新語に基づいたレキシコン共有を容易にするシステム２００を示す図である。システム２００は、図１の音声認識コンポーネント１０２および綴り／訂正コンポーネント１０４を含む。しかし、訂正コンポーネント１０４の出力は認識コンポーネント１０２にフィードバックされて、内部レキシコン２０２を更新する。しかし、レキシコン２０２は認識コンポーネント１０２の外部にある可能性もあることに留意されたい。

システム２００は、さらに従来の認識システムのように言語モデル（ＬＭ）２０４および音響モデル（ＡＭ）２０６を含むことができる。言語モデル２０４（または文法ファイル）は単語シーケンスの確率のセットを含む。音響モデル２０６は、音声データおよびその音写（ｔｒａｎｓｃｒｉｐｔｉｏｎ）に基づいて単語の音響挙動を音素の形態で特徴付ける。音響モデル２０６は、音声オーディオ信号（ｓｐｅｅｃｈａｕｄｉｏｓｉｇｎａｌ）から生成された特徴ベクトルに基づいて言語の音声単位をモデル化する。認識コンポーネント１０２は、言語モデル２０４および音響モデル２０６から受信した入力を処理して、最良の出力を提供する。しかし、示したように、アジア言語認識処理などの複雑なアプリケーションでは、正確な結果を出し、不正確な結果を解決することは難題になる可能性がある。したがって、訂正された結果に達すると、レキシコン２０２を更新する（または改良する）ことは有益である。これらの更新は、このような複雑なアプリケーションでは重要である可能性がある。したがって、適所における適切な安全チェックとともに、共有コンポーネント２０８はレキシコン２０２などの情報を他のユーザもしくはシステムおよび／または新規のレキシコンコーパスを配布するレキシコン・ベンダと共有するのを容易にする。これについて、本明細書でより詳細に説明する。

図３は、１つまたは複数の機能の自動化を容易にする推論コンポーネント３０２を使用するシステム３００を示す図である。例えば、推論（ｉｎｆｅｒｅｎｃｅ）は、ユーザ（例えば、ユーザプロフィール）だけでなくコンポーネント３０２が学習し、推論する音声訂正動作に基づいて行うことが可能である。ユーザが中国語よりもはるかに英語の方が堪能であり、それが長期にわたるとすると、推論コンポーネント３０２はユーザが典型的に特定の中国語の文字に関連付けられた音声認識の間違いをすると学習する。したがって、コンポーネント３０２は、綴りモードインタフェース対発音インタフェースを表示することにより、ユーザが同じ間違いをすると予想してユーザインタフェースの機能を自動化し、より効率的にユーザを支援することができる。

別の例では、ユーザが提供される任意の他のモードよりも綴りモードを使用するのを一般に好むことを学習させることができる。したがって、コンポーネント３０２は、訂正する方法の選択に直面すると、自動的に綴りモードユーザインタフェースを表示することになる。これらは、ユーザ対話だけでなく、一定の入力基準に基づいて繰り返し発生する傾向のあるシステム処理に関する学習および推論を基に行うことができる多くの推論のほんの数例である。

推論コンポーネント３０２は、例えば、監視、分析、計算、学習・推論結果の使用のために機械学習・推論（ＭＬＲ：ｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｎｄｒｅａｓｏｎｉｎｇ）を使用することができる。主題のアーキテクチャ（例えば、選択に関連する）は、その種々の態様を実施するために種々のＭＬＲベースのスキームを採用することができる。例えば、何の字または単語のどの字を選択し表示すべきであるかを判断する処理を、自動分類子（ａｕｔｏｍａｔｉｃｃｌａｓｓｉｆｉｅｒ）システムおよび処理を使用して容易にすることができる。

分類子（ｃｌａｓｓｉｆｉｅｒ）は、入力属性ベクトルｘ＝（ｘ１，ｘ２，ｘ３，ｘ４，ｘｎ）をクラスラベルｃｌａｓｓ（ｘ）にマッピングする関数である。また、分類子は入力がクラスに属する信頼度、すなわち、ｆ（ｘ）＝ｃｏｎｆｉｄｅｎｃｅ（ｃｌａｓｓ（ｘ））を出力することができる。このような分類は、確率論的分析および／または他の統計的分析（例えば、１人または複数人の人々に対する期待値を最大にするために分析の効用やコストにファクタリングする分析）を使用して、ユーザが自動的に実行してほしいと望む動作を予知または推測することができる。

本明細書で使用する場合、「推論すること」および「推論」は、一般に、イベントおよび／またはデータを介して取り込まれたような観測のセットから、システム、環境および／またはユーザについての推論のプロセスまたは推論状態のことをいう。推論は、特定の文脈または動作を識別するのに使用することができ、または、例えば、状態における確率分布を生成することができる。推論は確率的である、すなわち、データやイベントの考慮に基づく関心対象の状態における確率分布の計算結果である。また、推論は、イベントおよび／またはデータのセットから、より高レベルのイベントを構成するのに使用される技術を指す場合がある。このような推論は、イベントが緊密な時間的近接性（ｔｅｍｐｏｒａｌｐｒｏｘｉｍｉｔｙ）の相関性があろうとなかろうと、イベントおよびデータが１つまたは複数のイベントソースおよびデータソースからのものであろうと、観測されたイベントおよび／または記憶されているイベントデータのセットから新規のイベントまたは動作を構成することになる。

サポート・ベクトル・マシン（ＳＶＭ：ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）は、使用できる分類子の一例である。ＳＶＭは、最適な方法で非トリガイベントからトリガ入力イベントを分割する超曲面を可能な入力のスペースの中で発見することにより動作する。直感的に、このことはトレーニングデータに近いが同じでない試験データの分類を正確にする。他の指定モデルおよび非指定モデルの分類手法は、例えば、統計的回帰、単純ベイズ、ベイジアン・ネットワーク、決定木、ニューラルネットワーク、ファジー論理モデル、および採用できる異なるパターンの独自性を表す他の統計的分類モデルの種々の形態を含む。本明細書で使用する分類は、さらに順位および／または優先度を割り当てるのに使用する方法を含む。

本明細書からすぐに理解できるように、主題のアーキテクチャは明示的に（例えば、一般的なトレーニングデータを使用して）トレーニングされ、かつ非明示的に（例えば、ユーザの挙動の観察、外部情報の受信により）トレーニングされた分類子を使用することができる。例えば、ＳＶＭは、分類子のコンストラクタ内の学習またはトレーニングフェーズおよび特徴選択モジュールを使用して構成される。したがって、分類子（単数または複数）は、所定の基準に従って多数の機能を自動的に学習し、実行するのに使用できる。

推論コンポーネント３０２は、認識コンポーネント１０２、訂正コンポーネント１０４、レキシコン２０２、言語モデル２０４（接続は図示せず）、音響モデル２０６および共有コンポーネント２０８とインタフェースして、例えば、ユーザおよびシステム処理を監視し、データを取得することができる。システム３００内の推論コンポーネント３０２を使用するのは、推論を使用し、関連付けることができる多くの異なる方法のほんの一例に過ぎない。つまり、推論コンポーネント３０２は、後の図面内のシステムコンポーネントのより詳細な実例と共に使用することができる。

図４は、本明細書で開示する訂正アーキテクチャにより使用できる１つまたは複数の方法４００を示す図である。例えば、綴り／訂正コンポーネント１０４は単語発音方法４０２、単語内文字方法４０４、文字分解方法４０６を含むことができる。これらの方法４００は、文字を指定する少なくとも３つの方法を提供する。文字を指定することができる方法には、部分音声記号を使用して単語を発音する方法（例えば、発音方法４０２）に関する情報の提供が含まれる。単語内文字方法４０４は、文字が存在する単語を提示することで文字を書き込む方法に関する情報の提供を含む。例えば、ユーザが「薫」の指定を選択する場合、ユーザは「薫陶的薫」と言うことができる。これは、英語で「ａ，ａｓｉｎａｐｐｌｅ」を使うことに似ている。

文字を構成する（または文字を分解する）方法に関する情報の提供は、分解方法４０６により行われる。すなわち、ユーザは文字の構成要素を発声することができる。例えば、ユーザが「李」を指定したい場合、ユーザは「木子；李」を言うことができる。これらの３つの方法（４０２、４０４、４０６）について、本明細書でより詳細に説明する。

第１の方法の発音方法４０２は、綴りウィザードを使用して提供されるが、方法４０４、４０６はウィザードなしで直接適用される。しかし、全ての方法（４０２、４０４、４０６）は、ユーザが単語訂正の方法の１つを選択できるようにウィザードを使用して実装できることは理解されたい。また、用語「ウィザード」を使用することが決して限定的なものとして解釈すべきでないことも理解されたい。すなわち、通常、プロセス全体にわたってユーザを導くようにウィザードが考えられる内容を表示するのではなく、全体のプロセスのごく一部に集中する一連のダイアログを表示することができる。

発音方法４０２は、ユーザが中国語の文字または単語でタイプしようとする時に使用される。アジア文字の発音を使用することは、いくつかのアジアの国々では一般的である。しかし、繁体字中国語ＯＳの発音以外に使用できる他の入力方法がある。発音による便利さを考えると、多くのユーザがキーボードで文字をタイプする時に発音（注音）を使用することになる。これは、簡体字中国語ＯＳを使用する時に中国のユーザのさらに多いケースである。簡体字中国語ＯＳでは、ピンイン（Ｐｉｎｙｉｎ）という部分発音システムを使用してキーボードで文字をタイプする。（繁体字中国語を使用する）台湾のユーザは、第１声に対して

しかし、タイプするのは時間がかかり、間違いを起こしやすい。このことは、台湾のユーザにとっては特に時間と労力を消費する作業である。それは、繁体字中国語の音声システムが大陸の中国語で使用されている２６個の英字（ピンインで）のセットとは異なるためである。例えば、音声記号は

の形であり、最初の記号

は／ｂ／の音と見なされるが、キーボードの英字ｂではなく１（数字）と！（感嘆符）とのキーで入手する。このように、ユーザは各記号がキーボードのどこに位置するのかを学習する必要がある。一方、大陸中国で使用されているピンインは２６個の英字で構成されており、ユーザがキーボード上の２６個の英字の位置を熟知していれば、別のキーボードのセットを学習する必要はない。

綴りウィザードは、ユーザがタイプするのではなく発声で中国語の単語を取得できるようにすることで、上述の制限を克服するものである。これは、ユーザが音声記号の位置および／またはキーボード上の２６個の英字を熟知していない、または頻繁に記号と対話せずに迅速に記号を選択し入力する場合に特に有用である。

第２の（または単語内文字）方法４０４は、単語発音方法４０２よりも複雑であると言える。なぜなら、文字を含む選択された単語は、有名な人物名さえも含まれた任意の単語である可能性があるからである。開示するアーキテクチャは、中国語で使用される全ての文字を含むことになるが、特にまだトレーニングデータの一部になっていないようなごく最近有名になった人物名など、全ての単語を含むとは言えない。

ユーザは所望の文字を含む単語を選択することができるが、文字は単語内の最初の文字でない場合がある。文字は、単語の真ん中、または最後に現れる可能性がある。例えば、ユーザは、「薫陶的陶」と話して、最後（または太字）の文字「陶」を入手する。

十分な認識精度を得るためには、文字を指定するのに人々が使用するのはどんなタイプの単語であるのかに関して、またそれらの単語により高い重みを割り当てること、もしくは特別にその単語をトレーニングすることのいずれかに関して十分に理解するのが望ましい。データの正確な収集および配列は、音声認識の精度の向上を助ける。さらに、音声認識の音響モデルが良いほど、この方法から得られる結果は良くなる。以上のことが達成されると、誤認識の中国語の単語を訂正するためにこの方法４０４を使用するのは、第１の方法４０２よりも簡単であろう。それは、正確な文字を取得するためのステップの数が、発音をする場合よりも少ないからである。

第３の方法４０６は、他の方法より少ない程度で容易に分解される少数の単語に使用することができる。言い換えれば、容易に分解できて、人々に広く使用されている単語の数は多くないということである。したがって、分解可能な単語を文法（または言語モデル）内にリストアップしてこの方法４０６を支援することができる。

図５は、文字指定方法として単語の発音を使用するシステム５００を示す図である。上述したように、綴りウィザードは、発音方法に使用することができる。ユーザが発音し、正確な文字を選択するのを支援するのに、このウィザードは文字と発音の間でマッピングする１つまたは複数のデータファイルを使用する。さらに、ユーザが所望の文字を迅速に取得できるように、同音の単語の最適なリストを提供できる。

以下で、音声システムと文字との間の変換のためのデータファイルを説明する。第１の例では、音声システムは、例示的なデータファイルの概略と共に簡体字中国語（ＣＨＳ）／繁体字中国語（ＣＨＴ）で示されている。

上述したように、簡体字中国語は英語の２６個も文字を使用するピンインを使用するが、任意で声調情報と共に使用する。これとは対照的に、繁体字中国語は絵文字記号である注音（Ｚｈｕｙｉｎ）を使用するが、標準的な中国語ではない。繁体字中国語の注音は、英語の国際音標文字（ＩＰＡ：ｉｎｔｅｒｎａｔｉｏｎａｌｐｈｏｎｅｔｉｃａｌｐｈａｂｅｔ）に似ている。例えば、文字「田」に対して、簡体字中国語（ＣＨＳ）および繁体字中国語（ＣＨＴ）の音声表記は以下の通りである。

図５の認識コンポーネント１０２は、複数のアジア言語エンジン（アジア言語_１音声認識エンジン、．．．アジア言語_ｎ音声認識エンジンと表示する。ここでｎは正の整数）５０２を示す。エンジン５０２の第１のエンジン５０４は、単語発音方法４０２を使用し、さらにデータを提供するための３つのデータファイル５０６を使用する。各々の言語エンジン５０２は、発音を文字に変換する処理のための３つのデータファイル５０６を使用する。第１のデータファイル５０８は、単語をインデックスとして記憶し、各単語の関連情報を発音、声調、使用頻度、および／または可能なカテゴリを含む値として記憶する。第２のデータファイル５１０は、発音をインデックスとして記憶し、その発音を有する全ての単語を値として、使用頻度に基づいた順序で記憶する。第３のデータファイル５１２は、ユーザが効率的に誤認識の音素を訂正できるように、音素の中の混同行列情報を記憶するのに使用される。

示すように、第１のデータファイル５０８は、文字、文字の発音、声調、頻度、および／または可能なカテゴリの情報を記憶する。例えば、

異なる単語の中の異なる発音を有する文字、例えば、「好」（この文字は、「很好」（「とても良い」の意味）では第３声で使用されるが、「喜好」（「好きな」の意味）では第４声で使用される）に対して、考えられる発音が、要素をセミコロン（；）で分けて１行内に記録される。

最近の情報によれば、約４７，０３５個の有効な中国語の文字があるが、その多くがほとんど使われず、長い歴史にわたって蓄積されてきた。約２，０００個の文字が中国で文字が読める人々に積極的に使用されている。このため、２，０００個の積極的に使用されている文字のセットに該当する文字を最初に表示することができる。積極的に使用されるセット内の文字が、ユーザに提示するリストの最上位またはリストの最上位の近くに表示されているか否かを知るために、積極的に使用される文字は「１」、他は「２」と記される。特定のカテゴリ内に現れる文字、例えば人名は、カテゴリ・コード、例えば人名に対して「ｎ」を付与することができる。

システム５００は、さらに第２のデータファイル５１０に記憶される時に、文字および／または単語の使用頻度を追跡するための頻度コンポーネント５１４を含むことができる。この第２のデータファイル５１０は、発音とその発音に関連付けられた文字とを異なる単語の中に現れる頻度の順に、さらに単語または文字の頻度の順に記憶する。第１のデータファイル５０８は、単語が２，０００個の積極的に使用される文字に該当するかを記憶する。この第２のデータファイル５１０は、全体の高い／低い頻度の一方またはその両方に従って、かつ他の同音の文字に関連した使用頻度に従って、文字を順序付ける。頻度情報は、既存のトレーニングデータから取得することができる。第２のデータファイル５１０内の順序は、ユーザの選択の学習とユーザの選択についての推論とに基づいて調整できる。第２のデータファイル５１０は、より具体的な頻度情報が第１のデータファイル５０８内で指定できる場合には、第１のデータファイル５０８から作成することができる。しかし、第２のデータファイル５１０は、第２のファイル５１０を使用して、ユーザの選択からの学習の後に調整された順序を保存できるように、ユーザプロファイルフォルダ内で作成し、保存するべきである。以下のリストは、発音および単語の頻度を示すものである。下線のある単語は、ほとんど使用しない単語である。

有効な音節を記憶するのに、文脈自由文法（ＣＦＧ：ｃｏｎｔｅｘｔ−ｆｒｅｅｇｒａｍｍａｒ）を適用することができる。簡体字中国語では、ユーザは「ＴＩＡＮ」と発声して簡体字中国語音声システムの「ｔｉａｎ」を取得して、その後、これをこの発音を使用する文字のリストに変換することができる。文脈自由文法は、ユーザが「ＴＩＡＮ」と言って、文字に変換する前に「ｔｉａｎ」を受信することができる別のオプションを含む。この方法は、以下のコマンドにより、二重母音のいくつかまたは二重母音と最後の鼻音とに分類する。

繁体字中国語では、注音の音素のみが文法で使用される。さらに、エンジンで使用される発音を文法内に適用して、音声認識の精度を向上させることになる。

発音が不正確に認識された場合、ウィザードによりユーザは発音を訂正することができる。訂正する音素を選択した後、ウィザードは誤認識の音素に近い音素のリストを表示し、そのリストを、例えば、調音の位置、調音の様式、発声、文脈、および他の地域方言の影響に応じて、２つの音素間の距離の順に順序付けすることができる。

台湾の多くの人々が中国標準語（Ｍａｎｄａｒｉｎ）とミン南語（ＳｏｕｔｈｅｒｎＭｉｎ）との両方を話す。ミン南語の方言の音構造が、いくつかの点で中国標準語の方言に大きく影響している。ほとんどの人々が

（そり舌音：ｒｅｔｒｏｆｌｅｘｃｏｎｓｏｎａｎｔｓ）と、

（歯茎音：ａｌｖｅｏｌａｒｃｏｎｓｏｎａｎｔｓ）とを区別することができない。また、

（唇歯摩擦音：ｌａｂｉａｌ−ｄｅｎｔａｌｆｒｉｃａｔｉｖｅ）と、

（軟口蓋摩擦音：ｖｅｌａｒｆｒｉｃａｔｉｖｅ）との区別ができない人々もいる。南方の中国のいくつかの方言では、／ｎ／と／ｌ／とは区別不可能であり、またこの／ｎ／と／ｌ／とは他の学習言語の生成に影響を与える。最低限に区別可能な音素のセット間の距離は、より短い距離とされる。

文脈とは、２つの音素が同じ文脈内に現れるか否かのことを言う。例えば、

（／ｂ／）と、

（／ｐ^ｈ／）とは文脈の点では、

（／ｂ／）と、

（／ｆ／）とよりも近い。それは、音素が同じ核母音（単数または複数）と尾子音（単数または複数）の前にくることができるからである。

繁体字中国語で使用される子音のこれらの特徴に基づいた例示的な混同行列テーブルは、以下のように示される。以下のテーブルは、調音の位置、調音の様式、発声、文脈、および他の地域方言の影響に基づく距離を計算することにより得られる。また、このタイプの混同行列は、異なる音の音響モデルを自動的に比較することで生成することができ、このことで調音の位置、調音の様式、発声を補うことになる。さらに、混同行列は、異なる音の音響モデルによって取得し、その最終形態に対して文脈や他の地域方言の影響に基づいて調整することができる。同じ方法を使用して、繁体字中国語の母音と声調、および全ての他のアジア言語の子音と母音との行列を生成することができる。

図８〜図１０は、同音の訂正を使用するプロセスに関連付けられたスクリーンショットを示す図である。図８は、同音コマンド処理のために表示される綴りダイアログパネル８００のスクリーンショットである。正確な文字を取得するために、同音であるコマンドが発声される。表示された／認識された単語は、６０８の「諧音」（「同音」の意味）として提供される。この発声コマンドインタフェースは、音声記号を繰り返しタイプするのを避けることができるので、タイプすることよりもより有効であると考えられる。すなわち、ときには発声されたコマンドは厳密に認識されるが、ユーザは異なる文字を希望することがある。ユーザに発音の繰り返しを指示することよりも、コマンドが処理されて同音リストを出力することができる。この機能を使用すれば、音声による訂正は手動の入力（例えば、タイピング）よりも改善されたユーザ体験を提供する。すなわち、ユーザがタイプすることにより手動で発音を入力し、同音リストから単語を選択すると、単語が破線の下線を施したテキストとして表示されることになる。この形態では、ユーザはさらにそのリストから文字を変更することができる。

しかし、ユーザが単語を確信すると、ユーザは入力（または「ＯＫ」）セレクタ６１０を選択して、入力システムが割り当てられた言語モデルスコアから単語を自動調整しないようにテキスト内の単語をロックすることができる。したがって、一旦単語がダイアログパネル８００でロックされると、ユーザが単語を再び変更したい場合、音声記号を再びタイプしなければならない。音声コマンドインタフェースは、「諧音」（「同音」）コマンドを認識することにより、手動での入力にかかる余分の手間を省くことができる。第１のステップとして、ユーザは、「更正一號字」（第１の文字を訂正）と話すことにより、訂正すべき単語を選択する。その後、第１の文字８０２は強調表示される。次に、ユーザは同音の「諧音」と話すか、または「諧音」（「同音」）セレクタ６０８を選択して、元の中国語の文字のＨ（同音）文字を取得することができる。また、パネル８００は中国語でダイアログセレクタ（同音セレクタ６０８、ＯＫセレクタ６１０、キャンセルセレクタ６１２）を表示する。

同音コマンドを使用した訂正または発音による訂正は、パネル８００の（１、２、３とラベルしたフィールドの）任意の文字について行うことができることに留意されたい。パネル８００では８０２が第１の文字である。しかし、候補文字リストは異なる。同音コマンドからの候補リストは、声調の同じまたは少し異なる文字を含むことになる。発音による候補リストは、ユーザによる発音と厳密に一致する文字を含むことになる。ユーザが発音を採用する場合、図８のスクリーンショットは、図１０に示すように第１の文字８０２でなく第２の文字が強調表示されて表示されることになる。その後、ユーザが発音した後、図１１のスクリーンショットが表示される。

図９は、同音訂正のために発声起動コマンドに応答して表示される綴りモード・ダイアログ・パネル９００のスクリーンショットである。元の文字の発音は、インデックス付与された同音文字リストがリストボックス９０２内に表示されるように、綴りウィザードにより支援される。その後、ユーザは第１の候補の「一」（「１」）または「一號」（１番）のような関連インデックス番号を話すことにより、またはこの場合、文字９０６をクリックすることにより所望の文字を選択する。それに応答して、発音パネル９００はリストボックス９０２をクリアし、元の文字８０２を選択した文字９０６と置換し、図１０に示すように、発声によるインデックス選択に応答してリストボックス９０２がクリアされたパネル１０００として表示されることになる。その後、ウィザードは、図８の（第１のフィールドの）文字８０２に従って説明したように、同様の処理のために（第２のフィールドの）第２の文字１００２へ対話を移す。

図１０で処理を継続しながら、発音することよって発声による訂正を行うことができる。ユーザは、ウィザードがまだ移動しておらず、第２の文字を強調表示していない場合、「更正二號字」（「第２の文字を訂正」）と話して第２の文字１００２を強調表示させることにより、訂正すべき単語を選択することまたはその単語にナビゲートすることで開始する。

図１１は、発声する発音のために表示される綴りダイアログパネル１１００のスクリーンショットである。次に、ユーザが発音で

と発声し、その発音が発音フィールド１１０２でユーザに表示され、ウィザードは再びリストボックス９０２内の単語のインデックスリストを提供する。リストボックス９０２は、より使用頻度の高い単語を最上位に、より使用頻度の低い単語を下位近くにすることで、順に候補単語をリストアップする。さらに、システムが第１の文字８０２を姓のようなキーワードで訂正するように指示すれば、システムはキーワードを検出し、次の文字の候補リストの訂正を調整する。この場合、姓に使用される文字は、残りの文字の訂正の中で候補リスト９０２の最上位に上げられることになる。上述したように、次に、ユーザは、例えば、「薫」を取得するために第２の候補に関連付けられた「二」（「２」）または「二號」（「２番」）のような関連インデックス番号を発声して、所望の文字を選択することができる。その後、選択した候補を古い文字と置換して、発音パネル１１００はクリアされて、リストボックス９０２がダイアログから除去される。

音声認識が発音を不正確に認識した場合、ウィザードは上述した混同行列に基づいて最も近い音素を表示することになる。図１２は、発声された発音の訂正のために表示される綴りダイアログパネル１２００のスクリーンショットである。ユーザは、音素を発声することでウィザードと対話して、例えば、「更正第一個音」（「第１の音素を訂正」）と話すことにより訂正することができる。次に、第１の音素１２０２が強調表示される。その後、音素リストボックス１２０４が音素距離の順に音素のリストと共に表示される。次に、ユーザは

（＝ピイインの「ｑｉ」）を発声して、第１の誤認識の音素１２０２を、リストボックス１２０４のインデックス「１」の訂正された音素

と置換する。

図１３は、発声された発音の訂正に基づいて修正された同音リストボックス９０２と共に表示される綴りダイアログパネル１３００のスクリーンショットである。同音文字リストボックス９０２は、変更された音素に基づいて訂正される。次に、ユーザは、例えば、この場合、「一」（「１」）または「一號」（１番）のような関連番号を、発声することにより図１４に示された第１の文字１４０２を選択する。その結果、選択した候補は元の候補と置換され、発音フィールド１１０２はクリアされ、リストボックス９０２はダイアログから除去される。図１４は、カーソルが発声された発音の処理のために次の文字に移動した時、または図１３の処理が完了した時に表示される綴りダイアログパネル１４００のスクリーンショットである。

本明細書で説明するように、名前の場合は、各ユーザが名前で使用される文字を厳密には知らないので、綴りウィザードが必要となろう。したがって、名前からヒントを得て、ヒントを提供することができる。例えば、場合によっては、検討する姓のタイプが数百しかない場合があり、上述したように、そのセットが固定されていることが既知である。したがって、常に単語／文字列の第１の文字にすべきである姓が選択されると、リストボックスに表示される文字候補リストは調整される。例えば、「ｆａｎ」を使用する名前に対して、文字は「凡」（「平凡な」の意味）、「繁」（「複雑な」の意味）、「煩」（「面倒な」の意味）、「藩」（「野蛮な」の意味）、「犯」（「囚人」の意味）などが可能である。

ほとんどの文字で、ユーザは、上述した最初の２つの例のように、名前に肯定的または中立的な意味を選択するものである。しかし、トレーニングデータのほとんどが新聞から取得されたものであり、これがごく最近の言語トレーニングシステムの問題であるのだが、文字はかなり高い頻度で最後の意味の「犯」（「囚人」）に関連付けされる可能性がある。したがって、データファイルのカテゴリ情報を提供することにより、単語のリストをヒントに応じて調整することができる。考えられるヒントは、人名（例えば、姓）、通りの名前（例えば、「路」（「道」）、「街」（「通り」）、「市」（「市」）、「縣」（「地方」）を使用する）、会社名／組織名（例えば、「公司」（「会社」）、「院」（「組織」）を使用する）を含むことができるが、これらに限定されない。

上述のシナリオは、ユーザが綴りモードで複数の文字を有する単語を選択すること、および限定された文字シーケンスに基づいて、（単語境界の）単語を正確に解析することにより慣れている、または精通している場合に、開示するシステムで処理（または認識）するのにより容易である。ユーザが複数の文字から１つの文字を選択するだけの場合、システムは新語の単語境界の情報を失う可能性がある。

上述した第２の方法は、所望の文字を含む単語の発声入力により中国語の文字を取得するものである。図１５は、第２の方法に従って、文字重みに肯定的、中立的、否定的な意味を採用するシステム１５００を示す図である。図１５の認識コンポーネント１０２は、複数のアジア言語エンジン５０２を示す。第１のエンジン５０４は、単語内文字方法４０４を使用し、さらにデータ提供のためにデータファイル１５０２を使用する。各言語エンジン５０２は、単語内文字方法４０４に基づいて文字を取得するのにデータファイル１５０２を使用することができる。第１のデータファイル１５０４は肯定的および中立的な意味の単語を含み、第２のデータファイル１５０６は否定的な意味の単語を含み、第３のデータファイル１５０８はレキシコン内のデータファイル（１５０４および１５０６）の部分でない残りの単語を含む。

単語内文字方法４０４に従って、および／または、さらに文字の取得のために発音を提供して、ユーザはさらに所望の文字（単数または複数）を含む他の単語を提供することで文字を取得することができる。「ａ，ａｓｉｎａｐｐｌｅ」と同様に、ユーザは、例えば、「薫」の文字を含む単語「薫陶的薫」と発声することにより、「薫」のような所望の文字を指定することができる。「薫陶」は、所望の文字「薫」を含む単語である。単語「的」は所望の文字が単語の一部であることを示す所有格の意味である。

音声認識の精度を得るために、人々が文字を指定するのに使用する傾向がある単語に関する情報やデータを有することが望ましい。多くの場合、人々は文字を指定するのに、最も使用頻度の高い単語で、さらに肯定的な意味の単語を使用する傾向がある。以下は、単語を文脈自由文法のために取得できる方法である。典型的にこのような名前で使用される文字のリストを作成するために名前の大きなコーパスを収集することができる。また、このコーパスを有効文字の小さなサブセットにすべきである。

さらに、認識精度は、文字を含む単語の大きなコーパスを発見し、単語を第１のグループまたは第１のファイル１５０４（肯定的または中立的な意味を含む）、第２のグループまたは第２のファイル（否定的な意味を含む）に分類することで改善することができる。人々は、名前に使用する文字を指定するのに、肯定的または中立的な意味を有する単語を使用する傾向がある。システム１５００は、単語に重みデータまたな重み値を割り当てるための重み付けコンポーネント１５１０を含むことができる。このとき、肯定的および中立的な意味により、高い重み値、否定的な意味に中間の重み値、レキシコン内の人々が名前で使用することが多い文字を含まない残りの単語により低い重み値を割り当てることができる。さらに、図５の頻度コンポーネント５１４を使用して、３つのグループの単語を単語の使用頻度に基づいて順序付けすることができる。

この方法は、中国語だけでなく、例えば、日本語の漢字にも適用できる。この方法は、ユーザインタフェースカーソルが、例えば、８０２、１００２、１４０２内の文字のように、綴りウィンドウのトップ（または分割または中国語）パネル内の文字の中の１つの文字の上にある時にアクティブである。すなわち、ユーザは、発音または文字を含む単語のいずれかを提供して、最終的に所望の文字（単数または複数）を取得することができる。

上述した第３の方法は、単語の分解により中国語の文字を取得するものである。図１６は、第３の方法に従って、所望の文字のサブコンポーネントの発声入力より単語の分解を採用する、システム１６００を示す図である。認識コンポーネント１０２は、複数のアジア言語エンジン５０２を示す。第１のエンジン５０４は、文字分解方法４０６を使用し、さらにデータ提供のためにデータファイル１６０２を使用する。各言語エンジン５０２は、文字分解方法４０６に基づいて、文字を取得するためにデータファイル１６０２を使用することができる。第１のデータファイル１６０４は分解不可能な文字を含み、第２のデータファイル１６０６は文字の構成要素を含む。

ユーザは、「李」を指定するのに「木子；李」と話すことで単語のサブコンポーネント（単数または複数）を提供することにより所望の文字を取得することができる。ここで、「木」（「木」）および「子」（「子」）は、「李」を形成するために組み合わされるサブコンポーネント記号であり、「木」は文字の上部の記号で、「子」は下位の記号である。

分解可能で、かつユーザに広く使用されている文字はそれほど多くないことを理解されたい。したがって、分解可能な全ての文字および広く使用される分解可能な表現が、収集され文法に含められることになる。第２の方法４０４と同様に、第３の方法４０６は、例えば、８０２、１００２、１４０２内の文字のように、綴りウィザードパネルの分割パネルであるトップパネルの文字の１つにカーソルがある時、アクティブである。すなわち、ユーザは、発音または含む単語、またはサブコンポーネントを提供して所望の文字を取得することができる。システム１６００は、一般に使用される文字１６０４を発見、処理、および記憶し、その文字を構成コンポーネント１６０６に分解するために、普及語（ｐｏｐｕｌａｒｉｔｙ）コンポーネント１６０８を含む。

図２を簡潔に説明すると、共有コンポーネント２０８により、ユーザはローカルレキシコンを共有して、音声認識の精度を改善すること、または他のユーザのために訂正の手間を減らすことができる。ユーザがこのアーキテクチャの態様を扱うとき、そのユーザはシステムを「指導する」ことができ、またはシステムは（例えば、図３の推論コンポーネント３０２の学習機能および推論機能を使用して）ユーザのアクティビティおよび／またはシステムデータ／パラメータを学習することができる。ユーザが示すように、認識される単語の確率はどの単語が最も頻繁に使用されるかを示すことに変更することができる。さらに、単語が図２のデフォルトレキシコン２０２に現れない場合、ユーザは単語をユーザ定義のレキシコンの一部に追加することができる。この時点で、ユーザは音声認識装置１０２に追加の単語が（デフォルトまたはユーザ定義の）レキシコン内のどこで発見できるかを「知らせる」ことができる。

複数のユーザ間で新規のレキシコンを共有、ロード、アンロードできる能力は、配布されたコーパスの継続的な改善を容易にする。すなわち、各ユーザは同じ単語または同様の単語を使用して、個々のユーザのコンピュータおよび方法を「指導」することになる。グループ内で、または協同作業の環境において、例えば、ユーザ定義のレキシコンを他のユーザと共有する利益がある。例えば、チームプロジェクトである文脈において、ユーザが新語を有する関連ユーザレキシコンを更新する時、共有によりこれらの新語をプロジェクトチームの他のメンバーに伝えることができる。共有は、単一ファイルが複数のユーザ間で共有される中央ロケーション、およびバッチ共有に対する語順共有を含む多数の方法で実行することができる。

別のユーザまたはチームとの共有の他に、開示するアーキテクチャの共有コンポーネント２０８は、音声認識装置１０２が学習した内容を、ベンダがデフォルトレキシコンを改良することができるように、ベンダのエンティティにフィードバックする機能を含む。このために、音声認識装置１０２は、ユーザ定義のレキシコンに追加される新語がユーザシステム、プロジェクトチーム、および／または会社の境界の外で共有できるか否かをユーザが示すことができる機構を含むことができる。許可されれば、認識装置１０２は、次の一般公開または更新のために、検討のため、またデフォルトレキシコンに含めるために、その情報をベンダに送信することができる。しかし、ユーザがこれを許可しない場合、新規に追加された用語はベンダに送信されない。ベンダに送信できる用語の一例は、最近団体の中でよく使用されるようになった新しい業界用語であるが、私的な単語の一例は、会社名またはプロジェクトの社内呼称とすることができる。共有が、例えば、知的財産の規定、共有される内容の範囲、および共有の処理をする判断を侵害しないようにセキュリティの問題を考慮すべきである。

開示するアーキテクチャは、さらに異なるアジア文字のセットのコマンドの使用および実装を容易にする。例えば、日本語は、平仮名、カタカナ、漢字、ローマ字の４つの異なる書記体系を有する。平仮名は日本語の音声システムであり、有効な書記体系であると考えられる（スペイン語と同様に、人々が書くのは単語の音である）。カタカナはより形式的な書記体系であり、平仮名に１対１でマッピングする。漢字は名前を書くために頻繁に使用される。中国語と同様に、平仮名の音の１つのセットは漢字の複数の同音に対応できる。したがって、平仮名から漢字を取得するのに同じ綴りパネルおよび処理を採用することができる。

さらに、中国語のような同音機能を使用するのではなく、平仮名およびカタカナ用のボタンを備えて、ユーザが平仮名のみまたは対応するカタカナのみを望む場合に、分割パネル方法（図１７の１７０８、または図１８の１８０６）の単語トップパネルにある単語を取得するのに、発声コマンドの機能またはボタンを使用することができる。平仮名をローマ字に変換するのに、ユーザが選択するためのボタンもしくはセレクタ、および／またはボタン名による発声コマンドの方法をとることができる。平仮名の１つのセットが複数のローマ字に対応する場合があるので、ユーザは平仮名の発音、例えば、「ローマ字」と発声して、ローマ字変換をトリガし、同音の漢字をリストアップするのに使用されるリストボックスはクリアされ、ローマ字の結果で再びポピュレートされることになる。次に、ユーザは、所望のローマ字の前のインデックス番号を言って、そのローマ字を単語トップパネル（図１７の１７０８または図１８の１８０６）に移すことができる。

例えば、「土」（「土」）の文字に対して、平仮名、カタカナ、漢字、ローマ字の４つの書記体系のこの文字の出力は、以下の通りである。
平仮名：つち
カタカナ：ツチ
ローマ字：ｔｓｕｃｈｉ、ｔｕｃｈｉ、ｔｕｔｉ
漢字：土

同じ発音、すなわち同じ平仮名を共有する他の漢字がある。例えば、
同音の漢字：槌、鎚、壌、椎

図１７は、漢字を取得するための平仮名の発声／タイプ入力による日本語の認識および処理のために表示される綴りダイアログパネル１７００のスクリーンショットである。パネル１７００は、平仮名の使用を示すタイトルバーを含む。リストボックス１７０４は、漢字の同音リストまたはローマ字単語リストのための図１８の１８０２を表示する。文字列１７０６は、ユーザに入力として平仮名を使用して、所望の書記体系への変換処理を行うように伝える。単語パネル１７０８は、ワードプロセッサのアプリケーションに入力される最終の文字を記憶する。発音フィールド１７１０は、処理のために認識された入力を表示する。また、パネル１７００は以下のセレクタを含む。ローマ字（Ｒ）セレクタ１７１２、平仮名（Ｈ）セレクタ１７１４、カタカナ（Ｋ）セレクタ１７１６、ＯＫ（Ｏ）セレクタ１７１８、キャンセル（Ｅ）セレクタ１７２０である。

漢字の文字を取得するために、ユーザは「ひらがな入力パネル」と発声して、ウィザードの綴りパネル１７００をトリガし、次に、「つち」と話し、この「つち」が発音フィールド１７１０内でユーザにフィードバックとして表示される（その後、リストボックス１７０４は、自動的に漢字の同音文字のリストを、各文字の前に番号インデックスを付与して生成する）。ユーザは、次に、「１番」と発声して、リストボックス１７０４内の１番目の単語「土」を単語パネルフィールド１７０８に移動させる。その後、リストボックス１７０４は表示されなくなる。次に、ユーザは「ＯＫ」と言って、綴りパネル１７００を閉じ、単語パネル１７０８内の「土」を、今使用中の任意のワードプロセッサを使用してドキュメントにコピーすることになる。

平仮名を取得するために、ユーザは「ひらがな入力パネル」と言って、綴りパネル１７００の起動を開始することができる。「つち」が発音フィールド１７１０内に表示されるようにユーザが「つち」と話すと、リストボックス１７０４は自動的にデフォルトリストとして漢字の同音文字のリストを生成するが、ユーザはそのリストを無視することを選択することができる。次に、ユーザが「ひらがな」と発声すると、１７１０内で認識された「つち」が自動的に単語パネル１７０８内に移動されることになる。その後、リストボックス１７０４はもう必要でないので除去される。ユーザは「ＯＫ」と言ってダイアログの綴りパネル１７００を閉じて、単語パネル１７０８内の単語が今開いているドキュメント内にコピーされることになる。

カタカナを取得するために、ユーザは「ひらがな入力パネル」と発声して、綴りパネル１７００の起動を開始することができる。「つち」が発音パネルフィールド１７１０内に表示されるようにユーザが「つち」と話すと、リストボックス１７０４は自動的に漢字の同音文字のリストを生成するが、ユーザはそのリストを無視することを選択することができる。次に、ユーザが「カタカナ」と言うと、システムが「ツチ」のようにカタカナバージョンを取得し、システムは「ツチ」を直接単語パネル１７０８内に書き込む。その後、リストボックス１７０４は、もう必要がないので消去することができる。ユーザは「ＯＫ」を選択して綴りパネル１７００を閉じることができ、単語パネル１７０８内の単語を既存のワードプロセッサを使用してドキュメントにコピーすることになる。

図１８は、ローマ字の取得に関連した日本語認識および処理のために表示される、綴りダイアログパネル１８００のスクリーンショットである。ローマ字を取得するために、ユーザは「ひらがな入力パネル」と話して、綴りパネル１８００を開くのを開始することができる。「つち」が発音パネルフィールド１８０４内に表示されるようにユーザが「つち」と発声すると、リストボックス１８０２が自動的にリストボックス１８０２内に漢字の同音文字のリストを生成するが、ユーザはこのリストを無視することができる。ユーザが「ローマ字」と発声した場合、システムは「つち」をローマ字バージョンに変換する。ローマ字バージョンに複数の候補があるので、リストボックス１８０２内の漢字候補がローマ字の候補に置換される。ユーザは「１番」と発声してリストボックス１８０２内の１番目の単語を取得し、その結果、「ｔｓｕｃｈｉ」が単語パネル１８０６に移動することができる。次に、リストボックス１８０２は消去することができる。ユーザが「ＯＫ」と言えば、綴りパネル１８００は閉じて、単語パネル１８０６内の単語はドキュメントまたは使用中のワードプロセッサにコピーされる。

ユーザに情報を表示する特定の方法をスクリーンショットとしての特定の図面に関して説明するが、当業者は種々の他の代替形態を使用することもできることは理解するであろう。用語「スクリーン」、「スクリーンショット」、「ウェブページ」、「ドキュメント」、「ページ」は、本明細書内では置き換え可能に一般的に使用される。ページまたはスクリーンは、表示記述として、グラフィカルユーザインタフェースとして、または（例えば、パーソナルコンピュータ、ＰＤＡ、携帯電話、または他の適切なデバイスであれ）スクリーン上に情報を表現する他の方法により、記憶および／または送信され、レイアウトおよび情報またはページ上に表示されるコンテンツをメモリ、データベース、または別の記憶場所に記憶する。

図１９は、開示するアーキテクチャに従って音声を認識する方法を示す図である。説明を簡潔にするために、例えば、フローチャートまたはフロー図の形で本明細書に示す１つまたは複数の方法を一連の動作として説明するが、本明細書で示し説明したことから考えて、いくつかの動作はその方法に従って異なる順序および／または他の動作と同時に発生する場合があるように、方法は動作の順序により限定されないことは理解および認識されたい。例えば、当業者は、代替として、方法を一連の相関状態または相関イベントとして、例えば、状態ダイアグラムに表すことができることを理解および認識するであろう。さらに、方法に示された全ての動作が新規な実装に必要であるとは限らない。

１９００において、音声認識エンジンはアジア語の音声の形で音声入力を受信する。１９０２において、アジア音声信号が認識処理されて、結果を出力する。１９０４において、綴り／訂正モードに入って新語を綴る、または結果を訂正する。１９０６において、音声発音および／または文字選択に基づいて、結果の綴りを単一パスで訂正する。次に、１９０８において、訂正結果をドキュメントまたはアプリケーションに出力する。

図２０は、綴りウィザードを使用して、認識結果を訂正する方法を示す図である。２０００において、認識エンジンはアジア語の音声入力を受信する。２００２において、アジア語の発声信号を認識処理し、訂正モードに入って結果の綴りを訂正する。２００４において、綴りウィザードを訂正モードの一部として起動する。２００６において、アジア文字を音声発音によりウィザードに入力する。２００８において、ウィザードを介した音声発音に基づいて綴りを訂正する。

図２１は、音声発音を文字に変換する方法を示す図である。２１００において、変換処理のためにデータファイルの準備が開始する。２１０２において、インデックス付与した単語および単語の値のデータファイルを作成する。この値には、発音、声調、使用頻度およびカテゴリが含まれる。２１０４において、インデックス付与した発音および値として発音を有する単語のデータファイルを使用頻度の順に作成する。２１０６において、音素距離の混同行列のデータファイルを作成する。２１０８において、綴りウィザードを使用して発音処理するためにデータファイルにアクセスする。

図２２は、訂正処理のためにアジア語および英語の分割コマンドを使用する方法を示す図である。２２００において、アジア語および英語の分割コマンドを表示する。２２０２において、英語の綴りモードに入るべきであるか否かをチェックする。イエスであれば、２２０４において英語の綴りモードに入る。２２０６において、綴りモードで使用可能な方法を使用して発声信号に基づいて候補文字のリストを表示する。２２０８において、選択した候補に基づいて、新語を綴るまたは誤認識の単語を訂正する。２２０２において、英語の綴りモードに入らなければ、処理はアジア語綴りモードに入る２２１０に進み、その後、２２０６に進んで上述したように処理を継続する。

図２３は、アジア語綴りウィザードの同音コマンドを使用する方法を示す図である。２３００において、アジア語および英語の分割コマンドを表示する。２３０２において、アジア語綴り訂正モードに入る。２３０４において、同音コマンドを受信する。２３０６において、対象とする文字の同音文字に基づいて候補文字のリストを表示する。２３０８において、選択した候補に基づいて誤認識の単語を訂正する。

図２４は、単語の意味に重み値を付与する方法を示す図である。２４００において、所望の文字を含む単語による訂正の準備を開始する。２４０２において、名前の大きなコーパスを収集する。２４０４において、名前の中にその文字を含む単語を発見する。２４０６において、単語を肯定的および中立的な意味のファイルに分類する。２４０８において、単語を否定的な意味のファイルに分類する。２４１０において、肯定的および中立的な意味のグループの単語に高い重みを付与する。２４１２において、否定的な意味のグループの単語に中間の重みを付与する。２４１４において、上述の２つのグループに属さない単語に低い重みを付与する。２４１６において、使用頻度に基づいて単語を順序付けする。

図２５は、更新されたレキシコンを共有する方法を示す図である。２５００において、訂正モードに入る。２５０２において、訂正モードの間に採用された新語を追跡しログする。２５０４において、新語をローカルのレキシコンに入れる。次に、２５０６において、更新されたレキシコンを他のユーザに送付する。２５０８において、任意で、ユーザは更新されたレキシコンをベンダに送付して、配布されるレキシコンコーパスを更新することができる。

図２６は、綴りの訂正のために文字分解を使用する方法を示す図である。２６００において、綴り訂正を開始する。２６０２において、ユーザは所望の文字のサブコンポーネントの記号を発声する。２６０４において、方法はサブコンポーネントと各文字との関係の対応テーブルをループする。２６０６において、２個以上の一致がある場合、サブコンポーネントの全ての可能な文字を表示する。次に、２６０８において、サブコンポーネントに基づいて候補文字を選択する。

図２７Ａおよび図２７Ｂは、綴り訂正の複数の方法に基づいた訂正処理の方法を示す図である。２７００において、エンジンはアジア語音声入力を受信する。２７０２において、認識されたエンジン結果をユーザインタフェースに表示する。２７０４において、システムが発声コマンドを受信して、綴り／訂正モードに入る（新語に直接入る）。その後、処理は２７０６に進み、同じ文字および／または他の文字を単語の文脈に関して処理する。あるいは、処理は２７０２から２７０８に進み、システムが発声コマンドを受信して、単語を選択し訂正する。２７１０において、システムは、音声コマンドを受信し、綴りモードに入り、文字を選択、訂正する。上述したように、処理はその後２７０６に進み、同じ文字および／または他の文字を単語の文脈に関して処理する。

図２７Ｂに移ると、２７１２において、算出した文脈に基づいて可能性のある単語リストにアクセスする。例えば、文脈は個人名である可能性がある。２７１４において、単語リストの文字を同じ文字および／または他の文字に基づいてランク付けする。２７１６において、文字選択の方法を選択する。２７１８で、処理は２７２０に進み、同様の用法の文字を含む単語を発声する方法を選択する。あるいは、２７２２において、所望の文字の発音をすることで文字を取得する方法を選択する。あるいは、２７２４において、サブコンポーネントにより文字を取得するために、単語を発声する方法を選択する。あるいは、２７２６において、同音リストを取得して同音リストから選択するために単語（単数または複数）を発声する方法を選択する。２７２８において、新語を追加する、または綴りの違う単語の中の不正確な文字を選択した文字と置換する。２７３０において、ユーザから単語全体が正確であるとの発声による確認を受信する。２７３２において、エンジンの結果を正確な文字を使用して訂正する。

このアプリケーションで使用するとき、用語「コンポーネント」および「システム」は、コンピュータ関連のエンティティ、ハードウェア、ハードウェアとソフトウェアとの組み合わせ、ソフトウェア、もしくは実行中のソフトウェアのいずれかを指す。例えば、コンポーネントは、プロセッサ上で実行するプロセス、プロセッサ、ハード・ディスク・ドライブ、複数の記憶装置（光記憶媒体および／または磁気記憶媒体）、オブジェクト、実行ファイル、実行スレッド、プログラム、および／またはコンピュータとすることができるが、これらに限られるわけではない。例として、サーバ上で実行するアプリケーションおよびサーバの両方ともコンポーネントとすることができる。１つまたは複数のコンポーネントはプロセスおよび／または実行スレッド内に存在することができ、コンポーネントは１つのコンピュータにローカライズする、および／または２つ以上のコンピュータに分散することができる。

図２８は、開示するアーキテクチャに従って、訂正処理を実行するのに動作可能なコンピューティングシステム２８００のブロック図である。この種々の態様に追加の文脈を提供するために、図２８および以下の説明は、種々の態様を実装することができる適切なコンピューティングシステム２８００を簡潔に概略的に説明するものである。上述の説明は、１つまたは複数のコンピュータ上で実行できるコンピュータ実行可能命令の一般的な文脈で記述したが、当業者は、他のプログラムモジュールと組み合わせておよび／またはハードウェアとソフトウェアとの組み合わせとして、新規な実施形態も実装可能であることは理解するであろう。

一般に、プログラムモジュールは、特定のタスクを実行し、特定の抽象データ型を実装するルーチン、プログラム、コンポーネント、データ構造などを含む。さらに、当業者は、本発明の方法を他のコンピュータシステム構成で実施できることは理解するであろう。例えば、シングルプロセッサもしくはマルチプロセッサのコンピュータシステム、ミニコンピュータ、メインフレームコンピュータ、パーソナルコンピュータ、ハンドヘルド・コンピューティング・デバイス、マイクロプロセッサベースもしくはプログラム可能な電化製品などであり、その各々が１つまたは複数の関連する装置に動作可能に結合することができる。

例示した態様は、通信ネットワークを介してリンクされるリモート処理デバイスにより特定のタスクを実行する分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールをローカル記憶装置とリモート記憶装置との両方に配置することができる。

典型的には、コンピュータは、種々のコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータによりアクセスできる任意の利用可能な媒体でできる。そのコンピュータ可読媒体は、揮発性および不揮発性媒体、取り外し可能および取り外し不可能な媒体を含む。例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を備えることができるが、これらに限られるわけではない。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータのような情報を記憶するための任意の方法または技術で実装される揮発性および不揮発性媒体、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくは他のメモリ技術、ＣＤ−ＲＯＭ、ＤＶＤ（ｄｉｇｉｔａｌｖｉｄｅｏｄｉｓｋ：デジタルビデオディスク）もしくは他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、または所望の情報を記憶するのに使用でき、コンピュータによりアクセス可能な任意の他の媒体を含むが、これらに限られるわけではない。

再び、図２８を見ると、種々の態様を実装するための例示的なコンピューティングシステム２８００はコンピュータ２８０２を含み、そのコンピュータ２８０２は処理装置２８０４、システムメモリ２８０６、およびシステムバス２８０８を含む。システムバス２８０８は、処理装置２８０４に対するシステムメモリ２８０６（これに限られるわけではない）を含むシステムコンポーネントのためのインタフェースを提供する。処理装置２８０４は、任意の種々の市販のプロセッサとすることができる。また、デュアルマイクロプロセッサおよび他のマルチプロセッサのアーキテクチャを処理装置２８０４として使用してもよい。

システムバス２８０８は、さらに任意のさまざまな市販のバスアーキテクチャを使用してメモリバス（メモリコントローラを備えたもしくは備えていない）、周辺バス、およびローカルバスに相互接続できる任意のいくつかのタイプのバス構造とすることができる。システムメモリ２８０６は、ＲＯＭ（ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ）２８１０、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）２８１２を含む。ＢＩＯＳ（ｂａｓｉｃｉｎｐｕｔ／ｏｕｔｐｕｔｓｙｓｔｅｍ：基本入出力システム）は、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭなどの不揮発性メモリ２８１０内に格納されている。ＢＩＯＳは、起動時などに、コンピュータ２８０２内の要素間で情報を転送するのを助ける基本ルーチンを含む。ＲＡＭ２８１２は、データをキャッシングするためのスタティックＲＡＭなどの高速ＲＡＭを含むこともできる。

コンピュータ２８０２は、さらに内蔵ＨＤＤ（ｈａｒｄｄｉｓｋｄｒｉｖｅ：ハード・ディスク・ドライブ）２８１４（例えば、ＥＩＤＥ、ＳＡＴＡ）を含み、内蔵ハード・ディスク・ドライブ２８１４は、適切なケース（図示せず）に入れて外付けで使用する構成にしてもよいし、ＦＤＤ（ｍａｇｎｅｔｉｃｆｌｏｐｐｙｄｉｓｋｄｒｉｖｅ：磁気フロッピ（登録商標）ディスク）２８１６（例えば、取り外し可能なディスク２８１８に対する読み出し、もしくは書き込みのため）、および光ディスクドライブ２８２０（例えば、ＣＤ−ＲＯＭディスク２８２２を読み出す、またはＤＶＤなどの他の高容量光媒体に対する読み出しもしくは書き込みのため）としてもよい。ハード・ディスク・ドライブ２８１４、磁気ディスクドライブ２８１６、および光ディスクドライブ２８２０は、ハード・ディスク・ドライブ・インタフェース２８２４、磁気ディスク・ドライブ・インタフェース２８２６、および光ディスク・ドライブ・インタフェース２８２８により、それぞれシステムバス２８０８に接続することができる。外付けドライブの実装のためのインタフェース２８２４は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）およびＩＥＥＥ１３９４のインタフェース技術の少なくとも一方またはその両方を含む。

ドライブと関連のコンピュータ可読媒体とは、データ、データ構造、コンピュータ実行可能命令などの不揮発性の記憶を行う。コンピュータ２８０２では、ドライブと媒体とが適切なデジタル形式で任意のデータを記憶する。上述のコンピュータ可読媒体の説明はＨＤＤ、取り外し可能な磁気ディスク、ＣＤもしくはＤＶＤなどの取り外し可能な光媒体について言及したが、当業者であれば、ジップ（ｚｉｐ）ドライブ、磁気カセット、フラッシュメモリカード、カートリッジなどのコンピュータ可読の他のタイプの媒体も例示的なオペレーティング環境で使用でき、また任意のこのような媒体が、開示するアーキテクチャの新規な方法を実行するためのコンピュータ実行可能命令を含むこともできることは理解されたい。

多数のプログラムモジュールをドライブおよびＲＡＭ２８１２内に記憶することができる。例えば、オペレーティングシステム２８３０、１つまたは複数のアプリケーションプログラム２８３２、他のプログラムモジュール２８３４、およびプログラムデータ２８３６がある。オペレーティングシステム、アプリケーション、モジュール、および／またはデータの全てもしくは一部をＲＡＭ２８１２でキャッシュできる。開示したアーキテクチャは、種々の市販のオペレーティングシステムまたはオペレーティングシステムの組み合わせと共に実装することができることは理解されたい。

ユーザは、１つまたは複数の有線／無線入力装置、例えば、キーボード２８３８、マウス２８４０などのポインティングデバイスを使用して、コマンドおよび情報をコンピュータ２８０２に入力することができる。入出力装置は、マイクロフォン／スピーカ２８３７および、例えば、ＩＲリモートコントロール、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーンなどの他の装置（図示せず）を含むことができる。これらの入力装置および他の入力装置は、システムバス２８０８に結合された入力装置インタフェース２８４２を使用して処理装置２８０４に接続されることが多いが、例えば、パラレルポート、ＩＥＥＥ１３９４シリアルポート、ゲームポート、ＵＳＢポート、ＩＲインタフェースなどの他のインタフェースによって接続される場合もある。

モニタ２８４４または他のタイプの表示装置も、ビデオアダプタ２８４６などのインタフェースを使用してシステムバス２８０８に接続される。モニタ２８４４の他に、典型的には、コンピュータはスピーカ、プリンタなどの他の周辺出力装置（図示せず）を含む。

コンピュータ２８０２は、リモートコンピュータ（単数または複数）２８４８のような１つまたは複数のリモートコンピュータへの有線および／または無線通信経由の論理接続を使用したネットワーク化環境で動作することができる。リモートコンピュータ（単数または複数）２８４８は、ワークステーション、サーバコンピュータ、ルータ、パーソナルコンピュータ、ポータブルコンピュータ、マイクロプロセッサベースの娯楽装置、ピア装置または他の共通ネットワークノードとすることができる。リモートコンピュータ（単数または複数）２８４８は、典型的には、コンピュータ２８０２に関して説明した要素の多く、または全てを含むが、簡潔にするために、メモリ／記憶装置２８５０のみを図示する。図示の論理接続は、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）２８５２および／またはより大きなネットワーク、例えば、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）２８５４への有線／無線接続を含む。このようなＬＡＮおよびＷＡＮのネットワーク環境は、オフィスや会社で一般的であり、イントラネットなどの企業規模のコンピュータネットワークを円滑にする。これらのネットワーク環境の全てを、例えば、インターネットなどのグローバルな通信ネットワークに接続してもよい。

ＬＡＮネットワーク環境で使用する場合、コンピュータ２８０２は有線および／または無線通信ネットワークインタフェースまたはアダプタ２８５６を使用してローカルネットワーク２８５２に接続される。アダプタ２８５６はＬＡＮ２５８２への有線または無線通信を円滑にすることができ、ＬＡＮはさらに無線アダプタ２８５６と通信するためにＬＡＮに配設される無線アクセスポイントを含むこともできる。

ＷＡＮネットワーク環境で使用する場合、コンピュータ２８０２はモデム２８５８を含むことができ、またはＷＡＮ２８５４上の通信サーバに接続され、または、例えば、インターネット経由でＷＡＮ２８５４を介する通信を確立するための他の手段を有する。モデム２８５８は、内蔵または外付けにすることも可能で有線および／または無線装置とすることができるが、シリアルポートインタフェース２８４２を使用してシステムバス２８０８に接続される。ネットワーク化環境では、コンピュータ２８０２に関して述べたプログラムモジュール、またはその一部は、リモートメモリ／記憶装置２８５０内に格納することができる。図示したネットワーク接続は例示的であり、コンピュータ間の通信リンクを確立するための他の手段も使用できることは理解されたい。

コンピュータ２８０２は、任意の無線装置または無線通信に動作可能に配設されたエンティティ、例えば、プリンタ、スキャナ、デスクトップコンピュータおよび／もしくはポータブルコンピュータ、携帯データ端末、通信衛星、無線で検出可能なタグに関連付けられた任意の設備もしくは場所（例えば、キオスク、新聞売店、化粧室）および電話と通信するように動作可能である。これは、少なくともＷｉ−ＦｉおよびＢｌｕｅｔｏｏｔｈ（登録商標）の無線技術を含む。したがって、通信は、従来のネットワークと同様に所定の構造にすることができるし、または簡単に少なくとも２つの装置間のアドホック通信にすることができる。

図２９は、開示するアーキテクチャによる訂正処理のための例示的なコンピューティング環境２９００の略ブロック図である。システム２９００は、１つまたは複数のクライアント２９０２を含む。クライアント２９０２は、ハードウェアおよび／またはソフトウェア（例えば、スレッド、プロセス、コンピューティング装置）とすることができる。クライアント２９０２は、例えば、クッキー（単数または複数）および／または関連する文脈情報を格納することができる。

システム２９００は、さらに１つまたは複数のサーバ２９０４を含む。サーバ２９０４は、ハードウェアおよび／またはソフトウェア（例えば、スレッド、プロセス、コンピューティング装置）とすることができる。サーバ２９０４は、例えば、スレッドを格納してそのアーキテクチャを使用することにより変換を実行する。クライアント２９０２とサーバ２９０４との間の１つの可能な通信は、複数のコンピュータプロセスの間で送信できるよう適応されたデータパケットの形にすることができる。データパケットは、例えば、クッキーおよび／または関連文脈情報を含んでもよい。システム２９００は、クライアント２９０２とサーバ２９０４との間の通信を円滑にするために使用できる通信フレームワーク２９０６（例えば、インターネットなどのグローバルな通信ネットワーク）を含む。

通信は、有線技術（光ファイバなど）および／または無線技術を使用して円滑にすることができる。クライアント２９０２は、クライアント２９０２にローカルな情報を格納するのに使用できる１つまたは複数のクライアント・データ・ストア２９０８に動作可能に接続される（例えば、クッキーおよび／または関連する文脈情報）。同様に、サーバ２９０４は、サーバ２９０４にローカルな情報を格納するのに使用できる１つまたは複数のサーバ・データ・ストア（単数または複数）２９１０に動作可能に接続される。

上述の内容は、開示するアーキテクチャの例を含む。もちろん、考えられる全てのコンポーネントおよび／または方法の組み合わせを述べることは不可能であるが、当業者であれば多くのさらなる組み合わせや置換が可能であることは理解できるであろう。したがって、新規なアーキテクチャは、本発明の趣旨および範囲内にある全てのこのような代替、変更、変形を含むものである。さらに、用語「含む」が本明細書または特許請求の範囲のいずれかで使用される範囲では、この用語は、用語「備える」が請求項の移行句として使用するときに解釈されるように、「備える」と同様に包括的な意味であるものとする。

Claims

音声入力に基づいてアジア文字を出力するための音声認識コンポーネントと、
不正確な認識結果を訂正するために、発音方法、単語内文字方法、および、文字分解方法の内１つの訂正方法のユーザによる選択を受信し、前記音声認識コンポーネントによる不正確な出力に基づいて、前記選択された訂正方法を用いて訂正された出力を単一パスで生成するための訂正コンポーネントと、を備え、
前記発音方法は、前記不正確な出力を選択し訂正するために、発声により、また手動でユーザ対話を容易にするために、１つまたは複数のダイアログパネルを提示する綴りウィザードを含み、該１つまたは複数のダイアログパネルは発声起動コマンドに応答して表示され、前記単語内文字方法は、文字が使用されているユーザによる発声単語から単語の書き方に関する情報を受信し、前記文字分解方法は、サブコンポーネントにより文字を取得するために、ユーザが発声する語により構成される文字を構成する構成要素に関する情報を受信する
ことを特徴とするコンピュータ実装翻訳システム。
前記発音方法は、部分音声記号を使用して、単語発音に関する情報を受信することを特徴とする請求項１に記載のシステム。
確率および／または統計に基づいた分析を採用して、自動的に実行されるのが望ましい動作を予知または推論する推論コンポーネントをさらに備えることを特徴とする請求項１に記載のシステム。
他のユーザおよびレキシコンのベンダと更新されたレキシコンを共有するための共有コンポーネントをさらに備えることを特徴とする請求項１に記載のシステム。
意味に基づいて単語を重み付けするための重み付けコンポーネントをさらに備えることを特徴とする請求項１に記載のシステム。
使用頻度情報を記憶するための頻度コンポーネントをさらに備え、前記訂正コンポーネントは使用頻度情報を使用してランク付けした候補文字のリストを提供することを特徴とする請求項１に記載のシステム。
前記アジア文字は、関連する固定の発音を有する象形文字を含む中国語または日本語の書記形式であることを特徴とする請求項１に記載のシステム。
コンピュータにより実行される音声認識方法であって、
アジア語の発声信号を認識して結果を出力するステップと、
不正確な認識結果を訂正するために、発音方法、単語内文字方法、および、文字分解方法の内１つの訂正方法のユーザによる選択を受信するステップと、
前記選択された訂正方法を用いて結果の綴りを訂正するために綴り／訂正モードに入るステップと、及び
前記選択された訂正方法に基づいて単一のパスで前記結果の綴りを訂正するステップと、を含み
前記発音方法は、前記結果を選択し訂正するために、発声により、また手動でユーザ対話を容易にするために、１つまたは複数のダイアログパネルを提示する綴りウィザードを含み、該１つ又は複数のダイアログパネルは発声起動コマンドに応答して表示され、前記単語内文字方法は、文字が使用されているユーザによる発声単語から単語の書き方に関する情報を受信し、前記文字分解方法は、サブコンポーネントにより文字を取得するために、ユーザが発声する語により構成される文字を構成する構成要素に関する情報を受信する、ことを特徴とする、音声認識方法。
前記アジア語の発声信号の受信に応答して綴り／訂正モードに自動的に入るステップをさらに含み、前記綴りウィザードは音声発音を受信することを特徴とする請求項８に記載の方法。
綴りの訂正に使用される音素距離を記憶する混同行列を適用することをさらに含むことを特徴とする請求項８に記載の方法。
発声による同音コマンドを使用して、綴りを訂正するステップをさらに含むことを特徴とする請求項８に記載の方法。
記号サブコンポーネントへの単語分解に基づいて、綴りを訂正するステップをさらに含むことを特徴とする請求項８に記載の方法。
綴りを訂正しながら新規レキシコンを構築するステップと、前記新規レキシコンを別のユーザに送信するステップとをさらに含むことを特徴とする請求項８に記載の方法。
文字を含む１つまたは複数の単語の発声入力に基づいて、文字を選択するステップをさらに含むことを特徴とする請求項８に記載の方法。
候補文字の優先リストを生成するステップと、手動でまたは発声コマンドにより文字を選択するために候補文字をインデックスリストとして表示するステップとをさらに含むことを特徴とする請求項８に記載の方法。
結果を出力するためにアジア語発声信号を認識するためのコンピュータ実装手段と、
不正確な認識結果を訂正するために、発音方法、単語内文字方法、および、文字分解方法の内１つの訂正方法のユーザによる選択を受信するためのコンピュータ実装手段と、
前記選択によって前記結果の綴りを訂正するために綴り／訂正モードに入るためのコンピュータ実装手段と、
キーワード検索を実行するためのコンピュータ実装手段と、
前記選択された訂正方法に基づいて、単一パスで結果の綴りを訂正するためのコンピュータ実装手段と、を備え、
前記発音方法は、前記結果を選択し訂正するために、発声により、また手動でユーザ対話を容易にするために、１つまたは複数のダイアログパネルを提示する綴りウィザードを含み、該１つ又は複数のダイアログパネルは発声起動コマンドに応答して表示され、前記単語内文字方法は、文字が使用されているユーザによる発声単語から、単語の書き方に関する情報を受信し、前記文字分解方法は、サブコンポーネントにより文字を取得するために、ユーザが発声する語により構成される文字を構成する構成要素に関する情報を受信する、
ことを特徴とするコンピュータ実装システム。