JP2014067062A - アジア文字を生成するための認識アーキテクチャ - Google Patents

アジア文字を生成するための認識アーキテクチャ Download PDF

Info

Publication number
JP2014067062A
JP2014067062A JP2013259167A JP2013259167A JP2014067062A JP 2014067062 A JP2014067062 A JP 2014067062A JP 2013259167 A JP2013259167 A JP 2013259167A JP 2013259167 A JP2013259167 A JP 2013259167A JP 2014067062 A JP2014067062 A JP 2014067062A
Authority
JP
Japan
Prior art keywords
character
word
user
spelling
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013259167A
Other languages
English (en)
Other versions
JP5819924B2 (ja
Inventor
Shiun-Zu Kuo
クオ シウン−ツ
E Feige Kevin
イー.ファイゲ ケビン
Yifan Gong
ゴン イーファン
Taro Miwa
ミワ タロウ
Chitrapu Arun
チットラプ アラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2014067062A publication Critical patent/JP2014067062A/ja
Application granted granted Critical
Publication of JP5819924B2 publication Critical patent/JP5819924B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion

Abstract

【課題】アジア言語音声認識システムにおいて、不正確な認識結果を訂正するアーキテクチャを提供する。
【解決手段】認識結果の不正確な綴りを訂正し、新語を生成するための綴りモードは、音声入力に応答して起動することができる。訂正は、音声および/または手動での選択とエントリとを使用して得られる。このアーキテクチャは、従来のシステムのように複数回でなく、単一パスでの訂正を容易にする。綴りモードを使用して訂正された単語は一単位として訂正され、一単語として扱われる。綴りモードは、少なくともアジア大陸の言語、例えば、簡体字中国語、繁体字中国語、および/または日本語などのアジア言語に適用できる。
【選択図】図1

Description

本発明は、音声認識に関し、より具体的には、アジア文字(asian character)を生成するための認識アーキテクチャに関する。
英語の音声認識(SR:speech recognition)エンジンには、主に全てまたはほぼ全ての固有名詞を含むことができないため、特にエンジンレキシコン(engine lexicon)内に名前を含むことができないため、綴りウィザード(spelling wizard)が必要である。一方、中国語の文字の組は、中国語の文字全てがレキシコン内に含まれるので、クローズドであると考えることができる。語彙以外の文字を考慮する必要がない、またはその文字について悩む必要がない。しかし、中国語音声認識エンジンの大きな問題は、多くの異なる文字が共有する同音異義語である。約47,000の有効な中国語の文字が存在するが、中国語では異なるが固定である音節は約1,600しかない。これは、音節が均一に異なる文字に割り当てられた場合、各音節は約23〜31個の異なる文字に対応することができ、この文字の多くは異なるものを意味するということである。
固定音節は、有効な中国語の文字に関連付けられた音節の組である。例えば、音節「chu」は、出初處...(ピンイン(Pinyin)で/ch uh/)に対応するが、「chiu」に対応する有効な文字はない。固定音節の数が制限されているために、同じ発音を共有する文字はかなりの数になる。以下は、/l ih/として同じ発音を共有する54個の文字の一例である。なお、この/l ih/のリストは包括的なものではない。


したがって、エンジンが単語を誤って認識した場合に、ユーザは、代替のリストから単語の訂正を試みること、または所望の単語を認識するために繰り返し発声することを試みることができる。成功しない場合は、以下の問題による。
第一に、音声オーディオ(voice audio)が音響モデル(AM:acoustic model)により正確に処理されていないか、または音響モデルでは他の単語よりもその所望の単語の関連性スコアが低く、他の単語の言語モデル(LM:language model)スコアの方が高い場合、ユーザが何度単語を発声しても、出力されるのは代替リストからの正確な単語でない場合がある。
第二に、音声オーディオ(voiced audio)が音響モデルにより正確に処理されると仮定しても、所望の文字が代替のアイテムの数を超えたリスト・エントリ内にあって、ユーザに提示されない場合、ユーザはタイプせずに単語を取得することができなくなる。この問題は、中国語で特に文字が数字や番号の同音である時に発生しやすく、この場合、音声認識エンジンはさらに、数に対して逆テキスト正規化(ITN:Inversed−Text Normalization)(例えば、「twelve」から「12」への正規化)結果のさまざまな形式を表示する。
第三に、中国語音声認識エンジンにとって考慮しなければならない語彙以外の文字がなくても、異なる文字の組み合わせで新語がユーザによって作成される可能性がある。新語に加えて、単語の境界を示すスペースが単語間にない。単語の境界を判断するために、アジア言語簡体字中国語(CHS:Simplified Chinese)、繁体字中国語(CHT:Traditional Chinese)、日本語(JPN)は、エンジン内またはインプット・メソッド・エディタ(IME:input method editor)処理で単語分割が必要である。このため、ユーザが中国語音声認識エンジンに対して、知られていない単語である可能性が極めて高い人名などの固有名詞を指示した場合、その名前が非常に一般的でトレーニングデータ内で見られるものでない限り、音声認識エンジンがその名前を正確に処理する可能性は極めて低い。音響モデルおよび言語モデルが正確に動作していても、ユーザは「劉麗」のような文字の名前の出力を受信する場合がある(焦点は二番目の文字である。最初の文字は性であり、二番目の文字は名である)。この名前の出力は、すでに説明した同音の問題のために所望の出力の「劉莉」とは異なる。すなわち、「麗」と「莉」とは同音であるが、異なる人物の名前で使用されるためである。このことは、同様に中国語の会話時の人間の知覚にも当てはまる。第1の人が第2の人に自分の名前を伝えた場合、第2の人は第1の人にその名前にはどんな文字を使うのかを具体的に尋ねる必要があるだろう。
最後に、ユーザが音声認識処理時に単語の文字を訂正しようとする場合に、文字(単数または複数)を選択することにより、および/または文字(単数または複数)を繰り返し発声して正確な文字が最終的に代替リスト上に現れるか否かを判断することにより、正確な出力を取得することが可能である。多くの場合、文字が多くの同音を持たない時は、置換するための正確な単語を取得することが可能である。しかし、この種の訂正は個々の文字に基づいて行われることになる。音声認識は1文字単位でなく単語単位で学習するので、音声認識ではこの訂正は学習されないことになる。したがって、ユーザがドキュメント内でこの文字を複数回必要とする場合に、ユーザはその文字が発話される度に訂正処理を繰り返さなければならなくなる。このように、従来の認識処理は面倒で効率が悪い。
本発明は、上述したような問題に鑑みてなされたものであり、その目的とするところは、アジア言語音声認識システムにおいて、不正確な認識結果を訂正するアーキテクチャを提供することにある。
以下は、本明細書内で説明するいくつかの新規な実施形態の基本的な理解のために簡略化した要約を示すものである。この要約は広範な概略ではない。この要約は、重要な/クリティカルな要素を特定するものでもなく、その範囲を線引きするものでもない。唯一の目的は、以下のより詳細な説明への前置きとして、簡略化した形でいくつかの概念を提示することである。
開示するアーキテクチャは、アジア語音声認識アルゴリズムの綴りモード(spelling mode)を提供する。これは、新語の境界を判断することや、新語をレキシコンに追加することを容易にする。したがって、単語訂正が複数回生じる従来システムとは異なり、綴りモードに基づいて1回だけ単語訂正が生じる。
具体的には、中国語の文字の文脈では、綴りモードは、音声認識エンジンがディクテーション(dictation)で不正確な文字を返した時に、中国語の文字の入力を容易にする。綴りモードを使用して訂正される単語は一単位として訂正され、一単語として扱われる。これは、例えば、単語の境界が容易に見分けられる英語の単語とは異なり、アジア言語の境界は不明瞭であるためである。したがって、綴りモードの使用による中国語の文字の入力(この例では)は、次の認識処理において単語の誤認識を減らすか、またはなくす。
開示する綴りモードは、簡体字中国語、繁体字中国語、および/または日本語などの他のアジア言語に適用される。これらの言語では、文字は対応する固定の音を有する。
上述の関連する目的を達成するために、特定の実施態様を以下の説明および添付図面と併せて本明細書に示す。しかし、これらの態様は、本明細書で開示した原理を使用することができるほんの数例の種々の方法を示すものであり、このような全ての態様および等価物を含むものである。他の利点および新規な特徴は、図面と併せて考察すれば、以下の詳細な説明から明らかになるであろう。
コンピュータに実装された翻訳システムを示す図である。 綴り/訂正処理時に学習された新語に基づいたレキシコン共有を容易にするシステムを示す図である。 1つまたは複数の機能の自動化を容易にする推論コンポーネントを使用するシステムを示す図である。 本明細書で開示する綴り/訂正アーキテクチャにより使用できる1つまたは複数の方法を示す図である。 文字指定方法として単語発音を使用するシステムを示す図である。 ユーザが出力としてアジア語の文字/単語を望む場合に表示される綴りダイアログパネルのスクリーンショットの図である。 ユーザが出力として英語の単語を望む場合に表示される綴りダイアログパネルのスクリーンショットの図である。 同音コマンド処理のために表示される綴りダイアログパネルのスクリーンショットの図である。 同音の訂正のための発声起動コマンドに応答して表示される綴りモードダイアログパネルのスクリーンショットの図である。 誤認識の単語が訂正され、発声によるインデックス選択に応答してリストボックスがクリアされたパネルを示す図である。 発声発音のために表示される綴りダイアログパネルのスクリーンショットの図である。 発声発音の訂正のために表示される綴りダイアログパネルのスクリーンショットの図である。 発声発音の訂正に基づいて、修正された同音リストボックスと共に表示される綴りダイアログパネルのスクリーンショットの図である。 誤認識の単語が訂正され、必要に応じてユーザが次の文字の訂正を継続することができるようにカーソルが、発声発音処理の次の文字に移動する時に表示される綴りダイアログパネルのスクリーンショットの図である。 第2の方法による文字重み付けの肯定的、中立的、否定的な意味を使用するシステムを示す図である。 第3の方法による所望の文字のサブコンポーネントの音声入力による単語分解を使用するシステムを示す図である。 漢字を取得するため、ひらがなの発声/タイプ入力による日本語の認識および処理のために表示される、綴りダイアログパネルのスクリーンショットの図である。 ローマ字取得に関連する日本語認識および処理のために表示される、綴りダイアログパネルのスクリーンショットの図である。 開示するアーキテクチャに従う音声認識の方法を示す図である。 綴りウィザードを使用して、認識結果を訂正する方法を示す図である。 音声発音を文字に変換する方法を示す図である。 訂正処理のためのアジア語および英語の分割コマンドを使用する方法を示す図である。 アジア語綴りウィザードの同音コマンドを使用する方法を示す図である。 単語の意味に重み値を付与する方法を示す図である。 更新されたレキシコンを共有する方法を示す図である。 綴り訂正のために文字分解を使用する方法を示す図である。 綴り訂正の複数の方法に基づく訂正処理の方法を示す図である。 綴り訂正の複数の方法に基づく訂正処理の方法を示す図である。 開示するアーキテクチャに従って訂正処理を実行するように動作可能なコンピューティングシステムのブロック図である。 開示するアーキテクチャに従う訂正処理のための例示的なコンピューティング環境の略ブロック図である。
本明細書で開示するのは、アルゴリズム、データ、アジア語の音声認識および新語/文字の取得または誤認識の文字の訂正のための綴りモードを含む少なくとも1つのユーザインタフェース(UI:user interface)を提供するアーキテクチャである。
ここで、図を参照する。図面内では、同じ符番は全体を通して同じ要素を指すのに使用されている。以下の記述では、説明のために、多数の具体的な詳細を述べて十分に理解できるようにする。しかし、新規な実施形態はこれらの具体的な詳細を示さなくても実施可能であることは明らかである場合がある。他の例では、説明を容易にするために周知の構造およびデバイスはブロック図の形式で示されている。
まず図1を参照すると、図1は、コンピュータに実装された翻訳システム100を示す。システム100は、アジア語の発声入力または音声入力を受信し、その入力に関して認識処理を行う音声認識コンポーネント102を含む。時には、認識処理は不正確なアジア語の文字および/または単語を出力することになる。このため、システム100は、音声認識コンポーネントによる不正確なアジア語の文字/単語および/または新しいアジア語の文字/単語の出力に基づいて、正確な文字および/または単語を生成するため、さらに訂正コンポーネント104を含む。
システム100は、少なくともユーザ対話のためのユーザインタフェース、英語およびアジア語の単語を検索するための、およびさらにユーザインタフェースパネルを起動しユーザインタフェースパネルと対話する異なるコマンドを提供し実行するための分割綴りパネルユーザインタフェース、新語を取り込み、単語の境界を判断するためのユーザ綴りモードを、より詳細に示す。システム100は、さらにユーザが発音、所望の文字を含む単語、所望の文字を含むサブコンポーネント、同音リストからの選択を使用して、発声入力により文字を取得するのを支援し、その後、変換候補から所望の文字を選択する。音声システムおよび混同行列(confusion matrix)テーブルに音素の音声距離情報を記憶するデータを含むデータストアが提供される。この情報は、ユーザが誤認識の発音を迅速および簡単に訂正する手助けとなり、システムが同様の間違いをする可能性を低減する。
各文字の使用頻度、さらに個人名や会社名などの文字が存在する可能なカテゴリを含むデータストアが提供される。したがって、キーワードが検出されると、対応するカテゴリがトリガされ、そのカテゴリで使用される文字がリスト内でより高い位置に押し上げられることになる。単語内の重要な文字を読み込むことや所望の文字が残りの訂正リストのトップに現れるように文字リストを再調整することも、本明細書で開示する方法の一部である。
システム100は、所望の文字を含む単語を使用して発声入力することにより文字を取得すること、さらに文字のサブコンポーネントを検査することにより文字を取得することを容易にする。システム100のユーザインタフェースは、正確な単語を取得するために、および発音の再入力を避けるために同音コマンドを処理する。また、ユーザは、新語のレキシコンを共有し、新語を評価するために、また異なるレキシコンを更新するために新語を返送することができる。さらに、他のアジア語(例えば、日本語)音声入力は多くの(例えば、4つの)異なる書記体系の間で切り替えることができる。
図2は、訂正処理時に学習された新語に基づいたレキシコン共有を容易にするシステム200を示す図である。システム200は、図1の音声認識コンポーネント102および綴り/訂正コンポーネント104を含む。しかし、訂正コンポーネント104の出力は認識コンポーネント102にフィードバックされて、内部レキシコン202を更新する。しかし、レキシコン202は認識コンポーネント102の外部にある可能性もあることに留意されたい。
システム200は、さらに従来の認識システムのように言語モデル(LM)204および音響モデル(AM)206を含むことができる。言語モデル204(または文法ファイル)は単語シーケンスの確率のセットを含む。音響モデル206は、音声データおよびその音写(transcription)に基づいて単語の音響挙動を音素の形態で特徴付ける。音響モデル206は、音声オーディオ信号(speech audio signal)から生成された特徴ベクトルに基づいて言語の音声単位をモデル化する。認識コンポーネント102は、言語モデル204および音響モデル206から受信した入力を処理して、最良の出力を提供する。しかし、示したように、アジア言語認識処理などの複雑なアプリケーションでは、正確な結果を出し、不正確な結果を解決することは難題になる可能性がある。したがって、訂正された結果に達すると、レキシコン202を更新する(または改良する)ことは有益である。これらの更新は、このような複雑なアプリケーションでは重要である可能性がある。したがって、適所における適切な安全チェックとともに、共有コンポーネント208はレキシコン202などの情報を他のユーザもしくはシステムおよび/または新規のレキシコンコーパスを配布するレキシコン・ベンダと共有するのを容易にする。これについて、本明細書でより詳細に説明する。
図3は、1つまたは複数の機能の自動化を容易にする推論コンポーネント302を使用するシステム300を示す図である。例えば、推論(inference)は、ユーザ(例えば、ユーザプロフィール)だけでなくコンポーネント302が学習し、推論する音声訂正動作に基づいて行うことが可能である。ユーザが中国語よりもはるかに英語の方が堪能であり、それが長期にわたるとすると、推論コンポーネント302はユーザが典型的に特定の中国語の文字に関連付けられた音声認識の間違いをすると学習する。したがって、コンポーネント302は、綴りモードインタフェース対発音インタフェースを表示することにより、ユーザが同じ間違いをすると予想してユーザインタフェースの機能を自動化し、より効率的にユーザを支援することができる。
別の例では、ユーザが提供される任意の他のモードよりも綴りモードを使用するのを一般に好むことを学習させることができる。したがって、コンポーネント302は、訂正する方法の選択に直面すると、自動的に綴りモードユーザインタフェースを表示することになる。これらは、ユーザ対話だけでなく、一定の入力基準に基づいて繰り返し発生する傾向のあるシステム処理に関する学習および推論を基に行うことができる多くの推論のほんの数例である。
推論コンポーネント302は、例えば、監視、分析、計算、学習・推論結果の使用のために機械学習・推論(MLR:machine learning and reasoning)を使用することができる。主題のアーキテクチャ(例えば、選択に関連する)は、その種々の態様を実施するために種々のMLRベースのスキームを採用することができる。例えば、何の字または単語のどの字を選択し表示すべきであるかを判断する処理を、自動分類子(automatic classifier)システムおよび処理を使用して容易にすることができる。
分類子(classifier)は、入力属性ベクトルx=(x1,x2,x3,x4,xn)をクラスラベルclass(x)にマッピングする関数である。また、分類子は入力がクラスに属する信頼度、すなわち、f(x)=confidence(class(x))を出力することができる。このような分類は、確率論的分析および/または他の統計的分析(例えば、1人または複数人の人々に対する期待値を最大にするために分析の効用やコストにファクタリングする分析)を使用して、ユーザが自動的に実行してほしいと望む動作を予知または推測することができる。
本明細書で使用する場合、「推論すること」および「推論」は、一般に、イベントおよび/またはデータを介して取り込まれたような観測のセットから、システム、環境および/またはユーザについての推論のプロセスまたは推論状態のことをいう。推論は、特定の文脈または動作を識別するのに使用することができ、または、例えば、状態における確率分布を生成することができる。推論は確率的である、すなわち、データやイベントの考慮に基づく関心対象の状態における確率分布の計算結果である。また、推論は、イベントおよび/またはデータのセットから、より高レベルのイベントを構成するのに使用される技術を指す場合がある。このような推論は、イベントが緊密な時間的近接性(temporal proximity)の相関性があろうとなかろうと、イベントおよびデータが1つまたは複数のイベントソースおよびデータソースからのものであろうと、観測されたイベントおよび/または記憶されているイベントデータのセットから新規のイベントまたは動作を構成することになる。
サポート・ベクトル・マシン(SVM:support vector machine)は、使用できる分類子の一例である。SVMは、最適な方法で非トリガイベントからトリガ入力イベントを分割する超曲面を可能な入力のスペースの中で発見することにより動作する。直感的に、このことはトレーニングデータに近いが同じでない試験データの分類を正確にする。他の指定モデルおよび非指定モデルの分類手法は、例えば、統計的回帰、単純ベイズ、ベイジアン・ネットワーク、決定木、ニューラルネットワーク、ファジー論理モデル、および採用できる異なるパターンの独自性を表す他の統計的分類モデルの種々の形態を含む。本明細書で使用する分類は、さらに順位および/または優先度を割り当てるのに使用する方法を含む。
本明細書からすぐに理解できるように、主題のアーキテクチャは明示的に(例えば、一般的なトレーニングデータを使用して)トレーニングされ、かつ非明示的に(例えば、ユーザの挙動の観察、外部情報の受信により)トレーニングされた分類子を使用することができる。例えば、SVMは、分類子のコンストラクタ内の学習またはトレーニングフェーズおよび特徴選択モジュールを使用して構成される。したがって、分類子(単数または複数)は、所定の基準に従って多数の機能を自動的に学習し、実行するのに使用できる。
推論コンポーネント302は、認識コンポーネント102、訂正コンポーネント104、レキシコン202、言語モデル204(接続は図示せず)、音響モデル206および共有コンポーネント208とインタフェースして、例えば、ユーザおよびシステム処理を監視し、データを取得することができる。システム300内の推論コンポーネント302を使用するのは、推論を使用し、関連付けることができる多くの異なる方法のほんの一例に過ぎない。つまり、推論コンポーネント302は、後の図面内のシステムコンポーネントのより詳細な実例と共に使用することができる。
図4は、本明細書で開示する訂正アーキテクチャにより使用できる1つまたは複数の方法400を示す図である。例えば、綴り/訂正コンポーネント104は単語発音方法402、単語内文字方法404、文字分解方法406を含むことができる。これらの方法400は、文字を指定する少なくとも3つの方法を提供する。文字を指定することができる方法には、部分音声記号を使用して単語を発音する方法(例えば、発音方法402)に関する情報の提供が含まれる。単語内文字方法404は、文字が存在する単語を提示することで文字を書き込む方法に関する情報の提供を含む。例えば、ユーザが「薫」の指定を選択する場合、ユーザは「薫陶的薫」と言うことができる。これは、英語で「a, as in apple」を使うことに似ている。
文字を構成する(または文字を分解する)方法に関する情報の提供は、分解方法406により行われる。すなわち、ユーザは文字の構成要素を発声することができる。例えば、ユーザが「李」を指定したい場合、ユーザは「木子;李」を言うことができる。これらの3つの方法(402、404、406)について、本明細書でより詳細に説明する。
第1の方法の発音方法402は、綴りウィザードを使用して提供されるが、方法404、406はウィザードなしで直接適用される。しかし、全ての方法(402、404、406)は、ユーザが単語訂正の方法の1つを選択できるようにウィザードを使用して実装できることは理解されたい。また、用語「ウィザード」を使用することが決して限定的なものとして解釈すべきでないことも理解されたい。すなわち、通常、プロセス全体にわたってユーザを導くようにウィザードが考えられる内容を表示するのではなく、全体のプロセスのごく一部に集中する一連のダイアログを表示することができる。
発音方法402は、ユーザが中国語の文字または単語でタイプしようとする時に使用される。アジア文字の発音を使用することは、いくつかのアジアの国々では一般的である。しかし、繁体字中国語OSの発音以外に使用できる他の入力方法がある。発音による便利さを考えると、多くのユーザがキーボードで文字をタイプする時に発音(注音)を使用することになる。これは、簡体字中国語OSを使用する時に中国のユーザのさらに多いケースである。簡体字中国語OSでは、ピンイン(Pinyin)という部分発音システムを使用してキーボードで文字をタイプする。(繁体字中国語を使用する)台湾のユーザは、第1声に対して
しかし、タイプするのは時間がかかり、間違いを起こしやすい。このことは、台湾のユーザにとっては特に時間と労力を消費する作業である。それは、繁体字中国語の音声システムが大陸の中国語で使用されている26個の英字(ピンインで)のセットとは異なるためである。例えば、音声記号は
の形であり、最初の記号
は/b/の音と見なされるが、キーボードの英字bではなく1(数字)と!(感嘆符)とのキーで入手する。このように、ユーザは各記号がキーボードのどこに位置するのかを学習する必要がある。一方、大陸中国で使用されているピンインは26個の英字で構成されており、ユーザがキーボード上の26個の英字の位置を熟知していれば、別のキーボードのセットを学習する必要はない。
綴りウィザードは、ユーザがタイプするのではなく発声で中国語の単語を取得できるようにすることで、上述の制限を克服するものである。これは、ユーザが音声記号の位置および/またはキーボード上の26個の英字を熟知していない、または頻繁に記号と対話せずに迅速に記号を選択し入力する場合に特に有用である。
第2の(または単語内文字)方法404は、単語発音方法402よりも複雑であると言える。なぜなら、文字を含む選択された単語は、有名な人物名さえも含まれた任意の単語である可能性があるからである。開示するアーキテクチャは、中国語で使用される全ての文字を含むことになるが、特にまだトレーニングデータの一部になっていないようなごく最近有名になった人物名など、全ての単語を含むとは言えない。
ユーザは所望の文字を含む単語を選択することができるが、文字は単語内の最初の文字でない場合がある。文字は、単語の真ん中、または最後に現れる可能性がある。例えば、ユーザは、「薫陶的陶」と話して、最後(または太字)の文字「陶」を入手する。
十分な認識精度を得るためには、文字を指定するのに人々が使用するのはどんなタイプの単語であるのかに関して、またそれらの単語により高い重みを割り当てること、もしくは特別にその単語をトレーニングすることのいずれかに関して十分に理解するのが望ましい。データの正確な収集および配列は、音声認識の精度の向上を助ける。さらに、音声認識の音響モデルが良いほど、この方法から得られる結果は良くなる。以上のことが達成されると、誤認識の中国語の単語を訂正するためにこの方法404を使用するのは、第1の方法402よりも簡単であろう。それは、正確な文字を取得するためのステップの数が、発音をする場合よりも少ないからである。
第3の方法406は、他の方法より少ない程度で容易に分解される少数の単語に使用することができる。言い換えれば、容易に分解できて、人々に広く使用されている単語の数は多くないということである。したがって、分解可能な単語を文法(または言語モデル)内にリストアップしてこの方法406を支援することができる。
図5は、文字指定方法として単語の発音を使用するシステム500を示す図である。上述したように、綴りウィザードは、発音方法に使用することができる。ユーザが発音し、正確な文字を選択するのを支援するのに、このウィザードは文字と発音の間でマッピングする1つまたは複数のデータファイルを使用する。さらに、ユーザが所望の文字を迅速に取得できるように、同音の単語の最適なリストを提供できる。
以下で、音声システムと文字との間の変換のためのデータファイルを説明する。第1の例では、音声システムは、例示的なデータファイルの概略と共に簡体字中国語(CHS)/繁体字中国語(CHT)で示されている。
上述したように、簡体字中国語は英語の26個も文字を使用するピンインを使用するが、任意で声調情報と共に使用する。これとは対照的に、繁体字中国語は絵文字記号である注音(Zhuyin)を使用するが、標準的な中国語ではない。繁体字中国語の注音は、英語の国際音標文字(IPA:international phonetic alphabet)に似ている。例えば、文字「田」に対して、簡体字中国語(CHS)および繁体字中国語(CHT)の音声表記は以下の通りである。
図5の認識コンポーネント102は、複数のアジア言語エンジン(アジア言語音声認識エンジン、...アジア言語音声認識エンジンと表示する。ここでnは正の整数)502を示す。エンジン502の第1のエンジン504は、単語発音方法402を使用し、さらにデータを提供するための3つのデータファイル506を使用する。各々の言語エンジン502は、発音を文字に変換する処理のための3つのデータファイル506を使用する。第1のデータファイル508は、単語をインデックスとして記憶し、各単語の関連情報を発音、声調、使用頻度、および/または可能なカテゴリを含む値として記憶する。第2のデータファイル510は、発音をインデックスとして記憶し、その発音を有する全ての単語を値として、使用頻度に基づいた順序で記憶する。第3のデータファイル512は、ユーザが効率的に誤認識の音素を訂正できるように、音素の中の混同行列情報を記憶するのに使用される。
示すように、第1のデータファイル508は、文字、文字の発音、声調、頻度、および/または可能なカテゴリの情報を記憶する。例えば、
異なる単語の中の異なる発音を有する文字、例えば、「好」(この文字は、「很好」(「とても良い」の意味)では第3声で使用されるが、「喜好」(「好きな」の意味)では第4声で使用される)に対して、考えられる発音が、要素をセミコロン(;)で分けて1行内に記録される。
最近の情報によれば、約47,035個の有効な中国語の文字があるが、その多くがほとんど使われず、長い歴史にわたって蓄積されてきた。約2,000個の文字が中国で文字が読める人々に積極的に使用されている。このため、2,000個の積極的に使用されている文字のセットに該当する文字を最初に表示することができる。積極的に使用されるセット内の文字が、ユーザに提示するリストの最上位またはリストの最上位の近くに表示されているか否かを知るために、積極的に使用される文字は「1」、他は「2」と記される。特定のカテゴリ内に現れる文字、例えば人名は、カテゴリ・コード、例えば人名に対して「n」を付与することができる。
システム500は、さらに第2のデータファイル510に記憶される時に、文字および/または単語の使用頻度を追跡するための頻度コンポーネント514を含むことができる。この第2のデータファイル510は、発音とその発音に関連付けられた文字とを異なる単語の中に現れる頻度の順に、さらに単語または文字の頻度の順に記憶する。第1のデータファイル508は、単語が2,000個の積極的に使用される文字に該当するかを記憶する。この第2のデータファイル510は、全体の高い/低い頻度の一方またはその両方に従って、かつ他の同音の文字に関連した使用頻度に従って、文字を順序付ける。頻度情報は、既存のトレーニングデータから取得することができる。第2のデータファイル510内の順序は、ユーザの選択の学習とユーザの選択についての推論とに基づいて調整できる。第2のデータファイル510は、より具体的な頻度情報が第1のデータファイル508内で指定できる場合には、第1のデータファイル508から作成することができる。しかし、第2のデータファイル510は、第2のファイル510を使用して、ユーザの選択からの学習の後に調整された順序を保存できるように、ユーザプロファイルフォルダ内で作成し、保存するべきである。以下のリストは、発音および単語の頻度を示すものである。下線のある単語は、ほとんど使用しない単語である。
有効な音節を記憶するのに、文脈自由文法(CFG:context−free grammar)を適用することができる。簡体字中国語では、ユーザは「TIAN」と発声して簡体字中国語音声システムの「tian」を取得して、その後、これをこの発音を使用する文字のリストに変換することができる。文脈自由文法は、ユーザが「TIAN」と言って、文字に変換する前に「tian」を受信することができる別のオプションを含む。この方法は、以下のコマンドにより、二重母音のいくつかまたは二重母音と最後の鼻音とに分類する。
繁体字中国語では、注音の音素のみが文法で使用される。さらに、エンジンで使用される発音を文法内に適用して、音声認識の精度を向上させることになる。
発音が不正確に認識された場合、ウィザードによりユーザは発音を訂正することができる。訂正する音素を選択した後、ウィザードは誤認識の音素に近い音素のリストを表示し、そのリストを、例えば、調音の位置、調音の様式、発声、文脈、および他の地域方言の影響に応じて、2つの音素間の距離の順に順序付けすることができる。
台湾の多くの人々が中国標準語(Mandarin)とミン南語(Southern Min)との両方を話す。ミン南語の方言の音構造が、いくつかの点で中国標準語の方言に大きく影響している。ほとんどの人々が
(そり舌音:retroflex consonants)と、
(歯茎音:alveolar consonants)とを区別することができない。また、
(唇歯摩擦音:labial−dental fricative)と、
(軟口蓋摩擦音:velar fricative)との区別ができない人々もいる。南方の中国のいくつかの方言では、/n/と/l/とは区別不可能であり、またこの/n/と/l/とは他の学習言語の生成に影響を与える。最低限に区別可能な音素のセット間の距離は、より短い距離とされる。
文脈とは、2つの音素が同じ文脈内に現れるか否かのことを言う。例えば、
(/b/)と、
(/p/)とは文脈の点では、
(/b/)と、
(/f/)とよりも近い。それは、音素が同じ核母音(単数または複数)と尾子音(単数または複数)の前にくることができるからである。
繁体字中国語で使用される子音のこれらの特徴に基づいた例示的な混同行列テーブルは、以下のように示される。以下のテーブルは、調音の位置、調音の様式、発声、文脈、および他の地域方言の影響に基づく距離を計算することにより得られる。また、このタイプの混同行列は、異なる音の音響モデルを自動的に比較することで生成することができ、このことで調音の位置、調音の様式、発声を補うことになる。さらに、混同行列は、異なる音の音響モデルによって取得し、その最終形態に対して文脈や他の地域方言の影響に基づいて調整することができる。同じ方法を使用して、繁体字中国語の母音と声調、および全ての他のアジア言語の子音と母音との行列を生成することができる。
図8〜図10は、同音の訂正を使用するプロセスに関連付けられたスクリーンショットを示す図である。図8は、同音コマンド処理のために表示される綴りダイアログパネル800のスクリーンショットである。正確な文字を取得するために、同音であるコマンドが発声される。表示された/認識された単語は、608の「諧音」(「同音」の意味)として提供される。この発声コマンドインタフェースは、音声記号を繰り返しタイプするのを避けることができるので、タイプすることよりもより有効であると考えられる。すなわち、ときには発声されたコマンドは厳密に認識されるが、ユーザは異なる文字を希望することがある。ユーザに発音の繰り返しを指示することよりも、コマンドが処理されて同音リストを出力することができる。この機能を使用すれば、音声による訂正は手動の入力(例えば、タイピング)よりも改善されたユーザ体験を提供する。すなわち、ユーザがタイプすることにより手動で発音を入力し、同音リストから単語を選択すると、単語が破線の下線を施したテキストとして表示されることになる。この形態では、ユーザはさらにそのリストから文字を変更することができる。
しかし、ユーザが単語を確信すると、ユーザは入力(または「OK」)セレクタ610を選択して、入力システムが割り当てられた言語モデルスコアから単語を自動調整しないようにテキスト内の単語をロックすることができる。したがって、一旦単語がダイアログパネル800でロックされると、ユーザが単語を再び変更したい場合、音声記号を再びタイプしなければならない。音声コマンドインタフェースは、「諧音」(「同音」)コマンドを認識することにより、手動での入力にかかる余分の手間を省くことができる。第1のステップとして、ユーザは、「更正一號字」(第1の文字を訂正)と話すことにより、訂正すべき単語を選択する。その後、第1の文字802は強調表示される。次に、ユーザは同音の「諧音」と話すか、または「諧音」(「同音」)セレクタ608を選択して、元の中国語の文字のH(同音)文字を取得することができる。また、パネル800は中国語でダイアログセレクタ(同音セレクタ608、OKセレクタ610、キャンセルセレクタ612)を表示する。
同音コマンドを使用した訂正または発音による訂正は、パネル800の(1、2、3とラベルしたフィールドの)任意の文字について行うことができることに留意されたい。パネル800では802が第1の文字である。しかし、候補文字リストは異なる。同音コマンドからの候補リストは、声調の同じまたは少し異なる文字を含むことになる。発音による候補リストは、ユーザによる発音と厳密に一致する文字を含むことになる。ユーザが発音を採用する場合、図8のスクリーンショットは、図10に示すように第1の文字802でなく第2の文字が強調表示されて表示されることになる。その後、ユーザが発音した後、図11のスクリーンショットが表示される。
図9は、同音訂正のために発声起動コマンドに応答して表示される綴りモード・ダイアログ・パネル900のスクリーンショットである。元の文字の発音は、インデックス付与された同音文字リストがリストボックス902内に表示されるように、綴りウィザードにより支援される。その後、ユーザは第1の候補の「一」(「1」)または「一號」(1番)のような関連インデックス番号を話すことにより、またはこの場合、文字906をクリックすることにより所望の文字を選択する。それに応答して、発音パネル900はリストボックス902をクリアし、元の文字802を選択した文字906と置換し、図10に示すように、発声によるインデックス選択に応答してリストボックス902がクリアされたパネル1000として表示されることになる。その後、ウィザードは、図8の(第1のフィールドの)文字802に従って説明したように、同様の処理のために(第2のフィールドの)第2の文字1002へ対話を移す。
図10で処理を継続しながら、発音することよって発声による訂正を行うことができる。ユーザは、ウィザードがまだ移動しておらず、第2の文字を強調表示していない場合、「更正二號字」(「第2の文字を訂正」)と話して第2の文字1002を強調表示させることにより、訂正すべき単語を選択することまたはその単語にナビゲートすることで開始する。
図11は、発声する発音のために表示される綴りダイアログパネル1100のスクリーンショットである。次に、ユーザが発音で
と発声し、その発音が発音フィールド1102でユーザに表示され、ウィザードは再びリストボックス902内の単語のインデックスリストを提供する。リストボックス902は、より使用頻度の高い単語を最上位に、より使用頻度の低い単語を下位近くにすることで、順に候補単語をリストアップする。さらに、システムが第1の文字802を姓のようなキーワードで訂正するように指示すれば、システムはキーワードを検出し、次の文字の候補リストの訂正を調整する。この場合、姓に使用される文字は、残りの文字の訂正の中で候補リスト902の最上位に上げられることになる。上述したように、次に、ユーザは、例えば、「薫」を取得するために第2の候補に関連付けられた「二」(「2」)または「二號」(「2番」)のような関連インデックス番号を発声して、所望の文字を選択することができる。その後、選択した候補を古い文字と置換して、発音パネル1100はクリアされて、リストボックス902がダイアログから除去される。
音声認識が発音を不正確に認識した場合、ウィザードは上述した混同行列に基づいて最も近い音素を表示することになる。図12は、発声された発音の訂正のために表示される綴りダイアログパネル1200のスクリーンショットである。ユーザは、音素を発声することでウィザードと対話して、例えば、「更正第一個音」(「第1の音素を訂正」)と話すことにより訂正することができる。次に、第1の音素1202が強調表示される。その後、音素リストボックス1204が音素距離の順に音素のリストと共に表示される。次に、ユーザは
(=ピイインの「qi」)を発声して、第1の誤認識の音素1202を、リストボックス1204のインデックス「1」の訂正された音素
と置換する。
図13は、発声された発音の訂正に基づいて修正された同音リストボックス902と共に表示される綴りダイアログパネル1300のスクリーンショットである。同音文字リストボックス902は、変更された音素に基づいて訂正される。次に、ユーザは、例えば、この場合、「一」(「1」)または「一號」(1番)のような関連番号を、発声することにより図14に示された第1の文字1402を選択する。その結果、選択した候補は元の候補と置換され、発音フィールド1102はクリアされ、リストボックス902はダイアログから除去される。図14は、カーソルが発声された発音の処理のために次の文字に移動した時、または図13の処理が完了した時に表示される綴りダイアログパネル1400のスクリーンショットである。
本明細書で説明するように、名前の場合は、各ユーザが名前で使用される文字を厳密には知らないので、綴りウィザードが必要となろう。したがって、名前からヒントを得て、ヒントを提供することができる。例えば、場合によっては、検討する姓のタイプが数百しかない場合があり、上述したように、そのセットが固定されていることが既知である。したがって、常に単語/文字列の第1の文字にすべきである姓が選択されると、リストボックスに表示される文字候補リストは調整される。例えば、「fan」を使用する名前に対して、文字は「凡」(「平凡な」の意味)、「繁」(「複雑な」の意味)、「煩」(「面倒な」の意味)、「藩」(「野蛮な」の意味)、「犯」(「囚人」の意味)などが可能である。
ほとんどの文字で、ユーザは、上述した最初の2つの例のように、名前に肯定的または中立的な意味を選択するものである。しかし、トレーニングデータのほとんどが新聞から取得されたものであり、これがごく最近の言語トレーニングシステムの問題であるのだが、文字はかなり高い頻度で最後の意味の「犯」(「囚人」)に関連付けされる可能性がある。したがって、データファイルのカテゴリ情報を提供することにより、単語のリストをヒントに応じて調整することができる。考えられるヒントは、人名(例えば、姓)、通りの名前(例えば、「路」(「道」)、「街」(「通り」)、「市」(「市」)、「縣」(「地方」)を使用する)、会社名/組織名(例えば、「公司」(「会社」)、「院」(「組織」)を使用する)を含むことができるが、これらに限定されない。
上述のシナリオは、ユーザが綴りモードで複数の文字を有する単語を選択すること、および限定された文字シーケンスに基づいて、(単語境界の)単語を正確に解析することにより慣れている、または精通している場合に、開示するシステムで処理(または認識)するのにより容易である。ユーザが複数の文字から1つの文字を選択するだけの場合、システムは新語の単語境界の情報を失う可能性がある。
上述した第2の方法は、所望の文字を含む単語の発声入力により中国語の文字を取得するものである。図15は、第2の方法に従って、文字重みに肯定的、中立的、否定的な意味を採用するシステム1500を示す図である。図15の認識コンポーネント102は、複数のアジア言語エンジン502を示す。第1のエンジン504は、単語内文字方法404を使用し、さらにデータ提供のためにデータファイル1502を使用する。各言語エンジン502は、単語内文字方法404に基づいて文字を取得するのにデータファイル1502を使用することができる。第1のデータファイル1504は肯定的および中立的な意味の単語を含み、第2のデータファイル1506は否定的な意味の単語を含み、第3のデータファイル1508はレキシコン内のデータファイル(1504および1506)の部分でない残りの単語を含む。
単語内文字方法404に従って、および/または、さらに文字の取得のために発音を提供して、ユーザはさらに所望の文字(単数または複数)を含む他の単語を提供することで文字を取得することができる。「a, as in apple」と同様に、ユーザは、例えば、「薫」の文字を含む単語「薫陶的薫」と発声することにより、「薫」のような所望の文字を指定することができる。「薫陶」は、所望の文字「薫」を含む単語である。単語「的」は所望の文字が単語の一部であることを示す所有格の意味である。
音声認識の精度を得るために、人々が文字を指定するのに使用する傾向がある単語に関する情報やデータを有することが望ましい。多くの場合、人々は文字を指定するのに、最も使用頻度の高い単語で、さらに肯定的な意味の単語を使用する傾向がある。以下は、単語を文脈自由文法のために取得できる方法である。典型的にこのような名前で使用される文字のリストを作成するために名前の大きなコーパスを収集することができる。また、このコーパスを有効文字の小さなサブセットにすべきである。
さらに、認識精度は、文字を含む単語の大きなコーパスを発見し、単語を第1のグループまたは第1のファイル1504(肯定的または中立的な意味を含む)、第2のグループまたは第2のファイル(否定的な意味を含む)に分類することで改善することができる。人々は、名前に使用する文字を指定するのに、肯定的または中立的な意味を有する単語を使用する傾向がある。システム1500は、単語に重みデータまたな重み値を割り当てるための重み付けコンポーネント1510を含むことができる。このとき、肯定的および中立的な意味により、高い重み値、否定的な意味に中間の重み値、レキシコン内の人々が名前で使用することが多い文字を含まない残りの単語により低い重み値を割り当てることができる。さらに、図5の頻度コンポーネント514を使用して、3つのグループの単語を単語の使用頻度に基づいて順序付けすることができる。
この方法は、中国語だけでなく、例えば、日本語の漢字にも適用できる。この方法は、ユーザインタフェースカーソルが、例えば、802、1002、1402内の文字のように、綴りウィンドウのトップ(または分割または中国語)パネル内の文字の中の1つの文字の上にある時にアクティブである。すなわち、ユーザは、発音または文字を含む単語のいずれかを提供して、最終的に所望の文字(単数または複数)を取得することができる。
上述した第3の方法は、単語の分解により中国語の文字を取得するものである。図16は、第3の方法に従って、所望の文字のサブコンポーネントの発声入力より単語の分解を採用する、システム1600を示す図である。認識コンポーネント102は、複数のアジア言語エンジン502を示す。第1のエンジン504は、文字分解方法406を使用し、さらにデータ提供のためにデータファイル1602を使用する。各言語エンジン502は、文字分解方法406に基づいて、文字を取得するためにデータファイル1602を使用することができる。第1のデータファイル1604は分解不可能な文字を含み、第2のデータファイル1606は文字の構成要素を含む。
ユーザは、「李」を指定するのに「木子;李」と話すことで単語のサブコンポーネント(単数または複数)を提供することにより所望の文字を取得することができる。ここで、「木」(「木」)および「子」(「子」)は、「李」を形成するために組み合わされるサブコンポーネント記号であり、「木」は文字の上部の記号で、「子」は下位の記号である。
分解可能で、かつユーザに広く使用されている文字はそれほど多くないことを理解されたい。したがって、分解可能な全ての文字および広く使用される分解可能な表現が、収集され文法に含められることになる。第2の方法404と同様に、第3の方法406は、例えば、802、1002、1402内の文字のように、綴りウィザードパネルの分割パネルであるトップパネルの文字の1つにカーソルがある時、アクティブである。すなわち、ユーザは、発音または含む単語、またはサブコンポーネントを提供して所望の文字を取得することができる。システム1600は、一般に使用される文字1604を発見、処理、および記憶し、その文字を構成コンポーネント1606に分解するために、普及語(popularity)コンポーネント1608を含む。
図2を簡潔に説明すると、共有コンポーネント208により、ユーザはローカルレキシコンを共有して、音声認識の精度を改善すること、または他のユーザのために訂正の手間を減らすことができる。ユーザがこのアーキテクチャの態様を扱うとき、そのユーザはシステムを「指導する」ことができ、またはシステムは(例えば、図3の推論コンポーネント302の学習機能および推論機能を使用して)ユーザのアクティビティおよび/またはシステムデータ/パラメータを学習することができる。ユーザが示すように、認識される単語の確率はどの単語が最も頻繁に使用されるかを示すことに変更することができる。さらに、単語が図2のデフォルトレキシコン202に現れない場合、ユーザは単語をユーザ定義のレキシコンの一部に追加することができる。この時点で、ユーザは音声認識装置102に追加の単語が(デフォルトまたはユーザ定義の)レキシコン内のどこで発見できるかを「知らせる」ことができる。
複数のユーザ間で新規のレキシコンを共有、ロード、アンロードできる能力は、配布されたコーパスの継続的な改善を容易にする。すなわち、各ユーザは同じ単語または同様の単語を使用して、個々のユーザのコンピュータおよび方法を「指導」することになる。グループ内で、または協同作業の環境において、例えば、ユーザ定義のレキシコンを他のユーザと共有する利益がある。例えば、チームプロジェクトである文脈において、ユーザが新語を有する関連ユーザレキシコンを更新する時、共有によりこれらの新語をプロジェクトチームの他のメンバーに伝えることができる。共有は、単一ファイルが複数のユーザ間で共有される中央ロケーション、およびバッチ共有に対する語順共有を含む多数の方法で実行することができる。
別のユーザまたはチームとの共有の他に、開示するアーキテクチャの共有コンポーネント208は、音声認識装置102が学習した内容を、ベンダがデフォルトレキシコンを改良することができるように、ベンダのエンティティにフィードバックする機能を含む。このために、音声認識装置102は、ユーザ定義のレキシコンに追加される新語がユーザシステム、プロジェクトチーム、および/または会社の境界の外で共有できるか否かをユーザが示すことができる機構を含むことができる。許可されれば、認識装置102は、次の一般公開または更新のために、検討のため、またデフォルトレキシコンに含めるために、その情報をベンダに送信することができる。しかし、ユーザがこれを許可しない場合、新規に追加された用語はベンダに送信されない。ベンダに送信できる用語の一例は、最近団体の中でよく使用されるようになった新しい業界用語であるが、私的な単語の一例は、会社名またはプロジェクトの社内呼称とすることができる。共有が、例えば、知的財産の規定、共有される内容の範囲、および共有の処理をする判断を侵害しないようにセキュリティの問題を考慮すべきである。
開示するアーキテクチャは、さらに異なるアジア文字のセットのコマンドの使用および実装を容易にする。例えば、日本語は、平仮名、カタカナ、漢字、ローマ字の4つの異なる書記体系を有する。平仮名は日本語の音声システムであり、有効な書記体系であると考えられる(スペイン語と同様に、人々が書くのは単語の音である)。カタカナはより形式的な書記体系であり、平仮名に1対1でマッピングする。漢字は名前を書くために頻繁に使用される。中国語と同様に、平仮名の音の1つのセットは漢字の複数の同音に対応できる。したがって、平仮名から漢字を取得するのに同じ綴りパネルおよび処理を採用することができる。
さらに、中国語のような同音機能を使用するのではなく、平仮名およびカタカナ用のボタンを備えて、ユーザが平仮名のみまたは対応するカタカナのみを望む場合に、分割パネル方法(図17の1708、または図18の1806)の単語トップパネルにある単語を取得するのに、発声コマンドの機能またはボタンを使用することができる。平仮名をローマ字に変換するのに、ユーザが選択するためのボタンもしくはセレクタ、および/またはボタン名による発声コマンドの方法をとることができる。平仮名の1つのセットが複数のローマ字に対応する場合があるので、ユーザは平仮名の発音、例えば、「ローマ字」と発声して、ローマ字変換をトリガし、同音の漢字をリストアップするのに使用されるリストボックスはクリアされ、ローマ字の結果で再びポピュレートされることになる。次に、ユーザは、所望のローマ字の前のインデックス番号を言って、そのローマ字を単語トップパネル(図17の1708または図18の1806)に移すことができる。
例えば、「土」(「土」)の文字に対して、平仮名、カタカナ、漢字、ローマ字の4つの書記体系のこの文字の出力は、以下の通りである。
平仮名:つち
カタカナ:ツチ
ローマ字:tsuchi、tuchi、tuti
漢字:土
同じ発音、すなわち同じ平仮名を共有する他の漢字がある。例えば、
同音の漢字:槌、鎚、壌、椎
図17は、漢字を取得するための平仮名の発声/タイプ入力による日本語の認識および処理のために表示される綴りダイアログパネル1700のスクリーンショットである。パネル1700は、平仮名の使用を示すタイトルバーを含む。リストボックス1704は、漢字の同音リストまたはローマ字単語リストのための図18の1802を表示する。文字列1706は、ユーザに入力として平仮名を使用して、所望の書記体系への変換処理を行うように伝える。単語パネル1708は、ワードプロセッサのアプリケーションに入力される最終の文字を記憶する。発音フィールド1710は、処理のために認識された入力を表示する。また、パネル1700は以下のセレクタを含む。ローマ字(R)セレクタ1712、平仮名(H)セレクタ1714、カタカナ(K)セレクタ1716、OK(O)セレクタ1718、キャンセル(E)セレクタ1720である。
漢字の文字を取得するために、ユーザは「ひらがな入力パネル」と発声して、ウィザードの綴りパネル1700をトリガし、次に、「つち」と話し、この「つち」が発音フィールド1710内でユーザにフィードバックとして表示される(その後、リストボックス1704は、自動的に漢字の同音文字のリストを、各文字の前に番号インデックスを付与して生成する)。ユーザは、次に、「1番」と発声して、リストボックス1704内の1番目の単語「土」を単語パネルフィールド1708に移動させる。その後、リストボックス1704は表示されなくなる。次に、ユーザは「OK」と言って、綴りパネル1700を閉じ、単語パネル1708内の「土」を、今使用中の任意のワードプロセッサを使用してドキュメントにコピーすることになる。
平仮名を取得するために、ユーザは「ひらがな入力パネル」と言って、綴りパネル1700の起動を開始することができる。「つち」が発音フィールド1710内に表示されるようにユーザが「つち」と話すと、リストボックス1704は自動的にデフォルトリストとして漢字の同音文字のリストを生成するが、ユーザはそのリストを無視することを選択することができる。次に、ユーザが「ひらがな」と発声すると、1710内で認識された「つち」が自動的に単語パネル1708内に移動されることになる。その後、リストボックス1704はもう必要でないので除去される。ユーザは「OK」と言ってダイアログの綴りパネル1700を閉じて、単語パネル1708内の単語が今開いているドキュメント内にコピーされることになる。
カタカナを取得するために、ユーザは「ひらがな入力パネル」と発声して、綴りパネル1700の起動を開始することができる。「つち」が発音パネルフィールド1710内に表示されるようにユーザが「つち」と話すと、リストボックス1704は自動的に漢字の同音文字のリストを生成するが、ユーザはそのリストを無視することを選択することができる。次に、ユーザが「カタカナ」と言うと、システムが「ツチ」のようにカタカナバージョンを取得し、システムは「ツチ」を直接単語パネル1708内に書き込む。その後、リストボックス1704は、もう必要がないので消去することができる。ユーザは「OK」を選択して綴りパネル1700を閉じることができ、単語パネル1708内の単語を既存のワードプロセッサを使用してドキュメントにコピーすることになる。
図18は、ローマ字の取得に関連した日本語認識および処理のために表示される、綴りダイアログパネル1800のスクリーンショットである。ローマ字を取得するために、ユーザは「ひらがな入力パネル」と話して、綴りパネル1800を開くのを開始することができる。「つち」が発音パネルフィールド1804内に表示されるようにユーザが「つち」と発声すると、リストボックス1802が自動的にリストボックス1802内に漢字の同音文字のリストを生成するが、ユーザはこのリストを無視することができる。ユーザが「ローマ字」と発声した場合、システムは「つち」をローマ字バージョンに変換する。ローマ字バージョンに複数の候補があるので、リストボックス1802内の漢字候補がローマ字の候補に置換される。ユーザは「1番」と発声してリストボックス1802内の1番目の単語を取得し、その結果、「tsuchi」が単語パネル1806に移動することができる。次に、リストボックス1802は消去することができる。ユーザが「OK」と言えば、綴りパネル1800は閉じて、単語パネル1806内の単語はドキュメントまたは使用中のワードプロセッサにコピーされる。
ユーザに情報を表示する特定の方法をスクリーンショットとしての特定の図面に関して説明するが、当業者は種々の他の代替形態を使用することもできることは理解するであろう。用語「スクリーン」、「スクリーンショット」、「ウェブページ」、「ドキュメント」、「ページ」は、本明細書内では置き換え可能に一般的に使用される。ページまたはスクリーンは、表示記述として、グラフィカルユーザインタフェースとして、または(例えば、パーソナルコンピュータ、PDA、携帯電話、または他の適切なデバイスであれ)スクリーン上に情報を表現する他の方法により、記憶および/または送信され、レイアウトおよび情報またはページ上に表示されるコンテンツをメモリ、データベース、または別の記憶場所に記憶する。
図19は、開示するアーキテクチャに従って音声を認識する方法を示す図である。説明を簡潔にするために、例えば、フローチャートまたはフロー図の形で本明細書に示す1つまたは複数の方法を一連の動作として説明するが、本明細書で示し説明したことから考えて、いくつかの動作はその方法に従って異なる順序および/または他の動作と同時に発生する場合があるように、方法は動作の順序により限定されないことは理解および認識されたい。例えば、当業者は、代替として、方法を一連の相関状態または相関イベントとして、例えば、状態ダイアグラムに表すことができることを理解および認識するであろう。さらに、方法に示された全ての動作が新規な実装に必要であるとは限らない。
1900において、音声認識エンジンはアジア語の音声の形で音声入力を受信する。1902において、アジア音声信号が認識処理されて、結果を出力する。1904において、綴り/訂正モードに入って新語を綴る、または結果を訂正する。1906において、音声発音および/または文字選択に基づいて、結果の綴りを単一パスで訂正する。次に、1908において、訂正結果をドキュメントまたはアプリケーションに出力する。
図20は、綴りウィザードを使用して、認識結果を訂正する方法を示す図である。2000において、認識エンジンはアジア語の音声入力を受信する。2002において、アジア語の発声信号を認識処理し、訂正モードに入って結果の綴りを訂正する。2004において、綴りウィザードを訂正モードの一部として起動する。2006において、アジア文字を音声発音によりウィザードに入力する。2008において、ウィザードを介した音声発音に基づいて綴りを訂正する。
図21は、音声発音を文字に変換する方法を示す図である。2100において、変換処理のためにデータファイルの準備が開始する。2102において、インデックス付与した単語および単語の値のデータファイルを作成する。この値には、発音、声調、使用頻度およびカテゴリが含まれる。2104において、インデックス付与した発音および値として発音を有する単語のデータファイルを使用頻度の順に作成する。2106において、音素距離の混同行列のデータファイルを作成する。2108において、綴りウィザードを使用して発音処理するためにデータファイルにアクセスする。
図22は、訂正処理のためにアジア語および英語の分割コマンドを使用する方法を示す図である。2200において、アジア語および英語の分割コマンドを表示する。2202において、英語の綴りモードに入るべきであるか否かをチェックする。イエスであれば、2204において英語の綴りモードに入る。2206において、綴りモードで使用可能な方法を使用して発声信号に基づいて候補文字のリストを表示する。2208において、選択した候補に基づいて、新語を綴るまたは誤認識の単語を訂正する。2202において、英語の綴りモードに入らなければ、処理はアジア語綴りモードに入る2210に進み、その後、2206に進んで上述したように処理を継続する。
図23は、アジア語綴りウィザードの同音コマンドを使用する方法を示す図である。2300において、アジア語および英語の分割コマンドを表示する。2302において、アジア語綴り訂正モードに入る。2304において、同音コマンドを受信する。2306において、対象とする文字の同音文字に基づいて候補文字のリストを表示する。2308において、選択した候補に基づいて誤認識の単語を訂正する。
図24は、単語の意味に重み値を付与する方法を示す図である。2400において、所望の文字を含む単語による訂正の準備を開始する。2402において、名前の大きなコーパスを収集する。2404において、名前の中にその文字を含む単語を発見する。2406において、単語を肯定的および中立的な意味のファイルに分類する。2408において、単語を否定的な意味のファイルに分類する。2410において、肯定的および中立的な意味のグループの単語に高い重みを付与する。2412において、否定的な意味のグループの単語に中間の重みを付与する。2414において、上述の2つのグループに属さない単語に低い重みを付与する。2416において、使用頻度に基づいて単語を順序付けする。
図25は、更新されたレキシコンを共有する方法を示す図である。2500において、訂正モードに入る。2502において、訂正モードの間に採用された新語を追跡しログする。2504において、新語をローカルのレキシコンに入れる。次に、2506において、更新されたレキシコンを他のユーザに送付する。2508において、任意で、ユーザは更新されたレキシコンをベンダに送付して、配布されるレキシコンコーパスを更新することができる。
図26は、綴りの訂正のために文字分解を使用する方法を示す図である。2600において、綴り訂正を開始する。2602において、ユーザは所望の文字のサブコンポーネントの記号を発声する。2604において、方法はサブコンポーネントと各文字との関係の対応テーブルをループする。2606において、2個以上の一致がある場合、サブコンポーネントの全ての可能な文字を表示する。次に、2608において、サブコンポーネントに基づいて候補文字を選択する。
図27Aおよび図27Bは、綴り訂正の複数の方法に基づいた訂正処理の方法を示す図である。2700において、エンジンはアジア語音声入力を受信する。2702において、認識されたエンジン結果をユーザインタフェースに表示する。2704において、システムが発声コマンドを受信して、綴り/訂正モードに入る(新語に直接入る)。その後、処理は2706に進み、同じ文字および/または他の文字を単語の文脈に関して処理する。あるいは、処理は2702から2708に進み、システムが発声コマンドを受信して、単語を選択し訂正する。2710において、システムは、音声コマンドを受信し、綴りモードに入り、文字を選択、訂正する。上述したように、処理はその後2706に進み、同じ文字および/または他の文字を単語の文脈に関して処理する。
図27Bに移ると、2712において、算出した文脈に基づいて可能性のある単語リストにアクセスする。例えば、文脈は個人名である可能性がある。2714において、単語リストの文字を同じ文字および/または他の文字に基づいてランク付けする。2716において、文字選択の方法を選択する。2718で、処理は2720に進み、同様の用法の文字を含む単語を発声する方法を選択する。あるいは、2722において、所望の文字の発音をすることで文字を取得する方法を選択する。あるいは、2724において、サブコンポーネントにより文字を取得するために、単語を発声する方法を選択する。あるいは、2726において、同音リストを取得して同音リストから選択するために単語(単数または複数)を発声する方法を選択する。2728において、新語を追加する、または綴りの違う単語の中の不正確な文字を選択した文字と置換する。2730において、ユーザから単語全体が正確であるとの発声による確認を受信する。2732において、エンジンの結果を正確な文字を使用して訂正する。
このアプリケーションで使用するとき、用語「コンポーネント」および「システム」は、コンピュータ関連のエンティティ、ハードウェア、ハードウェアとソフトウェアとの組み合わせ、ソフトウェア、もしくは実行中のソフトウェアのいずれかを指す。例えば、コンポーネントは、プロセッサ上で実行するプロセス、プロセッサ、ハード・ディスク・ドライブ、複数の記憶装置(光記憶媒体および/または磁気記憶媒体)、オブジェクト、実行ファイル、実行スレッド、プログラム、および/またはコンピュータとすることができるが、これらに限られるわけではない。例として、サーバ上で実行するアプリケーションおよびサーバの両方ともコンポーネントとすることができる。1つまたは複数のコンポーネントはプロセスおよび/または実行スレッド内に存在することができ、コンポーネントは1つのコンピュータにローカライズする、および/または2つ以上のコンピュータに分散することができる。
図28は、開示するアーキテクチャに従って、訂正処理を実行するのに動作可能なコンピューティングシステム2800のブロック図である。この種々の態様に追加の文脈を提供するために、図28および以下の説明は、種々の態様を実装することができる適切なコンピューティングシステム2800を簡潔に概略的に説明するものである。上述の説明は、1つまたは複数のコンピュータ上で実行できるコンピュータ実行可能命令の一般的な文脈で記述したが、当業者は、他のプログラムモジュールと組み合わせておよび/またはハードウェアとソフトウェアとの組み合わせとして、新規な実施形態も実装可能であることは理解するであろう。
一般に、プログラムモジュールは、特定のタスクを実行し、特定の抽象データ型を実装するルーチン、プログラム、コンポーネント、データ構造などを含む。さらに、当業者は、本発明の方法を他のコンピュータシステム構成で実施できることは理解するであろう。例えば、シングルプロセッサもしくはマルチプロセッサのコンピュータシステム、ミニコンピュータ、メインフレームコンピュータ、パーソナルコンピュータ、ハンドヘルド・コンピューティング・デバイス、マイクロプロセッサベースもしくはプログラム可能な電化製品などであり、その各々が1つまたは複数の関連する装置に動作可能に結合することができる。
例示した態様は、通信ネットワークを介してリンクされるリモート処理デバイスにより特定のタスクを実行する分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールをローカル記憶装置とリモート記憶装置との両方に配置することができる。
典型的には、コンピュータは、種々のコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータによりアクセスできる任意の利用可能な媒体でできる。そのコンピュータ可読媒体は、揮発性および不揮発性媒体、取り外し可能および取り外し不可能な媒体を含む。例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を備えることができるが、これらに限られるわけではない。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータのような情報を記憶するための任意の方法または技術で実装される揮発性および不揮発性媒体、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、DVD(digital video disk:デジタルビデオディスク)もしくは他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、または所望の情報を記憶するのに使用でき、コンピュータによりアクセス可能な任意の他の媒体を含むが、これらに限られるわけではない。
再び、図28を見ると、種々の態様を実装するための例示的なコンピューティングシステム2800はコンピュータ2802を含み、そのコンピュータ2802は処理装置2804、システムメモリ2806、およびシステムバス2808を含む。システムバス2808は、処理装置2804に対するシステムメモリ2806(これに限られるわけではない)を含むシステムコンポーネントのためのインタフェースを提供する。処理装置2804は、任意の種々の市販のプロセッサとすることができる。また、デュアルマイクロプロセッサおよび他のマルチプロセッサのアーキテクチャを処理装置2804として使用してもよい。
システムバス2808は、さらに任意のさまざまな市販のバスアーキテクチャを使用してメモリバス(メモリコントローラを備えたもしくは備えていない)、周辺バス、およびローカルバスに相互接続できる任意のいくつかのタイプのバス構造とすることができる。システムメモリ2806は、ROM(read−only memory)2810、RAM(random access memory)2812を含む。BIOS(basic input/output system:基本入出力システム)は、ROM、EPROM、EEPROMなどの不揮発性メモリ2810内に格納されている。BIOSは、起動時などに、コンピュータ2802内の要素間で情報を転送するのを助ける基本ルーチンを含む。RAM2812は、データをキャッシングするためのスタティックRAMなどの高速RAMを含むこともできる。
コンピュータ2802は、さらに内蔵HDD(hard disk drive:ハード・ディスク・ドライブ)2814(例えば、EIDE、SATA)を含み、内蔵ハード・ディスク・ドライブ2814は、適切なケース(図示せず)に入れて外付けで使用する構成にしてもよいし、FDD(magnetic floppy disk drive:磁気フロッピ(登録商標)ディスク)2816(例えば、取り外し可能なディスク2818に対する読み出し、もしくは書き込みのため)、および光ディスクドライブ2820(例えば、CD−ROMディスク2822を読み出す、またはDVDなどの他の高容量光媒体に対する読み出しもしくは書き込みのため)としてもよい。ハード・ディスク・ドライブ2814、磁気ディスクドライブ2816、および光ディスクドライブ2820は、ハード・ディスク・ドライブ・インタフェース2824、磁気ディスク・ドライブ・インタフェース2826、および光ディスク・ドライブ・インタフェース2828により、それぞれシステムバス2808に接続することができる。外付けドライブの実装のためのインタフェース2824は、USB(Universal Serial Bus)およびIEEE1394のインタフェース技術の少なくとも一方またはその両方を含む。
ドライブと関連のコンピュータ可読媒体とは、データ、データ構造、コンピュータ実行可能命令などの不揮発性の記憶を行う。コンピュータ2802では、ドライブと媒体とが適切なデジタル形式で任意のデータを記憶する。上述のコンピュータ可読媒体の説明はHDD、取り外し可能な磁気ディスク、CDもしくはDVDなどの取り外し可能な光媒体について言及したが、当業者であれば、ジップ(zip)ドライブ、磁気カセット、フラッシュメモリカード、カートリッジなどのコンピュータ可読の他のタイプの媒体も例示的なオペレーティング環境で使用でき、また任意のこのような媒体が、開示するアーキテクチャの新規な方法を実行するためのコンピュータ実行可能命令を含むこともできることは理解されたい。
多数のプログラムモジュールをドライブおよびRAM2812内に記憶することができる。例えば、オペレーティングシステム2830、1つまたは複数のアプリケーションプログラム2832、他のプログラムモジュール2834、およびプログラムデータ2836がある。オペレーティングシステム、アプリケーション、モジュール、および/またはデータの全てもしくは一部をRAM2812でキャッシュできる。開示したアーキテクチャは、種々の市販のオペレーティングシステムまたはオペレーティングシステムの組み合わせと共に実装することができることは理解されたい。
ユーザは、1つまたは複数の有線/無線入力装置、例えば、キーボード2838、マウス2840などのポインティングデバイスを使用して、コマンドおよび情報をコンピュータ2802に入力することができる。入出力装置は、マイクロフォン/スピーカ2837および、例えば、IRリモートコントロール、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーンなどの他の装置(図示せず)を含むことができる。これらの入力装置および他の入力装置は、システムバス2808に結合された入力装置インタフェース2842を使用して処理装置2804に接続されることが多いが、例えば、パラレルポート、IEEE1394シリアルポート、ゲームポート、USBポート、IRインタフェースなどの他のインタフェースによって接続される場合もある。
モニタ2844または他のタイプの表示装置も、ビデオアダプタ2846などのインタフェースを使用してシステムバス2808に接続される。モニタ2844の他に、典型的には、コンピュータはスピーカ、プリンタなどの他の周辺出力装置(図示せず)を含む。
コンピュータ2802は、リモートコンピュータ(単数または複数)2848のような1つまたは複数のリモートコンピュータへの有線および/または無線通信経由の論理接続を使用したネットワーク化環境で動作することができる。リモートコンピュータ(単数または複数)2848は、ワークステーション、サーバコンピュータ、ルータ、パーソナルコンピュータ、ポータブルコンピュータ、マイクロプロセッサベースの娯楽装置、ピア装置または他の共通ネットワークノードとすることができる。リモートコンピュータ(単数または複数)2848は、典型的には、コンピュータ2802に関して説明した要素の多く、または全てを含むが、簡潔にするために、メモリ/記憶装置2850のみを図示する。図示の論理接続は、LAN(local area network)2852および/またはより大きなネットワーク、例えば、WAN(wide area network)2854への有線/無線接続を含む。このようなLANおよびWANのネットワーク環境は、オフィスや会社で一般的であり、イントラネットなどの企業規模のコンピュータネットワークを円滑にする。これらのネットワーク環境の全てを、例えば、インターネットなどのグローバルな通信ネットワークに接続してもよい。
LANネットワーク環境で使用する場合、コンピュータ2802は有線および/または無線通信ネットワークインタフェースまたはアダプタ2856を使用してローカルネットワーク2852に接続される。アダプタ2856はLAN2582への有線または無線通信を円滑にすることができ、LANはさらに無線アダプタ2856と通信するためにLANに配設される無線アクセスポイントを含むこともできる。
WANネットワーク環境で使用する場合、コンピュータ2802はモデム2858を含むことができ、またはWAN2854上の通信サーバに接続され、または、例えば、インターネット経由でWAN2854を介する通信を確立するための他の手段を有する。モデム2858は、内蔵または外付けにすることも可能で有線および/または無線装置とすることができるが、シリアルポートインタフェース2842を使用してシステムバス2808に接続される。ネットワーク化環境では、コンピュータ2802に関して述べたプログラムモジュール、またはその一部は、リモートメモリ/記憶装置2850内に格納することができる。図示したネットワーク接続は例示的であり、コンピュータ間の通信リンクを確立するための他の手段も使用できることは理解されたい。
コンピュータ2802は、任意の無線装置または無線通信に動作可能に配設されたエンティティ、例えば、プリンタ、スキャナ、デスクトップコンピュータおよび/もしくはポータブルコンピュータ、携帯データ端末、通信衛星、無線で検出可能なタグに関連付けられた任意の設備もしくは場所(例えば、キオスク、新聞売店、化粧室)および電話と通信するように動作可能である。これは、少なくともWi−FiおよびBluetooth(登録商標)の無線技術を含む。したがって、通信は、従来のネットワークと同様に所定の構造にすることができるし、または簡単に少なくとも2つの装置間のアドホック通信にすることができる。
図29は、開示するアーキテクチャによる訂正処理のための例示的なコンピューティング環境2900の略ブロック図である。システム2900は、1つまたは複数のクライアント2902を含む。クライアント2902は、ハードウェアおよび/またはソフトウェア(例えば、スレッド、プロセス、コンピューティング装置)とすることができる。クライアント2902は、例えば、クッキー(単数または複数)および/または関連する文脈情報を格納することができる。
システム2900は、さらに1つまたは複数のサーバ2904を含む。サーバ2904は、ハードウェアおよび/またはソフトウェア(例えば、スレッド、プロセス、コンピューティング装置)とすることができる。サーバ2904は、例えば、スレッドを格納してそのアーキテクチャを使用することにより変換を実行する。クライアント2902とサーバ2904との間の1つの可能な通信は、複数のコンピュータプロセスの間で送信できるよう適応されたデータパケットの形にすることができる。データパケットは、例えば、クッキーおよび/または関連文脈情報を含んでもよい。システム2900は、クライアント2902とサーバ2904との間の通信を円滑にするために使用できる通信フレームワーク2906(例えば、インターネットなどのグローバルな通信ネットワーク)を含む。
通信は、有線技術(光ファイバなど)および/または無線技術を使用して円滑にすることができる。クライアント2902は、クライアント2902にローカルな情報を格納するのに使用できる1つまたは複数のクライアント・データ・ストア2908に動作可能に接続される(例えば、クッキーおよび/または関連する文脈情報)。同様に、サーバ2904は、サーバ2904にローカルな情報を格納するのに使用できる1つまたは複数のサーバ・データ・ストア(単数または複数)2910に動作可能に接続される。
上述の内容は、開示するアーキテクチャの例を含む。もちろん、考えられる全てのコンポーネントおよび/または方法の組み合わせを述べることは不可能であるが、当業者であれば多くのさらなる組み合わせや置換が可能であることは理解できるであろう。したがって、新規なアーキテクチャは、本発明の趣旨および範囲内にある全てのこのような代替、変更、変形を含むものである。さらに、用語「含む」が本明細書または特許請求の範囲のいずれかで使用される範囲では、この用語は、用語「備える」が請求項の移行句として使用するときに解釈されるように、「備える」と同様に包括的な意味であるものとする。

Claims (16)

  1. 音声入力に基づいてアジア文字を出力するための音声認識コンポーネントと、
    不正確な認識結果を訂正するために、発音方法、単語内文字方法、および、文字分解方法の内1つの訂正方法のユーザによる選択を受信し、前記音声認識コンポーネントによる不正確な出力に基づいて、前記選択された訂正方法を用いて訂正された出力を単一パスで生成するための訂正コンポーネントと、を備え、
    前記発音方法は、前記不正確な出力を選択し訂正するために、発声により、また手動でユーザ対話を容易にするために、1つまたは複数のダイアログパネルを提示する綴りウィザードを含み、該1つまたは複数のダイアログパネルは発声起動コマンドに応答して表示され、前記単語内文字方法は、文字が使用されているユーザによる発声単語から単語の書き方に関する情報を受信し、前記文字分解方法は、サブコンポーネントにより文字を取得するために、ユーザが発声する語により構成される文字を構成する構成要素に関する情報を受信する
    ことを特徴とするコンピュータ実装翻訳システム。
  2. 前記発音方法は、部分音声記号を使用して、単語発音に関する情報を受信することを特徴とする請求項1に記載のシステム。
  3. 確率および/または統計に基づいた分析を採用して、自動的に実行されるのが望ましい動作を予知または推論する推論コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
  4. 他のユーザおよびレキシコンのベンダと更新されたレキシコンを共有するための共有コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
  5. 意味に基づいて単語を重み付けするための重み付けコンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
  6. 使用頻度情報を記憶するための頻度コンポーネントをさらに備え、前記訂正コンポーネントは使用頻度情報を使用してランク付けした候補文字のリストを提供することを特徴とする請求項1に記載のシステム。
  7. 前記アジア文字は、関連する固定の発音を有する象形文字を含む中国語または日本語の書記形式であることを特徴とする請求項1に記載のシステム。
  8. コンピュータにより実行される音声認識方法であって、
    アジア語の発声信号を認識して結果を出力するステップと、
    不正確な認識結果を訂正するために、発音方法、単語内文字方法、および、文字分解方法の内1つの訂正方法のユーザによる選択を受信するステップと、
    前記選択された訂正方法を用いて結果の綴りを訂正するために綴り/訂正モードに入るステップと、及び
    前記選択された訂正方法に基づいて単一のパスで前記結果の綴りを訂正するステップと、を含み
    前記発音方法は、前記結果を選択し訂正するために、発声により、また手動でユーザ対話を容易にするために、1つまたは複数のダイアログパネルを提示する綴りウィザードを含み、該1つ又は複数のダイアログパネルは発声起動コマンドに応答して表示され、前記単語内文字方法は、文字が使用されているユーザによる発声単語から単語の書き方に関する情報を受信し、前記文字分解方法は、サブコンポーネントにより文字を取得するために、ユーザが発声する語により構成される文字を構成する構成要素に関する情報を受信する、ことを特徴とする、音声認識方法。
  9. 前記アジア語の発声信号の受信に応答して綴り/訂正モードに自動的に入るステップをさらに含み、前記綴りウィザードは音声発音を受信することを特徴とする請求項8に記載の方法。
  10. 綴りの訂正に使用される音素距離を記憶する混同行列を適用することをさらに含むことを特徴とする請求項8に記載の方法。
  11. 発声による同音コマンドを使用して、綴りを訂正するステップをさらに含むことを特徴とする請求項8に記載の方法。
  12. 記号サブコンポーネントへの単語分解に基づいて、綴りを訂正するステップをさらに含むことを特徴とする請求項8に記載の方法。
  13. 綴りを訂正しながら新規レキシコンを構築するステップと、前記新規レキシコンを別のユーザに送信するステップとをさらに含むことを特徴とする請求項8に記載の方法。
  14. 文字を含む1つまたは複数の単語の発声入力に基づいて、文字を選択するステップをさらに含むことを特徴とする請求項8に記載の方法。
  15. 候補文字の優先リストを生成するステップと、手動でまたは発声コマンドにより文字を選択するために候補文字をインデックスリストとして表示するステップとをさらに含むことを特徴とする請求項8に記載の方法。
  16. 結果を出力するためにアジア語発声信号を認識するためのコンピュータ実装手段と、
    不正確な認識結果を訂正するために、発音方法、単語内文字方法、および、文字分解方法の内1つの訂正方法のユーザによる選択を受信するためのコンピュータ実装手段と、
    前記選択によって前記結果の綴りを訂正するために綴り/訂正モードに入るためのコンピュータ実装手段と、
    キーワード検索を実行するためのコンピュータ実装手段と、
    前記選択された訂正方法に基づいて、単一パスで結果の綴りを訂正するためのコンピュータ実装手段と、を備え、
    前記発音方法は、前記結果を選択し訂正するために、発声により、また手動でユーザ対話を容易にするために、1つまたは複数のダイアログパネルを提示する綴りウィザードを含み、該1つ又は複数のダイアログパネルは発声起動コマンドに応答して表示され、前記単語内文字方法は、文字が使用されているユーザによる発声単語から、単語の書き方に関する情報を受信し、前記文字分解方法は、サブコンポーネントにより文字を取得するために、ユーザが発声する語により構成される文字を構成する構成要素に関する情報を受信する、
    ことを特徴とするコンピュータ実装システム。
JP2013259167A 2007-04-26 2013-12-16 アジア文字を生成するための認識アーキテクチャ Active JP5819924B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/789,878 2007-04-26
US11/789,878 US8457946B2 (en) 2007-04-26 2007-04-26 Recognition architecture for generating Asian characters

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2010506381A Division JP5622566B2 (ja) 2007-04-26 2008-04-08 アジア文字を生成するための認識アーキテクチャ

Publications (2)

Publication Number Publication Date
JP2014067062A true JP2014067062A (ja) 2014-04-17
JP5819924B2 JP5819924B2 (ja) 2015-11-24

Family

ID=39888049

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010506381A Active JP5622566B2 (ja) 2007-04-26 2008-04-08 アジア文字を生成するための認識アーキテクチャ
JP2013259167A Active JP5819924B2 (ja) 2007-04-26 2013-12-16 アジア文字を生成するための認識アーキテクチャ

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2010506381A Active JP5622566B2 (ja) 2007-04-26 2008-04-08 アジア文字を生成するための認識アーキテクチャ

Country Status (8)

Country Link
US (1) US8457946B2 (ja)
EP (1) EP2153352B1 (ja)
JP (2) JP5622566B2 (ja)
KR (1) KR101532447B1 (ja)
CN (1) CN101669116B (ja)
BR (1) BRPI0810626A2 (ja)
RU (1) RU2477518C2 (ja)
WO (1) WO2008134208A1 (ja)

Families Citing this family (195)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8074172B2 (en) 2007-01-05 2011-12-06 Apple Inc. Method, system, and graphical user interface for providing word recommendations
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8365071B2 (en) * 2007-08-31 2013-01-29 Research In Motion Limited Handheld electronic device and associated method enabling phonetic text input in a text disambiguation environment and outputting an improved lookup window
CN101408873A (zh) * 2007-10-09 2009-04-15 劳英杰 全范围语义信息综合认知系统及其应用
US20090157385A1 (en) * 2007-12-14 2009-06-18 Nokia Corporation Inverse Text Normalization
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
EP2211336B1 (en) * 2009-01-23 2014-10-08 Harman Becker Automotive Systems GmbH Improved speech input using navigation information
CN102439544A (zh) * 2009-03-20 2012-05-02 谷歌股份有限公司 与输入法编辑器计算设备的交互
WO2010131256A1 (en) * 2009-05-13 2010-11-18 Rajesh Mehra A keyboard for linguistic scripts
US9104244B2 (en) * 2009-06-05 2015-08-11 Yahoo! Inc. All-in-one Chinese character input method
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110171617A1 (en) * 2010-01-11 2011-07-14 Ideographix, Inc. System and method for teaching pictographic languages
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN101847407B (zh) * 2010-03-12 2013-01-02 中山大学 一种基于xml的语音识别参数处理方法
GB2480649B (en) * 2010-05-26 2017-07-26 Sun Lin Non-native language spelling correction
JP5259020B2 (ja) * 2010-10-01 2013-08-07 三菱電機株式会社 音声認識装置
US9262397B2 (en) * 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120303368A1 (en) * 2011-05-27 2012-11-29 Ting Ma Number-assistant voice input system, number-assistant voice input method for voice input system and number-assistant voice correcting method for voice input system
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8855997B2 (en) 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
CN102324233B (zh) * 2011-08-03 2014-05-07 中国科学院计算技术研究所 汉语语音识别中重复出现词识别错误的自动修正方法
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5642037B2 (ja) * 2011-09-22 2014-12-17 株式会社東芝 検索装置、検索方法およびプログラム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
CN103324621B (zh) * 2012-03-21 2017-08-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102105101B1 (ko) * 2012-11-07 2020-04-27 삼성전자주식회사 디스플레이 장치 및 이의 문자 수정 방법
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
US9858038B2 (en) * 2013-02-01 2018-01-02 Nuance Communications, Inc. Correction menu enrichment with alternate choices and generation of choice lists in multi-pass recognition systems
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9465985B2 (en) 2013-06-09 2016-10-11 Apple Inc. Managing real-time handwriting recognition
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
US9423890B2 (en) * 2013-06-28 2016-08-23 Lenovo (Singapore) Pte. Ltd. Stylus lexicon sharing
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
WO2015057907A2 (en) * 2013-10-16 2015-04-23 Interactive Intelligence Group, Inc. System and method for learning alternate pronunciations for speech recognition
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9626354B2 (en) 2014-01-21 2017-04-18 Lenovo (Singapore) Pte. Ltd. Systems and methods for using tone indicator in text recognition
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9946704B2 (en) * 2014-07-18 2018-04-17 Lenovo (Singapore) Pte. Ltd. Tone mark based text suggestions for chinese or japanese characters or words
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
CN105632499B (zh) * 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
RU2598300C2 (ru) * 2015-01-27 2016-09-20 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы автоматического распознавания символов с использованием дерева решений
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
CN107112005A (zh) * 2015-04-17 2017-08-29 微软技术许可有限责任公司 深度神经支持向量机
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
SG11201704826YA (en) * 2015-07-01 2017-07-28 Vasan Sun Methods for multi-language data entry using a processor, and systems and devices for multi-language data entry
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10049655B1 (en) 2016-01-05 2018-08-14 Google Llc Biasing voice correction suggestions
US9971758B1 (en) * 2016-01-06 2018-05-15 Google Llc Allowing spelling of arbitrary words
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179374B1 (en) 2016-06-12 2018-05-28 Apple Inc Handwriting keyboard for monitors
CN106297797B (zh) * 2016-07-26 2019-05-31 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP6545740B2 (ja) * 2017-03-08 2019-07-17 株式会社東芝 生成装置、プログラム、認識システムおよび生成方法
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US20180358004A1 (en) * 2017-06-07 2018-12-13 Lenovo (Singapore) Pte. Ltd. Apparatus, method, and program product for spelling words
CN107544726B (zh) * 2017-07-04 2021-04-16 百度在线网络技术(北京)有限公司 基于人工智能的语音识别结果纠错方法、装置及存储介质
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10832675B2 (en) 2018-08-24 2020-11-10 Denso International America, Inc. Speech recognition system with interactive spelling function
CN109712607B (zh) * 2018-12-30 2021-12-24 联想(北京)有限公司 一种处理方法、装置及电子设备
US11194467B2 (en) 2019-06-01 2021-12-07 Apple Inc. Keyboard management user interfaces
US11636282B2 (en) * 2019-06-28 2023-04-25 International Business Machines Corporation Machine learned historically accurate temporal classification of objects
JP2021144271A (ja) * 2020-03-10 2021-09-24 オムロン株式会社 文字入力装置、文字入力方法、および、文字入力プログラム
TWI802165B (zh) * 2021-12-22 2023-05-11 中華電信股份有限公司 用於語音核證之語音辨識系統、方法及其電腦可讀媒介

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212213A (ja) * 1995-01-31 1996-08-20 Toshiba Corp 文字変換方法
JPH09179578A (ja) * 1995-12-26 1997-07-11 Nec Corp 単音節認識装置
JP2002323969A (ja) * 2001-04-24 2002-11-08 Omron Corp コミュニケーション支援方法およびこの方法を用いたシステムならびに装置
US6513005B1 (en) * 1999-07-27 2003-01-28 International Business Machines Corporation Method for correcting error characters in results of speech recognition and speech recognition system using the same
JP2003513389A (ja) * 1999-11-05 2003-04-08 マイクロソフト コーポレイション 言語入力ユーザインタフェース
JP2005208643A (ja) * 2004-01-20 2005-08-04 Microsoft Corp ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
JP2005227510A (ja) * 2004-02-12 2005-08-25 Ntt Docomo Inc 音声認識装置及び音声認識方法
JP2006031092A (ja) * 2004-07-12 2006-02-02 Sony Ericsson Mobilecommunications Japan Inc 音声文字入力プログラム及び携帯端末装置
JP2006515073A (ja) * 2002-09-06 2006-05-18 ヴォイス シグナル テクノロジーズ インコーポレーティッド 音声認識を実行するための方法、システム、及びプログラミング
JP2007011358A (ja) * 2005-06-28 2007-01-18 Avaya Technology Corp 複合文字の音声認識によって支援された自動補完

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US6903723B1 (en) * 1995-03-27 2005-06-07 Donald K. Forest Data entry method and apparatus
US5893133A (en) 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5903861A (en) * 1995-12-12 1999-05-11 Chan; Kun C. Method for specifically converting non-phonetic characters representing vocabulary in languages into surrogate words for inputting into a computer
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US6018708A (en) * 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
CN1120436C (zh) * 1997-09-19 2003-09-03 国际商业机器公司 用于识别孤立、非相关汉字的语音识别方法和系统
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
KR19990043026A (ko) 1997-11-28 1999-06-15 유기범 음성인식 한글입력장치
JPH11306176A (ja) * 1998-04-22 1999-11-05 Sharp Corp 文字処理装置及び方法並びにその制御プログラムを記憶した媒体
US6694055B2 (en) * 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
JP4601177B2 (ja) * 1999-02-19 2010-12-22 カスタム・スピーチ・ユーエスエイ・インコーポレーテッド 2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法
JP3980791B2 (ja) * 1999-05-03 2007-09-26 パイオニア株式会社 音声認識装置を備えたマンマシンシステム
JP2001229162A (ja) * 2000-02-15 2001-08-24 Matsushita Electric Ind Co Ltd 中国語文書自動校正方法及び装置
AU2001259446A1 (en) * 2000-05-02 2001-11-12 Dragon Systems, Inc. Error correction in speech recognition
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
US7085716B1 (en) * 2000-10-26 2006-08-01 Nuance Communications, Inc. Speech recognition using word-in-phrase command
JP2002189490A (ja) * 2000-12-01 2002-07-05 Leadtek Research Inc ピンイン音声入力の方法
FI20010644A (fi) * 2001-03-28 2002-09-29 Nokia Corp Merkkisekvenssin kielen määrittäminen
US7467087B1 (en) * 2002-10-10 2008-12-16 Gillick Laurence S Training and using pronunciation guessers in speech recognition
US7003457B2 (en) * 2002-10-29 2006-02-21 Nokia Corporation Method and system for text editing in hand-held electronic device
US7359850B2 (en) * 2003-09-26 2008-04-15 Chai David T Spelling and encoding method for ideographic symbols
TWI247276B (en) * 2004-03-23 2006-01-11 Delta Electronics Inc Method and system for inputting Chinese character
TWI258731B (en) * 2004-11-04 2006-07-21 Univ Nat Cheng Kung Chinese speech synthesis unit selection module and method
TWI244638B (en) * 2005-01-28 2005-12-01 Delta Electronics Inc Method and apparatus for constructing Chinese new words by the input voice
RU2296376C2 (ru) * 2005-03-30 2007-03-27 Открытое акционерное общество "Корпорация "Фазотрон - научно-исследовательский институт радиостроения" Способ распознавания слов речи
US20060271882A1 (en) * 2005-05-26 2006-11-30 Inventec Appliances Corp. Method for implementing a fuzzy spelling while inputting Chinese characters into a mobile phone
US7643985B2 (en) * 2005-06-27 2010-01-05 Microsoft Corporation Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
JP4751192B2 (ja) * 2005-12-12 2011-08-17 本田技研工業株式会社 移動ロボット
JP2008090625A (ja) 2006-10-02 2008-04-17 Sharp Corp 文字入力装置、文字入力方法、制御プログラム、および、記録媒体

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212213A (ja) * 1995-01-31 1996-08-20 Toshiba Corp 文字変換方法
JPH09179578A (ja) * 1995-12-26 1997-07-11 Nec Corp 単音節認識装置
US6513005B1 (en) * 1999-07-27 2003-01-28 International Business Machines Corporation Method for correcting error characters in results of speech recognition and speech recognition system using the same
JP2003513389A (ja) * 1999-11-05 2003-04-08 マイクロソフト コーポレイション 言語入力ユーザインタフェース
JP2002323969A (ja) * 2001-04-24 2002-11-08 Omron Corp コミュニケーション支援方法およびこの方法を用いたシステムならびに装置
JP2006515073A (ja) * 2002-09-06 2006-05-18 ヴォイス シグナル テクノロジーズ インコーポレーティッド 音声認識を実行するための方法、システム、及びプログラミング
JP2005208643A (ja) * 2004-01-20 2005-08-04 Microsoft Corp ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
JP2005227510A (ja) * 2004-02-12 2005-08-25 Ntt Docomo Inc 音声認識装置及び音声認識方法
JP2006031092A (ja) * 2004-07-12 2006-02-02 Sony Ericsson Mobilecommunications Japan Inc 音声文字入力プログラム及び携帯端末装置
JP2007011358A (ja) * 2005-06-28 2007-01-18 Avaya Technology Corp 複合文字の音声認識によって支援された自動補完

Also Published As

Publication number Publication date
JP2010525415A (ja) 2010-07-22
EP2153352A1 (en) 2010-02-17
JP5819924B2 (ja) 2015-11-24
WO2008134208A1 (en) 2008-11-06
BRPI0810626A2 (pt) 2014-11-04
US20080270118A1 (en) 2008-10-30
CN101669116B (zh) 2016-01-06
EP2153352A4 (en) 2018-01-10
CN101669116A (zh) 2010-03-10
KR20100015696A (ko) 2010-02-12
JP5622566B2 (ja) 2014-11-12
KR101532447B1 (ko) 2015-06-29
EP2153352B1 (en) 2020-07-08
RU2009139274A (ru) 2011-04-27
US8457946B2 (en) 2013-06-04
RU2477518C2 (ru) 2013-03-10

Similar Documents

Publication Publication Date Title
JP5819924B2 (ja) アジア文字を生成するための認識アーキテクチャ
KR101445904B1 (ko) 현장 음성 번역 유지 시스템 및 방법
US8204739B2 (en) System and methods for maintaining speech-to-speech translation in the field
US8380505B2 (en) System for recognizing speech for searching a database
JP4444396B2 (ja) 音声認識におけるポジション操作
US9361883B2 (en) Dictation with incremental recognition of speech
US10643603B2 (en) Acoustic model training using corrected terms
AU2010212370B2 (en) Generic spelling mnemonics
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
WO2011094090A1 (en) Enhanced speech-to-speech translation system and methods
WO2021034395A1 (en) Data-driven and rule-based speech recognition output enhancement
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
CN111429886B (zh) 一种语音识别方法及系统
WO2009151868A2 (en) System and methods for maintaining speech-to-speech translation in the field
US11900072B1 (en) Quick lookup for speech translation
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
Myint et al. Reducing Error Rate for ASR using Semantic Error Correction Approach

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150320

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151001

R150 Certificate of patent or registration of utility model

Ref document number: 5819924

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250