JP2005258443A - 発音グラフを使用して新しい単語の発音学習を改善すること - Google Patents

発音グラフを使用して新しい単語の発音学習を改善すること Download PDF

Info

Publication number
JP2005258443A
JP2005258443A JP2005067117A JP2005067117A JP2005258443A JP 2005258443 A JP2005258443 A JP 2005258443A JP 2005067117 A JP2005067117 A JP 2005067117A JP 2005067117 A JP2005067117 A JP 2005067117A JP 2005258443 A JP2005258443 A JP 2005258443A
Authority
JP
Japan
Prior art keywords
phonetic
word
units
text
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005067117A
Other languages
English (en)
Other versions
JP2005258443A5 (ja
Inventor
Mei-Yuh Hwang
ホング メイ−ユウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005258443A publication Critical patent/JP2005258443A/ja
Publication of JP2005258443A5 publication Critical patent/JP2005258443A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • EFIXED CONSTRUCTIONS
    • E03WATER SUPPLY; SEWERAGE
    • E03CDOMESTIC PLUMBING INSTALLATIONS FOR FRESH WATER OR WASTE WATER; SINKS
    • E03C1/00Domestic plumbing installations for fresh water or waste water; Sinks
    • E03C1/12Plumbing installations for waste water; Basins or fountains connected thereto; Sinks
    • E03C1/22Outlet devices mounted in basins, baths, or sinks
    • E03C1/23Outlet devices mounted in basins, baths, or sinks with mechanical closure mechanisms
    • E03C1/2302Outlet devices mounted in basins, baths, or sinks with mechanical closure mechanisms the actuation force being transmitted to the plug via rigid elements
    • EFIXED CONSTRUCTIONS
    • E03WATER SUPPLY; SEWERAGE
    • E03CDOMESTIC PLUMBING INSTALLATIONS FOR FRESH WATER OR WASTE WATER; SINKS
    • E03C1/00Domestic plumbing installations for fresh water or waste water; Sinks
    • E03C1/12Plumbing installations for waste water; Basins or fountains connected thereto; Sinks
    • E03C1/30Devices to facilitate removing of obstructions in waste-pipes or sinks
    • E03C1/302Devices to facilitate removing of obstructions in waste-pipes or sinks using devices moved through the pipes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Hydrology & Water Resources (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Multimedia (AREA)
  • Environmental & Geological Engineering (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Mechanical Engineering (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】 単語のテキストとユーザによる単語の発音とを、音声認識レキシコンに追加するための表音記述に変換する方法およびコンピュータ可読媒体を提供することである。
【解決手段】 最初に、複数の可能な表音記述が少なくとも2つ生成される。ある表音記述は、ユーザによる単語の発音を表す音声信号を復号することによって形成される。少なくとも1つの他の表音記述は、単語のテキストから生成される。音声ベースおよびテキストベースの表音記述を含む複数の可能なシーケンスは整列され、それらとユーザの発音との対応に基づいて単一のグラフ中でスコア付けされる。次いで、最高スコアを有する表音記述が、音声認識レキシコンへの入力に選択される。
【選択図】 図6

Description

本発明は音声認識に関する。より詳細には、本発明は、音声ベースとテキストベースの表音記述(phonetic descriptions)を組み合わせて発音を生成することによって、新しい単語の発音を改善することに関する。
音声認識では、人間の音声がテキストに変換される。この変換を行うために、音声認識システムは、その音声信号を生み出した可能性が最も高い音響単位シーケンスを識別する。実施しなければならない計算量を削減するために、ほとんどのシステムは、この探索を、対象言語の単語を表す音響単位シーケンスに限定する。
音響単位シーケンスと単語との間のマッピングは、少なくとも1つのレキシコン(辞書と呼ばれることもある)に記憶されている。レキシコンのサイズに関係なく、音声信号中のいくつかの単語は、レキシコンに含まれていない。音声認識システムは、これらの語彙外(OOV、out−of−vocabulary)単語が存在することを知らないので、これらの単語を認識することができない。例えば、口述中に、ユーザは口述した単語がシステムによって認識されないのに気付くことがある。これは、そのシステムでは特定の単語に対してユーザの発音とは異なる発音が規定されているために起こる可能性がある。すなわち、ユーザはその単語を外国のアクセントで発音している場合がある。また、その単語が語彙中にまったくない場合もある。代わりに、認識システムは、語彙外単語に代えて他の単語を認識せざるを得ず、その結果、認識エラーが生じる。
過去の音声認識システムの1つでは、ユーザは、単語の綴りと、ユーザの声によるその単語の音響サンプルまたは発音とを提供することによって、音声認識システムによって認識されなかった単語を追加することができる。
単語の綴りは、文字−音規則を使用して表音記述のセットに変換される。入力された単語は、文脈自由文法(CFG)の唯一のエントリとして記憶される。次いで、表音記述中の音の音響モデルに音響サンプルを適用することによってスコア付けされる。各表音記述の総スコアは、言語モデルスコアを含む。CFGでは、言語モデル確率は、CFG中の各ノードにおけるブランチの数で1を割った数に等しい。しかし、入力された単語はCFG中の唯一のエントリなので、開始ノードからの1つのブランチしかない(そしてCFG中の唯一の他のノードは終了ノードである)。この結果、文字−音規則からのどんな表音記述も、言語モデル確率は常に1である。
別の復号パスで、音節状単位中(syllable-like units)の音についての音響モデルと、音節状単位nグラム言語モデルとに基づいて、音響モデルと言語モデルの最良のスコアの組合せを提供する音節状単位のシーケンスを識別することによって、音響サンプルは表音記述に変換される。
次いで、文字−音CFGを介して識別された表音シーケンスのスコアと、音節状単位nグラム復号を介して識別された最も可能性の高い(most likely)音節状単位シーケンスのスコアとが比較される。次いで、最高スコアを有する表音シーケンスが、その単語に対する表音シーケンスとして選択される。
このように、この従来技術のシステムによれば、文字−音の復号と音節状単位の復号が、2つの別々の並行パスで実施される。これはいくつかの理由で理想的とは言えなかった。
第1に、2つのパスが共通の言語モデルを使用しないので、2つのパス間のスコアを常に有意義に比較できるわけではない。具体的には、CFGの言語モデルは常に確率1を提供するので、文字−音の表音記述のスコアは通常、音節状単位記述よりも高いことになり、音節状単位記述は、通常は1よりもずっと低いnグラム言語モデルに依拠する。(音節状単位の言語モデル確率は約10〜4である。)
このため、この従来技術システムは、音響サンプルが音節状単位パスからの表音記述の方によりよくマッチするときでも、文字−音規則からの表音シーケンスの方を優先する傾向がある。
第2の精度問題は、「voicexml」などの結合語の発音を生成することに関して生じる。従来技術システムでCFGパスとnグラム音節パスとが相互に独立していることに留意するのは重要である。したがって、「voicexml」などの結合語は発音エラーをもたらす可能性がある。というのは、選択される発音はCFG発音とnグラム音節発音のどちらかでなければならない。しかし、CFGエンジンで使用される文字−音(LTS、letter−to−sound)規則は、「voice」のような比較的予測可能な単語に対してはうまく機能するが、「xml」のような、正しい発音がその綴り方にほとんど関係しない予測不可能な単語に対してはうまく機能しない傾向がある。
対照的に、nグラム音節モデルは一般に、「xml」のような単語の発音を生成する際には適度にうまく機能する。というのは、綴りに関係なく、音響サンプル中の音または音節のどんなシーケンスをも取り込もうとするからである。しかし、「voice」のような予測可能な単語に対しては、CFGエンジンほどうまく機能しない。
これらの理由で、2つの復号システムからの表音記述が2つの別々のパスで評価された場合、例えば予測可能な単語を頭文字と結合した「voicexml」などの結合語から、発音エラーが生じる可能性がある。
「voicexml」などの結合語の発音を改善するための音声認識システムは、非常に有用であろう。
本方法およびコンピュータ可読媒体は、単語のテキストとユーザによる単語の発音とを、音声認識レキシコンに追加するための表音記述に変換する。最初に、複数の可能(possible)な表音記述が少なくとも2つ生成される。ある表音記述は、ユーザによる単語の発音を表す音声信号を復号することによって形成される。少なくとも1つの他の表音記述は、単語のテキストから生成される。音声ベースおよびテキストベースの表音記述を含む複数の可能なシーケンスは整列(align)されて、発音グラフが生成される。次いで発音グラフは、ユーザの発音音声を再使用して、再びスコア付けされる。次いで、最高スコアを有する表音記述が、音声認識レキシコンへの入力に選択される。
本発明の一態様は、音節状単位(SLU、syllable−like unit)を使用して音響発音を表音記述に復号することである。音節状単位は一般に、単一音素よりも大きいが、単語よりも小さい。本発明は、言語特有の言語規則を必要としない相互情報ベースのデータ駆動型手法を使用してこれらの音節状単位を定義する手段を提供する。これらの音節状単位に基づく言語モデルを構築して、これを音声復号プロセスで使用することができる。
本発明の別の態様では、ユーザは、綴りに対応する通常の発音とは大きく異なる、単語の可聴発音を入力することができる。例えば、英単語のテキストを入力する一方で、外国語単語を可聴発音することができる。本発明のこの態様によれば、レキシコンに追加された新しい単語の表音記述をレキシコンから取り出して、これを、例えば英単語の外国語訳語を含む可聴信号に変換することができる。
図1に、本発明を実施するのに適したコンピューティングシステム環境の例100を示す。コンピューティングシステム環境100は、適したコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲についてどんな制限を意味するものでもない。またコンピューティング環境100は、この例示的な動作環境100に示すコンポーネントのいずれか1つまたは組合せに関してどんな依存や要件を有するものとも解釈すべきではない。
本発明は、その他多くの汎用または専用コンピューティングシステム環境または構成でも機能する。本発明で使用するのに適すると考えられる周知のコンピューティングシステム、環境、および/または構成の例には、限定しないがパーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システムや、これらのシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。
本発明は、プログラムモジュールなど、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで述べることができる。一般に、プログラムモジュールは、特定のタスクを実施するか特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は分散コンピューティング環境で実施することもでき、その場合、タスクは通信ネットワークを介してリンクされたリモート処理デバイスによって実施される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含めたローカルとリモートの両方のコンピュータ記憶媒体に位置することができる。
図1を参照すると、本発明を実施するための例示的なシステムは、コンピュータ110の形の汎用コンピューティングデバイスを含む。コンピュータ110のコンポーネントには、限定しないが処理ユニット120と、システムメモリ130と、システムメモリを含めた様々なシステムコンポーネントを処理ユニット120に結合するシステムバス121とを含めることができる。システムバス121は、様々なバスアーキテクチャのいずれかを用いた、メモリバスまたはメモリコントローラ、周辺バス、ローカルバスを含めて、いくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例として、このようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、PCI(Peripheral Component Interconnect)バス(メザニンバスとも呼ばれる)が含まれる。
コンピュータ110は通常、様々なコンピュータ可読媒体を備える。コンピュータ可読媒体は、コンピュータ110からアクセスできる任意の利用可能な媒体とすることができ、揮発性と不揮発性の媒体、着脱式と固定式の媒体の両方が含まれる。限定ではなく例として、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体を含めることができる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、その他のデータなどの情報を記憶するための任意の方法または技術で実現された、揮発性と不揮発性、着脱式と固定式の両方の媒体が含まれる。コンピュータ記憶媒体には、限定しないがRAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイスが含まれ、あるいは、所望の情報を記憶するのに使用できコンピュータ110からアクセスできるその他の任意の媒体が含まれる。通信媒体は通常、搬送波やその他のトランスポート機構などの被変調データ信号中に、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを組み入れるものであり、任意の情報送達媒体が含まれる。用語「被変調データ信号」は、信号中の情報が符号化される形で1つまたは複数の特性が設定または変更される信号を意味する。限定ではなく例として、通信媒体には、有線ネットワークや直接有線接続などの有線媒体と、音響、無線周波数、赤外線、その他の無線媒体などの無線媒体とが含まれる。以上の任意の組合せもコンピュータ可読媒体の範囲に含めるべきである。
システムメモリ130は、読取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132など、揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。ROM131には通常、起動中などにコンピュータ110内の要素間で情報を転送するのを助ける基本ルーチンを含むBIOS(basic input/output system)133が記憶されている。RAM132は通常、処理ユニット120がすぐにアクセス可能な、かつ/または処理ユニット120が現在作用している、データおよび/またはプログラムモジュールを含む。限定ではなく例として、図1には、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、プログラムデータ137を示す。
コンピュータ110は、その他の着脱式/固定式、揮発性/不揮発性コンピュータ記憶媒体を備えることもできる。例にすぎないが図1には、固定式かつ不揮発性の磁気媒体に対して読み書きするハードディスクドライブ141と、着脱式な不揮発性の磁気ディスク152に対して読み書きする磁気ディスクドライブ151と、CD ROMやその他の光媒体など着脱式な不揮発性の光ディスク156に対して読み書きする光ディスクドライブ155を示す。この例示的な動作環境で使用できるその他の着脱式/固定式、揮発性/不揮発性コンピュータ記憶媒体には、限定しないが磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体RAM、固体ROMなどが含まれる。ハードディスクドライブ141は通常、インターフェース140などの固定式メモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は通常、インターフェース150などの着脱式メモリインターフェースでシステムバス121に接続される。
以上に論じ図1に示したドライブおよびそれらに関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、その他のデータの記憶域をコンピュータ110に提供する。例えば図1には、ハードディスクドライブ141がオペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、プログラムデータ147を記憶しているのが示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、プログラムデータ137と同じものとすることもでき、異なるものとすることもできることに留意されたい。ここでは、オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、プログラムデータ147が少なくとも異なるコピーであることを示すために、異なる番号を付けてある。
ユーザは、キーボード162、マイクロホン163、マウスやトラックボールやタッチパッド等のポインティングデバイス161などの入力デバイスを介して、コンピュータ110にコマンドおよび情報を入力することができる。その他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星受信アンテナ、スキャナなどを含めることができる。これらおよびその他の入力デバイスは、システムバスに結合されたユーザ入力インターフェース160を介して処理ユニット120に接続されることが多いが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(「USB」)など、その他のインターフェースおよびバス構造で接続されてもよい。モニタ191または他のタイプの表示デバイスも、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは通常、スピーカ197やプリンタ196など、その他の周辺出力デバイスも備えることができ、これらは出力周辺インターフェース195を介して接続することができる。
コンピュータ110は、リモートコンピュータ180など1つまたは複数のリモートコンピュータへの論理接続を用いて、ネットワーク化された環境で動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、またはその他の一般的なネットワークノードとすることができ、通常はパーソナルコンピュータ110に関して上述した要素の多くまたはすべてを備える。図1に示す論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、その他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、インターネットでよくみられる。
LANネットワーキング環境で使用されるときは、コンピュータ110は、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用されるときは、コンピュータ110は通常、インターネットなどのWAN173を介した通信を確立するためのモデム172またはその他の手段を備える。モデム172は内蔵でも外付けでもよく、ユーザ入力インターフェース160またはその他の適切な機構を介してシステムバス121に接続することができる。ネットワーク化された環境では、コンピュータ110に関して示したプログラムモジュールまたはその一部をリモートのメモリ記憶デバイスに記憶することができる。限定ではなく例として、図1には、リモートアプリケーションプログラム185がリモートコンピュータ180上にあるものとして示す。図示のネットワーク接続は例示的なものであり、コンピュータ間で通信リンクを確立するための他の手段を使用してもよいことは理解されるであろう。
図2は、代替の例示的なコンピューティング環境であるモバイルデバイス200のブロック図である。モバイルデバイス200は、マイクロプロセッサ202と、メモリ204と、入出力(I/O)コンポーネント206と、リモートコンピュータまたは他のモバイルデバイスと通信するための通信インターフェース208とを備える。一実施形態では、前述のコンポーネントは、適したバス210を介して相互に通信するように結合される。
メモリ204は、モバイルデバイス200への全般的な電力が遮断されてもメモリ204に記憶された情報が失われないように、電池バックアップモジュール(図示せず)付きランダムアクセスメモリ(RAM)などの不揮発性電子メモリとして実現される。メモリ204の一部は、プログラム実行用のアドレス指定可能メモリとして割り振られることが好ましく、メモリ204の別の部分は、ディスクドライブへの記憶をシミュレートするなど、記憶のために使用されることが好ましい。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクトストア216を含む。動作中、オペレーティングシステム212は、プロセッサ202によってメモリ204から実行されることが好ましい。オペレーティングシステム212は、好ましい一実施形態では、Microsoft Corporationから市販されているWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、モバイルデバイス用に設計されていることが好ましく、アプリケーション214が公開アプリケーションプログラミングインターフェースおよびメソッドのセットを介して利用することのできるデータベース機能を実装する。オブジェクトストア216中のオブジェクトは、少なくとも部分的には公開アプリケーションプログラミングインターフェースおよびメソッドへの呼出しに応答して、アプリケーション214およびオペレーティングシステム212によって維持される。
通信インターフェース208は、モバイルデバイス200が情報を送受信するのを可能にする多くのデバイスおよび技術を表す。デバイスのいくつかの例としては、有線および無線モデム、衛星受信機、放送チューナが挙げられる。モバイルデバイス200はまた、コンピュータに直接に接続して、コンピュータとデータを交換することもできる。そのような場合、通信インターフェース208は、赤外線トランシーバ、あるいはシリアルまたはパラレル通信接続とすることができ、これらはすべてストリーミング情報を伝送することができる。
入出力コンポーネント206には、タッチセンシティブ画面、ボタン、ローラ、マイクロホンなどの様々な入力デバイスと、オーディオ生成器、振動デバイス、表示装置を含めた様々な出力デバイスが含まれる。ここに挙げたデバイスは例であり、すべてがモバイルデバイス200上にある必要はない。また、本発明の範囲内で、その他の入出力デバイスがモバイルデバイス200に付属しているかまたはモバイルデバイス200と共に提供されてもよい。
図3に、本発明に特に関係のある音声認識モジュールのより詳細なブロック図を提供する。図3では、入力音声信号が、必要ならマイクロホン300によって電気信号に変換される。次いで電気信号は、アナログデジタルすなわちA/D変換器302によって一連のデジタル値に変換される。いくつかの実施形態では、A/D変換器302は、アナログ信号を16kHzで、1サンプルあたり16ビットでサンプリングし、それにより毎秒32キロバイトの音声データを生み出す。
デジタルデータはフレーム構築ユニット304に提供され、フレーム構築ユニット304は、デジタル値を値のフレームにグループ化する。一実施形態では、各フレームは25ミリ秒の長さであり、前のフレームの開始から10ミリ秒後に開始する。
デジタルデータのフレームは特徴抽出器306に提供され、特徴抽出器306は、デジタル信号から特徴を抽出する。特徴抽出モジュールの例には、線形予測符号化(LPC)、LPC派生ケプストラム、知覚線形予測(PLP)、聴覚モデル特徴抽出、メル周波数ケプストラム係数(MFCC)特徴抽出を実施するためのモジュールが含まれる。本発明はこれらの特徴抽出モジュールに限定されず、本発明のコンテキスト内でその他のモジュールを使用してもよいことに留意されたい。
特徴抽出器306は、1フレームにつき単一の多次元特徴ベクトルを生成することができる。特徴ベクトル中の次元または値の数は、使用される特徴抽出のタイプによって決まる。例えば、メル周波数ケプストラム係数ベクトルは一般に、12個の係数に加えて、累乗を表す1つの係数を有し、総計13次元である。一実施形態では、特徴ベクトルは、メル周波数係数に加えて時間に関する累乗の1次および2次導関数をとることによって、メル係数から計算される。したがって、このような特徴ベクトルの場合、各フレームは、特徴ベクトルを形成する39個の値に関連する。
音声認識の間、特徴抽出器306によって生成された特徴ベクトルのストリームは、デコーダ308に提供され、デコーダ308は、特徴ベクトルのストリーム、システムレキシコン310、もしあればアプリケーションレキシコン312、ユーザレキシコン314、言語モデル316、音響モデル318に基づいて、最も可能性が高くまたは確からしい単語シーケンスを識別する。
ほとんどの実施形態で、音響モデル318は、隠れ状態のセットからなる隠れマルコフモデルであり、入力信号の1フレームにつき1つの状態がある。各状態には、入力特徴ベクトルが特定の状態にマッチする尤度(likelihood)を記述する確率分布のセットが関連する。いくつかの実施形態では、確率の混合(通常は10個のガウス確率)が各状態に関連する。隠れマルコフモデルはまた、隣接する2つのモデル状態間で遷移するための確率、ならびに、特定の言語単位の状態間で許容される遷移も含む。言語単位のサイズは、本発明の様々な実施形態で異なるものとすることができる。例えば、言語単位はセノン(senone)、音素、ダイフォン、トライフォン、音節、さらには単語全体とすることができる。
システムレキシコン310は、特定言語に有効な言語単位(通常は単語または音節)のリストからなる。デコーダ308はシステムレキシコン310を使用して、可能な言語単位の探索を、実際にその言語の一部である言語単位に限定する。システムレキシコン310はまた、発音情報(すなわち、各言語単位から、音響モデル318によって使用される音響ユニットのシーケンスへのマッピング)も含む。オプションのアプリケーションレキシコン312もシステムレキシコン310と同様だが、例外として、アプリケーションレキシコン312は、特定のアプリケーションによって追加される言語単位を含み、システムレキシコン310は、音声認識システムと共に提供された言語単位を含む。ユーザレキシコン314もまたシステムレキシコン310と同様だが、例外として、ユーザレキシコン314は、ユーザによって追加された言語単位を含む。本発明によれば、新しい言語単位を、特にユーザレキシコン314に追加するための方法および装置が提供される。
言語モデル316は、特定の言語単位シーケンスが特定言語中で現れることになる尤度または確率のセットを提供する。多くの実施形態で、言語モデル316はノースアメリカンビジネスニュース(NAB、North American Business News)などのテキストデータベースに基づくが、これについては刊行物に、より詳細に記述されている(例えば、「CSR-III Text Language Model, University of Penn., 1994」を参照。)。言語モデル316は、文脈自由文法、トライグラムなどの統計nグラムモデル、またはこの両方の組合せとすることができる。一実施形態では、言語モデル316は、シーケンスの3単語セグメントの組合せ確率に基づいて単語シーケンスの確率を決定するコンパクトなトライグラムモデルである。
音響モデル318、言語モデル316、レキシコン310、312、314に基づいて、デコーダ308は、すべての可能な言語単位シーケンスから最も可能性の高い言語単位シーケンスを識別する。この言語単位シーケンスが、音声信号のトランスクリプトを表す。
このトランスクリプトは出力モジュール320に提供され、出力モジュール320は、トランスクリプトを1つまたは複数のアプリケーションに送信することに関連するオーバーヘッドに対処する。一実施形態では、図3の音声認識エンジンと1つまたは複数のアプリケーションとの間に存在する中間層があれば、出力モジュール320はその中間層と通信する。
本発明によれば、単語のテキストをユーザインターフェース321において入力し、この単語をマイクロホン300に向かって発音することによって、新しい単語をユーザレキシコン314に追加することができる。発音された単語は、A/D変換器302、フレーム構築304、特徴抽出機306によって特徴ベクトルに変換される。単語を追加するプロセスの間は、これらの特徴ベクトルはデコーダ308ではなくレキシコン更新ユニット322に提供される。更新ユニット322は、新しい単語のテキストもユーザインターフェース321から受け取る。新しい単語の特徴ベクトルおよびテキストに基づいて、レキシコン更新ユニット322は、以下にさらに述べるプロセスによってユーザレキシコン314および言語モデル316を更新する。
図4に、ユーザレキシコン314および言語モデル316を更新するのに使用される、レキシコン更新ユニット322中のコンポーネントのブロック図を提供する。図5に、ユーザレキシコン314を更新するために図4のコンポーネントによって実施される方法の流れ図を提供する。
ステップ502で、ユーザは、マイクロホン300に向かって単語を発音してユーザ供給の音響サンプル401を生成することによって、新しい単語を入力する。ユーザ供給の音響サンプル401は、前述のように特徴ベクトル403に変換され、特徴ベクトル403はレキシコン更新ユニット322に提供される。具体的には、特徴ベクトル403は音節状単位(SLU)エンジン405に提供され、図5のステップ504で、特徴ベクトル403によって表すことのできる最も可能性の高い音節状単位シーケンスが生成される。SLUエンジン405は、SLU辞書409および音響モデル318を備えているかまたはそれらにアクセスし、それにより、通常は最高の確率スコアに基づいて、最も可能性の高いSLUシーケンスを生成する。次いでSLUエンジン405は、最も可能性の高い音節状単位シーケンスを表音単位シーケンスに変換し、この表音単位シーケンスは整列モジュール414に提供される。SLU辞書409については、後で図7に対応する記述でより詳細に述べる。
場合により、ユーザによる新しい単語の発音が通常の発音とは大きく異なる可能性があることに留意するのは重要である。例えば、話者は、ある英単語をその外国語訳語で置き換えて発音する場合がある。この特徴により、例えば音声認識レキシコンは、ある言語で単語のテキストまたは綴りを記憶し、この第1の言語とは異なる第2の言語で音響記述を記憶することができることになる。
ステップ506で、ユーザは、新しい単語のテキストを入力して、ユーザ提供のテキストサンプル402を生成する。ステップ506は、ステップ502の前、後、またはステップ502と同時に実施できることに留意されたい。ユーザ提供のテキストサンプル402は文法モジュール404に提供され、ステップ508で、文法モジュール404はテキストを、可能なテキストベースの表音シーケンスのリストに変換する。具体的には、文法モジュール404は、ユーザ提供のテキストサンプル402について文脈自由文法などの文法を構築する。文法モジュール404は、レキシコン406および文字−音(LTS)エンジン408を備えているか、またはそれらにアクセスする。文法モジュール404はまず、システムレキシコン310、オプションのアプリケーションレキシコン312、ユーザレキシコン314を含むレキシコン406を探索して、ユーザ提供のテキストサンプル402に対する可能な表音記述、発音、またはシーケンスがあればそれらを取り出す。
LTSエンジン408は、特に単語がレキシコン406中で見つからなかったときは、ユーザ提供のテキストサンプル402を1つまたは複数の可能な表音シーケンスに変換する。この変換は、当該の特定言語に適した発音規則の集合410を利用して実施される。ほとんどの実施形態で、表音シーケンスは一連の音素で構築される。他の実施形態では、表音シーケンスはトライフォンのシーケンスである。このように文法モジュール404は、レキシコン406およびLTSエンジン408から、1つまたは複数の可能なテキストベースの表音シーケンス412を生成する。
再び図4を参照するが、SLUエンジン405からの最良の表音シーケンス407と、文法モジュール404からの可能な表音シーケンス412のリストは、整列モジュール414に提供される。ステップ510で、整列モジュール414は、音声認識エラー率(例えば置換エラー、削除エラー、挿入エラーによる)を計算するための周知の整列モジュールおよび/または方法と同様にして、表音シーケンス407と412を整列する。いくつかの実施形態では、整列は、2つのシーケンスストリング(例えば正しい参照と認識仮説)の間の最短距離を用いて実施することができる。整列モジュール414は、整列した表音シーケンスのリスト、グラフ、または表を生成する。
ステップ511で、整列モジュール414は、整列した表音シーケンスを単一グラフ中に配置する。このプロセスの間、相互に整列する同一の表音単位は、単一パス上に結合される。相互に整列する異なる表音単位は、グラフ中の平行する代替パス上に配置される。
単一グラフは、再スコア付けモジュール416に提供される。ステップ512で、特徴ベクトル403を再び使用して、単一グラフを通るパスで表される表音単位の可能な組合せが再スコア付けされる。一実施形態によれば、再スコア付けモジュール416は、ビタビ探索を実施して、ユーザによる単語の発音によって生成された特徴ベクトル403を、パスに沿った各表音単位ごとに音響モデル318に記憶されたモデルパラメータと比較することによって生成された音響モデルスコアを使用して、グラフを通る最良のパスを識別する。このスコア付けは、音声認識中にデコーダ308によって実施されるスコア付けと同様である。
スコア選択更新モジュール418は、単一グラフを通る最高スコアの表音シーケンスまたはパスを選択する。選択されたシーケンスは、ステップ514でユーザレキシコン314を、およびステップ516で言語モデル316を更新するために提供される。
図6に、本発明がどのように単語の発音を処理または学習するかについての例を示す。ブロック602は、ユーザによる単語「voicexml」の発音を示し、ブロック603は、「voicexml」について入力されたテキストを表す。単語「voicexml」は、前述のように結合語の発音を生成する際の本発明の利点を例示するものである。単語「voicexml」の第1の部分、すなわち「voice」は、図4のLTSエンジン408などのLTSエンジンが通常は正確に処理することのできる、比較的予測可能な単語または単語セグメントである。しかし、この単語の第2の部分、すなわち「xml」は、LTSエンジンが処理において精度問題を有する可能性のある、予測不可能なまたは非定型的な単語または頭字語である。しかし、SLUエンジン405など通常のSLUエンジンは、一般に「xml」などの単語または単語セグメントをうまく処理することができる。というのは、SLUエンジンはユーザの音響的な発音に依拠するからである。
ブロック604は、図4のSLUエンジン405および図5のステップ504などによって生成された最も可能性の高い表音シーケンスを示す。したがって、単語「voicexml」の音響または口述バージョンの最良の発音は、以下のようになる。
ow−s−eh−k−s−eh−m−eh−l
この場合、ユーザが表音単位「v」をはっきりと発音しなかったか、SLUモデルが表音単位「v」をうまく予測しなかったかのどちらかである。その結果、予測されたであろう表音単位「v」は、表音シーケンスの最初からドロップされた。
ブロック609で、単語「voicexml」の綴りまたはテキストバージョンに対する可能な表音シーケンス606および608のリストが、LTSエンジン408によって生成される。これらには以下の表音単位シーケンスが含まれる。
v−oy−s−eh−k−s−m−ax−l
v−ow−s−g−z−m−ax−l
ブロック604および609からの表音シーケンスは、整列モジュール414によって、ブロック610に示す整列構造に結合される。一般にこの整列は、動的プログラミングと、様々な整列を仮定した場合の表音シーケンス間の差に基づく費用関数とを使用して実施される。ブロック610では、整列された表音単位は同じ垂直列に見られる。いくつかの列には「−」があることに留意されたいが、これは、関連する表音単位を有さない空のパスを表し、その列が任意選択であるかまたはスキップ可能であることを意味する。
ブロック612は、整列構造から形成することのできる可能な表音シーケンスを含む、整列構造610から構築された単一グラフを示す。ブロック612は、表音単位がノード間のパス上に配置された探索構造を表す。構造内では、SLUエンジンから識別された表音単位すなわち音声ベースの表音単位と、LTSエンジンによって識別された表音単位すなわちテキストベースの表音単位との間で遷移が許容される。ブロック612はまた、選択されたパスが「スキップ」を含むことができることも示し、その場合、そのパス中の特定の列からは表音単位が含まれない。
前述のように、表音シーケンスまたはパスは、ユーザによる単語の発音と、音響モデルとを使用して選択される。ブロック614は、本発明による選択された表音シーケンスまたはパスを示す。これを以下に提供する。
v−oy−s−eh−k−s−eh−m−eh−l
この最終的なパスは、LTSエンジンによって予測された表音シーケンスで開始するが、SLUエンジンによって予測された表音シーケンスで終了することに留意されたい。従来技術の下では、これは可能ではないだろう。このように本発明は、音声ベースのSLUエンジンとテキストベースのLTSエンジンの両方からの可能な表音シーケンスを組み込んだ単一グラフから表音シーケンスを選択して、単語のより正確な発音を生成する。
音節状単位(SLU)セット
図7に、本発明のいくつかの実施形態で使用することのできる音節状単位(SLU)のセットまたは辞書409を構築する方法を示す。一般に図7の方法はデータに基づく手法であり、これは言語特有の言語規則を必要としないので、この方法は有利な可能性がある。したがって、図7に示す手法はどんな言語でも使用することができ、また、他の手法、特に言語規則に基づく手法で必要な可能性のある熟練した語学者を必要としないので、実施が比較的安価である。
図7の方法は、相互情報(MI)を利用してSLUセットを構築し、博士論文に記述されているアルゴリズムに類似するアルゴリズム(例えば、「Modeling Out-of-vocabulary Words For Robust Speech Recognition" by Issam Bazzi, 2000」を参照。)を使用するが、この論文のアルゴリズムは異なるコンテキストで使用されていた。本発明では、大規模な表音辞書、例えばおそらく表音記述を伴う50000個以上の単語の訓練辞書が与えられた場合に、所定サイズまたは限られたサイズの、例えば10000単位の文節状単位のセットが構築される。
ブロック702で、最初のSLUセットSは、音のセットP={p,p,...p}に等しく(英語の音声認識システムでは通常40個の音がみられる)、したがってS={s,s,...s}={p,p,...p}であり、mおよびnはそれぞれSLUおよび音の数であり、最初はm=nである。
現在の反復における任意のSLUの対を(u,u)とする。ブロック704で、辞書中のエントリにみられる言語単位の対(u,u)の相互情報を、以下の式で計算する。
Figure 2005258443
上式で、MI(u,u)は、音節状単位の対(u,u)の相互情報であり、Pr(u,u)は(u,u)の同時確率であり、Pr(u)およびPr(u)はそれぞれuおよびuのユニグラム確率である。
ユニグラム確率Pr(u)およびPr(u)は、以下の式を使用して計算される。
Figure 2005258443
上式で、Count(u)およびCount(u)はそれぞれ、音節状単位uおよびuが訓練辞書中でみられる回数であり、Count(*)は、訓練辞書中の音節状単位インスタンスの総数である。(u,u)の同次確率は、以下の式で計算することができる。
Figure 2005258443
上式で、Count(u,u)は、対(u,u)が訓練辞書中で共に(すなわち隣接して)現れる回数である。
ブロック706で、最大相互情報を有する対(u,u)が選択または識別される。ブロック708で、最大相互情報を有する対(u,u)は、新しい、より長い音節状単位uにマージされる。新しい音節状単位uは、訓練辞書の単語の中で対(u,u)に置き換わる、または取って代わる。
ブロック710で、反復を終了するかどうかが判定される。いくつかの実施形態では、SLUの最大長さを制御するパラメータを使用することができる。例えば、最大の音節状単位長さを4音に設定することができる。選択された長さに達した場合は、選択された対をマージするのをアボートし、その代わり、最大相互情報を有する次の対をチェックする。利用可能な対がそれ以上ない場合、またはSLU(m)の数が所望の数に達した場合、または最大相互情報が一定しきい値を下回った場合は、図7の方法はブロック712に進み、SLUセットSが出力される。そうでない場合は、方法はブロック704に戻り、新しい単位uが生成されて、影響を受ける単位のユニグラムおよびバイグラムカウントが再計算された後で、音節状単位の相互情報が再計算される。一実施形態では、音節状単位の対は、各反復につき1つだけマージされる。しかし他の実施形態では、Bazziの論文などのように速度が問題になる場合、選択された数の対(例えば50個の対)を各反復でマージすることもできる。
図7のアルゴリズムが終了すると、入力または訓練辞書は、最終的なSLUセットにセグメント化される。次いで、セグメント化された辞書から音節状単位nグラムを訓練し、本発明によって実施することができる。このデータ駆動型手法は、規則ベースの文節法手法よりもわずかによい精度を達成することがわかっている。しかしより重要なのは、この手法は、言語特有の言語規則が必要ないので、どんな言語でもコード変更なしに使用できることである。
特定の実施形態を参照して本発明を述べたが、本発明の趣旨および範囲を逸脱することなく形式および詳細に変更を加えることができることは、当業者なら理解するであろう。
本発明を実施することのできる一般的なコンピューティング環境のブロック図である。 本発明を実施することのできる一般的なモバイルコンピューティング環境のブロック図である。 本発明による音声認識システムのブロック図である。 本発明の一実施形態のレキシコン更新コンポーネントのブロック図である。 本発明による音声認識レキシコンに単語を追加する方法の流れ図である。 本発明を特定の単語に対して実施した場合を例示する流れ図である。 音節状単位のセットを構築するための流れ図である。
符号の説明
120 処理ユニット
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム
136 その他のプログラムモジュール
137 プログラムデータ
140 固定式不揮発性メモリインターフェース
144 オペレーティングシステム
145 アプリケーションプログラム
146 その他のプログラムモジュール
147 プログラムデータ
150 着脱式不揮発性メモリインターフェース
160 ユーザ入力インターフェース
161 ポインティングデバイス
162 キーボード
163 マイクロホン
170 ネットワークインターフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェース
191 モニタ
195 出力周辺インターフェース
196 プリンタ
197 スピーカ
202 プロセッサ
204 メモリ
208 通信インターフェース
214 アプリケーション(群)
216 オブジェクトストア
300 マイクロホン
304 フレーム構築
306 特徴抽出器
308 デコーダ
310 システムレキシコン
312 アプリケーションレキシコン
314 ユーザレキシコン
316 言語モデル
318 音響モデル
320 出力モジュール
321 ユーザインターフェース
322 レキシコンおよび言語モデル更新ユニット
310 システム
312 アプリケーション
314 ユーザ
314 更新されたユーザレキシコン
316 更新された言語モデル
318 音響モデル
322 レキシコン更新ユニット
401 ユーザ供給の音響サンプル
402 ユーザ供給のテキストサンプル
403 特徴ベクトル
404 文法モジュール
405 SLUエンジン
406 レキシコン
407 最良の表音シーケンス
408 LTSエンジン
409 SLU辞書
410 規則
412 可能な表音シーケンスのリスト
414 整列モジュール
416 再スコア付けモジュール
418 選択更新モジュール

Claims (27)

  1. コンピュータによって読取り可能な命令を含むコンピュータ可読媒体であって、前記命令は実行されると、
    単語のテキストを参照せずに前記単語の音声ベースの表音記述を生成するステップと、
    前記単語のテキストに基づいて前記単語のテキストベースの表音記述を生成するステップと、
    前記音声ベースの表音記述と前記テキストベースの表音記述とを音ごとに整列して単一のグラフを形成するステップと、
    前記単一のグラフから表音記述を選択するステップと
    を実施することを特徴とするコンピュータ可読媒体。
  2. ユーザによる前記単語の発音に基づいて前記音声ベースの表音記述を生成するステップをさらに含むことを特徴とする請求項1に記載のコンピュータ可読媒体。
  3. 前記ユーザによる前記単語の発音を表す音声信号を復号して前記単語の音声ベースの表音記述を生成するステップをさらに含むことを特徴とする請求項2に記載のコンピュータ可読媒体。
  4. 音声信号を復号するステップは、前記音声信号から音節状単位のシーケンスを識別するステップを含むことを特徴とする請求項2に記載のコンピュータ可読媒体。
  5. 音声信号を復号して音節状単位のシーケンスを識別する前に、相互情報を用いて音節状単位のセットを生成するステップをさらに含むことを特徴とする請求項4に記載のコンピュータ可読媒体。
  6. 相互情報を用いて音節状単位を生成するステップは、
    訓練辞書中の下位単語単位の対について相互情報の値を計算するステップと、
    前記相互情報の値に基づいて下位単語単位の対を選択するステップと、
    前記選択された下位単語単位の対を音節状単位にマージするステップと
    を含むことを特徴とする請求項5に記載のコンピュータ可読媒体。
  7. 前記テキストベースの表音記述を生成するステップは、文字−音規則を使用するステップを含むことを特徴とする請求項2に記載のコンピュータ可読媒体。
  8. 前記単一のグラフから表音記述を選択するステップは、音声サンプルを前記単一のグラフ中の表音単位の音響モデルと比較するステップを含むことを特徴とする請求項1に記載のコンピュータ可読媒体。
  9. コンピュータ実行可能命令を有するコンピュータ可読媒体であって、前記命令は、
    単語の表音的な発音が音声認識レキシコンに追加される場合に前記単語のテキストを受け取るステップと、
    前記単語を発音する人物によって生成された音声信号の表現を受け取るステップと、
    前記単語のテキストを、表音単位による少なくとも1つのテキストベースの表音シーケンスに変換するステップと、
    前記音声信号の表現から表音単位による音声ベースの表音シーケンスを生成するステップと、
    前記少なくとも1つのテキストベースの表音シーケンスと前記音声ベースの表音シーケンスとの表音単位を探索構造中に配置するステップであって、前記探索構造は前記テキストベースの表音シーケンス中の表音単位と前記音声ベースの表音記述中の表音単位との間の遷移を可能にする構造であるステップと、
    前記探索構造から表音的な発音を選択するステップと
    を実施するための命令であることを特徴とするコンピュータ可読媒体。
  10. 前記表音単位を探索構造中に配置するステップは、前記音声ベースの表音シーケンスと前記少なくとも1つのテキストベースの表音シーケンスとを整列して、相互の代替となる表音単位を識別するステップを含むことを特徴とする請求項9に記載のコンピュータ可読媒体。
  11. 前記音声ベースの表音シーケンスと前記少なくとも1つのテキストベースの表音シーケンスとを整列するステップは、2つの表音シーケンス間の最短距離を計算するステップを含むことを特徴とする請求項10に記載のコンピュータ可読媒体。
  12. 前記表音的な発音を選択するステップは、表音単位の音響モデルと前記音声信号の表現との比較に部分的に基づくことを特徴とする請求項10に記載のコンピュータ可読媒体。
  13. 表音単位による音声ベースの表音シーケンスを生成するステップは、
    表音単位による複数の可能な表音シーケンスを生成するステップと、
    少なくとも1つのモデルを使用して、可能な各表音シーケンスにつき確率スコアを生成するステップと、
    最高スコアを有する可能な表音シーケンスを、表音単位による音声ベースの表音シーケンスとして選択するステップとを含むことを特徴とする請求項9に記載のコンピュータ可読媒体。
  14. 少なくとも1つのモデルを使用するステップは、音響モデルおよび言語モデルを使用するステップを含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  15. 言語モデルを使用するステップは、音節状単位に基づく言語モデルを使用するステップを含むことを特徴とする請求項14に記載のコンピュータ可読媒体。
  16. 表音的な発音を選択するステップは、探索構造を通るパスを少なくとも1つのモデルに基づいてスコア付けするステップを含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  17. 前記少なくとも1つのモデルは音響モデルを含むことを特徴とする請求項16に記載のコンピュータ可読媒体。
  18. 前記探索構造は、前記テキストベースの表音シーケンスと前記音声ベースの表音シーケンスの両方に見られる表音単位についての単一パスを含むことを特徴とする請求項10に記載のコンピュータ可読媒体。
  19. 単語の音響記述を音声認識レキシコンに追加する方法であって、
    単語のテキストに基づいてテキストベースの表音記述を生成するステップと、
    前記単語のテキストを参照せずに音声ベースの表音記述を生成するステップと、
    前記テキストベースの表音記述と前記音声ベースの表音記述とを構造中で整列するステップであって、前記構造は表音単位を表すパスを含み、前記テキストベースの表音記述からの表音単位についての少なくとも1つのパスは前記音声ベースの表音記述からの表音単位についてのパスに接続されるステップと、
    前記構造を通るパスシーケンスを選択するステップと、
    前記選択されたパスシーケンスに基づいて前記単語の音響記述を生成するステップと
    を含むことを特徴とする方法。
  20. パスシーケンスを選択するステップは、前記構造中のパスのスコアを生成するステップを含むことを特徴とする請求項19に記載の方法。
  21. パスのスコアを生成するステップは、ユーザによる単語の発音を前記構造中の表音単位に関するモデルと比較するステップを含むことを特徴とする請求項20に記載の方法。
  22. 前記単語のテキストに基づいて複数のテキストベースの表音記述を生成するステップをさらに含むことを特徴とする請求項20に記載の方法。
  23. 前記音声ベースの表音記述を生成するステップは、ユーザによる前記単語の発音を含む音声信号を復号するステップを含むことを特徴とする請求項22に記載の方法。
  24. 音声信号を復号するステップは、音節状単位の言語モデルを使用するステップを含むことを特徴とする請求項23に記載の方法。
  25. 前記音節状単位の言語モデルを構築するステップをさらに含み、前記言語モデルは、
    訓練辞書中の音節状単位の対について相互情報の値を計算するステップと、
    前記相互情報の値に基づいて音節状単位の対を選択するステップと、
    前記訓練辞書中で前記選択された対を削除し、前記削除済みの選択された対を新しい音節状単位で置き換えるステップとによって構築されることを特徴とする請求項24に記載の方法。
  26. 前記訓練辞書中の音節状単位の残りの対について相互情報の値を再計算するステップと、
    前記再計算された相互情報の値に基づいて新しい音節状単位の対を選択するステップと、
    前記訓練辞書中で前記新しい音節状単位の対を削除し、前記新しい音節状単位の対を第2の新しい音節状単位で置き換えるステップとをさらに含むことを特徴とする請求項25に記載の方法。
  27. 前記訓練辞書を使用して音節状単位の言語モデルを生成するステップをさらに含むことを特徴とする請求項26に記載の方法。
JP2005067117A 2004-03-10 2005-03-10 発音グラフを使用して新しい単語の発音学習を改善すること Pending JP2005258443A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/796,921 US7590533B2 (en) 2004-03-10 2004-03-10 New-word pronunciation learning using a pronunciation graph

Publications (2)

Publication Number Publication Date
JP2005258443A true JP2005258443A (ja) 2005-09-22
JP2005258443A5 JP2005258443A5 (ja) 2008-04-24

Family

ID=34827622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005067117A Pending JP2005258443A (ja) 2004-03-10 2005-03-10 発音グラフを使用して新しい単語の発音学習を改善すること

Country Status (7)

Country Link
US (1) US7590533B2 (ja)
EP (1) EP1575030B1 (ja)
JP (1) JP2005258443A (ja)
KR (1) KR20060043845A (ja)
CN (1) CN1667700B (ja)
AT (1) ATE362633T1 (ja)
DE (1) DE602005001125T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129318A (ja) * 2006-11-21 2008-06-05 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
US8645139B2 (en) 2009-06-03 2014-02-04 Samsung Electronics Co., Ltd. Apparatus and method of extending pronunciation dictionary used for speech recognition

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8954325B1 (en) * 2004-03-22 2015-02-10 Rockstar Consortium Us Lp Speech recognition in automated information services systems
EP1600942B1 (en) * 2004-05-21 2009-11-18 Harman Becker Automotive Systems GmbH Automatic word pronunciation generation for speech recognition
US7962327B2 (en) * 2004-12-17 2011-06-14 Industrial Technology Research Institute Pronunciation assessment method and system based on distinctive feature analysis
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070124147A1 (en) * 2005-11-30 2007-05-31 International Business Machines Corporation Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US7966173B2 (en) * 2006-03-22 2011-06-21 Nuance Communications, Inc. System and method for diacritization of text
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US20070233490A1 (en) * 2006-04-03 2007-10-04 Texas Instruments, Incorporated System and method for text-to-phoneme mapping with prior knowledge
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7856503B2 (en) * 2006-10-19 2010-12-21 International Business Machines Corporation Method and apparatus for dynamic content generation
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US9070363B2 (en) * 2007-10-26 2015-06-30 Facebook, Inc. Speech translation with back-channeling cues
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US9128926B2 (en) 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US8135590B2 (en) 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
WO2008083868A1 (en) * 2007-01-12 2008-07-17 Nokia Siemens Networks Gmbh & Co. Kg Apparatus and method for processing audio and/or video data
WO2008106655A1 (en) * 2007-03-01 2008-09-04 Apapx, Inc. System and method for dynamic learning
TW200926140A (en) * 2007-12-11 2009-06-16 Inst Information Industry Method and system of generating and detecting confusion phones of pronunciation
US20090240501A1 (en) * 2008-03-19 2009-09-24 Microsoft Corporation Automatically generating new words for letter-to-sound conversion
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20110106814A1 (en) * 2008-10-14 2011-05-05 Yohei Okato Search device, search index creating device, and search system
US8805686B2 (en) * 2008-10-31 2014-08-12 Soundbound, Inc. Melodis crystal decoder method and device for searching an utterance by accessing a dictionary divided among multiple parallel processors
US20100198577A1 (en) * 2009-02-03 2010-08-05 Microsoft Corporation State mapping for cross-language speaker adaptation
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
WO2011059800A1 (en) * 2009-10-29 2011-05-19 Gadi Benmark Markovitch System for conditioning a child to learn any language without an accent
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US9177545B2 (en) * 2010-01-22 2015-11-03 Mitsubishi Electric Corporation Recognition dictionary creating device, voice recognition device, and voice synthesizer
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8949125B1 (en) * 2010-06-16 2015-02-03 Google Inc. Annotating maps with user-contributed pronunciations
US9576570B2 (en) * 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US8527270B2 (en) 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9396725B2 (en) 2011-05-09 2016-07-19 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US8738375B2 (en) * 2011-05-09 2014-05-27 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
EP2747077A4 (en) * 2011-08-19 2015-05-20 Asahi Chemical Ind VOICE RECOGNITION SYSTEM, RECOGNITION DICTIONARY LOGIC SYSTEM, AND AUDIO MODEL IDENTIFIER SERIES GENERATION DEVICE
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
US9324323B1 (en) 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US8775177B1 (en) * 2012-03-08 2014-07-08 Google Inc. Speech recognition process
KR101193362B1 (ko) * 2012-04-13 2012-10-19 최병기 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
KR101359718B1 (ko) 2012-05-17 2014-02-13 포항공과대학교 산학협력단 대화 관리 시스템 및 방법
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
EP2864856A4 (en) 2012-06-25 2015-10-14 Microsoft Technology Licensing Llc SEIZURE METHOD EDITOR APPLICATION PLATFORM
US8959109B2 (en) 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
WO2014032244A1 (en) 2012-08-30 2014-03-06 Microsoft Corporation Feature-based candidate selection
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
LT6058B (lt) * 2012-10-22 2014-08-25 Mickaus kÅ«rybos studija, MB Sistema vizualiniam akustinės informacijos atvaizdavimui
US9542936B2 (en) 2012-12-29 2017-01-10 Genesys Telecommunications Laboratories, Inc. Fast out-of-vocabulary search in automatic speech recognition systems
US8959020B1 (en) * 2013-03-29 2015-02-17 Google Inc. Discovery of problematic pronunciations for automatic speech recognition systems
WO2014197334A2 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105580004A (zh) 2013-08-09 2016-05-11 微软技术许可有限责任公司 提供语言帮助的输入方法编辑器
US9589562B2 (en) 2014-02-21 2017-03-07 Microsoft Technology Licensing, Llc Pronunciation learning through correction logs
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
CN105096945A (zh) * 2015-08-31 2015-11-25 百度在线网络技术(北京)有限公司 一种终端的语音识别方法和装置
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9787819B2 (en) * 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
GB2544070B (en) * 2015-11-04 2021-12-29 The Chancellor Masters And Scholars Of The Univ Of Cambridge Speech processing system and method
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10089974B2 (en) * 2016-03-31 2018-10-02 Microsoft Technology Licensing, Llc Speech recognition and text-to-speech learning system
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
TWI610294B (zh) * 2016-12-13 2018-01-01 財團法人工業技術研究院 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CA3206209A1 (en) * 2017-03-29 2018-10-04 Google Llc End-to-end text-to-speech conversion
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
DE102017006863A1 (de) * 2017-07-19 2019-01-24 INPRO Innovationsgesellschaft für fortgeschrittene Produktionssysteme in der Fahrzeugindustrie mbH Verfahren zur inline-Herstellung eines Leichtbauteils in Hybridbauweise wie einer mit hybriden Strukturen zu versehenen Fahrzeugkarosserie
KR102075796B1 (ko) * 2017-11-14 2020-03-02 주식회사 엘솔루 자동 음성인식 장치 및 방법
CN109407946B (zh) * 2018-09-11 2021-05-14 昆明理工大学 基于语音识别的图形界面目标选择方法
CN109754778B (zh) * 2019-01-17 2023-05-30 平安科技(深圳)有限公司 文本的语音合成方法、装置和计算机设备
US10839792B2 (en) 2019-02-05 2020-11-17 International Business Machines Corporation Recognition of out-of-vocabulary in direct acoustics-to-word speech recognition using acoustic word embedding
CN112242144A (zh) * 2019-07-17 2021-01-19 百度在线网络技术(北京)有限公司 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
CN112562675B (zh) * 2019-09-09 2024-05-24 北京小米移动软件有限公司 语音信息处理方法、装置及存储介质
CN115985300A (zh) * 2021-10-15 2023-04-18 赛微科技股份有限公司 一种智能扩充相似词模型系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092494A (ja) * 1999-09-24 2001-04-06 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2003044080A (ja) * 2001-05-02 2003-02-14 Sony Corp ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体
JP2003271183A (ja) * 2002-03-19 2003-09-25 Sharp Corp 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2004053979A (ja) * 2002-07-22 2004-02-19 Alpine Electronics Inc 音声認識辞書の作成方法及び音声認識辞書作成システム
JP2004294542A (ja) * 2003-03-25 2004-10-21 Mitsubishi Electric Corp 音声認識装置及びそのプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT390685B (de) * 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US6064957A (en) * 1997-08-15 2000-05-16 General Electric Company Improving speech recognition through text-based linguistic post-processing
EP1110204B1 (en) * 1999-07-08 2005-06-01 Koninklijke Philips Electronics N.V. Adaptation of a speech recognizer from corrected text
US6263308B1 (en) * 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US6973427B2 (en) 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US7013276B2 (en) * 2001-10-05 2006-03-14 Comverse, Inc. Method of assessing degree of acoustic confusability, and system therefor
US7389228B2 (en) * 2002-12-16 2008-06-17 International Business Machines Corporation Speaker adaptation of vocabulary for speech recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092494A (ja) * 1999-09-24 2001-04-06 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2003044080A (ja) * 2001-05-02 2003-02-14 Sony Corp ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体
JP2003271183A (ja) * 2002-03-19 2003-09-25 Sharp Corp 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2004053979A (ja) * 2002-07-22 2004-02-19 Alpine Electronics Inc 音声認識辞書の作成方法及び音声認識辞書作成システム
JP2004294542A (ja) * 2003-03-25 2004-10-21 Mitsubishi Electric Corp 音声認識装置及びそのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129318A (ja) * 2006-11-21 2008-06-05 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
US8645139B2 (en) 2009-06-03 2014-02-04 Samsung Electronics Co., Ltd. Apparatus and method of extending pronunciation dictionary used for speech recognition

Also Published As

Publication number Publication date
US7590533B2 (en) 2009-09-15
ATE362633T1 (de) 2007-06-15
CN1667700B (zh) 2010-10-06
CN1667700A (zh) 2005-09-14
EP1575030B1 (en) 2007-05-16
DE602005001125T2 (de) 2007-09-13
EP1575030A1 (en) 2005-09-14
KR20060043845A (ko) 2006-05-15
DE602005001125D1 (de) 2007-06-28
US20050203738A1 (en) 2005-09-15

Similar Documents

Publication Publication Date Title
US7590533B2 (en) New-word pronunciation learning using a pronunciation graph
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
US7124080B2 (en) Method and apparatus for adapting a class entity dictionary used with language models
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
US7275034B2 (en) Word-specific acoustic models in a speech recognition system
US8355917B2 (en) Position-dependent phonetic models for reliable pronunciation identification
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US7299179B2 (en) Three-stage individual word recognition
Kumar et al. Development of Indian language speech databases for large vocabulary speech recognition systems
US7076422B2 (en) Modelling and processing filled pauses and noises in speech recognition
US7016838B2 (en) Method and system for frame alignment and unsupervised adaptation of acoustic models
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP2019012095A (ja) 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
AbuZeina et al. Cross-word modeling for Arabic speech recognition
Gauvain et al. Large vocabulary speech recognition based on statistical methods
Vu et al. Vietnamese automatic speech recognition: The flavor approach
Raj et al. Design and implementation of speech recognition systems
JP2005221752A (ja) 音声認識装置、音声認識方法及びプログラム
Kernan et al. Shona Processor and Synthesizer that Converts Speech to Text and Text To Speech
Gauvain et al. on Statistical Methods

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080310

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080310

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111122