JP5014785B2 - 表音ベース音声認識システム及び方法 - Google Patents

表音ベース音声認識システム及び方法 Download PDF

Info

Publication number
JP5014785B2
JP5014785B2 JP2006509541A JP2006509541A JP5014785B2 JP 5014785 B2 JP5014785 B2 JP 5014785B2 JP 2006509541 A JP2006509541 A JP 2006509541A JP 2006509541 A JP2006509541 A JP 2006509541A JP 5014785 B2 JP5014785 B2 JP 5014785B2
Authority
JP
Japan
Prior art keywords
phonetic
sequence
vowel
recognizer
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006509541A
Other languages
English (en)
Other versions
JP2006522370A (ja
JP2006522370A5 (ja
Inventor
ジェイ ハント,メルヴィン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Novauris Technologies Ltd
Original Assignee
Novauris Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Novauris Technologies Ltd filed Critical Novauris Technologies Ltd
Publication of JP2006522370A publication Critical patent/JP2006522370A/ja
Publication of JP2006522370A5 publication Critical patent/JP2006522370A5/ja
Application granted granted Critical
Publication of JP5014785B2 publication Critical patent/JP5014785B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Telephonic Communication Services (AREA)
  • Devices For Executing Special Programs (AREA)

Description

本発明は音声認識に関し、特に、表音に基づく音声認識のためのシステム及び方法に関する。
自動音声認識を実行するための従来のシステム及び方法の1つが図1に示される。
入力音声が、入力された音声をデジタル信号に変換するために、マイクロホン(図1のモジュール1)で電気信号に変換されて、アナログ−デジタル変換器(モジュール2)に送られる。例として、アナログ−デジタル変換器モジュール2は10kHzのサンプリングレートで動作し、16ビットの数値精度を有する。市販のほとんどのパーソナルコンピュータ(PC)はそのようなアナログーデジタル変換器を備える。
別の構成において、音声信号は電話回線またはその他の通信システム(例えばLANまたはWAN)を通じて送信することができ、あるいは記録装置によって供給することができよう。
デジタル化された音声信号は次いで、音響特性を生成するスペクトルアナライザ(モジュール3)に供給される。例えば、スペクトルアナライザモジュール3は10ミリ秒または20ミリ秒毎に1つのレートで音響特性を生成する。音響特性のセットは、例えば、音声認識技術の当業者に知られているように、第1の13個のケプストラム係数並びにこれらのケプストラム係数の時間に関する一次微分係数及び二次微分係数からなる。
音響特性のシーケンスは次いで表音デコーダ(モジュール4)への入力を形成し、表音デコーダモジュール4はこの入力と複数の表音単位を表す1組のモデルとを突合わせ、よって、このプロセスは最終的に認識されることになる単語とは無関係である。表音デコーダモジュール4を構成する表音単位は、言語の音素、すなわち単子音及び単母音、にほぼ対応していると言って差し支えない。いくつかの、または全ての母音の異なる強勢レベルに対して別々の音標が用いられることもある。
公開ツールキットHTKを、例えば、表音デコーダを構成し、トレーニング発声のコーパスに必要なモデルを構築するために用いることができる。このツールキットはインターネットアドレス‘http://htk.eng.cam.ac.uk’からインターネットを通じて入手することができ、このアドレスは非特許文献1へのアクセスも提供する。HTKは適したスペクトルアナライザの例も提供する。
表音デコーダモジュール4の出力は音素様単位のシーケンスである。いくつかのタイプの表音デコーダについては、出力は単シーケンスではなく表音単位のマトリックスに対応するが、簡単のため、以降の説明では単シーケンスを想定する。音声認識に内在する困難さのため、表音シーケンスは通常、入力の正確な表音のコピーではなく、そのようなコピーを大雑把に近似する、誤りを含むシーケンスである。
図1において、話者はマイクロホン1に‘James Smith’と発声するが、表音デコーダモジュール4は結果的に(正しい表音参照/jh ey m z s m ih th/と比較して)誤りを含むシーケンス/ch ey m s n ih/に対応する出力を行っている。
発声に対応する単語または単語シーケンスを判断するため、字解器(モジュール5)において、表音デコーダモジュール4からの表音シーケンス出力と入力の可能な字解に対応する参照表音シーケンスのセットとが突き合わされる。既知の選択発音を受け入れるために、1つより多くの参照表音シーケンスを使って、特定の単語または単語シーケンスを表すこともできる。次に図2に移れば、字解器モジュール5は表音デコーダモジュール4から出力される表音単位シーケンス210を受け取る。字解器モジュール5は、表音デコーダモジュール4の出力と参照リスト230から得られるような参照発音とを突き合わせる突合わせユニット220も備える。参照リスト230は対応する字解を含む可能な音声入力の参照発音のリストを収める。突合わせユニット220は突合わせ判断に際して突合わせしコストマトリックス240からの情報も利用する。突合わせユニット220は字解出力250を出力し、字解出力250は、ユーザに表示するためにディスプレイモニタモジュール6に供給される。
字解器で実施される突合わせプロセスは、表音認識器モジュール4の出力と、話者が紡ごうとした語彙シーケンスに最も密に対応する参照シーケンスの間の相違を許容しなければならない。これらの相違には、(図1の表音デコーダモジュール4に相当する)表音認識器の確度において予期されていない発音の変異または脱落を含む、様々な原因があり得る。これらの相違は、対応する参照シーケンスに関する表音認識器からの出力において、表音単位の挿入、脱落または置換という形で現れ得る。
そのような相違に出会うと、有効な突合わせプロセスはそれぞれの表音単位の挿入及び脱落の確率並びに(表音認識器で生成される表音単位と対応する参照単位が同じである確率を含む)それぞれの表音単位対間の置換の確率の推定値を利用する。次いで、ダイナミックプログラミング(DP)文字列突合わせしプロセスを用いて全ての参照シーケンスに対して一致評点を得ることができ、次いで評点が最も高い一致を選択することができる。そのようなダイナミックプログラミング文字列突合わせプロセスの1つが非特許文献2に収められた非特許文献3に説明されている。
上記確率の逆対数は突合わせプロセスにおけるコストとして現れ、コストマトリックスで表される。挿入、脱落及び置換の必要な確率は、上述した突合わせプロセスを用いることにより、対応する表音参照シーケンスが分かっている、字解的にコピーされたトレーニング資料から反復推定することができる。
例えば、認識のためのシステムで用いたいトレーニング資料と同様の発声を含むが、正確な正書法発音表記が知られている、トレーニング資料のコーパスをとることができる。この場合、それぞれの発声に対応する認識音標のシーケンスを生成するために表音デコーダが用いられ、それぞれのデコーダシーケンスが対応する参照シーケンスに対して突き合わされる。参照シーケンスに出現するそれぞれの種類の音標に対して、突合わせプロセスがデコーダシーケンスのそれぞれを参照シーケンスにリンクする回数にしたがって判断がなされる。すべてのデコーダ音標が各参照音標に割り当てられない回数及び各デコーダ音標がいずれかの参照音標に割り当てられない回数をカウントすることもできる。これらのカウント値は、確率の対数をとることによりペナルティ値に変換される、割当確率及び脱落確率を計算するために必要な情報を提供する。
ペナルティ値を得るために必要な確率を導くアラインメントを生成するために用いられる突合わせ器には動作のためにペナルティ値セットが必要である。この点に関し、最善推定ペナルティ値の精度を反復して高めることができる。例として、それぞれのデコーダ音標が同じ音素に対応する参照音標のセットと確率P1で関係付けられ、デコーダ音標と参照音標の間の他の全ての関連の確率はP1より低いP2である、非常に単純なペナルティ値セットから手順が開始される。両セットの全ての音標において、P2と同じとすることができるであろう確率P3で脱落が可能であると仮定される。
P1に対する妥当な初期値を0.6とすることができよう。確率の総和は1でなければならないから、P3=P2であるとすれば、P2は0.4をデコード音標の個数(N)で割った値となる。これは、値0.6がデコーダ音標の1つに対応し、したがって、残りの音標数(N−1)+脱落(1)の確率で割ることになるからである。
原則として、ダイナミックプログラミング文字列突合わせプロセスにより、音声入力が参照リストのそれぞれのシーケンスに対応する尤度推定値の完全なリストを提供できる。これは、デコーダによって生成されるいずれの音標もあるペナルティコストで参照セットのいずれかの音標と関連付けることができ、参照シーケンス及びデコーダシーケンスの両者のいずれの音標もあるペナルティコストで無視(すなわち、脱落)することが可能だからである。DP突合わせプロセスは、いかなる与えられたデコーダシーケンスについても、いかなる単一の与えられた参照シーケンスについても、どの音標を無視すべきでありどの音標を関連付けるべきであるかを選んで、2つのシーケンスをリンクさせるに必要な最小総ペナルティコストを見いだす。このプロセスにおける主要な拘束は、シーケンスのそれぞれにおける音標の順序を変更できないことだけである。
抽象的な例として、表音デコーダの出力がシーケンスABであるとし、これが参照シーケンスCDと比較されるとする。1つの可能なアラインメントは、AをCと関連付け、BをDと関連付ける。あるいは、これらの2つの関連付けのペナルティ値は大きいが、BをCと関連付けるペナルティ値が小さければ、総ペナルティ値が最小の関連付けは、A及びDをある脱落コストで脱落させ、Bをある小さい関連付けコストでCと関連付けることであることがわかる。DP突合わせで許されないのは、BがCと関連付けられ且つAがDと関連付けられるような並べ替えである(逆進方向に実行するため、これには時間が必要であろう)。
図1に示される発声‘James Smith’を用いて、比較プロセスがどのようにはたらき得るかを示すための一例の説明が以下に与えられる。別の実施形態に関する上述した表記においてJames Smithに対応する参照シーケンスは、
/JH EY M Z S M IH1 TH/
である。
次に、表記:
/JH EY N S M AY DH/
で与えられるであろう、‘Jane Smythe’に対応する、別の、同様な参照シーケンスがあると仮定する。
表音デコーダ4からのもっともらしい出力は、
/CH EY N S N IH TH S/
であり得る。
以下に与えられる表1及び2は、DP突合わせ器が、この代表例において、2つの名前の表音デコーダ出力のペナルティコストが最小のアラインメントとして何を見いだし得るかを示す。
Figure 0005014785
Figure 0005014785
列1において、デコーダ音標/CH/は両方の突合わせにおいて参照音標/JH/に関連付けられる。音素/CH/及び/JH/は音響的にかなり似ており、したがってペナルティ値は大きくないであろうし、いずれにしても両アラインメントに等しく適用される。列2のアラインメントも、音素を同じ音素と関連付けるから、小さいペナルティ値を有するであろう。ペナルティ値は、対数確率に対応し、正しく認識されているいかなる音素の確率も100%ではないから、実際上ペナルティ値はゼロではないであろう。列3において、デコーダ音標/N/はJames Smithの場合は/M/に関連付けられ、Jane Smytheの場合は/N/に関連付けられる。この場合、多くはないが/M/と/N/は混同されやすいので、Jane Smythe仮説はより小さいペナルティ値を受ける。列4において、James Smith仮説は、デコーダが/Z/を検出できなかったと仮定しなければならないためにペナルティ値を受ける(これは、/S/が後続しているこの状況では実際上非常におこり易いが、DPは状況について知ることがなく、標準の脱落ペナルティ値を適用する)。Jane Smythe仮説の場合、列4は単にスペース維持欄であり、いかなるペナルティ値も受けない。列5及び6は飛ばして、列7においてデコーダシーケンスの母音/IH/は、James Smith参照シーケンスの一致している母音である/IH/と突き合わされ、Jane Smythe参照シーケンスの異なる母音である/AY/と突き合わされる。/IH/を/AY/と関連付けるために払われるペナルティ値は、2つの母音が音響的に極めて異なっているから、大きくなりそうである。これは、Jane Smythe仮説が他の全ての個所において同じかまたはより良い評点をつけるとしても、それにもかかわらずJames Smith仮説がより高い総評点を得ることを十分に意味し得る。列8は列3と同様である。最後に、列9が示しているのは、発声の終わりに少量の雑音があるときにしばしば発生するもので、デコーダによって無声摩擦音と誤解釈される。いずれの仮説もこれを無視するためには脱落ペナルティ値を払わなければならない。
通常、一致度の最も高い単一の予想単語シーケンスが字解器モジュール5によって選択されるであろう。いくつかの別の構成において、上位N個の一致する発声を選択することができ、ここでNはあらかじめ定められた整数であるかまたは一致の相対品質に関する規準に基づく。簡単のため、以下では、一致度の最も高い単一の予想単語の出力ついてのみ考察する。例として、字解器モジュール5の出力はASCII文字としての単語に対応する。
用途に応じて、字解は、単に(例えばPCのモニタにより)視覚表示してもよいし、またはテキスト−音声合成器を用いて音声に再び変換してもよい。あるいは、(例えばデータベースから得られる)関連情報を調べるために用いてもよいし、または何か別の作業を制御するために用いてもよい。図1に示される構成において、発声は‘James Smith’という名前であり、出力はその名前を(‘James Smith’を電話番号613-929-1234と関係付けるデータベースから得られるような)対応電話番号とともに含む。2つの情報はディスプレイモニタ(モジュール6)に送られる。
図1のモジュール3,4及び5は汎用コンピュータのプログラムとして実現できる。
図1に示されるシステムはうまくはたらくことができるが、偶因エラーはあらゆる音声認識システムにおこる。エラーレートは、語彙の大きさ及び混同し易さ、音響信号の品質等の要因によって増加する。このため、難易度の高いある種の用途では音声認識システムが実用不能になり得る。さらに、音声認識システムを、より小規模で、より低コストの処理ハードウエア上でさらに迅速に応答または機能させるかあるいは応答及び機能させることが常に望ましい。
エス・ジェイ・ヤング(S. J. Young)等,「HTKブック(The HTK Book)」 「タイムワープ、文字列編集及びマクロモレキュール:シーケンス比較の理論及び実際(Time Warps, String Edits and Macromolecules: the Theory and Practice of Sequence Comparison)」,1983年,アディソン−ウェズリー(Addison Wesley) ジェイ・ビー・クラスカル(J. B. Kruskal),「シーケンス比較概説(An Overview of Sequence Comparison)」
本発明の課題は、図1に示される構成と同様の構成を有するシステムの確度を高めて計算負荷を軽減し、それによってレスポンスを高速化したり、処理能力がさほど強力でないハードウェアを使用できるようにすることにある。
本発明の一実施形態にしたがえば、音響入力を受け取る工程、音響入力をデジタル信号に変換する工程、音響特性を得るためにデジタル信号にスペクトル分析を施す工程、デジタル信号の音響特性から表音シーケンスを得る工程及び表音シーケンスに最もよく一致する表音参照を得るために字解を実施する工程を含み、字解を実施する工程中に得られる表音参照における表音単位のセットがデジタル信号の音響特性から表音シーケンスを得る工程で生成され得る表音単位のセットと異なる、音声認識方法が提供される。
本発明の別の実施形態にしたがえば、表音認識器による表音シーケンス出力を受け取る工程を含む音声認識方法が提供される。本方法は、表音シーケンスを、参照リストに格納された複数の参照音素シーケンスの内の、表音シーケンスに最もぴったり合った1つと突き合わせる工程も含む。参照リストに格納された複数の参照音素シーケンスの内の少なくとも1つは表音認識器によって出力され得る表音シーケンスとは異なる。
本発明のまた別の実施形態にしたがえば、表音認識器によって出力される表音シーケンスを受け取るように構成された入力ユニットを備える音声認識装置が提供される。本音声認識装置は複数の参照音素シーケンスを格納するように構成された参照リストも備える。この音声認識装置はさらに入力ユニットで受け取られる表音シーケンスを、参照リストに格納された複数の参照音素シーケンスの内の、表音シーケンスと最もぴったり合った1つと突き合わせるように構成された突合わせユニットを備える。参照リストに格納された複数の参照音素シーケンスの内の少なくとも1つは表音認識器によって出力され得る表音シーケンスと異なる。
本発明の上述の利点及び特徴は以下の詳細な説明及び添付図面を参照すれば明らかになるであろう。
図面を参照して本発明を以下に説明する。これらの図面は本発明のシステム及び方法及びプログラムを実施する特定の実施形態のいくつかの詳細を示す。しかし、図面による本発明の説明が、図面に存在し得るいずれかの限定を本発明に課すものと解されるべきではない。本発明には、本発明の動作を達成するための方法、システム及びいずれかのコンピュータ読取可能媒体上のプログラム製品が想定されている。本発明の実施形態は、既存のコンピュータプロセッサを用いて、あるいは上記または別の目的のために導入された専用コンピュータプロセッサによって、またはハードワイヤードシステムによって実施することができる。
上述したように、本発明の範囲内の実施形態はコンピュータ実行可能な命令またはデータ構造を搬送するかまたは格納するためのコンピュータ読取可能媒体を含むプログラム製品を含む。そのようなコンピュータ読取可能媒体は、汎用コンピュータまたは専用コンピュータがアクセスできる利用可能媒体であれば、どのような媒体とすることもできる。例として、そのようなコンピュータ読取可能媒体には、RAM,ROM,EPROM,EEPROM,CD−ROMまたはその他の光ディスク記憶装置,磁気ディスク記憶装置またはその他の磁気記憶装置,あるいはコンピュータ実行可能な命令またはデータ構造の形態で所望のプログラムコードを搬送または格納するために用いることができ、汎用コンピュータまたは専用コンピュータがアクセスできる、その他のいずれかの媒体があり得る。情報がネットワークまたは別の通信回線(ハードワイヤード回線、無線回線、またはハードワイヤード回線と無線回線の組合せ)を通じてコンピュータに転送されるかまたは与えられる場合、コンピュータは適宜そのような回線をコンピュータ読取可能媒体と見なす。したがって、そのような回線はいずれもコンピュータ読取可能媒体と適宜称される。上記の組合せもコンピュータ読取可能媒体な範囲内に含まれる。コンピュータ実行可能命令は、例えば、汎用コンピュータ、専用コンピュータまたは専用処理装置にある機能または機能群を実行させる命令及びデータを含む。
本発明は、ネットワーク環境においてコンピュータによって実行される、プログラムコードのような、コンピュータ実行可能命令を含むプログラム製品により一実施形態において実施され得る方法工程の全般的状況の下に説明されるであろう。一般に、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。コンピュータ実行可能命令、関連データ構造及びプログラムモジュールは本明細書に開示される方法の工程を実行するためのプログラムコードの例を表す。そのような実行可能命令または関連データ構造の特定のシーケンスは、それぞれの工程において説明される機能を実施するための対応作業例である。
いくつかの実施形態において、本発明はプロセッサを有する1つまたはそれより多くのリモートコンピュータとの論理接続を用いるネットワーク環境で動作することができる。論理接続には、本明細書において限定ではなく例として提示される、ローカルエリアネットワーク(LAN)及び広域ネットワーク(WAN)を含めることができる。そのようなネットワーク環境はオフィス内コンピュータネットワークまたは企業内コンピュータネットワーク、イントラネット及びインターネットにおいて珍しくはない。当業者であれば、そのようなネットワークコンピューティング環境が一般に、パーソナルコンピュータ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベース家電またはプログラマブル家電、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ等を含む、多くのタイプのコンピュータシステム構成を包含することを認めるであろう。本発明は、通信ネットワークを介して(ハードワイヤードリンク、無線リンクまたはハードワイヤードリンクと無線リンクの組合せにより)リンクされるローカル処理デバイスまたはリモート処理デバイスでタスクが実行される分散型コンピューティング環境において実施することもできる。分散型コンピューティング環境では、プログラムモジュールはローカル記憶装置及びリモート記憶装置のいずれにもおくことができる。
本発明のシステム全体またはその一部を実施するための例示的システムは、処理ユニット、システムメモリ及びシステムメモリを含む様々なシステムコンポーネントを処理ユニットに接続するシステムバスを有する、通常のコンピュータの形態の汎用コンピューティング装置を備えることができよう。システムメモリには、リードオンリメモリ(ROM)及びランダムアクセスメモリ(RAM)を含めることができる。コンピュータは、磁気ハードディスクから読み出し、磁気ハードディスクに書き込むための磁気ハードディスクドライブ、リムーバブル磁気ディスクから読み出し、リムーバブル磁気ディスクに書き込むための磁気ディスクドライブ、及びCD−ROMまたはその他の光媒体のような、リムーバブル光ディスクから読み出し、リムーバブル光ディスクに書き込むための光ディスクドライブも備えることができる。これらのドライブ及び関連するコンピュータ読取可能媒体は、コンピュータ実行可能命令、データ構造、プログラムモジュール及びコンピュータのためのその他のデータの不揮発性記憶を提供する。
以下の述語は本発明の説明に用いられ、新しい述語及び特定の意味が与えられる述語を含み得る。
「言語要素」は文字言語または音声言語の単位である。
「発声要素」は関連付けられる名称をもつ発声の期間である。この名称は、発声期間中に発声される、単語、音節または音素とすることができ、あるいは発声期間中に聞き取られる音のシステムラベルを表す、自動的に生成される音標のような抽象記号とすることができる。
本発明の目的のための「フレーム」は、与えられたシステムまたはサブシステムによって分析される最短時間単位である、固定または可変の時間単位である。フレームは、10ミリ秒毎に1回スペクトル信号処理を実施するシステムにおける10ミリ秒などの固定単位とすることができ、あるいは、推定ピッチ期間または音素認識器が特定の認識される音素または発音セグメントと関係付けられた期間などのデータ依存可変単位とすることができる。従来技術のシステムとは異なり、述語「フレーム」は、時間単位が固定期間であるかまたは与えられたシステムの全てのサブシステムにおいて同じフレームが用いられることを意味していないことに注意されたい。
「評点」は与えられた仮説が言声の何らかのセットにどれだけよく一致するかの数値評価である。特定の実施における約定に応じて、一致がよくなるほど高くなる(確率または確率の対数によるような)評点または低くなる(負のlog確率またはスペクトル距離によるような)評点で表すことができる。評点は正となる場合も、負となる場合もある。評点は、センテンス内の単語シーケンスの「先験的」確率など、与えられた仮説に関連付けられる言語要素シーケンスの相対尤度の尺度を含むこともできる。
「ダイナミックプログラミング一致点数評価」は、ダイナミックプログラミングを用いることによる、ネットワークまたはモデルシーケンスと音響的言声シーケンスの間の一致の程度を計算するプロセスである。ダイナミックプログラミング突合わせプロセスは、2つの音響的言声シーケンスの突合わせを行うかまたは時間的アラインメントをとるため、または2つのモデルまたはネットワークの突合わせを行うために用いることもできる。ダイナミックプログラミングコンピューティングは、例えば、ネットワークを通る最善評価経路を見いだすため、またはネットワークを通る全ての経路の確率の総和を求めるために用いることができる。述語「ダイナミックプログラミング」の従来の用法が変わる。「ダイナミックプログラミング」は「最善経路突合わせ」を意味するために特に用いられることがあるが、本特許の目的のための用法は、「最善経路突合わせ」、「経路総和」突合わせ及びこれらの近似を含む、関連コンピューティング法のより広いクラスを網羅する。音響的言声シーケンスに対するモデルの時間アラインメントは一般に一致評点のダイナミックプログラミングコンピューティングの副次効果として利用できる。ダイナミックプログラミングは(モデルと言声シーケンスの間ではなく)2つのモデルまたはネットワーク間の一致の程度を計算するために用いることもできる。スペクトル距離のような、モデルのセットに基づかない距離尺度が与えられれば、ダイナミックプログラミングは発声要素の2つの事例の突合わせを行い、直接に時間アラインメントをとるために用いることもできる。
「センテンス」は検索または仮説評価のための完全な一単位として扱われる発声期間または発声要素シーケンスである。一般に、発声は沈黙期間などの音響的規準を用いてセンテンス長単位に分割されるであろう。しかし、センテンスは中間沈黙期間を含む場合があり、他方で、沈黙期間がない場合であっても、文法的規準によってセンテンス単位に分割することができる。述語「センテンス」は、発声が、データベース入力のように、文法的センテンス形態をとり得ないか、または、通常のセンテンスより短いフレーズなどの要素を完全単位としてシステムが分析している状況における、検索または仮説評価のための完全単位を称するためにも用いられる。
「音素」は音声言語における音の単一単位であり、文字言語の一文字に概ね対応する。
「音標」は、特定の発声期間中に出現する音に関する音声認識システムの選択を示す、音声認識システムによって生成されるラベルである。可能な音標のアルファベットは音素のアルファベットと同じであるように選ばれることが多いが、それらが同じでなければならないという要請はない。いくつかのシステムは、一方で「音素」と「音標」を弁別し、他方で「単音」と「音標」を弁別することができる。厳密にいえば、音素は言語の抽象的概念である。辞書からとられるような、単語がどのように発音されるはずであるかを表す音標は「音素」ラベルである。単語の特定の事例が特定の話者によってどのように発声されるかを表す音標は「表音」ラベルである。しかし、これらの2つの概念は混同され、いくつかのシステムはこれらを弁別しない。
「スポッティング」は、隣接発声要素の内の1つまたはそれより多くを必ずしも初めに認識せずに、(1つまたはそれより多くの)発声要素に対する(1つまたはそれより多くの)モデルと発声期間における音響的言声の間の良好な一致の事例を直接検出することにより発声要素または発声要素シーケンスの事例を検出するプロセスである。
「モデリング」は、一般には与えられた発声要素に対するモデルのセットが与えられた言声をどのように生成し得たかを計算することにより、与えられた発声要素シーケンスがどれだけよく与えられた言声のセットに一致するかを評価するプロセスである。確率モデリングにおいて、モデルの確率値によって特定されるランダムプロセスにおける与えられた言声セットを生成する与えられた要素シーケンスの確率を評価することにより、仮説の評点が計算され得るであろう。ニューラルネットワークのなど、その他の形態のモデルは、モデルを確率解釈と陽に関係付けることなく一致評点を直接計算することができ、あるいは関連付けられた生成確率過程を表すことなく「事後」確率分布を経験的に評価することができる。
「トレーニング」は、要素の同定が既知であるかまたは既知であると想定される試料セットからのモデルのパラメータまたは十分な統計を評価するプロセスである。音響的モデルの管理下トレーニングにおいては、発声要素シーケンスのコピーが既知であるかまたは話者が既知の台本を声を出して拾い読みしている。非管理下トレーニングにおいては、既知の台本または校合されない認識から利用できる以外のコピーはない。半管理下トレーニングの一形態においては、ユーザがコピーを陽に校合しておくことはできないが、そうする機会が与えられた場合には、いかなるエラー訂正も行わないことで陰にそうしておくことができる。
「音響的モデル」は、発声要素シーケンスが与えられた場合に、音響的言声シーケンスを生成するためのモデルである。音響的モデルは、例えば、隠された確率過程のモデルとすることができる。隠された確率過程は発声要素シーケンスを生成し、それぞれの発声要素に対してゼロまたはそれより多くの音響的言声のシーケンスを生成するであろう。音響的言声は、周波数及び時間の関数としての振幅のような、音響波形から導かれる(連続)物理的尺度とすることができ、あるいは音声圧縮に用いられるようなベクトル量子化器でつくられるかまたは表音認識器の出力のような、離散有限ラベルセットの言声とすることができる。連続物理的尺度は一般にガウス型分布または混合ガウス型分布のような何らかのパラメトリック確率分布の形態によってモデル化されるであろう。それぞれのガウス型分布はそれぞれの言声測定値の平均及び共変行列によって特徴付けられるであろう。共変行列が対角行列であるとすれば、多分散ガウス型分布はそれぞれの言声測定値の平均及び分散によって特徴付けられるであろう。有限ラベルセットからの言声は一般に非パラメトリック離散確率分布としてモデル化されるであろう。しかし、別の形態の音響的モデルを用いることができるであろう。例えば、「事後」確率評点を近似するためにトレーニングが行われているかまたはいない、ニューラルネットワークを用いて総一致評点を計算することができるであろう。あるいは、確率モデルを下敷きにせずにスペクトル距離測定値を用いることができ、あるいは確率評価ではなくファジー論理を用いることができるであろう。
「言語モデル」は、文法に、または特定の発声要素に対して文脈のゼロまたはそれより多くの言語要素の値が与えられた場合の特定の言語要素の確率に対する統計モデルにかけられる言語要素シーケンスを生成するためのモデルである。
「汎言語モデル」は、純統計言語モデル、すなわち文法を明示的に含まない言語モデルであるか、または文法を明示的に含み、統計成分も有することができる、文法ベース言語モデルであり得る。
「文法」はどの単語シーケンスまたはセンテンスが正当な(すなわち文法的な)単語シーケンスであるかの公式指定である。文法指定の実施には多くの手段がある。文法を指定するための一手段は、言語学で、及びコンピュータ言語のためのコンパイラの作成者に、良く知られた形態の書換規則のセットを用いることである。文法を指定するための別の手段は、状態空間またはネットワークとしての手段である。状態空間のそれぞれの状態またはネットワークのノードに対し、ある単語または言語要素だけがシーケンスの次の言語要素となることができる。そのような単語または言語要素のそれぞれに対し、(例えばアークの終端におけるノードに続くアークによって)次の単語の終端におけるシステムの状態がどのようになるかに関しての(例えばネットワークのラベル付アークによる)指定がある。文法表現の第3の形態は全ての正当なセンテンスのデータベースとしての表現である。
「確率文法」は言語要素のそれぞれの正当なシーケンスの確率のモデルも含む文法である。
「純統計言語モデル」は文法成分を有していない統計言語モデルである。純統計言語モデルにおいては一般に、全ての可能な言語要素シーケンスがゼロではない確率を有するであろう。
「エントロピー」は確率分布における情報量または関連付けられるランダム変数の情報理論上の尺度である。エントロピーは一般に式:
Figure 0005014785
で与えられる。ここで対数の底は2であり、エントロピーの測定単位はビットである。
分類システムにおける「分類作業」は目標とするクラスのセットの分割である。
図1に示されるシステムにおいては、表音認識器(図1のモジュール4)で生成される音標セットと(図1の字解器モジュール5によって利用されるような)参照セットとして用いられる音標セットの間に1対1の対応がある。しかし、図2に示されるような従来の字解器モジュール5の代わりに、本明細書に説明される本発明の第1の実施形態にしたがう、図3に示されるような字解器モジュール5'を用いれば、そのような1対1の対応はない。
図3に示されるように、字解器モジュール5'は表音デコーダモジュール4(図1参照)から出力される表音単位シーケンス210を受け取る。字解器モジュール5'は表音デコーダモジュール4の出力と参照リスト330から得られるような参照発音を突き合わせる突合わせユニット320も備える。第1の実施形態において、参照リスト330は可能な口語入力の参照発音のリストを対応する字解とともに含み、(図2に示される参照リスト230には含まれていない)付加情報も含む。突合わせユニット320は突合わせ判断を行う際に突合わせコストマトリックス340からの情報も利用し、突合わせコストマトリックス340は図2に示されるような突合わせコストマトリックス240には与えられていない付加情報を含む。突合わせユニット320は、ユーザへの表示のためにディスプレイモニタモジュール6(図1参照)に与えられる、字解出力250を出力する。
参照リスト330及び突合わせコストマトリックス340への特定の参照によれば、アメリカ英語及びその他の言語の単語の母音は強勢の置き方が異なり得る。例えば、名詞‘permit’では強勢が第1母音に置かれ、第2母音には強勢が置かれないが、動詞‘permit’の母音には強勢が逆に置かれる。通常、単語の強勢パターンを表すには2つまたは3つの強勢レベルが用いられる。3レベルの場合、強勢は通常、「第1強勢」、「第2強勢」及び「無強勢」とラベル付けされる。
表音認識器を備える発声認識器は一般に、全ての母音単位の強勢レベルを弁別しようとはしない。これは、ある状況においては母音の強勢レベルを確実に同定することが困難であるからである。強勢は主として母音の相対ラウドネス、相対持続時間及び相対ピッチと相関し、これらの全ては発音同定のために用いられるスペクトルの一般的形状より決定がさらに困難であり得る。
第1の実施形態においては、複数の強勢レベルが(参照リスト330に格納されるような)音素の参照表示に用いられる付加情報として与えられ、最善の一致を決定するために字解器モジュール5'によって利用される突合わせコストマトリックス340における付加情報としても現れる。一実施形態にしたがえば、突合わせコストマトリックス340は発音解釈間の混同の確率をコード化し、母音の場合、混同確率は強勢レベルに依存し得る。強勢レベルが低い特定の母音は、例えば、(話者が発声しないため、または発声が短く、弱いために表音認識器モジュール4が検出できない結果となるため)明らかに脱落する確率が高くなり得る。表3に示されるように、強勢が置かれない母音は一般に対応する強勢がおかれた母音より正しく認識される確率が低い。
さらに詳しくは、表3は、本発明の第1の実施形態にしたがう字解器モジュール5'によって利用される突合わせコストマトリックス340に与えられるような、参照発音の特定の母音(行)に対応する表音デコーダモジュール4からの言声母音音標出力(列)の推定確率のセットの一例を示す。表音デコーダモジュール4からの母音音標出力には強勢レベルがないが、(参照リスト330に格納された)参照発音の音標には、第1強勢、第2強勢または無強勢を意味する数字(それぞれ、‘1’,‘2’または‘0’)が付されている。一致する母音が対応する(すなわち、母音が正しく認識される)セルは表3に太字で示される。これらの確率は、相応に信頼できる認識器について期待されるように、対応しない母音に対するセルの値より大きい。第1強勢をもつ参照母音は、対応する無強勢形態よりも高い、正認識確率を有する傾向があり、第2強勢をもつ母音は一般に中間の確率を有することに注意されたい。表3は、確率が対数確率に変換されると、第1の実施形態にしたがう字解器モジュール5'によって利用されることになる突合わせコストマトリックス340の一部を形成するために用いることができる。表3の情報は、発明者等によって実施された実験的分析評価から得られた。
Figure 0005014785
表3がどのように役立ち得るかを見るために、それぞれの発音を/AE1 K L AA0 F/及び/AA1 K L AE0 F/と表すことができる固有名詞‘Ackloff’及び‘Ocklaff’を収める参照リストを考える。(強勢レベルを弁別しようとしない)表音認識器からの出力は/AA k L AA F/であるとする。強勢を無視する従来の突合わせプロセスならば、いずれの突合わせもただ1つの置換、すなわち/AA/から/AE/への置換を要求するであろうから、出力がいずれの参照発音にも等しい確率でよく一致することを見いだしたであろう。しかし、強勢を考慮に入れれば、‘Ocklaff’では/AA/の/AE0/への置換(確率=0.0043)が必要であり、‘Ackloff’解釈では/AA/の/AE1/への置換(確率=0.0022)が必要であろうから、‘Ocklaff’がより尤度の高い解釈であることが明らかになるであろう。
次に、本発明にしたがう字解器モジュール5'の第2の実施形態を以下で詳細に説明する。発声された単語は音節に分けることができ、音節は単一の母音からなり、ゼロであるか、1つまたはそれより多くの子音がその母音の前に出現しているか(「母音直前」子音)、あるいはゼロであるか、1つまたはそれより多くの子音がその母音の後に出現している(「母音直後」子音)。刊行されている多くの辞書は、発音の表示の一部として音節分界を示している。例えば、1990年にロングマングループ英国社(Longman Group UK Ltd.)によって出版された、「ロングマン発音辞典(Longman Pronunciation Dictionary)」,p.xiv-xviの、「英語音素体系及びその表記:分綴法(The English phonemic system and its notation: Syllabification)」でジェイ・シー・ウエルズ(J. C. Wells)によって述べられているように、音節分界の正確な配置には複数の規準があり、どこに音節分界が生じるかに関する全ての場合に専門家が必ずしも合意していないことも事実である。音節分界は表音突合わせプロセスの補助に用いることができ、音節分界の使用は第2の実施形態にしたがう字解器モジュール5'によって実施されるような字解プロセスの補助のために利用される。
いくつかの子音が母音直前と母音直後では異なる形態で具現されることは知られた様相である。例えば、1998年にケクレイド(Kekrade)によって出版された、「自動音声認識のための発音変動モデル化に関するESCAワークショッププロシーディング(Proceedings of ESCA Workshop on Modeling Pronunciation Variation for Automatic Speech Recognition)」,p.47〜56の、エス・グリーンバーグ(S. Greenburg),「早口発声−発音変動を理解するための音節中心の見方(Speaking in Shorthand ■ A Syllable-Centric Perspective for Understanding Pronunciation Variation)」を参照のこと。この点に関し、破裂子音/t/は母音直後位置(例えば、‘post’, ‘lot’)においては、母音直前位置(例えば、‘stem’, ‘top’)にあるときの通常の発音よりかなり弱く発音され得る。母音直後の/t/の明確な音響的証拠がないこともある。これらの差異の結果、表音デコーダモジュール4によって生成される表音シーケンスに母音直後の/t/が見られない確率は母音直前の/t/が見られない確率よりかなり高い。そのような情報は、第2の実施形態にしたがう字解器モジュール5'によって利用される参照リスト330の参照発音リストに格納される。
第2の実施形態において、子音は(例えば1つまたは複数のASCII符号により)母音直前または母音直後にあるとして(参照リスト330に格納される)参照表音表示にマークされ、この区分は次いで、表音認識器モジュール4が同じ区分化を行おうとすることなしに、(字解器モジュール5'によって用いられるような)突合わせコストマトリックス340に現れる。
表4は、アメリカ英語において発声されない破裂子音に対する上述した様相を示す。さらに詳しくは、表4は参照発音の特定の母音(行)に対応する表音デコーダからの言声母音音標(列)の推定確率のセットの一例を与える。表音デコーダ4からの子音音標は音節内の位置に対してマークされず、参照発音における子音音標はそれぞれの子音が母音直後または母音直前にあることを示す添字(それぞれ、‘<’または‘>’)を有する。一致する子音が対応する(すなわち、子音が正しく認識される)セルが表4に太字で示される。表4の最右列は特定の母音直前または母音直後の子音が表音デコーダからの出力に全く現れないであろう場合の推定確率を示す。母音直後の発声されない破裂子音に対するそのような脱落の推定確率が対応する母音直前破裂子音に対する推定確率よりかなり高いことに注意されたい。確率を対数確率に変換すれば、表4は、第2の実施形態にしたがう字解器モジュール5'によって利用される突合わせコストマトリックス340の一部を形成するために用いることができる。表4の情報は、発明者等によって実施された実験的分析評価から得られた。
Figure 0005014785
表4がどのように役立ち得るかを見るために、それぞれの発音を/T AA1 P/及び/P AA1 T/と表すことができる項目‘top’及び‘pot’を収める参照リストを考える。(強勢レベルまたは母音直前子音と母音直後子音を弁別しようとしない)表音認識器からの出力は/P AA P/であるとする。母音直前子音と母音直後子音の間の差異を無視する従来の突合わせプロセスならば、いずれの突合わせもただ1つの置換、すなわち/P/から/T/への置換を要求するであろうから、出力がいずれの参照発音にも等しい確率でよく一致することを見いだしたであろう。しかし、母音直前子音と母音直後子音の差異を考慮すれば、‘pot’では/P/の/T</への置換(確率=0.017)が必要であり、‘top’解釈では/P/の/T>/への置換(確率=0.009)が必要であろうから、‘pot’がより尤度の高い解釈であることが明らかになるであろう。
次に、結合された表音単位及び自由に脱落し得る表音単位を利用する、本発明にしたがう字解器モジュール5’の第3の実施形態を以下で詳細に説明する。
いくつかの単語が2つまたはそれより多くの許容される発音を有し得ることは周知である。音声認識においてこれを扱う一手段においては、許容される全ての発音が参照リストの個別エントリとして入力される。図3に示される字解器モジュール5’は表音認識器モジュール4の出力/ch ey s m ih/を(参照リスト330から得られる)選択発音の全てに対して突合わせし、最善の一致がこの辞書項目に対する評点としてとられる。
第3の実施形態はある単語群が許容される発音の間で同じ種類の変化を含むという特徴を利用し、変化は1つまたはそれより多くの独立音素に局限される。例えば、‘stein’で終わる固有名詞に出現する正書シーケンス‘ei’は、(/AY/と表されることが多い)単語‘sight’に出現する母音音のように、あるいは(/IY/と表されることが多い)単語‘seed’に出現する母音音のように、発音され得る。第3の実施形態は、そのような単語の全てに対して少なくとも2つの発音をリストに載せるのではなく、いずれの母音も許容されることを意味するとして解釈される新しい音標を(図3に示されるような参照リスト330に格納される)参照発音の参照表記に導入し、この新しい音標は参照リスト330に付加情報として含められる。この音標は、例えば‘AY-IY’とすることができ、あるいは何か別の専用音標とすることができる。‘either’及び‘neither’のような、別の単語クラスに対して同じ多重音素音標を用いることもできる。
参照リストをさらにコンパクトにして、必要な格納空間をさらに小さくすることに加えて、ある多種発音のこの種の表現は突合わせプロセスに必要な計算量を低減するために用いることができる。選択発音の全ての組合せに対応する完全な単語またはフレーズを数回突合わせしなければならないのではなく、多重音素参照音標に対して突き合わせるときに、多重音素セットにおけるそれぞれの可能な音素に対して一致評点が最高の発音が用いられる、ただ一回の突合わせを実行すればよい。
それ自体、または第3の実施形態に関して説明された特徴とともに、利用され得る、本発明にしたがう字解器モジュール5'の第4の実施形態においては、それぞれの多重音素単位に対応し、個々の音素に対応するコストの最小値に対応する、特別のコストセットを突合わせコストマトリックス340に付加することによって、突合わせプロセスの効率をさらに改善することができ、この特別のコストセットは突合わせコストマトリックス340に付加情報として含められる。すなわち、上述した例において、‘stein’多重音素音標と、例えば、‘bit’に通常出現する母音の間の置換コストは、この母音と‘sight’の母音と‘seed’の母音の間の置換コストの最小値となるであろう。同様に、多重音素単位の脱落コストは‘sight’の母音及び‘seed’の母音に対する個別の脱落コストの最小値となるであろう。
第5の実施形態にしたがう字解器モジュール5'によって利用されるような別の種類の発音変化においては、音素が存在するかまたは存在しない別形があり得る。一例は‘p’が発音されるか発音されない‘exempt’に出現し、別の例は単語の終わりにある第2母音が発音されるか発音されない姓‘Dicke’に出現する。やはり、これを扱う従来手段では2つの発音がリストに載せられることになろう。第5の実施形態にしたがう字解器モジュール5'によって利用される方法は、(‘exempt’の参照発音が音標‘P-’を含むであろう場合における‘-’のような専用音標を含むように)自由に脱落可能であるとして参照リスト330に格納された参照表記において音素をマークすることである。突合わせコストマトリックス340において、この自由に脱落可能な単位の脱落コストはゼロに、または自由に脱落可能であるとマークされない対応する参照単位(例えば‘P’)に対する脱落コストより少なくともある程度低い値に設定される。
本発明の第6の実施形態においては、母音強勢情報及び母音直前/母音直後情報のいずれもが字解器モジュール5'によって用いられる。
本明細書に与えられるフローチャートは方法工程の特定の順序を示すが、これらの工程の順序が示された順序とは当然異なり得ることに注意すべきである。また、2つまたはそれより多くの工程が同時にまたは部分的に同時に実施され得る。そのような変化は選ばれるソフトウエア及びハードウエアシステムに依存し、設計者の選択に依存するであろう。そのような変化の全てが本発明の範囲内にあることは当然である。同様に、本発明のソフトウエア及びウエッブ実施は、様々なデータベース検索工程、相関工程、比較工程及び決定工程を達成するためのルールベース論理及びその他の論理による標準のプログラミング技法によって達成され得るであろう。本明細書及び特許請求の範囲に用いられる述語「モジュール」または「コンポーネント」または「ユニット」が、一行またはそれより多くの行のソフトウエアコードを用いる実施、及び/またはハードウエア実施、及び/またはマニュアル入力を受け取るための装置を包含するとされることも当然である。
本発明の上述の実施形態の説明は例示及び説明の目的のために提示された。上述の説明が網羅的であるとか、または本発明を開示された正確な形態に限定するとの意図はなく、改変及び変形が上述の教示に照らして見れば可能であるか、または本発明の実施から得ることができる。実施形態は、当業者が様々な実施形態で、及び考えられる特定の用途に適するように様々な実施形態において様々な変形によって本発明を利用できるように、本発明の原理及びその実用的適用を説明するために選ばれ、説明された。例えば、字解器モジュールは、本発明の1つまたはそれより多くの実施形態に関して上述した特徴を利用する音節レベルにおける字解を実施することができ、この場合は、(表音デコーダの代りに)音節デコーダが字解器モジュールに音節シーケンス(または音節マトリックス)を与えることになろう。
従来の音声認識装置のブロック図である 従来の字解器を構成する要素を示すブロック図である 本発明の第1の実施形態にしたがう字解器を構成する要素を示すブロック図である
符号の説明
1 マイクロホン
2 アナログ−デジタル変換器
3 スペクトルアナライザ
4 表音デコーダ
5 字解器
6 ディスプレイモニタ
210 表音単位シーケンス
220,320 突合わせユニット
230,330 参照リスト
240,340 突合わせコストマトリックス
250,350 字解出力

Claims (2)

  1. 音声認識装置において、
    表音認識器から出力される表音シーケンス出力を受け取るように構成された入力ユニット、
    複数の参照音素シーケンスを格納するように構成された参照リスト、及び
    前記入力ユニットによって受け取られた前記表音シーケンス出力を、前記参照リストに格納された前記複数の参照音素シーケンスの内の1つと突き合わせ、前記表音シーケンス出力に最も適合する参照音素シーケンスを決定するように構成された突合わせユニット、
    を備え、
    前記突き合わせユニットは、前記表音認識器から出力される表音シーケンス出力に関する付加情報を含む突合せコストマトリックスからの情報を利用することによって、前記音素シーケンス出力を前記参照リストに格納された前記複数の参照音素シーケンスの内の1つと突き合わせ
    前記表音認識器は、前記表音認識器に入力される音響的シーケンスに出現する相異なる表音強勢レベルを弁別できないことを特徴とする音声認識装置。
  2. 音声認識装置において、
    表音認識器から出力される表音シーケンス出力を受け取るように構成された入力ユニット、
    複数の参照音素シーケンスを格納するように構成された参照リスト、及び
    前記入力ユニットによって受け取られた前記表音シーケンス出力を、前記参照リストに格納された前記複数の参照音素シーケンスの内の1つと突き合わせ、前記表音シーケンス出力に最も適合する参照音素シーケンスを決定するように構成された突合わせユニット、
    を備え、
    前記突き合わせユニットは、前記表音認識器から出力される表音シーケンス出力に関する付加情報を含む突合せコストマトリックスからの情報を利用することによって、前記音素シーケンス出力を前記参照リストに格納された前記複数の参照音素シーケンスの内の1つと突き合わせ
    前記表音認識器は、前記表音認識器に入力される音響的シーケンス入力に出現する母音直後子音と母音直前子音を弁別できないことを特徴とする音声認識装置。
JP2006509541A 2003-03-31 2004-03-31 表音ベース音声認識システム及び方法 Expired - Fee Related JP5014785B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/401,572 US7146319B2 (en) 2003-03-31 2003-03-31 Phonetically based speech recognition system and method
US10/401,572 2003-03-31
PCT/US2004/009929 WO2004090866A2 (en) 2003-03-31 2004-03-31 Phonetically based speech recognition system and method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012039034A Division JP2012137776A (ja) 2003-03-31 2012-02-24 音声認識装置

Publications (3)

Publication Number Publication Date
JP2006522370A JP2006522370A (ja) 2006-09-28
JP2006522370A5 JP2006522370A5 (ja) 2007-05-31
JP5014785B2 true JP5014785B2 (ja) 2012-08-29

Family

ID=32989483

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2006509541A Expired - Fee Related JP5014785B2 (ja) 2003-03-31 2004-03-31 表音ベース音声認識システム及び方法
JP2012039034A Ceased JP2012137776A (ja) 2003-03-31 2012-02-24 音声認識装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2012039034A Ceased JP2012137776A (ja) 2003-03-31 2012-02-24 音声認識装置

Country Status (7)

Country Link
US (1) US7146319B2 (ja)
EP (1) EP1629464B1 (ja)
JP (2) JP5014785B2 (ja)
KR (1) KR101056080B1 (ja)
AT (1) ATE405919T1 (ja)
DE (1) DE602004015973D1 (ja)
WO (1) WO2004090866A2 (ja)

Families Citing this family (175)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US8321427B2 (en) 2002-10-31 2012-11-27 Promptu Systems Corporation Method and apparatus for generation and augmentation of search terms from external and internal sources
KR100554442B1 (ko) * 2003-10-06 2006-02-22 주식회사 팬택앤큐리텔 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
US7624013B2 (en) * 2004-09-10 2009-11-24 Scientific Learning Corporation Word competition models in voice recognition
DE602005012596D1 (de) * 2004-10-19 2009-03-19 France Telecom Spracherkennungsverfahren mit temporaler markereinfügung und entsprechendes system
US20060136195A1 (en) * 2004-12-22 2006-06-22 International Business Machines Corporation Text grouping for disambiguation in a speech application
ES2237345B1 (es) * 2005-02-28 2006-06-16 Prous Institute For Biomedical Research S.A. Procedimiento de conversion de fonemas a texto escrito y sistema informatico y programa informatico correspondientes.
WO2006127504A2 (en) * 2005-05-20 2006-11-30 Sony Computer Entertainment Inc. Optimisation of a grammar for speech recognition
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) * 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7707032B2 (en) * 2005-10-20 2010-04-27 National Cheng Kung University Method and system for matching speech data
WO2007052281A1 (en) * 2005-10-31 2007-05-10 Hewlett-Packard Development Company, L.P. Method and system for selection of text for editing
US7664643B2 (en) * 2006-08-25 2010-02-16 International Business Machines Corporation System and method for speech separation and multi-talker speech recognition
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008036379A2 (en) * 2006-09-21 2008-03-27 Activx Biosciences, Inc. Serine hydrolase inhibitors
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US20080154608A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. On a mobile device tracking use of search results delivered to the mobile device
US20080154870A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Collection and use of side information in voice-mediated mobile search
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
US20080154612A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Local storage and use of search results for voice-enabled mobile communications devices
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8015008B2 (en) * 2007-10-31 2011-09-06 At&T Intellectual Property I, L.P. System and method of using acoustic models for automatic speech recognition which distinguish pre- and post-vocalic consonants
US8024191B2 (en) * 2007-10-31 2011-09-20 At&T Intellectual Property Ii, L.P. System and method of word lattice augmentation using a pre/post vocalic consonant distinction
US7788095B2 (en) * 2007-11-18 2010-08-31 Nice Systems, Ltd. Method and apparatus for fast search in call-center monitoring
US20090132237A1 (en) * 2007-11-19 2009-05-21 L N T S - Linguistech Solution Ltd Orthogonal classification of words in multichannel speech recognizers
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US9077933B2 (en) 2008-05-14 2015-07-07 At&T Intellectual Property I, L.P. Methods and apparatus to generate relevance rankings for use by a program selector of a media presentation system
US9202460B2 (en) * 2008-05-14 2015-12-01 At&T Intellectual Property I, Lp Methods and apparatus to generate a speech recognition library
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8775184B2 (en) * 2009-01-16 2014-07-08 International Business Machines Corporation Evaluating spoken skills
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110004473A1 (en) * 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110238412A1 (en) * 2010-03-26 2011-09-29 Antoine Ezzat Method for Constructing Pronunciation Dictionaries
US8560318B2 (en) * 2010-05-14 2013-10-15 Sony Computer Entertainment Inc. Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event
ES2540995T3 (es) * 2010-08-24 2015-07-15 Veovox Sa Sistema y método para reconocer un comando de voz de usuario en un entorno con ruido
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9224386B1 (en) * 2012-06-22 2015-12-29 Amazon Technologies, Inc. Discriminative language model training using a confusion matrix
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9292487B1 (en) 2012-08-16 2016-03-22 Amazon Technologies, Inc. Discriminative language model pruning
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US20140122076A1 (en) * 2012-10-26 2014-05-01 Gammill, Inc. Voice Command System for Stitchers
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US9302393B1 (en) * 2014-04-15 2016-04-05 Alan Rosen Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes
US9640186B2 (en) 2014-05-02 2017-05-02 International Business Machines Corporation Deep scattering spectrum in acoustic modeling for speech recognition
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
KR102117082B1 (ko) * 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
FR3041140B1 (fr) * 2015-09-15 2017-10-20 Dassault Aviat Reconnaissance vocale automatique avec detection d'au moins un element contextuel, et application au pilotage et a la maintenance d'un aeronef
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) * 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US11043213B2 (en) * 2018-12-07 2021-06-22 Soundhound, Inc. System and method for detection and correction of incorrectly pronounced words
US11544458B2 (en) * 2020-01-17 2023-01-03 Apple Inc. Automatic grammar detection and correction
TWI752437B (zh) * 2020-03-13 2022-01-11 宇康生科股份有限公司 基於至少雙音素的語音輸入操作方法及電腦程式產品
US12080275B2 (en) * 2020-04-02 2024-09-03 SoundHound AI IP, LLC. Automatic learning of entities, words, pronunciations, and parts of speech
CN111798868B (zh) * 2020-09-07 2020-12-08 北京世纪好未来教育科技有限公司 语音强制对齐模型评价方法、装置、电子设备及存储介质
TWI759003B (zh) * 2020-12-10 2022-03-21 國立成功大學 語音辨識模型的訓練方法
CN112967538B (zh) * 2021-03-01 2023-09-15 郑州铁路职业技术学院 一种英语发音信息采集系统
CN113409809B (zh) * 2021-07-07 2023-04-07 上海新氦类脑智能科技有限公司 语音降噪方法、装置及设备

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5872995A (ja) * 1981-10-28 1983-05-02 電子計算機基本技術研究組合 単語音声認識方法
JPS58130396A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
US4748670A (en) * 1985-05-29 1988-05-31 International Business Machines Corporation Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5208897A (en) * 1990-08-21 1993-05-04 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5465318A (en) * 1991-03-28 1995-11-07 Kurzweil Applied Intelligence, Inc. Method for generating a speech recognition model for a non-vocabulary utterance
US5222190A (en) * 1991-06-11 1993-06-22 Texas Instruments Incorporated Apparatus and method for identifying a speech pattern
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
US5909666A (en) * 1992-11-13 1999-06-01 Dragon Systems, Inc. Speech recognition system which creates acoustic models by concatenating acoustic models of individual words
JPH06348291A (ja) * 1993-06-10 1994-12-22 Nippondenso Co Ltd 単語音声認識方法
JP3311460B2 (ja) * 1994-01-28 2002-08-05 富士通株式会社 音声認識装置
DE19501599C1 (de) * 1995-01-20 1996-05-02 Daimler Benz Ag Verfahren zur Spracherkennung
AU5738296A (en) * 1995-05-26 1996-12-11 Applied Language Technologies Method and apparatus for dynamic adaptation of a large vocab ulary speech recognition system and for use of constraints f rom a database in a large vocabulary speech recognition syst em
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5822730A (en) * 1996-08-22 1998-10-13 Dragon Systems, Inc. Lexical tree pre-filtering in speech recognition
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
US6253178B1 (en) * 1997-09-22 2001-06-26 Nortel Networks Limited Search and rescoring method for a speech recognition system
KR100509797B1 (ko) * 1998-04-29 2005-08-23 마쯔시다덴기산교 가부시키가이샤 결정 트리에 의한 스펠형 문자의 복합 발음 발생과 스코어를위한 장치 및 방법
US6684185B1 (en) * 1998-09-04 2004-01-27 Matsushita Electric Industrial Co., Ltd. Small footprint language and vocabulary independent word recognizer using registration by word spelling
US6343270B1 (en) * 1998-12-09 2002-01-29 International Business Machines Corporation Method for increasing dialect precision and usability in speech recognition and text-to-speech systems
US6208968B1 (en) * 1998-12-16 2001-03-27 Compaq Computer Corporation Computer method and apparatus for text-to-speech synthesizer dictionary reduction
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
US6963832B2 (en) * 2001-10-09 2005-11-08 Hewlett-Packard Development Company, L.P. Meaning token dictionary for automatic speech recognition
JP2004053871A (ja) * 2002-07-19 2004-02-19 Hitachi Medical Corp 音声認識システム

Also Published As

Publication number Publication date
KR20060052663A (ko) 2006-05-19
JP2006522370A (ja) 2006-09-28
EP1629464B1 (en) 2008-08-20
ATE405919T1 (de) 2008-09-15
US20040193408A1 (en) 2004-09-30
JP2012137776A (ja) 2012-07-19
WO2004090866A3 (en) 2006-04-06
EP1629464A4 (en) 2007-01-17
US7146319B2 (en) 2006-12-05
DE602004015973D1 (de) 2008-10-02
EP1629464A2 (en) 2006-03-01
WO2004090866A2 (en) 2004-10-21
KR101056080B1 (ko) 2011-08-11

Similar Documents

Publication Publication Date Title
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US6934683B2 (en) Disambiguation language model
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
Kumar et al. A large-vocabulary continuous speech recognition system for Hindi
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
Kirchhoff et al. Novel speech recognition models for Arabic
Menacer et al. An enhanced automatic speech recognition system for Arabic
Shivakumar et al. Kannada speech to text conversion using CMU Sphinx
US6963832B2 (en) Meaning token dictionary for automatic speech recognition
Kipyatkova et al. Analysis of long-distance word dependencies and pronunciation variability at conversational Russian speech recognition
Mabokela et al. An integrated language identification for code-switched speech using decoded-phonemes and support vector machine
AbuZeina et al. Cross-word modeling for Arabic speech recognition
Johnson et al. Leveraging multiple sources in automatic African American English dialect detection for adults and children
Liang et al. An hmm-based bilingual (mandarin-english) tts
D'Orta et al. Large-vocabulary speech recognition: a system for the Italian language
Chalamandaris et al. Rule-based grapheme-to-phoneme method for the Greek
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
Kurian et al. Automated Transcription System for MalayalamLanguage
Thangarajan Speech Recognition for agglutinative languages
Khusainov et al. Speech analysis and synthesis systems for the tatar language
Ouahabi et al. HMM-GMM based Amazigh speech recognition system
Bennett et al. Using acoustic models to choose pronunciation variations for synthetic voices.
Lehečka et al. Improving speech recognition by detecting foreign inclusions and generating pronunciations
Zi'olko et al. Application of HTK to the Polish Language

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070402

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100831

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110523

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110530

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110602

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110609

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110722

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110729

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120402

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120522

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120606

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150615

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5014785

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20121005

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A072

Effective date: 20130319

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees