JP2009527024A - 話者非依存的音声認識を有する通信装置 - Google Patents

話者非依存的音声認識を有する通信装置 Download PDF

Info

Publication number
JP2009527024A
JP2009527024A JP2008555320A JP2008555320A JP2009527024A JP 2009527024 A JP2009527024 A JP 2009527024A JP 2008555320 A JP2008555320 A JP 2008555320A JP 2008555320 A JP2008555320 A JP 2008555320A JP 2009527024 A JP2009527024 A JP 2009527024A
Authority
JP
Japan
Prior art keywords
feature vector
vector
likelihood
word model
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008555320A
Other languages
English (en)
Inventor
ディートマー ルウィッシュ
Original Assignee
インテレクチャル ベンチャーズ ファンド 21 エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インテレクチャル ベンチャーズ ファンド 21 エルエルシー filed Critical インテレクチャル ベンチャーズ ファンド 21 エルエルシー
Publication of JP2009527024A publication Critical patent/JP2009527024A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

ボイスダイヤリング機能を備えた通信装置において音声認識を実行する技術が提供される。音声認識モード中、ボイス入力を受けると、該ボイス入力から入力特徴ベクトルを生成する。同様に、入力特徴ベクトルから、音声学的単位の発音時の尤度を示す尤度ベクトルシーケンスを計算する。ワーピング演算で、尤度ベクトルシーケンスを音声学的単語モデルに比較し、そしてその単語モデルに関して単語モデル一致尤度を計算する。最良一致単語モデルの決定ののち、ダイヤリング操作において、最良一致単語モデルから合成された名前に対応する番号をダイヤルする。

Description

関連出願の相互参照
本出願は、35 U.S.C. §119(e)の下、参照により全体として本明細書に組み入れられる2006年2月14日出願の米国特許仮出願第60/773,577号の恩典を主張する。
技術分野
記載する技術は、一般に、通信装置およびそのような通信装置における話者非依存的音声認識のための技術に関する。
関連技術の説明
モバイル電話は、ハンズフリー自動ダイヤリングのような特殊な機能を実行することを可能にするために話者依存的名前ダイヤリングを装備するようになった。モバイル電話環境では、音声認識の使用によるハンズフリーダイヤリングは、ユーザが、運転中、被呼者の名前または電話番号を読み上げることによって電話をかけることを可能にするために特に有用である。モバイル電話は、ユーザの音声を特徴データに変換し、その特徴データが音声認識手段によってさらに処理される。そのようなモバイル電話は、ユーザによって発声された被呼者の名前または番号を認識するために、認識名または番号の発音に先立ち、訓練を要する。典型的には、ユーザの音声の特徴データは、登録または訓練プロセス中にユーザによって事前に記録された名前に対応する事前記憶された特徴データの様々なセットに比較される。一致が見つかるならば、その名前に対応する番号がモバイル電話によって自動的にダイヤルされる。
従来、ボイス認識能力を備えたモバイル電話を使用するボイスダイヤリングの前に、認識名の発音が登録プロセス中に前もって訓練されなければならない。訓練段階では、ユーザが、認識名およびコマンドを発声しなければならず、対応する発音がモバイル電話によって記録され、記憶される。典型的には、音声認識手段が所望の名前またはコマンドの記録された様々な発音サンプルからオーディオ特徴データを生成するためには、ユーザは、所望の名前およびコマンドを何回か話さなければならない。認識プロセスのこの訓練段階はユーザにとって非常に不都合であり、そのため、ボイスダイヤリング機能は、ユーザの大多数からあまりよく受け入れられていない。
さらなる欠点として、名前が認識プロセスで事前に訓練されていない新たな人物の電話番号は、その名前に関してオーディオ特徴データが記録、記憶されていないため、ボイスダイヤルすることができないことがわかった。したがって、その名前に関して登録プロセスを再び実施しなければならず、それがユーザにとってかなりの労である。
さらには、ボイスダイヤリング機能を備えたそのようなモバイル電話のノイズコンシステンシーがあまり高くないということがわかった。モバイル電話環境は非常にノイズが多いため、これは、ユーザが車を運転しながらボイスダイヤルで電話をかけようとするときに問題である。
訓練段階で記録され、記憶された事前記録された特徴データはある特定のユーザの発音に対応するため、ボイスダイヤリング中の音声認識プロセスにおける特徴比較は、話者/ユーザ依存的である。特徴データがモバイル電話によって事前に記録されている名前が別の後続ユーザによって話されるならば、認識率はかなり低くなる。また、この場合、後続ユーザによって発声された名前の新たに記録された発音が登録されたのち、電話は、その名前を、最初のユーザによって発声された場合には認識しない。
ユーザにとってのさらなる不都合は、訓練段階に関して、ノイズによってあまり影響を受けない、話される名前の特徴データを生成するためには、モバイル電話環境が低いノイズレベルになければならないという要件である。しかし、登録および認識プロセスにおける異なるノイズレベルのせいで、公知のモバイル電話のノイズコンシステンシーはかなり低く、偽認識または認識エラーが生じるおそれがある。望む以外の相手に電話をかけたり、過度の発音非認識を生じさせたりするおそれがある。
詳細な説明
説明される態様および明細書における「一つの態様」、「態様」、「例示的態様」などの言及は、説明される態様が特定の特徴、構造または特性を含むことができるが、各態様が必ずしも特定の特徴、構造または特性を含まなくてもよいということを示す。そのうえ、そのような語句は、必ずしも同じ態様を指すわけではない。さらには、特定の特徴、構造または特性がある態様に関連して説明される場合、そのような特徴、構造または特性を、明示的に記載されているかどうかを問わない他の態様と関連させて実現することが当業者の知識の範囲内であることが理解されよう。
以下、添付図面を参照して様々な態様を説明する。以下の説明では、周知の機能または構造は、不必要な詳細で本発明を不明瞭にするおそれがあるため、詳細には説明しない。
ハンズフリーボイスダイヤリングを備えた通信装置、たとえばモバイル電話、セルラ電話(cellular phone)、スマートフォンなどにおいて改良された音声認識を実行するための機器および方法が提供される。いくつかの態様では、通信装置は音声認識モードを提供する。音声認識モード中、ユーザの入力音声、たとえば所望の被呼者の名前、番号または電話コマンドが特徴データに変換される。その特徴データから尤度ベクトルのシーケンスが導出される。各尤度ベクトルの成分は、対応するユーザの入力音声中で音声学的単位の発音が起こる尤度を示す。尤度ベクトルのシーケンスは多数の音声学的単語モデルに比較される。音声学的単語モデルは、電話帳または電話コマンドの中の入力項目に対応し、音声学的単位のような単語サブモデルのサンプルである。尤度ベクトルシーケンスを音声学的単語モデルに比較することにより、ワーピング技術を適用することもできる。ワーピング演算の結果として、音声学的単語モデルに関する単語モデル一致尤度が計算され、入力音声にもっとも類似している単語モデル(本明細書では「最良一致単語モデル」と呼ぶ)が決定される。そして、最良一致単語モデルから、認識名、番号または電話コマンドが合成される。名前、番号または電話コマンドが合成されたのち、いくつかの用途では、対応する番号をダイヤルする、または対応するコマンドを実行する自動ダイヤリング操作を実施することもできる。入力特徴データおよびたとえば通信装置中の入力項目から導出される音声学的単語モデルへのその比較からの尤度シーケンスの直接計算が、信頼性の高い効果的な音声認識を提供する。
そのうえ、適用される音声認識においては、認識名のための事前に記録され、事前に記憶された特徴データは不要である。対応する名前が利用可能であるならば、ボイスダイヤリング機能を使用して、数多くの新たな電話帳入力項目をダイヤルすることができる。たとえば、それは、書記形態で利用可能であり、その形態から音声学的単語モデルを導出することができる。
いくつかの態様では、ユーザによって話される発音と音声学的単語モデルとの一致尤度を最大限にするためにワーピング演算が実行される。単語モデルは、認識される単語、たとえば所望の被呼者名、番号または電話コマンドの音声学的表現である。一般に、単語モデルは単語サブモデルに分割され、各単語サブモデルは単語モデル中のその位置を特徴とする。
ワーピング演算のいくつかの態様では、単語モデルの単語モデル一致尤度は、入力音声に対応する尤度ベクトルのシーケンスを単語モデルベクトルのシーケンスを含む単語モデルに連続的にワーピングすることによって計算される。単語モデルベクトルの成分は、単語モデルのそれぞれの位置で特定のサブモデルを見いだす期待値を示す。
一例では、ワーピング演算により、尤度ベクトルと単語モデルベクトルとの割り当てが達成される。尤度ベクトルおよび割り当てられた単語モデルベクトルのスカラ積の和は最大化されるが、尤度ベクトルの順序および単語モデルベクトルの順序は保存される。対象の各語に関して、この最大化スカラベクトル和は単語モデル一致尤度として計算される。名前またはコマンドからの最良一致単語モデルに対応する最高の単語モデル一致尤度が合成され、それによって音声認識結果が得られる。
認識プロセスで使用される尤度ベクトルは、対応する特徴データの入力音声においてこれらの音声学的単位が発声された音声学的単位の尤度の指示として理解することができる。尤度ベクトルの計算の場合には、音声学的単語モデルのサブモデルとして働く音声学的単位の尤度分布を含む言語固有の内部音声表現を使用することができる。
いくつかの態様では、音声学的尤度分布は、現話者の特性および環境ノイズに関して更新することができる。
いくつかの態様では、ボイスダイヤリング機能を備えた通信装置が提供され、その通信装置が話者非依存的音声認識を実行する。
いくつかの態様では、通信装置上で実行されると、通信装置が話者非依存的音声認識を実施することを可能にして、たとえば通信装置のハンズフリーボイスダイヤリング機能を可能にするコンピュータプログラムコードを含むコンピュータプログラムおよびメモリ装置が提供される。
いくつかの態様では、音声認識技術は、音響的に伝送された音声信号を認識するために使用される。これらの音声信号は、方法を実施する、または音声認識を実行するための機器を含む、ハンズフリーボイスダイヤリング機能を備えた通信装置、たとえばモバイル電話の近端ユーザ(near end user)から来る。音声認識はまた、通信装置を制御するために使用することもできる。たとえば、音声認識技術は、限られた処理能力しか利用できない状況で通信装置の機能を制御するために使用することができる。音声認識技術はまた、たとえば自動車の、パワーウィンドウ、無線受信装置、ナビゲーションシステム、モバイル電話のような装置の機能を制御するために使用することもできるし、自動車そのものを制御するために使用することさえできる。
ここで図1を参照すると、参照番号100は、音声認識を実行するための機器を通信装置、たとえばモバイル電話またはセルラ電話の一部として指示する。従来の電話機に典型的に見られるさらなる機能ブロック、たとえば無線周波数(RF)コンポーネント、デュアルトーン多重周波数(DTMF)コンポーネントなどは、図示を明確にするため、図面から省略されている。操作中、マイクロフォン10を通して入力されるアナログボイス信号が、たとえばアナログ・デジタル(A/D)変換器およびパルス符号変調器(PCM) (いずれも図示せず)により、デジタルボイス入力信号に変換される。このデジタル入力信号がボコーダ20に伝達される。
制御装置40、たとえばマイクロプロセッサが通信装置の基本操作を制御し、制御機能、たとえば音声認識モードへの進入または音声認識決定後および/またはユーザ要求時の認識名に対応する番号のダイヤリングを実行する。
たとえば、ボタン(図1には示さず)を押してボイス認識モード(すなわち音声認識モード)を起動すると、制御装置40は通信装置をボイス認識モードに入れる。そして、デジタル入力信号がボコーダ20によって処理され、このボコーダがデジタル入力信号を等しい長さの部分に分割し、そのような部分(いわゆるフレーム)からスペクトル特徴データを抽出する。スペクトル特徴データは、入力特徴ベクトルと呼ばれる、対数または非対数成分を有するスペクトル特徴ベクトルに変換される。例として、特徴データは、毎秒200バイトであることができ、スペクトルまたはケプストラムパラメータ、信号振幅および/または振幅の変化またはそれらの組み合わせによって表すことができる。このような特徴抽出技術は当技術分野で周知である。したがって、特徴データをデジタル入力音声から抽出し、入力特徴ベクトルに変換する詳細な方法は、本説明では省略する。
通信装置によって認識される単語、たとえば所望の被呼者の名前、番号または電話コマンドは電話帳90に記憶されている。電話帳90は、不揮発性メモリ、たとえばフラッシュメモリもしくはEEPROMなどまたは加入者インタフェースモジュール(SIM)カードとして実現することができる。電話帳は典型的には、モバイル基地局シリアル番号および通信装置の製造元を示すコードなどをはじめとする加入者情報を記憶するためのメモリを含む。一例では、不揮発性メモリは、音声学的単位、たとえば音素の尤度分布を含む言語固有の内部音声表現または認識される語のサブモデルとして働くアルファベット文字の音声学的表現を含む。以下、尤度分布の計算をさらに説明する。簡潔にいうと、尤度分布は、所与の特徴ベクトルに対応する発音において音声学的単位が発声された尤度を計算するためのパラメータ化として使用される、特徴空間中の統計的分布を示す。
制御装置40は、以下さらに説明する書記素・音素(G2P)変換を使用することによって認識される単語から音声学的単語モデルを生成する。音声学的単語モデルは、通信装置のユーザ操作中に適用される様々な一時データを記憶するための揮発性メモリ、たとえばRAMまたは不揮発性メモリ、たとえば電話帳90を記憶する不揮発性メモリに類似した不揮発性メモリであることができる第一のメモリ50に記憶される。
音声学的単語モデルは、選択言語の、音素のような単語サブモデル(すなわち音声学的単位)で構成される。したがって、音声学的単語モデルはまた、各単語モデルベクトルが、単語モデルのそれぞれの位置でそれぞれの音声学的単位を見いだす期待値を示す成分を含む、単語モデルベクトルのシーケンスとして定義することもできる。図1に見てとれるように、例として、単語モデルベクトルの二つのシーケンス51および52が第一のメモリ50中に示されている。
音声認識モードでは、各入力特徴ベクトルに関して、選択言語の内部表現の尤度分布に基づいて対応する尤度ベクトルが計算される。尤度ベクトルの成分は、特徴データフレーム中、各音声学的単位が発声された尤度を示す。したがって、各尤度ベクトルの大きさは、選択言語で使用される音声学的単位の数に対応する。
音声認識は音声認識コンポーネント30によって実行される。音声認識コンポーネント30は尤度ベクトル計算コンポーネント60を含み、このコンポーネントが、ボコーダ20から入力される特徴ベクトルから尤度ベクトルのシーケンスを計算する。尤度ベクトル計算コンポーネント60から出力された尤度ベクトルシーケンスは音声認識コンポーネント30のワーパ70に伝達される。ワーパ70は、尤度ベクトルシーケンス61を、第一のメモリ50によって順次に利用可能にされる単語モデルベクトルシーケンス51、52とでワーピングする。ワーピングプロセスの結果は、尤度ベクトルの単語モデルベクトルとの割り当てである。これは、尤度ベクトルおよび割り当てられた単語モデルベクトルのスカラ積の和が最大化されるように実施することができる。また、尤度ベクトルの順序および単語モデルベクトルの順序は保存される。これに続き、対象の各単語(すなわち、音声学的単語モデル)に関して最大化スカラベクトル和が計算される。最高の和は最良一致単語に対応し、スカラベクトル和の値は単語モデルの一致ランク順序を示す。
ワーパによるワーピングプロセスの原理は、各単語モデルに関して、単語モデル一致尤度が最大化されるということである。一例では、これは、隣接する二つの位置で実施される。ワーピング技術にしたがって、一定の時間間隔に関連する一致尤度ベクトルのシーケンスがそれぞれの単語モデルのサブモデルベクトルに比較される。これらサブモデルベクトルそれぞれが、その位置でのそれぞれの単語モデル中のそれぞれの単語サブモデルの存在または非存在を意味することができる分布を示す。したがって、ある特定の位置でのサブモデルベクトルの単一成分は、その位置での単語モデル中の特定の単語サブモデルの期待値を示すものと理解することができる。最適化プロセスでは、隣接する単語サブモデルの一致尤度は、そのような隣接する単語サブモデルの間の境界を、その位置またはその隣の位置のいずれかにおける単語サブモデルに割り当てられる時間フレームの尤度ベクトルに対してシフトすることによって最大化される。
尤度ベクトルシーケンスに関して最良一致単語モデルを決定するために使用されるワーピング技術に関するさらなる詳細は、参照により本明細書に組み入れられる、同出願人による「Speech Recognition Method and System」(EP出願番号第02012336.0号、2002年6月4日出願)と題する欧州特許出願で提供されている。
追加的または代替的に、音声認識装置30は、最良一致単語モデルから認識名またはコマンドとして名前を合成する合成装置(図1には示さず)を含むこともできる。そして、この認識名を出力して、音声認識が完了したことをユーザに知らせることもできる。そして、たとえば、認識名の合成ボイスデータがボコーダ20に供給され、このボコーダで、ボイスデータがPCM信号に変換されたのち、デジタル・アナログ(D/A)変換器(図1には示さず)に提供される。D/A変換器でPCM信号がアナログ信号に変換されたのち、該信号を可聴信号へと増幅し、スピーカ15に通して出力することができる。したがって、たとえば、通信装置100の音声認識モードでユーザが被呼者名を発音し、音声認識装置30が該名前を電話帳90中の名前の音声学的単語モデルに対応する名前として認識すると、音声認識装置はその認識をユーザに報告する。たとえば、この報告は、認識名を再現することによって実施することができる。そして、制御装置40は、自動ダイヤリングを実施することもできるし、またはダイヤルに進む前に、口頭の確認コマンド(たとえば「ダイヤル」または「はい」)もしくはユーザによるボタンの押下を待つこともできる。
いくつかの態様では、尤度ベクトル計算コンポーネント60、ワーパ70およびおそらくは合成装置を備えた音声認識装置30は、ハードウェア要素のセット、マイクロプロセッサ、たとえば制御装置40上で稼働するソフトウェアプログラムまたはハードウェアとソフトウェアとの組み合わせのいずれかとして実現することができる。ソフトウェアで実現される場合、音声認識機能は、通信装置の不揮発性メモリ、たとえばSIMカード内に含めることができ、図1に示すような別個の回路部品を必要としない。
次に図2を参照すると、ボイスダイヤリング機能を備えた通信装置における音声認識プロセス200が示されている。ブロック210で、たとえば、通信装置のような通信装置上のキーまたはボタンを押すことによって音声認識モードに入る。たとえば、ユーザは、通信装置上の適切なキーを押して音声認識モードに入ることができる。このキー入力は、たとえば、通信装置100の制御装置40によって検出され、制御装置40は音声認識モードに入る。
ブロック220で、現在記録されている入力特徴データの入力特徴ベクトルから尤度ベクトルシーケンスを生成する。尤度ベクトルシーケンスを生成するためには、選択言語の音声学的単位の尤度分布が使用される。たとえば、言語は、現ユーザの国籍に基づいて選択することができる。通信装置をオンにしたのち、尤度分布を提供する言語固有の音声の内部表現がサービスプロバイダからモバイル通信リンクを介して通信装置に伝送されることができる。
ブロック230で、尤度ベクトルシーケンスを単語モデルベクトルのシーケンスにワーピングすることにより、尤度ベクトルシーケンスを音声学的単語モデルに比較する。音声学的単語モデルは、通信装置の電話帳の中の名前の書記表現から導出することができる。たとえば、これは、選択言語の音声学的単位に基づく書記素・音素変換を使用して実施することができる。
ワーピング演算の結果として、最良一致単語モデルまたは最良一致単語モデルのリストを決定する。これらの最良一致単語モデルに対応する名前は、可聴出力のためにこれらの名前を合成することによるか、または一つまたは複数の名前を通信装置の内蔵表示装置上に尤度順に表示することによるいずれかで示される。すると、ユーザは、たとえばボタンを押すこと、またはボイスコマンドを発音することにより、認識名を選択することができる。これにより、通信装置は、認識名に対応する番号をダイヤルすることができる。
図3は、環境ノイズレベルおよび現ユーザの個々の話者特性に関して尤度分布が更新されるプロセス300を示す。通信装置の環境におけるノイズおよび現話者の特性は、図3を参照して説明するように、さらなる特徴ベクトルを導入したのち、そのベクトルを使用して尤度分布を更新することによって考慮に入れることができる。環境ノイズを表す一つのベクトルはノイズ特徴ベクトルと呼ばれ、現話者の特性を表す他方のベクトルは話者特性適応ベクトルと呼ばれる。図4A、4Bおよび5を参照してさらに説明するように、両ベクトルは音声の内部表現に影響する。
ブロック310で、上記のように、音声認識モードで、ボイス入力から入力特徴ベクトルを生成する。さらには、同じくブロック310で、入力特徴ベクトル生成と同様なやり方でノイズ特徴ベクトルを生成する。ノイズ特徴ベクトルは、入力特徴ベクトルと同じスペクトル性を有することができ、ノイズ入力に属し、ボイス入力には属さない入力特徴データフレームから生成される。ボイスとノイズとの間の区別は様々な基準に基づくことができる。一つの基準は、限定的ではなく例として、音声認識モードに入ったのち、ユーザがボイス入力を発声していないということであってもよい。追加的または代替的に、ノイズ特徴ベクトルは、無線受信機または音楽プレーヤがオフにされて音声認識モードに入った後、しかしボイスメッセージの前に記録されたノイズ入力から計算することができる。たとえば、ボイスメッセージは、通信装置によって出力することができる「電話したい相手の名前を言ってください」であってもよい。もう一つの可能な基準は、ボイスまたはノイズ入力の典型的な分布に基づいて、現入力ベクトルが入力特徴ベクトルであるのかノイズ特徴ベクトルであるのかを決定するための、入力特徴ベクトルのスペクトルパワー分布の評価であってもよい。
態様にしたがって、現ユーザによって発声された対応するボイス入力から生成される入力特徴ベクトルが提供されてもよく、話者特性適応ベクトルが使用されてもよい。話者特性適応ベクトルが利用可能ではないならば、デフォルト特性適応ベクトルを使用してもよい。一例では、デフォルト特性適応ベクトルのすべての成分はゼロに等しい。もう一つの例では、通信装置は、後で使用することができる現ユーザに関する話者特性適応ベクトルが記憶されている、SIMカードのような不揮発性メモリを含む。
いくつかの態様では、いくつかの話者特性適応ベクトルを、通信装置に記憶することもできるし、たとえばモバイル通信リンクを介してサービスプロバイダに要求することもできる。この場合、ユーザは、そのようなベクトルのリストからもっとも適切な話者特性適応ベクトルを選択することができる。このリストは、たとえば、強い訛りなどを有する、または有さない男性および女性ユーザの場合のベクトルを含むことができる。
ノイズ特徴ベクトルおよび話者特性適応ベクトルはいずれも、入力特徴ベクトルと同じ大きさおよびスペクトル性を有するスペクトルベクトルであることができる。
ブロック320で、尤度分布を現在の環境ノイズレベルおよび現ユーザの音声学的特性に適応させることによって尤度分布を更新する。ノイズ特徴ベクトルおよび話者特性適応ベクトルは、同一の特徴ベクトルの尤度ベクトルの成分値を変化させて認識率を改善することができるような方法で尤度分布を修正させることができる。更新演算を以下さらに説明する。
ブロック330で、更新された尤度分布に基づいて現在の入力特徴ベクトルから尤度ベクトルシーケンスを生成する。ブロック340で、たとえば上記で説明したようなワーピング演算を実行する。演算で決定された最良一致単語モデルに基づき、プロセス300はブロック350に進む。ブロック350で、最良一致単語モデルに対応する名前を選択することによって認識結果を決定する。
もう一つの経路で、プロセス300は、ブロック340からブロック360に分岐して、そこで、現話者特性適応ベクトルを計算する。この計算演算は、ワーピング演算(図1を参照して、また、ワーピング技術に関して参照される同時係属特許出願で説明した)によって実行される、それぞれの単語モデルベクトルと尤度ベクトルとの関連に基づいて実施される。そして、新たに計算された話者特性適応ベクトルを使用して、後続の認識サイクルで尤度分布を更新することができる。
一例で、図4Aおよび4Bを参照しながら尤度分布の更新演算(プロセス300のブロック320)をさらに詳細に説明する。通信装置100の電話帳90は、選択言語で必要とされる音声学的単位(音素)の代表的特徴ベクトルを含む。これらの代表的特徴ベクトルは、上記の入力特徴ベクトルと同じ大きさおよびスペクトル性を有するスペクトルベクトルである(これに関して、「同じスペクトル性」とは、これらのベクトル中の同じ位置における成分が、類似した振幅参照系で計測される同じ周波数範囲の特徴を表すことをいう)。
音声学的単位の代表的特徴ベクトルは、無ノイズ環境中、それぞれの音素を表すボイスサンプルから事前に記録することができる。例として、各音素に関して100個の代表的ベクトルのセットが十分であることができ、言語は典型的には、50以下の異なる音素を要することができる。したがって、選択言語の内部表現を画定するためには、およそ5,000個の代表的特徴ベクトルが十分であるかもしれない。
次に図4Aを参照すると、一つまたは複数の話者特性適応ベクトル420Aが演算415で言語固有の音素410の代表的特徴ベクトルで乗じられるプロセス400aが示されている。いくつかの態様では、乗算演算415は、代表的特徴ベクトル410を話者特性適応ベクトル420Aと混合するためのミキサのように機能する。一例では、いわゆる第一の修正代表的特徴ベクトルである第一の混合演算415の結果を話者特性適応ベクトル420Aとで再び混合して、さらに修正された代表的特徴ベクトルをさらに生成してもよい。演算435で、ノイズ特徴ベクトルが第一の修正代表的特徴ベクトルまたはさらに修正された代表的特徴ベクトルそれぞれに加えられる。ノイズ特徴ベクトルは、ノイズ特徴ベクトル430のセットからのランダムなサンプルであってもよいし、またはノイズ特徴ベクトル430の平均に基づくランダムなサンプルであってもよい。ノイズ特徴ベクトルの平均とは、利用可能なノイズ特徴ベクトルの少なくともいくつかの成分を平均化して、演算435でノイズ特徴ベクトル430として使用される平均化ノイズ特徴ベクトルを生成することをいう。そして、ブロック440で、計算された第二の修正代表的特徴ベクトルを使用して音声学的単位の尤度分布を計算する。この計算の結果がノイズおよび話者補正尤度分布450である。
次に図4Bを参照すると、ユーザがコマンドまたは所望の被呼者名を発声する前に環境ノイズを記録し、処理してノイズ特徴ベクトル430のセットを生成するプロセス400Bが示されている。ノイズ特徴ベクトル430は、代表的特徴ベクトル410と同様に、非対数成分を有するスペクトルベクトルであることができる。代表的特徴ベクトルおよびノイズ特徴ベクトルそれぞれの成分を加算することにより、各代表的特徴ベクトル410をノイズ特徴ベクトル430の一つとで和算する。たとえば、代表的特徴ベクトル410の各成分を、ノイズ特徴ベクトルのセットからランダムに選択された一つのノイズ特徴ベクトル430のそれぞれの成分とで和算する。もう一つの例では、代表的特徴ベクトル410の各成分を平均化ノイズ特徴ベクトルのそれぞれの成分とで和算する。和ベクトルの各成分の対数を演算425に取り込み、この和ベクトルをブロック426で対数化する。この対数和ベクトルと関連するものは、対数成分を演算427中に有する話者代表的な特徴ベクトル420bである。結果として、修正対数代表的特徴ベクトルのセットが計算される。ブロック440で、対数特徴空間中の音素の統計的分布を、修正対数代表的特徴ベクトルから、パラメータ化により、たとえば多次元ガウスフィットを使用することによって計算する。ガウス分布を仮定すると、小さなパラメータセット、すなわち、期待値および特徴空間中の各大きさの標準偏差により、特徴空間中のノイズ補正および話者補正音声学的尤度分布をモデル化することができる。このパラメータ化は、更新音声学的尤度分布とも呼ぶことができる更新されたノイズ補正および話者補正音声学的尤度分布450を表し、この分布から、尤度ベクトル、換言するならば、入力特徴ベクトルのような所与の対数特徴を計算することができる。そして、こうして更新された音声学的尤度分布450をさらなる音声認識プロセスで使用することができる。
ノイズ補正および話者補正尤度分布は、ノイズ補正および話者補正代表的特徴ベクトルのセットとみなすことができ、そのうち、各代表的特徴ベクトルがそれぞれの音声学的単位に対応する。これらの代表的特徴ベクトルは、先に述べたように、一つの特定の音声学的単位ごとに複数の代表的特徴ベクトル、たとえば各音素ごとに100個の代表的特徴ベクトルで平均をとられる。
次に図5を参照すると、プロセス500は話者特性適応ベクトルの計算を示す。尤度分布の計算に依存して、図4Aの流れ図400Aにしたがうか、または図4Bの流れ図400Bにしたがうかのいずれかで、話者特性適応ベクトルを非対数特徴ベクトル(420A)の形態または対数特徴ベクトル(420B)の形態で計算することができる。認識サイクルののち、たとえばワーピング演算の結果として生じる尤度ベクトルへの最良一致単語サブモデルの割り当てを使用して、話者特性適応ベクトルを更新する。各尤度ベクトルはそれぞれの入力特徴ベクトルに対応することができるため、最良一致単語サブモデルをまたこれらの対応する入力特徴ベクトルに割り当てることもできる。これは、ボイス入力発音を入力特徴ベクトルにしたがってセグメントに分けることができ、各セグメントに対し、最良一致単語サブモデルがワーピング結果として割り当てられることを意味する。換言するならば、ブロック510で、以前の処理されたボイス入力の各入力特徴ベクトルに音声学的単位が割り当てられる。差分演算530で、割り当てられた音声学的単位の分布の中心と前述の入力特徴ベクトルに対応する尤度ベクトルとの間の値に基づき、各入力特徴ベクトルに関して差分ベクトルを計算する。差分ベクトルは、ワーピングの結果として得られる音声学的単位に割り当てられた入力特徴ベクトルのそれぞれの成分とそれぞれの音声学的単位の代表的特徴ベクトルとの間の差を計算することによって決定される。
一例では、割り当てられた音声学的単位の分布の中心は、このそれぞれの音声学的単位の平均化代表的特徴ベクトル520である。
次いで、ブロック540で、これらの差分ベクトルそれぞれを音素固有なやり方で平均化する。その結果、各音声学的単位に関して、最良一致単語サブモデルとして割り当てられたこの音声学的単位に基づいて平均化差分ベクトルが計算される。ブロック550で、平均化差分ベクトルの平均を計算する。事前に選択された音素の平均化差分ベクトルのこの平均が話者特性適応ベクトル560である。したがって、話者特性適応ベクトルは、各認識サイクルののち更新されることができる。しかし、話者特性適応ベクトルの更新は、認識サイクル10回ごとで十分であることもでき、現ユーザが交代したときに更新することもできる。
図6および7は、様々な態様にしたがって音声認識プロセスを実行するように構成された通信装置のブロック図を示す。まず図6を参照すると、ボイスダイヤリング機能を備えた通信装置、たとえばモバイルまたはセルラ電話において音声認識を実行するための機器600が示されている。音声学的単語モデル51、52は、たとえば、たとえばSIMカードまたは通信装置の他のメモリに記憶された電話帳90中の名前入力項目から生成される。単語モデル51、52を生成するために実施されるこの音声学的単語モデル計算は、書記素・音素変換(G2P)620を使用することによって実施することができ、および電話帳に記憶された名前の文字・音声変換として実行することもできる。変換もしくは転換演算620では、選択言語の音声学的単位を単語サブモデルとして使用することができ、この単語サブモデルから音声学的単語モデルをアセンブルすることができる。たとえば、規則に準じて作動する、または対象の名前の中の文字または文字組み合わせをその文字または文字組み合わせに対する音声学的単位によって単に置き換える様々なG2P変換装置がある。単語モデル51、52は、たとえば通信装置のRAMメモリまたはSIMカードの別の部分であるメモリ50に記憶することができる。
音声認識モードには、たとえばユーザがボタンを押したのち入る。さらなる態様にしたがって、および通信装置に依存して、音声認識モードには、たとえばユーザによって発された対応する要求を検出する制御装置(図6には示さず)により、他のモードおよび/またはコマンドを介して入ることもできる。一例では、通信装置は、内蔵スピーカ15を通して発声されたコマンドを出力する。発声されるコマンドは、たとえば、ユーザが電話したい相手の名前を言うよう促す「電話したい相手の名前を言ってください」であることができる。そして、ユーザによって発声された名前はマイクロフォン10によってボイス入力として記録され、ボコーダ20に伝送される。ボコーダ20は、ボイス入力から入力特徴ベクトルを計算し、これらの入力特徴ベクトルを尤度ベクトル計算コンポーネント60に伝送する。尤度ベクトル計算コンポーネント60は、尤度分布610に基づいて、入力特徴ベクトルから尤度ベクトルシーケンス61を計算する。そして、尤度ベクトルシーケンス61をワーパ70によってワーピングして、メモリ50に記憶される単語モデル51、52を生成する。ワーピング演算では、対象の単語モデルに関して単語モデル一致尤度を計算する。単語モデル一致尤度は、最高の単語モデル一致尤度が一番上になるそれぞれの順序に並べられる。すると、認識結果は、最高の単語モデル一致尤度が計算されている最良一致単語モデルになる。もう一つの態様にしたがって、認識結果として、最良一致単語モデルのリストを提示してもよい。
認識結果は、音声合成装置650に伝送することができ、この音声合成装置が、最良一致単語モデルに対応する一つまたは複数の最良一致名を合成して、スピーカ15を通しての音響出力に備える。もう一つの例にしたがって、認識結果は、一つまたは複数の最良一致名を最良一致単語モデルに対応する順序で通信装置600の表示装置670上に表示することにより、ユーザに提示してもよい。換言するならば、認識結果は、内蔵型または別個の出力装置660を使用してユーザに提示することができる。
次いで、ユーザは、追加的または代替的に、最良一致名のリストから名前を選択するか、または一つの最良一致単語が電話したい相手の名前であるということをただ確認することができる。一例では、ユーザの選択は、表示装置670上で強調表示されたり、および/または合成語としてスピーカ15を通して出力されたりする。そして、ユーザは、発声コマンドおよび/またはスクロールボタンヒットによって単語選択を変更することができ、すると、新たに選択された単語が強調表示されるか、または合成語として音響的に出力される。選択単語がユーザが電話したい相手の名前であることを確認するために、ユーザは、コマンド、たとえば「ダイヤル」または「はい」を発声することもできるし、通信装置上のそれぞれのボタンを押すこともできる。発声されたコマンドは、発声された名前のボイス入力と同じやり方で、通信装置で利用可能な通信装置コマンドのリストから生成されるワーピング演算における単語モデルを使用することによって認識することができる。
ユーザによって確認されたのち、ダイヤラ640が、選択名に対応する番号をダイヤルし、たとえば制御装置(図6には示さず)により、ボイス認識モードを出る。
いくつかの態様では、通信装置はまた、認識結果をユーザに提示することなく、または認識結果が提示された直後に、最良一致単語モデルに対応する番号を自動的にダイヤルすることもできる。たとえば、これは、音声合成装置650によってそれぞれの合成語を出力し、対応する番号をダイヤルすることによって実施することができる。一例では、対応する番号は、認識結果がユーザに提示されるのと同時またはそのすぐ後でダイヤラ640によってダイヤルされる。そのとき、ユーザが、音声合成装置650または表示装置670によって出力された合成語が正しくない、またはユーザがダイヤルしたいものではないと認識するならば、ユーザは、たとえば通信装置に関連するそれぞれのキーを押すことにより、ダイヤルプロセスを中断することができる。
図7を参照すると、ボイスダイヤリング機能を備えた通信装置において音声認識を実行するための機器700が示されている。機器700において、たとえば上記演算320に関して説明したように、尤度分布610が話者特性およびノイズに基づいて更新されるということを除き、機器700は、図6に示す機器600に似ている。さらには、機器700は、図6に示すような音声合成装置650を含まない。したがって、認識結果630は、一つまたは複数の名前として、正しい結果である可能性がもっとも高い順序でユーザに提示することができ、それが内蔵表示装置670上に表示される。
再び図7を参照すると、音声認識モードに入ったのち、通信装置は、スピーカ15を通して音声コマンドを出力して、電話したい相手の名前を言うようユーザに促すことができる。通信装置のハンズフリー操作モードでは、干渉エリミネータ710を使用することにより、マイクロフォン10によって記録される入力信号からスピーカ干渉が除去される。干渉エリミネータ710は、スピーカ15が使用されているときに環境ノイズとしての音声コマンドなしで環境ノイズを記録することができるようエコー相殺を実行し、マイクロフォン10によって検出される入力信号からスピーカを通して出力される音声コマンドを除去する。ユーザが聞いている通信装置によって音声コマンドが出力される間に環境ノイズが記録されるため、その間はユーザが発音していない確率が高く、したがって、純粋なノイズ信号をマイクロフォン10によって記録することができる。ノイズプロセッサ720が、記録されたノイズ信号からノイズ特徴ベクトルのセットを計算することができる。
いくつかの態様で、ノイズ特徴ベクトルはまた、ボコーダ20により、記録されたノイズ入力から計算したのち、ノイズプロセッサ720に伝送することもでき、このノイズプロセッサが、認識プロセスでさらに使用される平均化ノイズ特徴ベクトルを計算する。通信装置700では、尤度分布610は、ノイズプロセッサ720から提供されるノイズ特徴ベクトルを使用して、話者適応ユニット730によって提供される現話者の特性に基づいて更新することができる。更新プロセスの詳細は、図3、4A、4Bおよび5を参照しながら上記で説明されている。話者適応ユニット730中、ワーピング演算の結果としてワーパ70によって提供される尤度ベクトルへのサブモデル割り当てから話者特性適応ベクトルを計算することができる。このように、尤度分布610は、その後の認識結果を絶えず改善するために、以前に記録された発声の認識結果によって更新される。
当業者は、図1、6および7に示す機能ブロックを任意の意義ある組み合わせに組み合わせてもよいことを認識するであろう。
上記の様々な態様は、認識されるべき単語の特徴データを記録し、かつ事前に記憶しなければならない登録プロセスを要することなく、十分な音声認識を可能にする。さらには、上記様々な態様は、環境ノイズおよび現話者の特性を使用することにより、通信装置のボイスダイヤルモードにおける認識エラー率を減らし、さらに、ボイス認識失敗の確率を下げるのに適している。そのうえ、上記様々な態様は、音声学的単位およびその尤度分布を選択言語の内部表現およびその認識プロセスとして使用することにより、異なる言語に容易に適応することができ、そして書記表現だけが利用可能であり、かつ音声学的特徴データが利用できない新たな単語、たとえば電話帳の入力項目を認識することができる。
結論
本発明の様々な態様を上記で説明したが、そのような態様は、実例として提示しただけであり、限定として提示したものではないことが理解されよう。当業者には、本発明の本質および範囲を逸することなく、形態および詳細における様々な変更を加えることができることが自明であろう。したがって、本発明の範囲は、上記の例示的態様のいずれによっても限定されるべきではなく、請求の範囲およびその等価物にしたがってのみ定義されるべきである。
詳細な説明の部分は、概要および要約の部分とは違い、請求の範囲を解釈するために使用されるものであることが理解されよう。概要および要約の部分は、本発明者らによって考慮されるような本発明の一つまたは複数の(ただしすべてではない)例示的態様を記載することができるが、本発明および請求の範囲をいかなるふうにも限定することを意図したものではない。
一つの態様にしたがって音声認識を実行するための機器のブロック図である。 一つの態様にしたがって通信装置における音声認識プロセスを示す流れ図である。 さまざまな態様にしたがって通信装置における音声認識プロセスで実行される演算をより詳細に示す流れ図である。 さまざまな態様にしたがって通信装置における音声認識プロセスで実行される演算をより詳細に示す流れ図である。 さまざまな態様にしたがって通信装置における音声認識プロセスで実行される演算をより詳細に示す流れ図である。 さまざまな態様にしたがって音声認識プロセスを実行するように構成された通信装置のブロック図である。 さまざまな態様にしたがって音声認識プロセスを実行するように構成された通信装置のブロック図である。

Claims (36)

  1. 以下の工程を含む、ボイスダイヤリング機能を備えた通信装置において音声認識を実行する方法:
    a) 音声認識モードに入る工程;
    b) 音声認識モード中、ボイス入力を受けると、ボイス入力から入力特徴ベクトルを生成する工程;
    c) 該入力特徴ベクトルから、音声学的単位の発音時の尤度を示す尤度ベクトルシーケンスを計算する工程;
    d) 該尤度ベクトルシーケンスを音声学的単語モデルにワーピングする工程;
    e) 該音声学的単語モデルから単語モデル一致尤度を計算する工程;および
    f) 単語モデル一致の最良一致の一つを認識結果として決定する工程。
  2. 音声学的単位が音声学的単語モデルの単語サブモデルとして働き、各音声学的単語モデルが単語モデルベクトルのシーケンスを含み、および該単語モデルベクトルの成分が、音声学的単語モデルのそれぞれの位置で音声学的単位のそれぞれ一つを見いだす期待値を示す、請求項1記載の方法。
  3. 各尤度ベクトルが、選択言語の内部表現を使用してそれぞれの入力特徴ベクトルから計算される、請求項1記載の方法。
  4. 内部言語表現が、特徴空間中の代表的特徴ベクトルの統計的分布を示す、音声学的単位の特徴ベクトルの代表的なものから計算された尤度分布を含む、請求項3記載の方法。
  5. 尤度分布の計算が登録モードで実施され、以下の工程を含む、請求項4記載の方法:
    無ノイズ環境で異なる話者によって発声されたボイス入力サンプルを記録する工程;
    選択言語で必要とされる音声学的単位に対応する、該ボイス入力サンプルの部分を選択する工程;および
    選択部分から代表的特徴ベクトルを生成する工程。
  6. 現ユーザに関する話者特性適応ベクトルを決定する工程、および該話者特性適応ベクトルを代表的特徴ベクトル中に反映させることによって尤度分布を更新する工程
    をさらに含む、請求項4記載の方法。
  7. 通信装置環境中のノイズを計測する工程;
    計測したノイズからノイズ特徴ベクトルを処理する工程;および
    該ノイズ特徴ベクトルを代表的特徴ベクトルに関連させることによって尤度分布を更新する工程
    をさらに含む、請求項4記載の方法。
  8. ノイズ特徴ベクトル、話者特性適応ベクトルおよび代表的特徴ベクトルがスペクトルベクトルであり、かつ尤度分布を更新する工程が、以下の工程を含む、請求項7記載の方法:
    該話者特性適応ベクトルを各代表的特徴ベクトルで乗じて、第一の修正代表的特徴ベクトルを生成する工程;
    該第一の修正代表的特徴ベクトルに該ノイズ特徴ベクトルを加えて、第二の修正代表的特徴ベクトルを生成する工程;および
    特徴空間中の該第二の修正代表的特徴ベクトルの統計的分布を更新尤度分布として決定する工程。
  9. 入力特徴ベクトル、ノイズ特徴ベクトル、話者特性適応ベクトルおよび代表的特徴ベクトルがスペクトルベクトルであり、該ノイズ特徴ベクトルおよび該代表的特徴ベクトルが非対数成分を有し、ならびに該入力特徴ベクトルおよび該話者特性適応ベクトルが対数成分を有し、かつ尤度分布を更新する工程が、以下の工程を含む、請求項7記載の方法:
    各代表的特徴ベクトルを該ノイズ特徴ベクトルに加えて、第一の修正代表的特徴ベクトルを生成する工程;
    該第一の修正代表的特徴ベクトルの各成分を対数化する工程;
    該第一の修正され、対数化された代表的特徴ベクトルに該話者特性適応ベクトルを加えて、第二の修正代表的特徴ベクトルを生成する工程;および
    特徴空間中の該第二の修正代表的特徴ベクトルの統計的分布を尤度分布として決定する工程。
  10. 話者特性適応ベクトルを決定することが各代表的特徴ベクトルに関する話者特性適応ベクトルの計算を含み、以下の工程をさらに含む、請求項7記載の方法:
    最良一致の音声学的単位を各入力特徴ベクトルに割り当てる工程;
    各入力特徴ベクトルとそれぞれの代表的特徴ベクトルとの間の差分ベクトルを計算する工程;および
    各それぞれの代表的特徴ベクトルに関して音素固有平均化差分ベクトルを話者特性適応ベクトルとして計算する工程。
  11. 話者特性適応ベクトルが音素固有平均化差分ベクトルの平均をとったものである、請求項10記載の方法。
  12. 最良一致の単語モデルから名前を合成する工程、およびその名前に対応する番号をダイヤルする工程
    をさらに含む、請求項1記載の方法。
  13. 音声学的単語モデルが、電話帳の中の名前から書記素・音素変換を使用して単語サブモデルのシーケンスとして生成される、請求項1記載の方法。
  14. 電話帳の中の名前の単語モデルを記憶するように構成された第一のメモリと;
    音声認識モード中、ボイス入力から入力特徴ベクトルを生成するように構成されたボコーダと;
    (a) 該入力特徴ベクトルから、音声学的単位の発音時の尤度を示す尤度ベクトルシーケンスを計算するように構成された尤度ベクトル計算装置と、(b) 該尤度ベクトルシーケンスを該単語モデルにワーピングするように構成されたワーパと、(c) 該単語モデルから単語モデル一致尤度を計算するように構成された計算装置と、(d) 最良一致の単語モデルを認識結果として決定するように構成された決定装置とを含む、音声認識コンポーネントと;
    音声認識モードを起動するように構成された制御装置
    とを含む、ボイスダイヤリング機能を備えた通信装置において音声認識を実行するための機器。
  15. ボイス入力および環境ノイズをノイズ入力として記録するように構成されたマイクロフォン
    をさらに含み;
    ボコーダが該ノイズ入力からのノイズ特徴ベクトルを処理し、かつ
    音声認識コンポーネントが、該ノイズ特徴ベクトルを代表的特徴ベクトル中に反映させることによって尤度分布を更新する、
    各尤度ベクトルが、それぞれの入力特徴ベクトルから、音声学的単位の代表的特徴ベクトルから計算された尤度分布を使用して計算される、請求項14記載の機器。
  16. 現ユーザに関して話者特性適応ベクトルを決定し、該話者特性適応ベクトルを代表的特徴ベクトル中に反映させることによって尤度分布を更新するように構成された話者特性適応装置
    をさらに含み、
    各尤度ベクトルが、それぞれの入力特徴ベクトルから、音声学的単位の代表的特徴ベクトルから計算された尤度分布を使用して計算される、請求項14記載の機器。
  17. ノイズ特徴ベクトル、話者特性適応ベクトルおよび代表的特徴ベクトルがスペクトルベクトルであり、話者特性適応装置が、以下の工程によって尤度分布を更新するように構成されている、請求項16記載の機器:
    該話者特性適応ベクトルを各代表的特徴ベクトルで乗じて、第一の修正代表的特徴ベクトルを生成する工程;
    該第一の修正代表的特徴ベクトルに該ノイズ特徴ベクトルを加えて、第二の修正代表的特徴ベクトルを生成する工程;および
    特徴空間中の該第二の修正代表的特徴ベクトルの統計的分布を尤度分布として決定する工程。
  18. 話者特性適応装置が、以下の工程によって話者特性適応ベクトルを決定または更新するように構成されている、請求項16記載の機器:
    最良一致の音声学的単位を各入力特徴ベクトルに割り当てる工程;
    各入力特徴ベクトルとそれぞれの代表的特徴ベクトルとの間の差分ベクトルを計算する工程;
    音声学的単位あたりの差分ベクトルの平均をとり、音素固有平均化差分ベクトルを生成する工程;および
    音素固有平均化差分ベクトルの平均をとる工程。
  19. 最良一致の単語モデルから名前を合成するように構成された合成装置
    をさらに含み;かつ
    制御装置が、最良一致の単語モデルから合成された該名前に対応する電話帳の中の番号をダイヤルする、
    請求項14記載の機器。
  20. ワーパが、最良一致の単語モデルのリストを決定するように構成されており;
    合成装置が、該リスト中の各最良一致の単語モデルの名前を合成するように構成されており;
    合成された名前を出力するように構成された出力装置と、
    出力された名前の一つをユーザに選択させるように構成された選択装置
    とをさらに含み;かつ
    制御装置が、選択された名前に対応する電話帳の中の番号をダイヤルする、
    請求項19記載の機器。
  21. 出力装置が、制御装置からの制御コマンドを出力する通信装置のスピーカを含み;
    マイクロフォンが、該スピーカが出力している間の環境ノイズを記録し;かつ
    記録されたノイズからスピーカ干渉を除去してノイズ入力を生成するように構成された干渉除去装置
    をさらに含む
    請求項20記載の機器。
  22. 少なくとも一つのプロセッサを制御するための、そこに記録されたコンピュータプログラム論理を有するコンピュータ使用可能媒体を含むコンピュータプログラム製品であって、該コンピュータプログラム論理が、以下を含む、コンピュータプログラム製品:
    音声認識モードに入るためのコンピュータプログラムコード手段;
    該音声認識モード中、ボイス入力を受けると、ボイス入力から入力特徴ベクトルを生成するためのコンピュータプログラムコード手段;
    該入力特徴ベクトルから、音声学的単位の発音時の尤度を示す尤度ベクトルシーケンスを計算するためのコンピュータプログラムコード手段;
    該尤度ベクトルシーケンスを音声学的単語モデルにワーピングするためのコンピュータプログラムコード手段;
    該音声学的単語モデルから単語モデル一致尤度を計算するためのコンピュータプログラムコード手段;および
    単語モデル一致の最良一致の一つを認識結果として決定するためのコンピュータプログラムコード手段。
  23. 通信装置上で実行されると、該通信装置が、以下の工程を含む方法を実施することを可能にするコンピュータプログラムコードを含む、メモリ装置:
    a) 音声認識モードに入る工程;
    b) 該音声認識モード中、ボイス入力を受けると、ボイス入力から入力特徴ベクトルを生成する工程;
    c) 該入力特徴ベクトルから、音声学的単位の発音時の尤度を示す尤度ベクトルシーケンスを計算する工程;
    d) 該尤度ベクトルシーケンスを音声学的単語モデルにワーピングする工程;
    e) 該音声学的単語モデルから単語モデル一致尤度を計算する工程;および
    f) 単語モデル一致の最良一致の一つを認識結果として決定する工程。
  24. a) 音声認識モードに入る工程;
    b) 該音声認識モード中、ボイス入力を受けると、ボイス入力から入力特徴ベクトルを生成する工程;
    c) 該入力特徴ベクトルから、音声学的単位の発音時の尤度を示す尤度ベクトルシーケンスを計算する工程;
    d) 該尤度ベクトルシーケンスを音声学的単語モデルにワーピングする工程;
    e) 該音声学的単語モデルから単語モデル一致尤度を計算する工程;および
    f) 単語モデル一致の最良一致の一つを認識結果として決定する工程
    を含む方法によって通信装置の少なくとも一つのプロセッサを制御するための命令を含む、コンピュータ読み取り可能媒体。
  25. 音声学的単位が音声学的単語モデルの単語サブモデルとして働き、各音声学的単語モデルが単語モデルベクトルのシーケンスを含み、および該単語モデルベクトルの成分が、音声学的単語モデルのそれぞれの位置で音声学的単位のそれぞれ一つを見いだす期待値を示す、請求項24記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
  26. 各尤度ベクトルが、選択言語の内部表現を使用してそれぞれの入力特徴ベクトルから計算される、請求項24の記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
  27. 内部言語表現が、特徴空間中の代表的特徴ベクトルの統計的分布を示す、音声学的単位の特徴ベクトルの代表的なものから計算された尤度分布を含む、請求項26記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
  28. 尤度分布の計算が、以下の工程を含む登録モードで実施される、請求項27記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体:
    無ノイズ環境で異なる話者によって発声されたボイス入力サンプルを記録する工程;
    選択言語で必要とされる音声学的単位に対応する、該ボイス入力サンプルの部分を選択する工程;および
    選択部分から代表的特徴ベクトルを生成する工程。
  29. 現ユーザの話者特性適応ベクトルを決定する工程、および該話者特性適応ベクトルを代表的特徴ベクトル中に反映させることによって尤度分布を更新する工程
    をさらに含む、請求項28記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
  30. 通信装置環境中のノイズを計測する工程;
    計測したノイズからノイズ特徴ベクトルを処理する工程;および
    該ノイズ特徴ベクトルを代表的特徴ベクトルに関連させることによって尤度分布を更新する工程
    をさらに含む、請求項28記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
  31. ノイズ特徴ベクトル、話者特性適応ベクトルおよび代表的特徴ベクトルがスペクトルベクトルであり、かつ尤度分布を更新する工程が、以下の工程を含む、請求項30記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体:
    該話者特性適応ベクトルを各代表的特徴ベクトルで乗じて、第一の修正代表的特徴ベクトルを生成する工程;
    該第一の修正代表的特徴ベクトルに該ノイズ特徴ベクトルを加えて、第二の修正代表的特徴ベクトルを生成する工程;および
    特徴空間中の該第二の修正代表的特徴ベクトルの統計的分布を更新尤度分布として決定する工程。
  32. 入力特徴ベクトル、ノイズ特徴ベクトル、話者特性適応ベクトルおよび代表的特徴ベクトルがスペクトルベクトルであり、該ノイズ特徴ベクトルおよび該代表的特徴ベクトルが非対数成分を有し、ならびに該入力特徴ベクトルおよび該話者特性適応ベクトルが対数成分を有し、かつ尤度分布を更新する工程が、以下の工程を含む、請求項記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体:
    各代表的特徴ベクトルを該ノイズ特徴ベクトルに加えて、第一の修正代表的特徴ベクトルを生成する工程;
    該第一の修正代表的特徴ベクトルの各成分を対数化する工程;
    該第一の修正され、対数化された代表的特徴ベクトルに該話者特性適応ベクトルを加えて、第二の修正代表的特徴ベクトルを生成する工程;および
    特徴空間中の該第二の修正代表的特徴ベクトルの統計的分布を尤度分布として決定する工程。
  33. 話者特性適応ベクトルを決定することが各代表的特徴ベクトルに関する話者特性適応ベクトルの計算を含み、以下の工程をさらに含む、請求項30記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体:
    最良一致の音声学的単位を各入力特徴ベクトルに割り当てる工程;
    各入力特徴ベクトルとそれぞれの代表的特徴ベクトルとの間の差分ベクトルを計算する工程;および
    各それぞれの代表的特徴ベクトルに関して音素固有平均化差分ベクトルを話者特性適応ベクトルとして計算する工程。
  34. 話者特性適応ベクトルが音素固有平均化差分ベクトルの平均をとったものである、請求項33記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
  35. 最良一致の単語モデルから名前を合成する工程、およびその名前に対応する番号をダイヤルする工程
    をさらに含む、請求項24記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
  36. 音声学的単語モデルが、電話帳の中の名前から書記素・音素変換を使用して単語サブモデルのシーケンスとして生成される、請求項24記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
JP2008555320A 2006-02-14 2007-02-13 話者非依存的音声認識を有する通信装置 Pending JP2009527024A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US77357706P 2006-02-14 2006-02-14
PCT/US2007/003876 WO2007095277A2 (en) 2006-02-14 2007-02-13 Communication device having speaker independent speech recognition

Publications (1)

Publication Number Publication Date
JP2009527024A true JP2009527024A (ja) 2009-07-23

Family

ID=38328169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008555320A Pending JP2009527024A (ja) 2006-02-14 2007-02-13 話者非依存的音声認識を有する通信装置

Country Status (7)

Country Link
US (1) US20070203701A1 (ja)
EP (1) EP1994529B1 (ja)
JP (1) JP2009527024A (ja)
KR (1) KR20080107376A (ja)
CN (1) CN101385073A (ja)
AT (1) ATE536611T1 (ja)
WO (1) WO2007095277A2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070225049A1 (en) * 2006-03-23 2007-09-27 Andrada Mauricio P Voice controlled push to talk system
US8521235B2 (en) * 2008-03-27 2013-08-27 General Motors Llc Address book sharing system and method for non-verbally adding address book contents using the same
US8515749B2 (en) * 2009-05-20 2013-08-20 Raytheon Bbn Technologies Corp. Speech-to-speech translation
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
WO2013167934A1 (en) 2012-05-07 2013-11-14 Mls Multimedia S.A. Methods and system implementing intelligent vocal name-selection from directory lists composed in non-latin alphabet languages
EP2876220B1 (en) 2012-07-19 2021-01-06 Sumitomo (S.H.I.) Construction Machinery Co., Ltd. Excavator
US9401140B1 (en) * 2012-08-22 2016-07-26 Amazon Technologies, Inc. Unsupervised acoustic model training
US10354657B2 (en) * 2015-02-11 2019-07-16 Bang & Olufsen A/S Speaker recognition in multimedia system
KR101684554B1 (ko) * 2015-08-20 2016-12-08 현대자동차 주식회사 음성 다이얼링 시스템 및 그 방법
JP7173049B2 (ja) * 2018-01-10 2022-11-16 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding
CN113673235A (zh) * 2020-08-27 2021-11-19 谷歌有限责任公司 基于能量的语言模型

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202385A (ja) * 1995-01-26 1996-08-09 Nec Corp 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置
JPH1165590A (ja) * 1997-08-25 1999-03-09 Nec Corp 音声認識ダイアル装置
US5930751A (en) * 1997-05-30 1999-07-27 Lucent Technologies Inc. Method of implicit confirmation for automatic speech recognition
EP1327976A1 (en) * 2001-12-21 2003-07-16 Cortologic AG Method and system for recognition of speech in a noisy environment
US20030156723A1 (en) * 2000-09-01 2003-08-21 Dietmar Ruwisch Process and apparatus for eliminating loudspeaker interference from microphone signals
EP1369847A1 (en) * 2002-06-04 2003-12-10 Cortologic AG Speech recognition method and system
JP2004109464A (ja) * 2002-09-18 2004-04-08 Pioneer Electronic Corp 音声認識装置及び音声認識方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4908865A (en) * 1984-12-27 1990-03-13 Texas Instruments Incorporated Speaker independent speech recognition method and system
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5353376A (en) * 1992-03-20 1994-10-04 Texas Instruments Incorporated System and method for improved speech acquisition for hands-free voice telecommunication in a noisy environment
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5758021A (en) * 1992-06-12 1998-05-26 Alcatel N.V. Speech recognition combining dynamic programming and neural network techniques
US5675706A (en) * 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
FI972723A0 (fi) * 1997-06-24 1997-06-24 Nokia Mobile Phones Ltd Mobila kommunikationsanordningar
KR100277105B1 (ko) * 1998-02-27 2001-01-15 윤종용 음성 인식 데이터 결정 장치 및 방법
US6321195B1 (en) * 1998-04-28 2001-11-20 Lg Electronics Inc. Speech recognition method
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
US6487530B1 (en) * 1999-03-30 2002-11-26 Nortel Networks Limited Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
FI114051B (fi) * 2001-11-12 2004-07-30 Nokia Corp Menetelmä sanakirjatiedon kompressoimiseksi
US20050197837A1 (en) * 2004-03-08 2005-09-08 Janne Suontausta Enhanced multilingual speech recognition system
JP4551915B2 (ja) 2007-07-03 2010-09-29 ホシデン株式会社 複合操作型入力装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202385A (ja) * 1995-01-26 1996-08-09 Nec Corp 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置
US5930751A (en) * 1997-05-30 1999-07-27 Lucent Technologies Inc. Method of implicit confirmation for automatic speech recognition
JPH1165590A (ja) * 1997-08-25 1999-03-09 Nec Corp 音声認識ダイアル装置
US20030156723A1 (en) * 2000-09-01 2003-08-21 Dietmar Ruwisch Process and apparatus for eliminating loudspeaker interference from microphone signals
EP1327976A1 (en) * 2001-12-21 2003-07-16 Cortologic AG Method and system for recognition of speech in a noisy environment
EP1369847A1 (en) * 2002-06-04 2003-12-10 Cortologic AG Speech recognition method and system
JP2004109464A (ja) * 2002-09-18 2004-04-08 Pioneer Electronic Corp 音声認識装置及び音声認識方法

Also Published As

Publication number Publication date
KR20080107376A (ko) 2008-12-10
WO2007095277A3 (en) 2007-10-11
EP1994529A2 (en) 2008-11-26
ATE536611T1 (de) 2011-12-15
WO2007095277A2 (en) 2007-08-23
CN101385073A (zh) 2009-03-11
EP1994529B1 (en) 2011-12-07
US20070203701A1 (en) 2007-08-30

Similar Documents

Publication Publication Date Title
EP1994529B1 (en) Communication device having speaker independent speech recognition
US6260012B1 (en) Mobile phone having speaker dependent voice recognition method and apparatus
US7689417B2 (en) Method, system and apparatus for improved voice recognition
KR100984528B1 (ko) 분산형 음성 인식 시스템에서 음성 인식을 위한 시스템 및방법
US20060215821A1 (en) Voice nametag audio feedback for dialing a telephone call
US8639508B2 (en) User-specific confidence thresholds for speech recognition
EP1262954A1 (en) Method and apparatus for verbal entry of digits or commands
US20070005206A1 (en) Automobile interface
JPH07210190A (ja) 音声認識方法及びシステム
JP4520596B2 (ja) 音声認識方法および音声認識装置
JPH09106296A (ja) 音声認識装置及び方法
US20050273334A1 (en) Method for automatic speech recognition
CN101345055A (zh) 语音处理器和通信终端设备
EP1110207B1 (en) A method and a system for voice dialling
US20050049858A1 (en) Methods and systems for improving alphabetic speech recognition accuracy
US20020069064A1 (en) Method and apparatus for testing user interface integrity of speech-enabled devices
KR100467593B1 (ko) 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체
WO2007067837A2 (en) Voice quality control for high quality speech reconstruction
KR100433550B1 (ko) 스피드 음성 다이얼 장치와 방법
JP6811865B2 (ja) 音声認識装置および音声認識方法
EP1385148B1 (en) Method for improving the recognition rate of a speech recognition system, and voice server using this method
JP2004004182A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
KR20190041108A (ko) 차량의 음성생성 시스템 및 방법
JP2020034832A (ja) 辞書生成装置、音声認識システムおよび辞書生成方法
CN101165776A (zh) 用于生成语音谱的方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100727

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111013

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111221

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120406