JP2012504250A - 音声認識方法 - Google Patents

音声認識方法 Download PDF

Info

Publication number
JP2012504250A
JP2012504250A JP2011513765A JP2011513765A JP2012504250A JP 2012504250 A JP2012504250 A JP 2012504250A JP 2011513765 A JP2011513765 A JP 2011513765A JP 2011513765 A JP2011513765 A JP 2011513765A JP 2012504250 A JP2012504250 A JP 2012504250A
Authority
JP
Japan
Prior art keywords
model
environment
speech
noise
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011513765A
Other languages
English (en)
Other versions
JP5242782B2 (ja
Inventor
シュ、ハイティアン
チン、キーン・ケオン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2012504250A publication Critical patent/JP2012504250A/ja
Application granted granted Critical
Publication of JP5242782B2 publication Critical patent/JP5242782B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

音声認識方法は、第1の雑音環境において観測系列を備える音声入力を受信することと、音響モデルを用いて観測系列から生じる単語系列の尤度を判定することと、第2の雑音環境においてトレーニングされたモデルを第1の環境のモデルに適応させることとを具備する。第2の環境においてトレーニングされたモデルを第1の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備する。同一の展開係数がグループ全体で使用される。

Description

本発明は、パターン認識の技術分野に関し、具体的には音声認識に関する。特に、本発明は、雑音のある環境における音声認識に関する。
音声認識は、隠れマルコフモデル(HMM)などのトレーニングされたモデルの使用に依存して、表示または更に処理することのできる認識単語へとオーディオ音声信号をデコードする技術である。更なる処理は、言語翻訳デバイスへテキストを出力すること、または、声制御される装置用の理解可能な命令へと認識単語を変換することを含み得る。
一般に、モデルは雑音のない環境においてトレーニングされる。しかしながら、使用時に、システムは一般的にラボラトリのトレーニング環境に比べて相対的に雑音のある環境において使用される。
雑音のある環境における音声認識について、2つの好結果の技術が開発されてきた。これらのうちの第1のものは、ベクトルテーラー級数(VTS)法である。VTS法は、非特許文献1に記載されている。VTS法は、各ガウス混合レベルでHMMを補償する。システムは、各混合の平均値をテーラー拡張点として使用し、各混合についてテーラー拡張行列を計算する。認識の間の尤度は、下記のように表される。
Figure 2012504250
ここでp(yIm)は雑音のある音声特徴yからのガウス混合mの尤度であり、μ及びΣはガウス混合平均及びガウス混合分散である。
VTSにおいて、雑音のある特徴とクリーンな特徴との間の関係は下記のように仮定される。
Figure 2012504250
ここでyは雑音のある音声特徴であり、xは対応するクリーンな音声特徴であり、Cは離散コサイン変換行列であり、n及びhは夫々加法性雑音についての静的特徴及び畳み込み性雑音についての静的特徴である。
テーラー展開点(x,n,h)が与えられると、上記の非線形関係は下記のように一次テーラー級数によって線形的に近似可能である。
Figure 2012504250
上記の関係を使用することによって、クリーンな音声についてのガウス平均及びガウス分散を雑音のある音声についてのガウス平均及びガウス分散に関連付けることが可能となる。これは、受信信号の静的項、デルタ項及びデルタデルタ項に対してなされ得る。これらの変換を適用することによって、トレーニングされたクリーンなモデルを雑音のある環境に対して適応させることが可能となる。
上記の方法は、変換パラメータがHMMにおけるガウス毎に計算される必要があるので、計算的に非常に困難であるという問題を負う。一般に、この手続において、一次テーラー級数展開のみが使用される。
代わる方法は、いわゆるJUD(Joint uncertainty decoding)法であって、これは非特許文献2に記載されている。JUD法は、混合mについて出力確率を下記のように計算する。
Figure 2012504250
混合mがr番目のクラスに属することが仮定され、方法はクラス毎のベースで行われる。これは、同一の回帰クラスに関するJUD変換が下記のように定義されることを意味する。
Figure 2012504250
ここで、Λ 、Ξ 、Λ 及びΞ は夫々回帰クラスrにおけるクリーンな音声についての平均及び共分散と雑音のある音声についての平均及び共分散であって、Ξ yxは相互共分散行列である。Ξ yxの計算は、計算の観点から高くつき、一次テーラー展開によってしばしば近似される。
JUD及びVTS法は両方とも一次テーラー級数の計算を包含するので、結果をうまく処理したのちにJUDは本質的にVTS法と等価であると理解することができる。しかしながら、VTSにおいて一次計算はガウス毎に行われる一方、JUDにおいて一次計算は回帰クラス毎に行われる。これは、JUD法がVTS法よりも計算的に有利であることを意味する。しかしながら、JUD法は、VTSに比べてかなり低い精度を持つ。
Acero et al: "HMM adaptation using vector Taylor series for noisy speech recognition", ICSLP−2000, vol.3, 869−872 Liao, H. / Gales, M. J. F. (2005): "Joint uncertainty decoding for noise robust speech recognition", INTERSPEECH−2005, 3129−3132
本発明は、上記の問題を扱い、JUD法と計算的に同様であるが更にVTS法に比べて良好な精度を達成する音声認識方法を導くことを企図した。
従って、第1の態様において、本発明は、音声認識方法を提供する。この方法は、
第1の雑音環境において観測系列を備える音声入力を受信することと、
音響モデルを用いて観測系列から生じる単語系列の尤度を判定することとを具備する。音響モデルを用いて観測系列から生じる単語系列の尤度を判定することは、
第2の雑音環境において音声を認識するようにトレーニングされ、観測に関連している単語またはその一部の確率分布に関連する複数のモデルパラメータを持つ、観測系列を備える入力信号の音声認識を行うための音響モデルを準備することと、
第2の環境においてトレーニングされたモデルを第1の環境のモデルに適応させることとを具備する。
音声認識方法は、言語モデルを用いて所与の言語において生じる観測系列の尤度を判定することと、
音響モデル及び言語モデルによって判定された尤度を組み合わせ、音声入力信号から同定された単語系列を出力することとを更に具備する。
第2の環境においてトレーニングされたモデルを第1の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備する。同一の展開係数が、グループ全体で使用される。
モデルは、第2の雑音環境について得られたパラメータを第1の雑音環境についてのパラメータに変換することによって適応されてよい。例えば、第2の雑音環境について判定された確率密度関数の平均及び分散が、第1の雑音環境における平均及び分散へと直接的に修正されてよい。モデルは、これらのパラメータの修正の効果を持つがこれらのパラメータを直接的に変換しないやり方で適応されてもよい。例えば、上の数式(d)のJUD式の適応が使用されてよい。
好ましい実施形態において、グループが更に組み合わせられて集約グループを形成し、j次テーラー係数はこのグループについて計算及び使用され、j+1次係数はこの集約グループについて計算及び使用され、ここでjは最小で1の整数である。
このグループは、好ましくは、第2の雑音環境におけるモデルのトレーニングの間に形成される回帰クラスである。これらのクラスは、普通は、モデルが第1の環境において記録された音声について使用されるよりも前に形成される。
更なる好ましい実施形態において、グループは、2クラス、それから4クラス、それから8クラスを形成して回帰ツリーを形成するように確率分布の総数を連続して2で再分割することによって形成された回帰クラスである。このようなアレンジにおいて、回帰クラスの数は4から32までの範囲、例えば好ましくは8乃至32にあってよい。
一次テーラー係数は回帰ツリー上の1つのレベルのクラスについて計算される一方、二次テーラー係数はより少ない回帰クラスを備える異なるレベルについて計算されてよい。ほんの2個のクラスを備える回帰ツリーレベルについて二次係数を計算することが有意な改善を与えるということがわかっている。
音声の静的項だけを使用して音声認識を行うことは可能であるが、好ましくはデルタ及びデルタデルタ平均及び/または分散もまた使用される。しかしながら、静的項、デルタ項及びデルタデルタ項の各々に同じ次数のテーラー展開を使用する必要はない。好ましい実施形態において、二次は静的項及びデルタ項について計算されるが、デルタデルタ項について計算されない。単に静的項だけに二次を計算することも可能である。
雑音パラメータは、加法性雑音の成分及び畳み込み性雑音の成分を備えてもよい。
第1の雑音環境における特徴または観測と、第2の雑音環境における特徴または観測との間の関係は、下記のように関係付けられてよい。
Figure 2012504250
ここで、yは第1の雑音環境における観測であり、xは第2の雑音環境における観測であり、nは加法性雑音であり、hは第2の環境に対する第1の環境における畳み込み性の雑音であり、Cは離散コサイン変換行列であるとする。とはいえ、他のモデルも使用されてよい。
好ましい実施形態において、テーラー展開係数を判定するために雑音パラメータの平均が推定及び使用される。平均を推定する処理は、音声が存在しない音声入力信号の一部から初期推定を行うことを伴ってよい。この初期推定は、発話全体(即ち、無音部分だけでない)に基づく期待値最大化法などの周知の方法を使用することによって更に精錬されてよい。
一般に、確率関数はガウスであり、音響モデルは隠れマルコフモデルである。
多くの場合、第1の環境は雑音のある環境で、第2の環境は雑音のない環境である。しかしながら、本発明が異なる雑音レベルを備えるいかなる2つの環境の間でもモデルを適応させるために使用可能であることは当業者に認められるだろう。
この方法は、環境の雑音性についてのいかなるテストの実行も必要とせずにこの方法をいつも適用するようなシステムにおいて具体化されてよい。或いは、上述のモデルを補償するという用途を雑音環境が保証するかどうかを調べるために、雑音テストが最初に行われてもよい。
この発明は、上の方法の出力が異なる言語に翻訳され、認識された音声を異なる言語で出力する音声翻訳システムの一部として使用されてよい。出力することは、テキスト−音声変換法を使用することを具備してもよい。
第2の態様において、本発明は、音声認識装置を提供する。この装置は、
観測系列を備える音声入力のための受信器と、
音響モデルを用いて観測系列から生じる単語系列の尤度を判定するように適合されたプロセッサとを具備する。このプロセッサは、
音声入力の第1の雑音環境と異なる第2の雑音環境において音声を認識するようにトレーニングされ、観測に関連している単語またはその一部の確率分布に関連する複数のモデルパラメータを持つ、入力信号の音声認識を行うための音響モデルを準備し、
第2の環境でトレーニングされたモデルを第1の環境のモデルに適応させるように、適合されている。
プロセッサは、言語モデルを用いて所与の言語において生じる観測系列の尤度を判定し、
音響モデル及び言語モデルによって判定された尤度を組み合わせるように、更に適合され、
装置は、音声入力信号から同定された単語系列を出力するために適合された出力を更に具備する。
第2の環境においてトレーニングされたモデルを第1の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備する。同一の展開係数が、グループ全体で使用される。
上のものは、第1及び第2の雑音環境の間で音声認識モデルを適応させるための方法と考えることができる。従って、第3の態様において、方法は、
第2の雑音環境において音声を認識するようにトレーニングされ、観測に関連している単語またはその一部の確率分布に関連する複数のモデルパラメータを持つ、観測系列を備える入力信号に音声認識を行うためのモデルを準備することと、
第2の環境においてトレーニングされたモデルを第1の環境のモデルに適応させることとを具備する。
第2の環境においてトレーニングされたモデルを第1の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備する。同一の展開係数が、グループ全体で使用される。
上記説明は音声認識に集中されてきたが、この方法は他の形態のパターン認識にも適用可能である。
故に、第4の態様において、本発明は第1及び第2の雑音環境の間でパターン認識モデルを適応させる方法を提供する。この方法は、
第2の雑音環境においてパターンを認識するようにトレーニングされ、観測に関連しているパターンの成分の確率分布に関連する複数のモデルパラメータを持つ、観測系列を備える入力信号にパターン認識を行うためのモデルを準備することと、
第2の環境においてトレーニングされたモデルを第1の環境のモデルに適応させることとを具備する。
第2の環境においてトレーニングされたモデルを第1の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備する。同一の展開係数が、グループ全体で使用される。
第5の態様において、本発明は、コンピュータに上の方法のうちのどれでも行わせるように構成されたコンピュータプログラムを実行するコンピュータを提供する。
本発明は、下記の限定されない実施形態を参照しながらこれから説明されるだろう。
図1は、一般的な音声認識システムの概略図である。 図2は、音声認識プロセッサの要素の概略図である。 図3は、ガウス確率関数の概略図である。 図4は、確率密度関数及び観測ベクトルの両方を表す音響空間の概略的なプロットである。 図5は、本発明の一実施形態に係る音声認識方法を示すフロー図である。 図6は、回帰ツリーの概略図である。 図7は、本発明及び従来技術の方法についての回帰クラス数に対する音声認識の誤り率のプロットである。 図8は、本発明及び従来技術の方法についての回帰クラス数に対する関与する変換の数のプロットである。
図1は、非常に基本的な音声認識システムの概略図である。ユーザ(図示されない)は、マイクロホン1またはオーディオシステム用の他の収集デバイスに発話する。デバイス1は予め記録されたオーディオデータを持つメモリに代替され得るし、デバイス1は遠隔地からオーディオデータを受信するためのネットワーク接続であってもよい。
音声信号は、それから、図2を参照しながらより詳細に説明されるであろう音声プロセッサ3へと向けられる。
音声プロセッサ3は、音声信号を受け取り、それを当該音声信号に対応するテキストへと変える。多くの異なる形式の出力が利用可能である。例えば、出力は、画面に出力される表示5という形式であってもよい。或いは、出力は、プリンタまたは同種のものに向けられ得る。その上、出力は、更なるシステム9に供給される電子信号という形式であり得る。例えば、更なるシステム9は、プロセッサ3から出力されるテキストを受け取ってそれを異なる言語へと変換する音声翻訳システムの一部であり得る。変換されたテキストは、それから、更なるテキストまたは音声システムを経由して出力される。
或いは、プロセッサ3によって出力されるテキストは異なる種類の装置を操作するために使用されてよく、例えば、それはユーザが音声を媒介として種々の機能を制御する携帯電話機、自動車などの一部であり得る。
図2は、図1に示される種類の音声認識プロセッサ3の標準的な要素のブロック図である。マイクロホンから、ネットワークを通じて、または、記録媒体1から受信される音声信号は、フロントエンド部11へ向けられる。
フロントエンド部11は、受信音声信号をデジタル化し、等長のフレームに分割する。音声信号は、それから、「音響空間」にプロットされる種々のパラメータを判定するためにスペクトル解析を施される。導出されるパラメータは、以降により詳細に論じられるだろう。
フロントエンド部11は、更に、音声信号でないと思われる信号及び他の無関係な情報を除去する。ポピュラーなフロントエンド部は、フィルタバンク(F BANK)パラメータ、メル周波数ケプストラム係数(MFCC)及び知覚線形予測(PLP)パラメータを使用する装置を備える。フロントエンド部の出力は、n次元音響空間にある入力ベクトルの形式である。
入力ベクトルは、それから、音響モデル部15及び言語モデル部17と協同するデコーダ13に送られる。音響モデル部15は、一般に、隠れマルコフモデルを用いて作用する。しかしながら、コネクショニストモデル及びハイブリッドモデルに基づく音響モデルを使用することも可能である。
音響モデル部15は、音響入力だけに基づいて単語またはその一部に対応する観測系列の尤度を導出する。
言語モデル部17は、所与の言語において、単語または単語の一部の特定の系列が相互に続く確率に関する情報を含む。一般に、統計的モデルが使用される。最もポピュラーな方法は、N−gramモデルである。
デコーダ13は、それから、音響モデル15及び言語モデル17からの結果を用いて所与の音声発話について最高の書写(transcription)を発見するために、動的プログラミング(DP)アプローチを伝統的に使用する。
これは、それから、テキストを表示させ、テキストを提示させ、または、(例えば音声翻訳のための音声における、または、音声作動式のデバイスを制御するための)更なる使用のためにテキストを変換させる出力デバイス19を経由して出力される。
この記述は、隠れマルコフモデル(HMM)である音響モデルの使用に主に関するものになるだろう。しかしながら、他のモデルについて用いられることも可能である。
この実施形態において使用される実際のモデルは標準的なモデルであって、この詳細はこの特許出願の範囲外である。しかしながら、モデルは、単語またはその一部に関連している音響ベクトルによって表される観測の確率に関連する確率密度関数(pdf)についての規定を必要とするだろう。一般に、この確率分布は、n次元空間におけるガウス分布だろう。
一般的なガウス分布の概略例が図3に示されている。ここで、水平軸は一次元上の入力ベクトルのパラメータに対応し、確率分布は観測に関連している特定の単語またはその一部についてのものである。例えば、図3において、音響ベクトルxに対応する観測は、その確率分布が図3に示される単語に対応する確率p1を持つ。ガウスの形状及び位置は、その平均及び分散によって定められる。これらのパラメータは、音響モデルが語彙についてトレーニングする間に判定され、それらは「モデルパラメータ」と呼ばれるだろう。
HMMにおいて、モデルパラメータが一度判定されたならば、モデルは単語または単語の一部の系列に対応する観測系列の尤度を判定するために使用可能となる。
図4は、観測が観測ベクトルまたは特徴ベクトルxによって表される音響空間の概略的なプロットを表す。白丸gは音響空間にプロットされるガウスまたは他の確率分布関数の平均に対応する。
デコードの間、音響モデルは、特徴ベクトルxがガウスによって表される単語またはその一部に対応することの、多数の異なる尤度を計算するだろう。これらの尤度は、それから、音響モデルにおいて使用され、発話テキストを判定するために言語モデルからの確率と組み合わせられる。
音響モデルは、一般に、雑音のない、または、いわゆる「クリーンな」コンディションのもとでトレーニングされる。しかしながら、システムに入力される音声が今度はより雑音のあるコンディションのもとで収集されるならば、システムの誤り率は増加するだろう。図2を参照しながら説明されたフロントエンド部11は、雑音の一部を除去できる。しかしながら、その一部は、入力音声信号に深く染みこんでいるので、この初期段階で除去することは不可能である。
図5は、クリーンなコンディションのもとでトレーニングされた音響モデルを使用する時に、雑音のある入力信号を処理するための本発明の実施形態に従う方法のフロー図である。まず、ステップS51において、雑音のある入力信号が収集される。これは、図1及び図2を参照しながら説明された。
それからステップS53において、この信号における雑音の示度(indication)が判定される。雑音の推定についての可能な方法は、全く音声が存在しない入力信号の一部を評価することである。しばしば、最初及び最後の少数のフレームは全く音声を持たないとみなされる。
好適な方法において、雑音は加法性雑音nまたは畳み込み性雑音hのどちらかとして分類される。加法性雑音nは一般的な背景雑音である一方、畳み込み性雑音hはチャネル雑音である。
雑音のある環境における特徴をクリーンな環境における特徴に関連付けるためのモデルは、下記のように表される。
Figure 2012504250
ここでCは離散コサイン変換行列を示し、n、h、x及びyは加法性雑音、畳み込み性雑音、クリーンな音声及び雑音のある音声の夫々についての静的特徴である。
このように、雑音パラメータが一度確立されると、雑音のある環境を補償することが可能となる。雑音は、音声信号の収集の間にフレーム毎に変動する。しかしながら、上記のフレームから、加法性雑音の平均、加法性雑音の分散、畳み込み性雑音の平均及び畳み込み性雑音の分散を推定することが可能である。一般に、畳み込み性雑音は各発話に亘って不変であることが仮定され、故にその分散は0であると仮定される。
雑音の平均及び分散のデルタ項及びデルタデルタ項を推定することも可能である。デルタ項は平均または分散の時間に関する一次導関数であって、デルタデルタ項は平均または分散の時間に関する二次導関数である。
この実施形態において、グループを形成するために、回帰クラスが使用される。回帰クラスは、モデル特定特徴が一緒にグループ化されるガウスで生成される。回帰クラスは、第2のまたはクリーンな雑音環境におけるモデルの初期トレーニングの間に展開されるので、それらは使用可能である。この回帰処理は、周知であって、ここではこれ以上詳細に説明されないだろう。
図6は、回帰クラスを形成するために使用される回帰ツリーの概略を示す。レベル(i)では全てのガウスが1個のグループを形成する。このグループは、レベル(ii)では2個のクラスに分割される。これら2個のクラスは、それからレベル(iii)において4個のクラスに更に再分割され、それからレベル(iv)において更に8個のクラスに再分割されるなどする。
ステップS57において、クラス毎にテーラー展開係数が判定される。
雑音のある環境を処理するためのテーラー展開係数の使用が知られている。既知のVTS法において、上の数式(1)はテーラー拡張点(x,n,h)を用いて近似され、下記の数式を与える。
Figure 2012504250
ここでIは恒等行列である。
上記のものを用いて、雑音のある環境についてのガウスの平均及び分散とクリーンな環境についてのガウスの平均及び雑音とが関連付けられ得る。この従来技術の方法において、テーラー展開係数はガウス毎に計算される。
既知のJUD法も、テーラー展開を使用する。JUD法において、静的項、デルタ項及びデルタデルタ項を含む完全な雑音のある特徴Yのガウス混合毎に尤度が計算される。
Figure 2012504250
ここで混合mがr番目の回帰クラスに関連することが仮定され、A、b及びΞ は回帰クラスに関連するJUD変換である。
Figure 2012504250
ここで、Λ 、Ξ 、Λ 及びΞ は、夫々回帰クラスrにおけるクリーンな音声についての平均及び共分散と雑音のある音声についての平均及び共分散であって、Ξ yxは相互共分散行列である。Ξ yxの計算は、計算の観点から高くつき、一次テーラー展開によってしばしば近似される。Aは、下記となる。
Figure 2012504250
この方法を用いると、上のVTSに関して、雑音のある環境におけるガウスの平均及び分散をクリーンな環境におけるガウスの平均及び分散に直接的に関連付けることが可能となる。
各混合の平均を用いる代わりにJUDは回帰クラスの平均に展開を適用するということを除いて、JUDはそのあとVTS法と大部分は等価になる。
実施形態に従う方法は、二次またはより高次のテーラー展開を用いるJUD法と考えることができる。
二次近似を用い、かつ、展開点(μ ,μ,μ)を用いると、この特徴ベクトルの2次テーラーは下記である。
Figure 2012504250
ここでdiag{.}は所与の行列の対角をベクトルとして出力し、diag−1{.}はベクトルを対角行列へと展開する。二次導関数Kは下記のように計算される。
Figure 2012504250
上式の両辺の平均値を取ると、HMM平均適応のための新たなJUD公式が下記のように得られる。
Figure 2012504250
上の公式において、d、d Δ、d ΔΔは、各混合に依存するベクトルである。
Figure 2012504250
これは、尤度計算が下記のように書き換え可能であることを意味する。
Figure 2012504250
ここで、
Figure 2012504250
は、上式及び数式(3)との間の唯一の相違点である。
上のものは、二次近似を伴うJUDである。これは、本来のJUD形式及び周知のVTSアレンジよりもかなりの利点を持つ。
上の形式は、本来のJUDにとって殆ど不可能な、一般に使用される一次VTSを認識精度で打ち負かすことができる。次に、新たなJUD公式は一次近似を伴う本来のJUDに比べて追加の計算コスト及び計算を導入するが、W及びKの計算は回帰クラス毎にだけ行われるから、その全体のコストはVTSよりも依然として予想的にはずっと少ない。故に、二次近似を伴うJUDは、VTSを計算コスト及び認識精度で打ち負かすことが期待される。
パラメータが一度判定されたならば、ステップS59において示されるように、それらは現行の音響モデルパラメータを修正するために使用される。
ステップS61において、音響モデルは修正されたパラメータを用いて雑音のある入力に対して実行される。それからステップS63において、同定された単語が出力される。
第1の実施形態に従う方法において、一次及び二次テーラー係数は、選ばれた回帰クラスレベルにおいて回帰クラス毎に計算される。例えば、レベル(iv)が選ばれるならば、一次及び二次テーラー係数は、そのレベルの8個の回帰クラス毎に計算される。
第2の実施形態において、一次テーラー係数はガウスが割り当てられた回帰クラス毎に計算される。しかしながら、二次テーラー係数はより高いグループについてのみ計算される。例えば、図6において、レベル(iv)の8個の回帰クラスR乃至Rが存在する。一次テーラー展開係数は回帰クラスR乃至Rの各々からの平均から計算されるだろう。しかしながら、二次テーラー係数は、レベル(iii)の4個のクラスについてのみ計算されるだろう。従って、同一の二次テーラー係数がクラスR及びRについて使用され、同一の二次テーラー係数がグループR及びRについて使用される。
gベクトルとW及びK行列は二次近似において高くつくので、上の近似は動作速度を高める。故に、計算される必要のあるこれらの行列及びベクトルの全体的な数を減少させることによって、効率が改善し得る。テーラー展開の原理に基づくと、テーラー級数において低次の項は、高次の項に比べてより重要である。具体的には、零次項gはテーラー展開について最も重要であり、一次項Wは比較的重要でない一方、二次項Kは最も重要でない。
故に、1より多くのグループにあてはまるであろうより大きなグループについてのみKを計算することは、精度の著しい変化に帰着しないだろう
従って、この方法は、低次の係数がより多くの回帰クラスについて計算され、かつ、高次の係数がより少ないクラスについて計算される状態で、異なる回帰クラスレベルがテーラー展開係数の異なる次数について使用されるということに適合可能である。
デルタデルタ特徴項においてJUDの二次近似を適用することは、静的項及びデルタ項に比べて精度に殆ど改善を与えないということもまた注目された。計算コストを考えると、静的項及びデルタ項についてのみ二次JUDを計算し、かつ、デルタデルタ項には一次JUDだけを使用することが好ましい。
図7は、使用された回帰クラスの数に対する単語誤り率(WER)のプロットである。従来技術の方法であるVTS、二次VTS(2ndVTS)について結果が示されている。単にこれらは回帰クラスを使用しないので、これらの跡の両方が回帰クラスの数に関わらず不変であることに注目されたい。データは、一次JUD(1stJUD)の結果も示す。最後に、一次及び二次係数が各回帰クラスについて計算される2ndJUDと、一次係数が各回帰クラスについて計算され、かつ、二次係数が2個の回帰クラス(即ち、図6のレベル(ii))についてのみ計算される2ndJUD−TIE2という本実施形態の2個の実装からの結果が示される。
データは連続数字についてのオーロラ2(Aurora 2)データベースを用いて収集された。このデータベースは、2個のトレーニングセット(クリーン及びマルチコンディション)と、3個の雑音のあるテストセットとに分割される。テストセットA及びBは夫々20から0デシベルに及ぶSNRを備える4個の異なる種類の加法性雑音を含み、セットCもまた畳み込み性雑音を含む。実験において、クリーントレーニングセットがモデルをトレーニングするために使用され、テストセットA及びBが回帰テストのために使用された。
回帰は、「HTK: Hidden Markov Model Toolkit 2 version 1.5 1993 S. Young」からのHMMを用いて行われた。各数字は3個の混合を備える16HMM状態によってモデル化され、無音は夫々6個の混合を備える3個の状態によってモデル化された。これは、全部で546個の混合を残す。フロントエンドは、それらのデルタ及びデルタデルタ成分の零次の係数を含む13次元MFCCであった。回帰処理は、「Li et al “High performance HMM adaptation with joint compensation of additive and convolutive distortions via a vector Taylor series” Proc. of ASRU Dec 2007」によって使用されるものと類似する2クラスモードで実装される。
実験において、デルタ項及びデルタデルタ項だけではなく初期雑音パラメータμ、Σ及びμが、各発話の最初及び最後の20フレームから推定された。
一次VTSは、それから適用され、初期認識仮説を生成するためにHMMを適応させる。
期待値最大化ベースのVTS雑音推定処理が、初期仮説に基づいて雑音パラメータを精錬するために採用された。
そこで精錬された雑音パラメータは、それから、HMMを補償し、最終認識結果を得るために上の方法において使用される。
回帰クラスの数が増加するにつれて、一次近似を伴うJUDの性能が一次VTSの性能にいっそう近くなるということが明らかである。しかしながら、二次テーラー拡張を適用することによって、その形式が簡単化されたJUDまたはそうでないJUDは一貫して性能を改善する。回帰クラスの数が16より大きくなる時に、この性能は一次VTSに比べて有意に良くなる。
オーロラ2では簡単化されたバージョンが簡単化されていないバージョンに比べて良好な性能を達成するということに注目するのは興味深い。より詳細な結果が下記の表1に示されており、これはちょうど32個の回帰クラスを伴う簡単化された二次JUDがVTSのセットAについて6.1%及びセットBについて5.6%のWERの相対的な改善をもたらすということを示す。このような改善は、全ての雑音の種類に亘って一貫している。
Figure 2012504250
表2は、各方法に関与する変換(即ち、K及びW行列)の数を示す。
Figure 2012504250
回帰クラスの数に対する、「命令の数」として量子化された計算コストが図8に示される。JUDベースの方法は、変換の数がVTSに比べて限られ、故に計算コストがずっと小さい。本来のJUDに比べて、JUDの二次近似は追加の計算コストを導入するが、それは依然として一次及び二次VTSに比べてずっと速い。このような追加の計算コストは、簡単化された二次近似を使用することによって大きく低減することができる。セットAで32個の回帰クラスを用いた6%のWERの改善を仮定すると、簡単化された二次近似を伴うJUDは一次VTSに比べて約60%速い。

Claims (20)

  1. 第1の雑音環境において観測系列を備える音声入力を受信することと、
    音響モデルを用いて前記観測系列から生じる単語系列の尤度を判定することと
    を具備する音声認識方法において、
    前記音響モデルを用いて前記観測系列から生じる単語系列の尤度を判定することは、
    第2の雑音環境において音声を認識するようにトレーニングされ、観測に関連している単語またはその一部の確率分布に関連する複数のモデルパラメータを持つ、観測系列を備える入力信号に音声認識を行うための音響モデルを準備することと、
    第2の環境においてトレーニングされたモデルを第1の環境のモデルに適応させることと
    を具備し、
    前記音声認識方法は、
    言語モデルを用いて所与の言語において生じる観測系列の尤度を判定することと、
    前記音響モデル及び前記言語モデルによって判定された尤度を組み合わせ、前記音声入力信号から同定された単語系列を出力することと
    を更に具備し、
    前記第2の環境においてトレーニングされたモデルを前記第1の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備し、
    同一の展開係数が、前記グループ全体で使用される、
    音声認識方法。
  2. 前記グループは、前記モデルの初期トレーニングの間の回帰によって形成される回帰クラスである、請求項1に従う音声認識方法。
  3. 前記グループは更に組み合わせられて集約グループを形成し、j次テーラー係数は前記グループについて計算及び使用され、j+1次テーラー係数は前記集約グループについて計算及び使用される、請求項1または2のいずれかに従う音声認識方法。
  4. 前記モデルパラメータは静的平均及び静的分散を備える、請求項1乃至3のいずれか1項に従う音声認識方法。
  5. 前記モデルパラメータは、平均及び分散のデルタ項及びデルタデルタ項も備え、二次またはより高次の項は前記デルタデルタ項について計算されない、請求項4に従う音声認識方法。
  6. 雑音パラメータは、加法性雑音についての成分及び畳み込み性雑音についての成分を備える、請求項1乃至5のいずれか1項に従う音声認識方法。
  7. 前記第1の雑音環境における観測と前記第2の雑音環境における観測との間の関係が下記のように関係付けられ、
    Figure 2012504250
    ここで、yは前記第1の雑音環境における観測であり、xは前記第2の雑音環境における観測であり、nは前記加法性雑音であり、hは前記第2の環境に対する前記第1の環境における前記畳み込み性雑音であり、Cは離散コサイン変換行列である、請求項6に従う音声認識方法。
  8. 雑音パラメータの平均が前記テーラー展開係数を判定するために推定及び使用される、請求項1乃至7のいずれか1項に従う音声認識方法。
  9. 前記平均の初期推定は、音声が存在しない前記音声入力信号の一部から得られる、請求項8に従う音声認識方法。
  10. 確率関数がガウスである、請求項1乃至9のいずれか1項に従う音声認識システム。
  11. 前記音響モデルが隠れマルコフモデルである、請求項1乃至10のいずれか1項に従う音声認識システム。
  12. 前記第1の環境は雑音のある環境であり、前記第2の環境は雑音のない環境である、請求項1乃至11のいずれか1項に従う音声認識システム。
  13. 請求項1乃至12のいずれか1項に従って音声入力信号を認識することと、
    認識音声を異なる言語に翻訳することと、
    前記認識音声を前記異なる言語で出力することと
    を具備する、音声翻訳方法。
  14. 前記認識音声を出力することは、テキスト−音声変換法を使用することを具備する、請求項13に従う音声翻訳方法。
  15. 第1及び第2の雑音環境の間で音声認識モデルを適応させる方法において、前記方法は、
    第2の雑音環境において音声を認識するようにトレーニングされ、観測に関連している単語またはその一部の確率分布に関連する複数のモデルパラメータを持つ、観測系列を備える入力信号に音声認識を行うためのモデルを準備することと、
    第2の環境においてトレーニングされたモデルを第1の環境のモデルに適応させることと
    を具備し、
    前記第2の環境においてトレーニングされたモデルを前記第1の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備し、
    同一の展開係数が、前記グループ全体で使用される、
    方法。
  16. 第1及び第2の雑音環境の間でパターン認識モデルを適応させる方法において、前記方法は、
    第2の雑音環境においてパターンを認識するようにトレーニングされ、観測に関連しているパターンの成分の確率分布に関連する複数のモデルパラメータを持つ、観測系列を備える入力信号にパターン認識を行うためのモデルを準備することと、
    第2の環境においてトレーニングされたモデルを第1の環境のモデルに適応させることと
    を具備し、
    前記第2の環境においてトレーニングされたモデルを前記第1の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備し、
    同一の展開係数が、前記グループ全体で使用される、
    方法。
  17. 請求項1乃至16のいずれか1項の方法をコンピュータに行わせるように構成されたプログラムを実行するコンピュータ。
  18. 観測系列を備える音声入力のための受信器と、
    音響モデルを用いて前記観測系列から生じる単語系列の尤度を判定するように適合されたプロセッサと
    を具備する音声認識装置において、
    前記プロセッサは、
    前記音声入力の第1の雑音環境と異なる第2の雑音環境において音声を認識するためにトレーニングされ、観測に関連している単語またはその一部の確率分布に関連する複数のモデルパラメータを持つ、入力信号に音声認識を行うための音響モデルを準備し、
    第2の環境においてトレーニングされたモデルを第1の環境のモデルに適応させる
    ように適合され、
    前記プロセッサは、
    言語モデルを用いて所与の言語において生じる観測系列の尤度を判定し、
    前記音響モデル及び前記言語モデルによって判定された尤度を組み合わせる
    ように更に適合され、
    前記装置は、音声入力信号から同定された単語系列を出力するように適合された出力を更に具備し、
    前記第2の環境においてトレーニングされたモデルを前記第1の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備し、
    同一の展開係数が、前記グループ全体で使用される、
    装置。
  19. 前記グループを更に組み合わせて集約グループを形成するように更に適合され、j次テーラー係数は前記グループについて計算及び使用され、j+1次テーラー係数は前記集約グループについて計算及び使用される、請求項18に従う音声認識装置。
  20. 前記出力は、ディスプレイ、プリンタ、または、更なる装置によって読み取り可能な電子信号を備える、請求項18または19のいずれかに従う装置。
JP2011513765A 2008-09-29 2009-09-24 音声認識方法 Expired - Fee Related JP5242782B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0817824A GB2464093B (en) 2008-09-29 2008-09-29 A speech recognition method
GB0817824.6 2008-09-29
PCT/JP2009/067135 WO2010035892A1 (en) 2008-09-29 2009-09-24 Speech recognition method

Publications (2)

Publication Number Publication Date
JP2012504250A true JP2012504250A (ja) 2012-02-16
JP5242782B2 JP5242782B2 (ja) 2013-07-24

Family

ID=40019748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011513765A Expired - Fee Related JP5242782B2 (ja) 2008-09-29 2009-09-24 音声認識方法

Country Status (4)

Country Link
US (1) US8417522B2 (ja)
JP (1) JP5242782B2 (ja)
GB (1) GB2464093B (ja)
WO (1) WO2010035892A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290170B2 (en) * 2006-05-01 2012-10-16 Nippon Telegraph And Telephone Corporation Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics
GB2478314B (en) 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
US8660842B2 (en) * 2010-03-09 2014-02-25 Honda Motor Co., Ltd. Enhancing speech recognition using visual information
GB2482874B (en) 2010-08-16 2013-06-12 Toshiba Res Europ Ltd A speech processing system and method
US8972256B2 (en) * 2011-10-17 2015-03-03 Nuance Communications, Inc. System and method for dynamic noise adaptation for robust automatic speech recognition
US10431235B2 (en) 2012-05-31 2019-10-01 Elwha Llc Methods and systems for speech adaptation data
US10395672B2 (en) * 2012-05-31 2019-08-27 Elwha Llc Methods and systems for managing adaptation data
US9899026B2 (en) 2012-05-31 2018-02-20 Elwha Llc Speech recognition adaptation systems based on adaptation data
US9275638B2 (en) * 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US9177546B2 (en) * 2013-08-28 2015-11-03 Texas Instruments Incorporated Cloud based adaptive learning for distributed sensors

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289891A (ja) * 1993-04-02 1994-10-18 Mitsubishi Electric Corp 音声認識装置
JPH09258768A (ja) * 1996-03-25 1997-10-03 Mitsubishi Electric Corp 騒音下音声認識装置及び騒音下音声認識方法
JPH10149191A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> モデル適応方法、装置およびその記憶媒体
JPH1195786A (ja) * 1997-09-16 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法および装置とパターン認識プログラムを格納した記録媒体
JP2002091485A (ja) * 2000-09-18 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP2004264816A (ja) * 2002-09-06 2004-09-24 Microsoft Corp 再帰的構成における反復ノイズ推定法
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
JP2005062890A (ja) * 2003-08-19 2005-03-10 Microsoft Corp クリーン信号確率変数の推定値を識別する方法
JP2006084732A (ja) * 2004-09-15 2006-03-30 Univ Of Tokyo 多項式近似に基づく雑音下音声認識のためのモデル適応法
JP2010078650A (ja) * 2008-09-24 2010-04-08 Toshiba Corp 音声認識装置及びその方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
EP1116219B1 (en) * 1999-07-01 2005-03-16 Koninklijke Philips Electronics N.V. Robust speech processing from noisy speech models
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US7047047B2 (en) * 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7076422B2 (en) * 2003-03-13 2006-07-11 Microsoft Corporation Modelling and processing filled pauses and noises in speech recognition
US7165026B2 (en) * 2003-03-31 2007-01-16 Microsoft Corporation Method of noise estimation using incremental bayes learning
WO2008108232A1 (ja) * 2007-02-28 2008-09-12 Nec Corporation 音声認識装置、音声認識方法及び音声認識プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289891A (ja) * 1993-04-02 1994-10-18 Mitsubishi Electric Corp 音声認識装置
JPH09258768A (ja) * 1996-03-25 1997-10-03 Mitsubishi Electric Corp 騒音下音声認識装置及び騒音下音声認識方法
JPH10149191A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> モデル適応方法、装置およびその記憶媒体
JPH1195786A (ja) * 1997-09-16 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法および装置とパターン認識プログラムを格納した記録媒体
JP2002091485A (ja) * 2000-09-18 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP2004264816A (ja) * 2002-09-06 2004-09-24 Microsoft Corp 再帰的構成における反復ノイズ推定法
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
JP2005062890A (ja) * 2003-08-19 2005-03-10 Microsoft Corp クリーン信号確率変数の推定値を識別する方法
JP2006084732A (ja) * 2004-09-15 2006-03-30 Univ Of Tokyo 多項式近似に基づく雑音下音声認識のためのモデル適応法
JP2010078650A (ja) * 2008-09-24 2010-04-08 Toshiba Corp 音声認識装置及びその方法

Also Published As

Publication number Publication date
GB2464093A (en) 2010-04-07
GB2464093B (en) 2011-03-09
WO2010035892A1 (en) 2010-04-01
GB0817824D0 (en) 2008-11-05
JP5242782B2 (ja) 2013-07-24
US8417522B2 (en) 2013-04-09
US20100204988A1 (en) 2010-08-12

Similar Documents

Publication Publication Date Title
JP5242782B2 (ja) 音声認識方法
JP3457431B2 (ja) 信号識別方法
JP5058284B2 (ja) 音声認識システム、方法及びプログラム
US8620655B2 (en) Speech processing system and method
JP2011180596A (ja) 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
KR20010005674A (ko) 인식 시스템
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2010078650A (ja) 音声認識装置及びその方法
Nakamura et al. A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech.
Liao et al. Joint uncertainty decoding for robust large vocabulary speech recognition
JP6420198B2 (ja) 閾値推定装置、音声合成装置、その方法及びプログラム
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
US9311916B2 (en) Apparatus and method for improving voice recognition
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
KR100612843B1 (ko) 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치
Huang et al. An SNR-incremental stochastic matching algorithm for noisy speech recognition
JPH1195786A (ja) パターン認識方法および装置とパターン認識プログラムを格納した記録媒体
Loweimi et al. Use of generalised nonlinearity in vector taylor series noise compensation for robust speech recognition
JP6000094B2 (ja) 話者適応化装置、話者適応化方法、プログラム
JP5885686B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、プログラム
Liao et al. Uncertainty decoding for noise robust automatic speech recognition
Aubert Eigen-MLLRs applied to unsupervised speaker enrollment for large vocabulary continuous speech recognition
Potamitis et al. Map estimation for on-line noise compensation of time trajectories of spectral coefficients.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130403

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees