JP2012504250A

JP2012504250A - 音声認識方法

Info

Publication number: JP2012504250A
Application number: JP2011513765A
Authority: JP
Inventors: シュ、ハイティアン; チン、キーン・ケオン
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-09-29
Filing date: 2009-09-24
Publication date: 2012-02-16
Anticipated expiration: 2029-09-24
Also published as: US8417522B2; WO2010035892A1; GB0817824D0; JP5242782B2; US20100204988A1; GB2464093B; GB2464093A

Abstract

音声認識方法は、第１の雑音環境において観測系列を備える音声入力を受信することと、音響モデルを用いて観測系列から生じる単語系列の尤度を判定することと、第２の雑音環境においてトレーニングされたモデルを第１の環境のモデルに適応させることとを具備する。第２の環境においてトレーニングされたモデルを第１の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備する。同一の展開係数がグループ全体で使用される。

Description

本発明は、パターン認識の技術分野に関し、具体的には音声認識に関する。特に、本発明は、雑音のある環境における音声認識に関する。

音声認識は、隠れマルコフモデル（ＨＭＭ）などのトレーニングされたモデルの使用に依存して、表示または更に処理することのできる認識単語へとオーディオ音声信号をデコードする技術である。更なる処理は、言語翻訳デバイスへテキストを出力すること、または、声制御される装置用の理解可能な命令へと認識単語を変換することを含み得る。

一般に、モデルは雑音のない環境においてトレーニングされる。しかしながら、使用時に、システムは一般的にラボラトリのトレーニング環境に比べて相対的に雑音のある環境において使用される。

雑音のある環境における音声認識について、２つの好結果の技術が開発されてきた。これらのうちの第１のものは、ベクトルテーラー級数（ＶＴＳ）法である。ＶＴＳ法は、非特許文献１に記載されている。ＶＴＳ法は、各ガウス混合レベルでＨＭＭを補償する。システムは、各混合の平均値をテーラー拡張点として使用し、各混合についてテーラー拡張行列を計算する。認識の間の尤度は、下記のように表される。

ここでｐ（ｙＩｍ）は雑音のある音声特徴ｙからのガウス混合ｍの尤度であり、μ_ｙ及びΣ_ｙはガウス混合平均及びガウス混合分散である。

ＶＴＳにおいて、雑音のある特徴とクリーンな特徴との間の関係は下記のように仮定される。

ここでｙは雑音のある音声特徴であり、ｘは対応するクリーンな音声特徴であり、Ｃは離散コサイン変換行列であり、ｎ及びｈは夫々加法性雑音についての静的特徴及び畳み込み性雑音についての静的特徴である。

テーラー展開点（ｘ_ｅ，ｎ_ｅ，ｈ_ｅ）が与えられると、上記の非線形関係は下記のように一次テーラー級数によって線形的に近似可能である。

上記の関係を使用することによって、クリーンな音声についてのガウス平均及びガウス分散を雑音のある音声についてのガウス平均及びガウス分散に関連付けることが可能となる。これは、受信信号の静的項、デルタ項及びデルタデルタ項に対してなされ得る。これらの変換を適用することによって、トレーニングされたクリーンなモデルを雑音のある環境に対して適応させることが可能となる。

上記の方法は、変換パラメータがＨＭＭにおけるガウス毎に計算される必要があるので、計算的に非常に困難であるという問題を負う。一般に、この手続において、一次テーラー級数展開のみが使用される。

代わる方法は、いわゆるＪＵＤ（Ｊｏｉｎｔｕｎｃｅｒｔａｉｎｔｙｄｅｃｏｄｉｎｇ）法であって、これは非特許文献２に記載されている。ＪＵＤ法は、混合ｍについて出力確率を下記のように計算する。

混合ｍがｒ番目のクラスに属することが仮定され、方法はクラス毎のベースで行われる。これは、同一の回帰クラスに関するＪＵＤ変換が下記のように定義されることを意味する。

ここで、Λ_ｘ ^ｒ、Ξ^ｒ _ｘ、Λ_ｙ ^ｒ及びΞ^ｒ _ｙは夫々回帰クラスｒにおけるクリーンな音声についての平均及び共分散と雑音のある音声についての平均及び共分散であって、Ξ^ｒ _ｙｘは相互共分散行列である。Ξ^ｒ _ｙｘの計算は、計算の観点から高くつき、一次テーラー展開によってしばしば近似される。

ＪＵＤ及びＶＴＳ法は両方とも一次テーラー級数の計算を包含するので、結果をうまく処理したのちにＪＵＤは本質的にＶＴＳ法と等価であると理解することができる。しかしながら、ＶＴＳにおいて一次計算はガウス毎に行われる一方、ＪＵＤにおいて一次計算は回帰クラス毎に行われる。これは、ＪＵＤ法がＶＴＳ法よりも計算的に有利であることを意味する。しかしながら、ＪＵＤ法は、ＶＴＳに比べてかなり低い精度を持つ。

Ａｃｅｒｏｅｔａｌ： "ＨＭＭａｄａｐｔａｔｉｏｎｕｓｉｎｇｖｅｃｔｏｒＴａｙｌｏｒｓｅｒｉｅｓｆｏｒｎｏｉｓｙｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ", ＩＣＳＬＰ−２０００，ｖｏｌ．３，８６９−８７２Ｌｉａｏ，Ｈ．／Ｇａｌｅｓ，Ｍ．Ｊ．Ｆ．（２００５）： "Ｊｏｉｎｔｕｎｃｅｒｔａｉｎｔｙｄｅｃｏｄｉｎｇｆｏｒｎｏｉｓｅｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ"，ＩＮＴＥＲＳＰＥＥＣＨ−２００５，３１２９−３１３２

本発明は、上記の問題を扱い、ＪＵＤ法と計算的に同様であるが更にＶＴＳ法に比べて良好な精度を達成する音声認識方法を導くことを企図した。

従って、第１の態様において、本発明は、音声認識方法を提供する。この方法は、
第１の雑音環境において観測系列を備える音声入力を受信することと、
音響モデルを用いて観測系列から生じる単語系列の尤度を判定することとを具備する。音響モデルを用いて観測系列から生じる単語系列の尤度を判定することは、
第２の雑音環境において音声を認識するようにトレーニングされ、観測に関連している単語またはその一部の確率分布に関連する複数のモデルパラメータを持つ、観測系列を備える入力信号の音声認識を行うための音響モデルを準備することと、
第２の環境においてトレーニングされたモデルを第１の環境のモデルに適応させることとを具備する。
音声認識方法は、言語モデルを用いて所与の言語において生じる観測系列の尤度を判定することと、
音響モデル及び言語モデルによって判定された尤度を組み合わせ、音声入力信号から同定された単語系列を出力することとを更に具備する。
第２の環境においてトレーニングされたモデルを第１の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備する。同一の展開係数が、グループ全体で使用される。

モデルは、第２の雑音環境について得られたパラメータを第１の雑音環境についてのパラメータに変換することによって適応されてよい。例えば、第２の雑音環境について判定された確率密度関数の平均及び分散が、第１の雑音環境における平均及び分散へと直接的に修正されてよい。モデルは、これらのパラメータの修正の効果を持つがこれらのパラメータを直接的に変換しないやり方で適応されてもよい。例えば、上の数式（ｄ）のＪＵＤ式の適応が使用されてよい。

好ましい実施形態において、グループが更に組み合わせられて集約グループを形成し、ｊ次テーラー係数はこのグループについて計算及び使用され、ｊ＋１次係数はこの集約グループについて計算及び使用され、ここでｊは最小で１の整数である。

このグループは、好ましくは、第２の雑音環境におけるモデルのトレーニングの間に形成される回帰クラスである。これらのクラスは、普通は、モデルが第１の環境において記録された音声について使用されるよりも前に形成される。

更なる好ましい実施形態において、グループは、２クラス、それから４クラス、それから８クラスを形成して回帰ツリーを形成するように確率分布の総数を連続して２で再分割することによって形成された回帰クラスである。このようなアレンジにおいて、回帰クラスの数は４から３２までの範囲、例えば好ましくは８乃至３２にあってよい。

一次テーラー係数は回帰ツリー上の１つのレベルのクラスについて計算される一方、二次テーラー係数はより少ない回帰クラスを備える異なるレベルについて計算されてよい。ほんの２個のクラスを備える回帰ツリーレベルについて二次係数を計算することが有意な改善を与えるということがわかっている。

音声の静的項だけを使用して音声認識を行うことは可能であるが、好ましくはデルタ及びデルタデルタ平均及び／または分散もまた使用される。しかしながら、静的項、デルタ項及びデルタデルタ項の各々に同じ次数のテーラー展開を使用する必要はない。好ましい実施形態において、二次は静的項及びデルタ項について計算されるが、デルタデルタ項について計算されない。単に静的項だけに二次を計算することも可能である。

雑音パラメータは、加法性雑音の成分及び畳み込み性雑音の成分を備えてもよい。

第１の雑音環境における特徴または観測と、第２の雑音環境における特徴または観測との間の関係は、下記のように関係付けられてよい。

ここで、ｙは第１の雑音環境における観測であり、ｘは第２の雑音環境における観測であり、ｎは加法性雑音であり、ｈは第２の環境に対する第１の環境における畳み込み性の雑音であり、Ｃは離散コサイン変換行列であるとする。とはいえ、他のモデルも使用されてよい。

好ましい実施形態において、テーラー展開係数を判定するために雑音パラメータの平均が推定及び使用される。平均を推定する処理は、音声が存在しない音声入力信号の一部から初期推定を行うことを伴ってよい。この初期推定は、発話全体（即ち、無音部分だけでない）に基づく期待値最大化法などの周知の方法を使用することによって更に精錬されてよい。

一般に、確率関数はガウスであり、音響モデルは隠れマルコフモデルである。

多くの場合、第１の環境は雑音のある環境で、第２の環境は雑音のない環境である。しかしながら、本発明が異なる雑音レベルを備えるいかなる２つの環境の間でもモデルを適応させるために使用可能であることは当業者に認められるだろう。

この方法は、環境の雑音性についてのいかなるテストの実行も必要とせずにこの方法をいつも適用するようなシステムにおいて具体化されてよい。或いは、上述のモデルを補償するという用途を雑音環境が保証するかどうかを調べるために、雑音テストが最初に行われてもよい。

この発明は、上の方法の出力が異なる言語に翻訳され、認識された音声を異なる言語で出力する音声翻訳システムの一部として使用されてよい。出力することは、テキスト−音声変換法を使用することを具備してもよい。

第２の態様において、本発明は、音声認識装置を提供する。この装置は、
観測系列を備える音声入力のための受信器と、
音響モデルを用いて観測系列から生じる単語系列の尤度を判定するように適合されたプロセッサとを具備する。このプロセッサは、
音声入力の第１の雑音環境と異なる第２の雑音環境において音声を認識するようにトレーニングされ、観測に関連している単語またはその一部の確率分布に関連する複数のモデルパラメータを持つ、入力信号の音声認識を行うための音響モデルを準備し、
第２の環境でトレーニングされたモデルを第１の環境のモデルに適応させるように、適合されている。
プロセッサは、言語モデルを用いて所与の言語において生じる観測系列の尤度を判定し、
音響モデル及び言語モデルによって判定された尤度を組み合わせるように、更に適合され、
装置は、音声入力信号から同定された単語系列を出力するために適合された出力を更に具備する。
第２の環境においてトレーニングされたモデルを第１の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備する。同一の展開係数が、グループ全体で使用される。

上のものは、第１及び第２の雑音環境の間で音声認識モデルを適応させるための方法と考えることができる。従って、第３の態様において、方法は、
第２の雑音環境において音声を認識するようにトレーニングされ、観測に関連している単語またはその一部の確率分布に関連する複数のモデルパラメータを持つ、観測系列を備える入力信号に音声認識を行うためのモデルを準備することと、
第２の環境においてトレーニングされたモデルを第１の環境のモデルに適応させることとを具備する。
第２の環境においてトレーニングされたモデルを第１の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備する。同一の展開係数が、グループ全体で使用される。

上記説明は音声認識に集中されてきたが、この方法は他の形態のパターン認識にも適用可能である。

故に、第４の態様において、本発明は第１及び第２の雑音環境の間でパターン認識モデルを適応させる方法を提供する。この方法は、
第２の雑音環境においてパターンを認識するようにトレーニングされ、観測に関連しているパターンの成分の確率分布に関連する複数のモデルパラメータを持つ、観測系列を備える入力信号にパターン認識を行うためのモデルを準備することと、
第２の環境においてトレーニングされたモデルを第１の環境のモデルに適応させることとを具備する。
第２の環境においてトレーニングされたモデルを第１の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備する。同一の展開係数が、グループ全体で使用される。

第５の態様において、本発明は、コンピュータに上の方法のうちのどれでも行わせるように構成されたコンピュータプログラムを実行するコンピュータを提供する。

本発明は、下記の限定されない実施形態を参照しながらこれから説明されるだろう。

図１は、一般的な音声認識システムの概略図である。図２は、音声認識プロセッサの要素の概略図である。図３は、ガウス確率関数の概略図である。図４は、確率密度関数及び観測ベクトルの両方を表す音響空間の概略的なプロットである。図５は、本発明の一実施形態に係る音声認識方法を示すフロー図である。図６は、回帰ツリーの概略図である。図７は、本発明及び従来技術の方法についての回帰クラス数に対する音声認識の誤り率のプロットである。図８は、本発明及び従来技術の方法についての回帰クラス数に対する関与する変換の数のプロットである。

図１は、非常に基本的な音声認識システムの概略図である。ユーザ（図示されない）は、マイクロホン１またはオーディオシステム用の他の収集デバイスに発話する。デバイス１は予め記録されたオーディオデータを持つメモリに代替され得るし、デバイス１は遠隔地からオーディオデータを受信するためのネットワーク接続であってもよい。

音声信号は、それから、図２を参照しながらより詳細に説明されるであろう音声プロセッサ３へと向けられる。

音声プロセッサ３は、音声信号を受け取り、それを当該音声信号に対応するテキストへと変える。多くの異なる形式の出力が利用可能である。例えば、出力は、画面に出力される表示５という形式であってもよい。或いは、出力は、プリンタまたは同種のものに向けられ得る。その上、出力は、更なるシステム９に供給される電子信号という形式であり得る。例えば、更なるシステム９は、プロセッサ３から出力されるテキストを受け取ってそれを異なる言語へと変換する音声翻訳システムの一部であり得る。変換されたテキストは、それから、更なるテキストまたは音声システムを経由して出力される。

或いは、プロセッサ３によって出力されるテキストは異なる種類の装置を操作するために使用されてよく、例えば、それはユーザが音声を媒介として種々の機能を制御する携帯電話機、自動車などの一部であり得る。

図２は、図１に示される種類の音声認識プロセッサ３の標準的な要素のブロック図である。マイクロホンから、ネットワークを通じて、または、記録媒体１から受信される音声信号は、フロントエンド部１１へ向けられる。

フロントエンド部１１は、受信音声信号をデジタル化し、等長のフレームに分割する。音声信号は、それから、「音響空間」にプロットされる種々のパラメータを判定するためにスペクトル解析を施される。導出されるパラメータは、以降により詳細に論じられるだろう。

フロントエンド部１１は、更に、音声信号でないと思われる信号及び他の無関係な情報を除去する。ポピュラーなフロントエンド部は、フィルタバンク（ＦＢＡＮＫ）パラメータ、メル周波数ケプストラム係数（ＭＦＣＣ）及び知覚線形予測（ＰＬＰ）パラメータを使用する装置を備える。フロントエンド部の出力は、ｎ次元音響空間にある入力ベクトルの形式である。

入力ベクトルは、それから、音響モデル部１５及び言語モデル部１７と協同するデコーダ１３に送られる。音響モデル部１５は、一般に、隠れマルコフモデルを用いて作用する。しかしながら、コネクショニストモデル及びハイブリッドモデルに基づく音響モデルを使用することも可能である。

音響モデル部１５は、音響入力だけに基づいて単語またはその一部に対応する観測系列の尤度を導出する。

言語モデル部１７は、所与の言語において、単語または単語の一部の特定の系列が相互に続く確率に関する情報を含む。一般に、統計的モデルが使用される。最もポピュラーな方法は、Ｎ−ｇｒａｍモデルである。

デコーダ１３は、それから、音響モデル１５及び言語モデル１７からの結果を用いて所与の音声発話について最高の書写（ｔｒａｎｓｃｒｉｐｔｉｏｎ）を発見するために、動的プログラミング（ＤＰ）アプローチを伝統的に使用する。

これは、それから、テキストを表示させ、テキストを提示させ、または、（例えば音声翻訳のための音声における、または、音声作動式のデバイスを制御するための）更なる使用のためにテキストを変換させる出力デバイス１９を経由して出力される。

この記述は、隠れマルコフモデル（ＨＭＭ）である音響モデルの使用に主に関するものになるだろう。しかしながら、他のモデルについて用いられることも可能である。

この実施形態において使用される実際のモデルは標準的なモデルであって、この詳細はこの特許出願の範囲外である。しかしながら、モデルは、単語またはその一部に関連している音響ベクトルによって表される観測の確率に関連する確率密度関数（ｐｄｆ）についての規定を必要とするだろう。一般に、この確率分布は、ｎ次元空間におけるガウス分布だろう。

一般的なガウス分布の概略例が図３に示されている。ここで、水平軸は一次元上の入力ベクトルのパラメータに対応し、確率分布は観測に関連している特定の単語またはその一部についてのものである。例えば、図３において、音響ベクトルｘに対応する観測は、その確率分布が図３に示される単語に対応する確率ｐ１を持つ。ガウスの形状及び位置は、その平均及び分散によって定められる。これらのパラメータは、音響モデルが語彙についてトレーニングする間に判定され、それらは「モデルパラメータ」と呼ばれるだろう。

ＨＭＭにおいて、モデルパラメータが一度判定されたならば、モデルは単語または単語の一部の系列に対応する観測系列の尤度を判定するために使用可能となる。

図４は、観測が観測ベクトルまたは特徴ベクトルｘ_１によって表される音響空間の概略的なプロットを表す。白丸ｇは音響空間にプロットされるガウスまたは他の確率分布関数の平均に対応する。

デコードの間、音響モデルは、特徴ベクトルｘ_１がガウスによって表される単語またはその一部に対応することの、多数の異なる尤度を計算するだろう。これらの尤度は、それから、音響モデルにおいて使用され、発話テキストを判定するために言語モデルからの確率と組み合わせられる。

音響モデルは、一般に、雑音のない、または、いわゆる「クリーンな」コンディションのもとでトレーニングされる。しかしながら、システムに入力される音声が今度はより雑音のあるコンディションのもとで収集されるならば、システムの誤り率は増加するだろう。図２を参照しながら説明されたフロントエンド部１１は、雑音の一部を除去できる。しかしながら、その一部は、入力音声信号に深く染みこんでいるので、この初期段階で除去することは不可能である。

図５は、クリーンなコンディションのもとでトレーニングされた音響モデルを使用する時に、雑音のある入力信号を処理するための本発明の実施形態に従う方法のフロー図である。まず、ステップＳ５１において、雑音のある入力信号が収集される。これは、図１及び図２を参照しながら説明された。

それからステップＳ５３において、この信号における雑音の示度（ｉｎｄｉｃａｔｉｏｎ）が判定される。雑音の推定についての可能な方法は、全く音声が存在しない入力信号の一部を評価することである。しばしば、最初及び最後の少数のフレームは全く音声を持たないとみなされる。

好適な方法において、雑音は加法性雑音ｎまたは畳み込み性雑音ｈのどちらかとして分類される。加法性雑音ｎは一般的な背景雑音である一方、畳み込み性雑音ｈはチャネル雑音である。

雑音のある環境における特徴をクリーンな環境における特徴に関連付けるためのモデルは、下記のように表される。

ここでＣは離散コサイン変換行列を示し、ｎ、ｈ、ｘ及びｙは加法性雑音、畳み込み性雑音、クリーンな音声及び雑音のある音声の夫々についての静的特徴である。

このように、雑音パラメータが一度確立されると、雑音のある環境を補償することが可能となる。雑音は、音声信号の収集の間にフレーム毎に変動する。しかしながら、上記のフレームから、加法性雑音の平均、加法性雑音の分散、畳み込み性雑音の平均及び畳み込み性雑音の分散を推定することが可能である。一般に、畳み込み性雑音は各発話に亘って不変であることが仮定され、故にその分散は０であると仮定される。

雑音の平均及び分散のデルタ項及びデルタデルタ項を推定することも可能である。デルタ項は平均または分散の時間に関する一次導関数であって、デルタデルタ項は平均または分散の時間に関する二次導関数である。

この実施形態において、グループを形成するために、回帰クラスが使用される。回帰クラスは、モデル特定特徴が一緒にグループ化されるガウスで生成される。回帰クラスは、第２のまたはクリーンな雑音環境におけるモデルの初期トレーニングの間に展開されるので、それらは使用可能である。この回帰処理は、周知であって、ここではこれ以上詳細に説明されないだろう。

図６は、回帰クラスを形成するために使用される回帰ツリーの概略を示す。レベル（ｉ）では全てのガウスが１個のグループを形成する。このグループは、レベル（ｉｉ）では２個のクラスに分割される。これら２個のクラスは、それからレベル（ｉｉｉ）において４個のクラスに更に再分割され、それからレベル（ｉｖ）において更に８個のクラスに再分割されるなどする。

ステップＳ５７において、クラス毎にテーラー展開係数が判定される。

雑音のある環境を処理するためのテーラー展開係数の使用が知られている。既知のＶＴＳ法において、上の数式（１）はテーラー拡張点（ｘ_ｅ，ｎ_ｅ，ｈ_ｅ）を用いて近似され、下記の数式を与える。

ここでＩは恒等行列である。

上記のものを用いて、雑音のある環境についてのガウスの平均及び分散とクリーンな環境についてのガウスの平均及び雑音とが関連付けられ得る。この従来技術の方法において、テーラー展開係数はガウス毎に計算される。

既知のＪＵＤ法も、テーラー展開を使用する。ＪＵＤ法において、静的項、デルタ項及びデルタデルタ項を含む完全な雑音のある特徴Ｙのガウス混合毎に尤度が計算される。

ここで混合ｍがｒ番目の回帰クラスに関連することが仮定され、Ａ_ｒ、ｂ_ｒ及びΞ^ｒ _ｂは回帰クラスに関連するＪＵＤ変換である。

ここで、Λ_ｘ ^ｒ、Ξ^ｒ _ｘ、Λ_ｙ ^ｒ及びΞ^ｒ _ｘは、夫々回帰クラスｒにおけるクリーンな音声についての平均及び共分散と雑音のある音声についての平均及び共分散であって、Ξ^ｒ _ｙｘは相互共分散行列である。Ξ^ｒ _ｙｘの計算は、計算の観点から高くつき、一次テーラー展開によってしばしば近似される。Ａ_ｒは、下記となる。

この方法を用いると、上のＶＴＳに関して、雑音のある環境におけるガウスの平均及び分散をクリーンな環境におけるガウスの平均及び分散に直接的に関連付けることが可能となる。

各混合の平均を用いる代わりにＪＵＤは回帰クラスの平均に展開を適用するということを除いて、ＪＵＤはそのあとＶＴＳ法と大部分は等価になる。

実施形態に従う方法は、二次またはより高次のテーラー展開を用いるＪＵＤ法と考えることができる。

二次近似を用い、かつ、展開点（μ_ｘ ^ｒ，μ_ｎ，μ_ｈ）を用いると、この特徴ベクトルの２次テーラーは下記である。

ここでｄｉａｇ｛．｝は所与の行列の対角をベクトルとして出力し、ｄｉａｇ^−１｛．｝はベクトルを対角行列へと展開する。二次導関数Ｋ_ｒは下記のように計算される。

上式の両辺の平均値を取ると、ＨＭＭ平均適応のための新たなＪＵＤ公式が下記のように得られる。

上の公式において、ｄ^ｍ、ｄ^ｍ _Δ、ｄ^ｍ _ΔΔは、各混合に依存するベクトルである。

これは、尤度計算が下記のように書き換え可能であることを意味する。

ここで、

は、上式及び数式（３）との間の唯一の相違点である。

上のものは、二次近似を伴うＪＵＤである。これは、本来のＪＵＤ形式及び周知のＶＴＳアレンジよりもかなりの利点を持つ。

上の形式は、本来のＪＵＤにとって殆ど不可能な、一般に使用される一次ＶＴＳを認識精度で打ち負かすことができる。次に、新たなＪＵＤ公式は一次近似を伴う本来のＪＵＤに比べて追加の計算コスト及び計算を導入するが、Ｗ_ｒ及びＫ_ｒの計算は回帰クラス毎にだけ行われるから、その全体のコストはＶＴＳよりも依然として予想的にはずっと少ない。故に、二次近似を伴うＪＵＤは、ＶＴＳを計算コスト及び認識精度で打ち負かすことが期待される。

パラメータが一度判定されたならば、ステップＳ５９において示されるように、それらは現行の音響モデルパラメータを修正するために使用される。

ステップＳ６１において、音響モデルは修正されたパラメータを用いて雑音のある入力に対して実行される。それからステップＳ６３において、同定された単語が出力される。

第１の実施形態に従う方法において、一次及び二次テーラー係数は、選ばれた回帰クラスレベルにおいて回帰クラス毎に計算される。例えば、レベル（ｉｖ）が選ばれるならば、一次及び二次テーラー係数は、そのレベルの８個の回帰クラス毎に計算される。

第２の実施形態において、一次テーラー係数はガウスが割り当てられた回帰クラス毎に計算される。しかしながら、二次テーラー係数はより高いグループについてのみ計算される。例えば、図６において、レベル（ｉｖ）の８個の回帰クラスＲ_１乃至Ｒ_８が存在する。一次テーラー展開係数は回帰クラスＲ_１乃至Ｒ_８の各々からの平均から計算されるだろう。しかしながら、二次テーラー係数は、レベル（ｉｉｉ）の４個のクラスについてのみ計算されるだろう。従って、同一の二次テーラー係数がクラスＲ_１及びＲ_２について使用され、同一の二次テーラー係数がグループＲ_３及びＲ_４について使用される。

ｇベクトルとＷ_ｒ及びＫ_ｒ行列は二次近似において高くつくので、上の近似は動作速度を高める。故に、計算される必要のあるこれらの行列及びベクトルの全体的な数を減少させることによって、効率が改善し得る。テーラー展開の原理に基づくと、テーラー級数において低次の項は、高次の項に比べてより重要である。具体的には、零次項ｇはテーラー展開について最も重要であり、一次項Ｗ_ｒは比較的重要でない一方、二次項Ｋ_ｒは最も重要でない。

故に、１より多くのグループにあてはまるであろうより大きなグループについてのみＫ_ｒを計算することは、精度の著しい変化に帰着しないだろう
従って、この方法は、低次の係数がより多くの回帰クラスについて計算され、かつ、高次の係数がより少ないクラスについて計算される状態で、異なる回帰クラスレベルがテーラー展開係数の異なる次数について使用されるということに適合可能である。

デルタデルタ特徴項においてＪＵＤの二次近似を適用することは、静的項及びデルタ項に比べて精度に殆ど改善を与えないということもまた注目された。計算コストを考えると、静的項及びデルタ項についてのみ二次ＪＵＤを計算し、かつ、デルタデルタ項には一次ＪＵＤだけを使用することが好ましい。

図７は、使用された回帰クラスの数に対する単語誤り率（ＷＥＲ）のプロットである。従来技術の方法であるＶＴＳ、二次ＶＴＳ（２^ｎｄＶＴＳ）について結果が示されている。単にこれらは回帰クラスを使用しないので、これらの跡の両方が回帰クラスの数に関わらず不変であることに注目されたい。データは、一次ＪＵＤ（１^ｓｔＪＵＤ）の結果も示す。最後に、一次及び二次係数が各回帰クラスについて計算される２^ｎｄＪＵＤと、一次係数が各回帰クラスについて計算され、かつ、二次係数が２個の回帰クラス（即ち、図６のレベル（ｉｉ））についてのみ計算される２^ｎｄＪＵＤ−ＴＩＥ２という本実施形態の２個の実装からの結果が示される。

データは連続数字についてのオーロラ２（Ａｕｒｏｒａ２）データベースを用いて収集された。このデータベースは、２個のトレーニングセット（クリーン及びマルチコンディション）と、３個の雑音のあるテストセットとに分割される。テストセットＡ及びＢは夫々２０から０デシベルに及ぶＳＮＲを備える４個の異なる種類の加法性雑音を含み、セットＣもまた畳み込み性雑音を含む。実験において、クリーントレーニングセットがモデルをトレーニングするために使用され、テストセットＡ及びＢが回帰テストのために使用された。

回帰は、「ＨＴＫ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌＴｏｏｌｋｉｔ２ｖｅｒｓｉｏｎ１．５１９９３Ｓ．Ｙｏｕｎｇ」からのＨＭＭを用いて行われた。各数字は３個の混合を備える１６ＨＭＭ状態によってモデル化され、無音は夫々６個の混合を備える３個の状態によってモデル化された。これは、全部で５４６個の混合を残す。フロントエンドは、それらのデルタ及びデルタデルタ成分の零次の係数を含む１３次元ＭＦＣＣであった。回帰処理は、「Ｌｉｅｔａｌ “ＨｉｇｈｐｅｒｆｏｒｍａｎｃｅＨＭＭａｄａｐｔａｔｉｏｎｗｉｔｈｊｏｉｎｔｃｏｍｐｅｎｓａｔｉｏｎｏｆａｄｄｉｔｉｖｅａｎｄｃｏｎｖｏｌｕｔｉｖｅｄｉｓｔｏｒｔｉｏｎｓｖｉａａｖｅｃｔｏｒＴａｙｌｏｒｓｅｒｉｅｓ” Ｐｒｏｃ．ｏｆＡＳＲＵＤｅｃ２００７」によって使用されるものと類似する２クラスモードで実装される。

実験において、デルタ項及びデルタデルタ項だけではなく初期雑音パラメータμ_ｎ、Σ_ｎ及びμ_ｈが、各発話の最初及び最後の２０フレームから推定された。

一次ＶＴＳは、それから適用され、初期認識仮説を生成するためにＨＭＭを適応させる。

期待値最大化ベースのＶＴＳ雑音推定処理が、初期仮説に基づいて雑音パラメータを精錬するために採用された。

そこで精錬された雑音パラメータは、それから、ＨＭＭを補償し、最終認識結果を得るために上の方法において使用される。

回帰クラスの数が増加するにつれて、一次近似を伴うＪＵＤの性能が一次ＶＴＳの性能にいっそう近くなるということが明らかである。しかしながら、二次テーラー拡張を適用することによって、その形式が簡単化されたＪＵＤまたはそうでないＪＵＤは一貫して性能を改善する。回帰クラスの数が１６より大きくなる時に、この性能は一次ＶＴＳに比べて有意に良くなる。

オーロラ２では簡単化されたバージョンが簡単化されていないバージョンに比べて良好な性能を達成するということに注目するのは興味深い。より詳細な結果が下記の表１に示されており、これはちょうど３２個の回帰クラスを伴う簡単化された二次ＪＵＤがＶＴＳのセットＡについて６．１％及びセットＢについて５．６％のＷＥＲの相対的な改善をもたらすということを示す。このような改善は、全ての雑音の種類に亘って一貫している。

表２は、各方法に関与する変換（即ち、Ｋ及びＷ行列）の数を示す。

回帰クラスの数に対する、「命令の数」として量子化された計算コストが図８に示される。ＪＵＤベースの方法は、変換の数がＶＴＳに比べて限られ、故に計算コストがずっと小さい。本来のＪＵＤに比べて、ＪＵＤの二次近似は追加の計算コストを導入するが、それは依然として一次及び二次ＶＴＳに比べてずっと速い。このような追加の計算コストは、簡単化された二次近似を使用することによって大きく低減することができる。セットＡで３２個の回帰クラスを用いた６％のＷＥＲの改善を仮定すると、簡単化された二次近似を伴うＪＵＤは一次ＶＴＳに比べて約６０％速い。

Claims

第１の雑音環境において観測系列を備える音声入力を受信することと、
音響モデルを用いて前記観測系列から生じる単語系列の尤度を判定することと
を具備する音声認識方法において、
前記音響モデルを用いて前記観測系列から生じる単語系列の尤度を判定することは、
第２の雑音環境において音声を認識するようにトレーニングされ、観測に関連している単語またはその一部の確率分布に関連する複数のモデルパラメータを持つ、観測系列を備える入力信号に音声認識を行うための音響モデルを準備することと、
第２の環境においてトレーニングされたモデルを第１の環境のモデルに適応させることと
を具備し、
前記音声認識方法は、
言語モデルを用いて所与の言語において生じる観測系列の尤度を判定することと、
前記音響モデル及び前記言語モデルによって判定された尤度を組み合わせ、前記音声入力信号から同定された単語系列を出力することと
を更に具備し、
前記第２の環境においてトレーニングされたモデルを前記第１の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備し、
同一の展開係数が、前記グループ全体で使用される、
音声認識方法。
前記グループは、前記モデルの初期トレーニングの間の回帰によって形成される回帰クラスである、請求項１に従う音声認識方法。
前記グループは更に組み合わせられて集約グループを形成し、ｊ次テーラー係数は前記グループについて計算及び使用され、ｊ＋１次テーラー係数は前記集約グループについて計算及び使用される、請求項１または２のいずれかに従う音声認識方法。
前記モデルパラメータは静的平均及び静的分散を備える、請求項１乃至３のいずれか１項に従う音声認識方法。
前記モデルパラメータは、平均及び分散のデルタ項及びデルタデルタ項も備え、二次またはより高次の項は前記デルタデルタ項について計算されない、請求項４に従う音声認識方法。
雑音パラメータは、加法性雑音についての成分及び畳み込み性雑音についての成分を備える、請求項１乃至５のいずれか１項に従う音声認識方法。
前記第１の雑音環境における観測と前記第２の雑音環境における観測との間の関係が下記のように関係付けられ、

ここで、ｙは前記第１の雑音環境における観測であり、ｘは前記第２の雑音環境における観測であり、ｎは前記加法性雑音であり、ｈは前記第２の環境に対する前記第１の環境における前記畳み込み性雑音であり、Ｃは離散コサイン変換行列である、請求項６に従う音声認識方法。
雑音パラメータの平均が前記テーラー展開係数を判定するために推定及び使用される、請求項１乃至７のいずれか１項に従う音声認識方法。
前記平均の初期推定は、音声が存在しない前記音声入力信号の一部から得られる、請求項８に従う音声認識方法。
確率関数がガウスである、請求項１乃至９のいずれか１項に従う音声認識システム。
前記音響モデルが隠れマルコフモデルである、請求項１乃至１０のいずれか１項に従う音声認識システム。
前記第１の環境は雑音のある環境であり、前記第２の環境は雑音のない環境である、請求項１乃至１１のいずれか１項に従う音声認識システム。
請求項１乃至１２のいずれか１項に従って音声入力信号を認識することと、
認識音声を異なる言語に翻訳することと、
前記認識音声を前記異なる言語で出力することと
を具備する、音声翻訳方法。
前記認識音声を出力することは、テキスト−音声変換法を使用することを具備する、請求項１３に従う音声翻訳方法。
第１及び第２の雑音環境の間で音声認識モデルを適応させる方法において、前記方法は、
第２の雑音環境において音声を認識するようにトレーニングされ、観測に関連している単語またはその一部の確率分布に関連する複数のモデルパラメータを持つ、観測系列を備える入力信号に音声認識を行うためのモデルを準備することと、
第２の環境においてトレーニングされたモデルを第１の環境のモデルに適応させることと
を具備し、
前記第２の環境においてトレーニングされたモデルを前記第１の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備し、
同一の展開係数が、前記グループ全体で使用される、
方法。
第１及び第２の雑音環境の間でパターン認識モデルを適応させる方法において、前記方法は、
第２の雑音環境においてパターンを認識するようにトレーニングされ、観測に関連しているパターンの成分の確率分布に関連する複数のモデルパラメータを持つ、観測系列を備える入力信号にパターン認識を行うためのモデルを準備することと、
第２の環境においてトレーニングされたモデルを第１の環境のモデルに適応させることと
を具備し、
前記第２の環境においてトレーニングされたモデルを前記第１の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備し、
同一の展開係数が、前記グループ全体で使用される、
方法。
請求項１乃至１６のいずれか１項の方法をコンピュータに行わせるように構成されたプログラムを実行するコンピュータ。
観測系列を備える音声入力のための受信器と、
音響モデルを用いて前記観測系列から生じる単語系列の尤度を判定するように適合されたプロセッサと
を具備する音声認識装置において、
前記プロセッサは、
前記音声入力の第１の雑音環境と異なる第２の雑音環境において音声を認識するためにトレーニングされ、観測に関連している単語またはその一部の確率分布に関連する複数のモデルパラメータを持つ、入力信号に音声認識を行うための音響モデルを準備し、
第２の環境においてトレーニングされたモデルを第１の環境のモデルに適応させる
ように適合され、
前記プロセッサは、
言語モデルを用いて所与の言語において生じる観測系列の尤度を判定し、
前記音響モデル及び前記言語モデルによって判定された尤度を組み合わせる
ように更に適合され、
前記装置は、音声入力信号から同定された単語系列を出力するように適合された出力を更に具備し、
前記第２の環境においてトレーニングされたモデルを前記第１の環境のモデルに適応させることは、確率分布のグループについて導出された二次またはより高次のテーラー展開係数を用いることを具備し、
同一の展開係数が、前記グループ全体で使用される、
装置。
前記グループを更に組み合わせて集約グループを形成するように更に適合され、ｊ次テーラー係数は前記グループについて計算及び使用され、ｊ＋１次テーラー係数は前記集約グループについて計算及び使用される、請求項１８に従う音声認識装置。
前記出力は、ディスプレイ、プリンタ、または、更なる装置によって読み取り可能な電子信号を備える、請求項１８または１９のいずれかに従う装置。