JP6110945B2

JP6110945B2 - 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム

Info

Publication number: JP6110945B2
Application number: JP2015528672A
Authority: JP
Inventors: ティアギ，ビベク; ガナパティラジュ，アラビンド; ワイス，フェリックス，イマニュエル
Original assignee: インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date: 2012-08-24
Filing date: 2013-08-23
Publication date: 2017-04-05
Anticipated expiration: 2033-08-23
Also published as: AU2013305615A1; BR112015003833B1; US20140058731A1; AU2013305615B2; CA2882569A1; WO2014031918A3; EP2888669B1; EP2888669A2; ZA201501228B; CA2882569C; JP2015526766A; CL2015000445A1; EP2888669A4; NZ730641A; BR112015003833A2; US9679556B2; NZ705075A; WO2014031918A2

Description

本発明は、概して、遠隔通信システム及び方法、並びに、自動音声認識システムに関する。より詳細には、本発明は、自動音声認識システム内での線形判別分析に関する。

自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析のシステム及び方法が提示される。線形判別分析（ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ：ＬＤＡ）が、音響的特徴空間内での隠れマルコフモデル（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ：ＨＭＭ）結合状態の間での判別を改善するために使用され得る。最尤基準を使用して音声訓練データの強制アラインメントが実施され得る。データは、散布図行列を得るためにさらに処理され得る。行列は、コンテキスト依存トライフォン音響モデルの共有されているＨＭＭ状態のような、結合状態の観測される認識エラーに基づいてバイアスをかけられ得る。認識誤りは、その後ＬＤＡ分析においてクラスとして使用され得る結合状態を利用して、訓練された最尤音響モデルから得られ得る。

一実施形態において、最尤基準を使用して音響モデルを訓練するための方法であって、ａ）音声訓練データの強制アラインメントを実施するステップと、ｂ）訓練データを処理して推定散布図行列を得るステップであって、上記散布図行列は、平均ベクトルを推定し得るクラス間散布図行列及びクラス内散布図行列のうちの１つ又は複数を含み得る、ステップと、ｃ）クラス間散布図行列及びクラス内散布図行列にバイアスをかけるステップと、ｄ）クラス間散布図行列及びクラス内散布図行列を対角化して、変換散布図行列を生成するための固有ベクトルを推定するステップと、ｅ）推定されたベクトルを使用して新たな識別的特徴を得るステップであって、上記ベクトルは新たな空間における最も大きい判別に対応する、ステップと、ｆ）上記新たな識別的特徴に基づいて新たな音響モデルを訓練するステップと、ｇ）上記音響モデルを保存するステップとを含む、方法が提供される。

別の実施形態において、音響モデルを訓練するための方法であって、ａ）音声訓練データの強制アラインメントを実施するステップと、ｂ）上記訓練データに対して認識を実施して、各結合状態トライフォンの誤り率を推定するステップと、ｃ）訓練データを処理して、平均ベクトルを推定し得る１つ又は複数の推定散布図行列を得るステップと、ｄ）１つ又は複数の推定散布図行列にバイアスをかけるステップと、ｅ）１つ又は複数の推定散布図行列に対して対角化を実施して、１つ又は複数の変換散布図行列を生成するためのベクトルを推定するステップと、ｆ）変換された１つ又は複数の推定散布図行列をベクトルの線形変換として使用して新たな識別的特徴を得るステップと、ｇ）新たな音響モデルを訓練するステップと、ｈ）上記音響モデルを保存するステップとを含む、方法が提供される。

別の実施形態において、音響モデルを訓練するためのシステムであって、ａ）音声訓練データの強制アラインメントを実施するための手段と、ｂ）訓練データを処理して推定散布図行列を得るための手段であって、上記散布図行列は、平均ベクトルを推定し得るクラス間散布図行列及びクラス内散布図行列のうちの１つ又は複数を含み得る、処理して得るための手段と、ｃ）クラス間散布図行列及びクラス内散布図行列にバイアスをかけるための手段と、ｄ）クラス間散布図行列及びクラス内散布図行列を対角化して、変換散布図行列を生成するための固有ベクトルを推定するための手段と、ｅ）変換散布図行列をスーパーベクトルの線形変換として使用して新たな識別的特徴を得るための手段と、ｆ）新たな音響モデルを訓練するための手段と、ｇ）上記音響モデルを保存するための手段とを備える、システムが提示される。

キーワードスポッタ内の基本構成要素の一実施形態を示す図である。訓練パターンの一実施形態を示す流れ図である。認識の一実施形態を示す流れ図である。

本発明の原理の理解を促進する目的のために、ここで、図面に示されている実施形態が参照され、これを説明するために特定の文言が使用される。それにもかかわらず、それによって本発明の範囲の限定は意図されていないことは理解されよう。当業者に通常想起されるような、説明されている実施形態における任意の変更及びさらなる修正、並びに、本発明に記載されているような本発明の原理の任意のさらなる応用が企図されている。

自動音声認識（Ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ：ＡＳＲ）システムは、人間の発話を認識して発話をテキスト又は単語に変換する。これらのシステムの性能は、精度、信頼性、言語サポート、及び、発話を認識することができる速度に基づいて評価され得る。アクセント、アーティキュレーション、話速、発音、背景雑音などのような要因が、ＡＳＲシステムの精度に悪影響を及ぼす可能性がある。システムは、チャネル状態、及び、現代の電話チャネル、特にＶｏＩＰによって導入される様々なアーティファクトに関係なく、一貫して信頼可能に機能することを期待されている。一度にリアルタイムで数百の電話会話を分析するための迅速な処理速度が必要とされている。

ＬＤＡは、音響的特徴空間内のＨＭＭ結合状態間での判別を改善することによって、システムの精度を向上させることができる。一実施形態において、クラス間及びクラス内共分散行列が、結合状態の観測される認識誤りに基づいてバイアスをかけられ得る。結合状態は、コンテキスト依存トライフォン音響モデルの共有されているＨＭＭ状態から構成され得る。認識誤りは、その後ＬＤＡ分析において「クラス」として使用される同じ結合状態を使用して、すでに訓練された最尤音響モデルから得られる。

当業者は本開示から、本明細書に開示されている様々な方法は、多くの異なる形態のデータ処理機器、例えば、適切なソフトウェアプログラム（複数可）を実行するデジタルマイクロプロセッサ及び関連メモリを使用してコンピュータによってされてもよいことを認識しよう。

図１は、概して１００で示される、キーワードスポッタの基本構成要素を示す図である。キーワードスポッタ１００の基本構成要素は、音響モデル１１０及び発音辞書／予測器１１５を含んでもよい知識源１０５と、音響ストリーム１２０と、フロントエンド特徴計算器１２５と、音声認識エンジン１３０と、結果１３５とを含んでもよい。

音素が音声の基本単位であると仮定される。そのような音素の所定のセットが、特定の言語の全ての音声を完全に記述すると仮定される。知識源１０５は、発音（音素）と、音声信号から抽出される一連の特直ベクトルのような、音響事象との間の関係の確率モデル、例えば、隠れマルコフモデル−ガウス混合モデル（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ‐Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ：ＨＭＭ−ＧＭＭ）を記憶し得る。ＨＭＭは、観測される音響信号と、観測されない音素との間の関係を符号化する。その後、訓練プロセスによって、転写された訓練データの大きい集合にわたって所与の音素に対応するＨＭＭ状態によって放出される特徴ベクトルの統計的特性を研究することができる。音素の所与のＨＭＭ状態における特徴ベクトルの放出確率密度が、訓練プロセスを通じて学習される。このプロセスは、音響モデル訓練とも称される場合がある。訓練はまた、トライフォンについても実施され得る。トライフォンの一例は、中心音素に対応する発音転写シーケンス内の３つの音素から成るタプルであり得る。トライフォンのいくつかのＨＭＭ状態はともに結合されて、共通の放出確率密度関数を共有する。一般的に、放出確率密度関数は、ガウス混合モデル（ＧＭＭ）を使用してモデル化される。これらのＧＭＭ及びＨＭＭのセットは、音響モデルと称される。

知識源１０５は、多量の音響データを分析することによって発展することができる。例えば、音響モデル及び発音辞書／予測器は、「Ｈｅｌｌｏ」のような単語を見て、その単語を含む音素を調べることによって作成される。音声認識システム内の各単語は、音素と呼ばれるその構成部分単語単位の統計モデルによって表される。標準的な音素辞書において定義されるところの「Ｈｅｌｌｏ」の音素は、「ｈｈ」、「ｅｈ」、「ｌ」、及び「ｏｗ」である。その後、これらは、一連のトライフォン、例えば、「ｓｉｌ−ｈｈ＋ｅｈ」、「ｈｈ−ｅｈ＋ｌ」、「ｅｈ−ｌ＋ｏｗ」、及び「ｌ−ｏｗ＋ｓｉｌ」に変換され、「ｓｉｌ」は無音である。最後に、すでに説明したように、全ての可能性のあるトライフォンのＨＭＭ状態が、結合状態にマッピングされる。結合状態は、音響モデル訓練が実施される特有の状態である。これらのモデルは言語依存である。多言語サポートも提供するために、複数の知識源が提供されてもよい。

音響モデル１１０は、特定の言語に存在する様々な音声を統計的にモデル化することによって形成され得る。発音辞書１１５は、単語を一連の音素に分解する役割を担い得る。例えば、ユーザから提示される単語は、特定の言語の書記素／文字のような、人間が読解可能な形態にあり得る。しかしながら、パターンマッチングアルゴリズムは、キーワードの発音を表す一連の音素に依拠し得る。一連の音素が得られると、音響モデル内の音素（又は対応するトライフォン）の各々に対する、対応する統計モデルが調べられ得る。これらの統計モデルの連結が、音声認識を実施するのに使用され得る。辞書に存在しない単語について、言語学的規則に基づく予測器が、発音を解決するために使用され得る。

音響ストリーム１２０はフロントエンド特徴計算器１２５に供給され得、フロントエンド特徴計算器１２５は、音響ストリームを音響ストリームの表現、すなわち一連のスペクトル特徴に変換することができる。音響ストリームは、ユーザによってシステムに対して話された単語から構成され得る。スペクトル特徴、例えば、メル周波数ケプストラム係数（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ：ＭＦＣＣ）及び／又はその変換を計算することによって、音響分析が実施され得る。

フロントエンド特徴計算器１２５からの信号が、その後、音声認識エンジン１３０に供給され得る。例えば、認識エンジンの役割は、語彙とも称される単語のセットを取り出し、音響モデルからの確率を使用して提示されている音響ストリームを通じて検索して、その音響信号の中で話されている最も可能性のある文を判定することであり得る。音声認識エンジンの一例は、限定ではないが、キーワードスポッティングシステムを含み得る。例えば、特徴計算器によって構築される多次元空間において、話された単語は、音響空間内の軌跡を形成する一連のＭＦＣＣベクトルになり得る。キーワードスポッティングは現在、単純に、キーワードモデルを所与として軌跡を生成する確率を計算する問題になり得る。この演算は、キーワードモデルを音響信号の最良のセグメントに整列させて、結果として一致スコアをもたらす、動的プログラミングの既知の原理、具体的にはビタビアルゴリズムを使用することによって達成することができる。一致スコアが大きい場合、キーワードスポッティングアルゴリズムは、キーワードが話されたと推測し、キーワードスポット事象を報告する。

結果としてもたらされた一連の単語１３５が、その後、リアルタイムに報告され得る。例えば、報告は、単語が見つかったことの信頼値を有する音響ストリームにおけるキーワード又は文の開始時刻及び終了時刻として提示されてもよい。主信頼値は、キーワードがどのように話されているかの関数であってもよい。例えば、単一の単語に複数の発音がある場合、キーワード「ｔｏｍａｔｏ」は、「ｔｕｈ−ｍａｈ−ｔｏｗ」及び「ｔｕｈ−ｍａｙ−ｔｏｗ」のように話される場合がある。単語があまり一般的でない発音で話されるとき、又は、単語があまり明瞭に発音されないとき、主信頼値は低くなり得る。特定の認識の一部分である発音の特定の変異も、報告に表示される。

図２に示すように、訓練パターンの一実施形態を示すプロセス２００が提供される。プロセス２００は、システム１００の知識源１１５構成要素の音響モデル１２０（図１）において機能し得る。音響モデルは、プロセス２００において既知の最尤（ｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄ：ＭＬ）基準を使用して所望の言語の訓練データセットに対して訓練され得る。

動作２０５において、訓練データの強制アラインメントが実施され得る。例えば、強制アラインメントは、音声訓練データコーパス上の現在の最尤音響モデルＭ_ＭＬによって実行されてもよい。一実施形態において、訓練データは、Ｐ個の音素及びＰ^３個の可能性のあるトライフォン（３つの音素タプル）から構成され得る。既存のアルゴリズム、例えば、結合されていないトライフォンの音声知識及び単一のガウス確率密度関数に基づいて訓練される決定木を使用して、Ｐ^３個のトライフォンのＨＭＭ状態が、Ｋ個の結合状態にマッピングされ得る。各特徴フレームが、結合状態クラスラベルを有し得る。これらのＫ個の結合状態が、その後隠れマルコフモデル−ガウス混合モデル（ＨＭＭ−ＧＭＭ）による最尤（ＭＬ）基準を使用して訓練され得る特有のＨＭＭ状態を形成し得る。これらのＫ個の結合状態は、特有のクラスの間で音響特徴空間における判別が選択的にバイアスをかけられたＬＤＡを通じて増大される特有のクラスを含み得る。制御は動作２１０に引き継がれて、プロセス２００は継続する。

動作２１０において、訓練データが処理される。例えば、データ処理は、一連の数学演算を通じて実施されてもよい。訓練データセット全体に対する結合トライフォン認識が、音響モデルＭ_ＭＬを使用して実施され得る。トライフォン結合状態の各々の認識誤り率が、グランドトゥルース、又は訓練データの転写を使用して記録され得る。結合状態ｉの誤り率はｅ_ｉとして定義され得、ｉ・（１，２，．．．，Ｋ）である。３９次元ＭＦＣＣ特徴ベクトルｘ（ｔ）（タイムフレームｔにおける）が、その一次及び二次導関数とともに、トライフォンに対応する音響のセグメントを表すのに使用され得る。音響セグメントは、例えば、２０ミリ秒のような、指定される任意の長さであってもよい。その後、訓練データは、ＨＭＭ−ＧＭＭシステム内の結合トライフォン状態（すなわち、Ｋの中からの１つ）に内部マッピングされ得る。５個の隣接するＭＦＣＣ特徴（ｘ（ｔ−２）、ｘ（ｔ−１）、ｘ（ｔ）、ｘ（ｔ＋１）、ｘ（ｔ＋２））が連結されて、ｎ＝３９×５＝１９５次元スーパーベクトルｙ（ｔ）が形成される。結合状態ラベルを訓練データ内の各フレームｘ（ｔ）に割り当てるために、強制ビタビアラインメントが実施され得る。スーパーベクトルｙ（ｔ）は、各フレームｘ（ｔ）と同じ「結合状態」ラベルを有すると仮定される。

訓練データはその後、クラス間（Ｓ_ｂ）及びクラス内（Ｓ_ｗ）散布図行列を推定するためにさらに処理され得る。例えば、訓練データ全体の結合状態ラベルを使用して、スーパーベクトルｙ（ｔ）の平均が、以下の式においてμ_ｋ、ｋ・（１，２，．．．，Ｋ）、によって示されている各結合状態クラス「ｋ」にわたる平均によって推定され得る。

スーパーベクトルｙ^ｋ（ｔ）は、強制アラインメントにより、結合状態「ｋ」に属する。全体にわたって、訓練データ全体においてクラス「ｋ」に属するＮ_ｋ個のフレームがある。

同様に、グローバル平均ベクトルμが、以下の数学的方程式において推定され得る。

式中、「Ｔ」は訓練データセット全体にあるフレームの総数である。制御は動作２１５に引き継がれて、プロセス２００は継続する。

動作２１５において、散布図行列がバイアスをかけられる。散布図行列は、クラス間散布図行列及びクラス内散布図行列を含み得る。一実施形態において、クラス間散布図行列「Ｓ_ｂ」がバイアスをかけられる。例えば、クラス間散布図行列「Ｓ_ｂ」は、音響モデルＭ_ＭＬによる結合状態クラスの誤り率に基づいてバイアスをかけられてもよい。結合状態の各々の誤り率ｅ_ｋは、音響モデルＭ_ＭＬを使用した訓練データの認識を通じて以前に記録されているものであり得る。クラス間（Ｓ_ｂ）散布図行列は、以下の式において結合状態クラスの誤り率を考慮にいれることによって推定及びバイアスをかけられ得る。

式中、（μ_ｋ−μ）^ｔは、列ベクトル（μ_ｋ−μ）の転置行列である。

一実施形態において、クラス内（Ｓ_ｗ）散布図行列が、以下の式において誤り率を考慮にいれることによって推定及びバイアスをかけられ得る。

式中、（ｙ（ｔ）−μ）^ｔは、ベクトル（ｙ（ｔ）−μ）の転置行列であり、Ｔは訓練データセット内のフレームの総数を表し、μはグローバル平均ベクトルを表す。

誤り率「ｅｋ」を乗算することによって、クラス間散布図行列におけるｋ番目の結合状態の寄与を選択的に強調することができる。クラス間散布図行列Ｓ_ｂは、音響モデルＭ_ＭＬにおいてより高い誤り率を有するクラス（すなわち、結合状態）により敏感になり得る。新たな投影判別空間において、現在モデルＭ_ＭＬによって機能が不十分であるクラスの誤り率を低減することが所望される。制御はステップ２２０に引き継がれて、プロセス２００は継続する。

動作２２０において、固有ベクトルの対角化及び推定が実施される。以下の例において、以下の基準を最大化するために、線形変換Ｕが考えられる。

行列Ｓ_ｗ及びＳ_ｂの同時の対角化が実施され得る。一実施形態において、最初に行列Ｓ_ｗの主成分分析（ＰＣＡ）が実施され得る。Ｓ_ｗのＰＣＡ変換行列は、以下をもたらす「Ａ」によって表され得る。

ＡＳ_ｗＡ^ｔ＝Ｉ
式中「Ｉ」はｎ×ｎのサイズの恒等行列を表し、上付き文字「ｔ」は、この行列の転置行列を表す。対角化行列Ａによる変換の後、新たなクラス間散布図行列

が以下の式によって見いだされ得、

新たなクラス内散布図行列

は以下のようになり得る。

この中間変換Ａによって、新たな最適化関数は、「以下の関数を最大化する行列「Ｖ」を見いだすもの」になる。

上記の式に対する解は、ｎ×ｎのサイズの行列

の既知のＰＣＡによって得られ得る。行列

の「ｄ」個の最も大きい固有値に対応する、ＰＣＡ行列「Ｖ」内の「ｄ」個の固有ベクトルが選択される。ｄ×ｎのサイズに切り詰められた行列は、Ｖ_ｔｒｕｎによって示され得る。

保存された最後の選択的にバイアスをかけられた線形判別分析（ＳｅｌｅｃｔｉｖｅｌｙＢｉａｓｅｄＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ：ＳＢ−ＬＤＡ）変換行列Ｇは、以下のように表すことができる。

Ｇ＝Ｖ_ｔｒｕｎ×Ａ
一実施形態において、この行列のサイズはｄ×ｎである。制御は動作２２５に引き継がれて、プロセス２００は継続する。

動作２２５において、変換が保存される。制御はステップ２３０に引き継がれて、プロセス２００は継続する。

動作２３０において、新たな識別的特徴ｚ（ｔ）が得られ得る。例えば、ＳＢ−ＬＤＡ変換行列「Ｇ」が、以下のような、スーパーベクトルｙ（ｔ）の線形変換としての新たな特徴を得るために使用され得る。

ｚ（ｔ）＝Ｇｙ（ｔ）
式中、ｚ（ｔ）は次元（ｄ×１）の新たな識別的特徴ベクトルである。制御はステップ２３５に引き継がれて、プロセス２００は継続する。

動作２３５において、新たな音響モデルが訓練される。例えば、ＬＤＡ変換行列を通じて得られた、結果としての新たな特徴（すなわち、ｚ（ｔ））によって新たな音響モデルのパラメータが推定され得る。ＬＤＡ変換行列が、新たな音響モデルを訓練するために使用され得る。新たな特徴ベクトルによって、最大尤度推定式を使用してＨＭＭ−ＧＭＭ訓練が再び実施される。その結果が、新たな音響モデルＭ_{ｓｅｌｅｃｔｉｖｅＬＤＡ}である。制御はステップ２４０に引き継がれて、プロセス２００は継続する。

動作２４０において、新たな音響モデルが保存され、プロセスは終了する。少なくとも１つの実施形態において、これらの新たな音響モデルは、キーワードスポッタにおける音声認識のために、その知識源の１つとして使用され得る。

図３に示すように、認識の一実施形態を示すプロセス３００が提供される。プロセス３００は、システム１００の認識エンジン１４０（図１）において機能し得る。

ステップ３０５において、テストデータセットの特徴が変換される。例えば、プロセス２００において推定されたＳＢ−ＬＤＡ行列（すなわち、Ｇ＝Ｖ_ｔｒｕｎ×Ａ）が、テストデータのスプライシングされている５つの隣接するＭＦＣＣ特徴（すなわち、ｙ（ｔ））を変換するために使用され得る。制御はステップ３１０に引き継がれて、プロセス３００は継続する。

動作３１０において、新たな識別的特徴ｚ（ｔ）＝Ｇｙ（ｔ）が得られ得る。例えば、ここで特徴空間はｚ（ｔ）から構成され、これは、スプライシングされている元の特徴ベクトル、例えば、ｙ（ｔ）が変換された特徴である。制御はステップ３１５に引き継がれて、プロセス３００は継続する。

ステップ３１５において、変換された特徴ｚ（ｔ）が種々のトライフォンによって放出されている尤度が推定される。例えば、尤度は音響モデルＭ_{ｓｅｌｅｃｔｉｖｅＬＤＡ}を使用して推定され得る。これらの尤度はその後、音声認識システム内の認識器の対応するビタビ検索パターン認識モジュールによって使用され得、プロセス３００は終了する。

本発明が図面及び上記の説明において詳細に図示及び説明されてきたが、これは例示と考えられるべきであり、文字通りに限定されると考えられるべきではなく、好ましい実施形態のみが図示及び説明されていること、並びに、本明細書においてかつ／又は添付の特許請求の範囲によって説明されているような本発明の精神の範疇に入る全ての均等形態、変化形態、及び変更形態が保護されることが所望されていることが理解される。

したがって、本発明の適切な範囲は、全てのそのような変更形態及び図面に示され明細書に記載されているものと均等な全ての関係を包含するように、添付の特許請求の範囲の最も広い解釈のみによって判断されるべきである。

本明細書において２つの非常に狭い特許請求の範囲が提示されているが、本発明の範囲は、その特許請求の範囲によって提示されているよりもはるかに広いことが認識されるべきである。本出願からの優先権の利益を主張する特許出願において、より広い特許請求の範囲が提出されることが意図されている。

Claims

最尤基準を使用して音響モデルを訓練するためにコンピュータにより実行される方法であって、
ａ．音声訓練データの強制アラインメントを実施するステップと、
ｂ．前記音声訓練データを処理して推定散布図行列を得るステップであって、前記推定散布図行列が平均ベクトルを推定し得るクラス間散布図行列及びクラス内散布図行列のうちの１つ又は複数を含み得る、ステップと、
ｃ．前記クラス間散布図行列及び前記クラス内散布図行列のうちの前記１つ又は前記複数にバイアスをかけるステップと、
ｄ．前記クラス間散布図行列及び前記クラス内散布図行列のうちの前記１つ又は前記複数を対角化して、変換散布図行列を生成するための固有ベクトルを推定するステップと、
ｅ．推定された前記固有ベクトルを使用して新たな識別的特徴を得るステップと、
ｆ．前記新たな識別的特徴に基づいて新たな音響モデルを訓練するステップと、
ｇ．前記音響モデルを保存するステップと、
を含み、
前記音声訓練データは、複数の音素及びトライフォンから構成され得、
ａ．トライフォンの隠れマルコフモデル状態が結合状態にマッピングされ得、
ｂ．各特徴フレームが結合状態クラスラベルを有し得、
ｃ．前記結合状態は、特有のクラスの間で音響特徴空間における判別が、選択的にバイアスをかけられた線形判別分析を通じて増大される、特有のクラスを有し得る、
ことを特徴とする方法。
ステップ（ａ）は、隠れマルコフモデル−ガウス混合モデルによる、前記音声訓練データ全体に対する現在の最大尤度音響モデルを使用するステップをさらに含む、請求項１に記載の方法。
ステップ（ｂ）は、
ａ．訓練されたモデルを使用して前記音声訓練データに対して結合トライフォン認識を実施するステップと、
ｂ．前記音声訓練データの転写を使用して各トライフォン結合状態の認識誤り率を記録するステップと、
ｃ．トライフォンに対応する音響のセグメントを、３９次元メル周波数ケプストラム係数特徴ベクトル並びに一次導関数及び二次導関数によって表すステップと、
ｄ．前記音声訓練データを結合トライフォン状態の内部にマッピングするステップと、
ｅ．前記３９次元メル周波数ケプストラム係数特徴を用いてスーパーベクトルを形成するステップと、
ｆ．結合状態ラベルを前記音声訓練データ内の各フレームに割り当てるために強制ビタビアラインメントを実施するステップと、
ｇ．前記クラス間散布図行列及びクラス内散布図行列のうちの前記１つ又は前記複数を推定するステップと、
をさらに含む、請求項１に記載の方法。
前記ステップ（ｂ）の誤り率は、ｉ・（１，２，．．．，Ｋ）であることを含み、前記フレームの部分は、前記強制アラインメントによりクラスラベル「ｋ」を有するが、認識器によって誤認された前記フレームの部分である、請求項３に記載の方法。
ステップ（ｇ）は、
ａ．各結合状態クラスにわたって平均することによって前記音声訓練データの前記結合状態ラベルを使用して前記スーパーベクトルの平均を推定するステップと、
ｂ．グローバル平均ベクトルを推定するステップと、
をさらに含む、請求項３に記載の方法。
ステップ（ａ）は、数学的方程式
を使用して判断される、請求項５に記載の方法。
ステップ（ｂ）は、数学的方程式
を使用して判断される、請求項５に記載の方法。
ステップ（ｃ）は音響モデルにより結合状態クラスの誤り率に基づいて実施される、請求項１に記載の方法。
前記クラス間散布図行列の前記誤り率は、数学的方程式
を使用して判断される、請求項８に記載の方法。
前記クラス間散布図行列は、数学的方程式
において前記結合状態クラスの前記誤り率を考慮に入れることによって推定され及びバイアスをかけられる、請求項８に記載の方法。
ステップ（ｄ）は、
ａ．線形変換を実施するステップと、
ｂ．対角化を実施するステップと、
ｃ．ＰＣＡを実施するステップと、
ｄ．新たな行列を保存するステップと、
をさらに含む、請求項１に記載の方法。
ステップ（ａ）は、数学的方程式
を使用して実施される、請求項１１に記載の方法。
ステップ（ｆ）は、
ａ．変換行列を通じて得られた新たな特徴を用いてパラメータを推定するステップと、
ｂ．訓練を実施するために新たな特徴を有する最大尤度式を使用するステップと、
をさらに含む、請求項１に記載の方法。
ステップ（ｂ）における前記訓練は、隠れマルコフモデル−ガウス混合モデルを使用して実施される、請求項１３に記載の方法。
音響モデルを訓練するためにコンピュータにより実行される方法であって、
ａ．音声訓練データの強制アラインメントを実施するステップと、
ｂ．前記音声訓練データに対して認識を実施して、各結合状態トライフォンの誤り率を推定するステップと、
ｃ．前記音声訓練データを処理して、平均ベクトルを推定し得る１つ又は複数の推定散布図行列を得るステップと、
ｄ．前記１つ又は複数の推定散布図行列にバイアスをかけるステップと、
ｅ．１つ又は複数の散布図行列に対して対角化を実施して、１つ又は複数の変換散布図行列を生成するためのベクトルを推定するステップと、
ｆ．前記１つ又は複数の変換散布図行列をスーパーベクトルの線形変換として使用して新たな識別的特徴を得るステップと、
ｇ．新たな音響モデルを訓練するステップと、
ｈ．前記音響モデルを保存するステップと、
を含み、
前記音声訓練データは、複数の音素及びトライフォンから構成され得、
ａ．トライフォンの隠れマルコフモデル状態が結合状態にマッピングされ得、
ｂ．各特徴フレームが結合状態クラスラベルを有し得、
ｃ．前記結合状態は、特有のクラスの間で音響特徴空間における判別が、選択的にバイアスをかけられた線形判別分析を通じて増大される、特有のクラスを有し得る、
方法。
ステップ（ａ）は、隠れマルコフモデル−ガウス混合モデルによる、前記音声訓練データ全体に対する現在の最大尤度音響モデルを使用するステップをさらに含む、請求項１５に記載の方法。
ステップ（ｂ）は、
ａ．訓練されたモデルを使用して前記音声訓練データに対して結合トライフォン認識を実施するステップと、
ｂ．前記音声訓練データの転写を使用して各トライフォン結合状態の認識誤り率を記録するステップと、
ｃ．トライフォンに対応する音響のセグメントを、３９次元メル周波数ケプストラム係数特徴ベクトル並びに一次導関数及び二次導関数によって表すステップと、
ｄ．前記音声訓練データセットを結合トライフォン状態の内部にマッピングするステップと、
ｅ．前記３９次元メル周波数ケプストラム係数特徴を用いてスーパーベクトルを形成するステップと、
ｆ．結合状態ラベルを前記音声訓練データセット内の各フレームに割り当てるために強制ビタビアラインメントを実施するステップと、
ｇ．前記１つ又は複数の散布図行列を推定するステップと、
をさらに含む、請求項１５に記載の方法。
ステップ（ｂ）の前記誤り率は、ｉ・（１，２，．．．，Ｋ）として定義される、請求項１７に記載の方法。
ステップ（ｇ）は、
ａ．各結合状態クラスにわたって平均することによって前記音声訓練データの前記結合状態ラベルを使用して前記スーパーベクトルの平均を推定するステップと、
ｂ．グローバル平均ベクトルを推定するステップと、
をさらに含む、請求項１７に記載の方法。
ステップ（ａ）は、数学的方程式
を使用して判断される、請求項１９に記載の方法。
ステップ（ｂ）は、数学的方程式
を使用して判断される、請求項１９に記載の方法。
ステップ（ｃ）は音響モデルにより結合状態クラスの誤り率に基づいて実施される、請求項１５に記載の方法。
前記１つ又は複数の推定散布図行列は、２つの散布図行列を含み、一方はクラス間散布図行列であり、他方はクラス内散布図行列である、請求項１５に記載の方法。
前記クラス間散布図行列の前記誤り率は、数学的方程式
を使用して判断される、請求項２３に記載の方法。
前記クラス間散布図行列は、数学的方程式
において前記結合状態クラスの前記誤り率を考慮に入れることによって推定され及びバイアスをかけられる、請求項２２に記載の方法。
ステップ（ｄ）は、
ａ．線形変換を実施するステップと、
ｂ．対角化を実施するステップであって、前記対角化は前記線形変換と同時に行われる、ステップと、
ｃ．ＰＣＡを実施するステップと、
ｄ．新たな行列を保存するステップと、
をさらに含む、請求項１５に記載の方法。
ステップ（ａ）は、数学的方程式
を使用して実施される、請求項２５に記載の方法。
ステップ（ｆ）は、
ａ．前記１つ又は複数の変換行列を通じて得られた新たな特徴を用いてパラメータを推定するステップと、
ｂ．訓練を実施するために新たな特徴を有する最大尤度式を使用するステップと、
をさらに含む、請求項１５に記載の方法。
ステップ（ｂ）における前記訓練は、隠れマルコフモデル−ガウス混合モデルを使用して実施される、請求項２８に記載の方法。
音響モデルを訓練するためのシステムであって、
ａ．音声訓練データの強制アラインメントを実施するための手段と、
ｂ．前記音声訓練データを処理して推定散布図行列を得るための手段であって、前記散布図行列は、平均ベクトルを推定し得るクラス間散布図行列及びクラス内散布図行列のうちの１つ又は複数を含み得る、処理して得るための手段と、
ｃ．前記クラス間散布図行列及び前記クラス内散布図行列のうちの前記１つ又は前記複数にバイアスをかけるための手段と、
ｄ．前記クラス間散布図行列及び前記クラス内散布図行列のうちの前記１つ又は前記複数を対角化して、変換散布図行列を生成するための固有ベクトルを推定するための手段と、
ｅ．前記変換散布図行列をスーパーベクトルの線形変換として使用して新たな識別的特徴を得るための手段と、
ｆ．新たな音響モデルを訓練するための手段と、
ｇ．前記音響モデルを保存するための手段と、
を備え、
前記音声訓練データは、複数の音素及びトライフォンから構成され得、
ａ．トライフォンの隠れマルコフモデル状態が結合状態にマッピングされ得、
ｂ．各特徴フレームが結合状態クラスラベルを有し得、
ｃ．前記結合状態は、特有のクラスの間で音響特徴空間における判別が、選択的にバイアスをかけられた線形判別分析を通じて増大される、特有のクラスを有し得る、
ることを特徴とするシステム。