JP4410265B2

JP4410265B2 - 音声認識装置及び方法

Info

Publication number: JP4410265B2
Application number: JP2007038657A
Authority: JP
Inventors: 浩司藤村; 貴史益子
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-02-19
Filing date: 2007-02-19
Publication date: 2010-02-03
Anticipated expiration: 2027-02-19
Also published as: JP2008203469A; US20080201136A1; US7921012B2

Description

本発明は、２パス方式で音声認識処理を行う音声認識装置及び方法に関する。

音声認識処理では、一般に音響モデルを用いて入力音声の認識を行う。特許文献１には、複数の音響モデルから入力音声に適したモデルを選択して認識を行う手法が開示されている。また、従来の音声認識処理の例として、１パス目で話者及び環境に依存しない音響モデルを用いて認識を行い、２パス目で特定の話者または環境に依存する音響モデルを用いて認識を行い、認識結果を得る２パス方式が知られている。

さらに、特許文献１に記載された手法を２パス方式に組合せ、１パス目の認識と並行して入力音声に適したモデルを複数の音響モデルから選択し、２パス目で、選択されたモデルを用いて認識を行い、認識結果を得る手法も提案されている（例えば、特許文献２参照）。
特開２００４−１１７６２４号公報特許第３１７６２１０号公報

特許文献２に記載された手法では、２パス目に用いる音響モデルを選択するために必要とされるメモリ使用量と計算量が多くなるという問題がある。

本発明は、音響モデルを選択するために必要とされるメモリ使用量と計算量を軽減可能な音声認識装置及び方法を提供することを目的とする。

本発明の一態様に係る音声認識装置は、話者及び環境に対して一定の第１音響モデルを記憶する第１の記憶部と；特定の話者及び環境の少なくとも一方に依存して変化する複数の第２音響モデルを記憶する第２の記憶部と；前記第２音響モデルを複数グループに分類するための、前記第１音響モデルと共有のパラメータ及び非共有のパラメータを有する分類モデルを記憶する第３の記憶部と；入力音声に対する第１尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第１尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第１音響モデルを用いて音声認識を行う第１の認識部と；前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第２尤度を算出する計算部と；前記第２尤度が最大のグループを選択する選択部と；前記入力音声に対する前記複数の単語候補の第３尤度を計算し、該第３尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第２音響モデルを用いて音声認識を行う第２の認識部と；を具備する。

本発明の別の態様に係る音声認識装置は、話者及び環境に対して一定の第１音響モデルを記憶する第１の記憶部と；特定の話者及び環境の少なくとも一方に依存して変化する複数の第２音響モデルを記憶する第２の記憶部と；複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、前記第１音響モデルと共有のパラメータとして、構造、遷移確率、及び全ての出力確率分布における平均ベクトル及び分散共分散ベクトルを有し、また、非共有のパラメータとして分布の重み係数を有し、前記第２音響モデルを複数グループに分類するための、分類モデルを記憶する第３の記憶部と；入力音声に対する第１尤度が相対的に大きい複数の単語候補及び前記入力音声に対する前記複数グループの第２尤度を得るために、入力音声に対して前記第１音響モデル及び前記分類モデルの非共有パラメータを用いて音声認識を行う第１の認識部と；前記第２尤度が最大のグループを選択する選択部と；前記入力音声に対する前記複数の単語候補の第３尤度を計算し、該計算した第３尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第２音響モデルを用いて音声認識を行う第２の認識部と；を具備する。

本発明では、２パス目に用いる音響モデルを選択するためのパラメータの一部を１パス目に用いる音響モデルと共有するようにしている。従って、２パス目に用いる音響モデルを選択するために必要とされるメモリ使用量及び計算量を軽減可能な音声認識装置及び方法を提供できる。

以下、図面を参照して、本発明の実施形態について説明する。
（第１の実施形態）
図１に示されるように、本実施形態に従う音声認識装置は、音声入力部１０１、特徴量抽出部１０２、第１の音声認識部１０３、グループ尤度計算部１０４、グループ選択部１０５、第２の音声認識部１０６、第１の音響モデル記憶部１１１、分類モデル記憶部１１２、上位候補記憶部１１６及び第２音響モデル記憶部１１７を有する。第１の音響モデル記憶部１１１は、第１音響モデルの非共有パラメータ記憶部１１３と共有パラメータ記憶部１１４を含む。分類モデル記憶部１１２は、共有パラメータ記憶部１１４及び分類モデルの非共有パラメータ記憶部１１５を含む。

音声入力部１０１は、音声を電気信号（音声信号）として取り出すマイクロホンと当該音声信号をデジタル化して音声データを生成するアナログ−デジタル変換器（ＡＤＣ）を含み、当該音声データを特徴量抽出部１０２に与える。

特徴量抽出部１０２は、音声データの特徴量を抽出し、この特徴量を例えばメル周波数ケプストラム係数（Mel−frequency cepstrum coefficient；ＭＦＣＣ）または線形予測符号化（linear predictive coding；ＬＰＣ）係数といった音声認識に適した特徴パラメータに変換して、第１の音声認識部１０３へ出力する。

第１の音響モデル記憶部１１１は、話者及び環境に対して一定の第１音響モデルを記憶する。第１音響モデルとしては、例えば図２に示すような複数の分布を重み付けして混合した混合分布を出力確率分布に持つ隠れマルコフモデル（hidden Markov model；ＨＭＭ）が用いられる。ＨＭＭを用いる音声認識についての詳細は、例えば文献（中川聖一“確率モデルによる音声認識”、電子情報通信学会出版）に記載されている。
第１音響モデルとしてＨＭＭを用いる場合、第１音響モデルのパラメータは例えばモデル構造、状態遷移確率、分布、及び分布に対して与える重み係数を含む。ＨＭＭを用いる音声認識では、最終的な尤度は遷移確率と出力確率を掛け合わせることで算出される。出力確率分布の例としては、以下のような混合正規分布モデル、例えばガウス混合モデル（Gaussian mixture model；ＧＭＭ）ｆ（Ｏ）を用いるが、これに限られるものではない。

ここで、Ｗは混合数、λは重み係数、Ｎ（Ｏ）は正規分布、Ｏは観測ベクトル、Ｕは平均ベクトル、Σは分散共分散行列、Ｄは次元数をそれぞれ表す。

分類モデル記憶部１１２のうちの非共有パラメータ記憶部１１５は、分類モデルのパラメータのうち第１音響モデルと非共有のパラメータを記憶する。ここで、分類モデルは後述する第２音響モデルを図３に示すように所定の分類基準に従って複数のグループ（例えば、グループ１とグループ２）に分類するためのモデルであって、第１音響モデルと一部のパラメータを共有する。即ち、分類モデル記憶部１１２のうちの共有パラメータ記憶部１１４は第１音響モデルと分類モデルとの共有のパラメータを記憶し、非共有パラメータ記憶部１１５は、分類モデルのパラメータのうち第１音響モデルと非共有のパラメータを記憶する。

図３に示されるように、第２音響モデルを分類したグループは、あるグループに属する第２音響モデルが別のグループに属していてもよい。例えば、第２音響モデルが特定話者モデルである場合、分類基準は性別や年齢などに当たる。

分類モデルは、第１音響モデルが複数の分布を重み係数に従って重み付けして混合した混合分布を出力確率分布に持つＨＭＭの場合、これと同様のＨＭＭか、または出力確率分布のみで構成される。第１音響モデルと分類モデルが共にＨＭＭの場合、第１音響モデルと分類モデルは例えば出力確率分布の重み係数λ以外のパラメータを共有している。このとき、出力確率分布が混合正規分布であれば、第１音響モデルと分類モデルは重み係数λ以外のパラメータである、平均ベクトルＵ、及び分散共分散行列Σを共有している。

第１音響モデル及び分類モデルのパラメータは、例えば文献（鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄“音声認識システム”、オーム社出版）等で示されているＥＭアルゴリズムを用いて求めることができる。具体的には、まず第１音響モデルの学習データを用いて第１音響モデルのパラメータを求め、次に共有パラメータを固定したまま分類モデルの学習データを用いて分類モデルの非共有パラメータを求める。第１音響モデル及び分類モデルが共に混合正規分布を出力確率分布に持つＨＭＭであって、重み係数λ以外のパラメータを共有する場合は、例えば第１音響モデルのパラメータを求めて、共有パラメータを固定したまま分類モデルの学習データを用いて重み係数λのみの学習を行う。このようにして、モデル構造、遷移確率、平均ベクトルＵ及び分散共分散行列Σが等しく、重み係数λのみが異なる分類モデルをグループの数だけ作成する。

図４に示されるような、ＨＭＭの出力確率分布が４混合の混合正規分布で表される場合の分類モデルの求め方の一例について説明する。第１音響モデルの重み係数λ_wは図４中の分布左から０．２５、０．２５、０．２５、０．２５であるとする。この第１音響モデルに対して、グループ１に属する音声を用いて重み係数λ_wを更新すると、グループ１の重みが０．１、０．４、０．４、０．１のように求まる。また、グループ２に属する音声を用いて重み係数λ_wを更新すると、グループ２の重みが０．７、０．１、０．１、０．１のように求まる。このようにして重みλ_w以外のパラメータを第１音響モデルと共有する分類モデルを作成できる。尚、各パラメータの求め方は前述した方法に限られない。例えば、各パラメータを全て同時に求めてもよい。また、前述した求め方とは逆に、最初に分類モデルのパラメータを学習し、共有パラメータを固定したまま第１音響モデルの非共有パラメータを求めてもよい。

第１の音声認識部１０３は、特徴量抽出部１０２によって抽出された音声特徴量に対して、第１音響モデルを用いて第１の音声認識処理を行う。第１の音声認識処理では、第１音響モデルを入力音声の音声特徴量に作用させて、複数の単語候補について入力音声に対する尤度を算出する。第１の音声認識部１０３は、これらの単語候補のうち、尤度が相対的に大きい複数の候補を上位候補として出力する。上位候補記憶部１１４は、上位候補を記憶する。

また、第１の音声認識部１０３は、尤度の算出の際に出力確率分布の計算を行っているが、このうちパラメータを分類モデルと共有している出力確率分布（共有出力確率分布）の計算結果をグループ尤度計算部１０４に渡す。例えば、分類モデルのうち、いくつかの出力確率分布が共有出力確率分布であって、平均ベクトルＵ_w、及び分散共分散行列Σ_wを第１音響モデルと共有し、重み係数λ_wのみが異なるとする。この場合、第１音響モデルを用いて計算した共有出力確率分布の計算結果Ｎ（Ｏ；Ｕ_w，Σ_w）がグループ尤度計算部１０４に渡される。後述するグループ尤度計算部１０４においてグループ尤度ｆ（Ｏ）を求める際に、これら共有出力確率分布の計算結果Ｎ（Ｏ；Ｕ_w，Σ_w）を用い、共有出力確率分布の再計算を省略している。

グループ尤度計算部１０４は、入力音声に対する各グループの尤度を計算する。この計算では、入力音声の音声特徴量に分類モデルを作用させる。ここで、グループ尤度計算部１０４は、前述した共有出力確率分布の計算結果が入力されているので、これを利用する。例えば分類モデルが混合正規分布であれば、正規分布Ｎ（Ｏ；Ｕ_w，Σ_w）に重み係数λ_wを乗じて混合し、遷移確率を乗じてグループ尤度ｆ（Ｏ）を求める際に、共有出力確率分布Ｎ（Ｏ；Ｕ_w，Σ_w）については再計算をせずに、第１の音声認識の計算結果を利用する。従って、グループ尤度計算部１０４は、パラメータを共有していない出力確率分布（非共有確率分布）Ｎ（Ｏ；Ｕ_w，Σ_w）についてのみ音声特徴量を用いて計算する。また、グループ尤度計算部１０４では、尤度計算を全てのフレームについては行わずに、ＨＭＭのある状態に関するフレームについてのみ行うなど、計算の省略を行ってもよい。

第２の音響モデル記憶部１１５は、特定の話者または環境の少なくとも一方に依存して変化する第２音響モデルを記憶する。第２音響モデルは第２の音声認識部１０６で使用できるモデル、例えば音声で学習した混合正規分布を出力確率分布に持つＨＭＭであればよく、必ずしも第１音響モデルとの共有パラメータを持たなくともよい。

グループ選択部１０５は、グループ尤度計算部１０４により計算された各グループの尤度に基づいて尤度が最大のグループを選択し、選択したグループに含まれる第２音響モデルを第２の音声認識部１０６に渡す。

第２の音声認識部１０６は、特徴量抽出部１０２によって抽出された音声特徴量に対して、グループ選択部１０５により選択された、尤度が最大のグループに含まれる第２音響モデルを用いて音声認識処理を行う。第２の音声認識部１０６の音声認識処理では、第２音響モデルを入力音声の音声特徴量に夫々作用させて、上位候補記憶部１１４に記憶されている上位候補について入力音声に対する尤度を夫々算出する。そして、第２の音声認識部１０６は、これら上位候補のうち尤度が最大の候補を最終的な認識結果として出力する。

次に、図５を用いて本実施形態に従う音声認識装置の処理手順を説明する。

まず、音声入力部１０１によって音声を入力する（ステップＳ５０１）。音声入力部１０１は、入力音声をデジタルデータにアナログ−デジタル変換し、特徴量抽出部１０２に渡す。次に、ステップＳ５０２に進む。

次に、特徴量抽出部１０２が入力音声の音声データから音声特徴量を抽出する（ステップＳ５０２）。次に、第１の音声認識部１０３は、第１音響モデル記憶部１１１から第１音響モデルを取得し、第１音響モデルを用いて、複数の単語候補について入力音声に対する尤度を算出し、尤度の高いいくつかの候補を上位候補として上位候補記憶部１１４に保存する（ステップＳ５０３）。

次に、グループ尤度計算部１０４は、入力音声に対する各グループの尤度を計算する（ステップＳ５０４）。具体的には、グループ尤度計算部１０４は、分類モデルの非共有パラメータ記憶部１１５から分類モデルの非共有パラメータを取得し、非共有パラメータと入力音声の特徴量とを用いて非共有出力確率分布を計算し、この計算結果と、第１の音声認識部１０３から取得した共有出力確率分布の計算結果とを用いて入力音声に対する各グループの尤度を計算する。

次に、グループ選択部１０５が、各グループの尤度に基づいて入力音声に対して尤度最大のグループを選択し、この尤度最大のグループに包含される第２音響モデルを第２音響モデル記憶部１１５から取得する（ステップＳ５０５）。

最後に、第２の音声認識部１０６が、最適なグループに包含される第２音響モデルを用いて、上位候補に関して入力音声に対する尤度を算出し、この結果、最も高い尤度が算出された候補を最終的な認識結果として出力する（ステップＳ５０６）。

本実施形態によれば、第１音響モデルと分類モデルの一部のパラメータが共有して記憶されているため、このパラメータを別々に記憶する構成に比べてメモリ使用量を減らすことができる。また、グループ尤度計算部１０４は、第１の音声認識部１０３が算出した共有出力確率分布の計算結果を利用するため、各グループの尤度計算の計算量を減らすことができる。

（第２の実施形態）
図６に示される本発明の第２の実施形態に従う音声認識装置では、グループ尤度計算部１０４の処理が異なる。図６において、図１と同一部分には同一符号を付して詳細な説明を省略し、図１と異なる部分を中心に述べる。

本実施形態において第１音響モデル及び分類モデルはいずれもＨＭＭであり、モデル構造及び遷移確率が等しい。また、全ての出力確率分布がパラメータを共有する。パラメータの共有は、例えば前述した方法で行われる。

グループ尤度計算部６０４は、入力音声に対する各グループの尤度を計算する。ここで、グループ尤度計算部６０４は、前述した共有出力確率分布の計算結果を第１の音声認識部１０３より取得しているので、これを利用する。

本実施形態では、分類モデルは第１音響モデルと全ての出力確率分布においてパラメータを共有しているため、非共有出力確率分布は存在せず、全ての正規分布Ｎ（Ｏ；Ｕ_w，Σ_w）は計算済みである。従って、グループ尤度計算部６０４において、正規分布Ｎ（Ｏ；Ｕ_w，Σ_w）について計算する必要が無いため、グループ尤度計算部６０４は入力音声の音声特徴量を必要としない。そこで、グループ尤度計算部６０４では第１の音声認識部１０３より取得した正規分布Ｎ（Ｏ；Ｕ_w，Σ_w）をグループの重み係数λ_wを乗じた後に混合してグループ尤度ｆ（Ｏ）を求め、ｆ（Ｏ）に遷移確率を乗じて各グループの入力音声に対する尤度を計算する。

本実施形態によれば、第１音響モデルと分類モデルは共に遷移確率、モデル構造の等しいＨＭＭであり、しかも全ての出力確率分布においてパラメータを共有しているため、これらのパラメータを別々に記憶する構成に比べてメモリ使用量を減らすことができる。また、グループ尤度計算部６０４は、第１の音声認識部１０３が算出した正規分布Ｎ（Ｏ；Ｕ，Σ）の計算結果を利用するため、各グループの尤度計算の計算量を減らすことができる。

（第３の実施形態）
図７に示されるように、本発明の第３の実施形態に従う音声認識装置では、図６に示す第２の実施形態におけるグループ尤度計算部の機能を第１の音声認識部７０３に持たせており、これに伴いグループ選択部１０５の処理が異なっている。図７において図６と同一部分には同一符号を付して示して詳細な説明を省略し、図６と異なる部分を中心に述べる。

第１の音声認識部７０３は入力音声の音声特徴量に対して、第１音響モデル及び分類モデルを作用させ、第１の音声認識処理を行う。第１の音声認識処理は、前述した上位候補の出力に加えて、全ての認識結果に対する各グループの尤度の算出を含む。具体的には、例えば分類モデルの出力確率分布が混合正規分布であって、かつ、分類モデルと第１音響モデルは重み係数以外のパラメータを全て共有していると仮定する。第１の音声認識部７０３は、図８のように第１音響モデルを用いてｔフレーム目の尤度を計算する際に、正規分布Ｎ（Ｏ；Ｕ_w，Σ_w）を第１音響モデルにおける重み係数λ_wを乗じて混合することになる。このとき、これに並行して各グループにおける重み係数λ_iw（ただしｉはグループ番号を表すものとする。従って、グループがｎ個あれば、ｉは１からｎまでの整数である）を乗じて、正規分布Ｎ（Ｏ；Ｕ_w，Σ_w）を混合し、遷移確率を乗じて各グループの尤度を算出できる。

グループ選択部７０５は第１の音声認識部７０３が計算した、全ての認識結果に対する各グループの尤度に基づいて入力音声に対して最適なグループを選択し、このグループに含まれる第２音響モデルを第２の音声認識部１０６に渡す。ここで、各グループの尤度は単語候補毎に異なるが、最適なグループ選択方法として以下のような例が考えられる。第１の音声認識の結果、尤度の最も高い単語候補が“ａｋａ”であり、次が“ａｋｉ”であったと仮定する。この場合、（ａ）入力音声に対する尤度が最も高い単語候補に関して最もグループ尤度が高いグループ、即ち、“ａｋａ”という単語に関してグループ尤度が最も高いグループ、（ｂ）単語候補の尤度に関わらず、最もグループ尤度が高いグループ、すなわち“ａｋａ”または“ａｋｉ”のどちらに関してでもよいから最もグループ尤度が高いグループを最適なグループとして選択する。

本実施形態によれば、第２の実施形態におけるグループ尤度計算部１０４の処理を第２の音声認識部７０３に組み込んでいる。従って、グループ尤度の計算と上位候補の検出を同時に行うことが可能である。

（第４の実施形態）
次に、本発明の第４の実施形態について説明する。本実施形態において、分類モデルは混合正規分布モデルであって、第１音響モデルの出力確率分布と全ての分布を共有する。尚、第２の実施形態の構成を示す図６及び第３の実施形態の構成を示す図７はいずれも本実施形態に流用できる。

本実施形態に係る音声認識装置の動作としては、前述した第２の実施形態及び第３の実施形態におけるグループ尤度計算を変形したものとなる。本実施形態におけるグループ尤度計算は、例えば次のようにして行う。第１の音声認識処理において、第１音響モデルが通り得る全てのＨＭＭのパスに関してグループの尤度を加算する。各グループの出力確率は前述の方法と同様に求めることができる。このようにして、各グループの入力音声に対する尤度のみが計算される。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に従う音声認識装置の構成を示すブロック図。複数の分布を重み付けして表される混合分布を出力確率分布に持つＨＭＭの一例を示す図。グループによる第２音響モデルの分類例を示す図。ＨＭＭの出力確率分布が４混合の混合正規分布で表される場合の分類モデルの求め方の一例を示す図。本発明の第１の実施形態に従う音声認識装置の処理手順を示すフローチャート。本発明の第２の実施形態に従う音声認識装置の構成を示すブロック図。本発明の第３の実施形態に従う音声認識装置の構成を示すブロック図。第１の音声認識部７０３における各グループの尤度計算の実行例を示す図。

符号の説明

１０１・・・音声入力部
１０２・・・特徴量抽出部
１０３・・・第１の音声認識部
１０４・・・グループ尤度計算部
１０５・・・グループ選択部
１０６・・・第２の音声認識部
１１１・・・第１の音響モデル記憶部
１１２・・・分類モデル記憶部
１１３・・・非共有パラメータ記憶部
１１４・・・共有パラメータ記憶部
１１５・・・非共有パラメータ記憶部
１１６・・・上位候補記憶部
１１７・・・第２の音響モデル記憶部
６０４・・・グループ尤度計算部
７０３・・・第１の音声認識部
７０５・・・グループ選択部

Claims

複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、話者及び環境に対して一定の第１音響モデルを記憶する第１の記憶部と；
特定の話者及び環境の少なくとも一方に依存して変化する複数の第２音響モデルを記憶する第２の記憶部と；
前記第２音響モデルを複数グループに分類するための隠れマルコフモデルであって、出力確率分布を算出するためのパラメータを含む前記第１音響モデルとの共有のパラメータ及び非共有のパラメータを有する分類モデルを記憶する第３の記憶部と；
入力音声に対する第１尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第１尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第１音響モデルを用いて音声認識を行う第１の認識部と；
前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第２尤度を算出する計算部と；
前記第２尤度が最大のグループを選択する選択部と；
前記入力音声に対する前記複数の単語候補の第３尤度を計算し、該第３尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第２音響モデルを用いて音声認識を行う第２の認識部と；
を具備することを特徴とする音声認識装置。
前記共有のパラメータは、前記分類モデルの少なくとも一つの出力確率分布である共有出力確率分布を算出するための共有平均ベクトル及び共有分散共分散行列を含み、
前記計算部は、前記第１の音声認識部から前記共有のパラメータに関する計算結果として前記入力音声の特徴量、前記共有平均ベクトル及び前記共有分散共分散行列を用いて算出された第１の正規分布を取得して当該第１の正規分布に重み係数を乗じて混合することにより前記共有出力確率分布を計算し、前記入力音声の特徴量に前記非共有のパラメータに含まれる非共有平均ベクトル及び非共有分散共分散行列を用いて第２の正規分布を計算して当該第２正規分布に重み係数を乗じて混合することにより前記共有出力確率分布以外の非共有出力確率分布を計算し、前記共有出力確率分布及び前記非共有出力確率分布に夫々遷移確率を乗じて前記第２尤度を計算することを特徴とする請求項１記載の音声認識装置。
前記分類モデルは、構造及び遷移確率が前記第１音響モデルと等しく、かつ、全ての出力確率分布において前記第１音響モデルと平均ベクトル及び分散共分散行列を前記共有のパラメータとすることを特徴とする請求項１記載の音声認識装置。
話者及び環境に対して一定の第１音響モデルを記憶する第１の記憶部と；
特定の話者及び環境の少なくとも一方に依存して変化する複数の第２音響モデルを記憶する第２の記憶部と；
複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、前記第１音響モデルと共有のパラメータとして、構造、遷移確率、及び全ての出力確率分布における平均ベクトル及び分散共分散行列を有し、また、非共有のパラメータとして分布の重み係数を有し、前記第２音響モデルを複数グループに分類するための、分類モデルを記憶する第３の記憶部と；
入力音声に対する第１尤度が相対的に大きい複数の単語候補及び前記入力音声に対する前記複数グループの第２尤度を得るために、入力音声に対して前記第１音響モデル及び前記分類モデルの非共有パラメータを用いて音声認識を行う第１の認識部と；
前記第２尤度が最大のグループを選択する選択部と；
前記入力音声に対する前記複数の単語候補の第３尤度を計算し、該計算した第３尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第２音響モデルを用いて音声認識を行う第２の認識部と；
を具備することを特徴とする音声認識装置。
前記第１の認識部は、入力音声の特徴量及び前記共有のパラメータを用いて正規分布を計算して、第１音響モデルの重み係数を乗じて混合し、遷移確率を乗じて入力音声に対する単語候補の第１尤度を計算すると同時に、各グループに対応する重み係数を当該正規分布に乗じて混合し、遷移確率を乗じて各グループの第２尤度を並行して計算することを特徴とする請求項４記載の音声認識装置。
話者及び環境に対して一定の第１音響モデルを記憶する第１の記憶部と；
特定の話者及び環境の少なくとも一方に依存して変化する複数の第２音響モデルを記憶する第２の記憶部と；
前記第２音響モデルを複数グループに分類するための混合正規分布モデルであって、前記第１音響モデルの出力確率分布と全ての分布を共有のパラメータとして有し、前記共有パラメータ以外の非共有のパラメータを有する分類モデルを記憶する第３の記憶部と；
入力音声に対する第１尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第１尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第１音響モデルを用いて音声認識を行う第１の認識部と；
前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第２尤度を算出する計算部と；
前記第２尤度が最大のグループを選択する選択部と；
前記入力音声に対する前記複数の単語候補の第３尤度を計算し、該第３尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第２音響モデルを用いて音声認識を行う第２の認識部と；
を具備することを特徴とする音声認識装置。
複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、話者及び環境に対して一定の第１音響モデルを記憶する第１の記憶ステップと；
特定の話者及び環境の少なくとも一方に依存して変化する複数の第２音響モデルを記憶する第２の記憶ステップと；
前記第２音響モデルを複数グループに分類するための隠れマルコフモデルであって、出力確率分布を算出するためのパラメータを含む前記第１音響モデルとの共有のパラメータ及び非共有のパラメータを有する分類モデルを記憶する第３の記憶ステップと；
入力音声に対する第１尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第１尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第１音響モデルを用いて音声認識を行う第１の認識ステップと；
前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第２尤度を算出する計算ステップと；
前記第２尤度が最大のグループを選択する選択ステップと；
前記入力音声に対する前記複数の単語候補の第３尤度を計算し、該第３尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第２音響モデルを用いて音声認識を行う第２の認識ステップと；
を含む音声認識方法。
複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、話者及び環境に対して一定の第１音響モデルを記憶する第１の記憶処理と；
特定の話者及び環境の少なくとも一方に依存して変化する複数の第２音響モデルを記憶する第２の記憶処理と；
前記第２音響モデルを複数グループに分類するための隠れマルコフモデルであって、出力確率分布を算出するためのパラメータを含む前記第１音響モデルとの共有のパラメータ及び非共有のパラメータを有する分類モデルを記憶する第３の記憶処理と；
入力音声に対する第１尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第１尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第１音響モデルを用いて音声認識を行う第１の認識処理と；
前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第２尤度を算出する計算処理と；
前記第２尤度が最大のグループを選択する選択処理と；
前記入力音声に対する前記複数の単語候補の第３尤度を計算し、該第３尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第２音響モデルを用いて音声認識を行う第２の認識処理と；
を含む音声認識処理をコンピュータに行わせるためのプログラム。