JP2008197463A

JP2008197463A - 音声認識装置及び音声認識方法

Info

Publication number: JP2008197463A
Application number: JP2007033560A
Authority: JP
Inventors: Yoshiharu Abe; 芳春阿部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-02-14
Filing date: 2007-02-14
Publication date: 2008-08-28

Abstract

【課題】従来は、雑音毎の整合モデルを並置するため、使用環境下での想定雑音の種類が多いと、雑音種類に応じた複数の整合モデルを記憶するためのメモリ量が増加する。
【解決手段】入力された音声を分析しフレームごとに特徴ベクトルを抽出する特徴抽出手段と、基礎となる音響モデルのパラメータを記憶する音響モデル記憶手段と、前記基礎となる音響モデルのパラメータと変形後の音響モデルのパラメータの対応関係を表す変形モデルを分類されたパラメータとして記憶する変形モデル記憶手段と、前記特徴抽出手段の出力を受けて、前記元になる音響モデルのパラメータを前記変形モデルに基づいて変形して少なくとも変形後の音響モデルのパラメータに基づいて尤度を計算し前記特徴ベクトルとマッチングをとるマッチング手段とを備える。
【選択図】図１

Description

この発明は雑音が発生する環境に於いて音声認識を行う音声認識装置及び音声認識方法に関するものである。

従来の音声認識装置は、使用環境下で予め想定される複数種類の雑音について雑音ごとに雑音重畳音声から学習した複数の音響モデル(整合モデルと呼ぶ)を並置し、フレームごとに入力音声に最も近い整合モデルを選択することによって、雑音条件既知の整合モデルに近い認識性能を得ている（例えば、非特許文献１）。

阿部芳春、日本音響学会講演論文集、2-1-16「雑音重畳音声の最近隣ガウス混合分布による複数種類雑音環境下の音声認識」、2006年3月、P101〜102

従来の音声認識装置は、雑音ごとの整合モデルを並置するため、使用環境下で予め想定される雑音の種類が多くなると、雑音の種類に応じた複数の整合モデルを記憶するための必要なメモリ量が増加するという問題点があった。
この発明は上記のような問題点を解決するためになされたもので、音響モデルのメモリ量の削減を目的とする。

この発明に係る音声認識装置は、
入力された音声を分析しフレームごとに特徴ベクトルを抽出する特徴抽出手段と、
基礎となる音響モデルのパラメータが記憶される音響モデル記憶手段と、
前記基礎となる音響モデルのパラメータと変形後の音響モデルのパラメータの対応関係を表す変形モデルが、分類されたパラメータとして記憶される変形モデル記憶手段と、
前記特徴抽出手段の出力を受けて、前記基礎になる音響モデルのパラメータを前記変形モデルに基づいて変形し、少なくとも変形後の音響モデルのパラメータに基づいて尤度を計算して前記特徴ベクトルとマッチングをとるマッチング手段と、を備える。

この発明の音声認識装置によれば、基礎となる音響モデルのパラメータとそれと対応づけられた変形後の音響モデルのパラメータとからなる学習用のサンプルから、分類ごとに対応関係のモデルのパラメータを学習し、入力音声の特徴ベクトルに対応する基礎となる音響モデルのパラメータから前記対応関係のモデルに従って変形後の音響モデルのパラメータを生成し、この変形後の音響モデルのパラメータに基づいて、特徴ベクトルに対する尤度を算出しながら、音声認識の探索を行うので少ないメモリ量で、入力雑音の整合モデルの性能に近づいた性能を有する雑音下の音声認識装置を提供することができる。

実施の形態１．
図１はこの発明の実施の形態１を示す音声認識システムの機能構成図である。
図１において、特徴抽出手段２は入力音声１のフレームごとに入力音声１を分析しC0を含む０次から１２次のメルケプストラム係数と、これらのΔメルケプストラム係数及びΔΔメルケプストラム係数とを含む39次元の特徴ベクトルを抽出してマッチング手段５に出力する手段、音響モデル記憶手段３は基礎となる音響モデルを記憶する手段、変形モデル記憶手段４は音響モデル記憶手段３中の音響モデルパラメータの変形を分類した変形モデルを記憶する手段、マッチング手段５はモデル探索手段５０３と尤度計算手段５０４と漸化式計算手段５０５とを備え、音響モデル記憶手段３の音響モデルと変形モデル記憶手段４の変形モデルとを参照し基礎の音響モデルのパラメータを変形し生成される音響モデルと特徴抽出手段２から入力された特徴ベクトルの系列との照合処理を行ない認識結果６を求める手段である。

次に動作について説明する。
まず認識動作に先立ち、以下のように、基礎となる音響モデルを作成して音響モデル記憶手段３に記憶するとともにこの基礎となる音響モデルから変形モデルを作成し変形モデル記憶手段４に記憶する。図２はこのような音響モデル及び変形モデルの学習処理の流れ図である。まず音声認識装置が使用される環境において入力音声に重畳することが予想される雑音環境下で雑音環境下雑音データ３１を収集（ステップＳ３０１）し、同データ３１を雑音分類ステップＳ３０２において分類することにより、複数種類の雑音データ３３−１〜３３−Ｎの雑音データベース３３を用意する。一方、HMM(Hidden Markov Model)の学習用として、雑音のない音声データ（クリーン音声データと呼ぶ）３４を用意する（ステップＳ３０４）。次に雑音データベース３３に用意されたそれぞれの雑音データ３３−１〜３３−Ｎを認識時に想定されるSN比(signal to noise ratio、例えば15dB)あるいは想定される範囲の複数のSN比(例えば5, 10, 15, 20dBの4通り)でクリーン音声３４に重畳する（ステップＳ３０５）ことによりそれぞれの雑音データに対応する雑音重畳音声データ３６−１〜３６−Ｎを作成し、雑音重畳音声データベース３６に記憶する。

次にHMM学習手段（図示せず）は、まず、雑音重畳音声データベース３６中のすべての雑音重畳音声データを学習データとして用いて、雑音重畳音声データの全体にマッチする(マルチスタイル)音響モデル３−Ａを整合モデルデータベース３８内に作成（ステップＳ３０７）する。このようにして作成された音響モデル３−Ａは基礎の音響モデルとなり図１の音響モデル記憶手段３中に転送される。
続いて、HMM学習手段は、雑音重畳音声データベース３６中のそれぞれの雑音重畳音声データを学習データとして用いて、それぞれの雑音重畳音声データにマッチする整合モデル３−１〜３−Ｎを整合モデルデータベース３８内に作成する（ステップＳ３０７）。

ここで、音響モデル３−ＡはＳ個の状態からなり、各状態はＭ個のガウス分布からなる。また、雑音環境の種類はＮ個であり、Ｎ個の整合モデル３−１〜３−Ｎは、それぞれ、Ｓ個の状態からなり、各状態はＭ個のガウス分布からなる。（例えば、Ｓ＝２０００、Ｍ＝４、Ｎ＝２６とすることができる。また、状態数と状態当りのガウス分布数は、相互の対応がつけば、必ずしも、音響モデル３−Ａと整合モデル３−１〜３−Ｎ間で一致する必要はない。）

次に、変形モデル学習手段（図示せず）は、整合モデルデータベース３８内の音響モデル３−Ａのパラメータと、雑音ごとの整合モデル３−１〜３−Ｎのパラメータに基づいて、変形モデル記憶手段４に記憶される変形モデル４−Ａのパラメータを学習する（ステップＳ４００）。学習された変形モデル４−Ａのパラメータは変形モデル記憶手段４に転送され記憶される。変形モデルは、基礎の音響モデルのパラメータと変形モデルを適用した後の音響モデルのパラメータの関係を分類して例えば式１や式２、式３の線形モデルで表すものである。

ここで、pはＰ種類に分類された変形モデルの番号でp∈[1,P]なる数、x(s,m)は音響モデル３−Ａの状態ｓのｍ番目のガウス分布の平均ベクトル、y(s,m,p)はx(s,m)に対応するｐ番目の変形モデルによる変形後の音響モデルにおける状態ｓのｍ番目のガウス分布の平均ベクトル、u(s,m)は音響モデル３−Ａの状態ｓのｍ番目のガウス分布の対角分散ベクトル、v(s,m,p) はu(s,m) に対応するｐ番目の変形モデルによる変形後の音響モデルにおける状態ｓのｍ番目のガウス分布の対角分散ベクトル、A(p)は回帰行列、b(p)はバイアスベクトル(切片)、r(p)は分散比ベクトル、ε1(s,m,n)〜ε3(s,m,n) はそれぞれモデルの誤差項である。
このとき、変形モデル学習手段は、Ｓ４００の処理により式1〜式3中のパラメータＡ(p)やb(p)、r(p)を推定する。

次に、上記変形モデル学習手段の動作について説明する。図３は変形モデルの学習処理（図２のステップＳ４００）を示す流れ図である。以下、図３を用いて変形モデル学習手段の動作を説明する。

ステップＳ４０１において、変形モデル学習手段は、基礎となる音響モデル３−Ａと整合モデル３−１〜３−Ｎを整合モデルデータベース３８から取り込む。
ステップＳ４０２において、式１や式２に対応して、y(s,m,n) とx(s,m) のペアを１組のサンプルとしてサンプルを収集する。また、式３に対応して、v(s,m,n)とu(s,m) のペアを１組のサンプルとしてサンプルを収集する。収集の結果、次式のサンプルの集合を得る。
Φx={s,m,n ,y(s,m,n),x(s,m)|s∈[1,S],m∈[1,M],n∈[1,N]}
Φu={s,m,n ,v(s,m,n),u(s,m)|s∈[1,S],m∈[1,M],n∈[1,N]}

ここで、ｓは状態の番号、ｍはガウス分布の番号、ｎは雑音環境の番号、x(s,m)は基礎となる音響モデル３−Ａの状態ｓのｍ番目のガウス分布の平均ベクトル、y(s,m,n)はx(s,m)に対応する雑音環境ｎの整合モデル３−Ｎの状態ｓのｍ番目のガウス分布の平均ベクトル、u(s,m)は基礎となる音響モデル３−Ａの状態ｓのｍ番目のガウス分布の対角分散ベクトル、v(s,m,n)はu(s,m) に対応する雑音環境ｎの整合モデル３−Ｎの状態ｓのｍ番目のガウス分布の対角分散ベクトルである。
なお、混合分布内のガウス分布の番号付けに関して任意性があるため、ガウス分布どうしの対応関係は、予め、例えば、両方ともＭ個からなるガウス分布どうしの場合、Ｍ×Ｍ通りの対応付けの仕方について、ガウス分布間の距離を求め、距離の総和を最小とするように決めることができる。

ステップＳ４０３において、変形モデルの番号ｐをp=1とおく。
ステップＳ４０４において、サンプルの第ｐ番目の部分集合 Ω（ｐ）について、変形モデルのパラメータを推定する。ここで、サンプルの第ｐ番目の部分集合 Ω（ｐ）は、任意の状態ｓと任意の雑音環境ｎの組合せからなる離散的な点の集合 {(s,n)∈[1,S]×[1,N]} をＰ個の部分集合 {Ω(p)|p∈[1,P]} に予め分類してあり、そのｐ番目の部分集合を表す。

部分集合 Ω（ｐ）は、例えば、状態ｓによらず雑音環境ｎがｐである点の集合とすることがきる。この場合、部分集合の個数Ｐは雑音環境の数Ｎに等しく、第ｐ番目の部分集合 Ω（ｐ）は

と表せる。図４はこのような場合の状態と雑音環境からなる空間 [1,S]×[1,N] 上の分類を示す。この図の斜線を付した領域が部分集合 Ω（ｐ）に対応する。別の分類方法として、例えば、部分集合 Ω（ｐ）を (s,n) の全空間 [1,S]×[1,N] を変形の類似したP個の部分空間に分類することができる。図５はこのような場合の部分集合 Ω（ｐ）への分類の様子を示す。この場合には雑音環境によって異なる状態が同じ部分集合 Ω（ｐ）に分類される。

次に、部分集合 Ω（ｐ）に含まれる各点 (s,n) ∈Ω(p) と一致するｓとｎを同時に有するサンプルをサンプルの集合 Φx から選択し、サンプルの部分集合 Φx(p)
Φx(p)={s,m,n,y(s,m,n),x(s,m)|(s,n)∈Ω(p),m∈[1,M]}
を得てから、この部分集合 Φx（ｐ）内のサンプルを用いて、式１や式２における変形モデルのパラメータ A(p) や b(p) を推定する。変形モデルのパラメータは、例えば、式１や式２の誤差項の２乗和が最小となるように最小２乗法に基づいて決定することができる。この場合は、誤差項が平均０の多次元正規分布に従うように決定される。図４に例示した分類では、雑音環境nがpに一致するサンプル集合を用いてｐ番目の変形モデルのパラメータ {p,A(p),b(p)} が推定される。

なお、式３における変形モデルのパラメータ r(p) を推定する場合は、上記と同様に、サンプルの集合 Φv(p) からサンプルの部分集合
Φv(p)={s,m,n,v(s,m,n),u(s,m)|(s,n)∈Ω(p),m∈[1,M]}
を選択し、この部分集合 Φx（ｐ）内のサンプルを用いて、式３における変形モデルのパラメータ r(p) を推定する。変形モデルのパラメータは、例えば、式３の誤差項の２乗和が最小となるように最小２乗法に基づいて決定することができる。

ステップＳ４０５において、すべての番号ｐについて部分集合 Ω（ｐ）の処理が終了している場合次のステップＳ４０７に進む。そうでない場合、ステップＳ４０６に進み、ステップＳ４０６において、ｐを１だけ進め、ステップＳ４０４に戻る。

ステップＳ４０７において、ステップＳ４０３〜ステップＳ４０５において推定された変形モデルのパラメータΘ
Θ={p,A(p),b(p),r(p)|p∈[1,P]}
とマッチング手段５の制御に用いる制御情報Γ
Γ={s,m,Q(s,m),{p(q)|q∈[1,Q(s,m)]}|s∈[1,S],m∈[1,M]}
とを図１の変形モデル記憶手段４へ転送する。

図６は変形モデル記憶手段４の内部の構成図で、４００１は記憶された変形モデルのパラメータΘを、また、４００２は記憶された制御情報Γをそれぞれ示す。ここで、制御情報Γ中において、Ｑ（ｓ，ｍ）は状態ｓの第ｍ番目のガウス分布に適用する変形モデルの数、ｐ（ｑ）はｑ番目の変形に用いる変形モデルの番号で、変形モデルのパラメータΘ中の番号ｐを表す。なお、後述のように、マッチング手段５は、この制御情報に基づいて、基礎のモデルの状態ｓ，ガウス分布ｍのパラメータをｐ（ｑ）で示されるＱ（ｓ，ｍ）個の番号が指す変形パラメータを含む変形モデルの式１や式２を用いて、変形した後のガウス分布のパラメータを用いて状態ｓ，ガウス分布ｍの出力確率を計算する。

次に認識時の動作について説明する。認識動作は発話の開始フレームの時刻１から終了フレームの時刻Ｔまで、入力音声のフレームを単位とした時刻ｔ=1,2,…,Tにおいて特徴抽出手段２による特徴抽出とマッチング手段５によるマッチング処理により行う。

図７はこのマッチング処理の流れ図である。以下、図７を用いてマッチング手段５の処理を説明する。
まずステップＳ５０１において前向き確率 α(j,t) の初期化を式５により行う。

次にステップＳ５０２において特徴抽出手段２により求められた特徴ベクトルx_t (以下、添え字x,xyz等を_x,_{xyz}のように表記する) を取得する。
次にステップＳ５０３からステップＳ５０５において前向き確率 α(j,t) を求めるための漸化式を計算する。漸化式は、前フレームで残ったHMMの状態ｉから遷移可能なHMMの状態ｊに限定して行う。ビタビアルゴリズムを用いた場合の漸化式は例えば式６のようになる（なお、以下の説明ではビタビアルゴリズムの漸化式を用いるが、漸化式としては最大値演算を総和演算で置き換えたトレリスアルゴリズムの漸化式でもかまわない）。

ここで、δ(i,j) は状態iから状態jの遷移が可能であることを示し、Ω(t-1) は時刻t-1 で残った状態の集合を示す。また、a_{i,j} は状態iから状態jへの遷移確率、p(x_t,j) は状態ｊにおける特徴ベクトル x_t の尤度である。尤度 p(x_t,j) は次のように求める。

まずステップＳ５０３において変形モデル記憶手段４に記憶された制御情報Γ４００１からｓ＝ｊなる要素（レコード）
{s,m,Q(s,m),{p(q)|q∈［1,Q(s,m)］}|s=j,m∈[1,M]}
を選択する。

次に、変形モデルｑ∈[1,Q(s,m)]について、変形モデルパラメータΘ４００１中から変形モデルパラメータ番号ｐがｐ（ｑ）と一致する変形モデルｑのパラメータ
{p,A(p),b(p),r(p)|p=p(q)}
を選択する。さらに、選択した変形モデルのパラメータ A(p(q)),b(p(q)),r(p(q)) を用いて、変形後の平均ベクトル μ_{j,m,q} を基礎の音響モデルの平均ベクトル μ_{j,m} との次式の演算により求める（この演算は式2に基づく）。

また、変形後の分散 Σ_{j,m,q} を基礎のモデルの分散 Σ_{j,m} との式3に基づく次式の演算により求める（なお、この演算は式3に基づく）。

ここで、分散 Σ_{j,m} は対角分散行列でベクトルとして記憶されており、演算子'*'は分散比とのベクトル要素ごとの乗算を表す。
さらに、変形モデルｑに基づく特徴ベクトル x_t の尤度 p(x_t|j,q) をガウス混合密度関数の式７の演算に基づいて求める。

ここで、λ_{j,m} は状態jのm番目のガウス分布の重み、μ_{j,m,q} 及び Σ_{j,m,q} はそれぞれq番目の変形後の状態jのｍ番目のガウス分布の平均及び分散、 N(x_t,μ_{j,m,q},Σ_{j,m,q}) は平均 μ_{j,m,q}、対角分散 Σ_{j,m,q} の対角ガウス分布の確率密度関数である。

次にステップＳ５０４においてステップＳ５０３で算出した変形モデルｑに基づく尤度p(x_t|j,q)を用いて、変形を考慮した後の状態jにおける特徴ベクトルx_tの尤度p(x_t|j)を次式のように計算する。

上記はｑに関する最大値を用いたが、これをqに関する確率の和としてもかまわない。この場合は、式９となる。

また、上記では、変形前のモデルの尤度を用いていないが、式１０に示す変形前のモデルの尤度

を確率の最大化や確率の総和の演算の中に含めてもかまわない。ここで、0は変形前の基礎の音響モデルを表す。この場合、上記式は、それぞれ、式１１、式１２となる。

さらにステップＳ５０５においてこの尤度 p(x_t|j) を上記の漸化式に代入して前向き確率を更新する。
ステップＳ５０６においてすべての状態の処理を終了したか否かを判定し、終了したときはステップＳ５０８に進み、そうでないときはステップＳ５０７において次の状態の処理をするためステップＳ５０３に戻る。

ステップＳ５０８では尤度 p(x_t|j) の小さい漸化式による前向き確率を除外する枝刈を行い、ステップＳ５０９に進む。ステップＳ５０９において発話終了まで処理が終えていないときはステップＳ５１０に進みフレームの時刻を１進め、ステップＳ５０２以下の処理を繰り返す。また、ステップＳ５０９において発話終了まで処理を終えたらステップＳ５１１に進み、発話終了フレームにおいて前向き確率が最大の状態を出発点として発話終了フレームから発話開始フレームまでの後戻りによって最適状態系列を復元しこの最適状態系列に対応する単語あるいは単語列の候補を認識結果として出力する。

以上で動作の説明を終え、次に、従来技術と本実施の形態とで音響モデルのパラメータを記憶するメモリ量について比較する。状態数SをS=2000、状態当たりのガウス分布数MをM=4、特徴ベクトルの次元数DをD=39、雑音環境数NをN=26、変形モデルの分類数Pを雑音数の8倍P=N×8=208とした場合、1条件の音響モデルのメモリ量は
1条件の音響モデル： H=S×M×(2D+1)=632 KWord
である。また、P個分の変形モデルのパラメータA(p),b(p),r(p)の所要メモリ量は
変形モデル： G=(D×D+D+D)×P＝約333 KWord
である。従って、従来の並列整合モデルのパラメータの所要メモリ量は
並列整合モデル： H×N＝16432 KWord
であるのに対して、本実施の形態のパラメータの所要メモリ量は
本実施の形態： H+G = 632 + 333 =約 965 KWord
となり、本実施の形態では従来の並列整合モデルより大幅にメモリ量を削減している。

以上のように、基礎音響モデルのパラメータと変形後の音響モデルのパラメータからなるサンプルを分類し、分類ごとに学習された変形モデルを参照し、基礎の音響モデルのパラメータを変形し、変形された音響モデルに基づいて音響モデルの尤度を算出するので、少ないメモリ量で、入力雑音の整合モデルの性能に近づいた性能を有する雑音下の音声認識装置を提供することができる。

なお、上記の説明で、式１〜式３は右辺が一次式のみからなる線形モデルを用いたが、２次以上の非線形のモデルを用いてもかまわない。また、モデルの誤差分布の形状を正規分布とするモデルを用いたが、これに限定するものではなく、例えば、ガンマ分布とした一般化線形モデルを用いてもかまわない。

この発明は、特に複雑な非定常雑音が発生する環境においても記憶容量の少ないメモリで精度の高い音声認識を得る装置に利用することができる。

この発明の実施の形態１を示す機能構成図である。実施の形態１における音響モデル及び変形モデルの学習処理の流れ図である。実施の形態１における変形モデル学習処理の流れ図である。実施の形態１における空間((s,n) ∈[1,S]×[1,N])の分類例を説明する図である。実施の形態１における空間((s,n) ∈[1,S]×[1,N])の別の分類例を説明する図である。実施の形態１における変形モデル記憶部の構成図である。実施の形態１におけるマッチング処理の流れ図である。

符号の説明

１：入力音声、２：特徴抽出手段、３：音響モデル記憶手段、４：変形モデル記憶手段、５：マッチング手段、５０３：モデル探索手段、５０４：尤度計算手段、５０５：漸化式計算手段、６：認識結果。

Claims

入力された音声を分析しフレームごとに特徴ベクトルを抽出する特徴抽出手段と、
基礎となる音響モデルのパラメータが記憶される音響モデル記憶手段と、
前記基礎となる音響モデルのパラメータと変形後の音響モデルのパラメータの対応関係を表す変形モデルが、分類されたパラメータとして記憶される変形モデル記憶手段と、
前記特徴抽出手段の特徴ベクトルを受けて、前記音響モデル記憶手段から基礎になる音響モデルのパラメータを選択し、この選択された基礎になる音響モデルのパラメータを前記変形モデル記憶手段の変形モデルに基づいて変形して、少なくとも変形後の音響モデルのパラメータに基づいて特徴ベクトルに対する尤度を計算して前記特徴ベクトルと変形後の音響モデルパラメータとのマッチングをとるマッチング手段とを備えたことを特徴とする音声認識装置。
基礎となる音響モデルのパラメータとそれと対応づけられた変形後の音響モデルのパラメータとからなる学習用のサンプルから、分類ごとに対応関係のモデルのパラメータを学習し、入力音声の特徴ベクトルに対応する基礎となる音響モデルのパラメータから前記対応関係のモデルに従って変形後の音響モデルのパラメータを生成する工程と、この変形後の音響モデルのパラメータに基づいて、隠れマルコフモデルの状態の尤度を算出しながら、音声認識の探索を行う工程とを有することを特徴とする音声認識方法。