JP2014048457A

JP2014048457A - 話者適応装置、方法及びプログラム

Info

Publication number: JP2014048457A
Application number: JP2012191283A
Authority: JP
Inventors: Sonjun Ham; ソンジュンハム; Atsunori Ogawa; 厚徳小川; Masakiyo Fujimoto; 雅清藤本; Takaaki Hori; 貴明堀; Atsushi Nakamura; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2014-03-17

Abstract

【課題】従来よりも認識率を向上させることができる話者適応技術を提供する。
【解決手段】話者適応装置は、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、目的関数を最大化するノードの２つの子ノードのそれぞれについての調整パラメータとを、ノードについての最大化された目的関数の値から２つの子ノードについての最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新部８００と、求まったノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定部７１０と、変換行列を用いて特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換部７２０と、を備える。
【選択図】図１

Description

この発明は、音声認識技術に関する。特に、予め音声認識用学習データから学習した音声認識モデルを用いて、未知の人の音声認識を行う際に、未知の人の入力音声から抽出した特徴ベクトルを線形変換することにより、音声認識モデルに適合しやすくすることで音声認識の精度を向上させる話者適応技術に関する。

音声認識をする際に入力信号となる音響信号に影響を与える、話者、雑音、通信チャンネル、マイク等の変動要因による悪影響を防ぐため、適応技術が発展している。特にモデルに基づく適応技術は、変換行列を用いた線形変換により音響モデルの全てのパラメータを適応させることができるので、良く使われている。

モデルに基づく適応技術として、入力音声から抽出した特徴ベクトルを線形変換することにより適応させるいわゆる特徴空間での適応手法であって、事前分布を用いる手法であるfMAPLR(feature space Maximum A Posteriori Linear Regression)及びfSMAPLR(feature space Structual Maximum A Posteriori Linear Regression)等の手法が知られている（例えば、非特許文献１，２参照。）。事前分布には、各手法を用いた学習データに含まれている話者の変換行列の分布又は単位変換行列が用いられる。

これらの手法では、適応データ量によって事前分布の寄与率を調整するための調整パラメータが用いられている。調整パラメータは、ハイパーパラメータとも呼ばれている。

Lei, X. and Hamaker, J. and He, X. Robust feature space adaptation for telephony speech recognition. Proc. of INTERSPEECH, pages 773-776, 2006. Y. Nakano, M. Tachibana, J. Yamagishi, and T. Kobayashi, Constrained structural maximum a posteriori linear regression for average-voice-based speech synthesis. Proc. of INTERSPEECH, pages 2286-2289, 2006.

非特許文献１，２に記載されている適応技術では、調整パラメータとして、経験に基づいて予め定められた値が用いられている。このため、予め定められた調整パラメータの値が適切ではない場合には、認識率が低下する可能性があった。

この発明は、従来よりも認識率を向上させた、事前分布を用いた特徴空間での適応手法に基づく話者適応装置、方法及びプログラムを提供することを目的とする。

この発明の一態様による話者適応装置は、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、目的関数を最大化するノードの２つの子ノードのそれぞれについての調整パラメータとを、ノードについての最大化された目的関数の値から２つの子ノードについての最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新部と、求まったノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定部と、変換行列を用いて特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換部と、を備える。

調整パラメータを適切に更新することにより、従来よりも認識率を向上させることができる。

話者適応装置の例を説明するためのブロック図。調整パラメータ更新部８００の例を説明するためのブロック図。話者適応方法の例を説明するためのフローチャート。調整パラメータ更新部８００の処理の例を説明するためのフローチャート。

以下、図面を参照して、話者適応装置及び方法の実施形態を説明する。

話者適応装置は、図１に示すように、特徴ベクトル抽出部１００と、音声認識部２００と、認識用データ記憶部２１０と、事前分布記憶部５００と、特徴空間適応部７００とを例えば備えている。特徴空間適応部７００は、調整パラメータ更新部８００と、特徴空間変換行列推定部７１０と、特徴ベクトル変換部７２０とを例えば備えている。

特徴ベクトル抽出部１００は、入力音声から特徴ベクトルo(t)を抽出する（ステップＳ１）。抽出された特徴ベクトルo(t)は、音声認識部２００及び特徴空間適応部７００に送信される。ここでo(t)は、t番目のフレームのn次元特徴ベクトルを表す。

音声認識部２００は、特徴ベクトルo(t)に基づいて音声認識を行い、仮の音声認識結果を生成する（ステップＳ２）。音声認識結果は、特徴空間適応部７００に送信される。後述するように、特徴ベクトル変換部７２０で変換特徴ベクトルが生成されている場合には、音声認識部２００は、特徴ベクトルo(t)に代えて変換特徴ベクトルに基づいて音声認識を行う。

なお、認識用データ記憶部２１０には、予め学習用の音声認識データから学習された、音響モデル２１１、言語モデル２１２及び単語辞書２１３が記憶されている。音声認識部２００は、音響モデル２１１、言語モデル２１２及び単語辞書２１３を用いて音声認識を行う。

ここで、音声認識結果は、音響モデル、単語モデル、単語辞書から構成される確率モデルを用いて、音声認識過程を音声データと単語の出現確率（尤度関数）とで表現したものである。音声認識部２００が行う音声認識処理とは、この尤度関数を最大とする単語列を結果として出力することである。特徴空間適応部７００が行う適応処理とは、認識結果を元に認識結果である単語列を最大尤度で出力する、ガウス分布ごとに最適な特徴ベクトルに変換する変換行列を推定することである。

ここで、推定すべきパラメータの数は非常に多いため、これらのパラメータは、音素クラスに応じて階層的にクラスタリングされた木構造で表現されている。例えば、単一のガウス分布を葉ノードとし、これらの集合を中間ノード及び根ノードとするような木構造によりガウス分布の集合を表現する。ここでは、分布間距離の近い２つのガウス分布を１つのノードにまとめていくような二分木の木構造を仮定する。

以下の処理において、適応処理を行うために用いる変換行列Ｗは、この木構造のノードごとに別の変換行列が対応付けられるため、ノードrごとに変換行列Ｗ_ｒの推定を行うとする。

調整パラメータ更新部８００は、ノードrにおける調整パラメータの自動推定を行う（ステップＳ３）。具体的には、変分ベイズに基づいて求められる変分下限(variational lower bound)を目的関数として用いることにより、調整パラメータを最適化する。推定された調整パラメータは、特徴空間変換行列推定部７１０に送信される。

以下、調整パラメータ更新部８００の具体的な処理について説明する。

調整パラメータ更新部８００は、図２に示すように、特徴空間統計量計算部８１０と、平滑化統計量計算部８２０と、最適調整パラメータ推定部８３０と、変換行列推定部８４０と、事前分布更新部８５０と、終了判定部８６０とを例えば備えている。

特徴空間統計量計算部８１０は、認識結果の木構造の中の所定のノードrについてのガウス分布の平均及び分散と特徴ベクトルo(t)とを用いて、所定のノードrについての所定の統計量G_r ⁽ⁱ⁾，k_r ⁽ⁱ⁾を計算する（ステップＳ３１）。特徴空間統計量計算部８１０は、具体的には、ノードrに対応するガウス分布の集合におけるu番目のガウス分布のi次元目の平均μ_i ^(u)及び分散σ_i ^(u)と、特徴ベクトルo(t)に基づく拡張特徴ベクトルξ(t)とを用いて、以下の式によりG_r ⁽ⁱ⁾，k_r ⁽ⁱ⁾を計算する。計算されたG_r ⁽ⁱ⁾，k_r ⁽ⁱ⁾は、平滑化統計量計算部８２０に送信される。

ここで、γ_u(t)は、o(t)がu番目のガウス分布に属する事後確率である。また、N_tは、フレームの総数である。拡張特徴ベクトルξ(t)は、ξ(t)=[1 o(t)^T]^Tであり、(n+1)×1のベクトルである。・^Tは、・の転置を意味する。

平滑化統計量計算部８２０は、統計量G_r ⁽ⁱ⁾，k_r ⁽ⁱ⁾を平滑化した平滑化統計量G^_r ⁽ⁱ⁾,k^_r ⁽ⁱ⁾を計算する（ステップＳ３２）。平滑化統計量計算部８２０は、具体的には、以下の式に基づいて、G^_r ⁽ⁱ⁾,k^_r ⁽ⁱ⁾を計算する。計算されたG^_r ⁽ⁱ⁾,k^_r ⁽ⁱ⁾は、最適調整パラメータ推定部８３０に送信される。

ここで、c_riは、事前分布のハイパーパラメータC_rの第i行であり、C_rは以下に示される行列である。I_nはn×nの単位行列であり、r(p)はrの親ノードを表す。

また、V_rは、事前分布のハイパーパラメータであり、以下のように定義される。I_n+1は、(n+1)×(n+1)の単位行列である。

最適調整パラメータ推定部８３０は、以下の式により、最適な調整パラメータρ~_rを求める（ステップＳ３３）。

つまり、最適調整パラメータ推定部８３０は、L(Ψ,m)_rの値が最大となる調整パラメータρ_rを、最適な調整パラメータρ~_ｒとする。ここで、L(Ψ,m)_rは、変分ベイズに基づく変分下限である目的関数であり、下記式で表される。

ここで、V_r~⁽ⁱ⁾,c~_riは、以下のように定義される。

また、Σ^(u)は、分散σ_i ^(u)(i=1,2,・・・,n)を対角成分として持つn×nの行列であり、γ_u=Σ_t=1 ^Ntγ_u(t)である。

変換行列推定部８４０は、推定された調整パラメータρ~_ｒ及び事前分布記憶部５００から読み込んだ事前分布を用いて、ノードrについての変換行列を推定する（ステップＳ３４）。変換行列推定部８４０は、具体的には下記式により、変換行列Ｗ_ｒの第i行を求め、処理をすべてのiについて行うことで、変換行列Ｗ_ｒを推定する。推定されたＷ_ｒは、事前分布更新部８５０に送信される。

ここでp_iは拡張cofactor行ベクトル[0c_i1…c_in](c_ij=cof(A_rij))である。なお、行列A_rを行列W_rの第１列を除くn×n行列として、cof(A_rij)は行列A_rの第i行第j列の成分A_rijに関する余因子(cofactor)である。αは、以下のＱ関数を最大化する二次方程式の解であり、その推定方法は例えば参考文献１に詳述されている。

〔参考文献１〕Gales, M.J.F. Maximum likelihood linear transformations for HMM-based speech recognition. Computer Speech and Language, 12:75-98, 1998.

ここでrは、木構造内のノード番号を表す。また、G~_r ⁽ⁱ⁾,k~_r ⁽ⁱ⁾は、以下のように定義される。

また、事前分布p(W_r|C_r,V_r)として、参考文献２，３及び非特許文献１で用いられている行列の多変量正規分布を用いる。この分布は以下の式のように定義される。

〔参考文献２〕Siohan, O. and Chesta, C. and Lee, C.H. Joint maximum a posteriori adaptation of transformation and HMM parameters. IEEE Trans. on Speech and Audio Processing, 9(4):417-428, 2001.

〔参考文献３〕Siohan, O. and Myrvoll, T.A. and Lee, C.H. Structural maximum a posteriori linear regression for fast HMM adaptation. Computer Speech and Language, 16(1):5-24, 2002.

ここで、C_rとV_rは定義された分布のハイパーパラメータである。なお、事前分布の初期値は、予め事前分布記憶部５００に記憶されているものとする。

事前分布更新部８５０は、推定された変換行列W_rを用いて、事前分布記憶部５００に記憶されている事前分布を更新する（ステップＳ３５）。事前分布更新部８５０は、具体的には下記式により、変換行列W_rの事後分布q~(W_r)を求め、q~(W_r)を２つの子ノードの新たな事前分布p(W_r|C_r,V_r)として事前分布記憶部５００に格納する。

ここでV~_rは V~_r ⁽ⁱ⁾の集合を表現する(すなわち V~_r={ V~_r ⁽¹⁾, V~_r ⁽²⁾,…,V~_r ⁽ⁿ⁾})。特徴空間統計量計算部８１０、平滑化統計量計算部８２０、最適調整パラメータ推定部８３０、変換行列推定部８４０、事前分布更新部８５０の処理を、ノードr、ノードrの２つの子ノードr(c1),r(c2)のそれぞれについて行うことにより、ノードrについての最大化された目的関数の値L(Ψ,m)_r、ノードr(c1)についての最大化された目的関数の値L(Ψ,m)_r(c1)、ノードr(c2)についての最大化された目的関数の値L(Ψ,m)_r(c2)を求める。

終了判定部８６０は、まず以下により定義されるΔL(Ψ,m)_rを計算する。すなわち、ノードrについての最大化された目的関数の値L(Ψ,m)_rから２つの子ノードr(c1),r(c2)についての最大化された目的関数の値L(Ψ,m)_r(c1),L(Ψ,m)_r(c2)を減算した値ΔL(Ψ,m)_rを計算する。

そして、終了判定部８６０は、ΔL(Ψ,m)_rの値が正であれば、rの子ノードをそれぞれ r(c1)とr(c2)として、特徴空間統計量計算部８１０、平滑化統計量計算部８２０、最適調整パラメータ推定部８３０、変換行列推定部８４０、事前分布更新部８５０、終了判定部８６０の処理を繰り返す。一方、ΔL(Ψ,m)_rの値が負であれば、終了判定部８６０の処理を中止する（ステップＳ３６）。

この基準を利用することで実験的な値ではなく、適応データ量に応じて自動的な木構造推定ができる。また、適応データ量に応じて各ノードことの事前分布の寄与率を調整することができる。

このようにして、調整パラメータ更新部８００は、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードrについての調整パラメータと、目的関数を最大化するノードrの２つの子ノードr(c1),r(c2)のそれぞれについての調整パラメータとを、ノードrについての最大化された目的関数の値L(Ψ,m)_rから２つの子ノードについての最大化された目的関数の値L(Ψ,m)_r(c1),L(Ψ,m)_r(c2)を減算した値ΔL(Ψ,m)_rが負になるまで繰り返し更新することにより求める。

特徴空間変換行列推定部７１０は、ノードrについての調整パラメータρ~_rに基づいて、変換行列W_rを推定する。特徴空間変換行列推定部７１０は、具体的には、ノードrについての予め求めた事前分布、すなわちノードrの親ノードr(p)の変換行列W_r(p)を、ΔL(Ψ,m)_rの値が負のときのノードrについての調整パラメータρ~_rで統計量G_r ⁽ⁱ⁾,k_r ⁽ⁱ⁾に反映することにより、特徴空間の変換行列W_rを推定する。

言い換えれば、特徴空間変換行列推定部７１０は、終了判定部８６０が繰り返し処理を終了すると判定したときのノードrについて、特徴空間統計量計算部８１０、平滑化統計量計算部８２０、最適調整パラメータ推定部８３０及び変換行列推定部８４０と同様の処理を行うことにより、変換行列W_rを推定する。

推定された変換行列は、特徴ベクトル変換部７２０に送信される。

特徴ベクトル変換部７２０は、特徴ベクトル抽出部１００から出力された特徴ベクトルo(t)を、特徴空間変換行列推定部７１０で推定した変換行列W_rにより線形変換して、特徴ベクトルo^(t)を求める。つまり、以下の式によりo(t)を変換した変換特徴ベクトルo^(t)を求める。変換特徴ベクトルo^(t)は、音声認識部２００に送信される。

ここで、W_r=[b_r A_r]はn×(n+1)拡張変換行列であり、A_rはn×n変換行列、b_rはn×1バイアスベクトルである。

音声認識部２００は、変換特徴ベクトルo^(t)に基づいて音声認識を再度行い、音声認識結果を出力する。

このように、話者適応において、特徴量空間での変分ベイズによるモデル構造推定を事前分布の寄与率を調整する調整パラメータを自動的に推定することにより、従来の手法に比べて適応データ量に応じた信頼性の高い変換行列推定ができ、従来よりも認識率を向上させることができる。

上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、上記装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

７１０特徴空間変換行列推定部
７２０特徴ベクトル変換部
８００調整パラメータ更新部
８１０特徴空間統計量計算部
８２０平滑化統計量計算部
８３０最適調整パラメータ推定部
８４０変換行列推定部
８５０事前分布更新部
８６０終了判定部

Claims

入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、上記目的関数を最大化する上記ノードの２つの子ノードのそれぞれについての調整パラメータとを、上記ノードについての上記最大化された目的関数の値から上記２つの子ノードについての上記最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新部と、
上記求まった上記ノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定部と、
上記変換行列を用いて上記特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換部と、
を含む話者適応装置。
請求項１に記載の話者適応装置において、
認識結果の木構造の中の所定のノードについてのガウス分布の平均及び分散と上記特徴ベクトルとを用いて、上記所定のノードについての所定の統計量を計算する特徴空間統計量計算部と、
上記所定の統計量を平滑化した平滑化統計量を計算する平滑化統計量計算部と、
上記平滑化統計量を用いて、上記目的関数を最大化する調整パラメータを推定する最適調整パラメータ推定部と、
上記推定された調整パラメータ及び事前分布を用いて、上記所定のノードについての変換行列を推定する変換行列推定部と、
上記推定された変換行列を用いて、上記事前分布を更新する事前分布更新部と、
上記ノード、上記２つの子ノードのそれぞれを上記所定のノードとした上記特徴空間統計量計算部、上記平滑化統計量計算部、上記最適調整パラメータ推定部、上記変換行列推定部及び上記事前分布更新部の処理を上記減算した値が正になるまで繰り返し行う終了判定部と、
を上記調整パラメータ更新部は含む、
話者適応装置。
調整パラメータ更新部が、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、上記目的関数を最大化する上記ノードの２つの子ノードのそれぞれについての調整パラメータとを、上記ノードについての上記最大化された目的関数の値から上記２つの子ノードについての上記最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新ステップと、
特徴空間変換行列推定部が、上記求まった上記ノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定ステップと、
特徴ベクトル変換部が、上記変換行列を用いて上記特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換ステップと、
を含む話者適応方法。
請求項１又は２の話者適応装置の各部としてコンピュータを機能させるためのプログラム。