JP4960845B2

JP4960845B2 - 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体

Info

Publication number: JP4960845B2
Application number: JP2007321201A
Authority: JP
Inventors: マークデルクロア; 晋治渡部; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-12-12
Filing date: 2007-12-12
Publication date: 2012-06-27
Anticipated expiration: 2027-12-12
Also published as: JP2009145499A

Description

この発明は、雑音抑圧や残響除去等の音声前処理を行った段階で生じる音声の歪みを抑圧するための音声パラメータ学習方法とその装置、その装置と方法を用いた音声認識装置と音声認識方法と、それらのプログラムと記録媒体に関する。

音声認識を行う上で観測音声信号は、騒音や残響などの外的要因で大きく歪む。音声認識は、そのような大きく歪んだ音声を認識するのは不得手である。音声前処理部において、雑音抑圧や残響除去等を行い歪みを緩和することができる。しかし、音声前処理を行なっても、音声前処理部が新たにもたらす歪みや歪みの消し残り等で音声の歪みが依然として存在する。そこで、しばしば用いられるのが音声認識用音響モデルに含まれるガウス分布の分散パラメータを補正する方法である。この方法は非特許文献１に開示されている。その方法に基づく従来の音声認識装置の機能構成を図９に、その動作フローを図１０に示して簡単に説明する。

音声認識装置２００は、音声前処理部９０と、音響モデル記憶部９２と、分散動的補正部９４と、音声認識用音響モデル記憶部９６と、認識部９７と、発音辞書モデル記憶部９８と、言語モデル記憶部９９とを備える。

音声前処理部９０は、観測音声信号ｏ（ｔ）を読み込み（ステップＳ９０）、例えば雑音抑圧や残響除去法などの音声強調技術で推定された音声特徴量ｘ_ｔ＾（＾は図又は式に示す表記が正しい）を各フレーム毎に出力する。ただし、上記したように音声前処理部９０では、音声歪みを完璧に消すことが出来ず、推定された音声特徴量ｘ_ｔ＾と音響モデル構築の際に用いたクリーン音声特徴には大きなミスマッチが存在する。これが認識性能を劣化させる大きな要因となる。そこで音声特徴量ｘ_ｔ＾を、クリーン音声特徴ｘ_ｔと差分ｂ_ｔの和であると仮定する（式（１））。

ただし、差分ｂ_ｔは式（２）に示す様に平均０のガウス分布に従うと仮定する。

ここで、Σ_ｘｔ＾は音声特徴量の分散である。つまり、音声前処理部９０は推定された音声特徴量ｘ_ｔ＾とともに、音声特徴量の分散Σ_ｘｔ＾を出力する（ステップＳ９１）。音声特徴量の分散Σ_ｘｔ＾は、ＧＭＭに基づく音声強調法ではクリーン音声の混合ガウス分布モデルの分散パラメータから導出される。

分散動的補正部９４は、音響モデル記憶部９２に記憶されている音響モデルの分散パラメータΣ_ｎ,ｍ（ｎはＨＭＭ状態、ｍは混合成分）を読み込み（ステップＳ９２）、音声前処理部９０が出力する音声特徴量の分散Σ_ｘｔ＾を用いて補正する（ステップＳ９４）。ここで、音響モデルについて説明する。音響モデルは、通常隠れマルコフモデル（ＨＭＭ）で表現され、ＨＭＭの出力分布としては混合ガウス分布が用いられる。あるＨＭＭ状態ｎにおいて音声特徴ｘ_ｔを出力する出力確率は式（３）で表現される。

ここで、ｍはガウス分布の混合成分の指標であり、Ｍは状態あたりの混合数を表わす。ｐ（ｍ）は混合重み因子を表わす。μ_ｎ,ｍ及びΣ_ｎ,ｍはＨＭＭ状態ｎ、混合成分ｍでのガウス分布の平均パラメータ及び共分散行列を表わす。なお、通常の音響モデルは共分散行列を対角共分散行列として扱う場合が多い。そのため以降では、共分散行列の対角成分を特徴量次元の指標ｉを用いて、標準偏差σ_ｎ,ｍ,ｉ ^２として表わすこともある。

一般には、上記音響モデルパラメータはクリーン音声を用いて学習されるため、例えば、それらのデータから得られる平均パラメータμ_ｎ,ｍと音声前処理部９０で推定された音声特徴量ｘ_ｔ＾とではミスマッチが存在する。このようなミスマッチを緩和するために分散動的補正部９４では、音響モデルの分散パラメータΣ_ｎ,ｍを音声特徴量ｘ_ｔ＾に合わせるように補正を行う。分散パラメータΣ_ｎ,ｍを音声特徴量ｘ_ｔ＾に合わせる補正を行うため、ＨＭＭ状態ｎでの音響モデルの出力確率ｐ（ｘ_ｔ｜ｎ）に対し、ｘ_ｔ及びｘ_ｔとｘ_ｔ＾の差分ｂ_ｔの同時確率を考え、ｂ_ｔに関して周辺化（積分）を行うことにより、式（４）に示すような出力確率ｐ（ｘ_ｔ｜ｎ）を理論的に導出することができる。

ここでは、ｐ（ｂ_ｔ｜ｎ）≒ｐ（ｂ_ｔ）と仮定している。従って、分散動的補正部９４では、各フレーム毎に動的に音声特徴量の分散Σ_ｘｔ＾を用いて音響モデルの分散パラメータΣ_ｎ,ｍを式（５）に示すように補正することにより、推定された音声特徴量ｘ_ｔ＾を出力する出力分布を得ることができる。

補正された出力分布は、音声認識用音響モデル記憶部９６に記憶される。
認識部９７では、音声前処理部９０から入力される特徴量集合Ｘ＝[ｘ_１＾,…,ｘ_ｔ＾，…]に対して音響モデルｐ（Ｘ｜ｎ）、発音辞書モデル記憶部９８に記憶された発音辞書モデルｐ（ｎ｜Ｗ）、言語モデル記憶部９９に記憶された言語モデルｐ（Ｗ）を用いて式（６）に示すように音声認識結果Ｗを出力する（ステップＳ９７）。

特徴量集合に対する音響モデルｐ（Ｘ｜ｎ）のスコアは、出力確率ｐ（ｘ_ｔ｜ｎ）から得られる各フレームｔ毎の音響スコアを、ＤＰマッチング（動的計画法）などを用いて蓄積することで得られる。

出力確率ｐ（ｘ_ｔ｜ｎ）から得られる各フレームｔ毎の音響スコアは、音声前処理部９０より出力される推定された音声特徴量ｘ_ｔ＾及び、分散動的補正部９４より得られる補正された分散Σ_ｎ,ｍ＋Σ_ｘｔ＾、及びその他の音響モデルパラメータを用いて式（７）に示す様に計算することができる。

以上の動作によって、雑音抑圧や残響除去等の音声前処理を行なった段階に生じる音声の歪みを抑圧した音声認識が実現される。
Deng, L.,Droppo, J. and Acero, A.,"Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion,"IEEE Trans.SAP,vol. 13,no.3,pp.412-421,2005.

しかし、上記した方法では、分散動的補正部９４において用いる音声特徴量の分散Σ_ｘｔ＾を音声前処理部９０で生成する必要がある。音声前処理部９０ではクリーン音声の混合ガウス分布にもとづく音声強調手法を用いており、音声特徴量の分散Σ_ｘｔ＾は、その混合ガウス分布モデルの分散パラメータから導出している。他の多くの音声強調手法、例えばスペクトル減算法、音声分離法（BSS）、ウィナーフィルター法（wiener）では、直接音声特徴量の分散を出力することが難しく、上記した方法の適用は困難である。つまり、上記した従来方法は、特定の音声強調手法を用いなければならないという点で汎用性に欠ける。

また、観測音声信号の音声特徴ｕ_ｔと、音声前処理部で推定された音声特徴量ｘ_ｔ＾の２乗誤差を音声特徴量の分散と近似することにより、音声強調手法によらない動的分散補正が可能ではある。しかし、本来、分散動的補正に必要な音声特徴量の分散は、クリーン音声特徴ｘ_ｔと音声前処理部で推定された音声特徴量ｘ_ｔ＾の２乗誤差であり、上記した近似では動的分散補正の精度が低下し性能が劣化してしまう。

この発明は、このような点に鑑みてなされたものであり、任意の音声特徴量の分散を用いても適切な音響モデルを得ることができる音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体を提供することを目的とする。

この発明による音声パラメータ学習装置は、適応用音声前処理部と、音響モデル記憶部と、適応パラメータ生成部と、認識用音声前処理部と、分散動的補正部とを具備する。適応用音声前処理部は、観測音声信号を入力として、当該観測音声信号のフレーム毎の音声特徴を強調した強調音声信号の音声特徴量と、上記音声特徴量のバラツキを表わす不確かさとを生成する。音響モデル記憶部は、音響モデルを記憶する。適応パラメータ生成部は、強調音声特徴量の集合と、上記不確かさの集合と、上記音響モデルと、教師信号とを入力とし、音響モデル中のガウス分布の分散補正のための適応パラメータとしてフレームに依存する動的分散適応パラメータと、フレームに依存しない静的分散適応パラメータとを生成する。認識用音声前処理部は、観測音声信号のフレーム毎の音声特徴量と、音声特徴量のバラツキを表わす不確かさを生成する。分散動的補正部は、上記音声特徴量の不確かさと、上記適応パラメータと、上記音響モデルとを入力としてフレーム毎に適応パラメータで補正された音響モデルのガウス分布の分散を出力する。

また、この発明による音声認識装置は、上記した音声パラメータ学習装置と、認識部を具備する。認識部は、音声パラメータ学習装置が出力する音声特徴量と、音声パラメータ学習装置において補正された音響モデルのガウス分布の分散を入力として単語列を出力する。

この発明の音声パラメータ学習装置は、適応パラメータ生成部が音響モデルの分散補正のためのパラメータとして、観測音声信号からフレームに依存する動的分散パラメータと、フレームに依存しない静的分散パラメータとを生成する。つまり、音声強調部に混合ガウス分布法を用いずに分散補正のためのパラメータが生成できるので、任意の音声強調手法に対応可能な汎用性の高い音声パラメータ学習装置とすることができる。また、この音声パラメータ学習装置を用いた音声認識装置は、特定の音声強調手法に依存することなく、音声の歪みを抑圧した高い認識性能を持つ音声認識を実現することができる。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

〔発明の基本的な考え〕
実施例の説明の前に、この発明の音声特徴量の分散を補正する方法の基本的な考え方について説明する。この発明は、式（８）に示すように分散補正された音響モデルの分散Σ′_{ｎ，ｍ，ｔ}を、フレームｔに依存する動的成分行列Σ^Ｄと、フレームｔに依存しない静的成分行列Σ^Ｓの組み合わせとして表現する。

ここで演算子（＋）は行列Σ^Ｓ、Σ^Ｄに対しての、和・積などの演算及びそれらの演算等の組み合わせで表現される２項演算を意味する。

音響モデルの分散Σ_ｎ，ｍを補正するのに、音声特徴量の分散を用いる。式（９）に示すように音声特徴量の分散ｅ_ｔとΣ_ｎ，ｍを引数として特徴量分散を出力する関数ｆを求めればよい。

背景技術で述べた音声特徴量の分散Σ_ｘｔ＾をそのまま音響モデルの分散に足す場合、つまり、Σ_ｎ、ｍ＋Σ_ｘｔ＾（式（５））ではΣ_ｘｔ＾を正確に推定しないと十分な性能を得ることができない。また、この方法では、音声強調手法が限定されてしまう。そこで、この発明では式（１０）に示すように、音響モデル分散を音声特徴量の各フレームｔでの不確かさに依存する動的成分行列Σ^Ｄ（ｅ_ｔ）と、音声特徴量の各フレームｔでの不確かさに依存しない静的成分行列Σ^Ｓの組み合わせとして表現する。ただし、不確かさｅ_ｔとしてスカラーやベクトル値や行列値をとってもよい。スカラー値の不確かさとしては、音声強調や音声区間検出（ＶＡＤ）などの音声前処理時に出力されるバイナリー値や信頼度、また音声認識を行うことによって算出される信頼度等が考えられる。また、スカラー値の不確かさを各特徴次元毎に算出することによりベクトル型の不確かさを計算することも可能である。また、共分散行列や自己相関行列から行列型の不確かさを計算することも可能である。

また、あるフレームｔでの音響モデルの分散Σ′_{ｎ、ｍ、ｔ}を推定するためには、音声特徴量の不確かさｅ_ｔのみならず、フレームｔを含めた音声特徴量の不確かさｅの集合、音声特徴集合ｘ_ｔ＾、及び音響モデルΨの情報も有用である。したがって、これらを用いて、音響モデル特徴量分散を式（１１）に示すように表現する。

音響モデル特徴量分散Σ′_{ｎ、ｍ、ｔ}は、強調音声特徴量の集合、例えばｔを含みｔ′からｔ′′までの有限区間としてｘ＾＝｛ｘ_ｔ’＾…ｘ_ｔ＾…ｘ_ｔ’’＾｝、強調音声特徴量の不確かさの集合、例えばｅ＝｛ｅ_ｔ’…ｅ_ｔ…ｅ_ｔ’’｝といったデータ集合に依存するため、学習によって精度良く求めることができる。
式（１１）の適切な関数系を示す。一般に関数系が複雑であればあるほど大量の学習データと長い学習時間が必要となるが、精度良く関数系を学習することができる。逆に、関数系をシンプルにすればするほど少量の学習データと短い学習時間で関数系を学習することができるが、その精度は一般的に複雑な関数系に比べて低くなる。従って、以降に示す関数系に関しては、学習データ量や学習時間等の応用上の条件に応じて適切に選択すればよい。以降では、学習によるパラメータの推定が前提となるため、簡単のためにｅ、ｘ等の引数は省略する。式（１１）の２項演算（＋）の単純形として、式（１２）に示す積表現と式（１３）に示す和表現とが考えられる。

式（１３）の分散の和表現は、式（５）との類推から考えて、理論的・実用的に妥当な表現といえる。従って、以降では和表現で説明する。

Σ^Ｓが音響モデルの分散に依存すると仮定すると、式（１４）で表わせる音響モデルの特徴量分散Σ′_{ｎ、ｍ、ｔ}は、式（１４）で表わせる。

ここでΣ^Ｓ、Σ^Ｄの関数系として任意の関数、例えば行列の多項式等を与える。その最も簡単な形として式（１５）と式（１６）で表わせる。

これは特徴量が線形変換された場合の分散の変換式である。
ここでＡ，Ｂ，Ｃ，Ｄは、特徴量次元の正方行列であり、他の部分のＡ〜Ｄとは異なる変数である。行列は任意の形でよい（対称、ブロック、帯、スカラー倍の単位行列）。以降では、分散のバイアス項の影響を無視し(Ｂ＝０,Ｄ＝０)、ＡとＣの対角行列に対しての表現で説明する。ＡとＣのｉ行ｉ列の対角成分を√λ_ｉと√α_ｉと表わすと、音響モデルの特徴量分散Σ′_{ｎ、ｍ、ｔ}の対角成分は式（１７）で表わせる。つまり、音響モデルの分散をパラメトリック表現することができる。

ここで、σ_n,m,i ^２は状態ｎ、混合成分ｍでの音響モデル中のガウス分布の共分散行列の対角（ｉ×ｉ）成分である。このとき、学習により推定すべきパラメータはαとλとなる。ここで注目したいのは、α＝０とすると従来からある静的分散補正法となる。また、α＝const,λ_ｉ＝１とすると従来の動的分散補正法となることである。つまりこの発明の方法は、従来の両手法を内包する手法であるといえる。以上説明した考えに基づくこの発明の音声パラメータ学習装置の実施例を次に説明する。

図１にこの発明の音声パラメータ学習装置の実施例１の概略的な機能構成例を示す。音声パラメータ学習装置１００は、適応用音声前処理部２と、音響モデル記憶部４と、適応パラメータ生成部６と、認識用音声前処理部８と、分散動的補正部１０を具備する。その動作フローを図２に示す。この例の音声パラメータ学習装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

音声パラメータ学習装置１００は、上記したパラメータのαとλを推定するものである。適応用音声前処理部２と認識用音声前処理部８とに入力される観測音声信号は、例えば、サンプリング周波数＝８ｋＨｚ、量子化ビット数＝１６bitの離散値である。適応用音声前処理部２と認識用音声前処理部８は、この離散値を例えば２４０点まとめて１フレームとして処理を行なう。

適応用音声前処理部２は、観測音声信号ｏ（ｔ）のフレーム毎の音声特徴を強調した強調音声特徴量の集合｛ｘ_ｔ’＾,…, ｘ_ｔ＾,…, ｘ_ｔ’’＾｝と、強調音声特徴量のバラツキを表わす不確かさの集合｛ｅ_ｔ’,…, ｅ_ｔ,…, ｅ_ｔ’’｝とを生成する（ステップＳ２、図２）。適応パラメータ生成部６は、強調音声特徴量の集合｛ｘ_ｔ’＾,…, ｘ_ｔ＾,…, ｘ_ｔ’’＾｝と、強調音声特徴量のバラツキを表わす不確かさの集合｛ｅ_ｔ’,…, ｅ_ｔ,…, ｅ_ｔ’’｝と、音響モデル記憶部４に記憶された音響モデルと、教師信号を入力とし、音響モデル中のガウス分布の補正のための適応パラメータを生成する（ステップＳ６）。適応パラメータ生成過程は、フレームに依存しない静的分散適応パラメータλを生成する静的分散適応過程（ステップＳ６２）と、フレームに依存する動的分散適応パラメータαを生成する動的分散過程（ステップＳ６６）の２つの過程から成る。両過程の順序はどちらが先でもかまわない。

認識用音声前処理部８は、観測音声信号ｏ（ｔ）のフレーム毎の音声特徴量ｘ_ｔ＾と、その音声特徴量のバラツキを表わす不確かさｅ_ｔを生成する（ステップＳ８）。なお、この例の認識用音声前処理部８は、適応用音声前処理部２と同じ処理を行なう。分散動的補正部１０は、適応パラメータαとλと、不確かさｅ_ｔと、音響モデル記憶部４に記憶された音響モデルとを入力とし、フレーム毎に音響モデルのガウス分布の分散Σ_ｎ，ｍを、適応パラメータαとλで補正した分散Σ′_{ｎ，ｍ，ｔ}を出力する（ステップＳ１０）。

適応用音声前処理部２と、適応パラメータ生成部６と、分散動的補正部１０は、適応パラメータ学習部を構成する。ここで、パラメトリック表現された音響モデルの分散パラメータの学習について説明する。
一般に、学習においては教師信号が必要となる。教師信号（以降、ラベルと称する。）としては、各フレームにおけるラベル情報が必要になる。ラベルは単語情報や音素情報、ＨＭＭ状態情報等がある。観測音声信号に予めラベルがふられている場合は、それをそのまま利用する。または、例えば、図示しない音声認識器もしくは音声区間検出器等を用いてラベルを付与すればよい。

学習というのは、音声データやラベルなどを利用して、音響モデルのパラメータを生成する方法であって、学習の出力は新しい音響モデルである。音声認識装置は、その音響モデルを用いて音声認識を行う。この例では、動的補正のために適応を利用する。適応も音声データやラベル等を利用してパラメータを生成するが、学習と違いその出力は適応パラメータである。適応パラメータ生成部６は、静的分散適応手段６２と、動的分散適応手段６６とから成り、強調音声特徴量の集合と、強調音声特徴量の不確かさの集合と、ラベルと、音響モデルを入力として式（１７）に示したα、λのような分散補正のための適応パラメータを算出する。

学習の規範としては、例えば尤度最大化を採用する。最尤学習は、音響モデル記憶部４に記憶された音響モデルが、学習データを出力する際の尤度を最大化するようパラメータを学習する規範である。また、他の学習法として、事後確率の最大化を規範とするベイズ学習でもよい。ただし、その場合は、各パラメータに適切な共役分布や無情報事前分布を事前分布として設定する必要がある。他にも、音声認識率などの識別基準を利用した識別学習などが上げられる。このような規範を用いると、パラメータを引数とするコスト関数を導出することができる。

上記学習規範から求められたコスト関数を最適化するパラメータを推定する。最適化手法としては、最急降下法などの数値計算、ニューラルネットワーク、マルコフチェインモンテカルロなどのサンプリング法、遺伝的アルゴリズム等が考えられる。この実施例では、期待値最大化（ＥＭ）アルゴリズムを用いた例で説明する。

ＥＭアルゴリズムは、直接尤度を最大にするのではなく、式（１８）で定義される補助関数Ｑ（θ｜θ’）を最大化するパラメータを求める手法である。

θは分散補正のためのパラメータ集合であり、具体的にはαとλである。Ｘはクリーン音声特徴量の系列、Ｔはフレーム数、θ′は各反復計算における一つ前の推定値、θは各反復計算における推定対象のパラメータである。

補助関数Ｑ（θ｜θ’）と尤度の増減関係は一致するため、式（１８）を最大化するθは局所最適解となる。ここでＢは差分特徴量の系列、ＳはＨＭＭ状態のあらゆる系列の集合、Ｃは混合成分のあらゆる系列の集合、ＮはＨＭＭ状態数を表わす。補助関数Ｑ（θ｜θ’）は、従来のstochastic matching法の補助関数と類似しているが、式（１８）の４段目の差分ベクトルｂ_ｔの出力分布の対数項、つまり動的補正項の存在がその違いとなる。

期待値ステップ（Ｅ-step）においては、フォワード・バックワードアルゴリズムやビタービアルゴリズムなどの隠れ変数に対するデータ割り当て手法を用いて、各フレーム毎の状態系列、混合成分系列に割り当てられた占有事後確率値を計算し、その値を元に１次統計量などの諸々の統計量を期待値計算により求める。

最大化ステップ（Ｍ-step）では、Ｅ-stepで得られた統計量を元に式（１８）を最大化する式（１９）に示すパラメータθ＾を求める。

適応パラメータαとλは、相互に依存しており、それぞれを同時に最適化することは難しい。そこで適応パラメータ生成部６は、静的分散パラメータλと、動的分散パラメータαとを分けて推定する。適応用音声前処理部２と適応パラメータ生成部６のより具体的な機能構成例を図３に示して、音声パラメータ学習装置１００を更に詳細に説明する。動作フローを図４に示す。

適応用音声前処理部２は、音声強調部２０と、特徴量算出部２１と、強調音声特徴量算出部２２と、不確かさ算出部２３とを備える。音声強調部２０は、入力される観測音声信号ｏ（ｔ）のフレーム毎の音声特徴を強調した強調音声信号ｏ＾（ｔ）を生成する（ステップＳ２ａ）。特徴量算出部２１は、観測音声信号ｏ（ｔ）のフレーム毎の特徴量ｕ_ｔを算出する（ステップＳ２ｂ）。強調音声特徴量算出部２２は、強調音声信号の音声特徴ｘ_ｔ＾を強調音声特徴量の集合｛ｘ_ｔ’＾,…, ｘ_ｔ＾,…, ｘ_ｔ’’＾｝として算出する（ステップＳ２ｃ）。不確かさ算出部２３は、フレーム毎の強調音声特徴量ｘ_ｔ＾と観測音声信号ｏ（ｔ）の特徴量ｕ_ｔを入力として、強調音声特徴量のバラツキを表わす不確かさｅ_ｔ＝（ｘ_ｔ＾−ｕ_ｔ）^２を算出し、その集合、例えば｛ｅ_ｔ’,…, ｅ_ｔ,…, ｅ_ｔ’’｝を出力する（ステップＳ２ｄ）。それぞれの集合は、適応パラメータ生成部６に入力される。

適応パラメータ生成部６は、占有確率算出部６４と、クリーンスピーチ分散算出部６２ａと、スケーリング因子λ算出部６２ｂと、差分２乗値算出部６６ａと、スケーリング因子α算出部６６ｂとを備える。

占有確率算出部６４には、強調音声特徴量の集合｛ｘ_ｔ’＾,…, ｘ_ｔ＾,…, ｘ_ｔ’’＾｝と、不確かさの集合｛ｅ_ｔ’,…, ｅ_ｔ,…, ｅ_ｔ’’｝と、ラベルと、音響モデル記憶部４内の音響モデルとが入力され、ＨＭＭ状態ｎ、混合成分ｍの占有確率γ_ｔ（ｎ,ｍ）を算出する（ステップＳ６０）。この占有確率γ_ｔ（ｎ,ｍ）は、ＥＭアルゴリズムのＥ-stepにおいてフォワード・バックワードアルゴリズムやビタービアルゴリズムなどのデータ割り当て手法によって計算することが可能である。

クリーンスピーチ分散算出部６２ａは、強調音声特徴量の集合｛ｘ_ｔ’＾,…, ｘ_ｔ＾,…, ｘ_ｔ’’＾｝と、不確かさの集合｛ｅ_ｔ’,…, ｅ_ｔ,…, ｅ_ｔ’’｝と、音響モデル記憶部４内の音響モデルとを入力として、クリーンスピーチの分散の推定値Ａ｛ｘ_ｔ，ｉ,ｘ_ｔ＾，ｎ,ｍ,Ψ,α’,λ’｝を算出する。

スケーリング因子λ算出部６２ｂは、クリーンスピーチの分散の推定値Ａ｛ｘ_ｔ，ｉ,ｘ_ｔ＾,ｎ,ｍ,Ψ,α’,λ’｝と占有確率γ_ｔ（ｎ,ｍ）を入力として、α＝constのとき、各特長量次元ｉにおけるスケーリング因子λ_ｉを、ＥＭアルゴリズムのＭ-stepにおいて式（２０）に示すように更新する（ステップＳ６２）。

ここで、

クリーンスピーチ分散算出部６２ａと、スケーリング因子λ算出部６２ｂとで静的分散適応手段６２を構成する。

差分２乗値算出部６６ａは、強調音声特徴量の集合｛ｘ_ｔ’＾,…, ｘ_ｔ＾,…, ｘ_ｔ’’＾｝と、不確かさの集合｛ｅ_ｔ’,…, ｅ_ｔ,…, ｅ_ｔ’’｝と、音響モデル記憶部４内の音響モデルとを入力として、音声特徴量ｘ_ｔ＾と、クリーン音声特徴ｘ_ｔとの差分ｂ_ｔ ^２の期待値Ｅ｛ｂ^２ _ｔ，ｉ｜ｘ_ｔ＾，ｎ,ｍ,Ψ,α’,λ’｝を算出する。

スケーリング因子α算出部６６ｂは、λ＝constのとき各特長量次元ｉにおけるスケーリング因子α_ｉを、式（２３）に示すように更新する（ステップＳ６６）。式（２３）は、λ＝constのとき、式（１７）と式（２）を式（１８）に代入し、α_ｉに関して最大化することで得られる。

ここで

式（２３）からスケーリング因子α_ｉは、差分ベクトルの２乗の期待値と不確かさｅ_ｔ，ｉとの比を、全学習データ、全ＨＭＭ状態、全混合成分に渡って期待値を取ったものであると解釈することができる。差分２乗値算出部６６ａとスケーリング因子α算出部６６ｂとで動的分散適応手段６６を構成する。

分散動的補正部１０は、スケーリング因子α_ｉとλ_ｉと、音響モデル記憶部４に記憶された音響モデルと、認識用音声前処理部８から入力されるフレーム毎の不確かさｅ_ｔを入力として、補正した音響モデルのガウス分布の分散Σ′_{ｎ，ｍ，ｔ}を出力する。例えばΣ′_{ｎ，ｍ，ｔ}が対角行列の場合、各対角成分は式（２６）で計算できる。

〔応用例〕
上記説明した音声モデルパラメータ学習装置１００を用いて音声認識装置１５０を構成することができる。図５に音声認識装置１５０の機能構成例を示す。動作フローを図６に示す。音声認識装置１５０は、背景技術を説明した従来の音声認識装置２００の音声前処理部９０と、音響モデル記憶部９２と、分散動的補正部９４とを、音声パラメータ学習装置１００に置き換えたものである。他の構成は、音声認識装置２００と同じである。音声パラメータ学習装置１００は、フレーム毎に上記した説明済みの動作を行い観測音声信号のフレーム毎の音声特徴量ｘ_ｔ＾と、適応パラメータで補正された音響モデルのガウス分布の分散Σ′_{ｎ，ｍ，ｔ}と、音響モデルの平均パラメータμ_ｎ，ｍとを出力する（ステップＳ１０、図６）。認識部７４は、説明済みの音声認識装置２００と同様の動作により、適応パラメータで補正された音響モデルのガウス分布の分散Σ′_{ｎ，ｍ，ｔ}を用いて単語列Ｗを出力する（ステップＳ９７）。つまり、音声認識装置１５０は、特定の音声強調手法に依存することなく、音声の歪みを抑圧した音声認識を実現することができる。また、後述するように高い認識性能を持った音声認識装置とすることができる。

なお、音声特徴量ｘ_ｔ＾と、適応パラメータで補正された音響モデルのガウス分布の分散Σ′_{ｎ，ｍ，ｔ}と、平均パラメータμ_ｎ，ｍとがフレーム毎に出力されるので、音声認識用音響モデル記憶部９６を設けなくてもよい。

〔シミュレーション結果〕
この発明の音声パラメータ学習装置を用いた音声認識装置の単語誤り率（WER:Word Error Rate）を評価した。音声強調手法には、近年提案されたブラインド残響除去法を用いた。音声認識タスクとして、TI-Digit連続数字認識タスクを用いた。音響モデルは単語モデルを採用し、クリーン音声を用いて１単語当たり１６状態、１状態当たり３ガウス分布の不特定話者音響モデルを構築した。サンプリング周波数は８ｋHz、音声特徴量に１２次元のＭＦＣＣと０次のケプストラム及びそれらの差分成分と加速度成分を利用することにより３９次元の特徴量ベクトルを１０ｍｓ毎に用いた。なお、音声特徴量にＣＭＮ（Cepstral Mean Normalization）をかけた。

残響音声は、クリーン音声に対し部屋の伝達特性を畳み込むことによって生成した。残響時間が０．５秒の部屋で測定した伝達関数を利用した。クリーン音声はTI−Digitクリーンセットを利用した。テストデータには１０４人の男性と女性話者で話された５６１発話を利用した。発話の平均長は６秒である。

単語誤り率で評価した認識結果を図７に示す。クリーン音声、残響音声、残響除去音声、分散動的補正（適応無し）と、分散動的補正（オラクル）での単語誤り率を比較した。ここでオラクルとは、分散動的補正において必要な特徴量分散を、クリーン音声と残響除去後音声のそれぞれの特徴量から算出した理想的な値である。図７に示すように残響除去を行うことにより若干単語誤り率は改善されるが、クリーン音声の認識結果と比べて大きな開きがあることが分かる。一方、従来の分散動的補正を用いると認識性能を大きく改善することができるが、オラクルの値と比べて依然として大きな開きがある。この発明の目標は、このオラクル値に認識性能を近づけることである。

不特定話者の適応データを利用することで、話者に適応させるのではなく、音声強調されたデータに適応させることが可能になる。適応データは、テストデータと同じ話者によって話された５２０発話を利用する。発話数の影響を検討するため適応データからランダムに２〜５１２発話を抜き出し、その適応データを用いて適応を行った。図８に静的分散適応（SVA）と、動的分散適応（DVA）と、この発明の方法であるＳＤＶＡによる単語誤り率を示す。横軸は発話数、縦軸は単語誤り率（WER）である。２発話程度の少量発話で認識性能が十分収束するのが分かる。また、静的分散適用の利用によって、単語誤り率は３１％（図７）から１５.２％に改善する。動的分散適用の利用によっても１５．５％程度に改善される。この発明の動的分散適用と静的分散適用とを同時に行うＳＤＶＡによれば、更に単語誤り率を２％程度改善することができる。結果として図７に示した残響除去後音声（３１.０％）に比べて誤り率を約半分以下にすることができた。また、更なる認識率の改善を目的に、この発明の分散適応方法とＭＬＬＲ（Maximum Likelihood Linear Regression）による平均パラメータの適応の組み合わせについて検討したところ、単語誤り率５％の結果を得た。５％の単語誤り率は、クリーン音声の認識率（１.２％）に近い値である。このようにこの発明による音声パラメータ学習装置を用いることで、単語誤り率を改善することができる。

なお、以上説明した適応手法は分散パラメータに注目したものであるが、平均パラメータや状態遷移率、混合重み因子といった他のパラメータに対応する適応手法と組み合わせることもできる。

また、この発明の装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の音声パラメータ学習装置１００の機能構成例を示す図。音声パラメータ学習装置１００の動作フローを示す図。適応用音声前処理部２と適応パラメータ生成部６のより具体的な機能構成例を示す図。図３の動作フローを示す図。音声パラメータ学習装置１００を用いた音声認識装置１５０の機能構成例を示す図。音声認識装置１５０の動作フローを示す図。単語誤り率で評価した認識結果を示す図。静的分散適応（SVA）と、動的分散適応（DVA）と、この発明の方法であるＳＤＶＡによる単語誤り率を示す図。従来の音声認識装置２００の機能構成例を示す図。音声認識装置２００の動作フローを示す図。

Claims

適応用観測音声信号を入力とし、当該適応用観測音声信号のフレーム毎の音声特徴を強調した強調音声特徴量の集合と、上記強調音声特徴量のバラツキを表わす不確かさの集合とを生成する適応用音声前処理部と、
音響モデルを記憶した音響モデル記憶部と、
上記強調音声特徴量の集合と、上記不確かさの集合と、上記音響モデルと、教師信号とを入力とし、補正後の音響モデルのガウス分布の分散を上記フレームに依存する動的分散と上記フレームに依存しない静的分散との和とし、上記動的分散を動的分散適応パラメータと上記不正確さとの積とし、上記静的分散を静的分散適応パラメータと上記音響モデル中のガウス分布の分散の積とし、上記強調音声特徴量の集合と上記教師信号に基づく学習により動的分散適応パラメータと静的分散適応パラメータとを適応パラメータとして生成する適応パラメータ生成部と、
認識用観測音声信号を入力とし、上記認識用観測音声信号のフレーム毎の音声特徴量と、当該音声特徴量のバラツキを表わす不確かさを生成する認識用音声前処理部と、
上記認識用観測音声信号の音声特徴量の不確かさと、上記適応パラメータと、上記音響モデルから、上記フレーム毎に上記補正後の音響モデルのガウス分布の分散を算出する分散動的補正部と、
を具備する音声パラメータ学習装置。
請求項１記載の音声パラメータ学習装置であって、
上記適応用観測音声信号として、上記認識用観測音声信号を用いる
ことを特徴とする音声パラメータ学習装置。
請求項１または２記載の音声パラメータ学習装置において、
上記適応用音声前処理部は、
入力される観測音声信号のフレーム毎の音声特徴を強調した強調音声信号を生成する音声強調部と、
上記観測音声信号のフレーム毎の特徴量を算出する特徴量算出部と、
上記強調音声信号のフレーム毎の強調音声特徴量を算出して強調音声特徴量の集合を生成する強調音声特徴量算出部と、
上記強調音声信号の強調音声特徴量と上記観測音声信号の特徴量とから上記強調音声特徴量のバラツキを表わす不確かさを算出して強調音声特徴量の不確かさの集合を生成する不確かさ算出部とを備え、
上記適応パラメータ生成部は、
上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルと、教師信号とを入力とし、ＨＭＭ状態ｎ、混合成分ｍの占有確率を算出する占有確率算出部と、
上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルを入力とし、クリーンスピーチの分散を算出するクリーンスピーチ分散算出部と、上記クリーンスピーチの分散と上記占有確率とを入力とし、上記静的分散適応パラメータとしてスケーリング因子λを算出するスケーリング因子λ算出部と、
上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルとを入力とし、クリーン音声特徴と上記音声特徴量との差分の２乗値の期待値を算出する差分２乗値算出部と、
上記占有確率と上記差分の２乗値とを入力とし、上記動的分散適応パラメータとしてスケーリング因子αを生成するスケーリング因子α算出部とを備える、
ことを特徴とする音声パラメータ学習装置。
請求項１から３のいずれかに記載した音声パラメータ学習装置と、
上記音声パラメータ学習装置が出力する音声特徴量と、上記音声パラメータ学習装置において補正された音響モデルのガウス分布の分散とを入力とし、単語列を出力する認識部と、
を具備することを特徴とする音声認識装置。
あらかじめ音響モデル記憶部に音響モデルを記憶しておき、
適応用音声前処理部が、適応用観測音声信号を入力として、当該適応用観測音声信号のフレーム毎の音声特徴を強調した強調音声特徴量の集合と、上記強調音声特徴量のバラツキを表わす不確かさの集合とを生成する適応用音声前処理過程と、
適応パラメータ生成部が、上記強調音声特徴量の集合と、上記不確かさの集合と、上記音響モデルと、教師信号とを入力とし、補正後の音響モデルのガウス分布の分散を上記フレームに依存する動的分散と上記フレームに依存しない静的分散との和とし、上記動的分散を動的分散適応パラメータと上記不正確さとの積とし、上記静的分散を静的分散適応パラメータと上記音響モデル中のガウス分布の分散の積とし、上記強調音声特徴量の集合と上記教師信号に基づく学習により動的分散適応パラメータと静的分散適応パラメータとを適応パラメータとして生成する適応パラメータ生成過程と、
認識用音声前処理部が、認識用観測音声信号を入力とし、上記認識用観測音声信号のフレーム毎の音声特徴量と、当該音声特徴量のバラツキを表わす不確かさを生成する認識用音声前処理過程と、
分散動的補正部が、上記認識用観測音声信号の音声特徴量の不確かさと、上記適応パラメータと、上記音響モデルから、上記フレーム毎に上記補正後の音響モデルのガウス分布の分散を算出する分散動的補正過程と、
を含む音声パラメータ学習方法。
請求項５記載の音声パラメータ学習方法であって、
上記適応用観測音声信号として、上記認識用観測音声信号を用いる
ことを特徴とする音声パラメータ学習方法。
請求項５または６記載の音声パラメータ学習方法において、
上記適応用音声前処理過程は、
音声強調部が、入力される観測音声信号のフレーム毎の音声特徴を強調した強調音声信号を生成する音声強調過程と、
特徴量算出部が、上記観測音声信号のフレーム毎の特徴量を算出する特徴量算出過程と、
強調音声特徴量算出部が、上記強調音声信号のフレーム毎の強調音声特徴量を算出して強調音声特徴量の集合を生成する強調音声特徴量算出過程と、
不確かさ算出部が、上記強調音声信号の強調音声特徴量と上記観測音声信号の特徴量とから上記強調音声特徴量のバラツキを表わす不確かさを算出して強調音声特徴量の不確かさの集合を生成する不確かさ算出過程とを含み、
上記適応パラメータ生成過程は、
占有確率算出部が、上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルと、教師信号とを入力としてＨＭＭ状態ｎ、混合成分ｍの占有確率を算出する占有確率算出過程と、
クリーンスピーチ算出部が、上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルを入力としてクリーンスピーチの分散を算出するクリーンスピーチ分散算出過程と、
スケーリング因子λ算出部が、上記クリーンスピーチ分散と上記占有確率とからスケーリング因子λを算出するスケーリング因子λ算出過程と、
差分２乗値算出部が、上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルとを入力としてクリーン音声特徴と上記音声特徴量との差分の２乗値の期待値を算出する差分２乗値算出過程とを含み、
スケーリング因子α算出部が、上記占有確率と、上記不確かさと、上記差分の２乗値とを入力として上記動的分散適応パラメータを生成するスケーリング因子α算出過程とを含む、
ことを特徴とする音声パラメータ学習方法。
請求項５から７のいずれかに記載した音声パラメータ学習方法と、
認識部が、上記音声パラメータ学習方法で生成された音声特徴量と、補正された音響モデルのガウス分布の分散とを入力とし、単語列を出力する認識過程と、
を含むことを特徴とする音声認識方法。
請求項１から３のいずれかに記載された音声パラメータ学習装置としてコンピュータを機能させるためのプログラム。
請求項４に記載された音声認識装置としてコンピュータを機能させるためのプログラム。
請求項９又は１０に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。