JP4960845B2 - 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 - Google Patents

音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 Download PDF

Info

Publication number
JP4960845B2
JP4960845B2 JP2007321201A JP2007321201A JP4960845B2 JP 4960845 B2 JP4960845 B2 JP 4960845B2 JP 2007321201 A JP2007321201 A JP 2007321201A JP 2007321201 A JP2007321201 A JP 2007321201A JP 4960845 B2 JP4960845 B2 JP 4960845B2
Authority
JP
Japan
Prior art keywords
speech
acoustic model
signal
unit
variance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007321201A
Other languages
English (en)
Other versions
JP2009145499A (ja
Inventor
マーク デルクロア
晋治 渡部
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007321201A priority Critical patent/JP4960845B2/ja
Publication of JP2009145499A publication Critical patent/JP2009145499A/ja
Application granted granted Critical
Publication of JP4960845B2 publication Critical patent/JP4960845B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、雑音抑圧や残響除去等の音声前処理を行った段階で生じる音声の歪みを抑圧するための音声パラメータ学習方法とその装置、その装置と方法を用いた音声認識装置と音声認識方法と、それらのプログラムと記録媒体に関する。
音声認識を行う上で観測音声信号は、騒音や残響などの外的要因で大きく歪む。音声認識は、そのような大きく歪んだ音声を認識するのは不得手である。音声前処理部において、雑音抑圧や残響除去等を行い歪みを緩和することができる。しかし、音声前処理を行なっても、音声前処理部が新たにもたらす歪みや歪みの消し残り等で音声の歪みが依然として存在する。そこで、しばしば用いられるのが音声認識用音響モデルに含まれるガウス分布の分散パラメータを補正する方法である。この方法は非特許文献1に開示されている。その方法に基づく従来の音声認識装置の機能構成を図9に、その動作フローを図10に示して簡単に説明する。
音声認識装置200は、音声前処理部90と、音響モデル記憶部92と、分散動的補正部94と、音声認識用音響モデル記憶部96と、認識部97と、発音辞書モデル記憶部98と、言語モデル記憶部99とを備える。
音声前処理部90は、観測音声信号o(t)を読み込み(ステップS90)、例えば雑音抑圧や残響除去法などの音声強調技術で推定された音声特徴量x^(^は図又は式に示す表記が正しい)を各フレーム毎に出力する。ただし、上記したように音声前処理部90では、音声歪みを完璧に消すことが出来ず、推定された音声特徴量x^と音響モデル構築の際に用いたクリーン音声特徴には大きなミスマッチが存在する。これが認識性能を劣化させる大きな要因となる。そこで音声特徴量x^を、クリーン音声特徴xと差分bの和であると仮定する(式(1))。
Figure 0004960845
ただし、差分bは式(2)に示す様に平均0のガウス分布に従うと仮定する。
Figure 0004960845
ここで、Σxt^は音声特徴量の分散である。つまり、音声前処理部90は推定された音声特徴量x^とともに、音声特徴量の分散Σxt^を出力する(ステップS91)。音声特徴量の分散Σxt^は、GMMに基づく音声強調法ではクリーン音声の混合ガウス分布モデルの分散パラメータから導出される。
分散動的補正部94は、音響モデル記憶部92に記憶されている音響モデルの分散パラメータΣn,m(nはHMM状態、mは混合成分)を読み込み(ステップS92)、音声前処理部90が出力する音声特徴量の分散Σxt^を用いて補正する(ステップS94)。ここで、音響モデルについて説明する。音響モデルは、通常隠れマルコフモデル(HMM)で表現され、HMMの出力分布としては混合ガウス分布が用いられる。あるHMM状態nにおいて音声特徴xを出力する出力確率は式(3)で表現される。
Figure 0004960845
ここで、mはガウス分布の混合成分の指標であり、Mは状態あたりの混合数を表わす。p(m)は混合重み因子を表わす。μn,m及びΣn,mはHMM状態n、混合成分mでのガウス分布の平均パラメータ及び共分散行列を表わす。なお、通常の音響モデルは共分散行列を対角共分散行列として扱う場合が多い。そのため以降では、共分散行列の対角成分を特徴量次元の指標iを用いて、標準偏差σn,m,i として表わすこともある。
一般には、上記音響モデルパラメータはクリーン音声を用いて学習されるため、例えば、それらのデータから得られる平均パラメータμn,mと音声前処理部90で推定された音声特徴量x^とではミスマッチが存在する。このようなミスマッチを緩和するために分散動的補正部94では、音響モデルの分散パラメータΣn,mを音声特徴量x^に合わせるように補正を行う。分散パラメータΣn,mを音声特徴量x^に合わせる補正を行うため、HMM状態nでの音響モデルの出力確率p(x|n)に対し、x及びxとx^の差分bの同時確率を考え、bに関して周辺化(積分)を行うことにより、式(4)に示すような出力確率p(x|n)を理論的に導出することができる。
Figure 0004960845
ここでは、p(b|n)≒p(b)と仮定している。従って、分散動的補正部94では、各フレーム毎に動的に音声特徴量の分散Σxt^を用いて音響モデルの分散パラメータΣn,mを式(5)に示すように補正することにより、推定された音声特徴量x^を出力する出力分布を得ることができる。
Figure 0004960845
補正された出力分布は、音声認識用音響モデル記憶部96に記憶される。
認識部97では、音声前処理部90から入力される特徴量集合X=[x^,…,x^,…]に対して音響モデルp(X|n)、発音辞書モデル記憶部98に記憶された発音辞書モデルp(n|W)、言語モデル記憶部99に記憶された言語モデルp(W)を用いて式(6)に示すように音声認識結果Wを出力する(ステップS97)。
Figure 0004960845
特徴量集合に対する音響モデルp(X|n)のスコアは、出力確率p(x|n)から得られる各フレームt毎の音響スコアを、DPマッチング(動的計画法)などを用いて蓄積することで得られる。
出力確率p(x|n)から得られる各フレームt毎の音響スコアは、音声前処理部90より出力される推定された音声特徴量x^及び、分散動的補正部94より得られる補正された分散Σn,m+Σxt^、及びその他の音響モデルパラメータを用いて式(7)に示す様に計算することができる。
Figure 0004960845
以上の動作によって、雑音抑圧や残響除去等の音声前処理を行なった段階に生じる音声の歪みを抑圧した音声認識が実現される。
Deng, L.,Droppo, J. and Acero, A.,"Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion,"IEEE Trans.SAP,vol. 13,no.3,pp.412-421,2005.
しかし、上記した方法では、分散動的補正部94において用いる音声特徴量の分散Σxt^を音声前処理部90で生成する必要がある。音声前処理部90ではクリーン音声の混合ガウス分布にもとづく音声強調手法を用いており、音声特徴量の分散Σxt^は、その混合ガウス分布モデルの分散パラメータから導出している。他の多くの音声強調手法、例えばスペクトル減算法、音声分離法(BSS)、ウィナーフィルター法(wiener)では、直接音声特徴量の分散を出力することが難しく、上記した方法の適用は困難である。つまり、上記した従来方法は、特定の音声強調手法を用いなければならないという点で汎用性に欠ける。
また、観測音声信号の音声特徴uと、音声前処理部で推定された音声特徴量x^の2乗誤差を音声特徴量の分散と近似することにより、音声強調手法によらない動的分散補正が可能ではある。しかし、本来、分散動的補正に必要な音声特徴量の分散は、クリーン音声特徴xと音声前処理部で推定された音声特徴量x^の2乗誤差であり、上記した近似では動的分散補正の精度が低下し性能が劣化してしまう。
この発明は、このような点に鑑みてなされたものであり、任意の音声特徴量の分散を用いても適切な音響モデルを得ることができる音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体を提供することを目的とする。
この発明による音声パラメータ学習装置は、適応用音声前処理部と、音響モデル記憶部と、適応パラメータ生成部と、認識用音声前処理部と、分散動的補正部とを具備する。適応用音声前処理部は、観測音声信号を入力として、当該観測音声信号のフレーム毎の音声特徴を強調した強調音声信号の音声特徴量と、上記音声特徴量のバラツキを表わす不確かさとを生成する。音響モデル記憶部は、音響モデルを記憶する。適応パラメータ生成部は、強調音声特徴量の集合と、上記不確かさの集合と、上記音響モデルと、教師信号とを入力とし、音響モデル中のガウス分布の分散補正のための適応パラメータとしてフレームに依存する動的分散適応パラメータと、フレームに依存しない静的分散適応パラメータとを生成する。認識用音声前処理部は、観測音声信号のフレーム毎の音声特徴量と、音声特徴量のバラツキを表わす不確かさを生成する。分散動的補正部は、上記音声特徴量の不確かさと、上記適応パラメータと、上記音響モデルとを入力としてフレーム毎に適応パラメータで補正された音響モデルのガウス分布の分散を出力する。
また、この発明による音声認識装置は、上記した音声パラメータ学習装置と、認識部を具備する。認識部は、音声パラメータ学習装置が出力する音声特徴量と、音声パラメータ学習装置において補正された音響モデルのガウス分布の分散を入力として単語列を出力する。
この発明の音声パラメータ学習装置は、適応パラメータ生成部が音響モデルの分散補正のためのパラメータとして、観測音声信号からフレームに依存する動的分散パラメータと、フレームに依存しない静的分散パラメータとを生成する。つまり、音声強調部に混合ガウス分布法を用いずに分散補正のためのパラメータが生成できるので、任意の音声強調手法に対応可能な汎用性の高い音声パラメータ学習装置とすることができる。また、この音声パラメータ学習装置を用いた音声認識装置は、特定の音声強調手法に依存することなく、音声の歪みを抑圧した高い認識性能を持つ音声認識を実現することができる。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔発明の基本的な考え〕
実施例の説明の前に、この発明の音声特徴量の分散を補正する方法の基本的な考え方について説明する。この発明は、式(8)に示すように分散補正された音響モデルの分散Σ′n,m,tを、フレームtに依存する動的成分行列Σと、フレームtに依存しない静的成分行列Σの組み合わせとして表現する。
Figure 0004960845
ここで演算子(+)は行列Σ、Σに対しての、和・積などの演算及びそれらの演算等の組み合わせで表現される2項演算を意味する。
音響モデルの分散Σn,mを補正するのに、音声特徴量の分散を用いる。式(9)に示すように音声特徴量の分散eとΣn,mを引数として特徴量分散を出力する関数fを求めればよい。
Figure 0004960845
背景技術で述べた音声特徴量の分散Σxt^をそのまま音響モデルの分散に足す場合、つまり、Σn、m+Σxt^(式(5))ではΣxt^を正確に推定しないと十分な性能を得ることができない。また、この方法では、音声強調手法が限定されてしまう。そこで、この発明では式(10)に示すように、音響モデル分散を音声特徴量の各フレームtでの不確かさに依存する動的成分行列Σ(e)と、音声特徴量の各フレームtでの不確かさに依存しない静的成分行列Σの組み合わせとして表現する。ただし、不確かさeとしてスカラーやベクトル値や行列値をとってもよい。スカラー値の不確かさとしては、音声強調や音声区間検出(VAD)などの音声前処理時に出力されるバイナリー値や信頼度、また音声認識を行うことによって算出される信頼度等が考えられる。また、スカラー値の不確かさを各特徴次元毎に算出することによりベクトル型の不確かさを計算することも可能である。また、共分散行列や自己相関行列から行列型の不確かさを計算することも可能である。
Figure 0004960845
また、あるフレームtでの音響モデルの分散Σ′n、m、tを推定するためには、音声特徴量の不確かさeのみならず、フレームtを含めた音声特徴量の不確かさeの集合、音声特徴集合x^、及び音響モデルΨの情報も有用である。したがって、これらを用いて、音響モデル特徴量分散を式(11)に示すように表現する。
Figure 0004960845
音響モデル特徴量分散Σ′n、m、tは、強調音声特徴量の集合、例えばtを含みt′からt′′までの有限区間としてx^={xt’^…x^…xt’’^}、強調音声特徴量の不確かさの集合、例えばe={et’…e…et’’}といったデータ集合に依存するため、学習によって精度良く求めることができる。
式(11)の適切な関数系を示す。一般に関数系が複雑であればあるほど大量の学習データと長い学習時間が必要となるが、精度良く関数系を学習することができる。逆に、関数系をシンプルにすればするほど少量の学習データと短い学習時間で関数系を学習することができるが、その精度は一般的に複雑な関数系に比べて低くなる。従って、以降に示す関数系に関しては、学習データ量や学習時間等の応用上の条件に応じて適切に選択すればよい。以降では、学習によるパラメータの推定が前提となるため、簡単のためにe、x等の引数は省略する。式(11)の2項演算(+)の単純形として、式(12)に示す積表現と式(13)に示す和表現とが考えられる。
Figure 0004960845
式(13)の分散の和表現は、式(5)との類推から考えて、理論的・実用的に妥当な表現といえる。従って、以降では和表現で説明する。
Σが音響モデルの分散に依存すると仮定すると、式(14)で表わせる音響モデルの特徴量分散Σ′n、m、tは、式(14)で表わせる。
Figure 0004960845
ここでΣ、Σの関数系として任意の関数、例えば行列の多項式等を与える。その最も簡単な形として式(15)と式(16)で表わせる。
Figure 0004960845
これは特徴量が線形変換された場合の分散の変換式である。
ここでA,B,C,Dは、特徴量次元の正方行列であり、他の部分のA〜Dとは異なる変数である。行列は任意の形でよい(対称、ブロック、帯、スカラー倍の単位行列)。以降では、分散のバイアス項の影響を無視し(B=0,D=0)、AとCの対角行列に対しての表現で説明する。AとCのi行i列の対角成分を√λと√αと表わすと、音響モデルの特徴量分散Σ′n、m、tの対角成分は式(17)で表わせる。つまり、音響モデルの分散をパラメトリック表現することができる。
Figure 0004960845
ここで、σn,m,i は状態n、混合成分mでの音響モデル中のガウス分布の共分散行列の対角(i×i)成分である。このとき、学習により推定すべきパラメータはαとλとなる。ここで注目したいのは、α=0とすると従来からある静的分散補正法となる。また、α=const,λ=1とすると従来の動的分散補正法となることである。つまりこの発明の方法は、従来の両手法を内包する手法であるといえる。以上説明した考えに基づくこの発明の音声パラメータ学習装置の実施例を次に説明する。
図1にこの発明の音声パラメータ学習装置の実施例1の概略的な機能構成例を示す。音声パラメータ学習装置100は、適応用音声前処理部2と、音響モデル記憶部4と、適応パラメータ生成部6と、認識用音声前処理部8と、分散動的補正部10を具備する。その動作フローを図2に示す。この例の音声パラメータ学習装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
音声パラメータ学習装置100は、上記したパラメータのαとλを推定するものである。適応用音声前処理部2と認識用音声前処理部8とに入力される観測音声信号は、例えば、サンプリング周波数=8kHz、量子化ビット数=16bitの離散値である。適応用音声前処理部2と認識用音声前処理部8は、この離散値を例えば240点まとめて1フレームとして処理を行なう。
適応用音声前処理部2は、観測音声信号o(t)のフレーム毎の音声特徴を強調した強調音声特徴量の集合{xt’^,…, x^,…, xt’’^}と、強調音声特徴量のバラツキを表わす不確かさの集合{et’,…, e,…, et’’}とを生成する(ステップS2、図2)。適応パラメータ生成部6は、強調音声特徴量の集合{xt’^,…, x^,…, xt’’^}と、強調音声特徴量のバラツキを表わす不確かさの集合{et’,…, e,…, et’’}と、音響モデル記憶部4に記憶された音響モデルと、教師信号を入力とし、音響モデル中のガウス分布の補正のための適応パラメータを生成する(ステップS6)。適応パラメータ生成過程は、フレームに依存しない静的分散適応パラメータλを生成する静的分散適応過程(ステップS62)と、フレームに依存する動的分散適応パラメータαを生成する動的分散過程(ステップS66)の2つの過程から成る。両過程の順序はどちらが先でもかまわない。
認識用音声前処理部8は、観測音声信号o(t)のフレーム毎の音声特徴量x^と、その音声特徴量のバラツキを表わす不確かさeを生成する(ステップS8)。なお、この例の認識用音声前処理部8は、適応用音声前処理部2と同じ処理を行なう。分散動的補正部10は、適応パラメータαとλと、不確かさeと、音響モデル記憶部4に記憶された音響モデルとを入力とし、フレーム毎に音響モデルのガウス分布の分散Σn,mを、適応パラメータαとλで補正した分散Σ′n,m,tを出力する(ステップS10)。
適応用音声前処理部2と、適応パラメータ生成部6と、分散動的補正部10は、適応パラメータ学習部を構成する。ここで、パラメトリック表現された音響モデルの分散パラメータの学習について説明する。
一般に、学習においては教師信号が必要となる。教師信号(以降、ラベルと称する。)としては、各フレームにおけるラベル情報が必要になる。ラベルは単語情報や音素情報、HMM状態情報等がある。観測音声信号に予めラベルがふられている場合は、それをそのまま利用する。または、例えば、図示しない音声認識器もしくは音声区間検出器等を用いてラベルを付与すればよい。
学習というのは、音声データやラベルなどを利用して、音響モデルのパラメータを生成する方法であって、学習の出力は新しい音響モデルである。音声認識装置は、その音響モデルを用いて音声認識を行う。この例では、動的補正のために適応を利用する。適応も音声データやラベル等を利用してパラメータを生成するが、学習と違いその出力は適応パラメータである。適応パラメータ生成部6は、静的分散適応手段62と、動的分散適応手段66とから成り、強調音声特徴量の集合と、強調音声特徴量の不確かさの集合と、ラベルと、音響モデルを入力として式(17)に示したα、λのような分散補正のための適応パラメータを算出する。
学習の規範としては、例えば尤度最大化を採用する。最尤学習は、音響モデル記憶部4に記憶された音響モデルが、学習データを出力する際の尤度を最大化するようパラメータを学習する規範である。また、他の学習法として、事後確率の最大化を規範とするベイズ学習でもよい。ただし、その場合は、各パラメータに適切な共役分布や無情報事前分布を事前分布として設定する必要がある。他にも、音声認識率などの識別基準を利用した識別学習などが上げられる。このような規範を用いると、パラメータを引数とするコスト関数を導出することができる。
上記学習規範から求められたコスト関数を最適化するパラメータを推定する。最適化手法としては、最急降下法などの数値計算、ニューラルネットワーク、マルコフチェインモンテカルロなどのサンプリング法、遺伝的アルゴリズム等が考えられる。この実施例では、期待値最大化(EM)アルゴリズムを用いた例で説明する。
EMアルゴリズムは、直接尤度を最大にするのではなく、式(18)で定義される補助関数Q(θ|θ’)を最大化するパラメータを求める手法である。
Figure 0004960845
θは分散補正のためのパラメータ集合であり、具体的にはαとλである。Xはクリーン音声特徴量の系列、Tはフレーム数、θ′は各反復計算における一つ前の推定値、θは各反復計算における推定対象のパラメータである。
補助関数Q(θ|θ’)と尤度の増減関係は一致するため、式(18)を最大化するθは局所最適解となる。ここでBは差分特徴量の系列、SはHMM状態のあらゆる系列の集合、Cは混合成分のあらゆる系列の集合、NはHMM状態数を表わす。補助関数Q(θ|θ’)は、従来のstochastic matching法の補助関数と類似しているが、式(18)の4段目の差分ベクトルbの出力分布の対数項、つまり動的補正項の存在がその違いとなる。
期待値ステップ(E-step)においては、フォワード・バックワードアルゴリズムやビタービアルゴリズムなどの隠れ変数に対するデータ割り当て手法を用いて、各フレーム毎の状態系列、混合成分系列に割り当てられた占有事後確率値を計算し、その値を元に1次統計量などの諸々の統計量を期待値計算により求める。
最大化ステップ(M-step)では、E-stepで得られた統計量を元に式(18)を最大化する式(19)に示すパラメータθ^を求める。
Figure 0004960845
適応パラメータαとλは、相互に依存しており、それぞれを同時に最適化することは難しい。そこで適応パラメータ生成部6は、静的分散パラメータλと、動的分散パラメータαとを分けて推定する。適応用音声前処理部2と適応パラメータ生成部6のより具体的な機能構成例を図3に示して、音声パラメータ学習装置100を更に詳細に説明する。動作フローを図4に示す。
適応用音声前処理部2は、音声強調部20と、特徴量算出部21と、強調音声特徴量算出部22と、不確かさ算出部23とを備える。音声強調部20は、入力される観測音声信号o(t)のフレーム毎の音声特徴を強調した強調音声信号o^(t)を生成する(ステップS2a)。特徴量算出部21は、観測音声信号o(t)のフレーム毎の特徴量uを算出する(ステップS2b)。強調音声特徴量算出部22は、強調音声信号の音声特徴x^を強調音声特徴量の集合{xt’^,…, x^,…, xt’’^}として算出する(ステップS2c)。不確かさ算出部23は、フレーム毎の強調音声特徴量x^と観測音声信号o(t)の特徴量uを入力として、強調音声特徴量のバラツキを表わす不確かさe=(x^−uを算出し、その集合、例えば{et’,…, e,…, et’’}を出力する(ステップS2d)。それぞれの集合は、適応パラメータ生成部6に入力される。
適応パラメータ生成部6は、占有確率算出部64と、クリーンスピーチ分散算出部62aと、スケーリング因子λ算出部62bと、差分2乗値算出部66aと、スケーリング因子α算出部66bとを備える。
占有確率算出部64には、強調音声特徴量の集合{xt’^,…, x^,…, xt’’^}と、不確かさの集合{et’,…, e,…, et’’}と、ラベルと、音響モデル記憶部4内の音響モデルとが入力され、HMM状態n、混合成分mの占有確率γ(n,m)を算出する(ステップS60)。この占有確率γ(n,m)は、EMアルゴリズムのE-stepにおいてフォワード・バックワードアルゴリズムやビタービアルゴリズムなどのデータ割り当て手法によって計算することが可能である。
クリーンスピーチ分散算出部62aは、強調音声特徴量の集合{xt’^,…, x^,…, xt’’^}と、不確かさの集合{et’,…, e,…, et’’}と、音響モデル記憶部4内の音響モデルとを入力として、クリーンスピーチの分散の推定値A{xt,i,x^,n,m,Ψ,α’,λ’}を算出する。
スケーリング因子λ算出部62bは、クリーンスピーチの分散の推定値A{xt,i,x^,n,m,Ψ,α’,λ’}と占有確率γ(n,m)を入力として、α=constのとき、各特長量次元iにおけるスケーリング因子λを、EMアルゴリズムのM-stepにおいて式(20)に示すように更新する(ステップS62)。
Figure 0004960845
ここで、
Figure 0004960845
クリーンスピーチ分散算出部62aと、スケーリング因子λ算出部62bとで静的分散適応手段62を構成する。
差分2乗値算出部66aは、強調音声特徴量の集合{xt’^,…, x^,…, xt’’^}と、不確かさの集合{et’,…, e,…, et’’}と、音響モデル記憶部4内の音響モデルとを入力として、音声特徴量x^と、クリーン音声特徴xとの差分b の期待値E{b t,i|x^,n,m,Ψ,α’,λ’}を算出する。
スケーリング因子α算出部66bは、λ=constのとき各特長量次元iにおけるスケーリング因子αを、式(23)に示すように更新する(ステップS66)。式(23)は、λ=constのとき、式(17)と式(2)を式(18)に代入し、αに関して最大化することで得られる。
Figure 0004960845
ここで
Figure 0004960845
式(23)からスケーリング因子αは、差分ベクトルの2乗の期待値と不確かさet,iとの比を、全学習データ、全HMM状態、全混合成分に渡って期待値を取ったものであると解釈することができる。差分2乗値算出部66aとスケーリング因子α算出部66bとで動的分散適応手段66を構成する。
分散動的補正部10は、スケーリング因子αとλと、音響モデル記憶部4に記憶された音響モデルと、認識用音声前処理部8から入力されるフレーム毎の不確かさeを入力として、補正した音響モデルのガウス分布の分散Σ′n,m,tを出力する。例えばΣ′n,m,tが対角行列の場合、各対角成分は式(26)で計算できる。
Figure 0004960845
〔応用例〕
上記説明した音声モデルパラメータ学習装置100を用いて音声認識装置150を構成することができる。図5に音声認識装置150の機能構成例を示す。動作フローを図6に示す。音声認識装置150は、背景技術を説明した従来の音声認識装置200の音声前処理部90と、音響モデル記憶部92と、分散動的補正部94とを、音声パラメータ学習装置100に置き換えたものである。他の構成は、音声認識装置200と同じである。音声パラメータ学習装置100は、フレーム毎に上記した説明済みの動作を行い観測音声信号のフレーム毎の音声特徴量x^と、適応パラメータで補正された音響モデルのガウス分布の分散Σ′n,m,tと、音響モデルの平均パラメータμn,mとを出力する(ステップS10、図6)。認識部74は、説明済みの音声認識装置200と同様の動作により、適応パラメータで補正された音響モデルのガウス分布の分散Σ′n,m,tを用いて単語列Wを出力する(ステップS97)。つまり、音声認識装置150は、特定の音声強調手法に依存することなく、音声の歪みを抑圧した音声認識を実現することができる。また、後述するように高い認識性能を持った音声認識装置とすることができる。
なお、音声特徴量x^と、適応パラメータで補正された音響モデルのガウス分布の分散Σ′n,m,tと、平均パラメータμn,mとがフレーム毎に出力されるので、音声認識用音響モデル記憶部96を設けなくてもよい。
〔シミュレーション結果〕
この発明の音声パラメータ学習装置を用いた音声認識装置の単語誤り率(WER:Word Error Rate)を評価した。音声強調手法には、近年提案されたブラインド残響除去法を用いた。音声認識タスクとして、TI-Digit連続数字認識タスクを用いた。音響モデルは単語モデルを採用し、クリーン音声を用いて1単語当たり16状態、1状態当たり3ガウス分布の不特定話者音響モデルを構築した。サンプリング周波数は8kHz、音声特徴量に12次元のMFCCと0次のケプストラム及びそれらの差分成分と加速度成分を利用することにより39次元の特徴量ベクトルを10ms毎に用いた。なお、音声特徴量にCMN(Cepstral Mean Normalization)をかけた。
残響音声は、クリーン音声に対し部屋の伝達特性を畳み込むことによって生成した。残響時間が0.5秒の部屋で測定した伝達関数を利用した。クリーン音声はTI−Digitクリーンセットを利用した。テストデータには104人の男性と女性話者で話された561発話を利用した。発話の平均長は6秒である。
単語誤り率で評価した認識結果を図7に示す。クリーン音声、残響音声、残響除去音声、分散動的補正(適応無し)と、分散動的補正(オラクル)での単語誤り率を比較した。ここでオラクルとは、分散動的補正において必要な特徴量分散を、クリーン音声と残響除去後音声のそれぞれの特徴量から算出した理想的な値である。図7に示すように残響除去を行うことにより若干単語誤り率は改善されるが、クリーン音声の認識結果と比べて大きな開きがあることが分かる。一方、従来の分散動的補正を用いると認識性能を大きく改善することができるが、オラクルの値と比べて依然として大きな開きがある。この発明の目標は、このオラクル値に認識性能を近づけることである。
不特定話者の適応データを利用することで、話者に適応させるのではなく、音声強調されたデータに適応させることが可能になる。適応データは、テストデータと同じ話者によって話された520発話を利用する。発話数の影響を検討するため適応データからランダムに2〜512発話を抜き出し、その適応データを用いて適応を行った。図8に静的分散適応(SVA)と、動的分散適応(DVA)と、この発明の方法であるSDVAによる単語誤り率を示す。横軸は発話数、縦軸は単語誤り率(WER)である。2発話程度の少量発話で認識性能が十分収束するのが分かる。また、静的分散適用の利用によって、単語誤り率は31%(図7)から15.2%に改善する。動的分散適用の利用によっても15.5%程度に改善される。この発明の動的分散適用と静的分散適用とを同時に行うSDVAによれば、更に単語誤り率を2%程度改善することができる。結果として図7に示した残響除去後音声(31.0%)に比べて誤り率を約半分以下にすることができた。また、更なる認識率の改善を目的に、この発明の分散適応方法とMLLR(Maximum Likelihood Linear Regression)による平均パラメータの適応の組み合わせについて検討したところ、単語誤り率5%の結果を得た。5%の単語誤り率は、クリーン音声の認識率(1.2%)に近い値である。このようにこの発明による音声パラメータ学習装置を用いることで、単語誤り率を改善することができる。
なお、以上説明した適応手法は分散パラメータに注目したものであるが、平均パラメータや状態遷移率、混合重み因子といった他のパラメータに対応する適応手法と組み合わせることもできる。
また、この発明の装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明の音声パラメータ学習装置100の機能構成例を示す図。 音声パラメータ学習装置100の動作フローを示す図。 適応用音声前処理部2と適応パラメータ生成部6のより具体的な機能構成例を示す図。 図3の動作フローを示す図。 音声パラメータ学習装置100を用いた音声認識装置150の機能構成例を示す図。 音声認識装置150の動作フローを示す図。 単語誤り率で評価した認識結果を示す図。 静的分散適応(SVA)と、動的分散適応(DVA)と、この発明の方法であるSDVAによる単語誤り率を示す図。 従来の音声認識装置200の機能構成例を示す図。 音声認識装置200の動作フローを示す図。

Claims (11)

  1. 適応用観測音声信号を入力とし、当該適応用観測音声信号のフレーム毎の音声特徴を強調した強調音声特徴量の集合と、上記強調音声特徴量のバラツキを表わす不確かさの集合とを生成する適応用音声前処理部と、
    音響モデルを記憶した音響モデル記憶部と、
    上記強調音声特徴量の集合と、上記不確かさの集合と、上記音響モデルと、教師信号とを入力とし、補正後の音響モデルのガウス分布の分散を上記フレームに依存する動的分散と上記フレームに依存しない静的分散との和とし、上記動的分散を動的分散適応パラメータと上記不正確さとの積とし、上記静的分散を静的分散適応パラメータと上記音響モデル中のガウス分布の分散の積とし、上記強調音声特徴量の集合と上記教師信号に基づく学習により動的分散適応パラメータと静的分散適応パラメータとを適応パラメータとして生成する適応パラメータ生成部と、
    認識用観測音声信号を入力とし、上記認識用観測音声信号のフレーム毎の音声特徴量と、当該音声特徴量のバラツキを表わす不確かさを生成する認識用音声前処理部と、
    上記認識用観測音声信号の音声特徴量の不確かさと、上記適応パラメータと、上記音響モデルから、上記フレーム毎に上記補正後の音響モデルのガウス分布の分散を算出する分散動的補正部と、
    を具備する音声パラメータ学習装置。
  2. 請求項1記載の音声パラメータ学習装置であって、
    上記適応用観測音声信号として、上記認識用観測音声信号を用いる
    ことを特徴とする音声パラメータ学習装置。
  3. 請求項1または2記載の音声パラメータ学習装置において、
    上記適応用音声前処理部は、
    入力される観測音声信号のフレーム毎の音声特徴を強調した強調音声信号を生成する音声強調部と、
    上記観測音声信号のフレーム毎の特徴量を算出する特徴量算出部と、
    上記強調音声信号のフレーム毎の強調音声特徴量を算出して強調音声特徴量の集合を生成する強調音声特徴量算出部と、
    上記強調音声信号の強調音声特徴量と上記観測音声信号の特徴量とから上記強調音声特徴量のバラツキを表わす不確かさを算出して強調音声特徴量の不確かさの集合を生成する不確かさ算出部とを備え、
    上記適応パラメータ生成部は、
    上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルと、教師信号とを入力とし、HMM状態n、混合成分mの占有確率を算出する占有確率算出部と、
    上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルを入力とし、クリーンスピーチの分散を算出するクリーンスピーチ分散算出部と、上記クリーンスピーチの分散と上記占有確率とを入力とし、上記静的分散適応パラメータとしてスケーリング因子λを算出するスケーリング因子λ算出部と、
    上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルとを入力とし、クリーン音声特徴と上記音声特徴量との差分の2乗値の期待値を算出する差分2乗値算出部と、
    上記占有確率と上記差分の2乗値とを入力とし、上記動的分散適応パラメータとしてスケーリング因子αを生成するスケーリング因子α算出部とを備える、
    ことを特徴とする音声パラメータ学習装置。
  4. 請求項1から3のいずれかに記載した音声パラメータ学習装置と、
    上記音声パラメータ学習装置が出力する音声特徴量と、上記音声パラメータ学習装置において補正された音響モデルのガウス分布の分散とを入力とし、単語列を出力する認識部と、
    を具備することを特徴とする音声認識装置。
  5. あらかじめ音響モデル記憶部に音響モデルを記憶しておき、
    適応用音声前処理部が、適応用観測音声信号を入力として、当該適応用観測音声信号のフレーム毎の音声特徴を強調した強調音声特徴量の集合と、上記強調音声特徴量のバラツキを表わす不確かさの集合とを生成する適応用音声前処理過程と、
    適応パラメータ生成部が、上記強調音声特徴量の集合と、上記不確かさの集合と、上記音響モデルと、教師信号とを入力とし、補正後の音響モデルのガウス分布の分散を上記フレームに依存する動的分散と上記フレームに依存しない静的分散との和とし、上記動的分散を動的分散適応パラメータと上記不正確さとの積とし、上記静的分散を静的分散適応パラメータと上記音響モデル中のガウス分布の分散の積とし、上記強調音声特徴量の集合と上記教師信号に基づく学習により動的分散適応パラメータと静的分散適応パラメータとを適応パラメータとして生成する適応パラメータ生成過程と、
    認識用音声前処理部が、認識用観測音声信号を入力とし、上記認識用観測音声信号のフレーム毎の音声特徴量と、当該音声特徴量のバラツキを表わす不確かさを生成する認識用音声前処理過程と、
    分散動的補正部が、上記認識用観測音声信号の音声特徴量の不確かさと、上記適応パラメータと、上記音響モデルから、上記フレーム毎に上記補正後の音響モデルのガウス分布の分散を算出する分散動的補正過程と、
    を含む音声パラメータ学習方法。
  6. 請求項5記載の音声パラメータ学習方法であって、
    上記適応用観測音声信号として、上記認識用観測音声信号を用いる
    ことを特徴とする音声パラメータ学習方法。
  7. 請求項5または6記載の音声パラメータ学習方法において、
    上記適応用音声前処理過程は、
    音声強調部が、入力される観測音声信号のフレーム毎の音声特徴を強調した強調音声信号を生成する音声強調過程と、
    特徴量算出部が、上記観測音声信号のフレーム毎の特徴量を算出する特徴量算出過程と、
    強調音声特徴量算出部が、上記強調音声信号のフレーム毎の強調音声特徴量を算出して強調音声特徴量の集合を生成する強調音声特徴量算出過程と、
    不確かさ算出部が、上記強調音声信号の強調音声特徴量と上記観測音声信号の特徴量とから上記強調音声特徴量のバラツキを表わす不確かさを算出して強調音声特徴量の不確かさの集合を生成する不確かさ算出過程とを含み、
    上記適応パラメータ生成過程は、
    占有確率算出部が、上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルと、教師信号とを入力としてHMM状態n、混合成分mの占有確率を算出する占有確率算出過程と、
    クリーンスピーチ算出部が、上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルを入力としてクリーンスピーチの分散を算出するクリーンスピーチ分散算出過程と、
    スケーリング因子λ算出部が、上記クリーンスピーチ分散と上記占有確率とからスケーリング因子λを算出するスケーリング因子λ算出過程と、
    差分2乗値算出部が、上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルとを入力としてクリーン音声特徴と上記音声特徴量との差分の2乗値の期待値を算出する差分2乗値算出過程とを含み、
    スケーリング因子α算出部が、上記占有確率と、上記不確かさと、上記差分の2乗値とを入力として上記動的分散適応パラメータを生成するスケーリング因子α算出過程とを含む、
    ことを特徴とする音声パラメータ学習方法。
  8. 請求項5から7のいずれかに記載した音声パラメータ学習方法と、
    認識部が、上記音声パラメータ学習方法で生成された音声特徴量と、補正された音響モデルのガウス分布の分散とを入力とし、単語列を出力する認識過程と、
    を含むことを特徴とする音声認識方法。
  9. 請求項1から3のいずれかに記載された音声パラメータ学習装置としてコンピュータを機能させるためのプログラム。
  10. 請求項に記載された音声認識装置としてコンピュータを機能させるためのプログラム。
  11. 請求項又は10に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2007321201A 2007-12-12 2007-12-12 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 Expired - Fee Related JP4960845B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007321201A JP4960845B2 (ja) 2007-12-12 2007-12-12 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007321201A JP4960845B2 (ja) 2007-12-12 2007-12-12 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体

Publications (2)

Publication Number Publication Date
JP2009145499A JP2009145499A (ja) 2009-07-02
JP4960845B2 true JP4960845B2 (ja) 2012-06-27

Family

ID=40916185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007321201A Expired - Fee Related JP4960845B2 (ja) 2007-12-12 2007-12-12 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体

Country Status (1)

Country Link
JP (1) JP4960845B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5694976B2 (ja) * 2012-02-27 2015-04-01 日本電信電話株式会社 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム
JPWO2017037830A1 (ja) * 2015-08-31 2017-11-24 三菱電機株式会社 音声認識装置および音声認識処理方法
JP6725186B2 (ja) * 2018-02-20 2020-07-15 三菱電機株式会社 学習装置、音声区間検出装置および音声区間検出方法
JP6998289B2 (ja) * 2018-11-19 2022-01-18 ヤフー株式会社 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム
CN115662409B (zh) * 2022-10-27 2023-05-05 亿铸科技(杭州)有限责任公司 一种语音识别方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3250604B2 (ja) * 1996-09-20 2002-01-28 日本電信電話株式会社 音声認識方法および装置
JP2006171020A (ja) * 2004-12-10 2006-06-29 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、音声特徴学習方法、それらの方法を用いた装置、プログラムおよびプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2009145499A (ja) 2009-07-02

Similar Documents

Publication Publication Date Title
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
US20080208577A1 (en) Multi-stage speech recognition apparatus and method
US20120130716A1 (en) Speech recognition method for robot
US7552049B2 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
US7505950B2 (en) Soft alignment based on a probability of time alignment
JPH09160584A (ja) 音声適応化装置および音声認識装置
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
WO2010035892A1 (en) Speech recognition method
US20100076759A1 (en) Apparatus and method for recognizing a speech
JP4960845B2 (ja) 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP2006349723A (ja) 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JPH0486899A (ja) 標準パターン適応化方式
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP5749186B2 (ja) 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム
JP2005321660A (ja) 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体
Munteanu et al. Robust Romanian language automatic speech recognizer based on multistyle training
Matassoni et al. Optimizing DNN Adaptation for Recognition of Enhanced Speech.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100114

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120323

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees