JP2010054588A - 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 - Google Patents

音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 Download PDF

Info

Publication number
JP2010054588A
JP2010054588A JP2008216640A JP2008216640A JP2010054588A JP 2010054588 A JP2010054588 A JP 2010054588A JP 2008216640 A JP2008216640 A JP 2008216640A JP 2008216640 A JP2008216640 A JP 2008216640A JP 2010054588 A JP2010054588 A JP 2010054588A
Authority
JP
Japan
Prior art keywords
acoustic model
parameter
posterior probability
distribution
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008216640A
Other languages
English (en)
Other versions
JP4881357B2 (ja
Inventor
Shinji Watabe
晋治 渡部
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008216640A priority Critical patent/JP4881357B2/ja
Publication of JP2010054588A publication Critical patent/JP2010054588A/ja
Application granted granted Critical
Publication of JP4881357B2 publication Critical patent/JP4881357B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】演算量を少なく、音響モデルを作成する。
【解決手段】今回の適応用音声データの特徴量系列を抽出し、音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ、共分散行列パラメータに対するスケーリング因子、初期の共分散行列で表されることに基づき、前回のガウス分布の平均ベクトルパラメータの事後確率分布、今回まで累積された特徴量系列の一部を用い、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ及び、スケーリング因子を計算することで、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布を求め、今回の音響モデルパラメータの事後確率分布を新たな音響モデルパラメータに変換して更新する。
【選択図】図3

Description

この発明は、音声認識時に使用する音響モデルを逐次適応法により作成する音響モデル作成装置、および、その装置で作成された音響モデルを用いて音声認識を行う音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体に関する。
[音声認識]
従来の音声認識装置の機能構成例を図1に示し、従来の音声認識装置の処理の主な流れを図2に示す。音声認識装置2は主に、特徴抽出部4と単語列探索部6と音響モデル記憶部8と言語モデル記憶部10とで構成されている。
まず、音響モデル記憶部8中の音響モデルの読み込みを行う(ステップS2)。なお、場合によっては、音響モデルの他に、単語モデル、コンテクスト依存音素モデル等の読み込みを行う。また、言語モデル記憶部10の読み込みを行う(ステップS4)。入力された認識用音声データは音声認識装置2に読み込まれ(ステップS6)、認識用音声データは特徴抽出部4に入力され、認識用音声データはフレーム(一定時間区間)ごとにMFCC(メルフィルタバンクケプストラム係数)ベクトルなどの音響的特徴量系列(以下、「特徴量系列」という。)に変換される(ステップS8)。変換された特徴量系列は図に示していないが、一旦、特徴量記憶部に記憶される。記憶された特徴量系列は、読み出されて、単語列探索部6に入力される。
単語列探索部6では、音響モデル記憶部8の音響モデルを用いて認識用音声データの特徴量系列に対しスコアを算出し、これに言語モデル記憶部10の言語モデル等に対するスコアを参照して単語列探索を行う(ステップS10)。また、場合によっては、音素列探索や孤立単語探索を行う。最終的に認識結果を単語列として出力し(ステップS12)、場合によっては、音素列、孤立単語のみを出力する。
[音響モデル作成]
次に、音響モデルの作成方法について説明する。音響モデルは、音声の音響的特徴をモデル化したものであり、認識用音声データと音響モデルを参照することにより、音声データを音素や単語といったシンボルに変換する。そのため、音響モデルの作成は、音声認識装置の性能を大きく左右する。通常、音声認識用音響モデルでは、各音素をLeft to rightの隠れマルコフモデル(HMM)で、HMM状態の出力確率分布を混合ガウス分布モデル(GMM)で表現する。そのため、実際に音響モデルとして記憶部に記憶されているのは、音素などの各シンボルにおける、HMMの状態遷移確率a,GMMの混合重み因子w、及び音響モデル中のガウス分布の平均ベクトルパラメータμ、及び音響モデル中のガウス分布の共分散行列パラメータΣとなる。これらを音響モデルパラメータと呼びその集合をθとする。つまり、θ={a,w,μ,Σ}とする。音響モデルパラメータθの値を正確に求めるのが音響モデルの作成過程となり、この過程を音響モデル作成方法と呼ぶ。
近年、音響モデルは確率統計的手法により大量の音声データとその教師ラベルの情報から、音響モデルパラメータθを学習することにより作成される。通常学習データに対しては、その何れの部分が何れの音素であるかを示す教師ラベル情報が与えられている。教師ラベル情報が与えられていない場合は、実際人が聞いて教師ラベル情報を付けたり、また音声認識装置を用いることにより教師ラベル情報を付与する。以降では学習用音声データには教師ラベル情報が前記のような方法で付与されているとして説明を進める。
従来の音響モデル作成装置の機能構成例を図3に示し、従来の音響モデル作成装置の処理の主な流れを図4に示す。図3及び図4において、教師ラベル情報の付与については省略する。
音響モデル作成装置11は、特徴抽出部4、特徴量記憶部5、音響モデルパラメータ学習部12、とで構成されている。学習用音声データが音響モデル作成装置11により読み込まれる(ステップS22)。読み込まれた学習用音声データは、特徴抽出部4で特徴量系列に変換される(ステップS24)。変換された特徴量系列は特徴量記憶部5に記憶される。記憶された特徴量系列は読み出されて、音響モデルパラメータ学習部12に入力される。教師ラベルが存在していなければ(ステップS26)、音声認識装置、若しくは人手によって教師ラベル情報が与えられる(ステップS28)
次に、音響モデルパラメータ学習部12による音響モデルパラメータの学習について説明する。教師ラベル情報により得られる学習データ中の各音素に対応するデータから、音響モデルパラメータθ(HMMの状態遷移確率a,GMMの混合重み因子w、及びGMMの平均ベクトルパラメータμ及び共分散行列パラメータΣ)を推定することを音響モデルパラメータの学習と呼ぶ。パラメータを学習する手法としては最尤学習法がある。また、音響モデルパラメータの学習には他にも、ベイズ学習、識別学習、ニューラルネットワーク等がある。
音響モデルパラメータ学習部12は、教師ラベル記憶部14に予め用意された音声データに対応する教師ラベル情報を用いて、音響モデルパラメータの学習を行う(ステップS30)。音響モデル作成装置11で作成された音響モデルが出力される(ステップS32)。また、ステップS26において、教師ラベルが存在していれば、直接ステップS30に進む。
音響モデルパラメータは数百万の自由度を持つため、これらを学習するためには数百時間に及ぶ大量の学習用音声データが必要となる。しかし、事前に話者、雑音、発話スタイルといった全ての音響的変動要因を含む音声データを数百万のパラメータを十分に学習するほど、大量に収集するのは不可能である。そこで、少量の学習用音声データから音響モデルパラメータを推定する手法として、適応学習が非常に重要な技術となる。
[音響モデルパラメータの変換にもとづく適応学習]
音響モデルパラメータに対しての適応学習は、パラメータあたりの学習データ量が少ない場合に初期モデルを先験知識として用い、少ないデータで学習を行う手法である。通常の学習方法との違いは学習データのみならず初期モデルを用いて音響モデルを構築する点である。このように初期モデルと学習データから新たに音響モデルを構築する学習方法を適応学習と呼ぶ。
適応学習では、一般的に初期音響モデルパラメータθと新たに作られる音響モデルパラメータθの変換に注目する。例えば、N個のD次元特徴ベクトルで表現される特徴量系列O={o,o,…,o|o∈R}が与えられたとき、音響モデルパラメータθの推定を考えるのではなく、その変換パラメータを考えるのが変換パラメータ推定法である。つまり初期モデルのパラメータθと特徴量系列Oから適応後の音響モデルパラメータθをθ=f(θ,O)として求めるときの、f(・)を求め、それにより新たに音響モデルパラメータθを得る手法である。
f(・)がパラメトリックに表現される(関係が数式で表現される。)とすれば、適応学習はf(・)のパラメータである変換パラメータW(後に具体的に説明する)の推定を初期モデルパラメータθと適応用音声データOから求めることになる。これを音響モデルパラメータの変換にもとづく適応学習と呼ぶ。
[線形回帰法]
適応学習の中では、音響モデル中のガウス分布の平均ベクトルパラメータμに対する線形回帰行列を推定する手法が広く用いられている(非特許文献1、2参照)。線形回帰行列を用いた場合の音響モデル作成装置の機能構成例を図5に示し、この場合の音響モデル作成装置の主な処理の流れを図6に示す。この手法を用いた音響モデル作成装置21は、特徴抽出部4、特徴量記憶部5、パラメータ適応部22、とで構成されており、パラメータ適応部22は変換パラメータ推定部24、変換パラメータ記憶部26、モデルパラメータ変換部28、とで構成されている。
まず、初期音響モデルパラメータθが初期音響モデルパラメータ記憶部30に読み込まれる(ステップS40)。そして、適応用音声データ20が読み込まれ(ステップS42)、特徴抽出部4に入力され、特徴量系列Oに変換される(ステップS44)。変換された特徴量系列Oは一旦、特徴量記憶部5に記憶される。記憶された特徴量系列Oは変換パラメータ推定部24に入力される。以下に変換パラメータ推定部24、モデルパラメータ変換部28の処理を説明する。
初期音響モデルパラメータθ中のあるガウス分布の平均ベクトルパラメータμは以下の式(1)により線形変換される。
μ=Aμ+ν (1)
ここで、AはD×Dの行列であり、平均ベクトルパラメータμの回転、伸縮をさせる行列である。νはD次元ベクトルであり平均ベクトルパラメータμの平行移動をさせるベクトルを表す。このとき、変換パラメータW=(ν,A)である。変換パラメータWは特徴量系列Oから期待値最大化(Expectation Maximization)アルゴリズム(以下EMアルゴリズムという)やその一種であるMLLR(Maximum Likelihood Linear Regression)アルゴリズムを用いて繰り返し計算により効率よく求められる(ステップS46)。推定すべき変換パラメータWのパラメータ数はD+D=D(D+1)となる。何故なら、行列Aの要素数はDであり、ベクトルνの要素数はDであるからである。平均ベクトルのパラメータ数Dよりもパラメータ数が多いが、複数のガウス分布で同一の変換パラメータを共有することにより、推定すべきパラメータ数を減らすことが可能である。推定された変換パラメータWは一旦変換パラメータ記憶部26に記憶される。
記憶された変換パラメータWはモデルパラメータ変換部28に入力される。モデルパラメータ変換部28で、得られた変換パラメータWと(初期音響モデルパラメータθ中の)初期平均ベクトルパラメータμをもとに前記式(1)から新たな平均ベクトルパラメータμを得る(ステップS48)。平均ベクトルパラメータμが音響モデルパラメータμとして出力される(ステップS50)。
[音響モデルパラメータ変換にもとづく逐次適応]
以上までは、一まとまりの特徴量系列O={o,o,…,o,…,o}(ただし、Nはフレーム数である)に対しての適応学習を考えた。しかし、音声は雑音などの外的要因や発声のなまり等の内的要因によって、時々刻々その音響的特徴を大きく変化させている。このような変化に追随していくためには、時系列的に与えられるまとまった量の音声データに対して逐次モデルを適応させる逐次適応学習が有効である。このとき、特徴量系列を1まとまりとして捉えず、複数のまとまりが時系列的に与えられる場合の適応を考える。つまり以下の式(2)(3)のように考える。
Figure 2010054588
ただし、tは前回の時刻、t+1は今回の時刻を示し、式(3)中のTはtの総数を示し、θt+1およびθは今回および前回の音響モデルパラメータである。このとき、あるまとまりt+1での音響モデルパラメータθt+1は、その前のまとまりtにおいて得られた音響モデルパラメータθ及び特徴量系列のまとまりOt+1から求められる。つまり、以下の式(4)に示す漸化式で表現することにより、時々刻々音響モデルを求めることができる。これをパラメータ変換に基づく逐次適応法と呼ぶ。
θt+1=f(θ,Ot+1) (4)
図7に、逐次適応法を用いた場合の音響モデルパラメータが変換される手順を示す。まず、特徴量系列Oと初期音響モデルパラメータθを用いてモデルパラメータ変換部28で音響モデルパラメータθが求められる。そして、今度は、音響モデルパラメータθと次の特徴量系列Oと用いて、音響モデルパラメータθが求められる。このようにして、前回の音響モデルパラメータθと今回の特徴量系列Ot+1とを用いて、今回の音響モデルパラメータθt+1が求められる。
[線形回帰法]
このとき、変換パラメータ推定法の逐次適応への適用を考察する(非特許文献2参照)。先ほどは、変換パラメータWは全ての特徴量系列から推定されたとしたが、逐次適応においては各まとまりごと(tごと)にWを推定する。それをW={ν,A}とすれば、パラメータ変換に基づく逐次適応法における平均パラメータの更新式(前記式(4)に示す)は前記式(1)を基に、以下の式(5)のように漸化式で表現することができる。
μt+1=At+1μ+νt+1 (5)
これによって、パラメータ変換に基づく逐次適応が実現される。以下の説明では、At+1は「今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数行列」といい、νt+1は「今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトル」という。
以上の逐次適応法は得られた音響モデルパラメータθ、...、θt+1にどの程度推定による誤差が含まれるかが考慮されていない。そのため、学習に悪影響を及ぼすような音声データが存在した場合、学習が失敗した場合等は、その影響がそのまま認識性能に出てしまい、頑健性が低いものとなってしまう。
[分布変換にもとづく逐次適応法]
次に、本発明の基本概念となる「分布変換にもとづく逐次適応法」について説明する。本手法では、音響モデルパラメータθそのものの推定を考えるのではなく、音響モデルパラメータの分布p(θ)を考える(特許文献1、非特許文献3、4参照)。
これにより、推定による誤差を例えばその分布の分散から考慮することができる。さらに音響モデルパラメータの分布として累積された特徴量系列O={O,O,…,O}が与えられたときの事後確率分布を考える。つまり、p(θ)ではなく、p(θ│O)を推定対象とする。ここで、Ot+1およびOは今回および前回までに累積された特徴量系列であることを示す。
ここで、p(α│β)はある事象βが起こるという条件下で、別の事象αが起こる確率である事後確率(条件付き確率)である。つまり、p(θ│O)は特徴量系列Oが与えられた時の音響モデルパラメータがθである事後確率であることを示す。これにより、累積された特徴量系列Oの情報を音響モデルパラメータに加味することができるため、頑健性を確保することができる。従って、以下の式(8)に示す漸化式
p(θt+1|Ot+1)=F[p(θ|O)] (8)
を用いて時間発展、つまり、音声の音響的特徴の変化として対応した漸化式を記述することにより、前記式(4)で注目した音響モデルパラメータθではなく、音響モデルパラメータの事後確率分布p(θ|O)に基づく逐次適応を実現することができる。ここで、F[・]はp(θ|O)を引数として持つ汎関数である。また、F[・]は今回まで累積された特徴量系列Ot+1の一部の特徴量系列に基づいて表現されるものである。以下の説明では、F[・]は、今回まで累積された特徴量系列Ot+1に基づいて、表現されるものとする。このとき、F[・]をパラメトリックに表現し、その変換パラメータWを例えば特徴量Oから適切に推定することにより前記式(8)で表現される逐次適応を実現できる。ただし、変換パラメータの推定は、特徴量Oのみではなく、特徴量系列O,O,…,Oのうちの一部を用いてもよく、特徴量系列Oを用いてもよい。
前記式(4)と前記式(8)を見比べてわかることは、前記式(8)はパラメータを逐次変換させるのではなく、その事後確率分布を逐次変換させていることである。また、時刻tでの事後確率分布p(θ│O)のパラメータをωとすると、p(θ│O)の逐次更新はパラメータωの逐次更新で表現できる。従って、時々刻々、事後確率分布パラメータωを求めることにより逐次適応が実現できる。従って、分布変換にもとづく逐次適応法では、事後確率分布p(θ│O)ではなく、事後確率分布パラメータωを更新していく。
図8に当該逐次的応法を適用した場合の機能構成例を示し、図9に事後確率分布のパラメータωを逐次適応させる順序を示し、図10に主な処理の流れを示す。図8に示す音響モデル作成装置48は、特徴抽出部4、特徴量記憶部5、モデル適応化部50、とで構成され、モデル適応化部50は逐次学習部52、事後確率分布記憶部54、モデル更新部56、とで構成されている。
まず、前回の事後確率分布のパラメータωがモデル適応化部50で読み込まれる(ステップS60)。次に、適応用音声データが読み込まれ(ステップS62)、適応用音声データが特徴抽出部4に入力され、特徴量系列Ot+1に変換される(ステップS64)。変換された特徴量系列Ot+1は一旦、特徴量記憶部5に記憶され逐次学習部52に入力される。
逐次学習部52では、前記式(8)のように、前回までの累積された特徴量系列が加味された前回求めた音響モデルパラメータの事後確率分布p(θ│O)と、前記今回抽出した特徴量系列Ot+1とに基づき、今回の特徴量系列に適応化させた今回の音響モデルパラメータの事後確率分布p(θt+1│Ot+1)を求める(ステップS68)。以下に、逐次学習部52による更に具体的な事後確率分布p(θt+1|Ot+1)の求め方を説明する。
p(θ|O)からp(θt+1|Ot+1)への時間発展を記述する前記式(8)中の関数F[・]には任意の形を与えることが可能であり様々な変換を考えることができる。この実施形態では、具体的な関数系のひとつとして、確率の積の公式とベイズの定理から理論的に近似無く導出される漸化式を紹介する。はじめにp(θt+1|Ot+1)はベイズの定理から次のように表現される。
Figure 2010054588
ここで式(9)の右辺にあるp(θt+1|O)はp(θ|O)を用いると次のように表現される。
p(θt+1|O)=∫p(θt+1|θ,O)p(θ|O)dθ (10)
従って式(10)を式(9)に代入することにより次式(11)のような漸化式を導出することができる。
Figure 2010054588
式(11)の右辺には前回(時刻t)での事後確率分布p(θ│O)が含まれており、p(θ│O)から現在(次の時刻t+1)での事後確率p(θt+1│Ot+1)を求める式となっている。従って、式(11)を音響モデルパラメータの事後確率分布の漸化式と呼ぶ。この漸化式を用いることにより、前回まで累積された、特徴量系列Ot+1の情報が加味された音響モデルパラメータの事後確率分布p(θt+1|Ot+1)の逐次推定を逐次学習部52で行うことが出来る。また式(11)の積分計算はモンテカルロ法(Monte Carlo method)などの数値計算で解くことが出来る。またここで時間発展を最初の一ステップに限る。つまりt→0,t+1→1とすれば以下の式(12)のようになる。
Figure 2010054588
式(12)は、逐次的ではなく、与えられた適応用データOからp(θ│O
)を推定する通常の適応を示している。つまり、本発明は逐次適応のみならず通常の適応においてもその効果を与えることができる。
前記式(11)による逐次適応を実現するためには、右辺は次の4つの確率分布であるp(Ot+1|O)、p(θ|O)、p(Ot+1|θt+1,O)、p(θt+1|θ,O)に具体系を与える必要がある。ここでp(Ot+1|O)は求めたい分布であるp(θt+1|Ot+1)の引数θt+1に依存しないため、規格化定数として扱うことができるため、具体形を与えなくても良い。残りの3つであるp(θ|O)、p(Ot+1|θt+1,O)、p(θt+1|θ,O)について考察を行う。
p(θ|O)は前述した音響モデルパラメータの事後確率分布であり、適切に初期分布を設定することにより逐次求めることが可能である。p(Ot+1|θt+1,O)はOt+1の出力分布であり、HMMやGMMといった音響モデルの設定によって与えられるものである。最後にp(θt+1|θ,O)は音響モデルパラメータθの確率的ダイナミクスである。従って、前記式(11)の漸化式は、初期分布、出力分布及び確率的ダイナミクスによって構成されている。
説明を図8に戻すと、逐次学習部52により求められた今回の事後確率分布p(θt+1|Ot+1)は一旦、事後確率分布記憶部54に記憶される。そして今回の事後確率分布p(θt+1|Ot+1)はモデル更新部56に入力される。
モデル更新部56で、音響モデル記憶部58内の音響モデルとしての前回の事後確率分布p(θ|O)が、今回の音響モデルパラメータの事後確率分布p(θt+1|Ot+1)に新たな音響モデルとして更新する(ステップS70)。
また、図9について説明すると、求められた前回の事後確率分布p(θ|O)は一旦、音響モデル(分布モデル)記憶部58に一旦、記憶される。逐次学習部52で、前回の事後確率分布p(θ|O)と、今回の特徴量系列Ot+1とを用いて、前記式(11)から、今回の事後確率分布p(θt+1|Ot+1)を求める。このようにして、音響モデルパラメータの事後確率分布を逐次的に更新する。
[マルコフ過程の導入]
次に前記式(11)の演算処理をマルコフ過程を仮定することで簡単にする手法を説明する。p(Ot+1|θt+1,O)及びp(θt+1|θ,O)は累積された特徴量系列に直接依存する。これらを全ての累積特徴量系列から推定しようとした場合、時が経つにつれ累積データは多くなるため、その推定は大変計算量が多くなり現実的でない。そこで、マルコフ過程を仮定すると、p(Ot+1|θt+1,O)とp(θt+1|θ,O)はそれぞれ式(13)のように近似される。
p(Ot+1|θt+1,O)≒p(Ot+1|θt+1),
p(θt+1|θ,O) ≒p(θt+1|θ) (13)
この近似により、逐次学習部52は前回の音響モデルパラメータの事後確率分布p(θ│O)と、今回の出力分布p(Ot+1│θt+1)と、今回の確率的ダイナミクスp(θt+1│θ)と、を用いて今回の音響モデルパラメータの事後確率分布p(θt+1│Ot+1)を求める。具体的には以下の式(14)のように近似される。
p(θt+1|Ot+1)∝p(Ot+1|θt+1)∫p(θt+1|θ)p(θ|O)dθ (14)
ここで、A∝BはAとBは比例しているということを表す。前記式(14)によって、シンプルな出力分布及び確率的ダイナミクスを設定することができる。図8中の逐次学習部52は、この式(14)を計算することになる。
[ガウス分布の平均ベクトルの考察]
以上の議論では、HMMの状態遷移確率a,GMMの混合重み因子w、及びガウス分布の平均ベクトルパラメータμ及び共分散行列パラメータΣといった全ての音響モデルパラメータθの事後確率分布p(θ|O)についての処理を行った。一般に、音響モデルにおいて最も性能を左右するパラメータはガウス分布の平均ベクトルパラメータμであり、またそれ以外のパラメータの事後確率分布を推定対象とした場合、分布変換関数Fの推定すべきパラメータ数が多くなるため、少量データ適応において効果が十分でなくなる。そのため、以降ではガウス分布の平均ベクトルパラメータμのみに焦点を当て、つまり、音響モデルパラメータθに代えて、ガウス分布の平均ベクトルパラメータμを用いて、図8の逐次学習部52では演算する。演算された事後確率分布p(μ|O)の時間発展について考察する。つまり、前記式(14)においてガウス分布の平均ベクトルパラメータμのみを考えるため時間発展は次式(15)を逐次学習部52で演算する。
p(μt+1|Ot+1)∝p(Ot+1|μt+1)∫p(μt+1|μ)p(μ|O)dμ (15)
なお、式(15)は音響モデル中の各ガウス分布の平均ベクトルパラメータに独立に与えられる。その際の各ガウス分布のインデックスは文中では省略する。
[線形ダイナミクス]
次に、前記式(15)の解析解を導出することを考える。これを用いて、逐次学習を行う。式(15)にはさまざまな解析解が存在するが、最も単純な解析解として確率的ダイナミクスが線形で表現される場合を考える。つまり、確率的ダイナミクスとして、以下の式(16)を仮定することが出来る。
μt+1=At+1μ+νt+1+εt+1 (16)
ここでεt+1は平均0、共分散行列Uのガウシアンノイズである。式(16)は、前記式(5)における線形変換が確率的に揺らいでいるといえる。このとき、確率ダイナミクスの分布具体系は、以下の式(17)として与えられる。
p(μt+1|μ)=N(μt+1|At+1μ+νt+1,U) (17)
ここで式(17)のN(x|m、S)は、xを引き数とする平均パラメータm、共分散行列パラメータSのガウス分布である。さらに通常のHMM,GMMで表現される音響モデルに対して一まとまりの特徴量系列O={oNt+1,…,oNt+Nt+1}が出力される出力分布p(O│μ)は以下の式(18)で表すことができる。
Figure 2010054588
ここで、ζは、対象のガウス分布に割り当てられたOの事後占有確率値である。また、状態遷移確率aおよび混合重み因子wはp(μ|O)の推定に関係ないため無視した。またHMMやGMMの潜在変数は無視したが、これらはEMアルゴリズム(期待値最大化アルゴリズム)を用いることによって対処可能である。実際、式(18)はEMアルゴリズムにおける補助関数の形式で表現されている。
最後に音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布p(μ│O)がガウス分布で表現されると仮定し、事後確率分布p(μ│O)の平均ベクトルパラメータをμ^とし、事後確率分布p(μ│O)の共分散行列パラメータがQ^で表現されるとすると関数形は以下の式(19)で表すことができる。
p(μ│O)=N(μ│μ^、Q^) (19)
従って、式(17)、(18)、及び(19)を式(15)に代入することにより以下の式(20)で示される解析解を導出することができる。
p(μt+1│Ot+1)=N(μt+1│μ^t+1、Q^t+1) (20)
ここで、
Q^t+1=((U+At+1Q^t+1’)−1+ζt+1Σ―1−1
(21)
K^t+1=Q^t+1ζt+1Σ―1 (22)
μ^t+1=At+1μ^+νt+1
+K^t+1(Mt+1/ζt+1−At+1μ^−νt+1) (23)
ただし、μ^t+1は今回の事後確率分布p(μt+1│Ot+1)をガウス分布で表現した際の平均ベクトルパラメータであり、Q^t+1は今回の事後確率分布p(μt+1│Ot+1)をガウス分布で表現した際の共分散行列パラメータであり、K^t+1はカルマンゲインであり、At+1、νt+1、及びUはそれぞれ音響モデルパラメータ中の平均の前記確率的ダイナミクスを線形表現した時の係数行列、係数ベクトル、及びガウシアンノイズの共分散行列であり、Σは初期音響モデルパラメータ中の共分散行列であり、At+1’は行列At+1の転置を表す。ζt+1は、今回の事後占有確率値の和であり、Mt+1は今回の各時点におけるζと特徴量との積和であり、ζ,Mはガウス分布の平均ベクトルパラメータの十分統計量であり以下の式(24)のように定義される。
Figure 2010054588
ζ,MはForward-backwardアルゴリズムやViterbiアルゴリズム、kmeans法などのアライメント手法によって効率よく求めることができる。式(21)〜(23)の更新を音響モデル中の全てのガウス分布に対して行うことにより、全ての事後確率分布を更新することができる。
このようにして、今回の事後確率分布p(μt+1|Ot+1)の分布パラメータωt+1はQ^t+1,μ^t+1となり(図9の音響モデルパラメータ記憶部58の括弧書き参照)、式(21)(22)(23)から求めることができる。なお、式(22)におけるK^t+1は数式の表現のしやすさのために導入したものである。実際の計算では、式(22)と(23)を同時に行っても良い。その場合、K^t+1は求める必要がない。
つまり、音響モデルパラメータの事後確率分布p(μ|O)の漸化式はそのパラメータ(Q^,μ^)の漸化式(21)(22)(23)によって求めることができる。これは線形動的システムにおけるカルマンフィルタの解と類似している。しかし、カルマンフィルタの解はo→on+1のように各音声分析フレームごとの更新となっている。一方、本発明ではO→Ot+1のように1まとまりのフレームごとの更新となっているのが違いとなっている。そのため、パラメータQ^,μ^は、1フレームの特徴量oではなく、その統計量であらわされている。従って、これを巨視的な線形動的システムと呼ぶ。
Q^,μ^を用いた場合の逐次学習部52の具体的構成例を図11に示す。逐次学習部52は、Q^更新部520、K^更新部522、μ^更新部524、事後確率計算部526とで構成されている。
Q^更新部520では前記式(21)が計算され、K^更新部522では前記式(22)が計算され、μ^更新部524では前記式(23)が計算され、事後確率計算部526では前記式(20)が計算される。
従って、Q^,μ^を求めるためには、線形変換パラメータWt+1={νt+1,At+1}、システムノイズUt+1、初期パラメータQ^、及びμ^の4つを設定する必要がある。ここで、Q^は初期音響モデルの共分散行列パラメータから与えられるものであり、μ^は初期音響モデルの平均ベクトルパラメータから与えられるものである。
このうち線形変換パラメータW={νt+1,At+1}は、今回まで累積された特徴量系列Oのうち少なくとも1つの特徴量系列を用いて、推定される。よく知られた手法の一例としては上述したEMアルゴリズムやMLLRアルゴリズムを用いて繰り返し計算により効率よく求められる。また、複数のガウス分布で同一の変換パラメータを共有することにより、推定すべきパラメータ数を減らすことが可能である。
システムノイズUも線形変換パラメータWと同様に学習によって求めることができる。または、行列成分すべてを特徴量系列やその他のデータから先験的に与えることもできる。最も単純な方法は、システムノイズUを(u−1Σとしておき、システムノイズの共分散行列が出力分布の共分散行列と比例関係にあるとするとして、uを予め与えられるパラメータとする。つまり、1つだけパラメータが導入される。システムノイズUと線形変換パラメータWが、前記式(8)の分布変換関数Fにおける変換パラメータとなる。
このとき更新式は、以下の式(25)(26)(27)で表され、Q^更新部520では前記式(25)が計算され、K^更新部522では前記式(26)が計算され、μ^更新部524では前記式(27)が計算される。
Q^t+1=(((u−1Σ+At+1Q^t+1’)−1+ζt+1Σ―1−1 (25)
K^t+1=Q^t+1ζt+1Σ―1 (26)
μ^t+1=At+1μ^+νt+1+K^t+1(Mt+1/ζt+1−At+1μ^−νt+1) (27)
以上によってパラメータuによって制御される分布変換にもとづく逐次適応法を実現できる。
[平行移動適応]
前記線形ダイナミクスの式(16)の平均ベクトルμの平行移動νt+1にだけ注目することにより、推定すべきパラメータを少なくしてより少量データでの適応を実現できる。このとき、前記式(25)(26)(27)における行列At+1を単位行列Iとする、つまり、At+1=Iとすると、Q^、K^、μ^は以下の式(28)(29)(30)で計算される。
Q^t+1=(((u−1Σ+Q^’)−1+ζt+1Σ―1−1(28)
K^t+1=Q^t+1ζt+1Σ―1 (29)
μ^t+1=μ^+νt+1+Q^t+1ζt+1Σ―1(Mt+1/ζt+1−μ^−νt+1) (30)
この場合、Q^更新部520では前記式(28)が計算され、K^更新部522では前記式(29)が計算され、μ^更新部524では前記式(30)が計算される。
C.J.Leggetter and P.C.Woodland,Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Computer Speech and Language,Vol.9,pp.171-185,1995. C.J.Leggetter and P.C.Woodland,Maximum.Flexible speaker using maximum likehood linear regression In Proc ARPA Spoken Language Technology Work-shop,pp.104-109,1995. 渡部晋治、中村篤、確率分布の巨視的な時間発展システムに基づく逐次モデル適応.秋季音響学会講演論文集、2−2−10,pp.71−72,2006. 渡部晋治、中村篤、確率分布の巨視的な時間発展系に基づくモデル適応との従来型適応との関係の考察.秋季音響学会講演論文集2−3−12、2007. 特開2008−64849号
オンライン逐次適応タスクでは、1秒程度の非常に短い時間でのモデル更新が、実時間処理のためには必要である。しかし、分布変換に基づく適応法の更新は式式(28)〜(30)から分かるとおり、行列Q^やΣの演算で表現されており、この行列の積、和および逆行列演算を全てのガウス分布について行う必要があり、計算コストが非常に高く、実時間処理が困難である。例えば、通常の音響モデルは39次元のガウス分布を数万個含むが、これに対して式(28)〜(30)を実行することは39×39の行列A、Q^やΣ(ただし、Σは通常、対角行列を用いる)の積、和および逆行列をガウス分布数分(数万回)、行う必要があるため、非常に計算に時間がかかる。
また、式(28)〜(30)は逆行列の計算を含むため音声データによっては、計算が不安定になり逆行列が求まらなくなる。
また分布パラメータQ^はモデルの更新に必要なため、それらを音響モデルパラメータ記憶部58に記憶する必要がある。しかし、Q^は非対角成分が0でない全共分散行列(ただし、対称行列)であり、それが音響モデル中のガウス分布数分存在するため、大量のメモリを消費する。例えば、音響モデルは39次元のガウス分布数万個で表現される音響モデルが数メガバイト程度なのに対し、Q^だけで、音響モデルの10倍以上のメモリ(数10メガバイト)を消費する。
このように、分布変換に基づく適応法は計算量が多く、計算が不安定であり、メモリを多く消費する。従って、それらを用いて、1秒程度の非常に短いで逐次更新を行う、オンライン逐次適応タスクの実現をするのは困難であった。
この発明では、従来と比べて、計算量、メモリ量を削減させ、計算の安定性を向上させた音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体を提供する。
この発明の音響モデル作成装置は、特徴抽出部と、逐次学習部と、モデル更新部と、を具備する。特徴抽出部は、今回の適応用音声データの特徴量系列を抽出する。逐次学習部は、音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ、当該事後確率分布の共分散行列パラメータに対するスケーリング因子、初期音響モデルパラメータ中の共分散行列で表されることに基づき、前回までの累積された特徴量系列が加味された、前回求めた音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布及び今回まで累積された特徴量系列の一部を用いて、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ及び当該事後確率分布の共分散行列パラメータのスケーリング因子を計算することで、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布を求める。モデル更新部は、今回の音響モデルパラメータの事後確率分布を新たな音響モデルパラメータに変換して更新する。
この発明では、音響モデル中のあるガウス分布の平均ベクトルパラメータμの事後確率分布p(μ│O)に対して、その共分散行列パラメータQ^を、対象とする音響モデルのガウス分布の共分散行列Σと、本発明で新たに導入するスカラー変数であるスケーリング因子r^の逆数(r^−1を用いて、以下の式のように掛け合わせたもので表現する。
Q^=(r^−1Σ (31)
これにより、式(28)〜(30)はスカラー演算に直すことができるため、計算量の削減および安定性の確保を実現することができる。また、記憶すべき更新パラメータが対称行列Q^からr^となるため音響モデル記憶部中のメモリ容量を削減できる。
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。
まず、改めて、記号について定義する。
μ 前回の音響モデル中のガウス分布の平均ベクトルパラメータ
Σ 前回の音響モデル中のガウス分布の共分散行列パラメータ
p(μ│O) 前回の音響モデル中のガウス分布の平均ベクトルパラメータμの事後分布確率
μ^ 音響モデル中のガウス分布の平均ベクトルパラメータμの事後確率分布p(μ│O)をガウス分布で表現した際の平均ベクトルパラメータ、もしくは、p(μ│O)の平均ベクトルパラメータ
Q^ 音響モデル中のガウス分布の平均ベクトルパラメータμの事後確率分布p(μ│O)をガウス分布で表現した際の共分散行列パラメータ、もしくは、p(μ│O)の共分散行列パラメータ
r^ 音響モデル中のガウス分布の平均ベクトルパラメータμの事後確率分布p(μ│O)をガウス分布で表現した際の共分散行列パラメータQ^に対するスケーリング因子、もしくは、p(μ│O)の共分散行列パラメータQ^に対するスケーリング因子
実施例1の音響モデル作成装置の機能構成例を図12に示し、処理の流れを図10を用いて説明し、図13に逐次適応法を用いた場合の音響モデルパラメータが変換される手順を示し、図14に逐次学習部の機能構成例を示す。図12に示すように、音響モデル作成装置148は、特徴抽出部4、特徴量記憶部5、モデル適応化部150と、で構成され、モデル適応化部150は逐次学習部152、事後確率記憶部154、モデル更新部156とで構成される。また、逐次学習部152は、r^更新部1522、μ^更新部1524、事後確率計算部1526、とを有する。
まず、前回の事後確率分布の平均ベクトルパラメータμ^、スケーリング因子r^(r^については後述する)がモデル適応化部150で読み込まれる(ステップS60)。そして、適応用音声データ20が読み込まれ(ステップS62)、適応用音声データが特徴抽出部4に入力され、特徴量系列Ot+1に変換される(ステップS64)。変換された特徴量系列Ot+1は一旦、特徴量記憶部5に記憶され、逐次学習部152に入力される。
そして、逐次学習部152の処理としてまず、(i)音響モデル中のガウス分布の平均ベクトルパラメータμの事後確率分布p(μ│O)が、当該事後確率分布p(μ│O)の平均ベクトルパラメータμ^、事後確率分布p(μ│O)の共分散行列パラメータQ^に対するスケーリング因子r^、初期音響モデルパラメータ中の共分散行列Σ、で表現されるガウス分布で表されることに基づく。そして、(ii)前回までの累積された特徴量系列Oが加味された、前回求めた音響モデル中のガウス分布の平均ベクトルパラメータμの事後確率分布p(μ│O)及び(iii)今回まで累積された特徴量系列Oの一部を用いる。(iv)今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、平均ベクトルパラメータμ^t+1及び共分散行列のスケーリング因子r^t+1を計算することで、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布p(μt+1│Ot+1)を求める。
以下、詳細に説明する。また、この実施例では、計算量、安定性、メモリ量、の改善に焦点を当てるため、線形回帰適応ではなく、パラメータ数の少ない平行移動適応(前記[平行移動適応]の段落で説明)に対して議論を進める。以下、前記(i)〜(iv)に分けて説明する。
前記式(28)〜(30)について、式(29)に示すK^t+1を式(30)に代入した式を以下に示す。
Q^t+1=(((u−1Σ+Q^−1+ζt+1Σ―1−1(32)
μ^t+1=μ^+νt+1+Q^t+1ζt+1Σ―1(Mt+1/ζt+1−μ^−νt+1) (33)
そして、分布パラメータ数を削減するために、前記式(31)に示したように、音響モデルのガウス分布の平均ベクトルμに対する事後分布の共分散行列Q^を音響モデルのガウス分布の共分散行列Σと、スケーリング因子r^またはr^の逆数(r^−1を掛け合わせたもので表現する。念のため、式(31)を以下に示す。スケーリング因子r^は実数(スカラー)で表されるパラメータである。
Q^=(r^−1Σ (31)
この式(31)を式(32)に代入するとQ^t+1の更新式はそれぞれ以下のように表現できる。
Q^t+1=(((μ−1Σ+(r^−1Σ)−1+ζt+1Σ−1−1
=(((μ−1+(r^−1−1+ζt+1−1Σ
(34)
そして、式(31)を変形した式Q^t+1=(r^t+1−1Σの右辺と式(34)の右辺とは等しくなるので、以下の式(35)が成り立つ。
r^t+1=((μ−1+(r^−1−1+ζt+1 (35)
つまり、式(32)に示すQ^t+1の更新式を式(35)に示すr^t+1に書き直すことができる。
一方、μ^t+1についての更新式について検討すると、前記式(31)を式(33)に代入すると以下の式のようになる。
Figure 2010054588
ここで、上述のように、μは予め定められた定数であり、r^は前回のスケーリング因子であり、ζt+1は今回の事後占有確率値の和であり、Mt+1は今回の各時点におけるζと特徴量との積和であり、νt+1は今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトルである。また、スケーリング因子r^の逆数(r^−1を用いている理由は、r^をそのまま用いると、式(35)の左辺が(r^t+1−1になってしまうという表現上の問題である。実装上はどちらを用いてもかまわない。また、初期値ζ、M、rについては、任意の実数値が与えられる。また、式(20)のQ^に式(31)を代入することで、以下の式(37)が求められる。
p(μt+1│Ot+1)=N(μt+1│μ^t+1、(r^t+1−1Σ)
(37)
つまり、前記(i)で述べたように、前記式(37)から、音響モデル中のガウス分布の平均ベクトルパラメータμの事後確率分布p(μ│O)が、当該事後確率分布p(μ│O)の平均ベクトルパラメータμ^、当該事後確率分布p(μ│O)の共分散行列パラメータQ^に対するスケーリング因子r^、初期音響モデルパラメータ中の共分散行列Σで表現されるガウス分布で表されることが理解されよう。
また、前記(ii)前回までの累積された特徴量系列Oが加味された、前回求めた音響モデル中のガウス分布の平均ベクトルパラメータμの事後確率分布p(μ│O)を用いることについて説明する。前記式(37)を演算するために前記式(35)(36)を用いるのであるが、式(35)(36)から明らかなように、前回の平均ベクトルパラメータμ^、前回のスケーリング因子r^を用いなければならない。また、式(37)より前回求めた音響モデルパラメータの事後分布確率p(μ│O)は、
p(μ│O)=N(μ│μ^、(r^−1Σ) (37’)
により表される。従って、前回の平均ベクトルパラメータμ^、前回のスケーリング因子r^を用いるということは、事後分布確率p(μ│O)を用いているということになる。
また、(iii)今回まで累積された特徴量系列Oの一部を用いることについて説明する。今回の係数ベクトルνt+1の推定は、上述のように、EMアルゴリズムやMLLRアルゴリズムを用いて、行われる。当該推定は、O=O,O,…,Oのうちの一部を用いる。そして、式(37)により今回の音響モデルパラメータの事後確率分布p(μt+1│Ot+1)を求める。
また、(iv)今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現することについて説明すると、音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布p(μ│O)がガウス分布で表現されると仮定することで、前記式(19)が表されるからである。
図14について説明すると、r^更新部1522が前記式(35)を演算することでr^を更新し、μ^更新部1524が前記式(36)を演算することでμ^を更新する。事後確率計算部1526が前記式(37)を演算することで今回の音響モデルパラメータの事後確率分布p(μt+1│Ot+1)を求める。また、モデル更新部156の記載については、実施例2で説明する。また、変形例を説明すると、前記式(35)は好適な例であり、前記式(35)に近い式であれば、今回のスケーリング因子r^t+1は、前回のスケーリング因子r^、今回の事後占有確率値の和ζt+1とから求めることができる。同様に、前記式(36)は好適な例であり、前記式(36)に近い式であれば、今回の平均ベクトルパラメータμ^t+1は、前回の平均ベクトルパラメータμ^、今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトルνt+1、今回の事後占有確率値の和ζt+1、今回の各時点におけるζと特徴量との積和Mt+1、今回のスケーリング因子r^t+1とから求めることができる。
そして、モデル更新部56は、今回の音響モデルパラメータ中の事後確率分布p(μt+1│Ot+1)を新たな音響モデルパラメータに変換して更新する(ステップS70)。
次に、この実施例の発明の効果を説明する。式(35)、式(36)からも分かるように、分布パラメータの共分散行列Q^は、前記式(31)を用いることにより、r^、Σに置き換えられ、またΣは打ち消され、式中の行列表現が取り除かれていることが分かる。また、本実施例1の更新式(35)(36)と従来の更新式(32)(33)とを見比べると、本実施例1の更新式(35)(36)は行列計算(積、和、逆行列)を必要としないため、計算が高速となり、安定性を確保できる。
また、式(35)(36)を用いることにより、逐次適応において、図9中の音響モデル記憶部58記載のように、分布パラメータの共分散行列Q^と平均ベクトルパラメータμ^を記録するのではなく、図12、図13中の音響モデル記憶部158記載のようにスケーリング因子r^と平均ベクトルμ^を記録することにより、大幅にメモリ量を削減できる。
以上の方法により音響モデルパラメータの事後確率分布p(μ|O)つまり、音響モデルが求まった。この実施例2では、求められた音響モデルを用いて音声認識をする、つまり音響スコアの算出の処理を説明する。図15に、この実施例の音声認識装置の機能構成例を示し、図16に、音声認識の主な処理の流れを示す。
認識用音声データの音響的特徴量と同様な音響的特徴を持つ適応用音声データが実施例1で説明した音響モデル作成装置148に入力される。そして、音響モデル記憶部158内の音響モデルが上述したように、更新される(ステップS80)。認識用音声データがフレームに分割されて認識用音声データxとして、特徴抽出部4に入力され、特徴量系列Oに変換される。この特徴量系列Oは、単語列探索部6に入力される(ステップS82)。
単語列探索部6で特徴量系列Oに対して、音響モデル記憶部8の音響モデルを用いて必要に応じて各ガウス分布の音響スコアを算出する。この音響スコア算出には例えば、以下の式(40)の計算を行う。
∫p(xτ|μ)p(μ|O)dμ (40)
ここでp(xτ|μ)は音響モデルの出力分布である。μ以外のパラメータはここでは省略する。従って、p(μ|O)について検討すれば良い。単語列探索部6による複数フレームの音響スコア算出に関しては前記式(40)をもとに動的計画法(DP:Dynamic Programming マッチング)を行えばよい。音響スコアを最大とする単語列を認識単語列として出力する(ステップS84)。なお、この場合はステップS80におけるモデル更新は、音響モデルとして事後確率分布p(μτ|O)の更新を行う(ステップS80a)。前記式(40)の積分は数値的に解くことも可能であるが、次のような2種類の解析解が存在する。
[Plug-in法]
Plug-in法では、積分をまともに扱うのではなく、p(μ|O)の事後確率最大化(MAP)値(以下の式(41)の右辺)は、前記式(36)のμ^である事を利用する。つまり、以下の式(41)になる。
Figure 2010054588
従って、音響モデル作成装置60による前記ステップS80におけるモデル更新として、前記式(36)で求まるμ^を出力分布p(xτ|μ)の平均ベクトルパラメータμにそのまま代入(Plug-in)して音響モデルパラメータを更新する(ステップS80b)。このようにすればスコア計算を、以下の式(42)で行うことが出来る。
Figure 2010054588
つまり、平均μ^、共分散行列Σのガウス分布で表現する。これをPlug-in法と呼ぶ。また、その他のパラメータ状態遷移確率a、混合重み因子w、共分散行列Σ、はそのまま適用する。ステップS80bの後は、破線矢印で示すように、ステップS82に移る。
[周辺化法]
周辺化法は、Plug-in法と違い積分を解析的に解く方法である。この積分をとく方法が、平均ベクトルパラメータμについての周辺化にあたる。周辺化法は、Plug-in法と比較して、平均ベクトルパラメータの事後確率分布p(μ|O)の分散を考慮することになる。このようにすれば、積分計算によるスコア計算は以下の式(43)で表せることになる。
Figure 2010054588
つまり、周辺化法を利用する場合はステップS80のモデル更新において、平均ベクトルパラメータμをμ^と置き換える(ステップS80b)と共に、共分散行列パラメータΣ→Σ+(r^−1Σと置き換えて(ステップS80c)、音響モデルパラメータを更新する。また、その他のパラメータ、つまり、状態遷移確率a、混合重み因子w、はそのまま適用する。ステップS80cのあとは、ステップS82に移る。
また、図14に示すように、モデル更新部156は、破線で示すパラメータ変換部として作用する。Plug-in法を用いる場合は、μ→μ^と置き換えて、平均ベクトルパラメータを更新し、周辺化法を用いる場合は、μ→μ^、Σ→Σ+(r^−1Σと置き換えて、平均ベクトルパラメータ、共分散行列パラメータを更新する。このようにすることで、分布変換に基づく逐次適応法による音響スコアを算出できる。
[実験結果]
ASJ(日本音響学会)読み上げ音声データベース100時間分を用いてトライフォンHMMの総状態数2000、HMM状態あたりの混合数16の不特定話者音響モデルを構築し、日本語模擬ニュース音声に対し、逐次適応実験を行った。特徴量は12次元MFCC(メルフレクエンシイペプストラム係数)と、そのフレームのエネルギーと、MFCCのフレーム間差分Δと、その差分MFCCのフレーム間差分デルタΔΔとして、語彙サイズ70万語のトライアングルを用いて大語彙連続音声認識実験を行った。逐次適応を行わない通常の音声認識の場合の音声認識率は81.3%であった。
ここで、分布パラメータに共分散行列Q^を用いた従来逐次適応では、認識率は88.5%と大きく改善した。しかし、1発話(1秒程度)で逐次更新を行う。オンライン逐次適応タスクにおいて、従来法は実時間処理できず(リアルタイムの2倍程度)、また、Q^に用いたメモリ消費量は27メガバイトであった。
一方、分布パラメータにスケーリング因子r^を用いた本発明では認識率は88.5%を、従来法と同程度の性能を維持しつつ、実時間処理(リアルタイムの1倍程度)を実現した。また、r^に用いたメモリ消費量は1.3メガバイトであり、Q^を用いた場合と比較して、メモリを20分の1程度削減できた。
以上の各実施形態の他、本発明である音響モデル作成装置は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、音響モデル作成装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、この発明の音響モデル作成装置における処理をコンピュータによって実現する場合、音響モデル作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、音響モデル作成装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(DigitalVersatileDisc)、DVD−RAM(RandomAccessMemory)、CD−ROM(CompactDiscReadOnlyMemory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Opticaldisc)等を、半導体メモリとしてEEP−ROM(ElectronicallyErasableandProgrammable−ReadOnlyMemory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(ApplicationServiceProvider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音響モデル作成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
従来の音声認識装置の機能構成例を示した図。 従来の音声認識装置の処理フローを示した図。 従来の音響モデル作成装置の機能構成例を示した図。 従来の音響モデル作成装置の処理フローを示した図。 線形回帰行列を用いた場合の音響モデル作成装置の機能構成例を示した図。 図5に示す音響モデル作成装置の主な処理の流れを示したブロック図。 逐次適応法を用いた場合の音響モデルパラメータが変換される手順を示した図。 逐次的応法を適用した場合の音響モデル作成装置の機能構成例を示した図。 事後確率分布のパラメータを逐次適応させる順序を示した図。 図8に示す音響モデル作成装置の主な処理の流れを示したブロック図。 従来の逐次学習部52の機能構成例を示した図。 本実施例の音響モデル作成装置の機能構成例を示した図。 本実施例の事後確率分布のパラメータを逐次適応させる順序を示した図。 本実施例の逐次学習部などの機能構成例を示した図。 本実施例の音声認識装置の機能構成例を示した図。 本実施例の音声認識装置の処理フローを示した図。

Claims (10)

  1. 適応用音声データの特徴量系列を抽出する特徴抽出部と、
    音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ、当該事後確率分布の共分散行列パラメータに対するスケーリング因子、初期音響モデルパラメータ中の共分散行列で表されることに基づき、前回までの累積された特徴量系列が加味された、前回求めた音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布及び今回まで累積された特徴量系列の一部を用いて、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ及び当該事後確率分布の共分散行列パラメータのスケーリング因子を計算することで、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布を求める逐次学習部と、
    前記今回の音響モデルパラメータの事後確率分布を新たな音響モデルパラメータに変換して更新するモデル更新部と、を具備する音響モデル作成装置。
  2. 請求項1記載の音響モデル作成装置であって、
    前記逐次学習部は、音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布の共分散ベクトルパラメータに対する今回のスケーリング因子r^t+1を、前回のスケーリング因子r^、今回の事後占有確率値の和ζt+1とから求め、
    音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布の今回の平均ベクトルパラメータμ^t+1を、前回の平均ベクトルパラメータμ^、今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトルνt+1、今回の事後占有確率値の和ζt+1、今回の各時点におけるζと特徴量との積和Mt+1、今回のスケーリング因子r^t+1とから求めることを特徴とする音響モデル作成装置。
  3. 請求項2記載の音響モデル作成装置であって、
    前記逐次学習部は、今回の音響モデルパラメータのスケーリング因子r^t+1および今回の音響モデルパラメータの平均ベクトルパラメータμ^t+1を以下の式により求め、
    Figure 2010054588
    ただし、μは予め定められた定数であり、r^は前回のスケーリング因子であり、ζt+1は今回の事後占有確率値の和であり、Mt+1は今回の各時点におけるζと特徴量との積和であり、νt+1は今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトルであることを特徴とする音響モデル作成装置。
  4. 認識用音声データの音響的特徴を持つ適応用音声データに適応化させた音響モデルを、請求項1〜3何れかに記載した音響モデル作成装置により作成して、音響モデルを更新する認識用モデル更新部と、
    前記更新された音響モデルを用いて、前記音響的特徴を持った入力音声データに対する音声認識を行う認識部とを具備する音声認識装置。
  5. 適応用音声データの特徴量系列を抽出する特徴抽出過程と、
    音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ、当該事後確率分布の共分散行列パラメータに対するスケーリング因子、初期音響モデルパラメータ中の共分散行列で表されることに基づき、前回までの累積された特徴量系列が加味された、前回求めた音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布及び今回まで累積された特徴量系列の一部を用いて、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ及び当該事後確率分布の共分散行列パラメータのスケーリング因子を計算することで、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布を求める逐次学習過程と、
    前記今回の音響モデルパラメータの事後確率分布を新たな音響モデルパラメータに変換して更新するモデル更新過程と、を有する音響モデル作成方法。
  6. 請求項5記載の音響モデル作成方法であって、
    前記逐次学習過程は、音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布の共分散ベクトルパラメータに対する今回のスケーリング因子r^t+1を、前回のスケーリング因子r^、今回の事後占有確率値の和ζt+1とから求め、
    音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布の今回の平均ベクトルパラメータμ^t+1を、前回の平均ベクトルパラメータμ^、今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトルνt+1、今回の事後占有確率値の和ζt+1、今回の各時点におけるζと特徴量との積和Mt+1、今回のスケーリング因子r^t+1とから求めることを特徴とする音響モデル作成方法。
  7. 請求項6記載の音響モデル作成方法であって、
    前記逐次学習過程は、今回の音響モデルパラメータのスケーリング因子r^t+1および今回の音響モデルパラメータの平均ベクトルパラメータμ^t+1を以下の式により求め、
    Figure 2010054588
    ただし、μは予め定められた定数であり、r^は前回のスケーリング因子であり、ζt+1は今回の事後占有確率値の和であり、Mt+1は今回の各時点におけるζと特徴量との積和であり、νt+1は今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトルであることを特徴とする音響モデル作成方法。
  8. 認識用音声データの音響的特徴を持つ適応用音声データに適応化させた音響モデルを、請求項5〜7何れかに記載した音響モデル作成方法により作成して、音響モデルを更新する認識用モデル更新過程と、
    前記更新された音響モデルを用いて、前記音響的特徴を持った入力音声データに対する音声認識を行う認識過程とを有する音声認識方法。
  9. 請求項1〜3何れかに記載の音響モデル作成装置または、請求項4記載の音声認識装置としてコンピュータを動作させるプログラム。
  10. 請求項9記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008216640A 2008-08-26 2008-08-26 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 Active JP4881357B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008216640A JP4881357B2 (ja) 2008-08-26 2008-08-26 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008216640A JP4881357B2 (ja) 2008-08-26 2008-08-26 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体

Publications (2)

Publication Number Publication Date
JP2010054588A true JP2010054588A (ja) 2010-03-11
JP4881357B2 JP4881357B2 (ja) 2012-02-22

Family

ID=42070622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008216640A Active JP4881357B2 (ja) 2008-08-26 2008-08-26 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体

Country Status (1)

Country Link
JP (1) JP4881357B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251784B2 (en) 2013-10-23 2016-02-02 International Business Machines Corporation Regularized feature space discrimination adaptation
KR20200063315A (ko) * 2018-11-20 2020-06-05 한국전자통신연구원 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법
CN114067834A (zh) * 2020-07-30 2022-02-18 中国移动通信集团有限公司 一种不良前导音识别方法、装置、存储介质和计算机设备
CN116978368A (zh) * 2023-09-25 2023-10-31 腾讯科技(深圳)有限公司 一种唤醒词检测方法和相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004117503A (ja) * 2002-09-24 2004-04-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP2006053431A (ja) * 2004-08-13 2006-02-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体
JP2008064849A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004117503A (ja) * 2002-09-24 2004-04-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP2006053431A (ja) * 2004-08-13 2006-02-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体
JP2008064849A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251784B2 (en) 2013-10-23 2016-02-02 International Business Machines Corporation Regularized feature space discrimination adaptation
KR20200063315A (ko) * 2018-11-20 2020-06-05 한국전자통신연구원 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법
KR102418887B1 (ko) 2018-11-20 2022-07-11 한국전자통신연구원 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법
CN114067834A (zh) * 2020-07-30 2022-02-18 中国移动通信集团有限公司 一种不良前导音识别方法、装置、存储介质和计算机设备
CN116978368A (zh) * 2023-09-25 2023-10-31 腾讯科技(深圳)有限公司 一种唤醒词检测方法和相关装置
CN116978368B (zh) * 2023-09-25 2023-12-15 腾讯科技(深圳)有限公司 一种唤醒词检测方法和相关装置

Also Published As

Publication number Publication date
JP4881357B2 (ja) 2012-02-22

Similar Documents

Publication Publication Date Title
US9460711B1 (en) Multilingual, acoustic deep neural networks
Najkar et al. A novel approach to HMM-based speech recognition systems using particle swarm optimization
US8515758B2 (en) Speech recognition including removal of irrelevant information
US20170040016A1 (en) Data augmentation method based on stochastic feature mapping for automatic speech recognition
CN107615376B (zh) 声音识别装置及计算机程序记录介质
Lu et al. Acoustic data-driven pronunciation lexicon for large vocabulary speech recognition
JP5249967B2 (ja) 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム
CN113674733A (zh) 用于说话时间估计的方法和设备
Mirsamadi et al. A study on deep neural network acoustic model adaptation for robust far-field speech recognition.
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
JP4881357B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP5079760B2 (ja) 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム
JP4891806B2 (ja) 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP4705557B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP7259988B2 (ja) 検知装置、その方法、およびプログラム
JP5457999B2 (ja) 雑音抑圧装置とその方法とプログラム
JP4801108B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP4801107B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111202

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4881357

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350