JP2008197463A - 音声認識装置及び音声認識方法 - Google Patents
音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP2008197463A JP2008197463A JP2007033560A JP2007033560A JP2008197463A JP 2008197463 A JP2008197463 A JP 2008197463A JP 2007033560 A JP2007033560 A JP 2007033560A JP 2007033560 A JP2007033560 A JP 2007033560A JP 2008197463 A JP2008197463 A JP 2008197463A
- Authority
- JP
- Japan
- Prior art keywords
- model
- deformation
- acoustic model
- parameters
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】従来は、雑音毎の整合モデルを並置するため、使用環境下での想定雑音の種類が多いと、雑音種類に応じた複数の整合モデルを記憶するためのメモリ量が増加する。
【解決手段】入力された音声を分析しフレームごとに特徴ベクトルを抽出する特徴抽出手段と、基礎となる音響モデルのパラメータを記憶する音響モデル記憶手段と、前記基礎となる音響モデルのパラメータと変形後の音響モデルのパラメータの対応関係を表す変形モデルを分類されたパラメータとして記憶する変形モデル記憶手段と、前記特徴抽出手段の出力を受けて、前記元になる音響モデルのパラメータを前記変形モデルに基づいて変形して少なくとも変形後の音響モデルのパラメータに基づいて尤度を計算し前記特徴ベクトルとマッチングをとるマッチング手段とを備える。
【選択図】図1
【解決手段】入力された音声を分析しフレームごとに特徴ベクトルを抽出する特徴抽出手段と、基礎となる音響モデルのパラメータを記憶する音響モデル記憶手段と、前記基礎となる音響モデルのパラメータと変形後の音響モデルのパラメータの対応関係を表す変形モデルを分類されたパラメータとして記憶する変形モデル記憶手段と、前記特徴抽出手段の出力を受けて、前記元になる音響モデルのパラメータを前記変形モデルに基づいて変形して少なくとも変形後の音響モデルのパラメータに基づいて尤度を計算し前記特徴ベクトルとマッチングをとるマッチング手段とを備える。
【選択図】図1
Description
この発明は雑音が発生する環境に於いて音声認識を行う音声認識装置及び音声認識方法に関するものである。
従来の音声認識装置は、使用環境下で予め想定される複数種類の雑音について雑音ごとに雑音重畳音声から学習した複数の音響モデル(整合モデルと呼ぶ)を並置し、フレームごとに入力音声に最も近い整合モデルを選択することによって、雑音条件既知の整合モデルに近い認識性能を得ている(例えば、非特許文献1)。
阿部芳春、日本音響学会講演論文集、2-1-16「雑音重畳音声の最近隣ガウス混合分布による複数種類雑音環境下の音声認識」、2006年3月、P101〜102
従来の音声認識装置は、雑音ごとの整合モデルを並置するため、使用環境下で予め想定される雑音の種類が多くなると、雑音の種類に応じた複数の整合モデルを記憶するための必要なメモリ量が増加するという問題点があった。
この発明は上記のような問題点を解決するためになされたもので、音響モデルのメモリ量の削減を目的とする。
この発明は上記のような問題点を解決するためになされたもので、音響モデルのメモリ量の削減を目的とする。
この発明に係る音声認識装置は、
入力された音声を分析しフレームごとに特徴ベクトルを抽出する特徴抽出手段と、
基礎となる音響モデルのパラメータが記憶される音響モデル記憶手段と、
前記基礎となる音響モデルのパラメータと変形後の音響モデルのパラメータの対応関係を表す変形モデルが、分類されたパラメータとして記憶される変形モデル記憶手段と、
前記特徴抽出手段の出力を受けて、前記基礎になる音響モデルのパラメータを前記変形モデルに基づいて変形し、少なくとも変形後の音響モデルのパラメータに基づいて尤度を計算して前記特徴ベクトルとマッチングをとるマッチング手段と、を備える。
入力された音声を分析しフレームごとに特徴ベクトルを抽出する特徴抽出手段と、
基礎となる音響モデルのパラメータが記憶される音響モデル記憶手段と、
前記基礎となる音響モデルのパラメータと変形後の音響モデルのパラメータの対応関係を表す変形モデルが、分類されたパラメータとして記憶される変形モデル記憶手段と、
前記特徴抽出手段の出力を受けて、前記基礎になる音響モデルのパラメータを前記変形モデルに基づいて変形し、少なくとも変形後の音響モデルのパラメータに基づいて尤度を計算して前記特徴ベクトルとマッチングをとるマッチング手段と、を備える。
この発明の音声認識装置によれば、基礎となる音響モデルのパラメータとそれと対応づけられた変形後の音響モデルのパラメータとからなる学習用のサンプルから、分類ごとに対応関係のモデルのパラメータを学習し、入力音声の特徴ベクトルに対応する基礎となる音響モデルのパラメータから前記対応関係のモデルに従って変形後の音響モデルのパラメータを生成し、この変形後の音響モデルのパラメータに基づいて、特徴ベクトルに対する尤度を算出しながら、音声認識の探索を行うので少ないメモリ量で、入力雑音の整合モデルの性能に近づいた性能を有する雑音下の音声認識装置を提供することができる。
実施の形態1.
図1はこの発明の実施の形態1を示す音声認識システムの機能構成図である。
図1において、特徴抽出手段2は入力音声1のフレームごとに入力音声1を分析しC0を含む0次から12次のメルケプストラム係数と、これらのΔメルケプストラム係数及びΔΔメルケプストラム係数とを含む39次元の特徴ベクトルを抽出してマッチング手段5に出力する手段、音響モデル記憶手段3は基礎となる音響モデルを記憶する手段、変形モデル記憶手段4は音響モデル記憶手段3中の音響モデルパラメータの変形を分類した変形モデルを記憶する手段、マッチング手段5はモデル探索手段503と尤度計算手段504と漸化式計算手段505とを備え、音響モデル記憶手段3の音響モデルと変形モデル記憶手段4の変形モデルとを参照し基礎の音響モデルのパラメータを変形し生成される音響モデルと特徴抽出手段2から入力された特徴ベクトルの系列との照合処理を行ない認識結果6を求める手段である。
図1はこの発明の実施の形態1を示す音声認識システムの機能構成図である。
図1において、特徴抽出手段2は入力音声1のフレームごとに入力音声1を分析しC0を含む0次から12次のメルケプストラム係数と、これらのΔメルケプストラム係数及びΔΔメルケプストラム係数とを含む39次元の特徴ベクトルを抽出してマッチング手段5に出力する手段、音響モデル記憶手段3は基礎となる音響モデルを記憶する手段、変形モデル記憶手段4は音響モデル記憶手段3中の音響モデルパラメータの変形を分類した変形モデルを記憶する手段、マッチング手段5はモデル探索手段503と尤度計算手段504と漸化式計算手段505とを備え、音響モデル記憶手段3の音響モデルと変形モデル記憶手段4の変形モデルとを参照し基礎の音響モデルのパラメータを変形し生成される音響モデルと特徴抽出手段2から入力された特徴ベクトルの系列との照合処理を行ない認識結果6を求める手段である。
次に動作について説明する。
まず認識動作に先立ち、以下のように、基礎となる音響モデルを作成して音響モデル記憶手段3に記憶するとともにこの基礎となる音響モデルから変形モデルを作成し変形モデル記憶手段4に記憶する。図2はこのような音響モデル及び変形モデルの学習処理の流れ図である。まず音声認識装置が使用される環境において入力音声に重畳することが予想される雑音環境下で雑音環境下雑音データ31を収集(ステップS301)し、同データ31を雑音分類ステップS302において分類することにより、複数種類の雑音データ33−1〜33−Nの雑音データベース33を用意する。一方、HMM(Hidden Markov Model)の学習用として、雑音のない音声データ(クリーン音声データと呼ぶ)34を用意する(ステップS304)。次に雑音データベース33に用意されたそれぞれの雑音データ33−1〜33−Nを認識時に想定されるSN比(signal to noise ratio、例えば15dB)あるいは想定される範囲の複数のSN比(例えば5, 10, 15, 20dBの4通り)でクリーン音声34に重畳する(ステップS305)ことによりそれぞれの雑音データに対応する雑音重畳音声データ36−1〜36−Nを作成し、雑音重畳音声データベース36に記憶する。
まず認識動作に先立ち、以下のように、基礎となる音響モデルを作成して音響モデル記憶手段3に記憶するとともにこの基礎となる音響モデルから変形モデルを作成し変形モデル記憶手段4に記憶する。図2はこのような音響モデル及び変形モデルの学習処理の流れ図である。まず音声認識装置が使用される環境において入力音声に重畳することが予想される雑音環境下で雑音環境下雑音データ31を収集(ステップS301)し、同データ31を雑音分類ステップS302において分類することにより、複数種類の雑音データ33−1〜33−Nの雑音データベース33を用意する。一方、HMM(Hidden Markov Model)の学習用として、雑音のない音声データ(クリーン音声データと呼ぶ)34を用意する(ステップS304)。次に雑音データベース33に用意されたそれぞれの雑音データ33−1〜33−Nを認識時に想定されるSN比(signal to noise ratio、例えば15dB)あるいは想定される範囲の複数のSN比(例えば5, 10, 15, 20dBの4通り)でクリーン音声34に重畳する(ステップS305)ことによりそれぞれの雑音データに対応する雑音重畳音声データ36−1〜36−Nを作成し、雑音重畳音声データベース36に記憶する。
次にHMM学習手段(図示せず)は、まず、雑音重畳音声データベース36中のすべての雑音重畳音声データを学習データとして用いて、雑音重畳音声データの全体にマッチする(マルチスタイル)音響モデル3−Aを整合モデルデータベース38内に作成(ステップS307)する。このようにして作成された音響モデル3−Aは基礎の音響モデルとなり図1の音響モデル記憶手段3中に転送される。
続いて、HMM学習手段は、雑音重畳音声データベース36中のそれぞれの雑音重畳音声データを学習データとして用いて、それぞれの雑音重畳音声データにマッチする整合モデル3−1〜3−Nを整合モデルデータベース38内に作成する(ステップS307)。
続いて、HMM学習手段は、雑音重畳音声データベース36中のそれぞれの雑音重畳音声データを学習データとして用いて、それぞれの雑音重畳音声データにマッチする整合モデル3−1〜3−Nを整合モデルデータベース38内に作成する(ステップS307)。
ここで、音響モデル3−AはS個の状態からなり、各状態はM個のガウス分布からなる。また、雑音環境の種類はN個であり、N個の整合モデル3−1〜3−Nは、それぞれ、S個の状態からなり、各状態はM個のガウス分布からなる。(例えば、S=2000、M=4、N=26とすることができる。また、状態数と状態当りのガウス分布数は、相互の対応がつけば、必ずしも、音響モデル3−Aと整合モデル3−1〜3−N間で一致する必要はない。)
次に、変形モデル学習手段(図示せず)は、整合モデルデータベース38内の音響モデル3−Aのパラメータと、雑音ごとの整合モデル3−1〜3−Nのパラメータに基づいて、変形モデル記憶手段4に記憶される変形モデル4−Aのパラメータを学習する(ステップS400)。学習された変形モデル4−Aのパラメータは変形モデル記憶手段4に転送され記憶される。変形モデルは、基礎の音響モデルのパラメータと変形モデルを適用した後の音響モデルのパラメータの関係を分類して例えば式1や式2、式3の線形モデルで表すものである。
ここで、pはP種類に分類された変形モデルの番号でp∈[1,P]なる数、x(s,m)は音響モデル3−Aの状態sのm番目のガウス分布の平均ベクトル、y(s,m,p)はx(s,m)に対応するp番目の変形モデルによる変形後の音響モデルにおける状態sのm番目のガウス分布の平均ベクトル、u(s,m)は音響モデル3−Aの状態sのm番目のガウス分布の対角分散ベクトル、v(s,m,p) はu(s,m) に対応するp番目の変形モデルによる変形後の音響モデルにおける状態sのm番目のガウス分布の対角分散ベクトル、A(p)は回帰行列、b(p)はバイアスベクトル(切片)、r(p)は分散比ベクトル、ε1(s,m,n)〜ε3(s,m,n) はそれぞれモデルの誤差項である。
このとき、変形モデル学習手段は、S400の処理により式1〜式3中のパラメータA(p)やb(p)、r(p)を推定する。
このとき、変形モデル学習手段は、S400の処理により式1〜式3中のパラメータA(p)やb(p)、r(p)を推定する。
次に、上記変形モデル学習手段の動作について説明する。図3は変形モデルの学習処理(図2のステップS400)を示す流れ図である。以下、図3を用いて変形モデル学習手段の動作を説明する。
ステップS401において、変形モデル学習手段は、基礎となる音響モデル3−Aと整合モデル3−1〜3−Nを整合モデルデータベース38から取り込む。
ステップS402において、式1や式2に対応して、y(s,m,n) とx(s,m) のペアを1組のサンプルとしてサンプルを収集する。また、式3に対応して、v(s,m,n)とu(s,m) のペアを1組のサンプルとしてサンプルを収集する。収集の結果、次式のサンプルの集合を得る。
Φx={s,m,n ,y(s,m,n),x(s,m)|s∈[1,S],m∈[1,M],n∈[1,N]}
Φu={s,m,n ,v(s,m,n),u(s,m)|s∈[1,S],m∈[1,M],n∈[1,N]}
ステップS402において、式1や式2に対応して、y(s,m,n) とx(s,m) のペアを1組のサンプルとしてサンプルを収集する。また、式3に対応して、v(s,m,n)とu(s,m) のペアを1組のサンプルとしてサンプルを収集する。収集の結果、次式のサンプルの集合を得る。
Φx={s,m,n ,y(s,m,n),x(s,m)|s∈[1,S],m∈[1,M],n∈[1,N]}
Φu={s,m,n ,v(s,m,n),u(s,m)|s∈[1,S],m∈[1,M],n∈[1,N]}
ここで、sは状態の番号、mはガウス分布の番号、nは雑音環境の番号、x(s,m)は基礎となる音響モデル3−Aの状態sのm番目のガウス分布の平均ベクトル、y(s,m,n)はx(s,m)に対応する雑音環境nの整合モデル3−Nの状態sのm番目のガウス分布の平均ベクトル、u(s,m)は基礎となる音響モデル3−Aの状態sのm番目のガウス分布の対角分散ベクトル、v(s,m,n)はu(s,m) に対応する雑音環境nの整合モデル3−Nの状態sのm番目のガウス分布の対角分散ベクトルである。
なお、混合分布内のガウス分布の番号付けに関して任意性があるため、ガウス分布どうしの対応関係は、予め、例えば、両方ともM個からなるガウス分布どうしの場合、M×M通りの対応付けの仕方について、ガウス分布間の距離を求め、距離の総和を最小とするように決めることができる。
なお、混合分布内のガウス分布の番号付けに関して任意性があるため、ガウス分布どうしの対応関係は、予め、例えば、両方ともM個からなるガウス分布どうしの場合、M×M通りの対応付けの仕方について、ガウス分布間の距離を求め、距離の総和を最小とするように決めることができる。
ステップS403において、変形モデルの番号pをp=1とおく。
ステップS404において、サンプルの第p番目の部分集合 Ω(p)について、変形モデルのパラメータを推定する。ここで、サンプルの第p番目の部分集合 Ω(p)は、任意の状態sと任意の雑音環境nの組合せからなる離散的な点の集合 {(s,n)∈[1,S]×[1,N]} をP個の部分集合 {Ω(p)|p∈[1,P]} に予め分類してあり、そのp番目の部分集合を表す。
ステップS404において、サンプルの第p番目の部分集合 Ω(p)について、変形モデルのパラメータを推定する。ここで、サンプルの第p番目の部分集合 Ω(p)は、任意の状態sと任意の雑音環境nの組合せからなる離散的な点の集合 {(s,n)∈[1,S]×[1,N]} をP個の部分集合 {Ω(p)|p∈[1,P]} に予め分類してあり、そのp番目の部分集合を表す。
部分集合 Ω(p)は、例えば、状態sによらず雑音環境nがpである点の集合とすることがきる。この場合、部分集合の個数Pは雑音環境の数Nに等しく、第p番目の部分集合 Ω(p)は
と表せる。図4はこのような場合の状態と雑音環境からなる空間 [1,S]×[1,N] 上の分類を示す。この図の斜線を付した領域が部分集合 Ω(p) に対応する。別の分類方法として、例えば、部分集合 Ω(p) を (s,n) の全空間 [1,S]×[1,N] を変形の類似したP個の部分空間に分類することができる。図5はこのような場合の部分集合 Ω(p) への分類の様子を示す。この場合には雑音環境によって異なる状態が同じ部分集合 Ω(p) に分類される。
次に、部分集合 Ω(p) に含まれる各点 (s,n) ∈Ω(p) と一致するsとnを同時に有するサンプルをサンプルの集合 Φx から選択し、サンプルの部分集合 Φx(p)
Φx(p)={s,m,n,y(s,m,n),x(s,m)|(s,n)∈Ω(p),m∈[1,M]}
を得てから、この部分集合 Φx(p) 内のサンプルを用いて、式1や式2における変形モデルのパラメータ A(p) や b(p) を推定する。変形モデルのパラメータは、例えば、式1や式2の誤差項の2乗和が最小となるように最小2乗法に基づいて決定することができる。この場合は、誤差項が平均0の多次元正規分布に従うように決定される。図4に例示した分類では、雑音環境nがpに一致するサンプル集合を用いてp番目の変形モデルのパラメータ {p,A(p),b(p)} が推定される。
Φx(p)={s,m,n,y(s,m,n),x(s,m)|(s,n)∈Ω(p),m∈[1,M]}
を得てから、この部分集合 Φx(p) 内のサンプルを用いて、式1や式2における変形モデルのパラメータ A(p) や b(p) を推定する。変形モデルのパラメータは、例えば、式1や式2の誤差項の2乗和が最小となるように最小2乗法に基づいて決定することができる。この場合は、誤差項が平均0の多次元正規分布に従うように決定される。図4に例示した分類では、雑音環境nがpに一致するサンプル集合を用いてp番目の変形モデルのパラメータ {p,A(p),b(p)} が推定される。
なお、式3における変形モデルのパラメータ r(p) を推定する場合は、上記と同様に、サンプルの集合 Φv(p) からサンプルの部分集合
Φv(p)={s,m,n,v(s,m,n),u(s,m)|(s,n)∈Ω(p),m∈[1,M]}
を選択し、この部分集合 Φx(p) 内のサンプルを用いて、式3における変形モデルのパラメータ r(p) を推定する。変形モデルのパラメータは、例えば、式3の誤差項の2乗和が最小となるように最小2乗法に基づいて決定することができる。
Φv(p)={s,m,n,v(s,m,n),u(s,m)|(s,n)∈Ω(p),m∈[1,M]}
を選択し、この部分集合 Φx(p) 内のサンプルを用いて、式3における変形モデルのパラメータ r(p) を推定する。変形モデルのパラメータは、例えば、式3の誤差項の2乗和が最小となるように最小2乗法に基づいて決定することができる。
ステップS405において、すべての番号pについて部分集合 Ω(p)の処理が終了している場合次のステップS407に進む。そうでない場合、ステップS406に進み、ステップS406において、pを1だけ進め、ステップS404に戻る。
ステップS407において、ステップS403〜ステップS405において推定された変形モデルのパラメータΘ
Θ={p,A(p),b(p),r(p)|p∈[1,P]}
とマッチング手段5の制御に用いる制御情報Γ
Γ={s,m,Q(s,m),{p(q)|q∈[1,Q(s,m)]}|s∈[1,S],m∈[1,M]}
とを図1の変形モデル記憶手段4へ転送する。
Θ={p,A(p),b(p),r(p)|p∈[1,P]}
とマッチング手段5の制御に用いる制御情報Γ
Γ={s,m,Q(s,m),{p(q)|q∈[1,Q(s,m)]}|s∈[1,S],m∈[1,M]}
とを図1の変形モデル記憶手段4へ転送する。
図6は変形モデル記憶手段4の内部の構成図で、4001は記憶された変形モデルのパラメータΘを、また、4002は記憶された制御情報Γをそれぞれ示す。ここで、制御情報Γ中において、Q(s,m)は状態sの第m番目のガウス分布に適用する変形モデルの数、p(q)はq番目の変形に用いる変形モデルの番号で、変形モデルのパラメータΘ中の番号pを表す。なお、後述のように、マッチング手段5は、この制御情報に基づいて、基礎のモデルの状態s,ガウス分布mのパラメータをp(q)で示されるQ(s,m)個の番号が指す変形パラメータを含む変形モデルの式1や式2を用いて、変形した後のガウス分布のパラメータを用いて状態s,ガウス分布mの出力確率を計算する。
次に認識時の動作について説明する。認識動作は発話の開始フレームの時刻1から終了フレームの時刻Tまで、入力音声のフレームを単位とした時刻t=1,2,…,Tにおいて特徴抽出手段2による特徴抽出とマッチング手段5によるマッチング処理により行う。
図7はこのマッチング処理の流れ図である。以下、図7を用いてマッチング手段5の処理を説明する。
まずステップS501において前向き確率 α(j,t) の初期化を式5により行う。
まずステップS501において前向き確率 α(j,t) の初期化を式5により行う。
次にステップS502において特徴抽出手段2により求められた特徴ベクトルx_t (以下、添え字x,xyz等を_x,_{xyz}のように表記する) を取得する。
次にステップS503からステップS505において前向き確率 α(j,t) を求めるための漸化式を計算する。漸化式は、前フレームで残ったHMMの状態iから遷移可能なHMMの状態jに限定して行う。ビタビアルゴリズムを用いた場合の漸化式は例えば式6のようになる(なお、以下の説明ではビタビアルゴリズムの漸化式を用いるが、漸化式としては最大値演算を総和演算で置き換えたトレリスアルゴリズムの漸化式でもかまわない)。
次にステップS503からステップS505において前向き確率 α(j,t) を求めるための漸化式を計算する。漸化式は、前フレームで残ったHMMの状態iから遷移可能なHMMの状態jに限定して行う。ビタビアルゴリズムを用いた場合の漸化式は例えば式6のようになる(なお、以下の説明ではビタビアルゴリズムの漸化式を用いるが、漸化式としては最大値演算を総和演算で置き換えたトレリスアルゴリズムの漸化式でもかまわない)。
ここで、δ(i,j) は状態iから状態jの遷移が可能であることを示し、Ω(t-1) は時刻t-1 で残った状態の集合を示す。また、a_{i,j} は状態iから状態jへの遷移確率、p(x_t,j) は状態jにおける特徴ベクトル x_t の尤度である。尤度 p(x_t,j) は次のように求める。
まずステップS503において変形モデル記憶手段4に記憶された制御情報Γ4001から s=j なる要素(レコード)
{s,m,Q(s,m),{p(q)|q∈[1,Q(s,m)]}|s=j,m∈[1,M]}
を選択する。
{s,m,Q(s,m),{p(q)|q∈[1,Q(s,m)]}|s=j,m∈[1,M]}
を選択する。
次に、変形モデルq∈[1,Q(s,m)]について、変形モデルパラメータΘ4001中から変形モデルパラメータ番号pがp(q)と一致する変形モデルqのパラメータ
{p,A(p),b(p),r(p)|p=p(q)}
を選択する。さらに、選択した変形モデルのパラメータ A(p(q)),b(p(q)),r(p(q)) を用いて、変形後の平均ベクトル μ_{j,m,q} を基礎の音響モデルの平均ベクトル μ_{j,m} との次式の演算により求める(この演算は式2に基づく)。
{p,A(p),b(p),r(p)|p=p(q)}
を選択する。さらに、選択した変形モデルのパラメータ A(p(q)),b(p(q)),r(p(q)) を用いて、変形後の平均ベクトル μ_{j,m,q} を基礎の音響モデルの平均ベクトル μ_{j,m} との次式の演算により求める(この演算は式2に基づく)。
また、変形後の分散 Σ_{j,m,q} を基礎のモデルの分散 Σ_{j,m} との式3に基づく次式の演算により求める(なお、この演算は式3に基づく)。
ここで、分散 Σ_{j,m} は対角分散行列でベクトルとして記憶されており、演算子'*'は分散比とのベクトル要素ごとの乗算を表す。
さらに、変形モデルqに基づく特徴ベクトル x_t の尤度 p(x_t|j,q) をガウス混合密度関数の式7の演算に基づいて求める。
さらに、変形モデルqに基づく特徴ベクトル x_t の尤度 p(x_t|j,q) をガウス混合密度関数の式7の演算に基づいて求める。
ここで、λ_{j,m} は状態jのm番目のガウス分布の重み、μ_{j,m,q} 及び Σ_{j,m,q} はそれぞれq番目の変形後の状態jのm番目のガウス分布の平均及び分散、 N(x_t,μ_{j,m,q},Σ_{j,m,q}) は平均 μ_{j,m,q}、対角分散 Σ_{j,m,q} の対角ガウス分布の確率密度関数である。
次にステップS504においてステップS503で算出した変形モデルqに基づく尤度p(x_t|j,q)を用いて、変形を考慮した後の状態jにおける特徴ベクトルx_tの尤度p(x_t|j)を次式のように計算する。
上記はqに関する最大値を用いたが、これをqに関する確率の和としてもかまわない。この場合は、式9となる。
また、上記では、変形前のモデルの尤度を用いていないが、式10に示す変形前のモデルの尤度
を確率の最大化や確率の総和の演算の中に含めてもかまわない。ここで、0は変形前の基礎の音響モデルを表す。この場合、上記式は、それぞれ、式11、式12となる。
さらにステップS505においてこの尤度 p(x_t|j) を上記の漸化式に代入して前向き確率を更新する。
ステップS506においてすべての状態の処理を終了したか否かを判定し、終了したときはステップS508に進み、そうでないときはステップS507において次の状態の処理をするためステップS503に戻る。
ステップS506においてすべての状態の処理を終了したか否かを判定し、終了したときはステップS508に進み、そうでないときはステップS507において次の状態の処理をするためステップS503に戻る。
ステップS508では尤度 p(x_t|j) の小さい漸化式による前向き確率を除外する枝刈を行い、ステップS509に進む。ステップS509において発話終了まで処理が終えていないときはステップS510に進みフレームの時刻を1進め、ステップS502以下の処理を繰り返す。また、ステップS509において発話終了まで処理を終えたらステップS511に進み、発話終了フレームにおいて前向き確率が最大の状態を出発点として発話終了フレームから発話開始フレームまでの後戻りによって最適状態系列を復元しこの最適状態系列に対応する単語あるいは単語列の候補を認識結果として出力する。
以上で動作の説明を終え、次に、従来技術と本実施の形態とで音響モデルのパラメータを記憶するメモリ量について比較する。状態数SをS=2000、状態当たりのガウス分布数MをM=4、特徴ベクトルの次元数DをD=39、雑音環境数NをN=26、変形モデルの分類数Pを雑音数の8倍P=N×8=208とした場合、1条件の音響モデルのメモリ量は
1条件の音響モデル: H=S×M×(2D+1)=632 KWord
である。また、P個分の変形モデルのパラメータA(p),b(p),r(p)の所要メモリ量は
変形モデル: G=(D×D+D+D)×P=約333 KWord
である。従って、従来の並列整合モデルのパラメータの所要メモリ量は
並列整合モデル: H×N=16432 KWord
であるのに対して、本実施の形態のパラメータの所要メモリ量は
本実施の形態: H+G = 632 + 333 =約 965 KWord
となり、本実施の形態では従来の並列整合モデルより大幅にメモリ量を削減している。
1条件の音響モデル: H=S×M×(2D+1)=632 KWord
である。また、P個分の変形モデルのパラメータA(p),b(p),r(p)の所要メモリ量は
変形モデル: G=(D×D+D+D)×P=約333 KWord
である。従って、従来の並列整合モデルのパラメータの所要メモリ量は
並列整合モデル: H×N=16432 KWord
であるのに対して、本実施の形態のパラメータの所要メモリ量は
本実施の形態: H+G = 632 + 333 =約 965 KWord
となり、本実施の形態では従来の並列整合モデルより大幅にメモリ量を削減している。
以上のように、基礎音響モデルのパラメータと変形後の音響モデルのパラメータからなるサンプルを分類し、分類ごとに学習された変形モデルを参照し、基礎の音響モデルのパラメータを変形し、変形された音響モデルに基づいて音響モデルの尤度を算出するので、少ないメモリ量で、入力雑音の整合モデルの性能に近づいた性能を有する雑音下の音声認識装置を提供することができる。
なお、上記の説明で、式1〜式3は右辺が一次式のみからなる線形モデルを用いたが、2次以上の非線形のモデルを用いてもかまわない。また、モデルの誤差分布の形状を正規分布とするモデルを用いたが、これに限定するものではなく、例えば、ガンマ分布とした一般化線形モデルを用いてもかまわない。
この発明は、特に複雑な非定常雑音が発生する環境においても記憶容量の少ないメモリで精度の高い音声認識を得る装置に利用することができる。
1:入力音声、2:特徴抽出手段、3:音響モデル記憶手段、4:変形モデル記憶手段、5:マッチング手段、503:モデル探索手段、504:尤度計算手段、505:漸化式計算手段、6:認識結果。
Claims (2)
- 入力された音声を分析しフレームごとに特徴ベクトルを抽出する特徴抽出手段と、
基礎となる音響モデルのパラメータが記憶される音響モデル記憶手段と、
前記基礎となる音響モデルのパラメータと変形後の音響モデルのパラメータの対応関係を表す変形モデルが、分類されたパラメータとして記憶される変形モデル記憶手段と、
前記特徴抽出手段の特徴ベクトルを受けて、前記音響モデル記憶手段から基礎になる音響モデルのパラメータを選択し、この選択された基礎になる音響モデルのパラメータを前記変形モデル記憶手段の変形モデルに基づいて変形して、少なくとも変形後の音響モデルのパラメータに基づいて特徴ベクトルに対する尤度を計算して前記特徴ベクトルと変形後の音響モデルパラメータとのマッチングをとるマッチング手段とを備えたことを特徴とする音声認識装置。 - 基礎となる音響モデルのパラメータとそれと対応づけられた変形後の音響モデルのパラメータとからなる学習用のサンプルから、分類ごとに対応関係のモデルのパラメータを学習し、入力音声の特徴ベクトルに対応する基礎となる音響モデルのパラメータから前記対応関係のモデルに従って変形後の音響モデルのパラメータを生成する工程と、この変形後の音響モデルのパラメータに基づいて、隠れマルコフモデルの状態の尤度を算出しながら、音声認識の探索を行う工程とを有することを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007033560A JP2008197463A (ja) | 2007-02-14 | 2007-02-14 | 音声認識装置及び音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007033560A JP2008197463A (ja) | 2007-02-14 | 2007-02-14 | 音声認識装置及び音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008197463A true JP2008197463A (ja) | 2008-08-28 |
Family
ID=39756454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007033560A Pending JP2008197463A (ja) | 2007-02-14 | 2007-02-14 | 音声認識装置及び音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008197463A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8874440B2 (en) | 2009-04-17 | 2014-10-28 | Samsung Electronics Co., Ltd. | Apparatus and method for detecting speech |
JP2019525214A (ja) * | 2016-06-30 | 2019-09-05 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 音声認識 |
-
2007
- 2007-02-14 JP JP2007033560A patent/JP2008197463A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8874440B2 (en) | 2009-04-17 | 2014-10-28 | Samsung Electronics Co., Ltd. | Apparatus and method for detecting speech |
JP2019525214A (ja) * | 2016-06-30 | 2019-09-05 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 音声認識 |
JP7008638B2 (ja) | 2016-06-30 | 2022-01-25 | アリババ・グループ・ホールディング・リミテッド | 音声認識 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
JP5059115B2 (ja) | 音声キーワードの特定方法、装置及び音声識別システム | |
EP0043006B1 (en) | Pattern recognition apparatus using prototype probability matching | |
JP3627299B2 (ja) | 音声認識方法及び装置 | |
US20210193161A1 (en) | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program | |
US20050038655A1 (en) | Bubble splitting for compact acoustic modeling | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
EP0771461A1 (en) | Method and apparatus for speech recognition using optimised partial probability mixture tying | |
CN102419974A (zh) | 处理语音识别的稀疏表示特征的方法和系统 | |
JPH10274995A (ja) | 大語彙音声認識方法及び装置 | |
US5956676A (en) | Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system | |
Chien | Online hierarchical transformation of hidden Markov models for speech recognition | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
US6173076B1 (en) | Speech recognition pattern adaptation system using tree scheme | |
CN113223504B (zh) | 声学模型的训练方法、装置、设备和存储介质 | |
JPH06208392A (ja) | パターン認識方法および装置 | |
JP3987927B2 (ja) | 波形認識方法及び装置、並びにプログラム | |
JP2008197463A (ja) | 音声認識装置及び音声認識方法 | |
JPH11143486A (ja) | 話者適応装置および方法 | |
JP4612435B2 (ja) | 音響モデル学習装置および音声認識装置 | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
JP2734828B2 (ja) | 確率演算装置及び確率演算方法 | |
CN117523278A (zh) | 基于贝叶斯估计语义注意力元学习方法 | |
Chien | On-line hierarchical transformation of hidden Markov models for speaker adaptation. | |
Xiao et al. | Multilingual exemplar-based acoustic model for the NIST Open KWS 2015 evaluation |