JP2964507B2 - Hmm装置 - Google Patents

Hmm装置

Info

Publication number
JP2964507B2
JP2964507B2 JP1322148A JP32214889A JP2964507B2 JP 2964507 B2 JP2964507 B2 JP 2964507B2 JP 1322148 A JP1322148 A JP 1322148A JP 32214889 A JP32214889 A JP 32214889A JP 2964507 B2 JP2964507 B2 JP 2964507B2
Authority
JP
Japan
Prior art keywords
state
hmm
parameter
likelihood
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1322148A
Other languages
English (en)
Other versions
JPH03181998A (ja
Inventor
英一 坪香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP1322148A priority Critical patent/JP2964507B2/ja
Priority to US07/626,300 priority patent/US5307444A/en
Publication of JPH03181998A publication Critical patent/JPH03181998A/ja
Application granted granted Critical
Publication of JP2964507B2 publication Critical patent/JP2964507B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識等のパターン認識に適用可能な新し
いHMM(ヒドゥン マルコフ モデル(Hidden Markov M
odel))のパラメータの推定方法および装置に関する。
従来の技術 本発明は一般の時系列信号に適用可能なものである
が、説明の便宜のために、以下、音声認識を例に説明す
る。
先ずHMMを用いた音声認識装置について説明する。
第2図は、HMMを用いて音声認識装置のブロック図で
ある。101は音声分析部であって、入力音声信号をフィ
ルタバンク、フーリエ変換、LPC分析等の周知の方法に
より、一定時間間隔(フレームと呼ぶ)例えば10msec毎
に特徴ベクトルに変換する。従って、入力音声信号は特
徴ベクトルの系列X=x1,x2,…,xTに変換される。Tは
フレーム数である。102はコードブックと呼ばれるもの
で、ラベル付けされた代表ベクトルを保持している。10
3はベクトル量子化部であって、前記ベクトル系列Xの
それぞれのベクトルをそれに最も近い前記代表ベクトル
のラベルに置き換えるもである。104はHMM作成部であっ
て、訓練データから認識語彙たる各単語に対応するHMM
を作成するものである。即ち、単語wに対応するHMMを
作るには、先ず、HMMの構造(状態数やそれら状態の間
に許される遷移規則)を適当に定め、然る後に前記の如
くして単語wを多数回発声して得られたラベル系列か
ら、それらラベル系列の発生確率が出来るだけ高くなる
ように、前記モデルにおける状態遷移確率や状態の遷移
に伴って発生するラベルの発生確率を求めるものであ
る。105はHMM記憶部であって、このようにして得られた
HMMを各単語毎に記憶するものである。106は尤度計算部
であって、認識すべき未知入力音声のラベル系列に対
し、前記HMM記憶部105に記憶されているそれぞれのモデ
ルからそのラベル系列の発生する尤度を計算するもので
ある。107は比較判定部であって尤度計算部106で得られ
た前記それぞれのモデルに対する尤度の最大値を与える
モデルに対応する単語を認識結果として判定するもので
ある。
HMMによる認識は次のようにして行われる。
即ち、未知入力に対して得られたラベル系列を0=
o1,o2,…,oT、モデルλにより発生されるTの長さの
任意の状態系列をS=s1,s2,…,sTとするとき、λ
らラベル系列0の発生する尤度は または、対数をとって で与えられる。ここで、P(x,y|λ)は、モデルλ
におけるx,yの同時確率密度である。
従って、例えば式(1)を用いれば とするとき、が認識結果となる。式(2),(3)を
用いるときも同様である。
P(0,S|λ)は式(1)の場合は、次のようにして求
められる。
いま、HMMλの状態qi(i=1〜I+1)に対して、
状態qi毎に、ラベルoの発生確率bi(o)と状態qiから
状態qjへの遷移確率aijが与えられているとき、状態系
列S=s1,s2,…,sT+1に対してラベル系列0=o1,o2,…o
TのHMMλから発生する確率は と定義出来る。ここで は状態s1の初期確率である。またsT+1=qI+1は最終状態
であって、如何なるラベルも発生しない。
この例では入力の特徴ベクトルxをラベルに変換した
が、各状態におけるラベルの発生確率の代りに特徴ベク
トルxをそのまま用い、各状態において特徴ベクトルx
の確率密度関数を与える方法もある。この時は式(5)
における前記ラベルoの状態qiにおける発生確率b
i(o)の代わりに特徴ベクトルxの確率密度bi(x)
を用いることになる。このときは、前記式(1),
(2),(3)は次のようになる。ただし,X=x1,
x2,...,xTとする。
または、対数をとれば次式が得られる。
以上、何れの方式を用いるにしても最終的な認識結果
は、それぞれの単語vに対してHMMλをv=1〜Vに
ついて準備しておけば、入力音声信号Xに対して がXの認識結果となる。勿論、ここでのXは前記それぞ
の方法に応じて、入力されたラベル系列、特徴ベクトル
系列等である。
発明が解決しようとする課題 従来、音声認識に用いられている典型的なHMMは第3
図に示されるようなものである。図において、qiはi番
目の状態aijは状態qiから状態qjに遷移する遷移確率、b
i(x)はラベルあるいは特徴ベクトルxの状態qiにお
いて観測される確率密度である。
このとき、HMMの“状態"qiは、そのHMMに対する音声
の部分区間(セグメント)iに対応していると考えられ
る。従って、状態qiにおいてxの観測される確率密度bi
(x)は、セグメントiにおいてxが発生する確率密度
であり、遷移確率aijは時刻tにおけるxtがセグメント
iに含まれるとき、時点t+1におけるxt+1が再びセグ
メントiに含まれる確率であると解される。このような
考えに立てば、従来のHMMにおける問題点として次の2
点が指摘できる。
(1)関数bi(x)を規定するパラメータは、例えばx
が正規分布とした場合、平均ベクトルと共分散行列であ
るが、それらは状態qiに関して一定であるとしているの
で、音韻によっては特徴ベクトルの時間的な変化の特徴
(動的特徴)が重要であるにもかかわらず、従来のモデ
ルでは、その特徴が適切に表現できない。
(2)セグメントiの長さτはある確率分布に従ってい
るものと考えられるが、従来のモデルでは、遷移確率a
ij,aijは状態qiの連の長さとは無関係に一定であるとし
ているので、結果的にセグメントiの長さは幾何分布に
従うことになり、その分布形状は現実を適切に表現する
ものとはなっていない。
(2)の問題を解決する方法としては、状態qiの連の
長さτに関する確率密度関数di(τ)としてPoisson分
布やΓ分布を用いるものが既に公知である。
本発明の目的は、状態qiにおける特徴ベクトルの時間
的塩化傾向が、同一セグメント(状態)内においては時
間的に一定の傾向を持つと言う仮定のもとに、各状態毎
に神経回路網による非線形予測モデルを定義し、入力パ
ターンXに対する予測誤差信号の累積確率をそのモデル
のXに対する尤度と定義したHMMを構成することによっ
て(1)の問題を解決することにある。さらには、この
予測値を神経回路網によって得る構成とすることによっ
て、特徴ベクトルを構成する成分間の相関をも考慮した
モデルの実現を可能とするもである。
課題を解決するための手段 HMM記憶装置を、状態遷移確率を記憶する状態遷移確
率記憶手段と、入力パターンたる特徴ベクトル系列の時
刻tにおける特徴ベクトルをxtとするとき、xt以外の1
つまたは複数の特徴ベクトルからなる前記特徴ベクトル
系列の部分系列を入力し、状態毎に定義され、状態iに
おいては、前記部分系列を前記xtの予測値[xtに変
換する神経回路網と、この神経回路網の重み係数を記憶
する重み係数記憶手段と、前記予測値[xtと入力ベ
クトルxtとの予測誤差ベクトルを算出する予測誤差算出
手段と、この予測誤差算出手段の出力ベクトルの確率分
布を規定するパラメータを記憶する確率分布パラメータ
記憶手段とを備えた構成とする。
また、第1のHMM作成装置は、カテゴリvに対応する
第r(=1,2,…,R)の訓練用パターンをXr=xr 1,xr 2,…
xr Tとし、前記vに対応するHMMをMv、Mvの状態iで定義
されている予測器Piにより予測された前記ベクトルxr t
の予測値[xr tとxr tとの予測誤差ベクトルの、前記
Mvから得られる状態系列Srに対応する予測誤差系列を
Er、前記SrとErの同時確率密度のSrに関する総和をP
(Er|Mv)とするとき, を最大にするパラメータの推定を行うパラメータ推定手
段を含み、この推定されたパラメータを上記構成のHMM
のパラメータとする構成とする。
また第1のパターン認識装置は、認識すべきカテゴリ
v=1〜Vに対して設けられた上記構成のHMM記憶装置
と、入力パターンXに対応してカテゴリvに対応するモ
デルMvの任意に定められる状態系列をS、Sに対応する
上記構成のHMM記憶装置における神経回路網の出力たる
予測値に対する予測誤差ベクトル系列をEとするとき、
入力パターンXに対するMvの尤度を で定義し、この尤度をv=1〜Vについて計算する尤度
計算手段と、その最大値を与えるvを求める最大値判定
手段を含み、前記最大値を与えるvをとするとき、こ
のを認識結果と判定する構成とする。
さらに第2のパターン認識装置は、認識すべきカテゴ
リv=1〜Vに対して設けられた上記構成のHMM記憶装
置と、入力パターンXに対応してカテゴリvに対応する
モデルMvの任意に定められる状態系列をS、Sに対応す
る上記構成のHMM記憶装置における神経回路網の出力た
る予測値に対応する予測誤差ベクトル系列をEとすると
き、入力パターンXに対するMvの尤度を で定義し、この尤度をv=1〜Vについて計算する尤度
計算手段と、その最大値を与えるvを求める最大値判定
手段を含み、前記最大値を与えるvをとするとき、こ
のを認識結果を判定する構成とする。
さらに第2のHMM作成装置は、上記第2のパターン認
識装置の構成に記載の方法によって第r番の訓練パター
ンに対する最適の状態系列を求め、その状態系列上の状
態i部分に対応するフレーム数のr=1〜Rに対する分
布から、状態iの連長の確率分布di(τ)を求める連長
確率密度算出手段と、前記状態i部分に対応する特徴ベ
クトル系列から、上記構成のHMM記憶装置における神経
回路網の重み係数を求める重み係数計算手段と、状態i
部分に対応する予測誤差ベクトル系列からその分布を規
定するパラメータを求める確率分布パラメータ算出手段
とを備えた構成とする。
作用 HMM記憶装置は、状態遷移確率記憶手段により状態遷
移確率を記憶し、入力パターンたる特徴ベクトル系列の
時刻tにおける特徴ベクトルをxtとするとき、xt以外の
1つまたは複数の特徴ベクトルからなる前記特徴ベクト
ル系列の部分系列を入力し、状態毎に定義され、状態i
においては、前記部分系列を前記xtの予測値[xt
変換する神経回路網の重み係数を重み係数記憶手段によ
り記憶し、予測誤差算出手段により前記予測値[xt
と入力ベクトルxtとの予測誤差ベクトルを算出し、この
予測誤算算出手段の出力ベクトルの確率分布を規定する
パラメータを確率分布パラメータ記憶手段により記憶す
る。
第1のHMM記憶装置は、カテゴリvに対応する第r
(=1,2,…,R)の訓練用パターンを、Xr=xr 1,xr 2,…,x
r Tとし、前記vに対応するHMMをMv、Mvの状態iで定義
されている予測器Piにより予測された前記ベクトルxr t
の予測値[xr tとxr tとの予測画素ベクトルの、前記
Mvから得られる状態系列Srに対応する予測誤差系列を
Er、前記SrとErの同時確率密度のSrに関する総和をP
(Er|Mv)とするとき、 を最大にするパラメータの推定をパラメータ推定手段に
より行い、この推定されたパラメータを上記構成のHMM
のパラメータとする。
第1のパターン認識装置は、認識すべきカテゴリv=
1〜Vに対して設けられた上記構成のHMM記憶装置に記
憶されているパラメータを用い、入力パターンXに対応
してカテゴリvに対応するモデルMvの任意に定められる
状態系列をS、Sに対応する上記構成のHMM記憶装置に
おける神経回路網の出力たる予測値に対する予測誤差ベ
クトル系列をEとするとき、入力パターンXに対するMv
の尤度を で定義し、尤度計算手段によりこの尤度をv=1〜Vに
ついて計算し、その最大値を与えるvを最大値判定手段
により求め、前記最大値を与えるvをとするときこの
を認識結果と判定する。
第2のパターン認識装置は、認識すべきカテゴリv=
1〜Vに対して設けられた上記構成のHMM記憶装置に記
憶されているパラメータを用い、入力パターンXに対応
してカテゴリvに対応するモデルMvの任意に定められる
状態系列をS、Sに対応する上記構成のHMM記憶装置に
おける神経回路網の出力たる予測値に対する予測誤差ベ
クトル系列をEとするとき、入力パターンXに対するMv
の尤度を で定義し、この尤度を尤度計算手段によりv=1〜Vに
ついて計算し、その最大値を与えるvを最大値判定手段
により求め、前記最大値を与えるvをとするとき、こ
のを認識結果と判定する。
第2のHMM作成装置は、上記第2のパターン認識装置
の構成に記載の方法によって、第r番の訓練パターンに
対する最適の状態系列を求め、連長確率密度計算手段に
よって、その状態系列上の状態i部分に対応するプレー
ム数のr=1〜Rに対する分布から、状態iの連長の確
率分布di(τ)を求め、重み係数計算手段によって、前
記状態i部分に対応する特徴ベクトル系列から、上記構
成のHMM記憶装置における神経回路網の重み係数を求
め、確率分布パラメータ算数手段によって、状態i部分
に対応する予測誤差ベクトル系列からその分布を規定す
るパラメータを求める。
実施例 ここで、以後用いるべき記号の定義をまとめておく。
簡単のために、誤解を生じない限り、状態qi、qj等は単
にi、j等と表記することにする。また、モデルの学習
は単語vについて行う場合を述べることとし、区別する
必要のある場合はパラメータの右肩に添字vを付加し、
通常はこれを省くものとする。
i=1,2,…,I+1:第i番の状態(I+1を最終状態とす
る) [aij]:遷移マトリクス aij:状態iから状態jへの遷移確率 r:単語vに対する訓練パターン番号(r=1,…,R) xr t:訓練パターンrの第tフレームにおける観測ベクト
ル bi(xr i):状態iにおける、訓練パターンrのフレー
ムtの観測ベクトルXr tの確率密度 Wi u-1 f u g:状態iの神経回路網の第u−1層第fユニッ
トから第u層第gユニットへの接続における重み係数 Wi:状態iの神経回路網の重み係数の集合r t :Xrの部分系列を入力として得られる前記ニューラ
ルネットの出力ベクトル(xtの予測ベクトル) er t:予測誤差ベクトル(er tr t−xr tsr t:単語vに対する第r番の訓練パターンの第tフレー
ムにおける状態 Tr:単語vに対する第r番の訓練パターンのフレーム数 ξ1:状態iにおける神経回路網の重み係数、予測誤差ベ
クトルの確率分布、状態iの連の長さの確率分布を規定
するパラメータの集合 λ={λ}:全パラメータの集合(λをパラメータと
するモデルをモデルλと呼ぶ場合がある) P(X|λ):観測ベクトル系列Xがモデルλから発生す
る確率 qf:最終の状態(=sr T+1 単語vに対応するHMMを学習する方法について述べ
る。
問題は、単語vについて準備されたr=1〜Rの訓練
パターンに対して尤度関数P(X1,X2,…,XR|λ)を最大
にするパラメータλを推定することである。
Xrがお互いに独立であるとすれば で与えられる。ここで、次の補助関数Q(λ,λ′)を
定義する。
このとき、次のことが言える。
Q(λ,λ′)≧Q(λ,λ)のとき、P(X1,…XR|
λ′)≧P(X1,…XR|λ)であって、等号はλ′=λの
時に成り立つ。
故に、 を求めることが出来れば、→λとして式(9)を繰り
返し適用することによって、λはP(X1,…,XR|λ)の
停留点、即ち、P(X1,…,XR|λ)の極大値または鞍点
を与える点に収束することになり、P(X1,…,XR|λ)
の変化率が予め定めた閾値以下になるまでこの操作を繰
り返すことにより局所最適解が得られる。
次にQ(λ,λ′)を用いてパラメータを推定する方
法について説明する。
式(8)を変形すれば、次式が得られる。
前述の説明に従えば、Q(λ,λ′)をλ′の関数と
見なしてQ(λ,λ′)>Q(λ,λ)なるλ′を見出
せば、それはλの更新されたものとなるが、P(X1,…X
R|λ)はλ′に関しては一定値となるから、これは とするとき、Q(λ,λ′)>Q(λ,λ)なる
λ′を見出すことと同義である。ただし、ここでcr=1/
P(Xr|λ)とおいている。
式(11)はさらに次のようになる。
ここで考えているHMMはleft to rightのモデルであっ
て、一旦離れた状態には再び戻ることはないとすれば、
状態系列Srにおいて、状態iの開始時点をt(r,i)、
状態iの持続時間をτ(r,i)、即ち、τ(r,i)=t
(r,j)−t(r,i)(ただし、状態iの次の状態がjで
あるとする)とすれば(第4図参照)、式(12)から式
(13)、(14)が得られる。
ただし、i1を状態iの連における最初の状態を意味す
るものとするとき p(r,i,j,t,τ)P(Xr,sr t−τ=i1,sr t=j1|λ) とおいている。
ここで、P(Xr,sr t−τ=i1,sr t=j1|λ)はモデル
λにおけるXr,sr t−τ=i1、sr t=j1の同時確率密度で
あって、図示すれば、第5図における斜線部を通る径路
の生起確率密度の総和と言うことになる。これを用いる
ことによって式(13)、(14)における径路Srに関する
総和の計算は、2段階に分けて行うことが出来る。即
ち、先ず、t,τ,jの全範囲において前記斜線部を通る径
路についての総和計算を行い、得られた結果のt,τ,jの
全範囲にわたる総和を取ればよい。式(13)、(14)に
おける第1の式から第2の式への変化はこの考え方に基
づくものである。
p(r,i,j,t,τ)P(Xr,sr t−τ=i1,sr t=j1|λ)
は次のようにして求められる。
即ち、 とおけば、 である。
このとき なる漸化式が成り立つ。従って、αr 1(1)=1として
パラメータλに適当な初期値を与え、t=1〜Tr+1,j
=1〜I+1について式(17)に従ってαr t(j)を、
βr T r +1(I+1)=1としてt=Tr+1〜1、i=I
+1〜1について式(18)に従ってβr t(i)をそれぞ
れ順次計算して行けば、式(16)が計算できる。
遷移確率aijの推定 ラグランジュの未定乗数法により、aij′について∂
(λ,λ′)/∂aij′=0を解く。即ち、式(1
3)を用いて より、 であるから、両辺にaij′を掛けて、j=1〜I+1に
ついて総和を取れば、 となる。故にaijの推定値は となる。
状態の連長の確率密度の推定 状態iの連の長さの確率密度を規定するパラメータを
推定する。例えばaij=γ(const.)の場合は di(τ)=γ τ−1(1−γ) となり、式(14)よりξ′=γ′とおけば であるから、γの再推定式は となる。
他の例として、Poisson分布で当てはめを行うとすれ
ば、 であるから、同様にして から式(17)により与えられる。
bi(x)のパラメータの推定 bi(x)は従来HMMにおいては特徴ベクトルxの状態
iにおける確率密度として定義されるのが普通であっ
た。
本発明は、入力音声信号の時刻tにおける特徴ベクト
ルxtに対する予測値を各状態毎に定義された神経回路網
(ニューラルネット)で構成された非線形予測器により
予測し、予測値を得、その予測誤差の確率密度をbi
(xt)とするものである。
例えば、xt-1,xt-2,…,xt-Mからxtを予測するものと
し、この予測誤差が正規分布で与えられるものとすれ
ば、 対数を取れば となる。ここで、Wiは状態iにおけるニューラルネット
の重み係数の集合、g(xt-1,…,xt-M;Wi)はWiで特性
付けられるニューラルネットの入力xt-1,…,xt-Mに対す
る出力であって、=g(xt-1,…,xt-M;Wi)であ
る。また、Σ=[σimn]=[σi mn-1はxt
分散共分散行列である。従って、この場合推定すべきパ
ラメータは、分散共分散行列Σと重み係数Wiである。
第6図は本発明で用いる並列型のニューラルネットの
一例である。○はユニットと呼ばれるものである。ユニ
ット間を結ぶ矢線は信号の流れる方向を示し、矢線の根
元につながっているユニットの出力は、矢線毎に与えら
れている重み係数が乗ぜられて矢の先端部のユニットへ
の入力となる。ユニットの横一例の並びは層と呼ばれ
る。本例は3層からなるニューラルネットを示してい
る。ニューラルネットへの入力が直接つながるユニット
からなる層は入力層、その出力がニューラルネットから
の出力そのものとなるユニットからなる層は出力層、そ
れら以外の層は隠れ層と呼ばれる。本例では、第1層が
入力層、第2層が隠れ層、第3層が出力層と言うことに
なる。各ユニットにおける、入力の総和とその出力との
関係は、いわゆるシグモイド関数と呼ばれる関数で与え
られる特性を持たせるのが一般的である。第7図はシグ
モイド関数の一例を示している。通常、入力層は入力そ
のものを伝えるだけである。
例えば、xr t-2とxr t-1からxr tを予測する場合は xr t(xr t,1,xr t,2,…,xr t,d とすれば、ニューラルネットの構成は第8図のようにな
る。
次にこれらパラメータの推定方法について説明する。
(a)重み係数の推定 状態iにおける第u−1層の第fユニットから第u層
の第gユニットへの結合の重み係数をwi u-1 f u gとすれ
ば、学習interationにおける重み係数の修正両は式(2
3)のようになる。
ここで、ζi,r,j,t,τ,k u gを第rの学習パターンに対
して、sr t−τ=i1、sr t=j1のときの状態iにおける
第u層の第gユニットへの入力の総和、oi,r,j,t,τ,k u
gを同様な条件に対する状態iにおける第u層の第gユ
ニットの出力、f(・)を各ユニットにおけるシグモイ
ド関数とすれば、式(23)の右辺の偏微分は次のように
変形できる。
ここで、u≠U(最終層)のときは次式が成立する。
最終層Uにおいては、第g層のユニットの出力を予測
誤差ベクトルet=xtの第g成分に対応させれば、 er t−τ−1+k,g=f(ζi,r,j,t,τ,k u g′) であるから、 となる。
故に、 とおけば、式(24)、(25)、(26)は次のように書け
る。
故に、パラメータ推定のinterationにおいて、Q
(λ,λ′)の状態iにおける重み係数wi u-1 f u g′に
関して局所最大値を与える点は次のステップで推定され
る。
(w1)wi u f u-1 g′の初期値をu,u−1,f,gの取り得る全て
について与える。
(w2)oi,r,j,t,τ,k u g′をr,j,t,τ,k,u,gの取り得る
全てについて計算する。
(w3)L1=Q(λ,λ′)を計算する。
(w4)式(26′)によってZi,r,j,t,τ,k u g′をr,j,t,
τ,k,gの取り得る全てについて求める。
(w5)式(25′)によってZi,r,j,t,τ,k u g′をr,j,t,
τ,k,gの取り得る全てについて求める。ここで、uに関
しては、u=U,U−1,…,1の順番に漸化的に求められ
る。
(w6)式(24′)、式(23)よりΔwi u-1 f u g′をu,f,g
の全てについて計算する。
(w7)wi u-1 f u g′+Δwi u-1 f u g′→wi u-1 f u g′として
oi,r,j,t,τ,k u g′をr,j,t,τ,k,gの取り得る全てにつ
いて計算する。
(w8)L2=Q(λ,λ′)を計算する。
(w9)L1に対するL2の改善比率が設定値以下であれば、
wi u-1 f u g′→wi u-1 f u gとして状態iにおける重み係数推
定の1回分の処理を終了する。
前記改善比率が前記設定値より大きければ、 L2→L1としてステップ(w4)へ戻る。
(b)分散共分散行列の推定 σimnの余因子をAimni mnの余因子をAi mnとすれ
ば、σimn=σinmi mn=σi nm従って、Ai mn=Ai nm,Ai
mn=Ai nmであることに注意して、 を用いれば であるから、 となる。故に となるからΣの再推定値は次のようになる。
ただし、ここで、 とおいている。
パラメータ推定の実際の計算手順は次のようになる。
単語Vに対応するモデルλを作成するに当たって、
単語Vに対応するパターン (r=1〜R;xr tはパターンrの第t番の特徴ベクト
ル、Trはパターンrのフレーム数)が訓練用パターンと
して与えられているものとする。また、j>iで、i=
1〜I,i=1〜I+1とし、di(τ)=γ τ−1(1
−γ)とする。
初期値設定 (1)i=1〜Iについて に適当な初期値を与える。
遷移確率の推定 (2)r=1〜Rについてステップ(3)を実行する。
(3)t=2〜Tr+1,τ=1〜t−1,i=1〜I,j=1〜
I+1についてλ={λ}として式(16)〜(18)に
従ってp(r,i,j,t,τ),crを計算する。また、次式に
従ってaij,num(r),aij,denom(r)を計算する。
(4)i=1〜I,j=1〜I+1についてaijの推定値を
式(19)に従って計算する。
(5)i=1〜I,j=1〜I+1について においてaijijなる書換えを行う。
状態の連長の確率分布パラメータの推定 (6)r=1〜Rについてステップ(7)を実行する。
(7)t=2〜Tr+1,τ=1〜t−1,i=1〜I,j=1〜
I+1についてλ={λ}として式(16)〜(18)に
従ってp(r,i,j,t,τ),crを計算する。また、次式に
従ってγi,num(r),γi,denom(r)を計算する。
(8)i=1〜Iについてγの推定値を式(20)に従
って計算する。
(9)i=1〜Iについて においてγなる書換えを行う。
重み係数の推定 (10)r=1〜Rについてステップ(11)〜(12)を実
行する。
(11)t=2〜Tr+1,τ=1〜t−1,i=1〜I,j=1〜
I+1についてλ={λ}としてq(i,j,t,τ),cr
を計算する。
(12)神経回路網の重み係数の推定をi=1〜Iについ
て前記ステップ(w1)〜(w9)に従って行う。第u−1
層第mユニットから第u層第uユニットへの重み係数の
推定値をi u-1 m u nとする。
(13)i=1〜Iについて において、wi u-1 m u ni u-1 m u n(for all u,m,n)なる
書換えを行う。
分散共分散行列の推定 (14)r=1〜Rについてステップ(15)を実行する。
(15)t=2〜Tr+1,τ=1〜t−1,i=1〜I,j=1〜
I+1についてλ={λ}として式(16)〜(18)に
従ってp(r,i,j,t,τ),crを計算する。また、次式を
計算する(式(28),(29))。
(16)i=1〜IについてΣの推定値を式(27)に従
って計算する。
(17)i=1〜Iについて においてΣなる書換えを行う。
パラメータの改善度の評価 (18)λ={λ}として を計算する。
(19)|L1−L2|/L1>δならL1=L2としてステップ
(2)へそうでなければ終了する。
前記ステップ(19)におけるδは収束の幅を決める適
当に小さな正の数であって、これが小さいとパラメータ
の推定の精度は上がるが収束に時間がかかるとか、“学
習のし過ぎ”と言った状況の生じることがある。ここ
で、“学習のし過ぎ”とは、学習interationを繰り返す
につれて各パラメータは学習サンプルに対しては幾らで
も“最適化”されるが、これは飽くまで学習サンプルに
対してであって、同じ母集団に属するサンプルであって
も,学習サンプル以外のサンプルに対しては必ずしも最
適化されるとは限らないからである。勿論、学習サンプ
ルの数が十分にあって、その属すべき母集団の特性がそ
こに十分に反映されているときはこの限りではない。ま
た、δが大きいと収束は速くなるが精度は悪くなる。従
って、δの値は状況によって実用的な値が選ばれる。
第1図は、本発明のHMM作成装置の一実施例である。
本実施例においては、aij=1(for j=i+1),aij
0(for j≠i+1)の場合であって、以下図面に従っ
て説明する。
801は特徴抽出部であって、周知の方法によって、訓
練単語r=1〜Rの音声信号を特徴ベクトルの系列 に変換するものである。
802は単語パターン記憶部であって、モデルλを作成
するための訓練用単語を前記特徴ベクトル系列の形で複
数個(本例ではR個)記憶するものである。
803はバッファメモリであって、単語パターン記憶部8
02に記憶されている単語パターンを1つづつ取り出して
一時的に記憶するものである。
804は状態iにおけるパラメータを推定するに先だっ
て、p(r,i,j,t,τ),crを計算するものである。
805は連長期待値計算部であって、状態iの連の長さ
τ及びτ−1の、径路に関する期待値を計算するもので
ある。これは式(20)に示される遷移確率の式の分母及
び分子である。さらにここでは計算された前記τの期待
値は式(28)に示される誤差信号の分散共分散行列を与
える式の分母ともなる。
811は誤差分散共分散行列分子計算部であって、式(2
9)を計算するものである。
813は第1のパラメータ(重み係数)計算部であっ
て、前記ステップ(W1)〜(w9)の計算を行い、重み係
数の推定値i u-1 f u gを得るものである。
806は第一の累積和計算部であって、連長計算部805で
計算された値の、訓練単語に関する累積和を計算するも
のである。
812は第二の累積和計算部であって、誤差分散共分散
分子計算部811で計算された値の訓練単語に関する累積
和を計算するものである。
807は第二のパラメータ計算部であって、前記第一、
第二の累積和計算部806、812で計算されたそれぞれのパ
ラメータの分子、分母の比をとることにより、前記状態
iにおける遷移確率γ、予測誤差の分散共分散Σ
れぞれの推定値を求めるものである。
808はパラメータ記憶部であって、前記推定されたパ
ラメータを記憶するものである。
809は全体尤度計算部であって、パラメータ記憶部809
に記憶されたパラメータ推定値から尤度P(Xr|λ)の
rに関する総和を求めるものである。
810は、全体尤度計算部809で計算された全体尤度を記
憶するものである。
816は制御部であって、前記各機能ブロックに対す
る、諸量の設定、それらの動作に関する各種の指令等を
行うものである。
例えば、単語vに対応するモデルλの作成は次のご
とく行われる。
単語vをR回発声し、特徴抽出部801によって特徴の
系列に変換されたR個のパターンが単語パターン記憶部
802に記憶される。単語パターン記憶部802から、制御部
816からの学習単語読み出し指令によって、r番目(r
=1〜R)の単語パラターンXrが読み出され、バッファ
メモリ803に記憶される。前記パラメータの計算におけ
るt,τが前記制御部816からの区間設定信号としてバッ
ファメモリ803に供給され、それに対応するバッファメ
モリ803に記憶された単語パターンXrの区間に対し、部
分尤度計算部804は、p(r,i,j,t,τ),crを計算する。
この値を基に連長期待値計算部805により、γの分母
分子が計算される。このとき、これら分母分子に含まれ
るパラメータは、パラメータ記憶部808に状態iにおけ
るパラメータとして記憶されている値λ={γ,i,Wi,
Σ}を用いる。第一の累積和計算部806は前記訓練単
語パターンXr(r=1〜R)についての前記分母分子の
累積和をそれぞれ計算する。パラメータ計算部807はこ
のようにして求められた訓練単語パターンXrのr=1〜
Rの状態iについての前記分母分子の累積和からその比
をとって状態iの遷移確率γの新たな推定値を計算す
る。これをi=1〜Iについて行う。パラメータ記憶部
808はこのようにして得られた遷移確率の新しい推定値
を古いものと取り替えて、単語vに対応する更新された
パラメータλ={λv i}として記憶する。この更新され
たパラメータλを基に全体尤度計算部809により、前記
説明に従って訓練単語全単語に対する尤度を求め、更新
前のパラメータに対して既に計算され、全体尤度記憶部
810に記憶されている尤度と比較され、その判定結果が
制御部816に送られると共に、前記計算された新たな尤
度が全体尤度記憶部810に記憶される。制御部816は前記
判定結果を基に改善の効果が予め定めた閾値以下になれ
ば、パラメータの推定計算を打ち切り、その閾値以上で
あれば、まだ改善の余地があるとして、今度は式(28)
に従って予測誤差の分散共分散の推定を行う。
即ち、単語パターン記憶部802から、制御部816からの
学習単語読み出し指令によって、r番目(r=1〜R)
の単語パターンXrが読み出され、バッファメモリ803に
記憶される。前記パラメータの決算におけるt、τが前
記制御部816からの区間設定信号とバッファメモリ803に
供給され、それに対応するバッファメモリ803に記憶さ
れた単語パターンXrの区間に対し、部分尤度計算部804
はp(r,i,j,t,τ),crを計算する。この値を基に連長
期待値計算部805により、前記説明に従って、予測誤差
の分散共分散の分母が計算され、誤差分散共分散分子計
算部811により予測誤差の分散共分散の分子が計算され
る。このとき、これら分母分子に含まれるパラメータ
は、パラメータ記憶部808に状態iにおけるパラメータ
として記憶されている値λ={γi,Wi}を用い
る。第一の累積和計算部806は前記訓練単語パターンXr
(r=1〜R)についての前記分母の、第二の累積和計
算部812は分子の累積和をそれぞれ計算する。パラメー
タ計算部807はこのようにして求められた訓練単語パタ
ーンXrのr=1〜Rの状態iについての前記分母分子の
累積和からその比をとって状態iの予測誤差の分散共分
散の新たな推定値を計算する。これをi=1〜Iについ
て行う。パラメータ記憶部808はこのようにして得られ
た予測誤差の分散共分散の新しい推定値を古いものと取
り替えて、単語vに対応する更新されたパラメータλ=
{λv i}として記憶する。この更新されたパラメータλ
を基に全体尤度計算部809により、前記説明に従って訓
練単語全単語に対する尤度を求め、更新前のパラメータ
に対して既に計算され、全体尤度記憶部810に記憶され
ている尤度と比較され、その判定結果が制御部816に送
られると共に、前記計算された新たな尤度が全体尤度記
憶部810に記憶される。制御部816は前記判定結果を基に
改善の効果が予め定めた閾値以下になれば、パラメータ
の推定計算を打ち切り、その閾値以上であれば、まだ改
善の余地があるとして、今度は重み係数Wiの推定を行
う。即ち、単語パターン記憶部802から、制御部816から
の学習単語読み出し指令によって、r番目(r=1〜
R)の単語パターンXrが読み出され、バッファメモリ80
3に記憶される。前記パラメータの計算におけるt、τ
が前記制御部816からの区間設定信号としてバッファメ
モリ803に供給され、それに対応するバッファメモリ803
に記憶された単語パターンXrの区間に対し、部分尤度計
算部804は、p(r,i,j,t,τ),crを計算する。この値を
基にパラメータ計算部813により、前記説明に従って、
重み係数が計算される。このとき、これら計算に含まれ
るパラメータは、パラメータ記憶部808に状態iにおけ
るパラメータとして記憶されている値λ{γi,Wi
}を用いる。第一の累積和計算部806は前記訓練パタ
ーンXr(r=1〜R)についての前記分母の、第二の累
積和計算部812は分子の累積和をそれぞれ計算する。パ
ラメータ計算部807はこのようにして求められた訓練単
語パターンXrのr=1〜Rの状態iについての前記分母
分子の累積和からその比をとって状態iの予測誤差の分
散共分散の新たな推定値を計算する.これをi=1〜I
について行う。パラメータ記憶部808はこのようにして
得られた予測係数の新しい推定値を古いものと取り替え
て、単語vに対応する更新されたパラメータλ=
{λv i}として記憶する。この更新されたパラメータλ
を基に全体尤度計算部809により、前記説明に従って訓
練単語全単語に対する尤度を求め、更新前のパラメータ
に対して既に計算され、全体尤度記憶部810に記憶され
ている尤度と比較され、その判定結果が制御部816に送
られると共に、前記計算された新たな尤度が全体尤度記
憶部810に記憶される。制御部816は前記判定結果を基に
改善の効果が予め定めた閾値以下になれば、パラメータ
の推定計算を打ち切り、その閾値以上であれば、まだ改
善の余地があるとして、再び遷移確率の計算に戻る。同
様な計算を前記判定結果を基に改善の効果が予め定めた
閾値以下になるまで繰り返すことにより、λ={λv i
は一定の値に収束し、それが求めるべきパラメータとな
る。) 次に、以上のようなモデルを用いて実際の入力音声を
認識する方法及び装置について説明する。
いわゆる厳密解は、未知入力パターンXが入力された
とき、P(X|Mv)をv=1〜Vについて計算し、P(X|
Mv)の最大値を与えるvを認識結果とすればよい。これ
は、前記モデルの作成過程において、入力ターンXrに対
するモデルMの尤度cr=P(Xr|M)を求める過程におい
て、XrをXにMをMrに単に置き換えただけである。
第10図は第1の音声認識装置の一実施例である。210
は特徴抽出部であって、第1図801と同じものである。2
02はHMM記憶部であって、認識すべき各カテゴリに対応
するHMMのパラメータが記憶されている。203は尤度計算
部であって、 を各Vについて計算する。具体的には、認識すべき入力
特徴ベクトル系列をX=x1,x2,...,xT,Xに対するモデル
Mvの途中累積尤度をαv,t(j)=P(x1,x2,...,xt-1,
st=i1)とおき,bi(xt)を式(22)で定義する。
このとき、式(17)の導出と同じようにして なる漸化式が導かれる。従って、αv,1(1)=1とし
て、この漸化式を計算すると、MvのXに対する尤度は、 として求められる。比較判定部204はこれを最大にする
vをとして出力する。即ち、が認識結果である。
既に述べたように、第10図203の尤度計算部における
尤度を で定義することもできる。これは、前記式(2′)に相
当する近似解を求める方法に相当する.この場合は、前
記αの代わりにφを で定義し、φ(1,1)=1としてこの漸化式を計算す
ると、MvのXに対する尤度は、 として求められる。比較判定部204はこれを最大にする
をvとして出力する。即ち、が認識結果である。
ここで、上記α、φの漸化式の計算は、i,t,τの可能
なあらゆる組み合わせについて行う必要があり、計算量
が膨大になる。次に、この計算量は次のようにすれば削
減することができる。この方法は,前記αを計算すると
きも同様に適用できるものであるが,簡単のために、前
記後者の方法(Viterbi法)について、また、状態iの
次は状態iまたは状態i+1にのみ遷移する場合につい
て、ある1つのモデルと照合する場合について説明する
(添え字vは省略)。
この計算値は、過去の計算値を用いることによって、
削減することが出来る。ここで、後の議論の便宜のため
に次なる量を定義する。
このとき、次の事が言える。
B(i,t,1)=bi(xi-1) B(i,t,2)=B(i,t,1)bi(xi-2) B(i,t,3)=B(i,t,2)bi(xi-3) …………… B(i,t,τ)=B(i,t,τ−1)bi(xt−τ) ……………(32) また、di(τ)はτ=1〜Tについて予め計算してテ
ーブルに記憶しておく。このとき、式(31)は次の手順
で計算できる。ただし、B(i,t,0)=1とする。
(1)τ=1〜t−1について次式を実行 B(i,t,τ)=B(i,t,τ−1)bi(xt−τ) η(τ)=φ(i,t−τ)B(i,t,τ)di(τ) ……………(33) 第9図は以上の原理に基づく装置の一実施例である。
901は特徴抽出部であって、入力音声信号を特徴ベク
トルの系列x1,x2,…,xTに変換する。
902はバッファメモリであって、前記特徴ベクトルの
系列x1,x2,…,xTを一時的に蓄えるものである。
903はフレームベクトル発声確率計算部であって、フ
レームt−1における予測誤差xt-1t-1の確率密度 を計算するものである。
904はパラメータ記憶部であって、前記確率密度の計
算に必要な確率密度関数のパラメータを記憶する部分で
ある。即ちi=1〜I−1におけるγi,Wiを記憶
している。
905は累積確率密度計算部であって、式(32)に従っ
て、B(i,t,τ)を計算するものである。
907は状態持続時間確率密度計算部であって、パラメ
ータ記憶部904に記憶されている状態iの連の長さの確
率密度を規定するパラメータから、状態iの連の長さが
τになる確率密度di(τ)をτ=1〜Tについて計算
し、記憶するものである。
906は累積確率密度記憶部であって、前記累積確率密
度計算部905の計算結果を逐次記憶するものである。そ
の記憶内容を読み出すことによって前記累積確率密度計
算部905において、式(33)の計算が漸化的に行われ
る。
908は漸化式計算部であって、状態持続時間確率密度
記憶部の記憶内容を読みだし、累積確率密度計算部905
の出力と共に、前記ステップ(1),(2)を実行する
ことによって、式(31)をi=1〜I,t=1〜T+1に
ついて計算し、最終的にφ(I+1,T+1)を求めるも
のである。
909は途中率席確率密度記憶部であって、式(31)に
従って漸化式計算部908で計算される途中累積確率密度
φ(i,t)を逐次記憶し、この記憶された途中累積確率
密度は漸化式計算部908における以後の漸化式計算に用
いられる。
911は区間設定信号発生部であって、フレーム番号
t、状態番号i、状態qiの連の長さτを順次設定するも
のであって、これらの値は前記各ブロックに供給され、
i,t,τの種々の値について前記処理が行われる。
以上のようにして、求められたφ(I,T+1)が前記
モデルλからベクトル系列xi,x2,…,xτが発生する確率
密度を与えることになる。
なお、漸化式(30)の両辺の対数をとることにより、
式(30),(32)〜(33)は次の式(30′),(32′)
〜(33′)のように掛け算を足し算に変換することが出
来る。
ただし、式(30′),(32′)〜(33′)において Φ(i,t)=log φ(i,t) Δ(i,τ)=log di(τ) Γ(i,t,τ)=log B(i,t,τ) Θ(i,xt)=log bi(xt) とする。このとき Γ(i,t,τ)=Γ(i,t,τ−1)+Θ(i,xt) ………(32′) H(τ)=Φ(i,t−τ)+Γ(i,t,τ)+Δ(i,τ) ………(33′) であって、前記ステップ(1),(2)は次のようにな
る。
(1)τ=1〜t−1について次式を実行 Γ(i,t,τ)=Γ(i,t,τ−1)+Θ(i,xt−τ) H(τ)=Φ(i,t−τ)+Γ(i,t,τ)+Δ(i,
τ) この場合の実施例は、第9図において、前記式(3
0),(32)〜(33)に対応して行っていた各ブロック
における計算を前記式(30′),(32′)〜(33′)に
変更するのみであり、構成自体はまったく同じである。
このようにすることによって、得られる結果は同じであ
るが、計算量を大幅に減ずることが出来る。
なお、モデルの作成は、本発明においては前記ステッ
プ(1)〜(19)のような方法の他に、前記漸化式(3
0)あるいは(30′)により、それぞれのrについて尤
度最大の径路を求め、その径路の状態i部分に対応する
特徴ベクトル系列から、前記bi(x)のパラメータと状
態の連長の分布di(τ)のパラメータを計算する方法,
即ち,Viterbi法によってモデルのパラメーターを推定す
ることもできる。式(17)に対応して,いま、あるモデ
ルのパメータを推定するための第r(=1,2,...,R)の
訓練パターンに対する前記φと同様な漸化式を とおき、この漸化式を満足するiをψ(j,t)=、
τを とし、この漸化式を計算すると同時にψ(j,t)、ω
(j,t)を記憶して行く。このようにt=1,2,...,Tr
+1、j=1,2,...,J+1まで順次計算してゆけば、最
終の状態J+1の一つ手前の状態はs-1=ψ(J+1,T
r)、その状態の開始フレームはt-1=ω(J+1,Tr
1)で与えられる。また、その一つ前の状態はs-2=ψ
(s-1,t-1)、その状態の開始フレームはt-2=ω
(s-1,t-1)であり、順次代入して行くことにより、
逆の順序で最適の状態系列が求められる。従って、式
(19)に対応する式は となる.ただし、 N(i,j)=状態iと、状態iの次に状態jをとる状
態系列を持つ訓練パターンの数 N(i)=状態iを含む状態系列を持つ訓練パターン
の数 である。また、式(20)に対応する式は となる.ただし、τ(r,i)は、第rの訓練パターンに
対する状態系列における状態iの連の長さである。ま
た、式(21)に対しては となる。
また,式(24′)に対応して次式が得られる。即ち、
各状態毎に予測誤差の累積値が最小になるように重み係
数を決定すればよい。ここで, τ(r,i):第rの訓練パターンの第i状態の連長 t(r,i):第rの訓練パターンの第i状態の開始フ
レーム oi,r,t(r,i),τ(r,i),k u-1 f:第rの訓練パター
ンの第i状態の連(開始フレーム) t(r,i),連長τ(r,i))のk番目の状態におけ
る,第u−1層の第fユニットの出力とし, とおけば、式(24′),(25′),(26′)と同様にし
て,それぞれに対応して式(24″),(25″),(2
6″)が以下のように得られる。
故に、パラメータ推定のinterationにおいて、φ
(j,t)の状態iにおける重み係数wi u-1 f u g′に関し
て局所最大値を与える点は次のステップで推定される。
(w1)wi u f u-1 g′の初期値をu,u−1,f,gの取り得る全て
について与える。
(w2)oi,r,t(r,i),τ(r,i),k u g′をr,t,τ,k,u,
gの取り得る全てについて計算する。
(w3)L1=L(i)を計算する。
(w4)式(26″)によってZ
i,r,t(r,i),τ(r,i),k U g′をr,t,τ,k,gの取り得
る全てについて求める。
(w5)式(25″)によってZ
i,r,t(r,i),τ(r,i),k u g′をr,t,τ,k,u,gの取り
得る全てについて求める。ここで、uに関しては、u=
U,U−1,…,1の順番に漸化的に求められる。
(w6)式(24″)、Δwi u-1 f u g′=−ε∂L(i)/wi
u-1 f u g′より,Δwi u-1 f u gをu,f,gの全てについて計算
する。
(w7)wi u-1 f u g′+Δwi u-1 f u g′→wi u-1 f u g′としてo
i,r,t(r,i),τ(r,i),k u g′をr,t,τ,k,u,gの取り
得る全てについて計算する。
(w8)L2=L(i)を計算する。
(w9)L1に対するL2の改善比率が設定値以下であれば、
wi u-1 f u g′→wi u-1 f u gとして状態iにおける重み係数推
定の1回分の処理を終了する。
前記改善比率が前記設定値より大きければ、L2→L1
してステップ(w4)へ戻る。
分散共分散の再推定式は次のようになる. 第11図はモデル作成装置の一実施例である。111は前
記と同様な特徴抽出部であって,入力音声を特徴ベクト
ルの系列に変換する.112は単語パターン記憶部であっ
て,そのモデルを作成すべき単語について,r=1〜Rの
パターンを記憶する.113はモデルのパラメータ記憶部で
あって,訓練の最初に当たっては,適当な初期値が設定
され,訓練の途中にあっては,次々と更新されたパラメ
ータが記憶され,最終的には求むべきパラメータが記憶
される.114はViterbi演算部であって,式(17′)の漸
化式を計算し,N(i,j),N(i),τ(r,i),t(r,i)
をr,i,jの可能な組み合わせすべてについて算出する.11
5は全体尤度計算部であって, を計算し,記憶する.116はパラメータ再推定部であっ
て,式(19′),(20′)または(21′),(24″),
(25″),(26″),(27′)に従って前回よりも更新
されたパラメータを再推定する.パラメータ記憶部113
のパラメータは,116で再推定の都度,そこで更新された
パラメータに書き換えられる.117は尤度改善度計算部で
あって,1段階前の再推定時と,現段階における再推定時
の全体尤度を比較し,その改善度を計算し,その値があ
らかじめ定めた閾値以下になると収束完了と判断し,パ
ラメータの再推定を停止する信号を出力し,前記改善度
が前記閾値以上であるときは,再推定を続行する信号を
出力する.再推定が停止したときのパラメータ記憶部11
3の内容が最終的に求められるべきパラメータ値という
ことになる.なお,再推定の繰り返しを続行するか否か
の判断は,再推定回数に上限を設け,再推定回数がこの
上限に到達した時を以て収束したと見なしたり,前記実
施例の方法と併用したりすることもできる(即ち,何れ
か一方の収束条件に到達した時を以て収束と判定する
等).これは,厳密解における場合も同様である. なお、上記実施例においては、同一状態における遷移
確率は、その停留回数に関わりなく一定として説明した
が、前記di(τ)をΓ分布やPoisson分布で与えること
も勿論可能である。この場合は仮定した分布のパラメー
タを訓練データから推定することになり、本発明で述べ
た方法により、同様に求められる。
発明の効果 以上のように、本発明により、各状態毎に神経回路網
による非線形予測モデルを定義し、入力パターンXに対
する予測誤差信号の累積確率をそのモデルのXに対する
尤度と定義したHMMを構成することによって、入力パタ
ーンのスペクトルの成分間の相関も含めて動的特徴が表
現可能となり、従来に比べてより高精度の時系列パター
ンの認識を可能とする確率モデルの実現が可能となっ
た。
【図面の簡単な説明】 第1図は本発明によるHMMのパラメータ推定を行う装置
の一実施例を示すブロック図、第2図はHMMを用いた音
声認識装置の従来例を説明するブロック図、第3図は従
来のHMMの構成を示すHMMの構成図、第4図は本発明のHM
Mの概念を示すトレリス線図、第5図は本発明のHMMのパ
ラメータを推定する方法を説明する説明図、第6図は神
経回路網モデルの一般的説明図、第7図は神経回路網モ
デルで用いられるシグモイド関数の例を示す図、第8図
は本発明のHMMに用いられる神経回路網モデルの構成
図、第9図は本発明の原理により構成されたHMMに対し
てそのモデルから発生する未知入力パターンの発生尤度
を計算する尤度計算装置の一実施例を示すブロック図,
第10図は本発明による音声認識装置の一実施例を説明す
るブロック図,第11図は本発明によるパラメータ推定装
置の他の実施例を示すブロック図である。 801……特徴抽出部 802……単語パターン記憶部 803……バッファメモリ 804……部分尤度計算部 805……連長期待値計算部 806……第一の累積和計算部 807……第二のパラメータ計算部 808……パラメータ記憶部 809……全体尤度計算部 810……全体尤度計算部 811……誤差分散共分散行列分子計算部 812……第二の累積和計算部 813……第1のパラメータ計算部 816……制御部
フロントページの続き (56)参考文献 特開 平3−181999(JP,A) 特開 昭63−15299(JP,A) 特開 平3−15898(JP,A) 特開 平2−296298(JP,A) 特開 昭63−183499(JP,A) 米国特許5307444(US,A) Proceedings of IE EE International C onference on Patte rn Recognition 1988 Vol.1,”Planning,Ne ural Nerworks and Markov Models for Automatic Speech R ecognition”,p.395−402 Proceedings of IE EE International C onference on Acous tics,Speech and Si gnal Processing, 1989,”Alocus model o f coarticulation i n an HMM speech re cognizer”,p.97−100 Proceedings of IE EE International C onference on Acous tics,Speech and Si gnal Processing, 1990,”ATR HMM−LR Con tinuous Speech Rec ognition System”, p.53−56 Proceedings of IE EE International C onference on Acous tics,Speech and Si gnal Processing, 1990,”Combining Hidd en Markov Model an d Neural Network C lassifiers”,p.417−420 Proceedings of IE EE International C onference on Acous tics,Speech and Si gnal Processing, 1990,”TDNN Labeling for a HMM Recogniz er”,p.421−423 Proceedings of IE EE International C onference on Acous tics,Speech and Si gnal Processing, 1990,”Speaker−indepe ndent word recogni tion using a neura l prediction mode l”,p.441−444 IEICE Transaction s on Information a nd Systems Vol.E78− D,No.6,June 1995,”Ne ural Predictive Hi dden Markov Model for Speech Recogni tion”,p.676−684 IEEE Transactions on Neural Network s,Vol.3,No.2,March 1992,”Gloabal Optim aization of a Neur al Network−Hidden Markov Model Hybri d”,p.252−258 電子情報通信学会技術研究報告 Vo l.87,No.299,SP87−97,「音 声スペクトルの動的特徴を考慮したHM M」,p.1−6 電子情報通信学会技術研究報告 Vo l.88,No.329,SP88−107,「時 系列信号の動的特徴を反映したHMMの 定式化と線形予測係数をパラメータとす る場合への適用」,p.9−16 電子情報通信学会技術研究報告 Vo l.89,No.90,SP89−23,「ニュ ーラルネットワークによる予測モデルを 用いた音声認識」,p.81−87 電子情報通信学会技術研究報告 Vo l.89,No.340,SP89−83,「ニ ューラルネット駆動型HMM」,p.55 −62,(1989/12/14) 電子情報通信学会技術研究報告 Vo l.91,No.95,SP91−14,「時系 列処理機能をもつ階層型ニューラルネッ トワーク」,p.63−70 電子情報通信学会技術研究報告 PR U89−11,ニューラルネットワークによ る多重HMMの近似と音声認識への適 用」,p.79−86 1989年電子情報通信学会秋季全国大会 講演論文集 分冊6「SD−11−1ニュ ーラルマルコフモデルによる時系列音声 パターンの認識」,p.6−276〜6− 277 1989年電子情報通信学会秋季全国大会 講演論文集 分冊1「SA−1−2ニュ ーラルマルコフモデル−2重HMMの実 現−」,p.1−331〜1−332 (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 535 G10L 3/00 539 G10L 9/10 301 JICST科学技術文献ファイル

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】状態遷移確率を記憶する状態遷移確率記憶
    手段と、入力パターンたる特徴ベクトル系列の時刻tに
    おける特徴ベクトルをxtとするとき、xt以外の一つまた
    は複数の特徴ベクトルからなる前記特徴ベクトル系列の
    部分系列を入力し、状態毎に定義され、状態iにおいて
    は、前記部分系列を前記xtの予測値[xtに変換する
    神経回路網と、この神経回路網の重み係数を記憶する重
    み係数記憶手段と、前記予測値[xtと入力ベクトル
    xtとの予測誤差ベクトルを算出する予測誤差算出手段
    と、この予測誤差算出手段の出力ベクトルの確率分布を
    規定するパラメータを記憶する確率分布パラメータ記憶
    手段とを備えたことを特徴とするHMM記憶装置。
  2. 【請求項2】カテゴリvに対応する第r(=1,2,…,R)
    の訓練用パターンをXr=xr 1,xr 2,…,xr Tとし、前記vに
    対応するHMMをMv、Mvの状態iで定義されている予測器P
    iにより予測された前記ベクトルxr tの予測値[xr t
    とxr tとの予測誤差ベクトルの、前記Mvから得られる状
    態系列Srに対応する予測誤差系列をEr、前記SrとErの同
    時確率密度のSrに関する総和をP(Er|Mv)とすると
    き、 を最大にするパラメータの推定を行うパラメータ推定手
    段を含み、この推定されたパラメータを請求項1記載の
    HMM記憶装置におけるHMMのパラメータとすることを特徴
    とするHMM作成装置。
  3. 【請求項3】認識すべきカテゴリv=1〜Vに対して設
    けられた請求項1記載のHMM記憶装置と、入力パターン
    Xに対応してカテゴリvに対応するモデルMvの任意に定
    められる状態系列をS、Sに対応する請求項1記載のHM
    M記憶装置における神経回路網の出力たる予測値に対す
    る予測誤差ベクトル系列をEとするとき、入力パターン
    Xに対するMvの尤度を で定義し、この尤度をv=1〜Vについて計算する尤度
    計算手段と、その最大値を与えるvを求める最大値判定
    手段を含み、前記最大値を与えるvをとするとき、こ
    のを認識結果と判定することを特徴とするパターン認
    識装置。
  4. 【請求項4】認識すべきカテゴリvに対応する第r(r
    =1,2,...,R)の訓練用パターンを とし,前記vに対応するHMMをMv,Mvの状態iで定義され
    ている予測器Piにより予測された前記ベクトルxr tの予
    測値[xr tとxr tとの予測画素ベクトルの前記Mvから
    得られる状態系列Srに対応する予測誤差系列をErとする
    とき,前記SrとErに関して, となる最適状態系列Srを求める最適状態系列算出手段
    と、r=1,2,...,Rに対して算出された前記各最適状態
    系列における,状態iに対応付けされた予測誤差ベクト
    ルの分布,状態iの連長の分布から,状態iに関連する
    パラメータの値を算出するパラメータ値算出手段と,前
    記パラメータ値が収束するまで前記最適状態系列の算出
    と,前記パラメータの算出とを交互に繰り返し行い,こ
    の逐次計算の結果として,前記パラメータの推定値を得
    るパラメータ推定手段とを含み,この推定されたパラメ
    ータを請求項1記載のHMM記憶装置におけるパラメータ
    とすることを特徴とするHMM作成装置。
  5. 【請求項5】認識すべきカテゴリv=1〜Vに対して設
    けられた請求項1記載のHMM記憶装置と、入力パターン
    Xに対応してカテゴリvに対応するモデルMvの任意に定
    められる状態系列をS、Sに対応する請求項1記載のHM
    M記憶装置における神経回路網の出力たる予測値に対応
    する予測誤差ベクトル系列をEとするとき、入力パター
    ンXに対するMvの尤度を で定義し、この尤度をv=1〜Vについて計算する尤度
    計算手段と、その最大値を与えるvを求める最大値判定
    手段を含み、前記最大値を与えるvをとするとき、こ
    のを認識結果と判定することを特徴とするパターン認
    識装置。
JP1322148A 1989-12-12 1989-12-12 Hmm装置 Expired - Fee Related JP2964507B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP1322148A JP2964507B2 (ja) 1989-12-12 1989-12-12 Hmm装置
US07/626,300 US5307444A (en) 1989-12-12 1990-12-12 Voice analyzing system using hidden Markov model and having plural neural network predictors

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1322148A JP2964507B2 (ja) 1989-12-12 1989-12-12 Hmm装置

Publications (2)

Publication Number Publication Date
JPH03181998A JPH03181998A (ja) 1991-08-07
JP2964507B2 true JP2964507B2 (ja) 1999-10-18

Family

ID=18140467

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1322148A Expired - Fee Related JP2964507B2 (ja) 1989-12-12 1989-12-12 Hmm装置

Country Status (2)

Country Link
US (1) US5307444A (ja)
JP (1) JP2964507B2 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2964507B2 (ja) 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
JP3003276B2 (ja) * 1991-06-19 2000-01-24 松下電器産業株式会社 信号解析装置
EP0574951B1 (en) * 1992-06-18 2000-04-05 Seiko Epson Corporation Speech recognition system
JPH0776880B2 (ja) * 1993-01-13 1995-08-16 日本電気株式会社 パターン認識方法および装置
KR100309207B1 (ko) * 1993-03-12 2001-12-17 에드워드 이. 데이비스 음성-대화식언어명령방법및장치
US5487133A (en) * 1993-07-01 1996-01-23 Intel Corporation Distance calculating neural network classifier chip and system
JP3533696B2 (ja) * 1994-03-22 2004-05-31 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
KR100324988B1 (ko) * 1994-06-13 2002-08-27 마츠시타 덴끼 산교 가부시키가이샤 신호해석장치
US5805771A (en) * 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system
US6212508B1 (en) * 1994-09-15 2001-04-03 Siemens Aktiengesellschaft Process and arrangement for conditioning an input variable of a neural network
DE69607324T2 (de) * 1995-02-02 2000-08-24 Cabletron Systems Inc Verfahren und anordnung zum lernen von verhaltentrends von netzwerken und vorhersagen des zukünftigen verhaltens von datenübertagungsnetzwerken
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
US5615286A (en) * 1995-05-05 1997-03-25 Bell Communications Research, Inc. Method for determining a most likely sequence of states
JP3453456B2 (ja) * 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
US6081660A (en) * 1995-12-01 2000-06-27 The Australian National University Method for forming a cohort for use in identification of an individual
WO1998014934A1 (en) 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US5987414A (en) * 1996-10-31 1999-11-16 Nortel Networks Corporation Method and apparatus for selecting a vocabulary sub-set from a speech recognition dictionary for use in real time automated directory assistance
US5839107A (en) * 1996-11-29 1998-11-17 Northern Telecom Limited Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing
US5987408A (en) * 1996-12-16 1999-11-16 Nortel Networks Corporation Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number
US6018708A (en) * 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
US5995929A (en) * 1997-09-12 1999-11-30 Nortel Networks Corporation Method and apparatus for generating an a priori advisor for a speech recognition dictionary
US6122361A (en) * 1997-09-12 2000-09-19 Nortel Networks Corporation Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality
DE19740565A1 (de) * 1997-09-15 1999-03-18 Max Planck Gesellschaft Verfahren zur Erfassung zeitabhängiger Moden dynamischer Systeme
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
US6253173B1 (en) 1997-10-20 2001-06-26 Nortel Networks Corporation Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
ITTO980383A1 (it) * 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
US6243680B1 (en) 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6847918B2 (en) * 2000-12-14 2005-01-25 Siemens Corporate Research, Inc. Method and apparatus for providing predictive maintenance of a device by using markov transition probabilities
US20030055640A1 (en) * 2001-05-01 2003-03-20 Ramot University Authority For Applied Research & Industrial Development Ltd. System and method for parameter estimation for pattern recognition
DE10123572C1 (de) * 2001-05-08 2003-01-23 Senslab Gmbh Verfahren und Vorrichtung zur automatischen Online-Analyse von Meßreihen sowie ein entsprechendes Computerprogramm-Erzeugnis und ein entsprechendes computerlesbares Speichermedium
US6941177B2 (en) * 2002-12-17 2005-09-06 Xerox Corporation System and method for implementing real-time applications based on stochastic compute time algorithms
JP4639784B2 (ja) * 2004-12-06 2011-02-23 ソニー株式会社 学習装置および学習方法、並びにプログラム
JP2006285899A (ja) * 2005-04-05 2006-10-19 Sony Corp 学習装置および学習方法、生成装置および生成方法、並びにプログラム
ATE453183T1 (de) * 2005-06-01 2010-01-15 Loquendo Spa Verfahren zum anpassen eines neuronalen netzwerks einer automatischen spracherkennungseinrichtung
JP4201012B2 (ja) * 2006-04-06 2008-12-24 ソニー株式会社 データ処理装置、データ処理方法、およびプログラム
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
US8478711B2 (en) 2011-02-18 2013-07-02 Larus Technologies Corporation System and method for data fusion with adaptive learning
US9183830B2 (en) * 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
US9177549B2 (en) * 2013-11-01 2015-11-03 Google Inc. Method and system for cross-lingual voice conversion
US9542927B2 (en) 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5307444A (en) 1989-12-12 1994-04-26 Matsushita Electric Industrial Co., Ltd. Voice analyzing system using hidden Markov model and having plural neural network predictors

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4885757A (en) * 1987-06-01 1989-12-05 Texas Instruments Incorporated Digital adaptive receiver employing maximum-likelihood sequence estimation with neural networks
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5307444A (en) 1989-12-12 1994-04-26 Matsushita Electric Industrial Co., Ltd. Voice analyzing system using hidden Markov model and having plural neural network predictors

Non-Patent Citations (16)

* Cited by examiner, † Cited by third party
Title
1989年電子情報通信学会秋季全国大会講演論文集 分冊1「SA−1−2ニューラルマルコフモデル−2重HMMの実現−」,p.1−331〜1−332
1989年電子情報通信学会秋季全国大会講演論文集 分冊6「SD−11−1ニューラルマルコフモデルによる時系列音声パターンの認識」,p.6−276〜6−277
IEEE Transactions on Neural Networks,Vol.3,No.2,March 1992,"Gloabal Optimaization of a Neural Network−Hidden Markov Model Hybrid",p.252−258
IEICE Transactions on Information and Systems Vol.E78−D,No.6,June 1995,"Neural Predictive Hidden Markov Model for Speech Recognition",p.676−684
Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing,1989,"Alocus model of coarticulation in an HMM speech recognizer",p.97−100
Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing,1990,"ATR HMM−LR Continuous Speech Recognition System",p.53−56
Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing,1990,"Combining Hidden Markov Model and Neural Network Classifiers",p.417−420
Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing,1990,"Speaker−independent word recognition using a neural prediction model",p.441−444
Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing,1990,"TDNN Labeling for a HMM Recognizer",p.421−423
Proceedings of IEEE International Conference on Pattern Recognition 1988 Vol.1,"Planning,Neural Nerworks and Markov Models for Automatic Speech Recognition",p.395−402
電子情報通信学会技術研究報告 PRU89−11,ニューラルネットワークによる多重HMMの近似と音声認識への適用」,p.79−86
電子情報通信学会技術研究報告 Vol.87,No.299,SP87−97,「音声スペクトルの動的特徴を考慮したHMM」,p.1−6
電子情報通信学会技術研究報告 Vol.88,No.329,SP88−107,「時系列信号の動的特徴を反映したHMMの定式化と線形予測係数をパラメータとする場合への適用」,p.9−16
電子情報通信学会技術研究報告 Vol.89,No.340,SP89−83,「ニューラルネット駆動型HMM」,p.55−62,(1989/12/14)
電子情報通信学会技術研究報告 Vol.89,No.90,SP89−23,「ニューラルネットワークによる予測モデルを用いた音声認識」,p.81−87
電子情報通信学会技術研究報告 Vol.91,No.95,SP91−14,「時系列処理機能をもつ階層型ニューラルネットワーク」,p.63−70

Also Published As

Publication number Publication date
US5307444A (en) 1994-04-26
JPH03181998A (ja) 1991-08-07

Similar Documents

Publication Publication Date Title
JP2964507B2 (ja) Hmm装置
CN110689879B (zh) 端到端语音转写模型的训练方法、系统、装置
JP3003276B2 (ja) 信号解析装置
US5129002A (en) Pattern recognition apparatus
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
JP2795058B2 (ja) 時系列信号処理装置
CN107615308B (zh) 循环神经网络的学习方法及用于该学习方法的计算机程序、和声音识别装置
CN103049792B (zh) 深层神经网络的辨别预训练
CN111261146A (zh) 语音识别及模型训练方法、装置和计算机可读存储介质
EP1557823B1 (en) Method of setting posterior probability parameters for a switching state space model
JP4531166B2 (ja) 信頼性尺度の評価を用いる音声認識方法
JP2924555B2 (ja) 音声認識の境界推定方法及び音声認識装置
EP0762383B1 (en) Pattern adapting apparatus for speech or pattern recognition
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
JPH06208392A (ja) パターン認識方法および装置
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2600871B2 (ja) Hmm作成装置及びそれを用いた尤度計算装置、時系列パターン認識装置
JP3589044B2 (ja) 話者適応化装置
JP2545982B2 (ja) パターン認識方法および標準パターン学習方法
JP3368989B2 (ja) 音声認識方法
JP3144341B2 (ja) 音声認識装置
JPH03181999A (ja) Hmm装置
Freitag et al. Acoustic-phonetic decoding based on Elman predictive neural networks
JP2926784B2 (ja) Hmm作成装置
JP2006259470A (ja) Hmm作成装置およびそれを用いた尤度計算装置、時系列パタン認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees