JP2964507B2

JP2964507B2 - Ｈｍｍ装置

Info

Publication number: JP2964507B2
Application number: JP1322148A
Authority: JP
Inventors: 英一坪香
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1989-12-12
Filing date: 1989-12-12
Publication date: 1999-10-18
Anticipated expiration: 2014-10-18
Also published as: US5307444A; JPH03181998A

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識等のパターン認識に適用可能な新し
いHMM（ヒドゥンマルコフモデル（Hidden Markov M
odel））のパラメータの推定方法および装置に関する。

従来の技術本発明は一般の時系列信号に適用可能なものである
が、説明の便宜のために、以下、音声認識を例に説明す
る。

先ずHMMを用いた音声認識装置について説明する。

第２図は、HMMを用いて音声認識装置のブロック図で
ある。101は音声分析部であって、入力音声信号をフィ
ルタバンク、フーリエ変換、LPC分析等の周知の方法に
より、一定時間間隔（フレームと呼ぶ）例えば10msec毎
に特徴ベクトルに変換する。従って、入力音声信号は特
徴ベクトルの系列Ｘ＝x₁,x₂,…,x_Tに変換される。Ｔは
フレーム数である。102はコードブックと呼ばれるもの
で、ラベル付けされた代表ベクトルを保持している。10
3はベクトル量子化部であって、前記ベクトル系列Ｘの
それぞれのベクトルをそれに最も近い前記代表ベクトル
のラベルに置き換えるもである。104はHMM作成部であっ
て、訓練データから認識語彙たる各単語に対応するHMM
を作成するものである。即ち、単語ｗに対応するHMMを
作るには、先ず、HMMの構造（状態数やそれら状態の間
に許される遷移規則）を適当に定め、然る後に前記の如
くして単語ｗを多数回発声して得られたラベル系列か
ら、それらラベル系列の発生確率が出来るだけ高くなる
ように、前記モデルにおける状態遷移確率や状態の遷移
に伴って発生するラベルの発生確率を求めるものであ
る。105はHMM記憶部であって、このようにして得られた
HMMを各単語毎に記憶するものである。106は尤度計算部
であって、認識すべき未知入力音声のラベル系列に対
し、前記HMM記憶部105に記憶されているそれぞれのモデ
ルからそのラベル系列の発生する尤度を計算するもので
ある。107は比較判定部であって尤度計算部106で得られ
た前記それぞれのモデルに対する尤度の最大値を与える
モデルに対応する単語を認識結果として判定するもので
ある。

HMMによる認識は次のようにして行われる。

即ち、未知入力に対して得られたラベル系列を０＝
o₁,o₂,…,o_T、モデルλ^ｖにより発生されるＴの長さの
任意の状態系列をＳ＝s₁,s₂,…,s_Tとするとき、λ^ｖか
らラベル系列０の発生する尤度はまたは、対数をとってで与えられる。ここで、Ｐ（x,y|λ^ｖ）は、モデルλ^ｖ
におけるx,yの同時確率密度である。

従って、例えば式（１）を用いればとするとき、が認識結果となる。式（２），（３）を
用いるときも同様である。

Ｐ（0,S|λ）は式（１）の場合は、次のようにして求
められる。

いま、HMMλの状態q_i（ｉ＝１〜Ｉ＋１）に対して、
状態q_i毎に、ラベルｏの発生確率b_i（ｏ）と状態q_iから
状態q_jへの遷移確率a_ijが与えられているとき、状態系
列Ｓ＝s₁,s₂,…,s_T+1に対してラベル系列０＝o₁,o₂,…o
_TのHMMλから発生する確率はと定義出来る。ここでは状態s₁の初期確率である。またs_T+1＝q_I+1は最終状態
であって、如何なるラベルも発生しない。

この例では入力の特徴ベクトルｘをラベルに変換した
が、各状態におけるラベルの発生確率の代りに特徴ベク
トルｘをそのまま用い、各状態において特徴ベクトルｘ
の確率密度関数を与える方法もある。この時は式（５）
における前記ラベルｏの状態q_iにおける発生確率b
_i（ｏ）の代わりに特徴ベクトルｘの確率密度b_i（ｘ）
を用いることになる。このときは、前記式（１），
（２），（３）は次のようになる。ただし,X＝x₁,
x₂,...,x_Tとする。

または、対数をとれば次式が得られる。

以上、何れの方式を用いるにしても最終的な認識結果
は、それぞれの単語ｖに対してHMMλ^ｖをｖ＝１〜Ｖに
ついて準備しておけば、入力音声信号Ｘに対してがＸの認識結果となる。勿論、ここでのＸは前記それぞ
の方法に応じて、入力されたラベル系列、特徴ベクトル
系列等である。

発明が解決しようとする課題従来、音声認識に用いられている典型的なHMMは第３
図に示されるようなものである。図において、q_iはｉ番
目の状態a_ijは状態q_iから状態q_jに遷移する遷移確率、b
_i（ｘ）はラベルあるいは特徴ベクトルｘの状態q_iにお
いて観測される確率密度である。

このとき、HMMの“状態"q_iは、そのHMMに対する音声
の部分区間（セグメント）ｉに対応していると考えられ
る。従って、状態q_iにおいてｘの観測される確率密度b_i
（ｘ）は、セグメントｉにおいてｘが発生する確率密度
であり、遷移確率a_ijは時刻ｔにおけるx_tがセグメント
ｉに含まれるとき、時点ｔ＋１におけるx_t+1が再びセグ
メントｉに含まれる確率であると解される。このような
考えに立てば、従来のHMMにおける問題点として次の２
点が指摘できる。

（１）関数b_i（ｘ）を規定するパラメータは、例えばｘ
が正規分布とした場合、平均ベクトルと共分散行列であ
るが、それらは状態q_iに関して一定であるとしているの
で、音韻によっては特徴ベクトルの時間的な変化の特徴
（動的特徴）が重要であるにもかかわらず、従来のモデ
ルでは、その特徴が適切に表現できない。

（２）セグメントｉの長さτはある確率分布に従ってい
るものと考えられるが、従来のモデルでは、遷移確率a
_ij,a_ijは状態q_iの連の長さとは無関係に一定であるとし
ているので、結果的にセグメントｉの長さは幾何分布に
従うことになり、その分布形状は現実を適切に表現する
ものとはなっていない。

（２）の問題を解決する方法としては、状態q_iの連の
長さτに関する確率密度関数d_i（τ）としてPoisson分
布やΓ分布を用いるものが既に公知である。

本発明の目的は、状態q_iにおける特徴ベクトルの時間
的塩化傾向が、同一セグメント（状態）内においては時
間的に一定の傾向を持つと言う仮定のもとに、各状態毎
に神経回路網による非線形予測モデルを定義し、入力パ
ターンＸに対する予測誤差信号の累積確率をそのモデル
のＸに対する尤度と定義したHMMを構成することによっ
て（１）の問題を解決することにある。さらには、この
予測値を神経回路網によって得る構成とすることによっ
て、特徴ベクトルを構成する成分間の相関をも考慮した
モデルの実現を可能とするもである。

課題を解決するための手段 HMM記憶装置を、状態遷移確率を記憶する状態遷移確
率記憶手段と、入力パターンたる特徴ベクトル系列の時
刻ｔにおける特徴ベクトルをx_tとするとき、x_t以外の１
つまたは複数の特徴ベクトルからなる前記特徴ベクトル
系列の部分系列を入力し、状態毎に定義され、状態ｉに
おいては、前記部分系列を前記x_tの予測値［x_t］_ｉに変
換する神経回路網と、この神経回路網の重み係数を記憶
する重み係数記憶手段と、前記予測値［x_t］_ｉと入力ベ
クトルx_tとの予測誤差ベクトルを算出する予測誤差算出
手段と、この予測誤差算出手段の出力ベクトルの確率分
布を規定するパラメータを記憶する確率分布パラメータ
記憶手段とを備えた構成とする。

また、第１のHMM作成装置は、カテゴリｖに対応する
第ｒ（＝1,2,…,R）の訓練用パターンをX^r＝x^r ₁,x^r ₂,…
x^r _Tとし、前記ｖに対応するHMMをM^v、M^vの状態ｉで定義
されている予測器P_iにより予測された前記ベクトルx^r _t
の予測値［x^r _t］_ｉとx^r _tとの予測誤差ベクトルの、前記
M^vから得られる状態系列S^rに対応する予測誤差系列を
E^r、前記S^rとE^rの同時確率密度のS^rに関する総和をＰ
（E^r|M^v）とするとき，を最大にするパラメータの推定を行うパラメータ推定手
段を含み、この推定されたパラメータを上記構成のHMM
のパラメータとする構成とする。

また第１のパターン認識装置は、認識すべきカテゴリ
ｖ＝１〜Ｖに対して設けられた上記構成のHMM記憶装置
と、入力パターンＸに対応してカテゴリｖに対応するモ
デルM^vの任意に定められる状態系列をＳ、Ｓに対応する
上記構成のHMM記憶装置における神経回路網の出力たる
予測値に対する予測誤差ベクトル系列をＥとするとき、
入力パターンＸに対するM^vの尤度をで定義し、この尤度をｖ＝１〜Ｖについて計算する尤度
計算手段と、その最大値を与えるｖを求める最大値判定
手段を含み、前記最大値を与えるｖをとするとき、こ
のを認識結果と判定する構成とする。

さらに第２のパターン認識装置は、認識すべきカテゴ
リｖ＝１〜Ｖに対して設けられた上記構成のHMM記憶装
置と、入力パターンＸに対応してカテゴリｖに対応する
モデルM^vの任意に定められる状態系列をＳ、Ｓに対応す
る上記構成のHMM記憶装置における神経回路網の出力た
る予測値に対応する予測誤差ベクトル系列をＥとすると
き、入力パターンＸに対するM^vの尤度をで定義し、この尤度をｖ＝１〜Ｖについて計算する尤度
計算手段と、その最大値を与えるｖを求める最大値判定
手段を含み、前記最大値を与えるｖをとするとき、こ
のを認識結果を判定する構成とする。

さらに第２のHMM作成装置は、上記第２のパターン認
識装置の構成に記載の方法によって第ｒ番の訓練パター
ンに対する最適の状態系列を求め、その状態系列上の状
態ｉ部分に対応するフレーム数のｒ＝１〜Ｒに対する分
布から、状態ｉの連長の確率分布d_i（τ）を求める連長
確率密度算出手段と、前記状態ｉ部分に対応する特徴ベ
クトル系列から、上記構成のHMM記憶装置における神経
回路網の重み係数を求める重み係数計算手段と、状態ｉ
部分に対応する予測誤差ベクトル系列からその分布を規
定するパラメータを求める確率分布パラメータ算出手段
とを備えた構成とする。

作用 HMM記憶装置は、状態遷移確率記憶手段により状態遷
移確率を記憶し、入力パターンたる特徴ベクトル系列の
時刻ｔにおける特徴ベクトルをx_tとするとき、x_t以外の
１つまたは複数の特徴ベクトルからなる前記特徴ベクト
ル系列の部分系列を入力し、状態毎に定義され、状態ｉ
においては、前記部分系列を前記x_tの予測値［x_t］_ｉに
変換する神経回路網の重み係数を重み係数記憶手段によ
り記憶し、予測誤差算出手段により前記予測値［x_t］_ｉ
と入力ベクトルx_tとの予測誤差ベクトルを算出し、この
予測誤算算出手段の出力ベクトルの確率分布を規定する
パラメータを確率分布パラメータ記憶手段により記憶す
る。

第１のHMM記憶装置は、カテゴリｖに対応する第ｒ
（＝1,2,…,R）の訓練用パターンを、X^r＝x^r ₁,x^r ₂,…,x
^r _Tとし、前記ｖに対応するHMMをM^v、M^vの状態ｉで定義
されている予測器P_iにより予測された前記ベクトルx^r _t
の予測値［x^r _t］_ｉとx^r _tとの予測画素ベクトルの、前記
M^vから得られる状態系列S^rに対応する予測誤差系列を
E^r、前記S^rとE^rの同時確率密度のS^rに関する総和をＰ
（E^r|M^v）とするとき、を最大にするパラメータの推定をパラメータ推定手段に
より行い、この推定されたパラメータを上記構成のHMM
のパラメータとする。

第１のパターン認識装置は、認識すべきカテゴリｖ＝
１〜Ｖに対して設けられた上記構成のHMM記憶装置に記
憶されているパラメータを用い、入力パターンＸに対応
してカテゴリｖに対応するモデルM^vの任意に定められる
状態系列をＳ、Ｓに対応する上記構成のHMM記憶装置に
おける神経回路網の出力たる予測値に対する予測誤差ベ
クトル系列をＥとするとき、入力パターンＸに対するM^v
の尤度をで定義し、尤度計算手段によりこの尤度をｖ＝１〜Ｖに
ついて計算し、その最大値を与えるｖを最大値判定手段
により求め、前記最大値を与えるｖをとするときこの
を認識結果と判定する。

第２のパターン認識装置は、認識すべきカテゴリｖ＝
１〜Ｖに対して設けられた上記構成のHMM記憶装置に記
憶されているパラメータを用い、入力パターンＸに対応
してカテゴリｖに対応するモデルM^vの任意に定められる
状態系列をＳ、Ｓに対応する上記構成のHMM記憶装置に
おける神経回路網の出力たる予測値に対する予測誤差ベ
クトル系列をＥとするとき、入力パターンＸに対するM^v
の尤度をで定義し、この尤度を尤度計算手段によりｖ＝１〜Ｖに
ついて計算し、その最大値を与えるｖを最大値判定手段
により求め、前記最大値を与えるｖをとするとき、こ
のを認識結果と判定する。

第２のHMM作成装置は、上記第２のパターン認識装置
の構成に記載の方法によって、第ｒ番の訓練パターンに
対する最適の状態系列を求め、連長確率密度計算手段に
よって、その状態系列上の状態ｉ部分に対応するプレー
ム数のｒ＝１〜Ｒに対する分布から、状態ｉの連長の確
率分布d_i（τ）を求め、重み係数計算手段によって、前
記状態ｉ部分に対応する特徴ベクトル系列から、上記構
成のHMM記憶装置における神経回路網の重み係数を求
め、確率分布パラメータ算数手段によって、状態ｉ部分
に対応する予測誤差ベクトル系列からその分布を規定す
るパラメータを求める。

実施例ここで、以後用いるべき記号の定義をまとめておく。
簡単のために、誤解を生じない限り、状態q_i、q_j等は単
にｉ、ｊ等と表記することにする。また、モデルの学習
は単語ｖについて行う場合を述べることとし、区別する
必要のある場合はパラメータの右肩に添字ｖを付加し、
通常はこれを省くものとする。

ｉ＝1,2,…,I＋1:第ｉ番の状態（Ｉ＋１を最終状態とす
る）［a_ij］：遷移マトリクス a_ij:状態ｉから状態ｊへの遷移確率 r:単語ｖに対する訓練パターン番号（ｒ＝1,…,R） x^r _t:訓練パターンｒの第ｔフレームにおける観測ベクト
ル b_i（x^r _i）：状態ｉにおける、訓練パターンｒのフレー
ムｔの観測ベクトルX^r _tの確率密度 W_i ^u-1 _f ^u _g:状態ｉの神経回路網の第ｕ−１層第ｆユニッ
トから第ｕ層第ｇユニットへの接続における重み係数 W_i:状態ｉの神経回路網の重み係数の集合^r _t :X^rの部分系列を入力として得られる前記ニューラ
ルネットの出力ベクトル（x_tの予測ベクトル） e^r _t:予測誤差ベクトル（e^r _t＝^r _t−x^r _t） s^r _t:単語ｖに対する第ｒ番の訓練パターンの第ｔフレー
ムにおける状態 T^r:単語ｖに対する第ｒ番の訓練パターンのフレーム数 ξ₁:状態ｉにおける神経回路網の重み係数、予測誤差ベ
クトルの確率分布、状態ｉの連の長さの確率分布を規定
するパラメータの集合 λ＝｛λ_ｉ｝：全パラメータの集合（λをパラメータと
するモデルをモデルλと呼ぶ場合がある）Ｐ（X|λ）：観測ベクトル系列Ｘがモデルλから発生す
る確率 q_f:最終の状態（＝s^r _T+1）単語ｖに対応するHMMを学習する方法について述べ
る。

問題は、単語ｖについて準備されたｒ＝１〜Ｒの訓練
パターンに対して尤度関数Ｐ（X¹,X²,…,X^R|λ）を最大
にするパラメータλを推定することである。

X^rがお互いに独立であるとすればで与えられる。ここで、次の補助関数Ｑ（λ，λ′）を
定義する。

このとき、次のことが言える。

Ｑ（λ，λ′）≧Ｑ（λ，λ）のとき、Ｐ（X¹,…X_R|
λ′）≧Ｐ（X¹,…X^R|λ）であって、等号はλ′＝λの
時に成り立つ。

故に、を求めることが出来れば、→λとして式（９）を繰り
返し適用することによって、λはＰ（X¹,…,X^R|λ）の
停留点、即ち、Ｐ（X¹,…,X^R|λ）の極大値または鞍点
を与える点に収束することになり、Ｐ（X¹,…,X^R|λ）
の変化率が予め定めた閾値以下になるまでこの操作を繰
り返すことにより局所最適解が得られる。

次にＱ（λ，λ′）を用いてパラメータを推定する方
法について説明する。

式（８）を変形すれば、次式が得られる。

前述の説明に従えば、Ｑ（λ，λ′）をλ′の関数と
見なしてＱ（λ，λ′）＞Ｑ（λ，λ）なるλ′を見出
せば、それはλの更新されたものとなるが、Ｐ（X¹,…X
^R|λ）はλ′に関しては一定値となるから、これはとするとき、Ｑ^＊（λ，λ′）＞Ｑ^＊（λ，λ）なる
λ′を見出すことと同義である。ただし、ここでc^r＝1/
P（X^r|λ）とおいている。

式（11）はさらに次のようになる。

ここで考えているHMMはleft to rightのモデルであっ
て、一旦離れた状態には再び戻ることはないとすれば、
状態系列S^rにおいて、状態ｉの開始時点をｔ（r,i）、
状態ｉの持続時間をτ（r,i）、即ち、τ（r,i）＝ｔ
（r,j）−ｔ（r,i）（ただし、状態ｉの次の状態がｊで
あるとする）とすれば（第４図参照）、式（12）から式
（13）、（14）が得られる。

ただし、i₁を状態ｉの連における最初の状態を意味す
るものとするときｐ（r,i,j,t,τ）Ｐ（X^r,s^r _ｔ−τ＝i₁,s^r _t＝j₁|λ）とおいている。

ここで、Ｐ（X^r,s^r _ｔ−τ＝i₁,s^r _t＝j₁|λ）はモデル
λにおけるX^r,s^r _ｔ−τ＝i₁、s^r _t＝j₁の同時確率密度で
あって、図示すれば、第５図における斜線部を通る径路
の生起確率密度の総和と言うことになる。これを用いる
ことによって式（13）、（14）における径路S^rに関する
総和の計算は、２段階に分けて行うことが出来る。即
ち、先ず、t,τ,jの全範囲において前記斜線部を通る径
路についての総和計算を行い、得られた結果のt,τ,jの
全範囲にわたる総和を取ればよい。式（13）、（14）に
おける第１の式から第２の式への変化はこの考え方に基
づくものである。

ｐ（r,i,j,t,τ）Ｐ（X^r,s^r _ｔ−τ＝i₁,s^r _t＝j₁|λ）
は次のようにして求められる。

即ち、とおけば、である。

このときなる漸化式が成り立つ。従って、α^r ₁（１）＝１として
パラメータλに適当な初期値を与え、ｔ＝１〜T^r＋1,j
＝１〜Ｉ＋１について式（17）に従ってα^r _t（ｊ）を、
β^r _T ^r ₊₁（Ｉ＋１）＝１としてｔ＝T^r＋１〜１、ｉ＝Ｉ
＋１〜１について式（18）に従ってβ^r _t（ｉ）をそれぞ
れ順次計算して行けば、式（16）が計算できる。

遷移確率a_ijの推定ラグランジュの未定乗数法により、a_ij′について∂
Ｑ^＊（λ，λ′）／∂a_ij′＝０を解く。即ち、式（1
3）を用いてより、であるから、両辺にa_ij′を掛けて、ｊ＝１〜Ｉ＋１に
ついて総和を取れば、となる。故にa_ijの推定値はとなる。

状態の連長の確率密度の推定状態ｉの連の長さの確率密度を規定するパラメータを
推定する。例えばa_ij＝γ_ｉ（const.）の場合は d_i（τ）＝γ_ｉ ^τ−１（１−γ_ｉ）となり、式（14）よりξ_ｉ′＝γ_ｉ′とおけばであるから、γ_ｉの再推定式はとなる。

他の例として、Poisson分布で当てはめを行うとすれ
ば、であるから、同様にしてから式（17）により与えられる。

b_i（ｘ）のパラメータの推定 b_i（ｘ）は従来HMMにおいては特徴ベクトルｘの状態
ｉにおける確率密度として定義されるのが普通であっ
た。

本発明は、入力音声信号の時刻ｔにおける特徴ベクト
ルx_tに対する予測値を各状態毎に定義された神経回路網
（ニューラルネット）で構成された非線形予測器により
予測し、予測値_ｔを得、その予測誤差の確率密度をb_i
（x_t）とするものである。

例えば、x_t-1,x_t-2,…,x_t-Mからx_tを予測するものと
し、この予測誤差が正規分布で与えられるものとすれ
ば、対数を取ればとなる。ここで、W_iは状態ｉにおけるニューラルネット
の重み係数の集合、ｇ（x_t-1,…,x_t-M;W_i）はW_iで特性
付けられるニューラルネットの入力x_t-1,…,x_t-Mに対す
る出力であって、_ｔ＝ｇ（x_t-1,…,x_t-M;W_i）であ
る。また、Σ_ｉ＝［σ_imn］＝［σ_i ^mn］^-1はx_t−_ｔの
分散共分散行列である。従って、この場合推定すべきパ
ラメータは、分散共分散行列Σ_ｉと重み係数W_iである。

第６図は本発明で用いる並列型のニューラルネットの
一例である。○はユニットと呼ばれるものである。ユニ
ット間を結ぶ矢線は信号の流れる方向を示し、矢線の根
元につながっているユニットの出力は、矢線毎に与えら
れている重み係数が乗ぜられて矢の先端部のユニットへ
の入力となる。ユニットの横一例の並びは層と呼ばれ
る。本例は３層からなるニューラルネットを示してい
る。ニューラルネットへの入力が直接つながるユニット
からなる層は入力層、その出力がニューラルネットから
の出力そのものとなるユニットからなる層は出力層、そ
れら以外の層は隠れ層と呼ばれる。本例では、第１層が
入力層、第２層が隠れ層、第３層が出力層と言うことに
なる。各ユニットにおける、入力の総和とその出力との
関係は、いわゆるシグモイド関数と呼ばれる関数で与え
られる特性を持たせるのが一般的である。第７図はシグ
モイド関数の一例を示している。通常、入力層は入力そ
のものを伝えるだけである。

例えば、x^r _t-2とx^r _t-1からx^r _tを予測する場合は x^r _t（x^r _t,1,x^r _t,2，…,x^r _t,d）^Ｔとすれば、ニューラルネットの構成は第８図のようにな
る。

次にこれらパラメータの推定方法について説明する。

（ａ）重み係数の推定状態ｉにおける第ｕ−１層の第ｆユニットから第ｕ層
の第ｇユニットへの結合の重み係数をw_i ^u-1 _f ^u _gとすれ
ば、学習interationにおける重み係数の修正両は式（2
3）のようになる。

ここで、ζ_i,_r,_j,_t,_τ,_k ^u _gを第ｒの学習パターンに対
して、s^r _ｔ−τ＝i₁、s^r _t＝j₁のときの状態ｉにおける
第ｕ層の第ｇユニットへの入力の総和、o_i,_r,_j,_t,_τ,_k ^u
_gを同様な条件に対する状態ｉにおける第ｕ層の第ｇユ
ニットの出力、ｆ（・）を各ユニットにおけるシグモイ
ド関数とすれば、式（23）の右辺の偏微分は次のように
変形できる。

ここで、ｕ≠Ｕ（最終層）のときは次式が成立する。

最終層Ｕにおいては、第ｇ層のユニットの出力を予測
誤差ベクトルe_t＝x_t−_ｔの第ｇ成分に対応させれば、 e^r _{ｔ−τ−１＋ｋ},_g＝ｆ（ζ_i,_r,_j,_t,_τ,_k ^u _g′）であるから、となる。

故に、とおけば、式（24）、（25）、（26）は次のように書け
る。

故に、パラメータ推定のinterationにおいて、Ｑ
^＊（λ，λ′）の状態ｉにおける重み係数w_i ^u-1 _f ^u _g′に
関して局所最大値を与える点は次のステップで推定され
る。

（w1）w_i ^u _f ^u-1 _g′の初期値をu,u−1,f,gの取り得る全て
について与える。

（w2）o_i,_r,_j,_t,_τ,_k ^u _g′をr,j,t,τ,k,u,gの取り得る
全てについて計算する。

（w3）L₁＝Ｑ^＊（λ，λ′）を計算する。

（w4）式（26′）によってZ_i,_r,_j,_t,_τ,_k ^u _g′をr,j,t,
τ,k,gの取り得る全てについて求める。

（w5）式（25′）によってZ_i,_r,_j,_t,_τ,_k ^u _ｇ′をr,j,t,
τ,k,gの取り得る全てについて求める。ここで、ｕに関
しては、ｕ＝U,U−1,…,1の順番に漸化的に求められ
る。

（w6）式（24′）、式（23）よりΔw_i ^u-1 _f ^u _g′をu,f,g
の全てについて計算する。

（w7）w_i ^u-1 _f ^u _g′＋Δw_i ^u-1 _f ^u _g′→w_i ^u-1 _f ^u _g′として
o_i,_r,_j,_t,_τ,_k ^u _g′をr,j,t,τ,k,gの取り得る全てにつ
いて計算する。

（w8）L₂＝Ｑ^＊（λ，λ′）を計算する。

（w9）L₁に対するL₂の改善比率が設定値以下であれば、
w_i ^u-1 _f ^u _g′→w_i ^u-1 _f ^u _gとして状態ｉにおける重み係数推
定の１回分の処理を終了する。

前記改善比率が前記設定値より大きければ、 L₂→L₁としてステップ（w4）へ戻る。

（ｂ）分散共分散行列の推定 σ_imnの余因子をA_imn,σ_i ^mnの余因子をA_i ^mnとすれ
ば、σ_imn＝σ_inm,σ_i ^mn＝σ_i ^nm従って、A_i ^mn＝A_i ^nm,A_i
^mn＝A_i ^nmであることに注意して、を用いればであるから、となる。故にとなるからΣ_ｉの再推定値は次のようになる。

ただし、ここで、とおいている。

パラメータ推定の実際の計算手順は次のようになる。

単語Ｖに対応するモデルλ^ｖを作成するに当たって、
単語Ｖに対応するパターン（ｒ＝１〜R;x^r _tはパターンｒの第ｔ番の特徴ベクト
ル、T^rはパターンｒのフレーム数）が訓練用パターンと
して与えられているものとする。また、ｊ＞ｉで、ｉ＝
１〜I,i＝１〜Ｉ＋１とし、d_i（τ）＝γ_ｉ ^τ−１（１
−γ_ｉ）とする。

初期値設定（１）ｉ＝１〜Ｉについてに適当な初期値を与える。

遷移確率の推定（２）ｒ＝１〜Ｒについてステップ（３）を実行する。

（３）ｔ＝２〜T^r＋1,τ＝１〜ｔ−1,i＝１〜I,j＝１〜
Ｉ＋１についてλ＝｛λ_ｉ｝として式（16）〜（18）に
従ってｐ（r,i,j,t,τ）,c^rを計算する。また、次式に
従ってa_ij,_num（ｒ）,a_ij,_denom（ｒ）を計算する。

（４）ｉ＝１〜I,j＝１〜Ｉ＋１についてa_ijの推定値を
式（19）に従って計算する。

（５）ｉ＝１〜I,j＝１〜Ｉ＋１についてにおいてa_ij＝_ijなる書換えを行う。

状態の連長の確率分布パラメータの推定（６）ｒ＝１〜Ｒについてステップ（７）を実行する。

（７）ｔ＝２〜T^r＋1,τ＝１〜ｔ−1,i＝１〜I,j＝１〜
Ｉ＋１についてλ＝｛λ_ｉ｝として式（16）〜（18）に
従ってｐ（r,i,j,t,τ）,c^rを計算する。また、次式に
従ってγ_i,_num（ｒ），γ_i,_denom（ｒ）を計算する。

（８）ｉ＝１〜Ｉについてγ_ｉの推定値を式（20）に従
って計算する。

（９）ｉ＝１〜Ｉについてにおいてγ_ｉ＝_ｉなる書換えを行う。

重み係数の推定（10）ｒ＝１〜Ｒについてステップ（11）〜（12）を実
行する。

（11）ｔ＝２〜T^r＋1,τ＝１〜ｔ−1,i＝１〜I,j＝１〜
Ｉ＋１についてλ＝｛λ_ｉ｝としてｑ（i,j,t,τ）,c^r
を計算する。

（12）神経回路網の重み係数の推定をｉ＝１〜Ｉについ
て前記ステップ（w1）〜（w9）に従って行う。第ｕ−１
層第ｍユニットから第ｕ層第ｕユニットへの重み係数の
推定値を_i ^u-1 _m ^u _nとする。

（13）ｉ＝１〜Ｉについてにおいて、w_i ^u-1 _m ^u _n＝_i ^u-1 _m ^u _n（for all u,m,n）なる
書換えを行う。

分散共分散行列の推定（14）ｒ＝１〜Ｒについてステップ（15）を実行する。

（15）ｔ＝２〜T^r＋1,τ＝１〜ｔ−1,i＝１〜I,j＝１〜
Ｉ＋１についてλ＝｛λ_ｉ｝として式（16）〜（18）に
従ってｐ（r,i,j,t,τ）,c^rを計算する。また、次式を
計算する（式（28），（29））。

（16）ｉ＝１〜ＩについてΣ_ｉの推定値を式（27）に従
って計算する。

（17）ｉ＝１〜ＩについてにおいてΣ_ｉ＝_ｉなる書換えを行う。

パラメータの改善度の評価（18）λ＝｛λ_ｉ｝としてを計算する。

（19）|L₁−L₂|/L₁＞δならL₁＝L₂としてステップ
（２）へそうでなければ終了する。

前記ステップ（19）におけるδは収束の幅を決める適
当に小さな正の数であって、これが小さいとパラメータ
の推定の精度は上がるが収束に時間がかかるとか、“学
習のし過ぎ”と言った状況の生じることがある。ここ
で、“学習のし過ぎ”とは、学習interationを繰り返す
につれて各パラメータは学習サンプルに対しては幾らで
も“最適化”されるが、これは飽くまで学習サンプルに
対してであって、同じ母集団に属するサンプルであって
も，学習サンプル以外のサンプルに対しては必ずしも最
適化されるとは限らないからである。勿論、学習サンプ
ルの数が十分にあって、その属すべき母集団の特性がそ
こに十分に反映されているときはこの限りではない。ま
た、δが大きいと収束は速くなるが精度は悪くなる。従
って、δの値は状況によって実用的な値が選ばれる。

第１図は、本発明のHMM作成装置の一実施例である。
本実施例においては、a_ij＝１（for j＝ｉ＋１）,a_ij＝
０（for j≠ｉ＋１）の場合であって、以下図面に従っ
て説明する。

801は特徴抽出部であって、周知の方法によって、訓
練単語ｒ＝１〜Ｒの音声信号を特徴ベクトルの系列に変換するものである。

802は単語パターン記憶部であって、モデルλを作成
するための訓練用単語を前記特徴ベクトル系列の形で複
数個（本例ではＲ個）記憶するものである。

803はバッファメモリであって、単語パターン記憶部8
02に記憶されている単語パターンを１つづつ取り出して
一時的に記憶するものである。

804は状態ｉにおけるパラメータを推定するに先だっ
て、ｐ（r,i,j,t,τ）,c^rを計算するものである。

805は連長期待値計算部であって、状態ｉの連の長さ
τ及びτ−１の、径路に関する期待値を計算するもので
ある。これは式（20）に示される遷移確率の式の分母及
び分子である。さらにここでは計算された前記τの期待
値は式（28）に示される誤差信号の分散共分散行列を与
える式の分母ともなる。

811は誤差分散共分散行列分子計算部であって、式（2
9）を計算するものである。

813は第１のパラメータ（重み係数）計算部であっ
て、前記ステップ（W1）〜（w9）の計算を行い、重み係
数の推定値_i ^u-1 _f ^u _gを得るものである。

806は第一の累積和計算部であって、連長計算部805で
計算された値の、訓練単語に関する累積和を計算するも
のである。

812は第二の累積和計算部であって、誤差分散共分散
分子計算部811で計算された値の訓練単語に関する累積
和を計算するものである。

807は第二のパラメータ計算部であって、前記第一、
第二の累積和計算部806、812で計算されたそれぞれのパ
ラメータの分子、分母の比をとることにより、前記状態
ｉにおける遷移確率γ_ｉ、予測誤差の分散共分散Σ_ｉそ
れぞれの推定値を求めるものである。

808はパラメータ記憶部であって、前記推定されたパ
ラメータを記憶するものである。

809は全体尤度計算部であって、パラメータ記憶部809
に記憶されたパラメータ推定値から尤度Ｐ（X^r|λ）の
ｒに関する総和を求めるものである。

810は、全体尤度計算部809で計算された全体尤度を記
憶するものである。

816は制御部であって、前記各機能ブロックに対す
る、諸量の設定、それらの動作に関する各種の指令等を
行うものである。

例えば、単語ｖに対応するモデルλ^ｖの作成は次のご
とく行われる。

単語ｖをＲ回発声し、特徴抽出部801によって特徴の
系列に変換されたＲ個のパターンが単語パターン記憶部
802に記憶される。単語パターン記憶部802から、制御部
816からの学習単語読み出し指令によって、ｒ番目（ｒ
＝１〜Ｒ）の単語パラターンX^rが読み出され、バッファ
メモリ803に記憶される。前記パラメータの計算におけ
るt,τが前記制御部816からの区間設定信号としてバッ
ファメモリ803に供給され、それに対応するバッファメ
モリ803に記憶された単語パターンX^rの区間に対し、部
分尤度計算部804は、ｐ（r,i,j,t,τ）,c^rを計算する。
この値を基に連長期待値計算部805により、γ_ｉの分母
分子が計算される。このとき、これら分母分子に含まれ
るパラメータは、パラメータ記憶部808に状態ｉにおけ
るパラメータとして記憶されている値λ_ｉ＝｛γ,i,W_i,
Σ_ｉ｝を用いる。第一の累積和計算部806は前記訓練単
語パターンX^r（ｒ＝１〜Ｒ）についての前記分母分子の
累積和をそれぞれ計算する。パラメータ計算部807はこ
のようにして求められた訓練単語パターンX^rのｒ＝１〜
Ｒの状態ｉについての前記分母分子の累積和からその比
をとって状態ｉの遷移確率γ_ｉの新たな推定値を計算す
る。これをｉ＝１〜Ｉについて行う。パラメータ記憶部
808はこのようにして得られた遷移確率の新しい推定値
を古いものと取り替えて、単語ｖに対応する更新された
パラメータλ＝｛λ^v _i｝として記憶する。この更新され
たパラメータλを基に全体尤度計算部809により、前記
説明に従って訓練単語全単語に対する尤度を求め、更新
前のパラメータに対して既に計算され、全体尤度記憶部
810に記憶されている尤度と比較され、その判定結果が
制御部816に送られると共に、前記計算された新たな尤
度が全体尤度記憶部810に記憶される。制御部816は前記
判定結果を基に改善の効果が予め定めた閾値以下になれ
ば、パラメータの推定計算を打ち切り、その閾値以上で
あれば、まだ改善の余地があるとして、今度は式（28）
に従って予測誤差の分散共分散の推定を行う。

即ち、単語パターン記憶部802から、制御部816からの
学習単語読み出し指令によって、ｒ番目（ｒ＝１〜Ｒ）
の単語パターンX^rが読み出され、バッファメモリ803に
記憶される。前記パラメータの決算におけるｔ、τが前
記制御部816からの区間設定信号とバッファメモリ803に
供給され、それに対応するバッファメモリ803に記憶さ
れた単語パターンX^rの区間に対し、部分尤度計算部804
はｐ（r,i,j,t,τ）,c^rを計算する。この値を基に連長
期待値計算部805により、前記説明に従って、予測誤差
の分散共分散の分母が計算され、誤差分散共分散分子計
算部811により予測誤差の分散共分散の分子が計算され
る。このとき、これら分母分子に含まれるパラメータ
は、パラメータ記憶部808に状態ｉにおけるパラメータ
として記憶されている値λ_ｉ＝｛γ_i,W_i,Σ_ｉ｝を用い
る。第一の累積和計算部806は前記訓練単語パターンX^r
（ｒ＝１〜Ｒ）についての前記分母の、第二の累積和計
算部812は分子の累積和をそれぞれ計算する。パラメー
タ計算部807はこのようにして求められた訓練単語パタ
ーンX^rのｒ＝１〜Ｒの状態ｉについての前記分母分子の
累積和からその比をとって状態ｉの予測誤差の分散共分
散の新たな推定値を計算する。これをｉ＝１〜Ｉについ
て行う。パラメータ記憶部808はこのようにして得られ
た予測誤差の分散共分散の新しい推定値を古いものと取
り替えて、単語ｖに対応する更新されたパラメータλ＝
｛λ^v _i｝として記憶する。この更新されたパラメータλ
を基に全体尤度計算部809により、前記説明に従って訓
練単語全単語に対する尤度を求め、更新前のパラメータ
に対して既に計算され、全体尤度記憶部810に記憶され
ている尤度と比較され、その判定結果が制御部816に送
られると共に、前記計算された新たな尤度が全体尤度記
憶部810に記憶される。制御部816は前記判定結果を基に
改善の効果が予め定めた閾値以下になれば、パラメータ
の推定計算を打ち切り、その閾値以上であれば、まだ改
善の余地があるとして、今度は重み係数W_iの推定を行
う。即ち、単語パターン記憶部802から、制御部816から
の学習単語読み出し指令によって、ｒ番目（ｒ＝１〜
Ｒ）の単語パターンX^rが読み出され、バッファメモリ80
3に記憶される。前記パラメータの計算におけるｔ、τ
が前記制御部816からの区間設定信号としてバッファメ
モリ803に供給され、それに対応するバッファメモリ803
に記憶された単語パターンX^rの区間に対し、部分尤度計
算部804は、ｐ（r,i,j,t,τ）,c^rを計算する。この値を
基にパラメータ計算部813により、前記説明に従って、
重み係数が計算される。このとき、これら計算に含まれ
るパラメータは、パラメータ記憶部808に状態ｉにおけ
るパラメータとして記憶されている値λ_ｉ｛γ_i,W_i,Σ
_ｉ｝を用いる。第一の累積和計算部806は前記訓練パタ
ーンX^r（ｒ＝１〜Ｒ）についての前記分母の、第二の累
積和計算部812は分子の累積和をそれぞれ計算する。パ
ラメータ計算部807はこのようにして求められた訓練単
語パターンX^rのｒ＝１〜Ｒの状態ｉについての前記分母
分子の累積和からその比をとって状態ｉの予測誤差の分
散共分散の新たな推定値を計算する．これをｉ＝１〜Ｉ
について行う。パラメータ記憶部808はこのようにして
得られた予測係数の新しい推定値を古いものと取り替え
て、単語ｖに対応する更新されたパラメータλ＝
｛λ^v _i｝として記憶する。この更新されたパラメータλ
を基に全体尤度計算部809により、前記説明に従って訓
練単語全単語に対する尤度を求め、更新前のパラメータ
に対して既に計算され、全体尤度記憶部810に記憶され
ている尤度と比較され、その判定結果が制御部816に送
られると共に、前記計算された新たな尤度が全体尤度記
憶部810に記憶される。制御部816は前記判定結果を基に
改善の効果が予め定めた閾値以下になれば、パラメータ
の推定計算を打ち切り、その閾値以上であれば、まだ改
善の余地があるとして、再び遷移確率の計算に戻る。同
様な計算を前記判定結果を基に改善の効果が予め定めた
閾値以下になるまで繰り返すことにより、λ＝｛λ^v _i｝
は一定の値に収束し、それが求めるべきパラメータとな
る。）次に、以上のようなモデルを用いて実際の入力音声を
認識する方法及び装置について説明する。

いわゆる厳密解は、未知入力パターンＸが入力された
とき、Ｐ（X|M^v）をｖ＝１〜Ｖについて計算し、Ｐ（X|
M^v）の最大値を与えるｖを認識結果とすればよい。これ
は、前記モデルの作成過程において、入力ターンX^rに対
するモデルＭの尤度c^r＝Ｐ（X^r|M）を求める過程におい
て、X^rをＸにＭをM^rに単に置き換えただけである。

第10図は第１の音声認識装置の一実施例である。210
は特徴抽出部であって、第１図801と同じものである。2
02はHMM記憶部であって、認識すべき各カテゴリに対応
するHMMのパラメータが記憶されている。203は尤度計算
部であって、を各Ｖについて計算する。具体的には、認識すべき入力
特徴ベクトル系列をＸ＝x₁,x₂,...,x_T,Xに対するモデル
M^vの途中累積尤度をα_v,_t（ｊ）＝Ｐ（x₁,x₂,...,x_t-1,
s_t＝i₁|λ^ｖ）とおき,b_i（x_t）を式（22）で定義する。
このとき、式（17）の導出と同じようにしてなる漸化式が導かれる。従って、α_v,1（１）＝１とし
て、この漸化式を計算すると、M^vのＸに対する尤度は、として求められる。比較判定部204はこれを最大にする
ｖをとして出力する。即ち、が認識結果である。

既に述べたように、第10図203の尤度計算部における
尤度をで定義することもできる。これは、前記式（２′）に相
当する近似解を求める方法に相当する．この場合は、前
記αの代わりにφをで定義し、φ_ｖ（1,1）＝１としてこの漸化式を計算す
ると、M^vのＸに対する尤度は、として求められる。比較判定部204はこれを最大にする
をｖとして出力する。即ち、が認識結果である。

ここで、上記α、φの漸化式の計算は、i,t,τの可能
なあらゆる組み合わせについて行う必要があり、計算量
が膨大になる。次に、この計算量は次のようにすれば削
減することができる。この方法は，前記αを計算すると
きも同様に適用できるものであるが，簡単のために、前
記後者の方法（Viterbi法）について、また、状態ｉの
次は状態ｉまたは状態ｉ＋１にのみ遷移する場合につい
て、ある１つのモデルと照合する場合について説明する
（添え字ｖは省略）。

この計算値は、過去の計算値を用いることによって、
削減することが出来る。ここで、後の議論の便宜のため
に次なる量を定義する。

このとき、次の事が言える。

Ｂ（i,t,1）＝b_i（x_i-1）Ｂ（i,t,2）＝Ｂ（i,t,1）b_i（x_i-2）Ｂ（i,t,3）＝Ｂ（i,t,2）b_i（x_i-3） …………… Ｂ（i,t,τ）＝Ｂ（i,t,τ−１）b_i（ｘ_ｔ−τ） ……………（32）また、d_i（τ）はτ＝１〜Ｔについて予め計算してテ
ーブルに記憶しておく。このとき、式（31）は次の手順
で計算できる。ただし、Ｂ（i,t,0）＝１とする。

（１）τ＝１〜ｔ−１について次式を実行Ｂ（i,t,τ）＝Ｂ（i,t,τ−１）b_i（ｘ_ｔ−τ） η（τ）＝φ（i,t−τ）Ｂ（i,t,τ）d_i（τ） ……………（33）第９図は以上の原理に基づく装置の一実施例である。

901は特徴抽出部であって、入力音声信号を特徴ベク
トルの系列x₁,x₂,…,x_Tに変換する。

902はバッファメモリであって、前記特徴ベクトルの
系列x₁,x₂,…,x_Tを一時的に蓄えるものである。

903はフレームベクトル発声確率計算部であって、フ
レームｔ−１における予測誤差x_t-1−_t-1の確率密度を計算するものである。

904はパラメータ記憶部であって、前記確率密度の計
算に必要な確率密度関数のパラメータを記憶する部分で
ある。即ちｉ＝１〜Ｉ−１におけるγ_i,W_i,Σ_ｉを記憶
している。

905は累積確率密度計算部であって、式（32）に従っ
て、Ｂ（i,t,τ）を計算するものである。

907は状態持続時間確率密度計算部であって、パラメ
ータ記憶部904に記憶されている状態ｉの連の長さの確
率密度を規定するパラメータから、状態ｉの連の長さが
τになる確率密度d_i（τ）をτ＝１〜Ｔについて計算
し、記憶するものである。

906は累積確率密度記憶部であって、前記累積確率密
度計算部905の計算結果を逐次記憶するものである。そ
の記憶内容を読み出すことによって前記累積確率密度計
算部905において、式（33）の計算が漸化的に行われ
る。

908は漸化式計算部であって、状態持続時間確率密度
記憶部の記憶内容を読みだし、累積確率密度計算部905
の出力と共に、前記ステップ（１），（２）を実行する
ことによって、式（31）をｉ＝１〜I,t＝１〜Ｔ＋１に
ついて計算し、最終的にφ（Ｉ＋1,T＋１）を求めるも
のである。

909は途中率席確率密度記憶部であって、式（31）に
従って漸化式計算部908で計算される途中累積確率密度
φ（i,t）を逐次記憶し、この記憶された途中累積確率
密度は漸化式計算部908における以後の漸化式計算に用
いられる。

911は区間設定信号発生部であって、フレーム番号
ｔ、状態番号ｉ、状態q_iの連の長さτを順次設定するも
のであって、これらの値は前記各ブロックに供給され、
i,t,τの種々の値について前記処理が行われる。

以上のようにして、求められたφ（I,T＋１）が前記
モデルλからベクトル系列x_i,x₂,…,x_τが発生する確率
密度を与えることになる。

なお、漸化式（30）の両辺の対数をとることにより、
式（30），（32）〜（33）は次の式（30′），（32′）
〜（33′）のように掛け算を足し算に変換することが出
来る。

ただし、式（30′），（32′）〜（33′）において Φ（i,t）＝log φ（i,t） Δ（i,τ）＝log d_i（τ） Γ（i,t,τ）＝log B（i,t,τ） Θ（i,x_t）＝log b_i（x_t）とする。このとき Γ（i,t,τ）＝Γ（i,t,τ−１）＋Θ（i,x_t） ………（32′）Ｈ（τ）＝Φ（i,t−τ）＋Γ（i,t,τ）＋Δ（i,τ） ………（33′）であって、前記ステップ（１），（２）は次のようにな
る。

（１）τ＝１〜ｔ−１について次式を実行 Γ（i,t,τ）＝Γ（i,t,τ−１）＋Θ（i,x_ｔ−τ）Ｈ（τ）＝Φ（i,t−τ）＋Γ（i,t,τ）＋Δ（i,
τ）この場合の実施例は、第９図において、前記式（3
0），（32）〜（33）に対応して行っていた各ブロック
における計算を前記式（30′），（32′）〜（33′）に
変更するのみであり、構成自体はまったく同じである。
このようにすることによって、得られる結果は同じであ
るが、計算量を大幅に減ずることが出来る。

なお、モデルの作成は、本発明においては前記ステッ
プ（１）〜（19）のような方法の他に、前記漸化式（3
0）あるいは（30′）により、それぞれのｒについて尤
度最大の径路を求め、その径路の状態ｉ部分に対応する
特徴ベクトル系列から、前記b_i（ｘ）のパラメータと状
態の連長の分布d_i（τ）のパラメータを計算する方法，
即ち,Viterbi法によってモデルのパラメーターを推定す
ることもできる。式（17）に対応して，いま、あるモデ
ルのパメータを推定するための第ｒ（＝1,2,...,R）の
訓練パターンに対する前記φと同様な漸化式をとおき、この漸化式を満足するｉをψ^ｒ（j,t）＝、
τをとし、この漸化式を計算すると同時にψ^ｒ（j,t）、ω
^ｒ（j,t）を記憶して行く。このようにｔ＝1,2,...,T^r
＋１、ｊ＝1,2,...,J＋１まで順次計算してゆけば、最
終の状態Ｊ＋１の一つ手前の状態はs_-1＝ψ^ｒ（Ｊ＋1,T
^r）、その状態の開始フレームはt_-1＝ω^ｒ（Ｊ＋1,T^r＋
１）で与えられる。また、その一つ前の状態はs_-2＝ψ
^ｒ（s_-1,t_-1）、その状態の開始フレームはt_-2＝ω
^ｒ（s_-1,t_-1）であり、順次代入して行くことにより、
逆の順序で最適の状態系列が求められる。従って、式
（19）に対応する式はとなる．ただし、Ｎ（i,j）＝状態ｉと、状態ｉの次に状態ｊをとる状
態系列を持つ訓練パターンの数Ｎ（ｉ）＝状態ｉを含む状態系列を持つ訓練パターン
の数である。また、式（20）に対応する式はとなる．ただし、τ（r,i）は、第ｒの訓練パターンに
対する状態系列における状態ｉの連の長さである。ま
た、式（21）に対してはとなる。

また，式（24′）に対応して次式が得られる。即ち、
各状態毎に予測誤差の累積値が最小になるように重み係
数を決定すればよい。ここで， τ（r,i）：第ｒの訓練パターンの第ｉ状態の連長ｔ（r,i）：第ｒの訓練パターンの第ｉ状態の開始フ
レームｏ_{i,r,t（r,i），τ（r,i）,k} ^u-1 _f:第ｒの訓練パター
ンの第ｉ状態の連（開始フレーム）ｔ（r,i），連長τ（r,i））のｋ番目の状態におけ
る，第ｕ−１層の第ｆユニットの出力とし，とおけば、式（24′），（25′），（26′）と同様にし
て，それぞれに対応して式（24″），（25″），（2
6″）が以下のように得られる。

故に、パラメータ推定のinterationにおいて、φ
^ｒ（j,t）の状態ｉにおける重み係数w_i ^u-1 _f ^u _g′に関し
て局所最大値を与える点は次のステップで推定される。

（w2）ｏ_{i,r,t（r,i），τ（r,i）,k} ^u _g′をr,t,τ,k,u,
gの取り得る全てについて計算する。

（w3）L₁＝Ｌ（ｉ）を計算する。

（w4）式（26″）によってＺ
_{i,r,t（r,i），τ（r,i）,k} ^U _g′をr,t,τ,k,gの取り得
る全てについて求める。

（w5）式（25″）によってＺ
_{i,r,t（r,i），τ（r,i）,k} ^u _g′をr,t,τ,k,u,gの取り
得る全てについて求める。ここで、ｕに関しては、ｕ＝
U,U−1,…,1の順番に漸化的に求められる。

（w6）式（24″）、Δw_i ^u-1 _f ^u _g′＝−ε∂Ｌ（ｉ）/w_i
^u-1 _f ^u _g′より，Δw_i ^u-1 _f ^u _gをu,f,gの全てについて計算
する。

（w7）w_i ^u-1 _f ^u _g′＋Δw_i ^u-1 _f ^u _g′→w_i ^u-1 _f ^u _g′としてｏ
_{i,r,t（r,i），τ（r,i）,k} ^u _g′をr,t,τ,k,u,gの取り
得る全てについて計算する。

（w8）L₂＝Ｌ（ｉ）を計算する。

前記改善比率が前記設定値より大きければ、L₂→L₁と
してステップ（w4）へ戻る。

分散共分散の再推定式は次のようになる．第11図はモデル作成装置の一実施例である。111は前
記と同様な特徴抽出部であって，入力音声を特徴ベクト
ルの系列に変換する.112は単語パターン記憶部であっ
て，そのモデルを作成すべき単語について,r＝１〜Ｒの
パターンを記憶する.113はモデルのパラメータ記憶部で
あって，訓練の最初に当たっては，適当な初期値が設定
され，訓練の途中にあっては，次々と更新されたパラメ
ータが記憶され，最終的には求むべきパラメータが記憶
される.114はViterbi演算部であって，式（17′）の漸
化式を計算し,N（i,j）,N（ｉ），τ（r,i）,t（r,i）
をr,i,jの可能な組み合わせすべてについて算出する.11
5は全体尤度計算部であって，を計算し，記憶する.116はパラメータ再推定部であっ
て，式（19′），（20′）または（21′），（24″），
（25″），（26″），（27′）に従って前回よりも更新
されたパラメータを再推定する．パラメータ記憶部113
のパラメータは,116で再推定の都度，そこで更新された
パラメータに書き換えられる.117は尤度改善度計算部で
あって,1段階前の再推定時と，現段階における再推定時
の全体尤度を比較し，その改善度を計算し，その値があ
らかじめ定めた閾値以下になると収束完了と判断し，パ
ラメータの再推定を停止する信号を出力し，前記改善度
が前記閾値以上であるときは，再推定を続行する信号を
出力する．再推定が停止したときのパラメータ記憶部11
3の内容が最終的に求められるべきパラメータ値という
ことになる．なお，再推定の繰り返しを続行するか否か
の判断は，再推定回数に上限を設け，再推定回数がこの
上限に到達した時を以て収束したと見なしたり，前記実
施例の方法と併用したりすることもできる（即ち，何れ
か一方の収束条件に到達した時を以て収束と判定する
等）．これは，厳密解における場合も同様である．なお、上記実施例においては、同一状態における遷移
確率は、その停留回数に関わりなく一定として説明した
が、前記d_i（τ）をΓ分布やPoisson分布で与えること
も勿論可能である。この場合は仮定した分布のパラメー
タを訓練データから推定することになり、本発明で述べ
た方法により、同様に求められる。

発明の効果以上のように、本発明により、各状態毎に神経回路網
による非線形予測モデルを定義し、入力パターンＸに対
する予測誤差信号の累積確率をそのモデルのＸに対する
尤度と定義したHMMを構成することによって、入力パタ
ーンのスペクトルの成分間の相関も含めて動的特徴が表
現可能となり、従来に比べてより高精度の時系列パター
ンの認識を可能とする確率モデルの実現が可能となっ
た。

【図面の簡単な説明】第１図は本発明によるHMMのパラメータ推定を行う装置
の一実施例を示すブロック図、第２図はHMMを用いた音
声認識装置の従来例を説明するブロック図、第３図は従
来のHMMの構成を示すHMMの構成図、第４図は本発明のHM
Mの概念を示すトレリス線図、第５図は本発明のHMMのパ
ラメータを推定する方法を説明する説明図、第６図は神
経回路網モデルの一般的説明図、第７図は神経回路網モ
デルで用いられるシグモイド関数の例を示す図、第８図
は本発明のHMMに用いられる神経回路網モデルの構成
図、第９図は本発明の原理により構成されたHMMに対し
てそのモデルから発生する未知入力パターンの発生尤度
を計算する尤度計算装置の一実施例を示すブロック図，
第10図は本発明による音声認識装置の一実施例を説明す
るブロック図，第11図は本発明によるパラメータ推定装
置の他の実施例を示すブロック図である。 801……特徴抽出部 802……単語パターン記憶部 803……バッファメモリ 804……部分尤度計算部 805……連長期待値計算部 806……第一の累積和計算部 807……第二のパラメータ計算部 808……パラメータ記憶部 809……全体尤度計算部 810……全体尤度計算部 811……誤差分散共分散行列分子計算部 812……第二の累積和計算部 813……第１のパラメータ計算部 816……制御部

フロントページの続き (56)参考文献特開平３−181999（ＪＰ，Ａ) 特開昭63−15299（ＪＰ，Ａ) 特開平３−15898（ＪＰ，Ａ) 特開平２−296298（ＪＰ，Ａ) 特開昭63−183499（ＪＰ，Ａ) 米国特許5307444（ＵＳ，Ａ) ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ 1988 Ｖｏｌ．１，”Ｐｌａｎｎｉｎｇ，ＮｅｕｒａｌＮｅｒｗｏｒｋｓａｎｄＭａｒｋｏｖＭｏｄｅｌｓｆｏｒＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”，ｐ．395−402 ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ, 1989，”ＡｌｏｃｕｓｍｏｄｅｌｏｆｃｏａｒｔｉｃｕｌａｔｉｏｎｉｎａｎＨＭＭｓｐｅｅｃｈｒｅｃｏｇｎｉｚｅｒ”，ｐ．97−100 ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ, 1990，”ＡＴＲＨＭＭ−ＬＲＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＳｙｓｔｅｍ”, ｐ．53−56 ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ, 1990，”ＣｏｍｂｉｎｉｎｇＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌａｎｄＮｅｕｒａｌＮｅｔｗｏｒｋＣｌａｓｓｉｆｉｅｒｓ”，ｐ．417−420 ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ, 1990，”ＴＤＮＮＬａｂｅｌｉｎｇｆｏｒａＨＭＭＲｅｃｏｇｎｉｚｅｒ”，ｐ．421−423 ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ, 1990，”Ｓｐｅａｋｅｒ−ｉｎｄｅｐｅｎｄｅｎｔｗｏｒｄｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇａｎｅｕｒａｌｐｒｅｄｉｃｔｉｏｎｍｏｄｅｌ”，ｐ．441−444 ＩＥＩＣＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎａｎｄＳｙｓｔｅｍｓＶｏｌ．Ｅ78− Ｄ，Ｎｏ．６，Ｊｕｎｅ 1995，”ＮｅｕｒａｌＰｒｅｄｉｃｔｉｖｅＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｆｏｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”，ｐ．676−684 ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ，Ｖｏｌ．３，Ｎｏ．２，Ｍａｒｃｈ 1992，”ＧｌｏａｂａｌＯｐｔｉｍａｉｚａｔｉｏｎｏｆａＮｅｕｒａｌＮｅｔｗｏｒｋ−ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌＨｙｂｒｉｄ”，ｐ．252−258 電子情報通信学会技術研究報告Ｖｏｌ．87，Ｎｏ．299，ＳＰ87−97，「音声スペクトルの動的特徴を考慮したＨＭＭ」，ｐ．１−６電子情報通信学会技術研究報告Ｖｏｌ．88，Ｎｏ．329，ＳＰ88−107，「時系列信号の動的特徴を反映したＨＭＭの定式化と線形予測係数をパラメータとする場合への適用」，ｐ．９−16 電子情報通信学会技術研究報告Ｖｏｌ．89，Ｎｏ．90，ＳＰ89−23，「ニューラルネットワークによる予測モデルを用いた音声認識」，ｐ．81−87 電子情報通信学会技術研究報告Ｖｏｌ．89，Ｎｏ．340，ＳＰ89−83，「ニューラルネット駆動型ＨＭＭ」，ｐ．55 −62，（1989／12／14) 電子情報通信学会技術研究報告Ｖｏｌ．91，Ｎｏ．95，ＳＰ91−14，「時系列処理機能をもつ階層型ニューラルネットワーク」，ｐ．63−70 電子情報通信学会技術研究報告ＰＲＵ89−11，ニューラルネットワークによる多重ＨＭＭの近似と音声認識への適用」，ｐ．79−86 1989年電子情報通信学会秋季全国大会講演論文集分冊６「ＳＤ−11−１ニューラルマルコフモデルによる時系列音声パターンの認識」，ｐ．６−276〜６− 277 1989年電子情報通信学会秋季全国大会講演論文集分冊１「ＳＡ−１−２ニューラルマルコフモデル−２重ＨＭＭの実現−」，ｐ．１−331〜１−332 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 535 G10L 3/00 539 G10L 9/10 301 ＪＩＣＳＴ科学技術文献ファイル

Claims

(57)【特許請求の範囲】

【請求項１】状態遷移確率を記憶する状態遷移確率記憶
手段と、入力パターンたる特徴ベクトル系列の時刻ｔに
おける特徴ベクトルをx_tとするとき、x_t以外の一つまた
は複数の特徴ベクトルからなる前記特徴ベクトル系列の
部分系列を入力し、状態毎に定義され、状態ｉにおいて
は、前記部分系列を前記x_tの予測値［x_t］_ｉに変換する
神経回路網と、この神経回路網の重み係数を記憶する重
み係数記憶手段と、前記予測値［x_t］_ｉと入力ベクトル
x_tとの予測誤差ベクトルを算出する予測誤差算出手段
と、この予測誤差算出手段の出力ベクトルの確率分布を
規定するパラメータを記憶する確率分布パラメータ記憶
手段とを備えたことを特徴とするHMM記憶装置。
【請求項２】カテゴリｖに対応する第ｒ（＝1,2,…,R）
の訓練用パターンをX^r＝x^r ₁,x^r ₂,…,x^r _Tとし、前記ｖに
対応するHMMをM^v、M^vの状態ｉで定義されている予測器P
_iにより予測された前記ベクトルx^r _tの予測値［x^r _t］_ｉ
とx^r _tとの予測誤差ベクトルの、前記M^vから得られる状
態系列S^rに対応する予測誤差系列をE^r、前記S^rとE^rの同
時確率密度のS^rに関する総和をＰ（E^r|M^v）とすると
き、を最大にするパラメータの推定を行うパラメータ推定手
段を含み、この推定されたパラメータを請求項１記載の
HMM記憶装置におけるHMMのパラメータとすることを特徴
とするHMM作成装置。
【請求項３】認識すべきカテゴリｖ＝１〜Ｖに対して設
けられた請求項１記載のHMM記憶装置と、入力パターン
Ｘに対応してカテゴリｖに対応するモデルM^vの任意に定
められる状態系列をＳ、Ｓに対応する請求項１記載のHM
M記憶装置における神経回路網の出力たる予測値に対す
る予測誤差ベクトル系列をＥとするとき、入力パターン
Ｘに対するM^vの尤度をで定義し、この尤度をｖ＝１〜Ｖについて計算する尤度
計算手段と、その最大値を与えるｖを求める最大値判定
手段を含み、前記最大値を与えるｖをとするとき、こ
のを認識結果と判定することを特徴とするパターン認
識装置。
【請求項４】認識すべきカテゴリｖに対応する第ｒ（ｒ
＝1,2,...,R）の訓練用パターンをとし，前記ｖに対応するHMMをM^v,M^vの状態ｉで定義され
ている予測器P_iにより予測された前記ベクトルx^r _tの予
測値［x^r _t］_ｉとx^r _tとの予測画素ベクトルの前記M^vから
得られる状態系列S^rに対応する予測誤差系列をE^rとする
とき，前記S^rとE^rに関して，となる最適状態系列S^rを求める最適状態系列算出手段
と、ｒ＝1,2,...,Rに対して算出された前記各最適状態
系列における，状態ｉに対応付けされた予測誤差ベクト
ルの分布，状態ｉの連長の分布から，状態ｉに関連する
パラメータの値を算出するパラメータ値算出手段と，前
記パラメータ値が収束するまで前記最適状態系列の算出
と，前記パラメータの算出とを交互に繰り返し行い，こ
の逐次計算の結果として，前記パラメータの推定値を得
るパラメータ推定手段とを含み，この推定されたパラメ
ータを請求項１記載のHMM記憶装置におけるパラメータ
とすることを特徴とするHMM作成装置。
【請求項５】認識すべきカテゴリｖ＝１〜Ｖに対して設
けられた請求項１記載のHMM記憶装置と、入力パターン
Ｘに対応してカテゴリｖに対応するモデルM^vの任意に定
められる状態系列をＳ、Ｓに対応する請求項１記載のHM
M記憶装置における神経回路網の出力たる予測値に対応
する予測誤差ベクトル系列をＥとするとき、入力パター
ンＸに対するM^vの尤度をで定義し、この尤度をｖ＝１〜Ｖについて計算する尤度
計算手段と、その最大値を与えるｖを求める最大値判定
手段を含み、前記最大値を与えるｖをとするとき、こ
のを認識結果と判定することを特徴とするパターン認
識装置。