JPH03181999A - Hmm装置 - Google Patents
Hmm装置Info
- Publication number
- JPH03181999A JPH03181999A JP1322149A JP32214989A JPH03181999A JP H03181999 A JPH03181999 A JP H03181999A JP 1322149 A JP1322149 A JP 1322149A JP 32214989 A JP32214989 A JP 32214989A JP H03181999 A JPH03181999 A JP H03181999A
- Authority
- JP
- Japan
- Prior art keywords
- state
- parameter
- likelihood
- pattern
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 66
- 230000007704 transition Effects 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims description 82
- 238000000034 method Methods 0.000 claims description 25
- 238000003909 pattern recognition Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims 2
- 230000001186 cumulative effect Effects 0.000 abstract description 30
- 230000008859 change Effects 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 19
- 230000015654 memory Effects 0.000 description 13
- 230000006872 improvement Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101100084025 Mus musculus Alpg gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000009474 immediate action Effects 0.000 description 1
- 235000012149 noodles Nutrition 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音声認識等のパターン認識に適用可能な新しい
HMM (ヒトラン マルコフ モチ゛ル (Hid
den Mark□y Model))のパラメータ
の推定方法および装置に関する。
HMM (ヒトラン マルコフ モチ゛ル (Hid
den Mark□y Model))のパラメータ
の推定方法および装置に関する。
従来の技術
本発明は一般の時系列信号に適用可能なものである力交
説明の便宜のために 以下、音声認識を例に説明する
。
説明の便宜のために 以下、音声認識を例に説明する
。
先ずHMMを用いた音声認識装置について説明する。
第2図+;!、HMMを用いた音声認識装置のブロック
図である。 101は音声分析部であって、入力音声信
号をフィルタパン久 フーリエ変aLPG分析等の周知
の方法により、一定時間間隔(フレームと呼ぶ)例えば
10m5ec毎に特徴ベクトルに変換すん 従って、入
力音声信号は特徴ベクトルの系列X=x+ 、 xe
、・・・、XTに変換される。Tはフレーム数である。
図である。 101は音声分析部であって、入力音声信
号をフィルタパン久 フーリエ変aLPG分析等の周知
の方法により、一定時間間隔(フレームと呼ぶ)例えば
10m5ec毎に特徴ベクトルに変換すん 従って、入
力音声信号は特徴ベクトルの系列X=x+ 、 xe
、・・・、XTに変換される。Tはフレーム数である。
102はコードブックと呼ばれるもので、ラベル付け
された代表ベクトルを保持してい& 103はベクト
ル量子化部であって、前記ベクトル系列Xのそれぞれの
ベクトルをそれに最も近い前記代表ベクトルのラベルに
置き換えるものである。 104はHMM作戒作成あっ
て、訓練データから認識語業たる各単語に対応するHM
Mを作成するものである。節板 単語Wに対応するHM
Mを作るにζ上 先ず、HMMの構造(状態数やそれら
状態の間に許される遷移規則)を適当に定数 然る後に
前記の如くして単語Wを多数回発声して得られたラベル
系列から、それらラベル系列の発生確率が出来るだけ高
くなるように前記モデルにおける状態遷移確率や状態の
遷移に伴って発生するラベルの発生確率を求めるもので
ある。 205はHMM記憶部であって、このようにし
て得られたHMMを各単語毎に記憶するものである。
106は尤度計算部であって、認識すべき未知人力音声
のラベル系列に対し 前記HMM記憶部105に記憶さ
れているそれぞれのモデルからそのラベル系列の発生す
る尤度を計算するものである。 107は比較判定部で
あって尤度計算部106で得られた前記それぞれのモデ
ルに対する尤度の最大値を与えるモデルに対応する単語
を認識結果として判定するものである。
された代表ベクトルを保持してい& 103はベクト
ル量子化部であって、前記ベクトル系列Xのそれぞれの
ベクトルをそれに最も近い前記代表ベクトルのラベルに
置き換えるものである。 104はHMM作戒作成あっ
て、訓練データから認識語業たる各単語に対応するHM
Mを作成するものである。節板 単語Wに対応するHM
Mを作るにζ上 先ず、HMMの構造(状態数やそれら
状態の間に許される遷移規則)を適当に定数 然る後に
前記の如くして単語Wを多数回発声して得られたラベル
系列から、それらラベル系列の発生確率が出来るだけ高
くなるように前記モデルにおける状態遷移確率や状態の
遷移に伴って発生するラベルの発生確率を求めるもので
ある。 205はHMM記憶部であって、このようにし
て得られたHMMを各単語毎に記憶するものである。
106は尤度計算部であって、認識すべき未知人力音声
のラベル系列に対し 前記HMM記憶部105に記憶さ
れているそれぞれのモデルからそのラベル系列の発生す
る尤度を計算するものである。 107は比較判定部で
あって尤度計算部106で得られた前記それぞれのモデ
ルに対する尤度の最大値を与えるモデルに対応する単語
を認識結果として判定するものである。
HMMによる認識は次のようにして行われる。
節板 未知入力に対して得られたラベル系列を0=O−
1,02,・・・、OT、モデルλゞにより発生される
Tの長さの任意の状態系列をS = sl、se、・・
・、STとするとき、λ9からラベル系列Oの発生する
光度は〔厳密解〕 L+ (v) −”j;i P(0,Slλ’) −−
−−−−−−−−−−(1)〔近似解〕 L2(V) = mgx[P(0,Slλv)]・・・
・・・・・・・・・(2)−7 また(戴 対数をとって り、(v) = mgx[log(P(0,Slλv)
)]・・・・・・・・・(3)で与えられる。ここで、
P(X、 ylλv)11 モデルλ9におけるx、
yの同時確率密度である。
1,02,・・・、OT、モデルλゞにより発生される
Tの長さの任意の状態系列をS = sl、se、・・
・、STとするとき、λ9からラベル系列Oの発生する
光度は〔厳密解〕 L+ (v) −”j;i P(0,Slλ’) −−
−−−−−−−−−−(1)〔近似解〕 L2(V) = mgx[P(0,Slλv)]・・・
・・・・・・・・・(2)−7 また(戴 対数をとって り、(v) = mgx[log(P(0,Slλv)
)]・・・・・・・・・(3)で与えられる。ここで、
P(X、 ylλv)11 モデルλ9におけるx、
yの同時確率密度である。
従って、例えば 式(1)を用いれば
? = argmax[L+(v)]・・・・・・・・
・・・・・・・・・・(4)とするとき、9が認識結果
となる。式(2)、 (3)を用いるときも同様である
。
・・・・・・・・・・(4)とするとき、9が認識結果
となる。式(2)、 (3)を用いるときも同様である
。
P(0,31λ)は式(1)の場合は 次のようにして
求められる。
求められる。
いま、HMMλの状態q+ (i−1〜I)に対して、
状態q■毎に ラベルOの発生確率b+(o)と状態q
1から状態q」への遷移確率azが与えられているとき
、状態系列S = sI、se、・・・、Sy++ に
対してラベル系列0−o+ 、 at 、・・・、0丁
のHMMλから発生する確率は と定義出来る。ここでa@1.は状態S1の初期確率で
ある。ま7”、、 ST・j −qf は最終状態で
あって、如何なるラベルも発生しな賎 この例では入力の特徴ベクトルXをラベルに変換した力
1 各状態におけるラベルの発生確率の代りに特徴ベク
トルXをそのまま用い、各状態において特徴ベクトルX
の確率密度関数を与える方法もある。このときは式(5
)における前記ラベル0の状態q1における発生確率b
+(o)の代わりに特徴ベクトルXの確率密度b+ (
x)を用いることになる。このときは、前記式(1)、
(2)、 (3)は次のようになる。
状態q■毎に ラベルOの発生確率b+(o)と状態q
1から状態q」への遷移確率azが与えられているとき
、状態系列S = sI、se、・・・、Sy++ に
対してラベル系列0−o+ 、 at 、・・・、0丁
のHMMλから発生する確率は と定義出来る。ここでa@1.は状態S1の初期確率で
ある。ま7”、、 ST・j −qf は最終状態で
あって、如何なるラベルも発生しな賎 この例では入力の特徴ベクトルXをラベルに変換した力
1 各状態におけるラベルの発生確率の代りに特徴ベク
トルXをそのまま用い、各状態において特徴ベクトルX
の確率密度関数を与える方法もある。このときは式(5
)における前記ラベル0の状態q1における発生確率b
+(o)の代わりに特徴ベクトルXの確率密度b+ (
x)を用いることになる。このときは、前記式(1)、
(2)、 (3)は次のようになる。
Llo(V)= Σ p(x、 s 1入り)・・・・
・・・・・・・・(1′)〔近似解〕 L2°(v) −max[P(X、Slλv)]・・
・・・・・・・・・・(2′)また(よ 対数をとれば
次式が得られる。
・・・・・・・・(1′)〔近似解〕 L2°(v) −max[P(X、Slλv)]・・
・・・・・・・・・・(2′)また(よ 対数をとれば
次式が得られる。
Ls’(v) −max [log (P(X、Slλ
v))]−(3’)以上、何れの方式を用いるにしても
最終的な認識結果(よ それぞれの単語Vに対してHM
MλVをv−1〜Vについて準備しておけば 入力音声
信号Xに対して ? −argmax [P(XIλV)コ ・・
・・・・・・・・・・・・・(6)がXの認識結果とな
る。加電 ここでのXは前記それぞれ方法に応じて、入
力されたラベル系丸特徴ベクトル系列等である。
v))]−(3’)以上、何れの方式を用いるにしても
最終的な認識結果(よ それぞれの単語Vに対してHM
MλVをv−1〜Vについて準備しておけば 入力音声
信号Xに対して ? −argmax [P(XIλV)コ ・・
・・・・・・・・・・・・・(6)がXの認識結果とな
る。加電 ここでのXは前記それぞれ方法に応じて、入
力されたラベル系丸特徴ベクトル系列等である。
発明が解決しようとする課題
従来 音声認識に用いられている典型的なHMMは第3
図に示されるようなものであも 図において、qlは6
番目の状態alJは状態qlから状態qJに遷移する遷
移離散り+(x)はラベルあるいは特徴ベクトルXの状
態q+において観測される確率密度であも このとき、HMMの゛状態”qlは、そのHMMに対応
する音声の部分区間(セグメント)iに対応していると
考えられも 従って、状態q1 においてXの観測され
る確率密度b+(x) LJ、 セグメントlにおい
てXが発生する確率密度であり、遷移確率allは時刻
tにおけるxtがセグメントiに含まれるとき、時点t
+1におけるxt・1が再びセグメントiに含まれる確
率であると解される。このような考えに立てば 従来の
HMMにおける間0− 照点として次の2点が指摘できる。
図に示されるようなものであも 図において、qlは6
番目の状態alJは状態qlから状態qJに遷移する遷
移離散り+(x)はラベルあるいは特徴ベクトルXの状
態q+において観測される確率密度であも このとき、HMMの゛状態”qlは、そのHMMに対応
する音声の部分区間(セグメント)iに対応していると
考えられも 従って、状態q1 においてXの観測され
る確率密度b+(x) LJ、 セグメントlにおい
てXが発生する確率密度であり、遷移確率allは時刻
tにおけるxtがセグメントiに含まれるとき、時点t
+1におけるxt・1が再びセグメントiに含まれる確
率であると解される。このような考えに立てば 従来の
HMMにおける間0− 照点として次の2点が指摘できる。
(1)関数LH(x)を規定するパラメータは、例えば
Xが正規分布とした場合、平均ベクトルと共分散行列で
ある力交 それらは状態ql に関して一定であるとし
ているの弘 音韻によっては特徴ベクトルの時間的な変
化の特徴(動的特徴)が重要であるにもかかわらず、従
来のモデルでは その特徴が適切に表現できな賎 (2)セグメントiの長さτはある確率分布に従ってい
るものと考えられるが、従来のモデルで(よ遷移確率a
ll、 allは状態q1の連の長さとは無関係に一定
であるとしているので、結果的にセグメントiの長さは
指数分布に従うことになり、その分布形状は現実を適切
に表現するものとはなっていなりも (2)の問題を解決する方法としては、状態q1の連の
長さτに関する確率密度関数dI(τ)としてPols
son分布や1分布を用いるものが既に公知である。
Xが正規分布とした場合、平均ベクトルと共分散行列で
ある力交 それらは状態ql に関して一定であるとし
ているの弘 音韻によっては特徴ベクトルの時間的な変
化の特徴(動的特徴)が重要であるにもかかわらず、従
来のモデルでは その特徴が適切に表現できな賎 (2)セグメントiの長さτはある確率分布に従ってい
るものと考えられるが、従来のモデルで(よ遷移確率a
ll、 allは状態q1の連の長さとは無関係に一定
であるとしているので、結果的にセグメントiの長さは
指数分布に従うことになり、その分布形状は現実を適切
に表現するものとはなっていなりも (2)の問題を解決する方法としては、状態q1の連の
長さτに関する確率密度関数dI(τ)としてPols
son分布や1分布を用いるものが既に公知である。
本発明の目的(上 状態ql における特黴ベクト11
ルの時間的変化傾向力丈 同一セグメント(状態)内に
おいては時間的に一定の傾向を持つと言う仮定のもとに
各状態毎に線形予測モデルを定義し入力パターンXに
対する予測誤差信号の累積確率をそのモデルのXに対す
る尤度と定義したHMMを構成することによって、(1
)の問題を解決することにある。
おいては時間的に一定の傾向を持つと言う仮定のもとに
各状態毎に線形予測モデルを定義し入力パターンXに
対する予測誤差信号の累積確率をそのモデルのXに対す
る尤度と定義したHMMを構成することによって、(1
)の問題を解決することにある。
課題を解決するための手段
8MM記憶装置を、状態遷移確率を記憶する状態遷移確
率記憶手段と、入力パターンたる特徴ベクトル系列の時
刻tにおける特徴ベクトルをxtとするとき、xt以外
の1つまたは複数の特徴ベクトルからなる前記特徴ベク
トル系列の部分系列を人力し 状態毎に定義され 状態
lにおいて(上 前記部分系列を前記xtの予測値[X
t]lに変換する線形予測手段と、この線形予測手段の
予測係数を記憶する予測係数記憶手段と、前記予測値[
xt]iと入力ベクトルxtとの予測誤差ベクトルを算
出する予測誤差算出手段と、この予測誤差算出手段の出
力ベクトルの確率分布を規定するパラメータを記憶する
確率分布パラメータ記憶手段とを備えた構成とする。
率記憶手段と、入力パターンたる特徴ベクトル系列の時
刻tにおける特徴ベクトルをxtとするとき、xt以外
の1つまたは複数の特徴ベクトルからなる前記特徴ベク
トル系列の部分系列を人力し 状態毎に定義され 状態
lにおいて(上 前記部分系列を前記xtの予測値[X
t]lに変換する線形予測手段と、この線形予測手段の
予測係数を記憶する予測係数記憶手段と、前記予測値[
xt]iと入力ベクトルxtとの予測誤差ベクトルを算
出する予測誤差算出手段と、この予測誤差算出手段の出
力ベクトルの確率分布を規定するパラメータを記憶する
確率分布パラメータ記憶手段とを備えた構成とする。
また第1のHMM作戊装置ct カテゴリVに対応す
る第r(=1.2.・・・、R)の訓練用パターンをX
r == x rl、X’2.”’、X’Tとし 前記
Vに対応するHMMをMv、Mvの状態1で定義されて
いる予測器Piにより予測された前記ベクトルxrtの
予測値[z’t]iとx r aとの予測誤差ベクトル
α 前記Mvから得られる状態系列Sに対応する予測誤
差系列をEr、前記SとE・の同時確率密度のSに関す
る総和をP(E’ IMv)とする定を行うパラメータ
推定手段を含ム この推定されたパラメータを上記のH
MMのパラメータとする構成とする。
る第r(=1.2.・・・、R)の訓練用パターンをX
r == x rl、X’2.”’、X’Tとし 前記
Vに対応するHMMをMv、Mvの状態1で定義されて
いる予測器Piにより予測された前記ベクトルxrtの
予測値[z’t]iとx r aとの予測誤差ベクトル
α 前記Mvから得られる状態系列Sに対応する予測誤
差系列をEr、前記SとE・の同時確率密度のSに関す
る総和をP(E’ IMv)とする定を行うパラメータ
推定手段を含ム この推定されたパラメータを上記のH
MMのパラメータとする構成とする。
また第1のパターン認識装置法 認識すべきカテゴリv
=1〜Vに対して設けられた上記構成の8MM記憶装置
と、入力パターンXに対応してカテゴ°すVに対応する
モデルMvの任意に定められる状態系列を& Sに対応
する上記構成の8MM記憶装置における線形予測手段の
出力たる予測値に対3− する予測誤差ベクトル系列をEとするとき、人カッくタ
ーンXに対するMvの尤度をΣP(E、SIMv)で定
義し この尤度をv=1〜■について計算する尤度計算
手段と、その最大値を与えるVを求める最大値判定手段
を含ム 前記最大値を与えるVをQとするとき、この9
を認識結果と判定する構成とすもさらに第2のパターン
認識装置は 認識すべきカテゴリv=1〜Vに対して設
けられた上記構成の8MM記憶装置と、入力パターンX
に対応してカテゴリVに対応するモデルMvの任意に定
められる状態系列を&Sに対応する上記構成の8MM記
憶装置における線形予測手段の出力たる予測値に対する
予測誤差ベクトル系列をEとするとき、入力パターンX
に対するMvの尤度をmax[P(E、SIMv)]あ
るいはmax[log P(E、SIMv)]で定義し
この尤度をv=1−Vについて計算する尤度計算手段
と、その最大値を与えるVを求める最大値判定手段を含
ム 前記最大値を与えるVを9とするとき、この9を認
識結果と判定するする構成とする。
=1〜Vに対して設けられた上記構成の8MM記憶装置
と、入力パターンXに対応してカテゴ°すVに対応する
モデルMvの任意に定められる状態系列を& Sに対応
する上記構成の8MM記憶装置における線形予測手段の
出力たる予測値に対3− する予測誤差ベクトル系列をEとするとき、人カッくタ
ーンXに対するMvの尤度をΣP(E、SIMv)で定
義し この尤度をv=1〜■について計算する尤度計算
手段と、その最大値を与えるVを求める最大値判定手段
を含ム 前記最大値を与えるVをQとするとき、この9
を認識結果と判定する構成とすもさらに第2のパターン
認識装置は 認識すべきカテゴリv=1〜Vに対して設
けられた上記構成の8MM記憶装置と、入力パターンX
に対応してカテゴリVに対応するモデルMvの任意に定
められる状態系列を&Sに対応する上記構成の8MM記
憶装置における線形予測手段の出力たる予測値に対する
予測誤差ベクトル系列をEとするとき、入力パターンX
に対するMvの尤度をmax[P(E、SIMv)]あ
るいはmax[log P(E、SIMv)]で定義し
この尤度をv=1−Vについて計算する尤度計算手段
と、その最大値を与えるVを求める最大値判定手段を含
ム 前記最大値を与えるVを9とするとき、この9を認
識結果と判定するする構成とする。
さらに第2のHMM作戒作置装置 上記第2のパ4−
ターン認識装置の構成に記載の方法によって、第1番の
訓練パターンに対する最適の状態系列を束数 その状態
系列上の状態1部分に対応するフレーム数のr−1−R
に対する分布から、状態iの連長の確率分布di(τ)
を求める連長確率密度算出手段と、前記状態1部分に対
応するR通りの特徴ベクトル系列から、 上記8MM記
憶装置の構成に記載の線形予測手段の係数を求める線形
予測係数計算手段と、前記R通りの状態i部分に対応す
る予測誤差ベクトル系列からその分布を規定するパラメ
ータを求める確率分布パラメータ算出手段とを備えた構
成とする。
訓練パターンに対する最適の状態系列を束数 その状態
系列上の状態1部分に対応するフレーム数のr−1−R
に対する分布から、状態iの連長の確率分布di(τ)
を求める連長確率密度算出手段と、前記状態1部分に対
応するR通りの特徴ベクトル系列から、 上記8MM記
憶装置の構成に記載の線形予測手段の係数を求める線形
予測係数計算手段と、前記R通りの状態i部分に対応す
る予測誤差ベクトル系列からその分布を規定するパラメ
ータを求める確率分布パラメータ算出手段とを備えた構
成とする。
作用
8MM記憶装置は 状態遷移確率記憶手段により状態遷
移確率を記憶し 入力パターンたる特徴ベクトル系列の
時刻tにおける特徴ベクトルをxtとするとき、xt以
外の1つまたは複数の特徴ベクトルからなる前記特徴ベ
クトル系列の部分系列を入力し 状態毎に定義され 状
態lにおいて(友前記部分系列を前記xtの予測値[x
t]1に変換する線15− 形予測手段の予測係数を予測係数記憶手段により記憶し
、予測誤差算出手段により前記予測値[X、]と人力ベ
クトルxtとの予測誤差ベクトルを算出しこの予測誤差
算出手段の出力ベクトルの確率分布を規定するパラメー
タを確率分布パラメータ記憶手段により記憶する。
移確率を記憶し 入力パターンたる特徴ベクトル系列の
時刻tにおける特徴ベクトルをxtとするとき、xt以
外の1つまたは複数の特徴ベクトルからなる前記特徴ベ
クトル系列の部分系列を入力し 状態毎に定義され 状
態lにおいて(友前記部分系列を前記xtの予測値[x
t]1に変換する線15− 形予測手段の予測係数を予測係数記憶手段により記憶し
、予測誤差算出手段により前記予測値[X、]と人力ベ
クトルxtとの予測誤差ベクトルを算出しこの予測誤差
算出手段の出力ベクトルの確率分布を規定するパラメー
タを確率分布パラメータ記憶手段により記憶する。
第1のHMM作成装置ば カテゴリVに対応する第r
(=1.2.−・・、 R)の訓練用パターンを、Xr
=Xr+。
(=1.2.−・・、 R)の訓練用パターンを、Xr
=Xr+。
X’2.・・・zr丁とし 前記Vに対応するHMMを
Mv。
Mv。
Mvの状態iで定義されている予測器Piにより予測さ
れた前記ベクトルxrtの予測値[xrt]iとxrt
との予測誤差ベクトルの、前記Mvから得られる状態系
列Sに対応する予測誤差系列をEr、前記SとE′の同
時確率密度のSに関する総和をP(E’1Mv)とする
定をパラメータ推定手段により行へ この推定されたパ
ラメータを上記構成のHMMのパラメータとする。
れた前記ベクトルxrtの予測値[xrt]iとxrt
との予測誤差ベクトルの、前記Mvから得られる状態系
列Sに対応する予測誤差系列をEr、前記SとE′の同
時確率密度のSに関する総和をP(E’1Mv)とする
定をパラメータ推定手段により行へ この推定されたパ
ラメータを上記構成のHMMのパラメータとする。
第1のパターン認識装置は 認識すべきカテゴリv=1
〜Vに対して設けられた上記構成のHMM記憶装置に記
憶されているパラメータを用(\入力パターンXに対応
してカテゴリVに対応するモデルMvの任意に定められ
る状態系列を8.8に対応する上記構成のHMM記憶装
置における線形予測手段の出力たる予測値に対する予測
誤差ベクトル系列をEとするとき、入力パターンXに対
するMvの尤度をΣP(E、 SIMv)で定義し 尤
度計算手段によりこの尤度をv=1〜Vについて計算し
その最大値を与えるVを最大値判定手段により求へ前
記最大値を与える■を9とするときこのQを認識結果と
判定する。
〜Vに対して設けられた上記構成のHMM記憶装置に記
憶されているパラメータを用(\入力パターンXに対応
してカテゴリVに対応するモデルMvの任意に定められ
る状態系列を8.8に対応する上記構成のHMM記憶装
置における線形予測手段の出力たる予測値に対する予測
誤差ベクトル系列をEとするとき、入力パターンXに対
するMvの尤度をΣP(E、 SIMv)で定義し 尤
度計算手段によりこの尤度をv=1〜Vについて計算し
その最大値を与えるVを最大値判定手段により求へ前
記最大値を与える■を9とするときこのQを認識結果と
判定する。
第2のパターン認識装置(戴 認識すべきカテゴリv=
1〜Vに対して設けられた上記構成のHMM記憶装置に
記憶されているパラメータを用t、X。
1〜Vに対して設けられた上記構成のHMM記憶装置に
記憶されているパラメータを用t、X。
入力パターンXに対応してカテゴリVに対応するモデル
Mvの任意に定められる状態系列を&Sに対応する上記
構成のHMM記憶装置における線形予測手段の出力たる
予測値に対する予測誤差ベクトル系列をEとするとき、
入力パターンXに対するMvの尤度をmax[P(E、
SIMv)]あるいはmax[log P(E。
Mvの任意に定められる状態系列を&Sに対応する上記
構成のHMM記憶装置における線形予測手段の出力たる
予測値に対する予測誤差ベクトル系列をEとするとき、
入力パターンXに対するMvの尤度をmax[P(E、
SIMv)]あるいはmax[log P(E。
7−
87−8I]で定義し この尤度を尤度計算手段により
v=1〜Vについて計算し その最大値を与えるVを最
大値判定手段により求ぬ 前記最大値を与えるVを9と
するとき、このQを認識結果と判定する。
v=1〜Vについて計算し その最大値を与えるVを最
大値判定手段により求ぬ 前記最大値を与えるVを9と
するとき、このQを認識結果と判定する。
第2のHMM作戒作置装置 上記第2のパターン認識装
置の構成に記載の方法によって、第1番の訓練パターン
に対する最適の状態系列を求へ 連長確率密度計算手段
によって、その状態系列上の状態i部分に対応するフレ
ーム数のr=1−Hに対する分布から、 状態iの連長
の確率分布di(τ)を束数線形予測係数算出手段によ
って、状態i部分に対応する前記R通りの特徴ベクトル
系列から、 上記構成のHMM記憶装置における線形予
測手段の係数を木取 確率分布パラメータ算出手段によ
って、前記R通りの訓練パターンの状態i部分に対応す
る予測誤差ベクトルの分布からその分布を規定するパラ
メータを求める。
置の構成に記載の方法によって、第1番の訓練パターン
に対する最適の状態系列を求へ 連長確率密度計算手段
によって、その状態系列上の状態i部分に対応するフレ
ーム数のr=1−Hに対する分布から、 状態iの連長
の確率分布di(τ)を束数線形予測係数算出手段によ
って、状態i部分に対応する前記R通りの特徴ベクトル
系列から、 上記構成のHMM記憶装置における線形予
測手段の係数を木取 確率分布パラメータ算出手段によ
って、前記R通りの訓練パターンの状態i部分に対応す
る予測誤差ベクトルの分布からその分布を規定するパラ
メータを求める。
実施例
ここで、以後用いるべき記号の定義をまとめて18−
おく。簡単のために 誤解を生じない限り、状態q1、
q」等は単にis J等と表記することにする。
q」等は単にis J等と表記することにする。
また モデルの学習は単語Vについて行う場合を述べる
こととし 区別する必要のある場合はパラメータの右肩
に添字Vを付加し 通常はこれを省くものとする。
こととし 区別する必要のある場合はパラメータの右肩
に添字Vを付加し 通常はこれを省くものとする。
i−1,2,・・・、I:第i番の状態[al」コニ遷
移マトリクス al」:状態lから状態jへの遷移確率r:単語Vに対
する訓練パターン番号(r−1,・・・、R)xrt:
訓練パターンrの第tフレームにおける観測ベクトル b+(xrt):状態iにおけ水 訓練パターンrのフ
レームtの観測ベクトルxrtの確率密度a1:状態i
の線形予測パラメータベクトル(α1冨((III、Q
l!+・・・、al内)1)交・t:X’の部分系列を
入力として得られる前記ニューラルネットの出力ベクト
ル(xiの予測ベクトル) e’t:予測誤差ベクトル(e’ t −x’ t −
i’ t )=19− b+(e’t):状態jにおける前記ベクトルe’tの
確率密度 X’ −X ’ l X ’ ” ・・・X ’ T
r :単語Vに対する第r番のパターン(ただし r=
1.2.・・・、R)S’ −3’ l S ’ 2
”・S ’ r r S ’ y r : X ’に対
応する状態系列s’t:単語Vに対する第r番の訓練パ
ターンの第tフレームにおける状態 T′=単語Vに対する第r番の訓練パターンのフレーム
数 ξ1:状態iにおける観測ベクトルの確率分布および状
態iの連の長さの確率分布を規定するパラメータの集合 合 λ−(XI):全パラメータの集合(λをパラメータと
するモデルをモデルλと呼ぶ場合が ある) P(Xlλ):観測ベクトル系列Xがモデルλから発生
する確率 qt:最終の状態(” S’T・1) π1=as、l:状態lがt=1で生じる確率単語■に
対応するHMMを学習する方法について述べる。
移マトリクス al」:状態lから状態jへの遷移確率r:単語Vに対
する訓練パターン番号(r−1,・・・、R)xrt:
訓練パターンrの第tフレームにおける観測ベクトル b+(xrt):状態iにおけ水 訓練パターンrのフ
レームtの観測ベクトルxrtの確率密度a1:状態i
の線形予測パラメータベクトル(α1冨((III、Q
l!+・・・、al内)1)交・t:X’の部分系列を
入力として得られる前記ニューラルネットの出力ベクト
ル(xiの予測ベクトル) e’t:予測誤差ベクトル(e’ t −x’ t −
i’ t )=19− b+(e’t):状態jにおける前記ベクトルe’tの
確率密度 X’ −X ’ l X ’ ” ・・・X ’ T
r :単語Vに対する第r番のパターン(ただし r=
1.2.・・・、R)S’ −3’ l S ’ 2
”・S ’ r r S ’ y r : X ’に対
応する状態系列s’t:単語Vに対する第r番の訓練パ
ターンの第tフレームにおける状態 T′=単語Vに対する第r番の訓練パターンのフレーム
数 ξ1:状態iにおける観測ベクトルの確率分布および状
態iの連の長さの確率分布を規定するパラメータの集合 合 λ−(XI):全パラメータの集合(λをパラメータと
するモデルをモデルλと呼ぶ場合が ある) P(Xlλ):観測ベクトル系列Xがモデルλから発生
する確率 qt:最終の状態(” S’T・1) π1=as、l:状態lがt=1で生じる確率単語■に
対応するHMMを学習する方法について述べる。
問題は 単語Vについて準備されたr=l−Rの訓練パ
ターンに対して尤度関数P(XI、X’、・・・XRI
λ)を最大にするパラメータλを推定することである。
ターンに対して尤度関数P(XI、X’、・・・XRI
λ)を最大にするパラメータλを推定することである。
X′が互いに独立であるとすれば
P(XI 、・・・XRIλ)
で与えられる。ここで、次の補助関数Q(λ、λ°)を
定義する。
定義する。
Q(λ、λ°)
このとき、
次のことが言えも
21
Q(λ、 1’ )≧Q(1,λ)ノトキ、P(XI、
・、XI12’)≧P(X’。
・、XI12’)≧P(X’。
・・・XRIλ)であって、等号はλ”=λの時に成り
立っ。
立っ。
故に
λ −argmax [Q(λ、λ″)コ ・・
・・・・・・・・・・(9)λ1 を求めることが出来れば λ−λとして式(9)を繰り
返し適用することによって、λはP(X’、・・・XR
Iλ)の停留点 即−+2 P(XI、・・・Xl′
lλ)の極大値または鞍点を与える点に収束することに
なり、P(X’ 、・・・XRIλ)の変化率が予め定
めた閾値以下になるまでこの操作を繰り返すことにより
局所最適解が得られる。
・・・・・・・・・・(9)λ1 を求めることが出来れば λ−λとして式(9)を繰り
返し適用することによって、λはP(X’、・・・XR
Iλ)の停留点 即−+2 P(XI、・・・Xl′
lλ)の極大値または鞍点を与える点に収束することに
なり、P(X’ 、・・・XRIλ)の変化率が予め定
めた閾値以下になるまでこの操作を繰り返すことにより
局所最適解が得られる。
次にQ(λ、λ”)を用いてパラメータを推定する方法
について説明する。
について説明する。
式(9)を変形すれば 次式が得られる。
×Σ P(X’ 、 S’ lλ) log P(X
’、S’lλ’) −−−−−−(10)前述の説明
に従えGf、 Q(λ、λ°)をλ′の関数と児なし
てQ(λ、λ’)>Q(λ、λ)なるλ′を見出せば
それはλの更新されたものとなるカーL P(XI、
・・・)(R1λ)はλ′に関しては一定値となるか転
これは −曽− Q”(λ、λ′) =Q(λ、λ’)/P(X’、・・・ X1llλ)と
と同様である。ただし ここでcr=I/P(X’lλ
)とおいている。
’、S’lλ’) −−−−−−(10)前述の説明
に従えGf、 Q(λ、λ°)をλ′の関数と児なし
てQ(λ、λ’)>Q(λ、λ)なるλ′を見出せば
それはλの更新されたものとなるカーL P(XI、
・・・)(R1λ)はλ′に関しては一定値となるか転
これは −曽− Q”(λ、λ′) =Q(λ、λ’)/P(X’、・・・ X1llλ)と
と同様である。ただし ここでcr=I/P(X’lλ
)とおいている。
式(11)はさらに次のようになる。
Q”(λ、λ′)
ここで考えているHMMは1eft to right
(7)モデルであって、−旦離れた状態には再び戻るこ
とはないとすれば 状態系列S゛において、状11iの
開始時点をt+(S’)、状態iの持続時間をτI(S
’ )、節板 τ+(S’)=t+(S’)−t+(S
’) (ただし 状態lの次の状態がjであるとする〉
とすれば(第4図参照)、式(12)から式(13)が
得られる。
(7)モデルであって、−旦離れた状態には再び戻るこ
とはないとすれば 状態系列S゛において、状11iの
開始時点をt+(S’)、状態iの持続時間をτI(S
’ )、節板 τ+(S’)=t+(S’)−t+(S
’) (ただし 状態lの次の状態がjであるとする〉
とすれば(第4図参照)、式(12)から式(13)が
得られる。
aQ”cλ、λ゛)
a111
−幻−
ただLAilを状態iの連における最初の状態を意味す
るものとするとき P(r+i+j+ t+r)=P(X’、s’t−v−
it、s’t−jl lλ)とおいていも 同様に式(14)が得られる。
るものとするとき P(r+i+j+ t+r)=P(X’、s’t−v−
it、s’t−jl lλ)とおいていも 同様に式(14)が得られる。
aQ”(λ、λ′)
式(13)、(14)においてP(X、s’t−τ−i
+、s′t=j+lλ)はモデルλにおけるXl、S’
t−v−Ll、s’t=j+ノ同時確率密度であって、
図示すれば 第5図における斜線部を通る径路の生起確
率密度の総和と言うことになる。これを用いることによ
って式(13)、(14)における径路S′に関する総
和の計算Cヨ2段階に分けて行うことが出来る。節板
先ず、 t、τ、jの全範囲において前記斜線部を通る
径路についての総和計算を行L\ 得られた結果のt、
τ、jの全範囲にわたる総和を取ればよ賎 式(13)
、(14)における第1の式から第2の式への変化はこ
の考え方に基づくものである。
+、s′t=j+lλ)はモデルλにおけるXl、S’
t−v−Ll、s’t=j+ノ同時確率密度であって、
図示すれば 第5図における斜線部を通る径路の生起確
率密度の総和と言うことになる。これを用いることによ
って式(13)、(14)における径路S′に関する総
和の計算Cヨ2段階に分けて行うことが出来る。節板
先ず、 t、τ、jの全範囲において前記斜線部を通る
径路についての総和計算を行L\ 得られた結果のt、
τ、jの全範囲にわたる総和を取ればよ賎 式(13)
、(14)における第1の式から第2の式への変化はこ
の考え方に基づくものである。
p(r、i、 j、t、り=P(X、S’t−v=i+
、s’t−jl lλ)は次のようにして求められる。
、s’t−jl lλ)は次のようにして求められる。
節板
とおけば
p(r、i、jl Ll)
”P(X、s’t−τ=i+ 、S’t−jl lλ)
25− このとき Xβ゛t・τ(j)・・・・・・・・・・・・・・・・
・・・・・(18)なる漸化式が成り立1 従って、α
’+(1)= 1としてパラメータλに適当な初期値を
5丸t=l−T′+l。
25− このとき Xβ゛t・τ(j)・・・・・・・・・・・・・・・・
・・・・・(18)なる漸化式が成り立1 従って、α
’+(1)= 1としてパラメータλに適当な初期値を
5丸t=l−T′+l。
j−1〜■について式(17)に従ってα’t(j)を
、β’、、、、(f)−1としてt=T’+1−1.
i−I 〜Iニツいて式(18)に従ってβ’t(i
)をそれぞれ順次計算して行けば 式(16〉が計算で
きも (以下余白) −あ− ラグランシュの未定乗数法により、 」”につい てMl”(λ、λ’ )/ a a oをとく。
、β’、、、、(f)−1としてt=T’+1−1.
i−I 〜Iニツいて式(18)に従ってβ’t(i
)をそれぞれ順次計算して行けば 式(16〉が計算で
きも (以下余白) −あ− ラグランシュの未定乗数法により、 」”につい てMl”(λ、λ’ )/ a a oをとく。
即執
式(13)を
であるか転
両辺にall’を掛けて、
j−1〜Iについ
となる。
状態iの連の長さの確率密度を規定するパラメータを推
定する。
定する。
例えばa
冨 γ
(const、 )の場合
−刀
d
(τ)=γ
−−+(1
)
となる。
他の例として、
Polsson分布で当てほめを行うとすれば
であるから、
同様にして
・・・・・・・・・(22)
ノく −
b+ (x)は従来のHMMにおいては特徴ベクトルX
の状態1における確率密度として定義されるのが普通で
あっtも 本発明は 入力音声信号の時刻tにおける特徴ベクトル
Xiに対する予測値を各状態毎に定義された線形予測器
により予測し 予測値itを株 その予測誤差の確率密
度をbl(xt )とするものである。
の状態1における確率密度として定義されるのが普通で
あっtも 本発明は 入力音声信号の時刻tにおける特徴ベクトル
Xiに対する予測値を各状態毎に定義された線形予測器
により予測し 予測値itを株 その予測誤差の確率密
度をbl(xt )とするものである。
例えi′Lxt−+、 xt−p、 ・−、xt−
wからxtを予測するものとし この予測誤差が正規分
布で与えられるものとすれば b+ (xt ) 一四一 となる。
wからxtを予測するものとし この予測誤差が正規分
布で与えられるものとすれば b+ (xt ) 一四一 となる。
対数をとれば
og
(xt)
となる。
ここで、
Σ
=[σ
5nl−[σ
“]
1はxt
Xt
の分散共分散行列であって、
節板
一加−
Rt、mn = Xt−ml”Σ l−’X1−n
+1−3(t−n◆1τΣ+−’xt−−十1=Rt、
s ・・・・・・・・・・・・・・・・・・・・・・
・・(25)である。この場合推定すべきパラメータ(
よ 分散共分散8行列Σ1と予測係数alである。
+1−3(t−n◆1τΣ+−’xt−−十1=Rt、
s ・・・・・・・・・・・・・・・・・・・・・・
・・(25)である。この場合推定すべきパラメータ(
よ 分散共分散8行列Σ1と予測係数alである。
(a)線形予測係数01の推定
簡単のために次のようにおく。
Bt−Rt、++
Ct ” −(Rt
Rt、1t。
Ri、+n)
式(24)、 (26)から
= −Ct−τ
Di−τ
であるから、
−31
となる。
ここで
とおけば alの再推定式は
a+ −−H+−’ G+ −−−−(27)で与え
られる。
られる。
式(27)の解の存在性は次のようにして示される。
ΣI従ってΣ11は正値対称行列であるから、式%式%
) )] であって、Riも正位対称行列となり、式(26)から
DtはR1のplincipal m1norであるか
らDtも正値対称行列となる。また 正値対称行列の線
形結合は正値対称行列であるから、Hlも正値対称行列
になる。故ニH1は非特異マトリクスであるから、 式
%式% (b)分散共分散行列Σ1の推定 σ1.の全因子をA1m11. σ、anの全因子を
A、anとすれば σ1sn=17’lnm、 (7
l”=σl”従って、A lsn−Alnm、 AI”
=Al”であることに注意して、を用いれば (σ 11)Q −−σ11′(σ1“0″)2 であるから、 田− となる。
) )] であって、Riも正位対称行列となり、式(26)から
DtはR1のplincipal m1norであるか
らDtも正値対称行列となる。また 正値対称行列の線
形結合は正値対称行列であるから、Hlも正値対称行列
になる。故ニH1は非特異マトリクスであるから、 式
%式% (b)分散共分散行列Σ1の推定 σ1.の全因子をA1m11. σ、anの全因子を
A、anとすれば σ1sn=17’lnm、 (7
l”=σl”従って、A lsn−Alnm、 AI”
=Al”であることに注意して、を用いれば (σ 11)Q −−σ11′(σ1“0″)2 であるから、 田− となる。
故に
×(σ
11)2
となるからΣ
の再推定値は次のようになる。
・・・・・・(28)
ただし
ここで、
e’を一τ
e’t−v−1+に丁
・・・・・・(29)
Σ
onam(r)
34−
とおいている。
パラメータ推定の実際の計算手順は次のようになる。
単語Vに対応するモデルλ9を作成するに当たって、単
語Vに対応するパターンX’ −x’ + 、・・・、
X’r(r−1〜R; xrtはパターンrの第を番の
特徴ペクト/lz、 T’はパターンrのフレーム数
)が訓練用パターンとして与えられているものとする。
語Vに対応するパターンX’ −x’ + 、・・・、
X’r(r−1〜R; xrtはパターンrの第を番の
特徴ペクト/lz、 T’はパターンrのフレーム数
)が訓練用パターンとして与えられているものとする。
ま?、:、j>iで、 I=f、 i=1〜I−1,
j=2〜■とLdi(τ)=γ、T−′(1−γ1)と
する。
j=2〜■とLdi(τ)=γ、T−′(1−γ1)と
する。
適当な初期値を与える。
え糺蓚皇立亙淀
(2)r−1〜Rについてステップ(3)を実行する。
(3)t=2〜Tゝ+1.τ=1〜t−1.i=1〜I
−1.j=2〜工番こついてλ=(λ幕)として式(1
6)〜(18)に従ってp(r、 i、 j、 t。
−1.j=2〜工番こついてλ=(λ幕)として式(1
6)〜(18)に従ってp(r、 i、 j、 t。
τ)、f゛を計算する。また 次式に従って−35−
1,nus(r)。
」・d・n・−(r>を計算する。
(4)i=1〜I−1,j=2〜工についてazの推定
値を式(19)に従って計算する。
値を式(19)に従って計算する。
においてall−allなる書換えを行う。
ノく −
(6)r−1〜Rについてステップ(7)を実行する。
(7)t−2〜T’+1.τ−1−t−1,1=l−I
−1.j=2〜Iについてλ−(λ1)として式(16
)〜(18)に従ってp(r+ l、L j+τ)、C
′を計算する。また 次式に従って(8)i−1〜Iに
ついてγ 算する。
−1.j=2〜Iについてλ−(λ1)として式(16
)〜(18)に従ってp(r+ l、L j+τ)、C
′を計算する。また 次式に従って(8)i−1〜Iに
ついてγ 算する。
の推定値を式(20)に従って計
(9)i=1〜I−1についてλ1−((a l 4
) J 、 e + 7 + + ’ I+Σ1)にお
いてγ1=γ1なる書換えを行う。
) J 、 e + 7 + + ’ I+Σ1)にお
いてγ1=γ1なる書換えを行う。
べ
(10)r=1〜Rについてステップ(11)を実行す
る。
る。
(11)t=2〜T’+1.τ−1−t−1.i=1〜
I−1,j=2〜■についてλ−(λ1)として式(1
6)〜(18)に従ってp(r+1+j+t、τ)、C
1を計算する。また 式(25)〜(26)を用(12
)i−1〜Iについてa 計算する。
I−1,j=2〜■についてλ−(λ1)として式(1
6)〜(18)に従ってp(r+1+j+t、τ)、C
1を計算する。また 式(25)〜(26)を用(12
)i−1〜Iについてa 計算する。
の推定値を式(27)に従って
においてal”alなる書換えを行う。
′−1
(14)r=I〜Rについてステップ(15)を実行す
る。
る。
−訂一
(15)t−2〜T’+1.τ−1〜t−1.i−1〜
■1、j=2〜Iについ てλ−(λJ)として式(16)〜(18)に従ってp
(r+LLt、τ〉。
■1、j=2〜Iについ てλ−(λJ)として式(16)〜(18)に従ってp
(r+LLt、τ〉。
C゛を計算する。
また
次式を計算する(
式(29)、 (30))。
%式%
()
の推定値を式(28)に従って
においてΣ
一Σ
なる書換えを行う。
(19)
L+−La
/L1〉δならL+−Leとしてステップ(2)へそう
でなければ終了する。
でなければ終了する。
前記ステップ(19)におけるδは収束の幅を決める一
羽一 適当に小さな正の数であって、これが小さいとパラメー
タの推定の精度は上がるが収束に時間がかかると力\
″学習のし過ぎ″と言った状況の生じることがある。こ
こで、 ゛学習のし過ぎ″と(よ学習1teratio
nを繰り返すにつれて各パラメータは学習サンプルに対
しては幾らでも゛′最適化パされる力t これは飽くま
で学習サンプルに対してであって、同じ母集団に属する
学習サンプル以外のサンプルに対しては必ずしも最適化
されるとは限らないからである。加電 学習サンプルの
数が十分にあって、その属すべき母集団の特性がそこに
十分に反映されているときはこの限りではな(1また
δが大きいと収束は速くなるが精度は悪くなる。
羽一 適当に小さな正の数であって、これが小さいとパラメー
タの推定の精度は上がるが収束に時間がかかると力\
″学習のし過ぎ″と言った状況の生じることがある。こ
こで、 ゛学習のし過ぎ″と(よ学習1teratio
nを繰り返すにつれて各パラメータは学習サンプルに対
しては幾らでも゛′最適化パされる力t これは飽くま
で学習サンプルに対してであって、同じ母集団に属する
学習サンプル以外のサンプルに対しては必ずしも最適化
されるとは限らないからである。加電 学習サンプルの
数が十分にあって、その属すべき母集団の特性がそこに
十分に反映されているときはこの限りではな(1また
δが大きいと収束は速くなるが精度は悪くなる。
従って、δの値は状況によって実用的な値が選ばれも
第1図ζよ 本発明のHMM作成装置の一実施例である
。本実施例において(よ a++=1 (for j=
i+1)、 a++=o (for j≠i+1)の場
合であって、以下図面に従って説明する。
。本実施例において(よ a++=1 (for j=
i+1)、 a++=o (for j≠i+1)の場
合であって、以下図面に従って説明する。
501は特徴抽出部であって、周知の方法によ−諦−
って、訓練単語r=l〜Rの音声信号を特徴ベクトルの
系列X’=X’l、l’、・・・、X’Pに変換するも
のである。
系列X’=X’l、l’、・・・、X’Pに変換するも
のである。
502は単語パターン記憶部であって、モデルλを作成
するための訓練用単語を前記特徴ベクトル系列の、形で
複数個(本例ではR個)記憶するものである。
するための訓練用単語を前記特徴ベクトル系列の、形で
複数個(本例ではR個)記憶するものである。
503はバッファメモリであって、単語パターン記憶部
502に記憶されている単語パターンを1つづつ取り出
して一時的に記憶するものである。
502に記憶されている単語パターンを1つづつ取り出
して一時的に記憶するものである。
504は状態iにおけるパラメータを推定するに先だっ
て、p(r、 i、 j、t、τ)、C゛を計算するも
のである。
て、p(r、 i、 j、t、τ)、C゛を計算するも
のである。
505は連長期待値計算部であって、状態1の連の長さ
τおよびτ−1α 径路に関する期待値を計算するもの
である。これは式(20)に示される遷移確率の式の分
母および分子である。さらにここでは計算された前記τ
の期待値は式(28)に示される誤差信号の分散共分散
行列を与える式の分母ともなる。
τおよびτ−1α 径路に関する期待値を計算するもの
である。これは式(20)に示される遷移確率の式の分
母および分子である。さらにここでは計算された前記τ
の期待値は式(28)に示される誤差信号の分散共分散
行列を与える式の分母ともなる。
511は誤差分散共分散行列分子計算部であって、式(
29)を計算するものである。
29)を計算するものである。
513は予測係数算出行列計算部であって、式(27)
を計算するに必要な諸量を計算するものである。
を計算するに必要な諸量を計算するものである。
506は第一の累積和計算部であって、連長計算部50
5で計算された値Q 訓練単語に関する累積和を計算す
るものである。
5で計算された値Q 訓練単語に関する累積和を計算す
るものである。
512は第二の累積和計算部であって、誤差分散共分散
分子計算部511で計算された値の訓練単語に関する累
積和を計算するものである。
分子計算部511で計算された値の訓練単語に関する累
積和を計算するものである。
514は第三の累積和計算部であって、予測係数算出行
列計算部513で計算された諸量の訓練単語に関する累
積和を計算するものである。
列計算部513で計算された諸量の訓練単語に関する累
積和を計算するものである。
507は第一のパラメータ計算部であって、前記第コ
第二の累積和計算部506、512で計算されたそれぞ
れのパラメータの分子、分母の比をとることにより、前
記状態iにおける遷移確率γ1、予測誤差の分散共分散
Σ書それぞれの推定値を求めるものである。
第二の累積和計算部506、512で計算されたそれぞ
れのパラメータの分子、分母の比をとることにより、前
記状態iにおける遷移確率γ1、予測誤差の分散共分散
Σ書それぞれの推定値を求めるものである。
41−
515は第二のパラメータ計算部であって、前記第三の
累積和計算部514で計算された諸量から、式(27)
に従って、状態iにおける予測係数01の推定値を求め
るものである。
累積和計算部514で計算された諸量から、式(27)
に従って、状態iにおける予測係数01の推定値を求め
るものである。
508はパラメータ記憶部であって、前記推定されたパ
ラメータを記憶するものである。
ラメータを記憶するものである。
509は全体尤度計算部であって、パラメータ記憶部5
09に記憶されたパラメータ推定値から尤度P(X’l
λ)のrに関する総和を求めるものである。
09に記憶されたパラメータ推定値から尤度P(X’l
λ)のrに関する総和を求めるものである。
5101:L 全体尤度計算部509で計算された全
体尤度を記憶するものである。
体尤度を記憶するものである。
516は制御部であって、前記各機能ブロックに対すム
諸量の設定 それらの動作に関する各種の指令等を行
うものである。
諸量の設定 それらの動作に関する各種の指令等を行
うものである。
例えば 単語Vに対応するモデルλゞの作成は次のごと
く行われる。
く行われる。
単語VをR回発声し 特徴抽出部501によって特徴の
系列に変換されたR個のパターンが単語パターン記憶部
502に記憶される。単語パター=42− ン記憶部502から、制御部516からの学習単語読み
出し指令によって、 r番目(r=1−R)の単語パタ
ーンX′が読み出され バッファメモリ503に記憶さ
れる。前記パラメータの計算におけるt1τが前記制御
部516からの区間設定信号としてバッファメモリ50
3に供給され それに対応するバッファメモリ503に
記憶された単語パターンXrの区間に対し 部分尤度計
算部504(上 p(r+ l+ j+ i+で)、C
′を計算する。この値を基に連長期待、値計算部505
により、γlの分母分子が計算される。このとき、これ
ら分母分子に含まれるパラメータ(よ パラメータ記憶
部508に状態iにおけるパラメータとして記憶されて
いる値λ=(γl、(II、Σ1)を用いも 第一の累
積和計算部506は前記訓練単語パターンX’ (r
= 1〜R)についての前記分母分子の累積和をそれぞ
れ計算する。
系列に変換されたR個のパターンが単語パターン記憶部
502に記憶される。単語パター=42− ン記憶部502から、制御部516からの学習単語読み
出し指令によって、 r番目(r=1−R)の単語パタ
ーンX′が読み出され バッファメモリ503に記憶さ
れる。前記パラメータの計算におけるt1τが前記制御
部516からの区間設定信号としてバッファメモリ50
3に供給され それに対応するバッファメモリ503に
記憶された単語パターンXrの区間に対し 部分尤度計
算部504(上 p(r+ l+ j+ i+で)、C
′を計算する。この値を基に連長期待、値計算部505
により、γlの分母分子が計算される。このとき、これ
ら分母分子に含まれるパラメータ(よ パラメータ記憶
部508に状態iにおけるパラメータとして記憶されて
いる値λ=(γl、(II、Σ1)を用いも 第一の累
積和計算部506は前記訓練単語パターンX’ (r
= 1〜R)についての前記分母分子の累積和をそれぞ
れ計算する。
パラメータ計算部507はこのようにして求められた訓
練単語パターンx1のr=1〜Rの状態1についての前
記分母分子の累積和からその比をとって状態iの遷移確
率γ「の新たな推定値を計算す−43− る。これを1=1−Iについて行う。パラメータ記憶部
508はこのようにして得られた遷移確率の新しい推定
値を古いものと取り替えて、単語Wに対応する更新され
たパラメータλ−(λV + )として記憶する。この
更新されたパラメータλを基に全体尤度計算部509に
より、前記説明に従って訓練単語全単語に対する尤度を
束数 更新前のパラメータに対して既に計算され 全体
尤度記憶部510に記憶されている尤度と比較され そ
の判定結果が制御部516に送られると共に 前記計算
された新たな尤度が全体尤度記憶部510に記憶される
。制御部516は前記判定結果を基に改善の効果が予め
定めた閾値以下になれば パラメータの推定計算を打ち
切り、その閾値以上であればまだ改善の余地があるとし
て、今度は式(28)に従って予測誤差の分散共分散の
推定を行う。
練単語パターンx1のr=1〜Rの状態1についての前
記分母分子の累積和からその比をとって状態iの遷移確
率γ「の新たな推定値を計算す−43− る。これを1=1−Iについて行う。パラメータ記憶部
508はこのようにして得られた遷移確率の新しい推定
値を古いものと取り替えて、単語Wに対応する更新され
たパラメータλ−(λV + )として記憶する。この
更新されたパラメータλを基に全体尤度計算部509に
より、前記説明に従って訓練単語全単語に対する尤度を
束数 更新前のパラメータに対して既に計算され 全体
尤度記憶部510に記憶されている尤度と比較され そ
の判定結果が制御部516に送られると共に 前記計算
された新たな尤度が全体尤度記憶部510に記憶される
。制御部516は前記判定結果を基に改善の効果が予め
定めた閾値以下になれば パラメータの推定計算を打ち
切り、その閾値以上であればまだ改善の余地があるとし
て、今度は式(28)に従って予測誤差の分散共分散の
推定を行う。
節水 単語パターン記憶部502から、 制御部516
からの学習単語読み出し指令によって、 r番目(r−
1−R)の単語パターンX′が読み出されバッファメモ
リ503に記憶されも 前記パラメータの計算における
t1τが前記制御部516からの区間設定信号としてバ
ッファメモリ503に供給され それに対応するバッフ
ァメモリ503に記憶された単語パターンX′の区間に
対し 部分尤度計算部504はp(r、 i、 j、
t、τ)、C′を計算する。
からの学習単語読み出し指令によって、 r番目(r−
1−R)の単語パターンX′が読み出されバッファメモ
リ503に記憶されも 前記パラメータの計算における
t1τが前記制御部516からの区間設定信号としてバ
ッファメモリ503に供給され それに対応するバッフ
ァメモリ503に記憶された単語パターンX′の区間に
対し 部分尤度計算部504はp(r、 i、 j、
t、τ)、C′を計算する。
この値を基に連長期待値計算部505により、前記説明
に従って、予測誤差の分散共分散の分母が計算され 誤
差分散共分散分子計算部511により予測誤差の分散共
分散の分子が計算される。このとき、 これら分母分子
に含まれるパラメータ(よパラメータ記憶部508に状
態1におけるパラメータとして記憶されている値λ1=
(γl、(11,Σ1)を用いる。第一の累積和計算部
506は前記訓練単語パターンX’(r=1−R)につ
いての前記分母Q第二の累積和計算部812は分子の累
積和をそれぞれ計算する。パラメータ計算部507はこ
のようにして求められた訓練単語パターンX′のr=1
〜Rの状態iについての前記分母分子の累積和からその
比をとって状態lの予測誤差の分散共分散の新たな推定
値を計算する。これをi=1〜■につ45− いて行う。パラメータ記憶部508はこのようにして得
られた予測誤差の分散共分散の新しい推定値を古いもの
と取り替えて、単語Vに対応する更新されたパラメータ
λ=(λvI)として記憶する。この更新されたパラメ
ータλを基に全体尤度計算部509により、前記説明に
したがって訓練単語全単語に対する尤度を束数 更新前
のパラメータに対して既に計算され 全体尤度記憶部5
10に記憶されている尤度と比較され その判定結果が
制御部516に送られると共に 前記計算された新たな
尤度が全体尤度記憶部810に記憶されも制御部516
は前記判定結果を基に改善の効果が予め定めた閾値以下
になれば パラメータの推定計算を打ち切り、その閾値
以上であれば まだ改善の余地があるとして、今度は予
測係数01の推定を行う。節水 単語パターン記憶部5
02から、制御部516からの学習単語読み出し指令に
よって、 r番目(r−1〜R)の単語パターンX゛が
読み出され バッファメモリ503に記憶される。
に従って、予測誤差の分散共分散の分母が計算され 誤
差分散共分散分子計算部511により予測誤差の分散共
分散の分子が計算される。このとき、 これら分母分子
に含まれるパラメータ(よパラメータ記憶部508に状
態1におけるパラメータとして記憶されている値λ1=
(γl、(11,Σ1)を用いる。第一の累積和計算部
506は前記訓練単語パターンX’(r=1−R)につ
いての前記分母Q第二の累積和計算部812は分子の累
積和をそれぞれ計算する。パラメータ計算部507はこ
のようにして求められた訓練単語パターンX′のr=1
〜Rの状態iについての前記分母分子の累積和からその
比をとって状態lの予測誤差の分散共分散の新たな推定
値を計算する。これをi=1〜■につ45− いて行う。パラメータ記憶部508はこのようにして得
られた予測誤差の分散共分散の新しい推定値を古いもの
と取り替えて、単語Vに対応する更新されたパラメータ
λ=(λvI)として記憶する。この更新されたパラメ
ータλを基に全体尤度計算部509により、前記説明に
したがって訓練単語全単語に対する尤度を束数 更新前
のパラメータに対して既に計算され 全体尤度記憶部5
10に記憶されている尤度と比較され その判定結果が
制御部516に送られると共に 前記計算された新たな
尤度が全体尤度記憶部810に記憶されも制御部516
は前記判定結果を基に改善の効果が予め定めた閾値以下
になれば パラメータの推定計算を打ち切り、その閾値
以上であれば まだ改善の余地があるとして、今度は予
測係数01の推定を行う。節水 単語パターン記憶部5
02から、制御部516からの学習単語読み出し指令に
よって、 r番目(r−1〜R)の単語パターンX゛が
読み出され バッファメモリ503に記憶される。
前記パラメータの計算におけるt、 τが前記制御部−
柘一 516からの区間設定信号としてノくソファメモリ50
3に供給され それに対応するノ<・ソファメモリ50
3に記憶された単語パターンX゛の区間に対し 部分尤
度計算部50目よ p(r、l+ j、Lτ)を計算す
る。この値を基に予測係数算出行列計算部513により
、前記説明に従って、式(26)、ステ・ツブ(11)
に示される諸量が計算される。このとき、これら計算に
含まれるパラメータ(よ )くラメータ記憶部508に
状態iにおけるノくラメータとして記憶されている値λ
1=(γl、Ql、Σ1)を用L)る。第三の累積和計
算部514は前記訓練単語ノくターンX’<r=1−R
)についての前記諸量の累積和をそれぞれ計算する。パ
ラメータ計算部515はこのようにして求められた訓練
単語ノくターンX゛のr−1−Hの状態iについての前
記累積和から式(27)の行列計算により、状態iの予
測係数Hの新たな推定値を計算する。これをi=1〜I
につ〜)で行う。
柘一 516からの区間設定信号としてノくソファメモリ50
3に供給され それに対応するノ<・ソファメモリ50
3に記憶された単語パターンX゛の区間に対し 部分尤
度計算部50目よ p(r、l+ j、Lτ)を計算す
る。この値を基に予測係数算出行列計算部513により
、前記説明に従って、式(26)、ステ・ツブ(11)
に示される諸量が計算される。このとき、これら計算に
含まれるパラメータ(よ )くラメータ記憶部508に
状態iにおけるノくラメータとして記憶されている値λ
1=(γl、Ql、Σ1)を用L)る。第三の累積和計
算部514は前記訓練単語ノくターンX’<r=1−R
)についての前記諸量の累積和をそれぞれ計算する。パ
ラメータ計算部515はこのようにして求められた訓練
単語ノくターンX゛のr−1−Hの状態iについての前
記累積和から式(27)の行列計算により、状態iの予
測係数Hの新たな推定値を計算する。これをi=1〜I
につ〜)で行う。
パラメータ記憶部508はこのようにして得られた予測
係数の新しい推定値を古いものと取り替えて、単語Wに
対応する更新されたノくラメータλ=(−47− λv1)として記憶すん この更新されたパラメータλ
を基に全体尤度計算部509により、前記説明に従って
訓練単語全単語に対する尤度を束数 更新前のパラメー
タに対して既に計算され 全体尤度記憶部510に記憶
されている尤度と比較されその判定結果が制御部516
に送られると共に前記計算された新たな尤度が全体尤度
記憶部510に記憶される。制御部516は前記判定結
果を基に改善の効果が予め定めた閾値以下になればパラ
メータの推定計算を打ち切り、その閾値以上であれば
まだ改善の余地があるとして、再び遷移確率の計算に戻
る。同様な計算を前記判定結果を基に改善の効果が予め
定めた閾値以下になるまで繰り返すことにより、λ=(
λV + lは一定の値に収束し それが求めるべきパ
ラメータとなる。
係数の新しい推定値を古いものと取り替えて、単語Wに
対応する更新されたノくラメータλ=(−47− λv1)として記憶すん この更新されたパラメータλ
を基に全体尤度計算部509により、前記説明に従って
訓練単語全単語に対する尤度を束数 更新前のパラメー
タに対して既に計算され 全体尤度記憶部510に記憶
されている尤度と比較されその判定結果が制御部516
に送られると共に前記計算された新たな尤度が全体尤度
記憶部510に記憶される。制御部516は前記判定結
果を基に改善の効果が予め定めた閾値以下になればパラ
メータの推定計算を打ち切り、その閾値以上であれば
まだ改善の余地があるとして、再び遷移確率の計算に戻
る。同様な計算を前記判定結果を基に改善の効果が予め
定めた閾値以下になるまで繰り返すことにより、λ=(
λV + lは一定の値に収束し それが求めるべきパ
ラメータとなる。
次に 以上のようなモデルを用いて実際の入力音声を認
識する方法及び装置について説明する。
識する方法及び装置について説明する。
いわゆる厳密解(よ 未知入力パターンXが人力された
とき、P(X l Mv)をv−1〜Vについて計算し
P(XIMv)の最大値を与えるVを認識結果とすれば
よ(も これ(よ 前記モデルの作成過程において、入
力パターンx′に対するモデルMの尤度c’−P(X’
IM)を求める過程において、X゛をXにMをMvに
単に置き換えただけである。
とき、P(X l Mv)をv−1〜Vについて計算し
P(XIMv)の最大値を与えるVを認識結果とすれば
よ(も これ(よ 前記モデルの作成過程において、入
力パターンx′に対するモデルMの尤度c’−P(X’
IM)を求める過程において、X゛をXにMをMvに
単に置き換えただけである。
ここでは前記式(2′)に相当する近似解を求める方法
について説明する。
について説明する。
φ(i、t)を時刻t、状態1までの最大累積尤度とす
れば 式(2”)に対応して漸化式が成立する。ただし
、 ここで ft、y(i) −dl(r) bI (Xt−v
−1+k)K・1に である。従って、 φ(i、t)をi=1〜1.1.
t=2〜T+1について順次求めれば φ(I、T+1
)が入カッくターンXに対するモデルλ(モデルM)の
最大尤度となる。
れば 式(2”)に対応して漸化式が成立する。ただし
、 ここで ft、y(i) −dl(r) bI (Xt−v
−1+k)K・1に である。従って、 φ(i、t)をi=1〜1.1.
t=2〜T+1について順次求めれば φ(I、T+1
)が入カッくターンXに対するモデルλ(モデルM)の
最大尤度となる。
このとき、漸化式(31)をそのまま計算するとなると
、 フレームt(−1〜T)毎に τ−2〜t−1.
i−1〜■のあらゆる組合せについてft、τ(i)
の計算を行うことになり、計算量が膨大となる。
、 フレームt(−1〜T)毎に τ−2〜t−1.
i−1〜■のあらゆる組合せについてft、τ(i)
の計算を行うことになり、計算量が膨大となる。
49−
この計算量Cヨ 過去の計算値を用いることによって
、削減することが出来る。ここ玄 後の議論の便宜のた
めに次なる量を定義する。
、削減することが出来る。ここ玄 後の議論の便宜のた
めに次なる量を定義する。
B(i、t、z)−bI (Xi−τ−1+k)””
”””””’(32)このとき、次の事が言える。
”””””’(32)このとき、次の事が言える。
B(i、 t、 1)−bI (xt−+ )B(i、
t、 2)=B(i、 t、 1)bI (xt−2
)B(i+ t+ 3 )=B (11t + 2 )
bI(xt −a )B(i、 t、 T)−B(i、
t、 T−1)bI (xt−τ) −・−= =
−・−−−−−(33)ま?、、、 di(τ)はτ
−1−Tについて予め計算してテーブルに記憶しておく
。このとき、式(31)は次の手順で計算できる。ただ
L B(i、t、0)=1とする。
t、 2)=B(i、 t、 1)bI (xt−2
)B(i+ t+ 3 )=B (11t + 2 )
bI(xt −a )B(i、 t、 T)−B(i、
t、 T−1)bI (xt−τ) −・−= =
−・−−−−−(33)ま?、、、 di(τ)はτ
−1−Tについて予め計算してテーブルに記憶しておく
。このとき、式(31)は次の手順で計算できる。ただ
L B(i、t、0)=1とする。
(1)τ−1〜t−1について次式を実行B(i、 t
、τ)=B(i、 t、τ−1)bl(Xt−τ)η(
τ)−φ(i、 t−r)13(i、 t、τ)dl(
τ)・・・・・・(34)(2)φ(i+1.t)=
max [77(T)]τ 第6図は以上の原理に基づく装置の一実施例である。
、τ)=B(i、 t、τ−1)bl(Xt−τ)η(
τ)−φ(i、 t−r)13(i、 t、τ)dl(
τ)・・・・・・(34)(2)φ(i+1.t)=
max [77(T)]τ 第6図は以上の原理に基づく装置の一実施例である。
一力一
601は特徴抽出部であって、入力音声信号を特徴ベク
トルの系列XI 、 X2 、・・・、XTに変換する
。
トルの系列XI 、 X2 、・・・、XTに変換する
。
602はバッファメモリであって、前記特徴ベクトルの
系列XI 、 X2 、・・・、XTを一時的に蓄える
ものである。
系列XI 、 X2 、・・・、XTを一時的に蓄える
ものである。
603はフレームベクトル発生確率計算部であって、フ
レームt−iにおける予測誤差xs−+−it−+の確
率密度b+、(Xt−+)を計算するものである。
レームt−iにおける予測誤差xs−+−it−+の確
率密度b+、(Xt−+)を計算するものである。
604はパラメータ記憶部であって、前記確率密度の計
算に必要な確率密度関数のパラメータを記憶する部分で
ある。節板i=1〜I−1におけるγl、 Ql、Σ1
を記憶していも 605は累積確率密度計算部であって、式(33)に従
って、B(i、 t、τ)を計算するものである。
算に必要な確率密度関数のパラメータを記憶する部分で
ある。節板i=1〜I−1におけるγl、 Ql、Σ1
を記憶していも 605は累積確率密度計算部であって、式(33)に従
って、B(i、 t、τ)を計算するものである。
607は状態持続時間確率密度計算部であって、パラメ
ータ記憶部604に記憶されている状態iの連の長さの
確率密度を規定するパラメータから、状態iの連の長さ
がτになる確率密度di(τ)をτ=1〜Tについて計
算し 記憶するものである。
ータ記憶部604に記憶されている状態iの連の長さの
確率密度を規定するパラメータから、状態iの連の長さ
がτになる確率密度di(τ)をτ=1〜Tについて計
算し 記憶するものである。
606は累積確率密度記憶部であって、前記累−51−
積確率密度計算部605の計算結果を逐次記憶するもの
である。その記憶内容を読み出すことによって前記累積
確率密度計算部605において、式(33)の計算が漸
化的に行われる。
である。その記憶内容を読み出すことによって前記累積
確率密度計算部605において、式(33)の計算が漸
化的に行われる。
608は漸化式計算部であって、状態持続時間確率密度
記憶部610の記憶内容を読みだし 累積確率密度計算
部605の出力と共に 前記ステップ(1)、 (2)
を実行することによって、式(31)をi−1〜I、
t−1〜T+1について計算し 最終的にφ(I、T+
1)を求めるものである。
記憶部610の記憶内容を読みだし 累積確率密度計算
部605の出力と共に 前記ステップ(1)、 (2)
を実行することによって、式(31)をi−1〜I、
t−1〜T+1について計算し 最終的にφ(I、T+
1)を求めるものである。
609は途中累積確率密度記憶部であって、式(31)
に従って漸化式計算部608で計算される途中累積確率
密度φ(i、t)を逐次記憶し この記憶された途中累
積確率密度は漸化式計算部608における以後の漸化式
計算に用いられる。
に従って漸化式計算部608で計算される途中累積確率
密度φ(i、t)を逐次記憶し この記憶された途中累
積確率密度は漸化式計算部608における以後の漸化式
計算に用いられる。
611は区間設定信号発生部であって、フレーム番号t
、状態番号i、状態q1の連の長さτを順次設定するも
のであって、これらの値は前記各ブロックに供給さit
、 i、 t、τの種々の値について前記処理が行わ
れる。
、状態番号i、状態q1の連の長さτを順次設定するも
のであって、これらの値は前記各ブロックに供給さit
、 i、 t、τの種々の値について前記処理が行わ
れる。
以上のようにして、求められたφ(I、T+1)が前記
モデルλからベクトル系列XI、X2.・・・、XTが
発生する確率密度を与えることになる。
モデルλからベクトル系列XI、X2.・・・、XTが
発生する確率密度を与えることになる。
本装置を用いて、単語音声認識を行うときζよ次のよう
にする。
にする。
いま、認識すべき単語をv=1〜■とし 単語Vに対し
てモデルλ9が準備されているとする。このとき、モデ
ルλ9に対して前記処理とまったく同様にして求められ
たφ(1,T+1)をφ’(I、T+1)と書くことに
すれば が認識結果となる。
てモデルλ9が準備されているとする。このとき、モデ
ルλ9に対して前記処理とまったく同様にして求められ
たφ(1,T+1)をφ’(I、T+1)と書くことに
すれば が認識結果となる。
な抵 漸化式(31)の両辺の対数をとることにより、
式(al)、 (33)〜(34)は次の式(31°)
、 (33’ )〜(34″)のように掛は算を足し算
に変換することが出来る。
式(al)、 (33)〜(34)は次の式(31°)
、 (33’ )〜(34″)のように掛は算を足し算
に変換することが出来る。
ただし 式(31’ )、 (33’ )〜(34′)
においてΦ(i、t) −log φ(i、t)△
(i、τ)−log di(τ) r’(i、t、τ) −log B(i、t、T)
−詔一 ○(i、xi) = log b+(xt)とする
。このとき F(i、t、r)=r’ (i、t、r−1)十〇(i
、xt−τ) −−−(33’)H(τ)−Φ(i、
t−z)+r’ (L t、τ)+Δ(i、τ)・旧
・・・・・(34’ )であって、前記ステップ(1)
、(2)は次のようになる。
においてΦ(i、t) −log φ(i、t)△
(i、τ)−log di(τ) r’(i、t、τ) −log B(i、t、T)
−詔一 ○(i、xi) = log b+(xt)とする
。このとき F(i、t、r)=r’ (i、t、r−1)十〇(i
、xt−τ) −−−(33’)H(τ)−Φ(i、
t−z)+r’ (L t、τ)+Δ(i、τ)・旧
・・・・・(34’ )であって、前記ステップ(1)
、(2)は次のようになる。
(1)τ−1−1−1について次式を実行r (i、
t、 τ)=p (i、 t、 r−1)+e (i、
xt−t)H(0=Φ(i、 を−τ)+r’(i、
t、τ)+△(11τ)(2)Φ(i+1.t)−ma
x [H(T)]この場合の実施例(よ 第1O図にお
いて、前記式(31)、 (33)〜(34)に対応し
て行っていた各ブロックにおける計算を前記式(31°
)、 (33’ )〜(34’)に変更するのみであり
、構成自体はまったく同じである。このようにすること
によって、得られる結果は同じである力丈 計算量を大
幅に減することが出来る。
t、 τ)=p (i、 t、 r−1)+e (i、
xt−t)H(0=Φ(i、 を−τ)+r’(i、
t、τ)+△(11τ)(2)Φ(i+1.t)−ma
x [H(T)]この場合の実施例(よ 第1O図にお
いて、前記式(31)、 (33)〜(34)に対応し
て行っていた各ブロックにおける計算を前記式(31°
)、 (33’ )〜(34’)に変更するのみであり
、構成自体はまったく同じである。このようにすること
によって、得られる結果は同じである力丈 計算量を大
幅に減することが出来る。
な抵 モデルの作成CL 本発明においては前記ステ
ップ(1)〜(19)のような方法の他に 前記漸化式
(31)あるいは(31’)により、それぞれのrにつ
ぃ54− て尤度最大の径路を束数 その径路の状態i部分に対応
する特徴ベクトル系列か転 前記b+ (x)のパラメ
ータと状態の連長の分布di(τ)のパラメータを計算
する方法も考えられる。即6 di(τ)について(
上 訓練パターンrにおいて状態iに対応する径路のフ
レーム数l+(r)をr=1〜Rについて求へ そのr
に関する平均値をcl(τ)の平均値とすることが出来
る。例えば di(τ)−γ+”−’(1−γ1)のと
き1よその平均値はl/(1−γ1)であるから、であ
って、 となる。ま?% bl(X)のパラメータQl、
ΣIの推定は次のように行われる。
ップ(1)〜(19)のような方法の他に 前記漸化式
(31)あるいは(31’)により、それぞれのrにつ
ぃ54− て尤度最大の径路を束数 その径路の状態i部分に対応
する特徴ベクトル系列か転 前記b+ (x)のパラメ
ータと状態の連長の分布di(τ)のパラメータを計算
する方法も考えられる。即6 di(τ)について(
上 訓練パターンrにおいて状態iに対応する径路のフ
レーム数l+(r)をr=1〜Rについて求へ そのr
に関する平均値をcl(τ)の平均値とすることが出来
る。例えば di(τ)−γ+”−’(1−γ1)のと
き1よその平均値はl/(1−γ1)であるから、であ
って、 となる。ま?% bl(X)のパラメータQl、
ΣIの推定は次のように行われる。
訓練パターンX゛においてx’を一τ〜X’ t −1
が状態iに対応するときx r i−τ−1◆にの予測
値R’s−τ−1◆kを、xrt−τ−1+に−NNX
’t−τ−1十に−1の線形結合)(’t−r−1 +
に−a+ +X’t−t−++に一++801+a+n
X’ t−τ−+ +y−nで表し −55− ’ (X’t−τ−1+k −?t−τ−1+k)
を最小にするように01を推定する。また×(X’5−
v−1+k −R’t−τ−1+k)”により、Σ1
の推定値が求められる。この場合状態lの区間は式(3
1)、 (31“)の漸化式の計算においてt、1に
対するτの最適値τoptに対しBB(i+1.t)=
t−τoat を、t=1−’r’+t、 i=1〜■について順次記
憶しておけICrに対応する最適径路における状態iの
開始フレームt1(よ t+=T’+1. t+−+=BB(t+)、 t
+−2’=BB(b−+)。
が状態iに対応するときx r i−τ−1◆にの予測
値R’s−τ−1◆kを、xrt−τ−1+に−NNX
’t−τ−1十に−1の線形結合)(’t−r−1 +
に−a+ +X’t−t−++に一++801+a+n
X’ t−τ−+ +y−nで表し −55− ’ (X’t−τ−1+k −?t−τ−1+k)
を最小にするように01を推定する。また×(X’5−
v−1+k −R’t−τ−1+k)”により、Σ1
の推定値が求められる。この場合状態lの区間は式(3
1)、 (31“)の漸化式の計算においてt、1に
対するτの最適値τoptに対しBB(i+1.t)=
t−τoat を、t=1−’r’+t、 i=1〜■について順次記
憶しておけICrに対応する最適径路における状態iの
開始フレームt1(よ t+=T’+1. t+−+=BB(t+)、 t
+−2’=BB(b−+)。
・・・・・・・・・ta=BB(ts)、 t+=BB
(ta)=1として求めることが出来る。
(ta)=1として求めることが出来る。
発明の効果
以上のように 本発明により、各状態毎に線形予測モデ
ルを定義し 入力パターンXに対する予測誤差信号の累
積確率をそのモデルのXに対する尤度と定義したHMM
を構成することによって、入力パターンの動的特徴が表
現可能となり、従来に比べてより高精度の時系列パター
ンの認識を可能とする確率モデルの実現が可能となった
な抵 本実施例において(よ 同一状態における遷移確
率(よ その停留回数に関わりなく一定として説明した
力文 前記di(τ)を1分布やPolsson分布で
与えることも勿論可能である。この場合は仮定した分布
のパラメータを訓練データから推定することになり、本
発明で述べた方法により、同様に求められる。
ルを定義し 入力パターンXに対する予測誤差信号の累
積確率をそのモデルのXに対する尤度と定義したHMM
を構成することによって、入力パターンの動的特徴が表
現可能となり、従来に比べてより高精度の時系列パター
ンの認識を可能とする確率モデルの実現が可能となった
な抵 本実施例において(よ 同一状態における遷移確
率(よ その停留回数に関わりなく一定として説明した
力文 前記di(τ)を1分布やPolsson分布で
与えることも勿論可能である。この場合は仮定した分布
のパラメータを訓練データから推定することになり、本
発明で述べた方法により、同様に求められる。
第1図は本発明によるHMMのパラメータ推定を行う装
置の一実施例を示すブロックは 第2図はHMMを用い
た音声認識装置の従来例を説明するブロックは 第3図
は従来のHMMの構成を示すHMMの構成飄 第4図は
本発明のHMMの概念を示すトレリス線は 第5図は本
発明のHMMのパラメータを推定する方法を説明する説
明は第6図は本発明の原理により構成されたHMMに5
7− 対してそのモデルから発生する未知入力パターンの発生
尤度を計算する尤度計算装置の一実施例を示すブロック
図であも 501・・・・特徴抽出数 502・・・・単語パターン記憶組 503・・・・バッファメモリ、 504・・・・部分尤度計算餓 505・・・・連長期待値計算訊 506・・・・麺−の累積和計算敵 507・・・・第一のパラメータ計算敵508・・・・
パラメータ記憶数 509・・・・全体尤度計算訊 510・・・・ 全体尤度記憶数 511・・・・誤差分散共分散行列分子計算敵512・
・・・第二の累積和計算敵 513・・・・予測係数算出行列計算敵514・・・・
第三の累積和計算敵 515・・・・第二のパラメータ計算敵516・・・・
制御訛
置の一実施例を示すブロックは 第2図はHMMを用い
た音声認識装置の従来例を説明するブロックは 第3図
は従来のHMMの構成を示すHMMの構成飄 第4図は
本発明のHMMの概念を示すトレリス線は 第5図は本
発明のHMMのパラメータを推定する方法を説明する説
明は第6図は本発明の原理により構成されたHMMに5
7− 対してそのモデルから発生する未知入力パターンの発生
尤度を計算する尤度計算装置の一実施例を示すブロック
図であも 501・・・・特徴抽出数 502・・・・単語パターン記憶組 503・・・・バッファメモリ、 504・・・・部分尤度計算餓 505・・・・連長期待値計算訊 506・・・・麺−の累積和計算敵 507・・・・第一のパラメータ計算敵508・・・・
パラメータ記憶数 509・・・・全体尤度計算訊 510・・・・ 全体尤度記憶数 511・・・・誤差分散共分散行列分子計算敵512・
・・・第二の累積和計算敵 513・・・・予測係数算出行列計算敵514・・・・
第三の累積和計算敵 515・・・・第二のパラメータ計算敵516・・・・
制御訛
Claims (5)
- (1)状態遷移確率を記憶する状態遷移確率記憶手段と
、入力パターンたる特徴ベクトル系列の時刻tにおける
特徴ベクトルをx_tとするとき、x_t以外の1つま
たは複数の特徴ベクトルからなる前記特徴ベクトル系列
の部分系列を入力し、状態毎に定義され、状態iにおい
ては、前記部分系列を前記x_tの予測値[x_t]_
iに変換する線形予測手段と、この線形予測手段の予測
係数を記憶する予測係数記憶手段と、前記予測値[x_
t]_iと入力ベクトルx_tとの予測誤差ベクトルを
算出する予測誤差算出手段と、この予測誤差算出手段の
出力ベクトルの確率分布を規定するパラメータを記憶す
る確率分布パラメータ記憶手段とを備えたことを特徴と
するHMM記憶装置。 - (2)カテゴリvに対応する第r(=1、2、・・・、
R)の訓練用パターンをX^r=x^r_1、x^r_
2、・・・、x^r_Tとし、前記vに対応するHMM
をM^v、M^vの状態iで定義されている予測器P_
iにより予測された前記ベクトルx^r_tの予測値[
x^r_t]_iとx^r_tとの予測誤差ベクトルの
、前記M^vから得られる状態系列Sに対応する予測誤
差系列をE^r、前記SとE^rの同時確率密度のSに
関する総和をP(E^r|M^v)とするとき、▲数式
、化学式、表等があります▼(E^r|M^v)を最大
にするパラメータの推定を行うパラメータ推定手段を含
み、この推定されたパラメータを請求項1記載のHMM
のパラメータとすることを特徴とするHMM作成装置。 - (3)認識すべきカテゴリv=1〜Vに対して設けられ
た請求項1記載のHMM記憶装置と、入力パターンXに
対応してカテゴリvに対応するモデルM^vの任意に定
められる状態系列をS、Sに対応する請求項1記載の線
形予測手段の出力たる予測値に対する予測誤差ベクトル
系列をEとするとき、入力パターンXに対するM^vの
尤度を▲数式、化学式、表等があります▼P(E、S|
M^v)で定義し、この尤度をv=1〜Vについて計算
する尤度計算手段と、その最大値を与えるvを求める最
大値判定手段を含み、前記最大値を与えるvを■とする
とき、この■を認識結果と判定することを特徴とするパ
ターン認識装置。 - (4)認識すべきカテゴリv=1〜Vに対して設けられ
た請求項1記載のHMM記憶装置と、入力パターンXに
対応してカテゴリvに対応するモデルM^vの任意に定
められる状態系列をS、Sに対応する請求項1記載の線
形予測手段の出力たる予測値に対する予測誤差ベクトル
系列をEとするとき、入力パターンXに対するM^vの
尤度を▲数式、化学式、表等があります▼[P(E、S
|M^v)]あるいは▲数式、化学式、表等があります
▼[logP(E、S|M^v)]で定義し、この尤度
をv=1〜Vについて計算する尤度計算手段と、その最
大値を与えるvを求める最大値判定手段を含み、前記最
大値を与える■をvとするとき、この■を認識結果と判
定することを特徴とするパターン認識装置。 - (5)請求項4記載の方法によって、第r番の訓練パタ
ーンに対する最適の状態系列を求め、その状態系列上の
状態i部分に対応するフレーム数のr=1〜Rに対する
分布から、状態iの連長の確率分布d_i(τ)を求め
る連長確率密度算出手段と、前記状態i部分に対応する
R通りの特徴ベクトル系列から請求項1記載の線形予測
手段の係数を求める線形予測係数算出手段と、前記R通
りの訓練パターンの状態i部分に対応する予測誤差ベク
トルの分布からその分布を規定するパラメータを求める
確率分布パラメータ算出手段とを備えたことを特徴とす
るHMM作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1322149A JPH03181999A (ja) | 1989-12-12 | 1989-12-12 | Hmm装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1322149A JPH03181999A (ja) | 1989-12-12 | 1989-12-12 | Hmm装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH03181999A true JPH03181999A (ja) | 1991-08-07 |
Family
ID=18140480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1322149A Pending JPH03181999A (ja) | 1989-12-12 | 1989-12-12 | Hmm装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH03181999A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157350A (ja) * | 2003-11-26 | 2005-06-16 | Microsoft Corp | 区分的線形近似を用いた連続値声道共鳴追跡の方法および装置 |
CN105575386A (zh) * | 2015-12-18 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
-
1989
- 1989-12-12 JP JP1322149A patent/JPH03181999A/ja active Pending
Non-Patent Citations (1)
Title |
---|
PROCEEDINGS OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157350A (ja) * | 2003-11-26 | 2005-06-16 | Microsoft Corp | 区分的線形近似を用いた連続値声道共鳴追跡の方法および装置 |
CN105575386A (zh) * | 2015-12-18 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105575386B (zh) * | 2015-12-18 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2964507B2 (ja) | Hmm装置 | |
JP6884460B2 (ja) | 音声感情検出方法、装置、コンピュータ機器、及びコンピュータプログラム | |
CN110689879B (zh) | 端到端语音转写模型的训练方法、系统、装置 | |
CN107615308B (zh) | 循环神经网络的学习方法及用于该学习方法的计算机程序、和声音识别装置 | |
US5050215A (en) | Speech recognition method | |
CN109859743A (zh) | 音频识别方法、系统和机器设备 | |
EP0705473A1 (en) | Speech recognition method using a two-pass search | |
JPH04324500A (ja) | パターン認識方式および標準パターン学習方式 | |
JPH05333898A (ja) | 時系列信号処理装置 | |
JPH0934486A (ja) | 音声認識方法、情報形成方法、音声認識装置および記録媒体 | |
JP3168004B2 (ja) | 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置 | |
JPH03181999A (ja) | Hmm装置 | |
US6173076B1 (en) | Speech recognition pattern adaptation system using tree scheme | |
KR100321463B1 (ko) | 음성 인식 시스템과 연관된 확률에 불이익을 선택적으로지정하는 방법 | |
JPH0776880B2 (ja) | パターン認識方法および装置 | |
JP2600871B2 (ja) | Hmm作成装置及びそれを用いた尤度計算装置、時系列パターン認識装置 | |
JP3589044B2 (ja) | 話者適応化装置 | |
JPH064097A (ja) | 話者認識方法 | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JP2845019B2 (ja) | 類似度演算装置 | |
Niedzwiecki | Bayesian-like autoregressive spectrum estimation in the case of unknown process order | |
Ney | A script-guided algorithm for the automatic segmentation of continuous speech | |
KR950010020B1 (ko) | 음성인식기의 음성지속시간 모델링 방법 | |
JP3144341B2 (ja) | 音声認識装置 | |
JP2003308089A (ja) | 隠れマルコフモデル作成装置、方法、プログラム、記録媒体および音声認識装置、方法、プログラム、記録媒体 |