JPH0695691A - 時系列信号処理装置 - Google Patents

時系列信号処理装置

Info

Publication number
JPH0695691A
JPH0695691A JP4242918A JP24291892A JPH0695691A JP H0695691 A JPH0695691 A JP H0695691A JP 4242918 A JP4242918 A JP 4242918A JP 24291892 A JP24291892 A JP 24291892A JP H0695691 A JPH0695691 A JP H0695691A
Authority
JP
Japan
Prior art keywords
hmm
cluster
vector
probability
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4242918A
Other languages
English (en)
Inventor
Hidekazu Tsuboka
英一 坪香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4242918A priority Critical patent/JPH0695691A/ja
Publication of JPH0695691A publication Critical patent/JPH0695691A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 HMMに基づく時系列パターンの処理装置で
あって、精度を落とさずに演算量を削減する。 【構成】 連続確率分布HMM作成手段と、パターン集
合を形成するベクトル集合をファジィクラスタリングす
るクラスタリング手段103と、各々の訓練パターンが
前記連続確率分布型HMMから発生するとして求められ
た前記各々の訓練パターンに対応する状態系列の確率密
度と、前記各々の訓練パターンを構成する各ベクトルの
各クラスタへの帰属度からクラスタCmの前記HMMの
状態iにおける発生確率bi(Cm)を求めるクラスタ発生
確率算出手段110とを備え、前記連続確率分布HMM
をFVQHMMに変換する構成である。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】音声認識等のパターン認識に適用
可能な新しいHMM(Hidden Markov M
odel)のパラメータの推定方法、該HMMを用いた
パターンの認識方法、及び装置に関する。
【0002】
【従来の技術】本発明は一般の時系列信号に適用可能な
ものであるが、説明の便宜のために、以下、音声認識を
例に説明する。
【0003】先ずHMM(Hidden Markov
Model)を用いた音声認識装置について説明す
る。
【0004】(図2)は、HMMを用いた音声認識装置
のブロック図である。201は音声分析部であって、入
力音声信号をフィルタバンク、フーリエ変換、LPC分
析等の周知の方法により、一定時間間隔(フレームと呼
ぶ)例えば10msec毎に特徴ベクトルに変換する。従っ
て、入力音声信号は特徴ベクトルの系列 Y=(y(1),
y(2),・・・,y(T))に変換される。Tはフレーム数であ
る。202はコードブックと呼ばれるもので、ラベル付
けされた代表ベクトルを保持している。203はベクト
ル量子化部であって、前記ベクトル系列Yのそれぞれの
ベクトルをそれに最も近い前記コードブックに登録され
ている代表ベクトルに対応するラベルに置き換えるもの
である。204はHMM作成部であって、訓練データか
ら認識語彙たる各単語に対応するHMMを作成するもの
である。即ち、単語wに対応するHMMを作るには、先
ず、HMMの構造(状態数やそれら状態の間に許される
遷移規則)を適当に定め、然る後に前記の如くして単語
wを多数回発声して得られたラベル系列から、それらラ
ベル系列の発生確率が出来るだけ高くなるように、前記
モデルにおける状態遷移確率や状態の遷移に伴って発生
するラベルの発生確率を求めるものである。205はH
MM記憶部であって、このようにして得られたHMMを
各単語毎に記憶するものである。206は尤度計算部で
あって、認識すべき未知入力音声のラベル系列に対し、
前記HMM記憶部205に記憶されているそれぞれのモ
デルのそのラベル系列に対する尤度を計算するものであ
る。207は比較判定部であって尤度計算部206で得
られた前記それぞれのモデルの尤度の最大値を与えるモ
デルに対応する単語を認識結果として判定するものであ
る。HMMによる認識は具体的には次のようにして行わ
れる。即ち、未知入力に対して得られたラベル系列をO
=(o(1),o(2),・・・,o(T))、単語wに対応したモデ
ルをλwとし、モデルλwにより発生される長さTの任意
の状態系列をX=(x(1),x(2),・・・,x(T))とすると
き、λwのラベル系列Oに対する尤度は 〔厳密解〕
【0005】
【数1】
【0006】〔近似解〕
【0007】
【数2】
【0008】または、対数をとって
【0009】
【数3】
【0010】で定義される。ここで、P(x,y|λw)
は、モデルλwにおけるx,yの同時確率である。
【0011】従って、例えば、(数1)を用いれば
【0012】
【数4】
【0013】とするとき、w^が認識結果となる。(数
2),(数3)を用いるときも同様である。
【0014】P(O,X|λ) は次のようにして求められ
る。いま、HMMλの状態qi(i=1〜I)に対して、
状態qi毎に、ラベルoの発生確率bi(o)と状態qi(i
=1〜I)から状態qj(j=1〜I+1)への遷移確率a
ijが与えられているとき、状態系列X=(x(1),x
(2),・・・,x(T+1))とラベル系列O=(o(1),o
(2),・・・,o(T))のHMMλから発生する同時確率は
【0015】
【数5】
【0016】と定義出来る。ここでπx(1)は状態x(1)
の初期確率である。また、x(T+1)=I+1は最終状
態であって、如何なるラベルも発生しないとする。
【0017】この例では入力の特徴ベクトルyをラベル
に変換したが、各状態におけるラベルの発生確率の代り
に特徴ベクトルyをそのまま用い、各状態において特徴
ベクトルyの確率密度関数を与える方法もある。このと
きは(数5)における前記ラベルoの状態qiにおける
発生確率bi(o) の代わりに特徴ベクトルyの確率密度
i(y)を用いることになる(以後、zがラベルのとき
はbi(z)はzが状態iにおいて生じる確率、zがベク
トルのときはbi(z)はzの確率密度を意味するものと
する)。このときは、前記(数1)(数2)(数3)は
次のようになる。 〔厳密解〕
【0018】
【数6】
【0019】〔近似解〕
【0020】
【数7】
【0021】または、対数をとれば次式が得られる。
【0022】
【数8】
【0023】以上、何れの方式を用いるにしても最終的
な認識結果は、それぞれの単語wに対してHMMλw
w=1〜W について準備しておけば、入力音声信号Y
に対して
【0024】
【数9】
【0025】あるいは
【0026】
【数10】
【0027】がYの認識結果となる。勿論、ここでのY
は前記それぞれ方法に応じて、入力されたラベル系列、
特徴ベクトル系列等である。
【0028】
【発明が解決しようとする課題】前記従来例において、
入力特徴ベクトルをラベルに変換するものを離散確率分
布HMM、入力特徴ベクトルをそのまま用いるものを連
続確率分布HMMと呼ぶことにする。このとき、これら
両者の特徴は次のようである。
【0029】離散確率分布HMMは、入力ラベル系列に
対するモデルの尤度の計算において、各状態での各ラベ
ルの発生度合bi(Cm)はラベルに関連して予め記憶され
ている記憶装置から読み出すことで実行できるから計算
量が非常に少ないと言う利点がある反面、量子化に伴う
誤差のため、認識精度が悪くなると言う欠点がある。こ
れを避けるためにラベル数(クラスタ数)を多くする必
要があるが、その増加に伴ってモデルを学習するために
必要な学習パターン数が膨大になる。ここで、学習パタ
ーン数が不十分な場合は、前記bi(Cm)が頻繁に0にな
ることがあり、正しい推定が出来なくなる。例えば、次
のようなことが生じる。
【0030】コードブックの作成は、認識すべき全ての
単語について多数の話者の発声音声を特徴ベクトル系列
に変換し、この特徴ベクトルの集合をクラスタリング
し、それぞれのクラスタにラベリングすることによって
行われる。それぞれのクラスタは、セントロイドと呼ば
れるそのクラスタの代表ベクトルを持ち、通常これは各
々のクラスタに分類されたベクトルの期待値である。コ
ードブックは、これらセントロイドを前記ラベルで検索
可能な形で記憶したものである。
【0031】いま、前記認識語彙の中に、例えば「大
阪」と言う単語があって、これに対応するモデルを作る
場合を考える。多数話者が発声した単語「大阪」に対応
する音声サンプルが特徴ベクトル列に変換され、各々の
特徴ベクトルが前記セントロイドと比較され、最近隣の
セントロイドに対応するラベルがその特徴ベクトルの量
子化されたものとなる。このようにして、前記「大阪」
に対する各々の音声サンプルは、ラベル系列に変換され
る。得られたラベル系列から、それらラベル系列に対す
る尤度が最大になるようにHMMのパラメータを推定す
ることにより、単語「大阪」に対応するモデルが出来上
がる。この推定には周知のBaum-Welch法等が用いられ得
る。
【0032】この場合、前記コードブックにあるラベル
の中で、単語「大阪」に対応する学習ラベル系列の中に
は含まれていないものが有り得る。この含まれていない
ラベルの発生確率は学習の過程で“0”と推定されてし
まう。従って、認識の時に発声される「大阪」と言う単
語が変換されたラベル系列の中に、前記「大阪」のモデ
ルの作成に用いたラベル系列には含まれていないラベル
が存在することは十分有り得る。この場合は、この認識
時に発声された「大阪」のラベル系列が前記「大阪」の
モデルから発生する確率は“0”になってしまう。しか
し、このような場合でも、ラベルとしては異なっていて
も、ラベルに変換される前の特徴ベクトルの段階ではモ
デルの学習に用いた音声サンプルとかなり近く、ベクト
ルの段階で見れば十分「大阪」と認識されても良い場合
がある。もともと同じ単語を発声しているのであるから
ベクトルのレベルでは似通っているにも関わらず、ラベ
ルのレベルでは僅かの差で全く異なったラベルに変換さ
れてしまうということは十分起こり得るのであって、こ
のようなことが認識精度に悪影響を及ぼすことは容易に
想像がつく。クラスタ数が増加する程、訓練データ数が
少ない程このような問題は頻繁に生じることになる。
【0033】この欠点を除去するためには、訓練集合に
は現れてこない(含まれていない)ラベルに対して、平
滑化や補完を行う等の工夫が必要となる。「結び」と呼
ばれる概念を用いてパラメータ数を減少させる工夫をは
じめとして、0確率が推定される場合はそれを0にせず
に微小量に置き換えたり、ファジイベクトル量子化等の
ようにクラスタの境界をぼかしたりする方法等、平滑化
や補完を行う方法が種々提案されているが、何れも上記
問題を根本的に解決するものではない。また、場合に応
じて経験的に決めなければならない要素があって、それ
らの要素を決める理論的な指標はない。
【0034】一方、連続確率分布HMMは、分布形状は
正規分布等と予め関数の形で与えておき、学習データか
らこの関数を規定するパラメータを推定するものであ
る。従って、推定すべきパラメータ数は少なく、前記離
散型のものに比べて少ない学習パターンで精度良くパラ
メータの推定が出来、平滑化や補完を考える必要もなく
なり、一般に離散型よりも高い認識率の得られることが
報告されている。
【0035】因に、離散型と連続型とで(図3)のよう
な4状態3ループのHMMにおけるパラメータ数を比較
すれば例えば次のようになる。離散型の場合は用いられ
るラベルの種類を256とすれば、ラベルの発生確率は
256×3=768、遷移確率は6の計874が1モデ
ル当り必要である。連続型の場合は10次元の正規分布
とすれば、平均ベクトルは10×3=30、分散共分散
行列は55×3=165(∵対称行列)、遷移確率は6
の計201となり、推定すべきパラメータの値は、連続
型は離散型の1/4以下となる。
【0036】ところが、連続型は認識精度の点で優れて
いるが計算量は離散型に比べて非常に多くなるという問
題がある。即ち、入力特徴ベクトルy(t)が、状態iで
平均ベクトルμi、分散共分散行列Σiの正規分布をする
とするき、状態iにおけるy(t)の発生確率(密度)の
計算には(y(t)−μi)TΣi -1(y(t)−μi)なる計算を
必要とし、例えば、10次元の連続型のHMMでは、こ
の計算だけでも110回のかけ算が必要であり、1つの
モデルに対しては、これの(状態数×入力フレーム数)
倍になる。従って、入力フレーム数が50フレームの場
合で前記モデルを想定すれば、1つのモデル当り必要と
される(y(t)−μi)TΣi -1(y(t)−μi)の計算におけ
る掛算の回数は、110×3×50=16500とな
り、単語数が500であるとさらにこれが500倍され
る。即ち、その場合はこの部分の掛け算のみで825万
回が必要となる。
【0037】離散型の場合は、ベクトル量子化の計算を
完了すれば、前記のようにラベルに従って記憶装置から
そのラベルの発生確率を読み出すのみでよい。また、y
(t)をベクトル量子化するのに必要な計算は、前記の例
では、256個の代表ベクトルとy(t)との距離あるい
は類似度の計算である。距離を(ユークリッド距離)2
する場合は、y(t)をラベル付けするのに必要な計算
は、10回の引算と10回の掛算と10回の足算の25
6倍である。従って50フレームでは、掛算のみで考え
れば、10×256×50=128000回と言うこと
になる。もし、バイナリサーチと呼ばれる方法でベクト
ル量子化する場合は、前記256は2log2256=16
でおきかえて、10×16×50=8000回と言うこ
とになる。
【0038】以上のように離散型とすることにより計算
量が著しく減少し、連続型の場合は認識単語数が増える
と計算量もそれに比例して増大するが、離散型の場合
は、入力音声信号を一旦ベクトル量子化するときのみこ
の計算が必要なのであって、認識単語数が増えてもこの
計算量は不変である。
【0039】このように、離散型の場合は計算量は少な
いが認識精度的に問題があり、連続型の場合は認識精度
はよいが計算量に問題がある。
【0040】
【課題を解決するための手段】訓練ベクトルをファジィ
クラスタリングするクラスタリング手段と、連続確率分
布HMMを作成する連続確率分布HMM作成手段と、該
HMMの各状態における前記各クラスタの発生確率を算
出するクラスタ発生確率算出手段とを備え、該クラスタ
発生確率算出手段は、前記連続確率分布HMMから発生
する時点tに状態iを通る状態系列の訓練パターンrに
対する条件確率を荷重係数とし、該訓練パターンrの時
点tにおけるベクトルのクラスタCmへの帰属度の、
r,tの取り得る全範囲にわたる荷重平均を算出する荷
重平均算出手段を含み、該荷重平均を状態iにおけるク
ラスタCmの発生確率とする構成である。
【0041】
【作用】訓練ベクトルをファジィクラスタリングし、別
途作成された連続確率分布HMMからHMMの各状態に
おける前記各クラスタの発生確率を算出するものであっ
て、前記連続確率分布HMMから発生する時点tに状態
iを通る状態系列の訓練パターンrに対する条件確率を
荷重係数とし、該訓練パターンrの時点tにおけるベク
トルのクラスタCmへの帰属度の、r,tの取り得る全
範囲にわたる荷重平均を算出し、得られた値を状態iに
おけるクラスタCmの発生確率とするものである。
【0042】
【実施例】ここで、以後用いるべき記号の定義をまとめ
ておく。簡単のために、誤解を生じない限り、状態
i,qj等は単にi,j等と表記することにする。ま
た、モデルの学習は1つの単語について行う場合を述べ
ることとし、モデル間で区別する必要のある場合は、モ
デルに対応する番号をパラメータの右肩に添字として付
加することとし、通常はこれを省くものとする。
【0043】[aij]:遷移マトリクス aij:状態iから状態jへの遷移確率 r:作成すべきモデルに対する訓練パターン番号(r=
1,・・・,R) y(r)(t):訓練パターンrの第tフレームにおける観
測ベクトル o(r)(t):訓練パターンrの第tフレームにおける観
測ラベル Cm:クラスタ名(m=1,・・・,M) cm:クラスタCmのセントロイド bi(y(r)(t)):訓練パターンrのフレームtの観測ベ
クトルy(r)(t)の状態iにおける確率密度(bi(cm)
は状態iにおけるクラスタmのセントロイドに対する確
率密度) bi(o(r)(t)):訓練パターンrのフレームtの観測ラ
ベルo(r)(t)の状態iにおける確率(bi(Cm)は状態
iにおけるクラスタCmの発生確率) y(r)=(y(r)(1),y(r)(2),・・・,y(r)(T(r))):訓
練パターンrのベクトル系列(ただし、r=1,2,・・・,
R) O(r)=(o(r)(1),o(r)(2),・・・,o(r)(T(r))):単
語wに対する第r番のラベル系列(ただし、r=1,2,・
・・,R) X(r)=(x(r)(1),x(r)(2),・・・,x(r)(T(r)),x(r)
(T(r)+1)):X(r)またはO(r)に対応する状態系列 x(r)(t):単語wに対する第r番の訓練パターンの第
tフレームにおける状態 T(r):単語wに対する第r番の訓練パターンのフレー
ム数 μi:bi(y)の平均ベクトル Σi:bi(y)の分散共分散行列 λi=[πi, {aij}j=1,・・・,I+1,μi, Σi]:状態i
のパラメータの集合(連続確率分布HMMの場合) λi=[πi, {aij}j=1,・・・,I+1,{b
i(Cm)}m=1,・・・,M]:状態iのパラメータの集合(ファ
ジィVQHMMの場合) λ={λi}i=1,・・・,I:全パラメータの集合(λをパラメ
ータとするモデルをモデルλとも呼ぶ) P(Y|λ):観測ベクトル系列Yがモデルλから発生す
る確率密度 P(O|λ):観測ラベル系列Oがモデルλから発生する
確率 πi:状態iがt=1で生じる確率(初期確率) 先ず、連続確率分布HMMを学習する方法について述べ
る。
【0044】問題は、準備されたr=1〜Rの訓練パタ
ーンに対して、尤度関数P(Y(1),Y(2),・・・,Y(R)|λ)
を最大にするパラメータλを推定することである。
【0045】Y(r)が互いに独立であるとすれば
【0046】
【数11】
【0047】で与えられる。ここで、次の補助関数Q
(λ,λ')を定義する。
【0048】
【数12】
【0049】このとき、次のことが言える。「Q(λ,
λ')≧Q(λ,λ)なら、P(Y(1),…,Y(R)|λ')≧P(Y
(1),…,Y(R)|λ)であって、等号はλ'=λの時に成り
立つ。」故に、
【0050】
【数13】
【0051】を求めることが出来れば、λ*→λとして
(数13)を繰り返し適用することによって、λはP
(Y(1),…,Y(R)|λ)の停留点、即ち、P(Y(1),…,Y
(R)|λ)の極大値または鞍点を与える点に収束すること
になり、P(Y(1),…,Y(R)|λ)の変化率が予め定めた
閾値以下になるまでこの操作を繰り返すことにより局所
最適解が得られる。
【0052】次にQ(λ,λ')を用いてパラメータを推定
する方法について説明する。(数12)を変形すれば、
次式が得られる。
【0053】
【数14】
【0054】前述の説明から、Q(λ,λ')をλ'の関数
と見なしてQ(λ,λ')>Q(λ,λ)なるλ'を見出せば、
それはλの更新されたものとなり、P(Y(1),・・・,Y(R)
|λ)はλ'に関しては一定値となるから、これを取り除
いて
【0055】
【数15】
【0056】とするとき、Q'(λ,λ')>Q'(λ,λ)な
るλ'を見出すことと同様である。ここで
【0057】
【数16】
【0058】とおけば、(数15)はさらに次のように
なる。
【0059】
【数17】
【0060】右辺第1項からπi'についてQ'(λ,λ')
を最大化すればπiの再推定値πi *
【0061】
【数18】
【0062】右辺第2項からaij'についてQ'(λ,λ')
を最大化すればaijの再推定値aij *
【0063】
【数19】
【0064】右辺第3項からμi',Σi'についてQ'
(λ,λ')最大化すれば、μi,Σi各々の再推定値μi *
Σi *
【0065】
【数20】
【0066】
【数21】
【0067】ここで、ξ(r) ij(t),γ(r) i(t)は次の
ように計算される。
【0068】
【数22】
【0069】とおけば、
【0070】
【数23】
【0071】であって、
【0072】
【数24】
【0073】
【数25】
【0074】なる漸化式が成り立つから、α(r) 1(0)=
1としてパラメータλに適当な初期値を与え、t=1〜
(r)+1,j=1〜I+1について(数24)に従っ
てα(r) j(t)を、β(r) I+1(T(r)+1)=1としてt=
(r)〜1、i=I〜1について(数25)に従ってβ
(r) i(t)をそれぞれ順次計算して行けば、(数23)が
計算できる。
【0075】パラメータ推定の実際の計算手順は次のよ
うになる。 (1)L1=∞ (2)i=1〜Iについて λi={πi,[aij]j=1,・・・,I+1,μi,Σi}に適当な初
期値を与える。 (3)r=1〜R, t=2〜T(r)+1, i=1〜I+
1について α(r) i(t)をλ={λi}として(数24)に従って計算
する。 (4)r=1〜R, t=T(r)〜1, i=I〜1につい
てβ(r) i(t)を(数25)に従って計算する。 (5)r=1〜R,i,j=1〜I+1,t=1〜T(r)
+1について ξ(r) ij(t),γ(r) i(t)をλ={λi}としてそれぞれ
(数23)に従って計算する。 (6)i=1〜I,j=1〜I+1について πi,aijiiの再推定値を(数18)〜(数21)
に従って計算する。 (7)i=1〜I,j=1〜I+1について aij=aij *, μi=μi *, Σi=Σi *なる代入を行うこ
とによって、更新されたパラメータ集合λ={λi}を得
る。 (8)step(7)で得たパラメータ集合λに対して
【0076】
【数26】
【0077】を計算する。ここで、α(r) I+1(T(r)
1)の値はステップ(3)と同様の計算により漸化的に
求めるものであり、途中で得られるr,i,tの個々に
対するαの値は次の繰り返し計算に用いるため記憶して
おく。 (9)|L1−L2|/L1<εならば終了。そうでなけれ
ばL1=L2とおいてステップ(4)へ戻る。
【0078】前記ステップ(9)におけるεは収束の幅
を決める適当に小さな正の数であって、その値は状況に
よって実用的な値が選ばれる。
【0079】以上のようにして、連続確率分布HMMが
得られるが、前述のごとき欠点を有している。次に、前
記連続確率分布HMMを基にしてファジィクラスタリン
グ(ファジィベクトル量子化)によるHMM(FVQH
MM)を作成する本発明を説明する。
【0080】先ず、ファジィクラスタリングについて説
明する。表記の簡単のために、学習に用いる全ての単語
音声を構成するベクトルについて通し番号をつけ、y1,
・・・,yNとし、ynのクラスタCmへの帰属度(メンバシ
ップ関数)をunmとする。通常のクラスタリング法で
は、あるベクトルynがクラスタCmに属している(unm
=1)か、属していないか(unm=0)だけを認めるの
に対して、ファジィクラスタリング法では、ynがいく
つかのクラスタに異なる度合で帰属することを認めると
言うものである。
【0081】具体的な方法の1つは、各クラスタCm
セントロイド(中心ベクトル、平均ベクトル)をc
m(m=1,・・・,M)とし、ynとセントロイドcmの非類
似度をdn m=d(yn,cm)とするとき、
【0082】
【数27】
【0083】を最小にするunmとcmを見出すものがあ
る。目的関数Jをcmとunmに関して偏微分し、条件
【0084】
【数28】
【0085】を用いれば、Jを局所的に最小化するため
の必要条件が次の(数29)(数30)のように示され
る。
【0086】
【数29】
【0087】
【数30】
【0088】ここで、Fはいわゆるファジィネスを表
し、1<Fである。F→∞のときは、m=1,・・・,Mに
ついて、unm→1/Mになり、F→1のときは、
【0089】
【数31】
【0090】であるから、
【0091】
【数32】
【0092】となる。即ち、Fが増加するにつれてyn
が何れのクラスタに属するかと言うことの曖昧性が増大
し、Fが1に近づくにつれて、ynの属するクラスタを
一意に決定するいわゆるハードクラスタリングに近づ
く。
【0093】ファジィクラスタリングの実際の手順は次
のようになる。 (1)訓練ベクトル集合を適当にC1,・・・,CMに分割
し、初期クラスタとする。 (2)各クラスタの平均ベクトルcmを(数29)に従
って求める。 (3)yn≠cmのとき、(数30)によってステップ
(2)の結果を用いてunmを更新する。yn=cmのとき
は、m=nのときunm=1,m≠nのときunm=0とお
く。 (4)収束条件を満足すれば処理を終了、そうでなけれ
ばステップ(2)へ戻る。
【0094】ステップ(4)における収束条件として
は、上記繰り返し計算において、更新される前のunm
更新された後のunmとの変化量をenmとするとき、enm
2のm,nに関する総和が予め定めた収束判定値ε以下
になった場合を収束、それに達しない場合を非収束とす
る等が考えられる。
【0095】本発明においては、状態iにおけるベクト
ルy(t)の確率密度ωi(y(t))を
【0096】
【数33】
【0097】によって定義するものである。ただし、b
i(Cm)は状態iにおいてクラスタCmの発生する確率で
あって、次のようにして推定される。
【0098】
【数34】
【0099】上記Q'(λ,λ')をbi(Cm)'について最大
化する。Lagrangeの未定乗数をθとすれば、
【0100】
【数35】
【0101】であって、両辺をbi(Cm)'倍してmにつ
いて総和をとれば、
【0102】
【数36】
【0103】これを(数35)に代入してbi(Cm)の推
定式が次のように求められる。
【0104】
【数37】
【0105】通常のファジィVQによるHMMは(数3
7)におけるγ(r) i(t)を再推定されたbi(Cm)を用い
て計算するものであるが、本発明では、γ(r) i(t)は連
続確率分布HMMとして求めたものをそのまま用いるも
のである。従って、(数37)の計算は1回行うのみで
ある。即ち、本発明によるパラメータの推定のステップ
は、前記連続確率分布HMMの作成後、(数37)によ
りi=1〜I、m=1〜Mについてbi(Cm)を計算する
ことになる。従って、本発明モデルでは、パラメータ集
合は[πi,{aij}j=1,2,・・・,I+1,{bi(Cm)}
m=1,2,・・・,Mi=1,2,・・・ ,Iとなる。認識時の尤度計算に
おいては、連続確率分布HMMの尤度計算におけるb
i(y(t))を(数33)で定義されるωi(y(t))に置き
換えることになる。
【0106】(図1)は、本発明のHMM作成装置の一
実施例である。以下図面に従って説明する。
【0107】101は特徴抽出部であって、周知の方法
によって、単語w(=1,…,W)に対応するモデル作成の
ために準備された訓練単語r=1〜Rwの音声信号を特
徴ベクトルの系列Yw(r)=(yw(r)(1),yw(r)(2),…,
w(r)(T(r)))に変換するものである。
【0108】102は単語パターン記憶部であって、モ
デルλw(w=1,・・・,W)を作成するための訓練用単語
全てを前記特徴ベクトル系列の形でR1+R2+…+Rw
+…+RW個記憶するものである。
【0109】103はファジィクラスタリング部であっ
て、(数29)(数30)に従って、前記訓練パターン
を構成している全ベクトルをファジィクラスタリングし
て、クラスタCmのセントロイドcmをm=1,・・・,Mに
ついて算出するものである。即ち
【0110】
【数38】
【0111】個の特徴ベクトル集合をM個のクラスタに
ファジィクラスタリングするものである。
【0112】104は103で求められたセントロイド
を記憶するものである。105はバッファメモリであっ
て、単語パターン記憶部102からモデルを作成すべき
単語wの訓練パターンとして記憶されているRwのパタ
ーンを読みだし、一時的に記憶するものである。
【0113】106はパラメータ推定部であって、前記
モデルλwを作成するステップ(1)〜(9)を実行
し、単語wに対応する連続確率分布HMMを推定するも
のである。
【0114】107は第1のパラメータ記憶部であっ
て、前記ステップ(6)で得られたパラメータの再推定
値を必要がなくなるまで一時的に記憶するものである。
パラメータ推定部106はこのパラメータ記憶部107
の値を用いて再推定を行うものである。
【0115】108は状態系列発生確率記憶部であっ
て、(数23)によって、パラメータ推定部106でパ
ラメータ推定の際に計算される、時点tで状態iをとる
状態系列の、観測系列Yw(r)に対する条件付き確率密度
γw(r) i(t)をr,tで参照可能な形で記憶するもので
ある。
【0116】109はベクトル帰属度算出部であって、
ファジィクラスタリング部103で求められたy
w(r)(t)の各クラスタへの帰属度Uw(r)(t)=(u(y
w(r)(t),Cm),・・・,u(yw(r)(t),CM))Tをr,tの
組合せで参照可能な形で記憶するものである。U
w(r)(t)をyw(r)(t)の帰属度ベクトルと呼ぶことにす
る。
【0117】110はクラスタ発生確率計算部であっ
て、前記状態系列発生確率記憶部108から読みだした
γw(r) i(t)とベクトル帰属度算出部109から読み出
したUw(r)(t)とから(数37)に従ってm=1,・・・,
M、i=1,・・・,Iについて、bi(Cm)を算出するもの
である。
【0118】111は単語w=1〜Wに対応するパラメ
ータを記憶する第2のパラメータ記憶部であって、前記
それぞれの単語w=1〜Wに対応するパラメータが、
(パラメータ記憶部1)〜(パラメータ記憶部W)の各
々に記憶される。即ち、単語wのパラメータの推定結
果、状態iにおける初期確率πw i、遷移確率aw ijは、
第1のパラメータ記憶部107の内容を、状態iにおけ
るクラスタmの発生確率bw i(Cm)は、クラスタ発生確
率算出部110で計算された結果をパラメータ記憶部w
にi,jで参照可能な形で記憶する。
【0119】以上のようにして、FSVQHMMが作成
される。次に、以上のようなモデルを用いて実際の入力
音声を認識する方法及び装置について説明する。
【0120】(図4)は認識装置のブロック図である。
以下、本図に従って説明する。401は特徴抽出部であ
って、(図1)101と全く同様の構成・機能を有する
ものである。
【0121】402はセントロイド記憶部であって、
(図1)のHMM作成装置のセントロイド記憶部104
と同様のものであって、各クラスタのセントロイドが記
憶されている。
【0122】403はベクトル帰属度算出部であって、
特徴抽出部401の出力の特徴ベクトルy(t)とセント
ロイド記憶部に記憶されている前記それぞれのクラスタ
の代表ベクトルcm(m=1,…,M)から、(数30)
に従ってy(t)のクラスタCmに対する帰属度u(y
(t),Cm)(m=1,・・・,M)を算出し、y(t)を帰属度
ベクトル(u(y(t),C1),・・・,u(y(t),CM))Tに変
換するものである。
【0123】404はパラメータ記憶部であって、(図
1)111と全く同様の構成・機能を有するものであっ
て、パラメータ記憶部wには、単語w(=1,・・・,W)に
対応するモデルのパラメータが記憶されている。
【0124】405は尤度計算部であって、ベクトル帰
属度算出部402の出力に得られる帰属度ベクトル列に
対する各モデルの尤度をパラメータ記憶部404の内容
を用いて計算するものである。パラメータ記憶部wは単
語wに対応するモデルのパラメータが記憶されている。
尤度計算部wではパラメータ記憶部wの内容が用いられ
る。尤度の計算は、モデルw、状態iにおけるy(t)の
発生確率ωw i(y(t))を、(数33)から
【0125】
【数39】
【0126】で与え、(数5)におけるbi(y(t))を
ωw i(y(t))、aijをaw ijとして、(数1)(数2)
(数3)等の何れかを用いて実行される。(数1)を計
算する場合は、(数26)におけるY(r)に対する
【0127】
【数40】
【0128】の計算と全く同様に、入力パターンYに対
するモデルwのαw I+1(T+1)を計算することになる。
TはYのフレーム数である。
【0129】(数2)(数3)を用いる場合は、周知の
Viterbi法によって尤度を求めることが出来る。認識の
際に最もよく用いられる(数3)を用いる場合は、本発
明では次のようになる。 (1)初期値設定 単語wのモデルの状態iの初期確率をπw iとし、i=
1,・・・,Iについて(数40)を実行
【0130】
【数41】
【0131】(2)漸化式の計算 t=2,・・・,T,j=1,・・・,Iについて(数41)を実
【0132】
【数42】
【0133】(3)尤度決定
【0134】
【数43】
【0135】ステップ(3)におけるφw I+1(T+1)が
Yに対するモデルw(単語w)の尤度である。(図4)
では、尤度計算部はモデル毎に持つように描いてある
が、1つの尤度計算部を切り替えて用いても良いのは勿
論のことである。
【0136】406は比較判定部であって、尤度計算部
405に含まれる尤度計算部1,・・・,Wの何れの出力が
最大であるかを比較判定し、それに対応する単語を認識
結果として出力するもので、(数4)と同様に
【0137】
【数44】
【0138】を実行し、認識結果w^が得られる。
【0139】
【発明の効果】以上のように、本発明は、連続確率密度
分布HMMを先ず作成し、パターン集合を形成するベク
トルの集合をファジィクラスタリングし、クラスタCm
の前記HMMの状態iにおける発生確率bi(Cm)を連続
確率分布型HMMとして求められた状態系列の確率密度
を用いて求め、FVQHMMに変換するものである。従
って、本発明により、離散型HMMにおける欠点である
訓練データの不足やその偏りによる推定誤差を解消し、
認識時には、離散型HMMのもつ計算量が少ないという
利点を活かしたモデルの実現が可能となった。また、ク
ラスタリングをファジィクラスタリングとすることによ
りクラスタ数を減少でき、推定精度を向上させることが
出来る。
【0140】なお、本実施例においては、単語を認識す
るとして述べたが、単語を音韻や音節等に置き換えても
勿論よく、また、音声以外のパターンにも適用出来るも
のである。さらに、本実施例では特徴ベクトルの分布
は、各状態において単一の正規分布に従うとして説明し
たが、いわゆる混合分布を用いることにより、より精密
なクラスタの発生確率を得ることも勿論可能である。
【図面の簡単な説明】
【図1】本発明によるHMMのパラメータ推定を行う装
置の一実施例を示すブロック図
【図2】HMMを用いた音声認識装置の従来例を説明す
るブロック図
【図3】HMMの構成図
【図4】本発明の原理により構成されたHMMを用いた
音声認識装置の一実施例を示すブロック図
【符号の説明】
101 特徴抽出部 102 単語パターン記憶部 103 ファジィクラスタリング部 104 セントロイド記憶部 105 バッファメモリ 106 パラメータ推定部 107 パラメータ記憶部 108 状態系列発生確率記憶部 109 ベクトル帰属度算出部 110 クラスタ発生確率算出部 111 パラメータ記憶部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】訓練ベクトルをファジィクラスタリングす
    るクラスタリング手段と、連続確率分布HMMを作成す
    る連続確率分布HMM作成手段と、該HMMの各状態に
    おける前記各クラスタの発生確率を算出するクラスタ発
    生確率算出手段とを備え、該クラスタ発生確率算出手段
    は、前記連続確率分布HMMから発生する時点tに状態
    iを通る状態系列の訓練パターンrに対する条件付確率
    密度を荷重係数とし、該訓練パターンrの時点tにおけ
    るベクトルのクラスタCmへの帰属度の、r,tの取り
    得る全範囲にわたる荷重平均を算出する荷重平均算出手
    段を含み、該荷重平均を状態iにおけるクラスタCm
    発生確率とすることを特徴とするファジィベクトル量子
    化HMM作成装置。
  2. 【請求項2】請求項1記載のHMM作成装置によって得
    られた状態遷移確率を記憶する状態遷移確率記憶手段
    と、各状態における各クラスタの発生確率を記憶するク
    ラスタ発生確率記憶手段とを備えたことを特徴とするH
    MM記憶装置。
  3. 【請求項3】入力パターンを構成する特徴ベクトル系列
    の各ベクトルの請求項1記載の各クラスタに属する帰属
    度を計算するベクトル帰属度算出手段と、請求項2記載
    のHMM記憶装置とを含み、該HMM記憶装置に記憶さ
    れているパラメータで記述されるHMMの、前記入力パ
    ターンに対する尤度を計算する尤度計算手段とを備えた
    ことを特徴とする尤度計算装置。
  4. 【請求項4】認識すべき入力信号に対して、認識単位毎
    に請求項3記載の尤度計算を行う尤度計算装置と、該尤
    度の値から前記入力信号が前記認識単位の何れであるか
    を判定する比較判定手段とを備えたことを特徴とする認
    識装置。
  5. 【請求項5】請求項2記載の発生確率記憶手段に記憶さ
    れている状態iでのクラスタCmの発生確率bi(Cm)の
    対数値log bi(Cm)の、請求項3記載のベクトル帰属度
    算出手段により求められた観測ベクトルy(t)の各クラ
    スタへの帰属度による荷重平均を前記y(t)の状態iに
    おける発生確率の対数値とする観測ベクトル発生確率算
    出手段を含むことを特徴とする請求項3記載の尤度計算
    装置。
JP4242918A 1992-09-11 1992-09-11 時系列信号処理装置 Pending JPH0695691A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4242918A JPH0695691A (ja) 1992-09-11 1992-09-11 時系列信号処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4242918A JPH0695691A (ja) 1992-09-11 1992-09-11 時系列信号処理装置

Publications (1)

Publication Number Publication Date
JPH0695691A true JPH0695691A (ja) 1994-04-08

Family

ID=17096152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4242918A Pending JPH0695691A (ja) 1992-09-11 1992-09-11 時系列信号処理装置

Country Status (1)

Country Link
JP (1) JPH0695691A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111579731A (zh) * 2020-06-28 2020-08-25 华侨大学 一种基于组合模型的变压器早期缺陷预警方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111579731A (zh) * 2020-06-28 2020-08-25 华侨大学 一种基于组合模型的变压器早期缺陷预警方法
CN111579731B (zh) * 2020-06-28 2022-07-29 华侨大学 一种基于组合模型的变压器早期缺陷预警方法

Similar Documents

Publication Publication Date Title
JP2795058B2 (ja) 時系列信号処理装置
JPH064093A (ja) Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置
EP0966736B1 (en) Method for discriminative training of speech recognition models
Lee et al. Speaker adaptation based on MAP estimation of HMM parameters
Gauvain et al. Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains
Gales The generation and use of regression class trees for MLLR adaptation
Gauvain et al. Bayesian learning for hidden Markov model with Gaussian mixture state observation densities
Gales Semi-tied covariance matrices for hidden Markov models
US5857169A (en) Method and system for pattern recognition based on tree organized probability densities
US5825978A (en) Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
US5933806A (en) Method and system for pattern recognition based on dynamically constructing a subset of reference vectors
Franco et al. Context-dependent connectionist probability estimation in a hybrid hidden Markov model-neural net speech recognition system
WO1998040876A9 (en) Speech recognition system employing discriminatively trained models
McDermott et al. Prototype-based minimum classification error/generalized probabilistic descent training for various speech units
Kurimo Using self-organizing maps and learning vector quantization for mixture density hidden Markov models
Frankel et al. Speech recognition using linear dynamic models
Furui Vector-quantization-based speech recognition and speaker recognition techniques
Gauvain et al. Improved acoustic modeling with Bayesian learning
Rigoll et al. A new hybrid system based on MMI-neural networks for the RM speech recognition task
US6269334B1 (en) Nongaussian density estimation for the classification of acoustic feature vectors in speech recognition
Foote Decision-tree probability modeling for HMM speech recognition
Renals et al. A comparative study of continuous speech recognition using neural networks and hidden Markov models
Neukirchen et al. A continuous density interpretation of discrete HMM systems and MMI-neural networks
JPH0695691A (ja) 時系列信号処理装置
Kurimo Training mixture density HMMs with SOM and LVQ