JPH05241593A

JPH05241593A - 時系列信号処理装置

Info

Publication number: JPH05241593A
Application number: JP34194492A
Authority: JP
Inventors: Hidekazu Tsuboka; 英一坪香
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-12-25
Filing date: 1992-12-22
Publication date: 1993-09-21

Abstract

(57)【要約】【目的】隠れマルコフモデルを用いた音声をはじめと
する時系列信号処理装置に関するもので、特に、話者特
性を考慮することにより不特定話者の音声認識精度を向
上させる装置を提供することを目的とする。【構成】１,…,Ｋに分類された話者クラスに対し、状
態毎に前記話者クラスに対応した確率分布をもつＫ個の
ランダムベクトル発生源を有する隠れマルコフモデル
と、観測時系列信号Ｙ＝(ｙ(１),・・・,ｙ(２))の前記隠
れマルコフモデルから発生する度合を計算する尤度算出
手段を備えたことを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置、特に不
特定話者向きの音声認識装置等に用いられる時系列信号
処理装置に関するものである。

【０００２】

【従来の技術】近年、隠れマルコフモデル（Hidden Mar
kov Model 以下ＨＭＭと略記）を用いた方式が音声認識
に盛んに用いられるようになってきた。ＨＭＭは時系列
の確率モデルであり、音声信号のように話者や前後の音
韻などの影響を受けて種々の変動を伴う時系列を確率的
に処理する強力な枠組みを与えると共に、連続音声認識
への拡張性にも優れていると言う特徴がある。

【０００３】ＨＭＭによる認識は次のようにして行われ
る。以後、説明の便宜上、単語音声認識の場合について
説明する。即ち，未知入力に対して得られる特徴ベクト
ル系列をＹ＝(ｙ(１),ｙ(２),…,ｙ(Ｔ))とするとき，
単語ｗに対するモデルλ^wの尤度は事後確率Ｐ(λ^w|Ｙ)
で定義される。ここに、ｙ(ｔ)は時点ｔにおいて観測さ
れる特徴ベクトルである。このとき、Ｙに対する認識結
果は、認識語彙をｗ＝１，・・・,Ｗとするとき（数７）で
与えられる。ここで、（数８）が成立し、事前確率Ｐ
(λ^w)は一般には不明であるから全単語について等しい
とし、Ｐ(Ｙ)は全てのｗ(＝１,・・・,Ｗ)に関わらず共通
であるから省略すれば、（数７）を計算する代わりに
（数９）を計算すれば良いことになる。

【０００４】

【数７】

【０００５】

【数８】

【０００６】

【数９】

【０００７】図１７は、以上の処理を行う単語音声認識
装置のブロック図である。１０１は単語音声信号入力端
子であって、認識すべき単語音声が入力される。１０２
は特徴抽出部であって、フレームと呼ばれる間隔で、例
えば１０msec毎にフーリエ変換やＬＰＣ分析を行ない、
フレームｔ毎に、入力音声信号を特徴ベクトルと呼ばれ
るｄ個のパラメータの組ｙ(ｔ)＝(ｙ₁(ｔ),・・・,ｙ
_d(ｔ))^Tに変換する。以後、ベクトルは縦ベクトルと
し、Ｔは転置を表すものとする。１０３はモデル記憶部
であって、ｗ＝１,・・・,Ｗの認識単語に対応したモデル
λ¹,・・・,λ^Wが記憶されている。１０４は尤度算出部で
あって、特徴抽出部１０２の出力である特徴ベクトル系
列Ｙ＝(ｙ(１),・・・,ｙ(Ｔ))がモデルλ^wから発生する確
からしさＬ(Ｙ|λ^w)をｗ＝１,・・・,Ｗについて計算す
る。Ｌ(Ｙ|λ^w)としては、Ｙのλ^wに対する条件付き確
率密度Ｐ(Ｙ|λ^w)あるいはその対数等が用いられる。１
０５は最大尤度判定部であって、Ｌ(Ｙ|λ^w)が最大とな
るｗ＝ｗ^を見出し認識結果ｗ^を出力する。

【０００８】Ｙに対応するＨＭＭの状態系列をＸ＝(ｘ
(１),・・・・・,ｘ(Ｔ))とすれば、Ｐ(Ｙ|λ^w)は（数１０）
のように計算される。

【０００９】

【数１０】

【００１０】ここで、ＨＭＭλ^wは，left to right の
モデルであって，そこへの遷移のみ起こり、そこからの
遷移は生じず、かつ、特徴ベクトルを発生しない最終状
態を持つものとする。例えば、図１８に示されるような
モデルが用いられる。ａ_ijは状態ｉから状態ｊへの遷移
確率である。ｂ_i(ｙ(ｔ))は状態ｉにおいてベクトルｙ
(ｔ)の観測される確率密度である。本例では，各状態に
おいて特徴ベクトルが発生するとしているが、遷移にと
もなって発生するとする場合もある。即ち、状態ｉから
状態ｊへの遷移にともなってベクトルｙ(ｔ)の発生する
確率密度をｂ_ij(ｙ(ｔ))とするものである。任意のｊに
対してｂ_ij(ｙ(ｔ))は同じ値を取るとすれば、これは前
者のモデルと等価になる。これらの定義は本発明におい
ては本質的でないので以後前者のモデルで説明する。図
１８においてループを持たない最終の状態が前記最終状
態である。図１７のモデル記憶部１０３には各認識単語
毎にそれぞれに対応するこのようなモデルが記憶されて
いる。

【００１１】状態ｊ(ｊ＝１〜Ｊ)毎に，特徴ベクトルｙ
の観測される確率密度ｂ_j(ｙ)と状態ｉから状態ｊへの
遷移確率ａ_ijが与えられているとき，状態系列Ｘと特徴
ベクトル系列ＹのＨＭＭλから発生する同時確率密度は
（数１１）で表わされ、結局（数１２）が成立する。た
だし，π_iはフレームｔ＝１で、状態がｉにある確率
（初期確率），ｘ(Ｔ＋１)＝Ｊ＋１は前記最終状態で，
フレームＴの観測後遷移して終了する状態であって，如
何なるベクトルも発生しない。このモデルにおいては、
観測系列ｙ(１),・・・,ｙ(Ｔ)に対して状態系列はｘ(１),
・・・,ｘ(Ｔ＋１)となる。

【００１２】

【数１１】

【００１３】

【数１２】

【００１４】時刻ｔ，ＨＭＭの状態ｉにおける観測ベク
トルｙ(ｔ)の確率密度を正規分布とすれば，その確率密
度は基本ＨＭＭにおいては（数１３）のように表され
る。ここで，μ_i,Σ_iはそれぞれＨＭＭの状態ｉにおけ
るｙ(ｔ)の平均ベクトル，および分散共分散行列であ
る。

【００１５】

【数１３】

【００１６】図１９は基本ＨＭＭの概念を模式的に表す
図である。３０１は通常のマルコフ連鎖であって、ｑ_i
は第ｉ番の状態を表している。状態ｉに対応して平均値
μ_i、分散共分散行列Σ_iのガウス情報源が存在してい
る。３０２は情報源切り替えスイッチであって、３０１
のマルコフ連鎖の状態が何れであるかによって、該状態
に対応する前記ガウス情報源からの出力ベクトルを選択
し、観測ベクトルとして出力するものである。

【００１７】

【発明が解決しようとする課題】ところで、基本ＨＭＭ
においては、モデルのパラメータａ_ij,μ_i,Σ_i等は、多
数話者の多数の訓練パターンから"平均的な値"として推
定される。従って、個人差に基づくばらつきにより、そ
れぞれの音韻に対するスペクトルの広がりが大きくな
り、互いに異なった音韻間にスペクトルの重なりが生
じ、カテゴリ間の分離が困難となる場合がある。即ち、
例えば「和歌山」と言う単語と「岡山」と言う単語に対
して、話者Ａの発声した「和歌山」に対する単語音声パ
ターンは、同じ話者Ａの発声した「岡山」に対する単語
音声パターンとは明確に分離できても、話者Ｂの発声し
た「岡山」に対する単語音声パターンとは、両者が非常
に似通っていて分離が困難であると言う場合がある。

【００１８】本発明は、この様な従来の音声認識処理な
どにおける話者間のスペクトルの曖昧性を排除して、不
特定話者に対する音声の認識率向上が可能な時系列信号
処理装置を提供することを目的とするものである。

【００１９】

【課題を解決するための手段】本発明は、時点ｔにおけ
る観測ベクトルをｙ(ｔ)とするとき、観測時系列信号Ｙ
＝｛ｙ(ｔ)｝がクラス分けされるべき集合群｛Ｓ_k｝
（ｋ＝１,・・・，Ｋ）に対し、複数個の状態を有する隠れ
マルコフモデルの、それぞれの状態の初期確率と、それ
ぞれの状態間の遷移確率と、前記集合Ｓ_k，状態ｊに対
する観測ベクトルｙ(ｔ)の条件付確率密度ｂ_jk(ｙ(ｔ))
を定めるパラメータとを記憶している隠れマルコフモデ
ル記憶手段を備えた時系列信号処理装置である。

【００２０】また本発明は、更に、その観測時系列Ｙの
集合群｛Ｓ_k｝のそれぞれの集合に対する帰属度｛ｃ_k｝
を求める帰属度算出手段と、前記モデルの状態ｊにおけ
る前記観測ベクトルｙ(ｔ)の発生度合ｂ_j(ｙ(ｔ))を前
記条件付確率密度ｂ_jk(ｙ(ｔ))と前記帰属度｛ｃ_k｝に
基づいて算出するベクトル発生度合算出手段と、前記隠
れマルコフモデル記憶手段に記憶されている各状態の初
期確率と、それぞれの状態間の遷移確率と、前記ｂ_j(ｙ
(ｔ))とに基づいて前記観測時系列信号Ｙの発生度合を
算出する時系列信号発生度合算出手段とを備えた時系列
信号処理装置である。

【００２１】

【作用】本発明では、時点ｔにおける観測ベクトルをｙ
(ｔ)とするとき、観測時系列Ｙ＝｛ｙ(１)｝がクラス分
けされるべき集合群Ｓ_k（ｋ＝１,・・・，Ｋ）に対し、隠
れマルコフモデル記憶手段は、複数個の状態を有し、そ
れぞれの状態間の遷移確率と、前記集合Ｓ_k、状態ｊに
対するｙ(ｔ)の条件付確率密度ｂ_jk(ｙ(ｔ))を定めるパ
ラメータとによって定められる隠れマルコフモデルを記
憶し、帰属度算出手段は、前記観測時系列Ｙの前記集合
群｛Ｓ_k｝のそれぞれの集合に対する帰属度｛ｃ_k｝を求
め、ベクトル発生度合算出手段は、前記ベクトルｙ(ｔ)
の状態ｊにおける発生度合ｂ_j(ｙ(ｔ))を前記条件付確
率密度ｂ_jk(ｙ(ｔ))と前記帰属度算出手段の出力である
帰属度に基づいて計算し、該ベクトル発生度合算出手段
の結果と、前記記憶されている隠れマルコフモデルの初
期確率、遷移確率を用いて、該モデルからの前記時系列
Ｙの発生度合を算出するものである。

【００２２】

【実施例】以下、本発明の実施例について図面を参照し
て説明する。

【００２３】先ず、本発明の原理を説明する。声質や喋
り方の似た話者同士を集めれば、その話者クラス内で
は、話者性のばらつきに基づく前記カテゴリ間の混同は
生じにくくなると考えられる。ここに、クラスとは集
合、又はカテゴリであって、共通の性質を持つ集まりで
ある。

【００２４】そこで、通常のＨＭＭでは、単語ｗに対応
するモデルの状態ｉに特徴ベクトル発生源は１つ仮定さ
れるが、本発明においては、単語ｗに対応するＨＭＭの
状態ｉに、話者クラスｋ（＝１,・・・,Ｋ）に対応したＫ
個の特徴ベクトル発生源を有する次のモデルを考える。
時点ｔにおいて選択される特徴ベクトル発生源をｓ(ｔ)
とすれば、観測系列Ｙ＝（y(1),・・・y(K)）に対応する特
徴ベクトル発生源系列Ｓ＝(ｓ(１),・・・,ｓ(ｔ),・・・,ｓ
(Ｔ))の集合Ａの要素数はＫ^T種類となる。ここで、Ｓ_k
＝(ｓ(１)＝ｋ,・・・,ｓ(Ｔ)＝ｋ)とおけば、Ｋ要素から
なる集合{Ｓ₁,…,Ｓ_K}はＡの部分集合である。この部分
集合をＢとするとき、本発明は、Ｓ∈Ｂとするものであ
る。

【００２５】図１は以上の考え方によるＨＭＭの模式図
である。４０１は図１９の３０１と同様なマルコフ連鎖
である。４０２は該マルコフ連鎖が何れの状態にあるか
によって入力を選択するスイッチであって、図１９の３
０２と同様のものである。４０３〜４０５は信号源切り
替えスイッチであって、状態ｉで定義されているＫ個の
ガウス情報源を切り替えるスイッチである。即ち、状態
ｉでは、平均ベクトルμ_i,k、分散共分散行列Σ_i,k
(ｋ＝１,・・・,Ｋ)のガウス情報源が存在し、前記信号切
り替えスイッチ４０３〜４０５により、ｃ₁,・・・,ｃ_Kの
値に応じてそれら情報源からのベクトルが選ばれる。こ
こに、ｃ_kは話者クラスｋと関連した量として定義さ
れ、例えば情報源切り替えスイッチ４０３〜４０５によ
って第ｋ番のガウス情報源が接続される確率あるいは、
話者クラスｋへの帰属度とすることが出来る。

【００２６】このように構成されたモデルλ^wにおける
特徴ベクトル系列Ｙの確率密度Ｐ(Ｙ|λ^w)は（数１４）
で与えられる。ここで、Ｓ_kはＸ，λ^wとは独立であると
すれば、（数１５）が成り立つ。π^w _iは状態ｉの初期確
率、ａ^w _ijは状態ｉから状態ｊへの遷移確率、ｃ_kは状態
ｉにおいて話者クラスｋに対応する特徴ベクトル発生源
ｇ_i,kが選ばれる確率(ｃ_kは各状態で共通で、ｃ₁＋・・・
＋ｃ_K＝１)、ｂ^w _i,k(ｙ(ｔ))は、特徴ベクトル発生源ｇ
_i,kにおけるｙ(ｔ)の発生確率密度である。このとき、
Ｓ_kの生起確率は、Ｐ(Ｓ_k)＝ｃ_k ^Tとなるが、ｃ_kはＸ，
λ^wとは独立に何等かの方法で事前に分かっているもの
とする。ｂ^w _i,k(ｙ(ｔ))として単一の正規分布を考える
ときは，ｂ^w _i,k(ｙ(ｔ))は（数１６）で与えられる。

【００２７】

【数１４】

【００２８】

【数１５】

【００２９】

【数１６】

【００３０】ＨＭＭにおける主たる問題は、（１）モデ
ルの作成法と、（２）モデルの入力特徴ベクトルに対す
る尤度の計算法である。この問題（１）は、具体的に
は、多数の訓練パターンから各単語音声に対応するモデ
ルのパラメータを推定することである。

【００３１】単語ｗに対するパラメータの推定は次のよ
うにして行われる。表記の簡単化のために、以下の説明
においては、λは単語ｗに対するモデルのパラメータの
集合であるとし、右肩のｗは省略する。

【００３２】上記問題（１）は、単語ｗの単語音声から
単語ｗに対応するモデルのパラメータを推定することで
あるが、これは、訓練パターンとして与えられたＹから
Ｐ(Ｙ|λ)を最大にするパラメータλを見いだすことで
ある。実際には、ｗに対する複数の音声から推定する
が、先ず、単一の音声から推定する場合を述べる。

【００３４】

【数１７】

【００３５】本発明において、モデルのパラメータの推
定にBaum-Welchの方法を適用するときは次のようにな
る。

【００３６】いま、（数１５）から（数１８）が成り立
つから（数１９）が得られる。これを用いて、各パラメ
ータの再推定式は次のように導かれる。

【００３７】

【数１８】

【００３８】

【数１９】

【００３９】（１）右辺第一項をＱ(π)とおき、これを
π_i'について最大化する。すなわち、右辺第一項は（数
２０）と書け、Lagrangeの未定乗数をηとし、（数２
０）をπ_i'で微分すれば、（数２１）が得られる。（数
２１）の両辺にπ_i'を掛けてｉ＝１,・・・,Ｊについて足
し合わせれば、（数２２）となり、（数２３）が得られ
る。

【００４０】

【数２０】

【００４１】

【数２１】

【００４２】

【数２２】

【００４３】

【数２３】

【００４４】（２）右辺第二項をＱ(ａ)とおき、これを
ａ_ij'について最大化する。すなわち、右辺第二項は
（数２４）と書け、Lagrangeの未定乗数をηとし、（数
２４）をａ_ij'で微分すれば、（数２５）が得られる。
（数２５）の両辺にａ_ij'を掛けて、ｊについて足し合
わせれば、（数２６）となり、（数２７）が得られる。

【００４５】

【数２４】

【００４６】

【数２５】

【００４７】

【数２６】

【００４８】

【数２７】

【００４９】（３）右辺第四項をＱ(μΣ)とおき、これ
をμ_i,k',Σ_i,k'について最大化する。右辺第四項は
（数２８）と書けるから（数２９）となる。故に（数３
０）が得られる。同様に（数３１）から（数３２）が得
られる。

【００５０】

【数２８】

【００５１】

【数２９】

【００５２】

【数３０】

【００５３】

【数３１】

【００５４】

【数３２】

【００５５】前掲の式に出て来る量γ，ξ，ζは次のよ
うにして求められる。

【００５６】（数３３）と定義すれば、（数３４）なる
漸化式が成り立つ。従って、λの初期値を与え、（数３
４）の漸化式の初期値を（数３５）として逐次計算すれ
ば、ｉ，ｔの種々の組合せに対するα_i(ｔ)、β_i(ｔ)が
順次求められる。ξ，ζ，γは（数３６）のように定義
され、前記求められたα，βを用いて計算することが出
来る。

【００５７】

【数３３】

【００５８】

【数３４】

【００５９】

【数３５】

【００６０】

【数３６】

【００６１】実際には、λを推定すべき訓練パターンは
複数ある。各々をｒ＝１,・・・,Ｒとし、第ｒの訓練パタ
ーンに関する量は右肩に(r)を付して記すことにする。
即ち、（数３７）を定義する。このとき、前記補助関数
Ｑ(λ,λ')に相当する関数Ｑ_R(λ,λ')は（数３８）の
ようになる。従って、第ｒの訓練パターンＹ^(r)に対す
る補助関数を（数３９）とおけば、（数４０）が導かれ
る。このとき、各々の再推定式は（数４１）のようにな
る。但し、ｚ^(r)＝１／Ｐ(Ｙ^(r)|λ)とおいている。Ｐ
(Ｙ^(r)|λ)は、必ず、本実施例のマルコフモデルが状態
１から始まり、状態Ｊ＋１で終わるものとすれば、（数
４２）により求められる。

【００６２】

【数３７】

【００６３】

【数３８】

【００６４】

【数３９】

【００６５】

【数４０】

【００６６】

【数４１】

【００６７】

【数４２】

【００６８】Ｙ^(r)に対するｃ^(r) _kは例えば次のように
して求められる。

【００６９】訓練パターン集合ｗ＝１,・・・,Ｗに含まれ
る話者をＡ₁,・・・,Ａ_Nとする。１）話者Ａ_nの発声した全ての単語、全てのフレームの
平均スペクトル（ベクトル）ｖ_n（ｎ＝１,・・・,Ｎ）を求
める。２）ｖ₁,・・・,ｖ_NをＫ個のグループにクラスタリング
し、クラスタｋ（＝１,・・・,Ｋ）の平均ベクトルｕ_kを求
める。クラスタｋを話者クラスｋとする。３）パターンＹ^(r)＝（ｙ^(r)(１),・・・,ｙ^(r)(Ｔ^(r))）
に対して、平均ベクトルを求める（数４３）。４）ｋ＝１,・・・,Ｋについてｃ^(r) _kを求める（数４
４）。

【００７０】

【数４３】

【００７１】

【数４４】

【００７２】ステップ２）におけるクラスタリングは、
種々の方法が考えられる。例えば、Ｌ-Ｂ-Ｇ法として知
られるベクトル量子化の方法などが可能である。また、
ファジィクラスタリング等の方法によりクラスタリング
して、ｃ^(r) _kをクラスｋに対するメンバーシップ値とす
ること等も考えられる。（数４４）は帰属度の算出法の
一例である。同式においてｄ(ｕ,ｖ)はベクトルｕとベ
クトルｖとの距離、Ｆ＞１はファジネスと呼ばれる。Ｆ
→１のときは、ｋ^＝argmin_k ｄ(ｙ^^(r),ｕ_k)とすると
き、ｃ^(r) _k^→１、ｃ^(r) _k→０（for ｋ≠ｋ^）であり、Ｆ
→∞のときは、ｃ^(r) _k＝１／Ｋ（for all k）となる。
言い換えれば、Ｆ→１のときは、ｙ^{^(r)}はそれに最も近
いクラスへの帰属度が１で最大で、他のクラスへの帰属
度は０となり、またファジネスは最小となり、他方Ｆ→
∞のときは、ｙ^{^(r)}は全てのクラスへの帰属度が等しく
１／Ｋとなり、ファジネスは最大となる。ｄ(ｕ,ｖ)は
ユークリッド距離あるいは重み付ユークリッド距離等が
用いられ得る。クラスタリングの方法自体は本願発明の
目的ではないので詳細は省略する。

【００７３】従って、パラメータの推定方法は次のステ
ップにより行われる。１）λの初期値の設定２）ｃ^(r) _kをｒ＝１,・・・,Ｒ、ｋ＝１,・・・,Ｋについて求
める。３）α，β，ξ，ζ，γ，ｚ等をｒ＝１,・・・,Ｒ、ｉ,ｊ
＝１,・・・,Ｊ＋１、ｔ＝１,・・・,Ｔ^(r)＋１について求め
る。４）λの推定 λ^＝{π^_i，ａ^_ij，μ^_i，Σ^_i} をｉ＝１,・・・,Ｊ、ｊ
＝１,・・・,Ｊ＋１について求める（数４１）。５）収束条件が満足されれば終了。そうでなければ、λ
^→λとして３）へ戻る。

【００７４】また、ｃ^(r) _kはｋに関して上位１≦ｎ≦Ｋ
まで考慮し、他は０とすることもできる。この場合は、
上位ｎに入るｋをｄ_nで表せば、上記α，β，ξ，ζ，
γ，ｚの計算におけるｋに関する総和は、ｄ₁,・・・,ｄ_n
について行うことになる。特に、ｎ＝１のときは、ｃ
^(r) _kがｋ＝ｋ^のとき最大になるとするとき、（数４
５）と簡略化することもできる。このときは、（数３
７）におけるα，βを算出する漸化式において、Σ_kc
^(r) _kb_i,k(y(t))は、（数４６）となる。

【００７５】

【数４５】

【００７６】

【数４６】

【００７７】次に、上述した問題（２）に付いて説明す
る。すなわち、このモデルを用いた認識方法について説
明する。（１）Forward-Backwardによる場合これは、いわゆる厳密解であって、Ｙのλに対する尤度
をＬ(Ｙ,λ)とおき、（数４７）で定義する場合であ
る。

【００７８】１−１１．ｋ＝１,・・・,ＫについてＹからｃ_kを決める２．ｗ＝１,・・・,Ｗについて、次のステップ３，４を実
行３．ｔ＝１,・・・,Ｔ，ｊ＝１,・・・,Ｊ＋１について漸化式
（数４８）を計算する。

【００７９】４．Ｙのモデルλ^wに対する尤度を記憶す
る（数４９）。

【００８０】５．認識結果は（数５０）で与えられる。

【００８１】

【数４７】

【００８２】

【数４８】

【００８３】

【数４９】

【００８４】

【数５０】

【００８５】１−２１．ｋ＝１,・・・,ＫについてＹから（数５１）を求め
る。

【００８６】２．ｗ＝１,・・・,Ｗについてステップ３，
４を実行する。

【００８７】３．ｔ＝１,・・・,Ｔ，ｊ＝１,・・・,Ｊ＋１に
ついてｋ＝ｄ₁,・・・,ｄ_nとして漸化式（数４８）を計算
する。

【００８８】４．Ｙのモデルλ^wに対する尤度を記憶す
る（数４９）。

【００８９】５．認識結果は（数５０）で与えられる。

【００９０】

【数５１】

【００９１】ここで、特にｎ＝１とすれば、次のように
なる。１−３１．ｋ＝１,・・・,ＫについてＹからｋ^＝ argmax
_k［ｃ_k］を求める。

【００９２】２．ｗ＝１,・・・,Ｗについてステップ３，
４を実行する。

【００９３】３．ｔ＝１,・・・,Ｔ，ｊ＝１,・・・,Ｊ＋１に
ついて（数５２）の漸化式を計算する。

【００９４】４．Ｙの、モデルλ^wに対する尤度を記憶
する（数５３）。

【００９５】５．認識結果は（数５４）で与えられる。

【００９６】

【数５２】

【００９７】

【数５３】

【００９８】

【数５４】

【００９９】（２）Viterbiによる場合この場合は、いわゆる近似解であって、Ｙのλに対する
尤度をＬ(Ｙ,λ)とおき、（数５５）で定義する場合で
ある。

【０１００】

【数５５】

【０１０１】２−１１．ｋ＝１,・・・,ＫについてＹからｃ_kを決める。

【０１０２】２．ｗ＝１,・・・,Ｗについてステップ３，
４を実行する。

【０１０３】３．ｔ＝１,・・・,Ｔ，ｊ＝１,・・・,Ｊ＋１に
ついて（数５６）の漸化式を計算する。

【０１０４】４．Ｙのモデルλ^wに対する尤度を記憶す
る（数５７）。

【０１０５】５．認識結果は（数５８）で与えられる。

【０１０６】

【数５６】

【０１０７】

【数５７】

【０１０８】

【数５８】

【０１０９】２−２１．ｋ＝１,・・・,ＫについてＹから（数５９）を求め
る。

【０１１０】２．ｗ＝１,・・・,Ｗについてステップ３，
４を実行する。

【０１１１】３．ｔ＝１,・・・,Ｔ，ｊ＝１,・・・,Ｊ＋１に
ついてｋ＝ｄ₁,・・・,ｄ_nとして漸化式（数５６）を計算
する。

【０１１２】４．Ｙのモデルλ^wに対する尤度を記憶す
る（数５７）。

【０１１３】５．認識結果は（数５８）で与えられる。

【０１１４】

【数５９】

【０１１５】ここで、特にｎ＝１とすれば、次のように
なる。

【０１１６】２−３１．ｋ＝１,・・・,ＫについてＹからｋ^＝ argmax
_k［ｃ_k］を求める。

【０１１７】２．ｗ＝１,・・・,Ｗについてステップ３，
４を実行する。

【０１１８】３．ｔ＝１,・・・,Ｔ，ｊ＝１,・・・,Ｊ＋１に
ついて（数６０）の漸化式を計算する。

【０１１９】４．Ｙの、モデルλ^wに対する尤度を記憶
する（数６１）。

【０１２０】５．認識結果は（数６２）で与えられる。

【０１２１】

【数６０】

【０１２２】

【数６１】

【０１２３】

【数６２】

【０１２４】本発明によるＨＭＭのパラメータの推定を
このViterbiアルゴリズムにより行うことももちろん可
能であって、その場合の推定式は次のようになる。

【０１２５】適当にλの初期値を定めて、Ｙ^(r)に対す
る最適の状態系列を求める。このとき、（数３７）にお
ける前記ξ,ζ,γを（数６３）のξ',ζ',γ'のように
書き換えることによって再推定式が得られる。

【０１２６】

【数６３】

【０１２７】ここで，δ(ｍ,ｎ)はいわゆるクロネッカ
ーのデルタであって，ｍ＝ｎのときはδ(ｍ,ｎ)＝１，
ｍ≠ｎのときはδ(ｍ,ｎ)＝０である。また、ｘ^
^(r)(１),・・・,ｘ^^(r)(Ｔ＋１)はこのようにして得られた
最適状態系列である。（数３７）のξ,ζ,γは状態系列
としてあらゆる可能性をその生起確率付きで考慮してい
るが，生起する状態系列をＸ^^(r)１つに限り，Ｘ^^(r)の
生起確率は１でその他の状態系列の生起確率は０である
とすれば，（数３７）のξ,ζ,γは（数６３）のξ',
ζ',γ'で表現される。このとき，各パラメータの再推
定式は（数６４）のようになる。ただし，ｎ^(r) _iは訓練
パターンｒの最適状態系列Ｘ^(r)における状態ｉの数で
あり，ｎ^(r) _ijは訓練パターンｒの最適状態系列Ｘ^(r)に
おける状態ｉから状態ｊへの遷移の回数、ｍ^(r) _iは状態
ｉに対応する観測特徴ベクトルｙ^(r)(ｔ)の総和、ｖ^(r)
_i,kは状態ｉ、話者クラスｋに対応する{ｙ^(r)(ｔ)−μ
_i,k}{ｙ^(r)(ｔ)−μ_i,k}^Tの総和である。

【０１２８】

【数６４】

【０１２９】以上のことから，Viterbi法によるパラメ
ータの推定は，次のステップによって可能である。１）λの初期値の設定２）ｃ^(r) _kをｒ＝１,・・・,Ｒ、ｋ＝１,・・・,Ｋについて求
める。３）ｒ＝１,・・・,Ｒ、ｉ,ｊ＝１,・・・,Ｊ＋１、ｔ＝１,・・
・,Ｔ^(r)＋１について漸化式（数５６）を計算する。４）ｒ＝１,・・・,Ｒ、ｉ,ｊ＝１,・・・,Ｊ＋１、ｔ＝１,・・
・,Ｔ^(r)＋１，ｋ＝１,・・・,Ｋについてｍ^(r) _i，
ｖ^(r) _i,k，ｎ^(r) _ij，ｎ^(r) _iを求める。５）λの推定（数６４）によってλ^＝{π^_i，ａ^_ij，μ^_i,k，Σ^
_i,k} をｉ＝１,・・・,Ｊ、ｊ＝１,・・・,Ｊ＋１，ｋ＝１,・・
・,Ｋについて求める。６）収束条件が満足されれば終了。そうでなければ、λ^
→λとして３）へ戻る。

【０１３０】また、ｃ^(r) _kはｋ＝ｋ^のとき最大になる
とするとき、（数５２）と簡略化することもできる。こ
のときは、漸化式（数５６）において（数４６）とな
る。

【０１３１】ステップ４）は次のように計算できる。

【０１３２】ステップ３）において（数５６）を計算す
るとき、新たなφ^(r) _j(ｔ)を計算する毎に同時に（数６
５）の値Ｇ^(r) _j(ｔ)，Ｂ^(r) _j(ｔ)を記憶する。ただし、
ｉ^は前記漸化式を満足するｉであって，ｊ＝１,・・・,
Ｊ，ｒ＝１,・・・,Ｒに対して，Ｂ^(r) _j(０)＝０である。

【０１３３】

【数６５】

【０１３４】この記憶された値Ｇ^(r) _j(ｔ)、Ｂ^(r) _j(ｔ)
から次のようにして、ステップ４）の諸量が計算でき
る。４−１）ｔ^＝Ｔ^(r)，ｉ^＝Ｊ４−２）ｔ＝ｔ^、ｉ＝ｉ^ ４−３）Ｂ^(r) _i(ｔ)＝０であれば終了。そうでなければ
以下を実行。４−４）ｉ^＝Ｇ^(r) _i(ｔ)，ｔ^＝Ｂ^(r) _i(ｔ) ４−５）ｒ＝１,・・・,Ｒについて（数６６）を計算して
ステップ４−２）に戻る。

【０１３５】

【数６６】

【０１３６】Viterbi法によるパラメータの推定におい
ても、Forward-Backward法の場合と同様に、ｃ^(r) _kをｋ
のすべてについて考慮する場合、上位ｎまでのｋについ
て考慮する場合、最大値を与えるｋについてのみ考慮す
る場合などは勿論可能である。即ち、前記ステップ３に
おける漸化式の計算において、ｋに関して総和をとる計
算がそれぞれに応じてｋ＝１,・・・,Ｋについて行う、ｋ
＝ｄ₁,・・・,ｄ_nについて行う、ｋ＝ｋ^＝ｄ₁の何れかに
ついて行うことになる。

【０１３７】以上の原理に基づく本発明の一実施例につ
いて説明する。

【０１３８】図２（ａ）はパラメータ推定装置のブロッ
ク図、同図（ｂ）はその要部のブロック図である。

【０１３９】５０１は訓練パターン記憶部であって、単
語ｗに対応する特徴ベクトル系列で表されたＲ通りのパ
ターンＹ⁽¹⁾,・・・,Ｙ^(R)が記憶されている。５０２はパ
ラメータ記憶部であって、パラメータ推定の開始に当た
っては初期値が、推定の途中にあっては中間結果が、最
終的には推定値が記憶される。５０３は話者クラス帰属
度算出部であって、各Ｙ^(r)の各話者クラスへの帰属度
を算出する。５０４はパラメータ推定部であって、訓練
パターン記憶部５０１とパラメータ記憶部５０２の内容
を読み出し、各々のパラメータの再推定値を計算する。
計算された再推定値はパラメータ記憶部５０２に記憶さ
れる。５０５は尤度算出部であって、ｍ回の反復計算の
結果得られるＹ⁽¹⁾・・・Ｙ^(R)のモデルに対する尤度Ｌ
(ｍ)を計算する。５０６は収束性判定部であって、Ｌ
(ｍ−１)に対するＬ(ｍ)の改善度等を尺度として収束し
たと見なすかどうかを決定する。例えば、適当に小さな
数εを予め定めておき、{Ｌ(ｍ)−Ｌ(ｍ−１)}/Ｌ(ｍ)
＜εとなった時点を以て収束したとすることが出来る。
収束していないと判定されたときは、パラメータ記憶部
５０２の更新されたパラメータを基に更に上記の再推定
計算が反復される。

【０１４０】図２（ｂ）は図２（ａ）のパラメータ推定
部５０４の第一の実施例の詳細ブロック図である。ｃ
^(r) _kはパターンＹ^(r)が話者クラスｋに属する帰属度で
ある。５０７は確率密度算出部であって、状態ｉにおけ
る特徴ベクトルｙ^(r)(ｔ)の確率密度ｂ_i(ｙ^(r)(ｔ))を
前記ｃ^(r) ₁,・・・,ｃ^(r) _Kとパラメータ記憶部５０２から
のパラメータ値を用いて計算する。５０８は中間累積尤
度算出部であって、前記α，β，ξ，ζ，γ，ｚを前記
確率密度ｂ_i(ｙ^(r)(ｔ))，パラメータ記憶部５０２から
のパラメータ値を用いて（数３７）に従って計算する。
５０９はパラメータ再推定値算出部であって、前記α，
β，ξ，ζ，γ，ｚから（数４１）に従ってパラメータ
λの再推定値λ^を計算する。

【０１４１】図３は図２における話者クラス帰属度算出
部５０３の第一の実施例の詳細ブロック図である。
（ａ）は入力時系列Ｙ^(r)の話者クラスｋへの帰属度ｃ
^(r) _kをｋ＝１，・・・,Ｋの全てについて求める場合であ
る。６０１は話者モデル記憶部であって、各話者クラス
に対応するモデルが記憶されている。（数４３）、（数
４４）によって帰属度を求める場合は、このモデルは各
話者クラスに含まれる訓練ベクトルの平均ベクトルとい
うことになる。６０２は帰属度算出部であって、ｋ＝
１,・・・,Ｋの全てにわたって、（数４４）に従ってｃ^(r)
_kを求めるものである。

【０１４２】図３（ｂ）は他の実施例であって、入力時
系列Ｙ^(r)の話者クラスｋへの帰属度ｃ^(r) _kをｋ＝１,・・
・,Ｋの中、上位ｎまでの話者クラスについてはｃ^(r) _kを
そのまま、もしくはその総和が１になるように正規化し
た値を採用し、他の話者クラスについては、ｃ^(r) _kを０
とおくものである。同図において、ｄ₁,・・・,ｄ_nは帰属
度が上位ｎに入る話者クラスの番号である。６０１、６
０２は同図（ａ）と同じものである。６０３はｎ近傍話
者クラス判定部であって、前記ｄ₁,・・・,ｄ_nを求めるも
のである。６０４はゲートであって、前記ｄ₁,・・・,ｄ_n
に対応するｋについてはｃ^(r) _kをそのまま、もしくはそ
の総和が１になるように正規化したものを通過させ、そ
れ以外のｋについては、帰属度０が出力されるようにな
すものである。ｎ近傍話者クラス判定部６０３において
は、ｃ^(r) _kの値を用いても勿論よいが、（数４４）を用
いるときは、ｄ(ｙ^{^(r)},ｕ_k)をｋ＝１,・・・,Ｋについて
比較し、その小さい方からｎ選んでも同じことである。
従って、帰属度算出部６０２における計算も、この場合
はｋの全てについて計算する必要はなく、ｄ(ｙ^{^(r)},ｕ
_k)の小さい方から選んだ前記ｎについて（数４４)を計
算し、他のｋについては、ｃ^(r) _k＝０とおけばよい。図
３（ｂ'）はその場合である。６０１は前記と同じもの
である。６０５は距離算出部であって、ｙ^{^(r)}とｕ₁,・・
・,ｕ_Kとの距離ｄ(ｙ^{^(r)},ｕ₁),・・・,ｄ(ｙ^{^(r)},ｕ_K)を計
算するものである。６０６はｎ近傍話者クラス判定部で
あって、ｄ(ｙ^{^(r)},ｕ₁),・・・,ｄ(ｙ^{^(r)},ｕ_K)の小さい
ものから順にｎ個選出し、それらに対応する話者クラス
番号ｄ₁,・・・,ｄ_nを出力する。６０７は帰属度算出部で
あって、ｋ＝ｄ₁,・・・,ｄ_nについてｃ^(r) _kを計算し、他
のｋについてはｃ^(r) _k＝０を出力するものである。この
とき、（数４４）においてｋ＝ｄ₁,・・・,ｄ_n以外の話者
クラスについては、１／ｄ(ｙ^^(r),ｕ_k)＝０とおくこと
によって、ｃ^(r) _kのｋについての総和を１に正規化した
計算が出来る。このときは、ｋ＝ｄ₁,・・・,ｄ_nについて
のみ（数４４）の計算をすればよいから、計算量の削減
も同時に可能である。

【０１４３】図３（ｃ）は更に他の実施例であって、入
力時系列Ｙ^(r)の話者クラスｋへの帰属度ｃ^(r) _kをｋ＝
１，・・・,Ｋの中、帰属度最大の話者クラスについてはｃ
^(r) _k＝１とし、他のクラスについては、ｃ^(r) _kを０とお
くものである。同図において、ｋ^{^}は帰属度が最大にな
る話者クラスの番号である。６０１、６０２は同図
（ａ）と同じものである。６０８は最近隣話者クラス判
定部であって、前記ｋ^{^}を求めるものである。６０９は
ゲートであって、前記ｋ^{^}に対応するｋについては１を
出力し、それ以外のｋについては、帰属度０が出力され
るようになすものである。最近隣話者クラス判定部６０
８においては、ｃ^(r) _kの値を用いても勿論よいが、（数
４４）を用いるときは、ｄ(ｙ^{^(r)},ｕ_k)をｋ＝１,・・・,
Ｋについて比較し、その最小のものを選んでも同じこと
である。従って、帰属度算出部６１１における計算も、
この場合はｋの全てについて計算する必要はなく、ｄ
(ｙ^{^(r)},ｕ_k)の最小値を与えるｋをｋ^{^}として求め、ｃ
^(r) _k^＝１、他のｋについてはｃ^(r) _k＝０とおけばよ
い。（ｃ'）はその場合である。６０１、６０５は前記
と同じものである。６１０は最近隣話者クラス判定部で
あって、ｄ(ｙ^{^(r)},ｕ₁),・・・,ｄ(ｙ^{^(r)},ｕ_K)の最小値
を見つけ、それに対応する話者クラス番号ｋ^{^}を出力す
る。６１１は帰属度算出部であって、ｃ^(r) _k^＝１、他
のｋについてはｃ^(r) _k＝０を出力するものである。

【０１４４】図４は図２の確率密度算出部５０７の第一
の実施例の詳細を示すブロック図である。７０１〜７０
３は各々の状態における各々のガウス情報源から特徴ベ
クトルｙ^(r)(ｔ)の出現する確率密度を計算するもので
ある。即ち、ｙ^(r)(ｔ)の状態ｉ、ガウス情報源ｋに対
する確率密度は、ｂ_i,k(ｙ^(r)(ｔ))である。７０４〜７
１２は乗算器であって、各ガウス情報源に対して計算さ
れた確率密度値に前記話者クラス帰属度ｃ^(r) ₁,・・・,ｃ
^(r) _Kを掛け算する。７１３〜７１５は加算器であって、
各状態毎に前記乗算器の出力の和をとる。例えば、状態
ｉの各加算器の出力には、ｂ_i,1(ｙ^(r)(ｔ)),・・・,ｂ_i,K
(ｙ^(r)(ｔ))の前記話者クラス帰属度ｃ^(r) ₁,・・・,ｃ^(r) _K
による荷重和ｂ_i(ｙ^(r)(ｔ))＝ｃ^(r) ₁ｂ_i,1(ｙ^(r)(ｔ))
＋・・・＋ｃ^(r) _Kｂ_i,K(ｙ^(r)(ｔ))が得られる。

【０１４５】図５は図２の確率密度算出部５０７の第二
の実施例の詳細を示すブロック図である。図５の８０１
〜８０６はそれぞれ図４で説明した７０１〜７０３，７
１３〜７１５と同様の動作をする。ただし、８０１〜８
０３はｃ^(r) _k＝０以外のｋに関してのみｃ^(r) _kｂ_i,k(ｙ
^(r)(ｔ))が計算され、他のｂ_i,k(ｙ^(r)(ｔ))は０とされ
るものである。特に、ｃ^(r) _kが最大になるものを帰属度
１とし、他は帰属度０とする前記方式の場合は、ｂ_i(ｙ
^(r)(ｔ))＝ｂ_i,k^(ｙ^(r)(ｔ))となる。このようにする
ことの利点は、状態ｉにおいて、ｂ_i,k(ｙ^(r)(ｔ))の計
算をｋ＝１,・・・,Ｋの全てについて行う必要はなく、ｂ
_i,k^(ｙ^(r)(ｔ))についてのみ行えば良いということで
ある。

【０１４６】図６は図２（ａ）のパラメータ推定部５０
４の第二の実施例の詳細ブロック図である。９０１は確
率密度算出部であって、図２（ｂ）の５０７と同様のも
のである。９０２は漸化式計算部であって、前記ξ'，
ζ'，γ'，ｎ，ｍ，ｖを前記確率密度ｂ_i(ｙ^(r)(ｔ))，
パラメータ記憶部からのパラメータ値λを用いて（数５
６）、（数６３）、（数６５）、（数６６）等に従って
計算する。９０３はパラメータ再推定値算出部であっ
て、前記ξ'，ζ'，γ'，ｎ，ｍ，ｖから（数６４）に
従ってパラメータλの再推定値λ^を計算する。

【０１４７】図７は図２（ａ）の尤度算出部５０５の一
実施例であって、同図（ａ）は（数６７）あるいはその
対数値などを計算する場合である。１００１は確率密度
算出部であって、図４あるいは図５に示されるものが用
いられ得る。１００２は累積尤度算出部であって、前記
Ｌに相当する値を計算する。例えば、既に説明したよう
に、Ｐ(Ｙ^(r)|λ^)＝α^(r) _J+1(Ｔ^(r)＋１)とすることが
出来る。図７（ｂ）はＬを（数６８）として算出するも
のである。１００３は確率密度算出部であって、前記１
００１と全く同様のものである。１００４は漸化式計算
部であって、図６の漸化式計算部９０２と同様な操作を
行い、例えば、Ｌ＝φ⁽¹⁾ _J+1(Ｔ⁽¹⁾＋１)＋・・・＋φ^(R)
_J+1(Ｔ^(R)＋１)を出力する。ここにφ^(r) _J+1(Ｔ^(r)＋
１)は（数６９）に相当する。

【０１４８】

【数６７】

【０１４９】

【数６８】

【０１５０】

【数６９】

【０１５１】図８は以上のようにして作成されたモデル
を用いて、未知入力音声信号の認識を行う音声認識装置
の一実施例である。１１０１は音声信号の入力端子、１
１０２は特徴抽出部、１１０３はモデル記憶部、１１０
４は尤度算出部、１１０５は最大尤度判定部、１１０６
は話者クラス帰属度算出部であって、１１０１〜１１０
５はそれぞれ図１７の１０１〜１０５に準じた動作をす
る。１１０６は図２の５０３に準じた動作をする。モデ
ル記憶部１１０３の図１７の１０３との相違は、パラメ
ータλ^wは話者クラス毎のものを持つことである。即
ち、λ^w＝{λ^w ₁,・・・,λ^w _K}。尤度算出部１１０４は図１
７で説明したものを用いることが出来るが、この場合は
未知入力Ｙについて、ｗ＝１,・・・,Ｗのλ^wとの間で計算
することになる。

【０１５２】図９は上記尤度算出部１１０４の一実施例
である。確率密度算出部ｗは、カテゴリｗに対するもの
であって、図４、図５で説明したものが用いられる。即
ち、本実施例では、図４あるいは図５で説明した確率密
度算出部がカテゴリｗ毎に設けられているものである。
累積尤度算出部１〜Ｗは、前記確率密度算出部１〜Ｗの
出力から各々の認識カテゴリのモデルの入力音声Ｙに対
する尤度を計算するものである。ｃ₁,・・・,ｃ_KはＹの各
話者クラスに対する帰属度である。前記累積尤度算出部
１２０４〜１２０６における累積尤度は、前記Forward-
Backward法あるいはViterbi法によって計算することが
出来る。この場合も、ｃ₁,・・・,ｃ_Kとしてｋ＝１,・・・,Ｋ
のすべてについて計算する場合，帰属度の上位ｎまでに
ついてｃ_kを求め、他を０として計算する場合、ｃ_kが最
大となるｋについてのみｃ_kを用い、他は０として計算
するなど前記方法の何れかが用いられ得る。

【０１５３】その他近似的な方法として図１０〜図１５
等の方法も可能である。

【０１５４】図１０は尤度算出部１１０４の他の実施例
であって、未知入力信号Ｙとモデルλ^wの照合を、話者
クラスｋ＝１,・・・,Ｋ毎に行い、話者クラスｋにおける
Ｙとλ^w _kとの照合結果である話者別・認識カテゴリ別尤
度をＬ^w _kとするとき、Ｙの各話者クラスへの帰属度に関
する荷重和を掛算器１３０５〜１３０８、加算器１３０
９〜１３１０で行い、得られたものをＹのλ^wに対する
尤度とするものである。ここで前記荷重としては、話者
クラス帰属度算出部１１０６で計算された帰属度そのも
の、あるいは、話者クラスｋに対する荷重をそれに関連
した値として変換したものを用いることが出来る（重み
変換部１３１１）。例えば、Ｌ^w _k＝Ｐ(Ｙ|ｋ,λ^w _k)、Ｙ
のフレーム数をＴとするとき、ｅ_k＝ｃ_k ^Tを荷重とすれ
ば、確率密度関数ｂ_i,k(ｙ(ｔ))に重みｃ_kを掛けた図７
で説明した場合に準じたものとなる（この場合は照合す
る話者クラス毎に状態系列が異なり、全く同じものには
ならない）。

【０１５５】図１１は尤度算出部１１０４の他の実施例
であって、図１０における加算器１３０９〜１３１０を
省き、最大尤度判定部１１０５で直接最大尤度を示す認
識カテゴリを見出すものである。話者別・認識カテゴリ
別尤度算出部１４０１〜１４０４、重み変換部１４０９
は図１０の１３０１〜１３０４、１３１１と同様のもの
である。

【０１５６】図１２は更に他の実施例であって、１５０
１〜１５０４は図１０、図１１における１３０１〜１３
０３、１４０１〜１４０３と同様な計算を行うものであ
るが、帰属度が最大から第ｎ位になる話者クラスのみ計
算し、他は０を出力するものである。１５０５〜１５１
０、１５１１、１１０５は図１０における１３０５〜１
３１０、１３１１、１１０５と同様のものである。この
場合はｋの全ての値に対して話者別尤度を計算する必要
はなく、帰属度が最大から第ｎ位になる話者クラスのみ
計算すれば良い。

【０１５７】図１３は更に他の実施例であって、図１２
における加算器１５０９〜１５１０を省き、最大尤度判
定部１１０５を直接乗算器１５０５〜１５０８に接続し
たものである。図１３における１６０１〜１６０８、１
６０９、１１０５は図１２における１５０１〜１５０
８、１５１１、１１０５と同じものである。この場合も
ｋの全ての値に対して話者別尤度を計算する必要はな
く、帰属度が最大から第ｎ位になる話者クラスのみ計算
すれば良い。

【０１５８】図１４は更に他の実施例であって、図１３
において乗算器１６０５〜１６０８を省略したものであ
って、重み付けられることなしに、帰属度が最大から第
ｎ位になる話者クラスについてのみ話者別尤度が加算器
１５０９〜１５１０で加算されることになる。図１４に
おける１７０１〜１７０４、１７０９、１７１０、１１
０５は図１２における１５０１〜１５０４、１５０９、
１５１０、１１０５と同じものである。

【０１５９】図１５は更に他の実施例で、話者別・認識
カテゴリ別に求められた尤度の中で最大のものを検出
し、それを与える認識カテゴリを認識結果と判定するも
のである。図１５における１８０１〜１８０４、１１０
５は図１０の１３０１〜１３０４、１１０５と同じもの
である。

【０１６０】図１６は更に他の実施例であって、ぞれぞ
れの認識カテゴリに対して、尤度の上位第ｎ位の和をＹ
のその認識カテゴリに対する尤度として、各認識カテゴ
リにおけるその和を比較し、その最大のものを検出し、
その最大値を与える認識カテゴリを認識結果と判定する
ものである。図１６における１９０１〜１９０４、１９
０９、１９１０、１１０５は図１０における１３０１〜
１３０４、１３０９、１３１０、１１０５と同じもので
ある。

【０１６１】なお、本発明の各部、手段は、コンピュー
タを用いてソフトウェア的に実現し、あるいはそれら各
機能を有する専用のハード回路を用いて実現する事が出
来る。

【０１６２】

【発明の効果】以上述べたところから明らかなように、
本発明は、１,…,Ｋに分類された話者クラスに対し、状
態毎に前記話者クラスに対応した確率分布をもつＫ個の
ランダムベクトル発生源を有する隠れマルコフモデルを
用い、未知入力音声に対し、話者性を考慮する構成とし
たので、話者間の混同を避けた音声認識が可能となる長
所を有する。

【図面の簡単な説明】

【図１】本発明による隠れマルコフモデルによる情報発
生モデルの一実施例を示す図である。

【図２】本発明による隠れマルコフモデルのパラメータ
推定装置の一実施例を示すブロック図である。

【図３】図２の話者クラス帰属度算出部の一実施例の詳
細説明図である。

【図４】図２の確率密度算出部の一実施例の詳細説明図
である。

【図５】図２の確率密度算出部の他の実施例の詳細説明
図である。

【図６】図２のパラメータ推定部の一実施例の詳細説明
図である。

【図７】図２の尤度算出部の一実施例の詳細説明図であ
る。

【図８】音声認識装置に本発明が適用された実施例を示
すブロック図である。

【図９】図８の尤度算出部の一実施例の詳細説明図であ
る。

【図１０】図８の尤度算出部の他の実施例の詳細説明図
である。

【図１１】図８の尤度算出部の他の実施例の詳細説明図
である。

【図１２】図８の尤度算出部の他の実施例の詳細説明図
である。

【図１３】図８の尤度算出部の他の実施例の詳細説明図
である。

【図１４】図８の尤度算出部の他の実施例の詳細説明図
である。

【図１５】図８の尤度算出部の他の実施例の詳細説明図
である。

【図１６】図８の尤度算出部の他の実施例の詳細説明図
である。

【図１７】隠れマルコフモデルを用いた音声認識装置の
従来例のブロック図である。

【図１８】隠れマルコフモデルの状態遷移図である。

【図１９】従来の隠れマルコフモデルによる情報発生モ
デル図である。

【符号の説明】

５０２パラメータ記憶部５０３話者クラス帰属度算出部５０４パラメータ推定部１００３モデル記憶部１００４尤度算出部１００６話者クラス帰属度算出部１１０３モデル記憶部１１０４尤度算出部１１０５最大尤度判定部１１０６話者クラス帰属度算出部

Claims

【特許請求の範囲】

【請求項１】時点ｔにおける観測ベクトルをｙ(ｔ)とす
るとき、観測時系列信号Ｙ＝｛ｙ(ｔ)｝がクラス分けさ
れるべき集合群｛Ｓ_k｝（ｋ＝１,・・・，Ｋ）に対し、複
数個の状態を有する隠れマルコフモデルの、それぞれの
状態の初期確率と、それぞれの状態間の遷移確率と、前
記集合Ｓ_k，状態ｊに対する観測ベクトルｙ(ｔ)の条件
付確率密度ｂ_jk(ｙ(ｔ))を定めるパラメータとを記憶し
ている隠れマルコフモデル記憶手段を備えたことを特徴
とする時系列信号処理装置。
【請求項２】請求項１記載の隠れマルコフモデル記憶手
段と、同項記載の観測時系列Ｙの集合群｛Ｓ_k｝のそれ
ぞれの集合に対する帰属度｛ｃ_k｝を求める帰属度算出
手段と、前記モデルの状態ｊにおける前記観測ベクトル
ｙ(ｔ)の発生度合ｂ_j(ｙ(ｔ))を請求項１記載の条件付
確率密度ｂ_jk(ｙ(ｔ))と前記帰属度｛ｃ_k｝に基づいて
算出するベクトル発生度合算出手段と、前記隠れマルコ
フモデル記憶手段に記憶されている各状態の初期確率
と、それぞれの状態間の遷移確率と、前記ｂ_j(ｙ(ｔ))
とに基づいて前記観測時系列信号Ｙの発生度合を算出す
る時系列信号発生度合算出手段とを備えたことを特徴と
する時系列信号処理装置。
【請求項３】時系列信号発生度合算出手段は、状態系列
をＸ＝｛ｘ(ｔ)｝，状態ｉの初期確率をπ_i，状態ｉか
ら状態ｊへの遷移確率をａ_ijとするとき、【数１】または【数２】または【数３】を算出することを特徴とする請求項２記載の時系列信号
処理装置。
【請求項４】請求項１記載の隠れマルコフモデル記憶手
段と、同項記載の観測時系列信号Ｙの集合群｛Ｓ_k｝の
それぞれの集合に対する帰属度｛ｃ_k｝を求める帰属度
算出手段と、同項記載の条件付確率密度ｂ_jk(ｙ(ｔ))を
算出するクラス別ベクトル発生度合算出手段と、前記隠
れマルコフモデル記憶手段に記憶されている各状態の初
期確率、それぞれの状態間の遷移確率及び、前記条件付
確率密度ｂ_jk(ｙ(ｔ))に基づいて前記集合｛Ｓ_k｝の条
件下で前記観測時系列信号Ｙの発生度合｛Ｌ_k｝を算出
するクラス別時系列信号発生度合算出手段と、前記帰属
度｛ｃ_k｝と前記発生度合｛Ｌ_k｝から、もしくは前記発
生度合｛Ｌ_k｝から、前記観測時系列信号Ｙの前記隠れ
マルコフモデルからの発生度合を算出する時系列信号発
生度合算出手段とを備えたことを特徴とする時系列信号
処理装置。
【請求項５】クラス別時系列信号発生度合算出手段は、
状態系列をＸ＝｛ｘ(１)｝，状態ｉの初期確率をπ_i，
状態ｉから状態ｊへの遷移確率をａ_ijとするとき、【数４】または【数５】または【数６】を算出することを特徴とする請求項４記載の時系列信号
処理装置。
【請求項６】請求項１記載の隠れマルコフモデル記憶手
段と、請求項２記載の帰属度算出手段と、請求項２記載
のベクトル発生度合算出手段と、前記観測時系列信号Ｙ
の前記隠れマルコフモデルからの発生度合を算出する時
系列信号発生度合算出手段と、前記隠れマルコフモデル
のパラメータを推定するパラメータ推定手段とを備え、
該パラメータ推定手段は、複数の訓練パターンＹ⁽¹⁾,・・
・,Ｙ^(R)に対し、それぞれのパターンに対する時系列信
号発生度合を（数１）あるいは（数２）で計算し、それ
らの積を最大化すべく前記隠れマルコフモデル記憶手段
に記憶されているパラメータの更新を所定の条件が満足
されるまで繰り返すことを特徴とする時系列信号処理装
置。
【請求項７】請求項１記載の隠れマルコフモデル記憶手
段と、請求項２記載の帰属度算出手段と、請求項２記載
のベクトル発生度合算出手段と、前記観測時系列信号Ｙ
の前記隠れマルコフモデルからの発生度合を算出する時
系列信号発生度合算出手段と、前記隠れマルコフモデル
のパラメータを推定するパラメータ推定手段とを備え、
該パラメータ推定手段は、複数の訓練パターンＹ⁽¹⁾,・・
・,Ｙ^(R)に対し、それぞれのパターンに対する時系列信
号発生度合を（数３）で計算し、それらの和を最大化す
べく前記隠れマルコフモデル記憶手段に記憶されている
パラメータの更新を所定の条件が満足されるまで繰り返
すことを特徴とする時系列信号処理装置。
【請求項８】認識すべきカテゴリｗ＝１,・・・,Ｗのそれ
ぞれに対応する請求項１記載の隠れマルコフモデル記憶
手段と、同項記載の前記観測時系列信号Ｙの集合群｛Ｓ
_k｝のそれぞれの集合に対する帰属度｛ｃ_k｝を求める帰
属度算出手段と、前記カテゴリｗに対応する隠れマルコ
フモデルに対する請求項１記載の条件付確率密度ｂ
^w _jk(ｙ(ｔ))と前記帰属度から前記カテゴリｗに対応す
る隠れマルコフモデルの状態ｊにおける前記ベクトルｙ
(ｔ)の発生度合ｂ^w _j(ｙ(ｔ))を算出するベクトル発生度
合算出手段と、前記隠れマルコフモデル記憶手段に記憶
されている各状態の初期確率と、それぞれの状態間の遷
移確率と、前記発生度合ｂ^w _j(ｙ(ｔ))とから前記カテゴ
リｗ＝１,・・・,Ｗの各々の隠れマルコフモデルから前記
観測時系列信号Ｙの発生する度合を算出する請求項２記
載の時系列信号発生度合算出手段と、該時系列信号発生
度合算出手段の前記カテゴリｗに対応する出力の中でそ
の最大値を与える前記カテゴリｗを見出す最大尤度判定
手段とを備え、該カテゴリｗを認識結果とすることを特
徴とする時系列信号処理装置。
【請求項９】認識すべきカテゴリｗ＝１,・・・,Ｗのそれ
ぞれに対応する請求項１記載の隠れマルコフモデル記憶
手段と、同項記載の前記観測時系列信号Ｙの集合群｛Ｓ
_k｝のそれぞれの集合に対する帰属度｛ｃ_k｝を求める帰
属度算出手段と、前記カテゴリｗに対応する隠れマルコ
フモデルに対する請求項１記載の条件付確率密度ｂ
^w _jk(ｙ(ｔ))と、前記隠れマルコフモデル記憶手段に記
憶されている各状態の初期確率と、それぞれの状態間の
遷移確率と、前記発生度合ｂ^w _j(ｙ(ｔ))とから前記カテ
ゴリｗ＝１,・・・,Ｗの各々の隠れマルコフモデルからＹ
∈Ｓ_kの条件下で前記観測時系列信号Ｙの発生するクラ
ス別時系列信号発生度合Ｌ^w _kを算出する請求項４記載の
クラス別時系列信号発生度合算出手段と、該クラス別時
系列信号発生度合｛Ｌ^w _k｝と前記帰属度｛ｃ_k｝とか
ら、もしくは前記クラス別時系列信号発生度合｛Ｌ^w _k｝
から前記カテゴリｗ＝１,・・・,Ｗの各々の隠れマルコフ
モデルから前記観測時系列信号Ｙの発生する度合を算出
する請求項４記載の時系列信号発生度合算出手段と、該
時系列信号発生度合算出手段の前記カテゴリｗに対応す
る出力の中でその最大値を与える前記カテゴリｗを見出
す最大尤度判定手段とを備え、該カテゴリｗを認識結果
とすることを特徴とする時系列信号処理装置。
【請求項１０】観測時系列信号Ｙがクラス分けされるべ
き集合群｛Ｓ_k｝は、それぞれ特徴の類似した話者集合
であることを特徴とする、請求項１〜９のいずれかの項
記載の時系列信号処理装置。