JP2983364B2

JP2983364B2 - 隠れマルコフモデルと音声信号との類似度計算方法

Info

Publication number: JP2983364B2
Application number: JP4010077A
Authority: JP
Inventors: 敬三木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1992-01-23
Filing date: 1992-01-23
Publication date: 1999-11-29
Anticipated expiration: 2014-11-29
Also published as: JPH05197388A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は隠れマルコフモデルを
用いる音声認識方法において、隠れマルコフモデルと音
声信号との類似度を計算する方法に関する。

【０００２】

【従来の技術】隠れマルコフモデル（ＨｉｄｄｅｎＭ
ａｒｋｏｖＭｏｄｅｌ、以下ＨＭＭと呼ぶ）は、その
統計的性質から音声パタンのような発声速度の変化に伴
う時間変動、或いは発声の個人差や調音結合などの揺ら
ぎを含むパタンを適切に表現出来ることから、音声認識
の分野において近年広く用いられている。このＨＭＭを
用いて音声を認識する方法、即ちＨＭＭ音声認識方法と
は、音声を確率的な遷移ネットワ−クと見做して認識処
理を行うものである。

【０００３】ＨＭＭは図２に示すように幾つかの状態Ｓ
_i ( 図ではＳ₀ 、Ｓ₁ 、Ｓ₂ 、Ｓ₃）とそれらの状態間
の遷移を表す弧で表現される。各弧には状態Ｓ_i からＳ
_j に遷移する際の遷移確率Ａ_ijとシンボルＶ_k を出力す
る確率Ｂ_ij(k) がパラメ−タとして与えられている。

【０００４】ＨＭＭは初期状態と呼ばれる状態（図２の
Ｓ₀ ）から遷移を開始して、最終状態と呼ばれる状態
（図２のＳ₃ ）に到達するまで弧を通って遷移を繰り返
し、様々なシンボル系列及びそのシンボル系列を出力す
る確率が得られる。

【０００５】ＨＭＭが出力するシンボルは、例えば下記
の文献１に見られるような音声スペクトルをベクトル量
子化したコ−ド番号の場合もあれば、下記の文献２のよ
うに音声スペクトルそのものをシンボルと見立てる場合
もある。

【０００６】文献１：“アンイントロダクションツ
ウジアプリケイションオブザセオリイオブ
プロバビリスティックファンクションオブアマ
ルコフプロセスツウオウトマティックスピイチ
レコグニション ”（“ＡｎＩｎｔｒｏｄｕｃｔｉ
ｏｎｔｏｔｈｅＡｐｐｌｉｃａｔｉｏｎｏｆｔ
ｈｅｔｈｅｏｒｙｏｆＰｒｏｂａｂｉｌｉｓｔｉ
ｃＦｕｎｃｔｉｏｎｏｆａＭａｒｋｏｖＰｒｏ
ｃｅｓｓｔｏＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲ
ｅｃｏｇｎｉｔｉｏｎ ”，ＴｈｅＢｅｌｌＳｙｓ
ｔｅｍＴｅｃｈｎｉｃａｌＪｏｕｒｎａｌ，Ｖｏ
ｌ．６２，Ｎｏ．４，Ａｐｌｉｌ１９８３ｐｐ．１
０３５〜１０７４Ｓ．Ｅ．Ｌｅｖｉｎｓｏｎ，Ｌ．Ｒ．
Ｒａｂｉｎｅｒ，Ｍ．Ｍ．Ｓｏｎｄｈｉ）

【０００７】文献２：“レコグニションオブアイソ
レイテッドディジッツユウジングヒドゥンマル
コフモデルズウィズコンティニュアスミクスチ
ュアデンシテイズ ”（“Ｒｅｃｏｇｎｉｔｉｏｎｏ
ｆｉｓｏｌａｔｅｄＤｉｇｉｔｓＵｓｉｎｇＨｉ
ｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓｗｉｔｈＣｏ
ｎｔｉｎｕｏｕｓＭｉｘｔｕｒｅＤｅｎｓｉｔｉｅ
ｓ”，Ｖｏｌ．６４，Ｎｏ．６，Ｊｕｌｙ−Ａｕｇｕｓ
ｔ１９８５ｐｐ．１２１１〜１２３４，Ｌ．Ｒ．
Ｌａｂｉｎｅｒ，Ｂ．−Ｈ．ｊｕａｎｇ，Ｓ．Ｅ．Ｌ
ｅｖｉｎｓｏｎ，ａｎｄＭ．Ｍ．Ｓｏｎｄｈｉ”）

【０００８】文献１に記載される方法では、入力された
音声信号はスペクトル特徴系列に変換され、更に、ベク
トル量子化の手法によりコ−ド番号系列に変換された
後、予め設定された認識対象の音声を表現したＨＭＭと
の尤度が計算される。

【０００９】通常この場合のＨＭＭは離散確率分布ＨＭ
Ｍと呼ばれており、その主要なパラメ−タは状態遷移確
率と各状態に対するコ−ドの出現確率の２つである。こ
の離散確率分布ＨＭＭでは、ある状態でのコ−ドの出現
確率密度関数をＢ（ｘ）とするとｘは離散化されたコ−
ド番号となるので、Ｂ（ｘ）を記述するにはｘの各番号
に対する出現確率の値が設定されたテ−ブルを用意すれ
ばよいことになる。従って、コ−ドの出現確率密度関数
の記述は正確に行える。

【００１０】しかしながら、ｘを離散化する際の誤差、
即ち入力された音声信号の生のスペクトルとコ−ドの表
しているスペクトルとの差（量子化誤差）が生じ、認識
率が低下する原因となっていた。

【００１１】また、文献２に示される方法では、このよ
うな問題点を解決するために、スペクトルの量子化を行
わず、ある状態でのシンボルｘの出現確率密度関数Ｂ
（ｘ）のｘをコード番号では無く直接スペクトルを扱う
ようにしたものである。従って、Ｂ（ｘ）は連続確率密
度分布になる。Ｂ（ｘ）の真の関数型を求めるのは実際
上不可能なので、通常Ｂ（ｘ）として数学的取扱が簡単
でかつ表現能力が高い多次元正規分布がよく用いられ
る。

【００１２】しかしながら、一般に、ある状態遷移にお
けるシンボルの出現分布は一つの正規分布で近似できな
い場合があり、複数個の連続分布の和（混合分布）で近
似することがよく行われる。即ち、スペクトルを直接取
り扱うような場合には、混合連続確率密度分布をもつＨ
ＭＭが用いられる。

【００１３】

【発明が解決しようとする課題】しかしながら、音声信
号から求めたスペクトル特徴系列と、前述の混合連続確
率分布密度を持つＨＭＭとの尤度を求めるのは膨大な計
算量を必要とし、実用的な方法とはいえない。

【００１４】この発明の目的は、混合多次元正規分布に
よる連続確率密度分布をもつＨＭＭと音声信号から抽出
されたスペクトル特徴系列との尤度算出時の演算量を、
認識精度を低下させることなく大幅に低減することがで
きる、隠れマルコフモデルと音声信号との類似度計算方
法を提供することにある。

【００１５】

【課題を解決するための手段】この発明は前記課題を解
決するために、混合多次元正規分布による連続確率密度
分布ｂ_ij(x) を状態Ｓ_i から状態Ｓ_j に遷移する際の音
声の特徴ベクトルｘの出現確率とするＨＭＭを用いる音
声認識方法に於いて、(a) 入力音声から特徴ベクトル系
列ｘ₁ ，ｘ₂ ，・・・，ｘ_t ，・・・，ｘ_Tを求める処
理と、(b) 前記連続確率密度分布ｂ_ij(x_t) のｍ番目の
正規分布Ｎ(μ_ijm ，ρ_ijm )の確率密度関数であるｂ
_ijm(x_t) を、ベクトルｘ_t の次元ｐと共分散行列ρ_ijm
と、平均ベクトルμ_ijm 及びρ_ijm の逆行列（ρ_ijm )
^-1に基づいて計算されるマハラノビスの汎距離Ｄ_ijm と
を用いてｂ_ijm(x_t) ＝ (2π)^-p/2・｜ρ_ijm ｜^-1/2・ｅｘｐ（−Ｄ² _ijm ／２）と定義し、更に前記連続確率密度分布ｂ_ij(x_t) を、分
岐確率λ_ijm と状態Ｓ_iから状態Ｓ_j に遷移する際の連
続確率密度分布ｂ_ij(x) の混合数Ｍ(i,j) とを用いて、と定式化し、ｂ_ij(x_t) の自然対数値Ｂ_ij(x_t) （＝ln
(ｂ_ij(x_t))）を、Ｃ_ijm ＝ln［(2π)^-p/2・｜ρ_ijm ｜^-1/2］＋ ln（λ_ijm ) として求める処理と、(c) 当該ＨＭＭにおける状態Ｓ_i
から状態Ｓ_j に遷移する際の遷移確率ａ_ijの自然対数値
Ａ_ij（＝ln( ａ_ij) ）と前記Ｂ_ij(x_t) とを用いてビタ
ビアルゴリズムにより、当該ＨＭＭにおける特徴ベクト
ル系列ｘ₁ ，ｘ₂ ，・・・，ｘ_t ，・・・，ｘ_T の対数
出現確率lnＰ（ｘ₁ ，ｘ₂ ，・・・，ｘ_t ，・・・，ｘ
_T ）を求めることにより、当該ＨＭＭと音声信号の特徴
ベクトル系列ｘ₁ ，ｘ₂ ，・・・，ｘ_t ，・・・，ｘ_T
との尤度を算出することを特徴とする。

【００１６】

【作用】混合多次元正規分布による連続確率密度分布を
持つＨＭＭと音声信号のスペクトル特徴系列との尤度算
出時の演算量低減の原理を以下で説明する。

【００１７】ＨＭＭは次の６つのパラメ−タ群で定義さ
れる。Ｓ_i ：状態の集合 (i=1,2,3,・・・,I) ｘ：出力シンボルの集合ａ_ij ：状態Ｓ_i から状態Ｓ_j への遷移確率 (i,j=1,2,3,・・・,I) ｂ_ij(ｘ）：状態Ｓ_i から状態Ｓ_j への遷移時にシンボルｘを出力する確率 (i,j=1,2,3,・・・,I) φ_i ：初期状態がＳ_i である確率 (i=1,2,3,・・・,I) Ｆ：最終状態の集合

【００１８】連続出力分布型のＨＭＭでは出力シンボル
は音声の特徴ベクトルｘそのものであり、シンボルｘ
（即ち特徴ベクトルｘ）を出力する確率ｂ_ij(ｘ)として
は混合多次元正規分布による連続確率密度分布を用い
る。

【００１９】混合多次元正規分布による連続確率密度分
布ｂ_ij(ｘ)のｍ番目の正規分布Ｎ(μ_ijm ，ρ_ijm )の確
率密度関数ｂ_ijm(ｘ)は、次のように表される。

【００２０】ｂ_ijm(ｘ) ＝ (2π)^-p/2 ・｜ρ_ijm ｜^-1/2 ・exp(−Ｄ² _ijm ／２) (1) Ｄ² _ijm ＝ (ｘ−μ_ijm )’・ ρ_ijm ^-1 ・(ｘ−μ_ijm ) (2)

【００２１】但しｐはベクトルｘの次元を表し、（ｘ−
μ_ijm ）’はベクトル（ｘ−μ_ijm）の転置を意味す
る。また、ｂ_ijm(ｘ)は分岐密度と呼ばれ、Ｄはマハラ
ノビスの汎距離と呼ばれるものである。

【００２２】更に、連続確率密度分布ｂ_ij(ｘ)は分岐密
度ｂ_ijm(ｘ)とｍ番目の分布の出現確率を表す分岐確率
λ_ijm とを用いて、次式（３）のように表される。

【００２３】尚、Ｍ(i,j) は混合数であり、λ_ijm につ
いては以下の条件が成り立つ。

【００２４】シンボル系列、即ち特徴ベクトルｘ₁ ，ｘ
₂ ，・・・，ｘ_T が与えられた場合、ＨＭＭからの出現確
率Ｐ（ｘ₁ ，ｘ₂ ，・・・，ｘ_T ）（単に出現確率Ｐと記
述する場合もある）を近似的に算出する方法としてビタ
ビ（Ｖｉｔｅｒｂｉ）アルゴリズムと呼ばれる方法が適
用できる。以下ビタビアルゴリズムによる出現確率Ｐの
計算手順を述べる。

【００２５】＜記号の定義＞ｘ_t ：特徴ベクトル系列 (t=1,2,3,・・・,T) α_it ：前向き確率（初期状態から遷移を開始し、特
徴ベクトル系列ｘ₁ ，ｘ₂ ，・・・，ｘ_t を生成して状態
Ｓ_i に至る確率）

【００２６】前向き確率α_itを次に示す漸化式（５），
（６）により求める。 α_i0 ＝ φ_i (5)

【００２７】このとき、ＨＭＭからの出現確率Ｐ（ｘ₁，ｘ₂，…，ｘ_T）は次
式（７）で表される。Ｐ（ｘ₁，ｘ₂，…，ｘ_T）＝ｍａｘ（α_iT) （７）ｉ但しｉはＳ_i∈Ｆの条件を満たすものとする。

【００２８】更に出現確率Ｐの自然対数値ｌｎ（Ｐ）を
直接求めることを考える。この値は、入力音声を表した
特徴ベクトルと認識対象カテゴリの音声を表現したＨＭ
Ｍとの類似度と見做すことが出来る。ln（Ｐ）を計算す
る場合、前式（５）、（６）、（７）は次のように変更
される。 α'_i0 ＝ ln(φ_i) (8) 但し、Ａ_ij及びＢ_ij(ｘ_t)は其々ａ_ij、ｂ_ij(ｘ_t)の自然
対数値である。Ａ_ij ＝ ln(ａ_ij) (11) Ｂ_ij(ｘ_t) ＝ ln（ｂ_ij(ｘ_t)） (12)

【００２９】ここで、前式（３）で表される連続確率密
度分布ｂ_ij(ｘ)の定式化を次のように変更する。

【００３０】このように定式化を変更することによりｂ
_ij(ｘ)の自然対数値であるＢ_ij(ｘ)は次式（１４）で表
せる。

【００３１】ここで、Ｂ_ijm(ｘ)＝ln（ｂ_ijm(ｘ)）とす
ると、式（１）よりＢ_ijm(ｘ) ＝ ln｛(2π)^-p/2・｜ρ_ijm ｜^-1/2｝−Ｄ² _ijm ／２ (15) と表され、式（１４）、（１５）の定数項をＣ_ijm とし
てまとめるとＢ_ij(ｘ)は結局次式（１６）で計算出来
る。Ｃ_ijm ＝ ln｛(2π)-p/2・｜ρ_ijm ｜-1/2｝＋ ln（λ_ijm ） (17)

【００３２】従って連続確率密度分布ｂ_ij(ｘ)を式（１
３）に従って定式化することにより、式（１６）で示さ
れるようにｅｘｐの計算が不要になり、ＨＭＭからの出
現確率Ｐの自然対数値ln（Ｐ）を算出する場合の演算が
簡略化され、前記課題が解決されるのである。

【００３３】

【実施例】図１は本発明の実施例の構成を示す機能ブロ
ック図であり、音響処理部１００、ＨＭＭ照合部１０
１、辞書部１０２とから構成されている。

【００３４】入力音声信号は音響処理部１００において
音声の特徴を表す特徴パラメ−タで構成される特徴ベク
トル系列ｘ_t （ｔ＝１，２，・・・，Ｔ）に変換され
る。

【００３５】この特徴パラメ−タとしては、中心周波数
が少しづつ異なる複数のバンドパスフィルタ群の出力や
フ−リエ解析のパワ−スペクトルを使用するもの、また
は、線形予測分析即ちＬＰＣ分析から求めたＬＰＣケプ
ストラム係数を用いるのが一般的である。本実施例では
バンドパスフィルタ群を使用する方法を用いる。

【００３６】音声信号は音響処理部１００でアナログ・
デジタル変換された後、バンドパスフィルタによりその
中心周波数成分のみが抽出される。このようにして各バ
ンドパスフィルタによって振り分けられたデ−タの系列
をチャネルと称する。各チャネル毎のフィルタの出力を
整流して絶対値を取り、フレ−ム単位でその平均値を算
出する。この平均値がそのフレ−ムにおける各チャネル
の特徴ベクトルになる。ｔ番目のフレ−ムにおける特徴
ベクトルｘ_t はｐをチャネル数として、ｘ_t ＝（ｘ_t1，
ｘ_t2，・・・，ｘ_tp）と表される。音声の始端フレ−ム
をｔ＝１，終端フレ−ムをｔ＝Ｔとすると、特徴ベクト
ル系列ｘt は音声全体の特徴を表現したものとなる。

【００３７】このようにして求められたシンボル系列、
即ち特徴ベクトル系列ｘ_t はＨＭＭ照合部１０１に送ら
れる。ＨＭＭ照合部１０１は、辞書部１０２に格納され
ている認識対象カテゴリｚを表現したＨＭＭとシンボル
系列ｘ_t とを照合し、出現確率の自然対数値ln（ｐ^z ）
を計算する。以上が認識動作の概要である。

【００３８】以下、辞書部１０２に格納するＨＭＭパラ
メ−タの設定方法とＨＭＭ照合部１０１の動作について
説明する。

【００３９】認識対象カテゴリｚのＨＭＭパラメ−タを
以下で定義する。Ｉ^Z ：ＨＭＭの状態数ａ^z _ij ：状態Ｓ_i から状態Ｓ_j への状態遷移確率 (i,j=1,2,・・・, I^Z ) ｂ^z _ij(x) ：状態Ｓ_i から状態Ｓ_j への遷移時のシンボルｘの出力確率 φ^z _i ：初期状態がＳ_i である確率 (i=1,2,・・・,I^Z ) Ｆ^z ：最終状態の集合

【００４０】前記ＨＭＭパラメ−タの設定方法を下記の
（ａ）〜（ｄ）に示す。（ａ）予め認識対象となる学習用音声デ−タを収集す
る。

【００４１】（ｂ）学習用音声デ−タを音響処理部１
００で分析し、学習用音声デ−タについての前記特徴ベ
クトルの系列を表した学習特徴ベクトル系列デ−タを作
成する。

【００４２】（ｃ）ＨＭＭパラメ−タの初期値を下記
の手順で設定する。 (c-1) ＨＭＭのステ−ト数Ｉ^Z を学習特徴ベクトル系
列長の平均値に基づいて設定する（通常、平均値の数分
の１程度に設定する）。 (c-2) 混合分布数Ｍ^Z(i,j) を学習用音声デ−タ数に基
づき設定する（通常、音声デ−タ数の数分の１程度に設
定する）。する。ａ^z _ij ＝１／Ｉ^Z ＋ε (18) (c-4) ｂ^z _ij(x) 及び第ｍ番目の正規分布Ｎ（μ
^z _ijm ，ρ^z _ijm ）を表現するためのパラメ−タであるμ
^z _ijm 、ρ^z _ijm 及び分岐確率をλ^z _ijm を、次式（１
９）〜（２１）のように設定する。 μ^z _ijm ＝ μ^z ＋ε (19) ρ^z _ijm ＝ ρ^z (20) λ^z _ijm ＝１／Ｍ^Z(i,j) (21) 但し、μ^z 、ρ^z は各々学習特徴ベクトルの平均ベクト
ル、分散である。また、式（１８）及び（１９）におけ
るεは平均値が０となるような小さな乱数値である。 (c-5) 初期状態φ^z _i を次のように設定する。 φ^z _i ＝１（ｉ＝０）＝０（ｉ≠０） (22)

【００４３】（ｄ）学習特徴ベクトル系列の出力確率
が最大となるＨＭＭパラメ−タ、即ち認識対象カテゴリ
ｚを表現したＨＭＭパラメ−タを求める。この計算方法
は、下記文献３のセクション１．ＣのＨＭＭにおける３
つの基本的問題（２６１頁参照）の３番目に相当する。
この解法の詳細については文献３を参照のこと。

【００４４】文献３：“アチュウトリアルオンヒ
ドゥンマルコフモデルズアンドセレクティッド
アプリケイションズインスピイチレコグニショ
ン”（“ＡＴｕｔｏｒｉａｌｏｎＨｉｄｄｅｎ
ＭａｒｋｏｖＭｏｄｅｌｓａｎｄＳｅｌｅｃｔｅｄ
ＡｐｐｌｉｃａｔｉｏｎｓｉｎＳｐｅｅｃｈＲｅ
ｃｏｇｎｉｔｉｏｎ ”，Ｐｒｏｄｅｅｄｉｎｇｏｆ
ｔｈｅ IEEE，Ｖｏｌ．７７，Ｎｏ．２，Ｆｅｂ．１
９８９，ｐｐ．２５７〜２８６，Ｌ．Ｒ．Ｒａｂｉｎｅ
ｒ）

【００４５】次にＨＭＭ照合部１０１の動作を説明す
る。ｂ^z _ij(ｘ)の第ｍ番目の正規分布をＮ（μ^z _ijm ，ρ
^z _ijm ）とし、その分岐確率をλ^z _ijm とすると、ｂ
^z _ij(ｘ)は式(23)、(24)、(25)で計算出来る。但しＭ^z(i,
j)はカテゴリｚにおける混合数である。Ｄ_z ² _ijm ＝（ｘ−μ^z _ijm ）’・ρ^z _ijm ^-1・（ｘ−μ^z _ijm ） (24) Ｃ^z _ijm ＝ ln｛(2π)^-p/2・｜ρ^z _ijm ｜^-1/2｝＋ ln（λ^z _ijm ） (25)

【００４６】また、前式(11)、(12) におけるＡ_ij、Ｂ_ij
（ｘ）に対応してＡ^z _ij、Ｂ^z _ij（ｘ）は各々下記式(2
6)、(27) となる。Ａ^z _ij ＝ ln（ａ^z _ij） (26) Ｂ^z _ij(ｘ) ＝ ln（ｂ^z _ij(ｘ)） (27)

【００４７】ＨＭＭにおけるカテゴリｚのシンボル系列
の出現確率Ｐ^z に対する自然対数値ln（Ｐ^z）は式(8)、
(9)、(10)を用いて計算される。即ち、式(9) はｔの漸化
式であるからｔ＝１，２，・・・，Ｔの順にα'itが計
算出来る。具体的な計算の手順を下記に示す。

【００４８】

【００４９】この結果と式(10)から出現確率の自然対数
値ln（ｐ^z）が計算される。この値は、入力音声を表し
た特徴ベクトル系列と認識対象カテゴリの音声を表した
ＨＭＭとの類似度と見做すことが出来る。一つのカテゴ
リに対する前述の計算を認識対象カテゴリの数だけ実行
し、その結果ln(ｐ^z)が最大となるカテゴリ、即ち類似
度が最大となるカテゴリが認識対象カテゴリとして出力
される（結果出力）。

【００５０】表１は、男女各５０名が発声した３２単語
のデ−タを評価デ−タとして不特定話者単語認識を行っ
た時の認識性能の評価結果を示したものである。本発明
の方法は従来の方法に比べて処理時間が６３％削減さ
れ、更に、そのような高速処理にもかかわらず認識率の
低下は全くみられず、本発明の方法の有効性はこの実験
結果からも明らかである。

【００５１】

【表１】

【００５２】

【発明の効果】以上説明したように、本発明によればス
ペクトルの量子化歪が無く、高い認識性能が得られる混
合多次元正規分布による連続確率密度分布を持つＨＭＭ
を用いた音声認識装置において、スペクトル特徴系列と
の尤度算出の演算量を、認識精度を低下させることなく
大幅に低減することができるという優れた効果を奏す
る。

【図面の簡単な説明】

【図１】実施例の構成を示す機能ブロック図である。

【図２】ＨＭＭの一例を示す図である。

【符号の説明】

１００音響処理部１０１ＨＭＭ照合部１０２辞書部

フロントページの続き (56)参考文献特開平５−6194（ＪＰ，Ａ) 特開平４−125599（ＪＰ，Ａ) 特開平４−83296（ＪＰ，Ａ) Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1989 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１”ＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎｏｆｔｈｅＣｏｎｔｉｎｏｕｓＤｉｓｔｒｉｂｕｔｉｏｎｏｆａｎＨＭＭＳｐｅｅｃｈＲｅｃｏｇｎｉｓｅｒｂａｓｅｄｏｎＭｉｘｔｕｒｅｓｏｆＣｏｎｔｉｎｕｏｕｓＤｉｓｔｒｉｂｕｔｉｏｎｓ”ｐ．９−12 Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1989 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１”ＰｈｏｎｅｍｅＭｏｄｅｌｌｉｎｇｕｓｉｎｇＣｏｎｔｉｎｕｏｕｓＭｉｘｔｕｒｅＤｅｎｓｉｔｉｅｓ”ｐ．437−440 Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1986 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１”ＭｉｘｔｕｒｅＡｕｔｏｒｅｇｒｅｓｓｉｖｅＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓｆｏｒＳｐｅａｋｅｒＩｎｄｅｐｅｎｄｅｎｔＩｓｏｌａｔｅｄＷｏｒｄＲｅｃｏｇｎｉｔｉｏｎ”ｐ．41−44 ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．ＡＳＳＰ−33, Ｎｏ．６，Ｄｅｃｅｍｂｅｒ 1985，" ＭｉｘｔｕｒｅＡｕｔｏｒｅｇｒｅｓｓｉｖｅＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓｆｏｒＳｐｅｅｃｈＳｉｇｎａｌｓ”，ｐ．1404−1413 ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ，Ｖｏｌ．３, Ｎｏ．３，1989，”Ｓｅｍｉ−ＣｏｎｔｉｎｕｏｕｓＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓｆｏｒＳｐｅｅｃｈＳｉｇｎａｌｓ”，ｐ．239−251 ＡＴ＆ＴＴｅｃｈｎｉｃａｌＪｏｕｒｎａｌ，Ｖｏｌ．64，Ｎｏ．６，Ｊｕｌｙ−Ａｕｇｕｓｔ 1985，”ＲｅｃｏｇｎｉｔｉｏｎｏｆＩｓｏｌａｔｅｄＤｉｇｉｔｓＵｓｉｎｇＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓｗｉｔｈＣｏｎｔｉｎｕｏｕｓＭｉｘｔｕｒｅＤｅｓｉｔｉｅｓ”, ｐ．1211−1234 電子情報通信学会技術研究報告［電気音響］Ｖｏｌ．91，Ｎｏ．44，ＥＡ91− ５，「複数話者音声認識におけるＨＭＭの設計法」ｐ．９−15（1991) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 535 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】混合多次元正規分布による連続確率密度
分布ｂ_ij(x) を状態Ｓ_i から状態Ｓ_j に遷移する際の音
声の特徴ベクトルｘの出現確率とするＨＭＭを用いる音
声認識方法に於いて、 (a) 入力音声から特徴ベクトル系列ｘ₁ ，ｘ₂ ，・・
・，ｘ_t ，・・・，ｘ_Tを求める処理と、 (b) 前記連続確率密度分布ｂ_ij(x_t) のｍ番目の正規分
布Ｎ(μ_ijm ，ρ_ijm )の確率密度関数であるｂ_ijm(x_t)
を、ベクトルｘ_t の次元ｐと、共分散行列ρ_ijmと、平
均ベクトルμ_ijm 及びρ_ijm の逆行列（ρ_ijm ）^-1に基
づいて計算されるマハラノビスの汎距離Ｄ_ijm とを用い
てｂ_ijm(x_t) ＝ (2π)^-p/2・｜ρ_ijm ｜^-1/2・ｅｘｐ（−Ｄ² _ijm ／２）と定義し、更に前記連続確率密度分布ｂ_ij(x_t) を、分
岐確率λ_ijm と状態Ｓ_iから状態Ｓ_j に遷移する際の連
続確率密度分布ｂ_ij(x) の混合数Ｍ(i,j) とを用いて、と定式化し、ｂ_ij(x_t) の自然対数値Ｂ_ij(x_t) （＝ln(
ｂ_ij(x_t))）を、Ｃ_ijm ＝ ln［(2π)^-p/2・｜ρ_ijm ｜^-1/2］＋ ln（λ_ijm ) として求める処理と、 (c) 当該ＨＭＭにおける状態Ｓ_i から状態Ｓ_j に遷移す
る際の遷移確率ａ_ijの自然対数値Ａ_ij（＝ln( ａ_ij) ）
と前記Ｂ_ij(x_t) とを用いてビタビアルゴリズムによ
り、当該ＨＭＭにおける特徴ベクトル系列ｘ₁ ，ｘ₂ ，
・・・，ｘ_t ，・・・，ｘ_T の対数出現確率lnＰ（ｘ
₁ ，ｘ₂ ，・・・，ｘ_t ，・・・，ｘ_T ）を求めること
により、当該ＨＭＭと音声信号の特徴ベクトル系列ｘ
₁ ，ｘ₂ ，・・・，ｘ_t ，・・・，ｘ_T との尤度を算出
することを特徴とする、隠れマルコフモデルと音声信号
の類似度計算方法。