JP2654539B2

JP2654539B2 - 音声認識装置

Info

Publication number: JP2654539B2
Application number: JP6129985A
Authority: JP
Inventors: 健一磯
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1994-06-13
Filing date: 1994-06-13
Publication date: 1997-09-17
Anticipated expiration: 2012-09-17
Also published as: EP0688012B1; US5737488A; EP0688012A2; CA2151330A1; DE69514573D1; DE69514573T2; CA2151330C; JPH07334187A; EP0688012A3

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は特徴ベクトルの時系列で
表された音声信号を自動認識するための音声認識装置に
関するものである。

【０００２】

【従来の技術】音声認識の標準パターンモデルとして隠
れマルコフモデル（ＨＭＭ）が広く使われている。ＨＭ
Ｍについては文献１「書名：確率モデルによる音声認
識、著者：中川聖一、出版元：電子情報通信学会」に詳
しく解説されている。しかしＨＭＭでは異なる状態の出
力確率分布は互いに独立で相関を持たないため、状態遷
移部分においてＨＭＭがモデル化する音声パターンに不
可避的な不連続が生じてしまい、識別性能を低下させる
一因となっていた。図１はその様子を示している。図で
は各状態の出力確率分布としてガウス分布を用いた場合
を示した。その場合、ＨＭＭの表す音声パターンはガウ
ス分布の平均ベクトルのまわりに統計的に分布するが、
状態１から２への遷移、および状態２から３への遷移の
境界において、平均ベクトルに不連続があり、出力され
る音声パターンにもその不連続が現れてしまう。この問
題に対処するために、これまでに各状態に複数の出力確
率分布を対応させ、どの出力確率分布を使用するかを定
める係数を一時刻前に使用した出力確率分布に依存させ
る方法が提案されている（従来法１、文献２「著者：有
木、題名：二段階遷移混合分布型ＨＭＭ、書名：日本音
響学会講演論文集Ｉ、８５ページ、平成４年１０
月」）。このような相関を導入することにより、平均ベ
クトルの大きく異なる出力確率分布が連続して用いられ
ることを抑制することができ、先に指摘したＨＭＭの問
題点を除くことができる。しかし従来法１では必要な係
数の数が膨大になり、大量の音声データなしには学習が
困難で非実用的であった。また半連続型ＨＭＭの出力確
率分布の重み係数を、ベクトル量子化（ＶＱ）した入力
音声の符号列の連鎖確率（バイグラム）を用いて一時刻
前に使用した出力確率分布に依存させる方法も提案され
ている（従来法２、文献３「著者：高橋他、題名：半連
続型Ｂｉｇｒａｍ制約ＨＭＭの連続音声による評価、書
名：日本音響学会講演論文集Ｉ、１６１ページ、平成４
年１０月」）。しかし半連続型ＨＭＭの計算に加えて入
力音声をベクトル量子化し、重み係数を再計算する余分
な計算が必要になり、またその計算式も発見法的で統計
理論に基づいた最適な計算が行われていなかった。

【０００３】

【発明が解決しようとする課題】ＨＭＭにおいて状態遷
移境界で標準パターンに不連続が生じる問題点を解決す
る新しい音声認識装置を提案する。同じ問題点を解決す
るために「従来法１」と「従来法２」が知られている
が、本発明は「従来法１」のように膨大なパラメータを
必要とせず、また「従来法２」のように余分な計算も必
要とせず、かつ発見法的でない統計理論に裏付けられた
最適な認識・学習法に基づく音声認識装置を提案する。

【０００４】

【課題を解決するための手段】本発明の音声認識装置
は、入力された音声を一定の時間間隔で分析し、特徴ベ
クトルを抽出し、各認識対象カテゴリの標準パターンモ
デルの尤度値を算出して認識を行う音声認識装置におい
て、各認識対象カテゴリ毎に用意した、内部状態番号を
出力記号とする第一の隠れマルコフモデルが内部状態番
号を出力する確率を計算する第一の確率計算手段と、内
部状態番号間の遷移確率と内部状態番号毎の特徴ベクト
ル出力確率分布を有する第二の隠れマルコフモデルが特
徴ベクトルを出力する確率を計算する第二の確率計算手
段と、第一および第二の確率計算手段の出力を用いて、
各認識対象カテゴリの標準パターンモデルの尤度値を計
算する尤度値計算手段を有することを特徴とする。

【０００５】また、本発明の音声認識装置は、前記尤度
値計算手段において、入力音声特徴ベクトル時系列の時
間軸上の各時刻と、各認識対象カテゴリの第一の隠れマ
ルコフモデルの各状態において、最大の尤度値を与える
内部状態番号のみを残して尤度値計算処理を進めること
を特徴とする。

【０００６】

【作用】音声認識の認識対象カテゴリは、音韻や音節、
単語、文などがあるが、以下では単語の場合について詳
しく説明するが、他の場合についても同様である。

【０００７】単語を確率変数Ｗ、入力音声（長さＴの特
徴ベクトル時系列）を確率変数Ｏ＝Ｏ₁…Ｏ_t…Ｏ_T、
内部状態番号の時系列を確率変数Ｓ＝Ｓ₁…Ｓ_t…Ｓ_T
とすると、単語Ｗの事後確率Ｐ（Ｗ｜Ｏ）は次式で与え
られる。

【０００８】

【数１】

【０００９】上式において和の記号は内部状態番号のす
べての可能な時系列Ｓに関する総和を表している。本発
明においては内部状態番号が１からＫまでのＫ個の整数
値のどれかを取りうるものとする。下の式で変数ｓ_kが
内部状態番号を表す変数である。

【００１０】

【数２】

【００１１】単語Ｗにおいて内部状態番号列

【００１２】

【数３】

【００１３】が用いられる確率

【００１４】

【数４】

【００１５】は、可能な内部状態番号｛１，…，Ｋ｝を
出力記号とする離散ＨＭＭで表現することができる。以
下において、このＨＭＭを第一のＨＭＭの意味でＨＭＭ
−１と呼ぶ。単語ＷのＨＭＭ−１の状態数をＮ個とする
と、

【００１６】

【数５】

【００１７】ここで、ａ_mn ⁽¹⁾は状態ｍから状態ｎへの
遷移確率、ｂ_nk ⁽¹⁾は状態ｎにおいて出力記号ｓ_kを出
力する出力確率である。内部状態番号列

【００１８】

【数６】

【００１９】から入力音声特徴ベクトル列Ｏ＝ｏ₁…ｏ
_t…ｏ_Tが生成される確率

【００２０】

【数７】

【００２１】は内部状態番号｛１，…，Ｋ｝を状態とす
る第二のＨＭＭで表現することができる（ＨＭＭ−
２）。以下ではＨＭＭ−１の状態と区別するためにＨＭ
Ｍ−２の状態を「内部状態」と呼ぶことにする。

【００２２】

【数８】

【００２３】ここでａ_jk ⁽²⁾は内部状態ｊから内部状態
ｋへの遷移確率、ｂ_k ⁽²⁾（ｏ_t）は内部状態ｋにおい
て特徴ベクトルｏ_tを出力する出力確率である。以上を
まとめると

【００２４】

【数９】

【００２５】時刻ｔに状態ｎ、内部状態ｋに到達し、特
徴ベクトルｏ_tを出力する前向き確率を次式で定義す
る。

【００２６】

【数１０】

【００２７】同様に時刻ｔ＋１に観測量ｏ_t+1を出力し
て、時刻ｔに状態ｎ、内部状態ｋに到達する後ろ向き確
率も定義することができる。

【００２８】

【数１１】

【００２９】結局、確率Ｐ（Ｏ｜Ｗ）を求めるには、時
間ｔ、状態ｎ、内部状態ｋの３次元で指定されるトレリ
ス上で前向き確率の漸化式計算を行えばよいことがわか
る。従来のＨＭＭでは時間ｔと状態ｎの２次元で指定さ
れるトレリス上でＯ（Ｔ・Ｎ）個の格子点の計算が必要
であったが、本方式では上の定式化通り計算する場合は
Ｏ（Ｔ・Ｎ・Ｋ）個の格子点の計算が必要になる（近似
法については後述）。

【００３０】遷移確率や出力確率の学習による推定は、
３次元トレリス上で形式的に従来のＨＭＭと同じ再推定
式を適用することによって可能である。以下に結果のみ
を示す。

【００３１】

【数１２】

【００３２】上式においてμ_kとΣ_kは内部状態ｋにお
ける特徴ベクトルの出力確率をガウス分布で表したとき
の平均ベクトルと分散行列である。

【００３３】本発明による尤度の式（６）において以下
の書き換えを行う。

【００３４】

【数１３】

【００３５】この式を半連続ＨＭＭと比較すると、係数
λ_nk,jは状態ｎにおいて第ｋ番目の出力確率ｂ
_k ⁽²⁾（Ｏ）が用いられる混合係数と考えることができ
る。ただし本発明では、その混合係数が前フレームにお
いて何番目（添字でｊで指定）の出力確率が用いられた
かに依存している（マルコフ的相関をもつ）ことにな
る。この依存性がないと近似すれば（λ_nk,j＝λ_nk）、
本発明は従来用いられている半連続ＨＭＭに一致する。
半連続ＨＭＭについては文献４「著者：Ｘ．Ｄ．Ｈｕａ
ｎｇ他、題名：Ｓｅｍｉ−ｃｏｎｔｉｎｕｏｕｓＨｉ
ｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓｆｏｒＳｐ
ｅｅｃｈＳｉｇｎａｌｓ、書名：ＣｏｍｐｕｔｅｒＳ
ｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ、１９８９年第
３巻２３９ページ」に詳しく記されている。

【００３６】混合分布型ＨＭＭにおいて混合係数に前フ
レームとのマルコフ的な相関を導入する方法については
二段階遷移混合分布型ＨＭＭとして定式化されている
（従来法１）。この場合の尤度の表式は次式のように与
えられる。

【００３７】

【数１４】

【００３８】本発明との第一の相違点は特徴ベクトルの
出力確率ｂ_nk（Ｏ）が状態ｎと内部状態ｋの両方に依存
している点である（本発明では内部状態ｋのみに依存す
る）。これは出力確率パラメータ数の大幅な増加を招
く。

【００３９】第二の相違点は従来法１では混合係数λ
_nk,jのパラメータ数はＮ・Ｋ・Ｋ個となる。ところが式
（１６）から明らかなように、本発明では混合係数λ
_nk,jが出力確率ｂ_nk ⁽¹⁾と遷移確率ａ_jk ⁽²⁾の積に分解
されているため、パラメータ数はＮ・Ｋ＋Ｋ・Ｋ個に削
減された。例えば状態数がＮ＝２¹⁰個、内部状態数がＫ
＝２⁸個の場合には、従来法１で６４００万個、本発明
では３２万個となり、パラメータ数を１／２００に削減
できることになる。本発明のパラメータ数は半連続ＨＭ
Ｍと同じオーダーである。

【００４０】他にベクトル量子化（ＶＱ）によって得ら
れる符号（ＶＱコード）の連接確率（バイグラム）を用
いて、半連続ＨＭＭの混合係数にフレーム相関を導入す
る発見法的な方式が提案されている（従来法２）。この
方式では半連続ＨＭＭの状態ｎにおける第ｋ番目の出力
確率（内部状態ｋ）の混合係数をλ_nk、学習データにお
けるＶＱコードの連接確率（ＶＱコードｊの次にＶＱコ
ードｋが続く確率、バイグラム）をａ_jkとすると、認識
時には次式で定義されるような変換を行って計算される
新しい混合係数

【００４１】

【外１】

【００４２】を用いる。

【００４３】

【数１５】

【００４４】この方式では認識時にベクトル量子化（Ｖ
Ｑ）処理と上式による混合係数の再計算が必要になる。
本発明ではこのような余分な計算は生じない。また半連
続ＨＭＭとＶＱコードの連接確率という異質のものを組
み合わせたため、上の計算式は統計理論に基づく最適な
計算式ではなく、発見法的なものにとどまっている。

【００４５】以上を図２（従来法１）、図３（従来法
２）、図４（本発明）にまとめて図示した。比較すれ
ば、パラメータ数（必要な記憶領域）や計算手順の違い
がわかる。

【００４６】本発明では式（７）からわかるように、確
率Ｐ（Ｏ｜Ｗ）を求めるには時間ｔ、状態ｎ、内部状態
ｋの３次元で指定されるトレリス上で前向き確率の漸化
式計算を行う。従来のＨＭＭでは時間ｔと状態ｎの２次
元で指定されるトレリス上でＯ（Ｔ・Ｎ）個の格子点の
計算が必要であったが、本方式ではＯ（Ｔ・Ｎ・Ｋ）個
の格子点の計算が必要になる。この演算量・記憶量を削
減するため以下のような準最適近似を用いる（請求項２
に対応）。

【００４７】時間ｔ、状態ｎで指定される２次元トレリ
ス上で内部状態ｋについて総和をとった前向き確率を次
式で定義する。

【００４８】

【数１６】

【００４９】以上の定義のもとに次の近似を導入する。

【００５０】

【数１７】

【００５１】これは最大確率を与える内部状態

【００５２】

【外２】

【００５３】以外の内部状態における前向き確率が十分
小さいとする近似に相当する。この近似を用いると２次
元トレリス上での前向き確率の漸化式が得られる。

【００５４】

【数１８】

【００５５】以上をまとめると２次元トレリス上での準
最適漸化式計算アルゴリズムが次のように得られる。

【００５６】

【数１９】

【００５７】時間（フレーム）同期に漸化式計算を行う
場合、各フレームにおいては前向き確率

【００５８】

【外３】

【００５９】と最適内部状態

【００６０】

【外４】

【００６１】のみを記憶すればよく、演算量・記憶量共
に半連続ＨＭＭと同程度に削減される。

【００６２】

【実施例】図５は本発明を実施した単語音声認識装置の
ブロック図である。マイクロホン１０より入力された音
声信号は分析部２０によって標本化、デジタル化されて
から高速フーリエ変換などによって特徴ベクトルに変換
されマイクロプロセッサ３０に送られる。このマイクロ
プロセッサにはメモリとしてＨＭＭ−１パラメータ記憶
部４０と、ＨＭＭ−２パラメータ記憶部５０と、ワーク
メモリ６０が接続されている。

【００６３】ＨＭＭ−１パラメータ記憶部４０には各単
語ｗの第一のＨＭＭパラメータとして、状態ｍから状態
ｎへの遷移確率ａ_mn ⁽¹⁾（ｍ，ｎ＝１…Ｎ_w）と状態ｎ
において出力記号ｓ_kを出力する確率ｂ_nk ⁽¹⁾（ｋ＝１
…Ｋ）が記憶されている。ＨＭＭ−２パラメータ記憶部
５０にはすべての単語に共通の第二のＨＭＭのパラメー
タとして内部状態ｊから内部状態ｋへの遷移確率ａ_jk
⁽²⁾（ｊ，ｋ＝１…Ｋ）と内部状態ｋにおいて特徴ベク
トルｏ_tを出力する出力確率ｂ_k ⁽²⁾（ｏ_t）を表す分
布関数のパラメータ（ガウス分布の場合は平均ベクトル
と分散行列）が記憶されている。ワークメモリ６０は各
認識対象単語の標準パターンモデルによる尤度値を計算
する際に、出力確率や前向き確率を一時記憶しておくた
めの作業エリアである。これらのＨＭＭ−１パラメータ
記憶部４０、ＨＭＭ−２パラメータ記憶部５０、ワーク
メモリ６０はマイクロプロセッサの主記憶内にあって区
別されるメモリエリアとして定義されてもよい。

【００６４】認識処理はマイクロプロセッサ３０のプロ
グラムによって実行される。以下、入力信号の特徴ベク
トルｏ_tが入力される毎に図６のフローチャートに示す
処理がマイクロプロセッサ３０によって実行される。図
中の１０１のブロックではＨＭＭ−２パラメータ記憶部
５０に記憶された出力確率分布のパラメータに基づい
て、内部状態ｋにおいて特徴ベクトルｏ_tを出力する出
力確率ｂ_k ⁽²⁾（ｏ_t）が算出され、ワークメモリ７０
上の変数Ｂとして格納される。また前向き確率を計算す
るためのワークメモリ７０上の配列変数Ａ（ｗ，ｔ，
ｎ，ｋ）がクリアされる。１０２のブロックでは状態
ｍ、内部状態ｊから状態ｎ、内部状態ｋへ遷移して特徴
ベクトルｏ_tを出力した場合の前向き確率への寄与がＨ
ＭＭ−１パラメータ記憶部とＨＭＭ−２パラメータ記憶
部に記憶されたパラメータとワークメモリ７０上の変数
から算出され、配列変数Ａ（ｗ，ｔ，ｎ，ｋ）に加算さ
れる。

【００６５】以上の処理が終了すると、入力信号の時刻
が１時刻増加され、次の特徴ベクトルｏ_tの入力を待っ
て同様の処理が行われる。入力信号が終了して最後の特
徴ベクトルｏ_Tが処理された後、マイクロプロセッサ３
０の内部では次のような処理が行われる。ワークメモリ
７０に記憶されている各単語ｗ毎の前向き確率Ａ（ｗ，
Ｔ，ｎ，ｋ）は各単語の標準パターンモデルが入力信号
を出力する単語出力確率（尤度値）を与えている。これ
らを順次比較することによって最大値を求め、これに対
応する単語

【００６６】

【外５】

【００６７】を認識結果として出力する。

【００６８】このプログラムにおいてワークメモリ７０
に格納する配列変数Ａ（ｗ，ｔ，ｎ，ｋ）はすべての時
刻ｔについて保存する必要はなく、ある時刻ｔにおいて
は時刻ｔと時刻ｔ−１の分のみを保存してあればよい。
よって配列変数の格納領域の大きさは２・Ｗ・Ｎ・Ｋで
ある。

【００６９】格納領域の大きさは請求項２の方式に従え
ばさらに削減することができる。その場合のフローチャ
ートを図７に示す。計算に必要な配列変数はｋ
_max（ｔ，ｎ）とＡ（ｗ，ｔ，ｎ）である。どちらもあ
る時刻ｔにおいては時刻ｔと時刻ｔ−１の分のみを保存
してあればよいので、必要な格納領域の大きさは２・Ｎ
＋２・Ｗ・Ｎとなり、約１／Ｋに削減された。また演算
量についても図６と図７を比べると、図７では、変数ｊ
に関する繰り返し計算がなくなった分だけ削減されてい
ることがわかる。

【００７０】

【発明の効果】以上述べたように、本発明によって従来
法１に比べて大幅に少ないパラメータ数で、従来法２に
比べてベクトル量子化や係数の発見法的な再計算なし
に、ＨＭＭの状態遷移境界における不連続の問題を解決
して高精度な信号のモデル化を行い、低コストかつ高性
能な音声認識装置の実現が可能となった。

【図面の簡単な説明】

【図１】従来法を説明するための図

【図２】従来法１を示すブロック図

【図３】従来法２を示すブロック図

【図４】本発明の一実施例を示すブロック図

【図５】本発明を実現するための装置構成図

【図６】本発明の要部の処理を示すフローチャート

【図７】本発明の要部の処理を示すフローチャート

【符号の説明】

１０マイクロホン２０分析部３０マイクロプロセッサ４０ＨＭＭ−１パラメータ記憶部５０ＨＭＭ−２パラメータ記憶部６０ワークメモリ

Claims

(57)【特許請求の範囲】

【請求項１】入力された音声を一定の時間間隔で分析
し、特徴ベクトルを抽出し、各認識対象カテゴリの標準
パターンモデルの尤度値を算出して認識を行う音声認識
装置において、各認識対象カテゴリ毎に用意した、内部
状態番号を出力記号とする第一の隠れマルコフモデルが
内部状態番号を出力する確率を計算する第一の確率計算
手段と、内部状態番号間の遷移確率と内部状態番号毎の
特徴ベクトル出力確率分布を有する第二の隠れマルコフ
モデルが特徴ベクトルを出力する確率を計算する第二の
確率計算手段と、第一および第二の確率計算手段の出力
を用いて、各認識対象カテゴリの標準パターンモデルの
尤度値を計算する尤度値計算手段を有することを特徴と
する音声認識装置。
【請求項２】前記尤度値計算手段において、入力音声特
徴ベクトル時系列の時間軸上の各時刻と、各認識対象カ
テゴリの第一の隠れマルコフモデルの各状態において、
最大の尤度値を与える内部状態番号のみを残して尤度値
計算処理を進めることを特徴とする請求項１記載の音声
認識装置。