JPH0776880B2

JPH0776880B2 - パターン認識方法および装置

Info

Publication number: JPH0776880B2
Application number: JP5003647A
Authority: JP
Inventors: 健一磯
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1993-01-13
Filing date: 1993-01-13
Publication date: 1995-08-16
Anticipated expiration: 2010-08-16
Also published as: CA2113316A1; JPH06208392A; EP0606913A2; DE69417273T2; EP0606913A3; EP0606913B1; US5920839A; DE69417273D1; CA2113316C

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声信号のような特徴
ベクトルの時系列で表されるパターンを自動認識するた
めのパターン認識方法および装置に関するものである。

【０００２】

【従来の技術】時系列パターンを認識するためのパター
ン認識方式に関しては種々の技術が開発されているが、
それらの中で最も確立され重用されているものの一つと
して「確率モデルによる音声認識（中川聖一著、電子情
報通信学会発行）」に詳しく解説されている「隠れマル
コフモデル（ＨＭＭ）」がある。以下においてこのＨＭ
Ｍの要部を説明する。

【０００３】単語名を番号ｗで指定することとして、

【０００４】

【数１】

【０００５】なる単語セットを認識対象とする。各単語
の標準パターンは状態の系列で表される。単語ｗの第ｎ
番目の状態は

【０００６】

【数２】

【０００７】で決まる

【０００８】

【外１３】

【０００９】をベクトル出力確率分布として有する。

【００１０】

【数３】

【００１１】Ｐはベクトルｘおよび

【００１２】

【外１４】

【００１３】の次元、

【００１４】

【外１５】

【００１５】の逆行列、

【００１６】

【外１６】

【００１７】は転置を表している。また各状態の間の遷
移には遷移確率が付随する。単語の標準パターンの例
（状態数がＮ_wの場合）を図６に示す。図６においては
第ｎ番目の状態は自分自身への遷移

【００１８】

【外１７】

【００１９】と隣接する第ｎ＋１番目の状態への遷移

【００２０】

【外１８】

【００２１】を有している。この単語ｗの標準パターン
が特徴ベクトルの系列ａ₁，…，ａ_Tを出力する単語出
力確率Ｐ（ａ₁，…，ａ_T｜ｗ）は次式で与えられる。

【００２２】

【数４】

【００２３】ここでｎ₁，…，ｎ_Tは時刻ｔ＝１に状態
ｎ₁に滞在し、時刻ｔ＝Ｔに状態ｎ_Tに到達する状態遷
移を表しており、上式での和はすべての可能な状態遷移
に関する和を表している。状態遷移に関しては図７に示
したようなトレリス（格子図）上で説明できる。図７に
おいて横軸は特徴ベクトル系列に対応し、縦軸は単語の
標準パターンの状態系列（図６参照）に対応している。
状態遷移はこのトレリス上の経路（太線）で指定され
る。ｎ₁，…，ｎ_Tはこれを式で表したものである。
式４のＰ（ａ₁，…，ａ_T｜ｎ₁，…，ｎ_T，ｗ）は状
態遷移が確定した場合にその状態遷移で特徴ベクトル系
列が出力される確率、Ｐ（ｎ₁，…，ｎ_T｜ｗ）はある
状態遷移が生じる確率である。これらの確率はそれぞれ
ベクトル出力確率分布と遷移確率から以下のように計算
される。

【００２４】

【数５】

【００２５】

【数６】

【００２６】式４で与えられる単語出力確率Ｐ（ａ₁，
…，ａ_T｜ｗ）の効率的な計算法は「フォワード計算
法」として知られている。「フォワード計算法」に関し
ては前記刊行物「確率モデルによる音声認識」の４２ペ
ージのアルゴリズム３．２に「前向きパスアルゴリズ
ム」として説明されている。結果として時刻ｔに状態ｎ
に滞在する

【００２７】

【外１９】

【００２８】を次式にしたがって初期化し、

【００２９】

【数７】

【００３０】以下の漸化式にしたがって時刻ｔ＝２から
ｔ＝Ｔまで逐次計算することによって、

【００３１】

【数８】

【００３２】単語出力確率Ｐ（ａ₁，…，ａ_T｜ｗ）を

【００３３】

【数９】

【００３４】として求めることができる。

【００３５】また式４におけるすべての可能な状態遷移
に関する和を最大確率を与える状態遷移だけで近似して
代用する「ビタビ計算法」も前記刊行物の４６ページの
アルゴリズム３．４に説明されている。「ビタビ計算
法」では、式４の代わりに以下の式が計算される。

【００３６】

【数１０】

【００３７】この場合はフォワード計算法の漸化式８に
おける和を最大値をとる演算に変更すれば他は同じであ
る。

【００３８】

【数１１】

【００３９】「フォワード計算法」あるいは「ビタビ計
算法」を用いれば、各認識対象単語の標準パターンが入
力信号の特徴ベクトル系列を出力する単語出力確率が計
算される。そのなかで最大の単語出力確率を有する単語
名を認識結果として選択することによって、認識を行う
ことができる。

【００４０】

【発明が解決しようとする課題】「従来の技術」の項で
説明したＨＭＭ法においては、単語の標準パターンは多
次元ガウス分布を有する状態の系列で表されている。す
なわちある単語ｗの標準パターンがＮ_w個の状態の系列
であるとすると、入力をＮ_w個の区間に分割して、各区
間は一つのガウス分布でモデル化されている。この様子
を図８に示す。図の横軸は入力信号の時間、縦軸は特徴
ベクトルの値ａ_tを表している。ここでは見易くするた
めに特徴ベクトルの次元は一次元としている。

【００４１】

【外２０】

【００４２】は状態ｎのガウス分布の平均ベクトル、

【００４３】

【外２１】

【００４４】は状態ｎ＋１のガウス分布の平均ベクトル
を表している。図８では時刻ｔ_nからｔ_n+1まで状態ｎ
に滞在し、時刻ｔ_n+1からｔ_n+2までは状態ｎ＋１に滞
在するような状態遷移を取り出して、標準パターンと入
力信号のマッチングの様子を示している。この図からも
明白なように、ＨＭＭはそれぞれの状態に対応付けられ
た区間の入力信号を平均値とそのまわりの分散で近似し
ている。たとえば時刻ｔ_nからｔ_n+1まで入力信号が滑
らかに変化している部分を

【００４５】

【外２２】

【００４６】で近似している。このような区分的に平坦
なパターン（平均ベクトル）の系列に基づいて、音声信
号のような動的に変化する信号をモデル化するために
は、非常に多くの区間（状態）を必要とする。しかし状
態数を多くすることはモデルのパラメータ数（各状態の
平均ベクトルと共分散行列）の増加を伴う。さらに多数
のパラメータを信頼できる精度で推定するためには学習
データも膨大な数必要となる。

【００４７】本発明の目的は、区分的に平坦なパターン
の系列による信号のモデル化では、精度の高いモデル化
を行うためにはモデルのパラメータ数が膨大になるとい
うＨＭＭ法が有する欠点を改良し、少ないパラメータ数
で高精度な信号のモデル化を行い、低コストかつ高性能
なパターン認識装置を実現するためのパターン認識方法
および装置を提供することにある。

【００４８】

【課題を解決するための手段】本発明は、入力信号を特
徴ベクトルの系列ａ₁，…，ａ_t，…，ａ_Tに変換する
特徴抽出手段と、複数の状態とその状態間の遷移で構成
された認識対象単語ｗの標準パターンの各状態が有する

【００４９】

【外２３】

【００５０】と、各状態の間の

【００５１】

【外２４】

【００５２】を記憶する標準パターン記憶手段と、第ｔ
−１フレームの特徴ベクトルａ_t-1と

【００５３】

【外２５】

【００５４】を入力とする予測器を用いて第ｔフレーム
の特徴ベクトルａ_tに対する

【００５５】

【外２６】

【００５６】を計算する予測ベクトル計算手段と、認識
対象単語ｗの標準パターンの第ｎ番目の状態において第
ｔフレームの特徴ベクトルａ_tを出力する確率を計算す
るための出力確率分布として、前記予測ベクトル計算手
段により計算される

【００５７】

【外２７】

【００５８】を平均ベクトルとし、

【００５９】

【外２８】

【００６０】を共分散行列とする多次元ガウス分布を用
いる特徴ベクトル出力確率計算手段と、前記特徴ベクト
ル出力確率を用いて認識対象単語ｗの標準パターンが入
力信号の特徴ベクトル系列を出力する確率を隠れマルコ
フモデルのフォワード計算法あるいはビタビ計算法によ
り計算する単語確率計算手段と、すべての認識対象単語
に対する前記単語確率計算手段の出力のなかで最大の確
率値を有する単語を認識結果として出力する認識結果出
力手段とからなることを特徴とする。

【００６１】

【作用】本発明の特徴は、ＨＭＭ法における標準パター
ンの各状態の多次元ガウス分布の平均ベクトルを定数と
せずに、一時刻前の入力信号の特徴ベクトルから予測器
によって計算した予測ベクトルを用いることによって、
音声のような動的に変化する入力信号を少ないパラメー
タで効率良く表現することができる点である。

【００６２】ＨＭＭ法の場合、単語ｗの長さＮ_wの標準
パターンは長さＮ_wの状態の系列であり、第ｎ番目の状
態は

【００６３】

【数１２】

【００６４】で決まる

【００６５】

【外２９】

【００６６】をベクトル出力確率分布として有する。

【００６７】

【数１３】

【００６８】このベクトル出力確率分布を用いて、単語
出力確率が式４によって計算される。

【００６９】本発明の場合、単語の長さＮ_wの標準パタ
ーンは長さＮ_wの状態の系列であり、第ｎ番目の状態は

【００７０】

【外３０】

【００７１】を有している。第ｎ番目の状態が入力信号
の第ｔ番目の特徴ベクトルａ_tを出力するベクトル出力
確率は、次の多次元ガウス分布から算出される。

【００７２】

【数１４】

【００７３】ここで従来のＨＭＭ法と異なるのはガウス
分布の平均ベクトルが定数の

【００７４】

【外３１】

【００７５】ではなく、

【００７６】

【外３２】

【００７７】に代わっている点である。この予測ベクト
ルは第ｎ番目の状態のもつ

【００７８】

【外３３】

【００７９】と入力信号の第ｔ−１番目の特徴ベクトル
ａ_t-1を用いて、予測器ｆ（・）によって計算される。

【００８０】

【数１５】

【００８１】ここで関数ｆは、特徴ベクトルの次元をＰ
次元、制御信号ベクトルの次元をＱ次元とすると、Ｐ＋
Ｑ次元からＰ次元への関数である。この関数ｆ（・）
は、時刻ｔ−１の特徴ベクトルから時刻ｔの特徴ベクト
ルを予測する予測器とみなすことができる。予測の様子
を図１を用いて説明する。図は長さＴの入力信号の特徴
ベクトル系列ａ₁，…，ａ_t，…，ａ_Tと長さＮ_wの標
準パターンのマッチングを図式的に示したもので、ＨＭ
Ｍ法におけるトレリス（図７）に対応したものである。
ここで入力信号の時刻ｔと標準パターンの状態ｎで指定
されるトレリス上の格子点（ｔ，ｎ）において

【００８２】

【外３４】

【００８３】を計算するために、予測器ｆ（・）を用い
て多次元ガウス分布の平均ベクトルを

【００８４】

【外３５】

【００８５】として計算している。この予測ベクトルの
計算には図からわかるように、第ｎ番目の状態の有する

【００８６】

【外３６】

【００８７】と一時刻前の入力信号の特徴ベクトルａ
_t-1を用いている。

【００８８】以上のように本発明によれば、第ｎ番目の
状態のガウス分布の

【００８９】

【外３７】

【００９０】が、時々刻々と入力信号に応じて

【００９１】

【外３８】

【００９２】として計算し直される。そのためＨＭＭ法
において図８で指摘したような一定値の平均ベクトル
で、動的に変化する入力信号を記述するという問題点が
解消され、入力信号に追従して動的に変化する平均ベク
トルを用いて、入力音声と精度良くマッチングする標準
パターンを提供できる。その様子を図８に対比して、図
２に示した。この２つの図を比較することによっても、
本発明の有効性は明白である。

【００９３】次に本発明において用いる予測器ｆ（・）
について補足説明する。ｘとｚをＰ次元のベクトル、ｙ
をＱ次元のベクトルとすると予測器は

【００９４】

【数１６】

【００９５】と表される。このようなＰ＋Ｑ次元からＰ
次元への関数としてはさまざまなものが考えられる。

【００９６】線形な関数としては行列を用いることがで
きる。

【００９７】

【数１７】

【００９８】ここでｚ_i，ｘ_i，ｙ_iはそれぞれベクト
ルの成分を表している。予測器は、Ｐ行Ｐ列の行列Ｆ_ij
とＰ行Ｑ列の行列Ｇ_ijとＰ次元のベクトルＨ_iで表され
る。予測器のパラメータ数はＰ（Ｐ＋Ｑ＋１）個であ
る。

【００９９】非線形な関数としては、入力ユニットをＰ
＋Ｑ個、出力ユニットをＰ個有する階層的ニューラルネ
ットワークを用いることができる。階層的ニューラルネ
ットワークに関しては、「ニューラルネットワーク情報
処理（麻生英樹著、産業図書）」に詳しく解説されてい
る。隠れユニット数をＨ個とした３層ネットワークを用
いた場合の構成を図３に示す。この場合、予測器のパラ
メータは、入力層から隠れ層への結合係数（Ｐ＋Ｑ）Ｈ
個、隠れ層の閾値Ｈ個、隠れ層から出力層への結合係数
ＨＰ個と出力層の閾値Ｐ個である。

【０１００】本発明で用いている予測器は上記のような
関数として実現されるが、これはすべての認識対象単語
の標準パターンのすべての状態に対して同じ予測器が使
用される。各認識対象単語の標準パターンの各状態にお
いてそれぞれ異なる制御信号ベクトルを用いて予測器を
駆動することによって、同じ特徴ベクトルａ_t-1から単
語や状態に応じて異なった

【０１０１】

【外３９】

【０１０２】が出力される。

【０１０３】

【実施例】図４は本発明を実施した単語音声認識装置の
ブロック図である。マイクロホン１０より入力された音
声信号は、分析部２０によって標本化，デジタル化され
てから高速フーリエ変換などによって特徴ベクトルａ_t
に変換されマイクロプロセッサ３０に送られる。このマ
イクロプロセッサには、メモリとして標準パターン記憶
部４０と、予測器パラメータ記憶部５０と、特徴ベクト
ル記憶部６０と、ワークメモリ７０が接続されている。

【０１０４】標準パターン記憶部４０には、各単語ｗの
標準パターンのパラメータとして、

【０１０５】

【外４０】

【０１０６】の系列（ただしｎ＝１，…，Ｎ_w）と各状
態間の

【０１０７】

【外４１】

【０１０８】が記憶されている。予測器パラメータ記憶
部５０には、予測器のパラメータが記憶されている（予
測器として線形なものを用いる場合、パラメータは
Ｆ_ij，Ｇ_ij，Ｈ_i）。特徴ベクトル器部６０に、一時刻
前の入力信号の特徴ベクトルａ_t-1が記憶されている。
ワークメモリ７０は、各認識対象単語の標準パターンに
よる単語出力確率を計算する際に、ベクトル出力確率や
累積確率を一時記憶しておくための作業エリアである。
これらの標準パターン記憶部４０，予測器パラメータ記
憶部５０，特徴ベクトル記憶部６０，ワークメモリ７０
は、マイクロプロセッサの主記憶内にあって区別される
メモリエリアとして定義されても良い。

【０１０９】認識処理は、マイクロプロセッサ３０のプ
ログラムによって実行される。入力信号の先頭の特徴ベ
クトルａ₁が入力されると、次のような初期設定が各認
識対象単語ｗの各状態に対して行われる（ｗ＝１，…，
Ｗ、ｎ＝１，…，Ｎ_w、Ｎ_wは単語ｗの標準パターンの
状態数）。

【０１１０】

【数１８】

【０１１１】これはフォワード計算法（あるいはビタビ
計算法）の式７の初期条件に対応したものである。また
特徴ベクトル記憶部６０に、特徴ベクトルａ₁を記憶す
る。

【０１１２】以下、入力信号の特徴ベクトルａ_tが入力
される毎に、図５のフローチャートに示す処理がマイク
ロプロセッサ３０によって実行される。図中の１０１の
ブロックでは、特徴ベクトル記憶部６０に記憶された一
時刻前の特徴ベクトルａ_t-1と標準パターン記憶部４０
に記憶された

【０１１３】

【外４２】

【０１１４】から式１５に基づいて予測ベクトルを算出
する。そこで算出された予測ベクトルを平均ベクトルと
して、１０２のブロックにおいて

【０１１５】

【外４３】

【０１１６】が式１４に基づいて計算され、ワークメモ
リ７０上に変数ｂとして格納される。１０３のブロック
においてはワークメモリ７０上から累積確率α^w（ｎ）
を読み出して、それに標準パターン記憶部４０から読み
出した

【０１１７】

【外４４】

【０１１８】を乗じて、ワークメモリ７０上に変数Ｐと
して格納する。１０４のブロックにおいてはワークメモ
リ７０上から累積確率α^w（ｎ−１）を読み出して、そ
れに標準パターン記憶部４０から読み出した

【０１１９】

【外４５】

【０１２０】を乗じて、ワークメモリ７０上の変数Ｐに
加算して格納する。１０３から１０４のブロックにおけ
る処理は、式８による漸化式計算に対応する。

【０１２１】以上の処理が終了すると、入力信号の時刻
が１時刻増加され、次の特徴ベクトルａ_tの入力を待っ
て同様の処理が行われる。入力信号が終了して最後の特
徴ベクトルａ_Tが処理された後、マイクロプロセッサ３
０の内部では次のような処理が行われる。ワークメモリ
７０に記憶されている各単語ｗ毎の累積確率α
^w（Ｎ_W）は、各単語の標準パターンが入力信号を出力
する単語出力確率を与えている。これらを順次比較する
ことによって最大値を求め、これに対応する

【０１２２】

【外４６】

【０１２３】を認識結果として出力する。

【０１２４】

【発明の効果】以上述べたように、ＨＭＭ法の各状態の
ガウス分布の平均ベクトルを定数ではなく、予測器によ
る予測ベクトルとして入力信号に応じて時々刻々計算し
直すことによって、少ない状態数、すなわち少ないパラ
メータ数で高精度な信号のモデル化を行い、低コストか
つ高性能なパターン認識装置の実現が可能となった。

【図面の簡単な説明】

【図１】本発明の原理を説明するための図である。

【図２】本発明の原理を説明するための図である。

【図３】本発明の原理を説明するための図である。

【図４】本発明の一実施例を示すブロック図である。

【図５】要部の処理を示すフローチャートである。

【図６】従来技術を説明するための図である。

【図７】従来技術を説明するための図である。

【図８】従来技術を説明するための図である。

【符号の説明】

１０マイクロホン２０分析部３０マイクロプロセッサ４０標準パターン記憶部５０予測器パラメータ記憶部６０特徴ベクトル記憶部７０ワークメモリ

Claims

【特許請求の範囲】

【請求項１】ＨＭＭ法によって時系列パターンを認識す
るパターン認識方法において、ＨＭＭ法の各状態のベクトル出力確率分布の平均ベクト
ルとして、状態が有する制御信号ベクトルと入力信号の
一時刻前の特徴ベクトルから予測器によって予測した予
測ベクトルを用いることを特徴とするパターン認識方
法。
【請求項２】入力信号を特徴ベクトルの系列ａ₁，…，
ａ_t，…，ａ_Tに変換し、複数の状態とその状態間の遷移で構成された認識対象単
語ｗの標準パターンの各状態が有する【外１】と、各状態の間の【外２】を記憶し、第ｔ−１フレームの特徴ベクトルａ_t-1と【外３】を入力とする予測器を用いて第ｔフレームの特徴ベクト
ルａ_tに対する【外４】を計算し、認識対象単語ｗの標準パターンの第ｎ番目の状態におい
て第ｔフレームの特徴ベクトルａ_tを出力する確率を計
算するための出力確率分布として、前記計算された【外５】を平均ベクトルとし、【外６】を共分散行列とする多次元ガウス分布を用い、前記特徴ベクトル出力確率を用いて認識対象単語ｗの標
準パターンが入力信号の特徴ベクトル系列を出力する確
率を隠れマルコフモデルのフォワード計算法あるいはビ
タビ計算法により計算し、すべての認識対象単語に対する前記計算された確率のな
かで最大の確率値を有する単語を認識結果として出力す
ることを特徴とするパターン認識方法。
【請求項３】入力信号を特徴ベクトルの系列ａ₁，…，
ａ_t，…，ａ_Tに変換する特徴抽出手段と、複数の状態とその状態間の遷移で構成された認識対象単
語ｗの標準パターンの各状態が有する【外７】と、各状態の間の【外８】を記憶する標準パターン記憶手段と、第ｔ−１フレームの特徴ベクトルａ_t-1と【外９】を入力とする予測器を用いて第ｔフレームの特徴ベクト
ルａ_tに対する【外１０】を計算する予測ベクトル計算手段と、認識対象単語ｗの標準パターンの第ｎ番目の状態におい
て第ｔフレームの特徴ベクトルａ_tを出力する確率を計
算するための出力確率分布として、前記予測ベクトル計
算手段により計算される【外１１】を平均ベクトルとし、【外１２】を共分散行列とする多次元ガウス分布を用いる特徴ベク
トル出力確率計算手段と、前記特徴ベクトル出力確率を用いて認識対象単語ｗの標
準パターンが入力信号の特徴ベクトル系列を出力する確
率を隠れマルコフモデルのフォワード計算法あるいはビ
タビ計算法により計算する単語確率計算手段と、すべての認識対象単語に対する前記単語確率計算手段の
出力のなかで最大の確率値を有する単語を認識結果とし
て出力する認識結果出力手段とからなることを特徴とす
るパターン認識装置。