JPH11328400A

JPH11328400A - パターン認識方法およびパターン認識装置

Info

Publication number: JPH11328400A
Application number: JP13288798A
Authority: JP
Inventors: Akinori Koshiba; 亮典小柴; Hiroshi Kanazawa; 博史金澤; Mitsuyoshi Tatemori; 三慶舘森
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-05-15
Filing date: 1998-05-15
Publication date: 1999-11-30

Abstract

(57)【要約】【課題】入力される特徴ベクトルをｎ次元正規分布に従
う複数カテゴリのいずれかに分類するパターン認識にお
いて、入力特徴ベクトルと各カテゴリ間の尤度の計算を
効率良く、かつ、高い精度で行うパターン認識方法を提
供すること。【解決手段】入力特徴ベクトルｙに対し、多次元正規分
布に従う複数カテゴリｉとの尤度を計算して最も尤度の
高いカテゴリｉに分類するパターン認識方法において、
多次元正規分布の共分散行列を、いくつかの入力特徴ベ
クトルの成分の組に関する行列だけをブロック行列とし
て残してブロック対角化し、これと多次元正規分布の平
均ベクトルμ_iとから構成した多次元正規分布を用いる
ようにすることにより、尤度の計算を効率良く、かつ、
高い精度で行うことを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、認識対象パターン
を特徴ベクトル化して与えられる入力ベクトルを多次元
正規分布に従う複数カテゴリのいずれかに分類するパタ
ーン認識方法およびパターン認識装置に関する。

【０００２】

【従来の技術】認識対象パターンをｎ次元特徴ベクトル
ｙで表し、このパターンをｎ次元正規分布に従う複数の
カテゴリのいずれかに分類するパターン認識方法は、画
像や音声におけるパターン認識においてよく用いられる
方法である。この認識方法においては、特徴ベクトルｙ
が、あるカテゴリｉから出力される出力確率ｂ_i( ｙ)
は、次の式（１）で表される。

【０００３】

【数１】

【０００４】ここで、μ_iはカテゴリｉの平均ベクト
ル、そして、Σ_iはカテゴリｉの共分散行列であり、ま
た、（ｙ−μ_i）^tはベクトル（ｙ−μ_i）の転置を表
す。

【０００５】そして、特徴ベクトルｙを、この出力確率
ｂ_i（ｙ）が最大となるカテゴリｉに分類すると、その
該当のカテゴリｉが特徴ベクトルｙの認識結果となる。

【０００６】このパターン認識手法を用いる場合、式
（１）の指数項である式（２）の乗算回数は、ｎ×ｎの
オーダになる。

【０００７】

【数２】

【０００８】従って、実システムにおいて、この方式を
用いる場合には、この部分の計算量が支配的となり、実
時間での認識が実現できないという問題がしばしば生じ
る。そこで、これまで出力確率の精度を損なうことな
く、計算量を減らして高速化を図り得る様々な方法が研
究されてきた。

【０００９】その代表的な方法としては次の２つの方法
が挙げられる。

【００１０】第１には、共分散行列の対角成分のみ取り
出し、共分散行列を対角共分散行列で置き換える（“参
考文献 S.Sagayama and S.Takahashi：On the use of
scalar quantization for fast HMM computation，Pro
c．of ICASSP 95，pp.213-216(1995)参照”）方法であ
り、第２には、入力特徴ベクトルをベクトル量子化し
て、出力確率の計算を表引きで行う（“参考文献中
川、チェンチャルーン：連続出力分布型ＨＭＭの出力確
率計算の短縮法、音学講論1-Q-22(1995-3)”）方法であ
る。

【００１１】そして、これらのうち、第１の方法を用い
る場合、カテゴリｉの対角共分散行列Σ_Ｄiは Σ_Ｄi＝ｄｉａｇ（σ₁ ²，σ₂ ²， …σ_n ²）と表されるので、式（１）は次の式（３）のように表す
ことができる。ただし、σ_ij ²（ｊ＝１，２， …ｎ）
はカテゴリｉの共分散行列の対角成分である。

【００１２】

【数３】

【００１３】ここで、式（３）の指数項は次の式（４）
の如きとなるので、この部分の乗算回数はｎのオーダと
なり、全共分散行列を使う場合に比べて効率良く出力確
率を計算することができる。

【００１４】

【数４】

【００１５】さらに第１の方法では、入力ベクトルｙを
各次元毎にスカラ量子化し、式（５）の結果をテーブル
化しておくことにより、乗算なしで式（４）を計算する
方法も提案されている。

【００１６】

【数５】

【００１７】また、第２の方法を用いる場合には、まず
大量のデータベースから入力特徴ベクトルをベクトル量
子化して、コードベクトルを作成する。そして作成され
た各コードベクトルに対して、あらかじめ、すべての確
率密度分布の出力確率を計算しておく。そして、パター
ン認識の際には、入力特徴ベクトルに一番近いコードベ
クトルを選び、このコードベクトルに対応する出力確率
の値を表引きして出力確率を決定する。

【００１８】この方法は、式（１）の計算を全く行う必
要がなくなるため、非常に効率がよい。また、この方法
で出力確率の値を求めてから、値の大きいものについて
のみ、式（１）を再計算して精度を高めることもでき
る。

【００１９】

【発明が解決しようとする課題】画像や音声におけるパ
ターン認識に良く用いられるパターン認識方法として、
認識対象パターンをｎ次元特徴ベクトルｙで表し、この
パターンをｎ次元正規分布に従ういくつかのカテゴリに
分類する認識方法があるが、この認識方法の場合、式
（１）の指数項である式（２）の乗算回数が多く、実時
間での認識処理ができないと云う問題がある。

【００２０】そして、これを解決するための手法とし
て、『共分散行列の対角成分のみ取り出し、共分散行列
を対角共分散行列で置き換える方法』や『入力特徴ベク
トルをベクトル量子化して、出力確率の計算を表引きで
行う方法』がある。前者においては、出力確率の計算に
対角共分散行列を用いる。そして、出力確率の計算に対
角共分散行列を用いる場合、共分散行列の非対角成分を
“０”とおくことと等価になる。このため、実際に非対
角成分が無視できない値を持つ場合、すなわち、相関の
強い特徴ベクトルの成分の組がある場合には、全共分散
行列を用いる場合に比べて著しく認識性能が悪化するこ
とがある。

【００２１】一方、後者の方法である『入力ベクトルを
ベクトル量子化して全共分散行列を用いる』ようにする
場合、入力ベクトルの次元数が大きくなるとべクトル量
子化による歪みが大きくなるので、これを防ぐためにコ
ードブックが大きくならざるを得ないと云う問題があ
る。また、再計算によりこの歪みを解消しようとする
と、ベクトル量子化による歪みを考慮して、再計算する
個数を増やさねばならず、必ずしも計算効率の大きな改
善とならないこともある。

【００２２】そこで、この発明の目的とするところは、
上述のような従来技術の欠点を解消し、認識性能を損な
うことなく、計算効率を改善することができるようにし
たパターン認識方法および装置を提供することにある。

【００２３】

【課題を解決するための手段】上記目的を達成するた
め、本発明は次のようにする。

【００２４】すなわち、第１には、本発明は、認識対象
パターンを特徴ベクトル化して与えられる入力ベクトル
について、多次元正規分布に従う複数カテゴリとの尤度
を計算し、この計算にて得られた尤度のうち、最も高い
尤度となるカテゴリを該当カテゴリとして前記入力ベク
トルをカテゴリ分類するようにしたパターン認識方法に
おいて、前記多次元正規分布は、共分散行列をいくつか
の入力ベクトルの成分の組に関する行列のみブロック行
列として残してブロック対角化することにより単純化す
ると共に、このブロック対角化した共分散行列と多次元
正規分布の平均ベクトルとから構成したものを用いるこ
とを特徴とする。

【００２５】また、第２には本発明は、前記パターン認
識方法において、多次元正規分布の共分散行列をそのま
ま用いた場合の入力ベクトルと各カテゴリの尤度と、ブ
ロック対角化した共分散行列を用いた場合の入力ベクト
ルと各カテゴリの尤度の差が、小さくなるようにブロッ
ク対角化する入力ベクトルの成分の組を選ぶことを特徴
とする。

【００２６】すなわち、本発明は、画像や音声などの認
識対象パターンをｎ次元の特徴ベクトルにしてこれを入
力ベクトルｙとし、当該入力ベクトルｙに対し、多次元
正規分布に従う複数カテゴリｉ（ｉ＝１，２，３，…）
との尤度を計算して前記入力ベクトルｙをこれら複数の
カテゴリｉのうち、最も尤度の高いカテゴリに分類する
パターン認識方法を実行するにあたり、多次元正規分布
として次のようなものを用いるようにした。

【００２７】すなわち、カテゴリそれぞれにおいて、そ
のカテゴリの平均ベクトル及び共分散行列からなる多次
元正規分布における当該多次元正規分布の共分散行列
を、いくつかの入力ベクトルの成分の組に関する行列だ
けをブロック行列として残してブロック対角化するブロ
ック対角化処理をして単純化する。

【００２８】そして、このブロック対角化した共分散行
列（ブロック対角共分散行列）と、多次元正規分布の平
均ベクトルとからそのカテゴリの多次元正規分布を構成
する。

【００２９】そして、このような構成の各カテゴリｉの
多次元正規分布を用いて入力ベクトルｙの各カテゴリｉ
に対する尤度を計算し、最も高い尤度のカテゴリを認識
対象パターンのカテゴリとするようにパターン認識する
ようにした。

【００３０】特に、ブロック対角共分散行列を用いたこ
とにより、従来のように全共分散行列を用いる場合に比
べて尤度を求める際の計算量が少なくて済むようにな
り、また、共分散行列の適当な成分を残すようにしたこ
とにより、対角成分のみ用いる対角共分散行列よりも多
くの情報量を持つことができ、従って、出力確率の歪み
を小さくすることができて、認識精度を高精度に保つこ
とができるようになる。

【００３１】また、第３に本発明は、認識対象パターン
を特徴ベクトル化して与えられる入力ベクトルについ
て、多次元正規分布に従う複数カテゴリとの尤度を計算
し、この計算にて得られた尤度のうち、最も高い尤度と
なるカテゴリを該当カテゴリとして前記入力ベクトルを
カテゴリ分類するようにしたパターン認識装置におい
て、認識対象の音声信号データを特徴ベクトルの時系列
データに変換する特徴ベクトル抽出手段と、各種単語の
リストを情報として持つ単語リスト提供手段と、音素、
音節、単語等における音韻それぞれの共分散行列でいく
つかの成分の組に関する行列のみブロック行列を残して
ブロック対角化した最適ブロックを共分散行列辞書とし
て保持すると共に、各種音韻の共分散行列それぞれの平
均ベクトルとを保持する音韻辞書と、特徴ベクトル抽出
部が抽出した特徴ベクトルの時系列に対して、単語リス
ト提供手段の単語リストと音韻辞書とを参照して各単語
に対する尤度を計算する単語尤度計算手段と、この単語
尤度計算手段の求めた各単語の尤度から最も確からしい
単語を認識結果として得る認識結果判定手段とを具備す
ることを特徴とする。

【００３２】このような構成のパターン認識装置によれ
ば、入力された音声データは、まず特徴ベクトル抽出手
段に送られ、ここで特徴ベクトルの時系列に変換され
る。特徴ベクトル抽出手段で変換されて得られた特徴ベ
クトルの時系列は単語尤度計算手段に送られる。単語尤
度計算手段では、単語リスト提供手段に予め用意された
単語リストおよび音韻辞書とを用いて、各単語毎に入力
特徴ベクトルの尤度が算出される。ここで、音韻辞書に
は、各音韻が、ＨＭＭ（Hidden Markov Model ）として
蓄えられている。各ＨＭＭが持つ共分散行列は、あらか
じめ学習しておいた共分散行列辞書をブロック対角化す
ることにより、ブロック対角共分散行列辞書として蓄え
られている。

【００３３】単語尤度計算手段で算出された単語毎の尤
度は、認識結果判定手段に送られ、ここで尤度最大の単
語が認識結果として決定され、その決定された単語の情
報が認識結果として出力される。

【００３４】本音声認識システムでは、共分散行列辞書
を精度を損なうことなく単純化するため、音素、音節、
単語等における音韻それぞれの共分散行列でいくつかの
成分の組に関する行列のみブロック行列を残してブロッ
ク対角化した最適ブロックを共分散行列辞書として保持
すると共に、各種音韻の共分散行列それぞれの平均ベク
トルとを保持してこれらを入力特徴ベクトルの尤度計算
に用いるようにしたことにより、認識対象パターンの入
力特徴ベクトルをｎ次元正規分布に従う複数カテゴリに
分類するパターン認識において、入力ベクトルと各カテ
ゴリ間の尤度の計算を効率良く、かつ、高い精度で行う
ことができるようになる。

【００３５】

【発明の実施の形態】（第１の実施形態）本発明の第１
の実施形態を図面に基いて以下に説明する。

【００３６】図２は従来のパターン認識方法を説明する
図である。ただし、従来の技術で既に説明した技術に関
してはそれを参照することとし、ここでは改めて説明は
しない。

【００３７】音声や画像の認識対象パターンをｎ次元の
特徴ベクトルで表してこれを入力ベクトルｙとし、この
入力ベクトルｙをｎ次元正規分布に従ういくつかのカテ
ゴリのうちのいずれに該当するかを判定することで認識
するパターン認識方法、すなわち、入力ベクトルｙをｎ
次元正規分布に従ういくつかのカテゴリに分類するパタ
ーン認識方法では、出力確率をｂ_i（ｙ）とおくと、式
（６）で表される各カテゴリのうちから、出力確率ｂ_i
（ｙ）が最大となるカテゴリに入力ベクトルｙを分類す
ることによって前記認識対象パターンを認識する。つま
り、出力確率ｂ_i（ｙ）が最大となるカテゴリに前記入
力ベクトルｙは該当するとし、認識対象パターンは当該
カテゴリに相当すると認識する。

【００３８】

【数６】

【００３９】ただし、μ_i，Σ_iはそれぞれ、ｎ次元正
規分布の平均ベクトルおよび共分散行列である。以下で
は特に断りのない限り、共分散行列Σ_iをΣと表すこと
とする。またΣ＝｛σ_ij｝（i ，j ＝１，２， …，
ｎ）とおく。

【００４０】ここで、上記共分散行列の、いくつかの入
力ベクトルの成分の組に関する行列だけをブロック行列
として残してブロック対角化したブロック対角共分散行
列をΣ_BDとおく。

【００４１】図１は本発明によるパターン認識方法を説
明するための図である。

【００４２】画像や音声などの認識対象パターンをｎ次
元の特徴ベクトルにしてこれを入力ベクトルｙとし、当
該入力ベクトルｙに対し、多次元正規分布に従う複数カ
テゴリｉ（ｉ＝１，２，３，…）との尤度を計算して前
記入力ベクトルｙをこれら複数のカテゴリｉのうち、最
も尤度の高いカテゴリに分類するパターン認識方法を実
行するにあたり、本発明では多次元正規分布として次の
ようなものを用いる。

【００４３】すなわち、カテゴリそれぞれにおいて、そ
のカテゴリの平均ベクトル及び共分散行列からなる多次
元正規分布における当該多次元正規分布の共分散行列
を、いくつかの入力ベクトルの成分の組に関する行列だ
けをブロック行列として残してブロック対角化するブロ
ック対角化処理をする。

【００４４】そして、このブロック対角化した共分散行
列（ブロック対角共分散行列）と、多次元正規分布の平
均ベクトルとからそのカテゴリの多次元正規分布を構成
する。

【００４５】このような構成の各カテゴリｉの多次元正
規分布を用いて入力ベクトルｙの各カテゴリｉに対する
尤度を計算する。

【００４６】ブロックの数、およびブロックの次元は実
現するシステムの計算速度および認識精度のトレードオ
フによって決まるが、ここでは、以下のようにＤ個のブ
ロックにブロック対角化した共分散行列を考える。

【００４７】

【数７】

【００４８】ここで、Ａ_iはｄ_i次元の正方行列であ
り、また、

【数８】

【００５０】ここで、各ブロックは次式に基づいて求めることができ
る。

【００５２】

【数９】

【００５３】これはｘ^tΣ^-1ｘ＝１という制約の下で、
ｘ^t（Σ^-1−Σ_BD ^-1）ｘの最大値、すなわち、共分散行
列をブロック対角化することによる歪みの最大値を最小
にするブロック対角化である。

【００５４】Σの代わりにΣ_BDを用いると、上記の式
（６）は、次の式（９）のように表される。

【００５５】

【数１０】

【００５６】ここで、ｘ_kはｄ_k次元ベクトルであり、
次式を満たす。

【００５７】

【数１１】

【００５８】上述の式（９）における指数項の乗算回数
はとなる。

【００５９】実システムでは、計算速度、認識精度によ
って、ブロックの大きさや組が決まるが、次元ｄ_iを小
さくとれば、全共分散行列を用いる場合に比べて計算量
が少なくて済む。

【００６０】一方、共分散行列の適当な成分を残すこと
により、対角成分のみ用いる対角共分散行列よりも多く
の情報量を持つことができ、出力確率の歪みを小さくす
ることができる。

【００６１】また、この方法では、式（９）の指数項に
対して、各ブロック毎にベクトル量子化を行うことによ
り、テーブル引きにより出力確率を計算することも可能
である。この場合には、ベクトル量子化は各ブロック毎
にｄ_i次元ベクトルを量子化すれば良いので、全共分散
行列を用いるベクトル量子化の場合に比べて、量子化歪
みを小さくすることができる。

【００６２】以上、この実施形態においては、画像や音
声などの認識対象パターンをｎ次元の特徴ベクトルにし
てこれを入力ベクトルｙとし、当該入力ベクトルｙに対
し、多次元正規分布に従う複数カテゴリｉ（ｉ＝１，
２，３，…）との尤度を計算して前記入力ベクトルｙを
これら複数のカテゴリｉのうち、最も尤度の高いカテゴ
リに分類するパターン認識方法を実行するにあたり、多
次元正規分布として次のようなものを用いるようにし
た。

【００６３】すなわち、カテゴリそれぞれにおいて、そ
のカテゴリの平均ベクトル及び共分散行列からなる多次
元正規分布における当該多次元正規分布の共分散行列
を、いくつかの入力ベクトルの成分の組に関する行列だ
けをブロック行列として残してブロック対角化するブロ
ック対角化処理をして単純化する。

【００６４】そして、このブロック対角化した共分散行
列（ブロック対角共分散行列）と、多次元正規分布の平
均ベクトルとからそのカテゴリの多次元正規分布を構成
する。

【００６５】そして、このような構成の各カテゴリｉの
多次元正規分布を用いて入力ベクトルｙの各カテゴリｉ
に対する尤度を計算し、最も高い尤度のカテゴリを認識
対象パターンのカテゴリとするようにパターン認識する
ようにした。

【００６６】特に、ブロック対角共分散行列を用いたこ
とにより、従来のように全共分散行列を用いる場合に比
べて尤度を求める際の計算量が少なくて済むようにな
り、また、共分散行列の適当な成分を残すようにしたこ
とにより、対角成分のみ用いる対角共分散行列よりも多
くの情報量を持つことができ、従って、出力確率の歪み
を小さくすることができて、認識精度を高精度に保つこ
とができるようになる。

【００６７】以上、本発明の手法の詳細を説明した。次
に、この手法を用いて音声認識をする装置について説明
する。

【００６８】（第２の実施形態）図３は本発明の第２の
実施形態に係わる音声認識システムの構成である。この
音声認識システムは、特徴ベクトル抽出部１０１、単語
尤度計算部１０２、認識結果判定部１０３、単語リスト
１０４、共分散行列辞書１０５、最適ブロック生成部１
０６、ブロック対角共分散行列辞書１０７、音韻辞書１
０８を備えている。

【００６９】これらのうち、特徴ベクトル抽出部１０１
は、入力端子１００より入力された認識対象の音声信号
データを特徴ベクトルの時系列に変換するものであり、
単語リスト１０４は、各種単語のリストを情報として持
つものである。

【００７０】共分散行列辞書１０５は、各種音韻（音
素、音節、単語の音韻など）それぞれについての共分散
行列を収容した辞書であり、最適ブロック生成部１０６
は共分散行列辞書１０５より得た各種音韻それぞれの共
分散行列についてそれぞれ最適ブロックを生成する処理
を行うものであり、ブロック対角共分散行列辞書１０７
はこの最適ブロック生成部１０６にて得た各種音韻それ
ぞれについての最適ブロックを、共分散行列辞書として
保持するものであり、音韻辞書１０８はこのブロック対
角共分散行列辞書１０７と各種音韻の共分散行列それぞ
れの平均ベクトルとを保持したものである。

【００７１】単語尤度計算部１０２は、特徴ベクトル抽
出部１０１が抽出した特徴ベクトルの時系列に対して、
単語リスト１０４と音韻辞書１０８とを参照して各単語
に対する尤度を計算するものであり、また、認識結果判
定部１０３は、この単語尤度計算部１０２の求めた各単
語の尤度から最も確からしい単語を認識結果として得、
出力端子１０９より出力するものである。

【００７２】このような構成の本音声認識システムの作
用を、簡単に説明する。本音声認識システムに入力され
た音声データは、まず特徴ベクトル抽出部１０１に送ら
れ、ここで特徴ベクトルの時系列に変換される。

【００７３】特徴ベクトル抽出部１０１で変換されて得
られた特徴ベクトルの時系列は単語尤度計算部１０２に
送られる。単語尤度計算部１０２では、予め用意された
単語リスト１０４および音韻辞書１０８を用いて、各単
語毎に特徴ベクトルの尤度が算出される。ここで、音韻
辞書１０８には、各音韻が、詳細は後述するＨＭＭ（Hi
dden Markov Model ）として蓄えられている。各ＨＭＭ
が持つ共分散行列は、あらかじめ学習しておいた共分散
行列辞書１０５を最適ブロック生成器１０６を用いてブ
ロック対角化することにより、ブロック対角共分散行列
辞書１０７として蓄えられている。

【００７４】単語尤度計算部１０２で算出された単語毎
の尤度は、認識結果判定部１０３に送られ、ここで尤度
最大の単語が認識結果として決定され、その決定された
単語の情報が認識結果として出力される。

【００７５】本音声認識システムの動作の概要はこのよ
うなものである。本音声認識システムでは、音韻をＨＭ
Ｍとして蓄えて単語尤度計算に用いるようにしているこ
とが特徴であり、ＨＭＭは音声認識手段として極めて有
効な方法である。そこで、ＨＭＭを用いたパターン認識
手法をもとに、本発明に係わる音声認識技術およびその
効果を説明する。

【００７６】ＨＭＭを用いた音声認識方法に関しては、
例えば、文献『“確率モデルによる音声認識”，電子情
報通信学会、１９８８』に詳しく述べられているので、
詳細は当該文献を参照することとし、ここでは触れな
い。

【００７７】ＨＭＭを用いた音声認識システムでは、入
力音声は、まず特徴ベクトルの時系列表現に変換され
る。ここでは、時刻ｔにおける音響的な特徴を表す特徴
ベクトルをｎ次元ベクトルｙ_tで表現する。この特徴ベ
クトルが照合される音声のパターンは、その構成単位
（音素、音節、単語など）毎に図４で表されるような、
状態とそれを結ぶアークからなるＨＭＭで表現される。

【００７８】ここで、各状態は、その状態から他の状態
へ遷移する確率を示す状態遷移確率を持ち、各アークは
遷移の際に出力する音響的な特徴の出力確率を持つ。

【００７９】図４では、状態遷移確率をａ_ij、そして、
出力確率をｂ_ij（ｙ_t）で表してある。

【００８０】ただし、i ，j はそれぞれ状態を表す。特
徴ベクトルの時系列表現｛ｙ_t｝が与えられると、Vite
rbi アルゴリズムにより、認識対象パターン毎に
｛ｙ_t｝が出力される確率が計算される。

【００８１】この結果、特徴ベクトルの時系列｛ｙ_t｝
が出力される確率が最大となるパターンが認識結果とし
て出力される。

【００８２】ＨＭＭとして混合連続確率密度を持つＨＭ
Ｍを仮定すると、“状態ｉ”から“状態ｊ”への遷移に
よってｙ_tが出力される出力確率は式（１０）のように
あらわされる。

【００８３】ここで、λ_ijm，ｂ_ijm（ｙ_t）は、それぞれｍ番目の
分布の分岐確率および出力確率である。これらの間には
以下の条件が成立する。

【００８４】

【数１２】

【００８５】ここで、ｂ_ijm（ｙ_t）がｎ次元正規分布
に従うと仮定すると、ｂ_ijmは次の式（１３）の如く表
される。

【００８６】

【数１３】

【００８７】ここで、μ_ijm，Σ_ijmは、それぞれ正規
分布の平均ベクトルおよび共分散行列を表す。

【００８８】式（１３）の指数項である式（１４）に注
目すると、入力特徴ベクトルｙ_tがｎ次元の場合、この
部分を直接計算すると、計算量はｎ×ｎ回のオーダの乗
算となる。

【００８９】

【数１４】

【００９０】混合連続確率密度分布を持つＨＭＭを用い
る音声認識システムでは、このＨＭＭの出力確率の計算
がシステムの計算量において支配的であり、この部分の
計算を効率良く行うことがシステムの高速化において重
要な問題となる。

【００９１】ここで、Σ_ijmをブロック対角化すること
により、得られる共分散行列をΣ_BD _ijmとおく。以下、
簡単のため、Σ_ijm、Σ_BDijmは、それぞれΣ、Σ_BDと
表すことにする。

【００９２】ブロック対角化におけるブロックの大き
さ、個数は、計算量およびメモリなどのトレードオフに
より決まるが、ここでは簡単のため、すべての確率密度
分布に対して２×２のブロックを１つ持つようなブロッ
ク対角共分散行列を考える。

【００９３】ここで、全共分散行列をΣ＝｛σ_ij｝，
（i ，ｊ＝１， …，ｎ）とおくと、ブロック対角共分
散行列Σ_BDは次のように表される。

【００９４】

【数１５】

【００９５】ブロック対角化する特徴ベクトルの成分の
組合せ（ｐ，ｑ）は第２の実施形態において既に説明し
たように、次式によって定める。

【００９６】

【数１６】

【００９７】ここで、λ（Ａ）は行列Ａの固有値を表
す。

【００９８】式（１６）で求まる特徴ベクトルの組合せ
（p ，q ）は、（ｙ_t−μ_ijm）^tΣ（ｙ_t−μ_ijm）
＝１という制約の下で、式（１４）と式（１７）の値の
差を最小にする組合せである。

【００９９】

【数１７】

【０１００】式（１５）で表されるような、ブロック対
角共分散行列を用いた場合、上記の式（１７）は次式の
ように表される。

【０１０１】

【数１８】

【０１０２】ただし（p ，q ）は式（１６）で定まる、
ブロック対角化する特徴ベクトルの成分の組合せであ
り、ｘ，Ａはそれぞれ、

【数１９】

【０１０３】である。

【０１０４】従って、式（１８）の共分散行列に関係す
る乗算回数は、この場合、（ｎ−２）＋２×２回とな
り、全共分散行列を用いる場合での乗算回数に比べて大
幅に少なくて済む。また、共分散行列の適宜なブロック
を残すことにより、対角成分のみ用いる対角共分散行列
よりも多くの情報量を持つことができ、出力確率の歪み
を小さくすることができる。

【０１０５】実際に男声話者３名、４９２単語の孤立単
語認識を、対角共分散行列を用いて行った場合とブロッ
ク対角共分散行列を用いて行った場合での結果を図５に
示す。図では入力音声レベルが２０ｄＢのケースと５ｄ
Ｂのケースを示しており、対角共分散行列を用いて行っ
た場合を“対角”、ブロック対角共分散行列を用いて行
った場合を“ブロック対角”として示してある。“改
善”はどのくらい効果があったかを示した項目であり、
“ブロック対角”での認識正答率から“対角”での認識
正答率を差し引いたものを示してある。図からわかるよ
うに、“ブロック対角”を用いている本発明方式の方
が、１％前後ではあるが、明らかに改善されている。

【０１０６】尚、式（１８）の第１項に対しては各成分
毎にスカラー量子化を行い、第２項に対してはべクトル
量子化を行えば、テーブル引きにより、出力確率を計算
することも可能である。

【０１０７】この場合にも、ベクトル量子化は２次元の
ベクトルについて行えば良く、全共分散行列を用いるベ
クトル量子化の場合に比べて、量子化歪みを小さくする
ことができる。

【０１０８】ここでは簡単のため、ブロックの次元数を
２としたが、同様な方法でブロックの数を複数にし、さ
らに各ブロック毎に次元数を独立に設定することも可能
である。ブロックの個数をｍ個、各ブロックの次元数を
ｄ₁，ｄ₂，ｄ₃，…ｄ_mとすると、式（１７）の乗算
回数はとなる。

【０１０９】尚、実システムに用いる場合には、計算量
すなわち高速化の度合と認識精度の要求に応じて、対角
化の次数を決めればよい。さらに、この場合も上と同様
に、ブロック化された特徴ベクトルの成分の組をブロッ
ク毎とに独立にべクトル量子化し。ブロック以外の特徴
ベクトルの成分をスカラ量子化することにより、テーブ
ル引きにより出力確率を計算することが可能である。

【０１１０】以上、本発明によるパターン認識装置は、
認識対象パターンを特徴ベクトル化して与えられる入力
ベクトルについて、多次元正規分布に従う複数カテゴリ
との尤度を計算し、この計算にて得られた尤度のうち、
最も高い尤度となるカテゴリを該当カテゴリとして前記
入力ベクトルをカテゴリ分類するようにしたパターン認
識装置において、認識対象の音声信号データを特徴ベク
トルの時系列データに変換する特徴ベクトル抽出手段
と、各種単語のリストを情報として持つ単語リスト提供
手段と、音素、音節、単語等における音韻それぞれの共
分散行列でいくつかの成分の組に関する行列のみブロッ
ク行列を残してブロック対角化した最適ブロックを共分
散行列辞書として保持すると共に、各種音韻の共分散行
列それぞれの平均ベクトルとを保持する音韻辞書と、特
徴ベクトル抽出部が抽出した特徴ベクトルの時系列に対
して、単語リスト提供手段の単語リストと音韻辞書とを
参照して各単語に対する尤度を計算する単語尤度計算手
段と、この単語尤度計算手段の求めた各単語の尤度から
最も確からしい単語を認識結果として得る認識結果判定
手段とを具備した構成とした。

【０１１１】そして、入力された音声データを、まず特
徴ベクトル抽出手段に送り、ここで特徴ベクトルの時系
列に変換し、これを単語尤度計算手段に与え、単語尤度
計算手段では、単語リスト提供手段に予め用意された単
語リストおよび音韻辞書とを用いて、各単語毎に入力特
徴ベクトルの尤度を算出する。ここで、音韻辞書には、
各音韻が、それぞれＨＭＭとして蓄えられている。各Ｈ
ＭＭが持つ共分散行列は、あらかじめ学習しておいた共
分散行列辞書をブロック対角化することにより、ブロッ
ク対角共分散行列辞書として蓄えられている。

【０１１２】認識結果判定手段では単語尤度計算手段で
算出された単語毎の尤度から尤度最大の単語を決定し、
その単語の情報を認識結果として出力する。

【０１１３】本音声認識システムにおいては、共分散行
列辞書を精度を損なうことなく単純化するため、音素、
音節、単語等における音韻それぞれの共分散行列でいく
つかの成分の組に関する行列のみブロック行列を残して
ブロック対角化した最適ブロックを共分散行列辞書とし
て保持すると共に、各種音韻の共分散行列それぞれの平
均ベクトルとを保持してこれらを入力特徴ベクトルの尤
度計算に用いるようにしたことにより、認識対象パター
ンの入力特徴ベクトルをｎ次元正規分布に従う複数カテ
ゴリに分類するパターン認識において、入力ベクトルと
各カテゴリ間の尤度の計算を効率良く、かつ、高い精度
で行うことができるようになる。

【０１１４】なお、実施形態に記載した手法は、コンピ
ュータに実行させることのできるプログラムとして、磁
気ディスク（フロッピーディスク、ハードディスクな
ど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、半導
体メモリなどの記録媒体に格納して頒布することもでき
る。

【０１１５】

【発明の効果】本発明によれば、多次元正規分布の共分
散行列をブロック対角化することにより、入力ベクトル
とカテゴリ間の尤度計算を効率良く、かつ高い精度で計
算することができるようになり、また、ブロック対角化
により適当なブロックを選ぶことによって、全共分散行
列を用いる場合の出力確率との誤差を小さくでき、高い
認識精度実現できる。

【図面の簡単な説明】

【図１】本発明を説明するための図であって、本発明で
提案するパターン認識方法を説明するための図。

【図２】従来技術を用いたパターン認識方法を説明する
ための図。

【図３】本発明を説明するための図であって、本発明の
第１の実施形態に係わる音声認識システムの構成を示す
ブロック図。

【図４】本発明を説明するための図であって、本発明で
使用するＨＭＭ（Hidden Markov Model ）の動作を説明
するための図。

【図５】本発明を説明するための図であって、４９２単
語の孤立単語認識を、対角共分散行列を用いて行った場
合とブロック対角共分散行列を用いて行った場合での結
果の一例を示す図。

【符号の説明】

１００…音声入力端子１０１…特徴ベクトル抽出部１０２…単語尤度計算部１０３…認識結果判定部１０４…単語リスト１０５…共分散行列辞書１０６…最適ブロック生成部１０７…ブロック対角共分散行列辞書１０８…音韻辞書

Claims

【特許請求の範囲】

【請求項１】認識対象パターンを特徴ベクトル化して与
えられる入力ベクトルについて、多次元正規分布に従う
複数カテゴリとの尤度を計算し、この計算にて得られた
尤度のうち、最も高い尤度となるカテゴリを該当カテゴ
リとして前記入力ベクトルをカテゴリ分類するようにし
たパターン認識方法において、前記多次元正規分布は、共分散行列をいくつかの入力ベ
クトルの成分の組に関する行列だけをブロック行列とし
て残してブロック対角化することにより、単純化したも
のを用いることを特徴とするパターン認識方法。
【請求項２】認識対象パターンを特徴ベクトル化して与
えられる入力ベクトルについて、多次元正規分布に従う
複数カテゴリとの尤度を計算し、この計算にて得られた
尤度のうち、最も高い尤度となるカテゴリを該当カテゴ
リとして前記入力ベクトルをカテゴリ分類するようにし
たパターン認識方法において、前記多次元正規分布は、共分散行列をいくつかの入力ベ
クトルの成分の組に関する行列のみブロック行列として
残してブロック対角化すると共に、このブロック対角化
した共分散行列と多次元正規分布の平均ベクトルとから
構成したものを用いることを特徴とするパターン認識方
法。
【請求項３】前記多次元正規分布の共分散行列をそのま
ま用いた場合の入力ベクトルと各カテゴリの尤度と、ブ
ロック対角化した共分散行列を用いた場合の入力ベクト
ルと各カテゴリの尤度の差が、小さくなるようにブロッ
ク対角化する入力ベクトルの成分の組を選ぶことを特徴
とする請求項１または２いずれか１項記載のパターン認
識方法。
【請求項４】認識対象パターンを特徴ベクトル化して与
えられる入力ベクトルについて、多次元正規分布に従う
複数カテゴリとの尤度を計算し、この計算にて得られた
尤度のうち、最も高い尤度となるカテゴリを該当カテゴ
リとして前記入力ベクトルをカテゴリ分類するようにし
たパターン認識装置において、認識対象の音声信号データを特徴ベクトルの時系列デー
タに変換する特徴ベクトル抽出手段と、各種単語のリストを情報として持つ単語リスト提供手段
と、音素、音節、単語等における音韻それぞれの共分散行列
でいくつかの成分の組に関する行列のみブロック行列を
残してブロック対角化した最適ブロックを共分散行列辞
書として保持すると共に、各種音韻の共分散行列それぞ
れの平均ベクトルとを保持する音韻辞書と、特徴ベクトル抽出部が抽出した特徴ベクトルの時系列に
対して、単語リスト提供手段の単語リストと音韻辞書と
を参照して各単語に対する尤度を計算する単語尤度計算
手段と、この単語尤度計算手段の求めた各単語の尤度から最も確
からしい単語を認識結果として得る認識結果判定手段
と、を具備することを特徴とするパターン認識装置。
【請求項５】前記多次元正規分布は、共分散行列をいく
つかの入力ベクトルの成分の組に関する行列のみブロッ
ク行列として残してブロック対角化すると共に、このブ
ロック対角化した共分散行列と多次元正規分布の平均ベ
クトルとから構成したものであることを特徴とする請求
項４記載のパターン認識装置。