JPH11328400A - パターン認識方法およびパターン認識装置 - Google Patents

パターン認識方法およびパターン認識装置

Info

Publication number
JPH11328400A
JPH11328400A JP13288798A JP13288798A JPH11328400A JP H11328400 A JPH11328400 A JP H11328400A JP 13288798 A JP13288798 A JP 13288798A JP 13288798 A JP13288798 A JP 13288798A JP H11328400 A JPH11328400 A JP H11328400A
Authority
JP
Japan
Prior art keywords
vector
covariance matrix
block
likelihood
normal distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP13288798A
Other languages
English (en)
Inventor
Akinori Koshiba
亮典 小柴
Hiroshi Kanazawa
博史 金澤
Mitsuyoshi Tatemori
三慶 舘森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP13288798A priority Critical patent/JPH11328400A/ja
Publication of JPH11328400A publication Critical patent/JPH11328400A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】入力される特徴ベクトルをn次元正規分布に従
う複数カテゴリのいずれかに分類するパターン認識にお
いて、入力特徴ベクトルと各カテゴリ間の尤度の計算を
効率良く、かつ、高い精度で行うパターン認識方法を提
供すること。 【解決手段】入力特徴ベクトルyに対し、多次元正規分
布に従う複数カテゴリiとの尤度を計算して最も尤度の
高いカテゴリiに分類するパターン認識方法において、
多次元正規分布の共分散行列を、いくつかの入力特徴ベ
クトルの成分の組に関する行列だけをブロック行列とし
て残してブロック対角化し、これと多次元正規分布の平
均ベクトルμi とから構成した多次元正規分布を用いる
ようにすることにより、尤度の計算を効率良く、かつ、
高い精度で行うことを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、認識対象パターン
を特徴ベクトル化して与えられる入力ベクトルを多次元
正規分布に従う複数カテゴリのいずれかに分類するパタ
ーン認識方法およびパターン認識装置に関する。
【0002】
【従来の技術】認識対象パターンをn次元特徴ベクトル
yで表し、このパターンをn次元正規分布に従う複数の
カテゴリのいずれかに分類するパターン認識方法は、画
像や音声におけるパターン認識においてよく用いられる
方法である。この認識方法においては、特徴ベクトルy
が、あるカテゴリiから出力される出力確率bi ( y)
は、次の式(1)で表される。
【0003】
【数1】
【0004】ここで、μi はカテゴリiの平均ベクト
ル、そして、Σi はカテゴリiの共分散行列であり、ま
た、(y−μi t はベクトル(y−μi )の転置を表
す。
【0005】そして、特徴ベクトルyを、この出力確率
i (y)が最大となるカテゴリiに分類すると、その
該当のカテゴリiが特徴ベクトルyの認識結果となる。
【0006】このパターン認識手法を用いる場合、式
(1)の指数項である式(2)の乗算回数は、n×nの
オーダになる。
【0007】
【数2】
【0008】従って、実システムにおいて、この方式を
用いる場合には、この部分の計算量が支配的となり、実
時間での認識が実現できないという問題がしばしば生じ
る。そこで、これまで出力確率の精度を損なうことな
く、計算量を減らして高速化を図り得る様々な方法が研
究されてきた。
【0009】その代表的な方法としては次の2つの方法
が挙げられる。
【0010】第1には、共分散行列の対角成分のみ取り
出し、共分散行列を対角共分散行列で置き換える(“参
考文献 S.Sagayama and S.Takahashi:On the use of
scalar quantization for fast HMM computation,Pro
c.of ICASSP 95,pp.213-216(1995)参照”)方法であ
り、第2には、入力特徴ベクトルをベクトル量子化し
て、出力確率の計算を表引きで行う(“参考文献 中
川、チェンチャルーン:連続出力分布型HMMの出力確
率計算の短縮法、音学講論1-Q-22(1995-3)”)方法であ
る。
【0011】そして、これらのうち、第1の方法を用い
る場合、カテゴリiの対角共分散行列ΣDi は ΣDi =diag(σ1 2 ,σ2 2 , …σn 2 ) と表されるので、式(1)は次の式(3)のように表す
ことができる。ただし、σij 2 (j=1,2, …n)
はカテゴリiの共分散行列の対角成分である。
【0012】
【数3】
【0013】ここで、式(3)の指数項は次の式(4)
の如きとなるので、この部分の乗算回数はnのオーダと
なり、全共分散行列を使う場合に比べて効率良く出力確
率を計算することができる。
【0014】
【数4】
【0015】さらに第1の方法では、入力ベクトルyを
各次元毎にスカラ量子化し、式(5)の結果をテーブル
化しておくことにより、乗算なしで式(4)を計算する
方法も提案されている。
【0016】
【数5】
【0017】また、第2の方法を用いる場合には、まず
大量のデータベースから入力特徴ベクトルをベクトル量
子化して、コードベクトルを作成する。そして作成され
た各コードベクトルに対して、あらかじめ、すべての確
率密度分布の出力確率を計算しておく。そして、パター
ン認識の際には、入力特徴ベクトルに一番近いコードベ
クトルを選び、このコードベクトルに対応する出力確率
の値を表引きして出力確率を決定する。
【0018】この方法は、式(1)の計算を全く行う必
要がなくなるため、非常に効率がよい。また、この方法
で出力確率の値を求めてから、値の大きいものについて
のみ、式(1)を再計算して精度を高めることもでき
る。
【0019】
【発明が解決しようとする課題】画像や音声におけるパ
ターン認識に良く用いられるパターン認識方法として、
認識対象パターンをn次元特徴ベクトルyで表し、この
パターンをn次元正規分布に従ういくつかのカテゴリに
分類する認識方法があるが、この認識方法の場合、式
(1)の指数項である式(2)の乗算回数が多く、実時
間での認識処理ができないと云う問題がある。
【0020】そして、これを解決するための手法とし
て、『共分散行列の対角成分のみ取り出し、共分散行列
を対角共分散行列で置き換える方法』や『入力特徴ベク
トルをベクトル量子化して、出力確率の計算を表引きで
行う方法』がある。前者においては、出力確率の計算に
対角共分散行列を用いる。そして、出力確率の計算に対
角共分散行列を用いる場合、共分散行列の非対角成分を
“0”とおくことと等価になる。このため、実際に非対
角成分が無視できない値を持つ場合、すなわち、相関の
強い特徴ベクトルの成分の組がある場合には、全共分散
行列を用いる場合に比べて著しく認識性能が悪化するこ
とがある。
【0021】一方、後者の方法である『入力ベクトルを
ベクトル量子化して全共分散行列を用いる』ようにする
場合、入力ベクトルの次元数が大きくなるとべクトル量
子化による歪みが大きくなるので、これを防ぐためにコ
ードブックが大きくならざるを得ないと云う問題があ
る。また、再計算によりこの歪みを解消しようとする
と、ベクトル量子化による歪みを考慮して、再計算する
個数を増やさねばならず、必ずしも計算効率の大きな改
善とならないこともある。
【0022】そこで、この発明の目的とするところは、
上述のような従来技術の欠点を解消し、認識性能を損な
うことなく、計算効率を改善することができるようにし
たパターン認識方法および装置を提供することにある。
【0023】
【課題を解決するための手段】上記目的を達成するた
め、本発明は次のようにする。
【0024】すなわち、第1には、本発明は、認識対象
パターンを特徴ベクトル化して与えられる入力ベクトル
について、多次元正規分布に従う複数カテゴリとの尤度
を計算し、この計算にて得られた尤度のうち、最も高い
尤度となるカテゴリを該当カテゴリとして前記入力ベク
トルをカテゴリ分類するようにしたパターン認識方法に
おいて、前記多次元正規分布は、共分散行列をいくつか
の入力ベクトルの成分の組に関する行列のみブロック行
列として残してブロック対角化することにより単純化す
ると共に、このブロック対角化した共分散行列と多次元
正規分布の平均ベクトルとから構成したものを用いるこ
とを特徴とする。
【0025】また、第2には本発明は、前記パターン認
識方法において、多次元正規分布の共分散行列をそのま
ま用いた場合の入力ベクトルと各カテゴリの尤度と、ブ
ロック対角化した共分散行列を用いた場合の入力ベクト
ルと各カテゴリの尤度の差が、小さくなるようにブロッ
ク対角化する入力ベクトルの成分の組を選ぶことを特徴
とする。
【0026】すなわち、本発明は、画像や音声などの認
識対象パターンをn次元の特徴ベクトルにしてこれを入
力ベクトルyとし、当該入力ベクトルyに対し、多次元
正規分布に従う複数カテゴリi(i=1,2,3,…)
との尤度を計算して前記入力ベクトルyをこれら複数の
カテゴリiのうち、最も尤度の高いカテゴリに分類する
パターン認識方法を実行するにあたり、多次元正規分布
として次のようなものを用いるようにした。
【0027】すなわち、カテゴリそれぞれにおいて、そ
のカテゴリの平均ベクトル及び共分散行列からなる多次
元正規分布における当該多次元正規分布の共分散行列
を、いくつかの入力ベクトルの成分の組に関する行列だ
けをブロック行列として残してブロック対角化するブロ
ック対角化処理をして単純化する。
【0028】そして、このブロック対角化した共分散行
列(ブロック対角共分散行列)と、多次元正規分布の平
均ベクトルとからそのカテゴリの多次元正規分布を構成
する。
【0029】そして、このような構成の各カテゴリiの
多次元正規分布を用いて入力ベクトルyの各カテゴリi
に対する尤度を計算し、最も高い尤度のカテゴリを認識
対象パターンのカテゴリとするようにパターン認識する
ようにした。
【0030】特に、ブロック対角共分散行列を用いたこ
とにより、従来のように全共分散行列を用いる場合に比
べて尤度を求める際の計算量が少なくて済むようにな
り、また、共分散行列の適当な成分を残すようにしたこ
とにより、対角成分のみ用いる対角共分散行列よりも多
くの情報量を持つことができ、従って、出力確率の歪み
を小さくすることができて、認識精度を高精度に保つこ
とができるようになる。
【0031】また、第3に本発明は、認識対象パターン
を特徴ベクトル化して与えられる入力ベクトルについ
て、多次元正規分布に従う複数カテゴリとの尤度を計算
し、この計算にて得られた尤度のうち、最も高い尤度と
なるカテゴリを該当カテゴリとして前記入力ベクトルを
カテゴリ分類するようにしたパターン認識装置におい
て、認識対象の音声信号データを特徴ベクトルの時系列
データに変換する特徴ベクトル抽出手段と、各種単語の
リストを情報として持つ単語リスト提供手段と、音素、
音節、単語等における音韻それぞれの共分散行列でいく
つかの成分の組に関する行列のみブロック行列を残して
ブロック対角化した最適ブロックを共分散行列辞書とし
て保持すると共に、各種音韻の共分散行列それぞれの平
均ベクトルとを保持する音韻辞書と、特徴ベクトル抽出
部が抽出した特徴ベクトルの時系列に対して、単語リス
ト提供手段の単語リストと音韻辞書とを参照して各単語
に対する尤度を計算する単語尤度計算手段と、この単語
尤度計算手段の求めた各単語の尤度から最も確からしい
単語を認識結果として得る認識結果判定手段とを具備す
ることを特徴とする。
【0032】このような構成のパターン認識装置によれ
ば、入力された音声データは、まず特徴ベクトル抽出手
段に送られ、ここで特徴ベクトルの時系列に変換され
る。特徴ベクトル抽出手段で変換されて得られた特徴ベ
クトルの時系列は単語尤度計算手段に送られる。単語尤
度計算手段では、単語リスト提供手段に予め用意された
単語リストおよび音韻辞書とを用いて、各単語毎に入力
特徴ベクトルの尤度が算出される。ここで、音韻辞書に
は、各音韻が、HMM(Hidden Markov Model )として
蓄えられている。各HMMが持つ共分散行列は、あらか
じめ学習しておいた共分散行列辞書をブロック対角化す
ることにより、ブロック対角共分散行列辞書として蓄え
られている。
【0033】単語尤度計算手段で算出された単語毎の尤
度は、認識結果判定手段に送られ、ここで尤度最大の単
語が認識結果として決定され、その決定された単語の情
報が認識結果として出力される。
【0034】本音声認識システムでは、共分散行列辞書
を精度を損なうことなく単純化するため、音素、音節、
単語等における音韻それぞれの共分散行列でいくつかの
成分の組に関する行列のみブロック行列を残してブロッ
ク対角化した最適ブロックを共分散行列辞書として保持
すると共に、各種音韻の共分散行列それぞれの平均ベク
トルとを保持してこれらを入力特徴ベクトルの尤度計算
に用いるようにしたことにより、認識対象パターンの入
力特徴ベクトルをn次元正規分布に従う複数カテゴリに
分類するパターン認識において、入力ベクトルと各カテ
ゴリ間の尤度の計算を効率良く、かつ、高い精度で行う
ことができるようになる。
【0035】
【発明の実施の形態】(第1の実施形態)本発明の第1
の実施形態を図面に基いて以下に説明する。
【0036】図2は従来のパターン認識方法を説明する
図である。ただし、従来の技術で既に説明した技術に関
してはそれを参照することとし、ここでは改めて説明は
しない。
【0037】音声や画像の認識対象パターンをn次元の
特徴ベクトルで表してこれを入力ベクトルyとし、この
入力ベクトルyをn次元正規分布に従ういくつかのカテ
ゴリのうちのいずれに該当するかを判定することで認識
するパターン認識方法、すなわち、入力ベクトルyをn
次元正規分布に従ういくつかのカテゴリに分類するパタ
ーン認識方法では、出力確率をbi (y)とおくと、式
(6)で表される各カテゴリのうちから、出力確率bi
(y)が最大となるカテゴリに入力ベクトルyを分類す
ることによって前記認識対象パターンを認識する。つま
り、出力確率bi (y)が最大となるカテゴリに前記入
力ベクトルyは該当するとし、認識対象パターンは当該
カテゴリに相当すると認識する。
【0038】
【数6】
【0039】ただし、μi ,Σi はそれぞれ、n次元正
規分布の平均ベクトルおよび共分散行列である。以下で
は特に断りのない限り、共分散行列Σi をΣと表すこと
とする。またΣ={σij}(i ,j =1,2, …,
n)とおく。
【0040】ここで、上記共分散行列の、いくつかの入
力ベクトルの成分の組に関する行列だけをブロック行列
として残してブロック対角化したブロック対角共分散行
列をΣBDとおく。
【0041】図1は本発明によるパターン認識方法を説
明するための図である。
【0042】画像や音声などの認識対象パターンをn次
元の特徴ベクトルにしてこれを入力ベクトルyとし、当
該入力ベクトルyに対し、多次元正規分布に従う複数カ
テゴリi(i=1,2,3,…)との尤度を計算して前
記入力ベクトルyをこれら複数のカテゴリiのうち、最
も尤度の高いカテゴリに分類するパターン認識方法を実
行するにあたり、本発明では多次元正規分布として次の
ようなものを用いる。
【0043】すなわち、カテゴリそれぞれにおいて、そ
のカテゴリの平均ベクトル及び共分散行列からなる多次
元正規分布における当該多次元正規分布の共分散行列
を、いくつかの入力ベクトルの成分の組に関する行列だ
けをブロック行列として残してブロック対角化するブロ
ック対角化処理をする。
【0044】そして、このブロック対角化した共分散行
列(ブロック対角共分散行列)と、多次元正規分布の平
均ベクトルとからそのカテゴリの多次元正規分布を構成
する。
【0045】このような構成の各カテゴリiの多次元正
規分布を用いて入力ベクトルyの各カテゴリiに対する
尤度を計算する。
【0046】ブロックの数、およびブロックの次元は実
現するシステムの計算速度および認識精度のトレードオ
フによって決まるが、ここでは、以下のようにD個のブ
ロックにブロック対角化した共分散行列を考える。
【0047】
【数7】
【0048】ここで、Ai はdi 次元の正方行列であ
り、 また、
【数8】
【0050】 ここで、各ブロックは次式に基づいて求めることができ
る。
【0052】
【数9】
【0053】これはxt Σ-1x=1という制約の下で、
t (Σ-1−ΣBD -1)xの最大値、すなわち、共分散行
列をブロック対角化することによる歪みの最大値を最小
にするブロック対角化である。
【0054】Σの代わりにΣBDを用いると、上記の式
(6)は、次の式(9)のように表される。
【0055】
【数10】
【0056】ここで、xk はdk 次元ベクトルであり、
次式を満たす。
【0057】
【数11】
【0058】上述の式(9)における指数項の乗算回数
となる。
【0059】実システムでは、計算速度、認識精度によ
って、ブロックの大きさや組が決まるが、次元di を小
さくとれば、全共分散行列を用いる場合に比べて計算量
が少なくて済む。
【0060】一方、共分散行列の適当な成分を残すこと
により、対角成分のみ用いる対角共分散行列よりも多く
の情報量を持つことができ、出力確率の歪みを小さくす
ることができる。
【0061】また、この方法では、式(9)の指数項に
対して、各ブロック毎にベクトル量子化を行うことによ
り、テーブル引きにより出力確率を計算することも可能
である。この場合には、ベクトル量子化は各ブロック毎
にdi 次元ベクトルを量子化すれば良いので、全共分散
行列を用いるベクトル量子化の場合に比べて、量子化歪
みを小さくすることができる。
【0062】以上、この実施形態においては、画像や音
声などの認識対象パターンをn次元の特徴ベクトルにし
てこれを入力ベクトルyとし、当該入力ベクトルyに対
し、多次元正規分布に従う複数カテゴリi(i=1,
2,3,…)との尤度を計算して前記入力ベクトルyを
これら複数のカテゴリiのうち、最も尤度の高いカテゴ
リに分類するパターン認識方法を実行するにあたり、多
次元正規分布として次のようなものを用いるようにし
た。
【0063】すなわち、カテゴリそれぞれにおいて、そ
のカテゴリの平均ベクトル及び共分散行列からなる多次
元正規分布における当該多次元正規分布の共分散行列
を、いくつかの入力ベクトルの成分の組に関する行列だ
けをブロック行列として残してブロック対角化するブロ
ック対角化処理をして単純化する。
【0064】そして、このブロック対角化した共分散行
列(ブロック対角共分散行列)と、多次元正規分布の平
均ベクトルとからそのカテゴリの多次元正規分布を構成
する。
【0065】そして、このような構成の各カテゴリiの
多次元正規分布を用いて入力ベクトルyの各カテゴリi
に対する尤度を計算し、最も高い尤度のカテゴリを認識
対象パターンのカテゴリとするようにパターン認識する
ようにした。
【0066】特に、ブロック対角共分散行列を用いたこ
とにより、従来のように全共分散行列を用いる場合に比
べて尤度を求める際の計算量が少なくて済むようにな
り、また、共分散行列の適当な成分を残すようにしたこ
とにより、対角成分のみ用いる対角共分散行列よりも多
くの情報量を持つことができ、従って、出力確率の歪み
を小さくすることができて、認識精度を高精度に保つこ
とができるようになる。
【0067】以上、本発明の手法の詳細を説明した。次
に、この手法を用いて音声認識をする装置について説明
する。
【0068】(第2の実施形態)図3は本発明の第2の
実施形態に係わる音声認識システムの構成である。この
音声認識システムは、特徴ベクトル抽出部101、単語
尤度計算部102、認識結果判定部103、単語リスト
104、共分散行列辞書105、最適ブロック生成部1
06、ブロック対角共分散行列辞書107、音韻辞書1
08を備えている。
【0069】これらのうち、特徴ベクトル抽出部101
は、入力端子100より入力された認識対象の音声信号
データを特徴ベクトルの時系列に変換するものであり、
単語リスト104は、各種単語のリストを情報として持
つものである。
【0070】共分散行列辞書105は、各種音韻(音
素、音節、単語の音韻など)それぞれについての共分散
行列を収容した辞書であり、最適ブロック生成部106
は共分散行列辞書105より得た各種音韻それぞれの共
分散行列についてそれぞれ最適ブロックを生成する処理
を行うものであり、ブロック対角共分散行列辞書107
はこの最適ブロック生成部106にて得た各種音韻それ
ぞれについての最適ブロックを、共分散行列辞書として
保持するものであり、音韻辞書108はこのブロック対
角共分散行列辞書107と各種音韻の共分散行列それぞ
れの平均ベクトルとを保持したものである。
【0071】単語尤度計算部102は、特徴ベクトル抽
出部101が抽出した特徴ベクトルの時系列に対して、
単語リスト104と音韻辞書108とを参照して各単語
に対する尤度を計算するものであり、また、認識結果判
定部103は、この単語尤度計算部102の求めた各単
語の尤度から最も確からしい単語を認識結果として得、
出力端子109より出力するものである。
【0072】このような構成の本音声認識システムの作
用を、簡単に説明する。本音声認識システムに入力され
た音声データは、まず特徴ベクトル抽出部101に送ら
れ、ここで特徴ベクトルの時系列に変換される。
【0073】特徴ベクトル抽出部101で変換されて得
られた特徴ベクトルの時系列は単語尤度計算部102に
送られる。単語尤度計算部102では、予め用意された
単語リスト104および音韻辞書108を用いて、各単
語毎に特徴ベクトルの尤度が算出される。ここで、音韻
辞書108には、各音韻が、詳細は後述するHMM(Hi
dden Markov Model )として蓄えられている。各HMM
が持つ共分散行列は、あらかじめ学習しておいた共分散
行列辞書105を最適ブロック生成器106を用いてブ
ロック対角化することにより、ブロック対角共分散行列
辞書107として蓄えられている。
【0074】単語尤度計算部102で算出された単語毎
の尤度は、認識結果判定部103に送られ、ここで尤度
最大の単語が認識結果として決定され、その決定された
単語の情報が認識結果として出力される。
【0075】本音声認識システムの動作の概要はこのよ
うなものである。本音声認識システムでは、音韻をHM
Mとして蓄えて単語尤度計算に用いるようにしているこ
とが特徴であり、HMMは音声認識手段として極めて有
効な方法である。そこで、HMMを用いたパターン認識
手法をもとに、本発明に係わる音声認識技術およびその
効果を説明する。
【0076】HMMを用いた音声認識方法に関しては、
例えば、文献『“確率モデルによる音声認識”,電子情
報通信学会、1988』に詳しく述べられているので、
詳細は当該文献を参照することとし、ここでは触れな
い。
【0077】HMMを用いた音声認識システムでは、入
力音声は、まず特徴ベクトルの時系列表現に変換され
る。ここでは、時刻tにおける音響的な特徴を表す特徴
ベクトルをn次元ベクトルyt で表現する。この特徴ベ
クトルが照合される音声のパターンは、その構成単位
(音素、音節、単語など)毎に図4で表されるような、
状態とそれを結ぶアークからなるHMMで表現される。
【0078】ここで、各状態は、その状態から他の状態
へ遷移する確率を示す状態遷移確率を持ち、各アークは
遷移の際に出力する音響的な特徴の出力確率を持つ。
【0079】図4では、状態遷移確率をaij、そして、
出力確率をbij(yt )で表してある。
【0080】ただし、i ,j はそれぞれ状態を表す。特
徴ベクトルの時系列表現{yt }が与えられると、Vite
rbi アルゴリズムにより、認識対象パターン毎に
{yt }が出力される確率が計算される。
【0081】この結果、特徴ベクトルの時系列{yt
が出力される確率が最大となるパターンが認識結果とし
て出力される。
【0082】HMMとして混合連続確率密度を持つHM
Mを仮定すると、“状態i”から“状態j”への遷移に
よってyt が出力される出力確率は式(10)のように
あらわされる。
【0083】 ここで、λijm ,bijm (yt )は、それぞれm番目の
分布の分岐確率および出力確率である。これらの間には
以下の条件が成立する。
【0084】
【数12】
【0085】ここで、bijm (yt )がn次元正規分布
に従うと仮定すると、bijm は次の式(13)の如く表
される。
【0086】
【数13】
【0087】ここで、μijm ,Σijm は、それぞれ正規
分布の平均ベクトルおよび共分散行列を表す。
【0088】式(13)の指数項である式(14)に注
目すると、入力特徴ベクトルyt がn次元の場合、この
部分を直接計算すると、計算量はn×n回のオーダの乗
算となる。
【0089】
【数14】
【0090】混合連続確率密度分布を持つHMMを用い
る音声認識システムでは、このHMMの出力確率の計算
がシステムの計算量において支配的であり、この部分の
計算を効率良く行うことがシステムの高速化において重
要な問題となる。
【0091】ここで、Σijm をブロック対角化すること
により、得られる共分散行列をΣBD ijm とおく。以下、
簡単のため、Σijm 、ΣBDijm は、それぞれΣ、ΣBD
表すことにする。
【0092】ブロック対角化におけるブロックの大き
さ、個数は、計算量およびメモリなどのトレードオフに
より決まるが、ここでは簡単のため、すべての確率密度
分布に対して2×2のブロックを1つ持つようなブロッ
ク対角共分散行列を考える。
【0093】ここで、全共分散行列をΣ={σij},
(i ,j=1, …,n)とおくと、ブロック対角共分
散行列ΣBDは次のように表される。
【0094】
【数15】
【0095】ブロック対角化する特徴ベクトルの成分の
組合せ(p,q)は第2の実施形態において既に説明し
たように、次式によって定める。
【0096】
【数16】
【0097】ここで、λ(A)は行列Aの固有値を表
す。
【0098】式(16)で求まる特徴ベクトルの組合せ
(p ,q )は、(yt −μijm tΣ(yt −μijm
=1という制約の下で、式(14)と式(17)の値の
差を最小にする組合せである。
【0099】
【数17】
【0100】式(15)で表されるような、ブロック対
角共分散行列を用いた場合、上記の式(17)は次式の
ように表される。
【0101】
【数18】
【0102】ただし(p ,q )は式(16)で定まる、
ブロック対角化する特徴ベクトルの成分の組合せであ
り、x,Aはそれぞれ、
【数19】
【0103】である。
【0104】従って、式(18)の共分散行列に関係す
る乗算回数は、この場合、(n−2)+2×2回とな
り、全共分散行列を用いる場合での乗算回数に比べて大
幅に少なくて済む。また、共分散行列の適宜なブロック
を残すことにより、対角成分のみ用いる対角共分散行列
よりも多くの情報量を持つことができ、出力確率の歪み
を小さくすることができる。
【0105】実際に男声話者3名、492単語の孤立単
語認識を、対角共分散行列を用いて行った場合とブロッ
ク対角共分散行列を用いて行った場合での結果を図5に
示す。図では入力音声レベルが20dBのケースと5d
Bのケースを示しており、対角共分散行列を用いて行っ
た場合を“対角”、ブロック対角共分散行列を用いて行
った場合を“ブロック対角”として示してある。“改
善”はどのくらい効果があったかを示した項目であり、
“ブロック対角”での認識正答率から“対角”での認識
正答率を差し引いたものを示してある。図からわかるよ
うに、“ブロック対角”を用いている本発明方式の方
が、1%前後ではあるが、明らかに改善されている。
【0106】尚、式(18)の第1項に対しては各成分
毎にスカラー量子化を行い、第2項に対してはべクトル
量子化を行えば、テーブル引きにより、出力確率を計算
することも可能である。
【0107】この場合にも、ベクトル量子化は2次元の
ベクトルについて行えば良く、全共分散行列を用いるベ
クトル量子化の場合に比べて、量子化歪みを小さくする
ことができる。
【0108】ここでは簡単のため、ブロックの次元数を
2としたが、同様な方法でブロックの数を複数にし、さ
らに各ブロック毎に次元数を独立に設定することも可能
である。ブロックの個数をm個、各ブロックの次元数を
1 ,d2 ,d3 ,…dm とすると、式(17)の乗算
回数は となる。
【0109】尚、実システムに用いる場合には、計算量
すなわち高速化の度合と認識精度の要求に応じて、対角
化の次数を決めればよい。さらに、この場合も上と同様
に、ブロック化された特徴ベクトルの成分の組をブロッ
ク毎とに独立にべクトル量子化し。ブロック以外の特徴
ベクトルの成分をスカラ量子化することにより、テーブ
ル引きにより出力確率を計算することが可能である。
【0110】以上、本発明によるパターン認識装置は、
認識対象パターンを特徴ベクトル化して与えられる入力
ベクトルについて、多次元正規分布に従う複数カテゴリ
との尤度を計算し、この計算にて得られた尤度のうち、
最も高い尤度となるカテゴリを該当カテゴリとして前記
入力ベクトルをカテゴリ分類するようにしたパターン認
識装置において、認識対象の音声信号データを特徴ベク
トルの時系列データに変換する特徴ベクトル抽出手段
と、各種単語のリストを情報として持つ単語リスト提供
手段と、音素、音節、単語等における音韻それぞれの共
分散行列でいくつかの成分の組に関する行列のみブロッ
ク行列を残してブロック対角化した最適ブロックを共分
散行列辞書として保持すると共に、各種音韻の共分散行
列それぞれの平均ベクトルとを保持する音韻辞書と、特
徴ベクトル抽出部が抽出した特徴ベクトルの時系列に対
して、単語リスト提供手段の単語リストと音韻辞書とを
参照して各単語に対する尤度を計算する単語尤度計算手
段と、この単語尤度計算手段の求めた各単語の尤度から
最も確からしい単語を認識結果として得る認識結果判定
手段とを具備した構成とした。
【0111】そして、入力された音声データを、まず特
徴ベクトル抽出手段に送り、ここで特徴ベクトルの時系
列に変換し、これを単語尤度計算手段に与え、単語尤度
計算手段では、単語リスト提供手段に予め用意された単
語リストおよび音韻辞書とを用いて、各単語毎に入力特
徴ベクトルの尤度を算出する。ここで、音韻辞書には、
各音韻が、それぞれHMMとして蓄えられている。各H
MMが持つ共分散行列は、あらかじめ学習しておいた共
分散行列辞書をブロック対角化することにより、ブロッ
ク対角共分散行列辞書として蓄えられている。
【0112】認識結果判定手段では単語尤度計算手段で
算出された単語毎の尤度から尤度最大の単語を決定し、
その単語の情報を認識結果として出力する。
【0113】本音声認識システムにおいては、共分散行
列辞書を精度を損なうことなく単純化するため、音素、
音節、単語等における音韻それぞれの共分散行列でいく
つかの成分の組に関する行列のみブロック行列を残して
ブロック対角化した最適ブロックを共分散行列辞書とし
て保持すると共に、各種音韻の共分散行列それぞれの平
均ベクトルとを保持してこれらを入力特徴ベクトルの尤
度計算に用いるようにしたことにより、認識対象パター
ンの入力特徴ベクトルをn次元正規分布に従う複数カテ
ゴリに分類するパターン認識において、入力ベクトルと
各カテゴリ間の尤度の計算を効率良く、かつ、高い精度
で行うことができるようになる。
【0114】なお、実施形態に記載した手法は、コンピ
ュータに実行させることのできるプログラムとして、磁
気ディスク(フロッピーディスク、ハードディスクな
ど)、光ディスク(CD−ROM、DVDなど)、半導
体メモリなどの記録媒体に格納して頒布することもでき
る。
【0115】
【発明の効果】本発明によれば、多次元正規分布の共分
散行列をブロック対角化することにより、入力ベクトル
とカテゴリ間の尤度計算を効率良く、かつ高い精度で計
算することができるようになり、また、ブロック対角化
により適当なブロックを選ぶことによって、全共分散行
列を用いる場合の出力確率との誤差を小さくでき、高い
認識精度実現できる。
【図面の簡単な説明】
【図1】本発明を説明するための図であって、本発明で
提案するパターン認識方法を説明するための図。
【図2】従来技術を用いたパターン認識方法を説明する
ための図。
【図3】本発明を説明するための図であって、本発明の
第1の実施形態に係わる音声認識システムの構成を示す
ブロック図。
【図4】本発明を説明するための図であって、本発明で
使用するHMM(Hidden Markov Model )の動作を説明
するための図。
【図5】本発明を説明するための図であって、492単
語の孤立単語認識を、対角共分散行列を用いて行った場
合とブロック対角共分散行列を用いて行った場合での結
果の一例を示す図。
【符号の説明】
100…音声入力端子 101…特徴ベクトル抽出部 102…単語尤度計算部 103…認識結果判定部 104…単語リスト 105…共分散行列辞書 106…最適ブロック生成部 107…ブロック対角共分散行列辞書 108…音韻辞書

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】認識対象パターンを特徴ベクトル化して与
    えられる入力ベクトルについて、多次元正規分布に従う
    複数カテゴリとの尤度を計算し、この計算にて得られた
    尤度のうち、最も高い尤度となるカテゴリを該当カテゴ
    リとして前記入力ベクトルをカテゴリ分類するようにし
    たパターン認識方法において、 前記多次元正規分布は、共分散行列をいくつかの入力ベ
    クトルの成分の組に関する行列だけをブロック行列とし
    て残してブロック対角化することにより、単純化したも
    のを用いることを特徴とするパターン認識方法。
  2. 【請求項2】認識対象パターンを特徴ベクトル化して与
    えられる入力ベクトルについて、多次元正規分布に従う
    複数カテゴリとの尤度を計算し、この計算にて得られた
    尤度のうち、最も高い尤度となるカテゴリを該当カテゴ
    リとして前記入力ベクトルをカテゴリ分類するようにし
    たパターン認識方法において、 前記多次元正規分布は、共分散行列をいくつかの入力ベ
    クトルの成分の組に関する行列のみブロック行列として
    残してブロック対角化すると共に、このブロック対角化
    した共分散行列と多次元正規分布の平均ベクトルとから
    構成したものを用いることを特徴とするパターン認識方
    法。
  3. 【請求項3】前記多次元正規分布の共分散行列をそのま
    ま用いた場合の入力ベクトルと各カテゴリの尤度と、ブ
    ロック対角化した共分散行列を用いた場合の入力ベクト
    ルと各カテゴリの尤度の差が、小さくなるようにブロッ
    ク対角化する入力ベクトルの成分の組を選ぶことを特徴
    とする請求項1または2いずれか1項記載のパターン認
    識方法。
  4. 【請求項4】認識対象パターンを特徴ベクトル化して与
    えられる入力ベクトルについて、多次元正規分布に従う
    複数カテゴリとの尤度を計算し、この計算にて得られた
    尤度のうち、最も高い尤度となるカテゴリを該当カテゴ
    リとして前記入力ベクトルをカテゴリ分類するようにし
    たパターン認識装置において、 認識対象の音声信号データを特徴ベクトルの時系列デー
    タに変換する特徴ベクトル抽出手段と、 各種単語のリストを情報として持つ単語リスト提供手段
    と、 音素、音節、単語等における音韻それぞれの共分散行列
    でいくつかの成分の組に関する行列のみブロック行列を
    残してブロック対角化した最適ブロックを共分散行列辞
    書として保持すると共に、各種音韻の共分散行列それぞ
    れの平均ベクトルとを保持する音韻辞書と、 特徴ベクトル抽出部が抽出した特徴ベクトルの時系列に
    対して、単語リスト提供手段の単語リストと音韻辞書と
    を参照して各単語に対する尤度を計算する単語尤度計算
    手段と、 この単語尤度計算手段の求めた各単語の尤度から最も確
    からしい単語を認識結果として得る認識結果判定手段
    と、を具備することを特徴とするパターン認識装置。
  5. 【請求項5】前記多次元正規分布は、共分散行列をいく
    つかの入力ベクトルの成分の組に関する行列のみブロッ
    ク行列として残してブロック対角化すると共に、このブ
    ロック対角化した共分散行列と多次元正規分布の平均ベ
    クトルとから構成したものであることを特徴とする請求
    項4記載のパターン認識装置。
JP13288798A 1998-05-15 1998-05-15 パターン認識方法およびパターン認識装置 Pending JPH11328400A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13288798A JPH11328400A (ja) 1998-05-15 1998-05-15 パターン認識方法およびパターン認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13288798A JPH11328400A (ja) 1998-05-15 1998-05-15 パターン認識方法およびパターン認識装置

Publications (1)

Publication Number Publication Date
JPH11328400A true JPH11328400A (ja) 1999-11-30

Family

ID=15091883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13288798A Pending JPH11328400A (ja) 1998-05-15 1998-05-15 パターン認識方法およびパターン認識装置

Country Status (1)

Country Link
JP (1) JPH11328400A (ja)

Similar Documents

Publication Publication Date Title
JP4571822B2 (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
US5933806A (en) Method and system for pattern recognition based on dynamically constructing a subset of reference vectors
US6539353B1 (en) Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
EP0847041B1 (en) Method and apparatus for speech recognition performing noise adaptation
KR101036712B1 (ko) 압축 음향 모델들의 적응 방법, 컴퓨터 구현 방법, 및 컴퓨터 판독 가능한 저장 매체
US20070219798A1 (en) Training system for a speech recognition application
JPH10512686A (ja) 個別話者に適応した音声認識のための方法及び装置
JPH064093A (ja) Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置
JP5249967B2 (ja) 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム
EP0709826A1 (en) Pattern recognition method
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
US20220310067A1 (en) Lookup-Table Recurrent Language Model
US8386249B2 (en) Compressing feature space transforms
KR20240089276A (ko) 다중 언어 자동 스피치 인식을 위한 공동 비지도 및 지도 트레이닝
EP0953968B1 (en) Speaker and environment adaptation based on eigenvoices including maximum likelihood method
Collobert et al. Word-level speech recognition with a letter to word encoder
CN118076997A (zh) 用于罕见词语音辨识的大规模语言模型数据选择
CN112185340A (zh) 语音合成方法、语音合成装置、存储介质与电子设备
JP2001083986A (ja) 統計モデル作成方法
US6782362B1 (en) Speech recognition method and apparatus utilizing segment models
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
JPH01204099A (ja) 音声認識装置
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置