JP3364234B2 - Pattern recognition device - Google Patents

Pattern recognition device

Info

Publication number
JP3364234B2
JP3364234B2 JP22568491A JP22568491A JP3364234B2 JP 3364234 B2 JP3364234 B2 JP 3364234B2 JP 22568491 A JP22568491 A JP 22568491A JP 22568491 A JP22568491 A JP 22568491A JP 3364234 B2 JP3364234 B2 JP 3364234B2
Authority
JP
Japan
Prior art keywords
hmm
objective function
recognition
parameter
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22568491A
Other languages
Japanese (ja)
Other versions
JPH0566791A (en
Inventor
亨 今井
彰男 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP22568491A priority Critical patent/JP3364234B2/en
Publication of JPH0566791A publication Critical patent/JPH0566791A/en
Application granted granted Critical
Publication of JP3364234B2 publication Critical patent/JP3364234B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 【0001】 【産業上の利用分野】本発明は、パターン認識率を向上
させることのできるHMM(HiddenMarkov
Model)によるパターン認識装置に関する。 【0002】[発明の概要] 本発明は、HMMにより、時系列のパターン認識を行う
パターン認識装置に関するもので、与えられた全ての学
習データから認識誤りが起こる可能性を表す関数を求
め、これを最小化するHMMパラメータを算出すること
によって、従来に比べて認識能力の高いHMMによるパ
ターン認識を可能とするものである。 【0003】 【従来の技術】従来のHMMパラメータ学習方法には、
例えば、次の3つの学習方法が知られている。 【0004】 (1) Baum−Welchアルゴリズム これはForward−Backwardアルゴリズム
ともいい、広く用いられている手法である。この手法
は、HMMパラメータである状態遷移確率Aと出力確率
Bとが与えられた時、学習データOをHMMが出力する
尤度L(O|A,B)を最大とするように、最尤推定に
基づいて新たな状態遷移確率Aと出力確率Bとを推定す
る方法である。このパラメータ推定を繰り返すことで、
HMMパラメータを局所的な最適値に収束させるもので
ある(例えば、L.R.Rabiner, B.H.Juang,"An Introduct
ion to Hidden Markov Models",IEEE ASSP MAGAGINE,JA
N.1986,pp.4-16. 参照)。 【0005】(2) 誤り訂正学習 この手法は、まずBaum−Welchアルゴリズムに
よるHMMパラメータ推定後に学習データを認識させ、
誤認識あるいは正しく認識しても尤度差が小さい時に、
HMMパラメータを修正する。つまり真のカテゴリに対
しては学習データの記号(ラベル)の度数を出力確率B
に加え、誤ったカテゴリあるいは尤度差の小さいカテゴ
リからは引く、という修正を行う。これにより、学習デ
ータに対する認識性能を向上させるものである(例え
ば、L.R.Bahl,P.F.Brown,P.V.de Souza,and R.L.Merce
r,"A New Algorithm for the Estimation of Hidden Ma
rkovModel Parameters",Proceeding of the 1988 IEEE
International Conference on Acoustics,Speech and S
ignal Processing,pp493-496参照)。 【0006】(3) アニーリングによるHMMの学習 この手法は、自カテゴリの学習データのみから作られる
対数尤度を負にしたエネルギー関数を、アニーリングの
手法で減少させる。HMMパラメータは状態遷移確率A
と出力確率Bを交互に選び、ガウス分布に従う乱数を加
えるものである (例えば、Douglas B.Paul,"Training of HMM Recogniz
ers by Simulated Annealing",Proceedings of the 198
5 IEEE Internatinal Conference on Acoustics,Speec
h,and Signal Processing,pp13-16参照)。 【0007】 【発明が解決しようとする課題】しかしながら、(1)
に示したBaum−Welchアルゴリズムと、(3)
に示したアニーリングによるHMMの学習では、他カテ
ゴリの学習データを考慮していないので、これらの手法
は必ずしもカテゴリ間の分離度を高めようとする学習法
ではない。また、(1)のBaum−Welchアルゴ
リズムを用いると、HMMパラメータは初期値に依存す
る局所的な最適値に収束するが、その収束値が必ずしも
最適値とはならない。 【0008】一方、(2)に示した誤り訂正学習は、他
カテゴリの学習データを考慮しており、学習データに対
しては非常に良い結果を示すが、未知のデータに対して
はさほど認識率の向上が見られない。これは、誤り訂正
学習が、真のカテゴリと誤ったカテゴリあるいは尤度差
の小さいカテゴリの間でのみHMMパラメータの修正を
行うので、カテゴリ全体として認識しやすい方向に修正
されているとはいえないからである。また、学習データ
に適応しすぎるので、ばらつきの多いカテゴリを扱う場
合、未知のデータに対しては認識性能が高くならない。 【0009】本発明は上記事情に鑑みてなされたもので
あり、その目的は、全カテゴリに対する全ての学習デー
タから認識誤りが起こる可能性を表す関数を求め、これ
を最小化するHMMパラメータを算出することにより、
従来法に比べて認識能力の高いHMMによるパターン認
識装置を提供することにある。 【0010】上記の目的を達成するために、本発明のパ
ターン認識装置は、HMMによるパターン認識をする際
に、学習データおよび初期のHMMパラメータを設定す
る設定手段と、設定された全ての学習データおよび初期
HMMパラメータから認識誤りが起こる可能性を表す初
期の目的関数を、各学習データに対する最近傍カテゴリ
と自カテゴリとの対数尤度の差をシグモイド関数を用い
てカテゴリ全体で和をとることによって求める目的関数
演算手段と、HMMパラメータに摂動を与え、新たなH
MMパラメータを求める処理、求められた新たなHMM
パラメータを用いて新たな目的関数を求める処理、およ
び求められた新たな目的関数が減少している場合には、
新たなHMMパラメータと新たな目的関数を採用する処
理を適宜繰り返して前記目的関数を最小化するHMMパ
ラメータを求めるHMMパラメータ演算手段と、備え、
該HMMパラメータによりパターン認識を行うことを特
徴としている。 【0011】(A)学習データおよび初期のHMMパラ
メータを設定する。 【0012】(B)設定された全ての学習データおよび
初期HMMパラメータから認識誤りが起こる可能性を表
す初期の目的関数を求める。 【0013】(C)HMMパラメータに摂動を与え、新
たなHMMパラメータを求める。 【0014】(D)新たなHMMパラメータを用いて新
たな目的関数を求める。 【0015】(E)目的関数が減少していれば、新たな
HMMパラメータと目的関数を採用する。 【0016】(F)上記過程(C),(D),(E)を
適宜繰り返して前記目的関数を最小化するHMMパラメ
ータを求める。 【0017】 【作用】上記構成の本発明では、認識誤りが起こる可能
性を表す目的関数を最小化するHMMパラメータを求め
ることができ、音声認識に本発明を適用した場合の認識
率が向上する。 【0018】 【実施例】以下、本発明の一実施例を図面を参照しつつ
説明する。 【0019】初めに、本実施例の記法を以下のように定
める。 【0020】M:認識すべき時系列パターンのカテゴリ
数 m,m′:カテゴリ番号(m,m′=1,2,……,
M) N:カテゴリ内の学習データ数 n:学習データ番号(n=1,2,……,N) Omn:カテゴリmでのn番目の学習データ Λ:全カテゴリのHMMパラメータの組、Λ={λm } λm :カテゴリmでのHMMパラメータ、λm ={am
ij,bm ijk } am ij:カテゴリmで、HMMの状態がiからjへ遷移
する時の遷移確率 bm ijk :カテゴリmで、HMMの状態がiからjへ遷
移する時に、離散出力分布HMMの場合、記号kを出力
する確率 L(Omn|λm ):カテゴリmから学習データOmnを出
力する尤度 Emn: 学習データOmnに対する、最近傍カテゴリと自カ
テゴリとの対数尤度の差 E:カテゴリ全体での認識誤りが起こる可能性を表す目
的関数 本発明は、上記の目的関数Eを最小にするHMMパラメ
ータの組Λ={λm}を算出することを特徴とする。 【0021】ここでは、関数Fとしてシグモイド関数 F(x)=1/(1+exp(−x/μ)) (但し、μは定数)…(3) を用い、Eを最小化する方法として最急降下法を用いた
場合の一実施例について図1,図2に示すフローチャー
トを用いて説明する。図1、図2に示すフローチャート
において、ステップST1、ST2が請求項1の設定手
段を、ステップST3が請求項1の目的関数演算手段
を、ステップST4〜ST11が請求項1のHMMパラ
メータ演算手段をそれぞれ構成する。 【0022】まず、学習データを設定する(ステップS
T1)。これは、時系列パターンの学習データを全ての
カテゴリに対して用意する。 【0023】次に、初期HMMパラメータの組Λを設定
する(ステップST2)。HMMパラメータである状態
遷移確率と出力確率には、任意の初期値を設定すること
が可能である。本実施例では、Baum−Welchア
ルゴリズムを数回実行した後のHMMパラメータを設定
する方法を用い、この初期HMMパラメータの組をΛと
する。なお、時系列の学習データをHMMの状態数で等
分割し、各記号で統計的に出力確率を求める方法などを
用いてもよい。 【0024】次に、初期の目的関数Eを求める(ステッ
プST3)。これは、学習データOmnに対する、最近傍
カテゴリと自カテゴリの対数尤度の差Emnを上記(1)
式により求める。求められた対数尤度の差Emnを単調増
加関数Fで変換し、全学習データについてその総和を上
記(2)式に基づいて求める。これが初期の目的関数E
となる。対数尤度は前向きアルゴリズム、あるいはVite
rbi アルゴリズムで求められるが、本実施例では前向き
アルゴリズムを用いる。 【0025】次に、摂動を与えるHMMパラメータを選
択する(ステップST4)。これは、全カテゴリの全パ
ラメータの中から、どのHMMパラメータに摂動を与え
るかについて一様乱数を発生させて一つだけ決定する。 【0026】次に、選択されたHMMパラメータに摂動
を与える(ステップST5)。 【0027】この処理は、一様乱数を用いてステップS
T4で選ばれたHMMパラメータの値を変更する。例え
ば、状態遷移確率am ijが選ばれたとすると、[1,−
1]上の一様乱数rに定数δを乗じたものを加算する。
本実施例では、定数δ=0.01とした。 【0028】 出力確率bm ijk が選ばれた時も同様にして、次のよ
うに摂動を与える。 【0029】 【0030】次に、上述のようにして与えられた摂動を
採用するか否かを決定する(ステップST6)。 【0031】状態遷移確率と出力確率は、共に確率の値
をとるので、摂動を与えた後の値が0より小さいか1よ
り大きいときは、ステップST4に戻って摂動を与える
別のHMMパラメータを選択する。 【0032】次に、新しいHMMパラメータの組Λ′を
求める(ステップST7)。 【0033】摂動を与えたカテゴリmの状態遷移確率、
あるいは出力確率について、次の確率の条件を満たすよ
うな値を調整する。 【0034】 としたものを、新しいHMMパラメータの組Λ′とす
る。 【0035】次に、新しい目的関数E′を求める(ステ
ップST8)。 【0036】新しく求められたHMMパラメータの組
Λ′を用いて、ステップST3と同様にして新しい目的
関数E′を求める。 【0037】次に、目的関数の減少を判定する(ステッ
プST9)。 【0038】E′≦Eならば、摂動の結果を採用してE
=E′とし、HMMパラメータの組Λ=Λ′とする(ス
テップST10)。それ以外すなわちE′>Eならば、
EとΛは更新しない。 【0039】あらかじめ設定したループ回数だけ摂動を
行った場合および目的関数Eが非常に小さくなった場
合、例えば10-8よりも小さくなった時に摂動を終了す
る(ステップST11)。 【0040】こうして求められた目的関数を最小とする
HMMパラメータの組Λを、最適なHMMパラメータの
組として採用するのである。 【0041】なお、上記の実施例では、離散出力分布H
MMを用いた場合の例を示したが、連続分布HMMにお
いては、出力確率密度の平均と分散に乱数で摂動を加え
るとした場合にも本発明を適用できる。 【0042】また、目的関数Eを最小化するのに、上記
実施例では最急降下法を用いたが、アニーリング法等、
他の最適化手法を用いることも可能である。単調増加関
数F(x)についても、ここではシグモイド関数を用い
たが、F(x)の条件を満たすものであれば良いので、
例えば、次のような関数が考えられる。 【0043】 【数1】 【0044】次に本発明方法を適用した音声認識処理の
実験例について図3のブロック図を参照しつつ説明す
る。 【0045】ここでは、音声認識の問題のうち、日本語
有声破裂子音/b/,/d/,/g/ を離散分布型HMMで認識す
る問題に本発明を適用する。 【0046】この音声認識処理においては、有声破裂子
音/b/、/d/、/g/をそれぞれ1つのHMMでモ
デル化し、各HMMのパラメータを本発明の方法で学習
する。ここでは、離散分布型で4状態3ループ、スキッ
プなしのHMMを用いた。 【0047】また、学習と認識のための音声データは、
ATRデータベースの中の話者1名が文節単位に発声し
た重要単語を用いる。本実験では、話者がMAU(成人
男性)およびFSU(成人女性)の場合について検討を
行った。 【0048】先ず、入力された有声破裂子音の各子音デ
ータの始まりと終りは、ATRデータベースに付与され
たラベルを参照し、標本化周波数15kHzで標本化
(ブロックB20)して切り出し、18次のLPCケプ
ストラム分析(ブロック21)を行った。 【0049】コードブックは、各話者の音韻バランス単
語の17子音(/p/,/t/,/k/,/ts/,/s/,/h/,/z/,/ch/,/s
h/,/b/,/d/,/g/,/r/,/w/,/y/,/m/,/n/)から、256の
サイズで作成し(ブロックB22)、LPCケプストラ
ム分析した結果をベクトル量子化した(ブロックB2
3)。 【0050】次に各子音それぞれ300個のデータを1
00個ずつに分割して、データセット1、2、3を作成
した(ブロックB24)。HMMの学習を1つのデータ
セットで行い、認識を他の2つのデータセットで行うと
いう実験を行い、各データセットでの平均認識誤り率を
結果とする。 【0051】パラメータ学習時の初期HMMパラメータ
の設定は、Baum−Welchアルゴリズムを、自カ
テゴリの対数尤度が収束するまで(約45回の繰り返
し)実行したものを用いた。 【0052】次に、上記学習データセットを用いて、本
発明の学習方法により、HMMパラメータの学習を行っ
た(ブロックB25)。作成されたHMMパラメータ
(ブロックB26)を使って、認識データセットの対数
尤度を計算した(ブロックB27)。この対数尤度を判
定する(ブロックB28)ことによって全カテゴリのう
ち、最大となったカテゴリを認識結果とした。 【0053】図4に話者MAUでの日本語有声破裂子音
の認識結果を、図5に話者FSUでの日本語有声破裂子
音の認識結果を示す。ここでは、比較のために、本発明
の学習方法の初期HMMパラメータ、すなわち、Bau
m−Welch学習後の認識誤り率と、同様の実験を誤
り訂正学習で行ったときの認識誤り率も示した。なお、
各図中、openとは、未知データを認識したときをいい、
close とは、学習したデータそのものを認識したときを
いう。 【0054】図4から理解されるように、話者MAUの
未知データに対して、初期HMMパラメータでの認識誤
り率は、12.9%であったが、本学習方法では、1
0.1%となった。これは、誤り訂正学習法による認識
誤り率12.3%よりも優れている。また、図5から理
解されるように、話者FSUの未知データに関しても、
初期HMMパラメータでの認識誤り率は11.6%であ
り、誤り訂正学習法による認識誤り率は11.5%であ
るのに対し、本学習法では、10.4%であり、認識誤
り率の顕著なる低下が確認された。 【0055】以上の実験結果により、本発明のHMMパ
ラメータ学習法は、従来の学習法よりも高い認識性能を
持つHMMパラメータを提供できることが確認された。 【0056】以上説明したように本発明によれば、従来
に比べて高いパターン認識率を有するパターン認識装置
を提供することが可能となる。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an HMM (Hidden Markov) capable of improving a pattern recognition rate.
Model). [Summary of the Invention] [0002] The present invention relates to a pattern recognition apparatus for performing time-series pattern recognition using an HMM, and obtains a function representing the possibility of occurrence of a recognition error from all given learning data. By calculating an HMM parameter that minimizes the following, pattern recognition using an HMM having a higher recognition ability than in the past can be performed. [0003] Conventional HMM parameter learning methods include:
For example, the following three learning methods are known. (1) Baum-Welch algorithm This is also called the Forward-Backward algorithm, and is a widely used technique. In this method, when a state transition probability A and an output probability B, which are HMM parameters, are given, the maximum likelihood L (O | A, B) that the HMM outputs learning data O is maximized. This is a method of estimating a new state transition probability A and an output probability B based on the estimation. By repeating this parameter estimation,
It converges HMM parameters to local optimal values (eg, LRRabiner, BHJuang, "An Introduct
ion to Hidden Markov Models ", IEEE ASSP MAGAGINE, JA
N.1986, pp.4-16). (2) Error correction learning In this method, learning data is first recognized after HMM parameter estimation by the Baum-Welch algorithm,
When the likelihood difference is small even if misrecognized or correctly recognized,
Modify HMM parameters. That is, for the true category, the frequency of the symbol (label) of the training data is calculated as the output probability B
In addition to the above, a correction is made such that subtraction is performed from an erroneous category or a category having a small likelihood difference. Thereby, the recognition performance for learning data is improved (for example, LRBahl, PFBrown, PVde Souza, and RLMerce
r, "A New Algorithm for the Estimation of Hidden Ma
rkovModel Parameters ", Proceeding of the 1988 IEEE
International Conference on Acoustics, Speech and S
ignal Processing, pp493-496). (3) HMM learning by annealing In this method, an energy function having a negative logarithmic likelihood, which is created only from the learning data of the own category, is reduced by an annealing method. The HMM parameter is the state transition probability A
And the output probability B are selected alternately, and a random number according to a Gaussian distribution is added (for example, Douglas B. Paul, "Training of HMM Recogniz
ers by Simulated Annealing ", Proceedings of the 198
5 IEEE Internatinal Conference on Acoustics, Speec
h, and Signal Processing, pp13-16). [0007] However, (1)
Baum-Welch algorithm shown in (3)
In the learning of the HMM by annealing shown in (1), since learning data of other categories is not considered, these methods are not necessarily learning methods for increasing the degree of separation between categories. When the Baum-Welch algorithm of (1) is used, the HMM parameters converge to a local optimum value depending on the initial value, but the convergence value is not always the optimum value. On the other hand, the error correction learning shown in (2) considers learning data of other categories, and shows a very good result with respect to learning data, but recognizes too little with respect to unknown data. No improvement in rate is seen. This is because the error correction learning corrects the HMM parameters only between the true category and the incorrect category or the category having a small likelihood difference, so that it cannot be said that the correction is made in the direction in which the entire category can be easily recognized. Because. In addition, since the data is too adapted to the learning data, the recognition performance does not increase for unknown data when a category with many variations is handled. The present invention has been made in view of the above circumstances, and has as its object to obtain a function representing the possibility of occurrence of a recognition error from all learning data for all categories and calculate an HMM parameter for minimizing the function. By doing
An object of the present invention is to provide a pattern recognition apparatus using an HMM having a higher recognition ability than a conventional method. In order to achieve the above object, a pattern recognition apparatus according to the present invention comprises: a setting means for setting learning data and initial HMM parameters when performing pattern recognition using an HMM; and the initial objective function representing the likelihood that the initial recognition error from HMM parameter occurs, nearest category for each learning data
Using the sigmoid function
Function calculation means for obtaining the sum by category over the entire category, and perturbing the HMM parameters to obtain a new H
Process for obtaining MM parameters, new HMM obtained
In the process of obtaining a new objective function using the parameters, and when the obtained new objective function is decreasing,
HMM parameter calculation means for obtaining a HMM parameter that minimizes the objective function by appropriately repeating a process of adopting the new HMM parameter and the new objective function,
It is characterized in that pattern recognition is performed using the HMM parameters. (A) Set learning data and initial HMM parameters. (B) An initial objective function representing the possibility of a recognition error occurring is obtained from all the set learning data and initial HMM parameters. (C) Perturbation is applied to the HMM parameters to obtain new HMM parameters. (D) A new objective function is obtained using new HMM parameters. (E) If the objective function has decreased, a new HMM parameter and objective function are adopted. (F) The above steps (C), (D) and (E) are repeated as appropriate to determine HMM parameters for minimizing the objective function. According to the present invention having the above structure, the HMM parameter for minimizing the objective function representing the possibility of occurrence of a recognition error can be obtained, and the recognition rate when the present invention is applied to speech recognition is improved. . An embodiment of the present invention will be described below with reference to the drawings. First, the notation of this embodiment is defined as follows. M: the number of categories of the time series pattern to be recognized m, m ': category number (m, m' = 1, 2,...,
M) N: number of learning data in category n: learning data number (n = 1, 2,..., N) Omni: n-th learning data in category m Λ: set of HMM parameters of all categories, Λ = {λm} λm: HMM parameters category m, λm = {a m
ij, b m ijk} a m ij: Category m, transition probability b m ijk of when the state of the HMM is changed from i to j: Category m, when the state of the HMM is changed from i to j, discrete output In the case of a distributed HMM, the probability L (Omn | λm) of outputting the symbol k: the likelihood Emn of outputting the learning data Omn from the category m: the difference in log likelihood between the nearest category and the subject category with respect to the learning data Omn E: Objective function that represents the possibility of recognition errors occurring in the entire category The present invention is characterized in that a set of HMM parameters Λ = {λm} that minimizes the objective function E is calculated. Here, a sigmoid function F (x) = 1 / (1 + exp (−x / μ)) (where μ is a constant) (3) is used as the function F, and the steepest descent method is used as a method for minimizing E. An embodiment using the method will be described with reference to the flowcharts shown in FIGS. In the flowcharts shown in FIGS. 1 and 2, steps ST1 and ST2 correspond to the setting means of claim 1, step ST3 corresponds to the objective function calculating means of claim 1, and steps ST4 to ST11 correspond to the HMM parameter calculating means of claim 1. Configure each. First, learning data is set (step S).
T1). In this method, time series pattern learning data is prepared for all categories. Next, a set 初期 of initial HMM parameters is set (step ST2). An arbitrary initial value can be set for the state transition probability and the output probability, which are the HMM parameters. In the present embodiment, a method of setting HMM parameters after executing the Baum-Welch algorithm several times is used, and this set of initial HMM parameters is denoted by Λ. Note that a method may be used in which the time-series learning data is equally divided by the number of states of the HMM, and an output probability is statistically obtained for each symbol. Next, an initial objective function E is obtained (step ST3). This is because the difference Emn of the log likelihood between the nearest category and the own category with respect to the learning data Omn is expressed by the above (1).
Obtained by the formula The obtained log-likelihood difference Emn is converted by a monotonically increasing function F, and the sum of all learning data is obtained based on the above equation (2). This is the initial objective function E
It becomes. Log likelihood is a forward algorithm or Vite
Although determined by the rbi algorithm, in this embodiment, a forward algorithm is used. Next, HMM parameters to be perturbed are selected (step ST4). In this method, a uniform random number is generated to determine which HMM parameter is to be perturbed from all parameters of all categories, and only one is determined. Next, a perturbation is given to the selected HMM parameter (step ST5). This processing is performed in step S using uniform random numbers.
The value of the HMM parameter selected at T4 is changed. For example, if the state transition probability a m ij is selected, [1, -
1] multiply the above uniform random number r by a constant δ.
In the present embodiment, the constant δ = 0.01. [0028] Are similarly when the output probability b m ijk is selected, perturbing as follows. [0029] Next, it is determined whether or not to use the perturbation given as described above (step ST6). Since the state transition probability and the output probability both take the value of a probability, if the value after perturbation is smaller than 0 or larger than 1, the process returns to step ST4 to set another HMM parameter for perturbation. select. Next, a new set of HMM parameters Λ 'is determined (step ST7). The state transition probability of the perturbed category m,
Alternatively, the output probability is adjusted to a value that satisfies the following probability condition. [0034] Is a new set of HMM parameters Λ ′. Next, a new objective function E 'is obtained (step ST8). Using the newly obtained set of HMM parameters Λ ′, a new objective function E ′ is obtained in the same manner as in step ST3. Next, a decrease in the objective function is determined (step ST9). If E ′ ≦ E, the result of the perturbation is adopted to
= E ', and the set of HMM parameters Λ = Λ' (step ST10). Otherwise, if E '> E,
E and し な い are not updated. When the perturbation is performed for a preset number of loops and when the objective function E becomes very small, for example, when the objective function E becomes smaller than 10 -8 , the perturbation is terminated (step ST11). The set of HMM parameters MM which minimizes the objective function thus obtained is adopted as the optimum set of HMM parameters. In the above embodiment, the discrete output distribution H
Although the example in which the MM is used has been described, in the continuous distribution HMM, the present invention can be applied to a case where perturbation is added to the average and variance of the output probability density by using random numbers. In the above embodiment, the steepest descent method is used to minimize the objective function E.
Other optimization techniques can be used. Although the sigmoid function is used here also for the monotone increasing function F (x), any function that satisfies the condition of F (x) may be used.
For example, the following function can be considered. ## EQU1 ## Next, an experimental example of a speech recognition process to which the method of the present invention is applied will be described with reference to the block diagram of FIG. Here, the present invention is applied to the problem of recognizing Japanese voiced plosive consonants / b /, / d /, / g / among discrete speech recognition problems using a discrete distribution type HMM. In this speech recognition processing, voiced plosive consonants / b /, / d /, / g / are each modeled by one HMM, and the parameters of each HMM are learned by the method of the present invention. Here, a discrete distribution type HMM without four skips and three states is used. The voice data for learning and recognition is
An important word uttered by a single speaker in the ATR database in units of phrases is used. In this experiment, the case where speakers were MAU (adult male) and FSU (adult female) was examined. First, the beginning and the end of each consonant data of the input voiced consonant are sampled at a sampling frequency of 15 kHz (block B20) with reference to the label assigned to the ATR database, and cut out. An LPC cepstrum analysis (block 21) was performed. The code book is composed of 17 consonants (/ p /, / t /, / k /, / ts /, / s /, / h /, / z /, / ch /, phonologically balanced words of each speaker). / s
h /, / b /, / d /, / g /, / r /, / w /, / y /, / m /, / n /) with a size of 256 (block B22) and an LPC cepstrum The result of the analysis is vector-quantized (block B2
3). Next, 300 data of each consonant are divided into 1
Data sets 1, 2, and 3 were created by dividing the data set into 00 pieces (block B24). An experiment in which HMM learning is performed on one data set and recognition is performed on the other two data sets is performed, and the average recognition error rate in each data set is used as a result. The initial HMM parameters at the time of parameter learning were set by executing the Baum-Welch algorithm until the log likelihood of the own category converged (about 45 repetitions). Next, HMM parameters were learned by the learning method of the present invention using the learning data set (block B25). The log likelihood of the recognition data set was calculated using the created HMM parameters (block B26) (block B27). By judging the log likelihood (block B28), the category which became the maximum among all the categories was determined as the recognition result. FIG. 4 shows the recognition result of the Japanese voiced plosive consonant by the speaker MAU, and FIG. 5 shows the recognition result of the Japanese voiced plosive consonant by the speaker FSU. Here, for comparison, the initial HMM parameters of the learning method of the present invention, ie, Bau
The recognition error rate after m-Welch learning and the recognition error rate when the same experiment is performed by error correction learning are also shown. In addition,
In each figure, open means when unknown data is recognized,
Close means when the learned data itself is recognized. As can be understood from FIG. 4, the recognition error rate with the initial HMM parameters for the unknown data of the speaker MAU was 12.9%.
0.1%. This is superior to the recognition error rate of 12.3% by the error correction learning method. Also, as understood from FIG. 5, regarding the unknown data of the speaker FSU,
The recognition error rate with the initial HMM parameters is 11.6%, and the recognition error rate by the error correction learning method is 11.5%, whereas the recognition error rate is 10.4% in the present learning method. Was remarkably reduced. From the above experimental results, it was confirmed that the HMM parameter learning method of the present invention can provide HMM parameters having higher recognition performance than the conventional learning method. As described above, according to the present invention, it is possible to provide a pattern recognition device having a higher pattern recognition rate than the conventional one.

【図面の簡単な説明】 【図1】本発明装置の機能を示すフローチャートであ
る。 【図2】本発明装置の機能を示すフローチャートであ
る。 【図3】本発明が適用された音声認識処理を説明するブ
ロック図である。 【図4】図3の音声認識結果を示す説明図である。 【図5】図3の音声認識結果を示す説明図である。
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a flowchart showing functions of the device of the present invention. FIG. 2 is a flowchart showing functions of the device of the present invention. FIG. 3 is a block diagram illustrating a speech recognition process to which the present invention has been applied. FIG. 4 is an explanatory diagram showing a speech recognition result of FIG. 3; FIG. 5 is an explanatory diagram showing a speech recognition result of FIG. 3;

フロントページの続き (56)参考文献 特開 平4−205389(JP,A) 特開 平3−176781(JP,A) 松永務,阿部一朗,木田博巳,シミュ レーテッドアニーリング法を用いた文字 認識辞書の最適化,電子情報通信学会技 術研究報告[パターン認識・理解],日 本,1990年7月12日,PRU90−39, p.79−84 安藤彰男,尾関和彦,誤認識関数を最 小化する標準パターン学習アルゴリズ ム,日本音響学会平成3年度春季研究発 表会講演論文集,日本,1991年3月27 日,p.205−206 今井享,安藤彰男,対数尤度差に基づ く誤差関数を最小化するHMM学習法, 日本音響学会平成3年度秋季研究発表会 講演論文集,日本,1991年10月2日, p.79−80 今井享,安藤彰男,対数尤度差に基づ く誤差関数を最小化するHMM学習法, 電子情報通信学会技術研究報告[音声 ],日本,1991年12月19日,SP91− 87,p.49−56 安藤彰男,尾関和彦,誤認識関数を最 小化する標準パターン学習アルゴリズ ム,電子情報通信学会論文誌 A,日 本,1993年4月25日,Vol.J76− A,p.580−588 水田忍,中島邦男,混合連続分布HM Mに対する最適識別学習法の検討,日本 音響学会平成2年度春季研究発表会講演 論文集,日本,1990年3月28日,p.23 −24 (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 G10L 15/06 Continuation of the front page (56) References JP-A-4-205389 (JP, A) JP-A-3-176781 (JP, A) Tsutomu Matsunaga, Ichiro Abe, Hiromi Kida, Character recognition using the simulated annealing method Dictionary optimization, IEICE Technical Report [Pattern Recognition and Understanding], Japan, July 12, 1990, PRU90-39, p. 79-84 Akio Ando, Kazuhiko Ozeki, Standard Pattern Learning Algorithm for Minimizing False Recognition Functions, Proceedings of the Acoustical Society of Japan, Spring Meeting, 1991, Japan, March 27, 1991, p. 205-206 Takashi Imai, Akio Ando, HMM Learning Method to Minimize Error Function Based on Log-Likelihood Difference, Proceedings of the Acoustical Society of Japan 1991 Autumn Meeting, Japan, October 2, 1991, p. 79-80 Takashi Imai, Akio Ando, HMM Learning Method to Minimize Error Function Based on Log-Likelihood Difference, IEICE Technical Report [Speech], Japan, December 19, 1991, SP91-87 , P. 49-56 Akio Ando, Kazuhiko Ozeki, Standard Pattern Learning Algorithm for Minimizing False Recognition Functions, IEICE Transactions A, Japan, April 25, 1993, Vol. J76-A, p. 580-588 Shinobu Mizuta, Kunio Nakajima, Optimal Discrimination Learning Method for Mixed Continuous Distribution HMM, Proceedings of the Acoustical Society of Japan Spring Meeting, 1990, Japan, March 28, 1990, p. 23 −24 (58) Field surveyed (Int.Cl. 7 , DB name) G10L 15/14 G10L 15/06

Claims (1)

(57)【特許請求の範囲】 【請求項1】 HMMによるパターン認識をする際に、
学習データおよび初期のHMMパラメータを設定する設
定手段と、 設定された全ての学習データおよび初期HMMパラメー
タから認識誤りが起こる可能性を表す初期の目的関数
、各学習データに対する最近傍カテゴリと自カテゴリ
との対数尤度の差をシグモイド関数を用いてカテゴリ全
体で和をとることによって求める目的関数演算手段と、 HMMパラメータに摂動を与え、新たなHMMパラメー
タを求める処理、求められた新たなHMMパラメータを
用いて新たな目的関数を求める処理、および求められた
新たな目的関数が減少している場合には、新たなHMM
パラメータと新たな目的関数を採用する処理を適宜繰り
返して前記目的関数を最小化するHMMパラメータを求
めるHMMパラメータ演算手段と、 を備え、該HMMパラメータによりパターン認識を行う
ことを特徴とするパターン認識装置。
(57) [Claims] [Claim 1] When performing pattern recognition by HMM,
Setting means for setting the HMM parameters of learning data and the initial, the initial objective function representing the likelihood that recognition errors occur from all learning data and initial HMM parameters are set, the self and nearest Categories for each training data
Using the sigmoid function
Means for calculating an objective function by obtaining a sum in a field; processing for obtaining a new HMM parameter by perturbing the HMM parameter; processing for obtaining a new objective function using the obtained new HMM parameter; If the new objective function has decreased, a new HMM
HMM parameter calculation means for obtaining an HMM parameter for minimizing the objective function by appropriately repeating the process of adopting the parameter and the new objective function, and performing pattern recognition using the HMM parameter. .
JP22568491A 1991-09-05 1991-09-05 Pattern recognition device Expired - Fee Related JP3364234B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22568491A JP3364234B2 (en) 1991-09-05 1991-09-05 Pattern recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22568491A JP3364234B2 (en) 1991-09-05 1991-09-05 Pattern recognition device

Publications (2)

Publication Number Publication Date
JPH0566791A JPH0566791A (en) 1993-03-19
JP3364234B2 true JP3364234B2 (en) 2003-01-08

Family

ID=16833172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22568491A Expired - Fee Related JP3364234B2 (en) 1991-09-05 1991-09-05 Pattern recognition device

Country Status (1)

Country Link
JP (1) JP3364234B2 (en)

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
今井享,安藤彰男,対数尤度差に基づく誤差関数を最小化するHMM学習法,日本音響学会平成3年度秋季研究発表会講演論文集,日本,1991年10月2日,p.79−80
今井享,安藤彰男,対数尤度差に基づく誤差関数を最小化するHMM学習法,電子情報通信学会技術研究報告[音声],日本,1991年12月19日,SP91−87,p.49−56
安藤彰男,尾関和彦,誤認識関数を最小化する標準パターン学習アルゴリズム,日本音響学会平成3年度春季研究発表会講演論文集,日本,1991年3月27日,p.205−206
安藤彰男,尾関和彦,誤認識関数を最小化する標準パターン学習アルゴリズム,電子情報通信学会論文誌 A,日本,1993年4月25日,Vol.J76−A,p.580−588
松永務,阿部一朗,木田博巳,シミュレーテッドアニーリング法を用いた文字認識辞書の最適化,電子情報通信学会技術研究報告[パターン認識・理解],日本,1990年7月12日,PRU90−39,p.79−84
水田忍,中島邦男,混合連続分布HMMに対する最適識別学習法の検討,日本音響学会平成2年度春季研究発表会講演論文集,日本,1990年3月28日,p.23−24

Also Published As

Publication number Publication date
JPH0566791A (en) 1993-03-19

Similar Documents

Publication Publication Date Title
US6125345A (en) Method and apparatus for discriminative utterance verification using multiple confidence measures
Sukkar et al. Vocabulary independent discriminative utterance verification for nonkeyword rejection in subword based speech recognition
US5675706A (en) Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US6385579B1 (en) Methods and apparatus for forming compound words for use in a continuous speech recognition system
US6567776B1 (en) Speech recognition method using speaker cluster models
CA2177638C (en) Utterance verification using word based minimum verification error training for recognizing a keyword string
JP2002500779A (en) Speech recognition system using discriminatively trained model
Satoh et al. A robust speaker verification system against imposture using an HMM-based speech synthesis system
Ney et al. The RWTH large vocabulary continuous speech recognition system
US7346497B2 (en) High-order entropy error functions for neural classifiers
JP2000099080A (en) Voice recognizing method using evaluation of reliability scale
US20030023438A1 (en) Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory
JPH08227298A (en) Voice recognition using articulation coupling between clustered words and/or phrases
Kaur et al. Feature space discriminatively trained Punjabi children speech recognition system using Kaldi toolkit
JP3088357B2 (en) Unspecified speaker acoustic model generation device and speech recognition device
JP2001083986A (en) Method for forming statistical model
JP3176210B2 (en) Voice recognition method and voice recognition device
JP3364234B2 (en) Pattern recognition device
US20020133343A1 (en) Method for speech recognition, apparatus for the same, and voice controller
JP2996925B2 (en) Phoneme boundary detection device and speech recognition device
Bauer et al. Accurate recognition of city names with spelling as a fall back strategy.
JP3368989B2 (en) Voice recognition method
Aşlyan Syllable Based Speech Recognition
JP2923243B2 (en) Word model generation device for speech recognition and speech recognition device
JP3868798B2 (en) Voice recognition device

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees