JP2005141049A - Pattern recognition device, voice recognition device, and program - Google Patents
Pattern recognition device, voice recognition device, and program Download PDFInfo
- Publication number
- JP2005141049A JP2005141049A JP2003378078A JP2003378078A JP2005141049A JP 2005141049 A JP2005141049 A JP 2005141049A JP 2003378078 A JP2003378078 A JP 2003378078A JP 2003378078 A JP2003378078 A JP 2003378078A JP 2005141049 A JP2005141049 A JP 2005141049A
- Authority
- JP
- Japan
- Prior art keywords
- penalty
- recognition
- pattern
- standard pattern
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、パターン認識装置、音声認識装置、およびプログラムに関し、特に混合確率密度モデルを用いた音声認識における標準パターンの作成において、自動的に標準パターンの最適な構造を決めることのできる技術に関する。 The present invention relates to a pattern recognition device, a speech recognition device, and a program, and more particularly to a technique that can automatically determine an optimal structure of a standard pattern in creating a standard pattern in speech recognition using a mixed probability density model.
近年、隠れマルコフモデル(HMM)を用いた音声認識の研究が行われている。HMMの詳細な説明は、ラビナー、ジュアング著、古井訳「音声認識の基礎(下)」、NTTアドバンステクノロジ(1995)(以下、非特許文献1)の102〜187頁に記述されている。HMMを用いた音声認識では、状態の分布を表すのに、ガウス分布を複数用いた混合ガウス分布が広く用いられている。1状態あたりのガウス分布数が多いほど、その状態の分布を正確に表すことができるため、認識性能も向上することが知られている。個々のガウス分布のパラメータは、学習において推定されるが、それぞれのガウス分布を正確に推定するためには、ある程度の学習データ量が必要になる。 In recent years, speech recognition using Hidden Markov Model (HMM) has been studied. A detailed description of the HMM is described on pages 102 to 187 of Rabiner, Juan, Translated by Furui, “Basics of Speech Recognition (below)”, NTT Advanced Technology (1995) (hereinafter, Non-Patent Document 1). In speech recognition using an HMM, a mixed Gaussian distribution using a plurality of Gaussian distributions is widely used to represent the state distribution. It is known that the greater the number of Gaussian distributions per state, the more accurately the state distribution can be expressed, thus improving the recognition performance. The parameters of individual Gaussian distributions are estimated in learning, but a certain amount of learning data is required to accurately estimate each Gaussian distribution.
一方、一般には学習データ量は限られているため、精度良く推定できるガウス分布数は限られている。そのため、データ量あたりのガウス分布数を最適に設定できる基準が必要となる。たとえば、特開平2002-268675(特許文献1と称する)では、記述長最小化(MDL)基準を用いて1状態あたりのガウス分布の数を決定している。MDL基準は、なるべく少ないパラメータ数(ガウス分布数)で、与えられた学習データを良く表すという理念を表現した基準のひとつである。MDLは、特許文献1の[数式18](下記(式1)として示す)であらわされるように、データとモデルの整合性を表す量と、ガウス分布数が増えることに対するペナルティとなる量で構成されている。 On the other hand, since the amount of learning data is generally limited, the number of Gaussian distributions that can be accurately estimated is limited. Therefore, a standard that can optimally set the number of Gaussian distributions per data amount is required. For example, in Japanese Patent Laid-Open No. 2002-268675 (referred to as Patent Document 1), the number of Gaussian distributions per state is determined using a description length minimization (MDL) criterion. The MDL standard is one of the standards expressing the philosophy that the given learning data is well represented with as few parameters as possible (the number of Gaussian distributions). As shown in [Formula 18] of Patent Document 1 (shown as (Formula 1) below), the MDL is composed of an amount that represents the consistency between the data and the model, and an amount that is a penalty for an increase in the number of Gaussian distributions. Has been.
LMDL(i) = -logPθ(i)(xN) + 0.5αilogN ・・(式1)
(式1)の記号を、特許文献1におけるモデルという用語を状態と読み替えて説明する。xNは、状態iを学習するための学習データで、Nは、データの個数を示す。θ(i)は、学習データxNによって推定された、状態iの最尤推定量である。αiは、状態iの次元数を表し、ガウス分布数と1ガウス分布あたりのパラメータ数の積である。特許文献1には、状態数に関する項もあったが、ここでは1状態あたりのガウス分布数を対象としているので省略した。(式1)の右辺第1項目は、データとモデルの整合性がよくなるほど小さくなる。整合性は、データ量あたりのガウス分布が多くなるほど良くなるため、(式1)の右辺の第1項目のみを用いてガウス分布数を決定した場合、データ量に応じてガウス分布数が多くなる方向に働く。
L MDL (i) = -logP θ (i) (x N ) + 0.5α i logN (1)
The symbol of (Formula 1) will be described by replacing the term “model” in Patent Document 1 with a state. x N is learning data for learning the state i, and N indicates the number of data. theta (i) was estimated by the learning data x N, a maximum likelihood estimator of state i. α i represents the number of dimensions of the state i, and is the product of the number of Gaussian distributions and the number of parameters per Gaussian distribution. Japanese Patent Laid-Open No. 2004-228688 also has a section on the number of states, but here it is omitted because it deals with the number of Gaussian distributions per state. The first item on the right side of (Expression 1) decreases as the consistency between the data and the model improves. Since the consistency increases as the Gaussian distribution per data amount increases, when the number of Gaussian distributions is determined using only the first item on the right side of (Equation 1), the number of Gaussian distributions increases according to the data amount. Work in the direction.
一方、(式1)の右辺の第2項は、ガウス分布が増加した場合に、値が増加する。そのため、(式1)の右辺第1項によってガウス分布数を増加させようとしても、(式1)の右辺第2項によりガウス分布数に応じてペナルティがかかるため、ある最適な個数が決まる。このような基準は、MDLの他に赤池情報量基準(AIC)やベイズ情報量基準(BIC)などがしられている。特許文献1では、(式1)のLMDLが最小になるように、ガウス分布を増やした後の記述長LMDLと、ガウス分布を増やす前の記述長LMDLの差分である、特許文献1の[数式2](下記(式2)で示す)であらわされるΔMDLが、ΔMDL<0の場合は、ガウス分布数を増やして、ΔMDL>0の場合、ガウス分布数を増やさないように制御する。 On the other hand, the value of the second term on the right side of (Expression 1) increases when the Gaussian distribution increases. For this reason, even if an attempt is made to increase the number of Gaussian distributions by the first term on the right side of (Equation 1), a penalty is imposed according to the number of Gaussian distributions by the second term on the right side of (Equation 1), and thus an optimal number is determined. Such standards include the Akaike information criterion (AIC) and the Bayesian information criterion (BIC) in addition to the MDL. In Patent Document 1, Patent Document 1 is the difference between the description length L MDL after increasing the Gaussian distribution and the description length L MDL before increasing the Gaussian distribution so that L MDL in (Equation 1) is minimized. When Δ MDL expressed by [Formula 2] (shown in the following (Formula 2)) is Δ MDL <0, the number of Gaussian distributions is increased, and when Δ MDL > 0, the number of Gaussian distributions is not increased. To control.
ΔMDL=0.5Γ(S1)log|ΣS1|+0.5Γ(S2)log|ΣS2|-0.5Γ(S0)log|ΣS0|+Klog|V| ・・(式2)
(式2)について説明する。簡単のために、状態iは、2つのガウス分布S1とS2を持っていたとし、状態iのガウス分布数を決めるために、特許文献1に示されるように、ガウ
ス分布S1とS2の親ノードとなるガウス分布S0を作成されているとする。ここで、Γ(S0)とΓ(S1)、Γ(S2)は、ガウス分布S1を作成されたときのデータ量、ΣS0とΣS1、ΣS2は、ガウス分布S1とS2の分散を表す。Kは、分散の次元数を表す。Vは、Γ(S1)+Γ(S2)である。
Δ MDL = 0.5Γ (S1) log | Σ S1 | + 0.5Γ (S2) log | Σ S2 | -0.5Γ (S0) log | Σ S0 | + Klog | V |
(Formula 2) will be described. For simplicity, it is assumed that the state i has two Gaussian distributions S1 and S2. In order to determine the number of Gaussian distributions in the state i, the parent node of the Gaussian distributions S1 and S2, as shown in Patent Document 1, is shown. Suppose that a Gaussian distribution S0 is created. Here, Γ (S0), Γ (S1), and Γ (S2) are the amount of data when the Gaussian distribution S1 is created, and Σ S0 and Σ S1 and Σ S2 represent the variance of the Gaussian distributions S1 and S2. . K represents the number of dimensions of dispersion. V is Γ (S1) + Γ (S2).
図3と図4を用いて特許文献1に示される、MDL基準を用いたHMMのガウス分布数の調節を行う、従来法の音声認識装置の説明を行う。従来の音声認識装置は、標準パターン作成手段100と標準パターン調整手段200と標準パターン記憶手段300と入力パターン作成手段500と認識手段400で構成される。それぞれの動作は、特許文献1に記述されているように、標準パターン作成手段100は、学習音声を用いて調整前の標準パターンH0を作成し、入力パターン作成手段500は、入力音声を用いて特徴ベクトルVを計算し出力し、標準パターン調整手段200は、MDL基準を用いて調整前の標準パターンH0のガウス分布数を調整して新たな調整後の標準パターンHを作成し、出力する。標準パターン記憶手段300は、調整前の標準パターンH0を記憶する。認識手段400は、特徴ベクトルVとHを用いて認識し、認識結果を出力する。
A conventional speech recognition apparatus that adjusts the number of Gaussian distributions of the HMM using the MDL criterion, as shown in Patent Document 1, will be described with reference to FIGS. 3 and 4. The conventional speech recognition apparatus includes a standard
図4を用いて、標準パターン調整手段200を説明する。図4は、従来の標準パターン調整手段200を説明するためのフローチャートである。整合性計算ステップ200aは、(式2)のモデルとデータの整合性の差分を表す量である、右辺の第1、第2、第3項を計算する。パラメータ量ペナルティ計算ステップ200bは、(式2)のガウス分布を増加させることによるペナルティ項の差分である、右辺の第4項を計算する。この値を、パラメータ量ペナルティと呼ぶ。混合分布数決定ステップ200cは、整合性計算ステップ200aとパラメータ量ペナルティ計算ステップ200bで計算された値から(式2)のΔMDLの値を計算し、ΔMDL<0の場合分割を行い、ΔMDL>0の場合分割を停止する。これらの動作の詳細は、特許文献1に記載されている。
The standard
特許文献1のように、ガウス分布数の決定をデータ量とガウス分布数に着目した基準で行っている方法に対し、ノルマンディン著、「オプティマル・スプリッティング・オブ・エイチエムエム・ガウシャン・ミックスチャー・コンポーネント・ウィズ・エムエムアイイー・トレーニング」アイキャスプ1995(Normandin,“Optimal Splitting of HMM Gaussian Mixture Component with MMIE Training”,ICASSP 1995)(以下、非特許文献2)で相互情報量最大化基準(MMI)を用いたガウス分布数の制御方法を提案している。非特許文献2では、MMIを状態毎の混同する度合いを小さくするための基準として用いている。この方法は、MMIを用いて他の状態と混同の度合いが大きい状態のガウス分布数を増やして、混同の度合いの小さい状態のガウス分布数は増やさないことに特徴がある。 In contrast to the method of determining the number of Gaussian distributions based on the amount of data and the number of Gaussian distributions as in Patent Document 1, Normandin's “Optimal Splitting of HM Gaussian Mixture”・ Component with MMI Training “Icusp 1995” (Normandin, “Optimal Splitting of HMM Gaussian Mixture Component with MMIE Training”, ICASSP 1995) (hereinafter referred to as Non-Patent Document 2) We propose a method for controlling the number of Gaussian distributions using. In Non-Patent Document 2, MMI is used as a reference for reducing the degree of confusion for each state. This method is characterized by using MMI to increase the number of Gaussian distributions in a state of high confusion with other states and not increasing the number of Gaussian distributions in a state of low confusion.
特許文献1で示されているMDL(BIC,AICなど)基準を用いたガウス分布数の制御は、基本的に学習データ量に応じてガウス分布数を決定する方法で、ガウス分布数が過剰に割り当てられるのを防ぐことができる。そのため、HMM全体で持つガウス分布の数が決まっている場合、状態毎に与えられるガウス分布数は、それぞれの状態の学習データ量の相対量に応じた数になる。すなわち、データ量が多い状態には、ガウス分布が多く、データ量の少ない状態には、ガウス分布数が少ない。 The control of the number of Gaussian distributions using the MDL (BIC, AIC, etc.) standard shown in Patent Document 1 is basically a method of determining the number of Gaussian distributions according to the amount of learning data. It can be prevented from being assigned. Therefore, when the number of Gaussian distributions in the entire HMM is determined, the number of Gaussian distributions given for each state is a number corresponding to the relative amount of learning data in each state. That is, the Gaussian distribution is large when the data amount is large, and the Gaussian distribution number is small when the data amount is small.
一方、音声認識では、単語や音節、音素などを識別することを目的としている。特許文献1の方法では、データ量が多いという理由だけで識別に不要なガウス分布が与えられる状態が現れる可能性があり、更に学習データ量が少ないが他と混同が大きい状態には混同を解消するのに不十分な数のガウス分布となる可能性がある。 On the other hand, the purpose of speech recognition is to identify words, syllables, phonemes and the like. In the method of Patent Document 1, there is a possibility that a state where a Gaussian distribution unnecessary for identification is given only appears because the amount of data is large, and furthermore, the confusion is eliminated when the amount of learning data is small but the amount of confusion is large with others. There may be an insufficient number of Gaussian distributions.
非特許文献2のように、識別的な基準でガウス分布数の制御を行っている例では、ガウス分布数の上限を決める基準がはっきりしない。すなわち、極端な場合、学習データに対して識別力を高めようとして識別的にガウス分布数を増やしていくと、1ガウス分布あたりの学習データ量が少なくなり、分布の推定が不安定になる原因となる。また、識別的な基準は、認識の単位とするクラス(ここでは状態)毎に、混同の度合いを計算する必要がある。一般に、音声認識で用いられるHMMは、1000から10000の状態を持っており、これら全ての組み合わせを計算すると多大な計算量が必要になる可能性がある。
[発明の目的]
本発明の目的は、ガウス分布を持つHMMを用いた音声認識装置において、ガウス分布の数の調整を効果的に行うことのできる、音声認識装置を提供することにある。
In an example in which the control of the number of Gaussian distributions is performed using discriminative criteria as in Non-Patent Document 2, the criterion for determining the upper limit of the number of Gaussian distributions is not clear. That is, in extreme cases, if the number of Gaussian distributions is increased discriminatively in order to increase the discriminating power for learning data, the amount of learning data per Gaussian distribution decreases, and the estimation of the distribution becomes unstable. It becomes. In addition, the discriminative criterion needs to calculate the degree of confusion for each class (in this case, state) as a recognition unit. In general, an HMM used in speech recognition has a state of 1000 to 10000, and calculating all of these combinations may require a large amount of calculation.
[Object of invention]
An object of the present invention is to provide a speech recognition apparatus that can effectively adjust the number of Gaussian distributions in a speech recognition apparatus using an HMM having a Gaussian distribution.
本発明の第1のパターン認識装置は、複数の確率分布を標準パターンとするパターン認識装置において、確率分布の個数を最適に調整するに際して、標準パターンにおける確率分布のパラメータ数に応じて計算されるパラメータ量ペナルティと、各確率分布の誤認識の程度である識別ペナルティを合わせた基準を用いて調整することを特徴とする。 The first pattern recognition apparatus according to the present invention is calculated according to the number of parameters of the probability distribution in the standard pattern when optimally adjusting the number of probability distributions in the pattern recognition apparatus using a plurality of probability distributions as the standard pattern. The adjustment is performed using a standard that combines a parameter amount penalty and an identification penalty that is the degree of erroneous recognition of each probability distribution.
本発明の第2のパターン認識装置は、複数の確率分布を標準パターンとするパターン認識装置において、確率分布の個数を最適に調整するに際して、学習データと標準パターンの整合性と、標準パターンにおける確率分布のパラメータ数に応じて計算されるパラメータ量ペナルティと、各確率分布の誤認識の程度である識別ペナルティを合わせた基準を用いて調整することを特徴とする。 The second pattern recognition apparatus according to the present invention is a pattern recognition apparatus that uses a plurality of probability distributions as a standard pattern. When the number of probability distributions is optimally adjusted, the consistency between learning data and the standard pattern, and the probability in the standard pattern It is characterized by adjusting using a standard that combines a parameter amount penalty calculated according to the number of parameters of the distribution and an identification penalty that is the degree of erroneous recognition of each probability distribution.
本発明の第3のパターン認識装置は、確率分布を用いるパターン認識装置において、学習データから作成された標準パターンと入力データを用いて認識結果を出力する認識手段と、標準パターンを保持する標準パターン記憶手段と、標準パターンと認識結果を用いて、確率分布の数を最適に調整する識別的混合分布調整手段を保持し、前記識別的混合分布調整手段が、学習データと標準パターンの整合性を計算する整合性計算手段と、確率分布のパラメータ数に応じたパラメータ量ペナルティを計算するパラメータ量ペナルティ計算手段と、認識結果から識別ペナルティを計算する誤識別ペナルティ計算手段と、前記整合性と前記パラメータ量ペナルティと前記識別ペナルティを用いて、確率分布のパラメータ数を調節するための基準を計算する決定基準計算手段と、前記基準を用いて確率分布数の調整を行う混合分布決定手段を備えることを特徴とする。 According to a third pattern recognition apparatus of the present invention, in a pattern recognition apparatus that uses a probability distribution, a recognition unit that outputs a recognition result using a standard pattern created from learning data and input data, and a standard pattern that holds the standard pattern A discriminant mixture distribution adjustment unit that optimally adjusts the number of probability distributions is stored using the storage unit, the standard pattern, and the recognition result. Consistency calculation means for calculating, parameter quantity penalty calculation means for calculating a parameter quantity penalty corresponding to the number of parameters of the probability distribution, misidentification penalty calculation means for calculating an identification penalty from a recognition result, the consistency and the parameters Use the quantity penalty and the discrimination penalty to calculate a criterion for adjusting the number of parameters in the probability distribution And determining the reference calculating unit that, characterized in that it comprises a mixture distribution determining means for adjusting the probability distribution number using the reference.
本発明の第4のパターン認識装置は、本発明の第3のパターン認識装置において、前記誤識別ペナルティ計算手段が、認識結果と正解の認識単位毎の尤度差、認識単位毎の事後確率、または対象とした認識単位と他の認識単位のカルバック距離の総和の逆数を識別ペナルティとすること特徴とする。 According to a fourth pattern recognition apparatus of the present invention, in the third pattern recognition apparatus of the present invention, the misidentification penalty calculation means includes a recognition result and a likelihood difference for each correct recognition unit, a posterior probability for each recognition unit, Alternatively, the recognizing penalty is a reciprocal of the sum of the Cullback distances of the target recognition unit and other recognition units.
本発明の音声認識装置は、確率分布を用いてパターン認識する音声認識装置において、学習音声データから作成された標準パターンと音声入力データを用いて認識結果を出力する認識手段と、標準パターンを保持する標準パターン記憶手段と、標準パターンと認識結果を用いて、確率分布の数を最適に調整する識別的混合分布調整手段を保持し、前記識別的混合分布調整手段が、学習データと標準パターンの整合性を計算する整合性計算手段と、確率分布のパラメータ数に応じたパラメータ量ペナルティを計算するパラメータ量ペナルティ計算手段と、認識結果から識別ペナルティを計算する誤識別ペナルティ計算手段と、前記整合性と前記パラメータ量ペナルティと前記識別ペナルティを用いて、確率分布のパラメータ数を調節するための基準を計算する決定基準計算手段と、前記基準を用いて確率分布数の調整を行う混合分布決定手段を備えることを特徴とする。 The speech recognition apparatus according to the present invention includes a recognition unit that outputs a recognition result using a standard pattern created from learning speech data and speech input data, and a standard pattern in the speech recognition device that recognizes a pattern using a probability distribution. And a discriminant mixed distribution adjusting unit that optimally adjusts the number of probability distributions using the standard pattern and the recognition result, and the discriminant mixed distribution adjusting unit Consistency calculation means for calculating consistency, parameter quantity penalty calculation means for calculating a parameter quantity penalty corresponding to the number of parameters in the probability distribution, misidentification penalty calculation means for calculating an identification penalty from the recognition result, and the consistency And adjusting the number of parameters of the probability distribution using the parameter amount penalty and the identification penalty And determining the reference calculating means for calculating the quasi, characterized in that it comprises a mixture distribution determining means for adjusting the probability distribution number using the reference.
本発明の第1のプログラムは、複数の確率分布を標準パターンとするパターン認識のプログラムにおいて、確率分布の個数を最適に調整するに際して、標準パターンにおける確率分布のパラメータ数に応じて計算されるパラメータ量ペナルティと、各確率分布の誤認識の程度である識別ペナルティを合わせた基準を用いて調整する手順をコンピュータに実行させることを特徴とする。 The first program of the present invention is a parameter that is calculated according to the number of parameters of a probability distribution in a standard pattern when optimally adjusting the number of probability distributions in a pattern recognition program using a plurality of probability distributions as a standard pattern. It is characterized by having a computer execute a procedure for adjusting using a standard that combines a quantity penalty and an identification penalty that is the degree of erroneous recognition of each probability distribution.
本発明の第2のプログラムは、複数の確率分布を標準パターンとするパターン認識のプログラムにおいて、確率分布の個数を最適に調整するに際して、学習データと標準パターンの整合性と、標準パターンにおける確率分布のパラメータ数に応じて計算されるパラメータ量ペナルティと、各確率分布の誤認識の程度である識別ペナルティを合わせた基準を用いて調整する手順をコンピュータに実行させることを特徴とする。 The second program of the present invention is a pattern recognition program that uses a plurality of probability distributions as a standard pattern. When the number of probability distributions is optimally adjusted, the consistency between the learning data and the standard pattern, and the probability distribution in the standard pattern The computer is caused to perform a procedure for adjustment using a standard that combines a parameter amount penalty calculated according to the number of parameters and an identification penalty that is the degree of erroneous recognition of each probability distribution.
本発明の第3のプログラムは、確率分布を用いるパターン認識のプログラムにおいて、学習データから作成された標準パターンと入力データを用いて認識結果を出力する手順と、前記標準パターンと前記認識結果を用いて確率分布の数を最適に調整する手順と、前記学習データと前記標準パターンの整合性を計算する手順と、確率分布のパラメータ数に応じたパラメータ量ペナルティを計算する手順と、前記認識結果から識別ペナルティを計算する手順と、前記整合性と前記パラメータ量ペナルティと前記識別ペナルティを用いて確率分布のパラメータ数を調節するための基準を計算する手順と、前記基準を用いて確率分布数の調整を行う手順とをコンピュータに実行させることを特徴とする。 According to a third program of the present invention, in a pattern recognition program using a probability distribution, a procedure for outputting a recognition result using a standard pattern created from learning data and input data, and the standard pattern and the recognition result are used. A procedure for optimally adjusting the number of probability distributions, a procedure for calculating consistency between the learning data and the standard pattern, a procedure for calculating a parameter amount penalty corresponding to the number of parameters of the probability distribution, and the recognition result A procedure for calculating an identification penalty, a procedure for calculating a criterion for adjusting the number of parameters of the probability distribution using the consistency, the parameter amount penalty, and the identification penalty, and an adjustment of the number of probability distributions using the criterion And causing the computer to execute a procedure for performing the above.
本発明の第4のプログラムは、本発明の第3のプログラムにおいて、前記識別ペナルティを計算する手順が、前記認識結果と正解の認識単位毎の尤度差、認識単位毎の事後確率、または対象とした認識単位と他の認識単位のカルバック距離の総和の逆数を識別ペナルティとすること特徴とする。 According to a fourth program of the present invention, in the third program of the present invention, the procedure for calculating the identification penalty is the likelihood difference between the recognition result and the correct recognition unit, the posterior probability for each recognition unit, or the target The recognizing penalty is a reciprocal of the sum of the Cullback distances of the recognition unit and other recognition units.
本発明の第5のプログラムは、確率分布を用いてパターン認識する音声認識のプログラムにおいて、学習データから作成された標準パターンと入力データを用いて認識結果を出力する手順と、前記標準パターンと前記認識結果を用いて確率分布の数を最適に調整する手順と、前記学習データと前記標準パターンの整合性を計算する手順と、確率分布のパラメータ数に応じたパラメータ量ペナルティを計算する手順と、前記認識結果から識別ペナルティを計算する手順と、前記整合性と前記パラメータ量ペナルティと前記識別ペナルティを用いて確率分布のパラメータ数を調節するための基準を計算する手順と、前記基準を用いて確率分布数の調整を行う手順とをコンピュータに実行させることを特徴とする。 The fifth program of the present invention is a speech recognition program for recognizing a pattern using a probability distribution, a procedure for outputting a recognition result using a standard pattern created from learning data and input data, the standard pattern, A procedure for optimally adjusting the number of probability distributions using a recognition result; a procedure for calculating consistency between the learning data and the standard pattern; a procedure for calculating a parameter amount penalty according to the number of parameters of the probability distribution; A procedure for calculating an identification penalty from the recognition result, a procedure for calculating a criterion for adjusting the number of parameters of the probability distribution using the consistency, the parameter amount penalty, and the identification penalty, and a probability using the criterion. And causing the computer to execute a procedure for adjusting the number of distributions.
データ量と整合性だけでガウス分布数を調節するのではなく、識別的な量を考慮してガウス分布数を決定するので、識別に必要なガウス分布数が確保できる。基本的には、データ量も考慮された基準を使うことから、識別的な基準だけを使うより、汎化性の高い音響モデルができる。 The number of Gaussian distributions is determined not only by adjusting the number of Gaussian distributions based on the consistency with the amount of data, but also by considering the discriminative amount. Basically, since a criterion that also considers the amount of data is used, an acoustic model with high generalization can be made rather than using only a discriminative criterion.
その結果、認識に最適な混合ガウス分布の配分が行われることになり、MDL基準や識別的な基準を別々に使うより認識性能高い音響モデルを作成することができる。 As a result, an optimal mixture of Gaussian distributions for recognition is performed, and it is possible to create an acoustic model with higher recognition performance than using MDL criteria and discriminative criteria separately.
図1と図2を用いて本発明の最良の形態を説明する。本発明の構成は、標準パターン作成手段100と、識別的混合分布調整手段2000と、標準パターン記憶手段300と、入力パターン作成手段500と、認識手段400と、入力パターン計算手段で構成される。識別的混合分布調整手段2000以外は、従来の技術で提示した特許文献1と同じである。図2を用いて識別的標混合分布調整手段2000について説明する。図2は、識別的混合分布調整手段の動作を示すフローチャートである。まず、識別的混合分布調整手段2000は、従来例同様、整合性計算ステップ200aとパラメータ量ペナルティ計算ステップ200bを行う。誤識別ペナルティ計算ステップ2000aでは、識別性能を表す識別ペナルティを計算する。識別ペナルティの計算方法は、後述する。決定基準計算ステップ2000bにて、整合性とパラメータ量ペナルティと識別ペナルティを用いて、新たな分割基準を計算する。
誤識別ペナルティ計算ステップ2000aにて計算される識別ペナルティdLについて説明する。認識結果Rは、標準パターン作成手段100において作成された調整前の標準パターンH0を用いて音声データ2を用いて入力パターン作成手段500で作成された入力パターンの照合を行い、一番類似どの高いシンボル系列として選択される。音声データ2は、学習に用いた音声データや評価に用の音声データ、目的のタスク用の開発用音声データなどが考えられる。また、認識に用いる辞書も、音節辞書や、目的のタスクの辞書などが考えられる。ここでタスクとは、認識や学習に用いる語彙セットのことを示す。
The best mode of the present invention will be described with reference to FIGS. The configuration of the present invention includes a standard
The identification penalty dL calculated in the erroneous identification
その後、認識結果Rとその結果に対する正解について、それぞれアライメントを計算する。アライメントは、非特許文献1に示されるように、調整前の標準パターンH0と入力パターンを用いて、ビタービ・アルゴリズムで行われる。アライメントを計算した後、正解のアライメントと認識結果Rのアライメントをフレーム毎に比較し、(式3)正解の状態毎に対数尤度差(以後、尤度とする)を集計する。 Thereafter, the alignment is calculated for the recognition result R and the correct answer to the result. As shown in Non-Patent Document 1, the alignment is performed by the Viterbi algorithm using the standard pattern H0 and the input pattern before adjustment. After the alignment is calculated, the correct alignment and the alignment of the recognition result R are compared for each frame, and (Equation 3) a log likelihood difference (hereinafter referred to as likelihood) is added for each correct state.
dL(正解の状態) = Σt{logP(xt|正解の状態) - logP(xt|認識結果の状態)} ・・(式3)
(式3)の説明をする。xtは、正解でアライメントが計算されたとき正解の状態にアライメントされたデータとする。同様に、認識結果でアライメントが計算されたとき認識結果の状態にアライメントされたデータでもある。Σtは、xtについて和を示す。logP(xt|正解の状態)は、正解の状態のxtに対する対数尤度、logP(xt|認識結果の状態)は、認識結果の状態のxtに対する対数尤度である。このように集計された尤度差が識別ペナルティdLである。ここで、尤度差などを集計する単位を、状態ごととしたが、分布ごとや音素ごと、単語ごとなどの認識単位であればどれでも使える。識別ペナルティdLは、集計された尤度差を出現したフレーム数で割ったものでもよいし、状態や音素ごとの事後確率や、そのフレーム単位の平均でもよい。また、特許文献1に示されるような、(式4)の集計対象となる状態s0と他の全ての状態とのカルバックダイバージェンス総和の逆数でもよい。
dL (correct state) = Σ t {logP (x t | correct state)-logP (x t | recognition result state)} (Equation 3)
(Formula 3) will be described. x t is data aligned to the correct state when the alignment is calculated with the correct answer. Similarly, when the alignment is calculated from the recognition result, the data is also aligned to the recognition result state. Σ t shows the sum for x t. logP (x t | correct state) is the log likelihood for x t in the correct state, and logP (x t | recognition result state) is the log likelihood for x t in the recognition result state. The likelihood difference thus aggregated is the identification penalty dL. Here, the unit for counting the likelihood difference is set for each state, but any recognition unit such as for each distribution, for each phoneme, or for each word can be used. The identification penalty dL may be obtained by dividing the total likelihood difference by the number of appearing frames, or may be the posterior probability for each state or phoneme, or the average for each frame. Further, as shown in Patent Document 1, it may be the reciprocal of the total of the culback divergence between the state s0 to be counted in (Equation 4) and all other states.
dL = (ΣsKL(s0,s))-κ ・・(式4)
(式4)の説明をする。κは、正規化定数で、正の値を持つ。KL(s0,s)は、状態s0の分布と状態sの分布のカルバックダイバージェンスを表す。Σsは、状態sについての総和を表す。カルバックタイバージェンスは、分布同士の重なりを表す量で、値が大きいほど分布が重なっておらず識別するのに有利であると考えられる。(式4)は、状態s0の分布と他の状態の分布のカルバックダイバージェンスの総和の逆数となっているため、他の状態の分布と重なりが小さければ、分布との重なり具合が大きいため識別に不利と考え、状態s0のガウス分布数を増やすためにdLの値が大きくなるように設計する。(式4)は、カルバックダイバージェンスの総和の逆数としているが、カルバックダイバージェンスの総和を対象となる状態s0の分布が出現フレーム数で割った値の逆数でも良い。
dL = (Σ s KL (s0, s)) -κ・ ・ (Formula 4)
(Formula 4) will be described. κ is a normalization constant and has a positive value. KL (s0, s) represents the distribution of the state s0 and the Cullback divergence of the distribution of the state s. Σ s represents the sum for state s. The Cullback TI is an amount representing the overlap between distributions, and it is considered that the larger the value, the more advantageous the identification is because the distributions do not overlap. (Equation 4) is the reciprocal of the sum of the Calbach divergences of the distribution of the state s0 and the distribution of the other states. Therefore, if the overlap with the distribution of the other states is small, the degree of overlap with the distribution is large. It is considered disadvantageous and the design is made so that the value of dL increases to increase the number of Gaussian distributions in state s0. (Equation 4) is the reciprocal of the sum of the Cullback divergence, but may be the reciprocal of a value obtained by dividing the distribution of the state s0 as the target by the number of appearance frames.
決定基準計算ステップ2000bでは、整合性とパラメータ量ペナルティを用いて(式2)を用いて、記述長の差分ΔMDLを計算し、得られたΔMDLと(式5)を用いて、識別ペナルティdLを加えた新たな量Δ’を定義して値を計算する。
In the decision
Δ’ = ΔMDL - β|dL| ・・(式5)
βは、ΔMDLとdLを計算するのに用いられたデータ量やΔMDLとdLの単位(次元)の違いを吸収するための係数とする。識別ペナルティdLは、前述した尤度差や、カルバックダイバージェンスの逆数のように、識別力が弱ければ、その絶対値が大きく、識別するのに十分な場合は、絶対値が小さな値になる。混合分布数決定ステップ200cは、従来と同様にΔ’<0の場合、ガウス分布数を分割して、Δ’>0の場合、ガウス分布数の分割を行わない動作を行う。混合分布数決定ステップ200cの動作は従来と同じであるが、入力される値が、記述長LMDLの差分ではなく、記述長LMDLの差分に識別的な要素が加わった値Δ’である。
Δ '= Δ MDL -β | dL | (5)
β is a coefficient for absorbing the data amount used to calculate Δ MDL and dL and the difference in units (dimensions) of Δ MDL and dL. The discriminating penalty dL has a large absolute value if the discriminating power is weak, such as the above-described likelihood difference and the inverse of the Cullback divergence, and has a small absolute value if sufficient for discriminating. The mixed distribution number determination step 200c performs an operation of dividing the number of Gaussian distributions when Δ ′ <0, and not dividing the number of Gaussian distributions when Δ ′> 0, as in the conventional case. Although the operation of the mixing distribution number determination step 200c is the same as the conventional, the value entered is not a difference between the description length L MDL, is described length L difference to the value applied identification elements of MDL delta ' .
ここで、標準パターン作成手段100や認識手段400で、音声認識を行うものとして説明しているが、特に音声認識に限定する必要はなく、確率分布を用いた認識に関わる装置であれば何でも良い。たとえは、標準パターン作成手段100において、音声データの代わりに、音声データ以外の音楽データや雑音データ、画像データや文字データ等を用いて標準パターンを作成することも可能である。その場合、認識手段400では、前述のように画像データ等で作成された標準パターンと、入力された画像データ等を照合して、もっとも類似度の高いシンボル系列などを認識結果Rとすることもできる。
Here, the standard
本発明によれば、音声認識における標準パターンを作成する際に、精度良い標準パターンを作成できるため、自動電話予約システムや、音声自動通訳機、自動ディクテーションシステム、ゲームなど、音声認識の使われる分野が広がる。また、本発明によれば、認識結果を反映してチューニングを行うことができるため、例えば、自動電話応答システム等で用いられている、名前や電話番号、株式銘柄など、語彙が限定できれば、認識性能が低かった単語等のチューニングを行うことができるので、前述のように個人情報や取引情報など、より重要な入力を音声で行うような、自動電話チケットの予約システムや自動電話株式売買システムなどの分野に応用できる。 According to the present invention, since a standard pattern with high accuracy can be created when creating a standard pattern for speech recognition, fields such as an automatic telephone reservation system, an automatic speech interpreter, an automatic dictation system, and a game are used. Spread. In addition, according to the present invention, tuning can be performed by reflecting the recognition result. For example, if the vocabulary can be limited, such as names, telephone numbers, stocks, etc. used in an automatic telephone answering system, etc. Because it is possible to tune words with poor performance, as mentioned above, automatic telephone ticket reservation system and automatic telephone stock trading system, etc. that make more important input such as personal information and transaction information by voice It can be applied to the field of
100 標準パターン作成手段
200 標準パターン調整手段
300 標準パターン記憶手段
400 認識手段
500 入力パターン作成手段
2000 識別的混合分布調整手段
200a 整合性計算ステップ
200b パラメータ量ペナルティ計算ステップ
200c 混合分布数決定ステップ
2000a 誤識別ペナルティ計算ステップ
2000b 決定基準計算ステップ
H0 調整前の標準パターン
H 調整後の標準パターン
R 認識結果
100 Standard pattern creation means 200 Standard pattern adjustment means 300 Standard pattern storage means 400 Recognition means 500 Input pattern creation means 2000 Discriminant mixture distribution adjustment means 200a
Claims (10)
In a speech recognition program for pattern recognition using a probability distribution, a procedure for outputting a recognition result using a standard pattern created from learning data and input data, and the number of probability distributions using the standard pattern and the recognition result , A procedure for calculating the consistency between the learning data and the standard pattern, a procedure for calculating a parameter amount penalty according to the number of parameters of the probability distribution, and a discrimination penalty from the recognition result A procedure, a procedure for calculating a criterion for adjusting the number of parameters of the probability distribution using the consistency, the parameter amount penalty, and the identification penalty; and a procedure for adjusting the number of probability distributions using the criterion. A program characterized by being executed by a computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003378078A JP2005141049A (en) | 2003-11-07 | 2003-11-07 | Pattern recognition device, voice recognition device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003378078A JP2005141049A (en) | 2003-11-07 | 2003-11-07 | Pattern recognition device, voice recognition device, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005141049A true JP2005141049A (en) | 2005-06-02 |
Family
ID=34688582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003378078A Withdrawn JP2005141049A (en) | 2003-11-07 | 2003-11-07 | Pattern recognition device, voice recognition device, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005141049A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015018186A (en) * | 2013-07-12 | 2015-01-29 | 日本放送協会 | Adaptation device and program |
JP2015526797A (en) * | 2012-06-21 | 2015-09-10 | グーグル・インコーポレーテッド | Dynamic language model |
-
2003
- 2003-11-07 JP JP2003378078A patent/JP2005141049A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015526797A (en) * | 2012-06-21 | 2015-09-10 | グーグル・インコーポレーテッド | Dynamic language model |
US10140362B2 (en) | 2012-06-21 | 2018-11-27 | Google Llc | Dynamic language model |
JP2015018186A (en) * | 2013-07-12 | 2015-01-29 | 日本放送協会 | Adaptation device and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200211529A1 (en) | Systems and methods for multi-style speech synthesis | |
EP2003572B1 (en) | Language understanding device | |
JP4301102B2 (en) | Audio processing apparatus, audio processing method, program, and recording medium | |
US5953701A (en) | Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence | |
EP2192575B1 (en) | Speech recognition based on a multilingual acoustic model | |
US6493667B1 (en) | Enhanced likelihood computation using regression in a speech recognition system | |
US7711560B2 (en) | Speech recognition device and speech recognition method | |
JP5240457B2 (en) | Extended recognition dictionary learning device and speech recognition system | |
US7996209B2 (en) | Method and system of generating and detecting confusing phones of pronunciation | |
US20050159949A1 (en) | Automatic speech recognition learning using user corrections | |
US20110196678A1 (en) | Speech recognition apparatus and speech recognition method | |
EP1465154B1 (en) | Method of speech recognition using variational inference with switching state space models | |
JP4515054B2 (en) | Method for speech recognition and method for decoding speech signals | |
Lee et al. | Mispronunciation detection without nonnative training data | |
JPWO2007105409A1 (en) | Standard pattern adaptation device, standard pattern adaptation method, and standard pattern adaptation program | |
Saraçlar | Pronunciation modeling for conversational speech recognition | |
JP2002358097A (en) | Voice recognition device | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
JP2008026721A (en) | Speech recognizer, speech recognition method, and program for speech recognition | |
JP2005141049A (en) | Pattern recognition device, voice recognition device, and program | |
JPH09292899A (en) | Voice recognizing device | |
JPH09114482A (en) | Speaker adaptation method for voice recognition | |
Liu | Discriminative complexity control and linear projections for large vocabulary speech recognition | |
JP3316352B2 (en) | Voice recognition method | |
De Wachter et al. | Evaluating acoustic distance measures for template based recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070109 |