JP2009063773A - Speech feature learning device and speech recognition device, and method, program and recording medium thereof - Google Patents

Speech feature learning device and speech recognition device, and method, program and recording medium thereof Download PDF

Info

Publication number
JP2009063773A
JP2009063773A JP2007230795A JP2007230795A JP2009063773A JP 2009063773 A JP2009063773 A JP 2009063773A JP 2007230795 A JP2007230795 A JP 2007230795A JP 2007230795 A JP2007230795 A JP 2007230795A JP 2009063773 A JP2009063773 A JP 2009063773A
Authority
JP
Japan
Prior art keywords
likelihood
trajectory
function
speech
likelihood function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007230795A
Other languages
Japanese (ja)
Other versions
JP4901657B2 (en
Inventor
Yasuhiro Minami
泰浩 南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007230795A priority Critical patent/JP4901657B2/en
Publication of JP2009063773A publication Critical patent/JP2009063773A/en
Application granted granted Critical
Publication of JP4901657B2 publication Critical patent/JP4901657B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To improve recognition accuracy, even when the number of distributions of mixed Gaussian distribution increases. <P>SOLUTION: A static feature amount and a dynamic feature amount are extracted from input speech (2, S202). A trajectory x<SB>t</SB>is synthesized (104, S204) by using a linear dynamic system and a dictionary data stored in a dictionary data base. The trajectory x<SB>t</SB>is assigned to a maximized function stored in a maximized function data base 112, and a likelihood function P(Y<SB>1:T</SB>) is generated (108, S206). The likelihood function P(Y<SB>1:T</SB>) is approximated and an approximation likelihood function P'(Y<SB>1:T</SB>) is generated(1164, S207). An approximation error e' is calculated by approximating an error e between the approximation likelihood function P'(Y<SB>1:T</SB>) and the likelihood function P(Y<SB>1:T</SB>). The approximation likelihood function P'(Y<SB>1:T</SB>) and the approximation error e are added, and a corrected likelihood function P''(Y<SB>1:T</SB>) is generated, and a likelihood is calculated from the corrected likelihood function P''(Y<SB>1:T</SB>). <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

この発明は、例えば、隠れマルコフモデルを利用した音声特徴学習装置、音声認識装置、それらの方法、それらのプログラム、それらの記録媒体に関する。   The present invention relates to, for example, a speech feature learning apparatus, a speech recognition apparatus, a method thereof, a program thereof, and a recording medium using a hidden Markov model.

音響モデルを用いた音声認識技術は多数存在する。そして、音響モデルとは例えば、HMM(Hidden Markov Model)である。従来のHMMを用いた音声認識では、尤度を計算する際に基準となるトラジェクトリ(HMMの平均値の時系列)がHMMの状態遷移部分で滑らかではなくなり、認識精度の劣化を引き起こしていた。非特許文献1(従来技術1)、非特許文献2(従来技術2)、非特許文献3(従来技術3)の手法では、入力音声の静的特徴量と動的特徴量の関係を利用し、滑らかなトラジェクトリを合成し、音声認識精度の向上を図っていた。しかし、これらの手法は、HMMの各状態に1つのガウス分布しか持たないと仮定していたため、複数のガウス分布をもつ混合ガウス分布型のHMMへの拡張が困難であった。そこで、混合ガウス分布型のHMMを扱う非特許文献4(従来技術4)がある。非特許文献4の手法は、HMMを使ったビタービアルゴリズムにより入力音声に対するHMMの尤度が最大となる状態系列と分布系列を求め、当該状態系列と分布系列に対してトラジェクトリを合成し、入力音声とトラジェクトリとの間の尤度を計算する手法である。この手法では、1つの分布系列のトラジェクトリしか求めていないため、混合ガウス分布の分布数が増加した場合に、認識精度が劣化するという問題があった。そこで、混合ガウス分布型のHMMに対して、トラジェクトリの合成を実現するために、スイッチング線形動的システムを使った手法が特許文献1(従来技術5)に記載されている。以下に、特許文献1に記載されている音声特徴学習装置、音声認識装置、を簡単に説明する。   There are many speech recognition techniques using acoustic models. The acoustic model is, for example, an HMM (Hidden Markov Model). In the conventional speech recognition using the HMM, the trajectory (time series of the average value of the HMM) used as a reference when calculating the likelihood is not smooth at the state transition portion of the HMM, causing deterioration in recognition accuracy. In the methods of Non-Patent Document 1 (Prior Art 1), Non-Patent Document 2 (Prior Art 2), and Non-Patent Document 3 (Prior Art 3), the relationship between the static feature quantity and the dynamic feature quantity of the input speech is used. Then, smooth trajectories were synthesized to improve speech recognition accuracy. However, since these methods assumed that each state of the HMM has only one Gaussian distribution, it was difficult to expand to a mixed Gaussian distribution type HMM having a plurality of Gaussian distributions. Therefore, there is Non-Patent Document 4 (Prior Art 4) dealing with a mixed Gaussian distribution type HMM. The method of Non-Patent Document 4 obtains a state series and a distribution series that maximize the likelihood of HMM for input speech by a Viterbi algorithm using HMM, synthesizes a trajectory for the state series and the distribution series, and inputs This is a technique for calculating the likelihood between speech and trajectory. In this method, since only one distribution series trajectory is obtained, there is a problem that the recognition accuracy deteriorates when the number of distributions of the mixed Gaussian distribution increases. Therefore, Patent Document 1 (Prior Art 5) describes a technique using a switching linear dynamic system to realize trajectory synthesis for a mixed Gaussian distribution type HMM. The speech feature learning device and speech recognition device described in Patent Document 1 will be briefly described below.

図1に従来技術5の音声特徴学習装置5の機能構成例を示し、図2に従来技術5の音声認識装置11の機能構成例を示し、図3に音声特徴学習装置5と音声認識装置11の構成を統合したものを示す。まず、図1、図3を用いて、音声特徴学習装置5による学習モードについて説明する。なお、図3中の各構成部間の矢印において、破線の矢印は、学習モード時の情報の移動を示し、実践の矢印は、認識モード時の情報の移動を示す。   FIG. 1 shows a functional configuration example of the speech feature learning device 5 of the conventional technology 5, FIG. 2 shows a functional configuration example of the speech recognition device 11 of the conventional technology 5, and FIG. 3 shows the speech feature learning device 5 and the speech recognition device 11 The integrated structure is shown. First, the learning mode by the speech feature learning device 5 will be described with reference to FIGS. 1 and 3. In addition, in the arrows between the components in FIG. 3, the broken arrows indicate the movement of information in the learning mode, and the practical arrows indicate the movement of information in the recognition mode.

まず、特徴量抽出部2が学習用音声から静的特徴量および動的特徴量を抽出する。ここで、動的特徴量とは、例えば、静的特徴量(y)の一次微分成分(Δ成分)と二次微分成分(ΔΔ成分)のような、静的特徴量の時間変化を表すパラメータ(Δy、ΔΔy)である。音響モデル学習部4は、静的特徴量と動的特徴量とから、音響モデルを学習する。具体的には、音響モデル学習部4は、例えば、特徴パターンとして静的特徴量の平均値および分散を求め、動的特徴量として静的特徴量の微分係数の平均値ΔuSKおよび分散値ΔσSK と、静的特徴量の2次微分係数の平均値ΔΔuSKおよび分散値ΔΔσSK とを計算する。この保存の際に、HMMの状態数と混合ガウス分布数(各状態での混合ガウス分布がいくつのガウス分布の和として表現されるのか)も決まる。HMMデータベース6には、HMMの各状態の各ガウス分布に対する平均値MSK=[uSK,ΔuSK,ΔΔuSK]と分散[σSK ,ΔσSK ,ΔΔσSK ]が保存される。ここで、SはHMMの状態番号、Kはガウス分布の番号を表している。 First, the feature quantity extraction unit 2 extracts static feature quantities and dynamic feature quantities from the learning speech. Here, the dynamic feature amount is a parameter representing a temporal change of the static feature amount, such as a first derivative component (Δ component) and a second derivative component (ΔΔ component) of the static feature amount (y), for example. (Δy, ΔΔy). The acoustic model learning unit 4 learns an acoustic model from the static feature amount and the dynamic feature amount. Specifically, the acoustic model learning unit 4 obtains, for example, an average value and variance of static feature quantities as feature patterns, and an average value Δu SK and a variance value Δσ of differential coefficients of static feature quantities as dynamic feature quantities. SK 2 and the average value ΔΔu SK and variance value ΔΔσ SK 2 of the second derivative of the static feature quantity are calculated. At the time of this storage, the number of states of the HMM and the number of Gaussian distributions (how many Gaussian distributions the Gaussian distribution of each state is expressed as) are determined. The HMM database 6 stores an average value M SK = [u SK , Δu SK , ΔΔu SK ] and variance [σ SK 2 , Δσ SK 2 , ΔΔσ SK 2 ] for each Gaussian distribution in each state of the HMM. Here, S represents an HMM state number, and K represents a Gaussian distribution number.

モデル変換部8は、静的特徴量と動的特徴量との関係を使って、音響モデルをスイッチング線形動的システムに変換する。静的特徴量と動的特徴量との関係は、特徴量間関係式データベース10に保存されている。ここで、線形動的システムとは、以下のような状態方程式、観測方程式である。   The model conversion unit 8 converts the acoustic model into a switching linear dynamic system using the relationship between the static feature quantity and the dynamic feature quantity. The relation between the static feature quantity and the dynamic feature quantity is stored in the feature quantity relational expression database 10. Here, the linear dynamic system is the following state equation and observation equation.

SK=CX+WSK
t+1=AX+N (1)
上述のように、SはHMMの状態番号、Kはガウス分布の番号を表している。Xは、トラジェクトリ時系列を5フレーム分まとめたものであり、X=[xt+2t+1t−1t―2と表すことができる。xは時刻tの時のトラジェクトリを示し、「」は転置を表す。また、行列C、A、M、Nについては、「発明を実施するための最良の形態」で詳細に説明する。式(1)からも理解できるように、1つの状態がS個の状態からなる混合ガウス分布において、1つずつの混合ガウス分布を状態方程式、観測方程式に変換し、S個の線形動的システムを作成する。また、スイッチング線形動的システムとは、複数の状態方程式と観測方程式とが時間とともに、線形動的システムが切り替わるモデルである。トラジェクトリ合成部14は、スイッチング線形動的システムデータベース12に保存されたスイッチング線形動的システムと特徴量抽出部2よりの静的特徴量と動的特徴量から、スイッチングカルマンフィルタを用いてトラジェクトリを求める。この処理では、まずスイッチングカルマンフィルタがスイッチング線形動的システムデータベース中の式(1)に示す状態方程式と観測方程式を使って、個々にカルマンフィルタを動作させる。
M SK = CX t + W SK
X t + 1 = AX t + N t (1)
As described above, S represents an HMM state number, and K represents a Gaussian distribution number. X t is a collection of trajectory time series for five frames, and can be expressed as X t = [x t + 2 x t + 1 x t x t−1 x t−2 ] Q. x t represents a trajectory at time t, and “ Q ” represents transposition. The matrices C, A, M, and N will be described in detail in “Best Mode for Carrying Out the Invention”. As understood from Equation (1), in a mixed Gaussian distribution in which one state is composed of S states, one mixed Gaussian distribution is converted into a state equation and an observation equation, and S linear dynamic systems are obtained. Create The switching linear dynamic system is a model in which a plurality of state equations and observation equations are switched over time. The trajectory synthesis unit 14 obtains a trajectory by using a switching Kalman filter from the switching linear dynamic system stored in the switching linear dynamic system database 12 and the static feature quantity and dynamic feature quantity from the feature quantity extraction unit 2. In this process, first, the switching Kalman filter individually operates the Kalman filter using the state equation and the observation equation shown in Expression (1) in the switching linear dynamic system database.

この様子を図4に示す。図4の例では、スイッチング線形動的システムのKの最大値が2、すなわち2つの状態方程式と観測方程式のセットを持っている場合を示している。tを時刻とする。図4では、あらかじめ時刻t−1までのトラジェクトリの混合ガウス分布が求まっているものとする。このときのトラジェクトリの分布は2つのガウス分布の和となっている。この2つのガウス分布の平均値と分散を(平均値、分散)=(x t−1|t−1,V t−1|t−1)、(x t−1|t−1,V t−1|t−1)と表す。前向き処理では、この個々のt−1のガウス分布からtのトラジェクトリの分布を計算する。これは、t−1の個々のガウス分布にK=1およびK=2の状態方程式と観測方程式をそれぞれ用いてカルマンフィルタ1051、1052を動作させることで実現できる。このような操作を行うと、図4のように2つのトラジェクトリから4つのトラジェクトリを計算することになる。しかし、このような処理を時刻T分だけ行うと、最終的には、2個のトラジェクトリを求めることになる。これを防ぐためにスイッチングフィルタでは、4つのトラジェクトリを統合器1053、1054により、統合して2つのトラジェクトリに減らす。この操作を順次行っていくことにより、学習用音声に近いトラジェクトリを得る。また、最後に後ろ向きの処理を行い、トラジェクトリをなめらかにする。具体的には、HMMの各状態各分布の平均値uij,Δuij,ΔΔuijと分散Σij,ΔΣij,ΔΔΣijとから計算される学習用音声y,Δy,ΔΔyに対する尤度が高くなるような重みを設定し、この重みをかける。これによって、最終的に学習用音声に近いトラジェクトリを得ることができる。トラジェクトリの導入に伴って新しい分散の計算が必要になるが、分散計算部20は、EMアルゴリズムにより分散を計算し、分散データベース22に保存する。 This is shown in FIG. The example of FIG. 4 shows a case where the maximum value of K of the switching linear dynamic system is 2, that is, has two sets of state equations and observation equations. Let t be the time. In FIG. 4, it is assumed that the mixed Gaussian distribution of the trajectory up to time t-1 is obtained in advance. The trajectory distribution at this time is the sum of two Gaussian distributions. The average value and variance of the two Gaussian distributions are (average value, variance) = (x 1 t−1 | t−1 , V 1 t−1 | t−1 ), (x 2 t−1 | t−1). , V 2 t−1 | t−1 ). In the forward processing, the distribution of t trajectories is calculated from the individual Gaussian distribution of t-1. This can be realized by operating the Kalman filters 1051 and 1052 using the state equation and the observation equation of K = 1 and K = 2 for the individual Gaussian distribution of t−1, respectively. When such an operation is performed, four trajectories are calculated from two trajectories as shown in FIG. However, if such a process is performed only for time T, 2 T trajectories are finally obtained. In order to prevent this, in the switching filter, the four trajectories are integrated by the integrators 1053 and 1054 to be reduced to two trajectories. By sequentially performing these operations, a trajectory close to the learning voice is obtained. Finally, it performs backward processing to smooth the trajectory. Specifically, the likelihood for learning speech y, Δy, ΔΔy calculated from the average values u ij , Δu ij , ΔΔu ij and variances Σ ij , ΔΣ ij , ΔΔΣ ij of each state distribution of the HMM is high. The weight is set so as to be, and this weight is applied. Thereby, a trajectory close to the learning voice can be finally obtained. With the introduction of the trajectory, a new variance calculation is required. The variance calculation unit 20 calculates the variance using the EM algorithm and stores it in the variance database 22.

次に、図2、図3を用いて、従来技術5の認識モードを説明する。特徴量抽出部100は、入力音声の静的特徴量(y)および動的特徴量(Δy,ΔΔy)を抽出する。トラジェクトリ合成部14は、スイッチング線形動的システムデータベース105に保存されているスイッチング線形動的システムを参照することで、辞書に保存されている音素、単語、あるいは文章の候補からトラジェクトリを生成する。このようなスイッチングカルマンフィルタの前向き処理と後ろ向き処理で、複数のトラジェクトリが合成される。必要に応じて、モデル変換部8は、HMMデータベース6の音響モデルを、スイッチング線形動的システムに変換する。既に、線形動的システムが得られている場合は、HMMデータベース6、モデル変換部8は無くても良い。   Next, the recognition mode of the prior art 5 will be described with reference to FIGS. The feature amount extraction unit 100 extracts a static feature amount (y) and a dynamic feature amount (Δy, ΔΔy) of the input speech. The trajectory synthesis unit 14 refers to the switching linear dynamic system stored in the switching linear dynamic system database 105 to generate a trajectory from phoneme, word, or sentence candidates stored in the dictionary. A plurality of trajectories are synthesized by forward processing and backward processing of the switching Kalman filter. As necessary, the model conversion unit 8 converts the acoustic model of the HMM database 6 into a switching linear dynamic system. If a linear dynamic system has already been obtained, the HMM database 6 and the model conversion unit 8 may be omitted.

尤度計算部18は、分散データベース22に保存された分散値を参照して、トラジェクトリができるごとにトラジェクトリと入力音声との間の尤度を求める。この尤度が最も大きな音素系列を音声認識の結果とする。このように、従来技術5は、今までのトラジェクトリを用いる手法で使っていた尤度最大化によるトラジェクトリ合成手法の定式化に替えて、混合ガウス分布への拡張を考え、スイッチング線形動的システムによる定式化を行っている。
Y.Minami,E,McDermott,A Nakamura,and S,Katagiri,”A recognition method using synthesis-scoring that incorporates direct relations between static and dynamic feature vector time series “Workshop for Consistent & Reliable Acoustic Cues for Sound Analysis 2001. Y.Minami,E,McDermott, A Nakamura,and S,Katagiri,”A recognition method with parametric trajectory synthesized using direct relations between static and dynamic feature vector time eries,”Proc.ICASSP,pp.957-960,2002. Y.Minami,E,McDermott, A Nakamura,and S,Katagiri,”A Theoretical Analysis of Speech Recognition based on Feature Trajectory Models,” in Proc ICSLP,vol.I,2004. Y.Minami,E,McDermott, A Nakamura,and S,Katagiri,”A recognition method with parametric generated from mixture distoribution HMMs,”Proc.ICASSP,pp.124-127 2003. 特開2006−171020号
The likelihood calculating unit 18 refers to the variance value stored in the variance database 22 and obtains the likelihood between the trajectory and the input speech every time a trajectory is created. The phoneme sequence having the greatest likelihood is taken as the result of speech recognition. As described above, the conventional technique 5 considers the extension to the mixed Gaussian distribution instead of the formulation of the trajectory synthesis method by the likelihood maximization used in the conventional method using the trajectory, and is based on the switching linear dynamic system. Formulation is performed.
Y.Minami, E, McDermott, A Nakamura, and S, Katagiri, ”A recognition method using synthesis-scoring that incorporates direct relations between static and dynamic feature vector time series“ Workshop for Consistent & Reliable Acoustic Cues for Sound Analysis 2001. Y. Minami, E, McDermott, A Nakamura, and S, Katagiri, “A recognition method with parametric trajectory synthesized using direct relations between static and dynamic feature vector time eries,” Proc.ICASSP, pp.957-960, 2002. Y. Minami, E, McDermott, A Nakamura, and S, Katagiri, “A Theoretical Analysis of Speech Recognition based on Feature Trajectory Models,” in Proc ICSLP, vol.I, 2004. Y. Minami, E, McDermott, A Nakamura, and S, Katagiri, “A recognition method with parametric generated from mixture distoribution HMMs,” Proc.ICASSP, pp.124-127 2003. JP 2006-171020 A

従来技術5で示したトラジェクトリ合成部14の処理において、図4に示すように、統合器1053、1054によりトラジェクトリが統合され、トラジェクトリが平均化されるため、認識精度が劣化するという問題があった。また、従来技術4は上述のように、1つの分布系列のトラジェクトリしか求めていないため、混合ガウス分布の分布数が増加した場合に、認識精度が劣化するという問題があった。そこで、本発明は、従来技術4の問題点を解決するためのものである。つまり、本発明は、混合ガウス分布の分布数が増加した場合でも、認識精度が劣化することがない音声特徴学習装置、音声認識装置、その方法、そのプログラム、およびその記録媒体を提供することを目的とする。   In the process of the trajectory synthesizer 14 shown in the prior art 5, as shown in FIG. 4, the trajectories are integrated by the integrators 1053 and 1054, and the trajectories are averaged, so that there is a problem that the recognition accuracy deteriorates. . Further, as described above, since the conventional technique 4 obtains only one distribution series trajectory, there is a problem that the recognition accuracy deteriorates when the number of distributions of the mixed Gaussian distribution increases. Therefore, the present invention is for solving the problems of the prior art 4. That is, the present invention provides a speech feature learning device, a speech recognition device, a method thereof, a program thereof, and a recording medium thereof in which the recognition accuracy does not deteriorate even when the number of mixed Gaussian distributions increases. Objective.

この発明の音声特徴学習装置は、特徴量抽出部と、音響モデル学習部と、HMMデータベースと、モデル変換部と、線形動的システムデータベースと、尤度最大計算部と、トラジェクトリ合成部と、尤度関数最大化部と、最大化関数データベースと、を備える。特徴量抽出部は、学習用音声から静的特徴量と動的特徴量を抽出する。音響モデル学習部は、静的特徴量と動的特徴量とから、音響モデルを学習する。HMMデータベースは、音響モデルを記憶する。モデル変換部は、静的特徴量と動的特徴量との関係を使って、音響モデルを線形動的システムに変換する。線形動的システムデータベースは、線形動的システムを記憶する。尤度最大計算部は、HMMデータベースに記憶されている音響モデルを用いて、当該音響モデルに対する学習用音声の尤度が最大になるよう音響モデルの状態系列と分布系列を求める。トラジェクトリ合成部は、線形動的システムと状態系列と分布系列とを用いてトラジェクトリを合成する。尤度関数最大化部は、静的特徴量と動的特徴量と、トラジェクトリと、状態系列と分布系列とによる分散と、からなる尤度関数を最大化する最大化関数を求める。最大化関数データベースは、最大化関数を記憶する。   The speech feature learning apparatus according to the present invention includes a feature amount extraction unit, an acoustic model learning unit, an HMM database, a model conversion unit, a linear dynamic system database, a maximum likelihood calculation unit, a trajectory synthesis unit, a likelihood A degree function maximization unit and a maximization function database. The feature amount extraction unit extracts a static feature amount and a dynamic feature amount from the learning speech. The acoustic model learning unit learns an acoustic model from the static feature amount and the dynamic feature amount. The HMM database stores acoustic models. The model conversion unit converts the acoustic model into a linear dynamic system using the relationship between the static feature quantity and the dynamic feature quantity. The linear dynamic system database stores the linear dynamic system. The maximum likelihood calculation unit uses the acoustic model stored in the HMM database to determine the state series and distribution series of the acoustic model so that the likelihood of the learning speech for the acoustic model is maximized. The trajectory synthesis unit synthesizes the trajectory using the linear dynamic system, the state series, and the distribution series. The likelihood function maximization unit obtains a maximization function that maximizes a likelihood function including a static feature value, a dynamic feature value, a trajectory, and a variance based on a state sequence and a distribution sequence. The maximization function database stores the maximization function.

また、この発明の音声認識装置は、特徴量抽出部と、HMMデータベースと、線形動的システムデータベースと、トラジェクトリ合成部と、尤度関数生成部と、尤度計算部と、を備える。また、尤度関数計算部は、尤度を補正するための補正手段を備える。特徴量抽出部は、入力音声から静的特徴量と動的特徴量を抽出する。HMMデータベースは、音響モデルを記録する。線形動的システムデータベースは、線形動的システムを記憶する。トラジェクトリ合成部は、線形動的システムデータベースに記憶されている線形動的システムと、辞書データベースに記憶されている辞書データとを用いて、トラジェクトリを合成する。尤度関数生成部は、最大化関数データベースに記憶されている最大化関数に前記トラジェクトリを代入して、前記トラジェクトリの入力に対する入力音声の確率密度である尤度関数、もしくは前記トラジェクトリの入力に対する尤度の最大値をとる尤度関数を生成する。尤度計算部は、尤度関数に静的特徴量と動的特徴量とを代入して、尤度を計算する。   The speech recognition apparatus according to the present invention includes a feature amount extraction unit, an HMM database, a linear dynamic system database, a trajectory synthesis unit, a likelihood function generation unit, and a likelihood calculation unit. In addition, the likelihood function calculation unit includes correction means for correcting the likelihood. The feature quantity extraction unit extracts a static feature quantity and a dynamic feature quantity from the input speech. The HMM database records acoustic models. The linear dynamic system database stores the linear dynamic system. The trajectory synthesis unit synthesizes a trajectory using a linear dynamic system stored in the linear dynamic system database and dictionary data stored in the dictionary database. The likelihood function generation unit assigns the trajectory to the maximization function stored in the maximization function database, and the likelihood function that is the probability density of the input speech with respect to the input of the trajectory or the likelihood with respect to the input of the trajectory Generate a likelihood function that takes the maximum value of degrees. The likelihood calculating unit calculates the likelihood by substituting the static feature amount and the dynamic feature amount into the likelihood function.

上記の構成により、混合ガウス分布の分布数が増加した場合でも、HMMの状態遷移部分でも滑らかなトラジェクトリの生成を確保できながら、認識精度を向上できる。   With the above configuration, even when the number of mixed Gaussian distributions increases, recognition accuracy can be improved while ensuring smooth trajectory generation even in the state transition portion of the HMM.

以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。図5に音声特徴学習装置200の機能構成例を示し、図6に音声認識装置300の機能構成例を示し、図7に音声特徴学習装置200の構成と音声認識装置300の構成を統合したものを示し、図8に音声特徴学習装置200の主な処理の流れを示し、図9に音声認識装置300の主な処理の流れを示す。まず、図5と図7と図8を用いて、音声特徴学習装置200による学習モードについて説明する。   The best mode for carrying out the invention will be described below. In addition, the same number is attached | subjected to the process which performs the structure part which has the same function, and the same process, and duplication description is abbreviate | omitted. FIG. 5 shows a functional configuration example of the speech feature learning device 200, FIG. 6 shows a functional configuration example of the speech recognition device 300, and FIG. 7 shows an integrated configuration of the speech feature learning device 200 and the speech recognition device 300. FIG. 8 shows the main processing flow of the speech feature learning apparatus 200, and FIG. 9 shows the main processing flow of the speech recognition apparatus 300. First, the learning mode by the speech feature learning apparatus 200 will be described with reference to FIGS. 5, 7, and 8.

[学習モード]
まず、学習用音声が入力されると、特徴量抽出部2は、静的特徴量、動的特徴量、を抽出する(ステップS102)。ここで、動的特徴量とは、例えば、静的特徴量(y)の一次微分成分(Δ成分)と二次微分成分(ΔΔ成分)のような、静的特徴量の時間変化を表すパラメータ(Δy、ΔΔy)である。
[Learning mode]
First, when a learning voice is input, the feature amount extraction unit 2 extracts a static feature amount and a dynamic feature amount (step S102). Here, the dynamic feature amount is a parameter representing a temporal change of the static feature amount, such as a first derivative component (Δ component) and a second derivative component (ΔΔ component) of the static feature amount (y), for example. (Δy, ΔΔy).

音響モデル学習部4は、静的特徴量と動的特徴量とから、音響モデルを学習する(ステップS104)。具体的には、音響モデル学習部4は、例えば、特徴パターンとして静的特徴量の平均値および分散を求め、動的特徴量として静的特徴量の微分係数の平均値ΔuSKおよび分散値ΔσSK と、静的特徴量の2次微分係数の平均値ΔΔuSKおよび分散値ΔΔσSK とを計算する。HMMデータベース6には、HMMの各状態の各ガウス分布に対する平均値MSK=[uSK,ΔuSK,ΔΔuSK]と分散[σSK ,ΔσSK ,ΔΔσSK ]が保存される(ステップS106)。この保存の際に、HMMの状態数と混合ガウス分布数(各状態での混合ガウス分布がいくつのガウス分布の和として表現されるのか)も決まる。ここで、SはHMMの状態番号、Kはガウス分布の番号を表している。 The acoustic model learning unit 4 learns an acoustic model from the static feature amount and the dynamic feature amount (step S104). Specifically, the acoustic model learning unit 4 obtains, for example, an average value and variance of static feature quantities as feature patterns, and an average value Δu SK and a variance value Δσ of differential coefficients of static feature quantities as dynamic feature quantities. SK 2 and the average value ΔΔu SK and variance value ΔΔσ SK 2 of the second derivative of the static feature quantity are calculated. The HMM database 6 stores an average value M SK = [u SK , Δu SK , ΔΔu SK ] and variance [σ SK 2 , Δσ SK 2 , ΔΔσ SK 2 ] for each Gaussian distribution in each state of the HMM ( Step S106). At the time of this storage, the number of states of the HMM and the number of Gaussian distributions (how many Gaussian distributions the Gaussian distribution of each state is expressed as) are determined. Here, S represents an HMM state number, and K represents a Gaussian distribution number.

モデル変換部8は、静的特徴量と動的特徴量との関係を使って、音響モデルを線形動的システムに変換する(ステップS108)。静的特徴量と動的特徴量との関係は予め特徴量間関係式データベース10に記憶されている。線形動的システムの一例を説明する。   The model conversion unit 8 converts the acoustic model into a linear dynamic system using the relationship between the static feature quantity and the dynamic feature quantity (step S108). The relation between the static feature quantity and the dynamic feature quantity is stored in the feature quantity relational expression database 10 in advance. An example of a linear dynamic system will be described.

音響モデルの各状態、各分布に関して、以下のような状態方程式、観測方程式に変換することが好ましい。以下で説明するトラジェクトリ合成部104によるトラジェクトリの合成演算量が削減されるからである。この状態方程式、観測方程式は上記式(1)と同様である。   It is preferable to convert each state and distribution of the acoustic model into the following state equation and observation equation. This is because the trajectory synthesis calculation amount by the trajectory synthesis unit 104 described below is reduced. The state equation and the observation equation are the same as the above equation (1).

SK=CX+WSK
t+1=AX+N (1)
ただし、tは時間を表し、Xは、トラジェクトリ時系列を5フレーム分まとめたものであり、X=[xt+2t+1t−1t―2と表すことができる。xは時刻tの時のトラジェクトリを示し、「」は転置を表す。そして、行列AとCに関して、ここでは、以下のような行列を用いる。

Figure 2009063773
ここで、θは正の大きな値である。 M SK = CX t + W SK
X t + 1 = AX t + N t (1)
However, t represents time, X t is a summary of the trajectory time series 5 frames can be expressed as X t = [x t + 2 x t + 1 x t x t-1 x t-2] Q . x t represents a trajectory at time t, and “ Q ” represents transposition. For the matrices A and C, the following matrix is used here.
Figure 2009063773
Here, θ is a large positive value.

SKは、平均が[0 0 0]で、
分散がΣSK=diag[σSK ΔσSK ΔΔσSK ]であるガウス分布に従う確率変数である。ここで、diagは[]内を対角要素にもつ対角行列を作成する関数である。MSKには次のようにHMMの平均値が代入される。
SK=[uSK ΔuSK ΔΔuSK
W SK has an average of [0 0 0] Q ,
It is a random variable that follows a Gaussian distribution with variance Σ SK = diag [σ SK 2 Δσ SK 2 ΔΔσ SK 2 ]. Here, diag is a function for creating a diagonal matrix having [] in diagonal elements. The average value of the HMM as follows: is substituted for M SK.
M SK = [u SK Δu SK ΔΔu SK ] Q

また、行列Aはxt+2=xt+2t+1=xt+1=xt−1=xt−1を示しており、この演算では、雑音による影響以外の変化が無いことを示している。行列Aはこれに限られるものではない。行列Cは、一次微分と二次微分を近似的に実現する行列であれば、どんな行列でも用いることができる。行列Cについては、列の数は、Xで定義したフレーム数であり、行数の数は、動的特徴量の微分次数+1(この例では、2+1)と同数であればよい。行列Cの第1行目は静的特徴量を求める計算、第2行目はΔ特徴量を求める計算、第3行目はΔΔ特徴量を求める計算となる。 Further, the matrix A indicates the x t + 2 = x t + 2 x t + 1 = x t + 1 x t = x t x t-1 = x t-1, in this operation, indicating that changes in non-affected by the noise is not Yes. The matrix A is not limited to this. As the matrix C, any matrix can be used as long as it approximately realizes the first and second derivatives. The matrix C, the number of columns is the number of frames defined by X t, the number of the number of rows (in this example, 2 + 1) differential orders +1 dynamic features as long as the same number. The first line of the matrix C is a calculation for obtaining a static feature value, the second line is a calculation for obtaining a Δ feature value, and the third line is a calculation for obtaining a ΔΔ feature value.

尤度最大計算部106は、HMMデータベース6に記憶されている音響モデルを用いて、当該音響モデルに対する前記学習用音声の尤度が最大になるよう音響モデルの状態系列と分布系列を求める(ステップS110)。例えば、この最大化処理には、ビタービアルゴリズムを用いれば良い。   The maximum likelihood calculation unit 106 uses the acoustic model stored in the HMM database 6 to determine the state series and distribution series of the acoustic model so that the likelihood of the learning speech for the acoustic model is maximized (step S110). For example, a Viterbi algorithm may be used for this maximization process.

トラジェクトリ合成部104は、線形動的システムデータベース102よりの線形動的システム(状態方程式と観測方程式)と、尤度最大計算部106よりの状態系列と分布系列を用いて、トラジェクトリxを合成する(ステップS112)。具体的には尤度最大計算部106よりの状態系列と分布系列を、状態方程式と観測方程式に代入して、代入された状態方程式と観測方程式のxについて解く事で、xを求める。 The trajectory synthesis unit 104 synthesizes the trajectory x t using the linear dynamic system (state equation and observation equation) from the linear dynamic system database 102 and the state sequence and distribution sequence from the maximum likelihood calculation unit 106. (Step S112). Specific to the state sequence with the distribution sequence than the maximum likelihood calculation unit 106 substitutes the state equation observation equation, by solving for x t assignment state equations and observation equations, seek x t.

そして、尤度関数最大化部110は、静的特徴量と動的特徴量と、トラジェクトリと、状態系列と分布系列とによる分散と、からなる尤度関数を最大化する最大化関数を求める(ステップS114)。以下、詳細に説明すると、トラジェクトリxに関して、時刻tでの尤度関数P(y)は以下の式(2)で表すことができる。

Figure 2009063773
Then, the likelihood function maximization unit 110 obtains a maximization function that maximizes the likelihood function including the static feature quantity, the dynamic feature quantity, the trajectory, and the variance of the state series and the distribution series ( Step S114). Hereinafter, in detail, regarding the trajectory x t , the likelihood function P (y t ) at the time t can be expressed by the following equation (2).
Figure 2009063773

この尤度関数P(y)は、トラジェクトリxが音響モデルの状態と分布の値がSである線形動的モデルから生成されたときに使われる。トラジェクトリがどの線形動的モデルから生成されたかによって、尤度関数を切り替え、以上の尤度関数の時刻tでの積が最大になる最大化関数を学習する。ここで、この関数を学習するEMアルゴリズムを計算するのは大変なので、近似計算を用いる。これには、尤度最大計算部106よりの状態系列と分布系列を利用する。この状態系列と分布系列から全ての学習データのトラジェクトリを計算し、尤度関数P(y)を最大化するような最大化関数を求める。そして、最大化関数は、最大化関数データベース112に記憶される(ステップS116)。最大化関数は、y、x、Δy、Δx、ΔΔy、ΔΔxが変数になっており、

Figure 2009063773
が、定数になっている。 This likelihood function P (y t ) is used when the trajectory x t is generated from a linear dynamic model whose acoustic model state and distribution value are S t K t . Depending on which linear dynamic model the trajectory is generated from, the likelihood function is switched, and the maximization function that maximizes the product of the above likelihood function at time t is learned. Here, since it is difficult to calculate the EM algorithm for learning this function, approximate calculation is used. For this, a state series and a distribution series from the maximum likelihood calculation unit 106 are used. A trajectory of all learning data is calculated from the state series and the distribution series, and a maximization function that maximizes the likelihood function P (y t ) is obtained. Then, the maximization function is stored in the maximization function database 112 (step S116). In the maximization function, y t , x t , Δy t , Δx t , ΔΔy t , ΔΔx t are variables,
Figure 2009063773
Is a constant.

[認識モード]
次に、図6と図7と図9を用いて、音声認識装置300による認識モードについて説明する。特徴量抽出部2は、入力音声の静的特徴量yと動的特徴量(Δy、ΔΔy)を抽出する(ステップS202)。トラジェクトリ合成部104は、線形動的システムデータベース102よりの線形動的システムを参照することで、辞書データベース16に保存されている音素、単語、あるいは文章の候補から可能な全てのトラジェクトリを合成する(ステップS204)。また、必要に応じて、モデル変換部8が、HMMデータベース6に記憶されている音響モデルを線形動的システムに変換して、線形動的システムデータベースに記憶させてもよい。線形動的システムデータベース102が既に得られている場合は、モデル変換部8はなくてもよい。
[Recognition mode]
Next, the recognition mode by the speech recognition apparatus 300 will be described using FIG. 6, FIG. 7, and FIG. Feature extraction unit 2, a static characteristic amount y t and dynamic features of the input speech (Δy t, ΔΔy t) to extract (step S202). The trajectory synthesis unit 104 synthesizes all possible trajectories from phoneme, word, or sentence candidates stored in the dictionary database 16 by referring to the linear dynamic system from the linear dynamic system database 102 ( Step S204). If necessary, the model conversion unit 8 may convert the acoustic model stored in the HMM database 6 into a linear dynamic system and store it in the linear dynamic system database. If the linear dynamic system database 102 has already been obtained, the model conversion unit 8 may be omitted.

尤度関数生成部108は、最大化関数データベース112に記憶されている最大化関数にトラジェクトリ合成部104よりのトラジェクトリを代入して、トラジェクトリの入力に対する入力音声の確率密度である尤度関数P(Y1:T)、もしくはトラジェクトリの入力に対する尤度の最大値をとる尤度関数P(Y1:T)を生成する(ステップS206)。P(Y1:T)、P(Y1:T)は例えば、以下のように定義できる。

Figure 2009063773
The likelihood function generation unit 108 substitutes the trajectory from the trajectory synthesis unit 104 for the maximization function stored in the maximization function database 112, and the likelihood function P 1 that is the probability density of the input speech with respect to the input of the trajectory. (Y 1: T ) or a likelihood function P 2 (Y 1: T ) that takes the maximum likelihood value for the trajectory input is generated (step S206). P 1 (Y 1: T ) and P 2 (Y 1: T ) can be defined as follows, for example.
Figure 2009063773

ここで、maxAはAの最大値を取ることを示し、P(A│B)はBである場合にAである条件付確率であり、1:Tは1,...,Tを示し、S1:TはHMMの状態系列を示し、K1:TはHMMの分布系列を示し、X1:T(S1:T,K1:T)はこの状態系列と分布系列から合成されるトラジェクトリ系列を示し、P(S1:T,K1:T)は状態の遷移確率と分布を選ぶ確率を状態と分布の系列に対して求めたものであり、HMMで利用している値と同じ値を用いる。また、「^」が使用されている記号は、トラジェクトリに対しての値であり、「^」が使用されていない記号は、HMMに対しての値である。また、イメージで記載された式中では「^」は記号の真上に付され、テキストで記載された式中では「^」は記号の右斜上に付されているが、これらの値は同値である。YとY1:Tは以下の式により定義される。
=[y、Δy、ΔΔy
1:T=Y,Y,...,Y
Here, maxA indicates the maximum value of A, P (A | B) is a conditional probability that is A when B is 1, and 1: T is 1,. . . , T, S 1: T represents an HMM state series, K 1: T represents an HMM distribution series, and X 1: T (S 1: T , K 1: T ) represents this state series and distribution. A trajectory sequence synthesized from the sequence is shown. P (S 1: T , K 1: T ) is a state transition probability and a probability of selecting a distribution obtained for the state and distribution sequence, and is used in the HMM. Use the same value as the current value. A symbol using “^” is a value for the trajectory, and a symbol not using “^” is a value for the HMM. In addition, in the expression described in the image, “^” is attached immediately above the symbol, and in the expression described in the text, “^” is attached immediately above the symbol, but these values are Equivalent. Y t and Y 1: T are defined by the following equations.
Y t = [y t , Δy t , ΔΔy t ] Q
Y 1: T = Y 1 , Y 2 ,. . . , Y T

以下の説明では、P(Y1:T)、P(Y1:T)をまとめて、P(Y1:T)という。HMMの状態数が少ない場合(例えば、状態数が1)には、尤度計算部114は、式(3)もしくは(3’)に示す尤度関数に、特徴量抽出部2よりの静的特徴量、動的特徴量を代入して、尤度を計算する。そして、尤度を最大にするモデルを最終的な認識結果とする。 In the following description, P 1 (Y 1: T ) and P 2 (Y 1: T ) are collectively referred to as P (Y 1: T ). When the number of states of the HMM is small (for example, the number of states is 1), the likelihood calculation unit 114 uses the likelihood function shown in Expression (3) or (3 ′) as a static function from the feature amount extraction unit 2. The likelihood is calculated by substituting the feature quantity and the dynamic feature quantity. A model that maximizes the likelihood is set as a final recognition result.

[変形例1]
次に音声認識装置300の変形例1である音声認識装置300−1について説明する。HMMの状態数が多い場合には、式(3)において、可能な全てのトラジェクトリを生成し、入力音声と比較しなければならないので、実現できない。
[Modification 1]
Next, the speech recognition apparatus 300-1 which is the modification 1 of the speech recognition apparatus 300 is demonstrated. When the number of states of the HMM is large, all the possible trajectories must be generated and compared with the input speech in Equation (3), which cannot be realized.

そこで、音声認識装置300−1は尤度計算部114に尤度関数を近似するための近似手段1164を保持する。尤度関数P(Y1:T)は尤度近似手段1164に入力され、尤度関数P(Y1:T)は近似され、近似尤度関数P’(Y1:T)が求められる(ステップS207)。尤度関数P(Y1:T)の近似の手法について説明する。まず、あらかじめ音響モデルのビタービアルゴリズムで音響モデルの尤度が最大になる状態系列S^1:Tと分布系列K^1:Tを求める。状態系列S^1:Tと分布系列K^1:Tの求めかたは以下の式(4)で表すことができる。

Figure 2009063773
Therefore, the speech recognition apparatus 300-1 holds an approximation unit 1164 for approximating the likelihood function in the likelihood calculation unit 114. Likelihood function P (Y 1: T ) is input to likelihood approximating means 1164, and likelihood function P (Y 1: T ) is approximated to obtain approximate likelihood function P ′ (Y 1: T ) ( Step S207). A method of approximating the likelihood function P (Y 1: T ) will be described. First, a state sequence S 1: T and a distribution sequence K 1: T that maximize the likelihood of the acoustic model are obtained in advance by the Viterbi algorithm of the acoustic model. The method of obtaining the state series S 1: T and the distribution series K 1: T can be expressed by the following equation (4).
Figure 2009063773

式(5)のトラジェクトリx^1:Tは線形動的モデルを用いて、上記式(1)による状態方程式と観測方程式によるカルマンフィルタを実現することにより求めることが好ましい。計算量が削減されるからである。このトラジェクトリx^1:Tを使って、得られる尤度は以下の式(6)のように、近似尤度関数P’(Y1:T)を求めることができる。

Figure 2009063773
The trajectory x ^ 1: T in the equation (5) is preferably obtained by realizing a Kalman filter based on the state equation and the observation equation according to the equation (1) using a linear dynamic model. This is because the calculation amount is reduced. Using this trajectory x ^ 1: T , an approximate likelihood function P ′ (Y 1: T ) can be obtained as shown in the following equation (6).
Figure 2009063773

そして、尤度計算部114は、近似尤度関数P’(Y1:T)に特徴量抽出部2よりの静的特徴量、動的特徴量を代入して、尤度を計算する。そして、尤度を最大にするモデルを最終的な認識結果とする。 Then, the likelihood calculation unit 114 calculates the likelihood by substituting the static feature amount and the dynamic feature amount from the feature amount extraction unit 2 into the approximate likelihood function P ′ (Y 1: T ). A model that maximizes the likelihood is set as a final recognition result.

この近似尤度関数P’(Y1:T)は非特許文献4で述べているものとほぼ等しいが、上記式(5)によるトラジェクトリを求める際に、状態方程式と観測方程式によるカルマンフィルタを実現させている所が従来技術4とは異なる。 This approximate likelihood function P ′ (Y 1: T ) is almost the same as that described in Non-Patent Document 4, but when obtaining a trajectory according to the above equation (5), a Kalman filter based on a state equation and an observation equation is realized. Is different from the prior art 4.

[変形例2]
次に音声認識装置300の変形例2である音声認識装置300−2について説明する。近似尤度関数P’(Y1:T)では、以下に示すHMMによる最大状態系列と分布系列以外のトラジェクトリの尤度を無視していることになり、高精度な認識をできない。そこで、尤度関数計算114は、更に、補正手段116を持たせる。補正手段116などの機能構成例を図10に示す。補正手段116は誤差近似手段1168と加算手段1170とで構成されている。誤差近似手段1168は、近似尤度関数P’(Y1:T)と尤度関数P(Y1:T)との誤差eをHMMの尤度を用いて近似することで、近似誤差e’を生成する。まず、誤差eは以下の式(7)で表すことができる。誤差eはe=│P(Y1:T)−P’(Y1:T)│で表すことができる。

Figure 2009063773
[Modification 2]
Next, a speech recognition device 300-2 that is a second modification of the speech recognition device 300 will be described. In the approximate likelihood function P ′ (Y 1: T ), the likelihood of trajectories other than the maximum state sequence and distribution sequence by the HMM shown below is ignored, and high-accuracy recognition cannot be performed. Therefore, the likelihood function calculation 114 further includes a correction unit 116. An example of the functional configuration of the correction unit 116 and the like is shown in FIG. The correction unit 116 includes an error approximation unit 1168 and an addition unit 1170. The error approximation means 1168 approximates the error e between the approximate likelihood function P ′ (Y 1: T ) and the likelihood function P (Y 1: T ) using the likelihood of the HMM, so that the approximate error e ′. Is generated. First, the error e can be expressed by the following equation (7). The error e can be expressed by e = | P (Y1 : T ) −P ′ (Y1 : T ) |.
Figure 2009063773

しかし、誤差eを直接求めることはできない。従って、誤差近似手段1166は、HMMの尤度を利用して、誤差eを近似して、近似誤差e’を生成する。近似誤差e’は以下の式(8)になる。

Figure 2009063773
この式(8)の2行目の式は例えば、HMMのビタービアルゴリズムを用いて得られる。 However, the error e cannot be obtained directly. Therefore, the error approximating unit 1166 approximates the error e using the likelihood of the HMM to generate an approximate error e ′. The approximation error e ′ is expressed by the following equation (8).
Figure 2009063773
The expression in the second row of the expression (8) is obtained using, for example, the HMM Viterbi algorithm.

加算手段1170は、尤度近似手段1164よりの近似尤度関数P’(Y1:T)と、近似誤差e’とを加算することで、補正尤度関数P’’(Y1:T)を求める(ステップS208)。つまり、以下の式(9)が演算される。

Figure 2009063773
The adding unit 1170 adds the approximate likelihood function P ′ (Y 1: T ) from the likelihood approximating unit 1164 and the approximate error e ′, thereby correcting the likelihood function P ″ (Y 1: T ). Is obtained (step S208). That is, the following formula (9) is calculated.
Figure 2009063773

加算手段1170から補正尤度関数P’’(Y1:T)が出力される。そして、尤度計算部114は、特徴量抽出部2よりの静的特徴量と動的特徴量を用いて、式(9)の補正尤度関数P’’(Y1:T)の関数値である尤度を求め(ステップS210)、尤度を最大にするモデルを最終的な認識結果とする。 A correction likelihood function P ″ (Y 1: T ) is output from the adding means 1170. Then, the likelihood calculation unit 114 uses the static feature amount and the dynamic feature amount from the feature amount extraction unit 2 to use the function value of the corrected likelihood function P ″ (Y 1: T ) in Expression (9). Is obtained (step S210), and a model that maximizes the likelihood is set as a final recognition result.

このようにして、尤度関数P(Y1:T)を補正手段116により補正することで、補正尤度関数P’’(Y1:T)を求める。その結果、HMMによる最大状態系列と分布系列以外のトラジェクトリの尤度も考慮していることになる。従って、この実施例の音声認識装置300は、混合ガウス分布の分布数が増加した場合であっても、従来技術4、5よりも、認識精度を向上させることが出来る。 In this way, the likelihood function P (Y 1: T) is corrected by the correction means 116, correction likelihood function P '' (Y 1: T ) calculated. As a result, the likelihood of trajectories other than the maximum state sequence and distribution sequence by HMM is also taken into consideration. Therefore, the speech recognition apparatus 300 of this embodiment can improve the recognition accuracy over the prior arts 4 and 5 even when the number of mixed Gaussian distributions is increased.

[実験結果]
次に、本発明の音声認識装置と、従来技術4の音声認識装置と、HMMを用いた音声認識装置と、を比較した実験結果を説明する。実験では、話者独立、タスク独立の認識を行った。サンプリングレートを16kHzとし、フレームシフトを10msとし、各状態のガウス分布数が2もしくは3である環境依存HMMを学習した。学習データとして、JNASデータの全ての男性話者を用いた。利用したデータは20078文章である。評価データとして、学習データと同条件で分析した男性75人による100都市発声を用いた。相発声数は、7198である。認識実験においては、ひとつの条件下では、誤差によって偶然性能が良くなるという可能性がある。この点を排除するために、作成する状態数を変化させて、複数の実験を行った。図11に混合ガウス分布数が2の場合の単語誤認識率の結果を示し、図12に混合ガウス分布数が3の場合の単語誤認識率の結果を示す。また、混合ガウス分布数が2の場合は、作成HMMの状態数を2589、1992、1611の3種類を用い、混合ガウス分布数が3の場合は、作成HMMの状態数を1992の1種類を用いた。図11、図12より、作成HMMの状態数がどの場合であっても、本発明の音声認識装置が、従来技術4の音声認識装置やHMMを用いた音声認識装置よりも認識精度が向上していることが分かる。
[Experimental result]
Next, experimental results comparing the speech recognition apparatus according to the present invention, the speech recognition apparatus according to the prior art 4 and the speech recognition apparatus using the HMM will be described. In the experiment, speaker-independent and task-independent recognition were performed. An environment-dependent HMM was learned in which the sampling rate was 16 kHz, the frame shift was 10 ms, and the number of Gaussian distributions in each state was 2 or 3. All male speakers of JNAS data were used as learning data. The data used is 2,0078 sentences. As evaluation data, 100 city utterances by 75 men analyzed under the same conditions as the learning data were used. The number of vocalizations is 7198. In the recognition experiment, under one condition, there is a possibility that the performance is improved by chance due to an error. In order to eliminate this point, a plurality of experiments were performed by changing the number of states to be created. FIG. 11 shows the result of the word error recognition rate when the number of mixed Gaussian distributions is 2, and FIG. 12 shows the result of the word error recognition rate when the number of mixed Gaussian distributions is 3. When the number of mixed Gaussian distributions is 2, the number of states of the created HMM is 389, 2589, 1992, and 1611. When the number of mixed Gaussian distributions is 3, the number of states of the created HMM is 1 type of 1992. Using. 11 and 12, regardless of the number of states of the created HMM, the speech recognition device of the present invention has improved recognition accuracy over the speech recognition device of the prior art 4 and the speech recognition device using the HMM. I understand that

従来の音声特徴学習装置の機能構成例を示す図。The figure which shows the function structural example of the conventional audio | voice characteristic learning apparatus. 従来の音声認識装置の機能構成例を示す図。The figure which shows the function structural example of the conventional speech recognition apparatus. 従来の音声特徴学習装置と音声認識装置とをまとめたものを示す図。The figure which shows what put together the conventional speech feature learning apparatus and speech recognition apparatus. 従来のトラジェクトリを求める流れを示した図。The figure which showed the flow which calculates | requires the conventional trajectory. 実施例の音声特徴学習装置の機能構成例を示す図。The figure which shows the function structural example of the audio | voice feature learning apparatus of an Example. 実施例の音声認識装置の機能構成例を示す図。The figure which shows the function structural example of the speech recognition apparatus of an Example. 実施例の音声特徴学習装置と音声認識装置とをまとめたものを示す図。The figure which shows what put together the audio | voice feature learning apparatus and audio | voice recognition apparatus of an Example. 実施例の音声特徴学習装置の主な処理の流れを示す図。The figure which shows the flow of the main processes of the audio | voice feature learning apparatus of an Example. 実施例の音声認識装置の主な処理の流れを示す図。The figure which shows the flow of the main processes of the speech recognition apparatus of an Example. 補正手段116の機能構成例を示す図。The figure which shows the function structural example of the correction | amendment means. 混合ガウス分布が2の場合の実験結果を示す図。The figure which shows the experimental result in case mixing Gaussian distribution is 2. FIG. 混合ガウス分布が3の場合の実験結果を示す図。The figure which shows the experimental result in case mixing Gaussian distribution is 3. FIG.

Claims (10)

学習用音声から静的特徴量と動的特徴量を抽出する特徴量抽出部と、
前記静的特徴量と前記動的特徴量とから、音響モデルを学習する音響モデル学習部と、
前記音響モデルを記憶するHMMデータベースと、
前記静的特徴量と前記動的特徴量との関係を使って、前記音響モデルを線形動的システムに変換するモデル変換部と、
前記線形動的システムを記憶する線形動的システムデータベースと、
前記HMMデータベースに記憶されている前記音響モデルを用いて、前記当該音響モデルに対する前記学習用音声の尤度が最大になるよう音響モデルの状態系列と分布系列を求める尤度最大計算部と、
前記線形動的システムと前記状態系列と前記分布系列とを用いてトラジェクトリを合成するトラジェクトリ合成部と、
前記静的特徴量と前記動的特徴量と、前記トラジェクトリと、前記状態系列と前記分布系列とによる分散と、からなる尤度関数を最大化する最大化関数を求める尤度関数最大化部と、
前記最大化関数を記憶する最大化関数データベースと、
を備えることを特徴とする音声特徴学習装置。
A feature quantity extraction unit that extracts static feature quantities and dynamic feature quantities from learning speech;
An acoustic model learning unit that learns an acoustic model from the static feature amount and the dynamic feature amount;
An HMM database storing the acoustic model;
A model conversion unit that converts the acoustic model into a linear dynamic system using the relationship between the static feature quantity and the dynamic feature quantity;
A linear dynamic system database storing the linear dynamic system;
A maximum likelihood calculation unit for obtaining a state sequence and a distribution sequence of the acoustic model so as to maximize the likelihood of the learning speech for the acoustic model, using the acoustic model stored in the HMM database;
A trajectory synthesis unit that synthesizes a trajectory using the linear dynamic system, the state series, and the distribution series;
A likelihood function maximization unit that obtains a maximization function that maximizes a likelihood function consisting of the static feature quantity, the dynamic feature quantity, the trajectory, and the variance of the state series and the distribution series; ,
A maximization function database for storing the maximization function;
A speech feature learning apparatus comprising:
入力音声から静的特徴量と動的特徴量を抽出する特徴量抽出部と、
音響モデルを記憶するHMMデータベースと、
前記線形動的システムを記憶する線形動的システムデータベースと、
線形動的システムデータベースに記憶されている線形動的システムと、辞書データベースに記憶されている辞書データと、を用いて、トラジェクトリを合成するトラジェクトリ合成部と、
最大化関数データベースに記憶されている最大化関数に前記トラジェクトリを代入して、前記トラジェクトリの入力に対する入力音声の確率密度である尤度関数、もしくは前記トラジェクトリの入力に対する尤度の最大値をとる尤度関数を生成する尤度関数生成部と、
前記尤度関数に前記静的特徴量と前記動的特徴量とを代入して、尤度を計算する尤度計算部と、
を備えることを特徴とする音声認識装置。
A feature quantity extraction unit that extracts static feature quantities and dynamic feature quantities from input speech;
An HMM database for storing acoustic models;
A linear dynamic system database storing the linear dynamic system;
A trajectory synthesis unit that synthesizes a trajectory using a linear dynamic system stored in the linear dynamic system database and dictionary data stored in the dictionary database;
A likelihood function which is a likelihood function which is a probability density of input speech with respect to the input of the trajectory or a maximum value of likelihood with respect to the input of the trajectory by substituting the trajectory into a maximization function stored in the maximization function database. A likelihood function generator for generating a degree function;
A likelihood calculating unit that calculates the likelihood by substituting the static feature amount and the dynamic feature amount into the likelihood function;
A speech recognition apparatus comprising:
請求項2記載の音声認識装置であって、
前記尤度計算部は、
前記音響モデルの尤度を用いて、前記尤度関数を近似して近似尤度関数を生成する近似手段を備え、当該近似尤度関数に前記静的特徴量と前記動的特徴量とを代入して、尤度を計算するものであることを特徴とする音声認識装置。
The speech recognition device according to claim 2,
The likelihood calculator is
Approximating means for generating an approximate likelihood function by approximating the likelihood function using the likelihood of the acoustic model, and substituting the static feature amount and the dynamic feature amount into the approximate likelihood function A speech recognition apparatus characterized by calculating likelihood.
請求項3記載の音声認識装置であって、
前記尤度計算部は、更に、
前記近似尤度関数と前記尤度関数との誤差を前記音響モデルの尤度を用いて近似することで近似誤差を生成し、前記近似尤度関数と前記近似誤差とを加算することで、前記尤度関数を補正することで補正尤度関数を生成する補正手段を備え、当該補正尤度関数に前記静的特徴量と前記動的特徴量とを代入して、尤度を計算するものであることを特徴とする音声認識装置。
The speech recognition device according to claim 3,
The likelihood calculation unit further includes:
By approximating the error between the approximate likelihood function and the likelihood function using the likelihood of the acoustic model, an approximate error is generated, and by adding the approximate likelihood function and the approximate error, A correction means for generating a corrected likelihood function by correcting the likelihood function, and calculating the likelihood by substituting the static feature quantity and the dynamic feature quantity into the corrected likelihood function; A speech recognition apparatus characterized by being.
請求項2〜4いずれかに記載の音声認識装置において、
前記トラジェクトリ合成部は、状態方程式と観測方程式を用いて、前記トラジェクトリを合成するものであることを特徴とする音声認識装置。
The speech recognition apparatus according to any one of claims 2 to 4,
The trajectory synthesizing unit synthesizes the trajectory using a state equation and an observation equation.
請求項2〜5いずれかに記載の音声認識装置において、
前記トラジェクトリ合成部は、カルマンフィルタを用いて前記トラジェクトリを合成するものであることを特徴とする音声認識装置。
The speech recognition apparatus according to any one of claims 2 to 5,
The trajectory synthesizing unit synthesizes the trajectory using a Kalman filter.
学習用音声から静的特徴量と動的特徴量を抽出する特徴量抽出過程と、
前記静的特徴量と前記動的特徴量とから、音響モデルを学習して、HMMデータベースに記憶させる音響モデル学習過程と、
前記静的特徴量と前記動的特徴量との関係を使って、前記音響モデルを線形動的システムに変換して、線形動的システムデータベースに記憶するモデル変換過程と、
前記HMMデータベースに記憶されている前記音響モデルを用いて、前記当該音響モデルに対する前記学習用音声の尤度が最大になるよう音響モデルの状態系列と分布系列を求める尤度最大計算過程と、
前記線形動的システムと前記状態系列と前記分布系列とを用いてトラジェクトリを合成するトラジェクトリ合成過程と、
前記静的特徴量と前記動的特徴量と、前記トラジェクトリと、前記状態系列と前記分布系列とによる分散と、からなる尤度関数を最大化する最大化関数を求めて、最大化関数データベースに記憶する尤度関数最大化過程と、
を有することを特徴とする音声特徴学習方法。
A feature extraction process for extracting static features and dynamic features from learning speech;
An acoustic model learning process in which an acoustic model is learned from the static feature quantity and the dynamic feature quantity and stored in an HMM database;
Using the relationship between the static feature quantity and the dynamic feature quantity, the acoustic model is converted into a linear dynamic system and stored in a linear dynamic system database; and
A maximum likelihood calculation process for obtaining a state sequence and a distribution sequence of the acoustic model so as to maximize the likelihood of the learning speech for the acoustic model using the acoustic model stored in the HMM database;
A trajectory synthesis process for synthesizing a trajectory using the linear dynamic system, the state sequence, and the distribution sequence;
A maximization function for maximizing a likelihood function consisting of the static feature quantity, the dynamic feature quantity, the trajectory, and the variance of the state series and the distribution series is obtained in a maximization function database. A likelihood function maximization process to remember,
A speech feature learning method characterized by comprising:
入力音声から静的特徴量と動的特徴量を抽出する特徴量抽出過程と、
線形動的システムデータベースに記憶されている線形動的システムと、辞書データベースに記憶されている辞書データと、を用いて、トラジェクトリを合成するトラジェクトリ合成過程と、
最大化関数データベースに記憶されている最大化関数に前記トラジェクトリを代入して、前記トラジェクトリの入力に対する入力音声の確率密度である尤度関数、もしくは前記トラジェクトリの入力に対する尤度の最大値をとる尤度関数を生成する尤度関数生成過程と、
前記尤度関数に前記静的特徴量と前記動的特徴量とを代入して、尤度を計算する尤度計算過程と、を有することを特徴とする音声認識方法。
A feature extraction process for extracting static and dynamic features from input speech;
A trajectory synthesis process for synthesizing a trajectory using a linear dynamic system stored in the linear dynamic system database and dictionary data stored in the dictionary database;
A likelihood function which is a likelihood function which is a probability density of input speech with respect to the input of the trajectory or a maximum value of likelihood with respect to the input of the trajectory by substituting the trajectory into the maximization function stored in the maximization function database. A likelihood function generation process for generating a degree function;
A speech recognition method comprising: a likelihood calculation step of calculating a likelihood by substituting the static feature amount and the dynamic feature amount into the likelihood function.
請求項1〜6に記載の音声特徴学習装置、音声認識装置の各処理をコンピュータに実行させるための音声特徴学習プログラム、音声認識プログラム。   A speech feature learning program and a speech recognition program for causing a computer to execute each process of the speech feature learning device and the speech recognition device according to claim 1. 請求項9記載の音声特徴学習プログラム、音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。











A computer-readable recording medium in which the voice feature learning program and the voice recognition program according to claim 9 are recorded.











JP2007230795A 2007-09-05 2007-09-05 Voice recognition apparatus, method thereof, program thereof, and recording medium Active JP4901657B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007230795A JP4901657B2 (en) 2007-09-05 2007-09-05 Voice recognition apparatus, method thereof, program thereof, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007230795A JP4901657B2 (en) 2007-09-05 2007-09-05 Voice recognition apparatus, method thereof, program thereof, and recording medium

Publications (2)

Publication Number Publication Date
JP2009063773A true JP2009063773A (en) 2009-03-26
JP4901657B2 JP4901657B2 (en) 2012-03-21

Family

ID=40558401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007230795A Active JP4901657B2 (en) 2007-09-05 2007-09-05 Voice recognition apparatus, method thereof, program thereof, and recording medium

Country Status (1)

Country Link
JP (1) JP4901657B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010204391A (en) * 2009-03-03 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> Voice signal modeling method, signal recognition device and method, parameter learning device and method, and feature value generating device, method, and program
WO2011024572A1 (en) * 2009-08-28 2011-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション Audio feature extracting apparatus, audio feature extracting method, and audio feature extracting program
CN109545229A (en) * 2019-01-11 2019-03-29 华南理工大学 A kind of method for distinguishing speek person based on speech samples Feature space trace

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271185A (en) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> Device and method for preparing information for voice recognition, device and method for recognizing voice, information preparation program for voice recognition, recording medium recorded with the program, voice recognition program and recording medium recorded with the program
JP2006171020A (en) * 2004-12-10 2006-06-29 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, voice feature learning method, apparatus using those methods, program, and recording medium on which the program is recorded

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271185A (en) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> Device and method for preparing information for voice recognition, device and method for recognizing voice, information preparation program for voice recognition, recording medium recorded with the program, voice recognition program and recording medium recorded with the program
JP2006171020A (en) * 2004-12-10 2006-06-29 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, voice feature learning method, apparatus using those methods, program, and recording medium on which the program is recorded

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010204391A (en) * 2009-03-03 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> Voice signal modeling method, signal recognition device and method, parameter learning device and method, and feature value generating device, method, and program
WO2011024572A1 (en) * 2009-08-28 2011-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション Audio feature extracting apparatus, audio feature extracting method, and audio feature extracting program
GB2485926A (en) * 2009-08-28 2012-05-30 Ibm Audio feature extracting apparatus, audio feature extracting method, and audio feature extracting program
GB2485926B (en) * 2009-08-28 2013-06-05 Ibm Speech feature extracting apparatus, speech feature extracting method, and speech feature extracting program
US8468016B2 (en) 2009-08-28 2013-06-18 International Business Machines Corporation Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
JP2013178575A (en) * 2009-08-28 2013-09-09 Internatl Business Mach Corp <Ibm> Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
JP5315414B2 (en) * 2009-08-28 2013-10-16 インターナショナル・ビジネス・マシーンズ・コーポレーション Speech feature extraction device, speech feature extraction method, and speech feature extraction program
US8930185B2 (en) 2009-08-28 2015-01-06 International Business Machines Corporation Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
CN109545229A (en) * 2019-01-11 2019-03-29 华南理工大学 A kind of method for distinguishing speek person based on speech samples Feature space trace
CN109545229B (en) * 2019-01-11 2023-04-21 华南理工大学 Speaker recognition method based on voice sample characteristic space track

Also Published As

Publication number Publication date
JP4901657B2 (en) 2012-03-21

Similar Documents

Publication Publication Date Title
JP4548646B2 (en) Noise model noise adaptation system, noise adaptation method, and speech recognition noise adaptation program
JP4410265B2 (en) Speech recognition apparatus and method
JP5418223B2 (en) Speech classification device, speech classification method, and speech classification program
US8515758B2 (en) Speech recognition including removal of irrelevant information
Huang et al. An investigation of augmenting speaker representations to improve speaker normalisation for dnn-based speech recognition
JP2007279349A (en) Feature amount compensation apparatus, method, and program
Diakoloukas et al. Maximum-likelihood stochastic-transformation adaptation of hidden Markov models
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
JP4512848B2 (en) Noise suppressor and speech recognition system
JP2004279466A (en) System and method for noise adaptation for speech model, and speech recognition noise adaptation program
JP2010078650A (en) Speech recognizer and method thereof
JP4901657B2 (en) Voice recognition apparatus, method thereof, program thereof, and recording medium
Saheer et al. VTLN adaptation for statistical speech synthesis
Lu et al. Joint uncertainty decoding for noise robust subspace Gaussian mixture models
Zhang et al. Minimum phoneme error based heteroscedastic linear discriminant analysis for speech recognition
US20120330664A1 (en) Method and apparatus for computing gaussian likelihoods
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP4233831B2 (en) Noise model noise adaptation system, noise adaptation method, and speech recognition noise adaptation program
JP5738216B2 (en) Feature amount correction parameter estimation device, speech recognition system, feature amount correction parameter estimation method, speech recognition method, and program
Huang et al. A fast algorithm for large vocabulary keyword spotting application
JP2010054588A (en) Sound model preparing device, voice recognition device using the same, these method, these program and these recording medium
Yu et al. Unsupervised adaptation with discriminative mapping transforms
Tachioka et al. A generalized discriminative training framework for system combination
WO2010109725A1 (en) Voice processing apapratus, voice processing method, and voice processing program
JP5104732B2 (en) Extended recognition dictionary learning device, speech recognition system using the same, method and program thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111220

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111227

R150 Certificate of patent or registration of utility model

Ref document number: 4901657

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350