JP2009145499A - Voice parameter learning apparatus and method therefor, voice recognition apparatus and voice recognition method using them, and their program and recording medium - Google Patents

Voice parameter learning apparatus and method therefor, voice recognition apparatus and voice recognition method using them, and their program and recording medium Download PDF

Info

Publication number
JP2009145499A
JP2009145499A JP2007321201A JP2007321201A JP2009145499A JP 2009145499 A JP2009145499 A JP 2009145499A JP 2007321201 A JP2007321201 A JP 2007321201A JP 2007321201 A JP2007321201 A JP 2007321201A JP 2009145499 A JP2009145499 A JP 2009145499A
Authority
JP
Japan
Prior art keywords
speech
acoustic model
parameter
feature amount
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007321201A
Other languages
Japanese (ja)
Other versions
JP4960845B2 (en
Inventor
Marc Delcroix
マーク デルクロア
Shinji Watabe
晋治 渡部
Tomohiro Nakatani
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007321201A priority Critical patent/JP4960845B2/en
Publication of JP2009145499A publication Critical patent/JP2009145499A/en
Application granted granted Critical
Publication of JP4960845B2 publication Critical patent/JP4960845B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice-parameter learning apparatus that does not depend on specific voice emphasis method. <P>SOLUTION: This voice-parameter learning apparatus includes a voice preprocessing section for adaptation, an acoustic model storage section, an adaptation parameter creating section, a voice preprocessing section for recognition, and a dispersion dynamic correcting section. The adaptation parameter creating section creates a dynamic dispersion adaptive parameter depending on a frame as a parameter for dispersion correction, and a static dispersion adaptive parameter independent of the frame. The voice preprocessing section for recognition creates a voice feature amount for each frame of an observation voice signal, and uncertainty showing variation in the voice feature amount. The dispersion dynamic correcting section receives the uncertainty of the voice feature amount, the adaptive parameter, and the acoustic model, and outputs the dispersion of the Gaussian distribution corrected with the adaptive parameter for each frame. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

この発明は、雑音抑圧や残響除去等の音声前処理を行った段階で生じる音声の歪みを抑圧するための音声パラメータ学習方法とその装置、その装置と方法を用いた音声認識装置と音声認識方法と、それらのプログラムと記録媒体に関する。   The present invention relates to a speech parameter learning method and apparatus, and a speech recognition apparatus and speech recognition method using the apparatus and method for suppressing speech distortion that occurs at the stage of speech preprocessing such as noise suppression and dereverberation. And the programs and recording media.

音声認識を行う上で観測音声信号は、騒音や残響などの外的要因で大きく歪む。音声認識は、そのような大きく歪んだ音声を認識するのは不得手である。音声前処理部において、雑音抑圧や残響除去等を行い歪みを緩和することができる。しかし、音声前処理を行なっても、音声前処理部が新たにもたらす歪みや歪みの消し残り等で音声の歪みが依然として存在する。そこで、しばしば用いられるのが音声認識用音響モデルに含まれるガウス分布の分散パラメータを補正する方法である。この方法は非特許文献1に開示されている。その方法に基づく従来の音声認識装置の機能構成を図9に、その動作フローを図10に示して簡単に説明する。   When performing speech recognition, the observed speech signal is greatly distorted by external factors such as noise and reverberation. Speech recognition is not good at recognizing such heavily distorted speech. In the speech preprocessing unit, noise can be reduced by performing noise suppression and dereverberation. However, even if audio preprocessing is performed, audio distortion still exists due to distortion newly introduced by the audio preprocessing unit and unerased distortion. Therefore, a method often used is a method of correcting the dispersion parameter of the Gaussian distribution included in the acoustic model for speech recognition. This method is disclosed in Non-Patent Document 1. The functional configuration of a conventional speech recognition apparatus based on this method is shown in FIG. 9, and its operation flow is shown in FIG.

音声認識装置200は、音声前処理部90と、音響モデル記憶部92と、分散動的補正部94と、音声認識用音響モデル記憶部96と、認識部97と、発音辞書モデル記憶部98と、言語モデル記憶部99とを備える。   The speech recognition apparatus 200 includes a speech preprocessing unit 90, an acoustic model storage unit 92, a distributed dynamic correction unit 94, a speech recognition acoustic model storage unit 96, a recognition unit 97, and a pronunciation dictionary model storage unit 98. And a language model storage unit 99.

音声前処理部90は、観測音声信号o(t)を読み込み(ステップS90)、例えば雑音抑圧や残響除去法などの音声強調技術で推定された音声特徴量x^(^は図又は式に示す表記が正しい)を各フレーム毎に出力する。ただし、上記したように音声前処理部90では、音声歪みを完璧に消すことが出来ず、推定された音声特徴量x^と音響モデル構築の際に用いたクリーン音声特徴には大きなミスマッチが存在する。これが認識性能を劣化させる大きな要因となる。そこで音声特徴量x^を、クリーン音声特徴xと差分bの和であると仮定する(式(1))。

Figure 2009145499
ただし、差分bは式(2)に示す様に平均0のガウス分布に従うと仮定する。
Figure 2009145499
The speech preprocessing unit 90 reads the observed speech signal o (t) (step S90) and, for example, the speech feature amount x t ^ (^ is a figure or an expression estimated by speech enhancement technology such as noise suppression or dereverberation method. Is output for each frame. However, as described above, the speech pre-processing unit 90 cannot completely eliminate the speech distortion, and there is a large mismatch between the estimated speech feature amount x t ^ and the clean speech feature used when constructing the acoustic model. Exists. This is a major factor that degrades recognition performance. Therefore, it is assumed that the speech feature amount x t ^ is the sum of the clean speech feature x t and the difference b t (formula (1)).
Figure 2009145499
However, it is assumed that the difference b t follows an average 0 Gaussian distribution as shown in the equation (2).
Figure 2009145499

ここで、Σxt^は音声特徴量の分散である。つまり、音声前処理部90は推定された音声特徴量x^とともに、音声特徴量の分散Σxt^を出力する(ステップS91)。音声特徴量の分散Σxt^は、GMMに基づく音声強調法ではクリーン音声の混合ガウス分布モデルの分散パラメータから導出される。 Here, Σ xt ^ is a variance of speech feature values. That is, the speech preprocessing unit 90 outputs the variance Σ xt ^ of the voice feature value together with the estimated voice feature value x t ^ (step S91). In the speech enhancement method based on GMM, the speech feature amount variance Σ xt ^ is derived from the dispersion parameters of the mixed Gaussian distribution model of clean speech.

分散動的補正部94は、音響モデル記憶部92に記憶されている音響モデルの分散パラメータΣn,m(nはHMM状態、mは混合成分)を読み込み(ステップS92)、音声前処理部90が出力する音声特徴量の分散Σxt^を用いて補正する(ステップS94)。ここで、音響モデルについて説明する。音響モデルは、通常隠れマルコフモデル(HMM)で表現され、HMMの出力分布としては混合ガウス分布が用いられる。あるHMM状態nにおいて音声特徴xを出力する出力確率は式(3)で表現される。

Figure 2009145499
The distributed dynamic correction unit 94 reads the dispersion parameter Σ n, m (n is an HMM state, m is a mixed component) of the acoustic model stored in the acoustic model storage unit 92 (step S92), and the speech preprocessing unit 90 Is corrected using the variance Σ xt ^ of the voice feature value output by (step S94). Here, the acoustic model will be described. The acoustic model is usually expressed by a hidden Markov model (HMM), and a mixed Gaussian distribution is used as the output distribution of the HMM. Output probability for outputting the speech feature x t In certain HMM state n is represented by the formula (3).
Figure 2009145499

ここで、mはガウス分布の混合成分の指標であり、Mは状態あたりの混合数を表わす。p(m)は混合重み因子を表わす。μn,m及びΣn,mはHMM状態n、混合成分mでのガウス分布の平均パラメータ及び共分散行列を表わす。なお、通常の音響モデルは共分散行列を対角共分散行列として扱う場合が多い。そのため以降では、共分散行列の対角成分を特徴量次元の指標iを用いて、標準偏差σn,m,i として表わすこともある。 Here, m is an index of the mixture component of the Gaussian distribution, and M represents the number of mixtures per state. p (m) represents a mixing weight factor. μ n, m and Σ n, m represent the mean parameter and covariance matrix of the Gaussian distribution in the HMM state n and the mixture component m. An ordinary acoustic model often treats a covariance matrix as a diagonal covariance matrix. Therefore, hereinafter, the diagonal component of the covariance matrix may be expressed as the standard deviation σ n, m, i 2 using the feature quantity dimension index i.

一般には、上記音響モデルパラメータはクリーン音声を用いて学習されるため、例えば、それらのデータから得られる平均パラメータμn,mと音声前処理部90で推定された音声特徴量x^とではミスマッチが存在する。このようなミスマッチを緩和するために分散動的補正部94では、音響モデルの分散パラメータΣn,mを音声特徴量x^に合わせるように補正を行う。分散パラメータΣn,mを音声特徴量x^に合わせる補正を行うため、HMM状態nでの音響モデルの出力確率p(x|n)に対し、x及びxとx^の差分bの同時確率を考え、bに関して周辺化(積分)を行うことにより、式(4)に示すような出力確率p(x|n)を理論的に導出することができる。

Figure 2009145499
In general, since the acoustic model parameters are learned using clean speech, for example, the average parameter μ n, m obtained from the data and the speech feature amount x t ^ estimated by the speech preprocessing unit 90 There is a mismatch. In order to alleviate such mismatch, the distributed dynamic correction unit 94 performs correction so that the dispersion parameter Σ n, m of the acoustic model matches the speech feature amount x t ^. In order to perform the correction to match the dispersion parameter Σ n, m with the speech feature amount x t ^, for the output probability p (x t | n) of the acoustic model in the HMM state n, x t and x t and x t ^ By considering the joint probability of the difference b t and performing marginalization (integration) on b t , an output probability p (x t | n) as shown in Equation (4) can be theoretically derived.
Figure 2009145499

ここでは、p(b|n)≒p(b)と仮定している。従って、分散動的補正部94では、各フレーム毎に動的に音声特徴量の分散Σxt^を用いて音響モデルの分散パラメータΣn,mを式(5)に示すように補正することにより、推定された音声特徴量x^を出力する出力分布を得ることができる。

Figure 2009145499
Here, it is assumed that p (b t | n) ≈p (b t ). Therefore, the variance dynamic correction unit 94 dynamically corrects the variance parameter Σ n, m of the acoustic model as shown in Expression (5) by using the variance Σ xt ^ of the voice feature amount for each frame. An output distribution that outputs the estimated speech feature amount x t ^ can be obtained.
Figure 2009145499

補正された出力分布は、音声認識用音響モデル記憶部96に記憶される。
認識部97では、音声前処理部90から入力される特徴量集合X=[x^,…,x^,…]に対して音響モデルp(X|n)、発音辞書モデル記憶部98に記憶された発音辞書モデルp(n|W)、言語モデル記憶部99に記憶された言語モデルp(W)を用いて式(6)に示すように音声認識結果Wを出力する(ステップS97)。

Figure 2009145499
The corrected output distribution is stored in the acoustic model storage unit 96 for speech recognition.
In the recognition unit 97, the acoustic model p (X | n) and the pronunciation dictionary model storage unit 98 for the feature amount set X = [x 1 ^,..., X t ^,. Using the pronunciation dictionary model p (n | W) stored in the language model and the language model p (W) stored in the language model storage unit 99, the speech recognition result W is output as shown in equation (6) (step S97). ).
Figure 2009145499

特徴量集合に対する音響モデルp(X|n)のスコアは、出力確率p(x|n)から得られる各フレームt毎の音響スコアを、DPマッチング(動的計画法)などを用いて蓄積することで得られる。 As the score of the acoustic model p (X | n) for the feature quantity set, the acoustic score for each frame t obtained from the output probability p (x t | n) is accumulated using DP matching (dynamic programming) or the like. It is obtained by doing.

出力確率p(x|n)から得られる各フレームt毎の音響スコアは、音声前処理部90より出力される推定された音声特徴量x^及び、分散動的補正部94より得られる補正された分散Σn,m+Σxt^、及びその他の音響モデルパラメータを用いて式(7)に示す様に計算することができる。

Figure 2009145499
The acoustic score for each frame t obtained from the output probability p (x t | n) is obtained from the estimated speech feature amount x t ^ output from the speech preprocessing unit 90 and the distributed dynamic correction unit 94. Using the corrected variance Σ n, m + Σ xt ^ and other acoustic model parameters, the calculation can be made as shown in Equation (7).
Figure 2009145499

以上の動作によって、雑音抑圧や残響除去等の音声前処理を行なった段階に生じる音声の歪みを抑圧した音声認識が実現される。
Deng, L.,Droppo, J. and Acero, A.,”Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion,”IEEE Trans.SAP,vol. 13,no.3,pp.412-421,2005.
With the above operation, speech recognition is realized in which speech distortion occurring at the stage of performing speech preprocessing such as noise suppression and dereverberation is suppressed.
Deng, L., Droppo, J. and Acero, A., “Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion,” IEEE Trans.SAP, vol. 13, no. 3, pp .412-421,2005.

しかし、上記した方法では、分散動的補正部94において用いる音声特徴量の分散Σxt^を音声前処理部90で生成する必要がある。音声前処理部90ではクリーン音声の混合ガウス分布にもとづく音声強調手法を用いており、音声特徴量の分散Σxt^は、その混合ガウス分布モデルの分散パラメータから導出している。他の多くの音声強調手法、例えばスペクトル減算法、音声分離法(BSS)、ウィナーフィルター法(wiener)では、直接音声特徴量の分散を出力することが難しく、上記した方法の適用は困難である。つまり、上記した従来方法は、特定の音声強調手法を用いなければならないという点で汎用性に欠ける。 However, in the method described above, it is necessary for the speech preprocessing unit 90 to generate the speech feature amount variance Σ xt ^ used in the distributed dynamic correction unit 94. The speech preprocessing unit 90 uses a speech enhancement method based on a mixed Gaussian distribution of clean speech, and the variance Σ xt ^ of the speech feature value is derived from the dispersion parameter of the mixed Gaussian distribution model. In many other speech enhancement methods such as spectral subtraction, speech separation (BSS), and Wiener filter (wiener), it is difficult to directly output the variance of speech features, and the above method is difficult to apply. . That is, the above-described conventional method lacks versatility in that a specific speech enhancement method must be used.

また、観測音声信号の音声特徴uと、音声前処理部で推定された音声特徴量x^の2乗誤差を音声特徴量の分散と近似することにより、音声強調手法によらない動的分散補正が可能ではある。しかし、本来、分散動的補正に必要な音声特徴量の分散は、クリーン音声特徴xと音声前処理部で推定された音声特徴量x^の2乗誤差であり、上記した近似では動的分散補正の精度が低下し性能が劣化してしまう。 Further, by approximating the square error of the speech feature u t of the observed speech signal and the speech feature amount x t ^ estimated by the speech pre-processing unit to the variance of the speech feature amount, the dynamics independent of the speech enhancement method are used. Dispersion correction is possible. However, originally, the variance of the speech feature amount necessary for the distributed dynamic correction is a square error between the clean speech feature x t and the speech feature amount x t ^ estimated by the speech pre-processing unit. The accuracy of the automatic dispersion correction is lowered and the performance is deteriorated.

この発明は、このような点に鑑みてなされたものであり、任意の音声特徴量の分散を用いても適切な音響モデルを得ることができる音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体を提供することを目的とする。   The present invention has been made in view of the above points, and a speech parameter learning apparatus and method capable of obtaining an appropriate acoustic model using any variance of speech feature values, and speech using them. An object of the present invention is to provide a recognition device, a speech recognition method, a program thereof, and a recording medium.

この発明による音声パラメータ学習装置は、適応用音声前処理部と、音響モデル記憶部と、適応パラメータ生成部と、認識用音声前処理部と、分散動的補正部とを具備する。適応用音声前処理部は、観測音声信号を入力として、当該観測音声信号のフレーム毎の音声特徴を強調した強調音声信号の音声特徴量と、上記音声特徴量のバラツキを表わす不確かさとを生成する。音響モデル記憶部は、音響モデルを記憶する。適応パラメータ生成部は、強調音声特徴量の集合と、上記不確かさの集合と、上記音響モデルと、教師信号とを入力とし、音響モデル中のガウス分布の分散補正のための適応パラメータとしてフレームに依存する動的分散適応パラメータと、フレームに依存しない静的分散適応パラメータとを生成する。認識用音声前処理部は、観測音声信号のフレーム毎の音声特徴量と、音声特徴量のバラツキを表わす不確かさを生成する。分散動的補正部は、上記音声特徴量の不確かさと、上記適応パラメータと、上記音響モデルとを入力としてフレーム毎に適応パラメータで補正された音響モデルのガウス分布の分散を出力する。   The speech parameter learning apparatus according to the present invention includes an adaptive speech preprocessing unit, an acoustic model storage unit, an adaptive parameter generation unit, a recognition speech preprocessing unit, and a distributed dynamic correction unit. The adaptation speech preprocessing unit receives the observed speech signal and generates a speech feature amount of the enhanced speech signal in which the speech feature of each frame of the observed speech signal is emphasized and an uncertainty representing the variation of the speech feature amount. . The acoustic model storage unit stores an acoustic model. The adaptive parameter generation unit receives the set of emphasized speech features, the set of uncertainties, the acoustic model, and the teacher signal as input, and adds them to the frame as adaptive parameters for dispersion correction of the Gaussian distribution in the acoustic model. Generate dependent dynamic distributed adaptation parameters and static distributed adaptive parameters independent of frames. The recognition speech pre-processing unit generates a speech feature amount for each frame of the observed speech signal and an uncertainty representing variation in the speech feature amount. The variance dynamic correction unit outputs the variance of the Gaussian distribution of the acoustic model corrected by the adaptation parameter for each frame with the uncertainty of the speech feature value, the adaptation parameter, and the acoustic model as inputs.

また、この発明による音声認識装置は、上記した音声パラメータ学習装置と、認識部を具備する。認識部は、音声パラメータ学習装置が出力する音声特徴量と、音声パラメータ学習装置において補正された音響モデルのガウス分布の分散を入力として単語列を出力する。   The speech recognition device according to the present invention includes the speech parameter learning device described above and a recognition unit. The recognizing unit outputs a word string with the speech feature amount output by the speech parameter learning device and the variance of the Gaussian distribution of the acoustic model corrected by the speech parameter learning device as inputs.

この発明の音声パラメータ学習装置は、適応パラメータ生成部が音響モデルの分散補正のためのパラメータとして、観測音声信号からフレームに依存する動的分散パラメータと、フレームに依存しない静的分散パラメータとを生成する。つまり、音声強調部に混合ガウス分布法を用いずに分散補正のためのパラメータが生成できるので、任意の音声強調手法に対応可能な汎用性の高い音声パラメータ学習装置とすることができる。また、この音声パラメータ学習装置を用いた音声認識装置は、特定の音声強調手法に依存することなく、音声の歪みを抑圧した高い認識性能を持つ音声認識を実現することができる。   In the speech parameter learning device of the present invention, the adaptive parameter generation unit generates a dynamic dispersion parameter that depends on a frame and a static dispersion parameter that does not depend on a frame from the observed speech signal as parameters for dispersion correction of the acoustic model. To do. That is, since a parameter for dispersion correction can be generated without using the mixed Gaussian distribution method in the speech enhancement unit, a highly versatile speech parameter learning apparatus that can cope with any speech enhancement method can be provided. Further, a speech recognition device using this speech parameter learning device can realize speech recognition with high recognition performance with suppressed speech distortion without depending on a specific speech enhancement method.

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。   Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.

〔発明の基本的な考え〕
実施例の説明の前に、この発明の音声特徴量の分散を補正する方法の基本的な考え方について説明する。この発明は、式(8)に示すように分散補正された音響モデルの分散Σ′n,m,tを、フレームtに依存する動的成分行列Σと、フレームtに依存しない静的成分行列Σの組み合わせとして表現する。

Figure 2009145499
ここで演算子(+)は行列Σ、Σに対しての、和・積などの演算及びそれらの演算等の組み合わせで表現される2項演算を意味する。 [Basic idea of the invention]
Prior to the description of the embodiments, the basic concept of the method for correcting the variance of the audio feature quantity of the present invention will be described. The present invention, the static component that is independent of the dispersion sigma 'n dispersion correction acoustic model as shown in Equation (8), m, and t, and a dynamic component matrix sigma D that depends on the frame t, in frame t It expressed as a combination of the matrix Σ S.
Figure 2009145499
Here, the operator (+) means a binary operation expressed by a combination of operations such as sum and product and the operations on the matrices Σ S and Σ D.

音響モデルの分散Σn,mを補正するのに、音声特徴量の分散を用いる。式(9)に示すように音声特徴量の分散eとΣn,mを引数として特徴量分散を出力する関数fを求めればよい。

Figure 2009145499
In order to correct the variance Σ n, m of the acoustic model, the variance of the speech feature value is used. As shown in the equation (9), a function f that outputs the variance of the feature quantity with the voice feature quantity variance et and Σ n, m as arguments may be obtained.
Figure 2009145499

背景技術で述べた音声特徴量の分散Σxt^をそのまま音響モデルの分散に足す場合、つまり、Σn、m+Σxt^(式(5))ではΣxt^を正確に推定しないと十分な性能を得ることができない。また、この方法では、音声強調手法が限定されてしまう。そこで、この発明では式(10)に示すように、音響モデル分散を音声特徴量の各フレームtでの不確かさに依存する動的成分行列Σ(e)と、音声特徴量の各フレームtでの不確かさに依存しない静的成分行列Σの組み合わせとして表現する。ただし、不確かさeとしてスカラーやベクトル値や行列値をとってもよい。スカラー値の不確かさとしては、音声強調や音声区間検出(VAD)などの音声前処理時に出力されるバイナリー値や信頼度、また音声認識を行うことによって算出される信頼度等が考えられる。また、スカラー値の不確かさを各特徴次元毎に算出することによりベクトル型の不確かさを計算することも可能である。また、共分散行列や自己相関行列から行列型の不確かさを計算することも可能である。

Figure 2009145499
When the variance Σ xt ^ of the speech feature described in the background art is added to the variance of the acoustic model as it is, that is, it is sufficient if Σ xt ^ is not estimated accurately in Σ n, m + Σ xt ^ (formula (5)). Unable to get performance. In addition, this method limits the speech enhancement technique. Therefore, in the present invention, as shown in the equation (10), the dynamic component matrix Σ D (e t ) whose acoustic model variance depends on the uncertainty of each speech feature amount in each frame t, and each speech feature amount frame It is expressed as a combination of static component matrices Σ S that do not depend on the uncertainty at t. However, it takes the scalar or vector values and matrix values as uncertainty e t. As the uncertainty of the scalar value, the binary value and reliability output during speech preprocessing such as speech enhancement and speech interval detection (VAD), the reliability calculated by performing speech recognition, and the like can be considered. It is also possible to calculate vector type uncertainty by calculating the uncertainty of the scalar value for each feature dimension. It is also possible to calculate a matrix type uncertainty from a covariance matrix or an autocorrelation matrix.
Figure 2009145499

また、あるフレームtでの音響モデルの分散Σ′n、m、tを推定するためには、音声特徴量の不確かさeのみならず、フレームtを含めた音声特徴量の不確かさeの集合、音声特徴集合x^、及び音響モデルΨの情報も有用である。したがって、これらを用いて、音響モデル特徴量分散を式(11)に示すように表現する。

Figure 2009145499
Further, in order to estimate the variance sigma 'n, m, t for the acoustic model of a certain frame t is not only uncertainty e t of the audio feature, the uncertainty e of speech features, including frame t Information about the set, the speech feature set x t ^, and the acoustic model Ψ is also useful. Therefore, using these, the acoustic model feature amount variance is expressed as shown in Expression (11).
Figure 2009145499

音響モデル特徴量分散Σ′n、m、tは、強調音声特徴量の集合、例えばtを含みt′からt′′までの有限区間としてx^={xt’^…x^…xt’’^}、強調音声特徴量の不確かさの集合、例えばe={et’…e…et’’}といったデータ集合に依存するため、学習によって精度良く求めることができる。
式(11)の適切な関数系を示す。一般に関数系が複雑であればあるほど大量の学習データと長い学習時間が必要となるが、精度良く関数系を学習することができる。逆に、関数系をシンプルにすればするほど少量の学習データと短い学習時間で関数系を学習することができるが、その精度は一般的に複雑な関数系に比べて低くなる。従って、以降に示す関数系に関しては、学習データ量や学習時間等の応用上の条件に応じて適切に選択すればよい。以降では、学習によるパラメータの推定が前提となるため、簡単のためにe、x等の引数は省略する。式(11)の2項演算(+)の単純形として、式(12)に示す積表現と式(13)に示す和表現とが考えられる。

Figure 2009145499
The acoustic model feature quantity variance Σ ′ n, m, t is a set of emphasized speech feature quantities, for example, as a finite section from t ′ to t ″ including t x = {x t ′ ^ ... x t ^ ... x Since it depends on t ″ ^}, a set of uncertainties of the emphasized speech feature quantity, for example, e = {e t ′ ... e t ... e t ″ }, it can be accurately obtained by learning.
An appropriate function system of equation (11) is shown. In general, the more complicated the function system, the larger the amount of learning data and the longer the learning time are required, but the function system can be learned with high accuracy. Conversely, the simpler the function system is, the more the function system can be learned with a small amount of learning data and a short learning time, but the accuracy is generally lower than that of a complex function system. Therefore, the function system described below may be appropriately selected according to application conditions such as the learning data amount and the learning time. In the following, since parameter estimation by learning is assumed, arguments such as e and x are omitted for simplicity. As a simple form of the binary operation (+) of Expression (11), a product expression shown in Expression (12) and a sum expression shown in Expression (13) can be considered.
Figure 2009145499

式(13)の分散の和表現は、式(5)との類推から考えて、理論的・実用的に妥当な表現といえる。従って、以降では和表現で説明する。   The sum expression of the variance in equation (13) can be said to be a theoretically and practically appropriate expression in view of analogy with equation (5). Therefore, hereinafter, the description will be made in the Japanese expression.

Σが音響モデルの分散に依存すると仮定すると、式(14)で表わせる音響モデルの特徴量分散Σ′n、m、tは、式(14)で表わせる。

Figure 2009145499
When sigma S is assumed to depend on the distribution of acoustic models, the feature variance sigma 'n, m, t of expressed acoustic model in equation (14) can be expressed by equation (14).
Figure 2009145499

ここでΣ、Σの関数系として任意の関数、例えば行列の多項式等を与える。その最も簡単な形として式(15)と式(16)で表わせる。

Figure 2009145499
これは特徴量が線形変換された場合の分散の変換式である。
ここでA,B,C,Dは、特徴量次元の正方行列であり、他の部分のA〜Dとは異なる変数である。行列は任意の形でよい(対称、ブロック、帯、スカラー倍の単位行列)。以降では、分散のバイアス項の影響を無視し(B=0,D=0)、AとCの対角行列に対しての表現で説明する。AとCのi行i列の対角成分を√λと√αと表わすと、音響モデルの特徴量分散Σ′n、m、tの対角成分は式(17)で表わせる。つまり、音響モデルの分散をパラメトリック表現することができる。
Figure 2009145499
Here, an arbitrary function such as a matrix polynomial is given as a function system of Σ S and Σ D. As its simplest form, it can be expressed by equations (15) and (16).
Figure 2009145499
This is a dispersion conversion formula when the feature amount is linearly converted.
Here, A, B, C, and D are square matrices of the feature quantity dimension, and are variables different from other parts A to D. The matrix can be in any form (symmetric, block, band, scalar multiple unit matrix). Hereinafter, the influence of the bias term of the dispersion is ignored (B = 0, D = 0), and the description will be made with the expression for the diagonal matrix of A and C. When the diagonal elements of the i-th row i column of A and C represent the √Ramuda i and √Arufa i, diagonal elements of the feature quantity distributed Σ 'n, m, t for the acoustic model can be expressed by Equation (17). That is, the variance of the acoustic model can be expressed parametrically.
Figure 2009145499

ここで、σn,m,i は状態n、混合成分mでの音響モデル中のガウス分布の共分散行列の対角(i×i)成分である。このとき、学習により推定すべきパラメータはαとλとなる。ここで注目したいのは、α=0とすると従来からある静的分散補正法となる。また、α=const,λ=1とすると従来の動的分散補正法となることである。つまりこの発明の方法は、従来の両手法を内包する手法であるといえる。以上説明した考えに基づくこの発明の音声パラメータ学習装置の実施例を次に説明する。 Here, σ n, m, i 2 is a diagonal (i × i) component of the covariance matrix of the Gaussian distribution in the acoustic model in the state n and the mixed component m. At this time, the parameters to be estimated by learning are α and λ. It should be noted here that when α = 0, the conventional static dispersion correction method is used. Further, when α = const, λ i = 1, it is a conventional dynamic dispersion correction method. That is, it can be said that the method of the present invention is a method including both conventional methods. Next, an embodiment of the speech parameter learning apparatus of the present invention based on the above-described idea will be described.

図1にこの発明の音声パラメータ学習装置の実施例1の概略的な機能構成例を示す。音声パラメータ学習装置100は、適応用音声前処理部2と、音響モデル記憶部4と、適応パラメータ生成部6と、認識用音声前処理部8と、分散動的補正部10を具備する。その動作フローを図2に示す。この例の音声パラメータ学習装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。   FIG. 1 shows a schematic functional configuration example of the speech parameter learning apparatus according to the first embodiment of the present invention. The speech parameter learning apparatus 100 includes an adaptive speech preprocessing unit 2, an acoustic model storage unit 4, an adaptive parameter generation unit 6, a recognition speech preprocessing unit 8, and a distributed dynamic correction unit 10. The operation flow is shown in FIG. The speech parameter learning apparatus 100 of this example is realized by reading a predetermined program into a computer composed of, for example, a ROM, a RAM, a CPU, and the like, and executing the program by the CPU.

音声パラメータ学習装置100は、上記したパラメータのαとλを推定するものである。適応用音声前処理部2と認識用音声前処理部8とに入力される観測音声信号は、例えば、サンプリング周波数=8kHz、量子化ビット数=16bitの離散値である。適応用音声前処理部2と認識用音声前処理部8は、この離散値を例えば240点まとめて1フレームとして処理を行なう。   The speech parameter learning device 100 estimates α and λ of the parameters described above. The observed speech signal input to the adaptive speech preprocessing unit 2 and the recognition speech preprocessing unit 8 is, for example, a discrete value with a sampling frequency = 8 kHz and a quantization bit number = 16 bits. The adaptation speech pre-processing unit 2 and the recognition speech pre-processing unit 8 process the discrete values, for example, 240 points as one frame.

適応用音声前処理部2は、観測音声信号o(t)のフレーム毎の音声特徴を強調した強調音声特徴量の集合{xt’^,…, x^,…, xt’’^}と、強調音声特徴量のバラツキを表わす不確かさの集合{et’,…, e,…, et’’}とを生成する(ステップS2、図2)。適応パラメータ生成部6は、強調音声特徴量の集合{xt’^,…, x^,…, xt’’^}と、強調音声特徴量のバラツキを表わす不確かさの集合{et’,…, e,…, et’’}と、音響モデル記憶部4に記憶された音響モデルと、教師信号を入力とし、音響モデル中のガウス分布の補正のための適応パラメータを生成する(ステップS6)。適応パラメータ生成過程は、フレームに依存しない静的分散適応パラメータλを生成する静的分散適応過程(ステップS62)と、フレームに依存する動的分散適応パラメータαを生成する動的分散過程(ステップS66)の2つの過程から成る。両過程の順序はどちらが先でもかまわない。 The adaptive speech preprocessing unit 2 sets a set of emphasized speech feature values { xt ′ ^,..., Xt ^, ..., xt '' ^ that emphasizes the speech characteristics of each frame of the observed speech signal o (t). } And a set of uncertainties {e t ′ ,..., E t ,..., E t ″ } representing variations in the emphasized speech feature value (step S2, FIG. 2). The adaptive parameter generation unit 6 includes a set of emphasized speech feature values {x t ′ ^,..., X t ^,..., X t ″ ^} and a set of uncertainties representing variations in the emphasized speech feature values {e t ' , ..., et , ..., et " }, and the acoustic model stored in the acoustic model storage unit 4 and the teacher signal are used as input to generate adaptive parameters for correcting the Gaussian distribution in the acoustic model. (Step S6). The adaptive parameter generation process includes a static distributed adaptation process (step S62) that generates a static distributed adaptive parameter λ that does not depend on a frame (step S62), and a dynamic distributed process that generates a dynamic distributed adaptive parameter α that depends on a frame (step S66). 2). The order of both processes may be either.

認識用音声前処理部8は、観測音声信号o(t)のフレーム毎の音声特徴量x^と、その音声特徴量のバラツキを表わす不確かさeを生成する(ステップS8)。なお、この例の認識用音声前処理部8は、適応用音声前処理部2と同じ処理を行なう。分散動的補正部10は、適応パラメータαとλと、不確かさeと、音響モデル記憶部4に記憶された音響モデルとを入力とし、フレーム毎に音響モデルのガウス分布の分散Σn,mを、適応パラメータαとλで補正した分散Σ′n,m,tを出力する(ステップS10)。 Recognition voice pre-processing unit 8, the observed speech signals audio feature amount of each frame of o (t) x t ^, generates an uncertainty e t representing the variation of the audio feature amount (step S8). Note that the recognition speech preprocessing unit 8 in this example performs the same processing as the adaptive speech preprocessing unit 2. Distributed dynamic correction unit 10, the adaptive parameter α and λ and uncertainty e t and, as input an acoustic model stored in the acoustic model storage unit 4, the dispersion sigma n of the Gaussian distribution of the acoustic model for each frame, The variance Σ ′ n, m, t obtained by correcting m with the adaptive parameters α and λ is output (step S10).

適応用音声前処理部2と、適応パラメータ生成部6と、分散動的補正部10は、適応パラメータ学習部を構成する。ここで、パラメトリック表現された音響モデルの分散パラメータの学習について説明する。
一般に、学習においては教師信号が必要となる。教師信号(以降、ラベルと称する。)としては、各フレームにおけるラベル情報が必要になる。ラベルは単語情報や音素情報、HMM状態情報等がある。観測音声信号に予めラベルがふられている場合は、それをそのまま利用する。または、例えば、図示しない音声認識器もしくは音声区間検出器等を用いてラベルを付与すればよい。
The adaptive speech preprocessing unit 2, the adaptive parameter generation unit 6, and the distributed dynamic correction unit 10 constitute an adaptive parameter learning unit. Here, the learning of the dispersion parameter of the acoustic model expressed in the parametric manner will be described.
In general, a teacher signal is required for learning. As the teacher signal (hereinafter referred to as a label), label information in each frame is required. The label includes word information, phoneme information, HMM state information, and the like. If the observation audio signal is pre-labeled, it is used as it is. Alternatively, for example, a label may be given using a voice recognizer or a voice section detector (not shown).

学習というのは、音声データやラベルなどを利用して、音響モデルのパラメータを生成する方法であって、学習の出力は新しい音響モデルである。音声認識装置は、その音響モデルを用いて音声認識を行う。この例では、動的補正のために適応を利用する。適応も音声データやラベル等を利用してパラメータを生成するが、学習と違いその出力は適応パラメータである。適応パラメータ生成部6は、静的分散適応手段62と、動的分散適応手段66とから成り、強調音声特徴量の集合と、強調音声特徴量の不確かさの集合と、ラベルと、音響モデルを入力として式(17)に示したα、λのような分散補正のための適応パラメータを算出する。   Learning is a method of generating acoustic model parameters using speech data, labels, and the like, and the output of learning is a new acoustic model. The speech recognition apparatus performs speech recognition using the acoustic model. In this example, adaptation is used for dynamic correction. In adaptation, parameters are generated using speech data, labels, and the like. Unlike learning, the output is an adaptation parameter. The adaptive parameter generation unit 6 includes a static variance adaptation unit 62 and a dynamic variance adaptation unit 66, and includes a set of emphasized speech feature amounts, a set of uncertainties of the emphasized speech feature amounts, a label, and an acoustic model. As an input, adaptive parameters for dispersion correction such as α and λ shown in Expression (17) are calculated.

学習の規範としては、例えば尤度最大化を採用する。最尤学習は、音響モデル記憶部4に記憶された音響モデルが、学習データを出力する際の尤度を最大化するようパラメータを学習する規範である。また、他の学習法として、事後確率の最大化を規範とするベイズ学習でもよい。ただし、その場合は、各パラメータに適切な共役分布や無情報事前分布を事前分布として設定する必要がある。他にも、音声認識率などの識別基準を利用した識別学習などが上げられる。このような規範を用いると、パラメータを引数とするコスト関数を導出することができる。   As a learning standard, for example, likelihood maximization is adopted. Maximum likelihood learning is a norm for learning parameters so that the acoustic model stored in the acoustic model storage unit 4 maximizes the likelihood of outputting learning data. As another learning method, Bayesian learning based on maximization of the posterior probability may be used. However, in that case, it is necessary to set an appropriate conjugate distribution or no information prior distribution for each parameter as the prior distribution. In addition, identification learning using identification criteria such as a speech recognition rate can be raised. By using such a criterion, a cost function having parameters as arguments can be derived.

上記学習規範から求められたコスト関数を最適化するパラメータを推定する。最適化手法としては、最急降下法などの数値計算、ニューラルネットワーク、マルコフチェインモンテカルロなどのサンプリング法、遺伝的アルゴリズム等が考えられる。この実施例では、期待値最大化(EM)アルゴリズムを用いた例で説明する。   A parameter for optimizing the cost function obtained from the learning criterion is estimated. As an optimization method, numerical calculation such as a steepest descent method, a neural network, a sampling method such as Markov chain Monte Carlo, a genetic algorithm, and the like can be considered. In this embodiment, an example using an expected value maximization (EM) algorithm will be described.

EMアルゴリズムは、直接尤度を最大にするのではなく、式(18)で定義される補助関数Q(θ|θ’)を最大化するパラメータを求める手法である。

Figure 2009145499
The EM algorithm is a method for obtaining a parameter that maximizes the auxiliary function Q (θ | θ ′) defined by the equation (18), not directly maximizing the likelihood.
Figure 2009145499

θは分散補正のためのパラメータ集合であり、具体的にはαとλである。Xはクリーン音声特徴量の系列、Tはフレーム数、θ′は各反復計算における一つ前の推定値、θは各反復計算における推定対象のパラメータである。   θ is a parameter set for dispersion correction, and specifically, α and λ. X is a sequence of clean speech feature values, T is the number of frames, θ ′ is the previous estimated value in each iteration, and θ is a parameter to be estimated in each iteration.

補助関数Q(θ|θ’)と尤度の増減関係は一致するため、式(18)を最大化するθは局所最適解となる。ここでBは差分特徴量の系列、SはHMM状態のあらゆる系列の集合、Cは混合成分のあらゆる系列の集合、NはHMM状態数を表わす。補助関数Q(θ|θ’)は、従来のstochastic matching法の補助関数と類似しているが、式(18)の4段目の差分ベクトルbの出力分布の対数項、つまり動的補正項の存在がその違いとなる。 Since the auxiliary function Q (θ | θ ′) matches the increase / decrease relationship in likelihood, θ that maximizes Equation (18) is a local optimal solution. Here, B is a sequence of differential feature values, S is a set of all sequences of HMM states, C is a set of all sequences of mixed components, and N is the number of HMM states. The auxiliary function Q (θ | θ ′) is similar to the auxiliary function of the conventional stochastic matching method, but the logarithm term of the output distribution of the fourth-stage difference vector b t in equation (18), that is, dynamic correction. The existence of a term is the difference.

期待値ステップ(E-step)においては、フォワード・バックワードアルゴリズムやビタービアルゴリズムなどの隠れ変数に対するデータ割り当て手法を用いて、各フレーム毎の状態系列、混合成分系列に割り当てられた占有事後確率値を計算し、その値を元に1次統計量などの諸々の統計量を期待値計算により求める。   In the expected value step (E-step), the occupancy posterior probability value assigned to the state series and mixed component series for each frame using a data allocation method for hidden variables such as the forward / backward algorithm and the Viterbi algorithm Based on this value, various statistics such as a primary statistic are obtained by calculating the expected value.

最大化ステップ(M-step)では、E-stepで得られた統計量を元に式(18)を最大化する式(19)に示すパラメータθ^を求める。

Figure 2009145499
In the maximization step (M-step), the parameter θ ^ shown in the equation (19) that maximizes the equation (18) is obtained based on the statistic obtained in the E-step.
Figure 2009145499

適応パラメータαとλは、相互に依存しており、それぞれを同時に最適化することは難しい。そこで適応パラメータ生成部6は、静的分散パラメータλと、動的分散パラメータαとを分けて推定する。適応用音声前処理部2と適応パラメータ生成部6のより具体的な機能構成例を図3に示して、音声パラメータ学習装置100を更に詳細に説明する。動作フローを図4に示す。   The adaptation parameters α and λ are mutually dependent, and it is difficult to optimize each of them simultaneously. Therefore, the adaptive parameter generation unit 6 estimates the static dispersion parameter λ and the dynamic dispersion parameter α separately. A more specific functional configuration example of the adaptive speech preprocessing unit 2 and the adaptive parameter generation unit 6 is shown in FIG. 3, and the speech parameter learning device 100 will be described in more detail. The operation flow is shown in FIG.

適応用音声前処理部2は、音声強調部20と、特徴量算出部21と、強調音声特徴量算出部22と、不確かさ算出部23とを備える。音声強調部20は、入力される観測音声信号o(t)のフレーム毎の音声特徴を強調した強調音声信号o^(t)を生成する(ステップS2a)。特徴量算出部21は、観測音声信号o(t)のフレーム毎の特徴量uを算出する(ステップS2b)。強調音声特徴量算出部22は、強調音声信号の音声特徴x^を強調音声特徴量の集合{xt’^,…, x^,…, xt’’^}として算出する(ステップS2c)。不確かさ算出部23は、フレーム毎の強調音声特徴量x^と観測音声信号o(t)の特徴量uを入力として、強調音声特徴量のバラツキを表わす不確かさe=(x^−uを算出し、その集合、例えば{et’,…, e,…, et’’}を出力する(ステップS2d)。それぞれの集合は、適応パラメータ生成部6に入力される。 The adaptive speech preprocessing unit 2 includes a speech enhancement unit 20, a feature amount calculation unit 21, an enhanced speech feature amount calculation unit 22, and an uncertainty calculation unit 23. The speech enhancement unit 20 generates an enhanced speech signal o ^ (t) in which speech features for each frame of the input observed speech signal o (t) are enhanced (step S2a). The feature amount calculation unit 21 calculates the feature amount u t for each frame of the observed audio signal o (t) (step S2b). The emphasized speech feature amount calculation unit 22 calculates the speech feature x t ^ of the enhanced speech signal as a set of emphasized speech feature amounts {x t ' ^, ..., x t ^, ..., x t'' ^} (step S2c). The uncertainty calculation unit 23 receives the emphasized speech feature quantity x t ^ for each frame and the feature quantity u t of the observed speech signal o (t), and inputs an uncertainty e t = (x t ^ -u t) is calculated 2, the set, for example, {e t ', ..., e t, ..., e t''} outputs the (step S2d). Each set is input to the adaptive parameter generation unit 6.

適応パラメータ生成部6は、占有確率算出部64と、クリーンスピーチ分散算出部62aと、スケーリング因子λ算出部62bと、差分2乗値算出部66aと、スケーリング因子α算出部66bとを備える。   The adaptive parameter generation unit 6 includes an occupation probability calculation unit 64, a clean speech variance calculation unit 62a, a scaling factor λ calculation unit 62b, a difference square value calculation unit 66a, and a scaling factor α calculation unit 66b.

占有確率算出部64には、強調音声特徴量の集合{xt’^,…, x^,…, xt’’^}と、不確かさの集合{et’,…, e,…, et’’}と、ラベルと、音響モデル記憶部4内の音響モデルとが入力され、HMM状態n、混合成分mの占有確率γ(n,m)を算出する(ステップS60)。この占有確率γ(n,m)は、EMアルゴリズムのE-stepにおいてフォワード・バックワードアルゴリズムやビタービアルゴリズムなどのデータ割り当て手法によって計算することが可能である。 The occupancy probability calculation unit 64, a set of enhancement audio feature {x t '^, ..., x t ^, ..., x t''^} and a set of uncertainty {e t', ..., e t, .., E t ″ }, the label, and the acoustic model in the acoustic model storage unit 4 are input, and the occupancy probability γ t (n, m) of the HMM state n and the mixed component m is calculated (step S60). . This occupation probability γ t (n, m) can be calculated by a data allocation method such as a forward / backward algorithm or a Viterbi algorithm in the E-step of the EM algorithm.

クリーンスピーチ分散算出部62aは、強調音声特徴量の集合{xt’^,…, x^,…, xt’’^}と、不確かさの集合{et’,…, e,…, et’’}と、音響モデル記憶部4内の音響モデルとを入力として、クリーンスピーチの分散の推定値A{xt,i,x^,n,m,Ψ,α’,λ’}を算出する。 The clean speech variance calculation unit 62a includes a set of emphasized speech feature values {x t ′ ^,..., X t ^, ..., x t ″ ^} and a set of uncertainties {e t ′ ,..., Et , .., E t ″ } and the acoustic model in the acoustic model storage unit 4 as inputs, and an estimated value A {x t, i , x t ^, n, m, Ψ, α ′, λ ′} is calculated.

スケーリング因子λ算出部62bは、クリーンスピーチの分散の推定値A{xt,i,x^,n,m,Ψ,α’,λ’}と占有確率γ(n,m)を入力として、α=constのとき、各特長量次元iにおけるスケーリング因子λを、EMアルゴリズムのM-stepにおいて式(20)に示すように更新する(ステップS62)。

Figure 2009145499
ここで、
Figure 2009145499
クリーンスピーチ分散算出部62aと、スケーリング因子λ算出部62bとで静的分散適応手段62を構成する。 The scaling factor λ calculation unit 62b receives the estimated value A { xt, i , xt ^, n, m, Ψ, α ′, λ ′} of the clean speech and the occupation probability γ t (n, m). as, alpha = time const, the scaling factor lambda i of each feature quantity dimension i, and updates the M-step of the EM algorithm as shown in equation (20) (step S62).
Figure 2009145499
here,
Figure 2009145499
The clean speech variance calculation unit 62a and the scaling factor λ calculation unit 62b constitute a static variance adaptation means 62.

差分2乗値算出部66aは、強調音声特徴量の集合{xt’^,…, x^,…, xt’’^}と、不確かさの集合{et’,…, e,…, et’’}と、音響モデル記憶部4内の音響モデルとを入力として、音声特徴量x^と、クリーン音声特徴xとの差分b の期待値E{b t,i|x^,n,m,Ψ,α’,λ’}を算出する。 The difference square value calculation unit 66a includes a set of emphasized speech feature values { xt ' ^, ..., xt ^, ..., xt " ^} and a set of uncertainties { et' , ..., et. ,..., E t ″ } and the acoustic model in the acoustic model storage unit 4 as inputs, and the expected value E {b 2 of the difference b t 2 between the speech feature amount x t ^ and the clean speech feature x t. t, i | x t ^, n, m, Ψ, α ′, λ ′} is calculated.

スケーリング因子α算出部66bは、λ=constのとき各特長量次元iにおけるスケーリング因子αを、式(23)に示すように更新する(ステップS66)。式(23)は、λ=constのとき、式(17)と式(2)を式(18)に代入し、αに関して最大化することで得られる。

Figure 2009145499
ここで
Figure 2009145499
The scaling factor α calculation unit 66b updates the scaling factor α i in each feature dimension i as shown in Expression (23) when λ = const (step S66). Equation (23) is obtained by substituting Equation (17) and Equation (2) into Equation (18) and maximizing α i when λ = const.
Figure 2009145499
here
Figure 2009145499

式(23)からスケーリング因子αは、差分ベクトルの2乗の期待値と不確かさet,iとの比を、全学習データ、全HMM状態、全混合成分に渡って期待値を取ったものであると解釈することができる。差分2乗値算出部66aとスケーリング因子α算出部66bとで動的分散適応手段66を構成する。 From equation (23), the scaling factor α i takes the ratio between the expected value of the square of the difference vector and the uncertainty et , i over all learning data, all HMM states, and all mixture components. Can be interpreted. The difference square value calculation unit 66a and the scaling factor α calculation unit 66b constitute a dynamic dispersion adaptation unit 66.

分散動的補正部10は、スケーリング因子αとλと、音響モデル記憶部4に記憶された音響モデルと、認識用音声前処理部8から入力されるフレーム毎の不確かさeを入力として、補正した音響モデルのガウス分布の分散Σ′n,m,tを出力する。例えばΣ′n,m,tが対角行列の場合、各対角成分は式(26)で計算できる。

Figure 2009145499
The distributed dynamic correction unit 10 receives the scaling factors α i and λ i , the acoustic model stored in the acoustic model storage unit 4, and the uncertainty e t for each frame input from the recognition speech preprocessing unit 8. As a result, Gaussian distribution Σ ′ n, m, t of the corrected acoustic model is output. For example, when Σ ′ n, m, t is a diagonal matrix, each diagonal component can be calculated by Expression (26).
Figure 2009145499

〔応用例〕
上記説明した音声モデルパラメータ学習装置100を用いて音声認識装置150を構成することができる。図5に音声認識装置150の機能構成例を示す。動作フローを図6に示す。音声認識装置150は、背景技術を説明した従来の音声認識装置200の音声前処理部90と、音響モデル記憶部92と、分散動的補正部94とを、音声パラメータ学習装置100に置き換えたものである。他の構成は、音声認識装置200と同じである。音声パラメータ学習装置100は、フレーム毎に上記した説明済みの動作を行い観測音声信号のフレーム毎の音声特徴量x^と、適応パラメータで補正された音響モデルのガウス分布の分散Σ′n,m,tと、音響モデルの平均パラメータμn,mとを出力する(ステップS10、図6)。認識部74は、説明済みの音声認識装置200と同様の動作により、適応パラメータで補正された音響モデルのガウス分布の分散Σ′n,m,tを用いて単語列Wを出力する(ステップS97)。つまり、音声認識装置150は、特定の音声強調手法に依存することなく、音声の歪みを抑圧した音声認識を実現することができる。また、後述するように高い認識性能を持った音声認識装置とすることができる。
[Application example]
The speech recognition device 150 can be configured using the speech model parameter learning device 100 described above. FIG. 5 shows a functional configuration example of the speech recognition apparatus 150. The operation flow is shown in FIG. The speech recognition device 150 is obtained by replacing the speech pre-processing unit 90, the acoustic model storage unit 92, and the distributed dynamic correction unit 94 of the conventional speech recognition device 200 described in the background art with a speech parameter learning device 100. It is. Other configurations are the same as those of the speech recognition apparatus 200. The speech parameter learning device 100 performs the above-described operation for each frame, and the speech feature amount x t ^ for each frame of the observed speech signal and the variance Σ ′ n, of the Gaussian distribution of the acoustic model corrected by the adaptive parameter m and t and the average parameter μ n, m of the acoustic model are output (step S10, FIG. 6). The recognizing unit 74 outputs the word string W using the variance Σ ′ n, m, t of the Gaussian distribution of the acoustic model corrected with the adaptive parameter by the same operation as the speech recognition apparatus 200 already described (step S97). ). That is, the speech recognition apparatus 150 can realize speech recognition with suppressed speech distortion without depending on a specific speech enhancement method. Further, as will be described later, a speech recognition device having high recognition performance can be obtained.

なお、音声特徴量x^と、適応パラメータで補正された音響モデルのガウス分布の分散Σ′n,m,tと、平均パラメータμn,mとがフレーム毎に出力されるので、音声認識用音響モデル記憶部96を設けなくてもよい。 Note that since the speech feature amount x t ^, the variance Σ ′ n, m, t of the Gaussian distribution of the acoustic model corrected with the adaptive parameter, and the average parameter μ n, m are output for each frame, speech recognition is performed. The acoustic model storage unit 96 may not be provided.

〔シミュレーション結果〕
この発明の音声パラメータ学習装置を用いた音声認識装置の単語誤り率(WER:Word Error Rate)を評価した。音声強調手法には、近年提案されたブラインド残響除去法を用いた。音声認識タスクとして、TI-Digit連続数字認識タスクを用いた。音響モデルは単語モデルを採用し、クリーン音声を用いて1単語当たり16状態、1状態当たり3ガウス分布の不特定話者音響モデルを構築した。サンプリング周波数は8kHz、音声特徴量に12次元のMFCCと0次のケプストラム及びそれらの差分成分と加速度成分を利用することにより39次元の特徴量ベクトルを10ms毎に用いた。なお、音声特徴量にCMN(Cepstral Mean Normalization)をかけた。
〔simulation result〕
The word error rate (WER) of the speech recognition device using the speech parameter learning device of the present invention was evaluated. The recently proposed blind dereverberation method was used for speech enhancement. TI-Digit continuous digit recognition task was used as a speech recognition task. As the acoustic model, a word model was adopted, and an unspecified speaker acoustic model having 16 states per word and 3 Gauss distribution per state was constructed using clean speech. A sampling frequency was 8 kHz, and a 39-dimensional feature vector was used every 10 ms by using a 12-dimensional MFCC, a zeroth-order cepstrum, and their differential components and acceleration components as speech feature values. Note that CMN (Cepstral Mean Normalization) was applied to the voice feature amount.

残響音声は、クリーン音声に対し部屋の伝達特性を畳み込むことによって生成した。残響時間が0.5秒の部屋で測定した伝達関数を利用した。クリーン音声はTI−Digitクリーンセットを利用した。テストデータには104人の男性と女性話者で話された561発話を利用した。発話の平均長は6秒である。   Reverberation sound was generated by convolving room transfer characteristics with clean sound. A transfer function measured in a room with a reverberation time of 0.5 seconds was used. The clean voice used the TI-Digit clean set. As test data, 561 utterances spoken by 104 male and female speakers were used. The average length of utterance is 6 seconds.

単語誤り率で評価した認識結果を図7に示す。クリーン音声、残響音声、残響除去音声、分散動的補正(適応無し)と、分散動的補正(オラクル)での単語誤り率を比較した。ここでオラクルとは、分散動的補正において必要な特徴量分散を、クリーン音声と残響除去後音声のそれぞれの特徴量から算出した理想的な値である。図7に示すように残響除去を行うことにより若干単語誤り率は改善されるが、クリーン音声の認識結果と比べて大きな開きがあることが分かる。一方、従来の分散動的補正を用いると認識性能を大きく改善することができるが、オラクルの値と比べて依然として大きな開きがある。この発明の目標は、このオラクル値に認識性能を近づけることである。   FIG. 7 shows the recognition result evaluated by the word error rate. We compared the word error rates of clean speech, reverberation speech, dereverberation speech, distributed dynamic correction (no adaptation), and distributed dynamic correction (Oracle). Here, the oracle is an ideal value calculated from the feature amounts of the clean speech and the dereverberated speech for the feature amount dispersion necessary for the distributed dynamic correction. As shown in FIG. 7, the word error rate is slightly improved by performing dereverberation, but it can be seen that there is a large gap compared to the clean speech recognition result. On the other hand, the recognition performance can be greatly improved by using the conventional distributed dynamic correction, but there is still a big difference compared with the value of Oracle. The goal of this invention is to bring the recognition performance closer to this Oracle value.

不特定話者の適応データを利用することで、話者に適応させるのではなく、音声強調されたデータに適応させることが可能になる。適応データは、テストデータと同じ話者によって話された520発話を利用する。発話数の影響を検討するため適応データからランダムに2〜512発話を抜き出し、その適応データを用いて適応を行った。図8に静的分散適応(SVA)と、動的分散適応(DVA)と、この発明の方法であるSDVAによる単語誤り率を示す。横軸は発話数、縦軸は単語誤り率(WER)である。2発話程度の少量発話で認識性能が十分収束するのが分かる。また、静的分散適用の利用によって、単語誤り率は31%(図7)から15.2%に改善する。動的分散適用の利用によっても15.5%程度に改善される。この発明の動的分散適用と静的分散適用とを同時に行うSDVAによれば、更に単語誤り率を2%程度改善することができる。結果として図7に示した残響除去後音声(31.0%)に比べて誤り率を約半分以下にすることができた。また、更なる認識率の改善を目的に、この発明の分散適応方法とMLLR(Maximum Likelihood Linear Regression)による平均パラメータの適応の組み合わせについて検討したところ、単語誤り率5%の結果を得た。5%の単語誤り率は、クリーン音声の認識率(1.2%)に近い値である。このようにこの発明による音声パラメータ学習装置を用いることで、単語誤り率を改善することができる。   By using the adaptation data of the unspecified speaker, it is possible to adapt to the data emphasized by speech, not to the speaker. The adaptation data uses 520 utterances spoken by the same speaker as the test data. In order to examine the influence of the number of utterances, 2 to 512 utterances were randomly extracted from the adaptation data, and adaptation was performed using the adaptation data. FIG. 8 shows the word error rate by static distributed adaptation (SVA), dynamic distributed adaptation (DVA), and SDVA which is the method of the present invention. The horizontal axis is the number of utterances, and the vertical axis is the word error rate (WER). It can be seen that the recognition performance converges sufficiently with a small amount of utterances of about two utterances. Also, the use of static distributed application improves the word error rate from 31% (FIG. 7) to 15.2%. Even with the use of dynamic distributed application, it is improved to about 15.5%. According to the SDVA that simultaneously performs dynamic distribution application and static distribution application of the present invention, the word error rate can be further improved by about 2%. As a result, the error rate could be reduced to about half or less compared to the speech after dereverberation (31.0%) shown in FIG. Further, for the purpose of further improving the recognition rate, the combination of the distributed adaptation method of the present invention and the adaptation of average parameters by MLLR (Maximum Likelihood Linear Regression) was examined, and a result with a word error rate of 5% was obtained. The word error rate of 5% is close to the clean speech recognition rate (1.2%). Thus, the word error rate can be improved by using the speech parameter learning apparatus according to the present invention.

なお、以上説明した適応手法は分散パラメータに注目したものであるが、平均パラメータや状態遷移率、混合重み因子といった他のパラメータに対応する適応手法と組み合わせることもできる。   The adaptive method described above focuses on the dispersion parameter, but can be combined with an adaptive method corresponding to other parameters such as an average parameter, a state transition rate, and a mixing weight factor.

また、この発明の装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。   Moreover, the apparatus and method of this invention are not limited to the above-mentioned embodiment, It can change suitably in the range which does not deviate from the meaning of this invention. Further, the processes described in the above apparatus and method are not only executed in time series according to the order of description, but also may be executed in parallel or individually as required by the processing capability of the apparatus that executes the process. Good.

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。   Further, when the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.

この発明の音声パラメータ学習装置100の機能構成例を示す図。The figure which shows the function structural example of the speech parameter learning apparatus 100 of this invention. 音声パラメータ学習装置100の動作フローを示す図。The figure which shows the operation | movement flow of the speech parameter learning apparatus 100. 適応用音声前処理部2と適応パラメータ生成部6のより具体的な機能構成例を示す図。The figure which shows the more concrete function structural example of the audio | voice pre-processing part 2 for adaptation, and the adaptive parameter generation part 6. 図3の動作フローを示す図。The figure which shows the operation | movement flow of FIG. 音声パラメータ学習装置100を用いた音声認識装置150の機能構成例を示す図。The figure which shows the function structural example of the speech recognition apparatus 150 using the speech parameter learning apparatus 100. FIG. 音声認識装置150の動作フローを示す図。The figure which shows the operation | movement flow of the speech recognition apparatus 150. 単語誤り率で評価した認識結果を示す図。The figure which shows the recognition result evaluated by the word error rate. 静的分散適応(SVA)と、動的分散適応(DVA)と、この発明の方法であるSDVAによる単語誤り率を示す図。The figure which shows the word error rate by static dispersion | distribution adaptation (SVA), dynamic dispersion | distribution adaptation (DVA), and SDVA which is the method of this invention. 従来の音声認識装置200の機能構成例を示す図。The figure which shows the function structural example of the conventional speech recognition apparatus 200. FIG. 音声認識装置200の動作フローを示す図。The figure which shows the operation | movement flow of the speech recognition apparatus 200.

Claims (9)

観測音声信号を入力とし、当該観測音声信号のフレーム毎の音声特徴を強調した強調音声特徴量の集合と、上記強調音声特徴量のバラツキを表わす不確かさの集合とを生成する適応用音声前処理部と、
音響モデルを記憶した音響モデル記憶部と、
上記強調音声特徴量の集合と、上記不確かさの集合と、上記音響モデルと、教師信号とを入力とし、上記音響モデル中のガウス分布の分散補正のための適応パラメータとして上記フレームに依存する動的分散適応パラメータと、上記フレームに依存しない静的分散適応パラメータとを生成する適応パラメータ生成部と、
上記観測音声信号を入力とし、上記観測音声信号のフレーム毎の音声特徴量と、当該音声特徴量のバラツキを表わす不確かさを生成する認識用音声前処理部と、
上記音声特徴量の不確かさと、上記適応パラメータと、上記音響モデルとを入力とし、上記フレーム毎に上記適応パラメータで補正された音響モデルのガウス分布の分散を出力する分散動的補正部と、
を具備する音声パラメータ学習装置。
Adaptive speech preprocessing that takes an observed speech signal as input and generates a set of emphasized speech features that emphasize speech features for each frame of the observed speech signal and a set of uncertainties that represent variations in the emphasized speech features And
An acoustic model storage unit storing an acoustic model;
The set of emphasized speech features, the set of uncertainties, the acoustic model, and the teacher signal are input, and a motion dependent on the frame is used as an adaptive parameter for dispersion correction of the Gaussian distribution in the acoustic model. An adaptive parameter generation unit for generating a static distributed adaptive parameter and a static distributed adaptive parameter independent of the frame,
A speech pre-processing unit for recognition that generates the uncertainty representing the variation of the speech feature amount and the speech feature amount of each frame of the observed speech signal, using the observed speech signal as an input;
A variance dynamic correction unit that receives the uncertainty of the speech feature, the adaptation parameter, and the acoustic model, and outputs a variance of the Gaussian distribution of the acoustic model corrected by the adaptation parameter for each frame;
A speech parameter learning apparatus comprising:
請求項1記載の音声パラメータ学習装置において、
上記適応用音声前処理部は、
入力される観測音声信号のフレーム毎の音声特徴を強調した強調音声信号を生成する音声強調部と、
上記観測音声信号のフレーム毎の特徴量を算出する特徴量算出部と、
上記強調音声信号のフレーム毎の強調音声特徴量を算出して強調音声特徴量の集合を生成する強調音声特徴量算出部と、
上記強調音声信号の強調音声特徴量と上記観測音声信号の特徴量とから上記強調音声特徴量のバラツキを表わす不確かさを算出して強調音声特徴量の不確かさの集合を生成する不確かさ算出部とを備え、
上記適応パラメータ生成部は、
上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルと、教師信号とを入力とし、HMM状態n、混合成分mの占有確率を算出する占有確率算出部と、
上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルを入力とし、クリーンスピーチの分散を算出するクリーンスピーチ分散算出部と、上記クリーンスピーチの分散と上記占有確率とを入力とし、上記静的分散適応パラメータとしてスケーリング因子λを算出するスケーリング因子λ算出部と、
上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルとを入力とし、クリーン音声特徴と上記音声特徴量との差分の2乗値の期待値を算出する差分2乗値算出部と、
上記占有確率と上記差分の2乗値とを入力とし、上記動的分散適応パラメータとしてスケーリング因子αを生成するスケーリング因子α算出部とを備える、
ことを特徴とする音声パラメータ学習装置。
The speech parameter learning device according to claim 1,
The adaptive speech preprocessing unit is
A speech enhancement unit that generates an enhanced speech signal in which speech features for each frame of the input observed speech signal are enhanced;
A feature amount calculation unit that calculates a feature amount for each frame of the observed audio signal;
An enhanced speech feature quantity calculating unit that computes an enhanced speech feature quantity for each frame of the enhanced speech signal and generates a set of enhanced speech feature quantities;
An uncertainty calculation unit that calculates an uncertainty representing the variation of the emphasized speech feature amount from the enhanced speech feature amount of the enhanced speech signal and the feature amount of the observed speech signal and generates a set of uncertainties of the enhanced speech feature amount And
The adaptive parameter generation unit
An occupancy probability calculation unit that receives the set of emphasized speech feature values, the set of uncertainties of the emphasized speech feature values, the acoustic model, and the teacher signal, and calculates the occupancy probability of the HMM state n and the mixed component m When,
A set of the emphasized speech feature amount, a set of uncertainties of the emphasized speech feature amount, a clean speech variance calculation unit that calculates the variance of clean speech using the acoustic model as an input, the variance of the clean speech, and the occupation A scaling factor λ calculator for calculating the scaling factor λ as the static variance adaptive parameter,
Using the set of emphasized speech feature values, the set of uncertainties of the emphasized speech feature values, and the acoustic model as input, the expected value of the square value of the difference between the clean speech feature and the speech feature value is calculated. A difference square value calculation unit;
A scaling factor α calculating unit that inputs the occupation probability and the square value of the difference and generates a scaling factor α as the dynamic dispersion adaptive parameter;
A speech parameter learning apparatus characterized by that.
請求項1又は2に記載した音声パラメータ学習装置と、
上記音声パラメータ学習装置が出力する音声特徴量と、上記音声パラメータ学習装置において補正された音響モデルのガウス分布の分散とを入力とし、単語列を出力する認識部と、
を具備することを特徴とする音声認識装置。
The speech parameter learning device according to claim 1 or 2,
A recognition unit that outputs the speech feature value output by the speech parameter learning device and the variance of the Gaussian distribution of the acoustic model corrected in the speech parameter learning device, and outputs a word string;
A speech recognition apparatus comprising:
適応用音声前処理部が、観測音声信号を入力として、当該観測音声信号のフレーム毎の音声特徴を強調した強調音声特徴量の集合と、上記強調音声特徴量のバラツキを表わす不確かさの集合とを生成する適応用音声前処理過程と、
適応パラメータ生成部が、上記強調音声特徴量の集合と、上記不確かさの集合と、上記音響モデルと、教師信号とを入力として分散補正のための適応パラメータとして、上記フレームに依存する動的分散適応パラメータと上記フレームに依存しない静的分散適応パラメータとを生成する適応パラメータ生成過程と、
認識用音声前処理部が、上記観測音声信号を入力とし、上記観測音声信号のフレーム毎の音声特徴量と、当該音声特徴量のバラツキを表わす不確かさを生成する認識用音声前処理過程と、
分散動的補正部が、上記音声特徴量の不確かさと、上記適応パラメータと、上記音響モデルとを入力とし、上記フレーム毎に上記適応パラメータで補正された音響モデルのガウス分布の分散を出力する分散動的補正過程と、
を含む音声パラメータ学習方法。
The adaptive speech preprocessing unit receives the observed speech signal as an input, and a set of emphasized speech features that emphasizes the speech features for each frame of the observed speech signal, and a set of uncertainties that represent variations in the enhanced speech feature values A speech preprocessing process for adaptation to generate
The adaptive parameter generation unit receives the set of emphasized speech features, the set of uncertainties, the acoustic model, and the teacher signal as inputs, and uses dynamic distribution depending on the frame as an adaptive parameter for dispersion correction. An adaptive parameter generation process for generating adaptive parameters and the frame-independent static distributed adaptive parameters;
A recognition speech pre-processing unit that receives the observed speech signal as an input and generates a speech feature value for each frame of the observed speech signal and a uncertainty representing a variation in the speech feature value;
A variance dynamic correction unit receives the uncertainty of the speech feature value, the adaptive parameter, and the acoustic model as input, and outputs a variance of the Gaussian distribution of the acoustic model corrected with the adaptive parameter for each frame Dynamic correction process;
A speech parameter learning method including:
請求項4記載の音声パラメータ学習方法において、
上記適応用音声前処理過程は、
音声強調部が、入力される観測音声信号のフレーム毎の音声特徴を強調した強調音声信号を生成する音声強調過程と、
特徴量算出部が、上記観測音声信号のフレーム毎の特徴量を算出する特徴量算出過程と、
強調音声特徴量算出部が、上記強調音声信号のフレーム毎の強調音声特徴量を算出して強調音声特徴量の集合を生成する強調音声特徴量算出過程と、
不確かさ算出部が、上記強調音声信号の強調音声特徴量と上記観測音声信号の特徴量とから上記強調音声特徴量のバラツキを表わす不確かさを算出して強調音声特徴量の不確かさの集合を生成する不確かさ算出過程とを含み、
上記適応パラメータ生成過程は、
占有確率算出部が、上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルと、教師信号とを入力としてHMM状態n、混合成分mの占有確率を算出する占有確率算出過程と、
クリーンスピーチ算出部が、上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルを入力としてクリーンスピーチの分散を算出するクリーンスピーチ分散算出過程と、
スケーリング因子λ算出部が、上記クリーンスピーチ分散と上記占有確率とからスケーリング因子λを算出するスケーリング因子λ算出過程と、
差分2乗値算出部が、上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルとを入力としてクリーン音声特徴と上記音声特徴量との差分の2乗値の期待値を算出する差分2乗値算出過程とを含み、
スケーリング因子α算出部が、上記占有確率と、上記不確かさと、上記差分の2乗値とを入力として上記動的分散適応パラメータを生成するスケーリング因子α算出過程とを含む、
ことを特徴とする音声パラメータ学習方法。
The speech parameter learning method according to claim 4, wherein
The adaptive speech preprocessing process is
A speech enhancement process in which a speech enhancement unit generates an enhanced speech signal in which speech features for each frame of the input observation speech signal are enhanced;
A feature amount calculating unit for calculating a feature amount for each frame of the observed audio signal;
An enhanced speech feature quantity calculating unit that computes an enhanced speech feature quantity for each frame of the enhanced speech signal to generate a set of enhanced speech feature quantities; and
An uncertainty calculation unit calculates an uncertainty representing the variation of the emphasized speech feature amount from the enhanced speech feature amount of the enhanced speech signal and the feature amount of the observed speech signal, and obtains a set of uncertainties of the enhanced speech feature amount. Including the uncertainty calculation process to generate,
The adaptive parameter generation process is as follows:
An occupancy probability calculation unit calculates the occupancy probability of the HMM state n and the mixed component m with the set of the emphasized speech feature amount, the uncertainties of the emphasized speech feature amount, the acoustic model, and the teacher signal as inputs. Occupancy probability calculation process to
A clean speech variance calculation process in which a clean speech calculation unit calculates the variance of clean speech using the set of the emphasized speech feature amount, the set of uncertainties of the emphasized speech feature amount, and the acoustic model as an input;
A scaling factor λ calculating section for calculating a scaling factor λ from the clean speech variance and the occupation probability;
The difference square value calculation unit receives the set of the emphasized speech feature, the set of uncertainties of the enhanced speech feature, and the acoustic model as a square of the difference between the clean speech feature and the speech feature. A difference square value calculation process for calculating an expected value of the value,
A scaling factor α calculating unit including a scaling factor α calculating step of generating the dynamic dispersion adaptive parameter by inputting the occupation probability, the uncertainty, and the square value of the difference;
A speech parameter learning method characterized by the above.
請求項4又は5に記載した音声パラメータ学習方法と、
認識部が、上記音声パラメータ学習方法で生成された音声特徴量と、補正された音響モデルのガウス分布の分散とを入力とし、単語列を出力する認識過程と、
を含むことを特徴とする音声認識方法。
The speech parameter learning method according to claim 4 or 5,
A recognition process in which the recognition unit receives the speech feature amount generated by the speech parameter learning method and the variance of the Gaussian distribution of the corrected acoustic model, and outputs a word string;
A speech recognition method comprising:
請求項1又は2に記載された音声パラメータ学習装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the speech parameter learning device according to claim 1. 請求項3に記載された音声認識装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the voice recognition apparatus according to claim 3. 請求項7又は8に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。   A computer-readable recording medium on which the program according to claim 7 is recorded.
JP2007321201A 2007-12-12 2007-12-12 Speech parameter learning device and method thereof, speech recognition device and speech recognition method using them, program and recording medium thereof Expired - Fee Related JP4960845B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007321201A JP4960845B2 (en) 2007-12-12 2007-12-12 Speech parameter learning device and method thereof, speech recognition device and speech recognition method using them, program and recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007321201A JP4960845B2 (en) 2007-12-12 2007-12-12 Speech parameter learning device and method thereof, speech recognition device and speech recognition method using them, program and recording medium thereof

Publications (2)

Publication Number Publication Date
JP2009145499A true JP2009145499A (en) 2009-07-02
JP4960845B2 JP4960845B2 (en) 2012-06-27

Family

ID=40916185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007321201A Expired - Fee Related JP4960845B2 (en) 2007-12-12 2007-12-12 Speech parameter learning device and method thereof, speech recognition device and speech recognition method using them, program and recording medium thereof

Country Status (1)

Country Link
JP (1) JP4960845B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013174769A (en) * 2012-02-27 2013-09-05 Nippon Telegr & Teleph Corp <Ntt> Dispersion correction parameter estimation device, voice recognition system, dispersion correction parameter estimation method, voice recognition method and program
JPWO2017037830A1 (en) * 2015-08-31 2017-11-24 三菱電機株式会社 Speech recognition apparatus and speech recognition processing method
JP2020086011A (en) * 2018-11-19 2020-06-04 ヤフー株式会社 Extraction device, learning device, extraction method, extraction program, learning method, and learning program
CN111788629A (en) * 2018-02-20 2020-10-16 三菱电机株式会社 Learning device, audio section detection device, and audio section detection method
CN115662409A (en) * 2022-10-27 2023-01-31 亿铸科技(杭州)有限责任公司 Voice recognition method, device, equipment and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097278A (en) * 1996-09-20 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> Method and device for recognizing voice
JP2006171020A (en) * 2004-12-10 2006-06-29 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, voice feature learning method, apparatus using those methods, program, and recording medium on which the program is recorded

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097278A (en) * 1996-09-20 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> Method and device for recognizing voice
JP2006171020A (en) * 2004-12-10 2006-06-29 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, voice feature learning method, apparatus using those methods, program, and recording medium on which the program is recorded

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013174769A (en) * 2012-02-27 2013-09-05 Nippon Telegr & Teleph Corp <Ntt> Dispersion correction parameter estimation device, voice recognition system, dispersion correction parameter estimation method, voice recognition method and program
JPWO2017037830A1 (en) * 2015-08-31 2017-11-24 三菱電機株式会社 Speech recognition apparatus and speech recognition processing method
CN111788629A (en) * 2018-02-20 2020-10-16 三菱电机株式会社 Learning device, audio section detection device, and audio section detection method
CN111788629B (en) * 2018-02-20 2023-08-15 三菱电机株式会社 Learning device, voice section detection device, and voice section detection method
JP2020086011A (en) * 2018-11-19 2020-06-04 ヤフー株式会社 Extraction device, learning device, extraction method, extraction program, learning method, and learning program
JP6998289B2 (en) 2018-11-19 2022-01-18 ヤフー株式会社 Extractor, learning device, extraction method, extraction program, learning method and learning program
CN115662409A (en) * 2022-10-27 2023-01-31 亿铸科技(杭州)有限责任公司 Voice recognition method, device, equipment and storage medium

Also Published As

Publication number Publication date
JP4960845B2 (en) 2012-06-27

Similar Documents

Publication Publication Date Title
JP6243858B2 (en) Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program
US20120173234A1 (en) Voice activity detection apparatus, voice activity detection method, program thereof, and recording medium
US20080208577A1 (en) Multi-stage speech recognition apparatus and method
US20120130716A1 (en) Speech recognition method for robot
JP6464005B2 (en) Noise suppression speech recognition apparatus and program thereof
US7552049B2 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
US7505950B2 (en) Soft alignment based on a probability of time alignment
JPH09160584A (en) Voice adaptation device and voice recognition device
US20100076759A1 (en) Apparatus and method for recognizing a speech
WO2010035892A1 (en) Speech recognition method
JP4960845B2 (en) Speech parameter learning device and method thereof, speech recognition device and speech recognition method using them, program and recording medium thereof
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
JP2006349723A (en) Acoustic model creating device, method, and program, speech recognition device, method, and program, and recording medium
JP6631883B2 (en) Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program
CN109155128B (en) Acoustic model learning device, acoustic model learning method, speech recognition device, and speech recognition method
JP6027754B2 (en) Adaptation device, speech recognition device, and program thereof
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP4729078B2 (en) Voice recognition apparatus and method, program, and recording medium
JP2006145694A (en) Voice recognition method, system implementing the method, program, and recording medium for the same
Kim et al. Advanced parallel combined Gaussian mixture model based feature compensation integrated with iterative channel estimation
JP4242320B2 (en) Voice recognition method, apparatus and program thereof, and recording medium thereof
JP2013160930A (en) Sound model adaptation device, voice recognition device, methods therefor, and program
JP2002091480A (en) Acoustic model generator and voice recognition device
Munteanu et al. Robust Romanian language automatic speech recognizer based on multistyle training

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100114

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120323

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees