JP5647159B2 - Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program - Google Patents

Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program Download PDF

Info

Publication number
JP5647159B2
JP5647159B2 JP2012041441A JP2012041441A JP5647159B2 JP 5647159 B2 JP5647159 B2 JP 5647159B2 JP 2012041441 A JP2012041441 A JP 2012041441A JP 2012041441 A JP2012041441 A JP 2012041441A JP 5647159 B2 JP5647159 B2 JP 5647159B2
Authority
JP
Japan
Prior art keywords
feature vector
transformation matrix
space
feature
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012041441A
Other languages
Japanese (ja)
Other versions
JP2013178343A (en
Inventor
ソンジュン ハム
ソンジュン ハム
小川 厚徳
厚徳 小川
雅清 藤本
雅清 藤本
堀 貴明
貴明 堀
中村 篤
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012041441A priority Critical patent/JP5647159B2/en
Publication of JP2013178343A publication Critical patent/JP2013178343A/en
Application granted granted Critical
Publication of JP5647159B2 publication Critical patent/JP5647159B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、特徴空間と音響モデル空間で共通に用いる事前分布を生成する事前分布計算装置、事前分布計算方法、プログラム、およびこの事前分布を用いた音声認識装置、音声認識方法、プログラムに関する。   The present invention relates to a prior distribution calculation device, a prior distribution calculation method, and a program for generating a prior distribution commonly used in a feature space and an acoustic model space, and a speech recognition device, a speech recognition method, and a program using the prior distribution.

音声認識の入力信号に影響を与えるさまざまな変動要因(例えば、話者、雑音、通信チャンネル、マイクなど)による悪影響を防ぐため、適応技術が発展してきた。特にモデルに基づく適応技術は変換行列による線形変換で音響モデルのすべてのパラメータを適応させることができるので、適応技術として多く使われている。   Adaptation techniques have been developed to prevent the adverse effects of various variables (eg, speakers, noise, communication channels, microphones, etc.) that affect the speech recognition input signal. In particular, model-based adaptation techniques are often used as adaptation techniques because all parameters of an acoustic model can be adapted by linear transformation using a transformation matrix.

モデルに基づく線形変換形式の適応技術として、Unconstrained_Maximum_Likelihood_Linear_Regression(UMLLR、制約無し最尤線形回帰;以下MLLRと呼ぶ)(非特許文献1)とConstrained_Maximum_Likelihood_Linear_Regression(CMLLR、制約付き最尤線形回帰)(非特許文献2)が知られている。前者はモデル空間、後者は特徴空間での適応手法である。CMLLRは特徴空間での変換式表現できるのでfeature_space_MLLR(fMLLR、特徴空間最尤線形回帰)とも呼ばれる。特にこの手法はSpeaker_Adaptive_Training(SAT、話者適応学習)(非特許文献3)に対して効果的であり、メモリ使用量、計算量を削減できるという利点がある。   As the adaptation technique of the linear transformation format based on the model, Unconstrained_Maximum_Likelihood_Linear_Regression (UMLRR, unconstrained maximum likelihood linear regression; hereinafter referred to as MLLR) (Non-Patent Document 1) and Constrained_Maximum_LikeliLedReliable_Least )It has been known. The former is an adaptation method in a model space, and the latter is a feature space. CMLLR is also called feature_space_MLLR (fMLLR, feature space maximum likelihood linear regression) because it can express a conversion formula in the feature space. In particular, this method is effective for Speaker_Adaptive_Training (SAT, speaker adaptive learning) (Non-patent Document 3), and has an advantage that the amount of memory used and the amount of calculation can be reduced.

しかし、上述したMLLR(最尤線形回帰)などの事前分布を用いない変換行列推定方法では、適応データ量が少ないときに信頼性のある推定ができないため、認識率の低下及び認識自体ができない場合が生じる。よってこの問題を解決するため事前分布を用いた手法が提案されている。   However, the transformation matrix estimation method that does not use the prior distribution such as MLLR (maximum likelihood linear regression) described above cannot perform reliable estimation when the amount of adaptive data is small, and thus cannot reduce the recognition rate and cannot recognize itself. Occurs. Therefore, a method using prior distribution has been proposed to solve this problem.

事前分布を用いた代表的な方法はMaximum_A_Posteriori_Linear_Regression(MAPLR)(非特許文献4)、Structural_MAPLR(SMAPLR)(非特許文献5)、feature_space_MAPLR(fMAPLR)(非特許文献6)が挙げられる。MAPLRとSMAPLRは音響モデル空間での適応手法で、fMAPLRは特徴空間での適応手法である。事前分布には、各手法を用いた学習データに含まれている話者の変換行列の分布が用いられる。   Typical methods using the prior distribution include Maximum_A_Posterori_Linear_Regulation (MAPLR) (Non-Patent Document 4), Structural_MAPLR (SMAPLR) (Non-Patent Document 5), and feature_space_MAPLR (fMAPLR) (Non-Patent Document 6). MAPLR and SMAPLR are adaptive methods in the acoustic model space, and fMAPLR is an adaptive method in the feature space. For the prior distribution, the distribution of the conversion matrix of the speakers included in the learning data using each method is used.

従来のMLLRを利用したSATは必要なメモリ量と計算量が多い。この理由としてはMLLRでよく使われている木構造を元に適応データによって選択されたノードの変換行列推定が行われるためである。一般的に学習データ量はテストデータ量に比べてはるかに多く、木構造から選択されるノードが多いため推定すべき話者毎の変換行列数が増加する。さらにMLLRでは平均と分散の変換行列が異なるためCMLLRと比べ二倍の計算量とメモリが必要になる。   A conventional SAT using MLLR requires a large amount of memory and calculation. This is because the transformation matrix of the node selected by the adaptive data is estimated based on the tree structure often used in MLLR. In general, the amount of learning data is much larger than the amount of test data, and since there are many nodes selected from the tree structure, the number of transformation matrices for each speaker to be estimated increases. Furthermore, since MLLR has different conversion matrices for average and variance, it requires twice the amount of calculation and memory compared to CMLLR.

Leggetter, C. and Woodland, P.C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Computer Speech and Language, 9(2):171--185, 1995.Leggetter, C. and Woodland, P.C.Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models.Computer Speech and Language, 9 (2): 171--185, 1995. Gales, M.J.F. Maximum likelihood linear transformations for HMM-based speech recognition. Computer Speech and Language, 12:75--98, 1998.Gales, M.J.F.Maximum likelihood linear transformations for HMM-based speech recognition.Computer Speech and Language, 12: 75--98, 1998. Anastasakos, T. and McDonough, J. and Makhoul, J. Speaker adaptive training: A maximum likelihood approach to speaker normalization. Proc. of ICASSP, pages 1043--1046, 1997.Anastasakos, T. and McDonough, J. and Makhoul, J. Speaker adaptive training: A maximum likelihood approach to speaker normalization.Proc. Of ICASSP, pages 1043--1046, 1997. Siohan, O. and Chesta, C. and Lee, C.H. Joint maximum a posteriori adaptation of transformation and HMM parameters. IEEE Trans. on Speech and Audio Processing, 9(4):417--428, 2001.Siohan, O. and Chesta, C. and Lee, C.H.Joint maximum a posteriori adaptation of transformation and HMM parameters.IEEE Trans. On Speech and Audio Processing, 9 (4): 417--428, 2001. Siohan, O. and Myrvoll, T.A. and Lee, C.H. Structural maximum a posteriori linear regression for fast HMM adaptation. Computer Speech & Language, 16(1):5--24, 2002.Siohan, O. and Myrvoll, T.A. and Lee, C.H.Structural maximum a posteriori linear regression for fast HMM adaptation.Computer Speech & Language, 16 (1): 5--24, 2002. Lei, X. and Hamaker, J. and He, X. Robust feature space adaptation for telephony speech recognition. Proc. of INTERSPEECH, pages 773--776, 2006.Lei, X. and Hamaker, J. and He, X. Robust feature space adaptation for telephony speech recognition.Proc. Of INTERSPEECH, pages 773--776, 2006.

モデル空間での適応方法、特徴空間での適応方法の双方を組み合わせて話者適応を行うことで、適応データ量が多い場合には、モデルか特徴空間だけでの適応方法に比べ認識性能の向上を図ることができる。しかしながら、上記組み合わせの手法によっても事前分布を用いなければ、適応データ量が少ない場合に信頼性の高い推定を行うことが出来ない。一方、モデル空間での適応、特徴空間での適応の双方に対して、事前分布を用いることとすると、各々に対して別々に事前分布を計算することとなり、計算量が増大してしまう。   When speaker adaptation is performed by combining both the adaptation method in the model space and the adaptation method in the feature space, the recognition performance improves when the amount of adaptation data is large compared to the adaptation method in the model or feature space alone. Can be achieved. However, if the prior distribution is not used even by the above combination method, it is impossible to perform highly reliable estimation when the amount of adaptive data is small. On the other hand, if the prior distribution is used for both the adaptation in the model space and the adaptation in the feature space, the prior distribution is calculated separately for each, and the calculation amount increases.

そこで、本発明では、モデル空間での適応および特徴空間での適応の双方に共通に用いることができる事前分布を生成し、事前分布の計算量を削減することができる事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラムを提供することを目的とする。   Therefore, the present invention generates a prior distribution that can be commonly used for both adaptation in the model space and adaptation in the feature space, and reduces the amount of calculation of the prior distribution, speech recognition An object is to provide a device, a prior distribution calculation method, a speech recognition method, and a program.

本発明の事前分布計算装置は、特徴ベクトル抽出部と、第1変換行列推定部と、特徴ベクトル変換部と、MLE音響モデル学習部と、第2変換行列推定部と、事前分布計算部とを備える。   The prior distribution calculation device of the present invention includes a feature vector extraction unit, a first transformation matrix estimation unit, a feature vector conversion unit, an MLE acoustic model learning unit, a second transformation matrix estimation unit, and a prior distribution calculation unit. Prepare.

特徴ベクトル抽出部は、複数の話者の入力音声から話者毎の特徴ベクトルを抽出する。第1変換行列推定部は、特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定する。特徴ベクトル変換部は、話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換する。MLE音響モデル学習部は、特徴ベクトル変換部により変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行う。第2変換行列推定部は、特徴ベクトル抽出部で抽出された特徴ベクトルと、MLE音響モデル学習部により学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定する。事前分布計算部は、第2の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、事前分布のハイパーパラメータを出力する。   The feature vector extraction unit extracts feature vectors for each speaker from the input speech of a plurality of speakers. The first transformation matrix estimation unit estimates a first transformation matrix for each speaker by feature space maximum likelihood linear regression using a feature vector and an initial acoustic model previously learned from data of all speakers. The feature vector conversion unit converts the feature vector of the corresponding speaker using the first conversion matrix for each speaker. The MLE acoustic model learning unit learns the acoustic model by the maximum likelihood method using the feature vector converted by the feature vector conversion unit. The second transformation matrix estimation unit performs second transformation for each speaker by feature space maximum likelihood linear regression using the feature vector extracted by the feature vector extraction unit and the acoustic model learned by the MLE acoustic model learning unit. Estimate the matrix. The prior distribution calculation unit calculates a multivariate normal distribution of the matrix using the second transformation matrix, and outputs the hyperparameter of the prior distribution using the multivariate normal distribution as the prior distribution.

本発明の事前分布計算装置によれば、モデル空間での適応および特徴空間での適応の双方に共通に用いることができる事前分布を生成し、事前分布の計算量を削減することができる。   According to the prior distribution calculation device of the present invention, it is possible to generate a prior distribution that can be commonly used for both adaptation in the model space and adaptation in the feature space, and reduce the amount of calculation of the prior distribution.

実施例1の事前分布計算装置の構成を示すブロック図。1 is a block diagram illustrating a configuration of a prior distribution calculation apparatus according to Embodiment 1. FIG. 実施例1の事前分布計算装置の動作を示すフローチャート。3 is a flowchart illustrating the operation of the prior distribution calculation apparatus according to the first embodiment. 実施例2の音声認識装置の構成を示すブロック図。FIG. 3 is a block diagram illustrating a configuration of a speech recognition apparatus according to a second embodiment. 実施例2の音声認識装置の動作を示すフローチャート。9 is a flowchart illustrating the operation of the speech recognition apparatus according to the second embodiment. 変形例1の音声認識装置の構成を示すブロック図。The block diagram which shows the structure of the speech recognition apparatus of the modification 1. FIG. 変形例1の音声認識装置の動作を示すフローチャート。9 is a flowchart showing the operation of the speech recognition apparatus according to the first modification.

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.

以下、図1、図2を参照して実施例1の事前分布計算装置について詳細に説明する。図1は本実施例の事前分布計算装置1の構成を示すブロック図である。図2は本実施例の事前分布計算装置1の動作を示すフローチャートである。本実施例の事前分布計算装置1は、特徴ベクトル抽出部10と、第1変換行列推定部20と、特徴ベクトル変換部30と、MLE音響モデル学習部40と、正規化済み音響モデル格納部50と、第2変換行列推定部60と、事前分布計算部70と、初期音響モデル格納部80とを備える。第1変換行列推定部20は、統計量G計算手段21と、統計量k計算手段22と、変換行列推定手段23と、反復学習手段24とを備える。MLE音響モデル学習部40は、平均更新手段41と、分散更新手段42とを備える。事前分布計算部70は、パラメータC計算手段71と、パラメータV計算手段72とを備える。初期音響モデル格納部80には、全話者のデータを用いて学習された音響モデルが初期音響モデルとして予め記憶されている。   Hereinafter, the prior distribution calculation apparatus according to the first embodiment will be described in detail with reference to FIGS. 1 and 2. FIG. 1 is a block diagram showing the configuration of the prior distribution calculation apparatus 1 of the present embodiment. FIG. 2 is a flowchart showing the operation of the prior distribution calculation apparatus 1 of the present embodiment. The prior distribution calculation apparatus 1 of the present embodiment includes a feature vector extraction unit 10, a first transformation matrix estimation unit 20, a feature vector conversion unit 30, an MLE acoustic model learning unit 40, and a normalized acoustic model storage unit 50. A second transformation matrix estimation unit 60, a prior distribution calculation unit 70, and an initial acoustic model storage unit 80. The first transformation matrix estimation unit 20 includes a statistic G calculation unit 21, a statistic k calculation unit 22, a transformation matrix estimation unit 23, and an iterative learning unit 24. The MLE acoustic model learning unit 40 includes an average update unit 41 and a distributed update unit 42. The prior distribution calculation unit 70 includes parameter C calculation means 71 and parameter V calculation means 72. In the initial acoustic model storage unit 80, an acoustic model learned using data of all speakers is stored in advance as an initial acoustic model.

以下、最初に処理の概要を三節に分けて説明し、各節の最後に、各節における各構成部の具体的な処理を説明する。   Hereinafter, the outline of the process will be described in three sections first, and specific processes of each component in each section will be described at the end of each section.

<1.変換行列の推定(第1変換行列推定部20の処理)>
本実施例の事前分布計算装置1は、全話者のデータを用いて予め学習された初期音響モデルと、各話者の入力音声を話者毎に変換した特徴ベクトルに基づいてfMLLR(特徴空間最尤線形回帰)で各話者の変換行列(第1変換行列)を推定する。まず、入力音声から抽出された特徴ベクトルをo(t)と定義する。このとき、o(t)は、t番目のフレームのN次元特徴ベクトルを表す。本実施例の事前分布計算装置1は、この特徴ベクトルo(t)を変換行列を用いて特徴ベクトルo(t)ハットに変換する。変換された特徴ベクトルo(t)ハットは以下のようになる。
<1. Estimation of transformation matrix (processing of first transformation matrix estimation unit 20)>
The prior distribution calculation apparatus 1 according to the present embodiment uses an initial acoustic model learned in advance using data of all speakers and a feature vector obtained by converting each speaker's input speech for each speaker. The conversion matrix (first conversion matrix) of each speaker is estimated by maximum likelihood linear regression. First, a feature vector extracted from input speech is defined as o (t). At this time, o (t) represents the N-dimensional feature vector of the t-th frame. The prior distribution calculation apparatus 1 of the present embodiment converts this feature vector o (t) into a feature vector o (t) hat using a conversion matrix. The transformed feature vector o (t) hat is as follows.

Figure 0005647159
Figure 0005647159

変換行列推定のためのQ関数は以下のように定義される。

Figure 0005647159
The Q function for transform matrix estimation is defined as follows.
Figure 0005647159

ここで、Wの最適化問題(αの推定)は非特許文献2に詳述されている。変換行列Wのi行目は以下のように求まる。

Figure 0005647159
Here, the optimization problem of W (estimation of α) is described in detail in Non-Patent Document 2. The i-th row of the transformation matrix W is obtained as follows.
Figure 0005647159

また、変換行列推定のためのi次元目の統計量G(i)とk(i)は入力音声の拡張特徴ベクトルξ(t)とu番目の混合ガウス分布のi次元目平均μ (u)と分散σ (u)を用いて以下の式のように計算される。

Figure 0005647159
The i-th statistics G (i) and k (i) for transform matrix estimation are the extended feature vector ξ (t) of the input speech and the i-th average μ i (u ) And variance σ i (u) .
Figure 0005647159

Row−by−row変換行列の推定の後、次式を用いて最尤法で反復学習を行う。

Figure 0005647159
After the estimation of the Row-by-row transformation matrix, iterative learning is performed by the maximum likelihood method using the following equation.
Figure 0005647159

本実施例では、上述した第1節の処理を第1変換行列推定部20が実行する。従って、まず特徴ベクトル抽出部10は、S人の話者(話者1、…、話者S、Sは2以上の整数)の入力音声からN次元特徴ベクトルo(t)を抽出する(S10)。前述したように、初期音響モデル格納部80には、全話者のデータを用いて学習された音響モデルが初期音響モデルとして予め記憶されている。統計量G計算手段21は、式(4)により統計量Gを計算する(SS21)。統計量k計算手段22は、式(5)により統計量kを計算する(SS22)次に、変換行列推定手段23は、式(3)により、変換行列を推定する(SS23)。これらのサブステップSS21〜SS23の処理は、次元(行)iの全ての取りうる値について繰り返し実行され、変換行列Wが得られる。次に、反復学習手段24は、式(6)を用いて、最尤法で変換行列の反復学習を行う(SS24)。以上のステップS10、S20により話者1〜話者Sの変換行列が求められる。   In the present embodiment, the first transformation matrix estimation unit 20 executes the processing of the first section described above. Therefore, first, the feature vector extraction unit 10 extracts an N-dimensional feature vector o (t) from the input speech of S speakers (speakers 1,..., Speakers S, S is an integer of 2 or more) (S10). ). As described above, in the initial acoustic model storage unit 80, an acoustic model learned using data of all speakers is stored in advance as an initial acoustic model. The statistic G calculating means 21 calculates the statistic G by the equation (4) (SS21). The statistic k calculation means 22 calculates the statistic k using equation (5) (SS22). Next, the transformation matrix estimation means 23 estimates the transformation matrix using equation (3) (SS23). The processing of these sub-steps SS21 to SS23 is repeatedly executed for all possible values of the dimension (row) i, and the transformation matrix W is obtained. Next, the iterative learning means 24 performs iterative learning of the transformation matrix by the maximum likelihood method using Equation (6) (SS24). Through the above steps S10 and S20, a conversion matrix of speakers 1 to S is obtained.

<2.音響モデルの学習(特徴ベクトル変換部30、MLE音響モデル学習部40の処理)>
本実施例の事前分布計算装置1は、話者1〜話者Sの変換行列を利用して、各話者の特徴ベクトルを変換し、変換された特徴ベクトル(学習データ)を用いて最尤法で音響モデルの学習を行う。音響モデル学習(SAT)のためのQ関数は以下のように定義される。

Figure 0005647159
<2. Acoustic Model Learning (Processing of Feature Vector Conversion Unit 30 and MLE Acoustic Model Learning Unit 40)>
The prior distribution calculation apparatus 1 of the present embodiment uses the conversion matrix of speakers 1 to S to convert each speaker's feature vector, and uses the converted feature vector (learning data) for maximum likelihood. The acoustic model is learned by the method. The Q function for acoustic model learning (SAT) is defined as follows.
Figure 0005647159

変換後の特徴ベクトルo(s)(t)ハットは以下の式により計算される。

Figure 0005647159
The transformed feature vector o (s) (t) is calculated by the following equation.
Figure 0005647159

式(7)の処理は、従来の最尤法(MLE、Maximum_Likelihood_Estimation)と比較して、特徴ベクトルのみが異なる処理となっている。すなわち、元の特徴ベクトルo(s)(t)の代わりにo(s)(t)ハットを使い、従来のMLEと同様の学習を行う。 The processing of Expression (7) is processing in which only the feature vector is different compared to the conventional maximum likelihood method (MLE, Maximum_Likelihood_Estimation). That is, learning similar to conventional MLE is performed using o (s) (t) hat instead of the original feature vector o (s) (t).

平均と分散の更新式は以下のようになる。

Figure 0005647159
The update formula for mean and variance is:
Figure 0005647159

本実施例では、上述した第2節の処理のうち、式(8)にかかる処理を特徴ベクトル変換部30が実行し、残りの処理をMLE音響モデル学習部40が実行する。従って、特徴ベクトル変換部30は、第1変換行列推定部20により推定された変換行列により、式(8)を用いて、特徴ベクトル抽出部10で生成された特徴ベクトルを変換する(S30)。次に、MLE(最尤度)による音響モデルの学習は各学習回数毎に平均と分散とを更新しながら尤度が収束するまで繰り返し行われる。平均更新手段41は、式(9)を用いて、変換後の特徴ベクトルから平均を求める(SS41)。分散更新手段42は、式(10)を用いて、変換後の特徴ベクトルから分散を求める(SS42)。各話者の変換行列を用いて変換された特徴を用いて学習した、話者の変異が正規化された音響モデルは次の処理のため、正規化済み音響モデル格納部50に格納される(S50)。   In the present embodiment, the feature vector conversion unit 30 executes the processing according to the equation (8) among the processing of the second section described above, and the MLE acoustic model learning unit 40 executes the remaining processing. Therefore, the feature vector conversion unit 30 converts the feature vector generated by the feature vector extraction unit 10 using the equation (8) based on the conversion matrix estimated by the first conversion matrix estimation unit 20 (S30). Next, the learning of the acoustic model by MLE (maximum likelihood) is repeated until the likelihood converges while updating the average and variance for each learning count. The average updating unit 41 obtains an average from the feature vector after conversion using Equation (9) (SS41). The variance updating unit 42 obtains variance from the converted feature vector using Equation (10) (SS42). The acoustic model in which the speaker variation is normalized, which is learned using the characteristics transformed using the transformation matrix of each speaker, is stored in the normalized acoustic model storage unit 50 for the next processing ( S50).

<3.事前分布の計算(第2変換行列推定部60、事前分布計算部70の処理)>
本実施例の事前分布計算装置1は、MLE音響モデル学習部40で学習された音響モデルを用いて、第1節と同様に、fMLLRで各話者毎の変換行列(第2変換行列)を求める。本実施例の事前分布計算装置1は、求めた各話者の変換行列(第2変換行列)の事前分布(各次元毎の平均と分散)を求める。
<3. Calculation of Prior Distribution (Processing of Second Transformation Matrix Estimation Unit 60 and Prior Distribution Calculation Unit 70)>
The prior distribution calculation apparatus 1 according to the present embodiment uses the acoustic model learned by the MLE acoustic model learning unit 40 to obtain a transformation matrix (second transformation matrix) for each speaker using fMLLR, as in the first section. Ask. The prior distribution calculation apparatus 1 according to the present embodiment obtains a prior distribution (average and variance for each dimension) of the obtained transformation matrix (second transformation matrix) of each speaker.

まず、事前分布計算のため、MLE音響モデル学習部40で学習した音響モデルを用いて、fMLLRにより、第1変換行列推定部20と同様の処理(式(3)〜(6))を再度行って、各話者の変換行列(第2変換行列)を求めておく。事前分布の計算は非特許文献4に記載の行列の多変量正規分布を用いる。この多変量正規分布は以下の式のように定義される。

Figure 0005647159
First, for the prior distribution calculation, the same processing (Equations (3) to (6)) as in the first transformation matrix estimation unit 20 is performed again by fMLLR using the acoustic model learned by the MLE acoustic model learning unit 40. Thus, the conversion matrix (second conversion matrix) of each speaker is obtained. The calculation of the prior distribution uses a multivariate normal distribution of a matrix described in Non-Patent Document 4. This multivariate normal distribution is defined as:
Figure 0005647159

ここで分散ハイパーパラメータは非特許文献4のように単位行列と仮定する。全体話者数をSとし、S個の変換行列からハイパーパラメータC、Vを以下の式で求める。

Figure 0005647159
Here, the distributed hyperparameter is assumed to be a unit matrix as in Non-Patent Document 4. Let S be the total number of speakers, and hyperparameters C and V are obtained from the S transformation matrices using the following equations.
Figure 0005647159

本実施例では、上述した第3節の処理のうち、変換行列の推定処理については第2変換行列推定部60が実行し、式(12)にかかる処理を事前分布計算部70が実行する。従って、第2変換行列推定部60は、MLE音響モデル学習部40で学習した音響モデルを用いて、式(3)〜式(6)に基づいて、変換行列(第2変換行列)を推定する。この処理は、第1変換行列推定部20の処理と同様である。次に、求められた第2変換行列は行列の多変量正規化分布に従うという仮定下で、パラメータC計算手段71は、第2変換行列を用いて、式(12)により、ハイパーパラメータCを計算する(SS71)。パラメータV計算手段72は、第2変換行列を用いて、式(12)により、ハイパーパラメータVを計算する(SS72)。   In the present embodiment, among the processes of the third section described above, the second conversion matrix estimation unit 60 executes the conversion matrix estimation process, and the prior distribution calculation unit 70 executes the process according to Expression (12). Therefore, the second transformation matrix estimation unit 60 estimates the transformation matrix (second transformation matrix) based on the equations (3) to (6) using the acoustic model learned by the MLE acoustic model learning unit 40. . This process is the same as the process of the first transformation matrix estimation unit 20. Next, under the assumption that the obtained second transformation matrix follows the multivariate normalized distribution of the matrix, the parameter C calculation means 71 calculates the hyperparameter C using the second transformation matrix according to the equation (12). (SS71). The parameter V calculation means 72 calculates the hyperparameter V using the second transformation matrix according to the equation (12) (SS72).

このように、本実施例の事前分布計算装置1によれば、モデル空間での適応および特徴空間での適応の双方に共通に用いることができる事前分布を生成し、事前分布の計算量を削減することができる。   Thus, according to the prior distribution calculation apparatus 1 of the present embodiment, a prior distribution that can be commonly used for both adaptation in the model space and adaptation in the feature space is generated, and the amount of calculation of the prior distribution is reduced. can do.

以下、図3、図4を参照して実施例2の音声認識装置について詳細に説明する。図3は本実施例の音声認識装置100の構成を示すブロック図である。図4は本実施例の音声認識装置100の動作を示すフローチャートである。本実施例の音声認識装置100は、実施例1の事前分布計算装置1により予め求めた事前分布を共通に用いて特徴空間とモデル空間を同時適応することを特徴とする。本実施例の音声認識装置100は、特徴ベクトル抽出部110と、特徴ベクトル格納部115と、特徴ベクトル変換部120と、初期変換行列格納部125と、音声認識部130と、認識用データ記憶部140と、認識結果格納部145と、特徴空間統計量計算部150と、特徴空間変換行列推定部155と、木構造決定部160と、モデル空間統計量計算部170と、モデル空間変換行列推定部175と、音響モデル更新部180と、事前分布記憶部190とを備える。認識用データ記憶部140は、音響モデル141と、言語モデル142と、単語辞書143とを備える。モデル空間統計量計算部170は、統計量Gチルダ計算手段171と、統計量kチルダ計算手段172と、平滑化統計量計算手段173とを備える。事前分布記憶部190には、実施例1で説明された方法で生成された事前分布のハイパーパラメータC、Vが予め記憶されている。   Hereinafter, the speech recognition apparatus according to the second embodiment will be described in detail with reference to FIGS. 3 and 4. FIG. 3 is a block diagram showing the configuration of the speech recognition apparatus 100 of this embodiment. FIG. 4 is a flowchart showing the operation of the speech recognition apparatus 100 of this embodiment. The speech recognition apparatus 100 according to the present embodiment is characterized in that the feature space and the model space are simultaneously adapted by commonly using the prior distribution obtained in advance by the prior distribution calculation apparatus 1 according to the first embodiment. The speech recognition apparatus 100 according to the present embodiment includes a feature vector extraction unit 110, a feature vector storage unit 115, a feature vector conversion unit 120, an initial transformation matrix storage unit 125, a speech recognition unit 130, and a recognition data storage unit. 140, a recognition result storage unit 145, a feature space statistics calculation unit 150, a feature space transformation matrix estimation unit 155, a tree structure determination unit 160, a model space statistics calculation unit 170, and a model space transformation matrix estimation unit 175, an acoustic model update unit 180, and a prior distribution storage unit 190. The recognition data storage unit 140 includes an acoustic model 141, a language model 142, and a word dictionary 143. The model space statistic calculator 170 includes a statistic G tilde calculator 171, a statistic k tilde calculator 172, and a smoothed statistic calculator 173. The prior distribution storage unit 190 stores in advance the hyperparameters C and V of the prior distribution generated by the method described in the first embodiment.

以下、本実施例の音声認識装置100の処理の概要を説明し、その後に各構成部の具体的な処理内容を説明する。   Hereinafter, an outline of processing of the speech recognition apparatus 100 of the present embodiment will be described, and then specific processing contents of each component will be described.

<4.事前分布共有による特徴空間と音響モデル空間の同時適応>
本実施例の音声認識装置100は、入力音声を音声認識して、当該音声認識結果を元に(教師なし適応)統計量計算を行なう。統計量計算に際して、実施例1の方法により予め求めた事前分布が反映される。本実施例の音声認識装置100は、計算された統計量から特徴空間とモデル空間での変換行列を推定する。本実施例の音声認識装置100は、推定された特徴空間の変換行列と、モデル空間の変換行列を用いて、N次元特徴ベクトルと音響モデルをそれぞれ更新して再認識を行う。
<4. Simultaneous adaptation of feature space and acoustic model space by sharing prior distribution>
The speech recognition apparatus 100 according to the present embodiment recognizes input speech and performs statistical calculation based on the speech recognition result (unsupervised adaptation). In calculating statistics, the prior distribution obtained in advance by the method of the first embodiment is reflected. The speech recognition apparatus 100 of the present embodiment estimates the transformation matrix in the feature space and the model space from the calculated statistics. The speech recognition apparatus 100 according to the present embodiment performs re-recognition by updating the N-dimensional feature vector and the acoustic model, respectively, using the estimated feature space transformation matrix and model space transformation matrix.

事前分布なしのML基準Q関数は以下のように定義される。

Figure 0005647159
The ML criterion Q function without prior distribution is defined as follows.
Figure 0005647159

モデル空間での変換は平均のみを考慮する。つまり分散の適応は特徴空間で行われる。異なる空間での式(13)を直接最適化することは難しいので、ここでは同時最適化のため特徴空間とモデル空間で順番に最適化を行う方法を利用する。   Transformation in model space only considers the mean. In other words, the distribution is adapted in the feature space. Since it is difficult to directly optimize the expression (13) in different spaces, here, a method of performing optimization in order in the feature space and the model space is used for simultaneous optimization.

まずモデル空間変換行列W を単位変換行列[0 n×n]として、モデル空間での事前分布はないと仮定すれば、事前分布を用いた特徴空間でのQ関数は以下のようになる。

Figure 0005647159
First, assuming that the model space transformation matrix W r M is a unit transformation matrix [0 n T I n × n ] and there is no prior distribution in the model space, the Q function in the feature space using the prior distribution is It becomes like this.
Figure 0005647159

特徴空間でのi行目の変換行列は以下の式で推定できる。

Figure 0005647159
The transformation matrix of the i-th row in the feature space can be estimated by the following equation.
Figure 0005647159

ここで、統計量は事前分布を用いて以下のように計算される。

Figure 0005647159
統計量G(i)ハットと統計量k(i)ハットは、それぞれ、G(i)、k(i)の平滑化された統計量を意味する。G(i)、k(i)は式(4)と式(5)を用いて計算したものである。 Here, the statistic is calculated using the prior distribution as follows.
Figure 0005647159
Statistics G (i) hat and statistic k (i) hat, respectively, it means G (i), k smoothed statistic (i). G (i) and k (i) are calculated using the equations (4) and (5).

次に、事前分布を用いたモデル空間でのQ関数は以下のようになる。

Figure 0005647159
Next, the Q function in the model space using the prior distribution is as follows.
Figure 0005647159

モデル空間での事前分布のハイパーパラメータVチルダ、Cチルダは以下のように定義される。

Figure 0005647159
The hyperparameter V tilde and C tilde of the prior distribution in the model space are defined as follows.
Figure 0005647159

r番目の再帰クラスのi行目の変換行列W は以下の式で定義される。

Figure 0005647159
The transformation matrix W r M in the i-th row of the r-th recursive class is defined by the following equation.
Figure 0005647159

また平滑化された統計量G(i)バー、k(i)バーは以下の式を用いて計算される。

Figure 0005647159
The smoothed statistics G (i) bar and k (i) bar are calculated using the following equations.
Figure 0005647159

モデル空間での統計量Gチルダ、kチルダは以下の式を用いて計算される。

Figure 0005647159
Statistics G tilde and k tilde in the model space are calculated using the following equations.
Figure 0005647159

得られた変換行列を用いて、以下の式のように音響モデルの平均の更新を行う。

Figure 0005647159
Using the obtained transformation matrix, the average of the acoustic model is updated as in the following equation.
Figure 0005647159

認識(テスト)時は入力音声の特徴ベクトルを特徴空間で求めた変換行列を用いて変換し、モデル空間変換行列で更新された音響モデルに基づいて認識を行う。   At the time of recognition (test), the feature vector of the input speech is transformed using the transformation matrix obtained in the feature space, and recognition is performed based on the acoustic model updated by the model space transformation matrix.

本実施例では、上述した4節の処理を音声認識装置100の各構成部が実行する。まず、特徴ベクトル抽出部110は、入力される音声信号からN次元特徴ベクトルを抽出する(S110)。次に、特徴ベクトル格納部115は、N次元特徴ベクトルを格納する(S115)。格納されたN次元特徴ベクトルは、後述するステップS120−1、S120−2の双方において、特徴ベクトル変換に用いられる。特徴ベクトル変換部120は、変換行列により特徴ベクトルを変換する(S120−1)。ここで、変換行列の初期値は初期変換行列格納部125に格納されているものとし、最初の(ステップS120−1における)特徴ベクトル変換部120の動作時には、初期変換行列が使用されるものとする。初期変換行列は単位変換行列(バイアスは全て0で、回転行列は単位行列)であるため、変換前の特徴ベクトルo(t)と、変換後の特徴ベクトルo(t)ハットは、同一となる。次に、音声認識部130は、認識用データ記憶部140に記憶された音響モデル141、言語モデル142、単語辞書143を用いて音声認識を行い、変換後の特徴ベクトルから音声認識結果を生成する(S130−1)。認識結果格納部145は、生成された音声認識結果を格納する(S145−1)。次に、特徴空間統計量計算部150は、式(16)を用いて統計量Gハット、kハットを計算する(S150)。特徴空間変換行列推定部155は、式(15)を用いて特徴空間の変換行列を推定する(S155)。次に、特徴ベクトル変換部120は、特徴空間変換行列推定部155が推定した特徴空間の変換行列を用いて、特徴ベクトル格納部115に格納済みの特徴ベクトルを変換する(S120−2)。音声認識部130は、ステップS130−1と同様に、ステップS120−2で特徴空間の変換行列を用いて変換した特徴ベクトルから音声認識結果を生成する(S130−2)。認識結果格納部145は、生成された音声認識結果を格納する(S145−2)。次に、木構造決定部160は、式(18)を用いて音声認識結果を木構造に分類して、ハイパーパラメータCチルダ、Vチルダを決定する(S160)。次に、統計量Gチルダ計算手段171は、式(21)により、統計量Gチルダを計算する(SS171)。次に、統計量kチルダ計算手段は、式(22)により、統計量kチルダを計算する(SS172)。平滑化統計量計算手段173は、統計量Gチルダ、統計量kチルダ、ハイパーパラメータCチルダ、Vチルダを用いて、式(20)により、平滑化された統計量Gバー、kバーを計算する(SS173)。モデル空間変換行列推定部175は、統計量Gバー、kバーを用いて、式(19)により、モデル空間の変換行列を推定する(S175)。音響モデル更新部180は、推定されたモデル空間の変換行列を用いて式(23)により、音響モデルの平均を計算し、音響モデル141を更新する(S180)。   In the present embodiment, each component of the speech recognition apparatus 100 executes the above-described processing in section 4. First, the feature vector extraction unit 110 extracts an N-dimensional feature vector from the input audio signal (S110). Next, the feature vector storage unit 115 stores an N-dimensional feature vector (S115). The stored N-dimensional feature vector is used for feature vector conversion in both steps S120-1 and S120-2 described later. The feature vector conversion unit 120 converts the feature vector using a conversion matrix (S120-1). Here, the initial value of the transformation matrix is assumed to be stored in the initial transformation matrix storage unit 125, and the initial transformation matrix is used when the feature vector transformation unit 120 is operated for the first time (in step S120-1). To do. Since the initial transformation matrix is a unit transformation matrix (the bias is all 0 and the rotation matrix is a unit matrix), the feature vector o (t) before the transformation and the feature vector o (t) after the transformation are the same. . Next, the speech recognition unit 130 performs speech recognition using the acoustic model 141, the language model 142, and the word dictionary 143 stored in the recognition data storage unit 140, and generates a speech recognition result from the converted feature vector. (S130-1). The recognition result storage unit 145 stores the generated speech recognition result (S145-1). Next, the feature space statistic calculation unit 150 calculates the statistic G hat and k hat using the equation (16) (S150). The feature space transformation matrix estimation unit 155 estimates the transformation matrix of the feature space using Equation (15) (S155). Next, the feature vector conversion unit 120 converts the feature vector stored in the feature vector storage unit 115 using the feature space conversion matrix estimated by the feature space conversion matrix estimation unit 155 (S120-2). Similar to step S130-1, the speech recognition unit 130 generates a speech recognition result from the feature vector converted using the feature space conversion matrix in step S120-2 (S130-2). The recognition result storage unit 145 stores the generated speech recognition result (S145-2). Next, the tree structure determination unit 160 classifies the speech recognition result into a tree structure using Expression (18), and determines hyperparameter C tilde and V tilde (S160). Next, the statistic G tilde calculation means 171 calculates the statistic G tilde according to the equation (21) (SS171). Next, the statistic k tilde calculation means calculates the statistic k tilde using equation (22) (SS172). The smoothed statistic calculation means 173 calculates the statistic G tilde, the statistic k tilde, the hyperparameter C tilde, and the V tilde using the equation (20) to calculate the smoothed statistic G bar and k bar. (SS173). The model space transformation matrix estimation unit 175 estimates the transformation matrix of the model space according to the equation (19) using the statistics G bar and k bar (S175). The acoustic model update unit 180 calculates the average of the acoustic model according to the equation (23) using the estimated transformation matrix of the model space, and updates the acoustic model 141 (S180).

このように、本実施例の音声認識装置100によれば、あらかじめ定めた共通の事前分布を用いて、特徴空間とモデル空間を同時適応するため、事前分布の計算量を削減するという実施例1と共通する効果に加えて、適応データ量が少ない場合には事前分布を使用したことにより認識率が向上し、適応データ量が多い場合には特徴空間とモデル空間を組み合わせて話者適応を行なったことにより認識率が向上するため、適応データ量の多少に関わらず認識率が向上する。   As described above, according to the speech recognition apparatus 100 of the present embodiment, in order to simultaneously adapt the feature space and the model space using a predetermined common prior distribution, the calculation amount of the prior distribution is reduced. In addition to the common effects, the recognition rate is improved by using prior distribution when the amount of adaptive data is small, and speaker adaptation is performed by combining the feature space and model space when the amount of adaptive data is large. As a result, the recognition rate is improved, so that the recognition rate is improved regardless of the amount of adaptive data.

[変形例1]
以下、図5、図6を参照して、実施例2の音声認識装置100の変形例である変形例1の音声認識装置について説明する。図5は本変形例の音声認識装置100’の構成を示すブロック図である。図6は本変形例の音声認識装置100’の動作を示すフローチャートである。本変形例の音声認識装置100’は、実施例2と同様に、実施例1の方法により予め求めた事前分布を共通に用いて特徴空間とモデル空間を同時適応することを特徴とする。本変形例の音声認識装置100’は、特徴ベクトル抽出部110と、特徴ベクトル格納部115と、特徴ベクトル変換部120と、初期変換行列格納部125と、音声認識部130と、認識用データ記憶部140と、認識結果格納部145と、特徴空間統計量計算部150と、特徴空間変換行列推定部155と、木構造決定部160’と、モデル空間統計量計算部170と、モデル空間変換行列推定部175と、音響モデル更新部180と、事前分布記憶部190とを備える。木構造決定部160’以外の各構成部は、実施例2の音声認識装置100において同一の番号を付した各構成部と同一の動作をするため説明を割愛する。
[Modification 1]
Hereinafter, with reference to FIG. 5 and FIG. 6, a speech recognition apparatus according to Modification 1 which is a modification of the speech recognition apparatus 100 according to Embodiment 2 will be described. FIG. 5 is a block diagram showing a configuration of a speech recognition apparatus 100 ′ according to this modification. FIG. 6 is a flowchart showing the operation of the speech recognition apparatus 100 ′ of this modification. Similar to the second embodiment, the speech recognition apparatus 100 ′ of the present modification is characterized in that the feature space and the model space are simultaneously adapted using the prior distribution previously obtained by the method of the first embodiment in common. The speech recognition apparatus 100 ′ of the present modification includes a feature vector extraction unit 110, a feature vector storage unit 115, a feature vector conversion unit 120, an initial transformation matrix storage unit 125, a speech recognition unit 130, and a recognition data storage. Unit 140, recognition result storage unit 145, feature space statistic calculation unit 150, feature space conversion matrix estimation unit 155, tree structure determination unit 160 ′, model space statistic calculation unit 170, model space conversion matrix An estimation unit 175, an acoustic model update unit 180, and a prior distribution storage unit 190 are provided. Since each component other than the tree structure determining unit 160 ′ performs the same operation as each component having the same number in the speech recognition apparatus 100 of the second embodiment, the description thereof is omitted.

従って、ステップS110〜ステップS145−1は実施例2と同様に実行される。次に、木構造決定部160’は、式(18)’を用いて最初に得た音声認識結果を木構造に分類して、ハイパーパラメータCチルダ、Vチルダを決定する(S160’−1)。式(18)’を以下に示す。

Figure 0005647159
Accordingly, steps S110 to S145-1 are executed in the same manner as in the second embodiment. Next, the tree structure determination unit 160 ′ classifies the speech recognition result obtained first using the equation (18) ′ into a tree structure, and determines hyperparameter C tilde and V tilde (S160′-1). . Equation (18) ′ is shown below.
Figure 0005647159

以下、ステップS150〜ステップS145−2が実施例2と同様に実行される。次に、木構造決定部160’は、式(18)を用いて二度目に得た音声認識結果を木構造に分類してハイパーパラメータCチルダ、Vチルダを決定する(S160’−2)。以下、実施例2と同様にステップS170、ステップS175、ステップS180が実行される。   Thereafter, step S150 to step S145-2 are executed in the same manner as in the second embodiment. Next, the tree structure determination unit 160 'classifies the speech recognition result obtained a second time using the equation (18) into a tree structure, and determines hyperparameter C tilde and V tilde (S160'-2). Thereafter, step S170, step S175, and step S180 are executed as in the second embodiment.

このように、本変形例の音声認識装置100’によれば、特徴空間でも木構造を使って話者適応を行うことにより、適応データ量が多い場合に、実施例2よりさらに認識率が向上する。   As described above, according to the speech recognition apparatus 100 ′ of the present modified example, the speaker adaptation is performed using the tree structure even in the feature space, so that when the amount of adaptive data is large, the recognition rate is further improved compared to the second embodiment. To do.

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。   In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。   Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

Claims (5)

複数の話者の入力音声から話者毎の特徴ベクトルを抽出する特徴ベクトル抽出部と、
前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定する第1変換行列推定部と、
前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換する特徴ベクトル変換部と、
前記特徴ベクトル変換部により変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行うMLE音響モデル学習部と、
前記特徴ベクトル抽出部で変換された特徴ベクトルと、前記MLE音響モデル学習部により学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定する第2変換行列推定部と、
前記第2の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、前記事前分布のハイパーパラメータを出力する事前分布計算部と、
を備えることを特徴とする事前分布計算装置。
A feature vector extraction unit that extracts feature vectors for each speaker from input speech of a plurality of speakers;
A first transformation matrix estimation unit for estimating a first transformation matrix for each speaker by feature space maximum likelihood linear regression using the feature vector and an initial acoustic model previously learned from data of all speakers;
A feature vector conversion unit that converts a feature vector of a corresponding speaker using the first conversion matrix for each speaker;
An MLE acoustic model learning unit that performs acoustic model learning by a maximum likelihood method using the feature vector converted by the feature vector conversion unit;
A second transformation matrix is estimated for each speaker by feature space maximum likelihood linear regression using the feature vector transformed by the feature vector extraction unit and the acoustic model learned by the MLE acoustic model learning unit. A transformation matrix estimation unit;
Calculating a multivariate normal distribution of a matrix using the second transformation matrix, setting the multivariate normal distribution as a prior distribution, and outputting a hyperparameter of the prior distribution;
A prior distribution calculation device comprising:
入力音声から特徴ベクトルを抽出する特徴ベクトル抽出部と、
単位変換行列からなる初期変換行列、または特徴空間変換行列を用いて前記特徴ベクトルを変換する特徴ベクトル変換部と、
音響モデルを記憶する認識用データ記憶部と、
前記音響モデルと前記特徴ベクトル変換部により変換された特徴ベクトルとを用いて音声認識を行う音声認識部と、
事前分布のハイパーパラメータを用いて特徴空間の変換行列推定に用いる統計量を計算する特徴空間統計量計算部と、
前記特徴空間統計量計算部が計算した統計量を用いて特徴空間変換行列を推定する特徴空間変換行列推定部と、
前記事前分布のハイパーパラメータを用いてモデル空間の変換行列推定に用いる統計量を計算するモデル空間統計量計算部と、
前記モデル空間統計量計算部が計算した統計量を用いてモデル空間変換行列を推定するモデル空間変換行列推定部と、
前記推定されたモデル空間変換行列を用いて前記音響モデルを更新する音響モデル更新部とを備える音声認識装置であって、
前記特徴空間統計量計算部と、前記モデル空間統計量計算部とで共通に用いられる事前分布が、
複数の話者の入力音声を話者毎に特徴ベクトルに変換し、前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定し、前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換し、前記第1の変換行列を用いて変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行い、前記第1の変換行列で変換される前の特徴ベクトルと、前記学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定し、前記第2の変換行列を用いて計算された行列の多変量正規分布であること
を特徴とする音声認識装置。
A feature vector extraction unit that extracts a feature vector from input speech;
A feature vector conversion unit that converts the feature vector using an initial conversion matrix comprising a unit conversion matrix or a feature space conversion matrix;
A data storage unit for recognition that stores an acoustic model;
A speech recognition unit that performs speech recognition using the acoustic model and the feature vector converted by the feature vector conversion unit;
A feature space statistic calculation unit that calculates a statistic used for estimating a transformation matrix of the feature space using a hyperparameter of a prior distribution;
A feature space transformation matrix estimation unit that estimates a feature space transformation matrix using the statistics calculated by the feature space statistics calculation unit;
A model space statistic calculator for calculating a statistic used for estimating a transformation matrix of a model space using the hyperparameter of the prior distribution;
A model space transformation matrix estimation unit for estimating a model space transformation matrix using the statistics calculated by the model space statistics calculation unit;
A speech recognition apparatus comprising: an acoustic model update unit that updates the acoustic model using the estimated model space transformation matrix;
Prior distribution used in common by the feature space statistic calculator and the model space statistic calculator is
Each speaker's input speech is converted into a feature vector for each speaker, and each speaker is subjected to feature space maximum likelihood linear regression using the feature vector and an initial acoustic model previously learned from the data of all speakers. The first transformation matrix is estimated, the feature vector of the corresponding speaker is transformed using the first transformation matrix for each speaker, and the feature vector transformed using the first transformation matrix is And the acoustic model is learned by the maximum likelihood method, and the feature vector before being transformed by the first transformation matrix and the learned acoustic model are used for each speaker by the feature space maximum likelihood linear regression. A speech recognition apparatus, wherein the second transformation matrix is estimated to be a multivariate normal distribution of a matrix calculated using the second transformation matrix.
複数の話者の入力音声を話者毎の特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定する第1変換行列推定ステップと、
前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換する特徴ベクトル変換ステップと、
前記特徴ベクトル変換ステップにより変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行うMLE音響モデル学習ステップと、
前記特徴ベクトル抽出ステップで変換された特徴ベクトルと、前記MLE音響モデル学習ステップにより学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定する第2変換行列推定ステップと、
前記第2の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、前記事前分布のハイパーパラメータを出力する事前分布計算ステップと、
を有することを特徴とする事前分布計算方法。
A feature vector extraction step of extracting feature vectors for each speaker from the input speech of a plurality of speakers;
A first transformation matrix estimation step for estimating a first transformation matrix for each speaker by feature space maximum likelihood linear regression using the feature vector and an initial acoustic model previously learned from data of all speakers;
A feature vector conversion step of converting a feature vector of a corresponding speaker using the first conversion matrix for each speaker;
An MLE acoustic model learning step of learning an acoustic model by a maximum likelihood method using the feature vector converted by the feature vector conversion step;
A second transformation matrix is estimated for each speaker by feature space maximum likelihood linear regression using the feature vector transformed in the feature vector extraction step and the acoustic model learned in the MLE acoustic model learning step. A transformation matrix estimation step;
Calculating a multivariate normal distribution of a matrix using the second transformation matrix, setting the multivariate normal distribution as a prior distribution, and outputting a hyperparameter of the prior distribution;
A prior distribution calculation method characterized by comprising:
入力音声から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
単位変換行列からなる初期変換行列、または特徴空間変換行列を用いて前記特徴ベクトルを変換する特徴ベクトル変換ステップと、
音響モデルと前記特徴ベクトル変換ステップにより変換された特徴ベクトルとを用いて音声認識を行う音声認識ステップと、
事前分布のハイパーパラメータを用いて特徴空間の変換行列推定に用いる統計量を計算する特徴空間統計量計算ステップと、
前記特徴空間統計量計算ステップが計算した統計量を用いて特徴空間変換行列を推定する特徴空間変換行列推定ステップと、
前記事前分布のハイパーパラメータを用いてモデル空間の変換行列推定に用いる統計量を計算するモデル空間統計量計算ステップと、
前記モデル空間統計量計算ステップが計算した統計量を用いてモデル空間変換行列を推定するモデル空間変換行列推定ステップと、
前記推定されたモデル空間の変換行列を用いて前記音響モデルを更新する音響モデル更新ステップとを有する音声認識方法であって、
前記特徴空間統計量計算ステップと、前記モデル空間統計量計算ステップとで共通に用いられる事前分布が、
複数の話者の入力音声から話者毎の特徴ベクトルを抽出し、前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定し、前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換し、前記第1の変換行列を用いて変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行い、前記第1の変換行列で変換される前の特徴ベクトルと、前記学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定し、前記第2の変換行列を用いて計算された行列の多変量正規分布であること
を特徴とする音声認識方法。
A feature vector extraction step for extracting a feature vector from the input speech;
A feature vector conversion step of converting the feature vector using an initial conversion matrix comprising a unit conversion matrix or a feature space conversion matrix;
A speech recognition step for performing speech recognition using an acoustic model and the feature vector converted by the feature vector conversion step;
A feature space statistic calculation step for calculating a statistic used for estimating a transformation matrix of the feature space using a hyperparameter of a prior distribution;
A feature space transformation matrix estimation step for estimating a feature space transformation matrix using the statistics calculated by the feature space statistics calculation step;
A model space statistic calculation step for calculating a statistic used for estimating a transformation matrix of the model space using the hyperparameter of the prior distribution;
A model space transformation matrix estimation step for estimating a model space transformation matrix using the statistics calculated by the model space statistics calculation step;
An acoustic model update step of updating the acoustic model using a transformation matrix of the estimated model space,
Prior distribution commonly used in the feature space statistic calculation step and the model space statistic calculation step is:
A feature vector for each speaker is extracted from input speech of a plurality of speakers, and each speaker is subjected to feature space maximum likelihood linear regression using the feature vector and an initial acoustic model previously learned from data of all speakers. The first transformation matrix is estimated, the feature vector of the corresponding speaker is transformed using the first transformation matrix for each speaker, and the feature vector transformed using the first transformation matrix is And the acoustic model is learned by the maximum likelihood method, and the feature vector before being transformed by the first transformation matrix and the learned acoustic model are used for each speaker by the feature space maximum likelihood linear regression. A speech recognition method, wherein the second transformation matrix is estimated to be a multivariate normal distribution of a matrix calculated using the second transformation matrix.
コンピュータを、請求項1又は2に記載の装置として機能させるためのプログラム。   A program for causing a computer to function as the apparatus according to claim 1.
JP2012041441A 2012-02-28 2012-02-28 Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program Active JP5647159B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012041441A JP5647159B2 (en) 2012-02-28 2012-02-28 Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012041441A JP5647159B2 (en) 2012-02-28 2012-02-28 Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program

Publications (2)

Publication Number Publication Date
JP2013178343A JP2013178343A (en) 2013-09-09
JP5647159B2 true JP5647159B2 (en) 2014-12-24

Family

ID=49270042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012041441A Active JP5647159B2 (en) 2012-02-28 2012-02-28 Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program

Country Status (1)

Country Link
JP (1) JP5647159B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6433516B2 (en) * 2015-02-13 2018-12-05 三菱電機株式会社 Speech recognition device, acoustic model learning device, speech recognition method, and acoustic model learning method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4016A (en) * 1845-04-26 Improvement in the method of attaching a movable to the stationary keel of a vessel
JP3088357B2 (en) * 1997-09-08 2000-09-18 株式会社エイ・ティ・アール音声翻訳通信研究所 Unspecified speaker acoustic model generation device and speech recognition device
DE10047718A1 (en) * 2000-09-27 2002-04-18 Philips Corp Intellectual Pty Speech recognition method
JP5288378B2 (en) * 2009-08-27 2013-09-11 独立行政法人情報通信研究機構 Acoustic model speaker adaptation apparatus and computer program therefor

Also Published As

Publication number Publication date
JP2013178343A (en) 2013-09-09

Similar Documents

Publication Publication Date Title
EP3479377B1 (en) Speech recognition
JP5423670B2 (en) Acoustic model learning device and speech recognition device
JP6243858B2 (en) Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program
US20120130716A1 (en) Speech recognition method for robot
JP5861649B2 (en) Model adaptation device, model adaptation method, and model adaptation program
JP2019144402A (en) Voice conversion learning device, voice conversion device, method and program
JP2007279444A (en) Feature amount compensation apparatus, method and program
JP6517760B2 (en) Mask estimation parameter estimation device, mask estimation parameter estimation method and mask estimation parameter estimation program
JP2019159823A (en) Learning program, learning method and learning device
WO2020045313A1 (en) Mask estimation device, mask estimation method, and mask estimation program
Mirsamadi et al. A study on deep neural network acoustic model adaptation for robust far-field speech recognition.
JP2010078650A (en) Speech recognizer and method thereof
JP5881454B2 (en) Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal
JP2009086581A (en) Apparatus and program for creating speaker model of speech recognition
JP5647159B2 (en) Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program
JP2018128500A (en) Formation device, formation method and formation program
Lee et al. Training hidden Markov models by hybrid simulated annealing for visual speech recognition
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP6633556B2 (en) Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method, and program
JP4612435B2 (en) Acoustic model learning device and speech recognition device
JP4256314B2 (en) Acoustic model creation method for speech recognition, acoustic model creation device for speech recognition, acoustic model creation program for speech recognition, and recording medium recording this program
JPWO2019123642A1 (en) Image recognition systems, methods and programs, and parameter learning systems, methods and programs
JP6114053B2 (en) Sound source separation device, sound source separation method, and program
JP6324647B1 (en) Speaker adaptation device, speech recognition device, and speech recognition method
JP5498452B2 (en) Background sound suppression device, background sound suppression method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141028

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141106

R150 Certificate of patent or registration of utility model

Ref document number: 5647159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150