JP5647159B2 - Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program - Google Patents
Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program Download PDFInfo
- Publication number
- JP5647159B2 JP5647159B2 JP2012041441A JP2012041441A JP5647159B2 JP 5647159 B2 JP5647159 B2 JP 5647159B2 JP 2012041441 A JP2012041441 A JP 2012041441A JP 2012041441 A JP2012041441 A JP 2012041441A JP 5647159 B2 JP5647159 B2 JP 5647159B2
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- transformation matrix
- space
- feature
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、特徴空間と音響モデル空間で共通に用いる事前分布を生成する事前分布計算装置、事前分布計算方法、プログラム、およびこの事前分布を用いた音声認識装置、音声認識方法、プログラムに関する。 The present invention relates to a prior distribution calculation device, a prior distribution calculation method, and a program for generating a prior distribution commonly used in a feature space and an acoustic model space, and a speech recognition device, a speech recognition method, and a program using the prior distribution.
音声認識の入力信号に影響を与えるさまざまな変動要因(例えば、話者、雑音、通信チャンネル、マイクなど)による悪影響を防ぐため、適応技術が発展してきた。特にモデルに基づく適応技術は変換行列による線形変換で音響モデルのすべてのパラメータを適応させることができるので、適応技術として多く使われている。 Adaptation techniques have been developed to prevent the adverse effects of various variables (eg, speakers, noise, communication channels, microphones, etc.) that affect the speech recognition input signal. In particular, model-based adaptation techniques are often used as adaptation techniques because all parameters of an acoustic model can be adapted by linear transformation using a transformation matrix.
モデルに基づく線形変換形式の適応技術として、Unconstrained_Maximum_Likelihood_Linear_Regression(UMLLR、制約無し最尤線形回帰;以下MLLRと呼ぶ)(非特許文献1)とConstrained_Maximum_Likelihood_Linear_Regression(CMLLR、制約付き最尤線形回帰)(非特許文献2)が知られている。前者はモデル空間、後者は特徴空間での適応手法である。CMLLRは特徴空間での変換式表現できるのでfeature_space_MLLR(fMLLR、特徴空間最尤線形回帰)とも呼ばれる。特にこの手法はSpeaker_Adaptive_Training(SAT、話者適応学習)(非特許文献3)に対して効果的であり、メモリ使用量、計算量を削減できるという利点がある。 As the adaptation technique of the linear transformation format based on the model, Unconstrained_Maximum_Likelihood_Linear_Regression (UMLRR, unconstrained maximum likelihood linear regression; hereinafter referred to as MLLR) (Non-Patent Document 1) and Constrained_Maximum_LikeliLedReliable_Least )It has been known. The former is an adaptation method in a model space, and the latter is a feature space. CMLLR is also called feature_space_MLLR (fMLLR, feature space maximum likelihood linear regression) because it can express a conversion formula in the feature space. In particular, this method is effective for Speaker_Adaptive_Training (SAT, speaker adaptive learning) (Non-patent Document 3), and has an advantage that the amount of memory used and the amount of calculation can be reduced.
しかし、上述したMLLR(最尤線形回帰)などの事前分布を用いない変換行列推定方法では、適応データ量が少ないときに信頼性のある推定ができないため、認識率の低下及び認識自体ができない場合が生じる。よってこの問題を解決するため事前分布を用いた手法が提案されている。 However, the transformation matrix estimation method that does not use the prior distribution such as MLLR (maximum likelihood linear regression) described above cannot perform reliable estimation when the amount of adaptive data is small, and thus cannot reduce the recognition rate and cannot recognize itself. Occurs. Therefore, a method using prior distribution has been proposed to solve this problem.
事前分布を用いた代表的な方法はMaximum_A_Posteriori_Linear_Regression(MAPLR)(非特許文献4)、Structural_MAPLR(SMAPLR)(非特許文献5)、feature_space_MAPLR(fMAPLR)(非特許文献6)が挙げられる。MAPLRとSMAPLRは音響モデル空間での適応手法で、fMAPLRは特徴空間での適応手法である。事前分布には、各手法を用いた学習データに含まれている話者の変換行列の分布が用いられる。 Typical methods using the prior distribution include Maximum_A_Posterori_Linear_Regulation (MAPLR) (Non-Patent Document 4), Structural_MAPLR (SMAPLR) (Non-Patent Document 5), and feature_space_MAPLR (fMAPLR) (Non-Patent Document 6). MAPLR and SMAPLR are adaptive methods in the acoustic model space, and fMAPLR is an adaptive method in the feature space. For the prior distribution, the distribution of the conversion matrix of the speakers included in the learning data using each method is used.
従来のMLLRを利用したSATは必要なメモリ量と計算量が多い。この理由としてはMLLRでよく使われている木構造を元に適応データによって選択されたノードの変換行列推定が行われるためである。一般的に学習データ量はテストデータ量に比べてはるかに多く、木構造から選択されるノードが多いため推定すべき話者毎の変換行列数が増加する。さらにMLLRでは平均と分散の変換行列が異なるためCMLLRと比べ二倍の計算量とメモリが必要になる。 A conventional SAT using MLLR requires a large amount of memory and calculation. This is because the transformation matrix of the node selected by the adaptive data is estimated based on the tree structure often used in MLLR. In general, the amount of learning data is much larger than the amount of test data, and since there are many nodes selected from the tree structure, the number of transformation matrices for each speaker to be estimated increases. Furthermore, since MLLR has different conversion matrices for average and variance, it requires twice the amount of calculation and memory compared to CMLLR.
モデル空間での適応方法、特徴空間での適応方法の双方を組み合わせて話者適応を行うことで、適応データ量が多い場合には、モデルか特徴空間だけでの適応方法に比べ認識性能の向上を図ることができる。しかしながら、上記組み合わせの手法によっても事前分布を用いなければ、適応データ量が少ない場合に信頼性の高い推定を行うことが出来ない。一方、モデル空間での適応、特徴空間での適応の双方に対して、事前分布を用いることとすると、各々に対して別々に事前分布を計算することとなり、計算量が増大してしまう。 When speaker adaptation is performed by combining both the adaptation method in the model space and the adaptation method in the feature space, the recognition performance improves when the amount of adaptation data is large compared to the adaptation method in the model or feature space alone. Can be achieved. However, if the prior distribution is not used even by the above combination method, it is impossible to perform highly reliable estimation when the amount of adaptive data is small. On the other hand, if the prior distribution is used for both the adaptation in the model space and the adaptation in the feature space, the prior distribution is calculated separately for each, and the calculation amount increases.
そこで、本発明では、モデル空間での適応および特徴空間での適応の双方に共通に用いることができる事前分布を生成し、事前分布の計算量を削減することができる事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラムを提供することを目的とする。 Therefore, the present invention generates a prior distribution that can be commonly used for both adaptation in the model space and adaptation in the feature space, and reduces the amount of calculation of the prior distribution, speech recognition An object is to provide a device, a prior distribution calculation method, a speech recognition method, and a program.
本発明の事前分布計算装置は、特徴ベクトル抽出部と、第1変換行列推定部と、特徴ベクトル変換部と、MLE音響モデル学習部と、第2変換行列推定部と、事前分布計算部とを備える。 The prior distribution calculation device of the present invention includes a feature vector extraction unit, a first transformation matrix estimation unit, a feature vector conversion unit, an MLE acoustic model learning unit, a second transformation matrix estimation unit, and a prior distribution calculation unit. Prepare.
特徴ベクトル抽出部は、複数の話者の入力音声から話者毎の特徴ベクトルを抽出する。第1変換行列推定部は、特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定する。特徴ベクトル変換部は、話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換する。MLE音響モデル学習部は、特徴ベクトル変換部により変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行う。第2変換行列推定部は、特徴ベクトル抽出部で抽出された特徴ベクトルと、MLE音響モデル学習部により学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定する。事前分布計算部は、第2の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、事前分布のハイパーパラメータを出力する。 The feature vector extraction unit extracts feature vectors for each speaker from the input speech of a plurality of speakers. The first transformation matrix estimation unit estimates a first transformation matrix for each speaker by feature space maximum likelihood linear regression using a feature vector and an initial acoustic model previously learned from data of all speakers. The feature vector conversion unit converts the feature vector of the corresponding speaker using the first conversion matrix for each speaker. The MLE acoustic model learning unit learns the acoustic model by the maximum likelihood method using the feature vector converted by the feature vector conversion unit. The second transformation matrix estimation unit performs second transformation for each speaker by feature space maximum likelihood linear regression using the feature vector extracted by the feature vector extraction unit and the acoustic model learned by the MLE acoustic model learning unit. Estimate the matrix. The prior distribution calculation unit calculates a multivariate normal distribution of the matrix using the second transformation matrix, and outputs the hyperparameter of the prior distribution using the multivariate normal distribution as the prior distribution.
本発明の事前分布計算装置によれば、モデル空間での適応および特徴空間での適応の双方に共通に用いることができる事前分布を生成し、事前分布の計算量を削減することができる。 According to the prior distribution calculation device of the present invention, it is possible to generate a prior distribution that can be commonly used for both adaptation in the model space and adaptation in the feature space, and reduce the amount of calculation of the prior distribution.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.
以下、図1、図2を参照して実施例1の事前分布計算装置について詳細に説明する。図1は本実施例の事前分布計算装置1の構成を示すブロック図である。図2は本実施例の事前分布計算装置1の動作を示すフローチャートである。本実施例の事前分布計算装置1は、特徴ベクトル抽出部10と、第1変換行列推定部20と、特徴ベクトル変換部30と、MLE音響モデル学習部40と、正規化済み音響モデル格納部50と、第2変換行列推定部60と、事前分布計算部70と、初期音響モデル格納部80とを備える。第1変換行列推定部20は、統計量G計算手段21と、統計量k計算手段22と、変換行列推定手段23と、反復学習手段24とを備える。MLE音響モデル学習部40は、平均更新手段41と、分散更新手段42とを備える。事前分布計算部70は、パラメータC計算手段71と、パラメータV計算手段72とを備える。初期音響モデル格納部80には、全話者のデータを用いて学習された音響モデルが初期音響モデルとして予め記憶されている。
Hereinafter, the prior distribution calculation apparatus according to the first embodiment will be described in detail with reference to FIGS. 1 and 2. FIG. 1 is a block diagram showing the configuration of the prior distribution calculation apparatus 1 of the present embodiment. FIG. 2 is a flowchart showing the operation of the prior distribution calculation apparatus 1 of the present embodiment. The prior distribution calculation apparatus 1 of the present embodiment includes a feature
以下、最初に処理の概要を三節に分けて説明し、各節の最後に、各節における各構成部の具体的な処理を説明する。 Hereinafter, the outline of the process will be described in three sections first, and specific processes of each component in each section will be described at the end of each section.
<1.変換行列の推定(第1変換行列推定部20の処理)>
本実施例の事前分布計算装置1は、全話者のデータを用いて予め学習された初期音響モデルと、各話者の入力音声を話者毎に変換した特徴ベクトルに基づいてfMLLR(特徴空間最尤線形回帰)で各話者の変換行列(第1変換行列)を推定する。まず、入力音声から抽出された特徴ベクトルをo(t)と定義する。このとき、o(t)は、t番目のフレームのN次元特徴ベクトルを表す。本実施例の事前分布計算装置1は、この特徴ベクトルo(t)を変換行列を用いて特徴ベクトルo(t)ハットに変換する。変換された特徴ベクトルo(t)ハットは以下のようになる。
<1. Estimation of transformation matrix (processing of first transformation matrix estimation unit 20)>
The prior distribution calculation apparatus 1 according to the present embodiment uses an initial acoustic model learned in advance using data of all speakers and a feature vector obtained by converting each speaker's input speech for each speaker. The conversion matrix (first conversion matrix) of each speaker is estimated by maximum likelihood linear regression. First, a feature vector extracted from input speech is defined as o (t). At this time, o (t) represents the N-dimensional feature vector of the t-th frame. The prior distribution calculation apparatus 1 of the present embodiment converts this feature vector o (t) into a feature vector o (t) hat using a conversion matrix. The transformed feature vector o (t) hat is as follows.
変換行列推定のためのQ関数は以下のように定義される。
ここで、Wの最適化問題(αの推定)は非特許文献2に詳述されている。変換行列Wのi行目は以下のように求まる。
また、変換行列推定のためのi次元目の統計量G(i)とk(i)は入力音声の拡張特徴ベクトルξ(t)とu番目の混合ガウス分布のi次元目平均μi (u)と分散σi (u)を用いて以下の式のように計算される。
Row−by−row変換行列の推定の後、次式を用いて最尤法で反復学習を行う。
本実施例では、上述した第1節の処理を第1変換行列推定部20が実行する。従って、まず特徴ベクトル抽出部10は、S人の話者(話者1、…、話者S、Sは2以上の整数)の入力音声からN次元特徴ベクトルo(t)を抽出する(S10)。前述したように、初期音響モデル格納部80には、全話者のデータを用いて学習された音響モデルが初期音響モデルとして予め記憶されている。統計量G計算手段21は、式(4)により統計量Gを計算する(SS21)。統計量k計算手段22は、式(5)により統計量kを計算する(SS22)次に、変換行列推定手段23は、式(3)により、変換行列を推定する(SS23)。これらのサブステップSS21〜SS23の処理は、次元(行)iの全ての取りうる値について繰り返し実行され、変換行列Wが得られる。次に、反復学習手段24は、式(6)を用いて、最尤法で変換行列の反復学習を行う(SS24)。以上のステップS10、S20により話者1〜話者Sの変換行列が求められる。
In the present embodiment, the first transformation matrix estimation unit 20 executes the processing of the first section described above. Therefore, first, the feature
<2.音響モデルの学習(特徴ベクトル変換部30、MLE音響モデル学習部40の処理)>
本実施例の事前分布計算装置1は、話者1〜話者Sの変換行列を利用して、各話者の特徴ベクトルを変換し、変換された特徴ベクトル(学習データ)を用いて最尤法で音響モデルの学習を行う。音響モデル学習(SAT)のためのQ関数は以下のように定義される。
The prior distribution calculation apparatus 1 of the present embodiment uses the conversion matrix of speakers 1 to S to convert each speaker's feature vector, and uses the converted feature vector (learning data) for maximum likelihood. The acoustic model is learned by the method. The Q function for acoustic model learning (SAT) is defined as follows.
変換後の特徴ベクトルo(s)(t)ハットは以下の式により計算される。
式(7)の処理は、従来の最尤法(MLE、Maximum_Likelihood_Estimation)と比較して、特徴ベクトルのみが異なる処理となっている。すなわち、元の特徴ベクトルo(s)(t)の代わりにo(s)(t)ハットを使い、従来のMLEと同様の学習を行う。 The processing of Expression (7) is processing in which only the feature vector is different compared to the conventional maximum likelihood method (MLE, Maximum_Likelihood_Estimation). That is, learning similar to conventional MLE is performed using o (s) (t) hat instead of the original feature vector o (s) (t).
平均と分散の更新式は以下のようになる。
本実施例では、上述した第2節の処理のうち、式(8)にかかる処理を特徴ベクトル変換部30が実行し、残りの処理をMLE音響モデル学習部40が実行する。従って、特徴ベクトル変換部30は、第1変換行列推定部20により推定された変換行列により、式(8)を用いて、特徴ベクトル抽出部10で生成された特徴ベクトルを変換する(S30)。次に、MLE(最尤度)による音響モデルの学習は各学習回数毎に平均と分散とを更新しながら尤度が収束するまで繰り返し行われる。平均更新手段41は、式(9)を用いて、変換後の特徴ベクトルから平均を求める(SS41)。分散更新手段42は、式(10)を用いて、変換後の特徴ベクトルから分散を求める(SS42)。各話者の変換行列を用いて変換された特徴を用いて学習した、話者の変異が正規化された音響モデルは次の処理のため、正規化済み音響モデル格納部50に格納される(S50)。
In the present embodiment, the feature
<3.事前分布の計算(第2変換行列推定部60、事前分布計算部70の処理)>
本実施例の事前分布計算装置1は、MLE音響モデル学習部40で学習された音響モデルを用いて、第1節と同様に、fMLLRで各話者毎の変換行列(第2変換行列)を求める。本実施例の事前分布計算装置1は、求めた各話者の変換行列(第2変換行列)の事前分布(各次元毎の平均と分散)を求める。
<3. Calculation of Prior Distribution (Processing of Second Transformation
The prior distribution calculation apparatus 1 according to the present embodiment uses the acoustic model learned by the MLE acoustic model learning unit 40 to obtain a transformation matrix (second transformation matrix) for each speaker using fMLLR, as in the first section. Ask. The prior distribution calculation apparatus 1 according to the present embodiment obtains a prior distribution (average and variance for each dimension) of the obtained transformation matrix (second transformation matrix) of each speaker.
まず、事前分布計算のため、MLE音響モデル学習部40で学習した音響モデルを用いて、fMLLRにより、第1変換行列推定部20と同様の処理(式(3)〜(6))を再度行って、各話者の変換行列(第2変換行列)を求めておく。事前分布の計算は非特許文献4に記載の行列の多変量正規分布を用いる。この多変量正規分布は以下の式のように定義される。
ここで分散ハイパーパラメータは非特許文献4のように単位行列と仮定する。全体話者数をSとし、S個の変換行列からハイパーパラメータC、Vを以下の式で求める。
本実施例では、上述した第3節の処理のうち、変換行列の推定処理については第2変換行列推定部60が実行し、式(12)にかかる処理を事前分布計算部70が実行する。従って、第2変換行列推定部60は、MLE音響モデル学習部40で学習した音響モデルを用いて、式(3)〜式(6)に基づいて、変換行列(第2変換行列)を推定する。この処理は、第1変換行列推定部20の処理と同様である。次に、求められた第2変換行列は行列の多変量正規化分布に従うという仮定下で、パラメータC計算手段71は、第2変換行列を用いて、式(12)により、ハイパーパラメータCを計算する(SS71)。パラメータV計算手段72は、第2変換行列を用いて、式(12)により、ハイパーパラメータVを計算する(SS72)。
In the present embodiment, among the processes of the third section described above, the second conversion
このように、本実施例の事前分布計算装置1によれば、モデル空間での適応および特徴空間での適応の双方に共通に用いることができる事前分布を生成し、事前分布の計算量を削減することができる。 Thus, according to the prior distribution calculation apparatus 1 of the present embodiment, a prior distribution that can be commonly used for both adaptation in the model space and adaptation in the feature space is generated, and the amount of calculation of the prior distribution is reduced. can do.
以下、図3、図4を参照して実施例2の音声認識装置について詳細に説明する。図3は本実施例の音声認識装置100の構成を示すブロック図である。図4は本実施例の音声認識装置100の動作を示すフローチャートである。本実施例の音声認識装置100は、実施例1の事前分布計算装置1により予め求めた事前分布を共通に用いて特徴空間とモデル空間を同時適応することを特徴とする。本実施例の音声認識装置100は、特徴ベクトル抽出部110と、特徴ベクトル格納部115と、特徴ベクトル変換部120と、初期変換行列格納部125と、音声認識部130と、認識用データ記憶部140と、認識結果格納部145と、特徴空間統計量計算部150と、特徴空間変換行列推定部155と、木構造決定部160と、モデル空間統計量計算部170と、モデル空間変換行列推定部175と、音響モデル更新部180と、事前分布記憶部190とを備える。認識用データ記憶部140は、音響モデル141と、言語モデル142と、単語辞書143とを備える。モデル空間統計量計算部170は、統計量Gチルダ計算手段171と、統計量kチルダ計算手段172と、平滑化統計量計算手段173とを備える。事前分布記憶部190には、実施例1で説明された方法で生成された事前分布のハイパーパラメータC、Vが予め記憶されている。
Hereinafter, the speech recognition apparatus according to the second embodiment will be described in detail with reference to FIGS. 3 and 4. FIG. 3 is a block diagram showing the configuration of the
以下、本実施例の音声認識装置100の処理の概要を説明し、その後に各構成部の具体的な処理内容を説明する。
Hereinafter, an outline of processing of the
<4.事前分布共有による特徴空間と音響モデル空間の同時適応>
本実施例の音声認識装置100は、入力音声を音声認識して、当該音声認識結果を元に(教師なし適応)統計量計算を行なう。統計量計算に際して、実施例1の方法により予め求めた事前分布が反映される。本実施例の音声認識装置100は、計算された統計量から特徴空間とモデル空間での変換行列を推定する。本実施例の音声認識装置100は、推定された特徴空間の変換行列と、モデル空間の変換行列を用いて、N次元特徴ベクトルと音響モデルをそれぞれ更新して再認識を行う。
<4. Simultaneous adaptation of feature space and acoustic model space by sharing prior distribution>
The
事前分布なしのML基準Q関数は以下のように定義される。
モデル空間での変換は平均のみを考慮する。つまり分散の適応は特徴空間で行われる。異なる空間での式(13)を直接最適化することは難しいので、ここでは同時最適化のため特徴空間とモデル空間で順番に最適化を行う方法を利用する。 Transformation in model space only considers the mean. In other words, the distribution is adapted in the feature space. Since it is difficult to directly optimize the expression (13) in different spaces, here, a method of performing optimization in order in the feature space and the model space is used for simultaneous optimization.
まずモデル空間変換行列Wr Mを単位変換行列[0n TIn×n]として、モデル空間での事前分布はないと仮定すれば、事前分布を用いた特徴空間でのQ関数は以下のようになる。
特徴空間でのi行目の変換行列は以下の式で推定できる。
ここで、統計量は事前分布を用いて以下のように計算される。
次に、事前分布を用いたモデル空間でのQ関数は以下のようになる。
モデル空間での事前分布のハイパーパラメータVチルダ、Cチルダは以下のように定義される。
r番目の再帰クラスのi行目の変換行列Wr Mは以下の式で定義される。
また平滑化された統計量G(i)バー、k(i)バーは以下の式を用いて計算される。
モデル空間での統計量Gチルダ、kチルダは以下の式を用いて計算される。
得られた変換行列を用いて、以下の式のように音響モデルの平均の更新を行う。
認識(テスト)時は入力音声の特徴ベクトルを特徴空間で求めた変換行列を用いて変換し、モデル空間変換行列で更新された音響モデルに基づいて認識を行う。 At the time of recognition (test), the feature vector of the input speech is transformed using the transformation matrix obtained in the feature space, and recognition is performed based on the acoustic model updated by the model space transformation matrix.
本実施例では、上述した4節の処理を音声認識装置100の各構成部が実行する。まず、特徴ベクトル抽出部110は、入力される音声信号からN次元特徴ベクトルを抽出する(S110)。次に、特徴ベクトル格納部115は、N次元特徴ベクトルを格納する(S115)。格納されたN次元特徴ベクトルは、後述するステップS120−1、S120−2の双方において、特徴ベクトル変換に用いられる。特徴ベクトル変換部120は、変換行列により特徴ベクトルを変換する(S120−1)。ここで、変換行列の初期値は初期変換行列格納部125に格納されているものとし、最初の(ステップS120−1における)特徴ベクトル変換部120の動作時には、初期変換行列が使用されるものとする。初期変換行列は単位変換行列(バイアスは全て0で、回転行列は単位行列)であるため、変換前の特徴ベクトルo(t)と、変換後の特徴ベクトルo(t)ハットは、同一となる。次に、音声認識部130は、認識用データ記憶部140に記憶された音響モデル141、言語モデル142、単語辞書143を用いて音声認識を行い、変換後の特徴ベクトルから音声認識結果を生成する(S130−1)。認識結果格納部145は、生成された音声認識結果を格納する(S145−1)。次に、特徴空間統計量計算部150は、式(16)を用いて統計量Gハット、kハットを計算する(S150)。特徴空間変換行列推定部155は、式(15)を用いて特徴空間の変換行列を推定する(S155)。次に、特徴ベクトル変換部120は、特徴空間変換行列推定部155が推定した特徴空間の変換行列を用いて、特徴ベクトル格納部115に格納済みの特徴ベクトルを変換する(S120−2)。音声認識部130は、ステップS130−1と同様に、ステップS120−2で特徴空間の変換行列を用いて変換した特徴ベクトルから音声認識結果を生成する(S130−2)。認識結果格納部145は、生成された音声認識結果を格納する(S145−2)。次に、木構造決定部160は、式(18)を用いて音声認識結果を木構造に分類して、ハイパーパラメータCチルダ、Vチルダを決定する(S160)。次に、統計量Gチルダ計算手段171は、式(21)により、統計量Gチルダを計算する(SS171)。次に、統計量kチルダ計算手段は、式(22)により、統計量kチルダを計算する(SS172)。平滑化統計量計算手段173は、統計量Gチルダ、統計量kチルダ、ハイパーパラメータCチルダ、Vチルダを用いて、式(20)により、平滑化された統計量Gバー、kバーを計算する(SS173)。モデル空間変換行列推定部175は、統計量Gバー、kバーを用いて、式(19)により、モデル空間の変換行列を推定する(S175)。音響モデル更新部180は、推定されたモデル空間の変換行列を用いて式(23)により、音響モデルの平均を計算し、音響モデル141を更新する(S180)。
In the present embodiment, each component of the
このように、本実施例の音声認識装置100によれば、あらかじめ定めた共通の事前分布を用いて、特徴空間とモデル空間を同時適応するため、事前分布の計算量を削減するという実施例1と共通する効果に加えて、適応データ量が少ない場合には事前分布を使用したことにより認識率が向上し、適応データ量が多い場合には特徴空間とモデル空間を組み合わせて話者適応を行なったことにより認識率が向上するため、適応データ量の多少に関わらず認識率が向上する。
As described above, according to the
[変形例1]
以下、図5、図6を参照して、実施例2の音声認識装置100の変形例である変形例1の音声認識装置について説明する。図5は本変形例の音声認識装置100’の構成を示すブロック図である。図6は本変形例の音声認識装置100’の動作を示すフローチャートである。本変形例の音声認識装置100’は、実施例2と同様に、実施例1の方法により予め求めた事前分布を共通に用いて特徴空間とモデル空間を同時適応することを特徴とする。本変形例の音声認識装置100’は、特徴ベクトル抽出部110と、特徴ベクトル格納部115と、特徴ベクトル変換部120と、初期変換行列格納部125と、音声認識部130と、認識用データ記憶部140と、認識結果格納部145と、特徴空間統計量計算部150と、特徴空間変換行列推定部155と、木構造決定部160’と、モデル空間統計量計算部170と、モデル空間変換行列推定部175と、音響モデル更新部180と、事前分布記憶部190とを備える。木構造決定部160’以外の各構成部は、実施例2の音声認識装置100において同一の番号を付した各構成部と同一の動作をするため説明を割愛する。
[Modification 1]
Hereinafter, with reference to FIG. 5 and FIG. 6, a speech recognition apparatus according to Modification 1 which is a modification of the
従って、ステップS110〜ステップS145−1は実施例2と同様に実行される。次に、木構造決定部160’は、式(18)’を用いて最初に得た音声認識結果を木構造に分類して、ハイパーパラメータCチルダ、Vチルダを決定する(S160’−1)。式(18)’を以下に示す。
以下、ステップS150〜ステップS145−2が実施例2と同様に実行される。次に、木構造決定部160’は、式(18)を用いて二度目に得た音声認識結果を木構造に分類してハイパーパラメータCチルダ、Vチルダを決定する(S160’−2)。以下、実施例2と同様にステップS170、ステップS175、ステップS180が実行される。 Thereafter, step S150 to step S145-2 are executed in the same manner as in the second embodiment. Next, the tree structure determination unit 160 'classifies the speech recognition result obtained a second time using the equation (18) into a tree structure, and determines hyperparameter C tilde and V tilde (S160'-2). Thereafter, step S170, step S175, and step S180 are executed as in the second embodiment.
このように、本変形例の音声認識装置100’によれば、特徴空間でも木構造を使って話者適応を行うことにより、適応データ量が多い場合に、実施例2よりさらに認識率が向上する。
As described above, according to the
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。 Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (5)
前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定する第1変換行列推定部と、
前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換する特徴ベクトル変換部と、
前記特徴ベクトル変換部により変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行うMLE音響モデル学習部と、
前記特徴ベクトル抽出部で変換された特徴ベクトルと、前記MLE音響モデル学習部により学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定する第2変換行列推定部と、
前記第2の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、前記事前分布のハイパーパラメータを出力する事前分布計算部と、
を備えることを特徴とする事前分布計算装置。 A feature vector extraction unit that extracts feature vectors for each speaker from input speech of a plurality of speakers;
A first transformation matrix estimation unit for estimating a first transformation matrix for each speaker by feature space maximum likelihood linear regression using the feature vector and an initial acoustic model previously learned from data of all speakers;
A feature vector conversion unit that converts a feature vector of a corresponding speaker using the first conversion matrix for each speaker;
An MLE acoustic model learning unit that performs acoustic model learning by a maximum likelihood method using the feature vector converted by the feature vector conversion unit;
A second transformation matrix is estimated for each speaker by feature space maximum likelihood linear regression using the feature vector transformed by the feature vector extraction unit and the acoustic model learned by the MLE acoustic model learning unit. A transformation matrix estimation unit;
Calculating a multivariate normal distribution of a matrix using the second transformation matrix, setting the multivariate normal distribution as a prior distribution, and outputting a hyperparameter of the prior distribution;
A prior distribution calculation device comprising:
単位変換行列からなる初期変換行列、または特徴空間変換行列を用いて前記特徴ベクトルを変換する特徴ベクトル変換部と、
音響モデルを記憶する認識用データ記憶部と、
前記音響モデルと前記特徴ベクトル変換部により変換された特徴ベクトルとを用いて音声認識を行う音声認識部と、
事前分布のハイパーパラメータを用いて特徴空間の変換行列推定に用いる統計量を計算する特徴空間統計量計算部と、
前記特徴空間統計量計算部が計算した統計量を用いて特徴空間変換行列を推定する特徴空間変換行列推定部と、
前記事前分布のハイパーパラメータを用いてモデル空間の変換行列推定に用いる統計量を計算するモデル空間統計量計算部と、
前記モデル空間統計量計算部が計算した統計量を用いてモデル空間変換行列を推定するモデル空間変換行列推定部と、
前記推定されたモデル空間変換行列を用いて前記音響モデルを更新する音響モデル更新部とを備える音声認識装置であって、
前記特徴空間統計量計算部と、前記モデル空間統計量計算部とで共通に用いられる事前分布が、
複数の話者の入力音声を話者毎に特徴ベクトルに変換し、前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定し、前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換し、前記第1の変換行列を用いて変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行い、前記第1の変換行列で変換される前の特徴ベクトルと、前記学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定し、前記第2の変換行列を用いて計算された行列の多変量正規分布であること
を特徴とする音声認識装置。 A feature vector extraction unit that extracts a feature vector from input speech;
A feature vector conversion unit that converts the feature vector using an initial conversion matrix comprising a unit conversion matrix or a feature space conversion matrix;
A data storage unit for recognition that stores an acoustic model;
A speech recognition unit that performs speech recognition using the acoustic model and the feature vector converted by the feature vector conversion unit;
A feature space statistic calculation unit that calculates a statistic used for estimating a transformation matrix of the feature space using a hyperparameter of a prior distribution;
A feature space transformation matrix estimation unit that estimates a feature space transformation matrix using the statistics calculated by the feature space statistics calculation unit;
A model space statistic calculator for calculating a statistic used for estimating a transformation matrix of a model space using the hyperparameter of the prior distribution;
A model space transformation matrix estimation unit for estimating a model space transformation matrix using the statistics calculated by the model space statistics calculation unit;
A speech recognition apparatus comprising: an acoustic model update unit that updates the acoustic model using the estimated model space transformation matrix;
Prior distribution used in common by the feature space statistic calculator and the model space statistic calculator is
Each speaker's input speech is converted into a feature vector for each speaker, and each speaker is subjected to feature space maximum likelihood linear regression using the feature vector and an initial acoustic model previously learned from the data of all speakers. The first transformation matrix is estimated, the feature vector of the corresponding speaker is transformed using the first transformation matrix for each speaker, and the feature vector transformed using the first transformation matrix is And the acoustic model is learned by the maximum likelihood method, and the feature vector before being transformed by the first transformation matrix and the learned acoustic model are used for each speaker by the feature space maximum likelihood linear regression. A speech recognition apparatus, wherein the second transformation matrix is estimated to be a multivariate normal distribution of a matrix calculated using the second transformation matrix.
前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定する第1変換行列推定ステップと、
前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換する特徴ベクトル変換ステップと、
前記特徴ベクトル変換ステップにより変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行うMLE音響モデル学習ステップと、
前記特徴ベクトル抽出ステップで変換された特徴ベクトルと、前記MLE音響モデル学習ステップにより学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定する第2変換行列推定ステップと、
前記第2の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、前記事前分布のハイパーパラメータを出力する事前分布計算ステップと、
を有することを特徴とする事前分布計算方法。 A feature vector extraction step of extracting feature vectors for each speaker from the input speech of a plurality of speakers;
A first transformation matrix estimation step for estimating a first transformation matrix for each speaker by feature space maximum likelihood linear regression using the feature vector and an initial acoustic model previously learned from data of all speakers;
A feature vector conversion step of converting a feature vector of a corresponding speaker using the first conversion matrix for each speaker;
An MLE acoustic model learning step of learning an acoustic model by a maximum likelihood method using the feature vector converted by the feature vector conversion step;
A second transformation matrix is estimated for each speaker by feature space maximum likelihood linear regression using the feature vector transformed in the feature vector extraction step and the acoustic model learned in the MLE acoustic model learning step. A transformation matrix estimation step;
Calculating a multivariate normal distribution of a matrix using the second transformation matrix, setting the multivariate normal distribution as a prior distribution, and outputting a hyperparameter of the prior distribution;
A prior distribution calculation method characterized by comprising:
単位変換行列からなる初期変換行列、または特徴空間変換行列を用いて前記特徴ベクトルを変換する特徴ベクトル変換ステップと、
音響モデルと前記特徴ベクトル変換ステップにより変換された特徴ベクトルとを用いて音声認識を行う音声認識ステップと、
事前分布のハイパーパラメータを用いて特徴空間の変換行列推定に用いる統計量を計算する特徴空間統計量計算ステップと、
前記特徴空間統計量計算ステップが計算した統計量を用いて特徴空間変換行列を推定する特徴空間変換行列推定ステップと、
前記事前分布のハイパーパラメータを用いてモデル空間の変換行列推定に用いる統計量を計算するモデル空間統計量計算ステップと、
前記モデル空間統計量計算ステップが計算した統計量を用いてモデル空間変換行列を推定するモデル空間変換行列推定ステップと、
前記推定されたモデル空間の変換行列を用いて前記音響モデルを更新する音響モデル更新ステップとを有する音声認識方法であって、
前記特徴空間統計量計算ステップと、前記モデル空間統計量計算ステップとで共通に用いられる事前分布が、
複数の話者の入力音声から話者毎の特徴ベクトルを抽出し、前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定し、前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換し、前記第1の変換行列を用いて変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行い、前記第1の変換行列で変換される前の特徴ベクトルと、前記学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定し、前記第2の変換行列を用いて計算された行列の多変量正規分布であること
を特徴とする音声認識方法。 A feature vector extraction step for extracting a feature vector from the input speech;
A feature vector conversion step of converting the feature vector using an initial conversion matrix comprising a unit conversion matrix or a feature space conversion matrix;
A speech recognition step for performing speech recognition using an acoustic model and the feature vector converted by the feature vector conversion step;
A feature space statistic calculation step for calculating a statistic used for estimating a transformation matrix of the feature space using a hyperparameter of a prior distribution;
A feature space transformation matrix estimation step for estimating a feature space transformation matrix using the statistics calculated by the feature space statistics calculation step;
A model space statistic calculation step for calculating a statistic used for estimating a transformation matrix of the model space using the hyperparameter of the prior distribution;
A model space transformation matrix estimation step for estimating a model space transformation matrix using the statistics calculated by the model space statistics calculation step;
An acoustic model update step of updating the acoustic model using a transformation matrix of the estimated model space,
Prior distribution commonly used in the feature space statistic calculation step and the model space statistic calculation step is:
A feature vector for each speaker is extracted from input speech of a plurality of speakers, and each speaker is subjected to feature space maximum likelihood linear regression using the feature vector and an initial acoustic model previously learned from data of all speakers. The first transformation matrix is estimated, the feature vector of the corresponding speaker is transformed using the first transformation matrix for each speaker, and the feature vector transformed using the first transformation matrix is And the acoustic model is learned by the maximum likelihood method, and the feature vector before being transformed by the first transformation matrix and the learned acoustic model are used for each speaker by the feature space maximum likelihood linear regression. A speech recognition method, wherein the second transformation matrix is estimated to be a multivariate normal distribution of a matrix calculated using the second transformation matrix.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012041441A JP5647159B2 (en) | 2012-02-28 | 2012-02-28 | Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012041441A JP5647159B2 (en) | 2012-02-28 | 2012-02-28 | Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013178343A JP2013178343A (en) | 2013-09-09 |
JP5647159B2 true JP5647159B2 (en) | 2014-12-24 |
Family
ID=49270042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012041441A Active JP5647159B2 (en) | 2012-02-28 | 2012-02-28 | Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5647159B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6433516B2 (en) * | 2015-02-13 | 2018-12-05 | 三菱電機株式会社 | Speech recognition device, acoustic model learning device, speech recognition method, and acoustic model learning method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4016A (en) * | 1845-04-26 | Improvement in the method of attaching a movable to the stationary keel of a vessel | ||
JP3088357B2 (en) * | 1997-09-08 | 2000-09-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | Unspecified speaker acoustic model generation device and speech recognition device |
DE10047718A1 (en) * | 2000-09-27 | 2002-04-18 | Philips Corp Intellectual Pty | Speech recognition method |
JP5288378B2 (en) * | 2009-08-27 | 2013-09-11 | 独立行政法人情報通信研究機構 | Acoustic model speaker adaptation apparatus and computer program therefor |
-
2012
- 2012-02-28 JP JP2012041441A patent/JP5647159B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013178343A (en) | 2013-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3479377B1 (en) | Speech recognition | |
JP5423670B2 (en) | Acoustic model learning device and speech recognition device | |
JP6243858B2 (en) | Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program | |
US20120130716A1 (en) | Speech recognition method for robot | |
JP5861649B2 (en) | Model adaptation device, model adaptation method, and model adaptation program | |
JP2019144402A (en) | Voice conversion learning device, voice conversion device, method and program | |
JP2007279444A (en) | Feature amount compensation apparatus, method and program | |
JP6517760B2 (en) | Mask estimation parameter estimation device, mask estimation parameter estimation method and mask estimation parameter estimation program | |
JP2019159823A (en) | Learning program, learning method and learning device | |
WO2020045313A1 (en) | Mask estimation device, mask estimation method, and mask estimation program | |
Mirsamadi et al. | A study on deep neural network acoustic model adaptation for robust far-field speech recognition. | |
JP2010078650A (en) | Speech recognizer and method thereof | |
JP5881454B2 (en) | Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal | |
JP2009086581A (en) | Apparatus and program for creating speaker model of speech recognition | |
JP5647159B2 (en) | Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program | |
JP2018128500A (en) | Formation device, formation method and formation program | |
Lee et al. | Training hidden Markov models by hybrid simulated annealing for visual speech recognition | |
JP4950600B2 (en) | Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media | |
JP6633556B2 (en) | Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method, and program | |
JP4612435B2 (en) | Acoustic model learning device and speech recognition device | |
JP4256314B2 (en) | Acoustic model creation method for speech recognition, acoustic model creation device for speech recognition, acoustic model creation program for speech recognition, and recording medium recording this program | |
JPWO2019123642A1 (en) | Image recognition systems, methods and programs, and parameter learning systems, methods and programs | |
JP6114053B2 (en) | Sound source separation device, sound source separation method, and program | |
JP6324647B1 (en) | Speaker adaptation device, speech recognition device, and speech recognition method | |
JP5498452B2 (en) | Background sound suppression device, background sound suppression method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141028 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141106 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5647159 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |