JP2013178343A - 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム - Google Patents

事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム Download PDF

Info

Publication number
JP2013178343A
JP2013178343A JP2012041441A JP2012041441A JP2013178343A JP 2013178343 A JP2013178343 A JP 2013178343A JP 2012041441 A JP2012041441 A JP 2012041441A JP 2012041441 A JP2012041441 A JP 2012041441A JP 2013178343 A JP2013178343 A JP 2013178343A
Authority
JP
Japan
Prior art keywords
feature vector
transformation matrix
space
feature
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012041441A
Other languages
English (en)
Other versions
JP5647159B2 (ja
Inventor
Sonjun Ham
ソンジュン ハム
Atsunori Ogawa
厚徳 小川
Masakiyo Fujimoto
雅清 藤本
Takaaki Hori
貴明 堀
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012041441A priority Critical patent/JP5647159B2/ja
Publication of JP2013178343A publication Critical patent/JP2013178343A/ja
Application granted granted Critical
Publication of JP5647159B2 publication Critical patent/JP5647159B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】モデル/特徴空間の適応の双方に使用できる事前分布を生成し計算量を削減できる事前分布計算装置を提供する。
【解決手段】複数話者の入力音声から話者毎の特徴ベクトルを抽出する特徴ベクトル抽出部と、特徴ベクトルと全話者データから予め学習された初期音響モデルとを用いてfMLLRにより話者毎に第1変換行列を推定する第1変換行列推定部と、話者毎の第1変換行列を用いて対応する話者の特徴ベクトルを変換する特徴ベクトル変換部と、特徴ベクトル変換部により変換された特徴ベクトルを用いて最尤法により音響モデルの学習を行うMLE音響モデル学習部と、特徴ベクトル抽出部で変換された特徴ベクトルとMLE音響モデル学習部により学習された音響モデルとを用いてfMLLRにより話者毎に第2変換行列を推定する第2変換行列推定部と、第2変換行列を用いて行列の多変量正規分布を事前分布として計算する事前分布計算部とを備える。
【選択図】図1

Description

本発明は、特徴空間と音響モデル空間で共通に用いる事前分布を生成する事前分布計算装置、事前分布計算方法、プログラム、およびこの事前分布を用いた音声認識装置、音声認識方法、プログラムに関する。
音声認識の入力信号に影響を与えるさまざまな変動要因(例えば、話者、雑音、通信チャンネル、マイクなど)による悪影響を防ぐため、適応技術が発展してきた。特にモデルに基づく適応技術は変換行列による線形変換で音響モデルのすべてのパラメータを適応させることができるので、適応技術として多く使われている。
モデルに基づく線形変換形式の適応技術として、Unconstrained_Maximum_Likelihood_Linear_Regression(UMLLR、制約無し最尤線形回帰;以下MLLRと呼ぶ)(非特許文献1)とConstrained_Maximum_Likelihood_Linear_Regression(CMLLR、制約付き最尤線形回帰)(非特許文献2)が知られている。前者はモデル空間、後者は特徴空間での適応手法である。CMLLRは特徴空間での変換式表現できるのでfeature_space_MLLR(fMLLR、特徴空間最尤線形回帰)とも呼ばれる。特にこの手法はSpeaker_Adaptive_Training(SAT、話者適応学習)(非特許文献3)に対して効果的であり、メモリ使用量、計算量を削減できるという利点がある。
しかし、上述したMLLR(最尤線形回帰)などの事前分布を用いない変換行列推定方法では、適応データ量が少ないときに信頼性のある推定ができないため、認識率の低下及び認識自体ができない場合が生じる。よってこの問題を解決するため事前分布を用いた手法が提案されている。
事前分布を用いた代表的な方法はMaximum_A_Posteriori_Linear_Regression(MAPLR)(非特許文献4)、Structural_MAPLR(SMAPLR)(非特許文献5)、feature_space_MAPLR(fMAPLR)(非特許文献6)が挙げられる。MAPLRとSMAPLRは音響モデル空間での適応手法で、fMAPLRは特徴空間での適応手法である。事前分布には、各手法を用いた学習データに含まれている話者の変換行列の分布が用いられる。
従来のMLLRを利用したSATは必要なメモリ量と計算量が多い。この理由としてはMLLRでよく使われている木構造を元に適応データによって選択されたノードの変換行列推定が行われるためである。一般的に学習データ量はテストデータ量に比べてはるかに多く、木構造から選択されるノードが多いため推定すべき話者毎の変換行列数が増加する。さらにMLLRでは平均と分散の変換行列が異なるためCMLLRと比べ二倍の計算量とメモリが必要になる。
Leggetter, C. and Woodland, P.C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Computer Speech and Language, 9(2):171--185, 1995. Gales, M.J.F. Maximum likelihood linear transformations for HMM-based speech recognition. Computer Speech and Language, 12:75--98, 1998. Anastasakos, T. and McDonough, J. and Makhoul, J. Speaker adaptive training: A maximum likelihood approach to speaker normalization. Proc. of ICASSP, pages 1043--1046, 1997. Siohan, O. and Chesta, C. and Lee, C.H. Joint maximum a posteriori adaptation of transformation and HMM parameters. IEEE Trans. on Speech and Audio Processing, 9(4):417--428, 2001. Siohan, O. and Myrvoll, T.A. and Lee, C.H. Structural maximum a posteriori linear regression for fast HMM adaptation. Computer Speech & Language, 16(1):5--24, 2002. Lei, X. and Hamaker, J. and He, X. Robust feature space adaptation for telephony speech recognition. Proc. of INTERSPEECH, pages 773--776, 2006.
モデル空間での適応方法、特徴空間での適応方法の双方を組み合わせて話者適応を行うことで、適応データ量が多い場合には、モデルか特徴空間だけでの適応方法に比べ認識性能の向上を図ることができる。しかしながら、上記組み合わせの手法によっても事前分布を用いなければ、適応データ量が少ない場合に信頼性の高い推定を行うことが出来ない。一方、モデル空間での適応、特徴空間での適応の双方に対して、事前分布を用いることとすると、各々に対して別々に事前分布を計算することとなり、計算量が増大してしまう。
そこで、本発明では、モデル空間での適応および特徴空間での適応の双方に共通に用いることができる事前分布を生成し、事前分布の計算量を削減することができる事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラムを提供することを目的とする。
本発明の事前分布計算装置は、特徴ベクトル抽出部と、第1変換行列推定部と、特徴ベクトル変換部と、MLE音響モデル学習部と、第2変換行列推定部と、事前分布計算部とを備える。
特徴ベクトル抽出部は、複数の話者の入力音声から話者毎の特徴ベクトルを抽出する。第1変換行列推定部は、特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定する。特徴ベクトル変換部は、話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換する。MLE音響モデル学習部は、特徴ベクトル変換部により変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行う。第2変換行列推定部は、特徴ベクトル抽出部で抽出された特徴ベクトルと、MLE音響モデル学習部により学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定する。事前分布計算部は、第2の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、事前分布のハイパーパラメータを出力する。
本発明の事前分布計算装置によれば、モデル空間での適応および特徴空間での適応の双方に共通に用いることができる事前分布を生成し、事前分布の計算量を削減することができる。
実施例1の事前分布計算装置の構成を示すブロック図。 実施例1の事前分布計算装置の動作を示すフローチャート。 実施例2の音声認識装置の構成を示すブロック図。 実施例2の音声認識装置の動作を示すフローチャート。 変形例1の音声認識装置の構成を示すブロック図。 変形例1の音声認識装置の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1、図2を参照して実施例1の事前分布計算装置について詳細に説明する。図1は本実施例の事前分布計算装置1の構成を示すブロック図である。図2は本実施例の事前分布計算装置1の動作を示すフローチャートである。本実施例の事前分布計算装置1は、特徴ベクトル抽出部10と、第1変換行列推定部20と、特徴ベクトル変換部30と、MLE音響モデル学習部40と、正規化済み音響モデル格納部50と、第2変換行列推定部60と、事前分布計算部70と、初期音響モデル格納部80とを備える。第1変換行列推定部20は、統計量G計算手段21と、統計量k計算手段22と、変換行列推定手段23と、反復学習手段24とを備える。MLE音響モデル学習部40は、平均更新手段41と、分散更新手段42とを備える。事前分布計算部70は、パラメータC計算手段71と、パラメータV計算手段72とを備える。初期音響モデル格納部80には、全話者のデータを用いて学習された音響モデルが初期音響モデルとして予め記憶されている。
以下、最初に処理の概要を三節に分けて説明し、各節の最後に、各節における各構成部の具体的な処理を説明する。
<1.変換行列の推定(第1変換行列推定部20の処理)>
本実施例の事前分布計算装置1は、全話者のデータを用いて予め学習された初期音響モデルと、各話者の入力音声を話者毎に変換した特徴ベクトルに基づいてfMLLR(特徴空間最尤線形回帰)で各話者の変換行列(第1変換行列)を推定する。まず、入力音声から抽出された特徴ベクトルをo(t)と定義する。このとき、o(t)は、t番目のフレームのN次元特徴ベクトルを表す。本実施例の事前分布計算装置1は、この特徴ベクトルo(t)を変換行列を用いて特徴ベクトルo(t)ハットに変換する。変換された特徴ベクトルo(t)ハットは以下のようになる。
Figure 2013178343
変換行列推定のためのQ関数は以下のように定義される。
Figure 2013178343
ここで、Wの最適化問題(αの推定)は非特許文献2に詳述されている。変換行列Wのi行目は以下のように求まる。
Figure 2013178343
また、変換行列推定のためのi次元目の統計量G(i)とk(i)は入力音声の拡張特徴ベクトルξ(t)とu番目の混合ガウス分布のi次元目平均μ (u)と分散σ (u)を用いて以下の式のように計算される。
Figure 2013178343
Row−by−row変換行列の推定の後、次式を用いて最尤法で反復学習を行う。
Figure 2013178343
本実施例では、上述した第1節の処理を第1変換行列推定部20が実行する。従って、まず特徴ベクトル抽出部10は、S人の話者(話者1、…、話者S、Sは2以上の整数)の入力音声からN次元特徴ベクトルo(t)を抽出する(S10)。前述したように、初期音響モデル格納部80には、全話者のデータを用いて学習された音響モデルが初期音響モデルとして予め記憶されている。統計量G計算手段21は、式(4)により統計量Gを計算する(SS21)。統計量k計算手段22は、式(5)により統計量kを計算する(SS22)次に、変換行列推定手段23は、式(3)により、変換行列を推定する(SS23)。これらのサブステップSS21〜SS23の処理は、次元(行)iの全ての取りうる値について繰り返し実行され、変換行列Wが得られる。次に、反復学習手段24は、式(6)を用いて、最尤法で変換行列の反復学習を行う(SS24)。以上のステップS10、S20により話者1〜話者Sの変換行列が求められる。
<2.音響モデルの学習(特徴ベクトル変換部30、MLE音響モデル学習部40の処理)>
本実施例の事前分布計算装置1は、話者1〜話者Sの変換行列を利用して、各話者の特徴ベクトルを変換し、変換された特徴ベクトル(学習データ)を用いて最尤法で音響モデルの学習を行う。音響モデル学習(SAT)のためのQ関数は以下のように定義される。
Figure 2013178343
変換後の特徴ベクトルo(s)(t)ハットは以下の式により計算される。
Figure 2013178343
式(7)の処理は、従来の最尤法(MLE、Maximum_Likelihood_Estimation)と比較して、特徴ベクトルのみが異なる処理となっている。すなわち、元の特徴ベクトルo(s)(t)の代わりにo(s)(t)ハットを使い、従来のMLEと同様の学習を行う。
平均と分散の更新式は以下のようになる。
Figure 2013178343
本実施例では、上述した第2節の処理のうち、式(8)にかかる処理を特徴ベクトル変換部30が実行し、残りの処理をMLE音響モデル学習部40が実行する。従って、特徴ベクトル変換部30は、第1変換行列推定部20により推定された変換行列により、式(8)を用いて、特徴ベクトル抽出部10で生成された特徴ベクトルを変換する(S30)。次に、MLE(最尤度)による音響モデルの学習は各学習回数毎に平均と分散とを更新しながら尤度が収束するまで繰り返し行われる。平均更新手段41は、式(9)を用いて、変換後の特徴ベクトルから平均を求める(SS41)。分散更新手段42は、式(10)を用いて、変換後の特徴ベクトルから分散を求める(SS42)。各話者の変換行列を用いて変換された特徴を用いて学習した、話者の変異が正規化された音響モデルは次の処理のため、正規化済み音響モデル格納部50に格納される(S50)。
<3.事前分布の計算(第2変換行列推定部60、事前分布計算部70の処理)>
本実施例の事前分布計算装置1は、MLE音響モデル学習部40で学習された音響モデルを用いて、第1節と同様に、fMLLRで各話者毎の変換行列(第2変換行列)を求める。本実施例の事前分布計算装置1は、求めた各話者の変換行列(第2変換行列)の事前分布(各次元毎の平均と分散)を求める。
まず、事前分布計算のため、MLE音響モデル学習部40で学習した音響モデルを用いて、fMLLRにより、第1変換行列推定部20と同様の処理(式(3)〜(6))を再度行って、各話者の変換行列(第2変換行列)を求めておく。事前分布の計算は非特許文献4に記載の行列の多変量正規分布を用いる。この多変量正規分布は以下の式のように定義される。
Figure 2013178343
ここで分散ハイパーパラメータは非特許文献4のように単位行列と仮定する。全体話者数をSとし、S個の変換行列からハイパーパラメータC、Vを以下の式で求める。
Figure 2013178343
本実施例では、上述した第3節の処理のうち、変換行列の推定処理については第2変換行列推定部60が実行し、式(12)にかかる処理を事前分布計算部70が実行する。従って、第2変換行列推定部60は、MLE音響モデル学習部40で学習した音響モデルを用いて、式(3)〜式(6)に基づいて、変換行列(第2変換行列)を推定する。この処理は、第1変換行列推定部20の処理と同様である。次に、求められた第2変換行列は行列の多変量正規化分布に従うという仮定下で、パラメータC計算手段71は、第2変換行列を用いて、式(12)により、ハイパーパラメータCを計算する(SS71)。パラメータV計算手段72は、第2変換行列を用いて、式(12)により、ハイパーパラメータVを計算する(SS72)。
このように、本実施例の事前分布計算装置1によれば、モデル空間での適応および特徴空間での適応の双方に共通に用いることができる事前分布を生成し、事前分布の計算量を削減することができる。
以下、図3、図4を参照して実施例2の音声認識装置について詳細に説明する。図3は本実施例の音声認識装置100の構成を示すブロック図である。図4は本実施例の音声認識装置100の動作を示すフローチャートである。本実施例の音声認識装置100は、実施例1の事前分布計算装置1により予め求めた事前分布を共通に用いて特徴空間とモデル空間を同時適応することを特徴とする。本実施例の音声認識装置100は、特徴ベクトル抽出部110と、特徴ベクトル格納部115と、特徴ベクトル変換部120と、初期変換行列格納部125と、音声認識部130と、認識用データ記憶部140と、認識結果格納部145と、特徴空間統計量計算部150と、特徴空間変換行列推定部155と、木構造決定部160と、モデル空間統計量計算部170と、モデル空間変換行列推定部175と、音響モデル更新部180と、事前分布記憶部190とを備える。認識用データ記憶部140は、音響モデル141と、言語モデル142と、単語辞書143とを備える。モデル空間統計量計算部170は、統計量Gチルダ計算手段171と、統計量kチルダ計算手段172と、平滑化統計量計算手段173とを備える。事前分布記憶部190には、実施例1で説明された方法で生成された事前分布のハイパーパラメータC、Vが予め記憶されている。
以下、本実施例の音声認識装置100の処理の概要を説明し、その後に各構成部の具体的な処理内容を説明する。
<4.事前分布共有による特徴空間と音響モデル空間の同時適応>
本実施例の音声認識装置100は、入力音声を音声認識して、当該音声認識結果を元に(教師なし適応)統計量計算を行なう。統計量計算に際して、実施例1の方法により予め求めた事前分布が反映される。本実施例の音声認識装置100は、計算された統計量から特徴空間とモデル空間での変換行列を推定する。本実施例の音声認識装置100は、推定された特徴空間の変換行列と、モデル空間の変換行列を用いて、N次元特徴ベクトルと音響モデルをそれぞれ更新して再認識を行う。
事前分布なしのML基準Q関数は以下のように定義される。
Figure 2013178343
モデル空間での変換は平均のみを考慮する。つまり分散の適応は特徴空間で行われる。異なる空間での式(13)を直接最適化することは難しいので、ここでは同時最適化のため特徴空間とモデル空間で順番に最適化を行う方法を利用する。
まずモデル空間変換行列W を単位変換行列[0 n×n]として、モデル空間での事前分布はないと仮定すれば、事前分布を用いた特徴空間でのQ関数は以下のようになる。
Figure 2013178343
特徴空間でのi行目の変換行列は以下の式で推定できる。
Figure 2013178343
ここで、統計量は事前分布を用いて以下のように計算される。
Figure 2013178343
統計量G(i)ハットと統計量k(i)ハットは、それぞれ、G(i)、k(i)の平滑化された統計量を意味する。G(i)、k(i)は式(4)と式(5)を用いて計算したものである。
次に、事前分布を用いたモデル空間でのQ関数は以下のようになる。
Figure 2013178343
モデル空間での事前分布のハイパーパラメータVチルダ、Cチルダは以下のように定義される。
Figure 2013178343
r番目の再帰クラスのi行目の変換行列W は以下の式で定義される。
Figure 2013178343
また平滑化された統計量G(i)バー、k(i)バーは以下の式を用いて計算される。
Figure 2013178343
モデル空間での統計量Gチルダ、kチルダは以下の式を用いて計算される。
Figure 2013178343
得られた変換行列を用いて、以下の式のように音響モデルの平均の更新を行う。
Figure 2013178343
認識(テスト)時は入力音声の特徴ベクトルを特徴空間で求めた変換行列を用いて変換し、モデル空間変換行列で更新された音響モデルに基づいて認識を行う。
本実施例では、上述した4節の処理を音声認識装置100の各構成部が実行する。まず、特徴ベクトル抽出部110は、入力される音声信号からN次元特徴ベクトルを抽出する(S110)。次に、特徴ベクトル格納部115は、N次元特徴ベクトルを格納する(S115)。格納されたN次元特徴ベクトルは、後述するステップS120−1、S120−2の双方において、特徴ベクトル変換に用いられる。特徴ベクトル変換部120は、変換行列により特徴ベクトルを変換する(S120−1)。ここで、変換行列の初期値は初期変換行列格納部125に格納されているものとし、最初の(ステップS120−1における)特徴ベクトル変換部120の動作時には、初期変換行列が使用されるものとする。初期変換行列は単位変換行列(バイアスは全て0で、回転行列は単位行列)であるため、変換前の特徴ベクトルo(t)と、変換後の特徴ベクトルo(t)ハットは、同一となる。次に、音声認識部130は、認識用データ記憶部140に記憶された音響モデル141、言語モデル142、単語辞書143を用いて音声認識を行い、変換後の特徴ベクトルから音声認識結果を生成する(S130−1)。認識結果格納部145は、生成された音声認識結果を格納する(S145−1)。次に、特徴空間統計量計算部150は、式(16)を用いて統計量Gハット、kハットを計算する(S150)。特徴空間変換行列推定部155は、式(15)を用いて特徴空間の変換行列を推定する(S155)。次に、特徴ベクトル変換部120は、特徴空間変換行列推定部155が推定した特徴空間の変換行列を用いて、特徴ベクトル格納部115に格納済みの特徴ベクトルを変換する(S120−2)。音声認識部130は、ステップS130−1と同様に、ステップS120−2で特徴空間の変換行列を用いて変換した特徴ベクトルから音声認識結果を生成する(S130−2)。認識結果格納部145は、生成された音声認識結果を格納する(S145−2)。次に、木構造決定部160は、式(18)を用いて音声認識結果を木構造に分類して、ハイパーパラメータCチルダ、Vチルダを決定する(S160)。次に、統計量Gチルダ計算手段171は、式(21)により、統計量Gチルダを計算する(SS171)。次に、統計量kチルダ計算手段は、式(22)により、統計量kチルダを計算する(SS172)。平滑化統計量計算手段173は、統計量Gチルダ、統計量kチルダ、ハイパーパラメータCチルダ、Vチルダを用いて、式(20)により、平滑化された統計量Gバー、kバーを計算する(SS173)。モデル空間変換行列推定部175は、統計量Gバー、kバーを用いて、式(19)により、モデル空間の変換行列を推定する(S175)。音響モデル更新部180は、推定されたモデル空間の変換行列を用いて式(23)により、音響モデルの平均を計算し、音響モデル141を更新する(S180)。
このように、本実施例の音声認識装置100によれば、あらかじめ定めた共通の事前分布を用いて、特徴空間とモデル空間を同時適応するため、事前分布の計算量を削減するという実施例1と共通する効果に加えて、適応データ量が少ない場合には事前分布を使用したことにより認識率が向上し、適応データ量が多い場合には特徴空間とモデル空間を組み合わせて話者適応を行なったことにより認識率が向上するため、適応データ量の多少に関わらず認識率が向上する。
[変形例1]
以下、図5、図6を参照して、実施例2の音声認識装置100の変形例である変形例1の音声認識装置について説明する。図5は本変形例の音声認識装置100’の構成を示すブロック図である。図6は本変形例の音声認識装置100’の動作を示すフローチャートである。本変形例の音声認識装置100’は、実施例2と同様に、実施例1の方法により予め求めた事前分布を共通に用いて特徴空間とモデル空間を同時適応することを特徴とする。本変形例の音声認識装置100’は、特徴ベクトル抽出部110と、特徴ベクトル格納部115と、特徴ベクトル変換部120と、初期変換行列格納部125と、音声認識部130と、認識用データ記憶部140と、認識結果格納部145と、特徴空間統計量計算部150と、特徴空間変換行列推定部155と、木構造決定部160’と、モデル空間統計量計算部170と、モデル空間変換行列推定部175と、音響モデル更新部180と、事前分布記憶部190とを備える。木構造決定部160’以外の各構成部は、実施例2の音声認識装置100において同一の番号を付した各構成部と同一の動作をするため説明を割愛する。
従って、ステップS110〜ステップS145−1は実施例2と同様に実行される。次に、木構造決定部160’は、式(18)’を用いて最初に得た音声認識結果を木構造に分類して、ハイパーパラメータCチルダ、Vチルダを決定する(S160’−1)。式(18)’を以下に示す。
Figure 2013178343
以下、ステップS150〜ステップS145−2が実施例2と同様に実行される。次に、木構造決定部160’は、式(18)を用いて二度目に得た音声認識結果を木構造に分類してハイパーパラメータCチルダ、Vチルダを決定する(S160’−2)。以下、実施例2と同様にステップS170、ステップS175、ステップS180が実行される。
このように、本変形例の音声認識装置100’によれば、特徴空間でも木構造を使って話者適応を行うことにより、適応データ量が多い場合に、実施例2よりさらに認識率が向上する。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 複数の話者の入力音声から話者毎の特徴ベクトルを抽出する特徴ベクトル抽出部と、
    前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定する第1変換行列推定部と、
    前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換する特徴ベクトル変換部と、
    前記特徴ベクトル変換部により変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行うMLE音響モデル学習部と、
    前記特徴ベクトル抽出部で変換された特徴ベクトルと、前記MLE音響モデル学習部により学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定する第2変換行列推定部と、
    前記第2の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、前記事前分布のハイパーパラメータを出力する事前分布計算部と、
    を備えることを特徴とする事前分布計算装置。
  2. 入力音声から特徴ベクトルを抽出する特徴ベクトル抽出部と、
    単位変換行列からなる初期変換行列、または特徴空間変換行列を用いて前記特徴ベクトルを変換する特徴ベクトル変換部と、
    音響モデルを記憶する認識用データ記憶部と、
    前記音響モデルと前記特徴ベクトル変換部により変換された特徴ベクトルとを用いて音声認識を行う音声認識部と、
    事前分布のハイパーパラメータを用いて特徴空間の変換行列推定に用いる統計量を計算する特徴空間統計量計算部と、
    前記特徴空間統計量計算部が計算した統計量を用いて特徴空間変換行列を推定する特徴空間変換行列推定部と、
    前記事前分布のハイパーパラメータを用いてモデル空間の変換行列推定に用いる統計量を計算するモデル空間統計量計算部と、
    前記モデル空間統計量計算部が計算した統計量を用いてモデル空間変換行列を推定するモデル空間変換行列推定部と、
    前記推定されたモデル空間変換行列を用いて前記音響モデルを更新する音響モデル更新部とを備える音声認識装置であって、
    前記特徴空間統計量計算部と、前記モデル空間統計量計算部とで共通に用いられる事前分布が、
    複数の話者の入力音声を話者毎に特徴ベクトルに変換し、前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定し、前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換し、前記第1の変換行列を用いて変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行い、前記第1の変換行列で変換される前の特徴ベクトルと、前記学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定し、前記第2の変換行列を用いて計算された行列の多変量正規分布であること
    を特徴とする音声認識装置。
  3. 複数の話者の入力音声を話者毎の特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
    前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定する第1変換行列推定ステップと、
    前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換する特徴ベクトル変換ステップと、
    前記特徴ベクトル変換ステップにより変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行うMLE音響モデル学習ステップと、
    前記特徴ベクトル抽出ステップで変換された特徴ベクトルと、前記MLE音響モデル学習ステップにより学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定する第2変換行列推定ステップと、
    前記第2の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、前記事前分布のハイパーパラメータを出力する事前分布計算ステップと、
    を有することを特徴とする事前分布計算方法。
  4. 入力音声から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
    単位変換行列からなる初期変換行列、または特徴空間変換行列を用いて前記特徴ベクトルを変換する特徴ベクトル変換ステップと、
    音響モデルと前記特徴ベクトル変換ステップにより変換された特徴ベクトルとを用いて音声認識を行う音声認識ステップと、
    事前分布のハイパーパラメータを用いて特徴空間の変換行列推定に用いる統計量を計算する特徴空間統計量計算ステップと、
    前記特徴空間統計量計算ステップが計算した統計量を用いて特徴空間変換行列を推定する特徴空間変換行列推定ステップと、
    前記事前分布のハイパーパラメータを用いてモデル空間の変換行列推定に用いる統計量を計算するモデル空間統計量計算ステップと、
    前記モデル空間統計量計算ステップが計算した統計量を用いてモデル空間変換行列を推定するモデル空間変換行列推定ステップと、
    前記推定されたモデル空間の変換行列を用いて前記音響モデルを更新する音響モデル更新ステップとを有する音声認識方法であって、
    前記特徴空間統計量計算ステップと、前記モデル空間統計量計算ステップとで共通に用いられる事前分布が、
    複数の話者の入力音声から話者毎の特徴ベクトルを抽出し、前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定し、前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換し、前記第1の変換行列を用いて変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行い、前記第1の変換行列で変換される前の特徴ベクトルと、前記学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定し、前記第2の変換行列を用いて計算された行列の多変量正規分布であること
    を特徴とする音声認識方法。
  5. コンピュータを、請求項1又は2に記載の装置として機能させるためのプログラム。
JP2012041441A 2012-02-28 2012-02-28 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム Active JP5647159B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012041441A JP5647159B2 (ja) 2012-02-28 2012-02-28 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012041441A JP5647159B2 (ja) 2012-02-28 2012-02-28 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム

Publications (2)

Publication Number Publication Date
JP2013178343A true JP2013178343A (ja) 2013-09-09
JP5647159B2 JP5647159B2 (ja) 2014-12-24

Family

ID=49270042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012041441A Active JP5647159B2 (ja) 2012-02-28 2012-02-28 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム

Country Status (1)

Country Link
JP (1) JP5647159B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016129110A1 (ja) * 2015-02-13 2016-08-18 三菱電機株式会社 音声認識装置、音響モデル学習装置、音声認識方法および音響モデル学習方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4016A (en) * 1845-04-26 Improvement in the method of attaching a movable to the stationary keel of a vessel
JPH1185186A (ja) * 1997-09-08 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者音響モデル生成装置及び音声認識装置
JP2002132286A (ja) * 2000-09-27 2002-05-09 Koninkl Philips Electronics Nv 音声認識方法
JP2011048163A (ja) * 2009-08-27 2011-03-10 National Institute Of Information & Communication Technology 音響モデルの話者適応装置及びそのためのコンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4016A (en) * 1845-04-26 Improvement in the method of attaching a movable to the stationary keel of a vessel
JPH1185186A (ja) * 1997-09-08 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者音響モデル生成装置及び音声認識装置
JP2002132286A (ja) * 2000-09-27 2002-05-09 Koninkl Philips Electronics Nv 音声認識方法
JP2011048163A (ja) * 2009-08-27 2011-03-10 National Institute Of Information & Communication Technology 音響モデルの話者適応装置及びそのためのコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6014044827; M.J.F.GALES: '"Maximum Likelihood Linear Transformations for HMM-Based Speech Recognition"' Computer Speech and Language , 199705, pp.1-19, Cambridge University Engineering Department *
JPN6014044828; Olivier SIOHAN, et al.: '"Joint Maximum a Posteriori Adaptation of Transformation and HMM Parameters"' IEEE Transactions on Speech and Audio Processing Vol.9, No.4, 200105, pp.417-428 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016129110A1 (ja) * 2015-02-13 2016-08-18 三菱電機株式会社 音声認識装置、音響モデル学習装置、音声認識方法および音響モデル学習方法
JPWO2016129110A1 (ja) * 2015-02-13 2017-05-25 三菱電機株式会社 音声認識装置、音響モデル学習装置、音声認識方法および音響モデル学習方法

Also Published As

Publication number Publication date
JP5647159B2 (ja) 2014-12-24

Similar Documents

Publication Publication Date Title
JP7023934B2 (ja) 音声認識方法及び装置
EP3479377B1 (en) Speech recognition
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
US20120130716A1 (en) Speech recognition method for robot
WO2019163849A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP2007279444A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP7218601B2 (ja) 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム
JP6517760B2 (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
JP2019159823A (ja) 学習プログラム、学習方法および学習装置
JP2020034882A (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
Mirsamadi et al. A study on deep neural network acoustic model adaptation for robust far-field speech recognition.
JP2010078650A (ja) 音声認識装置及びその方法
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
US20150046377A1 (en) Joint Sound Model Generation Techniques
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
Lee et al. Training hidden Markov models by hybrid simulated annealing for visual speech recognition
JP5647159B2 (ja) 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP6633556B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP7205635B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JP4256314B2 (ja) 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
KR101862352B1 (ko) 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141028

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141106

R150 Certificate of patent or registration of utility model

Ref document number: 5647159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150