JP2013178343A

JP2013178343A - 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム

Info

Publication number: JP2013178343A
Application number: JP2012041441A
Authority: JP
Inventors: Sonjun Ham; ソンジュンハム; Atsunori Ogawa; 厚徳小川; Masakiyo Fujimoto; 雅清藤本; Takaaki Hori; 貴明堀; Atsushi Nakamura; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-02-28
Filing date: 2012-02-28
Publication date: 2013-09-09
Anticipated expiration: 2032-02-28
Also published as: JP5647159B2

Abstract

【課題】モデル／特徴空間の適応の双方に使用できる事前分布を生成し計算量を削減できる事前分布計算装置を提供する。
【解決手段】複数話者の入力音声から話者毎の特徴ベクトルを抽出する特徴ベクトル抽出部と、特徴ベクトルと全話者データから予め学習された初期音響モデルとを用いてｆＭＬＬＲにより話者毎に第１変換行列を推定する第１変換行列推定部と、話者毎の第１変換行列を用いて対応する話者の特徴ベクトルを変換する特徴ベクトル変換部と、特徴ベクトル変換部により変換された特徴ベクトルを用いて最尤法により音響モデルの学習を行うＭＬＥ音響モデル学習部と、特徴ベクトル抽出部で変換された特徴ベクトルとＭＬＥ音響モデル学習部により学習された音響モデルとを用いてｆＭＬＬＲにより話者毎に第２変換行列を推定する第２変換行列推定部と、第２変換行列を用いて行列の多変量正規分布を事前分布として計算する事前分布計算部とを備える。
【選択図】図１

Description

本発明は、特徴空間と音響モデル空間で共通に用いる事前分布を生成する事前分布計算装置、事前分布計算方法、プログラム、およびこの事前分布を用いた音声認識装置、音声認識方法、プログラムに関する。

音声認識の入力信号に影響を与えるさまざまな変動要因（例えば、話者、雑音、通信チャンネル、マイクなど）による悪影響を防ぐため、適応技術が発展してきた。特にモデルに基づく適応技術は変換行列による線形変換で音響モデルのすべてのパラメータを適応させることができるので、適応技術として多く使われている。

モデルに基づく線形変換形式の適応技術として、Ｕｎｃｏｎｓｔｒａｉｎｅｄ＿Ｍａｘｉｍｕｍ＿Ｌｉｋｅｌｉｈｏｏｄ＿Ｌｉｎｅａｒ＿Ｒｅｇｒｅｓｓｉｏｎ（ＵＭＬＬＲ、制約無し最尤線形回帰；以下ＭＬＬＲと呼ぶ）（非特許文献１）とＣｏｎｓｔｒａｉｎｅｄ＿Ｍａｘｉｍｕｍ＿Ｌｉｋｅｌｉｈｏｏｄ＿Ｌｉｎｅａｒ＿Ｒｅｇｒｅｓｓｉｏｎ（ＣＭＬＬＲ、制約付き最尤線形回帰）（非特許文献２）が知られている。前者はモデル空間、後者は特徴空間での適応手法である。ＣＭＬＬＲは特徴空間での変換式表現できるのでｆｅａｔｕｒｅ＿ｓｐａｃｅ＿ＭＬＬＲ（ｆＭＬＬＲ、特徴空間最尤線形回帰）とも呼ばれる。特にこの手法はＳｐｅａｋｅｒ＿Ａｄａｐｔｉｖｅ＿Ｔｒａｉｎｉｎｇ（ＳＡＴ、話者適応学習）（非特許文献３）に対して効果的であり、メモリ使用量、計算量を削減できるという利点がある。

しかし、上述したＭＬＬＲ（最尤線形回帰）などの事前分布を用いない変換行列推定方法では、適応データ量が少ないときに信頼性のある推定ができないため、認識率の低下及び認識自体ができない場合が生じる。よってこの問題を解決するため事前分布を用いた手法が提案されている。

事前分布を用いた代表的な方法はＭａｘｉｍｕｍ＿Ａ＿Ｐｏｓｔｅｒｉｏｒｉ＿Ｌｉｎｅａｒ＿Ｒｅｇｒｅｓｓｉｏｎ（ＭＡＰＬＲ）(非特許文献４)、Ｓｔｒｕｃｔｕｒａｌ＿ＭＡＰＬＲ（ＳＭＡＰＬＲ）（非特許文献５）、ｆｅａｔｕｒｅ＿ｓｐａｃｅ＿ＭＡＰＬＲ（ｆＭＡＰＬＲ）（非特許文献６）が挙げられる。ＭＡＰＬＲとＳＭＡＰＬＲは音響モデル空間での適応手法で、ｆＭＡＰＬＲは特徴空間での適応手法である。事前分布には、各手法を用いた学習データに含まれている話者の変換行列の分布が用いられる。

従来のＭＬＬＲを利用したＳＡＴは必要なメモリ量と計算量が多い。この理由としてはＭＬＬＲでよく使われている木構造を元に適応データによって選択されたノードの変換行列推定が行われるためである。一般的に学習データ量はテストデータ量に比べてはるかに多く、木構造から選択されるノードが多いため推定すべき話者毎の変換行列数が増加する。さらにＭＬＬＲでは平均と分散の変換行列が異なるためＣＭＬＬＲと比べ二倍の計算量とメモリが必要になる。

Leggetter, C. and Woodland, P.C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Computer Speech and Language, 9(2):171--185, 1995. Gales, M.J.F. Maximum likelihood linear transformations for HMM-based speech recognition. Computer Speech and Language, 12:75--98, 1998. Anastasakos, T. and McDonough, J. and Makhoul, J. Speaker adaptive training: A maximum likelihood approach to speaker normalization. Proc. of ICASSP, pages 1043--1046, 1997. Siohan, O. and Chesta, C. and Lee, C.H. Joint maximum a posteriori adaptation of transformation and HMM parameters. IEEE Trans. on Speech and Audio Processing, 9(4):417--428, 2001. Siohan, O. and Myrvoll, T.A. and Lee, C.H. Structural maximum a posteriori linear regression for fast HMM adaptation. Computer Speech & Language, 16(1):5--24, 2002. Lei, X. and Hamaker, J. and He, X. Robust feature space adaptation for telephony speech recognition. Proc. of INTERSPEECH, pages 773--776, 2006.

モデル空間での適応方法、特徴空間での適応方法の双方を組み合わせて話者適応を行うことで、適応データ量が多い場合には、モデルか特徴空間だけでの適応方法に比べ認識性能の向上を図ることができる。しかしながら、上記組み合わせの手法によっても事前分布を用いなければ、適応データ量が少ない場合に信頼性の高い推定を行うことが出来ない。一方、モデル空間での適応、特徴空間での適応の双方に対して、事前分布を用いることとすると、各々に対して別々に事前分布を計算することとなり、計算量が増大してしまう。

そこで、本発明では、モデル空間での適応および特徴空間での適応の双方に共通に用いることができる事前分布を生成し、事前分布の計算量を削減することができる事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラムを提供することを目的とする。

本発明の事前分布計算装置は、特徴ベクトル抽出部と、第１変換行列推定部と、特徴ベクトル変換部と、ＭＬＥ音響モデル学習部と、第２変換行列推定部と、事前分布計算部とを備える。

特徴ベクトル抽出部は、複数の話者の入力音声から話者毎の特徴ベクトルを抽出する。第１変換行列推定部は、特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第１の変換行列を推定する。特徴ベクトル変換部は、話者毎の第１の変換行列を用いて、対応する話者の特徴ベクトルを変換する。ＭＬＥ音響モデル学習部は、特徴ベクトル変換部により変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行う。第２変換行列推定部は、特徴ベクトル抽出部で抽出された特徴ベクトルと、ＭＬＥ音響モデル学習部により学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第２の変換行列を推定する。事前分布計算部は、第２の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、事前分布のハイパーパラメータを出力する。

本発明の事前分布計算装置によれば、モデル空間での適応および特徴空間での適応の双方に共通に用いることができる事前分布を生成し、事前分布の計算量を削減することができる。

実施例１の事前分布計算装置の構成を示すブロック図。実施例１の事前分布計算装置の動作を示すフローチャート。実施例２の音声認識装置の構成を示すブロック図。実施例２の音声認識装置の動作を示すフローチャート。変形例１の音声認識装置の構成を示すブロック図。変形例１の音声認識装置の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１、図２を参照して実施例１の事前分布計算装置について詳細に説明する。図１は本実施例の事前分布計算装置１の構成を示すブロック図である。図２は本実施例の事前分布計算装置１の動作を示すフローチャートである。本実施例の事前分布計算装置１は、特徴ベクトル抽出部１０と、第１変換行列推定部２０と、特徴ベクトル変換部３０と、ＭＬＥ音響モデル学習部４０と、正規化済み音響モデル格納部５０と、第２変換行列推定部６０と、事前分布計算部７０と、初期音響モデル格納部８０とを備える。第１変換行列推定部２０は、統計量Ｇ計算手段２１と、統計量ｋ計算手段２２と、変換行列推定手段２３と、反復学習手段２４とを備える。ＭＬＥ音響モデル学習部４０は、平均更新手段４１と、分散更新手段４２とを備える。事前分布計算部７０は、パラメータＣ計算手段７１と、パラメータＶ計算手段７２とを備える。初期音響モデル格納部８０には、全話者のデータを用いて学習された音響モデルが初期音響モデルとして予め記憶されている。

以下、最初に処理の概要を三節に分けて説明し、各節の最後に、各節における各構成部の具体的な処理を説明する。

＜１．変換行列の推定（第１変換行列推定部２０の処理）＞
本実施例の事前分布計算装置１は、全話者のデータを用いて予め学習された初期音響モデルと、各話者の入力音声を話者毎に変換した特徴ベクトルに基づいてｆＭＬＬＲ（特徴空間最尤線形回帰）で各話者の変換行列（第１変換行列）を推定する。まず、入力音声から抽出された特徴ベクトルをｏ（ｔ）と定義する。このとき、ｏ（ｔ）は、ｔ番目のフレームのＮ次元特徴ベクトルを表す。本実施例の事前分布計算装置１は、この特徴ベクトルｏ（ｔ）を変換行列を用いて特徴ベクトルｏ（ｔ）ハットに変換する。変換された特徴ベクトルｏ（ｔ）ハットは以下のようになる。

変換行列推定のためのＱ関数は以下のように定義される。

ここで、Ｗの最適化問題（αの推定）は非特許文献２に詳述されている。変換行列Ｗのｉ行目は以下のように求まる。

また、変換行列推定のためのｉ次元目の統計量Ｇ^（ｉ）とｋ^（ｉ）は入力音声の拡張特徴ベクトルξ（ｔ）とｕ番目の混合ガウス分布のｉ次元目平均μ_ｉ ^（ｕ）と分散σ_ｉ ^（ｕ）を用いて以下の式のように計算される。

Ｒｏｗ−ｂｙ−ｒｏｗ変換行列の推定の後、次式を用いて最尤法で反復学習を行う。

本実施例では、上述した第１節の処理を第１変換行列推定部２０が実行する。従って、まず特徴ベクトル抽出部１０は、Ｓ人の話者（話者１、…、話者Ｓ、Ｓは２以上の整数）の入力音声からＮ次元特徴ベクトルｏ（ｔ）を抽出する（Ｓ１０）。前述したように、初期音響モデル格納部８０には、全話者のデータを用いて学習された音響モデルが初期音響モデルとして予め記憶されている。統計量Ｇ計算手段２１は、式（４）により統計量Ｇを計算する（ＳＳ２１）。統計量ｋ計算手段２２は、式（５）により統計量ｋを計算する（ＳＳ２２）次に、変換行列推定手段２３は、式（３）により、変換行列を推定する（ＳＳ２３）。これらのサブステップＳＳ２１〜ＳＳ２３の処理は、次元（行）ｉの全ての取りうる値について繰り返し実行され、変換行列Ｗが得られる。次に、反復学習手段２４は、式（６）を用いて、最尤法で変換行列の反復学習を行う（ＳＳ２４）。以上のステップＳ１０、Ｓ２０により話者１〜話者Ｓの変換行列が求められる。

＜２．音響モデルの学習（特徴ベクトル変換部３０、ＭＬＥ音響モデル学習部４０の処理）＞
本実施例の事前分布計算装置１は、話者１〜話者Ｓの変換行列を利用して、各話者の特徴ベクトルを変換し、変換された特徴ベクトル（学習データ）を用いて最尤法で音響モデルの学習を行う。音響モデル学習（ＳＡＴ）のためのＱ関数は以下のように定義される。

変換後の特徴ベクトルｏ^（ｓ）（ｔ）ハットは以下の式により計算される。

式（７）の処理は、従来の最尤法（ＭＬＥ、Ｍａｘｉｍｕｍ＿Ｌｉｋｅｌｉｈｏｏｄ＿Ｅｓｔｉｍａｔｉｏｎ）と比較して、特徴ベクトルのみが異なる処理となっている。すなわち、元の特徴ベクトルｏ^（ｓ）（ｔ）の代わりにｏ^（ｓ）（ｔ）ハットを使い、従来のＭＬＥと同様の学習を行う。

平均と分散の更新式は以下のようになる。

本実施例では、上述した第２節の処理のうち、式（８）にかかる処理を特徴ベクトル変換部３０が実行し、残りの処理をＭＬＥ音響モデル学習部４０が実行する。従って、特徴ベクトル変換部３０は、第１変換行列推定部２０により推定された変換行列により、式（８）を用いて、特徴ベクトル抽出部１０で生成された特徴ベクトルを変換する（Ｓ３０）。次に、ＭＬＥ（最尤度）による音響モデルの学習は各学習回数毎に平均と分散とを更新しながら尤度が収束するまで繰り返し行われる。平均更新手段４１は、式（９）を用いて、変換後の特徴ベクトルから平均を求める（ＳＳ４１）。分散更新手段４２は、式（１０）を用いて、変換後の特徴ベクトルから分散を求める（ＳＳ４２）。各話者の変換行列を用いて変換された特徴を用いて学習した、話者の変異が正規化された音響モデルは次の処理のため、正規化済み音響モデル格納部５０に格納される（Ｓ５０）。

＜３．事前分布の計算（第２変換行列推定部６０、事前分布計算部７０の処理）＞
本実施例の事前分布計算装置１は、ＭＬＥ音響モデル学習部４０で学習された音響モデルを用いて、第１節と同様に、ｆＭＬＬＲで各話者毎の変換行列（第２変換行列）を求める。本実施例の事前分布計算装置１は、求めた各話者の変換行列（第２変換行列）の事前分布（各次元毎の平均と分散）を求める。

まず、事前分布計算のため、ＭＬＥ音響モデル学習部４０で学習した音響モデルを用いて、ｆＭＬＬＲにより、第１変換行列推定部２０と同様の処理（式（３）〜（６））を再度行って、各話者の変換行列（第２変換行列）を求めておく。事前分布の計算は非特許文献４に記載の行列の多変量正規分布を用いる。この多変量正規分布は以下の式のように定義される。

ここで分散ハイパーパラメータは非特許文献４のように単位行列と仮定する。全体話者数をＳとし、Ｓ個の変換行列からハイパーパラメータＣ、Ｖを以下の式で求める。

本実施例では、上述した第３節の処理のうち、変換行列の推定処理については第２変換行列推定部６０が実行し、式（１２）にかかる処理を事前分布計算部７０が実行する。従って、第２変換行列推定部６０は、ＭＬＥ音響モデル学習部４０で学習した音響モデルを用いて、式（３）〜式（６）に基づいて、変換行列（第２変換行列）を推定する。この処理は、第１変換行列推定部２０の処理と同様である。次に、求められた第２変換行列は行列の多変量正規化分布に従うという仮定下で、パラメータＣ計算手段７１は、第２変換行列を用いて、式（１２）により、ハイパーパラメータＣを計算する（ＳＳ７１）。パラメータＶ計算手段７２は、第２変換行列を用いて、式（１２）により、ハイパーパラメータＶを計算する（ＳＳ７２）。

このように、本実施例の事前分布計算装置１によれば、モデル空間での適応および特徴空間での適応の双方に共通に用いることができる事前分布を生成し、事前分布の計算量を削減することができる。

以下、図３、図４を参照して実施例２の音声認識装置について詳細に説明する。図３は本実施例の音声認識装置１００の構成を示すブロック図である。図４は本実施例の音声認識装置１００の動作を示すフローチャートである。本実施例の音声認識装置１００は、実施例１の事前分布計算装置１により予め求めた事前分布を共通に用いて特徴空間とモデル空間を同時適応することを特徴とする。本実施例の音声認識装置１００は、特徴ベクトル抽出部１１０と、特徴ベクトル格納部１１５と、特徴ベクトル変換部１２０と、初期変換行列格納部１２５と、音声認識部１３０と、認識用データ記憶部１４０と、認識結果格納部１４５と、特徴空間統計量計算部１５０と、特徴空間変換行列推定部１５５と、木構造決定部１６０と、モデル空間統計量計算部１７０と、モデル空間変換行列推定部１７５と、音響モデル更新部１８０と、事前分布記憶部１９０とを備える。認識用データ記憶部１４０は、音響モデル１４１と、言語モデル１４２と、単語辞書１４３とを備える。モデル空間統計量計算部１７０は、統計量Ｇチルダ計算手段１７１と、統計量ｋチルダ計算手段１７２と、平滑化統計量計算手段１７３とを備える。事前分布記憶部１９０には、実施例１で説明された方法で生成された事前分布のハイパーパラメータＣ、Ｖが予め記憶されている。

以下、本実施例の音声認識装置１００の処理の概要を説明し、その後に各構成部の具体的な処理内容を説明する。

＜４．事前分布共有による特徴空間と音響モデル空間の同時適応＞
本実施例の音声認識装置１００は、入力音声を音声認識して、当該音声認識結果を元に（教師なし適応）統計量計算を行なう。統計量計算に際して、実施例１の方法により予め求めた事前分布が反映される。本実施例の音声認識装置１００は、計算された統計量から特徴空間とモデル空間での変換行列を推定する。本実施例の音声認識装置１００は、推定された特徴空間の変換行列と、モデル空間の変換行列を用いて、Ｎ次元特徴ベクトルと音響モデルをそれぞれ更新して再認識を行う。

事前分布なしのＭＬ基準Ｑ関数は以下のように定義される。

モデル空間での変換は平均のみを考慮する。つまり分散の適応は特徴空間で行われる。異なる空間での式（１３）を直接最適化することは難しいので、ここでは同時最適化のため特徴空間とモデル空間で順番に最適化を行う方法を利用する。

まずモデル空間変換行列Ｗ_ｒ ^Ｍを単位変換行列［０_ｎ ^ＴＩ_ｎ×ｎ］として、モデル空間での事前分布はないと仮定すれば、事前分布を用いた特徴空間でのＱ関数は以下のようになる。

特徴空間でのｉ行目の変換行列は以下の式で推定できる。

ここで、統計量は事前分布を用いて以下のように計算される。

統計量Ｇ^（ｉ）ハットと統計量ｋ^（ｉ）ハットは、それぞれ、Ｇ^（ｉ）、ｋ^（ｉ）の平滑化された統計量を意味する。Ｇ^（ｉ）、ｋ^（ｉ）は式（４）と式（５）を用いて計算したものである。

次に、事前分布を用いたモデル空間でのＱ関数は以下のようになる。

モデル空間での事前分布のハイパーパラメータＶチルダ、Ｃチルダは以下のように定義される。

ｒ番目の再帰クラスのｉ行目の変換行列Ｗ_ｒ ^Ｍは以下の式で定義される。

また平滑化された統計量Ｇ^（ｉ）バー、ｋ^（ｉ）バーは以下の式を用いて計算される。

モデル空間での統計量Ｇチルダ、ｋチルダは以下の式を用いて計算される。

得られた変換行列を用いて、以下の式のように音響モデルの平均の更新を行う。

認識（テスト）時は入力音声の特徴ベクトルを特徴空間で求めた変換行列を用いて変換し、モデル空間変換行列で更新された音響モデルに基づいて認識を行う。

本実施例では、上述した４節の処理を音声認識装置１００の各構成部が実行する。まず、特徴ベクトル抽出部１１０は、入力される音声信号からＮ次元特徴ベクトルを抽出する（Ｓ１１０）。次に、特徴ベクトル格納部１１５は、Ｎ次元特徴ベクトルを格納する（Ｓ１１５）。格納されたＮ次元特徴ベクトルは、後述するステップＳ１２０−１、Ｓ１２０−２の双方において、特徴ベクトル変換に用いられる。特徴ベクトル変換部１２０は、変換行列により特徴ベクトルを変換する（Ｓ１２０−１）。ここで、変換行列の初期値は初期変換行列格納部１２５に格納されているものとし、最初の（ステップＳ１２０−１における）特徴ベクトル変換部１２０の動作時には、初期変換行列が使用されるものとする。初期変換行列は単位変換行列（バイアスは全て０で、回転行列は単位行列）であるため、変換前の特徴ベクトルｏ（ｔ）と、変換後の特徴ベクトルｏ（ｔ）ハットは、同一となる。次に、音声認識部１３０は、認識用データ記憶部１４０に記憶された音響モデル１４１、言語モデル１４２、単語辞書１４３を用いて音声認識を行い、変換後の特徴ベクトルから音声認識結果を生成する（Ｓ１３０−１）。認識結果格納部１４５は、生成された音声認識結果を格納する（Ｓ１４５−１）。次に、特徴空間統計量計算部１５０は、式（１６）を用いて統計量Ｇハット、ｋハットを計算する（Ｓ１５０）。特徴空間変換行列推定部１５５は、式（１５）を用いて特徴空間の変換行列を推定する（Ｓ１５５）。次に、特徴ベクトル変換部１２０は、特徴空間変換行列推定部１５５が推定した特徴空間の変換行列を用いて、特徴ベクトル格納部１１５に格納済みの特徴ベクトルを変換する（Ｓ１２０−２）。音声認識部１３０は、ステップＳ１３０−１と同様に、ステップＳ１２０−２で特徴空間の変換行列を用いて変換した特徴ベクトルから音声認識結果を生成する（Ｓ１３０−２）。認識結果格納部１４５は、生成された音声認識結果を格納する（Ｓ１４５−２）。次に、木構造決定部１６０は、式（１８）を用いて音声認識結果を木構造に分類して、ハイパーパラメータＣチルダ、Ｖチルダを決定する（Ｓ１６０）。次に、統計量Ｇチルダ計算手段１７１は、式（２１）により、統計量Ｇチルダを計算する（ＳＳ１７１）。次に、統計量ｋチルダ計算手段は、式（２２）により、統計量ｋチルダを計算する（ＳＳ１７２）。平滑化統計量計算手段１７３は、統計量Ｇチルダ、統計量ｋチルダ、ハイパーパラメータＣチルダ、Ｖチルダを用いて、式（２０）により、平滑化された統計量Ｇバー、ｋバーを計算する（ＳＳ１７３）。モデル空間変換行列推定部１７５は、統計量Ｇバー、ｋバーを用いて、式（１９）により、モデル空間の変換行列を推定する（Ｓ１７５）。音響モデル更新部１８０は、推定されたモデル空間の変換行列を用いて式（２３）により、音響モデルの平均を計算し、音響モデル１４１を更新する（Ｓ１８０）。

このように、本実施例の音声認識装置１００によれば、あらかじめ定めた共通の事前分布を用いて、特徴空間とモデル空間を同時適応するため、事前分布の計算量を削減するという実施例１と共通する効果に加えて、適応データ量が少ない場合には事前分布を使用したことにより認識率が向上し、適応データ量が多い場合には特徴空間とモデル空間を組み合わせて話者適応を行なったことにより認識率が向上するため、適応データ量の多少に関わらず認識率が向上する。

［変形例１］
以下、図５、図６を参照して、実施例２の音声認識装置１００の変形例である変形例１の音声認識装置について説明する。図５は本変形例の音声認識装置１００’の構成を示すブロック図である。図６は本変形例の音声認識装置１００’の動作を示すフローチャートである。本変形例の音声認識装置１００’は、実施例２と同様に、実施例１の方法により予め求めた事前分布を共通に用いて特徴空間とモデル空間を同時適応することを特徴とする。本変形例の音声認識装置１００’は、特徴ベクトル抽出部１１０と、特徴ベクトル格納部１１５と、特徴ベクトル変換部１２０と、初期変換行列格納部１２５と、音声認識部１３０と、認識用データ記憶部１４０と、認識結果格納部１４５と、特徴空間統計量計算部１５０と、特徴空間変換行列推定部１５５と、木構造決定部１６０’と、モデル空間統計量計算部１７０と、モデル空間変換行列推定部１７５と、音響モデル更新部１８０と、事前分布記憶部１９０とを備える。木構造決定部１６０’以外の各構成部は、実施例２の音声認識装置１００において同一の番号を付した各構成部と同一の動作をするため説明を割愛する。

従って、ステップＳ１１０〜ステップＳ１４５−１は実施例２と同様に実行される。次に、木構造決定部１６０’は、式（１８）’を用いて最初に得た音声認識結果を木構造に分類して、ハイパーパラメータＣチルダ、Ｖチルダを決定する（Ｓ１６０’−１）。式（１８）’を以下に示す。

以下、ステップＳ１５０〜ステップＳ１４５−２が実施例２と同様に実行される。次に、木構造決定部１６０’は、式（１８）を用いて二度目に得た音声認識結果を木構造に分類してハイパーパラメータＣチルダ、Ｖチルダを決定する（Ｓ１６０’−２）。以下、実施例２と同様にステップＳ１７０、ステップＳ１７５、ステップＳ１８０が実行される。

このように、本変形例の音声認識装置１００’によれば、特徴空間でも木構造を使って話者適応を行うことにより、適応データ量が多い場合に、実施例２よりさらに認識率が向上する。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数の話者の入力音声から話者毎の特徴ベクトルを抽出する特徴ベクトル抽出部と、
前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第１の変換行列を推定する第１変換行列推定部と、
前記話者毎の第１の変換行列を用いて、対応する話者の特徴ベクトルを変換する特徴ベクトル変換部と、
前記特徴ベクトル変換部により変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行うＭＬＥ音響モデル学習部と、
前記特徴ベクトル抽出部で変換された特徴ベクトルと、前記ＭＬＥ音響モデル学習部により学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第２の変換行列を推定する第２変換行列推定部と、
前記第２の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、前記事前分布のハイパーパラメータを出力する事前分布計算部と、
を備えることを特徴とする事前分布計算装置。
入力音声から特徴ベクトルを抽出する特徴ベクトル抽出部と、
単位変換行列からなる初期変換行列、または特徴空間変換行列を用いて前記特徴ベクトルを変換する特徴ベクトル変換部と、
音響モデルを記憶する認識用データ記憶部と、
前記音響モデルと前記特徴ベクトル変換部により変換された特徴ベクトルとを用いて音声認識を行う音声認識部と、
事前分布のハイパーパラメータを用いて特徴空間の変換行列推定に用いる統計量を計算する特徴空間統計量計算部と、
前記特徴空間統計量計算部が計算した統計量を用いて特徴空間変換行列を推定する特徴空間変換行列推定部と、
前記事前分布のハイパーパラメータを用いてモデル空間の変換行列推定に用いる統計量を計算するモデル空間統計量計算部と、
前記モデル空間統計量計算部が計算した統計量を用いてモデル空間変換行列を推定するモデル空間変換行列推定部と、
前記推定されたモデル空間変換行列を用いて前記音響モデルを更新する音響モデル更新部とを備える音声認識装置であって、
前記特徴空間統計量計算部と、前記モデル空間統計量計算部とで共通に用いられる事前分布が、
複数の話者の入力音声を話者毎に特徴ベクトルに変換し、前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第１の変換行列を推定し、前記話者毎の第１の変換行列を用いて、対応する話者の特徴ベクトルを変換し、前記第１の変換行列を用いて変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行い、前記第１の変換行列で変換される前の特徴ベクトルと、前記学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第２の変換行列を推定し、前記第２の変換行列を用いて計算された行列の多変量正規分布であること
を特徴とする音声認識装置。
複数の話者の入力音声を話者毎の特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第１の変換行列を推定する第１変換行列推定ステップと、
前記話者毎の第１の変換行列を用いて、対応する話者の特徴ベクトルを変換する特徴ベクトル変換ステップと、
前記特徴ベクトル変換ステップにより変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行うＭＬＥ音響モデル学習ステップと、
前記特徴ベクトル抽出ステップで変換された特徴ベクトルと、前記ＭＬＥ音響モデル学習ステップにより学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第２の変換行列を推定する第２変換行列推定ステップと、
前記第２の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、前記事前分布のハイパーパラメータを出力する事前分布計算ステップと、
を有することを特徴とする事前分布計算方法。
入力音声から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
単位変換行列からなる初期変換行列、または特徴空間変換行列を用いて前記特徴ベクトルを変換する特徴ベクトル変換ステップと、
音響モデルと前記特徴ベクトル変換ステップにより変換された特徴ベクトルとを用いて音声認識を行う音声認識ステップと、
事前分布のハイパーパラメータを用いて特徴空間の変換行列推定に用いる統計量を計算する特徴空間統計量計算ステップと、
前記特徴空間統計量計算ステップが計算した統計量を用いて特徴空間変換行列を推定する特徴空間変換行列推定ステップと、
前記事前分布のハイパーパラメータを用いてモデル空間の変換行列推定に用いる統計量を計算するモデル空間統計量計算ステップと、
前記モデル空間統計量計算ステップが計算した統計量を用いてモデル空間変換行列を推定するモデル空間変換行列推定ステップと、
前記推定されたモデル空間の変換行列を用いて前記音響モデルを更新する音響モデル更新ステップとを有する音声認識方法であって、
前記特徴空間統計量計算ステップと、前記モデル空間統計量計算ステップとで共通に用いられる事前分布が、
複数の話者の入力音声から話者毎の特徴ベクトルを抽出し、前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第１の変換行列を推定し、前記話者毎の第１の変換行列を用いて、対応する話者の特徴ベクトルを変換し、前記第１の変換行列を用いて変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行い、前記第１の変換行列で変換される前の特徴ベクトルと、前記学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第２の変換行列を推定し、前記第２の変換行列を用いて計算された行列の多変量正規分布であること
を特徴とする音声認識方法。
コンピュータを、請求項１又は２に記載の装置として機能させるためのプログラム。