JP5184467B2

JP5184467B2 - 適応化音響モデル生成装置及びプログラム

Info

Publication number: JP5184467B2
Application number: JP2009200144A
Authority: JP
Inventors: 庄衛佐藤; 亨今井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2009-08-31
Filing date: 2009-08-31
Publication date: 2013-04-17
Anticipated expiration: 2029-08-31
Also published as: JP2011053312A

Description

本発明は、各音素の音響特徴量の統計量を音響モデルとした音声認識に関し、特に、音響モデルの元々の学習音声とは異なる言い回しが多く含まれる認識対象（タスク）の音声の認識精度の向上を図るための適応化音響モデル生成装置及びプログラムに関する。

従来からの統計的な音響モデルを用いた音声認識では、学習音声から各音素に現れる音響特徴量の統計量を学習している。

例えば、図１１（ａ）に、従来からの音響モデル生成装置のブロック図を示す。従来からの音響モデル生成装置１０１は、学習音声入力部１１２を介して学習対象の音声（学習音声）を入力するとともに、書き起こし入力部１１１を介して当該学習音声に対応する書き起こしを入力し、適宜、データとして記憶部１０３に格納する。学習処理部１０２は、音響モデル学習部１２５と、学習後音響モデル生成部１２６とを有する。

音響モデル学習部１２５は、入力される学習音声と書き起こしを用いて（又は記憶部１０３に格納された学習音声と書き起こしのデータを読み出して）、学習音声とその学習音声に対応する書き起こしの対からなる各音素に現れる音響特徴量の統計量を得るための学習データを生成し、学習後音響モデル生成部１２６に送出する。学習後音響モデル生成部１２６は、音響モデル学習部１２５によって学習した学習データを入力し、学習後の音響モデルを生成する。従って、音響モデル生成装置１０１によって、学習音声を所定の単位毎に音響特徴量の統計量で表した音響モデルを得ることができ、この音響モデルは、音素ごとに音素が発話されるときの音響特徴量の統計量を表すデータテーブルとして生成することができる。音響特徴量として、例えば、１０ミリ秒ごとの間隔でそれぞれ開始する２５ミリ秒のフレーム内の音声の周波数パワー分布を基にしたＭＦＣＣ（メル周波数ケプストラム係数、Mel-Frequency Cepstrum Coefficient）を用いることができる。

図１１（ｂ）に、従来からの音声認識装置のブロック図を示す。従来からの音声認識装置２００は、前述の音響モデル生成装置１０１によって生成した音響モデルを用いて、入力音声の音声認識を実行する装置である。

従来からの音声認識装置２００は、音声入力部２１４を介して音声を入力するとともに、音響モデル入力部２１６を介して当該音響モデルを入力し、適宜、データとして記憶部２０３に格納する。認識処理部２０２は、主に、音声認識部２２０として構成され、音声認識部２２０は、入力音声と音響モデルを用いて（又は記憶部２０３に格納された入力音声と音響モデルのデータを読み出して）、音声認識処理を実行し、認識結果を生成する。尚、認識結果として、音声認識の結果を表すデータ以外に、認識仮説としてのデータ、即ち仮説単語ラティス上のアーク点ごとに、始点ノード、終点ノード、言語的単位、信頼度を表すデータ列を得ることができる。信頼度は、認識結果におけるそのアークの信頼度（言語モデル及び音響モデルを基にした統計的処理で得られる認識結果の信頼度）を表す数値で表される。

ただし、音響モデルにおける音響特徴量の統計量は、タスクに依存している部分があり、音響モデルの学習音声とは異なるタスクの音声について音声認識を実行する場合は、十分な認識結果が得られない場合がある。ここで、「異なるタスク」とは、発話スタイルの異なる認識対象音声を云い、例えば、読み上げ音声が中心のニュース番組や、考えながらの自由発話が中心の対談番組などである。実際に、ニュース番組で学習した音響モデルで、対談番組の音声を認識しても十分な認識精度が得られていない。このようなタスクの認識精度の向上を図るために、比較的小規模な異なるタスクの音声を用いた音響モデルの適応化（更新）が行われる。

一般的に、この適応化には、既存の音素の統計量を適応化する技法がとられ、音素誤り最小化基準（ＭＰＥ）で識別学習した音響モデルの適応化では、ＤＬＴ（Discriminative Linear Transforms）が有効であることが知られている（例えば、非特許文献１，２参照）。

一方、上述の対談番組のような自由発話には、タスクに特有の発話スタイルに依存した「言い回し」があり、この言い回しには不明瞭な発声がみられることがよくある。この不明瞭な言い回しは「発声変形」と称され、従来、発声変形をモデリングするために、発声変形時の音声に最も近い音素列を発音辞書に併記する技法が提案されている（例えば、非特許文献３，４，５参照）。

この発音辞書を用いた技法によれば、発声変形における音素の音響特徴量の統計量を学習する必要がないので、少量の学習音声で発声変形をモデリングすることができる。

また、対談音声を学習したり認識したりする場合には、収録された音声における発話と発話との間に適切な無音区間がない場合があるため、性別や複数の話者などの発話環境毎に音声を分割することが難しい。このような音声の認識に、性別依存音響モデルを利用して、男女の話者の音声が混在する音声の認識精度の向上を図る男女並列音声認識が知られている（例えば、特許文献１参照）。

特開２００７−２３３１４９号公報

D. Povey, "Minimum phone error and I-smoothing for improved discriminative training", in Proc. ICASSP, 2002年, pp. 105-108 L. Wang, P. C. Woodland, "MPE-based discriminative linear transforms for speaker adaptation", Computer Speech and Language, 22, 2008年, pp. 256-272. T. Imai, A. Ando, E. Miyasaka, "A new method for automatic generation of speaker-dependent phonological rules", proc of ICASSP, 1995年, pp. 864-867 緒方淳、後藤真孝、"Confusion networkと語彙制約なし音声認識を用いた動的発音モデリング"、情報処理学会研究報告、No. 68, 2008年，pp. 7-12 Bahram V., Farshad A. Seyed M. A., "Hybrid statistical pronunciation models designed to be trained by a medium-size corpus", Computer Speech and Language, No. 23, 2009年, pp. 1-24

上述した発音辞書を用いた発声変形のモデリングでは、発声変形の部分の不明瞭な音響特徴量が隠れマルコフモデル（Hidden Markov Model、HMM）のパラメータに反映されない。そのため、発声変形の音素の特徴量が既存の音素と異なる特徴量分布を有する場合には対応できない。

そこで、本発明の目的は、音響モデルの元々の学習音声とは異なる言い回しが多く含まれる認識対象（タスク）において、タスクに特有の発話スタイルに依存した言い回しに起こりやすい発声変形の部分の認識精度の向上を図る適応化音響モデル生成装置及びプログラムを提供することにある。

本発明は、包括的には、音声認識タスクに特有の言い回しに起こりやすい発声変形を特定し、発声変形の部分用の音素を含む音響モデルを学習することで、認識精度の向上を図ることにある。より具体的には、タスクに依存する発声変形の部分の認識精度を高めるために、適応化対象の音声（以下、「タスク適応化音声」と称する）から、発声変形の部分を特定し、新たに発声変形の部分（単語）専用の音素（以下、「発声変形単語専用音素」と称する）を導入し、他の音素とは別に音響特徴量の統計量を識別学習する。

即ち、本発明による適応化音響モデル生成装置は、第１タスクの音声で学習して生成された音響モデルを用いて該第１タスクとは異なる第２タスクの音声（タスク適応化音声）に適応化させた音響モデルを生成する適応化音響モデル生成装置であって、前記第１タスクの音響モデルと、前記第２タスクの音声の音声認識用の言語モデルを用いて、前記第２タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成する音声認識手段と、前記仮説単語ラティスと前記第２タスクの音声用の書き起こし（タスク適応化音声書き起こし）を用いて、前記第２タスクの音声中の発声変形の部分を、前記仮説単語ラティス中の単語の事後確率を基準として特定し、該発声変形の単語専用の音素を生成する発声変形単語専用音素生成手段と、前記発声変形の単語専用の音素（発声変形単語専用音素）を前記第１タスクの音響モデルに付加して、前記書き起こしと前記第２タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するタスク適応化音響モデル生成手段とを備えることを特徴とする。

また、本発明による適応化音響モデル生成装置において、前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語から、前記発声変形の部分を特定することを特徴とする。

また、本発明による適応化音響モデル生成装置において、前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第２タスクの音声中の当該単語の出現頻度が所定の閾値以上の単語を前記発声変形の単語として特定することを特徴とする。

また、本発明による適応化音響モデル生成装置において、前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第２タスクの音声中の当該単語の出現頻度が最高値から所定の順位までの範囲に含まれる単語を前記発声変形の単語として特定することを特徴とする。

また、本発明による適応化音響モデル生成装置において、前記タスク適応化音響モデル生成手段は、前記発声変形の単語専用の音素と該単語専用の音素以外の音素とを識別学習して、前記タスク適応化音響モデルを生成することを特徴とする。

また、本発明による適応化音響モデル生成装置において、前記第１タスクの音響モデルは、複数種類の環境依存音響モデルからなり、前記環境依存音響モデルの音素には、複数種類の環境依存音響モデルを識別するための識別子が付されており、前記音声認識手段は、前記複数種類の環境依存音響モデルを用いて複数の発話環境を並列に音声認識し、前記タスク適応化音響モデル生成手段は、前記複数種類の環境依存音響モデルを同時に学習して、前記複数種類の環境依存音響モデルを適応化した音響モデルをそれぞれ生成することを特徴とする。

更に、本発明は、第１タスクの音声で学習して生成された音響モデルを用いて該第１タスクとは異なる第２タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置として構成するコンピュータに、前記第１タスクの音響モデルと、前記第２タスクの音声の音声認識用の言語モデルを用いて、前記第２タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成するステップと、前記仮説単語ラティスと前記第２タスクの音声用の書き起こしを用いて、前記第２タスクの音声中の発声変形の部分を、前記仮説単語ラティス中の単語の事後確率を基準として特定し、該発声変形の単語専用の音素を生成するステップと、前記発声変形の単語専用の音素を前記第１タスクの音響モデルに付加して、前記書き起こしと前記第２タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するステップと、を実行させるためのプログラムとしても特徴付けられる。

本発明では、比較的小規模なタスク適応化音声から、発声変形が起こりやすい単語を特定することができ、予めタスク適応化音声とは異なるタスクの音声で学習された音響モデルに、発声変形の単語専用の新たな音素（発声変形単語専用音素）を与え、他の音素とは別に識別学習することで、効率よく新たなタスクに適応化した音響モデルを得ることができる。従って、既存の音素と異なる特徴量分布を有する発声変形を特定し、この発声変形の音素の音響特徴量の統計量を識別学習するため、既存の音響モデルを改善して異なるタスクを音声認識することができるようになる。

本発明による実施例１の適応化音響モデル生成装置のブロック図である。本発明による実施例１の適応化音響モデル生成装置の一つの動作例を表すフローチャートである。タスク適応化音声の高頻度単語のリストを示す図である。学習音声のリファレンスと認識結果の仮説単語ラティスの一部を例示する図である。図３と同じタスク適応化音声から得られたリファレンス単語列に含まれる単語の集合Ｗ^ｆの各単語の事後確率Ｃ(―)_ｒ（ｈ＝ｒ）を昇順に５位までについて示す図である。事後確率Ｃ(―)_ｒ（ｈ＝ｒ）に基づいて特定した単語に、単語依存の識別子(ＩＤ）を後置した単語依存の音素（発声変形単語専用音素）を例示する図である。発声変形の単語依存性を考慮した音素正解精度（Ａ_ｄｉｓｃ）と、発声変形の単語依存性を考慮しない音素正解精度（Ａ_ｓｔｄ）について、繰り返しＤＬＴ学習を行った時の単語誤認識率（ＷＥＲ）の比較結果を示す図である。本発明による実施例２の適応化音響モデル生成装置のブロック図である。男女並列音声認識の概要を示す図である。（ａ）は、ＭＰＥ基準の識別学習に用いる発話環境を付与した学習音素のラベルを例示する図であり、（ｂ）は、ＭＰＥ基準の識別学習に用いる仮説ラティスを例示する図である。（ａ）は、従来からの音響モデル生成装置を示すブロック図であり、（ｂ）は、従来からの音声認識装置を示すブロック図である。

以下、本発明による各実施例の適応化音響モデル生成装置を説明する。まず、実施例１の適応化音響モデル生成装置を説明する。

[装置構成]
図１に、本発明による実施例１の適応化音響モデル生成装置のブロック図を示す。実施例１の適応化音響モデル生成装置１は、音響モデルのタスク適応化を行い、新たなタスクに適応化した音響モデル（タスク適応化音響モデル）を生成する装置であり、より具体的には、学習音声の「タスク適応化音声」から特定した発声変形用の音素を、適応化対象の別タスクで学習された「音響モデル」に付加した上で当該音響モデルの識別学習を実行して適応化を行い、「タスク適応化音響モデル」を得る装置である。

適応化音響モデル生成装置１は、タスク適応化音声入力部４と、言語モデル入力部５と、音響モデル入力部６と、タスク適応化音声書き起こし入力部７と、適応化処理部２と、記憶部３とを備える。適応化処理部２は、音声認識部２１と、発声変形単語抽出部２２と、発声変形単語専用音素生成部２３と、発声変形単語専用音素入り音響モデル生成部２４と、音響モデル識別学習部２５と、学習後タスク適応化音響モデル生成部２６とを備える。

タスク適応化音声入力部４は、予め用意した音響モデル（例えば、図１１（ａ）に示す音響モデル生成装置１０１の出力データ）の学習に用いた学習音声とは異なるタスクの音声（タスク適応化音声）を入力して適応化処理部２における音声認識部２１及び音響モデル識別学習部２５に送出する。タスク適応化音声のデータは、適応化処理部２によって、音声認識処理に用いるデータ形式で記憶部３に格納される。

言語モデル入力部５は、タスク適応化音声の音声認識に用いる言語モデルを入力して適応化処理部２における音声認識部２１に送出する。言語モデルのデータは、適応化処理部２によって、音声認識処理に用いるデータ形式で記憶部３に格納される。尚、言語モデルは、言語的単位である形態素の種類ごとに、形態素単位での出現確率を表すデータテーブルと、形態素どうしの組み合わせに関する各形態素間の接続確率を表すデータテーブルからなる。

音響モデル入力部６は、予め用意した音響モデル（例えば、図１１（ａ）に示す音響モデル生成装置１０１の出力データ）を入力して適応化処理部２における音声認識部２１及び発声変形単語専用音素入り音響モデル生成部２４に送出する。入力される音響モデルは、タスク適応化音声とは別のタスクの学習音声を所定の単位毎に音響特徴量の統計量で表した、即ち学習音素ごとに学習音素が発話されるときの音響特徴量の統計量を表すデータテーブルからなる。音響特徴量として、例えば、１０ミリ秒ごとの間隔でそれぞれ開始する２５ミリ秒のフレーム内の音声の周波数パワー分布を基にしたＭＦＣＣ（メル周波数ケプストラム係数、Mel-Frequency Cepstrum Coefficient）を用いることができる。

音声認識部２１は、言語モデル入力部５を介して入力される言語モデルと音響モデル入力部６を介して入力される音響モデルとを用いて（又は記憶部３から読み出した言語モデルと音響モデルのデータを用いて）、タスク適応化音声入力部４から入力される（又は記憶部３から読み出される）タスク適応化音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを発声変形単語抽出部２２に送出する（又は記憶部３に格納する）。仮説単語ラティスは、ラティス上のアーク点ごとに、始点ノード、終点ノード、言語的単位、信頼度を表すデータ列のテーブルで表すことができ、記憶部３に格納することができる。

タスク適応化音声書き起こし入力部７は、タスク適応化音声に対応する書き起こし（以下、「タスク適応化音声書き起こし」と称する）を入力して適応化処理部２における発声変形単語抽出部２２及び音響モデル識別学習部２５に送出する。タスク適応化音声書き起こしのデータは、適応化処理部２によって、音響モデル識別学習処理に用いるデータ形式で記憶部３に格納される。

発声変形単語抽出部２２は、音声認識部２１から得られる認識結果の仮説単語ラティスを入力して（又は記憶部３から仮説単語ラティスのデータを読み出して）、タスク適応化音声書き起こし入力部７を介して得られるタスク適応化音声書き起こしを用いてタスク適応化音声中の発声変形の部分のデータ（以下、「発声変形単語」と称する）を抽出し、抽出した発声変形単語を発声変形単語専用音素生成部２３に送出する。

発声変形単語専用音素生成部２３は、発声変形単語抽出部２２から得られる発声変形単語から発声変形単語専用の音素（発声変形単語専用音素）を生成して、発声変形単語専用音素のデータとして発声変形単語専用音素入り音響モデル生成部２４に送出する。発声変形単語及び発声変形単語専用音素の抽出及び生成についての詳細は後述する。

発声変形単語専用音素入り音響モデル生成部２４は、発声変形単語専用音素生成部２３から得られる発声変形単語専用音素のデータを、音響モデル入力部６を介して得られる音響モデルにおける音素のデータに付加して、「発声変形単語専用音素入り音響モデル」として音響モデル識別学習部２５に送出する。

音響モデル識別学習部２５は、発声変形単語専用音素入り音響モデル生成部２４から得られる「発声変形単語専用音素入り音響モデル」について、タスク適応化音声書き起こし入力部７を介して得られる「タスク適応化音声書き起こし」と、タスク適応化音声入力部４を介して得られる「タスク適応化音声」とを用いて識別学習を実行し、タスク適応化音声とそのタスク適応化音声に対応する書き起こしの対からなる各音素に現れる音響特徴量の統計量を得るための学習データを生成して学習後タスク適応化音響モデル生成部２６に送出する。

学習後タスク適応化音響モデル生成部２６は、音響モデル識別学習部２５から得られる学習データから、識別学習後の音響モデル（タスク適応化音響モデル）を生成する。従って、このタスク適応化音響モデルは、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すデータテーブルとして生成することができる。

これにより、適応化音響モデル生成装置１によって識別学習して新たに生成されたタスク適応化音響モデルは、図１１（ｂ）に示した従来からの音声認識装置２００に適用することができ、この場合に音声認識装置２００によって音響モデルの学習音声とは異なるタスクのタスク適応化音声の音声認識を実行すると、従来よりも認識精度を改善することができる。

例えば、適応化音響モデル生成装置１は、タスク適応化音声入力部４における「音響モデルの学習音声としてのタスク適応化音声」に「ニュース番組の音声」を用いて、別のタスクとして「対談番組」の音声で学習して生成された「音響モデル」について学習することができ、このタスク適応化音響モデルを用いて、ニュース番組とは発話スタイルの異なる特定の対談番組の音声を音声認識すると、当該対談番組の認識精度を改善することができる。

この場合、３００時間程度のニュース番組の音声で別タスクの音響モデルを学習して適応化するのに、３０時間程度の当該対談番組の過去の放送分の音声をタスク適応化音声として利用することができることが確認された。認識精度の改善についての詳細は後述する。

以下、実施例１の適応化音響モデル生成装置の動作について、更に詳細に説明する。

[装置動作]
図２は、本発明による実施例１の適応化音響モデル生成装置の一つの動作例を表すフローチャートである。

ステップＳ１にて、タスク適応化音声入力部４、言語モデル入力部５、音響モデル入力部６、及びタスク適応化音声書き起こし入力部７を介して、異なるタスクの音声（タスク適応化音声）、音声認識に用いる言語モデル、タスク適応化音声とは異なるタスクの音声で学習された予め用意した音響モデル、タスク適応化音声に対応する書き起こしを入力して、それぞれ音声認識処理及び音響モデル学習処理に用いるデータ形式で記憶部３に格納される。

ステップＳ２にて、音声認識部２１によって、記憶部３に格納された言語モデルと音響モデルのデータを読み出して、タスク適応化音声入力部４から入力されるタスク適応化音声について音声認識処理を実行し、認識結果としての仮説単語ラティスのデータを生成する（ステップＳ３）。

ステップＳ４にて、発声変形単語抽出部２２によって、記憶部３から読み出されるタスク適応化音声書き起こしと仮説単語ラティスを用いて、タスク適応化音声中の発声変形の部分のデータである「発声変形単語」を抽出する。即ち、タスク適応化音声を音声認識した結果として得られる仮説単語のラティス（仮説単語ラティス）を用いて、タスク適応化音声から発声変形の部分を特定する。

ステップＳ５にて、発声変形単語専用音素生成部２３によって、発声変形単語抽出部２２から得られる発声変形単語から発声変形単語専用の音素を生成して、発声変形単語専用音素のデータを生成する。

ステップＳ６にて、発声変形単語専用音素入り音響モデル生成部２４によって、発声変形単語専用音素生成部２３から得られる発声変形単語専用音素のデータを、音響モデル入力部６を介して得られる音響モデルにおける音素のデータに付加して、「発声変形単語専用音素入り音響モデル」を生成する。

即ち、発声変形用の音素を特定するためには、発声変形の単語依存性を利用することができる。発声変形単語の特定には、「音響モデル」と「言語モデル」を用いて「タスク適応化音声」を音声認識することで得られる「仮説単語ラティス」を用いる。この仮説単語の事後確率に基づいて「発声変形単語」を特定し、この発声変形単語に依存する発声変形単語専用音素を「音響モデル」に付加して適応化する。この動作の詳細は後述する。

ステップＳ７にて、音響モデル識別学習部２５によって、「タスク適応化音声書き起こし」と「タスク適応化音声」を用いて、発声変形単語専用音素入り音響モデル生成部２４から得られる「発声変形単語専用音素入り音響モデル」の識別学習を実行し、各音素に現れる音響特徴量の統計量を得るための学習データを生成する。

この発声変形単語専用音素をその他の音素とは別に統計量を識別的に学習して適応化することにより、単語に依存する発声変形の統計量を識別学習することができる。

また、識別学習による適応化には、音素誤り最小化基準（ＭＰＥ基準）に基づいて音響モデルのパラメータを線形変換する技法が有効である（例えば、非特許文献２参照）。特に、ＭＰＥ基準の識別学習では、認識結果から得られる音素ラティスの各枝の事後確率を算出し、音素の認識誤りの期待値が小さくなるように音響モデルのパラメータを推定するように動作するので、ＭＰＥ基準で推定した音響モデルを適応化の元モデルとして用いる場合に有効である。ＭＰＥ基準の学習に必要なデータは、学習音声と、その音声に対応する正解音素系列（認識結果）、及び音素の仮説単語ラティスである。

ステップＳ８にて、学習後タスク適応化音響モデル生成部２６によって、音響モデル識別学習部２５から得られる学習データから、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルのデータテーブルを生成し、外部に送出するか、又は記憶部３に保持する。

ここで、仮説単語ラティスから発声変形単語を特定する処理について説明する。

認識仮説は、ラティス上のアーク点ごとに、始点ノード、終点ノード、言語的単位、信頼度を表すデータ列のテーブルで表すことができ、図解的にグラフで表すこともできる（図４を参照して後述する）。丸印がノードに相当し、ノード間を結ぶ矢印付き線がアークに相当する。言語的単位は、個別のアークに対応する形態素である。信頼度は、認識結果におけるそのアークの信頼度（言語モデル及び音響モデルを基にした統計的処理で得られる認識結果の信頼度）を表す数値で表される。

以下、前向き後ろ向き確率について説明する。認識結果から得られる形態素ｍのスコアＬ（ｍ）を基に、事後確率を算出する。ここで、Ｌ（ｍ）としては、音響モデルの尤度、言語モデルの尤度、或いはこれらの積を用いる。まず、形態素ｍの前向き確率α（ｍ）と後ろ向き確率β（ｍ）とを以下の式（１）〜式（５）のように定義する。

事後確率を計算するため、ここではラティスの両端に、それぞれ始端単語と終端単語に相当するアークを付加する。始端単語は、ラティスの左端に付加され、式（１）における「ｂ」で表される。終端単語は、ラティスの右端に付加され、式（２）における「ｅ」で表される。ここで、前向きとは、始端から終端の方向であり、後ろ向きとは、終端から始端の方向である。ＬＥＦＴ（ｍ）は、形態素（ｍ）に対して左から（つまり始端側から）接続する形態素の集合である。また、ＲＩＧＨＴ（ｍ）は、形態素（ｍ）に対して右から（つまり終端側から）接続する形態素の集合である。

式（１）に表すように、始端単語（ｂ）の前向き確率は１．０である。また、式（２）に表すように、終端単語（ｅ）の後ろ向き確率は１．０である。

式（３）に表すように、形態素ｍの前向き確率は、形態素ｍに左から接続する各形態素ｍ’の前向き確率α（ｍ’）に当該形態素ｍのスコアＬ（ｍ）を乗じた値の、左から接続する全ての形態素についての総和である。このように前向き確率は再帰的な定義となっているが、始端単語から前向きに順次計算していくことにより、ラティス中の全ての形態素の前向き確率を算出することができる。

式（４）に表すように、形態素ｍの後ろ向き確率は、形態素ｍに右から接続する各形態素ｍ’の後ろ向き確率β（ｍ’）に当該形態素ｍのスコアＬ（ｍ）を乗じた値の、右から接続する全ての形態素についての総和である。このように後ろ向き確率は再帰的な定義となっているが、終端単語から後ろ向きに順次計算していくことにより、ラティス中の全ての形態素の後ろ向き確率を算出することができる。

式（５）に表すように、終端単語の前向き確率および始端単語の後ろ向き確率をＺとする。

形態素ｍの事後確率γ（ｍ）は、α、β、Ｚを用いて、式（６）により算出することができる。

さらに、男女などの話者ラベルを利用することで、話者に依存した発声変形を特定することができ、話者特有の言い回しに起こる発声変形部分の認識精度を改善することができる。尚、男女並列音声認識への応用については、実施例２で詳細に説明する。

実施例１においても、話者特有の発声変形を特定するために、単語の話者ラベル（“Ｍ_”：男声、“Ｆ_”：女声）を用いて男声用の音響モデルと女声用の音響モデルを識別的に学習して適応化する。この単語の話者ラベルには、性別だけでなく特定の話者とすることもできる。

以下、形態素ｍの事後確率γ（ｍ）について、仮説単語ラティスにおける時刻情報ｔ_１〜ｔ_３におけるｉ〜ｍの各リンクにおける単語ｗ_ｉ〜ｗ_ｍと事後確率ｐ_ｉ〜ｐ_ｍとして、図４を参照して新たに符号を付して説明する。まず、タスク特有の言い回しに含まれる発声変形単語を特定するため、タスク適応化音声中の出現頻度が高い単語を選択する。本実施例では、出現回数の下限値Ｎ_ｆを用いて、タスク適応化音声のリファレンス単語列（タスク適応化音声の書き起こしテキスト）から、単語の集合Ｗ^ｆ＝｛ｗ∈Ｗ^ｒ：Ｎ（ｗ）≧Ｎ_ｆ｝を選ぶ。ここで、Ｗ^ｆは、リファレンス単語列に含まれる単語の集合であり、Ｎ（ｗ）は、単語ｗの出現回数である。

参考として、図３は、タスク適応化音声の高頻度単語のリストを示す図であり、２００７年５月から２００８年１２月にかけて放送されたＮＨＫの報道系情報番組“クローズアップ現代”２４８回分（３１時間分）の音声の書き起こしから得られた結果を示す。つまり、対談番組“クローズアップ現代”のタスク適応化音声から得られた高頻度単語のリストである。このリストからはタスク依存性が見られず、発声変形の抽出ができないので、本実施例では、このＷ^ｆから発声変形が起こりやすい単語を特定する。

発声変形が起こっている単語では、その標準的な音素列に対する尤度の低下が予測される。この尤度の低下について、タスク適応化音声を認識した結果として得られる仮説単語ラティスの事後確率を用いて評価する。図４に、リファレンス単語列と仮説単語ラティスの一部を図示する。図中の各ノード（図４中の丸印）は、時刻情報を表しており、時刻情報ｔ_１〜ｔ_３におけるｉ〜ｍの各リンクは、単語ｗ_ｉ〜ｗ_ｍと事後確率ｐ_ｉ〜ｐ_ｍの情報を有している。ここで、仮説単語ラティス中の単語もリファレンス単語列と同様に話者ラベル（“Ｍ_”：男声、“Ｆ_”：女声）を有しており、後述する男女並列音声認識を用いることで、話者ラベル付きの仮説単語ラティスを得ることができる。ここで、Ｌ^Ｒをリファレンス単語のリンクの集合、Ｌ^Ｈを仮説単語のリンクの集合とすると、リンクｊ∈Ｌ^Ｈの事後確率を占有重み付き事後確率として次式により定義する。

ここで、Ｔ（ｉ）は、リンクｉの占有フレーム数、Ｔ_ｉ（ｊ）は、リンクｉとリンクｊのオーバーラップ部分のフレーム数である。図４の例では、Ｔ（ｉ）＝Ｔ_ｒ，Ｔ_ｉ（ｊ）＝ｔ_ｋ，Ｔ_ｉ（ｍ）＝ｔ_ｒである。

次に、タスク適応化音声全体で、リファレンス単語ｒの占有部分における仮説単語ｈの累積事後確率を次式によって求める。

最後に、仮説単語ラティスにある単語の集合Ｗ^ｈを用いて正規化するために、単語ｊ∈Ｗ^ｆの占有部分における、単語ｈ∈Ｗ^ｈの周辺化事後確率Ｃ(―)_ｒ（ｈ）を次式から求める。

ここで、Ｃ(―)_ｒ（ｈ＝ｒ）は、単語ｒの部分を正しく認識できた事後確率を表す。本実施例では、この事後確率Ｃ(―)_ｒ（ｈ＝ｒ）が小さい単語Ｗ^Ｃ＝｛ｗ∈Ｗ^ｆ：Ｃ(―)_ｒ（ｗ）≦Ｃ^Ｓ｝（Ｃ^Ｓは、発声変形単語を選択するための閾値）は、発声変形が起こっている可能性が高いとして、新たに単語依存の音素モデルを与える。

図５に、図３と同じタスク適応化音声から得られたＷ^ｆの各単語の事後確率Ｃ(―)_ｒ（ｈ＝ｒ）を昇順に５位までについて示す。図５では、図３に示された単語とは異なり、対談特有の単語が上位に見られることが分かる。

つまり、発声変形単語抽出部２２は、仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語から、発声変形の部分を特定する。

更に、発声変形単語抽出部２２は、仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、第２タスクの音声中の当該単語の出現頻度が所定の閾値以上の単語を発声変形の単語として特定し、及び／又は、仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、第２タスクの音声中の当該単語の出現頻度が最高値から所定の順位までの範囲に含まれる単語を発声変形の単語として特定するのが好適である。

本実施例によれば、事後確率Ｃ(―)_ｒ（ｈ＝ｒ）に基づいて特定した単語に、図６に示すように、単語依存の識別子(ＩＤ）を後置した単語依存の音素（発声変形単語専用音素）を新たに導入するので、別タスクの音響モデルを適応化することができる。また、実施例２で説明するように、男女音声が混在した音声を用いて男女の音響モデルを同時に適応化することもできる。

ＭＰＥ基準では、仮説の音素正解精度Ａ（ｓ^ｈ，ｓ^ｒ）を定義し、次式の目的関数を最大化する（例えば、非特許文献１参照）。

ここで、Ｘは学習音声、ｓ^ｒはリファレンス単語の音素列、ｓ^ｈは仮説単語の音素列、Λは音響モデルのモデルパラメータである。

一般的に、音素正解精度Ａ（ｓ^ｈ，ｓ^ｒ）の算出には、Λに環境依存音素を用いている場合でも中心音素を用いる。これは、中心音素が同じで特徴量分布の重なりが大きい音響モデルを識別的に学習しても良好な結果を得られないためである。

一方、本実施例のように導入した図６のような発声変形単語専用音素は、発声変形により標準音素と異なる特徴量分布を有しているため、発声変形の音素とその他の音素とを識別的に学習することができる。音素正解精度Ａ（ｓ^ｈ，ｓ^ｒ）の算出時に、単語依存音素（発声変形単語専用音素）を独立して扱うことで、他の中心音素だけでなく発声変形していない同一音素についても識別的に学習することができる。更に、このような発声変形であると定義された単語の部分の音素誤りは、単語固有の音素であるため“単語誤り”と等価に扱うことができるようになる。このため、音素誤り最小化基準（ＭＰＥ基準）の中で、部分的に単語誤り最小化基準でモデルパラメータを最適化することができる。

例えば、発声変形の単語依存性を考慮した音素正解精度（Ａ_ｄｉｓｃ）と、発声変形の単語依存性を考慮しない音素正解精度（Ａ_ｓｔｄ）について、繰り返しＤＬＴ学習を行った時の単語誤認識率（ＷＥＲ）の比較結果を図７に示す。発声変形の単語依存性を考慮した音素正解精度（Ａ_ｄｉｓｃ）と、発声変形の単語依存性を考慮しない音素正解精度（Ａ_ｓｔｄ）はいずれもベースラインよりも優れたＷＥＲが得られ、繰り返し回数４回以上で、発声変形の単語依存性を考慮した音素正解精度（Ａ_ｄｉｓｃ）は、発声変形の単語依存性を考慮しない音素正解精度（Ａ_ｓｔｄ）よりも更に改善することが分かった。これは、本実施例において特定した発声変形の単語の音素を識別的に学習できていることを意味している。

このように、仮説単語のラティス（仮説単語ラティス）の前向き後ろ向き確率計算（動的計画法の一種であるForward‐Backwardアルゴリズム）から求められる仮説単語の事後確率を用いて、発声変形の部分を特定することができ、例えば、正解単語の事後確率が小さい部分を発声変形の部分として特定することができる。

また、発声変形の部分の特徴量の統計量を得るためと、頻度の高い発声変形の認識精度の改善のために、タスク適応化音声中の単語の出現頻度と当該単語の事後確率の期待値を併用して発声変形単語を特定するのが好適である。

また、通常の識別学習では、同一音素であれば音素環境が異なっていても音素誤りとは認識されないので、このような発声変形単語の音素を識別的に学習していない。そこで、本実施例では、発声変形の部分の統計量を変形のないその他の音素の統計量とは別に学習するために、発声変形単語専用音素を新たに当該音響モデルに与えてタスク適応化音声における発声変形の統計量を識別学習するようにしたので、発声変形単語専用音素を他の音素とは全く異なる音素として識別的に学習することができる。これにより、タスク適応化音響モデルを生成して、音響的特徴が異なる発声変形の部分の認識精度の向上を図ることができる。

次に、本発明による実施例２の適応化音響モデル生成装置を説明する。

[装置構成]
図８に、本発明による実施例２の適応化音響モデル生成装置のブロック図を示す。実施例２の適応化音響モデル生成装置１１は、実施例１の適応化音響モデル生成装置１の動作及び利点を全て包含するものであり、２種類の環境依存音響モデルを同時に学習する装置として応用した例である。同様な構成要素には同一の参照番号を付して説明する。

実施例２の適応化音響モデル生成装置１１は、タスク適応化音声入力部４と、言語モデル入力部５と、音響モデル入力部６と、ユーザインターフェース部８と、適応化処理部２１０と、記憶部３とを備える。適応化処理部２１０は、発話環境並列音声認識部２１１と、認識誤り修正部２１２と、識別子付き書き起こし部２１３と、発声変形単語抽出部２２１と、発声変形単語専用音素生成部２３１と、発声変形単語専用音素入り音響モデル生成部２４１と、音響モデル識別学習部２４５と、学習後環境依存音響モデル生成部２４６とを備える。実施例２の適応化音響モデル生成装置１１の動作は、図２に説明した実施例１の動作と同様であり、実施例１と相違する点について詳細に説明する。

音響モデル入力部６は、音響モデル（例えば、図１１（ａ）に示す音響モデル生成装置１０１の出力データ）に、それぞれ男女などの話者ラベルを付した複数種類の音響モデル、例えば第１環境依存音響モデル（例えば、男声の音響モデル）と第２環境依存音響モデル（例えば、女声の音響モデル）を入力して適応化処理部２１０における発話環境並列音声認識部２１１及び発声変形単語専用音素入り音響モデル生成部２４１に送出する。第１環境依存音響モデル及び第２環境依存音響モデルは、学習音声を所定の単位毎に音響特徴量の統計量で表した、即ち識別子付き音素ごとに音素が発話されるときの音響特徴量の統計量を表すデータテーブルからなる。

ユーザインターフェース部８は、発話環境並列音声認識部２６の識別結果を随意に修正するために、認識誤り修正部２７に修正情報を供給するインターフェースである。

発話環境並列音声認識部２１１は、例えば男女並列音声認識などの複数の発話環境を並列に音声認識する機能を有し、音響モデル入力部６を介して供給される複数種類の環境依存音響モデルを用いて、タスク適応化音声入力部４を介して供給される複数の発話環境が混在するタスク適応化音声の学習音声について、該タスク適応化音声の各音素ラベルに当該発話環境識別子を付した状態で並列に音声認識を実行する（後述する図９）。認識結果におけるそれぞれの単語の発話環境（例えば、話者毎の性別）の発話環境識別子（例えば、男女別の識別子）を各音素に自動的に付与するため、後述する図１０に示すように、発話環境並列音声認識部２１１からは、識別子付きの認識結果が得られるとともに、識別子付きの仮説ラティスが得られる。識別子付きの仮説ラティスは、識別学習に用いる際に、発話環境の識別誤りをより減少させることができる。

発声変形単語抽出部２２１、発声変形単語専用音素生成部２３１、及び発声変形単語専用音素入り音響モデル生成部２４１は、それぞれ実施例１における発声変形単語抽出部２２、発声変形単語専用音素生成部２３、及び発声変形単語専用音素入り音響モデル生成部２４に対応する。

認識誤り修正部２１２は、ユーザインターフェース部２３から供給される修正情報によって必要に応じて、発話環境並列音声認識部２１１の識別結果を随意に修正し、修正した識別子付き認識結果を識別子付き書き起こし部２１３に供給する。

識別子付き書き起こし部２１３は、認識誤り修正部２１２から供給される（修正した）識別子付き認識結果に基づいて、当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する。

つまり、実施例１の適応化音響モデル生成装置１では、書き起こしを別途入力する態様について説明したが、実施例２の適応化音響モデル生成装置１１では、発話環境並列音声認識部２１１の識別子付きの識別結果（随意に修正可能）に基づいて、当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する。

従って、実施例２の適応化音響モデル生成装置１１の音響モデル識別学習部２４５は、タスク適応化音声入力部４を介して供給されるタスク適応化音声と、識別子付き書き起こし部２１３を介して供給される識別子付き書き起こしを用いて、音響モデル入力部６からの環境依存の識別子付き音響モデルを識別学習する。

学習後環境依存音響モデル生成部２４６は、音響モデル識別学習部２４５から得られる発話環境毎の学習後の識別子付き音響モデルに対して、発話環境識別子を除去し、学習後の当該複数の発話環境依存音響モデルを生成する。例えば、学習後の第１環境依存タスク適応化音響モデル、第２環境依存タスク適応化音響モデルを生成して送出する。この生成した学習後の発話環境依存のタスク適応化音響モデルは、記憶部３に記憶することもできる。

以下、男女並列音声認識について説明する。

［男女並列音声認識］
図９に、対談音声などのように、一つの発話区間に複数の話者の音声が混在する場合に有効な男女並列音声認識の概要を示す。男女並列音声認識では、男女の性別依存音響モデルにリンクした単語発音辞書の音素ネットワークを並列化し、単語境界での性別属性の入れ替えを許容して探索を行う。

発話環境並列音声認識部（男女並列音声認識部）２１１は、発話検出・性別変更制御部２１１ａを有する。発話検出・性別変更制御部２１１ａは、認識開始すると、男女間遷移が可能で枝刈りも共通の男女並列音素認識を行い、累積音素尤度を利用して発話の始端と終端を迅速に検出し、その結果に基づいて話者属性交代時刻を同定する。

この発話の終始端と話者属性の交替時刻を用いて、図１０に示すように、男女間遷移が可能で枝刈りも共通の男女並列大語彙連続音声認識を行い、累積音響尤度を利用して認識結果の単語列を出力する。

具体的には、音声認識を開始すると（Ｓ１２）、入力音声の特徴ベクトルをケプストラムと短時間パワー及びそれらの動的特徴量として、様々な音響環境の男性話者音声から学習した音素環境依存音響モデル（トライフォン）と、同様に学習した女性の音響モデルから、単語バイグラムを利用して、図９に示すような単語を構成する音素ネットワークを構成する。ここで、女性用の発話環境音響モデルの音素ネットワークにおいて、発話始端及び発話終端の時刻を利用して、無音（Ｓ１３ａ，Ｓ１５ａ）の間に単語バイグラム（Ｓ１４ａ）を構築し、男性用の発話環境音響モデルの音素ネットワークにおいて、発話始端及び発話終端の時刻を利用して、無音（Ｓ１３ｂ，Ｓ１５ｂ）の間に単語バイグラム（Ｓ１４ｂ）を構築して、男女間遷移を可能にして、音声認識結果を出力する（Ｓ１６）。

また、発話環境並列音声認識部（男女並列音声認識部）２１１によれば、認識結果（仮説）の各単語に属性情報が付与することもできる。

一方、元々の音響モデルの音素には発話環境識別子を音素ラベルに付すようにしたため、最尤単語仮説系列と、それぞれの単語がいずれの音素ネットワークを通って認識されたかを示す話者属性とを得ることができるだけでなく、枝刈りされずに残った探索パスを識別子付きラティスとして得ることもできる。この識別子付きラティスを音響モデルの識別学習に用いる。発話環境（話者）依存音響モデルを学習するには、大量のデータで学習した不特定話者の音響モデルを適応化するのが有効である。

実施例２の適応化音響モデル生成装置１１は、音響モデルの学習に用いる音声データの音素ラベルに発話環境の識別子を与え、各音素の音響モデルにも同様の発話環境識別子を与えるとともに、各音素の音響モデルにも同一の発話環境識別子を与え、複数の発話環境が混在する音声セグメントから、複数の発話環境に対応する音響モデルを同時に学習するとともに、発声変形を識別的に学習することができる。

また、実施例２の適応化音響モデル生成装置１１は、発話環境識別子が与えられた音響モデルを作成するにあたって、複数の発話環境依存音響モデルを、発話環境識別子を用いてマージ（統合）して作成しているため、この音響モデルを用いて一度に（一括して）複数の音響モデルを学習することができる。

また、実施例２の適応化音響モデル生成装置１１は、発話環境の識別子として、男女又は話者別の識別子を与えるとともに、必要であれば男女並列音声認識の認識結果を修正し、学習音声の音素ラベルを作成するため、学習音声に対応する正解音素系列の正解精度の判別も容易になる。

実施例２の適応化音響モデル生成装置１１は、発話環境識別子を用いた音響モデルの学習にこのような識別学習を導入するには、認識誤りを含む認識仮説のラティスを利用するのが好適である。男女並列音声認識のような複数の音響モデルから得られる仮説を同時に一括して探索してラティスを取得して仮説単語ラティスを生成することができる。このラティス上の各音素にも発話環境識別子を与えて仮説単語ラティスを生成するために、発話環境が異なる音素の認識誤りをモデルの誤りとして識別することができ、発話環境の認識誤りが少なくなるように音響モデルの統計量を学習することができる。

図１０（ａ）に、ＭＰＥ基準の識別学習に用いる発話環境を付与した学習音素のラベルを示し、図１０（ｂ）に、ＭＰＥ基準の識別学習に用いる仮説ラティスの例を示す。本実施例によれば、ＭＰＥ基準の識別学習時に、音素誤りに男女の識別誤りも考慮して識別学習することができる。図１０（ｂ）のラティスの枝の上部に発話環境を考慮した学習音素を、ラティスの枝の下部に各枝の音素の正解精度を示している。

識別学習では、この音素正解精度が１．０である枝は、尤度が高くなるように学習し、正解精度が０．０もしくは−１．０の音素では尤度が低くなるように学習する例である。例えば、音素の正解精度として音素の置換及び削除の誤りを評価するときには、音素正解精度を０．０〜１．０の値をとり、音素の正解精度として更に音素の挿入誤りを評価するときには、音素正解精度を−１．０〜１．０の値をとるように学習する。

例えば、図１０（ｂ）の例では、“Ｆ＿ｍ，Ｆ＿a, Ｆ＿ｓ，Ｆ＿ｕ，Ｆ＿ｓｐ”と“Ｍ＿ｔ，Ｍ_ａ，Ｍ＿ｄ，Ｍ＿ａ”のパスは音素の誤りではないが、男女の性別を誤っているため、音素正解精度は、０．０が与えられ、即ち、観測される特徴量を表す特徴ベクトルに対して尤度が低くなるように学習する。このようにして、男女の音素の識別能力の高い音響モデルを学習することができる。

従って、この学習済みの音響モデルを用いて発声変形を特定すれば、例えば、発話環境依存音響モデルを個別に学習せずとも一括して複数種の音響モデルを識別学習することができ、且つ学習結果としての学習後発話環境依存音響モデルのモデル精度を高めることができる。これは、発話環境依存音響モデルの幅の拡張を容易にするという効果を更に生じさせるとともに、複数の話者が混在する音声認識に対しても発話環境の識別誤りに起因する認識誤りを削減して、精度よく話者を識別して音声認識することができるようになる。

実施例１と同様に、実施例２の適応化音響モデル生成装置１１によれば、ＭＰＥ基準に基づいて推定したＤＬＴを導入して音響モデルを適応化する場合、男女別の複数種類の音素クラスに対して単語誤認識率（ＷＥＲ）を改善する。

また、本発明の一態様として、適応化音響モデル生成装置１，１１をコンピュータとして構成することができ、適応化処理部の機能を実現させるためのプログラムは、各コンピュータの内部又は外部に備えられる記憶部３に記憶される。また、各制御に用いる情報及びデータは、この記憶部３に記憶しておくことができる。このような記憶部３は、外付けハードディスクなどの外部記憶装置、或いはＲＯＭ又はＲＡＭなどの内部記憶装置で実現することができる。プログラムを実行する適応化処理部は、中央演算処理装置（ＣＰＵ）などで実現することができる。即ち、ＣＰＵが、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、記憶部３から読み込んで、コンピュータ上で各装置を実現することができる。ここで、いずれかの手段の機能をハードウェアの一部で実現しても良い。

上述した実施例において、適応化音響モデル生成装置１，１１の機能を実現するための処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくこともできる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録装置、半導体メモリ等どのようなものでもよい。

上述の実施例の適応化音響モデル生成装置１，１１は、代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。従って、本発明は、上述の実施例によって制限するものと解するべきではなく、特許請求の範囲によってのみ制限される。

本発明によれば、異なるタスクの音声で精度よく識別学習した音響モデルが得られるので、タスクの異なる音声認識の用途に有用である。

１適応化音響モデル生成装置
２適応化処理部
３記憶部
４タスク適応化音声入力部
５言語モデル入力部
６音響モデル入力部
７タスク適応化音声書き起こし入力部
８ユーザインターフェース部
１１適応化音響モデル生成装置
２１音声認識部
２２発声変形単語抽出部
２３発声変形単語専用音素生成部
２４発声変形単語専用音素入り音響モデル生成部
２５音響モデル識別学習部
２６学習後タスク適応化音響モデル生成部
１０１音響モデル生成装置
１０２学習処理部
１０３記憶部
１１１書き起こし入力部
１１２学習音声入力部
１２５音響モデル学習部
１２６学習後音響モデル生成部
２００音声認識装置
２０２認識処理部
２０３記憶部
２１０適応化処理部
２１１発話環境並列音声認識部
２１２認識誤り修正部
２１３識別子付き書き起こし部
２１４音声入力部
２１６音響モデル入力部
２２０音声認識部
２２１発声変形単語抽出部
２３１発声変形単語専用音素生成部
２４１発声変形単語専用音素入り音響モデル生成部
２４５音響モデル識別学習部
２４６学習後環境依存音響モデル生成部

Claims

第１タスクの音声で学習して生成された音響モデルを用いて該第１タスクとは異なる第２タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置であって、
前記第１タスクの音響モデルと、前記第２タスクの音声の音声認識用の言語モデルを用いて、前記第２タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成する音声認識手段と、
前記仮説単語ラティスと前記第２タスクの音声用の書き起こしを用いて、前記第２タスクの音声中の発声変形の部分を、前記仮説単語ラティス中の単語の事後確率を基準として特定し、該発声変形の単語専用の音素を生成する発声変形単語専用音素生成手段と、
前記発声変形の単語専用の音素を前記第１タスクの音響モデルに付加して、前記書き起こしと前記第２タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するタスク適応化音響モデル生成手段と、
を備えることを特徴とする適応化音響モデル生成装置。
前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語から、前記発声変形の部分を特定することを特徴とする、請求項１の適応化音響モデル生成装置。
前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第２タスクの音声中の当該単語の出現頻度が所定の閾値以上の単語を前記発声変形の単語として特定することを特徴とする、請求項２の適応化音響モデル生成装置。
前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第２タスクの音声中の当該単語の出現頻度が最高値から所定の順位までの範囲に含まれる単語を前記発声変形の単語として特定することを特徴とする、請求項２又は３に記載の適応化音響モデル生成装置。
前記タスク適応化音響モデル生成手段は、前記発声変形の単語専用の音素と該単語専用の音素以外の音素とを識別学習して、前記タスク適応化音響モデルを生成することを特徴とする、請求項１〜４のいずれか一項に記載の適応化音響モデル生成装置。
前記第１タスクの音響モデルは、複数種類の環境依存音響モデルからなり、
前記環境依存音響モデルの音素には、複数種類の環境依存音響モデルを識別するための識別子が付されており、
前記音声認識手段は、前記複数種類の環境依存音響モデルを用いて複数の発話環境を並列に音声認識し、
前記タスク適応化音響モデル生成手段は、前記複数種類の環境依存音響モデルを同時に学習して、前記複数種類の環境依存音響モデルを適応化した音響モデルをそれぞれ生成することを特徴とする、請求項１〜５のいずれか一項に記載の適応化音響モデル生成装置。
第１タスクの音声で学習して生成された音響モデルを用いて該第１タスクとは異なる第２タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置として構成するコンピュータに、
前記第１タスクの音響モデルと、前記第２タスクの音声の音声認識用の言語モデルを用いて、前記第２タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成するステップと、
前記仮説単語ラティスと前記第２タスクの音声用の書き起こしを用いて、前記第２タスクの音声中の発声変形の部分を、前記仮説単語ラティス中の単語の事後確率を基準として特定し、該発声変形の単語専用の音素を生成するステップと、
前記発声変形の単語専用の音素を前記第１タスクの音響モデルに付加して、前記書き起こしと前記第２タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するステップと、
を実行させるためのプログラム。