JP5184467B2 - 適応化音響モデル生成装置及びプログラム - Google Patents

適応化音響モデル生成装置及びプログラム Download PDF

Info

Publication number
JP5184467B2
JP5184467B2 JP2009200144A JP2009200144A JP5184467B2 JP 5184467 B2 JP5184467 B2 JP 5184467B2 JP 2009200144 A JP2009200144 A JP 2009200144A JP 2009200144 A JP2009200144 A JP 2009200144A JP 5184467 B2 JP5184467 B2 JP 5184467B2
Authority
JP
Japan
Prior art keywords
task
word
acoustic model
speech
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009200144A
Other languages
English (en)
Other versions
JP2011053312A (ja
Inventor
庄衛 佐藤
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2009200144A priority Critical patent/JP5184467B2/ja
Publication of JP2011053312A publication Critical patent/JP2011053312A/ja
Application granted granted Critical
Publication of JP5184467B2 publication Critical patent/JP5184467B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、各音素の音響特徴量の統計量を音響モデルとした音声認識に関し、特に、音響モデルの元々の学習音声とは異なる言い回しが多く含まれる認識対象(タスク)の音声の認識精度の向上を図るための適応化音響モデル生成装置及びプログラムに関する。
従来からの統計的な音響モデルを用いた音声認識では、学習音声から各音素に現れる音響特徴量の統計量を学習している。
例えば、図11(a)に、従来からの音響モデル生成装置のブロック図を示す。従来からの音響モデル生成装置101は、学習音声入力部112を介して学習対象の音声(学習音声)を入力するとともに、書き起こし入力部111を介して当該学習音声に対応する書き起こしを入力し、適宜、データとして記憶部103に格納する。学習処理部102は、音響モデル学習部125と、学習後音響モデル生成部126とを有する。
音響モデル学習部125は、入力される学習音声と書き起こしを用いて(又は記憶部103に格納された学習音声と書き起こしのデータを読み出して)、学習音声とその学習音声に対応する書き起こしの対からなる各音素に現れる音響特徴量の統計量を得るための学習データを生成し、学習後音響モデル生成部126に送出する。学習後音響モデル生成部126は、音響モデル学習部125によって学習した学習データを入力し、学習後の音響モデルを生成する。従って、音響モデル生成装置101によって、学習音声を所定の単位毎に音響特徴量の統計量で表した音響モデルを得ることができ、この音響モデルは、音素ごとに音素が発話されるときの音響特徴量の統計量を表すデータテーブルとして生成することができる。音響特徴量として、例えば、10ミリ秒ごとの間隔でそれぞれ開始する25ミリ秒のフレーム内の音声の周波数パワー分布を基にしたMFCC(メル周波数ケプストラム係数、Mel-Frequency Cepstrum Coefficient)を用いることができる。
図11(b)に、従来からの音声認識装置のブロック図を示す。従来からの音声認識装置200は、前述の音響モデル生成装置101によって生成した音響モデルを用いて、入力音声の音声認識を実行する装置である。
従来からの音声認識装置200は、音声入力部214を介して音声を入力するとともに、音響モデル入力部216を介して当該音響モデルを入力し、適宜、データとして記憶部203に格納する。認識処理部202は、主に、音声認識部220として構成され、音声認識部220は、入力音声と音響モデルを用いて(又は記憶部203に格納された入力音声と音響モデルのデータを読み出して)、音声認識処理を実行し、認識結果を生成する。尚、認識結果として、音声認識の結果を表すデータ以外に、認識仮説としてのデータ、即ち仮説単語ラティス上のアーク点ごとに、始点ノード、終点ノード、言語的単位、信頼度を表すデータ列を得ることができる。信頼度は、認識結果におけるそのアークの信頼度(言語モデル及び音響モデルを基にした統計的処理で得られる認識結果の信頼度)を表す数値で表される。
ただし、音響モデルにおける音響特徴量の統計量は、タスクに依存している部分があり、音響モデルの学習音声とは異なるタスクの音声について音声認識を実行する場合は、十分な認識結果が得られない場合がある。ここで、「異なるタスク」とは、発話スタイルの異なる認識対象音声を云い、例えば、読み上げ音声が中心のニュース番組や、考えながらの自由発話が中心の対談番組などである。実際に、ニュース番組で学習した音響モデルで、対談番組の音声を認識しても十分な認識精度が得られていない。このようなタスクの認識精度の向上を図るために、比較的小規模な異なるタスクの音声を用いた音響モデルの適応化(更新)が行われる。
一般的に、この適応化には、既存の音素の統計量を適応化する技法がとられ、音素誤り最小化基準(MPE)で識別学習した音響モデルの適応化では、DLT(Discriminative Linear Transforms)が有効であることが知られている(例えば、非特許文献1,2参照)。
一方、上述の対談番組のような自由発話には、タスクに特有の発話スタイルに依存した「言い回し」があり、この言い回しには不明瞭な発声がみられることがよくある。この不明瞭な言い回しは「発声変形」と称され、従来、発声変形をモデリングするために、発声変形時の音声に最も近い音素列を発音辞書に併記する技法が提案されている(例えば、非特許文献3,4,5参照)。
この発音辞書を用いた技法によれば、発声変形における音素の音響特徴量の統計量を学習する必要がないので、少量の学習音声で発声変形をモデリングすることができる。
また、対談音声を学習したり認識したりする場合には、収録された音声における発話と発話との間に適切な無音区間がない場合があるため、性別や複数の話者などの発話環境毎に音声を分割することが難しい。このような音声の認識に、性別依存音響モデルを利用して、男女の話者の音声が混在する音声の認識精度の向上を図る男女並列音声認識が知られている(例えば、特許文献1参照)。
特開2007−233149号公報
D. Povey, "Minimum phone error and I-smoothing for improved discriminative training", in Proc. ICASSP, 2002年, pp. 105-108 L. Wang, P. C. Woodland, "MPE-based discriminative linear transforms for speaker adaptation", Computer Speech and Language, 22, 2008年, pp. 256-272. T. Imai, A. Ando, E. Miyasaka, "A new method for automatic generation of speaker-dependent phonological rules", proc of ICASSP, 1995年, pp. 864-867 緒方淳、後藤真孝、"Confusion networkと語彙制約なし音声認識を用いた動的発音モデリング"、情報処理学会研究報告、No. 68, 2008年,pp. 7-12 Bahram V., Farshad A. Seyed M. A., "Hybrid statistical pronunciation models designed to be trained by a medium-size corpus", Computer Speech and Language, No. 23, 2009年, pp. 1-24
上述した発音辞書を用いた発声変形のモデリングでは、発声変形の部分の不明瞭な音響特徴量が隠れマルコフモデル(Hidden Markov Model、HMM)のパラメータに反映されない。そのため、発声変形の音素の特徴量が既存の音素と異なる特徴量分布を有する場合には対応できない。
そこで、本発明の目的は、音響モデルの元々の学習音声とは異なる言い回しが多く含まれる認識対象(タスク)において、タスクに特有の発話スタイルに依存した言い回しに起こりやすい発声変形の部分の認識精度の向上を図る適応化音響モデル生成装置及びプログラムを提供することにある。
本発明は、包括的には、音声認識タスクに特有の言い回しに起こりやすい発声変形を特定し、発声変形の部分用の音素を含む音響モデルを学習することで、認識精度の向上を図ることにある。より具体的には、タスクに依存する発声変形の部分の認識精度を高めるために、適応化対象の音声(以下、「タスク適応化音声」と称する)から、発声変形の部分を特定し、新たに発声変形の部分(単語)専用の音素(以下、「発声変形単語専用音素」と称する)を導入し、他の音素とは別に音響特徴量の統計量を識別学習する。
即ち、本発明による適応化音響モデル生成装置は、第1タスクの音声で学習して生成された音響モデルを用いて該第1タスクとは異なる第2タスクの音声(タスク適応化音声)に適応化させた音響モデルを生成する適応化音響モデル生成装置であって、前記第1タスクの音響モデルと、前記第2タスクの音声の音声認識用の言語モデルを用いて、前記第2タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成する音声認識手段と、前記仮説単語ラティスと前記第2タスクの音声用の書き起こし(タスク適応化音声書き起こし)を用いて、前記第2タスクの音声中の発声変形の部分を、前記仮説単語ラティス中の単語の事後確率を基準として特定し、該発声変形の単語専用の音素を生成する発声変形単語専用音素生成手段と、前記発声変形の単語専用の音素(発声変形単語専用音素)を前記第1タスクの音響モデルに付加して、前記書き起こしと前記第2タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するタスク適応化音響モデル生成手段とを備えることを特徴とする。
また、本発明による適応化音響モデル生成装置において、前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語から、前記発声変形の部分を特定することを特徴とする。
また、本発明による適応化音響モデル生成装置において、前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第2タスクの音声中の当該単語の出現頻度が所定の閾値以上の単語を前記発声変形の単語として特定することを特徴とする。
また、本発明による適応化音響モデル生成装置において、前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第2タスクの音声中の当該単語の出現頻度が最高値から所定の順位までの範囲に含まれる単語を前記発声変形の単語として特定することを特徴とする。
また、本発明による適応化音響モデル生成装置において、前記タスク適応化音響モデル生成手段は、前記発声変形の単語専用の音素と該単語専用の音素以外の音素とを識別学習して、前記タスク適応化音響モデルを生成することを特徴とする。
また、本発明による適応化音響モデル生成装置において、前記第1タスクの音響モデルは、複数種類の環境依存音響モデルからなり、前記環境依存音響モデルの音素には、複数種類の環境依存音響モデルを識別するための識別子が付されており、前記音声認識手段は、前記複数種類の環境依存音響モデルを用いて複数の発話環境を並列に音声認識し、前記タスク適応化音響モデル生成手段は、前記複数種類の環境依存音響モデルを同時に学習して、前記複数種類の環境依存音響モデルを適応化した音響モデルをそれぞれ生成することを特徴とする。
更に、本発明は、第1タスクの音声で学習して生成された音響モデルを用いて該第1タスクとは異なる第2タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置として構成するコンピュータに、前記第1タスクの音響モデルと、前記第2タスクの音声の音声認識用の言語モデルを用いて、前記第2タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成するステップと、前記仮説単語ラティスと前記第2タスクの音声用の書き起こしを用いて、前記第2タスクの音声中の発声変形の部分を、前記仮説単語ラティス中の単語の事後確率を基準として特定し、該発声変形の単語専用の音素を生成するステップと、前記発声変形の単語専用の音素を前記第1タスクの音響モデルに付加して、前記書き起こしと前記第2タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するステップと、を実行させるためのプログラムとしても特徴付けられる。
本発明では、比較的小規模なタスク適応化音声から、発声変形が起こりやすい単語を特定することができ、予めタスク適応化音声とは異なるタスクの音声で学習された音響モデルに、発声変形の単語専用の新たな音素(発声変形単語専用音素)を与え、他の音素とは別に識別学習することで、効率よく新たなタスクに適応化した音響モデルを得ることができる。従って、既存の音素と異なる特徴量分布を有する発声変形を特定し、この発声変形の音素の音響特徴量の統計量を識別学習するため、既存の音響モデルを改善して異なるタスクを音声認識することができるようになる。
本発明による実施例1の適応化音響モデル生成装置のブロック図である。 本発明による実施例1の適応化音響モデル生成装置の一つの動作例を表すフローチャートである。 タスク適応化音声の高頻度単語のリストを示す図である。 学習音声のリファレンスと認識結果の仮説単語ラティスの一部を例示する図である。 図3と同じタスク適応化音声から得られたリファレンス単語列に含まれる単語の集合Wの各単語の事後確率C(―)(h=r)を昇順に5位までについて示す図である。 事後確率C(―)(h=r)に基づいて特定した単語に、単語依存の識別子(ID)を後置した単語依存の音素(発声変形単語専用音素)を例示する図である。 発声変形の単語依存性を考慮した音素正解精度(Adisc)と、発声変形の単語依存性を考慮しない音素正解精度(Astd)について、繰り返しDLT学習を行った時の単語誤認識率(WER)の比較結果を示す図である。 本発明による実施例2の適応化音響モデル生成装置のブロック図である。 男女並列音声認識の概要を示す図である。 (a)は、MPE基準の識別学習に用いる発話環境を付与した学習音素のラベルを例示する図であり、(b)は、MPE基準の識別学習に用いる仮説ラティスを例示する図である。 (a)は、従来からの音響モデル生成装置を示すブロック図であり、(b)は、従来からの音声認識装置を示すブロック図である。
以下、本発明による各実施例の適応化音響モデル生成装置を説明する。まず、実施例1の適応化音響モデル生成装置を説明する。
[装置構成]
図1に、本発明による実施例1の適応化音響モデル生成装置のブロック図を示す。実施例1の適応化音響モデル生成装置1は、音響モデルのタスク適応化を行い、新たなタスクに適応化した音響モデル(タスク適応化音響モデル)を生成する装置であり、より具体的には、学習音声の「タスク適応化音声」から特定した発声変形用の音素を、適応化対象の別タスクで学習された「音響モデル」に付加した上で当該音響モデルの識別学習を実行して適応化を行い、「タスク適応化音響モデル」を得る装置である。
適応化音響モデル生成装置1は、タスク適応化音声入力部4と、言語モデル入力部5と、音響モデル入力部6と、タスク適応化音声書き起こし入力部7と、適応化処理部2と、記憶部3とを備える。適応化処理部2は、音声認識部21と、発声変形単語抽出部22と、発声変形単語専用音素生成部23と、発声変形単語専用音素入り音響モデル生成部24と、音響モデル識別学習部25と、学習後タスク適応化音響モデル生成部26とを備える。
タスク適応化音声入力部4は、予め用意した音響モデル(例えば、図11(a)に示す音響モデル生成装置101の出力データ)の学習に用いた学習音声とは異なるタスクの音声(タスク適応化音声)を入力して適応化処理部2における音声認識部21及び音響モデル識別学習部25に送出する。タスク適応化音声のデータは、適応化処理部2によって、音声認識処理に用いるデータ形式で記憶部3に格納される。
言語モデル入力部5は、タスク適応化音声の音声認識に用いる言語モデルを入力して適応化処理部2における音声認識部21に送出する。言語モデルのデータは、適応化処理部2によって、音声認識処理に用いるデータ形式で記憶部3に格納される。尚、言語モデルは、言語的単位である形態素の種類ごとに、形態素単位での出現確率を表すデータテーブルと、形態素どうしの組み合わせに関する各形態素間の接続確率を表すデータテーブルからなる。
音響モデル入力部6は、予め用意した音響モデル(例えば、図11(a)に示す音響モデル生成装置101の出力データ)を入力して適応化処理部2における音声認識部21及び発声変形単語専用音素入り音響モデル生成部24に送出する。入力される音響モデルは、タスク適応化音声とは別のタスクの学習音声を所定の単位毎に音響特徴量の統計量で表した、即ち学習音素ごとに学習音素が発話されるときの音響特徴量の統計量を表すデータテーブルからなる。音響特徴量として、例えば、10ミリ秒ごとの間隔でそれぞれ開始する25ミリ秒のフレーム内の音声の周波数パワー分布を基にしたMFCC(メル周波数ケプストラム係数、Mel-Frequency Cepstrum Coefficient)を用いることができる。
音声認識部21は、言語モデル入力部5を介して入力される言語モデルと音響モデル入力部6を介して入力される音響モデルとを用いて(又は記憶部3から読み出した言語モデルと音響モデルのデータを用いて)、タスク適応化音声入力部4から入力される(又は記憶部3から読み出される)タスク適応化音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを発声変形単語抽出部22に送出する(又は記憶部3に格納する)。仮説単語ラティスは、ラティス上のアーク点ごとに、始点ノード、終点ノード、言語的単位、信頼度を表すデータ列のテーブルで表すことができ、記憶部3に格納することができる。
タスク適応化音声書き起こし入力部7は、タスク適応化音声に対応する書き起こし(以下、「タスク適応化音声書き起こし」と称する)を入力して適応化処理部2における発声変形単語抽出部22及び音響モデル識別学習部25に送出する。タスク適応化音声書き起こしのデータは、適応化処理部2によって、音響モデル識別学習処理に用いるデータ形式で記憶部3に格納される。
発声変形単語抽出部22は、音声認識部21から得られる認識結果の仮説単語ラティスを入力して(又は記憶部3から仮説単語ラティスのデータを読み出して)、タスク適応化音声書き起こし入力部7を介して得られるタスク適応化音声書き起こしを用いてタスク適応化音声中の発声変形の部分のデータ(以下、「発声変形単語」と称する)を抽出し、抽出した発声変形単語を発声変形単語専用音素生成部23に送出する。
発声変形単語専用音素生成部23は、発声変形単語抽出部22から得られる発声変形単語から発声変形単語専用の音素(発声変形単語専用音素)を生成して、発声変形単語専用音素のデータとして発声変形単語専用音素入り音響モデル生成部24に送出する。発声変形単語及び発声変形単語専用音素の抽出及び生成についての詳細は後述する。
発声変形単語専用音素入り音響モデル生成部24は、発声変形単語専用音素生成部23から得られる発声変形単語専用音素のデータを、音響モデル入力部6を介して得られる音響モデルにおける音素のデータに付加して、「発声変形単語専用音素入り音響モデル」として音響モデル識別学習部25に送出する。
音響モデル識別学習部25は、発声変形単語専用音素入り音響モデル生成部24から得られる「発声変形単語専用音素入り音響モデル」について、タスク適応化音声書き起こし入力部7を介して得られる「タスク適応化音声書き起こし」と、タスク適応化音声入力部4を介して得られる「タスク適応化音声」とを用いて識別学習を実行し、タスク適応化音声とそのタスク適応化音声に対応する書き起こしの対からなる各音素に現れる音響特徴量の統計量を得るための学習データを生成して学習後タスク適応化音響モデル生成部26に送出する。
学習後タスク適応化音響モデル生成部26は、音響モデル識別学習部25から得られる学習データから、識別学習後の音響モデル(タスク適応化音響モデル)を生成する。従って、このタスク適応化音響モデルは、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すデータテーブルとして生成することができる。
これにより、適応化音響モデル生成装置1によって識別学習して新たに生成されたタスク適応化音響モデルは、図11(b)に示した従来からの音声認識装置200に適用することができ、この場合に音声認識装置200によって音響モデルの学習音声とは異なるタスクのタスク適応化音声の音声認識を実行すると、従来よりも認識精度を改善することができる。
例えば、適応化音響モデル生成装置1は、タスク適応化音声入力部4における「音響モデルの学習音声としてのタスク適応化音声」に「ニュース番組の音声」を用いて、別のタスクとして「対談番組」の音声で学習して生成された「音響モデル」について学習することができ、このタスク適応化音響モデルを用いて、ニュース番組とは発話スタイルの異なる特定の対談番組の音声を音声認識すると、当該対談番組の認識精度を改善することができる。
この場合、300時間程度のニュース番組の音声で別タスクの音響モデルを学習して適応化するのに、30時間程度の当該対談番組の過去の放送分の音声をタスク適応化音声として利用することができることが確認された。認識精度の改善についての詳細は後述する。
以下、実施例1の適応化音響モデル生成装置の動作について、更に詳細に説明する。
[装置動作]
図2は、本発明による実施例1の適応化音響モデル生成装置の一つの動作例を表すフローチャートである。
ステップS1にて、タスク適応化音声入力部4、言語モデル入力部5、音響モデル入力部6、及びタスク適応化音声書き起こし入力部7を介して、異なるタスクの音声(タスク適応化音声)、音声認識に用いる言語モデル、タスク適応化音声とは異なるタスクの音声で学習された予め用意した音響モデル、タスク適応化音声に対応する書き起こしを入力して、それぞれ音声認識処理及び音響モデル学習処理に用いるデータ形式で記憶部3に格納される。
ステップS2にて、音声認識部21によって、記憶部3に格納された言語モデルと音響モデルのデータを読み出して、タスク適応化音声入力部4から入力されるタスク適応化音声について音声認識処理を実行し、認識結果としての仮説単語ラティスのデータを生成する(ステップS3)。
ステップS4にて、発声変形単語抽出部22によって、記憶部3から読み出されるタスク適応化音声書き起こしと仮説単語ラティスを用いて、タスク適応化音声中の発声変形の部分のデータである「発声変形単語」を抽出する。即ち、タスク適応化音声を音声認識した結果として得られる仮説単語のラティス(仮説単語ラティス)を用いて、タスク適応化音声から発声変形の部分を特定する。
ステップS5にて、発声変形単語専用音素生成部23によって、発声変形単語抽出部22から得られる発声変形単語から発声変形単語専用の音素を生成して、発声変形単語専用音素のデータを生成する。
ステップS6にて、発声変形単語専用音素入り音響モデル生成部24によって、発声変形単語専用音素生成部23から得られる発声変形単語専用音素のデータを、音響モデル入力部6を介して得られる音響モデルにおける音素のデータに付加して、「発声変形単語専用音素入り音響モデル」を生成する。
即ち、発声変形用の音素を特定するためには、発声変形の単語依存性を利用することができる。発声変形単語の特定には、「音響モデル」と「言語モデル」を用いて「タスク適応化音声」を音声認識することで得られる「仮説単語ラティス」を用いる。この仮説単語の事後確率に基づいて「発声変形単語」を特定し、この発声変形単語に依存する発声変形単語専用音素を「音響モデル」に付加して適応化する。この動作の詳細は後述する。
ステップS7にて、音響モデル識別学習部25によって、「タスク適応化音声書き起こし」と「タスク適応化音声」を用いて、発声変形単語専用音素入り音響モデル生成部24から得られる「発声変形単語専用音素入り音響モデル」の識別学習を実行し、各音素に現れる音響特徴量の統計量を得るための学習データを生成する。
この発声変形単語専用音素をその他の音素とは別に統計量を識別的に学習して適応化することにより、単語に依存する発声変形の統計量を識別学習することができる。
また、識別学習による適応化には、音素誤り最小化基準(MPE基準)に基づいて音響モデルのパラメータを線形変換する技法が有効である(例えば、非特許文献2参照)。特に、MPE基準の識別学習では、認識結果から得られる音素ラティスの各枝の事後確率を算出し、音素の認識誤りの期待値が小さくなるように音響モデルのパラメータを推定するように動作するので、MPE基準で推定した音響モデルを適応化の元モデルとして用いる場合に有効である。MPE基準の学習に必要なデータは、学習音声と、その音声に対応する正解音素系列(認識結果)、及び音素の仮説単語ラティスである。
ステップS8にて、学習後タスク適応化音響モデル生成部26によって、音響モデル識別学習部25から得られる学習データから、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルのデータテーブルを生成し、外部に送出するか、又は記憶部3に保持する。
ここで、仮説単語ラティスから発声変形単語を特定する処理について説明する。
認識仮説は、ラティス上のアーク点ごとに、始点ノード、終点ノード、言語的単位、信頼度を表すデータ列のテーブルで表すことができ、図解的にグラフで表すこともできる(図4を参照して後述する)。丸印がノードに相当し、ノード間を結ぶ矢印付き線がアークに相当する。言語的単位は、個別のアークに対応する形態素である。信頼度は、認識結果におけるそのアークの信頼度(言語モデル及び音響モデルを基にした統計的処理で得られる認識結果の信頼度)を表す数値で表される。
以下、前向き後ろ向き確率について説明する。認識結果から得られる形態素mのスコアL(m)を基に、事後確率を算出する。ここで、L(m)としては、音響モデルの尤度、言語モデルの尤度、或いはこれらの積を用いる。まず、形態素mの前向き確率α(m)と後ろ向き確率β(m)とを以下の式(1)〜式(5)のように定義する。
Figure 0005184467
Figure 0005184467
Figure 0005184467
Figure 0005184467
Figure 0005184467
事後確率を計算するため、ここではラティスの両端に、それぞれ始端単語と終端単語に相当するアークを付加する。始端単語は、ラティスの左端に付加され、式(1)における「b」で表される。終端単語は、ラティスの右端に付加され、式(2)における「e」で表される。ここで、前向きとは、始端から終端の方向であり、後ろ向きとは、終端から始端の方向である。LEFT(m)は、形態素(m)に対して左から(つまり始端側から)接続する形態素の集合である。また、RIGHT(m)は、形態素(m)に対して右から(つまり終端側から)接続する形態素の集合である。
式(1)に表すように、始端単語(b)の前向き確率は1.0である。また、式(2)に表すように、終端単語(e)の後ろ向き確率は1.0である。
式(3)に表すように、形態素mの前向き確率は、形態素mに左から接続する各形態素m’の前向き確率α(m’)に当該形態素mのスコアL(m)を乗じた値の、左から接続する全ての形態素についての総和である。このように前向き確率は再帰的な定義となっているが、始端単語から前向きに順次計算していくことにより、ラティス中の全ての形態素の前向き確率を算出することができる。
式(4)に表すように、形態素mの後ろ向き確率は、形態素mに右から接続する各形態素m’の後ろ向き確率β(m’)に当該形態素mのスコアL(m)を乗じた値の、右から接続する全ての形態素についての総和である。このように後ろ向き確率は再帰的な定義となっているが、終端単語から後ろ向きに順次計算していくことにより、ラティス中の全ての形態素の後ろ向き確率を算出することができる。
式(5)に表すように、終端単語の前向き確率および始端単語の後ろ向き確率をZとする。
形態素mの事後確率γ(m)は、α、β、Zを用いて、式(6)により算出することができる。
Figure 0005184467
さらに、男女などの話者ラベルを利用することで、話者に依存した発声変形を特定することができ、話者特有の言い回しに起こる発声変形部分の認識精度を改善することができる。尚、男女並列音声認識への応用については、実施例2で詳細に説明する。
実施例1においても、話者特有の発声変形を特定するために、単語の話者ラベル(“M_”:男声、“F_”:女声)を用いて男声用の音響モデルと女声用の音響モデルを識別的に学習して適応化する。この単語の話者ラベルには、性別だけでなく特定の話者とすることもできる。
以下、形態素mの事後確率γ(m)について、仮説単語ラティスにおける時刻情報t〜tにおけるi〜mの各リンクにおける単語w〜wと事後確率p〜pとして、図4を参照して新たに符号を付して説明する。まず、タスク特有の言い回しに含まれる発声変形単語を特定するため、タスク適応化音声中の出現頻度が高い単語を選択する。本実施例では、出現回数の下限値Nを用いて、タスク適応化音声のリファレンス単語列(タスク適応化音声の書き起こしテキスト)から、単語の集合W={w∈W:N(w)≧N}を選ぶ。ここで、Wは、リファレンス単語列に含まれる単語の集合であり、N(w)は、単語wの出現回数である。
参考として、図3は、タスク適応化音声の高頻度単語のリストを示す図であり、2007年5月から2008年12月にかけて放送されたNHKの報道系情報番組“クローズアップ現代”248回分(31時間分)の音声の書き起こしから得られた結果を示す。つまり、対談番組“クローズアップ現代”のタスク適応化音声から得られた高頻度単語のリストである。このリストからはタスク依存性が見られず、発声変形の抽出ができないので、本実施例では、このWから発声変形が起こりやすい単語を特定する。
発声変形が起こっている単語では、その標準的な音素列に対する尤度の低下が予測される。この尤度の低下について、タスク適応化音声を認識した結果として得られる仮説単語ラティスの事後確率を用いて評価する。図4に、リファレンス単語列と仮説単語ラティスの一部を図示する。図中の各ノード(図4中の丸印)は、時刻情報を表しており、時刻情報t〜tにおけるi〜mの各リンクは、単語w〜wと事後確率p〜pの情報を有している。ここで、仮説単語ラティス中の単語もリファレンス単語列と同様に話者ラベル(“M_”:男声、“F_”:女声)を有しており、後述する男女並列音声認識を用いることで、話者ラベル付きの仮説単語ラティスを得ることができる。ここで、Lをリファレンス単語のリンクの集合、Lを仮説単語のリンクの集合とすると、リンクj∈Lの事後確率を占有重み付き事後確率として次式により定義する。
Figure 0005184467
ここで、T(i)は、リンクiの占有フレーム数、T(j)は、リンクiとリンクjのオーバーラップ部分のフレーム数である。図4の例では、T(i)=T,T(j)=t,T(m)=tである。
次に、タスク適応化音声全体で、リファレンス単語rの占有部分における仮説単語hの累積事後確率を次式によって求める。
Figure 0005184467
最後に、仮説単語ラティスにある単語の集合Wを用いて正規化するために、単語j∈Wの占有部分における、単語h∈Wの周辺化事後確率C(―)(h)を次式から求める。
Figure 0005184467
ここで、C(―)(h=r)は、単語rの部分を正しく認識できた事後確率を表す。本実施例では、この事後確率C(―)(h=r)が小さい単語W={w∈W:C(―)(w)≦C}(Cは、発声変形単語を選択するための閾値)は、発声変形が起こっている可能性が高いとして、新たに単語依存の音素モデルを与える。
図5に、図3と同じタスク適応化音声から得られたWの各単語の事後確率C(―)(h=r)を昇順に5位までについて示す。図5では、図3に示された単語とは異なり、対談特有の単語が上位に見られることが分かる。
つまり、発声変形単語抽出部22は、仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語から、発声変形の部分を特定する。
更に、発声変形単語抽出部22は、仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、第2タスクの音声中の当該単語の出現頻度が所定の閾値以上の単語を発声変形の単語として特定し、及び/又は、仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、第2タスクの音声中の当該単語の出現頻度が最高値から所定の順位までの範囲に含まれる単語を発声変形の単語として特定するのが好適である。
本実施例によれば、事後確率C(―)(h=r)に基づいて特定した単語に、図6に示すように、単語依存の識別子(ID)を後置した単語依存の音素(発声変形単語専用音素)を新たに導入するので、別タスクの音響モデルを適応化することができる。また、実施例2で説明するように、男女音声が混在した音声を用いて男女の音響モデルを同時に適応化することもできる。
MPE基準では、仮説の音素正解精度A(s,s)を定義し、次式の目的関数を最大化する(例えば、非特許文献1参照)。
Figure 0005184467
ここで、Xは学習音声、sはリファレンス単語の音素列、sは仮説単語の音素列、Λは音響モデルのモデルパラメータである。
一般的に、音素正解精度A(s,s)の算出には、Λに環境依存音素を用いている場合でも中心音素を用いる。これは、中心音素が同じで特徴量分布の重なりが大きい音響モデルを識別的に学習しても良好な結果を得られないためである。
一方、本実施例のように導入した図6のような発声変形単語専用音素は、発声変形により標準音素と異なる特徴量分布を有しているため、発声変形の音素とその他の音素とを識別的に学習することができる。音素正解精度A(s,s)の算出時に、単語依存音素(発声変形単語専用音素)を独立して扱うことで、他の中心音素だけでなく発声変形していない同一音素についても識別的に学習することができる。更に、このような発声変形であると定義された単語の部分の音素誤りは、単語固有の音素であるため“単語誤り”と等価に扱うことができるようになる。このため、音素誤り最小化基準(MPE基準)の中で、部分的に単語誤り最小化基準でモデルパラメータを最適化することができる。
例えば、発声変形の単語依存性を考慮した音素正解精度(Adisc)と、発声変形の単語依存性を考慮しない音素正解精度(Astd)について、繰り返しDLT学習を行った時の単語誤認識率(WER)の比較結果を図7に示す。発声変形の単語依存性を考慮した音素正解精度(Adisc)と、発声変形の単語依存性を考慮しない音素正解精度(Astd)はいずれもベースラインよりも優れたWERが得られ、繰り返し回数4回以上で、発声変形の単語依存性を考慮した音素正解精度(Adisc)は、発声変形の単語依存性を考慮しない音素正解精度(Astd)よりも更に改善することが分かった。これは、本実施例において特定した発声変形の単語の音素を識別的に学習できていることを意味している。
このように、仮説単語のラティス(仮説単語ラティス)の前向き後ろ向き確率計算(動的計画法の一種であるForward‐Backwardアルゴリズム)から求められる仮説単語の事後確率を用いて、発声変形の部分を特定することができ、例えば、正解単語の事後確率が小さい部分を発声変形の部分として特定することができる。
また、発声変形の部分の特徴量の統計量を得るためと、頻度の高い発声変形の認識精度の改善のために、タスク適応化音声中の単語の出現頻度と当該単語の事後確率の期待値を併用して発声変形単語を特定するのが好適である。
また、通常の識別学習では、同一音素であれば音素環境が異なっていても音素誤りとは認識されないので、このような発声変形単語の音素を識別的に学習していない。そこで、本実施例では、発声変形の部分の統計量を変形のないその他の音素の統計量とは別に学習するために、発声変形単語専用音素を新たに当該音響モデルに与えてタスク適応化音声における発声変形の統計量を識別学習するようにしたので、発声変形単語専用音素を他の音素とは全く異なる音素として識別的に学習することができる。これにより、タスク適応化音響モデルを生成して、音響的特徴が異なる発声変形の部分の認識精度の向上を図ることができる。
次に、本発明による実施例2の適応化音響モデル生成装置を説明する。
[装置構成]
図8に、本発明による実施例2の適応化音響モデル生成装置のブロック図を示す。実施例2の適応化音響モデル生成装置11は、実施例1の適応化音響モデル生成装置1の動作及び利点を全て包含するものであり、2種類の環境依存音響モデルを同時に学習する装置として応用した例である。同様な構成要素には同一の参照番号を付して説明する。
実施例2の適応化音響モデル生成装置11は、タスク適応化音声入力部4と、言語モデル入力部5と、音響モデル入力部6と、ユーザインターフェース部8と、適応化処理部210と、記憶部3とを備える。適応化処理部210は、発話環境並列音声認識部211と、認識誤り修正部212と、識別子付き書き起こし部213と、発声変形単語抽出部221と、発声変形単語専用音素生成部231と、発声変形単語専用音素入り音響モデル生成部241と、音響モデル識別学習部245と、学習後環境依存音響モデル生成部246とを備える。実施例2の適応化音響モデル生成装置11の動作は、図2に説明した実施例1の動作と同様であり、実施例1と相違する点について詳細に説明する。
音響モデル入力部6は、音響モデル(例えば、図11(a)に示す音響モデル生成装置101の出力データ)に、それぞれ男女などの話者ラベルを付した複数種類の音響モデル、例えば第1環境依存音響モデル(例えば、男声の音響モデル)と第2環境依存音響モデル(例えば、女声の音響モデル)を入力して適応化処理部210における発話環境並列音声認識部211及び発声変形単語専用音素入り音響モデル生成部241に送出する。第1環境依存音響モデル及び第2環境依存音響モデルは、学習音声を所定の単位毎に音響特徴量の統計量で表した、即ち識別子付き音素ごとに音素が発話されるときの音響特徴量の統計量を表すデータテーブルからなる。
ユーザインターフェース部8は、発話環境並列音声認識部26の識別結果を随意に修正するために、認識誤り修正部27に修正情報を供給するインターフェースである。
発話環境並列音声認識部211は、例えば男女並列音声認識などの複数の発話環境を並列に音声認識する機能を有し、音響モデル入力部6を介して供給される複数種類の環境依存音響モデルを用いて、タスク適応化音声入力部4を介して供給される複数の発話環境が混在するタスク適応化音声の学習音声について、該タスク適応化音声の各音素ラベルに当該発話環境識別子を付した状態で並列に音声認識を実行する(後述する図9)。認識結果におけるそれぞれの単語の発話環境(例えば、話者毎の性別)の発話環境識別子(例えば、男女別の識別子)を各音素に自動的に付与するため、後述する図10に示すように、発話環境並列音声認識部211からは、識別子付きの認識結果が得られるとともに、識別子付きの仮説ラティスが得られる。識別子付きの仮説ラティスは、識別学習に用いる際に、発話環境の識別誤りをより減少させることができる。
発声変形単語抽出部221、発声変形単語専用音素生成部231、及び発声変形単語専用音素入り音響モデル生成部241は、それぞれ実施例1における発声変形単語抽出部22、発声変形単語専用音素生成部23、及び発声変形単語専用音素入り音響モデル生成部24に対応する。
認識誤り修正部212は、ユーザインターフェース部23から供給される修正情報によって必要に応じて、発話環境並列音声認識部211の識別結果を随意に修正し、修正した識別子付き認識結果を識別子付き書き起こし部213に供給する。
識別子付き書き起こし部213は、認識誤り修正部212から供給される(修正した)識別子付き認識結果に基づいて、当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する。
つまり、実施例1の適応化音響モデル生成装置1では、書き起こしを別途入力する態様について説明したが、実施例2の適応化音響モデル生成装置11では、発話環境並列音声認識部211の識別子付きの識別結果(随意に修正可能)に基づいて、当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する。
従って、実施例2の適応化音響モデル生成装置11の音響モデル識別学習部245は、タスク適応化音声入力部4を介して供給されるタスク適応化音声と、識別子付き書き起こし部213を介して供給される識別子付き書き起こしを用いて、音響モデル入力部6からの環境依存の識別子付き音響モデルを識別学習する。
学習後環境依存音響モデル生成部246は、音響モデル識別学習部245から得られる発話環境毎の学習後の識別子付き音響モデルに対して、発話環境識別子を除去し、学習後の当該複数の発話環境依存音響モデルを生成する。例えば、学習後の第1環境依存タスク適応化音響モデル、第2環境依存タスク適応化音響モデルを生成して送出する。この生成した学習後の発話環境依存のタスク適応化音響モデルは、記憶部3に記憶することもできる。
以下、男女並列音声認識について説明する。
[男女並列音声認識]
図9に、対談音声などのように、一つの発話区間に複数の話者の音声が混在する場合に有効な男女並列音声認識の概要を示す。男女並列音声認識では、男女の性別依存音響モデルにリンクした単語発音辞書の音素ネットワークを並列化し、単語境界での性別属性の入れ替えを許容して探索を行う。
発話環境並列音声認識部(男女並列音声認識部)211は、発話検出・性別変更制御部211aを有する。発話検出・性別変更制御部211aは、認識開始すると、男女間遷移が可能で枝刈りも共通の男女並列音素認識を行い、累積音素尤度を利用して発話の始端と終端を迅速に検出し、その結果に基づいて話者属性交代時刻を同定する。
この発話の終始端と話者属性の交替時刻を用いて、図10に示すように、男女間遷移が可能で枝刈りも共通の男女並列大語彙連続音声認識を行い、累積音響尤度を利用して認識結果の単語列を出力する。
具体的には、音声認識を開始すると(S12)、入力音声の特徴ベクトルをケプストラムと短時間パワー及びそれらの動的特徴量として、様々な音響環境の男性話者音声から学習した音素環境依存音響モデル(トライフォン)と、同様に学習した女性の音響モデルから、単語バイグラムを利用して、図9に示すような単語を構成する音素ネットワークを構成する。ここで、女性用の発話環境音響モデルの音素ネットワークにおいて、発話始端及び発話終端の時刻を利用して、無音(S13a,S15a)の間に単語バイグラム(S14a)を構築し、男性用の発話環境音響モデルの音素ネットワークにおいて、発話始端及び発話終端の時刻を利用して、無音(S13b,S15b)の間に単語バイグラム(S14b)を構築して、男女間遷移を可能にして、音声認識結果を出力する(S16)。
また、発話環境並列音声認識部(男女並列音声認識部)211によれば、認識結果(仮説)の各単語に属性情報が付与することもできる。
一方、元々の音響モデルの音素には発話環境識別子を音素ラベルに付すようにしたため、最尤単語仮説系列と、それぞれの単語がいずれの音素ネットワークを通って認識されたかを示す話者属性とを得ることができるだけでなく、枝刈りされずに残った探索パスを識別子付きラティスとして得ることもできる。この識別子付きラティスを音響モデルの識別学習に用いる。発話環境(話者)依存音響モデルを学習するには、大量のデータで学習した不特定話者の音響モデルを適応化するのが有効である。
実施例2の適応化音響モデル生成装置11は、音響モデルの学習に用いる音声データの音素ラベルに発話環境の識別子を与え、各音素の音響モデルにも同様の発話環境識別子を与えるとともに、各音素の音響モデルにも同一の発話環境識別子を与え、複数の発話環境が混在する音声セグメントから、複数の発話環境に対応する音響モデルを同時に学習するとともに、発声変形を識別的に学習することができる。
また、実施例2の適応化音響モデル生成装置11は、発話環境識別子が与えられた音響モデルを作成するにあたって、複数の発話環境依存音響モデルを、発話環境識別子を用いてマージ(統合)して作成しているため、この音響モデルを用いて一度に(一括して)複数の音響モデルを学習することができる。
また、実施例2の適応化音響モデル生成装置11は、発話環境の識別子として、男女又は話者別の識別子を与えるとともに、必要であれば男女並列音声認識の認識結果を修正し、学習音声の音素ラベルを作成するため、学習音声に対応する正解音素系列の正解精度の判別も容易になる。
実施例2の適応化音響モデル生成装置11は、発話環境識別子を用いた音響モデルの学習にこのような識別学習を導入するには、認識誤りを含む認識仮説のラティスを利用するのが好適である。男女並列音声認識のような複数の音響モデルから得られる仮説を同時に一括して探索してラティスを取得して仮説単語ラティスを生成することができる。このラティス上の各音素にも発話環境識別子を与えて仮説単語ラティスを生成するために、発話環境が異なる音素の認識誤りをモデルの誤りとして識別することができ、発話環境の認識誤りが少なくなるように音響モデルの統計量を学習することができる。
図10(a)に、MPE基準の識別学習に用いる発話環境を付与した学習音素のラベルを示し、図10(b)に、MPE基準の識別学習に用いる仮説ラティスの例を示す。本実施例によれば、MPE基準の識別学習時に、音素誤りに男女の識別誤りも考慮して識別学習することができる。図10(b)のラティスの枝の上部に発話環境を考慮した学習音素を、ラティスの枝の下部に各枝の音素の正解精度を示している。
識別学習では、この音素正解精度が1.0である枝は、尤度が高くなるように学習し、正解精度が0.0もしくは−1.0の音素では尤度が低くなるように学習する例である。例えば、音素の正解精度として音素の置換及び削除の誤りを評価するときには、音素正解精度を0.0〜1.0の値をとり、音素の正解精度として更に音素の挿入誤りを評価するときには、音素正解精度を−1.0〜1.0の値をとるように学習する。
例えば、図10(b)の例では、“F_m,F_a, F_s, F_u, F_sp”と“M_t,M_a, M_d, M_a”のパスは音素の誤りではないが、男女の性別を誤っているため、音素正解精度は、0.0が与えられ、即ち、観測される特徴量を表す特徴ベクトルに対して尤度が低くなるように学習する。このようにして、男女の音素の識別能力の高い音響モデルを学習することができる。
従って、この学習済みの音響モデルを用いて発声変形を特定すれば、例えば、発話環境依存音響モデルを個別に学習せずとも一括して複数種の音響モデルを識別学習することができ、且つ学習結果としての学習後発話環境依存音響モデルのモデル精度を高めることができる。これは、発話環境依存音響モデルの幅の拡張を容易にするという効果を更に生じさせるとともに、複数の話者が混在する音声認識に対しても発話環境の識別誤りに起因する認識誤りを削減して、精度よく話者を識別して音声認識することができるようになる。
実施例1と同様に、実施例2の適応化音響モデル生成装置11によれば、MPE基準に基づいて推定したDLTを導入して音響モデルを適応化する場合、男女別の複数種類の音素クラスに対して単語誤認識率(WER)を改善する。
また、本発明の一態様として、適応化音響モデル生成装置1,11をコンピュータとして構成することができ、適応化処理部の機能を実現させるためのプログラムは、各コンピュータの内部又は外部に備えられる記憶部3に記憶される。また、各制御に用いる情報及びデータは、この記憶部3に記憶しておくことができる。このような記憶部3は、外付けハードディスクなどの外部記憶装置、或いはROM又はRAMなどの内部記憶装置で実現することができる。プログラムを実行する適応化処理部は、中央演算処理装置(CPU)などで実現することができる。即ち、CPUが、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、記憶部3から読み込んで、コンピュータ上で各装置を実現することができる。ここで、いずれかの手段の機能をハードウェアの一部で実現しても良い。
上述した実施例において、適応化音響モデル生成装置1,11の機能を実現するための処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくこともできる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録装置、半導体メモリ等どのようなものでもよい。
上述の実施例の適応化音響モデル生成装置1,11は、代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。従って、本発明は、上述の実施例によって制限するものと解するべきではなく、特許請求の範囲によってのみ制限される。
本発明によれば、異なるタスクの音声で精度よく識別学習した音響モデルが得られるので、タスクの異なる音声認識の用途に有用である。
1 適応化音響モデル生成装置
2 適応化処理部
3 記憶部
4 タスク適応化音声入力部
5 言語モデル入力部
6 音響モデル入力部
7 タスク適応化音声書き起こし入力部
8 ユーザインターフェース部
11 適応化音響モデル生成装置
21 音声認識部
22 発声変形単語抽出部
23 発声変形単語専用音素生成部
24 発声変形単語専用音素入り音響モデル生成部
25 音響モデル識別学習部
26 学習後タスク適応化音響モデル生成部
101 音響モデル生成装置
102 学習処理部
103 記憶部
111 書き起こし入力部
112 学習音声入力部
125 音響モデル学習部
126 学習後音響モデル生成部
200 音声認識装置
202 認識処理部
203 記憶部
210 適応化処理部
211 発話環境並列音声認識部
212 認識誤り修正部
213 識別子付き書き起こし部
214 音声入力部
216 音響モデル入力部
220 音声認識部
221 発声変形単語抽出部
231 発声変形単語専用音素生成部
241 発声変形単語専用音素入り音響モデル生成部
245 音響モデル識別学習部
246 学習後環境依存音響モデル生成部

Claims (7)

  1. 第1タスクの音声で学習して生成された音響モデルを用いて該第1タスクとは異なる第2タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置であって、
    前記第1タスクの音響モデルと、前記第2タスクの音声の音声認識用の言語モデルを用いて、前記第2タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成する音声認識手段と、
    前記仮説単語ラティスと前記第2タスクの音声用の書き起こしを用いて、前記第2タスクの音声中の発声変形の部分を、前記仮説単語ラティス中の単語の事後確率を基準として特定し、該発声変形の単語専用の音素を生成する発声変形単語専用音素生成手段と、
    前記発声変形の単語専用の音素を前記第1タスクの音響モデルに付加して、前記書き起こしと前記第2タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するタスク適応化音響モデル生成手段と、
    を備えることを特徴とする適応化音響モデル生成装置。
  2. 前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語から、前記発声変形の部分を特定することを特徴とする、請求項1の適応化音響モデル生成装置。
  3. 前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第2タスクの音声中の当該単語の出現頻度が所定の閾値以上の単語を前記発声変形の単語として特定することを特徴とする、請求項2の適応化音響モデル生成装置。
  4. 前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第2タスクの音声中の当該単語の出現頻度が最高値から所定の順位までの範囲に含まれる単語を前記発声変形の単語として特定することを特徴とする、請求項2又は3に記載の適応化音響モデル生成装置。
  5. 前記タスク適応化音響モデル生成手段は、前記発声変形の単語専用の音素と該単語専用の音素以外の音素とを識別学習して、前記タスク適応化音響モデルを生成することを特徴とする、請求項1〜4のいずれか一項に記載の適応化音響モデル生成装置。
  6. 前記第1タスクの音響モデルは、複数種類の環境依存音響モデルからなり、
    前記環境依存音響モデルの音素には、複数種類の環境依存音響モデルを識別するための識別子が付されており、
    前記音声認識手段は、前記複数種類の環境依存音響モデルを用いて複数の発話環境を並列に音声認識し、
    前記タスク適応化音響モデル生成手段は、前記複数種類の環境依存音響モデルを同時に学習して、前記複数種類の環境依存音響モデルを適応化した音響モデルをそれぞれ生成することを特徴とする、請求項1〜5のいずれか一項に記載の適応化音響モデル生成装置。
  7. 第1タスクの音声で学習して生成された音響モデルを用いて該第1タスクとは異なる第2タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置として構成するコンピュータに、
    前記第1タスクの音響モデルと、前記第2タスクの音声の音声認識用の言語モデルを用いて、前記第2タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成するステップと、
    前記仮説単語ラティスと前記第2タスクの音声用の書き起こしを用いて、前記第2タスクの音声中の発声変形の部分を、前記仮説単語ラティス中の単語の事後確率を基準として特定し、該発声変形の単語専用の音素を生成するステップと、
    前記発声変形の単語専用の音素を前記第1タスクの音響モデルに付加して、前記書き起こしと前記第2タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するステップと、
    を実行させるためのプログラム。
JP2009200144A 2009-08-31 2009-08-31 適応化音響モデル生成装置及びプログラム Active JP5184467B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009200144A JP5184467B2 (ja) 2009-08-31 2009-08-31 適応化音響モデル生成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009200144A JP5184467B2 (ja) 2009-08-31 2009-08-31 適応化音響モデル生成装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2011053312A JP2011053312A (ja) 2011-03-17
JP5184467B2 true JP5184467B2 (ja) 2013-04-17

Family

ID=43942419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009200144A Active JP5184467B2 (ja) 2009-08-31 2009-08-31 適応化音響モデル生成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5184467B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469552A (zh) * 2015-08-20 2017-03-01 三星电子株式会社 语音识别设备和方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286897B2 (en) * 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
US9251784B2 (en) 2013-10-23 2016-02-02 International Business Machines Corporation Regularized feature space discrimination adaptation
CN110197658B (zh) * 2019-05-30 2021-01-26 百度在线网络技术(北京)有限公司 语音处理方法、装置以及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
JP4820240B2 (ja) * 2006-08-29 2011-11-24 日本放送協会 単語分類装置及び音声認識装置及び単語分類プログラム
JP5240457B2 (ja) * 2007-01-16 2013-07-17 日本電気株式会社 拡張認識辞書学習装置と音声認識システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469552A (zh) * 2015-08-20 2017-03-01 三星电子株式会社 语音识别设备和方法
CN106469552B (zh) * 2015-08-20 2021-11-30 三星电子株式会社 语音识别设备和方法

Also Published As

Publication number Publication date
JP2011053312A (ja) 2011-03-17

Similar Documents

Publication Publication Date Title
US11496582B2 (en) Generation of automated message responses
US10176802B1 (en) Lattice encoding using recurrent neural networks
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US8019602B2 (en) Automatic speech recognition learning using user corrections
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
CN106463113B (zh) 在语音辨识中预测发音
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP5149107B2 (ja) 音響処理装置およびプログラム
KR20080018622A (ko) 휴대용 단말기의 음성 인식 시스템
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2014074732A (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
Rose Word spotting from continuous speech utterances
JP2017045027A (ja) 音声言語コーパス生成装置およびそのプログラム
US20040006469A1 (en) Apparatus and method for updating lexicon
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP4972660B2 (ja) 音声学習装置及びプログラム
JPH08123470A (ja) 音声認識装置
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JP2005091504A (ja) 音声認識装置
AU2013375318B2 (en) False alarm reduction in speech recognition systems using contextual information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130116

R150 Certificate of patent or registration of utility model

Ref document number: 5184467

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250