JP2014153680A - 音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラム - Google Patents

音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラム Download PDF

Info

Publication number
JP2014153680A
JP2014153680A JP2013025865A JP2013025865A JP2014153680A JP 2014153680 A JP2014153680 A JP 2014153680A JP 2013025865 A JP2013025865 A JP 2013025865A JP 2013025865 A JP2013025865 A JP 2013025865A JP 2014153680 A JP2014153680 A JP 2014153680A
Authority
JP
Japan
Prior art keywords
correction parameter
acoustic model
feature amount
model
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013025865A
Other languages
English (en)
Other versions
JP6121187B2 (ja
Inventor
Marc Delcroix
マーク デルクロア
Atsunori Ogawa
厚徳 小川
Sonjun Ham
ソンジュン ハム
Tomohiro Nakatani
智広 中谷
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013025865A priority Critical patent/JP6121187B2/ja
Publication of JP2014153680A publication Critical patent/JP2014153680A/ja
Application granted granted Critical
Publication of JP6121187B2 publication Critical patent/JP6121187B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】正解シンボルの誤りの悪影響を弱める仕組みを導入し、正解シンボルの誤りが多い教師なし適応の場合でも、識別基準による音響モデル適応の精度の低下を防ぐ音響モデル補正パラメータ推定技術及び特徴量補正パラメータ推定技術を提供する。
【解決手段】音響モデル補正パラメータ学習装置100は、言語モデルによって得られる対立候補シンボル系列の言語確率、学習用音声データの特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部140と、微分値に応じて平均補正パラメータを変更することで、平均補正パラメータを更新する補正パラメータ更新部150と、を含む。
【選択図】図5

Description

本発明は、入力データから特徴量を抽出し、その特徴量を用いて入力データを予め定義されたクラスタに分類するパターン認識において、クラスタ分類精度を向上させるためのクラスタ分類モデルパラメータ補正技術及び特徴量補正技術に関する。例えば、入力音声から特徴量を抽出し、その特徴量を用いて入力音声を単語列に変換する音声認識における、音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラムに関する。
音声認識装置が実際に置かれる環境は様々である。このため音響モデルを学習するための音声データと実際に入力される音声の特徴は一致しないことが多い。不一致の原因は、周囲の雑音環境、話者の多様性、等であり、これらが音声認識精度を劣化させる。このため、これら周囲雑音環境や話者の多様性に対して頑健(ロバスト)な音声認識技術が求められている。ロバストな音声認識技術として、入力音声と音響モデルとが適合しやすくなるように、入力音声から抽出した特徴ベクトルや音響モデルを補正する技術が知られている。
入力音声から抽出した特徴ベクトルを補正することでロバストな音声認識を実現する技術として、非特許文献1が知られている。この技術では、dMMI(differenced Maximum Mutual Information)という基準に基づいて特徴ベクトルを補正するための補正パラメータを学習する。また、非特許文献2記載されているように、周囲雑音環境に対して、雑音下音声の雑音抑圧(音声強調)処理を行う場合に、dMMI基準に基づく音響モデルの分散パラメータの補正パラメータを推定する技術がある。
また、音響モデルを補正する技術として、音響モデルのパラメータを、線形回帰を用いて補正する線形回帰音響モデル適応技術(非特許文献3、4)が知られている。
デルクロア・マーク,小川厚徳,渡部晋治,中谷智広,中村篤,「dMMI識別基準による特徴量変換の識別学習」,日本音響学会春季研究発表会,March 2012,pp. 121-122 デルクロア・マーク,小川厚徳,渡部晋治,中谷智広,中村篤,「dMMI識別基準による教師なし動的分散適応」,日本音響学会秋季研究発表会,September 2012,pp. 131-132 Leggetter C. J. and Woodland P. C., "Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models", Computer Speech & Language, 1995, vol. 9, no. 2, pp. 171-185 L.F. Uebel and P.C. Woodland, "Discriminative linear transforms for speaker adaptation", in Proc. ISCA Tutorial and Research Workshop (ITRW) on Adaptation Methods for Speech Recognition, 2001, pp. 61-64.
非特許文献1のようなdMMI基準に基づく補正パラメータの学習には、大量の学習用の音声データ(以下「学習用音声データ」ともいう)とそれに対応する正解シンボルの系列(以下「正解シンボル系列」ともいう)が必要となる。そのため、学習用音声データと正解シンボル系列からなる学習データ、特に、正解シンボル系列を準備する際に多大なコストがかかる。非特許文献2のようなdMMI基準に基づく音響モデルの分散パラメータの動的な補正パラメータの適応技術は、音声強調処理が必要なため、話者の多様性などへの適用が困難であり、汎用性に欠ける。
一方、線形回帰パラメータの推定を最尤基準(MLLR(Maximum likelihood linear regression))で行う方法(非特許文献3)または識別的基準の一種である最大相互情報量(Maximum Mutual Information : MMI)基準(MMI−LR)で行う方法(非特許文献4)に基づく補正パラメータの適応技術は、少ない音声データで実行することができるという利点がある。また、正解シンボルを必要としない教師なし適応を行うことも可能であり、この場合は正解シンボルを人手で準備する必要がないという利点がある。
教師あり適応の場合はMMI−LRはMLLRよりも性能が良いと報告されている(非特許文献4)。しかし、MMI−LRの識別基準による音響モデルの教師なし適応方法は、適応データを音声認識した結果を正解ラベルと見做して利用するので、正解ラベル(と見做された音声認識結果)に誤りが含まれることが多い。MMI−LRのような識別基準は、正解シンボルと他の認識仮説を考慮し、直接音響モデルパラメータを最適化することによって、認識性能を大きく向上させる技術であるため、正解シンボルに誤りがある場合はうまく音響モデルパラメータを最適化できず、性能が改善しないか悪化する可能性がある。
本発明は、正解シンボルの誤りの悪影響を弱める仕組みを導入し、正解シンボルの誤りが多い教師なし適応の場合でも、識別基準による音響モデル適応の精度の低下を防ぎ、識別基準による教師なし音響モデル適応を可能にする音響モデル補正パラメータ推定技術及び特徴量補正パラメータ推定技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、音響モデル補正パラメータ推定装置は、音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、平均ベクトルを補正するための平均補正パラメータを求める。音響モデル補正パラメータ推定装置は、予め求められた音響モデル及び言語モデルが記憶される記憶部と、記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正部と、補正した平均ベクトルを含む音響モデルと言語モデルとに基づき、学習用音声データの特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、正解シンボル系列との相違度を求めるエラーカウント計算部と、言語モデルによって得られる対立候補シンボル系列の言語確率、学習用音声データの特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、微分値に応じて平均補正パラメータを変更することで、平均補正パラメータを更新する補正パラメータ更新部と、を含む。
上記の課題を解決するために、本発明の他の態様によれば、特徴量補正パラメータ推定装置は、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める。特徴量補正パラメータ推定装置は、予め求められた音響モデル及び言語モデルが記憶される記憶部と、学習用音声データの特徴量oを特徴量補正パラメータにより補正した補正後の特徴量o^を求める特徴量補正部と、予め定めた粒度で、補正後の特徴量o^を音声認識することによって得られる対立候補シンボル系列ごとに、正解シンボル系列との相違度を求めるエラーカウント計算部と、言語モデルによって得られる対立候補シンボル系列の言語確率、補正後の特徴量o^と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、特徴量補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、微分値に応じて特徴量補正パラメータを変更することで、特徴量補正パラメータを更新する補正パラメータ更新部と、を含む。
上記の課題を解決するために、本発明の他の態様によれば、音響モデル補正パラメータ推定方法は、音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、平均ベクトルを補正するための平均補正パラメータを求める。音響モデル補正パラメータ推定方法は、記憶部には予め求められた音響モデル及び言語モデルが記憶され、記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正ステップと、補正した平均ベクトルを含む音響モデルと言語モデルとに基づき、学習用音声データの特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、正解シンボル系列との相違度を求めるエラーカウント計算ステップと、言語モデルによって得られる対立候補シンボル系列の言語確率、学習用音声データの特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、微分値に応じて平均補正パラメータを変更することで、平均補正パラメータを更新する補正パラメータ更新ステップと、を含む。
上記の課題を解決するために、本発明の他の態様によれば、特徴量補正パラメータ推定方法は、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める。特徴量補正パラメータ推定方法は、記憶部には予め求められた音響モデル及び言語モデルが記憶され、学習用音声データの特徴量oを特徴量補正パラメータにより補正した補正後の特徴量o^を求める特徴量補正ステップと、予め定めた粒度で、補正後の特徴量o^を音声認識することによって得られる対立候補シンボル系列ごとに、正解シンボル系列との相違度を求めるエラーカウント計算ステップと、言語モデルによって得られる対立候補シンボル系列の言語確率、補正後の特徴量o^と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、特徴量補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、微分値に応じて特徴量補正パラメータを変更することで、特徴量補正パラメータを更新する補正パラメータ更新ステップと、を含む。
本発明によれば、正解シンボルの誤りの悪影響を弱めることによって、従来技術よりも適切に音響モデルパラメータまたは特徴量に対する補正パラメータを求めることができるという効果を奏する。
線形回帰音響モデル適応技術を搭載した音声認識装置の機能構成例を示す図。 線形回帰音響モデル適応技術を搭載した音声認識装置の処理フロー例を示す図。 音響モデル補正パラメータ学習装置の機能構成例を示す図。 音響モデル補正パラメータ学習装置の処理フロー例を示す図。 第一実施形態に係る音響モデル補正パラメータ学習装置の構成例を示す図。 第一実施形態に係る音響モデル補正パラメータ学習装置の処理フロー例を示す図。 補正した特徴量に基づき音声認識を行う音声認識装置の機能構成例を示す図。 補正した特徴量に基づき音声認識を行う音声認識装置の処理フロー例を示す図。 第二実施形態に係る特徴量補正パラメータ学習装置の構成例を示す図。 第二実施形態に係る特徴量補正パラメータ学習装置の処理フロー例を示す図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
まず、第一実施形態について説明する前に、まず、音響モデル適応技術を搭載した音声認識装置について説明する。
<音響モデル適応技術を搭載した音声認識装置90>
図1に線形回帰音響モデル適応技術を搭載した音声認識装置90の機能構成例、図2にその処理フロー例を示す。音声認識装置90は、特徴量抽出部91、単語列探索部92、記憶部93、音響モデル補正部94から構成される。
(記憶部93)
記憶部93には、予め音響モデルと言語モデルが記憶されている。音響モデルは、音声の音響的特徴をモデル化したものである。言語モデルは音素や単語といった多数のシンボル系列から構成されている。通常、音声認識用音響モデルでは、各音素をLeft to rightのHMM(Hidden Markov Model:隠れマルコフモデル)で、HMM状態の出力確率分布をGMM(Gaussian Mixture Model:混合ガウス分布モデル)で表現する。そのため、実際に音響モデルとして記憶部93に記憶されているのは、音素などの各シンボルにおけるHMMの状態遷移確率、GMMの混合重み因子、及びガウス分布の平均ベクトルμ及び共分散行列(以下「分散パラメータ」ともいう)Σ等となる。ここで、MはGMMに含まれるガウス分布の総数であり、mは、GMMのガウス分布のインデックスであり、m=1,2,…,Mである。これらを音響モデルパラメータと呼び、その集合をΛとする。言語モデルは音素や単語といった多数のシンボル系列から構成されており、図中のP(S)は言語モデルによって得られる対立候補シンボル系列Sの確率(以下「言語確率」ともいう)である。なお、対立候補シンボル系列Sとは音声認識結果となりうるシンボル系列であり、シンボル系列とは音素や単語等からなるシンボルの系列である。
(特徴量抽出部91)
特徴量抽出部91は、認識用音声データを読み込み(s93)、音声の特徴量を抽出する(s95)。特徴量としては、例えば、MFCC(Mel Frequency Cepstral Coefficient)、ΔMFCC、ΔΔMFCC、対数パワー、Δ対数パワー等があり、これらが10〜100次元程度の特徴量ベクトルoを構成する。さらに、時系列の特徴量ベクトルである特徴量ベクトル系列Oを以下のように表現できる。
Figure 2014153680
ただし、Nはフレームの数、nは1からNの整数、Rは実数の集合である。つまり、Oは1からNフレーム目までのD次元特徴量ベクトルで表現されるデータである。例えば、分析フレーム幅は30ms程度、分析フレームシフト幅は10ms程度で分析が実行される。
(音響モデル補正部94)
音響モデル補正部94は、補正前の(記憶部93に記憶された)音響モデルパラメータΛを含む音響モデルと、予め学習し記憶部93に記憶しておいた音響モデル補正パラメータθ^を読み込み(s91、s94)、音響モデル補正パラメータθ^を用いて、音響モデルパラメータΛを含む音響モデルを補正し(s96)、補正した音響モデルパラメータΛ^を単語列検索部92に送る。この例では、線形回帰音響モデル適応は以下の式(2)のように、音響モデルパラメータに含まれる平均ベクトルμ={μ,μ,…,μ}を補正する。
Figure 2014153680
ただし、μ^は補正後の音響モデルパラメータにおけるm番目のガウス分布の平均ベクトル、Aは平均ベクトルに対する変換行列、bは平均ベクトルに対するバイアスベクトルである。’はベクトルまたは行列の転置を表す。今後、A,bもしくはWを平均補正パラメータともいう。また、式(2)は平均ベクトルμの補正の例を示したが、分散パラメータΣについても同様の補正を行うことができる。音響モデルパラメータを補正するためのパラメータを音響モデル補正パラメータと呼び、平均補正パラメータや分散パラメータを補正するためのパラメータ(以下「分散補正パラメータ」ともいう)は音響モデル補正パラメータに含まれるものとする。この例では、音響モデル補正パラメータθは平均補正パラメータA,bのみからなるため、平均補正パラメータA,bのことを音響モデル補正パラメータθ=(A,b)ともいう。平均補正パラメータA,bを、変換行列Aとバイアスベクトルbとからなる行列として表現した場合をW=[A b]とし、変換行列Aとバイアスベクトルbとからなる集合として表現した場合をθ=(A,b)とする。
より詳細な補正を行うため、音響モデル補正パラメータはよく音響モデルのガウス分布のクラスタ毎に推定される。その場合は、補正後の平均ベクトルμ^は式(3)のようになる。クラスタの作り方は、例えば非特許文献3のような方法がある。
Figure 2014153680
kはガウス分布のクラスタのインデックス、A,bはクラスタkの平均補正パラメータである。クラスタ毎に平均補正パラメータを推定した場合、θ=(A,b)とし、Kをクラスタの総数とし、k=1,2,…,Kとし、θ=(θ,θ,…,θ)とする。また、W=[A]とし、W=(W,W,…,W)とする。
(単語列探索部92)
単語列探索部92は、音響モデル補正部94から取得した補正後の音響モデルパラメータΛ^に基づき、特徴量ベクトル系列Oに対するJ個の対立候補シンボル系列Sを生成して、対立候補シンボル系列S毎に音響スコアを算出する。ただし、j=1,2,…,Jであり、Jは1以上の整数である。さらに、単語列探索部92は、予め言語モデルを記憶部93から読み込んでおき(s92)、この言語モデルに基づき、対立候補シンボル系列S毎に言語スコアを算出する。さらに、音響スコアと言語スコアとを統合して、J個の対立候補シンボル系列Sの中から、認識用音声データに対応する文として最も確からしい(最も音響スコアと言語スコアとを統合したスコアが高い)対立候補シンボル系列を探索し(s97)、その対立候補シンボル系列を認識結果(単語列)S^として出力する(s98)。
<音響モデル補正パラメータ学習装置80>
上記の音声認識装置90では、音響モデルパラメータを、線形回帰を用いて補正する。つまり、音響モデル補正部94で用いる平均補正パラメータθ^は線形回帰パラメータである。
線形回帰パラメータを学習する方法として、線形回帰パラメータの推定を最尤基準(MLLR(Maximum likelihood linear regression))で行う方法(非特許文献3)と、識別的基準の一種である最大相互情報量(Maximum Mutual Information : MMI)基準(MMI−LR)で行う方法(非特許文献4)が知られている。最尤基準(非特許文献3)よりも識別的基準(非特許文献4)により推定された補正パラメータを用いる方が、最終的な音声認識精度が向上することが多い。
以下では、非特許文献4の音響モデル補正パラメータ学習装置80の具体的な処理を、図3及び図4を用いて説明する。図3に音響モデル補正パラメータ学習装置80の機能構成例、図4にその処理フロー例を示す。音響モデル補正パラメータ学習装置80は、特徴量抽出部81、音響モデル補正パラメータ計算部83及び記憶部93を備える。音響モデル補正パラメータ学習装置80は、学習用音声データとその学習用音声データに対する正解シンボル系列Sとからなる学習データを入力とし、音響モデル補正パラメータθ^を出力する。
(特徴量抽出部81)
特徴量抽出部81は、学習用音声データを読み込み(s83)、音声の特徴量ベクトル系列Oを抽出する(s85)。特徴量抽出の具体的な処理は、上述の音声認識装置90の特徴量抽出部91と同じである。
(音響モデル補正パラメータ計算部83)
音響モデル補正パラメータ計算部83は、記憶部93から音響モデルと言語モデルとを読み込み(s81、s82)、さらに、正解シンボル系列Sを読み込み(s84)、特徴量抽出部81で抽出した音声の特徴量Oを用いて、音響モデル補正パラメータθ=(θ,θ,…,θ)を推定し(s86)、出力する(s87)。音響モデル補正パラメータθは、適応データ(学習用音声データの特徴量ベクトル系列O)とその特徴量ベクトル系列Oに対応する正解シンボル系列Sとを用いて、次式のように目的関数Fθを最大化する形で推定される。
Figure 2014153680
非特許文献4では、目的関数としてMMI基準を用いるので、式(4)の代わりに式(5)を使用する。
Figure 2014153680
ここで、MMI目的関数は次式のように書ける。
Figure 2014153680
ここで、Sは特徴量ベクトル系列Oを音声認識することによって得られる対立候補シンボル系列、P(S)及びP(S)は言語モデルによってそれぞれ得られる正解シンボル系列Sの言語確率及び対立候補シンボル系列Sの言語確率、pΛ(O|S)及びpΛ(O|S)はそれぞれ正解シンボル系列S及び対立候補シンボル系列Sにおいて音響モデル(HMM)によって得られる音響スコア、ψは音響スコアに対するスケーリングパラメータ、ηは言語確率に対するスケーリングパラメータを表す。
また、音響スコアpΛ(O|S)は以下の式で書くことができる。
Figure 2014153680
ただし、Tは適応データ(学習用音声データの特徴量ベクトル系列O)の特徴量ベクトル系列の長さ、tはフレーム番号またはそのフレームに対応する時刻(以下「フレーム時刻」ともいう)を表し、1からTの整数である。つまり、特徴量ベクトル系列Oは1からTフレーム目までのD次元特徴量ベクトルで表現されるデータである(式(1)参照)。また、{n1:T}は対立候補シンボル系列Sに対応するHMM状態シーケンス(フレーム時刻1からTまで)であり、Σ{n1:T}(ただし、下付添字{n1:T}は{n1:T}を表す)は対立候補シンボル系列Sに対応する可能なあらゆるHMM状態シーケンスの足し算、p(o|n)はフレーム時刻tにおけるHMM状態nから特徴量ベクトルoが出力される確率(なお、HMM状態は一般にGMMで表現される)、p(n|nt−1)はフレーム時刻t−1におけるあるHMM状態nt−1からフレーム時刻tにおけるあるHMM状態nへの遷移確率である。
〔第一実施形態〕
[第一実施形態のポイント]
しかし、前述の通り、MMI−LRの識別基準による音響モデルの教師なし適応方法は、適応データを音声認識した結果を正解ラベルと見做して利用するので、正解ラベル(と見做された音声認識結果)に誤りが含まれることが多く、うまくモデルパラメータを最適化できず、性能が改善しないか悪化する可能性がある。
そこで、第一実施形態では、正解シンボルの誤りを考慮し、識別学習による音響モデル補正パラメータ推定を行うために、音響モデル補正パラメータを推定する基準として参考文献1及び参考文献2に記述されているdMMI導関数基準(differenced MMI:dMMI)を応用する。
[参考文献1] McDermott,E., Watanabe, S. and Nakamura,A., “Discriminative training based on an integrated view of MPE and MMI in margin and error space”, In Proc. ICASSP'10, 2010, pp. 4894 - 4897
[参考文献2]特願2009−198362号公報
すなわち、dMMI−LRを開発した。以下で数式を用いてdMMI−LRによる音響モデル補正パラメータの推定方法について述べる。
まず、以下のΨ関数を以下のように定義する。
Figure 2014153680
ここでσはマージンパラメータ、εj,rは正解シンボル系列Sに対する対立候補シンボル系列Sの相違度(例えば、単語エラー数、音素エラー数等)を表している。すなわち、マージンパラメータσは相違度εj,rに応じて音響モデル補正パラメータ推定時に対立候補シンボル系列Sをどれだけ重視するかをコントロールするパラメータである。マージンパラメータσは、−∞〜+∞の値を取り得る。マージンパラメータσがマイナスの値を取れば、小さい相違度εj,rを持つ対立候補シンボル系列Sほど、すなわち、エラー数が少ない対立候補シンボル系列Sほど重視される。逆に、マージンパラメータσがプラスの値を取れば、大きい相違度εj,rを持つ対立候補シンボル系列Sほど、すなわち、エラー数が多い対立候補シンボル系列Sほど重視されることになる。このΨ関数を用いると、dMMI識別学習基準の目的関数FdMMI θ,σ1,σ2(ただし、下付添字σ1、σ2は、σ、σを表す)は次式のように書くことができる。
Figure 2014153680
分子の第一マージンパラメータσはマイナスの値を取る(σ<0)。すなわち、分子では相違度εj,rが小さい対立候補シンボル系列Sほど重視される。一方、分母の第二マージンパラメータσはプラスの値を取る(σ>0)。すなわち、分母では相違度εj,rが大きい対立候補シンボル系列Sほど重視される。
このdMMI識別学習基準は、第一マージンパラメータσ及び第二マージンパラメータσを調整することによって、MPE(Minimum Phone Error)識別学習基準(参考文献3)またはBMMI(boosted-MMI)識別学習基準(参考文献4)に近づく。
[参考文献3]Povey, D., Woodland, P.C.,“Minimum Phone Error and I-smoothing for improved discriminative training”, In Proc. ICASSP, 2002, vol.1,pp.I-105-I-108
[参考文献4]Povey, D., Kanevsky, D.,Kingsbury, B., Ramabhadran, B., Saon, G. and Visweswariah, K., “Boosted MMI for model and feature-space discriminative training”, In Proc. ICASSP, 2008, pp.4057-4060,
ここでσは、例えば、+0.1という0に近い小さなプラスの値に設定しておけばよい(参考文献5)。
[参考文献5]Saon, G. and Povey, D., “Penalty function maximization for large margin HMM training”, In Proc. Interspeech, 2008, pp.920-923
例えば、σを大きなマイナスの値(理論的には−∞、実装上は、例えば、−50)に設定する。このとき、次式に示すように、dMMI識別学習基準の目的関数FdMMI θ,σ1,σ2はBMMI識別学習基準の目的関数FBMMI θ,σ2に近づく。
Figure 2014153680
式(10)から明らかなように、BMMI識別学習基準の目的関数FBMMI θ,σ2では、分母の第二マージンパラメータσのみが残る。すなわちBMMI識別学習基準による音響モデル補正パラメータ推定では、エラー数が多い(相違度εj,rが大きい)対立候補シンボル系列Sほど重視される(参考文献6参照)。
[参考文献6]Povey, D., Kanevsky, D.,Kingsbury, B., Ramabhadran, B., Saon, G. and Visweswariah, K., “Boosted MMI for model and feature-space discriminative training”, In Proc. ICASSP, 2008, pp.4057-4060
BMMIの分子は直接正解シンボルの貢献が考慮されるので、正解シンボルの誤りの影響を受けやすい。一方、dMMIの場合、σをより大きい値(例えば−10)に設定することによって、分子では認識の対立候補シンボル系列Sの貢献の足し算になる。マージンexp(ψσεj,r)を重みとして、正解シンボル系列Sに近い対立候補シンボル系列S(正解シンボルSに対する誤りが少ない)が考慮される。そのため、分子には、正解シンボル系列Sだけでなく、それに近い対立候補シンボル系列Sも考慮されることによって、正解シンボルの誤りの悪影響を弱めることができる。その結果、正解シンボル系列Sに誤りがあっても、音響モデル補正パラメータを識別基準により安定して精度よく推定することができる。マージンパラメータσの値は、分子でどのぐらいの対立候補シンボル系列Sを考慮するかを決める値である。σの値はタスクの認識率などに依存する。ただし、例えば−3〜−10の間の値に設定すると良い。
ここで、音響モデル補正パラメータ群の集合θは、次式のように、上記のdMMI識別学習基準の目的関数FdMMI θ,σ1,σ2を最大化するように推定される。
Figure 2014153680
ここでは、Wの推定方法について述べる。dMMI識別学習基準の目的関数FdMMI θ,σ1,σ2を最大化するようなWを求めるために、まず目的関数FdMMI θ,σ1,σ2をWで微分する。ここで、対立候補シンボル系列Sが単語(または音素)ラティスの形態で表現される場合、ラティス上で勾配を計算することにより、FdMMI θ,σ1,σ2をWで微分した値は以下のように表現される。
Figure 2014153680
ここで、qはフレーム時刻tにおけるラティスのアークを、nはフレーム時刻tにおける音響モデル(例えば、HMMからなる音響モデル)の状態を、mは状態nにおけるガウス分布のインデックスを表す(例えば、HMMの状態の出力確率分布はGMMで表現されるものとする)。また、γdMMI qt(ただし、下付添字qtはqを表す)は単語(または音素)ラティスのアークqの事後確率であり、同じラティスについて、第一マージンパラメータσまたは第二マージンパラメータσを使って、二度、Forward-Backward algorithmを実行して計算される(参考文献7参照)。
[参考文献7]E. McDermott, T.J. Hazen, J.L. Roux, A. Nakamura and S. Katagiri, “Discriminative Training for Large-Vocabulary Speech Recognition Using Minimum Classification Error”, IEEE Trans. ASLP, 2007, vol. 15, no. 1, pp. 203 - 223
γnt,m(t)、Σnt,m及びμnt,m(ただし、それぞれ下付添字ntはnを表す)は、それぞれ状態nのガウス分布mの事後確率、共分散行列及び平均ベクトルである。これらの値の求め方は、例えば、参考文献8に詳述されている。
[参考文献8]V. Valtchev,J.J. Odell, P.C. Woodland, and S.J. Young, “Lattice-based discriminative training for large vocabulary speech recognition”, In Proc. ICSLP,1996, vol. 2, pp.605-609
例えばR−Prop(参考文献9)のような勾配法を用いる場合は、微分値(∂FdMMI θ,σ1,σ2/∂W)が0に近づくようにWを更新すればよい。または例えば、Extended-Baum Welchのようなアルゴリズム(参考文献3)を用いて、Wを更新することもできる。このように、上記の式が得られれば、平均補正パラメータWは容易に推定することが可能である。
[参考文献9]Riedmiller,M. and Braun, H., “A direct adaptive method for faster backpropagation learning: The RPROP algorithm”, InProc. ICNN’93, 1993, pp. 586-591
<音響モデル補正パラメータ学習装置100>
以上の原理に基づく、第一実施形態の音響モデル補正パラメータ学習装置100の構成について説明する。装置構成図を図5に、処理フローを図6に示す。
音響モデル補正パラメータ学習装置100は、特徴量抽出部110、音響モデル補正部120、エラーカウント計算部130、補正パラメータ微分値計算部140、補正パラメータ更新部150、収束判定部160、音響モデル記憶部170及び言語モデル記憶部180を含む。
音響モデル補正パラメータ学習装置100は、学習用音声データ(以下「適応用音声データ」ともいう)とその正解シンボル系列Sと音響モデル補正パラメータの初期値θとを受け取り、音響モデル補正パラメータを更新し、最適な音響モデル補正パラメータを求め、出力する。なお、本実施形態では、音響モデル補正パラメータは、平均補正パラメータのみからなり、クラスタ毎に求められるものとしているが、他の音響モデル補正パラメータを含んでもよいし、また、クラスタ毎に求めなくともよい。
(特徴量抽出部110)
特徴量抽出部110は、学習用音声データを読み込み(s103)、その特徴量ベクトル系列Oを抽出し(s105)、音響モデル補正部120に出力する。特徴量抽出の具体的な処理は、既存の技術を用いることができる。例えば、上述の音声認識装置90の特徴量抽出部91と同じ方法により特徴量を抽出すればよい。
(音響モデル記憶部170及び言語モデル記憶部180)
音響モデル記憶部170及び言語モデル記憶部180には、それぞれ予め求められた音響モデル及び言語モデルが記憶される。音響モデル及び言語モデルとしては、既存のモデルを用いればよい。例えば、記憶部93において説明した音響モデルと言語モデルを用いることができる。
(音響モデル補正部120)
音響モデル補正部120は、補正前の音響モデルΛを音響モデル記憶部170から読み込み(s101)、音響モデル補正パラメータの初期値θまたは更新された音響モデル補正パラメータθi−1(ただし、iは、繰り返し回数を表すインデックスを示す)を受け取り、式(3)により音響モデルの平均ベクトルを補正し(s106)、補正後の音響モデルΛ^を、エラーカウント計算部130に出力する。
Figure 2014153680
ただし、θ={θ1 ,θ2 ,…,θK }であり、θ ={W }である。同様に、θi−1={θ1 i−1,θ2 i−1,…,θK i−1}であり、θ i−1={W i−1}である。初期値W を構成するAk 0、bk 0としては、例えば、それぞれ単位行列、ゼロベクトル(全ての要素が0のベクトル)等が考えられる。
(エラーカウント計算部130)
エラーカウント計算部130は、言語モデル記憶部180から言語モデルを読み込み(s102)、この言語モデルと、音響モデル補正部120から受け取った補正後の音響モデルΛ^とを用いて、特徴量抽出部110から受け取った特徴量ベクトル系列Oを音声認識することによって得られるJ個の対立候補シンボル系列Sを求める。さらに、エラーカウント計算部130は、入力された正解シンボル系列Sを読み込み(s104)、予め定めた粒度で、対立候補シンボル系列S毎に、正解シンボル系列Sとの相違度εj,rを求め(s107)、補正パラメータ微分値計算部140に出力する。特に、予め定めた粒度を音素以下の粒度とすれば、相互情報量最大化の枠組みで粒度の細かい相違度を用いることが可能となる。例えば、予め定めた粒度(音素や単語等)で読み込んだ正解シンボル系列Sと求めた対立候補シンボル系列Sとの異なる部分をカウントし、カウント値を相違度εj,rとして求める。
(補正パラメータ微分値計算部140)
補正パラメータ微分値計算部140は、言語モデル記憶部180から言語モデルを読み込み(s102)、入力された正解シンボル系列Sを読み込み(s104)、補正後の音響モデルΛ^を受け取り、エラーカウント計算部130から受け取った対立候補シンボル系列Sと相違度εj,rとを用いて、式(9)で表される目的関数FdMMI θ,σ1,σ2を求める。
Figure 2014153680
ただし、第一マージンパラメータσの調整は、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いを考慮して人手により行われるものとする。第二マージンパラメータσは、例えば、+0.1という0に近い小さなプラスの値とする。
さらに、補正パラメータ微分値計算部140は、目的関数FdMMI θ,σ1,σ2を音響モデル補正パラメータW=[A]で微分する(式(12)、s108)。
Figure 2014153680
算出した微分値(∂FdMMI θ,σ1,σ2/∂W)を補正パラメータ更新部150に出力する。
(補正パラメータ更新部150)
補正パラメータ更新部150は、微分値(∂FdMMI θ,σ1,σ2/∂W)に応じて平均補正パラメータWを変更することで、平均補正パラメータを更新する。つまり、式(9)の目的関数FdMMI θ,σ1,σ2を最大化するように、式(11)に従い、W、すなわちAおよびbを同時に更新する(s109)。
Figure 2014153680
例えばR−Prop(参考文献9)のような勾配法を用いる場合は、微分値(∂FdMMI θ,σ1,σ2/∂W)が0に近づくようにWを更新すればよい。または例えば、Extended-Baum Welchのようなアルゴリズム(参考文献3)を用いて、Wを更新することもできる。更新後の音響モデル補正パラメータθ^=(W,…,W,…,W)を収束判定部160に出力する。
(収束判定部160)
収束判定部160は、音響モデル補正パラメータθ^を受け取り、音響モデル補正パラメータの推定が収束したか否かを判定し(s110)、収束していると判定した場合には、収束時の音響モデル補正パラメータθ^を、音響モデル補正パラメータ推定装置の出力値として、出力する(s111)。収束していないと判定した場合には、音響モデル補正パラメータθ^を音響モデル補正部120に出力し、音響モデル補正部120、エラーカウント計算部130、補正パラメータ微分値計算部140、補正パラメータ更新部150、収束判定部160の処理を繰り返すように制御信号を出力する。収束判定部160は、例えば、(1)一つ前に求めた音響モデル補正パラメータと今回求めた音響モデル補正パラメータとの差分が閾値以下になった場合や(2)繰り返し回数が所定の回数以上になった場合に、収束していると判定する。
<シミュレーション結果>
以下の表は効果の例として、大語彙連続音声認識タスクで、話者に対する教師なし音響モデル適応の実験結果を表す。このように、本発明は従来の音響モデル適応(MLLR、MMI−LR)よりも性能を改善することがわかる。
Figure 2014153680
<効果>
このような構成により、正解シンボルの誤りの悪影響を弱めることができ、従来技術(MLLRやMMI−LRの識別基準に基づく音響モデル適応)よりも適切に音響モデルパラメータに対する補正パラメータを求めることができる。さらに、このようにして求めた音響モデル補正パラメータを用いて、補正した音響モデルを用いて音声認識を行うことで、従来技術に比べ、音声認識精度を改善できる。
<変形例>
第一実施形態では、音響モデル補正パラメータは平均補正パラメータのみを含むが、混合ガウス分布モデルに含まれるガウス分布の分散パラメータΣを補正する分散補正パラメータも含む構成としてもよい。
この場合、以下の式(13)や(14)により分散パラメータΣを補正することで、dMMI基準による推定をすることができる。
Figure 2014153680
もしくは、
Figure 2014153680
ここで、Dは分散補正パラメータである。
平均補正パラメータW=[A、b]と分散補正パラメータDの同時推定は以下のように行うことができる。
Figure 2014153680
ただし、θb=(W1, D,…,W,Dk,…,WK,DK)である。式(15)は平均と共分散パラメータの同時推定を示しているが、共分散だけ推定することも可能である。
dMMI識別学習基準の目的関数FdMMI θb,σ1,σ2(ただし、下付添字θbは、θを表す。)を最大化するようなDを求めるために、まず目的関数FdMMI θb,σ1,σ2をDで微分する。目的関数FdMMI θb,σ1,σ2をDで微分した値は、分散補正パラメータが式(13)により補正される場合、以下のように表現される。
Figure 2014153680
また、式(15)は、分散補正パラメータが式(14)により補正される場合、以下のように表現される。
Figure 2014153680
また、平均ベクトルの変換行列Aと分散パラメータの変換行列(式(13)のDk)が同じになるように制約を加えてもよい。その場合は、平均ベクトルと分散パラメータの補正は式(18)のように行い、音響モデル補正パラメータの推定は式(19)で行う。
Figure 2014153680
なお、Ak cは平均ベクトル及び分散パラメータに対する変換行列、bk cは平均ベクトルに対するバイアスベクトルである。
Figure 2014153680
ただし、θc=(Ac 1,bc 1,…,Ac k,bc k,…,Ac K,bc K)である。
変形例に係る音響モデル補正パラメータ学習装置100の構成について、第一実施形態と異なる部分を中心に説明する。
(音響モデル補正部120)
音響モデル補正部120は、式(3)により、平均ベクトルを補正し、さらに、式(13)または(14)により分散パラメータΣを補正する(s106)。なお、音響モデル適応技術を搭載した音声認識装置90の音響モデル補正部94においても対応する式(式(13)または式(14))により、分散パラメータΣを補正する。
(エラーカウント計算部130)
エラーカウント計算部130は、補正した平均ベクトルと補正した共分散行列とを含む音響モデルと言語モデルとに基づき、学習用音声データの特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、正解シンボル系列との相違度を求める(s107)。
(補正パラメータ微分値計算部140)
補正パラメータ微分値計算部140は、式(15)の右辺で用いられている目的関数FdMMI θb,σ1,σ2を求める。さらに、補正パラメータ微分値計算部140は、目的関数FdMMI θb,σ1,σ2を音響モデル補正パラメータW、Dでそれぞれ微分する(式(12)、(16)または(17)s108)。
(補正パラメータ更新部150)
補正パラメータ更新部150は、平均補正パラメータWに対する微分値∂FdMMI θb,σ1,σ2/∂Wに応じて平均補正パラメータWを変更することで、平均補正パラメータを更新し、さらに、分散補正パラメータDに対する微分値∂FdMMI θb,σ1,σ2/∂Dに応じて分散補正パラメータDを変更することで、分散補正パラメータDを更新する(s109)。
(収束判定部160)
収束判定部160は、平均補正パラメータ及び分散補正パラメータの更新が予め定めた条件を満たすか否かを判定し(s110)、満たす場合には、更新後の平均補正パラメータ及び分散補正パラメータをそれぞれ求める平均補正パラメータ及び分散補正パラメータとして出力し(s111)、条件を満たさない場合には、音響モデル補正部120、エラーカウント計算部130、補正パラメータ微分値計算部140及び補正パラメータ更新部150の処理を繰り返す。
このような構成により、適切に、平均補正パラメータに加え分散補正パラメータを求めることができる。
<その他の変形例>
音響補正パラメータをクラスタ毎に求めなくともよい。その場合、式(2)で平均ベクトルを補正し、式(13a)または式(14a)で分散パラメータを補正する。
Figure 2014153680
また、本実施形態では、音響モデル補正パラメータ学習装置100は、特徴量抽出部110を含むが、学習用音声データに対する特徴量を入力される場合には、特徴量抽出部110を含まなくともよい。
図示しない記憶部に予め目的関数FdMMI θb,σ1,σ2を音響モデル補正パラメータで微分したもの(例えば式(12)、(16)、(17)で表される)を計算式として記憶しておいてもよい。この場合、実際の微分値は以下のようにして求める。補正パラメータ微分値計算部140は、計算式を記憶部から読み込み、さらに、言語モデル記憶部180から言語モデルを読み込み、正解シンボル系列Sを読み込み、補正後の音響モデルΛ^と対立候補シンボル系列Sと相違度εj,rとを受け取り、計算式に代入し、微分値(∂FdMMI θb,σ1,σ2/∂W)や(∂FdMMI θb,σ1,σ2/∂D)を算出し(s108)、補正パラメータ更新部109に出力する。
〔第二実施形態〕
式(3)の音響モデルパラメータの補正は式(20)のように、特徴量の補正と等しくなることを示すことができる。
Figure 2014153680
は特徴量に対する変換行列、b は特徴量に対するバイアスベクトルである。W :=[A ]である。
目的関数FdMMI θ,σ1,σ2を特徴量補正パラメータW で微分すると、次式のようになる。
Figure 2014153680
第一実施形態では、音響モデルを補正することで話者適応を行う構成を前提とし、音響モデル補正パラメータを推定する構成を説明したが、式(20)を用いると、本発明は特徴量の補正パラメータ(以下「特徴量補正パラメータ」ともいう)の推定にも応用することができる。
まず、補正した特徴量に基づき音声認識を行う音声認識装置70について説明する。
<音声認識装置70>
図7に音声認識装置70の機能構成例、図8にその処理フロー例を示す。音声認識装置70は、特徴量抽出部91、特徴量補正部71、単語列探索部72、記録部74から構成される。
予め音響モデル及び言語モデルを記録部74に記録している。さらに、予め特徴量補正パラメータWを記録部74に記録している。W=(W ,W ,…,W )とし、W ={A }とする。なお、本実施形態では、W=θ、W=θ とする。
特徴量補正部71は特徴量補正パラメータWを読み込む(s71)。特徴量抽出部91で抽出した特徴量ベクトル系列Oを、単語列探索部72に送る前に、特徴量補正部71において、予め求めておいた特徴量補正パラメータWを用いて式(20)により、補正する(s72)。
Figure 2014153680
単語列探索部72は、音響モデルと言語モデルを読み込む(s71、s72)。単語列探索部72は、まず、音響モデルに基づき、特徴量補正部71で補正された特徴量ベクトル系列O^に対するJ個の対立候補シンボル系列Sを生成して、対立候補シンボル系列S毎に音響スコアを算出する。次に、言語モデルに基づき、対立候補シンボル系列S毎に言語スコアを算出する。さらに、音響スコアと言語スコアとを統合して、J個の対立候補シンボル系列Sの中から、認識用音声データに対応する文として最も確からしい(最も音響スコアと言語スコアとを統合したスコアが高い)対立候補シンボル系列を探索し(s75)、その対立候補シンボル系列を認識結果(単語列)S^として出力する(s76)。
この特徴量ベクトル系列Oの補正は、最終的な音声認識精度を向上させることを目的として行われる。すなわち特徴量補正技術のポイントは、最終的な音声認識精度を向上させるための特徴量補正パラメータWをいかに推定するか、という点にある。
本実施形態では、特徴量補正パラメータWを以下のように推定する。第一実施形態と異なる部分を中心に説明する。
<特徴量補正パラメータ推定装置200>
特徴量補正パラメータ推定装置200の構成を図9に、処理フローを図10に示す。第一実施形態とは異なる処理についてのみ説明する。特徴量補正パラメータ推定装置200は、特徴量抽出部110、音響モデル補正部220、エラーカウント計算部230、補正パラメータ微分値計算部240、補正パラメータ更新部250、収束判定部260、音響モデル記憶部170及び言語モデル記憶部180を含む。
(特徴量補正部220)
特徴量補正部220は、特徴量補正パラメータの初期値Wf0または更新された特徴量補正パラメータWf(i−1)と、補正前の特徴量ベクトル系列Oとを受け取り、式(20)に基づき特徴量ベクトル系列Oを補正し(s206)、補正後の特徴量ベクトル系列O^をエラーカウント計算部230に出力する。
Figure 2014153680
ただし、Wf0={W1 f0,W f0,…,W f0}であり、W f0={A f0 f0}である。初期値A f0,b f0としては、例えば、それぞれ単位行列、ゼロベクトル(全ての要素が0のベクトル)等が考えられる。同様に、Wf(i−1)={W f(i−1),W f(i−1),…,W f(i−1)}であり、W f(i−1)={A f(i−1) f(i−1)}である。また、本実施形態では、特徴量補正パラメータをθとも記載する。
(エラーカウント計算部230)
エラーカウント計算部230は、補正前の特徴量ベクトル系列Oの代わりに補正後の特徴量ベクトル系列O^を用いる点を除いては、第一実施形態と同じである(s102、s104、s207)。
(補正パラメータ微分値計算部240)
補正パラメータ微分値計算部240は、補正前の特徴量ベクトル系列Oの代わりに補正後の特徴量ベクトル系列O^を用い、補正後の音響モデルΛ^の代わりに音響モデルΛを用い、目的関数FdMMI θ,σ1,σ2を微分する際に音響モデル補正パラメータWの代わりに特徴量補正パラメータW を用いる。
よって、補正パラメータ微分値計算部240は、音響モデル記憶部170及び言語モデル記憶部180からそれぞれ音響モデル及び言語モデルを読み込み(s101、s102)、入力された正解シンボル系列Sを読み込み(s104)、エラーカウント計算部130から受け取った対立候補シンボル系列Sと相違度εj,rとを用いて、次式で表される目的関数FdMMI θ,σ1,σ2を求める。
Figure 2014153680
ただし、第一マージンパラメータσの調整は、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いを考慮して人手により行われるものとする。第二マージンパラメータσは、例えば、+0.1という0に近い小さなプラスの値とする。 さらに、補正パラメータ微分値計算部240は、目的関数FdMMI θ,σ1,σ2を特徴量補正パラメータW =[A ]で微分する(式(21)、s208)。
Figure 2014153680
算出した微分値(∂FdMMI θ,σ1,σ2/∂W )を補正パラメータ更新部250に出力する。
(補正パラメータ更新部250)
補正パラメータ更新部250は、微分値(∂FdMMI θ,σ1,σ2/∂W )を受け取り、微分値(∂FdMMI θ,σ1,σ2/∂W )に応じてW 、すなわちA およびb を同時に更新する(s209)。更新後の特徴量補正パラメータW^ を収束判定部160に出力する。
(収束判定部260)
収束判定部260は、音響モデル補正パラメータの代わりに特徴量補正パラメータW^ を用いる点を除いては、第一実施形態と同じである(s210、s211)。
<効果>
このような構成により、正解シンボルの誤りの悪影響を弱めることができ、従来技術よりも適切に特徴量に対する補正パラメータを求めることができる。さらに、このようにして求めた特徴量補正パラメータを用いて、認識用音声データの特徴量を補正し、補正した特徴量に基づき音声認識を行うことで、従来技術に比べ、音声認識精度を改善できる。また、特徴量補正の場合は音響モデルパラメータを更新する必要がないという利点もある。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには前記混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、前記平均ベクトルを補正するための平均補正パラメータを求める音響モデル補正パラメータ推定装置であって、
    予め求められた前記音響モデル及び言語モデルが記憶される記憶部と、
    前記記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正部と、
    補正した前記平均ベクトルを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求めるエラーカウント計算部と、
    前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、
    前記微分値に応じて前記平均補正パラメータを変更することで、前記平均補正パラメータを更新する補正パラメータ更新部と、を含む、
    音響モデル補正パラメータ推定装置。
  2. 請求項1記載の音響モデル補正パラメータ推定装置であって、
    前記音響モデルパラメータには、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列が含まれるものとし、
    前記音響モデル補正部は、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列を、分散補正パラメータを用いて補正し、
    前記エラーカウント計算部は、補正した前記平均ベクトルと補正した前記共分散行列とを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
    前記補正パラメータ微分値計算部は、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記分散補正パラメータで識別学習基準の目的関数を微分したときの微分値を求め、
    補正パラメータ更新部は、さらに、前記分散補正パラメータに対する前記微分値に応じて前記分散補正パラメータを変更することで、前記分散補正パラメータを更新する、
    音響モデル補正パラメータ推定装置。
  3. 学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める特徴量補正パラメータ推定装置であって、
    予め求められた音響モデル及び言語モデルが記憶される記憶部と、
    前記学習用音声データの前記特徴量oを特徴量補正パラメータにより補正した補正後の特徴量o^を求める特徴量補正部と、
    予め定めた粒度で、前記補正後の特徴量o^を音声認識することによって得られる対立候補シンボル系列ごとに、前記正解シンボル系列との相違度を求めるエラーカウント計算部と、
    前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記補正後の特徴量o^と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記特徴量補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、
    前記微分値に応じて前記特徴量補正パラメータを変更することで、前記特徴量補正パラメータを更新する補正パラメータ更新部と、を含む、
    特徴量補正パラメータ推定装置。
  4. 音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには前記混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、前記平均ベクトルを補正するための平均補正パラメータを求める音響モデル補正パラメータ推定方法であって、
    記憶部には予め求められた前記音響モデル及び言語モデルが記憶され、
    前記記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正ステップと、
    補正した前記平均ベクトルを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求めるエラーカウント計算ステップと、
    前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、
    前記微分値に応じて前記平均補正パラメータを変更することで、前記平均補正パラメータを更新する補正パラメータ更新ステップと、を含む、
    音響モデル補正パラメータ推定方法。
  5. 請求項4記載の音響モデル補正パラメータ推定方法であって、
    前記音響モデルパラメータには、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列が含まれるものとし、
    前記音響モデル補正ステップにおいて、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列を、分散補正パラメータを用いて補正し、
    前記エラーカウント計算ステップにおいて、補正した前記平均ベクトルと補正した前記共分散行列とを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
    前記補正パラメータ微分値計算ステップにおいて、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記分散補正パラメータで識別学習基準の目的関数を微分したときの微分値を求め、
    補正パラメータ更新ステップにおいて、さらに、前記分散補正パラメータに対する前記微分値に応じて前記分散補正パラメータを変更することで、前記分散補正パラメータを更新する、
    音響モデル補正パラメータ推定方法。
  6. 学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める特徴量補正パラメータ推定方法であって、
    記憶部には予め求められた前記音響モデル及び言語モデルが記憶され、
    前記学習用音声データの前記特徴量oを特徴量補正パラメータにより補正した補正後の特徴量o^を求める特徴量補正ステップと、
    予め定めた粒度で、前記補正後の特徴量o^を音声認識することによって得られる対立候補シンボル系列ごとに、前記正解シンボル系列との相違度を求めるエラーカウント計算ステップと、
    前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記補正後の特徴量o^と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記特徴量補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、
    前記微分値に応じて前記特徴量補正パラメータを変更することで、前記特徴量補正パラメータを更新する補正パラメータ更新ステップと、を含む、
    特徴量補正パラメータ推定方法。
  7. 請求項1もしくは請求項2記載の音響モデル補正パラメータ推定装置、または、請求項3記載の特徴量補正パラメータ推定装置として、コンピュータを機能させるためのプログラム。
JP2013025865A 2013-02-13 2013-02-13 音響モデル補正パラメータ推定装置、その方法及びプログラム Active JP6121187B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013025865A JP6121187B2 (ja) 2013-02-13 2013-02-13 音響モデル補正パラメータ推定装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013025865A JP6121187B2 (ja) 2013-02-13 2013-02-13 音響モデル補正パラメータ推定装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2014153680A true JP2014153680A (ja) 2014-08-25
JP6121187B2 JP6121187B2 (ja) 2017-04-26

Family

ID=51575559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013025865A Active JP6121187B2 (ja) 2013-02-13 2013-02-13 音響モデル補正パラメータ推定装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6121187B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6128287B1 (ja) * 2016-05-20 2017-05-17 三菱電機株式会社 音声認識装置および音声認識方法
CN111524017A (zh) * 2019-02-01 2020-08-11 天津幸福生命科技有限公司 理赔数据的审核方法、装置及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102662571B1 (ko) 2018-03-02 2024-05-07 삼성전자주식회사 전자 장치, 제어 방법 및 컴퓨터 판독 가능 매체

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11212588A (ja) * 1998-01-22 1999-08-06 Hitachi Ltd 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002182682A (ja) * 2000-12-15 2002-06-26 Sharp Corp 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP2011048262A (ja) * 2009-08-28 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム
JP5738216B2 (ja) * 2012-02-27 2015-06-17 日本電信電話株式会社 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11212588A (ja) * 1998-01-22 1999-08-06 Hitachi Ltd 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002182682A (ja) * 2000-12-15 2002-06-26 Sharp Corp 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP2011048262A (ja) * 2009-08-28 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム
JP5738216B2 (ja) * 2012-02-27 2015-06-17 日本電信電話株式会社 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6128287B1 (ja) * 2016-05-20 2017-05-17 三菱電機株式会社 音声認識装置および音声認識方法
WO2017199417A1 (ja) * 2016-05-20 2017-11-23 三菱電機株式会社 音声認識装置および音声認識方法
CN111524017A (zh) * 2019-02-01 2020-08-11 天津幸福生命科技有限公司 理赔数据的审核方法、装置及介质
CN111524017B (zh) * 2019-02-01 2023-09-22 北京懿医云科技有限公司 理赔数据的审核方法、装置及介质

Also Published As

Publication number Publication date
JP6121187B2 (ja) 2017-04-26

Similar Documents

Publication Publication Date Title
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US8515758B2 (en) Speech recognition including removal of irrelevant information
JP6506074B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム
WO2012105231A1 (ja) モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
WO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
JP6121187B2 (ja) 音響モデル補正パラメータ推定装置、その方法及びプログラム
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP5079760B2 (ja) 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
Liu et al. Discriminative training of CDHMMs for maximum relative separation margin
JP5694976B2 (ja) 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
JP6324647B1 (ja) 話者適応化装置、音声認識装置および音声認識方法
JP5812936B2 (ja) アクセント句境界推定装置、アクセント句境界推定方法及びプログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
Delcroix et al. Unsupervised discriminative adaptation using differenced maximum mutual information based linear regression
Mozaffari et al. Improvement of time alignment of the speech signals to be used in voice conversion
Andrew et al. Backpropagation in sequential deep neural networks
HUANG et al. Automatic context induction for tone model integration in mandarin speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160906

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170329

R150 Certificate of patent or registration of utility model

Ref document number: 6121187

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150