JP6612796B2

JP6612796B2 - 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム

Info

Publication number: JP6612796B2
Application number: JP2017023528A
Authority: JP
Inventors: マークデルクロア; 慶介木下; 厚徳小川; 太一浅見; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-02-10
Filing date: 2017-02-10
Publication date: 2019-11-27
Anticipated expiration: 2037-02-10
Also published as: JP2018128647A

Description

本発明は、音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラムに関する。

従来、音声認識のための音響モデルを学習する音響モデル学習装置、及び音響モデルを用いて音声認識を行う音声認識装置が知られている。また、周囲の雑音環境や話者の多様性等により、音響モデル学習装置で学習される音声データと音声認識装置に入力される音声データとで音声の特徴が一致せず、音声認識装置による音声認識の精度が低下する場合があることが知られている。これに対し、補助特徴量を用いて、音響モデルのパラメータを周囲の雑音環境や話者の違い、すなわち音響条件に適応させる音響モデルの学習方法及び音声認識方法が知られている（例えば、非特許文献２を参照）。

G. Hinton, L. Deng, D. Yu, G. E. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. N. Sainath, and B. Kingsbury, "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups," IEEE Signal Process. Mag., vol. 29, no. 6, pp. 82-97, 2012. G. Saon, H. Soltau, D. Nahamoo, and M. Picheny, "Speaker adaptation of neural network acoustic models using i-vectors,"in Proc. of ASRU’13, 2013, pp. 55-59. S. Haykin, Neural Networks: A Comprehensive Foundation, Prentice Hall PTR, Upper Saddle River, NJ, USA, 2nd edition, 1999.

しかしながら、従来の技術には、音響モデルの音響条件への適応を高精度に行い、かつ、遅延を低減させた音声認識を行うことができない場合があるという問題があった。例えば、従来の技術では、補助特徴量は音響モデルとは別の基準で学習されていたため、補助特徴量が音響モデルに最適化されていない場合があり、音響モデルの音響条件への適応の精度が低い場合があった。

また、例えば、従来の技術では、補助特徴量を計算するためにはある程度の量の音声データが必要であった。そのため、必要な量の音声データが揃うまでの間、補助特徴量を計算することができないため、音声認識に数秒程度の遅延が生じることがあった。

本発明の音響モデル学習装置は、音声データの各フレームについて、前記音声データの特徴量である第１の入力特徴量と、前記音声データの音響条件に関する特徴量である第２の入力特徴量と、を抽出する特徴量抽出部と、Ｂｏｔｔｌｅｎｅｃｋニューラルネットワークで表されるＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルを特徴付けるＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータと、前記第２の入力特徴量と、を基に、前記音声データの各フレームのＢｏｔｔｌｅｎｅｃｋ特徴量を、前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを用いて計算するＢｏｔｔｌｅｎｅｃｋ特徴量計算部と、複数のフレームにおける前記Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均である補助特徴量を計算する平均計算部と、ニューラルネットワークで表される音響条件特徴量計算モデルを特徴付ける音響条件特徴量計算モデルパラメータと、前記補助特徴量と、を基に、前記音声データの音響条件の特徴を示す音響条件特徴量を、前記音響条件特徴量計算モデルを用いて計算する音響条件特徴量計算部と、前記音響条件特徴量計算モデルの出力層が結合されたニューラルネットワークで表される音響モデルを特徴付ける音響モデルパラメータを、前記音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する音響モデルパラメータ補正部と、前記補正後パラメータと前記第１の入力特徴量とを基に前記音響モデルパラメータを更新する音響モデルパラメータ更新部と、前記補正後パラメータと前記第１の入力特徴量とを基に前記音響条件特徴量計算モデルパラメータを更新する音響条件特徴量計算モデルパラメータ更新部と、前記補正後パラメータと前記第１の入力特徴量とを基に前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータを更新するＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ更新部と、を含んだことを特徴とする。

本発明によれば、音響モデルの音響条件への適応を高精度に行い、かつ、遅延を低減させた音声認識を行うことができる。

図１は、従来の音声認識装置に係る音声認識装置の構成の一例を示す図である。図２は、従来の音声認識装置の処理の概要の一例を示す図である。図３は、従来の音声認識装置に係る音声認識処理の一例を示すフローチャートである。図４は、補助特徴量を用いた音声認識装置の処理の概要の一例を示す図である。図５は、補助特徴量を用いた音声認識装置の構成の一例を示す図である。図６は、補助特徴量を用いた音声認識処理の一例を示すフローチャートである。図７は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルの概要の一例を示す図である。図８は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置の構成の一例を示す図である。図９は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習処理の一例を示すフローチャートである。図１０は、Ｂｏｔｔｌｅｎｅｃｋ特徴量を用いた補助特徴量計算装置の構成の一例を示す図である。図１１は、Ｂｏｔｔｌｅｎｅｃｋ特徴量を用いた補助特徴量計算処理の一例を示すフローチャートである。図１２は、第１の実施形態に係る音声認識装置の処理の概要の一例を示す図である。図１３は、第１の実施形態に係る音声認識装置の構成の一例を示す図である。図１４は、第１の実施形態に係る音声認識装置の音声認識処理の一例を示すフローチャートである。図１５は、第１の実施形態に係る音響モデル学習装置の構成の一例を示す図である。図１６は、第１の実施形態に係る音響モデル学習装置の学習処理の一例を示すフローチャートである。図１７は、プログラムが実行されることにより、実施形態に係る音声認識装置及び音響モデル学習装置が実現されるコンピュータの一例を示す図である。

以下、本願が開示する音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラムの実施形態の一例の説明に先立ち、実施形態の一例が前提とする従来技術を説明する。その後、本願が開示する音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラムの実施形態の一例を説明する。

なお、以下では、例えばＡがベクトルである場合には“ベクトルＡ”と表記し、例えばＡが行列である場合には“行列Ａ”と表記し、例えばＡがスカラーである場合には単に“Ａ”と表記する。また、例えばＡが集合である場合には、“集合Ａ”と表記する。また、例えばベクトルＡの関数ｆは、ｆ（ベクトルＡ）と表記する。また、ベクトル、行列又はスカラーであるＡに対し、“＾Ａ”と記載する場合は「“Ａ”の直上に“＾”が記された記号」と同等であるとする。また、ベクトル、行列又はスカラーであるＡに対し、“−Ａ”と記載する場合は「“Ａ”の直上に“−”が記された記号」と同等であるとする。また、ベクトル、行列又はスカラーであるＡに対し、“~Ａ”と記載する場合は「“Ａ”の直上に“~”が記された記号」と同等であるとする。また、ベクトル又は行列であるＡに対し、Ａ^ＴはＡの転置を表す。

＜従来の音声認識装置＞
図１を用いて、例えば非特許文献１に示される、従来の音声認識装置について説明する。図１は、従来の音声認識装置に係る音声認識装置の構成の一例を示す図である。図１に示すように、音声認識装置１０ａは、特徴量抽出部１０１ａ、出力確率計算部１０２ａ、単語列検索部１０３ａを有する。また、音声認識装置１０ａは、記憶部１５０ａと接続される。

記憶部１５０ａは、音響モデル及び言語モデルをあらかじめ記憶する。音響モデルは、音声の音響的特徴をモデル化したものである。言語モデルは、音素や単語といった多数のシンボル系列から構成されている。例えば、言語モデルは、単語列の生成確率をモデル化したものであるといえる。一般的に、音声認識用の音響モデルは、各音素をLeft to rightのＨＭＭであり、ニューラルネットワーク（以下、ＮＮ（Neural Network）と称す）で計算されたＨＭＭの各状態の出力確率分布を含む。

すなわち、記憶部１５０ａに記憶されている音響モデルは、音素等の各シンボルにおけるＨＭＭの状態遷移確率、ｉ番目の隠れ層に関する重み行列Ｗ_ｉ及びバイアスベクトルｂ_ｉ、アクティベーション関数のパラメータ等を含むＮＮのパラメータである。ここで、ｉは、隠れ層のインデックスである。これらを音響モデルパラメータと称し、その集合をΛ＝｛Ｗ_１，ｂ_１，・・・，Ｗ_Ｉ，ｂ_Ｉ｝（Ｉは、隠れ層の総数に１を足した数、すなわち隠れ層と出力層の総数）とする。言語モデルは、音素や単語といった多数のシンボル系列Ｓ_ｊから構成されており、Ｐ（Ｓ_ｊ）は言語モデルによって得られるシンボル系列Ｓ_ｊの確率（言語確率）である。なお、シンボル系列Ｓ_ｊとは、音声認識結果となりうる、音素や単語等からなるシンボルの系列である。

特徴量抽出部１０１ａは、認識用音声データを読み込み、認識用音声データから音声特徴量を抽出する。音声特徴量としては、例えば、ＭＦＣＣ（Mel Frequency Cepstral Coefficient）、ＬＭＦＣ（log Mel Filterbank coefficients）、ΔＭＦＣＣ（ＭＦＣＣの１回微分）、ΔΔＭＦＣＣ（ＭＦＣＣの２回微分）、対数（スペクトル）パワー、Δ対数パワー（対数パワーの１回微分）等がある。

そして、特徴量抽出部１０１ａは、フレーム毎に当該フレーム及びその前後５フレーム程度の連続する各フレームから得られる特徴量を連結し、１０〜２０００次元程度の音声特徴量ベクトルｏ_ｎ（ｎは、１，・・・，Ｎの自然数）を生成する。そして、特徴量抽出部１０１ａは、下記（１）式のように、全てのフレームについての音声特徴量ベクトルｏ_ｎをまとめた音声特徴量ベクトル系列Ｏを生成する。音声特徴量ベクトル系列Ｏは、１からＮフレーム目までのＤ次元ベクトルで表現されるデータである。例えば、フレーム長は、３０ｍｓ程度、フレームシフト長は、１０ｍｓ程度である。

出力確率計算部１０２ａは、記憶部１５０ａから音響モデルパラメータΛを読み込み、読み込んだ音響モデルパラメータΛに基づき、音声特徴量ベクトル系列Ｏの各フレームｎに対する音響モデルの各ＨＭＭ状態の出力確率を計算する。ＨＭＭ状態の出力確率は、例えば非特許文献１の（２）式で表されるようなＮＮの出力である。

図２は、従来の音声認識装置の処理の概要の一例を示す図である。図２に示すように、従来技術の音声認識に音響モデルを表すＮＮは、入力と出力との間に、１以上の隠れ層を有する。ＮＮの入力は、音声特徴量ベクトルｏ_ｎであり、最前段の隠れ層へ入力される。ＮＮの出力は、最後段の隠れ層によるＨＭＭ状態の出力確率である。出力確率計算部１０２ａが行う各隠れ層における計算は、線形変換による処理及びアクティベーション関数による処理の２つの処理を含む。各隠れ層における線形変換は、下記（２）式のようになる。

ただし、上記（２）式において、ベクトルｚ_ｉ，ｎは、ｉ番目（ｉは自然数であり、ｉ＝１，２，・・・，Ｉ（ただしＩは隠れ層の総数に１を足した数、すなわち隠れ層と出力層の総数））の隠れ層における線形変換の出力であり、ベクトルｘ_{ｉ−１，ｎ}は（ｉ−１）番目の隠れ層の出力である。なお、ベクトルｘ_０，ｎは、ＮＮの入力である音声特徴量ベクトルｏ_ｎである。また、アクティベーション関数の出力は、下記（３）式のようになる。

ただし、上記（３）式において、ベクトルｘ_ｉ，ｎはｉ番目の隠れ層の出力であり、σは、例えばsigmoid関数等のアクティベーション関数であり、σ(ベクトルｚ_ｉ，ｎ)ベクトルの要素毎に計算される。すなわち、出力確率計算部１０２ａは、ｉ番目の隠れ層において、前段の隠れ層である（ｉ−１）番目の隠れ層の出力であるベクトルｘ_{ｉ−１，ｎ}に対し上記（２）式による線形変換を行った結果であるベクトルｚ_ｉ，ｎに対して、上記（２）式による処理を行った結果であるベクトルｘ_ｉ，ｎを出力する。そして、出力確率計算部１０２ａは、各ベクトルｘ_ｉ，ｎ（ｉ＝１，２，・・・，Ｉ）に基づき、音声特徴量ベクトル系列Ｏの各フレームｎに対する音響モデルの各ＨＭＭ状態の出力確率を計算する。

単語列検索部１０３ａは、出力確率計算部１０２ａにより計算された各ＨＭＭ状態の出力確率に基づき、Ｊ個（Ｊは自然数）の対立候補シンボル系列Ｓ_ｊを生成し、対立候補シンボル系列Ｓ_ｊ毎に、音響モデルとの適合尤度を示す音響スコアを計算する。シンボルは、例えば、音素である。ここで、ｊ＝１，２，・・・，Ｊである。次に、単語列検索部１０３ａは、記憶部１５０ａから言語モデルを用いて、対立候補シンボル系列Ｓ_ｊ毎に、言語モデルとの適合尤度を示す言語スコアを計算する。そして、単語列検索部１０３ａは、計算した音響スコア及び言語スコアに基づき、Ｊ個の対立候補シンボル系列Ｓ_ｊの中から、認識用音声データに対応する単語列として最も確からしい、つまり、音響スコア及び言語スコアを統合したスコアが最も高い対立候補シンボル系列を、記憶部１５０ａに記憶される言語モデルから検索し、検索した対立候補シンボル系列を、認識結果である単語列＾Ｓとして出力する。

図３は、従来の音声認識装置に係る音声認識処理の一例を示すフローチャートである。まず、音声認識装置１０ａは、記憶部１５０ａから、音響モデルを読み込む（ステップＳ１０１ａ）。次に、音声認識装置１０ａは、記憶部１５０ａから、言語モデルを読み込む（ステップＳ１０２ａ）。次に、音声認識装置１０ａは、認識用音声データを読み込む（ステップＳ１０３ａ）。次に、音声認識装置１０ａは、読み込んだ認識用音声データから音声特徴量を抽出する（ステップＳ１０４ａ）。次に、音声認識装置１０ａは、音響モデルを用いて、音声特徴量を基に、音響モデルの出力確率を計算する（ステップＳ１０５ａ）。次に、音声認識装置１０ａは、出力確率及び言語スコアに基づき、言語モデルから単語列を検索する（ステップＳ１０６ａ）。次に、音声認識装置１０ａは、検索した単語列を出力する（ステップＳ１０７ａ）。

＜補助特徴量を用いた音声認識装置＞
前述の通り、周囲の雑音環境や話者の多様性等により、音響モデル学習装置で学習される音声データと音声認識装置に入力される音声データとで音声の特徴が一致せず、音声認識装置による音声認識の精度が低下する場合があり、これに対し、補助特徴量を用いて、音響モデルのパラメータを音響条件に適応させる音響モデルの学習方法及び音声認識方法として、ＣＡＤＮＮ（Context Adaptive Deep Neural Network）が知られている（例えば、参考文献３：M. Delcroix, K. Kinoshita, T. Hori, T. Nakatani, “Context adaptive deep neural networks for fast acoustic model adaptation,” in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015 , pp.4535-4539, 2015．）。

ここで、図４等を用いて、補助特徴量を用いた音声認識装置について説明する。図４は、補助特徴量を用いた音声認識装置の処理の概要の一例を示す図である。図４に示すように、ＮＮの隠れ層は、音響条件特徴量を示すベクトル（以下、「音響条件特徴量ベクトル」と称す）の要素毎に分解された形になっている。図４の例では、ＮＮの隠れ層は、音響条件特徴量を示すベクトル（以下、「音響条件特徴量ベクトル」と称す）の要素ごとに分解された形になっている。図４の例では、１つの隠れ層（ｉ番目の隠れ層）が分解されている状態を示すが、少なくとも１つの隠れ層又は全ての隠れ層を分解するとしてもよい。分解された隠れ層の線形変換後の出力は、下記（４）式のように計算する。

ただし、上記（４）式におけるｙ_ｋ，ｎは、ｎ番目のフレームから抽出された音響条件特徴量ベクトルｙ_ｎ∈Ｒ^Ｋ（Ｋ次元実数空間）のｋ番目（ｋは１，２，・・・，Ｋなる自然数、Ｋは音響条件の数を示す自然数）の要素である。以下、音響条件特徴量ｙ_ｋ，ｎと称す。また、上記（４）式における重み行列Ｗ_ｉ，ｋは、ｉ番目の隠れ層における音響条件特徴量ベクトルｙ_ｋ，ｎに対する線形重み行列である。また、上記（４）式におけるバイアスベクトルｂ_ｉ，ｋは、ｉ番目の隠れ層における音響条件特徴量ベクトルｙ_ｋ，ｎに関するバイアスベクトルである。このように、ＣＡＤＮＮは、隠れ層をＫ個の音響条件の要素に分解して表現する。また、音響条件特徴量は、補助特徴量を入力としたときの、音響条件特徴量計算モデルの出力である。

図５を用いて、補助特徴量を用いた音声認識装置の構成について説明する。図５は、補助特徴量を用いた音声認識装置の構成の一例を示す図である。図５に示すように、補助特徴量を用いた音声認識装置１０ｂは、特徴量抽出部１０１ｂ、補助特徴量抽出部１０２ｂ、音響条件特徴量計算部１０３ｂ、出力確率計算部１０４ｂ及び単語列検索部１０５ｂを有する。また、音声認識装置１０ｂは、記憶部１５０ｂと接続される。

記憶部１５０ｂは、音声認識装置１０ａの記憶部１５０ａと同様に、音響モデル及び言語モデルをあらかじめ記憶する。さらに、記憶部１５０ｂは、音響条件特徴量計算モデルを記憶する。また、特徴量抽出部１０１ｂは、音声認識装置１０ａの特徴量抽出部１０１ａと同様に、認識用音声データを読み込み、認識用音声データから音声特徴量を抽出する。

補助特徴量抽出部１０２ｂは、認識用音声データを読み込み、下記（５）式で表される補助特徴量ベクトルＵを抽出し、抽出した補助特徴量ベクトルｕを、音響条件特徴量計算部１０３ｂに出力する。ただし、下記（５）式のＬは補助特徴量ベクトルｕの次元を表す。

補助特徴量は、例えば、話者性や、雑音、残響等の環境の特徴等を表す。例えば、補助特徴量としては、話者性を表すために、ｉ−ｖｅｃｔｏｒやＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルが使われる場合がある。また、音声特徴量が、時間フレームごとに異なるのに対し、補助特徴量は、１発話の中や、１人の話者の複数の発話の中では、時間フレームにかかわらず同一となる。

音響条件特徴量計算部１０３ｂは、補助特徴量を基に、音響条件特徴量を計算し、計算した音響条件特徴量を、出力確率計算部１０４ｂに出力する。また、出力確率計算部１０４ｂは、特徴量抽出部１０１ｂによって抽出された音声特徴量と、音響条件特徴量計算部１０３ｂによって計算された音響条件特徴量とを基に、ＨＭＭ状態の出力確率を計算する。出力確率計算部１０４ｂは、２つの特徴量が入力される点で、音声認識装置１０ａの出力確率計算部１０２ａと異なる。

単語列検索部１０５ｂは、音声認識装置１０ａの単語列検索部１０３ａと同様に、出力確率計算部１０４ｂによって計算されたＨＭＭ状態の出力確率と、言語モデルとを基に、単語列を検索する。

図６は、補助特徴量を用いた音声認識処理の一例を示すフローチャートである。まず、音声認識装置１０ｂは、記憶部１５０ｂから、音響モデルを読み込む（ステップＳ１０１ｂ）。次に、音声認識装置１０ｂは、記憶部１５０ｂから、音響条件特徴量計算モデルを読み込む（ステップＳ１０２ｂ）。次に、音声認識装置１０ｂは、記憶部１５０ｂから、言語モデルを読み込む（ステップＳ１０３ｂ）。次に、音声認識装置１０ｂは、認識用音声データを読み込む（ステップＳ１０４ｂ）。次に、音声認識装置１０ｂは、読み込んだ認識用音声データから音声特徴量を抽出する（ステップＳ１０５ｂ）。次に、音声認識装置１０ｂは、認識用音声データから補助特徴量を抽出する（ステップＳ１０６ｂ）。次に、音声認識装置１０ｂは、補助特徴量を基に、音響条件特徴量を計算する（ステップＳ１０７ｂ）。次に、音声認識装置１０ｂは、音響モデルを用いて、音声特徴量と、音響条件特徴量とを基に、音響モデルの出力確率を計算する（ステップＳ１０８ｂ）。次に、音声認識装置１０ｂは、出力確率及び言語スコアに基づき、言語モデルから単語列を検索する（ステップＳ１０９ｂ）。次に、音声認識装置１０ｂは、検索した単語列を出力する（ステップＳ１１０ｂ）。

＜Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置＞
前述の通り、補助特徴量としては、話者性を表すためにＢｏｔｔｌｅｎｅｃｋ特徴量が使われる場合がある（参考文献１：Souvik Kundu, Gautam Mantena, Yanmin Qian, Tian Tan, Marc Delcroix, Khe Chai Sim, “JOINT ACOUSTIC FACTOR LEARNING FOR ROBUST DEEP NEURAL NETWORK BASED AUTOMATIC SPEECH RECOGNITION,” ICASSP 2016.）。

ここで、図７を用いて、ＢｏｔｔｌｅｎｅｃｋＮＮであるＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルについて説明する。図７は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルの概要の一例を示す図である。図７に示すように、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルでは、中間層の１つを、他の層よりも少ないユニットを持つＢｏｔｔｌｅｎｅｃｋ層としている。

ここで、図８に示す、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを学習するＢｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置の例を用いて、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルの学習について説明する。図８は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置の構成の一例を示す図である。Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置３０ｃは、音声特徴量から、話者や環境を示すインデクスを予測し学習を行う。

図８に示すように、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置３０ｃは、特徴量抽出部３０１ｃ、学習部３０２ｃ及び記憶部３５０ｃを有する。記憶部３５０ｃは、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを記憶する。具体的には、記憶部３５０ｃは、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルのパラメータΩを記憶する。

パラメータΩは、ｉ´´番目の隠れ層に関する重み行列Ｗ´´_ｉ´´及びバイアスベクトルｂ´´_ｉ´´、アクティベーション関数のパラメータ等を含むＢｏｔｔｌｅｎｅｃｋＮＮのパラメータである。ここで、ｉ´´は、隠れ層のインデックスである。これらのパラメータの集合をΩ＝｛Ｗ´´_１´´，ｂ´´_１´´，・・・，Ｗ´´_Ｉ´´，ｂ´´_Ｉ´´｝（Ｉ´´は、隠れ層の総数に１を足した数、すなわち隠れ層と出力層の総数）とする。

特徴量抽出部３０１ｃは、音声認識装置１０ａの特徴量抽出部１０１ａと同様に、学習用音声データを読み込み、学習用音声データから音声特徴量ベクトル系列Ｏを抽出する。学習部３０２ｃは、下記（６）式に示すように、特徴量抽出部３０１ｃによって抽出された音声特徴量ベクトル系列Ｏと話者インデクスＴ_ｒを用いて、目的関数Ｆ_Ωが最大となるようパラメータΩを推定する。

なお、Ｆ_Ωは、例えばCross Entropyである。また、非特許文献３に記載されているように、上記（６）式の最適化問題は、ＳＧＤ（Stochastic Gradient Descent）法で解き、そのためのパラメータに対する微分はError backpropagationアルゴリズムで計算することができる。

図９は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習処理の一例を示すフローチャートである。まず、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置３０ｃは、記憶部３５０ｃから、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを読み込む（ステップＳ３０１ｃ）。次に、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置３０ｃは、学習用音声データを読み込む（ステップＳ３０２ｃ）。次に、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置３０ｃは、話者インデクスを読み込む（ステップＳ３０３ｃ）。次に、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置３０ｃは、学習用音声データから音声特徴量を抽出する（ステップＳ３０４ｃ）。次に、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置３０ｃは、音声特徴量及び話者インデクスを用いて、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを学習する（ステップＳ３０５ｃ）。次に、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置３０ｃは、学習したＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルのパラメータを出力する（ステップＳ３０６ｃ）。

＜Ｂｏｔｔｌｅｎｅｃｋ特徴量を用いた補助特徴量計算装置＞
図１０の例を用いて、Ｂｏｔｔｌｅｎｅｃｋ特徴量を用いた補助特徴量の計算方法を説明する。図１０は、Ｂｏｔｔｌｅｎｅｃｋ特徴量を用いた補助特徴量計算装置の構成の一例を示す図である。図１０に示すように、補助特徴量計算装置４０ｄは、特徴量抽出部４０１ｄ、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部４０２ｄ、平均計算部４０３ｄ及び記憶部４５０ｄを有する。記憶部４５０ｄは、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置３０ｃの記憶部３５０ｃと同様に、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを記憶する。

また、特徴量抽出部４０１ｄは、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデル学習装置３０ｃの特徴量抽出部３０１ｃと同様に、学習用又は認識用の音声データを読み込み、音声データから音声特徴量ベクトル系列Ｏを抽出する。

また、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部４０２ｄは、特徴量抽出部４０１ｄで抽出された音声特徴量を基に、Ｂｏｔｔｌｅｎｅｃｋ特徴量ｕ_ｎを計算する。Ｂｏｔｔｌｅｎｅｃｋ特徴量ｕ_ｎは、図７に示す通り、Ｂｏｔｔｌｅｎｅｃｋ層の出力である。

平均計算部４０３ｄは、下記（７）式により、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部４０２ｄによって計算されたＢｏｔｔｌｅｎｅｃｋ特徴量ｕ_ｎの全フレームの平均を計算する。ただし、Ｎはフレーム数であり、例えば１発話分のフレームの数を表す。そして、平均計算部４０３ｄによって計算された平均が、補助特徴量として出力される。

図１１は、Ｂｏｔｔｌｅｎｅｃｋ特徴量を用いた補助特徴量計算処理の一例を示すフローチャートである。まず、補助特徴量計算装置４０ｄは、記憶部４５０ｄから、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを読み込む（ステップＳ４０１ｄ）。次に、補助特徴量計算装置４０ｄは、音声データを読み込む（ステップＳ４０２ｄ）。次に、補助特徴量計算装置４０ｄは、音声データから音声特徴量を抽出する（ステップＳ４０３ｄ）。次に、補助特徴量計算装置４０ｄは、音声特徴量を用いて、Ｂｏｔｔｌｅｎｅｃｋ特徴量を計算する（ステップＳ４０４ｄ）。次に、補助特徴量計算装置４０ｄは、Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均を計算する（ステップＳ４０５ｄ）。

［第１の実施形態］
第１の実施形態では、補助特徴量の計算を逐次処理とすることで、音声認識における遅延を低減させる。つまり、補助特徴量を計算する際、補助特徴量計算装置４０ｄでは１発話ごとにＢｏｔｔｌｅｎｅｃｋ特徴量の平均を計算していたのに対し、本実施形態では、過去の音声データのみを用いて、下記（８）式のような移動平均を計算する。

ただし、ｖ_ｎは補助特徴量であり、ｕ_ｎ＝ｆ（ｏ_ｎ，Ω）は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルの、Ｂｏｔｔｌｅｎｅｃｋ層の出力である。また、上記（８）式は下記（９）式のように表すことができる。

さらに、忘却因子αを導入する場合、上記（９）式は下記（１０）式のように表すことができる。ただし、αは０＜α≦１の係数である。

このように、上記（８）式〜（１０）式により計算された補助特徴量ｖ_nを利用することで、音声認識時に遅延を低減させることができる。図１２は、第１の実施形態に係る音声認識装置の処理の概要の一例を示す図である。図１２に示すように、音響モデルのＮＮ１５１に、音響条件特徴量計算モデルのＮＮ１５２、及び、ｖ_ｎを出力とする補助特徴量を計算するＮＮ１５３を、直接的又は間接的に接続させることができる。このため、第１の実施形態では、回帰型ＮＮを構築することができ、補助特徴量を計算するＮＮ１５３を、ＮＮ１５１及びＮＮ１５２と同時に最適化することが可能となる。なお、ＮＮ１５３は、Feed forward型のＮＮであってもよい。

ここで、ＮＮ１５３の出力は、下記（１１）式で表される。

ただし、ｏ_ｎは入力特徴量であり、パラメータΩは、ｉ´´番目の隠れ層に関する重み行列Ｗ´´_ｉ´´及びバイアスベクトルｂ´´_ｉ´´、アクティベーション関数のパラメータ等を含むＢｏｔｔｌｅｎｅｃｋＮＮのパラメータである。ここで、ｉ´´は、隠れ層のインデックスである。これらのパラメータの集合をΩ＝｛Ｗ´´_１´´，ｂ´´_１´´，・・・，Ｗ´´_Ｉ´´，ｂ´´_Ｉ´´｝（Ｉ´´は、隠れ層の総数に１を足した数、すなわち隠れ層と出力層の総数）とする。

ここで、ＣＡＤＮＮであるＮＮ１５１のパラメータと、ＢｏｔｔｌｅｎｅｃｋＮＮであるＮＮ１５３のパラメータの同時最適化を実現するため、Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均処理は回帰型ＮＮとして書き換える。その結果、従来の回帰型ＮＮと同様な最適化方法であるBack Propagation Through Time（参考文献２：D. Yu and L. Deng, “Automatic speech recognition：A deep learning approach,”Springer,2015.）によって全体最適化が可能になる。このとき、ＮＮ１５３のパラメータΩの微分値は、下記（１２）式で表される。

なお、上記（１２）式のＦは最適化基準を表す。Ｆは、例えばCross Entropyである。また、δ_{ｉ´´，ｎ}は、逆伝搬した誤差を表し、下記（１３）式によって計算される。

＜Online ＣＡＤＮＮを用いた音声認識装置＞
以降、本実施形態の計算モデルをOnline ＣＡＤＮＮとよぶ。ここで、図１３を用いて、本実施形態の音声認識装置の構成について説明する。図１３は、第１の実施形態に係る音声認識装置の構成の一例を示す図である。図１３は、第１の実施形態に係る音声認識装置に係る音声認識装置の構成の一例を示す図である。図１３に示すように、音声認識装置１０は、特徴量抽出部１１、補助特徴量計算部１２及び音声認識部１３を有する。また、補助特徴量計算部１２には、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部１２１及び平均計算部１２２が含まれる。また、音声認識部１３には、音響条件特徴量計算部１３１、出力確率計算部１３２、単語列検索部１３３、及び記憶部１５０が含まれる。また、記憶部１５０は、音響モデルパラメータΛ及びＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータΩを記憶する。

特徴量抽出部１１は、音声データの各フレームについて、音声データの特徴量である第１の入力特徴量と、音声データの音響条件に関する特徴量である第２の入力特徴量と、を抽出する。また、第１の入力特徴量は、例えば、音声認識装置１０ａの特徴量抽出部１０１ａで抽出される音声特徴量ベクトル系列Ｏと同様である。

なお、第２の入力特徴量は、第１の入力特徴量と同一のものであってもよいし、第１の入力特徴量と異なるものであってもよい。また、第２の入力特徴量は、音声データから抽出されたものであってもよいし、音声データ以外のデータから抽出されたものであってもよい。例えば、特徴量抽出部１１は、音声以外のデータとして、当該音声データに係る音声を収集したマイクロホン等が備えられた移動体の、速度や加速度等から第２の特徴量を抽出することができる。

Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部１２１は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータと第２の入力特徴量とを基に、音声データの各フレームのＢｏｔｔｌｅｎｅｃｋ特徴量を、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを用いて計算する。具体的には、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部１２１は、上記（１１）式で示されるｕ_ｎを計算する。また、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部１２１が計算するＢｏｔｔｌｅｎｅｃｋ特徴量は、ＮＮ１５３のＢｏｔｔｌｅｎｅｃｋ層の出力ということができる。

なお、本実施形態では、ＮＮ１５３が多層ニューラルネットワーク（ＤＮＮ）である場合について説明しているが、ＮＮ１５３は、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）、ＬＳＴＭ（Long Short-Term Memory）、ＢＬＳＴＭ（Bidirectional Long Short-Term Memory）等であってもよい。

平均計算部１２２は、複数のフレームにおけるＢｏｔｔｌｅｎｅｃｋ特徴量の平均である補助特徴量を計算する。具体的には、平均計算部１２２は、上記（９）式又は（１０）で示されるｖ_ｎを計算する。

音響条件特徴量計算部１３１は、音響条件特徴量計算モデルパラメータと補助特徴量とを基に、音声データの音響条件の特徴を示す音響条件特徴量を、音響条件特徴量計算モデルを用いて計算する。また、音響条件特徴量は、例えば、音声認識装置１０ｂの音響条件特徴量計算部１０３ｂで計算される音響条件特徴量と同様である。また、音響条件特徴量計算部１３１が計算する音響条件特徴量は、ＮＮ１５２の出力ということができる。

出力確率計算部１３２は、音響モデルパラメータを、音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する。そして、出力確率計算部１３２は、第１の入力特徴量及び補正後パラメータを基にＨＭＭ状態の出力確率を計算する。出力確率計算部１３２は、音声認識装置１０ｂの出力確率計算部１０４ｂと同様の処理を行う。

単語列検索部１３３は、第１の入力特徴量及び補正後パラメータを基に計算された音響モデルの出力確率と、言語モデルの生成確率と、を用いて、単語列を出力する。単語列検索部１３３は、音声認識装置１０ｂの単語列検索部１０５ｂと同様の処理を行う。

これにより、本実施形態の音声認識装置１０は、フレームごとに順次処理を行うことができるため、遅延を低減させた音声認識を行うことができる。音声認識装置１０は、１フレームごとに処理を行ってもよいし、遅延として認識されない程度の範囲で、複数フレームごとに処理を行うようにしてもよい。以下に、音声認識装置１０が１フレームごとに処理を行う場合の例を説明する。

特徴量抽出部１１は、Ｎ個（ただし、１＜Ｎ）のフレームで構成される音声データの各フレームについて、第１の入力特徴量と第２の入力特徴量とを順次抽出する。そして、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部１２１は、特徴量抽出部１１によって第２の入力特徴量が入力されるたびに、Ｂｏｔｔｌｅｎｅｃｋ特徴量を計算する。

そして、平均計算部１２２は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部１２１によって、ｎ番目（ただし、１＜ｎ≦Ｎ）の第２の入力特徴量についてのＢｏｔｔｌｅｎｅｃｋ特徴量が計算されるたびに、音声データの１番目からｎ番目までのＢｏｔｔｌｅｎｅｃｋ特徴量の平均を補助特徴量として計算する。なお、このとき、平均計算部１２２は、上記（１０）式のように、ｎ−１番目のフレームに関する前記Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均を用いてｎ番目のフレームに関する前記Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均を計算してもよい。

音響条件特徴量計算部１３１は、音響条件特徴量計算モデルパラメータ、及び補助特徴量を基に、ｎ番目のフレームに関する音響条件特徴量を計算する。そして、出力確率計算部１３２は、音響モデルパラメータを、音響条件特徴量を基に補正し、ｎ番目のフレームに関する補正後パラメータを生成する。そして、単語列検索部１３３は、ｎ番目の第１の入力特徴量、及び補正後パラメータを基に計算された音響モデルの出力確率と、言語モデルの生成確率と、を用いて、単語列を出力する。

図１４を用いて、音声認識装置１０を用いた音声認識処理について説明する。図１４は、第１の実施形態に係る音声認識装置の音声認識処理の一例を示すフローチャートである。図１４に示すように、まず、音声認識装置１０は、認識用音声データを読み込む（ステップＳ１０１）。次に、音声認識装置１０は、記憶部１５０からＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルを読み込む（ステップＳ１０２）。次に、音声認識装置１０は、記憶部１５０から音響条件特徴量計算モデルを読み込む（ステップＳ１０３）。次に、音声認識装置１０は、記憶部１５０から音響モデルを読み込む（ステップＳ１０４）。次に、音声認識装置１０は、記憶部１５０から言語モデルを読み込む（ステップＳ１０５）。

そして、特徴量抽出部１１は、認識用音声データから第１の入力特徴量を抽出し、認識用音声データ又はその他のデータから第２の入力特徴量を抽出する（ステップＳ１０６）。次に、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部１２１は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを用いて、第２の入力特徴量を基にＢｏｔｔｌｅｎｅｃｋ特徴量を計算する（ステップＳ１０７）。そして、平均計算部１２２は、Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均を計算する（ステップＳ１０８）。

そして、音響条件特徴量計算部１３１は、Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均を補助特徴量として、音響条件特徴量計算モデルを用いて、音響条件特徴量を計算する（ステップＳ１０９）。次に、出力確率計算部１３２は、第１の入力特徴量と、音響条件特徴量とを基に、音響モデルの出力確率を計算する（ステップＳ１１０）。具体的には、出力確率計算部１３２は、音響条件特徴量を用いて音響モデルパラメータを補正し、補正後の音響モデルを用いてＨＭＭ状態の出力確率を計算する。

次に、単語列検索部１３３は、出力確率及び言語スコアに基づき、言語モデルから単語列を検索する（ステップＳ１１１）。次に、単語列検索部１３３は、検索した単語列を出力する（ステップ１１２）。

次に、図１５を用いて、音声認識装置１０で用いられる各モデルを学習するための音響モデル学習装置について説明する。図１５は、第１の実施形態に係る音響モデル学習装置の構成の一例を示す図である。図１５に示すように、音響モデル学習装置２０は、特徴量抽出部２０１、補助特徴量計算部２０２、音響条件特徴量計算部２０３、出力確率計算部２０４、エラー計算部２０５、音響モデルパラメータ微分値計算部２０６、音響モデルパラメータ更新部２０７、音響条件特徴量計算モデルパラメータ微分値計算部２０８、音響条件特徴量計算モデルパラメータ更新部２０９、収束判定部２１２及び記憶部２５０を有する。

記憶部２５０は、音響モデルを特徴付けるパラメータとして、音響モデルパラメータΛ＝｛Ｗ_１，ｎ，ｂ_１，ｎ|ｎは、１，２，・・・，Ｎなる自然数｝を記憶する。ただし、Ｎは、後述のフレーム毎の音響条件特徴量ベクトルｙ_ｎを計算する対象である一発話の総フレーム数である。

また、記憶部２５０は、音響条件特徴量計算モデルを特徴付けるパラメータとして、音響条件特徴量計算モデルパラメータΘ＝｛Ｗ´_ｉ´，ｂ´_ｉ´，ｉ´，・・・，Ｉ´｝を記憶する。

また、記憶部２５０は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを特徴付けるパラメータとして、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータΩ＝｛Ｗ´´_ｉ´´，ｂ´_ｉ´，ｉ´´，・・・，Ｉ´´｝を記憶する。

特徴量抽出部２０１は、音声データの各フレームについて、音声データの特徴量である第１の入力特徴量と、音声データの音響条件に関する特徴量である第２の入力特徴量と、を抽出する。なお、特徴量抽出部２０１は、音声認識装置１０の特徴量抽出部１１と同様の処理を行う。

また、補助特徴量計算部２０２は、図示しないＢｏｔｔｌｅｎｅｃｋ特徴量計算部２２１及び平均計算部２２２を含む。Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部２２１は、Ｂｏｔｔｌｅｎｅｃｋニューラルネットワークで表されるＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルを特徴付けるＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータと、第２の入力特徴量と、を基に、音声データの各フレームのＢｏｔｔｌｅｎｅｃｋ特徴量を、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを用いて計算する。また、平均計算部２２２は、複数のフレームにおけるＢｏｔｔｌｅｎｅｃｋ特徴量の平均である補助特徴量を計算する。なお、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部２２１及び平均計算部２２２は、それぞれ音声認識装置１０のＢｏｔｔｌｅｎｅｃｋ特徴量計算部１２１及び平均計算部１２２と同様の処理を行う。

音響条件特徴量計算部２０３は、ニューラルネットワークで表される音響条件特徴量計算モデルを特徴付ける音響条件特徴量計算モデルパラメータと、補助特徴量と、を基に、音声データの音響条件の特徴を示す音響条件特徴量を、音響条件特徴量計算モデルを用いて計算する。なお、音響条件特徴量計算部２０３は、音声認識装置１０の音響条件特徴量計算部１３１と同様の処理を行う。

出力確率計算部２０４は、音響条件特徴量計算モデルの出力層が結合されたニューラルネットワークで表される音響モデルを特徴付ける音響モデルパラメータを、音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する。なお、出力確率計算部２０４は、音声認識装置１０の出力確率計算部１３２と同様の処理を行う。

エラー計算部２０５は、出力確率計算部２０４により計算された各ＨＭＭ状態の出力確率と、入力された正解シンボル系列−Ｓ_ｒ（正解ＨＭＭ状態）とに基づき、下記（１４）式によりエラーベクトルδ_Ｉ，ｎを計算する。ただし、ｘ_Ｉ，ｎはＮＮに基づき計算されるネットワークの出力であり、ｄ_ｎは入力正解シンボル系列−Ｓ_ｒから得られる正解ＨＭＭ状態である。

また、音響モデルパラメータ微分値計算部２０６は、エラー計算部２０５によって計算された逆伝搬した誤差δ_Ｉ，ｎと、出力確率計算部２０４により補正された音響モデルパラメータ＾Λに基づき、音響モデルパラメータ微分値を計算する。

音響モデルパラメータ更新部２０７は、補正後パラメータと第１の入力特徴量とを基に音響モデルパラメータを更新する。音響モデルパラメータ更新部２０７は、記憶部２５０から読み込んだ音響モデルパラメータΛと、音響モデルパラメータ微分値計算部２０６により計算された音響モデルパラメータ微分値とに基づき、下記（１５）により音響モデルパラメータΛを更新する。

ただし、上記（１５）式において、重み行列~Ｗ_ｉ，ｋ及びバイアスベクトル~ｂ_ｉ，ｋは、更新した音響モデルパラメータ~Λであり、重み行列−Ｗ_ｉ，ｋ及びバイアスベクトル−ｂ_ｉ，ｋは１つ前のステップで得られた音響モデルパラメータ−Λである。また、上記（１５）式において、ηはＳＧＤの変数であるLearning Rateであり、例えば0.1〜0.0001等の微小値である。ηは、音響モデルパラメータ補正用パラメータである。なお、音響モデルパラメータ微分値は、補正後パラメータと第１の入力特徴量とによって変化するため、音響モデルパラメータ更新部２０７は、補正後パラメータと第１の入力特徴量とを基に音響モデルパラメータを更新することになる。

音響条件特徴量計算モデルパラメータ微分値計算部２０８は、音響モデルパラメータ微分値計算部２０６によって計算された逆伝搬した誤差δ_ｉ，ｎと、音響条件特徴量計算モデルパラメータΘに基づき、音響条件特徴量計算モデルパラメータの微分値を計算する。

音響条件特徴量計算モデルパラメータ更新部２０９は、補正後パラメータと第１の入力特徴量とを基に音響条件特徴量計算モデルパラメータを更新する。音響条件特徴量計算モデルパラメータ更新部２０９は、記憶部２５０から読み込んだ音響条件特徴量計算モデルパラメータΘと、音響条件特徴量計算モデルパラメータ微分値計算部２０８により計算された音響条件特徴量計算モデルパラメータの微分値とに基づき、下記（１６）式により音響条件特徴量計算モデルパラメータΘを更新する。

ただし、上記（１６）式において、重み行列~Ｗ´_ｉ´，ｋ及びバイアスベクトル~ｂ´_ｉ´，ｋは、更新した音響条件特徴量計算モデルパラメータ~Θであり、重み行列−Ｗ´_ｉ´，ｋ及びバイアスベクトル−ｂ´_ｉ´，ｋは、更新前の音響条件特徴量計算モデルパラメータ−Θである。また、上記（１６）式において、η´はＳＧＤの変数であるLearning Rateであり、例えば0.1〜0.0001等の微小値である。η´は、音響条件特徴量計算モデルパラメータ補正用パラメータである。なお、音響条件特徴量計算モデルパラメータ微分値は、補正後パラメータと第１の入力特徴量とによって変化するため、音響条件特徴量計算モデルパラメータ更新部２０９は、補正後パラメータと第１の入力特徴量とを基に音響条件特徴量計算モデルパラメータを更新することになる。

Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ微分値計算部２１０は、音響条件特徴量計算モデルパラメータ微分値計算部２０８によって計算された逆伝搬した誤差δ_{ｉ´´，ｎ}と、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータΩに基づき、音響条件特徴量計算モデルパラメータの微分値を計算する。

Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ更新部２１１は、補正後パラメータと第１の入力特徴量とを基にＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータを更新する。Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ更新部２１１は、記憶部２５０から読み込んだＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータΩと、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ微分値計算部２１０により計算されたＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータの微分値とに基づき、下記（１７）式によりＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータΩを更新する。

ただし、上記（１７）式において、重み行列~Ｗ´´_{ｉ´´，ｋ}及びバイアスベクトル~ｂ´´_{ｉ´´，ｋ}は、更新したＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ~Ωであり、重み行列−Ｗ´´_{ｉ´´，ｋ}及びバイアスベクトル−ｂ´´_{ｉ´´，ｋ}は、更新前のＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ−Θである。また、上記（１７）式において、η´´はＳＧＤの変数であるLearning Rateであり、例えば0.1〜0.0001等の微小値である。η´´は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ補正用パラメータである。なお、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ微分値は、補正後パラメータと第１の入力特徴量とによって変化するため、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ更新部２１１は、補正後パラメータと第１の入力特徴量とを基にＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータを更新することになる。

各パラメータの微分値計算には、例えば、従来のStochastic Gradient Descent（ＳＧＤ）法を用いることもできる（例えば、参考文献２を参照）。また、パラメータ学習の高速化のために用いられるmomentumやL2 Regularizationをあわせて用いることもできる。また、各パラメータの更新には、Back Propagation Through Time（例えば、参考文献２を参照）を用いることができる。

収束判定部２１２は、音響モデルパラメータ~Λ、音響条件特徴量計算モデルパラメータ~Θ及びＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ~Ωについて、学習（推定）が所定の収束条件を満たすか否かを判定する。収束判定部２１２は、所定の収束条件を満たすと判定した場合には、収束条件充足判定時の音響モデルパラメータ~Λ、音響条件特徴量計算モデルパラメータ~Θ及びＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ~Ωを、音響モデル学習装置２０の出力値として出力する。音響モデル学習装置２０から出力された各パラメータ、例えば、記憶部２５０に記憶される。

一方、収束判定部２１２は、所定の収束条件を満たさないと判定した場合には、収束条件充足判定時の音響モデルパラメータ~Λを出力確率計算部２０４に出力し、音響条件特徴量計算モデルパラメータ~Θを音響条件特徴量計算部２０３に出力し、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ~ΩをＢｏｔｔｌｅｎｅｃｋ特徴量計算部２２１に出力する。そして、音響条件特徴量計算部２０３、出力確率計算部２０４、エラー計算部２０５、音響モデルパラメータ微分値計算部２０６、音響モデルパラメータ更新部２０７、音響条件特徴量計算モデルパラメータ微分値計算部２０８、音響条件特徴量計算モデルパラメータ更新部２０９、収束判定部２１２は処理を繰り返す。

このとき、所定の収束条件を満たすと判定した時の音響モデルパラメータ~Λ、音響条件特徴量計算モデルパラメータ~Θ及びＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ~Ωは、さらに記憶部２５０に記憶され、次回の処理における各パラメータの初期値として用いられるようにしてもよい。

なお、収束判定部２１２は、例えば、（１）１つ前のステップで得られた各パラメータと、更新された各パラメータとの差分が閾値以下になった場合、（２）収束条件充足判定の繰り返し回数が所定の回数以上になった場合、（３）学習用音声データの一部を用いて性能を評価した際に、所定の性能指標が所定値以上悪化した場合等のいずれかの所定条件に基づき、収束条件充足判定を行うことができる。

音響モデル学習装置２０は、音声認識装置１０と同様に、フレームごとに順次処理を行うことができる。音響モデル学習装置２０は、１フレームごとに処理を行ってもよいし、複数フレームごとに処理を行うようにしてもよい。

図１６を用いて、音響モデル学習装置２０を用いた学習処理について説明する。図１６は、第１の実施形態に係る音響モデル学習装置の学習処理の一例を示すフローチャートである。図１６に示すように、まず、音響モデル学習装置２０は、学習用音声データを読み込む（ステップＳ２０１）。次に、音響モデル学習装置２０は、記憶部２５０からＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルを読み込む（ステップＳ２０２）。次に、音響モデル学習装置２０は、記憶部２５０から音響条件特徴量計算モデルを読み込む（ステップＳ２０３）。次に、音響モデル学習装置２０は、記憶部２５０から音響モデルを読み込む（ステップＳ２０４）。次に、音響モデル学習装置２０は、正解シンボル系列−Ｓ_ｒを読み込む（ステップＳ２０５）。

そして、特徴量抽出部２０１は、学習用音声データから第１の入力特徴量を抽出し、学習用音声データ又はその他のデータから第２の入力特徴量を抽出する（ステップＳ２０６）。次に、補助特徴量計算部２０２は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを用いて、第２の入力特徴量を基にＢｏｔｔｌｅｎｅｃｋ特徴量を計算し、さらにＢｏｔｔｌｅｎｅｃｋ特徴量の平均を計算することで補助特徴量を計算する（ステップＳ２０７）。次に、音響条件特徴量計算部２０３は、音響条件特徴量計算モデルを用いて、補助特徴量から音響条件特徴量を計算する（ステップＳ２０８）。

そして、出力確率計算部２０４は、第１の入力特徴量と、音響条件特徴量とを基に、音響モデルパラメータを補正し（ステップＳ２０９）、音響モデルの出力確率を計算する（ステップＳ２１０）。具体的には、出力確率計算部１３２は、音響条件特徴量を用いて音響モデルパラメータを補正し、補正後の音響モデルを用いてＨＭＭ状態の出力確率を計算する。

次に、エラー計算部２０５は、各ＨＭＭ状態の出力確率と、入力された正解シンボル系列−Ｓ_ｒとに基づき、エラーベクトルδ_Ｉ，ｎを計算する（ステップＳ２１１）。次に、音響モデルパラメータ微分値計算部２０６は、逆伝搬したエラーと補正された音響モデルパラメータとに基づき、音響モデルパラメータ微分値を計算する（ステップＳ２１２）。また、音響条件特徴量計算モデルパラメータ微分値計算部２０８は、逆伝搬したエラーと音響条件特徴量計算モデルパラメータとに基づき、音響条件特徴量計算モデルパラメータ微分値を計算する（ステップＳ２１３）。また、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ微分値計算部２１０は、逆伝搬したエラーとＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータとに基づき、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ微分値を計算する（ステップＳ２１４）。

次に、音響モデルパラメータ更新部２０７は、音響モデルパラメータ微分値を用いて音響モデルパラメータを更新する（ステップＳ２１５）。また、音響条件特徴量計算モデルパラメータ更新部２０９は、音響条件特徴量計算モデルパラメータ微分値を用いて音響条件特徴量計算モデルパラメータを更新する（ステップＳ２１６）。また、音響条件特徴量計算モデルパラメータ更新部２０９は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ微分値を用いてＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータを更新する（ステップＳ２１７）。

次に、収束判定部２１２は、更新した各パラメータの学習が所定の収束条件を満たすか否かを判定する（ステップＳ２１８）。収束判定部２１２が所定の収束条件が満たされていないと判定した場合、（ステップＳ２１８Ｎｏ）、音響モデル学習装置２０は、ステップＳ２０７、Ｓ２０８、Ｓ２０９へ処理を移す。

一方、収束判定部２１２が所定の収束条件が満たされたと判定した場合、（ステップＳ２１８Ｙｅｓ）、音響モデル学習装置２０は、更新した各パラメータを出力する（ステップＳ２１９）。

（その他の実施形態）
実施形態では、ＤＮＮ（ＣＡＤＮＮ）に基づく音響モデルを音響条件特徴量計算モデルと結合させる場合について説明したが、ＤＮＮに限らず、ＣＮＮ、ＲＮＮ、ＬＳＴＭ、ＢＬＳＴＭのニューラルネットワーク等、種々のニューラルネットワークに基づく音響モデルを音響条件特徴量計算モデルと結合させ、同様の定式化を行うことが可能である。また、本発明における音響モデルは、ＨＭＭに基づくものに限られずニューラルネットワークを用いて出力確率を計算する任意の音響モデルとすることができる。例えば、本発明における音響モデルは、ＣＴＣ（Connectionist Temporal Classification）やencoder-decoderに基づくモデルであってもよい。

（実施形態による効果）
本実施形態の音声認識装置１０の特徴量抽出部１１は、音声データの各フレームについて、音声データの特徴量である第１の入力特徴量と、音声データの音響条件に関する特徴量である第２の入力特徴量と、を抽出する。また、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部１２１は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータと第２の入力特徴量とを基に、音声データの各フレームのＢｏｔｔｌｅｎｅｃｋ特徴量を、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを用いて計算する。また、平均計算部１２２は、複数のフレームにおけるＢｏｔｔｌｅｎｅｃｋ特徴量の平均である補助特徴量を計算する。また、音響条件特徴量計算部１３１は、音響条件特徴量計算モデルパラメータと補助特徴量とを基に、音声データの音響条件の特徴を示す音響条件特徴量を、音響条件特徴量計算モデルを用いて計算する。また、出力確率計算部１３２は、音響モデルパラメータを、音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する。また、単語列検索部１３３は、第１の入力特徴量と及び補正後パラメータを基に計算された音響モデルの出力確率と、言語モデルの生成確率と、を用いて、単語列を出力する。

これにより、任意の数のフレーム単位での音声認識を行うことができるようになり、例えば１発話分のフレーム単位で音声認識を行う場合に比べ、遅延を低減させることが可能となる。

また、特徴量抽出部１１は、Ｎ個（ただし、１＜Ｎ）のフレームで構成される音声データの各フレームについて、第１の入力特徴量と第２の入力特徴量とを順次抽出することができる。このとき、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部１２１は、特徴量抽出部１１によって第２の入力特徴量が入力されるたびに、Ｂｏｔｔｌｅｎｅｃｋ特徴量を計算する。また、平均計算部１２２は、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部１２１によって、ｎ番目（ただし、１＜ｎ≦Ｎ）の第２の入力特徴量についてのＢｏｔｔｌｅｎｅｃｋ特徴量が計算されるたびに、音声データの１番目からｎ番目までのＢｏｔｔｌｅｎｅｃｋ特徴量の平均を補助特徴量として計算する。また、音響条件特徴量計算部１３１は、音響条件特徴量計算モデルパラメータ、及び補助特徴量を基に、ｎ番目のフレームに関する音響条件特徴量を計算する。また、出力確率計算部１３２は、音響モデルパラメータを、音響条件特徴量を基に補正し、ｎ番目のフレームに関する補正後パラメータを生成する。また、単語列検索部１３３は、ｎ番目の第１の入力特徴量、及び補正後パラメータを基に計算された音響モデルの出力確率と、言語モデルの生成確率と、を用いて、単語列を出力する。

これにより、処理の待ち時間は１フレーム分となり、遅延をほぼ発生しないようにすることができる。

また、平均計算部１２２は、ｎ−１番目のフレームに関する前記Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均を用いてｎ番目のフレームに関するＢｏｔｔｌｅｎｅｃｋ特徴量の平均を計算することができる。

これにより、フレームｎ個分のＢｏｔｔｌｅｎｅｃｋ特徴量を用いて平均を計算する場合と比べて、計算量を削減することが可能となる。

本実施形態の音響モデル学習装置２０の特徴量抽出部２０１は、音声データの各フレームについて、音声データの特徴量である第１の入力特徴量と、音声データの音響条件に関する特徴量である第２の入力特徴量と、を抽出する。また、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部２２１は、Ｂｏｔｔｌｅｎｅｃｋニューラルネットワークで表されるＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルを特徴付けるＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータと、第２の入力特徴量と、を基に、音声データの各フレームのＢｏｔｔｌｅｎｅｃｋ特徴量を、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを用いて計算する。また、平均計算部２２２は、複数のフレームにおけるＢｏｔｔｌｅｎｅｃｋ特徴量の平均である補助特徴量を計算する。また、音響条件特徴量計算部２０３は、ニューラルネットワークで表される音響条件特徴量計算モデルを特徴付ける音響条件特徴量計算モデルパラメータと、補助特徴量と、を基に、音声データの音響条件の特徴を示す音響条件特徴量を、音響条件特徴量計算モデルを用いて計算する。また、出力確率計算部２０４は、音響条件特徴量計算モデルの出力層が結合されたニューラルネットワークで表される音響モデルを特徴付ける音響モデルパラメータを、音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する。また、音響モデルパラメータ更新部２０７は、補正後パラメータと第１の入力特徴量とを基に音響モデルパラメータを更新する。また、音響条件特徴量計算モデルパラメータ更新部２０９は、補正後パラメータと第１の入力特徴量とを基に音響条件特徴量計算モデルパラメータを更新する。また、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ更新部２１１は、補正後パラメータと第１の入力特徴量とを基にＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータを更新する。

表１に、音声認識タスクＣＨｉＭＥ３において、各手法を用い、音響モデルを発話ごとに発話者に対して教師なし適応させた時の結果（単語誤り率）を表している。従来法（ＣＡＤＮＮ）では、音響条件特徴量の計算のために、１発話分（数秒）の遅延が生じる。一方、本発明（Online ＣＡＤＮＮ）では、遅延はほぼ発生しない。このため、本発明は、遅延を低減したうえで、高い認識性能を発揮できる。

（音響モデル学習装置及び音声認識装置の装置構成について）
音声認識装置１０及び音響モデル学習装置２０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、音声認識装置１０及び音響モデル学習装置２０の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。例えば、Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部１２１及び平均計算部１２２は、一体の機能部であってもよい。

また、例えば、音声認識装置１０及び音響モデル学習装置２０は、一体の装置であってもよい。音声認識装置１０及び音響モデル学習装置２０が一体の装置である場合には、音声認識装置１０及び音響モデル学習装置２０において同様の機能を有する各機能部は１つに統合されてもよい。

また、音声認識装置１０及び音響モデル学習装置２０における各処理は図示のものに限られず、処理順序の入れ替え、及び処理の統合や分離をすることができる。例えば、実施形態におけるステップＳ２１２〜Ｓ２１７は、Ｓ２１２、Ｓ２１５、Ｓ２１３、Ｓ２１６、Ｓ２１４、Ｓ２１７の順で実行されてもよい。

また、音声認識装置１０及び音響モデル学習装置２０において行われる各処理は、全部又は任意の一部が、ＣＰＵ等の処理装置及び処理装置により解析実行されるプログラムにて実現されてもよい。音声認識装置１０及び音響モデル学習装置２０において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。また、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

（プログラム）
一実施形態として、音響モデル学習装置及び音声認識装置は、パッケージソフトウェアやオンラインソフトウェアとして上記の音響モデル学習又は音声認識を実行する音響モデル学習プログラム又は音声認識プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音響モデル学習プログラム又は音声認識プログラムを情報処理装置に実行させることにより、情報処理装置を音響モデル学習装置又は音声認識装置として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、音響モデル学習装置及び音声認識装置は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の音響モデル学習又は音声認識に関するサービスを提供するサーバ装置として実装することもできる。例えば、音響モデル学習装置は、学習用音声データを入力とし、音響条件の計算モデルを出力とする音響モデル学習サービスを提供するサーバ装置として実装される。また、例えば、音声認識装置は、認識用音声データを入力とし、認識結果の単語列を出力とする音声認識サービスを提供するサーバ装置として実装される。これらの場合、音響モデル学習装置及び音声認識装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の音響モデル学習又は音声認識に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図１７は、プログラムが実行されることにより、実施形態に係る音声認識装置及び音響モデル学習装置が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、音響モデル学習装置又は音声認識装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、音響モデル学習装置又は音声認識装置における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０音声認識装置
１１、２０１特徴量抽出部
１２、２０２補助特徴量計算部
１３音声認識部
２０音響モデル学習装置
１２１Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部
１２２平均計算部
１３１、２０３音響条件特徴量計算部
１３２、２０４出力確率計算部
１３３単語列検索部
１５０、２５０記憶部
２０５エラー計算部
２０６音響モデルパラメータ微分値計算部
２０７音響モデルパラメータ更新部
２０８音響条件特徴量計算モデルパラメータ微分値計算部
２０９音響条件特徴量計算モデルパラメータ更新部
２１０Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ微分値計算部
２１１Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ更新部
２１２収束判定部

Claims

音声データの各フレームについて、前記音声データの特徴量である第１の入力特徴量と、前記音声データの音響条件に関する特徴量である第２の入力特徴量と、を抽出する特徴量抽出部と、
Ｂｏｔｔｌｅｎｅｃｋニューラルネットワークで表されるＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルを特徴付けるＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータと、前記第２の入力特徴量と、を基に、前記音声データの各フレームのＢｏｔｔｌｅｎｅｃｋ特徴量を、前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを用いて計算するＢｏｔｔｌｅｎｅｃｋ特徴量計算部と、
複数のフレームにおける前記Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均である補助特徴量を計算する平均計算部と、
ニューラルネットワークで表される音響条件特徴量計算モデルを特徴付ける音響条件特徴量計算モデルパラメータと、前記補助特徴量と、を基に、前記音声データの音響条件の特徴を示す音響条件特徴量を、前記音響条件特徴量計算モデルを用いて計算する音響条件特徴量計算部と、
前記音響条件特徴量計算モデルの出力層が結合されたニューラルネットワークで表される音響モデルを特徴付ける音響モデルパラメータを、前記音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する音響モデルパラメータ補正部と、
前記補正後パラメータと前記第１の入力特徴量とを基に前記音響モデルパラメータを更新する音響モデルパラメータ更新部と、
前記補正後パラメータと前記第１の入力特徴量とを基に前記音響条件特徴量計算モデルパラメータを更新する音響条件特徴量計算モデルパラメータ更新部と、
前記補正後パラメータと前記第１の入力特徴量とを基に前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータを更新するＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ更新部と、
を含んだことを特徴とする音響モデル学習装置。
請求項１に記載の音響モデル学習装置により更新された前記音響モデルパラメータ、前記音響条件特徴量計算モデルパラメータ及び前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータと、単語列の生成確率をモデル化する言語モデルと、を用いて音声認識を行う音声認識装置であって、
音声データの各フレームについて、音声データの特徴量である第１の入力特徴量と、前記音声データの音響条件に関する特徴量である第２の入力特徴量と、を抽出する特徴量抽出部と、
前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータと前記第２の入力特徴量とを基に、前記音声データの各フレームのＢｏｔｔｌｅｎｅｃｋ特徴量を、前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを用いて計算するＢｏｔｔｌｅｎｅｃｋ特徴量計算部と、
複数のフレームにおける前記Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均である補助特徴量を計算する平均計算部と、
前記音響条件特徴量計算モデルパラメータと前記補助特徴量とを基に、前記音声データの音響条件の特徴を示す音響条件特徴量を、前記音響条件特徴量計算モデルを用いて計算する音響条件特徴量計算部と、
前記音響モデルパラメータを、前記音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する音響モデルパラメータ補正部と、
前記第１の入力特徴量と及び前記補正後パラメータを基に計算された前記音響モデルの出力確率と、前記言語モデルの生成確率と、を用いて、単語列を出力する単語列検索部と、
を含んだことを特徴とする音声認識装置。
前記特徴量抽出部は、Ｎ個（ただし、１＜Ｎ）のフレームで構成される音声データの各フレームについて、前記第１の入力特徴量と前記第２の入力特徴量とを順次抽出し、
前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部は、前記特徴量抽出部によって前記第２の入力特徴量が入力されるたびに、前記Ｂｏｔｔｌｅｎｅｃｋ特徴量を計算し、
前記平均計算部は、前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算部によって、ｎ番目（ただし、１＜ｎ≦Ｎ）の前記第２の入力特徴量についての前記Ｂｏｔｔｌｅｎｅｃｋ特徴量が計算されるたびに、前記音声データの１番目からｎ番目までの前記Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均を前記補助特徴量として計算し、
前記音響条件特徴量計算部は、前記音響条件特徴量計算モデルパラメータ、及び前記補助特徴量を基に、ｎ番目のフレームに関する前記音響条件特徴量を計算し、
前記音響モデルパラメータ補正部は、前記音響モデルパラメータを、前記音響条件特徴量を基に補正し、ｎ番目のフレームに関する前記補正後パラメータを生成し、
前記単語列検索部は、ｎ番目の前記第１の入力特徴量、及び前記補正後パラメータを基に計算された前記音響モデルの出力確率と、前記言語モデルの生成確率と、を用いて、単語列を出力することを特徴とする請求項２に記載の音声認識装置。
前記平均計算部は、ｎ−１番目のフレームに関する前記Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均を用いてｎ番目のフレームに関する前記Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均を計算することを特徴とする請求項３に記載の音声認識装置。
音響モデル学習装置で実行される音響モデル学習方法であって、
音声データの各フレームについて、前記音声データの特徴量である第１の入力特徴量と、前記音声データの音響条件に関する特徴量である第２の入力特徴量と、を抽出する特徴量抽出工程と、
Ｂｏｔｔｌｅｎｅｃｋニューラルネットワークで表されるＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルを特徴付けるＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータと、前記第２の入力特徴量と、を基に、前記音声データの各フレームのＢｏｔｔｌｅｎｅｃｋ特徴量を、前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを用いて計算するＢｏｔｔｌｅｎｅｃｋ特徴量計算工程と、
複数のフレームにおける前記Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均である補助特徴量を計算する平均計算工程と、
ニューラルネットワークで表される音響条件特徴量計算モデルを特徴付ける音響条件特徴量計算モデルパラメータと、前記補助特徴量と、を基に、前記音声データの音響条件の特徴を示す音響条件特徴量を、前記音響条件特徴量計算モデルを用いて計算する音響条件特徴量計算工程と、
前記音響条件特徴量計算モデルの出力層が結合されたニューラルネットワークで表される音響モデルを特徴付ける音響モデルパラメータを、前記音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する音響モデルパラメータ補正工程と、
前記補正後パラメータと前記第１の入力特徴量とを基に前記音響モデルパラメータを更新する音響モデルパラメータ更新工程と、
前記補正後パラメータと前記第１の入力特徴量とを基に前記音響条件特徴量計算モデルパラメータを更新する音響条件特徴量計算モデルパラメータ更新工程と、
前記補正後パラメータと前記第１の入力特徴量とを基に前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータを更新するＢｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータ更新工程と、
を含んだことを特徴とする音響モデル学習方法。
音声認識装置で実行される音声認識方法であって、請求項５に記載の音響モデル学習方法により更新された前記音響モデルパラメータ、前記音響条件特徴量計算モデルパラメータ及び前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータと、単語列の生成確率をモデル化する言語モデルと、を用いて音声認識を行う音声認識方法であって、
音声データの各フレームについて、音声データの特徴量である第１の入力特徴量と、前記音声データの音響条件に関する特徴量である第２の入力特徴量と、を抽出する特徴量抽出工程と、
前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルパラメータと前記第２の入力特徴量とを基に、前記音声データの各フレームのＢｏｔｔｌｅｎｅｃｋ特徴量を、前記Ｂｏｔｔｌｅｎｅｃｋ特徴量計算モデルを用いて計算するＢｏｔｔｌｅｎｅｃｋ特徴量計算工程と、
複数のフレームにおける前記Ｂｏｔｔｌｅｎｅｃｋ特徴量の平均である補助特徴量を計算する平均計算工程と、
前記音響条件特徴量計算モデルパラメータと前記補助特徴量とを基に、前記音声データの音響条件の特徴を示す音響条件特徴量を、前記音響条件特徴量計算モデルを用いて計算する音響条件特徴量計算工程と、
前記音響モデルパラメータを、前記音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する音響モデルパラメータ補正工程と、
前記第１の入力特徴量と及び前記補正後パラメータを基に計算された前記音響モデルの出力確率と、前記言語モデルの生成確率と、を用いて、単語列を出力する単語列検索工程と、
を含んだことを特徴とする音声認識方法。
請求項１に記載の音響モデル学習装置としてコンピュータを機能させる音響モデル学習プログラム。
請求項２から４のいずれか１項に記載の音声認識装置としてコンピュータを機能させる音声認識プログラム。