JP6506074B2

JP6506074B2 - 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム

Info

Publication number: JP6506074B2
Application number: JP2015068915A
Authority: JP
Inventors: マークデルクロア; 慶介木下; 堀　貴明; 貴明堀; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2019-04-24
Anticipated expiration: 2035-03-30
Also published as: JP2016188944A

Description

本発明は、音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラムに関する。

従来から、学習用の音声データを隠れマルコフモデル（以下、ＨＭＭ（Hidden Markov Model）と称す）に基づき学習した音響モデルを用いて、認識用音声データから話者の音声を認識する技術がある（例えば非特許文献１参照）。

認識用音声データは、周囲の雑音や話者の多様性等のため、学習用の音声データと特徴が一致しないことが多い。つまり、学習用の音声データ及び認識用音声データそれぞれが置かれる周囲の雑音を含む音響環境や話者毎の特性である話者特性等の音響条件の不一致は、音声の認識精度を低下させる。このため、音声認識技術は、音響条件に対してロバストであることが求められる。ロバストな音声認識技術として、認識用音声データが音響モデルに適合するように、適応データを用いて音響モデルのパラメータを再推定により学習する技術が知られている（例えば非特許文献２参照）。また、パラメータの再推定方法としては、誤差逆伝搬法等が広く用いられている（例えば非特許文献３参照）。

G. Hinton et al., "Deep Neural Networks for Acoustic Modeling in Speech Recognition, "The shared views of four research groups," IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29，No. 6, pp. 82−97, 2012. H. Liao, "SPEAKER ADAPTATION OF CONTEXT DEPENDENT DEEP NEURAL NETWORKS," in Proc. of ICASSP’13, 2013, pp. 7947−7951. S. Haykin, "NEURAL NETWORKS: A COMPREHENSIVE FOUNDATION," Prentice Hall PTR, Upper Saddle River, NJ, USA, 2nd edition, 1999.

しかしながら、上記技術は、音響モデルの学習用の音声データが置かれる音響条件と、認識用音声データが置かれる音響条件が必ずしも同一ではないため、音響モデルと音声認識時の音声特徴量にミスマッチがあり、結果、音声認識の精度が低下する。

音声認識の精度の低下を抑制するため、例えば、認識用音声データと同様な音響条件の適応データを用いて音響モデルのパラメータを適応させる。しかし、大量の音響モデルのパラメータを精度よく推定するために、膨大な音声データ量が必要になる。また、パラメータ推定のために用いる音声には，その音声を表現するラベル（例えば話者ＩＤやトランスクリプション等）が必要になる。そのため、観測した認識用音声データを音響モデルのパラメータを適応させる際に膨大な計算が必要になり、高速なパラメータ適応ができないという問題がある。

そこで、本願が開示する実施形態の一例は、音声認識の際に、音響モデルのパラメータ適応を高速に実現することを目的とする。

本願の実施形態の一例において、音響モデル学習装置は、入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習するものであり、ニューラルネットワークのパラメータの少なくとも一部を与えられた音響条件に対応する音響条件特徴量に基づき補正する音響モデルパラメータ補正部を備える。そして、音響モデル学習装置は、音響モデルパラメータ補正部により少なくとも一部のパラメータが補正されたニューラルネットワークにより学習用音声データの各々を変換して得た学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、ニューラルネットワークの各パラメータを更新する。

また、本願の実施形態の一例において、音声認識装置は、音声認識対象の認識用音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第１の変換部と、認識用音声データと対応するシンボル系列を特定する情報をもとに言語モデルを検索し、音声認識結果候補である候補単語列を出力する第２の変換部と、入力された音響条件特徴量に基づき、ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正部と、を含む。そして、第１の変換部は、音響モデルパラメータ補正部により少なくとも一部のパラメータが補正されたニューラルネットワークにより、音声認識対象の認識用音声データをシンボル系列を特定する情報に変換する。

本願が開示する実施形態の一例によれば、例えば、音声認識の際に、音響モデルのパラメータ適応を高速に実現することができる。

図１は、実施形態に係るＣＡＤＮＮの概要の一例を示す図である。図２は、実施形態に係る音響モデル学習装置の構成の一例を示す図である。図３は、実施形態に係る音響モデル学習処理の一例を示すフローチャートである。図４は、実施形態に係る音声認識装置の構成の一例を示す図である。図５は、実施形態に係る音声認識処理の一例を示すフローチャートである。図６は、プログラムが実行されることにより、実施形態に係る音響モデル学習装置及び音声認識装置が実現されるコンピュータの一例を示す図である。図７は、第１の従来技術に係る音声認識装置の構成の一例を示す図である。図８は、第１の従来技術の処理の概要の一例を示す図である。図９は、第１の従来技術に係る音声認識処理の一例を示すフローチャートである。図１０は、第２の従来技術に係る音声認識装置の構成の一例を示す図である。図１１は、第２の従来技術に係る音声認識処理の一例を示すフローチャートである。図１２は、第３の従来技術に係る音響モデル再学習装置の構成の一例を示す図である。図１３は、第３の従来技術に係る音声モデル再学習処理の一例を示すフローチャートである。

以下、本願が開示する音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラムの実施形態の一例の説明に先立ち、実施形態の一例が前提とする従来技術を説明する。その後、本願が開示する音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラムの実施形態の一例を説明する。

なお、以下では、例えばＡがベクトルである場合には“ベクトルＡ”と表記し、例えばＡがスカラーである場合には単に“Ａ”と表記する。また、例えばＡが集合である場合には、“集合Ａ”と表記する。また、例えばベクトルＡの関数ｆは、ｆ（ベクトルＡ）と表記する。また、ベクトル又はスカラーであるＡに対し、“＾Ａ”と記載する場合は「“Ａ”の直上に“＾”が記された記号」と同等であるとする。また、ベクトル又はスカラーであるＡに対し、“−Ａ”と記載する場合は「“Ａ”の直上に“−” が記された記号」と同等であるとする。また、ベクトル又はスカラーであるＡに対し、Ａ^TはＡの転置を表す。

＜第１の従来技術＞
第１の従来技術は、例えば文献１「G. Hinton et al., “Deep Neural Networks for Acoustic Modeling in Speech Recognition, “The shared views of four research groups,” IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29，No. 6, pp. 82−97, 2012.」に示される音声認識技術である。図７は、第１の従来技術に係る音声認識装置の構成の一例を示す図である。図７に示すように、第１の従来技術に係る音声認識装置２００Ａは、特徴量抽出部２１０Ａ、ＨＭＭ状態の出力確率計算部２２０Ａ、単語列検索部２３０Ａを有する。また、音声認識装置２００Ａは、記憶部３００Ａと接続される。

記憶部３００Ａは、音響モデル及び言語モデルを予め記憶する。音響モデルは、音声の音響的特徴をモデル化したものである。言語モデルは、音素や単語といった多数のシンボル系列から構成されている。一般的に、音声認識用の音響モデルは、各音素をLeft to rightのＨＭＭであり、ニューラルネットワーク（以下、ＮＮ（Neural Network）と称す）で計算されたＨＭＭの各状態の出力確率分布を含む。

すなわち、記憶部３００Ａに記憶されている音響モデルは、音素等の各シンボルにおけるＨＭＭの状態遷移確率、ｉ番目の隠れ層に関する重み行列Ｗ_i及びバイアスベクトルｂ_i、アクティベーション関数のパラメータ等を含むＮＮのパラメータである。ここで、ｉは、隠れ層のインデックスである。これらを音響モデルパラメータと称し、その集合をΛ＝｛Ｗ₁，ｂ₁，・・・，Ｗ_I，ｂ_I｝（Ｉは、隠れ層の総数）とする。言語モデルは、音素や単語といった多数のシンボル系列Ｓ_jから構成されており、Ｐ（Ｓ_j）は言語モデルによって得られるシンボル系列Ｓ_jの確率（言語確率）である。なお、シンボル系列Ｓ_jとは、音声認識結果となりうる、音素や単語等からなるシンボルの系列である。

特徴量抽出部２１０Ａは、認識用音声データを読み込み、認識用音声データから音声の特徴量を抽出する。特徴量としては、例えば、ＭＦＣＣ（Mel Frequency Cepstral Coefficient）、ＬＭＦＣ（log Mel Filterbank coefficients）、ΔＭＦＣＣ（ＭＦＣＣの１回微分）、ΔΔＭＦＣＣ（ＭＦＣＣの２回微分）、対数パワー、Δ対数パワー（対数パワーの１回微分）等がある。

そして、特徴量抽出部２１０Ａは、フレーム毎に当該フレーム及びその前後５フレーム程度の連続する各フレームから得られる特徴量を連結し、１０〜２０００次元程度の時系列特徴量ベクトルｏ_n（ｎは、１，・・・，Ｎの自然数）を生成する。そして、特徴量抽出部２１０Ａは、下記（１）式のように、全てのフレームについての時系列特徴量ベクトルｏ_nをまとめた特徴量ベクトルＯを生成する。特徴量ベクトルＯは、１からＮフレーム目までのＤ次元ベクトルで表現されるデータである。例えば、フレーム長は、３０ｍｓ程度、フレームシフト長は、１０ｍｓ程度である。

ＨＭＭ状態の出力確率計算部２２０Ａは、記憶部３００Ａから音響モデルパラメータΛを読み込み、読み込んだ音響モデルパラメータΛに基づき、特徴量ベクトルＯの各フレームｎに対する音響モデルの各ＨＭＭ状態の出力確率を計算する。図８は、第１の従来技術の処理の概要の一例を示す図である。図８に示すように、従来技術の音声認識に音響モデルを表すニューラルネットワークは、入力と出力との間に、１以上の隠れ層を有する。ニューラルネットワークの入力は、時系列特徴量ベクトルｏ_nであり、最前段の隠れ層へ入力される。ニューラルネットワークの出力は、最後段の隠れ層によるＨＭＭ状態の出力確率である。ＨＭＭ状態の出力確率計算部２２０Ａが行う各隠れ層における計算は、線形変換による処理及びアクティベーション関数による処理の２つの処理を含む。各隠れ層における線形変換は、下記（２）式のようになる。

ただし、上記（２）式において、ベクトルｚ_i,nは、ｉ番目（ｉは自然数であり、ｉ＝１，２，・・・，Ｉ（ただしＩは隠れ層の総数））の隠れ層における線形変換の出力であり、ベクトルｘ_i-1,nは（ｉ−１）番目の隠れ層の出力である。なお、ベクトルｘ_0,nは、ニューラルネットワークの入力である時系列特徴量ベクトルｏ_nである。また、アクティベーション関数の出力は、下記（３）式のようになる。

ただし、上記（３）式において、ベクトルｘ_i,nはｉ番目の隠れ層の出力であり、σは、例えばsigmoid関数等のアクティベーション関数であり、σ(ベクトルｚ_i,n)ベクトルの要素毎に計算される。すなわち、ＨＭＭ状態の出力確率計算部２２０Ａは、ｉ番目の隠れ層において、前段の隠れ層である（ｉ−１）番目の隠れ層の出力であるベクトルｘ_i-1,nに対し上記（２）式による線形変換を行った結果であるベクトルｚ_i,nに対して、上記（２）式による処理を行った結果であるベクトルｘ_i,nを出力する。そして、ＨＭＭ状態の出力確率計算部２２０Ａは、各ベクトルｘ_i,n（ｉ＝１，２，・・・，Ｉ）に基づき、特徴量ベクトルＯの各フレームｎに対する音響モデルの各ＨＭＭ状態の出力確率を計算する。

単語列検索部２３０Ａは、ＨＭＭ状態の出力確率計算部２２０Ａにより計算された各ＨＭＭ状態の出力確率に基づき、Ｊ個（Ｊは自然数）の対立候補シンボル系列Ｓ_jを生成し、対立候補シンボル系列Ｓ_j毎に、音響モデルとの適合尤度を示す音響スコアを計算する。シンボルは、例えば、音素である。ここで、ｊ＝１，２，…，Ｊである。次に、単語列検索部２３０Ａは、記憶部３００Ａから読み込んだ言語モデルに基づき、対立候補シンボル系列Ｓ_j毎に、言語モデルとの適合尤度を示す言語スコアを計算する。そして、単語列検索部２３０Ａは、計算した音響スコア及び言語スコアに基づき、Ｊ個の対立候補シンボル系列Ｓ_jの中から、認識用音声データに対応する単語列として最も確からしい、つまり、音響スコア及び言語スコアを統合したスコアが最も高い対立候補シンボル系列を、記憶部３００Ａに記憶される言語モデルから検索し、検索した対立候補シンボル系列を、認識結果である単語列＾Ｓとして出力する。

図９は、第１の従来技術に係る音声認識処理の一例を示すフローチャートである。先ず、音声認識装置２００Ａは、記憶部３００Ａから、音響モデルパラメータΛを読み込む（ステップＳ２１０Ａ）。次に、音声認識装置２００Ａは、記憶部３００Ａから、言語モデルを読み込む（ステップＳ２２０Ａ）。次に、音声認識装置２００Ａは、認識用音声データを読み込む（ステップＳ２３０Ａ）。次に、音声認識装置２００Ａは、読み込んだ認識用音声データから音声の特徴量を抽出し、特徴量ベクトルＯを生成する（ステップＳ２４０Ａ）。次に、音声認識装置２００Ａは、読み込んだ音響モデルパラメータΛに基づき、特徴量ベクトルＯの各フレームｎに対する音響モデルの各ＨＭＭ状態の出力確率を計算する（ステップＳ２５０Ａ）。次に、音声認識装置２００Ａは、ＨＭＭ状態の出力確率計算部２２０Ａにより計算された各ＨＭＭ状態の出力確率に基づき、対立候補シンボル系列Ｓ_jを生成し、対立候補シンボル系列Ｓ_j毎の音響スコア及び言語スコアを統合したスコアが最も高い対立候補シンボル系列を、記憶部３００Ａに記憶される言語モデルから検索する（ステップＳ２６０Ａ）。次に、音声認識装置２００Ａは、ステップＳ２６０Ａの検索結果を、認識結果である単語列＾Ｓとして出力する（ステップＳ２７０Ａ）。

＜第２の従来技術＞
ここで、一般的に、音響モデルの学習時と認識時とでは、音響環境や話者特性等の音響条件が異なる。そのため、第１の従来技術の音声認識は、音響モデルと認識時の特徴量とが合致せず、十分な認識性能が得られない。そこで、音響モデルを認識時の特徴量と合致させるため、音響モデルのパラメータを補正（再推定）（以下、音響モデル補正と称す）して音声認識を行う第２の従来技術がある。第２の従来技術は、例えば文献２「H. Liao, “SPEAKER ADAPTATION OF CONTEXT DEPENDENT DEEP NEURAL NETWORKS,” in Proc. of ICASSP’13, 2013, pp. 7947−7951.」に示される音声認識技術である。以下、音響モデル補正を行う第２の従来技術について、第１の従来技術との差異部分を説明する。

図１０は、第２の従来技術に係る音声認識装置の構成の一例を示す図である。音響モデル補正を行う第２の従来技術に係る音声認識装置２００Ｂは、特徴量抽出部２１０Ｂ、ＨＭＭ状態の出力確率計算部２２０Ｂ、単語列検索部２３０Ｂを有する。また、音声認識装置２００Ｂは、記憶部３００Ｂと接続される。

記憶部３００Ｂは、第１の従来技術の記憶部３００Ａと同様であるが、記憶されている音響モデルに関しては、補正された音響モデルパラメータを記憶する。特徴量抽出部２１０Ｂは、認識用音声データを読み込み、特徴量ベクトルＯを生成する。ＨＭＭ状態の出力確率計算部２２０Ｂは、事前に補正された音響モデルパラメータ＾Λと、特徴量抽出部２１０Ｂにより生成された特徴量ベクトルＯに基づき、各ＨＭＭ状態の出力確率を計算する。単語列検索部２３０Ｂは、各ＨＭＭ状態の出力確率と、記憶部３００Ｂから読み込んだ言語モデルを入力とし、認識結果である単語列＾Ｓを出力する。

図１１は、第２の従来技術に係る音声認識処理の一例を示すフローチャートである。図１１に示すように、音声認識装置２００Ｂの具体的な処理は、第１の従来技術の音声認識装置２００Ａと比較して、ステップＳ２１０Ｂで読み込む音響モデルが、補正された音響モデルである点以外は、第１の従来技術の音声認識装置２００Ａと同様である。

＜第３の従来技術＞
以下、第２の従来技術に係る音声認識装置２００Ｂに、第３の従来技術に係る音響モデル補正（再推定）機能を有する音響モデル再学習装置１００Ｃを適用した場合を説明する。図１２は、第３の従来技術に係る音響モデル再学習装置の構成の一例を示す図である。音響モデル再学習装置１００Ｃは、特徴量抽出部１１０Ｃ、音響モデル再学習部１２０Ｃを有する。また、音響モデル再学習装置１００Ｃは、記憶部３００Ｃと接続される。

記憶部３００Ｃは、言語モデルは記憶せず、音響モデルパラメータΛのみを記憶する。特徴量抽出部１１０Ｃは、適応用音声データを読み込み、特徴量ベクトルＯを生成する。特徴量抽出部１１０Ｃは、音声認識装置２００Ｂの特徴量抽出部２１０Ｂと同様の処理を行う。

音響モデル再学習装置１００Ｃが計算する、補正された音響モデルパラメータ＾Λは、認識音声データと同じ音響条件の適応用音声データと、適応用音声データに関するラベルとを用いて、音響モデルパラメータΛが補正されることにより計算される。ここで、ラベルとは、手作業により書き起こされたもの（教師あり）である場合、第１又は第２の従来技術の音声認識により自動的に得られたもの（教師なし）である場合がある。教師ありのラベルを用いた音響モデルパラメータΛの補正を、教師あり補正という。また、教師なしのラベルを用いた音響モデルパラメータΛの補正を、教師なし補正という。以下、ラベルを−Ｓ_rと表記する。

音響モデル再学習部１２０Ｃは、記憶部３００Ｃから読み込んだ音響モデルパラメータΛ、特徴量抽出部１１０Ｃにより生成された特徴量ベクトルＯ、入力されたラベル−Ｓ_rを用い、音響モデルパラメータΛを補正（再推定）する。具体的には、音響モデル再学習部１２０Ｃは、適応データ（適応用音声データの特徴量ベクトルＯ）と、特徴量ベクトルＯと対応する正解シンボル系列Ｓ_rを用い、下記（４）式の目的関数Ｆ_Λが最大となるよう音響モデルパラメータ＾Λを再推定する。そして、再推定された音響モデルパラメータ＾Λは、例えば、第２の従来技術に係る音声認識装置２００ＢのＨＭＭ状態の出力確率計算部２２０Ｂ（図１０参照）で用いられる。

ここで、音響モデル再学習部１２０Ｃが用いる音響モデルは、ＮＮである。また、一般的に、目的関数Ｆ_Λは、例えばCross Entropyが用いられる。または、例えば、上記（４）式の最適化問題は、Stochastic Gradient Descent（ＳＧＤ）法で解き、そのための補正パラメータに対する微分は、文献３「S. Haykin, “NEURAL NETWORKS: A COMPREHENSIVE FOUNDATION,” Prentice Hall PTR, Upper Saddle River, NJ, USA, 2nd edition, 1999.」に示されるように、Error Backpropagationアルゴリズムにより計算できる。この場合、ＳＧＤの変数であるLearning Rateとして、例えば0.0001等の微小値がしばしば用いられる。

図１３は、第３の従来技術に係る音声モデル再学習処理の一例を示すフローチャートである。先ず、音響モデル再学習装置１００Ｃは、記憶部３００Ｃから、音響モデルパラメータΛを読み込む（ステップＳ１１０Ｃ）。次に、音響モデル再学習装置１００Ｃは、図示しない記憶部、例えば音声認識装置２００Ｂの記憶部３００Ｂ（図１０参照）から、言語モデルを読み込む（ステップＳ１２０Ｃ）。次に、音響モデル再学習装置１００Ｃは、適応用音声データを読み込む（ステップＳ１３０Ｃ）。次に、音響モデル再学習装置１００Ｃは、正解シンボル系列Ｓ_rを読み込む（ステップＳ１４０Ｃ）。次に、音響モデル再学習装置１００Ｃは、適応用音声データから特徴量を抽出し、特徴量ベクトルＯを生成する（ステップＳ１５０Ｃ）。次に、音響モデル再学習装置１００Ｃは、特徴量ベクトルＯ、入力されたラベル−Ｓ_rを用い、音響モデルパラメータΛを補正（再推定）する（ステップＳ１６０Ｃ）。次に、音響モデル再学習装置１００Ｃは、音響モデルパラメータΛを補正した音響モデルパラメータ＾Λを再推定し、出力する（ステップＳ１７０Ｃ）。

［実施形態］
以下、本願が開示する音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラムの実施形態を説明する。以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態及びその他の実施形態は、矛盾しない範囲で適宜組合せてもよい。

＜実施形態の数理的背景＞
実施形態は、音響モデルパラメータの高速適応を可能とするために、音響モデル（ＣＡＤＮＮ（Context Adaptive Deep Neural Network））のパラメータを、音響条件特徴量と関連付けて学習する。そして、実施形態は、音声認識時に、認識用音声データから計算した音響条件特徴量を与えるだけで、大量の音響モデルパラメータが自動的に音響条件特徴量と対応付けられる。以下、ＣＡＤＮＮについて述べる。

（ＣＡＤＮＮの概要）
図１は、実施形態に係るＣＡＤＮＮの概要の一例を示す図である。ＣＡＤＮＮは、従来技術とは異なり、図１に示すように、ＮＮの隠れ層は、音響条件特徴量を示すベクトル（以下、「音響条件特徴量ベクトル」と称す）の要素毎に分解された形になっている。図１では、例示として、１つの隠れ層（ｉ番目の隠れ層）が分解されている状態を示すが、少なくとも１つの隠れ層又は全ての隠れ層を分解するとしてもよい。分解された隠れ層の線形変換後の出力は、下記（５）式のように計算する。

ただし、上記（５）式におけるｙ_k,nは、詳しくは後述するが、ｎ番目のフレームから抽出された音響条件特徴量ベクトルｙ_n∈Ｒ^K（Ｋ次元実数空間）のｋ番目（ｋは１，２，・・・，Ｋなる自然数、Ｋは音響条件の数を示す自然数）の要素である。以下、音響条件特徴量ｙ_k,nと称す。また、上記（５）式における重み行列Ｗ_i,kは、ｉ番目の隠れ層における音響条件特徴量ｙ_k,nに対する線形変換行列である。また、上記（５）式におけるバイアスベクトルｂ_i,kは、i番目の隠れ層における音響条件特徴量ｙ_k,nに関するバイアスベクトルである。このように、ＣＡＤＮＮは、隠れ層をＫ個の音響条件の要素に分解して表現する。なお、音響条件特徴量毎の隠れ層の分解として、下記（６）式又は下記（７）式に示すものであってもよい。

音声認識時の音響モデルパラメータは、下記（８−１）式及び（８−２）式のように計算され、音声認識時において、音響条件特徴量ｙ_k,nに基づき、音響条件に自動適応することになる。

音響条件特徴量ｙ_k,nは、音響条件を表す。例えば、話者適応の場合には、学習時の音声データを話者クラス毎に分割すれば、各話者クラスのモデルが学習可能になる（文献４「N. Dehak et al., “Front-End Factor Analysis for Speaker Verification,” IEEE Trans. Audio, Speech, Language Process., Vol. 19, No. 4, pp. 788−798, 2011.」参照）。その場合には、音響条件特徴量ｙ_k,nを話者クラスの事後確率とする。または、音響条件特徴量ｙ_k,nは、話者認識によく使われているi-vector等とすることもできる。i-vectorは、上記文献４に詳述されるとおりである。

また、音響条件として雑音環境等を表したい場合は、音響条件特徴量ｙ_k,nは雑音環境クラスｋの事後確率とする。音響条件特徴量ｙ_k,nは、基本的に数秒の音声データで計算できる特徴量であるため、数秒の音声データを用いれば大量の音響モデルパラメータΛ＝｛Wi,n，bi,n|１≦ｉ≦Ｋ｝を音響条件に適応させることになる。

各隠れ層の出力は、従来技術と同様に、線形変換の出力ベクトルｚ_i,nに対してアクティベーション関数を適用し、下記（９）式のように計算される。

音響条件特徴量ｙ_k,n毎に分解された各隠れ層の線形変換のパラメータである重み行列Ｗ_i,kとバイアスベクトルｂ_i,kは、従来技術のＮＮの学習手順（誤差逆伝搬（Error backpropagation）及びＳＧＤ）（文献５「D. Yu and L. Deng, “Automatic Speech Recognition：A Deep Learning Approach,”Springer,2015.」参照）と同様に学習できる。この場合の隠れ層の線形変換のパラメータの微分は、下記（１０−１）式及び（１０−２）式のようになる。

ただし、上記（１０−１）式及び（１０−２）式におけるＦは、最適化基準を表す（例えばCross Entropy）。また、ベクトルδ_i,nは逆伝搬した誤差を表し、下記（１１）式のように計算する。Hadamard積は、行列又はベクトルの要素毎の積である。

上記（１１）式は、従来技術の誤差逆伝搬の式と同じであるが、上記（１１）式で用いられる重み行列Ｗ_i+1,nとベクトルｚ_i,nは、ＣＡＤＮＮで新たに導入した上記（８−１）式及び（８−２）式と、上記（５）式（あるいは上記（６）式もしくは上記（７）式）に基づき計算される。エラーベクトルδ_I,nはエラー項である。エラーベクトルδ_I,nは、入力特徴量ベクトルＹとＮＮに基づき計算されるネットワークの出力（ＨＭＭ状態の出力確率）であるベクトルｘ_I,nと、入力正解シンボル系列Ｓ_rとから得られる正解ＨＭＭ状態ｄ_nに基づき、従来技術と同様に、逆伝搬した誤差として、下記（１２）式のように計算される。

＜実施形態の一例＞
（実施形態に係る音響モデル学習装置の構成）
上記実施形態の数理的背景を踏まえ、以下、実施形態の一例を説明する。図２は、実施形態に係る音響モデル学習装置の構成の一例を示す図である。図２に示すように、実施形態に係る音響モデル学習装置１０は、特徴量抽出部１１、音響条件特徴量抽出部１２、音響モデルパラメータ補正部１３、ＨＭＭ状態の出力確率計算部１４、エラー計算部１５、音響モデルパラメータ微分値計算部１６、音響モデルパラメータ更新部１７、収束判定部１８を有する。また、音響モデル学習装置１０は、記憶部３０−１及び記憶部３０−２と接続される。

記憶部３０−１は、音響モデルを特徴付けるパラメータとして、音響モデルパラメータΛ＝｛Ｗ_1,n，ｂ_1,n|ｎは、１，２，・・・，Ｎなる自然数｝を記憶する。ただし、Ｎは、後述のフレーム毎の音響条件特徴量ベクトルｙ_nを計算する対象である一発話の総フレーム数である。また、記憶部３０−１は、音響条件抽出用モデルを記憶する。音響条件抽出用モデルは、後述の音響条件特徴量ベクトルＹを生成するためのモデルである。例えば、音響条件特徴量は、話者別の特徴、話者の性別、雑音及び／又は残響の音響環境等である。

特徴量抽出部１１は、マイク等で観測した学習用音声データを読み込み、学習用音声データから特徴量ベクトルＯを生成する。すなわち、特徴量抽出部１１は、学習用音声データから特徴量を抽出する。特徴量抽出部１１の具体的な処理は、第１の従来技術の特徴量抽出部２１０Ａ、第２の従来技術の特徴量抽出部２１０Ｂ、第３の従来技術の特徴量抽出部１１０Ｃと同様である。

音響条件特徴量抽出部１２は、学習用音声データ及び音響条件抽出用モデルを読み込み、下記（１３）式により、学習用音声データ及び音響条件抽出用モデルから音響条件特徴量ベクトルＹを生成する。すなわち、音響条件特徴量抽出部１２は、学習用音声データ及び音響条件抽出用モデルから音響条件特徴量を抽出する。

ただし、上記（１３）式において、Ｎは、フレーム毎の音響条件特徴量ベクトルｙ_nを計算する対象である一発話の総フレーム数であり、ｎは１からＮの自然数である。つまり、音響条件特徴量ベクトルＹは、１からＮフレーム目までの各フレームの音響条件特徴量ベクトルｙ_nを含み、各フレームの音響条件特徴量ベクトルｙ_nはＫ次元のベクトルで表現される。なお、各フレームの音響条件特徴量ベクトルｙ_nは各フレームで異なる値を取るのではなく、数秒間は同一の値に固定したり、一発話の間は同一の値に固定したりしてもよい。

音響モデルパラメータ補正部１３は、記憶部３０−１から読み込んだ音響モデルパラメータΛを、音響条件特徴量抽出部１２により生成された音響条件特徴量ベクトルＹに基づき、上記（８−１）式及び（８−２）式により補正する。なお、音響モデルパラメータ補正部１３により補正される音響モデルパラメータΛの初期値は、乱数で決めたパラメータ又は第１乃至第３の従来技術により学習された音響モデルのパラメータ等とする。

ＨＭＭ状態の出力確率計算部１４は、音響モデルパラメータ補正部１３により補正された音響モデルパラメータΛと、特徴量抽出部１１により生成された特徴量ベクトルＯに基づき、各ＨＭＭ状態の出力確率を計算する。ＨＭＭ状態の出力確率計算部１４の具体的な処理は、第１の従来技術のＨＭＭ状態の出力確率計算部２２０Ａ、第２の従来技術のＨＭＭ状態の出力確率計算部２２０Ｂと同様である。

エラー計算部１５は、ＨＭＭ状態の出力確率計算部１４により計算された各ＨＭＭ状態の出力確率と、入力された正解シンボル系列−Ｓ_r（正解ＨＭＭ状態）とに基づき、上記（１２）式によりエラーベクトルδ_I,nを計算する。

音響モデルパラメータ微分値計算部１６は、エラー計算部１５の計算によるエラーベクトルδ_I,nと、音響モデルパラメータ補正部１３により補正された音響モデルパラメータΛに基づき、音響モデルパラメータ微分値を計算する。音響モデルパラメータ微分値計算部１６は、逆伝搬した誤差を示す上記（１０）式及び（１１）式により音響モデルパラメータ微分値を計算する。または、音響モデルパラメータ微分値計算部１６は、従来のStochastic Gradient Descent（ＳＧＤ）法で計算することもできる（上記文献５参照）。また、パラメータ学習の高速化のためによく用いられるmomentumやL2 Regularizationをあわせて用いることもできる。

音響モデルパラメータ更新部１７は、記憶部３０−１から読み込んだ音響モデルパラメータΛと、音響モデルパラメータ微分値計算部１６により計算された音響モデルパラメータ微分値とに基づき、下記（１４−１）式及び（１４−２）式により音響モデルパラメータΛを更新する。

ただし、上記（１４−１）式及び（１４−２）式において、重み行列＾Ｗ_i,k及びバイアスベクトル＾ｂ_i,kは、更新したモデルパラメータ＾Λであり、重み行列−Ｗ_i,k及びバイアスベクトル−ｂ_i,kは１つ前のステップで得られた音響モデルパラメータ−Λである。また、上記（１４−１）式及び（１４−２）式において、ηはＳＧＤの変数であるLearning Rateであり、例えば0.1〜0.0001等の微小値である。ηは、音響モデルパラメータ補正用パラメータである。

収束判定部１８は、音響モデルパラメータ更新部１７により更新された音響モデルパラメータ＾Λについて、音響モデルパラメータΛの学習（推定）が所定の収束条件を満たすか否かを判定する。収束判定部１８は、所定の収束条件を満たすと判定した場合には、収束条件充足判定時の音響モデルパラメータ＾Λを、音響モデル学習装置１０の出力値として出力する。音響モデル学習装置１０から出力された音響モデルパラメータ＾Λは、例えば、記憶部３０−２に記憶される。

一方、収束判定部１８は、所定の収束条件を満たさないと判定した場合には、収束条件充足判定時の音響モデルパラメータ＾Λを音響モデルパラメータ補正部１３に出力し、音響モデルパラメータ補正部１３、ＨＭＭ状態の出力確率計算部１４、エラー計算部１５、音響モデルパラメータ微分値計算部１６、音響モデルパラメータ更新部１７、収束判定部１８が処理を繰り返す。収束判定部１８は、例えば、（１）１つ前のステップで得られた音響モデルパラメータ−Λと、音響モデルパラメータ更新部１７により更新された音響モデルパラメータ＾Λとの差分が閾値以下になった場合、（２）収束条件充足判定の繰り返し回数が所定の回数以上になった場合、（３）学習用音声データの一部を用いて性能を評価した際に、所定の性能指標が所定値以上悪化した場合等のいずれかの所定条件に基づき、収束条件充足判定を行う。

（実施形態に係る音響モデル学習処理）
図３は、実施形態に係る音響モデル学習処理の一例を示すフローチャートである。先ず、音響モデル学習装置１０は、記憶部３０−１から音響モデル（音響モデルパラメータΛ）を読み込む（ステップＳ１１）。次に、音響モデル学習装置１０は、記憶部３０−１から音響条件抽出用モデルを読み込む（ステップＳ１２）。次に、音響モデル学習装置１０は、学習用音声データを読み込む（ステップＳ１３）。次に、音響モデル学習装置１０は、正解シンボル系列−Ｓ_rを読み込む（ステップＳ１４）。

次に、音響モデル学習装置１０は、学習用音声データから特徴量ベクトルＯを抽出する（ステップＳ１５）。次に、音響モデル学習装置１０は、上記（１３）式により、学習用音声データから音響条件特徴量ベクトルＹを抽出する（ステップＳ１６）。次に、音響モデル学習装置１０は、記憶部３０−１から読み込んだ音響モデルパラメータΛを、音響条件特徴量ベクトルＹに基づき、上記（８−１）式及び（８−２）式により補正する（ステップＳ１７）。次に、音響モデル学習装置１０は、補正された音響モデルパラメータΛと、特徴量ベクトルＯに基づき、各ＨＭＭ状態の出力確率を計算する（ステップＳ１８）。

次に、音響モデル学習装置１０は、各ＨＭＭ状態の出力確率と、入力された正解シンボル系列−Ｓ_rとに基づき、上記（１２）式によりエラーベクトルδ_I,nを計算する（ステップＳ１９）。次に、音響モデル学習装置１０は、エラーベクトルδ_I,nと、補正された音響モデルパラメータΛに基づき、音響モデルパラメータ微分値を計算する（ステップＳ２０）。次に、音響モデル学習装置１０は、記憶部３０−１から読み込んだ音響モデルパラメータΛと、音響モデルパラメータ微分値とに基づき、上記（１４−１）式及び（１４−２）式により音響モデルパラメータΛを更新する（ステップＳ２１）。

次に、音響モデル学習装置１０は、更新された音響モデルパラメータ＾Λについて、音響モデルパラメータΛの学習が所定の収束条件を満たすか否かを判定する（ステップＳ２２）。音響モデル学習装置１０は、音響モデルパラメータΛの学習が所定の収束条件を満たす場合（ステップＳ２２Ｙｅｓ）、ステップＳ２３へ処理を移す。一方、音響モデル学習装置１０は、音響モデルパラメータΛの学習が所定の収束条件を満たさない場合（ステップＳ２２Ｎｏ）、ステップＳ１７へ処理を移す。ステップＳ２３では、音響モデル学習装置１０は、所定の収束条件を満たすと判定した時の音響モデルパラメータ＾Λを、音響モデル学習装置１０の出力値として出力する（ステップＳ２３）。

（実施形態に係る音声認識装置の構成）
図４は、実施形態に係る音声認識装置の構成の一例を示す図である。図４に示すように、実施形態に係る音声認識装置２０は、特徴量抽出部２１、音響条件特徴量抽出部２２、音響モデルパラメータ補正部２３、ＨＭＭ状態の出力確率計算部２４、単語列検索部２５を有する。また、音声認識装置２０は、記憶部３０−２と接続される。

記憶部３０−２は、音響モデル学習装置１０により更新された音響モデル（音響モデルパラメータ＾Λ）、言語モデル、音響条件抽出用モデル、音響モデルパラメータ補正用パラメータηを予め記憶する。

特徴量抽出部２１は、マイク等で観測した認識用音声データを読み込み、認識用音声データから特徴量を抽出し、特徴量ベクトルＯを生成する。すなわち、特徴量抽出部２１は、認識用音声データから特徴量を抽出する。特徴量抽出部２１の具体的な処理は、音響モデル学習装置１０の特徴量抽出部１１と同様である。

音響条件特徴量抽出部２２は、認識用音声データ及び音響条件抽出用モデルを読み込み、上記（１３）式により、学習用音声データ及び音響条件抽出用モデルから音響条件特徴量ベクトルＹを生成する。すなわち、音響条件特徴量抽出部２２は、認識用音声データ及び音響条件抽出用モデルから音響条件特徴量を抽出する。音響条件特徴量抽出部２２の具体的な処理は、音響モデル学習装置１０の音響条件特徴量抽出部１２と同様である。

音響モデルパラメータ補正部２３は、記憶部３０−２から読み込んだ音響モデルパラメータ＾Λと、音響条件特徴量抽出部２２によりで生成された音響条件特徴量ベクトルＹとに基づき、上記（８−１）式及び（８−２）式により、音響モデルパラメータ＾Λを補正する。

ＨＭＭ状態の出力確率計算部２４は、音響モデルパラメータ補正部２３により補正された音響モデルパラメータ＾Λと、特徴量抽出部２１により生成された特徴量ベクトルＯに基づき、各ＨＭＭ状態の出力確率を計算する。ＨＭＭ状態の出力確率計算部２４の具体的な処理は、音響モデル学習装置１０のＨＭＭ状態の出力確率計算部１４と同様である。

単語列検索部２５は、ＨＭＭ状態の出力確率計算部２４により計算された各ＨＭＭ状態の出力確率をもとに、記憶部３０−２から読み込んだ言語モデルを検索し、音声認識結果として単語列＾Ｓを出力する。単語列検索部２５の具体的な処理は、第１の従来技術の音声認識装置２００Ａの単語列検索部２３０Ａ、第２の従来技術の音声認識装置２００Ｂの単語列検索部２３０Ｂと同様である。

（実施形態に係る音声認識処理）
図５は、実施形態に係る音声認識処理の一例を示すフローチャートである。先ず、音声認識装置２０は、記憶部３０−２から音響モデル（音響モデルパラメータΛ）を読み込む（ステップＳ２１）。次に、音声認識装置２０は、記憶部３０−２から音響条件抽出用モデルを読み込む（ステップＳ２２）。次に、音声認識装置２０は、記憶部３０−２から言語モデルを読み込む（ステップＳ２３）。次に、音声認識装置２０は、認識用音声データを読み込む（ステップＳ２４）。次に、音声認識装置２０は、記憶部３０−２から音響モデルパラメータ補正用パラメータηを読み込む（ステップＳ２５）。

次に、音声認識装置２０は、認識用音声データから特徴量ベクトルＯを抽出する（ステップＳ２６）。次に、音声認識装置２０は、上記（１３）式により、音声認識装置２０から音響条件特徴量ベクトルＹを抽出する（ステップＳ２７）。次に、音声認識装置２０は、記憶部３０−２から読み込んだ音響モデルパラメータ＾Λを、音響条件特徴量ベクトルＹに基づき、上記（８−１）式及び（８−２）式により補正する（ステップＳ２８）。

次に、音声認識装置２０は、補正された音響モデルパラメータ＾Λと、特徴量ベクトルＯに基づき、各ＨＭＭ状態の出力確率を計算する（ステップＳ２９）。次に、音声認識装置２０は、各ＨＭＭ状態の出力確率をもとに、記憶部３０−２から読み込んだ言語モデルを検索する（ステップＳ３０）。次に、音声認識装置２０は、ステップＳ３０の検索結果から、音声認識結果として単語列＾Ｓを出力する（ステップＳ３１）。

（その他の実施形態）
実施形態では、ＤＮＮ（ＣＡＤＮＮ）に基づく音響モデルを用いる場合を説明したが、ＤＮＮに限らず、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）、ＢＬＳＴＭ（Bidirectional Long Short-Term Memory）のニューラルネットワーク等、種々のニューラルネットワークに基づく音響モデルを用いても、同様の定式化が可能である。

（実施形態による効果）
実施形態は、入力データから特徴量を抽出し，その特徴量を用いて入力データを予め定義されたクラスタに分類するパターン認識において、クラスタ分類精度を向上させる。例えば、入力音声から特徴量を抽出し、その特徴量を用いて入力音声を単語列に変換する音声認識において、音響モデルパラメータ補正を行ってクラスタ分類精度を向上させる。実施形態は、音声認識時の音響条件に音響モデルを高速に適応させ、その処理の際にＣＡＤＮＮを音響モデルとして用いる。実施形態の音響モデルパラメータは、外部から与えられる音響条件を表す音響条件特徴量に関係付けられ、音響条件特徴量に依存して変化するという特性を有する。その特性を有するため、音響モデルの学習時には、音声の特徴量と音響条件特徴量とを用いて、各音響条件と対応する音響モデルパラメータを学習する。そして、認識時には、認識対象の音声の音響条件特徴量を計算し、事前に学習した音響モデルパラメータを用い、音響条件に合うような新たな音響モデルパラメータを自動的に推定して決定する。

よって、実施形態は、音響条件特徴量を、正解ラベル（話者ＩＤやトランスクリプション）を用いず計算でき、また、少ない音声データ（数秒程度）から計算することができるという特長を持つため、結果として高速な音響モデル適応が可能となる。

すなわち、実施形態は、少ない音声データを用いて音響モデルを音響条件に適応させることができ、従来技術のように音響モデルを音響条件毎に切り替えることなく、従来技術より高い音声認識性能を達成できる。下記（１）表は、連続音素認識処理の実験において、従来技術及び実施形態を用い、音響モデルを各性別に対して教師なしで適応させた実験の結果である音素誤り率（ＰＥＲ：Phone Error Rate）を表す。実験条件として、音響モデルの性別毎のＤＮＮは、隠れ層毎に２０４８個の隠れユニットを持つ６個の隠れ層、及び１４４個の出力層を有した。また、実験条件として、入力音声の特徴量は、３９次元のＭＦＣＣ＋ΔＭＦＣＣ＋ΔΔＭＦＣＣとした。また、実験条件として、ＤＮＮへ入力する特徴量は、連続する１１フレームを連結した連結フレームを用いた。すなわち、実験条件として、ＤＮＮへ入力する特徴量は、３９×１１＝４２９個を入力単位とした。

また、実験条件として、従来技術において、ＤＮＮへ入力する特徴量は、学習用音声データのデータセットを用いた計算された平均分散モデルの正規化パラメータを用いて正規化した。また、実験条件として、従来技術において、ＤＮＮは、文献６「A. Mohamed et al.,“Acoustic Modeling Using Deep Belief Networks,” IEEE Trans. Audio, Speech, Language Process., Vol. 20, No. 1, pp. 14-22, 2012.」及び文献７「G. Hinton, “A practical guide to training restricted Boltzmann machines,” Tech. Rep., 2010.」に示されるＳＧＤ法により微調整されたＲＢＭ（Restricted Boltzmann Machine）を用いて隠れ層毎に事前学習した。この微調整において、Learning Rateの初期値は0.1、モメンタムは0.9、バッチサイズは128とした。さらに、実験条件として、従来技術において、Learning Rateは、認識用音声データのフレームが明確に確認できなくなるにつれて小さくなるとした。また、実験条件として、従来技術において、単音素のＨＭＭを用い、音声認識の際に音素のバイグラム言語モデルを用い、この言語モデルを全ての実験において重み１に固定した。

実施形態は、一発話（数秒程度）毎に音響条件特徴量を計算するため、少量データを基に高速な音響モデル適応を行うことになる。下記（１）表は、上記実験条件下で、実施形態が、従来技術に基づく音声認識よりも高い性能、つまり従来技術に基づく音声認識よりも低い音素誤り率を達成していることを示す。

（音響モデル学習装置及び音声認識装置の装置構成について）
図２に示す音響モデル学習装置１０及び図４に示す音声認識装置２０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、音響モデル学習装置１０及び音声認識装置２０の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。例えば、実施形態における記憶部３０−１及び３０−２は、一体の記憶装置であってもよい。また、例えば、音響モデル学習装置１０及び音声認識装置２０は、一体の装置であってもよい。

音響モデル学習装置１０及び音声認識装置２０が一体の装置である場合には、音響モデル学習装置１０と音声認識装置２０において同様の機能を有する特徴抽出部１１と特徴量抽出部２１、音響条件特徴抽出部１２と音響条件特徴量抽出部２２、音響モデルパラメータ補正部１３と音響モデルパラメータ補正部２３、ＨＭＭ状態の出力確率計算部１４とＨＭＭ状態の出力確率計算部２４が同一の機能部であってもよい。

また、音響モデル学習装置１０及び音声認識装置２０における各処理は図示のものに限られず、処理順序及び処理の統合もしくは分離することができる。例えば、実施形態におけるステップＳ１１〜Ｓ１４ならびにステップＳ２１〜Ｓ２５は処理順序を入れ替えてもよい。

また、音響モデル学習装置１０及び音声認識装置２０において行われる各処理は、全部又は任意の一部が、ＣＰＵ等の処理装置及び処理装置により解析実行されるプログラムにて実現されてもよい。音響モデル学習装置１０及び音声認識装置２０において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

（プログラムについて）
図６は、プログラムが実行されることにより、音響モデル学習装置及び音声認識装置が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。コンピュータ１０００において、これらの各部はバス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１０４１に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１０５１、キーボード１０５２に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１０６１に接続される。

ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、音響モデル学習装置１０及び／又は音声認識装置２０の各処理を規定するプログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、例えばハードディスクドライブ１０３１に記憶される。例えば、音響モデル学習装置１０及び／又は音声認識装置２０における機能構成と同様の情報処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

また、実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３やプログラムデータ１０９４は、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

実施形態及びその他の実施形態は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０音響モデル学習装置
１１特徴量抽出部
１２音響条件特徴量抽出部
１３音響モデルパラメータ補正部
１４ＨＭＭ状態の出力確率計算部
１５エラー計算部
１６音響モデルパラメータ微分値計算部
１７音響モデルパラメータ更新部
１８収束判定部
２０音声認識装置
２１特徴量抽出部
２２音響条件特徴量抽出部
２３音響モデルパラメータ補正部
２４ＨＭＭ状態の出力確率計算部
２５単語列検索部
３０−１、３０−２記憶部
１００Ｃ音響モデル再学習装置
１１０Ｃ特徴量抽出部
１２０Ｃ音響モデル再学習部
２００Ａ、２００Ｂ音声認識装置
２１０Ａ、２１０Ｂ特徴量抽出部
２２０Ａ、２２０Ｂ出力確率計算部
２３０Ａ、２３０Ｂ単語列検索部
３００Ａ、３００Ｂ、３００Ｃ記憶部
１０００コンピュータ
１０１０メモリ
１０２０ＣＰＵ

Claims

入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習する音響モデル学習装置であって、
前記ニューラルネットワークの一部の隠れ層は、与えられた音響条件特徴量を表す音響条件特徴量ベクトルの各要素に対応するよう分解されており、
前記分解された隠れ層の各々に対応するニューラルネットワークのパラメータを、該隠れ層に対応する前記音響条件特徴量ベクトルの要素に応じて補正する音響モデルパラメータ補正部と、
前記音響モデルパラメータ補正部により少なくとも一部のパラメータが補正された前記ニューラルネットワークにより学習用音声データの各々を変換して得た前記学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、前記ニューラルネットワークの各パラメータを更新する音響モデルパラメータ更新部と
を含み、
前記音響モデルパラメータ更新部は、前記分解された隠れ層の各々から出力される結果を統合した結果に基づき前記シンボル系列を特定する情報を得る
ことを特徴とする音響モデル学習装置。
前記音響条件特徴量ベクトルは、話者クラスを特定する特徴を含み、
前記分解された隠れ層の少なくとも一部は、異なる話者クラスを表す前記音響条件特徴量ベクトルの要素にそれぞれ対応する
ことを特徴とする請求項１に記載の音響モデル学習装置。
前記音響条件特徴量ベクトルは、雑音及び／又は残響の音響環境を特定する特徴を含み、
前記分解された隠れ層の少なくとも一部は、異なる雑音及び／又は残響の音響環境を表す前記音響条件特徴量ベクトルの要素にそれぞれ対応する
ことを特徴とする請求項１または２に記載の音響モデル学習装置。
音声認識対象の認識用音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第１の変換手段と、
前記シンボル系列を特定する情報をもとに言語モデルを検索し、音声認識結果候補である候補単語列を出力する第２の変換手段と、
入力された音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正手段と、を含み
前記ニューラルネットワークの一部の隠れ層は、与えられた音響条件特徴量を表す音響条件特徴量ベクトルの各要素に対応するよう分解されており、
前記音響モデルパラメータ補正手段は、前記分解された隠れ層の各々に対応するニューラルネットワークのパラメータを、該隠れ層に対応する前記音響条件特徴量ベクトルの要素に応じて補正するものであり、
前記第１の変換手段は、前記音響モデルパラメータ補正手段により少なくとも一部のパラメータが補正されたニューラルネットワークにより、前記音声認識対象の認識用音声データを前記シンボル系列を特定する情報に変換するものであって、
前記分解された隠れ層の各々から出力される結果を統合した結果に基づき前記シンボル系列を特定する情報を得る
ことを特徴とする音声認識装置。
前記音響条件特徴量ベクトルは、話者クラスを特定する特徴を含み、
前記分解された隠れ層の少なくとも一部は、異なる話者クラスを表す前記音響条件特徴量ベクトルの要素にそれぞれ対応する
ことを特徴とする請求項４記載の音声認識装置。
前記音響条件特徴量ベクトルは、雑音及び／又は残響の音響環境を特定する特徴を含み、
前記分解された隠れ層の少なくとも一部は、異なる雑音及び／又は残響の音響環境を表す前記音響条件特徴量ベクトルの要素にそれぞれ対応する
ことを特徴とする請求項４または５記載の音声認識装置。
入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習する音響モデル学習方法であって、
前記ニューラルネットワークの一部の隠れ層は、与えられた音響条件特徴量を表す音響条件特徴量ベクトルの各要素に対応するよう分解されており、
前記分解された隠れ層の各々に対応するニューラルネットワークのパラメータを、該隠れ層に対応する前記音響条件特徴量ベクトルの要素に応じて補正する音響モデルパラメータ補正工程と、
前記音響モデルパラメータ補正工程により少なくとも一部のパラメータが補正された前記ニューラルネットワークにより学習用音声データの各々を変換して得た前記学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、前記ニューラルネットワークの各パラメータを更新する音響モデルパラメータ更新工程と
を含み、
前記音響モデルパラメータ更新工程は、前記分解された隠れ層の各々から出力される結果を統合した結果に基づき前記シンボル系列を特定する情報を得ることを特徴とする音響モデル学習方法。
音声認識対象の認識用音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第１の変換工程と、
前記認識用音声データと対応するシンボル系列を特定する情報をもとに言語モデルを検索し、音声認識結果候補である候補単語列を出力する第２の変換工程と、
入力された音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正工程と、を含み、
前記ニューラルネットワークの一部の隠れ層は、与えられた音響条件特徴量を表す音響条件特徴量ベクトルの各要素に対応するよう分解されており、
前記音響モデルパラメータ補正工程は、前記分解された隠れ層の各々に対応するニューラルネットワークのパラメータを、該隠れ層に対応する前記音響条件特徴量ベクトルの要素に応じて補正するものであり、
前記第１の変換工程は、前記音響モデルパラメータ補正工程により少なくとも一部のパラメータが補正されたニューラルネットワークにより、前記音声認識対象の認識用音声データを、前記シンボル系列を特定する情報に変換するものであって、
前記分解された隠れ層の各々から出力される結果を統合した結果に基づき前記シンボル系列を特定する情報を得る
ことを特徴とする音声認識方法。
請求項１〜３の何れか１項に記載の音響モデル学習装置または請求項４〜６の何れか１項に記載の音声認識装置としてコンピュータを機能させるためのプログラム。