JP2015102806A

JP2015102806A - 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム

Info

Publication number: JP2015102806A
Application number: JP2013245098A
Authority: JP
Inventors: 繁樹松田; Shigeki Matsuda; ルー・シュガン; Xugang Lu
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2013-11-27
Filing date: 2013-11-27
Publication date: 2015-06-04
Anticipated expiration: 2033-11-27
Also published as: US10629185B2; CN105745700A; JP5777178B2; US20160260428A1; EP3076389A1; EP3076389A4; WO2015079885A1; CN105745700B

Abstract

【課題】特定の条件の学習データを用いてＤＮＮを用いた音響モデルの適応化を効率的に行なえ、精度も高められる統計的音響モデルの適応方法を提供する。
【解決手段】ＤＮＮを用いた音響モデルの話者適応方法において、第１の記憶装置に、異なる話者の発話データ９０〜９８を別々に記憶するステップと、話者別の隠れ層モジュール１１２〜１２０を準備するステップと、発話データ９０〜９８を切替えて選択しながら、特定レイヤ１１０を、選択された発話データに対応する隠れ層モジュール１１２〜１２０で動的に置換しながらＤＮＮ８０の全てのレイヤ４２，４４，１１０，４８，５０，５２，５４について準備的学習を行なうステップと、準備的学習が完了したＤＮＮの特定レイヤ１１０を初期隠れ層で置換するステップと、初期隠れ層以外のレイヤのパラメータを固定して、特定話者の音声データでＤＮＮの学習を行なうステップとを含む。
【選択図】図３

Description

この発明は、音声認識等の認識技術に用いられるディープ・ニューラル・ネットワーク（以下、記載を簡略にするために「ＤＮＮ」と呼ぶ。）に関し、特に、特定の対象のためのＤＮＮの学習効率を向上させる技術に関する。

機械学習の１手法としてＤＮＮが注目されている。ＤＮＮは例えば、画像認識及び音声認識等に適用されており、誤り率が以前より２０〜３０％も低下する等、優れた性能を発揮していることが報告されている（非特許文献１〜３）。

ＤＮＮとは、従来よりも多くのレイヤ（層）を持つニューラルネットワークであるといえる。具体的には、ＤＮＮは、入力層と、出力層と、入力層と出力層との間に設けられた複数の隠れ層とを含む。入力層は複数個の入力ノード（ニューロン）を持つ。出力層は、識別対象の数だけのニューロンを持つ。各隠れ層はそれぞれ複数個のニューロンを持つ。情報は入力層から隠れ層を順番に伝播し、最終的に出力ノードに出力が得られる。この仕組みから、出力ノードに含まれるノード数は他のレイヤより多くなる傾向がある。

ＤＮＮでは、レイヤの数だけではなく、各レイヤ内のニューロン数も多い。そのために学習のための計算量が膨大な量になる。以前はそのような計算を行なうことはほとんど不可能だったが、コンピュータ自体の高機能化、分散・並列処理技術の発達及び計算理論の発展により、ＤＮＮの学習を行なうことも可能となっている。しかし、学習のために大量のデータを使用する場合、依然として学習のために長時間を要することになる。例えば非特許文献４に記載された実験では、学習データとして２００ピクセル×２００ピクセルの画像１千万個を用い、１，０００台の１６コアのコンピュータを用いたＤＮＮの学習に３日間を要したという。

Y. Bengio, "Learning deep architectures for AI," Foundations and Trends in Machine Learning, Vol. 2, No. 1, pp. 1-127, 2009. G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups," IEEE Signal Processing Magazine, Vol. 29, No. 6, pp. 82-97, 2012. A. Mohamed, G. Dahl, and G. Hinton, "Acoustic Modeling using Deep Belief Networks," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 20, No. 1, pp. 14-22, 2012. Quoc V. Le, Marc'Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai Chen, Greg S. Corrado, Jeff Dean Andrew Y. Ng, "Building High-level Features Using Large Scale Unsupervised Learning," Proc. ICML, 2012. H.Liao,"Speaker adaptation of context dependent deep neural networks," in Proc. ICASSP, 2013, pp. 7947-7951.

例えば音声認識では、音素ラベル付きの音声データによる音響モデルの機械学習を行なう。さらに、予めコーパス内での単語又は単語列の出現頻度の統計をとることにより言語モデルを準備する。この音響モデル及び言語モデルを用いて、入力音声に対して統計的な音声認識処理を行ない、入力音声を生ずる尤度の高い文字列を認識結果として出力する。

音声の特徴は話者の性別・年齢によって異なるため、音響モデルは話者の性別及び年齢によって別々に作成すると高い精度が得られる。そのために、同じ性別及び同程度の年齢の話者の大量の音声データを用いて音響モデルの学習を行なう。一方、認識対象の話者が特定の話者であることが分かっている場合には、その話者の音声データのみを用いて音響モデルの学習を行なえば、理論的にはその話者に対する音声認識精度は高くなる。しかし、特定の話者の音声データを大量に集めることは難しい。統計的音声認識では、学習のために大量の音声が必要であるため、このように特定話者のみのための学習を行なうのは難しい。

この問題を解決するために、従来のＨＭＭ（隠れマルコフモデル）による音響モデルを用いた音声認識では、ＳＡＴ（ＳｐｅａｋｅｒＡｄａｐｔｉｖｅＴｒａｉｎｉｎｇ）と呼ばれる話者適応の手法が導入され、よい結果を得ている。通常のＨＭＭでは、ＨＭＭの各ステートからの音響特徴量の出力確率を推定するために、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｕｒｅＭｏｄｅｌ）を採用している。ＳＡＴは、音声信号中の話者に依存する音響の変動を正規化し、ＧＭＭを含む認識用のパラメータを最適化することにより、音響モデルを話者適応させ、認識精度を高めようとする学習方法である。この方式のＨＭＭをＳＡＴ−ＨＭＭと呼ぶ。

一方、最近、ＨＭＭによる音声認識装置において、話者独立な音声認識のためにＧＭＭに代えてＤＮＮを用いることが提案されている。このようにＧＭＭに代えてＤＮＮを用いるＨＭＭによる音声認識方式を、以下「ＤＮＮ−ＨＭＭ」と呼ぶ。ＤＮＮは識別力が高いことが知られているため、ＤＮＮ−ＨＭＭにより高い認識精度が得られることが期待される。

このようなＤＮＮで話者適応を行なう例として非特許文献５に示すものがある。図１を参照して、非特許文献５に示す話者適応方式で話者適応をする場合、音響モデルのための、初期化されたＤＮＮ３０と、特定の話者の音声からなる音声データ４０とを準備する。ＤＮＮ３０は、入力層４２、出力層５４、並びに隠れ層４４、４６、４８、５０、及び５２を含むものとする。このようにして準備した音声データ４０で、ＤＮＮ３０の全体の学習を行なうことにより話者適応したＤＮＮ３０が得られる。

しかし、精度の高い音声認識結果を得るためには、特定の話者データの音声データのみでは、十分な量の学習データが得られないという問題がある。そこで、上記したＳＡＴ−ＨＭＭの考え方をＤＮＮ−ＨＭＭに適用することが考えられる。この場合には、最初に、多数の話者の発話データからなる話者独立な音声データ４０を学習データとしてＤＮＮ３０の学習を行ない、話者独立な音響モデルを作成する。その後、図２に示すように、話者独立な音声データ４０に代えて、特定の話者の音声データ６０を準備する。さらに、ＤＮＮ３０のうち、話者適応のための隠れ層（例えば隠れ層４６）を決める。この隠れ層以外のレイヤのパラメータを全て固定しておいて、音声データ６０を用いてＤＮＮ３０の学習を行なう。その結果、隠れ層４６が特定話者の音声データ６０により適応化される。このような学習を行なったＤＮＮ３０を従来のＨＭＭ中のＧＭＭに代えて用いることにより、特定の話者に適応した音響モデルが得られる。

ところで、このような方法では、隠れ層４６以外のレイヤについては、話者独立な学習を行なった際のパラメータのままで固定される。したがって、話者適応では、隠れ層４６のみで話者による音響の特徴の違いを吸収することが必要になる。そのためには特定話者の音声データが十分にないと、やはりＤＮＮの学習を精度よく行なうことができないという問題がある。すなわち、従来のＳＡＴ−ＨＭＭの技術をＤＮＮに単純に適用しても、音声認識の精度を効率的に高めることが難しいという問題がある。

こうした問題は、特定話者という条件での音声認識を行なうための音響モデル適応のときだけでなく、たとえば特定の雑音環境下という条件で音声認識を行なうことが分かっている場合に、音響モデルをその雑音環境に適応させたり、一定の音声的な特徴を共有するあるグループについての音声認識という条件での音響モデルの学習をしたりする場合にも生ずる問題である。

それゆえに本発明の目的は、特定の条件下で得られた学習データを用いてＤＮＮを用いた音響モデルの適応化を行なう際に、適応を効率的に行なうことができ、精度も高めることができる統計的音響モデルの適応方法、及び統計的音響モデルの適応に適した音響モデルの学習方法を提供することである。

この発明の第１の局面に係る適応方法は、特定条件（例えば特定話者の発話データ又は特定雑音下での発話データ、等）に対する音声認識用の統計的音響モデルの適応方法である。この音響モデルにはＤＮＮを用いている。当該ＤＮＮは３以上の複数のレイヤを含む。この方法は、コンピュータ可読な第１の記憶装置が、複数の条件での発話データを別々に記憶するステップと、コンピュータが、複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、コンピュータが、複数の条件での発話データを切替えて選択しながら、複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながらＤＮＮの全てのレイヤについての準備的学習を行なうステップと、コンピュータが、準備的学習を行なうステップでの学習が完了したＤＮＮの、特定レイヤを、予め準備した初期隠れ層で置換するステップと、コンピュータ可読な第２の記憶装置が、適応対象の条件下での音声データを記憶するステップと、置換するステップにより得られたＤＮＮの、初期隠れ層以外のレイヤのパラメータを固定して、適応対象の条件下での音声データを第２の記憶装置から読み出して、ＤＮＮの学習を行なうステップとを含む。

好ましくは、この適応方法はさらに、コンピュータが、学習を行なうステップに先立って、発話条件の区別のない大量の音声データでＤＮＮの条件独立な学習を行なうステップと、条件独立な学習を行なうステップでの学習後のＤＮＮの特定レイヤの隠れ層のパラメータを第３の記憶装置に記憶するステップを含む。置換するステップは、コンピュータが、準備的学習を行なうステップでの学習が完了したＤＮＮの、特定レイヤのパラメータに、第３の記憶装置に記憶された隠れ層のパラメータをコピーするステップを含む。

この発明の第２の局面に係る音響モデルの学習方法は、特定条件の音声認識用の統計的音響モデルの適応に適した音響モデルの学習方法である。この音響モデルにはＤＮＮを用いている。当該ＤＮＮは３以上の複数のレイヤを含む。この学習方法は、コンピュータ可読な第１の記憶装置が、複数の条件での発話データを別々に記憶するステップと、コンピュータが、複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、コンピュータが、複数の条件での発話データを切替えて選択しながら、複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながらＤＮＮの全てのレイヤについての準備的学習を行なうステップと、コンピュータが、準備的学習を行なうステップでの学習が完了したＤＮＮの、特定レイヤを除くレイヤのパラメータを記憶媒体に記憶するステップとを含む。

好ましくは、この学習方法はさらに、コンピュータが、学習を行なうステップに先立って、発話条件の区別のない大量の音声データでＤＮＮの条件独立な学習を行なうステップと、条件独立な学習を行なうステップでの学習後のＤＮＮの特定レイヤの隠れ層のパラメータを記憶媒体に追加して格納するステップとを含む。

この発明の第３の局面に係る記憶媒体は、特定条件の音声認識用の統計的音響モデルの適応に適した、音響モデルの学習のためのＤＮＮを構築するためのパラメータを記憶した記憶媒体である。当該記憶媒体に記憶されたパラメータは、３以上の複数のレイヤを含むＤＮＮを構築するためのものである。記憶媒体はさらに、記憶媒体に記憶されたパラメータを用いて構築されたＤＮＮの、特定レイヤ以外のレイヤのパラメータを固定して、音声データを用いてＤＮＮの学習を行なうことにより、ＤＮＮの特定レイヤのみの学習を行なうためのプログラムを記憶している。この特定レイヤは、記憶媒体に記憶されているＤＮＮに対応して予め定められている。

この発明の第４の局面に係るコンピュータプログラムは、特定条件の音声認識用の統計的音響モデルの適応を行なうためのコンピュータプログラムである。音響モデルにはＤＮＮを用いている。当該ＤＮＮは３以上の複数のレイヤを含む。コンピュータプログラムは、コンピュータに、コンピュータ可読な第１の記憶装置から、複数の条件での発話データを別々に記憶するステップと、複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、複数の条件での発話データを切替えて選択しながら、複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながらＤＮＮの全てのレイヤについての準備的学習を行なうステップと、準備的学習を行なうステップでの学習が完了したＤＮＮの、特定レイヤを、予め準備した初期隠れ層で置換するステップと、置換するステップで得られたＤＮＮのパラメータを記憶媒体に記憶させるステップと、を実行させる。

話者独立な音響モデルを構成するＤＮＮの学習過程に先行技術を適用する方法を説明するための図である。話者独立な音響モデルを構成するＤＮＮの学習過程に先行技術を適用する方法の次のステップを説明するための図である。本発明の実施の形態に係るＤＮＮの学習において、話者適応に適した音響モデルを構成するＤＮＮの準備方法を説明するための図である。本発明の実施の形態に係るＤＮＮの学習方法において、話者適応のための隠れ層の学習方法を説明するための図である。本発明の実施の形態に係るＤＮＮの学習方法において、話者適応のための隠れ層の学習方法を説明するための図である。図３に示す処理を実現するための装置の構成を説明するための図である。本発明の実施の形態にしたがって行なった実験結果を先行技術の結果と対比して表形式で示す図である。本発明の実施の形態において、話者適応に適した音響モデルを構成するＤＮＮの学習を行なうプログラムの制御構造を示すフローチャートである。実施の形態に係るＤＮＮの学習処理を実行するコンピュータシステムの外観図である。図９に示すコンピュータの内部構成を示すブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の実施の形態は主に音声認識における、特定話者という条件での適応に関する例についてのものであるが、本発明はそのような実施の形態には限定されない。例えば雑音環境という条件に対する適応にも適用できる。

［構成］
上記したように、ＤＮＮを用いた音響モデルで話者適応を行なう場合には、話者独立な音声データでＤＮＮの学習を行なった後、適応対象となる話者の音声データで、特定のレイヤのみの学習を行なう必要がある。その際、それ以外のレイヤのパラメータは固定し、学習を行なわない。しかしそのためには音声データが不足しがちであり、かつ適応のための学習に長時間を要するという問題がある。こうした問題を解決するために、以下に説明するようにＤＮＮを用いた音響モデルの話者適応を行なう。実験によれば、この方法を採用することにより、特定話者のための話者適応を効率的に行なえる、ＤＮＮを用いた音響モデルを準備できることが示された。

本実施の形態では、話者独立な音響モデルのためのＤＮＮを準備する際に、予め特定のレイヤ（これを以下「話者適応レイヤ」と呼ぶ。）を用いて話者適応することを前提とする。この前提のもと、後に行われる話者適応レイヤに対する話者適応が効率的に行なえるよう、話者適応レイヤ以外のレイヤのパラメータの準備的学習を行なう。具体的には以下のとおりである。

最初に、図１に示した方法で、全ての発話データを用いて話者独立なＤＮＮ３０の学習を行なう。ＤＮＮは、通常はＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ（ＲＢＭ）を用いて初期化する。しかし、ＲＢＭは非識別的学習な音声認識等には必ずしも適したものではない。そこで、本実施の形態では、識別的学習の１手法として、ＲＢＭにより初期化済のＤＮＮを誤差逆伝搬（ＥＢＰ）によりＣｒｏｓｓ−Ｅｎｔｒｏｐｙ（ＣＥ）損失最小化基準を用いて学習するものを採用する。

ＤＮＮ３０は、基本的には通常の多層パーセプトロンネットワークである。ＤＮＮ３０の各ノードには、それぞれ接続ウェイトとバイアスとが付与されている。以下の説明では、ＤＮＮ３０は７つのレイヤを持つものとする。すなわち、ＤＮＮ３０は、発明が解決しようとする課題の項で説明したとおり、入力層４２及び出力層５４と、入力層４２及び出力層５４の間に配置された５つの隠れ層４４、４６、４８、５０及び５２とを含む。

ＤＮＮ３０において、ｔ番目のレイヤＬ_ｔとその前のｔ−１番目のレイヤＬ_ｔ−１とのノードの接続ウェイトを行列形式でＷ_ｔとする。上記したようにＥＢＰによる学習で得られた話者独立（Ｓｐｅａｋｅｒ−Ｉｎｄｅｐｅｎｄｅｎｔ）ＤＮＮ３０のｔ番目のレイヤＬ_ｔ及びＬ_ｔ−１の間のウェイト行列を本明細書では「Ｗ^ＳＩ _ｔ」と書く。ＤＮＮ３０のような話者独立なＤＮＮを用いたＨＭＭ音声認識方式を以下の説明ではＳＩＤＮＮ−ＨＭＭと呼ぶ。「ＳＩ」は話者独立を意味する。以下の説明でも同様である。

図３を参照して、この実施の形態では、ＤＮＮ３０のようなＳＩＤＮＮ−ＨＭＭが得られた後、話者適応の対象となるＤＮＮ８０の準備的学習を行なう。この準備的学習では、話者別に用意した多数の音声データ９０、９２、…、９８を用いる。ＤＮＮ８０も、基本的には通常の多層パーセプトロンネットワークである。ＤＮＮ８０の各ノードには、それぞれ接続ウェイトとバイアスとが付与されている。ＤＮＮ８０は、ＤＮＮ３０と同じく７つのレイヤ（層）を持つ。すなわち、ＤＮＮ８０は、入力層４２及び出力層５４と、入力層４２及び出力層５４の間に配置された隠れ層４４、話者モジュール切替部１１０、隠れ層４８、５０及び５２とを含む。隠れ層４４の出力が話者モジュール切替部１１０の入力に接続されている。話者モジュール切替部１１０の出力は隠れ層４８の入力に接続される。音声データ９０、９２、…、９８と入力層４２の入力との間には、音声データ９０、９２、…、９８の中から特定話者のデータを選択的に取り出す話者選択部１００が設けられている。入力層４２、隠れ層４４、４８，５０、及び５２、並びに出力層５４は、ＤＮＮ３０の対応するレイヤのパラメータをコピーすることで得られる。

話者モジュール切替部１１０は、音声データ９０、９２、…、９８の各話者に対応する隠れ層を構成する話者別モジュール１１２、１１４、…、１１８及び１２０と、話者選択部１００による話者の選択に応答して、話者別モジュール１１２、１１４、…、１１８及び１２０のうち、選択された話者に対応するものの入力を、隠れ層４４の出力に結合する入力選択部１０２と、話者選択部１００による話者の選択に応答して、話者別モジュール１１２、１１４、…、１１８及び１２０のうち、選択された話者に対応するものの出力を隠れ層４８の入力に結合する出力選択部１０４とを含む。話者別モジュール１１２、１１４、…、１１８及び１２０の各々は、隠れ層４４等と同様の構成を持ち、本実施の形態ではいずれもＷ^ＳＩ _２をそれぞれのウェイト行列にコピーすることにより得られるものを用いた。すなわち、図１のＤＮＮ３０の学習が完了したときの隠れ層４６のパラメータを用いた。

この構成により、後述するように、複数の話者の音声データを用い、話者別モジュール１１２、１１４、…、１１８及び１２０を話者に応じて適宜選択し切替えながら、入力層４２、隠れ層４４、話者モジュール切替部１１０、隠れ層４８、５０及び５２、並びに出力層５４の学習を行なうことができる。本実施の形態では、この際にもＥＢＰ学習を用いた。ただし、音声データを表現するデータのビット数は通常制限されているため、過学習してしまう危険性がある。そこで、本実施の形態では、過学習を回避するために制約を課した。この制約については後述する。

上記したように、話者別モジュール１１２、１１４、…、１１８及び１２０を話者に応じて切替えながら全発話者の音声データを用いてＤＮＮ８０の学習を行なうことで、入力層４２、隠れ層４４、隠れ層４８、５０及び５２、並びに出力層５４の学習が完了する。この学習を本実施の形態では準備的学習と呼ぶ。準備的学習の目的は、話者別モジュール１１２、１１４、…、１１８及び１２０の学習を行なうことではなく、話者適応に適するように学習した入力層４２、隠れ層４４、４８、５０及び５２、並びに出力層５４を得ることである。図４に示すように、このようにして得られたＤＮＮ８０の話者モジュール切替部１１０をダミーの隠れ層１４０で置換することにより、準備的学習が完了したＤＮＮ１３０が得られる。このＤＮＮ１３０は、後述するように話者モジュール切替部１１０の位置の隠れ層に対する話者適応に好適なものとなる。したがって、ＤＮＮ１３０のパラメータを記憶媒体に格納し、同時に話者モジュール切替部１１０の位置の隠れ層のみの学習を行なうようなプログラム（図２に示す処理を実行するプログラム）をその記憶媒体に格納することで、ＤＮＮ１３０の話者適応を行なうのに好適なデータが記憶媒体に保持されることになる。なお、この際の話者適応の対象となるレイヤは話者モジュール切替部１１０の位置の隠れ層に固定され、仮にそれ以外のレイヤに対する話者適応を行なってもよい結果は得られない。

図４を参照して、準備的学習を完了したＤＮＮ１３０に対して話者適応を行なう方法について説明する。予め、話者適応用データ１５０を準備する。話者適応用データ１５０は、適応の対象となる話者の音声データ１６２と、適応用モジュール１６０とを含む。適応用モジュール１６０は、話者別モジュール１１２、１１４、…、１１８及び１２０と同様の構成を持つが、話者適応前の隠れ層の初期値に相当するものである。本実施の形態では、適応用モジュール１６０として、図１及び図２に示す方法で学習したＤＮＮ３０のうち、話者モジュール切替部１１０と同じ位置の隠れ層４６を用いる。すなわち、適応用モジュール１６０のウェイト行列に、初期学習後の隠れ層４６のウェイト行列Ｗ^ｍｅａｎ _２をコピーする。ここで「ｍｅａｎ」とは、学習に全話者のデータが用いられたという意味である。

話者適応の準備として、ＤＮＮ１３０のうち、ダミーの隠れ層１４０に適応用モジュール１６０をコピーする（適応用モジュール１６０のウェイト行列をダミーの隠れ層１４０のウェイト行列にコピーする。）ことで、図５に示すように新たなＤＮＮ１８０を得る。このようにして得られた、話者適応前のＤＮＮ１８０を、以下、ＰＴ−ＳＡＴ（Ｐｒｅ−ＴｒａｉｎｅｄＳＡＴ）ネットワークと呼ぶ。

図５に示すように、ＤＮＮ１８０のうち、入力層４２、隠れ層４４，４８、５０及び５２、並びに出力層５４のパラメータを固定し、話者別モジュール１６０の学習のみを音声データ１６２を用いて行なう。学習は、準備的学習と同様、ＣＥ損失最小化基準を用いたＥＢＰ学習であり、音声データの規格化を行なう。この学習が終了したときに得られたＤＮＮ１８０が、音声データ１６２により話者適応した音響モデルのためのＤＮＮとなる。

前述した制約として、ここでは、通常の学習に代えて、規格化ＥＢＰ学習を用いる。規格化の手法（定義）としてはいくつか考えられえるが、本実施の形態では、図３に示すようなネットワークを得るための初期値であるウェイト行列Ｗ^ＳＩ _ｔＳＤと図４に示すようなネットワークを得るための初期値であるウェイト行列Ｗ^ｍｅａｎ _ｔＳＤとの間の相違のＬ_２ノルムと、話者別モジュールのウェイト行列とを用いる。この学習では、話者別モジュール及び適応用モジュールのための学習データの数には制限があるが、それ以外のレイヤは十分に多くのデータで学習が行われる。したがって、この実施の形態では、この規格化項を話者別モジュール及び適応用モジュールのみに導入する。

ＳＡＴ音声認識の学習のための規格化項は次の式（１）により定義される。

ただし、Ｗ_ｔＳＤ及びｂ_ｔＳＤは、ｔ_ＳＤ番目のレイヤの話者別モジュールのウェイト行列と、それに対応するバイアスベクトルとであり、Ｗ^ｍｅａｎ _ｔＳＤ及びｂ^ｍｅａｎ _ｔＳＤとはそれぞれ話者適応の開始直前（話者独立な学習後）におけるウェイト行列とバイアスベクトルとの初期値である。

なお、図３に示すネットワークを得るためには、式（１）中のＷ^ｍｅａｎ _ｔＳＤ及びｂ^ｍｅａｎ _ｔＳＤを、ｔ_ＳＤ番目のＳＩＤＮＮのウェイト行列とそれに対応するバイアスベクトルとで置換する。

なお、図３に示すような構成で話者を切替えながらＤＮＮ８０の準備的学習を行なう場合、ある話者による発話データでの学習が全て完了した後に別の話者による発話データでの学習を開始する、というように順番に発話データを切替えると、後の発話データによる影響が先の発話データの影響よりもＤＮＮ８０の各レイヤに残ってしまう傾向があり、好ましくない。したがって、準備的学習は以下のような構成を用いて行なうのが好ましい。

図６を参照して、話者選択部１００は、音声データ９０、９２、…、９８の音声データをそれぞれ小さな断片に分割して各断片に対応する話者を識別する情報（話者識別情報と呼ぶ。）を付し、さらにこれらをランダムな順番で選択して１つのファイルに結合するランダム選択部１９０と、ランダム選択部１９０により出力されたファイルを格納するランダムデータ記憶部１９２と、ランダムデータ記憶部１９２に記憶されたファイルを先頭から順番に読み出し、話者識別情報を話者モジュール切替部１１０の入力選択部１０２及び出力選択部１０４に出力するデータ読出部１９４とを含む。データ読出部１９４の出力は、読み出したデータを入力層４２にも与えるよう、入力層４２の入力に接続されている。

入力選択部１０２は、データ読出部１９４からの話者識別情報に応じて、話者別モジュール１１２、１１４、…、１１８及び１２０のうち、適切な話者に対応するモジュールを選択し、その入力に隠れ層４４の出力を接続するセレクタにより実現できる。出力選択部１０４も同様、話者別モジュール１１２、１１４、…、１１８及び１２０のうち、適切な話者に対応するモジュールを選択し、その出力を隠れ層４８の入力に接続するセレクタにより実現できる。なお、本実施の形態では、隠れ層が５つあり、そのうち話者モジュール切替部１１０が２番目の隠れ層の位置に配置されている。したがって入力層４２と入力選択部１０２との間には隠れ層４４しか存在しない。しかし、話者モジュール切替部１１０の位置は変更することができるし、隠れ層の数も５つには限定されない。仮に話者モジュール切替部１１０が３番目の隠れ層の位置に配置されていれば、入力層４２と入力選択部１０２との間には２つの隠れ層が存在することになる。

このような構成をとることにより、各話者の発話データをランダムに選択しながら、一時に一人の話者の発話データに偏ることのない順番でＤＮＮ８０の学習が行なえる。その結果、発話データの選択の順番による影響を最小限に抑えながら、ＤＮＮ８０の準備的学習が行なえる。

［動作］
以上に構成を説明したＤＮＮの話者適応装置は、以下のように動作する。予め複数の話者の音声データ９０、９２、…、９８と、図１に示す方法により学習した話者独立なＤＮＮ３０の隠れ層４６とを準備する。

図６を参照して、この話者適応装置は、準備的学習時に先立ち、以下のように動作する。ランダム選択部１９０は、音声データ９０、９２、…、９８の発話データを小さな断片に分割し、各断片に話者識別情報を付す。ランダム選択部１９０はさらに、このようにして準備した発話データの多数の断片をランダムな順番で並べ替え、１つのファイルとしてランダムデータ記憶部１９２に書込む。

準備的学習が開始されると、図６に示すデータ読出部１９４は、ランダムデータ記憶部１９２の先頭から順番に音声データの断片を読出し、その話者識別情報を入力選択部１０２及び出力選択部１０４に与える。入力選択部１０２はこの話者識別情報に応じて、話者別モジュール１１２、１１４、…、１１８及び１２０のうち、話者識別情報に対応するモジュールを選択し、隠れ層４４の出力を選択された隠れ層の入力に接続する。出力選択部１０４も同様、データ読出部１９４からの話者識別情報に応じて、話者別モジュール１１２、１１４、…、１１８及び１２０のうち、話者識別情報に対応するモジュールを選択し、その出力を隠れ層４８の入力に接続する。このようにしてＤＮＮ８０の接続が確立した後、データ読出部１９４がランダムデータ記憶部１９２から読み出したデータを用いてＤＮＮ８０の学習を全てのレイヤにわたって行なう。

データ読出部１９４が読み出した断片による学習が完了すると、データ読出部１９４は次の断片をランダムデータ記憶部１９２から読出し、その断片を用いて上記した処理を再び実行する。

こうした処理がランダムデータ記憶部１９２に格納されたファイル中の全ての断片について完了した時点で、ＤＮＮ８０の準備的学習が終了する。ＤＮＮ８０の話者モジュール切替部１１０をダミーの隠れ層１４０で置換することにより、図４に示すＤＮＮ１３０が得られる。

通常は、このようにして準備したＤＮＮ１３０と、予め話者独立なＤＮＮとして学習したＤＮＮ３０（図１）から隠れ層４６のパラメータをコピーして得た適応用モジュール１６０とが１つのセットとなる。例えば、これらと、図２に示すような従来の学習を行なうためのプログラムとがセットになって商品として流通する。図２に示すようなプログラムが容易に入手可能であれば、このプログラムなしのセットでの流通を行なうこともできる。この場合は、前述したとおり、適応の対象となるレイヤは固定されており、それ以外のレイヤを適応の対象としても意味がない。

話者適応したＤＮＮによる音響モデルを構築しようとするユーザは、準備的学習の終了したＤＮＮ１３０と、初期値としての適応用モジュール１６０と、図２に示すような学習を行なうプログラムとを入手した後、ＤＮＮ１３０のダミーの隠れ層１４０を、適応用モジュール１６０で置換する。具体的には、ダミーの隠れ層１４０のウェイト行列に、適応用モジュール１６０のウェイト行列をコピーする。さらに、話者適応の対象となる特定の話者の音声データ１６２を準備し、ＤＮＮ１３０の入力に音声データ１６２が与えられるように装置を設定する。

この状態で、図５に示すように、入力層４２、隠れ層４４、４８、５０、及び５２、並びに出力層５４のパラメータを固定し、発話データを順番に読出してその発話データを学習データとして適応用モジュール１６０のみの学習を行なう。その結果得られた学習後のＤＮＮ１８０は、音声データ１６２の話者のために適応化されたものとなり、このＤＮＮ１８０を用いた音響モデルはその話者のために適応化された音響モデルとなる。

［実験］
上記した実施の形態に係るシステムに対し、ウェブ上のＴＥＤの講演コーパスを用いて精度の評価実験を行なった。実験のために、学習データと、評価データと、テストデータとを準備した。

学習データは３００話者の発話データからなっていた。各話者の発話データは約３０分の長さであった。学習データの合計時間は約１５０時間であった。

評価データは、８人の話者のデータからなっていた。評価データの話者は、いずれも学習データの話者ではなかった。この評価データは、ＤＮＮのハイパーパラメータ（ＣＥ損失最小化の学習率、及び正規化率等）の最適値（評価データ自体に対して高い認識率を示すもの）を定めるために使用した。

テストデータは、２８人の話者からなっていた。このデータはＩＷＳＬＴ２０１３のテストデータセットとして用いられるものである。これら話者は、いずれも、学習データの話者とも評価データの話者とも異なっていた。

実験では、従来のＨＭＭを用いた音声認識装置において、ＨＭＭの各ステートのＧＭＭに替え、上記したＤＮＮを用いた音声認識装置を実現した。これをＳＡＴ−ＤＮＮ−ＨＭＭと呼ぶことにする。ＳＡＴ−ＤＮＮ−ＨＭＭを評価するため、ベースラインとなる話者独立なＤＮＮを使用したＨＭＭ音声認識装置と、図２に示すような方法で話者適応したＤＮＮを使用したＨＭＭ音声認識装置とを準備した。前者をＳＩ−ＤＮＮと呼び、後者をＳＡ−ＤＮＮと呼ぶ。「ＳＩ」は「Ｓｐｅａｋｅｒ−Ｉｎｄｅｐｅｎｄｅｎｔ」の略であり、「ＳＡ」は「Ｓｐｅａｋｅｒ−Ａｄａｐｔｅｄ」の略である。

ＳＩ−ＤＮＮは単純な７レイヤのＤＮＮを採用したもので、全ネットワークをＲＢＭ学習で初期化した後、学習データを用いたＣＥ損失最小化により学習を行なったものである。

ＳＡ−ＤＮＮはＳＩ−ＤＮＮの１つの隠れ層を、テストデータの２８人の話者から選んだ１人の発話データにより適応化したものである。この隠れ層は、ＳＡＴ−ＤＮＮで話者適応した隠れ層と同じレイヤである。クローズド形式の学習に伴う問題を回避するため、話者適応の対象話者の各々について、発話データを４つのサブグループに分割し、４重クロス確認（ＣＶ）方式を採用して認識結果を得た。このＣＶ方式では、１つのサブグループをテストに用い、残りの３つのサブグループを学習データとして認識精度を得て、さらにこれをテストのためのサブグループを変えて４回行ない、４回の認識精度の平均を最終的な認識精度とした。

ＳＡＴ−ＤＮＮについては、上述したとおり、最初にＳＩ−ＤＮＮと同様の学習を行なって、話者適応のための隠れ層の初期値を準備した。次に、学習データの話者の数と同数（３００）の話者別モジュールを準備した。次に、図３及び図６に示した構成により、これら話者別モジュールを使用してＤＮＮの準備的学習を行なった。その後、２８人のテスト用話者から選択した適応対象の１人の話者について、図４及び図５に示した構成で話者適応を行なった。

このＳＡＴ−ＤＮＮの話者適応では、学習データが限られているため、過学習を避ける必要がある。したがって、式（１）中の制約項を隠れ層１４０のウェイトとバイアスとの更新について適用し、Ｗ^ｍｅａｎ _ｌｓｄ及びｂ^ｍｅａｎ _ｌｓｄをそれぞれＷ^SI _ｌｓｄ及びｂ^SI _ｌｓｄに変更した。

音声データを最初に一連の音響特徴ベクトルに変換した。各ベクトルは２０ミリ秒の長さで１０ミリ秒のシフト間隔のハミングウィンドウにより計算した。音響特徴ベクトルは３９次元であり、その要素は１２個のＭＦＣＣ（Ｍｅｌ−ｓｃａｌｅＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）と、対数パワーと、１２個の差分ＭＦＣＣと、差分対数パワーと、１２個の２次差分ＭＦＣと、２次差分対数パワーとである。

さらに、連続する１１個の音響特徴ベクトルを連結したもの（４２９次元）をＤＮＮへの入力とした。ハミングウィンドウの位置を基準にして考えると、この４２９次元のベクトルは、ハミングウィンドウの直前５つ、ハミングウィンドウ内、及びハミングウィンドウの直後５つ、の合計１１個の音響特徴ベクトルを連結したものに相当する。このベクトルの各要素は、その平均と分散とがそれぞれ０及び１となるように正規化した。

音声認識装置では、ＨＭＭはいずれも４−グラムの言語モデルを用いた。この言語モデルはＴＥＤの講演、ニュースコメンタリ、及び英語のＧｉｇａｗｏｒｄ（H.Yamamoto, Y.Wu, C. LHuang, X.Lu, P.R.Dixon, S.Matsuda, C. Hori, and H. Kashioka, “The NICT ASR System for IWSLT2012,” in Proceedings of IWSLT2012, 2012.）の書き起こし文により学習したものである。音響モデルとしては、ＢｏｏｓｔｅｄＭＭＩ（最大相互情報量）学習により学習した文脈依存音響モデルを用いた。ＤＮＮの学習時、例えば言語モデル及び状態遷移確率等のＨＭＭのパラメータは全て固定した。

音声認識に用いたＤＮＮは、４２９個の入力ノードと、４９０９個の出力ノードと、各隠れ層ごとに５１２個のノードとを持つものであった。レイヤは７つであり、ＳＡ−ＤＮＮとＳＡＴ−ＤＮＮとのいずれの場合も５つの隠れ層のうちの１つを話者適応に用いるようにし、選択したレイヤを最初の隠れ層から最後の隠れ層まで変化させることで話者適応におけるレイヤの選択の効果について検討した。

ＤＮＮの学習では、時に学習率を細かく調整する必要がある。そのため、学習の各繰返し段階では、評価データに対する認識精度に基づいて以下のような学習率の調整を行なった。

評価データに対する認識精度が低下した場合には、学習率を前回の繰返段階（エポック）と同一に維持した。それ以外の場合には学習率を前回の半分に更新し、ネットワークパラメータ（ウェイト等）については、前回の学習のエポックで最も誤り率の低かったものを採用し、それらに対する学習を、更新後の学習率を用いて再開した。

ＳＩ−ＤＮＮ音声認識装置及びＰＴ−ＳＡＴ−ＤＮＮ音声認識装置については、学習率の初期値を０．００４にして学習を開始し、２０回（２０エポックに相当）、上記したような学習率の更新規則を用いて繰返した。同様に図３及び図６に示すＤＮＮの学習を行なう際にも、学習率の初期値は０．００４、エポック数は２０であり、さらに制約係数を０．１とした。

これと異なり、図５に示す話者適応の段階では、学習率は評価データに対する認識精度に基づいて定めた値に固定した。ＳＡ−ＤＮＮ音声認識装置の話者適応の学習率は０．００５とし、ＳＡＴ−ＤＮＮ音声認識装置の話者適応の学習率は０．００１とした。これらの話者適応の処理を、制約係数を０．１として１０回繰返した。この制約係数も、評価データに対する認識精度に基づいて定めたものである。

［結果］
結果を図７に示す。図７に示したのは、４つの音声認識装置の性能を単語誤り率で評価したものである。ＳＡ−ＤＮＮ及びＳＡＴ−ＤＮＮについては、前述したＣＶ方式により得た平均の単語誤り率である。図７の表において、左端の欄に示したのは、話者適応の対象とした隠れ層の番号である。１は図１の隠れ層４４に相当し、２は隠れ層４６に相当し、以下同様で、５は隠れ層５２に相当する。ＳＩ−ＤＮＮは話者適応層がないのでいずれの場合も同じ数値（２６．４％）を示してある。

図７から明らかなように、ＳＡＴ−ＤＮＮ音声式装置が最も低い単語誤り率（１８％）を達成した。この数値は、ベースラインとなるＳＩ−ＤＮＮの値より８．４ポイント低い。ＳＡ−ＤＮＮの結果によれば、ＳＩ−ＤＮＮに対する単純な話者適応でも、１８．７〜２０．０％という低い単語誤り率が得られることが分かる。これは、ＳＩ−ＤＮＮによる値より６．４〜７．７ポイント低い数値である。しかし、ＳＡＴ−ＤＮＮに対する結果をＳＡ−ＤＮＮによる結果と比較すると、明らかにＳＡＴ−ＤＮＮの方がよい結果をもたらすことが分かる。どのレイヤを話者適応の対象にしたとしても、同じレイヤを話者適応の対象としたＳＡ−ＤＮＮによる数値より良い結果が得られている。

一方、ＰＴ−ＳＡＴ−ＤＮＮの結果はＳＩ−ＤＮＮよりもやや単語誤り率が高い値となっている。したがってこれ自身をそのまま使用することはできない。しかし、このＰＴ−ＳＡＴ−ＤＮＮの特定のレイヤを話者適応したＳＡＴ−ＤＮＮが上記したようなよい結果を残したことから考えると、ＰＴ−ＳＡＴ−ＤＮＮはＳＡＴ−ＤＮＮを得るための有効なスタート台と考えることができる。話者適応が主としてユーザの環境で行われることに鑑みると、ＰＴ−ＳＡＴ−ＤＮＮを音声認識装置又はソフトウェアのベンダで準備し、話者適応の対象となる特定の隠れ層の初期モジュールと、その初期モジュールを特定の隠れ層に組み込んだＰＴ−ＳＡＴ−ＤＮＮの、初期モジュールのみの学習を行なうソフトウェアとを一組として記憶媒体に格納した商品の形で提供することにより、ユーザにおける話者適応の処理が効率的に行なえ、かつ性能も優れた音声認識装置を得ることができる。

図７の表からはまた、ＳＡ−ＤＮＮ及びＳＡＴ−ＤＮＮのいずれにおいても、話者適応の対象としたレイヤが第３の隠れ層であるときに最も低い単語誤り率が得られたことが分かる。この結果からは直ちには言えないが、話者適応の対象となるレイヤが隠れ層の中央に近いほど、話者適応の効果が高くなるように思われる。この結果からは、ＤＮＮでは入力層に近い部分で入力から音声認識に必要な何らかの音響的な特徴を抽出し、上位のレイヤに伝達していること、話者適応を適切に行なうことにより、話者ごとの特徴情報の処理を行なうノードが中央付近の隠れ層に集中するらしいこと、及び出力装置近い部分では話者独立な言語的処理が主としてなされることが推測できる。

このような実験結果を考慮すると、上記したＳＡＴ−ＤＮＮによる音声認識における話者適応の手法は、例えば特定の雑音環境下における音声認識、及び特定の通信経路における通信チャネルの適応化等、特定の条件でのＤＮＮを用いた認識にも効果的に適用できると考えられる。

［コンピュータによる実現］
上記したＤＮＮの学習装置は、コンピュータハードウェアと、コンピュータハードウェアと協働するコンピュータプログラムとにより実現できる。ここでＳＩＤＮＮの学習と、図５に示すＤＮＮの話者適応とを行なうプログラムは、それぞれ図１及び図２に示す処理を実行するものを利用できる。以下、図６に示す構成を実現するプログラムの制御構造について説明する。

図８を参照して、このプログラムは、起動すると、最初に記憶領域の初期化、音声データ９０、９２、…、９８、及びランダムデータ記憶部１９２内の出力ファイルのオープン等の初期化処理を行なうステップ２２０と、音声データ９０、９２、…、９８の各々を小さな断片からなる分割データに分割し、各分割データに対応する話者の識別情報を付与するステップ２２２と、分割データをランダムな順番で連結し、ランダムデータ記憶部１９２にファイルとして書込むステップ２２４と、ランダムデータ記憶部１９２内に書込んだファイルから分割データを順番に読出し、各データについて以下の処理を実行するステップ２２６を含む。

ステップ２２６は、読み出した分割データに含まれる話者識別情報に応じ、話者別モジュール１１２、１１４、…、１１８及び１２０のうち、その話者識別情報に対応する話者別モジュールを選択して、形成されたＤＮＮ８０の全てのレイヤにわたる学習処理を実行するステップ２３０とを含む。

ステップ２２６の処理を全ての分割データに対して行なうことにより、ＤＮＮ８０の準備的学習が終了する。このプログラムは、ステップ２２０でオープンしたファイルを全てクローズし、ステップ２２０及びその後の処理で確保したメモリを全て解放して実行を終了する。この後、ＤＮＮ８０の話者モジュール切替部１１０をダミーの隠れ層１４０で置換することにより、準備的学習の完了したＤＮＮ１３０が得られる。

［ハードウェア構成］
図９は、上記したＤＮＮの学習及び話者適応を実現するコンピュータプログラムを実行するコンピュータシステム９３０の外観を示し、図１０はコンピュータシステム９３０の内部構成を示す。

図９を参照して、このコンピュータシステム９３０は、メモリポート９５２及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ９５０を有するコンピュータ９４０と、キーボード９４６と、マウス９４８と、モニタ９４２とを含む。

図１０を参照して、コンピュータ９４０は、メモリポート９５２及びＤＶＤドライブ９５０に加えて、ＣＰＵ（中央処理装置）９５６と、ＣＰＵ９５６、メモリポート９５２及びＤＶＤドライブ９５０に接続されたバス９６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）９５８と、バス９６６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）９６０とを含む。コンピュータシステム９３０はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス（Ｉ／Ｆ）９４４を含む。

コンピュータシステム９３０を上記した実施の形態のシステムの各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ９５０又はメモリポート９５２に装着されるＤＶＤ９６２又はリムーバブルメモリ９６４に記憶され、さらにハードディスク９５４に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ９４０に送信されハードディスク９５４に記憶されてもよい。プログラムは実行の際にＲＡＭ９６０にロードされる。ＤＶＤ９６２から、リムーバブルメモリ９６４から、又はネットワークを介して、直接にＲＡＭ９６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ９４０を、上記実施の形態に係るシステムの各機能部として機能させるための複数の命令からなる命令列を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ９４０上で動作するオペレーティングシステム若しくはサードパーティのプログラム、又は、コンピュータ９４０にインストールされる各種プログラミングツールキット又はプログラムライブラリにより実行時に動的に提供されることがある。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールをコンピュータの記憶装置内から動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能をすべて提供するようにしてもよい。

図３〜図９に示す本実施の形態では、学習データ及び各ネットワークのパラメータ等は、ＲＡＭ９６０又はハードディスク９５４に記憶される。ネットワークのパラメータはさらに、ＵＳＢメモリ等のリムーバブルメモリ９６４又はＤＶＤ９６２等に記憶されてもよいし、ネットワーク等の通信媒体を介して他のコンピュータに送信されてもよい。

コンピュータプログラムを実行する際のコンピュータシステム９３０の動作は周知である。したがってここではその詳細については繰返さない。

［変形例］
上記した実施の形態は音声認識における話者適応に関するものであった。しかし、本発明は話者適応のみに適用可能なわけではない。例えば、特定雑音環境下での音声認識についても同様に適用できる。この場合、ＤＮＮのいずれかのレイヤを雑音環境に適応化するよう予め決定しておく。様々な雑音環境下での音声を収集し、雑音環境の種類ごとに個別の学習データとする。さらに雑音環境ごとに雑音別モジュールを準備し、ＤＮＮの特定レイヤにおいて、これら雑音別モジュールを切替可能にする。雑音環境ごとの学習データを用い、上記実施の形態で述べた発話データと同様に学習データの雑音環境の種類に応じて雑音別モジュールを切替えながらＤＮＮの学習を行なう。この学習が完了することで、ＤＮＮの準備的学習が完了する。

適応処理では、適応対象の雑音環境下の音声データを学習データとして準備する。準備的学習が終わったＤＮＮの上記特定レイヤに、何らかの形で準備した初期モジュールを設定する。この特定レイヤ以外のレイヤのパラメータを固定して、学習データを用いてＤＮＮの学習を実行する。この学習の結果得られたＤＮＮは、適応対象の雑音環境下での音声認識のためのＨＭＭに好適に適用できるものとなる。

さらに、上記実施の形態では、適応対象となる話者別モジュールは１つだけであった。しかし本発明はそのような実施の形態には限定されない。理論的には、適応対象となるモジュールは２つ以上であってもよい。それらモジュールを連続したレイヤに配置する必要もない。さらに、適応対象となるモジュールの位置は隠れ層のみには限定されない。入力層又は出力層の適応化に対しても本発明は適用可能である。

また、上記実施の形態は、ＨＭＭの状態出力確率をＤＮＮを用いて計算する音響モデルに関するものであった。しかし、本発明に係るＤＮＮの適応方法はそのようなものには限定されない。例えば、音響分析をＤＮＮを用いて行ない、その結果を用いて従来と同様のＧＭＭ−ＨＭＭの学習を行なう場合の話者適応にも上記実施の形態と同様に適用できる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

３０，８０，１３０，１８０ＤＮＮ
４０，６０，９０，９２，９６，９８，１６２音声データ
４２入力層
４４，４６，４８，５０，５２隠れ層
５４出力層
１００話者選択部
１０２入力選択部
１０４出力選択部
１１０話者モジュール切替部
１１２、１１４、１１８、１２０話者別モジュール
１４０ダミーの隠れ層
１５０話者適応用データ
１６０適応用モジュール
１９０ランダム選択部
１９２ランダムデータ記憶部
１９４データ読出部

Claims

特定の条件に対する音声認識用の統計的音響モデルの適応方法であって、
前記音響モデルは、ディープ・ニューラル・ネットワーク、すなわちＤＮＮを用いた音響モデルであって、当該ＤＮＮは３以上の複数のレイヤを含み、
コンピュータ可読な第１の記憶装置が、複数の条件での発話データを別々に記憶するステップと、
コンピュータが、前記複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、
コンピュータが、前記複数の条件での発話データを切り替えて選択しながら、前記複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながら前記ＤＮＮの全てのレイヤについての準備的学習を行なうステップと、
コンピュータが、前記準備的学習を行なうステップでの学習が完了した前記ＤＮＮの、前記特定レイヤを、予め準備した初期隠れ層で置換するステップと、
コンピュータ可読な第２の記憶装置が、適応対象の条件下での音声データを記憶するステップと、
前記置換するステップにより得られたＤＮＮの、前記初期隠れ層以外のレイヤのパラメータを固定して、前記適応対象の条件下での音声データを前記第２の記憶装置から読み出して、前記ＤＮＮの学習を行なうステップとを含む、統計的音響モデルの適応方法。
前記適応方法はさらに、コンピュータが、前記学習を行なうステップに先立って、発話条件の区別のない大量の音声データで前記ＤＮＮの条件独立な学習を行なうステップと、
前記条件独立な学習を行なうステップでの学習後の前記ＤＮＮの前記特定レイヤの隠れ層のパラメータを第３の記憶装置に記憶するステップを含み、
前記置換するステップは、コンピュータが、前記準備的学習を行なうステップでの学習が完了した前記ＤＮＮの、前記特定レイヤのパラメータに、前記第３の記憶装置に記憶された隠れ層のパラメータをコピーするステップを含む、請求項１に記載の音響モデルの適応方法。
特定条件の音声認識用の統計的音響モデルの適応に適した音響モデルの学習方法であって、
前記音響モデルは、ディープ・ニューラル・ネットワーク、すなわちＤＮＮを用いた音響モデルであって、当該ＤＮＮは３以上の複数のレイヤを含み、
コンピュータ可読な第１の記憶装置が、複数の条件での発話データを別々に記憶するステップと、
コンピュータが、前記複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、
コンピュータが、前記複数の条件での発話データを切り替えて選択しながら、前記複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながら前記ＤＮＮの全てのレイヤについての準備的学習を行なうステップと、
コンピュータが、前記準備的学習を行なうステップでの学習が完了した前記ＤＮＮの、前記特定レイヤを除くレイヤのパラメータを記憶媒体に記憶するステップとを含む、音響モデルの学習方法。
前記学習方法はさらに、
コンピュータが、前記学習を行なうステップに先立って、発話条件の区別のない大量の音声データで前記ＤＮＮの条件独立な学習を行なうステップと、
前記条件独立な学習を行なうステップでの学習後の前記ＤＮＮの前記特定レイヤの隠れ層のパラメータを前記記憶媒体に追加して記憶するステップとを含む、請求項３に記載の学習方法。
特定条件の音声認識用の統計的音響モデルの適応に適した音響モデルのためのディープ・ニューラル・ネットワーク、すなわちＤＮＮを構築するためのパラメータを記憶した記憶媒体であって、
当該記憶媒体に記憶されたパラメータは、３以上の複数のレイヤを含むＤＮＮを構築するためのものであり、
前記記憶媒体はさらに、
前記記憶媒体に記憶されたパラメータを用いて構築されたＤＮＮの、特定レイヤ以外のレイヤのパラメータを固定して、音声データを用いて前記ＤＮＮの学習を行なうことにより、前記ＤＮＮの前記特定レイヤのみの学習を行なうためのプログラムを記憶しており、
前記特定レイヤは、前記記憶媒体に記憶されているＤＮＮに対応して予め定められている、記憶媒体。
特定条件の音声認識用の統計的音響モデルの適応を行なうためのコンピュータプログラムであって、
前記音響モデルは、ディープ・ニューラル・ネットワーク、すなわちＤＮＮを用いた音響モデルであって、当該ＤＮＮは３以上の複数のレイヤを含み、
前記コンピュータプログラムは、コンピュータに、
コンピュータ可読な第１の記憶装置から、複数の条件での発話データを別々に記憶するステップと、
前記複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、
前記複数の条件での発話データを切り替えて選択しながら、前記複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながら前記ＤＮＮの全てのレイヤについての準備的学習を行なうステップと、
前記準備的学習を行なうステップでの学習が完了した前記ＤＮＮの、前記特定レイヤを、予め準備した初期隠れ層で置換するステップと、
前記置換するステップで得られたＤＮＮのパラメータを記憶媒体に記憶させるステップと、
を実行させる、コンピュータプログラム。