JP5777178B2 - 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム - Google Patents

統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム Download PDF

Info

Publication number
JP5777178B2
JP5777178B2 JP2013245098A JP2013245098A JP5777178B2 JP 5777178 B2 JP5777178 B2 JP 5777178B2 JP 2013245098 A JP2013245098 A JP 2013245098A JP 2013245098 A JP2013245098 A JP 2013245098A JP 5777178 B2 JP5777178 B2 JP 5777178B2
Authority
JP
Japan
Prior art keywords
dnn
learning
acoustic model
speaker
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013245098A
Other languages
English (en)
Other versions
JP2015102806A (ja
Inventor
繁樹 松田
繁樹 松田
ルー・シュガン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2013245098A priority Critical patent/JP5777178B2/ja
Priority to EP14866448.5A priority patent/EP3076389A4/en
Priority to CN201480063686.7A priority patent/CN105745700B/zh
Priority to PCT/JP2014/079490 priority patent/WO2015079885A1/ja
Priority to US15/031,449 priority patent/US10629185B2/en
Publication of JP2015102806A publication Critical patent/JP2015102806A/ja
Application granted granted Critical
Publication of JP5777178B2 publication Critical patent/JP5777178B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Description

この発明は、音声認識等の認識技術に用いられるディープ・ニューラル・ネットワーク(以下、記載を簡略にするために「DNN」と呼ぶ。)に関し、特に、特定の対象のためのDNNの学習効率を向上させる技術に関する。
機械学習の1手法としてDNNが注目されている。DNNは例えば、画像認識及び音声認識等に適用されており、誤り率が以前より20〜30%も低下する等、優れた性能を発揮していることが報告されている(非特許文献1〜3)。
DNNとは、従来よりも多くのレイヤ(層)を持つニューラルネットワークであるといえる。具体的には、DNNは、入力層と、出力層と、入力層と出力層との間に設けられた複数の隠れ層とを含む。入力層は複数個の入力ノード(ニューロン)を持つ。出力層は、識別対象の数だけのニューロンを持つ。各隠れ層はそれぞれ複数個のニューロンを持つ。情報は入力層から隠れ層を順番に伝播し、最終的に出力ノードに出力が得られる。この仕組みから、出力ノードに含まれるノード数は他のレイヤより多くなる傾向がある。
DNNでは、レイヤの数だけではなく、各レイヤ内のニューロン数も多い。そのために学習のための計算量が膨大な量になる。以前はそのような計算を行なうことはほとんど不可能だったが、コンピュータ自体の高機能化、分散・並列処理技術の発達及び計算理論の発展により、DNNの学習を行なうことも可能となっている。しかし、学習のために大量のデータを使用する場合、依然として学習のために長時間を要することになる。例えば非特許文献4に記載された実験では、学習データとして200ピクセル×200ピクセルの画像1千万個を用い、1,000台の16コアのコンピュータを用いたDNNの学習に3日間を要したという。
Y. Bengio, "Learning deep architectures for AI," Foundations and Trends in Machine Learning, Vol. 2, No. 1, pp. 1-127, 2009. G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups," IEEE Signal Processing Magazine, Vol. 29, No. 6, pp. 82-97, 2012. A. Mohamed, G. Dahl, and G. Hinton, "Acoustic Modeling using Deep Belief Networks," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 20, No. 1, pp. 14-22, 2012. Quoc V. Le, Marc'Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai Chen, Greg S. Corrado, Jeff Dean Andrew Y. Ng, "Building High-level Features Using Large Scale Unsupervised Learning," Proc. ICML, 2012. H.Liao,"Speaker adaptation of context dependent deep neural networks," in Proc. ICASSP, 2013, pp. 7947-7951.
例えば音声認識では、音素ラベル付きの音声データによる音響モデルの機械学習を行なう。さらに、予めコーパス内での単語又は単語列の出現頻度の統計をとることにより言語モデルを準備する。この音響モデル及び言語モデルを用いて、入力音声に対して統計的な音声認識処理を行ない、入力音声を生ずる尤度の高い文字列を認識結果として出力する。
音声の特徴は話者の性別・年齢によって異なるため、音響モデルは話者の性別及び年齢によって別々に作成すると高い精度が得られる。そのために、同じ性別及び同程度の年齢の話者の大量の音声データを用いて音響モデルの学習を行なう。一方、認識対象の話者が特定の話者であることが分かっている場合には、その話者の音声データのみを用いて音響モデルの学習を行なえば、理論的にはその話者に対する音声認識精度は高くなる。しかし、特定の話者の音声データを大量に集めることは難しい。統計的音声認識では、学習のために大量の音声が必要であるため、このように特定話者のみのための学習を行なうのは難しい。
この問題を解決するために、従来のHMM(隠れマルコフモデル)による音響モデルを用いた音声認識では、SAT(Speaker Adaptive Training)と呼ばれる話者適応の手法が導入され、よい結果を得ている。通常のHMMでは、HMMの各ステートからの音響特徴量の出力確率を推定するために、GMM(Gaussian Mixure Model)を採用している。SATは、音声信号中の話者に依存する音響の変動を正規化し、GMMを含む認識用のパラメータを最適化することにより、音響モデルを話者適応させ、認識精度を高めようとする学習方法である。この方式のHMMをSAT−HMMと呼ぶ。
一方、最近、HMMによる音声認識装置において、話者独立な音声認識のためにGMMに代えてDNNを用いることが提案されている。このようにGMMに代えてDNNを用いるHMMによる音声認識方式を、以下「DNN−HMM」と呼ぶ。DNNは識別力が高いことが知られているため、DNN−HMMにより高い認識精度が得られることが期待される。
このようなDNNで話者適応を行なう例として非特許文献5に示すものがある。図1を参照して、非特許文献5に示す話者適応方式で話者適応をする場合、音響モデルのための、初期化されたDNN30と、特定の話者の音声からなる音声データ40とを準備する。DNN30は、入力層42、出力層54、並びに隠れ層44、46、48、50、及び52を含むものとする。このようにして準備した音声データ40で、DNN30の全体の学習を行なうことにより話者適応したDNN30が得られる。
しかし、精度の高い音声認識結果を得るためには、特定の話者データの音声データのみでは、十分な量の学習データが得られないという問題がある。そこで、上記したSAT−HMMの考え方をDNN−HMMに適用することが考えられる。この場合には、最初に、多数の話者の発話データからなる話者独立な音声データ40を学習データとしてDNN30の学習を行ない、話者独立な音響モデルを作成する。その後、図2に示すように、話者独立な音声データ40に代えて、特定の話者の音声データ60を準備する。さらに、DNN30のうち、話者適応のための隠れ層(例えば隠れ層46)を決める。この隠れ層以外のレイヤのパラメータを全て固定しておいて、音声データ60を用いてDNN30の学習を行なう。その結果、隠れ層46が特定話者の音声データ60により適応化される。このような学習を行なったDNN30を従来のHMM中のGMMに代えて用いることにより、特定の話者に適応した音響モデルが得られる。
ところで、このような方法では、隠れ層46以外のレイヤについては、話者独立な学習を行なった際のパラメータのままで固定される。したがって、話者適応では、隠れ層46のみで話者による音響の特徴の違いを吸収することが必要になる。そのためには特定話者の音声データが十分にないと、やはりDNNの学習を精度よく行なうことができないという問題がある。すなわち、従来のSAT−HMMの技術をDNNに単純に適用しても、音声認識の精度を効率的に高めることが難しいという問題がある。
こうした問題は、特定話者という条件での音声認識を行なうための音響モデル適応のときだけでなく、たとえば特定の雑音環境下という条件で音声認識を行なうことが分かっている場合に、音響モデルをその雑音環境に適応させたり、一定の音声的な特徴を共有するあるグループについての音声認識という条件での音響モデルの学習をしたりする場合にも生ずる問題である。
それゆえに本発明の目的は、特定の条件下で得られた学習データを用いてDNNを用いた音響モデルの適応化を行なう際に、適応を効率的に行なうことができ、精度も高めることができる統計的音響モデルの適応方法、及び統計的音響モデルの適応に適した音響モデルの学習方法を提供することである。
この発明の第1の局面に係る適応方法は、特定条件(例えば特定話者の発話データ又は特定雑音下での発話データ、等)に対する音声認識用の統計的音響モデルの適応方法である。この音響モデルにはDNNを用いている。当該DNNは3以上の複数のレイヤを含む。この方法は、コンピュータ可読な第1の記憶装置が、複数の条件での発話データを別々に記憶するステップと、コンピュータが、複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、コンピュータが、複数の条件での発話データを切替えて選択しながら、複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながらDNNの全てのレイヤについての準備的学習を行なうステップと、コンピュータが、準備的学習を行なうステップでの学習が完了したDNNの、特定レイヤを、予め準備した初期隠れ層で置換するステップと、コンピュータ可読な第2の記憶装置が、適応対象の条件下での音声データを記憶するステップと、置換するステップにより得られたDNNの、初期隠れ層以外のレイヤのパラメータを固定して、適応対象の条件下での音声データを第2の記憶装置から読み出して、DNNの学習を行なうステップとを含む。
好ましくは、この適応方法はさらに、コンピュータが、学習を行なうステップに先立って、発話条件の区別のない大量の音声データでDNNの条件独立な学習を行なうステップと、条件独立な学習を行なうステップでの学習後のDNNの特定レイヤの隠れ層のパラメータを第3の記憶装置に記憶するステップを含む。置換するステップは、コンピュータが、準備的学習を行なうステップでの学習が完了したDNNの、特定レイヤのパラメータに、第3の記憶装置に記憶された隠れ層のパラメータをコピーするステップを含む。
この発明の第2の局面に係る音響モデルの学習方法は、特定条件の音声認識用の統計的音響モデルの適応に適した音響モデルの学習方法である。この音響モデルにはDNNを用いている。当該DNNは3以上の複数のレイヤを含む。この学習方法は、コンピュータ可読な第1の記憶装置が、複数の条件での発話データを別々に記憶するステップと、コンピュータが、複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、コンピュータが、複数の条件での発話データを切替えて選択しながら、複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながらDNNの全てのレイヤについての準備的学習を行なうステップと、コンピュータが、準備的学習を行なうステップでの学習が完了したDNNの、特定レイヤを除くレイヤのパラメータを記憶媒体に記憶するステップとを含む。
好ましくは、この学習方法はさらに、コンピュータが、学習を行なうステップに先立って、発話条件の区別のない大量の音声データでDNNの条件独立な学習を行なうステップと、条件独立な学習を行なうステップでの学習後のDNNの特定レイヤの隠れ層のパラメータを記憶媒体に追加して格納するステップとを含む。
この発明の第3の局面に係る記憶媒体は、特定条件の音声認識用の統計的音響モデルの適応に適した、音響モデルの学習のためのDNNを構築するためのパラメータを記憶した記憶媒体である。当該記憶媒体に記憶されたパラメータは、3以上の複数のレイヤを含むDNNを構築するためのものである。記憶媒体はさらに、記憶媒体に記憶されたパラメータを用いて構築されたDNNの、特定レイヤ以外のレイヤのパラメータを固定して、音声データを用いてDNNの学習を行なうことにより、DNNの特定レイヤのみの学習を行なうためのプログラムを記憶している。この特定レイヤは、記憶媒体に記憶されているDNNに対応して予め定められている。
この発明の第4の局面に係るコンピュータプログラムは、特定条件の音声認識用の統計的音響モデルの適応を行なうためのコンピュータプログラムである。音響モデルにはDNNを用いている。当該DNNは3以上の複数のレイヤを含む。コンピュータプログラムは、コンピュータに、コンピュータ可読な第1の記憶装置から、複数の条件での発話データを別々に記憶するステップと、複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、複数の条件での発話データを切替えて選択しながら、複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながらDNNの全てのレイヤについての準備的学習を行なうステップと、準備的学習を行なうステップでの学習が完了したDNNの、特定レイヤを、予め準備した初期隠れ層で置換するステップと、置換するステップで得られたDNNのパラメータを記憶媒体に記憶させるステップと、を実行させる。
話者独立な音響モデルを構成するDNNの学習過程に先行技術を適用する方法を説明するための図である。 話者独立な音響モデルを構成するDNNの学習過程に先行技術を適用する方法の次のステップを説明するための図である。 本発明の実施の形態に係るDNNの学習において、話者適応に適した音響モデルを構成するDNNの準備方法を説明するための図である。 本発明の実施の形態に係るDNNの学習方法において、話者適応のための隠れ層の学習方法を説明するための図である。 本発明の実施の形態に係るDNNの学習方法において、話者適応のための隠れ層の学習方法を説明するための図である。 図3に示す処理を実現するための装置の構成を説明するための図である。 本発明の実施の形態にしたがって行なった実験結果を先行技術の結果と対比して表形式で示す図である。 本発明の実施の形態において、話者適応に適した音響モデルを構成するDNNの学習を行なうプログラムの制御構造を示すフローチャートである。 実施の形態に係るDNNの学習処理を実行するコンピュータシステムの外観図である。 図9に示すコンピュータの内部構成を示すブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の実施の形態は主に音声認識における、特定話者という条件での適応に関する例についてのものであるが、本発明はそのような実施の形態には限定されない。例えば雑音環境という条件に対する適応にも適用できる。
[構成]
上記したように、DNNを用いた音響モデルで話者適応を行なう場合には、話者独立な音声データでDNNの学習を行なった後、適応対象となる話者の音声データで、特定のレイヤのみの学習を行なう必要がある。その際、それ以外のレイヤのパラメータは固定し、学習を行なわない。しかしそのためには音声データが不足しがちであり、かつ適応のための学習に長時間を要するという問題がある。こうした問題を解決するために、以下に説明するようにDNNを用いた音響モデルの話者適応を行なう。実験によれば、この方法を採用することにより、特定話者のための話者適応を効率的に行なえる、DNNを用いた音響モデルを準備できることが示された。
本実施の形態では、話者独立な音響モデルのためのDNNを準備する際に、予め特定のレイヤ(これを以下「話者適応レイヤ」と呼ぶ。)を用いて話者適応することを前提とする。この前提のもと、後に行われる話者適応レイヤに対する話者適応が効率的に行なえるよう、話者適応レイヤ以外のレイヤのパラメータの準備的学習を行なう。具体的には以下のとおりである。
最初に、図1に示した方法で、全ての発話データを用いて話者独立なDNN30の学習を行なう。DNNは、通常はRestricted Boltzmann Machine(RBM)を用いて初期化する。しかし、RBMは非識別的学習な音声認識等には必ずしも適したものではない。そこで、本実施の形態では、識別的学習の1手法として、RBMにより初期化済のDNNを誤差逆伝搬(EBP)によりCross−Entropy(CE)損失最小化基準を用いて学習するものを採用する。
DNN30は、基本的には通常の多層パーセプトロンネットワークである。DNN30の各ノードには、それぞれ接続ウェイトとバイアスとが付与されている。以下の説明では、DNN30は7つのレイヤを持つものとする。すなわち、DNN30は、発明が解決しようとする課題の項で説明したとおり、入力層42及び出力層54と、入力層42及び出力層54の間に配置された5つの隠れ層44、46、48、50及び52とを含む。
DNN30において、t番目のレイヤLとその前のt−1番目のレイヤLt−1とのノードの接続ウェイトを行列形式でWとする。上記したようにEBPによる学習で得られた話者独立(Speaker−Independent)DNN30のt番目のレイヤL及びLt−1の間のウェイト行列を本明細書では「WSI 」と書く。DNN30のような話者独立なDNNを用いたHMM音声認識方式を以下の説明ではSI DNN−HMMと呼ぶ。「SI」は話者独立を意味する。以下の説明でも同様である。
図3を参照して、この実施の形態では、DNN30のようなSI DNN−HMMが得られた後、話者適応の対象となるDNN80の準備的学習を行なう。この準備的学習では、話者別に用意した多数の音声データ90、92、…、98を用いる。DNN80も、基本的には通常の多層パーセプトロンネットワークである。DNN80の各ノードには、それぞれ接続ウェイトとバイアスとが付与されている。DNN80は、DNN30と同じく7つのレイヤ(層)を持つ。すなわち、DNN80は、入力層42及び出力層54と、入力層42及び出力層54の間に配置された隠れ層44、話者モジュール切替部110、隠れ層48、50及び52とを含む。隠れ層44の出力が話者モジュール切替部110の入力に接続されている。話者モジュール切替部110の出力は隠れ層48の入力に接続される。音声データ90、92、…、98と入力層42の入力との間には、音声データ90、92、…、98の中から特定話者のデータを選択的に取り出す話者選択部100が設けられている。入力層42、隠れ層44、48,50、及び52、並びに出力層54は、DNN30の対応するレイヤのパラメータをコピーすることで得られる。
話者モジュール切替部110は、音声データ90、92、…、98の各話者に対応する隠れ層を構成する話者別モジュール112、114、…、118及び120と、話者選択部100による話者の選択に応答して、話者別モジュール112、114、…、118及び120のうち、選択された話者に対応するものの入力を、隠れ層44の出力に結合する入力選択部102と、話者選択部100による話者の選択に応答して、話者別モジュール112、114、…、118及び120のうち、選択された話者に対応するものの出力を隠れ層48の入力に結合する出力選択部104とを含む。話者別モジュール112、114、…、118及び120の各々は、隠れ層44等と同様の構成を持ち、本実施の形態ではいずれもWSI をそれぞれのウェイト行列にコピーすることにより得られるものを用いた。すなわち、図1のDNN30の学習が完了したときの隠れ層46のパラメータを用いた。
この構成により、後述するように、複数の話者の音声データを用い、話者別モジュール112、114、…、118及び120を話者に応じて適宜選択し切替えながら、入力層42、隠れ層44、話者モジュール切替部110、隠れ層48、50及び52、並びに出力層54の学習を行なうことができる。本実施の形態では、この際にもEBP学習を用いた。ただし、音声データを表現するデータのビット数は通常制限されているため、過学習してしまう危険性がある。そこで、本実施の形態では、過学習を回避するために制約を課した。この制約については後述する。
上記したように、話者別モジュール112、114、…、118及び120を話者に応じて切替えながら全発話者の音声データを用いてDNN80の学習を行なうことで、入力層42、隠れ層44、隠れ層48、50及び52、並びに出力層54の学習が完了する。この学習を本実施の形態では準備的学習と呼ぶ。準備的学習の目的は、話者別モジュール112、114、…、118及び120の学習を行なうことではなく、話者適応に適するように学習した入力層42、隠れ層44、48、50及び52、並びに出力層54を得ることである。図4に示すように、このようにして得られたDNN80の話者モジュール切替部110をダミーの隠れ層140で置換することにより、準備的学習が完了したDNN130が得られる。このDNN130は、後述するように話者モジュール切替部110の位置の隠れ層に対する話者適応に好適なものとなる。したがって、DNN130のパラメータを記憶媒体に格納し、同時に話者モジュール切替部110の位置の隠れ層のみの学習を行なうようなプログラム(図2に示す処理を実行するプログラム)をその記憶媒体に格納することで、DNN130の話者適応を行なうのに好適なデータが記憶媒体に保持されることになる。なお、この際の話者適応の対象となるレイヤは話者モジュール切替部110の位置の隠れ層に固定され、仮にそれ以外のレイヤに対する話者適応を行なってもよい結果は得られない。
図4を参照して、準備的学習を完了したDNN130に対して話者適応を行なう方法について説明する。予め、話者適応用データ150を準備する。話者適応用データ150は、適応の対象となる話者の音声データ162と、適応用モジュール160とを含む。適応用モジュール160は、話者別モジュール112、114、…、118及び120と同様の構成を持つが、話者適応前の隠れ層の初期値に相当するものである。本実施の形態では、適応用モジュール160として、図1及び図2に示す方法で学習したDNN30のうち、話者モジュール切替部110と同じ位置の隠れ層46を用いる。すなわち、適応用モジュール160のウェイト行列に、初期学習後の隠れ層46のウェイト行列Wmean をコピーする。ここで「mean」とは、学習に全話者のデータが用いられたという意味である。
話者適応の準備として、DNN130のうち、ダミーの隠れ層140に適応用モジュール160をコピーする(適応用モジュール160のウェイト行列をダミーの隠れ層140のウェイト行列にコピーする。)ことで、図5に示すように新たなDNN180を得る。このようにして得られた、話者適応前のDNN180を、以下、PT−SAT(Pre−Trained SAT)ネットワークと呼ぶ。
図5に示すように、DNN180のうち、入力層42、隠れ層44,48、50及び52、並びに出力層54のパラメータを固定し、話者別モジュール160の学習のみを音声データ162を用いて行なう。学習は、準備的学習と同様、CE損失最小化基準を用いたEBP学習であり、音声データの規格化を行なう。この学習が終了したときに得られたDNN180が、音声データ162により話者適応した音響モデルのためのDNNとなる。
前述した制約として、ここでは、通常の学習に代えて、規格化EBP学習を用いる。規格化の手法(定義)としてはいくつか考えられえるが、本実施の形態では、図3に示すようなネットワークを得るための初期値であるウェイト行列WSI tSDと図4に示すようなネットワークを得るための初期値であるウェイト行列Wmean tSDとの間の相違のLノルムと、話者別モジュールのウェイト行列とを用いる。この学習では、話者別モジュール及び適応用モジュールのための学習データの数には制限があるが、それ以外のレイヤは十分に多くのデータで学習が行われる。したがって、この実施の形態では、この規格化項を話者別モジュール及び適応用モジュールのみに導入する。
SAT音声認識の学習のための規格化項は次の式(1)により定義される。
Figure 0005777178
ただし、WtSD及びbtSDは、tSD番目のレイヤの話者別モジュールのウェイト行列と、それに対応するバイアスベクトルとであり、Wmean tSD及びbmean tSDとはそれぞれ話者適応の開始直前(話者独立な学習後)におけるウェイト行列とバイアスベクトルとの初期値である。
なお、図3に示すネットワークを得るためには、式(1)中のWmean tSD及びbmean tSDを、tSD番目のSI DNNのウェイト行列とそれに対応するバイアスベクトルとで置換する。
なお、図3に示すような構成で話者を切替えながらDNN80の準備的学習を行なう場合、ある話者による発話データでの学習が全て完了した後に別の話者による発話データでの学習を開始する、というように順番に発話データを切替えると、後の発話データによる影響が先の発話データの影響よりもDNN80の各レイヤに残ってしまう傾向があり、好ましくない。したがって、準備的学習は以下のような構成を用いて行なうのが好ましい。
図6を参照して、話者選択部100は、音声データ90、92、…、98の音声データをそれぞれ小さな断片に分割して各断片に対応する話者を識別する情報(話者識別情報と呼ぶ。)を付し、さらにこれらをランダムな順番で選択して1つのファイルに結合するランダム選択部190と、ランダム選択部190により出力されたファイルを格納するランダムデータ記憶部192と、ランダムデータ記憶部192に記憶されたファイルを先頭から順番に読み出し、話者識別情報を話者モジュール切替部110の入力選択部102及び出力選択部104に出力するデータ読出部194とを含む。データ読出部194の出力は、読み出したデータを入力層42にも与えるよう、入力層42の入力に接続されている。
入力選択部102は、データ読出部194からの話者識別情報に応じて、話者別モジュール112、114、…、118及び120のうち、適切な話者に対応するモジュールを選択し、その入力に隠れ層44の出力を接続するセレクタにより実現できる。出力選択部104も同様、話者別モジュール112、114、…、118及び120のうち、適切な話者に対応するモジュールを選択し、その出力を隠れ層48の入力に接続するセレクタにより実現できる。なお、本実施の形態では、隠れ層が5つあり、そのうち話者モジュール切替部110が2番目の隠れ層の位置に配置されている。したがって入力層42と入力選択部102との間には隠れ層44しか存在しない。しかし、話者モジュール切替部110の位置は変更することができるし、隠れ層の数も5つには限定されない。仮に話者モジュール切替部110が3番目の隠れ層の位置に配置されていれば、入力層42と入力選択部102との間には2つの隠れ層が存在することになる。
このような構成をとることにより、各話者の発話データをランダムに選択しながら、一時に一人の話者の発話データに偏ることのない順番でDNN80の学習が行なえる。その結果、発話データの選択の順番による影響を最小限に抑えながら、DNN80の準備的学習が行なえる。
[動作]
以上に構成を説明したDNNの話者適応装置は、以下のように動作する。予め複数の話者の音声データ90、92、…、98と、図1に示す方法により学習した話者独立なDNN30の隠れ層46とを準備する。
図6を参照して、この話者適応装置は、準備的学習時に先立ち、以下のように動作する。ランダム選択部190は、音声データ90、92、…、98の発話データを小さな断片に分割し、各断片に話者識別情報を付す。ランダム選択部190はさらに、このようにして準備した発話データの多数の断片をランダムな順番で並べ替え、1つのファイルとしてランダムデータ記憶部192に書込む。
準備的学習が開始されると、図6に示すデータ読出部194は、ランダムデータ記憶部192の先頭から順番に音声データの断片を読出し、その話者識別情報を入力選択部102及び出力選択部104に与える。入力選択部102はこの話者識別情報に応じて、話者別モジュール112、114、…、118及び120のうち、話者識別情報に対応するモジュールを選択し、隠れ層44の出力を選択された隠れ層の入力に接続する。出力選択部104も同様、データ読出部194からの話者識別情報に応じて、話者別モジュール112、114、…、118及び120のうち、話者識別情報に対応するモジュールを選択し、その出力を隠れ層48の入力に接続する。このようにしてDNN80の接続が確立した後、データ読出部194がランダムデータ記憶部192から読み出したデータを用いてDNN80の学習を全てのレイヤにわたって行なう。
データ読出部194が読み出した断片による学習が完了すると、データ読出部194は次の断片をランダムデータ記憶部192から読出し、その断片を用いて上記した処理を再び実行する。
こうした処理がランダムデータ記憶部192に格納されたファイル中の全ての断片について完了した時点で、DNN80の準備的学習が終了する。DNN80の話者モジュール切替部110をダミーの隠れ層140で置換することにより、図4に示すDNN130が得られる。
通常は、このようにして準備したDNN130と、予め話者独立なDNNとして学習したDNN30(図1)から隠れ層46のパラメータをコピーして得た適応用モジュール160とが1つのセットとなる。例えば、これらと、図2に示すような従来の学習を行なうためのプログラムとがセットになって商品として流通する。図2に示すようなプログラムが容易に入手可能であれば、このプログラムなしのセットでの流通を行なうこともできる。この場合は、前述したとおり、適応の対象となるレイヤは固定されており、それ以外のレイヤを適応の対象としても意味がない。
話者適応したDNNによる音響モデルを構築しようとするユーザは、準備的学習の終了したDNN130と、初期値としての適応用モジュール160と、図2に示すような学習を行なうプログラムとを入手した後、DNN130のダミーの隠れ層140を、適応用モジュール160で置換する。具体的には、ダミーの隠れ層140のウェイト行列に、適応用モジュール160のウェイト行列をコピーする。さらに、話者適応の対象となる特定の話者の音声データ162を準備し、DNN130の入力に音声データ162が与えられるように装置を設定する。
この状態で、図5に示すように、入力層42、隠れ層44、48、50、及び52、並びに出力層54のパラメータを固定し、発話データを順番に読出してその発話データを学習データとして適応用モジュール160のみの学習を行なう。その結果得られた学習後のDNN180は、音声データ162の話者のために適応化されたものとなり、このDNN180を用いた音響モデルはその話者のために適応化された音響モデルとなる。
[実験]
上記した実施の形態に係るシステムに対し、ウェブ上のTEDの講演コーパスを用いて精度の評価実験を行なった。実験のために、学習データと、評価データと、テストデータとを準備した。
学習データは300話者の発話データからなっていた。各話者の発話データは約30分の長さであった。学習データの合計時間は約150時間であった。
評価データは、8人の話者のデータからなっていた。評価データの話者は、いずれも学習データの話者ではなかった。この評価データは、DNNのハイパーパラメータ(CE損失最小化の学習率、及び正規化率等)の最適値(評価データ自体に対して高い認識率を示すもの)を定めるために使用した。
テストデータは、28人の話者からなっていた。このデータはIWSLT2013のテストデータセットとして用いられるものである。これら話者は、いずれも、学習データの話者とも評価データの話者とも異なっていた。
実験では、従来のHMMを用いた音声認識装置において、HMMの各ステートのGMMに替え、上記したDNNを用いた音声認識装置を実現した。これをSAT−DNN−HMMと呼ぶことにする。SAT−DNN−HMMを評価するため、ベースラインとなる話者独立なDNNを使用したHMM音声認識装置と、図2に示すような方法で話者適応したDNNを使用したHMM音声認識装置とを準備した。前者をSI−DNNと呼び、後者をSA−DNNと呼ぶ。「SI」は「Speaker−Independent」の略であり、「SA」は「Speaker−Adapted」の略である。
SI−DNNは単純な7レイヤのDNNを採用したもので、全ネットワークをRBM学習で初期化した後、学習データを用いたCE損失最小化により学習を行なったものである。
SA−DNNはSI−DNNの1つの隠れ層を、テストデータの28人の話者から選んだ1人の発話データにより適応化したものである。この隠れ層は、SAT−DNNで話者適応した隠れ層と同じレイヤである。クローズド形式の学習に伴う問題を回避するため、話者適応の対象話者の各々について、発話データを4つのサブグループに分割し、4重クロス確認(CV)方式を採用して認識結果を得た。このCV方式では、1つのサブグループをテストに用い、残りの3つのサブグループを学習データとして認識精度を得て、さらにこれをテストのためのサブグループを変えて4回行ない、4回の認識精度の平均を最終的な認識精度とした。
SAT−DNNについては、上述したとおり、最初にSI−DNNと同様の学習を行なって、話者適応のための隠れ層の初期値を準備した。次に、学習データの話者の数と同数(300)の話者別モジュールを準備した。次に、図3及び図6に示した構成により、これら話者別モジュールを使用してDNNの準備的学習を行なった。その後、28人のテスト用話者から選択した適応対象の1人の話者について、図4及び図5に示した構成で話者適応を行なった。
このSAT−DNNの話者適応では、学習データが限られているため、過学習を避ける必要がある。したがって、式(1)中の制約項を隠れ層140のウェイトとバイアスとの更新について適用し、Wmean lsd及びbmean lsdをそれぞれWSI lsd及びbSI lsdに変更した。
音声データを最初に一連の音響特徴ベクトルに変換した。各ベクトルは20ミリ秒の長さで10ミリ秒のシフト間隔のハミングウィンドウにより計算した。音響特徴ベクトルは39次元であり、その要素は12個のMFCC(Mel−scale Frequency Cepstrum Coefficient)と、対数パワーと、12個の差分MFCCと、差分対数パワーと、12個の2次差分MFCと、2次差分対数パワーとである。
さらに、連続する11個の音響特徴ベクトルを連結したもの(429次元)をDNNへの入力とした。ハミングウィンドウの位置を基準にして考えると、この429次元のベクトルは、ハミングウィンドウの直前5つ、ハミングウィンドウ内、及びハミングウィンドウの直後5つ、の合計11個の音響特徴ベクトルを連結したものに相当する。このベクトルの各要素は、その平均と分散とがそれぞれ0及び1となるように正規化した。
音声認識装置では、HMMはいずれも4−グラムの言語モデルを用いた。この言語モデルはTEDの講演、ニュースコメンタリ、及び英語のGigaword(H.Yamamoto, Y.Wu, C. LHuang, X.Lu, P.R.Dixon, S.Matsuda, C. Hori, and H. Kashioka, “The NICT ASR System for IWSLT2012,” in Proceedings of IWSLT2012, 2012.)の書き起こし文により学習したものである。音響モデルとしては、Boosted MMI(最大相互情報量)学習により学習した文脈依存音響モデルを用いた。DNNの学習時、例えば言語モデル及び状態遷移確率等のHMMのパラメータは全て固定した。
音声認識に用いたDNNは、429個の入力ノードと、4909個の出力ノードと、各隠れ層ごとに512個のノードとを持つものであった。レイヤは7つであり、SA−DNNとSAT−DNNとのいずれの場合も5つの隠れ層のうちの1つを話者適応に用いるようにし、選択したレイヤを最初の隠れ層から最後の隠れ層まで変化させることで話者適応におけるレイヤの選択の効果について検討した。
DNNの学習では、時に学習率を細かく調整する必要がある。そのため、学習の各繰返し段階では、評価データに対する認識精度に基づいて以下のような学習率の調整を行なった。
評価データに対する認識精度が低下した場合には、学習率を前回の繰返段階(エポック)と同一に維持した。それ以外の場合には学習率を前回の半分に更新し、ネットワークパラメータ(ウェイト等)については、前回の学習のエポックで最も誤り率の低かったものを採用し、それらに対する学習を、更新後の学習率を用いて再開した。
SI−DNN音声認識装置及びPT−SAT−DNN音声認識装置については、学習率の初期値を0.004にして学習を開始し、20回(20エポックに相当)、上記したような学習率の更新規則を用いて繰返した。同様に図3及び図6に示すDNNの学習を行なう際にも、学習率の初期値は0.004、エポック数は20であり、さらに制約係数を0.1とした。
これと異なり、図5に示す話者適応の段階では、学習率は評価データに対する認識精度に基づいて定めた値に固定した。SA−DNN音声認識装置の話者適応の学習率は0.005とし、SAT−DNN音声認識装置の話者適応の学習率は0.001とした。これらの話者適応の処理を、制約係数を0.1として10回繰返した。この制約係数も、評価データに対する認識精度に基づいて定めたものである。
[結果]
結果を図7に示す。図7に示したのは、4つの音声認識装置の性能を単語誤り率で評価したものである。SA−DNN及びSAT−DNNについては、前述したCV方式により得た平均の単語誤り率である。図7の表において、左端の欄に示したのは、話者適応の対象とした隠れ層の番号である。1は図1の隠れ層44に相当し、2は隠れ層46に相当し、以下同様で、5は隠れ層52に相当する。SI−DNNは話者適応層がないのでいずれの場合も同じ数値(26.4%)を示してある。
図7から明らかなように、SAT−DNN音声式装置が最も低い単語誤り率(18%)を達成した。この数値は、ベースラインとなるSI−DNNの値より8.4ポイント低い。SA−DNNの結果によれば、SI−DNNに対する単純な話者適応でも、18.7〜20.0%という低い単語誤り率が得られることが分かる。これは、SI−DNNによる値より6.4〜7.7ポイント低い数値である。しかし、SAT−DNNに対する結果をSA−DNNによる結果と比較すると、明らかにSAT−DNNの方がよい結果をもたらすことが分かる。どのレイヤを話者適応の対象にしたとしても、同じレイヤを話者適応の対象としたSA−DNNによる数値より良い結果が得られている。
一方、PT−SAT−DNNの結果はSI−DNNよりもやや単語誤り率が高い値となっている。したがってこれ自身をそのまま使用することはできない。しかし、このPT−SAT−DNNの特定のレイヤを話者適応したSAT−DNNが上記したようなよい結果を残したことから考えると、PT−SAT−DNNはSAT−DNNを得るための有効なスタート台と考えることができる。話者適応が主としてユーザの環境で行われることに鑑みると、PT−SAT−DNNを音声認識装置又はソフトウェアのベンダで準備し、話者適応の対象となる特定の隠れ層の初期モジュールと、その初期モジュールを特定の隠れ層に組み込んだPT−SAT−DNNの、初期モジュールのみの学習を行なうソフトウェアとを一組として記憶媒体に格納した商品の形で提供することにより、ユーザにおける話者適応の処理が効率的に行なえ、かつ性能も優れた音声認識装置を得ることができる。
図7の表からはまた、SA−DNN及びSAT−DNNのいずれにおいても、話者適応の対象としたレイヤが第3の隠れ層であるときに最も低い単語誤り率が得られたことが分かる。この結果からは直ちには言えないが、話者適応の対象となるレイヤが隠れ層の中央に近いほど、話者適応の効果が高くなるように思われる。この結果からは、DNNでは入力層に近い部分で入力から音声認識に必要な何らかの音響的な特徴を抽出し、上位のレイヤに伝達していること、話者適応を適切に行なうことにより、話者ごとの特徴情報の処理を行なうノードが中央付近の隠れ層に集中するらしいこと、及び出力装置近い部分では話者独立な言語的処理が主としてなされることが推測できる。
このような実験結果を考慮すると、上記したSAT−DNNによる音声認識における話者適応の手法は、例えば特定の雑音環境下における音声認識、及び特定の通信経路における通信チャネルの適応化等、特定の条件でのDNNを用いた認識にも効果的に適用できると考えられる。
[コンピュータによる実現]
上記したDNNの学習装置は、コンピュータハードウェアと、コンピュータハードウェアと協働するコンピュータプログラムとにより実現できる。ここでSI DNNの学習と、図5に示すDNNの話者適応とを行なうプログラムは、それぞれ図1及び図2に示す処理を実行するものを利用できる。以下、図6に示す構成を実現するプログラムの制御構造について説明する。
図8を参照して、このプログラムは、起動すると、最初に記憶領域の初期化、音声データ90、92、…、98、及びランダムデータ記憶部192内の出力ファイルのオープン等の初期化処理を行なうステップ220と、音声データ90、92、…、98の各々を小さな断片からなる分割データに分割し、各分割データに対応する話者の識別情報を付与するステップ222と、分割データをランダムな順番で連結し、ランダムデータ記憶部192にファイルとして書込むステップ224と、ランダムデータ記憶部192内に書込んだファイルから分割データを順番に読出し、各データについて以下の処理を実行するステップ226を含む。
ステップ226は、読み出した分割データに含まれる話者識別情報に応じ、話者別モジュール112、114、…、118及び120のうち、その話者識別情報に対応する話者別モジュールを選択して、形成されたDNN80の全てのレイヤにわたる学習処理を実行するステップ230とを含む。
ステップ226の処理を全ての分割データに対して行なうことにより、DNN80の準備的学習が終了する。このプログラムは、ステップ220でオープンしたファイルを全てクローズし、ステップ220及びその後の処理で確保したメモリを全て解放して実行を終了する。この後、DNN80の話者モジュール切替部110をダミーの隠れ層140で置換することにより、準備的学習の完了したDNN130が得られる。
[ハードウェア構成]
図9は、上記したDNNの学習及び話者適応を実現するコンピュータプログラムを実行するコンピュータシステム930の外観を示し、図10はコンピュータシステム930の内部構成を示す。
図9を参照して、このコンピュータシステム930は、メモリポート952及びDVD(Digital Versatile Disc)ドライブ950を有するコンピュータ940と、キーボード946と、マウス948と、モニタ942とを含む。
図10を参照して、コンピュータ940は、メモリポート952及びDVDドライブ950に加えて、CPU(中央処理装置)956と、CPU956、メモリポート952及びDVDドライブ950に接続されたバス966と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)958と、バス966に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)960とを含む。コンピュータシステム930はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス(I/F)944を含む。
コンピュータシステム930を上記した実施の形態のシステムの各機能部として機能させるためのコンピュータプログラムは、DVDドライブ950又はメモリポート952に装着されるDVD962又はリムーバブルメモリ964に記憶され、さらにハードディスク954に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ940に送信されハードディスク954に記憶されてもよい。プログラムは実行の際にRAM960にロードされる。DVD962から、リムーバブルメモリ964から、又はネットワークを介して、直接にRAM960にプログラムをロードしてもよい。
このプログラムは、コンピュータ940を、上記実施の形態に係るシステムの各機能部として機能させるための複数の命令からなる命令列を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ940上で動作するオペレーティングシステム若しくはサードパーティのプログラム、又は、コンピュータ940にインストールされる各種プログラミングツールキット又はプログラムライブラリにより実行時に動的に提供されることがある。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールをコンピュータの記憶装置内から動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能をすべて提供するようにしてもよい。
図3〜図9に示す本実施の形態では、学習データ及び各ネットワークのパラメータ等は、RAM960又はハードディスク954に記憶される。ネットワークのパラメータはさらに、USBメモリ等のリムーバブルメモリ964又はDVD962等に記憶されてもよいし、ネットワーク等の通信媒体を介して他のコンピュータに送信されてもよい。
コンピュータプログラムを実行する際のコンピュータシステム930の動作は周知である。したがってここではその詳細については繰返さない。
[変形例]
上記した実施の形態は音声認識における話者適応に関するものであった。しかし、本発明は話者適応のみに適用可能なわけではない。例えば、特定雑音環境下での音声認識についても同様に適用できる。この場合、DNNのいずれかのレイヤを雑音環境に適応化するよう予め決定しておく。様々な雑音環境下での音声を収集し、雑音環境の種類ごとに個別の学習データとする。さらに雑音環境ごとに雑音別モジュールを準備し、DNNの特定レイヤにおいて、これら雑音別モジュールを切替可能にする。雑音環境ごとの学習データを用い、上記実施の形態で述べた発話データと同様に学習データの雑音環境の種類に応じて雑音別モジュールを切替えながらDNNの学習を行なう。この学習が完了することで、DNNの準備的学習が完了する。
適応処理では、適応対象の雑音環境下の音声データを学習データとして準備する。準備的学習が終わったDNNの上記特定レイヤに、何らかの形で準備した初期モジュールを設定する。この特定レイヤ以外のレイヤのパラメータを固定して、学習データを用いてDNNの学習を実行する。この学習の結果得られたDNNは、適応対象の雑音環境下での音声認識のためのHMMに好適に適用できるものとなる。
さらに、上記実施の形態では、適応対象となる話者別モジュールは1つだけであった。しかし本発明はそのような実施の形態には限定されない。理論的には、適応対象となるモジュールは2つ以上であってもよい。それらモジュールを連続したレイヤに配置する必要もない。さらに、適応対象となるモジュールの位置は隠れ層のみには限定されない。入力層又は出力層の適応化に対しても本発明は適用可能である。
また、上記実施の形態は、HMMの状態出力確率をDNNを用いて計算する音響モデルに関するものであった。しかし、本発明に係るDNNの適応方法はそのようなものには限定されない。例えば、音響分析をDNNを用いて行ない、その結果を用いて従来と同様のGMM−HMMの学習を行なう場合の話者適応にも上記実施の形態と同様に適用できる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
30,80,130,180 DNN
40,60,90,92,96,98,162 音声データ
42 入力層
44,46,48,50,52 隠れ層
54 出力層
100 話者選択部
102 入力選択部
104 出力選択部
110 話者モジュール切替部
112、114、118、120 話者別モジュール
140 ダミーの隠れ層
150 話者適応用データ
160 適応用モジュール
190 ランダム選択部
192 ランダムデータ記憶部
194 データ読出部

Claims (6)

  1. 特定の条件に対する音声認識用の統計的音響モデルの適応方法であって、
    前記音響モデルは、ディープ・ニューラル・ネットワーク、すなわちDNNを用いた音響モデルであって、当該DNNは3以上の複数のレイヤを含み、
    コンピュータ可読な第1の記憶装置が、複数の条件での発話データを別々に記憶するステップと、
    コンピュータが、前記複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、
    コンピュータが、前記複数の条件での発話データを切り替えて選択しながら、前記複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながら前記DNNの全てのレイヤについての準備的学習を行なうステップと、
    コンピュータが、前記準備的学習を行なうステップでの学習が完了した前記DNNの、前記特定レイヤを、予め準備した初期隠れ層で置換するステップと、
    コンピュータ可読な第2の記憶装置が、適応対象の条件下での音声データを記憶するステップと、
    前記置換するステップにより得られたDNNの、前記初期隠れ層以外のレイヤのパラメータを固定して、前記適応対象の条件下での音声データを前記第2の記憶装置から読み出して、前記DNNの学習を行なうステップとを含む、統計的音響モデルの適応方法。
  2. 前記適応方法はさらに、コンピュータが、前記学習を行なうステップに先立って、発話条件の区別のない大量の音声データで前記DNNの条件独立な学習を行なうステップと、
    前記条件独立な学習を行なうステップでの学習後の前記DNNの前記特定レイヤの隠れ層のパラメータを第3の記憶装置に記憶するステップを含み、
    前記置換するステップは、コンピュータが、前記準備的学習を行なうステップでの学習が完了した前記DNNの、前記特定レイヤのパラメータに、前記第3の記憶装置に記憶された隠れ層のパラメータをコピーするステップを含む、請求項1に記載の音響モデルの適応方法。
  3. 特定条件の音声認識用の統計的音響モデルの適応に適した音響モデルの学習方法であって、
    前記音響モデルは、ディープ・ニューラル・ネットワーク、すなわちDNNを用いた音響モデルであって、当該DNNは3以上の複数のレイヤを含み、
    コンピュータ可読な第1の記憶装置が、複数の条件での発話データを別々に記憶するステップと、
    コンピュータが、前記複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、
    コンピュータが、前記複数の条件での発話データを切り替えて選択しながら、前記複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながら前記DNNの全てのレイヤについての準備的学習を行なうステップと、
    コンピュータが、前記準備的学習を行なうステップでの学習が完了した前記DNNの、前記特定レイヤを除くレイヤのパラメータを記憶媒体に記憶するステップとを含む、音響モデルの学習方法。
  4. 前記学習方法はさらに、
    コンピュータが、前記学習を行なうステップに先立って、発話条件の区別のない大量の音声データで前記DNNの条件独立な学習を行なうステップと、
    前記条件独立な学習を行なうステップでの学習後の前記DNNの前記特定レイヤの隠れ層のパラメータを前記記憶媒体に追加して記憶するステップとを含む、請求項3に記載の学習方法。
  5. 特定条件の音声認識用の統計的音響モデルの適応に適した音響モデルのためのディープ・ニューラル・ネットワーク、すなわちDNNを構築するためのパラメータを記憶した記憶媒体であって、
    当該記憶媒体に記憶されたパラメータは、3以上の複数のレイヤを含むDNNを構築するためのものであり、
    前記記憶媒体はさらに、
    前記記憶媒体に記憶されたパラメータを用いて構築されたDNNの、特定レイヤ以外のレイヤのパラメータを固定して、音声データを用いて前記DNNの学習を行なうことにより、前記DNNの前記特定レイヤのみの学習を行なうためのプログラムを記憶しており、
    前記特定レイヤは、前記記憶媒体に記憶されているDNNに対応して予め定められている、記憶媒体。
  6. 特定条件の音声認識用の統計的音響モデルの適応を行なうためのコンピュータプログラムであって、
    前記音響モデルは、ディープ・ニューラル・ネットワーク、すなわちDNNを用いた音響モデルであって、当該DNNは3以上の複数のレイヤを含み、
    前記コンピュータプログラムは、コンピュータに、
    コンピュータ可読な第1の記憶装置から、複数の条件での発話データを別々に記憶するステップと、
    前記複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、
    前記複数の条件での発話データを切り替えて選択しながら、前記複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながら前記DNNの全てのレイヤについての準備的学習を行なうステップと、
    前記準備的学習を行なうステップでの学習が完了した前記DNNの、前記特定レイヤを、予め準備した初期隠れ層で置換するステップと、
    前記置換するステップで得られたDNNのパラメータを記憶媒体に記憶させるステップと、
    を実行させる、コンピュータプログラム。
JP2013245098A 2013-11-27 2013-11-27 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム Active JP5777178B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2013245098A JP5777178B2 (ja) 2013-11-27 2013-11-27 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
EP14866448.5A EP3076389A4 (en) 2013-11-27 2014-11-06 Statistical-acoustic-model adaptation method, acoustic-model learning method suitable for statistical-acoustic-model adaptation, storage medium in which parameters for building deep neural network are stored, and computer program for adapting statistical acoustic model
CN201480063686.7A CN105745700B (zh) 2013-11-27 2014-11-06 统计声学模型的自适应方法以及学习方法、记录介质
PCT/JP2014/079490 WO2015079885A1 (ja) 2013-11-27 2014-11-06 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US15/031,449 US10629185B2 (en) 2013-11-27 2014-11-06 Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013245098A JP5777178B2 (ja) 2013-11-27 2013-11-27 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2015102806A JP2015102806A (ja) 2015-06-04
JP5777178B2 true JP5777178B2 (ja) 2015-09-09

Family

ID=53198833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013245098A Active JP5777178B2 (ja) 2013-11-27 2013-11-27 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム

Country Status (5)

Country Link
US (1) US10629185B2 (ja)
EP (1) EP3076389A4 (ja)
JP (1) JP5777178B2 (ja)
CN (1) CN105745700B (ja)
WO (1) WO2015079885A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957308B2 (en) 2018-05-11 2021-03-23 Samsung Electronics Co., Ltd. Device and method to personalize speech recognition model

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
JP6543820B2 (ja) * 2015-06-04 2019-07-17 国立大学法人電気通信大学 声質変換方法および声質変換装置
CN106254888B (zh) * 2015-06-09 2020-06-02 同济大学 一种图像编码及解码方法、图像处理设备
WO2016208789A1 (ko) * 2015-06-26 2016-12-29 삼성전자 주식회사 소리를 판별하는 방법 및 이를 위한 장치
US10304440B1 (en) * 2015-07-10 2019-05-28 Amazon Technologies, Inc. Keyword spotting using multi-task configuration
WO2017011702A1 (en) * 2015-07-15 2017-01-19 Cylance Inc. Malware detection
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
KR102386854B1 (ko) 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
US10147442B1 (en) * 2015-09-29 2018-12-04 Amazon Technologies, Inc. Robust neural network acoustic model with side task prediction of reference signals
CN106683677B (zh) * 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
JP6679898B2 (ja) 2015-11-24 2020-04-15 富士通株式会社 キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN105702250B (zh) * 2016-01-06 2020-05-19 福建天晴数码有限公司 语音识别方法和装置
US10013973B2 (en) 2016-01-18 2018-07-03 Kabushiki Kaisha Toshiba Speaker-adaptive speech recognition
GB2558629B (en) * 2017-01-11 2019-08-07 Toshiba Kk Speaker-adaptive speech recognition
US11841789B2 (en) 2016-01-27 2023-12-12 Microsoft Technology Licensing, Llc Visual aids for debugging
US11868896B2 (en) 2016-01-27 2024-01-09 Microsoft Technology Licensing, Llc Interface for working with simulations on premises
US11775850B2 (en) 2016-01-27 2023-10-03 Microsoft Technology Licensing, Llc Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model
US11836650B2 (en) * 2016-01-27 2023-12-05 Microsoft Technology Licensing, Llc Artificial intelligence engine for mixing and enhancing features from one or more trained pre-existing machine-learning models
US10733532B2 (en) 2016-01-27 2020-08-04 Bonsai AI, Inc. Multiple user interfaces of an artificial intelligence system to accommodate different types of users solving different types of problems with artificial intelligence
CN108701452B (zh) 2016-02-02 2023-09-26 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置及记录介质
US10235994B2 (en) 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
US10510001B2 (en) * 2016-03-18 2019-12-17 Mindtrace Limited Neuromorphic training algorithm for a Restricted Boltzmann Machine
WO2017165551A1 (en) * 2016-03-22 2017-09-28 Sri International Systems and methods for speech recognition in unseen and noisy channel conditions
CN106251859B (zh) 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN106228976B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
JP6588874B2 (ja) * 2016-08-01 2019-10-09 日本電信電話株式会社 単語予測装置、プログラム
WO2018029777A1 (ja) * 2016-08-09 2018-02-15 三菱電機株式会社 話者適応化装置、音声認識装置および音声認識方法
CN107785015A (zh) * 2016-08-26 2018-03-09 阿里巴巴集团控股有限公司 一种语音识别方法及装置
US9824692B1 (en) * 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
CA3036561C (en) 2016-09-19 2021-06-29 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
US10949602B2 (en) 2016-09-20 2021-03-16 Nuance Communications, Inc. Sequencing medical codes methods and apparatus
CN106503461B (zh) * 2016-10-26 2018-12-07 广东产品质量监督检验研究院 一种基于深度学习法构建的光伏组件加速退化模型及光伏组件寿命预测方法
US10170110B2 (en) * 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
JP6728083B2 (ja) * 2017-02-08 2020-07-22 日本電信電話株式会社 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
WO2018151125A1 (ja) * 2017-02-15 2018-08-23 日本電信電話株式会社 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
US11270686B2 (en) * 2017-03-28 2022-03-08 International Business Machines Corporation Deep language and acoustic modeling convergence and cross training
US10929749B2 (en) 2017-04-24 2021-02-23 Intel Corporation Neural network optimization mechanism
CN107507612B (zh) * 2017-06-30 2020-08-28 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
JP6955155B2 (ja) * 2017-10-17 2021-10-27 富士通株式会社 学習装置、学習方法及び学習プログラム
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN108492820B (zh) * 2018-03-20 2021-08-10 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
US10832660B2 (en) * 2018-04-10 2020-11-10 Futurewei Technologies, Inc. Method and device for processing whispered speech
US10839791B2 (en) * 2018-06-27 2020-11-17 International Business Machines Corporation Neural network-based acoustic model with softening target-layer
JP7231181B2 (ja) * 2018-07-17 2023-03-01 国立研究開発法人情報通信研究機構 耐雑音音声認識装置及び方法、並びにコンピュータプログラム
JP7251079B2 (ja) * 2018-09-14 2023-04-04 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム
US11494612B2 (en) * 2018-10-31 2022-11-08 Sony Interactive Entertainment Inc. Systems and methods for domain adaptation in neural networks using domain classifier
CN109637526A (zh) * 2019-01-08 2019-04-16 西安电子科技大学 基于个人身份特征的dnn声学模型的自适应方法
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
CN109887511A (zh) * 2019-04-24 2019-06-14 武汉水象电子科技有限公司 一种基于级联dnn的语音唤醒优化方法
US11468244B2 (en) * 2019-05-28 2022-10-11 Google Llc Large-scale multilingual speech recognition with a streaming end-to-end model
KR102246936B1 (ko) 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
JP6811811B1 (ja) * 2019-07-04 2021-01-13 Jcc株式会社 メタデータ生成システム、映像コンテンツ管理システム及びプログラム
KR102321798B1 (ko) * 2019-08-15 2021-11-05 엘지전자 주식회사 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스
WO2022044425A1 (ja) * 2020-08-28 2022-03-03 富士フイルム株式会社 学習装置、学習方法、プログラム、学習済みモデル、及び内視鏡システム
CN112259079A (zh) * 2020-10-19 2021-01-22 北京有竹居网络技术有限公司 语音识别的方法、装置、设备和计算机可读介质
CN114664292B (zh) * 2020-12-22 2023-08-01 马上消费金融股份有限公司 模型训练、语音识别方法、装置、设备及可读存储介质
CN112908359A (zh) * 2021-01-31 2021-06-04 云知声智能科技股份有限公司 语音测评方法、装置、电子设备及计算机可读介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317673A (en) * 1992-06-22 1994-05-31 Sri International Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system
FR2756073B1 (fr) * 1996-11-18 1999-01-15 Commissariat Energie Atomique Procede d'apprentissage generant des reseaux de neurones de petites tailles pour la classification de donnees
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
WO2005034086A1 (ja) * 2003-10-03 2005-04-14 Asahi Kasei Kabushiki Kaisha データ処理装置及びデータ処理装置制御プログラム
TWI297486B (en) * 2006-09-29 2008-06-01 Univ Nat Chiao Tung Intelligent classification of sound signals with applicaation and method
KR100908121B1 (ko) * 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
JP2008216488A (ja) * 2007-03-01 2008-09-18 Univ Waseda 音声処理装置及び音声認識装置
CN102237086A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 用于语音识别设备的补偿装置和方法
US8965819B2 (en) * 2010-08-16 2015-02-24 Oracle International Corporation System and method for effective caching using neural networks
US9235799B2 (en) * 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
WO2013149123A1 (en) * 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
CN103117060B (zh) * 2013-01-18 2015-10-28 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模系统
CN103400577B (zh) * 2013-08-01 2015-09-16 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
US9401148B2 (en) * 2013-11-04 2016-07-26 Google Inc. Speaker verification using neural networks

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957308B2 (en) 2018-05-11 2021-03-23 Samsung Electronics Co., Ltd. Device and method to personalize speech recognition model

Also Published As

Publication number Publication date
WO2015079885A1 (ja) 2015-06-04
US10629185B2 (en) 2020-04-21
CN105745700A (zh) 2016-07-06
EP3076389A1 (en) 2016-10-05
EP3076389A4 (en) 2017-10-04
CN105745700B (zh) 2019-11-01
US20160260428A1 (en) 2016-09-08
JP2015102806A (ja) 2015-06-04

Similar Documents

Publication Publication Date Title
JP5777178B2 (ja) 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
Fer et al. Multilingually trained bottleneck features in spoken language recognition
Huang et al. A unified approach to transfer learning of deep neural networks with applications to speaker adaptation in automatic speech recognition
Dahl et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition
JP6164639B2 (ja) ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム
Yi et al. CTC regularized model adaptation for improving LSTM RNN based multi-accent mandarin speech recognition
Enarvi et al. Automatic speech recognition with very large conversational finnish and estonian vocabularies
Yu et al. Deep neural network-hidden markov model hybrid systems
Kadyan et al. A comparative study of deep neural network based Punjabi-ASR system
Kurimo et al. Modeling under-resourced languages for speech recognition
Enarvi et al. Theanolm-an extensible toolkit for neural network language modeling
Guo et al. Deep neural network based i-vector mapping for speaker verification using short utterances
Hong et al. A genetic classification method for speaker recognition
Pakoci et al. Improvements in Serbian speech recognition using sequence-trained deep neural networks
Falavigna et al. DNN adaptation by automatic quality estimation of ASR hypotheses
TOMBALOĞLU et al. Turkish Speech Recognition Techniques and Applications of Recurrent Units (LSTM and GRU)
JP7423056B2 (ja) 推論器および推論器の学習方法
JP4861912B2 (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
Zhu et al. Gaussian free cluster tree construction using deep neural network.
Carvalho et al. TRIBUS: An end-to-end automatic speech recognition system for European Portuguese.
JP2019078857A (ja) 音響モデルの学習方法及びコンピュータプログラム
Higuchi et al. Speaker Adversarial Training of DPGMM-Based Feature Extractor for Zero-Resource Languages.
Su Combining speech and speaker recognition: A joint modeling approach

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150430

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20150430

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20150529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150702

R150 Certificate of patent or registration of utility model

Ref document number: 5777178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250