JP2019095600A

JP2019095600A - 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム

Info

Publication number: JP2019095600A
Application number: JP2017224950A
Authority: JP
Inventors: 崇史森谷; Takashi Moriya; 山口　義和; Yoshikazu Yamaguchi; 義和山口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2019-06-20
Anticipated expiration: 2037-11-22
Also published as: JP6827911B2

Abstract

【課題】知識の累積および実利用を考慮した音響モデルを学習する音響モデル学習装置等を提供する。【解決手段】N個のタスクにそれぞれ対応する中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含み、ニューラルネットワークの出力層を含み、N個のタスクにそれぞれ対応する中間特徴量からタスク毎の出力確率分布を得、n番目の出力確率分布と、音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、1番目から(n-1)番目までのニューラルネットワークのパラメタを固定し、音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるように、n番目のニューラルネットワークのパラメタを更新し、n-1番目のタスクの難易度は、n番目のタスクの難易度以下であり、1番目のニューラルネットワークのパラメタから順にN番目のニューラルネットワークのパラメタまで更新する。【選択図】図５

Description

本発明は、音声認識用のニューラルネットワーク型音響モデル（以下、単に「音響モデル」ともいう）を用いた音声認識装置、音響モデルを学習する音響モデル学習装置、それらの方法、及びプログラムに関する。

一般的なニューラルネットワークの学習方法を用いて、音響モデルを学習する方法として非特許文献１の”TRAINING DEEP NEURAL NETWORKS”が知られている（以下、この方法を「従来技術１」ともいう）。図１は、この方法を用いた音響モデル学習装置の機能ブロック図を示す。

事前に学習用の音響信号の各サンプルから抽出した音響特徴量（実数ベクトル）と各音響特徴量に対応する正解ユニット番号のペア(学習データ)、および適当な初期モデルを用意する。初期モデルとしては、各パラメタに乱数を割り当てたニューラルネットワークや、既に別の学習データで学習済みのニューラルネットワークなどが利用できる。中間特徴量抽出部１０１は入力された音響特徴量から、中間特徴量を抽出する。中間特徴量は出力確率分布計算部１０２において正解ユニットを識別しやすくするための特徴量であり、例えば次式で計算することができる。

y_jはニューラルネットワークに含まれるある中間層のユニットjで得られる中間特徴量であり、b_jはユニットjのバイアスであり、w_ijは下位の中間層のユニットiからある中間層のユニットjへの重みである。この中間特徴量抽出部１０１は、ニューラルネットワークの入力層と1つ以上の中間層とを含み、層の数だけ中間特徴量を抽出する計算が行われる。

出力確率分布計算部１０２は、中間特徴量抽出部１０１で抽出した中間特徴量を現在のモデルに入力して出力層の各ユニットjの出力確率p_jを次式により計算し、出力確率p_jを並べた出力確率分布を得る。

モデル更新部１０３は、正解ユニット番号と出力確率分布から次式により損失関数Cを計算する。

ただし、d_jはターゲットラベルを表す。そして、損失関数Cの値を減少させるように次式によりモデルを更新する。

式(1)のw_ijとして上述のΔw_ij(t)を用いて処理を繰り返す。ただし、αはミニバッチtについて計算された勾配を平滑化するための値であり0<α<1とし、εはパラメタの更新量を制御するステップサイズパラメタである。この処理を全学習データに対して行った場合を１エポックとしたときに、所定のエポック数（通常、数十〜数百回）の繰り返しが完了した時点のモデルを学習済みモデルとして利用する。

非特許文献２には、最終的に性能を上げたいタスクに対して類似した簡単なタスクの学習データを用いてモデルを学習させる方法（以下、カリキュラム学習と呼ぶ）が記載されている。

非特許文献２におけるカリキュラム学習を可能とするフレームワークを図２に示す。以下、この構成を従来技術２ともいう。基本的なモジュール（中間特徴量抽出部１０１、出力確率分布計算部１０２、モデル更新部１０３）は従来技術１（図１）と同様である。異なる点は簡単なタスク１を学習した後にタスク１より難しいタスク２を学習する際に、タスク１で学習した中間特徴量抽出部１０１を用いてタスク２の学習データで中間特徴量抽出部１０１および出力確率分布計算部１０２を再学習する。この方法を最終的に解きたいタスクNとなるまで繰り返して最終的なモデルを学習する。非特許文献２には、カリキュラム学習により、簡単なタスクから徐々に難しいタスクを学習させることで、最終的に解きたいタスクNにおける性能が最初からタスクNで学習したモデルの性能よりも改善することが記載されている。

非特許文献３には、あるタスクの学習データを用いて学習したニューラルネットワークのモデルが持つ知識を新たなタスクへ転移学習させる方法が記載されている。

図３は、非特許文献３における転移学習を可能とする音響モデル学習装置の機能ブロック図を示す。以下、この構成を従来技術３ともいう。従来技術３の基本的なモジュール（中間特徴量抽出部１０１（１）、出力確率分布計算部１０２（１）、モデル更新部１０３（１））は、それぞれ従来技術１（図１）の中間特徴量抽出部１０１、出力確率分布計算部１０２、モデル更新部１０３と同様である。

異なる点はタスク１に加えて新しいタスク２が追加された際に、中間特徴量抽出部１０１（２）、出力確率分布計算部１０２（２）を用意する点である。図３中、破線で示した中間特徴量抽出部１０１（１）、出力確率分布計算部１０２（１）では、タスク１で学習したパラメタを用いる。なお、各部の出力ベクトルの次元が次のモジュールで用いるモデルへの入力の次元となるように、次のモジュールにおいて線形射影を行っている。同様に実線部の中間特徴量抽出部１０１（２）、出力確率分布計算部１０２（２）では、タスク２の学習データを用いてモデル更新部１０３によって学習されるパラメタを用いる。中間特徴量抽出部１０１（２）は、タスク２の学習データを用いてモデル更新部１０３によって学習されるパラメタを用いて、中間特徴量抽出部１０１（１）の出力値である中間特徴量と、音響特徴量(タスク２)とから中間特徴量を抽出する(非特許文献３参照)。同様に、出力確率分布計算部１０２（２）は、タスク２の学習データを用いてモデル更新部１０３によって学習されるパラメタと、中間特徴量抽出部１０１（１），１０１（２）で求めた中間特徴量とを用いて、出力確率分布を求める(非特許文献１，２参照)。モデル更新部１０３は、出力確率分布計算部１０２（２）の出力値(出力確率分布)を用いて、損失関数Cを計算し(非特許文献１参照)、損失関数Cの値を減少させるように新しいタスクのために生成されたニューラルネットワークのパラメタのみ（中間特徴量抽出部１０１（２）、出力確率分布計算部１０２（２）において用いるパラメタ）を更新する。

さらにタスクを追加する手順は図３と同様であり、N番目のタスクまで追加した場合の機能ブロック図を図４に示す。

この学習方法を用いることで過去のタスク（1,…,N-1）の知識を失わない、かつN番目の新しいタスクの知識に効率よく転移させることが可能であることが非特許文献３に記載されている。

Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," IEEE Signal Processing Magazine, Vol. 29, No 6, pp.82-97, 2012. Y. Bengio, J. Louradour, R. Collobert, and J. Weston, "Curriculum learning," ICML, pp. 41-48, 2009. A. A. Rusu, N. C. Rabinowitz, G. Desjardins, H. Soyer, J. Kirkpatrick, K. Kavukcuoglu, R. Pascanu, and R. Hadsell, "Progressive neural networks," arXiv preprint arXiv:1606.04671, 2016.

従来技術１では、１つの中間特徴量抽出部および出力確率分布計算部へ新たにタスクの音声を追加して学習する際に、最も新しいタスクに対しては最適なモデルとなるが過去の知識を忘却（パラメタの上書き）する問題がある。これはニューラルネットのモデルの性質により起こる問題である（以下、課題１ともいう）。この問題は従来技術２においても同様に起こっている問題である。

また、従来技術３では、中間特徴量抽出部および出力確率分布計算部をタスクごとに用意し、過去のタスクに対応する中間特徴量抽出部および出力確率分布計算部から新たなタスクの中間特徴量抽出部および出力確率分布計算部へ線形結合させることで過去のタスクに関する知識を活かした学習が可能となり、モデル更新時は過去の中間特徴量抽出部と出力確率分布計算部を更新しないことで過去のタスクに関する知識の忘却（パラメタの上書き）を防いており、従来技術１の問題を解決している。しかし、入力した特徴量がどのタスクであるかが既知でないと実利用できない欠点がある（以下、課題２ともいう）。

以上の課題１、および課題２により、現状の音響モデルでは過去のタスクに関する知識を累積するような学習、かつ実利用を考慮することが困難である。

本発明は、知識の累積および実利用を考慮した音響モデルを学習する音響モデル学習装置、その音響モデルを用いた音声認識装置、それらの方法、及びプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、音響モデル学習装置は、Nを2以上の整数の何れかとし、n=1,2,…,Nとし、N個のタスクにそれぞれ対応し、音響モデル学習用音響特徴量を入力とし、中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含むN個の中間特徴量抽出部と、N個のタスクにそれぞれ対応し、ニューラルネットワークの出力層を含み、中間特徴量からタスク毎の出力確率分布を得るN個の出力確率分布計算部と、n番目の出力確率分布と、音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、1番目から(n-1)番目までのニューラルネットワークのパラメタを固定し、音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるように、n番目のニューラルネットワークのパラメタを更新するモデル更新部とを含み、n-1番目のタスクの難易度は、n番目のタスクの難易度以下であり、1番目のニューラルネットワークのパラメタから順にN番目のニューラルネットワークのパラメタまで更新する。

上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習方法は、音響モデル学習装置が実行する。音響モデル学習方法は、Nを2以上の整数の何れかとし、n=1,2,…,Nとし、N個のタスクにそれぞれ対応し、音響モデル学習用音響特徴量を入力とし、中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含むN個の中間特徴量抽出ステップと、N個のタスクにそれぞれ対応し、ニューラルネットワークの出力層を含み、中間特徴量からタスク毎の出力確率分布を得るN個の出力確率分布計算ステップと、n番目の出力確率分布と、音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、1番目から(n-1)番目までのニューラルネットワークのパラメタを固定し、音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるように、n番目のニューラルネットワークのパラメタを更新するモデル更新ステップとを含み、n-1番目のタスクの難易度は、n番目のタスクの難易度以下であり、1番目のニューラルネットワークのパラメタから順にN番目のニューラルネットワークのパラメタまで更新する。

本発明によれば、知識の累積および実利用を考慮した音響モデルを学習することができる。最終的に解きたいタスクのために簡単なタスクからカリキュラム学習する際に、タスク別に特徴量抽出部を持たせることで各特徴量抽出部が最終的に解きたいタスクの補助特徴量抽出部となっているため、従来技術１および従来技術２よりも性能を改善することが可能となる。なお、音声認識におけるカリキュラム学習を行う際のタスクは、難易度の低いものから順に並んでおり、例えば、1.音声の有無の判別、2.母音の判別、3.音素の判別となり、4.最終的に解きたいタスクとは音素の前後を考慮してさらに詳細に分類した音声認識用シンボルの判別となる。

従来技術１を説明するための図。従来技術２を説明するための図。従来技術３を説明するための図。従来技術３を説明するための図。第一実施形態に係る音響モデル学習装置の機能ブロック図。第一実施形態に係る音響モデル学習装置の処理フローの例を示す図。中間特徴量抽出部及び出力確率分布計算部に含まれるニューラルネットワークを説明するための図。中間特徴量抽出部及び出力確率分布計算部に含まれるニューラルネットワークを説明するための図。第二実施形態に係る音声認識装置の機能ブロック図。第二実施形態に係る音声認識装置の処理フローの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
本実施形態のポイントは以下の通りである。

従来技術３を音響モデルの学習に応用することで従来技術１および従来技術２で起こっていた中間特徴量抽出部１０１を新たなタスクで学習する際に起こる過去のタスクに関する知識の忘却（課題１）を防ぐことができる。

さらに従来技術３ではタスクが既知でなければ特徴量をどの中間特徴量抽出部および出力確率分布計算部に入力すればよいか判別できなかったが、従来技術３を最終的に解きたいタスクの補助特徴量抽出部として応用することで、特徴量がどの中間特徴量抽出部および出力確率分布計算部に入力すればよいかが判別する必要がなくなるため、従来技術３で作成したニューラルネットワークのモデルを実利用することが可能となる。

従来技術３との相違点は、従来技術３の中間特徴量抽出部、出力確率分布計算部における過去の中間特徴量抽出部１０１（１）〜１０１（Ｎ−１）および出力確率分布計算部１０２（１）〜１０２（Ｎ−１）までを補助特徴量抽出部として使用している点、およびN個の中間特徴量抽出部１０１（ｎ）に含まれる入力層及び中間層における結線が追加されている点である。音声認識の音響モデルでは最終的に解きたいタスクのラベルは常に音声認識用シンボルであるため、音響モデル学習用音響特徴量は常に全中間特徴量抽出部１０１（１）〜１０１（Ｎ）へ入力すればよいので従来技術３の中間特徴量抽出部、出力確率分布計算部のように特徴量の入力経路の選択を必要としない。

＜第一実施形態＞
図５は第一実施形態に係る音響モデル学習装置の音響モデル学習時の機能ブロック図を、図６は音響モデル学習時の処理フローを示す。

音響モデル学習装置は、N個の中間特徴量抽出部３０２（ｎ）と、N個の出力確率分布計算部３０３（ｎ）と、モデル更新部３０４とを含む。ただし、n=1,2,…,Nであり、Nは音響モデル学習装置で音響モデルをカリキュラム学習する際のタスクの総数である。

音響モデル学習装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音響モデル学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音響モデル学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音響モデル学習装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音響モデル学習装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

音響モデル学習装置は、音響モデル学習用音響特徴量とその音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを含む音響モデル学習用学習データを入力とし、音響モデルを学習し、学習済みの音響モデルを出力する。

以下、各部の処理内容について説明する。

＜N個の中間特徴量抽出部３０２（ｎ）＞
N個の中間特徴量抽出部３０２（ｎ）は、1番目の中間特徴量抽出部３０２（１）に含まれるニューラルネットワークのパラメタから順にN番目の中間特徴量抽出部３０２（Ｎ）に含まれるニューラルネットワークのパラメタまで更新する。このとき、n-1番目のタスクの難易度は、n番目のタスクの難易度以下であり、n番目のニューラルネットワークのパラメタを更新するときには、1番目から(n-1)番目までのニューラルネットワークのパラメタを固定する(更新しない)。

1番目から(N-1)番目までの中間特徴量抽出部３０２（１）〜３０２（Ｎ−１）を補助特徴量抽出部ともいう。補助特徴量抽出部は従来技術３と同様に新しいタスクを追加する際にタスク別に中間特徴量抽出部３０２（Ｎ）と出力確率分布計算部３０２（Ｎ）を追加していき、新しいタスクを追加した際に過去のタスクで学習した中間特徴量抽出部３０２（１）〜３０２（Ｎ−１）と出力確率分布計算部３０３（１）〜３０３（Ｎ−１）はパラメタの更新を行わない。従来技術３との違いは補助特徴量抽出部では追加していくタスクを最終的に解きたいタスクに対して、最初は簡単なタスクを解かせてから徐々にタスクの難易度を上げていく点である。このタスクの難易度は、例えば、出力確率分布計算部３０３（ｎ）におけるベクトルの次元数（クラス数）に依存する。出力確率分布計算部３０３（ｎ）におけるベクトルの次元数（クラス数）が同一であるタスクが複数存在する場合は任意の順番で学習を行う。例えば、この音響モデル学習装置では1.音声有無の判定（２クラス）、2.音声有無および母音の判定（３クラス）、3.音声の有無および音素の判定（約４０クラス）と徐々にタスクの難易度を上げながら学習を行う。そして最終的に解きたいタスクを学習および認識する際に過去のタスクで学習した中間特徴量抽出部３０２（１）〜３０２（Ｎ−１）は過去のタスクの知識を反映させた補助特徴量を抽出する。各中間特徴量抽出部３０２（ｎ）について説明する。

＜中間特徴量抽出部３０２（ｎ）＞
入力：音響モデル学習用音響特徴量、中間特徴量抽出部３０２（１）〜３０２（ｎ−１）で抽出された中間特徴量
出力：中間特徴量
処理：中間特徴量抽出部３０２（ｎ）は、入力された特徴量(音響モデル学習用音響特徴量、中間特徴量抽出部３０２（１）〜３０２（ｎ−１）で抽出された中間特徴量)から、新たな中間特徴量を抽出する。中間特徴量は、出力確率分布計算部３０３（ｎ）において正解ユニットを識別しやすくするための特徴量である。この中間特徴量抽出部３０２（ｎ）は複数の層のニューラルネットワークの入力層と中間層を含み、層の数だけ特徴量を抽出する計算を行う。以下で詳細を説明する。

中間特徴量抽出部３０２（ｎ）と出力確率分布計算部３０３（ｎ）とをニューラルネットワークの単位で見たときの構造を図７に示す。この図では、中間特徴量抽出部３０２（ｎ）は、ニューラルネットワークの入力層３０２（ｎ）−ｉｎとF個の中間層３０２（ｎ）−ｆとを含み、出力確率分布計算部３０３（ｎ）は出力層３０３（ｎ）−ｏｕｔを含む。f=1,2,…,Fである。図７では、F=1とし、n=Nとしている。図８では、F=2とし、n=Nとしている。以下、図７に沿って説明するが、図８においても同様に処理を行うことができる。また、F>2においても同様である。

なお、図７中、破線で示した各矢印に対応する出力値に対するパラメタ、破線で示した各部において用いるパラメタは固定したまま処理を行い、実線で示した各矢印に対応する出力値に対するパラメタ、実線で示した各部において用いるパラメタは更新して処理を行う。

入力層３０２（ｎ）−ｉｎは、音響モデル学習用音響特徴量を入力とする。

さらに、入力層３０２（ｎ）−ｉｎは、音響モデル学習用音響特徴量に加え、過去のタスク(1〜n-1)の中間層の最終層の出力（中間特徴量）をも入力とする。例えば、F=1とし、n=Nとし、タスクNを新たに追加する場合には、タスクＮの入力層３０２（Ｎ）−ｉｎに音響モデル学習用音響特徴量と中間層の最終層３０２（１）−１〜３０２（Ｎ−１）−１からの出力(中間特徴量)が入力される（図７参照）。この操作により新規タスクNの学習時に非特許文献３よりも効率的な学習を可能とする。入力層３０２（ｎ）−ｉｎは、これらの値から中間特徴量を求め、出力する。例えば、新規タスクNの学習時には、非特許文献２の式(1)において、１つ前の層から得られる中間特徴量に代えて中間層の最終層から得られる中間特徴量を用いて、入力層３０２（ｎ）−ｉｎの出力値(中間特徴量)を得ることができる。

中間層３０２（ｎ）−ｆは、同列以下のタスク(1〜n)の１つ前の層(f-1)である中間層３０２（１）−（ｆ−１）〜中間層３０２（ｎ）−（ｆ−１）（中間層３０２（ｎ）−ｆが中間層の最初の層の場合には入力層３０２（１）−ｉｎ〜入力層３０２（ｎ）−ｉｎ）の出力値（中間特徴量）とを入力とし、これらの値を用いて、中間特徴量を求め、出力する。例えば、次式により中間特徴量を計算する。

y_f ⁽ⁿ⁾はタスクnに対応する列の中間層３０２（ｎ）−ｆの出力値(中間特徴量)からなるベクトルであり、W_f ⁽ⁿ⁾はタスクnに対応する列の１つ前の層の出力値y_f-1 ⁽ⁿ⁾に対する重みからなる行列であり、U_f ^(n:j)はタスクj(j=1,2,…,n-1)に対応する列の１つ前の層の出力値y_f-1 ^(j)に対する重みからなる行列であり、f()は要素ごとに処理を行う非線形関数であり、例えば、f(x)=max(0,x)である。なお、入力層３０２（ｎ）−ｉｎにおいて、n>1における新しいタスクでは過去のタスクj(j=1,2,…,n-1)に対応する列の出力層の１つ前の層の全出力値y_F ^(1:n-1)を新たなタスクの音響モデル学習用音響特徴量と結合したものを用いて中間特徴量y₀ ⁽ⁿ⁾を求め出力する。

＜出力確率分布計算部３０３（ｎ）＞
入力：中間特徴量抽出部３０２（１）〜３０２（ｎ）で抽出された中間特徴量
出力：出力確率分布
処理：出力確率分布計算部３０３（ｎ）は、中間特徴量抽出部３０２で抽出した中間特徴量を現在のモデルに入力して出力層の各ユニットjの出力確率p_jを（例えば、ソフトマックス関数により）計算し、出力確率p_jを並べた出力確率分布を得る。出力確率分布計算部３０３（ｎ）は、ニューラルネットワークの出力層を含む。

図７を用いて説明する。

出力確率分布計算部３０３（ｎ）に含まれる出力層３０３（ｎ）−ｏｕｔは、中間層の最終層である中間層３０２（１）−（Ｆ）〜中間層３０２（ｎ）−（Ｆ）の出力値（中間特徴量）を入力とし、これらの値を用いて、出力確率分布(タスクn)を求め、出力する。例えば、上述の式(11)を用いて、ベクトルy_F+1 ⁽ⁿ⁾を求め、次式によりベクトルy_F+1 ⁽ⁿ⁾に含まれるj番目の要素y_F+1 ⁽ⁿ⁾(j)(ユニットjに対応)の出力確率p_jを求め、出力確率分布を求める。

中間特徴量抽出部３０２（ｎ）および出力確率分布計算部３０３（ｎ）では、新規タスクNの学習時には、以下のように処理を行っているとも言える。過去の全タスクの全中間特徴量抽出部３０２（１）〜３０２（Ｎ−１）の最終層である中間層３０２（１）−１〜３０２（Ｎ−１）−１の出力は新しいタスクにおける出力確率分布計算部３０３（Ｎ）へ入力される。各中間特徴量抽出部３０２（１）〜３０２（Ｎ）の入力層３０２（１）−ｉｎ〜３０２（Ｎ）−ｉｎ及び中間層３０２（１）−１〜３０２（Ｎ）−１の出力は、同列の次の層の中間層３０２（１）−１〜３０２（Ｎ）−１および出力層３０３（１）−ｏｕｔ〜３０３（Ｎ）−ｏｕｔ、および新しいタスクの列の次の層の中間層３０２（Ｎ）−１および出力層３０３（Ｎ）−ｏｕｔへと入力される。

なお、新たなタスクＮで学習する際に図８の列方向と斜め方向に生成される重みの係数（パラメタ）はランダムに初期化された値を用いる。また、列方向のパラメタに関しては前のタスクで学習したパラメタをコピーして初期値とすることが可能である。

中間特徴量抽出部３０２（ｎ）及び出力確率分布計算部３０３（ｎ）において、この中間特徴量の入力方法を用いることで、新たなタスクの学習データのみで追加学習を行う際に過去のタスクの性能を維持しながら新たなタスクの性能および学習効率を向上させることができる。

＜モデル更新部３０４＞
入力：n番目の出力確率分布、正解ユニット番号
出力：n番目のニューラルネットワークのパラメタ
処理：モデル更新部３０４は、n番目の出力確率分布と、音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるようにn番目のニューラルネットワークのパラメタを更新し（Ｓ３０４）、出力する。

例えば、モデル更新部３０４は、正解ユニット番号と出力確率分布計算部３０３（ｎ）より得られる出力確率分布から損失関数（例えば式(3)により）を計算し、損失関数の値を減少させるように（例えば式(4)を行列に拡張して）モデルを更新する。なお、更新されるニューラルネットワーク内のパラメタは、式(11)の行列W_f ⁽ⁿ⁾及び行列U_f ^(n:j)である。なお、式(11)では用いてないが、非特許文献の式(1)のバイアスbを更新する構成としてもよい。

音響モデル学習用音響特徴量と正解ユニット番号の各ペアに対して、所定の条件を満たすまで、中間特徴量の抽出（Ｓ３０２）→出力確率計算（Ｓ３０３）→モデル更新（Ｓ３０４）の処理を繰り返し（Ｓ３０５）、所定の条件（所定のエポック数（通常、数十〜数百回）の繰り返し）を満たした時点で、次のタスクに対する学習に移行し、タスクＮまで終わった時点（Ｓ３０６）のモデルを学習済みモデルとして出力する。ただし、タスク１〜（Ｎ−１）のモデルが学習済みの場合には、新しいタスクＮを追加し、追加分だけを学習すればよい。

＜効果＞
以上の構成により、知識の累積および実利用を考慮した音響モデルを学習することができる。カリキュラム学習する際に、タスク別に特徴量抽出部を持たせることで各特徴量抽出部が最終的に解きたいタスクの補助特徴量抽出部となっているため、従来技術１および従来技術２よりも性能を改善することが可能となる。

＜変形例＞
中間特徴量抽出部３０２（ｎ）において、入力層３０２（ｎ）−ｉｎでは、必ずしも、n>1における新しいタスクにおいて過去のタスクj(j=1,2,…,n-1)に対応する列の出力層の１つ前の層の全出力値y_F ^(1:n-1)を新たなタスクの音響モデル学習用音響特徴量y₀ ⁽ⁿ⁾と結合したものを用いなくともよい。過去のタスクj(j=1,2,…,n-1)に対応する列の入力層、または、出力層の１つ前の層(最終層)以外の中間層の何れかの全出力値y_f' ^(1:n-1)(ただし、f'は0,1,…,F-1の何れか)を新たなタスクの音響モデル学習用音響特徴量y₀ ⁽ⁿ⁾と結合したものを用いて中間特徴量y₀ ⁽ⁿ⁾を求めてもよい。言い換えると、中間特徴量抽出部３０２（ｎ）において、必ずしも中間層の最終層の出力を次のタスク(その中間層に対応するタスクよりも新しいタスク)の入力層の入力としなくともよい。入力層、または、最終層以外の中間層の何れかの出力を次のタスクの入力層の入力としてもよい。ただし、より出力に近い層の出力を次のタスクの入力層の入力とし計算したほうが、最終的に学習された音響モデルの認識精度は高くなる場合が多い。

また、中間特徴量抽出部３０２（ｎ）において、必ずしも入力層、または、最終層以外の中間層の何れかの出力を次のタスク(その中間層に対応するタスクよりも新しいタスク)の入力層の入力としなくともよい。つまり、入力層の入力を音響モデル学習用音響特徴量のみとしてもよい。そのような構成であっても、従来技術１よりも効率よく学習が可能であり、また、実利用を考慮した音響モデルを構築することが可能であるという効果を得ることはできる。

＜第二実施形態＞
本実施形態では、第一実施形態で学習した音響モデルを用いた音声認識装置について説明する。

図９は第二実施形態に係る音声認識装置の機能ブロック図を、図１０は第二実施形態に係る音声認識装置の処理フローの例を示す。

音響モデルは、N個の中間特徴量抽出部４０２（ｎ）と、出力確率分布計算部４０３とを含む。なお、音声認識処理に先立ち、第一実施形態に係る音響モデル学習装置で学習した音響モデルを設定しておく。中間特徴量抽出部３０２（１）〜３０２（Ｎ）で用いたパラメタをそれぞれ中間特徴量抽出部４０２（１）〜４０２（Ｎ）に設定し、出力確率分布計算部３０３（Ｎ）で用いたパラメタを出力確率分布計算部４０３に設定する。

音声認識装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声認識装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声認識装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声認識装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声認識装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

第二実施形態に係る音声認識装置は、音声認識対象の音響特徴量を入力とし、音声認識処理を行い、認識結果を出力する。

以下、各部の処理内容について説明する。

＜中間特徴量抽出部４０２（ｎ）＞
入力：音声認識対象の音響特徴量、中間特徴量抽出部４０２（１）〜４０２（ｎ−１）で抽出された中間特徴量
出力：中間特徴量
処理：中間特徴量抽出部４０２（ｎ）は、入力された特徴量(音声認識対象の音響特徴量、中間特徴量抽出部４０２（１）〜４０２（ｎ−１）で抽出された中間特徴量)から、中間特徴量を抽出する（Ｓ４０２）。具体的な処理内容は、入力として、音響モデル学習用音声特徴量に代えて音声認識対象の音響特徴量を用いる点を除き、中間特徴量抽出部３０２（ｎ）と同様である。

＜出力確率分布計算部４０３＞
入力：中間特徴量抽出部４０２（１）〜４０２（Ｎ）で抽出された中間特徴量
出力：音声認識用シンボル
処理：出力確率分布計算部４０３は、中間特徴量抽出部４０２（１）〜４０２（Ｎ）で抽出された中間特徴量を現在のモデルに入力して出力層の各ユニットjの出力確率p_jを（例えばソフトマックス関数により）計算し（Ｓ４０３）、出力確率p_jを並べた出力確率分布を得る。出力確率分布計算部４０３は、ニューラルネットワークの出力層を含む。具体的な処理内容は、出力確率分布計算部３０３（ｎ）と同様である。

さらに、出力確率分布計算部４０３は、出力確率分布の中で最も大きい出力確率に対応する音声認識用シンボルを認識結果として出力する。

＜変形例＞
本実施形態では、出力確率分布計算部４０３を１つとしているが、N個の出力確率分布計算部を設け、N個の出力確率分布を求め、音声認識用シンボルと共に、各タスクにおける認識結果を出力する構成としてもよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Nを2以上の整数の何れかとし、n=1,2,…,Nとし、N個のタスクにそれぞれ対応し、音響モデル学習用音響特徴量を入力とし、中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含むN個の中間特徴量抽出部と、
N個のタスクにそれぞれ対応し、前記ニューラルネットワークの出力層を含み、前記中間特徴量からタスク毎の出力確率分布を得るN個の出力確率分布計算部と、
n番目の出力確率分布と、前記音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、1番目から(n-1)番目までの前記ニューラルネットワークのパラメタを固定し、前記音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるように、n番目の前記ニューラルネットワークのパラメタを更新するモデル更新部とを含み、
n-1番目のタスクの難易度は、n番目のタスクの難易度以下であり、1番目のニューラルネットワークのパラメタから順にN番目のニューラルネットワークのパラメタまで更新する、
音響モデル学習装置。
請求項１の音響モデル学習装置であって、
前記n番目の中間特徴量抽出部は、1番目からn-1番目までの中間特徴量抽出部において用いるニューラルネットワークの入力層と中間層との何れかの出力値である中間特徴量を用いて、n番目の中間特徴量抽出部において用いるニューラルネットワークの入力層の出力値である中間特徴量を抽出する、
音響モデル学習装置。
請求項１または請求項２の音響モデル学習装置であって、
前記タスクの難易度は、前記タスクの出力次元数に応じて定まる、
音響モデル学習装置。
請求項１から請求項３の何れかの音響モデル学習装置で学習された音響モデルを用いた音声認識装置であって、
N個のタスクにそれぞれ対応し、前記音声認識対象の音響特徴量を入力とし、中間特徴量を抽出する学習済みのニューラルネットワークの入力層と中間層とを含むN個の音声認識用中間特徴量抽出部と、
N番目のタスクに対応し、前記学習済みのニューラルネットワークの出力層を含み、前記音声認識対象の音響特徴量から抽出される中間特徴量からタスクNの出力確率分布を得る音声認識用出力確率分布計算部とを含み、
1番目からN番目までの音声認識用中間特徴量抽出部において、音声認識対象の音響特徴量から中間特徴量を抽出し、
前記音声認識用出力確率分布計算部において、N個の中間特徴量から出力確率分布を得、出力確率分布の中で最も大きい出力確率に対応する音声認識用シンボルを認識結果とする、
音声認識装置。
音響モデル学習装置が実行する音響モデル学習方法であって、
Nを2以上の整数の何れかとし、n=1,2,…,Nとし、N個のタスクにそれぞれ対応し、音響モデル学習用音響特徴量を入力とし、中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含むN個の中間特徴量抽出ステップと、
N個のタスクにそれぞれ対応し、前記ニューラルネットワークの出力層を含み、前記中間特徴量からタスク毎の出力確率分布を得るN個の出力確率分布計算ステップと、
n番目の出力確率分布と、前記音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、1番目から(n-1)番目までの前記ニューラルネットワークのパラメタを固定し、前記音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるように、n番目の前記ニューラルネットワークのパラメタを更新するモデル更新ステップとを含み、
n-1番目のタスクの難易度は、n番目のタスクの難易度以下であり、1番目のニューラルネットワークのパラメタから順にN番目のニューラルネットワークのパラメタまで更新する、
音響モデル学習方法。
請求項５の音響モデル学習方法で学習された音響モデルを用いた音声認識方法であって、
N個のタスクにそれぞれ対応し、前記音声認識対象の音響特徴量を入力とし、中間特徴量を抽出する学習済みのニューラルネットワークの入力層と中間層とを含むN個の音声認識用中間特徴量抽出ステップと、
N番目のタスクに対応し、前記学習済みのニューラルネットワークの出力層を含み、前記音声認識対象の音響特徴量から抽出される中間特徴量からタスクNの出力確率分布を得る音声認識用出力確率分布計算ステップとを含み、
1番目からN番目までの音声認識用中間特徴量抽出ステップにおいて、音声認識対象の音響特徴量から中間特徴量を抽出し、
前記音声認識用出力確率分布計算ステップにおいて、N個の中間特徴量から出力確率分布を得、出力確率分布の中で最も大きい出力確率に対応する音声認識用シンボルを認識結果とする、
音声認識方法。
請求項１から請求項３の何れかの音響モデル学習装置、または、請求項４の音声認識装置としてコンピュータを機能させるためのプログラム。