JP6827910B2

JP6827910B2 - 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム

Info

Publication number: JP6827910B2
Application number: JP2017224949A
Authority: JP
Inventors: 崇史森谷; 山口　義和; 義和山口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2021-02-10
Anticipated expiration: 2037-11-22
Also published as: JP2019095599A

Description

本発明は、音声認識用のニューラルネットワーク型音響モデル（以下、単に「音響モデル」ともいう）を用いた音声認識装置、音響モデルを学習する音響モデル学習装置、それらの方法、及びプログラムに関する。

一般的なニューラルネットワークの学習方法を用いて、音響モデルを学習する方法として非特許文献１の”TRAINING DEEP NEURAL NETWORKS”が知られている（以下、この方法を「従来技術１」ともいう）。図１は、この方法を用いた音響モデル学習装置の機能ブロック図を示す。

事前に学習用の音響信号の各サンプルから抽出した音響特徴量（実数ベクトル）と各音響特徴量に対応する正解ユニット番号のペア(学習データ)、および適当な初期モデルを用意する。初期モデルとしては、各パラメタに乱数を割り当てたニューラルネットワークや、既に別の学習データで学習済みのニューラルネットワークなどが利用できる。中間特徴量抽出部１０１は入力された音響特徴量から、中間特徴量を抽出する。中間特徴量は出力確率分布計算部１０２において正解ユニットを識別しやすくするための特徴量であり、例えば次式で計算することができる。

y_jはニューラルネットワークに含まれるある中間層のユニットjで得られる中間特徴量であり、b_jはユニットjのバイアスであり、w_ijは下位の中間層のユニットiからある中間層のユニットjへの重みである。この中間特徴量抽出部１０１は、ニューラルネットワークの入力層と1つ以上の中間層とを含み、層の数だけ中間特徴量を抽出する計算が行われる。

出力確率分布計算部１０２は、中間特徴量抽出部１０１で抽出した中間特徴量を現在のモデルに入力して出力層の各ユニットjの出力確率p_jを次式により計算し、出力確率p_jを並べた出力確率分布を得る。

モデル更新部１０３は、正解ユニット番号と出力確率分布から次式により損失関数Cを計算する。

ただし、d_jはターゲットラベルを表す。そして、損失関数Cの値を減少させるように次式によりモデルを更新する。

式(1)のw_ijとして上述のΔw_ij(t)を用いて処理を繰り返す。ただし、αはミニバッチtについて計算された勾配を平滑化するための値であり0<α<1とし、εはパラメタの更新量を制御するステップサイズパラメタである。学習データの特徴量と正解ユニット番号の各ペアに対して、上記の中間特徴量の抽出、出力確率計算、モデル更新の処理を繰り返す。この処理を全学習データに対して行った場合を１エポックとしたときに、所定（通常、数十〜数百回）の繰り返しが完了した時点のモデルを学習済みモデルとして利用する。

非特許文献２には、あるタスクの学習データを用いて学習したニューラルネットワークのモデルが持つ知識を新たなタスクへ転移学習させる方法が記載されている。

図２は、非特許文献２における転移学習を可能とする音響モデル学習装置の機能ブロック図を示す。以下、この構成を従来技術２ともいう。従来技術２の基本的なモジュール（中間特徴量抽出部１０１（１）、出力確率分布計算部１０２（１）、モデル更新部１０３）は、それぞれ従来技術１（図１）の中間特徴量抽出部１０１、出力確率分布計算部１０２、モデル更新部１０３と同様である。

異なる点はタスク１に加えて新しいタスク２が追加された際に、中間特徴量抽出部１０１（２）、出力確率分布計算部１０２（２）を用意する点である。図２中、破線で示した中間特徴量抽出部１０１（１）、出力確率分布計算部１０２（１）では、タスク１で学習したパラメタを用いる。なお、各部の出力ベクトルの次元が次のモジュールで用いるモデルへの入力の次元となるように、次のモジュールにおいて線形射影を行っている。同様に実線部の中間特徴量抽出部１０１（２）、出力確率分布計算部１０２（２）では、タスク２の学習データを用いてモデル更新部１０３によって学習されるパラメタを用いる。中間特徴量抽出部１０１（２）は、タスク２の学習データを用いてモデル更新部１０３によって学習されるパラメタを用いて、中間特徴量抽出部１０１（１）の出力値である中間特徴量と、音響特徴量(タスク２)とから中間特徴量を抽出する(非特許文献２参照)。同様に、出力確率分布計算部１０２（２）は、タスク２の学習データを用いてモデル更新部１０３によって学習されるパラメタと、中間特徴量抽出部１０１（１），１０１（２）で求めた中間特徴量とを用いて、出力確率分布を求める(非特許文献１，２参照)。モデル更新部１０３は、出力確率分布計算部１０２（２）の出力値(出力確率分布)を用いて、損失関数Cを計算し(非特許文献１参照)、損失関数Cの値を減少させるように新しいタスクのために生成されたニューラルネットワークのパラメタのみ（中間特徴量抽出部１０１（２）、出力確率分布計算部１０２（２）において用いるパラメタ）を更新する。

さらにタスクを追加する手順は図２と同様であり、N番目のタスクまで追加した場合の機能ブロック図を図３に示す。

この学習方法を用いることで過去のタスク（1,…,N-1）の知識を失わない、かつN番目の新しいタスクの知識に効率よく転移させることが可能であることが非特許文献２に記載されている。

Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," IEEE Signal Processing Magazine, Vol. 29, No 6, pp.82-97, 2012. A. A. Rusu, N. C. Rabinowitz, G. Desjardins, H. Soyer, J. Kirkpatrick, K. Kavukcuoglu, R. Pascanu, and R. Hadsell, "Progressive neural networks," arXiv preprint arXiv:1606.04671, 2016.

従来技術１では、１つの中間特徴量抽出部および出力確率分布計算部へ新たにタスクの音声を追加して学習する際に、最も新しいタスクに対しては最適なモデルとなるが過去の知識を忘却（パラメタの上書き）する問題がある。これはニューラルネットのモデルの性質により起こる問題である。この対処方法として全タスクの学習データを１つに統合して再度ニューラルネットワークのモデルを学習する方法が挙げられる。しかし、学習データが増加するにつれて学習時間も増加する問題（以下、課題１ともいう）や各タスクに特化したニューラルネットワークのモデルの性能に劣る問題（以下、課題２ともいう）が挙げられる。

また、従来技術２では、中間特徴量抽出部および出力確率分布計算部をタスクごとに用意し、過去のタスクに対応する中間特徴量抽出部および出力確率分布計算部から新たなタスクの中間特徴量抽出部および出力確率分布計算部へ線形結合させることで過去のタスクに関する知識を活かした学習が可能となり、モデル更新時は過去の中間特徴量抽出部と出力確率分布計算部を更新しないことで過去のタスクに関する知識の忘却（パラメタの上書き）を防いており、従来技術１の問題を解決している。しかし、入力した特徴量がどのタスクであるかが既知でないと実利用できない欠点がある（以下、課題３ともいう）。

以上の課題１、課題２、および課題３により、現状の音響モデルでは過去のタスクに関する知識を累積するような学習、かつ実利用を考慮することが困難である。

本発明は、知識の累積および実利用を考慮した音響モデルを学習する音響モデル学習装置、その音響モデルを用いた音声認識装置、それらの方法、及びプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、音響モデル学習装置は、Nを対象とするタスクの総数とし、n=1,2,…,Nとし、特徴量識別学習用音響特徴量と特徴量識別学習用音響特徴量に対応する正しいタスクを示す正解ユニット番号とを含む特徴量識別用学習データを用いて学習した特徴量識別モデルに基づき、音響モデル学習用音響特徴量のタスクを識別する特徴量識別部と、N個のタスクにそれぞれ対応し、音響モデル学習用音響特徴量を入力とし、中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含むN個の中間特徴量抽出部と、N個のタスクにそれぞれ対応し、ニューラルネットワークの出力層を含み、中間特徴量からタスク毎の出力確率分布を得るN個の出力確率分布計算部とを含み、kを1以上N以下の整数の何れかとし、特徴量識別部の識別結果であるタスクkに対応する1番目からk番目までの中間特徴量抽出部において、音響モデル学習用音響特徴量から中間特徴量を抽出し、k番目の出力確率分布計算部において、k個の中間特徴量から出力確率分布を得、k番目の出力確率分布と、音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるようにk番目のニューラルネットワークのパラメタを更新するモデル更新部を含む。

上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習装置が実行する音響モデル学習方法は、Nを対象とするタスクの総数とし、n=1,2,…,Nとし、特徴量識別学習用音響特徴量と特徴量識別学習用音響特徴量に対応する正しいタスクを示す正解ユニット番号とを含む特徴量識別用学習データを用いて学習した特徴量識別モデルに基づき、音響モデル学習用音響特徴量のタスクを識別する特徴量識別ステップと、N個のタスクにそれぞれ対応し、音響モデル学習用音響特徴量を入力とし、中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含むN個の中間特徴量抽出ステップと、N個のタスクにそれぞれ対応し、ニューラルネットワークの出力層を含み、中間特徴量からタスク毎の出力確率分布を得るN個の出力確率分布計算ステップとを含み、kを1以上N以下の整数の何れかとし、特徴量識別ステップの識別結果であるタスクkに対応する1番目からk番目までの中間特徴量抽出ステップにおいて、音響モデル学習用音響特徴量から中間特徴量を抽出し、k番目の出力確率分布計算ステップにおいて、k個の中間特徴量から出力確率分布を得、k番目の出力確率分布と、音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるようにk番目のニューラルネットワークのパラメタを更新するモデル更新ステップを含む。

本発明によれば、新たなタスクの音声を追加学習する際に新たなタスクの音声のみで学習可能なため、従来技術１よりも効率よく学習が可能となる。また、特徴量がどのタスクであるかを推定するフレームワークを用いることで入力音声のタスクの種類が未知でも認識可能な実利用を考慮した音響モデルを構築することが可能となる。なお、音声認識におけるタスクとは、異なる環境に対応する音声認識を意味し、例えば、異なる背景雑音を含む音声信号に対する音声認識、異なる発話スタイル(読み上げ、スピーチ、友人との会話、上司との会話、講義、講演等の様々は発話のシーン)から得られる音声信号に対する音声認識、異なる方言を含む音声信号に対する音声認識、および異なる収録機器から得られる音声信号に対する音声認識などである。例えば、異なる背景雑音を含む音声信号に対する音声認識であれば、1.街の雑踏の中で収音した音声信号、2.駅のホームで収音した音声信号、3.空港で収音した音声信号、4.背景雑音がない室内で収音した音声信号等に対する音声認識をそれぞれ1つのタスクとしてもよい。

従来技術１を説明するための図。従来技術２を説明するための図。従来技術２を説明するための図。第一実施形態に係る音響モデル学習装置の機能ブロック図。第一実施形態に係る音響モデル学習装置の処理フローの例を示す図。第一実施形態に係る特徴量識別部の機能ブロック図。第一実施形態に係る特徴量識別部の処理フローの例を示す図。中間特徴量抽出部及び出力確率分布計算部に含まれるニューラルネットワークを説明するための図。中間特徴量抽出部及び出力確率分布計算部に含まれるニューラルネットワークを説明するための図。第二実施形態に係る音声認識装置の機能ブロック図。第二実施形態に係る音声認識装置の処理フローの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
本実施形態のポイントは以下の通りである。

従来技術２を音響モデルの学習に応用することで従来技術１で起こっていた新たなタスクを追加するごとに学習データ量の増加に伴う学習時間が増加する問題（課題１）に対しては、新しく追加したタスクの学習データのみで学習可能なため学習時間を削減することができる。また、各タスクごとに生成された中間特徴抽出部および出力確率分布計算部のパラメタは他のタスクの学習時に更新されないため、従来技術１に比べて全てのタスクに対して音声認識性能の劣化（課題２）を防ぐことができる。

さらに従来技術２ではタスクが既知でなければ音響特徴量をどの中間特徴量抽出部に入力すればよいか判別できなかったが、従来技術１をタスクの分類にも応用することで音響特徴量をどの中間特徴量抽出部に入力すればよいかが判別できるため、従来技術２で作成したニューラルネットワークのモデルを実利用することが可能となる。

従来技術２との相違点は、中間特徴量抽出部の前処理として後述する特徴量識別部３０１を設け、さらに、N個の中間特徴量抽出部１０１（ｎ）に含まれる入力層及び中間層における結線が追加されている点である。音響モデル学習時及び音声認識時には特徴量識別部３０１で入力された音響特徴量がどのタスクであるかを識別する。識別結果により、音響特徴量がN個ある中間特徴量抽出部１０１（ｎ）、出力確率分布計算部１０２（ｎ）のどのルートを通るかが決まる。

＜第一実施形態＞
図４は第一実施形態に係る音響モデル学習装置の音響モデル学習時の機能ブロック図を、図５は音響モデル学習時の処理フローを示す。

音響モデル学習装置は、特徴量識別部３０１と、N個の中間特徴量抽出部３０２（ｎ）と、N個の出力確率分布計算部３０３（ｎ）と、モデル更新部３０４とを含む。ただし、n=1,2,…,Nであり、Nは音響モデル学習装置で学習する音響モデルを用いた音声認識のタスクの総数である。

音響モデル学習装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音響モデル学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音響モデル学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音響モデル学習装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音響モデル学習装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

第一実施形態に係る音響モデル学習装置は、特徴量識別モデルを学習するステップと、音響モデルを学習するステップとを実行する。

特徴量識別モデルを学習するステップでは、特徴量識別学習用音響特徴量と特徴量識別学習用音響特徴量に対応する正しいタスクを示す正解ユニット番号とを含む特徴量識別用学習データを入力とし、音響特徴量からその音響特徴量に対するタスク(言い換えると、その音響特徴量に対して適切なタスクであり、音声認識を行った場合に認識精度が高くなるタスク)を識別する特徴量識別モデルを学習し、音響モデルを学習するステップを実行する前に予め特徴量識別部３０１に設定する。

音響モデルを学習するステップでは、N個のタスクに対応する音声信号から得られる音響モデル学習用音響特徴量とその音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを含む音響モデル学習用学習データを入力とし、音響モデルを学習し、学習済みの音響モデルを出力する。なお、ある音響モデル学習用音響特徴量がどのタスクに対応するかは、未知とするが、N個のタスクに対応する音響モデルを学習するために、N個のタスクのそれぞれに対応する音声信号から得られる音響モデル学習用音響特徴量が、少なくとも１回は学習データとして入力される。

以下、各部の処理内容について説明する。

＜特徴量識別部３０１＞
(モデル学習時)
まず、特徴量識別モデル学習時の処理内容を説明する。
入力：特徴量識別学習用音響特徴量と特徴量識別学習用音響特徴量に対応する正しいタスクを示す正解ユニット番号とのペアを含む特徴量識別用学習データ
処理：特徴量識別部３０１の機能ブロック図を図６に、特徴量識別モデル学習時の処理フローの例を図７に示す。

特徴量識別部３０１の特徴量識別モデルは、中間特徴量抽出部３０２（ｎ）、出力確率分布計算部３０３（ｎ）で用いられる音響モデルとは、独立に学習可能な構造となっている。特徴量識別部３０１は、中間特徴量抽出部３０１−１（内部にニューラルネットワークの入力層と中間層を持つ）と出力確率分布計算部３０１−２（内部にニューラルネットワークの出力層を持つ）を一つにしたシステムであり、例えば、従来技術１の中間特徴量抽出部１０１、出力確率分布計算部１０２と同様の処理を行う（Ｓ３０１−１，Ｓ３０１−２）。つまり、この特徴量識別部３０１のモデル更新部３０１−３は、従来技術１のモデル更新部１０３と同様の処理を行う。ただし、正解ユニット番号を、音響特徴量に対する正しい音声認識用シンボルではなく、音響特徴量に対する正しいタスクの種類（例えば、1.街の雑踏の中、2.駅のホーム、3.空港、4.背景雑音がない室内で収音した音声信号等に対する音声認識をタスクとした場合、正解ユニット番号の数は4）に代替したものである。

特徴量識別モデルの学習はモデル更新部３０１−３によって行われる（Ｓ３０１−３，Ｓ３０１−４）。出力確率分布計算部３０３（ｎ）では正解ユニット番号の数は音声認識用シンボル（例えば音素）の数だが、特徴量識別部３０１における出力確率分布計算部３０１−２の正解ユニット番号の数はタスクの種類（中間特徴量抽出部３０２（ｎ）及び出力確率分布計算部３０３（ｎ）における列N）の数である。また、後述する中間特徴量抽出部３０２（ｎ）及び出力確率分布計算部３０３（ｎ）の新規タスクの学習時は特徴量識別部３０１内の出力確率分布計算部３０１−２におけるベクトルの次元数をタスクの種類の数（中間特徴量抽出部３０２（ｎ）及び出力確率分布計算部３０３（ｎ）における列N）となるように次元を拡張し、再度学習することで新たなタスクへの識別を可能とする。

(タスク識別時)
次にタスクを識別時(音響モデル学習時、音声認識時)の処理内容を説明する。
入力：音響モデル学習用音響特徴量(タスクは未知)
出力：音響モデル学習用音響特徴量(ただし、識別結果k以下の中間特徴量抽出部にのみ出力)
処理：特徴量識別部３０１は、学習した特徴量識別モデルに基づき、音響モデル学習用音響特徴量のタスクを識別し（Ｓ３０１）、識別結果k以下の中間特徴量抽出部３０２（１），…，３０２（ｋ）に音響モデル学習用音響特徴量を出力する。

例えば、中間特徴量抽出部３０１−１は、音響モデル学習用音響特徴量から中間特徴量を抽出し、出力確率分布計算部３０１−２に出力する。

出力確率分布計算部３０１−２は、音響モデル学習用音響特徴量から抽出された中間特徴量を受け取り、中間特徴量から出力確率分布を得る。さらに、出力確率分布計算部３０１−２は、出力確率分布の中で一番高い確率をとるタスクを音響モデル学習用音響特徴量に対応したタスクの種類とし、識別結果kとする。

なお、音響モデル学習時には、識別結果k以下の中間特徴量抽出部３０２（１）〜３０２（ｋ）、出力確率分布計算部３０３（１）〜３０３（ｋ）においてのみ処理が行われる。以下では、前述の通り、N個のタスクのそれぞれに対応する音声信号から得られる音響モデル学習用音響特徴量が、少なくとも１回は学習データとして入力されるので、n=1,2,…,Nにおける中間特徴量抽出部３０２（ｎ）、出力確率分布計算部３０３（ｎ）について説明している。

＜中間特徴量抽出部３０２（ｎ）＞
入力：音響モデル学習用音響特徴量、中間特徴量抽出部３０２（１）〜３０２（ｎ−１）で抽出された中間特徴量
出力：中間特徴量
処理：中間特徴量抽出部３０２（ｎ）は、入力された特徴量(音響モデル学習用音響特徴量、中間特徴量抽出部３０２（１）〜３０２（ｎ−１）で抽出された中間特徴量)から、新たな中間特徴量を抽出する。中間特徴量は、出力確率分布計算部３０３（ｎ）において正解ユニットを識別しやすくするための特徴量である。この中間特徴量抽出部３０２（ｎ）は複数の層のニューラルネットワークの入力層と中間層を含み、層の数だけ特徴量を抽出する計算を行う。以下で詳細を説明する。

中間特徴量抽出部３０２（ｎ）と出力確率分布計算部３０３（ｎ）とをニューラルネットワークの単位で見たときの構造を図８に示す。この図では、中間特徴量抽出部３０２（ｎ）は、ニューラルネットワークの入力層３０２（ｎ）−ｉｎとF個の中間層３０２（ｎ）−ｆとを含み、出力確率分布計算部３０３（ｎ）は出力層３０３（ｎ）−ｏｕｔを含む。f=1,2,…,Fである。図８では、F=1とし、n=Nとしている。図９では、F=2とし、n=Nとしている。以下、図８に沿って説明するが、図９においても同様に処理を行うことができる。また、F>2においても同様である。

なお、図８中、破線で示した各矢印に対応する出力値に対するパラメタ、破線で示した各部において用いるパラメタは固定したまま処理を行い、実線で示した各矢印に対応する出力値に対するパラメタ、実線で示した各部において用いるパラメタは更新して処理を行う。

入力層３０２（ｎ）−ｉｎは、音響モデル学習用音響特徴量を入力とする。

さらに、入力層３０２（ｎ）−ｉｎは、音響モデル学習用音響特徴量に加え、過去のタスク(1〜n-1)の中間層の最終層の出力（中間特徴量）をも入力とする。例えば、F=1とし、n=Nとし、タスクNを新たに追加する場合には、タスクNの入力層３０２（Ｎ）−ｉｎに音響モデル学習用音響特徴量(タスクN)と中間層の最終層３０２（１）−１〜３０２（Ｎ−１）−１からの出力(中間特徴量)が入力される（図８参照）。この操作により新規タスクNの学習時に非特許文献２よりも効率的な学習を可能とする。入力層３０２（ｎ）−ｉｎは、これらの値から中間特徴量を求め、出力する。例えば、新規タスクNの学習時には、非特許文献２の式(1)において、１つ前の層から得られる中間特徴量に代えて中間層の最終層から得られる中間特徴量を用いて、入力層３０２（ｎ）−ｉｎの出力値(中間特徴量)を得ることができる。

中間層３０２（ｎ）−ｆは、同列以下のタスク(1〜n)の１つ前の層(f-1)である中間層３０２（１）−（ｆ−１）〜中間層３０２（ｎ）−（ｆ−１）（中間層３０２（ｎ）−ｆが中間層の最初の層の場合には入力層３０２（１）−ｉｎ〜入力層３０２（ｎ）−ｉｎ）の出力値（中間特徴量）とを入力とし、これらの値を用いて、中間特徴量を求め、出力する。例えば、次式により中間特徴量を計算する。

y_f ⁽ⁿ⁾はタスクnに対応する列の中間層３０２（ｎ）−ｆの出力値(中間特徴量)からなるベクトルであり、W_f ⁽ⁿ⁾はタスクnに対応する列の１つ前の層の出力値y_f-1 ⁽ⁿ⁾に対する重みからなる行列であり、U_f ^(n:j)はタスクj(j=1,2,…,n-1)に対応する列の１つ前の層の出力値y_f-1 ^(j)に対する重みからなる行列であり、f()は要素ごとに処理を行う非線形関数であり、例えば、f(x)=max(0,x)である。なお、入力層３０２（ｎ）−ｉｎにおいて、n>1における新しいタスクでは過去のタスクj(j=1,2,…,n-1)に対応する列の出力層の１つ前の層の全出力値y_F ^(1:n-1)を新たなタスクの音響モデル学習用音響特徴量と結合したものを用いて中間特徴量y₀ ⁽ⁿ⁾を求め出力する。

＜出力確率分布計算部３０３（ｎ）＞
入力：中間特徴量抽出部３０２（１）〜３０２（ｎ）で抽出された中間特徴量
出力：出力確率分布
処理：出力確率分布計算部３０３（ｎ）は、中間特徴量抽出部３０２で抽出した中間特徴量を現在のモデルに入力して出力層の各ユニットjの出力確率p_jを（例えば、ソフトマックス関数により）計算し、出力確率p_jを並べた出力確率分布を得る。出力確率分布計算部３０３（ｎ）は、ニューラルネットワークの出力層を含む。

図８を用いて説明する。

出力確率分布計算部３０３（ｎ）に含まれる出力層３０３（ｎ）−ｏｕｔは、中間層の最終層である中間層３０２（１）−（Ｆ）〜中間層３０２（ｎ）−（Ｆ）の出力値（中間特徴量）を入力とし、これらの値を用いて、出力確率分布(タスクn)を求め、出力する。例えば、上述の式(11)を用いて、ベクトルy_F+1 ⁽ⁿ⁾を求め、次式によりベクトルy_F+1 ⁽ⁿ⁾に含まれるj番目の要素y_F+1 ⁽ⁿ⁾(j)(ユニットjに対応)の出力確率p_jを求め、出力確率分布を求める。

中間特徴量抽出部３０２（ｎ）および出力確率分布計算部３０３（ｎ）では、新規タスクNの学習時には、以下のように処理を行っているとも言える。過去の全タスクの全中間特徴量抽出部３０２（１）〜３０２（Ｎ−１）の最終層である中間層３０２（１）−１〜３０２（Ｎ−１）−１の出力は新しいタスクにおける出力確率分布計算部３０３（Ｎ）へ入力される。各中間特徴量抽出部３０２（１）〜３０２（Ｎ）の入力層３０２（１）−ｉｎ〜３０２（Ｎ）−ｉｎ及び中間層３０２（１）−１〜３０２（Ｎ）−１の出力は、同列の次の層の中間層３０２（１）−１〜３０２（Ｎ）−１および出力層３０３（１）−ｏｕｔ〜３０３（Ｎ）−ｏｕｔ、および新しいタスクの列の次の層の中間層３０２（Ｎ）−１および出力層３０３（Ｎ）−ｏｕｔへと入力される。

なお、音響モデル学習時及び音声認識時には、識別結果k以下のタスク番号に対応する中間特徴量抽出部３０２（１）〜３０２（ｋ）、出力確率分布計算部３０３（１）〜３０３（ｋ）のみを用いて、音響特徴量または中間特徴量の入力、出力確率の計算が行われる。識別結果kを超えるタスク番号に対応する中間特徴量抽出部３０２（ｋ＋１）〜３０２（Ｎ）、出力確率分布計算部３０３（ｋ＋１）〜３０３（Ｎ）を用いた特徴量の音響特徴量または中間特徴量の入力、出力確率の計算は行わない。

なお、新たなタスクNで学習する際に図８の列方向と斜め方向に生成される重みの係数（パラメタ）はランダムに初期化された値を用いる。また、列方向のパラメタに関しては前のタスクで学習したパラメタをコピーして初期値とすることが可能である。

中間特徴量抽出部３０２（ｎ）及び出力確率分布計算部３０３（ｎ）において、この中間特徴量の入力方法を用いることで、新たなタスクの学習データのみで追加学習を行う際に過去のタスクの性能を維持しながら新たなタスクの性能および学習効率を向上させることができる。

＜モデル更新部３０４＞
入力：n番目の出力確率分布、正解ユニット番号
出力：n番目のニューラルネットワークのパラメタ
処理：モデル更新部３０４は、n番目の出力確率分布と、音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるようにn番目のニューラルネットワークのパラメタを更新し（Ｓ３０４）、出力する。

例えば、モデル更新部３０４は、正解ユニット番号と出力確率分布計算部３０３（ｎ）より得られる出力確率分布から損失関数（例えば式(3)により）を計算し、損失関数の値を減少させるように（例えば式(4)を行列に拡張して）モデルを更新する。なお、更新されるニューラルネットワーク内のパラメタは、式(11)の行列W_f ⁽ⁿ⁾及び行列U_f ^(n:j)である。なお、式(11)では用いてないが、非特許文献の式(1)のバイアスbを更新する構成としてもよい。

音響モデル学習用音響特徴量と正解ユニット番号の各ペアに対して、所定の条件を満たすまで、中間特徴量の抽出（Ｓ３０２）→出力確率計算（Ｓ３０３）→モデル更新（Ｓ３０４）の処理を繰り返し（Ｓ３０５）、所定の条件（所定のエポック数（通常、数十〜数百回）の繰り返し）を満たした時点のモデルを学習済みモデルとして出力する。

＜効果＞
以上の構成により、新たなタスクの音声を追加学習する際に新たなタスクの音声のみで学習可能なため、従来技術１よりも効率よく学習が可能となる。また、特徴量がどのタスクであるかを推定するフレームワークを用いることで入力音声のタスクの種類が未知でも認識可能な実利用を考慮した音響モデルを構築することが可能となる。

＜変形例＞
中間特徴量抽出部３０２（ｎ）において、入力層３０２（ｎ）−ｉｎでは、必ずしも、n>1における新しいタスクにおいて過去のタスクj(j=1,2,…,n-1)に対応する列の出力層の１つ前の層の全出力値y_F ^(1:n-1)を新たなタスクの音響モデル学習用音響特徴量y₀ ⁽ⁿ⁾と結合したものを用いなくともよい。過去のタスクj(j=1,2,…,n-1)に対応する列の入力層、または、出力層の１つ前の層(最終層)以外の中間層の何れかの全出力値y_f' ^(1:n-1)(ただし、f'は0,1,…,F-1の何れか)を新たなタスクの音響モデル学習用音響特徴量y₀ ⁽ⁿ⁾と結合したものを用いて中間特徴量y₀ ⁽ⁿ⁾を求めてもよい。言い換えると、中間特徴量抽出部３０２（ｎ）において、必ずしも中間層の最終層の出力を次のタスク(その中間層に対応するタスクよりも新しいタスク)の入力層の入力としなくともよい。入力層、または、最終層以外の中間層の何れかの出力を次のタスクの入力層の入力としてもよい。ただし、より出力に近い層の出力を次のタスクの入力層の入力とし計算したほうが、最終的に学習された音響モデルの認識精度は高くなる場合が多い。

また、中間特徴量抽出部３０２（ｎ）において、必ずしも入力層、または、最終層以外の中間層の何れかの出力を次のタスク(その中間層に対応するタスクよりも新しいタスク)の入力層の入力としなくともよい。つまり、入力層の入力を音響モデル学習用音響特徴量のみとしてもよい。そのような構成であっても、従来技術１よりも効率よく学習が可能であり、また、特徴量がどのタスクであるかを推定するフレームワークを用いることで入力音声のタスクの種類が未知でも認識可能な実利用を考慮した音響モデルを構築することが可能であるという効果を得ることはできる。

＜第二実施形態＞
本実施形態では、第一実施形態で学習した音響モデルを用いた音声認識装置について説明する。

図１０は第二実施形態に係る音声認識装置の機能ブロック図を、図１１は第二実施形態に係る音声認識装置の処理フローの例を示す。

音響モデルは、特徴量識別部４０１と、N個の中間特徴量抽出部４０２（ｎ）と、N個の出力確率分布計算部４０３（ｎ）とを含む。なお、音声認識処理に先立ち、第一実施形態に係る音響モデル学習装置で学習した音響モデルを設定しておく。中間特徴量抽出部３０２（１）〜３０２（Ｎ）で用いたパラメタをそれぞれ中間特徴量抽出部４０２（１）〜４０２（Ｎ）に設定し、出力確率分布計算部３０３（１）〜３０３（Ｎ）で用いたパラメタをそれぞれ出力確率分布計算部４０３（１）〜４０３（Ｎ）に設定する。

音声認識装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声認識装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声認識装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声認識装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声認識装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

第二実施形態に係る音声認識装置は、音声認識対象の音響特徴量を入力とし、音声認識処理を行い、認識結果を出力する。

以下、各部の処理内容について説明する。

＜特徴量識別部４０１＞
入力：音声認識対象の音響特徴量
出力：音声認識対象の音響特徴量(ただし、識別結果k以下の中間特徴量抽出部にのみ出力)
処理：特徴量識別部４０１は、学習した特徴量識別モデルに基づき、音声認識対象の音響特徴量のタスクを識別し（Ｓ４０１）、識別結果k以下の中間特徴量抽出部４０２（１），…，４０２（ｋ）に音響モデル学習用音響特徴量を出力する。例えば、第一実施形態の特徴量識別部３０１において、音響モデル学習用音響特徴量を音声認識対象の音響特徴量に代えて処理を行う。

なお、以下では、n=1,2,…,Nにおける処理を説明しているが、音声認識時には、識別結果に応じてkが1,2,…,Nの何れかの値を取り、識別結果k以下の中間特徴量抽出部４０２（１）〜４０２（ｋ）、k番目の出力確率分布計算部４０３（ｋ）においてのみ処理が行われる。

＜中間特徴量抽出部４０２（ｎ）＞
入力：音声認識対象の音響特徴量、中間特徴量抽出部４０２（１）〜４０２（ｎ−１）で抽出された中間特徴量
出力：中間特徴量
処理：中間特徴量抽出部４０２（ｎ）は、入力された特徴量(音声認識対象の音響特徴量、中間特徴量抽出部４０２（１）〜４０２（ｎ−１）で抽出された中間特徴量)から、中間特徴量を抽出する（Ｓ４０２）。具体的な処理内容は、入力として、音響モデル学習用音声特徴量に代えて音声認識対象の音響特徴量を用いる点を除き、中間特徴量抽出部３０２（ｎ）と同様である。

＜出力確率分布計算部４０３（ｎ）＞
入力：中間特徴量抽出部４０２（１）〜４０２（ｎ）で抽出された中間特徴量
出力：音声認識用シンボル
処理：出力確率分布計算部４０３（ｎ）は、中間特徴量抽出部４０２（１）〜４０２（ｎ）で抽出された中間特徴量を現在のモデルに入力して出力層の各ユニットjの出力確率p_jを（例えばソフトマックス関数により）計算し（Ｓ４０３）、出力確率p_jを並べた出力確率分布を得る。出力確率分布計算部４０３（ｎ）は、ニューラルネットワークの出力層を含む。具体的な処理内容は、出力確率分布計算部３０３（ｎ）と同様である。

さらに、出力確率分布計算部４０３（ｎ）は、出力確率分布の中で最も大きい出力確率に対応する音声認識用シンボルを認識結果として出力する。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Nを対象とするタスクの総数とし、n=1,2,…,Nとし、特徴量識別学習用音響特徴量と前記特徴量識別学習用音響特徴量に対応する正しいタスクを示す正解ユニット番号とを含む特徴量識別用学習データを用いて学習した特徴量識別モデルに基づき、音響モデル学習用音響特徴量のタスクを識別する特徴量識別部と、
N個のタスクにそれぞれ対応し、前記音響モデル学習用音響特徴量を入力とし、中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含むN個の中間特徴量抽出部と、
N個のタスクにそれぞれ対応し、前記ニューラルネットワークの出力層を含み、前記中間特徴量からタスク毎の出力確率分布を得るN個の出力確率分布計算部とを含み、
kを1以上N以下の整数の何れかとし、前記特徴量識別部の識別結果であるタスクkに対応する1番目からk番目までの中間特徴量抽出部において、前記音響モデル学習用音響特徴量から中間特徴量を抽出し、k番目の出力確率分布計算部において、k個の中間特徴量から出力確率分布を得、
k番目の出力確率分布と、前記音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、前記音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるようにk番目の前記ニューラルネットワークのパラメタを更新するモデル更新部を含む、
音響モデル学習装置。
請求項１の音響モデル学習装置であって、
前記k番目の中間特徴量抽出部は、1番目からk-1番目までの中間特徴量抽出部において用いるニューラルネットワークの入力層と中間層との何れかの出力値である中間特徴量を用いて、k番目の中間特徴量抽出部において用いるニューラルネットワークの入力層の出力値である中間特徴量を抽出する、
音響モデル学習装置。
請求項１または請求項２の音響モデル学習装置で学習された音響モデルを用いた音声認識装置であって、
前記特徴量識別モデルに基づき、音声認識対象の音響特徴量のタスクを識別する音声認識用特徴量識別部と、
N個のタスクにそれぞれ対応し、前記音声認識対象の音響特徴量を入力とし、中間特徴量を抽出する学習済みのニューラルネットワークの入力層と中間層とを含むN個の音声認識用中間特徴量抽出部と、
N個のタスクにそれぞれ対応し、前記学習済みのニューラルネットワークの出力層を含み、前記音声認識対象の音響特徴量から抽出される中間特徴量からタスク毎の出力確率分布を得るN個の音声認識用出力確率分布計算部とを含み、
kを1以上N以下の整数の何れかとし、識別結果であるタスクkに対応する1番目からk番目までの音声認識用中間特徴量抽出部において、音声認識対象の音響特徴量から中間特徴量を抽出し、
k番目の音声認識用出力確率分布計算部において、k個の中間特徴量から出力確率分布を得、出力確率分布の中で最も大きい出力確率に対応する音声認識用シンボルを認識結果とする、
音声認識装置。
音響モデル学習装置が実行する音響モデル学習方法であって、
Nを対象とするタスクの総数とし、n=1,2,…,Nとし、特徴量識別学習用音響特徴量と前記特徴量識別学習用音響特徴量に対応する正しいタスクを示す正解ユニット番号とを含む特徴量識別用学習データを用いて学習した特徴量識別モデルに基づき、音響モデル学習用音響特徴量のタスクを識別する特徴量識別ステップと、
N個のタスクにそれぞれ対応し、前記音響モデル学習用音響特徴量を入力とし、中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含むN個の中間特徴量抽出ステップと、
N個のタスクにそれぞれ対応し、前記ニューラルネットワークの出力層を含み、前記中間特徴量からタスク毎の出力確率分布を得るN個の出力確率分布計算ステップとを含み、
kを1以上N以下の整数の何れかとし、前記特徴量識別ステップの識別結果であるタスクkに対応する1番目からk番目までの中間特徴量抽出ステップにおいて、前記音響モデル学習用音響特徴量から中間特徴量を抽出し、k番目の出力確率分布計算ステップにおいて、k個の中間特徴量から出力確率分布を得、
k番目の出力確率分布と、前記音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、前記音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるようにk番目の前記ニューラルネットワークのパラメタを更新するモデル更新ステップを含む、
音響モデル学習方法。
請求項４の音響モデル学習方法であって、
前記k番目の中間特徴量抽出ステップは、1番目からk-1番目までの中間特徴量抽出ステップにおいて用いるニューラルネットワークの入力層と中間層との何れかの出力値である中間特徴量を用いて、k番目の中間特徴量抽出ステップにおいて用いるニューラルネットワークの入力層の出力値である中間特徴量を抽出する、
音響モデル学習方法。
請求項４または請求項５の音響モデル学習方法で学習された音響モデルを用いた音声認識方法であって、
前記特徴量識別モデルに基づき、音声認識対象の音響特徴量のタスクを識別する音声認識用特徴量識別ステップと、
N個のタスクにそれぞれ対応し、前記音声認識対象の音響特徴量を入力とし、中間特徴量を抽出する学習済みのニューラルネットワークの入力層と中間層とを含むN個の音声認識用中間特徴量抽出ステップと、
N個のタスクにそれぞれ対応し、前記学習済みのニューラルネットワークの出力層を含み、前記音声認識対象の音響特徴量から抽出される中間特徴量からタスク毎の出力確率分布を得るN個の音声認識用出力確率分布計算ステップとを含み、
kを1以上N以下の整数の何れかとし、識別結果であるタスクkに対応する1番目からk番目までの音声認識用中間特徴量抽出ステップにおいて、音声認識対象の音響特徴量から中間特徴量を抽出し、
k番目の音声認識用出力確率分布計算ステップにおいて、k個の中間特徴量から出力確率分布を得、出力確率分布の中で最も大きい出力確率に対応する音声認識用シンボルを認識結果とする、
音声認識方法。
請求項１もしくは請求項２の音響モデル学習装置としてコンピュータを機能させるためのプログラム。
請求項３の音声認識装置としてコンピュータを機能させるためのプログラム。