JP2019095600A - 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム - Google Patents

音響モデル学習装置、音声認識装置、それらの方法、及びプログラム Download PDF

Info

Publication number
JP2019095600A
JP2019095600A JP2017224950A JP2017224950A JP2019095600A JP 2019095600 A JP2019095600 A JP 2019095600A JP 2017224950 A JP2017224950 A JP 2017224950A JP 2017224950 A JP2017224950 A JP 2017224950A JP 2019095600 A JP2019095600 A JP 2019095600A
Authority
JP
Japan
Prior art keywords
neural network
task
acoustic model
output probability
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017224950A
Other languages
English (en)
Other versions
JP6827911B2 (ja
Inventor
崇史 森谷
Takashi Moriya
崇史 森谷
山口 義和
Yoshikazu Yamaguchi
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017224950A priority Critical patent/JP6827911B2/ja
Publication of JP2019095600A publication Critical patent/JP2019095600A/ja
Application granted granted Critical
Publication of JP6827911B2 publication Critical patent/JP6827911B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

【課題】知識の累積および実利用を考慮した音響モデルを学習する音響モデル学習装置等を提供する。【解決手段】N個のタスクにそれぞれ対応する中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含み、ニューラルネットワークの出力層を含み、N個のタスクにそれぞれ対応する中間特徴量からタスク毎の出力確率分布を得、n番目の出力確率分布と、音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、1番目から(n-1)番目までのニューラルネットワークのパラメタを固定し、音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるように、n番目のニューラルネットワークのパラメタを更新し、n-1番目のタスクの難易度は、n番目のタスクの難易度以下であり、1番目のニューラルネットワークのパラメタから順にN番目のニューラルネットワークのパラメタまで更新する。【選択図】図5

Description

本発明は、音声認識用のニューラルネットワーク型音響モデル(以下、単に「音響モデル」ともいう)を用いた音声認識装置、音響モデルを学習する音響モデル学習装置、それらの方法、及びプログラムに関する。
一般的なニューラルネットワークの学習方法を用いて、音響モデルを学習する方法として非特許文献1の”TRAINING DEEP NEURAL NETWORKS”が知られている(以下、この方法を「従来技術1」ともいう)。図1は、この方法を用いた音響モデル学習装置の機能ブロック図を示す。
事前に学習用の音響信号の各サンプルから抽出した音響特徴量(実数ベクトル)と各音響特徴量に対応する正解ユニット番号のペア(学習データ)、および適当な初期モデルを用意する。初期モデルとしては、各パラメタに乱数を割り当てたニューラルネットワークや、既に別の学習データで学習済みのニューラルネットワークなどが利用できる。中間特徴量抽出部101は入力された音響特徴量から、中間特徴量を抽出する。中間特徴量は出力確率分布計算部102において正解ユニットを識別しやすくするための特徴量であり、例えば次式で計算することができる。
Figure 2019095600
yjはニューラルネットワークに含まれるある中間層のユニットjで得られる中間特徴量であり、bjはユニットjのバイアスであり、wijは下位の中間層のユニットiからある中間層のユニットjへの重みである。この中間特徴量抽出部101は、ニューラルネットワークの入力層と1つ以上の中間層とを含み、層の数だけ中間特徴量を抽出する計算が行われる。
出力確率分布計算部102は、中間特徴量抽出部101で抽出した中間特徴量を現在のモデルに入力して出力層の各ユニットjの出力確率pjを次式により計算し、出力確率pjを並べた出力確率分布を得る。
Figure 2019095600
モデル更新部103は、正解ユニット番号と出力確率分布から次式により損失関数Cを計算する。
Figure 2019095600
ただし、djはターゲットラベルを表す。そして、損失関数Cの値を減少させるように次式によりモデルを更新する。
Figure 2019095600
式(1)のwijとして上述のΔwij(t)を用いて処理を繰り返す。ただし、αはミニバッチtについて計算された勾配を平滑化するための値であり0<α<1とし、εはパラメタの更新量を制御するステップサイズパラメタである。この処理を全学習データに対して行った場合を1エポックとしたときに、所定のエポック数(通常、数十〜数百回)の繰り返しが完了した時点のモデルを学習済みモデルとして利用する。
非特許文献2には、最終的に性能を上げたいタスクに対して類似した簡単なタスクの学習データを用いてモデルを学習させる方法(以下、カリキュラム学習と呼ぶ)が記載されている。
非特許文献2におけるカリキュラム学習を可能とするフレームワークを図2に示す。以下、この構成を従来技術2ともいう。基本的なモジュール(中間特徴量抽出部101、出力確率分布計算部102、モデル更新部103)は従来技術1(図1)と同様である。異なる点は簡単なタスク1を学習した後にタスク1より難しいタスク2を学習する際に、タスク1で学習した中間特徴量抽出部101を用いてタスク2の学習データで中間特徴量抽出部101および出力確率分布計算部102を再学習する。この方法を最終的に解きたいタスクNとなるまで繰り返して最終的なモデルを学習する。非特許文献2には、カリキュラム学習により、簡単なタスクから徐々に難しいタスクを学習させることで、最終的に解きたいタスクNにおける性能が最初からタスクNで学習したモデルの性能よりも改善することが記載されている。
非特許文献3には、あるタスクの学習データを用いて学習したニューラルネットワークのモデルが持つ知識を新たなタスクへ転移学習させる方法が記載されている。
図3は、非特許文献3における転移学習を可能とする音響モデル学習装置の機能ブロック図を示す。以下、この構成を従来技術3ともいう。従来技術3の基本的なモジュール(中間特徴量抽出部101(1)、出力確率分布計算部102(1)、モデル更新部103(1))は、それぞれ従来技術1(図1)の中間特徴量抽出部101、出力確率分布計算部102、モデル更新部103と同様である。
異なる点はタスク1に加えて新しいタスク2が追加された際に、中間特徴量抽出部101(2)、出力確率分布計算部102(2)を用意する点である。図3中、破線で示した中間特徴量抽出部101(1)、出力確率分布計算部102(1)では、タスク1で学習したパラメタを用いる。なお、各部の出力ベクトルの次元が次のモジュールで用いるモデルへの入力の次元となるように、次のモジュールにおいて線形射影を行っている。同様に実線部の中間特徴量抽出部101(2)、出力確率分布計算部102(2)では、タスク2の学習データを用いてモデル更新部103によって学習されるパラメタを用いる。中間特徴量抽出部101(2)は、タスク2の学習データを用いてモデル更新部103によって学習されるパラメタを用いて、中間特徴量抽出部101(1)の出力値である中間特徴量と、音響特徴量(タスク2)とから中間特徴量を抽出する(非特許文献3参照)。同様に、出力確率分布計算部102(2)は、タスク2の学習データを用いてモデル更新部103によって学習されるパラメタと、中間特徴量抽出部101(1),101(2)で求めた中間特徴量とを用いて、出力確率分布を求める(非特許文献1,2参照)。モデル更新部103は、出力確率分布計算部102(2)の出力値(出力確率分布)を用いて、損失関数Cを計算し(非特許文献1参照)、損失関数Cの値を減少させるように新しいタスクのために生成されたニューラルネットワークのパラメタのみ(中間特徴量抽出部101(2)、出力確率分布計算部102(2)において用いるパラメタ)を更新する。
さらにタスクを追加する手順は図3と同様であり、N番目のタスクまで追加した場合の機能ブロック図を図4に示す。
この学習方法を用いることで過去のタスク(1,…,N-1)の知識を失わない、かつN番目の新しいタスクの知識に効率よく転移させることが可能であることが非特許文献3に記載されている。
Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," IEEE Signal Processing Magazine, Vol. 29, No 6, pp.82-97, 2012. Y. Bengio, J. Louradour, R. Collobert, and J. Weston, "Curriculum learning," ICML, pp. 41-48, 2009. A. A. Rusu, N. C. Rabinowitz, G. Desjardins, H. Soyer, J. Kirkpatrick, K. Kavukcuoglu, R. Pascanu, and R. Hadsell, "Progressive neural networks," arXiv preprint arXiv:1606.04671, 2016.
従来技術1では、1つの中間特徴量抽出部および出力確率分布計算部へ新たにタスクの音声を追加して学習する際に、最も新しいタスクに対しては最適なモデルとなるが過去の知識を忘却(パラメタの上書き)する問題がある。これはニューラルネットのモデルの性質により起こる問題である(以下、課題1ともいう)。この問題は従来技術2においても同様に起こっている問題である。
また、従来技術3では、中間特徴量抽出部および出力確率分布計算部をタスクごとに用意し、過去のタスクに対応する中間特徴量抽出部および出力確率分布計算部から新たなタスクの中間特徴量抽出部および出力確率分布計算部へ線形結合させることで過去のタスクに関する知識を活かした学習が可能となり、モデル更新時は過去の中間特徴量抽出部と出力確率分布計算部を更新しないことで過去のタスクに関する知識の忘却(パラメタの上書き)を防いており、従来技術1の問題を解決している。しかし、入力した特徴量がどのタスクであるかが既知でないと実利用できない欠点がある(以下、課題2ともいう)。
以上の課題1、および課題2により、現状の音響モデルでは過去のタスクに関する知識を累積するような学習、かつ実利用を考慮することが困難である。
本発明は、知識の累積および実利用を考慮した音響モデルを学習する音響モデル学習装置、その音響モデルを用いた音声認識装置、それらの方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、音響モデル学習装置は、Nを2以上の整数の何れかとし、n=1,2,…,Nとし、N個のタスクにそれぞれ対応し、音響モデル学習用音響特徴量を入力とし、中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含むN個の中間特徴量抽出部と、N個のタスクにそれぞれ対応し、ニューラルネットワークの出力層を含み、中間特徴量からタスク毎の出力確率分布を得るN個の出力確率分布計算部と、n番目の出力確率分布と、音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、1番目から(n-1)番目までのニューラルネットワークのパラメタを固定し、音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるように、n番目のニューラルネットワークのパラメタを更新するモデル更新部とを含み、n-1番目のタスクの難易度は、n番目のタスクの難易度以下であり、1番目のニューラルネットワークのパラメタから順にN番目のニューラルネットワークのパラメタまで更新する。
上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習方法は、音響モデル学習装置が実行する。音響モデル学習方法は、Nを2以上の整数の何れかとし、n=1,2,…,Nとし、N個のタスクにそれぞれ対応し、音響モデル学習用音響特徴量を入力とし、中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含むN個の中間特徴量抽出ステップと、N個のタスクにそれぞれ対応し、ニューラルネットワークの出力層を含み、中間特徴量からタスク毎の出力確率分布を得るN個の出力確率分布計算ステップと、n番目の出力確率分布と、音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、1番目から(n-1)番目までのニューラルネットワークのパラメタを固定し、音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるように、n番目のニューラルネットワークのパラメタを更新するモデル更新ステップとを含み、n-1番目のタスクの難易度は、n番目のタスクの難易度以下であり、1番目のニューラルネットワークのパラメタから順にN番目のニューラルネットワークのパラメタまで更新する。
本発明によれば、知識の累積および実利用を考慮した音響モデルを学習することができる。最終的に解きたいタスクのために簡単なタスクからカリキュラム学習する際に、タスク別に特徴量抽出部を持たせることで各特徴量抽出部が最終的に解きたいタスクの補助特徴量抽出部となっているため、従来技術1および従来技術2よりも性能を改善することが可能となる。なお、音声認識におけるカリキュラム学習を行う際のタスクは、難易度の低いものから順に並んでおり、例えば、1.音声の有無の判別、2.母音の判別、3.音素の判別となり、4.最終的に解きたいタスクとは音素の前後を考慮してさらに詳細に分類した音声認識用シンボルの判別となる。
従来技術1を説明するための図。 従来技術2を説明するための図。 従来技術3を説明するための図。 従来技術3を説明するための図。 第一実施形態に係る音響モデル学習装置の機能ブロック図。 第一実施形態に係る音響モデル学習装置の処理フローの例を示す図。 中間特徴量抽出部及び出力確率分布計算部に含まれるニューラルネットワークを説明するための図。 中間特徴量抽出部及び出力確率分布計算部に含まれるニューラルネットワークを説明するための図。 第二実施形態に係る音声認識装置の機能ブロック図。 第二実施形態に係る音声認識装置の処理フローの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
本実施形態のポイントは以下の通りである。
従来技術3を音響モデルの学習に応用することで従来技術1および従来技術2で起こっていた中間特徴量抽出部101を新たなタスクで学習する際に起こる過去のタスクに関する知識の忘却(課題1)を防ぐことができる。
さらに従来技術3ではタスクが既知でなければ特徴量をどの中間特徴量抽出部および出力確率分布計算部に入力すればよいか判別できなかったが、従来技術3を最終的に解きたいタスクの補助特徴量抽出部として応用することで、特徴量がどの中間特徴量抽出部および出力確率分布計算部に入力すればよいかが判別する必要がなくなるため、従来技術3で作成したニューラルネットワークのモデルを実利用することが可能となる。
従来技術3との相違点は、従来技術3の中間特徴量抽出部、出力確率分布計算部における過去の中間特徴量抽出部101(1)〜101(N−1)および出力確率分布計算部102(1)〜102(N−1)までを補助特徴量抽出部として使用している点、およびN個の中間特徴量抽出部101(n)に含まれる入力層及び中間層における結線が追加されている点である。音声認識の音響モデルでは最終的に解きたいタスクのラベルは常に音声認識用シンボルであるため、音響モデル学習用音響特徴量は常に全中間特徴量抽出部101(1)〜101(N)へ入力すればよいので従来技術3の中間特徴量抽出部、出力確率分布計算部のように特徴量の入力経路の選択を必要としない。
<第一実施形態>
図5は第一実施形態に係る音響モデル学習装置の音響モデル学習時の機能ブロック図を、図6は音響モデル学習時の処理フローを示す。
音響モデル学習装置は、N個の中間特徴量抽出部302(n)と、N個の出力確率分布計算部303(n)と、モデル更新部304とを含む。ただし、n=1,2,…,Nであり、Nは音響モデル学習装置で音響モデルをカリキュラム学習する際のタスクの総数である。
音響モデル学習装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音響モデル学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音響モデル学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音響モデル学習装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音響モデル学習装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
音響モデル学習装置は、音響モデル学習用音響特徴量とその音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを含む音響モデル学習用学習データを入力とし、音響モデルを学習し、学習済みの音響モデルを出力する。
以下、各部の処理内容について説明する。
<N個の中間特徴量抽出部302(n)>
N個の中間特徴量抽出部302(n)は、1番目の中間特徴量抽出部302(1)に含まれるニューラルネットワークのパラメタから順にN番目の中間特徴量抽出部302(N)に含まれるニューラルネットワークのパラメタまで更新する。このとき、n-1番目のタスクの難易度は、n番目のタスクの難易度以下であり、n番目のニューラルネットワークのパラメタを更新するときには、1番目から(n-1)番目までのニューラルネットワークのパラメタを固定する(更新しない)。
1番目から(N-1)番目までの中間特徴量抽出部302(1)〜302(N−1)を補助特徴量抽出部ともいう。補助特徴量抽出部は従来技術3と同様に新しいタスクを追加する際にタスク別に中間特徴量抽出部302(N)と出力確率分布計算部302(N)を追加していき、新しいタスクを追加した際に過去のタスクで学習した中間特徴量抽出部302(1)〜302(N−1)と出力確率分布計算部303(1)〜303(N−1)はパラメタの更新を行わない。従来技術3との違いは補助特徴量抽出部では追加していくタスクを最終的に解きたいタスクに対して、最初は簡単なタスクを解かせてから徐々にタスクの難易度を上げていく点である。このタスクの難易度は、例えば、出力確率分布計算部303(n)におけるベクトルの次元数(クラス数)に依存する。出力確率分布計算部303(n)におけるベクトルの次元数(クラス数)が同一であるタスクが複数存在する場合は任意の順番で学習を行う。例えば、この音響モデル学習装置では1.音声有無の判定(2クラス)、2.音声有無および母音の判定(3クラス)、3.音声の有無および音素の判定(約40クラス)と徐々にタスクの難易度を上げながら学習を行う。そして最終的に解きたいタスクを学習および認識する際に過去のタスクで学習した中間特徴量抽出部302(1)〜302(N−1)は過去のタスクの知識を反映させた補助特徴量を抽出する。各中間特徴量抽出部302(n)について説明する。
<中間特徴量抽出部302(n)>
入力:音響モデル学習用音響特徴量、中間特徴量抽出部302(1)〜302(n−1)で抽出された中間特徴量
出力:中間特徴量
処理:中間特徴量抽出部302(n)は、入力された特徴量(音響モデル学習用音響特徴量、中間特徴量抽出部302(1)〜302(n−1)で抽出された中間特徴量)から、新たな中間特徴量を抽出する。中間特徴量は、出力確率分布計算部303(n)において正解ユニットを識別しやすくするための特徴量である。この中間特徴量抽出部302(n)は複数の層のニューラルネットワークの入力層と中間層を含み、層の数だけ特徴量を抽出する計算を行う。以下で詳細を説明する。
中間特徴量抽出部302(n)と出力確率分布計算部303(n)とをニューラルネットワークの単位で見たときの構造を図7に示す。この図では、中間特徴量抽出部302(n)は、ニューラルネットワークの入力層302(n)−inとF個の中間層302(n)−fとを含み、出力確率分布計算部303(n)は出力層303(n)−outを含む。f=1,2,…,Fである。図7では、F=1とし、n=Nとしている。図8では、F=2とし、n=Nとしている。以下、図7に沿って説明するが、図8においても同様に処理を行うことができる。また、F>2においても同様である。
なお、図7中、破線で示した各矢印に対応する出力値に対するパラメタ、破線で示した各部において用いるパラメタは固定したまま処理を行い、実線で示した各矢印に対応する出力値に対するパラメタ、実線で示した各部において用いるパラメタは更新して処理を行う。
入力層302(n)−inは、音響モデル学習用音響特徴量を入力とする。
さらに、入力層302(n)−inは、音響モデル学習用音響特徴量に加え、過去のタスク(1〜n-1)の中間層の最終層の出力(中間特徴量)をも入力とする。例えば、F=1とし、n=Nとし、タスクNを新たに追加する場合には、タスクNの入力層302(N)−inに音響モデル学習用音響特徴量と中間層の最終層302(1)−1〜302(N−1)−1からの出力(中間特徴量)が入力される(図7参照)。この操作により新規タスクNの学習時に非特許文献3よりも効率的な学習を可能とする。入力層302(n)−inは、これらの値から中間特徴量を求め、出力する。例えば、新規タスクNの学習時には、非特許文献2の式(1)において、1つ前の層から得られる中間特徴量に代えて中間層の最終層から得られる中間特徴量を用いて、入力層302(n)−inの出力値(中間特徴量)を得ることができる。
中間層302(n)−fは、同列以下のタスク(1〜n)の1つ前の層(f-1)である中間層302(1)−(f−1)〜中間層302(n)−(f−1)(中間層302(n)−fが中間層の最初の層の場合には入力層302(1)−in〜入力層302(n)−in)の出力値(中間特徴量)とを入力とし、これらの値を用いて、中間特徴量を求め、出力する。例えば、次式により中間特徴量を計算する。
Figure 2019095600
yf (n)はタスクnに対応する列の中間層302(n)−fの出力値(中間特徴量)からなるベクトルであり、Wf (n)はタスクnに対応する列の1つ前の層の出力値yf-1 (n)に対する重みからなる行列であり、Uf (n:j)はタスクj(j=1,2,…,n-1)に対応する列の1つ前の層の出力値yf-1 (j)に対する重みからなる行列であり、f()は要素ごとに処理を行う非線形関数であり、例えば、f(x)=max(0,x)である。なお、入力層302(n)−inにおいて、n>1における新しいタスクでは過去のタスクj(j=1,2,…,n-1)に対応する列の出力層の1つ前の層の全出力値yF (1:n-1)を新たなタスクの音響モデル学習用音響特徴量と結合したものを用いて中間特徴量y0 (n)を求め出力する。
<出力確率分布計算部303(n)>
入力:中間特徴量抽出部302(1)〜302(n)で抽出された中間特徴量
出力:出力確率分布
処理:出力確率分布計算部303(n)は、中間特徴量抽出部302で抽出した中間特徴量を現在のモデルに入力して出力層の各ユニットjの出力確率pjを(例えば、ソフトマックス関数により)計算し、出力確率pjを並べた出力確率分布を得る。出力確率分布計算部303(n)は、ニューラルネットワークの出力層を含む。
図7を用いて説明する。
出力確率分布計算部303(n)に含まれる出力層303(n)−outは、中間層の最終層である中間層302(1)−(F)〜中間層302(n)−(F)の出力値(中間特徴量)を入力とし、これらの値を用いて、出力確率分布(タスクn)を求め、出力する。例えば、上述の式(11)を用いて、ベクトルyF+1 (n)を求め、次式によりベクトルyF+1 (n)に含まれるj番目の要素yF+1 (n)(j)(ユニットjに対応)の出力確率pjを求め、出力確率分布を求める。
Figure 2019095600
中間特徴量抽出部302(n)および出力確率分布計算部303(n)では、新規タスクNの学習時には、以下のように処理を行っているとも言える。過去の全タスクの全中間特徴量抽出部302(1)〜302(N−1)の最終層である中間層302(1)−1〜302(N−1)−1の出力は新しいタスクにおける出力確率分布計算部303(N)へ入力される。各中間特徴量抽出部302(1)〜302(N)の入力層302(1)−in〜302(N)−in及び中間層302(1)−1〜302(N)−1の出力は、同列の次の層の中間層302(1)−1〜302(N)−1および出力層303(1)−out〜303(N)−out、および新しいタスクの列の次の層の中間層302(N)−1および出力層303(N)−outへと入力される。
なお、新たなタスクNで学習する際に図8の列方向と斜め方向に生成される重みの係数(パラメタ)はランダムに初期化された値を用いる。また、列方向のパラメタに関しては前のタスクで学習したパラメタをコピーして初期値とすることが可能である。
中間特徴量抽出部302(n)及び出力確率分布計算部303(n)において、この中間特徴量の入力方法を用いることで、新たなタスクの学習データのみで追加学習を行う際に過去のタスクの性能を維持しながら新たなタスクの性能および学習効率を向上させることができる。
<モデル更新部304>
入力:n番目の出力確率分布、正解ユニット番号
出力:n番目のニューラルネットワークのパラメタ
処理:モデル更新部304は、n番目の出力確率分布と、音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるようにn番目のニューラルネットワークのパラメタを更新し(S304)、出力する。
例えば、モデル更新部304は、正解ユニット番号と出力確率分布計算部303(n)より得られる出力確率分布から損失関数(例えば式(3)により)を計算し、損失関数の値を減少させるように(例えば式(4)を行列に拡張して)モデルを更新する。なお、更新されるニューラルネットワーク内のパラメタは、式(11)の行列Wf (n)及び行列Uf (n:j)である。なお、式(11)では用いてないが、非特許文献の式(1)のバイアスbを更新する構成としてもよい。
音響モデル学習用音響特徴量と正解ユニット番号の各ペアに対して、所定の条件を満たすまで、中間特徴量の抽出(S302)→出力確率計算(S303)→モデル更新(S304)の処理を繰り返し(S305)、所定の条件(所定のエポック数(通常、数十〜数百回)の繰り返し)を満たした時点で、次のタスクに対する学習に移行し、タスクNまで終わった時点(S306)のモデルを学習済みモデルとして出力する。ただし、タスク1〜(N−1)のモデルが学習済みの場合には、新しいタスクNを追加し、追加分だけを学習すればよい。
<効果>
以上の構成により、知識の累積および実利用を考慮した音響モデルを学習することができる。カリキュラム学習する際に、タスク別に特徴量抽出部を持たせることで各特徴量抽出部が最終的に解きたいタスクの補助特徴量抽出部となっているため、従来技術1および従来技術2よりも性能を改善することが可能となる。
<変形例>
中間特徴量抽出部302(n)において、入力層302(n)−inでは、必ずしも、n>1における新しいタスクにおいて過去のタスクj(j=1,2,…,n-1)に対応する列の出力層の1つ前の層の全出力値yF (1:n-1)を新たなタスクの音響モデル学習用音響特徴量y0 (n)と結合したものを用いなくともよい。過去のタスクj(j=1,2,…,n-1)に対応する列の入力層、または、出力層の1つ前の層(最終層)以外の中間層の何れかの全出力値yf' (1:n-1)(ただし、f'は0,1,…,F-1の何れか)を新たなタスクの音響モデル学習用音響特徴量y0 (n)と結合したものを用いて中間特徴量y0 (n)を求めてもよい。言い換えると、中間特徴量抽出部302(n)において、必ずしも中間層の最終層の出力を次のタスク(その中間層に対応するタスクよりも新しいタスク)の入力層の入力としなくともよい。入力層、または、最終層以外の中間層の何れかの出力を次のタスクの入力層の入力としてもよい。ただし、より出力に近い層の出力を次のタスクの入力層の入力とし計算したほうが、最終的に学習された音響モデルの認識精度は高くなる場合が多い。
また、中間特徴量抽出部302(n)において、必ずしも入力層、または、最終層以外の中間層の何れかの出力を次のタスク(その中間層に対応するタスクよりも新しいタスク)の入力層の入力としなくともよい。つまり、入力層の入力を音響モデル学習用音響特徴量のみとしてもよい。そのような構成であっても、従来技術1よりも効率よく学習が可能であり、また、実利用を考慮した音響モデルを構築することが可能であるという効果を得ることはできる。
<第二実施形態>
本実施形態では、第一実施形態で学習した音響モデルを用いた音声認識装置について説明する。
図9は第二実施形態に係る音声認識装置の機能ブロック図を、図10は第二実施形態に係る音声認識装置の処理フローの例を示す。
音響モデルは、N個の中間特徴量抽出部402(n)と、出力確率分布計算部403とを含む。なお、音声認識処理に先立ち、第一実施形態に係る音響モデル学習装置で学習した音響モデルを設定しておく。中間特徴量抽出部302(1)〜302(N)で用いたパラメタをそれぞれ中間特徴量抽出部402(1)〜402(N)に設定し、出力確率分布計算部303(N)で用いたパラメタを出力確率分布計算部403に設定する。
音声認識装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声認識装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声認識装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声認識装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声認識装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
第二実施形態に係る音声認識装置は、音声認識対象の音響特徴量を入力とし、音声認識処理を行い、認識結果を出力する。
以下、各部の処理内容について説明する。
<中間特徴量抽出部402(n)>
入力:音声認識対象の音響特徴量、中間特徴量抽出部402(1)〜402(n−1)で抽出された中間特徴量
出力:中間特徴量
処理:中間特徴量抽出部402(n)は、入力された特徴量(音声認識対象の音響特徴量、中間特徴量抽出部402(1)〜402(n−1)で抽出された中間特徴量)から、中間特徴量を抽出する(S402)。具体的な処理内容は、入力として、音響モデル学習用音声特徴量に代えて音声認識対象の音響特徴量を用いる点を除き、中間特徴量抽出部302(n)と同様である。
<出力確率分布計算部403>
入力:中間特徴量抽出部402(1)〜402(N)で抽出された中間特徴量
出力:音声認識用シンボル
処理:出力確率分布計算部403は、中間特徴量抽出部402(1)〜402(N)で抽出された中間特徴量を現在のモデルに入力して出力層の各ユニットjの出力確率pjを(例えばソフトマックス関数により)計算し(S403)、出力確率pjを並べた出力確率分布を得る。出力確率分布計算部403は、ニューラルネットワークの出力層を含む。具体的な処理内容は、出力確率分布計算部303(n)と同様である。
さらに、出力確率分布計算部403は、出力確率分布の中で最も大きい出力確率に対応する音声認識用シンボルを認識結果として出力する。
<変形例>
本実施形態では、出力確率分布計算部403を1つとしているが、N個の出力確率分布計算部を設け、N個の出力確率分布を求め、音声認識用シンボルと共に、各タスクにおける認識結果を出力する構成としてもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. Nを2以上の整数の何れかとし、n=1,2,…,Nとし、N個のタスクにそれぞれ対応し、音響モデル学習用音響特徴量を入力とし、中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含むN個の中間特徴量抽出部と、
    N個のタスクにそれぞれ対応し、前記ニューラルネットワークの出力層を含み、前記中間特徴量からタスク毎の出力確率分布を得るN個の出力確率分布計算部と、
    n番目の出力確率分布と、前記音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、1番目から(n-1)番目までの前記ニューラルネットワークのパラメタを固定し、前記音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるように、n番目の前記ニューラルネットワークのパラメタを更新するモデル更新部とを含み、
    n-1番目のタスクの難易度は、n番目のタスクの難易度以下であり、1番目のニューラルネットワークのパラメタから順にN番目のニューラルネットワークのパラメタまで更新する、
    音響モデル学習装置。
  2. 請求項1の音響モデル学習装置であって、
    前記n番目の中間特徴量抽出部は、1番目からn-1番目までの中間特徴量抽出部において用いるニューラルネットワークの入力層と中間層との何れかの出力値である中間特徴量を用いて、n番目の中間特徴量抽出部において用いるニューラルネットワークの入力層の出力値である中間特徴量を抽出する、
    音響モデル学習装置。
  3. 請求項1または請求項2の音響モデル学習装置であって、
    前記タスクの難易度は、前記タスクの出力次元数に応じて定まる、
    音響モデル学習装置。
  4. 請求項1から請求項3の何れかの音響モデル学習装置で学習された音響モデルを用いた音声認識装置であって、
    N個のタスクにそれぞれ対応し、前記音声認識対象の音響特徴量を入力とし、中間特徴量を抽出する学習済みのニューラルネットワークの入力層と中間層とを含むN個の音声認識用中間特徴量抽出部と、
    N番目のタスクに対応し、前記学習済みのニューラルネットワークの出力層を含み、前記音声認識対象の音響特徴量から抽出される中間特徴量からタスクNの出力確率分布を得る音声認識用出力確率分布計算部とを含み、
    1番目からN番目までの音声認識用中間特徴量抽出部において、音声認識対象の音響特徴量から中間特徴量を抽出し、
    前記音声認識用出力確率分布計算部において、N個の中間特徴量から出力確率分布を得、出力確率分布の中で最も大きい出力確率に対応する音声認識用シンボルを認識結果とする、
    音声認識装置。
  5. 音響モデル学習装置が実行する音響モデル学習方法であって、
    Nを2以上の整数の何れかとし、n=1,2,…,Nとし、N個のタスクにそれぞれ対応し、音響モデル学習用音響特徴量を入力とし、中間特徴量を抽出するニューラルネットワークの入力層と中間層とを含むN個の中間特徴量抽出ステップと、
    N個のタスクにそれぞれ対応し、前記ニューラルネットワークの出力層を含み、前記中間特徴量からタスク毎の出力確率分布を得るN個の出力確率分布計算ステップと、
    n番目の出力確率分布と、前記音響モデル学習用音響特徴量に対応する正しい認識結果を示す正解ユニット番号とを用いて、1番目から(n-1)番目までの前記ニューラルネットワークのパラメタを固定し、前記音響モデル学習用音響特徴量の正解ユニット番号に対応する出力確率が大きくなるように、n番目の前記ニューラルネットワークのパラメタを更新するモデル更新ステップとを含み、
    n-1番目のタスクの難易度は、n番目のタスクの難易度以下であり、1番目のニューラルネットワークのパラメタから順にN番目のニューラルネットワークのパラメタまで更新する、
    音響モデル学習方法。
  6. 請求項5の音響モデル学習方法で学習された音響モデルを用いた音声認識方法であって、
    N個のタスクにそれぞれ対応し、前記音声認識対象の音響特徴量を入力とし、中間特徴量を抽出する学習済みのニューラルネットワークの入力層と中間層とを含むN個の音声認識用中間特徴量抽出ステップと、
    N番目のタスクに対応し、前記学習済みのニューラルネットワークの出力層を含み、前記音声認識対象の音響特徴量から抽出される中間特徴量からタスクNの出力確率分布を得る音声認識用出力確率分布計算ステップとを含み、
    1番目からN番目までの音声認識用中間特徴量抽出ステップにおいて、音声認識対象の音響特徴量から中間特徴量を抽出し、
    前記音声認識用出力確率分布計算ステップにおいて、N個の中間特徴量から出力確率分布を得、出力確率分布の中で最も大きい出力確率に対応する音声認識用シンボルを認識結果とする、
    音声認識方法。
  7. 請求項1から請求項3の何れかの音響モデル学習装置、または、請求項4の音声認識装置としてコンピュータを機能させるためのプログラム。
JP2017224950A 2017-11-22 2017-11-22 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム Active JP6827911B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017224950A JP6827911B2 (ja) 2017-11-22 2017-11-22 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017224950A JP6827911B2 (ja) 2017-11-22 2017-11-22 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019095600A true JP2019095600A (ja) 2019-06-20
JP6827911B2 JP6827911B2 (ja) 2021-02-10

Family

ID=66971680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017224950A Active JP6827911B2 (ja) 2017-11-22 2017-11-22 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6827911B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111998936A (zh) * 2020-08-25 2020-11-27 四川长虹电器股份有限公司 一种基于迁移学习的设备异音检测方法及系统
CN114783427A (zh) * 2022-06-20 2022-07-22 成都启英泰伦科技有限公司 基于命令词的语音识别模型压缩方法
CN114974228A (zh) * 2022-05-24 2022-08-30 名日之梦(北京)科技有限公司 一种基于分级识别的快速语音识别方法
WO2023119674A1 (ja) * 2021-12-24 2023-06-29 日本電信電話株式会社 学習方法、学習装置及び学習プログラム
US11995153B2 (en) 2020-09-24 2024-05-28 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014157323A (ja) * 2013-02-18 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音響モデル学習装置、その方法及びプログラム
US9202464B1 (en) * 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition
JP2017097162A (ja) * 2015-11-24 2017-06-01 富士通株式会社 キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
JP2018180354A (ja) * 2017-04-17 2018-11-15 日本電信電話株式会社 音響モデル学習装置、その方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202464B1 (en) * 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition
JP2014157323A (ja) * 2013-02-18 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音響モデル学習装置、その方法及びプログラム
JP2017097162A (ja) * 2015-11-24 2017-06-01 富士通株式会社 キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
JP2018180354A (ja) * 2017-04-17 2018-11-15 日本電信電話株式会社 音響モデル学習装置、その方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
森谷崇史,外6名: "Progressive neural networksを応用した音響モデルの転移学習", 日本音響学会講演論文集, JPN6020037242, March 2018 (2018-03-01), pages 13 - 14, ISSN: 0004360279 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111998936A (zh) * 2020-08-25 2020-11-27 四川长虹电器股份有限公司 一种基于迁移学习的设备异音检测方法及系统
US11995153B2 (en) 2020-09-24 2024-05-28 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
WO2023119674A1 (ja) * 2021-12-24 2023-06-29 日本電信電話株式会社 学習方法、学習装置及び学習プログラム
CN114974228A (zh) * 2022-05-24 2022-08-30 名日之梦(北京)科技有限公司 一种基于分级识别的快速语音识别方法
CN114974228B (zh) * 2022-05-24 2023-04-11 名日之梦(北京)科技有限公司 一种基于分级识别的快速语音识别方法
CN114783427A (zh) * 2022-06-20 2022-07-22 成都启英泰伦科技有限公司 基于命令词的语音识别模型压缩方法

Also Published As

Publication number Publication date
JP6827911B2 (ja) 2021-02-10

Similar Documents

Publication Publication Date Title
JP6712642B2 (ja) モデル学習装置、その方法、及びプログラム
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
US11836451B2 (en) Dialogue state tracking using a global-local encoder
JP6827911B2 (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
US11928600B2 (en) Sequence-to-sequence prediction using a neural network model
CN110366734B (zh) 优化神经网络架构
US20210035556A1 (en) Fine-tuning language models for supervised learning tasks via dataset preprocessing
JP6712644B2 (ja) 音響モデル学習装置、その方法、及びプログラム
CN110275928B (zh) 迭代式实体关系抽取方法
US11380301B2 (en) Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program
US20220405639A1 (en) Information processing apparatus, information processing method and program
JP7095747B2 (ja) 音響モデル学習装置、モデル学習装置、それらの方法、およびプログラム
US11182665B2 (en) Recurrent neural network processing pooling operation
JP7085158B2 (ja) ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム
JP6827910B2 (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
US20210224642A1 (en) Model learning apparatus, method and program
WO2021147405A1 (zh) 客服语句质检方法及相关设备
WO2019194128A1 (ja) モデル学習装置、モデル学習方法、プログラム
JP2019211627A (ja) モデル学習装置、方法及びプログラム
WO2021234860A1 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
WO2023203690A1 (ja) 学習装置、推定装置、それらの方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210120

R150 Certificate of patent or registration of utility model

Ref document number: 6827911

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150