JP2021162798A

JP2021162798A - 学習装置、学習方法および学習プログラム

Info

Publication number: JP2021162798A
Application number: JP2020066879A
Authority: JP
Inventors: 成樹苅田; Shigeki Karita; 厚徳小川; Atsunori Ogawa; 晋治渡部; Shinji Watabe
Original assignee: Nippon Telegraph and Telephone Corp; Johns Hopkins University
Current assignee: Nippon Telegraph and Telephone Corp; Johns Hopkins University
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2021-10-11
Anticipated expiration: 2040-04-02
Also published as: JP7274441B2

Abstract

【課題】ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上を可能とする。【解決手段】符号化器１２ｂが、第１のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する。第１復号化器１２ｃが、第２のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のＣＴＣに基づく事後確率を算出する。第２復号化器１２ｄが、第３のニューラルネットワークを用いて、正解記号列と中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する。更新部１２ｆが、ＣＴＣに基づく事後確率が所定の閾値より大きい場合に、第２復号化器１２ｄが算出した事後確率と、ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークのパラメータを更新する。【選択図】図１

Description

本発明は、学習装置、学習方法および学習プログラムに関する。

従来の音声認識モデルは、音響モデルと言語モデルとを別々の系として学習させている。これに対し、ニューラルネットワークを用いたｅｎｄ−ｔｏ−ｅｎｄの音声認識モデルの学習技術が注目されている（非特許文献１参照）。この技術では、音声を入力とし、記号列を特定する情報を出力する系全体として最適化を行うことができるので、従来の音声認識より精度の高い音声認識が可能となる。

また、一般に、モデルの学習では、訓練データの数を増やすほど、学習の結果として得られるモデルの精度が向上することが期待される。例えば、音声認識モデルの学習において、ノイズを含まないクリーンな音声データと、その書き起こしテキストとのペアからなる理想的な状態の訓練データを用いれば、訓練データの数を増やすほど、音声認識の精度が向上する。

J. Chorowski et al., "Attention-Based Models for Speech Recognition", 2015年, Advances in Neural Information Processing Systems 28 (NIPS 2015), pp. 577-585

しかしながら、ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上が困難な場合がある。例えば、現実の音声認識では、多くの訓練データには雑音等が含まれており、ノイズを含まないクリーンな音声データを大量に用意することは困難である。また、ノイズや誤り等を含む訓練データの数を増やして学習しても、却って音声認識の精度が低下してしまう場合がある。

本発明は、上記に鑑みてなされたものであって、ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上を可能とすることを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、第１のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換部と、第２のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のＣＴＣ（Connectionist Temporal Classification）に基づく事後確率を算出する第１の算出部と、第３のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第２の算出部と、前記ＣＴＣに基づく事後確率が所定の閾値より大きい場合に、前記第２の算出部が算出した前記事後確率と、前記ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、前記第１のニューラルネットワーク、前記第２のニューラルネットワークおよび前記第３のニューラルネットワークのパラメータを更新する更新部と、を有することを特徴とする。

本発明によれば、ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上が可能となる。

図１は、本実施形態の学習装置の概略構成を例示する模式図である。図２は、他の実施形態の学習装置の概略構成を例示する模式図である。図３は、学習処理手順を示すフローチャートである。図４は、学習プログラムを実行するコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［学習装置の構成］
図１は、本実施形態の学習装置の概略構成を例示する模式図である。図１に例示するように、本実施形態の学習装置１０は、パソコン等の汎用コンピュータで実現され、記憶部１１、および制御部１２を備える。

記憶部１１は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１１には、学習装置１０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。

本実施形態において、記憶部１１は、後述するｅｎｄ−ｔｏ−ｅｎｄニューラルネットワークのパラメータ１１ａを記憶する。これらのパラメータ１１ａは、後述する学習処理により更新される。

制御部１２は、ＣＰＵ（Central Processing Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１２は、図１に例示するように、データ選択部１２ａ、符号化器１２ｂ、第１復号化器１２ｃ、第２復号化器１２ｄ、データクレンジング部１２ｅ、更新部１２ｆおよび終了判定部１２ｇとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。また、制御部１２は、その他の機能部を備えてもよい。

データ選択部１２ａは、学習用の音声信号の入力を受け付ける。具体的には、データ選択部１２ａは、入力された訓練データの集合から、後述する学習処理に用いる音声信号を選択し、後述する符号化器１２ｂに入力する。なお、訓練データのうち、全ての音声信号が符号化器１２ｂに入力された場合には、後述する更新部１２ｆの処理が実行されるようにしてもよい。

符号化器１２ｂは、変換部の一例であり、第１のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する。符号化器１２ｂは、例えば、Ｔｒａｎｓｆｏｒｍｅｒエンコーダであり、単位時間ごとの音声信号の特徴量である対数メルフィルタバンク特徴量Ｘ^fbankを、前処理用のニューラルネットワークによって長さ等を縮約した特徴量Ｘ^subを入力として受け付ける。そして、符号化器１２ｂは、特徴量Ｘ^subを第１のニューラルネットワークにより中間特徴量に変換して出力する。

ここで、符号化器１２ｂを構成する第１のニューラルネットワークの層の総数ｅ、第ｉ層（ｉ＝０，１，…，ｅ−１）の入力Ｘ_i、出力Ｘ_i+1と表記すると、次式（１）に示すように、各層ｉは、入力特徴量Ｘ_iを中間特徴量Ｘ_i+1に変換して出力する。また、最終層である第ｅ−１層は、中間特徴量として音声特徴量Ｘ_ｅを出力する。

ここで、ＰＥは、フレーム番号１，２，…，ｎ^subを入力として、ｄ^att次元の特徴量を出力するニューラルネットワークである。また、ＭＨＡは、３つの特徴量系列を入力として、１つ目の特徴量系列と同じ次元・長さの特徴量系列を出力するニューラルネットワークである。また、ＦＦは、２層の全結合層とＲｅＬＵ（Rectified Linear Units）活性化層からなる、入力特徴量と時刻ごとに同じ次元の特徴量系列を出力するニューラルネットワークである。

なお、符号化器１２ｂを構成する第１のニューラルネットワークは、上記（１）式以外に、前処理用のニューラルネットワークとして、例えば、２層のＣＮＮ（Convolution Neural Networks）とＲｅＬＵ活性化層とで構成される場合がある。その場合には、ＣＮＮの出力の長さｎ^sub、チャネル数ｄ^attとすれば、各中間特徴量Ｘ_ｉは、ｎ^sub×ｄ^att次元のベクトルとなる。

また、符号化器１２ｂは、Ｔｒａｎｓｆｏｒｍｅｒのエンコーダに限定されず、例えば、ＲＮＮ（Recurrent Neural Networks）等のエンコーダであってもよい。

第１復号化器１２ｃは、第１の算出部の一例であり、第２のニューラルネットワークを用いて、中間特徴量Ｘ_ｅから、予測される記号列と該記号列のＣＴＣに基づく事後確率を算出する。ここで、予測される記号列とは、教師データとして与えられる正解記号列に後続する記号を含む新たな記号列のことである。第１復号化器１２ｃは、例えば、ＣＴＣデコーダであり、第１のニューラルネットワークを用いて、中間特徴量Ｘ_ｅの時刻（フレーム）に対応する記号を配置した記号列であるアライメントついて、あらゆるアライメントに対する事後確率を算出する。

具体的には、第１復号化器１２ｃは、符号化器１２ｂの出力であるＸ_ｅを用いて、次式（２）に示すように、ＣＴＣに基づく事後確率ｐ_ctc（Ｙ｜Ｘ_ｅ）を算出して出力する。

ここで、重み行列Ｗ^ctcおよびバイアスベクトルｂ^ctcは、第２のニューラルネットワークのパラメータであり、予め学習されたものである。

そして、ＣＴＣに基づく事後確率ｐ_ctc（Ｙ｜Ｘ_ｅ）とは、Ｘ_ｅとＹとの間の任意のアライメントに対する事後確率である。アライメントとは、各入力系列データの時刻ｔに対応する記号列Ｙを配置した系列である。例えば、５フレームからなる入力系列に対するアライメントπとして、ａａｂｃｃ、ａｂｂｂｃ、ａａａｂｃ、…等が挙げられる。

Ｃは、第１復号化器１２ｃの出力であり、Ｃ［ｔ，π［ｔ］］は、出力記号π［ｔ］とＸ_ｅのｔ番目のフレームとの間のアライメントである。

また、多対１のマッピング関数Ｂ（π）は、アライメントπから冗長な記号を取り除く関数である、例えば、φを空白記号（blank symbol）とすれば、Ｂ（ａａφｂ）＝ａｂである。また、１対多のマッピング関数Ｂ^-1は、記号列を入力として、上記したアライメントのすべての集合を出力する。

上記式（２）の第２式では、Ｘ_ｅを観測した場合の各アライメントπの事後確率を、「時刻ｔに記号π［ｔ］を配置する確率Ｃ［ｔ，π［ｔ］］を全時刻で総乗したもの」として算出している。

また、上記式（２）の第３式では、Ｘ_ｅを観測した場合の記号列Ｙの事後確率を、「Ｙの出現の場合わけであるアライメントのすべてにおける上記した第２式の事後確率を総和したもの」として算出している。

第２復号化器１２ｄは、第２の算出部の一例であり、第３のニューラルネットワークを用いて、正解記号列と中間特徴量Ｘ_ｅとから、予測される記号列と該記号列の事後確率とを算出する。

例えば、第２復号化器１２ｄは、Ｔｒａｎｓｆｏｒｍｅｒにおけるデコーダである。第２復号化器１２ｄは、符号化器１２ｂで変換して得られた音声特徴量Ｘ_ｅと、既に予測済みの記号列Ｙ［１：ｕ］＝Ｙ［１］，…，Ｙ［ｕ］を入力とし、次式（３）に示すように、後続する記号列Ｙ［２：ｕ＋１］を予測して出力する。

ここで、Ｅｍｂｅｄは、ＰＥと同様のニューラルネットワークによる演算を表す関数であり、ＰＥにおける時刻（フレーム）に代えて記号の系列Ｙ［１：ｕ］を入力として、ｄ^att次元の特徴量を出力する。

なお、第２復号化器１２ｄを構成する第３のニューラルネットワークの層の総数ｄ、第ｊ層（ｊ＝０，１，…，ｄ−１）の入力Ｚ_j、出力Ｚ_j+1と表記する。この場合に、第２復号化器１２ｄは、次式（４）に示すように、Ｙ［１：ｕ］およびＸ_ｅが与えられたもとで、Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率、つまり、次の記号がＹ［ｕ＋１］となる事後確率ｐ_s2s（Ｙ｜Ｘ_ｅ）を算出して出力する。

ここで、重み行列Ｗ^attおよびバイアスベクトルｂ^attは、第３のニューラルネットワークのパラメータであり、予め学習されたものである。

なお、学習装置１０は、第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークを、全体として１つのｅｎｄ−ｔｏ−ｅｎｄのニューラルネットワークとみなして学習する。

また、第２復号化器１２ｄは、Ｔｒａｎｓｆｏｒｍｅｒのデコーダに限定されず、例えば、ＲＮＮ等のデコーダであってもよい。

データクレンジング部１２ｅは、第１復号化器１２ｃで算出された事後確率に基づいて、後述する更新部１２ｆの処理に用いるデータを選別する。具体的には、データクレンジング部１２ｅは、ＣＴＣに基づく事後確率が所定の閾値より大きい場合に、後述する更新部１２ｆに処理を実行させる。

例えば、データクレンジング部１２ｅは、ＣＴＣに基づく事後確率が所定の閾値より大きいデータのインデックスを、インデックス集合Ｉとして記憶部１１に記憶しておく。

なお、ＣＴＣに基づく事後確率が所定の閾値以下である場合には、データクレンジング部１２ｅは、データ選択部１２ａに他の音声信号を選択させる。

更新部１２ｆは、ＣＴＣに基づく事後確率が所定の閾値より大きい場合に、第２復号化器１２ｄが算出した事後確率と、ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークのパラメータ１１ａを更新する。

具体的には、更新部１２ｆは、データクレンジング部１２ｅが選別した音声信号について第１復号化器１２ｃの出力に関する損失と、第２復号化器２１ｄの出力に関する損失とを算出し、それらの和に基づいて、第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークの各パラメータ１１ａを更新する。

ここで、第１復号化器１２ｃの出力に関する損失は、次式（５）に示すインデックス集合Ｉに含まれるインデックスの入力データに対応して各復号化器の出力から算出される、次式（６）に示すＣＴＣ損失である。

また、第２復号化器１２ｄの出力に関する損失は、上記式（５）のインデックス集合Ｉに含まれるンデックスの入力データに対応して各復号化器の出力から算出される、次式（７）に示すクロスエントロピー損失である。

更新部１２ｆは、上記式（６）、（７）の損失の重み付け和を損失関数値として、例えば誤差逆伝搬学習等の周知の手法を用いて、ｅｎｄ−ｔｏ−ｅｎｄニューラルネットワークのパラメータの値を算出し、記憶部１１に記憶されているパラメータ１１ａを更新する。

このようにして、学習装置１０は、ＣＴＣに基づく事後確率が所定の閾値以下であって、訓練データとして用いるべきではないデータを除外するデータクレンジングを、学習中に行いながら、学習を行うことが可能となる。

なお、学習装置１０は、パラメータ１１ａの更新が行われた後、再び学習用の音声信号の入力を受け付けて、ｅｎｄ−ｔｏ−ｅｎｄニューラルネットワークを用いて、記号列の予測を行う。

終了判定部１２ｇは、所定の終了条件を満たした場合に、パラメータ１１ａの更新を終了する。例えば、終了判定部１２ｇは、損失関数値が所定の閾値以下となった場合、パラメータ１１ａの更新回数が所定の回数に到達した場合、またはパラメータ１１ａの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、パラメータ１１ａの更新を終了する。

なお、図１に示した学習装置１０では、第１復号化器１２ｃと第２復号化器１２ｄとの処理が並列に実行される。ここで、図２は、他の実施形態の学習装置１０の概略構成を例示する模式図である。図２に示すように、学習装置１０は、データクレンジング部１２ｅが選別したデータのみを、第２復号化器１２ｄに入力するようにしてもよい。このように、データクレンジング部１２ｅは、上記した第２復号化器１２ｄの処理を、ＣＴＣに基づく事後確率が所定の閾値より大きい場合にのみ実行させるようにしてもよい。この場合には、第２復号化器１２ｄの処理が軽減される。

［学習処理］
次に、図３を参照して、本実施形態に係る学習装置１０による学習処理について説明する。図３は、学習処理手順を示すフローチャートである。図３のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。

まず、符号化器１２ｂが、データ選択部１２ａから入力された学習用の音声信号を受け付ける（ステップＳ１）。そして、符号化器１２ｂが、第１のニューラルネットワークを用いて、受け付けた音声信号の特徴量を、符号化した中間特徴量に変換する（ステップＳ２）。

また、第１復号化器１２ｃが、第２のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のＣＴＣに基づく事後確率を算出する（ステップＳ３）。また、第２復号化器１２ｄが、第３のニューラルネットワークを用いて、正解記号列と中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する（ステップＳ４）。

次に、データクレンジング部１２ｅが、ＣＴＣに基づく事後確率が所定の閾値より大きいか否かを確認し、所定の閾値より大きい場合に（ステップＳ５、Ｙｅｓ）、ステップＳ６に処理を進める。一方、データクレンジング部１２ｅは、ＣＴＣに基づく事後確率が所定の閾値以下である場合には（ステップＳ５、Ｎｏ）、ステップＳ１に処理を戻す。

更新部１２ｆは、第２復号化器１２ｄが算出した事後確率と、ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、ｅｎｄ−ｔｏ−ｅｎｄニューラルネットワークのパラメータ１１ａを更新する（ステップＳ６）。

そして、終了判定部１２ｇが、所定の終了条件を満たすか否かを確認する（ステップＳ７）。例えば、終了判定部１２ｇは、損失関数値が所定の閾値以下となった場合、パラメータ１１ａの更新回数が所定の回数に到達した場合、またはパラメータ１１ａの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、終了条件を満たすと判定する。

終了判定部１２ｇは、所定の終了条件を満たさないと判定した場合には（ステップＳ７、Ｎｏ）、ステップＳ１に処理を戻して、記号列の予測とパラメータ１１ａの更新とを繰り返す。一方、終了判定部２２ｇは、所定の終了条件を満たすと判定した場合には（ステップＳ７、Ｙｅｓ）、一連の学習処理を終了する。

以上、説明したように、本実施形態の学習装置１０において、符号化器１２ｂが、第１のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する。また、第１復号化器１２ｃが、第２のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のＣＴＣに基づく事後確率を算出する。また、第２復号化器１２ｄが、第３のニューラルネットワークを用いて、正解記号列と中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する。また、ＣＴＣに基づく事後確率が所定の閾値より大きい場合に、更新部１２ｆが、第２復号化器１２ｄが算出した事後確率と、ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークのパラメータを更新する。

このように、学習装置１０は、ＣＴＣに基づく事後確率が所定の閾値以下であって、学習用に用いると音声認識の精度を低下させる恐れのあるデータを除外するデータクレンジングを、学習中に行うことができる。その結果、ノイズや誤り等を含む訓練データを学習に用いても、音声認識の精度の向上が可能となる。

また、学習装置１０は、第２復号化器１２ｄの処理を、ＣＴＣに基づく事後確率が所定の閾値より大きい場合に行うようにしてもよい。これにより、第２復号化器１２ｄの処理が軽減される。

また、学習装置１０は、第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークを、全体として１つのｅｎｄ−ｔｏ−ｅｎｄのニューラルネットワークとみなして学習する。これにより、音声認識処理が最適化され、より高精度に音声認識が可能となる。

また、学習装置１０は、終了判定部１２ｇが、損失関数値が所定の閾値以下となった場合、パラメータ１１ａの更新回数が所定の回数に到達した場合、またはパラメータ１１ａの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、パラメータ１１ａの更新を終了する。これにより、学習処理の処理負荷を抑制することが可能となる。

［プログラム］
上記実施形態に係る学習装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、学習装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声認識処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０として機能させることができる。

ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）などの移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）などのスレート端末などがその範疇に含まれる。また、学習装置１０の機能を、クラウドサーバに実装してもよい。

図４は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

また、学習プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した学習装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

また、学習プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、学習プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、学習プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

１０学習装置
１１記憶部
１１ａパラメータ
１２制御部
１２ａデータ選択部
１２ｂ符号化器
１２ｃ第１復号化器（ＣＴＣデコーダ）
１２ｄ第２復号化器
１２ｅデータクレンジング部
１２ｆ更新部
１２ｇ終了判定部

Claims

第１のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換部と、
第２のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のＣＴＣ（Connectionist Temporal Classification）に基づく事後確率を算出する第１の算出部と、
第３のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第２の算出部と、
前記ＣＴＣに基づく事後確率が所定の閾値より大きい場合に、前記第２の算出部が算出した前記事後確率と、前記ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、前記第１のニューラルネットワーク、前記第２のニューラルネットワークおよび前記第３のニューラルネットワークのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
前記第２の算出部の処理を、前記ＣＴＣに基づく事後確率が所定の閾値より大きい場合に行うことを特徴とする請求項１に記載の学習装置。
前記第１のニューラルネットワーク、前記第２のニューラルネットワークおよび前記第３のニューラルネットワークを、全体として１つのｅｎｄ−ｔｏ−ｅｎｄのニューラルネットワークとみなして学習することを特徴とする請求項１に記載の学習装置。
前記損失関数値が所定の閾値以下となった場合、前記パラメータの更新回数が所定の回数に到達した場合、または前記パラメータの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、前記パラメータの更新を終了する終了判定部をさらに有することを特徴とする請求項１に記載の学習装置。
学習装置で実行される学習方法であって、
第１のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換工程と、
第２のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のＣＴＣ（Connectionist Temporal Classification）に基づく事後確率を算出する第１の算出工程と、
第３のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第２の算出工程と、
前記ＣＴＣに基づく事後確率が所定の閾値より大きい場合に、前記第２の算出工程が算出した前記事後確率と、前記ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、前記第１のニューラルネットワーク、前記第２のニューラルネットワークおよび前記第３のニューラルネットワークのパラメータを更新する更新工程と、
を含んだことを特徴とする学習方法。
第１のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換ステップと、
第２のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のＣＴＣ（Connectionist Temporal Classification）に基づく事後確率を算出する第１の算出ステップと、
第３のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第２の算出ステップと、
前記ＣＴＣに基づく事後確率が所定の閾値より大きい場合に、前記第２の算出ステップが算出した前記事後確率と、前記ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、前記第１のニューラルネットワーク、前記第２のニューラルネットワークおよび前記第３のニューラルネットワークのパラメータを更新する更新ステップと、
をコンピュータに実行させるための学習プログラム。