JP2021039220A

JP2021039220A - 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム

Info

Publication number: JP2021039220A
Application number: JP2019159955A
Authority: JP
Inventors: 成樹苅田; Shigeki Karita; 小川　厚徳; Atsunori Ogawa; 厚徳小川; マークデルクロア; Marc Delcroix; 渡部　晋治; Shinji Watabe; 晋治渡部
Original assignee: Nippon Telegraph and Telephone Corp; Johns Hopkins University
Current assignee: Nippon Telegraph and Telephone Corp; Johns Hopkins University
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2021-03-11
Anticipated expiration: 2039-09-02
Also published as: JP7212596B2

Abstract

【課題】Ｔｒａｎｓｆｏｒｍｅｒに言語モデルを統合する。【解決手段】Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａが、第１のニューラルネットワークを用いて、入力された音声信号の特徴量を符号化した中間特徴量に変換する。Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂが、第２のニューラルネットワークを用いて、予測済みの記号列と中間特徴量とから、予測済みの記号列に後続する記号を含む記号列である予測される記号列とそのＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する。ＣＴＣデコーダ１２ｃが、第３のニューラルネットワークを用いて、中間特徴量から、予測される記号列とそのＣＴＣに基づく事後確率を算出する。言語評価部１２ｄが、言語モデルを用いて、予測された記号列の尤度を算出する。探索部１２ｅが、Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、ＣＴＣに基づく事後確率と、尤度とを用いて、予測される記号列を探索する。【選択図】図１

Description

本発明は、音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラムに関する。

ニューラルネットワークを用いた音声認識モデルとして、Ｔｒａｎｓｆｏｒｍｅｒが知られている（非特許文献１参照）。Ｔｒａｎｓｆｏｒｍｅｒは、ＲＮＮ（Recurrent Neural Networks）を使わないエンコーダ・デコーダモデルであり、ＲＮＮベースの音声認識モデルと比較して、高速にモデルの学習が可能である。

また、ＲＮＮベースの音声認識モデルに言語モデルを統合するｊｏｉｎｔｄｅｃｏｄｉｎｇの技術が知られている（非特許文献２参照）。この技術によれば、言語モデルに含まれる膨大なテキスト情報を活用することにより、入力された音声を記号列へ復号する復号化器（デコーダ）の性能向上が期待される。

L.Dong, S.Xu, B.Xu, "SPEECH-TRANSFORMER: A NO-RECURRENCE SEQUENCE-TO-SEQUENCE MODEL FOR SPEECH RECOGNITION",IEEE International Conference on Acoustics, 2018年, Speech and Signal Processing, pp.5884-5888 D.Bahdanau, J.Chorowski, D.Serdyuk, Y.Bengio, "END-TO-END ATTENTION-BASED LARGE VOCABULARY SPEECH RECOGNITION",IEEE International Conference on Acoustics, 2016年, Speech and Signal Processing, pp.4945-4949

しかしながら、従来、Ｔｒａｎｓｆｏｒｍｅｒに言語モデルを統合することは困難であった。例えば、ＲＮＮベースの音声認識モデルとＴｒａｎｓｆｏｒｍｅｒとでは、出力の特性が異なる。そのため、非特許文献２に記載された技術において、ＲＮＮベースの音声認識モデルをＴｒａｎｓｆｏｒｍｅｒに置き換えて、復号化器の性能向上を図ることは困難であった。

本発明は、上記に鑑みてなされたものであって、Ｔｒａｎｓｆｏｒｍｅｒに言語モデルを統合することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る音声認識装置は、第１のニューラルネットワークを用いて、入力された音声信号の特徴量を符号化した中間特徴量に変換する変換部と、第２のニューラルネットワークを用いて、予測済みの記号列と前記中間特徴量とから、前記予測済みの記号列に後続する記号を含む記号列である予測される記号列と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する第１の算出部と、第３のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のＣＴＣ（Connectionist Temporal Classification）に基づく事後確率を算出する第２の算出部と、言語モデルを用いて、前記第２のニューラルネットワークを用いて予測された記号列および前記第３のニューラルネットワークを用いて予測された記号列の尤度を算出する第３の算出部と、前記Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、前記ＣＴＣに基づく事後確率と、前記尤度とを用いて、予測される記号列を探索する探索部と、を有することを特徴とする。

また、本発明に係る学習装置は、第１のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を符号化した中間特徴量に変換する変換部と、第２のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する第１の算出部と、第３のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のＣＴＣ（Connectionist Temporal Classification）に基づく事後確率を算出する第２の算出部と、前記Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、前記ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、前記第１のニューラルネットワーク、前記第２のニューラルネットワークおよび前記第３のニューラルネットワークのパラメータを更新するパラメータ更新部と、を有することを特徴とする。

本発明によれば、Ｔｒａｎｓｆｏｒｍｅｒに言語モデルを統合することが可能となる。

図１は、本実施形態の音声認識装置の概略構成を例示する模式図である。図２は、本実施形態の学習装置の概略構成を例示する模式図である。図３は、音声認識処理手順を示すフローチャートである。図４は、学習処理手順を示すフローチャートである。図５は、音声認識プログラムおよび学習プログラムを実行するコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［音声認識装置の構成］
図１は、本実施形態の音声認識装置の概略構成を例示する模式図である。図１に例示するように、本実施形態の音声認識装置１０は、パソコン等の汎用コンピュータで実現され、記憶部１１、および制御部１２を備える。

記憶部１１は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１１には、音声認識装置１０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。

本実施形態において、記憶部１１は、後述する音声認識処理に適用されるｅｎｄ−ｔｏ−ｅｎｄニューラルネットワークＮのパラメータ１１ａを記憶する。これらのパラメータ１１ａは、後述する音声認識処理に先立って、学習された値である。

制御部１２は、ＣＰＵ（Central Processing Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１２は、図１に例示するように、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａ、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂ、ＣＴＣデコーダ１２ｃ、言語評価部１２ｄおよび探索部１２ｅとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。また、制御部１２は、その他の機能部を備えてもよい。

Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａは、変換部の一例であり、第１のニューラルネットワークを用いて、入力された音声信号の特徴量を符号化した中間特徴量に変換する。例えば、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａは、単位時間ごとの音声信号の特徴量である対数メルフィルタバンク特徴量Ｘ^fbankを、前処理用のニューラルネットワークによって長さ等を縮約した特徴量Ｘ^subを入力として受け付ける。そして、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａは、特徴量Ｘ^subを第１のニューラルネットワークにより中間特徴量に変換して出力する。

ここで、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａを構成する第１のニューラルネットワークの層の総数ｅ、第ｉ層（ｉ＝０，１，…，ｅ−１）の入力Ｘ_i、出力Ｘ_i+1と表記すると、次式（１）に示すように、各層ｉは、入力特徴量Ｘ_iを中間特徴量Ｘ_i+1に変換して出力する。また、最終層は第ｅ−１層は、中間特徴量として音声特徴量Ｘ_ｅを出力する。

ここで、ＰＥは、フレーム番号１，２，…，ｎ^subを入力として、ｄ^att次元の特徴量を出力するニューラルネットワークである。また、ＭＨＡは、３つの特徴量系列を入力として、１つ目の特徴量系列と同じ次元・長さの特徴量系列を出力するニューラルネットワークである。また、ＦＦは、２層の全結合層とＲｅＬＵ（Rectified Linear Units）活性化層からなる、入力特徴量と時刻ごとに同じ次元の特徴量系列を出力するニューラルネットワークである。

なお、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａを構成する第１のニューラルネットワークは、上記（１）式以外に、前処理用のニューラルネットワークとして、例えば、２層のＣＮＮ（Convolution Neural Networks）とＲｅＬＵ活性化層とで構成される場合がある。その場合には、ＣＮＮの出力の長さｎ^sub、チャネル数ｄ^attとすれば、各中間特徴量Ｘ_ｉは、ｎ^sub×ｄ^att次元のベクトルとなる。

Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂは、第１の算出部の一例であり、第２のニューラルネットワークを用いて、予測済みの記号列と中間特徴量Ｘ_ｅとから、予測される記号列と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する。ここで、予測される記号列とは、予測済みの記号列に後続する記号を含む新たな記号列のことである。

具体的には、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂは、従来のＴｒａｎｓｆｏｒｍｅｒにおけるデコーダに相当する。すなわち、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂは、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａで変換して得られた音声特徴量Ｘ_ｅと、既に予測済みの記号列Ｙ［１：ｕ］＝Ｙ［１］，…，Ｙ［ｕ］を入力とし、次式（２）に示すように、後続する記号列Ｙ［２：ｕ＋１］を予測して出力する。

ここで、Ｅｍｂｅｄは、ＰＥと同様のニューラルネットワークであり、ＰＥにおける時刻（フレーム）に代えて記号の系列Ｙ［１：ｕ］を入力として、ｄ^att次元の特徴量を出力する。

なお、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂを構成する第２のニューラルネットワークの層の総数ｄ、第ｊ層（ｊ＝０，１，…，ｄ−１）の入力Ｚ_j、出力Ｚ_j+1と表記する。この場合に、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂは、次式（３）に示すように、Ｙ［１：ｕ］およびＸ_ｅが与えられたもとで、Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率、つまり、次の記号がＹ［ｕ＋１］となる事後確率ｐ_s2s（Ｙ｜Ｘ_ｅ）を算出して出力する。

ここで、重み行列Ｗ^attおよびバイアスベクトルｂ^attは、第２のニューラルネットワークのパラメータであり、予め学習されたものである。

ＣＴＣデコーダ１２ｃは、第２の算出部の一例であり、第３のニューラルネットワークを用いて、中間特徴量Ｘ_ｅから、予測される記号列と該記号列のＣＴＣに基づく事後確率を算出する。例えば、ＣＴＣデコーダ１２ｃは、第３のニューラルネットワークを用いて、中間特徴量Ｘ_ｅの時刻（フレーム）に対応する記号を配置した記号列であるアライメントついて、あらゆるアライメントに対する事後確率を算出する。

具体的には、ＣＴＣデコーダ１２ｃは、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａの出力であるＸ_ｅを用いて、次式（４）に示すように、ＣＴＣに基づく事後確率ｐ_ctc（Ｙ｜Ｘ_ｅ）を算出して出力する。

ここで、重み行列Ｗ^ctcおよびバイアスベクトルｂ^ctcは、第３のニューラルネットワークのパラメータであり、予め学習されたものである。

そして、ＣＴＣに基づく事後確率ｐ_ctc（Ｙ｜Ｘ_ｅ）とは、Ｘ_ｅとＹとの間の任意のアライメントに対する事後確率である。アライメントとは、各入力系列データの時刻ｔに対応する記号列Ｙを配置した系列である。例えば、５フレームからなる入力系列に対するアライメントπとして、ａａｂｃｃ、ａｂｂｂｃ、ａａａｂｃ、…等が挙げられる。

Ｃは、ＣＴＣデコーダ１２ｃの出力であり、Ｃ［ｔ，π［ｔ］］は、出力記号π［ｔ］とＸ_ｅのｔ番目のフレームとの間のアライメントである。

また、多対１のマッピング関数Ｂ（π）は、アライメントπから冗長な記号を取り除く関数である、例えば、φを空白記号（blank symbol）とすれば、Ｂ（ａａφｂ）＝ａｂである。また、１対多のマッピング関数Ｂ^-1は、記号列を入力として、上記したアライメントのすべての集合を出力する。

上記式（４）の第２式では、Ｘ_ｅを観測した場合の各アライメントπの事後確率を、「時刻ｔに記号π［ｔ］を配置する確率Ｃ［ｔ，π［ｔ］］を全時刻で総乗したもの」として算出している。

また、上記式（４）の第３式では、Ｘ_ｅを観測した場合の記号列Ｙの事後確率を、「Ｙの出現の場合わけであるアライメントのすべてにおける上記した第２式の事後確率を総和したもの」として算出している。

なお、第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークは、全体として１つのｅｎｄ−ｔｏ−ｅｎｄのニューラルネットワークＮとみなして学習されたものである。

言語評価部１２ｄは、第３の算出部の一例であり、言語モデルを用いて、第２のニューラルネットワークを用いて予測された記号列および第３のニューラルネットワークを用いて予測された記号列の尤度を算出する。

ここで、言語モデルは、周知のｎ−ｇｒａｍやニューラルネットワークに基づく言語モデルであり、記号列Ｙのみからなるデータセットにおける、綴り方や文法などに起因する記号列Ｙの尤度ｐ_lm（Ｙ）を最大化するように、パラメータが学習されたものである。

探索部１２ｅは、Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率ｐ_s2s（Ｙ｜Ｘ_ｅ）と、ＣＴＣに基づく事後確率ｐ_ctc（Ｙ｜Ｘ_ｅ）と、尤度ｐ_lm（Ｙ）とを用いて、予測される記号列を探索する。

具体的には、探索部１２ｅは、次式（５）を満たす記号列＾Ｙを探索することにより、入力された音声信号に対して尤もらしい記号列＾Ｙを予測記号列として出力する。

ここで、探索部１２ｅは、Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率ｐ_s2s（Ｙ｜Ｘ_ｅ）の対数を、Ｔｒａｎｓｆｏｒｍｅｒスコアとして算出する。また、探索部１２ｅは、ＣＴＣに基づく事後確率ｐ_ctc（Ｙ｜Ｘ_ｅ）の対数を、ＣＴＣスコアとして算出する。また、探索部１２ｅは、言語評価部１２ｄから得られた尤度ｐ_lm（Ｙ）を、言語モデルスコアとする。

そして、探索部１２ｅは、上記式（５）に示すように、３つのスコアの重み付け和が最大となる記号列を予測記号列として探索する。なお、記号列の探索は、３つのスコアの重み付け和とする点を除いて、従来の手法と同様であり、例えば、ビームサーチ等によって求めることができる。

［学習装置の構成］
図２は、本実施形態の学習装置の概略構成を例示する模式図である。図２に例示するように、本実施形態の学習装置２０は、パソコン等の汎用コンピュータで実現され、記憶部２１、および制御部２２を備える。

記憶部２１は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部２１には、学習装置２０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。

本実施形態において、記憶部２１は、上記した音声認識装置１０の記憶部１１と同様に、ｅｎｄ−ｔｏ−ｅｎｄニューラルネットワークＮのパラメータ１１ａを記憶する。このパラメータ１１ａは、後述する学習処理で更新される。

制御部２２は、ＣＰＵ（Central Processing Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部２２は、図２に例示するように、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａ、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂ、ＣＴＣデコーダ１２ｃ、パラメータ更新部２２ｄおよび終了判定部２２ｅとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。また、制御部２２は、その他の機能部を備えてもよい。

Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａは、入力された学習用の音声信号の特徴量を処理の対象とする点を除き、上記した音声認識装置１０と同一の機能部であるので、説明を省略する。また、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂ、およびＣＴＣデコーダ１２ｃは、上記した音声認識装置１０と同一の機能部であるので、説明を省略する。

なお、学習時には、正解記号列が教師データとして与えられるので、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂは、予測済みの記号列の代わりに正解記号列を用いて、予測される記号列と該記号列のＴｒａｎｓｕｒｏｆｍｅｒに基づく事後確率とを算出する構成としてもよい。この場合、Ｔｒａｎｓｆｏｒｍｅｒの入力として予測済みの記号列を用いる必要はない。

パラメータ更新部２２ｄは、Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークのパラメータ１１ａを更新する。

具体的には、パラメータ更新部２２ｄは、次式（６）に示すように、損失関数の値を算出する。ここで、αは予め適当な値が設定されたハイパーパラメータである。

パラメータ更新部２２ｄは、上記式（６）の損失関数を用いる点を除き、例えば誤差逆変換学習等の周知の手法を用いて、ｅｎｄ−ｔｏ−ｅｎｄニューラルネットワークＮのパラメータの値を算出し、記憶部２１に記憶されているパラメータ１１ａを更新する。

なお、学習装置２０は、パラメータ１１ａの更新が行われた後、再び学習用の音声信号の特徴量の入力を受け付けて、ｅｎｄ−ｔｏ−ｅｎｄニューラルネットワークＮを用いて、記号列の予測を行う。

終了判定部２２ｅは、所定の終了条件を満たした場合に、パラメータ１１ａの更新を終了する。例えば、終了判定部２２ｅは、損失関数値が所定の閾値以下となった場合、パラメータ１１ａの更新回数が所定の回数に到達した場合、またはパラメータ１１ａの更新量が所定の閾値以下となった場合に、パラメータ１１ａの更新を終了する。

［音声認識処理］
次に、図３を参照して、本実施形態に係る音声認識装置１０による音声認識処理について説明する。図３は、音声認識処理手順を示すフローチャートである。図３のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。

まず、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａが、入力された音声信号の特徴量を受け付ける（ステップＳ１）。また、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａが、第１のニューラルネットワークを用いて、受け付けた音声信号の特徴量を符号化した中間特徴量に変換する（ステップＳ２）。

次に、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂが、第２のニューラルネットワークを用いて、遂次的に記号列を予測する。具体的には、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂは、予測済みの記号列（ない場合は、空の記号列）と中間特徴量とから、当該予測済の記号列に後続する記号を含む新たな記号列（以下、「予測される記号列」という）と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する（ステップＳ３）。例えば、予測済みの記号列をＹ［１：ｕ］とし、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂは、Ｙ［２：ｕ＋１］を予測される記号列として予測する。

また、ＣＴＣデコーダ１２ｃが、第３のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のＣＴＣに基づく事後確率を算出する（ステップＳ４）。

また、言語評価部１２ｄが、言語モデルを用いて、予測された記号列の尤度を算出する（ステップＳ５）。

そして、探索部１２ｅが、Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、ＣＴＣに基づく事後確率と、尤度とを用いて、記号列を予測する（ステップＳ６）。そして、探索部１２ｅは、十分な尤度の予測された記号列が得られることを終了条件として、終了条件を満たすまで（ステップＳ７、Ｎｏ）、ステップＳ３〜Ｓ６の処理を繰り返し、新たな記号列の逐次的な予測を繰り返す。探索部１２ｅは、終了条件を満たした場合に（ステップＳ７、Ｙｅｓ）、一連の音声認識処理を終了する。

［学習処理］
次に、図４を参照して、本実施形態に係る学習装置２０による学習処理について説明する。図４は、学習処理手順を示すフローチャートである。図４のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。

まず、まず、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａが、入力された学習用の音声信号の特徴量を受け付ける（ステップＳ１１）。そして、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａ、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂおよびＣＴＣデコーダ１２ｃが、記号列を予測する（ステップＳ１２）。

すなわち、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａが、第１のニューラルネットワークを用いて、受け付けた音声信号の特徴量を符号化した中間特徴量に変換する。また、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂが、第２のニューラルネットワークを用いて、予測済みの記号列と中間特徴量とから、予測される記号列と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する。また、ＣＴＣデコーダ１２ｃが、第３のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のＣＴＣに基づく事後確率を算出する。

次に、パラメータ更新部２２ｄが、Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、ｅｎｄ−ｔｏ−ｅｎｄニューラルネットワークのパラメータ１１ａを更新する（ステップＳ１３）。

そして、終了判定部２２ｅが、所定の終了条件を満たすか否かを確認する（ステップＳ１４）。例えば、終了判定部２２ｅは、損失関数値が所定の閾値以下となった場合、パラメータ１１ａの更新回数が所定の回数に到達した場合、またはパラメータ１１ａの更新量が所定の閾値以下となった場合に、終了条件を満たすと判定する。

終了判定部２２ｅは、所定の終了条件を満たさないと判定した場合には（ステップＳ１４、Ｎｏ）、ステップＳ１１に処理を戻して、記号列の予測とパラメータ１１ａの更新とを繰り返す。一方、終了判定部２２ｅは、所定の終了条件を満たすと判定した場合には（ステップＳ１４、Ｙｅｓ）、一連の学習処理を終了する。

以上、説明したように、本実施形態の音声認識装置１０において、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａが、第１のニューラルネットワークを用いて、入力された音声信号の特徴量を符号化した中間特徴量に変換する。また、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂが、第２のニューラルネットワークを用いて、予測済みの記号列と中間特徴量とから、予測済みの記号列に後続する記号を含む記号列である予測される記号列と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する。また、ＣＴＣデコーダ１２ｃが、第３のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のＣＴＣに基づく事後確率を算出する。また、言語評価部１２ｄが、言語モデルを用いて、予測された記号列の尤度を算出する。また、探索部１２ｅが、Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、ＣＴＣに基づく事後確率と、尤度とを用いて、予測される記号列を探索する。

これにより、音声認識装置１０は、Ｔｒａｎｓｆｏｒｍｅｒに言語モデルを統合して音声認識処理を行うことが可能となる。したがって、入力された音声を記号列に復号する復号化器の性能向上を図ることが可能となる。その結果、音声認識の精度向上が可能となる。

また、音声認識装置１０において、第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークは、全体として１つのｅｎｄ−ｔｏ−ｅｎｄのニューラルネットワークとみなして学習されたものである。これにより、音声認識処理が最適化され、より高精度に音声認識が可能となる。

また、本実施形態の学習装置２０において、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ１２ａが、第１のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を符号化した中間特徴量に変換する。また、Ｔｒａｎｓｆｏｒｍｅｒデコーダ１２ｂが、第２のニューラルネットワークを用いて、予測済みの記号列と中間特徴量とから、予測される記号列と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する。また、ＣＴＣデコーダ１２ｃが、第３のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のＣＴＣに基づく事後確率を算出する。また、パラメータ更新部２２ｄが、Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークのパラメータ１１ａを更新する。

これにより、学習装置２０は、ｅｎｄ−ｔｏ−ｅｎｄのニューラルネットワークを学習することが可能となる。また、学習したＴｒａｎｓｆｏｒｍｅｒに言語モデルを統合することが可能となる。これにより、入力された音声を記号列に復号する復号化器の性能向上を図ることが可能となる。その結果、音声認識の精度向上が可能となる。

また、学習装置２０は、終了判定部２２ｅが、損失関数値が所定の閾値以下となった場合、パラメータ１１ａの更新回数が所定の回数に到達した場合、またはパラメータ１１ａの更新量が所定の閾値以下となった場合に、パラメータ１１ａの更新を終了する。これにより、学習処理の処理負荷を抑制することが可能となる。

［プログラム］
上記実施形態に係る音声認識装置１０および学習装置２０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、音声認識装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声認識処理を実行する音声認識プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声認識プログラムを情報処理装置に実行させることにより、情報処理装置を音声認識装置１０として機能させることができる。また、学習装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置２０として機能させることができる。

ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）などの移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）などのスレート端末などがその範疇に含まれる。また、音声認識装置１０または学習装置２０の機能を、クラウドサーバに実装してもよい。

図５は、音声認識プログラムおよび学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

また、音声認識プログラムまたは学習プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した音声認識装置１０または学習装置２０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

また、音声認識プログラムまたは学習プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、音声認識プログラムまたは学習プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、音声認識プログラムまたは学習プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

１０音声認識装置
１１記憶部
１１ａパラメータ
１２制御部
１２ａＴｒａｎｓｆｏｒｍｅｒエンコーダ
１２ｂＴｒａｎｓｆｏｒｍｅｒデコーダ
１２ｃＣＴＣデコーダ
１２ｄ言語評価部
１２ｅ探索部
２０学習装置
２１記憶部
２２制御部
２２ｄパラメータ更新部
２２ｅ終了判定部
Ｎｅｎｄ−ｔｏ−ｅｎｄニューラルネットワーク

Claims

第１のニューラルネットワークを用いて、入力された音声信号の特徴量を符号化した中間特徴量に変換する変換部と、
第２のニューラルネットワークを用いて、予測済みの記号列と前記中間特徴量とから、前記予測済みの記号列に後続する記号を含む記号列である予測される記号列と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する第１の算出部と、
第３のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のＣＴＣ（Connectionist Temporal Classification）に基づく事後確率を算出する第２の算出部と、
言語モデルを用いて、前記第２のニューラルネットワークを用いて予測された記号列および前記第３のニューラルネットワークを用いて予測された記号列の尤度を算出する第３の算出部と、
前記Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、前記ＣＴＣに基づく事後確率と、前記尤度とを用いて、予測される記号列を探索する探索部と、
を有することを特徴とする音声認識装置。
前記第１のニューラルネットワーク、前記第２のニューラルネットワークおよび前記第３のニューラルネットワークは、全体として１つのｅｎｄ−ｔｏ−ｅｎｄのニューラルネットワークとみなして学習されたものであることを特徴とする請求項１に記載の音声認識装置。
第１のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を符号化した中間特徴量に変換する変換部と、
第２のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する第１の算出部と、
第３のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のＣＴＣ（Connectionist Temporal Classification）に基づく事後確率を算出する第２の算出部と、
前記Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、前記ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、前記第１のニューラルネットワーク、前記第２のニューラルネットワークおよび前記第３のニューラルネットワークのパラメータを更新するパラメータ更新部と、
を有することを特徴とする学習装置。
前記損失関数値が所定の閾値以下となった場合、前記パラメータの更新回数が所定の回数に到達した場合、または前記パラメータの更新量が所定の閾値以下となった場合に、前記パラメータの更新を終了する終了判定部をさらに有することを特徴とする請求項３に記載の学習装置。
音声認識装置で実行される音声認識方法であって、
第１のニューラルネットワークを用いて、入力された音声信号の特徴量を符号化した中間特徴量に変換する変換工程と、
第２のニューラルネットワークを用いて、予測済みの記号列と前記中間特徴量とから、前記予測済みの記号列に後続する記号を含む記号列である予測される記号列と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する第１の算出工程と、
第３のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のＣＴＣ（Connectionist Temporal Classification）に基づく事後確率を算出する第２の算出工程と、
言語モデルを用いて、前記第２のニューラルネットワークを用いて予測された記号列および前記第３のニューラルネットワークを用いて予測された記号列の尤度を算出する第３の算出工程と、
前記Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、前記ＣＴＣに基づく事後確率と、前記尤度とを用いて、予測される記号列を探索する探索工程と、
を含んだことを特徴とする音声認識方法。
学習装置で実行される学習方法であって、
第１のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を符号化した中間特徴量に変換する変換工程と、
第２のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する第１の算出工程と、
第３のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のＣＴＣ（Connectionist Temporal Classification）に基づく事後確率を算出する第２の算出工程と、
前記Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、前記ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、前記第１のニューラルネットワーク、前記第２のニューラルネットワークおよび前記第３のニューラルネットワークのパラメータを更新するパラメータ更新工程と、
を含んだことを特徴とする学習方法。
第１のニューラルネットワークを用いて、入力された音声信号の特徴量を符号化した中間特徴量に変換する変換ステップと、
第２のニューラルネットワークを用いて、予測済みの記号列と前記中間特徴量とから、前記予測済みの記号列に後続する記号を含む記号列である予測される記号列と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する第１の算出ステップと、
第３のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のＣＴＣ（Connectionist Temporal Classification）に基づく事後確率を算出する第２の算出ステップと、
言語モデルを用いて、前記第２のニューラルネットワークを用いて予測された記号列および前記第３のニューラルネットワークを用いて予測された記号列の尤度を算出する第３の算出ステップと、
前記Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、前記ＣＴＣに基づく事後確率と、前記尤度とを用いて、予測される記号列を探索する探索ステップと、
をコンピュータに実行させるための音声認識プログラム。
第１のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を符号化した中間特徴量に変換する変換ステップと、
第２のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列のＴｒａｎｓｆｏｒｍｅｒに基づく事後確率とを算出する第１の算出ステップと、
第３のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のＣＴＣ（Connectionist Temporal Classification）に基づく事後確率を算出する第２の算出ステップと、
前記Ｔｒａｎｓｆｏｒｍｅｒに基づく事後確率と、前記ＣＴＣに基づく事後確率とから算出した損失関数値を用いて、前記第１のニューラルネットワーク、前記第２のニューラルネットワークおよび前記第３のニューラルネットワークのパラメータを更新するパラメータ更新ステップと、
をコンピュータに実行させるための学習プログラム。