JP2021039218A

JP2021039218A - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP2021039218A
Application number: JP2019159953A
Authority: JP
Inventors: 成樹苅田; Shigeki Karita; 具治岩田; Tomoharu Iwata; 小川　厚徳; Atsunori Ogawa; 厚徳小川; マークデルクロア; Marc Delcroix; 渡部　晋治; Shinji Watabe; 晋治渡部
Original assignee: Nippon Telegraph and Telephone Corp; Johns Hopkins University
Current assignee: Nippon Telegraph and Telephone Corp; Johns Hopkins University
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2021-03-11

Abstract

【課題】認識モデルの精度を高度化すること。【解決手段】変換部２１０は、ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する。音声認識エラー計算部２２２は、音声データと記号列データとが対応付けられた学習用データを用いて、学習用データ中の音声データをニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、学習用データ中の音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する。音声合成エラー計算部２２１は、学習用データを用いて、学習用データ中の記号列データをニューラルネットワークにより変換して得た音声データの推定結果と、学習用データ中の音声データとの非類似度を表す音声合成エラーを計算する。更新部２５０は、音声認識エラー及び音声合成エラーに基づき、ニューラルネットワークのパラメータを更新する。【選択図】図３

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。

従来、ニューラルネットワーク（以降、ＮＮと表記する場合がある。）を用いたモデルを、機械学習により学習する技術が知られている。例えば、音声データを、記号列を特定する情報（事後確率）に変換可能なend-to-endのＮＮを用いた音声認識モデルを、教師あり学習により学習する方法が知られている（例えば、非特許文献１を参照）。

J. Chorowski et al., "Attention-Based Models for Speech Recognition," Advances in Neural Information Processing Systems 28 (NIPS 2015), pp. 577-585, 2015.（ＵＲＬ：http://papers.nips.cc/paper/5847-attention-based-models-for-speech-recognition）

非特許文献１に記載の教師あり学習には、認識モデルの精度を高度化できるというメリットがある一方で、モデル精度の高精度化に必要な大量の教師ありの学習用データを準備することが困難であるというデメリットがある。

以上の問題に鑑み、本発明では、少ない教師データで精度の高いend-to-endの音声認識モデルの学習を行うことを目的とする。ここで、end-to-endの学習とは、入力データをニューラルネットワークに入力することで得られる出力データに基づいて、ニューラルネットワークの全てのパラメータを一度に学習する手法である。

上述した課題を解決し、目的を達成するために、学習装置は、ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する音声認識モデルのパラメータを学習する学習装置であって、音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の音声データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する音声認識エラー計算部と、音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の記号列データを前記ニューラルネットワークにより変換して得た音声データの推定結果と、前記学習用データ中の音声データとの非類似度を表す音声合成エラーを計算する音声合成エラー計算部と、前記音声認識エラー及び前記音声合成エラーに基づき、前記ニューラルネットワークのパラメータを更新する更新部と、を有することを特徴とする。

本発明によれば、少ない教師データで精度の高いend-to-endの音声認識モデルの学習を行うことができる。

図１は、音声認識装置の構成の一例を示す図である。図２は、音声認識装置の処理の流れを示すフローチャートである。図３は、第１の実施形態に係る学習装置の構成の一例を示す図である。図４は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図５は、第１の実施形態に係る教師あり学習エラー計算処理の流れを示すフローチャートである。図６は、第１の実施形態に係る特徴量エラー計算処理の流れを示すフローチャートである。図７は、実験結果を示す図である。図８は、学習プログラムを実行するコンピュータの一例を示す図である。図９は、従来の学習装置の構成を示す図である。図１０は、従来の学習装置の処理の流れを示すフローチャートである。

以下に、本願に係る学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［音声認識装置の構成］
ここで、学習装置の詳細を説明する前に、end-to-endの音声認識モデル（ニューラルネットワーク）を用いた音声認識装置について説明する。音声認識装置は、後述する学習装置において学習済みのパラメータが設定された音声認識モデルを用いて音声認識を行う。図１に示すように、音声認識装置１０は、制御部１１及び記憶部１９を有する。

制御部１１は、音声認識装置１０全体を制御する。制御部１１は、ＣＰＵ（Central Processing Unit）等により実現される。制御部１１は、変換部１１０及び探索部１２０を有する。また、変換部１１０には、音声特徴量符号化部１１１及び記号列復号化部１１２が含まれる。記憶部１９は、ＨＤＤ（Hard Disk Drive）及びＳＳＤ（Solid State Drive）等の記憶装置である。記憶部１９は、ニューラルネットワークのパラメータΛを記憶する。

変換部１１０は、ニューラルネットワークを用いて、音声データを音声特徴量に変換し、音声特徴量を「記号列を特定する情報」に変換する。このとき、変換部１１０は、学習済みのニューラルネットワークのパラメータΛを記憶部１９から読み込み、読み込んだパラメータに応じた変換を行う。なお、Λは、複数のニューラルネットワークのパラメータの集合である。

ここで、記号列とは、アルファベット、漢字、スペース等のあらゆる記号（シンボル）や、それらの系列である単語、認識結果の終端を示す記号等を含む記号の系列である。また、記号列を特定する情報とは、入力音声をある記号列に変換した際の尤度（事後確率）である。

変換部１１０を構成するニューラルネットワークのうち、音声データを音声特徴量に変換する部分をエンコーダ層、音声特徴量を事後確率に変換する部分をデコーダ層と呼ぶこととすると、エンコーダ層が音声特徴量符号化部１１１に対応し、デコーダ層が記号列復号化部１１２に対応する。

ここで、変換部１１０に含まれる各部の処理について説明する。音声特徴量符号化部１１１は、入力された音声データｘ´´を、音声特徴量に変換（符号化）する。また、記号列復号化部１１２は、音声特徴量を、記号列を特定する情報に変換（復号化）する。なお、音声特徴量符号化部１１１及び記号列復号化部１１２によって用いられるニューラルネットワークのパラメータは、Λに含まれるものとする。

探索部１２０は、記号列を特定する情報を基に記号列を探索する。この探索結果である記号列が、音声認識結果（推定記号列）である。

ここで、記号列復号化部１１２によって変換される記号列を特定する情報は、音声データｘ´´に対する音声認識結果の推定記号列ｙ´´の事後確率ｐ（ｙ´´｜ｘ´´）である。このため、探索部１２０は、事後確率ｐ（ｙ´´｜ｘ´´）が最大化されるような記号列をビームサーチ等により探索する。

例えば、探索部１２０は、記号列の候補のうち１文字目の尤度の大きさが上位所定数に入るものを選択し、さらに、続く記号の尤度の大きさが上位所定数に入るものを選択していくことを繰り返すことで、出力する記号列を選択することができる。

［音声認識装置の処理］
図２を用いて、音声認識装置１０の処理の流れを説明する。図２は、音声認識装置の処理の流れを示すフローチャートである。図２に示すように、まず、音声認識装置１０は、記憶部１９からパラメータを読み込む（ステップＳ１１）。また、音声認識装置１０は、認識用の音声データの入力を受け付ける（ステップＳ１２）。

ここで、音声認識装置１０は、音声データを音声特徴量に変換する（ステップＳ１３）。次に、音声認識装置１０は、音声特徴量を、記号列を特定する情報に変換する（ステップＳ１４）。

なお、音声認識装置１０は、ステップＳ１３及びステップＳ１４における変換を、ニューラルネットワークを用いて行う。また、各ニューラルネットワークのパラメータは、ステップＳ１１で読み込まれたものである。

音声認識装置１０は、変換した記号列を特定する情報を基に記号列を探索する（ステップＳ１５）。そして、音声認識装置１０は、探索によって得られた記号列を音声認識結果として出力する（ステップＳ１６）。

［第１の実施形態］
第１の実施形態について説明する。第１の実施形態の学習装置は、音声認識エラー及び音声合成エラーを用いて音声認識モデルのパラメータの最適化を行う。また、第１の実施形態では、教師ありの音声データが学習に用いられる。

［第１の実施形態の学習装置の構成］
図３を用いて、第１の実施形態の学習装置の構成について説明する。図３は、第１の実施形態に係る学習装置の構成の一例を示す図である。図３に示すように、学習装置２０は、制御部２００及び記憶部２９０を有する。

制御部２００は、学習装置２０全体を制御する。制御部２００は、ＣＰＵ等により実現される。制御部２００は、変換部２１０、教師あり学習エラー計算部２２０、特徴量エラー計算部２４０、更新部２５０及び判定部２６０を有する。また、変換部２１０には、音声特徴量符号化部２１１、記号列特徴量符号化部２１２、音声復号化部２１３及び記号列復号化部２１４が含まれる。このうち、音声特徴量符号化部２１１及び記号列復号化部２１４が、音声認識装置１０の変換部１１０で用いたニューラルネットワークと同じニューラルネットワークである。つまり、学習装置２０のニューラルネットワークは、音声認識装置１０では用いられない部分構造（記号列特徴量符号化部２１２及び音声復号化部２１３）をさらに具備している点が異なる。

記憶部２９０は、ＨＤＤ及びＳＳＤ等の記憶装置である。記憶部２９０は、ニューラルネットワークのパラメータΛを記憶する。ニューラルネットワークのパラメータΛの各々の初期値は、あらかじめ適当な値を設定しておくものとする。

ここで、学習装置２０に入力されるデータ（学習用データ）について説明する。学習用データとして、学習用の音声データｘ´とそれに対応する記号列データｙ´（正解記号列データ）との組からなる教師あり学習用データ集合Ｚがあらかじめ与えられるものとする。

なお、学習用データに含まれる音声データ（ｘ´）及び記号列データ（ｙ´）は、いずれもベクトルで表現されていてよい。また、音声データや記号列の定義は、前述の音声認識装置における各用語の定義に従う。

次に、学習装置２０の各部の処理について説明する。変換部２１０は、ニューラルネットワークを用いて、音声データ又は記号列データを中間特徴量に変換し、中間特徴量を音声データ又は記号列を特定する情報に変換する。変換部２１０は、ニューラルネットワークであり、学習用データの各々を中間特徴量に変換するエンコーダ層と、中間特徴量を「記号列を特定する情報」に変換するデコーダ層とを有する。エンコーダ層は、音声特徴量符号化部２１１及び記号列特徴量符号化部２１２を含み、デコーダ層は、音声復号化部２１３及び記号列復号化部２１４を含む。

ここでの中間特徴量とは、音声特徴量符号化部２１１の出力である音声特徴量、及び、記号列特徴量符号化部２１２の出力である記号列特徴量である。また、以降の説明では、音声特徴量と記号列特徴量を区別せずに、単に中間特徴量と表記する場合がある。

以降の説明では、ニューラルネットワークの各部（各層）で行われる演算（変換処理）を関数として表記する。例えば、音声特徴量符号化部２１１に対応するニューラルネットワークの演算を関数ｆ（・）と表記する。この関数の出力値が、音声特徴量符号化部２１１の出力となる。

また、記号列特徴量符号化部２１２に対応するニューラルネットワークの演算を、関数ｇ（・）と表記する。また、音声復号化部２１３に対応するニューラルネットワークの演算を、関数ｃ（・）と表記する。また、記号列復号化部２１４に対応するニューラルネットワークの演算を、関数ｄ（・）と表記する。

なお、複数の層からなる多層ニューラルネットワークに対応する演算は、各層に対応する演算を表す関数の合成関数で表記できる。例えば、音声特徴量符号化部２１１と記号列復号化部２１４とからなる多層ニューラルネットワークの演算は、ｄ（ｆ（・））のように表記することができる。

ここで、ニューラルネットワークの「層」と呼んでいるものは、必ずしも物理的に１層であることを意味するものではなく、複数層をまとめて「層」としてもよい。言い換えれば、ニューラルネットワーク全体の中で１以上の層からなる部分構造を「層」と呼ぶこととする。

音声特徴量符号化部２１１は、入力された学習用データ中の音声データを音声特徴量に変換（符号化）する。具体的には、音声特徴量符号化部２１１は、教師あり学習用データ中の音声データｘ´を音声特徴量ｆ（ｘ´）に変換する。

記号列特徴量符号化部２１２は、入力された学習用データ中の記号列データを記号列特徴量に変換（符号化）する。具体的には、記号列特徴量符号化部２１２は、教師あり学習用データ中の記号列データｙ´を記号列特徴量ｆ（ｙ´）に変換する。

以下、教師あり学習用データの音声データｘ´を変換して得た音声特徴量ｆ（ｘ´）を「教師あり音声データに対応する音声特徴量」、教師あり学習用記号列データｙ´を変換して得た記号列特徴量ｇ（ｙ´）を「教師あり記号列データに対応する記号列特徴量」と呼ぶこととする。

音声復号化部２１３は、入力された中間特徴量を、音声データに変換（復号化）する。ここで対象となる中間特徴量は、教師あり記号列データに対応する記号列特徴量ｇ（ｙ´）である。

記号列復号化部２１４は、入力された中間特徴量を、記号列を特定する情報に変換（復号化）する。ここで対象となる中間特徴量は、教師あり音声データに対応する中間特徴量ｆ（ｘ´）である。

音声復号化部２１３及び記号列復号化部２１４は、ニューラルネットワーク、例えば、アテンション機構を有する長短期記憶（Long Short Term Memory：ＬＳＴＭ）で実現される。

教師あり学習エラー計算部２２０は、教師あり音声データと記号列データのペアを２つのタスクで学習する。２つのタスクのうちの１つは、音声データを記号列データに変換する第１のタスクである。第１のタスクに関するエラーは、音声認識エラー計算部２２２によって計算される。また、２つのタスクのうちのもう１つは、記号列データを音声データに変換する第２のタスクである。第２のタスクに関するエラーは、音声合成エラー計算部２２１によって計算される。

まず、教師あり音声データに対応する音声特徴量ｆ（ｘ´）を、記号列を特定する情報に変換する場合を例に説明する。記号列を特定する情報の推定結果に基づき特定される記号列を推定記号列データとする。記号列復号化部２１４は、第ｔステップにおいて、直前のステップ（ｔ−１ステップ）でニューラルネットワークから出力される状態ベクトルｈ_ｔ−１と、ｔ−１ステップまでに得た推定記号列データｙ´_{１：ｔ−１}と、音声特徴量ｆ（ｘ´）を入力として、次の出力記号に対応する状態ベクトルｈ_ｔに変換する。そして、ｈ_ｔに基づき、推定記号列データが正解記号列データ中のｔ番目の記号（以下「正解記号」ともいう）ｙ´_ｔと一致する事後確率Ｐ（ｙ´_ｔ｜ｙ´_{１：ｔ−１}，ｆ（ｘ´））を計算する。これを先頭から順に再帰的に繰り返す。

ここで得られる事後確率Ｐ（ｙ´_ｔ｜ｙ´_{１：ｔ−１}，ｆ（ｘ´））が「記号列を特定する情報」である。

教師あり学習エラー計算部２２０の音声認識エラー計算部２２２は、教師あり学習用データ中の音声データを変換部２１０により変換して得られた結果（事後確率）を用いて音声認識エラーを計算する。具体的には、音声認識エラー計算部２２２は、微分可能な音声認識エラーＬ_ＡＳＲとして、（１）式の交差エントロピー損失を計算する。

ここで、ｙ´_{１：ｔ−１}は、ｙ´_１からｙ´_ｔ−１までの記号列を表す。つまり、音声認識エラー計算部２２２は、変換部２１０によって教師あり音声データｘ´を変換して得た記号列を特定する情報Ｐ（ｙ´_ｔ｜ｙ´_{１：ｔ−１}，ｆ（ｘ´））を用いて音声認識エラーを計算する。

（１）式は、教師あり音声データｘ´を変換して得た記号列を特定する情報Ｐ（ｙ´_ｔ｜ｙ´_{１：ｔ−１}，ｆ（ｘ´））に基づき推定される推定記号列データと、学習用データ中で音声データｘ´にあらかじめ対応付けられた正解記号列データｙ´との近さを表す尺度といえる。

次に、教師あり記号列データに対応する記号列特徴量ｇ（ｙ´）を、教師あり音声データに変換する場合を例に説明する。変換によって合成される音声を＾ｘ（以下「合成音声データ」ともいう）とする。音声復号化部２１３は、第ｔステップにおいて、直前のステップ（ｔ−１ステップ）でニューラルネットワークから出力される状態ベクトルｈ_ｔ−１と、ｔ−１ステップまでに得た教師音声データｘ´_{１：ｔ−１}と、記号列特徴量ｇ（ｙ´）を入力として、次の出力記号に対応する状態ベクトルｈ_ｔに変換する。そして、ｈ_ｔに基づき、音声復号化部２１３は、合成音声のフレーム＾ｘ_ｔ及び時刻ｔで音声の合成を終える確率Ｐｒ（ｌｅｎ（＾ｘ）＝ｔ）を出力する。

音声合成エラー計算部２２１は、合成音声フレーム＾ｘ_ｔと教師音声フレームｘ´_tとのＬ１・Ｌ２エラーの最小化、及び、時刻ｔで音声の合成を終える確率の最大化を実現する、微分可能な音声合成エラーＬ_ＴＴＳを（２）式のように計算する。

特徴量エラー計算部２４０は、学習用に与えられた音声データをニューラルネットワークにより変換して得た中間特徴量の分布と、学習用に与えられた音声データ又は記号列データをニューラルネットワークにより変換して得た中間特徴量の分布との非類似度を表す特徴量エラーＬ_ｄｏｍを計算する。

具体的には、特徴量エラー計算部２４０は音声認識のタスクに用いる中間特徴量と、他の補助タスクに用いる中間特徴量との非類似度として、特徴量エラーＬ_ｄｏｍを計算する。ここで、音声認識のタスクとは、教師あり音声データを音声特徴量符号化部２１１と記号列復号化部２１４で変換して記号列を特定する情報を得るタスクである、また、音声特徴量とは、教師あり音声データを音声特徴量符号化部２１１で変換して得た中間特徴量である。また、第１の実施形態において、補助タスクとは、音声合成のタスクである。

音声合成のタスクとは、教師あり記号列データを記号列特徴量符号化部２１２と音声復号化部２１３とにより変換して合成音声を得るタスクである。音声合成のタスクで用いる中間特徴量とは、教師あり記号列データを記号列特徴量符号化部２１２で変換して得られる中間特徴量である。

特徴量エラーとは、第１の中間特徴量Ｆｎ_１（ｕ）と第２の中間特徴量Ｆｎ_２（ｖ）との非類似度を表す指標であり、例えば、カーネル法に基づく検定における指標であるＭＭＤ（Maximum Mean Discrepancy）に基づくエラーを用いることができる。この場合、特徴量エラー計算部２４０は、（３）式のように特徴量エラーＬ_ｄｏｍを計算する。ここで、（３）式において、カーネルｋは微分可能なものを用いるため、Ｌ_ｄｏｍは微分可能である。

なお、上記の音声認識のタスク及び各補助タスクで得られる各中間特徴量は、第１の特徴量及び第２の特徴量になり得る。また、関数Ｆｎ_１（・）及び関数Ｆｎ_２は、ｆ（・）及びｇ（・）のいずれかである。例えば、第１の特徴量を音声認識のタスクで得られる音声特徴量ｆ（ｘ´）とし、第２の特徴量を音声合成のタスクで得られる記号列特徴量ｇ（ｙ´）とすることができる。

更新部２５０は、音声合成エラー計算部２２１によって計算された音声合成エラーＬ_ＴＴＳと、音声認識エラー計算部２２２によって計算された音声認識エラーＬ_ＡＳＲと、特徴量エラー計算部２４０によって計算された特徴量エラーＬ_ｄｏｍとから計算される所定の基準に基づき、ニューラルネットワークの各パラメータを更新する。具体的には、更新部２５０は、（４）式のように、各エラーの重み付き和Ｌを最小化するようにパラメータを更新する。

ここで、α、β、Φは重みを表すパラメータであり、あらかじめ値が設定されるものとする。（４）式において、Ｌ_ＴＴＳ、Ｌ_ＡＳＲ、Ｌ_ｄｏｍはいずれも微分可能であるため、Ｌは微分可能である。よって、更新部２５０は、周知の誤差伝播学習法等により、微分値に基づきニューラルネットワークのパラメータを更新していくことができる。精度を高める意味では、重みα、β、Φはそれぞれ０より大きな値とすることが好ましいが、重みα、β、Φのいずれかを０として学習してもよく、この場合、重み０としたエラーについては考慮しないことを意味する。

判定部２６０は、更新部２５０によって計算されたエラーが所定の基準を満たしたか否かを判定する。ここで、判定部２６０によってパラメータが所定の基準を満たしていないと判定された場合、学習装置２０は、音声特徴量符号化部２１１に戻り処理を繰り返す。一方、判定部２６０によってパラメータが所定の基準を満たしたと判定された場合、学習装置２０は、現在のニューラルネットワークのパラメータを学習済みパラメータとして出力する。

なお、所定の基準としては、例えば、繰り返し処理の回数があらかじめ定められた回数に到達したこと、エラーが所定の閾値以下となったこと、パラメータの更新量（エラーの微分値）が所定の閾値以下となったこと、等を用いることができる。

［第１の実施形態の学習装置の処理］
図４を用いて、本実施形態の学習装置２０の処理の流れを説明する。図４は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図４に示すように、まず、学習装置２０は、記憶部２９０から各ニューラルネットワークのパラメータを読み込む（ステップＳ２１）。ここで、学習装置２０は、教師ありの音声データ及び記号列データの入力を受け付ける（ステップＳ２２）。

そして、学習装置２０は、並列処理で教師ありエラー計算処理及び特徴量エラー計算処理を実行する（ステップＳ２３）。なお、学習装置２０は、ステップＳ２３の各処理を必ずしも並列処理で行う必要はなく、ステップＳ２４へ進む前に各処理を終了させていればよい。

エラーの計算処理が終わると、学習装置２０は、各エラーが小さくなるようにパラメータを更新する（ステップＳ２４）。そして、学習装置２０は、パラメータが収束したか否かを判定する（ステップＳ２５）。学習装置２０は、パラメータが収束していないと判定した場合（ステップＳ２５、Ｎｏ）、ステップＳ２１に戻り処理を繰り返す。一方、学習装置２０は、パラメータが収束したと判定した場合（ステップＳ２５、Ｙｅｓ）、パラメータを出力し（ステップＳ２６）、処理を終了する。

図５を用いて、第１の実施形態に係る教師あり学習エラー計算処理の流れを説明する。図５は、第１の実施形態に係る教師あり学習エラー計算処理の流れを示すフローチャートである。図５に示すように、学習装置２０は、まず、教師ありの音声データ及び記号列データを読み込む（ステップＳ１０１）。

ここで、学習装置２０は、音声認識エラーの計算処理（ステップＳ１１１、ステップＳ１１２、ステップＳ１１３、ステップＳ１１４）及び音声合成エラーの計算処理（ステップＳ１２１、ステップＳ１２２、ステップＳ１２３、ステップＳ１２４）を並行して行う。

まず、音声認識エラーの計算処理について説明する。学習装置２０は、読み込んだ音声データを音声特徴量に変換する（ステップＳ１１１）。ここで、学習装置２０は、音声特徴量を特徴量エラー計算処理に受け渡す（ステップＳ１１２）。そして、学習装置２０は、音声特徴量を、記号列を特定する情報に変換する（ステップＳ１１３）。さらに、学習装置２０は、読み込んだ記号列データと変換された記号列を特定する情報とに基づき音声認識エラーを計算する（ステップＳ１１４）。

次に、音声合成エラーの計算処理について説明する。学習装置２０は、読み込んだ記号列データを記号列特徴量に変換する（ステップＳ１２１）。ここで、学習装置２０は、記号列特徴量を特徴量エラー計算処理に受け渡す（ステップＳ１２２）。そして、学習装置２０は、記号列特徴量を音声データに変換する（ステップＳ１２３）。さらに、学習装置２０は、読み込んだ音声データと記号列特徴量から変換された音声データに基づき音声合成エラーを計算する（ステップＳ１２４）。

図６を用いて、特徴量エラー計算処理の流れを説明する。図６は、第１の実施形態に係る特徴量エラー計算処理の流れを示すフローチャートである。図６に示すように、学習装置２０は、まず、教師ありの音声データ及び記号列データを読み込む（ステップＳ３０１）。

次に、学習装置２０は、教師あり学習エラー計算処理から、音声特徴量と記号列特徴量を受け取る（ステップＳ３０２）。そして、学習装置２０は、受け取った中間特徴量間のエラーを計算する（ステップＳ３０３）。

［第１の実施形態の効果］
これまで説明してきたように、音声認識エラー計算部２２２は、音声データと記号列データとが対応付けられた学習用データを用いて、学習用データ中の音声データをニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する。音声合成エラー計算部２２１は、音声データと記号列データとが対応付けられた学習用データを用いて、学習用データ中の記号列データをニューラルネットワークにより変換して得た音声データの推定結果と、学習用データ中の音声データとの非類似度を表す音声合成エラーを計算する。更新部２５０は、音声認識エラーと音声合成エラーとから計算される所定の基準に基づき、ニューラルネットワークのパラメータを更新する。

このように、第１の実施形態では、教師ありの学習データを用いて、音声認識エラーだけでなく、音声合成エラーを使った学習を行うことができる。このため、第１の実施形態によれば、教師ありの学習データを有効に利用した半教師あり学習を行い、認識モデルの精度を高度化することができる。

特徴量エラー計算部２４０は、学習用に与えられた音声データをニューラルネットワークにより変換して得た中間特徴量の分布と、学習用に与えられた記号列データをニューラルネットワークにより変換して得た中間特徴量の分布との非類似度を表す特徴量エラーを計算する。更新部２５０は、音声認識エラーと音声合成エラーと特徴量エラーとから計算される所定の基準に基づき、ニューラルネットワークのパラメータを更新する。

このように、第１の実施形態では、教師ありの学習データを用いて、音声認識エラーだけでなく、特徴量エラーを使った学習を行うことができる。このため、第１の実施形態によれば、学習データを有効に利用した半教師あり学習を行うことができる。

［実験結果］
ここで、図７を用いて、従来技術と実施形態を用いて行った実験について説明する。図７は、実験結果を示す図である。実験では、第１の実施形態の手法で学習した音声認識モデルと、従来の教師あり学習手法を用いて学習した音声認識モデル（非特許文献１を参照）とを用いて連続単語認識処理を行った。また、実験条件は以下の通りである。
＜従来技術と実施形態で共通の条件＞
・教師ありのデータ：１００時間の小規模なデータセット
・音声データ：１フレーム当たり８０次元のＦＢＡＮＫ（入力単位は８０次元×発話時間、学習用データに基づく平均分散モデルの正規化パラメータで正規化済み）
・記号列を特定する情報：アルファベットや数字等の文字単位の記号の系列
・パラメータ更新アルゴリズム：AdaDelta（並列処理する発話のミニバッチ数は３０個）
列のみ５００時間相当）

実験の結果、図７に示すように、実施形態の方が文字誤り率（ＣＥＲ：Character Error Rate）及び単語誤り率（ＷＥＲ：Word Error Rate）が低くなった。なお、開発ＣＥＲ及び開発ＷＥＲは、開発セット、すなわちモデルの構築に使ったデータの認識結果である。また、評価ＣＥＲ及び評価ＷＥＲは、評価セット、すなわちモデルの構築に使わなかったデータの認識結果である。

図７より、実施形態の手法によれば、従来技術よりも認識精度の高い音声認識モデルを得ることができるといえる。

［第２の実施形態］
第２の実施形態の学習装置２０の構成は、第１の実施形態と同じである。ただし、特徴量エラー計算部２４０と、更新部２５０の処理が第１の実施形態と異なる。以下、第１の実施形態と異なる部を、特徴量エラー計算部２４０´、更新部２５０´とし、詳細を説明する。

第１の実施形態の学習装置２０では、特徴量エラー計算部２４０においてＭＭＤに基づき特徴量エラーを計算していた。第２の実施形態の特徴量エラー計算部２４０´は、２クラス識別ニューラルネットワークを用いて特徴量エラーを計算する。

つまり、第２の実施形態の学習装置２０は、第１の実施形態の学習装置２０と同じ変換部２１０を構成するニューラルネットワークに加えて、特徴量エラー計算部２４０´に対応する２クラス識別ニューラルネットワークを別途備える点が異なる。したがって、記憶部２９０に記憶されるニューラルネットワークのパラメータΛは、変換部２１０を構成するニューラルネットワークのパラメータに加えて、特徴量エラー計算部２４０に含まれるニューラルネットワークのパラメータも含む。これらのパラメータの初期値はあらかじめ適当な値を設定しておくものとする。

特徴量エラー計算部２４０´が有する２クラス識別ニューラルネットワークについて説明する。２クラス識別ニューラルネットワークは、入力された中間特徴量が、音声データを変換して得たものであるか、記号列データを変換して得たものであるかを識別した識別結果を出力するニューラルネットワークである。２クラス識別ニューラルネットワークの演算を表す関数をｈ（・）と表記する。

例えば、２クラス識別ニューラルネットワークは、記号列特徴量ｇ（ｙ´）を入力として、ｈ（ｇ（ｙ´））を識別結果として出力する。あるいは、音声特徴量ｆ（ｘ´）を入力として、ｈ（ｆ（ｘ´））を識別結果として出力する。

特徴量エラー計算部２４０´は、２クラス識別ニューラルネットワークに中間特徴量を入力することで得た識別結果を用いて、（５）式により特徴量エラーＬ_ｄｏｍを計算する。

更新部２５０´は、更新部２５０と同様に、音声認識エラーと特徴量エラーとに基づく所定のエラーに基づいて、変換部２１０を構成するニューラルネットワークの各パラメータを更新する。

また、更新部２５０´は、特徴量エラーＬ_ｄｏｍの正負を反転した−Ｌ_ｄｏｍに基づき、２クラス識別ニューラルネットワークのパラメータを更新する。具体的には、−Ｌ_ｄｏｍの勾配に応じて、ニューラルネットワークｈ（・）の各パラメータの値を更新する。

特徴量エラーＬ_ｄｏｍは、音声特徴量と記号列特徴量との非類似の度合いを表している。つまり、特徴量エラー計算部２４０´によって計算されるエラーを小さくするようにニューラルネットワークのパラメータを学習することは、音声特徴量と記号列特徴量との分布間距離を最小化するよう学習することを意味する。学習が進むに従い、記号列特徴量が音声特徴量と近くなり、結果として中間特徴量が、音声特徴量なのか記号特徴量なのかを識別することが難しくなる。

一方、−Ｌ_ｄｏｍを最小化するよう学習することは、２クラス識別ニューラルネットワークｈが、音声特徴量を、記号列特徴量と誤って識別し、記号列特徴量を音声特徴量と誤って識別することがないように学習しようとすることを意味する。

つまり、２クラス識別ニューラルネットワークｈ（・）の学習と変換部２１０を構成するニューラルネットワークの学習は、敵対的学習の関係にある。

最終的に、敵対的学習では、変換部２１０を構成するニューラルネットワークで得られる中間特徴量が、２クラス識別ニューラルネットワークｈで適切に識別できない（十分騙すことができる）ように学習を行う。これにより、記号列特徴量符号化部２１２から出力される記号列特徴量が、音声特徴量符号化部２１１から出力される音声特徴量と十分近くなる（似る）ように変換可能なニューラルネットワークを学習できる。

ここで、実施形態の学習装置との対比のため、従来の教師あり学習法によりend-to-end学習を行う学習装置について説明する。図９は、従来の学習装置の構成を示す図である。図９に示すように、従来の学習装置２０ａは、制御部２００ａ及び記憶部２９０ａを有する。また、制御部２００ａは、音声特徴量符号化部２１１ａ、記号列復号化部２１４ａ、音声認識エラー計算部２２２ａ、更新部２５０ａ及び判定部２６０ａを有する。

学習装置２０ａは、あらかじめ対応付けられた記号列を特定する情報及び音声データ（教師あり学習用データ）の入力を受け付ける。ここで、音声特徴量符号化部２１１ａは、音声データを、ニューラルネットワークを用いて所定の特徴量に変換する。また、記号列復号化部２１４ａは、音声特徴量符号化部２１１ａによって変換された特徴量を、ニューラルネットワークを用いて記号列を特定する情報に変換する。なお、各ニューラルネットワークのパラメータは、記憶部２９０ａに格納されているものとする。

また、音声認識エラー計算部２２２ａは、記号列復号化部２１４ａによって変換された記号列を特定する情報と、入力された記号列を特定する情報との間のエラーを計算する。更新部２５０ａは、音声認識エラー計算部２２２ａによって計算されたエラーが小さくなるように、パラメータを更新する。そして、判定部２６０ａは、更新部２５０ａによって更新されたエラーが収束したか否かを判定する。ここで、判定部２６０ａによってパラメータが収束していないと判定された場合、学習装置２０ａは、さらに処理を繰り返す。

［従来の学習装置の処理］
図１０を用いて、従来の学習装置の処理について説明する。図１０は、従来の学習装置の処理の流れを示すフローチャートである。図１０に示すように、まず、学習装置２０ａは、記憶部２９０からパラメータを読み込む（ステップＳ１１ａ）。次に、学習装置２０ａは、教師ありの音声データ及び記号列を特定する情報の入力を受け付ける（ステップＳ１２ａ）。

ここで、学習装置２０ａは、入力された音声データを音声特徴量に変換する（ステップＳ１３ａ）。次に、学習装置２０ａは、音声特徴量を記号列を特定する情報に変換する（ステップＳ１４ａ）。そして、学習装置２０ａは、変換された記号列を特定する情報及び入力された記号列を特定する情報から音声認識エラーを計算する（ステップＳ１５ａ）。

ここで、学習装置２０ａは、音声認識エラーが小さくなるようにパラメータを更新する（ステップＳ１６ａ）。そして、学習装置２０ａは、パラメータが収束したか否かを判定する（ステップＳ１７ａ）。学習装置２０ａは、パラメータが収束していないと判定した場合（ステップＳ１７ａ、Ｎｏ）、ステップＳ１１ａに戻り処理を繰り返す。一方、学習装置２０ａは、パラメータが収束したと判定した場合（ステップＳ１７ａ、Ｙｅｓ）、処理を終了する。

［その他の実施形態］
実施形態の学習装置２０の、音声特徴量符号化部２１１及び記号列復号化部２１４のそれぞれに対応するニューラルネットワークは、従来の学習装置２０ａで用いられるものと同様のものであってもよい。このため、例えば、従来の学習装置２０ａを用いた教師あり学習により各ニューラルネットワークのパラメータの初期値を決定しておくことができる。つまり、例えば第１の実施形態の学習装置２０は、学習装置２０ａで学習されたニューラルネットワークｆ（・）、ｄ（・）に、ニューラルネットワークｃ（・）、ｇ（・）を（第２の実施形態の場合はさらにニューラルネットワークｈ（・）も）加えてさらに学習を行うことができる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、学習装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、学習装置２０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理に関するサービスを提供する学習サーバ装置として実装することもできる。例えば、学習サーバ装置は、音声データ及び記号列データを入力とし、パラメータを出力とする学習サービスを提供するサーバ装置として実装される。この場合、学習サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の学習処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図８は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤにより代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０音声認識装置
１１、２００制御部
１９記憶部
２０学習装置
１１０、２１０変換部
１１１、２１１音声特徴量符号化部
１１２、２１４記号列復号化部
１２０探索部
２１２記号列特徴量符号化部
２１３音声復号化部
２２０教師あり学習エラー計算部
２２１音声合成エラー計算部
２２２音声認識エラー計算部
２４０特徴量エラー計算部
２５０更新部
２６０判定部
２９０記憶部

Claims

ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する音声認識モデルのパラメータを学習する学習装置であって、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の音声データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する音声認識エラー計算部と、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の記号列データを前記ニューラルネットワークにより変換して得た音声データの推定結果と、前記学習用データ中の音声データとの非類似度を表す音声合成エラーを計算する音声合成エラー計算部と、
前記音声認識エラーと前記音声合成エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
学習用に与えられた音声データを前記ニューラルネットワークにより変換して得た中間特徴量の分布と、学習用に与えられた記号列データを前記ニューラルネットワークにより変換して得た中間特徴量の分布との非類似度を表す特徴量エラーを計算する特徴量エラー計算部をさらに有し、
前記更新部は、前記音声認識エラーと前記音声合成エラーと前記特徴量エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新することを特徴とする請求項１に記載の学習装置。
前記ニューラルネットワークは、
記号列データを中間特徴量に変換する記号列特徴量符号化部と、
音声データを中間特徴量に変換する音声特徴量符号化部と、
前記中間特徴量を記号列を特定する情報に変換する記号列復号化部と、
前記中間特徴量を音声データに変換する音声復号化部と、
を有し、
前記音声合成エラー計算部における前記音声データの推定結果は、前記学習用データ中の記号列データを前記記号列特徴量符号化部により変換して得た中間特徴量を、前記音声復号化部により変換して得たものであり、
前記認識エラー計算部における前記記号列を特定する情報の推定結果は、前記学習用データ中の音声データを前記音声特徴量符号化部により変換して得た中間特徴量を、前記記号列復号化部により変換して得たものであることを特徴とする請求項１に記載の学習装置。
ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する音声認識モデルのパラメータを学習する学習装置が実行する学習方法であって、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の音声データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する音声認識エラー計算工程と、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の記号列データを前記ニューラルネットワークにより変換して得た音声データの推定結果と、前記学習用データ中の音声データとの非類似度を表す音声合成エラーを計算する音声合成エラー計算工程と、
前記音声認識エラーと前記音声合成エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。
コンピュータを、請求項１から３のいずれか１項に記載の学習装置として機能させるための学習プログラム。