JP2021039217A

JP2021039217A - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP2021039217A
Application number: JP2019159952A
Authority: JP
Inventors: 成樹苅田; Shigeki Karita; 具治岩田; Tomoharu Iwata; 小川　厚徳; Atsunori Ogawa; 厚徳小川; マークデルクロア; Marc Delcroix; 渡部　晋治; Shinji Watabe; 晋治渡部
Original assignee: Nippon Telegraph and Telephone Corp; Johns Hopkins University
Current assignee: Nippon Telegraph and Telephone Corp; Johns Hopkins University
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2021-03-11

Abstract

【課題】音声認識モデルのパラメータを、半教師あり学習によりend-to-endで学習すること。【解決手段】変換部２１０は、ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する。音声認識エラー計算部２２２は、学習用データを用いて、学習用データ中の音声データをニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、学習用データ中の音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する。音声復元エラー計算部２３１は、教師なし音声データを用いて、教師なし音声データをニューラルネットワークにより変換して得た音声データの推定結果と、教師なし音声データとの非類似度を表す音声復元エラーを計算する。更新部２５０は、音声認識エラーと音声復元エラーに基づき、ニューラルネットワークのパラメータを更新する。【選択図】図３

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。

従来、ニューラルネットワーク（以降、ＮＮと表記する場合がある。）を用いたモデルを、機械学習により学習する技術が知られている。例えば、音声データを、記号列を特定する情報（事後確率）に変換可能なend-to-endのＮＮを用いた音声認識モデルを、教師あり学習により学習する方法が知られている（例えば、非特許文献１を参照）。

また、例えば、画像変換を行うＮＮ又は機械翻訳を行うend-to-endのＮＮを、教師なし学習により学習する方法が知られている（例えば、非特許文献２又は非特許文献３を参照）。

また、例えば、end-to-endのＮＮである音声認識モデルにおいて、デコーダの一部として用いられているＲＮＮ−ＬＭ（Recurrent Neural Network Language Model）を、教師なし学習により学習する方法が知られている（例えば、非特許文献４を参照）。

J. Chorowski et al., "Attention-Based Models for Speech Recognition," Advances in Neural Information Processing Systems 28 (NIPS 2015), pp. 577-585, 2015.（ＵＲＬ：http://papers.nips.cc/paper/5847-attention-based-models-for-speech-recognition） M.-Y. Liu, T. Breuel, and J. Kautz, "Unsupervised Image-to-Image Translation Networks," in Neural Information Processing Systems, 2017, pp. 700-708.（ＵＲＬ：https://papers.nips.cc/paper/6672-unsupervised-image-to-image-translation-networks.pdf） M. Artetxe, G. Labaka, E. Agirre, and K. Cho, "Unsupervised Neural Machine Translation," International Conference on Learning Representation, 2018.（ＵＲＬ：https://arxiv.org/pdf/1710.11041.pdf） Takaaki Hori, Shinji Watanabe, Yu Zhang, William Chan, "Advances in Joint CTC-Attention based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM," Interspeech 2017.（ＵＲＬ：https://arxiv.org/pdf/1706.02737.pdf）

教師あり学習には、認識モデルの精度を高度化できるというメリットがある一方で、大量の教師ありの学習用データを準備することが困難であるというデメリットがある。また、教師なし学習には、認識モデルの精度では教師あり学習に劣るというデメリットがあるが、学習用データの準備が容易であるというメリットがある。

半教師あり学習は、教師あり学習と教師なし学習の両方のメリットを持つ学習手法である。

これに対し、非特許文献１や非特許文献４の技術は、いずれもend-to-endのＮＮを用いた音声認識モデルを、半教師あり学習により学習するものではない。

また、非特許文献２と非特許文献３は、end-to-endのＮＮを教師なし学習により学習するものであるが、ここで対象とするend-to-endのＮＮは入力と出力のドメインが同じである。例えば、非特許文献２は入力と出力がともに画像データであり、非特許文献３は入力と出力がともにテキストデータである。

これに対し、end-to-endの音声認識モデルは、入力が音声データであり、出力がテキストデータ（シンボル系列）を特定する情報であるため、入力と出力のドメインが異なる。このような入力と出力のドメインが異なるＮＮのend-to-endの学習に、非特許文献２や非特許文献３の教師なし学習の手法を適用することはできない。

以上の問題に鑑み、本発明では、音声認識モデルのパラメータを、半教師あり学習によりend-to-endで学習可能な技術を提供することを目的とする。ここで、end-to-endの学習とは、入力データをニューラルネットワークに入力することで得られる出力データに基づいて、ニューラルネットワークの全てのパラメータを一度に学習する手法である。

上述した課題を解決し、目的を達成するために、学習装置は、ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する音声認識モデルのパラメータを学習する学習装置であって、音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の音声データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する音声認識エラー計算部と、記号列データが対応付けられていない音声データである教師なし音声データを用いて、当該教師なし音声データを前記ニューラルネットワークにより変換して得た音声データの推定結果と、前記教師なし音声データとの非類似度を表す音声復元エラーを計算する音声復元エラー計算部と、前記音声復元エラーに基づき、前記ニューラルネットワークのパラメータを更新する更新部と、を有することを特徴とする。

本発明によれば、音声認識モデルのパラメータを、半教師あり学習によりend-to-endで学習することができる。

図１は、音声認識装置の構成の一例を示す図である。図２は、音声認識装置の処理の流れを示すフローチャートである。図３は、第１の実施形態に係る学習装置の構成の一例を示す図である。図４は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図５は、音声認識エラー計算処理の流れを示すフローチャートである。図６は、音声復元エラー計算処理の流れを示すフローチャートである。図７は、特徴量エラー計算処理の流れを示すフローチャートである。図８は、第２の実施形態に係る学習装置の構成の一例を示す図である。図９は、第２の実施形態に係る学習装置の処理の流れを示すフローチャートである。図１０は、音声合成エラー計算処理の流れを示すフローチャートである。図１１は、第３の実施形態に係る学習装置の構成の一例を示す図である。図１２は、第３の実施形態に係る学習装置の処理の流れを示すフローチャートである。図１３は、記号列復元エラー計算処理の流れを示すフローチャートである。図１４は、第４の実施形態に係る学習装置の構成の一例を示す図である。図１５は、第４の実施形態に係る学習装置の処理の流れを示すフローチャートである。図１６は、実験結果を示す図である。図１７は、学習プログラムを実行するコンピュータの一例を示す図である。図１８は、従来の学習装置の構成を示す図である。図１９は、従来の学習装置の処理の流れを示すフローチャートである。

以下に、本願に係る学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［音声認識装置の構成］
ここで、学習装置の詳細を説明する前に、end-to-endの音声認識モデル（ニューラルネットワーク）を用いた音声認識装置について説明する。音声認識装置は、後述する学習装置において学習済みのパラメータが設定された音声認識モデルを用いて音声認識を行う。図１に示すように、音声認識装置１０は、制御部１１及び記憶部１９を有する。

制御部１１は、音声認識装置１０全体を制御する。制御部１１は、ＣＰＵ（Central Processing Unit）等により実現される。制御部１１は、変換部１１０及び探索部１２０を有する。また、変換部１１０には、音声特徴量符号化部１１１及び記号列復号化部１１２が含まれる。記憶部１９は、ＨＤＤ（Hard Disk Drive）及びＳＳＤ（Solid State Drive）等の記憶装置である。記憶部１９は、ニューラルネットワークのパラメータΛを記憶する。

変換部１１０は、ニューラルネットワークを用いて、音声データを音声特徴量に変換し、音声特徴量を「記号列を特定する情報」に変換する。このとき、変換部１１０は、学習済みのニューラルネットワークのパラメータΛを記憶部１９から読み込み、読み込んだパラメータに応じた変換を行う。なお、Λは、複数のニューラルネットワークのパラメータの集合である。

ここで、記号列とは、アルファベット、漢字、スペース等のあらゆる記号（シンボル）や、それらの系列である単語、認識結果の終端を示す記号等を含む記号の系列である。また、記号列を特定する情報とは、入力音声をある記号列に変換した際の尤度（事後確率）である。

変換部１１０を構成するニューラルネットワークのうち、音声データを音声特徴量に変換する部分をエンコーダ層、音声特徴量を事後確率に変換する部分をデコーダ層と呼ぶこととすると、エンコーダ層が音声特徴量符号化部１１１に対応し、デコーダ層が記号列復号化部１１２に対応する。

ここで、変換部１１０に含まれる各部の処理について説明する。音声特徴量符号化部１１１は、入力された音声データｘ´´を、音声特徴量に変換（符号化）する。また、記号列復号化部１１２は、音声特徴量を、記号列を特定する情報に変換（復号化）する。なお、音声特徴量符号化部１１１及び記号列復号化部１１２によって用いられるニューラルネットワークのパラメータは、Λに含まれるものとする。

探索部１２０は、記号列を特定する情報を基に記号列を探索する。この探索結果である記号列が、音声認識結果（推定記号列）である。

ここで、記号列復号化部１１２によって変換される記号列を特定する情報は、音声データｘ´´に対する音声認識結果の推定記号列ｙ´´の事後確率ｐ（ｙ´´｜ｘ´´）である。このため、探索部１２０は、事後確率ｐ（ｙ´´｜ｘ´´）が最大化されるような記号列をビームサーチ等により探索する。

例えば、探索部１２０は、記号列の候補のうち１文字目の尤度の大きさが上位所定数に入るものを選択し、さらに、続く記号の尤度の大きさが上位所定数に入るものを選択していくことを繰り返すことで、出力する記号列を選択することができる。

［音声認識装置の処理］
図２を用いて、音声認識装置１０の処理の流れを説明する。図２は、音声認識装置の処理の流れを示すフローチャートである。図２に示すように、まず、音声認識装置１０は、記憶部１９からパラメータを読み込む（ステップＳ１１）。また、音声認識装置１０は、認識用の音声データの入力を受け付ける（ステップＳ１２）。

ここで、音声認識装置１０は、音声データを音声特徴量に変換する（ステップＳ１３）。次に、音声認識装置１０は、音声特徴量を、記号列を特定する情報に変換する（ステップＳ１４）。

なお、音声認識装置１０は、ステップＳ１３及びステップＳ１４における変換を、ニューラルネットワークを用いて行う。また、各ニューラルネットワークのパラメータは、ステップＳ１１で読み込まれたものである。

音声認識装置１０は、変換した記号列を特定する情報を基に記号列を探索する（ステップＳ１５）。そして、音声認識装置１０は、探索によって得られた記号列を音声認識結果として出力する（ステップＳ１６）。

［第１の実施形態］
第１の実施形態について説明する。第１の実施形態の学習装置は、音声認識エラー及び音声復元エラーを用いて音声認識モデルのパラメータの最適化を行う。また、第１の実施形態では、教師ありの音声データ及び教師なしの音声データが学習に用いられる。

［第１の実施形態の学習装置の構成］
図３を用いて、第１の実施形態の学習装置の構成について説明する。図３は、第１の実施形態に係る学習装置の構成の一例を示す図である。図３に示すように、学習装置２０は、制御部２００及び記憶部２９０を有する。

制御部２００は、学習装置２０全体を制御する。制御部２００は、ＣＰＵ等により実現される。制御部２００は、変換部２１０、教師あり学習エラー計算部２２０、教師なし学習エラー計算部２３０、特徴量エラー計算部２４０、更新部２５０及び判定部２６０を有する。また、変換部２１０には、音声特徴量符号化部２１１、音声復号化部２１３及び記号列復号化部２１４が含まれる。このうち、音声特徴量符号化部２１１及び記号列復号化部２１４が、音声認識装置１０の変換部１１０で用いたニューラルネットワークと同じニューラルネットワークである。つまり、学習装置２０のニューラルネットワークは、音声認識装置１０では用いられない部分構造（音声復号化部２１３）をさらに具備している点が異なる。

記憶部２９０は、ＨＤＤ及びＳＳＤ等の記憶装置である。記憶部２９０は、ニューラルネットワークのパラメータΛを記憶する。ニューラルネットワークのパラメータΛの各々の初期値は、あらかじめ適当な値を設定しておくものとする。

ここで、学習装置２０に入力されるデータ（学習用データ）について説明する。学習用データとして、
（１）学習用の音声データｘ´とそれに対応する記号列データｙ´（正解記号列データ）との組からなる教師あり学習用データ集合Ｚと、
（２）対応する記号列データがない音声データｘのみからなる学習用データ（教師なし学習用音声データ）集合Ｓと、
があらかじめ与えられるものとする。

なお、学習用データに含まれる音声データ（ｘ´又はｘ）及び記号列データ（ｙ´）は、いずれもベクトルで表現されていてよい。また、音声データや記号列の定義は、前述の音声認識装置における各用語の定義に従う。

次に、学習装置２０の各部の処理について説明する。変換部２１０は、ニューラルネットワークを用いて、音声データ又は記号列データを中間特徴量に変換し、中間特徴量を音声データ又は記号列を特定する情報に変換する。変換部２１０は、ニューラルネットワークであり、学習用データの各々を中間特徴量に変換するエンコーダ層と、中間特徴量を「記号列を特定する情報」に変換するデコーダ層とを有する。エンコーダ層は、音声特徴量符号化部２１１を含み、デコーダ層は、音声復号化部２１３及び記号列復号化部２１４を含む。

ここでの中間特徴量とは、音声特徴量符号化部２１１の出力である音声特徴量である。また、以降の説明では、音声特徴量と記号列特徴量を区別せずに、単に中間特徴量と表記する場合がある。

以降の説明では、ニューラルネットワークの各部（各層）で行われる演算（変換処理）を関数として表記する。例えば、音声特徴量符号化部２１１に対応するニューラルネットワークの演算を関数ｆ（・）と表記する。この関数の出力値が、音声特徴量符号化部２１１の出力となる。

また、音声復号化部２１３に対応するニューラルネットワークの演算を、関数ｃ（・）と表記する。また、記号列復号化部２１４に対応するニューラルネットワークの演算を、関数ｄ（・）と表記する。

なお、複数の層からなる多層ニューラルネットワークに対応する演算は、各層に対応する演算を表す関数の合成関数で表記できる。例えば、音声特徴量符号化部２１１と記号列復号化部２１４とからなる多層ニューラルネットワークの演算は、ｄ（ｆ（・））のように表記することができる。

ここで、ニューラルネットワークの「層」と呼んでいるものは、必ずしも物理的に１層であることを意味するものではなく、複数層をまとめて「層」としてもよい。言い換えれば、ニューラルネットワーク全体の中で１以上の層からなる部分構造を「層」と呼ぶこととする。

音声特徴量符号化部２１１は、入力された学習用データ中の音声データを音声特徴量に変換（符号化）する。具体的には、音声特徴量符号化部２１１は、教師あり学習用データ中の音声データｘ´を音声特徴量ｆ（ｘ´）に、教師なし学習用音声データ中の音声データｘを音声特徴量ｆ（ｘ）に変換する。

以下、教師あり学習用データの音声データｘ´を変換して得た音声特徴量ｆ（ｘ´）を「教師あり音声データに対応する音声特徴量」、教師なし学習用音声データｘを変換して得た音声特徴量ｆ（ｘ）を「教師なし音声データに対応する音声特徴量」と呼ぶこととする。

音声復号化部２１３は、入力された中間特徴量を、音声データに変換（復号化）する。ここで対象となる中間特徴量は、教師なし音声データに対応する音声特徴量ｆ（ｘ）である。

記号列復号化部２１４は、入力された中間特徴量を、記号列を特定する情報に変換（復号化）する。ここで対象となる中間特徴量は、教師あり音声データに対応する中間特徴量ｆ（ｘ´）である。

音声復号化部２１３及び記号列復号化部２１４は、ニューラルネットワーク、例えば、アテンション機構を有する長短期記憶（Long Short Term Memory：ＬＳＴＭ）で実現される。

教師あり学習エラー計算部２２０は、音声データを記号列データに変換する第１のタスクで学習を行う。第１のタスクに関するエラーは、音声認識エラー計算部２２２によって計算される。

まず、教師あり音声データに対応する音声特徴量ｆ（ｘ´）を、記号列を特定する情報に変換する場合を例に説明する。記号列を特定する情報の推定結果に基づき特定される記号列を。推定記号列データとする。記号列復号化部２１４は、第ｔステップにおいて、直前のステップ（ｔ−１ステップ）でニューラルネットワークから出力される状態ベクトルｈ_ｔ−１と、ｔ−１ステップまでに得た推定記号列データｙ´_{１：ｔ−１}と、音声特徴量ｆ（ｘ´）を入力として、次の出力記号に対応する状態ベクトルｈ_ｔに変換する。そして、ｈ_ｔに基づき、推定記号列データが正解記号列データ中のｔ番目の記号（以下「正解記号」ともいう）ｙ´_ｔと一致する事後確率Ｐ（ｙ´_ｔ｜ｙ´_{１：ｔ−１}，ｆ（ｘ´））を計算する。これを先頭から順に再帰的に繰り返す。

ここで得られる事後確率Ｐ（ｙ´_ｔ｜ｙ´_{１：ｔ−１}，ｆ（ｘ´））が「記号列を特定する情報」である。

また、記号列復号化部２１４は、教師なし記号列データに対応する記号列特徴量ｇ（ｙ）についても同様の処理を行い、事後確率Ｐ（ｙ_ｔ｜ｙ_{１：ｔ−１}，ｇ（ｙ））を計算する。

教師あり学習エラー計算部２２０の音声認識エラー計算部２２２は、教師あり学習用データ中の音声データを変換部２１０により変換して得られた結果（事後確率）を用いて音声認識エラーを計算する。具体的には、音声認識エラー計算部２２２は、微分可能な音声認識エラーＬ_ＡＳＲとして、（１）式の交差エントロピー損失を計算する。

ここで、ｙ´_{１：ｔ−１}は、ｙ´_１からｙ´_ｔ−１までの記号列を表す。つまり、音声認識エラー計算部２２２は、変換部２１０によって教師あり音声データｘ´を変換して得た記号列を特定する情報Ｐ（ｙ´_ｔ｜ｙ´_{１：ｔ−１}，ｆ（ｘ´））を用いて音声認識エラーを計算する。

（１）式は、教師あり音声データｘ´を変換して得た記号列を特定する情報Ｐ（ｙ´_ｔ｜ｙ´_{１：ｔ−１}，ｆ（ｘ´））に基づき推定される推定記号列データと、学習用データ中で音声データｘ´にあらかじめ対応付けられた正解記号列データｙ´との近さを表す尺度といえる。

教師なし学習エラー計算部２３０は、音声復元エラー計算部２３１を有する。音声復元エラー計算部２３１は、ペアデータのない音声データに対してオートエンコーダによる教師なし学習を行う。

音声特徴量符号化部２１１及び音声復号化部２１３の学習は、音声復元エラー計算部２３１を用いて行われる。また、音声特徴量符号化部２１１及び音声復号化部２１３の学習は、教師なし音声データを用いて行われる。

音声復元エラー計算部２３１は、（２）式のように、音声データｘと、音声データｘを変換部２１０で変換して合成音声データ＾ｘと、が復元できているか測る音声合成損失を、微分可能な音声復元エラーＬ_{ｓｐｅｅｃｈ}として計算する。

特徴量エラー計算部２４０は、学習用に与えられた音声データをニューラルネットワークにより変換して得た中間特徴量の分布と、学習用に与えられた音声データ又は記号列データをニューラルネットワークにより変換して得た中間特徴量の分布との非類似度を表す特徴量エラーＬ_ｄｏｍを計算する。

具体的には、特徴量エラー計算部２４０は音声認識のタスクに用いる中間特徴量と、他の補助タスクに用いる中間特徴量との非類似度として、特徴量エラーＬ_ｄｏｍを計算する。ここで、音声認識のタスクとは、教師あり音声データを音声特徴量符号化部２１１と記号列復号化部２１４で変換して記号列を特定する情報を得るタスクである、また、音声特徴量とは、教師あり音声データを音声特徴量符号化部２１１で変換して得た中間特徴量である。また、第１の実施形態において、補助タスクとは、音声復元のタスクである。

音声復元のタスクとは、教師なし音声データを音声特徴量符号化部２１１と音声復号化部２１３とにより変換して合成音声を得るタスクである。音声復元のタスクで用いる中間特徴量とは、教師なし音声データを音声特徴量符号化部２１１で変換して得られる中間特徴量である。

特徴量エラーとは、第１の中間特徴量Ｆｎ_１（ｕ）と第２の中間特徴量Ｆｎ_２（ｖ）との非類似度を表す指標であり、例えば、カーネル法に基づく検定における指標であるＭＭＤ（Maximum Mean Discrepancy）に基づくエラーを用いることができる。この場合、特徴量エラー計算部２４０は、（３）式のように特徴量エラーＬ_ｄｏｍを計算する。ここで、（３）式において、カーネルｋは微分可能なものを用いるため、Ｌ_ｄｏｍは微分可能である。

なお、上記の音声認識のタスク及び各補助タスクで得られる各中間特徴量は、第１の特徴量及び第２の特徴量になり得る。また、関数Ｆｎ_１（・）及び関数Ｆｎ_２は、ｆ（・）及びｇ（・）のいずれかである。例えば、第１の特徴量を音声認識のタスクで得られる音声特徴量ｆ（ｘ´）とし、第２の特徴量を音声復元のタスクで得られる音声特徴量ｆ（ｘ）とすることができる。

更新部２５０は、音声認識エラー計算部２２２によって計算された音声認識エラーＬ_ＡＳＲと、音声復元エラー計算部２３１によって計算された音声復元エラーＬ_{ｓｐｅｅｃｈ}と、特徴量エラー計算部２４０によって計算された特徴量エラーＬ_ｄｏｍとに基づき、ニューラルネットワークの各パラメータを更新する。具体的には、更新部２５０は、（４）式のように、各エラーの重み付き和Ｌを最小化するようにパラメータを更新する。

ここで、α、β、γ、θ、Φは重みを表すパラメータであり、あらかじめ値が設定されるものとする。第１の実施形態ではα、θが用いられる。また、β、γは、後に説明する各実施形態において用いられる。また、Ｌ_TTS、Ｌ_ＡＳＲ、Ｌ_{ｓｐｅｅｃｈ}、Ｌ_{ｓｙｍｂｏｌ}、Ｌ_ｄｏｍはエラーである。第１の実施形態ではＬ_ＡＳＲ、Ｌ_{ｓｐｅｅｃｈ}及びＬ_ｄｏｍが用いられる。また、Ｌ_TTS及びＬ_{ｓｙｍｂｏｌ}は、後に説明する各実施形態において用いられる。

第１の実施形態及び後に説明する各実施形態において、Ｌは、微分可能なＬ_TTS、Ｌ_ＡＳＲ、Ｌ_{ｓｐｅｅｃｈ}、Ｌ_{ｓｙｍｂｏｌ}、Ｌ_ｄｏｍのうちのいくつかの重み付き和であるため、微分可能である。よって、更新部２５０は、周知の誤差伝播学習法等により、微分値に基づきニューラルネットワークのパラメータを更新していくことができる。

判定部２６０は、更新部２５０によって計算されたエラーが所定の基準を満たしたか否かを判定する。ここで、判定部２６０によってパラメータが所定の基準を満たしていないと判定された場合、学習装置２０は、音声特徴量符号化部２１１に戻り処理を繰り返す。一方、判定部２６０によってパラメータが所定の基準を満たしたと判定された場合、学習装置２０は、現在のニューラルネットワークのパラメータを学習済みパラメータとして出力する。

なお、所定の基準としては、例えば、繰り返し処理の回数があらかじめ定められた回数に到達したこと、エラーが所定の閾値以下となったこと、パラメータの更新量（エラーの微分値）が所定の閾値以下となったこと、等を用いることができる。

［第１の実施形態の学習装置の処理］
図４を用いて、本実施形態の学習装置２０の処理の流れを説明する。図４は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図４に示すように、まず、学習装置２０は、記憶部２９０から各ニューラルネットワークのパラメータを読み込む（ステップＳ２１）。ここで、学習装置２０は、教師ありの音声データの入力を受け付ける（ステップＳ２２ａ）。また、学習装置２０は、教師なしの音声データの入力を受け付ける（ステップＳ２３ａ）。

そして、学習装置２０は、並列処理で教師ありエラー計算処理、教師なしエラー計算処理及び特徴量エラー計算処理を実行する（ステップＳ２４）。なお、学習装置２０は、ステップＳ２４の各処理を必ずしも並列処理で行う必要はなく、ステップＳ２５へ進む前に各処理を終了させていればよい。

エラーの計算処理が終わると、学習装置２０は、各エラーが小さくなるようにパラメータを更新する（ステップＳ２５）。そして、学習装置２０は、パラメータが収束したか否かを判定する（ステップＳ２６）。学習装置２０は、パラメータが収束していないと判定した場合（ステップＳ２６、Ｎｏ）、ステップＳ２１に戻り処理を繰り返す。一方、学習装置２０は、パラメータが収束したと判定した場合（ステップＳ２６、Ｙｅｓ）、パラメータを出力し（ステップＳ２７）、処理を終了する。

第１の実施形態では、教師ありエラー計算処理として、音声認識エラー計算処理を行う。また、第１の実施形態では、教師なしエラー計算処理として、音声復元エラー計算処理を行う。

図５を用いて、音声認識エラー計算処理の流れを説明する。図５に示すように、学習装置２０は、まず、教師ありの音声データ及び記号列データを読み込む（ステップＳ１１１）。

学習装置２０は、読み込んだ音声データを音声特徴量に変換する（ステップＳ１１２）。このとき、学習装置２０は、音声特徴量を特徴量エラー計算処理に受け渡す（ステップＳ１１３）。そして、学習装置２０は、音声特徴量を、記号列を特定する情報に変換する（ステップＳ１１４）。さらに、学習装置２０は、読み込んだ記号列データと変換された記号列を特定する情報とに基づき音声認識エラーを計算する（ステップＳ１１５）。

図６を用いて、音声復元エラー計算処理の流れを説明する。図６は、音声復元エラー計算処理の流れを示すフローチャートである。図６に示すように、学習装置２０は、まず、教師なしの音声データを読み込む（ステップＳ２１１）。

学習装置２０は、読み込んだ音声データを音声特徴量に変換する（ステップＳ２１２）。そして、学習装置２０は、音声特徴量を特徴量エラー計算処理に受け渡す（ステップＳ２１３）。ここで、学習装置２０は、音声特徴量を音声データに変換する（ステップＳ２１４）。さらに、学習装置２０は、読み込んだ音声データと音声特徴量から変換された音声データに基づき音声復元エラーを計算する（ステップＳ２１５）。

図７を用いて、特徴量エラー計算処理の流れを説明する。図７は、特徴量エラー計算処理の流れを示すフローチャートである。図７に示すように、学習装置２０は、まず、第１の中間特徴量と第２の中間特徴量を受け取る（ステップＳ３０１）。例えば、第１の中間特徴量は、音声認識エラー計算処理から受け取る音声特徴量であり、第２の中間特徴量は、音声復元エラー計算処理から受け取る音声特徴量である。次に、学習装置２０は、第１の中間特徴量と第２の中間特徴量とのエラーを計算する（ステップＳ３０２）。

なお、学習装置２０は、第１の中間特徴量及び第２の中間特徴量として、各中間特徴量の複数の組み合わせを受け取り、各組み合わせについて計算したエラーを合計した値を特徴量エラーとすることができる。

［第１の実施形態の効果］
これまで説明してきたように、変換部２１０は、ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する。音声認識エラー計算部２２２は、音声データと記号列データとが対応付けられた学習用データを用いて、学習用データ中の音声データをニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する。音声復元エラー計算部２３１は、記号列データが対応付けられていない音声データである教師なし音声データを用いて、当該教師なし音声データをニューラルネットワークにより変換して得た音声データの推定結果と、教師なし音声データとの非類似度を表す音声復元エラーを計算する。更新部２５０は、音声認識エラーと音声復元エラーとから計算される所定の基準に基づき、ニューラルネットワークのパラメータを更新する。

音声復元エラーは、教師なし音声データに基づいて算出することができる。つまり、音声復元エラーは、教師なし学習によって最小化を行うことができる。このため、少量の教師あり学習用データに基づいて音声認識エラーを算出することができる。

したがって、音声認識エラーと音声復元エラーとに基づく所定のエラーが最小化されるように、ニューラルネットワークのパラメータを更新することで、少量の教師あり学習用データと、教師なし学習用データに基づいて、半教師あり学習を行うことが可能となる。

また、音声復元エラー計算部２３１は、教師なし音声データと、変換部２１０によって教師なし音声データを変換して得た音声特徴量をさらに変換した音声データと、が一致する確率に基づく交差エントロピー損失をエラーとして計算する。これにより、音声復元エラーを微分可能なエラーとして計算することができるため、誤差逆伝播法等の既知の手法でパラメータの最適化を行うことができる。

そして、更新部２５０において、音声認識エラーと音声復元エラーとに基づく所定の基準（各エラーの重み付き和）を最小化するように、ニューラルネットワークの全てのパラメータを更新することで、音声認識モデルを構成するニューラルネットワークのパラメータをend-to-endで半教師あり学習することができるのである。

具体的には、音声認識エラーと音声復元エラーの重み付け和における各重みは、どのエラーを優先して最小化するかを決定するものである。音声認識エラーは教師あり学習用データに基づくエラーであり、音声復元エラーは教師なし学習用データに基づくエラーである。つまり、重みを調整することで、教師あり学習用データと教師なし学習用データとのどちらのデータにより適合するようにニューラルネットワークを学習させるかを調整することができる。例えば、学習用データの量に応じて、データ量が多い方に対応するエラーが優先されるよう重みを調整すること等が可能となるといえる。

［第２の実施形態］
第２の実施形態について説明する。第２の実施形態の学習装置は、第１の実施形態における音声認識エラー、音声復元エラー及び特徴量エラーに加え、音声合成エラーを用いて音声認識モデルのパラメータの最適化を行う。また、第２の実施形態では、教師ありの音声データ、教師ありの記号列データ及び教師なしの音声データが学習に用いられる。また、第２の実施形態の説明において、第１の実施形態と共通する事項については適宜説明を省略する。

［第２の実施形態の学習装置の構成］
図８を用いて、第２の実施形態の学習装置の構成について説明する。図８は、第２の実施形態に係る学習装置の構成の一例を示す図である。図８に示すように、学習装置２０は、制御部２００及び記憶部２９０を有する。

制御部２００は、学習装置２０全体を制御する。制御部２００は、ＣＰＵ等により実現される。制御部２００は、変換部２１０、教師あり学習エラー計算部２２０、教師なし学習エラー計算部２３０、特徴量エラー計算部２４０、更新部２５０及び判定部２６０を有する。また、変換部２１０には、音声特徴量符号化部２１１、記号列特徴量符号化部２１２、音声復号化部２１３及び記号列復号化部２１４が含まれる。

記号列特徴量符号化部２１２は、エンコーダ層に含まれる。また、記号列特徴量符号化部２１２に対応するニューラルネットワークの演算を、関数ｇ（・）と表記する。記号列特徴量符号化部２１２は、入力された学習用データ中の記号列データを記号列特徴量に変換（符号化）する。具体的には、記号列特徴量符号化部２１２は、教師あり学習用データ中の記号列データｙ´を記号列特徴量ｇ（ｙ´）に変換する。

教師あり学習エラー計算部２２０は、教師あり音声データと記号列データのペアを２つのタスクで学習する。２つのタスクのうちの１つは、音声データを記号列データに変換する第１のタスクである。第１のタスクに関するエラーは、音声認識エラー計算部２２２によって計算される。また、２つのタスクのうちのもう１つは、記号列データを音声データに変換する第２のタスクである。第２のタスクに関するエラーは、音声合成エラー計算部２２１によって計算される。

教師あり記号列データに対応する記号列特徴量ｇ（ｙ´）を、教師あり音声データに変換する場合を例に説明する。変換によって合成される音声を＾ｘ（以下「合成音声データ」ともいう）とする。音声復号化部２１３は、第ｔステップにおいて、直前のステップ（ｔ−１ステップ）でニューラルネットワークから出力される状態ベクトルｈ_ｔ−１と、ｔ−１ステップまでに得た教師音声データｘ´_{１：ｔ−１}と、記号列特徴量ｇ（ｙ´）を入力として、次の出力記号に対応する状態ベクトルｈ_ｔに変換する。そして、ｈ_ｔに基づき、音声復号化部２１３は、合成音声のフレーム＾ｘ_ｔ及び時刻ｔで音声の合成を終える確率Ｐｒ（ｌｅｎ（＾ｘ）＝ｔ）を出力する。

音声合成エラー計算部２２１は、合成音声フレーム＾ｘ_ｔと教師音声フレームｘ´_tとのＬ１・Ｌ２エラーの最小化、及び、時刻ｔで音声の合成を終える確率の最大化を実現する、微分可能な音声合成エラーＬ_TTSを（５）式のように計算する。

第２の実施形態において、補助タスクとは、音声復元のタスク及び音声合成のタスクである。音声合成のタスクとは、教師あり記号列データを記号列特徴量符号化部２１２と音声復号化部２１３とにより変換して合成音声を得るタスクである。音声合成のタスクで用いる中間特徴量とは、教師あり記号列データを記号列特徴量符号化部２１２で変換して得られる中間特徴量である。

更新部２５０は、音声合成エラー計算部２２１によって計算された音声合成エラーＬ_TTSと、音声認識エラー計算部２２２によって計算された音声認識エラーＬ_ＡＳＲと、音声復元エラー計算部２３１によって計算された音声復元エラーＬ_{ｓｐｅｅｃｈ}と、特徴量エラー計算部２４０によって計算された特徴量エラーＬ_ｄｏｍとに基づき、ニューラルネットワークの各パラメータを更新する。具体的には、更新部２５０は、（６）式のように、各エラーの重み付き和Ｌを最小化するようにパラメータを更新する。

［第２の実施形態の学習装置の処理］
図９を用いて、本実施形態の学習装置２０の処理の流れを説明する。図９は、第２の実施形態に係る学習装置の処理の流れを示すフローチャートである。図９に示すように、まず、学習装置２０は、記憶部２９０から各ニューラルネットワークのパラメータを読み込む（ステップＳ２１）。ここで、学習装置２０は、教師ありの音声データ及び記号列データの入力を受け付ける（ステップＳ２２ｂ）。また、学習装置２０は、教師なしの音声データの入力を受け付ける（ステップＳ２３ｂ）。

第２の実施形態では、教師ありエラー計算処理として、音声認識エラー計算処理及び音声合成エラー計算処理を行う。また、第２の実施形態では、教師なしエラー計算処理として、音声復元エラー計算処理及び記号列復元エラー計算処理を行う。

音声認識エラー計算処理の流れは、図５を用いて説明した通りである。また、音声復元エラー計算処理の流れは、図６を用いて説明した通りである。また、特徴量エラー計算処理の流れは、図７を用いて説明した通りである。

図１０を用いて、音声合成エラーの計算処理について説明する。図１０は、音声合成エラー計算処理の流れを示すフローチャートである。まず、学習装置２０は、教師なしの記号列データを読み込む（ステップＳ１２１）。学習装置２０は、読み込んだ記号列データを記号列特徴量に変換する（ステップＳ１２２）。ここで、学習装置２０は、記号列特徴量を特徴量エラー計算処理に受け渡す（ステップＳ１２３）。そして、学習装置２０は、記号列特徴量を音声データに変換する（ステップＳ１２４）。さらに、学習装置２０は、読み込んだ音声データと記号列特徴量から変換された音声データに基づき音声合成エラーを計算する（ステップＳ１２５）。

［第２の実施形態の効果］
これまで説明してきたように、音声合成エラー計算部２２１は、音声データと記号列データとが対応付けられた学習用データを用いて、学習用データ中の記号列データをニューラルネットワークにより変換して得た音声データの推定結果と、学習用データ中の音声データとの非類似度を表す音声合成エラーを計算する。更新部２５０は、音声認識エラーと音声復元エラーと音声合成エラーとから計算される所定の基準に基づき、ニューラルネットワークのパラメータを更新する。

これにより、第２の実施形態では、教師ありの学習データを用いて、音声認識エラーだけでなく、音声合成エラーを使った学習を行うことができる。このため、第２の実施形態によれば、限られた教師ありの学習データをより有効に利用することができる。

［第３の実施形態］
第３の実施形態について説明する。第３の実施形態の学習装置は、第１の実施形態における音声認識エラー、音声復元エラー及び特徴量エラーに加え、記号列復元エラーを用いて音声認識モデルのパラメータの最適化を行う。また、第３の実施形態では、教師ありの音声データ、教師なしの音声データ及び教師なしの記号列データが学習に用いられる。また、第３の実施形態の説明において、第１の実施形態又は第２の実施形態と共通する事項については適宜説明を省略する。

［第３の実施形態の学習装置の構成］
図１１を用いて、第３の実施形態の学習装置の構成について説明する。図１１は、第３の実施形態に係る学習装置の構成の一例を示す図である。図１１に示すように、学習装置２０は、制御部２００及び記憶部２９０を有する。

教師なし学習エラー計算部２３０は、音声復元エラー計算部２３１及び記号列復元エラー計算部２３２を有する。音声復元エラー計算部２３１及び記号列復元エラー計算部２３２は、それぞれペアデータのない音声データと記号列データに対してオートエンコーダによる教師なし学習を行う。

記号列特徴量符号化部２１２及び記号列復号化部２１４の学習は、記号列復元エラー計算部２３２を用いて行われる。また、記号列特徴量符号化部２１２及び記号列復号化部２１４の学習は、教師なし記号列データを用いて行われる。

記号列復元エラー計算部２３２は、（７）式のように、記号列データｙと、記号列データｙを変換部２１０で変換して得た事後確率に基づき特定される推定記号列データと、が一致する確率に基づく交差エントロピー損失を、微分可能な記号列復元エラーＬ_{ｓｙｍｂｏｌ}として計算する。

第３の実施形態において、補助タスクとは、音声復元のタスク及び記号列復元のタスクである。記号列復元のタスクとは、教師なし記号列データを記号列特徴量符号化部２１２と記号列復号化部２１４とにより変換して記号列を得るタスクである。記号列復元のタスクで用いる中間特徴量とは、教師なし記号列データを記号列特徴量符号化部２１２で変換して得られる中間特徴量である。

更新部２５０は、音声認識エラー計算部２２２によって計算された音声認識エラーＬ_ＡＳＲと、音声復元エラー計算部２３１によって計算された音声復元エラーＬ_{ｓｐｅｅｃｈ}と、記号列復元エラー計算部２３２によって計算された記号列復元エラーＬ_{ｓｙｍｂｏｌ}と、特徴量エラー計算部２４０によって計算されたＬ_ｄｏｍとに基づき、ニューラルネットワークの各パラメータを更新する。具体的には、更新部２５０は、（８）式のように、各エラーの重み付き和Ｌを最小化するようにパラメータを更新する。

［第３の実施形態の学習装置の処理］
図１２を用いて、本実施形態の学習装置２０の処理の流れを説明する。図１２は、第３の実施形態に係る学習装置の処理の流れを示すフローチャートである。図１２に示すように、まず、学習装置２０は、記憶部２９０から各ニューラルネットワークのパラメータを読み込む（ステップＳ２１）。ここで、学習装置２０は、教師ありの音声データの入力を受け付ける（ステップＳ２２ｃ）。また、学習装置２０は、教師なしの音声データ及び記号列データの入力を受け付ける（ステップＳ２３ｃ）。

そして、学習装置２０は、並列処理で教師ありエラー計算処理、教師なしエラー計算処理及び特徴量エラー計算処理を実行する（ステップＳ２４）。なお、学習装置２０は、ステップＳ２４ａの各処理を必ずしも並列処理で行う必要はなく、ステップＳ２５へ進む前に各処理を終了させていればよい。

第３の実施形態では、教師ありエラー計算処理として、音声認識エラー計算処理を行う。また、第３の実施形態では、教師なしエラー計算処理として、音声復元エラー計算処理及び記号列復元エラー計算処理を行う。

図１３を用いて、記号列復元エラー計算処理の流れを説明する。図１３は、記号列復元エラー計算処理の流れを示すフローチャートである。図１３に示すように、学習装置２０は、まず、教師なしの記号列データを読み込む（ステップＳ２２１）。

学習装置２０は、読み込んだ記号列データを記号列特徴量に変換する（ステップＳ２２２）。そして、学習装置２０は、記号列特徴量を特徴量エラー計算処理に受け渡す（ステップＳ２２３）。ここで、学習装置２０は、記号列特徴量を記号列を特定する情報に変換する（ステップＳ２２４）。さらに、学習装置２０は、読み込んだ記号列データと記号列を特定する情報に基づき記号列復元エラーを計算する（ステップＳ２２５）。

［第３の実施形態の効果］
これまで説明してきたように、記号列復元エラー計算部２３２は、音声データが対応付けられていない記号列データである教師なし記号列データを用いて、当該教師なし記号列データをニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、教師なし記号列データとの非類似度を表す記号列復元エラーを計算する。更新部２５０は、音声認識エラーと音声復元エラーと記号列復元エラーとから計算される所定の基準に基づき、ニューラルネットワークのパラメータを更新する。

これにより、第３の実施形態では、教師なし学習データのうち、音声データだけでなく記号列データを使った学習を行うことができる。このため、第３の実施形態によれば、教師なしの記号列データを有効に利用した半教師あり学習を行うことができる。

［第４の実施形態］
第４の実施形態について説明する。第４の実施形態の学習装置は、第１の実施形態における音声認識エラー、音声復元エラー及び特徴量エラーに加え、記号列復元エラー及び音声合成エラーを用いて音声認識モデルのパラメータの最適化を行う。また、第４の実施形態では、教師ありの音声データ、教師ありの記号列データ、教師なしの音声データ及び教師なしの記号列データが学習に用いられる。

［第４の実施形態の学習装置の構成］
図１４を用いて、第４の実施形態の学習装置の構成について説明する。図１４は、第４の実施形態に係る学習装置の構成の一例を示す図である。図１４に示すように、学習装置２０は、制御部２００及び記憶部２９０を有する。

制御部２００は、学習装置２０全体を制御する。制御部２００は、ＣＰＵ等により実現される。制御部２００は、変換部２１０、教師あり学習エラー計算部２２０、教師なし学習エラー計算部２３０、特徴量エラー計算部２４０、更新部２５０及び判定部２６０を有する。また、変換部２１０には、音声特徴量符号化部２１１、記号列特徴量符号化部２１２、音声復号化部２１３及び記号列復号化部２１４が含まれる。このうち、音声特徴量符号化部２１１及び記号列復号化部２１４が、音声認識装置１０の変換部１１０で用いたニューラルネットワークと同じニューラルネットワークである。つまり、学習装置２０のニューラルネットワークは、音声認識装置１０では用いられない部分構造（記号列特徴量符号化部２１２及び音声復号化部２１３）をさらに具備している点が異なる。

ここで、学習装置２０に入力されるデータ（学習用データ）について説明する。学習用データとして、
（１）学習用の音声データｘ´とそれに対応する記号列データｙ´（正解記号列データ）との組からなる教師あり学習用データ集合Ｚと、
（２）対応する音声データがない記号列データｙのみからなる学習用データ（教師なし学習用記号列データ）集合Ｔと、
（３）対応する記号列データがない音声データｘのみからなる学習用データ（教師なし学習用音声データ）集合Ｓと、
があらかじめ与えられるものとする。

なお、学習用データに含まれる音声データ（ｘ´又はｘ）及び記号列データ（ｙ´又はｙ）は、いずれもベクトルで表現されていてよい。また、音声データや記号列の定義は、前述の音声認識装置における各用語の定義に従う。

次に、学習装置２０の各部の処理について説明する。変換部２１０は、ニューラルネットワークを用いて、音声データ又は記号列データを中間特徴量に変換し、中間特徴量を音声データ又は記号列を特定する情報に変換する。変換部２１０は、ニューラルネットワークであり、学習用データの各々を中間特徴量に変換するエンコーダ層と、中間特徴量を「記号列を特定する情報」に変換するデコーダ層とを有する。エンコーダ層は、音声特徴量符号化部２１１及び記号列特徴量符号化部２１２を含み、デコーダ層は、音声復号化部２１３及び記号列復号化部２１４を含む。

ここでの中間特徴量とは、音声特徴量符号化部２１１の出力である音声特徴量、及び、記号列特徴量符号化部２１２の出力である記号列特徴量である。また、以降の説明では、音声特徴量と記号列特徴量を区別せずに、単に中間特徴量と表記する場合がある。

また、記号列特徴量符号化部２１２に対応するニューラルネットワークの演算を、関数ｇ（・）と表記する。また、音声復号化部２１３に対応するニューラルネットワークの演算を、関数ｃ（・）と表記する。また、記号列復号化部２１４に対応するニューラルネットワークの演算を、関数ｄ（・）と表記する。

記号列特徴量符号化部２１２は、入力された教師なし学習用データ中の記号列データｙを記号列特徴量に変換（符号化）する。ここで、記号列特徴量符号化部２１２の最終的な目標は、入力された記号列データｙを変換して得られる記号列特徴量ｇ（ｙ）が、音声データを音声特徴量符号化部２１１で変換して得られる音声特徴量と近くなるような中間特徴量への変換を行うことである。つまり、学習が進むにしたがって、記号列データｙを変換して得られる記号列特徴量ｇ（ｙ）の分布が、音声データｘを変換して得た音声特徴量ｆ（ｘ）の分布と類似するようになる。

以下、教師あり学習用データの音声データｘ´を変換して得た音声特徴量ｆ（ｘ´）を「教師あり音声データに対応する音声特徴量」、教師あり学習用記号列データｙ´を変換して得た記号列特徴量ｇ（ｙ´）を「教師あり記号列データに対応する記号列特徴量」、教師なし学習用記号列データｙを変換して得た記号列特徴量ｇ（ｙ）を「教師なし記号列データに対応する記号列特徴量」、教師なし学習用音声データｘを変換して得た音声特徴量ｆ（ｘ）を「教師なし音声データに対応する音声特徴量」と呼ぶこととする。

音声復号化部２１３は、入力された中間特徴量を、音声データに変換（復号化）する。ここで対象となる中間特徴量は、教師なし音声データに対応する音声特徴量ｆ（ｘ）及び教師あり記号列データに対応する記号列特徴量ｇ（ｙ´）である。

記号列復号化部２１４は、入力された中間特徴量を、記号列を特定する情報に変換（復号化）する。ここで対象となる中間特徴量は、教師あり音声データに対応する中間特徴量ｆ（ｘ´）及び教師なし記号列データに対応する中間特徴量ｇ（ｙ）である。

まず、教師あり音声データに対応する音声特徴量ｆ（ｘ´）を、記号列を特定する情報に変換する場合を例に説明する。記号列を特定する情報の推定結果に基づき特定される記号列を推定記号列データとする。記号列復号化部２１４は、第ｔステップにおいて、直前のステップ（ｔ−１ステップ）でニューラルネットワークから出力される状態ベクトルｈ_ｔ−１と、ｔ−１ステップまでに得た推定記号列データｙ´_{１：ｔ−１}と、音声特徴量ｆ（ｘ´）を入力として、次の出力記号に対応する状態ベクトルｈ_ｔに変換する。そして、ｈ_ｔに基づき、推定記号列データが正解記号列データ中のｔ番目の記号（以下「正解記号」ともいう）ｙ´_ｔと一致する事後確率Ｐ（ｙ´_ｔ｜ｙ´_{１：ｔ−１}，ｆ（ｘ´））を計算する。これを先頭から順に再帰的に繰り返す。

次に、教師あり記号列データに対応する記号列特徴量ｇ（ｙ´）を、教師あり音声データに変換する場合を例に説明する。変換によって合成される音声を＾ｘ（以下「合成音声データ」ともいう）とする。音声復号化部２１３は、第ｔステップにおいて、直前のステップ（ｔ−１ステップ）でニューラルネットワークから出力される状態ベクトルｈ_ｔ−１と、ｔ−１ステップまでに得た教師音声データｘ´_{１：ｔ−１}と、記号列特徴量ｇ（ｙ´）を入力として、次の出力記号に対応する状態ベクトルｈ_ｔに変換する。そして、ｈ_ｔに基づき、音声復号化部２１３は、合成音声のフレーム＾ｘ_ｔ及び時刻ｔで音声の合成を終える確率Ｐｒ（ｌｅｎ（＾ｘ）＝ｔ）を出力する。

一方、記号列特徴量符号化部２１２及び記号列復号化部２１４の学習は、記号列復元エラー計算部２３２を用いて行われる。また、記号列特徴量符号化部２１２及び記号列復号化部２１４の学習は、教師なし記号列データを用いて行われる。

具体的には、記号列復元エラー計算部２３２は、（７）式のように、記号列データｙと、記号列データｙを変換部２１０で変換して得た事後確率に基づき特定される推定記号列データと、が一致する確率に基づく交差エントロピー損失を、微分可能な記号列復元エラーＬ_{ｓｙｍｂｏｌ}として計算する。

具体的には、特徴量エラー計算部２４０は音声認識のタスクに用いる中間特徴量と、他の補助タスクに用いる中間特徴量との非類似度として、特徴量エラーＬ_ｄｏｍを計算する。ここで、音声認識のタスクとは、教師あり音声データを音声特徴量符号化部２１１と記号列復号化部２１４で変換して記号列を特定する情報を得るタスクである、また、音声特徴量とは、教師あり音声データを音声特徴量符号化部２１１で変換して得た中間特徴量である。また、第４の実施形態において、補助タスクとは、音声復元のタスク、記号列復元のタスク、及び音声合成のタスクである。

記号列復元のタスクとは、教師なし記号列データを記号列特徴量符号化部２１２と記号列復号化部２１４とにより変換して記号列を得るタスクである。記号列復元のタスクで用いる中間特徴量とは、教師なし記号列データを記号列特徴量符号化部２１２で変換して得られる中間特徴量である。

音声合成のタスクとは、教師あり記号列データを記号列特徴量符号化部２１２と音声復号化部２１３とにより変換して合成音声を得るタスクである。音声合成のタスクで用いる中間特徴量とは、教師あり記号列データを記号列特徴量符号化部２１２で変換して得られる中間特徴量である。

更新部２５０は、音声合成エラー計算部２２１によって計算された音声合成エラーＬ_TTSと、音声認識エラー計算部２２２によって計算された音声認識エラーＬ_ＡＳＲと、音声復元エラー計算部２３１によって計算された音声復元エラーＬ_{ｓｐｅｅｃｈ}と、記号列復元エラー計算部２３２によって計算された記号列復元エラーＬ_{ｓｙｍｂｏｌ}と、特徴量エラー計算部２４０によって計算された特徴量エラーＬ_ｄｏｍと、に基づき、ニューラルネットワークの各パラメータを更新する。具体的には、更新部２５０は、（９）式のように、各エラーの重み付き和Ｌを最小化するようにパラメータを更新する。

ここで、α、β、γ、θ、Φは重みを表すパラメータであり、あらかじめ値が設定されるものとする。（９）式において、Ｌ_TTS、Ｌ_ＡＳＲ、Ｌ_{ｓｐｅｅｃｈ}、Ｌ_{ｓｙｍｂｏｌ}、Ｌ_ｄｏｍはいずれも微分可能であるため、Ｌは微分可能である。よって、更新部２５０は、周知の誤差伝播学習法等により、微分値に基づきニューラルネットワークのパラメータを更新していくことができる。精度を高める意味では、重みα、β、γ、θ、Φはそれぞれ０より大きな値とすることが好ましいが、重みα、β、γ、θ、Φのいずれかを０として学習してもよく、この場合、重み０としたエラーについては考慮しないことを意味する。

［第４の実施形態の学習装置の処理］
図１５を用いて、本実施形態の学習装置２０の処理の流れを説明する。図１５は、第４の実施形態に係る学習装置の処理の流れを示すフローチャートである。図１５に示すように、まず、学習装置２０は、記憶部２９０から各ニューラルネットワークのパラメータを読み込む（ステップＳ２１）。ここで、学習装置２０は、教師ありの音声データ及び記号列データの入力を受け付ける（ステップＳ２２ｄ）。また、学習装置２０は、教師なしの音声データ及び記号列データの入力を受け付ける（ステップＳ２３ｄ）。

第４の実施形態では、教師ありエラー計算処理として、音声認識エラー計算処理及び音声合成エラー計算処理を行う。また、第４の実施形態では、教師なしエラー計算処理として、音声復元エラー計算処理及び記号列復元エラー計算処理を行う。

［第４の実施形態の効果］
これまで説明してきたように、記号列復元エラー計算部２３２は、音声データが対応付けられていない記号列データである教師なし記号列データを用いて、当該教師なし記号列データをニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、教師なし記号列データとの非類似度を表す記号列復元エラーを計算する。音声合成エラー計算部２２１は、音声データと記号列データとが対応付けられた学習用データを用いて、学習用データ中の記号列データをニューラルネットワークにより変換して得た音声データの推定結果と、学習用データ中の音声データとの非類似度を表す音声合成エラーを計算する。特徴量エラー計算部２４０は、学習用に与えられた音声データをニューラルネットワークにより変換して得た中間特徴量の分布と、学習用に与えられた音声データ又は記号列データをニューラルネットワークにより変換して得た中間特徴量の分布との非類似度を表す特徴量エラーを計算する。更新部２５０は、音声認識エラーと音声復元エラーと記号列復元エラーと音声合成エラーと特徴量エラーとから計算される所定の基準に基づき、ニューラルネットワークのパラメータを更新する。

このように、第４の実施形態では、教師ありの学習データを用いて、音声認識エラーだけでなく、音声合成エラーを使った学習を行うことができる。また、第４の実施形態では、教師なし学習データのうち、音声データだけでなく記号列データを使った学習を行うことができる。さらに、第４の実施形態では、教師なしの学習データを用いて、特徴量エラーを使った学習を行うことができる。このため、第４の実施形態によれば、教師ありの学習データと教師なしの学習データの両方を有効に利用した半教師あり学習を行うことができる。

［第４の実施形態の変形例］
上述の実施形態の説明では、教師あり学習用データと教師なし学習用データを最初から併用して学習する例を説明したが、これに限られるものではない。例えば、まず教師あり学習用データのみを用いて所定の第１の基準を満たすまで学習を行った後、教師なし学習用データも併用して所定の第２の基準を満たすまで学習を繰り返してもよい。

例えば、最初の所定数は教師あり学習用データのみを用いて学習を行う。この場合、更新部２５０は、音声認識エラーに基づいてニューラルネットワークのパラメータを繰り返し更新する。そして、最初の所定数を超えたら、教師あり学習用データと教師なし学習用データを併用して、上述のように、音声認識エラー、記号列復元エラー、音声復元エラー及び特徴量エラーに基づいてニューラルネットワークのパラメータを繰り返し更新していく。

これにより、学習済みの音声認識モデルの精度を向上させたり、学習を早期に収束させたりする効果が得られる。

また、第４の実施形態の学習装置２０は、第１の実施形態、第２の実施形態及び第３の実施形において計算可能な各エラーに加え、特徴量エラーを使って音声認識モデルの学習を行うことができる。逆に、第４の実施形態において実行可能なエラーの計算処理を適宜組み合わせて実行することで、第１の実施形態、第２の実施形態及び第３の実施形態を実現することができる。

さらに、第４の実施形態の学習装置２０は、これまでに説明したものと異なるエラーの組み合わせを使って音声認識モデルの学習を行ってもよい。例えば、第４の実施形態の学習装置２０は、音声認識エラー、特徴量エラー及び音声復元エラーの重み付き和を最小化するように学習を行ってもよい。また、計算対象のエラーの組み合わせは、収集した学習用データの性質、求められる音声認識精度、許容される計算量等を考慮して決定されてもよい。

＜補記＞
教師あり学習用データ及び教師なし学習用データを、所定の単位（ミニバッチ）に分割し、ミニバッチ単位で上述の学習を行ってもよい。この場合、学習用データ集合Ｚ，Ｔ，Ｓがそれぞれミニバッチであると置き換えて上述の処理を行い、当該ミニバッチについての学習が完了すると、次のミニバッチについて同様の処理を行うことを繰り返せば良い。

［第５の実施形態］
第５の実施形態の学習装置２０の構成は、第４の実施形態と同じである。ただし、特徴量エラー計算部２４０と、更新部２５０の処理が第４の実施形態と異なる。以下、第４の実施形態と異なる部を、特徴量エラー計算部２４０´、更新部２５０´とし、詳細を説明する。

第４の実施形態の学習装置２０では、特徴量エラー計算部２４０においてＭＭＤに基づき特徴量エラーを計算していた。第５の実施形態の特徴量エラー計算部２４０´は、２クラス識別ニューラルネットワークを用いて特徴量エラーを計算する。

つまり、第５の実施形態の学習装置２０は、第４の実施形態の学習装置２０と同じ変換部２１０を構成するニューラルネットワークに加えて、特徴量エラー計算部２４０´に対応する２クラス識別ニューラルネットワークを別途備える点が異なる。したがって、記憶部２９０に記憶されるニューラルネットワークのパラメータΛは、変換部２１０を構成するニューラルネットワークのパラメータに加えて、特徴量エラー計算部２４０に含まれるニューラルネットワークのパラメータも含む。これらのパラメータの初期値はあらかじめ適当な値を設定しておくものとする。

特徴量エラー計算部２４０´が有する２クラス識別ニューラルネットワークについて説明する。２クラス識別ニューラルネットワークは、入力された中間特徴量が、音声データを変換して得たものであるか、記号列データを変換して得たものであるかを識別した識別結果を出力するニューラルネットワークである。２クラス識別ニューラルネットワークの演算を表す関数をｈ（・）と表記する。

例えば、２クラス識別ニューラルネットワークは、記号列特徴量ｇ（ｙ）を入力として、ｈ（ｇ（ｙ））を識別結果として出力する。あるいは、音声特徴量ｆ（ｘ）を入力として、ｈ（ｆ（ｘ））を識別結果として出力する。

特徴量エラー計算部２４０´は、２クラス識別ニューラルネットワークに中間特徴量を入力することで得た識別結果を用いて、（１０）式により特徴量エラーＬ_ｄｏｍを計算する。

更新部２５０´は、更新部２５０と同様に、音声認識エラーと各復元エラーと特徴量エラーとに基づく所定のエラーに基づいて、変換部２１０を構成するニューラルネットワークの各パラメータを更新する。

また、更新部２５０´は、特徴量エラーＬ_ｄｏｍの正負を反転した−Ｌ_ｄｏｍに基づき、２クラス識別ニューラルネットワークのパラメータを更新する。具体的には、−Ｌ_ｄｏｍの勾配に応じて、ニューラルネットワークｈ（・）の各パラメータの値を更新する。

特徴量エラーＬ_ｄｏｍは、音声特徴量と記号列特徴量との非類似の度合いを表している。つまり、特徴量エラー計算部２４０´によって計算されるエラーを小さくするようにニューラルネットワークのパラメータを学習することは、音声特徴量と記号列特徴量との分布間距離を最小化するよう学習することを意味する。学習が進むに従い、記号列特徴量が音声特徴量と近くなり、結果として中間特徴量が、音声特徴量なのか記号特徴量なのかを識別することが難しくなる。

一方、−Ｌ_ｄｏｍを最小化するよう学習することは、２クラス識別ニューラルネットワークｈが、音声特徴量を、記号列特徴量と誤って識別し、記号列特徴量を音声特徴量と誤って識別することがないように学習しようとすることを意味する。

つまり、２クラス識別ニューラルネットワークｈ（・）の学習と変換部２１０を構成するニューラルネットワークの学習は、敵対的学習の関係にある。

最終的に、敵対的学習では、変換部２１０を構成するニューラルネットワークで得られる中間特徴量が、２クラス識別ニューラルネットワークｈで適切に識別できない（十分騙すことができる）ように学習を行う。これにより、記号列特徴量符号化部２１２から出力される記号列特徴量が、音声特徴量符号化部２１１から出力される音声特徴量と十分近くなる（似る）ように変換可能なニューラルネットワークを学習できる。

［実験結果］
ここで、図１７を用いて、従来技術と実施形態を用いて行った実験について説明する。図１７は、実験結果を示す図である。実験では、第１の実施形態、第４の実施形態のそれぞれの手法で学習した音声認識モデルと、従来の教師あり学習手法を用いて学習した音声認識モデル（非特許文献１を参照）とを用いて連続単語認識処理を行った。また、実験条件は以下の通りである。
＜従来技術と実施形態で共通の条件＞
・教師ありのデータ：１００時間の小規模なデータセット
・音声データ：１フレーム当たり８０次元のＦＢＡＮＫ（入力単位は８０次元×発話時間、学習用データに基づく平均分散モデルの正規化パラメータで正規化済み）
・記号列を特定する情報：アルファベットや数字等の文字単位の記号の系列
・パラメータ更新アルゴリズム：AdaDelta（並列処理する発話のミニバッチ数は３０個）
＜実施形態のみの条件＞
・特徴量エラー：（８）式のＭＭＤ
・教師なしのデータ：８６０時間の大規模なデータセット（音声のみ：３６０時間、記号列のみ５００時間相当）

実験の結果、図１７に示すように、実施形態の方が文字誤り率（ＣＥＲ：Character Error Rate）及び単語誤り率（ＷＥＲ：Word Error Rate）が低くなった。なお、開発ＣＥＲ及び開発ＷＥＲは、開発セット、すなわちモデルの構築に使ったデータの認識結果である。また、評価ＣＥＲ及び評価ＷＥＲは、評価セット、すなわちモデルの構築に使わなかったデータの認識結果である。

図１７より、実施形態の手法によれば、従来技術よりも認識精度の高い音声認識モデルを得ることができるといえる。特に第４の実施形態の手法で学習した音声認識モデルは、他の実施形態と比べても認識精度が高かった。

ここで、実施形態の学習装置との対比のため、従来の教師あり学習法によりend-to-end学習を行う学習装置について説明する。図１８は、従来の学習装置の構成を示す図である。図１８に示すように、従来の学習装置２０ａは、制御部２００ａ及び記憶部２９０ａを有する。また、制御部２００ａは、音声特徴量符号化部２１１ａ、記号列復号化部２１４ａ、音声認識エラー計算部２２２ａ、更新部２５０ａ及び判定部２６０ａを有する。

学習装置２０ａは、あらかじめ対応付けられた記号列を特定する情報及び音声データ（教師あり学習用データ）の入力を受け付ける。ここで、音声特徴量符号化部２１１ａは、音声データを、ニューラルネットワークを用いて所定の特徴量に変換する。また、記号列復号化部２１４ａは、音声特徴量符号化部２１１ａによって変換された特徴量を、ニューラルネットワークを用いて記号列を特定する情報に変換する。なお、各ニューラルネットワークのパラメータは、記憶部２９０ａに格納されているものとする。

また、音声認識エラー計算部２２２ａは、記号列復号化部２１４ａによって変換された記号列を特定する情報と、入力された記号列を特定する情報との間のエラーを計算する。更新部２５０ａは、音声認識エラー計算部２２２ａによって計算されたエラーが小さくなるように、パラメータを更新する。そして、判定部２６０ａは、更新部２５０ａによって更新されたエラーが収束したか否かを判定する。ここで、判定部２６０ａによってパラメータが収束していないと判定された場合、学習装置２０ａは、さらに処理を繰り返す。

［従来の学習装置の処理］
図１９を用いて、従来の学習装置の処理について説明する。図１９は、従来の学習装置の処理の流れを示すフローチャートである。図１９に示すように、まず、学習装置２０ａは、記憶部２９０からパラメータを読み込む（ステップＳ１１ａ）。次に、学習装置２０ａは、教師ありの音声データ及び記号列を特定する情報の入力を受け付ける（ステップＳ１２ａ）。

ここで、学習装置２０ａは、入力された音声データを音声特徴量に変換する（ステップＳ１３ａ）。次に、学習装置２０ａは、音声特徴量を記号列を特定する情報に変換する（ステップＳ１４ａ）。そして、学習装置２０ａは、変換された記号列を特定する情報及び入力された記号列を特定する情報から音声認識エラーを計算する（ステップＳ１５ａ）。

ここで、学習装置２０ａは、音声認識エラーが小さくなるようにパラメータを更新する。そして、学習装置２０ａは、パラメータが収束したか否かを判定する（ステップＳ１７ａ）。学習装置２０ａは、パラメータが収束していないと判定した場合（ステップＳ１７ａ、Ｎｏ）、ステップＳ１１ａに戻り処理を繰り返す。一方、学習装置２０ａは、パラメータが収束したと判定した場合（ステップＳ１７ａ、Ｙｅｓ）、処理を終了する。

［その他の実施形態］
実施形態の学習装置２０の、音声特徴量符号化部２１１及び記号列復号化部２１４のそれぞれに対応するニューラルネットワークは、従来の学習装置２０ａで用いられるものと同様のものであってもよい。このため、例えば、従来の学習装置２０ａを用いた教師あり学習により各ニューラルネットワークのパラメータの初期値を決定しておくことができる。つまり、例えば第４の実施形態の学習装置２０は、学習装置２０ａで学習されたニューラルネットワークｆ（・）、ｄ（・）に、ニューラルネットワークｃ（・）、ｇ（・）を（第５の実施形態の場合はさらにニューラルネットワークｈ（・）も）加えてさらに学習を行うことができる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、学習装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、学習装置２０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理に関するサービスを提供する学習サーバ装置として実装することもできる。例えば、学習サーバ装置は、音声データ及び記号列データを入力とし、パラメータを出力とする学習サービスを提供するサーバ装置として実装される。この場合、学習サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の学習処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図１７は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤにより代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０音声認識装置
１１、２００制御部
１９記憶部
２０学習装置
１１０、２１０変換部
１１１、２１１音声特徴量符号化部
１１２、２１４記号列復号化部
１２０探索部
２１２記号列特徴量符号化部
２１３音声復号化部
２２０教師あり学習エラー計算部
２２１音声合成エラー計算部
２２２音声認識エラー計算部
２３０教師なし学習エラー計算部
２３１音声復元エラー計算部
２３２記号列復元エラー計算部
２４０特徴量エラー計算部
２５０更新部
２６０判定部
２９０記憶部

Claims

ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する音声認識モデルのパラメータを学習する学習装置であって、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の音声データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する音声認識エラー計算部と、
記号列データが対応付けられていない音声データである教師なし音声データを用いて、当該教師なし音声データを前記ニューラルネットワークにより変換して得た音声データの推定結果と、前記教師なし音声データとの非類似度を表す音声復元エラーを計算する音声復元エラー計算部と、
前記音声認識エラーと前記音声復元エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の記号列データを前記ニューラルネットワークにより変換して得た音声データの推定結果と、前記学習用データ中の音声データとの非類似度を表す音声合成エラーを計算する音声合成エラー計算部をさらに有し、
前記更新部は、前記音声認識エラーと前記音声復元エラーと前記音声合成エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新する
ことを特徴とする請求項１に記載の学習装置。
音声データが対応付けられていない記号列データである教師なし記号列データを用いて、当該教師なし記号列データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記教師なし記号列データとの非類似度を表す記号列復元エラーを計算する記号列復元エラー計算部をさらに有し、
前記更新部は、前記音声認識エラーと前記音声復元エラーと前記記号列復元エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新する
ことを特徴とする請求項１に記載の学習装置。
音声データが対応付けられていない記号列データである教師なし記号列データを用いて、当該教師なし記号列データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記教師なし記号列データとの非類似度を表す記号列復元エラーを計算する記号列復元エラー計算部と、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の記号列データを前記ニューラルネットワークにより変換して得た音声データの推定結果と、前記学習用データ中の音声データとの非類似度を表す音声合成エラーを計算する音声合成エラー計算部と、
学習用に与えられた音声データを前記ニューラルネットワークにより変換して得た中間特徴量の分布と、学習用に与えられた音声データ又は記号列データを前記ニューラルネットワークにより変換して得た中間特徴量の分布との非類似度を表す特徴量エラーを計算する特徴量エラー計算部と、
をさらに有し、
前記更新部は、前記音声認識エラーと前記音声復元エラーと前記記号列復元エラーと前記音声合成エラーと前記特徴量エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新する
ことを特徴とする請求項１に記載の学習装置。
前記ニューラルネットワークは、
音声データを音声特徴量に変換する音声特徴量符号化部と、
前記音声特徴量を音声データに変換する音声復号化部と、
前記音声特徴量を記号列を特定する情報に変換する記号列復号化部と、
を有し、
前記音声復元エラー計算部における前記音声データの推定結果は、前記教師なし音声データを前記音声特徴量符号化部により変換して得た音声特徴量を、前記音声復号化部により変換して得たものであり、
前記音声認識エラー計算部における前記記号列を特定する情報の推定結果は、前記学習用データ中の音声データを前記音声特徴量符号化部により変換して得た音声特徴量を、前記記号列復号化部により変換して得たものである
ことを特徴とする請求項１に記載の学習装置。
ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する音声認識モデルのパラメータを学習する学習装置が実行する学習方法であって、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の音声データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する音声認識エラー計算工程と、
記号列データが対応付けられていない音声データである教師なし音声データを用いて、当該教師なし音声データを前記ニューラルネットワークにより変換して得た音声データの推定結果と、前記教師なし音声データとの非類似度を表す音声復元エラーを計算する音声復元エラー計算工程と、
前記音声認識エラーと前記音声復元エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。
コンピュータを、請求項１から５のいずれか１項に記載の学習装置として機能させるための学習プログラム。