JP2019211782A

JP2019211782A - 音声合成学習装置

Info

Publication number: JP2019211782A
Application number: JP2019149850A
Authority: JP
Inventors: 卓弘金子; Takuhiro Kaneko; 弘和亀岡; Hirokazu Kameoka; 薫平松; Kaoru Hiramatsu; 柏野邦夫; Kunio Kashino; 邦夫柏野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-12-12
Anticipated expiration: 2036-08-30
Also published as: JP6722810B2

Abstract

【課題】より自然な音声を合成することができるニューラルネットワークを学習できる。【解決手段】学習部３３０が、音声特徴量系列ｆと、自然性成分ｚとを、予め学習された第１の生成器としてのニューラルネットワークに入力することによって中間音声データｘ’を得る。学習部３３０が、中間音声データｘ’から合成された合成音声データ【数１】を生成する第２の生成器としてのニューラルネットワークが、距離を表す目的関数を最適化するように学習を行う。【選択図】図１０

Description

本発明は、音声合成学習装置に係り、特に、音声を合成するための音声合成学習装置に関する。

音声の声帯音源情報（基本周波数や非周期性指標など）や声道スペクトル情報を表す特徴量は、STRAIGHTやメル一般化ケプストラム分析(Mel-Generalized Cepstral Analysis; MGC)などの音声分析手法により得ることができる。多くのテキスト音声合成システムや音声変換システムでは、このような音声特徴量の系列を入力テキストや変換元音声から予測し、ボコーダ方式に従って音声信号を生成するアプローチがとられる。

既存のボコーダ方式の音声合成では、声帯音源情報や声道スペクトル情報のような音声特徴量系列を、ボコーダを用いて変換することによって音声を生成する。図３５に、ボコーダ方式の音声合成の処理の概念図を示す。なお、ここで述べたボコーダとは、人間の発声のメカニズムに関する知見を元に、音の生成過程をモデル化したものである。例えば、ボコーダの代表的なモデルとして、ソースフィルターモデルがあるが、このモデルでは、音の生成過程を音源（ソース）とデジタルフィルターの二つによって説明している。具体的には、ソースから生じる音声信号（パルス信号で表される）に対してデジタルフィルターを随時適用していくことによって、声が生成されるとしている。このように、ボコーダ方式の音声合成では、発声のメカニズムを抽象的にモデル化して表現しているため、音声をコンパクト（低次元）に表現することができる。一方で、抽象化した結果、音声の自然さが失われて、ボコーダ特有の機械的な音質となることが多い。

Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozairy,Aaron Courville, Yoshua Bengio, "Generative Adversarial Nets," 2014. Emily Denton, Soumith Chintala, Arthur Szlam, Rob Fergus, "Deep Generative Image Modelsusing a Laplacian Pyramid of Adversarial Networks," 2015.

入力テキストや変換元音声から適切な音声特徴量を予測する問題は一種の回帰（機械学習）問題であり、特に限られた数の学習サンプルしか得られない状況ではコンパクト（低次元）な特徴量表現となっている方が統計的な予測において有利である。多くのテキスト音声合成システムや音声変換システムにおいて（波形やスペクトルを直接予測しようとするのではなく）音声特徴量を用いたボコーダ方式が用いられるのはこの利点を活かすためである。一方で、ボコーダ方式によって生成される音声はボコーダ特有の機械的な音質となることが多く、このことが従来のテキスト音声合成システムや音声変換システムにおける音質の潜在的な限界を与えている。

本発明は、上記問題点を解決するために成されたものであり、より自然な音声を合成することができるニューラルネットワークを学習できる音声合成学習装置を提供することを目的とする。

上記目的を達成するために、本発明に係る音声合成学習装置は、任意の音声データ又は音声特徴量系列から音声を合成するニューラルネットワークを学習する音声合成学習装置であって、入力された音声データ又は音声特徴量系列と、学習用の真の音声データとを受け付け、前記音声データ又は音声特徴量系列と前記学習用の真の音声データから中間音声データを生成するように予め学習された第１の生成器としてのニューラルネットワークと、前記中間音声データと前記学習用の真の音声データから合成音声データを生成するように学習される第２の生成器としてのニューラルネットワークとを備え、前記音声データ又は音声特徴量系列を、前記第１の生成器としてのニューラルネットワークへの入力として前記中間音声データを得て、得られた前記中間音声データを、前記第２の生成器としてのニューラルネットワークへの入力として前記合成音声データを生成し、生成した前記合成音声データと、前記学習用の真の音声データとの距離を表す目的関数を最適化するように、又は、前記第２の生成器としてのニューラルネットワークと、生成した前記合成音声データが前記学習用の真の音声データと同一の分布に従うか否かを判別する識別器としてのニューラルネットワークとが互いに競合する最適化条件に従うように、前記第２の生成器としてのニューラルネットワークを学習する学習部、を含み、前記第１の生成器としてのニューラルネットワークは、前記中間音声データと、前記学習用の真の音声データとの距離を表す目的関数の最適化に従って、又は、前記第１の生成器としてのニューラルネットワークと、前記中間音声データが前記学習用の真の音声データと同一の分布に従うか否かを判別する識別器としてのニューラルネットワークとが互いに競合する最適化条件に従って予め学習されている。

本発明の音声合成学習装置によれば、より自然な音声を合成することができるニューラルネットワークを学習できる、という効果が得られる。

本発明の第１の実施の形態の処理の概念図である。本発明の第１の実施の形態に係る音声合成装置の構成を示すブロック図である。本発明の第１の実施の形態の学習処理の概念図である。本発明の第１及び第２の実施の形態に係る音声合成装置における学習処理ルーチンを示すフローチャートである。本発明の第１及び第２の実施の形態に係る音声合成装置における生成処理ルーチンを示すフローチャートである。本発明の第２の実施の形態の処理の概念図である。本発明の第２の実施の形態に係る音声合成装置の構成を示すブロック図である。本発明の第２の実施の形態の学習処理の概念図である。本発明の第３の実施の形態の処理の概念図である。本発明の第３の実施の形態に係る音声合成装置の構成を示すブロック図である。本発明の第３の実施の形態の学習処理の概念図である。本発明の第３及び第４の実施の形態に係る音声合成装置における学習処理ルーチンを示すフローチャートである。本発明の第３及び第４の実施の形態に係る音声合成装置における生成処理ルーチンを示すフローチャートである。本発明の第４の実施の形態の処理の概念図である。本発明の第４の実施の形態に係る音声合成装置の構成を示すブロック図である。本発明の第４の実施の形態の学習処理の概念図である。本発明の第５の実施の形態の概念図である。本発明の第５の実施の形態に係る音声合成装置の構成を示すブロック図である。本発明の第５の実施の形態に係る音声合成装置における学習処理ルーチンを示すフローチャートである。本発明の第５の実施の形態に係る音声合成装置における生成処理ルーチンを示すフローチャートである。実験例における第３の実施の形態の学習方法の実装例を示す図である。実験例における第４の実施の形態の学習方法の実装例を示す図である。実験例における第３の実施の形態の生成方法の実装例を示す図である。実験例における第４の実施の形態の生成方法の実装例を示す図である。実験例における第３の実施の形態のネットワーク構造を示す図である。実験例における第４の実施の形態のネットワーク構造を示す図である。実験例における入出力の元になった音声信号の波形の例を示す図である。 Volume changeの実験結果を示す図である。 Pre-emphasisの実験結果を示す図である。 LPCの実験結果を示す図である。 LPC+pulseの実験結果を示す図である。実験例における第１の実施の形態のネットワーク構造を示す図である。実験例における第２の実施の形態のネットワーク構造を示す図である。実験例における第１及び第２の実施の形態の手法による音声復元の結果を示す図である。ボコーダ方式の音声合成の処理の概念図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の第１の実施の形態に係る概要＞

まず、本発明の第１の実施の形態における概要を説明する。

既存のボコーダ方式の音声合成は、人間の発声メカニズムに関する知見を元に、音の生成過程を抽象的にモデル化したものであり、音声特徴量系列から音声データ（音声信号または音声スペクトル系列、以降同様）を再現することについて直接最適化したものではない。

本発明の第１の実施の形態では、音声特徴量系列と音声データのマッピングについて直接最適化を行うことによって、この問題を解決する。処理の概念図を図１に示す。入力された音声特徴量系列に対して、音声特徴量系列と音声データのマッピングについて最適化されたニューラルネットワークを適用することによって、目的となる音声データを得ることができる。なお、この際、音声データとして音声信号を用いた場合は、そのまま目的音声信号が得られる。一方、音声データとして音声スペクトル系列を用いた場合は、出力も音声スペクトル系列になる。その場合は、位相復元をすることによって、目的音声信号が得られる。位相復元の手法としては、例えば、Griffin Limなどがある。

＜本発明の第１の実施の形態に係る音声合成装置の構成＞

次に、本発明の第１の実施の形態に係る音声合成装置の構成について説明する。図２に示すように、本発明の第１の実施の形態に係る音声合成装置１００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチン及び生成処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この音声合成装置１００は、機能的には図２に示すように入力部１０と、演算部２０と、出力部９０とを備えている。

入力部１０は、学習データとして、人間の音声データｘを受け付ける。また、入力部１０は、合成音声データの生成対象となる任意の音声特徴量系列ｆを受け付ける。

演算部２０は、学習部３０と、ニューラルネットワーク記憶部４０と、生成部５０とを含んで構成されている。

学習部３０は、以下に説明するように、音声データｘを音声分析して得た、ボコーダに用いられる音声特徴量系列ｆと、学習用の真の音声データｘとを入力とし、音声特徴量系列ｆから、合成された合成音声データ

を生成する生成器としてのニューラルネットワークを備え、生成器としてのニューラルネットワークが、合成音声データ

と、学習用の真の音声データｘとの距離を表す目的関数を最適化するように学習を行う。

学習部３０は、まず、入力部１０で受け付けた音声データｘに対して、音声分析をすることによって、音声特徴量系列ｆを得る。ここで得た音声特徴量系列ｆに対して、元となる真の音声データｘが生成されるようにニューラルネットワークを学習する。具体的には、音声特徴量系列ｆをニューラルネットワークに入力すると、合成音声データ

が出力されるが、真の音声データｘと出力される合成音声データ

とを、ある距離指標に対して距離が最小化するように、ニューラルネットワークの重みを最適化すればよい。なお、ここで述べた距離指標とは、例えば最小二乗誤差などである。距離指標として最小二乗誤差の場合、目的関数Ｌ_２は以下の（１）式で表される。

・・・（１）

図３に第１の実施の形態の学習処理の概念図を示す。

上記（１）式の目的関数を最適化するように学習された生成器としてのニューラルネットワークはニューラルネットワーク記憶部４０に記憶される。

生成部５０は、入力部１０で受け付けた任意の音声特徴量系列ｆを、ニューラルネットワーク記憶部４０に記憶されているニューラルネットワークに入力し、ニューラルネットワークから出力される、合成された合成音声データ

を、出力部９０に出力する。

＜本発明の第１の実施の形態に係る音声合成装置の作用＞

次に、本発明の第１の実施の形態に係る音声合成装置１００の作用について説明する。音声合成装置１００は、以下に説明する学習処理ルーチンと生成処理ルーチンを実行する。

まず、学習処理ルーチンについて説明する。入力部１０において学習データとして、人間の音声データｘを受け付けると、音声合成装置１００は、図４に示す学習処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０で受け付けた音声データｘを音声分析し、音声特徴量系列ｆを得る。

次に、ステップＳ１０２では、ステップＳ１００で得た音声特徴量系列ｆと、入力部１０で受け付けた音声データｘとを入力とし、上記（１）式に従って、音声特徴量系列ｆから合成された合成音声データ

を生成する生成器としてのニューラルネットワークが、合成音声データ

と、音声データｘとの距離を表す目的関数を最適化するように学習を行い、学習されたニューラルネットワークを、ニューラルネットワーク記憶部４０に記憶して処理を終了する。

次に、生成処理ルーチンについて説明する。入力部１０において合成音声データの生成対象となる任意の音声特徴量系列ｆを受け付けると、音声合成装置１００は、図５に示す生成処理ルーチンを実行する。

ステップＳ２００では、入力部１０で受け付けた任意の音声特徴量系列ｆを、ニューラルネットワーク記憶部４０に記憶されているニューラルネットワークに入力し、ニューラルネットワークから出力される、合成された合成音声データ

を、出力部９０に出力して処理を終了する。

以上説明したように、本発明の第１の実施の形態に係る音声合成装置によれば、音声特徴量系列ｆと、学習用の真の音声データｘとを入力として、上記（１）式に従って、音声特徴量系列ｆから合成された合成音声データ

を生成する生成器としてのニューラルネットワークが、合成音声データ

と、学習用の真の音声データｘとの距離を表す目的関数を最適化するように学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。

また、学習したニューラルネットワークを用いて音声を合成することにより、音声特徴量系列から、より自然な音声を合成することができる。

＜本発明の第２の実施の形態に係る概要＞

次に、本発明の第２の実施の形態における概要を説明する。

第１の実施の形態は、声を音声特徴量系列のみから再現するものであったが、第２の実施の形態では、ニューラルネットワークの入力として、新たに自然性成分を加えることによって、音声の自然さを表現する。処理の概念図を図６に示す。なお、ここで述べた音声特徴量系列は、音声分析によって得られたものであるが、自然性成分は、それとは独立に与えるもの（例えば、乱数）である。

＜本発明の第２の実施の形態に係る音声合成装置の構成＞

次に、本発明の第２の実施の形態に係る音声合成装置の構成について説明する。なお、第１の実施の形態と同様となる箇所については同一符号を付して説明を省略する。

図７に示すように、本発明の第２の実施の形態に係る音声合成装置２００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチン及び生成処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この音声合成装置２００は、機能的には図７に示すように入力部１０と、演算部２２０と、出力部９０とを備えている。

演算部２２０は、学習部２３０と、ニューラルネットワーク記憶部４０と、生成部２５０とを含んで構成されている。

学習部２３０は、以下に説明するように、音声データｘを音声分析して得た、ボコーダに用いられる音声特徴量系列ｆと、予め与えられた自然性成分ｚと、学習用の真の音声データｘとを入力とし、音声特徴量系列ｆから、合成された合成音声データ

（合成音声信号又は合成音声スペクトル系列）を生成する生成器としてのニューラルネットワークと、合成音声データ

が、真の音声データと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとを備え、生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行う。

学習部２３０は、まず、入力部１０で受け付けた音声データｘに対して、音声特徴量系列ｆを得る。ここで得た音声特徴量系列ｆと、自然性成分ｚと、学習用の真の音声データｘとに基づいて、元となる真の音声データｘが生成されるように生成器としてのニューラルネットワークを学習する。なお、ここで音声特徴量系列ｆについては、一部を変形したものを用いても良い。具体的には、音声特徴量系列の代表的なものの一つとして、基本周波数があるが、これをランダムに定数倍したものを用いても良い。また、自然性成分ｚは、ある分布（例えば、一様分布）に従って生成した乱数である。

また、真の音声データｘと、生成器としてのニューラルネットワークにより生成される合成音声データ

とに基づいて、合成音声データが真の音声データであるか否かを識別する識別器としてのニューラルネットワークを学習する。この識別器としてのニューラルネットワークは、入力された合成音声データが真のものであるか合成されたものであるかの識別を行い、その結果を出力するものである。

本実施の形態では、生成器としてのニューラルネットワーク、及び識別器としてのニューラルネットワークの評価関数を以下（２）式に従って最適化する。（２）式で、Ｇは生成器（Generator）を表し、Ｄは識別器（Discriminator）を表す。（２）式では、識別器は、真の音声と合成音声をなるべく識別できるように、評価関数を最大化し、一方で、生成器は、合成音声をなるべく識別器が真の音声と識別するように、評価関数を最小化する。識別器と生成器が競争をしながら最適化が進む。

・・・（２）

図８に第２の実施の形態の学習処理の概念図を示す。

上記（２）式の評価関数を最適化するように学習された、生成器としてのニューラルネットワーク及び識別器としてのニューラルネットワークはニューラルネットワーク記憶部４０に記憶される。

なお、以下（３）式のように、音声特徴量系列ｆも考慮した識別器（Discriminator）を用いた評価関数を最適化するように、生成器としてのニューラルネットワーク及び識別器としてのニューラルネットワークを学習しても良い。

・・・（３）

また、ニューラルネットワークを学習するときに、第１の実施の形態の手法を用いて、生成器としてのニューラルネットワークをPre-trainingしてもよい。

生成部２５０は、入力部１０で受け付けた任意の音声特徴量系列ｆと、予め与えられた自然性成分ｚとを、ニューラルネットワーク記憶部４０に記憶されているニューラルネットワークに入力し、ニューラルネットワークから出力される、合成された合成音声データ

を、出力部９０に出力する。

＜本発明の第２の実施の形態に係る音声合成装置の作用＞

次に、本発明の第２の実施の形態に係る音声合成装置２００の作用について説明する。音声合成装置２００は、以下に説明する学習処理ルーチンと生成処理ルーチンを実行する。

まず、学習処理ルーチンについて説明する。入力部１０において学習データとして、人間の音声データｘを受け付けると、音声合成装置２００は、上記図４に示す学習処理ルーチンを実行する。

第２の実施の形態の学習処理ルーチンでは、ステップＳ１０２において、ステップＳ１００で得られた音声特徴量系列ｆと、予め与えられた自然性成分ｚと、入力部１０により受け付けた音声データｘとを入力とし、上記（２）式に従って、生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行い、学習されたニューラルネットワークを、ニューラルネットワーク記憶部４０に記憶して処理を終了する。

第２の実施の形態の生成処理ルーチンでは、上記図５に示すように、ステップＳ２００において、入力部１０で受け付けた任意の音声特徴量系列ｆと、予め与えられた自然性成分ｚとを、ニューラルネットワーク記憶部４０に記憶されているニューラルネットワークに入力し、ニューラルネットワークから出力される、合成された合成音声データ

を、出力部９０に出力して処理を終了する。

以上説明したように、本発明の第２の実施の形態に係る音声合成装置によれば、音声特徴量系列ｆと、自然性成分ｚと、学習用の真の音声データｘとを入力とし、上記（２）式に従って、音声特徴量系列ｆから合成された合成音声データ

を生成する生成器としてのニューラルネットワークと、合成音声データ

が、真の音声データｘと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。

また、学習した生成器としてのニューラルネットワークを用いて音声を合成することにより、より自然な音声を合成することができる。

＜本発明の第３の実施の形態に係る概要＞

次に、本発明の第３の実施の形態における概要を説明する。

第１及び第２の実施の形態は、音声特徴量系列と高音質音声の間のマッピングを行うものであり、既存のボコーダの代わりになる技術である。一方、第３の実施の形態は、音声特徴量系列から一度合成した音声と高品質音声の間のマッピングを行う方法である。ここで、音声特徴量系列から一度音声を合成するためには、既存のボコーダ、あるいは、第１及び第２の実施の形態を用いれば良い。処理の概念図を図９に示す。

音声特徴量系列が与えられると、まずボコーダ、あるいは、第１又は第２の実施の形態の手法で学習した生成器としてのニューラルネットワークを用いることによって中間音声信号を得る。この中間音声信号を、ニューラルネットワークに入力し、変換することによって、目的となる音声データを得る。

＜本発明の第３の実施の形態に係る音声合成装置の構成＞

次に、本発明の第３の実施の形態に係る音声合成装置の構成について説明する。なお、第２の実施の形態と同様となる箇所については同一符号を付して説明を省略する。

図１０に示すように、本発明の第３の実施の形態に係る音声合成装置３００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチン及び生成処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この音声合成装置３００は、機能的には図１０に示すように入力部１０と、演算部３２０と、出力部９０とを備えている。

演算部３２０は、学習部３３０と、ニューラルネットワーク記憶部４０と、中間音声変換部３３２と、生成部３５０とを含んで構成されている。

学習部３３０は、以下に説明するように、音声データｘを音声分析して得た音声特徴量系列から音声を合成して得た、中間音声データｘ’（中間音声信号又は中間音声スペクトル系列）と、自然性成分ｚと、学習用の真の音声データｘとを入力とし、中間音声データｘ’から、合成された合成音声データ

を生成する生成器としてのニューラルネットワークを備え、生成器としてのニューラルネットワークが、合成音声データ

と、学習用の真の音声データｘとの距離を表す目的関数を最適化するように学習を行う。

学習部３３０は、まず、入力部１０で受け付けた音声データｘに対して、音声特徴量系列ｆを得る。ここで得た音声特徴量系列ｆと、自然性成分ｚとを、上記第２の実施の形態と同様に学習された生成器としてのニューラルネットワークに入力することによって中間音声データｘ’を得る。そして、中間音声データｘ’に対して、元となる真の音声データｘが生成されるように生成器としてのニューラルネットワークを学習する。具体的には、中間音声データｘ’をニューラルネットワークに入力すると、音声データ

が出力されるが、真の音声データｘと出力される合成音声データ

とを、ある距離指標に対して距離が最小化するように、ニューラルネットワークの重みを最適化すればよい。なお、ここで述べた距離指標とは、例えば最小二乗誤差などである。距離指標として最小二乗誤差の場合、目的関数Ｌ_２は以下の（１）式で表される。

・・・（４）

図１１に第３の実施の形態の学習処理の概念図を示す。

上記（４）式の目的関数を最適化するように学習された生成器としてのニューラルネットワークはニューラルネットワーク記憶部４０に記憶される。

中間音声変換部３３２は、入力部１０で受け付けた任意の音声特徴量系列ｆを、第２の実施の形態のニューラルネットワーク（図示省略）に入力することによって中間音声データｘ’（中間音声信号又は中間音声スペクトル系列）を得る。

生成部３５０は、中間音声変換部３３２によって得られた中間音声データｘ’を、ニューラルネットワーク記憶部４０に記憶されているニューラルネットワークに入力し、合成された合成音声データ

を出力部９０に出力する。

＜本発明の第３の実施の形態に係る音声合成装置の作用＞

次に、本発明の第３の実施の形態に係る音声合成装置３００の作用について説明する。音声合成装置３００は、以下に説明する学習処理ルーチンと生成処理ルーチンを実行する。

まず、学習処理ルーチンについて説明する。入力部１０において学習データとして、人間の音声データｘを受け付けると、音声合成装置３００は、図１２に示す学習処理ルーチンを実行する。

まず、ステップＳ３００では、入力部１０で受け付けた音声データｘを音声分析し、音声特徴量系列ｆを得る。

次に、ステップＳ３０２では、ステップＳ３００で得た音声特徴量系列ｆと、自然性成分ｚと、入力部１０で受け付けた音声データｘとを入力とし、第２の実施の形態と同様に学習された生成器としてのニューラルネットワークに入力することによって中間音声データｘ’（中間音声信号又は中間音声スペクトル系列）を得る。

ステップＳ３０４では、ステップＳ３０２で得た、中間音声データｘ’と、入力部１０で受け付けた音声データｘとを入力とし、上記（４）式に従って、中間音声データｘ’から合成された合成音声データ

を生成する生成器としてのニューラルネットワークが、目的関数を最適化するように学習を行い、学習されたニューラルネットワークを、ニューラルネットワーク記憶部４０に記憶して処理を終了する。

次に、生成処理ルーチンについて説明する。入力部１０において合成音声データの生成対象となる任意の音声特徴量系列ｆを受け付けると、音声合成装置３００は、図１３に示す生成処理ルーチンを実行する。

ステップＳ４００では、入力部１０で受け付けた任意の音声特徴量系列ｆを、第２の実施の形態と同様に学習された生成器としてのニューラルネットワーク（図示省略）に入力することによって中間音声データｘ’を得る。

ステップＳ４０２では、ステップＳ４００で得た中間音声データｘ’を、ニューラルネットワーク記憶部４０に記憶されているニューラルネットワークに入力し、合成された合成音声データ

を出力部９０に出力して処理を終了する。

以上説明したように、本発明の第３の実施の形態に係る音声合成装置によれば、音声特徴量系列から音声を合成して得た、中間音声データｘ’と、学習用の真の音声データとを入力とし、上記（４）式に従って、中間音声データｘ’から合成された合成音声データ

を生成する生成器としてのニューラルネットワークが、目的関数を最適化するように学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。

また、学習したニューラルネットワークを用いて音声を合成することにより、より自然な音声を合成することができる。

なお、中間音声データに変換するために、第２の実施の形態と同様に学習されたニューラルネットワークを用いる場合を例に説明したが、これに限定されるものではなく、ボコーダ、あるいは、第１の実施の形態と同様に学習されたニューラルネットワークを用いて、音声特徴量系列を、中間音声データに変換するようにしてもよい。

また、中間音声データに変換するために、第１又は第２の実施の形態と同様に学習されたニューラルネットワークを用いた場合には、本実施の形態における学習処理を行った後、学習されたニューラルネットワークをPre-trainingとみなして、全体のニューラルネットワークを改めて最適化するようにしてもよい。

＜本発明の第４の実施の形態に係る概要＞

次に、本発明の第４の実施の形態における概要を説明する。

第３の実施の形態は、中間音声データから自然な音声へ直接変換するものであったが、第４実施の形態は、中間音声データに自然性成分を加えて本物らしい音声に変換するものである。処理の概念図を図１４に示す。なお、ここで述べた自然性成分は、合成音声とは独立に与えるもの（例えば、乱数）である。

＜本発明の第４の実施の形態に係る音声合成装置の構成＞

次に、本発明の第４の実施の形態に係る音声合成装置の構成について説明する。なお、第３の実施の形態と同様となる箇所については同一符号を付して説明を省略する。

図１５に示すように、本発明の第４の実施の形態に係る音声合成装置４００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチン及び生成処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この音声合成装置４００は、機能的には図１５に示すように入力部１０と、演算部４２０と、出力部９０とを備えている。

演算部４２０は、学習部４３０と、ニューラルネットワーク記憶部４０と、中間音声変換部３３２と、生成部４５０とを含んで構成されている。

学習部４３０は、以下に説明するように、音声データｘを音声分析して得た音声特徴量系列から音声を合成して得た、中間音声データｘ’（中間音声信号又は中間音声スペクトル系列）と、中間音声データｘ’に対応する自然性成分ｚ_２と、学習用の真の音声データｘとを入力とし、中間音声データｘ’から、合成された合成音声データを生成する生成器としてのニューラルネットワークと、合成音声データ

が、真の音声データｘと同一の分布に従うか否かを識別する識別器とを備え、生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行う。

学習部４３０は、まず、入力部１０で受け付けた音声データｘに対して、音声特徴量系列ｆを得る。ここで得た音声特徴量系列ｆと、音声特徴量系列ｆに対応する自然性成分ｚ_１とを、上記第２の実施の形態と同様に学習された生成器としてのニューラルネットワークに入力することによって中間音声データｘ’を得る。ここで得た中間音声データｘ’と、自然性成分ｚ_２と、学習用の真の音声データｘとに基づいて、元となる真の音声データｘが生成されるように生成器としてのニューラルネットワークを学習する。なお、ここで音声特徴量系列ｆについては、一部を変形したものを用いても良い。具体的には、音声特徴量系列の代表的なものの一つとして、基本周波数があるが、これをランダムに定数倍したものを用いても良い。また、自然性成分ｚ_１及び自然性成分ｚ_２は、ある分布（例えば、一様分布）に従って生成した乱数である。

また、真の音声データｘと、生成器としてのニューラルネットワークにより生成される合成音声データ

とに基づいて、真の音声データｘと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークを学習する。この識別器としてのニューラルネットワークは、入力された音声データが真のものであるか合成されたものであるかの識別を行い、その結果を出力するものである。

本実施の形態では、生成器としてのニューラルネットワーク、及び識別器としてのニューラルネットワークの評価関数を、以下（５）式に従って最適化する。（５）式で、Ｇは生成器（Generator）を表し、Ｄは識別器（Discriminator）を表す。（５）式では、識別器は、真の音声と合成音声をなるべく識別できるように、評価関数を最大化し、一方で、生成器は、合成音声をなるべく識別器が真の音声と識別するように、評価関数を最小化する。識別器と生成器が競争をしながら最適化が進む。

・・・（５）

図１６に第４の実施の形態の学習処理の概念図を示す。

上記（５）式の評価関数を最適化するように学習された、生成器としてのニューラルネットワーク及び識別器としてのニューラルネットワークはニューラルネットワーク記憶部４０に記憶される。

なお、以下（６）式のように、中間音声データｘ’も考慮した識別器（Discriminator）を用いた評価関数を最適化するように、生成器としてのニューラルネットワーク及び識別器としてのニューラルネットワークを学習しても良い。

・・・（６）

また、ニューラルネットワークを学習するときに、第３の実施の形態の手法を用いて、生成器としてのニューラルネットワークをPre-trainingしてもよい。

生成部４５０は、中間音声変換部３３２によって得られた中間音声データｘ’と、予め与えられた自然性成分ｚ_２とを、ニューラルネットワーク記憶部４０に記憶されているニューラルネットワークに入力し、合成された合成音声データ

を出力部９０に出力する。

＜本発明の第４の実施の形態に係る音声合成装置の作用＞

次に、本発明の第４の実施の形態に係る音声合成装置４００の作用について説明する。音声合成装置４００は、以下に説明する学習処理ルーチンと生成処理ルーチンを実行する。

まず、学習処理ルーチンについて説明する。入力部１０において学習データとして、人間の音声データｘを受け付けると、音声合成装置４００は、上記図１２に示す学習処理ルーチンを実行する。

第４の実施の形態の学習処理ルーチンでは、ステップＳ３０４において、ステップＳ３０２で得られた中間音声データｘ’と、自然性成分ｚ_２と、入力部１０により受け付けた音声データｘとを入力とし、上記（５）式に従って、生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行い、学習されたニューラルネットワークを、ニューラルネットワーク記憶部４０に記憶して処理を終了する。

第４の実施の形態の生成処理ルーチンでは、上記図１３に示すように、ステップＳ４０２において、ステップＳ４００で得た中間音声データｘ’と、自然性成分ｚ_２とを、ニューラルネットワーク記憶部４０に記憶されているニューラルネットワークに入力し、合成された合成音声データ

を出力部９０に出力して処理を終了する。

第４の実施の形態の生成処理ルーチンは、第３の実施の形態と同様であるため説明を省略する。

以上説明したように、本発明の第４の実施の形態に係る音声合成装置によれば、音声特徴量系列から音声を合成して得た、中間音声データｘ’と、自然性成分ｚ_２と、学習用の真の音声データｘとを入力とし、上記（５）式に従って、中間音声データｘ’から、合成された合成音声データ

を生成する生成器としてのニューラルネットワークと、合成音声データ

が、真の音声データｘと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。

＜本発明の第５の実施の形態に係る概要＞

次に、本発明の第５の実施の形態における概要を説明する。

第１〜第４の実施の形態で用いる音声特徴量系列としては、例えば、既存の音声分析によって得られるものを使うこともできるが、ニューラルネットワークによって得られた音声特徴量系列を入力として用いることもできる。なぜなら、第１〜第４の実施の形態は、データドリブンに音声特徴量系列と音声信号のマッピングを学習するものであるからである。

＜本発明の第５の実施の形態に係る音声合成装置の構成＞

次に、本発明の第５の実施の形態に係る音声合成装置の構成について説明する。なお、第２の実施の形態と同様の構成となる箇所については同一符号を付して説明を省略する。

図１８に示すように、本発明の第５の実施の形態に係る音声合成装置５００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチン及び生成処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この音声合成装置５００は、機能的には図１８に示すように入力部５１０と、演算部５２０と、出力部９０とを備えている。

入力部５１０は、学習データとして、人間の音声データｘを受け付ける。また、入力部５１０は、合成音声データの生成対象となる任意の音声データを受け付ける。

演算部５２０は、音声特徴量生成部５２８と、学習部５３０と、ニューラルネットワーク記憶部４０と、音声特徴量変換部５３２と、生成部２５０とを含んで構成されている。

音声特徴量生成部５２８は、入力部５１０で受け付けた音声データｘを、予め学習されたニューラルネットワークであるAuto Encoderに入力し、Auto Encoderから出力された音声特徴量系列ｆを学習部５３０に出力する。ここで用いるニューラルネットワークは、予め学習したVariational Auto Encoderであってもよい。

学習部５３０は、音声特徴量生成部５２８から出力された音声特徴量系列ｆと、自然性成分ｚと、学習用の真の音声データｘとを入力とし、音声特徴量系列ｆから、合成された合成音声データを生成する生成器としてのニューラルネットワークと、合成音声データ

が、真の音声データｘと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとを備え、第２の実施の形態と同様の処理によって生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行うようにすればよい。

図１５に第５の実施の形態の学習処理の概念図を示す。

音声特徴量生成部５３２は、入力部５１０で受け付けた合成音声データの生成対象となる任意の音声データを、音声特徴量生成部５２８と同様に、予め学習されたニューラルネットワークであるAuto Encoderに入力し、Auto Encoderから出力された音声特徴量系列ｆを生成部２５０に出力する。

なお、第５の実施の形態の他の構成は、第２の実施の形態と同様となるため説明を省略する。

また、第５の実施の形態において、学習部５３０は、第２の実施の形態と同様の処理を行う場合について説明したが、これに限定されるものではない。例えば、学習部５３０は、音声特徴量生成部５２８から出力された音声特徴量系列ｆと、学習用の真の音声データｘとを入力とし、第１の実施の形態と同様の処理によって、生成器としてのニューラルネットワークを学習するようにしてもよい。また、音声特徴量生成部５２８から出力された音声特徴量系列ｆから、第３の実施の形態と同様の処理によって中間音声データｘ’を得て、得られた中間音声データｘ’と、学習用の真の音声データｘとを入力とし、生成器としてのニューラルネットワークを学習するようにしてもよい。また、音声特徴量生成部５２８から出力された音声特徴量系列ｆと、自然性成分ｚ_１とから、第４の実施の形態と同様の処理によって中間音声データｘ’を得て、得られた中間音声データｘ’と、自然性成分ｚ_２と、学習用の真の音声データｘとを入力とし、生成器としてのニューラルネットワーク、又は、生成器及び識別器としてのニューラルネットワークを学習するようにしてもよい。

＜本発明の第５の実施の形態に係る音声合成装置の作用＞

次に、本発明の第５の実施の形態に係る音声合成装置５００の作用について説明する。音声合成装置５００は、以下に説明する学習処理ルーチンと生成処理ルーチンを実行する。なお、第２の実施の形態と同様となる箇所については同一符号を付して説明を省略する。

まず、学習処理ルーチンについて説明する。入力部５１０において学習データとして、人間の音声データｘを受け付けると、音声合成装置５００は、図１９に示す学習処理ルーチンを実行する。

ステップＳ５００では、入力部５１０で受け付けた音声データｘを、予め学習されたニューラルネットワークであるAuto Encoderに入力し、Auto Encoderから出力された音声特徴量系列ｆを学習部５３０に出力する。

ステップＳ１０２では、ステップＳ５００で得られた音声特徴量系列ｆと、予め与えられた自然性成分ｚと、入力部５１０により受け付けた音声データｘとを入力とし、上記（２）式に従って、生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行い、学習されたニューラルネットワークを、ニューラルネットワーク記憶部４０に記憶して処理を終了する。

次に、生成処理ルーチンについて説明する。入力部５１０において合成音声データの生成対象となる音声データを受け付けると、音声合成装置５００は、図２０に示す生成処理ルーチンを実行する。

ステップＳ５００では、入力部５１０で受け付けた音声データを、予め学習されたニューラルネットワークであるAuto Encoderに入力し、Auto Encoderから出力された音声特徴量系列ｆを生成部２５０に出力する。

なお、第５の実施の形態の他の作用は、第２の実施の形態と同様であるため説明を省略する。

以上説明したように、本発明の第５の実施の形態に係る音声合成装置によれば、音声データｘを、予め学習されたニューラルネットワークであるAuto Encoderに入力し、Auto Encoderから出力された音声特徴量系列ｆを出力し、出力された音声特徴量系列ｆと、自然性成分ｚと、学習用の真の音声データｘとを入力とし、上記（２）式に従って、音声特徴量系列ｆから合成された合成音声データ

を生成する生成器としてのニューラルネットワークと、合成音声データ

が、真の音声データｘと同一の分布に従うか否かを識別する識別器とが、互いに競合する最適化条件に従って学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。

＜実験結果１＞

第３及び第４の実施の形態の有効性を示すために、一実現方法を用いて、実験を行った。

実験データ実験用のデータとして、ATR Speech Dataのうち話者1人の115会話文を用いた。このデータのうち90%のデータをモデルの学習用に用い、残りの10%のデータをテスト用に用いた。なお、音声信号のサンプリング周波数は16,000Hzである。

第３及び第４の実施の形態では、生成器の入力としては、Vocoderまたは、それと同等の入出力を持ったニューラルネットワークによって生成した音声信号または音声スペクトル系列を用いている。本実験では、これらのうちVocoderを用いて音声信号の生成を行い、それに対して、以下で述べる前処理を行うことによって得た音声スペクトル系列ｘ’を入力とした。具体的な分析合成の手法としてはLPC分析合成を用いた。この分析合成によって生成した音を元の音声信号のような本物の声に変換することが、ニューラルネットワークで構成される生成器の目指す役割である。

前述した前処理とは、以下のような処理である。まず一つ一つの音声信号に対して短時間フーリエ変換（STFT）を適用し、複素スペクトル系列に変換した。この際、フーリエ変換の窓幅は512、シフト幅は128とした。また、窓関数としては、ブラックマン窓を用いた。次に複素スペクトル系列の絶対値をとり、振幅スペクトル系列に変換した。さらに、この振幅スペクトルに対して、底が10の対数スペクトルをとり、20倍することで、振幅の対数スペクトルに変換した。最後に、この処理によって得られたスペクトル系列に対して、ある一定フレーム分を切り出し、それを生成器の入力として用いた。実験では、フレームの切り出す長さとしては21とした。

また、生成器の出力としては、入力と同じ振幅の対数スペクトルが得られるため、それを音声信号に戻すために以下の処理を行った。まず、最初に振幅の対数スペクトルに対して、20で割って、そこで得られた値を乗数として10の冪乗を求めることで、振幅スペクトルに変換した。それに対して、Griffin Limを用いて位相復元を行い、音声信号に変換した。

図２１に第３の実施の形態の学習方法の実装例を示し、図２２に第４の実施の形態の学習方法の実装例を示す。

図２３に第３の実施の形態の生成方法の実装例を示し、図２４に第４の実施の形態の生成方法の実装例を示す。

ネットワーク構造としては、第３及び第４の実施の形態の生成器・識別器ともに隠れ層は３層、それぞれの層のユニット数は500、結合の仕方は、Fully Connectedのものを用いた。図２５、図２６のそれぞれに、第３及び第４の実施の形態の具体的なネットワーク構造を示す。

本手法の目的は、分析合成音を本物の声に近い音に変換することであるが、提案したフレームワークの有効性を示すために、合成音として以下の4つを想定した。

1.Volume change:n元の音を半分にした音
2.Pre-emphasis:元の音の高音強調を行った音
3.LPC:LPC分析合成音
4.LPC+pulse:LPC分析で得たLPCと一定間隔をおいて（128サンプルごと）発生したpulse信号を合成して生成した音

図２７に入出力の元になった音声信号の波形の例を示す。

図２８にVolume changeの実験結果を示す。音声信号の波形データの振幅の大きさに着目すると、合成音は元の音の半分になっているが、第３及び第４の実施の形態の手法を用いると、いずれの場合も元の音と同等の振幅を再現できていることが分かる。

図２９にPre-emphasisの実験結果を示す。音声スペクトル系列に着目すると、合成音は元の音と比べて、低周波数領域の値が小さくなっているが、第３及び第４の実施の形態の手法を用いると、元の音と同等の大きさ位に戻っていることがわかる。また、音声信号の波形データの振幅に着目すると、合成音は元の音と比べて全体的に小さくなっているが、第３及び第４の実施の形態の手法を用いると、いずれの場合も元の音と同等の振幅を再現できていることが分かる。

図３０にLPCの実験結果を示す。音声スペクトル系列に着目すると、合成音は元の音と比べて、最低周波数領域(0)に値があり、また、高周波数領域にも値が広がっているという特徴があるが、第３及び第４の実施の形態の手法を用いると、元の音と同等の形状に戻っていることが分かる。また、音声信号の波形データの振幅に着目すると、合成音は元の音と比べて全体的に大きくなっているが、第３及び第４の実施の形態の手法を用いると、いずれの場合も元の音と同等の振幅を再現できていることが分かる。

図３１にLPC+pulseの実験結果を示す。音声スペクトル系列に着目すると、合成音は元の音と比べて、等間隔の縞乗になっているという特徴があるが、第３及び第４の実施の形態の手法を用いると、いずれの場合もと合成音と比較して元の音に近い形状に戻っていることが分かる。

＜実験結果２＞
次に第１及び第２の実施の形態の実験結果を示す。

実験データまずデータセットとしては、前述した第３及び第４の実施の形態に関する実験と同じものを用いた。第１及び第２の実施の形態では、入力としては音声特徴量系列を用いるが、本実験では、LPC分析によって得た音声特徴量を用いた。具体的には、ピッチとLPCを用いた。ピッチは1フレームあたり1次元の特徴量であり、LPCはLPC分析時の次数を25としたため、26次元の特徴量である。そのため、両者を合わせると1次元あたり27次元の特徴量になる。出力としては、振幅の対数スペクトルを用いた。また、本実験では実際に処理を行うデータのフレームの長さは1とした。最終的には、音声信号を得ることが目的であり、そのためには出力として得られた振幅の対数スペクトルから音声信号を復元することが必要である。その方法としては、先の第３及び第４の実施の形態に関する実験の項で述べた方法と同様の方法を用いた。

図３２、図３３に第１及び第２の実施の形態のネットワーク構造の実装例を示す。ネットワーク構造としては、第１及び第２の実施の形態ともに隠れ層3層、それぞれの層のユニット数は500、層の結合の仕方はFully Connectedとした。

図３４に、第１及び第２の実施の形態の手法による音声復元の結果を示す。これからは、入力に用いている音声特徴量は27次元であるが、それに対して、第１及び第２の実施の形態のネットワークを用いることによって、元の音と似た特徴の持つ調和構造（スペクトルの縞模様）が再現できていることが分かる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、ニューラルネットワークの学習を行う学習部と、音声の合成を行う生成部とを含む音声合成装置として構成していたが、これに限定されるものではなく、学習部を含む音声合成学習装置と、生成部を含む音声合成装置のそれぞれに分けて構成してもよい。

また、上述した実施の形態におけるニューラルネットワークには、ＣＮＮやＲＮＮなども用いることができる。

１０、５１０入力部
２０、２２０、３２０、４２０、５２０演算部
３０、２３０、３３０、４３０、５３０学習部
４０ニューラルネットワーク記憶部
５０、２５０、３５０、４５０生成部
９０出力部
１００、２００、３００、４００、５００音声合成装置
３３２中間音声変換部
５２８、５３２音声特徴量生成部

Claims

任意の音声データ又は音声特徴量系列から音声を合成するニューラルネットワークを学習する音声合成学習装置であって、
入力された音声データ又は音声特徴量系列と、学習用の真の音声データとを受け付け、
前記音声データ又は音声特徴量系列と前記学習用の真の音声データから中間音声データを生成するように予め学習された第１の生成器としてのニューラルネットワークと、
前記中間音声データと前記学習用の真の音声データから合成音声データを生成するように学習される第２の生成器としてのニューラルネットワークとを備え、
前記音声データ又は音声特徴量系列を、前記第１の生成器としてのニューラルネットワークへの入力として前記中間音声データを得て、
得られた前記中間音声データを、前記第２の生成器としてのニューラルネットワークへの入力として前記合成音声データを生成し、
生成した前記合成音声データと、前記学習用の真の音声データとの距離を表す目的関数を最適化するように、又は、前記第２の生成器としてのニューラルネットワークと、生成した前記合成音声データが前記学習用の真の音声データと同一の分布に従うか否かを判別する識別器としてのニューラルネットワークとが互いに競合する最適化条件に従うように、前記第２の生成器としてのニューラルネットワークを学習する学習部、を含み、
前記第１の生成器としてのニューラルネットワークは、
前記中間音声データと、前記学習用の真の音声データとの距離を表す目的関数の最適化に従って、又は、前記第１の生成器としてのニューラルネットワークと、前記中間音声データが前記学習用の真の音声データと同一の分布に従うか否かを判別する識別器としてのニューラルネットワークとが互いに競合する最適化条件に従って予め学習されている、
音声合成学習装置。
前記第１の生成器としてのニューラルネットワークは、前記音声データ又は音声特徴量系列と、それとは独立に与える自然性成分と、前記学習用の真の音声データとから、前記中間音声データを得るように予め学習されている、請求項１に記載の音声合成学習装置。
前記中間音声データと、それとは独立に与える自然性成分とを、前記第２の生成器としてのニューラルネットワークへの入力として前記合成音声データを生成し、
前記学習部は、生成した前記合成音声データと、前記学習用の真の音声データとの距離を表す目的関数を最適化するように、又は、前記第２の生成器としてのニューラルネットワークと、前記合成音声データと前記学習用の真の音声データが同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが互いに競合する最適化条件に従うように、前記第２の生成器としてのニューラルネットワークを学習する、請求項１に記載の音声合成学習装置。
前記第１の生成器としてのニューラルネットワークは、前記第１の生成器としてのニューラルネットワークと、前記中間音声データと前記学習用の真の音声データとが同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って予め学習されている、請求項１〜請求項３の何れか１項に記載の音声合成学習装置。
前記第２の生成器としてのニューラルネットワークは、前記第２の生成器としてのニューラルネットワークと、前記中間音声データと前記学習用の真の音声データとが同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習する、請求項１〜請求項３の何れか１項に記載の音声合成学習装置。
前記第１の生成器としてのニューラルネットワークについての学習及び前記学習部における前記第２の生成器としてのニューラルネットワークの学習を事前学習として、前記第１の生成器としてのニューラルネットワークと前記第２の生成器としてのニューラルネットワークとを含む全体のニューラルネットワークを最適化する、請求項１〜請求項５の何れか１項に記載の音声合成学習装置。
前記第１の生成器としてのニューラルネットワークを事前学習として、前記第１の生成器としてのニューラルネットワークと前記第２の生成器としてのニューラルネットワークとを含む全体のニューラルネットワークを最適化する、請求項１〜請求項５の何れか１項に記載の音声合成学習装置。