JP2019211782A - 音声合成学習装置 - Google Patents

音声合成学習装置 Download PDF

Info

Publication number
JP2019211782A
JP2019211782A JP2019149850A JP2019149850A JP2019211782A JP 2019211782 A JP2019211782 A JP 2019211782A JP 2019149850 A JP2019149850 A JP 2019149850A JP 2019149850 A JP2019149850 A JP 2019149850A JP 2019211782 A JP2019211782 A JP 2019211782A
Authority
JP
Japan
Prior art keywords
speech
neural network
learning
data
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019149850A
Other languages
English (en)
Other versions
JP6722810B2 (ja
Inventor
卓弘 金子
Takuhiro Kaneko
卓弘 金子
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
薫 平松
Kaoru Hiramatsu
薫 平松
柏野邦夫
Kunio Kashino
邦夫 柏野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019149850A priority Critical patent/JP6722810B2/ja
Publication of JP2019211782A publication Critical patent/JP2019211782A/ja
Application granted granted Critical
Publication of JP6722810B2 publication Critical patent/JP6722810B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】より自然な音声を合成することができるニューラルネットワークを学習できる。【解決手段】学習部330が、音声特徴量系列fと、自然性成分zとを、予め学習された第1の生成器としてのニューラルネットワークに入力することによって中間音声データx’を得る。学習部330が、中間音声データx’から合成された合成音声データ【数1】を生成する第2の生成器としてのニューラルネットワークが、距離を表す目的関数を最適化するように学習を行う。【選択図】図10

Description

本発明は、音声合成学習装置に係り、特に、音声を合成するための音声合成学習装置に関する。
音声の声帯音源情報(基本周波数や非周期性指標など)や声道スペクトル情報を表す特徴量は、STRAIGHTやメル一般化ケプストラム分析(Mel-Generalized Cepstral Analysis; MGC)などの音声分析手法により得ることができる。多くのテキスト音声合成システムや音声変換システムでは、このような音声特徴量の系列を入力テキストや変換元音声から予測し、ボコーダ方式に従って音声信号を生成するアプローチがとられる。
既存のボコーダ方式の音声合成では、声帯音源情報や声道スペクトル情報のような音声特徴量系列を、ボコーダを用いて変換することによって音声を生成する。図35に、ボコーダ方式の音声合成の処理の概念図を示す。なお、ここで述べたボコーダとは、人間の発声のメカニズムに関する知見を元に、音の生成過程をモデル化したものである。例えば、ボコーダの代表的なモデルとして、ソースフィルターモデルがあるが、このモデルでは、音の生成過程を音源(ソース)とデジタルフィルターの二つによって説明している。具体的には、ソースから生じる音声信号(パルス信号で表される)に対してデジタルフィルターを随時適用していくことによって、声が生成されるとしている。このように、ボコーダ方式の音声合成では、発声のメカニズムを抽象的にモデル化して表現しているため、音声をコンパクト(低次元)に表現することができる。一方で、抽象化した結果、音声の自然さが失われて、ボコーダ特有の機械的な音質となることが多い。
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozairy,Aaron Courville, Yoshua Bengio, "Generative Adversarial Nets," 2014. Emily Denton, Soumith Chintala, Arthur Szlam, Rob Fergus, "Deep Generative Image Modelsusing a Laplacian Pyramid of Adversarial Networks," 2015.
入力テキストや変換元音声から適切な音声特徴量を予測する問題は一種の回帰(機械学習)問題であり、特に限られた数の学習サンプルしか得られない状況ではコンパクト(低次元)な特徴量表現となっている方が統計的な予測において有利である。多くのテキスト音声合成システムや音声変換システムにおいて(波形やスペクトルを直接予測しようとするのではなく)音声特徴量を用いたボコーダ方式が用いられるのはこの利点を活かすためである。一方で、ボコーダ方式によって生成される音声はボコーダ特有の機械的な音質となることが多く、このことが従来のテキスト音声合成システムや音声変換システムにおける音質の潜在的な限界を与えている。
本発明は、上記問題点を解決するために成されたものであり、より自然な音声を合成することができるニューラルネットワークを学習できる音声合成学習装置を提供することを目的とする。
上記目的を達成するために、本発明に係る音声合成学習装置は、任意の音声データ又は音声特徴量系列から音声を合成するニューラルネットワークを学習する音声合成学習装置であって、入力された音声データ又は音声特徴量系列と、学習用の真の音声データとを受け付け、前記音声データ又は音声特徴量系列と前記学習用の真の音声データから中間音声データを生成するように予め学習された第1の生成器としてのニューラルネットワークと、前記中間音声データと前記学習用の真の音声データから合成音声データを生成するように学習される第2の生成器としてのニューラルネットワークとを備え、前記音声データ又は音声特徴量系列を、前記第1の生成器としてのニューラルネットワークへの入力として前記中間音声データを得て、得られた前記中間音声データを、前記第2の生成器としてのニューラルネットワークへの入力として前記合成音声データを生成し、生成した前記合成音声データと、前記学習用の真の音声データとの距離を表す目的関数を最適化するように、又は、前記第2の生成器としてのニューラルネットワークと、生成した前記合成音声データが前記学習用の真の音声データと同一の分布に従うか否かを判別する識別器としてのニューラルネットワークとが互いに競合する最適化条件に従うように、前記第2の生成器としてのニューラルネットワークを学習する学習部、を含み、前記第1の生成器としてのニューラルネットワークは、前記中間音声データと、前記学習用の真の音声データとの距離を表す目的関数の最適化に従って、又は、前記第1の生成器としてのニューラルネットワークと、前記中間音声データが前記学習用の真の音声データと同一の分布に従うか否かを判別する識別器としてのニューラルネットワークとが互いに競合する最適化条件に従って予め学習されている。
本発明の音声合成学習装置によれば、より自然な音声を合成することができるニューラルネットワークを学習できる、という効果が得られる。
本発明の第1の実施の形態の処理の概念図である。 本発明の第1の実施の形態に係る音声合成装置の構成を示すブロック図である。 本発明の第1の実施の形態の学習処理の概念図である。 本発明の第1及び第2の実施の形態に係る音声合成装置における学習処理ルーチンを示すフローチャートである。 本発明の第1及び第2の実施の形態に係る音声合成装置における生成処理ルーチンを示すフローチャートである。 本発明の第2の実施の形態の処理の概念図である。 本発明の第2の実施の形態に係る音声合成装置の構成を示すブロック図である。 本発明の第2の実施の形態の学習処理の概念図である。 本発明の第3の実施の形態の処理の概念図である。 本発明の第3の実施の形態に係る音声合成装置の構成を示すブロック図である。 本発明の第3の実施の形態の学習処理の概念図である。 本発明の第3及び第4の実施の形態に係る音声合成装置における学習処理ルーチンを示すフローチャートである。 本発明の第3及び第4の実施の形態に係る音声合成装置における生成処理ルーチンを示すフローチャートである。 本発明の第4の実施の形態の処理の概念図である。 本発明の第4の実施の形態に係る音声合成装置の構成を示すブロック図である。 本発明の第4の実施の形態の学習処理の概念図である。 本発明の第5の実施の形態の概念図である。 本発明の第5の実施の形態に係る音声合成装置の構成を示すブロック図である。 本発明の第5の実施の形態に係る音声合成装置における学習処理ルーチンを示すフローチャートである。 本発明の第5の実施の形態に係る音声合成装置における生成処理ルーチンを示すフローチャートである。 実験例における第3の実施の形態の学習方法の実装例を示す図である。 実験例における第4の実施の形態の学習方法の実装例を示す図である。 実験例における第3の実施の形態の生成方法の実装例を示す図である。 実験例における第4の実施の形態の生成方法の実装例を示す図である。 実験例における第3の実施の形態のネットワーク構造を示す図である。 実験例における第4の実施の形態のネットワーク構造を示す図である。 実験例における入出力の元になった音声信号の波形の例を示す図である。 Volume changeの実験結果を示す図である。 Pre-emphasisの実験結果を示す図である。 LPCの実験結果を示す図である。 LPC+pulseの実験結果を示す図である。 実験例における第1の実施の形態のネットワーク構造を示す図である。 実験例における第2の実施の形態のネットワーク構造を示す図である。 実験例における第1及び第2の実施の形態の手法による音声復元の結果を示す図である。 ボコーダ方式の音声合成の処理の概念図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の第1の実施の形態に係る概要>
まず、本発明の第1の実施の形態における概要を説明する。
既存のボコーダ方式の音声合成は、人間の発声メカニズムに関する知見を元に、音の生成過程を抽象的にモデル化したものであり、音声特徴量系列から音声データ(音声信号または音声スペクトル系列、以降同様)を再現することについて直接最適化したものではない。
本発明の第1の実施の形態では、音声特徴量系列と音声データのマッピングについて直接最適化を行うことによって、この問題を解決する。処理の概念図を図1に示す。入力された音声特徴量系列に対して、音声特徴量系列と音声データのマッピングについて最適化されたニューラルネットワークを適用することによって、目的となる音声データを得ることができる。なお、この際、音声データとして音声信号を用いた場合は、そのまま目的音声信号が得られる。一方、音声データとして音声スペクトル系列を用いた場合は、出力も音声スペクトル系列になる。その場合は、位相復元をすることによって、目的音声信号が得られる。位相復元の手法としては、例えば、Griffin Limなどがある。
<本発明の第1の実施の形態に係る音声合成装置の構成>
次に、本発明の第1の実施の形態に係る音声合成装置の構成について説明する。図2に示すように、本発明の第1の実施の形態に係る音声合成装置100は、CPUと、RAMと、後述する学習処理ルーチン及び生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声合成装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部90とを備えている。
入力部10は、学習データとして、人間の音声データxを受け付ける。また、入力部10は、合成音声データの生成対象となる任意の音声特徴量系列fを受け付ける。
演算部20は、学習部30と、ニューラルネットワーク記憶部40と、生成部50とを含んで構成されている。
学習部30は、以下に説明するように、音声データxを音声分析して得た、ボコーダに用いられる音声特徴量系列fと、学習用の真の音声データxとを入力とし、音声特徴量系列fから、合成された合成音声データ

を生成する生成器としてのニューラルネットワークを備え、生成器としてのニューラルネットワークが、合成音声データ

と、学習用の真の音声データxとの距離を表す目的関数を最適化するように学習を行う。
学習部30は、まず、入力部10で受け付けた音声データxに対して、音声分析をすることによって、音声特徴量系列fを得る。ここで得た音声特徴量系列fに対して、元となる真の音声データxが生成されるようにニューラルネットワークを学習する。具体的には、音声特徴量系列fをニューラルネットワークに入力すると、合成音声データ

が出力されるが、真の音声データxと出力される合成音声データ

とを、ある距離指標に対して距離が最小化するように、ニューラルネットワークの重みを最適化すればよい。なお、ここで述べた距離指標とは、例えば最小二乗誤差などである。距離指標として最小二乗誤差の場合、目的関数Lは以下の(1)式で表される。
・・・(1)
図3に第1の実施の形態の学習処理の概念図を示す。
上記(1)式の目的関数を最適化するように学習された生成器としてのニューラルネットワークはニューラルネットワーク記憶部40に記憶される。
生成部50は、入力部10で受け付けた任意の音声特徴量系列fを、ニューラルネットワーク記憶部40に記憶されているニューラルネットワークに入力し、ニューラルネットワークから出力される、合成された合成音声データ

を、出力部90に出力する。
<本発明の第1の実施の形態に係る音声合成装置の作用>
次に、本発明の第1の実施の形態に係る音声合成装置100の作用について説明する。音声合成装置100は、以下に説明する学習処理ルーチンと生成処理ルーチンを実行する。
まず、学習処理ルーチンについて説明する。入力部10において学習データとして、人間の音声データxを受け付けると、音声合成装置100は、図4に示す学習処理ルーチンを実行する。
まず、ステップS100では、入力部10で受け付けた音声データxを音声分析し、音声特徴量系列fを得る。
次に、ステップS102では、ステップS100で得た音声特徴量系列fと、入力部10で受け付けた音声データxとを入力とし、上記(1)式に従って、音声特徴量系列fから合成された合成音声データ

を生成する生成器としてのニューラルネットワークが、合成音声データ

と、音声データxとの距離を表す目的関数を最適化するように学習を行い、学習されたニューラルネットワークを、ニューラルネットワーク記憶部40に記憶して処理を終了する。
次に、生成処理ルーチンについて説明する。入力部10において合成音声データの生成対象となる任意の音声特徴量系列fを受け付けると、音声合成装置100は、図5に示す生成処理ルーチンを実行する。
ステップS200では、入力部10で受け付けた任意の音声特徴量系列fを、ニューラルネットワーク記憶部40に記憶されているニューラルネットワークに入力し、ニューラルネットワークから出力される、合成された合成音声データ

を、出力部90に出力して処理を終了する。
以上説明したように、本発明の第1の実施の形態に係る音声合成装置によれば、音声特徴量系列fと、学習用の真の音声データxとを入力として、上記(1)式に従って、音声特徴量系列fから合成された合成音声データ

を生成する生成器としてのニューラルネットワークが、合成音声データ

と、学習用の真の音声データxとの距離を表す目的関数を最適化するように学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。
また、学習したニューラルネットワークを用いて音声を合成することにより、音声特徴量系列から、より自然な音声を合成することができる。
<本発明の第2の実施の形態に係る概要>
次に、本発明の第2の実施の形態における概要を説明する。
第1の実施の形態は、声を音声特徴量系列のみから再現するものであったが、第2の実施の形態では、ニューラルネットワークの入力として、新たに自然性成分を加えることによって、音声の自然さを表現する。処理の概念図を図6に示す。なお、ここで述べた音声特徴量系列は、音声分析によって得られたものであるが、自然性成分は、それとは独立に与えるもの(例えば、乱数)である。
<本発明の第2の実施の形態に係る音声合成装置の構成>
次に、本発明の第2の実施の形態に係る音声合成装置の構成について説明する。なお、第1の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
図7に示すように、本発明の第2の実施の形態に係る音声合成装置200は、CPUと、RAMと、後述する学習処理ルーチン及び生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声合成装置200は、機能的には図7に示すように入力部10と、演算部220と、出力部90とを備えている。
演算部220は、学習部230と、ニューラルネットワーク記憶部40と、生成部250とを含んで構成されている。
学習部230は、以下に説明するように、音声データxを音声分析して得た、ボコーダに用いられる音声特徴量系列fと、予め与えられた自然性成分zと、学習用の真の音声データxとを入力とし、音声特徴量系列fから、合成された合成音声データ

(合成音声信号又は合成音声スペクトル系列)を生成する生成器としてのニューラルネットワークと、合成音声データ

が、真の音声データと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとを備え、生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行う。
学習部230は、まず、入力部10で受け付けた音声データxに対して、音声特徴量系列fを得る。ここで得た音声特徴量系列fと、自然性成分zと、学習用の真の音声データxとに基づいて、元となる真の音声データxが生成されるように生成器としてのニューラルネットワークを学習する。なお、ここで音声特徴量系列fについては、一部を変形したものを用いても良い。具体的には、音声特徴量系列の代表的なものの一つとして、基本周波数があるが、これをランダムに定数倍したものを用いても良い。また、自然性成分zは、ある分布(例えば、一様分布)に従って生成した乱数である。
また、真の音声データxと、生成器としてのニューラルネットワークにより生成される合成音声データ

とに基づいて、合成音声データが真の音声データであるか否かを識別する識別器としてのニューラルネットワークを学習する。この識別器としてのニューラルネットワークは、入力された合成音声データが真のものであるか合成されたものであるかの識別を行い、その結果を出力するものである。
本実施の形態では、生成器としてのニューラルネットワーク、及び識別器としてのニューラルネットワークの評価関数を以下(2)式に従って最適化する。(2)式で、Gは生成器(Generator)を表し、Dは識別器(Discriminator)を表す。(2)式では、識別器は、真の音声と合成音声をなるべく識別できるように、評価関数を最大化し、一方で、生成器は、合成音声をなるべく識別器が真の音声と識別するように、評価関数を最小化する。識別器と生成器が競争をしながら最適化が進む。
・・・(2)
図8に第2の実施の形態の学習処理の概念図を示す。
上記(2)式の評価関数を最適化するように学習された、生成器としてのニューラルネットワーク及び識別器としてのニューラルネットワークはニューラルネットワーク記憶部40に記憶される。
なお、以下(3)式のように、音声特徴量系列fも考慮した識別器(Discriminator)を用いた評価関数を最適化するように、生成器としてのニューラルネットワーク及び識別器としてのニューラルネットワークを学習しても良い。
・・・(3)
また、ニューラルネットワークを学習するときに、第1の実施の形態の手法を用いて、生成器としてのニューラルネットワークをPre-trainingしてもよい。
生成部250は、入力部10で受け付けた任意の音声特徴量系列fと、予め与えられた自然性成分zとを、ニューラルネットワーク記憶部40に記憶されているニューラルネットワークに入力し、ニューラルネットワークから出力される、合成された合成音声データ

を、出力部90に出力する。
<本発明の第2の実施の形態に係る音声合成装置の作用>
次に、本発明の第2の実施の形態に係る音声合成装置200の作用について説明する。音声合成装置200は、以下に説明する学習処理ルーチンと生成処理ルーチンを実行する。
まず、学習処理ルーチンについて説明する。入力部10において学習データとして、人間の音声データxを受け付けると、音声合成装置200は、上記図4に示す学習処理ルーチンを実行する。
第2の実施の形態の学習処理ルーチンでは、ステップS102において、ステップS100で得られた音声特徴量系列fと、予め与えられた自然性成分zと、入力部10により受け付けた音声データxとを入力とし、上記(2)式に従って、生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行い、学習されたニューラルネットワークを、ニューラルネットワーク記憶部40に記憶して処理を終了する。
第2の実施の形態の生成処理ルーチンでは、上記図5に示すように、ステップS200において、入力部10で受け付けた任意の音声特徴量系列fと、予め与えられた自然性成分zとを、ニューラルネットワーク記憶部40に記憶されているニューラルネットワークに入力し、ニューラルネットワークから出力される、合成された合成音声データ

を、出力部90に出力して処理を終了する。
以上説明したように、本発明の第2の実施の形態に係る音声合成装置によれば、音声特徴量系列fと、自然性成分zと、学習用の真の音声データxとを入力とし、上記(2)式に従って、音声特徴量系列fから合成された合成音声データ

を生成する生成器としてのニューラルネットワークと、合成音声データ

が、真の音声データxと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。
また、学習した生成器としてのニューラルネットワークを用いて音声を合成することにより、より自然な音声を合成することができる。
<本発明の第3の実施の形態に係る概要>
次に、本発明の第3の実施の形態における概要を説明する。
第1及び第2の実施の形態は、音声特徴量系列と高音質音声の間のマッピングを行うものであり、既存のボコーダの代わりになる技術である。一方、第3の実施の形態は、音声特徴量系列から一度合成した音声と高品質音声の間のマッピングを行う方法である。ここで、音声特徴量系列から一度音声を合成するためには、既存のボコーダ、あるいは、第1及び第2の実施の形態を用いれば良い。処理の概念図を図9に示す。
音声特徴量系列が与えられると、まずボコーダ、あるいは、第1又は第2の実施の形態の手法で学習した生成器としてのニューラルネットワークを用いることによって中間音声信号を得る。この中間音声信号を、ニューラルネットワークに入力し、変換することによって、目的となる音声データを得る。
<本発明の第3の実施の形態に係る音声合成装置の構成>
次に、本発明の第3の実施の形態に係る音声合成装置の構成について説明する。なお、第2の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
図10に示すように、本発明の第3の実施の形態に係る音声合成装置300は、CPUと、RAMと、後述する学習処理ルーチン及び生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声合成装置300は、機能的には図10に示すように入力部10と、演算部320と、出力部90とを備えている。
演算部320は、学習部330と、ニューラルネットワーク記憶部40と、中間音声変換部332と、生成部350とを含んで構成されている。
学習部330は、以下に説明するように、音声データxを音声分析して得た音声特徴量系列から音声を合成して得た、中間音声データx’(中間音声信号又は中間音声スペクトル系列)と、自然性成分zと、学習用の真の音声データxとを入力とし、中間音声データx’から、合成された合成音声データ

を生成する生成器としてのニューラルネットワークを備え、生成器としてのニューラルネットワークが、合成音声データ

と、学習用の真の音声データxとの距離を表す目的関数を最適化するように学習を行う。
学習部330は、まず、入力部10で受け付けた音声データxに対して、音声特徴量系列fを得る。ここで得た音声特徴量系列fと、自然性成分zとを、上記第2の実施の形態と同様に学習された生成器としてのニューラルネットワークに入力することによって中間音声データx’を得る。そして、中間音声データx’に対して、元となる真の音声データxが生成されるように生成器としてのニューラルネットワークを学習する。具体的には、中間音声データx’をニューラルネットワークに入力すると、音声データ

が出力されるが、真の音声データxと出力される合成音声データ

とを、ある距離指標に対して距離が最小化するように、ニューラルネットワークの重みを最適化すればよい。なお、ここで述べた距離指標とは、例えば最小二乗誤差などである。距離指標として最小二乗誤差の場合、目的関数Lは以下の(1)式で表される。
・・・(4)
図11に第3の実施の形態の学習処理の概念図を示す。
上記(4)式の目的関数を最適化するように学習された生成器としてのニューラルネットワークはニューラルネットワーク記憶部40に記憶される。
中間音声変換部332は、入力部10で受け付けた任意の音声特徴量系列fを、第2の実施の形態のニューラルネットワーク(図示省略)に入力することによって中間音声データx’(中間音声信号又は中間音声スペクトル系列)を得る。
生成部350は、中間音声変換部332によって得られた中間音声データx’を、ニューラルネットワーク記憶部40に記憶されているニューラルネットワークに入力し、合成された合成音声データ

を出力部90に出力する。
<本発明の第3の実施の形態に係る音声合成装置の作用>
次に、本発明の第3の実施の形態に係る音声合成装置300の作用について説明する。音声合成装置300は、以下に説明する学習処理ルーチンと生成処理ルーチンを実行する。
まず、学習処理ルーチンについて説明する。入力部10において学習データとして、人間の音声データxを受け付けると、音声合成装置300は、図12に示す学習処理ルーチンを実行する。
まず、ステップS300では、入力部10で受け付けた音声データxを音声分析し、音声特徴量系列fを得る。
次に、ステップS302では、ステップS300で得た音声特徴量系列fと、自然性成分zと、入力部10で受け付けた音声データxとを入力とし、第2の実施の形態と同様に学習された生成器としてのニューラルネットワークに入力することによって中間音声データx’(中間音声信号又は中間音声スペクトル系列)を得る。
ステップS304では、ステップS302で得た、中間音声データx’と、入力部10で受け付けた音声データxとを入力とし、上記(4)式に従って、中間音声データx’から合成された合成音声データ

を生成する生成器としてのニューラルネットワークが、目的関数を最適化するように学習を行い、学習されたニューラルネットワークを、ニューラルネットワーク記憶部40に記憶して処理を終了する。
次に、生成処理ルーチンについて説明する。入力部10において合成音声データの生成対象となる任意の音声特徴量系列fを受け付けると、音声合成装置300は、図13に示す生成処理ルーチンを実行する。
ステップS400では、入力部10で受け付けた任意の音声特徴量系列fを、第2の実施の形態と同様に学習された生成器としてのニューラルネットワーク(図示省略)に入力することによって中間音声データx’を得る。
ステップS402では、ステップS400で得た中間音声データx’を、ニューラルネットワーク記憶部40に記憶されているニューラルネットワークに入力し、合成された合成音声データ

を出力部90に出力して処理を終了する。
以上説明したように、本発明の第3の実施の形態に係る音声合成装置によれば、音声特徴量系列から音声を合成して得た、中間音声データx’と、学習用の真の音声データとを入力とし、上記(4)式に従って、中間音声データx’から合成された合成音声データ

を生成する生成器としてのニューラルネットワークが、目的関数を最適化するように学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。
また、学習したニューラルネットワークを用いて音声を合成することにより、より自然な音声を合成することができる。
なお、中間音声データに変換するために、第2の実施の形態と同様に学習されたニューラルネットワークを用いる場合を例に説明したが、これに限定されるものではなく、ボコーダ、あるいは、第1の実施の形態と同様に学習されたニューラルネットワークを用いて、音声特徴量系列を、中間音声データに変換するようにしてもよい。
また、中間音声データに変換するために、第1又は第2の実施の形態と同様に学習されたニューラルネットワークを用いた場合には、本実施の形態における学習処理を行った後、学習されたニューラルネットワークをPre-trainingとみなして、全体のニューラルネットワークを改めて最適化するようにしてもよい。
<本発明の第4の実施の形態に係る概要>
次に、本発明の第4の実施の形態における概要を説明する。
第3の実施の形態は、中間音声データから自然な音声へ直接変換するものであったが、第4実施の形態は、中間音声データに自然性成分を加えて本物らしい音声に変換するものである。処理の概念図を図14に示す。なお、ここで述べた自然性成分は、合成音声とは独立に与えるもの(例えば、乱数)である。
<本発明の第4の実施の形態に係る音声合成装置の構成>
次に、本発明の第4の実施の形態に係る音声合成装置の構成について説明する。なお、第3の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
図15に示すように、本発明の第4の実施の形態に係る音声合成装置400は、CPUと、RAMと、後述する学習処理ルーチン及び生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声合成装置400は、機能的には図15に示すように入力部10と、演算部420と、出力部90とを備えている。
演算部420は、学習部430と、ニューラルネットワーク記憶部40と、中間音声変換部332と、生成部450とを含んで構成されている。
学習部430は、以下に説明するように、音声データxを音声分析して得た音声特徴量系列から音声を合成して得た、中間音声データx’(中間音声信号又は中間音声スペクトル系列)と、中間音声データx’に対応する自然性成分zと、学習用の真の音声データxとを入力とし、中間音声データx’から、合成された合成音声データを生成する生成器としてのニューラルネットワークと、合成音声データ

が、真の音声データxと同一の分布に従うか否かを識別する識別器とを備え、生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行う。
学習部430は、まず、入力部10で受け付けた音声データxに対して、音声特徴量系列fを得る。ここで得た音声特徴量系列fと、音声特徴量系列fに対応する自然性成分zとを、上記第2の実施の形態と同様に学習された生成器としてのニューラルネットワークに入力することによって中間音声データx’を得る。ここで得た中間音声データx’と、自然性成分zと、学習用の真の音声データxとに基づいて、元となる真の音声データxが生成されるように生成器としてのニューラルネットワークを学習する。なお、ここで音声特徴量系列fについては、一部を変形したものを用いても良い。具体的には、音声特徴量系列の代表的なものの一つとして、基本周波数があるが、これをランダムに定数倍したものを用いても良い。また、自然性成分z及び自然性成分zは、ある分布(例えば、一様分布)に従って生成した乱数である。
また、真の音声データxと、生成器としてのニューラルネットワークにより生成される合成音声データ

とに基づいて、真の音声データxと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークを学習する。この識別器としてのニューラルネットワークは、入力された音声データが真のものであるか合成されたものであるかの識別を行い、その結果を出力するものである。
本実施の形態では、生成器としてのニューラルネットワーク、及び識別器としてのニューラルネットワークの評価関数を、以下(5)式に従って最適化する。(5)式で、Gは生成器(Generator)を表し、Dは識別器(Discriminator)を表す。(5)式では、識別器は、真の音声と合成音声をなるべく識別できるように、評価関数を最大化し、一方で、生成器は、合成音声をなるべく識別器が真の音声と識別するように、評価関数を最小化する。識別器と生成器が競争をしながら最適化が進む。
・・・(5)
図16に第4の実施の形態の学習処理の概念図を示す。
上記(5)式の評価関数を最適化するように学習された、生成器としてのニューラルネットワーク及び識別器としてのニューラルネットワークはニューラルネットワーク記憶部40に記憶される。
なお、以下(6)式のように、中間音声データx’も考慮した識別器(Discriminator)を用いた評価関数を最適化するように、生成器としてのニューラルネットワーク及び識別器としてのニューラルネットワークを学習しても良い。
・・・(6)
また、ニューラルネットワークを学習するときに、第3の実施の形態の手法を用いて、生成器としてのニューラルネットワークをPre-trainingしてもよい。
生成部450は、中間音声変換部332によって得られた中間音声データx’と、予め与えられた自然性成分zとを、ニューラルネットワーク記憶部40に記憶されているニューラルネットワークに入力し、合成された合成音声データ

を出力部90に出力する。
<本発明の第4の実施の形態に係る音声合成装置の作用>
次に、本発明の第4の実施の形態に係る音声合成装置400の作用について説明する。音声合成装置400は、以下に説明する学習処理ルーチンと生成処理ルーチンを実行する。
まず、学習処理ルーチンについて説明する。入力部10において学習データとして、人間の音声データxを受け付けると、音声合成装置400は、上記図12に示す学習処理ルーチンを実行する。
第4の実施の形態の学習処理ルーチンでは、ステップS304において、ステップS302で得られた中間音声データx’と、自然性成分zと、入力部10により受け付けた音声データxとを入力とし、上記(5)式に従って、生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行い、学習されたニューラルネットワークを、ニューラルネットワーク記憶部40に記憶して処理を終了する。
第4の実施の形態の生成処理ルーチンでは、上記図13に示すように、ステップS402において、ステップS400で得た中間音声データx’と、自然性成分zとを、ニューラルネットワーク記憶部40に記憶されているニューラルネットワークに入力し、合成された合成音声データ

を出力部90に出力して処理を終了する。
第4の実施の形態の生成処理ルーチンは、第3の実施の形態と同様であるため説明を省略する。
以上説明したように、本発明の第4の実施の形態に係る音声合成装置によれば、音声特徴量系列から音声を合成して得た、中間音声データx’と、自然性成分zと、学習用の真の音声データxとを入力とし、上記(5)式に従って、中間音声データx’から、合成された合成音声データ

を生成する生成器としてのニューラルネットワークと、合成音声データ

が、真の音声データxと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。
また、学習した生成器としてのニューラルネットワークを用いて音声を合成することにより、より自然な音声を合成することができる。
なお、中間音声データに変換するために、第2の実施の形態と同様に学習されたニューラルネットワークを用いる場合を例に説明したが、これに限定されるものではなく、ボコーダ、あるいは、第1の実施の形態と同様に学習されたニューラルネットワークを用いて、音声特徴量系列を、中間音声データに変換するようにしてもよい。
また、中間音声データに変換するために、第1又は第2の実施の形態と同様に学習されたニューラルネットワークを用いた場合には、本実施の形態における学習処理を行った後、学習されたニューラルネットワークをPre-trainingとみなして、全体のニューラルネットワークを改めて最適化するようにしてもよい。
<本発明の第5の実施の形態に係る概要>
次に、本発明の第5の実施の形態における概要を説明する。
第1〜第4の実施の形態で用いる音声特徴量系列としては、例えば、既存の音声分析によって得られるものを使うこともできるが、ニューラルネットワークによって得られた音声特徴量系列を入力として用いることもできる。なぜなら、第1〜第4の実施の形態は、データドリブンに音声特徴量系列と音声信号のマッピングを学習するものであるからである。
<本発明の第5の実施の形態に係る音声合成装置の構成>
次に、本発明の第5の実施の形態に係る音声合成装置の構成について説明する。なお、第2の実施の形態と同様の構成となる箇所については同一符号を付して説明を省略する。
図18に示すように、本発明の第5の実施の形態に係る音声合成装置500は、CPUと、RAMと、後述する学習処理ルーチン及び生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声合成装置500は、機能的には図18に示すように入力部510と、演算部520と、出力部90とを備えている。
入力部510は、学習データとして、人間の音声データxを受け付ける。また、入力部510は、合成音声データの生成対象となる任意の音声データを受け付ける。
演算部520は、音声特徴量生成部528と、学習部530と、ニューラルネットワーク記憶部40と、音声特徴量変換部532と、生成部250とを含んで構成されている。
音声特徴量生成部528は、入力部510で受け付けた音声データxを、予め学習されたニューラルネットワークであるAuto Encoderに入力し、Auto Encoderから出力された音声特徴量系列fを学習部530に出力する。ここで用いるニューラルネットワークは、予め学習したVariational Auto Encoderであってもよい。
学習部530は、音声特徴量生成部528から出力された音声特徴量系列fと、自然性成分zと、学習用の真の音声データxとを入力とし、音声特徴量系列fから、合成された合成音声データを生成する生成器としてのニューラルネットワークと、合成音声データ

が、真の音声データxと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとを備え、第2の実施の形態と同様の処理によって生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行うようにすればよい。
図15に第5の実施の形態の学習処理の概念図を示す。
音声特徴量生成部532は、入力部510で受け付けた合成音声データの生成対象となる任意の音声データを、音声特徴量生成部528と同様に、予め学習されたニューラルネットワークであるAuto Encoderに入力し、Auto Encoderから出力された音声特徴量系列fを生成部250に出力する。
なお、第5の実施の形態の他の構成は、第2の実施の形態と同様となるため説明を省略する。
また、第5の実施の形態において、学習部530は、第2の実施の形態と同様の処理を行う場合について説明したが、これに限定されるものではない。例えば、学習部530は、音声特徴量生成部528から出力された音声特徴量系列fと、学習用の真の音声データxとを入力とし、第1の実施の形態と同様の処理によって、生成器としてのニューラルネットワークを学習するようにしてもよい。また、音声特徴量生成部528から出力された音声特徴量系列fから、第3の実施の形態と同様の処理によって中間音声データx’を得て、得られた中間音声データx’と、学習用の真の音声データxとを入力とし、生成器としてのニューラルネットワークを学習するようにしてもよい。また、音声特徴量生成部528から出力された音声特徴量系列fと、自然性成分zとから、第4の実施の形態と同様の処理によって中間音声データx’を得て、得られた中間音声データx’と、自然性成分zと、学習用の真の音声データxとを入力とし、生成器としてのニューラルネットワーク、又は、生成器及び識別器としてのニューラルネットワークを学習するようにしてもよい。
<本発明の第5の実施の形態に係る音声合成装置の作用>
次に、本発明の第5の実施の形態に係る音声合成装置500の作用について説明する。音声合成装置500は、以下に説明する学習処理ルーチンと生成処理ルーチンを実行する。なお、第2の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
まず、学習処理ルーチンについて説明する。入力部510において学習データとして、人間の音声データxを受け付けると、音声合成装置500は、図19に示す学習処理ルーチンを実行する。
ステップS500では、入力部510で受け付けた音声データxを、予め学習されたニューラルネットワークであるAuto Encoderに入力し、Auto Encoderから出力された音声特徴量系列fを学習部530に出力する。
ステップS102では、ステップS500で得られた音声特徴量系列fと、予め与えられた自然性成分zと、入力部510により受け付けた音声データxとを入力とし、上記(2)式に従って、生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行い、学習されたニューラルネットワークを、ニューラルネットワーク記憶部40に記憶して処理を終了する。
次に、生成処理ルーチンについて説明する。入力部510において合成音声データの生成対象となる音声データを受け付けると、音声合成装置500は、図20に示す生成処理ルーチンを実行する。
ステップS500では、入力部510で受け付けた音声データを、予め学習されたニューラルネットワークであるAuto Encoderに入力し、Auto Encoderから出力された音声特徴量系列fを生成部250に出力する。
なお、第5の実施の形態の他の作用は、第2の実施の形態と同様であるため説明を省略する。
以上説明したように、本発明の第5の実施の形態に係る音声合成装置によれば、音声データxを、予め学習されたニューラルネットワークであるAuto Encoderに入力し、Auto Encoderから出力された音声特徴量系列fを出力し、出力された音声特徴量系列fと、自然性成分zと、学習用の真の音声データxとを入力とし、上記(2)式に従って、音声特徴量系列fから合成された合成音声データ

を生成する生成器としてのニューラルネットワークと、合成音声データ

が、真の音声データxと同一の分布に従うか否かを識別する識別器とが、互いに競合する最適化条件に従って学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。
また、学習した生成器としてのニューラルネットワークを用いて音声を合成することにより、より自然な音声を合成することができる。
<実験結果1>
第3及び第4の実施の形態の有効性を示すために、一実現方法を用いて、実験を行った。
実験データ実験用のデータとして、ATR Speech Dataのうち話者1人の115会話文を用いた。このデータのうち90%のデータをモデルの学習用に用い、残りの10%のデータをテスト用に用いた。なお、音声信号のサンプリング周波数は16,000Hzである。
第3及び第4の実施の形態では、生成器の入力としては、Vocoderまたは、それと同等の入出力を持ったニューラルネットワークによって生成した音声信号または音声スペクトル系列を用いている。本実験では、これらのうちVocoderを用いて音声信号の生成を行い、それに対して、以下で述べる前処理を行うことによって得た音声スペクトル系列x’を入力とした。具体的な分析合成の手法としてはLPC分析合成を用いた。この分析合成によって生成した音を元の音声信号のような本物の声に変換することが、ニューラルネットワークで構成される生成器の目指す役割である。
前述した前処理とは、以下のような処理である。まず一つ一つの音声信号に対して短時間フーリエ変換(STFT)を適用し、複素スペクトル系列に変換した。この際、フーリエ変換の窓幅は512、シフト幅は128とした。また、窓関数としては、ブラックマン窓を用いた。次に複素スペクトル系列の絶対値をとり、振幅スペクトル系列に変換した。さらに、この振幅スペクトルに対して、底が10の対数スペクトルをとり、20倍することで、振幅の対数スペクトルに変換した。最後に、この処理によって得られたスペクトル系列に対して、ある一定フレーム分を切り出し、それを生成器の入力として用いた。実験では、フレームの切り出す長さとしては21とした。
また、生成器の出力としては、入力と同じ振幅の対数スペクトルが得られるため、それを音声信号に戻すために以下の処理を行った。まず、最初に振幅の対数スペクトルに対して、20で割って、そこで得られた値を乗数として10の冪乗を求めることで、振幅スペクトルに変換した。それに対して、Griffin Limを用いて位相復元を行い、音声信号に変換した。
図21に第3の実施の形態の学習方法の実装例を示し、図22に第4の実施の形態の学習方法の実装例を示す。
図23に第3の実施の形態の生成方法の実装例を示し、図24に第4の実施の形態の生成方法の実装例を示す。
ネットワーク構造としては、第3及び第4の実施の形態の生成器・識別器ともに隠れ層は3層、それぞれの層のユニット数は500、結合の仕方は、Fully Connectedのものを用いた。図25、図26のそれぞれに、第3及び第4の実施の形態の具体的なネットワーク構造を示す。
本手法の目的は、分析合成音を本物の声に近い音に変換することであるが、提案したフレームワークの有効性を示すために、合成音として以下の4つを想定した。
1.Volume change:n元の音を半分にした音
2.Pre-emphasis:元の音の高音強調を行った音
3.LPC:LPC分析合成音
4.LPC+pulse:LPC分析で得たLPCと一定間隔をおいて(128サンプルごと)発生したpulse信号を合成して生成した音
図27に入出力の元になった音声信号の波形の例を示す。
図28にVolume changeの実験結果を示す。音声信号の波形データの振幅の大きさに着目すると、合成音は元の音の半分になっているが、第3及び第4の実施の形態の手法を用いると、いずれの場合も元の音と同等の振幅を再現できていることが分かる。
図29にPre-emphasisの実験結果を示す。音声スペクトル系列に着目すると、合成音は元の音と比べて、低周波数領域の値が小さくなっているが、第3及び第4の実施の形態の手法を用いると、元の音と同等の大きさ位に戻っていることがわかる。また、音声信号の波形データの振幅に着目すると、合成音は元の音と比べて全体的に小さくなっているが、第3及び第4の実施の形態の手法を用いると、いずれの場合も元の音と同等の振幅を再現できていることが分かる。
図30にLPCの実験結果を示す。音声スペクトル系列に着目すると、合成音は元の音と比べて、最低周波数領域(0)に値があり、また、高周波数領域にも値が広がっているという特徴があるが、第3及び第4の実施の形態の手法を用いると、元の音と同等の形状に戻っていることが分かる。また、音声信号の波形データの振幅に着目すると、合成音は元の音と比べて全体的に大きくなっているが、第3及び第4の実施の形態の手法を用いると、いずれの場合も元の音と同等の振幅を再現できていることが分かる。
図31にLPC+pulseの実験結果を示す。音声スペクトル系列に着目すると、合成音は元の音と比べて、等間隔の縞乗になっているという特徴があるが、第3及び第4の実施の形態の手法を用いると、いずれの場合もと合成音と比較して元の音に近い形状に戻っていることが分かる。
<実験結果2>
次に第1及び第2の実施の形態の実験結果を示す。
実験データまずデータセットとしては、前述した第3及び第4の実施の形態に関する実験と同じものを用いた。第1及び第2の実施の形態では、入力としては音声特徴量系列を用いるが、本実験では、LPC分析によって得た音声特徴量を用いた。具体的には、ピッチとLPCを用いた。ピッチは1フレームあたり1次元の特徴量であり、LPCはLPC分析時の次数を25としたため、26次元の特徴量である。そのため、両者を合わせると1次元あたり27次元の特徴量になる。出力としては、振幅の対数スペクトルを用いた。また、本実験では実際に処理を行うデータのフレームの長さは1とした。最終的には、音声信号を得ることが目的であり、そのためには出力として得られた振幅の対数スペクトルから音声信号を復元することが必要である。その方法としては、先の第3及び第4の実施の形態に関する実験の項で述べた方法と同様の方法を用いた。
図32、図33に第1及び第2の実施の形態のネットワーク構造の実装例を示す。ネットワーク構造としては、第1及び第2の実施の形態ともに隠れ層3層、それぞれの層のユニット数は500、層の結合の仕方はFully Connectedとした。
図34に、第1及び第2の実施の形態の手法による音声復元の結果を示す。これからは、入力に用いている音声特徴量は27次元であるが、それに対して、第1及び第2の実施の形態のネットワークを用いることによって、元の音と似た特徴の持つ調和構造(スペクトルの縞模様)が再現できていることが分かる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、ニューラルネットワークの学習を行う学習部と、音声の合成を行う生成部とを含む音声合成装置として構成していたが、これに限定されるものではなく、学習部を含む音声合成学習装置と、生成部を含む音声合成装置のそれぞれに分けて構成してもよい。
また、上述した実施の形態におけるニューラルネットワークには、CNNやRNNなども用いることができる。
10、510 入力部
20、220、320、420、520 演算部
30、230、330、430、530 学習部
40 ニューラルネットワーク記憶部
50、250、350、450 生成部
90 出力部
100、200、300、400、500 音声合成装置
332 中間音声変換部
528、532 音声特徴量生成部

Claims (7)

  1. 任意の音声データ又は音声特徴量系列から音声を合成するニューラルネットワークを学習する音声合成学習装置であって、
    入力された音声データ又は音声特徴量系列と、学習用の真の音声データとを受け付け、
    前記音声データ又は音声特徴量系列と前記学習用の真の音声データから中間音声データを生成するように予め学習された第1の生成器としてのニューラルネットワークと、
    前記中間音声データと前記学習用の真の音声データから合成音声データを生成するように学習される第2の生成器としてのニューラルネットワークとを備え、
    前記音声データ又は音声特徴量系列を、前記第1の生成器としてのニューラルネットワークへの入力として前記中間音声データを得て、
    得られた前記中間音声データを、前記第2の生成器としてのニューラルネットワークへの入力として前記合成音声データを生成し、
    生成した前記合成音声データと、前記学習用の真の音声データとの距離を表す目的関数を最適化するように、又は、前記第2の生成器としてのニューラルネットワークと、生成した前記合成音声データが前記学習用の真の音声データと同一の分布に従うか否かを判別する識別器としてのニューラルネットワークとが互いに競合する最適化条件に従うように、前記第2の生成器としてのニューラルネットワークを学習する学習部、を含み、
    前記第1の生成器としてのニューラルネットワークは、
    前記中間音声データと、前記学習用の真の音声データとの距離を表す目的関数の最適化に従って、又は、前記第1の生成器としてのニューラルネットワークと、前記中間音声データが前記学習用の真の音声データと同一の分布に従うか否かを判別する識別器としてのニューラルネットワークとが互いに競合する最適化条件に従って予め学習されている、
    音声合成学習装置。
  2. 前記第1の生成器としてのニューラルネットワークは、前記音声データ又は音声特徴量系列と、それとは独立に与える自然性成分と、前記学習用の真の音声データとから、前記中間音声データを得るように予め学習されている、請求項1に記載の音声合成学習装置。
  3. 前記中間音声データと、それとは独立に与える自然性成分とを、前記第2の生成器としてのニューラルネットワークへの入力として前記合成音声データを生成し、
    前記学習部は、生成した前記合成音声データと、前記学習用の真の音声データとの距離を表す目的関数を最適化するように、又は、前記第2の生成器としてのニューラルネットワークと、前記合成音声データと前記学習用の真の音声データが同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが互いに競合する最適化条件に従うように、前記第2の生成器としてのニューラルネットワークを学習する、請求項1に記載の音声合成学習装置。
  4. 前記第1の生成器としてのニューラルネットワークは、前記第1の生成器としてのニューラルネットワークと、前記中間音声データと前記学習用の真の音声データとが同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って予め学習されている、請求項1〜請求項3の何れか1項に記載の音声合成学習装置。
  5. 前記第2の生成器としてのニューラルネットワークは、前記第2の生成器としてのニューラルネットワークと、前記中間音声データと前記学習用の真の音声データとが同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習する、請求項1〜請求項3の何れか1項に記載の音声合成学習装置。
  6. 前記第1の生成器としてのニューラルネットワークについての学習及び前記学習部における前記第2の生成器としてのニューラルネットワークの学習を事前学習として、前記第1の生成器としてのニューラルネットワークと前記第2の生成器としてのニューラルネットワークとを含む全体のニューラルネットワークを最適化する、請求項1〜請求項5の何れか1項に記載の音声合成学習装置。
  7. 前記第1の生成器としてのニューラルネットワークを事前学習として、前記第1の生成器としてのニューラルネットワークと前記第2の生成器としてのニューラルネットワークとを含む全体のニューラルネットワークを最適化する、請求項1〜請求項5の何れか1項に記載の音声合成学習装置。
JP2019149850A 2019-08-19 2019-08-19 音声合成学習装置 Active JP6722810B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019149850A JP6722810B2 (ja) 2019-08-19 2019-08-19 音声合成学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019149850A JP6722810B2 (ja) 2019-08-19 2019-08-19 音声合成学習装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016168356A Division JP6649210B2 (ja) 2016-08-30 2016-08-30 音声合成学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019211782A true JP2019211782A (ja) 2019-12-12
JP6722810B2 JP6722810B2 (ja) 2020-07-15

Family

ID=68845176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019149850A Active JP6722810B2 (ja) 2019-08-19 2019-08-19 音声合成学習装置

Country Status (1)

Country Link
JP (1) JP6722810B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01276200A (ja) * 1988-04-28 1989-11-06 Hitachi Ltd 音声合成装置
JPH03125200A (ja) * 1989-10-09 1991-05-28 Nippon Telegr & Teleph Corp <Ntt> 音声合成法
US20150364127A1 (en) * 2014-06-13 2015-12-17 Microsoft Corporation Advanced recurrent neural network based letter-to-sound

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01276200A (ja) * 1988-04-28 1989-11-06 Hitachi Ltd 音声合成装置
JPH03125200A (ja) * 1989-10-09 1991-05-28 Nippon Telegr & Teleph Corp <Ntt> 音声合成法
US20150364127A1 (en) * 2014-06-13 2015-12-17 Microsoft Corporation Advanced recurrent neural network based letter-to-sound

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高木 信二: "Deep Neural Networkに基づく音響特徴抽出・音響モデルを用いた統計的音声合成システム", 情報処理学会 研究報告 音声言語情報処理(SLP) 2015−SLP−105 [ONLINE], JPN6019022401, 20 February 2015 (2015-02-20), JP, pages 1 - 6, ISSN: 0004278674 *

Also Published As

Publication number Publication date
JP6722810B2 (ja) 2020-07-15

Similar Documents

Publication Publication Date Title
JP6649210B2 (ja) 音声合成学習装置、方法、及びプログラム
Mehrish et al. A review of deep learning techniques for speech processing
JP5631915B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
CN111201565A (zh) 用于声对声转换的系统和方法
JP6876642B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
EP4078571A1 (en) A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score
Wu et al. Quasi-periodic parallel WaveGAN: A non-autoregressive raw waveform generative model with pitch-dependent dilated convolution neural network
KR20230109630A (ko) 오디오 신호 생성 및 오디오 생성기 훈련을 위한 방법 및 오디오 생성기
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
GB2603776A (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Pamisetty et al. Prosody-tts: An end-to-end speech synthesis system with prosody control
JP6271748B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP6722810B2 (ja) 音声合成学習装置
Tits et al. The theory behind controllable expressive speech synthesis: A cross-disciplinary approach
CN116168678A (zh) 语音合成方法、装置、计算机设备和存储介质
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
JP6578544B1 (ja) 音声処理装置、および音声処理方法
CN111862931A (zh) 一种语音生成方法及装置
JP2020134920A (ja) 音声処理装置、および音声処理方法
JP2020204755A (ja) 音声処理装置、および音声処理方法
Pan et al. PVGAN: A Pathological Voice Generation Model Incorporating a Progressive Nesting Strategy
JP6587308B1 (ja) 音声処理装置、および音声処理方法
JP7079455B1 (ja) 音響モデル学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム
CN113066472B (zh) 合成语音处理方法及相关装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200622

R150 Certificate of patent or registration of utility model

Ref document number: 6722810

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150