JP2020060633A

JP2020060633A - 音響モデル学習装置、音声合成装置、及びプログラム

Info

Publication number: JP2020060633A
Application number: JP2018190462A
Authority: JP
Inventors: 裕紀金川; Yuki Kanekawa; 勇祐井島; Yusuke Ijima
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-10-05
Filing date: 2018-10-05
Publication date: 2020-04-16
Anticipated expiration: 2038-10-05
Also published as: WO2020071213A1; US20220051655A1; US11545135B2; JP7125608B2

Abstract

【課題】高品質な合成音声を生成することが可能な音声合成装置を提供する。【解決手段】音響モデル学習装置は、抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、音声判別モデル及び話者判別モデルを用いて、複数話者の複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の話者データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第１の学習部と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第２の学習部と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の話者が、所定の話者であることの真偽を判別する前記話者判別モデルを学習する第３の学習部と、を備える。【選択図】図１

Description

本発明は、音響モデル学習装置、音声合成装置、及びプログラムに関する。

従来、複数話者の自然音声データから抽出された複数の音響特徴量、複数話者の自然音声データに対応する複数のテキストデータから抽出された複数の言語特徴量、複数の話者データ、などを学習データとして、DNN(Deep Neural Network)による音響モデルを学習し、任意のテキストデータから目標話者の合成音声データを生成する音声合成装置が知られている（図５参照）。例えば、特許文献１には、複数話者の自然音声データを効率的に活用することで、DNN音響モデルを低コストで学習する音声合成装置が開示されている。

上述のDNN音響モデルは、次式（１）に示すように、自然音声データに基づく音響特徴量とDNN音響モデルにより推定される合成音響特徴量との平均二乗誤差（Mean Squared Error; MSE）を、最小化するように構築される。

しかしながら、上述のDNN音響モデルでは、合成音響特徴量が過剰に平滑化されるため、音声合成部により生成された合成音声データの肉声感が損なわれる傾向がある。この対策として、ポストフィルタなどの信号処理的アプローチ（非特許文献１参照）、音声合成時における系列内変動を考慮したパラメータ生成（非特許文献２参照）、などの手法が提案されているが、自然音声データから得られる音響特徴量の再現には、不十分であるといえる。

そこで近年、単一話者の自然音声データから抽出された音響特徴量、単一話者の自然音声データに対応するテキストデータから抽出された言語特徴量、などを学習データとして、敵対的生成ネットワーク(GAN :Generative Adversarial Network)（非特許文献３参照）により、音響モデルと判別モデルとを交互に学習する音声合成装置（非特許文献４参照）の開発が進められている（図６参照）。

敵対的生成ネットワークによる音響モデルは、音響モデルにより推定される合成音響特徴量を、自然音声データに基づく音響特徴量に近づけるように、即ち、次式（２）に示す自然／合成音声判別モデルの損失関数及び次式（３）に示す音響モデルの損失関数を最小化するように、構築される。

特開２０１７−３２８３９号公報

Takayoshi. Yoshimura, Keiichi. Tokuda, Takashi. Masuko, Takao. Kobayashi, and Tadashi. Kitamura, "Incorporating a mixed excitation model and postfilter into HMM-based text-to-speech synthesis," IEICE Trans. on Information and Systems, vol. J87-D-II, no. 8, pp. 1563-1571, 2004. Tomoki. Toda, Keiichi. Tokuda. A speech parameter generation algorithm considering global variance for HMM-based speech synthesis. IEICE Transactions, Vol. E90-D, No. 5, pp. 816-824, May 2007. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron, Courville, and Yoshua Bengio, "Generative adversarial nets," Proc. NIPS, pp. 2672-2680, 2014. Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Training algorithm to deceive anti-spoofing verification for DNN-based speech synthesis," Proc. ICASSP, pp. 4900--4904, 2017.

図５に示す複数話者の自然音声データを学習データとする音声合成装置によって学習された音響モデルを用いて生成された合成音声は、抑揚のない所謂機械音声に近い音声である。したがって自然音声のようにユーザに感じさせるためには、当該音声に対してポストフィルタなど別途加工処理を施す必要があるという問題があった。例えば、昨今の自動車向けのナビゲーション等では自然音声に近い音声信号でナビゲーションを行うことは一般的に行われている。自動車に実装された演算装置は高性能ではない場合も多く、ナビゲーションのための音声信号をユーザに向けて放音する毎に上記加工処理を行うことは困難な場合もある。

また、図５に示すような複数話者の自然音声データを学習データとする音声合成装置に、図６に示すような敵対的学習を単純に適用すると、モデル学習部は、話者を判別せずに、音響モデル及び判別モデルを学習してしまう。特に学習話者の中に特徴量の分布形状が大きく異なる話者が存在する場合、自然・合成判別装置だけでは話者情報を考慮できず、その当該データの影響を強く受けてしまい、適切に音響モデルおよび判別モデルを学習できない。不適切な学習が行われた場合、敵対的学習することでかえって合成音声が劣化するという問題があった。

かかる事情に鑑みてなされた本発明の目的は、高品質な合成音声を生成することが可能な音響モデル学習装置、音声合成装置、及びプログラムを提供することにある。

上記課題を解決するため、本発明に係る音響モデル学習装置は、抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、音声判別モデル及び話者判別モデルを用いて、複数話者の複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の話者データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第１の学習部と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第２の学習部と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の話者が、所定の話者であることの真偽を判別する前記話者判別モデルを学習する第３の学習部と、を備えることを特徴とする。

また、上記課題を解決するため、本発明に係る音声合成装置は、所望の話者の特徴を有する音声データを合成する音声合成装置であって、テキストデータと前記所望の話者を示す話者データから、前記テキストデータに対応するかつ前記所望の話者の特徴を有する音声データである合成音声データを合成する合成部を有し、前記合成音声データは、所定の判別器により自然音かつ前記所望の話者が発した音声であると判定されることを特徴とする。

また、上記課題を解決するため、本発明に係る音響モデル学習装置は、抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、音声判別モデル及び感情判別モデルを用いて、複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の感情データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第１の学習部と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第２の学習部と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の感情が、所定の感情を示す音響特徴量であることの真偽を判別する前記感情判別モデルを学習する第３の学習部と、を備えることを特徴とする。

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記音響モデル学習装置として機能させることを特徴とする。

本発明によれば、高品質な合成音声を生成することができる。

本発明の第１実施形態に係る音声合成装置の構成の一例を示すブロック図である。本発明の第２実施形態に係る音声合成装置の構成の一例を示すブロック図である。本発明の第３実施形態に係る音声合成装置の構成の一例を示すブロック図である。本発明の第４実施形態に係る音声合成装置の構成の一例を示すブロック図である。従来の音声合成装置の構成の一例を示すブロック図である。従来の音声合成装置の構成の一例を示すブロック図である。

以下、本発明の一実施形態について、図面を参照して詳細に説明する。

＜第１実施形態＞
図１を参照して、第１実施形態に係る音声合成装置１００について説明する。図１は、第１実施形態に係る音声合成装置１００の構成の一例を示す図である。

上述した通り話者が判別されない音響モデルを用いると結果と適切な学習が行われず、かえって敵対的学習をしない場合よりも劣化した音声信号が合成される。このため、話者の識別も行うよう学習させた音響モデルと判別モデルのうち、音響モデルを用いることで、学習話者の特徴量分布に大きな差異があったとしても安定して敵対的学習でき、当初の目的通りの肉声感のある音声信号を合成できる。

図１に示すように、音声合成装置１００は、モデル学習部１０と、音声合成部２０と、を備える。モデル学習部１０は、複数話者の自然音声データ、複数話者の自然音声データに対応する複数のテキストデータ、複数の話者データ、などを学習データとして、敵対的生成ネットワーク(GAN :Generative Adversarial Network)を用いて、音響モデルと判別モデルとを交互に学習する。音声合成部２０は、当該音響モデルを用いて、任意のテキストデータから目標話者（合成音声データの生成対象となる話者）の合成音声データを生成する。

本明細書において、「自然音声」とは、話者が発する自然な音声を意味し、「合成音声」とは、音声合成部２０によって生成される人工的な音声を意味するものとする。また、本明細書において、「音響特徴量」とは、自然音声データに基づく音響特徴量を意味し、「合成音響特徴量」とは、音響モデルにより推定される音響特徴量を意味するものとする。

〔モデル学習部の構成〕
まず、モデル学習部１０について説明する。モデル学習部１０は、音響特徴量計算部１１、言語特徴量計算部１２、音響モデル学習部（第１の学習部）１３、音響特徴量生成部１４、自然／合成音声判別モデル学習部（第２の学習部）１５、話者判別モデル学習部（第３の学習部）１６、データベース（不図示）、などを備える。

音響特徴量計算部１１は、複数話者の自然音声データ（学習データ）に基づいて、複数の音響特徴量を計算する。音響特徴量は、ベクトルで表され、例えば、音韻や声色を表すメルケプストラム、声の高さを表す基本周波数、声のかすれ具合を表す非周期性指標、などである。例えば、音響特徴量計算部１１は、複数話者の自然音声データから、予め設定されるフレームごとに、音響特徴量を抽出し、データベースに該音響特徴量がいずれの話者に対応するかを示す話者データとともに、当該音響特徴量を格納する。

言語特徴量計算部１２は、複数話者の自然音声データに対応する複数のテキストデータ（学習データ）に基づいて、複数の言語特徴量を計算する。言語特徴量は、ベクトルで表され、例えば、音素、アクセント、モーラ長、などである。例えば、言語特徴量計算部１２は、複数のテキストデータに、形態素解析などのテキスト解析処理を施して、言語特徴量を抽出し、データベースに当該言語特徴量を格納する。

音響モデル学習部１３は、合成音響特徴量を、所定の話者（合成音響特徴量の生成対象となる、例えば上記複数の話者のいずれかの、話者）の音響特徴量に近づけるように、即ち、次式（４）に示す音響モデルの損失関数を最小化するように、音響モデルを学習する。音響モデル学習部１３は、判別モデルを詐称するように、音響モデルを学習する。

音響特徴量生成部１４は、音響モデルを用いて、データベースに格納される複数の言語特徴量、及びデータベースに格納される複数の話者データに基づいて、複数の合成音響特徴量を生成する。音響特徴量生成部１４は、言語特徴量と話者データとを用いて、該言語特徴量と該話者データに対応する音響特徴量を推定する。このとき、より連続性の高い滑らかな音声を生成するための工夫として、音響特徴量を1フレーム分の情報しか持たない静的特徴量から、当該フレームの前後の差分情報を持つ動的特徴量に変更することもできる。実際に音声合成するには、動的特徴量から静的特徴量に変換する必要があるが、その際は動的特徴量に基づく最尤パラメータ生成(MLPG)などのアルゴリズムが利用できる。

自然／合成音声判別モデル学習部１５は、データベースに格納される複数の音響特徴量、及びデータベースに格納される複数の合成音響特徴量に基づいて、当該合成音響特徴量が所定の音響特徴量であるとは、例えば、当該合成音響特徴量が自然音データに基づく特徴量の分布に含まれる場合は偽、すなわち自然音声データであると判別することを示す自然／合成音声判別モデルを学習する。

自然／合成音声判別モデル学習部１５は、次式（５）に示す自然／合成音声判別モデルの損失関数を最小化するように、自然／合成音声判別モデルを学習する。自然／合成音声判別モデル学習部１５は、音響モデルによる詐称を見破るように、自然／合成音声判別モデルを学習する。次式（６）は、自然音声に対する損失関数であり、次式（７）は、合成音声に対する損失関数である。

敵対的生成ネットワークにおいて、モデル学習部１０は、合成音響特徴量が自然/合成音声判別モデルに合成音であると判別されてしまわないように音響モデルを学習するため、「真」とは、自然／合成音声判別モデルに判別されないことであり、「偽」とは、自然／合成音声判別モデルに判別されることである。
従って、自然／合成音声判別モデルは、音響特徴量生成部１４により生成された合成音響特徴量が、所定の音響特徴量でないことを「真」、音響特徴量生成部１４により生成された合成音響特徴量が、所定の音響特徴量であることを「偽」、として、当該合成音響特徴量を判別する。また、自然／合成音声判別モデルは、話者判別モデルと同時に最適化される。

話者判別モデル学習部１６は、データベースに格納される複数の音響特徴量、及びデータベースに格納される複数の合成音響特徴量に基づいて、当該合成音響特徴量の話者が所定の話者であることの真偽を判別する話者判別モデルを学習する。なお、データベースに格納される複数の話者データは、話者判別モデル学習部１６に入力されなくてもよいが、補助特徴量として入力されても構わない。

話者判別モデル学習部１６は、次式（８）に示す話者判別モデルの損失関数を最小化するように、話者判別モデルを学習する。話者判別モデル学習部１６は、音響モデルによる詐称を見破るように、話者判別モデルを学習する。次式（９）は音響特徴量の話者が所定の話者であるとして判別されないことに対する損失関数であり、次式（１０）は合成音響特徴量の話者が所定の話者であるとして判別されることに対する損失関数である。

敵対的生成ネットワークにおいて、モデル学習部１０は、話者判別モデルに判別されてしまわないように音響モデルを学習するため、「真」とは、話者判別モデルに判別されないことであり、「偽」とは、話者判別モデルに判別されることである。

従って、話者判別モデルは、音響特徴量生成部１４により生成された合成音響特徴量の話者が、学習データ内の所定の話者に判別されないことを「真」、音響特徴量生成部１４により生成された合成音響特徴量の話者が、学習データ内の所定の話者に判別されることを「偽」、として、当該合成音響特徴量の話者を判別する。また、話者判別モデルは、自然／合成音声判別モデルと同時に最適化される。

上述のように、モデル学習部１０が、音響モデル学習部１３及び自然／合成音声判別モデル学習部１５に加えて、話者判別モデル学習部１６を備えることで、モデル学習部１０は、話者を判別しながら、音響モデル及び判別モデルを学習することができる。この音響モデルを用いて生成された合成音声は、抑揚のある所謂肉声に近い音声であるため、当該音声に対して別途加工処理などを施すことが不要となる。
また、モデル学習部１０は、音声判別タスクの敵対的学習において、合成音響特徴量を所定の音響特徴量に近づけることができ、話者判別タスクの敵対的学習において、合成音響特徴量の話者を所定の話者に近づけることができる。これにより、従来のモデル学習部が、音響モデルにより推定された合成音響特徴量を、複数話者の平均的な音響特徴量に近づけるような学習を行っていた（話者を判別せずに学習を行っていた）という問題を回避し、話者性を明確に反映させた学習を行うモデル学習部１０を実現できる。

〔音声合成部の構成〕
次に、音声合成部２０について説明する。音声合成部２０は、言語特徴量計算部２１、音響特徴量生成部２２、波形生成部２３、データベース（不図示）、などを備える。

言語特徴量計算部２１は、任意のテキストデータに基づいて、言語特徴量を計算する。言語特徴量は、ベクトルで表され、例えば、音素、アクセント、モーラ長、などである。例えば、言語特徴量計算部２１は、任意のテキストデータに、形態素解析などのテキスト解析処理を施して、言語特徴量を抽出し、音声合成部２０内のデータベースに当該言語特徴量を格納する。任意のテキストデータは、音声合成装置１００を利用する利用者によって任意に設定される。

音響特徴量生成部２２は、上述の音響モデルを用いて、音声合成部２０内のデータベースに格納される言語特徴量、音声合成部２０内のデータベースに格納される目標話者の話者データに基づいて、目標話者の合成音響特徴量を生成する。目標話者（例えば、話者Ａ、話者Ｂ、話者Ｃ）は、音声合成装置１００を利用する利用者によって任意に設定される。

波形生成部２３は、目標話者の合成音響特徴量に基づいて、目標話者の合成音声データを生成する。例えば、波形生成部２３は、利用者によって設定された目標話者が話者Ａである場合、話者Ａの合成音声データを生成する。例えば、波形生成部２３は、利用者によって設定された目標話者が話者Ｂである場合、話者Ｂの合成音声データを生成する。例えば、波形生成部２３は、利用者によって設定された目標話者が話者Ｃである場合、話者Ｃの合成音声データを生成する。

なお、図１に示す音声合成装置１００においては、モデル学習部１０と音声合成部２０とを分けて記載しているが、モデル学習部１０と音声合成部２０とは一体的に形成されていてもよい。したがって、音声合成部２０が、モデル学習部１０が備える各部を備えていてもよい。

第１実施形態に係る音声合成装置１００によれば、モデル学習部１０が、自然音であるか否かに加え、話者を判別しながら、音響モデル及び判別モデルを学習することで、この音響モデルを用いて生成された目標話者の合成音声データの品質を高めることができる。即ち、高品質な合成音声を生成することが可能な音声合成装置１００を実現できる。

また、第１実施形態に係る音声合成装置１００によれば、自然／合成音声判別モデルと話者判別モデルとは、同時に最適化されるため、モデル学習部１０の学習を安定化させて、学習精度を向上させることができる。

また、第１実施形態に係る音声合成装置１００によれば、従来のように、合成音響特徴量の過剰な平滑化を抑制するための、信号処理的アプローチや音声合成時における系列内変動を考慮したパラメータ生成などが不要である。これにより、簡易な構成で音声合成装置１００を実現できる。

＜第２実施形態＞
図２を参照して、第２実施形態に係る音声合成装置２００について説明する。図２は、第２実施形態に係る音声合成装置２００の構成の一例を示す図である。

第２実施形態に係る音声合成装置２００が、第１実施形態に係る音声合成装置１００と異なる点は、第１実施形態に係る音声合成装置１００におけるモデル学習部１０が、自然／合成音声判別モデル学習部１５及び話者判別モデル学習部１６という２つの判別モデル学習部を備えるのに対して、第２実施形態に係る音声合成装置２００におけるモデル学習部１０Ａは、自然／合成音声判別モデル学習部１５と話者判別モデル学習部１６とが統合された自然／合成音声判別及び話者判別モデル学習部３０という１つの判別モデル学習部を備える点である。なお、その他の構成は、第１実施形態に係る音声合成装置１００と同じであるため、重複した説明を省略する。

図２に示すように、モデル学習部１０Ａは、音響特徴量計算部１１、言語特徴量計算部１２、音響モデル学習部（第１の学習部）１３、音響特徴量生成部１４、自然／合成音声判別及び話者判別モデル学習部（第２の学習部）３０、などを備える。

自然／合成音声判別及び話者判別モデル学習部３０は、データベースに格納される複数の音響特徴量、及びデータベースに格納される複数の合成音響特徴量に基づいて、当該合成音響特徴量が所定の話者の音響特徴量（合成音響特徴量の生成対象となる話者の自然音声データに基づく音響特徴量）であることの真偽を判別する自然／合成音声判別及び話者判別モデルを学習する。なお、データベースに格納される複数の話者データは、自然／合成音声判別及び話者判別モデル学習部３０に入力されなくてもよいが、補助特徴量として入力されても構わない。

自然／合成音声判別及び話者判別モデル学習部３０は、次式（１２）に示す自然／合成音声判別及び話者判別モデルの損失関数を最小化するように、自然／合成音声判別及び話者判別モデルを学習する。自然／合成音声判別及び話者判別モデル学習部３０は、音響モデルによる詐称を見破るように、自然／合成音声判別及び話者判別モデルを学習する。

敵対的生成ネットワークにおいて、モデル学習部１０は、自然／合成音声判別及び話者判別モデルに判別されてしまわないように音響モデルを学習するため、「真」とは、自然／合成音声判別及び話者判別モデルに判別されないことであり、「偽」とは、自然／合成音声判別及び話者判別モデルに判別されることである。
従って、自然／合成音声判別及び話者判別モデルは、音響特徴量生成部１４により生成された合成音響特徴量が、学習データ内の所定の話者の音響特徴量に判別されないことを「真」、音響特徴量生成部１４により生成された合成音響特徴量が、学習データ内の所定の話者の音響特徴量に判別されることを「偽」、として、当該合成音響特徴量及び当該合成音響特徴量の話者を判別する。また、自然／合成音声判別及び話者判別モデルにおいて、自然／合成音声判別と話者判別とは同時に最適化される。

例えば、自然／合成音声判別及び話者判別モデルは、出力層を除いて、１つのネットワークで構築されてもよい。例えば、自然／合成音声判別及び話者判別モデルは、１つのネットワークが途中で分岐されて構築されてもよい。

自然／合成音声判別モデルと話者判別モデルとが統合された自然／合成音声判別及び話者判別モデルを音声合成装置２００に採用することで、モデル学習部１０Ａは、両モデルを１つの損失関数により統合的に学習することが可能になる。また、モデル学習部１０Ａが、複数のタスク（音声判別タスク、話者判別タスク）を同時に学習することで、各タスクに共通の要因を獲得し、各タスクの予測精度を向上させて、学習を安定化させることができる。また、モデル学習部１０Ａが、複数のタスク（音声判別タスク、話者判別タスク）を同時に学習することで、両モデルのパラメータを共有できるため、推定すべきパラメータ数が減り、過学習に頑健になる等の効果も得られる。

上述のように、モデル学習部１０Ａが、自然／合成音声判別及び話者判別モデル学習部３０を備えることで、モデル学習部１０Ａは、自然音であるか否かに加え、話者を判別しながら、音響モデル及び判別モデルを学習することができる。この音響モデルを用いて生成された合成音声は、抑揚のある所謂肉声に近い音声であるため、当該音声に対して別途加工処理などを施すことが不要となる。
また、モデル学習部１０Ａは、音声判別タスクの敵対的学習において、合成音響特徴量を所定の音響特徴量に近づけることができ、話者判別タスクの敵対的学習において、合成音響特徴量の話者を所定の話者に近づけることができる。これにより、従来のモデル学習部が、音響モデルにより推定された合成音響特徴量を、複数話者の平均的な音響特徴量に近づけるような学習を行っていたという問題を回避し、話者性を明確に反映させた学習を行うモデル学習部１０Ａを実現できる。

第２実施形態に係る音声合成装置２００によれば、モデル学習部１０Ａが、自然／合成音声判別モデルと話者判別モデルとを個別に学習するのではなく、自然／合成音声判別モデルと話者判別モデルとを統合して学習する。モデル学習部１０Ａが、話者を判別しながら、音響モデル及び自然／合成音声判別及び話者判別モデルを学習することで、この音響モデルを用いて生成された目標話者の合成音声データの品質を高めることができる。即ち、高品質な合成音声を生成することが可能な音声合成装置２００を実現できる。

＜第３実施形態＞
図３を参照して、第３実施形態に係る音声合成装置３００について説明する。図３は、第３実施形態に係る音声合成装置３００の構成の一例を示す図である。

第３実施形態に係る音声合成装置３００が、第１実施形態に係る音声合成装置１００と異なる点は、第１実施形態に係る音声合成装置１００におけるモデル学習部１０が、話者間のデータ量を制御する話者間データ量制御部を備えていないのに対して、第３実施形態に係る音声合成装置３００におけるモデル学習部１０Ｂは、話者間のデータ量を制御する話者間データ量制御部４０を備える点である。なお、その他の構成は、第１実施形態に係る音声合成装置１００と同じであるため、重複した説明を省略する。

図３に示すように、モデル学習部１０Ｂは、音響特徴量計算部１１、言語特徴量計算部１２、音響モデル学習部１３、音響特徴量生成部１４、自然／合成音声判別モデル学習部１５、話者判別モデル学習部１６、話者間データ量制御部（データ量制御部）４０、などを備える。

話者間データ量制御部４０Ａは、例えば、音響特徴量計算部１１と自然／合成音声判別モデル学習部１５との間に配置される。また、話者間データ量制御部４０Ｂは、例えば、音響特徴量計算部１１と話者判別モデル学習部１６との間に配置される。また、話者間データ量制御部４０Ｃは、例えば、音響特徴量生成部１４と自然／合成音声判別モデル学習部１５との間に配置される。また、話者間データ量制御部４０Ｄは、例えば、音響特徴量生成部１４と話者判別モデル学習部１６との間に配置される。なお、図３では、モデル学習部１０Ｂが、話者間データ量制御部４０を４つ備える構成を一例に挙げて説明するが、話者間データ量制御部４０の個数は、特に限定されるものではない。

話者間データ量制御部４０Ａは、例えば、自然／合成音声判別モデル学習部１５に入力される複数話者の自然音声データ（学習データ）から抽出された複数の音響特徴量のデータ量を制御する。話者間データ量制御部４０Ａは、話者間に生じるデータ量の差を均一化するように、各話者に対応する音響特徴量を制御し、自然／合成音声判別モデル学習部１５へと出力する。

話者間データ量制御部４０Ｂは、例えば、話者判別モデル学習部１６に入力される複数話者の自然音声データ（学習データ）から抽出された複数の音響特徴量のデータ量を制御する。話者間データ量制御部４０Ｂは、話者間に生じるデータ量の差を均一化するように、各話者に対応する音響特徴量を制御し、話者判別モデル学習部１６へと出力する。

話者間データ量制御部４０Ｃは、例えば、自然／合成音声判別モデル学習部１５に入力される音響特徴量生成部１４により生成された複数の合成音響特徴量のデータ量を制御する。話者間データ量制御部４０Ｃは、話者間に生じるデータ量の差を均一化するように、各話者に対応する合成音響特徴量を制御し、自然／合成音声判別モデル学習部１５へと出力する。

話者間データ量制御部４０Ｄは、例えば、話者判別モデル学習部１６に入力される音響特徴量生成部１４により生成された複数の合成音響特徴量のデータ量を制御する。話者間データ量制御部４０Ｄは、話者間に生じるデータ量の差を均一化するように、各話者に対応する合成音響特徴量を制御し、話者判別モデル学習部１６へと出力する。

モデル学習部１０Ｂが話者間データ量制御部４０を備えることで、モデル学習部１０Ｂは、複数話者の間に生じるデータ量の差が均一化された状態で、音響モデル、自然／合成音声判別モデル、及び話者判別モデルを学習することができる。これにより、複数話者の間に生じるデータ量の差が極端に大きい場合であっても、モデル学習部１０Ｂは、データ量が大きい話者に特化した学習を行うことなく、各話者に対して、均一な学習を行うことができる。従って、モデル学習部１０Ｂの学習を安定化させて、学習精度を向上させることができる。

また、モデル学習部１０Ｂが、音響モデル学習部１３及び自然／合成音声判別モデル学習部に加えて、話者判別モデル学習部１６を備えることで、モデル学習部１０Ｂは、話者を判別しながら、音響モデル及び判別モデルを学習することができる。この音響モデルを用いて生成された合成音声は、抑揚のある所謂肉声に近い音声であるため、当該音声に対して別途加工処理などを施すことが不要となる。

第３実施形態に係る音声合成装置３００によれば、モデル学習部１０Ｂが、自然音であるか否かに加え、話者を判別しながら、音響モデル及び判別モデルを学習することで、この音響モデルを用いて生成された目標話者の合成音声データの品質を高めることができる。即ち、高品質な合成音声を生成することが可能な音声合成装置３００を実現できる。

＜第４実施形態＞
図４を参照して、第４実施形態に係る音声合成装置４００について説明する。図４は、第４実施形態に係る音声合成装置４００の構成の一例を示す図である。

第４実施形態に係る音声合成装置４００が、第１実施形態に係る音声合成装置１００と異なる点は、第１実施形態に係る音声合成装置１００におけるモデル学習部１０が、自然／合成音声判別モデル学習部１５及び話者判別モデル学習部１６という２つの判別モデル学習部を備えるのに対して、第４実施形態に係る音声合成装置４００におけるモデル学習部１０Ｃは、自然／合成音声判別モデル学習部１５と感情判別モデル学習部５０という２つの判別モデル学習部を備える点である。即ち、第４実施形態に係る音声合成装置４００は、第１実施形態に係る音声合成装置１００が話者判別モデル学習部１６を備える代わりに、感情判別モデル学習部５０を備える。なお、その他の構成は、第１実施形態に係る音声合成装置１００と同じであるため、重複した説明を省略する。

第４実施形態に係る音声合成装置４００が備えるモデル学習部１０Ｃは、感情を判別しながら、音響モデル及び判別モデルを学習する。従って、第４実施形態に係る音声合成装置４００は、話者が同一であり、感情表現の異なる複数の自然音声データが学習データとして使用される場合に、特に有用である。

図４に示すように、音声合成装置４００は、モデル学習部１０Ｃと、音声合成部２０と、を備える。モデル学習部１０Ｃは、複数話者の自然音声データ、複数話者の自然音声データに対応する複数のテキストデータ、複数の感情データ、などを学習データとして、敵対的生成ネットワークを用いて、音響モデルと判別モデルとを交互に学習する。音声合成部２０は、音響モデルを用いて、任意のテキストデータから目標とする感情（合成音声データの生成対象となる感情）を示す合成音声データを生成する。

感情データは、ベクトルで表され、例えば、感情コード、などである。感情コードは、ある要素を１、他の要素を０、として表現したJ（J＝感情の個数）次元のベクトルで表すことができる。感情の要素としては、例えば、「喜び」、「悲しみ」、「怒り」、「諦め」、「驚き」、「嫌悪」、「恐怖」、などが挙げられる。

〔モデル学習部の構成〕
まず、モデル学習部１０Ｃについて説明する。モデル学習部１０Ｃは、音響特徴量計算部１１、言語特徴量計算部１２、音響モデル学習部１３、音響特徴量生成部１４、自然／合成音声判別モデル学習部１５、感情判別モデル学習部５０、データベース（不図示）、などを備える。

感情判別モデル学習部５０は、データベースに格納される複数の音響特徴量、及びデータベースに格納される複数の合成音響特徴量に基づいて、当該合成音響特徴量の感情が所定の感情（合成音響特徴量の生成対象となる話者）であることの真偽を判別する感情判別モデルを学習する。なお、データベースに格納される複数の感情データは、感情判別モデル学習部５０に入力されなくてもよいが、補助特徴量として入力されても構わない。

感情判別モデル学習部５０は、次式（１３）に示す感情判別モデルの損失関数を最小化するように、感情判別モデルを学習する。感情判別モデル学習部５０は、音響モデルによる詐称を見破るように、感情判別モデルを学習する。次式（１４）は音響特徴量の感情が所定の感情を示すものとして判別されないことに対する損失関数であり、次式（１５）は合成音響特徴量の感情が所定の感情を示すものとして判別されることに対する損失関数である。

敵対的生成ネットワークにおいて、モデル学習部１０Ｃは、感情判別モデルに判別されてしまわないように音響モデルを学習するため、「真」とは、感情判別モデルに判別されないことであり、「偽」とは、感情判別モデルに判別されることである。
従って、感情判別モデルは、音響特徴量生成部１４により生成された合成音響特徴量の感情が、学習データ内の所定の感情に判別されないことを「真」、音響特徴量生成部１４により生成された合成音響特徴量の感情が、学習データ内の所定の感情に判別されることを「偽」、として、当該合成音響特徴量の感情を判別するモデルである。また、感情判別モデルは、自然／合成音声判別モデルと同時に最適化される。

なお、第４実施形態に係る音声合成装置４００において、第２実施形態に係る音声合成装置２００と同様に、感情判別モデルを、自然／合成音声判別モデルと統合し、モデル学習部１０Ｃが、複数のタスクを同時に学習することも可能である。また、第４実施形態に係る音声合成装置４００に係る感情判別モデルを、第１実施形態に係る音声合成装置１００が備えるモデル、第２実施形態に係る音声合成装置２００が備えるモデル、第３実施形態に係る音声合成装置３００が備えるモデルと、適宜組み合わせて、各実施形態のモデルに、更に感情判別モデルを追加することも可能である。

上述のように、モデル学習部１０Ｃが、音響モデル学習部１３及び自然／合成音声判別モデル学習部に加えて、感情判別モデル学習部５０を備えることで、モデル学習部１０Ｃは、感情を判別しながら、音響モデル及び判別モデルを学習することができる。この音響モデルを用いて生成された合成音声は、抑揚のある所謂肉声に近い音声であるため、当該音声に対して別途加工処理などを施すことが不要となる。
また、モデル学習部１０Ｃは、音声判別タスクの敵対的学習において、合成音響特徴量を所定の音響特徴量に近づけることができ、感情判別タスクの敵対的学習において、合成音響特徴量の感情を所定の感情に近づけることができる。これにより、従来のモデル学習部が、音響モデルにより推定された合成音響特徴量を、感情表現の異なる複数の自然音声データから抽出された平均的な音響特徴量に近づけるような学習を行っていたという問題を回避し、感情表現を明確に反映させた学習を行うモデル学習部１０Ｃを実現できる。

音響特徴量生成部２２は、上述の音響モデルを用いて、音声合成部２０内のデータベースに格納される言語特徴量、音声合成部２０内のデータベースに格納される目標とする感情を示す感情データに基づいて、目標とする感情を示す合成音響特徴量を生成する。目標とする感情（例えば、「喜び」、「悲しみ」、「怒り」、「諦め」、「驚き」、「嫌悪」、「恐怖」）は、音声合成装置４００を利用する利用者によって任意に設定される。

波形生成部２３は、目標とする感情を示す合成音響特徴量に基づいて、目標とする感情を示す合成音声データを生成する。例えば、波形生成部２３は、利用者によって設定された目標とする感情が「喜び」である場合、「喜び」を示す合成音声データを生成する。例えば、波形生成部２３は、利用者によって設定された目標とする感情が「悲しみ」である場合、「悲しみ」を示す合成音声データを生成する。

第４実施形態に係る音声合成装置４００によれば、モデル学習部１０Ｃが、自然音であるか否かに加え、感情を判別しながら、音響モデル及び判別モデルを学習することで、この音響モデルを用いて生成された目標とする感情を示す合成音声データの品質を高めることができる。即ち、高品質な合成音声を生成することが可能な音声合成装置４００を実現できる。

また、第４実施形態に係る音声合成装置４００によれば、感情表現という発話様式が異なるものを混在させて、モデル学習部１０Ｃに学習させても、学習性能が低下することなく、感情表現が明確に反映された合成音声を生成することが可能になる。

＜変形例＞
本実施形態に係る音声合成装置に適用される判別モデルは、話者判別モデルに限定されるものではない。例えば、話者の年齢に依存して、表現の異なる複数の自然音声データが学習データとして使用される場合を想定した年齢判別モデルを採用することも可能である。例えば、話者の性別に依存して、表現の異なる複数の自然音声データ（男女混合データ）が学習データとして使用される場合を想定した性別判定モデルを採用することも可能である。任意の基準で対象を判別できるモデルであれば、どのようなものであってもよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１０モデル学習部
１１音響特徴量計算部
１２言語特徴量計算部
１３音響モデル学習部（第１の学習部）
１４音響特徴量生成部
１５自然／合成音声判別モデル学習部（第２の学習部）
１６話者判別モデル学習部（第３の学習部）
２０音声合成部
２１言語特徴量計算部
２２音響特徴量生成部（生成部）
２３波形生成部
３０自然／合成音声判別及び話者判別モデル学習部（第２の学習部）
４０Ａ話者間データ量制御部（データ量制御部）
４０Ｂ話者間データ量制御部（データ量制御部）
４０Ｃ話者間データ量制御部（データ量制御部）
４０Ｄ話者間データ量制御部（データ量制御部）
５０感情判別モデル学習部（第２の学習部）
１００音声合成装置
２００音声合成装置
３００音声合成装置
４００音声合成装置

Claims

抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、
音声判別モデル及び話者判別モデルを用いて、複数話者の複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の話者データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第１の学習部と、
前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第２の学習部と、
前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の話者が、所定の話者であることの真偽を判別する前記話者判別モデルを学習する第３の学習部と、
を備える音響モデル学習装置。
前記第１の学習部は、前記音響モデルの損失関数を最小化するように前記音響モデルを学習し、
前記第２の学習部は、前記音声判別モデルの損失関数を最小化するように前記音声判別モデルを学習し、
前記第３の学習部は、前記話者判別モデルの損失関数を最小化するように前記話者判別モデルを学習する、
請求項１に記載の音響モデル学習装置。
前記音声判別モデルと前記話者判別モデルとは、同時に最適化される、
請求項１または２に記載の音響モデル学習装置。
前記複数話者の間に生じるデータ量の差を均一化するデータ量制御部を更に備える、
請求項１から３のいずれか一項に記載の音響モデル学習装置。
所望の話者の特徴を有する音声データを合成する音声合成装置であって、
テキストデータと前記所望の話者を示す話者データから、前記テキストデータに対応するかつ前記所望の話者の特徴を有する音声データである合成音声データを合成する合成部を有し、
前記合成音声データは、所定の判別器により自然音かつ前記所望の話者が発した音声であると判定される、
音声合成装置。
抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、
音声判別モデル及び感情判別モデルを用いて、複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の感情データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第１の学習部と、
前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第２の学習部と、
前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の感情が、所定の感情を示す音響特徴量であることの真偽を判別する前記感情判別モデルを学習する第３の学習部と、
を備える音響モデル学習装置。
コンピュータを、請求項１から４、または６のいずれか一項に記載の音響モデル学習装置として機能させるためのプログラム。