JP2021067885A - 音響特徴量変換モデル学習装置、方法およびプログラム、ニューラルボコーダ学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム - Google Patents

音響特徴量変換モデル学習装置、方法およびプログラム、ニューラルボコーダ学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム Download PDF

Info

Publication number
JP2021067885A
JP2021067885A JP2019194609A JP2019194609A JP2021067885A JP 2021067885 A JP2021067885 A JP 2021067885A JP 2019194609 A JP2019194609 A JP 2019194609A JP 2019194609 A JP2019194609 A JP 2019194609A JP 2021067885 A JP2021067885 A JP 2021067885A
Authority
JP
Japan
Prior art keywords
acoustic feature
synthetic
conversion model
natural
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019194609A
Other languages
English (en)
Inventor
大和 大谷
Yamato Otani
大和 大谷
悟行 松永
Noriyuki Matsunaga
悟行 松永
平井 啓之
Hiroyuki Hirai
啓之 平井
戸田 智基
Tomoki Toda
智基 戸田
ウー イーチャオ
Yi-Chiao Wu
ウー イーチャオ
ルンバン, トビン パトリック
Lumban Tobing Patrick
ルンバン, トビン パトリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Co Ltd
Tokai National Higher Education and Research System NUC
Original Assignee
AI Co Ltd
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Co Ltd, Tokai National Higher Education and Research System NUC filed Critical AI Co Ltd
Priority to JP2019194609A priority Critical patent/JP2021067885A/ja
Publication of JP2021067885A publication Critical patent/JP2021067885A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 ニューラルボコーダが生成する音声波形の品質を高め、高品質な音声合成技術を提供する。【解決手段】 2段階の学習処理を行ってから、ニューラルボコーダによる音声合成処理を行う。第1段階の学習処理は、音響量特徴変換モデルの学習に関する。この段階では、S2N変換モデル及びN2S変換モデルを循環的に同時に学習(更新)する。また、これらの変換モデルの学習に際し、同じコーパスを用いているため、自然音響特徴量と合成音響特徴量の長さは同じである。第2段階の学習処理は、ニューラルボコーダの学習に関する。第1段階で学習したN2S変換モデル及びS2N変換モデルを用いて、自然音響特徴量からN2S−S2N合成音響特徴量を生成し、ニューラルボコーダの学習に用いる。【選択図】 図1

Description

本発明の実施形態は、入力テキストに応じた音声を合成する音声合成技術に関する。
より高品質な合成音声を得るためには、合成音響特徴量から自然な音声波形を直接生成するニューラルボコーダが必要である。
特許文献1は、機械学習用の入力音声に対する予測量子化と自己回帰モデルを組み合わせることで、合成音声に生じる聴覚上のノイズを低減させる音声合成技術が開示されている。予測量子化は、入力音声信号を予測係数と残差信号に分離する。予測係数は声道フィルタを示すパラメータに相当し、残差信号は励振源に相当する。また、残差信号を推定する際に、Wavenetと呼ばれる、入力テキストの言語特徴量を表すコンテキストラベル系列から音声信号を直接的に推定する手法を用いている。この手法によって、自然音響特徴量から音声波形を直接生成するボコーダを生成する技術も開示している。
また、非特許文献1は、より高品質な声質変換技術を実現するために、循環的な学習を行うことが開示されている。声質変換技術とは、ある特定の話者が発声した音声に対して、発話内容を保持しつつ、あたかも別の特定の話者が発声した音声に聞こえるように変換する技術である。
特開2018−141917号公報 Tobing et al.、VOICE CONVERSION WITH CYCLIC RECURRENT NEURAL NETWORK AND FINE−TUNED WAVENET VOCODER、Date Added to IEEE Xplore: 17 April 2019、http://dx.doi.org/10.1109/ICASSP.2019.8682156
しかしながら、ニューラルボコーダの学習において、音響モデルの特徴量と自然音声との間で時間的な構造のミスマッチが存在することが知られている。そのため、学習されたニューラルボコーダから生成される波形の品質が低いという問題がある。これにより、ニューラルボコーダの学習では自然音声の音響特徴量を用いて学習されるが、合成時には音響モデルの特徴量を入力するため、音響的なミスマッチが生じ波形の品質が低くなる問題がある。
本発明は、このような課題に着目して鋭意研究され完成されたものであり、その目的は、ニューラルボコーダが生成する音声波形の品質を高め、高品質な音声合成技術を提供することにある。
上記課題を解決するために、第1の発明は、複数の発話音声から抽出された言語特徴量及び自然音響特徴量を発話単位で記憶するコーパス記憶部と、ある言語特徴量からある合成音響特徴量を予測するための予測モデルを記憶する予測モデル記憶部と、ある自然音響特徴量からある合成音響特徴量へ変換するN2S変換モデルを記憶するN2S変換モデル記憶部と、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを記憶するS2N変換モデル記憶部と、前記言語特徴量を入力とし、前記予測モデルを用いて合成音響特徴量を予測する合成音響特徴量予測部と、前記合成音響特徴量を入力とし、前記S2N変換モデルを用いてS2N合成音響特徴量を生成する第1のS2N処理部と、前記自然音響特徴量と前記S2N合成音響特徴量に関する第1の誤差を計算する第1の誤差計算部と、前記自然音響特徴量を入力とし、前記N2S変換モデルを用いてN2S合成音響特徴量を生成する第1のN2S処理部と、前記N2S合成音響特徴量を入力とし、前記S2N変換モデルを用いてN2S−S2N合成音響特徴量を生成する第2のS2N処理部と、前記自然音響特徴量と前記N2S−S2N合成音響特徴量に関する第2の誤差を計算する第2の誤差計算部と、前記第1の誤差及び前記第2の誤差を足した損失に所定の最適化を行い、前記S2N変換モデル及び前記N2S変換モデルを更新する変換モデル更新部を備える音響特徴量変換モデル学習装置である。
第2の発明は、前記合成音響特徴量予測部、前記S2N処理部、第1の誤差計算部、前記第1のN2S処理部、前記第2のS2N処理部、前記第2の誤差計算部、及び、前記変換モデル更新部は、フレーム単位で実行する第1の発明に記載の音響特徴量変換モデル学習装置である。
第3の発明は、複数の発話音声から抽出された言語特徴量及び自然音響特徴量を発話単位で記憶するコーパスから、前記言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測するための予測モデルを用いて合成音響特徴量を予測し、前記合成音響特徴量を入力とし、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを用いてS2N合成音響特徴量を生成し、前記自然音響特徴量と前記S2N合成音響特徴量に関する第1の誤差を計算し、前記自然音響特徴量を入力とし、ある自然音響特徴量からある合成音響特徴量へ変換するN2S変換モデルを用いてN2S合成音響特徴量を生成し、前記N2S合成音響特徴量を入力とし、前記S2N変換モデルを用いてN2S−S2N合成音響特徴量を生成し、前記自然音響特徴量と前記N2S−S2N合成音響特徴量に関する第2の誤差を計算し、前記第1の誤差及び前記第2の誤差を足した損失に所定の最適化を行い、前記S2N変換モデル及び前記N2S変換モデルを更新する音響特徴量変換モデル学習方法である。
第4の発明は、複数の発話音声から抽出された言語特徴量及び自然音響特徴量を発話単位で記憶するコーパスから、前記言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測するための予測モデルを用いて合成音響特徴量を予測するステップと、前記合成音響特徴量を入力とし、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを用いてS2N合成音響特徴量を生成するステップと、前記自然音響特徴量と前記S2N合成音響特徴量に関する第1の誤差を計算するステップと、前記自然音響特徴量を入力とし、ある自然音響特徴量からある合成音響特徴量へ変換するN2S変換モデルを用いてN2S合成音響特徴量を生成するステップと、前記N2S合成音響特徴量を入力とし、前記S2N変換モデルを用いてN2S−S2N合成音響特徴量を生成するステップと、前記自然音響特徴量と前記N2S−S2N合成音響特徴量に関する第2の誤差を計算するステップと、前記第1の誤差及び前記第2の誤差を足した損失に所定の最適化を行い、前記S2N変換モデル及び前記N2S変換モデルを更新するステップと、をコンピュータに実行させる音響特徴量変換モデル学習プログラムである。
第5の発明は、複数の発話音声から抽出された自然音響特徴量及び自然音声波形を発話単位で記憶するコーパス記憶部と、第1の発明に記載の音響特徴量変換モデル学習装置で学習した、ある自然音響特徴量からある合成音響特徴量へ変換するN2S変換モデルを記憶するN2S変換モデル記憶部と、第1の発明に記載の音響特徴量変換モデル学習装置で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを記憶するS2N変換モデル記憶部と、ある合成音響特徴量を入力とし、音声波形を生成するためのニューラルボコーダを記憶するニューラルボコーダ記憶部と、前記自然音響特徴量を入力とし、前記N2S変換モデルを用いてN2S合成音響特徴量を生成するN2S処理部と、前記N2S合成音響特徴量を入力とし、前記S2N変換モデルを用いてN2S−S2N合成音響特徴量を生成するS2N処理部と、前記N2S−S2N合成音響特徴量、前記自然音響特徴量、及び、少なくとも1サンプル以上前の複数の自然音声波形を入力とし、前記ニューラルボコーダを用いて合成音声波形を生成する波形合成処理部と、前記合成音声波形及び前記自然音声波形に関する誤差を計算し、前記誤差に所定の最適化を行い、前記ニューラルボコーダを更新する誤差計算ボコーダ更新部を備えるニューラルボコーダ学習装置である。
第6の発明は、複数の発話音声から抽出された自然音響特徴量及び自然音声波形を発話単位で記憶するコーパスから、前記自然音響特徴量を入力とし、第3の発明に記載の音響特徴量変換モデル学習方法で学習した、ある自然音響特徴量からある合成音響特徴量へ変換するN2S変換モデルを用いて、N2S合成音響特徴量を生成し、前記N2S合成音響特徴量を入力とし、第3の発明に記載の音響特徴量変換モデル学習方法で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを用いて、N2S−S2N合成音響特徴量を生成し、前記N2S−S2N合成音響特徴量、前記自然音響特徴量、及び、少なくとも1サンプル以上前の複数の自然音声波形を入力とし、ある合成音響特徴量を入力とし、音声波形を生成するためのニューラルボコーダを用いて合成音声波形を生成し、前記合成音声波形及び前記自然音声波形に関する誤差を計算し、前記誤差に所定の最適化を行い、前記ニューラルボコーダを更新するニューラルボコーダ学習方法である。
第7の発明は、複数の発話音声から抽出された自然音響特徴量及び自然音声波形を発話単位で記憶するコーパスから、前記自然音響特徴量を入力とし、第4の発明に記載の音響特徴量変換モデル学習プログラムで学習した、ある自然音響特徴量からある合成音響特徴量へ変換するN2S変換モデルを用いて、N2S合成音響特徴量を生成するステップと、前記N2S合成音響特徴量を入力とし、第4の発明に記載の音響特徴量変換モデル学習プログラムで学習した、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを用いて、N2S−S2N合成音響特徴量を生成するステップと、前記N2S−S2N合成音響特徴量、前記自然音響特徴量、及び、少なくとも1サンプル以上前の複数の自然音声波形を入力とし、ある合成音響特徴量を入力とし、音声波形を生成するためのニューラルボコーダを用いて合成音声波形を生成するステップと、前記合成音声波形及び前記自然音声波形に関する誤差を計算し、前記誤差に所定の最適化を行い、前記ニューラルボコーダを更新するステップと、をコンピュータに実行させるニューラルボコーダ学習プログラムである。
第8の発明は、音声合成対象文章の言語特徴量を記憶するコーパス記憶部と、ある言語特徴量からある合成音響特徴量を予測する予測モデルを記憶する予測モデル記憶部と、第1の発明に記載の音響特徴量変換モデル学習装置で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを記憶するS2N変換モデル記憶部と、第5の発明に記載のニューラルボコーダ学習装置で学習した、音声波形を生成するためのニューラルボコーダを記憶するニューラルボコーダ記憶部と、前記言語特徴量を入力とし、前記予測モデルを用いて合成音響特徴量を予測する合成音響特徴量予測部と、前記合成音響特徴量を入力とし、前記S2N変換モデルを用いてS2N合成音響特徴量を生成するS2N処理部と、前記S2N合成音響特徴量を入力とし、前記ニューラルボコーダを用いて合成音声波形を生成する波形合成処理部を備える音声合成装置である。
第9の発明は、前記波形合成処理部は、少なくとも1サンプル以上前の複数の前記合成音声波形をさらに入力とする第8の発明に記載の音声合成装置である。
第10の発明は、音声合成対象文章の言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測する予測モデルを用いて、合成音響特徴量を予測し、前記合成音響特徴量を入力とし、第3の発明に記載の音響特徴量変換モデル学習方法で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを用いて、S2N合成音響特徴量を生成し、前記S2N合成音響特徴量を入力とし、第6の発明に記載のニューラルボコーダ学習方法で学習した、音声波形を生成するためのニューラルボコーダを用いて、合成音声波形を生成する音声合成方法である。
第11の発明は、音声合成対象文章の言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測する予測モデルを用いて、合成音響特徴量を予測するステップと、前記合成音響特徴量を入力とし、第4の発明に記載の音響特徴量変換モデル学習プログラムで学習した、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを用いて、S2N合成音響特徴量を生成するステップと、前記S2N合成音響特徴量を入力とし、第7の発明に記載のニューラルボコーダ学習プログラムで学習した、音声波形を生成するためのニューラルボコーダを用いて、合成音声波形を生成するステップと、
をコンピュータに実行させる音声合成プログラムである。
本発明によれば、ニューラルボコーダが生成する音声波形の品質を高め、高品質な音声合成技術を提供することができる。
本発明の実施形態に係る変換モデル学習装置の機能ブロック図ある。 本発明の実施形態に係るニューラルボコーダ学習装置の機能ブロック図ある。 本発明の実施形態に係る音声合成装置の機能ブロック図ある。 本発明の実施形態に係る音声評価結果を示す図である。
図面を参照しながら本発明の実施の形態を説明する。ここで、各図において共通する部分には同一の符号を付し、重複した説明は省略する。また、図形は、長方形が処理部を表し、平行四辺形がデータを表し、円柱がデータベースを表す。また、実線の矢印は処理の流れを表し、点線の矢印はデータベースの入出力を表す。
処理部及びデータベースは機能ブロック群であり、ハードウェアでの実装に限られず、ソフトウェアとしてコンピュータに実装されていてもよく、その実装形態は限定されない。例えば、パーソナルコンピュータ等のクライアント端末と有線又は無線の通信回線(インターネット回線など)に接続された専用サーバにインストールされて実装されていてもよいし、いわゆるクラウドサービスを利用して実装されていてもよい。
[A.本実施形態の概要]
本実施形態では、2段階の学習処理を行ってから、Wavenetニューラルボコーダによる音声合成処理を行う。これによって、Wavenetニューラルボコーダが生成する音声波形の品質を高め、高品質な音声合成が可能になる。
(a1.第1段階の学習;音響量特徴変換モデルの学習)
第1段階の学習処理は、音響量特徴変換モデルの学習に関する。この段階では、S2N変換モデル及びN2S変換モデルを循環的に同時に学習(更新)する。また、これらの変換モデルの学習に際し、同じコーパスを用いているため、自然音響特徴量と合成音響特徴量の長さは同じである。
ここで、「S」は合成音響特徴量を表し、「N」は自然音響特徴量を表す。また、「S2N変換モデル」は合成音響特徴量から自然音響特徴量へ変換するモデルを表し、「N2S変換モデル」は自然音響特徴量から合成音響特徴量へ変換するモデルを表す。さらに、「S2N変換モデル」と「N2S変換モデル」を総称して、「音響特徴量変換モデル」と呼んでもよいし、単に「変換モデル」と呼んでもよい。
S2N変換モデルは式(1)のようにモデル化できる。
Figure 2021067885
N2S変換モデルは式(2)のようにモデル化できる。
Figure 2021067885
式(1)及び(2)は、Xが合成音響特徴量を、Yが自然音響特徴量を表す。また、f()はニューラルネットワークを表す。また、tはフレームインデックスを表し、フレーム間隔は5mS程度である。本実施形態では音響特徴量としてメルケプストラムを用いている。
このようなS2N変換モデル及びN2S変換モデルはフレーム単位で同時に学習(更新)できる。さらに、後述する変換モデル更新部などによって、S2N変換モデル及びN2S変換モデルは循環的に学習(更新)できる。このようにして、音響特徴量変換モデルを学習(更新)することが可能になる。
(a2.第2段階の学習;ニューラルボコーダの学習)
第2段階の学習処理は、ニューラルボコーダの学習に関する。第1段階で学習したN2S変換モデル及びS2N変換モデルを用いて、自然音響特徴量からN2S−S2N合成音響特徴量を生成し、ニューラルボコーダの学習に用いる。
(a3.音声合成処理)
音声合成処理では、TTSモデルからS2N変換モデルを用いてS2N合成音響特徴量を生成する。そして、第2段階で学習したニューラルボコーダが、S2N合成音響特徴量からより自然な音声波形を直接生成する。
[B.変換モデル学習装置の具体的な構成]
図1は、本実施形態に係る変換モデル学習装置の機能ブロック図ある。変換モデル学習装置100は、各データベースとして、コーパス記憶部110と、予測モデル記憶部113と、S2N変換モデル記憶部140と、N2S変換モデル記憶部150を備えている。また、変換モデル学習装置100は、各処理部として、音響特徴量予測部112と、第1のS2N処理部115と、第1の誤差計算部130と、第1のN2S処理部122と、第2のS2N処理部125と、第2の誤差計算部131と、変換モデル更新部132を備えている。
まず、音声合成したい人(芸能人や声優、自分の声など)の音声(「所望の話者の音声」又は「カスタム・ボイス」ともいう)を事前に収録する。ここでは200文程度の文章を読み上げ(発話し)、その発話音声を収録し、音声辞書を作成する。音声辞書には、発話音声から抽出されたコンテキスト、音声波形、及び、自然音響特徴量が発話単位で格納されている。発話単位とは、文章(さらにフレームインデックス)毎の意味である。コンテキスト(「言語特徴量」ともいう)は各文章をテキスト解析した結果であり、音声波形に影響を与える要因(音素の並び、アクセント、イントネーションなど)である。音声波形は人が各文章を読み上げ、マイクロフォンに入力された波形である。
音響特徴量としてはスペクトル特徴量、基本周波数、周期・非周期指標、有声無声判定フラグなどがある。さらに、スペクトル特徴量としてはメルケプストラム、LPC(Linear Predictive Coding)、LSP(Line Spectral Pairs)などがある。本実施形態ではスペクトル音響特徴量としてメルケプストラムを用いている。
コーパス記憶部110は、この音声辞書を格納している。変換モデルの学習のためには、少なくともコンテキスト111及び自然音響特徴量121が文章(さらにフレームインデックス)毎に記憶されていればよい。以下では、所定の文章(ここでは文章番号1)の所定のフレームインデックスtについてのコンテキスト111及び自然音響特徴量121を用いて説明する。
(b1.コーパス110から第1の誤差計算部130までの処理)
音響特徴量予測部112は、コンテキスト111を入力とし、予測モデル記憶部113に記憶されている、コンテキストから合成音響特徴量を予測するための予測モデルで処理し、合成音響特徴量114を出力する。
予測モデル記憶部113は、予測モデルとして、パラメトリック音声合成用音響モデルを記憶している。パラメトリック音声合成用音響モデルとしては、例えば隠れ(セミ)マルコフモデル(Hidden (Semi) Markov Model;H(S)MM)やフィードフォワードニューラルネットワーク(Feed Forward Neural Network;FFNN)、各種リカレントネットワーク(Recurrent Neural Network;RNN)、畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)、及び、これらを組み合わせたモデルであればよい。
第1のS2N処理部115は、合成音響特徴量114を入力とし、S2N変換モデル記憶部140のS2N変換モデルで処理し、S2N合成音響特徴量116を出力する。
各変換モデル(S2N変換モデル、及び、後述するN2S変換モデル)は、時系列情報がモデル化される構造であればよく、例えばHMM、RNN、Causal CNNやそれらを組み合わせたモデルであればよい。
合成音響特徴量114と自然音響特徴量121の時系列情報の長さは元々、同じである。これは、同じコーパス110の同じ文章(ここでは文章番号1)の同じフレームインデックスt、すなわち時間情報を用いて、予測モデル記憶部113の予測モデルから合成音響特徴量114を予測しているからである。
しかしながら、予測モデルは自然音響特徴量と完全に一致するように予測することが困難なため、合成音響特徴量114には、微小なずれが生じてしまう。これが、合成音響特徴量114と自然音響特徴量121の時間的な構造のミスマッチである。
変換モデル学習の特徴は、合成音響特徴量114の微小なずれを補正するように学習することである。このために、各変換モデル(S2N変換モデル、及び、後述するN2S変換モデル)は、自然音響特徴量121と変換された合成特徴量との間で時間的な構造のミスマッチが存在しなくなるように学習する必要がある。
第1の誤差計算部130は、S2N合成音響特徴量116と自然音響特徴量121の誤差を第1の誤差として計算する。第1、及び、後述する第2の誤差計算には、フレーム同士の距離を二乗誤差で計算する。
(b2.コーパス110から第2の誤差計算部131までの処理)
第1のN2S処理部122は、自然音響特徴量121を入力とし、N2S変換モデル記憶部150のN2S変換モデルで処理し、N2S合成音響特徴量124を出力する。
第2のS2N処理部125は、N2S合成音響特徴量124を入力とし、S2N変換モデル記憶部140のS2N変換モデルで処理し、N2S−S2N合成音響特徴量126を出力する。
第2の誤差計算部131は、N2S−S2N合成音響特徴量126と自然音響特徴量121の誤差を第2の誤差として計算する。
(b3.変換モデルの更新処理)
変換モデル更新部132は、第1の誤差と第2の誤差を足し、変換モデル全体(すなわち、S2N変換モデル及びN2S変換モデル)の損失とする。そして、この損失に所定の最適化(例えば、誤差逆伝搬法;Back Propagation)を行い、S2N変換モデル及びN2S変換モデルをそれぞれ更新する。更新後のS2N変換モデル及びN2S変換モデルはそれぞれS2N変換モデル記憶部140及びN2S変換モデル記憶部150に記憶される。
このような更新処理が、コーパス記憶部110に記憶された全ての文章(本実施形態では200文程度)について実行される。このようにして、S2N変換モデル及びN2S変換モデルはフレーム単位で同時に学習(更新)できる。
また、更新処理によれば、N2S変換モデル及びS2N変換モデルを用いて自然音響特徴量121からN2S−S2N合成音響特徴量126へ戻している。N2S−S2N合成音響特徴量126は理論的には自然音響特徴量121と同じなるべきであるから、循環処理しているといえる。よって、S2N変換モデル及びN2S変換モデルは循環的に学習(更新)できる。
[C.ニューラルボコーダ学習装置の具体的な構成]
(c1.カスタム・ボイスの場合のニューラルボコーダの学習方法)
図2は、本実施形態に係るニューラルボコーダ学習装置の機能ブロック図ある。ニューラルボコーダ学習装置200は、各データベースとして、コーパス記憶部210と、変換モデル学習装置100で学習したS2N変換モデル記憶部141、及び、N2S変換モデル記憶部151と、ニューラルボコーダ記憶部260を備えている。また、ニューラルボコーダ学習装置200は、各処理部として、N2S処理部212と、S2N処理部214と、波形合成処理部230と、誤差計算ボコーダ更新部250を備えている。
コーパス記憶部210は、コーパス記憶部110と同様、音声辞書を格納している。ニューラルボコーダの学習のためには、少なくとも自然音響特徴量211及び自然音声波形220が文章(さらにフレームインデックス)毎に記憶されていればよい。以下では、所定の文章(ここでは文章番号1)の所定のフレームインデックスtについての自然音響特徴量211及び自然音声波形220を用いて説明する。
N2S処理部212は、自然音響特徴量211を入力とし、N2S変換モデル記憶部151の学習後のN2S変換モデルで処理し、N2S合成音響特徴量213を出力する。
S2N処理部214は、N2S合成音響特徴量213を入力とし、S2N変換モデル記憶部141の学習後のS2N変換モデルで処理し、N2S−S2N合成音響特徴量215を出力する。
波形合成処理部230は、N2S−S2N合成音響特徴量215、自然音響特徴量211、及び、少なくとも1サンプル以上前の複数の自然音声波形220を入力とし、ニューラルボコーダ記憶部260のニューラルボコーダで処理し、合成音声波形240を出力する。ここで、1サンプルは110分の1フレームである。
波形合成処理部230は、N2S−S2N合成音響特徴量215からスペクトル特徴量(本実施形態ではメルケプストラム)を第1の抽出量として抽出し、自然音響特徴量211からはスペクトル特徴量以外の音響特徴量(基本周波数など)を第2の抽出量として抽出する。ここで、N2S−S2N合成音響特徴量215及び自然音響特徴量211は同じ時間情報(フレームインデックスt)を有している。
波形合成処理部230は、第1の抽出量、第2の抽出量、及び、少なくとも1サンプル以上前の複数の自然音声波形220をニューラルボコーダに入力し、合成音声波形240を生成する。
ニューラルボコーダ記憶部260のニューラルボコーダは、音声波形を生成するためのニューラルネットワークである。本実施形態では、自己回帰型Wavenetニューラルネットワークを用いている。また、他のニューラルネットワークとして、自己再帰型Wavenet、SampleRNN、WaveRNN、FFTNet、Neural Source−filterなどで構成されていてもよい。さらに、非自己回帰型であるパラレルWavenet、WaveGlowなどで構成されていてもよい。
誤差計算ボコーダ更新部250は、合成音声波形240及び自然音声波形220を入力とし、これらの誤差に所定の最適化(例えば、誤差逆伝搬法;Back Propagation)を行い、ニューラルボコーダを更新する。更新後のニューラルボコーダはニューラルボコーダ記憶部260に記憶される。
このような更新処理が、コーパス記憶部110に記憶された全ての文章(本実施形態では200文程度)について実行される。
(c2.その他の場合のニューラルボコーダの学習方法)
上述したカスタム・ボイスの場合は、所望の話者のN2S合成音響特徴量を用いて一から学習を行った。この他に、以下の3種類の学習を行ってもよい。
第1の学習は、複数の話者のN2S合成音響特徴量を用いて一から学習を行い、話者非依存な共通ニューラルボコーダを生成する。第2の学習は、ある話者のN2S合成音響特徴量または自然音響特徴量またはその両方を用いて学習したニューラルボコーダを利用して、所望の話者のN2S合成音響特徴量を用いて再学習を行う。これは、Fine Tuningや話者適応に相当する。第3の学習は、複数の話者のN2S合成音響特徴量または自然音響特徴量またはその両方を用いて学習したニューラルボコーダを利用して、所望の話者のN2S合成音響特徴量を用いて再学習する。なお、上記3種類の学習を行う場合、いずれも変換モデルの学習から行う必要がある。
[D.音声合成装置の具体的な構成]
図3は、本実施形態に係る音声合成装置の機能ブロック図ある。音声合成装置300は、各データベースとして、コーパス記憶部310と、予測モデル記憶部113と、変換モデル学習装置100で学習したS2N変換モデル記憶部141と、ニューラルボコーダ学習装置200で学習したニューラルボコーダ記憶部261を備えている。また、音声合成装置300は、各処理部として、音響特徴量予測部112と、S2N処理部214と、波形合成処理部340を備えている。
コーパス記憶部310は、音声合成したい文章(音声合成対象文章)のコンテキスト311を記憶している。
音響特徴量予測部112は、コンテキスト311を入力とし、予測モデル記憶部113の予測モデルで処理し、合成音響特徴量313を出力する。
S2N処理部214は、合成音響特徴量313を入力とし、S2N変換モデル記憶部141の学習後のS2N変換モデルで処理し、S2N合成音響特徴量315を出力する。
波形合成処理部330は、S2N合成音響特徴量315及び、少なくとも1サンプル以上前の複数の合成音声波形340を入力とし、ニューラルボコーダ記憶部261の学習後のニューラルボコーダで処理し、合成音声波形340を出力する。
ここで、パラレルWavenet、WaveGlowなどの非自己回帰型ニューラルボコーダの場合、S2N合成音響特徴量315だけを入力すればよい。すなわち、少なくとも1サンプル以上前の複数の合成音声波形340の入力は必須ではない。
[E.音声評価結果]
図4は、本実施形態に係る音声評価結果を示す図である。図4a)は、実験で使用した音声の表である。「ニューラルボコーダの学習に用いる音響特徴量」とは、図1及び図2で説明したWavenetニューラルボコーダの2段階学習で用いた特徴量であり、AはN2S−S2N合成音響特徴量126、Bは自然音響特徴量121、Cは合成音響特徴量114である。また、「合成時にニューラルボコーダに入力する音響特徴量」とは、図3で説明した音声合成装置に入力する特徴量であり、AはS2N合成音響特徴量315、Bは合成音響特徴量313、Cは合成音響特徴量313である。なお、Aは本実施形態に係る音声と同一のものである。
図4b)は、実験結果を示す。実験では一対比較法により異なる手法の音声対のうちどちらのほうが音質が良いかを比較評価したものである。実験では10名の被験者に評価してもらい、音質が良いと判断された音声サンプル数の割合(%)を棒グラフにより表示したものとなっている。実験では上段b−1)がAとCの音声対、下段b−2)がAとBの音声対を用いた実験結果を示しており、b−1)AとCの音声対はニューラルボコーダの学習における入力音響特徴量と自然音声波形との時間的な構造のミスマッチの影響の評価を目的としたもの、および、b−2)AとBの音声対はニューラルボコーダの学習に用いる音響特徴量と合成時に入力する音響特徴量の音響的なミスマッチの影響の評価を目的としたものとなっている。b−1)AとCの音声対の評価結果から、本実施形態は時間的なミスマッチを緩和することが示されている。またb−2)AとBの音声対の評価結果から、学習時と合成時における音響的なミスマッチを緩和することが示されている。
[F.作用効果]
変換モデル学習装置100は、S2N変換モデル及びN2S変換モデルを循環的に同時に学習(更新)するため、時間的な構造のミスマッチを抑えたS2N変換モデルとN2S変換モデルを生成することが可能である。また、ニューラルボコーダ学習装置200は、学習後のN2S変換モデル及びS2N変換モデルを用いて、自然音響特徴量からN2S−S2N合成音響特徴量(例えば、スペクトル)を生成し、ニューラルボコーダの学習に用いることで学習時と合成時の音響的なミスマッチを抑えることが可能である。さらに、音声合成装置300は、音声合成対象文章のコンテキストから予測モデルを用いて合成音響特徴量を予測し、さらに学習後のS2N変換モデルを用いてS2N合成音響特徴量を生成し、学習後のニューラルボコーダで音声合成することが可能になる。
本実施形態によれば、ニューラルボコーダが生成する音声波形の品質を高め、高品質な音声合成が可能になる。
以上、本発明の実施形態について説明してきたが、これらのうち、2つ以上の実施例を組み合わせて実施しても構わない。あるいは、これらのうち、1つの実施例を部分的に実施しても構わない。
また、本発明は、上記発明の実施形態の説明に何ら限定されるものではない。特許請求の範囲の記載を逸脱せず、当業者が容易に想到できる範囲で種々の変形態様もこの発明に含まれる。
100 変換モデル学習装置(音響特徴量変換モデル学習装置)
200 ニューラルボコーダ学習装置
300 音声合成装置

Claims (11)

  1. 複数の発話音声から抽出された言語特徴量及び自然音響特徴量を発話単位で記憶するコーパス記憶部と、
    ある言語特徴量からある合成音響特徴量を予測するための予測モデルを記憶する予測モデル記憶部と、
    ある自然音響特徴量からある合成音響特徴量へ変換するN2S変換モデルを記憶するN2S変換モデル記憶部と、
    ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを記憶するS2N変換モデル記憶部と、
    前記言語特徴量を入力とし、前記予測モデルを用いて合成音響特徴量を予測する合成音響特徴量予測部と、
    前記合成音響特徴量を入力とし、前記S2N変換モデルを用いてS2N合成音響特徴量を生成する第1のS2N処理部と、
    前記自然音響特徴量と前記S2N合成音響特徴量に関する第1の誤差を計算する第1の誤差計算部と、
    前記自然音響特徴量を入力とし、前記N2S変換モデルを用いてN2S合成音響特徴量を生成する第1のN2S処理部と、
    前記N2S合成音響特徴量を入力とし、前記S2N変換モデルを用いてN2S−S2N合成音響特徴量を生成する第2のS2N処理部と、
    前記自然音響特徴量と前記N2S−S2N合成音響特徴量に関する第2の誤差を計算する第2の誤差計算部と、
    前記第1の誤差及び前記第2の誤差を足した損失に所定の最適化を行い、前記S2N変換モデル及び前記N2S変換モデルを更新する変換モデル更新部を備える音響特徴量変換モデル学習装置。
  2. 前記合成音響特徴量予測部、前記S2N処理部、第1の誤差計算部、前記第1のN2S処理部、前記第2のS2N処理部、前記第2の誤差計算部、及び、前記変換モデル更新部は、フレーム単位で実行する請求項1に記載の音響特徴量変換モデル学習装置。
  3. 複数の発話音声から抽出された言語特徴量及び自然音響特徴量を発話単位で記憶するコーパスから、前記言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測するための予測モデルを用いて合成音響特徴量を予測し、
    前記合成音響特徴量を入力とし、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを用いてS2N合成音響特徴量を生成し、
    前記自然音響特徴量と前記S2N合成音響特徴量に関する第1の誤差を計算し、
    前記自然音響特徴量を入力とし、ある自然音響特徴量からある合成音響特徴量へ変換するN2S変換モデルを用いてN2S合成音響特徴量を生成し、
    前記N2S合成音響特徴量を入力とし、前記S2N変換モデルを用いてN2S−S2N合成音響特徴量を生成し、
    前記自然音響特徴量と前記N2S−S2N合成音響特徴量に関する第2の誤差を計算し、
    前記第1の誤差及び前記第2の誤差を足した損失に所定の最適化を行い、前記S2N変換モデル及び前記N2S変換モデルを更新する音響特徴量変換モデル学習方法。
  4. 複数の発話音声から抽出された言語特徴量及び自然音響特徴量を発話単位で記憶するコーパスから、前記言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測するための予測モデルを用いて合成音響特徴量を予測するステップと、
    前記合成音響特徴量を入力とし、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを用いてS2N合成音響特徴量を生成するステップと、
    前記自然音響特徴量と前記S2N合成音響特徴量に関する第1の誤差を計算するステップと、
    前記自然音響特徴量を入力とし、ある自然音響特徴量からある合成音響特徴量へ変換するN2S変換モデルを用いてN2S合成音響特徴量を生成するステップと、
    前記N2S合成音響特徴量を入力とし、前記S2N変換モデルを用いてN2S−S2N合成音響特徴量を生成するステップと、
    前記自然音響特徴量と前記N2S−S2N合成音響特徴量に関する第2の誤差を計算するステップと、
    前記第1の誤差及び前記第2の誤差を足した損失に所定の最適化を行い、前記S2N変換モデル及び前記N2S変換モデルを更新するステップと、
    をコンピュータに実行させる音響特徴量変換モデル学習プログラム。
  5. 複数の発話音声から抽出された自然音響特徴量及び自然音声波形を発話単位で記憶するコーパス記憶部と、
    請求項1に記載の音響特徴量変換モデル学習装置で学習した、ある自然音響特徴量からある合成音響特徴量へ変換するN2S変換モデルを記憶するN2S変換モデル記憶部と、
    請求項1に記載の音響特徴量変換モデル学習装置で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを記憶するS2N変換モデル記憶部と、
    ある合成音響特徴量を入力とし、音声波形を生成するためのニューラルボコーダを記憶するニューラルボコーダ記憶部と、
    前記自然音響特徴量を入力とし、前記N2S変換モデルを用いてN2S合成音響特徴量を生成するN2S処理部と、
    前記N2S合成音響特徴量を入力とし、前記S2N変換モデルを用いてN2S−S2N合成音響特徴量を生成するS2N処理部と、
    前記N2S−S2N合成音響特徴量、前記自然音響特徴量、及び、少なくとも1サンプル以上前の複数の自然音声波形を入力とし、前記ニューラルボコーダを用いて合成音声波形を生成する波形合成処理部と、
    前記合成音声波形及び前記自然音声波形に関する誤差を計算し、前記誤差に所定の最適化を行い、前記ニューラルボコーダを更新する誤差計算ボコーダ更新部を備えるニューラルボコーダ学習装置。
  6. 複数の発話音声から抽出された自然音響特徴量及び自然音声波形を発話単位で記憶するコーパスから、前記自然音響特徴量を入力とし、請求項3に記載の音響特徴量変換モデル学習方法で学習した、ある自然音響特徴量からある合成音響特徴量へ変換するN2S変換モデルを用いて、N2S合成音響特徴量を生成し、
    前記N2S合成音響特徴量を入力とし、請求項3に記載の音響特徴量変換モデル学習方法で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを用いて、N2S−S2N合成音響特徴量を生成し、
    前記N2S−S2N合成音響特徴量、前記自然音響特徴量、及び、少なくとも1サンプル以上前の複数の自然音声波形を入力とし、ある合成音響特徴量を入力とし、音声波形を生成するためのニューラルボコーダを用いて合成音声波形を生成し、
    前記合成音声波形及び前記自然音声波形に関する誤差を計算し、前記誤差に所定の最適化を行い、前記ニューラルボコーダを更新するニューラルボコーダ学習方法。
  7. 複数の発話音声から抽出された自然音響特徴量及び自然音声波形を発話単位で記憶するコーパスから、前記自然音響特徴量を入力とし、請求項4に記載の音響特徴量変換モデル学習プログラムで学習した、ある自然音響特徴量からある合成音響特徴量へ変換するN2S変換モデルを用いて、N2S合成音響特徴量を生成するステップと、
    前記N2S合成音響特徴量を入力とし、請求項4に記載の音響特徴量変換モデル学習プログラムで学習した、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを用いて、N2S−S2N合成音響特徴量を生成するステップと、
    前記N2S−S2N合成音響特徴量、前記自然音響特徴量、及び、少なくとも1サンプル以上前の複数の自然音声波形を入力とし、ある合成音響特徴量を入力とし、音声波形を生成するためのニューラルボコーダを用いて合成音声波形を生成するステップと、
    前記合成音声波形及び前記自然音声波形に関する誤差を計算し、前記誤差に所定の最適化を行い、前記ニューラルボコーダを更新するステップと、
    をコンピュータに実行させるニューラルボコーダ学習プログラム。
  8. 音声合成対象文章の言語特徴量を記憶するコーパス記憶部と、
    ある言語特徴量からある合成音響特徴量を予測する予測モデルを記憶する予測モデル記憶部と、
    請求項1に記載の音響特徴量変換モデル学習装置で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを記憶するS2N変換モデル記憶部と、
    請求項5に記載のニューラルボコーダ学習装置で学習した、音声波形を生成するためのニューラルボコーダを記憶するニューラルボコーダ記憶部と、
    前記言語特徴量を入力とし、前記予測モデルを用いて合成音響特徴量を予測する合成音響特徴量予測部と、
    前記合成音響特徴量を入力とし、前記S2N変換モデルを用いてS2N合成音響特徴量を生成するS2N処理部と、
    前記S2N合成音響特徴量を入力とし、前記ニューラルボコーダを用いて合成音声波形を生成する波形合成処理部を備える音声合成装置。
  9. 前記波形合成処理部は、少なくとも1サンプル以上前の複数の前記合成音声波形をさらに入力とする請求項8に記載の音声合成装置。
  10. 音声合成対象文章の言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測する予測モデルを用いて、合成音響特徴量を予測し、
    前記合成音響特徴量を入力とし、請求項3に記載の音響特徴量変換モデル学習方法で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを用いて、S2N合成音響特徴量を生成し、
    前記S2N合成音響特徴量を入力とし、請求項6に記載のニューラルボコーダ学習方法で学習した、音声波形を生成するためのニューラルボコーダを用いて、合成音声波形を生成する音声合成方法。
  11. 音声合成対象文章の言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測する予測モデルを用いて、合成音響特徴量を予測するステップと、
    前記合成音響特徴量を入力とし、請求項4に記載の音響特徴量変換モデル学習プログラムで学習した、ある合成音響特徴量からある自然音響特徴量へ変換するS2N変換モデルを用いて、S2N合成音響特徴量を生成するステップと、
    前記S2N合成音響特徴量を入力とし、請求項7に記載のニューラルボコーダ学習プログラムで学習した、音声波形を生成するためのニューラルボコーダを用いて、合成音声波形を生成するステップと、
    をコンピュータに実行させる音声合成プログラム。

JP2019194609A 2019-10-25 2019-10-25 音響特徴量変換モデル学習装置、方法およびプログラム、ニューラルボコーダ学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム Pending JP2021067885A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019194609A JP2021067885A (ja) 2019-10-25 2019-10-25 音響特徴量変換モデル学習装置、方法およびプログラム、ニューラルボコーダ学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019194609A JP2021067885A (ja) 2019-10-25 2019-10-25 音響特徴量変換モデル学習装置、方法およびプログラム、ニューラルボコーダ学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2021067885A true JP2021067885A (ja) 2021-04-30

Family

ID=75637170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019194609A Pending JP2021067885A (ja) 2019-10-25 2019-10-25 音響特徴量変換モデル学習装置、方法およびプログラム、ニューラルボコーダ学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2021067885A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023281555A1 (ja) * 2021-07-05 2023-01-12 日本電信電話株式会社 生成方法、生成プログラム及び生成装置
WO2023112095A1 (ja) * 2021-12-13 2023-06-22 日本電信電話株式会社 音声合成装置、音声合成方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023281555A1 (ja) * 2021-07-05 2023-01-12 日本電信電話株式会社 生成方法、生成プログラム及び生成装置
WO2023112095A1 (ja) * 2021-12-13 2023-06-22 日本電信電話株式会社 音声合成装置、音声合成方法、及びプログラム

Similar Documents

Publication Publication Date Title
Lu et al. Xiaoicesing: A high-quality and integrated singing voice synthesis system
US20200357381A1 (en) Speech synthesis device, speech synthesis method, speech synthesis model training device, speech synthesis model training method, and computer program product
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
US20170162186A1 (en) Speech synthesizer, and speech synthesis method and computer program product
US20080082333A1 (en) Prosody Conversion
Nakamura et al. Fast and high-quality singing voice synthesis system based on convolutional neural networks
JP2021067885A (ja) 音響特徴量変換モデル学習装置、方法およびプログラム、ニューラルボコーダ学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP2016151736A (ja) 音声加工装置、及びプログラム
Chandra et al. An overview of speech recognition and speech synthesis algorithms
JP2018084604A (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP5474713B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
Deka et al. Development of assamese text-to-speech system using deep neural network
Bous et al. Analysing deep learning-spectral envelope prediction methods for singing synthesis
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
Zhou et al. Optimization of cross-lingual voice conversion with linguistics losses to reduce foreign accents
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
EP4020464A1 (en) Acoustic model learning device, voice synthesis device, method, and program
JP7079455B1 (ja) 音響モデル学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム
JP2019070775A (ja) 信号解析装置、方法、及びプログラム
JP6587308B1 (ja) 音声処理装置、および音声処理方法
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
JPH1185193A (ja) 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置
JPH10247097A (ja) 自然発話音声波形信号接続型音声合成装置