CN113539232A

CN113539232A - 一种基于慕课语音数据集的语音合成方法

Info

Publication number: CN113539232A
Application number: CN202110781210.9A
Authority: CN
Inventors: 伍家松; 陈曦; 孔佑勇; 杨淳沨; 杨冠羽; 姜龙玉; 沈傲东; 舒华忠
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-07-10
Filing date: 2021-07-10
Publication date: 2021-10-22
Anticipated expiration: 2041-07-10
Also published as: CN113539232B

Abstract

本发明公开了一种基于慕课语音数据集的语音合成方法，该方法的主要特征在于通过真实场景下的语音构建的数据集进行语音合成，并进行说话人转换和多语种语音合成；该方法运用端到端的语音合成模型生成梅尔频谱，并用基于生成对抗网络的声码器将梅尔频谱转换成最终音频。本发明在真实场景下的语音数据集上有良好的效果，降低了语音合成所需数据的要求，提高了合成音频的质量，使合成音频更贴近真实说话场景。

Description

一种基于慕课语音数据集的语音合成方法

技术领域

本发明涉及一种基于慕课语音数据集的语音合成方法，属于深度学习、语音合成技术领域。

背景技术

语音合成，是一种将文本转化为语音的技术，它的目的是“让机器发音”。使机器能模仿人的说话方式和停顿习惯。这项技术早就已经出现在我们的日常生活中，比如手机来电播报，电子书阅读，电子导游等。现在的语音合成方法大都是基于录音场景数据集，录音场景数据集需要专业的录音人员，录音设备以及后期制作，制作成本相对较大。真实场景数据集相对容易获得，制作难度和成本相对较低，和录音场景数据集相比感情更加充沛。用真实场景数据集进行语音合成，和录音数据集相比，合成的语音更加贴近真实说话场景，也更富有感情。基于真实场景数据集进行语音合成，对模型的音频，文本对齐能力以及稳定性提出了更高的要求。

现有的语音合成，说话人转换以及多语种语音合成的模型大多是不同的语音合成模型，这些模型不具有普适性，将它们整合在一个系统中会使得该系统非常庞大复杂。将语音合成，说话人转换，以及多语种语音合成这些语音合成任务运用相同的语音合成模型和声码器完成，精简了模型结构，也使得模型更具有普适性。

发明内容

本发明正是针对现有技术中存在的问题，提供一种基于慕课语音数据集的语音合成方法，以解决背景技术中所介绍的基于真实场景语音数据集的语音合成模型的注意力对齐，以及模型稳定性的问题，同时在同一语音合成模型和声码器完成语音合成，说话人转换和多语种语音合成的任务。

为了实现上述目的，本发明的技术方案如下，一种基于慕课语音数据集的语音合成方法，其特征在于：所述方法包括以下步骤：

步骤1)对数据集的<音频，文本>对进行预处理；

该方案可以利用MOOC网站公开的视频制作数据集，MOOC是大型开放式网络课程平台。MOOC网站包含约7000门课程，涵盖文学，历史，心理，哲学等多个领域，语料内容丰富。因为MOOC课程是在自然场景下录制，所以在制作数据集时需对音频进行筛选，剔除吐字不清，噪音过大的音频，提升合成音频的质量。

步骤2)构建端到端的语音合成模型，利用注意力机制提取音频和文本的对齐关系，通过对齐关系生成上下文向量，从而生成梅尔频谱；

步骤3)利用梅尔频谱，通过基于生成对抗网络的声码器，合成最终音频；

步骤4)利用步骤2)的语音合成系统以及步骤3)的声码器进行说话人转换；

步骤5)利用步骤2)的语音合成模型以及步骤3)的声码器进行多语种语音合成。

作为本发明的一种改进，所述步骤1的<音频，文本>预处理是将音频处理为梅尔频谱，将文本进行转拼音并进行标注，使文本和音频一一对应。

作为本发明的一种改进，所述步骤2中所选择的语音合成模型是Tacotron2，注意力机制是改进后的GMM注意力。Tacotron 2是序列到序列的特征预测网络是编码器-注意力-解码器的结构。Tacotron2的编码器由一个3层的卷积层和一个双向LSTM层组成。将进行了词嵌入操作后的字符序列送入编码器生成编码器隐状态，注意力RNN生成一个解码器隐状态，根据这两个隐状态计算注意力对齐，从而计算上下文向量。将卷积网络和上下文向量做拼接，送入LSTM，LSTM的输出再次和上下文向量拼接，送入线性投影层预测输出。最后，目标频谱帧送入5层卷积网络和卷积前的频谱帧进行残差叠加，得到梅尔谱。

作为本发明的一种改进，所述改进后的GMM注意力是一种基于位置的注意力机制，通过它生成一个解码器隐状态S_i，作为注意力制的查询向量去生成解码i时刻，音素序列长度为j的对齐α_i,j，根据对齐α_i,j计算上下文向量c_i。对齐α_i,j具体方法如下：

μ_i＝μ_i-1+Δ_i (2)；

α_i,j＝softmax(α'_i,j) (3)；

其中，

是待训练的中间向量，通过softplus函数得到Δ_i和δ_i，计算得到每个高斯分量的均值μ_i，从而计算α_i,j'这个中间变量，对α_i,j'做归一化操作，得到注意力对齐α_i,j

作为本发明的一种改进，所述步骤3中采用多波段MelGAN作为声码器，得到合成音频。MelGAN是基于GAN的声码器，由生成器和判别器组成。将梅尔频谱输入生成器，经过一层卷积之后送入上采样层，将梅尔频谱的序列长度和波形的频率进行匹配。每次上采样之后都接入一个残差模块，最后经过一个卷积层输出音频。判别器由卷积层和下采样层组成，采用多尺度架构，不仅对原始音频进行判别，还对采用平均池化降频处理后的音频进行判别。为了解决MelGAN无法有效衡量真实和预测音频之间的差异，多波段MelGAN引入了多尺度短时傅里叶变换损失(multi-resolution STFT loss)。在单个短时傅里叶变换损失中包含最小化真实音频和生成音频的谱收敛L_sc和对数短时傅里叶变换的幅度值L_mag：

其中，x是真实音频，

是生成器G(s)输出的预测音频，||·||_F和||·||₁表示Frobenius和L1范数，|STFT(·)|表示短时傅里叶变换，N是幅度谱的元素个数。

对于多尺度短时傅里叶变换目标函数，有M个不同分析参数的单个短时傅里叶变换损失，对这些变换损失取平均：

对于多波段MelGAN，同时在全带和各个子带尺度上应用多尺度短时傅里叶变换损失：

其中，

和

分别表示多尺度短时傅里叶变换损失的全频带和子频带运算。

作为本发明的一种改进，所述步骤4中使用的语音合成系统，是将已经训练好的Tacotron2模型，通过嵌入层和编码器层的参数。将目标说话人的少量<音频，文本>对设置为训练集，继续用该模型进行训练。用训练好的模型合成目标说话人声音的语音。

作为本发明的一种改进，所述步骤5中使用语音合成模型需在编码部分添加全卷积输入文本编码器模型。全卷积输入文本编码器模型包含参数生成器和卷积编码器两个个部分。参数生成器实现了跨语言知识共享，为给定语言的卷积编码器的一层生成参数。卷积编码器使用全卷积的分组层，并用用批归一化的方式增强编码器，有效实现了多编码器的分批训练，缩短了训练的时间。

相对于现有技术，本发明具有如下优点：首先，本发明创新性地利用真实场景语音合成数据集进行语音合成，目前现有的大规模应用都是基于录音场景数据集的，稀缺基于真实场景语音数据集的语音合成方法。真实场景数据集易于获得，制作成本相对较低，声音的停顿自然，富有感情，使得合成的音频更加贴近真实说话场景，语调自然，感情充沛，为语音伪造和语音鉴伪技术提供了参考；另外，该方案利用相同的语音合成模型和声码器进行语音合成，说话人转换以及多语种语音合成的任务，在这3个功能上都取得了较为优良的效果，为用质量不够好的语料进行语音合成相关任务提供了方法参考，增强了模型的普适性，精简了语音合成系统的结构，为多功能语音合成的商业应用提供了思路，进一步推动语音合成模型的研究。

附图说明

图1为一种基于慕课语音数据集的语音合成方法构建系统结构图；

图2为全卷积输入文本编码器的结构图。

具体实施方式：

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中的技术方案做进一步详细的说明。

本发明所提出的一种基于慕课语音数据集的语音合成方法的示意图如图1，图2所示。图1是本发明的系统结构图，主要由编码器，解码器和声码器三部分组成，其中左边小方框为编码器，右边大方框为解码器，“多波段MelGAN”为声码器。进行说话人转换任务时，需固定编码器部分的参数。图2是在进行多语种语音合成任务时，对编码器进行的改进，全卷积输入文本编码器的结构图，将参数生成器生成的参数给卷积编码器相应的一层，再将编码器的输出送入Tacotron2的解码器，实现多语种语音合成。

实施例：参见图1、图2，一种基于慕课语音数据集的语音合成方法，所述方法包括以下步骤：

实验环境：电脑配置为Intel(R)处理器(3.2GHz)和8GB随机存取存储器(RAM)，Windows10 64位操作系统。软件环境为TensorFlow1.14.0和pytorch1.3.0。

步骤1)对数据集的<音频，文本>对进行预处理；

所述步骤1的<音频，文本>预处理是将音频处理为梅尔频谱，将文本进行转拼音并进行标注，使文本和音频一一对应。

所述步骤2中所选择的语音合成模型是Tacotron2，注意力机制是改进后的GMM注意力。Tacotron 2是序列到序列的特征预测网络是编码器-注意力-解码器的结构。Tacotron2的编码器由一个3层的卷积层和一个双向LSTM层组成。将进行了词嵌入操作后的字符序列送入编码器生成编码器隐状态，注意力RNN生成一个解码器隐状态，根据这两个隐状态计算注意力对齐，从而计算上下文向量。将卷积网络和上下文向量做拼接，送入LSTM，LSTM的输出再次和上下文向量拼接，送入线性投影层预测输出。最后，目标频谱帧送入5层卷积网络和卷积前的频谱帧进行残差叠加，得到梅尔谱。

所述改进后的GMM注意力是一种基于位置的注意力机制，通过它生成一个解码器隐状态S_i，作为注意力制的查询向量去生成解码i时刻，音素序列长度为j的对齐α_i,j，根据对齐α_i,j计算上下文向量c_i。对齐α_i,j具体方法如下：

μ_i＝μ_i-1+Δ_i (2)；

α_i,j＝softmax(α'_i,j) (3)；

其中，

所述步骤3中采用多波段MelGAN作为声码器，得到合成音频。MelGAN是基于GAN的声码器，由生成器和判别器组成。将梅尔频谱输入生成器，经过一层卷积之后送入上采样层，将梅尔频谱的序列长度和波形的频率进行匹配。每次上采样之后都接入一个残差模块，最后经过一个卷积层输出音频。判别器由卷积层和下采样层组成，采用多尺度架构，不仅对原始音频进行判别，还对采用平均池化降频处理后的音频进行判别。为了解决MelGAN无法有效衡量真实和预测音频之间的差异，多波段MelGAN引入了多尺度短时傅里叶变换损失(multi-resolution STFT loss)。在单个短时傅里叶变换损失中包含最小化真实音频和生成音频的谱收敛L_sc和对数短时傅里叶变换的幅度值L_mag。

所述步骤4中使用的语音合成系统，是将已经训练好的Tacotron2模型，通过嵌入层和编码器层的参数。将目标说话人的少量<音频，文本>对设置为训练集，继续用该模型进行训练。用训练好的模型合成目标说话人声音的语音。

所述步骤5中使用语音合成模型需在编码部分添加全卷积输入文本编码器模型。全卷积输入文本编码器模型包含参数生成器和卷积编码器两个部分。参数生成器实现了跨语言知识共享，为给定语言的卷积编码器的一层生成参数。卷积编码器使用全卷积的分组层，并用批归一化的方式增强编码器，有效实现了多编码器的分批训练，缩短了训练的时间。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

1.一种基于慕课语音数据集的语音合成方法，其特征在于：所述方法包括以下步骤：

步骤1)对数据集的<音频，文本>对进行预处理；

2.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法，其特征在于：所述步骤1的<音频，文本>预处理是将音频处理为梅尔频谱，将文本进行转拼音并进行标注，使文本和音频一一对应。

3.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法，其特征在于：所述步骤2中所选择的语音合成模型是Tacotron2，注意力机制是改进后的GMM注意力。

4.根据权利要求3所述的一种基于慕课语音数据集的语音合成方法，其特征在于：所述改进后的GMM注意力是一种基于位置的注意力机制，通过它生成一个解码器隐状态S_i，作为注意力制的查询向量去生成解码i时刻，音素序列长度为j的对齐α_i,j，根据对齐α_i,j计算上下文向量c_i。对齐α_i,j具体方法如下：

μ_i＝μ_i-1+Δ_i (2)；

α_i,j＝softmax(α′_i,j) (3)；

其中，

是待训练的中间向量，通过softplus函数得到Δ_i和δ_i，计算得到每个高斯分量的均值μ_i，从而计算α_i,j'这个中间变量，对α_i,j'做归一化操作，得到注意力对齐α_i,j。

5.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法，其特征在于：所述步骤3中采用多波段MelGAN作为声码器，得到合成音频。

6.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法，其特征在于：所述步骤4中使用的语音合成系统，需固定部分网络层的参数。

7.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法，其特征在于：所述步骤5中使用语音合成模型需在编码部分添加全卷积输入文本编码器模型。

8.根据权利要求7所述的一种基于慕课语音数据集的语音合成方法，其特征在于：所述全卷积输入文本编码器模型包含参数生成器和卷积编码器两个部分，参数生成器实现了跨语言知识共享，为给定语言的卷积编码器的一层生成参数，卷积编码器使用全卷积的分组层，并用批归一化的方式增强编码器，有效实现了多编码器的分批训练。

9.根据权利要求5所述的一种基于慕课语音数据集的语音合成方法，其特征在于：所述步骤3中，MelGAN是基于GAN的声码器，由生成器和判别器组成，将梅尔频谱输入生成器，经过一层卷积之后送入上采样层，将梅尔频谱的序列长度和波形的频率进行匹配，每次上采样之后都接入一个残差模块，最后经过一个卷积层输出音频，判别器由卷积层和下采样层组成，采用多尺度架构，不仅对原始音频进行判别，还对采用平均池化降频处理后的音频进行判别；为了解决MelGAN无法有效衡量真实和预测音频之间的差异，多波段MelGAN引入了多尺度短时傅里叶变换损失(multi-resolution STFT loss)，在单个短时傅里叶变换损失中包含最小化真实音频和生成音频的谱收敛L_sc和对数短时傅里叶变换的幅度值L_mag：

其中，x是真实音频，