CN117789694A

CN117789694A - 基于语音韵律的语音合成模型训练方法及语音合成系统

Info

Publication number: CN117789694A
Application number: CN202311849802.5A
Authority: CN
Inventors: 司马华鹏; 徐冉
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-03-29

Abstract

本申请提供一种基于语音韵律的语音合成模型训练方法及语音合成系统，通过将训练文本输入先验编码器，得到文本特征编码，再将文本特征编码和训练语音输入韵律编码器，得到韵律编码，然后将训练语音对应的线性谱输入后验编码器中，得到音频隐变量，并通过时序对齐模块对齐训练文本、韵律编码和音频隐变量的时序序列，得到合成语音编码，通过解码器解码合成语音编码，得到训练合成语音，再计算训练合成语音的训练损失，以判断语音合成模型的收敛程度。本申请通过训练文本和训练语音获得韵律编码，并通过时序对齐将韵律编码融入合成语音编码中，使生成的合成语音能贴合人物语音的韵律特征，在语音样本不足的情况下，提高合成语音的韵律相似度。

Description

基于语音韵律的语音合成模型训练方法及语音合成系统

技术领域

本申请涉及语音合成技术领域，尤其涉及一种基于语音韵律的语音合成模型训练方法及语音合成系统。

背景技术

语音合成技术是通过语音合成模型将给定的文本合成人物语音的技术。但是，想要得到高质量的人物语音，需要使用大量的样本数据来训练语音合成模型。

在实际的训练过程中，往往难以获取大量的样本数据，为此，只能使用少量的样本数据训练语音合成模型。但是，由于自然语音的表现力较为丰富，人物语音在音色和韵律上的变化较大，而由少量的样本数据训练得到的语音合成模型生成的人物语音与实际的人物语音存在一定的差距。

为了缩小语音合成模型生成的人物语音与实际的人物语音的差距，可以通过使用少量样本数据训练语音合成模型时，采用预训练与模型微调的方式来减少合成的人物语音与实际的人物语音之间的差距，即先在一个大量音频数据的数据集上做语音合成模型预训练，之后再用少量的样本数据去对语音合成模型做微调。但是，在少量样本数据的情况下，依然存在合成的人物语音与真实的人物语音的韵律相似度较低的问题。

发明内容

为了缓解在样本数据不足的情况下，合成的人物语音与真实的人物语音的韵律相似度较低的问题。第一方面，本申请的部分实施例提供一种基于语音韵律的语音合成模型训练方法，所述训练方法用于训练语音合成模型，所述语音合成模型包括先验编码器、后验编码器、时序对齐模块、解码器和韵律编码器，所述方法包括：

将训练文本输入至所述先验编码器，得到文本特征编码；

将所述文本特征编码和训练语音输入至所述韵律编码器，得到韵律编码；

将所述训练语音对应的线性谱输入至所述后验编码器中，得到音频隐变量；

通过所述时序对齐模块对齐所述训练文本、所述韵律编码和所述音频隐变量的时序序列，得到合成语音编码；

通过所述解码器解码所述合成语音编码得到训练合成语音；

计算所述训练合成语音的训练损失，如果所述训练损失小于或等于训练损失阈值，则根据待训练模型的当前参数输出语音合成模型，如果所述训练损失大于训练损失阈值则对所述待训练模型执行迭代训练，所述待训练模型为未训练收敛的语音合成模型。

在一些实施例中，所述韵律编码器包括韵律卷积层和池化层；将所述文本特征编码和训练语音输入至所述韵律编码器的步骤，包括：

将所述文本特征编码输入所述韵律卷积层，以通过所述韵律卷积层压缩所述文本特征编码，得到词级隐藏特征；

将所述训练语音输入所述韵律卷积层，以通过所述韵律卷积层对所述训练语音执行词级韵律量化，得到韵律属性特征；

通过所述池化层对所述词级隐藏特征和所述韵律属性特征执行特征降维，得到韵律编码。

在一些实施例中，将所述训练语音输入所述韵律卷积层的步骤，包括：

获取训练语音中频率分量的频率值；

将所述频率值大于频率阈值的频率分量筛除；

将训练语音中剩余的频率分量输入所述韵律卷积层。

在一些实施例中，所述语音合成模型还包括风格编码器，将所述文本特征编码和训练语音输入至所述韵律编码器的步骤后，所述方法还包括：

将所述训练语音输入所述风格编码器，得到风格向量；

将所述韵律编码和所述风格向量执行时序对齐，得到结合后的韵律编码。

在一些实施例中，所述先验编码器包括标准化流，将所述训练文本、所述韵律编码和所述音频隐变量输入至所述时序对齐模块的步骤前，还包括：

获取所述训练文本的第一先验分布值、所述韵律编码的第二先验分布值和所述音频隐变量的第三先验分布值；

将所述第一先验分布值、所述第二先验分布值和所述第三先验分布值输入所述标准化流，得到第一先验复杂度、第二先验复杂度和第三先验复杂度。

在一些实施例中，将所述训练文本、所述韵律编码和所述音频隐变量输入至所述时序对齐模块的步骤，包括：

获取时序对齐模块的模板语音序列；

按照所述模板语音序列对齐所述训练文本、所述韵律编码和所述音频隐变量；

将对齐后的所述训练文本、所述韵律编码和所述音频隐变量执行编码，得到合成语音编码。

在一些实施例中，所述训练损失包括频谱损失、离散度损失和解码器损失，计算所述训练合成语音的训练损失的步骤，包括：

获取所述训练语音的频谱精度，以及，获取训练合成语音的频谱精度；

按照下式，根据训练语音的频谱精度和训练合成语音的频谱精度计算所述频谱损失：

其中，L_recon为频谱损失，x_mel为训练语音的频谱精度，为训练合成语音的频谱精度。

在一些实施例中，计算所述训练合成语音的训练损失的步骤，包括：

根据所述音频隐变量计算后验分布结果；

获取所述合成语音编码的对齐信息；

根据所述对齐信息和所述音频隐变量计算先验分布结果；

按照下式，根据所述后验分布结果和所述先验分布结果计算所述离散度损失：

其中，L_kl为离散度损失，z为音频隐变量，为后验分布结果，logp_θ(z|c_text,A)为先验分布结果，c_text为预设文本，A为对齐信息。

在一些实施例中，所述解码器包括鉴别器，计算所述训练合成语音的训练损失的步骤，包括：

将所述训练合成语音输入所述鉴别器，得到鉴别特征；

按照下式计算训练生成器的特征匹配损失：

其中，L_fm(G)为训练生成器的特征匹配损失，E为数学期望的表达形式，x为训练频谱的真实波形，z为音频隐变量，T为鉴别器网络的层数，D^l获得N_l个特征的鉴别器的第l层的特征，G(z)表示输入隐变量之后解码器的生成特征，所述解码器损失由所述训练生成器的特征匹配损失与对抗训练的最小二乘损失函数计算得到。

第二方面，本申请的部分实施例提供一种语音合成系统，所述语音合成系统包括语音合模型，所述语音合模型根据第一方面所述的基于语音韵律的语音合成模型训练方法训练获得，所述语音合模型包括先验编码器、后验编码器、时序对齐模块、解码器和韵律编码器，其中，所述先验编码器被配置提取输入的目标文本的目标特征编码；

所述韵律编码器被配置为根据目标特征编码和输入的目标频谱生成目标韵律编码；

所述后验编码器被配置为根据输入的目标线性谱生成目标隐变量；

所述时序对齐模块被配置为对所述目标文本、所述目标韵律编码和所述目标隐变量执行时序对齐，得到目标合成语音编码；

所述解码器被配置为解码所述目标合成语音编码，得到目标合成语音。

由以上技术方案可知，本申请提供一种基于语音韵律的语音合成模型训练方法及语音合成系统，所述方法用于训练语音合成模型，语音合成模型包括先验编码器、后验编码器、时序对齐模块、解码器和韵律编码器，通过将训练文本输入先验编码器，得到文本特征编码，再将文本特征编码和训练语音输入韵律编码器，得到韵律编码，然后将训练语音对应的线性谱输入后验编码器中，得到音频隐变量，并通过时序对齐模块对齐训练文本、韵律编码和音频隐变量的时序序列，得到合成语音编码，通过解码器解码合成语音编码，得到训练合成语音，再计算训练合成语音的训练损失，以判断语音合成模型的收敛程度。本申请通过训练文本和训练语音获得韵律编码，并通过时序对齐将韵律编码融入合成语音编码中，使训练得到的语音合成模型所生成的合成语音能贴合人物语音的韵律特征，在语音样本不足的情况下，提高合成语音的韵律相似度。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于语音韵律的语音合成模型训练方法的流程图；

图2为本申请实施例根据训练损失输出语音合成模型的流程示意图；

图3为本申请实施例提供的韵律编码器的结构示意图；

图4为本申请实施例根据训练语音的频率值确定输入韵律卷积层的音频字节的流程图；

图5为本申请实施例提供的风格编码器的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

语音合成技术是通过语音合成模型将给定的文本合成人物语音的技术，一些电子设备的应用可涉及语音合成的使用，例如，有声小说应用，该应用可以集成在用于的终端设备上，并根据电子书籍中的文本生成朗读该文本的语音文件，以使用户直接听取语音文本即可知晓书籍内容，不必反复翻页观看文本，更加方便快捷。还例如，地图应用的导航功能，语音合成模型可以根据导航所经过的街道名称文本或者标志性建筑的名称文本来生成对应导航语音，以用于根据导航语音的指引到达指定位置。

语音合成模型可以根据指定人物的声音生成对应文本的合成语音，例如，以用户A的声音生成说出文本B的合成语音。为了实现上述功能，需要使用大量的样本数据来训练语音合成模型，其中，样本数据可以包括训练文本或训练语音，训练文本即为训练语音合成模型的过程中的文本样本，训练语音即为语音合成模型所生成的合成语音的语音样本。

但是，在训练的过程中，语音合成模型会产生训练损失，从而导致生成的合成语音精度较低，与真实的人物语音相差较大，影响用户的体验感。为了获取高质量的合成语音，就需要使用大量的样本数据来训练语音合成模型。

在实际的训练过程中，往往难以获取大量的样本数据，为此，只能使用少量的样本数据训练语音合成模型。但是，由于人类自然语音的表现力较为丰富，人物语音在音色和韵律上的变化较大，而由少量的样本数据训练得到的语音合成模型生成的合成语音与实际的人物语音存在一定的差距。

为此，可以通过使用少量样本数据训练语音合成模型时，采用预训练与模型微调的方式来减少合成的人物语音与实际的人物语音之间的差距，即先在一个大量音频数据的数据集上做语音合成模型预训练，之后再用少量的样本数据去对语音合成模型做微调。但是，在少量样本数据的情况下，依然存在合成的人物语音与真实的人物语音的韵律相似度较低的问题。

为了缓解在样本数据不足的情况下，合成语音与真实的人物语音的韵律相似度较低的问题，本申请的部分实施例提供一种基于语音韵律的语音合成模型训练方法，用于训练语音合成模型，所述语音合成模型用于根据对应的文本生成合成语音。语音合成模型包括先验编码器、后验编码器、时序对齐模块、解码器和韵律编码器，其中，先验编码器包括归一化流层(normalizing flow)，投影层(projection layer)，文本编码器(text encoder)。

需要说明的是，在本申请实施例中，可以使用语音合成算法作为语音合成模型的核心算法，例如，可以使用用途广泛且可解释的文本到语音合成的模型(Versatile andInterpretable Text-to-Speech，VITS)算法作为语音合成模型的基础合成算法，VITS算法是一种结合变分推理、标准化流和对抗训练的高表现力语音合成算法。通过隐变量而非频谱串联语音合成中的声学模型和声码器，在隐变量上进行随机建模并利用随机时长预测器，提高合成语音的多样性。以上仅为本申请实施例的示例说明，在实际应用中，还可以使用其他语音合成算法来结合本申请实施例的语音合成模型。

图1为本申请实施例提供的一种基于语音韵律的语音合成模型训练方法的流程示意图。

参见图1，所述训练方法包括：

S100：将训练文本输入至所述先验编码器，得到文本特征编码。

训练文本可以通过多种方式选取，例如，可以从将一篇长的文章中分割出多个文本片段作为训练文本，其中，所分割的语音片段的长短没有具体限制，可以为一个词语，例如“杀敌”，也可以为一句话或者是文本段，例如，“张飞在战场上杀敌，并将敌人击退。”

需要说明的是，训练文本的数量与训练语音合成模型产生的训练损失有关，训练文本的数量越多，训练语音合成模型产生的训练损失越小。

将训练文本输入先验编码器中的文本编码器后，文本编码器可以从训练文本中提取文本特征Text Emb，并对文本特征进行编码，得到文本编码特征。

S200：将所述文本特征编码和训练语音输入至所述韵律编码器，得到韵律编码。

在得到文本特征编码之后，需要将文本特征编码与训练语音相结合，从而训练语音合成模型的韵律信息，在此过程中，可以将文本特征编码和训练语音输入至韵律编码器，在本实施例中，韵律编码器可以采用ProsodyEncoder模块，ProsodyEncoder模块可以通过词级矢量量化瓶颈将韵律特征从训练语音中提取出来。

需要说明的是，为了更好的提取韵律特征，在将训练语音输入至韵律编码器之前，可以对训练语音执行预处理。例如，将训练语音处理为梅尔频谱，并将梅尔频谱和文本编码特征输入至韵律编码器，从而通过韵律编码器提取梅尔频谱的韵律特征，并将韵律特征和文本编码特征进行压缩，输出一个包含韵律信息的韵律编码，提高后续生成的合成语音与真实人物语音的韵律相似度。

在一些实施例中，如图3所示，韵律编码器包括韵律卷积层和池化层，其中，韵律卷积层包括relu激活函数和归一化层，relu激活函数可以去除韵律编码器的线性化，从而使韵律卷积层具备非线性的表达能力，以拟合更深层次的韵律特征，提高提取韵律特征的准确性。归一化层用于对每个训练语音的样本进行归一化处理，提高韵律编码器的收敛速度，并减少过拟合的现象，提高提取韵律特征的效率。

韵律编码器的结构可以为一层韵律卷积层、池化层以及另一层韵律卷积层，为了便于表述，本申请实施例将位于池化层前的韵律卷积层定义为第一韵律卷积层，将位于池化层后的韵律卷积层定义为第二韵律卷积层。

在将文本特征编码和训练语音输入韵律编码器的过程中，文本特征编码直接输入至韵律卷积层，从而通过韵律卷积层压缩文本特征编码，从文本特征编码中得到词级隐藏特征。训练语音可以先被预处理为梅尔频谱，并将梅尔频谱按照韵律编码器的结构，依次输入第一韵律卷积层、池化层以及第二韵律卷积层。在将训练语音输入至第一韵律卷积层后，第一韵律卷积层可以根据所压缩的词级隐藏特征对训练语音执行词级韵律量化，从而得到韵律属性特征。

在第一韵律卷积层输出韵律属性特征后，池化层可以对词级隐藏特征和韵律属性特征执行特征降维，得到韵律编码，以减少语音合成模型的计算量，并减少过拟合的问题，提高特征的提取效率。在池化层输出韵律编码后，可以将韵律编码再输入至第二韵律卷积层以提取深层次的韵律特征，最后可以将深层次的韵律特征压缩至矢量量化层，从而输出韵律编码，提高特征提取精度，使语音合成模型的训练过程中得到的韵律编码更加贴合真实人物的说话韵律。

由于训练语音中的音色和内容可以通过采集说话人的语音后嵌入和语言编码器提供，由于矢量量化瓶颈的问题，韵律编码只包含与说话人和内容无关的韵律信息，这些无关的韵律信息会造成韵律编码纠缠，从而降低提取韵律特征的效率。

在一些实施例中，为了解决上述问题，在将训练语音输入至韵律卷积层之前，如图4所示，可以获取训练语音中频率分量的频率值，首先，可以对训练语音进行预处理，以得到训练语音对应的梅尔频谱，在梅尔频谱中包含多个二进制音频字节，因此，可以计算二进制音频字节的频率值，并通过设置频率阈值对频率分量进行筛除，从而得到梅尔频谱的低频波段的音频字节，因为低频波段的音频字节包含了几乎完整的韵律特征，音色/内容信息也比全波段的梅尔频谱少，因此，向韵律卷积层输入低频波段的音频字节可以减少韵律编码纠缠的问题。

在本实施例中，可以将预设数量的低频波段的音频字节输入至韵律卷积层，例如，将每帧梅尔频谱的前20个音频字节输入至韵律卷积层。

S300：将所述训练语音对应的线性谱输入至所述后验编码器中，得到音频隐变量。

在训练语音合成模型的过程中，可以根据训练语音生成对应的线性谱，然后将线性谱输入至后验编码器，并根据后验编码器输出训练音频对应的音频隐变量。

需要说明的是，音频隐变量仅在训练过程中由后验编码器生成，在应用的过程中，由语音合成模型的先验编码器中的标准化流产生。其中，后验编码器可以采用WaveGlow和Glow-TTS中的非因果WaveNet残差模块，WaveGlow和Glow-TTS中的非因果WaveNet残差模块仅在训练过程中应用，并不参与语音合成模型的应用过程。

S400：通过所述时序对齐模块对齐所述训练文本、所述韵律编码和所述音频隐变量的时序序列，得到合成语音编码。

在合成语音之前，需要确保韵律编码与训练文本和音频隐变量能够对应，从而缓解合成语音对于训练文本产生的音画不同步的问题。为此，可以将训练文本、韵律编码以及音频隐变量输入至时序对齐模块，从而根据时序对齐模块对齐训练文本、韵律编码以及音频隐变量的时序序列，输出合成语音编码。

在一些实施例中，还可以将训练文本输入先验编码器的投影层，从而将训练文本中的文本特征投影至时序对齐模块中，以将文本特征投影至韵律编码和音频隐变量，提高文本特征融合至合成语音编码的精度。

在一些实施例中，在将训练文本、韵律编码和音频隐变量输入至时序对齐模块之前，还可以通过标准化流获取训练文本的第一先验分布值，获取韵律编码的第二先验分布值，以及，获取音频隐变量的第三分布值。然后将第一先验分布值、第二先验分布值以及第三先验分布值输入至标准化流，以通过标准化流提升先验分布的复杂度，得到第一先验复杂度、第二先验复杂度和第三先验复杂度，从而提高韵律特征的复杂度，强化语音合成模型学习韵律特征的效率，提高后续完成训练的语音合成模型所合成的语音与真实人物语音的韵律相似度。

时序对齐模块可以采用MAS对齐估计算法(Monotonic Alignment Search)，MAS对齐估计算法是一种用于音频信号处理的算法，用于将一个语音序列与一个模板进行比对，从而执行对齐操作。

为此，在一些实施例中，在将训练文本、韵律编码和音频隐变量输入至时序对齐模块的过程中，在需要根据特定的模板语音序列对训练文本、韵律编码和音频隐变量执行时序对齐，在本实施例中，可以获取时序对齐模块的模板语音序列，所述模板语音序列是在预设时长内，通过预设的语速及语调说出指定文本内容的语音序列。模板语音序列在对齐训练文本、韵律编码和音频隐变量的过程中起到参照的作用。时序对齐模块可以根据MAS对齐估计算法，通过模板语音序列对齐训练文本、韵律编码和音频隐变量，并将对齐后的训练文本、韵律编码和音频隐变量执行编码得到合成语音编码。

S500：通过所述解码器解码所述合成语音编码得到训练合成语音。

本实施例中，为了更好的结合训练语音的韵律特征，需要合成语音以编码状态进行结合处理以及时序对齐处理。但是，语音合成模型无法输出编码状态的合成语音，因此，需要将合成语音编码输入至语音合成模型的解码器中，从而通过解码器解码合成语音编码，得到训练合成语音。

在本实施例中，解码器可以采用声码器HiFi-GAN V1的生成器，也可以采用其他声码器的生成器，本申请实施例对解码器所采用的声码器类型不做过多限制。

S600：计算所述训练合成语音的训练损失，如果所述训练损失小于或等于训练损失阈值，则根据待训练模型的当前参数输出语音合成模型，如果所述训练损失大于训练损失阈值则对所述待训练模型执行迭代训练。

在得到训练合成语音后，表示语音合成模型完成了一次训练过程，此时，可以计算当前训练合成语音的训练损失，从而判断语音合成模型的训练进度。如图2所示，如果训练损失小于或等于训练损失阈值，则说明语音合成模型已经训练至收敛，此时，可以根据待训练模型的当前参数输出语音合成模型。

需要说明的是，待训练模型即为未训练至收敛的语音合成模型，语音合成模型包括预训练阶段、学习阶段以及应用阶段，为了区别不同阶段的语音合成模型，在本申请实施例中，将未训练至收敛的语音合成模型定义为待训练模型。

如果训练损失大于训练损失阈值，则说明语音合成模型未训练至收敛，此时，需要继续通过训练文本以及训练语音训练待训练模型，从而对待训练模型进行迭代训练，在每次迭代训练后，再计算训练损失，直至训练损失小于或等于训练损失阈值，语音合成模型训练至收敛。这样，语音合成模型即可在应用过程中，通过目标文本以及目标语音输出与真实人物语音的韵律相似度高，且语音精度高的目标合成语音。

在一些实施例中，为了使合成语音更加贴近真实语音的说话风格，语音合成模型还可以包括风格编码器，如图5所示，所述风格编码器可以选取MelStyleEncoder模块，MelStyleEncoder模块包括频谱处理层(Spectral processing)，时序处理层(Temporalprocessing)，注意力机制层(Multi-head attention)三个子模块。

具体而言，风格编码模块的构成与工作方式如下：

频谱处理层：由一全连接层构成，用于对输入的训练语音获取其梅尔谱，并转换为特征序列。

时序处理层：包括一门控卷积层与一残差层，用于获取特征序列中的时序信息。

注意力机制层：用于根据时序信息，在第一预设时长内提取相应特征序列对应的风格特征，并重复该操作，第一预设时长为帧级别的短时长，上述操作即在多个短时长中分别提取相应的风格特征；在此基础上，在第二预设时长中，将多个第一预设时长对应的多个风格特征进行平均化处理，得到风格向量，通常而言，第二预设时长为长时长，第二预设时长包括第一预设时长。

其中，在将训练语音对应的梅尔频谱输入至风格编码器之后，风格编码器中的Spectral processing子模块可以将输入的梅尔频谱通过全连接层被转换成帧级隐状态序列。Temporal processing子模块可以通过Gated CNN以及残差连接来捕获训练语音中的时序信息。Multi-head attention子模块用于根据时序信息，在第一预设时长内提取相应特征序列对应的风格特征，并重复该操作，第一预设时长为帧级别的短时长，上述操作即在多个短时长中分别提取相应的风格特征；在此基础上，在第二预设时长中，将多个第一预设时长对应的多个风格特征进行平均化处理，得到风格向量，通常而言，第二预设时长为长时长，第二预设时长包括第一预设时长。以此，风格编码器最终输出在时间上取平均得到一个风格向量Style Embeddings。

在一些实施例中，上述风格编码器可进一步包括风格自适应子模块，设置于Multi-head attention子模块之后。风格自适应子模块包括一归一化层与一全连接层，用于根据前述输出的风格向量Style Embeddings预测其相应的特征偏置与特征增益，并以此作为风格编码器的最终输出，用于后续的语音合成。传统的语音合成过程中，单纯基于音频得到的风格向量进行后续操作，为实现较好的效果，需较大的训练样本方可实现更准确的风格提取。通过上述改进，上述是实施例中，其最终输出是根据风格向量变化而自适应变化的，其对风格的复刻更为准确，对训练语音的样本需求量也更小。

需要说明的是，为了同步结合韵律特征和风格特征，可以将韵律编码器输出的韵律编码与风格向量执行对齐，得到结合后的韵律编码，再将结合后的韵律编码输入至标准化流中，强化语音合成模型学习韵律编码与风格向量的能力，提高语音合成模型所合成的语音与真实的人物语音的相似度。

在一些实施例中，在训练语音合成模型的过程中，可以包括多种的训练损失，为此，在本申请实施例中，训练损失可以包括频谱损失、离散度损失、解码器损失、随机时长预测损失和训练生成器的特征匹配损失，在本实施例中，训练损失可以由下式表示：

L_total＝L_recon+L_kl+L_dur+L_adv+L_fm(G)；

其中，L_total为训练损失，L_recon为频谱损失，L_kl为离散度损失，L_dur为随机时长预测损失，L_adv为解码器在训练过程中的损失，L_fm(G)为训练解码器的特征匹配损失。

在一些实施例中，频谱损失即为训练语音和训练合成语音之间的训练损失。为了计算频谱损失，可以获取训练语音的频谱精度，以及，获取训练合成语音的频谱精度，并按照下式根据训练语音的频谱精度和训练合成语音的频谱精度计算所述频谱损失：

在一些实施例中，L_kl为KL离散度损失，是音频的线性谱通过后验编码器得到变量与风格编码器输出风格向量，以及，韵律编码器输出的韵律编码相结合得到的最终的隐变量的后验分布估计，与给定条件文本以及对其信息之间的隐变量的先验分布估计之间的损失。

在本实施例中，可以根据音频隐变量计算后验分布结果，以及，获取合成语音编码的对齐信息，然后根据对齐信息和音频隐变量计算先验分布结果，最后按照下式，根据所述后验分布结果和所述先验分布结果计算所述离散度损失：

在一些实施例中，解码器还包括鉴别器，所述鉴别器可以在语音合成模型的应用过程中对解码后得到的合成语音进行鉴别，当鉴别器无法鉴别合成语音和真实的人物语音时，说明合成语音的精度已经达到真实的人物语音的精度，从而输出合成语音。

在语音合成模型的训练过程中，可以将训练合成语音输入至鉴别器，以得到鉴别器输出的鉴别特征，并计算训练解码器的特征匹配损失，其中，特征匹配损失可以看作是重建损失，用于约束判别器中间层的输出，所述判别器用于在训练语音合成模型中与解码器进行对抗训练。

在本实施例中，可以根据下式计算训练解码器的特征匹配损失：

其中，L_fm(G)为训练生成器的特征匹配损失，E为数学期望的表达形式，x为训练频谱的真实波形，z为音频隐变量，T为鉴别器网络的层数，D^l获得N个特征的鉴别器的第l层的特征，G(z)表示输入隐变量之后解码器的生成特征。

在一些实施例中，L_adv×L_fm(G)为解码器模块的损失，其中，L_adv为对抗训练的最小二乘损失函数，判别器的损失可以根据下式计算得到：

L_adv(D)＝E_x,z[(D(x)-1)²+D(G(z))²]；

其中，L_adv(D)为判别器的损失，Ε为数学期望的表达形式，x为训练频谱的真实波形，D(x)表示真实波形的判别结果，G(z)表示输入隐变量z之后的生成的特征表示，D(G(z))表示对生成器生成特征G(z)的判别结果。

生成器的损失可以根据下式计算得到：

L_adv(G)＝E_z[(D(G(z))-1)²]；

L_adv(G)为生成器的损失，D(G(z))表示对生成器生成特征G(z)的判别结果，Ε为数学期望的表达形式。

为此，可以根据判别器的损失和生成器的损失计算得到对抗训练的最小二乘损失函数，从而根据对抗训练的最小二乘损失函数与训练生成器的特征匹配损失计算得到解码器的损失。

在一些实施例中，L_dur为随机时长预测损失，可以通过时序对齐模块根据MAS算法，获得训练文本的文本编码后，预测的均值方差和隐变量Z通过标准化流后的正态分布的最优对齐矩阵，以计算得到随机时长预测损失。

为了便于通过上述语音合成模型执行语音合成，本申请的部分实施例还提供一种语音合成系统，所述语音合成系统包括语音合模型，所述语音合模型根据上述记载的基于语音韵律的语音合成模型训练方法训练获得，所述语音合模型包括先验编码器、后验编码器、时序对齐模块、解码器和韵律编码器，其中，所述先验编码器被配置提取输入的目标文本的目标特征编码；

本申请提供的语音合成系统通过目标文本和目标频谱获得韵律编码，并通过时序对齐将韵律编码融入目标合成语音编码中，使语音合成模型所生成的目标合成语音能贴合人物语音的韵律特征，提高在语音样本不足的情况下，目标合成语音的韵律相似度。

本说明书中通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等，意味着结合该实施例描述的具体特征，部件或特性包括在至少一个实施例中，因此，本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等，并不一定都指相同的实施例。此外，在一个或多个实施例中，具体特征、部件或特性可以任何合适的方式进行组合。因此，在无限制的情形下，结合一个实施例示出或描述的具体特征、部件或特性可全部或部分地与一个或多个其他实施例的特征、部件或特性进行组合。这种修改和变型旨在包括早本申请的范围之内。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于语音韵律的语音合成模型训练方法，用于训练语音合成模型，所述语音合成模型包括先验编码器、后验编码器、时序对齐模块、解码器和韵律编码器，其特征在于，包括：

将训练文本输入至所述先验编码器，得到文本特征编码；

通过所述解码器解码所述合成语音编码得到训练合成语音；

2.根据权利要求1所述的基于语音韵律的语音合成模型训练方法，其特征在于，所述韵律编码器包括韵律卷积层和池化层；将所述文本特征编码和训练语音输入至所述韵律编码器的步骤，包括：

3.根据权利要求2所述的基于语音韵律的语音合成模型训练方法，其特征在于，将所述训练语音输入所述韵律卷积层的步骤，包括：

获取训练语音中频率分量的频率值；

将所述频率值大于频率阈值的频率分量筛除；

将训练语音中剩余的频率分量输入所述韵律卷积层。

4.根据权利要求1所述的基于语音韵律的语音合成模型训练方法，其特征在于，所述语音合成模型还包括风格编码器，将所述文本特征编码和训练语音输入至所述韵律编码器的步骤后，所述方法还包括：

将所述训练语音输入所述风格编码器，得到风格向量；

5.根据权利要求1所述的基于语音韵律的语音合成模型训练方法，其特征在于，所述先验编码器包括标准化流，将所述训练文本、所述韵律编码和所述音频隐变量输入至所述时序对齐模块的步骤前，还包括：

6.根据权利要求1所述的基于语音韵律的语音合成模型训练方法，其特征在于，将所述训练文本、所述韵律编码和所述音频隐变量输入至所述时序对齐模块的步骤，包括：

获取时序对齐模块的模板语音序列；

7.根据权利要求1所述的基于语音韵律的语音合成模型训练方法，其特征在于，所述训练损失包括频谱损失、离散度损失和解码器损失，计算所述训练合成语音的训练损失的步骤，包括：

8.根据权利要求7所述的基于语音韵律的语音合成模型训练方法，其特征在于，计算所述训练合成语音的训练损失的步骤，包括：

根据所述音频隐变量计算后验分布结果；

获取所述合成语音编码的对齐信息；

根据所述对齐信息和所述音频隐变量计算先验分布结果；

其中，L_kl为离散度损失，z为音频隐变量，为后验分布结果，log p_θ(z|c_text,A)为先验分布结果，c_text为预设文本，A为对齐信息。

9.根据权利要求7所述的基于语音韵律的语音合成模型训练方法，其特征在于，所述解码器包括鉴别器，计算所述训练合成语音的训练损失的步骤，包括：

将所述训练合成语音输入所述鉴别器，得到鉴别特征；

按照下式计算训练生成器的特征匹配损失：

10.一种语音合成系统，其特征在于，所述语音合成系统包括语音合模型，所述语音合模型根据权利要求1-9任一项所述的基于语音韵律的语音合成模型训练方法训练获得，所述语音合模型包括先验编码器、后验编码器、时序对齐模块、解码器和韵律编码器，其中，所述先验编码器被配置提取输入的目标文本的目标特征编码；