CN112863482A

CN112863482A - 带有韵律的语音合成方法及系统

Info

Publication number: CN112863482A
Application number: CN202011643693.8A
Authority: CN
Inventors: 俞凯; 杜晨鹏
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-28
Anticipated expiration: 2040-12-31
Also published as: CN112863482B

Abstract

本发明实施例提供一种带有韵律的语音合成方法。该方法包括：使用基于混合高斯模型的混合密度网络(MDN)预测韵律；从目标语音中提取音素级韵律信息作为混合密度网络的训练目标；利用训练后的混合密度网络对当前语音进行韵律预测，从预测得到的混合高斯分布中采样各个音素的韵律信息；基于采样的各个音素的韵律信息合成语音。本发明实施例还提供一种带有韵律的语音合成系统。本发明实施例使用混合高斯分布建模音素级韵律后，不同的高斯可能代表相应的韵律。通过实验证明，混合高斯分布上得到的韵律似然度明显更高，可以更好地建模音素级韵律，从而生成韵律更加丰富的语音。

Description

带有韵律的语音合成方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种带有韵律的语音合成方法及系统。

背景技术

具有序列到序列结构的神经文本到语音(TTS，Text To Speech)合成模型可用于生成自然发音的语音。

除了声学建模的进展外，韵律建模也得到了广泛的研究。例如TTS中的话语级韵律模型，从参考语音中提取一个全局(话语级)韵律嵌入，以控制TTS输出的韵律。将韵律嵌入到几个全局风格标记(GST)中。也可以采用变分自动编码器(VAE)进行韵律建模，使我们能够从标准高斯先验中提取各种韵律嵌入。除了全局韵律建模外，最近的研究也对细粒度韵律进行了分析，例如提取帧级韵律信息，并使用注意模块将其与每个音素编码对齐。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

现有的韵律模型大都采用单峰分布，如单一的高斯分布，这是不够合理的。这使得采样出的韵律多样性不够好，另外在此条件下的韵律采样还会导致合成语音质量的下降。

发明内容

为了至少解决现有技术中采样的韵律多样性不足，在此条件下的韵律采样会导致合成语音质量下降的问题。

第一方面，本发明实施例提供一种带有韵律的语音合成方法，包括：

使用基于混合高斯模型的混合密度网络(MDN)预测韵律；

从目标语音中提取音素级韵律信息作为所述混合密度网络的训练目标；

利用训练后的混合密度网络对当前语音进行韵律预测，从预测得到的混合高斯分布中采样各个音素的韵律信息；

基于采样的各个音素的韵律信息合成语音。

第二方面，本发明实施例提供一种带有韵律的语音合成系统，包括：

韵律预测程序模块，用于使用基于混合高斯模型的混合密度网络(MDN)预测韵律；

训练目标确定程序模块，用于从目标语音中提取音素级韵律信息作为所述混合密度网络的训练目标；

韵律信息预测程序模块，用于利用训练后的混合密度网络对当前语音进行韵律预测，从预测得到的混合高斯分布中采样各个音素的韵律信息；

语音合成程序模块，用于基于采样的各个音素的韵律信息合成语音。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的带有韵律的语音合成方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的带有韵律的语音合成方法的步骤。

本发明实施例的有益效果在于：使用混合高斯分布建模音素级韵律后，不同的高斯可能代表相应的韵律。通过实验证明，混合高斯分布上得到的韵律似然度明显更高，可以更好地建模音素级韵律，从而生成韵律更加丰富的语音。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种带有韵律的语音合成方法的流程图；

图2是本发明一实施例提供的一种带有韵律的语音合成方法的基于FastSpeech2的总体架构图；

图3是本发明一实施例提供的一种带有韵律的语音合成方法的韵律提取器架构图；

图4是本发明一实施例提供的一种带有韵律的语音合成方法的韵律预测器架构图；

图5是本发明一实施例提供的一种带有韵律的语音合成方法的测试集上的性能数据图；

图6是本发明一实施例提供的一种带有韵律的语音合成方法的提取的基本事实PL韵律嵌入的对数似然性示意图；

图7是本发明一实施例提供的一种带有韵律的语音合成方法的韵律多样性的AB偏好测试数据图；

图8是本发明一实施例提供的一种带有韵律的语音合成方法的评估TTS系统的自然性和推理速度数据图；

图9是本发明一实施例提供的一种带有韵律的语音合成系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种带有韵律的语音合成方法的流程图，包括如下步骤：

S11：使用基于混合高斯模型的混合密度网络(MDN)预测韵律；

S12：从目标语音中提取音素级韵律信息作为所述混合密度网络的训练目标；

S13：利用训练后的混合密度网络对当前语音进行韵律预测，从预测得到的混合高斯分布中采样各个音素的韵律信息；

S14：基于采样的各个音素的韵律信息合成语音。

在本实施方式中，将音素序列映射到其对应的梅尔频谱图的过程是一对多映射。因此，考虑到使用多峰分布。

对于步骤S11，本方法将神经网络定义为一个混合模型，重点关注基于混合高斯模型(GMM)的混合密度网络(MDN)，以预测混合高斯模型的混合高斯分布参数，其包括均值μ_i、方差

和混合权重α_i。应该注意的是，混合权重之和被限制为1，这可以通过应用Softmax函数实现，形式化为:

其中M是高斯分量的个数，

是相应的神经网络输出。高斯分量的均值和方差表示为：

其中

和

为神经网络输出对应于第i个高斯分量的均值和方差。上述公式限制

为正。

在本工作中训练MDN的标准是给定其输入h和e_k-1的观测e_k的负对数似然。这里我们可以将损失函数表示为：

因此，优化了混合物密度网络以预测GMM参数，从而使e_k的可能性最大。从而使用基于混合高斯模型的混合密度网络(MDN)来进行韵律预测。

对于步骤S12，本方法在实际使用时会应用到TTS模型中，

所述TTS模型基于FastSpeech2，其中，Fastspeech2这个能够解决fastspeech中的问题并且更好的解决了TTS中的一对多映射问题。通过以下方式：1、直接训练模型通过真实目标代替了教师的简化输出。2、引入更多的语音变量信息(像音高、能量和更精准的时长)作为条件输入。编码器先将输入音素序列转换为隐藏状态序列h，然后通过方差适配器和解码器对输出的mel谱图进行预测。与原始的FastSpeech相比，FastSpeech2进行了优化，以使预测谱图与地面真梅尔谱图之间的均方误差(MSE)L_MEL最小，而不是采用教师培训。此外，持续时间目标不是从自回归教师模型的注意图中提取，而是从语音和文本的强制对齐中提取。此外，还通过方差适配器将准分子谱图的预测条件与音调、能量等方差信息相结合。该适配器被训练来预测在MSE损失L_VAR下的方差信息。

在上述说明的TTS模型基础上，本方法引入了韵律提取器和一个韵律预测器。模型结构如图2所示，其内部有韵律提取器、混合密度网络(也可以成为韵律预测器)等。图中的SG指阻止梯度反传的操作，OR指训练和预测时分别采用真实提取的韵律和从预测分布中采样的韵律。混合密度网络属于TTS模型的一部分，宏观的说，训练也是整个TTS模型被训练。

在模型训练时，音素级韵律信息由一个提取器网络从音素对应的目标语音段中提取，并作为混合密度网络的训练目标。这里的混合密度网络是用于预测音素级韵律的，因此也称为韵律预测器网络。

以宏观的TTS模型来看更具体的，韵律提取器和韵律预测器两者都与FastSpeech2架构联合训练。利用韵律提取器从基音mel谱段中提取出句子级韵律嵌入e，并将其投影到隐藏状态序列h中。因此，对韵律提取器进行了优化，以提取e中有效的韵律信息，以更好地重建mel谱图。本方法使用GMM来模拟e的分布，GMM的参数由MDN预测。这里，MDN是韵律预测器，它以隐藏状态序列h作为输入，预测每个音素的z^α(z^α是相应的神经网络输出)、z^μ和z^σ(高斯分量的均值和方差)。其中还设计了一个GRU(Gated Recurrent Unit，门控循环单元)，用于预测当前的韵律分布。在推理过程中，我们对GMM分布进行自回归预测，并对每个音位的韵律嵌入

进行抽样。然后将采样的嵌入序列

投影并添加到相应的隐藏状态序列h中。

整体架构通过损耗功能进行优化：

式中，L_MDN是等式

中定义的e的负对数似然，L_FastSpeech2是Fast-Speech2的损失函数，是方差预测损失L_VAR和mel谱图重建损失L_MEL之和，β是这两项之间的相对权重。值得注意的是，我们在计算L_MDN时使用了e上的停止梯度运算，因此没有直接用L_MDN优化韵律提取器。

作为一种实施方式，所述音素级韵律信息是通过韵律提取器获得，其中所述韵律提取器包括循环神经网络层，用于嵌入音素级韵律信息。

所述韵律提取器的架构包括：二层二维卷积、批处理归一化层和ReLU激活函数。

在本实施方式中，韵律提取器的详细架构如图3所示。它包含2层2D卷积，内核大小为3×3，每层之后是批处理归一化层和ReLU激活函数。在上述模块之后，设计了一个隐藏大小为32的双正GRU。来自GRU层的连接的向前和向后状态是韵律提取器的输出，这被称为音素的韵律嵌入。

进一步的，韵律预测器的详细架构如图4所示，隐态h经过2层核尺寸为3的一维卷积，每层后面依次是ReLU、层归一化和退出层。然后，将上述模块的输出与前面的韵律嵌入e_k-1连接起来，发送给隐藏尺寸为384的GRU。然后我们得到z^α、z^μ和z^σ。

对于步骤S13，经过上述步骤训练后的混合密度网络对当前语音进行韵律预测，进而可以得到混合高斯分布中采样各个音素的韵律信息，

作为一种实施方式，在本实施例中，所述利用训练后的混合密度网络对当前语音进行韵律预测包括：

利用训练后的混合密度网络对当前语音以及历史韵律信息进行韵律预测。

在本实施方式中，预测每个音素的韵律分布时，都基于当前音素的信息以及历史韵律的信息。在合成语音时，每个音素的韵律都从相应的预测得到的混合高斯分布中采样得到。

其中，当前语音也就是待添加韵律的语音，例如，用户与智能音箱语音对话，智能音箱输出的语音，通常都是没有添加韵律的语音，也就是本步骤所说的当前语音，历史韵律信息可以为从用户历史输入的对话中提取，这样，可以将用户的韵律添加到当前语音当中，得到各个音素的韵律信息。(根据使用的情况不同，历史韵律信息也可以是从其他方式获取，所应用的当前语音也不限制，需要添加韵律即可)

对于步骤S14，基于采样的各个音素的韵律信息合成语音，最终得到韵律变化丰富的合成语音。

通过该实施方式可以看出，使用混合高斯分布建模音素级韵律后，不同的高斯可能代表相应的韵律。通过实验证明，混合高斯分布上得到的韵律似然度明显更高，可以更好地建模音素级韵律，从而生成韵律更加丰富的语音。

对本方法进行试验：LJSpeech是一个单说话人英语数据集，包含大约24小时的演讲和13100个话语。我们选择50个话语进行验证，另外50个话语用于测试，剩余的话语用于培训。为了简单起见，语音被重新采样到16kHz。在训练TTS之前，我们使用Librispeech训练的HMM-GMM ASR(Hidden Markov Model，隐马尔可夫模型)(Automatic SpeechRecognition，自动语音识别)模型计算训练数据的音素对齐，然后从对齐中提取每个音素的持续时间，用于FastSpeech2训练。

本方法中所有基于fastspech2的TTS模型都以音素序列为输入，相应的320维mel谱图作为输出。帧偏移设置为12.5ms，帧长度设置为50ms。β设置为0.02。Wavenet作为声码器从mel谱图中重构波形。

证明使用音素级韵律信息的必要性，本方法验证了在重建中使用提取的PL(Phone-level，音素级)韵律嵌入e是否比使用全局VAE(Variational Autoencoder，变分自动编码器)更好。在全局VAE系统中，对每个语音从VAE后脑提取256维的全局韵律嵌入，然后进行广播并添加到fastspeech的编码器输出中，重建mel-谱图。在我们的PL模型中，韵律预测器中的高斯分量数量为10，提取的e如上述实施例所述。使用开源工具1计算测试集上的倒频谱失真(MCD)，以测量重构语音和真实语音之间的距离。结果如图5所示，MCD越低越好。我们可以发现，使用提取的音素级韵律e可以提高重构性能。

为了分析高斯分量的个数，我们试图计算出需要多少高斯分量来模拟提取的分布e。我们在图6中的训练集和验证集上绘制了对数似然曲线，其中包含了几个不同数量的高斯分量。可以观察到，单高斯模型的训练曲线和验证曲线之间的差距比GMMs中的要大。此外，增加分量的数目提供了更高的对数似然性，从而改进了PL韵律建模。因此，我们在接下来的GMM实验中使用了10个分组。

我们使用不同的韵律建模对三个基于FastSpeech2的TTS系统进行主观评估：1)全局VAE；2)PL1，使用单一高斯的PL韵律建模；3)使用10个高斯分量的PL10，PL韵律建模。为了在合成语音中提供更好的语音质量，我们在采样时用系数0.2来缩放高斯函数的预测标准差。

我们用不同的采样韵律

对每个测试集的语音进行3次合成。我们进行AB偏好测试，其中两组合成语音来自两个不同的TTS模型，20名听众需要从韵律多样性方面选择一个更好的。图7中的结果表明，与PL1和global VAE相比，PL10可以在合成语音中提供更好的韵律多样性。

我们还通过平均意见评分(MOS)测试来评估合成语音的自然性，在该测试中，要求听众使用5点数字量表对每种话语进行评分。使用Wavenet声码器从地面真相声谱图转换回的语音也被定级为“基本事实”。结果列于图8中。来自单个高斯的自回归采样PL韵律有时会产生非常不自然的语音，从而导致PL1中的MOS降低。我们发现PL10的自然性比PL1的自然性好，这表明GMM可以比单个高斯模型更好地模拟PL韵律。全局VAE系统还具有良好的自然性，非常接近PL10的结果。

将FastSpeech2作为非自回归TTS模型，以避免逐帧生成并加快推理速度。在这项工作中，我们仅自回归地预测PL韵律嵌入的分布，希望保持快速的推理速度。我们使用Intel Xeon Gold 6240 CPU在测试仪上评估所有系统。如表2所示，所建议模型的时间成本仅比基线高1.11倍。因此，使用自回归PL韵律预测对推理速度的影响非常有限。

本方法使用基于GMM的混合密度网络对音素级别的韵律建模，将其表示为e。我们的实验首次证明，提取的e可以提供有效的重构信息，这比使用全局VAE更好。然后我们发现，当使用更多的高斯分量时，e的对数似然性增加，这表明GMM可以比单个高斯更好地建模PL韵律。主观评价表明，我们的方法不仅不需要人工控制就可以显着改善合成语音中的韵律多样性，而且可以获得更好的自然性。我们还发现，使用附加的混合密度网络对推理速度的影响非常有限。

如图9所示为本发明一实施例提供的一种带有韵律的语音合成系统的结构示意图，该系统可执行上述任意实施例所述的带有韵律的语音合成方法，并配置在终端中。

本实施例提供的一种带有韵律的语音合成系统10包括：韵律预测程序模块11，训练目标确定程序模块12，韵律信息预测程序模块13和语音合成程序模块14。

其中，韵律预测程序模块11用于使用基于混合高斯模型的混合密度网络(MDN)预测韵律；训练目标确定程序模块12用于从目标语音中提取音素级韵律信息作为所述混合密度网络的训练目标；韵律信息预测程序模块13用于利用训练后的混合密度网络对当前语音进行韵律预测，从预测得到的混合高斯分布中采样各个音素的韵律信息；语音合成程序模块14用于基于采样的各个音素的韵律信息合成语音。

进一步地，所述韵律信息预测程序模块用于：

进一步地，所述音素级韵律信息是通过韵律提取器获得，其中所述韵律提取器包括循环神经网络层，用于嵌入音素级韵律信息。

进一步地，所述韵律提取器的架构包括：二层二维卷积、批处理归一化层和ReLU激活函数。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的带有韵律的语音合成方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

使用基于混合高斯模型的混合密度网络(MDN)预测韵律；

基于采样的各个音素的韵律信息合成语音。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的带有韵律的语音合成方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的带有韵律的语音合成方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种带有韵律的语音合成方法，包括：

使用基于混合高斯模型的混合密度网络(MDN)预测韵律；

基于采样的各个音素的韵律信息合成语音。

2.根据权利要求1所述的方法，其中，所述利用训练后的混合密度网络对当前语音进行韵律预测包括：

3.根据权利要求1所述的方法，其中，所述音素级韵律信息是通过韵律提取器获得，其中所述韵律提取器包括循环神经网络层，用于嵌入音素级韵律信息。

4.根据权利要求3所述的方法，其中，所述韵律提取器的架构包括：二层二维卷积、批处理归一化层和ReLU激活函数。

5.一种带有韵律的语音合成系统：

6.根据权利要求5所述的系统，其中，所述韵律信息预测程序模块用于：

7.根据权利要求5所述的系统，其中，所述音素级韵律信息是通过韵律提取器获得，其中所述韵律提取器包括循环神经网络层，用于嵌入音素级韵律信息。

8.根据权利要求7所述的系统，其中，所述韵律提取器的架构包括：二层二维卷积、批处理归一化层和ReLU激活函数。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。