CN112735373B

CN112735373B - 语音合成方法、装置、设备及存储介质

Info

Publication number: CN112735373B
Application number: CN202011622887.XA
Authority: CN
Inventors: 江源; 陈梦楠; 高丽; 祖漪清
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-05-03
Anticipated expiration: 2040-12-31
Also published as: WO2022141678A1; CN112735373A

Abstract

本申请公开了一种语音合成方法、装置、设备及存储介质，本申请获取到原始文本、原始文本对应的音素序列，以及待合成语音的说话人特征，进而将原始文本以及音素序列进行特征融合，得到融合特征，进而基于融合特征及说话人特征进行编解码处理，得到声学频谱，并基于声学频谱进行语音合成，得到合成语音。本申请通过融合原始文本及音素序列得到融合特征，丰富了输入信息，并且能够挖掘不同语种特有的发音信息，示例如，中文的调型、日语的调核、俄语的重音等均可以通过音素序列得以展示，基于此得到声学频谱并进行语音合成，得到的合成语音更加自然、符合对应语种的发音特点，也即合成语音的质量更高。

Description

语音合成方法、装置、设备及存储介质

技术领域

本申请涉及语音信号处理技术领域，更具体的说，是涉及一种语音合成方法、装置、设备及存储介质。

背景技术

近年来，端到端语音合成系统已经能够获得较好的效果，可以实时生成接近人类的合成语音。而随着全球化的发展，在社交媒体、非正式信息、语音导航等语音合成应用的重要场景中，文本或者语音中不同语种混合的语言现象越发明显。人们希望用一种一致且自然的语态来合成这些跨语种的句子，但目前大多数的端到端模型都假设输入是单一语种的，仅使用原始文本作为合成模型的输入。

本案发明人发现，不同语种的发音现象存在不同，如中文的调型、日语的调核、俄语的重音等均未在文本词面上表现出来，因此现有针对单一语种的合成模型仅使用原始文本作为模型输入，对于跨语种句子的语音合成，其合成的语音质量不高。

发明内容

鉴于上述问题，提出了本申请以便提供一种语音合成方法、装置、设备及存储介质，以提高跨语种句子的语音合成质量。具体方案如下：

在本申请的第一方面，提供了一种语音合成方法，包括：

获取原始文本、所述原始文本对应的音素序列，以及待合成语音的说话人特征；

将所述原始文本及所述音素序列进行特征融合，得到融合特征；

基于所述融合特征及所述说话人特征进行编解码处理，得到声学频谱；

基于所述声学频谱进行语音合成，得到合成语音。

优选地，获取待合成语音的说话人特征，包括：

获取预先配置的与所述待合成语音的说话人对应的说话人特征；

或，

获取说话人语音信息，所述说话人语音信息为所述待合成语音的说话人的语音信息；

利用说话人编码器处理所述说话人语音信息，以得到待合成语音的说话人特征。

优选地，所述将所述原始文本及所述音素序列进行特征融合，得到融合特征，包括：

获取所述原始文本的字符嵌入向量，以及所述音素序列的音素嵌入向量；

对所述字符嵌入向量和所述音素嵌入向量进行整合，得到融合特征。

优选地，所述基于所述融合特征及所述说话人特征进行编解码处理，得到声学频谱，包括：

对所述融合特征进行编码处理，得到编码特征；

将所述编码特征与所述说话人特征进行拼接，得到拼接特征；

基于所述拼接特征进行解码处理，得到声学频谱。

优选地，所述对所述融合特征进行编码处理，得到编码特征，包括：

将所述融合特征输入文本编码器，得到文本编码器输出的编码特征，其中，所述文本编码器被配置为，用于输出与说话人信息无关的编码特征。

优选地，所述文本编码器的预配置过程，包括：

对所述文本编码器与预设的说话人分类器进行对抗训练，训练时所述说话人分类器以所述文本编码器输出的编码特征为依据，预测对应的说话人类别，所述说话人分类器的分类准确率越高，则调整所述文本编码器的对抗损失越大。

优选地，所述基于所述拼接特征进行解码处理，得到声学频谱，包括：

对所述拼接特征进行基于注意力机制的处理，以得到注意力编码特征；

至少基于所述注意力编码特征进行解码处理，得到声学频谱。

优选地，所述至少基于所述注意力编码特征进行解码处理，得到声学频谱，包括：

基于所述注意力编码特征进行解码处理，得到声学频谱；

或，

基于所述注意力编码特征及所述说话人特征进行解码处理，得到声学频谱。

优选地，所述基于所述注意力编码特征进行解码处理，得到声学频谱，包括：

由所述解码器对所述注意力编码特征进行解码，得到解码后的频谱帧以及每一频谱帧作为解码结束位置的概率；

基于所述解码结束位置的概率，确定解码结束位置的频谱帧，并由解码结束位置的频谱帧及之前的各频谱帧生成梅尔频谱，作为声学频谱。

优选地，得到融合特征，以及基于融合特征和说话人特征进行编解码处理，得到声学频谱的过程，基于预训练的语音合成模型实现；

所述语音合成模型，以拟合训练数据的分布以及预训练的单语种语音合成模型的输出为目标进行训练。

优选地，所述语音合成模型的训练过程包括：

每隔一段设定的训练步长，在验证集上检验训练的语音合成模型所合成的语音与真实语音的梅尔频谱失真是否超过设定失真阈值；

若超过，则以拟合训练数据的分布以及预训练的单语种语音合成模型的输出为目标进行训练；

若未超过，则以拟合训练数据的分布为目标进行训练。

在本申请的第二方面，提供了一种语音合成装置，包括：

数据获取单元，用于获取原始文本、所述原始文本对应的音素序列，以及待合成语音的说话人特征；

特征融合单元，用于将所述原始文本及所述音素序列进行特征融合，得到融合特征；

声学频谱获取单元，用于基于所述融合特征及所述说话人特征进行编解码处理，得到声学频谱；

声学频谱映射单元，用于基于所述声学频谱进行语音合成，得到合成语音。

在本申请的第三方面，提供了一种语音合成设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上述的语音合成方法的各个步骤。

在本申请的第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述的语音合成方法的各个步骤。

在本申请的第五方面，提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述的语音合成方法的各个步骤。

借由上述技术方案，本申请的语音合成方法，获取到原始文本、原始文本对应的音素序列，以及待合成语音的说话人特征，进而将原始文本以及音素序列进行特征融合，得到融合特征，进而基于融合特征及说话人特征进行编解码处理，得到声学频谱，并基于声学频谱进行语音合成，得到合成语音。本申请通过融合原始文本及音素序列得到融合特征，丰富了输入信息，并且能够挖掘不同语种特有的发音信息，示例如，中文的调型、日语的调核、俄语的重音等均可以通过音素序列得以展示，基于此得到声学频谱并进行语音合成，得到的合成语音更加自然、符合对应语种的发音特点，也即合成语音的质量更高。

并且，本申请在编解码确定声学频谱的过程中，同时考虑融合特征和说话人特征，使得声学频谱符合说话人的说话特征，进而基于此合成的语音也与说话人的说话方式更加贴近。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的语音合成方法的一流程示意图；

图2、图3分别示例了两种不同语音合成系统架构示意图；

图4为本申请实施例公开的一种语音合成装置结构示意图；

图5为本申请实施例提供的语音合成设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种语音合成方案，能够实现对原始文本按照指定说话人的说话特征进行语音合成。尤其是对于跨语种的原始文本，本申请能够提供较高质量的合成语音。

本申请方案可以基于具备数据处理能力的终端实现，该终端可以是手机、电脑、服务器、云端等。

接下来，结合图1所述，本申请的语音合成方法可以包括如下步骤：

步骤S100、获取原始文本、所述原始文本对应的音素序列，以及待合成语音的说话人特征。

具体的，语音合成之前需要获取待进行语音合成的原始文本。原始文本可以是单一语种的文本信息，也可以是跨语种的文本信息，如原始文本可以是同时包括两个及以上语种的文本信息。

进一步的，考虑到不同语种的发音特性不同，有些语种的发音特性可能无法通过文本的形式得以展示，示例如，中文的调型、日语的调核、俄语的重音等无法通过词面的形式展示，但是均可以通过音素序列进行展示。为了更好的对此类语种的文本进行语音合成，本步骤中还可以获取原始文本对应的音素序列。

音素序列可以是外部输入的。除此之外，本申请还可以基于获取的原始文本，进行文本转音素的处理，示例如通过(Grapheme-to-Phoneme，G2P)模块对原始文本进行音素转换，得到原始文本对应的音素序列。

再进一步的，为了保证合成语音与所要合成语音的说话人的说话方式更加贴近，本步骤中还可以进一步获取到待合成语音的说话人特征，该说话人特征能够表征待合成语音的说话人的说话特点。

对于待合成语音的说话人特征，其可以是预先配置有各不同说话人的说话人特征，进而可以获取到待合成语音的说话人对应的说话人特征。除此之外，本步骤中还可以获取到待合成语音的说话人语音信息，进而通过预训练的说话人编码器处理所述说话人语音信息，以得到待合成语音的说话人特征。

其中，说话人语音信息为待合成语音的说话人的语音信息，该语音信息可以是对原始文本的发声信息，也可以是对非原始文本的其它文本的发声信息；或者是直接从某个说话人的语音中提取的发声信息，该说话人可以与原始文本的发声信息所属的说话人不同。

一种可选的实现方式中，本申请可以使用大规模预训练模型VGGish作为说话人编码器，从而处理说话人语音信息，以得到说话人特征。除此之外，还可以使用其它结构的模型作为说话人编码器。

以说话人编码器为VGGish为例进行说明，VGGish可以是由多个卷积层组成的模型，输入任意长度的语音，输出表征语音特征的固定长度的向量，该输出向量作为说话人特征。

VGGish在训练阶段，可以加载预训练模型的权重，根据需要和语音合成模型其它部分联合训练，或者是构造新的目标函数继续单独预训练。

通过预训练的说话人编码器，能够得到待合成语音的说话人特征，在不要求额外数据的前提下，增强了语音克隆的能力，也即说话人编码器可以获取多种不同说话人的说话人特征，基于此合成的语音能够模仿不同说话人的说话特征。或者，也可以只获取某一目标说话人的说话人特征，则在语音合成过程中，对于输入的待合成的任意一原始文本，通过参考该目标说话人的说话人特征进行语音合成，能够合成出目标说话人的语音，从而达到模仿目标说话人的说话人特征的目的。

步骤S110、将所述原始文本及所述音素序列进行特征融合，得到融合特征。

具体的，为了在得到合成语音的声学频谱时能够同时参考原始文本及对应的音素序列，本步骤中将原始文本及音素序列进行特征层次的融合，以得到融合有原始文本以及音素序列的融合特征。

一种可选的实施方式中，可以通过原始文本嵌入层将原始文本转换为字符嵌入向量。同时，通过音素嵌入层将音素序列转换为音素嵌入向量。进一步的，将字符嵌入向量和音素嵌入向量进行整合，得到融合特征。

需要说明的是，原始文本的长度和音素序列的长度可能存在不一致的情况，则为了更好的实现字符嵌入向量和音素嵌入向量的融合，本实施例中提供了一种基于注意力机制的嵌入向量融合方案，具体可以包括：

将字符嵌入向量e_c作为query，音素嵌入向量e_p作为key和value，求得最终的混合嵌入向量，作为融合特征。具体的计算方法如下：

其中，是第i个混合嵌入向量，/>是第j个音素嵌入向量，/>是第i-1个字符嵌入向量，T_p是音素嵌入向量的序列长度，T_c是字符嵌入向量的序列长度，a^ij是权重系数，β^ij是对齐函数值，n为音素嵌入向量的维度。

本步骤中，通过基于注意力机制的嵌入向量融合方案，能够在融合特征中同时保留原始文本和音素序列中的信息，并且，还能够整合原始文本和音素序列的输入。

步骤S120、基于所述融合特征及所述说话人特征进行编解码处理，得到声学频谱。

具体的，可以对融合特征进行编码得到编码结果，该编码结果包含了融合特征中的上下文信息，也即，编码结果中对于每一字符的编码均参考了该字符的上下文字符的融合特征，使得每一字符的编码结果更加符合字符所在原始文本中的上下文语境。

进一步对融合特征的编码结果及说话人特征进行解码，生成声学频谱。这里的声学频谱包括但不限于梅尔频谱(Mel Spectrum)，梅尔倒谱系数(Mel-cepstralcoefficients)等。

步骤S130、基于所述声学频谱进行语音合成，得到合成语音。

具体的，可以通过声码器将声学频谱映射为最终的合成语音。

本申请实施例提供的语音合成方法，获取到原始文本、原始文本对应的音素序列，以及待合成语音的说话人特征，进而将原始文本以及音素序列进行特征融合，得到融合特征，进而基于融合特征及说话人特征进行编解码处理，得到声学频谱，并基于声学频谱进行语音合成，得到合成语音。本申请通过融合原始文本及音素序列得到融合特征，丰富了输入信息，并且能够挖掘不同语种特有的发音信息，示例如，中文的调型、日语的调核、俄语的重音等均可以通过音素序列得以展示，基于此得到声学频谱并进行语音合成，得到的合成语音更加自然、符合对应语种的发音特点，也即合成语音的质量更高。

在本申请的一些实施例中，对上述步骤S120，基于所述融合特征及所述说话人特征进行编解码处理，得到声学频谱的过程进行介绍。

一种可选的实施方式下，上述步骤S120具体实现过程可以包括如下步骤：

S1、对所述融合特征进行编码处理，得到编码特征。

具体的，可以通过文本编码器对融合特征进行编码处理，以得到文本编码器输出的编码特征。

进一步的，考虑到现有的端到端语音合成模型都假设输入是单一语种的，造成的结果就是，当输入文本中不同语种混合时，现有模型往往会合成错误的语音，甚至直接跳过单词。同时，由于很难获得同一说话人不同语种的语音，为了避免模型错误的学习到说话人特征和语种间的相关性，导致合成语音发生切换说话人的现象，本实施例提供了一种能够实现说话人与文本的语种解耦的方案，具体的：

本实施例中可以将对融合特征进行编码处理的文本编码器配置为，用于输出与说话人信息无关的编码特征，从而使得文本编码器具备阻止输出的编码特征捕获说话人信息的能力，从而实现输出的编码特征与说话人的语种解耦。

其中，上述文本编码器的配置过程可以通过与预设的说话人分类器对抗训练来实现。具体训练时，所述说话人分类器以所述文本编码器输出的编码特征为依据，预测对应的说话人类别，所述说话人分类器的分类准确率越高，则调整所述文本编码器的对抗损失越大。也即，说话人分类器尽力预测编码特征所属的说话人，而文本编码器尽力生成与说话人无关的编码特征，通过说话人分类器和文本编码器的对抗训练，从而实现说话人与文本的语种解耦，最终文本编码器输出的编码特征不包含有说话人信息，也就不会受到原始文本携带的说话人信息的干扰，后续与待合成语音的说话人的说话人特征一起进行解码，生成的合成语音的发音一致，不存在说话人切换的问题，语音合成质量更高。

本步骤中文本编码器可以采用若干卷积层加循环神经网络的架构，示例如采用Tacotron-2风格的文本编码器等。其中，卷积层具备感知输入融合特征的上下文的能力，基于此对融合特征进行编码得到编码结果，该编码结果包含了融合特征中的上下文信息，也即，编码结果中对于每一字符均参考了该字符的上下文字符的融合特征，使得每一字符的编码结果更加符合字符所在原始文本中的上下文语境，从而对一些多音字符及不发音字符更加鲁棒。示例如，某些多音字符在不同的文本中其发音不同，以及，某些字符在一些文本中发音，在另一些文本中可能不发音，如英语字符“h”在单词honest(诚实)中不发音，在单词hub(枢纽)中发音为/h/，等等。本实施例中文本编码器对融合有音素序列和原始文本的融合特征进行编码，得到的编码结果包含了融合特征中的上下文信息，也即考虑了字符所处文本语境进行编码，使得该编码结果更加符合字符在所处文本中的发音方式。

则文本编码器提取编码特征的过程可以包括：

经卷积层提取输入的融合特征的上下文信息，进一步，上下文信息输入至循环神经网络，由循环神经网络提取上下文信息的隐层状态，该隐层状态作为输出的编码特征。

其中，以卷积层的个数为3个为例进行说明：

文本编码器提取编码特征的过程可以参考如下公式：

H＝EncoderRecurrency(f_e)

其中，F₁、F₂、F₃是三个卷积层，relu是每个卷积层上的非线性激活函数，表示融合特征，EncoderRecurrency表示文本编码器中循环神经网络，H代表文本编码器输出的编码特征。

为了促使文本编码器学习文本输入和说话人的语种解耦表示，文本编码器与说话人分类器进行对抗训练，其中说话人分类器的训练目标函数为：

其中，s_i是第i个说话人标签，是说话人分类器的参数，H代表文本编码器输出的编码特征。

说话人分类器的训练过程是使得目标函数L_speaker最大化，从而让说话人分类器无法根据文本编码器输出的编码特征来预测出真正的说话人，也即让文本编码器输出的编码特征与说话人无关。而语音合成模型整体训练过程是使得整体损失函数最小化，为此，可以将上述说话人分类器的目标函数L_speaker乘以系数-γ，从而实现说话人分类器与语音合成模型的对抗训练。

其中，γ的值主要是平衡说话人损失项和其它损失项的超参数，γ的取值范围可以是[0.5,10]。

S2、将所述编码特征与所述说话人特征进行拼接，得到拼接特征。

可以理解的是，经过上述步骤S1得到的编码特征是与文本实现语种解耦后的结果，也即不包含有说话人信息。为了使得合成的语音符合待合成语音的说话人的说话方式，本步骤中将待合成语音的说话人的说话人特征与编码特征进行拼接，得到拼接特征。该拼接特征同时包含了待合成语音的说话人特征，以及所要合成原始文本的信息。

S3、基于所述拼接特征进行解码处理，得到声学频谱。

具体的，在得到上述拼接特征之后，进一步进行解码处理，以得到解码后的声学频谱。

一种可选的实施方式中，为了将文本编码器和说话人编码器的输出结合起来，也就是将文本信息与说话人特征结合起来，本实施例中提供了一种基于注意力机制的处理方案，可以对所述拼接特征进行基于注意力机制的处理，以得到注意力编码特征。进一步，至少基于所述注意力编码特征进行解码处理，得到声学频谱。

通过注意力机制处理，将文本信息、说话人特征与语音对应起来，从而实现文本、说话人特征与语音的对齐，也即学习到不同文本对应的发音信息。

本步骤中，对拼接特征进行基于注意力机制的处理，可以是采用位置敏感(Location Sensitive)的注意力机制，该注意力机制的对齐函数为：

f_i,j＝F*a_i-1

其中，W、V、U为网络参数，b为偏置值，s_i-1为上一个时间步i-1时刻的解码器输出隐状态，h_j为当前时间步j时刻的文本编码器输出的隐状态，f_i,j为上一个时间步i-1时刻的全部注意力权重a_i-1经卷积F获得的位置特征。

通过采用位置敏感的注意力机制对拼接特征进行处理，得到的注意力编码特征能够综合内容方面的信息，而且关注位置特征。

在得到了注意力编码特征之后，可以通过解码器进行解码处理，以得到解码器输出的声学频谱。

其中，解码器至少基于注意力编码特征进行解码处理，该过程可以包括两种实现方式，分别如下：

第一种，解码器直接基于注意力编码特征进行解码处理，得到声学频谱。

具体的，由解码器对注意力编码特征进行解码，得到解码后的频谱帧以及每一频谱帧作为解码结束位置的概率。

进一步，基于所述解码结束位置的概率，确定解码结束位置的频谱帧，并由解码结束位置的频谱帧及之前的各频谱帧生成梅尔频谱，作为声学频谱。

为了能够有效加速计算，减少内存占用，本实施例中可以引入缩减因子r，即每一个时间步允许解码器预测r个频谱帧进行输出。也即通过引入缩减因子r，限定了每一时间步所需预测的频谱帧的数量。

可以理解的是，解码器在解码时一般使用循环神经网络，而循环神经网络需要以时间步为单位按顺序计算，因此解码所需时间和解码时间步数呈线性关系。相比于一个时间步仅预测1帧，如果一个时间步能够预测出r(r>1)帧，那么所需解码时间就缩短为1/r倍，也即解码速度提升了r倍。当然，r值也不能够无限增大，一个时间步需要预测的帧数越多，那么对循环神经网络的推理能力要求就越高。经本案申请人研究发现，当r值过大时，会导致预测的频谱帧出现模糊，即影响语音合成质量。因此，本实施例中，r值可以选取的范围可以设置为2-4，示例如r取值为4，此时即可提升解码速度，加速计算，又不会导致预测的频谱帧出现模糊等问题，保证了合成语音的质量。

第二种，解码器基于注意力编码特征及说话人特征进行解码处理，得到声学频谱。

对比可知，相比于第一种实现方式，第二种方式中解码器在解码处理时进一步加入了说话人特征，从而使得解码得到的频谱帧可以更加贴近于该说话人特征所属的说话人，由于该说话人特征即为待合成语音的说话人特征，因此解码得到的频谱帧可以更加贴近于待合成语音的说话人的说话方式。

具体实现过程与第一种方式类似，具体可以包括，由解码器对注意力编码特征及说话人特征进行解码，得到解码后的频谱帧以及每一频谱帧作为解码结束位置的概率。进一步，基于所述解码结束位置的概率，确定解码结束位置的频谱帧，并由解码结束位置的频谱帧及之前的各频谱帧生成梅尔频谱，作为声学频谱。其中，基于解码结束位置的概率，确定解码结束位置的频谱帧的过程，可以是判断频谱帧作为解码结束位置的概率是否超过设定结束概率阈值，若是，则将频谱帧作为解码结束位置的频谱帧。其中，设定结束概率阈值可以选取0.5或其它数值。

进一步参考图2和图3，图2、图3分别示例了两种不同语音合成系统架构示意图。

如图2所示，语音合成模型可以包括混合字符嵌入模块、文本编码器、注意力模块及解码器。其中，各模块的处理过程如下：

原始文本及对应的音素序列输入至混合字符嵌入模块，进行特征融合，得到融合特征输入至文本编码器。

文本编码器可以通过与说话人分类器进行对抗训练，以使得文本编码器具备阻止输出的编码特征捕获说话人信息的能力。

说话人编码器可以对待合成语音的说话人语音进行编码处理，以得到说话人特征。当然，若预先存储有待合成语音的说话人特征，则可以不需要再次对待合成语音的说话人语音进行编码处理。

得到的说话人特征和文本编码器输出的编码特征进行拼接，得到拼接特征，送入注意力模块。

注意力模块对拼接特征进行基于注意力机制的处理，得到注意力编码特征，并送入解码器进行处理。

解码器基于注意力编码特征进行解码处理，得到声学频谱，声学频谱可以送入声码器，映射成合成语音。

相比于图2，图3示例的语音合成系统中，解码器在进行解码处理时，进一步结合了说话人特征，从而使得解码得到的声学频谱可以更加贴近于待合成语音的说话人的说话方式。

在本申请的一些实施例中，上述步骤S110和步骤S120，得到融合特征，并基于融合特征和说话人特征进行编解码处理，得到声学频谱的过程，可以是基于预训练的语音合成模型实现。

语音合成模型在训练时，可以是以拟合训练数据的分布以及预训练的单语种语音合成模型的输出为训练目标。

具体的，可以将真实的平行训练数据集中文本-声学频谱对记为D＝{(x,y)∈X×Y}，则训练数据的分布为平行训练数据集中训练文本所对应的声学频谱，拟合训练数据的分布即为使得语音合成模型对训练文本所预测的声学频谱趋近于平行训练数据集中训练文本对应的声学频谱。通过以拟合训练数据的分布为训练目标对语音合成模型进行训练，可以使得语音合成模型学习到平行训练数据集中训练文本与声学频谱间的对应关系，从而具备基于输入的原始文本，预测对应的声学频谱的能力。

拟合训练数据的分布对应的训练目标可以是最小化下述第一损失函数

其中，表示语音合成模型预测的声学频谱，y表示平行训练数据集中训练文本所对应的声学频谱。

进一步，将预训练的单语种语音合成模型作为教师模型，将教师模型生成的平行数据集中的文本-声学频谱对记为D′＝{(x,y′)∈X×Y′}，则拟合单语种语音合成模型的输出即为使得语音合成模型对训练文本所预测的声学频谱趋近于单语种语音合成模型对相同训练文本所预测的声学频谱。单语种语音合成模型属于成熟的网络结构，通过以拟合单语种语音合成模型的输出为训练目标对语音合成模型进行训练，可以使得语音合成模型学习到单语种语音合成模型的网络参数，因此可以加快语音合成模型的收敛速度。其中，单语种语音合成模型可以是一个或多个，当单语种语音合成模型为多个时，不同的单语种语音合成模型对应不同的语种，从而使得本申请的语音合成模型可以学习到多个不同的单语种语音合成模型的网络参数，提升语音合成模型的合成效果。

拟合单语种语音合成模型的输出对应的训练目标可以是最小化下述第二损失函数

其中，表示语音合成模型预测的声学频谱，y′表示作为教师模型的单语种语音合成模型预测的声学频谱。

因此，总的频谱损失函数可以表示为：

其中，λ为调和两个损失项的权重系数，为预先设置的数值，其取值可以是0-1间的数值，示例如取值为0.5。

通过采用知识蒸馏的方式来训练语音合成模型，能够学习到预训练的单语种合成模型的先验知识，降低了语音合成模型的训练难度，并提升合成语音的自然度。

进一步可选的，在上述语音合成模型的训练过程中，可以采用选择性蒸馏的方式，也即每隔一段设定的训练步长，在验证集上检验训练的语音合成模型所合成的语音与真实语音的梅尔频谱失真是否超过设定失真阈值，若超过，则以拟合训练数据的分布以及预训练的单语种语音合成模型的输出为目标进行训练，也即损失函数采用上述若未超过，则以拟合训练数据的分布为目标进行训练，也即损失函数采用上述/>其中，上述设定失真阈值的范围可以是10至30，示例如设定失真阈值可以是15。

本实施例中，在确认语音合成模型所合成的语音与真实语音的梅尔频谱失真超过设定失真阈值时，表明该语音合成模型还未很好收敛，需要训练数据和教师模型产生的数据进行引导训练；而当失真未超过设定失真阈值时，仅需要训练数据引导训练，在训练数据上进行微调即可。

进一步可选的，前文实施例中介绍了语音合成模型中文本编码器在训练时可以是与说话人分类器对抗训练，则基于此，语音合成模型的总体训练损失函数可以是包括上述总的频谱损失函数以及说话人分类器的训练损失函数L_speaker乘以系数-γ，语音合成模型的总体训练损失函数L_ALL表示为：

可以理解的是，若文本编码器训练时未与说话人分类器进行对抗训练，则语音合成模型的总体训练损失函数L_ALL可以不包含上述-γ*L_speaker，也即可以由总的频谱损失函数组成。

下面对本申请实施例提供的语音合成装置进行描述，下文描述的语音合成装置与上文描述的语音合成方法可相互对应参照。

参见图4，图4为本申请实施例公开的一种语音合成装置结构示意图。

如图4所示，该装置可以包括：

数据获取单元11，用于获取原始文本、所述原始文本对应的音素序列，以及待合成语音的说话人特征；

特征融合单元12，用于将所述原始文本及所述音素序列进行特征融合，得到融合特征；

声学频谱获取单元13，用于基于所述融合特征及所述说话人特征进行编解码处理，得到声学频谱；

声学频谱映射单元14，用于基于所述声学频谱进行语音合成，得到合成语音。

可选的，上述数据获取单元获取待合成语音的说话人特征的过程，可以包括：

或，

可选的，上述特征融合单元将所述原始文本及所述音素序列进行特征融合，得到融合特征的过程，可以包括：

可选的，上述声学频谱获取单元基于所述融合特征及所述说话人特征进行编解码处理，得到声学频谱的过程，可以包括：

对所述融合特征进行编码处理，得到编码特征；

基于所述拼接特征进行解码处理，得到声学频谱。

可选的，上述声学频谱获取单元对所述融合特征进行编码处理，得到编码特征的过程，可以包括：

可选的，上述文本编码器的预配置过程，可以包括：

对文本编码器与预设的说话人分类器进行对抗训练，训练时所述说话人分类器以所述文本编码器输出的编码特征为依据，预测对应的说话人类别，所述说话人分类器的分类准确率越高，则调整所述文本编码器的对抗损失越大。

可选的，上述声学频谱获取单元基于所述拼接特征进行解码处理，得到声学频谱的过程，可以包括：

可选的，上述声学频谱获取单元至少基于所述注意力编码特征进行解码处理，得到声学频谱的过程，可以包括：

基于所述注意力编码特征进行解码处理，得到声学频谱；

或，

可选的，上述声学频谱获取单元基于所述注意力编码特征进行解码处理，得到声学频谱的过程，可以包括：

可选的，上述特征融合单元和声学频谱获取单元可以基于预训练的语音合成模型实现；所述语音合成模型，以拟合训练数据的分布以及预训练的单语种语音合成模型的输出为目标进行训练。

可选的，本申请的装置还可以包括：模型训练单元，用于训练语音合成模型，语音合成模型的训练过程可以包括：

若未超过，则以拟合训练数据的分布为目标进行训练。

本申请实施例提供的语音合成装置可应用于语音合成设备，如终端：手机、电脑等。可选的，图5示出了语音合成设备的硬件结构框图，参照图5，语音合成设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

基于所述声学频谱进行语音合成，得到合成语音。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

基于所述声学频谱进行语音合成，得到合成语音。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音合成方法中的任意一种实现方式。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音合成方法，其特征在于，包括：

获取原始文本、所述原始文本对应的音素序列，以及待合成语音的说话人特征，所述音素序列用于表征语种的发音特性；

将所述原始文本及所述音素序列进行特征融合，得到融合有原始文本以及音素序列的融合特征；

基于所述声学频谱进行语音合成，得到合成语音；

所述基于所述融合特征及所述说话人特征进行编解码处理，得到声学频谱，包括：

将所述融合特征输入文本编码器，得到文本编码器输出的编码特征，其中，所述文本编码器被配置为，用于输出与说话人信息无关的编码特征，使得所述文本编码器具备阻止输出的编码特征捕获说话人信息的能力，实现输出的编码特征与说话人的语种解耦；

基于所述拼接特征进行解码处理，得到声学频谱；

所述文本编码器的预配置过程，包括：

对所述文本编码器与预设的说话人分类器进行对抗训练，训练时所述说话人分类器以所述文本编码器输出的编码特征为依据，预测对应的说话人类别，所述说话人分类器的分类准确率越高，则调整所述文本编码器的对抗损失越大，使所述文本编码器输出的编码特征不包含有说话人信息，不会受到原始文本携带的说话人信息的干扰。

2.根据权利要求1所述的方法，其特征在于，获取待合成语音的说话人特征，包括：

或，

3.根据权利要求1所述的方法，其特征在于，所述将所述原始文本及所述音素序列进行特征融合，得到融合有原始文本以及音素序列的融合特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述拼接特征进行解码处理，得到声学频谱，包括：

5.根据权利要求4所述的方法，其特征在于，所述至少基于所述注意力编码特征进行解码处理，得到声学频谱，包括：

基于所述注意力编码特征进行解码处理，得到声学频谱；

或，

6.根据权利要求5所述的方法，其特征在于，所述基于所述注意力编码特征进行解码处理，得到声学频谱，包括：

由解码器对所述注意力编码特征进行解码，得到解码后的频谱帧以及每一频谱帧作为解码结束位置的概率；

7.根据权利要求1-6任一项所述的方法，其特征在于，得到融合有原始文本以及音素序列的融合特征，以及基于融合特征和说话人特征进行编解码处理，得到声学频谱的过程，基于预训练的语音合成模型实现；

8.根据权利要求7所述的方法，其特征在于，所述语音合成模型的训练过程包括：

若未超过，则以拟合训练数据的分布为目标进行训练。

9.一种语音合成装置，其特征在于，包括：

数据获取单元，用于获取原始文本、所述原始文本对应的音素序列，以及待合成语音的说话人特征，所述音素序列用于表征语种的发音特性；

特征融合单元，用于将所述原始文本及所述音素序列进行特征融合，得到融合有原始文本以及音素序列的融合特征；

声学频谱映射单元，用于基于所述声学频谱进行语音合成，得到合成语音；

所述声学频谱获取单元具体用于：

基于所述拼接特征进行解码处理，得到声学频谱；

所述文本编码器的预配置过程，包括：

10.一种语音合成设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～8中任一项所述的语音合成方法的各个步骤。

11.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～8中任一项所述的语音合成方法的各个步骤。