CN116129852A

CN116129852A - 语音合成模型的训练方法、语音合成方法及相关设备

Info

Publication number: CN116129852A
Application number: CN202211074995.7A
Authority: CN
Inventors: 刘鹏飞; 蒋宁; 吴海英; 刘敏
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2023-05-16

Abstract

本申请提供了一种语音合成模型的训练方法、语音合成方法及相关设备，其中方法包括：获取目标语音及音素序列；对目标语音进行预处理得到目标梅尔频谱，并将该目标梅尔频谱输入语音转换模型中得到目标说话人向量；将音素序列以及目标说话人向量输入初始的语音合成模型中进行合成处理，得到预测梅尔频谱，并将预测梅尔频谱输入语音转换模型中，确定预测说话人向量；基于目标说话人向量和预测说话人向量之间的差异，以及目标梅尔频谱和预测梅尔频谱之间的差异，来训练语音合成模型。采用本申请利用目标说话人向量来增加说话人特征信息，可提高语音合成质量。

Description

语音合成模型的训练方法、语音合成方法及相关设备

技术领域

本申请涉及语音处理领域，尤其涉及一种语音合成模型的训练方法、语音合成方法及相关设备。

背景技术

智能语音技术作为人工智能技术的重要组成部分，在很多领域得到了应用，比如电子书朗读、数字人工客服等都用到了智能语音合成。随着语音合成应用越来越多，多说话人语音合成模型应运而生，多说话人语音合成模型是一种能够根据不同用户要求将一段文本内容合成具有不同说话人音色的语音，比如将同一段内容可以分别合成具有用户A音色的语音和具有用户B音色的语音。

目前，训练多说话人语音合成模型一般采用将说话人与说话人音色对应的特征向量直接映射，或者是通过说话人识别模型提取说话人音色对应的特征向量，这两种方式来训练。

但是，上述方式仅能够简单判断某个语音频段是哪个说话人，使得语音合成模型在训练时依然缺少说话人的某些特定信息，造成其执行语音合成的质量较低。即现有的语音合成模型在训练时存在说话人特征信息不足，导致语音合成的质量较低的技术问题。

发明内容

本申请提供一种语音合成模型的训练方法、语音合成方法及相关设备，以解决现有的语音合成模型在训练时存在说话人特征信息不足，导致语音合成的质量较低的技术问题。

第一个方面，本申请提供一种语音合成模型的训练方法，包括：

获取训练数据，训练数据包括目标说话人的目标语音和待合成训练文本对应的音素序列；

对目标语音进行预处理得到目标梅尔频谱，并将目标梅尔频谱输入语音转换模型中进行转换处理，得到目标说话人向量；

将音素序列以及目标说话人向量输入语音合成模型中进行合成处理得到预测梅尔频谱，并将预测梅尔频谱输入语音转换模型中，确定预测说话人向量；

基于目标说话人向量和预测说话人向量确定第一损失函数值，以及基于目标梅尔频谱和预测梅尔频谱确定第二损失函数值；

根据第一损失函数值和第二损失函数值训练语音合成模型，训练完成的所述语音合成模型将待合成训练文本合成为合成语音，该合成语音与目标语音具有相同的声音特征。

第二个方面，本申请提供一种语音合成方法，包括：

响应于执行语音合成的触发事件，获取待合成文本以及获取参考说话人的参考语音；

若所述参考说话人与目标说话人匹配，则对所述参考语音进行预处理得到参考梅尔频谱，并将所述参考梅尔频谱输入语音转换模型中进行转换处理，得到参考说话人向量；

将所述参考说话人向量和所述待合成文本对应的音素序列输入语音合成模型进行语音合成处理，得到所述待合成文本对应的合成语音，所述合成语音具有所述参考说话人的声音特征；所述语音合成模型是通过权利要求1-8任一项所述的语音合成模型的训练方法训练得到的。

第三个方面，本申请提供一种语音合成模型的训练装置，包括：

获取模块，用于获取训练数据，训练数据包括：目标说话人的目标语音和待合成训练文本对应的音素序列；

处理模块，用于：

对所述目标语音进行预处理得到目标梅尔频谱，并将所述目标梅尔频谱输入语音转换模型中进行转换处理，得到目标说话人向量；

将所述音素序列以及所述目标说话人向量输入语音合成模型中进行合成处理得到预测梅尔频谱，并将所述预测梅尔频谱输入所述语音转换模型中，确定预测说话人向量；

基于所述目标说话人向量和所述预测说话人向量确定第一损失函数值，以及基于所述目标梅尔频谱和所述预测梅尔频谱确定第二损失函数值；

根据所述第一损失函数值和所述第二损失函数值训练所述语音合成模型，训练完成的所述语音合成模型将所述待合成训练文本合成为合成语音，所述合成语音与所述目标语音具有相同的声音特征。

第四个方面，本申请提供一种语音合成装置，包括：

获取模块，用于响应于执行语音合成的触发事件，获取待合成文本以及获取参考说话人的参考语音；

处理模块，用于：

第五个方面，本申请提供一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行第一方面所提供的任意一种可能的方法，或者执行第二方面所提供的任意一种可能的方法。

第六个方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，该计算机程序用于执行第一方面所提供的任意一种可能的方法；或者，执行第二方面所提供的任意一种可能的办法。

第七个方面，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所提供的任意一种可能的方法；或者，实现第二方面所提供的任意一种可能的方法。

本申请提供了一种语音合成模型的训练方法、语音合成方法及相关设备，在需要对语音合成模型进行训练时，首先获取目标语音和音素序列；然后对目标语音进行预处理得到目标梅尔频谱，并将该目标梅尔频谱输入语音转换模型中进行转换处理，得到目标说话人向量；将音素序列以及目标说话人向量输入语音合成模型中进行合成处理，得到预测梅尔频谱，并将预测梅尔频谱输入语音转换模型中，确定预测说话人向量；基于目标说话人向量和预测说话人向量确定第一损失函数值，以及基于目标梅尔频谱和预测梅尔频谱确定第二损失函数值；根据第一损失函数值和第二损失函数值训练语音合成模型，训练完成的所述语音合成模型将所述待合成训练文本合成为合成语音，所述合成语音与所述目标语音具有相同的声音特征。可见，本申请的语音合成模型的训练方法中是通过语音转换模型提取的说话人特征，由于语音转换模型提取到的说话人特征中包括更加丰富的说话人信息，进而在基于该说话人特征进行语音合成模型训练时，可以提升语音合成模型的准确性。另外，在对语音合成模型的训练过程中，引入了说话人特征，并基于第一损失函数和第二损失函数对语音合成模型进行训练，如此可以保证训练完成的语音合成模型合成的语音与说话人具备相同的音色。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请提供的一种语音合成模型的训练方法的流程示意图；

图2为本申请实施例提供的一种语音合成模型的训练场景示意图；

图3为本申请实施例提供的一种语音合成方法的流程示意图；

图4为本申请实施提供的另一种语音合成模型的训练方法的流程示意图；

图5为本申请实施提供的AdaIN-VC模型的结构示意图；

图6为本申请实施例提供的一种语音合成模型与语音转换模型组合成的训练模型的结构示意图；

图7为本申请实施例提供的一种语音合成模型的训练装置的结构示意图；

图8为本申请实施例提供的一种语音合成装置的结构示意图；

图9为本申请提供的一种电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，包括但不限于对多个实施例的组合，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面对本申请所涉及到的专业名词作出解释：

embedding：在深度学习领域是指从原始数据提取出来的特征，即原始数据通过神经网络映射之后的低维向量。

FastSpeech2：是微软亚洲研究院和浙江大学联合提出的TTS(Text-to-Speech，语音合成)模型。在FastSpeech1模型的基础上，抛弃了Teacher-Student知识蒸馏框架，降低了训练复杂度，直接用真实的语音数据作为训练目标，从而避免信息损失，同时引入了更精确的时长信息和语音中其它的可变信息，比如音高pitch、音量energy等来提高合成的语音质量。

VC：也称为voice conversion，语音转换是指在保证一句话内容不变的基础上，将原始语音中说话人音色迁移到目标说话人音色。

Mel spectrogram：梅尔频谱，将功率谱构成的语谱图经过Mel滤波器组后，得到的语谱图。

MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。一种在说话人分割，声纹识别，语音识别，语音合成中广泛使用的特征。梅尔频率是基于人耳听觉特性提出来的，它与赫兹Hz频率成非线性对应关系。梅尔频率倒谱系数则是利用它们之间的这种关系，计算得到的Hz频谱特征。主要用于语音数据特征提取。

说话人识别模型：说话人识别也称声纹识别，生物识别技术的一种，有两类，即说话人辨认和说话人确认。声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。

如今，训练多说话人语音合成模型，一般会使用说话人的识别标识即speaker id来生成speaker embedding说话人向量，或者用说话人识别模型来提取speaker embedding说话人向量，前者主要是根据speaker id来决定使用哪个说话人，就是一个简单映射过程，后者speaker embedding说话人向量带有说话人信息，一般由预训练好的说话人识别模型提取而得，属于判别模型，只是简单判断该语音片段属于哪个说话人，生成的speakerembedding说话人向量缺少说话人某些特定信息，对TTS语音合成这种生成类的模型不友好，也会对其产生一定的负向作用。

即现有的语音合成模型在训练时存在说话人特征信息不足，导致语音合成的质量较低的技术问题。

为解决上述问题，本申请的发明构思是：

在多说话人语音合成模型训练的过程中，增加语音转换模型来提取到更加丰富的说话人特征，从而基于更加丰富的说话人特征训练语音合成模型，为语音合成模型合成的语音增加音色，即利用同为生成类的VC语音转换模型，在保持说话内容不变的前提下，将原始说话人音色转换成目标说话人音色，提高语音合成模型在进行TTS语音合成时的语音质量。

需要说明的是，通过本申请提供的语音合成模型的训练方法训练得到的语音合成模型，可以应用在很多应用场景，比如：电子书朗读、数字人工客服、地图导航、语音合成模型的训练系统、具备语音合成功能的服务器以及具备TTS语音转换的设备等等。

下面具体介绍本申请提供的状态语音合成模型的训练方法。

图1为本申请实施例提供的一种语音合成模型的训练方法的流程示意图。如图1所示，该语音合成模型的训练方法的具体步骤，包括：

S101、获取训练数据。

在本步骤中，训练数据包括：一个或多个目标说话人的目标语音和待合成训练文本对应的音素序列。其中，目标语音包括录制的一个或多个说话人所说出的预设内容。音素序列包括多个phoneme音素，音素phoneme是指能够区分一个字或词的最小语音单位，也称为音位。音素phoneme在中文语音合成领域为拼音+韵律(即词语之间的停顿时间长短)。例如，音素序列为：han2 guo2 7 zui4 da4 de5 7 dao6 yu6 7 ji3 zhou1 dao3，该音素序列对应着：韩国最大岛屿济州岛。需要说明的是，例如han2这个拼音后面的2是音调，1表示一声，2表示二声，3表示三声，4表示四声，5表示轻音，6表示变音，7、8、9代表不同的韵律停顿时长：7表示停顿较短，9表示停顿较长，8表示居中。

待合成训练文本可以是指任意一段文本，音素序列可以是与待合成训练文本对应的，也可以是一个通用的音素集合。获取待合成训练文本对应的音素序列的方式可以包括：通过待合成训练文本对应的拼音或发音方式以及预设的韵律规则，将待合成文本转换为拼音序列，然后根据预设的韵律规则为拼音序列中的每个拼音添加韵律，从而得到音素序列。

具体的，目标语音及待合成训练文本对应的音素可以是预先存储在训练数据库中的。获取训练数据就可以是指从训练数据库中获取目标语音及待合成训练文本对应的音素序列。

S102、对目标语音进行预处理得到目标梅尔频谱，并将目标梅尔频谱输入语音转换模型中进行转换处理，得到目标说话人向量。

在本步骤中，在电子设备中包含了一个预先设置的梅尔频谱提取模块，该梅尔频谱提取模块用于将目标语音进行预处理，得到目标梅尔频谱。

需要说明的是，梅尔频谱是将音频对应的多个功率谱，也称为多个功率帧，构成的语谱图经过梅尔滤波器组过滤后，得到的语谱图。

VC语音转换模型的作用是对梅尔图谱进行图像处理，提取出图像中的特征，并将这些特征以向量的形式组织表达，形成目标说话人向量。语音转换模型可以是预先训练完成的，与现有的说话人特征提取模型相比，语音转换模型可以提取到更为丰富的说话人特征，本申请实施例采用语音转换模型进行说话人特征提取，可以有助于后续对语音合成模型训练时，具有更为丰富的说话人特征作为参考，从而提高语音合成模型的准确率，增加合成语音中说话人的声音特征，如音色、音调、音高、节奏等等。

S103、将音素序列以及目标说话人向量输入语音合成模型中进行合成处理得到预测梅尔频谱，并将预测梅尔频谱输入语音转换模型中，确定预测说话人向量。

在本步骤中，将音素序列以及目标说话人向量输入语音合成模型中进行合成处理得到预测梅尔频谱包括如下步骤：

S1031、将音素序列输入语音合成模型中进行合成处理；

可选的，语音合成模型包括音素提取器、位置提取器以及编码器。将音素序列输入语音合成模型进行合成处理，可以包括：首先，将音素序列输入语音合成模型中的音素提取器中，确定音素特征向量；然后，将音素序列输入语音合成模型中的位置提取器中，确定位置特征向量；最后，将音素特征向量与位置特征向量相加后，输入编码器进行编码处理，得到第一特征向量。

S1032、在合成处理的过程中，将目标说话人向量与一个或多个中间过程向量相加计算，并采用相加计算结果替换中间过程向量，继续进行合成处理，得到预测梅尔频谱。

在本实施例中，中间过程向量包括：语音合成模型中的编码器输出的第一特征向量，则步骤S1032具体包括：

将目标说话人向量与第一特征向量相加计算得到第一合成向量；将第一特征向量替换为第一合成向量，继续在语音合成模型中进行合成处理。

在一种可能的实施方式中，语音合成模型还可以包括方差调节器，方差调节器与编码器和梅尔频谱解码器连接，方差调节器的输入是编码器输出的特征向量与预测说话人向量合成后的第一合成向量，方差调节器对第一合成向量对应的数据的方差进行调节处理，以减小这些数据的方差，然后将调节处理后的数据输出为第二特征向量。可选的，中间过程向量还可以包括：语音合成模型中的方差调节器输出的第二特征向量，对应的，本步骤具体包括：

将目标说话人向量与第二特征向量相加计算得到第二合成向量；将第二特征向量替换为第二合成向量，继续在语音合成模型中进行合成处理。

在另一种可能的实施方式中，中间过程向量包括：语音合成模型中的编码器输出的第一特征向量和语音合成模型中的方差调节器输出的第二特征向量，则本步骤具体包括：

将目标说话人向量与第一特征向量相加，确定第一合成向量，并将第一特征向量替换为第一合成向量；

将目标说话人向量与第二特征向量相加，确定第二合成向量，并将第二特征向量替换为第二合成向量；

然后，利用第一合成向量和第二合成向量，继续在语音合成模型中进行合成处理，得到预测梅尔频谱。

需要说明的是，在一种可能的设计中，方差调节器的输入向量包括第一合成向量，第一合成向量是将目标说话人向量与第一特征向量相加计算得到的，第一特征向量是语音合成模型中编码器输出的。

在一种可能的实施方式中，合成处理的过程中还包括：

将音素序列输入语音合成模型中的位置提取器中，确定位置特征向量；将第二特征向量替换为第二合成向量，继续在语音合成模型中进行合成处理，包括：将第二合成向量与位置特征向量相加后，输入语音合成模型中的梅尔图谱解码器进行解码处理，得到预测梅尔图谱。

在本实施例中，音素序列中的多个音素phoneme是合成语音的基本单元，将目标文字的内容转换为目标语音，其实质就是将文字或词对应的音素phoneme组合起来，并添加说话人的声音特征，如音调、音色、节奏等等特征。

S104、基于目标说话人向量和预测说话人向量确定第一损失函数值，以及基于目标梅尔频谱和预测梅尔频谱确定第二损失函数值。

在本步骤中，第一损失函数值用于表征目标说话人向量和预测说话人向量之间的向量差异，而第二损失函数值用于表征目标梅尔频谱和预测梅尔频谱之间的频谱差异，向量差异和频谱差异都是说话人的声音特征或声音特征差异的一种表达方式，通过这两种差异来训练语音合成模型，可以使得语音合成模型增加说话人的声音特征或声音特征，如音色、音调、节奏等等，提高语音合成模型所合成语音的准确率，并能够使得合成的语音更真实，更接近说话人的说话特点，也更人性化。

S105、根据第一损失函数值和第二损失函数值训练语音合成模型。

在本步骤中，训练完成的所述语音合成模型将待合成训练文本合成为合成语音，该合成语音与目标语音具有相同声音特征。

作为一种可选的实施方式，根据第一损失函数值和第二损失函数值训练语音合成模型，可以包括：分别根据第一损失函数值以及第二损失函数值进行反向传播和模型迭代，直至相似度大于或等于预设相似度阈值，则语音合成模型训练完毕。

作为另一种可选的实施例方式，根据第一损失函数值和第二损失函数值训练语音合成模型，还可以包括：根据第一损失函数值和第二损失函数值确定一个合成损失函数值；基于合成损失函数值进行方向传播和模型迭代，完成对语音合成模型的训练。

在一个实施例中，第一损失函数值的确定方式可以是利用第一预设损失函数，计算预测说话人向量与目标说话人向量的第一相似度，得到的第一相似度即为第一损失函数值；第二损失函数值的确定方式为利用第二预设损失函数，计算目标梅尔频谱和预测梅尔频谱的第二相似度即第二损失函数值。其中，第一预设损失函数可以包括：余弦损失函数。第二预设损失函数包括：L1损失函数或者L2损失函数。其中，L1损失函数用于最小化误差,该误差是真实值和预测值之间的所有绝对差之和。L2损失函数用于最小化误差,该误差是真实值和预测值之间所有平方差的总和。

本申请实施例提供的语音合成模型的训练方法，通过语音转换模型提取的说话人特征，由于语音转换模型提取到的说话人特征中包括更加丰富的说话人信息，进而在基于该说话人特征进行语音合成模型训练时，可以提升语音合成模型的准确性。另外，在对语音合成模型的训练过程中，引入了说话人特征，并基于第一损失函数和第二损失函数对语音合成模型进行训练，如此可以保证训练完成的语音合成模型合成的语音与说话人具备相同的音色。

基于上述的语音合成模型的训练方法，本申请实施例提供了一种语音合成模型的训练场景，参见图2，为本申请实施例提供的一种语音合成模型的训练场景示意图。如图2所示，对语音合成模型的训练可以由电子设备执行，该电子设备可以是终端设备或者服务器，其中，终端设备可以包括智能手机、笔记本电脑、智能语音交互设备等等，服务器可以指独立的物理服务器、由多个物理服务器组成的服务器集群或者能够进行云计算的云服务器。

电子设备在对语音合成模型进行训练时需要两类数据，这两类数据可以统称为训练数据，一类数据是phoneme音素101，用于进行语音合成，另一类是目标语音102，是直接录制目标说话人所说的语音，即phoneme音素101输入语音合成模型200进行合成处理后，得到语音合成结果；如果所得到的语音合成结果与目标语音102的声音特征(如音色、音调、音高等)差异小于预设差异阈值，则证明语音合成模型200已经满足要求，否则还需要进行训练，直至两者的差异小于预设差异阈值。

如图2所示，在对语音合成模型进行训练时，首先从训练数据库100中加载目标语音102和音素序列中的多个phoneme音素101，然后，利用梅尔频谱提取模块105对目标语音102进行预处理，提取出目标语音102对应的目标梅尔频谱即梅尔频谱103。并将梅尔图谱103输入VC语音转换模型300中进行音色特征向量104即目标说话人向量的提取。接下来，将训练用的phoneme音素101输入语音合成模型200中进行TTS语音合成处理，同时，将音色特征向量104即目标说话人向量也输入到语音合成模型200中，弥补现有技术中缺少说话人的音色特征的问题。语音合成模型200合成的语音经过梅尔图谱解调器转换为预测梅尔图谱，然后将预测梅尔图谱输入VC语音转换模型300中，提取得到预测说话人向量。

在语音合成模型200训练时，将训练用的phoneme音素101输入语音合成模型200中进行TTS语音合成处理，同时，提取目标语音102的梅尔图谱103，并将梅尔图谱103输入VC语音转换模型300中进行音色特征向量104的提取，并将音色特征向量104输入语音合成模型200中与处理过程的中间向量相加，这样就能够为TTS语音合成增加说话人的音色特征，提高合成语言的质量。利用预设的损失函数，计算语言合成模型200合成的语言对应的预测梅尔频谱201的预测音色特征向量202与目标语音101的音色特征向量104直接的相似度，然后进行反向传播训练，迭代语音合成模型200，直至相似度满足预设要求时，证明语音合成模型200已经训练好。

本申请实施例提供了一种语音合成模型的训练方法，通过在语音合成模型的训练过程中引入语音转换模型生成的预测说话人向量来增加一个或多个说话人的声音特征，如音色、音调、节奏等等，可以合成与目标说话人具有相同声音特征的语音。并且，在训练过程中，引入语音转换模型对目标说话人的语音进行特征提取，可以提取到包含更多说话人信息的特征向量，解决了现有的语音合成模型在训练时存在说话人特征信息不足，导致语音合成的质量较低的技术问题。达到了为语言合成模型的训练添加说话人的音色特征，提高语音合成模型输出的合成语音质量的技术效果。

经过上述实施例的训练后，得到了训练好的语音合成模型，下面介绍利用该训练好的语音合成模型进行语音合成的方法。

图3为本申请实施例提供的一种语音合成方法的流程示意图。如图3所示，该语音合成方法，使用图1所示实施例中训练好的语音合成模型，具体步骤包括：

S301、响应于执行语音合成的触发事件，获取待合成文本以及获取参考说话人的参考语音。

其中，语音合成的触发事件可以包括用户通过电子设备输入了语音合成操作，比如用户通过电子设备输入一段语音合成指令，或者用户触发了电子设备中进行语音合成的选项；或者，语音合成的触发事件还可以包括电子设备检测到存在新的待合成文本时，自动执行语音合成。比如在客服与用户的对话交互场景中，在历史对话过程中，用户每次都针对客服输入的文本进行语音合成，也就是说在历史对话过程中，用户习惯性地将文本信息转换为语音进行获取，所以在此种场景下，电子设备检测到客服输入了文本信息后，可以认为检测到执行语音合成的触发事件，可以直接将客服输入的文本信息合成为语音。

在一个实施例中，参考说话人的参考语音可以是用户通过电子设备输入的。比如，当检测到存在执行语音合成的触发事件时，电子设备显示一个语音合成的编辑页面，在该编辑页面中，用户可以从本地上传或者现场录制一段参考说话人的参考语音。

在另外一个实施例中，电子设备中可以存储了多个说话人的参考语音，这些说话人的参考语音均参与过语音合成模型的训练，每个说话人的参考语音参与语音合成模型的训练过程如图1实施例所示。多个说话人中可以包括目标说话人，用户可以从这些说话人的参考语音中选择一段参考参考语音。具体实现中，响应于执行语音合成的触发事件，显示说话人选择页，说话人选择页包括多个说话人标识，多个说话人标识中包括目标说话人标识；将说话人选择页中被选中的说话人标识对应的说话人，作为参考说话人，并获取参考说话人对应的参考语音。

例如，用户点击应用中的语音合成按钮，或者是用户进入语音合成应用时，在当前设备的显示屏上显示说话人选择页，然后用户从中选出一个或多个说话人标识作为参考说话人，然后后台程序就从数据库中获取参考说话人对应的参考语音。

S302、若参考说话人与目标说话人匹配，则对参考语音进行预处理得到参考梅尔频谱，并将参考梅尔频谱输入语音转换模型中进行转换处理，得到参考说话人向量。

在本步骤中，参考说话人与目标说话人相匹配可以指参考说话人与目标说话人是同一个说话人；或者，参考说话人的声音特征与目标说话人的声音特征之间的相似度达到很高的一个相似度阈值。在参考说话人与目标说话人相匹配时，可以将参考说话人认为是目标说话人。由于目标说话人是已经过训练的语音合成模型所对应的说话人，或者是已经在数据库中存储有相应数据的说话人，因此，在要合成与目标说话人具有相同声音特征的语音时，可以无需在利用参考说话人的参考语音对语音合成模型进行训练，直接使用参考说话人的参考语音来执行语音合成过程即可。

如前述图1所示的实施例可知，在直接使用参考说话人的参考语音进行语音合成时，需要用到参考说话人向量。参考说话人向量是通过如下步骤获取到的：对参考语音进行预处理得到参考梅尔频谱，然后通过语音转换模型对参考梅尔频谱进行转换处理，得到参考说话人向量。

应当理解的，对参考语音进行预处理得到参考梅尔频谱的详细实施方式，可参见前述对目标语音进行预处理得到目标梅尔频谱的相关描述，以及通过语音转换模型对参考梅尔频谱进行转换处理，得到参考说话人向量的详细实施方式，可参见前述对目标梅尔频谱进行处理得到目标说话人向量的相关描述。在此不再赘述。

S303、将参考说话人向量和待合成文本对应的音素序列输入语音合成模型进行语音合成处理，得到待合成文本对应的合成语音。

在本步骤中，合成语音具有参考说话人的声音特征，且语音合成模型是通过图1所示实施例的语音合成模型的训练方法训练得到的。

S304、若参考说话人与目标说话人不匹配，则将参考说话人作为目标说话人，并通过预设的训练方法对语音合成模型进行训练。

换句话说，参考说话人与目标说话人不匹配，说明当前的语音合成模型并没有使用参考说话人的参考语音训练过，也就是说当前语音合成模型还不具有将文本合成与参考说话人具有相同声音特征语音的能力，所以，在使用语音合成模型对待合成文本进行合成之前，需要先让语音合成模型具有上述能力。语音合成模型具有上述能力的方式就是按照上述图1相同的语音合成模型的训练方法，将此时参考说话人作为目标说话人，参考说话人的参考语音作为目标说话人的目标语音，执行图1所示的实施例各个步骤。经过此之后，训练完成的语音合成模型便具有了上述能力。

S305、训练完成后，将参考说话人向量和待合成文本对应的音素序列输入语音合成模型进行语音合成处理，得到待合成文本对应的合成语音。

在本步骤中，合成语音具有参考说话人的声音特征。

本实施例提供的语音合成方法，通过使用图1所示实施例的语音合成模型的训练方法所训练好的语音合成模型进行语音合成，得到了具备参考说话人的声音特征的合成语音，使得合成语音更准确、更智能，同时，本实施例还提供在用户选择没有训练过的参考说话人时，调用图1所示实施例的训练方法对语音合成模型进行实时训练，使得用户在使用时选择面更宽更灵活，提高了用户的使用体验感。

图4为本申请实施提供的另一种语音合成模型的训练方法的流程示意图。如图4所示，该语音合成模型的训练方法的具体步骤包括：

S401、获取训练数据。

在本步骤中，训练数据包括：目标说话人的目标语音、待合成训练文本对应的音素序列以及多个说话人的语音数据。

在本实施例中，多个说话人的语音数据包括：说话人识别领域的中文明星数据CN-Celeb1/2(包含2997个说话人语音数据)、aishell3开源数据和TTS训练数据中的至少一个。

S402、对各个语音数据进行预处理，确定各个说话人对应的梅尔频谱。

S403、根据各个说话人以及各个说话人对应的梅尔频谱对语音转换模型进行训练。

在本步骤中，根据各个说话人以及各个说话人的梅尔频谱对语音转换模型进行训练，得到泛化性能更好的语音转换模型。将说话人speaker与S402所得到的梅尔频谱mel-spectrogram一一对应起来，形成训练数据对<speaker,mel-spectrogram>。

在本实施例中，语音转换模型包括：AdaIN-VC模型。利用预设的训练方式，根据训练数据对<speaker,mel-spectrogram>，对AdaIN-VC模型进行训练，以提高AdaIN-VC模型的泛化能力。

图5为本申请实施例提供的AdaIN-VC模型的结构示意图。如图5所示，该AdaIN-VC模型500包括：说话人编码模块510(即Speaker Encoder)、内容编码模块520(即ContentEncoder)以及解码模块530(即Decoder)。其中，说话人编码模块510，用于提取音频501中说话人的音色信息，音频501对应了一个训练数据对中的speaker对应的语音数据。内容编码模块520用于提取音频501中的内容信息，同时利用instance normalization方法进行音色等静态信息的去除。静态信息指的是音色等固有信息，通常在一句话的任意时间片段内都保持不变。解码模块530用于组合说话人编码模块510和内容编码模块520生成的特征即音色信息和内容信息，生成目标音频特征502，在该模块中，应用adaptive instancenormalization将音色信息加入到音频内容信息上。

需要说明的是，本申请利用图5中的说话人编码模块510提取的音色信息的功能，从目标梅尔频谱和预测梅尔频谱中分别提取出目标说话人向量和预测说话人向量。

此外，为了获取到目标说话人向量和预测说话人向量，需要对AdaIN-VC模型进行训练，训练数据为说话人识别领域的中文明星数据CN-Celeb1/2，和aishell3开源数据、TTS训练数据。训练完成后在Speaker Encoder模块提取TTS语音合成模型的训练数据所对应的Speaker Embedding即目标说话人向量和预测说话人向量，然后参与多说话人语音合成模型的训练。

S404、对目标语音进行预处理得到目标梅尔频谱，并将目标梅尔频谱输入语音转换模型中进行转换处理，得到目标说话人向量。

在本实施例中，将目标语音处理成目标梅尔频谱Target mel spectrogram，再将其输入AdaIN-VC模型中得到目标说话人向量Target speaker embedding。

S405、将音素序列输入语音合成模型中的位置提取器中，确定位置特征向量。

S406、将音素序列输入语音合成模型中的音素提取器中，确定音素特征向量。

在本实施例中，对于步骤S405～S406，为了便于理解，举例如下：

图6为本申请实施例提供的一种语音合成模型与语音转换模型组合成的训练模型的结构示意图。如图6所示，语音合成模型包括：FastSpeech2模型610，语音转换模型包括：AdaIN-VC模型620。

音素序列输入到FastSpeech2模型610的音素提取器611中，得到音素特征向量phoneme embedding。音素序列输入到FastSpeech2模型610的位置提取器612中，得到位置特征向量phoneme encoding。

需要说明的是，位置提取器612的作用是提取当前输入的音素序列中的位置信息，音素提取器611的作用是提取phoneme之间的文本信息。

S407、将音素特征向量与位置特征向量相加后，输入编码器进行编码处理，得到第一特征向量。

在本实施例中，如图6所示，将音素特征向量phoneme embedding与位置特征向量phoneme encoding相加后，输入编码器Encoder613进行处理，输出第一特征向量。

需要说明的是，编码器Encoder613的作用是提取各个音素phoneme之间更高层的文本信息，比如句法等。

S408、将目标说话人向量与第一特征向量相加计算得到第一合成向量。

S409、将第一特征向量替换为第一合成向量，并将第一合成向量输入语音合成模型中的方差调节器得到第二特征向量。

在本实施例中，如图6所示，将目标说话人向量Target speaker embedding与第一特征向量相加后，输入方差调节器614中，即方差调节器的输入向量包括第一合成向量，方差调节器614输出第二特征向量。

需要说明的是，方差调节器614中包含很多个预测器predictor用来预测时长duration、音调pitch、能量energy。经过方差调节器614后，音素phoneme就会映射成和梅尔频谱mel spectrogram一样的长度。

S410、将目标说话人向量与第二特征向量相加计算得到第二合成向量。

S411、将第二合成向量与位置特征向量相加后，输入语音合成模型中的梅尔图谱解码器，得到预测梅尔图谱。

在本实施例中，如图6所示，将目标说话人向量Target speaker embedding、位置特征向量phoneme encoding以及第二特征向量相加后，输入梅尔图谱解码器Mel-spectrogram Decoder615，得到预测梅尔图谱predicted mel-spectrogram。

S412、将预测梅尔频谱输入语音转换模型中，确定预测说话人向量。

在本实施例中，如图5所示，将预测梅尔图谱predicted mel-spectrogram输入到AdaIN-VC模型520中得到预测说话人向量Predicted speaker embedding。

S413、基于目标说话人向量和预测说话人向量确定第一损失函数值，以及基于目标梅尔频谱和预测梅尔频谱确定第二损失函数值，并根据第一损失函数值和第二损失函数值训练语音合成模型。

在本步骤中，第一损失函数值包括：余弦相似度损失函数计算得到的第一相似度。第二损失函数值包括：L1损失函数或L2损失函数计算得到的第二相似度。训练完成的所述语音合成模型将所述待合成训练文本合成为合成语音，所述合成语音与所述目标语音具有相同声音特征。

余弦相似度损失函数如公式(1)所示：

其中，x1为target speaker embedding，x2为predicted speaker embedding，上述公式就是计算两个向量之间的cosine相似度，也就是距离，数值越小，相似度越高。其作用就是生成的语音具有该说话人特有的音调、音色等特征信息。

在本实施例中，如图6所示，利用余弦相似度损失函数计算预测说话人向量Predicted speaker embedding与目标说话人向量Target speaker embedding之间的相似度，并判断相似度是否大于或等于预设相似度阈值，若否，则对FastSpeech2模型610反向传播和模型迭代，直至相似度是否大于或等于预设相似度阈值，证明FastSpeech2模型610已经训练完毕。

本申请实施例基于语音转换AdaIn-VC语音转换模型，并结合语音合成非自回归模型FastSpeech2模型，提出一种多说话人语音合成模型。而且从说话人识别模型中提取的Speaker Embedding不同的是：AdaIn-VC语音转换模型提取的Speaker Embedding更连续，而说话人识别模型是一个判别任务，只需要区分不同说话人的语音片段，会忽略区分不同说话人所带的信息，这对TTS语音合成任务是不利的。理想的Speaker Embedding应该是对说话人的每个特征进行建模，但是说话人之间没有明确的界限，而VC特征表示所包含的的信息正是语音生成类任务想要的，这也是VC特征表示优于其他预训练特征表示的原因。

克服缺点1：使用本发明提取的Speaker Embedding，可运用于小样本TTS语音合成模型和多说话人语音合成模型，相比说话人识别模型提取的Speaker Embedding，生成特定人的语音相似度更高。

克服缺点2：predicted mel-spectrogram和target mel-spectrogram经预训练好的AdaIN-VC语音转换模型分别得到predicted speaker embedding和target speakerembedding，使用cosine similarity loss，计算两者的cosine相似度。经过一定模型迭代，两者分布越来越一致，进而使合成的语音具有该说话人的特征，比如音调、音色等。

基于前述的语音合成模型的训练方法时很顺利，本申请实施例还提供了一种语音合成模型的训练装置，参见图7为本申请实施例提供的一种语音合成模型的训练装置的结构示意图。该语音合成模型的训练装置700可以通过软件、硬件或者两者的结合实现。

如图7所示，该语音合成模型的训练装置700包括：

获取模块701，用于获取训练数据，训练数据包括：目标说话人的目标语音和待合成训练文本对应的音素序列；

处理模块702，用于：

根据第一损失函数值和第二损失函数值训练语音合成模型，训练完成的所述语音合成模型将待合成训练文本合成为合成语音，该合成语音与目标语音具有相同声音特征。

在一种可能的设计中，处理模块702，用于：

将音素序列输入语音合成模型中进行合成处理；

在合成处理的过程中，将目标说话人向量与一个或多个中间过程向量相加计算，并采用相加计算结果替换中间过程向量，继续进行合成处理，得到预测梅尔频谱。

在一种可能的设计中，语音合成模型包括编码器，中间过程向量包括：语音合成模型中的编码器输出的第一特征向量；

对应的，处理模块702，用于：

将目标说话人向量与第一特征向量相加计算得到第一合成向量；

将第一特征向量替换为第一合成向量，继续在语音合成模型中进行合成处理。

在一种可能的设计中，语音合成模型包括方差调节器，中间过程向量包括：语音合成模型中的方差调节器输出的第二特征向量；

对应的，处理模块702，用于：

将目标说话人向量与第二特征向量相加计算得到第二合成向量；

将第二特征向量替换为第二合成向量，继续在语音合成模型中进行合成处理。

在一种可能的设计中，方差调节器的输入向量包括第一合成向量，第一合成向量是将目标说话人向量与第一特征向量相加计算得到的，第一特征向量是语音合成模型中编码器输出的。

在一种可能的设计中，处理模块702，用于：

将音素序列输入语音合成模型中的音素提取器中，确定音素特征向量；

将音素序列输入语音合成模型中的位置提取器中，确定位置特征向量；

将音素特征向量与位置特征向量相加后，输入编码器进行编码处理，得到第一特征向量。

在一种可能的设计中，处理模块702，用于：

将第二合成向量与位置特征向量相加后，输入语音合成模型中的梅尔图谱解码器进行解码处理，得到预测梅尔图谱。

在一种可能的设计中，训练数据还包括：多个说话人的语音数据；

处理模块702，还用于：

对各个语音数据进行预处理，确定各个说话人对应的梅尔频谱；

根据各个说话人以及各个说话人对应的梅尔频谱对语音转换模型进行训练，得到泛化性能更好的语音转换模型。

值得说明的是，图7所示实施例提供的装置，可以执行上述任一方法实施例中所提供的语音合成模型的训练方法，其具体实现原理、技术特征、专业名词解释以及技术效果类似，在此不再赘述。

基于前述语音合成方法的实施例，本申请还提供一种语音合成装置。参见图8，图8为本申请实施例提供的一种语音合成装置的结构示意图。该语音合成装置800可以通过软件、硬件或者两者的结合实现。如图8所示，该语音合成模型的训练装置800包括：

获取模块801，用于响应于执行语音合成的触发事件，获取待合成文本以及获取参考说话人的参考语音；

处理模块802，用于：

若参考说话人与目标说话人匹配，则对参考语音进行预处理得到参考梅尔频谱，并将参考梅尔频谱输入语音转换模型中进行转换处理，得到参考说话人向量；

将参考说话人向量和待合成文本对应的音素序列输入语音合成模型进行语音合成处理，得到待合成文本对应的合成语音，合成语音具有参考说话人的声音特征；语音合成模型是通过上述方法实施例所提供的语音合成模型的训练方法训练得到的。

在一种可能的设计中，处理模块802，还用于：

响应于执行语音合成的触发事件，显示说话人选择页，说话人选择页包括多个说话人标识，多个说话人标识中包括目标说话人标识；

获取模块801，还用于：

将说话人选择页中被选中的说话人标识对应的说话人，作为参考说话人，并获取参考说话人对应的参考语音。

在一种可能的设计中，处理模块802，还用于：

若参考说话人与目标说话人不匹配，则将参考说话人作为目标说话人，并上述各个实施例所提供的训练方法对语音合成模型进行训练；

训练完成后，将参考说话人向量和待合成文本对应的音素序列输入语音合成模型进行语音合成处理，得到待合成文本对应的合成语音，合成语音具有参考说话人的声音特征。

值得说明的是，图8所示实施例提供的装置，可以执行上述任一方法实施例中所提供的语音合成方法，其具体实现原理、技术特征、专业名词解释以及技术效果类似，在此不再赘述。

基于上述的方法实施例以及装置实施例，本申请还提供了一种电子设备。参见图9为本申请实施例提供的一种电子设备的结构示意图。如图9所示，该电子设备900，可以包括：至少一个处理器901和存储器902。图9示出的是以一个处理器为例的电子设备。

存储器902，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器902可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器901用于执行存储器902存储的计算机执行指令，以实现以上的语音合成模型的训练方法，具体地，处理器901执行：

获取训练数据，所述训练数据包括目标说话人的目标语音和待合成训练文本对应的音素序列；

或者，处理器901用于执行存储器902存储的计算机执行指令，以实现以上的语音合成方法，具体地，处理器901执行：

将所述参考说话人向量和所述待合成文本对应的音素序列输入语音合成模型进行语音合成处理，得到所述待合成文本对应的合成语音，所述合成语音具有所述参考说话人的声音特征；所述语音合成模型是通过权利要求1-9任一项所述的语音合成模型的训练方法训练得到的。

其中，处理器901可能是一个中央处理器(central processing unit，简称为CPU)，或者是特定集成电路(application specific integrated circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

可选地，存储器902既可以是独立的，也可以跟处理器901集成在一起。当所述存储器902是独立于处理器901之外的器件时，所述电子设备900，还可以包括：

总线903，用于连接所述处理器901以及所述存储器902。总线可以是工业标准体系结构(industry standard architecture，简称为ISA)总线、外部设备互连(peripheralcomponent，PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器902和处理器901集成在一块芯片上实现，则存储器902和处理器901可以通过内部接口完成通信。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random accessmemory，RAM)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序指令，程序指令用于上述各方法实施例中的方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由本申请的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种语音合成模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述将所述音素序列以及所述目标说话人向量输入语音合成模型中进行合成处理得到预测梅尔频谱，包括：

将所述音素序列输入所述语音合成模型中进行合成处理；

在合成处理的过程中，将所述目标说话人向量与一个或多个中间过程向量相加计算，并采用相加计算结果替换所述中间过程向量，继续进行合成处理，得到所述预测梅尔频谱。

3.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述语音合成模型包括编码器，所述中间过程向量包括：所述编码器输出的第一特征向量；

所述在合成处理的过程中，将所述目标说话人向量与一个或多个中间过程向量相加计算，并采用相加计算结果替换所述中间过程向量，继续进行合成处理，包括：

将所述目标说话人向量与所述第一特征向量相加计算得到第一合成向量；

将所述第一特征向量替换为所述第一合成向量，继续在所述语音合成模型中进行合成处理。

4.根据权利要求2或3所述的语音合成模型的训练方法，其特征在于，所述语音合成模型包括方差调节器，所述中间过程向量包括：所述方差调节器输出的第二特征向量；

将所述目标说话人向量与所述第二特征向量相加计算得到第二合成向量；

将所述第二特征向量替换为所述第二合成向量，继续在所述语音合成模型中进行合成处理。

5.根据权利要求4所述的语音合成模型的训练方法，其特征在于，所述方差调节器的输入向量包括第一合成向量，所述第一合成向量是将所述目标说话人向量与第一特征向量相加计算得到的，所述第一特征向量是所述语音合成模型中编码器输出的。

6.根据权利要求3所述的语音合成模型的训练方法，其特征在于，所述将所述音素序列输入所述语音合成模型中进行合成处理，包括：

将所述音素序列输入所述语音合成模型中的音素提取器中，确定音素特征向量；

将所述音素序列输入所述语音合成模型中的位置提取器中，确定位置特征向量；

将所述音素特征向量与所述位置特征向量相加后，输入所述编码器进行编码处理，得到所述第一特征向量。

7.根据权利要求4所述的语音合成模型的训练方法，其特征在于，所述将所述音素序列输入所述语音合成模型中进行合成处理，包括：

所述将所述第二特征向量替换为所述第二合成向量，继续在所述语音合成模型中进行合成处理，包括：

将所述第二合成向量与所述位置特征向量相加后，输入所述语音合成模型中的梅尔图谱解码器进行解码处理，得到所述预测梅尔图谱。

8.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述训练数据还包括：多个说话人的语音数据；

在所述将所述目标梅尔频谱输入语音转换模型中之前，还包括：

根据所述各个说话人以及所述各个说话人对应的梅尔频谱对所述语音转换模型进行训练。

9.一种语音合成方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，所述获取参考说话人的参考语音，包括：

响应于执行语音合成的触发事件，显示说话人选择页，所述说话人选择页包括多个说话人标识，所述多个说话人标识中包括目标说话人标识；

将所述说话人选择页中被选中的说话人标识对应的说话人，作为参考说话人，并获取所述参考说话人对应的参考语音。

11.根据权利要求9所述的方法，其特征在于，所述方法还包括：

若所述参考说话人与所述目标说话人不匹配，则将所述参考说话人作为目标说话人，并通过权利要求1-8任一项所述的方法对语音合成模型进行训练；

训练完成后，将所述参考说话人向量和所述待合成文本对应的音素序列输入所述语音合成模型进行语音合成处理，得到所述待合成文本对应的合成语音，所述合成语音具有所述参考说话人的声音特征。

12.一种语音合成模型的训练装置，其特征在于，包括：

获取模块，用于获取训练数据，所述训练数据包括：目标说话人的目标语音和待合成训练文本对应的音素序列；

处理模块，用于：

13.一种语音合成装置，其特征在于，包括：

处理模块，用于：

14.一种电子设备，其特征在于，包括：

处理器；以及，

存储器，用于存储所述处理器的计算机程序；

其中，所述处理器配置为经由执行所述计算机程序来执行权利要求1至8任一项所述的语音合成模型的训练方法；或者，权利要求9-11任一项所述的语音合成方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述的语音合成模型的训练方法；或者权利要求9-11任一项所述的语音合成方法。