CN116129869A

CN116129869A - 语音风格迁移合成方法及装置、电子设备、存储介质

Info

Publication number: CN116129869A
Application number: CN202310134171.2A
Authority: CN
Inventors: 宋伟; 岳杨皓; 张雅洁; 张政臣; 吴友政
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-05-16
Also published as: WO2024164978A1

Abstract

本公开提供了一种语音风格迁移合成方法及装置、电子设备、存储介质，涉及语音合成技术领域。该方法包括：获取待合成语音文本，确定待合成语音文本对应的音素序列；确定具有目标音色的对象语音嵌入向量；将音素序列以及对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频；语音风格迁移合成模型用于预测目标语音风格的韵律特征，语音风格迁移合成模型包括用于生成韵律特征的韵律预测器，目标语音音频在播放时符合目标音色和目标语音风格。本公开实施例的技术方案可以在不改变音色的前提下，实现任意类型的语音风格的迁移，并且通过韵律预测器使合成的目标语音音频的语音风格可调，提升合成的目标语音音频的质量。

Description

语音风格迁移合成方法及装置、电子设备、存储介质

背景技术

随着科学技术的发展，语音合成(Speech Synthesis)技术越来越受到人们的欢迎。语音合成是指通过机械的、电子的方法产生人造语音的技术，而语音合成的风格迁移，是指在保留目标说话人音色的基础上，改变其说话的风格，让语音合成的风格变换为其他的要学习的说话人风格。

目前，相关的语音合成的风格迁移方案中，要么语音合成的过程语音风格不可控，导致风格迁移后的合成语音音频的效果较差，要么只能进行已经录制的语音风格的风格转换，不能迁移到任意说话人的语音风格，语音合成的风格迁移效率较差。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例的目的在于提供一种语音风格迁移合成方法、语音风格迁移合成装置、电子设备以及计算机可读存储介质，进而至少在一定程度上提升风格迁移后的合成语音音频的质量以及提高语音合成的风格迁移的效率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的第一方面，提供了一种语音风格迁移合成方法，包括：

获取待合成语音文本，确定所述待合成语音文本对应的音素序列；

确定具有目标音色的对象语音嵌入向量；

将所述音素序列以及所述对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频；

其中，所述语音风格迁移合成模型用于预测目标语音风格的韵律特征，所述语音风格迁移合成模型包括用于生成所述韵律特征的韵律预测器，所述目标语音音频在播放时符合所述目标音色和目标语音风格。

在本公开的一些示例实施例中，基于前述方案，所述语音风格迁移合成模型包括编码器以及解码器；

所述将所述音素序列以及所述对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频，包括：

将所述音素序列输入到所述编码器中，得到音素序列嵌入向量；

将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述韵律预测器中，确定所述音素序列嵌入向量对应的韵律特征，所述韵律特征包括音素发音时长、音素音高、音素能量；

将所述韵律特征输入到所述解码器中，生成目标语音音频。

在本公开的一些示例实施例中，基于前述方案，所述韵律预测器包括音素发音时长预测器、音素音高预测器和音素能量预测器；

所述将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述韵律预测器中，确定所述音素序列嵌入向量对应的韵律特征，包括：

将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述音素发音时长预测器中，确定所述音素发音时长；

将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述音素音高预测器中，确定所述音素音高；

将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述音素能量预测器中，确定所述音素能量；

基于所述韵律预测器将所述音素发音时长扩展到帧级别的音素发音时长；

根据所述帧级别的音素发音时长、所述音素音高以及所述音素能量确定所述音素序列嵌入向量对应的韵律特征。

在本公开的一些示例实施例中，基于前述方案，所述方法还包括：

对所述音素音高和所述音素能量进行高斯归一化处理。

在本公开的一些示例实施例中，基于前述方案，所述语音风格迁移合成模型是通过风格迁移训练过程得到的，所述风格迁移训练过程包括：

获取预训练的语音合成模型，所述语音合成模型用于生成具有第一音色以及第一语音风格的第一语音音频；

获取风格迁移训练数据，所述风格迁移训练数据包括具有第二音色以及第二语音风格的训练语音音频，以及所述训练语音音频对应的训练语音文本；

确定所述训练语音文本对应的训练音素序列，以及确定所述训练语音音频对应的训练声学特征和训练韵律特征；

根据所述训练音素序列、所述训练声学特征和所述训练韵律特征，对所述语音合成模型进行风格迁移训练，得到训练完成的语音风格迁移合成模型；

其中，所述语音风格迁移合成模型用于生成具有第一音色以及第二语音风格的第二语音音频。

在本公开的一些示例实施例中，基于前述方案，所述语音风格迁移合成模型包括编码器、解码器以及韵律预测器，所述根据所述训练音素序列、所述训练声学特征和所述训练韵律特征，对所述语音合成模型进行风格迁移训练，包括：

将所述训练音素序列输入到所述编码器中，得到训练音素嵌入向量；

将所述训练音素嵌入向量以及所述第一语音音频对应的对象语音嵌入向量输入到所述韵律预测器中，预测所述训练音素嵌入向量对应的预测韵律特征；

将所述预测韵律特征与所述训练声学特征输入到所述解码器中，得到预测语音音频；

确定所述预测韵律特征与所述训练韵律特征的损失，固定所述编码器、所述解码器以及所述对象语音嵌入向量的参数，并根据所述损失更新所述韵律预测器的参数。

在本公开的一些示例实施例中，基于前述方案，所述编码器和所述解码器均为基于自注意力机制的多层前馈神经网络。

根据本公开实施例的第二方面，提供了一种语音风格迁移合成装置，包括：

音素序列确定模块，用于获取待合成语音文本，确定所述待合成语音文本对应的音素序列；

目标音色确定模块，用于确定具有目标音色的对象语音嵌入向量；

语音音频生成模块，用于将所述音素序列以及所述对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频；

根据本公开实施例的第三方面，提供了一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意一项所述的语音风格迁移合成方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据上述任意一项所述的语音风格迁移合成方法。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开的示例实施例中的语音风格迁移合成方法，可以确定待合成语音文本对应的音素序列，确定具有目标音色的对象语音嵌入向量，可以将音素序列以及对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频；其中，语音风格迁移合成模型可以用于预测目标语音风格的韵律特征，语音风格迁移合成模型可以包括用于生成韵律特征的韵律预测器，目标语音音频在播放时符合目标音色和目标语音风格。一方面，通过包含韵律预测器的语音风格迁移合成模型，可以将输入的待合成语音文本转换成具有目标音色以及目标语音风格的目标语音音频，实现将任意语音风格迁移到任意音色，使语音风格迁移方案中语音风格可控，有效提升语音合成的风格迁移效率，不需要对同一个说话人录制不同语音风格的语音音频，降低音频录制成本；另一方面，通过韵律预测器能够有效学习语音风格的有效特征，使合成的语音数据模拟的语音风格更加真实，有效提升风格迁移合成后的目标语音音频的质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本公开的一些实施例的语音风格迁移合成方法的示意图；

图2示意性示出了根据本公开的一些实施例的生成目标语音音频的流程示意图；

图3示意性示出了根据本公开的一些实施例的音素能量的示意图；

图4示意性示出了根据本公开的一些实施例的音素音高的示意图；

图5示意性示出了根据本公开的一些实施例的确定韵律特征的流程示意图；

图6示意性示出了根据本公开的一些实施例的风格迁移训练的流程示意图；

图7示意性示出了根据本公开的一些实施例的对语音合成模型进行风格迁移训练的流程示意图；

图8示意性示出了根据本公开的一些实施例的语音风格迁移合成模型的原理示意图；

图9示意性示出了根据本公开的一些实施例的韵律预测器的结构示意图；

图10示意性示出了根据本公开的一些实施例的音素发音时长预测器、音素音高预测器或者音素能量预测器的结构示意图；

图11示意性示出了根据本公开的一些实施例的语音风格迁移合成装置的示意图；

图12示意性示出了根据本公开的一些实施例的电子设备的计算机系统的结构示意图；

图13示意性示出了根据本公开的一些实施例的计算机可读存储介质的示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

此外，附图仅为示意性图解，并非一定是按比例绘制。附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

一种相关方案中，是通过基于单说话人多风格录音数据的语音合成风格迁移，通常需要平行训练语料，即对于同一份语音文本，需要录制不同语音风格的语音音频，或者根据不同的语音文本录制不同语音风格的录音数据，这样对于相同说话人，就有了不种风格的录音数据，进而可以通过语音风格相关的嵌入向量(Embedding)来控制最终合成的时候要使用的语音风格，即可实现风格迁移。

但是，该方案需要对同一个说话人录制不同风格的语音，录制成本高，并且由于同一个说话人很难做到真实、自然的风格表演，通常录制的风格数据不够自然、真实；并且，该方法受限于说话人录制的有限风格数据，只能进行已经录制的几种风格的风格转换(迁移)，不能自由的迁移到其他的说话人的风格。

另一种相关方案中，是通过基于GST的句子reference的风格迁移方案，语音合成主干网络是基于Sequence to Sequence的端到端的语音合成系统，然后在该系统中，添加了一个音频编码器用于获取音频的全局韵律表征，该韵律表征向量和语音合成系统主干网络中的文本编码器得到的文本序列表征向量相加，即可得到包含全局韵律信息的文本表征；然后解码器利用得到的包含全局韵律特征的文本表征信息，通过注意力机制预测最终要得到音频的声学特征。在训练过程中，音频编码器的输入即当前输入文本对应的音频，在推理的过程中，音频编码器的输入可以替换为目标韵律风格的语音。

但是，该方案得到的是一个全局的韵律特征，对于最终合成的韵律效果影响较小，只能起到一定程度的影响作用，不能实现细粒度的风格控制；该方案的风格迁移结果，会在一定程度上接近要迁移的语音风格，但是合成的语音质量较差，并且该方案需要大量的不同风格的数据来训练模型，以便让模型能够学习到有效的韵律表征，数据量少的情况下模型的表现会非常差。

再一种相关方案中，提出了一种采用单说话人单风格数据的风格迁移方案，该方案采用基于Sequence to Sequence的端到端语音合成神经网络为主干神经网络，在此基础上，该方案结合语音风格的Embedding和主干网络得到的文本表征通过一个音素级别的韵律预测器预测韵律特征，然后将预测得到的韵律特征经过一个多尺度的韵律编码器得到不同尺度的韵律表征，然后这些得到的音素级别韵律表征被添加到主干网络的文本表征上，得到包含音素级别韵律表征的文本表征，最后主干网络通过注意力机制预测最终的声学特征。韵律预测器和主干网络一起训练，其预测目标为音高、能量和音素的发音时长等特征。

但是，该方案由于其采用了基于Sequence to Sequence的网络结构，导致合成过程不可控，容易出现因注意力机制带来的丢音、重复发音等问题，该韵律特征经过多尺度编码器之后，不可显示的控制其物理含义，导致网络不够灵活。

再一种相关方案中，在基于Sequence to Sequence的主干网络中，引入了韵律的瓶颈层bottleneck特征，并且通过一个语音风格Embedding来控制不同语音风格的韵律信息得到的bottleneck特征。该方案在推理的时候，需要先通过目标的风格以及该风格对应的说话人ID以及文本获取风格的bottleneck特征，然后再用目标说话人的ID以及目标的风格和文本，获取文本表征，在结合获得的获得的风格的bottleneck特征进行风格转换。

但是，该方案需要单说话人多风格的训练预料，虽然其也支持单说话人单风格数据，但是需要先通过单说话人多风格的数据进行模型预训练；同时，该方案在进行风格转换的时候，过程比较繁琐，编码器需要运行两次，还需要拼接神经网络中间产生的结果，非常不灵活；并且因为该方案在推理的时候，神经网络存在训练过程中并没有见过的文本特征、说话人ID和语音风格ID的组合，会导致推理的时候和训练的时候不一致的问题，这也是最终导致风格迁移效果不好的原因。

基于相关技术中的一个或者多个问题，在本示例实施例中，首先提供了一种语音风格迁移合成方法，该语音风格迁移合成方法可以应用于终端设备，例如手机、电脑等电子设备，也可以应用于服务器，本实施例实施例对此不做特殊限定，下面以服务器执行该方法为例进行说明。图1示意性示出了根据本公开的一些实施例的语音风格迁移合成方法流程的示意图。参考图1所示，该语音风格迁移合成方法可以包括以下步骤：

步骤S110，获取待合成语音文本，确定所述待合成语音文本对应的音素序列；

步骤S120，确定具有目标音色的对象语音嵌入向量；

步骤S130，将所述音素序列以及所述对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频；

根据本示例实施例中的语音风格迁移合成方法，一方面，通过包含韵律预测器的语音风格迁移合成模型，可以将输入的待合成语音文本转换成具有目标音色以及目标语音风格的目标语音音频，实现将任意语音风格迁移到任意音色，使语音风格迁移方案中语音风格可控，有效提升语音合成的风格迁移效率，不需要对同一个说话人录制不同语音风格的语音音频，降低音频录制成本；另一方面，通过韵律预测器能够有效学习语音风格的有效特征，使合成的语音数据模拟的语音风格更加真实，有效提升风格迁移合成后的目标语音音频的质量。

下面，将对本示例实施例中的语音风格迁移合成方法进行进一步的说明。

在步骤S110中，获取待合成语音文本，确定所述待合成语音文本对应的音素序列。

在本公开的一种示例性实施例中，待合成语音文本是指通过添加音色以及语音风格等特征以模拟说话人发出的语音内容相符的文本数据，例如，待合成语音文本可以是“大家好，感谢大家的支持”，可以根据该待合成语音文本的音素以及目标说话人的音色、说话风格等特征得到目标说话人朗读该待合成语音文本的语音音频。

音素(Phone)是指根据语音的自然属性划分出来的最小语音单位，音素可以依据音节里的发音动作分析，一个动作构成一个音素。例如，音素可以分为元音与辅音两大类，也可以分为汉字拼音的韵母和声母，如汉语的音节“啊(ā)”只有一个音素，“爱(ài)”有两个音素，“代(dài)”有三个音素等。

音素序列是指对待合成语音文本进行音素分析得到的序列，例如，待合成语音文本可以是“大家好”，对应的音素序列可以是{d，a，j，i，a，h，ao}，当然，此处仅是示意性举例说明，本示例实施例不以此为限。

在步骤S120中，确定具有目标音色的对象语音嵌入向量。

在本公开的一种示例性实施例中，音色(Timbre)是指表征不同声音表现在波形方面或者震动方面的特性数据，例如，某个人的音色可以是尖细音色、低沉音色、厚重音色等。目标音色可以在语音合成过程中自定义设置的某个说话人的音色或者人为调整的机械音色，本示例实施例对于目标音色的类型不做具体限定。

对象语音嵌入向量是指表征目标音色的词嵌入向量(Embedding)，每个对象语音嵌入向量可以对应的一个说话者ID，可以在训练过程中生成多个具有不同音色的对象语音嵌入向量，在语音合成过程中，可以选择不同的对象语音嵌入向量，实现合成的语音音频具有目标音色。

可以根据用户的选择，确定具有目标音色的对象语音嵌入向量，例如，用户可以选择合成具有“说话者甲”的音色的语音数据，那么可以确定具有“说话者甲”的音色的对象语音嵌入向量。

在步骤S130中，将所述音素序列以及所述对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频。

在本公开的一种示例性实施例中，语音风格迁移合成模型是指预先训练的、可以用于预测目标语音风格的韵律特征的深度学习模型，例如，语音风格迁移合成模型可以是基于Encoder-Decoder网络结构的端到端的网络架构，当然，也可以是其他类型的深度学习模型，本示例实施例对此不做特殊限定。语音风格迁移合成模型可以包括用于生成韵律特征的韵律预测器。

目标语音音频是指在播放时符合目标音色和目标语音风格的音频数据，通过对象语音嵌入向量可以为待合成语音文本添加目标音色，通过具有韵律预测器的语音风格迁移合成模型可以为待合成语音文本添加目标语音风格，使目标语音音频具有目标音色和目标语音风格，但目标音色和目标语音风格分别属于不同的说话人，实现任意类型的音色与任意类型的语音风格的自由组合，使语音风格迁移方案中语音风格可控，有效提升语音合成的风格迁移效率，不需要对同一个说话人录制不同语音风格的语音音频，降低音频录制成本；同时，通过韵律预测器也可以有效学习语音风格的有效特征，使合成的语音数据模拟的语音风格更加真实，有效提升风格迁移合成后的目标语音音频的质量。

下面，对步骤S110至步骤S130进行详细说明。

在本公开的一种示例性实施例中，语音风格迁移合成模型还可以包括编码器以及解码器；编码器和解码器均可以是基于自注意力机制(Self-Attention)的多层前馈神经网络(Feed Forward Networks，FFN)的网络结构，当然，也可以是基于循环神经网络(Recurrent Neural Network，RNN)的网络结构，本示例实施例不以此为限。

具体的，可以通过图2中的步骤实现将音素序列以及对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频，参考图2所示，可以包括：

步骤S210，将所述音素序列输入到所述编码器中，得到音素序列嵌入向量；

步骤S220，将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述韵律预测器中，确定所述音素序列嵌入向量对应的韵律特征，所述韵律特征包括音素发音时长、音素音高、音素能量；

步骤S230，将所述韵律特征输入到所述解码器中，生成目标语音音频。

其中，音素发音时长(Phoneme duration)是指对于每个音素在所要输出的语音音频中存在的时长。

音素音高(Pitch)是指各种音调高低不同的声音，即音素的发音高度，是音的基本特征的一种，声速一定时，音的高低是由机械波的频率和波长决定的，例如，频率高、波长短，则音表现为“高”，反之，频率低、波长长，则音表现为“低”。

音素能量(Engry)是指声音在传播过程中所蕴含的能量特征，音素能量可以通过音频波形图、音频特征图以及音频波形图和音频特征图的叠加特征图确定音素能量。

图3示意性示出了根据本公开的一些实施例的音素能量的示意图，图4示意性示出了根据本公开的一些实施例的音素音高的示意图，参考图3和图4所示，音素能量的特征可以包括音频波形图310、音频特征图320以及音频波形图310和音频特征图320的叠加特征图330，可以通过音频波形图310、音频特征图320和叠加特征图330确定音素能量；音素音高可以包括梅尔频谱图410，可以通过梅尔频谱图410确定音素音高。

具体的，韵律预测器可以包括音素发音时长预测器、音素音高预测器和音素能量预测器。

可以参考图5中的步骤实现将音素序列嵌入向量以及对象语音嵌入向量输入到韵律预测器中，确定音素序列嵌入向量对应的韵律特征，参考图5所示，具体可以包括：

步骤S510，将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述音素发音时长预测器中，确定所述音素发音时长；

步骤S520，将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述音素音高预测器中，确定所述音素音高；

步骤S530，将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述音素能量预测器中，确定所述音素能量；

步骤S540，基于所述韵律预测器将所述音素发音时长扩展到帧级别的音素发音时长；

步骤S550，根据所述帧级别的音素发音时长、所述音素音高以及所述音素能量确定所述音素序列嵌入向量对应的韵律特征。

其中，音素发音时长预测器(Phoneme duration Predictor)是指用于表征学习音素发音时长特征的网络结构，音素音高预测器(Pitch Predictor)是指用于表征学习音素音高特征的网络结构，音素能量预测器(Engry Predictor)是指用于表征学习音素能量特征的网络结构。

可选的，音素发音时长预测器、音素音高预测器以及音素能量预测器可以是相同结构的预测器，例如，音素发音时长预测器、音素音高预测器以及音素能量预测器均可以是基于卷积神经网络(Convolutional Neural Networks，CNN)的预测网络结构；当然，也可以基于音素发音时长、音素音高以及音素能量的不同特征变化特性设计不同的网络结构，本示例实施例对此不做特殊限定。

在本公开的一种示例性实施例中，语音风格迁移合成模型可以是通过风格迁移训练过程得到的，风格迁移训练过程可以通过图6中的步骤表示，参考图6所示，具体可以包括：

步骤S610，获取预训练的语音合成模型，所述语音合成模型用于生成具有第一音色以及第一语音风格的第一语音音频；

步骤S620，获取风格迁移训练数据，所述风格迁移训练数据包括具有第二音色以及第二语音风格的训练语音音频，以及所述训练语音音频对应的训练语音文本；

步骤S630，确定所述训练语音文本对应的训练音素序列，以及确定所述训练语音音频对应的训练声学特征和训练韵律特征；

步骤S640，根据所述训练音素序列、所述训练声学特征和所述训练韵律特征，对所述语音合成模型进行风格迁移训练，得到训练完成的语音风格迁移合成模型；

其中，训练完成的语音风格迁移合成模型可以用于生成具有第一音色以及第二语音风格的第二语音音频。

第一音色是指训练语音合成模型时所采用的训练数据对应的说话者音色，第一语音风格是指训练语音合成模型时所采用的训练数据对应的说话语音风格，例如，第一音色以及第一语音风格可以是说话者甲对应的声音特点；第二音色和第二语音风格可以是与说话者甲具有不同声音特点的说话者乙的音色以及语音风格。

可以理解的是，本示例实施例中的“第一”、“第二”仅用于区分不同的语音音色和语音风格，没有任何特殊含义，并不应对本示例实施例造成任何特殊限定。

语音合成模型与语音风格迁移合成模型实质上是相同的模型，只不过处于不同的阶段，具体的，在第一阶段，语音合成模型仅能够生成符合训练数据中说话者甲的音色以及说话者甲的语音风格的语音音频，在第二阶段，可以通过说话者乙的训练数据，对语音合成模型继续训练，实现将说话者乙的语音风格迁移到说话者甲的音色上，得到语音风格迁移合成模型，训练好的语音风格迁移合成模型可以根据语音文本合成具有说话者甲的音色以及说话者乙的语音风格的语音数据。

具体的，语音合成模型或者语音风格迁移合成模型可以包括编码器、解码器以及韵律预测器，可以通过图7中的步骤实现根据训练音素序列、训练声学特征和训练韵律特征，对语音合成模型进行风格迁移训练，参考图7所示，具体可以包括：

步骤S710，将所述训练音素序列输入到所述编码器中，得到训练音素嵌入向量；

步骤S720，将所述训练音素嵌入向量以及所述第一语音音频对应的对象语音嵌入向量输入到所述韵律预测器中，预测所述训练音素嵌入向量对应的预测韵律特征；

步骤S730，将所述预测韵律特征与所述训练声学特征输入到所述解码器中，得到预测语音音频；

步骤S740，确定所述预测韵律特征与所述训练韵律特征的损失，固定所述编码器、所述解码器以及所述对象语音嵌入向量的参数，并根据所述损失更新所述韵律预测器的参数。

其中，在对第一音色进行第二语音风格迁移的时候，需要将语音合成模型或者语音风格迁移合成模型中的编码器Encoder，解码器Decoder和表征说话者音色的对象语音嵌入向量的参数都固定，不让其更新，保证第一音色不会发生变化，做风格迁移的时候，只更新韵律预测器里面负责预测韵律特征相关的参数，如音素发音时长预测器、音素音高预测器以及音素能量预测器的参数。

通过使用第二语音风格的数据，来伪装成当前的第一音色，这样在优化韵律预测器的时候，实际上使用的是第一音色的对象语音嵌入向量，然后韵律预测器就可以结合文本和第一音色的对象语音嵌入向量学习第二风格数据的韵律特征，在推理的时候就可以保持和训练过程一致，即通过文本表征和第一音色的对象语音嵌入向量预测第二语音风格的韵律特征，然后最终结合第二语音风格的韵律特征，合成风格迁移之后的第一音色。由于在风格迁移的过程中，第一音色的对象语音嵌入向量没有发生变化，编码器和解码器的参数也没有发生任何变化，所以最终合成的还是具有第一音色的声音，即训练后的语音风格迁移合成模型可以具有第一音色以及第二语音风格的语音音频。

可选的，语音风格迁移合成模型可以是单音色的语音合成系统(Text To Speech，TTS)，此时语音风格迁移合成模型可以不加入对象语音嵌入向量，训练时仅需要更新韵律预测器；语音风格迁移合成模型也可以设置为多音色的语音合成系统，此时需要说话者的信息，因此可以采用目标音色的对象语音嵌入向量来更新韵律预测器。

可选的，在训练过程中，可以对音素音高和音素能量进行高斯归一化处理。通过对音素音高和音素能量进行高斯归一化处理，可以消除训练数据对应的音素音高和音素能量包含说话者部分特点的数据，因此，通过高斯归一化处理，可以使音素音高和音素能量的特征不包含任何说话人信息，只表示整体的韵律表现，有效提升训练后的语音风格迁移合成模型生成目标语音音频的准确性，提升语音合成的音频质量。

由于根据语音风格迁移合成模型实现的语音合成系统，影响语音韵律的特征有音高、能量和音素的发音时长三个相关因素，并且这三个韵律特征的提取，不需要严格的采用干净的录音棚录音，互联网上带有噪声的真实录音数据，也可以提取出相对来说比较准确的韵律特征。音高和能量特征的提取，可能会受到噪声的影响，但是这些影响对于特征的提取影响不大，并且通过高斯归一化的方式可以降低噪声对于特征的影响；同时音素的发音时长是通过强制对齐来获取的，强制对齐算法对于噪声数据是比较鲁棒的，基于以上提出的鲁棒的韵律特征，在做风格迁移的时候，可以使用互联网上带有噪声的数据进行风格特征提取并实现风格迁移，保证合成的语音音频的质量的同时，降低训练数据的采集成本。

图8示意性示出了根据本公开的一些实施例的语音风格迁移合成模型的原理示意图。

参考图8所示，在使用语音风格迁移合成模型之前，可以将待合成语音文本801进行预处理，得到待合成语音文本801对应的音素序列802；可以根据用户选择的说话对象ID803，确定对象语音嵌入向量804；然后可以对音素序列802进行词嵌入处理，得到音素序列嵌入向量805，将音素序列嵌入向量805通过位置编码单元806进行位置编码，通过位置编码可以让网络能够感知到输入序列的顺序位置；进而将位置编码后的音素序列嵌入向量输入到编码器807，并将编码后的音素序列嵌入向量以及对象语音嵌入向量804共同输入到韵律预测器807中确定韵律特征，并对韵律特征通过位置编码单元809进行位置编码，并将位置编码后的韵律特征输入到解码器810中，得到目标语音音频811。

图9示意性示出了根据本公开的一些实施例的韵律预测器的结构示意图。

参考图9所示，韵律预测器910可以包括音素发音时长预测器920、音素音高预测器930、音素能量预测器940以及长度调节器950。具体的，可以将音素序列嵌入向量以及对象语音嵌入向量输入到音素发音时长预测器920中，确定音素发音时长；可以将音素序列嵌入向量以及对象语音嵌入向量输入到音素音高预测器930中，确定音素音高；可以将音素序列嵌入向量以及对象语音嵌入向量输入到音素能量预测器940中，确定音素能量；可以基于长度调节器950将音素发音时长扩展到帧级别的音素发音时长；最后韵律预测器910可以根据帧级别的音素发音时长、音素音高以及音素能量确定音素序列嵌入向量对应的韵律特征。

图10示意性示出了根据本公开的一些实施例的音素发音时长预测器、音素音高预测器或者音素能量预测器的结构示意图。

参考图10所示，音素发音时长预测器、音素音高预测器或者音素能量预测器的网络结构可以是相同的，例如，音素发音时长预测器、音素音高预测器或者音素能量预测器的网络结构均可以是网络结构1010，该网络结构1010可以包括由卷积网络ConvID和激活函数ReLU侧构成的网络层1020、由归一化层Layer Norm以及丢弃层Dropout构成的网络层1030、由卷积网络ConvID和激活函数ReLU侧构成的网络层1040、由归一化层Layer Norm以及丢弃层Dropout构成的网络层1050，以及线性层Linear Layer 1060。

通过用目标语音风格，伪装成目标音色，并用该伪装的语音数据训练韵律预测器，例如音素发音时长、音素音高、音素能量等韵律预测器来实现目标音色的风格迁移；通过该数据伪装的方式，本方案实现在完全不改变音色前提下，可以将目标音色的风格迁移为任意目标语音风格，实现较好的风格迁移效果的同时保留需要的原始音色，该方案方案设计的参数简单，易于操作，并且保留了网络非常强的可操控性。

本方案提出的风格迁移，可以使用互联网中有噪声的数据，降低了对于数据质量的要求，不在像其他的方案一样必须使用干净的实验室录音才能进行风格迁移；因为本方案只需要用目标风格数据通过伪装目标音色的方式更新语音风格相关的韵律预测器，因此，即便是互联网上有噪声的数据，这些数据提取出来的韵律特征(音高、能量、音素时长等)也是高质量的韵律特征，并且不会对最终的合成的语音音频的质量带来影响，有效保证合成的目标语音音频的质量。

需要说明的是，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

此外，在本示例实施例中，还提供了一种语音风格迁移合成装置。参照图11所示，该语音风格迁移合成装置1100包括：音素序列确定模块1110、目标音色确定模块1120以及语音音频生成模块1130。其中：

音素序列确定模块1110用于获取待合成语音文本，确定所述待合成语音文本对应的音素序列；

目标音色确定模块1120用于确定具有目标音色的对象语音嵌入向量；

语音音频生成模块1130用于将所述音素序列以及所述对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频；

在本公开的一种示例性实施例中，基于前述方案，所述语音风格迁移合成模型包括编码器以及解码器；语音音频生成模块1130可以包括：

音素序列编码单元，可以用于将所述音素序列输入到所述编码器中，得到音素序列嵌入向量；

韵律特征预测单元，可以用于将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述韵律预测器中，确定所述音素序列嵌入向量对应的韵律特征，所述韵律特征包括音素发音时长、音素音高、音素能量；

语音音频生成单元，可以用于将所述韵律特征输入到所述解码器中，生成目标语音音频。

在本公开的一种示例性实施例中，基于前述方案，所述韵律预测器包括音素发音时长预测器、音素音高预测器和音素能量预测器；韵律特征预测单元可以用于：

在本公开的一种示例性实施例中，基于前述方案，语音风格迁移合成装置1100还可以包括归一化模块，该归一化模块可以用于：

对所述音素音高和所述音素能量进行高斯归一化处理。

在本公开的一种示例性实施例中，基于前述方案，语音风格迁移合成模型可以是通过风格迁移训练过程得到的，语音风格迁移合成装置1100还可以包括风格迁移训练模块，该风格迁移训练模块可以用于：

在本公开的一种示例性实施例中，基于前述方案，语音风格迁移合成模型可以包括编码器、解码器以及韵律预测器，风格迁移训练模块可以用于：

在本公开的一种示例性实施例中，基于前述方案，编码器和解码器可以均为基于自注意力机制的多层前馈神经网络。

上述中语音风格迁移合成装置各模块的具体细节已经在对应的语音风格迁移合成方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了语音风格迁移合成装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述语音风格迁移合成方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

下面参照图12来描述根据本公开的这种实施例的电子设备1200。图12所示的电子设备1200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，电子设备1200以通用计算设备的形式表现。电子设备1200的组件可以包括但不限于：上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230、显示单元1240。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1210执行，使得所述处理单元1210执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。例如，所述处理单元1210可以执行如图1中所示的步骤S110，获取待合成语音文本，确定所述待合成语音文本对应的音素序列；步骤S120，确定具有目标音色的对象语音嵌入向量；步骤S130，将所述音素序列以及所述对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频；其中，所述语音风格迁移合成模型用于预测目标语音风格的韵律特征，所述语音风格迁移合成模型包括用于生成所述韵律特征的韵律预测器，所述目标语音音频在播放时符合所述目标音色和目标语音风格。

存储单元1220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1221和/或高速缓存存储单元1222，还可以进一步包括只读存储单元(ROM)1223。

存储单元1220还可以包括具有一组(至少一个)程序模块1225的程序/实用工具1224，这样的程序模块1225包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1200也可以与一个或多个外部设备1270(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1200交互的设备通信，和/或与使得该电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1250进行。并且，电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1260通过总线1230与电子设备1200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。

参考图13所示，描述了根据本公开的实施例的用于实现上述语音风格迁移合成方法的程序产品1300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施例的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音风格迁移合成方法，其特征在于，包括：

确定具有目标音色的对象语音嵌入向量；

2.根据权利要求1所述的语音风格迁移合成方法，其特征在于，所述语音风格迁移合成模型包括编码器以及解码器；

将所述韵律特征输入到所述解码器中，生成目标语音音频。

3.根据权利要求2所述的语音风格迁移合成方法，其特征在于，所述韵律预测器包括音素发音时长预测器、音素音高预测器和音素能量预测器；

4.根据权利要求2或3所述的语音风格迁移合成方法，其特征在于，所述方法还包括：

对所述音素音高和所述音素能量进行高斯归一化处理。

5.根据权利要求1所述的语音风格迁移合成方法，其特征在于，所述语音风格迁移合成模型是通过风格迁移训练过程得到的，所述风格迁移训练过程包括：

6.根据权利要求5所述的语音风格迁移合成方法，其特征在于，所述语音风格迁移合成模型包括编码器、解码器以及韵律预测器，所述根据所述训练音素序列、所述训练声学特征和所述训练韵律特征，对所述语音合成模型进行风格迁移训练，包括：

7.根据权利要求2或6所述的语音风格迁移合成方法，其特征在于，所述编码器和所述解码器均为基于自注意力机制的多层前馈神经网络。

8.一种语音风格迁移合成装置，其特征在于，包括：

9.一种电子设备，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任一项所述的语音风格迁移合成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音风格迁移合成方法。