CN115985284A

CN115985284A - 语音风格提取模型训练方法、语音合成方法、装置及介质

Info

Publication number: CN115985284A
Application number: CN202211584454.9A
Authority: CN
Inventors: 强春雨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-04-18

Abstract

本公开涉及计算机技术领域，具体涉及一种语音风格提取模型训练方法、语音合成方法、语音风格提取模型训练装置、语音合成装置、计算机可读存储介质及电子设备，语音风格提取模型训练方法包括：获取参考语音样本；进行数据增强处理得到对抗语音样本；得到合成语音样本；将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到预测参考风格特征、预测对抗风格特征、预测合成风格特征；确定对抗损失函数，确定一致性损失函数；对待训练的语音风格提取模型的参数进行更新。通过本公开实施例的技术方案，可以解决现有技术中实现对象风格转移任务的准确率较低的问题。

Description

语音风格提取模型训练方法、语音合成方法、装置及介质

背景技术

随着软硬件的快速发展，语音合成技术的应用领域逐渐增加。例如，在公共场合(医院、银行)的语音播报系统、有声读物(电子小说、电子讲解系统等)、地图导航、信息查询系统(自动问答)等领域，语音合成技术的应用越来越普遍。语音合成技术通过将接收到的文字序列转换为自然逼真的语音波形，反馈传递给用户。因此语音合成技术直接影响着人机交互的实际使用效果。语音合成技术涉及语音信号处理、模式识别、自然语言处理、声学、语言学等多个学科，是信息处理领域不可或缺的一门关键技术。

在相关技术中，针对一些对象风格转移任务，在进行模型训练时，需要大量的样本以及对应的风格标签，其构建样本的成本较高；此外，在构建风格标签时，可能出现标注错误的问题，导致训练得到的对象风格转移模型的可靠性较差，从而导致进行对象风格转移任务的准确率较低。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种语音风格提取模型训练方法、语音风格提取模型训练装置、语音合成方法、语音合成装置、计算机可读存储介质及电子设备，可以解决现有技术中实现对象风格转移任务的准确率较低的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供了一种语音风格提取模型训练方法，包括：获取参考语音样本；其中，参考语音样本对应有参考语音风格；对参考语音样本的语音属性进行数据增强处理得到对抗语音样本；将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本；其中，目标对象的标识信息对应有目标语音音色，合成语音样本对应有参考语音风格以及目标语音音色，语音合成模型用于输出具有参考语音风格以及目标语音音色的语音；将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征；根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据预测参考风格特征和预测合成风格特征确定一致性损失函数；根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。

可选的，基于前述方案，待训练的语音风格提取模型中包括风格瓶颈网络，风格瓶颈网络包括卷积子网络与特征压缩子网络，将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征，包括：将参考语音样本、对抗语音样本以及合成语音样本依次输入卷积子网络与特征压缩子网络进行风格特征提取，得到参考语音样本对应的压缩参考风格特征、对抗语音样本对应的压缩对抗风格特征以及合成语音样本对应的压缩合成风格特征；根据压缩参考风格特征对应的参考语音样本的对象的标识信息、压缩对抗风格特征对应对抗语音样本的对象的标识信息以及压缩合成风格特征对应的合成语音样本对象的标识信息对压缩参考风格特征、压缩对抗风格特征以及压缩合成风格特征进行批量归一化处理，得到参考语音样本对应的第一候选参考风格特征、对抗语音样本对应的第一候选对抗风格特征以及合成语音样本对应的第一候选合成风格特征；确定第一候选参考风格特征对应的高斯分布，确定第一候选对抗风格特征对应的高斯分布，确定第一候选合成风格特征对应的高斯分布；对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的预测参考风格特征，对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的预测对抗风格特征、对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的预测合成风格特征。

可选的，基于前述方案，待训练的语音风格提取模型中包括离散码本组件，离散码本组件中包括多个离散风格特征，对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的预测参考风格特征，对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的预测对抗风格特征、对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的预测合成风格特征，包括：对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的第二候选参考风格特征，将第二候选参考风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选参考风格特征的距离满足预设条件的离散风格特征确定为参考语音样本对应的预测参考风格特征；其中，离散风格特征用于指示语音风格；对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的第二候选对抗风格特征，将第二候选对抗风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选对抗风格特征的距离满足预设条件的离散风格特征确定为对抗语音样本对应的预测对抗风格特征；对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的第二候选合成风格特征，将第二候选合成风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选合成风格特征的距离满足预设条件的离散风格特征确定为合成语音样本对应的预测合成风格特征。

可选的，基于前述方案，根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，包括：根据预测参考风格特征和预测对抗风格特征确定对抗差异，根据对抗差异确定对抗损失函数；其中，对抗损失函数用于使对抗差异在待训练的语音风格提取模型的训练过程中增大。

可选的，基于前述方案，根据预测参考风格特征和预测合成风格特征确定一致性损失函数，包括：根据预测参考风格特征和预测合成风格特征确定一致性差异，根据一致性差异确定一致性损失函数；其中，一致性损失函数用于使一致性差异在待训练的语音风格提取模型的训练过程中减小。

可选的，基于前述方案，根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，包括：将预测参考风格特征输入对象分类器得到预测对象的标识信息；其中，预测参考风格特征对应有对象的标识标签，对象分类器用于对语音对应的对象的标识信息进行分类；根据预测对象的标识信息与对象的标识标签确定对象标识预测差异，根据对象标识预测差异确定对象标识分类损失函数；对对象标识分类损失函数进行梯度反转处理得到对象标识未分类损失函数；根据对抗损失函数、一致性损失函数以及对象标识未分类损失函数对待训练的语音风格提取模型的参数进行更新。

可选的，基于前述方案，语音属性包括音调、能量和时长中的一种或多种。

根据本公开的第二方面，提供了一种语音合成方法，方法包括：获取文本序列、参考语音以及目标对象的标识信息；其中，参考语音对应有参考语音风格，目标对象的标识信息对应有目标语音音色；将文本序列、参考语音以及目标对象的标识信息输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果；其中，目标语音对应有参考语音风格以及目标语音音色，语音风格提取模型通过如上述任意一项的语音风格提取模型训练方法得到；根据风格特征提取结果生成目标语音。

根据本公开的第三方面，提供了一种语音风格提取模型训练装置，装置包括：参考样本获取单元，被配置为执行获取参考语音样本；其中，参考语音样本对应有参考语音风格以及参考语音音色；对抗样本获取单元，被配置为执行对参考语音样本的语音属性进行数据增强处理得到对抗语音样本；合成样本获取单元，被配置为执行将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本；其中，目标对象的标识信息对应有目标语音音色，合成语音样本对应有参考语音风格以及目标语音音色，语音合成模型用于输出具有参考语音风格以及目标语音音色的语音；样本编码单元，被配置为执行将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征；损失函数确定单元，被配置为执行根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据预测参考风格特征和预测合成风格特征确定一致性损失函数；语音风格提取模型训练单元，被配置为执行根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。

根据本公开的第四方面，提供了一种语音合成装置，装置包括：输入获取单元，被配置为执行获取文本序列、参考语音以及目标对象的标识信息；其中，参考语音对应有参考语音风格，目标对象的标识信息对应有目标语音音色；风格提取单元，被配置为执行将文本序列、参考语音以及目标对象的标识信息输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果；其中，目标语音对应有参考语音风格以及目标语音音色，语音风格提取模型通过如上述任意一项的语音风格提取模型训练方法得到。语音生成单元，被配置为执行根据风格特征提取结果生成目标语音。

根据本公开的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现如上述实施例中第一方面的语音风格提取模型训练方法以及第二方面的语音合成方法。

根据本公开的第六方面，提供了一种电子设备，包括：

处理器；以及

存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上述实施例中第一方面语音风格提取模型训练方法以及第二方面语音合成方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括：

计算机程序/指令被处理器执行时实现如上述任一项的语音风格提取模型训练方法或上述语音合成方法。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开的一种实施例提供的语音风格提取模型训练方法中，可以获取参考语音样本，对参考语音样本的语音属性进行数据增强处理得到对抗语音样本，将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本，将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征，根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据预测参考风格特征和预测合成风格特征确定一致性损失函数，根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。

本公开的一种实施例提供的语音合成方法中，可以获取文本序列、参考语音以及目标对象的标识信息，将文本序列、参考语音以及目标对象的标识信息输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果，根据风格特征提取结果生成目标语音。一方面，通过构建样本三元组，能够在语音风格提取模型的训练过程中，无需使用风格标签，构建样本的成本较低；另一方面，由于无需使用风格标签，从而不需要对样本进行标注，避免出现标注错误标签的问题，使得语音风格提取模型的可靠性提升，进而使得对象风格转移任务的准确性提升。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了本公开示例性实施例中语音风格提取模型训练方法示例性系统架构的示意图；

图2示意性示出了本公开示例性实施例中语音风格提取模型训练方法流程图；

图3示意性示出本公开示例性实施例中对第一候选风格特征对应的高斯分布进行采样得到语音样本对应的预测风格特征的流程图；

图4示意性示出本公开示例性实施例中一种VAE的结构示意图；

图5示意性示出本公开示例性实施例中一种批量归一化网络的示意图；

图6示意性示出本公开示例性实施例中将第二候选风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选风格特征的距离满足预设条件的离散风格特征确定为语音样本对应的预测风格特征的流程图；

图7示意性示出本公开示例性实施例中一种Q-VAE的结构示意图；

图8示意性示出本公开示例性实施例中根据对抗损失函数、一致性损失函数以及对象标识未分类损失函数对待训练的语音风格提取模型的参数进行更新的流程图；

图9示意性示出本公开示例性实施例中一种待训练的语音风格提取模型训练结构示意图；

图10示意性示出本公开示例性实施例中一种语音合成方法的流程图；

图11示意性示出本公开示例性实施例中一种对象风格转移模型的示意图；

图12示意性示出本公开示例性实施例中一种语音风格提取模型训练装置的组成示意图；

图13示意性示出本公开示例性实施例中一种语音合成装置的组成示意图；

图14示意性示出了适于用来实现本公开示例性实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参照附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征向量、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。此外，所描述的特征向量、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的语音风格提取模型训练方法或语音合成方法示例性系统架构的示意图。

如图1所示，系统架构1000可以包括终端设备1001、1002、1003中的一种或多种，网络1004和服务器1005。网络1004用以在终端设备1001、1002、1003和服务器1005之间提供通信链路的介质。网络1004可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器1005可以是多个服务器组成的服务器集群等。

用户可以使用终端设备1001、1002、1003通过网络1004与服务器1005交互，以接收或发送消息等。终端设备1001、1002、1003可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。另外，服务器1005可以是提供各种服务的服务器。

在一种实施例中，本公开的语音风格提取模型训练方法的执行主体可以是服务器1005，服务器1005可以获取由终端设备1001、1002、1003发送的参考语音样本，并获取参考语音样本，对参考语音样本的语音属性进行数据增强处理得到对抗语音样本，将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本，将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征，根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据预测参考风格特征和预测合成风格特征确定一致性损失函数，根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。此外，还可以通过终端设备1001、1002、1003等执行本公开的语音风格提取模型训练方法，以实现获取参考语音样本，对参考语音样本的语音属性进行数据增强处理得到对抗语音样本，将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本，将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征，根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据预测参考风格特征和预测合成风格特征确定一致性损失函数，根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型的过程。

此外，本公开语音风格提取模型训练方法实现过程还可以由终端设备1001、1002、1003和服务器1005共同实现。例如，终端设备1001、1002、1003可以获取参考语音样本，对参考语音样本的语音属性进行数据增强处理得到对抗语音样本，将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本，再将获取的参考语音样本、对抗语音样本以及合成语音样本发送给服务器1005，以使服务器1005可以将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征，根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据预测参考风格特征和预测合成风格特征确定一致性损失函数，根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型的过程。

根据本示例性实施例中所提供的语音风格提取模型训练方法中，可以获取参考语音样本，对参考语音样本的语音属性进行数据增强处理得到对抗语音样本，将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本，将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征，根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据预测参考风格特征和预测合成风格特征确定一致性损失函数，根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。如图2所示，该语音风格提取模型训练方法可以包括以下步骤S210～S250：

步骤S210，获取参考语音样本；其中，参考语音样本对应有参考语音风格以及参考语音音色；

步骤S220，对参考语音样本的语音属性进行数据增强处理得到对抗语音样本；

步骤S230，将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本；其中，目标对象的标识信息对应有目标语音音色，合成语音样本对应有参考语音风格以及目标语音音色，语音合成模型用于输出具有参考语音风格以及目标语音音色的语音；

步骤S240，将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征；

步骤S250，根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据预测参考风格特征和预测合成风格特征确定一致性损失函数；

步骤S260，根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。

本公开的一种实施例提供的语音风格提取模型训练方法中，可以获取参考语音样本，对参考语音样本的语音属性进行数据增强处理得到对抗语音样本，将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本，将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征，根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据预测参考风格特征和预测合成风格特征确定一致性损失函数，根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。一方面，通过构建样本三元组，能够在语音风格提取模型的训练过程中，无需使用风格标签，构建样本的成本较低；另一方面，由于无需使用风格标签，从而不需要对样本进行标注，避免出现标注错误标签的问题，使得语音风格提取模型的可靠性提升，进而使得对象风格转移任务的准确性提升。

下面，将结合附图及实施例对本示例性实施例中的语音风格提取模型训练方法的步骤S210～S260进行更详细的说明。

在本公开的一种示例实施例中，可以获取参考语音样本。其中，参考语音样本对应有参考语音风格以及参考语音音色。具体的，在对象风格转移任务中，其输出的语音需要采用参考语音的参考语音风格。需要说明的是，本公开对于参考语音样本的来源并不做特殊限定。

在本公开的一种示例实施例中，在通过上述步骤得到参考语音样本之后，可以对参考语音样本的语音属性进行数据增强处理得到对抗语音样本。具体的，对抗语音样本是指通过故意添加细微的干扰所形成的语音样本。举例而言，可以通过FGSM(Fast GradientSign Method，基于梯度生成对抗样本的算法)生成对抗语音样本；或者，可以通过JSMA(Jacobian-based Saliency Map Attack，基于热力图生成对抗样本的算法)。

需要说明的是，本公开对于对参考语音样本的语音属性进行数据增强处理得到对抗语音样本的具体方式并不做特殊限定。

在本公开的一种示例实施例中，可以通过风格对比数据增强方法得到对抗语音样本。具体的，可以对参考语音样本的语音属性进行数据增强处理得到对抗语音样本。其中，语音属性包括音调、能量和时长中的一种或多种。通过本公开的实施例，能够对参考语音样本进行数据增强处理得到对抗语音样本，通过对抗语音样本协同参与待训练的语音风格提取模型的训练过程，能够提升训练完成的语音风格提取模型的准确性。

步骤S230，将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本；

在本公开的一种示例实施例中，在通过上述步骤得到参考语音样本之后，可以将参考语音样本、目标对象以及文本序列输入语音合成模型得到合成语音样本。其中，目标对象的标识信息对应有目标语音音色，合成语音样本对应有参考语音风格以及目标语音音色，语音合成模型用于输出具有参考语音风格以及目标语音音色的语音。具体的，语音合成模型是指，输入具有参考语音风格以及参考语音音色的参考语音、目标对象的标识信息以及文本序列，其中，目标对象的标识信息对应由目标语音音色，输出具有参考语音风格以及目标语音音色的语音(文本序列)。

需要说明的是，本公开对于将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本的具体方式并不做特殊限定。

在本公开的一种示例实施例中，对象可以包括说话人。

进一步的，在获取合成语音样本时，可以将参考语音样本随机裁剪为每一步多个帧的窗口，作为待训练的语音风格提取模型的输入。

在本公开的一种示例实施例中，可以将参考语音样本、目标对象的标识信息以及文本序列处理为特征向量(embedding)，并将参考语音样本的特征向量、目标对象的标识信息的特征向量以及文本序列的特征向量输入语音合成模型，得到合成语音样本的特征向量(embedding)。

需要说明的是，本公开中所涉及的语音音色，并不局限于人类音色，还可以包括动物音色、自然音色、乐器音色等。本公开中涉及的对象，并不局限于人类，还可以包括动物、自然环境、乐器等，对象的标识信息用于指示目标语音音色。本公开对于语音音色的具体类型并不做特殊限定。

在本公开的一种示例实施例中，在通过上述步骤得到参考语音样本、对抗语音样本以及合成语音样本之后，可以将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征。具体的，待训练的语音风格提取模型可以对参考语音样本、对抗语音样本以及合成语音样本进行编码，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征。具体而言，待训练的语音风格提取模型可以对参考语音样本、对抗语音样本以及合成语音样本进行压缩，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征。其中，参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征分别用于指示参考语音样本、对抗语音样本以及合成语音样本对应的风格。

需要说明的是，本公开对于将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征的具体方式并不做特殊限定。

在本公开的一种示例实施例中，待训练的语音风格提取模型中可以包括多个隐层，隐层中可以包括卷积层、归一化层、激励层等。可以参考语音样本、对抗语音样本、合成语音样本输入待训练的语音风格提取模型中，得到隐层计算结果，通过隐层计算结果确定参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征。

在本公开的一种示例实施例中，通过上述步骤得到的参考语音样本、对抗语音样本以及合成语音样本，可以为梅尔频谱，并将参考语音样本对应的梅尔频谱、对抗语音样本对应的梅尔频谱以及合成语音样本对应的梅尔频谱。

在本公开的一种示例实施例中，通过上述步骤得到的参考语音样本、对抗语音样本以及合成语音样本，在分别输入语音风格提取模型之前，可以处理为特征向量(embedding)。

在本公开的一种示例实施例中，可以将参考语音样本、对抗语音样本以及合成语音样本依次输入卷积子网络与特征压缩子网络进行风格特征提取，得到参考语音样本对应的压缩参考风格特征、对抗语音样本对应的压缩对抗风格特征以及合成语音样本对应的压缩合成风格特征，根据压缩参考风格特征对应的参考语音样本的对象的标识信息、压缩对抗风格特征对应对抗语音样本的对象的标识信息以及压缩合成风格特征对应的合成语音样本对象的标识信息对压缩参考风格特征、压缩对抗风格特征以及压缩合成风格特征进行批量归一化处理，得到参考语音样本对应的第一候选参考风格特征、对抗语音样本对应的第一候选对抗风格特征以及合成语音样本对应的第一候选合成风格特征，确定第一候选参考风格特征对应的高斯分布，确定第一候选对抗风格特征对应的高斯分布，确定第一候选合成风格特征对应的高斯分布，对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的预测参考风格特征，对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的预测对抗风格特征、对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的预测合成风格特征。参照图3所示，对第一候选风格特征对应的高斯分布进行采样得到语音样本对应的预测风格特征，可以包括以下步骤S310～S340：

步骤S310，将参考语音样本、对抗语音样本以及合成语音样本依次输入卷积子网络与特征压缩子网络进行风格特征提取，得到参考语音样本对应的压缩参考风格特征、对抗语音样本对应的压缩对抗风格特征以及合成语音样本对应的压缩合成风格特征；

在本公开的一种示例实施例中，在通过上述步骤得到参考语音样本、对抗语音样本以及合成语音样本之后，可以将参考语音样本、对抗语音样本以及合成语音样本输入待训练的语音风格提取模型，该待训练的语音风格提取模型中包括卷积子网络与特征压缩子网络，因此，可以将参考语音样本、对抗语音样本以及合成语音样本依次输入卷积子网络以及特征压缩子网络中，即先将参考语音样本、对抗语音样本以及合成语音样本输入卷积子网络，再将经过卷积子网络的卷积结果输入特征压缩子网络。其中，参考语音样本对应有对象的标识信息，对抗语音样本对应有对象的标识信息，合成语音样本对应有对象的标识信息。

具体的，卷积子网络可以包括一维卷积网络；或者，卷积子网络可以包括二维卷积网络；或者，卷积子网络可以包括三维卷积网络。

需要说明的是，本公开对于卷积子网络的维数并不做特殊限定。

具体而言，卷积子网络中可以包括多个卷积层，卷积层可以对输入的参考语音样本、对抗语音样本以及合成语音样本进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量。

需要说明的是，本公开对于卷积子网络中的卷积层的数量并不做特殊限定。

在本公开的一种示例实施例中，可以通过特征压缩子网络对经过卷积层提取后的特征进一步压缩。此外，特征压缩子网络还可以通过显式建模通道之间的相互依赖关系，自适应地重新校准通道方面的特征响应。

举例而言，特征压缩子网络可以为SE-ResNet(Squeeze-and-ExcitationNetworks，挤压和激励网络)模块。

需要说明的是，本公开对于特征压缩子网络的具体形式并不做特殊限定。

步骤S320，根据压缩参考风格特征对应的参考语音样本的对象的标识信息、压缩对抗风格特征对应对抗语音样本的对象的标识信息以及压缩合成风格特征对应的合成语音样本对象的标识信息对压缩参考风格特征、压缩对抗风格特征以及压缩合成风格特征进行批量归一化处理，得到参考语音样本对应的第一候选参考风格特征、对抗语音样本对应的第一候选对抗风格特征以及合成语音样本对应的第一候选合成风格特征；

在本公开的一种示例实施例中，在通过上述步骤得到压缩参考风格特征、压缩对抗风格特征以及压缩合成风格特征之后，可以根据压缩参考风格特征对应的对象的标识信息、压缩对抗风格特征对应的对象的标识信息以及压缩合成风格特征对应的对象的标识信息对压缩参考风格特征、压缩对抗风格特征以及压缩合成风格特征进行批量归一化处理得到参考语音样本对应的第一候选参考风格特征、对抗语音样本对应的第一候选对抗风格特征以及合成语音样本对应的第一候选合成风格特征。具体的，在对待训练的语音风格提取模型进行训练时，可以同时输入多组样本，各样本(例如参考语音样本)分别对应有不同的对象的标识信息，在经过卷积子网络与特征压缩子网络得到压缩风格特征(例如压缩参考风格特征)之后，可以根据压缩风格特征(例如压缩参考风格特征)对应的对象的标识信息(样本对应的对象的标识信息)进行批量归一化处理，得到参考语音样本对应的第一候选参考风格特征、对抗语音样本对应的第一候选对抗风格特征以及合成语音样本对应的第一候选合成风格特征。

具体而言，批量归一化处理是指直接对神经元的输出进行批归一化，作用对象是每一层网络的输出。能够将每一批中属于同一对象的标识信息的风格特征(例如压缩参考风格特征)进行归一化，每个对象的标识信息分别存储一组批量归一化参数，批量归一化处理可以采用初始化很大的学习率，学习率衰减速度较大，收敛较快，从而提高模型的训练效率，提高了模型的泛化性，能够避免反向传播中的梯度消失的问题。

在本公开的一种示例实施例中，由于在语音样本(例如参考语音样本)或压缩风格特征(例如压缩参考风格特征)中，语音风格与语音音色是高度纠缠的，因此根据压缩参考风格特征对应的对象的标识信息、压缩对抗风格特征对应的对象的标识信息以及压缩合成风格特征对应的对象的标识信息进行批量归一化处理，能够避免源对象的标识信息泄漏的问题。

步骤S330，确定第一候选参考风格特征对应的高斯分布，确定第一候选对抗风格特征对应的高斯分布，确定第一候选合成风格特征对应的高斯分布；

在本公开的一种示例实施例中，在通过上述步骤得到第一候选参考风格特征、第一候选对抗风格特征以及第一候选合成风格特征之后，可以确定第一候选参考风格特征对应的高斯分布，确定第一候选对抗风格特征对应的高斯分布，确定第一候选合成风格特征对应的高斯分布。其中，高斯分布对应有均值与方差。具体的，待训练的语音风格提取模型可以为引入显式的正规化的语音风格提取模型，具体而言，可以将输入至待训练的语音风格提取模型的数据编码为隐空间上的概率分布，概率分布对应的均值与方差能够用于描述该概率分布，能够自然的表达隐空间规则化。

在本公开的一种示例实施例中，可以将第一候选参考风格特征、第一候选对抗风格特征以及第一候选合成风格特征分别编码为高斯分布，且各高斯分布分别对应有均值与方差。

步骤S340，对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的预测参考风格特征，对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的预测对抗风格特征、对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的预测合成风格特征。

在本公开的一种示例实施例中，在通过上述步骤得到第一候选参考风格特征对应的高斯分布，第一候选对抗风格特征对应的高斯分布，第一候选合成风格特征对应的高斯分布之后，可以对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的预测参考风格特征，对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的预测对抗风格特征、对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的预测合成风格特征。具体的，对第一候选风格特征(例如第一候选参考风格特征)对应的高斯分布进行采样得到语音样本对应的预测风格特征(例如参考语音样本对应的预测参考风格特征)是指，从该高斯分布中采样隐空间中的一个点得到语音样本对应的预测风格特征(例如参考语音样本对应的预测参考风格特征)。

需要说明的是，本公开对于对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的预测参考风格特征，对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的预测对抗风格特征、对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的预测合成风格特征的具体方式并不做特殊限定。

在本公开的一种示例实施例中，待训练的语音风格提取模型可以采用VAE(VariationalAutoencoder，变分自语音风格提取模型)，VAE可以获得连续完整的风格潜空间分布，提高了风格控制能力。

如图4所示，为一种VAE的结构图，在该VAE中包括卷积子网络(6*Conv2D)与特征压缩子网络(SE-ResNet)，其中，特征压缩子网络中包括全局平均池化层(global averagepooling)、全连接层(Linear)、线性整流层(ReLU)、激活层(Sigmoid)、缩放层(Scale)，在经过特征压缩子网络之后，可以将结果输入门控循环(GRU，gated recurrent unit)层，并将GRU层的结果输入按对象的标识信息进行批量归一化层(Speaker-wise BatchNormalization)，进行批量归一化处理，将结果输入两个全连接层(μLinear、σLinear)以输出高斯分布对应的均值与方差，最后再通过重参数化技巧层(re parameterize)采样一个64维向量(参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征)作为解码器的输入(对象风格转移模型中包括本公开的方案训练的语音风格提取模型以及一个解码器)。

在训练过程中，KL(KL divergence，KI散度)损失容易降为零。可以采用KL退火方案，且采用分阶段优化方案，即先优化重构损失，再优化KL损失，可以引入一个最小值超参数限制KL损失。

具体而言，如图5所示，为一种批量归一化网络，Speaker-wise BatchNormalization中可以包括批量归一化层(BN，Batch Normalization)，其中，可以根据压缩参考风格特征对应的参考语音样本的对象的标识信息、压缩对抗风格特征对应对抗语音样本的对象的标识信息以及压缩合成风格特征对应的合成语音样本对象的标识信息进行批量归一化处理得到参考语音样本对应的第一候选参考风格特征、对抗语音样本对应的第一候选对抗风格特征以及合成语音样本对应的第一候选合成风格特征(其中，不同深浅的灰度可以用于表示不同的对象的标识信息)。

通过上述步骤S310～S340，可以将参考语音样本、对抗语音样本以及合成语音样本依次输入卷积子网络与特征压缩子网络进行风格特征提取，得到参考语音样本对应的压缩参考风格特征、对抗语音样本对应的压缩对抗风格特征以及合成语音样本对应的压缩合成风格特征，根据压缩参考风格特征对应的参考语音样本的对象的标识信息、压缩对抗风格特征对应对抗语音样本的对象的标识信息以及压缩合成风格特征对应的合成语音样本对象的标识信息对压缩参考风格特征、压缩对抗风格特征以及压缩合成风格特征进行批量归一化处理，得到参考语音样本对应的第一候选参考风格特征、对抗语音样本对应的第一候选对抗风格特征以及合成语音样本对应的第一候选合成风格特征，确定第一候选参考风格特征对应的高斯分布，确定第一候选对抗风格特征对应的高斯分布，确定第一候选合成风格特征对应的高斯分布，对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的预测参考风格特征，对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的预测对抗风格特征、对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的预测合成风格特征。通过本公开的实施例，能够避免源对象的标识信息泄漏的问题。

在本公开的一种示例实施例中，可以对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的第二候选参考风格特征，将第二候选参考风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选参考风格特征的距离满足预设条件的离散风格特征确定为参考语音样本对应的预测参考风格特征，对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的第二候选对抗风格特征，将第二候选对抗风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选对抗风格特征的距离满足预设条件的离散风格特征确定为对抗语音样本对应的预测对抗风格特征，对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的第二候选合成风格特征，将第二候选合成风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选合成风格特征的距离满足预设条件的离散风格特征确定为合成语音样本对应的预测合成风格特征。参照图6所示，将第二候选风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选风格特征的距离满足预设条件的离散风格特征确定为语音样本对应的预测风格特征，可以包括以下步骤S610～S630：

步骤S610，对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的第二候选参考风格特征，将第二候选参考风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选参考风格特征的距离满足预设条件的离散风格特征确定为参考语音样本对应的预测参考风格特征；其中，离散风格特征用于指示语音风格；

步骤S620，对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的第二候选对抗风格特征，将第二候选对抗风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选对抗风格特征的距离满足预设条件的离散风格特征确定为对抗语音样本对应的预测对抗风格特征；

步骤S630，对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的第二候选合成风格特征，将第二候选合成风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选合成风格特征的距离满足预设条件的离散风格特征确定为合成语音样本对应的预测合成风格特征。

在本公开的一种示例实施例中，在通过上述步骤得到第一候选参考风格特征对应的高斯分布，第一候选对抗风格特征对应的高斯分布，第一候选合成风格特征对应的高斯分布之后，可以对该些第一候选风格特征(例如第一候选参考风格特征)进行采样得到语音样本对应的第二候选风格特征(例如参考语音样本对应的第二候选参考风格特征)，并将多个离散风格特征中与第二候选风格特征的距离满足预设条件的离散风格特征确定为语音样本对应的预测风格特征(例如语音样本对应的预测参考风格特征)。其中，离散风格特征用于指示语音风格，离散风格特征在待训练语音风格提取模型训练方法过程中生成。

在本公开的一种示例实施例中，可以将多个离散风格特征中与第二候选风格特征的距离最近的离散风格特征确定为语音样本对应的预测风格特征。具体的，在对语音样本对应的第二候选风格特征(例如参考语音样本对应的第二候选参考风格特征)与离散码本组件中的各离散风格特征进行比较时，可以计算语音样本对应的第二候选风格特征与离散码本组件中的各离散风格特征之间的欧式距离，以确定距离第二候选风格特征最近的离散风格特征。

进一步的，为了获取更快的收敛速度，可以采用指数移动平均(EMA，ExponentialMoving Average)算法。

需要说明的是，本公开对于生成离散风格特征的具体方式并不做特殊限定。

在本公开的一种示例实施例中，待训练的语音风格提取模型可以采用Q-VAE(quantized VariationalAutoencoder，量化变分自语音风格提取模型)。如图7所示，为一种Q-VAE的结构图，在该Q-VAE中包括卷积子网络(6*Conv2D)与特征压缩子网络(SE-ResNet)，其中，特征压缩子网络中包括全局平均池化层(global average pooling)、全连接层(Linear)、线性整流层(ReLU)、激活层(Sigmoid)、缩放层(Scale)，在经过特征压缩子网络之后，可以将结果输入门控循环(GRU，gated recurrent unit，)层，并将GRU层的结果输入按对象的标识信息进行批量归一化层(Speaker-wise Batch Normalization)，进行批量归一化处理，将结果输入两个全连接层(μLinear、σLinear)以输出高斯分布对应的均值与方差，最后再通过重参数化技巧层(re parameterize)采样一个64维向量，并通过最小距离比较层(Minimum Distance)比较该64维向量与离散码本组件(Embedding Space)中的各离散风格特征(e1、e2、e3、e4...ex...en)之间的距离，并将距离最小的离散风格特征ex作为解码器的输入。

具体而言，通过Q-VAE可以得到固定数量的离散值，输出固定风格的风格聚类质心，具有较好的离散型，来自连续潜空间的量化表示保证了样本间合理的多样性；此外，通过批量归一化处理以及三元组样本确定的损失函数，能够避免源对象的标识信息泄漏，并获得更好的风格相似度，从而提升语音风格提取模型的性能。

通过上述步骤S610～S630，可以对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的第二候选参考风格特征，将第二候选参考风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选参考风格特征的距离满足预设条件的离散风格特征确定为参考语音样本对应的预测参考风格特征，对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的第二候选对抗风格特征，将第二候选对抗风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选对抗风格特征的距离满足预设条件的离散风格特征确定为对抗语音样本对应的预测对抗风格特征，对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的第二候选合成风格特征，将第二候选合成风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选合成风格特征的距离满足预设条件的离散风格特征确定为合成语音样本对应的预测合成风格特征。

在本公开的一种示例实施例中，在通过上述步骤得到预测参考风格特征以及预测对抗风格特征之后，可以根据预测参考风格特征和预测对抗风格特征确定对抗损失函数。具体的，预测对抗风格特征是通过将对抗语音样本输入待训练的语音风格提取模型得到的，对抗语音样本是通过对抗样本生成方法得到的，需要预测对抗风格特征与预测参考风格特征的差异在训练过程越来越大，因此，可以根据预测参考风格特征和预测对抗风格特征确定对抗损失函数。

在本公开的一种示例实施例中，可以根据预测参考风格特征和预测对抗风格特征确定对抗差异，根据对抗差异确定对抗损失函数。其中，对抗损失函数用于使对抗差异在待训练的语音风格提取模型的训练过程中增大。通过本公开的实施例，可以采用对抗损失函数对待训练的语音风格提取模型进行训练，以提升训练完成的语音风格提取模型的准确性。

需要说明的是，本公开对于根据预测参考风格特征和预测对抗风格特征确定对抗损失函数的具体方式并不做特殊限定。

在本公开的一种示例实施例中，在通过上述步骤得到预测参考风格特征以及预测合成风格特征之后，可以根据预测参考风格特征和预测合成风格特征确定一致性损失函数。具体的，合成语音样本的语音风格应该与参考语音样本的参考语音风格相同，需要预测合成风格特征与预测参考风格特征的差异在训练过程越来越小，因此，可以根据预测参考风格特征和预测合成风格特征确定一致性损失函数。

在本公开的一种示例实施例中，根据预测参考风格特征和预测合成风格特征确定一致性差异，根据一致性差异确定一致性损失函数。其中，一致性损失函数用于使一致性差异在待训练的语音风格提取模型的训练过程中减小。通过本公开的实施例，可以采用一致性损失函数对待训练的语音风格提取模型进行训练，以提升训练完成的语音风格提取模型的准确性。

需要说明的是，本公开对于根据预测参考风格特征和预测合成风格特征确定一致性损失函数的具体方式并不做特殊限定。

在本公开的一种示例实施例中，对抗语音样本可以通过对参考语音样本进行风格对比数据增强方法得到，因此，对抗语音样本与参考语音样本之间的嵌入距离应该较小，可以通过引入超参数限制对抗损失函数的最小值。

在本公开的一种示例实施例中，在通过上述步骤得到对抗损失函数以及一致性损失函数之后，可以根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。具体的，可以将对抗损失函数以及一致性损失函数确定整体损失函数，并根据整体损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。

具体的，待训练的语音风格提取模型的参数可以包括模型层数、特征向量通道数、学习率等，在根据该预测差值对待训练的语音风格提取模型的参数进行更新时，可以对待训练模型的模型层数、特征向量通道数、学习率进行更新，以训练物品分类模型。

在本公开的一种示例实施例中，可以通过反向传播算法对待训练的语音风格提取模型的参数进行更新，在训练结束后，得到语音风格提取模型。

需要说明的是，本公开对于根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新的具体方式并不做特殊限定。

在本公开的一种示例实施例中，可以根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，在待训练的语音风格提取模型满足收敛条件时，将待训练的语音风格提取模型确定为训练好的语音风格提取模型。具体的，待训练的语音风格提取模型满足收敛条件是指，待训练的语音风格提取模型的预测准确性较高，可以进行应用。举例而言，收敛条件可以包括训练次数，例如当待训练的语音风格提取模型训练N次后，结束训练；再如，收敛条件可以包括训练时长，例如当待训练的语音风格提取模型训练T时长后，结束训练。

需要说明的是，本公开对于收敛条件的具体内容并不做特殊限定，通过对待训练的语音风格提取模型施加收敛条件，能够更好的控制待训练的语音风格提取模型的训练进程，避免神经网络过度训练的问题，从而提升待训练的语音风格提取模型的训练效率。

在本公开的一种示例实施例中，可以将预测参考风格特征输入对象分类器得到预测对象的标识信息，根据预测对象的标识信息与对象的标识标签确定对象标识预测差异，根据对象标识预测差异确定对象标识分类损失函数，对对象标识分类损失函数进行梯度反转处理得到对象标识未分类损失函数，根据对抗损失函数、一致性损失函数以及对象标识未分类损失函数对待训练的语音风格提取模型的参数进行更新。参照图8所示，根据对抗损失函数、一致性损失函数以及对象标识未分类损失函数对待训练的语音风格提取模型的参数进行更新，可以包括以下步骤S810～S840：

步骤S810，将预测参考风格特征输入对象分类器得到预测对象的标识信息；

在本公开的一种示例实施例中，在通过上述步骤得到预测参考风格特征之后，可以将预测参考风格特征输入对象分类器得到预测对象的标识信息。其中，预测参考风格特征对应有对象的标识标签，对象分类器用于对语音对应的对象的标识信息进行分类。具体的，对象分类器能够用于识别预测参考风格特征中的语音音色，得到预测参考风格特征对应的预测对象的标识信息。

需要说明的是，本公开对于对象分类器的具体形式并不做特殊限定。

举例而言，对象分类器中可以包括全连通层、softmax(激活函数)层和GRL(Gradient reversal layer，梯度反转)层组成。

步骤S820，根据预测对象的标识信息与对象的标识标签确定对象标识预测差异，根据对象标识预测差异确定对象标识分类损失函数；

在本公开的一种示例实施例中，在通过上述步骤得到预测对象的标识信息之后，可以根据预测对象的标识信息与对象的标识标签确定对象标识预测差异，根据对象标识预测差异确定对象标识分类损失函数。具体的，通过对象分类器预测得到的为预测对象的标识信息，可以将预测参考风格特征对应的对象的标识标签作为真实值。此时，可以将预测对象的标识信息(预测值)与预测参考风格特征对应的对象的标识标签(真实值)进行比较，得到预测对象的标识信息(预测值)与预测参考风格特征对应的对象的标识标签(真实值)的预测差值(即对象标识预测差异)，并根据该对象标识预测差异确定对象标识分类损失函数。

需要说明的是，本公开对于根据对象标识预测差异确定对象标识分类损失函数的具体方式并不做特殊限定。

步骤S830，对对象标识分类损失函数进行梯度反转处理得到对象标识未分类损失函数；

步骤S840，根据对抗损失函数、一致性损失函数以及对象标识未分类损失函数对待训练的语音风格提取模型的参数进行更新。

在本公开的一种示例实施例中，在通过上述步骤得到对象标识分类损失函数之后，可以对对象标识分类损失函数进行梯度反转处理得到对象标识未分类损失函数。具体的，在进行梯度反转处理之前，对象分类器具有对象的标识信息分类的能力，在进行梯度反转处理之后，对象分类器不具有对象的标识信息分类的能力，进而能够抛弃预测参考风格特征中的语音音色。通过对抗损失函数、一致性损失函数以及对象标识未分类损失函数对待训练的语音风格提取模型进行训练，能够提升训练完成的语音风格提取模型的准确性，并且能够避免源对象的标识信息泄漏问题。

举例而言，在对对象标识分类损失函数进行梯度反转处理时，可以对对象标识分类损失函数添加负值，以实现梯度反转处理。

需要说明的是，本公开对于根据对抗损失函数、一致性损失函数以及对象标识未分类损失函数对待训练的语音风格提取模型的参数进行更新的具体方式并不做特殊限定。

通过上述步骤S810～S840，可以将预测参考风格特征输入对象分类器得到预测对象的标识信息，根据预测对象的标识信息与对象的标识标签确定对象标识预测差异，根据对象标识预测差异确定对象标识分类损失函数，对对象标识分类损失函数进行梯度反转处理得到对象标识未分类损失函数，根据对抗损失函数、一致性损失函数以及对象标识未分类损失函数对待训练的语音风格提取模型的参数进行更新。

在本公开的一种示例实施例中，可以根据参考语音样本构建样本三元组，并根据样本三元组对待训练的语音风格提取模型进行训练。如图9所示，可以获取参考语音样本(Input Mel-sepctrogram，参考语音梅尔频谱)，对参考语音样本的语音属性进行数据增强处理得到对抗语音样本(Contrast Mel-sepctrogram，对抗语音梅尔频谱)，将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本(SynthesisMel-sepctrogram，合成语音梅尔频谱)，将参考语音样本、对抗语音样本以及合成语音样本输入待训练的语音风格提取模型(Reference Encoder)，得到参考语音样本对应的预测参考风格特征(Global Style Embedding)、对抗语音样本对应的预测对抗风格特征(Contrast Style Embedding)、合成语音样本对应的预测合成风格特征(Synthesis StyleEmbedding)，并根据预测参考风格特征和预测对抗风格特征确定对抗损失函数(ContrastLoss)，根据预测参考风格特征和预测合成风格特征确定一致性损失函数(CycleConsistency Loss)，再将预测参考风格特征输入对象分类器(Speaker Classifier)，得到一预测对象的标识信息，根据预测对象的标识信息与对象的标识标签确定对象标识预测差异，根据对象标识预测差异确定对象标识分类损失函数，对对象标识分类损失函数进行梯度反转处理(DAT)得到对象标识未分类损失函数(Speaker Classifier Loss)，并根据对抗损失函数、一致性损失函数以及对象标识未分类损失函数对待训练的语音风格提取模型的参数进行更新。

在本公开的一种示例实施例中，通过构建样本三元组，并根据样本三元组对待训练的语音风格提取模型进行训练，能够提升语音风格提取模型的性能，从而提升应用该语音风格提取模型的鲁棒性。

在本公开的一种示例实施例中，可以获取文本序列、参考语音以及目标对象的标识信息，将文本序列、参考语音以及目标对象的标识信息输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果，根据风格特征提取结果生成目标语音。参照图10所示，根据风格特征提取结果生成目标语音，可以包括以下步骤S1010～S1030：

步骤S1010，获取文本序列、参考语音以及目标对象的标识信息；

步骤S1020，将文本序列、参考语音以及目标对象的标识信息输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果；

步骤S1030，根据风格特征提取结果生成目标语音。

在本公开的一种示例实施例中，可以获取文本序列、参考语音以及目标对象的标识信息，并将文本序列、参考语音以及目标对象的标识信息输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果。其中，参考语音对应有参考语音风格，目标对象的标识信息对应有目标语音音色，目标语音对应有参考语音风格以及目标语音音色，目标语音对应有参考语音风格以及目标语音音色。

具体的，语音风格提取模型可以用于实现对象风格转移任务，具体而言，对象风格转移任务是指，输入参考语音(用于指示所要采用的参考语音风格)、本文序列(用于指示所要合成的文本)以及目标对象的标识信息(用于指示所要采用的目标语音音色)进行风格特征提取处理，并输出风格特征提取结果，并根据该风格特征结果得到合成语音，该合成语音采用参考语音风格以及目标语音音色。

在本公开的一种示例实施例中，在将文本序列、参考语音以及目标对象的标识信息输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果时，可以逐帧输入。

在本公开的一种示例实施例中，可以通过对象风格转移模型实现本公开的方案，本公开中可以采用基于注意力机制的对象风格转移模型。如图11所示，可以将文本序列(Phone Embedding)、参考语音(Global Style Embedding)以及目标对象的标识信息(Speaker Embedding)输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果，并将风格特征提取结果输入解码器生成目标语音。具体的，在对象风格转移模型中，包括语音风格提取模型(Encoder)、解码器(Decoder)以及注意力机制单元(Attention)。

通过上述步骤S1010～S1020，可以获取文本序列、参考语音以及目标对象的标识信息，将文本序列、参考语音以及目标对象的标识信息输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果，根据风格特征提取结果生成目标语音。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

此外，在本公开的示例性实施方式中，还提供了一种语音风格提取模型训练装置。参照图12所示，一种语音风格提取模型训练装置1200包括：参考样本获取单元1210，对抗样本获取单元1220、合成样本获取单元1230、样本编码单元1240、损失函数确定单元1250以及语音风格提取模型训练单元1260。

其中，参考样本获取单元，被配置为执行获取参考语音样本；其中，参考语音样本对应有参考语音风格以及参考语音音色；对抗样本获取单元，被配置为执行对参考语音样本的语音属性进行数据增强处理得到对抗语音样本；合成样本获取单元，被配置为执行将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本；其中，目标对象的标识信息对应有目标语音音色，合成语音样本对应有参考语音风格以及目标语音音色，语音合成模型用于输出具有参考语音风格以及目标语音音色的语音；样本编码单元，被配置为执行将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征；损失函数确定单元，被配置为执行根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据预测参考风格特征和预测合成风格特征确定一致性损失函数；语音风格提取模型训练单元，被配置为执行根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。

在本公开的一种示例性实施例中，基于前述方案，待训练的语音风格提取模型中包括风格瓶颈网络，风格瓶颈网络包括卷积子网络与特征压缩子网络，将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征，装置还包括：风格特征压缩单元，被配置为执行将参考语音样本、对抗语音样本以及合成语音样本依次输入卷积子网络与特征压缩子网络，通过卷积子网络与特征压缩子网络进行风格特征提取得到参考语音样本对应的压缩参考风格特征、对抗语音样本对应的压缩对抗风格特征以及合成语音样本对应的压缩合成风格特征；批量归一化处理单元，被配置为执行根据压缩参考风格特征对应的参考语音样本的对象的标识信息、压缩对抗风格特征对应对抗语音样本的对象的标识信息以及压缩合成风格特征对应的合成语音样本对象的标识信息对压缩参考风格特征、压缩对抗风格特征以及压缩合成风格特征进行批量归一化处理，得到参考语音样本对应的第一候选参考风格特征、对抗语音样本对应的第一候选对抗风格特征以及合成语音样本对应的第一候选合成风格特征；高斯分布确定单元，被配置为执行确定第一候选参考风格特征对应的高斯分布，确定第一候选对抗风格特征对应的高斯分布，确定第一候选合成风格特征对应的高斯分布；其中，高斯分布对应有均值与方差；采样单元，被配置为执行对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的预测参考风格特征，对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的预测对抗风格特征、对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的预测合成风格特征。

在本公开的一种示例性实施例中，基于前述方案，待训练的语音风格提取模型中包括离散码本组件，离散码本组件中包括多个离散风格特征，对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的预测参考风格特征，对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的预测对抗风格特征、对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的预测合成风格特征，装置还包括：第一判断单元，被配置为执行对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的第二候选参考风格特征，将第二候选参考风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选参考风格特征的距离满足预设条件的离散风格特征确定为参考语音样本对应的预测参考风格特征；其中，离散风格特征用于指示语音风格；第二判断单元，被配置为执行对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的第二候选对抗风格特征，将第二候选对抗风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选对抗风格特征的距离满足预设条件的离散风格特征确定为对抗语音样本对应的预测对抗风格特征；第三判断单元，被配置为执行对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的第二候选合成风格特征，将第二候选合成风格特征与各离散风格特征进行比较，将多个离散风格特征中与第二候选合成风格特征的距离满足预设条件的离散风格特征确定为合成语音样本对应的预测合成风格特征。

在本公开的一种示例性实施例中，基于前述方案，根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，装置还包括：对抗差异确定单元，被配置为执行根据预测参考风格特征和预测对抗风格特征确定对抗差异，根据对抗差异确定对抗损失函数；其中，对抗损失函数用于使对抗差异在待训练的语音风格提取模型的训练过程中增大。

在本公开的一种示例性实施例中，基于前述方案，根据预测参考风格特征和预测合成风格特征确定一致性损失函数，装置还包括：一致差异确定单元，被配置为执行根据预测参考风格特征和预测合成风格特征确定一致性差异，根据一致性差异确定一致性损失函数；其中，一致性损失函数用于使一致性差异在待训练的语音风格提取模型的训练过程中减小。

在本公开的一种示例性实施例中，基于前述方案，述根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，装置还包括：将预测参考风格特征输入对象分类器得到预测对象的标识信息；其中，预测参考风格特征对应有对象的标识标签，对象分类器用于对语音对应的对象的标识信息进行分类；预测差异确定单元，被配置为执行根据预测对象的标识信息与对象的标识标签确定对象标识预测差异，根据对象标识预测差异确定对象标识分类损失函数；梯度反转处理单元，被配置为执行对对象标识分类损失函数进行梯度反转处理得到对象标识未分类损失函数；整体损失训练单元，被配置为执行根据对抗损失函数、一致性损失函数以及对象标识未分类损失函数对待训练的语音风格提取模型的参数进行更新。

在本公开的一种示例性实施例中，基于前述方案，语音属性包括音调、能量和时长中的一种或多种。

由于本公开的示例实施例的语音风格提取模型训练装置的各个功能模块与上述语音风格提取模型训练方法示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的语音风格提取模型训练方法实施例。

此外，在本公开的示例性实施方式中，还提供了一种语音风格提取模型训练装置。参照图13所示，一种语音合成装置1300包括：输入获取单元1310、风格提取单元1320和语音生成单元1330。

其中，输入获取单元，被配置为执行获取文本序列、参考语音以及目标对象的标识信息；其中，参考语音对应有参考语音风格，目标对象的标识信息对应有目标语音音色；风格提取单元，被配置为执行将文本序列、参考语音以及目标对象的标识信息输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果；其中，目标语音对应有参考语音风格以及目标语音音色，语音风格提取模型通过如上述中任意一项的语音风格提取模型训练方法得到。语音生成单元，被配置为执行根据风格特征提取结果生成目标语音。

由于本公开的示例实施例的语音合成装置的各个功能模块与上述语音合成方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的语音合成方法的实施例。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征向量和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征向量和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述语音风格提取模型训练方法或语音合成方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

下面参照图14来描述根据本公开的这种实施例的电子设备1400。图14显示的电子设备1400仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图14所示，电子设备1400以通用计算设备的形式表现。电子设备1400的组件可以包括但不限于：上述至少一个处理单元1410、上述至少一个存储单元1420、连接不同系统组件(包括存储单元1420和处理单元1410)的总线1430、显示单元1440。

其中，存储单元存储有程序代码，程序代码可以被处理单元1410执行，使得处理单元1410执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。例如，处理单元1410可以执行如图2中所示的步骤S210，获取参考语音样本；其中，参考语音样本对应有参考语音风格以及参考语音音色；步骤S220，对参考语音样本的语音属性进行数据增强处理得到对抗语音样本；步骤S230，将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本；其中，目标对象的标识信息对应有目标语音音色，合成语音样本对应有参考语音风格以及目标语音音色，语音合成模型用于输出具有参考语音风格以及目标语音音色的语音；步骤S240，将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征；步骤S250，根据预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据预测参考风格特征和预测合成风格特征确定一致性损失函数；步骤S260，根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。或者，还可以执行如图10中所示的步骤S1010，获取文本序列、参考语音以及目标对象的标识信息；步骤S1020，将文本序列、参考语音以及目标对象的标识信息输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果；步骤S1030，根据风格特征提取结果生成目标语音。

又如，电子设备可以实现如图2与图10所示的各个步骤。

存储单元1420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1421和/或高速缓存存储单元1422，还可以进一步包括只读存储单元(ROM)1423。

存储单元1420还可以包括具有一组(至少一个)程序模块1425的程序/实用工具1424，这样的程序模块1425包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1400也可以与一个或多个外部设备1470(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1400交互的设备通信，和/或与使得该电子设备1400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1450进行。并且，电子设备1400还可以通过网络适配器1460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1460通过总线1430与电子设备1400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由装置的处理器执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现上述实施例中的语音风格提取模型训练方法或语音合成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音风格提取模型训练方法，其特征在于，所述方法包括：

获取参考语音样本；其中，所述参考语音样本对应有参考语音风格；

对所述参考语音样本的语音属性进行数据增强处理得到对抗语音样本；

将所述参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本；其中，所述目标对象的标识信息对应有目标语音音色，所述合成语音样本对应有参考语音风格以及目标语音音色，所述语音合成模型用于输出具有参考语音风格以及目标语音音色的语音；

将所述参考语音样本、所述对抗语音样本以及所述合成语音样本输入待训练的语音风格提取模型进行风格编码处理，得到所述参考语音样本对应的预测参考风格特征、所述对抗语音样本对应的预测对抗风格特征、所述合成语音样本对应的预测合成风格特征；

根据所述预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据所述预测参考风格特征和预测合成风格特征确定一致性损失函数；

根据所述对抗损失函数以及所述一致性损失函数对所述待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。

2.根据权利要求1所述的方法，其特征在于，所述待训练的语音风格提取模型中包括风格瓶颈网络，所述风格瓶颈网络包括卷积子网络与特征压缩子网络，所述将所述参考语音样本、所述对抗语音样本以及所述合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到所述参考语音样本对应的预测参考风格特征、所述对抗语音样本对应的预测对抗风格特征、所述合成语音样本对应的预测合成风格特征，包括：

将所述参考语音样本、所述对抗语音样本以及所述合成语音样本依次输入所述卷积子网络与所述特征压缩子网络进行风格特征提取，得到所述参考语音样本对应的压缩参考风格特征、所述对抗语音样本对应的压缩对抗风格特征以及所述合成语音样本对应的压缩合成风格特征；

根据所述压缩参考风格特征对应的参考语音样本的对象的标识信息、压缩对抗风格特征对应对抗语音样本的对象的标识信息以及压缩合成风格特征对应的合成语音样本对象的标识信息，对压缩参考风格特征、压缩对抗风格特征以及压缩合成风格特征进行批量归一化处理，得到所述参考语音样本对应的第一候选参考风格特征、所述对抗语音样本对应的第一候选对抗风格特征以及所述合成语音样本对应的第一候选合成风格特征；

确定所述第一候选参考风格特征对应的高斯分布，确定所述第一候选对抗风格特征对应的高斯分布，确定所述第一候选合成风格特征对应的高斯分布；

对所述第一候选参考风格特征对应的高斯分布进行采样得到所述参考语音样本对应的预测参考风格特征，对所述第一候选对抗风格特征对应的高斯分布进行采样得到所述对抗语音样本对应的预测对抗风格特征、对所述第一候选合成风格特征对应的高斯分布进行采样得到所述合成语音样本对应的预测合成风格特征。

3.根据权利要求2所述的方法，其特征在于，所述待训练的语音风格提取模型中包括离散码本组件，所述离散码本组件中包括多个离散风格特征，所述离散风格特征用于指示语音风格；所述对所述第一候选参考风格特征对应的高斯分布进行采样得到所述参考语音样本对应的预测参考风格特征，对所述第一候选对抗风格特征对应的高斯分布进行采样得到所述对抗语音样本对应的预测对抗风格特征、对所述第一候选合成风格特征对应的高斯分布进行采样得到所述合成语音样本对应的预测合成风格特征，包括：

对所述第一候选参考风格特征对应的高斯分布进行采样得到所述参考语音样本对应的第二候选参考风格特征，将所述第二候选参考风格特征与各所述离散风格特征进行比较，将多个所述离散风格特征中与所述第二候选参考风格特征的距离满足预设条件的离散风格特征确定为所述参考语音样本对应的预测参考风格特征；

对所述第一候选对抗风格特征对应的高斯分布进行采样得到所述对抗语音样本对应的第二候选对抗风格特征，将所述第二候选对抗风格特征与各所述离散风格特征进行比较，将多个所述离散风格特征中与所述第二候选对抗风格特征的距离满足预设条件的离散风格特征确定为所述对抗语音样本对应的预测对抗风格特征；

对所述第一候选合成风格特征对应的高斯分布进行采样得到所述合成语音样本对应的第二候选合成风格特征，将所述第二候选合成风格特征与各所述离散风格特征进行比较，将多个所述离散风格特征中与所述第二候选合成风格特征的距离满足预设条件的离散风格特征确定为所述合成语音样本对应的预测合成风格特征。

4.根据权利要求1所述的方法，其特征在于，所述根据所述预测参考风格特征和预测对抗风格特征确定对抗损失函数，包括：

根据所述预测参考风格特征和所述预测对抗风格特征确定对抗差异，根据所述对抗差异确定所述对抗损失函数；

其中，所述对抗损失函数用于使所述对抗差异在待训练的语音风格提取模型的训练过程中增大。

5.根据权利要求1所述的方法，其特征在于，所述根据所述预测参考风格特征和预测合成风格特征确定一致性损失函数，包括：

根据所述预测参考风格特征和所述预测合成风格特征确定一致性差异，根据所述一致性差异确定所述一致性损失函数；

其中，所述一致性损失函数用于使所述一致性差异在待训练的语音风格提取模型的训练过程中减小。

6.根据权利要求1所述的方法，其特征在于，所述根据所述对抗损失函数以及所述一致性损失函数对所述待训练的语音风格提取模型的参数进行更新，包括：

将所述预测参考风格特征输入对象分类器得到预测对象的标识信息；其中，所述预测参考风格特征对应有对象的标识标签，所述对象分类器用于对语音对应的对象的标识信息进行分类；

根据所述预测对象的标识信息与所述对象的标识标签确定对象标识预测差异，根据所述对象标识预测差异确定对象标识分类损失函数；

对所述对象标识分类损失函数进行梯度反转处理得到对象标识未分类损失函数；

根据所述对抗损失函数、所述一致性损失函数以及所述对象标识未分类损失函数对所述待训练的语音风格提取模型的参数进行更新。

7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述语音属性包括音调、能量和时长中的一种或多种。

8.一种语音合成方法，其特征在于，所述方法包括：

获取文本序列、参考语音以及目标对象的标识信息；其中，所述参考语音对应有参考语音风格，所述目标对象的标识信息对应有目标语音音色；

将所述文本序列、参考语音以及目标对象的标识信息输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果；其中，所述目标语音对应有参考语音风格以及目标语音音色，所述语音风格提取模型通过如权利要求1-7中任意一项所述的语音风格提取模型训练方法得到；

根据所述风格特征提取结果生成目标语音。

9.一种语音风格提取模型训练装置，其特征在于，包括：

参考样本获取单元，被配置为执行获取参考语音样本；其中，所述参考语音样本对应有参考语音风格以及参考语音音色；

对抗样本获取单元，被配置为执行对所述参考语音样本的语音属性进行数据增强处理得到对抗语音样本；

合成样本获取单元，被配置为执行将所述参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本；其中，所述目标对象的标识信息对应有目标语音音色，所述合成语音样本对应有参考语音风格以及目标语音音色，所述语音合成模型用于输出具有参考语音风格以及目标语音音色的语音；

样本编码单元，被配置为执行将所述参考语音样本、所述对抗语音样本以及所述合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理，得到所述参考语音样本对应的预测参考风格特征、所述对抗语音样本对应的预测对抗风格特征、所述合成语音样本对应的预测合成风格特征；

损失函数确定单元，被配置为执行根据所述预测参考风格特征和预测对抗风格特征确定对抗损失函数，根据所述预测参考风格特征和预测合成风格特征确定一致性损失函数；

提取网络训练单元，被配置为执行根据所述对抗损失函数以及所述一致性损失函数对所述待训练的语音风格提取模型的参数进行更新，以得到训练完成的语音风格提取模型。

10.一种语音合成装置，其特征在于，包括：

输入获取单元，被配置为执行获取文本序列、参考语音以及目标对象的标识信息；其中，所述参考语音对应有参考语音风格，所述目标对象的标识信息对应有目标语音音色；

风格提取单元，被配置为执行将所述文本序列、参考语音以及目标对象的标识信息输入语音风格提取模型进行风格特征提取处理，得到风格特征提取结果；其中，所述目标语音对应有参考语音风格以及目标语音音色，所述语音风格提取模型通过如权利要求1-7中任意一项所述的语音风格提取模型训练方法得到；

语音生成单元，被配置为执行根据所述风格特征提取结果生成目标语音。

11.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1至7中任一项所述的语音风格提取模型训练方法或权利要求8中所述的语音合成方法。

12.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的语音风格提取模型训练方法或权利要求8中所述的语音合成方法。