CN115116458A

CN115116458A - 语音数据转换方法、装置、计算机设备及存储介质

Info

Publication number: CN115116458A
Application number: CN202210657468.2A
Authority: CN
Inventors: 阳珊; 苏丹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-09-27
Anticipated expiration: 2042-06-10
Also published as: CN115116458B

Abstract

本申请公开了一种语音数据转换方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：获取第一语音数据对应的第一语义特征，第一语义特征表示第一语音数据的语义；基于目标对象的音色特征，将第一语义特征转换为第一语音特征，第一语音特征表示第一语音数据的语义和目标对象的音色，且第一语音特征的噪声属性表示第一语音特征包含噪声特征；对第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示第二语音特征不包含噪声特征；对第二语音特征进行解码，得到第二语音数据。本申请将第一语音数据转换为具有目标对象的音色的第二语音数据，并且第二语音数据为不包含噪声的干净语音数据，提高了语音数据转换的效果。

Description

语音数据转换方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种语音数据转换方法、装置、计算机设备及存储介质。

背景技术

随着音频技术的发展，目前已经可以通过对语音数据进行转换，更改语音数据中的音色，并且能够保证转换前后语音数据的语义不会发生变化。

以转换为目标对象的音色为例，获取目标对象的语音数据以及其他对象的语音数据，将这些语音数据作为样本，训练语音转换模型，使得语音转换模型学习如何将其他对象的语音数据转换为该目标对象的语音数据。但是，由于目标对象的语音数据通常包含噪声，导致使用该语音转换模型转换得到的语音数据也会包含噪声，因此语音数据转换的效果比较差。

发明内容

本申请实施例提供了一种语音数据转换方法、装置、计算机设备及存储介质，能够提高语音数据转换的效果。所述技术方案如下：

一方面，提供了一种语音数据转换方法，所述方法包括：

获取第一语音数据对应的第一语义特征，所述第一语义特征表示所述第一语音数据的语义；

基于目标对象的音色特征，将所述第一语义特征转换为第一语音特征，所述第一语音特征表示所述第一语音数据的语义和所述目标对象的音色，且所述第一语音特征的噪声属性表示所述第一语音特征包含噪声特征；

对所述第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示所述第二语音特征不包含噪声特征；

对所述第二语音特征进行解码，得到第二语音数据，所述第二语音数据具有所述第一语音数据的语义和所述目标对象的音色。

另一方面，提供了一种语音数据转换装置，所述装置包括：

特征获取模块，用于获取第一语音数据对应的第一语义特征，所述第一语义特征表示所述第一语音数据的语义；

特征转换模块，用于基于目标对象的音色特征，将所述第一语义特征转换为第一语音特征，所述第一语音特征表示所述第一语音数据的语义和所述目标对象的音色，且所述第一语音特征的噪声属性表示所述第一语音特征包含噪声特征；

噪声反向模块，用于对所述第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示所述第二语音特征不包含噪声特征；

解码模块，用于对所述第二语音特征进行解码，得到第二语音数据，所述第二语音数据具有所述第一语音数据的语义和所述目标对象的音色。

可选地，语音转换模型包括特征转换子模型和语音生成子模型，所述语音生成子模型包括噪声处理网络和解码网络；

所述特征转换模块，用于调用所述特征转换子模型，基于所述目标对象的音色特征，将所述第一语义特征转换为所述第一语音特征；

所述噪声反向模块，用于调用所述噪声处理网络，对所述第一语音特征的噪声属性进行反向，以使得到的所述第二语音特征的噪声属性表示所述第二语音特征不包含噪声特征；

所述解码模块，用于调用所述解码网络，对所述第二语音特征进行解码，得到所述第二语音数据。

可选地，所述语音生成子模型还包括语音编码网络，所述装置还包括第一模型训练模块，所述第一模型训练模块，用于：

获取第一样本语音数据和第二样本语音数据，所述第一样本语音数据与所述第二样本语音数据具有相同的语义和音色，所述第一样本语音数据的噪声属性与所述第二样本语音数据的噪声属性相反；

调用所述语音编码网络，对第一样本语音数据进行编码，得到第一样本语音特征；

调用所述噪声处理网络，对所述第一样本语音特征的噪声属性进行反向，得到第二样本语音特征；

调用所述解码网络，对所述第二样本语音特征进行解码，得到第三样本语音数据；

基于所述第二样本语音数据与所述第三样本语音数据，训练所述语音生成子模型，以使第一相似度增大，所述第一相似度为调用训练后的语音生成子模型得到的第三样本语音数据与所述第二样本语音数据之间的相似度。

可选地，所述装置还包括：

特征生成模块，用于生成服从正态分布的随机样本特征；

所述第一模型训练模块，还用于：

基于所述第二样本语音数据与所述第三样本语音数据，以及所述第一样本语音特征与所述随机样本特征，训练所述语音生成子模型，以使所述第一相似度和第二相似度增大，所述第二相似度为调用训练后的语音生成子模型得到的第一样本语音特征的概率分布与所述随机样本特征的概率分布之间的相似度。

可选地，所述语音生成子模型还包括基频预测网络，所述装置还包括：

基频获取模块，用于调用所述基频预测网络，预测所述第二样本语音特征对应的第一基频；

所述基频获取模块，还用于提取所述第一样本语音数据中的第二基频；

所述第一模型训练模块，还用于：

基于所述第二样本语音数据与所述第三样本语音数据，以及所述第一基频与所述第二基频，训练所述语音生成子模型，以使所述第一相似度和第三相似度增大，所述第三相似度为调用训练后的语音生成子模型得到的第一基频与所述第二基频之间的相似度。

可选地，所述装置还包括：

语音判别模块，用于对所述第三样本语音数据进行判别，得到第一判别结果，所述第一判别结果表示所述第三样本语音数据被判别为真实语音数据的概率；

所述第一模型训练模块，还用于：

基于所述第二样本语音数据与所述第三样本语音数据，以及所述第一判别结果，训练所述语音生成子模型，以使所述第一相似度和目标概率增大，所述目标概率为调用训练后的语音生成子模型得到的第三样本语音数据被判别为真实语音数据的概率。

可选地，所述语音生成子模型还包括判别网络，所述第一样本语音数据为真实语音数据，所述装置还包括：

语音判别模块，用于调用所述判别网络对所述第三样本语音数据和所述第一样本语音数据分别进行判别，得到第一判别结果和第二判别结果，所述第一判别结果表示所述第三样本语音数据被判别为真实语音数据的概率，所述第二判别结果表示所述第一样本语音数据被判别为真实语音数据的概率；

所述第一模型训练模块，还用于：

基于所述第二样本语音数据与所述第三样本语音数据，以及所述第一判别结果与所述第二判别结果，训练所述语音生成子模型，以使所述第一相似度和第四相似度增大，所述第四相似度为调用训练后的语音生成子模型得到的第三样本语音数据对应的第一判别结果与所述第二判别结果之间的相似度。

可选地，所述特征转换子模型用于在语音特征与语义特征之间进行转换，所述装置还包括第二模型训练模块，所述第二模型训练模块，用于：

获取第四样本语音数据和第五样本语音数据，所述第四样本语音数据与所述第五样本语音数据具有相同的语义，所述第四样本语音数据具有所述目标对象的音色且包含噪声；

调用训练后的语音生成子模型中的语音编码网络，对所述第四样本语音数据进行编码，得到第三样本语音特征；

调用所述特征转换子模型，基于所述目标对象的音色特征，将所述第三样本语音特征转换为第二语义特征；

基于所述第二语义特征与所述第五样本语音数据对应的第三语义特征，训练所述特征转换子模型，以使第五相似度增大，所述第五相似度为调用训练后的特征转换子模型得到的第二语义特征与所述第三语义特征之间的相似度。

可选地，所述特征转换子模型包括语义编码网络和特征转换网络，所述特征获取模块，用于对所述第一语音数据进行语音识别，得到所述第一语音数据中的音素数据，调用所述语义编码网络，对所述音素数据进行语义编码，得到所述第一语义特征；

所述特征转换模块，用于调用所述特征转换网络，基于所述目标对象的音色特征，将所述第一语义特征转换为所述第一语音特征。

可选地，所述特征转换子模型包括多个对象的音色特征及对象标识，所述多个对象至少包括所述目标对象；

所述装置还包括：

特征查询模块，用于调用所述特征转换子模型，查询目标对象标识对应的音色特征，所述目标对象标识为所述目标对象对应的对象标识。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如上述方面所述的语音数据转换方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如上述方面所述的语音数据转换方法所执行的操作。

另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序由处理器加载并执行，以实现如上述方面所述的语音数据转换方法所执行的操作。

本申请实施例提供的方法、装置、计算机设备及存储介质，获取第一语音数据对应的语义特征，然后基于目标对象的音色特征将该语义特征转换为第一语音特征，但是该第一语音特征的噪声属性表示该第一语音特征包含噪声特征，因此先对该第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示该第二语音特征不包含噪声特征，相当于去除了语音特征中的噪声特征，然后对该第二语音特征进行解码，得到第二语音数据，从而成功将第一语音数据转换成了具有目标对象的音色的第二语音数据，并且该第二语音数据为不包含噪声的干净语音数据，提高了语音数据转换的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种语音数据转换方法的流程图；

图3是本申请实施例提供的一种语音转换模型的示意图；

图4是本申请实施例提供的另一种语音数据转换方法的流程图；

图5是本申请实施例提供的一种语音生成子模型的训练方法的流程图；

图6是本申请实施例提供的一种特征转换子模型的训练方法的流程图；

图7是本申请实施例提供的一种语音数据转换装置的结构示意图；

图8是本申请实施例提供的另一种语音数据转换装置的结构示意图；

图9是本申请实施例提供的一种终端的结构示意图；

图10是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一语音数据称为第二语音数据，且类似地，可将第二语音数据称为第一语音数据。

其中，至少一个是指一个或者一个以上，例如，至少一个语音数据可以是一个语音数据、两个语音数据、三个语音数据等任一大于等于一的整数个语音数据。多个是指两个或者两个以上，例如，多个语音数据可以是两个语音数据、三个语音数据等任一大于等于二的整数个语音数据。每个是指至少一个中的每一个，例如，每个语音数据是指多个语音数据中的每一个语音数据，若多个语音数据为3个语音数据，则每个语音数据是指3个语音数据中的每一个语音数据。

可以理解的是，在本申请的实施方式中，涉及到用户信息、语音数据、音色特征等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，AutomaticSpeech Recognition)和语音合成技术(TTS，TextToSpeech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

以下将基于人工智能技术和语音技术，对本申请实施例提供的语音数据转换方法进行说明。

本申请实施例提供的语音数据转换方法，能够用于计算机设备中。可选地，该计算机设备为终端或服务器。可选地，该服务器是独立的物理服务器，或者，是多个物理服务器构成的服务器集群或者分布式系统，或者，是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端以及飞行器等，但并不局限于此。

图1是本申请实施例提供的一种实施环境的示意图，参见图1，该实施环境包括：终端101和服务器102。终端101和服务器102之间通过无线网络或有线网络连接。可选地，服务器102用于采用本申请实施例提供的方法，训练语音转换模型，该语音转换模型用于对语音数据进行转换。服务器102将训练好的语音转换模型发送给终端101，终端101即可调用该语音转换模型，将任意语音数据转换为具有目标对象的音色的语音数据。

在一种可能实现方式中，终端101中运行有该服务器102提供的目标应用，服务器102将训练好的语音转换模型存储于该目标应用中，该目标应用具有语音转换功能。终端101基于该目标应用，调用语音转换模型，将任意语音数据转换为具有目标对象的音色的语音数据。

本申请实施例提供的语音数据转换方法，可应用于任意需要对语音数据进行转换的场景下。

例如，本申请实施例应用于为虚拟主播配音的场景下。先由真人进行配音，得到第一语音数据，该第一语音数据具有真人的音色。然后终端采用本申请实施例提供的方法，先获取第一语音数据对应的第一语义特征，然后借助虚拟主播的音色特征，将该第一语义特征转换为第一语音特征，该第一语音特征的噪声属性表示该第一语音特征包含噪声特征，因此需要对该第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示该第二语音特征不包含噪声特征，并将该第二语音特征解码为第二语音数据，该第二语音数据具有该虚拟主播的音色，且该第二语音数据的语义与该第一语音数据的语义相同，从而将该第二语音数据作为虚拟主播的配音。

图2是本申请实施例提供的一种语音数据转换方法的流程图，本申请实施例由计算机设备执行，参见图2，该方法包括：

201、计算机设备获取第一语音数据对应的第一语义特征。

该第一语音数据可以为任一对象的语音数据，例如该对象为真人，该第一语音数据具有该对象的音色。其中，本申请实施例的目的在于将该第一语音数据转换为第二语音数据，使得第二语音数据的语义与该第一语音数据的语义相同，且第二语音数据的音色与该第一语音数据的音色不同，从而更改语音数据的音色。

为了保证转换前后语音数据的语义不会发生变化，需要确定该第一语音数据的语义。因此，计算机设备提取该第一语音数据的语义，得到第一语义特征，该第一语义特征表示该第一语音数据的语义。

202、计算机设备基于目标对象的音色特征，将该第一语义特征转换为第一语音特征。

计算机设备获取目标对象的音色特征，该音色特征表示该目标对象的音色。计算机设备基于该音色特征，将该第一语义特征转换为第一语音特征，也即是将第一语义特征从语义空间转换至语音空间，得到第一语音特征，则该第一语音特征表示该第一语音数据的语义和该目标对象的音色，且该第一语音特征的噪声属性表示该第一语音特征包含噪声特征。相当于该第一语音特征表示：具有该第一语音数据的语义及该目标对象的音色，并且包含噪声的语音数据。

其中，该目标对象的音色特征可能存在误差，难以完全准确地表示该目标对象的音色，且将该第一语义特征转换为第一语音特征的过程也可能存在误差，这两方面的误差均会导致转换得到的第一语音特征包含噪声特征。

203、计算机设备对该第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示该第二语音特征不包含噪声特征。

由于该第一语音特征包含噪声特征，因此如果直接将该第一语音特征解码为语音数据，则该语音数据包含噪声，导致语音数据转换的效果不够好。因此计算机设备先对该第一语音特征的噪声属性进行反向，从而得到不包含噪声特征的第二语音特征。

其中，语音特征的噪声属性表示语音特征是否包含噪声特征，由于第一语音特征的噪声属性表示该第一语音特征包含噪声特征，因此对该第一语音特征的噪声属性进行反向，得到的第二语音特征的噪声属性表示该第二语音特征不包含噪声特征，相当于去除了第一语音特征中的噪声特征，从而得到了不包含噪声特征的第二语音特征。

另外，由于仅对第一语音特征的噪声属性进行了处理，因此该第二语音特征所表示的语义和音色与该第一语音特征所表示的语义和音色是相同的，也即是该第二语音特征表示第一语音数据的语义和该目标对象的音色。

204、计算机设备对该第二语音特征进行解码，得到第二语音数据。

计算机设备得到第二语音特征后，对该第二语音特征进行解码，得到第二语音数据。其中，语音特征是对语音数据的特征化表达，对语音特征进行解码是指将语音从特征化的形式转换为数据化的形式，解码的过程也即是对语音进行格式转换的过程。对第二语音特征进行解码是指根据该第二语音特征，生成具有该第二语音特征所表示的语义和音色的语音数据。由于该第二语音特征表示第一语音数据的语义和该目标对象的音色，因此解码得到的第二语音数据具有该第一语音数据的语义和该目标对象的音色。并且，由于该第二语音特征的噪声属性表示该第二语音特征不包含噪声特征，因此解码得到的该第二语音数据也不包含噪声。

本申请实施例提供的方法，获取第一语音数据对应的语义特征，然后基于目标对象的音色特征将该语义特征转换为第一语音特征，但是该第一语音特征的噪声属性表示该第一语音特征包含噪声特征，因此先对该第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示该第二语音特征不包含噪声特征，相当于去除了语音特征中的噪声特征，然后对该第二语音特征进行解码，得到第二语音数据，从而成功将第一语音数据转换成了具有目标对象的音色的第二语音数据，并且该第二语音数据为不包含噪声的干净语音数据，提高了语音数据转换的效果。

在另一实施例中，计算机设备中存储有语音转换模型，该语音转换模型用于对语音数据进行转换。图3是本申请实施例提供的一种语音转换模型的示意图，如图3所示，该语音转换模型包括特征转换子模型301和语音生成子模型302，该特征转换子模型301与该语音生成子模型302连接。该特征转换子模型301用于在语义特征与语音特征之间进行转换，该语音生成子模型302用于基于语音特征生成语音数据。

在一种可能实现方式中，该特征转换子模型301包括语义编码网络311、特征转换网络321和多个对象的音色特征及对象标识，该语义编码网络311与该特征转换网络321连接，该语义编码网络311用于将音素数据编码为语义特征，该特征转换网络321用于在语义特征与语音特征之间进行转换。

在一种可能实现方式中，该语音生成子模型302包括噪声处理网络312和解码网络322，该噪声处理网络312与该解码网络322连接。该噪声处理网络312用于对语音特征的噪声属性进行反向，该解码网络322用于将语音特征解码为语音数据。在另一种可能实现方式中，该语音生成子模型302还包括语音编码网络332，该语音编码网络332与该噪声处理网络312连接，该语音编码网络332用于将语音数据编码为语音特征。在另一种可能实现方式中，该语音生成子模型302还包括基频预测网络342，该基频预测网络342与噪声处理网络312连接，该基频预测网络342用于预测语音特征对应的基频。在另一种可能实现方式中，语音生成子模型302还包括判别网络352，该判别网络352用于判别语音数据是否为真实语音数据。

可选地，在训练过程中，该语义生成子模型302包括上述语音编码网络332、噪声处理网络312、解码网络322、基频预测网络342和判别网络352。在使用过程中，该语义生成子模型302包括上述噪声处理网络312和解码网络322。

在上述图2所示的语音数据转换方法的基础上，计算机设备调用上述图3所示的语音转换模型，将第一语音数据转换为第二语音数据，该语音转换模型包括特征转换子模型和语音生成子模型。具体过程详见下述图4所示的实施例。

图4是本申请实施例提供的另一种语音数据转换方法的流程图，本申请实施例由计算机设备执行，参见图4，该方法包括：

401、计算机设备对该第一语音数据进行语音识别，得到该第一语音数据中的音素数据。

计算机设备获取待转换的第一语音数据，需要将该第一语音数据转换为具有目标对象的音色的语音数据。则计算机设备对该第一语音数据进行语音识别，得到该第一语音数据中的音素数据，该音素数据表征该第一语音数据中的内容信息，例如该音素数据为第一语音数据的音素的PPG(Phonetic Posterior Grams，后验分布特征)。

402、计算机设备调用特征转换子模型中的语义编码网络，对该音素数据进行语义编码，得到该第一语义特征。

本申请实施例中，计算机设备存储有特征转换子模型，该特征转换子模型用于在语义特征与语音特征之间进行转换，该特征转换子模型中包括语义编码网络，该语义编码网络用于将音素数据编码为语义特征。例如，该特征转换子模型为基于Flow(流动)的转换子模型。

计算机设备获取到音素数据后，调用该特征转换子模型中的语义编码网络，对该音素数据进行语义编码，得到第一语义特征。由于该音素数据能够表征第一语音数据中的内容信息，因此该第一语义特征表示该第一语音数据的语义。

需要说明的是，本申请实施例通过执行上述步骤401-步骤402，实现了获取第一语音数据对应的第一语义特征。除此之外，计算机设备还可以采用其他方式获取第一语音数据对应的第一语义特征。

403、计算机设备调用特征转换子模型中的特征转换网络，基于该目标对象的音色特征，将该第一语义特征转换为该第一语音特征。

本申请实施例中，该特征转换子模型中还包括特征转换网络，该特征转换网络与该语义编码网络连接，该特征转换网络用于在语义特征与语音特征之间进行转换。

当语义编码网络输出第一语义特征后，计算机设备将该第一语义特征输入至该特征转换网络中，由特征转换网络基于目标对象的音色特征，将该第一语义特征转换为第一语音特征，该第一语音特征表示该第一语音数据的语义和该目标对象的音色，且该第一语音特征的噪声属性表示该第一语音特征包含噪声特征。

其中，该特征转换子模型包括该目标对象的音色特征，该目标对象的音色特征是通过对该特征转换子模型进行训练得到的，该特征转换子模型是基于具有目标对象的音色的样本语音数据训练得到的，且该样本语音数据包含噪声，则该样本语音数据对应的样本语音特征也包含噪声特征，因此训练得到的特征转换子模型所学习到的目标对象的音色特征可能存在误差，且在语义特征与语音特征之间进行转换时也存在误差，导致调用该特征转换子模型转换得到的第一语音特征包含噪声特征。

在一种可能实现方式中，该特征转换子模型包括多个对象的音色特征及对象标识，该多个对象至少包括该目标对象。计算机设备在调用特征转换网络，基于目标对象的音色特征将第一语义特征转换为第一语音特征之前，先调用该特征转换子模型，查询目标对象标识对应的音色特征，其中，该目标对象标识为该目标对象对应的对象标识，查询到的音色特征即为该目标对象的音色特征。

需要说明的是，本申请实施例通过执行上述步骤403，实现了调用该特征转换子模型，基于该目标对象的音色特征，将该第一语义特征转换为该第一语音特征。除此之外，该特征转换子模型还可以包括其他类型的网络，计算机设备调用特征转换子模型中其他类型的网络，基于该目标对象的音色特征，将该第一语义特征转换为该第一语音特征。

404、计算机设备调用语音生成子模型中的噪声处理网络，对该第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示该第二语音特征不包含噪声特征。

本申请实施例中，计算机设备还存储有语音生成子模型，该语音生成子模型用于基于语音特征生成对应的语音数据，该语音生成子模型中包括噪声处理网络，该噪声处理网络用于对语音特征的噪声属性进行反向。例如，该语音生成子模型为基于VAE(Variational Auto-Encoder，变分自编码器)的声码器模型。

计算机设备获取到第一语音特征后，调用该语音生成子模型中的噪声处理网络，对该第一语音特征的噪声属性进行反向，得到第二语音特征。其中，该噪声属性表示是否包含噪声特征，对语音特征的噪声属性进行反向是指：对语音特征进行处理，以使得到的语音特征的噪声属性与该语音特征的噪声属性相反。当语音数据的噪声属性表示该语音特征包含噪声特征，则对该语音特征进行处理，以使得到的语音特征的噪声属性表示该语音特征不包含噪声特征，使得新的语音特征不包含噪声特征；当语音数据的噪声属性表示该语音特征不包含噪声特征，则对该语音特征进行处理，以使得到的语音特征的噪声属性表示该语音特征包含噪声特征，使得新的该语音特征的包含噪声特征。

由于第一语音特征包含噪声特征，因此对该第一语音特征的噪声属性进行反向所得到的第二语音特征不包含噪声特征，相当于去除了第一语音特征中的噪声特征，从而得到了不包含噪声特征的第二语音特征。另外，由于仅对第一语音特征的噪声属性进行了处理，因此该第二语音特征所表示的语义和音色与该第一语音特征所表示的语义和音色是相同的，也即是该第二语音特征表示第一语音数据的语义和该目标对象的音色。

可选地，该噪声处理网络为FiLM(Feature-wise Linear Modulation，特征线性调制)网络。可选地，该噪声处理网络可以采用以下函数表示：

z′＝f(c)*z+h(c)；

其中，z表示第一语音特征，z′表示第二语音特征。f(·)和h(·)表示噪声处理网络中的两个函数，c表示噪声标签，该噪声标签所表示的噪声属性与第一语音特征的噪声属性相反。例如，当第一语音特征的噪声属性表示包含噪声特征时，c表示不包含噪声特征。可选地，用c等于第一数值表示包含噪声特征，用c等于第二数值表示不包含噪声特征，例如第一数值为1，第二数值为0。

405、计算机设备调用语音生成子模型中的解码网络，对该第二语音特征进行解码，得到该第二语音数据。

本申请实施例中，该语音生成子模型中还包括解码网络，该解码网络与该噪声处理网络连接，该解码网络用于将语音特征解码为对应的语音数据。

当噪声处理网络输出第二语音特征后，计算机设备将该第二语音特征输入至解码网络中，由解码网络对该第二语音特征进行解码，得到第二语音数据。由于该第二语音特征表示第一语音数据的语义和该目标对象的音色，因此解码得到的第二语音数据具有该第一语音数据的语义和该目标对象的音色。并且，由于该第二语音特征不包含噪声特征，因此解码得到的该第二语音数据也不包含噪声。

可选地，该解码网络可以采用以下公式表示：

其中，z′表示第二语音特征，

表示第二语音数据，Dec(·)表示解码网络，

表示该解码网络输出的

所服从的后验分布。

并且，本申请实施例中计算机设备调用语音转换模型将第一语音数据转换为第二语音数据，简化了语音数据转换的过程，提高了对语音数据进行转换的便捷性。

图5是本申请实施例提供的一种语音生成子模型的训练方法的流程图，本申请实施例由计算机设备执行，本申请实施例中训练后的语音生成子模型可应用于上述图4所示的实施例中。参见图5，该方法包括：

501、计算机设备获取第一样本语音数据和第二样本语音数据。

该第一样本语音数据与该第二样本语音数据具有相同的语义和音色，并且该第一样本语音数据的噪声属性与该第二样本语音数据的噪声属性相反。其中，语音数据的噪声属性表示语音数据是否包含噪声。例如，如果第一样本语音数据包含噪声，则第二样本语音数据不包含噪声，如果第一样本语音数据不包含噪声，则第二样本语音数据包含噪声。除此之外，该第一样本语音数据和第二样本语音数据可以具有任一语义以及任一音色。

在一种可能实现方式中，该第一样本语音数据和该第二样本语音数据均为计算机设备通过音频组件采集得到的，例如第一样本语音数据为对象A在安静的环境下阅读文本B时采集到的语音数据，第二样本语音数据为相同的对象A在嘈杂的环境下阅读相同的文本B时采集到的语音数据，则第一样本语音数据不包含噪声，第二样本语音数据包含噪声。

在另一种可能实现方式中，该第一样本语音数据为计算机设备通过音频组件采集得到的，例如第一样本语音数据为对象C在嘈杂的环境下阅读文本D时采集到的语音数据，则该第一样本语音数据包含噪声。该第二样本语音数据为计算机设备对该第一样本语音数据进行去噪，得到第二样本语音数据，则该第二样本语音数据不包含噪声。

502、计算机设备调用语音生成子模型中的语音编码网络，对第一样本语音数据进行编码，得到第一样本语音特征。

本申请实施例中，语音生成子模型中还包括语音编码网络，该语音编码网络用于将语音数据编码为隐层的语音特征。

计算机设备获取到第一样本语音数据后，将该第一样本语音数据输入至该语音生成子模型中的语音编码网络，由该语音编码网络对该第一样本语音数据进行编码，得到第一样本语音特征，该第一样本语音特征表示该第一样本语音数据的特征，例如表示该第一样本语音数据的语义、音色、韵律以及基频等。

可选地，该语音编码网络可以采用以下公式表示：

z＝Enc(w)～q(z|w)；

其中，w表示第一样本语音数据，z表示第一样本语音特征，Enc(·)表示语音编码网络，q(z|w)表示该语音编码网络输出的z所服从的后验分布。

503、计算机设备调用语音生成子模型中的噪声处理网络，对该第一样本语音特征的噪声属性进行反向，得到第二样本语音特征。

该步骤503中获取第二样本语音特征的过程与上述步骤404中获取第二语音特征的过程同理，在此不再赘述。

504、计算机设备调用语音生成子模型中的解码网络，对该第二样本语音特征进行解码，得到第三样本语音数据。

该步骤504中获取第三样本语音数据的过程与上述步骤405中获取第二语音数据的过程同理，在此不再赘述。

505、计算机设备基于该第二样本语音数据与该第三样本语音数据，训练该语音生成子模型，以使第一相似度增大，该第一相似度为调用训练后的语音生成子模型得到的第三样本语音数据与该第二样本语音数据之间的相似度。

其中，该第三样本语音数据是调用语音生成子模型基于第一样本语音数据生成的，如果该语音生成子模型中的语音编码网络、噪声处理网络以及解码网络的足够准确，则该第三样本语音数据应该与第一样本语音数据具有相同的语义和音色，且第三样本语音数据的噪声属性与该第一样本语音数据的噪声属性相反。而第二样本语音数据刚好与第一样本语音数据具有相同的语义和音色，且第二样本语音数据的噪声属性与该第一样本语音数据的噪声属性相反。因此，如果该语音生成子模型足够准确，则该第三样本语音数据应该与该第一样本语音数据足够相似。

因此，计算机设备基于该第二样本语音数据与该第三样本语音数据训练该语音生成子模型，以使调用训练后的语音生成子模型得到的第三样本语音数据与该第二样本语音数据之间的相似度增大，也即是使得到的第三样本语音数据与该第二样本语音数据之间的差异减小，以提高语音生成子模型的处理能力，从而提高语音生成子模型的准确性。

在一种可能实现方式中，计算机设备基于该第二样本语音数据与该第三样本语音数据，确定第一损失参数，该第一损失参数与该第一相似度负相关。计算机设备基于该第一损失参数，训练语音生成子模型，以使基于训练后的语音生成子模型所得到的第一损失参数变小，从而得到更加准确的语音生成子模型。

其中，该第一损失参数为该语音生成子模型的重构损失。可选地，该第一损失参数为利用多尺度的STFT(Short-Time Fourier Transform，短时傅里叶变换)损失函数所得到的在频域中该第二样本语音数据与该第三样本语音数据之间的L1距离(曼哈顿距离)。

在另一种可能实现方式中，除了基于该第二样本语音数据与该第三样本语音数据，训练该语音生成子模型之外，计算机设备还可以采用其他方式获取其他类型的数据，结合其他类型的数据训练语音生成子模型。因此，本申请实施例还提供了以下四种训练语音生成子模型的方式。

第一种训练方式：计算机设备生成服从正态分布的随机样本特征。计算机设备基于该第二样本语音数据与该第三样本语音数据，以及该第一样本语音特征与该随机样本特征，训练该语音生成子模型，以使该第一相似度和第二相似度增大，该第二相似度为调用训练后的语音生成子模型得到的第一样本语音特征的概率分布与该随机样本特征的概率分布之间的相似度。

其中，任一语音数据对应的语音特征服从正态分布，则该语音生成子模型生成的该第一样本语音特征的概率分布与正态分布之间的相似度越高，该语音生成子模型的准确性越高。因此，计算机设备生成服从正态分布的随机样本特征，还基于该第一样本语音特征与该随机样本特征，训练该语音生成子模型，以使调用训练后的语音生成子模型得到的第一样本语音特征的概率分布与该随机样本特征的概率分布之间的相似度增大，也即是使第一样本语音特征的概率分布接近正态分布。

可选地，计算机设备基于该第二样本语音数据与该第三样本语音数据，确定第一损失参数，该第一损失参数与该第一相似度负相关。计算机设备基于该第一样本语音特征与该随机样本特征，确定第二损失参数，该第二损失参数与该第二相似度负相关。计算机设备基于该第一损失参数和该第二损失参数，训练该语音生成子模型，以使基于训练后的语音生成子模型所得到的第一损失参数和第二损失参数变小，从而得到更加准确的语音生成子模型。

可选地，计算机设备采用以下公式确定第二损失参数：

L_kl＝D_kl(q(z|x)||p(z))；

其中，L_kl表示第二损失参数，D_kl(·)表示Kullback-Leibler3散度(用于描述两个概率分布之间的相似度的一种度量)，q(z|x)表示第一样本语音特征的概率分布，p(z)表示随机样本特征的概率分布。z表示语音特征，x表示语音数据。

第二种训练方式：计算机设备调用语音生成子模型中的基频预测网络，预测该第二样本语音特征对应的第一基频；提取该第一样本语音数据中的第二基频。计算机设备基于该第二样本语音数据与该第三样本语音数据，以及该第一基频与该第二基频，训练该语音生成子模型，以使该第一相似度和第三相似度增大，该第三相似度为调用训练后的语音生成子模型得到的第一基频与该第二基频之间的相似度。

其中，该语音生成子模型还包括基频预测网络，该基频预测网络用于预测语音特征对应的基频。计算机设备调用该第二样本语音特征对应的第一基频，由于该第二样本语音特征是第一样本语音数据对应的不包含噪声特征的语音特征，如果该语音生成子模型足够准确，则该第一基频应该与该第一样本语音数据中的第二基频足够接近。因此，计算机设备还基于该第一基频与该第二基频，训练该语音生成子模型，以使调用训练后的语音生成子模型得到的第一基频与该第二基频之间的相似度增大，也即是使得到的该第一基频与该第二基频之间的差异减小。

由于基频中包括语音数据的音色，因此计算机设备通过基频训练语音生成子模型，能够保证语音编码网络提取的语音特征能够含有与音色相关的特征，提高了语音编码网络的特征提取能力。

可选地，计算机设备基于该第二样本语音数据与该第三样本语音数据，确定第一损失参数，该第一损失参数与该第一相似度负相关。计算机设备基于该第一基频与该第二基频，确定第三损失参数，该第三损失参数与该第三相似度负相关。计算机设备基于该第一损失参数和该第三损失参数，训练该语音生成子模型，以使基于训练后的语音生成子模型所得到的第一损失参数和第三损失参数变小，从而得到更加准确的语音生成子模型。

可选地，该第三损失参数为第一基频与第二基频之间的RMSE(Root Mean SquareError，均方根误差)。

第三种训练方式：计算机设备对该第三样本语音数据进行判别，得到第一判别结果，该第一判别结果表示该第三样本语音数据被判别为真实语音数据的概率。计算机设备基于该第二样本语音数据与该第三样本语音数据，以及该第一判别结果，训练该语音生成子模型，以使该第一相似度和目标概率增大，该目标概率为调用训练后的语音生成子模型得到的第三样本语音数据被判别为真实语音数据的概率。

为了提高语音生成子模型生成的语音数据的真实性，计算机设备该基于该第三样本语音数据对应的第一判别结果，训练该语音生成子模型，以使调用训练后的语音生成子模型得到的第三样本语音数据被判别为真实语音数据的概率增大，从而提高语音生成子模型生成的语音数据的音质。其中，该真实语音数据是指计算机设备通过采集真实的声音得到的语音数据，而不是通过语音生成子模型生成的语音数据。

可选地，计算机设备基于该第二样本语音数据与该第三样本语音数据，确定第一损失参数，该第一损失参数与该第一相似度负相关。计算机设备基于该第一判别结果，确定第四损失参数，该第四损失参数与该第一判别结果所表示的概率负相关。计算机设备基于该第一损失参数和该第四损失参数，训练该语音生成子模型，以使基于训练后的语音生成子模型所得到的第一损失参数和第四损失参数变小，从而得到更加准确的语音生成子模型。

可选地，计算机设备采用以下公式确定第四损失参数：

其中，

表示第四损失参数，w表示第一样本语音数据，G(·)表示语音生成子模型，G(w)表示第三样本语音数据，D(G(w))表示第一判别结果，其中该第一判别结果为0到1之间的数值。

第四种训练方式：第一样本语音数据为真实语音数据。计算机设备调用语音生成子模型中的判别网络对该第三样本语音数据和该第一样本语音数据分别进行判别，得到第一判别结果和第二判别结果，该第一判别结果表示该第三样本语音数据被判别为真实语音数据的概率，该第二判别结果表示该第一样本语音数据被判别为真实语音数据的概率。计算机设备基于该第二样本语音数据与该第三样本语音数据，以及该第一判别结果与该第二判别结果，训练该语音生成子模型，以使该第一相似度和第四相似度增大，该第四相似度为调用训练后的语音生成子模型得到的第三样本语音数据对应的第一判别结果与该第二判别结果之间的相似度。

其中，语音生成子模型中还包括判别网络，该判别网络用于判别语音数据是否为真实语音数据，该第三样本语音数据被判别为真实语音数据的概率越高，该语音生成子模型的准确性越高。但是，考虑到该判别网络可能存在一定的误差，如果直接利用该判别网络对该第三样本语音数据的第一判别结果训练语音生成子模型会存在一定的误差，因此计算机设备还调用该判别网络对该第一样本语音数据进行判别，得到第二判别结果。由于该第一样本语音数据为真实语音数据，则该第三样本语音数据的第一判别结果与该第二判别结果之间的相似度越大，说明该第三样本语音数据被判别为真实语音数据的概率越大。因此计算机设备还基于该第一判别结果与该第二判别结果，训练该语音生成子模型，以使调用训练后的语音生成子模型得到的第三样本语音数据对应的第一判别结果与该第二判别结果之间的相似度增大。

可选地，计算机设备基于该第二样本语音数据与该第三样本语音数据，确定第一损失参数，该第一损失参数与该第一相似度负相关。计算机设备基于该第一判别结果与该第二判别结果，确定第五损失参数，该第五损失参数与该第四相似度负相关。计算机设备基于该第一损失参数和该第五损失参数，训练该语音生成子模型，以使基于训练后的语音生成子模型所得到的第一损失参数和第五损失参数变小，从而得到更加准确的语音生成子模型。

可选地，语音生成子模型包括多个判别网络，每个判别网络包括多个网络层，计算机设备采用以下公式确定第五损失参数：

其中，该L_fm表示第五损失参数，x表示第一样本语音数据，

表示第k个判别网络中的第i个网络层的输出，G(x)表示第三样本语音数据，G(·)表示语音生成子模型，N表示判别网络的个数，T表示判别网络中的网络层的层数，

表示数学期望，||·||₁表示一范数。

需要说明的是，以上说明了语音生成子模型的四种训练方式，在另一实施例中，还可以将该四种训练方式进行结合，来训练语音生成子模型。也即是，计算机设备基于第二样本语音数据与该第三样本语音数据、第一样本语音特征与该随机样本特征、第一基频与该第二基频、第一判别结果、第一判别结果与第二判别结果，训练语音生成子模型，以使第一相似度、第二相似度、第三相似度、目标概率以及第四相似度增大。

可选地，计算机设备基于上述第一损失参数、第二损失参数、第三损失参数、第四损失参数和第五损失参数，确定目标损失参数，该目标损失参数与第一损失参数、第二损失参数、第三损失参数、第四损失参数和第五损失参数正相关。计算机设备基于该目标损失参数，训练该语音生成子模型，以使基于训练后的语音生成子模型得到的目标损失参数减小。

可选地，计算机设备采用以下公式确定目标损失参数：

L＝λ₁L_recons+λ₂L_kl+λ₃L_pitch+λ₄L_{adv_g}+λ₅L_fm；

其中，L表示目标损失参数，L_recons表示第一损失参数，L_kl表示第二损失参数，L_pitch表示第三损失参数，L_{adv_g}表示第四损失参数，L_fm表示第五损失参数，λ₁、λ₂、λ₃、λ₄和λ₅为权重系数。

需要说明的是，以上第三种训练方式和第四种训练方式中，语音生成子模型中包括判别网络，计算机设备调用该判别网络判别语音数据是否为真实语音数据，则计算机设备基于判别结果训练语音生成子模型中有关生成语音数据的网络结构的同时，还可以基于判别结果训练该判别网络，从而达到对抗训练的目的。

其中，判别网络的目的是能够区分真实语音数据和模型生成的语音数据，因此计算机设备基于第一判别结果和第二判别结果，训练该判别网络，以使调用训练后的判别网络得到的第一判别结果减小，且第二判别结果增大。

可选地，计算机设备基于第一判别结果和第二判别结果，确定第六损失参数，该第六损失参数与该第一判别结果正相关，且与该第二判别结果负相关。计算机设备基于该第六损失参数，训练该判别网络，以使基于训练后的判别网络得到的第六损失参数减小。

可选地，计算机设备采用以下公式确定第六损失参数：

L_{adv_d}＝(D(w)-1)²+D(G(w))²；

其中，L_{adv_d}表示第六损失参数，w表示第一样本语音数据，G(·)表示语音生成子模型，G(w)表示第三样本语音数据，D(w)表示第二判别结果，D(G(w))表示第一判别结果。

本申请实施例提供的方法，考虑到如果语音生成子模型中的中的语音编码网络、噪声处理网络以及解码网络足够准确，则第三样本语音数据应该与该第一样本语音数据足够相似。因此，基于该第二样本语音数据与该第三样本语音数据训练该语音生成子模型，以使调用训练后的语音生成子模型得到的第三样本语音数据与该第二样本语音数据之间的相似度增大，使得该语音生成子模型学习到如何从语音数据中提取隐层的语音特征、如何对语音特征的噪声属性进行反向以及如何从语音特征中解码出准确的语音数据，以提高语音生成子模型的处理能力，从而提高了语音生成子模型的准确性。

并且，由于基频中包括语音数据的音色，因此计算机设备通过基频训练语音生成子模型，能够保证语音编码网络提取的语音特征能够含有与音色相关的特征，提高了语音编码网络的特征提取能力。

并且，该基于该第三样本语音数据对应的第一判别结果，训练该语音生成子模型，以使调用训练后的语音生成子模型得到的第三样本语音数据被判别为真实语音数据的概率增大，从而提高语音生成子模型生成的语音数据的音质。

上述图5所示的实施例提供了语音生成子模型的训练方法，当该语音生成子模型训练完成后，计算机设备可以利用训练后的语音生成子模型中的语音编码网络，训练特征转换子模型，具体过程详见下述图6的实施例。

图6是本申请实施例提供的一种特征转换子模型的训练方法的流程图，本申请实施例由计算机设备执行，本申请实施例中训练后的特征转换子模型可应用于上述图4所示的实施例中。参见图6，该方法包括：

601、计算机设备获取第四样本语音数据和第五样本语音数据。

其中，该第四样本语音数据与该第五样本语音数据具有相同的语义，该第四样本语音数据具有该目标对象的音色且包含噪声。其中，该第四样本语音数据与该第五样本语音数据具体不同的音色。除此之外，该第四样本语音数据与该第五样本语音数据可以具有任一语义。

例如，计算机设备获取该第四样本语音数据，确定该第四样本语音数据对应的文本，然后由其他对象阅读该文本，计算机设备在该对象阅读文本时采集语音数据，则采集到的该语音数据与该第四样本语音数据具有相同的语义，因此将采集到的语音数据作为该第五样本语音数据。

602、计算机设备调用训练后的语音生成子模型中的语音编码网络，对该第四样本语音数据进行编码，得到第三样本语音特征。

计算机设备中存储有训练后的语音生成子模型，该语音生成子模型中包括语音编码网络，该语音编码网络用于提取隐层的语音特征。计算机设备调用该语音编码网络，对该第四样本语音数据进行编码，得到第三样本语音特征。

该第三样本语音特征表示该第四样本语音数据的语义和目标对象的音色，由于该第四样本语音数据包含噪声，因此该第三样本语音特征也包含噪声特征。

其中，该步骤602中获取第三样本语音特征的过程与上述步骤402中获取第一语义特征的过程同理，在此不再赘述。

603、计算机设备调用该特征转换子模型，基于该目标对象的音色特征，将该第三样本语音特征转换为第二语义特征。

计算机设备获取到第三样本语音特征后，将该第三样本语音特征输入至特征转换子模型，由该特征转换子模型基于该目标对象的音色特征，将该第三样本语音数据转换为第二语义特征。

在一种可能实现方式中，该特征转换子模型中还包括特征转换网络，计算机设备调用特征转换子模型中的特征转换网络，基于该目标对象的音色特征，将该第三样本语音特征转换为第二语义特征。

其中，该特征转换子模型包括该目标对象的音色特征，该目标对象的音色特征可以为随机设置的，在训练该特征转换子模型的过程，也会不断更新该目标对象的音色特征，使得该目标对象的音色特征越来越准确。

需要说明的是，该特征转换子模型用于在语音特征与语义特征之间进行转换。在该特征转换子模型的训练阶段中，该特征转换子模型用于将语音特征转换为语义特征，如上述图4所示的实施例，在该特征转换子模型的使用阶段中，该特征转换子模型用于将语义特征转换为语音特征。将语音特征转换为语义特征的过程与将语义特征转换为语音特征的过程互为逆转换。

604、计算机设备基于该第二语义特征与该第五样本语音数据对应的第三语义特征，训练该特征转换子模型，以使第五相似度增大，该第五相似度为调用训练后的特征转换子模型得到的第二语义特征与该第三语义特征之间的相似度。

第五样本语音数据对应的第三语义特征表示该第五样本语音数据的语义。由于该第二语义特征是特征转换子模型基于第四样本语音数据对应的第三样本语音特征转换得到的，如果该特征转换子模型的准确性足够高，则该第二语义特征表示的语义应该接近第四样本语音数据的语义，而该第四样本语音数据的语义与该第五样本语音数据的语义相同。因此如果该特征转换子模型足够准确，则该第二语义特征应该与该第三语义特征足够相似。

因此，计算机设备基于该第二语义特征与该第三语义特征训练特征转换子模型，以使调用训练后的特征转换子模型得到的第二语义特征与该第三语义特征之间的相似度增大，也即是使得到的第二语义特征与该第三语义特征之间的差异减小，以提高特征转换子模型的转换能力，从而提高特征转换子模型的准确性。

在一种可能实现方式中，该特征转换子模型还包括语义编码网络，则计算机设备获取第五样本语音数据对应的第三语义特征，包括：计算机设备对该第五样本语音数据进行语音识别，得到该第五样本语音数据中的音素数据，调用特征转换子模型中的语义编码网络，对该音素数据进行语义编码，得到该第三语义特征。其中，获取该第三语义特征的过程与上述图4所示的实施例中获取第一语义特征的过程同理，在此不再赘述。

本申请实施例中，语音编码网络提取的语音特征服从正态分布，因此该第四样本语音数据对应的第三样本语音特征Z包括正态分布对应的均值Z_μ和方差Z_σ。另外，第五样本语音数据对应的第三语义特征C包括正态分布对应的均值

和方差

其中M表示第五样本语音数据的长度。本申请实施例的目的是让特征转换子模型学习语音特征Z与语义特征C之间的可逆转换。可选地，计算机设备采用以下似然函数，训练该特征转换子模型，以使第二语义特征与该第三语义特征之间的差异减小。

其中，t表示音素的PPG(后验分布特征)，P_Z(z|t)表示语音特征Z的后验分布，P_C(c|t)表示语义特征C的先验分布，

表示雅可比行列式。

需要说明的是，本申请实施例中，由于具有目标对象的音色的第四样本语音数据包含噪声，训练该特征转换子模型使所使用的第三样本语音特征是包含噪声特征的，所以训练后的特征转换子模型在将语义特征转换为语音特征时，所得到的语音特征也是包含噪声特征的，而上述图5的实施例中训练得到的语音生成子模型包括噪声处理网络，可以将语音特征的噪声属性进行反向，得到不包含噪声特征的语音特征，从而解码出不包含噪声的语音数据。

因此，在目标对象的不包含噪声的干净语音数据的场景下，通过学习如何将语义特征转换为语音特征以及如何将语音特征的噪声属性反向，实现了高质量的语音数据的生成以及音色转化，提高了语音数据转换的效果，并且通过训练模型学习隐层的语音特征，提高了模型的鲁棒性。

图7是本申请实施例提供的一种语音数据转换装置的结构示意图。参见图7，该装置包括：

特征获取模块701，用于获取第一语音数据对应的第一语义特征，该第一语义特征表示该第一语音数据的语义；

特征转换模块702，用于基于目标对象的音色特征，将该第一语义特征转换为第一语音特征，该第一语音特征表示该第一语音数据的语义和该目标对象的音色，且该第一语音特征的噪声属性表示该第一语音特征包含噪声特征；

噪声反向模块703，用于对该第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示该第二语音特征不包含噪声特征；

解码模块704，用于对该第二语音特征进行解码，得到第二语音数据，该第二语音数据具有第一语音数据的语义和目标对象的音色。

本申请实施例提供的语音数据转换装置，获取第一语音数据对应的语义特征，然后基于目标对象的音色特征将该语义特征转换为第一语音特征，但是该第一语音特征的噪声属性表示该第一语音特征包含噪声特征，因此先对该第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示该第二语音特征不包含噪声特征，相当于去除了语音特征中的噪声特征，然后对该第二语音特征进行解码，得到第二语音数据，从而成功将第一语音数据转换成了具有目标对象的音色的第二语音数据，并且该第二语音数据为不包含噪声的干净语音数据，提高了语音数据转换的效果。

可选地，参见图8，语音转换模型包括特征转换子模型和语音生成子模型，该语音生成子模型包括噪声处理网络和解码网络；

该特征转换模块702，用于调用该特征转换子模型，基于该目标对象的音色特征，将该第一语义特征转换为该第一语音特征；

该噪声反向模块703，用于调用该噪声处理网络，对该第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示该第二语音特征不包含噪声特征；

该解码模块704，用于调用该解码网络，对该第二语音特征进行解码，得到该第二语音数据。

可选地，参见图8，该语音生成子模型还包括语音编码网络，该装置还包括第一模型训练模块705，该第一模型训练模块705，用于：

获取第一样本语音数据和第二样本语音数据，该第一样本语音数据与该第二样本语音数据具有相同的语义和音色，该第一样本语音数据的噪声属性与该第二样本语音数据的噪声属性相反；

调用该语音编码网络，对第一样本语音数据进行编码，得到第一样本语音特征；

调用该噪声处理网络，对该第一样本语音特征的噪声属性进行反向，得到第二样本语音特征；

调用该解码网络，对该第二样本语音特征进行解码，得到第三样本语音数据；

基于该第二样本语音数据与该第三样本语音数据，训练该语音生成子模型，以使第一相似度增大，该第一相似度为调用训练后的语音生成子模型得到的第三样本语音数据与该第二样本语音数据之间的相似度。

可选地，参见图8，该装置还包括：

特征生成模块706，用于生成服从正态分布的随机样本特征；

该第一模型训练模块705，还用于：

基于该第二样本语音数据与该第三样本语音数据，以及该第一样本语音特征与该随机样本特征，训练该语音生成子模型，以使该第一相似度和第二相似度增大，该第二相似度为调用训练后的语音生成子模型得到的第一样本语音特征的概率分布与该随机样本特征的概率分布之间的相似度。

可选地，参见图8，该语音生成子模型还包括基频预测网络，该装置还包括：

基频获取模块707，用于调用该基频预测网络，预测该第二样本语音特征对应的第一基频；

该基频获取模块707，还用于提取该第一样本语音数据中的第二基频；

该第一模型训练模块705，还用于：

基于该第二样本语音数据与该第三样本语音数据，以及该第一基频与该第二基频，训练该语音生成子模型，以使该第一相似度和第三相似度增大，该第三相似度为调用训练后的语音生成子模型得到的第一基频与该第二基频之间的相似度。

可选地，参见图8，该装置还包括：

语音判别模块708，用于对该第三样本语音数据进行判别，得到第一判别结果，该第一判别结果表示该第三样本语音数据被判别为真实语音数据的概率；

该第一模型训练模块705，还用于：

基于该第二样本语音数据与该第三样本语音数据，以及该第一判别结果，训练该语音生成子模型，以使该第一相似度和目标概率增大，该目标概率为调用训练后的语音生成子模型得到的第三样本语音数据被判别为真实语音数据的概率。

可选地，参见图8，该语音生成子模型还包括判别网络，该第一样本语音数据为真实语音数据，该装置还包括：

语音判别模块708，用于调用判别网络对该第三样本语音数据和该第一样本语音数据分别进行判别，得到第一判别结果和第二判别结果，该第一判别结果表示该第三样本语音数据被判别为真实语音数据的概率，该第二判别结果表示该第一样本语音数据被判别为真实语音数据的概率；

该第一模型训练模块705，还用于：

基于该第二样本语音数据与该第三样本语音数据，以及该第一判别结果与该第二判别结果，训练该语音生成子模型，以使该第一相似度和第四相似度增大，该第四相似度为调用训练后的语音生成子模型得到的第三样本语音数据对应的第一判别结果与该第二判别结果之间的相似度。

可选地，参见图8，该特征转换子模型用于在语音特征与语义特征之间进行转换，该装置还包括第二模型训练模块709，该第二模型训练模块709，用于：

获取第四样本语音数据和第五样本语音数据，该第四样本语音数据与该第五样本语音数据具有相同的语义，该第四样本语音数据具有该目标对象的音色且包含噪声；

调用训练后的语音生成子模型中的语音编码网络，对该第四样本语音数据进行编码，得到第三样本语音特征；

调用该特征转换子模型，基于该目标对象的音色特征，将该第三样本语音特征转换为第二语义特征；

基于该第二语义特征与该第五样本语音数据对应的第三语义特征，训练该特征转换子模型，以使第五相似度增大，该第五相似度为调用训练后的特征转换子模型得到的第二语义特征与该第三语义特征之间的相似度。

可选地，参见图8，该特征转换子模型包括语义编码网络和特征转换网络，该特征获取模块701，用于对该第一语音数据进行语音识别，得到该第一语音数据中的音素数据，调用该语义编码网络，对该音素数据进行语义编码，得到该第一语义特征；

该特征转换模块702，用于调用该特征转换网络，基于该目标对象的音色特征，将该第一语义特征转换为该第一语音特征。

可选地，参见图8，该特征转换子模型包括多个对象的音色特征及对象标识，该多个对象至少包括该目标对象；

该装置还包括：

特征查询模块710，用于调用该特征转换子模型，查询目标对象标识对应的音色特征，该目标对象标识为该目标对象对应的对象标识。

需要说明的是：上述实施例提供的语音数据转换装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音数据转换装置与语音数据转换方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的语音数据转换方法中所执行的操作。

可选地，该计算机设备提供为终端。图9示出了本申请一个示例性实施例提供的终端900的结构示意图。

终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以集成有GPU(Graphics Processing Unit，图像处理的交互器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一条计算机程序，该至少一条计算机程序用于被处理器901所具有以实现本申请中方法实施例提供的语音数据转换方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。可选地，外围设备包括：射频电路904和音频电路905中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

音频电路905可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路905还可以包括耳机插孔。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该计算机设备提供为服务器。图10是本申请实施例提供的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1001和一个或一个以上的存储器1002，其中，所述存储器1002中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的语音数据转换方法所执行的操作。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序由处理器加载并执行，以实现如上述实施例的语音数据转换方法所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音数据转换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，语音转换模型包括特征转换子模型和语音生成子模型，所述语音生成子模型包括噪声处理网络和解码网络；

所述基于目标对象的音色特征，将所述第一语义特征转换为第一语音特征，包括：

调用所述特征转换子模型，基于所述目标对象的音色特征，将所述第一语义特征转换为所述第一语音特征；

所述对所述第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示所述第二语音特征不包含噪声特征，包括：

调用所述噪声处理网络，对所述第一语音特征的噪声属性进行反向，以使得到的第二语音特征的噪声属性表示所述第二语音特征不包含噪声特征；

所述对所述第二语音特征进行解码，得到第二语音数据，包括：

调用所述解码网络，对所述第二语音特征进行解码，得到所述第二语音数据。

3.根据权利要求2所述的方法，其特征在于，所述语音生成子模型还包括语音编码网络，所述语音生成子模型的训练过程，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

生成服从正态分布的随机样本特征；

所述基于所述第二样本语音数据与所述第三样本语音数据，训练所述语音生成子模型，以使第一相似度增大，包括：

5.根据权利要求3所述的方法，其特征在于，所述语音生成子模型还包括基频预测网络，所述方法还包括：

调用所述基频预测网络，预测所述第二样本语音特征对应的第一基频；

提取所述第一样本语音数据中的第二基频；

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对所述第三样本语音数据进行判别，得到第一判别结果，所述第一判别结果表示所述第三样本语音数据被判别为真实语音数据的概率；

7.根据权利要求3所述的方法，其特征在于，所述语音生成子模型还包括判别网络，所述第一样本语音数据为真实语音数据，所述方法还包括：

调用所述判别网络对所述第三样本语音数据和所述第一样本语音数据分别进行判别，得到第一判别结果和第二判别结果，所述第一判别结果表示所述第三样本语音数据被判别为真实语音数据的概率，所述第二判别结果表示所述第一样本语音数据被判别为真实语音数据的概率；

8.根据权利要求3所述的方法，其特征在于，所述特征转换子模型用于在语音特征与语义特征之间进行转换，所述特征转换子模型的训练过程，包括：

9.根据权利要求2-8任一项所述的方法，其特征在于，所述特征转换子模型包括语义编码网络和特征转换网络，所述获取第一语音数据对应的第一语义特征，包括：

对所述第一语音数据进行语音识别，得到所述第一语音数据中的音素数据，调用所述语义编码网络，对所述音素数据进行语义编码，得到所述第一语义特征；

所述调用所述特征转换子模型，基于所述目标对象的音色特征，将所述第一语义特征转换为所述第一语音特征，包括：

调用所述特征转换网络，基于所述目标对象的音色特征，将所述第一语义特征转换为所述第一语音特征。

10.根据权利要求2-8任一项所述的方法，其特征在于，所述特征转换子模型包括多个对象的音色特征及对象标识，所述多个对象至少包括所述目标对象；

所述调用所述特征转换子模型，基于所述目标对象的音色特征，将所述第一语义特征转换为所述第一语音特征之前，所述方法还包括：

调用所述特征转换子模型，查询目标对象标识对应的音色特征，所述目标对象标识为所述目标对象对应的对象标识。

11.一种语音数据转换装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，语音转换模型包括特征转换子模型和语音生成子模型，所述语音生成子模型包括噪声处理网络和解码网络；

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至10任一项所述的语音数据转换方法所执行的操作。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如权利要求1至10任一项所述的语音数据转换方法所执行的操作。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序由处理器加载并执行，以实现如权利要求1至10任一项所述的语音数据转换方法所执行的操作。