CN116343820A

CN116343820A - 音频处理方法、装置、设备和存储介质

Info

Publication number: CN116343820A
Application number: CN202310267828.2A
Authority: CN
Inventors: 唐晓敏
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-06-27

Abstract

本申请公开了一种音频处理方法、装置、设备和存储介质，属于人工智能技术领域。该音频处理方法包括：获取第一对象对应的第一音频和第二对象对应的对象信息；利用内容识别模型对第一音频进行音频内容提取，得到与第一音频对应的内容特征；利用音色识别模型对对象信息进行音色提取，得到与第二对象对应的音色特征；利用音色转换模型对内容特征和音色特征进行融合处理，得到具有音色特征的第二音频。

Description

音频处理方法、装置、设备和存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种音频处理方法、装置、设备和存储介质。

背景技术

声音转换是一种近年来逐渐流行的、经常被应用在娱乐场景或配音场景的语音合成技术。声音转换通常包括音调转换和音色转换。

相关技术中，在进行音色转换时，通常只能将源音频转换成预先设置的特定音色的音频，无法转换为其他非特定音色的音频。

发明内容

本申请实施例的目的是提供一种音频处理方法、装置、设备和存储介质，能够将任意音频转换为其他任意非特定音色的音频。

第一方面，本申请实施例提供了一种音频处理方法，该方法包括：

获取第一对象对应的第一音频和第二对象对应的对象信息；

利用内容识别模型对所述第一音频进行音频内容提取，得到与所述第一音频对应的内容特征；

利用音色识别模型对所述对象信息进行音色提取，得到与所述第二对象对应的音色特征；

利用音色转换模型对所述内容特征和所述音色特征进行融合处理，得到具有所述音色特征的第二音频。

第二方面，本申请实施例提供了一种音频处理装置，该装置包括：

信息获取模块，用于获取第一对象对应的第一音频和第二对象对应的对象信息；

内容提取模块，用于利用内容识别模型对所述第一音频进行音频内容提取，得到与所述第一音频对应的内容特征；

音色提取模块，用于利用音色识别模型对所述对象信息进行音色提取，得到与所述第二对象对应的音色特征；

融合处理模块，用于利用音色转换模型对所述内容特征和所述音色特征进行融合处理，得到具有所述音色特征的第二音频。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，通过在对第一对象对应的第一音频进行音色转换的过程中，对任意非特定的第二对象对应的对象信息进行音色提取，进而对第一音频提取得到的内容特征，与从第二对象的对象信息中提取得到的音色特征，进行融合处理，从而可以得到具有任意第二对象的音色特征的第二音频，实现了将任意音频转换为其他任意非特定音色的音频。

附图说明

图1是本申请一个实施例提供的音频处理方法的流程图；

图2是本申请实施例提供的音频处理方法所适应的模型架构示意图；

图3是本申请实施例提供的残差层的网络结构示意图；

图4是本申请实施例提供的基频特征提取模型的网络结构示意图；

图5是本申请实施例提供的对象分类模型的网络结构示意图；

图6是本申请一个实施例提供的音频处理装置的结构框图；

图7是本申请一个实施例提供的电子设备的结构框图；

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频处理方法、装置、设备和存储介质进行详细地说明。

本申请所提供的音频处理方法，可以应用于音色转换场景中，下面结合图1-图5对本申请实施例提供的音频处理方法进行详细说明。需要说明的是，本申请实施例提供的音频处理方法，执行主体可以为音频处理装置。本申请实施例中以音频处理装置执行音频处理方法为例，说明本申请实施例提供的音频处理方法。

图1是本申请一个实施例提供的操控方法的流程图。

如图1所示，该音频处理方法可以包括步骤：S110-S140，下面进行具体说明。

S110，获取第一对象对应的第一音频和第二对象对应的对象信息。

本申请实施例中，第一对象和第二对象可以是人、动物、乐器等可以发出声音的任意对象。例如，第一对象可以是A用户，第二对象可以是B用户。

第一音频可以是与第一对象对应的需要进行音色转换的音频，其中，第一音频的获取方式可以包括使用麦克风录音的方式在线获取，从用户由本地或云端上传的文件中获取，或者从用户输入的互联网上音频文件地址链接中获取等，在此不作限定。

对象信息可以是与第二对象对应的用于提取音色的信息，具体可以包括音频信息、图像信息等能够代表第二对象特征的信息，例如录制第二对象的声音得到的音频信息，或者拍摄第二对象的面部图像得到的图像信息等。其中，对象信息的获取方式可以包括使用麦克风录音或摄像头拍摄的方式在线获取，从用户由本地或云端上传的文件中获取，或者从用户输入的互联网上文件地址链接中获取等，在此不作限定。

S120，利用内容识别模型对第一音频进行音频内容提取，得到与第一音频对应的内容特征。

这里，内容识别模型可以是用于提取音频内容的模型，该内容识别模型可以是经训练的神经网络模型。其中，音频内容可以包括文本内容、基频内容、音调内容等描述音频内容的信息，相应地，得到的内容特征可以包括基频特征、文本特征等描述音频内容的特征。

示例性地，在获取到第一对象对应的第一音频后，可对第一音频对应的音频波形信号进行预处理，再将预处理后得到的特征信息输入至内容识别模型，由内容识别模型进行音频内容提取，输出得到与第一音频对应的内容特征。其中，预处理具体可以包括采样率转换、预加重、分帧和加窗等处理，还可以包括频域转换、滤波等处理。

在一些实施方式中，如图2所示，内容识别模型10的网络结构具体可以是n个由第五卷积层11和第四残差层12组成的网络结构，其中，n为大于1的整数，例如n＝3。其中，第五卷积层11可以是二维卷积层，其作用可以是从第一音频对应的音频特征中提取有用信息。第四残差层12的作用主要是为了解决深层神经网络的网络退化问题，因为随着深度增加，准确率趋于饱和，之后迅速衰退，这不利于模型训练。第四残差层12在前向传播时，输入信号可以从任意低层直接传播到高层。由于第四残差层12中包含了一个天然的恒等映射，因此，第四残差层12在一定程度上可以解决网络退化问题。另外，该第四残差层12可以是由shortcut模块和残差模块组成的网络结构，例如如图3所示的网络结构。

S130，利用音色识别模型对对象信息进行音色提取，得到与第二对象对应的音色特征。

本申请实施例中，将任意音频转换为其他任意非特定音色的音频的主要难点在于，如何合理有效地提取非特定对象的音色特征。

这里，主要通过使用音色识别模型来提取任意非特定对象的音色特征。其中，音色识别模型可以是用于提取音色的模型，该音色识别模型也可以是经训练的神经网络模型。模型训练方式可以是单独训练，也可以是与音色转换模型进行联合训练，不同结构的音色识别模型可对应采用不同的训练方式。

示例性地，在对象信息为音频信息的情况下，在获取到第二对象对应的对象信息后，可对音频信息对应的音频波形信号进行预处理，再将预处理后得到的特征信息输入至音色识别模型，由音色识别模型进行音色提取，输出得到该音频信息对应的音色特征。其中，预处理具体可以包括采样率转换、预加重、分帧和加窗等处理，还可以包括频域转换、滤波等处理。

另外，在对象信息为图像信息的情况下，同样地可以按照上述方式进行音色提取，将音频信息替换为图像信息即可，在此不再赘述。

S140，利用音色转换模型对内容特征和音色特征进行融合处理，得到具有音色特征的第二音频。

这里，音色转换模型可以是用于进行特征融合的模型，该音色转换模型也可以是经训练的神经网络模型。模型训练方式可以是单独训练，也可以是与音色识别模型进行联合训练，在此不作限定。

示例性地，可将内容特征和音色特征输入至音色转换模型中，由音色转换模型对内容特征和音色特征进行特征融合处理，输出得到具有第二对象的音色特征的第二音频。

另外，上述音色转换模型输出的可以是经音色转换后得到的第二音频的频域特征，基于此，为了使第二音频能够播放，还可将该第二音频的频域特征输入至第一声码器中，将低维度的频域特征还原为可以用音频播放器播放的波形特征。其中，第一声码器可以是能够将频域特征还原为波形特征的任意有效模型，例如HiFi-GAN模型。

由此，通过在对第一对象对应的第一音频进行音色转换的过程中，对任意非特定的第二对象对应的对象信息进行音色提取，进而对第一音频提取得到的内容特征，与从第二对象的对象信息中提取得到的音色特征，进行融合处理，从而可以得到具有任意第二对象的音色特征的第二音频，实现了将任意音频转换为其他任意非特定音色的音频。

另外，在对第一音频进行内容提取的过程中，可首先对第一音频中的基频信息进行提取，再从提取得到的基频特征和第一音频对应的第一音频特征中进行内容提取。基于此，在一些实施方式中，上述S120具体可以包括：

对第一音频进行频域特征提取，得到第一音频特征；

利用基频特征提取模型从第一音频特征中提取基频信息，得到与第一音频对应的基频特征；

利用内容识别模型对第一音频特征和基频特征进行内容提取，得到与第一音频对应的内容特征。

这里，基频即为基音的频率，和音高息息相关。本申请实施例中在进行音色转换的过程中，通过额外输入基频特征可以有效提升音色转换的效果。

示例性地，对第一音频进行频域特征提取的过程可以是，对第一音频对应的音频波形信号进行采样率转换、预加重、分帧和加窗，然后对每帧的信号作短时傅里叶变换操作，得到短时幅度谱，最后再输入到滤波器组得到与该第一音频对应的频域特征，将该频域特征作为提取得到的第一音频特征。

另外，利用基频特征提取模型从第一音频特征中提取基频信息的过程可以是，将第一音频特征输入至基频特征提取模型，利用基频特征提取模型对第一音频特征进行基频信息提取，输出得到与第一音频对应的基频特征。利用内容识别模型对第一音频特征和基频特征进行内容提取的过程可以是，将第一音频特征和基频特征输入至内容识别模型，利用内容识别模型对第一音频特征和基频特征进行内容提取，输出得到与第一音频对应的内容特征。

需要说明的是，在另一些实施方式中，也可利用内容识别模型对第一音频特征进行内容提取，得到的内容特征，之后再利用音色转换模型将第一音频对应的内容特征、第一音频对应的基频特征以及从对象信息中提取的音色特征进行特征融合处理，得到音色转换后的第二音频。

这样，通过从第一音频特征中提取基频特征，并在提取第一音频内容时额外输入基频特征，可以使转换后的第二音频具有第一音频的音高，从而可以有效提升音色转换的效果。

除此之外，在一些实施方式中，如图4所示，上述基频特征提取模型具体可以包括逐步优化循环网络41、第三卷积层42和第二残差层43。

基于此，上述利用基频特征提取模型从第一音频特征中提取基频信息，得到与第一音频对应的基频特征的步骤具体可以包括：

将第一音频特征输入至逐步优化循环网络41，利用逐步优化循环网络41对第一音频特征进行线性变换和特征映射，输出得到第六特征；

将第六特征输入至第三卷积层42，利用第三卷积层42对第六特征进行信息提取，输出得到第七特征；

将第七特征输入至第二残差层43，输出得到与第一音频对应的基频特征。

这里，逐步优化循环网络41的作用可以是线性变换和特征映射。第三卷积层42的作用可以是从抽象表征中建模，提取有用信息。第二残差层43的作用与内容识别模型10中第四残差层12的作用相同，在此不再赘述。另外，第二残差层43也可以是由shortcut模块和残差模块组成的网络结构，例如如图3所示的网络结构。

示例性地，可将第一音频特征由逐步优化循环网络41输入至基频特征提取模型，在基频特征提取模型中经过逐步优化循环网络41、第三卷积层42和第二残差层43的层层处理后，可输出得到与第一音频对应的基频特征。

另外，在使用基频特征提取模型之前，还需要先对基频特征提取模型进行训练。基于此，在一些实施方式中，在上述利用基频特征提取模型从第一音频特征中提取基频信息，得到与第一音频对应的基频特征的步骤之前，本申请实施例提供的音频处理方法还可以包括：

获取与L个第一样本对象分别对应的音频样本；

利用声码器从音频样本中提取基频信息，得到与音频样本对应的目标基频特征；

利用初始基频特征提取模型从音频样本中提取基频信息，得到与音频样本对应的预测基频特征；

根据预测基频特征和目标基频特征，确定第四损失函数值；

根据第四损失函数值调整初始基频特征提取模型的模型参数，训练得到基频特征提取模型。

这里，初始基频特征提取模型可以是未经训练的基频特征提取模型，其模型结构与基频特征提取模型的模型结构相同。

示例性地，假设有L个第一样本对象，其中，L为大于1的整数。每个第一样本对象可对应采集M个样本数据，也即音频样本。那么每个音频样本经过特征提取后的音频特征可以用a_ij表示，其中，1≤i≤L，1≤j≤M，a_ij表示第i个第一样本对象的第j个音频样本经过特征提取后所获得的特征向量，也即音频特征。

将a_ij输入至初始基频特征提取模型，即可输出得到预测基频特征Predicted(F0_ij)＝f(a_ij；w₁)，其中，w₁为初始基频特征提取模型中各个层的参数，也即模型参数。

在训练基频特征提取模型时如何提取音频样本中的真实基频特征，是提高训练效果的关键。不同于一般的基频提取算法(例如使用DIO等传统信号方法提取基频特征)，本申请实施例中是利用声码器来提取真实基频特征F0_real。该声码器可以是任意基于source-filter理论的声码器(例如GlottDNN)，将音频样本直接输入该类声码器，可直接导出该音频样本的真实基频特征F0_real。

另外，需要说明的是，虽然上述声码器可以作为提取音频样本的真实基频特征的工具，但不能在上述方案中直接使用该类声码器提取第一音频中的基频信息，这是因为声码器的本质作用是将频域特征转为音频波形信号，预测基频信息不是其主要作用，在应用部署阶段会带来额外的不必要的计算量和参数。另外，单独训练的基频特征提取模型可以添加数据增强等提升模型对高噪输入提取的稳健性，并且也可以任意变换输入特征(例如从频域特征中提取基频特征)，而声码器一般只能在波形时域特征中提取基频特征，且无法使用数据增强，灵活性较差。除此之外，因为基频特征本身是一种预测的特征，没有完全正确真实的值，因此本申请实施例中是采用声码器来提取每个音频样本的真实基频特征F0_real作为模型学习目标，学习从频域特征到基频特征的映射，经验表明训练后的基频特征提取模型预测的基频特征通常比F0_real更准确稳健。

在得到每个音频样本对应的预测基频特征和真实基频特征后，可根据如下公式(1)计算第四损失函数值。

Loss＝BCEWithLogits(F0_real,F0_predicted) (1)

其中，F0_real为初始基频特征提取模型输出的预测基频特征，F0_predicted为利用声码器输出的真实基频特征。上述公式(1)是一种混合了sigmoid和BCELoss的损失函数。

另外，在对对象信息进行音色提取的过程中，为了提高音色提取的准确性，本申请实施例提供了两种音色识别模型，其中一种是需要单独训练的音色识别模型，另一种是与音色转换模型联合训练的音色识别模型。

针对需要单独训练的音色识别模型，在一些实施方式中，如图2所示，上述音色识别模型31具体可以包括第一卷积层311、第一线性层312和第一激活函数层313。

基于此，上述S130具体可以包括：

对对象信息进行特征提取，得到对象特征；

将对象特征输入至第一卷积层311，利用第一卷积层311对对象特征进行信息提取，输出得到第一特征；

将第一特征输入至第一线性层312，利用第一线性层312对第一特征进行线性变换，输出得到第二特征；

将第二特征输入至第一激活函数层313，利用第一激活函数层313为第二特征添加非线性因素，输出得到第三特征；

对第三特征进行正则化处理，得到与第二对象对应的音色特征。

这里，在对象信息为音频信息的情况下，可对音频信息进行特征提取，得到音频特征；在对象信息为图像信息的情况下，可对图像信息进行特征提取，得到图像特征。

以对象信息为音频信息为例，对音频信息进行特征提取的具体过程可以是，对音频信息对应的音频波形信号进行采样率转换、预加重、分帧和加窗，然后对每帧的信号作短时傅里叶变换操作，得到短时幅度谱，最后再输入到滤波器组得到与该音频信息对应的频域特征，将该频域特征作为提取得到的音频特征。

另外，第一卷积层311的数量可以有一个或多个，例如可包括两个卷积层。其中，第一卷积层311的作用是提取有用信息，第一线性层312的作用是线性变换，第一激活函数层313的作用是给模型添加非线性因素以提升模型的表达能力。

示例性地，在将对象特征经过第一卷积层311、第一线性层312和第一激活函数层313的层层处理后，可得到音色识别模型输出的第三特征。基于该第三特征，可按照如下L2正则化公式(2)对第三特征进行正则化处理，最终得到与第二对象对应的音色特征。

其中，V为音色特征，w₂为音色转换模型中卷积层、线性层和激活函数层的参数。

基于此，在对上述音色识别模型进行单独训练时，为了尽量使同一音色的特征聚类在一起，以提高音色识别模型音色提取的准确性，在一些实施方式中，在上述S130之前，本申请实施例提供的音频处理方法还可以包括：

获取与N个第二样本对象分别对应的对象信息样本，其中，一个第二样本对象对应有M个对象信息样本，N和M均为大于1的整数；

对对象信息样本进行特征提取，得到样本对象特征；

利用初始音色识别模型从样本对象特征中提取音色信息，得到与N个第二样本对象中每个第二样本对象对应的M个预测音色特征；

根据M个预测音色特征，确定与每个第二样本对象对应的中心特征；

根据M个预测音色特征中每个预测音色特征分别与N个第二样本对象对应的N个中心特征之间的相似度，确定第一损失函数值；

根据第一损失函数值调整初始音色识别模型的模型参数，训练得到音色识别模型。

这里，在对象信息为图像的情况下，模型训练时所使用的对象信息样本可以为图像样本，在对象信息为音频的情况下，模型训练时所使用的对象信息样本则可以为音频样本。

需要说明的是，由于本申请实施例中的音色识别模型可对任意对象的对象信息进行音色提取，因此，使用音色识别模型时的第二对象可以不是训练音色识别模型时所使用的样本对象。

另外，初始音色识别模型可以是未经训练的音色识别模型，其模型结构与音色识别模型的模型结构相同。

示例性地，为了得到尽可能丰富的对象特征，该音色识别模型需要大量不同的第二样本对象参与训练。其中，第二样本对象和前述涉及的第一样本对象可以是从一个训练集中划分出来的对象，也可以是单独设置的样本对象，在此不作限定。

基于此，在训练阶段，假设有N个第二样本对象，每个第二样本对象可对应采集M个样本数据，也即对象信息样本，那么每个对象信息样本经过特征提取后的样本对象特征可以用a_ij表示，其中，1≤i≤N，1≤j≤M，a_ij表示第i个第二样本对象的第j个对象信息样本经过特征提取后所获得的特征向量，也即样本对象特征。

将a_ij输入至初始音色识别模型中的各个卷积层，再经过线性层的线性变换以及激活函数层，即可获得该初始音色识别模型输出的特征f(a_ij；w₃)，其中，w₃可代表初始音色识别模型中卷积层、线性层和激活函数层的参数，也即模型参数。按照下述L2正则化公式(3)对特征f(a_ij；w₃)进行正则化处理，即可得到a_ij的嵌入编码V_ij，也即第i个第二样本对象的第j个对象信息样本所对应的预测音色特征。

其中，f(a_ij；w₃)为将a_ij输入至初始音色识别模型后输出的特征，V_ij为第i个第二样本对象的第j个对象信息样本所对应的预测音色特征。

基于此，根据每个第二样本对象对应的M个预测音色特征，确定与每个第二样本对象对应的中心特征，具体可以是根据如下公式(4)来计算每个第二样本对象所对应的中心特征。

其中，A_k为第k个第二样本对象对应的M个对象信息样本的中心特征，V_kj为第k个第二样本对象的第j个对象信息样本所对应的预测音色特征。

这样，可根据如下公式(5)来计算每个预测音色特征V_ij分别与N个第二样本对象对应的N个中心特征之间的相似度。

S_ij,k＝cos(V_ij,A_k)×x+b (5)

其中，S_ij,k表示第i个第二样本对象的第j个对象信息样本所对应的预测音色特征V_ij，与第k个第二样本对象对应的中心特征A_k之间的相似度。另外，x和b均为可学习的参数，且x＞0。

在模型训练过程中，为了使来自同一个第二样本对象的所有预测音色特征V_ij在空间上的距离都尽可能地近，而不同第二样本对象之间的预测音色特征V_ij在空间上的距离尽可能地远，可采用如下公式(6)来计算第一损失函数值。

其中，1≤k≤N，Loss(V_ij)为第i个第二样本对象的第j个对象信息样本所对应的第一损失函数值，S_ij,i为第i个第二样本对象的第j个对象信息样本所对应的预测音色特征V_ij，与第i个第二样本对象对应的中心特征A_i之间的相似度。

上述公式(6)能将一个含任意实数的K维向量z“压缩”到另一个K维实向量中，使得每一个元素的范围都在(0,1)内。该公式(6)与神经网络结合，具有多分类能力，其限制了当且仅当i＝k时，第一损失函数值为1，否则第一损失函数值为0。由此，可达到将每个属于同一第二样本对象的对象信息样本所对应的预测音色特征逼近中心特征，同时，将不属于某个第二样本对象的对象信息样本所对应的预测音色特征远离该第二样本对象的中心特征的目的。

根据上述得到的与每个对象信息样本对应的第一损失函数值，对初始音色识别模型中的模型参数进行调整，直至模型收敛，即可完成对初始音色识别模型的训练过程，得到训练后的音色识别模型。

这样，通过上述训练方式训练得到的音色识别模型，可将从同一对象的对象信息中提取得到的音色特征在高维空间距离较近，而从不同对象的对象信息中提取得到的音色特征在高维空间距离较远，提高了音色识别模型音色提取的准确性。

此外，针对需要与音色转换模型联合训练的音色识别模型，在另一些实施方式中，如图2所示，音色识别模型32具体可以包括第二卷积层321、第一残差层322和第二线性层323。

基于此，上述S130具体可以包括：

对对象信息进行特征提取，得到对象特征；

将对象特征输入至第二卷积层321，利用第二卷积层321对对象特征进行信息提取，输出得到第四特征；

将对象特征输入至第一残差层322，输出得到第五特征；

将第五特征输入至第二线性层323，利用第二线性层323对第五特征进行线性变换，得到与第二对象对应的音色特征。

这里，对对象信息进行特征提取的方式与前述特征提取的方式相同，在此不再赘述。另外，第二卷积层321可以是二维卷积层，第一残差层322的作用与内容识别模型10中的第四残差层12的作用相同，且也可以是由shortcut模块和残差模块组成的网络结构，例如如图3所示的网络结构。

示例性地，在将对象特征经过第二卷积层321、第一残差层322和第二线性层323的层层处理后，可得到与第二对象对应的音色特征。

另外，需要说明的是，音色识别模型的网络结构可以不局限于上述两种结构，还可使用LSTM(Long short-term memory，长短期记忆网络)的网络结构，在此不作限定。

下面对音色转换模型进行介绍。

在一些实施方式中，如图2所示，上述音色转换模型20具体可以包括第三线性层21、第四卷积层22、第三残差层23和第四线性层24。

基于此，上述S140具体可以包括：

将音色特征输入至第三线性层21，利用第三线性层21对音色特征进行仿射变换，得到仿射参数；

将内容特征和仿射参数输入至第四卷积层22，利用第四卷积层22根据仿射参数对内容特征进行信息提取，得到第八特征；

将第八特征输入至第三残差层23，得到第九特征；

将第九特征输入至第四线性层24，利用第四线性层24对第九特征进行线性变换，得到具有音色特征的第二音频。

这里，第三线性层21作用可以是仿射变换。第四线性层24的作用可以是线性变换。第四卷积层22可以是一个一维卷积层，其作用可以是提取有用信息。第三残差层23作用与内容识别模型10中的第四残差层12的作用相同，在此不再赘述。另外，第三残差层23也可以是由shortcut模块和残差模块组成的网络结构，例如如图3所示的网络结构。

示例性地，可将第二对象的音色特征输入至第三线性层21，经仿射变换后，可得到仿射参数γ。另外，将第一对象的内容特征输入至一个一维卷积层，也即第四卷积层22，在此，该第四卷积层22的内核为可学习参数w₅＝w₄*γ，其中，w₄为内容识别模型的模型参数。这样，通过特征信息的剥离和融合，有效提高了音色转换的效果。

将第四卷积层22输出的中间特征继续输入至第三残差层23和第四线性层24，即可输出得到音色转换后的音频，也即具有第二对象音色特征的第二音频。

这样，通过上述结构，可以实现对内容特征和音色特征的融合过程，进而实现音色转换。

另外，针对需要进行联合训练的音色识别模型，在对该音色识别模型与音色转换模型进行联合训练时，为了提高训练得到的音色识别模型的准确性，在一些实施方式中，在上述S130之前，本申请实施例提供的音频处理方法还可以包括：

获取与L个第一样本对象分别对应的音频样本和样本对象标签，以及与N个第二样本对象分别对应的对象信息样本和样本对象标签，其中，L为大于1的整数，一个第一样本对象对应有M个音频样本，一个第二样本对象对应有M个对象信息样本；

利用初始内容识别模型对音频样本进行音频内容提取，得到与音频样本对应的预测内容特征；

利用初始音色识别模型对对象信息样本进行音色提取，得到与对象信息样本对应的预测音色特征；

利用初始音色转换模型对预测内容特征和预测音色特征进行融合处理，得到具有预测音色特征的预测音频；

利用对象分类模型对预测音频进行分类，确定与预测音频对应的预测样本对象；

根据与预测样本对象对应的样本对象标签，以及与对象信息样本对应的样本对象标签，确定第二损失函数值；

根据目标损失函数值调整初始内容识别模型、初始音色识别模型和初始音色转换模型的模型参数，训练得到内容识别模型、音色识别模型和音色转换模型，其中，目标损失函数值包括第二损失函数值。

这里，初始内容识别模型可以是未经训练的内容识别模型，初始音色识别模型可以是未经训练的音色识别模型，初始音色转换模型可以是未经训练的音色转换模型。

示例性地，假设有L个第一样本对象和N个第二样本对象，每个第一样本对象可对应采集M个音频样本，每个第二样本对象可对应采集M个对象信息样本，且上述音频样本和对象信息样本中每个样本都添加有其所属样本对象对应的样本对象标签，以标记其来源。

将每个样本进行特征提取，可得到每个样本分别对应的样本特征，例如与音频样本对应的音频特征，以及与对象信息样本对应的对象特征。再对音频特征进行基频信息提取，得到基频特征。

将每个音频样本对应的音频特征和基频特征输入至初始内容识别模型中，可输出得到预测内容特征。将每个对象信息样本对应的对象特征输入至初始音色识别模型中，可输出得到预测音色特征。

将预测内容特征和预测音色特征输入至初始音色转换模型中，可输出得到音色转换后的预测音频。

将预测音频对应的音频特征输入至对象分类模型中，判断该预测音频所属的样本对象，也即预测样本对象。其中，对象分类模型的网络结构例如可以是如图5所示的网络结构，具体可以包括第五残差层51、第二激活函数层52、第六卷积层53、池化层54、第七卷积层55、第五线性层56。其中，第五残差层51的数量可以为2个，第六卷积层和第七卷积层可以是二维卷积层。

通过上述对象分类模型，可以在训练过程中判断初始音色转换模型输出的经音色转换后的预测音频，是否能被正确分类为具有该音色的第二样本对象。

在一些示例中，可按照如下公式(7)计算第二损失函数值。

Loss＝CrossEntropy(Classifier(X′,T)) (7)

其中，X′为初始音色转换模型输出的、以样本对象标签为T的第二样本对象的音色特征为目标，进行音色转换得到的预测音频所对应的音频特征。

这样，通过第二损失函数值，可对初始内容识别模型、初始音色识别模型和初始音色转换模型的模型参数进行调整，联合训练这些模型，直至模型收敛，最终可得到内容识别模型、音色识别模型和音色转换模型。

由此，通过上述联合训练过程，可以进一步提高包括音色识别模型在内的各个模型的准确性，从而提升模型训练效果。

另外，为了进一步提高音色转换模型的训练的效果，还可以在训练过程中结合判别模型进行对抗训练。基于此，在一些实施方式中，在上述根据目标损失函数值调整初始内容识别模型、初始音色识别模型和初始音色转换模型的模型参数，训练得到内容识别模型、音色识别模型和音色转换模型的步骤之前，本申请实施例提供的音频处理方法还可以包括：

利用判别模型对预测音频进行真实性判别，得到判别结果；

根据判别结果，生成第三损失函数值，目标损失函数值还包括第三损失函数值。

这里，本申请实施例中使用的判别模型可以为任意有效形式的通用判别器，用于判断初始音色转换模型生成的预测音频是否接近真实样本对象的音频。

示例性地，在初始音色转换模型输出以某个第一样本对象的音频样本(例如样本对象标签为S)为源音频、某个第二样本对象的对象信息样本(例如样本对象标签为T)为音色转换目标，得到预测音频X’。将X’输入至判别模型D，由此可以得到如下公式(8)所示的对抗损失函数，进而利用该公式(8)可计算得到第三损失函数值。

Loss＝E[logD(X′,S)]+E[log(1-D(X′,T))] (8)

其中，S为源音频样本的样本对象标签，T为用于提取音色特征作为音色转换目标的对象信息样本的样本对象标签。

由此，通过结合判别模型进行对抗训练，利用该第三损失函数值可约束模型预测出尽可能接近真实声音的音频，从而进一步提高模型训练效果。

另外，为了进一步提高音色转换效果，还可以在进行特征融合时加入第一音频中的情感程度系数。基于此，在一些实施方式中，上述S140具体可以包括：

从第一音频中获取情感程度系数；

利用音色转换模型根据情感程度系数对内容特征和音色特征进行融合处理，得到具有音色特征的第二音频。

这里，本申请实施例提出了一种计算情感程度系数的方法，首次将网页排序中的wide-margin排序函数用在情感程度估计领域。

示例性地，从第一音频中获取情感程度系数的方式具体可以包括：计算当前音频的音频特征(比如开心情感)和其它中性情感音频特征的相似性，这样就可以量化当前音频的情感程度。例如可通过如下公式(9)来计算情感程度系数。

X_程度系数＝f(X,X_中性)＝ωX_t (9)

其中，X_程度系数为情感程度系数，X为当前音频的音频特征，X_中性为中性情感音频特征。

假设存在数据集T＝{t},声学特征用{X_t}表示。用N可表示neutral(中性数据)，H表示happy(开心数据)。T是N和H的并集，也即T数据集里包括N和H两个类别的数据。

为了学习X_程度系数，需要满足以下约束条件：

其一，ωX_i>ωX_j，其中i和j属于集合A，而为了创建集合A，可以从开心数据集H和中性数据集N中任意各选取特征i和j组成特征对{i,j}。这里，可默认在开心程度系数上，开心数据集中的特征i对应的开心程度系数是大于中性数据集中各个特征对应的开心程度系数的；

其二，ωX_k＝ωX_h，其中k和h属于集合B，可以从开心数据集H(或中性数据集N)中选择特征k和h组成特征对{k,h}。

通过上述约束条件可以使用任意现有神经网络模型，即可获得当前音频的情感程度系数。

需要说明的是，以上约束实质上是个NP hard问题，但是可以用上述提到的搜索引擎的网页排序中类SVM(Support Vector Machine，支持向量机)的wide-margin rankingfunction排序函数来逼近，该排序函数为已有公式，在此不赘述。

基于此，通过上述方式可获取第一音频的情感程度系数，再将情感程度系数与第一音频对应的内容特征和第二对象的音色特征，输入至音色转换模型，即可将第一音频转换为带有第一音频情感色彩、且具有第二对象音色特征的第二音频。

这样，通过在特征融合过程中加入第一音频的情感程度系数，即可对输出的音频的情感进行控制。一方面，这可以使得音色转换效果情感更充沛；另一方面，也可以通过控制情感程度系数来控制转换后第二音频的情感程度，例如在源第一音频情感程度的基础上新增20％情感程度，并体现在转换后的第二音频上。

综上，本申请实施例通过新设计的内容识别模型、音色识别模型和音色转换模型等各个模型，在各个模型结构的基础上，丰富了用户的音色转换使用方式。当用户不满足于系统提供的目标音色时，可选择自行上传的图像、音频等，亦可自行绘制目标音色应该具有的形象上传，将自己的声音变声为该图像、音频等可能具有的音色，实现将任意音频转换为其他任意非特定音色的音频。

另外，需要说明的是，上述本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，例如歌声转换场景和隐私保护场景等，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

基于相同的发明构思，本申请还提供了一种音频处理装置。下面结合图6对本申请实施例提供的音频处理装置进行详细说明。

图6是本申请一个实施例提供的操控装置的结构框图。

如图6所示，音频处理装置600可以包括：

信息获取模块601，用于获取第一对象对应的第一音频和第二对象对应的对象信息；

内容提取模块602，用于利用内容识别模型对所述第一音频进行音频内容提取，得到与所述第一音频对应的内容特征；

音色提取模块603，用于利用音色识别模型对所述对象信息进行音色提取，得到与所述第二对象对应的音色特征；

融合处理模块604，用于利用音色转换模型对所述内容特征和所述音色特征进行融合处理，得到具有所述音色特征的第二音频。

下面对上述音频处理装置600进行详细说明，具体如下所示：

在其中一些实施例中，所述音色识别模型包括第一卷积层、第一线性层和第一激活函数层；

所述音色提取模块603具体可以包括：

第一提取子模块，用于对所述对象信息进行特征提取，得到对象特征；

第一处理子模块，用于将所述对象特征输入至所述第一卷积层，利用所述第一卷积层对所述对象特征进行信息提取，输出得到第一特征；

第二处理子模块，用于将所述第一特征输入至所述第一线性层，利用所述第一线性层对所述第一特征进行线性变换，输出得到第二特征；

第三处理子模块，用于将所述第二特征输入至所述第一激活函数层，利用所述第一激活函数层为所述第二特征添加非线性因素，输出得到第三特征；

正则处理子模块，用于对所述第三特征进行正则化处理，得到与所述第二对象对应的音色特征。

在其中一些实施例中，音频处理装置600还可以包括：

第一获取模块，用于在利用音色识别模型对所述对象信息进行音色提取，得到与所述第二对象对应的音色特征之前，获取与N个第二样本对象分别对应的对象信息样本，其中，一个第二样本对象对应有M个对象信息样本，N和M均为大于1的整数；

第一提取模块，用于对所述对象信息样本进行特征提取，得到样本对象特征；

第二提取模块，用于利用初始音色识别模型从所述样本对象特征中提取音色信息，得到与所述N个第二样本对象中每个第二样本对象对应的M个预测音色特征；

第一确定模块，用于根据所述M个预测音色特征，确定与每个所述第二样本对象对应的中心特征；

第二确定模块，用于根据所述M个预测音色特征中每个预测音色特征分别与所述N个第二样本对象对应的N个中心特征之间的相似度，确定第一损失函数值；

第一调整模块，用于根据所述第一损失函数值调整所述初始音色识别模型的模型参数，训练得到所述音色识别模型。

在其中一些实施例中，所述音色识别模型包括第二卷积层、第一残差层和第二线性层；

所述音色提取模块603具体可以包括：

第二提取子模块，用于对所述对象信息进行特征提取，得到对象特征；

第四处理子模块，用于将所述对象特征输入至所述第二卷积层，利用所述第二卷积层对所述对象特征进行信息提取，输出得到第四特征；

第五处理子模块，用于将所述对象特征输入至所述第一残差层，输出得到第五特征；

第六处理子模块，用于将所述第五特征输入至所述第二线性层，利用所述第二线性层对所述第五特征进行线性变换，得到与所述第二对象对应的音色特征。

在其中一些实施例中，音频处理装置600还可以包括：

第二获取模块，用于在利用内容识别模型对所述第一音频进行音频内容提取，得到与所述第一音频对应的内容特征之前，获取与L个第一样本对象分别对应的音频样本和样本对象标签，以及与N个第二样本对象分别对应的对象信息样本和样本对象标签，其中，L为大于1的整数，一个第一样本对象对应有M个音频样本，一个第二样本对象对应有M个对象信息样本；

第三提取模块，用于利用初始内容识别模型对所述音频样本进行音频内容提取，得到与所述音频样本对应的预测内容特征；

第四提取模块，用于利用初始音色识别模型对所述对象信息样本进行音色提取，得到与所述对象信息样本对应的预测音色特征；

第一融合模块，用于利用初始音色转换模型对所述预测内容特征和所述预测音色特征进行融合处理，得到具有所述预测音色特征的预测音频；

第一分类模块，用于利用对象分类模型对所述预测音频进行分类，确定与所述预测音频对应的预测样本对象；

第三确定模块，用于根据与所述预测样本对象对应的样本对象标签，以及与所述对象信息样本对应的样本对象标签，确定第二损失函数值；

第二调整模块，用于根据目标损失函数值调整所述初始内容识别模型、所述初始音色识别模型和所述初始音色转换模型的模型参数，训练得到所述内容识别模型、所述音色识别模型和所述音色转换模型，其中，所述目标损失函数值包括所述第二损失函数值。

在其中一些实施例中，音频处理装置600还可以包括：

第一判别模块，用于在根据目标损失函数值调整所述初始内容识别模型、所述初始音色识别模型和所述初始音色转换模型的模型参数，训练得到所述内容识别模型、所述音色识别模型和所述音色转换模型之前，利用判别模型对所述预测音频进行真实性判别，得到判别结果；

第一生成模块，用于根据所述判别结果，生成第三损失函数值，所述目标损失函数值还包括所述第三损失函数值。

在其中一些实施例中，内容提取模块602具体可以包括：

第三提取子模块，用于对所述第一音频进行频域特征提取，得到第一音频特征；

第四提取子模块，用于利用基频特征提取模型从所述第一音频特征中提取基频信息，得到与所述第一音频对应的基频特征；

第五提取子模块，用于利用所述内容识别模型对所述第一音频特征和所述基频特征进行内容提取，得到与所述第一音频对应的内容特征。

在其中一些实施例中，所述基频特征提取模型包括逐步优化循环网络、第三卷积层和第二残差层；

所述第四提取子模块具体可以包括：

第一处理单元，用于将所述第一音频特征输入至所述逐步优化循环网络，利用所述逐步优化循环网络对所述第一音频特征进行线性变换和特征映射，输出得到第六特征；

第二处理单元，用于将所述第六特征输入至所述第三卷积层，利用所述第三卷积层对所述第六特征进行信息提取，输出得到第七特征；

第三处理单元，用于将所述第七特征输入至所述第二残差层，输出得到与所述第一音频对应的基频特征。

在其中一些实施例中，内容提取模块602还可以包括：

第一获取子模块，用于在利用基频特征提取模型从所述第一音频特征中提取基频信息，得到与所述第一音频对应的基频特征之前，获取与L个第一样本对象分别对应的音频样本；

第六提取子模块，用于利用声码器从所述音频样本中提取基频信息，得到与所述音频样本对应的目标基频特征；

第七提取子模块，用于利用初始基频特征提取模型从所述音频样本中提取基频信息，得到与所述音频样本对应的预测基频特征；

第一确定子模块，用于根据所述预测基频特征和所述目标基频特征，确定第四损失函数值；

第一调整子模块，用于根据所述第四损失函数值调整所述初始基频特征提取模型的模型参数，训练得到所述基频特征提取模型。

在其中一些实施例中，所述音色转换模型包括第三线性层、第四卷积层、第三残差层和第四线性层；

所述融合处理模块604具体可以包括：

第一变换子模块，用于将所述音色特征输入至所述第三线性层，利用所述第三线性层对所述音色特征进行仿射变换，得到仿射参数；

第八提取子模块，用于将所述内容特征和所述仿射参数输入至所述第四卷积层，利用所述第四卷积层根据所述仿射参数对所述内容特征进行信息提取，得到第八特征；

第七处理子模块，用于将所述第八特征输入至所述第三残差层，得到第九特征；

第八处理子模块，用于将所述第九特征输入至所述第四线性层，利用所述第四线性层对所述第九特征进行线性变换，得到具有所述音色特征的第二音频。

在其中一些实施例中，融合处理模块604具体可以包括：

第二获取子模块，用于从所述第一音频中获取情感程度系数；

特征融合子模块，用于利用所述音色转换模型根据所述情感程度系数对所述内容特征和所述音色特征进行融合处理，得到具有所述音色特征的第二音频。

本申请实施例中的音频处理装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频处理装置能够实现图1至图5的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选的，如图7所示，本申请实施例还提供一种电子设备700，包括处理器701和存储器702，存储在存储器702上存储有可在处理器701上运行的程序或指令，该程序或指令被处理器701执行时实现上述音频处理方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备800包括但不限于：射频单元801、网络模块802、音频输出单元803、输入单元804、传感器805、显示单元806、用户输入单元807、接口单元808、存储器809、以及处理器810等部件。

本领域技术人员可以理解，电子设备800还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器810逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器810用于获取第一对象对应的第一音频和第二对象对应的对象信息；利用内容识别模型对所述第一音频进行音频内容提取，得到与所述第一音频对应的内容特征；利用音色识别模型对所述对象信息进行音色提取，得到与所述第二对象对应的音色特征；利用音色转换模型对所述内容特征和所述音色特征进行融合处理，得到具有所述音色特征的第二音频。

可选的，处理器810还用于对所述对象信息进行特征提取，得到对象特征；将所述对象特征输入至所述第一卷积层，利用所述第一卷积层对所述对象特征进行信息提取，输出得到第一特征；将所述第一特征输入至所述第一线性层，利用所述第一线性层对所述第一特征进行线性变换，输出得到第二特征；将所述第二特征输入至所述第一激活函数层，利用所述第一激活函数层为所述第二特征添加非线性因素，输出得到第三特征；对所述第三特征进行正则化处理，得到与所述第二对象对应的音色特征。

可选的，处理器810还用于获取与N个第二样本对象分别对应的对象信息样本，其中，一个第二样本对象对应有M个对象信息样本，N和M均为大于1的整数；对所述对象信息样本进行特征提取，得到样本对象特征；利用初始音色识别模型从所述样本对象特征中提取音色信息，得到与所述N个第二样本对象中每个第二样本对象对应的M个预测音色特征；根据所述M个预测音色特征，确定与每个所述第二样本对象对应的中心特征；根据所述M个预测音色特征中每个预测音色特征分别与所述N个第二样本对象对应的N个中心特征之间的相似度，确定第一损失函数值；根据所述第一损失函数值调整所述初始音色识别模型的模型参数，训练得到所述音色识别模型。

可选的，处理器810还用于对所述对象信息进行特征提取，得到对象特征；将所述对象特征输入至所述第二卷积层，利用所述第二卷积层对所述对象特征进行信息提取，输出得到第四特征；将所述对象特征输入至所述第一残差层，输出得到第五特征；将所述第五特征输入至所述第二线性层，利用所述第二线性层对所述第五特征进行线性变换，得到与所述第二对象对应的音色特征。

可选的，处理器810还用于获取与L个第一样本对象分别对应的音频样本和样本对象标签，以及与N个第二样本对象分别对应的对象信息样本和样本对象标签，其中，L为大于1的整数，一个第一样本对象对应有M个音频样本，一个第二样本对象对应有M个对象信息样本；利用初始内容识别模型对所述音频样本进行音频内容提取，得到与所述音频样本对应的预测内容特征；利用初始音色识别模型对所述对象信息样本进行音色提取，得到与所述对象信息样本对应的预测音色特征；利用初始音色转换模型对所述预测内容特征和所述预测音色特征进行融合处理，得到具有所述预测音色特征的预测音频；利用对象分类模型对所述预测音频进行分类，确定与所述预测音频对应的预测样本对象；根据与所述预测样本对象对应的样本对象标签，以及与所述对象信息样本对应的样本对象标签，确定第二损失函数值；根据目标损失函数值调整所述初始内容识别模型、所述初始音色识别模型和所述初始音色转换模型的模型参数，训练得到所述内容识别模型、所述音色识别模型和所述音色转换模型，其中，所述目标损失函数值包括所述第二损失函数值。

可选的，处理器810还用于利用判别模型对所述预测音频进行真实性判别，得到判别结果；根据所述判别结果，生成第三损失函数值，所述目标损失函数值还包括所述第三损失函数值。

可选的，处理器810还用于对所述第一音频进行频域特征提取，得到第一音频特征；利用基频特征提取模型从所述第一音频特征中提取基频信息，得到与所述第一音频对应的基频特征；利用所述内容识别模型对所述第一音频特征和所述基频特征进行内容提取，得到与所述第一音频对应的内容特征。

可选的，处理器810还用于将所述第一音频特征输入至所述逐步优化循环网络，利用所述逐步优化循环网络对所述第一音频特征进行线性变换和特征映射，输出得到第六特征；将所述第六特征输入至所述第三卷积层，利用所述第三卷积层对所述第六特征进行信息提取，输出得到第七特征；将所述第七特征输入至所述第二残差层，输出得到与所述第一音频对应的基频特征。

可选的，处理器810还用于获取与L个第一样本对象分别对应的音频样本；利用声码器从所述音频样本中提取基频信息，得到与所述音频样本对应的目标基频特征；利用初始基频特征提取模型从所述音频样本中提取基频信息，得到与所述音频样本对应的预测基频特征；根据所述预测基频特征和所述目标基频特征，确定第四损失函数值；根据所述第四损失函数值调整所述初始基频特征提取模型的模型参数，训练得到所述基频特征提取模型。

可选的，处理器810还用于将所述音色特征输入至所述第三线性层，利用所述第三线性层对所述音色特征进行仿射变换，得到仿射参数；将所述内容特征和所述仿射参数输入至所述第四卷积层，利用所述第四卷积层根据所述仿射参数对所述内容特征进行信息提取，得到第八特征；将所述第八特征输入至所述第三残差层，得到第九特征；将所述第九特征输入至所述第四线性层，利用所述第四线性层对所述第九特征进行线性变换，得到具有所述音色特征的第二音频。

可选的，处理器810还用于从所述第一音频中获取情感程度系数；利用所述音色转换模型根据所述情感程度系数对所述内容特征和所述音色特征进行融合处理，得到具有所述音色特征的第二音频。

应理解的是，本申请实施例中，输入单元804可以包括图形处理器(GraphicsProcessing Unit，GPU)8041和麦克风8042，图形处理器8041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元806可包括显示面板8061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板8061。用户输入单元807包括触控面板8071以及其他输入设备8072中的至少一种。触控面板8071，也称为触摸屏。触控面板8071可包括触摸检测装置和触摸控制器两个部分。其他输入设备8072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器809可用于存储软件程序以及各种数据。存储器809可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器809可以包括易失性存储器或非易失性存储器，或者，存储器809可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器809包括但不限于这些和任意其它适合类型的存储器。

处理器810可可包括一个或多个处理单元；可选的，处理器810集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器810中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频处理方法，其特征在于，包括：

获取第一对象对应的第一音频和第二对象对应的对象信息；

2.根据权利要求1所述的方法，其特征在于，所述音色识别模型包括第一卷积层、第一线性层和第一激活函数层；

所述利用音色识别模型对所述对象信息进行音色提取，得到与所述第二对象对应的音色特征，包括：

对所述对象信息进行特征提取，得到对象特征；

将所述对象特征输入至所述第一卷积层，利用所述第一卷积层对所述对象特征进行信息提取，输出得到第一特征；

将所述第一特征输入至所述第一线性层，利用所述第一线性层对所述第一特征进行线性变换，输出得到第二特征；

将所述第二特征输入至所述第一激活函数层，利用所述第一激活函数层为所述第二特征添加非线性因素，输出得到第三特征；

对所述第三特征进行正则化处理，得到与所述第二对象对应的音色特征。

3.根据权利要求2所述的方法，其特征在于，在利用音色识别模型对所述对象信息进行音色提取，得到与所述第二对象对应的音色特征之前，所述方法还包括：

对所述对象信息样本进行特征提取，得到样本对象特征；

利用初始音色识别模型从所述样本对象特征中提取音色信息，得到与所述N个第二样本对象中每个第二样本对象对应的M个预测音色特征；

根据所述M个预测音色特征，确定与每个所述第二样本对象对应的中心特征；

根据所述M个预测音色特征中每个预测音色特征分别与所述N个第二样本对象对应的N个中心特征之间的相似度，确定第一损失函数值；

根据所述第一损失函数值调整所述初始音色识别模型的模型参数，训练得到所述音色识别模型。

4.根据权利要求1所述的方法，其特征在于，所述音色识别模型包括第二卷积层、第一残差层和第二线性层；

对所述对象信息进行特征提取，得到对象特征；

将所述对象特征输入至所述第二卷积层，利用所述第二卷积层对所述对象特征进行信息提取，输出得到第四特征；

将所述对象特征输入至所述第一残差层，输出得到第五特征；

将所述第五特征输入至所述第二线性层，利用所述第二线性层对所述第五特征进行线性变换，得到与所述第二对象对应的音色特征。

5.根据权利要求4所述的方法，其特征在于，在利用内容识别模型对所述第一音频进行音频内容提取，得到与所述第一音频对应的内容特征之前，所述方法还包括：

利用初始内容识别模型对所述音频样本进行音频内容提取，得到与所述音频样本对应的预测内容特征；

利用初始音色识别模型对所述对象信息样本进行音色提取，得到与所述对象信息样本对应的预测音色特征；

利用初始音色转换模型对所述预测内容特征和所述预测音色特征进行融合处理，得到具有所述预测音色特征的预测音频；

利用对象分类模型对所述预测音频进行分类，确定与所述预测音频对应的预测样本对象；

根据与所述预测样本对象对应的样本对象标签，以及与所述对象信息样本对应的样本对象标签，确定第二损失函数值；

根据目标损失函数值调整所述初始内容识别模型、所述初始音色识别模型和所述初始音色转换模型的模型参数，训练得到所述内容识别模型、所述音色识别模型和所述音色转换模型，其中，所述目标损失函数值包括所述第二损失函数值。

6.根据权利要求5所述的方法，其特征在于，在根据目标损失函数值调整所述初始内容识别模型、所述初始音色识别模型和所述初始音色转换模型的模型参数，训练得到所述内容识别模型、所述音色识别模型和所述音色转换模型之前，所述方法还包括：

利用判别模型对所述预测音频进行真实性判别，得到判别结果；

根据所述判别结果，生成第三损失函数值，所述目标损失函数值还包括所述第三损失函数值。

7.根据权利要求1所述的方法，其特征在于，所述利用内容识别模型对所述第一音频进行音频内容提取，得到与所述第一音频对应的内容特征，包括：

对所述第一音频进行频域特征提取，得到第一音频特征；

利用基频特征提取模型从所述第一音频特征中提取基频信息，得到与所述第一音频对应的基频特征；

利用所述内容识别模型对所述第一音频特征和所述基频特征进行内容提取，得到与所述第一音频对应的内容特征。

8.根据权利要求7所述的方法，其特征在于，所述基频特征提取模型包括逐步优化循环网络、第三卷积层和第二残差层；

所述利用基频特征提取模型从所述第一音频特征中提取基频信息，得到与所述第一音频对应的基频特征，包括：

将所述第一音频特征输入至所述逐步优化循环网络，利用所述逐步优化循环网络对所述第一音频特征进行线性变换和特征映射，输出得到第六特征；

将所述第六特征输入至所述第三卷积层，利用所述第三卷积层对所述第六特征进行信息提取，输出得到第七特征；

将所述第七特征输入至所述第二残差层，输出得到与所述第一音频对应的基频特征。

9.根据权利要求7所述的方法，其特征在于，在利用基频特征提取模型从所述第一音频特征中提取基频信息，得到与所述第一音频对应的基频特征之前，所述方法还包括：

获取与L个第一样本对象分别对应的音频样本；

利用声码器从所述音频样本中提取基频信息，得到与所述音频样本对应的目标基频特征；

利用初始基频特征提取模型从所述音频样本中提取基频信息，得到与所述音频样本对应的预测基频特征；

根据所述预测基频特征和所述目标基频特征，确定第四损失函数值；

根据所述第四损失函数值调整所述初始基频特征提取模型的模型参数，训练得到所述基频特征提取模型。

10.根据权利要求1所述的方法，其特征在于，所述音色转换模型包括第三线性层、第四卷积层、第三残差层和第四线性层；

所述利用音色转换模型对所述内容特征和所述音色特征进行融合处理，得到具有所述音色特征的第二音频，包括：

将所述音色特征输入至所述第三线性层，利用所述第三线性层对所述音色特征进行仿射变换，得到仿射参数；

将所述内容特征和所述仿射参数输入至所述第四卷积层，利用所述第四卷积层根据所述仿射参数对所述内容特征进行信息提取，得到第八特征；

将所述第八特征输入至所述第三残差层，得到第九特征；

将所述第九特征输入至所述第四线性层，利用所述第四线性层对所述第九特征进行线性变换，得到具有所述音色特征的第二音频。

11.根据权利要求1所述的方法，其特征在于，所述利用音色转换模型对所述内容特征和所述音色特征进行融合处理，得到具有所述音色特征的第二音频，包括：

从所述第一音频中获取情感程度系数；

利用所述音色转换模型根据所述情感程度系数对所述内容特征和所述音色特征进行融合处理，得到具有所述音色特征的第二音频。

12.一种音频处理装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-11任一项所述的音频处理方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-11任一项所述的音频处理方法的步骤。