CN112164407B

CN112164407B - 音色转换方法及装置

Info

Publication number: CN112164407B
Application number: CN202011001732.4A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2024-06-18
Anticipated expiration: 2040-09-22
Also published as: CN112164407A

Abstract

本公开提供了一种音色转换方法及装置。通过接收音色转换指令，该音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识；加载目标角色的音色转换模型标识对应的音色转换模型，音色转换模型由目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到；以及根据音色转换指令，通过该音色转换模型将原始角色输出的第一语音数据转换为目标角色输出的第二语音数据，从而可以将用户输出的声音转换为用户希望的任意的目标角色输出的声音，满足不同用户的音色转换需求。

Description

音色转换方法及装置

技术领域

本公开涉及神经网络技术，尤其涉及一种基于深度神经网络的音色转换方法及装置。

背景技术

随着生活水平和科技水平的提高，人们已经能够通过电子设备(如手机、笔记本电脑、平板电脑、智能家居等)进行声音的录制和播放。但是，用户很难将自己的声音转变为喜爱的影视角色的声音，或者转变为游戏动漫里的卡通人物的声音，等等。其中，这是一种声音的音色转换，其特点是：声音转换前后，虽然声音表述的文字内容是相同的，但是听起来是不同卡通人物、影视角色等说出来的。

有鉴于此，如何进行音色转换，获得稳定的音色转换效果，是本公开需要解决的问题。

发明内容

本公开提供一种音色转换方案。

第一方面，提供了一种音色转换方法，所述方法包括：

接收音色转换指令，所述音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识；

加载所述目标角色的音色转换模型标识对应的音色转换模型，音色转换模型由所述目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到；

根据所述音色转换指令，通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据。

在一种可能的实现中，所述音色转换模型包括编码网络和解码网络，所述根据所述音色转换指令，通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据，包括：

根据所述音色转换指令，采用所述音色转换模型的编码网络对所述原始角色输出的第一语音数据进行编码，得到所述第一语音数据的内容和所述原始角色对应的音色序列，所述原始角色对应的音色序列包括所述原色角色的至少一个音色元素；

采用所述目标角色对应的音色序列替换所述原始角色对应的音色序列，所述目标角色对应的音色序列包括所述目标角色的至少一个音色元素；

所述音色转换模型的解码网络将所述第一语音数据的内容和所述目标角色对应的音色序列进行合成和解码，得到所述目标角色输出的第二语音数据。

在又一种可能的实现中，所述方法还包括：

输入至少一个原始训练角色输出的至少一个第三语音数据到所述目标角色的音色转换模型；

将所述至少一个第三语音数据进行编码，得到所述至少一个第三语音数据的内容和所述至少一个原始训练角色对应的音色序列，所述至少一个原始训练角色对应的音色序列包括所述至少一个原始训练角色的音色元素；

将所述目标角色对应的音色序列替换所述至少一个原始训练角色对应的音色序列；

将所述至少一个第三语音数据的内容和所述目标角色对应的音色序列进行合成和解码，得到所述目标角色输出的至少一个第四语音数据，以训练所述目标角色的音色转换模型。

在又一种可能的实现中，所述方法还包括：

对所述至少一个第三语音数据进行预处理操作，所述预处理操作包括以下至少一个操作：

去除所述至少一个第三语音数据中的静音部分；

对所述至少一个第三语音数据中的非静音部分进行重采样；

对重采样后的所述至少一个第三语音数据在时域上反相和/或逆序。

在又一种可能的实现中，训练所述音色转换模型包括训练所述音色转换模型的以下至少一个参数：训练轮数，每一轮训练的取样次数，取样大小，取样音频长度，学习率，编码序列长度。

第二方面，提供了一种音色转换装置，所述装置包括：

接收单元，用于接收音色转换指令，所述音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识；

加载单元，用于加载所述目标角色的音色转换模型标识对应的音色转换模型，音色转换模型由所述目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到；

转换单元，用于根据所述音色转换指令，通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据。

在一种可能的实现中，所述音色转换模型包括编码网络和解码网络，所述转换单元包括：

编码单元，用于根据所述音色转换指令，采用所述音色转换模型的编码网络对所述原始角色输出的第一语音数据进行编码，得到所述第一语音数据的内容和所述原始角色对应的音色序列，所述原始角色对应的音色序列包括所述原色角色的至少一个音色元素；

替换单元，用于采用所述目标角色对应的音色序列替换所述原始角色对应的音色序列，所述目标角色对应的音色序列包括所述目标角色的至少一个音色元素；

解码单元，用于所述音色转换模型的解码网络将所述第一语音数据的内容和所述目标角色对应的音色序列进行合成和解码，得到所述目标角色输出的第二语音数据。

在又一种可能的实现中，所述装置还包括：

输入单元，用于输入至少一个原始训练角色输出的至少一个第三语音数据到所述目标角色的音色转换模型；

所述编码单元，还用于将所述至少一个第三语音数据进行编码，得到所述至少一个第三语音数据的内容和所述至少一个原始训练角色对应的音色序列，所述至少一个原始训练角色对应的音色序列包括所述至少一个原始训练角色的音色元素；

所述替换单元，还用于将所述目标角色对应的音色序列替换所述至少一个原始训练角色对应的音色序列；

所述解码单元，还用于将所述至少一个第三语音数据的内容和所述目标角色对应的音色序列进行合成和解码，得到所述目标角色输出的至少一个第四语音数据，以训练所述目标角色的音色转换模型。

在又一种可能的实现中，所述装置还包括：

预处理单元，用于对所述至少一个第三语音数据进行预处理操作，所述预处理操作包括以下至少一个操作：

去除所述至少一个第三语音数据中的静音部分；

对所述至少一个第三语音数据中的非静音部分进行重采样；

第三方面，提供了音色转换装置，包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器执行所述程序指令以实现如第一方面或第一方面的任一个实现所述的方法。

第四方面，提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如第一方面或第一方面的任一个实现所述的方法。

采用本申请的音色转换的方案，具有如下有益效果：

可以接收音色转换指令，将用户输入的声音转换为用户希望的任意的目标角色的声音，满足不同用户的音色转换需求；且可以通过多个角色的语音数据，对音色转换模型进行有效地训练，使得在使用该音色转换模型进行音色转换时可以获得稳定的音色转换效果；

该音色转换模型是经过深度神经网络训练不同的声音获得的，基于该音色转换模型进行声音合成，获得音频输出，可以获得稳定的音色转换效果。用户可以使用该技术进行音色转换，让喜欢的目标角色复述用户的声音，提高了用户体验。

附图说明

图1为本公开实施例提供的一种音色转换方法的流程示意图；

图2为本公开实施例提供的又一种音色转换方法的流程示意图；

图3为音色转换模型示意图；

图4为音色转换应用场景示意图；

图5为本公开实施例提供的一种音色转换装置的结构示意图；

图6为本公开实施例提供的又一种音色转换装置的结构示意图。

具体实施方式

下面结合附图对本公开的实施例进行详细的描述：

本公开实施例中的术语“多个”是指两个或两个以上，鉴于此，本公开实施例中也可以将“多个”理解为“至少两个”。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本公开实施例中的术语“第一”、“第二”、“第三”、“第四”等仅用于区分不同的对象，并没有先后顺序关系。

请参阅图1，为本公开实施例提供的一种音色转换方法的流程示意图，示例性地，该方法可包括：

S101、接收音色转换指令。

用户想要进行音色转换时，可以向音色转换装置发送音色转换指令。该音色转换指令用于指示进行音色转换。音色转换是一种将源发声个体的声音转变为目标发声个体的声音的方式，其中，目标发声个体和源发声个体是不同的个体。在听感上，音色转换后的声音和目标发声个体的原始声音是相似或者相同的。例如，通过音色转换将低沉的男声转变为清亮的女声后，这个处理后的声音听起来与真实的清亮女声是相似或者相同的。

该音色转换指令包括原始角色输出的第一语音数据。可以理解的是，原始角色输出的第一语音数据可以是用户自己发出的声音，也可以是用户获取的其他发声个体发出的声音。

该音色转换指令还可以包括目标角色的音色转换模型标识。在一个实现中，音色转换模型训练好后，可以将多个音色转换模型通过界面展示给用户，用户可以通过界面选取目标角色的音色模型，操作系统获取该目标角色的音色转换模型标识。一次可以选取一个或多个目标角色的音色模型。在又一个实现中，事先获取了目标角色的音色转换模型标识，可以在该音色转换指令中携带该目标角色的音色转换模型标识。

S102、加载目标角色的音色转换模型标识对应的音色转换模型。

音色转换装置中存储了多个训练好的音色转换模型。音色转换模型由所述目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到。根据音色转换指令，加载该音色转换指令携带的目标角色的音色转换模型标识对应的音色转换模型。示例性地，音色转换指令可以具体携带目标角色的标识，由于不同角色对应不同的音色转换模型，因此可以认为目标角色的标识等同于音色转换模型标识，均用于确定该音色转换模型。音色转换模型可以在保持原始角色的第一语音数据的内容基础上，将原始角色的音色替换为目标角色的音色。

S103、根据音色转换指令，通过目标角色的音色转换模型将原始角色输出的第一语音数据转换为目标角色输出的第二语音数据。

将音色转换指令携带的原始角色输出的第一语音数据输入到目标角色的音色模型，该目标角色的音色转换模型可以将原始角色输出的第一语音数据转换为目标角色输出的第二语音数据。音色转换前后，虽然声音表述的文字内容是相同的，但听起来是不同角色说出来的。例如，用户希望将自己的声音转换为角色A的声音，那么用户在任意说出一段话之后，即为用户audio。经过音色转换模型转换，得到了目标语音，那么这个目标语音就是通过角色A复述用户audio之后的声音。在听感上，目标语音的表述内容和用户audio是相同的，但是听起来是角色A说的，而不是用户说的。

具体地，目标角色的音色转换模型包括编码网络和解码网络。首先，根据音色转换指令，采用音色转换模型的编码网络对原始角色输出的第一语音数据进行编码，得到第一语音数据的内容和原始角色对应的音色序列，该原始角色对应的音色序列包括原色角色的至少一个音色元素。即通过编码网络分别提取出第一语音数据的内容和原始角色对应的音色序列。该音色序列具有固定的长度。该音色序列包括多个元素，每个元素对应原始角色的音色信息，该元素称为音色元素。音色是声音的属性之一，包括响度、音调、音色等。该音色序列具有固定的音色元素格式，因此，音色转换模型的编码网络可以根据该序列所要求的音色元素格式，提取原始角色输出的第一语音数据中的音色元素，获得该原始角色对应的音色序列。音色转换装置缓存第一语音数据的内容，输出原始角色对应的音色序列。

然后，采用目标角色对应的音色序列替换原始角色对应的音色序列。本实施例中，是通过目标角色的音色转换模型对第一语音数据进行编码，目标角色的音色转换模型中包括目标角色对应的音色序列。目标角色对应的音色序列包括目标角色的至少一个音色元素。目标角色对应的音色序列与原始角色对应的音色序列不同，具体地，目标角色对应的音色序列包括的音色元素和原始角色对应的音色序列包括的音色元素不同。为实现对原始角色输出的第一语音数据进行音色转换，采用目标角色对应的音色序列替换编码网络输出的原始角色对应的音色序列。

再然后，音色转换模型的解码网络将音色转换装置缓存的第一语音数据的内容和目标角色对应的音色序列进行合成，对合成后得到的数据进行解码，得到目标角色输出的第二语音数据。该第二语音数据表述的内容与第一语音数据相同，但是目标角色输出的语音数据，从听感上与目标角色输出的原始音色相同或相似，因此，听起来是目标角色复述了原始角色的语音数据。

根据本公开实施例提供的一种音色转换方法，可以接收音色转换指令，将用户输入的声音转换为用户希望的任意的目标角色的声音，满足不同用户的音色转换需求。

请参阅图2，为本公开实施例提供的又一种声音音色转换方法的流程示意图，示例性地，该方法可包括：

S201、对至少一个原始训练角色输出的至少一个第三语音数据进行预处理操作。

下面通过步骤S201～S205描述对目标角色的音色转换模型进行训练。

首先，获取一定数量的原始训练角色输出的第三语音数据。这些角色输出的第三语音数据用于某一个目标角色的音色转换模型的训练，因此，输出多个第三语音数据的这些角色称为原始训练角色。

其中，在获得多个训练角色的语音数据后，可以选取多个训练角色中的任一个角色为目标角色，其它角色作为原始训练角色。其它角色输出的语音数据可以为该目标角色的音色转换模型的输入。

其中，每份第三语音数据的格式、大小、数量不限。其格式可以是mp3、flac、wav、ogg格式等。按照一定的比例，对获得的多份语音数据进行随机抽样，分别归为训练数据集、验证数据集和测试数据集。例如，假设有1000份语音数据，按照0.8:0.1:0.1的比例，抽取800份语音数据作为该音色转换模型的训练数据集，100份语音数据作为该音色转换模型的验证数据集，100份语音数据作为该音色转换模型的测试数据集。一般需要大量的原始训练数据来训练一个音色转换模型，因此，一个音色转换模型的训练需要一定的时间。例如，需要24个小时才能完成该音色转换模型的训练。在训练过程中，可以边训练边验证。采用上述验证数据集对音色转换模型的训练效果进行验证。在训练好音色转换模型后，还可以采用上述测试数据集对音色转换模型进行测试。

在对音色转换模型进行训练前，可以通过对上述获取的至少一个原始训练角色输出的至少一个第三语音数据进行预处理，剔除无效语音部分，对有效部分进行数据增强获得模型的输入。

其中，所述预处理操作包括以下至少一个操作：

去除至少一个第三语音数据中的静音部分；

对至少一个第三语音数据中的非静音部分进行重采样；

对重采样后的至少一个第三语音数据在时域上反相和/或逆序。

具体地，遍历每一份第三语音数据，通过读取第三语音数据，去掉第三语音数据内的静音部分，保留非静音部分。这种处理可以避免无效的静音干扰，提高数据利用率。还可以对非静音部分进行重采样，采样率阈值可以为16kHz，包括但不限于该值。还可以对重采样数据进行数据增强，做法是将该数据在时域上反相和逆序，分别得到波形符号相反的数据和时间上逆序播放的语音数据。这种处理可以在原始数据量不变的情况下获得更高的模型性能。

对上述获取的至少一个第三语音数据进行预处理后，还可以对每一个第三语音数据进行mu-law方式的音频压缩，这种处理可以改善信噪比率而不需要增添更多的数据。将通过这些处理后的第三语音数据进行保存，保存格式可以为H5文件格式，也可以为其它格式。

S202、将预处理后的至少一个第三语音数据输入到目标角色的音色转换模型。

本实施例通过神经网络模型实现声音音色转换，该模型可以称为音色转换模型。该音色转换模型可以是wavenet模型。wavenet是一个用于生成原始音频的深度神经网络，相比于目前其它的语音合成方法，wavenet生成的语音在听感上更加自然，也更像人类语音。

对于任一个目标角色，创建该目标角色的音色转换模型。可以将上述预处理后的至少一个第三语音数据输入到目标角色的音色转换模型，以通过大量的语音数据来训练该目标角色的音色转换模型。

S203、将至少一个第三语音数据进行编码，得到至少一个第三语音数据的内容和至少一个原始训练角色对应的音色序列，该至少一个原始训练角色对应的音色序列包括至少一个原始训练角色的音色元素。

该音色转换模型包括编码网络和解码网络。具体地，该音色转换模型可以是基于wavenet的深度神经网络模型。其中，wavenet是一种特殊结构的1维卷积层，它结合了因果卷积和空洞卷积的方法，让感受野随着模型层数的增大而成倍的增大。通过使用基于wavenet的编码网络，提取每个第三语音数据的内容和获得原始训练角色对应的音色序列。该编码网络由空洞卷积、非线性单元和1x1的卷积结构共三个单元构成。该三个单元中的每个单元包括N个残差层，N可以为任意值，例如N＝14。每个残差层又包含一个随着内核(kernel)尺寸增大而增大的空洞卷积、非线性单元RELU和1x1的卷积结构。采用该编码网络可以实现将上述输入的多个角色的语音数据进行编码，分别得到各个角色对应的序列。该音色序列具有固定的长度。该音色序列包括多个元素，每个元素对应原始训练角色的音色信息，该元素称为音色元素。音色是声音的属性之一，包括响度、音调、音色等。该音色序列具有固定的音色元素格式，因此，音色转换模型的编码网络可以根据该序列所要求的音色元素格式，提取原始训练角色输出的第三语音数据中的音色元素，获得该原始训练角色对应的音色序列。音色转换装置缓存第三语音数据的内容，输出原始训练角色对应的音色序列。

示例性地，如图3所示的音色转换模型，多个原始训练角色(角色1～角色M)输出的第三语音数据输入到目标角色的音色转换模型。该音色转换模型主要包括编码网络和解码网络。将多个原始训练角色输出的第三语音数据进行编码，得到第三语音数据的内容和各个原始训练角色对应的音色序列。该音色序列在图中示例为多个小的矩形方块，每个矩形方块对应序列的一个音色元素。

S204、将目标角色对应的音色序列替换至少一个原始训练角色对应的音色序列。

创建的目标角色的音色转换模型包括目标角色对应的音色序列。为实现将各个原始训练角色输出的第三语音数据转换为目标角色输出的第四语音数据，可以采用目标角色对应的音色序列替换原始训练角色对应的音色序列。目标角色对应的音色序列包括目标角色的至少一个音色元素。目标角色对应的音色序列与原始训练角色对应的音色序列不同，具体地，目标角色对应的音色序列包括的音色元素和原始训练角色对应的音色序列包括的音色元素不同。为实现对原始训练角色输出的第三语音数据进行音色转换，采用目标角色对应的音色序列替换编码网络输出的原始训练角色对应的音色序列。

S205、将至少一个第三语音数据的内容和目标角色对应的音色序列进行合成和解码，得到目标角色输出的至少一个第四语音数据，以训练目标角色的音色转换模型。

基于wavenet的解码网络将音色转换装置缓存的第三语音数据的内容和目标角色对应的音色序列进行合成，对合成后得到的数据进行解码，得到目标角色输出的第四语音数据。该第四语音数据表述的内容与第三语音数据相同，但是目标角色输出的语音数据，从听感上与目标角色输出的原始音色相同或相似，因此，听起来是目标角色复述了原始训练角色的语音数据。

其中，编码网络的输出是解码网络的输入。解码网络是一种全卷积网络，该全卷积网络的每块单元包括K个残差层。这里的K可以为10，包括但不限于该值。

该音色转换模型的训练过程实际上是音色转换模型的模型参数的训练。该模型参数包括以下至少一个参数：训练轮数epoch、每一轮训练的取样次数num、取样大小batchsize、取样音频长度len、学习率rate、编码序列长度S等。这些参数一般常用的设置有：epoch＝200；num＝500；batchsize＝32；len＝16000；rate＝0.001；S＝128，包括但不限于这些值。

如前所述，一般需要大量的原始训练数据来训练一个音色转换模型，因此，一个音色转换模型的训练需要一定的时间。例如，需要24个小时才能完成该音色转换模型的训练。在训练过程中，可以边训练边验证。采用上述验证数据集对音色转换模型的训练效果进行验证。在训练好音色转换模型后，还可以采用上述测试数据集对音色转换模型进行测试。上述训练过程可以分为多轮，例如分为6轮，每4小时为一轮训练。每一轮训练都会获得该轮的训练集损失和验证集损失。训练集损失是指该轮训练过程中使用的原始训练数据自身评估其训练效果。验证集损失是指采用验证集数据对每一轮训练出的模型进行效果评估。当训练集损失值和验证集损失值不断减少并趋于稳定时即可停止训练。如果某一轮训练完成后，训练集损失值和验证集损失值突然升高，则需要调整音色转换模型的模型参数，重新进行训练。

多次执行步骤S202～S205以分别将多个训练角色中每个角色作为目标角色进行模型训练，便可以得到与输入角色个数相同的音色转换模型。

S206、接收音色转换指令。

在训练好音色转换模型后，可以利用该音色转换模型进行不同角色之间的音色转换。该步骤的具体实现可参考图1所示实施例的步骤S101。

S207、加载目标角色的音色转换模型标识对应的音色转换模型。

该步骤的具体实现可参考图1所示实施例的步骤S102。

如图4所示的音色转换应用场景示意图，角色A为原始角色，角色B为目标角色，角色A希望将自己的语音数据转换为角色B的语音数据，即希望通过角色B复述自己的语音数据。例如，角色A发出“你好！”的声音，将角色A输出的声音输入到角色B的音色转换模型，该音色转换模型输出的声音为角色B的声音，听起来就像是角色B用自己的音色复述了角色A所说的话。

S208、根据音色转换指令，通过目标角色的音色转换模型将原始角色输出的第一语音数据转换为目标角色输出的第二语音数据。

该步骤的具体实现可参考图1所示实施例的步骤S102。

根据本公开实施例提供的一种声音音色转换方法，可以接收音色转换指令，将用户输入的声音转换为用户希望的任意的目标角色的声音，满足不同用户的音色转换需求；且可以通过多个角色的语音数据，对音色转换模型进行有效地训练，使得在使用该音色转换模型进行音色转换时可以获得稳定的音色转换效果；该音色转换模型是经过深度神经网络训练不同的声音获得的，基于该音色转换模型进行声音合成，获得音频输出，可以获得稳定的音色转换效果。用户可以使用该技术进行音色转换，让喜欢的目标角色复述用户的声音，提高了用户体验。

基于上述方法的同一构思，如图5所示，还提供了一种音色转换装置1000，该装置1000包括：接收单元11、加载单元12和转换单元13；还可以包括编码单元14、替换单元15、解码单元16、输入单元17和预处理单元18；其中：

接收单元11，用于接收音色转换指令，所述音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识；

加载单元12，用于加载所述目标角色的音色转换模型标识对应的音色转换模型，音色转换模型由所述目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到；

转换单元13，用于根据所述音色转换指令，通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据。

编码单元14，用于根据所述音色转换指令，采用所述音色转换模型的编码网络对所述原始角色输出的第一语音数据进行编码，得到所述第一语音数据的内容和所述原始角色对应的音色序列，所述原始角色对应的音色序列包括所述原色角色的至少一个音色元素；

替换单元15，用于采用所述目标角色对应的音色序列替换所述原始角色对应的音色序列，所述目标角色对应的音色序列包括所述目标角色的至少一个音色元素；

解码单元16，用于所述音色转换模型的解码网络将所述第一语音数据的内容和所述目标角色对应的音色序列进行合成和解码，得到所述目标角色输出的第二语音数据。

在又一种可能的实现中，所述装置还包括：

输入单元17，用于输入至少一个原始训练角色输出的至少一个第三语音数据到所述目标角色的音色转换模型；

所述编码单元14，还用于将所述至少一个第三语音数据进行编码，得到所述至少一个第三语音数据的内容和所述至少一个原始训练角色对应的音色序列，所述至少一个原始训练角色对应的音色序列包括所述至少一个原始训练角色的音色元素；

所述替换单元15，还用于将所述目标角色对应的音色序列替换所述至少一个原始训练角色对应的音色序列；

所述解码单元16，还用于将所述至少一个第三语音数据的内容和所述目标角色对应的音色序列进行合成和解码，得到所述目标角色输出的至少一个第四语音数据，以训练所述目标角色的音色转换模型。

在又一种可能的实现中，所述装置还包括：

预处理单元18，用于对所述至少一个第三语音数据进行预处理操作，所述预处理操作包括以下至少一个操作：

去除所述至少一个第三语音数据中的静音部分；

对所述至少一个第三语音数据中的非静音部分进行重采样；

有关上述各单元的具体实现可参考图1～图4所示方法实施例的描述。

根据本公开实施例提供的一种音色转换装置，可以接收音色转换指令，将用户输入的声音转换为用户希望的任意的目标角色的声音，满足不同用户的音色转换需求；且可以通过多个角色的语音数据，对音色转换模型进行有效地训练，使得在使用该音色转换模型进行音色转换时可以获得稳定的音色转换效果；该音色转换模型是经过深度神经网络训练不同的声音获得的，基于该音色转换模型进行声音合成，获得音频输出，可以获得稳定的音色转换效果。用户可以使用该技术进行音色转换，让喜欢的目标角色复述用户的声音，提高了用户体验。

图6是本公开实施例提供的又一种音色转换装置的结构示意图。在一个实施例中，该音色转换装置可以对应于上述图1～图4所对应实施例中。如图6所示，该音色转换装置可以包括：处理器，网络接口和存储器，此外，上述音色转换装置还可以包括：用户接口，和至少一个通信总线。其中，通信总线用于实现这些组件之间的连接通信。其中，用户接口可以包括显示屏(display)、键盘(keyboard)，可选地，用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器可选的还可以是至少一个位于远离前述处理器的存储装置。如图6所示，作为一种计算机可读存储介质的存储器中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图6所示的音色转换装置中，网络接口可提供网络通讯功能；而用户接口主要用于为用户提供输入的接口；而处理器可以用于调用存储器中存储的设备控制应用程序，以实现上述图1～图4任一个所对应实施例中对音色转换方法的描述，这里不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

应当理解，本公开实施例中所描述的音色转换装置可执行前文图1～图4任一个所对应实施例中对音色转换方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本公开实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的音色转换装置1000所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图1～图4任一个所对应实施例中对音色转换方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本公开所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本公开方法实施例的描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory，ROM)，或随机存储存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

Claims

1.一种音色转换方法，其特征在于，所述方法包括：

输入至少一个原始训练角色输出的至少一个第三语音数据到所述目标角色的音色转换模型，所述音色转换模型是基于wavenet的深度神经网络模型；

将所述至少一个第三语音数据的内容和所述目标角色对应的音色序列进行合成和解码，得到所述目标角色输出的至少一个第四语音数据，以训练所述目标角色的音色转换模型；

2.根据权利要求1所述的方法，其特征在于，所述音色转换模型包括编码网络和解码网络，所述根据所述音色转换指令，通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

去除所述至少一个第三语音数据中的静音部分；

对所述至少一个第三语音数据中的非静音部分进行重采样；

4.根据权利要求2所述的方法，其特征在于，训练所述音色转换模型包括训练所述音色转换模型的以下至少一个参数：训练轮数，每一轮训练的取样次数，取样大小，取样音频长度，学习率，编码序列长度。

5.一种音色转换装置，其特征在于，所述装置包括：

所述解码单元，还用于将所述至少一个第三语音数据的内容和所述目标角色对应的音色序列进行合成和解码，得到所述目标角色输出的至少一个第四语音数据，以训练所述目标角色的音色转换模型；

6.根据权利要求5所述的装置，其特征在于，所述音色转换模型包括编码网络和解码网络，所述转换单元包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

去除所述至少一个第三语音数据中的静音部分；

对所述至少一个第三语音数据中的非静音部分进行重采样；

8.根据权利要求7所述的装置，其特征在于，训练所述音色转换模型包括训练所述音色转换模型的以下至少一个参数：训练轮数，每一轮训练的取样次数，取样大小，取样音频长度，学习率，编码序列长度。