CN112687262A

CN112687262A - 语音转换方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN112687262A
Application number: CN201910989983.9A
Authority: CN
Inventors: 刘若澜; 陈萧
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2021-04-20

Abstract

本申请实施例提供了一种语音转换方法、装置、电子设备及计算机可读存储介质，涉及信号处理技术领域。该方法包括：获取待转换的源语音；基于预设的训练后的transformer转换网络对源语音进行转换，得到目标转换语音；目标转换语音的语音内容与源语音的语音内容相同。本申请实施例提供的transformer转换网络更容易的学习长时依赖，使得转换后句子整体的韵律合适，输入的目标转换语音更自然。

Description

语音转换方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及信号处理技术领域，具体而言，本申请涉及一种语音转换方法、装置、电子设备及计算机可读存储介质。

背景技术

随着科学技术的发展，多种即时通信软件可以首先录制用户的语音信息，然后将录制的语音信息转换为音色各异的语音，并将转换得到的语音发送给其他用户，从而提高用户之前交流的趣味性。

现有技术中对语音进行转换时，通常采用RNN模型(Recurrent Neural Network，循环神经网络)对输入的语音进行编码再解码，得到输出的目标语音，使用传统的RNN进行编码和解码很难解决长时依赖问题，容易影响转换后句子整体的韵律，导致输出的转换后的语音不自然。

发明内容

本申请提供了一种语音转换方法、装置、电子设备及计算机可读存储介质，用于解决在将智能聊天机器人应用于与用户进行交互时，如何更为准确地输出答复信息，该技术方案如下所示：

第一方面，提供了一种语音转换方法，该方法包括：

获取待转换的源语音；

基于transformer转换网络对源语音进行转换，得到目标转换语音；目标转换语音的语音内容与源语音的语音内容相同。

第二方面，提供了一种语音转换装置，该装置包括：

获取模块，用于获取待转换的源语音；

转换模块，用于基于transformer转换网络对源语音进行转换，得到目标转换语音；所述目标转换语音的语音内容与所述源语音的语音内容相同。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面所示的语音转换方法所对应的操作。

第四方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面所示的语音转换方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种语音转换方法、装置、电子设备及计算机可读存储介质，与现有技术相比，本申请采用transformer转换网络对源语音进行转换，得到目标转换语音，transformer转换网络完全基于自注意力机制，从而更容易的学习长时依赖，使得转换后句子整体的韵律合适，输入的目标转换语音更自然；此外，transformer转换网络中不含有循环网络，在训练过程中可以并行计算，从而提高对transformer转换网络的训练速度，节省训练时间。

进一步的，将transformer转换网络的解码结构中的多头自注意力子网络更换为单头自注意力子网络，可以进一步提高对transformer转换网络的训练速度，节省训练时间。

进一步的，通过设置预处理网络，对源语音特征进行数值范围的调整，可以适应第一位置编码从而与第一位置编码进行相加，还可以对源语音特征进行维度变换，从而使源语音特征的维度和transformer转换网络内部的维度保持一致。

进一步的，相对于传统的transformer网络，解码后的源语音特征无需再输入到softmax层进行分类，可以进一步提高语音转换的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为一种关于语音转换的场景示意图；

图2a为现有技术中的RNN转换网络结构示意图；

图2b为现有技术中的训练过程中的RNN转换网络结构示意图；

图3为本申请实施例提供的一种语音转换方法流程示意图；

图4为本申请实施例提供的一种transformer转换网络的结构示意图；

图5为本申请实施例提供的一种transformer转换网络的结构示意图；

图6为本申请实施例提供的一种语音转换方法流程示意图；

图7为本申请实施例提供的一种transformer转换网络的结构示意图；

图8为本申请实施例提供的一种transformer转换网络的结构示意图；

图9为本申请实施例提供的一种transformer转换网络对源语音特征进行编码解码的流程示意图；

图10为本申请实施例提供的一种transformer转换网络的结构示意图；

图11为本申请实施例提供的一种语音转换方法流程示意图；

图12a为本申请实施例提供的一种预训练网络的结构示意图；

图12b为本申请实施例提供的一种预训练网络的结构示意图；

图13为一个示例中对初始转换网络进行两次训练的流程示意图；

图14为本申请实施例提供的一种语音转换装置结构示意图；

图15为本申请实施例提供的一种语音转换装置结构示意图；

图16为本申请实施例提供的一种语音转换装置结构示意图；

图17为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

如图1所示，需要将源说话人语音转换为目标说话人语音时，接收到源说话人语音，可以先对源说话人语音进行分析，提取源说话人语音特征，源说话人语音特征可以包括源说话人梅尔谱(Mel-spectrogram)；将源说话人梅尔谱输入转换网络进行转换，输出转换得到的转换梅尔谱，再采用声音合成设备，如声码器对转换梅尔谱进行合成，得到转换语音，该转换语音是源说话语音以目标说话人语音为转换目标进行转换得到的。

其中，梅尔谱是模拟人耳对高频信号的抑制，对语音的线性谱进行处理得到的低维特征，强调低频部分，弱化高频部分所得到的语音特征。

现有技术中，对于图1中的转换网络，通常采用RNN网络，根据RNN网络对输入的语音进行编码再解码，得到输出的转换语音。如图2a所示，现有技术中采用的转换网络为RNN转换网络，该RNN转换网络包括基于RNN的编码器和解码结构，解码结构包括基于RNN的解码器和注意力机制。从源说话人语音中提取源说话人梅尔谱，将源说话人梅尔谱输入基于RNN的编码器，对源说话人梅尔谱进行编码；再将编码后的源说话人梅尔谱输入解码结构，解码结构已预先接收或预存有真实的目标说话人的目标说话人梅尔谱，这里的目标说话人梅尔谱对应的语音内容可以是随机的，也可以是预设的，并不一定与源说话人梅尔谱对应的语音内容相同；解码结构对编码后的源说话人梅尔谱进行解码，并采用后处理网络进行处理，得到转换后目标人梅尔谱。

如图2b所示，对图2a中的RNN转换网络进行训练时，将与源说话人对应的源样本特征X输入基于RNN的编码器进行编码，将编码后的源样本特征X输入基于RNN的解码结构，并将与目标说话人梅尔谱对应的目标样本特征Y输入基于RNN的解码结构，目标样本特征Y对应的语音内容和源样本特征X对应的语音内容相同；训练过程中该RNN转换网络增加了两个上下文保留机制和引导注意力机制，一个上下文保留机制包括基于RNN的源解码器，该基于RNN的源解码器用于对编码后的源样本特征进行重建，得到重建源特征

另一个上下文保留机制包括基于RNN的目标解码器，该基于RNN的目标解码器用于对解码后对目标样本特征进行重建，得到重建目标特征

根据重建源特征

重建目标特征

源样本特征X、目标样本特征Y、得到的转换特征

和引导注意力机制的对齐矩阵计算总损失，根据总损失调整RNN转换网络的参数，得到训练后的RNN转换网络。

采用上述RNN转换网络进行语音转换，存在很多不足：

1)现有技术中采用RNN转换网络，RNN转换网络中包括循环网络，使用传统的RNN进行编码和解码很难解决长时依赖问题，容易影响转换后句子整体的韵律，导致输出的转换后的语音不自然；

2)RNN转换网络中包括自回归结构，在对RNN转换网络进行训练时，自回归结构使得迭代速度慢，训练时间长，训练效率低。

针对现有技术中所存在的上述至少一个技术问题或者需要改善的地方，本申请实施例提供了一种语音转换方法、装置、电子设备及计算机可读存储介质，本申请的transformer转换网络完全基于自注意力机制，从而更容易的学习长时依赖，使得转换后句子整体的韵律合适，输入的目标转换语音更自然；此外，transformer转换网络不含有循环网络，在训练过程中可以并行计算，从而提高对transformer转换网络的训练速度，节省训练时间提高图像的处理效果，更好的满足实际应用需求。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例中提供了一种可能的实现方式，如图3所示，提供了一种语音转换方法，可以包括以下步骤：

步骤S301，获取待转换的源语音；

步骤S302，基于transformer转换网络对源语音进行转换，得到目标转换语音；目标转换语音的语音内容与源语音的语音内容相同。

其中，目标转换语音是源语音以转换目标用户的目标语音为转换目标，所转换得到的语音，并不是真实的目标语音。

具体的，对源语音进行转换，是指对源用户的源语音的音色、韵律、源用户的发音习惯、语调、语速等等进行转换，使得转换后得到的目标转换语音像是由转换目标用户直接发出的。transformer转换网络对源语音特征进行转换时，并没有改变对应的语音内容，目标转换语音的语音内容与源语音的语音内容相同。

例如，源用户输入语音“你认为最近哪部电影比较好看”到transformer转换网络，transformer转换网络输出的是模拟转换目标用户的语音“你认为最近哪部电影比较好看”，所输出的语音具有转换目标用户的音色、韵律、源用户的讲话方式、语速等等，犹如是转换目标用户发出的语音。

具体的，可以接收源用户输入的源语音，提取源语音的源语音特征，源语音特征可以包括源语音梅尔谱，将源语音特征输入训练后的transformer转换网络进行转换，得到目标转换语音特征，即目标转换语音梅尔谱，再将目标转换语音特征进行合成，得到目标转换语音。

如图4所示，图4为transformer转换网络的结构示意图，transformer转换网络包括编码结构和解码结构，编码结构包括预设个数的编码网络，解码结构包括相同的预设个数的解码网络，图4中只具体示出1个编码网络和1个解码网络，实际应用中可以包括6个编码网络和6个解码网络，图中以“×6”表示编码网络和解码网络的个数均为6。

其中，每一编码网络可以包括多头自注意力子网络和前馈网络；每一解码网络可以包括依次级联的掩模(masked)多头自注意力子网络、多头自注意力子网络和前馈网络

在具体实施过程中，解码结构可以预先接收预设的目标初始特征，目标初始特征为转换目标用户的真实的目标语音的特征，目标初始特征对应的语音内容可以是随机的，也可以是预设的；在将源语音特征输入到编码结构之前，可以将源语音特征和预置的第一位置编码进行相加；目标初始特征在输入到解码结构之前，可以和预设的第二位置编码相加；解码结构基于目标初始特征和编码后的源语音特征，输出目标转换语音特征，再将目标转换语音特征进行合成，得到目标转换语音。

上述实施例中，采用ransformer转换网络对源语音进行转换，得到目标转换语音，transformer转换网络完全基于自注意力机制，从而更容易的学习长时依赖，使得转换后句子整体的韵律合适，输入的目标转换语音更自然。

本申请实施例的一种可能的实现方式，transformer转换网络的解码结构包括预设个数的解码网络；每一解码网络可以包括依次级联的掩模多头自注意力子网络、单头自注意力子网络和前馈网络。

如图5所示，图5中的transformer转换网络将图4中的transformer转换网络的解码结构进行改进，将解码结构的多头自注意力子网络改为单头注意力子网络501，可以更方便的使用引导注意力机制，减少transformer转换网络的训练时间，进一步提高transformer转换网络的训练效率。

本申请实施例的一种可能的实现方式，如图6所示，步骤S302基于transformer转换网络对源语音进行转换，得到目标转换语音，可以包括：

步骤S210，提取源语音的源语音特征，基于transformer转换网络的编码结构对源语音特征进行编码。

具体的，源语音特征可以是源语音的梅尔谱，可以采用librosa工具提取语音的梅尔谱，其中，librosa工具是一种用于时频处理、特征提取、绘制声音图形等的的python(跨平台的计算机程序设计语言)工具包，也可以采用其他方式提取语音的梅尔谱，提取源语音特征的方式在此不作限制。

步骤S220，基于预设的目标初始特征和transformer转换网络的解码结构对编码后的源语音特征进行解码，得到目标转换语音特征。

在具体实施过程中，解码结构可以预先接收目标初始特征；将源语音特征和预设的第一位置编码相加后，输入编码结构进行编码；解码结构基于目标初始特征和源语音特征，对源语音特征进行解码，得到目标转换语音特征。

具体的解码结构对源语音解码的过程，将在下文进行进一步详细阐述。

步骤S230，根据目标转换语音特征生成目标转换语音。

具体的，可以采用语音分析合成设备根据目标转换语音特征生成目标转换语音，例如，可以使用声码器，具体生成目标转换语音的方式在此不作限制。

本申请实施例的一种可能的实现方式，如图7所示，transformer转换网络还可以包括预处理网络，该预处理网络包括至少一层线性层，步骤S210的基于所述transformer转换网络的编码结构对源语音特征进行编码之前，还可以包括：

(1)将源语音特征输入至少一层线性层进行预处理，以执行对源语音特征进行维度变换并适应预设的第一位置编码；

(2)将预处理后的源语音特征加上第一位置编码，并输入编码结构。

图7中的解码网络中的单头自注意力子网络也可以更换为多头自注意力子网络，但采用单头自注意力子网络可以更方便的使用引导注意力机制，减少transformer转换网络的训练时间，进一步提高transformer转换网络的训练效率。

图7中示出了一层线性层，采用至少一层线性层对源语音特征进行预处理，可以调整源语音特征的数值范围，使得源语音特征的数值范围可以适应第一位置编码，从而与第一位置编码相加。

其中，第一位置编码可以采用三角位置编码(triangle positionalembeddings)，也可以采用其他位置编码，在此不作具体限制。

此外，transformer转换网络内部包括残差相加的结构，通过至少一层线性层对源语音特征进行维度变换，可以使源语音特征的维度和transformer内部的维度保持一致，从而能被transformer转换网络进行编码和解码处理。

上述实施例中，通过设置预处理网络，对源语音特征进行数值范围的调整，可以适应第一位置编码从而与第一位置编码进行相加，还可以对源语音特征进行维度变换，从而使源语音特征的维度和transformer转换网络内部的维度保持一致。

本申请实施例的一种可能的实现方式，如图8所示，transformer转换网络还可以包括后处理网络，该后处理网络包括至少一层线性层，步骤S203的基于预设的目标初始特征和transformer转换网络的解码结构对编码后的源语音特征进行解码，得到目标转换语音特征，可以包括：

(1)将编码后的源语音特征输入解码结构进行解码，得到解码后的源语音特征；

(2)将解码后的源语音特征输入至少一层线性层进行处理，得到目标转换语音特征。

图8中的解码网络中的单头自注意力子网络也可以更换为多头自注意力子网络，但采用单头自注意力子网络可以更方便的使用引导注意力机制，减少transformer转换网络的训练时间，进一步提高transformer转换网络的训练效率。

上述实施例中，解码结构对编码后的源语音特征进行解码后，得到解码后的源语音特征，可以将解码后的源语音特征输入至少一层线性层中进行维度转换，以得到更便于进行合成处理的目标转换语音特征。

此外，相对于传统的transformer网络，本申请的transformer转换网络解码后的源语音特征无需再输入到softmax层进行分类，可以进一步提高语音转换的效率。

以下将结合实施例进一步详细阐述解码网络对源语音解码的过程。

本申请实施例的一种可能的实现方式，步骤S220的基于预设的目标初始特征和所述transformer转换网络的解码结构对编码后的源语音特征进行解码，可以包括：

(1)将编码后的源语音特征输入解码结构。

具体的，源语音特征包括多个帧的源语音特征。

(2)将预设的目标初始特征输入解码结构，得到当前帧目标转换语音特征。

在具体实施过程中，解码结构可以预先接收有目标初始特征，目标初始特征为转换目标用户的真实的目标语音的特征，目标初始特征对应的语音内容可以是随机的，也可以是预设的，目标初始特征对应的语音内容并不一定与源语音特征对应的语音内容相同。

具体的，解码结构基于解码后的源语音特征X和目标初始特征Y₀预测得到当前帧目标转换语音特征

(3)将当前帧目标转换语音特征和目标初始特征输入解码结构，得到下一帧目标转换语音特征。

具体的，将目标初始特征Y₀和当前帧目标转换语音特征

一起输入解码结构，得到下一帧目标转换语音特征

(4)将下一帧目标转换语音特征和当前帧目标转换语音特征作为新的当前帧目标转换语音特征，执行将当前帧目标转换语音特征和目标初始特征输入解码结构，得到下一帧目标转换语音特征的步骤。

具体的，将下一帧目标转换语音特征

和当前帧目标转换语音特征

作为新的当前帧目标转换语音特征，执行将当前帧目标转换语音特征和目标初始特征输入解码结构，得到下一帧目标转换语音特征的步骤，即将下一帧目标转换语音特征

当前帧目标转换语音特征

和目标初始特征Y₀输入解码结构，得到目标转换语音特征

重复执行这个步骤预设次数。

如图9所示，将目标初始特征Y₀、第一帧目标转换语音特征

第二帧目标转换语音特征

直至第N-1帧目标转换语音特征

一起输入解码结构，得到目标转换语音特征

依次预测每一帧目标转换语音特征，循环执行预设次数，得到预设帧数的目标转换语音特征。其中，N为大于1的自然数。

(5)基于预设帧数的目标转换语音特征合成目标转换语音特征。

在具体实施过程中，基于预设帧数的目标转换语音特征合成目标转换语音特征，还可以包括：

a、根据解码结构生成源语音特征和目标转换语音特征的对齐矩阵；

b、基于对齐矩阵计算目标转换语音的实际预测帧数；

c、从解码结构输出的预设帧数的目标转换语音特征中，选取实际预测帧数的目标转换语音；

d、根据所选取的实际预测帧数的目标转换语音合成目标转换语音特征。

在具体实施过程中，根据解码结构中的单头自注意力子网络，生成源语音特征和目标转换语音特征的对齐矩阵，基于对齐矩阵计算生成的目标转换语音的时长，即计算目标转换语音特征的实际预测帧数，从解码结构输出的预设帧数的目标转换语音特征中，选取前面的实际预测帧数的目标转换语音特征。

例如，解码结构输出500帧的目标转换语音特征，根据对齐矩阵计算得到实际预测帧数为200帧，则从输出的500帧的目标转换语音特征中，选取前面200帧的目标转换语音特征，删除后面300帧的目标转换语音特征。

具体的，将所选取的实际预测帧数的目标转换语音特征依次整合得到与源语音特征对应的目标转换语音特征，得到的目标转换语音特征对应的语音内容与源语音特征对应的语音内容相同。

上述实施例中，采用自回归的方式，将当前帧目标转换语音特征和目标初始特征输入解码结构，以预测下一帧目标转换语音特征，可以使转换得到的目标转换语音更加贴合真实的目标语音，转换效果更加自然。

本申请实施例的一种可能的实现方式，如图10所示，transformer转换网络还可以包括预处理网络，该预处理网络包括至少一层线性层，步骤S220的基于预设的目标初始特征和transformer转换网络的解码结构对编码后的源语音特征进行解码之前，还可以包括：

(1)将目标初始特征输入至少一层线性层进行预处理，以执行对目标初始特征进行维度变换并适应预设的第二位置编码；

(2)将预处理后的目标初始特征加上第二位置编码，并输入解码结构。

图10中的解码网络中的单头自注意力子网络也可以更换为多头自注意力子网络，但采用单头自注意力子网络可以更方便的使用引导注意力机制，减少transformer转换网络的训练时间，进一步提高transformer转换网络的训练效率。

图10中示出了一层线性层，采用至少一层线性层对目标初始特征进行预处理，可以调整目标初始特征的数值范围，使得目标初始特征的数值范围可以适应第二位置编码，从而与第二位置编码相加。

其中，第二位置编码可以采用三角位置编码(triangle positionalembeddings)，也可以采用其他位置编码，第一位置编码可以和第二位置编码相同，也可以不同，在此不作具体限制。

此外，解码结构内部包括残差相加的结构，通过至少一层线性层对目标初始特征进行维度变换，可以使目标初始特征的维度和解码结构内部的维度保持一致，从而能被解码结构进行解码处理。

需要说明书的是，用于对目标初始特征进行预处理的预处理网络和用于对源语音特征进行预处理的预处理网络的结构可以相同，也可以不同，具体分别根据源语音特征和目标初始特征设置；此外，用于对目标初始特征进行预处理的预处理网络和用于对源语音特征进行预处理的预处理网络包括的线性层的层数可以相同，也可以不同。

上述实施例中，通过设置预处理网络，对目标初始特征进行数值范围的调整，可以适应第二位置编码从而与第二位置编码进行相加，还可以对目标初始特征进行维度变换，从而使目标初始特征的维度和解码结构的维度保持一致。

本申请实施例的一种可能的实现方式，如图11所示，步骤S302的在基于transformer转换网络对源语音进行转换之前，还可以包括：

S300a，获取多个与源语音对应的源样本语音，并获取转换目标用户的多个目标样本语音。

具体的，与源语音对应的源样本语音，是指源语音与源样本语音是同一个源用户的语音；目标样本语音是转换目标用户的语音。

例如，需要将源用户甲的语音转换为转换目标用户乙的语音，则获取甲的多个样本语音作为源样本语音，获取乙的多个样本语音作为目标样本语音。

S300b，基于源样本语音和目标样本语音对预设的预训练网络进行训练，得到transformer转换网络。

在具体实施过程中，每一组用于对预设的预训练网络进行训练的源样本语音和目标样本语音对应的语音内容相同。

例如，分别获取源用户和目标用户的两组语音，第一组语音内容是“你认为最近哪部电影比较好看”，第二组语音内容是“今天是星期一”，将源用户的“你认为最近哪部电影比较好看”的语音和目标用户的“你认为最近哪部电影比较好看”的语音输入预设的预训练网络进行训练，将源用户的“今天是星期一”的语音和目标用户的“今天是星期一”的语音输入预设的预训练网络进行训练。

以下将结合附图和实施例具体阐述基于源样本语音和目标样本语音对预设的预训练网络进行训练的过程。

本申请实施例的一种可能的实现方式，步骤S300b的基于源样本语音和目标样本语音对预设的预训练网络进行训练，得到transformer转换网络，可以包括：

(1)提取源样本语音的源样本特征，提取目标样本语音的目标样本特征；

(2)将源样本特征和目标样本特征输入预训练网络，得到样本转换特征；

(3)基于源样本特征、目标样本特征和样本转换特征计算总损失；

(4)基于总损失调整预训练网络的参数，得到transformer转换网络。

如图12a所示，图12a为预训练网络，预训练网络包括第一上下文保留网络和第二上下文保留网络；第一上下文网络用于对编码后的源样本特征进行重建，得到重建源样本特征；第二上下文保留网络用于对解码后的目标样本特征进行重建，得到重建目标样本特征；重建源样本特征和重建目标样本特征用于计算总损失。

如图12b所示，图12b中示出了图12a中未示出的归一化子网络和残差连接，每一个前馈网络、多头自注意力子网络、单头自注意力子网络和掩模多头自注意力子网络都分别和一个归一化子网络连接，每一个前馈网络、多头自注意力子网络、单头自注意力子网络和掩模多头自注意力子网络周围都分别采用残差连接进行归一化。

可以理解的是，附图4-5、附图7-8和附图10中示出的transformer转换网络中也可以包括图12b中示出的归一化子网络和残差连接，在此不再赘述。

本申请实施例的一种可能的实现方式，基于源样本特征、目标样本特征和样本转换特征计算总损失，可以包括：

a、根据重建源样本特征和源样本特征获取第一上下文损失。

具体的，第一上下文损失为重建源样本特征和源样本特征的1范数。

式中：

为第一上下文损失；

为重建源样本特征；X为源样本特征。

b、根据重建目标样本特征和目标样本特征获取第二上下文损失。

具体的，第二上下文损失为解码网络中各层重建目标样本特征和目标样本特征的1范数的和。

式中：

为第二上下文损失；

为解码网络中第K层重建目标样本特征；Y为目标样本特征。

上式中K、N均为自然数。

c、根据样本转换特征和目标样本特征获取序列损失。

具体的，序列损失为样本转换特征和目标样本特征的1范数。

式中：

为序列损失；

为样本转换特征；Y为目标样本特征。

d、获取预训练网络的解码网络的引导注意力损失。

具体的，引导注意力损失为解码网络中每层对齐矩阵和引导矩阵的1范数的和。

式中：

为引导注意力损失；A_k为解码网络中第k层对齐矩阵；G为引导矩阵；

其中，对于引导矩阵G的第(i,j)个元素定义如下：

式中：g_ij为引导矩阵G的第(i,j)个元素；i为源样本语音的帧数；j为目标样本语音的帧数；σ_g为预设的超参数。

e、基于第一上下文损失、第二上下文损失、引导注意力损失和序列损失，计算总损失。

具体的，上下文保留损失

为第一上下文损失

和第二上下文损失

之和，即

具体的，基于如下公式计算总损失：

式中：λ_ga为预设的引导注意力损失的权重系数；λ_cp为预设的上下文保留损失的权重系数。

本申请实施例的一种可能的实现方式，基于总损失调整预训练网络的参数，得到transformer转换网络，可以包括：

f、基于总损失调整预训练网络的参数，得到训练后的预训练网络。

在具体实施过程中，可以不断调整预训练网络的参数，使得总损失不大于预设阈值；也可以调整训练网络预设次数，具体调整预训练网络的参数的过程在此不作限定。

g、将预训练网络中除第一上下文保留网络和第二上下文保留网络的网络部分，作为transformer转换网络。

具体的，对预训练网络进行训练时，设置第一上下文保留网络和第二上下文保留网络，从而根据第一上下文保留网络和第二上下文保留网络计算上下文保留损失，进而计算总损失，基于总损失调整预训练网络的参数；当对预训练网络训练完成后，可以仅将除第一上下文保留网络和第二上下文保留网络的网络部分，作为transformer转换网络，即得到图10中所示的transformer转换网络。

本申请实施例的一种可能的实现方式，步骤S300b的基于源样本语音和目标样本语音对预设的预训练网络进行训练之前，还可以包括：

(1)确定源样本语音对应的类别，并确定目标样本语音的对应的类别。

(2)基于源样本语音的类别和目标样本语音的类别，确定源样本语音到目标样本语音的转换类别；

(3)从预存的多个预训练网络中，选取属于转换类别的预训练网络。

具体的，用于进行语音转换的终端或服务器中可以预存有多种预训练网络，每一预训练网络可以对应设置有不同的转换类别。

其中，类别可以包括性别或年龄。

以类别为性别为例，用于进行语音转换的终端或服务器中可以预存有属于不同性别转换类别的预训练网络，如属于男声转男声类别的预训练网络、属于男声转女声的预训练网络、属于女声转女声的预训练网络、女声转男声的预训练网络等等。

以类别为年龄为例，用于进行语音转换的终端或服务器中可以预存有属于不同年龄转换类别的预训练网络，如属于4-8岁的童声转20-30岁青年类等等。

还可以将性别和年龄进行结合，例如将4-8岁的男童声转为20-30岁的女青年的声音等等。

在具体实施过程中，预先设置多种不同转换类别的预训练网络，可以预先确定各预训练网络的大致转换能力，然后再基于源样本语音的类别和目标样本语音的类别，确定源样本语音到目标样本语音的转换类别，从多个预训练网络中选取与转换类别对应的预训练网络，基于源样本语音和目标样本语音，对选取的预训练网络进行训练，可以有效提高训练效率，减少训练时间。

例如，源样本语音为女声，目标样本语音为男声，则源样本语音到目标样本语音的转换类别为女声转男声，选取属于女声转男声类别的预训练网络，对选取的预训练网络进行训练，所选取的预训练网络已经具有女声转男声的能力，经过训练，更容易训练得到将源样本语音转为目标样本语音的能力。

本申请实施例的一种可能的实现方式，从预存的多个预训练网络中，选取具有转换类别的预训练网络之前，还包括：

(1)获取多个不同类别的初始源样本语音，每一初始源样本语音属于一种类别；获取多个不同类别的初始目标样本语音，每一初始目标样本语音属于一种类别；每一初始源样本语音的语音内容与每一初始目标样本语音的语音内容相同。

上文中的源样本语音，是同一个源用户的多个样本语音；上文中的目标样本语音，是同一个转换目标用户的多个样本语音。

需要说明的是，这里的初始源样本语音，包括多个样本用户的多个样本语音，例如，可以是10000个用户，每一用户提供一句语音，所有用户提供的每一句初始源样本语音和每一初始目标样本语音的语音内容都相同，即所有的初始源样本语音和所有的初始目标样本语音具有相同的语音内容。

(2)选取属于一个类别的多个初始源样本语音，并选取属于一个类别的多个初始目标样本语音。

具体的，类别可以是性别或年龄，也可以结合性别和年龄。

以类别为性别为例，可以获取10000个男性用户的初始目标样本语音，获取10000个女性用户的初始目标样本语音。

(3)基于选取的初始源样本语音和初始目标样本语音对初始转换网络进行训练，得到预存的预训练网络；预训练网络的转换类型基于所选取的初始源样本语音的类别和所选取的初始目标样本语音的类别确定。

具体的，当初始源样本语音和初始目标样本语音的类别发生变化时，预训练网络的转换类型随之发生变化。

例如，初始源样本语音对应的类别为女声，初始目标样本语音对应的类别也为女声，则训练得到的预训练网络的转换类型为女声转女声；若初始源样本语音对应的类别为女声，初始目标样本语音对应的类别为男声，则训练得到的预训练网络的转换类型为女声转男声。

需要说明的是，初始转换网络的结构和预训练网络的结构类型相同，同样具有第一上下文保留网络和第二上下文保留网络，对初始转换网络进行训练时，同样是计算总损失，根据总损失调整初始转换网络的参数，具体计算总损失的过程与对预训练网络进行训练过程中计算总损失的过程相同，在此不再赘述。

如图13所示，图13为一个示例中的两次训练流程示意图，先获取M个用户的语音，每一用户的语音对应的语音内容都相同，用M个用户的语音对初始转换网络进行训练，得到多个具有不同转换类型的预训练网络1、预训练网络2、预训练网络3和预训练网络4，再根据源用户和转换目标用户的类型确定转换类型，从多个预训练网络中选取具有所确定的转换类型的预训练网络1，根据源用户的多个源样本语音和转换目标用户的多个目标样本语音，对所选取的预训练网络1进行训练，得到transformer转换网络。

在其他实施方式中，可以对初始转换网络进行多次训练，多次更改训练样本。例如，可以先获取10000个男性用户的语音，获取10000个女性用户的语音，对初始转换网络进行训练，得到具有以下四种属性的四个预训练网络：男声转男声、女声转女声、男声转女声、女声转男声；然后获取5000个20-30岁的男青年的语音，5000个5-10岁男童音；获取5000个20-30岁的女青年的语音，5000个10-15岁女童音，根据以上语音对上述四种属性的预训练网络进行训练，可以得到如下属性的多个训练网络：男青年声音转女青年声音、男青年声音转男童音、男青年声音转女童音、男童音转男青年声音、男童音转女青年声音、男童音转女童音等等，多次训练可以进一步使每次得到的训练网络的转换范围更精确。

上述实施例中，预先训练得到多种不同转换类别的预训练网络，再基于源样本语音的类别和目标样本语音的类别，确定源样本语音到目标样本语音的转换类别，从多个预训练网络中选取与转换类别对应的预训练网络，基于源样本语音和目标样本语音，对选取的预训练网络进行训练，可以有效提高训练效率，减少训练时间。

上述的语音转换方法，采用包括transformer转换网络对源语音进行转换，得到目标转换语音，transformer转换网络完全基于自注意力机制，从而更容易的学习长时依赖，使得转换后句子整体的韵律合适，输入的目标转换语音更自然；此外，transformer转换网络中不含有循环网络，在训练过程中可以并行计算，从而提高对transformer转换网络的训练速度，节省训练时间。

进一步的，采用自回归的方式，将当前帧目标转换语音特征和目标初始特征输入解码结构，以预测下一帧目标转换语音特征，可以使转换得到的目标转换语音更加贴合真实的目标语音，转换效果更加自然。

更进一步的，预先训练得到多种不同转换类别的预训练网络，再基于源样本语音的类别和目标样本语音的类别，确定源样本语音到目标样本语音的转换类别，从多个预训练网络中选取与转换类别对应的预训练网络，基于源样本语音和目标样本语音，对选取的预训练网络进行训练，可以有效提高训练效率，减少训练时间。

为了更好地理解上述的语音转换方法，以下详细阐述一个本发明的语音转换的示例：

在一个示例中，本申请提供的语音转换方法，可以包括如下步骤：

1)获取多个男性用户的初始源样本语音，获取多个女性用户的初始目标样本语音，每一初始源样本语音的语音内容与每一初始目标样本语音的语音内容相同；

2)基于一个类别的初始源样本语音一个类别的初始目标样本语音，对预存的初始转换网络进行训练，得到具有不同转换类型的多个预训练网络，如男声转男声、男声转女声、女声转女声、女声转男声等转换类型；

3)对初始转换网络进行训练时，初始转换网络包括第一上下文保留网络和第二上下文保留网络，根据第一上下文网络、第二上下文网络、初始源样本语音和初始目标样本语音计算总损失，根据总损失调整初始转换网络的参数，得到多个预训练网络；

4)获取源用户的源样本语音，获取转换目标用户的目标样本语音；

5)根据源用户和目标样本用户确定要选取的预训练网络的转换类型，选取对应的预训练网络；

6)根据源用户的多个源样本语音和转换目标用户的多个目标样本语音，对选取的预训练网络进行训练，得到transformer转换网络；对预训练网络的训练过程与对初始转换网络的训练过程相同；

7)获取源用户的待转换的源语音，提取源语音的梅尔谱；

8)将源语音的梅尔谱输入至少一层线性层进行预处理，以执行对源语音特征进行维度变换并适应预设的第一位置编码；

9)将预处理后的源语音的梅尔谱加上第一位置编码，并输入transformer转换网络；transformer转换网络包括编码结构和解码结构；

10)编码结构对源语音的梅尔谱进行编码，解码结构对编码后的源语音的梅尔谱解码，输出目标转换梅尔谱；解码结构包括预设个数的解码网络；每一解码网络包括掩模多头自注意力子网络、单头自注意力子网络和前馈网络；

11)对目标转换梅尔谱进行合成，得到目标转换语音。

上述示例中，先训练得到多种不同转换类别的预训练网络，再基于源样本语音的类别和目标样本语音的类别，确定源样本语音到目标样本语音的转换类别，从多个预训练网络中选取与转换类别对应的预训练网络，可以有效提高训练效率，减少训练时间。

此外，采用包括transformer转换网络对源语音进行转换，得到目标转换语音，transformer转换网络完全基于自注意力机制，从而更容易的学习长时依赖，使得转换后句子整体的韵律合适，输入的目标转换语音更自然。

以下将根据实验结果阐述本申请的语音转换方法的效果。

1)根据主观评测(MOS)对转换后得到的目标转换语音的自然度和相似度进行评价。

获取77句源语音，提取77句源语音的源语音梅尔谱；将77组源语音梅尔谱分别输入现有技术的RNN转换网络和本申请的transformer转换网络，将得到的目标转换语音合成目标语音，并对源语音和两种转换网络得到的目标语音，采用五级评分标准进行MOS打分，其中5分为最高分，得到结果如下表1：

表1

从表1可以看出，根据本申请的transformer转换网络对源语音进行转换后，得到的目标语音的更自然，且目标语音和源语音的相似度更高。

2)比较现有技术中的RNN转化网络和本申请中的transformer转换网络训练耗时。

基于相同的训练样本、相同批大小、相同的GPU设置，对于现有技术中的RNN转化网络和本申请中的transformer转换网络对应的预训练网络分别进行训练，得到一个训练步耗时结果如下表2：

	一个训练步耗时(s)
		现有的RNN转换网络	2.94
本申请的transformer转换网络	1.08

表2

由表2可以看出，相同的训练样本、相同批大小、相同的GPU设置，在一个训练步的耗时上，本申请的transformer转换网络对应的预训练网络的训练耗时相比现有技术中的RNN转换网络的训练耗时大幅度减小。

上述实施例通过方法流程的角度介绍语音转换方法，下述通过虚拟模块的角度进行介绍，具体如下所示：

本申请实施例提供了一种语音转换装置1400，如图14所示，该装置1400可以包括获取模块1401和转换模块1402，其中：

获取模块1401，用于获取待转换的源语音；

转换模块1402，用于基于transformer转换网络对源语音进行转换，得到目标转换语音。

上述的语音转换装置，采用包括transformer转换网络对源语音进行转换，得到目标转换语音，transformer转换网络完全基于自注意力机制，从而更容易的学习长时依赖，使得转换后句子整体的韵律合适，输入的目标转换语音更自然；此外，transformer转换网络中不含有循环网络，在训练过程中可以并行计算，从而提高对transformer转换网络的训练速度，节省训练时间。

本申请实施例的一种可能的实现方式，转换网络的解码结构包括预设个数的解码网络；每一解码网络包括掩模多头自注意力子网络、单头自注意力子网络和前馈网络。

本申请实施例的一种可能的实现方式，如图15所示，转换模块1402包括：

提取单元1402a，用于提取源语音的源语音特征，基于所述transformer转换网络的编码结构对所述源语音特征进行编码；

解码单元1402b，用于基于预设的目标初始特征和所述transformer转换网络的解码结构对编码后的源语音特征进行解码，得到目标转换语音特征；

生成单元1402c，用于根据目标转换语音特征生成目标转换语音。

本申请实施例的一种可能的实现方式，转换模块1402还用于：

将源语音特征输入至少一层线性层进行预处理，以执行对源语音特征进行维度变换并适应预设的第一位置编码；

将预处理后的源语音特征加上第一位置编码，并输入编码结构。

本申请实施例的一种可能的实现方式，解码单元1402b在基于预设的目标初始特征和transformer转换网络的解码结构对编码后的源语音特征进行解码，得到目标转换语音特征时，具体用于：

将编码后的源语音特征输入解码结构进行解码，得到解码后的源语音特征；

将解码后的源语音特征输入至少一层线性层进行处理，得到目标转换语音特征。

本申请实施例的一种可能的实现方式，解码单元1402b在基于预设的目标初始特征和所述transformer转换网络的解码结构对编码后的源语音特征进行解码，得到目标转换语音特征时，具体用于：

将编码后的源语音特征输入解码结构；

将预设的目标初始特征输入解码结构，得到当前帧目标转换语音特征；

将当前帧目标转换语音特征和目标初始特征输入解码结构，得到下一帧目标转换语音特征；

将下一帧目标转换语音特征和当前帧目标转换语音特征作为新的当前帧目标转换语音特征，执行将当前帧目标转换语音特征和目标初始特征输入解码结构，得到下一帧目标转换语音特征的步骤预设次数，得到预设帧数的目标转换语音特征；

基于预设帧数的目标转换语音特征合成目标转换语音特征。

本申请实施例的一种可能的实现方式，解码单元1402b在基于预设帧数的目标转换语音特征合成目标转换语音特征时，具体用于：

根据解码结构生成源语音特征和目标转换语音特征的对齐矩阵；

基于对齐矩阵计算目标转换语音的实际预测帧数；

从解码结构输出的预设帧数的目标转换语音特征中，选取实际预测帧数的目标转换语音；

根据所选取的实际预测帧数的目标转换语音合成目标转换语音特征。

本申请实施例的一种可能的实现方式，转换模块1402还用于：

将目标初始特征输入至少一层线性层进行预处理，以执行对目标初始特征进行维度变换并适应预设的第二位置编码；

将预处理后的目标初始特征加上第二位置编码，并输入解码结构。

本申请实施例的一种可能的实现方式，如图16所示，装置1400还包括：

样本获取模块1400a，用于获取多个与源语音对应的源样本语音，并获取转换目标的多个目标样本语音；

训练模块1400b，用于基于源样本语音和目标样本语音对预设的预训练网络进行训练，得到训练后的transformer转换网络；其中，用于对预训练网络进行训练的每一源样本语音对应的语音内容与每一目标样本语音对应的语音内容相同。

本申请实施例的一种可能的实现方式，训练模块1400b在基于源样本语音和目标样本语音对预设的预训练网络进行训练，得到transformer转换网络时，具体用于：

提取源样本语音的源样本特征，提取目标样本语音的目标样本特征；

将源样本特征和目标样本特征输入预训练网络，得到样本转换特征；

基于源样本特征、目标样本特征和样本转换特征计算总损失；

基于总损失调整预训练网络的参数，得到transformer转换网络。

本申请实施例的一种可能的实现方式，预训练网络包括第一上下文保留网络和第二上下文保留网络；

第一上下文网络用于对编码后的源样本特征进行重建，得到重建源样本特征；第二上下文保留网络用于对解码后的目标样本特征进行重建，得到重建目标样本特征；

重建源样本特征和重建目标样本特征用于计算总损失。

本申请实施例的一种可能的实现方式，训练模块1400b在在基于源样本特征、目标样本特征和样本转换特征计算总损失时，具体用于：

根据重建源样本特征和源样本特征获取第一上下文损失；

根据重建目标样本特征和目标样本特征获取第二上下文损失；

根据样本转换特征和目标样本特征获取序列损失；

获取预训练网络的解码网络的引导注意力损失；

基于第一上下文损失、第二上下文损失、引导注意力损失和序列损失，计算总损失。

本申请实施例的一种可能的实现方式，训练模块1400b在基于总损失调整预训练网络的参数，得到transformer转换网络时，具体用于：

基于总损失调整预训练网络的参数，得到训练后的预训练网络；

将预训练网络中除第一上下文保留网络和第二上下文保留网络的网络部分，作为transformer转换网络。

本申请实施例的一种可能的实现方式，装置1400还包括网络选取模块，网络选取模块具体用于：

确定源样本语音对应的类别，并确定目标样本语音的对应的类别；

基于源样本语音的类别和目标样本语音的类别，确定源样本语音到目标样本语音的转换类别；

从预存的多个预训练网络中，选取属于转换类别的预训练网络。

本申请实施例的一种可能的实现方式，装置1400还包括初始训练模块，初始训练模块具体用于：

获取多个不同类别的初始源样本语音，每一初始源样本语音属于一种类别；获取多个不同类别的初始目标样本语音，每一初始目标样本语音属于一种类别；每一初始源样本语音的语音内容与每一初始目标样本语音的语音内容相同；

选取属于一个类别的多个初始源样本语音，并选取属于一个类别的多个初始目标样本语音；

基于选取的初始源样本语音和初始目标样本语音对初始转换网络进行训练，得到预存的预训练网络；预训练网络的转换类型基于所选取的初始源样本语音的类别和所选取的初始目标样本语音的类别确定。

本申请实施例的一种可能的实现方式，类别包括性别或年龄。

本公开实施例的图片的语音转换装置可执行本公开的实施例所提供的一种图片的语音转换方法，其实现原理相类似，本公开各实施例中的图片的语音转换装置中的各模块所执行的动作是与本公开各实施例中的图片的语音转换方法中的步骤相对应的，对于图片的语音转换装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的语音转换方法中的描述，此处不再赘述。

上面从功能模块化的角度对本申请实施例提供的语音转换装置进行介绍，接下来，将从硬件实体化的角度对本申请实施例提供的电子设备进行介绍，并同时对电子设备的计算系统进行介绍。

基于与本公开的实施例中所示的方法相同的原理，本公开的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机操作指令；处理器，用于通过调用计算机操作指令执行实施例所示的语音转换方法。与现有技术相比，本申请中的语音转换方法更容易的学习长时依赖，使得转换后句子整体的韵律合适，输入的目标转换语音更自然。

在一个可选实施例中提供了一种电子设备，如图17所示，图17所示的电子设备1700包括：处理器1701和存储器1703。其中，处理器1701和存储器1703相连，如通过总线1702相连。可选地，电子设备1700还可以包括收发器1704。需要说明的是，实际应用中收发器1704不限于一个，该电子设备1700的结构并不构成对本申请实施例的限定。

处理器1701可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1701也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1702可包括一通路，在上述组件之间传送信息。总线1702可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线1702可以分为地址总线、数据总线、控制总线等。为便于表示，图17中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1703可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器1703用于存储执行本申请方案的应用程序代码，并由处理器1701来控制执行。处理器1701用于执行存储器1703中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图17示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请中的语音转换方法更容易的学习长时依赖，使得转换后句子整体的韵律合适，输入的目标转换语音更自然。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“获取待转换的源语音的模块”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语音转换方法，其特征在于，包括：

获取待转换的源语音；

基于transformer转换网络对所述源语音进行转换，得到目标转换语音；

所述目标转换语音的语音内容与所述源语音的语音内容相同。

2.根据权利要求1所述的方法，其特征在于，所述transformer转换网络的解码结构包括预设个数的解码网络；每一解码网络包括掩模多头自注意力子网络、单头自注意力子网络和前馈网络。

3.根据权利要求1或2所述的方法，其特征在于，所述基于transformer转换网络对所述源语音进行转换，得到目标转换语音，包括：

提取所述源语音的源语音特征，基于所述transformer转换网络的编码结构对所述源语音特征进行编码；

基于预设的目标初始特征和所述transformer转换网络的解码结构对编码后的源语音特征进行解码，得到目标转换语音特征；

根据所述目标转换语音特征生成所述目标转换语音。

4.根据权利要求3所述的方法，其特征在于，所述基于所述transformer转换网络的编码结构对所述源语音特征进行编码之前，还包括：

将所述源语音特征输入至少一层线性层进行预处理，以执行对所述源语音特征进行维度变换并适应预设的第一位置编码；

将预处理后的源语音特征加上所述第一位置编码，并输入所述编码结构。

5.根据权利要求3或4所述的方法，其特征在于，所述基于预设的目标初始特征和所述transformer转换网络的解码结构对编码后的源语音特征进行解码，得到目标转换语音特征，包括：

将所述编码后的源语音特征输入所述解码结构进行解码，得到解码后的源语音特征；

将所述解码后的源语音特征输入至少一层线性层进行处理，得到所述目标转换语音特征。

6.根据权利要求3-5中任一项所述的方法，其特征在于，所述基于预设的目标初始特征和所述transformer转换网络的解码结构对编码后的源语音特征进行解码之前，还包括：

将所述目标初始特征输入至少一层线性层进行预处理，以执行对所述目标初始特征进行维度变换并适应预设的第二位置编码；

将预处理后的目标初始特征加上所述第二位置编码，并输入所述解码结构。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述在基于transformer转换网络对所述源语音进行转换之前，还包括：

获取多个与所述源语音对应的源样本语音，并获取转换目标用户的多个目标样本语音；

基于所述源样本语音和所述目标样本语音对预设的预训练网络进行训练，得到所述transformer转换网络；其中，用于对预训练网络进行训练的每一源样本语音对应的语音内容与每一目标样本语音对应的语音内容相同。

8.一种语音转换装置，其特征在于，包括：

获取模块，用于获取待转换的源语音；

转换模块，用于基于transformer转换网络对所述源语音进行转换，得到目标转换语音；所述目标转换语音的语音内容与所述源语音的语音内容相同。

9.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1-7任一项所述的语音转换方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7任一项所述的语音转换方法。