CN113345452A

CN113345452A - 语音转换方法、语音转换模型的训练方法、装置和介质

Info

Publication number: CN113345452A
Application number: CN202110462563.2A
Authority: CN
Inventors: 刘皓冬; 李栋梁; 刘恺
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-09-03
Anticipated expiration: 2041-04-27
Also published as: CN113345452B

Abstract

本发明实施例提供了一种语音转换方法、语音转换模型的训练方法、装置和介质，其中的训练方法具体包括：确定第一训练数据；所述第一训练数据包括：N个训练样本；根据所述N个训练样本，对语音转换模型进行训练；所述对语音转换模型进行训练，包括：从所述训练样本对应的语音识别结果中，滤除所述训练样本对应的音色信息。本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度，进而能够提高语音转换的效果。

Description

语音转换方法、语音转换模型的训练方法、装置和介质

技术领域

本发明涉及语音处理技术领域，特别是涉及一种语音转换方法、语音转换模型的训练方法、装置和介质。

背景技术

语音转换技术是一种保持语义内容不变的情况下，将源语音转换为目标语音的技术，其中，源语音为第一人声发出的语音，目标语音为第二人声发出的语音。换言之，将第一人声发出的源语音通过语音转换技术，转换为语义相同的第二人声发出的目标语音。

目前的语音转换方法，通常包括：首先，对源语音进行语音识别，得到对应的语音识别结果；然后，根据上述语音识别结果和第二人声的信息，确定目标声学特征，该目标声学特征用于合成目标语音。

发明人在实施本发明实施例的过程中发现，语音识别结果中通常包括源语音的相关信息，如语气信息、音调信息、文本信息和音色信息等信息，传统技术一律保留这些相关信息，并根据这些相关信息得到目标声学特征，这将导致转换后的目标语音中带有第一人声的音色信息，进而影响目标语音的音色与第二人声的音色之间的相似度，使得语音转换的效果较差。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音转换方法、装置和介质，本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度，进而能够提高语音转换的效果。

为了解决上述问题，本发明公开了一种语音转换模型的训练方法，包括：

确定第一训练数据；所述第一训练数据包括：N个训练样本；

根据所述N个训练样本，对语音转换模型进行训练；

所述对语音转换模型进行训练，包括：

从所述训练样本对应的语音识别结果中，滤除所述训练样本对应的音色信息。

为了解决上述问题，本发明公开了一种语音转换方法，包括：

接收源语音；所述源语音为第一人声发出、且待转换为第二人声的语音；

对所述源语音进行语音转换；

从所述源语音对应的语音识别结果中滤除源语音对应的音色信息，确定所述源语音和第二人声对应的目标声学特征和目标语音。

另一方面，本发明实施例公开了一种语音转换模型的训练装置，包括：

第一确定模块，用于确定第一训练数据；所述第一训练数据包括：N个训练样本；

第一训练模块，用于根据所述N个训练样本，对所述语音转换模型进行训练；

其中，所述第一训练模块包括：

滤除模块，用于从所述训练样本对应的语音识别结果中，滤除所述训练样本对应的音色信息。

另一方面，本发明实施例公开了一种语音转换装置，包括：

接收模块，用于接收源语音；所述源语音为第一人声发出、且待转换为第二人声的语音；

转换模块，用于利用语音转换模型，对所述源语音进行语音转换；

所述转换模块包括：

滤除模块，用于从所述源语音对应的语音识别结果中滤除源语音对应的音色信息，确定所述源语音和第二人声对应的目标声学特征和目标语音。

再一方面，本发明实施例公开了一种用于训练语音转换模型的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，所述程序被一个或者一个以上处理器执行时，实现前述方法的步骤。

再一方面，本发明实施例公开了一种用于语音转换的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，所述程序被一个或者一个以上处理器执行时，实现前述方法的步骤。

本发明实施例还公开了一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的方法。

本发明实施例包括以下优点：

本发明实施例在语音转换模型的训练过程中，会从上述训练样本对应的语音识别结果中，滤除上述训练样本对应的音色信息，这样，本发明实施例的经过滤除后的处理结果中可以不包含源语音说话人的音色信息。在此基础上，本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度，进而能够提高语音转换的效果。

附图说明

图1是本申请一个示例性实施例提供的将源语音转换为目标语音的过程示意图；

图2是本发明的一种语音转换模型的训练方法实施例一的步骤流程图；

图3是本发明实施例的一种语音转换模型的结构示意图；

图4是本发明实施例的一种语音转换模型的结构示意图；

图5是本发明的一种语音转换模型的训练方法实施例二的步骤流程图；

图6是本发明的一种语音转换方法实施例的步骤流程图；

图7是本发明的一种语音转换模型的训练装置实施例的结构框图；

图8是本发明的一种语音转换装置实施例的结构框图；

图9是本发明的一种用于语音转换的装置1300的框图；及

图10是本发明的一种服务端的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例可以应用于语音转换场景。语音转换场景，可用于在保持语义内容不变的情况下，将源语音转换为目标语音，其中，源语音为第一人声发出的语音，目标语音为第二人声发出的语音。

语音转换系统，可用于在保持语义内容不变的情况下，将源语音转换为目标语音。语音转换系统可以包括：语音识别模型和语音转换模型，其中，语音识别模型可用于对源语音进行语音识别，语音转换模型可用于根据语音识别模型输出的语音识别结果，确定源语音和第二人声对应的目标声学特征。

语音识别模型和语音转换模型的训练，可以单独进行，或者合并进行。

图1是本申请一个示例性实施例提供的将源语音转换为目标语音的过程示意图，如图1所示，该转换过程具体包括：第一训练阶段、第二训练阶段以及转换阶段。

其中，在第一训练阶段中，利用语音识别语料，训练得到一个说话人无关(SpeakerIndependent，SI)的语音识别模型101。

在第二训练阶段中，利用训练后的语音识别模型101对训练数据进行语音识别，并利用语音识别结果对语音转换模型102进行训练，语音转换模型102的学习目标和输出可以包括：目标声学特征，该目标声学特征可以包括：梅尔倒谱系数(MCC，MelCepstralCoefficients)、基频(F0，fundamental frequency)和非周期分量(aperiodic component，AP)等频谱特征中的至少一种。

在转换阶段，通过语音识别模型101确定源语音的语音识别结果，将该语音识别结果输入语音转换模型102，由语音转换模型102输出MCC、F0和AP等目标声学特征，将该目标声学特征输入声码器103后生成与该源语音语义对应的目标语音。

在实际应用中，语音识别结果中通常包括源语音的相关信息，如语气信息、音调信息、文本信息和音色信息等信息，传统技术的语音转换模型102一律保留这些相关信息，并根据这些相关信息得到目标声学特征，这将导致转换后的目标语音中带有第一人声的音色信息，进而影响目标语音的音色与第二人声的音色之间的相似度，使得语音转换的效果较差。

针对传统技术中语音转换的效果较差的技术问题，本发明实施例提供了一种语音转换模型的训练方法，该方法具体包括：确定第一训练数据；上述第一训练数据包括：N(N可以为大于1的自然数)个训练样本；根据上述N个训练样本，对上述语音转换模型进行训练；上述对上述语音转换模型进行训练，包括：从上述训练样本对应的语音识别结果中，滤除上述训练样本对应的音色信息。

本发明实施例提供的语音转换方法可应用于客户端与服务端对应的应用环境中，客户端与服务端位于有线或无线网络中，通过该有线或无线网络，客户端与服务端进行数据交互。

可选地，客户端可以运行在终端上，上述终端具体包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

客户端可以对应于网站、或者APP(应用程序，Application)。例如，客户端可以对应有语音处理APP、语音转换APP等应用程序。

在训练阶段，服务端可以执行语音转换模型的训练方法，以使语音转换模型具备源语音说话人的音色信息的滤除能力。

在转换阶段，服务端可以接收客户端发送的源语音，并利用具备源语音说话人的音色信息的滤除能力的语音转换模型，将源语音转换为目标语音，并向客户端返回目标语音。

方法实施例一

参照图2，示出了本发明的一种语音转换模型的训练方法实施例的步骤流程图，该方法具体可以包括如下步骤：

步骤201、确定第一训练数据；该第一训练数据具体包括：N个训练样本；

步骤202、根据上述N个训练样本，对语音转换模型进行训练；

步骤202对所述语音转换模型进行训练，具体包括：

步骤221、从上述训练样本对应的语音识别结果中，滤除上述训练样本对应的音色信息。

图2所示方法实施例一可由服务端执行，可以理解，本发明实施例对于方法实施例的具体执行主体不加以限制。

步骤201中，训练样本可以包括：源语音说话人的语音。通常，一个源语音说话人可以对应一个训练样本，当然，一个源语音说话人可以对应多个训练样本。

本发明实施例对于第一训练数据对应源语音说话人的数量M不加以限制。例如，在M的数值较大的情况下，可以使语音转换模型掌握更多源语音说话人的共性特征，进而能够提升语音转换模型对于源语音说话人的音色信息的滤除能力。当然，在M的数值较小的情况下，语音转换模型也可以掌握源语音说话人的共性特征。因此，本发明实施例对于M的具体数值不加以限制。

步骤202中，可以对训练样本对应的语音识别结果进行特征提取，根据至少部分的特征提取结果，进行训练样本对应的说话人预测，并基于预测结果的处理，对语音转换模型的说话人预测能力进行混淆，增加说话人预测难度。这样，可以控制特征提取朝着区分说话人的反方向更新，对N个训练样本所对应的源语音说话人在语音识别结果中的共性特征进行学习，而语音识别结果中包含的非共性信息(如源语音说话人的音色信息)将会被特征提取环节忽略；从而使语音转换模型的特征提取环节具备源语音说话人的音色信息的滤除能力。

本发明实施例可以提供滤除上述训练样本对应的音色信息的如下技术方案：

技术方案1中，步骤202滤除上述训练样本对应的音色信息，具体包括：对训练样本对应的语音识别结果进行特征提取；根据至少部分的特征提取结果，进行训练样本对应的说话人预测；确定预测结果与预置说话人标识之间的第一误差，以在反向传播过程中，根据所述第一误差对所述特征提取的参数进行更新；其中，所述N个训练样本对应相同的预置说话人标识。

预置说话人标识可以作为说话人预测的预测目标。由于N个训练样本对应相同的预测目标，故该相同的预测目标向特征提取环节传达如下信息：N个训练样本对应相同的说话人，这将使得特征提取环节在反向传播过程中，基于第一误差、对N个训练样本所对应的源语音说话人在语音识别结果中的共性特征进行学习，而语音识别结果中包含的非共性信息(如源语音说话人的音色信息)将会被特征提取环节忽略。因此，本发明实施例能够使得特征提取环节具备源语音说话人的音色信息的滤除能力。

本发明实施例的语音转换模型和特征提取环节，可以采用神经网络的结构。

前向传播(Forward propagation)与反向传播(Back propagation)是神经网络中的概念，其用于模拟人脑中神经元的正向传导和反向反馈信号回路。其中，前向传播对输入信号进行处理，并产生第一误差；反向传播根据第一误差更新神经网络的参数，该参数可以包括但不限于：权重矩阵。

特征提取环节对训练样本对应的语音识别结果进行特征提取，能够提取语音识别结果中包含的信息。

上述特征提取环节对所述训练样本对应的语音识别结果进行特征提取，所采用的特征提取方式具体包括如下中的任一或组合：

特征提取方式1、对所述训练样本对应的语音识别结果进行特征提取处理，以得到第一特征；

特征提取方式2、对所述训练样本对应的语音识别结果进行离散处理和特征提取处理，以得到第二特征；

特征提取方式3、针对所述训练样本对应的预设说话人，确定对应的第三特征。

在实际应用中，训练样本对应的语音识别结果可由语音识别模型提供。语音识别结果可以包含：训练样本对应的与发音和文本相关的信息。

在实际应用中，语音识别结果可以包括但不限于：音素后验概率(PPGs，PhoneticPosterior Grams)。PPGs可以对应于说话人的发音，并且对应于说话人的说话内容(文本)。

例如PPGs的语音识别结果通常包括：连续信息。由于训练样本对应的源语音样本通常包括：连续的多个语音帧，故语音识别结果包含的连续信息通常与连续的多个语音帧相应。例如，PPGs可以表征一句话中第i(i可以为大于0的自然数)个语音帧的音素后验概率。

特征提取方式1可以对语音识别结果包含的连续信息进行特征提取处理，得到的第一特征也可以与连续的多个语音帧相应。在具体实现中，每个第i帧均可以对应有第一特征。

特征提取方式2对语音识别结果进行离散处理后，再进行特征提取处理，得到的第二特征可以与文本特征等离散信息相应。

特征提取方式3针对所述训练样本对应的预设说话人，确定对应的第三特征，该第三特征可以包含训练样本对应说话人的信息，如训练样本对应说话人的音色信息。训练样本对应的预设说话人可以包括：源语音说话人。当然，预设说话人还可以不同于源语音说话人，例如，预设说话人可以为待转换的目标说话人。目标说话人可以对应目标语音对应的第二人声。目标说话人可由用户或系统指定，例如，目标说话人可以为新闻播报人或明星等。

在具体实现中，可以对第一特征、第二特征和第三特征进行融合，并将得到的融合特征输出给下一级单元。

根据至少部分的特征提取结果，进行说话人预测，得到的预测结果可以包括：训练样本对应说话人的预测标识。在实际应用中，可以利用说话人识别技术，进行说话人预测，本发明实施例对于具体的说话人预测过程不加以限制。

在具体实现中，可以根据一个训练样本在预设帧的特征提取结果，进行说话人预测。预设帧可由本领域技术人员根据实际应用需求确定，例如，预设帧可以为包含的信息量符合预设条件的语音帧。

在本发明的一种实施方式中，特征提取环节可以采用：长短期记忆网络(LSTM，Long Short-Term Memory)的结构。

在训练过程中，可以将语音识别结果逐帧输入LSTM，由LSTM输出第i个语音帧对应的特征提取结果。由于LSTM具备记忆功能，在处理第i个语音帧的情况下，其会记忆第i个语音帧之前的语音帧的信息，故最后一个语音帧对应的特征提取结果会包括：之前语音帧的信息，因此，预设帧可以为：最后一个语音帧，此种情况下，根据最后一个语音帧对应的特征提取结果，进行说话人预测，能够利用尽可能多的信息进行说话人预测，因此能够提高说话人预测的准确度。当然，本发明实施例对于具体的预设帧不加以限制，例如，预设帧还可以为倒数第二个语音帧等。

本发明实施例可以利用例如交叉熵损失函数的损失参数，确定预测结果与预置说话人标识之间的第一误差，当然，本发明实施例对于第一误差的具体确定方式不加以限制。

本发明实施例的预测目标可以为预置说话人标识，N个训练样本对应相同的预置说话人标识，这样，可以向特征提取环节传达如下信息：N个训练样本对应相同的说话人，这将使得特征提取环节在反向传播过程中，基于第一误差、对N个训练样本所对应的源语音说话人在语音识别结果中的共性特征进行学习，而语音识别结果中包含的非共性信息(如源语音说话人的音色信息)将会被特征提取环节忽略。

参照图3，示出了本发明实施例的一种语音转换模型的结构示意图，其具体包括：过滤单元301和声学特征确定单元302，其中，过滤单元301接收语音识别结果，并向声学特征确定单元302提供特征提取结果；声学特征确定单元302根据特征提取结果，确定目标声学特征，该目标声学特征既可以与训练样本对应的语义相应，又可以与训练样本对应的预设说话人相应，以将训练样本对应的语音转换为预设说话人的语音。

过滤单元301可以进一步包括：提取模块311、说话人预测模块312和第一误差确定模块313。

其中，提取模块311可以对语音识别结果进行特征提取，并向声学特征确定单元302提供特征提取结果，以及，向说话人预测模块312提供至少部分的特征提取结果。

说话人预测模块312根据至少部分的特征提取结果，进行说话人预测，以得到预测标识。

第一误差确定模块313确定预测标识与预置说话人标识之间的第一误差，以在反向传播过程中，根据上述第一误差对提取模块311的参数进行更新。

提取模块311可以采用LSTM的结构，其可以按照时间点的顺序，向声学特征确定单元302提供第i个语音帧对应的特征提取结果，以及，向说话人预测模块312提供最后一个语音帧对应的特征提取结果。

在具体实现中，可以采用循环神经网络(RNN，recurrent neural networks)等结构代替LSTM的结构。

由于RNN、LSTM等结构具有以按照时间点的顺序输出的特性，故在在线实时的语音转换场景下，上述结构可以在减少延迟的情况下，按照时间点的顺序输出特征提取结果，以使下级单元按照时间点的顺序输出目标声学特征和目标语音的片段。因此本发明实施例具有在线实时的语音转换能力，能够应用于在线实时的语音转换场景。例如，本发明实施例可以实现有声内容的在线实时产生，并且，还能够提高有声内容的音色与目标说话人的音色之间的匹配度，进而能够提高有声内容的质量。

在本发明的一种实施方式中，语音转换模型可以采用编码器和解码器的结构，其中，例如提取模块的特征提取环节设置于编码器中。

本发明实施例采用编码器和解码器的结构，对语音识别结果进行处理，能够提升对语音识别结果中相关信息的控制能力。

编码器可以将不定长的语音识别结果(输入序列)转换为定长的背景变量，并在该背景变量中对语音识别结果进行编码。编码器通常采用循环神经网络，当然，本发明实施例对于编码器的具体结构不加以限制。

本发明实施例在编码器中设置特征提取环节，以使编码器具备源语音说话人的音色信息的滤除能力。

解码器可以根据第t个时间点的背景变量、以及第1个到第(t-1)个时间点的输出序列，确定第t个时间点的输出序列的概率分布，进而可以得到第t个时间点的输出序列。具体到本发明实施例，解码器的输出序列可以为：目标声学特征。所述解码器根据所述特征提取环节输出的特征提取结果，确定所述训练样本及其说话人对应的声学特征。

参照图4，示出了本发明实施例的一种语音转换模型的结构示意图，其具体包括：编码器401和解码器402，其中，编码器401接收语音识别结果，并向解码器402提供特征提取结果；解码器402根据特征提取结果，确定目标声学特征，该目标声学特征既与训练样本对应的语义相应，又与训练样本对应的预设说话人相应，以将训练样本对应的语音转换为预设说话人的语音。

编码器401可以进一步包括：第一提取单元411、第二提取单元412和第三提取单元413。

其中，第一提取单元411可以进一步包括：提取模块、说话人预测模块和误差确定模块。第一提取单元411的结构可以参照过滤单元301的结构，在此不作赘述。提取单元的特征提取结果可以称为第一特征。

第二提取单元412对语音识别结果进行离散处理、降维处理和特征提取处理，以得到第二特征。

第三提取单元413可以对预设说话人的信息进行嵌入表示，以得到第三特征。

编码器401可以对第一特征、第二特征和第三特征进行融合，得到的融合特征可被提供给解码器402。

解码器402可以根据融合特征，确定目标声学特征。

在具体实现中，还可以根据预设说话人的信息和目标声学特征，确定声学误差，并根据声学误差进行整个语音转换模型的反向传播。

本发明实施例的声学误差，用于语音转换模型范围内的反向传播。预测标识与预置说话人标识之间的第一误差，可用于提取特征提取环节范围内的反向传播。

综上，技术方案1在语音转换模型的训练过程中，根据至少部分的特征提取结果，进行说话人预测，并确定预测结果与预测目标之间的第一误差，以在反向传播过程中，根据上述第一误差对上述特征提取的参数进行更新。

由于N个训练样本对应相同的预测目标，故该相同的预测目标向特征提取环节传达如下信息：N个训练样本对应相同的说话人，这将使得特征提取环节在反向传播过程中，基于第一误差、对N个训练样本所对应的源语音说话人在语音识别结果中的共性特征进行学习，而语音识别结果中包含的非共性信息(如源语音说话人的音色信息)将会被特征提取环节忽略；因此，本发明实施例能够使得特征提取环节具备源语音说话人的音色信息的滤除能力，换言之，本发明实施例的特征提取环节输出的特征提取结果中可以不包含源语音说话人的音色信息。在此基础上，本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度，进而能够提高语音转换的效果。

技术方案2

技术方案2中，步骤202滤除上述训练样本对应的音色信息，具体包括：对所述训练样本对应的语音识别结果进行特征提取；根据至少部分的特征提取结果，进行所述训练样本对应的说话人预测；确定预测结果与所述训练样本对应实际说话人标识之间的第二误差；对所述第二误差进行梯度反转，以在反向传播过程中，根据反转误差对所述特征提取的参数进行更新。

进行梯度反转的方式可以是调用梯度反转函数。梯度反转的作用是将反向传播的第二误差取反，使得梯度反转函数前后的训练目标相反，实现对抗的效果。具体到本发明实施例，第二误差的梯度反转，可以控制特征提取环节朝着区分说话人的反方向更新，对N个训练样本所对应的源语音说话人在语音识别结果中的共性特征进行学习，而语音识别结果中包含的非共性信息(如源语音说话人的音色信息)将会被特征提取环节忽略；从而使语音转换模型的特征提取环节具备源语音说话人的音色信息的滤除能力。

综上，本发明实施例的语音转换模型的训练方法，会从上述训练样本对应的语音识别结果中，滤除上述训练样本对应的音色信息，这样，本发明实施例的经过滤除后的处理结果中可以不包含源语音说话人的音色信息。在此基础上，本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度，进而能够提高语音转换的效果。

方法实施例二

参照图5，示出了本发明的一种语音转换模型的训练方法实施例的步骤流程图，该方法具体可以包括如下步骤：

步骤501、确定第一训练数据；该第一训练数据具体包括：N个训练样本；

步骤502、根据上述N个训练样本，对语音转换模型进行训练；

步骤502对所述语音转换模型进行训练，具体包括：

步骤521、从上述训练样本对应的语音识别结果中，滤除上述训练样本对应的音色信息；

相对于图2所示方法实施例一，在图2所示步骤502之后，本实施例的方法还可以包括：

步骤503、确定第二训练数据；上述第二训练数据具体包括：目标说话人的语音样本；

步骤504、根据上述目标说话人的语音样本，对上述语音转换模型进行自适应训练；

步骤504对上述语音转换模型进行自适应训练，具体包括：

步骤541、从语音样本对应的语音识别结果中，滤除语音样本对应的音色信息。

步骤501至步骤502，利用源语音说话人对应的N个训练样本，对语音转换模型进行训练，由于源语音说话人与目标说话人不同，因此，步骤502训练得到的语音转换模型，是与说话人无关的。

步骤503至步骤504，利用目标说话人的语音样本，对说话人无关的语音转换模型进行自适应训练，可以对语音转换模型的参数进行调整，以提高调整后的语音转换模型的参数与目标说话人的音色之间的匹配度，进而能够提高语音转换模型的转换效果。

在对上述语音转换模型进行自适应训练的过程中，可以根据语音转换模型输出的目标声学特征与目标说话人的语音样本对应的实际声学特征，确定第三误差，并在反向传播过程中，根据第三误差对语音转换模型的参数进行更新，直至第三误差在预设范围内，由此可以提高语音转换模型输出的目标声学特征与目标说话人的语音样本对应的实际声学特征之间的接近度，进而能够提高语音转换模型的转换效果。

由于自适应训练对应的第二训练数据为目标说话人的语音样本，该语音样本对应的音色与待转换的第二人声的音色是一致的，故在对上述语音转换模型进行自适应训练的过程中，可以不进行特征提取环节范围内的反向传播。

换言之，在对上述语音转换模型进行自适应训练的过程中，可以对上述训练样本对应的语音识别结果进行特征提取，而可以不执行如下步骤中的任一或组合：

根据至少部分的特征提取结果，进行说话人预测；

确定预测结果与预置说话人标识之间的第一误差；

执行特征提取环节内的反向传播。

综上，本发明实施例的语音转换模型的训练方法，利用目标说话人的语音样本，对说话人无关的语音转换模型进行自适应训练，可以对语音转换模型的参数进行调整，以提高调整后的语音转换模型的参数与目标说话人的音色之间的匹配度，进而能够提高语音转换模型的转换效果。

方法实施例三

参照图6，示出了本发明的一种语音转换方法实施例的步骤流程图，具体可以包括如下步骤：

步骤601、接收源语音；该源语音可以为第一人声发出、且待转换为第二人声的语音；

步骤602、利用语音转换模型，对上述源语音进行语音转换；

步骤602对上述源语音进行语音转换，具体包括：

步骤621、从上述源语音对应的语音识别结果中滤除源语音对应的音色信息，确定上述源语音和第二人声对应的目标声学特征和目标语音。

本发明实施例用于在语音转换场景下，利用语音转换模型，将源语音转换为目标语音。其中，源语音可由用户指定或上传得到。第二人声与前述的目标说话人相匹配，可由用户指定得到。

本发明实施例基于训练样本的训练，使得语音转换模型具备源语音说话人的音色信息的滤除能力。

根据一种实施方式，在所述语音转换模型的训练过程中，对训练样本对应的语音识别结果进行特征提取，根据至少部分的特征提取结果，进行说话人预测，并确定预测结果与预置说话人标识之间的第一误差，以在反向传播过程中，根据所述第一误差对所述特征提取的参数进行更新；其中，所述语音转换模型对应的N个训练样本对应相同的预置说话人标识。

本发明实施例使用的语音转换模型是采用如下训练方式得到的：在语音转换模型的训练过程中，会根据至少部分的特征提取结果，进行说话人预测，并确定预测结果与预测目标之间的第一误差，以在反向传播过程中，根据上述第一误差对上述特征提取的参数进行更新；N个训练样本对应相同的预测目标。

由于N个训练样本对应相同的预测目标，故该相同的预测目标向特征提取环节传达如下信息：N个训练样本对应相同的说话人，这将使得特征提取环节在反向传播过程中，基于第一误差、对N个训练样本所对应的源语音说话人在语音识别结果中的共性特征进行学习，而语音识别结果中包含的非共性信息(如源语音说话人的音色信息)将会被特征提取环节忽略；因此，本发明实施例能够使得特征提取环节具备源语音说话人的音色信息的滤除能力，换言之，本发明实施例的特征提取环节输出的特征提取结果中可以不包含源语音说话人的音色信息。在此基础上，本发明实施例在对源语音进行语音转换的过程中，特征提取环节对上述源语音对应的语音识别结果进行特征提取，得到的特征提取结果中可以不包含源语音说话人(第一人声)的音色信息，因此，本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度，进而能够提高语音转换的效果。

根据另一种实施方式，在所述语音转换模型的训练过程中，对所述训练样本对应的语音识别结果进行特征提取，根据至少部分的特征提取结果，进行所述训练样本对应的说话人预测，确定预测结果与所述训练样本对应实际说话人标识之间的第二误差，对所述第二误差进行梯度反转，以在反向传播过程中，根据反转误差对所述特征提取的参数进行更新。

在具体实现中，所述说话人预测的依据可以包括：一个训练样本在预设帧的特征提取结果。例如，预设帧可以为：训练样本对应的最后一个语音帧。

在实际应用中，语音转换模型可以从语音识别模型接收源语音对应的语音识别结果，对语音识别结果进行特征提取，并向下一级单元输出得到的特征提取结果。

在一种实施方式中，语音转换模型具体包括：编码器、解码器和声码器，特征提取环节设置于编码器中。其中，编码器可以向解码器输出特征提取结果也即处理结果，解码器可以根据特征提取结果，确定上述源语音和第二人声对应的目标声学特征，声码器可以根据目标声学特征，合成得到目标语音。

在实际应用中，可以对目标语音进行输出。例如，在服务端执行图6所示方法实施例的情况下，可以向客户端输出目标语音；或者，在客户端执行图6所示方法实施例的情况下，可以向用户输出目标语音。

综上，本发明实施例的语音转换方法，利用语音转换模型，将源语音转换为目标语音。由于语音转换模型中具备源语音说话人的音色信息的滤除能力，故在对源语音进行语音转换的过程中，对上述源语音对应的语音识别结果进行特征提取，得到的特征提取结果中可以不包含源语音说话人(第一人声)的音色信息，因此，本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度，进而能够提高语音转换的效果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图7，示出了本发明的一种语音转换模型的训练装置实施例的结构框图，上述装置具体可以包括：

第一确定模块701，用于确定第一训练数据；上述第一训练数据包括：N个训练样本；

第一训练模块702，用于根据上述N个训练样本，对上述语音转换模型进行训练；

其中，上述第一训练模块702具体包括：

滤除模块721，用于从所述训练样本对应的语音识别结果中，滤除所述训练样本对应的音色信息。

在一种实现方式中，滤除模块721具体包括：

提取模块，用于对上述训练样本对应的语音识别结果进行特征提取；

说话人预测模块，用于根据至少部分的特征提取结果，进行说话人预测；以及

第一误差确定模块，用于确定预测结果与预置说话人标识之间的第一误差，以在反向传播过程中，根据上述第一误差对上述特征提取的参数进行更新；其中，上述N个训练样本对应相同的预置说话人标识。

在另一种实现方式中，滤除模块721具体包括：

说话人预测模块，用于根据至少部分的特征提取结果，进行说话人预测；

第二误差确定模块，用于确定预测结果与预置说话人标识之间的第一误差；以及

误差反转模块，用于对所述第二误差进行梯度反转，以在反向传播过程中，根据反转误差对所述特征提取的参数进行更新。

可选地，说话人预测模块，具体用于根据一个训练样本在预设帧的特征提取结果，进行说话人预测。

可选地，提取模块具体包括：

第一提取模块，用于对上述训练样本对应的语音识别结果进行特征提取处理，以得到第一特征；

第二提取模块，用于对上述训练样本对应的语音识别结果进行离散处理和特征提取处理，以得到第二特征；

第三提取模块，用于针对上述训练样本对应的预设说话人，确定对应的第三特征；

融合模块，用于对上述第一特征、上述第二特征和上述第三特征进行融合。

参照图8，示出了本发明的一种语音转换装置实施例的结构框图，具体可以包括：

接收模块801，用于接收源语音；上述源语音为第一人声发出、且待转换为第二人声的语音；

转换模块802，用于利用语音转换模型，对上述源语音进行语音转换；

转换模块802具体包括：

滤除模块821，用于从所述源语音对应的语音识别结果中滤除源语音对应的音色信息，确定所述源语音和第二人声对应的目标声学特征和目标语音。

在实际应用中，可以利用特征提取环节，从语音识别模型接收源语音对应的语音识别结果，对语音识别结果进行特征提取，并向下一级单元输出得到的特征提取结果。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种用于语音转换的装置1300的框图。例如，装置1300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，装置1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出(I/O)的接口1312，传感器组件1314，以及通信组件1316。

处理组件1302通常控制装置1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1302可以包括一个或多个处理器1320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理组件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在装置1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1306为装置1300的各种组件提供电力。电源组件1306可以包括电源管理系统，一个或多个电源，及其他与为装置1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述装置1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头和/或后置摄像头。当设备1300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(MIC)，当装置1300处于操作模式，如呼叫模式、记录模式和语音数据处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1312为处理组件1302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器，用于为装置1300提供各个方面的状态评估。例如，传感器组件1314可以检测到设备1300的打开/关闭状态，组件的相对定位，例如所述组件为装置1300的显示器和小键盘，传感器组件1314还可以检测装置1300或装置1300一个组件的位置改变，用户与装置1300接触的存在或不存在，装置1300方位或加速/减速和装置1300的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1316被配置为便于装置1300和其他设备之间有线或无线方式的通信。装置1300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频数据处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由装置1300的处理器1320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种语音转换模型的训练方法，所述方法包括：确定第一训练数据；所述第一训练数据包括：N个训练样本；根据所述N个训练样本，对语音转换模型进行训练；所述对语音转换模型进行训练，包括：从所述训练样本对应的语音识别结果中，滤除所述训练样本对应的音色信息。

图10是本发明实施例中服务端的结构示意图。该服务端1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务端中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务端1900上执行存储介质1930中的一系列指令操作。

服务端1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明实施例所提供的一种语音转换模型的训练方法、一种语音转换方法、一种语音转换模型的训练装置、一种语音转换装置、一种用于训练语音转换模型的方法、一种用于语音转换的装置和一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音转换模型的训练方法，其特征在于，所述方法包括：

确定第一训练数据；所述第一训练数据包括：N个训练样本；

根据所述N个训练样本，对语音转换模型进行训练；

所述对语音转换模型进行训练，包括：

2.根据权利要求1所述的方法，其特征在于，从所述训练样本对应的语音识别结果中，滤除所述训练样本对应的音色信息，包括：

对所述训练样本对应的语音识别结果进行特征提取；

根据至少部分的特征提取结果，进行所述训练样本对应的说话人预测；

确定预测结果与预置说话人标识之间的第一误差，以在反向传播过程中，根据所述第一误差对所述特征提取的参数进行更新；其中，所述N个训练样本对应相同的预置说话人标识。

3.根据权利要求1所述的方法，其特征在于，从所述训练样本对应的语音识别结果中，滤除所述训练样本对应的音色信息，包括：

对所述训练样本对应的语音识别结果进行特征提取；

确定预测结果与所述训练样本对应实际说话人标识之间的第二误差；

对所述第二误差进行梯度反转，以在反向传播过程中，根据反转误差对所述特征提取的参数进行更新。

4.根据权利要求2或3所述的方法，其特征在于，对所述训练样本对应的语音识别结果进行特征提取，包括：

对所述训练样本对应的语音识别结果进行特征提取处理，以得到第一特征；

对所述训练样本对应的语音识别结果进行离散处理和特征提取处理，以得到第二特征；

针对所述训练样本对应的预设说话人，确定对应的第三特征；

对所述第一特征、所述第二特征和所述第三特征进行融合。

5.根据权利要求1至3中任一所述的方法，其特征在于，所述语音转换模型包括：编码器和解码器；所述编码器从所述训练样本对应的语音识别结果中，滤除所述训练样本对应的音色信息；

所述对所述语音转换模型进行训练，还包括：

所述解码器根据所述编码器输出的处理结果，确定所述训练样本及其说话人对应的声学特征。

6.根据权利要求1至3中任一所述的方法，其特征在于，在根据所述N个训练样本，对所述语音转换模型进行训练后，所述方法还包括：

确定第二训练数据；所述第二训练数据包括：目标说话人的语音样本；

根据所述目标说话人的语音样本，对所述语音转换模型进行自适应训练；

所述对所述语音转换模型进行自适应训练，包括：

从所述语音样本对应的语音识别结果中，滤除所述语音样本对应的音色信息。

7.一种语音转换方法，其特征在于，包括：

对所述源语音进行语音转换；

8.根据权利要求7所述的方法，其特征在于，在所述语音转换模型的训练过程中，对训练样本对应的语音识别结果进行特征提取，根据至少部分的特征提取结果，进行说话人预测，并确定预测结果与预置说话人标识之间的第一误差，以在反向传播过程中，根据所述第一误差对所述特征提取的参数进行更新；其中，所述语音转换模型对应的N个训练样本对应相同的预置说话人标识。

9.根据权利要求7所述的方法，其特征在于，在所述语音转换模型的训练过程中，对所述训练样本对应的语音识别结果进行特征提取，根据至少部分的特征提取结果，进行所述训练样本对应的说话人预测，确定预测结果与所述训练样本对应实际说话人标识之间的第二误差，对所述第二误差进行梯度反转，以在反向传播过程中，根据反转误差对所述特征提取的参数进行更新。

10.一种语音转换模型的训练装置，其特征在于，所述装置包括：

其中，所述第一训练模块包括：

11.一种语音转换装置，其特征在于，包括：

所述转换模块包括：

12.一种用于训练语音转换模型的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，所述程序被一个或者一个以上处理器执行时，实现权利要求1至6中任一所述方法的步骤。

13.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至6中一个或多个所述的方法。

14.一种用于语音转换的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，所述程序被一个或者一个以上处理器执行时，实现权利要求7至9中任一所述方法的步骤。

15.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求7至9中一个或多个所述的方法。