CN114360557B

CN114360557B - 语音音色转换方法、模型训练方法、装置、设备和介质

Info

Publication number: CN114360557B
Application number: CN202111579876.2A
Authority: CN
Inventors: 王俊超; 陈怿翔; 孙涛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-11-01
Anticipated expiration: 2041-12-22
Also published as: CN114360557A; US20230127787A1

Abstract

本公开提供了一种语音音色转换方法、模型训练方法、装置、设备和介质，涉及人工智能领域，具体为深度学习、语音合成和计算机视觉技术领域。方案为：采用语音音色转换模型中的编码分支对样本音频进行编码，得到目标声学特征；对样本音频所标注的真实文本序列进行特征提取，得到目标文本特征；根据目标声学特征和目标文本特征之间的差异对编码分支进行训练；基于与样本音频携带的标识信息对应的原始音色，采用语音音色转换模型中的解码分支对目标文本特征进行解码，得到具有原始音色的第一频谱特征；对样本音频进行频谱特征提取，得到第二频谱特征；根据第一频谱特征和第二频谱特征之间的差异对解码分支进行训练。由此，可提升语音转换的音色效果。

Description

语音音色转换方法、模型训练方法、装置、设备和介质

技术领域

本公开涉及人工智能领域，具体为深度学习、语音合成和计算机视觉技术领域，尤其涉及语音音色转换方法、模型训练方法、装置、设备和介质。

背景技术

语音转换技术，或称为语音音色转换技术，是语音信号处理的一个研究分支，涵盖了说话人识别、语音识别及语音合成等领域的内容，拟在保留原有的语义信息不变的情况下，改变语音的个性化信息，使一个特定说话人(即源说话人)的语音听起来像另一个特定说话人(即目标说话人)的语音。

发明内容

本公开提供了一种用于语音音色转换方法、模型训练方法、装置、设备和介质。

根据本公开的一方面，提供了一种模型训练方法，包括：

获取携带标识信息的样本音频，并采用语音音色转换模型中的编码分支，对所述样本音频进行编码，以得到目标声学特征；

对所述样本音频所标注的真实文本序列进行特征提取，以得到目标文本特征；

根据所述目标声学特征和所述目标文本特征之间的第一差异，对所述编码分支进行训练，并基于与所述标识信息对应的原始音色，采用语音音色转换模型中的解码分支对所述目标文本特征进行解码，以得到具有所述原始音色的第一频谱特征；

对所述样本音频进行频谱特征提取，得到第二频谱特征，并根据所述第一频谱特征和所述第二频谱特征之间的第二差异，对所述解码分支进行训练。

根据本公开的另一方面，提供了一种语音音色转换方法，包括：

获取源语音和目标标识；

采用语音音色转换模型中的编码分支，对所述源语音进行编码，以得到目标声学特征；

基于所述目标标识对应的目标音色，采用所述语音音色转换模型中的解码分支对所述目标声学特征进行解码，得到具有目标音色的频谱特征；

采用声码器对所述频谱特征进行语音还原，得到与所述目标音色对应的目标语音。

根据本公开的又一方面，提供了一种模型训练装置，包括：

获取模块，用于获取携带标识信息的样本音频；

编码模块，用于采用语音音色转换模型中的编码分支，对所述样本音频进行编码，以得到目标声学特征；

提取模块，用于对所述样本音频所标注的真实文本序列进行特征提取，以得到目标文本特征；

训练模块，用于根据所述目标声学特征和所述目标文本特征之间的第一差异，对所述编码分支进行训练；

解码模块，用于基于与所述标识信息对应的原始音色，采用语音音色转换模型中的解码分支对所述目标文本特征进行解码，以得到具有所述原始音色的第一频谱特征；

所述提取模块，还用于对所述样本音频进行频谱特征提取，得到第二频谱特征；

所述训练模块，还用于根据所述第一频谱特征和所述第二频谱特征之间的第二差异，对所述解码分支进行训练。

根据本公开的再一方面，提供了一种语音音色转换装置，包括：

获取模块，用于获取源语音和目标标识；

编码模块，用于采用语音音色转换模型中的编码分支，对所述源语音进行编码，以得到目标声学特征；

解码模块，用于基于所述目标标识对应的目标音色，采用所述语音音色转换模型中的解码分支对所述目标声学特征进行解码，得到具有目标音色的频谱特征；

还原模块，用于采用声码器对所述频谱特征进行语音还原，得到与所述目标音色对应的目标语音。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述另一方面提出的语音音色转换方法，或者，执行本公开上述一方面提出的模型训练方法。

根据本公开的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述另一方面提出的语音音色转换方法，或者，执行本公开上述一方面提出的模型训练方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述另一方面提出的语音音色转换方法，或者，实现本公开上述一方面提出的模型训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例一所提供的模型训练方法的流程示意图；

图2为本公开实施例二所提供的模型训练方法的流程示意图；

图3为本公开实施例三所提供的模型训练方法的流程示意图；

图4为本公开实施例四所提供的第二特征提取网络的训练过程示意图；

图5为本公开实施例五所提供的模型训练方法的流程示意图；

图6为本公开实施例六所提供的语音音色转换模型的训练过程示意图；

图7为本公开实施例七所提供的语音音色转换方法的流程示意图；

图8为本公开实施例八所提供的语音音色转换方法的流程示意图；

图9为本公开实施例九所提供的语音音色转换模型的预测过程示意图；

图10为本公开实施例九所提供的模型训练装置的结构示意图；

图11为本公开实施例八所提供的语音音色转换装置的结构示意图；

图12示出了可以用来实施本公开任一实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

语音转换越来越受关注，技术方向可通过模型所需语料划分，分为平行语料和非平行语料两个方向。其中，语音转换的目的是将源说话人的语音的音色转为目标说话人的音色，并保持语音的表达内容(即语义信息)不变。

平行语料语音转换，是指在录制所需的语料时，需要源说话人和目标说话人录制相同文本的音频。在模型训练时，由于不同人的语速可能不同，每个人在读同一句话时，录制语音的时长可能存在差异，因此从文本内容相同的音频中提取出的源说话人和目标说话人的音频特征序列的长度可能不同。因此需要通过一些对齐方法将源说话人和目标说话人的音频特征序列的长度进行对齐，这样就可以构造一个模型，通过输入源说话人的音频特征序列，来预测目标说话人的音频特征序列。在测试阶段，将源说话人的语音提取音频特征，并将提取的源说话人的音频特征序列输入模型，由模型预测目标说话人的音频特征序列，之后，通过声码器将预测的音频特征序列转换为语音。

举例而言，假设源说话人为A，目标说话人为B，想要构建A转B的平行语料语音转换系统，需要A和B同时对一套文本进行音频录制。假设其中一句文本内容为“我要去上学”，A读这句话用了1.2s，提取的音频帧为120帧，音频特征序列包括120个元素；B读这句话用了1.5s,提取的音频帧为150帧，音频特征序列包括150个元素。通过序列对齐方法，将A的音频特征序列的长度与B的音频特征序列的长度对齐，即扩展到150个元素，这样就可以通过模型来对这两个音频特征序列进行拟合了。

非平行语料语音转换，需要录制目标说话人的语音，训练时不需要源说话人的语音，通常的方法有基于音素概率图的方法和自重构的方法。

其中，基于音素概率图的方法，首先将目标说话人的音频通过语音识别模型提取一种表达说话内容的ppg(Phonetic Posteriorgram，语音后验图)特征，然后通过模型建模ppg特征和音频的Mel(梅尔)特征的联系。在测试时，源说话人通过语音识别模型提取ppg特征，并输入至经过训练的语音音色转换模型，即可得到语音音色转换后的特征。

基于自重构的方法，总体思路为：在训练阶段，通过编码器将音频对应的声学特征中的内容信息和音色信息进行解耦，再通过解码器还原信息，进行自重构训练。

目前，基于ppg特征的平行语料语音转换的应用范围较广，工业界大多采用该方法进行语音转换系统的构建。但是，ppg特征表达的内容信息中仍然包含许多说话人信息(比如音色信息)，这导致了在实际语音转换的过程中，源说话人的说话内容和音色的解耦不够充分，进而导致语音转换后的音频的音色与目标发音人的音色不匹配。

针对上述问题，本公开提出一种语音音色转换方法、模型训练方法、装置、设备和介质。

下面参考附图描述本公开实施例的语音音色转换方法、模型训练方法、装置、设备和介质。

图1为本公开实施例一所提供的模型训练方法的流程示意图。

本公开实施例以该模型训练方法被配置于模型训练装置中来举例说明，该模型训练装置可以应用于任一电子设备中，以使该电子设备可以执行模型训练功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑、移动终端、服务器等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该模型训练方法可以包括以下步骤：

步骤101，获取携带标识信息的样本音频，并采用语音音色转换模型中的编码分支，对样本音频进行编码，以得到目标声学特征。

在本公开实施例中，对样本音频的获取方式不作限制，比如，可以从现有的训练集获取，或者，还可以通过人工输入的方式生成，等等，本公开对此并不做限制。

在本公开实施例中，样本音频携带的标识信息，用于标识该样本音频对应的说话人(或发音者)。例如，标识信息可以为说话人的标识(比如ID)。

举例而言，说话人A录制了一句话，得到样本音频1，则该样本音频1携带的标识信息可以为说话人A的ID，再例如，说话人B录制了一句话，得到样本音频2，则该样本音频2携带的标识信息可以为说话人B的ID。

在本公开实施例中，可以采用语音音色转换模型中的编码分支，对样本音频进行编码，以得到目标声学特征。

步骤102，对样本音频所标注的真实文本序列进行特征提取，以得到目标文本特征。

在本公开实施例中，可以基于文本编码方式，对样本音频所标注的真实文本序列进行特征提取，以得到目标文本特征。

步骤103，根据目标声学特征和目标文本特征之间的第一差异，对编码分支进行训练，并基于与标识信息对应的原始音色，采用语音音色转换模型中的解码分支对目标文本特征进行解码，以得到具有原始音色的第一频谱特征。

在本公开实施例中，可以根据目标声学特征和目标文本特征之间的第一差异，对语音音色转换模型中的编码分支进行训练。比如，可以根据第一差异，生成编码分支对应的第一损失函数，其中，第一损失函数的取值与第一差异成正向关系，即第一差异越小，第一损失函数的取值越小，反之，第一差异越大，第一损失函数的取值越大。

需要说明的是，上述仅以编码分支训练的终止条件为第一损失函数的取值最小化进行示例，实际应用时，也可以设置其它的终止条件，比如终止条件还可以为训练次数达到设定的次数阈值，等等，本公开对此并不做限制。

应当理解的是，根据样本音频所标注的真实文本序列对应的文本特征，指导编码分支进行训练，可以使得编码分支输出的声学特征更倾向于包含样本音频中的内容信息(或语义信息)，而不包含说话人信息(比如音色信息)，或者包含更少的说话人信息，从而提升后续语音转换的音色效果。

在本公开实施例中，还可以基于与标识信息对应的原始音色，采用语音音色转换模型中的解码分支对目标文本特征进行解码，以得到具有原始音色的频谱特征，本公开中记为第一频谱特征。比如，第一频谱特征可以为Mel特征、MFCC(Mel-frequency cepstralcoefficients，梅尔倒谱系数)特征等频谱特征。

步骤104，对样本音频进行频谱特征提取，得到第二频谱特征，并根据第一频谱特征和第二频谱特征之间的第二差异，对解码分支进行训练。

在本公开实施例中，可以对样本音频进行频谱特征提取，本公开中将提取的频谱特征记为第二频谱特征，该第二频谱特征可以为Mel特征、MFCC特征等频谱特征。

在本公开实施例中，可以根据第一频谱特征和第二频谱特征之间的第二差异，对语音音色转换模型中的解码分支进行训练。其中，解码分支的训练目的为：学习得到标识信息与音色之间的对应关系，即在解码分支的训练过程中，可以根据第一频谱特征和第二频谱特征之间的第二差异，更新标识信息对应的原始音色，使得更新后的原始音色与样本音频对应的音色匹配。

作为一种可能的实现方式，可以根据第二差异，生成解码分支对应的第二损失函数，其中，第二损失函数的取值与第二差异成正向关系，即第二差异越小，第二损失函数的取值越小，反之，第二差异越大，第二损失函数的取值越大。

需要说明的是，上述仅以解码分支训练的终止条件为第二损失函数的取值最小化进行示例，实际应用时，也可以设置其它的终止条件，比如终止条件还可以为训练次数达到设定的次数阈值，等等，本公开对此并不做限制。

作为一种示例，可以预先由不同的说话人(比如儿童、女性成年人、男性成年人、老年人等)录制不同的样本音频，各样本音频携带有对应的说话人的标识信息，从而采用本公开任一方法实施例，根据上述样本音频对语音音色转换模型中的编码分支和解码分支进行训练，可以使得语音音色转换模型学习得到标识信息与音色之间的对应关系，例如，学习得到儿童的标识信息与儿童的音色之间的对应关系，老年人的标识信息与老年人的音色之间的对应关系。

进而在预测阶段，对于任意一个用户输入的语音，本公开中记为源语音，可以采用语音音色转换模型对该源语音进行音色转换，得到目标语音。比如，用户想要将自己的源语音的音色转换为儿童的音色，则可以采用语音音色转换模型，基于儿童的标识信息对应的目标音色，对源语音进行音色转换，得到具有目标音色的目标语音。

本公开实施例的模型训练方法，通过采用语音音色转换模型中的编码分支对样本音频进行编码，得到目标声学特征，并对样本音频所标注的真实文本序列进行特征提取，得到目标文本特征；根据目标声学特征和目标文本特征之间的第一差异，对编码分支进行训练，并基于与样本音频携带的标识信息对应的原始音色，采用语音音色转换模型中的解码分支对目标文本特征进行解码，得到具有原始音色的第一频谱特征；对样本音频进行频谱特征提取，得到第二频谱特征，并根据第一频谱特征和第二频谱特征之间的第二差异，对解码分支进行训练。由此，根据样本音频所标注的真实文本序列对应的文本特征和编码分支输出的声学特征之间的差异，对编码分支进行训练，可以使得编码分支输出的声学特征更倾向于包含样本音频中的内容信息(或语义信息)，而非包含说话人信息(比如音色信息)，从而可以提升后续语音转换的音色效果。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息(比如样本音频、标识信息、源语音等)的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。

为了清楚说明本公开上述实施例中语音音色转换模型中的编码分支是如何对样本音频进行编码的，本公开还提出一种模型训练方法。

图2为本公开实施例二所提供的模型训练方法的流程示意图。

如图2所示，该模型训练方法可以包括以下步骤：

步骤201，获取携带标识信息的样本音频。

步骤201的执行过程可以参见上述实施例，在此不做赘述。

步骤202，采用语音音色转换模型中的编码分支中的第一特征提取网络，对样本音频进行声学特征提取，得到原始声学特征。

在本公开实施例中，原始声学特征可以为Mel特征、Fbank(Filter bank)特征等声学特征。

在本公开实施例中，可以采用语音音色转换模型中的编码分支中的第一特征提取网络，对样本音频进行声学特征提取，得到原始声学特征。

步骤203，根据原始声学特征，采用编码分支中的第二特征提取网络确定样本音频中的至少一帧音频帧属于各音素的概率，以得到音素概率序列；其中，音素概率序列中的各元素，用于指示对应音频帧属于各音素的概率。

在本公开实施例中，音素可以理解为人发音的基本单元，每一帧音频帧均对应一个基本的发音单元。

在本公开实施例中，音素概率序列，又可以称为音素概率图特征、ppg特征，此时，第二特征提取网络可以为音素概率图网络(或音素概率图子模型)、ppg网络(或ppg子模型)。

在本公开实施例中，可以采用语音音色转换模型中的编码分支中的第二特征提取网络，根据原始声学特征，确定样本音频中的至少一帧音频帧属于各音素的概率，得到音素概率序列，其中，音素概率序列中的各元素，用于指示对应音频帧属于各音素的概率。

举例而言，假设样本音频的时长为1.2s，且0.01s提取一帧音频帧，则该样本音频具有120帧音频帧，音素概率序列具有120个元素，每个元素用于指示对应音频帧属于各音素的概率。

步骤204，采用编码分支中的第三特征提取网络对音素概率序列进行编码，以得到目标声学特征。

在本公开实施例中，可以采用语音音色转换模型中的编码分支中的第三特征提取网络对音素概率序列进行编码，以提取更深层次的声学特征，本公开中记为目标声学特征。

步骤205，对样本音频所标注的真实文本序列进行特征提取，以得到目标文本特征。

步骤206，根据目标声学特征和目标文本特征之间的第一差异，对编码分支进行训练，并基于与标识信息对应的原始音色，采用语音音色转换模型中的解码分支对目标文本特征进行解码，以得到具有原始音色的第一频谱特征。

步骤207，对样本音频进行频谱特征提取，得到第二频谱特征，并根据第一频谱特征和第二频谱特征之间的第二差异，对解码分支进行训练。

步骤205至207的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

本公开实施例的模型训练方法，通过采用编码分支中的第一特征提取网络，对样本音频进行声学特征提取，得到原始声学特征；根据原始声学特征，采用编码分支中的第二特征提取网络确定样本音频中的至少一帧音频帧属于各音素的概率，以得到音素概率序列；其中，音素概率序列中的各元素，用于指示对应音频帧属于各音素的概率；采用编码分支中的第三特征提取网络对音素概率序列进行编码，以得到目标声学特征。由此，可以实现通过编码分支中的三个特征提取网络对样本音频进行有效编码，得到目标声学特征。

在本公开实施例的一种可能的实现方式中，为了提升编码分支输出的声学特征的准确性和有效性，还可以对编码分支中的第二特征提取网络进行训练。下面结合图3，对上述过程进行详细说明。

图3为本公开实施例三所提供的模型训练方法的流程示意图。

如图3所示，在上述图1或图2所示实施例的基础上，该模型训练方法还可以包括以下步骤：

步骤301，根据音素概率序列，确定样本音频对应的预测文本序列。

在本公开实施例中，可以根据音素概率序列，确定样本音频对应的预测文本序列，即可以根据音素概率序列中各元素，确定样本音频对应的预测文本序列。

举例而言，假设音素概率序列具有4个元素，第一个元素指示第一帧音频帧属于音素1的概率最大，第二个元素指示第二帧音频帧属于音素2的概率最大，第三个元素指示第三帧音频帧属于音素3的概率最大，第四个元素指示第四帧音频帧属于音素4的概率最大，则预测文本序列可以根据音素1、音素2、音素3和音素4这四个音素确定。

步骤302，根据预测文本序列和真实文本序列，对第二特征提取网络进行训练。

在本公开实施例中，可以根据预测文本序列和真实文本序列，对第二特征提取网络进行训练。比如，可以根据预测文本序列和真实文本序列之间的差异，生成第二特征提取网络对应的损失函数，该损失函数与上述差异成正向关系，从而可以根据损失函数的取值，对第二特征提取网络进行训练，以使损失函数的取值最小化。

需要说明的是，本公开仅以采用同一样本音频，同时对第二特征提取网络、语音音色转换模型中的编码分支(比如第一特征提取网络和第三特征提取网络)和解码分支进行训练示例，实际应用时，也可以采用其他样本音频，预先对第二特征提取网络进行训练，之后，在语音音色转换模型的训练过程中，可以采用同一样本音频，同时对编码分支中的各特征提取网络，以及解码分支进行训练，本公开对此并不做限制。

需要说明的是，预测文本序列的长度是与样本音频对应的音频帧的帧数匹配的，当样本音频的音频帧的帧数不同时，预测文本序列的长度不同，而样本音频所标注的真实文本序列的长度是确定的，此时，可能导致真实文本序列的长度与预测文本序列的长度不匹配。比如，真实文本序列为“abcd”，该真实文本序列的长度为4，而预测文本序列为“AAABBCCCD”，该预测文本序列的长度为9。

因此，在本公开实施例的一种可能的实现方式中，为了提升第二特征提取网络的预测效果，可以采用序列对齐方法，根据预测文本序列的长度，对真实文本序列进行对齐处理，以使对齐处理后的真实文本序列的长度与预测文本序列的长度匹配。仍以上述例子进行示例，可以采用序列对齐方法，将真实文本序列对齐为“aaabbcccd”。

作为一种示例，可以采用GMM(Gaussian Mixture Model，高斯混合模型)、HMM(Hidden Markov Model，隐马尔科夫模型)等深度学习模型，根据预测文本序列的长度，对真实文本序列进行对齐处理，以使对齐处理后的真实文本序列的长度与预测文本序列的长度匹配。

从而本公开中，可以根据预测文本序列和对齐处理后的真实文本序列之间的第三差异，对第二特征提取网络进行训练。比如，可以根据第三差异，生成第二特征提取网络对应的第三损失函数，其中，第三损失函数的取值与第三差异成正向关系，即第三差异越小，第三损失函数的取值越小，反之，第三差异越大，第三损失函数的取值越大。

需要说明的是，上述仅以第二特征提取网络训练的终止条件为第三损失函数的取值最小化进行示例，实际应用时，也可以设置其它的终止条件，比如终止条件还可以为训练次数达到设定的次数阈值，等等，本公开对此并不做限制。

作为一种示例，以编码分支中的第二特征提取网络为ppg网络(或ppg子模型)，音素概率序列为ppg特征进行示例，第二特征提取网络的训练过程可以如图4所示，可以采用编码分支中的第一特征提取网络对样本音频进行声学特征提取，将提取的原始声学特征输入至第二特征提取网络(即ppg网络)，由第二特征提取网络根据原始声学特征，预测样本音频中各帧音频帧属于各音素的概率，得到音素概率序列(即ppg特征)。

之后，可以根据音素概率序列，确定预测文本序列，并采用序列对齐方法，将样本音频所标注的真实文本序列的长度强制对齐至预测文本序列的长度，从而可以根据预测文本序列的长度和对齐处理后的真实文本序列之间的差异，生成第二特征提取网络的损失函数，进而可以根据该损失函数对第二特征提取网络进行训练。

本公开实施例的模型训练方法，通过根据音素概率序列，确定样本音频对应的预测文本序列；根据预测文本序列和真实文本序列，对第二特征提取网络进行训练。由此，通过对第二特征提取网络进行训练，可以提升编码分支的预测效果。

与图3所示的原理类似，目标声学特征的长度是与音素概率序列的长度匹配的，音素概率序列的长度是与样本音频对应的音频帧的帧数匹配的，而真实文本序列的长度可能与音频帧的帧数不匹配，因此，为了提升解码分支的训练效果，还可以根据音素概率序列的长度，对真实文本序列进行对齐处理，从而对上述对齐处理后的真实文本序列进行特征提取，可以使得提取得到的目标文本特征的长度与目标声学特征的长度匹配，进而采用长度匹配的两个特征对编码分支进行训练，可以提升编码分支的训练效果。下面结合图5，对上述过程进行详细说明。

图5为本公开实施例五所提供的模型训练方法的流程示意图。

如图5所示，该模型训练方法可以包括以下步骤：

步骤501，获取携带标识信息的样本音频。

步骤502，采用语音音色转换模型中的编码分支中的第一特征提取网络，对样本音频进行声学特征提取，得到原始声学特征。

步骤503，根据原始声学特征，采用编码分支中的第二特征提取网络确定样本音频中的至少一帧音频帧属于各音素的概率，以得到音素概率序列；其中，音素概率序列中的各元素，用于指示对应音频帧属于各音素的概率。

步骤504，采用编码分支中的第三特征提取网络对音素概率序列进行编码，以得到目标声学特征。

步骤501至504的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤505，根据音素概率序列的长度，对样本音频所标注的真实文本序列进行对齐处理，以使对齐处理后的真实文本序列的长度与音素概率序列的长度匹配。

在本公开实施例中，可以采用序列对齐方法，根据音素概率序列的长度，对样本音频所标注的真实文本序列进行对齐处理，以使对齐处理后的真实文本序列的长度与音素概率序列的长度匹配。

举例而言，假设音素概率序列的长度为9，该音素概率序列所指示的预测文本序列为“AAABBCCCD”，而真实文本序列的长度为4，该真实文本序列为“abcd”，则可以将真实文本序列的长度强制对齐至音素概率序列的长度，对齐处理后的真实文本序列可以为“aaabbcccd”。

步骤506，对对齐处理后的真实文本序列进行特征提取，以得到目标文本特征。

在本公开实施例中，可以基于文本编码方式，对上述对齐处理后的真实文本序列进行特征提取，以得到目标文本特征。

步骤507，根据目标声学特征和目标文本特征之间的第一差异，对编码分支进行训练，并基于与标识信息对应的原始音色，采用语音音色转换模型中的解码分支对目标文本特征进行解码，以得到具有原始音色的第一频谱特征。

步骤508，对样本音频进行频谱特征提取，得到第二频谱特征，并根据第一频谱特征和第二频谱特征之间的第二差异，对解码分支进行训练。

步骤507至508的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

作为一种示例，以编码分支中的第二特征提取网络为ppg网络(或ppg子模型)，音素概率序列为ppg特征，第三特征提取网络为ppg编码器进行示例，语音音色转换模型的训练过程可以如图6所示，可以通过编码分支中的第一特征提取网络对样本音频进行声学特征提取，将提取到的原始声学特征输入至ppg网络，得到ppg特征，并采用ppg编码器对ppg特征进行编码，以提取更深层次的声学特征，本公开中记为目标声学特征。

可以根据ppg特征的长度，对样本音频所标注的真实文本序列(比如abcd)进行对齐处理，并利用文本编码器对上述对齐处理后的真实文本序列进行编码，得到目标文本特征，从而可以根据目标文本序列和目标声学特征之间的差异，对编码分支进行训练。

并且，还可以通过语音音色转换模型中的解码分支，根据样本音频携带的标识信息(比如说话人ID)对应的音色，对文本编码器的输出的特征进行解码，得到具有上述音色的第一频谱特征(比如Mel特征)，从而可以根据样本音频提取的第二频谱特征和第一频谱特征之间的差异，对解码分支进行训练。

本公开实施例的模型训练方法，通过根据音素概率序列的长度，对真实文本序列进行对齐处理，以使对齐处理后的真实文本序列的长度与音素概率序列的长度匹配；对对齐处理后的真实文本序列进行特征提取，以得到目标文本特征。由此，采用长度匹配的两个特征之间的差异，对编码分支进行训练，可以提升编码分支的训练效果。

上述为语音音色转换模型的训练方法所对应的各实施例，本公开还提出一种语音音色转换模型的应用方法，即语音音色转换方法。

图7为本公开实施例七所提供的语音音色转换方法的流程示意图。

如图7所示，该语音音色转换方法可以包括以下步骤：

步骤701，获取源语音和目标标识。

在本公开实施例中，对源语音的获取方式不作限制，比如，可以从现有的测试集获取，或者，还可以通过人工输入的方式生成，等等，本公开对此并不做限制。

在本公开实施例中，目标标识为待转换音色(本公开中记为目标音色)对应的标识信息，该目标标识是根据用户的选取操作确定的。举例而言，语音音色转换界面上可以设置有多个音色转换选项，每个音色转换选项对应一个标识信息，比如，儿童音色选项对应儿童的标识信息，老年人音色选项对应老年人的标识信息，等等，若用户选取了一个音色转换选项，则可以将选取的音色转换选项所对应的标识信息，作为目标标识。

步骤702，采用语音音色转换模型中的编码分支，对源语音进行编码，得到目标声学特征。

在本公开实施例中，语音音色转换模型可以采用前述任一实施例提出的模型训练方法训练得到的。

在本公开实施例中，可以采用语音音色转换模型中的编码分支，对源语音进行编码，得到目标声学特征。

步骤703，基于目标标识对应的目标音色，采用语音音色转换模型中的解码分支对目标声学特征进行解码，得到具有目标音色的频谱特征。

在本公开实施例中，语音音色转换模型中的解码分支已学习得到标识信息与音色之间的对应关系，可以将目标声学特征输入至解码分支，由解码分支基于目标标识对应的目标音色，对目标声学特征进行解码，得到具有目标音色的频谱特征，该频谱特征可以为Mel特征、MFCC特征等频谱特征。

步骤704，采用声码器对频谱特征进行语音还原，得到与目标音色对应的目标语音。

在本公开实施例中，可以采用声码器对频谱特征进行语音还原，得到与目标音色对应的目标语音。

作为一种应用场景，语音音色转换界面上可以设置有多个音色转换选项，比如儿童音色选项、女性音色选项、男性音色选项、老年人音色选项等，假设源说话人选择了儿童音色选项，则可以通过语音音色转换模型和声码器，将源说话人的源语音进行音色转换，得到具有儿童音色的目标语音。

本公开实施例的语音音色转换方法，通过获取源语音和目标标识，并采用语音音色转换模型中的编码分支，对源语音进行编码，以得到目标声学特征；基于目标标识对应的目标音色，采用语音音色转换模型中的解码分支对目标声学特征进行解码，得到具有目标音色的频谱特征；采用声码器对频谱特征进行语音还原，得到与目标音色对应的目标语音。由此，基于深度学习技术，对语音进行音色转换，可以提升音色转换效果。

为了清楚说明上述实施例中编码分支是如何对源语音进行编码，得到目标声学特征的，本公开还提出一种语音音色转换方法。

图8为本公开实施例八所提供的语音音色转换方法的流程示意图。

如图8所示，该语音音色转换方法可以包括以下步骤：

步骤801，获取源语音和目标标识。

步骤802，采用语音音色转换模型中的编码分支中的第一特征提取网络，对源语音进行声学特征提取，得到原始声学特征。

在本公开实施例中，原始声学特征可以为Mel特征、Fbank特征等声学特征。

在本公开实施例中，可以采用语音音色转换模型中的编码分支中的第一特征提取网络，对源语音进行声学特征提取，得到原始声学特征。

步骤803，根据原始声学特征，采用编码分支中的第二特征提取网络确定源语音中的至少一帧语音帧属于各音素的概率，以得到音素概率序列；其中，音素概率序列中的各元素，用于指示对应语音帧属于各音素的概率。

在本公开实施例中，可以采用语音音色转换模型中的编码分支中的第二特征提取网络，根据原始声学特征，确定源语音中的至少一帧语音帧属于各音素的概率，得到音素概率序列，其中，音素概率序列中的各元素，用于指示对应语音帧属于各音素的概率。

举例而言，假设源语音的时长为1.2s，且0.01s提取一帧语音帧，则该源语音具有120帧语音帧，音素概率序列具有120个元素，每个元素用于指示对应语音帧属于各音素的概率。

步骤804，采用编码分支中的第三特征提取网络对音素概率序列进行编码，以得到目标声学特征。

步骤805，基于目标标识对应的目标音色，采用语音音色转换模型中的解码分支对目标特征进行解码，得到具有目标音色的频谱特征。

步骤806，采用声码器对频谱特征进行语音还原，得到与目标音色对应的目标语音。

步骤805至806的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

作为一种示例，以编码分支中的第二特征提取网络为ppg网络(或ppg子模型)，音素概率序列为ppg特征，第三特征提取网络为ppg编码器进行示例，语音音色转换模型的预测过程可以如图9所示，可以采用编码分支中的第一特征提取网络对源说话人的源语音进行声学特征提取，将提取到的原始声学特征输入至ppg网络，得到ppg特征，并采用ppg编码器对ppg特征进行编码，以提取更深层次的声学特征，本公开中记为目标声学特征。

通过解码器根据目标说话人的标识信息，本公开中记为目标标识对应的目标音色，对目标声学特征进行解码，得到具有目标音色的频谱特征(比如Mel特征)，并通过声码器对上述频谱特征进行语音还原，得到与目标音色对应的目标语音。

本公开实施例的语音音色转换方法，通过采用编码分支中的第一特征提取网络，对源语音进行声学特征提取，得到原始声学特征；根据原始声学特征，采用编码分支中的第二特征提取网络确定源语音中的至少一帧语音帧属于各音素的概率，以得到音素概率序列；其中，音素概率序列中的各元素，用于指示对应语音帧属于各音素的概率；采用编码分支中的第三特征提取网络对音素概率序列进行编码，以得到目标声学特征。由此，可以实现通过编码分支中的三个特征提取网络对源语音进行有效编码，得到目标声学特征。

与上述图1至图5实施例提供的模型训练方法相对应，本公开还提供一种模型训练装置，由于本公开实施例提供的模型训练装置与上述图7至图8实施例提供的模型训练方法相对应，因此在模型训练方法的实施方式也适用于本公开实施例提供的模型训练装置，在本公开实施例中不再详细描述。

图10为本公开实施例九所提供的模型训练装置的结构示意图。

如图10所示，该模型训练装置1000可以包括：获取模块1010、编码模块1020、提取模块1030、训练模块1040以及解码模块1050。

其中，获取模块1010，用于获取携带标识信息的样本音频。

编码模块1020，用于采用语音音色转换模型中的编码分支，对样本音频进行编码，以得到目标声学特征。

提取模块1030，用于对样本音频所标注的真实文本序列进行特征提取，以得到目标文本特征。

训练模块1040，用于根据目标声学特征和目标文本特征之间的第一差异，对编码分支进行训练。

解码模块1050，用于基于与标识信息对应的原始音色，采用语音音色转换模型中的解码分支对目标文本特征进行解码，以得到具有原始音色的第一频谱特征。

提取模块1030，还用于对样本音频进行频谱特征提取，得到第二频谱特征。

训练模块1040，还用于根据第一频谱特征和第二频谱特征之间的第二差异，对解码分支进行训练。

在本公开实施例的一种可能的实现方式中，编码模块1020，具体用于：采用编码分支中的第一特征提取网络，对样本音频进行声学特征提取，得到原始声学特征；根据原始声学特征，采用编码分支中的第二特征提取网络确定样本音频中的至少一帧音频帧属于各音素的概率，以得到音素概率序列；其中，音素概率序列中的各元素，用于指示对应音频帧属于各音素的概率；采用编码分支中的第三特征提取网络对音素概率序列进行编码，以得到目标声学特征。

在本公开实施例的一种可能的实现方式中，该模型训练装置1000还可以包括：

确定模块，用于根据音素概率序列，确定样本音频对应的预测文本序列。

训练模块1040，还用于根据预测文本序列和真实文本序列，对第二特征提取网络进行训练。

在本公开实施例的一种可能的实现方式中，训练模块1040，具体用于：根据预测文本序列的长度，对真实文本序列进行对齐处理，以使对齐处理后的真实文本序列的长度与预测文本序列的长度匹配；根据预测文本序列和对齐处理后的真实文本序列之间的第三差异，对第二特征提取网络进行训练。

在本公开实施例的一种可能的实现方式中，提取模块1030，具体用于：根据音素概率序列的长度，对真实文本序列进行对齐处理，以使对齐处理后的真实文本序列的长度与音素概率序列的长度匹配；对对齐处理后的真实文本序列进行特征提取，以得到目标文本特征。

本公开实施例的模型训练装置，通过采用语音音色转换模型中的编码分支对样本音频进行编码，得到目标声学特征，并对样本音频所标注的真实文本序列进行特征提取，得到目标文本特征；根据目标声学特征和目标文本特征之间的第一差异，对编码分支进行训练，并基于与样本音频携带的标识信息对应的原始音色，采用语音音色转换模型中的解码分支对目标文本特征进行解码，得到具有原始音色的第一频谱特征；对样本音频进行频谱特征提取，得到第二频谱特征，并根据第一频谱特征和第二频谱特征之间的第二差异，对解码分支进行训练。由此，根据样本音频所标注的真实文本序列对应的文本特征和编码分支输出的声学特征之间的差异，对编码分支进行训练，可以使得编码分支输出的声学特征更倾向于包含样本音频中的内容信息(或语义信息)，而非包含说话人信息(比如音色信息)，从而可以提升后续语音转换的音色效果。

与上述图7至图8实施例提供的语音音色转换方法相对应，本公开还提供一种语音音色转换装置，由于本公开实施例提供的语音音色转换装置与上述图7至图8实施例提供的语音音色转换方法相对应，因此在语音音色转换方法的实施方式也适用于本公开实施例提供的语音音色转换装置，在本公开实施例中不再详细描述。

图11为本公开实施例八所提供的语音音色转换装置的结构示意图。

如图11所示，该语音音色转换装置1100可以包括：获取模块1110、编码模块1120、解码模块1130以及还原模块1140。

其中，获取模块1110，用于获取源语音和目标标识。

编码模块1120，用于采用语音音色转换模型中的编码分支，对源语音进行编码，得到目标声学特征。

解码模块1130，用于基于目标标识对应的目标音色，采用语音音色转换模型中的解码分支对目标声学特征进行解码，得到具有目标音色的频谱特征。

还原模块1140，用于采用声码器对频谱特征进行语音还原，得到与目标音色对应的目标语音。

在本公开实施例的一种可能的实现方式中，编码模块1130，具体用于：采用编码分支中的第一特征提取网络，对源语音进行声学特征提取，得到原始声学特征；根据原始声学特征，采用编码分支中的第二特征提取网络确定源语音中的至少一帧语音帧属于各音素的概率，以得到音素概率序列；其中，音素概率序列中的各元素，用于指示对应语音帧属于各音素的概率；采用编码分支中的第三特征提取网络对音素概率序列进行编码，以得到目标声学特征。

本公开实施例的语音音色转换装置，通过获取源语音和目标标识，并采用语音音色转换模型中的编码分支，对源语音进行编码，以得到目标声学特征；基于目标标识对应的目标音色，采用语音音色转换模型中的解码分支对目标声学特征进行解码，得到具有目标音色的频谱特征；采用声码器对频谱特征进行语音还原，得到与目标音色对应的目标语音。由此，基于深度学习技术，对语音进行音色转换，可以提升音色转换效果。

为了实现上述实施例，本公开还提供一种电子设备，该电子设备可以包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开上述任一实施例提出的语音音色转换方法或模型训练方法。

为了实现上述实施例，本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开上述任一实施例提出的语音音色转换方法或模型训练方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本公开上述任一实施例提出的语音音色转换方法或模型训练方法。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开任一实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)1202中的计算机程序或者从存储单元1208加载到RAM(Random AccessMemory，随机访问/存取存储器)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。I/O(Input/Output，输入/输出)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如上述语音音色转换方法或模型训练方法。例如，在一些实施例中，上述语音音色转换方法或模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的语音音色转换方法或模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述语音音色转换方法或模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(VirtualPrivate Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本公开实施例的技术方案，通过采用语音音色转换模型中的编码分支对样本音频进行编码，得到目标声学特征，并对样本音频所标注的真实文本序列进行特征提取，得到目标文本特征；根据目标声学特征和目标文本特征之间的第一差异，对编码分支进行训练，并基于与样本音频携带的标识信息对应的原始音色，采用语音音色转换模型中的解码分支对目标文本特征进行解码，得到具有原始音色的第一频谱特征；对样本音频进行频谱特征提取，得到第二频谱特征，并根据第一频谱特征和第二频谱特征之间的第二差异，对解码分支进行训练。由此，根据样本音频所标注的真实文本序列对应的文本特征和编码分支输出的声学特征之间的差异，对编码分支进行训练，可以使得编码分支输出的声学特征更倾向于包含样本音频中的内容信息(或语义信息)，而非包含说话人信息(比如音色信息)，从而可以提升后续语音转换的音色效果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型训练方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述采用语音音色转换模型中的编码分支，对所述样本音频进行编码，以得到目标声学特征，包括：

采用所述编码分支中的第一特征提取网络，对所述样本音频进行声学特征提取，得到原始声学特征；

根据所述原始声学特征，采用所述编码分支中的第二特征提取网络确定所述样本音频中的至少一帧音频帧属于各音素的概率，以得到音素概率序列；其中，所述音素概率序列中的各元素，用于指示对应音频帧属于各音素的概率；

采用所述编码分支中的第三特征提取网络对所述音素概率序列进行编码，以得到所述目标声学特征。

3.根据权利要求2所述的方法，其中，所述方法还包括：

根据所述音素概率序列，确定所述样本音频对应的预测文本序列；

根据所述预测文本序列和所述真实文本序列，对所述第二特征提取网络进行训练。

4.根据权利要求3所述的方法，其中，所述根据所述预测文本序列和所述真实文本序列，对所述第二特征提取网络进行训练，包括：

根据所述预测文本序列的长度，对所述真实文本序列进行对齐处理，以使对齐处理后的真实文本序列的长度与所述预测文本序列的长度匹配；

根据所述预测文本序列和所述对齐处理后的真实文本序列之间的第三差异，对所述第二特征提取网络进行训练。

5.根据权利要求2所述的方法，其中，所述对所述样本音频所标注的真实文本序列进行特征提取，以得到目标文本特征，包括：

根据所述音素概率序列的长度，对所述真实文本序列进行对齐处理，以使对齐处理后的真实文本序列的长度与所述音素概率序列的长度匹配；

对所述对齐处理后的真实文本序列进行特征提取，以得到所述目标文本特征。

6.一种语音音色转换方法，所述方法包括：

获取源语音和目标标识；

采用语音音色转换模型中的编码分支，对所述源语音进行编码，以得到目标声学特征，其中，所述语音音色转换模型是采用如权利要求1-5中任一项所述的方法训练得到的；

7.根据权利要求6所述的方法，其中，所述采用语音音色转换模型中的编码分支，对所述源语音进行编码，以得到目标声学特征，包括：

采用所述编码分支中的第一特征提取网络，对所述源语音进行声学特征提取，得到原始声学特征；

根据所述原始声学特征，采用所述编码分支中的第二特征提取网络确定所述源语音中的至少一帧语音帧属于各音素的概率，以得到音素概率序列；其中，所述音素概率序列中的各元素，用于指示对应语音帧属于各音素的概率；

8.一种模型训练装置，所述装置包括：

获取模块，用于获取携带标识信息的样本音频；

9.根据权利要求8所述的装置，其中，所述编码模块，具体用于：

10.根据权利要求9所述的装置，其中，所述装置还包括：

确定模块，用于根据所述音素概率序列，确定所述样本音频对应的预测文本序列；

所述训练模块，还用于根据所述预测文本序列和所述真实文本序列，对所述第二特征提取网络进行训练。

11.根据权利要求10所述的装置，其中，所述训练模块，具体用于：

12.根据权利要求9所述的装置，其中，所述提取模块，具体用于：

13.一种语音音色转换装置，所述装置包括：

获取模块，用于获取源语音和目标标识；

还原模块，用于采用声码器对所述频谱特征进行语音还原，得到与所述目标音色对应的目标语音；其中，所述语音音色转换模型是采用如权利要求1-5中任一项所述的方法训练得到的。

14.根据权利要求13所述的装置，其中，所述编码模块，具体用于：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的模型训练方法，或者，执行权利要求6-7中任一项所述的语音音色转换方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的模型训练方法，或者，执行权利要求6-7中任一项所述的语音音色转换方法。