CN115662386A

CN115662386A - 一种语音转换方法、装置、电子设备及存储介质

Info

Publication number: CN115662386A
Application number: CN202211274720.8A
Authority: CN
Inventors: 王瑞; 江明奇; 陈云琳; 叶顺平
Original assignee: Mobvoi Innovation Technology Co Ltd
Current assignee: Mobvoi Innovation Technology Co Ltd
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2023-01-31

Abstract

本公开提供了一种语音转换方法、装置、电子设备及存储介质，所述方法包括：根据完成数据增强处理的非目标发音人音频数据集和目标发音人音频数据对初始语音转换模型进行训练，得到目标语音转换模型；获取源发音人音频数据；将所述源发音人音频数据输入所述目标语音转换模型，获得目标音频数据，应用本方法可以使进行语音转换模型训练的音频数据具有多样性，通过完成数据增强处理的语音数据对语音转换模型进行训练，可以获得鲁棒性更好的目标语音转换模型，减少现实应用中语音转换性能的下降，在真实使用场景中使用目标语音转换模型进行语音转换时可以获得转换性能更好、更稳定的目标音频数据。

Description

一种语音转换方法、装置、电子设备及存储介质

技术领域

本公开涉及音频处理技术领域，尤其涉及一种语音转换方法、装置、电子设备及存储介质。

背景技术

语音转换(VC，Voice Conversion)指的是在保留原说话人说话内容的同时改变其音色到目标说话人音色的过程。现有的语音转换方法可以分为三类：1)直接转换的语音转换方法；2)基于特征解耦的语音转换方法；3)基于语音后验图特征的语音转换方法。直接转换的语音转换方法通常是利用生成对抗网络及其变形来完成语音转换；基于特征解耦的语音转换方法会利用编码器分别对音色信息和内容信息进行编码，然后再用解码器进行解码；基于语音后验图特征的语音转换方法包括语音识别和语音合成的过程，性能较为鲁棒。

在实际过程中通常需要借助语音转换模型来实现语音转换，为了使语音转换的效果更好就需要对语音转换模型进行训练。而现有的模型训练方式在对语音转换模型进行训练时一般采用干净的数据，即采用没有噪声污染的数据对语音转换模型进行训练，因此，在语音转换模型的测试阶段，语音转换模型对干净的数据具有良好的语音转换效果。但在现实应用中，完全干净的数据是很难获取的，一般都会掺杂有噪声，此时再通过现有的语音转换模型对数据进行转换，语音转换模型的转换性能会严重下降，比如经语音转换模型转换得到的语音数据会出现变调、音质变差等问题。

发明内容

本公开提供了一种语音转换方法、装置、电子设备及存储介质，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，提供了一种语音转换方法，所述方法包括：根据完成数据增强处理的非目标发音人音频数据集和目标发音人音频数据对初始语音转换模型进行训练，得到目标语音转换模型；获取源发音人音频数据；将所述源发音人音频数据输入所述目标语音转换模型，获得目标音频数据。

在一可实施方式中，所述根据完成数据增强处理的非目标发音人音频数据集和目标发音人音频数据对初始语音转换模型进行训练，得到目标语音转换模型，包括：获取初始非目标发音人音频数据集；对所述初始非目标发音人音频数据集中包含的非目标发音人音频数据进行数据增强处理得到基础音频数据集；根据所述基础音频数据集对所述初级语音转换模型进行训练得到基础语音转换模型；获取初始目标发音人音频数据；对所述初始目标发音人音频数据进行数据增强处理得到增强音频数据；根据所述增强音频数据对所述基础语音转换模型进行训练得到所述目标语音转换模型。

在一可实施方式中，所述根据所述基础音频数据集对所述初始语音转换模型进行训练得到基础语音转换模型，包括：对所述基础音频数据集进行特征提取处理，获得声学特征集和文本特征集；所述声学特征集为与所述基础音频数据集对应的梅尔特征集，所述文本特征集为与所述基础音频数据集对应的语音后验图特征集；将所述文本特征集作为所述初始语音转换模型的输入，所述声学特征集作为所述初始语音转换模型的输出，对所述初始语音转换模型进行训练得到所述基础语音转换模型。

在一可实施方式中，所述根据所述增强音频数据对所述基础语音转换模型进行训练得到所述目标语音转换模型，包括：对所述增强音频数据进行特征提取处理，得到第一声学特征和第一文本特征；所述第一声学特征为与所述增强音频数据对应的梅尔特征，所述第一文本特征为与所述增强音频数据对应的语音后验图特征；将所述第一文本特征作为所述基础语音转换模型的输入，所述第一声学特征作为所述基础语音转换模型的输出，对所述基础语音转换模型进行训练得到所述目标语音转换模型。

在一可实施方式中，所述将所述源发音人音频数据输入所述目标语音转换模型，获得目标音频数据，包括：对所述源发音人音频数据进行特征提取处理，获得第二文本特征；将所述第二文本特征输入所述目标语音转换模型，获得与所述第二文本特征对应的第二声学特征；将所述第二声学特征输入声码器中获得所述目标音频数据。

在一可实施方式中，所述数据增强处理包括如下方式至少之一：对音频数据进行加性噪声处理、对音频数据进行乘性噪声处理、对音频数据进行语速变换处理、对音频数据进行神经网络语音分析与合成处理。

根据本公开的第二方面，提供了一种语音转换装置，其特征在于，所述装置包括：模型获取模块，用于根据完成数据增强处理的非目标发音人音频数据集和目标发音人音频数据对初始语音转换模型进行训练，得到目标语音转换模型；音频数据获取模块，用于获取源发音人音频数据；音频转换模块，用于将所述源发音人音频数据输入所述目标语音转换模型，获得目标音频数据。

在一可实施方式中，所述模型获取模块，包括：第一音频数据获取子模块，用于获取初始非目标发音人音频数据集；数据增强处理子模块，用于对所述初始非目标发音人音频数据集中包含的非目标发音人音频数据进行数据增强处理得到基础音频数据集；第一模型获取子模块，用于根据所述基础音频数据集对所述初始语音转换模型进行训练得到基础语音转换模型；第二音频数据获取子模块，用于获取初始目标发音人音频数据；所述数据增强处理子模块，还用于对所述初始目标发音人音频数据进行数据增强处理得到增强音频数据；第二模型获取子模块，用于根据所述增强音频数据对所述基础语音转换模型进行训练得到所述目标语音转换模型。

在一可实施方式中，所述第一模型获取子模块，包括：第一特征提取模块，用于对所述基础音频数据集进行特征提取处理，获得声学特征集和文本特征集；所述声学特征集为与所述基础音频数据集对应的梅尔特征集，所述文本特征集为与所述基础音频数据集对应的语音后验图特征集；第一训练模块，用于将所述文本特征集作为所述初始语音转换模型的输入，所述声学特征集作为所述初始语音转换模型的输出，对所述初始语音转换模型进行训练得到所述基础语音转换模型。

在一可实施方式中，所述第二模型获取子模块，包括：第二特征提取模块，用于对所述增强音频数据进行特征提取处理，获得第一声学特征和第一文本特征；所述第一声学特征为与所述增强音频数据对应的梅尔特征，所述第一文本特征为与所述增强音频数据对应的语音后验图特征；第二训练模块，用于将所述第一文本特征作为所述基础语音转换模型的输入，所述第一声学特征作为所述基础语音转换模型的输出，对所述基础语音转换模型进行训练得到所述目标语音转换模型。

在一可实施方式中，所述音频转换模块，包括：第三特征提取模块，用于对所述源发音人音频数据进行特征提取处理，获得第二文本特征；声学特征获得模块，用于将所述第二文本特征输入所述目标语音转换模型，获得与所述第二文本特征对应的第二声学特征；音频转换子模块，用于将所述第二声学特征输入声码器中获得所述目标音频数据。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开的一种语音转换方法、装置、电子设备及存储介质，通过对非目标发音人音频数据集和目标发音人音频数据进行数据增强处理，根据完成数据增强处理的非目标发音人音频数据集和目标发音人音频数据对初始语音转换模型进行训练，得到目标语音转换模型，再用目标语音转换模型进行由源发音人音频数据到目标音频数据的转换。应用本方法可以使进行语音转换模型训练的音频数据具有多样性，通过完成数据增强处理的语音数据对初始语音转换模型进行训练，可以获得鲁棒性更好的目标语音转换模型，减少现实应用中语音转换性能的下降，在真实使用场景中使用目标语音转换模型进行语音转换时可以获得转换性能更好、更稳定的目标音频数据。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本公开实施例一种语音转换方法的实现流程示意图一；

图2示出了本公开实施例一种语音转换方法的实现流程示意图二；

图3示出了本公开实施例一种语音转换装置的模块示意图；

图4示出了本公开实施例一种电子设备的组成结构示意图。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

图1示出了本公开实施例一种语音转换方法的实现流程示意图一。

参见图1，根据本公开实施例的第一方面，提供了一种语音转换方法，方法包括，操作101，根据完成数据增强处理的非目标发音人音频数据集和目标发音人音频数据对初始语音转换模型进行训练，得到目标语音转换模型；操作102，获取源发音人音频数据；操作103，将源发音人音频数据输入目标语音转换模型，获得目标音频数据。

本公开实施例提供一种语音转换方法，根据完成数据增强处理的非目标发音人音频数据集和目标发音人音频数据进行语音转换模型训练，得到目标语音转换模型，通过目标语音转换模型完成从源发音人音频数据到目标音频数据的转换。应用本方法可以使进行语音转换模型训练的音频数据具有多样性，通过完成数据增强处理的语音数据对初始语音转换模型进行训练，可以获得鲁棒性更好的目标语音转换模型，减少现实应用中语音转换性能的下降，在真实使用场景中使用目标语音转换模型进行语音转换时可以获得转换性能更好、更稳定的目标音频数据。

在本方法操作101中，非目标发音人音频数据集和目标发音人音频数据都是用于对初始语音转换模型进行训练的音频数据，目标发音人音频数据是指音色为目标发音人，说话内容不限制的音频数据；非目标发音人音频数据集是指由非目标发音人音频数据组成的音频数据的集合，非目标发音人音频数据是指音色为非目标发音人，说话内容不限制的音频数据。初始语音转换模型为未进行训练的语音转换模型，目标语音转换模型指可以实现将任意语音数据转换为目标发音人音色的语音数据的语音转换模型。

数据增强是一种数据扩充技术，指利用有限的数据产生更多的数据，增加训练样本的数量以及多样性。对非目标发音人音频数据集和目标发音人音频数据进行数据增强所采用的数据增强方式可以选用如下方式：对音频数据进行加性噪声处理、对音频数据进行乘性噪声处理、对音频数据进行语速变换处理或者对音频数据进行神经网络语音分析和合成处理。非目标发音人音频数据集进行数据增强处理所采用的数据增强方式与目标发音人音频数据进行数据增强的方式可以相同，也可以不同；同样的，非目标发音人音频数据集中包含的非目标发音人音频数据之间所采用的数据增强方式也可以相同，可以不同。采用不同的数据增强处理方式可以使对初始语音转换模型进行训练的音频数据更具有多样性。

在一可实施方式中，对音频数据进行加性噪声处理可以为在音频数据中加入噪声数据，本实施例对所加入的噪声数据的种类和数量不进行限制；对音频数据中进行乘性噪声处理可以为对音频数据进行混响处理；对音频数据进行语速变换处理可以为调整音频数据的语速，本实施例不对语速进行限制；对音频数据进行神经网络语音分析和合成处理为在音频数据中加入基频偏移和共振峰偏移。

在本方法操作102中，源发音人音频数据是指在实际应用中获取的需要进行语音转化的音频数据，如希望将发音人一的音频数据转换为发音人二的音频数据，那么发音人一的音频数据即为源发音人音频数据。

在本方法操作103中，将源发音人音频数据输入目标语音转换模型，经目标语音转换模型转换后即可得到目标音频数据，该目标音频数据是指音色为目标发音人的音色，说话内容为源发音人音频数据中包含的说话内容的音频数据。如发音人一为源发音人，发音人二为目标发音人，发音人一说“早上好。”那么源发音人音频数据即为“早上好”，将源发音人音频数据输入目标语音转换模型中，获得的目标音频数据即为发音人二说“早上好”。

图2示出了本公开实施例一种语音转换方法的实现流程示意图二。

参见图2，在一可实施方式中，操作101，根据完成数据增强处理的非目标发音人音频数据集和目标发音人音频数据对初始语音转换模型进行训练，得到目标语音转换模型，包括：操作1011，获取初始非目标发音人音频数据集；操作1012，对初始非目标发音人音频数据集中包含的非目标发音人音频数据进行数据增强处理得到基础音频数据集；操作1013，根据基础音频数据集对初始语音转换模型进行训练得到基础语音转换模型；操作1014，获取初始目标发音人音频数据；操作1015，对初始目标发音人音频数据进行数据增强处理得到增强音频数据；操作1016，根据增强音频数据对基础语音转换模型进行训练得到目标语音转换模型。

具体的，初始非目标发音人音频数据集为未进行处理的包含非目标发音人音频数据的音频数据集，可以从音频数据库中选取多个非目标发音人音频数据，组成初始非目标发音人音频数据集，也可实时获取多个非目标发音人的音频数据组成初始非目标发音人音频数据集，本实施例对非目标发音人的数量以及初始非目标发音人音频数据集中包含的非目标发音人音频数据的数量不进行限制，为使对初始语音转换模型的训练效果更好，可以选取较多数量的不同非目标发音人以及对应的非目标发音人音频数据。对初始非目标发音人音频数据集中包含的非目标发音人音频数据进行数据增强处理，可选取前文中提到的数据增强处理方式中的一种或多种，得到基础音频数据，多个基础音频数据组成基础音频数据集，基础音频数据集即为完成数据增强处理的非目标发音人音频数据集。根据基础音频数据集对初始语音转换模型进行训练，得到基础语音转换模型。通过对初始非目标发音人音频数据集中包含的非目标发音人音频数据进行数据增强处理可以使对初始语音转换模型进行训练的音频数据具有多样性，可以获得语音转换效果更好的基础语音转换模型。

之后，获取初始目标发音人的音频数据，初始目标发音人音频数据为未进行处理的目标发音人音频数据，该初始目标发音人的音频数据同样可以从音频数据库中获取，也可以通过现场录取的方式实时获取，对初始目标发音人音频数据进行数据增强处理，同样可选择前文中提到的数据增强方式中的一种或多种，得到增强音频数据，该增强音频数据即为完成数据增强处理的目标发音人音频数据。根据增强音频数据对基础语音转换模型进行训练即得到目标语音转换模型。通过对初始目标发音人音频数据进行数据增强处理，得到增强音频数据，根据增强音频数据对基础语音转换模型进行训练，可实现对基础语音转换模型中的语音转换参数的调整，使其与目标发音人的相关性更强，得到更符合转换效果的目标语音转换模型。

此外，当目标发音人发生变化时，目标语音转换模型应当发生相应的变化，因此可将基础语音转换模型作为一个样本模型，当目标发音人发生变化时，只需要获取新的初始目标发音人的音频数据，再对新的初始目标发音人音频数据进行数据增强处理得到新的增强音频数据后，根据新的增强音频数据对基础语音转换模型进行训练，即可得到与新的目标发音人对应的新的目标语音转换模型。由此，当目标发音人发生变化时，不需要再对初始语音转换模型进行训练得到基础语音转换模型，使目标语音转换模型的获取更方便，可以更快的实现语音转换的目的。

在一可实施方式中，在获取初始非目标发音人音频数据集后可对初始非目标发音人音频数据集中包含的非目标发音人音频数据进行加性噪声处理，即在非目标发音人音频数据中加入噪声，如白噪声、工厂噪声、有色噪声等。噪声可从噪声库中进行选取，如获取到包含10万条非目标发音人音频数据的初始非目标发音人音频数据集，可以对该初始非目标发音人音频数据集中任意数量的非目标发音人音频数据加入任意噪声，得到基础音频数据，将进行加性噪声处理后的基础音频数据组成基础音频数据集；其中一种方式可以是，对10万条非目标发音人音频数据分别加入白噪声、工厂噪声和有色噪声，由此共得到40万条基础音频数据，该40万条基础音频数据组成基础音频数据集，用该基础音频数据集对初始语音转换模型的训练，得到基础语音转换模型，当然也可以保留部分非目标发音人音频数据，与其他进行加性噪声处理的非目标发音人音频数据共同组成基础音频数据集。

在一可实施方式中，对初始目标发音人音频数据同样也可采用加性噪声处理的方式进行数据增强处理，所采用的噪声可以为白噪声、工厂噪声、有色噪声等。

在一可实施方式中，操作1013，根据基础音频数据集对初始语音转换模型进行训练得到基础语音转换模型，包括：首先，对基础音频数据集进行特征提取处理，获得声学特征集和文本特征集；声学特征集为与基础音频数据集对应的梅尔特征集，文本特征集为与基础音频数据集对应的语音后验图特征集；其次，将文本特征集作为初始语音转换模型的输入，声学特征集作为初始语音转换模型的输出，对初始语音转换模型进行训练得到基础语音转换模型。

具体的，由于声学特征包含了发音人的音色信息，代表发音人的身份，因此可对基础音频数据集中所包含的基础音频数据分别进行声学特征提取处理和文本特征提取处理，得到声学特征和文本特征，组成声学特征集和文本特征集，声学特征集可以表征基础音频数据集对应的非目标发音人的音色，文本特征集可以表征基础音频数据集对应的非目标发音人的说话内容。根据文本特征集和声学特征集对初始语音转换模型进行训练，通过深度学习算法，建立从文本特征集到声学特征集的映射关系，得到基础语音转换模型，如可以通过文本合成语音技术(TTS，Text to speech)实现由文本特征合成为对应的声学特征。

更进一步的，声学特征集中的声学特征为梅尔特征，文本特征集中的文本特征为语音后验图特征(PPG，Phonetic Posteriorgram)，将文本特征集中的每个语音后验图特征输入初始语音转换模型中，将与该语音后验图特征同属一个非目标发音人音频数据的梅尔特征作为初始语音转换模型的目标输出，建立从语音后验图特征到梅尔特征的映射关系，通过大量语音后验图特征以及对应的梅尔特征对初始语音转换模型中的参数进行调整，使语音后验图特征与对应的梅尔特征之间具有较好的映射关系，生成基础语音转换模型。

在一可实施方式中，梅尔特征可以为梅尔语谱图和梅尔倒频系数，对基础音频数据依次进行信号预加重、分帧、加窗、求取功率谱以及梅尔滤波处理即可得到与该基础音频数据对应的梅尔语谱图，还可将梅尔语谱图转换为梅尔频率倒谱系数。

在一可实施方式中，自动语音识别(ASR Automatic Speech Recognition)是一种软件，它使计算机系统利用人工智能和及其学习算法将人类语音转换为文本。对基础音频数据集中的基础音频数据进行自动语音识别，得到与基础音频数据对应的语音后验图特征，具体通过自动语音识别得到语音后验图特征为现有技术，此处不再赘述。

在一可实施方式中，可对由基础音频数据进行声学特征提取处理得到的与基础音频数据对应的梅尔特征进行归一化处理，将归一化后的与基础音频数据对应的梅尔特征作为初级语音转换模型的目标输出，对初始语音转换模型进行训练，可得到精度更高的基础语音转换模型。

在一可实施方式中，操作1016，根据增强音频数据对基础语音转换模型进行训练得到目标语音转换模型，包括：首先，对增强音频数据进行特征提取处理得到第一声学特征和第一文本特征；第一声学特征为与增强音频数据对应的梅尔特征，第一文本特征为与增强音频数据对应的语音后验图特征；其次，将第一文本特征作为基础语音转换模型的输入，第一声学特征作为基础语音转换模型的输出，对基础语音转换模型进行训练得到目标语音转换模型。

具体的，可对增强音频数据分别进行声学特征提取处理和文本特征提取处理，得到第一声学特征和第一文本特征。第一声学特征可以表征增强音频数据对应的目标发音人的音色，第一文本特征可以表征增强音频数据对应的目标发音人的说话内容。根据第一文本特征和第一声学特征对基础语音转换模型进行参数调整，得到目标语音转换模型，由于声学特征包含了发音人的音色信息，代表发音人的身份，因此根据第一文本特征和第一声学特征对基础语音转换模型的参数进行调整得到的目标语音转换模型与目标发音人的相关性更好。

更进一步的，第一声学特征为与增强音频数据对应的梅尔特征，第一文本特征为与增强音频数据对应的语音后验图特征，将第一声学特征输入基础语音转换模型中，第一文本特征作为基础语音转换模型的目标输出，建立从第一文本特征到第一声学特征的映射关系，得到目标语音转换模型。

在一可实施方式中，梅尔特征可以为梅尔语谱图和梅尔倒频系数，对增强音频数据依次进行信号预加重、分帧、加窗、求取功率谱以及梅尔滤波处理得到梅尔语谱图，还可将梅尔语谱图转换为梅尔频率倒谱系数。

在一可实施方式中，对增强音频数据进行自动语音识别，得到与增强音频数据对应的语音后验图特征，具体通过自动语音识别技术得到语音后验图特征为现有技术，此处不再赘述。

在一可实施方式中，可对由增强音频数据进行声学特征提取处理得到的与增强音频数据对应的梅尔特征进行归一化处理，将归一化后的与增强音频数据对应的梅尔特征作为基础语音转换模型的目标输出，对基础语音转换模型进行训练，可得到精度更高的目标语音转换模型。

在一可实施方式中，操作103，将源发音人音频数据输入目标语音转换模型，获得目标音频数据，包括：步骤1031，对源发音人音频数据进行特征提取处理，获得第二文本特征；步骤1032，将第二文本特征输入目标语音转换模型，获得与第二文本特征对应的第二声学特征；步骤1033，将第二声学特征输入声码器中获得目标音频数据。

具体的，在获取到源发音人音频数据后，通过自动语音识别对源发音人音频数据进行文本特征提取处理，得到第二文本特征，第二文本特征为源发音人音频数据中所包含的文本内容，然后将第二文本特征输入目标语音转换模型，目标语音转换模型生成第二声学特征，该第二声学特征与目标发音人具有对应关系，是目标发音人的梅尔特征。但由于目标发音人的梅尔特征并不是目标音频数据，仅得到目标发音人的梅尔特征无法还原出对应的目标音频数据，无法感知到转换效果，因此将得到的第二声学特征输入声码器中，由声码器对第二声学特征进行编译码生成目标音频数据。

在一可实施方式中，可以根据目标发音人声学特征和目标发音人音频数据对声码器进行训练，具体为将目标发音人声学特征作为声码器的输入，对声码器中的原始参数进行调整，使其输出为与目标发音人声学特征对应的目标发音人音频数据，由训练后的声码器生成目标音频数据时，可以使生成的目标音频数据与目标发音人相关性更强，得到效果更好的目标音频数据。

同样的，当目标发音人发生变化时，可用新的目标发音人的声学特征和新的目标发音人音频数据对声码器进行训练，以使当目标发音人发生变化时，生成的目标音频数据总是与目标发音人对应。

在一可实施方式中，由于在对初始语音转换模型进行训练的过程中，对基础音频数据对应的梅尔特征和对增强音频数据对应的梅尔特征进行归一化处理作为基础语音转换模型的输出和目标语音转换模型的输出，因此目标语音转换模型在对源发音人音频数据进行语音转换后输出的是归一化后的第二声学特征，因此要对归一化后的第二声学特征进行反归一化操作得到第二声学特征，将第二声学特征输入声码器中生成目标音频数据。

图3示出了本公开实施例一种语音转换装置的模块示意图。

参见图3，根据本公开实施例的第二方面，提供一种语音转换装置，装置包括：模型获取模块301，用于根据完成数据增强处理的非目标发音人音频数据集和目标发音人音频数据对初始语音转换模型进行训练，得到目标语音转换模型；音频数据获取模块302，用于获取源发音人音频数据；音频转换模块303，用于将源发音人音频数据输入目标语音转换模型，获得目标音频数据。

在一可实施方式中，模型获取模块301，包括：第一音频数据获取子模块3011，用于获取初始非目标发音人音频数据集；数据增强处理子模块3012，用于对初始非目标发音人音频数据集中包含的非目标发音人音频数据进行数据增强处理得到基础音频数据集；第一模型获取子模块3013，用于根据基础音频数据集对初始语音转换模型进行训练得到基础语音转换模型；第二音频数据获取子模块3014，用于获取初始目标发音人音频数据；数据增强处理子模块3012，还用于对初始目标发音人音频数据进行数据增强处理得到增强音频数据；第二模型获取子模块3015，用于根据增强音频数据对基础语音转换模型进行训练得到所述目标语音转换模型。

在一可实施方式中，第一模型获取子模块3013，包括：第一特征提取模块，用于对基础音频数据集进行特征提取处理，获得声学特征集和文本特征集；声学特征集为与基础音频数据集对应的梅尔特征集，文本特征集为与基础音频数据集对应的语音后验图特征集；第一训练模块，用于将文本特征集作为初始语音转换模型的输入，声学特征集作为初始语音转换模型的输出，对初始语音转换模型进行训练得到基础语音转换模型。

在一可实施方式中，第二模型获取子模块3015，包括：第二特征提取模块，用于对增强音频数据进行特征提取处理，获得第一声学特征和第一文本特征；第一声学特征为与增强音频数据对应的梅尔特征，第一文本特征为与增强音频数据对应的语音后验图特征；第二训练模块，用于将第一文本特征作为基础语音转换模型的输入，第一声学特征作为基础语音转换模型的输出，对基础语音转换模型进行训练得到目标语音转换模型。

在一可实施方式中，音频转换子模块303，包括：第三特征提取模块3031，用于对源发音人音频数据进行特征提取处理，获得第二文本特征；声学特征获得模块3032，用于将第二文本特征输入目标语音转换模型，获得与第二文本特征对应的第二声学特征；音频转换子模块3033，用于将第二声学特征输入声码器中获得目标音频数据。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，设备400包括计算单元401，其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如一种语音转换方法。例如，在一些实施例中，一种语音转换方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的一种语音转换方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行一种语音转换方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音转换方法，其特征在于，所述方法包括：

根据完成数据增强处理的非目标发音人音频数据集和目标发音人音频数据对初始语音转换模型进行训练，得到目标语音转换模型；

获取源发音人音频数据；

将所述源发音人音频数据输入所述目标语音转换模型，获得目标音频数据。

2.根据权利要求1所述的方法，其特征在于，所述根据完成数据增强处理的非目标发音人音频数据集和目标发音人音频数据对初始语音转换模型进行训练，得到目标语音转换模型，包括：

获取初始非目标发音人音频数据集；

对所述初始非目标发音人音频数据集中包含的非目标发音人音频数据进行数据增强处理得到基础音频数据集；

根据所述基础音频数据集对所述初始语音转换模型进行训练得到基础语音转换模型；

获取初始目标发音人音频数据；

对所述初始目标发音人音频数据进行数据增强处理得到增强音频数据；

根据所述增强音频数据对所述基础语音转换模型进行训练得到所述目标语音转换模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述基础音频数据集对所述初始语音转换模型进行训练得到基础语音转换模型，包括：

对所述基础音频数据集进行特征提取处理，获得声学特征集和文本特征集；所述声学特征集为与所述基础音频数据集对应的梅尔特征集，所述文本特征集为与所述基础音频数据集对应的语音后验图特征集；

将所述文本特征集作为所述初始语音转换模型的输入，所述声学特征集作为所述初始语音转换模型的输出，对所初始语音转换模型进行训练得到所述基础语音转换模型。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述增强音频数据对所述基础语音转换模型进行训练得到所述目标语音转换模型，包括：

对所述增强音频数据进行特征提取处理，获得第一声学特征和第一文本特征；所述第一声学特征为与所述增强音频数据对应的梅尔特征，所述第一文本特征为与所述增强音频数据对应的语音后验图特征；

将所述第一文本特征作为所述基础语音转换模型的输入，所述第一声学特征作为所述基础语音转换模型的输出，对所述基础语音转换模型进行训练得到所述目标语音转换模型。

5.根据权利要求1所述的方法，其特征在于，所述将所述源发音人音频数据输入所述目标语音转换模型，获得目标音频数据，包括：

对所述源发音人音频数据进行特征提取处理，获得第二文本特征；

将所述第二文本特征输入所述目标语音转换模型，获得与所述第二文本特征对应的第二声学特征；

将所述第二声学特征输入声码器中获得所述目标音频数据。

6.根据权利要求1所述的方法，其特征在于，所述数据增强处理包括如下方式至少之一：对音频数据进行加性噪声处理、对音频数据进行乘性噪声处理、对音频数据进行语速变换处理、对音频数据进行神经网络语音分析与合成处理。

7.一种语音转换装置，其特征在于，所述装置包括：

模型获取模块，用于根据完成数据增强处理的非目标发音人音频数据集和目标发音人音频数据对初始语音转换模型进行训练，得到目标语音转换模型；

音频数据获取模块，用于获取源发音人音频数据；

音频转换模块，用于将所述源发音人音频数据输入所述目标语音转换模型，获得目标音频数据。

8.根据权利要求7所述的装置，其特征在于，所述模型获取模块，包括：

第一音频数据获取子模块，用于获取初始非目标发音人音频数据集；

数据增强处理子模块，用于对所述初始非目标发音人音频数据集中包含的非目标发音人音频数据进行数据增强处理得到基础音频数据集；

第一模型获取子模块，用于根据所述基础音频数据集对所述初始语音转换模型进行训练得到基础语音转换模型；

第二音频数据获取子模块，用于获取初始目标发音人音频数据；

所述数据增强处理子模块，还用于对所述初始目标发音人音频数据进行数据增强处理得到增强音频数据；

第二模型获取子模块，用于根据所述增强音频数据对所述基础语音转换模型进行训练得到所述目标语音转换模型。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。