CN112466316A

CN112466316A - 一种基于生成对抗网络的零样本语音转换系统

Info

Publication number: CN112466316A
Application number: CN202011433752.9A
Authority: CN
Inventors: 魏建国; 更太加
Original assignee: Qinghai Nationalities University
Current assignee: Qinghai Nationalities University
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-09

Abstract

本发明提供一种基于生成对抗网络的零样本语音转换系统，经过恰当的训练后，我们仅需使用说话人身份编码器和生成器就可以正确地得到转换语音，完成语音转换任务。将源语音和目标说话人的说话人身份编码以及源语音的声学特征序列输入进生成器，生成器就可以在保留源语音内容信息的前提下更改说话人的身份为目标说话人，得到转换后的语音特征序列，再将转换后的结果输入进声码器来重建语音波形，即可得到转换后的音频文件，相比基于自编码器的方法，本发明提出的方法更加灵活，即使更换训练数据集后依然无需更改过多的训练参数即可达到最佳的语音转换效果。

Description

一种基于生成对抗网络的零样本语音转换系统

技术领域

本申请涉及网络安全技术领域，尤其涉及一种基于生成对抗网络的零样本语音转换系统。

背景技术

语音转换技术专注于改变一段语音中的说话人身份特征，语音转换的结果是在保留原有语音内容信息的情况下改变说话人的音色，使其听起来像是目标说话人说的。

近些年语音转换技术逐渐从平行系统转向了非平行系统。非平行系统的训练不需要平行数据，也不需要人工的时间对齐过程，极大地提升了语音转换系统训练的方便性和应用范围，因为平行数据是十分难以获取的。近一年以来，零样本语音转换成为了语音转换领域的新研究方向。

目前，实现零样本语音转换的方法主要是基于自编码器的特征分离方法，通过将语音信号中的说话人相关信息和说话人无关信息分离开，实现说话人相关信息的自由替换，从而实现零样本语音转换。

因此，急需一种采用目前最流行的深度学习思想之一的生成对抗网络，基于生成对抗网络的零样本语音转换系统。

发明内容

本发明的目的在于提供一种基于生成对抗网络的零样本语音转换系统，经过恰当的训练后，我们仅需使用说话人身份编码器和生成器就可以正确地得到转换语音，完成语音转换任务。将源语音和目标说话人的说话人身份编码以及源语音的声学特征序列输入进生成器，生成器就可以在保留源语音内容信息的前提下更改说话人的身份为目标说话人，得到转换后的语音特征序列，再将转换后的结果输入进声码器来重建语音波形，即可得到转换后的音频文件。

第一方面，本申请提供一种基于生成对抗网络的零样本语音转换系统，所述系统包括：

特征提取模块，用于提取原始音频和参考音频中的声学特征，作为语音转换核心模型的输入，并且决定了神经网络的输出格式；

说话人身份编码器，其作用是根据输入的音频声学特征得到该音频所属的说话人的身份编码，用于表示对应说话人的身份，并且在语音转换核心模型中作为源和目标说话人的身份标签被输入到生成器和判别器中；

生成器，用于根据输入的源语音声学特征序列和源和目标说话人的身份标签，将源语音的声学特征序列转换为符合目标说话人特征的转换后的声学特征序列；

判别器，用于根据输入的语音特征判断该语音特征序列是否是真实语音，预先设置一个阈值，对于真实语音，给出一个高于阈值的评分，对于虚假语音，给出一个低于阈值的评分，所述输入的语音特征与真实语音贴合度越高，评分越高，反之，所述输入的语音特征与真实语音贴合度越低，评分越低；

声码器，用于将转换后的声学特征序列重新转变为语音波形，得到转换后的音频文件。

结合第一方面，在第一方面第一种可能的实现方式中，通过提前训练所述说话人身份编码器，实现在任意说话人到任意说话人之间的语音转换，将真实语音输入进判别器，使判别器输出尽量高的分数，提取源语音和目标语音的声学特征序列，输入进说话人身份编码器得到对应的说话人的身份编码表示，将源语音的声学特征序列以及源和目标说话人的身份编码输入进生成器中，生成器输出转换之后的声学特征序列，转换后的声学特征序列输入进判别器，得到判别器的打分结果，判别器给转换后的声学特征序列一个尽量低的分数来激励生成器的进一步训练，转换后的声学特征序列输入进说话人身份编码器，得到新的说话人身份编码，将该结果与原本的目标说话人身份编码进行对比。

结合第一方面，在第一方面第二种可能的实现方式中，所述说话人身份编码器是整个所述零样本语音转换系统中的预训练模型。

结合第一方面，在第一方面第三种可能的实现方式中，所述生成器在保留源语音内容信息的前提下更改说话人的身份为目标说话人，得到转换后的语音特征序列，再将转换后的结果输入进声码器来重建语音波形，即可得到转换后的音频文件。

第二方面，本申请提供一种基于生成对抗网络的零样本语音转换系统，所述系统包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的特征提取模块、说话人身份编码器、生成器、判别器和声码器的功能。

第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面四种可能中任一项所述的特征提取模块、说话人身份编码器、生成器、判别器和声码器的功能。

第四方面，本申请提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行第一方面四种可能中任一项所述的特征提取模块、说话人身份编码器、生成器、判别器和声码器的功能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明零样本语音转换系统图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

图1为本申请提供的基于生成对抗网络的零样本语音转换系统图，包括：

在一些优选实施例中，通过提前训练所述说话人身份编码器，实现在任意说话人到任意说话人之间的语音转换，将真实语音输入进判别器，使判别器输出尽量高的分数，提取源语音和目标语音的声学特征序列，输入进说话人身份编码器得到对应的说话人的身份编码表示，将源语音的声学特征序列以及源和目标说话人的身份编码输入进生成器中，生成器输出转换之后的声学特征序列，转换后的声学特征序列输入进判别器，得到判别器的打分结果，判别器给转换后的声学特征序列一个尽量低的分数来激励生成器的进一步训练，转换后的声学特征序列输入进说话人身份编码器，得到新的说话人身份编码，将该结果与原本的目标说话人身份编码进行对比。

在一些优选实施例中，所述说话人身份编码器是整个所述零样本语音转换系统中的预训练模型。

在一些优选实施例中，所述生成器在保留源语音内容信息的前提下更改说话人的身份为目标说话人，得到转换后的语音特征序列，再将转换后的结果输入进声码器来重建语音波形，即可得到转换后的音频文件。

本发明所述的系统有训练和转换两个阶段，训练阶段的详细过程如下：

1）提前训练说话人身份编码器S，传统的语音转换方法（非零样本语音转换的方法）只能在固定的经过训练的说话人之间互相转换，而本发明提出的语音转换方法可以实现任意说话人到任意说话人之间的语音转换，采用说话人身份编码器生成的说话人身份编码就是实现零样本语音转换的核心思想。

传统的语音转换方法通常会采用独热向量（one-hot vector）来作为语音转换系统中源和目标说话人的身份标签。独热向量又叫做“一位有效编码”，它的方法是采用N位的状态寄存器来对N个完全不同的状态进行编码，因此每个状态都由它对应的独特的寄存器位来进行保存，并且任意时刻只有其中一位有效。例如有3个说话人时，则他们的说话人身份标签分别应该被设置为“1，0，0”、“0，1，0”和“0，0，1”。

对说话人身份编码器的训练过程主要基于以下思想：

使说话人身份编码器的输出结果对同一说话人尽量一致；使说话人身份编码器的输出结果对不同说话人尽量不同。

说话人身份编码器是整个语音转换系统中的预训练模型。

2）训练判别器D。将真实语音输入进判别器，使判别器尽量输出更高的分数（0为最低，1为最高），该过程的目的是使判别器对真实语音有更好的认识，便于后续判断转换后的特征是否是真实的；

3）提取源语音和目标语音的声学特征序列，输入进说话人身份编码器得到对应的说话人的身份编码表示；

4）训练生成器G，将源语音的声学特征序列以及源和目标说话人的身份编码输入进生成器中，生成器输出转换之后的声学特征序列；

5）将生成器的输出结果，即转换后的声学特征序列输入进判别器，得到判别器的打分结果。判别器应给转换后的声学特征序列一个尽量低的分数来激励生成器的进一步训练；

6）将生成器的输出结果，即转换后的声学特征序列输入进说话人身份编码器，得到新的说话人身份编码，将该结果与原本的目标说话人身份编码进行对比。由于说话人身份编码器是预训练的，本身并不参与本轮的训练过程，因此说话人身份编码器将作为固定对象激励生成器生成更加符合目标说话人身份特性的转换结果；

通过以上六个步骤，说话人身份编码器获得了足够强的说话人身份编码能力，生成器和判别器之间构成了对抗训练过程。生成器的目的是取得更高的分数，从而证明生成的转换后的语音特征序列更加真实，更加符合目标说话人的特性。而判别器的目的是正确地判断真实语音和虚假语音的特征序列，即尽量给生成器生成的结果一个较低的分数。

以上是本发明所述方法的训练过程，下面介绍本发明所述方法的转换过程。

经过恰当的训练后，我们仅需使用说话人身份编码器和生成器就可以正确地得到转换语音，完成语音转换任务。将源语音和目标说话人的说话人身份编码以及源语音的声学特征序列输入进生成器，生成器就可以在保留源语音内容信息的前提下更改说话人的身份为目标说话人，得到转换后的语音特征序列，再将转换后的结果输入进声码器来重建语音波形，即可得到转换后的音频文件。

损失函数方面的说明如下。

对于说话人身份编码器：

式中，

代表从语句n中提取出的说话人身份编码，S代表说话人身份编码器，

代表语句n的声学特征。

说话人身份编码器的训练使用GE2E损失，可以表示成：

是说话人k所有语句的结果的质心，N代表说话者的数目，M是每位说话者语料的数目，

表示将说话人身份编码器的输出结果正则化之后的向量。矩阵

用于表示

与说话人k的相似程度，其中，w和b是参数，将自动学习，其中w > 0。

训练过程中，

时，去掉该样本对应的结果向量可以使得训练更稳定，表示为：

要使得整体损失最小，则：

1）鼓励说话人身份编码器的输出结果与对应的说话人质心结果的相似度最大（趋近于1）。

2）鼓励说话人身份编码器的输出结果与训练集中的所有说话人（包括自身）的质心值相似度之和最小。

最终达到区分各个说话人身份的目的：对同一个说话人的不同语句，输出的结果尽量保持一致；对不同说话人说的数据，即便讲述的语句内容一致，输出的结果也尽量相差很多。

对于生成器和判别器：

循环一致性损失，这促进转换过程中语音内容不变；

然后是（id）身份映射损失，这促进在输入的语音信息和域标签相匹配时，生成器的输出尽量保持与输入信息相同，也是为了保证语音内容的不变性：

随后是（cls）针对生成语音的域分类损失以及针对真实语音的域分类损失，这驱动生成器产生属于域c概率p尽可能高的数据，以及使域分类器的性能更加稳定同时使判别器D能够尽量正确地分辨输入语音所属的的说话人；

最后是传统的对抗损失（adv）。

本申请提供一种基于生成对抗网络的零样本语音转换系统，所述系统包括：所述系统包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的特征提取模块、说话人身份编码器、生成器、判别器和声码器的功能。

本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所有实施例中任一项所述的特征提取模块、说话人身份编码器、生成器、判别器和声码器的功能。

本申请提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行第一方面所有实施例中任一项所述的特征提取模块、说话人身份编码器、生成器、判别器和声码器的功能。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可以存储有程序，该程序执行时可包括本发明各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体（简称：ROM）或随机存储记忆体（简称：RAM）等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书各个实施例之间相同相似的部分互相参见即可。尤其，对于实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种基于生成对抗网络的零样本语音转换系统，其特征在于，所述系统包括：

2.根据权利要求1所述的系统，其特征在于：通过提前训练所述说话人身份编码器，实现在任意说话人到任意说话人之间的语音转换，将真实语音输入进判别器，使判别器输出尽量高的分数，提取源语音和目标语音的声学特征序列，输入进说话人身份编码器得到对应的说话人的身份编码表示，将源语音的声学特征序列以及源和目标说话人的身份编码输入进生成器中，生成器输出转换之后的声学特征序列，转换后的声学特征序列输入进判别器，得到判别器的打分结果，判别器给转换后的声学特征序列一个尽量低的分数来激励生成器的进一步训练，转换后的声学特征序列输入进说话人身份编码器，得到新的说话人身份编码，将该结果与原本的目标说话人身份编码进行对比。

3.根据权利要求1-2任一项所述的系统，其特征在于：所述说话人身份编码器是整个所述零样本语音转换系统中的预训练模型。

4.根据权利要求1-3任一项所述的系统，其特征在于：所述生成器在保留源语音内容信息的前提下更改说话人的身份为目标说话人，得到转换后的语音特征序列，再将转换后的结果输入进声码器来重建语音波形，即可得到转换后的音频文件。

5.一种基于生成对抗网络的零样本语音转换系统，其特征在于，所述系统包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的特征提取模块、说话人身份编码器、生成器、判别器和声码器的功能。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的特征提取模块、说话人身份编码器、生成器、判别器和声码器的功能。

7.一种包括指令的计算机程序产品，其特征在于，当其在计算机上运行时，使得所述计算机执行权利要求1-4任一项所述的特征提取模块、说话人身份编码器、生成器、判别器和声码器的功能。