CN112466317A

CN112466317A - 一种基于双生成器生成对抗网络的语音转换系统研究

Info

Publication number: CN112466317A
Application number: CN202011435662.3A
Authority: CN
Inventors: 魏建国; 更太加
Original assignee: Qinghai Nationalities University
Current assignee: Qinghai Nationalities University
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-09

Abstract

本发明提供一种基于双生成器生成对抗网络的语音转换系统研究，涉及一种基于双生成器生成对抗网络的语音转换系统，将生成器一分为二各司其职：根据不同的任务，允许两个生成器使用不同的网络结构和不同级别的参数共享，通常有助于更好地学习多任务设置中的每个特定于任务的映射，设计了具有两个生成器的生成对抗网络，更加适合语音转换的任务，在非平行语音转换系统中的表现更加稳定，避免了转换结果模糊的问题。

Description

一种基于双生成器生成对抗网络的语音转换系统研究

技术领域

本申请涉及网络安全技术领域，尤其涉及一种基于双生成器生成对抗网络的语音转换系统。

背景技术

语音转换技术是一种对语音信号进行处理的技术，涉及到信号处理和机器学习相关领域。语音转换技术有很多的应用场景，本发明针对的是语音转换领域中最核心的任务，即在不改变语句内容的前提下改变说话人的音色，使之听起来像是另一个人说的。

传统的语音转换方法专注于基于平行语料的转换，平行语料是指语音转换的源和目标说话人需要说同样的语句内容才可以进行模型的训练，这种方法虽然转换的效果还可以接受，但平行数据本身是很难获取的，且获取到的平行数据还需要人工地进行时间对齐才可以应用于语音转换系统的训练过程中，成本极高。

因此，急需一种基于生成对抗网络来设计语音转换系统，基于双生成器生成对抗网络的语音转换系统。

发明内容

本发明的目的在于提供一种基于双生成器生成对抗网络的语音转换系统，将生成器一分为二各司其职：根据不同的任务，允许两个生成器使用不同的网络结构和不同级别的参数共享，通常有助于更好地学习多任务设置中的每个特定于任务的映射。

第一方面，本申请提供一种基于双生成器生成对抗网络的语音转换系统，所述系统包括：一号生成器，用于根据输入的源语音特征和目标说话人标签生成转换后的语音特征；二号生成器，用于根据一号生成器生成的转换后的语音特征和源说话人的标签重新尝试重新得到源语音的特征；

判别器，用于根据输入的语音特征判断该语音特征序列是否是真实语音；

域分类器，用于根据输入的语音特征和说话人标签判断该语音特征序列属于对应说话人的概率，概率越大代表输入的语音特征包含越多的目标说话人特征，转换语音的相似性越好；

所述一号生成器和判别器、域分类器之间构成了对抗训练过程，生成器用于取得更高的分数，分数越高，证明生成的转换语音更加真实，更加符合目标说话人的特性，判别器用于正确地判断真实语音和虚假语音的特征序列，给生成器生成的结果一个尽量低的分数，域分类器用于正确地判断真实语音和转换语音属于对应说话人的概率，给生成器生成的结果一个尽量低的分数。

结合第一方面，在第一方面第一种可能的实现方式中，将真实语音输入进判别器，使判别器输出尽量高的分数，0为最低，1为最高；将真实语音和对应的说话人标签输入进域分类器，使域分类器输出尽量高的概率，概率靠近1；将真实语音和对应的说话人标签输入进一号生成器，使一号生成器输出和原始输入基本相同的结果，该步骤中本身不存在转换过程；将真实语音和对应的说话人标签输入进二号生成器，使二号生成器输出和原始输入基本相同的结果，该步骤中本身不存在还原的过程；将源语音和目标说话人的标签输入进一号生成器，一号生成器输出的是转换后的音频特征序列，一号生成器用于在后续的判别器和域分类器的打分中获得一个尽量高的分数；将转换后的特征序列输入进判别器，使判别器输出一个尽量低的分数，判别器用于正确地判断区分出真实语音特征和转换后的语音特征。

结合第一方面，在第一方面第二种可能的实现方式中，将转换后的特征序列和源说话人的标签输入进二号生成器，二号生成器用于根据输入的信息重新还原源语音的特征序列，帮助生成器在转换过程中减少信息的损失，避免生成器生成单一的真实语音以欺骗判别器和域分类器。

结合第一方面，在第一方面第三种可能的实现方式中，生成对抗网络是由一个生成器和一个判别器组成，二者根据给定的目标函数在对抗过程中不断优化迭代，最终得到一个模型。

第二方面，本申请提供一种基于双生成器生成对抗网络的语音转换系统，所述系统包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。

第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面四种可能中任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。

第四方面，本申请提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行第一方面四种可能中任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。

本发明提供一种基于双生成器生成对抗网络的语音转换系统，将生成器一分为二各司其职：根据不同的任务，允许两个生成器使用不同的网络结构和不同级别的参数共享，通常有助于更好地学习多任务设置中的每个特定于任务的映射，设计了具有两个生成器的生成对抗网络，更加适合语音转换的任务，在非平行语音转换系统中的表现更加稳定，避免了转换结果模糊的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音转换系统的系统图。

图2为本发明的语音转换系统的转换流程图。

图3为本发明的语音转换系统的训练流程图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

图1为本申请提供的基于双生成器生成对抗网络的语音转换系统图，所述系统包括：一号生成器，用于根据输入的源语音特征和目标说话人标签生成转换后的语音特征；二号生成器，用于根据一号生成器生成的转换后的语音特征和源说话人的标签重新尝试重新得到源语音的特征；

在一些优选实施例中，将真实语音输入进判别器，使判别器输出尽量高的分数，0为最低，1为最高；将真实语音和对应的说话人标签输入进域分类器，使域分类器输出尽量高的概率，概率靠近1；将真实语音和对应的说话人标签输入进一号生成器，使一号生成器输出和原始输入基本相同的结果，该步骤中本身不存在转换过程；将真实语音和对应的说话人标签输入进二号生成器，使二号生成器输出和原始输入基本相同的结果，该步骤中本身不存在还原的过程；将源语音和目标说话人的标签输入进一号生成器，一号生成器输出的是转换后的音频特征序列，一号生成器用于在后续的判别器和域分类器的打分中获得一个尽量高的分数；将转换后的特征序列输入进判别器，使判别器输出一个尽量低的分数，判别器用于正确地判断区分出真实语音特征和转换后的语音特征。

在一些优选实施例中，将转换后的特征序列和源说话人的标签输入进二号生成器，二号生成器用于根据输入的信息重新还原源语音的特征序列，帮助生成器在转换过程中减少信息的损失，避免生成器生成单一的真实语音以欺骗判别器和域分类器。

在一些优选实施例中，生成对抗网络是由一个生成器和一个判别器组成，二者根据给定的目标函数在对抗过程中不断优化迭代，最终得到一个模型。

本发明所述的系统有训练和转换两个阶段，训练阶段的详细过程如下：

1）训练判别器D。将真实语音输入进判别器，使判别器尽量输出更高的分数（0为最低，1为最高），该过程的目的是使判别器对真实语音有更好的认识，便于后续判断转换后的特征是否是真实的；

2）训练域分类器C。将真实语音和对应的说话人标签输入进域分类器，使域分类器尽量输出更高的概率（靠近1），该过程的目的是帮助域分类器认识各个说话人的特征情况，便于后续判断转换后的特征是否属于目标说话人；

3）训练一号生成器Gt，将真实语音和对应的说话人标签输入进一号生成器，使一号生成器尽量输出和原始输入一模一样的结果，这一步骤中本身不存在转换过程，目的是帮助一号生成器初步建立生成音频特征的能力，同时使用自我重构的方式可以尽量避免后续转换过程中一号生成器带来的语音内容损失；

4）训练二号生成器Gr，将将真实语音和对应的说话人标签输入进二号生成器，使二号生成器尽量输出和原始输入一模一样的结果，这一步骤中本身不存在还原的过程，目的是帮助二号生成器初步建立生成音频特征的能力，同时使用自我重构的方式可以尽量避免后续过程中二号生成器带来的语音内容损失；

5）将源语音和目标说话人的标签输入进一号生成器，一号生成器输出的是转换后的音频特征序列，并且一号生成器的目标是在后续的判别器和域分类器的打分中尽量获得一个较高的分数；

6）将转换后的特征序列输入进判别器，使判别器尽量输出一个较低的分数，因为转换后的特征序列本身就是虚假的，所以判别器的目的就是正确地判断区分出真实语音特征和转换后的语音特征。同时将转换后的特征序列和目标说话人的标签输入进域分类器，使域分类器尽量输出一个较低的分数，因为转换后的特征序列本身是虚假的，并不是目标说话人的真实语音。同时将转换后的特征序列和源说话人的标签输入进二号生成器，二号生成器的目的是根据输入的信息重新还原源语音的特征序列，这一步可以帮助生成器在转换过程中减少信息的损失，也避免了生成器生成单一的真实语音以欺骗判别器和域分类器的情况。

通过以上六个步骤，一号生成器和判别器、域分类器之间构成了对抗训练过程，生成器的目的是取得更高的分数（证明生成的转换语音更加真实，更加符合目标说话人的特性），而判别器的目的是正确地判断真实语音和虚假语音的特征序列，即尽量给生成器生成的结果一个较低的分数，域分类器的目的是正确地判断真实语音和转换语音属于对应说话人的高铝，即尽量给生成器生成的结果一个较低的分数。

以上是本发明所述方法的训练过程，下面介绍本发明所述方法的转换过程。

经过恰当的训练后，我们仅需一号生成器就可以正确地得到转换语音，完成语音转换任务。将源语音和目标说话人的标签输入进一号生成器，一号生成器就可以在保留源语音内容信息的前提下更改说话人的身份为目标说话人，得到转换后的语音特征序列，再将转换后的结果输入进声码器来重建语音波形，即可得到转换后的音频文件。

生成对抗网络一般是由一个生成器G和一个判别器D组成，二者根据给定的目标函数在对抗过程中不断优化迭代，最终得到一个效果较好的模型。

我们基于可以实现多对多转换的StarGAN网络，将生成器设计为两个，这是因为以往为了更好地效果我们往往要将通过生成器后生成的数据再传回给生成器试图生成靠近原始语音的数据，来促进转换过程中语音内容信息的不变性（也就是CycleGAN的基本思想），但实际上这两步转换的过程所做的工作并不完全相同，由于每个人物的语音都有其独特性，因此优化生成器并使其在两个任务上获得良好的泛化能力更加困难，通常会导致生成结果模糊。因此本发明将生成器一分为二各司其职：根据不同的任务，允许两个生成器使用不同的网络结构和不同级别的参数共享，通常有助于更好地学习多任务设置中的每个特定于任务的映射。

相应地，在判别器D和域分类器C的设计中也尝试更加细化目标函数。整体来说我们的目的是争取更好的转换效果，这里域分类器C目的是使判别器D能够分辨出输入语音所属的说话人。但这样设计的缺点可能是在训练过程中所需的时间更多了。

损失函数方面首先是（cyc）循环一致性损失，这促进转换过程中语音内容不变；

然后是（id）身份映射损失，这促进在输入的语音信息和域标签相匹配时，生成器的输出尽量保持与输入信息相同，也是为了保证语音内容的不变性：

随后是（cls）针对生成语音的域分类损失以及针对真实语音的域分类损失，这驱动生成器产生属于域c概率p尽可能高的数据，以及使域分类器的性能更加稳定同时使判别器D能够尽量正确地分辨输入语音所属的的说话人；

最后是传统的对抗损失（adv）。

结合图3，整体训练目标和损失函数如下：

本申请提供一种基于双生成器生成对抗网络的语音转换系统，所述系统包括：所述系统包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。

本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所有实施例中任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。

本申请提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行第一方面所有实施例中任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可以存储有程序，该程序执行时可包括本发明各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体（简称：ROM）或随机存储记忆体（简称：RAM）等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书各个实施例之间相同相似的部分互相参见即可。尤其，对于实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种基于双生成器生成对抗网络的语音转换系统，其特征在于，所述系统包括：一号生成器，用于根据输入的源语音特征和目标说话人标签生成转换后的语音特征；二号生成器，用于根据一号生成器生成的转换后的语音特征和源说话人的标签重新尝试重新得到源语音的特征；

2.根据权利要求1所述的系统，其特征在于：将真实语音输入进判别器，使判别器输出尽量高的分数，0为最低，1为最高；将真实语音和对应的说话人标签输入进域分类器，使域分类器输出尽量高的概率，概率靠近1；将真实语音和对应的说话人标签输入进一号生成器，使一号生成器输出和原始输入基本相同的结果，该步骤中本身不存在转换过程；将真实语音和对应的说话人标签输入进二号生成器，使二号生成器输出和原始输入基本相同的结果，该步骤中本身不存在还原的过程；将源语音和目标说话人的标签输入进一号生成器，一号生成器输出的是转换后的音频特征序列，一号生成器用于在后续的判别器和域分类器的打分中获得一个尽量高的分数；将转换后的特征序列输入进判别器，使判别器输出一个尽量低的分数，判别器用于正确地判断区分出真实语音特征和转换后的语音特征。

3.根据权利要求1-2任一项所述的系统，其特征在于：将转换后的特征序列和源说话人的标签输入进二号生成器，二号生成器用于根据输入的信息重新还原源语音的特征序列，帮助生成器在转换过程中减少信息的损失，避免生成器生成单一的真实语音以欺骗判别器和域分类器。

4.根据权利要求1-3任一项所述的系统，其特征在于：生成对抗网络是由一个生成器和一个判别器组成，二者根据给定的目标函数在对抗过程中不断优化迭代，最终得到一个模型。

5.一种基于双生成器生成对抗网络的语音转换系统，其特征在于，所述系统包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。

7.一种包括指令的计算机程序产品，其特征在于，当其在计算机上运行时，使得所述计算机执行权利要求1-4任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。