CN116778937A

CN116778937A - 一种基于说话人对抗子网络的语音转换方法

Info

Publication number: CN116778937A
Application number: CN202310314078.XA
Authority: CN
Inventors: 陈牧图; 夏宇闻; 祁泽源; 龚剡驿; 纪科旭; 罗姝雯; 谢跃
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-09-19
Anticipated expiration: 2043-03-28
Also published as: CN116778937B

Abstract

本发明公开了一种基于说话人对抗子网络的语音转换方法。本发明通过在将说话人对抗子网络嵌入至语音转换模型StarGAN‑VC2中，提出了添加说话人对抗子网络辅助特征解码的策略，并融合了说话人对抗损失函数与生成器损失函数，使得二者在对抗中提高编码器的说话人身份信息去除效果，同时为了更好地适应语音转换任务，引入了自适应实例归一化算法辅助特征解码，能够有效的提升语音转换的质量以及说话人相似度，因此，使得语音在转换过程中，具有检验与反馈机制，非语义特征剔除彻底，可以在保持多对多的非平行语料转换方法优越性的前提下，创造出一个说话人身份信息去除辅助与验证机制，语音转换效果好，具有良好的应用前景。

Description

一种基于说话人对抗子网络的语音转换方法

技术领域

本发明具体涉及一种基于说话人对抗子网络的语音转换方法。

背景技术

在语音处理领域，语音转换(Voice Conversion，VC)占据十分重要的地位，它的目的是在保证说话人语音内容不变的同时，将其转换至指定的风格，具体体现为音色、韵律等；

一般而言，语音转换的算法流程包括3个步骤：(1)语音信号分析和特征提取；(2)学习特征映射F(x)，对说话人语音的非内容信息进行转换；(3)语音重构；最后由在第(2)步中训练好的转换模型对声学特征进行转换。

近来年，针对语音转换的研究越来越多，其中常见的有使用概率神经网络以及使用额外的模块或数据来补充训练效果两种方式，相比而言，使用概率神经网络拥有更小的训练成本和更高的速度，但是这类模型通常会使数据逼近理想分布，容易导致数据的过度平滑，针对这个问题，对抗网络模型被引入语音转换，于环形对抗网络CycleGAN-VC及其改进版本CycleGAN-VC2上达到了较好的效果，但缺点是难以应对多对多的语音转换场景；

而星型对抗网络StarGAN的出现则可避免上述问题，即在训练时额外加入目标标签，以此实现多个目标间的特征转换，因此，经过网络结构和训练目标的修改，StarGAN-VC2模型被提出，该模型在转换效果上相比之前的GAN模型拥有一定的优势；

然而，StarGAN-VC2模型由于其生成器中特征去除部分缺乏检验与反馈机制，造成非语义特征剔除不彻底，对目标语音的转换过程造成了额外的干扰，因此，如何在保持多对多的非平行语料转换方法优越性的前提下，创造一个说话人身份信息去除辅助与验证机制以提高语音转换效果，是当前需要解决的问题，对语音转换的发展至关重要。

发明内容

本发明的目的是提供一种基于说话人对抗子网络的语音转换方法，通过，以解决技术中的上述不足之处。

为了实现上述目的，本发明提供如下技术方案：一种基于说话人对抗子网络的语音转换方法，包括以下步骤：

步骤1、提取说话人语音的梅尔频谱特征作为训练数据；

步骤2、构建基于对抗网络的语音转换模型StarGAN-VC2，去除梅尔频谱特征的风格信息，得到语音特征；

步骤3、构建基于卷积神经网络的说话人对抗子网络，将其嵌入在语音转换模型StarGAN-VC2中，对其进行预训练，使其能够区分语音特征的说话人身份；

步骤4、冻结顶层的说话人对抗子网络的模型参数，以效果发散为目标，与语音转换模型StarGAN-VC2联合进行对抗性训练，完成语音转换模型StarGAN-VC2的训练；

步骤5、基于训练完成的语音转换模型StarGAN-VC2生成目标说话人语音频谱特征；

步骤6、通过World编码器，结合频谱特征合成目标说话人语音。

优选的，在步骤2中，语音转换模型StarGAN-VC2由生成器和判别器构建而成；

其中，生成器包括编码部分、残差优化以及解码部分。

优选的，在步骤3中，卷积神经网络由relu函数以及门控线性单元构建而成；

其中，说话人对抗子网络包括输入层、隐藏层以及输出层；

其中，隐藏层包括三层卷积神经网络，输出层包括两层全连接层。

优选的，在步骤3中，构建基于卷积神经网络的说话人对抗子网络，将其嵌入在语音转换模型StarGAN-VC2中，对其进行预训练，使其能够区分语音特征的说话人身份，具体步骤如下：

3.1、将构建的说话人对抗子网络嵌入在生成器编码结束处；

3.2、将生成器底层编码网络后的输出结果，即语音特征作为说话人对抗子网络的输入，将该语音特征所属说话人的分类损失作为输出；

3.3、最小化分类损失，训练说话人对抗子网络的模型参数，使说话人对抗子网络对尚未优化的生成器底层网络输出结果，即语音特征，有一个说话人身份辨别效果，且该最小化分类损失计算公式如下：

其中，n为样本总量，

x_i为第i个源语音特征序列，

c_i为第i个源域说话人身份标签，

c_i'为第i个目标域说话人身份标签，

G_en为经生成器编码操作后，去除风格信息的语音特征，

C为说话人对抗子网络，衡量分类结果与真实身份标签的差距，由所有结果求和取平均。

优选的，在步骤4中，冻结顶层的说话人对抗子网络的模型参数，以效果发散为目标，与语音转换模型StarGAN-VC2联合进行对抗性训练，完成语音转换模型StarGAN-VC2的训练，具体步骤如下：

4.1、冻结顶层的说话人对抗子网络的模型参数，将其加入编码部分处；

4.2、以效果发散为目标，与生成器的总损失构成对抗关系，以此为基础与语音转换模型StarGAN-VC2进行联合训练。

优选的，在步骤4.2中，以效果发散为目标，与生成器的总损失构成对抗关系，以此为基础与语音转换模型StarGAN-VC2进行联合训练时，对生成器的部分损失函数进行重构，具体如下：

a、循环一致性损失：在语音转换模型StarGAN-VC2的循环一致性损失基础上加入说话人对抗损失，公式表示如下：

其中，L_cyc为语音转换模型StarGAN-VC2的循环一致性损失，

为添加在循环一致性损失中的说话人对抗损失，

λ_styc为说话人对抗损失添加在循环一致性中的权重，且该权重为负值；

b、身份映射损失：在语音转换模型StarGAN-VC2的身份映射损失基础上，加入了说话人对抗损失，公式表示如下；

其中，L_id为语音转换模型StarGAN-VC2的身份映射损失，

为添加在身份映射损失中的说话人对抗损失，

λ_styi为说话人对抗损失添加在身份映射中的权重，且该权重为负值；

c、总损失：使用超参数调节各项权重，将循环一致性损失、身份映射损失和原始对抗损失加权相加，公式表示如下：

L_G′＝L_g-adv+λ_cyc′*L_cyc′+λ_id′*L_id′+λ_qst*L_qst

其中，L_g-adv为生成器的原始对抗损失，

λ_cyc′为添加在总损失中的循环一致性损失权重，

λ_id′为添加在总损失中的身份映射损失权重，

λ_qst为说话人对抗损失权重，且该权重为负值。

优选的，在步骤5中，基于训练完成的语音转换模型StarGAN-VC2生成目标说话人语音频谱特征，具体步骤如下：

5.1、对语音特征数据进行两次下采样，将语音特征数据进行编码；

5.2、在编码完成后，将之前的语音特征数据从2d重新降维至1d，以进行1d卷积，经过9个残差块进行优化；

5.3、升维以执行上采样中的2d卷积操作，随后进行上采样操作以还原语音特征，进行语音特征数据解码，生成目标说话人语音频谱特征。

优选的，在步骤5.1中，对语音特征数据进行两次下采样，将语音特征数据进行编码；

其中，每个下采样模块均包括一个二维卷积层、自适应实例归一化以及门控CNN单元；

且第l+1层的输出是第l层经过门控线性单元调整的线性投影，公式表达如下：

H_l+1+1＝(H_l×W_l+b_l)⊙σ(H_l×V_l+c_l)

其中，W_l和V_l为不同的卷积核，

b_l和b_l为偏置参数，

σ是Sigmoid函数，

⊙是元素乘积；

在步骤5.2中，在编码完成后，将之前的语音特征数据从2d重新降维至1d，以进行1d卷积，经过9个残差块进行优化；

其中，残差块主要操作为1d卷积、自适应实例归一化以及在连接一个门控CNN单元。

其中，在下采样与降维过程中均使用三次实例正则化将每个通道的特征图的均值和标准差进行归一化；

在步骤5.3中，升维以执行上采样中的2d卷积操作，随后进行上采样操作以还原语音特征，进行语音特征数据解码，生成目标说话人语音频谱特征；

其中，语音特征数据首先升维以执行上采样中的2d卷积操作，随后进行上采样操作还原特征，

且每组上采样模块均由一个反卷积层、一个PixelShuffle层以及一个门控线性单元构成，

在经过一次卷积输出，即可得到目标风格的语音频谱特征。

优选的，自适应实例归一化公式如下：

其中，μ(x)为内容特征的均值，

σ(x)为内容特征的方差，μ(y)为风格特征的均值，

σ(y)为风格特征的方差，对每个特征映射x分别标准化后，用σ(y)缩放，并用μ(y)偏置，以这两组数据代替原算法CIN中的仿射参数集。

优选的，在步骤6中，通过World编码器，结合频谱特征合成目标说话人语音，具体步骤如下：

6.1、通过WORLD声码器提取语音频谱特征、基频特征、非周期特征；

6.2、使用语音转换模型进行频谱特征转换，对数基频使用高斯归一化算法处理，非周期不做处理，进而由WORLD声码器基于语音频谱特征、基频特征、非周期特征这三项特征完成语音合成，输出目标说话人语音。

与现有技术相比，本发明的有益效果是：

本发明通过在将说话人对抗子网络嵌入至语音转换模型StarGAN-VC2中，提出了添加说话人对抗子网络辅助特征解码的策略，并融合了说话人对抗损失函数与生成器损失函数，使得二者在对抗中提高编码器的说话人身份信息去除效果，同时为了更好地适应语音转换任务，引入了自适应实例归一化算法辅助特征解码，能够有效的提升语音转换的质量以及说话人相似度，因此，使得语音在转换过程中，具有检验与反馈机制，非语义特征剔除彻底，可以在保持多对多的非平行语料转换方法优越性的前提下，创造出一个说话人身份信息去除辅助与验证机制，语音转换效果好，具有良好的应用前景。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明基于说话人对抗子网络的语音转换方法的流程图；

图2为本发明的说话人对抗子网络的改进框图；

图3为本发明是使用WORLD声码器进行特征提取与转换的流程图；

图4为本发明是说话人对抗子网络与原StarGAN-VC2模型的转换语音MCD指标对比图；

图5为本发明是说话人对抗子网络与原StarGAN-VC2模型的转换语音说话人相似度指标对比图；

图6为本发明是说话人对抗子网络与原StarGAN-VC2模型的转换语音ABX指标对比图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。

本发明提供了如图1-6所示的一种基于说话人对抗子网络的语音转换方法，包括以下步骤：

步骤1、提取说话人语音的梅尔频谱特征作为训练数据；

说话人语音有效特征主要包含频谱包络、基频特征和非周期特征，但是其中效率最高、风格表现最强的是频谱包络，梅尔倒谱包络即为其中一种，因此，在本步骤中，选取梅尔频谱作为语音转换模型StarGAN-VC2的转换对象和训练数据，参与训练，而基频特征和非周期特征，经单独处理后参与语音合成。

进一步的，在上述技术方案中，语音转换模型StarGAN-VC2由生成器和判别器构建而成；

其中，生成器包括编码部分、残差优化以及解码部分；

且，生成器的残差优化部分和解码部分，主要用于目标特征的添加；

而判别器的编码部分使用Gated CNN实现下采样操作，每个下采样操作具体包括一个二维卷积层，自适应实例归一化和门控单元，而后通过Global Sum Pooling，即GSP的操作将每个输出的特征图压缩，将输入的源域标签c′和目标域标签c进行embeding编码，其结果向量与GSP压缩特征图做内积，并与全连接结果进行相加，获得输入样本的真伪判断结果(0或1)；

具体训练过程和转换模式如下：

在训练模式下：

随机从源域c和目标域c'中分别选取源特征序列x和目标特征序列y，判别器对真实语音特征x和生成器尝试伪造的语音特征进行判别，在对抗损失下降的过程中优化自身判别输入真伪的性能，受判别器优化的影响，生成器也藉由对抗损失不断提高语音转换的质量，二者在不断对抗中进步；

在转换模式下：指定源和目标说话人标签，基于待转换说话人的频谱特征调用训练好的语音转换模型StarGAN-VC2生成目标语音频谱特征；

在本步骤中，此语音转换模型StarGAN-VC2直接由一个生成器和一个判别器构成，区别于传统对抗网络模型的正向、逆向循环组合的架构，可以学习多组特征映射，解决多对多语音转换；

并不再使用传统网络模型中的单标签信息，改用源目标混合编码来控制生成的风格，同时，改动了目标条件对抗性损失，以源和目标两种方式接近真实数据；并加入一致性损失和映射损失来改善转换后的语音对音频中必要信息的保留效果。

进一步的，在上述技术方案中，在步骤3中，卷积神经网络由relu函数以及门控线性单元构建而成；

其中，说话人对抗子网络包括输入层、隐藏层以及输出层；

其中，隐藏层包括三层卷积神经网络，输出层包括两层全连接层；

在输入层后堆叠三层的卷积神经网络，每次卷积神经网络先通过一维卷积操作对输入数据进行特征提取，接着用门控线性单元(GLU)控制参数数量和特征维度的输出，之后使用relu激活函数帮助模型更快收敛，在三层卷积神经网络后通过两个全连接层输出相应类别数量的维度张量；

在步骤3中，构建基于卷积神经网络的说话人对抗子网络，将其嵌入在语音转换模型StarGAN-VC2中，对其进行预训练，使其能够区分语音特征的说话人身份，具体步骤如下：

3.1、将构建的说话人对抗子网络嵌入在生成器编码结束处；

3.2、将经过生成器底层编码网络的输出结果，即语音特征作为说话人对抗子网络的输入，将该语音特征所属说话人的分类损失作为输出；

其中，n为样本总量，

x_i为第i个源语音特征序列，

c_i为第i个源域说话人身份标签，

c_i'为第i个目标域说话人身份标签，

G_en为经生成器编码操作后，去除风格信息的语音特征，

C为说话人对抗子网络，衡量分类结果与真实身份标签的差距，由所有结果求和取平均；

其中，分类损失L_qst值越小越好；

在本步骤中，如图2所示，左侧框线框出的部分为编码环节，在原StarGAN-VC2模型中，该环节用于对说话人身份信息进行去除，但是语音转换模型StarGAN-VC2在此处缺少对源说话人语音的风格特征去除效果的检验与反馈机制，未完全去除的源说话人风格特征会对合成目标语音造成一定的干扰，造成转换语音的质量下降，因此在此处我们又引入了说话人对抗子网络，提高转换语音的质量。

进一步的，在上述技术方案中，具体步骤如下：

即在说话人对抗子网络完成分类效果的收敛后，将其模型参数进行冻结，不再随后续训练更新；

4.2、以效果发散为目标，与生成器的总损失构成对抗关系，以此为基础与语音转换模型StarGAN-VC2进行联合训练；

且在此过程中，说话人分类网络不具备区分说话人身份信息，而由于该说话人对抗子网络的顶层是冻结的，因此底层网络的输出，即语音转换模型StarGAN-VC2的编码器输出不具有说话人身份信息，才导致的无法区分说话人身份，故而实现了从语音转换模型StarGAN-VC2的编码器输出中剔除源说话人身份信息在语音转换中的干扰；

为实现上述功能，以上相较于原始的语音转换模型StarGAN-VC2，应对生成器的部分损失函数进行了重构，且重构具体如下：

a、循环一致性损失：在语音转换模型StarGAN-VC2的循环一致性损失基础上加入说话人对抗损失，在保留语音内容的同时保证编码过程中非信息特征的去除效果，公式表示如下：

其中，L_cyc为语音转换模型StarGAN-VC2的循环一致性损失，

为添加在循环一致性损失中的说话人对抗损失，

b、身份映射损失：在语音转换模型StarGAN-VC2的身份映射损失基础上，加入了说话人对抗损失，进一步提高特征转换效果。公式表示如下；

其中，L_id为语音转换模型StarGAN-VC2的身份映射损失，

为添加在身份映射损失中的说话人对抗损失，

L_G′＝L_g-adv+λ_cyc′*L_cyc′+λ_id′*L_id′+λ_qst*L_qst

其中，L_g-adv为生成器的原始对抗损失，

λ_cyc′为添加在总损失中的循环一致性损失权重，

λ_id′为添加在总损失中的身份映射损失权重，

λ_qst为说话人对抗损失权重，且该权重为负值；

在本步骤中，通过联合训练，使得语音转换模型StarGAN-VC2专注于优化生成器的底层网络，以剔除源说话人身份信息在语音转换中的干扰。

进一步的，在上述技术方案中，具体步骤如下：

H_l+1+1＝(H_l×W_l+b_l)⊙σ(H_l×V_l+c_l)

其中，W_l和V_l为不同的卷积核，

b_l和b_l为偏置参数，

σ是Sigmoid函数，

⊙是元素乘积；

其中，在下采样结束后将语音特征数据从2d转换成1d的低维数据，并在下采样与一次降维操作中使用三次实例正则化(Instance Nomalization，IN)将每个通道的特征图的均值和标准差进行归一化，以此实现特色抹除；

其中，残差块主要操作为1d卷积、自适应实例归一化(Adaptive InstanceNormalization，AdaIN)以及在连接一个门控CNN单元；

其中，自适应实例归一化公式如下：

其中，μ(x)为内容特征的均值，

σ(x)为内容特征的方差，μ(y)为风格特征的均值，

σ(y)为风格特征的方差，对每个特征映射x分别标准化后，用σ(y)缩放，并用μ(y)偏置，以这两组数据代替原算法CIN中的仿射参数集；

5.3、升维以执行上采样中的2d卷积操作，随后进行上采样操作以还原语音特征，进行语音特征数据解码，生成目标说话人语音频谱特征；

在经过一次卷积输出，即可得到目标风格的语音频谱特征；

在本步骤中，通过引入自适应实例归一化方法，即AdaIN辅助特征转换，改善语音转换模型StarGAN-VC2对于多风格转换的参数开销问题，在特征图层面上通过改变特征的数据分布来实现风格迁移，从而减小计算开销和存储开销，降低实现难度，提高了风格转换的效率。

步骤6、通过World编码器，结合频谱特征合成目标说话人语音；

进一步的，在上述技术方案中，具体步骤如下：

如图3所述，通过WORLD声码器提取出频谱包络SP、基频F0、非周期参数AP特征，F0由DIO算法得出，SP由F0结合Cheap Trick算法得出，AP由F0、SP结合D4C算法算出；

以上特征在提取完毕后，使用语音转换模型进行包络转换，对数基频使用高斯归一化算法处理，非周期参数不变，最后经由WORLD基于这三项特征进行合成；

最后结合对数高斯归一化变换转换出的对数F0、MCEP和不变的AP，由WORLD声码器完成语音合成。

验证实验：

对所得的合成语音做质量评估：

本实验采用VCC2016数据集，该数据集由、美国五名女性和五名男性专业英语人士录制，在实验过程选取了两名女性(SF1、SF2)和两名男性(TM1、TM2)的数据，因此，域的数量N为4，训练目标是在单个模型中学习4×3＝12个不同的源和目标映射，采样率设为16kHz；

训练细节方面，采用Pytorch框架对网络进行建模，训练批次设为8，使用随机裁剪的片段(128帧)，损失函数的超参数设置如下：λ_cyc′＝10，λ_id′＝5，λ_qst＝-7，λ_styc＝-0.02，λ_styi＝-0.05，并设置λ_id′在10000次迭代后更改为0，λ_qst更改为-0.3，保证开始阶段训练的稳定；生成器、判别器的网络学习速率设置为0.0002、0.0001，训练轮次比重设为1:5；采用Adam优化器，将其动量项设置为0.5；

首先评估说话人对抗损失的主要超参数λ_qst取值，取最佳数值后，对基于说话人对抗子网络模型和语音转换模型StarGAN-VC2进行性能对比；对比实验一共分4组，轮流由SF2、SF1、TM2、TM1作为源域，其余3人作为目标域，取指标均值衡量转换效果。

从主观评价和客观评价两个方面评价模型效果：

其中主观评价使用MOS和ABX方法，评价语音自然度和相似性；

客观评估使用四个指标：梅尔倒谱失真(Mel-cepstrum distortion，MCD)、说话人相似度、语音质量感知评估(Perceptual evaluation of speech quality,PESQ)，短时客观可懂度(Short-Time Objective Intelligibility,STOI)；

MCD体现语音频谱的失真情况，其值越小，说明转换语音和目标语音越接近，转换效果越好。说话人相似度采用语音转换模型StarGAN-VC2进行测试，将语音句子映射到一个超平面，然后通过cosine similarity计算说话人之间的相似度，取值范围是0-1，数值越高说明语音风格特征越接近目标；

PESQ计算时对原语音与转换语音进行预处理、时间对齐、感知滤波、掩蔽效果等操作，提取出两个失真参数,在频率和时间上总和起来，映射到对主观平均意见分的预测；取值范围为-0.5-4.5，PESQ值越高则表明被测试的语音具有越好的听觉语音质量；短时客观可懂度得分在一段语音信号中以单词为单位进行分别统计，有能被听懂和不能被听懂两种情况，从这个角度可以认为可懂度是二值的，因此将STOI的取值范围量化在0到1之间，为单词被正确理解的百分比。

主观评价：

为衡量说话人对抗损失的添加对模型的具体影响并找到最优取值，在实验前进行了超参数取值测试；保证训练条件相同，在不同的取值下对比说话人对抗效果和主客观指标，结果如表1所示：

表1超参数λ_qst取值对转换语音指标的影响

λ_qst	说话人识别率/分类损失	MCD	说话人相似度	PESQ	STOI	MOS
							0	26.88％/-	7.27	0.35	1.06	0.21	3.38
-0.3	0.31％/0.96	7.26	0.37	1.07	0.20	3.42
							-2	0％/1.19	7.22	0.37	1.06	0.22	3.53
-4	0％/1.89	7.14	0.36	1.06	0.23	3.80
							--5.5	0％/1.67	7.15	0.36	1.05	0.23	3.67
-7	0％/1.37	7.12	0.39	1.06	0.23	3.80
							-9	26.42％/1.67	7.04	0.38	1.06	0.23	3.67
-15	26.54％/1.73	6.98	0.40	1.06	0.23	3.33
							-20	25.94％/1.72	6.88	0.38	1.05	0.23	3.20

在表1中，当超参数λ_qs取0时，为本次测试的基准数据，即语音转换模型StarGAN-VC2的效果；非0时的数据为添加说话人对抗子网络后的新的语音转换模型StarGAN-VC2效果。

由表1可知：

在说话人对抗子网络的说话人分类效果方面：语音转换模型StarGAN-VC2在特征编码后的说话人识别率高达26.88％，说话人风格信息去除相对不完整，且因为未加入说话人对抗子网络进行训练，分类损失不存在；随着超参数的取值增大，在其低于-0.3后说话人分类精度迅速下降至0％，继续提高参数值，分类精度又上升至随机分类的水平；同时分类损失也有一定的增大趋势，象征着该网络此时更加无法辨别原说话人身份。因为说话人对抗损失在总损失中占据了更多的比重，所以在优化底层编码网络的过程中，说话人对抗子网络反馈结果的影响更大，源说话人语音的风格特征去除效果会得到额外的提升；

在语音转换指标数值方面：添加非0的参数时，各指标数值均有一定的提升，在MCD上基本普遍低于基准数据的7.27，最低达到了6.88；在说话人相似度上普遍高于基准数据的0.35，最高达到了0.40，在PESQ上基本与原StarGAN-VC2模型持平，总体效果在基准数据的1.06附近浮动；在STOI上有较明显的进步，最高达到了0.23，同时，在-0.3～-9的超参数范围内，主观指标MOS相比基准数据均有明显的提升，这些数据也验证了本文所做网络改进的效果；

总体指标变化趋势方面：在所选取的范围内，随着权值的增大，MCD和STOI的优化比较明显，MCD保持着进步趋势，STOI在超参数低于-4时保持上升，但之后进入停滞状态；PESQ随权值增大有微弱的降低趋势，高参数下低于基准数据；说话人相似度数值在添加非0的后没有出现稳定的变化趋势，在0.37附近浮动，但相比基准数据都有一定提升；主观指标MOS先随增大而增大，在-4至-7处达到峰值，随后迅速下降；当增大时，PESQ以外的客观指标提高，原因在于说话人对抗子网络对生成器底层编码部分的影响力提升，使其能够更好的去除说话人风格信息；当负权值过大，经测试在低于-7时，主观指标数据和PESQ会出现下滑，原因在于权重过高时，生成器的优化重心发生偏移，编码部分过多迎合子网络最大化损失的目标，会在去除说话人风格的同时折损一定的语义信息，导致转换语音质量下降；衡量整体的指标情况，选择分类损失最大且MOS、PESQ明显占优的-7作为最后的权值；

客观评价：

如图4所示，相比原StarGAN-VC2模型，改进后的语音转换模型StarGAN-VC2在每一组源域映射到目标域的转换实验中都有更好的效果，在梅尔频谱上更为接近目标语音，失真更小，提升幅度为2.13％+；

表2语音质量与可懂度评价

在语音可懂度和质量方面：

由表2可知，说话人对抗子网络有一定进步，尤其在可懂度上相比原StarGAN-VC2模型拥有更高的得分，提升幅度为4.98％，而语音质量方面得分与原StarGAN-VC2模型基本持平。

说话人相似度评估结果如图5所示，提升幅度约为11.36％，相对最大。

综合所有客观指标，说话人对抗子网络模型在保证语音质量的同时，声学特征序列上比原StarGAN-VC2模型更加接近目标序列，且拥有更高的相似度和短时客观可懂度。

主观评价方面使用ABX测试，“X”是目标语音，“A”和“B”分别为由说话人对抗子网络和StarGAN-VC2进行语音转换；

对于每个模型，与超参数测试中的MOS评测一样，安排了24(4×3个源域-目标域组合×2个句子)句的听感测试；

对于每一组句子，由听众选择打乱后的标签A、B中某个更佳或“相当”；

其中，由15名受过良好英语与语音领域专业教育的测试者参加了测试；

测试结果如图6所示，提升幅度为36.49％，从经验上证明了本文提出的说话人对抗子网络在语音转换效果上优于原StarGAN-VC2模型。

综上所述，本发明通过在将说话人对抗子网络嵌入至语音转换模型StarGAN-VC2中，提出了添加说话人对抗子网络辅助特征解码的策略，并融合了说话人对抗损失函数与生成器损失函数，使得二者在对抗中提高编码器的说话人身份信息去除效果，同时为了更好地适应语音转换任务，引入了自适应实例归一化算法辅助特征解码，能够有效的提升语音转换的质量以及说话人相似度，因此，使得语音在转换过程中，具有检验与反馈机制，非语义特征剔除彻底，可以在保持多对多的非平行语料转换方法优越性的前提下，创造出一个说话人身份信息去除辅助与验证机制，语音转换效果好，具有良好的应用前景。

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

Claims

1.一种基于说话人对抗子网络的语音转换方法，其特征在于：包括以下步骤：

步骤1、提取说话人语音的梅尔频谱特征作为训练数据；

2.根据权利要求1所述的一种基于说话人对抗子网络的语音转换方法，其特征在于：在步骤2中，语音转换模型StarGAN-VC2由生成器和判别器构建而成；

其中，生成器包括编码部分、残差优化以及解码部分。

3.根据权利要求2所述的一种基于说话人对抗子网络的语音转换方法，其特征在于：在步骤3中，卷积神经网络由relu函数以及门控线性单元构建而成；

其中，说话人对抗子网络包括输入层、隐藏层以及输出层；

4.根据权利要求3所述的一种基于说话人对抗子网络的语音转换方法，其特征在于：在步骤3中，构建基于卷积神经网络的说话人对抗子网络，将其嵌入在语音转换模型StarGAN-VC2中，对其进行预训练，使其能够区分语音特征的说话人身份，具体步骤如下：

(3.1)、将构建的说话人对抗子网络嵌入在生成器编码结束处；

(3.2)、将生成器底层编码网络后的输出结果，即语音特征作为说话人对抗子网络的输入，将该语音特征所属说话人的分类损失作为输出；

(3.3)、最小化分类损失，训练说话人对抗子网络的模型参数，使说话人对抗子网络对尚未优化的生成器底层网络输出结果，即语音特征，有一个说话人身份辨别效果，且该最小化分类损失计算公式如下：

其中，n为样本总量，

x_i为第i个源语音特征序列，

c_i为第i个源域说话人身份标签，

c_i'为第i个目标域说话人身份标签，

G_en为经生成器编码操作后，去除风格信息的语音特征，

5.根据权利要求4所述的一种基于说话人对抗子网络的语音转换方法，其特征在于：在步骤4中，冻结顶层的说话人对抗子网络的模型参数，以效果发散为目标，与语音转换模型StarGAN-VC2联合进行对抗性训练，完成语音转换模型StarGAN-VC2的训练，具体步骤如下：

(4.1)、冻结顶层的说话人对抗子网络的模型参数，将其加入编码部分处；

(4.2)、以效果发散为目标，与生成器的总损失构成对抗关系，以此为基础与语音转换模型StarGAN-VC2进行联合训练。

6.根据权利要求5所述的一种基于说话人对抗子网络的语音转换方法，其特征在于：在步骤4.2中，以效果发散为目标，与生成器的总损失构成对抗关系，以此为基础与语音转换模型StarGAN-VC2进行联合训练时，对生成器的部分损失函数进行重构，具体如下：

其中，L_cyc为语音转换模型StarGAN-VC2的循环一致性损失，

为添加在循环一致性损失中的说话人对抗损失，

其中，L_id为语音转换模型StarGAN-VC2的身份映射损失，

为添加在身份映射损失中的说话人对抗损失，

L_G′＝L_g-adv+λ_cyc′*L_cyc′+λ_id′*L_id′+λ_qst*L_qst

其中，L_g-adv为生成器的原始对抗损失，

λ_cyc′为添加在总损失中的循环一致性损失权重，

λ_id′为添加在总损失中的身份映射损失权重，

λ_qst为说话人对抗损失权重，且该权重为负值。

7.根据权利要求6所述的一种基于说话人对抗子网络的语音转换方法，其特征在于：在步骤5中，基于训练完成的语音转换模型StarGAN-VC2生成目标说话人语音频谱特征，具体步骤如下：

(5.1)、对语音特征数据进行两次下采样，将语音特征数据进行编码；

(5.2)、在编码完成后，将之前的语音特征数据从2d重新降维至1d，以进行1d卷积，经过9个残差块进行优化；

(5.3)、升维以执行上采样中的2d卷积操作，随后进行上采样操作以还原语音特征，进行语音特征数据解码，生成目标说话人语音频谱特征。

8.根据权利要求7所述的一种基于说话人对抗子网络的语音转换方法，其特征在于：在步骤5.1中，对语音特征数据进行两次下采样，将语音特征数据进行编码；

H_l+1+1＝(H_l×W_l+b_l)⊙σ(H_l×V_l+c_l)

其中，W_l和V_l为不同的卷积核，

b_l和b_l为偏置参数，

σ是Sigmoid函数，

⊙是元素乘积；

在经过一次卷积输出，即可得到目标风格的语音频谱特征。

9.根据权利要求8所述的一种基于说话人对抗子网络的语音转换方法，其特征在于：自适应实例归一化公式如下：

其中，μ(x)为内容特征的均值，

σ(x)为内容特征的方差，μ(y)为风格特征的均值，

10.根据权利要求9所述的一种基于说话人对抗子网络的语音转换方法，其特征在于：在步骤6中，通过World编码器，结合频谱特征合成目标说话人语音，具体步骤如下：

(6.1)、通过WORLD声码器提取语音频谱特征、基频特征、非周期特征；

(6.2)、使用语音转换模型进行频谱特征转换，对数基频使用高斯归一化算法处理，非周期不做处理，进而由WORLD声码器基于语音频谱特征、基频特征、非周期特征这三项特征完成语音合成，输出目标说话人语音。