CN113643687B

CN113643687B - 融合DSNet与EDSR网络的非平行多对多语音转换方法

Info

Publication number: CN113643687B
Application number: CN202110772028.7A
Authority: CN
Inventors: 李燕萍; 邱祥天; 戴少梁
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2023-07-18
Anticipated expiration: 2041-07-08
Also published as: CN113643687A

Abstract

本发明公开了一种融合DSNet与EDSR网络的非平行多对多语音转换方法，本方法包括训练阶段和转换阶段，训练过程不需要任何对齐过程，能够实现非平行文本条件下的多对多语音转换。训练阶段包括以下步骤：获取训练语料，训练语料由8名说话人的语料组成，说话人包含源说话人和目标说话人；提取训练语料中的声学特征向量，将特征向量输入到转换网络中进行训练，转换网络包括生成器、鉴别器和分类器，生成器融合了DSNet与EDSR网络。本方法利用EDSR网络提升模型对语音频谱信息的提取能力，再通过DSNet网络将提取的频谱信息进行特征融合，从而较好地提升了转换语音的音质和个性相似度，实现高质量的多对多语音转换。

Description

融合DSNet与EDSR网络的非平行多对多语音转换方法

技术领域

本发明涉及语音转换技术领域，具体涉及到一种融合DSNet与EDSR网络的非平行多对多语音转换方法。

背景技术

语音转换是语音信号处理领域中重要的研究分支，研究该技术有着重要的理论价值和应用前景。语音转换是一种将语音中源说话人的身份特征转换为目标说话人的身份特征，同时保证语音中的语义特征不变的技术。简言之，将一个人的一段语音转换成听起来像是由另一个指定说话人所发出的同一段语音。一个典型的语音转换系统可以分为两个阶段：训练阶段、转换阶段。在训练阶段，需要先进行语音分析和特征计算从而将语音波形信号编码成可以进行处理的语音特征。在传统的语音转换方法中还需要对源和目标说话人的语音进行时间对齐，从而使得具有相同音素内容的语音之间产生关联性，并且用这些对齐后的语音特征来训练转换模型，而在非平行语音转换方法中不需要执行时间对齐操作。在转换阶段，先计算出待转换语音的特征，用训练阶段训练好的转换模型进行特征转换，然后用语音合成器将转换后的特征合成为语音信号。

语音转换技术经过多年的研究，已经涌现了很多经典的转换方法。其中，基于高斯混合模型(GMM)的方法得到了广泛的研究，该方法利用统计参数模型来变换频谱特征；此外，神经网络也因其优异的性能而被应用于语音转换中，如递归神经网络(RNN)和深度神经网络(DNN)。包括上述提到的许多语音转换方法被归类为平行文本条件下的转换方法，这需要精确对齐的源语音和目标语音的并行数据。在一般情况下，收集平行文本语料可能是一个昂贵和耗时的过程，即使能够收集平行文本语料，我们通常需要执行自动时间对齐程序，当源语音和目标语音之间相差很大时，可能会导致无法对齐。因此，无论从语音转换系统的通用性还是实用性来考虑，研究非平行文本条件下的语音转换技术具有更大的应用价值和现实意义。

在语音转换领域的研究中，现有的非平行文本条件下的语音转换方法取得了很大进展，主要包括C-VAE(Conditional Variational Auto-Encoder，基于条件变分自编码器)的方法、Cycle-GAN(Cycle-Consistent Adversarial Networks，基于循环一致对抗网络)的方法和STARGAN(Star Generative Adversarial Networks，基于星型生成对抗网络)的方法等，这些转换方法能够规避对平行文本的依赖，实现非平行文本条件下的转换。基于C-VAE模型的语音转换方法，直接利用说话人的身份标签建立语音转换系统，其中编码器实现语音的语义信息和说话人个性信息的分离，解码器通过语义和说话人身份标签来实现语音的重构，从而可以解除对平行文本的依赖。但是C-VAE模型改进的理想假设认为观察到的数据通常是服从高斯分布的，从而使解码器的输出语音过度平滑，导致转换语音的质量不好。以往的研究已经证明，基于Cycle-GAN模型的语音转换方法能够产生更真实的语音。该模型可以同时学习声学特征的正映射和逆映射，主要是通过利用对抗损失和循环一致性损失来实现，可以有效地缓解过平滑问题，改善转换语音质量，虽然Cycle-GAN模型被证明效果相当好，但是该模型的局限性是它被设计为学习两个域之间的映射，只能实现一对一转换。

STARGAN(Star Generative Adversarial Networks，基于星型生成对抗网络)模型的语音转换方法同时具有C-VAE和Cycle-GAN的优点，该方法的生成器结构由编码网络和解码网络组成，可以同时学习多对多映射，说话人身份标签控制着生成器的输出属性，因此可以实现非平行文本条件下的多对多语音转换。但是由于此方法中生成器的编码网络和解码网络之间相互独立，且编码网络和解码网络层次较低，整个生成器缺乏对深层特征的提取能力，直接通过编码网络无法生成较好的语义特征，同时生成器的解码网络也无法较好地实现语义特征和说话人个性特征的合成，因此在网络传输中容易丢失频谱深层的语义特征与说话人个性特征，造成转换语音的部分信息丢失和噪声的生成。针对这种情况，需要一种能够解决在训练过程中网络退化问题的方法，来提高生成器的编码网络对语义的学习能力，并且实现模型对频谱深层的语义特征与个性特征的学习能力，从而提高解码网络的频谱生成能力，使得转换后的语音在音质和个性相似度上有所提升。

目前，大多数基于深度学习的方法都是通过backbone网络实现的，其中两个最有名的方法就是ResNet和DenseNet。ResNet与DenseNet的不同之处在于，ResNet采用求和的方法将之前所有的特征图连接起来，而DenseNet将所有的特征图使用级联的方式连接起来。尽管它们具有相近的性能，但它们两个都存在缺点。对于ResNet，稳定训练的“短路连接”方式也限制了其表示能力，而DenseNet具有更高的特征，可以进行多层特征级联，但是，DenseNet中采用的密集级联产生了一些新的问题，即需要较高的GPU内存和更多的训练时间。DSNet结构的核心是dense weighted normalized shortcuts，吸取了上述两种方法的优点，采用加权归一化的“短路连接”和多层特征相加，实验结果也表明，DSNet比ResNet取得了更好的结果，并且具有与DenseNet相当的性能，但需要的计算资源更少。DSNet在“短路连接”中加入了归一化和特征加权的操作，其中使用归一化的动机是为了将前面的所有特征归一化到一个相似的尺度，避免任何前一个特征支配整个求和，方便训练；同时，特征加权是为了让网络根据特征图的显著性来给每个归一化特征图分配适当的权值。

在图像领域中，ResNet取得了显著的效果，它解决了深层卷积网络由于网络层次加深而引起的性能退化问题。ResNet结构的核心是通过建立输入和输出之间的“短路连接”，有助于提升训练过程中梯度的反向传播，解决梯度消失问题，提高模型的训练效率。在图像SR(Super-Resolution，超分辨率)领域，也使用ResNet这种结构来搭建深度卷积网络，为SR问题中的峰值信噪比提供了显著的性能改进。但是，这样的网络在架构最优性方面有所限制：神经网络模型的重建性能对架构的微小变化很敏感，同样的模型在不同的初始化和训练技术之下实现的性能水平不同；SRResNet虽然成功地解决了模型训练难的问题，并且有很好的性能，但它只是采用了原始的ResNet架构，并不适用于超分辨率问题。EDSR(Enhanced Deep Super-Resolution Network，增强型超分辨率网络)基于SRResNet架构来构建，通过删除不必要的模块进行优化，把Batch Norm层去掉(BN层的计算量和一个卷积层几乎持平，移除BN层后训练时可以节省内存空间)以及相加后不经过ReLU层，同时为了保证训练更加稳定，在残差块相加前，经过卷积处理的输出乘以一个小数，这些改变构建出更简单的结构，并且在计算效率上优于原始网络。

发明内容

本发明所要解决的技术问题：为了克服现有技术的不足，本发明提供一种融合DSNet与EDSR网络的非平行多对多语音转换方法，该方法可以增强网络的表征能力，解决现有的语音转换技术中生成语音噪声过大的问题，降低编码网络对语义特征的学习难度，提高模型对频谱深层特征的学习能力，从而提高解码网络对语音频谱的生成质量，改善转换语音的音质和个性相似度。

本发明为解决以上技术问题而采用以下技术方案：本发明所述的融合DSNet与EDSR网络的非平行多对多语音转换方法，包括训练阶段和转换阶段，所述训练阶段包括以下步骤：

(1.1)获取训练语料，训练语料由多名说话人的语料组成，所述说话人包含源说话人和目标说话人；

(1.2)使用WORLD语音分析/合成模型提取出所述训练语料中各说话人语料的频谱包络特征x、非周期性特征以及基频特征；

(1.3)将源说话人的频谱包络特征x_s、目标说话人的频谱包络特征x_y、源说话人标签c_s以及目标说话人标签c_t，输入到转换网络进行训练，所述的转换网络由生成器G、鉴别器D、分类器C组成，所述的生成器G由编码网络、EDSR网络、DSNet网络以及解码网络构成，DSNet网络构建在编码网络与解码网络之间。所述的EDSR网络能够提升生成器对语音频谱信息提取能力，说话人频谱特征一同输入到EDSR网络和编码网络中，再通过DSNet网络将编码网络的输出与EDSR网络的输出进行特征融合；

(1.4)对所述转换网络训练过程中，使所述转换网络的生成器的损失函数、鉴别器的损失函数、分类器的损失函数尽量小，设置所述转换网络的超参数，使得目标函数最小化，直至设置的迭代次数，从而得到训练好的转换网络，称之为DSNet-EDSR STARGAN网络；

(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数；

所述转换阶段包括以下步骤：

(2.1)通过WORLD语音分析/合成模型将待转换语料中源说话人的频谱包络特征x_s'、非周期性特征和基频特征提取出来；

(2.2)将上述源说话人的频谱包络特征x_s'和目标说话人的标签特征c_t'输入到(1.4)中训练好的转换网络中，重构出目标说话人的频谱特征x_tc'；

(2.3)将步骤(2.1)中提取出的源说话人的基频，使用步骤(1.5)中的基频转换函数，转换为目标说话人的基频；

(2.4)使用WORLD语音分析/合成模型将步骤(2.1)中提出的非周期性特征、步骤(2.2)中得到的重构目标说话人频谱特征x_tc'和步骤(2.3)中得到的目标说话人的基频进行合成，得到转换后的说话人语音。

进一步说明，生成器G的编码网络与EDSR网络和解码网络之间构建了DSNet网络。

进一步说明，步骤(1.3)和(1.4)中的训练过程包括以下步骤：

(1)将源说话人的频谱包络特征x_s输入到生成器G的编码网络与EDSR网络，得到说话人无关的语义特征G'(x_s)和E'(x_s)；

(2)将上述得到的语义特征G'(x_s)和E'(x_s)输入到DSNet网络中进行特征融合，得到G(x_s)，再与目标说话人的标签特征c_t一同输入到生成器G的解码网络进行训练，在训练过程中最小化生成器G的损失函数，从而得到重构的目标说话人的频谱包络特征x_tc；

(3)将上述得到的重构目标说话人的频谱包络特征x_yc，再次输入到生成器G的编码网络与EDSR网络，得到说话人无关的语义特征G'(x_tc)和E'(x_tc)；

(4)将上述得到的语义特征G'(x_tc)和E'(x_tc)输入到DSNet网络进行特征融合，得到G(x_tc)，再与源说话人标签特征c_s一同输入到生成器G的解码网络进行训练，在训练过程中最小化生成器G的损失函数，得到重构的源说话人的频谱包络特征x_sc；

(5)将重构目标说话人的频谱包络特征x_tc、目标说话人频谱包络特征x_t以及目标说话人的标签特征c_t，一同输入到鉴别器D中进行训练，最小化鉴别器D的损失函数；

(6)将重构目标说话人的频谱包络特征x_tc、目标说话人的频谱包络特征x_t输入到分类器C进行训练，最小化分类器C的损失函数；

(7)回到步骤(1)重复上述步骤，直至达到设置的迭代次数，从而得到训练好的DSNet-EDSR STARGAN网络。

进一步说明，步骤(2.2)中的输入过程包括以下步骤：

(1)将源说话人的频谱包络特征x_s'输入到生成器G的编码网络和EDSR网络，得到说话人无关的语义特征G'(x_s')和E'(x_s')；

(2)将上述得到的语义特征G'(x_s')和E'(x_s')输入到DSNet网络中进行特征融合得到G'(x_s')，再与目标说话人的标签特征c_t'一同输入到生成器G的解码网络，得到目标说话人的频谱包络特征x_tc'。

进一步说明，所述的生成器G的损失函数为：

其中，λ_cls>＝0、λ_cyc>＝0和λ_id>＝0分别表示分类损失、循环一致性损失和身份映射损失的正则化参数，L_cyc(G)和L_id(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致性损失和身份映射损失；

所述的鉴别器D的损失函数为：

其中，D(x_t,c_t)表示鉴别器D判别真实频谱特征，G(x_s,c_t)表示生成器G生成的目标说话人频谱特征，D(G(x_s,c_t),c_t)表示鉴别器判别生成的频谱特征，表示生成器G生成的概率分布的期望，/>表示真实概率分布的期望；

所述的分类器C的损失函数为：

其中，p_C(c_t|x_t)表示分类器判别目标说话人频谱特征为标签c_t的真实频谱的概率。

进一步说明，所述的生成器G的对抗损失函数为：

其中，表示生成器生成的概率分布的期望，G(x_s,c_t)表示生成器生成频谱特征；

所述的生成器G的分类损失函数为：

其中，p_C(c_t|G(x_s,c_t))表示分类器判别生成目标说话人频谱特征标签属于C_t的概率，G(x_s,c_t)表示生成器生成的目标说话人频谱特征；

所述的生成器G的循环一致性损失函数为：

其中，G(G(x_s,c_t),c_s)为重构的源说话人频谱特征，为重构的源说话人频谱和真实源说话人频谱的损失期望；

所述的生成器G的身份映射损失函数为：

其中，G(x_s,c_s)为源说话人频谱和源说话人标签输入到生成器后，得到的重构源说话人频谱特征,为x_s和G(x_s,c_s)的损失期望。

进一步说明，所述的生成器G的编码网络包括5个卷积层，5个卷积层的过滤器大小分别为3*3、5*5、3*3、5*5、3*3，步长分别为1*1、2*2、1*1、2*2、9*1，过滤器深度分别为32、64、128、64、12；所述的EDSR网络包括1个head卷积模块、1个body卷积模块和1个tail卷积模块，其中head包括1个卷积层，该卷积层的过滤器大小为5*5，步长为2*2，过滤器深度为64；body包括16个残差模块，每个残差模块包括2个卷积层，2个卷积层的过滤器大小分别为3*3、3*3，步长分别为1*1、1*1，过滤器深度分别为64、64；tail包括一个1个上采样层和2个卷积层，其中上采样层包括1个卷积层和1个PixelShuffle层，该卷积层的过滤器大小为3*3，步长为1*1，过滤器深度为256，该PixelShuffle层的尺度因子为2；2个卷积层的过滤器大小分别为3*3、3*3，步长分别为2*2、2*2，过滤器的深度分别为64、12；所述的生成器G的解码网络包括5个反卷积层，5个反卷积层的过滤器大小分别为3*3、5*5、3*3、5*5、3*3，步长分别为1*1、2*2、1*1、2*2、1*1，过滤器深度分别为64、128、64、32、1；在生成器编码网络与EDSR网络以及解码网络之间，融合了DSNet网络。该网络由6层卷积块构成，每层卷积块都包括2个相同的卷积层，2个卷积层的过滤器大小分别为3*3、3*3，步长分别为1*1、1*1，过滤器深度分别为24、24。

进一步说明，所述的鉴别器D包括5个卷积层，5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5，步长分别为1*1、1*2、1*2、1*2、36*1，过滤器深度分别为32、32、32、32、1。

进一步说明，所述的分类器C包括5个卷积层，5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4，步长分别为2*2、2*2、2*2、1*2、1*2，过滤器深度分别为8、16、32、16、8。

进一步说明，所述的基频转换函数为：

其中，μ_s和σ_s分别为源说话人的基频在对数域的均值和均方差，μ_t和σ_t分别为目标说话人的基频在对数域的均值和均方差，log f_0s为源说话人的对数基频，log f_0t'为转换后的目标说话人的对数基频。

本发明采用以上技术方案，与现有技术相比具有有益效果为：

本方法能够基于STARGAN基准模型以融合DSNet与EDSR网络的方式来实现非平行文本条件下的多对多语音转换，主要通过编码网络结合EDSR网络的方式来进一步提升模型对语音频谱特征信息的提取能力，再将编码网络和EDSR网络中提取的特征频谱输入到DSNet网络中进行特征融合，从而较好地提升转换语音的音质和个性相似度，实现高质量的多对多语音转换。DSNet在“短路连接”中加入了归一化和特征加权的操作，可以将前面的所有特征频谱归一化到一个相似的尺度，方便训练；同时，DSNet能够使网络根据特征频谱的显著性来给每个归一化特征频谱分配适当的权值，避免任何前一个特征支配整个求和，通过强调有用信息，抑制无用信息，进一步增强模型的表征能力。通过将DSNet与EDSR网络融合到STARGAN模型中，使得模型能够充分学习源说话人和目标说话人的语音特征和个性化特征，并且提升了生成器对语音语义特征的提取能力，克服了传统STARGAN模型中造成的语音特征丢失问题，改善了转换后的语音质量。本方法是基于STARGAN模型在语音转换领域中的进一步改进应用。

本方法能够实现非平行文本条件下的多对多语音转换，并且训练过程中不需要任何对齐过程，提高了语音转换系统的通用性和实用性，本方法还可以将多个源-目标说话人对的转换系统整合在一个转换模型中，即实现多说话人转换，在跨语种语音转换、电影配音、语言翻译及医疗辅助系统等丰富人机交互方面有广阔的市场应用前景。

附图说明

图1是本发明实施例所述的模型的原理示意图；

图2是本发明实施例所述的模型中生成器的网络结构图；

图3是本发明实施例所述的模型中EDSR的网络结构图；

图4是本发明实施例所述的模型中DSNet的网络结构图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提出的融合DSNet与EDSR网络的非平行多对多语音转换方法，包括训练阶段和转换阶段，训练阶段用于得到语音转换所需的参数和转换函数，而转换阶段用于实现源说话人语音转换为目标说话人语音。

进一步说明，训练阶段包括以下步骤：

步骤1、获取非平行文本的训练语料，训练语料由多名源说话人和目标说话人的语料组成。训练所需要的语音语料库取自VCC2018，该语料库的训练集中包括6名男性说话人和6名女性说话人，其中VCC2SF3、VCC2SF4、VCC2SM3、VCC2SM4与VCC2TF1、VCC2TF2、VCC2TM1、VCC2TM2的语音内容是不相同的，本发明是使用非平行文本的训练语料进行训练，因此从语料库的训练集中选取以上八位说话人的语料作为训练语料，每位说话人有81句语料，语音总时长约5分钟。

步骤2、使用WORLD语音分析/合成模型从训练语料中提取出每个说话人的频谱特征x、非周期性特征、对数基频log f₀。其中将快速傅氏变换(Fast FourierTransformation，FFT)的长度设置为1024，可以得到频谱特征x和非周期性特征均为1024/2+1＝513维。每一个语音数据有512帧，从频谱包络特征中提取36维的梅尔倒谱系数(MCC)特征，一次训练时的批次设置为8。因此，训练语料的维度为8*36*512。

步骤3、本实施例中的融合DSNet和EDSR网络的非平行多对多语音转换方法以STARGAN模型为基准，通过改善STARGAN模型结构，来提升转换网络的效果。STARGAN基准模型由三部分组成：一个产生真实频谱的生成器G，一个判断输入频谱是真实频谱特征还是生成频谱特征的鉴别器D，以及一个判别生成器频谱特征的标签是否属于标签c_t的分类器C。

DSNet-EDSR STARGAN网络的目标函数为：

其中，L_G(G)为生成器的损失函数：

为鉴别器D的损失函数：

为分类器C的损失函数：

步骤4、将步骤2中提取的源说话人频谱特征x_s与目标说话人标签特征C_t作为联合特征(x_s,c_t)输入到生成器中进行训练。训练生成器，直至达到设置的迭代次数，使得生成器的损失函数L_G尽可能小，得到生成目标说话人频谱特征x_tc。

生成器由编码网络、EDSR网络、DSNet网络和解码网络组成，编码网络由5个卷积层组成，5个卷积层的过滤器大小分别为3*3、5*5、3*3、5*5、3*3，步长分别为1*1、2*2、1*1、2*2、9*1，过滤器深度分别为32、64、128、64、12。EDSR网络由1个head卷积模块、1个body卷积模块和1个tail卷积模块组成，其中head包括1个卷积层，该卷积层的过滤器大小为5*5，步长为2*2，过滤器深度为64；body包括16个残差模块，每个残差模块包括2个卷积层，2个卷积层的过滤器大小分别为3*3、3*3，步长分别为1*1、1*1，过滤器深度分别为64、64；tail包括一个1个上采样层和2个卷积层，其中上采样层包括1个卷积层和1个PixelShuffle层，该卷积层的过滤器大小为3*3，步长为1*1，过滤器深度为256，该PixelShuffle层的尺度因子为2；2个卷积层的过滤器大小分别为3*3、3*3，步长分别为2*2、2*2，过滤器的深度分别为64、12。其中，DSNet网络融合在生成器编码网络与EDSR网络以及解码网络之间，由6层卷积块构成，每层卷积块都包括2个相同的卷积层，2个卷积层的过滤器大小分别为3*3、3*3，步长分别为1*1、1*1，过滤器深度分别为24、24。解码网络由5个反卷积层组成，5个反卷积层的过滤器大小分别为3*3、5*5、3*3、5*5、3*3，步长分别为1*1、2*2、1*1、2*2、1*1，过滤器深度分别为64、128、64、32、1。

步骤5、将步骤4得到的生成目标说话人频谱特征x_tc和步骤2得到的训练语料的目标说话人频谱特征x_c以及目标说话人标签c_t，一同输入到鉴别器中来训练鉴别器，使鉴别器的损失函数尽可能小。

鉴别器是由二维卷积神经网络搭建而成，包括5个卷积层，5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5，步长分别为1*1、1*2、1*2、1*2、36*1，过滤器深度分别为32、32、32、32、1。

鉴别器的损失函数为：

优化目标为：

步骤6、将步骤4得到的生成目标说话人频谱特征x_tc再次输入到生成器G的编码网络和EDSR网络，通过DSNet网络进行特征融合之后得到说话人无关的语义特征G(x_tc)，将G(x_tc)与源说话人标签特征c_s一同输入到生成器G的解码网络进行训练，得到重构的源说话人频谱特征x_sc。在整个训练过程中最小化生成器的损失函数，包括生成器的对抗损失、循环一致性损失、身份映射损失以及生成器的分类损失。其中，循环一致性损失使得转换后的语音特征可以保留更多的语义特征。身份映射损失来确保当输入的真实语音特征已经属于标签为c'的说话人时，其频谱特征保持不变。生成器的分类损失指分类器判别生成器所生成的目标说话人频谱特征x_tc属于标签c_t的概率损失。

生成器的损失函数为：

优化目标为：

其中，λ_cls>＝0、λ_cyc>＝0和λ_id>＝0分别表示分类损失、循环一致性损失和身份映射损失的正则化参数。

DSNet-EDSR STARGAN网络中生成器的对抗损失表示为：

其中，x_s～p(x_s)表示任意说话人的一段语音的声学特征，表示生成器生成的概率分布的期望，G(x_s,c_t)表示生成器生成的频谱特征。在训练过程中使/>的值逐渐变小，不断优化生成器，使得生成器G能够成功欺骗鉴别器D，即鉴别器将生成器生成的语音特征G(x_s,c_t)错误地分类为真实语音特征。

分类器C用来优化生成器的分类损失表示为：

其中，p_c(c_t|G(x_s,c_t))是生成的频谱特征G(x_s,c_t)被分类器分类的概率分布，G(x_s,c_t)表示生成器生成的目标说话人频谱特征。当分类器能够将G(x_s,c_t)正确地分类为说话人类别c_t时，的值应该是尽可能小的。因此，在训练过程中，通过最小化/>来优化生成器G，使得生成器G生成的频谱特征G(x_s,c_t)能够被分类器正确分类为类别c_t。

进一步说明，L_cyc(G)为生成器G的循环一致性损失：

其中，G(G(x_s,c_t),c_s)为重构的源说话人频谱特征，为重构源说话人频谱特征和真实源说话人频谱特征的损失期望。在训练过程中，使L_cyc(G)损失尽可能小，来保证生成器G可以保留更多语音特征中的语义信息，使说话人语音的语义特征在经过生成器的编码之后不被损失。

L_id(G)为生成器G的身份映射损失：

其中，G(x_s,c_s)为生成器生成的源说话人频谱特征，为x_s和G(x_s,c_s)的损失期望。使L_id(G)尽可能小，来确保当输入的源说话人频谱特征已经属于标签c_s的说话人时，其频谱特征保持不变。

步骤7、将上述生成的目标说话人频谱特征x_tc和真实目标说话人的频谱特征x_t输入到分类器中进行训练，最小化分类器的损失函数。

分类器C是由二维卷积神经网络搭建而成，包括5个卷积层，5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4，步长分别为2*2、2*2、2*2、1*2、1*2，过滤器深度分别为8、16、32、16、8。

分类器的损失函数为：

优化目标为：

步骤8、重复步骤4/5/6/7，使得目标函数最小化，直至达到迭代次数。在训练过程中，使所述转换网络的对抗损失、分类损失、循环一致性损失和身份映射损失尽可能小，直至设置的迭代次数，从而得到训练好的所述转换网络。本实验中设置的迭代次数为200000次。

步骤9、使用对数基频log f₀的均值和均方差建立基音频率转换关系，统计出每个说话人的对数基频的均值和均方差，利用对数域线性变换将源说话人对数基频log f_0s转换为目标说话人对数基频log f_0t'。

进一步说明，基频转换函数为：

其中，μ_s和σ_s分别为源说话人的基频在对数域的均值和均方差，μ_t和σ_t分别为目标说话人的基频在对数域的均值和均方差，log f_0s为源说话人的对数基频，log f_0t'为转换的目标说话人对数基频。

进一步说明，转换阶段包括以下步骤：

步骤1、通过WORLD语音分析/合成模型将待转换语料中源说话人的频谱包络特征x_s'、非周期性特征和基频特征提取出来；

步骤2、将上述源说话人的频谱包络特征x_s'和目标说话人的标签特征c_t'输入到训练阶段步骤8中训练好的转换网络中，重构出目标说话人的频谱特征x_tc'；

步骤3、将步骤1中提取的源说话人基频特征，使用训练阶段步骤9中的基频转换函数，转换为目标说话人的基频；

步骤4、使用WORLD语音分析/合成模型，将步骤1中提取的非周期性特征、步骤2中得到的重构目标说话人频谱特征x_tc'和步骤3中得到的目标说话人的基频等进行合成，得到转换后的说话人语音。

以上所述为本发明的示例性实施例，并非因此限制本发明专利保护范围，凡是利用本发明内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种融合DSNet与EDSR网络的非平行多对多语音转换方法，其特征在于，包括训练阶段和转换阶段，所述训练阶段包括以下步骤：

(1.3)将源说话人的频谱包络特征x_s、目标说话人的频谱包络特征x_t、源说话人标签c_s以及目标说话人标签c_t，输入到转换网络进行训练；转换网络由生成器G、鉴别器D、分类器C组成，所述的生成器G由编码网络、EDSR网络、DSNet网络以及解码网络构成，DSNet网络构建在编码网络与解码网络之间；说话人频谱特征一同输入到EDSR网络和编码网络中，再通过DSNet网络将编码网络的输出与EDSR网络的输出进行特征融合；所述EDSR网络包括卷积模块和残差模块，所述残差模块是去除了BN和ReLU模块的ResNet结构；

(1.4)设置所述转换网络的超参数，使得目标函数最小化，直至设置的迭代次数，从而得到训练好的转换网络；

所述转换阶段包括以下步骤：

(2.2)将上述源说话人的频谱包络特征x_s'和目标说话人的标签c_t'输入到步骤(1.4)中训练好的转换网络中，重构出目标说话人的频谱特征x_tc'；

2.根据权利要求1所述的融合DSNet与EDSR网络的非平行多对多语音转换方法，其特征在于：步骤(1.4)中的训练过程包括以下步骤：

(1)将源说话人的频谱包络特征x_s输入到生成器G的编码网络和EDSR网络，得到说话人无关的语义特征G'(x_s)和E'(x_s)；

(3)将上述得到的重构目标说话人的频谱包络特征x_tc，再次输入到生成器G的编码网络和EDSR网络，得到说话人无关的语义特征G'(x_tc)和E'(x_tc)；

(4)将上述得到的语义特征G'(x_tc)和E'(x_tc)输入到DSNet网络进行特征融合得到G(x_tc)，再与源说话人标签特征c_s输入到生成器G的解码网络进行训练，在训练过程中最小化生成器G的损失函数，得到重构的源说话人的频谱包络特征x_sc；

(6)将重构目标说话人的频谱包络特征x_tc、目标说话人的频谱包络特征x_t输入分类器C进行训练，最小化分类器C的损失函数；

3.根据权利要求1所述的融合DSNet与EDSR网络的非平行多对多语音转换方法，其特征在于，步骤(2.2)中的输入过程包括以下步骤：

(2)将上述得到的语义特征G'(x_s')和E'(x_s')输入到DSNet网络中进行特征融合得到G(x_s')，再与目标说话人的标签特征c_t'一同输入到生成器G的解码网络，得到目标说话人的频谱包络特征x_tc'。

4.根据权利要求2所述的融合DSNet与EDSR网络的非平行多对多语音转换方法，其特征在于，所述的生成器G的损失函数为：

所述的鉴别器D的损失函数为：

所述的分类器C的损失函数为：

5.根据权利要求4所述的融合DSNet与EDSR网络的非平行多对多语音转换方法，其特征在于，所述的生成器G的对抗损失函数为：

其中，表示生成器生成的概率分布的期望，G(x_s,c_t)表示生成器生成的频谱特征；

所述的生成器G的分类损失函数为：

所述的生成器G的循环一致性损失函数为：

所述的生成器G的身份映射损失函数为：

其中，G(x_s,c_s)为源说话人频谱和源说话人标签输入到生成器后，得到的重构源说话人频谱特征，为x_s和G(x_s,c_s)的损失期望。

6.根据权利要求1所述的融合DSNet与EDSR网络的非平行多对多语音转换方法，其特征在于：所述的生成器G的编码网络包括5个卷积层，5个卷积层的过滤器大小分别为3*3、5*5、3*3、5*5、3*3，步长分别为1*1、2*2、1*1、2*2、9*1，过滤器深度分别为32、64、128、64、12；

所述的EDSR网络包括1个head卷积模块、1个body卷积模块和1个tail卷积模块，其中：head卷积模块包括1个卷积层，该卷积层的过滤器大小为5*5，步长为2*2，过滤器深度为64；body卷积模块包括16个残差模块，每个残差模块包括2个卷积层，2个卷积层的过滤器大小分别为3*3、3*3，步长分别为1*1、1*1，过滤器深度分别为64、64；tail卷积模块包括一个1个上采样层和2个卷积层，其中上采样层包括1个卷积层和1个PixelShuffle层，该卷积层的过滤器大小为3*3，步长为1*1，过滤器深度为256，该PixelShuffle层的尺度因子为2；2个卷积层的过滤器大小分别为3*3、3*3，步长分别为2*2、2*2，过滤器的深度分别为64、12；

所述的生成器G的解码网络包括5个反卷积层，5个反卷积层的过滤器大小分别为3*3、5*5、3*3、5*5、3*3，步长分别为1*1、2*2、1*1、2*2、1*1，过滤器深度分别为64、128、64、32、1；

在生成器编码网络与EDSR网络以及解码网络之间，融合了DSNet网络；该DSNet网络由6层卷积块构成，每层卷积块都包括2个相同的卷积层，2个卷积层的过滤器大小分别为3*3、3*3，步长分别为1*1、1*1，过滤器深度分别为24、24。

7.根据权利要求4所述的融合DSNet与EDSR网络的非平行多对多语音转换方法，其特征在于：所述的鉴别器D包括5个卷积层，5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5，步长分别为1*1、1*2、1*2、1*2、36*1，过滤器深度分别为32、32、32、32、1。

8.根据权利要求4所述的融合DSNet与EDSR网络的非平行多对多语音转换方法，其特征在于：所述的分类器C包括5个卷积层，5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4，步长分别为2*2、2*2、2*2、1*2、1*2，过滤器深度分别为8、16、32、16、8。

9.根据权利要求1所述的融合DSNet与EDSR网络的非平行多对多语音转换方法，其特征在于：步骤(1.5)所述的基频转换函数为：

其中，μ_s和σ_s分别为源说话人的基频在对数域的均值和均方差，μ_t和σ_t分别为目标说话人的基频在对数域的均值和均方差，logf_0s为源说话人的对数基频，log f_0t'为转换后的目标说话人的对数基频。