CN111462768A

CN111462768A - 基于共享训练的多尺度StarGAN的语音转换方法

Info

Publication number: CN111462768A
Application number: CN202010168942.6A
Authority: CN
Inventors: 李燕萍; 沙淮; 徐伶俐
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-28
Anticipated expiration: 2040-03-12
Also published as: CN111462768B

Abstract

本发明公开了一种基于共享训练的多尺度StarGAN的语音转换方法，使用多尺度StarGAN结构，在不同级别上来表示多尺度特征并且增加了每层网络的感受野范围，同时使用残差连接，缓解梯度消失的问题，使得网络能够更深层次地传播，显著地提升了转换后的语音质量，进一步使用Share‑Learning训练鉴别器和分类器的共享模块Share‑Block，不仅能够减少模型参数，而且共享模块的参数可以同时训练到，能够加快鉴别器和分类器训练过程，提升鉴别器和分类器的性能，实现了一种高质量的语音转换方法，在跨语种语音转换、电影配音、语音翻译和医疗辅助等领域有很好的应用前景。

Description

基于共享训练的多尺度StarGAN的语音转换方法

技术领域

本发明涉及一种语音转换方法，特别是涉及一种基于共享训练的多尺度StarGAN的语音转换方法

背景技术

语音转换是语音信号处理领域的研究分支，是在语音分析、识别和合成的研究基础上发展与延伸的。语音转换的目标是改变源说话人的语音个性特征，使之具有目标说话人的语音个性特征，也就是使一个人说的语音经过转换后听起来像是另一个人说的语音，同时保留语义。

非平行文本下的语音转换指的是源说话人和目标说话人的语音内容，语音时长不相同。现有的非平行文本条件下的语音转换方法有基于条件变分自编码器(ConditionalVariational Auto-Encoder，C-VAE)的方法、基于循环一致对抗网络(Cycle-ConsistentAdversarial Networks，Cycle-GAN)的方法等。基于C-VAE模型的语音转换方法，直接利用说话人的身份标签建立语音转换系统，其中编码器对语音实现语义和个性信息的分离，解码器通过语义和说话人身份标签来实现语音的重构，从而可以解除对平行文本的依赖。但是由于C-VAE基于理想假设，认为观察到的数据通常遵循高斯分布，导致解码器的输出语音过度平滑，转换后的语音质量不高。基于Cycle-GAN模型的语音转换方法利用对抗性损失和循环一致损失，同时学习声学特征的正映射和逆映射，可以有效解决过平滑问题，改善转换语音质量，同时引入鉴别器通过生成器和鉴别器的对抗学习，可以显著提高转换语音质量，但是Cycle-GAN只能实现一对一的语音转换。

基于星型生成对抗网络(Star Generative Adversarial Network，StarGAN)模型的语音转换方法同时具有C-VAE和Cycle-GAN的优点，由于该方法的生成器具有编解码结构，可以同时学习多对多映射，生成器输出的属性由说话人身份标签控制，因此可以实现非平行下多对多的语音转换，同时引入分类器，提高转换语音的相似度。在实际应用中，经编码器编码的语义特征全部是在语义尺度上表示的，每层网络的感受野是相同，不能侧重提取如词语，音素等不同尺度级别上的特征，同时随着网络的加深，梯度会消失，使得网络难以训练。另一方面，由于训练语料有限，而StarGAN的模块参数多、易过拟合，泛化能力差，所以在少量语料中的转换性能十分有限。除此以外，分别训练鉴别器和分类器时，模型的关注点可能侧重在单个任务上，忽略了可能多个任务共有的能够帮助优化度量指标的其它信息，因此转换的语音存在相似度虽高，音质较差的缺点。

发明内容

发明目的：本发明要解决的技术问题是提供一种基于共享训练的多尺度StarGAN的语音转换方法，从三个方面解决了基于基准StarGAN的多对多说话人转换方法的不足，一是基准方法仅提取了说话人笼统的语义信息，而忽视了不同层次语义特征和其他特征的提取，二是基准方法参数多、易过拟合，泛化能力差，分别训练鉴别器和分类器拆分了两个任务间的联系，三是传统的Relu激活函数负值为0，容易造成神经元的死亡。本发明通过提取语音的不同级别的多尺度特征，实现将源说话人的语音特征迁移到目标说话人域中，并使用Share-Learning(即共享训练)训练鉴别器和分类器的共享模块Share-Block，同时使用Mish激活函数，提高转换后语音的音质和细腻感。

技术方案：本发明所述的基于共享训练的多尺度StarGAN的语音转换方法，包括训练阶段和转换阶段，所述训练阶段包括以下步骤：

(1.1)获取训练语料，训练语料由多名说话人的语料组成，包含源说话人和目标说话人；

(1.2)将所述的训练语料通过WORLD语音分析/合成模型，提取出各说话人语句的频谱特征x、基频特征logf₀；

(1.3)将源说话人的频谱特征x_s、源说话人标签c_s和目标说话人标签c_t，输入到Multi-Scale StarGAN网络进行训练，所述的Multi-Scale StarGAN网络由生成器G、鉴别器D和分类器C组成，所述的生成器G由预编码网络、Multi-Scale模块和解码网络构成，鉴别器D和分类器C共享Share-Block，经Share-Block编码后，再进入两个下层网络分别实现鉴别器D和分类器C的功能，所述Share-Block为鉴别器D和分类器C的共享模块；

(1.4)训练过程先训练分类器C和Share-Block，后训练鉴别器D和Share-Block，最后训练生成器G，使生成器G的损失函数、鉴别器D的损失函数、分类器C的损失函数尽量小，直至设置的迭代次数，得到训练好的基于Share-Learning的Multi-ScaleStarGAN网络；

(1.5)构建从源说话人的语音基频logf_0s到目标说话人的语音基频logf_0t的基频转换函数；

所述转换阶段包括以下步骤：

(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱特征x_s′、非周期性特征和基频logf_0s′；

(2.2)将上述源说话人频谱特征x_s′、目标说话人标签特征c_t′输入(1.4)中训练好的基于Share-Learning的Multi-Scale StarGAN网络，重构出目标说话人频谱特征x_tc′；

(2.3)通过(1.5)得到的基频转换函数，将(2.1)中提取出的源说话人基频logf_0s′转换为目标说话人的基频log f_0t′；

(2.4)将(2.2)中得到的目标说话人频谱特征x_tc′、(2.3)中得到的目标说话人的基频logf_0t′和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型，合成得到转换后的说话人语音。

进一步的，步骤(1.3)和(1.4)中的训练过程包括以下步骤：

(1)将源说话人的频谱特征x_s输入共享Share-Block的分类器C和鉴别器D，得到分类器C的真实特征分类损失函数和鉴别器D真实特征鉴别损失函数，最小化真实特征分类损失函数，更新Share-Block和分类器C的参数；

(2)将源说话人的频谱特征x_s与目标说话人的标签特征c_t共同输入生成器G的预编码网络，得到目标说话人域的全局特征G(x_t)；

(3)将得到目标说话人域的全局特征G(x_t)输入Multi-Scale模块，得到了多通道层次化编码的多尺度特征G_M(x_t)；

(4)将上述得到的多尺度特征G_M(x_t)输入到生成器G的解码网络，从而得到生成的目标说话人的频谱特征x_tc；

(5)将源说话人的频谱特征x_s与源说话人的标签特征c_s共同输入生成器G，得到重新特征映射的源说话人的频谱特征x_ss，从而得到生成器特征映射损失；

(6)将生成的目标说话人的频谱特征x_tc输入Share-Block后经鉴别器D，得到鉴别器D生成特征鉴别损失函数，加上步骤(1)中的鉴别器D真实特征鉴别损失函数，最小化上述损失函数，更新Share-Block和鉴别器D的参数；

(7)将步骤(4)中得到的目标说话人的频谱特征x_tc与源说话人标签特征c_s，再次输入到生成器G的预编码网络，得到源说话人域的全局特征G(x_s)；

(8)将得到源说话人域的全局特征G(x_s)输入Multi-Scale模块，得到了多通道层次化编码的多尺度特征G_M(x_s)；

(9)将上述得到的多尺度特征G_M(x_s)输入到生成器G的解码网络，得到重构源说话人的频谱特征x_sc，从而得到源说话人的频谱特征x_s和重构源说话人的频谱特征x_sc的循环损失；

(10)将步骤(4)中目标说话人的频谱特征x_tc输入鉴别器D和分类器C，得到生成器G的对抗损失函数和分类器C的生成特征分类损失函数，最小化上述两个损失函数、步骤(5)中得到的特征映射损失和步骤(9)中得到的生成器的循环损失函数，固定Share-Block、分类器C和鉴别器D的参数，只更新生成器G的参数；

(11)回到步骤(1)重复上述步骤，直至达到迭代次数，从而得到训练好的基于Share-Learning的Multi-Scale StarGAN网络。

进一步的，步骤(3)和步骤(4)具体为，将目标说话人域的全局特征G(x_t)分为s个特征图子集，每个特征图子集表示了一个尺度的特征，从不同尺度的特征图子集感知信息，并在Multi-Scale的输入输出使用残差连接，构建层次化的连接实现，将s个特征图子集拼接后得到经层次化的连接的多尺度特征G_M(x_t)，输入生成器的解码器，从而得到目标说话人的频谱特征x_tc；

步骤(8)和步骤(9)具体为，将源说话人域的全局特征G(x_s)分为s个特征图子集，每个特征图子集表示了一个尺度的特征，从不同尺度的特征图子集感知信息，并在Multi-Scale的输入输出使用残差连接，构建层次化的连接实现，将s个特征图子集拼接后得到经层次化的连接的多尺度特征G_M(x_s)，输入生成器的解码器，得到重构源说话人的频谱特征x_sc。

进一步的，所述的鉴别器D和分类器C共享Share-Block，最后一层分别实现鉴别器D和分类器C的功能，鉴别器D和分类器C损失函数分别如下，

鉴别器D损失函数为：

其中，

表示真实特征鉴别损失函数，

表示生成特征鉴别损失函数；

其中，D(x_s)表示鉴别器D判别真实频谱特征，

表示真实概率分布的期望；

其中，G(x_s,c_t)表示生成器G生成的目标说话人频谱特征，

表示生成器G生成的概率分布的期望；

分类器C损失函数为：

其中，λ_cls＞＝0是正则化参数，表示分类损失的权重。

表示真实特征分类损失函数，

表示生成特征分类损失函数；

其中，p_C(c_s|x_s)表示分类器判别源说话人频谱标签属于c_t的概率，x_s表示源说话人频谱；

其中，p_C(c_t|G(x_s,c_t))表示分类器判别生成目标说话人频谱标签属于c_t的概率，G(x_s,c_t)表示生成器生成的目标说话人频谱。

进一步的，所述的生成器G的预编码网络结构包括3个卷积层，3个卷积层的过滤器大小分别为3×9、4×8、4×8，步长分别为1×1、2×2、2×2，过滤器深度分别为64、128、256；生成器G的解码网络包括3个反卷积层，3个反卷积层的过滤器大小分别为4×4、4×4、7×7，步长分别为2×2、2×2、1×1，过滤器深度分别为128、64、1；预编码网络和解码网络的每一卷积层后使用实例正则化和Relu激活函数。

进一步的，所述的鉴别器D和分类器C，共享Share-Block模块，包括6个卷积层，6个卷积层的过滤器大小均为4×4，步长均为2×2，过滤器深度分别为64、128、256、512、1024、2048；Share-Block的每一卷积层后使用Mish激活函数；经Share-Block后下一层鉴别器D的卷积层的过滤器大小为1×8，步长为1×1，深度为1，后接一个Sigmoid函数；经Share-Block后下一层分类器C的卷积层过滤器大小为1×8，步长为1×1，深度为4，后接一个Softmax函数。

进一步的，所述Mish激活函数为，

其中，x^t表示第t个神经元进入激活函数前的输入，x^ta表示该神经元经Mish激活函数后的输出。

本发明所述的计算机存储介质，其上存储有计算机程序，所述计算机程序在被计算机处理器执行时实现上述任一项所述的方法。

有益效果：本发明能够使用Multi-Scale结构，进行预编码后，在不同级别上拆分特征，每个特征的尺度不同，能够更有针对性地学习某一级别某一层次上的特征，并增加了每层网络的感受野范围，同时在Multi-Scale结构上使用残差连接，缓解梯度消失的问题，加速网络的训练，使得网络能够更深层次地传播，实现将语音特征迁移到目标说话人域，显著地提升了转换后的语音质量。进一步使用Share-Learning训练鉴别器和分类器的共享模块Share-Block，而不是训练独立的鉴别器和分类器。一方面来说，协同训练鉴别器和分类器时，共享模块的参数可以同时训练到，能够加快鉴别器和分类器训练过程，充分提取语音内在的特征，提升鉴别器和分类器的性能，使得转换后语音的个性相似度和语音质量得到提升。另一方面，能够减少模型参数，减少过拟合。同时选用Mish激活函数，对负值的轻微允许，能够产生更好的梯度流，平滑的激活函数允许更好的信息深入Multi-Scale网络，使得网络具有更好的泛化性能。本发明实现了一种高质量的语音转换方法，在跨语种语音转换、电影配音、语音翻译和医疗辅助等领域有很好的应用前景。

附图说明

图1是本发明提出方法的训练和转换的流程图；

图2是本发明中基于Share-Learning的Multi-Scale StarGAN网络结构图；

图3是本发明中生成器G的结构图；

图4是本发明中Share-Block、鉴别器D和分类器C的结构图；

图5是本发明中Multi-Scale模块结构图；

图6是本发明中Mish激活函数图；

图7是异性转换情形下基准方法与本发明方法的时域波形对比图；

图8是同性转换情形下基准方法与本发明方法的时域波形对比图；

图9是异性转换情形下基准方法与本发明方法的语谱对比图；

图10是同性转换情形下基准方法与本发明方法的语谱对比图；

图11是基准方法与本发明方法的生成器损失函数的收敛速度对比图。

具体实施方式

如图1所示，本发明所述的方法分为两个部分：训练部分用于得到语音转换所需的参数和转换函数，而转换部分用于实现源说话人语音转换为目标说话人语音。

训练阶段实施步骤为：

1.1)获取非平行文本的训练语料，训练语料是多名说话人的语料，包含源说话人和目标说话人。训练语料取自VCC2018语音语料库。该语料库的训练集中有6个男性和6个女性说话人，每个说话人有81句语料。选取4个源说话人(两男两女)和4个目标说话人(两男两女)，4个源说话人的语音内容相同，4个目标说话人与4个源说话人的语音内容不同，因此该方法是基于非平行文本的。

1.2)训练语料通过WORLD语音分析/合成模型提取出各说话人语句的频谱包络特征、非周期性特征和对数基频logf₀，得到的频谱包络特征和非周期性特征均为513维，再从频谱包络特征中提取36维的梅尔倒谱系数(MCEP)特征x，一次训练时取8个语音块，每一块的帧数为256。因此，训练语料的维度为8*36*256。

1.3)本实施例中的Multi-Scale StarGAN即为多尺度StarGAN，如图2所示，基于Share-Learning的Multi-Scale StarGAN网络模型由四部分组成：一个产生目标说话人频谱的生成器G，一个鉴别器D和分类器C共享的Share-Block，一个判断输入是真实的频谱还是生成的频谱的鉴别器D，以及一个判别频谱的标签是否属于该说话人的分类器C。Share-Block即共享模块，在分别训练鉴别器和分类器时，由于协同训练鉴别器和分类器，共享模块的参数可以同时训练到，通过共享模块能够表征语音的深层次特征，在该特征之上再分别实现鉴别器和分类器的功能。

如图3所示，所述的生成器G由预编码网络，Multi-Scale模块和解码网络构成。

基于Share-Learning的Multi-Scale StarGAN网络的目标函数为：

其中，L_G(G)为生成器的损失函数，

为鉴别器的损失函数，

为分类器的损失函数。

所述的生成器G的预编码网络结构包括3个卷积层，3个卷积层的过滤器大小分别为3×9、4×8、4×8，步长分别为1×1、2×2、2×2，过滤器深度分别为64、128、256；生成器G的解码网络包括3个反卷积层，3个反卷积层的过滤器大小分别为4×4、4×4、7×7，步长分别为2×2、2×2、1×1，过滤器深度分别为128、64、1；预编码网络和解码网络的每一卷积层后使用实例正则化和Relu激活函数。

生成器的损失函数：

其中，λ_cyc＞＝0和λ_id＞＝0是正则化参数，分别表示循环一致性损失和特征映射损失的权重。

L_cyc(G)、L_id(G)分别表示生成器的对抗损失、循环一致损失、特征映射损失。

其中，

表示生成器生成的概率分布的期望，G(x_s,c_t)表示生成器生成频谱特征；

其中，G(G(x_s,c_t),c_s)为重构的源说话人频谱特征，

为重构源说话人频谱和真实源说话人频谱的损失期望；

其中，G(x_s,c_s)为源说话人频谱和说话人标签输入到生成器后得到的源说话人频谱特征,

为x_s和G(x_s,c_s)的损失期望。

鉴别器的损失函数：

其中，

表示真实特征鉴别损失函数，

表示生成特征鉴别损失函数；

其中，D(x_s)表示鉴别器D判别真实频谱特征，

表示真实概率分布的期望；

其中，G(x_s,c_t)表示生成器G生成的目标说话人频谱特征，

表示生成器G生成的概率分布的期望。

分类器的损失函数：

其中，λ_cls＞＝0是正则化参数，表示分类损失的权重。

表示真实特征分类损失函数，

表示生成特征分类损失函数；

其中，p_C(c_s|x_s)表示分类器判别源说话人频谱标签属于c_s的概率，x_s表示源说话人频谱；

1.4)将源说话人的频谱特征x_s输入共享Share-Block的分类器C和鉴别器D，得到分类器C的真实特征分类损失函数，和鉴别器D真实特征鉴别损失函数，真实特征分类损失函数是指分类器正确判别真实特征频谱特征x_s属于标签c_s的概率损失。最小化真实特征分类损失函数，更新Share-Block和分类器C的参数。Share-Block、鉴别器D和分类器C的结构如图4所示。

鉴别器D和分类器C，共享Share-Block模块，包括6个卷积层，6个卷积层的过滤器大小均为4×4，步长均为2×2，过滤器深度分别为64、128、256、512、1024、2048；Share-Block的每一卷积层后使用Mish激活函数；经Share-Block后下一层鉴别器D的卷积层的过滤器大小为1×8，步长为1×1，深度为1，后接一个Sigmoid函数；经Share-Block后下一层分类器C的卷积层过滤器大小为1×8，步长为1×1，深度为4，后接一个Softmax函数。

如图6所示，所述Mish激活函数为，

真实特征分类损失函数为：

真实特征鉴别损失函数为：

优化目标为：

1.5)将1.2)中提取的源说话人频谱特征x_s与目标说话人标签特征c_t经生成器预编码，得到目标说话人域的全局特征G(x_t)，将源说话人域的全局特征G(x_t)分为s个特征图子集，每个特征图子集表示了一个尺度的特征，从不同尺度的特征图子集感知信息，并在Multi-Scale的输入输出使用残差连接，构建层次化的连接实现。将s个特征图子集拼接后得到经层次化的连接的多尺度特征G_M(x_t)，输入生成器的解码器，从而得到目标说话人的频谱特征x_tc。

上述将目标说话人域的全局特征G(x_t)经1×1卷积后的特征图均分为s个特征图子集，每个特征图子集表示了一个尺度的特征。每个特征图子集的大小相同，但是通道数是输入特征图的1/s。对每一个特征图子集x_i，有一个对应的3x3卷积K_i,假设K_i的输出是y_i。接下来每个特征图子集x_i会加上K_i-1的输出，然后一起输入进K_i。y_i可以用如下公式表示：

Multi-Scale模块包括6个Multi-Scale残差块，每个残差块进行ResNet残差连接。Multi-Scale模块结构如图5所示。

同理将1.2)中提取的源说话人频谱特征x_s与源说话人标签特征c_s输入生成器，得到重新特征映射的源说话人的频谱特征x_ss，从而得到生成器特征映射损失。

生成器特征映射损失函数为：

1.6)将1.5)中得到的目标说话人的频谱特征x_tc输入鉴别器D，得到生成特征鉴别损失函数。生成特征鉴别损失函数和1.4)中得到的真实特征鉴别损失函数能够使得鉴别器正确区分真实和虚假的频谱特征。最小化上述损失函数，更新Share-Block和鉴别器D的参数。

真实特征鉴别器损失函数为：

生成特征鉴别器损失函数为：

优化目标为：

1.7)将上述得到的目标说话人的频谱特征x_tc与源说话人标签特征，再次输入到含有Multi-Scale模块的生成器G的预编码网络，得到源说话人域的全局特征G(x_s)，源说话人域的全局特征G(x_s)分为s个特征图子集，每个特征图子集表示了一个尺度的特征，从不同尺度的特征图子集感知信息，并在Multi-Scale的输入输出使用残差连接，构建层次化的连接实现。将s个特征图子集拼接后得到经层次化的连接的多尺度特征G_M(x_s)，输入生成器的解码器，得到重构源说话人的频谱特征x_sc，从而得到源说话人的频谱特征x_s和重构源说话人的频谱特征x_sc的循环损失，循环一致损失是为了使源说话人频谱特征x_s在经过生成器G后，所重构的源说话人频谱特征x_sc可以和x_s尽可能保持一致。

生成器的循环损失函数为：

1.8)将1.5)中得到的生成的目标说话人的频谱特征x_tc输入鉴别器D和分类器C，得到生成器G的对抗损失函数和分类器C的生成特征分类损失函数，最小化上述两个损失函数，1.5)中得到的生成器的特征映射损失和1.7)中得到的生成器的循环损失函数，固定Share-Block，分类器C和鉴别器D的参数，只更新生成器G的参数；

其中，最小化对抗损失函数是为了使生成的目标说话人的频谱特征x_tc能够欺骗鉴别器D，使得x_tc更像真实的目标说话人的频谱特征。最小化特征映射损失，是为了保证x_s经过目标说话人是自己的生成器G编码后依旧是x_s。生成特征分类损失是指分类器正确判别生成器所生成的目标说话人频谱x_tc属于目标说话人标签c_t的概率损失。

生成器的损失函数为：

生成器的循环损失函数为：

生成器特征映射损失函数为：

生成特征分类器损失函数为：

优化目标为：

1.9)由1.4)-1.8)可得优化目标为：

即

鉴别器的损失函数

和生成器的对抗损失

共同构成GAN中常见的对抗损失，最小化鉴别器损失函数

用来正确判别输入鉴别器的频谱是真实频谱还是生成频谱。相对的在训练过程中生成器的对抗损失函数

尽可能小，生成器不断优化，直至生成能够以假乱真的频谱特征G(x_s,c_t)，使得鉴别器难以判别真假。在训练过程中，分类器的损失函数

尽可能小，使得生成器能够正确分类属于源和目标说话人的频谱。

在训练生成器的损失中，生成器的循环损失函数L_cyc(G)尽可能小，使生成目标频谱G(x_s,c_t)和源说话人标签c_s再次输入到生成器后，得到的重构源说话人语音频谱尽可能和x_s相似。通过最小化生成器的循环损失函数L_cyc(G)，可以有效保证说话人语音的语义特征，在经过生成器的编码以后不被损失。

生成器特征映射损失L_id(G)可以有效保证源说话人频谱x_s和标签c_s在输入生成器后，源说话人频谱x_s仍保持不变。

1.10)重复1.4)、1.5)和1.6)，直至达到迭代次数，从而得到训练好的StarGAN网络，其中生成器参数φ、鉴别器参数θ、分类器参数ψ为训练好的参数。由于神经网络具体设置不同以及实验设备性能不同，选择的迭代次数也各不相同。本实验中选择迭代次数为300000次。

1.11)使用对数基频logf₀的均值和方差建立基音频率转换关系，统计出每个说话人的对数基频的均值和方差，利用对数域线性变换将源说话人对数基频logf_0s转换得到目标说话人对数基频logf_0t。

基频转换函数为：

其中，μ_s和σ_s分别为源说话人的基频在对数域的均值和方差，μ_t和σ_t分别为目标说话人的基频在对数域的均值和方差。

转换阶段实施步骤为：

2.1)将源说话人语音通过WORLD语音分析/合成模型提取出各说话人语句的频谱包络特征、非周期性特征和对数基频logf₀，得到的频谱包络特征和非周期性特征均为513维，再从频谱包络特征中提取36维的梅尔倒谱系数(MCEP)特征x_s′。

2.2)将2.1)提取的源说话人语音的频谱特征x_s′与目标说话人标签特征c_t′输入1.7)训练的基于Share-Learning的Multi-Scale StarGAN网络，从而重构出目标说话人频谱特征x_tc′。

2.3)通过1.8)得到的基音频率转换函数，将2.1)中提取出的源说话人基频logf_0s′转换为目标说话人的基频logf_0t′。

2.4)将2.2)中得到的目标说话人频谱特征x_tc′、2.3)中得到的目标说话人的基频logf_0t′和2.1)提取的非周期性特征通过WORLD语音分析/合成模型合成转换后的说话人语音。

本发明的基于共享训练的多尺度StarGAN的语音转换方法模型与基准StarGAN模型所合成的语音效果进行了三个方面的对比：同性和异性转换后语音的时域波形的对比、语谱图对比和生成器损失函数收敛速度的对比。

(1)如图7和图8所示，由时域波形图分析可知，基于多尺度StarGAN共享训练的语音转换方法模型转换后合成语音的时域波形相比基准StarGAN模型噪音更少，波形更加平稳，更加接近目标语音的波形。

(2)如图9和图10所示，由语谱图分析可知，基于共享训练的多尺度StarGAN的语音转换方法模型转换后合成语音的语谱图相比基准StarGAN模型，更加接近目标语音的语谱图，具有更清晰的细节、更完整的基音和谐波信息。

(3)如图11所示，由生成器损失函数分析可知，基于共享训练的多尺度StarGAN的语音转换方法模型的损失函数相比基准StarGAN模型，收敛速度更快更平稳，并且损失值更低。

通过上述对比分析，进一步说明该模型具有更强的建模能力，能够提升模型对语音频谱多尺度细节的深层次挖掘能力，有效地改善了转换后语音的音质和个性相似度。

本发明实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实例不限制于任何特定的硬件和软件结合。

相应的，本发明的实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述基于共享训练的多尺度StarGAN的语音转换方法。例如，该计算机存储介质为计算机可读存储介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于共享训练的多尺度StarGAN的语音转换方法，其特征在于：包括训练阶段和转换阶段，所述训练阶段包括以下步骤：

(1.2)将所述的训练语料通过WORLD语音分析/合成模型，提取出各说话人语句的频谱特征x、基频特征log f₀；

(1.4)训练过程先训练分类器C和Share-Block，后训练鉴别器D和Share-Block，最后训练生成器G，使生成器G的损失函数、鉴别器D的损失函数、分类器C的损失函数尽量小，直至设置的迭代次数，得到训练好的基于Share-Learning的Multi-Scale StarGAN网络；

(1.5)构建从源说话人的语音基频log f_0s到目标说话人的语音基频log f_0t的基频转换函数；

所述转换阶段包括以下步骤：

(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱特征x_s′、非周期性特征和基频log f_0s′；

(2.3)通过(1.5)得到的基频转换函数，将(2.1)中提取出的源说话人基频log f_0s′转换为目标说话人的基频log f_0t′；

(2.4)将(2.2)中得到的目标说话人频谱特征x_tc′、(2.3)中得到的目标说话人的基频log f_0t′和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型，合成得到转换后的说话人语音。

2.根据权利要求1所述的基于共享训练的多尺度StarGAN的语音转换方法，其特征在于：步骤(1.3)和(1.4)中的训练过程包括以下步骤：

3.根据权利要求2所述的基于共享训练的多尺度StarGAN的语音转换方法，其特征在于：

步骤(3)和步骤(4)具体为，将目标说话人域的全局特征G(x_t)分为s个特征图子集，每个特征图子集表示了一个尺度的特征，从不同尺度的特征图子集感知信息，并在Multi-Scale的输入输出使用残差连接，构建层次化的连接实现，将s个特征图子集拼接后得到经层次化的连接的多尺度特征G_M(x_t)，输入生成器的解码器，从而得到目标说话人的频谱特征x_tc；

4.根据权利要求1所述的基于共享训练的多尺度StarGAN的语音转换方法，其特征在于：所述的鉴别器D和分类器C共享Share-Block，最后一层分别实现鉴别器D和分类器C的功能，鉴别器D和分类器C损失函数分别如下，

鉴别器D损失函数为：

其中，

表示真实特征鉴别损失函数，

表示生成特征鉴别损失函数；

其中，D(x_s)表示鉴别器D判别真实频谱特征，

表示真实概率分布的期望；

其中，G(x_s,c_t)表示生成器G生成的目标说话人频谱特征，

表示生成器G生成的概率分布的期望；

分类器C损失函数为：

其中，λ_cls＞＝0是正则化参数，表示分类损失的权重。

表示真实特征分类损失函数，

表示生成特征分类损失函数；

5.根据权利要求1所述的基于共享训练的多尺度StarGAN的语音转换方法，其特征在于：所述的生成器G的预编码网络结构包括3个卷积层，3个卷积层的过滤器大小分别为3×9、4×8、4×8，步长分别为1×1、2×2、2×2，过滤器深度分别为64、128、256；生成器G的解码网络包括3个反卷积层，3个反卷积层的过滤器大小分别为4×4、4×4、7×7，步长分别为2×2、2×2、1×1，过滤器深度分别为128、64、1；预编码网络和解码网络的每一卷积层后使用实例正则化和Relu激活函数。

6.根据权利要求1所述的基于共享训练的多尺度StarGAN的语音转换方法，其特征在于：所述的鉴别器D和分类器C，共享Share-Block模块，包括6个卷积层，6个卷积层的过滤器大小均为4×4，步长均为2×2，过滤器深度分别为64、128、256、512、1024、2048；Share-Block的每一卷积层后使用Mish激活函数；经Share-Block后下一层鉴别器D的卷积层的过滤器大小为1×8，步长为1×1，深度为1，后接一个Sigmoid函数；经Share-Block后下一层分类器C的卷积层过滤器大小为1×8，步长为1×1，深度为4，后接一个Softmax函数。

7.根据权利要求6所述的基于共享训练的多尺度StarGAN的语音转换方法，其特征在于：所述Mish激活函数为，

8.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述计算机程序在被计算机处理器执行时实现权利要求1至7任一项所述的方法。