CN109599091B - 基于STARWGAN-GP和x向量的多对多说话人转换方法 - Google Patents

基于STARWGAN-GP和x向量的多对多说话人转换方法 Download PDF

Info

Publication number
CN109599091B
CN109599091B CN201910030577.XA CN201910030577A CN109599091B CN 109599091 B CN109599091 B CN 109599091B CN 201910030577 A CN201910030577 A CN 201910030577A CN 109599091 B CN109599091 B CN 109599091B
Authority
CN
China
Prior art keywords
speaker
vector
generator
network
many
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910030577.XA
Other languages
English (en)
Other versions
CN109599091A (zh
Inventor
李燕萍
曹盼
张燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910030577.XA priority Critical patent/CN109599091B/zh
Publication of CN109599091A publication Critical patent/CN109599091A/zh
Application granted granted Critical
Publication of CN109599091B publication Critical patent/CN109599091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于STARWGAN‑GP和x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARWGAN‑GP与x向量相结合来实现语音转换系统。本方法加入了表征性能和实用性能更好的X‑vector向量来表征说话人的个性化特征,并且使用WGAN‑GP来替换GAN,从而解决GAN训练不稳定、梯度消失等问题,构建训练更加稳定、收敛速度更快的网络,进一步提升转换后语音的个性相似度和语音质量,实现了一种高质量的语音转换方法。本方法不仅能够解除对平行文本的依赖,实现非平行文本条件下的语音转换,还可以进一步将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。

Description

基于STARWGAN-GP和x向量的多对多说话人转换方法
技术领域
本发明涉及一种多对多说话人转换方法,特别是涉及一种基于STARWGAN-GP和x向量的多对多说话人转换方法。
背景技术
语音转换是语音信号处理领域的研究分支,是在语音分析、识别和合成的研究基础上发展与延伸的。语音转换的目标是改变源说话人的语音个性特征,使之具有目标说话人的语音个性特征,也就是使一个人说的语音经过转换后听起来像是另一个人说的语音,同时保留语义。
语音转换技术经过多年的研究,已经涌现了很多的经典转换方法。其中包括高斯混合模型(Gaussian Mixed Model,GMM)、递归神经网络(Recurrent Neural Network,RNN)、深度神经网络(Deep Neural Networks,DNN)等大多数的语音转换方法。但是这些语音转换方法大多要求用于训练的语料库是平行文本,即源说话人和目标说话人需要发出语音内容、语音时长相同的句子,并且发音节奏和情绪等尽量一致。然而训练时语音特征参数对齐的准确性会成为语音转换性能的一种制约。此外在跨语种转换、医疗辅助患者语音转换等实际应用中也无法获取平行语音。因此,无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。
现有的非平行文本条件下的语音转换方法有基于循环一致对抗网络(Cycle-Consistent Adversarial Networks,Cycle-GAN)的方法、基于条件变分自编码器(Conditional Variational Auto-Encoder,C-VAE)的方法等。基于C-VAE模型的语音转换方法,直接利用说话人的身份标签建立语音转换系统,其中编码器对语音实现语义和个性信息的分离,解码器通过语义和说话人身份标签来实现语音的重构,从而可以解除对平行文本的依赖。但是由于C-VAE基于理想假设,认为观察到的数据通常遵循高斯分布,导致解码器的输出语音过度平滑,转换后的语音质量不高。基于Cycle-GAN模型的语音转换方法利用对抗性损失和循环一致损失,同时学习声学特征的正映射和逆映射,可以有效解决过平滑问题,改善转换语音质量,但是Cycle-GAN只能实现一对一的语音转换。基于STARGAN模型的语音转换方法同时具有C-VAE和Cycle-GAN的优点,由于该方法的生成器具有编解码结构,可以同时学习多对多映射,生成器输出的属性由说话人身份标签控制,因此可以实现非平行下多对多的语音转换。STARGAN在训练过程中,由于生成对抗网络(GenerativeAdversarial Network,GAN)存在训练不稳定、模式丢失等问题,随着鉴别器被训练得越来越好,生成器无法与其抗衡。并且说话人的身份标签并不能充分表达说话人的个性化特征,缺少了能够充分表达说话人个性化特征的手段,因此,转换后的语音在语音质量和个性相似度上仍有待提升。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于STARWGAN-GP和x向量的多对多说话人转换方法,解决了说话人个性化特征表达不够充分的缺陷,并且克服了现有的GAN训练不稳定、梯度消失等问题,不仅进一步有效地提高了转换后语音的个性相似度,而且提升了转换语音的质量。
技术方案:本发明所述的基于STARWGAN-GP和x向量的多对多说话人转换方法,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、基频特征、以及代表各说话人个性化特征的x向量X-vector;
(1.3)将源说话人的频谱包络特征xs、目标说话人的频谱包络特征xt、源说话人标签cs和x向量X-vectors,以及目标说话人标签ct、x向量X-vectort,输入到STARWGAN-GP网络进行训练,所述的STARWGAN-GP网络由生成器G、鉴别器D和分类器C组成,所述的生成器G由编码网络和解码网络构成;
(1.4)训练过程使生成器的损失函数、鉴别器的损失函数、分类器的损失函数尽量小,直至设置的迭代次数,得到训练好的STARWGAN-GP网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱包络特征xs′、非周期性特征和基频;
(2.2)将上述源说话人频谱包络特征xs′、目标说话人标签特征ct′、目标说话人x向量X-vectort′输入(1.4)中训练好的STARWGAN-GP网络,重构出目标说话人频谱包络特征xtc′;
(2.3)通过(1.5)得到的基频转换函数,将(2.1)中提取出的源说话人基频转换为目标说话人的基频;
(2.4)将(2.2)中得到的目标说话人频谱包络特征xtc′、(2.3)中得到的目标说话人的基频和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
进一步的,步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将源说话人的频谱包络特征xs输入生成器G的编码网络,得到说话人无关的语义特征G(xs);
(2)将上述得到的语义特征G(xs)与目标说话人的标签特征ct、目标说话人的x向量X-vectort一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,从而得到目标说话人的频谱包络特征xtc
(3)将上述得到的目标说话人的频谱包络特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc);
(4)将上述得到的语义特征G(xtc)与源说话人标签cs、源说话人x向量X-vectors输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构源说话人的频谱包络特征xsc
(5)将目标说话人的频谱包络特征xtc、目标说话人频谱特征xt,以及目标说话人的标签特征ct一同输入到鉴别器D中进行训练,最小化鉴别器的损失函数;
(6)将目标说话人的频谱包络特征xtc和目标说话人的频谱包络特征xt输入分类器C进行训练,最小化分类器的损失函数;
(7)回到步骤(1)重复上述步骤,直至达到迭代次数,从而得到训练好的STARWGAN-GP网络。
进一步的,步骤(2.2)中的输入过程包括以下步骤:
(1)将源说话人的频谱包络特征xs′输入生成器G的编码网络,得到说话人无关的语义特征G(xs)′;
(2)将上述得到的语义特征G(xs)′与目标说话人的标签特征ct′、目标说话人的x向量X-vectort′一同输入到生成器G的解码网络,得到目标说话人的频谱包络特征xtc′。
进一步的,所述的生成器G采用二维卷积神经网络,损失函数为:
Figure GDA0002783702170000031
其中,λcls>=0、λcyc>=0和λid>=0是正则化参数,分别表示分类损失、循环一致性损失和特征映射损失的权重,
Figure GDA0002783702170000032
Lcyc(G)、Lid(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致损失、特征映射损失;
所述的鉴别器D采用二维卷积神经网络,损失函数为:
Figure GDA0002783702170000033
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct,X-vectort)表示生成器G生成的目标说话人频谱特征,D(G(xs,ct,X-vectort),ct)表示鉴别器判别生成的频谱特征,
Figure GDA0002783702170000034
表示生成器G生成的概率分布的期望,
Figure GDA0002783702170000035
表示真实概率分布的期望,p(xt|ct)表示xt服从的真实概率分布,p(ct)表示ct服从的真实概率分布,λ为梯度惩罚参数,用来调节梯度惩罚的力度,grad_pen为梯度惩罚项;
所述的分类器采用二维卷积神经网络C,损失函数为:
Figure GDA0002783702170000041
其中,pC(ct|xt)表示分类器判别目标说话人特征为标签ct的真实频谱的概率。
进一步的,
Figure GDA0002783702170000042
其中,
Figure GDA0002783702170000043
表示生成器生成的概率分布的期望,G(xs,ct,X-vectort)表示生成器生成频谱特征;
Figure GDA0002783702170000044
其中,pC(ct|G(xs,ct,X-vectort))表示分类器判别生成目标说话人频谱标签属于ct的概率,G(xs,ct,X-vectort)表示生成器G生成的目标说话人频谱特征;
Figure GDA0002783702170000045
其中,G(G(xs,ct,X-vectort),cs)为重构的源说话人频谱特征,
Figure GDA0002783702170000046
为重构源说话人频谱和真实源说话人频谱的损失期望;
Figure GDA0002783702170000047
其中,G(xs,cs,X-vectors)为源说话人频谱、说话人标签和x向量,输入到生成器后得到的源说话人频谱特征,
Figure GDA0002783702170000048
为xs和G(xs,cs,X-vectors)的损失期望。
进一步的,所述的生成器G的编码网络包括5个卷积层,5个卷积层的过滤器大小分别为3*9、4*8、4*8、3*5、9*5,步长分别为1*1、2*2、2*2、1*1、9*1,过滤器深度分别为32、64、128、64、5;生成器G的解码网络包括5个反卷积层,5个反卷积层的过滤器大小分别为9*5、3*5、4*8、4*8、3*9,步长分别为9*1、1*1、2*2、2*2、1*1,过滤器深度分别为64、128、64、32、1。
进一步的,所述的鉴别器D包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1。
进一步的,所述的分类器C包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、4。
进一步的,所述的基频转换函数为:
Figure GDA0002783702170000049
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差,logf0s为源说话人的对数基频,logf0t′为转换后对数基频。
有益效果:本方法能够使用STARWGAN-GP与X-vector向量相结合来实现语音转换,加入了表征性能和实用性能更好的X-vector向量来表征说话人的个性化特征,使用WGAN-GP来替换GAN,从而解决GAN训练不稳定、梯度消失等问题,WGAN-GP使用Wassertein距离,又称推土机距离(Earth-Mover,EM)来替换JS散度(Jensen-Shannon Divergence,JS),在鉴别器的损失函数中增加梯度惩罚,从而构建更加稳定、收敛速度更快的网络。因此本方法与现有方法相比,能够进一步提升转换后语音的个性相似度和语音质量,实现了一种高质量的语音转换方法。此外,本方法能够解除对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性,本方法还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。
附图说明
图1是本方法的整体流程图。
具体实施方式
如图1所示,本发明所述高质量语音转换方法分为两个部分:训练部分用于得到语音转换所需的参数和转换函数,而转换部分用于实现源说话人语音转换为目标说话人语音。
训练阶段实施步骤为:
1.1)获取非平行文本的训练语料,训练语料是多名说话人的语料,包含源说话人和目标说话人。训练语料取自VCC2018语音语料库。该语料库的训练集中有6个男性和6个女性说话人,每个说话人有81句语料。本方法既可以在平行文本下实现转换,也可以在非平行文本下实现转换,所以这些训练语料也可以是非平行文本的。
1.2)训练语料通过WORLD语音分析/合成模型提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf0。同时提取出代表各说话人个性化特征的x向量X-vector。其中由于快速傅氏变换(Fast Fourier Transformation,FFT)长度设置为1024,因此得到的频谱包络特征x和非周期性特征均为1024/2+1=513维。每一个语音块有512帧,从频谱包络特征中提取36维的梅尔倒谱系数(MCEP)特征,一次训练时取8个语音块。因此,训练语料的维度为8*36*512。
在实际应用中,待转换者的语音长度相对较短,使用传统的说话人表征i向量i-vector转换语音效果一般。X-vector是利用DNN提取的一种新型低维定长嵌入,由于DNN具有极强的特征提取能力,对于短时语音,X-vector具有更好的表征能力。该网络是在Kaldi语音识别工具中使用nnet3神经网络库实现。
X-vector和i-vector的主要区别在于提取方法的不同,提取X-vector的系统结构如表1示,X-vector系统由frame层、stats pooling层、segment层以及softmax层构成。T表示输入所有语音帧,N表示训练说话人的数量,训练语料取自VCC2018语音语料库,所以N为12。
X-vector系统中的DNN具有时延结构,首先拼接上下文5帧为1个新的帧集合,再以新的帧集合为中心,拼接上下文4帧为1个新的帧集合,以此类推到拼接15帧为新的帧集合作为DNN的输入,输入的特征是23维MFCC特征,帧长为25ms。stats pooling层聚合frame5层的所有T帧输出,并计算均值和标准差。统计量为1500维向量,在每个输入语音段上计算一次,然后将这些统计信息连接在一起传递到segment层。最后由softmax层输出一个后验概率
Figure GDA0002783702170000061
输出神经元的个数和训练集中说话人个数一致。X-vector系统使用下述公式对训练的说话人进行分类。
DNN网络训练的损失函数为:
Figure GDA0002783702170000062
上述公式中n表示输入的语音,k表示各个说话人,
Figure GDA0002783702170000063
表示softmax层给出输入语音属于说话人k的后验概率。dnk表示只有当语音的说话人为k时才等于1,否则为0。
DNN不仅仅是一个分类器,而且是一个特征提取器和分类器的结合,每一层都有极强的特征提取能力。经过训练以后,segment层可以用来提取语音的X-vector,如表1所示,利用剩余结构在segment6处提取512维的X-vector。当X-vector提取好以后,和i-vector一样,利用概率线性判别分析来计算X-vector之间的相似度。
表1提取X-vector的系统结构表
层上下文 总上下文 输入×输出
frame1 [t–2,t+2] 5 120×512
frame2 {t-2,t,t+2} 9 1536×512
frame3 {t–3,t,t+3} 15 1536×512
frame4 {t} 15 512×512
frame5 {t} 15 512×1500
stats pooling [0,T) T 1500T×3000
segment6 {0} T 3000×512
segment7 {0} T 512×512
softmax {0} T 512×N
1.3)本实施例中的STARWGAN-GP网络以Cycle-GAN模型为基础,通过进一步改善GAN的结构,以及结合分类器,来提升Cycle-GAN效果。STARWGAN-GP由三部分组成:一个产生真实的频谱的生成器G,一个判断输入是真实的频谱还是生成的频谱的鉴别器D,以及一个判别生成频谱的标签是否属于ct的分类器C。
STARWGAN-GP网络的目标函数为:
Figure GDA0002783702170000071
其中,IG(G)为生成器的损失函数:
Figure GDA0002783702170000072
其中,λcls>=0、λcyc>=0和λid>=0是正则化参数,分别表示分类损失、循环一致性损失和特征映射损失的权重,
Figure GDA0002783702170000073
Lcyc(G)、Lid(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致损失、特征映射损失;
鉴别器的损失函数为:
Figure GDA0002783702170000074
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct,X-vectort)表示生成器G生成的目标说话人频谱特征,D(G(xs,ct,X-vectort),ct)表示鉴别器判别生成的频谱特征,
Figure GDA0002783702170000075
表示生成器G生成的概率分布的期望,
Figure GDA0002783702170000076
表示真实概率分布的期望。λ为梯度惩罚参数,可以用来调节梯度惩罚的力度。grad_pen为梯度惩罚项。
分类器二维卷积神经C网络的损失函数为:
Figure GDA0002783702170000077
其中,pC(ct|xt)表示分类器判别目标说话人特征为标签ct的真实频谱的概率。
1.4)将1.2)中提取的源说话人频谱包络特征xs与目标说话人标签ct、x向量X-vectort作为联合特征(xs,ct,X-vectort)输入生成器进行训练。训练生成器,使生成器的损失函数LG尽量小,得到生成目标说话人频谱包络特征xtc
生成器采用二维卷积神经网络,由编解码网络构成。编码器网络包括5个卷积层,5个卷积层的过滤器大小分别为3*9、4*8、4*8、3*5、9*5,步长分别为1*1、2*2、2*2、1*1、9*1,过滤器深度分别为32、64、128、64、5。解码器网络包括5个反卷积层,5个反卷积层的过滤器大小分别为9*5、3*5、4*8、4*8、3*9,步长分别为9*1、1*1、2*2、2*2、1*1,过滤器深度分别为64、128、64、32、1。
1.5)将1.4)得到的生成目标说话人频谱包络特征xtc和1.2)得到的训练语料的目标说话人频谱包络特征xt以及目标说话人标签ct,一同作为鉴别器的输入,训练鉴别器,使鉴别器的损失函数
Figure GDA0002783702170000078
尽可能小。
鉴别器采用二维卷积神经网络,包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1。
STARWGAN-GP用WGAN-GP来替换STARGAN的生成对抗网络,原始GAN在训练中存在收敛速度慢、训练不稳定等问题,鉴别器训练太好,生成器的梯度会消失,IG(G)降不下去;鉴别器训练不好,会使生成器的梯度不准。WGAN-GP使用EM距离代替GAN中的JS散度,从而解决训练不稳定的问题。此外,在WGAN基础上设置一个额外的梯度惩罚项grad_pen来实现鉴别器的梯度值不超过设定值k,从而解决WGAN中梯度消失爆炸问题,进一步提高训练的稳定性。WGAN通过引入EM距离来衡量真实分布和生成分布之间的距离,通过训练可以使生成的频谱特征更加接近目标说话人的频谱特征。
Figure GDA0002783702170000081
等式(1)为EM距离,∏(Pr,Pg)是真实频谱分布Pr和生成频谱分布Pg组合起来的所有可能的联合分布,对于每一个可能的联合分布γ,可以从中采样(xt,xtc)~γ得到一个样本xt和xtc,并计算这对样本的距离||xt-xtc||。所以可以计算得到在联合γ下的样本对距离的期望值
Figure GDA0002783702170000082
在所有可能的联合分布中能够对这个期望所取到的下界就是EM距离。相比传统GAN中的交叉熵,EM距离可以提供更加有意义的梯度。在训练过程中,EM距离的数值可以指示模型训练的优劣程度,当EM距离数值越小,则WGAN训练越好。
WGAN在处理梯度的Lipschitz限制条件时,直接采用weight clipping,将鉴别器的网络参数独立限制到特定取值范围,如[-0.01,0.01],虽然可以实现Lipschitz的限制条件,但会使网络的参数出现极端值,要么取最大值0.01,要么取最小值-0.01,鉴别器不能充分利用自身的模型能力,因此回传给生成器的梯度也会变差,当鉴别器是一个多层网络时,weight clipping还会引起梯度消失梯度爆炸问题。
WGAN-GP是对WGAN的进一步改善,梯度惩罚(Gradient Penalty,GP)是用来替换weight clipping,通过设置一个额外的梯度惩罚项,来实现鉴别器的梯度不超过设定值k。
Figure GDA0002783702170000083
grad_pen=MSE(Norm-k) (3)
上述公式中MSE为平方差公式,
Figure GDA0002783702170000084
为整个联合分布空间的采样,即梯度惩罚项grad_pen是求
Figure GDA0002783702170000085
对应D的梯度与Norm的平方差。鉴别器尽可能拉大真假样本的差距,希望梯度越大越好,变化幅度越大越好,所以当鉴别器在充分训练好以后,梯度Norm会在k的附近。k是任意数,可设为1。梯度惩罚损失和WGAN鉴别器的损失加权合并,得到WGAN-GP的鉴别器的损失为:
Figure GDA0002783702170000086
λ为梯度惩罚参数,用来调节梯度惩罚的力度。grad_pen从Pr和Pg的联合空间里采样。因此先随机采样一对说话人的真实频谱xt和生成频谱xtc,还有[0,1]的随机数:
xt~Pr,xtc~Pg,eps~Uniform[0,1](5)
然后在真实频谱和生成频谱中按照随机数的比例插值采样,得到
Figure GDA0002783702170000087
Figure GDA0002783702170000088
因此梯度惩罚损失函数为:
Figure GDA0002783702170000089
鉴别器的损失函数优化目标为:
Figure GDA00027837021700000810
Figure GDA0002783702170000091
1.6)在训练过程中最小化生成器的损失函数,包括生成器的对抗损失、循环一致损失、特征映射损失以及生成器的分类损失。其中,训练循环一致损失是为了使源说话人频谱特征xs在经过生成器G1和G2后,所重构的源说话人频谱特征xsc可以和xs尽可能保持一致。训练特征映射损失,是为了保证xs在经过生成器G1后说话人标签仍是cs。分类损失指分类器判别生成器所生成的目标说话人频谱xtc属于标签ct的概率损失。
生成器的损失函数为:
Figure GDA0002783702170000092
优化目标为:
Figure GDA0002783702170000093
其中,λcls>=0、λcyc>=0和λid>=0是正则化参数,分别表示分类损失、循环一致性损失和特征映射损失的权重。X-vectors为源说话人的x向量,X-vectort为目标说话人的x向量。
Figure GDA0002783702170000094
表示GAN中生成器的对抗损失:
Figure GDA0002783702170000095
Figure GDA0002783702170000096
和鉴别器的损失
Figure GDA0002783702170000097
共同构成GAN中常见的对抗损失,用来判别输入鉴别器的频谱是真实频谱还是生成频谱。在训练过程中
Figure GDA0002783702170000098
尽可能小,生成器不断优化,直至生成能够以假乱真的频谱特征G(xs,ct,X-vectort),使得鉴别器难以判别真假。
Figure GDA0002783702170000099
为分类器C用来优化生成器的分类损失:
Figure GDA00027837021700000910
其中,pC(ct|G(xs,ct,X-vectort))表示分类器判别生成目标说话人频谱标签属于ct的概率,G(xs,ct,X-vectort)表示生成器G生成的目标说话人频谱特征。在训练过程中,
Figure GDA00027837021700000911
尽可能小,使得生成器G生成的频谱G(xs,ct,X-vectort)能够被分类器正确分类为标签ct
Lcyc(G)和Lid(G)借鉴Cycle-GAN模型中生成器的损失,Lcyc(G)为生成器G中循环一致损失:
Figure GDA00027837021700000912
其中,G(G(xs,ct,X-vectort),cs)为重构的源说话人频谱特征,
Figure GDA00027837021700000913
为重构源说话人频谱和真实源说话人频谱的损失期望。在训练生成器的损失中,Lcyc(G)尽可能小,使生成目标频谱G(xs,ct,X-vectort)、源说话人标签cs再次输入到生成器后,得到的重构源说话人语音频谱xsc尽可能和xs相似。通过训练Lcyc(G),可以有效保证说话人语音的语义特征,在经过生成器的编码以后不被损失。
Lid(G)为生成器G的特征映射损失:
Figure GDA0002783702170000101
其中,G(xs,cs,X-vectors)为源说话人频谱、说话人标签和x向量,输入到生成器后得到的源说话人频谱特征,
Figure GDA0002783702170000102
为xs和G(xs,cs,X-vectors)的损失期望。训练Lid(G),可以有效保证输入语音的标签cs在输入生成器后仍保持不变。
1.7)将上述生成的目标说话人频谱包络特征xtc和目标说话人的频谱包络特征xt输入分类器进行训练,最小化分类器的损失函数。
分类器采用二维卷积神经网络C,包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、4。
分类器二维卷积神经网络的损失函数为:
Figure GDA0002783702170000103
优化目标为:
Figure GDA0002783702170000104
1.8)重复1.4)、1.5)、1.6)和1.7),直至达到迭代次数,从而得到训练好的STARWGAN-GP网络,其中生成器参数φ、鉴别器参数θ、分类器参数ψ为训练好的参数。由于神经网络具体设置不同以及实验设备性能不同,选择的迭代次数也各不相同。本实验中选择迭代次数为20000次。
1.9)使用对数基频logf0的均值和方差建立基音频率转换关系,统计出每个说话人的对数基频的均值和方差,利用对数域线性变换将源说话人对数基频logf0s转换得到目标说话人对数基频logf0t′。
基频转换函数为:
Figure GDA0002783702170000105
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差。
转换阶段实施步骤为:
2.1)将源说话人语音通过WORLD语音分析/合成模型,提取源说话人的不同语句的频谱包络特征xs′、非周期性特征、基频。其中由于快速傅氏变换(FFT)长度设置为1024,因此得到的频谱包络特征x和非周期性特征均为1024/2+1=513维。
2.2)将2.1)提取的源说话人语音的频谱包络特征xs′与目标说话人标签特征ct′、目标说话人x向量X-vectort′作为联合特征(xs′,ct′,X-vectort′)输入1.8)训练的STARWGAN-GP从而重构出目标说话人频谱包络特征xtc′。
2.3)通过1.9)得到的基音频率转换函数,将2.1)中提取出的源说话人基频转换为目标说话人的基频。
2.4)将2.2)中得到的目标说话人频谱包络特征xtc′、2.3)中得到的目标说话人的基频和2.1)提取的非周期性特征通过WORLD语音分析/合成模型合成转换后的说话人语音。
本方法使用STARWGAN-GP与X-vector向量相结合来实现语音转换系统,X-vector向量是利用深度神经网络(DNN)提取的一种新型低维定长嵌入,对于短时话语,X-vector向量的表征性能优于i-vector向量,因此实用性更好。由于GAN的损失函数用JS散度表示,存在训练不稳定、模式丢失等问题,随着鉴别器被训练得越来越好,生成器无法与其抗衡。WGAN-GP用EM距离替换JS散度,在鉴别器的损失函数中增加梯度惩罚,从而构建更加稳定、收敛速度更快的网络。同时STARWGAN-GP网络可以有效克服C-VAE中过平滑问题,因此本方法与现有方法相比,能够进一步提升转换后语音的个性相似度和语音质量。

Claims (9)

1.一种基于STARWGAN-GP和x向量的多对多说话人转换方法,其特征在于包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、基频特征、以及代表各说话人个性化特征的x向量X-vector;
(1.3)将源说话人的频谱包络特征xs、目标说话人的频谱包络特征xt、源说话人标签cs和x向量X-vectors,以及目标说话人标签ct、x向量X-vectort,输入到STARWGAN-GP网络进行训练,所述的STARWGAN-GP网络由生成器G、鉴别器D和分类器C组成,所述的生成器G由编码网络和解码网络构成;
(1.4)训练过程使生成器的损失函数、鉴别器的损失函数、分类器的损失函数尽量小,直至设置的迭代次数,得到训练好的STARWGAN-GP网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱包络特征xs′、非周期性特征和基频;
(2.2)将上述源说话人频谱包络特征xs′、目标说话人标签特征ct′、目标说话人x向量X-vectort′输入(1.4)中训练好的STARWGAN-GP网络,重构出目标说话人频谱包络特征xtc′;
(2.3)通过(1.5)得到的基频转换函数,将(2.1)中提取出的源说话人基频转换为目标说话人的基频;
(2.4)将(2.2)中得到的目标说话人频谱包络特征xtc′、(2.3)中得到的目标说话人的基频和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
2.根据权利要求1所述的基于STARWGAN-GP和x向量的多对多说话人转换方法,其特征在于:步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将源说话人的频谱包络特征xs输入生成器G的编码网络,得到说话人无关的语义特征G(xs);
(2)将上述得到的语义特征G(xs)与目标说话人标签ct、目标说话人的x向量X-vectort一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,从而得到目标说话人的频谱包络特征xtc
(3)将上述得到的目标说话人的频谱包络特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc);
(4)将上述得到的语义特征G(xtc)与源说话人标签cs、源说话人x向量X-vectors输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构源说话人的频谱包络特征xsc
(5)将目标说话人的频谱包络特征xtc、目标说话人频谱特征xt,以及目标说话人的标签特征ct一同输入到鉴别器D中进行训练,最小化鉴别器的损失函数;
(6)将目标说话人的频谱包络特征xtc和目标说话人的频谱包络特征xt输入分类器C进行训练,最小化分类器的损失函数;
(7)回到步骤(1)重复上述步骤,直至达到迭代次数,从而得到训练好的STARWGAN-GP网络。
3.根据权利要求1所述的基于STARWGAN-GP和x向量的多对多说话人转换方法,其特征在于:步骤(2.2)中的输入过程包括以下步骤:
(1)将源说话人的频谱包络特征xs′输入生成器G的编码网络,得到说话人无关的语义特征G(xs)′;
(2)将上述得到的语义特征G(xs)′与目标说话人的标签特征ct′、目标说话人的x向量X-vectort′一同输入到生成器G的解码网络,得到目标说话人的频谱包络特征xtc′。
4.根据权利要求1所述的基于STARWGAN-GP和x向量的多对多说话人转换方法,其特征在于:所述的生成器G采用二维卷积神经网络,损失函数为:
Figure FDA0002783702160000021
其中,λcls>=0、λcyc>=0和λid>=0是正则化参数,分别表示分类损失、循环一致性损失和特征映射损失的权重,
Figure FDA0002783702160000022
Lcyc(G)、Lid(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致损失、特征映射损失;
所述的鉴别器D采用二维卷积神经网络,损失函数为:
Figure FDA0002783702160000023
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct,X-vectort)表示生成器G生成的目标说话人频谱特征,D(G(xs,ct,X-vectort),ct)表示鉴别器判别生成的频谱特征,
Figure FDA0002783702160000024
表示生成器G生成的概率分布的期望,
Figure FDA0002783702160000025
表示真实概率分布的期望,p(xt|ct)表示xt服从的真实概率分布,p(ct)表示ct服从的真实概率分布,λ为梯度惩罚参数,用来调节梯度惩罚的力度,grad_pen为梯度惩罚项;
所述的分类器采用二维卷积神经网络C,损失函数为:
Figure FDA0002783702160000026
其中,pC(ct|xt)表示分类器判别目标说话人特征为标签ct的真实频谱的概率。
5.根据权利要求4所述的基于STARWGAN-GP和x向量的多对多说话人转换方法,其特征在于:
Figure FDA0002783702160000027
其中,
Figure FDA0002783702160000031
表示生成器生成的概率分布的期望,G(xs,ct,X-vectort)表示生成器G生成的目标说话人频谱特征;
Figure FDA0002783702160000032
其中,pC(ct|G(xs,ct,X-vectort))表示分类器判别生成目标说话人频谱标签属于ct的概率,G(xs,ct,X-vectort)表示生成器G生成的目标说话人频谱特征;
Figure FDA0002783702160000033
其中,G(G(xs,ct,X-vectort),cs)为重构的源说话人频谱特征,
Figure FDA0002783702160000034
为重构源说话人频谱和真实源说话人频谱的损失期望;
Figure FDA0002783702160000035
其中,G(xs,cs,X-vectors)为源说话人频谱、说话人标签和x向量,输入到生成器后得到的源说话人频谱特征,
Figure FDA0002783702160000036
为xs和G(xs,cs,X-vectors)的损失期望。
6.根据权利要求5所述的基于STARWGAN-GP和x向量的多对多说话人转换方法,其特征在于:所述的生成器G的编码网络包括5个卷积层,5个卷积层的过滤器大小分别为3*9、4*8、4*8、3*5、9*5,步长分别为1*1、2*2、2*2、1*1、9*1,过滤器深度分别为32、64、128、64、5;生成器G的解码网络包括5个反卷积层,5个反卷积层的过滤器大小分别为9*5、3*5、4*8、4*8、3*9,步长分别为9*1、1*1、2*2、2*2、1*1,过滤器深度分别为64、128、64、32、1。
7.根据权利要求5所述的基于STARWGAN-GP和x向量的多对多说话人转换方法,其特征在于:所述的鉴别器D包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1。
8.根据权利要求5所述的基于STARWGAN-GP和x向量的多对多说话人转换方法,其特征在于:所述的分类器C包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、4。
9.根据权利要求1至8任一项所述的基于STARWGAN-GP和x向量的多对多说话人转换方法,其特征在于:所述的基频转换函数为:
Figure FDA0002783702160000037
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差,logf0s为源说话人的对数基频,logf0t′为转换后对数基频。
CN201910030577.XA 2019-01-14 2019-01-14 基于STARWGAN-GP和x向量的多对多说话人转换方法 Active CN109599091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910030577.XA CN109599091B (zh) 2019-01-14 2019-01-14 基于STARWGAN-GP和x向量的多对多说话人转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910030577.XA CN109599091B (zh) 2019-01-14 2019-01-14 基于STARWGAN-GP和x向量的多对多说话人转换方法

Publications (2)

Publication Number Publication Date
CN109599091A CN109599091A (zh) 2019-04-09
CN109599091B true CN109599091B (zh) 2021-01-26

Family

ID=65965028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910030577.XA Active CN109599091B (zh) 2019-01-14 2019-01-14 基于STARWGAN-GP和x向量的多对多说话人转换方法

Country Status (1)

Country Link
CN (1) CN109599091B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060691B (zh) * 2019-04-16 2023-02-28 南京邮电大学 基于i向量和VARSGAN的多对多语音转换方法
CN110047504B (zh) * 2019-04-18 2021-08-20 东华大学 身份矢量x-vector线性变换下的说话人识别方法
CN110136686A (zh) * 2019-05-14 2019-08-16 南京邮电大学 基于STARGAN与i向量的多对多说话人转换方法
CN110459232A (zh) * 2019-07-24 2019-11-15 浙江工业大学 一种基于循环生成对抗网络的语音转换方法
CN110600012B (zh) * 2019-08-02 2020-12-04 光控特斯联(上海)信息科技有限公司 一种人工智能学习的模糊语音语义识别方法及系统
CN110600047B (zh) * 2019-09-17 2023-06-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法
CN110600046A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于改进的STARGAN和x向量的多对多说话人转换方法
CN111816156B (zh) * 2020-06-02 2023-07-21 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及系统
CN112349281B (zh) * 2020-10-28 2022-03-08 浙江工业大学 基于StarGAN的语音识别模型的防御方法
CN114420142A (zh) * 2022-03-28 2022-04-29 北京沃丰时代数据科技有限公司 一种语音转换方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
CN104217721A (zh) * 2014-08-14 2014-12-17 东南大学 基于说话人模型对齐的非对称语音库条件下的语音转换方法
CN105390141A (zh) * 2015-10-14 2016-03-09 科大讯飞股份有限公司 声音转换方法和装置
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102346634B1 (ko) * 2015-02-27 2022-01-03 삼성전자주식회사 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
CN104217721A (zh) * 2014-08-14 2014-12-17 东南大学 基于说话人模型对齐的非对称语音库条件下的语音转换方法
CN105390141A (zh) * 2015-10-14 2016-03-09 科大讯飞股份有限公司 声音转换方法和装置
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于AutoEncoder DBN-VQ的说话人识别系统;刘俊坤,李燕萍,凌云志;《计算机技术与发展》;20180228;第28卷(第2期);第45-49页 *
增强变分自编码器做非平行语料语音转换;黄国捷,金慧,俞一彪;《信号处理》;20181031;第34卷(第10期);第1246-1251页 *

Also Published As

Publication number Publication date
CN109599091A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN109326283B (zh) 非平行文本条件下基于文本编码器的多对多语音转换方法
Wu et al. One-shot voice conversion by vector quantization
CN109377978B (zh) 非平行文本条件下基于i向量的多对多说话人转换方法
CN110060701B (zh) 基于vawgan-ac的多对多语音转换方法
Cai et al. A novel learnable dictionary encoding layer for end-to-end language identification
CN111816156B (zh) 基于说话人风格特征建模的多对多语音转换方法及系统
CN111462768B (zh) 基于共享训练的多尺度StarGAN的语音转换方法
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN109584893B (zh) 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
CN111833855B (zh) 基于DenseNet STARGAN的多对多说话人转换方法
CN110060691B (zh) 基于i向量和VARSGAN的多对多语音转换方法
CN111429894A (zh) 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
Choi et al. Sequence-to-sequence emotional voice conversion with strength control
CN110047501B (zh) 基于beta-VAE的多对多语音转换方法
CN110600046A (zh) 基于改进的STARGAN和x向量的多对多说话人转换方法
Luong et al. Many-to-many voice conversion based feature disentanglement using variational autoencoder
CN114299917A (zh) 基于基频差异补偿的StyleGAN情感语音转换方法
Shah et al. Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing
Fang et al. A novel hybrid network model based on attentional multi-feature fusion for deception detection
Chen et al. Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant