CN110600047B - 基于Perceptual STARGAN的多对多说话人转换方法 - Google Patents

基于Perceptual STARGAN的多对多说话人转换方法 Download PDF

Info

Publication number
CN110600047B
CN110600047B CN201910874686.XA CN201910874686A CN110600047B CN 110600047 B CN110600047 B CN 110600047B CN 201910874686 A CN201910874686 A CN 201910874686A CN 110600047 B CN110600047 B CN 110600047B
Authority
CN
China
Prior art keywords
speaker
generator
network
loss
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910874686.XA
Other languages
English (en)
Other versions
CN110600047A (zh
Inventor
李燕萍
徐东祥
张燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910874686.XA priority Critical patent/CN110600047B/zh
Publication of CN110600047A publication Critical patent/CN110600047A/zh
Application granted granted Critical
Publication of CN110600047B publication Critical patent/CN110600047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Complex Calculations (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于Perceptual STARGAN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与感知网络相结合来实现语音转换系统,利用感知网络计算感知损失来提升模型对语音频谱的深层语义特征与个性特征的提取能力,能够较好地提升模型对语音频谱的语义以及个性特征的学习能力,从而较好地提升转换后语音的个性相似度和语音质量,克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,降低模型复杂度,实现多说话人对多说话人转换。

Description

基于Perceptual STARGAN的多对多说话人转换方法
技术领域
本发明涉及一种多对多说话人转换方法,特别是涉及一种基于PerceptualSTARGAN的多对多说话人转换方法。
背景技术
语音转换是语音信号处理领域的研究分支,是在语音分析、识别和合成的研究基础上发展与延伸的。语音转换的目标是改变源说话人的语音个性特征,使之具有目标说话人的语音个性特征,同时保留语义信息,也就是使源说话人的语音经过转换后听起来像是目标说话人的语音。
语音转换技术经过多年的研究,已经涌现了很多经典的转换方法。其中包括高斯混合模型(Gaussian Mixed Model,GMM)、神经网络(Neural networks,NNs)(包括受限玻尔兹曼机(Restricted Boltzmann machines,RBMs)、前馈神经网络(Feed forward NNs,FNNs)、循环神经网络(Recurrent NNs,RNNs)、卷积神经网络(Convolutional NNs,CNNs)、长短时记忆网络(Long Short-Term Memory Network,LSTM)、生成对抗网络(GenerativeAdversarial Networks,GANs))、非负矩阵分解(Non-negative Matrix Factorization,NMF)等语音转换方法。然而这些语音转换方法大多要求用于训练的语料库是平行文本,即源说话人和目标说话人需要发出语音内容、语音时长相同的句子,并且发音节奏和情绪等尽量一致,但是收集这些数据很耗时并且即使获得这些平行数据,仍然很难解决问题,因为大多数语音转换方法依赖数据准确的时间对齐,而这又是一个很艰难的过程,这就使大多数平行数据产生语音特征参数对齐不准确问题,所以训练时语音特征参数对齐的准确性会成为语音转换性能的一种制约。此外在同声传译、医疗辅助患者语音转换等实际应用中也无法获取平行语音。因此,无论从语音转换系统的通用性还是实用性来考虑,与各种平行语料条件下的语音转换框架相比,非平行语料条件下语音转换方法的研究具有极大的实际意义和应用价值。
现有的非平行文本条件下的语音转换方法有基于循环一致对抗网络(Cycle-Consistent Adversarial Networks,Cycle-GAN)的方法、基于条件变分自编码器(Conditional Variational Auto-Encoder,C-VAE)的方法以及基于Disco-GAN(discovercross-domain relations with generative adversarial networks)的方法等。基于Disco-GAN模型的语音转换方法,采用两个生成器与三个判别器进行计算损失,较传统GAN而言,通过增加一个风格判别器提取语音个性特征来提高语音质量,但其只能实现一对一的语音转换。基于C-VAE模型的语音转换方法,直接利用说话人的身份标签建立语音转换系统,其中编码器对语音实现语义和个性信息的分离,解码器通过语义和说话人身份标签来实现语音的重构,从而可以解除对平行文本的依赖,但是由于C-VAE基于理想假设,认为观察到的数据通常遵循高斯分布,导致解码器的输出语音过度平滑,转换后的语音质量不高。基于Cycle-GAN模型的语音转换方法利用对抗性损失和循环一致损失,同时学习声学特征的正映射和逆映射,可以有效解决过平滑问题,改善转换语音质量,但是Cycle-GAN只能实现一对一的语音转换,即源说话人与目标说话人之间的转换,无法实现多说话人之间的互相转换。
基于星型生成对抗网络(Star Generative Adversarial Network,STARGAN)模型的语音转换方法同时具有Disco-GAN、C-VAE和Cycle-GAN的优点,由于该方法的生成器具有编解码结构,可以同时学习多对多映射,生成器输出的属性由说话人身份标签控制,因此可以实现非平行条件下多对多的语音转换,但是此方法由于生成器中的编码网络与解码网络之间相互独立,直接通过生成器的编码网络无法较好地实现语义特征与说话人个性化特征的分离,同时生成器的解码网络也无法较好地实现语义特征与说话人个性特征的合成,更重要的是当前所有基于生成对抗网络搭建的语音转换模型的损失函数计算方式都是基于绝对差值或者最小均方误差,如语音转换的模型中常见的频谱重构损失,其计算方式为绝对差值运算,即通过对频谱进行逐点计算绝对差值来得到频谱重构损失,严重忽略了生成器生成频谱的深层语义特征与个性特征,因此在网络传输中容易丢失频谱深层的语义特征与说话人个性特征,造成信息的损失与噪声的生成,导致整个生成器缺乏对深层特征的提取能力。针对这种情况,需要一种能够很好地解决在训练过程中的网络退化问题,降低编码网络对于语义的学习难度,并且实现模型对频谱深层的语义特征与个性特征的学习功能,从而提高解码网络的频谱生成质量的转换方法。
由于在图像领域的风格转换与语音转换之间存在共性,即都是保留原有的内容特征而改变风格特征。更细节地来说,在图像领域是对图像的内容进行保留,对图像的风格如颜色或质地等进行转换,在语音转换领域是对频谱的语义特征进行保留而对其个性特征进行转换。只用绝对差值或者均方误差来计算都只能依赖于低维的信息,忽略高维中隐藏的信息。感知网络(Perceptual Network)可以应用在图像领域中,来计算感知损失有利于转换后的图像获得更细腻的细节和边缘特征,但是目前没有将感知网络应用于语音转换领域的方法。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于Perceptual STARGAN的多对多说话人转换方法,解决了现有的方法在训练过程中的网络退化问题,降低编码网络对于语义的学习难度,实现模型对频谱深层特征的学习功能,提高解码网络的频谱生成质量,并能够避免Batch Norm过程中带来的信息损失问题与噪声问题,更加充分学习语义特征和说话人的个性化特征,从而较好地提升转换后语音的个性相似度和语音质量。
技术方案:本发明所述的基于Perceptual STARGAN的多对多说话人转换方法,其特征在于,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语料的频谱包络特征x、非周期性特征以及基频特征;
(1.3)将源说话人的频谱包络特征xs、目标说话人的频谱包络特征xt、源说话人标签cs以及目标说话人标签ct,输入到Perceptual STARGAN网络进行训练,所述的PerceptualSTARGAN网络由生成器G、鉴别器D、分类器C和感知网络
Figure BDA0002203950000000031
组成,所述的生成器G由编码网络和解码网络构成,在编码网络与解码网络之间搭建三层ResNet,所述的感知网络/>
Figure BDA0002203950000000032
用来计算感知损失,并将所述感知损失添加到生成器G的损失中来进一步优化生成器;
(1.4)训练过程使生成器的损失函数、鉴别器的损失函数、分类器的损失函数尽量小,直至设置的迭代次数,从而得到训练好的Perceptual STARGAN网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱包络特征xs′、非周期性特征和基频特征;
(2.2)将上述源说话人频谱包络特征xs′、目标说话人标签特征ct′输入步骤(1.4)中训练好的Perceptual STARGAN网络,重构出目标说话人频谱包络特征xtc′;
(2.3)通过步骤(1.5)得到的基频转换函数,将步骤(2.1)中提取出的源说话人基频特征转换为目标说话人的基频特征;
(2.4)将步骤(2.2)中得到的目标说话人频谱包络特征xtc′、步骤(2.3)中得到的目标说话人的基频特征和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
进一步的,步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将源说话人的频谱包络特征xs输入生成器G的编码网络,得到说话人无关的语义特征G(xs);
(2)将上述得到的语义特征G(xs)与目标说话人的标签特征ct一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,从而得到目标说话人的频谱包络特征xtc
(3)将上述得到的频谱包络特征xtc,源说话人频谱特征xs与目标说话人频谱特征xt一同输入到感知网络来计算感知损失,将得到的感知损失添加到生成器G的损失函数中,在训练过程中最小化生成器G的损失函数;
(4)将上述得到的目标说话人的频谱包络特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc);
(5)将上述得到的语义特征G(xtc)与源说话人标签特征cs输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构的源说话人的频谱包络特征xsc
(6)将目标说话人的频谱包络特征xtc、目标说话人频谱特征xt,以及目标说话人的标签特征ct一同输入到鉴别器D中进行训练,最小化鉴别器D的损失函数;
(7)将上述得到的目标说话人的频谱包络特征xtc和目标说话人的频谱包络特征xt输入分类器C进行训练,最小化分类器C的损失函数;
(8)回到步骤(1)重复上述步骤,直至达到设置的迭代次数,从而得到训练好的Perceptual STARGAN网络。
进一步的,步骤(2.2)中的输入过程包括以下步骤:
(1)将源说话人的频谱包络特征xs′输入生成器G的编码网络,得到说话人无关的语义特征G(xs)′;
(2)将上述得到的语义特征G(xs)′与目标说话人的标签特征ct′一同输入到生成器G的解码网络,得到目标说话人的频谱包络特征xtc′。
进一步的,所述的生成器G采用二维卷积神经网络,损失函数为:
Figure BDA0002203950000000041
其中,λcls>=0、λcyc>=0、λid>=0、λcon>=0和λstyle>=0是正则化参数,分别表示分类损失、循环一致性损失、特征映射损失、感知语义损失和感知个性损失的权重,
Figure BDA0002203950000000046
Lcyc(G)、Lid(G)、Lcon(G)和Lstyle(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致损失、特征映射损失、感知语义损失和感知个性损失;
所述的鉴别器D采用二维卷积神经网络,损失函数为:
Figure BDA0002203950000000042
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct)表示生成器G生成的目标说话人频谱特征,即xtc,D(G(xs,ct),ct)表示鉴别器判别生成的频谱特征,
Figure BDA0002203950000000043
表示生成器G生成的概率分布的期望,/>
Figure BDA0002203950000000044
表示真实概率分布的期望;
所述的分类器采用二维卷积神经网络C,损失函数为:
Figure BDA0002203950000000045
其中,pC(ct|xt)表示分类器判别目标说话人特征为标签ct的真实频谱的概率。
进一步的,
Figure BDA0002203950000000051
其中,
Figure BDA0002203950000000052
表示生成器生成的概率分布的期望,G(xs,ct)表示生成器生成频谱特征;
Figure BDA0002203950000000053
其中,pC(ct|G(xs,ct))表示分类器判别生成目标说话人频谱标签属于ct的概率,G(xs,ct)表示生成器生成的目标说话人频谱;
Figure BDA0002203950000000054
其中,G(G(xs,ct),cs)为重构的源说话人频谱特征,即xsc
Figure BDA0002203950000000055
为重构源说话人频谱和真实源说话人频谱的损失期望;
Figure BDA0002203950000000056
其中,G(xs,cs)为源说话人频谱和说话人标签输入到生成器后得到的源说话人频谱特征,
Figure BDA0002203950000000057
为xs和G(xs,cs)的损失期望;
Figure BDA0002203950000000058
其中,
Figure BDA0002203950000000059
为生成器所得到的目标说话人频谱和真实源说话人频谱在感知网络/>
Figure BDA00022039500000000519
的第3层的感知语义损失,G(xs,ct)为源说话人频谱和目标说话人标签输入到生成器后得到的目标说话人频谱特征,即xtc,/>
Figure BDA00022039500000000510
为生成器生成的目标说话人频谱特征在损失网络/>
Figure BDA00022039500000000520
的第3层的输出结果,/>
Figure BDA00022039500000000511
为源说话人频谱特征在损失网络/>
Figure BDA00022039500000000521
的第3层输出结果,
Figure BDA00022039500000000512
为生成器生成的源说话人频谱在损失网络/>
Figure BDA00022039500000000522
的第3层输出和真实源说话人频谱在损失网络/>
Figure BDA00022039500000000523
的第3层输出的损失期望;
Figure BDA00022039500000000513
其中,
Figure BDA00022039500000000514
为生成器所得到的目标说话人频谱和真实目标说话人频谱在感知网络
Figure BDA00022039500000000524
的第i层的感知个性损失,G(xs,ct)为源说话人频谱和目标说话人标签输入到生成器后得到的目标说话人频谱特征,即xtc,/>
Figure BDA00022039500000000515
为生成器生成的目标说话人频谱特征在感知网络
Figure BDA00022039500000000526
的第i层的输出结果,/>
Figure BDA00022039500000000516
为目标说话人频谱特征在感知网络/>
Figure BDA00022039500000000525
的第i层输出结果,
Figure BDA00022039500000000517
为生成器生成的目标说话人频谱在感知网络/>
Figure BDA00022039500000000527
的第i层输出和真实目标说话人频谱在感知网络/>
Figure BDA00022039500000000528
的第i层输出的损失期望。
进一步的,所述的生成器G的编码网络包括5个卷积层,5个卷积层的过滤器大小分别为3*9、4*8、4*8、3*5、9*5,步长分别为1*1、2*2、2*2、1*1、9*1,过滤器深度分别为32、64、128、64、5;生成器G的解码网络包括5个反卷积层,5个反卷积层的过滤器大小分别为9*5、3*5、4*8、4*8、3*9,步长分别为9*1、1*1、2*2、2*2、1*1,过滤器深度分别为64、128、64、32、1;将编码网络的第二卷积层的输出与解码网络的第三卷积层的输出直接相加,然后输入到解码网络的第四卷积层;将编码网络的第三卷积层的输出与解码网络的第二卷积层的输出直接相加,然后输入到解码网络的第三卷积层;将编码网络的第四卷积层的输出与解码网络的第一卷积层的输出直接相加,然后输入到解码网络的第二卷积层。
进一步的,所述的鉴别器D包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1;所述的分类器C包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、4。
进一步的,所述的感知网络
Figure BDA0002203950000000066
将鉴别器D的第3卷积层的输出作为深层语义特征,将鉴别器D的第1、2、3、4卷积层的输出作为深层个性特征,将感知个性损失与感知语义损失一同加入到生成器的损失中来进一步优化生成器。
进一步的,在生成器G、鉴别器D和分类器C的每层网络间采用SwitchableNorm进行数据标准化;
所述的SwitchableNorm的数据标准化公式为:
Figure BDA0002203950000000061
Figure BDA0002203950000000062
其中,k、z为集合Ω={BN,IN,LN}中的元素,μk
Figure BDA0002203950000000063
分别为k对应标准化数据的均值和方差,wk和w'k为均值与方差对应的权重系数,γ和β分别为缩放系数和偏移系数,ε=0.001,λk与λz为三个维度统计量的控制参数,hncij为每批次第n个样本第c通道第i行第j列的元素值,/>
Figure BDA0002203950000000064
是hncij标准化后的数据。
进一步的,所述的基频转换函数为:
Figure BDA0002203950000000065
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差,log f0s为源说话人的对数基频,log f0t′为转换后目标说话人的对数基频。
有益效果:本方法能够使用STARGAN与感知损失相结合来实现非平行文本条件下的多对多说话人语音转换,主要通过利用鉴别器D的部分网络结构作为感知网络来计算频谱的感知损失,实现对语音频谱深层语义特征和个性特征的提取,充分学习了源说话人与目标说话人的语音特征和个性化特征,可以较好地提升转换后语音的个性相似度,并且提高生成器的编码网络对语义的提取能力。同时利用生成器编码阶段与解码阶段的Resnet网络来克服C-VAE中过平滑的问题与STARGAN网络退化所造成的语音特征丢失问题,改善转换后的语音质量。并且在每个卷积层后利用Switchable Norm进行数据标准化,进一步提升模型的非线性拟合能力,克服了Batch Norm和Instance Norm等单一标准化方式在语音转换中问题,实现了一种高质量的语音转换方法。此外,本方法能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性,本方法还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换,在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。
附图说明
图1是本方法的整体流程图;
图2是本方法的模型PerceptualSTARGAN的生成器的网络结构图;
图3是本方法的模型PerceptualSTARGAN的鉴别器的网络结构图;
图4是本方法的模型PerceptualSTARGAN的分类器的网络结构图;
图5是本方法的模型PerceptualSTARGAN的计算感知损失的感知网络的网络结构图。
具体实施方式
感知网络可以应用在图像领域中来计算感知损失,有利于转换后的图像获得更细腻的细节和边缘特征,本发明将感知网络的思想应用到语音转换领域。但图像领域中利用预训练网络来抽取图像高维信息,而语音领域没有通用的预训练网络,故本发明创造性地采用鉴别器作为感知网络来计算感知损失,从而提取频谱中的高维信息来提高模型对频谱的语义特征和个性特征的提取能力并改善生成的语音质量。本发明通过将鉴别器D的部分网络结构当作感知网络
Figure BDA0002203950000000071
利用该感知网络来计算生成器生成频谱的深层语义特征与个性特征的感知损失,使模型可以充分学习频谱的深层特征,因此可以获得细节更加丰富的频谱,避免使用语音转换模型中常见的计算方式为绝对差值或者最小均方误差的损失函数带来的频谱的细节模糊问题,从而较好地提升转换后语音的个性相似度,提高生成器的编码网络对语义的提取能力并且改善解码网络的频谱生成质量。同时在生成器的编码网络与解码网络之间搭建ResNet,可以很好地解决在训练过程中的网络退化问题,进一步可以降低编码网络对于语义的学习难度,从而提高转换语音的自然度与流畅度。并且与其他数据标准化方式相比,可切换归一化(SwitchableNorm,SN)具有较强的鲁棒性,通过动态调节各种标准化的权值,减小实例归一化(Instance Norm,IN)的影响,同时使用批归一化(BatchNorm,BN)和层归一化(Layer Norm,LN)进行互补,且SN可以通过学习来选择与任务合适的权值,拓展了单个结构使用同一种标准化的方式,提升模型的非线性拟合能力,从而提高转换后语音的自然度与相似度。
如图1所示,本实施例的方法分为两个部分:训练部分用于得到语音转换所需的参数和转换函数,而转换部分用于实现源说话人语音转换为目标说话人语音。
训练阶段实施步骤为:
1.1)获取非平行文本的训练语料,训练语料是多名说话人的语料,包含源说话人和目标说话人。训练语料取自VCC2018语音语料库。该语料库的训练集中有6个男性和6个女性说话人,每个说话人有81句语料。
1.2)训练语料通过WORLD语音分析/合成模型提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频log f0。其中由于快速傅氏变换(Fast FourierTransformation,FFT)长度设置为1024,因此得到的频谱包络特征x和非周期性特征均为1024/2+1=513维。每一个语音块有512帧,从频谱包络特征中提取36维的梅尔倒谱系数(MCEP)特征,一次训练时取8个语音块。因此,训练语料的维度为8*36*512。
1.3)本实施例中的Perceptual STARGAN网络以Cycle-GAN模型为基础,通过改善GAN的结构,以及结合分类器,来提升Cycle-GAN效果。Perceptual STARGAN由四部分组成:一个产生真实的频谱的生成器G,一个判断输入是真实的频谱还是生成的频谱的鉴别器D,一个判别生成频谱的标签是否属于ct的分类器C以及一个可以生成感知损失来进一步优化生成器G的感知网络
Figure BDA0002203950000000083
Perceptual STARGAN网络的目标函数为:
Figure BDA0002203950000000081
其中,IG(G)为生成器的损失函数:
Figure BDA0002203950000000082
其中,λcls>=0、λcyc>=0、λid>=0、λcon>=0和λstyle>=0是正则化参数,分别表示分类损失、循环一致性损失、特征映射损失、感知语义损失和感知个性损失的权重,
Figure BDA0002203950000000091
Lcyc(G)、Lid(G)、Lcon(G)和Lstyle(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致损失、特征映射损失、感知语义损失和感知个性损失,并且Lcon(G)和Lstyle(G)是通过感知网络/>
Figure BDA0002203950000000097
计算所得出的感知损失。
鉴别器的损失函数为:
Figure BDA0002203950000000092
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct)表示生成器G生成的目标说话人频谱特征,即xtc,D(G(xs,ct),ct)表示鉴别器判别生成的频谱特征,
Figure BDA0002203950000000093
表示生成器G生成的概率分布的期望,/>
Figure BDA0002203950000000094
表示真实概率分布的期望;
分类器二维卷积神经网络的损失函数为:
Figure BDA0002203950000000095
其中,pC(xt|xt)表示分类器判别目标说话人特征为标签ct的真实频谱的概率。
1.4)将1.2)中提取的源说话人频谱包络特征xs与目标说话人标签特征ct作为联合特征(xs,ct)输入生成器进行训练。训练生成器,使生成器的损失函数LG尽量小,得到生成目标说话人频谱包络特征xtc
如图2所示,生成器采用二维卷积神经网络,由编码网络和解码网络构成。编码网络包括5个卷积层,5个卷积层的过滤器大小分别为3*9、4*8、4*8、3*5、9*5,步长分别为1*1、2*2、2*2、1*1、9*1,过滤器深度分别为32、64、128、64、5。解码网络包括5个反卷积层,5个反卷积层的过滤器大小分别为9*5、3*5、4*8、4*8、3*9,步长分别为9*1、1*1、2*2、2*2、1*1,过滤器深度分别为64、128、64、32、1;在编码网络与解码网络之间建立ResNet,即将编码网络的第二卷积层的输出与解码网络的第三卷积层的输出直接相加,然后输入到解码网络的第四卷积层;将编码网络的第三卷积层的输出与解码网络的第二卷积层的输出直接相加,然后输入到解码网络的第三卷积层;将编码网络的第四卷积层的输出与解码网络的第一卷积层的输出直接相加,然后输入到解码网络的第二卷积层;在每个卷积层后采用SwitchableNorm进行标准化。
1.5)将1.4)得到的生成目标说话人频谱包络特征xtc和1.2)得到的训练语料的目标说话人频谱包络特征xt以及目标说话人标签ct,一同作为鉴别器的输入,训练鉴别器,使鉴别器的损失函数
Figure BDA0002203950000000096
尽可能小。
如图3所示,鉴别器采用二维卷积神经网络,包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1;在每个卷积层后采用SwitchableNorm进行标准化。
鉴别器的损失函数为:
Figure BDA0002203950000000101
优化目标为:
Figure BDA0002203950000000102
1.6)将上述得到的目标说话人的频谱包络特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc),将上述得到的语义特征G(xtc)与源说话人标签特征cs一同输入到生成器G的解码网络和感知网络
Figure BDA0002203950000000105
进行训练,在训练过程中最小化生成器G的损失函数,得到重构源说话人的频谱包络特征xsc。在训练过程中最小化生成器的损失函数,包括生成器的对抗损失、循环一致损失、特征映射损失生成器的分类损失、深层语义损失和深层个性损失。其中,训练循环一致损失是为了使源说话人频谱特征xs在经过生成器G后,所重构的源说话人频谱特征xsc可以和xs尽可能保持一致。训练特征映射损失,是为了保证xs在经过生成器G后说话人标签仍是cs、分类损失指分类器判别生成器所生成的目标说话人频谱xtc属于标签ct的概率损失、深层语义损失是为了使生成器所生成的目标说话人频谱xtc与源说话人频谱xsc有共同的深层语义特征、深层个性损失是为了生成器所生成的目标说话人频谱xtc与真实的目标说话人频谱xt有共同的深层个性特征。
生成器的损失函数为:
Figure BDA0002203950000000103
优化目标为:
Figure BDA0002203950000000104
其中λcls>=0、λcyc>=0、λid>=0、λcon>=0和λstyle>=0是正则化参数,分别表示分类损失、循环一致性损失、特征映射损失、感知语义损失和感知个性损失的权重。
Figure BDA0002203950000000111
表示GAN中生成器的对抗损失:
Figure BDA0002203950000000112
其中,
Figure BDA0002203950000000113
表示生成器生成的概率分布的期望,G(xs,ct)表示生成器生成频谱特征。/>
Figure BDA0002203950000000114
和鉴别器的损失/>
Figure BDA0002203950000000115
共同构成GAN中常见的对抗损失,用来判别输入鉴别器的频谱是真实频谱还是生成频谱。在训练过程中/>
Figure BDA0002203950000000116
尽可能小,生成器不断优化,直至生成能够以假乱真的频谱特征G(xs,ct),使得鉴别器难以判别真假。
Figure BDA0002203950000000117
为分类器C用来优化生成器的分类损失:
Figure BDA0002203950000000118
其中,pC(ct|G(xs,ct))表示分类器判别生成目标说话人频谱标签属于ct的概率,G(xs,ct)表示生成器生成的目标说话人频谱。在训练过程中,
Figure BDA0002203950000000119
尽可能小,使得生成器G生成的频谱G(xs,ct)能够被分类器正确分类为标签ct
Lcyc(G)和Lid(G)借鉴Cycle-GAN模型中生成器的损失,Lcyc(G)为生成器G中循环一致损失:
Figure BDA00022039500000001110
其中,G(G(xs,ct),cs)为重构的源说话人频谱特征,即xsc
Figure BDA00022039500000001111
为重构源说话人频谱和真实源说话人频谱的损失期望。在训练生成器的损失中,Lcyc(G)尽可能小,使生成目标频谱G(xs,ct)、源说话人标签cs再次输入到生成器后,得到的重构源说话人语音频谱尽可能和xs相似。通过训练Lcyc(G),可以有效保证说话人语音的语义特征,在经过生成器的编码以后不被损失。
Lid(G)为生成器G的特征映射损失:
Figure BDA00022039500000001112
其中,G(xs,cs)为源说话人频谱、说话人标签和x向量,输入到生成器后得到的源说话人频谱特征,
Figure BDA00022039500000001113
为xs和G(xs,cs)的损失期望。训练Lid(G),可以有效保证输入频谱的标签cs在输入生成器后仍保持不变。
如图5所示,感知网络采用鉴别器的第1、2、3、4卷积层作为网络结构。
其中xs为源说话人频谱,xt为目标说话人频谱,xtc为生成器所得到的目标说话人频谱。
Lcon(G)为生成器G所生成的目标说话人频谱在感知网络
Figure BDA00022039500000001114
的深层语义特征损失:
Figure BDA0002203950000000121
其中,
Figure BDA0002203950000000122
为生成器所得到的目标说话人频谱和真实源说话人频谱在感知网络/>
Figure BDA0002203950000000123
的第3层的感知语义损失,G(xs,ct)为源说话人频谱和目标说话人标签输入到生成器后得到的目标说话人频谱特征,/>
Figure BDA0002203950000000124
为生成器生成的目标说话人频谱特征在感知网络/>
Figure BDA0002203950000000125
的第3层的输出结果,/>
Figure BDA0002203950000000126
为源说话人频谱特征在感知网络/>
Figure BDA0002203950000000127
的第3层输出结果,
Figure BDA0002203950000000128
为生成器生成的源说话人频谱在损失网络/>
Figure BDA0002203950000000129
的第3层输出和真实源说话人频谱在感知网络/>
Figure BDA00022039500000001210
的第3层输出的损失期望。
Lstyle(G)为生成器G所生成的目标说话人频谱在感知网络
Figure BDA00022039500000001211
的深层个性特征损失:
Figure BDA00022039500000001212
其中,
Figure BDA00022039500000001213
为生成器所得到的目标说话人频谱和真实源说话人频谱在感知网络/>
Figure BDA00022039500000001219
的第i层的感知个性损失,G(xs,ct)为源说话人频谱和目标说话人标签输入到生成器后得到的目标说话人频谱特征,即xtc,/>
Figure BDA00022039500000001214
为生成器生成的目标说话人频谱特征在感知网络/>
Figure BDA00022039500000001222
的第i层的输出结果,/>
Figure BDA00022039500000001215
为目标说话人频谱特征在感知网络/>
Figure BDA00022039500000001220
的第i层输出结果,
Figure BDA00022039500000001216
为生成器生成的目标说话人频谱在感知网络/>
Figure BDA00022039500000001221
的第i层输出和真实目标说话人频谱在感知网络/>
Figure BDA00022039500000001223
的第i层输出的损失期望。
1.7)将上述生成的目标说话人频谱包络特征xtc和目标说话人的频谱包络特征xt输入分类器进行训练,最小化分类器的损失函数。
如图4所示,分类器采用二维卷积神经网络C,包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、4;在每个卷积层后采用SwitchableNorm进行标准化。
分类器二维卷积神经网络的损失函数为:
Figure BDA00022039500000001217
优化目标为:
Figure BDA00022039500000001218
1.8)重复1.4)、1.5)、1.6)和1.7)步骤,直至达到设置的迭代次数,从而得到训练好的PerceptualSTARGAN网络,其中生成器参数φ、鉴别器参数θ、分类器参数ψ为训练好的参数。由于神经网络具体设置不同以及实验设备性能不同,选择的迭代次数也各不相同。本实验中选择迭代次数为10000次。
步骤1.4)、1.5)、和1.7)中所述的SwitchableNorm的数据标准化公式为:
Figure BDA0002203950000000131
Figure BDA0002203950000000132
其中,k、z为集合Ω={bn,in,ln}中的元素;μk
Figure BDA0002203950000000133
分别为k对应标准化数据的均值和方差,即μk和/>
Figure BDA0002203950000000134
分别为每个样本每个通道中(H×W)的均值和方差,且由批归一化(BatchNorm,BN)、实例归一化(Instance Norm,IN)、层归一化(Layer Norm,LN)等三种不同统计方法计算得到的均值和方差共同决定;wk和w'k为均值与方差对应的权重系数,λk与λz为三个维度统计量的控制参数,λk与λz初始值均为1,且在反向传播中进行优化学习,在反向传播优化学习时,wk可由三个参数λk=bn、λk=in和λk=ln计算得出,w'k可由另外三个参数λ'k=bn、λ'k=in和λ'k=ln计算得出。γ和β分别为缩放系数和偏移系数,分别按照0.7≤γ≤1、0≤β≤0.1的条件取值,ε的设置用来防止分母为零的情况出现,实施例中ε=0.001,hncij为每批次第n个样本第c通道第i行第j列的元素值,/>
Figure BDA0002203950000000135
是hncij标准化后的数据。
1.9)使用对数基频log f0的均值和方差建立基音频率转换关系,统计出每个说话人的对数基频的均值和方差,利用对数域线性变换将源说话人对数基频log f0s转换得到目标说话人对数基频log f0t′。
基频转换函数为:
Figure BDA0002203950000000136
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差。
转换阶段实施步骤为:
2.1)将源说话人语音通过WORLD语音分析/合成模型,提取源说话人的不同语句的频谱包络特征xs′、非周期性特征、基频。其中由于快速傅氏变换(FFT)长度设置为1024,因此得到的频谱包络特征xs′和非周期性特征均为1024/2+1=513维。
2.2)将2.1)提取的源说话人语音的频谱包络特征xs′与目标说话人标签特征ct′作为联合特征(xs′,ct′)输入1.8)训练的Perceptual STARGAN网络,从而重构出目标说话人频谱包络特征xtc′。
2.3)通过1.9)得到的基音频率转换函数,将2.1)中提取出的源说话人基频转换为目标说话人的基频。
2.4)将2.2)中得到的目标说话人频谱包络特征xtc′、2.3)中得到的目标说话人的基频和2.1)提取的非周期性特征通过WORLD语音分析/合成模型合成转换后的说话人语音。

Claims (9)

1.一种基于Perceptual STARGAN的多对多说话人转换方法,其特征在于,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语料的频谱包络特征x、非周期性特征以及基频特征;
(1.3)将源说话人的频谱包络特征xs、目标说话人的频谱包络特征xt、源说话人标签cs以及目标说话人标签特征ct,输入到Perceptual STARGAN网络进行训练,所述的Perceptual STARGAN网络由生成器G、鉴别器D、分类器C和感知网络
Figure QLYQS_1
组成,所述的生成器G由编码网络和解码网络构成,在编码网络与解码网络之间搭建三层ResNet,所述的感知网络/>
Figure QLYQS_2
用来计算感知损失,并将所述感知损失添加到生成器G的损失中来进一步优化生成器;
(1.4)训练过程使生成器的损失函数、鉴别器的损失函数、分类器的损失函数尽量小,直至设置的迭代次数,从而得到训练好的Perceptual STARGAN网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱包络特征xs′、非周期性特征和基频特征;
(2.2)将上述源说话人的频谱包络特征xs′、目标说话人标签特征ct′输入步骤(1.4)中训练好的Perceptual STARGAN网络,重构出目标说话人频谱包络特征xtc′;
(2.3)通过步骤(1.5)得到的基频转换函数,将步骤(2.1)中提取出的源说话人基频特征转换为目标说话人的基频特征;
(2.4)将步骤(2.2)中得到的目标说话人频谱包络特征xtc′、步骤(2.3)中得到的目标说话人的基频特征和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音;
所述的生成器G采用二维卷积神经网络,损失函数为:
Figure QLYQS_3
其中,λcls>=0、λcyc>=0、λid>=0、λcon>=0和λstyle>=0是正则化参数,分别表示分类损失、循环一致性损失、特征映射损失、感知语义损失和感知个性损失的权重,
Figure QLYQS_4
Lcyc(G)、Lid(G)、Lcon(G)和Lstyle(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致损失、特征映射损失、感知语义损失和感知个性损失;
所述的鉴别器D采用二维卷积神经网络,损失函数为:
Figure QLYQS_5
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct)表示生成器G生成的目标说话人频谱特征,即xtc,D(G(xs,ct),ct)表示鉴别器判别生成的频谱特征,
Figure QLYQS_6
表示生成器G生成的概率分布的期望,/>
Figure QLYQS_7
表示真实概率分布的期望;
所述的分类器采用二维卷积神经网络C,损失函数为:
Figure QLYQS_8
其中,pC(ct|xt)表示分类器判别目标说话人特征为标签ct的真实频谱的概率。
2.根据权利要求1所述的基于Perceptual STARGAN的多对多说话人转换方法,其特征在于:步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将源说话人的频谱包络特征xs输入生成器G的编码网络,得到说话人无关的语义特征G(xs);
(2)将上述得到的语义特征G(xs)与目标说话人的标签特征ct一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,从而得到目标说话人的频谱包络特征xtc
(3)将上述得到的频谱包络特征xtc,源说话人频谱特征xs与目标说话人频谱特征xt一同输入到感知网络来计算感知损失,将得到的感知损失添加到生成器G的损失函数中,在训练过程中最小化生成器G的损失函数;
(4)将上述得到的目标说话人的频谱包络特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc);
(5)将上述得到的语义特征G(xtc)与源说话人标签特征cs输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构的源说话人的频谱包络特征xsc
(6)将目标说话人的频谱包络特征xtc、目标说话人频谱特征xt,以及目标说话人的标签特征ct一同输入到鉴别器D中进行训练,最小化鉴别器D的损失函数;
(7)将上述得到的目标说话人的频谱包络特征xtc和目标说话人的频谱包络特征xt输入分类器C进行训练,最小化分类器C的损失函数;
(8)回到步骤(1)重复上述步骤,直至达到设置的迭代次数,从而得到训练好的Perceptual STARGAN网络。
3.根据权利要求1所述的基于Perceptual STARGAN的多对多说话人转换方法,其特征在于:步骤(2.2)中的输入过程包括以下步骤:
(1)将源说话人的频谱包络特征xs′输入生成器G的编码网络,得到说话人无关的语义特征G(xs)′;
(2)将上述得到的语义特征G(xs)′与目标说话人的标签特征ct′一同输入到生成器G的解码网络,得到目标说话人的频谱包络特征xtc′。
4.根据权利要求1所述的基于Perceptual STARGAN的多对多说话人转换方法,其特征在于:
Figure QLYQS_9
其中,
Figure QLYQS_10
表示生成器生成的概率分布的期望,G(xs,ct)表示生成器生成频谱特征;
Figure QLYQS_11
其中,pC(ct|G(xs,ct))表示分类器判别生成目标说话人频谱标签属于ct的概率,G(xs,ct)表示生成器生成的目标说话人频谱;
Figure QLYQS_12
其中,G(G(xs,ct),cs)为重构的源说话人频谱特征,即xsc
Figure QLYQS_13
为重构源说话人频谱和真实源说话人频谱的损失期望;
Figure QLYQS_14
其中,G(xs,cs)为源说话人频谱和说话人标签输入到生成器后得到的源说话人频谱特征,
Figure QLYQS_15
为xs和G(xs,cs)的损失期望;
Figure QLYQS_16
其中,
Figure QLYQS_18
为生成器所得到的目标说话人频谱和真实源说话人频谱在感知网络/>
Figure QLYQS_23
的第3层的感知语义损失,G(xs,ct)为源说话人频谱和目标说话人标签输入到生成器后得到的目标说话人频谱特征,即xtc,/>
Figure QLYQS_25
为生成器生成的目标说话人频谱特征在损失网络/>
Figure QLYQS_19
的第3层的输出结果,/>
Figure QLYQS_20
为源说话人频谱特征在损失网络/>
Figure QLYQS_22
的第3层输出结果,
Figure QLYQS_24
为生成器生成的源说话人频谱在损失网络/>
Figure QLYQS_17
的第3层输出和真实源说话人频谱在损失网络/>
Figure QLYQS_21
的第3层输出的损失期望;
Figure QLYQS_26
其中,
Figure QLYQS_28
为生成器所得到的目标说话人频谱和真实目标说话人频谱在感知网络/>
Figure QLYQS_31
的第i层的感知个性损失,G(xs,ct)为源说话人频谱和目标说话人标签输入到生成器后得到的目标说话人频谱特征,即xtc,/>
Figure QLYQS_34
为生成器生成的目标说话人频谱特征在感知网络/>
Figure QLYQS_29
的第i层的输出结果,/>
Figure QLYQS_30
为目标说话人频谱特征在感知网络/>
Figure QLYQS_33
的第i层输出结果,
Figure QLYQS_35
为生成器生成的目标说话人频谱在感知网络/>
Figure QLYQS_27
的第i层输出和真实目标说话人频谱在感知网络/>
Figure QLYQS_32
的第i层输出的损失期望。
5.根据权利要求4所述的基于Perceptual STARGAN的多对多说话人转换方法,其特征在于:所述的生成器G的编码网络包括5个卷积层,5个卷积层的过滤器大小分别为3*9、4*8、4*8、3*5、9*5,步长分别为1*1、2*2、2*2、1*1、9*1,过滤器深度分别为32、64、128、64、5;生成器G的解码网络包括5个反卷积层,5个反卷积层的过滤器大小分别为9*5、3*5、4*8、4*8、3*9,步长分别为9*1、1*1、2*2、2*2、1*1,过滤器深度分别为64、128、64、32、1;将编码网络的第二卷积层的输出与解码网络的第三卷积层的输出直接相加,然后输入到解码网络的第四卷积层;将编码网络的第三卷积层的输出与解码网络的第二卷积层的输出直接相加,然后输入到解码网络的第三卷积层;将编码网络的第四卷积层的输出与解码网络的第一卷积层的输出直接相加,然后输入到解码网络的第二卷积层。
6.根据权利要求4所述的基于Perceptual STARGAN的多对多说话人转换方法,其特征在于:所述的鉴别器D包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1;所述的分类器C包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、4。
7.根据权利要求4所述的基于Perceptual STARGAN的多对多说话人转换方法,其特征在于:所述的感知网络
Figure QLYQS_36
将鉴别器D的第3卷积层的输出作为深层语义特征,将鉴别器D的第1、2、3、4卷积层的输出作为深层个性特征,将感知个性损失与感知语义损失一同加入到生成器的损失中来进一步优化生成器。
8.根据权利要求1所述的基于Perceptual STARGAN的多对多说话人转换方法,其特征在于:在生成器G、鉴别器D和分类器C的每层网络间采用SwitchableNorm进行数据标准化;
所述的SwitchableNorm的数据标准化公式为:
Figure QLYQS_37
Figure QLYQS_38
其中,k、z为集合Ω={BN,IN,LN}中的元素,BN是指批归一化,IN是指实例归一化,LN是指层归一化,μk
Figure QLYQS_39
分别为k对应标准化数据的均值和方差,wk和w'k为均值与方差对应的权重系数,γ和β分别为缩放系数和偏移系数,ε=0.001,λk与λz为三个维度统计量的控制参数,hncij为每批次第n个样本第c通道第i行第j列的元素值,/>
Figure QLYQS_40
是hncij标准化后的数据。
9.根据权利要求1所述的基于Perceptual STARGAN的多对多说话人转换方法,其特征在于,所述的基频转换函数为:
Figure QLYQS_41
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差,log f0s为源说话人的对数基频,logf0t′为转换后目标说话人的对数基频。
CN201910874686.XA 2019-09-17 2019-09-17 基于Perceptual STARGAN的多对多说话人转换方法 Active CN110600047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910874686.XA CN110600047B (zh) 2019-09-17 2019-09-17 基于Perceptual STARGAN的多对多说话人转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910874686.XA CN110600047B (zh) 2019-09-17 2019-09-17 基于Perceptual STARGAN的多对多说话人转换方法

Publications (2)

Publication Number Publication Date
CN110600047A CN110600047A (zh) 2019-12-20
CN110600047B true CN110600047B (zh) 2023-06-20

Family

ID=68860021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910874686.XA Active CN110600047B (zh) 2019-09-17 2019-09-17 基于Perceptual STARGAN的多对多说话人转换方法

Country Status (1)

Country Link
CN (1) CN110600047B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111247585B (zh) * 2019-12-27 2024-03-29 深圳市优必选科技股份有限公司 语音转换方法、装置、设备及存储介质
WO2021134520A1 (zh) * 2019-12-31 2021-07-08 深圳市优必选科技股份有限公司 语音转换的方法及训练方法、智能装置和存储介质
CN111243572B (zh) * 2020-01-14 2022-09-06 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于说话人博弈的多人语音转换方法与系统
CN111462768B (zh) * 2020-03-12 2023-04-25 南京邮电大学 基于共享训练的多尺度StarGAN的语音转换方法
CN111429893A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于Transitive STARGAN的多对多说话人转换方法
CN111833855B (zh) * 2020-03-16 2024-02-23 南京邮电大学 基于DenseNet STARGAN的多对多说话人转换方法
CN111462769B (zh) * 2020-03-30 2023-10-27 深圳市达旦数生科技有限公司 一种端到端的口音转换方法
CN111489287B (zh) * 2020-04-10 2024-02-09 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备和存储介质
CN111785261B (zh) * 2020-05-18 2023-07-21 南京邮电大学 基于解纠缠和解释性表征的跨语种语音转换方法及系统
CN111667814B (zh) * 2020-05-26 2023-09-12 北京声智科技有限公司 一种多语种的语音合成方法及装置
CN111816156B (zh) * 2020-06-02 2023-07-21 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及系统
CN112037766B (zh) * 2020-09-09 2022-03-04 广州方硅信息技术有限公司 一种语音音色转换方法及相关设备
CN112634920B (zh) * 2020-12-18 2024-01-02 平安科技(深圳)有限公司 基于域分离的语音转换模型的训练方法及装置
CN113380264A (zh) * 2021-05-21 2021-09-10 杭州电子科技大学 一种用于非对称语料的语音转换方法
CN113643687B (zh) * 2021-07-08 2023-07-18 南京邮电大学 融合DSNet与EDSR网络的非平行多对多语音转换方法
CN115171651B (zh) * 2022-09-05 2022-11-29 中邮消费金融有限公司 一种儿化音合成方法、装置、电子设备及存储介质
CN116778937B (zh) * 2023-03-28 2024-01-23 南京工程学院 一种基于说话人对抗子网络的语音转换方法
CN117437514B (zh) * 2023-12-22 2024-04-05 南昌航空大学 一种基于CycleGan的阴道镜图像模态转换方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2386501B (en) * 2002-03-14 2005-03-16 Manuel Oliveira Network performance indicators
US20120246295A1 (en) * 2011-03-25 2012-09-27 Xvd Technology Holdings Limited Real Time Distribution of Layered Communication Using Publish-Subscribe Data-Centric Middleware
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
US11354577B2 (en) * 2017-03-15 2022-06-07 Samsung Electronics Co., Ltd System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions
CN108171762B (zh) * 2017-12-27 2021-10-12 河海大学常州校区 一种深度学习的压缩感知同类图像快速重构系统与方法
CN108363753B (zh) * 2018-01-30 2020-05-19 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108416752B (zh) * 2018-03-12 2021-09-07 中山大学 一种基于生成式对抗网络进行图像去运动模糊的方法
CN109346087B (zh) * 2018-09-17 2023-11-10 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN109448746B (zh) * 2018-09-28 2020-03-24 百度在线网络技术(北京)有限公司 语音降噪方法及装置
CN109409508B (zh) * 2018-11-06 2022-03-15 成都信息工程大学 一种基于生成对抗网络使用感知损失解决模型崩塌的方法
CN109599091B (zh) * 2019-01-14 2021-01-26 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN109671442B (zh) * 2019-01-14 2023-02-28 南京邮电大学 基于STARGAN和x向量的多对多说话人转换方法
CN109919018A (zh) * 2019-01-28 2019-06-21 浙江英索人工智能科技有限公司 基于参考图像的图像眼睛自动打开方法及装置
CN110060657B (zh) * 2019-04-04 2023-01-31 南京邮电大学 基于sn的多对多说话人转换方法
CN110060690B (zh) * 2019-04-04 2023-03-24 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法
CN110060701B (zh) * 2019-04-04 2023-01-31 南京邮电大学 基于vawgan-ac的多对多语音转换方法
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
CN110047054A (zh) * 2019-04-26 2019-07-23 东北大学 一种基于vgg-19提取特征的gan医学图像降噪方法
CN110136686A (zh) * 2019-05-14 2019-08-16 南京邮电大学 基于STARGAN与i向量的多对多说话人转换方法

Also Published As

Publication number Publication date
CN110600047A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
CN109326283B (zh) 非平行文本条件下基于文本编码器的多对多语音转换方法
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
US20200402497A1 (en) Systems and Methods for Speech Generation
US9685155B2 (en) Method for distinguishing components of signal of environment
Liu et al. Voice Conversion Across Arbitrary Speakers Based on a Single Target-Speaker Utterance.
Ding et al. Group Latent Embedding for Vector Quantized Variational Autoencoder in Non-Parallel Voice Conversion.
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN110060701B (zh) 基于vawgan-ac的多对多语音转换方法
CN111462768B (zh) 基于共享训练的多尺度StarGAN的语音转换方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN110060691B (zh) 基于i向量和VARSGAN的多对多语音转换方法
CN107851434A (zh) 使用自适应增量学习方法的语音识别系统和方法
CN111816156A (zh) 基于说话人风格特征建模的多对多语音转换方法及系统
CN111833855B (zh) 基于DenseNet STARGAN的多对多说话人转换方法
CN112927707A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN110047501B (zh) 基于beta-VAE的多对多语音转换方法
CN111429894A (zh) 基于SE-ResNet STARGAN的多对多说话人转换方法
CN112071330A (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
Choi et al. Sequence-to-sequence emotional voice conversion with strength control
CN112634920A (zh) 基于域分离的语音转换模型的训练方法及装置
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant