CN110060690A - 基于STARGAN和ResNet的多对多说话人转换方法 - Google Patents

基于STARGAN和ResNet的多对多说话人转换方法 Download PDF

Info

Publication number
CN110060690A
CN110060690A CN201910268602.8A CN201910268602A CN110060690A CN 110060690 A CN110060690 A CN 110060690A CN 201910268602 A CN201910268602 A CN 201910268602A CN 110060690 A CN110060690 A CN 110060690A
Authority
CN
China
Prior art keywords
feature
speaker
network
generator
stargan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910268602.8A
Other languages
English (en)
Other versions
CN110060690B (zh
Inventor
李燕萍
徐东祥
张燕
曹盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910268602.8A priority Critical patent/CN110060690B/zh
Publication of CN110060690A publication Critical patent/CN110060690A/zh
Application granted granted Critical
Publication of CN110060690B publication Critical patent/CN110060690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于STARGAN与ResNet的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与ResNet相结合来实现语音转换系统,利用ResNet网络解决STARGAN中存在的网络退化问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,同时使用Instance norm对数据进行标准化,对于转换过程中所产生的噪声能够实现很好的滤除效果,从而克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。

Description

基于STARGAN和ResNet的多对多说话人转换方法
技术领域
本发明涉及一种多对多说话人转换方法,特别是涉及一种基于STARGAN和ResNet的多对多说话人转换方法。
背景技术
语音转换是语音信号处理领域的研究分支,是在语音分析、识别和合成的研究基础上发展与延伸的。语音转换的目标是改变源说话人的语音个性特征,使之具有目标说话人的语音个性特征,也就是使一个人说的语音经过转换后听起来像是另一个人说的语音,同时保留语义信息。
语音转换技术经过多年的研究,已经涌现了很多的经典转换方法。其中包括高斯混合模型(Gaussian Mixed Model,GMM)、递归神经网络(Recurrent Neural Network,RNN)、深度神经网络(Deep Neural Networks,DNN)、长短时记忆网络(Long Short-TermMemory,LSTM)等大多数的语音转换方法。但是这些语音转换方法大多要求用于训练的语料库是平行文本,即源说话人和目标说话人需要发出语义内容、语音时长相同的句子,并且发音节奏和情绪等尽量一致。然而训练时语音特征参数对齐的准确性会成为语音转换性能的一种制约。此外在同声传译、医疗辅助患者语音转换等实际应用中也无法获取平行语音。因此,无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。
现有的非平行文本条件下的语音转换方法有基于循环一致对抗网络(Cycle-Consistent Adversarial Networks,Cycle-GAN)的方法、基于条件变分自编码器(Conditional Variational Auto-Encoder,C-VAE)的方法以及基于Disco-GAN(discovercross-domain relations with generative adversarial networks)的方法等。基于Disco-GAN模型的语音转换方法,采用两个生成器与三个判别器进行计算损失,较传统GAN而言,通过增加一个风格判别器提取语音风格特征来提高语音质量,但其只能实现一对一的语音转换。基于C-VAE模型的语音转换方法,直接利用说话人的身份标签建立语音转换系统,其中编码器对语音实现语义和个性信息的分离,解码器通过语义和说话人身份标签来实现语音的重构,从而可以解除对平行文本的依赖。但是由于C-VAE基于理想假设,认为观察到的数据通常遵循高斯分布,导致解码器的输出语音过度平滑,转换后的语音质量不高。基于Cycle-GAN模型的语音转换方法利用对抗性损失和循环一致损失,同时学习声学特征的正映射和逆映射,可以有效解决过平滑问题,改善转换语音质量,但是Cycle-GAN只能实现一对一的语音转换。
基于星型生成对抗网络(Star Generative Adversarial Network,STARGAN)模型的语音转换方法同时具有Disco-GAN、C-VAE和Cycle-GAN的优点,由于该方法的生成器具有编解码结构,可以同时学习多对多映射,生成器输出的属性由说话人身份标签控制,因此可以实现非平行下多对多的语音转换。但是此方法由于生成器中的编码网络与解码网络之间相互独立,直接通过生成器的编码网络无法较好地实现语义特征与说话人个性化特征的分离,同时生成器的解码网络也无法较好地实现语义特征与说话人个性特征的合成,因此在网络传输中容易丢失语义特征与说话人个性特征,造成信息的损失与噪声的生成。针对这种情况,需要一种能够很好地解决在训练过程中的网络退化问题,降低编码网络对于语义的学习难度,提高解码网络的频谱生成质量的转换方法。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于STARGAN和ResNet的多对多说话人转换方法,解决了现有的方法在训练过程中的网络退化问题,降低编码网络对于语义的学习难度,提高解码网络的频谱生成质量,并能够避免Batch norm过程中带来的信息损失问题与噪声问题,更加充分学习语义特征和说话人的个性化特征,从而较好地提升转换后语音的个性相似度和语音质量。
技术方案:本发明所述的基于STARGAN和ResNet的多对多说话人转换方法,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、非周期性特征以及基频特征F0;
(1.3)将源说话人的频谱包络特征xs、目标说话人的频谱包络特征xt、源说话人标签cs以及目标说话人标签ct,输入到STARGAN-ResNet网络进行训练,所述的STARGAN-Resnet网络由生成器G、鉴别器D和分类器C组成,所述的生成器G由编码网络和解码网络构成,在编码网络与解码网络之间搭建三层ResNet;
(1.4)训练过程使生成器的损失函数、鉴别器的损失函数、分类器的损失函数尽量小,直至设置的迭代次数,从而得到训练好的STARGAN-ResNet网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱包络特征xs′、非周期性特征和基频特征F0;
(2.2)将上述源说话人频谱包络特征xs′、目标说话人标签特征ct′输入(1.4)中训练好的STARGAN-ResNet网络,重构出目标说话人频谱包络特征xtc′;
(2.3)通过(1.5)得到的基频转换函数,将(2.1)中提取出的源说话人基频转换为目标说话人的基频特征;
(2.4)将(2.2)中得到的目标说话人频谱包络特征xtc′、(2.3)中得到的目标说话人的基频特征F0和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
进一步的,步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将源说话人的频谱包络特征xs输入生成器G的编码网络,得到说话人无关的语义特征G(xs);
(2)将上述得到的语义特征G(xs)与目标说话人的标签特征ct一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,从而得到目标说话人的频谱包络特征xtc
(3)将上述得到的目标说话人的频谱包络特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc);
(4)将上述得到的语义特征G(xtc)与源说话人标签特征cs输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构的源说话人的频谱包络特征xsc
(5)将目标说话人的频谱包络特征xtc、目标说话人频谱特征xt,以及目标说话人的标签特征ct一同输入到鉴别器D中进行训练,最小化鉴别器的损失函数;
(6)将目标说话人的频谱包络特征xtc和目标说话人的频谱包络特征xt输入分类器C进行训练,最小化分类器的损失函数;
(7)回到步骤(1)重复上述步骤,直至达到设置的迭代次数,从而得到训练好的STARGAN-ResNet网络。
进一步的,步骤(2.2)中的输入过程包括以下步骤:
(1)将源说话人的频谱包络特征xs′输入生成器G的编码网络,得到说话人无关的语义特征G(xs)′;
(2)将上述得到的语义特征G(xs)′与目标说话人的标签特征ct′一同输入到生成器G的解码网络,得到目标说话人的频谱包络特征xtc′。
进一步的,所述的生成器G采用二维卷积神经网络,损失函数为:
其中,λcls>=0、λcyc>=0和λid>=0是正则化参数,分别表示分类损失、循环一致性损失和特征映射损失的权重,Lcyc(G)、Lid(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致损失、特征映射损失;
所述的鉴别器D采用二维卷积神经网络,损失函数为:
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct)表示生成器G生成的目标说话人频谱特征,D(G(xs,ct),ct)表示鉴别器判别生成的频谱特征,表示生成器G生成的概率分布的期望,表示真实概率分布的期望;
所述的分类器采用二维卷积神经网络C,损失函数为:
其中,pC(ct|xt)表示分类器判别目标说话人特征为标签ct的真实频谱的概率。
进一步的,
其中,表示生成器生成的概率分布的期望,G(xs,ct)表示生成器生成频谱特征;
其中,pC(ct|G(xs,ct))表示分类器判别生成目标说话人频谱标签属于ct的概率,G(xs,ct)表示生成器生成的目标说话人频谱;
其中,G(G(xs,ct),cs)为重构的源说话人频谱特征,为重构源说话人频谱和真实源说话人频谱的损失期望;
其中,G(xs,cs)为源说话人频谱和说话人标签,输入到生成器后得到的源说话人频谱特征,为xs和G(xs,cs)的损失期望。
进一步的,所述的生成器G的编码网络包括5个卷积层,5个卷积层的过滤器大小分别为3*9、4*8、4*8、3*5、9*5,步长分别为1*1、2*2、2*2、1*1、9*1,过滤器深度分别为32、64、128、64、5;生成器G的解码网络包括5个反卷积层,5个反卷积层的过滤器大小分别为9*5、3*5、4*8、4*8、3*9,步长分别为9*1、1*1、2*2、2*2、1*1,过滤器深度分别为64、128、64、32、1;将编码网络的第二卷积层的输出与解码网络的第三卷积层的输出直接相加,然后输入到解码网络的第四卷积层;将编码网络的第三卷积层的输出与解码网络的第二卷积层的输出直接相加,然后输入到解码网络的第三卷积层;将编码网络的第四卷积层的输出与解码网络的第一卷积层的输出直接相加,然后输入到解码网络的第二卷积层。
进一步的,所述的鉴别器D包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1;所述的分类器C包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、4。
进一步的,在生成器G、鉴别器D和分类器C的每层网络间采用Instancenorm进行数据标准化。
进一步的,所述的Instance norm的数据标准化公式为:
其中,xtijk和ytijk分别为每个Batch中的第t个样本、第i个特征通道的第j行k列元素的标准化前和标准化后的数据,xtilm为每个Batch中的第t个样本、第i个特征通道的第l行m列元素的标准化前的数据,ε=0.001,H和W分别表示每个Batch中的第t个样本、第i个通道的空间数据的纵向的维度与横向的维度,μti分别为每个Batch中的第t个样本、第i个特征通道的空间数据的均值和方差。
进一步的,所述的基频转换函数为:
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差,logf0s为源说话人的对数基频,log f0t′为转换后目标说话人的对数基频。
有益效果:本方法能够使用STARGAN与ResNet相结合来实现平行文本和非平行文本条件下的多对多说话人语音转换,通过在生成器的编码网络和解码网络之间搭建ResNet来充分学习了源说话人与目标说话人的语音特征和个性化特征,可以较好地提升转换后语音的个性相似度和语音质量,克服C-VAE中过平滑的问题与STARGAN网络退化所造成的语音特征丢失问题,提高生成器的编码网络对语义的提取能力,同时提高生成器的解码网络对语音的转换能力,并且在每个卷积层后利用Instance norm进行数据标准化,进一步提升模型的非线性拟合能力,克服了Batchnorm在语音转换中的不收敛问题与个性化特征的损失问题以及噪声问题,实现了一种高质量的语音转换方法。此外,本方法能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性,本方法还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换,在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。
附图说明
图1是本方法的整体流程图;
图2是本方法的模型STARGAN-ResNet的生成器的流程图;
图3是本方法的模型STARGAN-ResNet的鉴别器的流程图;
图4是本方法的模型STARGAN-ResNet的分类器的流程图。
具体实施方式
本发明通过在生成器的编码网络与解码网络之间搭建ResNet,可以很好地解决在训练过程中的网络退化问题,进一步可以降低编码网络对于语义的学习难度,提高解码网络的频谱生成质量,从而提高转换语音的自然度与流畅度。由于BN(Batch norm)是在一个Batch内不同样本间的标准化,注重对每个Batch进行标准化来保证数据分布一致,但是在语音转换中,生成结果主要依赖于某个语音样本实例,通过BN来获得的整体信息并不会带来任何收益,带来的噪声反而会弱化实例之间的独立性,因此在网络中采用BN进行标准化后得到的效果不明显,转换后的语音在语音相似度与自然度上仍未得到很大改善,而Instance norm是在一个样本内的标准化,其信息都来自于单个语音的频谱,相当于对单个频谱的全局信息做了一次整合和调整,能够避免Batch norm过程中带来的信息损失问题与噪声问题,从而很大程度上提高转换后语音的自然度与相似度。
如图1所示,本实施例的方法分为两个部分:训练部分用于得到语音转换所需的参数和转换函数,而转换部分用于实现源说话人语音转换为目标说话人语音。
训练阶段实施步骤为:
1.1)获取非平行文本的训练语料,训练语料是多名说话人的语料,包含源说话人和目标说话人。训练语料取自VCC2018语音语料库。该语料库的训练集中有6个男性和6个女性说话人,每个说话人有81句语料。本方法既可以在平行文本下实现转换,也可以在非平行文本下实现转换,所以这些训练语料也可以是非平行文本的。
1.2)训练语料通过WORLD语音分析/合成模型提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频log f0。其中由于快速傅氏变换(Fast FourierTransformation,FFT)长度设置为1024,因此得到的频谱包络特征x和非周期性特征均为1024/2+1=513维。每一个语音块有512帧,从频谱包络特征中提取36维的梅尔倒谱系数(MCEP)特征,一次训练时取8个语音块。因此,训练语料的维度为8*36*512。
1.3)本实施例中的STARGAN-ResNet网络以Cycle-GAN模型为基础,通过改善GAN的结构,以及结合分类器,来提升Cycle-GAN效果。STARGAN-ResNet由三部分组成:一个产生真实的频谱的生成器G,一个判断输入是真实的频谱还是生成的频谱的鉴别器D,以及一个判别生成频谱的标签是否属于ct的分类器C。
STARGAN-ResNet网络的目标函数为:
其中,IG(G)为生成器的损失函数:
其中,λcls>=0、λcyc>=0和λid>=0是正则化参数,分别表示分类损失、循环一致性损失和特征映射损失的权重。Lcyc(G)、Lid(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致损失、特征映射损失。
鉴别器的损失函数为:
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct)表示生成器G生成的目标说话人频谱特征,D(G(xs,ct),ct)表示鉴别器判别生成的频谱特征,表示生成器G生成的概率分布的期望,表示真实概率分布的期望;
分类器二维卷积神经网络的损失函数为:
其中,pC(ct|xt)表示分类器判别目标说话人特征为标签ct的真实频谱的概率。
1.4)将1.2)中提取的源说话人频谱包络特征xs与目标说话人标签特征ct作为联合特征(xs,ct)输入生成器进行训练。训练生成器,使生成器的损失函数LG尽量小,得到生成目标说话人频谱包络特征xtc
如图2所示,生成器采用二维卷积神经网络,由编码网络和解码网络构成。编码网络包括5个卷积层,5个卷积层的过滤器大小分别为3*9、4*8、4*8、3*5、9*5,步长分别为1*1、2*2、2*2、1*1、9*1,过滤器深度分别为32、64、128、64、5。解码网络包括5个反卷积层,5个反卷积层的过滤器大小分别为9*5、3*5、4*8、4*8、3*9,步长分别为9*1、1*1、2*2、2*2、1*1,过滤器深度分别为64、128、64、32、1;在编码网络与解码网络之间建立ResNet,即将编码网络的第二卷积层的输出与解码网络的第三卷积层的输出直接相加,然后输入到解码网络的第四卷积层;将编码网络的第三卷积层的输出与解码网络的第二卷积层的输出直接相加,然后输入到解码网络的第三卷积层;将编码网络的第四卷积层的输出与解码网络的第一卷积层的输出直接相加,然后输入到解码网络的第二卷积层;在每个卷积层后采用Instancenorm进行标准化。
1.5)将1.4)得到的生成目标说话人频谱包络特征xtc和1.2)得到的训练语料的目标说话人频谱包络特征xt以及目标说话人标签ct,一同作为鉴别器的输入,训练鉴别器,使鉴别器的损失函数尽可能小。
如图3所示,鉴别器采用二维卷积神经网络,包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1;在每个卷积层后采用Instance norm进行标准化。
鉴别器的损失函数为:
优化目标为:
1.6)将上述得到的目标说话人的频谱包络特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc),将上述得到的语义特征G(xtc)与源说话人标签特征cs一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构源说话人的频谱包络特征xsc。在训练过程中最小化生成器的损失函数,包括生成器的对抗损失、循环一致损失、特征映射损失以及生成器的分类损失。其中,训练循环一致损失是为了使源说话人频谱特征xs在经过生成器G后,所重构的源说话人频谱特征xsc可以和xs尽可能保持一致。训练特征映射损失,是为了保证xs在经过生成器G后说话人标签仍是cs、分类损失指分类器判别生成器所生成的目标说话人频谱xtc属于标签ct的概率损失。
生成器的损失函数为:
优化目标为:
其中,λcls>=0、λcyc>=0和λid>=0是正则化参数,分别表示分类损失、循环一致性损失和特征映射损失的权重。
表示GAN中生成器的对抗损失:
其中,表示生成器生成的概率分布的期望,G(xs,ct)表示生成器生成频谱特征。和鉴别器的损失共同构成GAN中常见的对抗损失,用来判别输入鉴别器的频谱是真实频谱还是生成频谱。在训练过程中尽可能小,生成器不断优化,直至生成能够以假乱真的频谱特征G(xs,ct),使得鉴别器难以判别真假。
为分类器C用来优化生成器的分类损失:
其中,pC(ct|G(xs,ct))表示分类器判别生成目标说话人频谱标签属于ct的概率,
G(xs,ct)表示生成器生成的目标说话人频谱。在训练过程中,尽可能小,使得生成器G生成的频谱G(xs,ct)能够被分类器正确分类为标签ct
Lcyc(G)和Lid(G)借鉴Cycle-GAN模型中生成器的损失,Lcyc(G)为生成器G中循环一致损失:
其中,G(G(xs,ct),cs)为重构的源说话人频谱特征,为重构源说话人频谱和真实源说话人频谱的损失期望。在训练生成器的损失中,Lcyc(G)尽可能小,使生成目标频谱G(xs,ct)、源说话人标签cs再次输入到生成器后,得到的重构源说话人语音频谱尽可能和xs相似。通过训练Lcyc(G),可以有效保证说话人语音的语义特征,在经过生成器的编码以后不被损失。
Lid(G)为生成器G的特征映射损失:
其中,G(xs,cs)为源说话人频谱、说话人标签和x向量,输入到生成器后得到的源说话人频谱特征,为xs和G(xs,cs)的损失期望。训练Lid(G),可以有效保证输入频谱的标签cs在输入生成器后仍保持不变。
1.7)将上述生成的目标说话人频谱包络特征xtc和目标说话人的频谱包络特征xt输入分类器进行训练,最小化分类器的损失函数。
如图4所示,分类器采用二维卷积神经网络C,包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、4;在每个卷积层后采用Instance norm进行标准化。
分类器二维卷积神经网络的损失函数为:
优化目标为:
1.8)重复1.4)、1.5)、1.6)和1.7)步骤,直至达到设置的迭代次数,从而得到训练好的STARGAN-ResNet网络,其中生成器参数φ、鉴别器参数θ、分类器参数ψ为训练好的参数。由于神经网络具体设置不同以及实验设备性能不同,选择的迭代次数也各不相同。本实验中选择迭代次数为10000次。
步骤1.4)、1.5)、和1.7)中所述的Instance norm的数据标准化公式为:
其中,xtijk和ytijk分别为每个Batch中的第t个样本、第i个特征通道的第j行k列元素的标准化前和标准化后的数据,xtilm为每个Batch中的第t个样本、第i个特征通道的第l行m列元素的标准化前的数据,ε的作用是防止出现公式中分母为0的情况,再本例中ε=0.001,也可以取其他大于0的数字,H和W分别表示每个Batch中的第t个样本、第i个通道的空间数据的纵向的维度与横向的维度,μti分别为每个Batch中的第t个样本、第i个特征通道的空间数据的均值和方差。
1.9)使用对数基频log f0的均值和方差建立基音频率转换关系,统计出每个说话人的对数基频的均值和方差,利用对数域线性变换将源说话人对数基频log f0s转换得到目标说话人对数基频log f0t′。
基频转换函数为:
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差。
转换阶段实施步骤为:
2.1)将源说话人语音通过WORLD语音分析/合成模型,提取源说话人的不同语句的频谱包络特征xs′、非周期性特征、基频。其中由于快速傅氏变换(FFT)长度设置为1024,因此得到的频谱包络特征xs′和非周期性特征均为1024/2+1=513维。
2.2)将2.1)提取的源说话人语音的频谱包络特征xs′与目标说话人标签特征ct′作为联合特征(xs′,ct′)输入1.8)训练的STARGAN-ResNet网络,从而重构出目标说话人频谱包络特征xtc′。
2.3)通过1.9)得到的基音频率转换函数,将2.1)中提取出的源说话人基频转换为目标说话人的基频。
2.4)将2.2)中得到的目标说话人频谱包络特征xtc′、2.3)中得到的目标说话人的基频和2.1)提取的非周期性特征通过WORLD语音分析/合成模型合成转换后的说话人语音。

Claims (10)

1.一种基于STARGAN和ResNet的多对多说话人转换方法,其特征在于包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、非周期性特征以及基频特征F0;
(1.3)将源说话人的频谱包络特征xs、目标说话人的频谱包络特征xt、源说话人标签cs以及目标说话人标签ct,输入到STARGAN-ResNet网络进行训练,所述的STARGAN-Resnet网络由生成器G、鉴别器D和分类器C组成,所述的生成器G由编码网络和解码网络构成,在编码网络与解码网络之间搭建三层ResNet;
(1.4)训练过程使生成器的损失函数、鉴别器的损失函数、分类器的损失函数尽量小,直至设置的迭代次数,从而得到训练好的STARGAN-ResNet网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱包络特征xs′、非周期性特征和基频特征F0;
(2.2)将上述源说话人频谱包络特征xs′、目标说话人标签特征ct′输入(1.4)中训练好的STARGAN-ResNet网络,重构出目标说话人频谱包络特征xtc′;
(2.3)通过(1.5)得到的基频转换函数,将(2.1)中提取出的源说话人基频转换为目标说话人的基频特征;
(2.4)将(2.2)中得到的目标说话人频谱包络特征xtc′、(2.3)中得到的目标说话人的基频特征F0和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
2.根据权利要求1所述的基于STARGAN和ResNet的多对多说话人转换方法,其特征在于:步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将源说话人的频谱包络特征xs输入生成器G的编码网络,得到说话人无关的语义特征G(xs);
(2)将上述得到的语义特征G(xs)与目标说话人的标签特征ct一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,从而得到目标说话人的频谱包络特征xtc
(3)将上述得到的目标说话人的频谱包络特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc);
(4)将上述得到的语义特征G(xtc)与源说话人标签特征cs输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构的源说话人的频谱包络特征xsc
(5)将目标说话人的频谱包络特征xtc、目标说话人频谱特征xt,以及目标说话人的标签特征ct一同输入到鉴别器D中进行训练,最小化鉴别器的损失函数;
(6)将目标说话人的频谱包络特征xtc和目标说话人的频谱包络特征xt输入分类器C进行训练,最小化分类器的损失函数;
(7)回到步骤(1)重复上述步骤,直至达到设置的迭代次数,从而得到训练好的STARGAN-ResNet网络。
3.根据权利要求1所述的基于STARGAN和ResNet的多对多说话人转换方法,其特征在于:步骤(2.2)中的输入过程包括以下步骤:
(1)将源说话人的频谱包络特征xs′输入生成器G的编码网络,得到说话人无关的语义特征G(xs)′;
(2)将上述得到的语义特征G(xs)′与目标说话人的标签特征ct′一同输入到生成器G的解码网络,得到目标说话人的频谱包络特征xtc′。
4.根据权利要求1所述的基于STARGAN和ResNet的多对多说话人转换方法,其特征在于:所述的生成器G采用二维卷积神经网络,损失函数为:
其中,λcls>=0、λcyc>=0和λid>=0是正则化参数,分别表示分类损失、循环一致性损失和特征映射损失的权重,Lcyc(G)、Lid(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致损失、特征映射损失;
所述的鉴别器D采用二维卷积神经网络,损失函数为:
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct)表示生成器G生成的目标说话人频谱特征,D(G(xs,ct),ct)表示鉴别器判别生成的频谱特征,表示生成器G生成的概率分布的期望,表示真实概率分布的期望;
所述的分类器采用二维卷积神经网络C,损失函数为:
其中,pC(ct|xt)表示分类器判别目标说话人特征为标签ct的真实频谱的概率。
5.根据权利要求4所述的基于STARGAN和ResNet的多对多说话人转换方法,其特征在于:
其中,表示生成器生成的概率分布的期望,G(xs,ct)表示生成器生成频谱特征;
其中,pC(ct|G(xs,ct))表示分类器判别生成目标说话人频谱标签属于ct的概率,G(xs,ct)表示生成器生成的目标说话人频谱;
其中,G(G(xs,ct),cs)为重构的源说话人频谱特征,为重构源说话人频谱和真实源说话人频谱的损失期望;
其中,G(xs,cs)为源说话人频谱和说话人标签,输入到生成器后得到的源说话人频谱特征,为xs和G(xs,cs)的损失期望。
6.根据权利要求5所述的基于STARGAN和ResNet的多对多说话人转换方法,其特征在于:所述的生成器G的编码网络包括5个卷积层,5个卷积层的过滤器大小分别为3*9、4*8、4*8、3*5、9*5,步长分别为1*1、2*2、2*2、1*1、9*1,过滤器深度分别为32、64、128、64、5;生成器G的解码网络包括5个反卷积层,5个反卷积层的过滤器大小分别为9*5、3*5、4*8、4*8、3*9,步长分别为9*1、1*1、2*2、2*2、1*1,过滤器深度分别为64、128、64、32、1;将编码网络的第二卷积层的输出与解码网络的第三卷积层的输出直接相加,然后输入到解码网络的第四卷积层;将编码网络的第三卷积层的输出与解码网络的第二卷积层的输出直接相加,然后输入到解码网络的第三卷积层;将编码网络的第四卷积层的输出与解码网络的第一卷积层的输出直接相加,然后输入到解码网络的第二卷积层。
7.根据权利要求5所述的基于STARGAN和ResNet的多对多说话人转换方法,其特征在于:所述的鉴别器D包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1;所述的分类器C包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、4。
8.根据权利要求1所述的基于STARGAN和ResNet的多对多说话人转换方法,其特征在于:在生成器G、鉴别器D和分类器C的每层网络间采用Instance norm进行数据标准化。
9.根据权利要求8所述的基于STARGAN和ResNet的多对多说话人转换方法,其特征在于:所述的Instance norm的数据标准化公式为:
其中,xtijk和ytijk分别为每个Batch中的第t个样本、第i个特征通道的第j行k列元素的标准化前和标准化后的数据,xtilm为每个Batch中的第t个样本、第i个特征通道的第l行m列元素的标准化前的数据,ε=0.001,H和W分别表示每个Batch中的第t个样本、第i个通道的空间数据的纵向的维度与横向的维度,μti分别为每个Batch中的第t个样本、第i个特征通道的空间数据的均值和方差。
10.根据权利要求1至9任一项所述的基于STARGAN和ResNet的多对多说话人转换方法,其特征在于:所述的基频转换函数为:
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差,logf0s为源说话人的对数基频,logf0t′为转换后目标说话人的对数基频。
CN201910268602.8A 2019-04-04 2019-04-04 基于STARGAN和ResNet的多对多说话人转换方法 Active CN110060690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910268602.8A CN110060690B (zh) 2019-04-04 2019-04-04 基于STARGAN和ResNet的多对多说话人转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910268602.8A CN110060690B (zh) 2019-04-04 2019-04-04 基于STARGAN和ResNet的多对多说话人转换方法

Publications (2)

Publication Number Publication Date
CN110060690A true CN110060690A (zh) 2019-07-26
CN110060690B CN110060690B (zh) 2023-03-24

Family

ID=67318194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910268602.8A Active CN110060690B (zh) 2019-04-04 2019-04-04 基于STARGAN和ResNet的多对多说话人转换方法

Country Status (1)

Country Link
CN (1) CN110060690B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600046A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于改进的STARGAN和x向量的多对多说话人转换方法
CN110600047A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法
CN110600013A (zh) * 2019-09-12 2019-12-20 苏州思必驰信息科技有限公司 非平行语料声音转换数据增强模型训练方法及装置
CN111247584A (zh) * 2019-12-24 2020-06-05 深圳市优必选科技股份有限公司 语音转换方法、系统、装置及存储介质
CN111243572A (zh) * 2020-01-14 2020-06-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于说话人博弈的多人语音转换方法与系统
CN111414888A (zh) * 2020-03-31 2020-07-14 杭州博雅鸿图视频技术有限公司 低分辨率人脸识别方法、系统、装置及存储介质
CN111429894A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111429893A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于Transitive STARGAN的多对多说话人转换方法
CN111462768A (zh) * 2020-03-12 2020-07-28 南京邮电大学 基于共享训练的多尺度StarGAN的语音转换方法
CN111737983A (zh) * 2020-06-22 2020-10-02 网易(杭州)网络有限公司 文本写作风格处理方法、装置、设备及存储介质
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及系统
CN111833855A (zh) * 2020-03-16 2020-10-27 南京邮电大学 基于DenseNet STARGAN的多对多说话人转换方法
CN112115771A (zh) * 2020-08-05 2020-12-22 暨南大学 一种基于星形生成对抗网络的步态图像合成方法
CN112382297A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN113643687A (zh) * 2021-07-08 2021-11-12 南京邮电大学 融合DSNet与EDSR网络的非平行多对多语音转换方法
CN113744757A (zh) * 2021-09-14 2021-12-03 深圳万兴软件有限公司 一种语音转换方法、系统、计算机设备及存储介质
WO2022079130A1 (en) * 2020-10-15 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio generator and methods for generating an audio signal and training an audio generator

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
US20180062597A1 (en) * 2016-08-24 2018-03-01 Fujitsu Limited Gain adjustment apparatus and gain adjustment method
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法
CN108960086A (zh) * 2018-06-20 2018-12-07 电子科技大学 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法
CN109326283A (zh) * 2018-11-23 2019-02-12 南京邮电大学 非平行文本条件下基于文本编码器的多对多语音转换方法
CN109377978A (zh) * 2018-11-12 2019-02-22 南京邮电大学 非平行文本条件下基于i向量的多对多说话人转换方法
US10249314B1 (en) * 2016-07-21 2019-04-02 Oben, Inc. Voice conversion system and method with variance and spectrum compensation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
US10249314B1 (en) * 2016-07-21 2019-04-02 Oben, Inc. Voice conversion system and method with variance and spectrum compensation
US20180062597A1 (en) * 2016-08-24 2018-03-01 Fujitsu Limited Gain adjustment apparatus and gain adjustment method
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法
CN108960086A (zh) * 2018-06-20 2018-12-07 电子科技大学 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法
CN109377978A (zh) * 2018-11-12 2019-02-22 南京邮电大学 非平行文本条件下基于i向量的多对多说话人转换方法
CN109326283A (zh) * 2018-11-23 2019-02-12 南京邮电大学 非平行文本条件下基于文本编码器的多对多语音转换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BERRAK SISMAN: "ADAPTIVE WAVENET VOCODER FOR RESIDUAL COMPENSATION", 《2018 IEEE SPOKEN LANGUAGE TEACHNOLOGY WORKSHOP》 *
HIROKAZU KAMEOKA: "STARGAN-VC: NON-PARALLEL MANY-TO-MANY VOICE CONVERSION", 《2018 IEEE SPOKEN LANGUAGE TEACHNOLOGY WORKSHOP》 *
YANPING LI: "Many-to-Many Voice Conversion based on", 《APSIPA ANNUAL SUMMIT AND CONFERENCE 2018》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600013A (zh) * 2019-09-12 2019-12-20 苏州思必驰信息科技有限公司 非平行语料声音转换数据增强模型训练方法及装置
CN110600046A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于改进的STARGAN和x向量的多对多说话人转换方法
CN110600047A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法
CN111247584A (zh) * 2019-12-24 2020-06-05 深圳市优必选科技股份有限公司 语音转换方法、系统、装置及存储介质
CN111247584B (zh) * 2019-12-24 2023-05-23 深圳市优必选科技股份有限公司 语音转换方法、系统、装置及存储介质
CN111243572A (zh) * 2020-01-14 2020-06-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于说话人博弈的多人语音转换方法与系统
CN111243572B (zh) * 2020-01-14 2022-09-06 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于说话人博弈的多人语音转换方法与系统
CN111429894A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111429893A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于Transitive STARGAN的多对多说话人转换方法
CN111462768A (zh) * 2020-03-12 2020-07-28 南京邮电大学 基于共享训练的多尺度StarGAN的语音转换方法
CN111833855A (zh) * 2020-03-16 2020-10-27 南京邮电大学 基于DenseNet STARGAN的多对多说话人转换方法
CN111833855B (zh) * 2020-03-16 2024-02-23 南京邮电大学 基于DenseNet STARGAN的多对多说话人转换方法
CN111414888A (zh) * 2020-03-31 2020-07-14 杭州博雅鸿图视频技术有限公司 低分辨率人脸识别方法、系统、装置及存储介质
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及系统
CN111816156B (zh) * 2020-06-02 2023-07-21 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及系统
CN111737983A (zh) * 2020-06-22 2020-10-02 网易(杭州)网络有限公司 文本写作风格处理方法、装置、设备及存储介质
CN111737983B (zh) * 2020-06-22 2023-07-25 网易(杭州)网络有限公司 文本写作风格处理方法、装置、设备及存储介质
CN112115771A (zh) * 2020-08-05 2020-12-22 暨南大学 一种基于星形生成对抗网络的步态图像合成方法
CN112115771B (zh) * 2020-08-05 2022-04-01 暨南大学 一种基于星形生成对抗网络的步态图像合成方法
WO2022079129A1 (en) * 2020-10-15 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio generator and methods for generating an audio signal and training an audio generator
WO2022078634A1 (en) * 2020-10-15 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio generator and methods for generating an audio signal and training an audio generator
WO2022078651A1 (en) * 2020-10-15 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio generator and methods for generating an audio signal and training an audio generator
WO2022079130A1 (en) * 2020-10-15 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio generator and methods for generating an audio signal and training an audio generator
CN112382297A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN113643687B (zh) * 2021-07-08 2023-07-18 南京邮电大学 融合DSNet与EDSR网络的非平行多对多语音转换方法
CN113643687A (zh) * 2021-07-08 2021-11-12 南京邮电大学 融合DSNet与EDSR网络的非平行多对多语音转换方法
CN113744757A (zh) * 2021-09-14 2021-12-03 深圳万兴软件有限公司 一种语音转换方法、系统、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110060690B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN110060690A (zh) 基于STARGAN和ResNet的多对多说话人转换方法
CN109326283B (zh) 非平行文本条件下基于文本编码器的多对多语音转换方法
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN109377978B (zh) 非平行文本条件下基于i向量的多对多说话人转换方法
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN110060701B (zh) 基于vawgan-ac的多对多语音转换方法
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN108777140A (zh) 一种非平行语料训练下基于vae的语音转换方法
CN110060657A (zh) 基于sn的多对多说话人转换方法
CN110136686A (zh) 基于STARGAN与i向量的多对多说话人转换方法
CN111462768B (zh) 基于共享训练的多尺度StarGAN的语音转换方法
CN110060691B (zh) 基于i向量和VARSGAN的多对多语音转换方法
CN109584893A (zh) 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
Zhao et al. Using phonetic posteriorgram based frame pairing for segmental accent conversion
CN108109615A (zh) 一种基于dnn的蒙古语声学模型的构造和使用方法
Champion et al. Speaker information modification in the VoicePrivacy 2020 toolchain
CN111951781A (zh) 一种基于图到序列的中文韵律边界预测的方法
Wu et al. Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations
Matsuura et al. Generative adversarial training data adaptation for very low-resource automatic speech recognition
Shah et al. Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing
Azizah et al. Transfer learning, style control, and speaker reconstruction loss for zero-shot multilingual multi-speaker text-to-speech on low-resource languages
CN110600046A (zh) 基于改进的STARGAN和x向量的多对多说话人转换方法
Wu et al. Feature based adaptation for speaking style synthesis
Nazir et al. Deep learning end to end speech synthesis: A review
Daouad et al. An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant