CN111462768A - 基于共享训练的多尺度StarGAN的语音转换方法 - Google Patents

基于共享训练的多尺度StarGAN的语音转换方法 Download PDF

Info

Publication number
CN111462768A
CN111462768A CN202010168942.6A CN202010168942A CN111462768A CN 111462768 A CN111462768 A CN 111462768A CN 202010168942 A CN202010168942 A CN 202010168942A CN 111462768 A CN111462768 A CN 111462768A
Authority
CN
China
Prior art keywords
speaker
discriminator
classifier
share
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010168942.6A
Other languages
English (en)
Other versions
CN111462768B (zh
Inventor
李燕萍
沙淮
徐伶俐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010168942.6A priority Critical patent/CN111462768B/zh
Publication of CN111462768A publication Critical patent/CN111462768A/zh
Application granted granted Critical
Publication of CN111462768B publication Critical patent/CN111462768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于共享训练的多尺度StarGAN的语音转换方法,使用多尺度StarGAN结构,在不同级别上来表示多尺度特征并且增加了每层网络的感受野范围,同时使用残差连接,缓解梯度消失的问题,使得网络能够更深层次地传播,显著地提升了转换后的语音质量,进一步使用Share‑Learning训练鉴别器和分类器的共享模块Share‑Block,不仅能够减少模型参数,而且共享模块的参数可以同时训练到,能够加快鉴别器和分类器训练过程,提升鉴别器和分类器的性能,实现了一种高质量的语音转换方法,在跨语种语音转换、电影配音、语音翻译和医疗辅助等领域有很好的应用前景。

Description

基于共享训练的多尺度StarGAN的语音转换方法
技术领域
本发明涉及一种语音转换方法,特别是涉及一种基于共享训练的多尺度StarGAN的语音转换方法
背景技术
语音转换是语音信号处理领域的研究分支,是在语音分析、识别和合成的研究基础上发展与延伸的。语音转换的目标是改变源说话人的语音个性特征,使之具有目标说话人的语音个性特征,也就是使一个人说的语音经过转换后听起来像是另一个人说的语音,同时保留语义。
非平行文本下的语音转换指的是源说话人和目标说话人的语音内容,语音时长不相同。现有的非平行文本条件下的语音转换方法有基于条件变分自编码器(ConditionalVariational Auto-Encoder,C-VAE)的方法、基于循环一致对抗网络(Cycle-ConsistentAdversarial Networks,Cycle-GAN)的方法等。基于C-VAE模型的语音转换方法,直接利用说话人的身份标签建立语音转换系统,其中编码器对语音实现语义和个性信息的分离,解码器通过语义和说话人身份标签来实现语音的重构,从而可以解除对平行文本的依赖。但是由于C-VAE基于理想假设,认为观察到的数据通常遵循高斯分布,导致解码器的输出语音过度平滑,转换后的语音质量不高。基于Cycle-GAN模型的语音转换方法利用对抗性损失和循环一致损失,同时学习声学特征的正映射和逆映射,可以有效解决过平滑问题,改善转换语音质量,同时引入鉴别器通过生成器和鉴别器的对抗学习,可以显著提高转换语音质量,但是Cycle-GAN只能实现一对一的语音转换。
基于星型生成对抗网络(Star Generative Adversarial Network,StarGAN)模型的语音转换方法同时具有C-VAE和Cycle-GAN的优点,由于该方法的生成器具有编解码结构,可以同时学习多对多映射,生成器输出的属性由说话人身份标签控制,因此可以实现非平行下多对多的语音转换,同时引入分类器,提高转换语音的相似度。在实际应用中,经编码器编码的语义特征全部是在语义尺度上表示的,每层网络的感受野是相同,不能侧重提取如词语,音素等不同尺度级别上的特征,同时随着网络的加深,梯度会消失,使得网络难以训练。另一方面,由于训练语料有限,而StarGAN的模块参数多、易过拟合,泛化能力差,所以在少量语料中的转换性能十分有限。除此以外,分别训练鉴别器和分类器时,模型的关注点可能侧重在单个任务上,忽略了可能多个任务共有的能够帮助优化度量指标的其它信息,因此转换的语音存在相似度虽高,音质较差的缺点。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于共享训练的多尺度StarGAN的语音转换方法,从三个方面解决了基于基准StarGAN的多对多说话人转换方法的不足,一是基准方法仅提取了说话人笼统的语义信息,而忽视了不同层次语义特征和其他特征的提取,二是基准方法参数多、易过拟合,泛化能力差,分别训练鉴别器和分类器拆分了两个任务间的联系,三是传统的Relu激活函数负值为0,容易造成神经元的死亡。本发明通过提取语音的不同级别的多尺度特征,实现将源说话人的语音特征迁移到目标说话人域中,并使用Share-Learning(即共享训练)训练鉴别器和分类器的共享模块Share-Block,同时使用Mish激活函数,提高转换后语音的音质和细腻感。
技术方案:本发明所述的基于共享训练的多尺度StarGAN的语音转换方法,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱特征x、基频特征logf0
(1.3)将源说话人的频谱特征xs、源说话人标签cs和目标说话人标签ct,输入到Multi-Scale StarGAN网络进行训练,所述的Multi-Scale StarGAN网络由生成器G、鉴别器D和分类器C组成,所述的生成器G由预编码网络、Multi-Scale模块和解码网络构成,鉴别器D和分类器C共享Share-Block,经Share-Block编码后,再进入两个下层网络分别实现鉴别器D和分类器C的功能,所述Share-Block为鉴别器D和分类器C的共享模块;
(1.4)训练过程先训练分类器C和Share-Block,后训练鉴别器D和Share-Block,最后训练生成器G,使生成器G的损失函数、鉴别器D的损失函数、分类器C的损失函数尽量小,直至设置的迭代次数,得到训练好的基于Share-Learning的Multi-ScaleStarGAN网络;
(1.5)构建从源说话人的语音基频logf0s到目标说话人的语音基频logf0t的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱特征xs′、非周期性特征和基频logf0s′;
(2.2)将上述源说话人频谱特征xs′、目标说话人标签特征ct′输入(1.4)中训练好的基于Share-Learning的Multi-Scale StarGAN网络,重构出目标说话人频谱特征xtc′;
(2.3)通过(1.5)得到的基频转换函数,将(2.1)中提取出的源说话人基频logf0s′转换为目标说话人的基频log f0t′;
(2.4)将(2.2)中得到的目标说话人频谱特征xtc′、(2.3)中得到的目标说话人的基频logf0t′和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
进一步的,步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将源说话人的频谱特征xs输入共享Share-Block的分类器C和鉴别器D,得到分类器C的真实特征分类损失函数和鉴别器D真实特征鉴别损失函数,最小化真实特征分类损失函数,更新Share-Block和分类器C的参数;
(2)将源说话人的频谱特征xs与目标说话人的标签特征ct共同输入生成器G的预编码网络,得到目标说话人域的全局特征G(xt);
(3)将得到目标说话人域的全局特征G(xt)输入Multi-Scale模块,得到了多通道层次化编码的多尺度特征GM(xt);
(4)将上述得到的多尺度特征GM(xt)输入到生成器G的解码网络,从而得到生成的目标说话人的频谱特征xtc
(5)将源说话人的频谱特征xs与源说话人的标签特征cs共同输入生成器G,得到重新特征映射的源说话人的频谱特征xss,从而得到生成器特征映射损失;
(6)将生成的目标说话人的频谱特征xtc输入Share-Block后经鉴别器D,得到鉴别器D生成特征鉴别损失函数,加上步骤(1)中的鉴别器D真实特征鉴别损失函数,最小化上述损失函数,更新Share-Block和鉴别器D的参数;
(7)将步骤(4)中得到的目标说话人的频谱特征xtc与源说话人标签特征cs,再次输入到生成器G的预编码网络,得到源说话人域的全局特征G(xs);
(8)将得到源说话人域的全局特征G(xs)输入Multi-Scale模块,得到了多通道层次化编码的多尺度特征GM(xs);
(9)将上述得到的多尺度特征GM(xs)输入到生成器G的解码网络,得到重构源说话人的频谱特征xsc,从而得到源说话人的频谱特征xs和重构源说话人的频谱特征xsc的循环损失;
(10)将步骤(4)中目标说话人的频谱特征xtc输入鉴别器D和分类器C,得到生成器G的对抗损失函数和分类器C的生成特征分类损失函数,最小化上述两个损失函数、步骤(5)中得到的特征映射损失和步骤(9)中得到的生成器的循环损失函数,固定Share-Block、分类器C和鉴别器D的参数,只更新生成器G的参数;
(11)回到步骤(1)重复上述步骤,直至达到迭代次数,从而得到训练好的基于Share-Learning的Multi-Scale StarGAN网络。
进一步的,步骤(3)和步骤(4)具体为,将目标说话人域的全局特征G(xt)分为s个特征图子集,每个特征图子集表示了一个尺度的特征,从不同尺度的特征图子集感知信息,并在Multi-Scale的输入输出使用残差连接,构建层次化的连接实现,将s个特征图子集拼接后得到经层次化的连接的多尺度特征GM(xt),输入生成器的解码器,从而得到目标说话人的频谱特征xtc
步骤(8)和步骤(9)具体为,将源说话人域的全局特征G(xs)分为s个特征图子集,每个特征图子集表示了一个尺度的特征,从不同尺度的特征图子集感知信息,并在Multi-Scale的输入输出使用残差连接,构建层次化的连接实现,将s个特征图子集拼接后得到经层次化的连接的多尺度特征GM(xs),输入生成器的解码器,得到重构源说话人的频谱特征xsc
进一步的,所述的鉴别器D和分类器C共享Share-Block,最后一层分别实现鉴别器D和分类器C的功能,鉴别器D和分类器C损失函数分别如下,
鉴别器D损失函数为:
Figure BDA0002408461080000041
其中,
Figure BDA0002408461080000042
表示真实特征鉴别损失函数,
Figure BDA0002408461080000043
表示生成特征鉴别损失函数;
Figure BDA0002408461080000051
其中,D(xs)表示鉴别器D判别真实频谱特征,
Figure BDA0002408461080000052
表示真实概率分布的期望;
Figure BDA0002408461080000053
其中,G(xs,ct)表示生成器G生成的目标说话人频谱特征,
Figure BDA0002408461080000054
表示生成器G生成的概率分布的期望;
分类器C损失函数为:
Figure BDA0002408461080000055
其中,λcls>=0是正则化参数,表示分类损失的权重。
Figure BDA0002408461080000056
表示真实特征分类损失函数,
Figure BDA0002408461080000057
表示生成特征分类损失函数;
Figure BDA0002408461080000058
其中,pC(cs|xs)表示分类器判别源说话人频谱标签属于ct的概率,xs表示源说话人频谱;
Figure BDA0002408461080000059
其中,pC(ct|G(xs,ct))表示分类器判别生成目标说话人频谱标签属于ct的概率,G(xs,ct)表示生成器生成的目标说话人频谱。
进一步的,所述的生成器G的预编码网络结构包括3个卷积层,3个卷积层的过滤器大小分别为3×9、4×8、4×8,步长分别为1×1、2×2、2×2,过滤器深度分别为64、128、256;生成器G的解码网络包括3个反卷积层,3个反卷积层的过滤器大小分别为4×4、4×4、7×7,步长分别为2×2、2×2、1×1,过滤器深度分别为128、64、1;预编码网络和解码网络的每一卷积层后使用实例正则化和Relu激活函数。
进一步的,所述的鉴别器D和分类器C,共享Share-Block模块,包括6个卷积层,6个卷积层的过滤器大小均为4×4,步长均为2×2,过滤器深度分别为64、128、256、512、1024、2048;Share-Block的每一卷积层后使用Mish激活函数;经Share-Block后下一层鉴别器D的卷积层的过滤器大小为1×8,步长为1×1,深度为1,后接一个Sigmoid函数;经Share-Block后下一层分类器C的卷积层过滤器大小为1×8,步长为1×1,深度为4,后接一个Softmax函数。
进一步的,所述Mish激活函数为,
Figure BDA00024084610800000510
其中,xt表示第t个神经元进入激活函数前的输入,xta表示该神经元经Mish激活函数后的输出。
本发明所述的计算机存储介质,其上存储有计算机程序,所述计算机程序在被计算机处理器执行时实现上述任一项所述的方法。
有益效果:本发明能够使用Multi-Scale结构,进行预编码后,在不同级别上拆分特征,每个特征的尺度不同,能够更有针对性地学习某一级别某一层次上的特征,并增加了每层网络的感受野范围,同时在Multi-Scale结构上使用残差连接,缓解梯度消失的问题,加速网络的训练,使得网络能够更深层次地传播,实现将语音特征迁移到目标说话人域,显著地提升了转换后的语音质量。进一步使用Share-Learning训练鉴别器和分类器的共享模块Share-Block,而不是训练独立的鉴别器和分类器。一方面来说,协同训练鉴别器和分类器时,共享模块的参数可以同时训练到,能够加快鉴别器和分类器训练过程,充分提取语音内在的特征,提升鉴别器和分类器的性能,使得转换后语音的个性相似度和语音质量得到提升。另一方面,能够减少模型参数,减少过拟合。同时选用Mish激活函数,对负值的轻微允许,能够产生更好的梯度流,平滑的激活函数允许更好的信息深入Multi-Scale网络,使得网络具有更好的泛化性能。本发明实现了一种高质量的语音转换方法,在跨语种语音转换、电影配音、语音翻译和医疗辅助等领域有很好的应用前景。
附图说明
图1是本发明提出方法的训练和转换的流程图;
图2是本发明中基于Share-Learning的Multi-Scale StarGAN网络结构图;
图3是本发明中生成器G的结构图;
图4是本发明中Share-Block、鉴别器D和分类器C的结构图;
图5是本发明中Multi-Scale模块结构图;
图6是本发明中Mish激活函数图;
图7是异性转换情形下基准方法与本发明方法的时域波形对比图;
图8是同性转换情形下基准方法与本发明方法的时域波形对比图;
图9是异性转换情形下基准方法与本发明方法的语谱对比图;
图10是同性转换情形下基准方法与本发明方法的语谱对比图;
图11是基准方法与本发明方法的生成器损失函数的收敛速度对比图。
具体实施方式
如图1所示,本发明所述的方法分为两个部分:训练部分用于得到语音转换所需的参数和转换函数,而转换部分用于实现源说话人语音转换为目标说话人语音。
训练阶段实施步骤为:
1.1)获取非平行文本的训练语料,训练语料是多名说话人的语料,包含源说话人和目标说话人。训练语料取自VCC2018语音语料库。该语料库的训练集中有6个男性和6个女性说话人,每个说话人有81句语料。选取4个源说话人(两男两女)和4个目标说话人(两男两女),4个源说话人的语音内容相同,4个目标说话人与4个源说话人的语音内容不同,因此该方法是基于非平行文本的。
1.2)训练语料通过WORLD语音分析/合成模型提取出各说话人语句的频谱包络特征、非周期性特征和对数基频logf0,得到的频谱包络特征和非周期性特征均为513维,再从频谱包络特征中提取36维的梅尔倒谱系数(MCEP)特征x,一次训练时取8个语音块,每一块的帧数为256。因此,训练语料的维度为8*36*256。
1.3)本实施例中的Multi-Scale StarGAN即为多尺度StarGAN,如图2所示,基于Share-Learning的Multi-Scale StarGAN网络模型由四部分组成:一个产生目标说话人频谱的生成器G,一个鉴别器D和分类器C共享的Share-Block,一个判断输入是真实的频谱还是生成的频谱的鉴别器D,以及一个判别频谱的标签是否属于该说话人的分类器C。Share-Block即共享模块,在分别训练鉴别器和分类器时,由于协同训练鉴别器和分类器,共享模块的参数可以同时训练到,通过共享模块能够表征语音的深层次特征,在该特征之上再分别实现鉴别器和分类器的功能。
如图3所示,所述的生成器G由预编码网络,Multi-Scale模块和解码网络构成。
基于Share-Learning的Multi-Scale StarGAN网络的目标函数为:
Figure BDA0002408461080000071
其中,LG(G)为生成器的损失函数,
Figure BDA0002408461080000072
为鉴别器的损失函数,
Figure BDA0002408461080000073
为分类器的损失函数。
所述的生成器G的预编码网络结构包括3个卷积层,3个卷积层的过滤器大小分别为3×9、4×8、4×8,步长分别为1×1、2×2、2×2,过滤器深度分别为64、128、256;生成器G的解码网络包括3个反卷积层,3个反卷积层的过滤器大小分别为4×4、4×4、7×7,步长分别为2×2、2×2、1×1,过滤器深度分别为128、64、1;预编码网络和解码网络的每一卷积层后使用实例正则化和Relu激活函数。
生成器的损失函数:
Figure BDA0002408461080000081
其中,λcyc>=0和λid>=0是正则化参数,分别表示循环一致性损失和特征映射损失的权重。
Figure BDA0002408461080000082
Lcyc(G)、Lid(G)分别表示生成器的对抗损失、循环一致损失、特征映射损失。
Figure BDA0002408461080000083
其中,
Figure BDA0002408461080000084
表示生成器生成的概率分布的期望,G(xs,ct)表示生成器生成频谱特征;
Figure BDA0002408461080000085
其中,G(G(xs,ct),cs)为重构的源说话人频谱特征,
Figure BDA0002408461080000086
为重构源说话人频谱和真实源说话人频谱的损失期望;
Figure BDA0002408461080000087
其中,G(xs,cs)为源说话人频谱和说话人标签输入到生成器后得到的源说话人频谱特征,
Figure BDA0002408461080000088
为xs和G(xs,cs)的损失期望。
鉴别器的损失函数:
Figure BDA0002408461080000089
其中,
Figure BDA00024084610800000810
表示真实特征鉴别损失函数,
Figure BDA00024084610800000811
表示生成特征鉴别损失函数;
Figure BDA00024084610800000812
其中,D(xs)表示鉴别器D判别真实频谱特征,
Figure BDA00024084610800000813
表示真实概率分布的期望;
Figure BDA00024084610800000814
其中,G(xs,ct)表示生成器G生成的目标说话人频谱特征,
Figure BDA00024084610800000815
表示生成器G生成的概率分布的期望。
分类器的损失函数:
Figure BDA00024084610800000816
其中,λcls>=0是正则化参数,表示分类损失的权重。
Figure BDA00024084610800000817
表示真实特征分类损失函数,
Figure BDA00024084610800000818
表示生成特征分类损失函数;
Figure BDA00024084610800000819
其中,pC(cs|xs)表示分类器判别源说话人频谱标签属于cs的概率,xs表示源说话人频谱;
Figure BDA0002408461080000091
其中,pC(ct|G(xs,ct))表示分类器判别生成目标说话人频谱标签属于ct的概率,G(xs,ct)表示生成器生成的目标说话人频谱。
1.4)将源说话人的频谱特征xs输入共享Share-Block的分类器C和鉴别器D,得到分类器C的真实特征分类损失函数,和鉴别器D真实特征鉴别损失函数,真实特征分类损失函数是指分类器正确判别真实特征频谱特征xs属于标签cs的概率损失。最小化真实特征分类损失函数,更新Share-Block和分类器C的参数。Share-Block、鉴别器D和分类器C的结构如图4所示。
鉴别器D和分类器C,共享Share-Block模块,包括6个卷积层,6个卷积层的过滤器大小均为4×4,步长均为2×2,过滤器深度分别为64、128、256、512、1024、2048;Share-Block的每一卷积层后使用Mish激活函数;经Share-Block后下一层鉴别器D的卷积层的过滤器大小为1×8,步长为1×1,深度为1,后接一个Sigmoid函数;经Share-Block后下一层分类器C的卷积层过滤器大小为1×8,步长为1×1,深度为4,后接一个Softmax函数。
如图6所示,所述Mish激活函数为,
Figure BDA0002408461080000092
其中,xt表示第t个神经元进入激活函数前的输入,xta表示该神经元经Mish激活函数后的输出。
真实特征分类损失函数为:
Figure BDA0002408461080000093
真实特征鉴别损失函数为:
Figure BDA0002408461080000094
优化目标为:
Figure BDA0002408461080000095
1.5)将1.2)中提取的源说话人频谱特征xs与目标说话人标签特征ct经生成器预编码,得到目标说话人域的全局特征G(xt),将源说话人域的全局特征G(xt)分为s个特征图子集,每个特征图子集表示了一个尺度的特征,从不同尺度的特征图子集感知信息,并在Multi-Scale的输入输出使用残差连接,构建层次化的连接实现。将s个特征图子集拼接后得到经层次化的连接的多尺度特征GM(xt),输入生成器的解码器,从而得到目标说话人的频谱特征xtc
上述将目标说话人域的全局特征G(xt)经1×1卷积后的特征图均分为s个特征图子集,每个特征图子集表示了一个尺度的特征。每个特征图子集的大小相同,但是通道数是输入特征图的1/s。对每一个特征图子集xi,有一个对应的3x3卷积Ki,假设Ki的输出是yi。接下来每个特征图子集xi会加上Ki-1的输出,然后一起输入进Ki。yi可以用如下公式表示:
Figure BDA0002408461080000101
Multi-Scale模块包括6个Multi-Scale残差块,每个残差块进行ResNet残差连接。Multi-Scale模块结构如图5所示。
同理将1.2)中提取的源说话人频谱特征xs与源说话人标签特征cs输入生成器,得到重新特征映射的源说话人的频谱特征xss,从而得到生成器特征映射损失。
生成器特征映射损失函数为:
Figure BDA0002408461080000102
1.6)将1.5)中得到的目标说话人的频谱特征xtc输入鉴别器D,得到生成特征鉴别损失函数。生成特征鉴别损失函数和1.4)中得到的真实特征鉴别损失函数能够使得鉴别器正确区分真实和虚假的频谱特征。最小化上述损失函数,更新Share-Block和鉴别器D的参数。
真实特征鉴别器损失函数为:
Figure BDA0002408461080000103
生成特征鉴别器损失函数为:
Figure BDA0002408461080000104
优化目标为:
Figure BDA0002408461080000105
1.7)将上述得到的目标说话人的频谱特征xtc与源说话人标签特征,再次输入到含有Multi-Scale模块的生成器G的预编码网络,得到源说话人域的全局特征G(xs),源说话人域的全局特征G(xs)分为s个特征图子集,每个特征图子集表示了一个尺度的特征,从不同尺度的特征图子集感知信息,并在Multi-Scale的输入输出使用残差连接,构建层次化的连接实现。将s个特征图子集拼接后得到经层次化的连接的多尺度特征GM(xs),输入生成器的解码器,得到重构源说话人的频谱特征xsc,从而得到源说话人的频谱特征xs和重构源说话人的频谱特征xsc的循环损失,循环一致损失是为了使源说话人频谱特征xs在经过生成器G后,所重构的源说话人频谱特征xsc可以和xs尽可能保持一致。
生成器的循环损失函数为:
Figure BDA0002408461080000111
1.8)将1.5)中得到的生成的目标说话人的频谱特征xtc输入鉴别器D和分类器C,得到生成器G的对抗损失函数和分类器C的生成特征分类损失函数,最小化上述两个损失函数,1.5)中得到的生成器的特征映射损失和1.7)中得到的生成器的循环损失函数,固定Share-Block,分类器C和鉴别器D的参数,只更新生成器G的参数;
其中,最小化对抗损失函数是为了使生成的目标说话人的频谱特征xtc能够欺骗鉴别器D,使得xtc更像真实的目标说话人的频谱特征。最小化特征映射损失,是为了保证xs经过目标说话人是自己的生成器G编码后依旧是xs。生成特征分类损失是指分类器正确判别生成器所生成的目标说话人频谱xtc属于目标说话人标签ct的概率损失。
生成器的损失函数为:
Figure BDA0002408461080000112
生成器的循环损失函数为:
Figure BDA0002408461080000113
生成器特征映射损失函数为:
Figure BDA0002408461080000114
生成特征分类器损失函数为:
Figure BDA0002408461080000115
优化目标为:
Figure BDA0002408461080000121
1.9)由1.4)-1.8)可得优化目标为:
Figure BDA0002408461080000122
Figure BDA0002408461080000123
鉴别器的损失函数
Figure BDA0002408461080000124
和生成器的对抗损失
Figure BDA0002408461080000125
共同构成GAN中常见的对抗损失,最小化鉴别器损失函数
Figure BDA0002408461080000126
用来正确判别输入鉴别器的频谱是真实频谱还是生成频谱。相对的在训练过程中生成器的对抗损失函数
Figure BDA0002408461080000127
尽可能小,生成器不断优化,直至生成能够以假乱真的频谱特征G(xs,ct),使得鉴别器难以判别真假。在训练过程中,分类器的损失函数
Figure BDA0002408461080000128
尽可能小,使得生成器能够正确分类属于源和目标说话人的频谱。
在训练生成器的损失中,生成器的循环损失函数Lcyc(G)尽可能小,使生成目标频谱G(xs,ct)和源说话人标签cs再次输入到生成器后,得到的重构源说话人语音频谱尽可能和xs相似。通过最小化生成器的循环损失函数Lcyc(G),可以有效保证说话人语音的语义特征,在经过生成器的编码以后不被损失。
生成器特征映射损失Lid(G)可以有效保证源说话人频谱xs和标签cs在输入生成器后,源说话人频谱xs仍保持不变。
1.10)重复1.4)、1.5)和1.6),直至达到迭代次数,从而得到训练好的StarGAN网络,其中生成器参数φ、鉴别器参数θ、分类器参数ψ为训练好的参数。由于神经网络具体设置不同以及实验设备性能不同,选择的迭代次数也各不相同。本实验中选择迭代次数为300000次。
1.11)使用对数基频logf0的均值和方差建立基音频率转换关系,统计出每个说话人的对数基频的均值和方差,利用对数域线性变换将源说话人对数基频logf0s转换得到目标说话人对数基频logf0t
基频转换函数为:
Figure BDA0002408461080000129
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差。
转换阶段实施步骤为:
2.1)将源说话人语音通过WORLD语音分析/合成模型提取出各说话人语句的频谱包络特征、非周期性特征和对数基频logf0,得到的频谱包络特征和非周期性特征均为513维,再从频谱包络特征中提取36维的梅尔倒谱系数(MCEP)特征xs′。
2.2)将2.1)提取的源说话人语音的频谱特征xs′与目标说话人标签特征ct′输入1.7)训练的基于Share-Learning的Multi-Scale StarGAN网络,从而重构出目标说话人频谱特征xtc′。
2.3)通过1.8)得到的基音频率转换函数,将2.1)中提取出的源说话人基频logf0s′转换为目标说话人的基频logf0t′。
2.4)将2.2)中得到的目标说话人频谱特征xtc′、2.3)中得到的目标说话人的基频logf0t′和2.1)提取的非周期性特征通过WORLD语音分析/合成模型合成转换后的说话人语音。
本发明的基于共享训练的多尺度StarGAN的语音转换方法模型与基准StarGAN模型所合成的语音效果进行了三个方面的对比:同性和异性转换后语音的时域波形的对比、语谱图对比和生成器损失函数收敛速度的对比。
(1)如图7和图8所示,由时域波形图分析可知,基于多尺度StarGAN共享训练的语音转换方法模型转换后合成语音的时域波形相比基准StarGAN模型噪音更少,波形更加平稳,更加接近目标语音的波形。
(2)如图9和图10所示,由语谱图分析可知,基于共享训练的多尺度StarGAN的语音转换方法模型转换后合成语音的语谱图相比基准StarGAN模型,更加接近目标语音的语谱图,具有更清晰的细节、更完整的基音和谐波信息。
(3)如图11所示,由生成器损失函数分析可知,基于共享训练的多尺度StarGAN的语音转换方法模型的损失函数相比基准StarGAN模型,收敛速度更快更平稳,并且损失值更低。
通过上述对比分析,进一步说明该模型具有更强的建模能力,能够提升模型对语音频谱多尺度细节的深层次挖掘能力,有效地改善了转换后语音的音质和个性相似度。
本发明实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实例不限制于任何特定的硬件和软件结合。
相应的,本发明的实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述基于共享训练的多尺度StarGAN的语音转换方法。例如,该计算机存储介质为计算机可读存储介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (8)

1.一种基于共享训练的多尺度StarGAN的语音转换方法,其特征在于:包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱特征x、基频特征log f0
(1.3)将源说话人的频谱特征xs、源说话人标签cs和目标说话人标签ct,输入到Multi-Scale StarGAN网络进行训练,所述的Multi-Scale StarGAN网络由生成器G、鉴别器D和分类器C组成,所述的生成器G由预编码网络、Multi-Scale模块和解码网络构成,鉴别器D和分类器C共享Share-Block,经Share-Block编码后,再进入两个下层网络分别实现鉴别器D和分类器C的功能,所述Share-Block为鉴别器D和分类器C的共享模块;
(1.4)训练过程先训练分类器C和Share-Block,后训练鉴别器D和Share-Block,最后训练生成器G,使生成器G的损失函数、鉴别器D的损失函数、分类器C的损失函数尽量小,直至设置的迭代次数,得到训练好的基于Share-Learning的Multi-Scale StarGAN网络;
(1.5)构建从源说话人的语音基频log f0s到目标说话人的语音基频log f0t的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱特征xs′、非周期性特征和基频log f0s′;
(2.2)将上述源说话人频谱特征xs′、目标说话人标签特征ct′输入(1.4)中训练好的基于Share-Learning的Multi-Scale StarGAN网络,重构出目标说话人频谱特征xtc′;
(2.3)通过(1.5)得到的基频转换函数,将(2.1)中提取出的源说话人基频log f0s′转换为目标说话人的基频log f0t′;
(2.4)将(2.2)中得到的目标说话人频谱特征xtc′、(2.3)中得到的目标说话人的基频log f0t′和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
2.根据权利要求1所述的基于共享训练的多尺度StarGAN的语音转换方法,其特征在于:步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将源说话人的频谱特征xs输入共享Share-Block的分类器C和鉴别器D,得到分类器C的真实特征分类损失函数和鉴别器D真实特征鉴别损失函数,最小化真实特征分类损失函数,更新Share-Block和分类器C的参数;
(2)将源说话人的频谱特征xs与目标说话人的标签特征ct共同输入生成器G的预编码网络,得到目标说话人域的全局特征G(xt);
(3)将得到目标说话人域的全局特征G(xt)输入Multi-Scale模块,得到了多通道层次化编码的多尺度特征GM(xt);
(4)将上述得到的多尺度特征GM(xt)输入到生成器G的解码网络,从而得到生成的目标说话人的频谱特征xtc
(5)将源说话人的频谱特征xs与源说话人的标签特征cs共同输入生成器G,得到重新特征映射的源说话人的频谱特征xss,从而得到生成器特征映射损失;
(6)将生成的目标说话人的频谱特征xtc输入Share-Block后经鉴别器D,得到鉴别器D生成特征鉴别损失函数,加上步骤(1)中的鉴别器D真实特征鉴别损失函数,最小化上述损失函数,更新Share-Block和鉴别器D的参数;
(7)将步骤(4)中得到的目标说话人的频谱特征xtc与源说话人标签特征cs,再次输入到生成器G的预编码网络,得到源说话人域的全局特征G(xs);
(8)将得到源说话人域的全局特征G(xs)输入Multi-Scale模块,得到了多通道层次化编码的多尺度特征GM(xs);
(9)将上述得到的多尺度特征GM(xs)输入到生成器G的解码网络,得到重构源说话人的频谱特征xsc,从而得到源说话人的频谱特征xs和重构源说话人的频谱特征xsc的循环损失;
(10)将步骤(4)中目标说话人的频谱特征xtc输入鉴别器D和分类器C,得到生成器G的对抗损失函数和分类器C的生成特征分类损失函数,最小化上述两个损失函数、步骤(5)中得到的特征映射损失和步骤(9)中得到的生成器的循环损失函数,固定Share-Block、分类器C和鉴别器D的参数,只更新生成器G的参数;
(11)回到步骤(1)重复上述步骤,直至达到迭代次数,从而得到训练好的基于Share-Learning的Multi-Scale StarGAN网络。
3.根据权利要求2所述的基于共享训练的多尺度StarGAN的语音转换方法,其特征在于:
步骤(3)和步骤(4)具体为,将目标说话人域的全局特征G(xt)分为s个特征图子集,每个特征图子集表示了一个尺度的特征,从不同尺度的特征图子集感知信息,并在Multi-Scale的输入输出使用残差连接,构建层次化的连接实现,将s个特征图子集拼接后得到经层次化的连接的多尺度特征GM(xt),输入生成器的解码器,从而得到目标说话人的频谱特征xtc
步骤(8)和步骤(9)具体为,将源说话人域的全局特征G(xs)分为s个特征图子集,每个特征图子集表示了一个尺度的特征,从不同尺度的特征图子集感知信息,并在Multi-Scale的输入输出使用残差连接,构建层次化的连接实现,将s个特征图子集拼接后得到经层次化的连接的多尺度特征GM(xs),输入生成器的解码器,得到重构源说话人的频谱特征xsc
4.根据权利要求1所述的基于共享训练的多尺度StarGAN的语音转换方法,其特征在于:所述的鉴别器D和分类器C共享Share-Block,最后一层分别实现鉴别器D和分类器C的功能,鉴别器D和分类器C损失函数分别如下,
鉴别器D损失函数为:
Figure FDA0002408461070000031
其中,
Figure FDA0002408461070000032
表示真实特征鉴别损失函数,
Figure FDA0002408461070000033
表示生成特征鉴别损失函数;
Figure FDA0002408461070000034
其中,D(xs)表示鉴别器D判别真实频谱特征,
Figure FDA0002408461070000035
表示真实概率分布的期望;
Figure FDA0002408461070000036
其中,G(xs,ct)表示生成器G生成的目标说话人频谱特征,
Figure FDA0002408461070000037
表示生成器G生成的概率分布的期望;
分类器C损失函数为:
Figure FDA0002408461070000038
其中,λcls>=0是正则化参数,表示分类损失的权重。
Figure FDA0002408461070000039
表示真实特征分类损失函数,
Figure FDA00024084610700000310
表示生成特征分类损失函数;
Figure FDA0002408461070000041
其中,pC(cs|xs)表示分类器判别源说话人频谱标签属于ct的概率,xs表示源说话人频谱;
Figure FDA0002408461070000042
其中,pC(ct|G(xs,ct))表示分类器判别生成目标说话人频谱标签属于ct的概率,G(xs,ct)表示生成器生成的目标说话人频谱。
5.根据权利要求1所述的基于共享训练的多尺度StarGAN的语音转换方法,其特征在于:所述的生成器G的预编码网络结构包括3个卷积层,3个卷积层的过滤器大小分别为3×9、4×8、4×8,步长分别为1×1、2×2、2×2,过滤器深度分别为64、128、256;生成器G的解码网络包括3个反卷积层,3个反卷积层的过滤器大小分别为4×4、4×4、7×7,步长分别为2×2、2×2、1×1,过滤器深度分别为128、64、1;预编码网络和解码网络的每一卷积层后使用实例正则化和Relu激活函数。
6.根据权利要求1所述的基于共享训练的多尺度StarGAN的语音转换方法,其特征在于:所述的鉴别器D和分类器C,共享Share-Block模块,包括6个卷积层,6个卷积层的过滤器大小均为4×4,步长均为2×2,过滤器深度分别为64、128、256、512、1024、2048;Share-Block的每一卷积层后使用Mish激活函数;经Share-Block后下一层鉴别器D的卷积层的过滤器大小为1×8,步长为1×1,深度为1,后接一个Sigmoid函数;经Share-Block后下一层分类器C的卷积层过滤器大小为1×8,步长为1×1,深度为4,后接一个Softmax函数。
7.根据权利要求6所述的基于共享训练的多尺度StarGAN的语音转换方法,其特征在于:所述Mish激活函数为,
Figure FDA0002408461070000043
其中,xt表示第t个神经元进入激活函数前的输入,xta表示该神经元经Mish激活函数后的输出。
8.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序在被计算机处理器执行时实现权利要求1至7任一项所述的方法。
CN202010168942.6A 2020-03-12 2020-03-12 基于共享训练的多尺度StarGAN的语音转换方法 Active CN111462768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010168942.6A CN111462768B (zh) 2020-03-12 2020-03-12 基于共享训练的多尺度StarGAN的语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010168942.6A CN111462768B (zh) 2020-03-12 2020-03-12 基于共享训练的多尺度StarGAN的语音转换方法

Publications (2)

Publication Number Publication Date
CN111462768A true CN111462768A (zh) 2020-07-28
CN111462768B CN111462768B (zh) 2023-04-25

Family

ID=71680946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010168942.6A Active CN111462768B (zh) 2020-03-12 2020-03-12 基于共享训练的多尺度StarGAN的语音转换方法

Country Status (1)

Country Link
CN (1) CN111462768B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037760A (zh) * 2020-08-24 2020-12-04 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备
CN112259086A (zh) * 2020-10-15 2021-01-22 杭州电子科技大学 一种基于语谱图合成的语音转换方法
CN112466317A (zh) * 2020-12-10 2021-03-09 青海民族大学 一种基于双生成器生成对抗网络的语音转换系统研究
CN112837670A (zh) * 2021-01-19 2021-05-25 北京捷通华声科技股份有限公司 语音合成方法、装置及电子设备
CN113611281A (zh) * 2021-07-16 2021-11-05 北京捷通华声科技股份有限公司 一种语音合成方法、装置、电子设备及存储介质
CN113744757A (zh) * 2021-09-14 2021-12-03 深圳万兴软件有限公司 一种语音转换方法、系统、计算机设备及存储介质
CN113793619A (zh) * 2021-07-27 2021-12-14 江汉大学 一种语音增强方法、装置以及处理设备
CN117351997A (zh) * 2023-12-05 2024-01-05 清华大学 基于反向知识蒸馏的合成音频检测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117717A (zh) * 2018-06-29 2019-01-01 广州烽火众智数字技术有限公司 一种城市行人检测方法
CN109671442A (zh) * 2019-01-14 2019-04-23 南京邮电大学 基于STARGAN与x向量的多对多说话人转换方法
CN109858044A (zh) * 2019-02-01 2019-06-07 成都金山互动娱乐科技有限公司 语言处理方法和装置、语言处理系统的训练方法和装置
CN110060690A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法
CN110136686A (zh) * 2019-05-14 2019-08-16 南京邮电大学 基于STARGAN与i向量的多对多说话人转换方法
US20190295530A1 (en) * 2018-03-16 2019-09-26 Salesforce.Com, Inc. Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network
CN110600013A (zh) * 2019-09-12 2019-12-20 苏州思必驰信息科技有限公司 非平行语料声音转换数据增强模型训练方法及装置
CN110600047A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190295530A1 (en) * 2018-03-16 2019-09-26 Salesforce.Com, Inc. Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network
CN109117717A (zh) * 2018-06-29 2019-01-01 广州烽火众智数字技术有限公司 一种城市行人检测方法
CN109671442A (zh) * 2019-01-14 2019-04-23 南京邮电大学 基于STARGAN与x向量的多对多说话人转换方法
CN109858044A (zh) * 2019-02-01 2019-06-07 成都金山互动娱乐科技有限公司 语言处理方法和装置、语言处理系统的训练方法和装置
CN110060690A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法
CN110136686A (zh) * 2019-05-14 2019-08-16 南京邮电大学 基于STARGAN与i向量的多对多说话人转换方法
CN110600013A (zh) * 2019-09-12 2019-12-20 苏州思必驰信息科技有限公司 非平行语料声音转换数据增强模型训练方法及装置
CN110600047A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037760A (zh) * 2020-08-24 2020-12-04 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备
US11488578B2 (en) 2020-08-24 2022-11-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for training speech spectrum generation model, and electronic device
CN112259086A (zh) * 2020-10-15 2021-01-22 杭州电子科技大学 一种基于语谱图合成的语音转换方法
CN112466317A (zh) * 2020-12-10 2021-03-09 青海民族大学 一种基于双生成器生成对抗网络的语音转换系统研究
CN112837670A (zh) * 2021-01-19 2021-05-25 北京捷通华声科技股份有限公司 语音合成方法、装置及电子设备
CN112837670B (zh) * 2021-01-19 2024-05-10 北京捷通华声科技股份有限公司 语音合成方法、装置及电子设备
CN113611281A (zh) * 2021-07-16 2021-11-05 北京捷通华声科技股份有限公司 一种语音合成方法、装置、电子设备及存储介质
CN113793619A (zh) * 2021-07-27 2021-12-14 江汉大学 一种语音增强方法、装置以及处理设备
CN113793619B (zh) * 2021-07-27 2023-10-13 江汉大学 一种语音增强方法、装置以及处理设备
CN113744757A (zh) * 2021-09-14 2021-12-03 深圳万兴软件有限公司 一种语音转换方法、系统、计算机设备及存储介质
CN117351997A (zh) * 2023-12-05 2024-01-05 清华大学 基于反向知识蒸馏的合成音频检测方法及系统
CN117351997B (zh) * 2023-12-05 2024-02-23 清华大学 基于反向知识蒸馏的合成音频检测方法及系统

Also Published As

Publication number Publication date
CN111462768B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN111462768A (zh) 基于共享训练的多尺度StarGAN的语音转换方法
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
CN109326283B (zh) 非平行文本条件下基于文本编码器的多对多语音转换方法
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
Gao et al. Nonparallel emotional speech conversion
Zhou et al. Converting anyone's emotion: Towards speaker-independent emotional voice conversion
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN111785261A (zh) 基于解纠缠和解释性表征的跨语种语音转换方法及系统
CN111816156A (zh) 基于说话人风格特征建模的多对多语音转换方法及系统
CN111429894A (zh) 基于SE-ResNet STARGAN的多对多说话人转换方法
CN110335587B (zh) 语音合成方法、系统、终端设备和可读存储介质
CN111833855B (zh) 基于DenseNet STARGAN的多对多说话人转换方法
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
CN110060657B (zh) 基于sn的多对多说话人转换方法
Zhang et al. Autoencoder with emotion embedding for speech emotion recognition
Choi et al. Sequence-to-sequence emotional voice conversion with strength control
CN112466316A (zh) 一种基于生成对抗网络的零样本语音转换系统
CN115662435B (zh) 一种虚拟教师拟真化语音的生成方法及终端
CN116542817B (zh) 一种智能数字人律师咨询方法及系统
An et al. Speech Emotion Recognition algorithm based on deep learning algorithm fusion of temporal and spatial features
Guizzo et al. Learning speech emotion representations in the quaternion domain
Luo et al. Neutral-to-emotional voice conversion with cross-wavelet transform F0 using generative adversarial networks
CN110600046A (zh) 基于改进的STARGAN和x向量的多对多说话人转换方法
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210003

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant