CN111833855A - 基于DenseNet STARGAN的多对多说话人转换方法 - Google Patents

基于DenseNet STARGAN的多对多说话人转换方法 Download PDF

Info

Publication number
CN111833855A
CN111833855A CN202010179723.8A CN202010179723A CN111833855A CN 111833855 A CN111833855 A CN 111833855A CN 202010179723 A CN202010179723 A CN 202010179723A CN 111833855 A CN111833855 A CN 111833855A
Authority
CN
China
Prior art keywords
speaker
network
generator
densenet
stargan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010179723.8A
Other languages
English (en)
Other versions
CN111833855B (zh
Inventor
李燕萍
袁昌龙
徐玲俐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010179723.8A priority Critical patent/CN111833855B/zh
Publication of CN111833855A publication Critical patent/CN111833855A/zh
Application granted granted Critical
Publication of CN111833855B publication Critical patent/CN111833855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于DenseNet STARGAN的多对多说话人转换方法,采用STARGAN与DenseNet相结合来实现语音转换系统,并将GELU激活函数引入STARGAN中。一方面利用DenseNet来解决训练过程中网络退化问题,有助于训练过程中梯度的反向传播,提升深层网络训练效率,另一方面,使用GELU激活函数替换掉常规使用的ReLU激活函数,具有更强的非线性表示能力,有效解决了ReLU在负区间处于失活状态的缺点,进一步缓解了训练过程中网络退化的问题,增强了STARGAN模型的表征能力,很好地改善了转换后语音的个性相似度和语音质量,实现了一种高质量的多说话人到多说话人的语音转换方法,在跨语种语音转换、电影配音、语音翻译等领域有良好的应用前景。

Description

基于DenseNet STARGAN的多对多说话人转换方法
技术领域
本发明涉及一种多对多说话人转换方法,特别是涉及一种基于DenseNet STARGAN的多对多说话人转换方法。
背景技术
语音转换是语音信号处理领域的重要研究分支,是在语音分析、合成和说话人识别的研究基础上发展与延伸的。语音转换的目标是改变源说话人的语音个性特征,使之具有目标说话人的语音个性特征,同时保留语义信息,也就是使源说话人的语音经过转换后听起来像是目标说话人的语音。
语音转换的最初阶段主要是平行文本下的语音转换,平行文本要求源说话人和目标说话人需要发出语音内容、语音时长相同的句子,并且发音节奏和情绪等尽量一致,但是收集这些数据很耗时并且即使获得这些平行数据,仍然很难解决问题,因为大多数语音转换方法依赖数据准确的时间对齐,而对齐过程不可避免会引入误差,所以训练时要求平行文本会成为语音转换应用的严重制约。此外在同声传译、医疗辅助患者语音转换等实际应用中也无法获取平行语音。因此,无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下的语音转换方法的研究具有极大的实际意义和应用价值。
现有的非平行文本条件下的语音转换方法有基于循环一致对抗网络(Cycle-Consistent Adversarial Networks,Cycle-GAN)的方法,基于条件变分自编码器(Conditional Variational Auto-Encoder,C-VAE)的方法以及基于Disco-GAN(Discovercross-domain relations with Generative Adversarial Networks)的方法等。基于Disco-GAN模型的语音转换方法,采用两个生成器与三个判别器进行计算损失,较传统GAN而言,通过增加一个风格判别器提取语音个性特征来提高语音质量,但其只能实现一对一的语音转换。基于C-VAE模型的语音转换方法,直接利用说话人的身份标签建立语音转换系统,其中编码器对语音实现语义和个性信息的分离,解码器通过语义和说话人身份标签来实现语音的重构,从而可以解除对平行文本的依赖,但是由于C-VAE基于理想假设,认为观察到的数据通常遵循高斯分布,导致解码器的输出语音过度平滑,转换后的语音质量不高。基于Cycle-GAN模型的语音转换方法利用对抗性损失和循环一致损失,同时学习声学特征的正映射和逆映射,可以有效解决过平滑问题,改善转换语音质量,但是Cycle-GAN只能实现一对一的语音转换,即源说话人与目标说话人之间的转换,无法实现多说话人之间的互相转换。
基于星型生成对抗网络(Star Generative Adversarial Network,STARGAN)模型的语音转换方法同时具有Disco-GAN、C-VAE和Cycle-GAN的优点,由于该方法的生成器具有编解码结构,可以同时学习多对多映射,生成器输出的属性由说话人身份标签控制,因此可以实现非平行条件下多对多的语音转换,但是此方法由于生成器中的编码网络与解码网络之间相互独立,直接通过生成器的编码网络无法较好地实现语义特征与说话人个性化特征的分离,同时生成器的解码网络也无法较好地实现语义特征与说话人个性特征的合成,更重要的是当前所有基于生成对抗网络搭建的语音转换模型的损失函数计算方式都是基于绝对差值或者最小均方误差,如语音转换的模型中常见的频谱重构损失,其计算方式为绝对差值运算,即通过对频谱进行逐点计算绝对差值来得到频谱重构损失,严重忽略了生成器生成频谱的深层语义特征与个性特征,因此在网络传输中容易丢失频谱深层的语义特征与说话人个性特征,造成信息的损失与噪声的生成,导致整个生成器缺乏对深层特征的提取能力。针对这种情况,需要一种能够很好地解决在训练过程中的网络退化问题,降低编码网络对于语义的学习难度,并且实现模型对频谱深层的语义特征与个性特征的学习功能,从而提高解码网络的频谱生成质量的转换方法。
在深度学习中,随着网络层数的增加,训练网络的难度会更大,尤其是在图像领域中,神经网络层数的增加会导致网络退化的问题,即深层次的网络性能反而不如稍浅层次的网络的性能。在2015年,何凯明提出了深度残差结构(Residual Network,ResNet),ResNet获得当年ImageNet比赛的冠军,ResNet的出现很好地解决了深层卷积网络训练过程中网络退化的问题,ResNet结构的核心是通过建立前面层与后面层之间的“短路连接”,利用残差学习的方式加快深层网络的优化速度,解决网络退化的问题,使得网络能够达到更深的层次,DenseNet是ResNet的一种改进方案,ResNet是将前一层与后一层进行短路连接,而DenseNet是在ResNet的基础之上,通过密集连接卷积层,将前面所有的卷积层与后面的卷积层密集连接,进一步地加速了训练过程中梯度的反向传播并且解决了网络退化问题,同时在训练过程中实现特征的多次利用。所以,可以将DenseNet应用到语音转换领域进行研究,以解决目前基于STARGAN语音转换方法的不足。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于DenseNet STARGAN的多对多说话人转换方法,解决了现有的方法在训练过程中的网络退化问题,加快了模型的收敛速度,大大地增强了模型的表征能力,同时降低编码网络对于语义特征的学习难度,实现模型对频谱深层特征的学习功能,提高解码网络的频谱生成质量,充分学习语义特征和说话人的个性化特征,将GELU(Gaussian Error Linear Units)激活函数作为STARGAN模型的激活函数,辅助解决深层网络在训练的过程中梯度消失的问题,提高了深层网络训练效率,加快其收敛速度。
技术方案:本发明所述的基于DenseNet STARGAN的多对多说话人转换方法,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语料的频谱特征x、非周期性特征以及基频特征;
(1.3)将源说话人的频谱特征xs、目标说话人的频谱特征xt、源说话人标签cs以及目标说话人标签ct,输入到DenseNet STARGAN网络进行训练,所述的DenseNet STARGAN网络由生成器G、鉴别器D、分类器C组成,所述的生成器G由编码网络和解码网络构成,在编码网络与解码网络之间搭建若干层由DenseNet连接的卷积网络;
(1.4)训练过程使生成器G的损失函数、鉴别器D的损失函数、分类器C的损失函数尽量小,直至设置的迭代次数,从而得到训练好的DenseNet STARGAN网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱特征xs′、非周期性特征和基频特征;
(2.2)将上述源说话人频谱特征xs′、目标说话人标签特征ct′输入步骤(1.4)中训练好的DenseNet STARGAN网络,重构出目标说话人频谱特征xtc′;
(2.3)通过步骤(1.5)得到的基频转换函数,将步骤(2.1)中提取出的源说话人基频特征转换为目标说话人的基频特征;
(2.4)将步骤(2.2)中得到的重构目标说话人频谱特征xtc′、步骤(2.3)中得到的目标说话人的基频特征和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
进一步的,所述的生成器G的编码网络包括5个卷积层,生成器G的解码网络包括5个反卷积层,在编码网络和解码网络之间还有6层由DenseNet连接的卷积网络,将卷积网络的第一个卷积层的输出与后面的五个卷积层的输出分别拼接,将卷积网络的第二个卷积层的输出与后面四个卷积层的输出分别拼接,将卷积网络的第三个卷积层的输出与后面三个卷积层的输出分别拼接,将卷积网络的第四个卷积层的输出与后面两个卷积层的输出分别拼接,将第五个卷积层的输出与最后一个卷积层的输出直接拼接,从而这6个卷积层形成密集连接的卷积网络。
进一步的,所述生成器G、鉴别器D和分类器C中的激活函数均为GELU激活函数。
进一步的,所述的生成器G的编码网络的5个卷积层的过滤器大小分别为3*9、4*8、4*8、3*5、9*5,步长分别为1*1、2*2、2*2、1*1、9*1,过滤器深度分别为32、64、128、64、5;生成器G的解码网络的5个反卷积层的过滤器大小分别为9*5、3*5、4*8、4*8、3*9,步长分别为9*1、1*1、2*2、2*2、1*1,过滤器深度分别为64、128、64、32、1;所述的鉴别器D包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1;所述的分类器C包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、4。
进一步的,步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将源说话人的频谱特征xs输入生成器G的编码网络,得到说话人无关的语义特征G(xs);
(2)将上述得到的语义特征G(xs)与目标说话人的标签特征ct一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,从而得到重构目标说话人的频谱特征xtc
(3)将上述得到的重构目标说话人的频谱特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc);
(4)将上述得到的语义特征G(xtc)与源说话人标签特征cs输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构源说话人频谱特征xsc
(5)将重构目标说话人频谱特征xtc、目标说话人频谱特征xt,以及目标说话人的标签特征ct一同输入到鉴别器D中进行训练,最小化鉴别器D的损失函数;
(6)将上述得到的重构目标说话人的频谱特征xtc和目标说话人的频谱特征xt输入分类器C进行训练,最小化分类器C的损失函数;
(7)回到步骤(1)重复上述步骤,直至达到设置的迭代次数,从而得到训练好的DenseNet STARGAN网络。
进一步的,步骤(2.2)中的输入过程包括以下步骤:
(1)将源说话人的频谱特征xs′输入生成器G的编码网络,得到说话人无关的语义特征G(xs′);
(2)将上述得到的语义特征G(xs′)与目标说话人的标签特征ct′一同输入到生成器G的解码网络,得到目标说话人的频谱特征xtc′。
本发明所述的计算机存储介质,其上存储有计算机程序,所述计算机程序在被计算机处理器执行时实现上述的方法。
有益效果:本发明引入稠密连接网络DenseNet,利用STARGAN与DenseNet相结合来实现非平行文本条件下的多对多说话人语音转换,主要通过在生成器的编码网络和解码网络之间搭建DenseNet来充分学习源说话人与目标说话人的语音特征和个性化特征,提高生成器的编码网络对语义的提取能力,有效地提升转换后语音的个性相似度和语音质量。本发明进一步引入GELU激活函数,由于其具有更好的非线性表示能力,解决了原有模型中采用的ReLU激活函数在负区间上神经元失活的问题,辅助解决了网络训练过程中出现的梯度消失的问题,增强了模型的表征能力,实现了高质量的多说话人对多说话人语音转换。
附图说明
图1是本方法的原理示意图;
图2是本方法DenseNet STARGAN模型的生成器的网络结构图;
图3是本方法DenseNet STARGAN模型的6层DenseNet网络结构图;
图4是异性转换情形下基线系统与本发明方法的时域波形对比图;
图5是同性转换情形下基线系统与本发明方法的时域波形对比图;
图6是异性转换情形下基线系统与本发明方法的语谱图对比图;
图7是同性转换情形下基线系统与本发明方法的语谱图对比图;
图8是基准方法与本发明方法的生成器损失函数的收敛速度对比图。
具体实施方式
本发明的方法原理如图1所示,将DenseNet网络应用于STARGAN模型中,在生成器的编码阶段和解码阶段构建6层DenseNet网络,克服深层网络的网络退化的问题,降低编码网络对于语义特征的学习难度,实现了STARGAN模型对频谱深层次的语义特征和个性特征的充分学习,从而很好地改善解码网络的频谱生成质量。
具体实施方式为两个部分:训练部分用于得到语音转换所需的特征和转换函数,而转换部分用于实现源说话人语音转换为目标说话人语音。
训练阶段实施步骤为:
1.1)获取非平行文本的训练语料,训练语料是多名说话人的语料,包含源说话人和目标说话人。本发明构建的非平行语音转换系统使用VCC2018提供的非平行语料库,训练集中包含源说话人和目标说话人,其中4名男性和4名女性,每个说话人有81句训练语料。
1.2)训练语料通过WORLD语音分析/合成模型提取出各说话人语句的频谱特征x、非周期性特征、对数基频log f0。其中由于快速傅氏变换(Fast Fourier Transformation,FFT)长度设置为1024,因此得到的频谱包络特征和非周期性特征均为1024/2+1=513维。每一个语音块有512帧,从每帧的频谱包络特征中再提取36维的梅尔倒谱系数(Mel-cepstralCoefficients,MCEP)作为模型的频谱特征x,一次训练时取8个语音块。因此,训练语料的维度为8*36*512。
1.3)本实施例中的DenseNet STARGAN网络以Cycle-GAN模型为基础,通过改善GAN的结构,以及结合分类器,来提升Cycle-GAN效果。DenseNet STARGAN由三部分组成:一个产生真实的频谱的生成器G,一个判断输入是真实的频谱还是生成的频谱的鉴别器D,以及一个判别生成频谱的标签是否属于ct的分类器C。
DenseNet STARGAN网络的目标函数为:
Figure BDA0002412058060000061
其中,IG(G)为生成器的损失函数:
Figure BDA0002412058060000062
其中,λcls>=0、λcyc>=0和λid>=0是正则化参数,分别表示分类损失、循环一致性损失和特征映射损失,
Figure BDA0002412058060000063
Lcyc(G)、Lid(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致损失和特征映射损失。
鉴别器的损失函数为:
Figure BDA0002412058060000064
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct)表示生成器G生成的目标说话人频谱特征,即xtc,D(G(xs,ct),ct)表示鉴别器判别生成的频谱特征,
Figure BDA0002412058060000065
表示生成器G生成的概率分布的期望,
Figure BDA0002412058060000066
表示真实概率分布的期望;
分类器二维卷积神经网络的损失函数为:
Figure BDA0002412058060000067
其中,pC(ct|xt)表示分类器判别目标说话人特征为标签ct的真实频谱的概率。
1.4)将1.2)中提取的源说话人频谱特征xs与目标说话人标签特征ct作为联合特征(xs,ct)输入生成器进行训练。训练生成器,使生成器的损失函数LG尽量小,得到生成目标说话人频谱特征xtc
如图2和图3所示,生成器采用二维卷积神经网络,由编码网络和解码网络构成。生成器G的编码网络包括5个卷积层,5个卷积层的过滤器大小分别为3*9、4*8、4*8、3*5、9*5,步长分别为1*1、2*2、2*2、1*1、9*1,过滤器深度分别为32、64、128、64、5;生成器G的解码网络包括5个反卷积层,5个反卷积层的过滤器大小分别为9*5、3*5、4*8、4*8、3*9,步长分别为9*1、1*1、2*2、2*2、1*1,过滤器深度分别为64、128、64、32、1;在编码网络和解码网络之间还有6层由DenseNet连接的卷积网络;将卷积网络的第一个卷积层的输出与后面的五个卷积层的输出分别拼接;将卷积网络的第二个卷积层的输出与后面四个卷积层的输出分别拼接;将卷积网络的第三个卷积层的输出与后面三个卷积层的输出分别拼接;将卷积网络的第四个卷积层的输出与后面两个卷积层的输出分别拼接;将第五个卷积层的输出与最后一个卷积层的输出直接拼接;从而这6个卷积层形成一个种密集连接的卷积网络。
1.5)将1.4)得到的生成目标说话人频谱特征xtc和1.2)得到的训练语料的目标说话人频谱特征xt以及目标说话人标签ct,一同作为鉴别器的输入,训练鉴别器,使鉴别器的损失函数
Figure BDA0002412058060000071
尽可能小。
鉴别器采用二维卷积神经网络,包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1。
鉴别器的损失函数为:
Figure BDA0002412058060000072
优化目标为:
Figure BDA0002412058060000073
1.6)将上述得到的重构的目标说话人频谱特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc),将上述得到的语义特征G(xtc)与源说话人标签特征cs一同输入到生成器G的解码网络,在训练过程中最小化生成器G的损失函数,得到重构源说话人频谱特征xsc。在训练过程中最小化生成器的损失函数,包括生成器的对抗损失、循环一致损失、特征映射损失生成器的分类损失。其中,训练循环一致损失是为了使源说话人频谱特征xs在经过生成器G后,所重构的源说话人频谱特征xsc可以和xs尽可能保持一致。训练特征映射损失,是为了保证xs在经过生成器G后说话人标签仍是cs、分类损失指分类器判别生成器所生成的重构的目标说话人频谱xtc属于标签ct的概率损失。
生成器的损失函数为:
Figure BDA0002412058060000081
优化目标为:
Figure BDA0002412058060000082
其中λcls>=0、λcyc>=0和λid>=0是正则化参数,分别表示分类损失、循环一致性损失和特征映射损失。
Figure BDA0002412058060000083
表示GAN中生成器的对抗损失:
Figure BDA0002412058060000084
其中,
Figure BDA0002412058060000085
表示生成器生成的概率分布的期望,G(xs,ct)表示生成器生成频谱特征。
Figure BDA0002412058060000086
和鉴别器的损失
Figure BDA0002412058060000087
共同构成GAN中常见的对抗损失,用来判别输入鉴别器的频谱是真实频谱还是生成频谱。在训练过程中
Figure BDA0002412058060000088
尽可能小,生成器不断优化,直至生成能够以假乱真的频谱特征G(xs,ct),使得鉴别器难以判别真假。
Figure BDA0002412058060000089
为分类器C用来优化生成器的分类损失:
Figure BDA00024120580600000810
其中,pC(ct|G(xs,ct))表示分类器判别生成目标说话人频谱标签属于ct的概率,表示生成器生成的目标说话人频谱。在训练过程中,
Figure BDA00024120580600000811
尽可能小,使得生成器G生成的频谱G(xs,ct)能够被分类器正确分类为标签ct
Lcyc(G)和Lid(G)借鉴Cycle-GAN模型中生成器的损失,Lcyc(G)为生成器G中循环一致损失:
Figure BDA00024120580600000812
其中,G(G(xs,ct),cs)为重构的源说话人频谱特征,即xsc
Figure BDA00024120580600000813
为重构源说话人频谱和真实源说话人频谱的损失期望。在训练生成器的损失中,Lcyc(G)尽可能小,使生成目标频谱G(xs,ct)、源说话人标签cs再次输入到生成器后,得到的重构源说话人语音频谱尽可能和xs相似。通过训练Lcyc(G),可以有效保证说话人语音的语义特征,在经过生成器的编码以后不被损失。
Lid(G)为生成器G的特征映射损失:
Figure BDA0002412058060000091
其中,G(xs,cs)为源说话人频谱、说话人标签和x向量,输入到生成器后得到的源说话人频谱特征,
Figure BDA0002412058060000092
为xs和G(xs,cs)的损失期望。训练Lid(G),可以有效保证输入频谱的标签cs在输入生成器后仍保持不变。
分类器采用二维卷积神经网络C,包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、4。分类器二维卷积神经网络的损失函数为:
Figure BDA0002412058060000093
优化目标为:
Figure BDA0002412058060000094
作为决定神经网络是否传递信息的开关,激活函数对于深度神经网络而言是至关重要的,ReLU激活函数相比Sigmoid和tanh激活函数能够缓解训练过程中的梯度消失的问题,提升了深层网络的训练效率,加快深层神经网络的收敛速度,但是,ReLU激活函数在负区间会出现神经元失活的现象。为了解决ReLU激活函数的不足之处,引入了高斯误差线性单元GELU,GELU是一种新的非线性激活函数,与随机正则化有关,因为它是自适应Dropout修正预期,这决定了神经元输出的概率更高,在负区间时,仍然具有很好的非线性描述能力。在计算计视觉、自然语言处理和自动语音识别等任务上,使用GELU激活函数的模型性能与使用ReLU激活函数的模型性能相当甚至是超过了它们。因此,本发明将GELU激活函数作为STARGAN模型的激活函数,辅助解决深层网络在训练的过程中梯度消失的问题,提高了深层网络训练效率,加快其收敛速度。
所述的GELU激活函数的表达式被定义为:
GELU(x)=xP(X≤x)=xΦ(x),
其中,x表示激活函数的输入,P(X≤x)表示输入x的概率分布函数,Φ(x)表示正态分布的概率函数,是在训练过程中得到的超参数,也可以使用简单的正态分布表示,进一步地,GELU激活函数的表达式可以近似表示为:
Figure BDA0002412058060000095
或者为:xσ(1.702x).
1.8)重复1.4)、1.5)、1.6)和1.7)步骤,直至达到设置的迭代次数,从而得到训练好的DenseNet STARGAN网络,其中生成器参数φ、鉴别器参数θ、分类器参数ψ为训练好的参数。由于神经网络具体设置不同以及实验设备性能不同,选择的迭代次数也各不相同。本实验中选择迭代次数为300000次。
1.9)使用对数基频log f0的均值和均方差建立基音频率转换关系,统计出每个说话人的对数基频的均值和均方差,利用对数域线性变换将源说话人对数基频log f0s转换得到目标说话人对数基频log f0t′。
基频转换函数为:
Figure BDA0002412058060000101
其中,μs和σs分别为源说话人的基频在对数域的均值和均方差,μt和σt分别为目标说话人的基频在对数域的均值和均方差。
转换阶段实施步骤为:
2.1)将源说话人语音通过WORLD语音分析/合成模型,提取源说话人的不同语句的频谱特征xs′、非周期性特征、基频。其中由于快速傅氏变换(FFT)长度设置为1024,因此得到的频谱包络特征和非周期性特征均为1024/2+1=513维,从每帧的频谱包络特征中再提取36维的梅尔倒谱系数MCEP作为模型的频谱特征xs′。
2.2)将2.1)提取的源说话人语音的频谱特征xs′与目标说话人标签特征ct′作为联合特征(xs′,ct′)输入1.8)训练的DenseNet STARGAN网络,从而得到重构的目标说话人频谱特征xtc′。
2.3)通过1.9)得到的基音频率转换函数,将2.1)中提取出的源说话人基频转换为目标说话人的基频。
2.4)将2.2)中得到的重构的目标说话人频谱特征xtc′、2.3)中得到的目标说话人的基频和2.1)提取的非周期性特征通过WORLD语音分析/合成模型合成转换后的说话人语音。
本发明的基于DenseNet STARGAN的多对多语音转换方法模型与基线系统STARGAN模型所合成的语音效果进行了三个方面的对比:同性和异性转换后语音的时域波形的对比、语谱图对比和生成器损失函数收敛速度的对比。
(1)如图4和图5所示,由时域波形图分析可知,基于DenseNet STARGAN的多对多语音转换方法模型转换后合成语音的时域波形相比基准STARGAN模型噪音更少,波形更加平稳,更加接近目标语音的波形。
(2)如图6和图7所示,由语谱图分析可知,基于DenseNet STARGAN的多对多语音转换方法模型转换后合成语音的语谱图相比基准STARGAN模型,更加接近目标语音的语谱图,具有更清晰的细节、更完整的基音和谐波信息。
(3)如图8所示,由生成器损失函数分析可知,基于DenseNet STARGAN的多对多语音转换方法模型转换后合成语音的的损失函数相比基准STARGAN模型,收敛速度更快更平稳,并且损失值更低。
本发明实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实例不限制于任何特定的硬件和软件结合。
相应的,本发明的实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述基于DenseNet STARGAN的多对多说话人转换方法。例如,该计算机存储介质为计算机可读存储介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (7)

1.一种基于DenseNet STARGAN的多对多说话人转换方法,其特征在于,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语料的频谱特征x、非周期性特征以及基频特征;
(1.3)将源说话人的频谱特征xs、目标说话人的频谱特征xt、源说话人标签cs以及目标说话人标签ct,输入到DenseNet STARGAN网络进行训练,所述的DenseNet STARGAN网络由生成器G、鉴别器D、分类器C组成,所述的生成器G由编码网络和解码网络构成,在编码网络与解码网络之间搭建若干层由DenseNet连接的卷积网络;
(1.4)训练过程使生成器G的损失函数、鉴别器D的损失函数、分类器C的损失函数尽量小,直至设置的迭代次数,从而得到训练好的DenseNet STARGAN网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱特征xs′、非周期性特征和基频特征;
(2.2)将上述源说话人频谱特征xs′、目标说话人标签特征ct′输入步骤(1.4)中训练好的DenseNet STARGAN网络,重构出目标说话人频谱特征xtc′;
(2.3)通过步骤(1.5)得到的基频转换函数,将步骤(2.1)中提取出的源说话人基频特征转换为目标说话人的基频特征;
(2.4)将步骤(2.2)中得到的重构目标说话人频谱特征xtc′、步骤(2.3)中得到的目标说话人的基频特征和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
2.根据权利要求1所述的基于DenseNet STARGAN的多对多说话人转换方法,其特征在于:所述的生成器G的编码网络包括5个卷积层,生成器G的解码网络包括5个反卷积层,在编码网络和解码网络之间还有6层由DenseNet连接的卷积网络,将卷积网络的第一个卷积层的输出与后面的五个卷积层的输出分别拼接,将卷积网络的第二个卷积层的输出与后面四个卷积层的输出分别拼接,将卷积网络的第三个卷积层的输出与后面三个卷积层的输出分别拼接,将卷积网络的第四个卷积层的输出与后面两个卷积层的输出分别拼接,将第五个卷积层的输出与最后一个卷积层的输出直接拼接,从而这6个卷积层形成密集连接的卷积网络。
3.根据权利要求2所述的基于DenseNet STARGAN的多对多说话人转换方法,其特征在于:所述生成器G、鉴别器D和分类器C中的激活函数均为GELU激活函数。
4.根据权利要求2所述的基于DenseNet STARGAN的多对多说话人转换方法,其特征在于:所述的生成器G的编码网络的5个卷积层的过滤器大小分别为3*9、4*8、4*8、3*5、9*5,步长分别为1*1、2*2、2*2、1*1、9*1,过滤器深度分别为32、64、128、64、5;生成器G的解码网络的5个反卷积层的过滤器大小分别为9*5、3*5、4*8、4*8、3*9,步长分别为9*1、1*1、2*2、2*2、1*1,过滤器深度分别为64、128、64、32、1;所述的鉴别器D包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1;所述的分类器C包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、4。
5.根据权利要求1所述的基于DenseNet STARGAN的多对多说话人转换方法,其特征在于,步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将源说话人的频谱特征xs输入生成器G的编码网络,得到说话人无关的语义特征G(xs);
(2)将上述得到的语义特征G(xs)与目标说话人的标签特征ct一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,从而得到重构目标说话人的频谱特征xtc
(3)将上述得到的重构目标说话人的频谱特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc);
(4)将上述得到的语义特征G(xtc)与源说话人标签特征cs输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构源说话人频谱特征xsc
(5)将重构目标说话人频谱特征xtc、目标说话人频谱特征xt,以及目标说话人的标签特征ct一同输入到鉴别器D中进行训练,最小化鉴别器D的损失函数;
(6)将上述得到的重构目标说话人的频谱特征xtc和目标说话人的频谱特征xt输入分类器C进行训练,最小化分类器C的损失函数;
(7)回到步骤(1)重复上述步骤,直至达到设置的迭代次数,从而得到训练好的DenseNet STARGAN网络。
6.根据权利要求1所述的基于DenseNet STARGAN的多对多说话人转换方法,其特征在于,步骤(2.2)中的输入过程包括以下步骤:
(1)将源说话人的频谱特征xs′输入生成器G的编码网络,得到说话人无关的语义特征G(xs');
(2)将上述得到的语义特征G(xs′)与目标说话人的标签特征ct′一同输入到生成器G的解码网络,得到目标说话人的频谱特征xtc′。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序在被计算机处理器执行时实现权利要求1至6任一项所述的方法。
CN202010179723.8A 2020-03-16 2020-03-16 基于DenseNet STARGAN的多对多说话人转换方法 Active CN111833855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010179723.8A CN111833855B (zh) 2020-03-16 2020-03-16 基于DenseNet STARGAN的多对多说话人转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010179723.8A CN111833855B (zh) 2020-03-16 2020-03-16 基于DenseNet STARGAN的多对多说话人转换方法

Publications (2)

Publication Number Publication Date
CN111833855A true CN111833855A (zh) 2020-10-27
CN111833855B CN111833855B (zh) 2024-02-23

Family

ID=72913484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010179723.8A Active CN111833855B (zh) 2020-03-16 2020-03-16 基于DenseNet STARGAN的多对多说话人转换方法

Country Status (1)

Country Link
CN (1) CN111833855B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712812A (zh) * 2020-12-24 2021-04-27 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN113345411A (zh) * 2021-05-31 2021-09-03 多益网络有限公司 一种变声方法、装置、设备和存储介质
CN113643687A (zh) * 2021-07-08 2021-11-12 南京邮电大学 融合DSNet与EDSR网络的非平行多对多语音转换方法
CN113948093A (zh) * 2021-10-19 2022-01-18 南京航空航天大学 一种基于无监督场景适应的说话人识别方法及系统
CN115294970A (zh) * 2022-10-09 2022-11-04 苏州大学 针对病理嗓音的语音转换方法、装置和存储介质
CN116778937A (zh) * 2023-03-28 2023-09-19 南京工程学院 一种基于说话人对抗子网络的语音转换方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346088A (zh) * 2018-12-06 2019-02-15 泰康保险集团股份有限公司 身份识别方法、装置、介质及电子设备
CN109671442A (zh) * 2019-01-14 2019-04-23 南京邮电大学 基于STARGAN与x向量的多对多说话人转换方法
US10347241B1 (en) * 2018-03-23 2019-07-09 Microsoft Technology Licensing, Llc Speaker-invariant training via adversarial learning
CN110060690A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法
CN110390952A (zh) * 2019-06-21 2019-10-29 江南大学 基于双特征2-DenseNet并联的城市声音事件分类方法
CN110600047A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法
WO2020035085A2 (en) * 2019-10-31 2020-02-20 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for determining voice characteristics

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10347241B1 (en) * 2018-03-23 2019-07-09 Microsoft Technology Licensing, Llc Speaker-invariant training via adversarial learning
CN109346088A (zh) * 2018-12-06 2019-02-15 泰康保险集团股份有限公司 身份识别方法、装置、介质及电子设备
CN109671442A (zh) * 2019-01-14 2019-04-23 南京邮电大学 基于STARGAN与x向量的多对多说话人转换方法
CN110060690A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法
CN110390952A (zh) * 2019-06-21 2019-10-29 江南大学 基于双特征2-DenseNet并联的城市声音事件分类方法
CN110600047A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法
WO2020035085A2 (en) * 2019-10-31 2020-02-20 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for determining voice characteristics

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田萱: "基于深度学习的图像语义分割技术", 北京:海洋出版社, pages: 51 - 53 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712812A (zh) * 2020-12-24 2021-04-27 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN112712812B (zh) * 2020-12-24 2024-04-26 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN113345411A (zh) * 2021-05-31 2021-09-03 多益网络有限公司 一种变声方法、装置、设备和存储介质
CN113345411B (zh) * 2021-05-31 2024-01-05 多益网络有限公司 一种变声方法、装置、设备和存储介质
CN113643687A (zh) * 2021-07-08 2021-11-12 南京邮电大学 融合DSNet与EDSR网络的非平行多对多语音转换方法
CN113643687B (zh) * 2021-07-08 2023-07-18 南京邮电大学 融合DSNet与EDSR网络的非平行多对多语音转换方法
CN113948093A (zh) * 2021-10-19 2022-01-18 南京航空航天大学 一种基于无监督场景适应的说话人识别方法及系统
CN113948093B (zh) * 2021-10-19 2024-03-26 南京航空航天大学 一种基于无监督场景适应的说话人识别方法及系统
CN115294970A (zh) * 2022-10-09 2022-11-04 苏州大学 针对病理嗓音的语音转换方法、装置和存储介质
CN116778937A (zh) * 2023-03-28 2023-09-19 南京工程学院 一种基于说话人对抗子网络的语音转换方法
CN116778937B (zh) * 2023-03-28 2024-01-23 南京工程学院 一种基于说话人对抗子网络的语音转换方法

Also Published As

Publication number Publication date
CN111833855B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN111833855A (zh) 基于DenseNet STARGAN的多对多说话人转换方法
Liu et al. Audioldm: Text-to-audio generation with latent diffusion models
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
US20200402497A1 (en) Systems and Methods for Speech Generation
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN111816156B (zh) 基于说话人风格特征建模的多对多语音转换方法及系统
CN111429894A (zh) 基于SE-ResNet STARGAN的多对多说话人转换方法
US11908451B2 (en) Text-based virtual object animation generation method, apparatus, storage medium, and terminal
CN111462768B (zh) 基于共享训练的多尺度StarGAN的语音转换方法
CN111785261A (zh) 基于解纠缠和解释性表征的跨语种语音转换方法及系统
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
Chen et al. A deep generative architecture for postfiltering in statistical parametric speech synthesis
CN110060657B (zh) 基于sn的多对多说话人转换方法
Choi et al. Sequence-to-sequence emotional voice conversion with strength control
CN112259080B (zh) 一种基于神经网络模型的语音识别方法
Wang et al. Improved relativistic cycle-consistent gan with dilated residual network and multi-attention for speech enhancement
Luong et al. Many-to-many voice conversion based feature disentanglement using variational autoencoder
CN110600046A (zh) 基于改进的STARGAN和x向量的多对多说话人转换方法
Malik et al. A preliminary study on augmenting speech emotion recognition using a diffusion model
Zhang et al. Semi-supervised learning based on reference model for low-resource tts
CN117275498A (zh) 语音转换方法及语音转换模型的训练方法、电子设备和存储介质
Dumpala et al. A Cycle-GAN approach to model natural perturbations in speech for ASR applications
CN114299910B (zh) 语音合成模型的训练方法、使用方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210003

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

GR01 Patent grant
GR01 Patent grant