CN110060691B - 基于i向量和VARSGAN的多对多语音转换方法 - Google Patents

基于i向量和VARSGAN的多对多语音转换方法 Download PDF

Info

Publication number
CN110060691B
CN110060691B CN201910304431.XA CN201910304431A CN110060691B CN 110060691 B CN110060691 B CN 110060691B CN 201910304431 A CN201910304431 A CN 201910304431A CN 110060691 B CN110060691 B CN 110060691B
Authority
CN
China
Prior art keywords
speaker
varsgan
vector
many
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910304431.XA
Other languages
English (en)
Other versions
CN110060691A (zh
Inventor
李燕萍
袁昌龙
左宇涛
张燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910304431.XA priority Critical patent/CN110060691B/zh
Publication of CN110060691A publication Critical patent/CN110060691A/zh
Application granted granted Critical
Publication of CN110060691B publication Critical patent/CN110060691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于i向量和VARSGAN的多对多语音转换方法,包括训练阶段和转换阶段,使用了VARSGAN(变分自编码器相对生成对抗网络)与i向量相结合的方式实现语音转换。通过构造相对判别器的方式,使得判别器的输出依赖于真实样本和生成样本间的相对值,在训练生成器时真实样本也能参与训练,从而改善了判别器中可能存在的偏置情况,使得梯度更加稳定,训练更加容易,并且把真实样本引入到生成器的训练中,从而加快了GAN的收敛速度,另外加入了能够充分表征说话人的个性特征的i向量,充分学习语义特征和说话人的个性化特征,从而更好地提升转换后语音的个性相似度和语音质量。

Description

基于i向量和VARSGAN的多对多语音转换方法
技术领域
本发明涉及一种多对多语音转换方法,特别是涉及一种基于i向量和VARSGAN的多对多语音转换方法。
背景技术
语音转换是语音信号处理领域的研究分支,是在语音分析、识别和合成的研究基础上进行的,同时在此基础上发展起来的。语音转换的目标是改变源说话人的语音个性特征,使之具有目标说话人的语音个性特征,也就是使一个人说的语音经过转换后听起来像是另一个人说的语音,同时保留语义。
语音转换技术经过多年的研究,已经涌现了很多的经典转换方法。其中包括高斯混合模型(Gaussian Mixed Model,GMM)、频率弯折、深度神经网络(Deep NeuralNetworks,DNN)等大多数的语音转换方法。但是这些语音转换方法大多要求用于训练的语料库是平行文本的,即源说话人和目标说话人需要发出语音内容、语音时长相同的句子,并且发音节奏和情绪等尽量一致。然而在语音转换的实际应用中,获取大量的平行语料殊为不易,甚至无法满足,此外训练时语音特征参数对齐的准确性也成为语音转换系统性能的一种制约。无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。
现有的非平行语音转换方法有基于条件变分自编码器(ConditionalVariational Auto-Encoder,C-VAE)的方法、基于循环一致对抗网络(Cycle-ConsistentAdversarial Networks,Cycle-GAN)的方法以及基于条件变分自编码器和生成对抗网络(Variational Wasserstein Generative Adversarial Networks,VAWGAN)的方法。基于条件变分自编码器C-VAE模型的语音转换方法,直接利用说话人的身份标签建立语音转换系统,这种语音转换系统在模型训练时不需要对源说话人和目标说话人的语音帧进行对齐,可以解除对平行文本的依赖。但是由于C-VAE基于理想的假设,认为观察到的数据通常是遵循高斯分布的,并且在各个维度上是不相关的,导致解码器的输出语音过度平滑,转换后的语音质量不高。基于Cycle-GAN模型的语音转换方法利用对抗性损失和循环一致损失,同时学习声学特征的正映射和逆映射,可以有效解决过平滑问题,改善转换语音质量,但是Cycle-GAN只能实现一对一的语音转换。基于条件变分自编码器和生成对抗网络VAWGAN的方法将Wasserstein生成对抗网络(Wasserstein Generative Adversarial Networks,W-GAN)合并到解码器中来改进C-VAE,其在语音质量上有所提升。但是由于VAWGAN仍然仅使用了说话人的身份标签去建立语音转换系统,而说话人的身份标签并不能充分表达说话人的个性化特征,因此转换后的语音在语音相似度上仍未得到改善。虽然WGAN在一定程度上改善了传统GAN的模式崩溃、训练困难等问题,但是WGAN本身仍存在着一些不足之处,例如训练仍然相对困难,收敛速度较慢等。因此,如果我们能够提升WGAN的性能或者找到性能更强大的GAN,那么就有可能进一步提升语音转换系统生成语音的清晰度,从而生成具有更好音质的语音。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于i向量和VARSGAN的多对多语音转换方法,通过构造相对判别器的方式,使得判别器的输出依赖于真实样本和生成样本间的相对值,在训练生成器时真实样本也能参与训练,从而改善了判别器中可能存在的偏置情况,使得梯度更加稳定,训练更加容易,并且把真实样本引入到生成器的训练中,从而加快了GAN的收敛速度,另外加入了能够充分表征说话人的个性特征的i向量,充分学习语义特征和说话人的个性化特征,从而更好地提升转换后语音的个性相似度和语音质量。
技术方案:本发明所述的基于i向量和VARSGAN的多对多语音转换方法,分为训练阶段和转换阶段,其中所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、对数基频log f0和非周期特征;
(1.3)将频谱包络特征x、说话人标签特征y、说话人i向量i输入VARSGAN网络进行训练,VARSGAN网络由编码器、生成器和鉴别器组成;
(1.4)训练过程使生成器的损失函数尽量小,使鉴别器的损失函数尽量大,直至设置的迭代次数,得到训练好的VARSGAN网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱包络特征xs'、非周期性特征和对数基频log f'0s
(2.2)将频谱包络特征x's、目标说话人标签特征y't、目标说话人i向量i't输入(1.4)中训练好的VARSGAN网络,重构出目标说话人频谱包络特征x'tc
(2.3)通过(1.5)得到的基频转换函数,将(2.1)中提取出的源说话人对数基频logf'0s转换为目标说话人的对数基频log f'0t
(2.4)将(2.2)中得到的目标说话人频谱包络特征x'tc、(2.3)中得到的目标说话人的对数基频log f'0t和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
进一步的,步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将频谱包络特征x输入到所述VARSGAN网络中的编码器,经过网络训练后得到语义特征z(x);
(2)将z(x)、y、i输入生成器进行训练,使生成器的损失函数尽量小,得到目标说话人频谱包络特征xc
(3)将xc和x输入所述鉴别器进行训练,使鉴别器的损失函数尽量大;
(4)重复步骤(1)、(2)和(3),直至达到预设置的迭代次数,从而得到训练好的VARSGAN网络。
进一步的,步骤(2.2)中的输入过程包括以下步骤:
(1)将频谱包络特征x'输入VARSGAN网络的编码器,得到说话人无关的语义特征z(x');
(2)将得到的语义特征z(x')与目标说话人标签特征y't、目标说话人i向量i't输入到所述的生成器中,重构出目标说话人频谱包络特征x'tc
进一步的,所述的编码器采用二维卷积神经网络,由5个卷积层构成,5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
进一步的,所述的生成器采用二维卷积神经网络G,损失函数为:
Figure GDA0003924482500000031
所述的鉴别器采用二维卷积神经网络D,损失函数为:
Figure GDA0003924482500000032
其中,xr表示真实样本,P表示真实样本的分布,xf表示生成样本,Q表示真实样本的分布,损失函数LD中的
Figure GDA0003924482500000033
表示鉴别器的期望分布,损失函数LG
Figure GDA0003924482500000034
表示生成器的期望分布,C(xr)表示将真实样本判断为真的概率,C(xf)表示将生成样本判断为真的概率。
进一步的,所述的生成器的二维卷积神经网络G由4个卷积层构成,4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1。
进一步的,所述的鉴别器的二维卷积神经网络D由3个卷积层和1个全连接层构成,3个卷积层的过滤器大小分别为7*1、7*1、115*1,步长均为3,过滤器深度分别为16、32、64。
进一步的,所述的基频转换函数为:
Figure GDA0003924482500000041
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差,log f0s为源说话人的对数基频,log f'0t为转换后对数基频。
有益效果:本方法使用VARSGAN与i向量相结合来实现语音转换系统,与现有方法比,能够较好地提升转换后语音的个性相似度和语音质量,实现了一种高质量的语音转换方法。此外,本方法解除对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性,本方法还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。
附图说明
图1是本方法实施例的整体流程图。
具体实施方式
本发明中的VARSGAN(Variational Auto-encoder Relavitistic StandardGenerative Adversarial Networks,变分自编码器相对生成对抗网络)模型是在RSGAN(相对生成对抗网络)基础上改进的,RSGAN是在SGAN(标准生成对抗网络)的基础上提出的,通过构造相对判别器的方式,使得判别器的输出依赖于真实样本和生成样本间的相对值,在训练生成器时真实样本也能参与训练,从而直观地改善了判别器中可能存在的偏置情况,使得梯度更加稳定,训练更加容易;并且把真实样本引入到生成器的训练中,从而加快了GAN的收敛速度。通过CIFAR-10、CAT等图像领域的实验证明了相比SGAN、最小二乘GAN(Least Squares GAN,LSGAN)、WGAN而言,RSGAN生成的数据样本更稳定且质量更高。VARSGAN模型加入的i向量是在高斯混合模型-通用背景模型(GMM-UBM)超向量和信道分析的基础上提出的一种新型的低维定长特征向量,i向量能够充分表征说话人的个性特征,并且在VARSGAN的基础上加入i向量,可以大大提高转换语音的相似度。
本方法的实施例如图1所示,分为两个部分:训练部分用于得到语音转换所需的参数和转换函数,而转换部分用于实现源说话人语音转换为目标说话人语音。
训练阶段实施步骤为:
1.1)获取非平行文本的训练语料,训练语料是多名说话人的语料,包含源说话人和目标说话人。训练语料取自VCC2018语音语料库。该语料库的训练集中有4个男性和4个女性说话人,每个说话人有80句语料。本方法既可以在平行文本下实现转换,也可以在非平行文本下实现转换,所以这些训练语料也可以是非平行文本的。
1.2)训练语料通过WORLD语音分析/合成模型提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频log f0。同时提取出代表各说话人个性化特征的i向量i。其中由于快速傅氏变换(FFT)长度设置为1024,因此得到的频谱包络特征x和非周期性特征均为1024/2+1=513维。
i向量是在高斯混合模型-通用背景模型(GMM-UBM)超向量和信道分析的基础上提出的一种新型的低维定长特征向量,i向量可以通过Kaldi框架提取得到。其中,GMM-UBM模型可以表征大量说话人整个声学空间的内部结构,所有说话人的高斯混合模型具有相同的协方差矩阵和权重参数。由于在说话人的语音中包含了语音个性差异信息和信道差异信息,因此全局GMM的超向量可以定义为:
S=m+Tω
其中,S表示说话人的超向量,m表示与特定说话人和信道无关的均值超向量,即UBM模型下的超向量,T是低维的全局差异空间矩阵,表示背景数据的说话人空间,包含了说话人信息和信道信息在空间上的统计分布,也称为全局差异子空间(Total VariabilitySubspace,TVS)。ω=(ω12,...,ωq)是包含整段语音中的说话人信息和信道信息的全局变化因子,服从标准正态分布N(0,1),称之为i向量(i-vector)或身份向量。
1.3)将1.2)提取的训练语料的频谱包络特征x,作为VARSGAN编码器的输入数据,经过网络训练后得到说话人无关的语义特征z(x)。其中编码器采用二维卷积神经网络,包括5个卷积层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
VARSGAN网络的目标函数为:
JVARSGAN=L(x;φ,θ)+αJRSGAN
其中,L(x;φ,θ)为C-VAE部分的目标函数也就是VARSGAN+i-vector网络中编码器的损失函数,JRSGAN表示解码器(即RSGAN)部分损失函数,α是RSGAN的损失系数。L(x;φ,θ)和JRSGAN分别可以表示为:
Figure GDA0003924482500000061
Figure GDA0003924482500000062
其中,DKL(qφ(z|x)||pθ(z))表示判别模型qφ(z|x)和真实后验概率p(z|x)之间的KL散度。先验概率pθ(z)为标准多维高斯分布。qφ(z|x)和pθ(x|z)分别为编码器和解码器,服从多维高斯分布,其均值向量和协方差矩阵分别为(μφ(z),σφ(z))和(μθ(x),σθ(x))。因此,右边两项可以简化为:
Figure GDA0003924482500000063
Figure GDA0003924482500000064
其中,K为中间变量z的维数,L为对qφ(z|x)取样的次数。由于取样过程是一个非连续的操作,无法求导,因此无法通过反向传播来更新编码器和解码器的网络参数。于是引入另一个随机变量ε对隐藏变量z进行再参数化,令z(l)=μθ(x)+ε(l)θ(x),ε(l)~N(0,I),则:
Figure GDA0003924482500000065
其中,D为x的样本数。
至此,最大化C-VAE的目标函数已经转换为求解凸优化问题,利用随机梯度下降法(Stochastic Gradient Descent,SGD)来更新网络模型参数。
因此VARSGAN网络的目标函数可以进一步写成:
Figure GDA0003924482500000066
生成器二维卷积神经网络的损失函数为:
Figure GDA0003924482500000071
优化目标为:
Figure GDA0003924482500000072
鉴别器二维卷积神经网络的损失函数为:
Figure GDA0003924482500000073
优化目标为:
Figure GDA0003924482500000074
上述生成器G和判别器D的损失函数具体解释如下:
为了将判别器的输出限制在[0,1]中,SGAN常常在判别器的最后一层使用sigmoid激励函数,因此SGAN的判别器也可以定义成:
D(x)=sigmoid(C(x)),
其中C(x)为未经过sigmoid函数激励的判别器输出。由于判别器的输出由真实样本和生成样本决定,因此可以使用简单的方法构造相对判别器。
Figure GDA0003924482500000075
Figure GDA0003924482500000076
其中,xr表示真实样本,xr∈P,xf表示生成样本,xf∈Q,
Figure GDA0003924482500000077
表示真实样本比生成样本更真实的概率,
Figure GDA0003924482500000078
表示生成样本比真实样本更真实的概率。经过如下推导:
Figure GDA0003924482500000079
可以得到下式:
Figure GDA00039244825000000710
Figure GDA00039244825000000711
代入D(x),将
Figure GDA00039244825000000712
代入D(G(z)),最终可以得到RSGAN的判别器和生成器的目标函数:
Figure GDA00039244825000000713
Figure GDA00039244825000000714
其中,LD中的
Figure GDA0003924482500000081
表示鉴别器的期望分布,LG
Figure GDA0003924482500000082
表示生成器的期望分布,C(xr)表示将真实样本判断为真的概率,C(xf)表示将生成样本判断为真的概率。sigmoid表示判别器最后一层使用激活函数sigmoid,sigmoid(C(xr)-C(xf))表示真实样本比生成样本更真实的概率,sigmoid(C(xf)-C(xr))表示生成样本比真实样本更真实的概率。
1.4)将1.3)得到的训练语料的语义特征z(x)与说话人标签特征y、说话人i向量i作为联合特征(z(x),y,i)输入解码器进行训练。其中y为每一个说话人的标签,在本方法中,采用8个说话人进行训练,对每一个说话人进行标号,8个参与训练的说话人分别标为0、1、2、3、4、5、6、7。解码器由生成器和鉴别器组成。训练生成器,使生成器的损失函数LG尽量小,得到生成的说话人频谱包络特征xc。说话人i向量是利用说话人的训练语料提取得到,每个说话人得到一个表示说话人特征的i向量。生成器采用二维卷积神经网络,包括4个反卷积层。4个反卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1。鉴别器采用二维卷积神经网络,包括3个卷积层和1个全连接层。3个卷积层的过滤器大小分别为7*1、7*1、115*1,步长均为3,过滤器深度分别为16、32、64。
1.5)将1.4)得到的生成的说话人频谱包络特征xc和1.2)得到的训练语料的说话人频谱包络特征xt作为鉴别器的输入,训练鉴别器。使鉴别器的损失函数LD尽量大。
1.6)重复1.3)、1.4)和1.5),直至达到迭代次数,从而得到训练好的VARSGAN网络,其中编码器参数φ、生成器参数θ、鉴别器参数ψ为训练好的参数。由于神经网络具体设置不同以及实验设备性能不同,选择的迭代次数也各不相同。本实验中选择迭代次数为200000次。
1.7)使用对数基频log f0的均值和方差建立基音频率转换关系,统计出每个说话人的对数基频的均值和方差,利用对数域线性变换将源说话人对数基频log f0s转换得到目标说话人语音基频log f0t
基频转换函数为:
Figure GDA0003924482500000083
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差。
转换阶段实施步骤为:
2.1)将源说话人语音通过WORLD语音分析/合成模型提取出源说话人的不同语句的频谱包络特征x's、非周期性特征、对数基频log f'0s。其中由于快速傅氏变换(FFT)长度设置为1024,因此得到的频谱包络特征x's和非周期性特征均为1024/2+1=513维。
2.2)将2.1)提取的源说话人语音的频谱包络特征x's,作为VARSGAN中编码器的输入数据,经过训练后得到说话人无关的语义特征z(x's)。
2.3)将2.2)得到的语义特征z(x's)与目标说话人标签特征y't、目标说话人i向量i't作为联合特征(z(x's),y't,i't)输入1.6)训练的VARSGAN网络,从而重构出目标说话人频谱包络特征x'tc
2.4)通过1.6)得到的基音频率转换函数,将2.1)中提取出的源说话人对数基频log f'0s转换为目标说话人的对数基频log f0t
2.5)将2.3)中得到的目标说话人频谱包络特征x'tc、2.4)中得到的目标说话人的对数基频log f'0t和2.1)提取的非周期性特征通过WORLD语音分析/合成模型合成转换后的说话人语音。

Claims (8)

1.一种基于i向量和VARSGAN的多对多语音转换方法,分为训练阶段和转换阶段,其特征在于:所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、对数基频logf0和非周期特征;
(1.3)将频谱包络特征x、说话人标签特征y、说话人i向量i输入VARSGAN网络进行训练,VARSGAN网络由编码器、生成器和鉴别器组成;
(1.4)训练过程使生成器的损失函数尽量小,使鉴别器的损失函数尽量大,直至设置的迭代次数,得到训练好的VARSGAN网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱包络特征x′s、非周期性特征和对数基频logf′0s
(2.2)将频谱包络特征x′s、目标说话人标签特征y′t、目标说话人i向量i′t输入(1.4)中训练好的VARSGAN网络,重构出目标说话人频谱包络特征x′tc
(2.3)通过(1.5)得到的基频转换函数,将(2.1)中提取出的源说话人对数基频logf′0s转换为目标说话人的对数基频logf′0t
(2.4)将(2.2)中得到的目标说话人频谱包络特征x′tc、(2.3)中得到的目标说话人的对数基频logf′0t和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
2.根据权利要求1所述的基于i向量和VARSGAN的多对多语音转换方法,其特征在于:步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将频谱包络特征x输入到所述VARSGAN网络中的编码器,经过网络训练后得到语义特征z(x);
(2)将z(x)、y、i输入生成器进行训练,使生成器的损失函数尽量小,得到目标说话人频谱包络特征xc
(3)将xc和x输入所述鉴别器进行训练,使鉴别器的损失函数尽量大;
(4)重复步骤(1)、(2)和(3),直至达到预设置的迭代次数,从而得到训练好的VARSGAN网络。
3.根据权利要求1所述的基于i向量和VARSGAN的多对多语音转换方法,其特征在于步骤(2.2)中的输入过程包括以下步骤:
(1)将频谱包络特征x'输入VARSGAN网络的编码器,得到说话人无关的语义特征z(x');
(2)将得到的语义特征z(x')与目标说话人标签特征y′t、目标说话人i向量i′t输入到所述的生成器中,重构出目标说话人频谱包络特征x′tc
4.根据权利要求1所述的基于i向量和VARSGAN的多对多语音转换方法,其特征在于:所述的编码器采用二维卷积神经网络,由5个卷积层构成,5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
5.根据权利要求1所述的基于i向量和VARSGAN的多对多语音转换方法,其特征在于:所述的生成器采用二维卷积神经网络G,损失函数为:
Figure FDA0003924482490000021
所述的鉴别器采用二维卷积神经网络D,损失函数为:
Figure FDA0003924482490000022
其中,xr表示真实样本,P表示真实样本的分布,xf表示生成样本,Q表示真实样本的分布,损失函数LD中的
Figure FDA0003924482490000023
表示鉴别器的期望分布,损失函数LG
Figure FDA0003924482490000024
表示生成器的期望分布,C(xr)表示将真实样本判断为真的概率,C(xf)表示将生成样本判断为真的概率。
6.根据权利要求5所述的基于i向量和VARSGAN的多对多语音转换方法,其特征在于:所述的生成器的二维卷积神经网络G由4个卷积层构成,4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1。
7.根据权利要求5所述的基于i向量和VARSGAN的多对多语音转换方法,其特征在于:所述的鉴别器的二维卷积神经网络D由3个卷积层和1个全连接层构成,3个卷积层的过滤器大小分别为7*1、7*1、115*1,步长均为3,过滤器深度分别为16、32、64。
8.根据权利要求1所述的基于i向量和VARSGAN的多对多语音转换方法,其特征在于所述的基频转换函数为:
Figure FDA0003924482490000031
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差,logf0s为源说话人的对数基频,logf′0t为转换后对数基频。
CN201910304431.XA 2019-04-16 2019-04-16 基于i向量和VARSGAN的多对多语音转换方法 Active CN110060691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910304431.XA CN110060691B (zh) 2019-04-16 2019-04-16 基于i向量和VARSGAN的多对多语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910304431.XA CN110060691B (zh) 2019-04-16 2019-04-16 基于i向量和VARSGAN的多对多语音转换方法

Publications (2)

Publication Number Publication Date
CN110060691A CN110060691A (zh) 2019-07-26
CN110060691B true CN110060691B (zh) 2023-02-28

Family

ID=67319188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910304431.XA Active CN110060691B (zh) 2019-04-16 2019-04-16 基于i向量和VARSGAN的多对多语音转换方法

Country Status (1)

Country Link
CN (1) CN110060691B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600012B (zh) * 2019-08-02 2020-12-04 光控特斯联(上海)信息科技有限公司 一种人工智能学习的模糊语音语义识别方法及系统
CN112289324B (zh) * 2020-10-27 2024-05-10 湖南华威金安企业管理有限公司 声纹身份识别的方法、装置和电子设备
CN112466314A (zh) * 2020-11-27 2021-03-09 平安科技(深圳)有限公司 情感语音数据转换方法、装置、计算机设备及存储介质
CN112863529B (zh) * 2020-12-31 2023-09-22 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN113314109B (zh) * 2021-07-29 2021-11-02 南京烽火星空通信发展有限公司 一种基于循环生成网络的语音生成方法
CN113742772A (zh) * 2021-08-09 2021-12-03 北京工业大学 一种基于gan的用户人格隐私保护方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法
CN109326283A (zh) * 2018-11-23 2019-02-12 南京邮电大学 非平行文本条件下基于文本编码器的多对多语音转换方法
CN109377978A (zh) * 2018-11-12 2019-02-22 南京邮电大学 非平行文本条件下基于i向量的多对多说话人转换方法
CN109599091A (zh) * 2019-01-14 2019-04-09 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090216535A1 (en) * 2008-02-22 2009-08-27 Avraham Entlis Engine For Speech Recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法
CN109377978A (zh) * 2018-11-12 2019-02-22 南京邮电大学 非平行文本条件下基于i向量的多对多说话人转换方法
CN109326283A (zh) * 2018-11-23 2019-02-12 南京邮电大学 非平行文本条件下基于文本编码器的多对多语音转换方法
CN109599091A (zh) * 2019-01-14 2019-04-09 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Many-to-Many Voice Conversion based on;Yanping Li;《APSIPA Annual Summit and Conference 2018》;20181115;全文 *
基于 ISODATA 聚类算法的语音转换研究;崔立梅;《计算机技术与发展》;20170630;全文 *

Also Published As

Publication number Publication date
CN110060691A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN109377978B (zh) 非平行文本条件下基于i向量的多对多说话人转换方法
CN109326283B (zh) 非平行文本条件下基于文本编码器的多对多语音转换方法
CN110060691B (zh) 基于i向量和VARSGAN的多对多语音转换方法
CN110060701B (zh) 基于vawgan-ac的多对多语音转换方法
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
CN111785261B (zh) 基于解纠缠和解释性表征的跨语种语音转换方法及系统
Vasquez et al. Melnet: A generative model for audio in the frequency domain
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN111462768B (zh) 基于共享训练的多尺度StarGAN的语音转换方法
CN109584893B (zh) 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
CN110047501B (zh) 基于beta-VAE的多对多语音转换方法
CN110136686A (zh) 基于STARGAN与i向量的多对多说话人转换方法
CN111429894A (zh) 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
Gao et al. Mixed-bandwidth cross-channel speech recognition via joint optimization of DNN-based bandwidth expansion and acoustic modeling
CN110600046A (zh) 基于改进的STARGAN和x向量的多对多说话人转换方法
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
CN110556092A (zh) 语音的合成方法及装置、存储介质、电子装置
CN115359778A (zh) 基于说话人情感语音合成模型的对抗与元学习方法
CN113643687A (zh) 融合DSNet与EDSR网络的非平行多对多语音转换方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant