CN109671423B - 训练数据有限情形下的非平行文本语音转换方法 - Google Patents

训练数据有限情形下的非平行文本语音转换方法 Download PDF

Info

Publication number
CN109671423B
CN109671423B CN201810418346.1A CN201810418346A CN109671423B CN 109671423 B CN109671423 B CN 109671423B CN 201810418346 A CN201810418346 A CN 201810418346A CN 109671423 B CN109671423 B CN 109671423B
Authority
CN
China
Prior art keywords
training
network
speaker
dnn
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810418346.1A
Other languages
English (en)
Other versions
CN109671423A (zh
Inventor
李燕萍
许吉良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201810418346.1A priority Critical patent/CN109671423B/zh
Publication of CN109671423A publication Critical patent/CN109671423A/zh
Application granted granted Critical
Publication of CN109671423B publication Critical patent/CN109671423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种目标说话人训练数据有限情形下的多说话人对多说话人的非平行文本语音转换系统。在目标说话人训练数据有限情形下,通过对提取瓶颈特征的深度神经网络的训练过程进行干预与优化,从其他说话人特征空间自适应得到目标说话人的特征,解决了由于目标说话人不充分训练而导致特征空间分布不足的问题,完成非平行文本条件下基于瓶颈特征和变分自编码模型的多说话人对多说话人的语音转换。本发明的优势有三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)当目标说话人的训练数据有限时,可以完成非平行文本条件下的多对多转换,一定程度上实现语音转换技术从闭集走向开集,为实际的语音人机交互提供技术支撑。

Description

训练数据有限情形下的非平行文本语音转换方法
技术领域:
本发明涉及信号处理、机器学习及语音信号处理领域,特别涉及一种在训练数据有限情形下的非平行文本语音转换系统实现方法。
背景技术:
语音转换技术经过多年的研究,已经涌现了很多的经典转换方法,其中包括高斯混合模型(Gaussian Mixed Model,GMM)、频率弯折、深度神经网络(DNN)以及基于单元选择的方法等。但是这些语音转换方法大多需要使用平行语料库进行训练,建立源语音和目标语音频谱特征之间的转换规则。
一种基于变分自编码器(VAE)模型的语音转换方法,直接利用说话人的身份标签建立语音转换系统,这种语音转换系统在模型训练时不需要对源说话人和目标说话人的语音帧进行对齐,可以解除对平行文本的依赖。但是基于VAE的语音转换模型并不能解决目标语音训练语料不充分问题,即在进行decoder过程中,并不能有效得到表征目标语音个性特征的类别标签yn,无法完成转换任务。在实际的语音人机交互中,常常无法获得目标说话人的充分训练语料,因此,有限语料下的转换问题是面向应用中亟需解决的问题。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容:
本发明的目的在于提供一种训练数据有限情形下的非平行文本语音转换方法,从而克服上述现有技术中的缺陷。
为实现上述目的,本发明提供了一种训练数据有限情形下的非平行文本语音转换方法,其特征在于,该方法包括以下步骤:
1训练部分:
1.1训练语料通过AHOcoder分析/合成模型提取出不同说话人不同语句MFCC特征参数X和语音基频log f0
1.2对1.1中每帧的语音特征X进行一次差分和二次差分,并与原特征拼接在一起得到特征Xt=(X,ΔX,Δ2X),然后将拼接后的特征与前后各一帧形成联合特征参数xn=(Xt-1,Xt,Xt+1);
1.3将1.2中的联合特征xn作为说话人识别任务的DNN网络的训练输入数据,DNN模型的输出为说话人Bottleneck特征bn。当说话人训练数据不充分时,对DNN的训练过程进行干预与优化,对mini-batch错误率进行监控,设定一定的阈值。为了补充目标说话人的特征空间,对于错分到目标说话人一类的帧,通过改变标签将其归为目标说话人。然后继续DNN训练,待DNN模型训练至收敛后,提取每一帧的Bottleneck特征bn作为VAE网络训练过程中decoder的监督信息,进行VAE模型训练;
1.4对于VAE模型的训练,将1.2中的xn和1.3中DNN模型的输出的bn作为VAE模型的输入,按照VAE模型训练方法进行模型训练。待VAE模型训练至收敛后,将VAE隐含空间z各帧的采样特征zn提取出来作为目标说话人Bottleneck特征映射网络(BP网络)的训练数据;
1.5对于训练Bottleneck特征映射网络,将1.4中得到的zn和说话人标签特征yn组成联合特征(zn,yn)输入BP网络,并以DNN网络输出的Bottleneck特征bn作为BP网络的监督数据进行训练,通过最小化网络的输出误差,从而得到Bottleneck特征映射网络;
1.6将以上训练好的DNN特征提取网络,VAE模型,Bottleneck特征映射网络组成语音转换系统。
2转换阶段:
2.1源说话人的任意测试语音先通过AHOcoder分析/合成模型提取出源说话人语音的MFCC特征参数Xsrc和logf0特征参数;
2.2将源说话人语音特征参数Xsrc输入VAE语音转换模型,通过VAE模型encoder过程得到隐含空间z各帧的采样特征zn,并将zn和目标说话人标签yn组成联合特征(zn,yn)输入Bottleneck特征映射网络(BP网络),训练得到目标说话人Bottleneck特征bn,将bn和zn通过VAE模型decoder重构出转换后的语音特征参数Xtar
2.3将转换阶段2.1中提取的源说话人对数基频log f0利用对数域线性变换转换得到目标说话人语音基频,将2.2中转换后的Xtar还原为梅尔倒谱形式的语音频谱特征参数xn
2.4将2.3中说话人语音频谱特征参数xn和目标说话人语音基频通过AHOcoder模型合成转换后的说话人语音。
本发明进一步限定的技术方案为:
优选地,上述技术方案中,步骤训练部分的1.1中提取出的特征参数使用AHOcoder语音分析模型提取语音特征参数MFCC和对数基频logf0。其中MFCC特征参数为19维语音频谱特征,并将MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征Xt=(X,ΔX,Δ2X),然后将前后相邻两帧拼接,从而得到171维的频谱特征xn=(Xt-1,Xt,Xt+1),同时每一帧特征参数都对应到所属说话人的标签特征,即yn
优选地,上述技术方案中,步骤训练部分的1.3中当说话人训练数据不充分时,为了能从源说话人的特征空间中自适应出一定的目标说话人个性特征进行特征空间的补充,可以通过对DNN网络的训练过程进行干预与优化,在基于说话人识别任务的DNN网络中,在其Bottleneck层自适应出一定的目标说话人的个性特征空间。基于说话人识别任务的DNN网络训练过程的干预及Bottleneck层自适应训练具体步骤如下:
1.3.1准备DNN网络训练数据xn,其中选取目标说话人的少量语句,其他说话人的充分语句,DNN网络softmax输出层节点数为参与训练的说话人的总人数;
1.3.2逐层预训练DNN网络之后,进行整个DNN网络的调参优化训练,在训练过程中对每个mini_batch的误差率进行监控,当误差率低于阈值30%时暂时停止DNN网络的调参训练,保存现有的网络结构和参数;
1.3.3对训练数据进行一次说话人识别分类统计,并筛选出错分到目标说话人类别的所有帧,将这些帧的标签替换为目标说话人的标签;
1.3.4通过随机梯度下降算法依据最小化帧误差的准则进行权值调整,继续DNN网络的训练至梯度收敛。
1.3.5然后将xn逐帧输入达到收敛后的DNN网络,并将每一帧对应的Bottleneck层的激活值逐帧提取出来,即得到对应的Bottleneck特征bn
优选地,上述技术方案中,该方法分为说话人语音训练、说话人语音转换两个步骤:
1首先训练步骤包括:
1.1获取训练语料,本处采用的语音库为CMU ARCTIC。分为两组,一组是以男性bdl进行不充分训练,awb、rms、clb和slt进行充分训练,另一组是以女性slt进行不充分训练,而其他四个说话人awb、rms、clb、bdl进行充分训练。对于充分训练的说话人每人100条语音作为训练语料,而不充分训练的说话人每人5条语音作为训练语料;
1.2使用AHOcoder语音分析模型提取语音特征参数MFCC和对数基频logf0。其中MFCC特征参数为19维语音频谱特征,并将MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征Xt=(X,ΔX,Δ2X),然后将前后相邻两帧拼接,从而得到171维的频谱特征xn=(Xt-1,Xt,Xt+1),同时每一帧特征参数都对应到所属说话人的标签特征,即yn
1.3将1.2中的特征xn参数作为DNN网络即Bottleneck特征提取网络的训练数据。DNN网络是一种多层堆栈全连接型人工神经网络,如图3所示。在本专利中,使用的DNN模型采用9层网络,其中输入层节点数为171,对应xn每帧的171维特征,中间隐层数为7层,每层的节点数分别为1200、1200、1200、57、1200、1200,其中节点数较少的隐层为Bottleneck层。利用逐层贪婪预训练法对DNN各层节点之间的连接权值进行无监督的预训练,隐层的激活函数采用ReLu函数;
Bottleneck特征是DNN网络作为特征提取的一种运用,这种DNN模型中,中间有一层节点数较少的隐层,即为Bottleneck层,这一层各个节点的激活值通常被看作是输入信号的一种低维表示,所以对于基于不同任务进行训练的DNN模型,其Bottleneck层激活值所表达的信息也会随之变化。DNN模型提取Bottleneck特征和进行说话人识别任务分为两个阶段,可以将图3中的DNN网络拆分为两个模块:Analyzer和Classifier。DNN通过Analyzer解析网络从原始的语音频谱特征参数中解析出表示说话人个性特征空间的Bottleneck特征,而后通过Classifier分类网络对Bottleneck特征进行识别分类。通过对DNN的调优训练,不仅得到了最优的分类边界,同时在Bottleneck层也形成了适于特定分类任务的Bottleneck特征空间分布,即Analyzer解析网络将输入数据解析为最适合某种特定分类的特征空间分布。一般来说,以一个平面的二分类问题为例,DNN网络作为分类器,在其训练过程不受到干预的情况下,会最终收敛形成一个较好的分类边界,如图4所示。通过对DNN进行模块划分,将DNN网络一分为二进行分析,认为通过训练之后的DNN网络不仅具备最优的分类能力,同时各帧输入信号在Bottleneck层的激活值也正是由Analyzer模块解析出的最适于特定分类的特征空间分布。
基于DNN的这样一种特性,当说话人训练数据不充分时,为了能从源说话人的特征空间中自适应出一定的目标说话人个性特征进行特征空间的补充,可以通过对DNN网络的训练过程进行干预与优化,在基于说话人识别任务的DNN网络中,在其Bottleneck层自适应出一定的目标说话人的个性特征空间。
对DNN网络的训练过程进行干预之后,其分类边界的变化情况如图5所示,从图中可以看出,通过这样一种对DNN训练阶段进行人为干预的方法,少量类别的特征空间得到了有效补充,因此利用上述的对DNN网络训练过程进行干预的方式,认为DNN的Bottleneck层从其他说话人个性特征空间中自适应出了一定的目标说话人的特征空间,从而弥补了多说话人对多说话人语音转换中由于目标说话人不充分训练而导致的特征空间分布不足的问题。
1.4对于VAE模型的训练,将1.2中的xn和1.3中DNN模型的输出bn作为VAE模型的训练数据,其中的bn与隐含特征zn进行拼接形成联合特征,加入到VAE模型的decoder部分进行训练实现语音频谱特征的重构。VAE网络的训练过程中,图1中VAE模型参数估计过程中的两个优化项利用ADAM优化器来实现。待VAE模型训练至收敛后,将VAE隐含空间z各帧的采样特征zn提取出来作为目标说话人Bottleneck特征映射网络(BP网络)的训练数据。本发明中VAE模型encoder输入层为171个节点,两个隐层,第一层为500个节点,第二层为64个节点,在第二层节点中,前32个节点计算混合高斯分布各分量的均值,后32个节点计算各分量的方差(此时是通过神经网络来计算更好拟合输入信号的高斯混合分布),隐含空间z层包含32个节点,其各个节点的值通过从第二层隐层采样获得。decoder设置为包含一个隐层,节点数为500,输出层为171个节点。除了隐含空间z层为线性输出,其他隐层激活值为ReLU函数。
VAE模型用判别模型qφ(z|x(i))去逼近真实的后验概率pθ(z|x(i)),而衡量两个分布的相似程度,则采用KL散度,如式1-1所示:
Figure GDA0004166016540000061
将式1-1作贝叶斯公式的变换并整理可得式1-2:
Figure GDA0004166016540000062
于是:
Figure GDA0004166016540000071
由于p(X)是一个已知数据集的概率,希望最小化KL(qφ(z|x(i))||pθ(z|x(i))),就要使等号右边尽可能得到最大。又因为式1-4:
Figure GDA0004166016540000072
通过整理可得:
Figure GDA0004166016540000073
其中等号右边第一项是基于qφ(z|X)的似然期望,也就是已知真实的z分布而计算出的X的分布,即根据z重建X的过程;第二项是负的KL散度。所以为找到一个好的qφ(z|X),使它尽可能地逼近pθ(z|X),需要做的就是:(1)右边第一项的log似然的期望最大化;(2)右边第二项的KL散度最小化。
为更加方便地求解式1-5,对于隐变量z,可以将z分为两部分,一部分是一个复杂函数gφ(X),再定义一个随机变量ε负责随机部分,所以可以用gφ(X+ε)来表示服从条件概率的隐含空间z,即z-1=gφ(X+ε(1)),其中q(z(i))=p(ε(i)),则式1-5又可写为:
log p(X)-KL(qφ(z)||pθ(z|X))=∫p(ε)log p(X|gθ(X,z))dz-KL(qφ(z|X,ε)||p(z)) 式1-6
若取随机变量ε服从标准正态分布,即ε=N(0,I),而将z|X简化为一种高斯关系,进而有:
qφ(z|X,ε)=N(z|μ(X),∑(X)) 式1-7
由于多维高斯分布下的KL散度公式为:
Figure GDA0004166016540000074
故式等号右侧第二项可改写为:
Figure GDA0004166016540000081
其中det为行列式,tr为矩阵的秩,d为I的秩即d=tr(I)。将该式变为具体的神经网络和矩阵运算,将式1-9化简为:
Figure GDA0004166016540000082
这也是VAE模型的编码(encoder)部分。
等式右侧第一项即代表依赖隐变量z建出的数据应尽可能与X相同,这是VAE模型的解码(decoder)部分。
VAE模型所采用的训练语料中,选取其中四个说话人的语音对VAE模型进行充分训练,选取一个目标说话人的少量语音进行不充分训练,这样做的目的是为了初始化目标说话人的Bottleneck特征空间,Bottleneck特征提取DNN网络采用了分段式的训练方法和新的误差控制方式,从而使得基于说话人识别任务的DNN网络Bottleneck特征层进行了自适应。
1.5训练Bottleneck映射网络,将1.4中得到的zn和说话人标签特征yn组成联合特征(zn,yn)输入BP网络,并以DNN网络输出的Bottleneck特征bn作为BP网络的监督数据进行训练,使得BP网络的输出与各帧对应的Bottleneck特征bn之间的误差最小,从而得到Bottleneck特征映射网络。BP网络使用三层前馈全连接型的神经网络,输入层节点数为37个节点,其中32个节点对应VAE模型中隐含空间特征zn的维数,5个节点对应参与训练的五个说话人构成的5维说话人标签yn;输出层为57个节点,对应57维Bottleneck特征;中间包含一个隐层,节点数为1200,隐层激活函数为sigmoid函数来引入非线性变化。
1.6至此,VAE模型、DNN网络、和Bottleneck特征映射网络已经训练完成,如图1所示。
2进行语音转换:
2.1利用AHOcoder提取源说话人语音的MFCC参数Xsrc和对数基频
Figure GDA0004166016540000083
并利用MATLAB进行差分和特征拼接得到特征参数x′n。具体做法:19维的MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征Xt=(X,ΔX,Δ2X),然后将前后相邻两帧拼接,从而得到171维的频谱特征x′n=(Xt-1,Xt,Xt+1);
2.2将x′n输入VAE模型得到隐含特征zn,并将zn与目标说话人标签y′进行特征拼接(zn,y′),将拼接后的联合特征输入Bottleneck映射网络,网络输出Bottleneck特征
Figure GDA0004166016540000091
2.3将此Bottleneck特征
Figure GDA0004166016540000092
作为VAE频谱转换网络decoder过程的控制条件,进而得到转换后的目标说话人语音频谱参数Xtar
2.4将转换得到的语音特征参数Xtar去掉时域拼接和差分项还原成梅尔倒谱形式
Figure GDA0004166016540000093
并将2.1中提取的源说话人对数基频log f0利用对数域线性变换转换得到目标说话人语音基频。
2.5最后将2.4中得到的目标说话人频谱参数特征
Figure GDA0004166016540000094
以及转换后的对数基频logf0通过AHOcoder模型合成转换后的目标说话人语音。
优选地,上述技术方案中,步骤1.3中,DNN网络Bottleneck层自适应训练具体步骤如下:
1.3.1准备DNN网络训练数据xn,其中选取目标说话人的少量语句,其他说话人的充分语句,DNN网络softmax输出层节点数为参与训练的说话人的总人数;
1.3.2逐层预训练DNN网络之后,进行整个DNN网络的调参优化训练,在训练过程中对每个mini_batch的误差率进行监控,当误差率低于阈值30%时暂时停止DNN网络的调参训练,保存现有的网络结构和参数;
1.3.3对训练数据进行一次说话人识别分类统计,并筛选出错分到目标说话人类别的所有帧,将这些帧的标签替换为目标说话人的标签;
1.3.4通过随机梯度下降算法依据最小化帧误差的准则进行权值调整,继续DNN网络的训练至梯度收敛。
1.3.5然后将xn逐帧输入达到收敛后的DNN网络,并将每一帧对应的Bottleneck层的激活值逐帧提取出来,即得到对应的Bottleneck特征bn
优选地,上述技术方案中,步骤2.4中,源说话人对数基频log f0利用对数域线性变换转换得到目标说话人语音基频。
对数域线性变换是一种简单的,同时也是当前使用最广泛的基频转换方法。这种方法基于一个假设,那就是每个说话人的基频在对数域服从一个高斯分布。那么,只要统计出每个说话人的对数基频的均值和方差,便能构造出两个说话人之间的基频转换关系:
Figure GDA0004166016540000101
其中源说话人的基频在对数域的均值和方差分别用μsrc和δsrc表示,目标说话人的基频在对数域的均值和方差分别用μtar和δtar表示,而F0src则表示源说话人的基频,F0conv表示转换后的基频,本处使用对数基频logF0conv,即log f0
与现有技术相比,本发明有如下有益效果:通过这样一种非平行文本语音转换系统:(1)解除对平行文本的依赖,而且训练过程不需要任何对齐过程;(2)可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换;(3)当目标说话人的训练数据有限时,可以完成非平行文本条件下的语音转换,实现语音转换技术从闭集走向开集,为实际的人机交互提供技术支撑。
附图说明:
图1是本发明基于变分自编码模型和瓶颈特征的语音转换系统训练流程图
图2是本发明基于变分自编码模型和瓶颈特征的语音转换系统转换流程图
图3是基于说话人识别任务的瓶颈特征提取网络DNN结构图
图4二分类情况下DNN网络分类边界示例图
图5通过干预后的DNN网络分类边界示例
具体实施方式
下面对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
下面结合附图对本发明实施的一种在训练数据有限情形下的非平行文本语音转换系统进行详细描述。图1是基于变分自编码模型和瓶颈特征的语音转换系统训练流程图,图2是基于变分自编码模型和瓶颈特征的语音转换系统转换流程图,图3是基于说话人识别任务的瓶颈特征提取网络DNN结构图。该方法分为训练和转换两个步骤:
1说话人语音训练
1.1获取训练语料,本处采用的语音库为CMU ARCTIC。分为两组,一组是以男性bdl进行不充分训练,awb、rms、clb和slt进行充分训练,另一组是以女性slt进行不充分训练,而其他四个说话人awb、rms、clb、bdl进行充分训练。对于充分训练的说话人每人100条语音作为训练语料,而不充分训练的说话人每人5条语音作为训练语料;
1.2使用AHOcoder语音分析模型提取语音特征参数MFCC和对数基频logf0。其中MFCC特征参数为19维语音频谱特征,并将MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征Xt=(X,ΔX,Δ2X),然后将前后相邻两帧拼接,从而得到171维的频谱特征xn=(Xt-1,Xt,Xt+1),同时每一帧特征参数都对应到所属说话人的标签特征,即yn
1.3将1.2中的特征xn参数作为DNN网络即Bottleneck特征提取网络的训练数据。DNN网络是一种多层堆栈全连接型人工神经网络,如图3所示。在本专利中,使用的DNN模型采用9层网络,其中输入层节点数为171,对应xn每帧的171维特征,中间隐层数为7层,每层的节点数分别为1200、1200、1200、57、1200、1200,其中节点数较少的隐层为Bottleneck层。利用逐层贪婪预训练法对DNN各层节点之间的连接权值进行无监督的预训练,隐层的激活函数采用ReLu函数;
Bottleneck特征是DNN网络作为特征提取的一种运用,这种DNN模型中,中间有一层节点数较少的隐层,即为Bottleneck层,这一层各个节点的激活值通常被看作是输入信号的一种低维表示,所以对于基于不同任务进行训练的DNN模型,其Bottleneck层激活值所表达的信息也会随之变化。DNN模型提取Bottleneck特征和进行说话人识别任务分为两个阶段,可以将图3中的DNN网络拆分为两个模块:Analyzer和Classifier。DNN通过Analyzer解析网络从原始的语音频谱特征参数中解析出表示说话人个性特征空间的Bottleneck特征,而后通过Classifier分类网络对Bottleneck特征进行识别分类。通过对DNN的调优训练,不仅得到了最优的分类边界,同时在Bottleneck层也形成了适于特定分类任务的Bottleneck特征空间分布,即Analyzer解析网络将输入数据解析为最适合某种特定分类的特征空间分布。一般来说,以一个平面的二分类问题为例,DNN网络作为分类器,在其训练过程不受到干预的情况下,会最终收敛形成一个较好的分类边界,如图4所示。通过对DNN进行模块划分,将DNN网络一分为二进行分析,认为通过训练之后的DNN网络不仅具备最优的分类能力,同时各帧输入信号在Bottleneck层的激活值也正是由Analyzer模块解析出的最适于特定分类的特征空间分布。
基于DNN的这样一种特性,当说话人训练数据不充分时,为了能从源说话人的特征空间中自适应出一定的目标说话人个性特征进行特征空间的补充,可以通过对DNN网络的训练过程进行干预与优化,在基于说话人识别任务的DNN网络中,在其Bottleneck层自适应出一定的目标说话人的个性特征空间。基于说话人识别任务的DNN网络训练过程的干预及Bottleneck层自适应训练具体步骤如下:
1.3.1准备DNN网络训练数据xn,其中选取目标说话人的少量语句,其他说话人的充分语句,DNN网络softmax输出层节点数为参与训练的说话人的总人数;
1.3.2逐层预训练DNN网络之后,进行整个DNN网络的调参优化训练,在训练过程中对每个mini_batch的误差率进行监控,当误差率低于阈值30%时暂时停止DNN网络的调参训练,保存现有的网络结构和参数;
1.3.3对训练数据进行一次说话人识别分类统计,并筛选出错分到目标说话人类别的所有帧,将这些帧的标签替换为目标说话人的标签;
1.3.4通过随机梯度下降算法依据最小化帧误差的准则进行权值调整,继续DNN网络的训练至梯度收敛。
1.3.5然后将xn逐帧输入达到收敛后的DNN网络,并将每一帧对应的Bottleneck层的激活值逐帧提取出来,即得到对应的Bottleneck特征bn
对DNN网络的训练过程进行干预之后,其分类边界的变化情况如图5所示,从图中可以看出,通过这样一种对DNN训练阶段进行人为干预的方法,少量类别的特征空间得到了有效补充,因此利用上述的对DNN网络训练过程进行干预的方式,认为DNN的Bottleneck层从其他说话人个性特征空间中自适应出了一定的目标说话人的特征空间,从而弥补了多说话人对多说话人语音转换中由于目标说话人不充分训练而导致的特征空间分布不足的问题。
1.4对于VAE模型的训练,1.2中的xn和1.3中DNN模型的输出bn作为VAE模型的训练数据,其中的bn与隐含特征zn进行拼接形成联合特征,加入到VAE模型的decoder部分进行训练实现语音频谱特征的重构。VAE网络的训练过程中,图1中VAE模型参数估计过程中的两个优化项利用ADAM优化器来实现。待VAE模型训练至收敛后,将VAE隐含空间z各帧的采样特征zn提取出来作为目标说话人Bottleneck特征映射网络(BP网络)的训练数据。本发明中VAE模型encoder输入层为171个节点,两个隐层,第一层为500个节点,第二层为64个节点,在第二层节点中,前32个节点计算混合高斯分布各分量的均值,后32个节点计算各分量的方差(此时是通过神经网络来计算更好拟合输入信号的高斯混合分布),隐含空间z层包含32个节点,其各个节点的值通过从第二层隐层采样获得。decoder设置为包含一个隐层,节点数为500,输出层为171个节点。除了隐含空间z层为线性输出,其他隐层激活值为ReLU函数。
VAE模型用判别模型qφ(z|x(i))去逼近真实的后验概率pθ(z|x(i)),而衡量两个分布的相似程度,则采用KL散度,如式1-1所示:
Figure GDA0004166016540000141
将式1-1作贝叶斯公式的变换并整理可得式1-2:
Figure GDA0004166016540000142
于是:
Figure GDA0004166016540000143
由于p(X)是一个已知数据集的概率,希望最小化KL(qφ(z|x(i))||pθ(z|x(i))),就要使等号右边尽可能得到最大。又因为式1-4:
Figure GDA0004166016540000144
通过整理可得:
Figure GDA0004166016540000145
其中等号右边第一项是基于qφ(z|X)的似然期望,也就是已知真实的z分布而计算出的X的分布,即根据z重建X的过程;第二项是负的KL散度。所以为找到一个好的qφ(z|X),使它尽可能地逼近pθ(z|X),需要做的就是:(1)右边第一项的log似然的期望最大化;(2)右边第二项的KL散度最小化。
为更加方便地求解式1-5,对于隐变量z,可以将z分为两部分,一部分是一个复杂函数gφ(X),再定义一个随机变量ε负责随机部分,所以可以用gφ(X+ε)来表示服从条件概率的隐含空间z,即z-1=gφ(X+ε(1)),其中q(z(i))=p(ε(i)),则式1-5又可写为:
log p(X)-KL(qφ(z)||pθ(z|X))
=∫p(ε)logp(X|gθ(X,z))dz-KL(qφ(z|X,ε)||p(z)) 式1-6
若取随机变量ε服从标准正态分布,即ε=N(0,I),而将z|X简化为一种高斯关系,进而有:
qφ(z|X,ε)=N(z|μ(X),∑(X)) 式1-7
由于多维高斯分布下的KL散度公式为:
Figure GDA0004166016540000151
故式等号右侧第二项可改写为:
Figure GDA0004166016540000152
其中det为行列式,tr为矩阵的秩,d为I的秩即d=tr(I)。将该式变为具体的神经网络和矩阵运算,将式1-9化简为:
Figure GDA0004166016540000153
这也是VAE模型的编码(encoder)部分。
等式右侧第一项即代表依赖隐变量z建出的数据应尽可能与X相同,这是VAE模型的解码(decoder)部分。
VAE模型所采用的训练语料中,选取其中四个说话人的语音对VAE模型进行充分训练,选取一个目标说话人的少量语音进行不充分训练,这样做的目的是为了初始化目标说话人的Bottleneck特征空间,Bottleneck特征提取DNN网络采用了分段式的训练方法和新的误差控制方式,从而使得基于说话人识别任务的DNN网络Bottleneck特征层进行了自适应。
1.5训练Bottleneck映射网络,将1.4中得到的zn和说话人标签特征yn组成联合特征(zn,yn)输入BP网络,并以DNN网络输出的Bottleneck特征bn作为BP网络的监督数据进行训练,使得BP网络的输出与各帧对应的Bottleneck特征bn之间的误差最小,从而得到Bottleneck特征映射网络。BP网络使用三层前馈全连接型的神经网络,输入层节点数为37个节点,其中32个节点对应VAE模型中隐含空间特征zn的维数,5个节点对应参与训练的五个说话人构成的5维说话人标签yn;输出层为57个节点,对应57维Bottleneck特征;中间包含一个隐层,节点数为1200,隐层激活函数为sigmoid函数来引入非线性变化。
1.6至此,VAE模型、DNN网络、和Bottleneck特征映射网络已经训练完成,如图1所示。
2语音转换:
2.1利用AHOcoder提取源说话人语音的MFCC参数Xsrc和对数基频
Figure GDA0004166016540000161
并利用MATLAB进行差分和特征拼接得到特征参数x′n。具体做法:19维的MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征Xt=(X,ΔX,Δ2X),然后将前后相邻两帧拼接,从而得到171维的频谱特征x′n=(Xt-1,Xt,Xt+1);
2.2将x′n输入VAE模型得到隐含特征zn,并将zn与目标说话人标签y′进行特征拼接(zn,y′),将拼接后的联合特征输入Bottleneck映射网络,网络输出Bottleneck特征
Figure GDA0004166016540000162
2.3将此Bottleneck特征
Figure GDA0004166016540000163
作为VAE频谱转换网络decoder过程的控制条件,进而得到转换后的目标说话人语音频谱参数Xtar
2.4将转换得到的语音特征参数Xtar去掉时域拼接和差分项还原成梅尔倒谱形式
Figure GDA0004166016540000164
并将2.1中提取的源说话人对数基频log f0利用对数域线性变换转换得到目标说话人语音基频。
对数域线性变换是一种简单的,同时也是当前使用最广泛的基频转换方法。这种方法基于一个假设,那就是每个说话人的基频在对数域服从一个高斯分布。那么,只要统计出每个说话人的对数基频的均值和方差,便能构造出两个说话人之间的基频转换关系:
Figure GDA0004166016540000165
其中源说话人的基频在对数域的均值和方差分别用μsrc和δsrc表示,目标说话人的基频在对数域的均值和方差分别用μtar和δtar表示,而F0src则表示源说话人的基频,F0conv表示转换后的基频,本处使用对数基频logF0conv,即log f0
2.5最后将2.4中得到的目标说话人频谱参数特征
Figure GDA0004166016540000171
以及转换后的对数基频logf0通过AHOcoder模型合成转换后的目标说话人语。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (7)

1.一种训练数据有限情形下的非平行文本语音转换方法,其特征在于,包括以下步骤:
1训练部分:
1.1训练语料通过AHOcoder分析/合成模型提取出不同说话人的不同语句的梅尔频率倒谱系数Mel-Frequency Cepstral Coefficients,MFCC和对数基频log f0
1.2对1.1中说话人每帧的MFCC语音特征X进行一次差分和二次差分,并与原特征进行拼接得到特征Xt=(X,ΔX,Δ2X),然后将拼接后特征的前后各一帧形成联合特征参数xn=(Xt-1,Xt,Xt+1);
1.3将1.2中的联合特征xn作为说话人识别任务的深度神经网络(Deep NeuralNetworks,DNN)训练的输入数据,DNN模型的输出为说话人分类标签;当目标说话人训练数据不充分时,对DNN的训练过程进行干预与优化,补充目标说话人的特征空间;待DNN模型训练至收敛后,提取每一帧的Bottleneck特征bn作为变分自编码器VariationalAutoencoder,VAE模型训练过程中decoder的监督信息;
1.4对于VAE模型的训练,将1.2中的输出xn和1.3中DNN模型的输出bn作为VAE模型的输入,按照VAE模型训练方法进行模型训练;待VAE模型训练至收敛后,将VAE隐含空间各帧的采样特征zn提取出来作为目标说话人Bottleneck特征映射网络Back Propagation网络的训练数据;
1.5训练Bottleneck映射网络,将1.4中得到的zn和说话人标签特征yn组成联合特征(zn,yn)输入BP网络,并以DNN网络输出的Bottleneck特征bn作为BP网络的监督数据进行训练,通过随机梯度下降算法优化网络的输出误差,从而得到Bottleneck特征映射网络;
1.6将以上训练好的DNN特征提取网络,VAE模型,Bottleneck特征映射网络组成语音转换系统;
2转换阶段:
2.1源说话人任意测试语音通过AHOcoder分析/合成模型提取源说话人MFCC特征参数Xsrc和对数基频log f0
2.2将源说话人任意测试语音的语音特征参数Xsrc输入VAE语音转换模型,通过VAE模型的encoder过程得到采样特征zn,并将zn和说话人标签特征yn组成联合特征(zn,yn)输入Bottleneck特征映射网络BP网络,训练得到目标说话人Bottleneck特征bn,将bn和zn通过VAE模型的decoder重构出转换后的语音特征参数Xtar
2.3将转换阶段2.1中提取的源说话人对数基频log f0转换为目标说话人语音对数基频,将转换后的语音特征参数Xtar还原为梅尔频率倒谱形式的语音频谱特征参数xn
2.4将2.3中的语音频谱特征参数xn和目标说话人语音对数基频通过AHOcoder模型合成转换后的说话人语音。
2.根据权利要求1所述的训练数据有限情形下的非平行文本语音转换方法,其特征在于:所述步骤1.1中提取MFCC特征参数和对数基频log f0是利用AHOcoder声音编码器提取得到,然后将MFCC特征参数读取到MATLAB平台进行处理。
3.根据权利要求1所述的训练数据有限情形下的非平行文本语音转换方法,其特征在于:所述步骤训练部分的1.2中提取的特征参数,首先将每一条语音特征参数在MATLAB平台对每一帧语音进行一次差分和二次差分,并将其与原始特征拼接到一起,得Xt=(X,ΔX,Δ2X),并将其前后各一帧拼接到一起得到参与VAE模型训练的联合特征xn=(Xt-1,Xt,Xt+1)。
4.根据权利要求1所述的训练数据有限情形下的非平行文本语音转换方法,其特征在于:所述步骤训练部分的1.3中对DNN特征提取网络的训练,当存在说话人训练数据不充分时,由于对目标说话人的不充分训练而使目标说话人的个性特征空间分布不足,所以需要对DNN网络的训练过程进行干预与优化,自适应出目标说话人的特征空间;当目标说话人训练数据有限时,基于说话人识别的DNN网络的Bottleneck层的训练由以下步骤组成:
1.3.1将说话人联合特征xn作为DNN网络的训练数据;其中,选取目标说话人的有限语料,其他说话人的充分语料,DNN网络的softmax输出节点数为参加训练的说话人总数;
1.3.2逐层预训练DNN网络后,进行整个DNN网络的调参优化训练,在训练过程中对每个mini_batch的误差率进行监控,当误差率低于阈值30%时暂时停止DNN网络的调参训练,保存现有的网络结构和参数;
1.3.3对训练数据进行一次说话人识别的分类统计,并筛选出错分到目标说话人类别的所有帧,将这些帧的标签替换为目标说话人的标签;
1.3.4继续DNN网络的训练直至梯度收敛;通过对DNN网络训练进行干预后,能从其他说话人的特征空间中自适应出一定的目标说话人特征,完成特征空间的补充。
5.根据权利要求1所述的训练数据有限情形下的非平行文本语音转换方法,其特征在于:在2.3步骤,将源说话人语音基频采用对数域线性变换转换得到目标说话人语音基频,将转换得到的语音特征参数Xtar去掉时域拼接和差分项还原成梅尔倒谱形式,然后再利用AHOcoder声音编码器合成转换后的目标说话人语音。
6.根据权利要求1所述的训练数据有限情形下的非平行文本语音转换方法,其特征在于:该方法分为说话人语音训练、说话人语音转换两个步骤:
1说话人语音转换训练步骤包括:
1.1获取训练语料,本处采用的语音库为CMU ARCTIC;分为两组,一组是以男性bdl进行不充分训练,awb、rms、clb和slt进行充分训练,另一组是以女性slt进行不充分训练,而其他四个说话人awb、rms、clb、bdl进行充分训练;对于充分训练的说话人每人100条语音作为训练语料,而不充分训练的说话人每人5条语音作为训练语料;
1.2使用AHOcoder语音分析模型提取语音特征参数MFCC和对数基频log f0;其中MFCC特征参数为19维语音频谱特征,并将MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征Xt=(X,ΔX,Δ2X),然后将前后相邻两帧拼接,从而得到171维的频谱特征xn=(Xt-1,Xt,Xt+1),同时每一帧特征参数都对应到说话人标签特征,即yn
1.3将1.2中的特征xn参数作为DNN网络即Bottleneck特征提取网络的训练数据;DNN网络是一种多层堆栈全连接型人工神经网络;在本方法中,使用的DNN模型采用9层网络,其中输入层节点数为171,对应xn每帧的171维特征,中间隐层数为7层,每层的节点数分别为1200、1200、1200、57、1200、1200,其中节点数较少的隐层为Bottleneck层;利用逐层贪婪预训练法对DNN各层节点之间的连接权值进行无监督的预训练,隐层的激活函数采用ReLu函数;
Bottleneck特征是DNN网络作为特征提取的一种运用,这种DNN模型中,中间有一层节点数较少的隐层,即为Bottleneck层,这一层各个节点的激活值通常被看作是输入信号的一种低维表示,所以对于基于不同任务进行训练的DNN模型,其Bottleneck层激活值所表达的信息也会随之变化;DNN模型提取Bottleneck特征和进行说话人识别任务分为两个阶段,可以将DNN网络拆分为两个模块:Analyzer和Classifier;DNN通过Analyzer解析网络从原始的语音频谱特征参数中解析出表示说话人个性特征空间的Bottleneck特征,而后通过Classifier分类网络对Bottleneck特征进行识别分类;通过对DNN的调优训练,不仅得到了最优的分类边界,同时在Bottleneck层也形成了适于特定分类任务的Bottleneck特征空间分布,即Analyzer解析网络将输入数据解析为最适合某种特定分类的特征空间分布;以一个平面的二分类问题为例,DNN网络作为分类器,在其训练过程不受到干预的情况下,会最终收敛形成一个较好的分类边界;通过对DNN进行模块划分,将DNN网络一分为二进行分析,认为通过训练之后的DNN网络不仅具备最优的分类能力,同时各帧输入信号在Bottleneck层的激活值也正是由Analyzer模块解析出的最适于特定分类的特征空间分布;
基于DNN的这样一种特性,当说话人训练数据不充分时,为了能从源说话人的特征空间中自适应出一定的目标说话人个性特征进行特征空间的补充,可以通过对DNN网络的训练过程进行干预与优化,在基于说话人识别任务的DNN网络中,在其Bottleneck层自适应出一定的目标说话人的个性特征空间;
对DNN网络的训练过程进行干预之后,通过对DNN训练阶段进行人为干预的方法,少量类别的特征空间得到了有效补充,因此利用上述的对DNN网络训练过程进行干预的方式,认为DNN的Bottleneck层从其他说话人个性特征空间中自适应出了一定的目标说话人的特征空间,从而弥补了多说话人对多说话人语音转换中由于目标说话人不充分训练而导致的特征空间分布不足的问题;
1.4对于VAE模型的训练,将1.2中的xn和1.3中DNN模型的输出bn作为VAE模型的训练数据,其中的bn与采样特征zn进行拼接形成联合特征,加入到VAE模型的decoder部分进行训练实现语音频谱特征的重构;VAE网络的训练过程中,VAE模型参数估计过程中的两个优化项利用ADAM优化器来实现;待VAE模型训练至收敛后,将VAE隐含空间各帧的采样特征zn提取出来作为目标说话人Bottleneck特征映射网络BP网络的训练数据;本方法中VAE模型encoder输入层为171个节点,两个隐层,第一层为500个节点,第二层为64个节点,在第二层节点中,前32个节点计算混合高斯分布各分量的均值,后32个节点计算各分量的方差,此时是通过神经网络来计算更好拟合输入信号的高斯混合分布,隐含空间层包含32个节点,其各个节点的值通过从第二层隐层采样获得;decoder设置为包含一个隐层,节点数为500,输出层为171个节点;除了隐含空间层为线性输出,其他隐层激活值为ReLU函数;
VAE模型用判别模型qφ(z|x(i))去逼近真实的后验概率pθ(z|x(i)),而衡量两个分布的相似程度,则采用KL散度,即式1-1所示:
Figure FDA0004159498250000061
将式1-1作贝叶斯公式的变换并整理可得式1-2:
Figure FDA0004159498250000062
于是:
Figure FDA0004159498250000063
由于p(X)是一个已知数据集的概率,希望最小化KL(qφ(z|x(i))||pθ(z|x(i))),就要使等号右边尽可能得到最大;又因为式1-4:
Figure FDA0004159498250000064
通过整理可得:
Figure FDA0004159498250000065
其中等号右边第一项是基于qφ(z|X)的似然期望,也就是已知真实的z分布而计算出的X的分布,即根据z重建X的过程;第二项是负的KL散度;所以为找到一个好的qφ(z|X),使它尽可能地逼近pθ(z|X),需要做的就是:(1)右边第一项的log似然的期望最大化;(2)右边第二项的KL散度最小化;
为更加方便地求解式1-5,对于隐变量z,可以将z分为两部分,一部分是一个复杂函数gφ(X),再定义一个随机变量ε负责随机部分,所以可以用gφ(X+ε)来表示服从条件概率的隐含空间,即zi=gφ(X+ε(i)),其中q(z(i))=p(ε(i)),
则式1-5又可写为:
Figure FDA0004159498250000071
若取随机变量ε服从标准正态分布,即ε=N(0,I),而将z|X简化为一种高斯关系,进而有:
qφ(z|X,ε)=N(z|μ(X),∑(X)) 式1-7
由于多维高斯分布下的KL散度公式为:
Figure FDA0004159498250000072
故式等号右侧第二项可改写为:
Figure FDA0004159498250000073
其中det为行列式,tr为矩阵的秩,d为I的秩即d=tr(I);将该式变为具体的神经网络和矩阵运算,将式1-9化简为:
Figure FDA0004159498250000074
这也是VAE模型的编码部分;
等式右侧第一项即代表依赖隐变量z建出的数据应尽可能与X相同,这是VAE模型的解码部分;
VAE模型所采用的训练语料中,选取其中四个说话人的语音对VAE模型进行充分训练,选取一个目标说话人的少量语音进行不充分训练,这样做的目的是为了初始化目标说话人的Bottleneck特征空间,Bottleneck特征提取DNN网络采用了分段式的训练方法和新的误差控制方式,从而使得基于说话人识别任务的DNN网络Bottleneck特征层进行了自适应;
1.5训练Bottleneck映射网络,将1.4中得到的zn和说话人标签特征yn组成联合特征(zn,yn)输入BP网络,并以DNN网络输出的Bottleneck特征bn作为BP网络的监督数据进行训练,使得BP网络的输出与各帧对应的Bottleneck特征bn之间的误差最小,从而得到Bottleneck特征映射网络;BP网络使用三层前馈全连接型的神经网络,输入层节点数为37个节点,其中32个节点对应VAE模型中隐含空间特征zn的维数,5个节点对应参与训练的五个说话人构成的5维说话人标签特征yn;输出层为57个节点,对应57维Bottleneck特征;中间包含一个隐层,节点数为1200,隐层激活函数为sigmoid函数来引入非线性变化;
1.6至此,VAE模型、DNN网络、和Bottleneck特征映射网络已经训练完成;
2进行语音转换:
2.1利用AHOcoder提取源说话人语音的MFCC参数Xsrc和对数基频
Figure FDA0004159498250000081
并利用MATLAB进行差分和特征拼接得到特征参数x′n;具体做法:19维的MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征Xt=(X,ΔX,Δ2X),然后将前后相邻两帧拼接,从而得到171维的频谱特征x′n=(Xt-1,Xt,Xt+1);
2.2将x′n输入VAE模型得到采样特征zn,并将zn与说话人标签特征y′进行特征拼接(zn,y′),将拼接后的联合特征输入Bottleneck映射网络,网络输出Bottleneck特征
Figure FDA0004159498250000082
2.3将此Bottleneck特征
Figure FDA0004159498250000083
作为VAE频谱转换网络decoder过程的控制条件,进而得到转换后的目标说话人语音频谱参数Xtar
2.4将转换得到的语音特征参数Xtar去掉时域拼接和差分项还原成梅尔倒谱形式
Figure FDA0004159498250000084
并将转换阶段2.1中提取的源说话人对数基频log f0利用对数域线性变换转换得到目标说话人语音基频;
对数域线性变换是一种简单的,同时也是当前使用最广泛的基频转换方法;这种方法基于一个假设,那就是每个说话人的基频在对数域服从一个高斯分布;那么,只要统计出每个说话人的对数基频的均值和方差,便能构造出两个说话人之间的基频转换关系:
Figure FDA0004159498250000091
其中源说话人的基频在对数域的均值和方差分别用μsrc和δsrc表示,目标说话人的基频在对数域的均值和方差分别用μtar和δtar表示,而F0src则表示源说话人的基频,F0conv表示转换后的基频,本处使用对数基频logF0conv,即log f0
2.5最后将2.4中得到的目标说话人频谱参数特征
Figure FDA0004159498250000092
以及转换后的对数基频log f0通过AHOcoder模型合成转换后的目标说话人语。
7.根据权利要求6所述的训练数据有限情形下的非平行文本语音转换方法,其特征在于:步骤1.3中,DNN网络Bottleneck层自适应训练具体步骤如下:
1.3.1准备DNN网络训练数据xn,其中选取目标说话人的少量语句,其他说话人的充分语句,DNN网络softmax输出层节点数为参与训练的说话人的总人数;
1.3.2逐层预训练DNN网络之后,进行整个DNN网络的调参优化训练,在训练过程中对每个mini_batch的误差率进行监控,当误差率低于阈值30%时暂时停止DNN网络的调参训练,保存现有的网络结构和参数;
1.3.3对训练数据进行一次说话人识别分类统计,并筛选出错分到目标说话人类别的所有帧,将这些帧的标签替换为目标说话人的标签;
1.3.4通过随机梯度下降算法依据最小化帧误差的准则进行权值调整,继续DNN网络的训练至梯度收敛;
1.3.5然后将xn逐帧输入达到收敛后的DNN网络,并将每一帧对应的Bottleneck层的激活值逐帧提取出来,即得到对应的Bottleneck特征bn
CN201810418346.1A 2018-05-03 2018-05-03 训练数据有限情形下的非平行文本语音转换方法 Active CN109671423B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810418346.1A CN109671423B (zh) 2018-05-03 2018-05-03 训练数据有限情形下的非平行文本语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810418346.1A CN109671423B (zh) 2018-05-03 2018-05-03 训练数据有限情形下的非平行文本语音转换方法

Publications (2)

Publication Number Publication Date
CN109671423A CN109671423A (zh) 2019-04-23
CN109671423B true CN109671423B (zh) 2023-06-02

Family

ID=66141879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810418346.1A Active CN109671423B (zh) 2018-05-03 2018-05-03 训练数据有限情形下的非平行文本语音转换方法

Country Status (1)

Country Link
CN (1) CN109671423B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929886B (zh) * 2019-12-06 2022-03-22 支付宝(杭州)信息技术有限公司 模型训练、预测方法及其系统
CN111883181A (zh) * 2020-06-30 2020-11-03 海尔优家智能科技(北京)有限公司 音频检测方法、装置、存储介质及电子装置
CN112017644B (zh) * 2020-10-21 2021-02-12 南京硅基智能科技有限公司 一种声音变换系统、方法及应用
CN112309365B (zh) * 2020-10-21 2024-05-10 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112466314A (zh) * 2020-11-27 2021-03-09 平安科技(深圳)有限公司 情感语音数据转换方法、装置、计算机设备及存储介质
CN112992125B (zh) * 2021-04-20 2021-08-03 北京沃丰时代数据科技有限公司 一种语音识别方法、装置、电子设备、可读存储介质
CN113488060B (zh) * 2021-06-25 2022-07-19 武汉理工大学 一种基于变分信息瓶颈的声纹识别方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063899B (zh) * 2010-10-27 2012-05-23 南京邮电大学 一种非平行文本条件下的语音转换方法
US9865247B2 (en) * 2014-07-03 2018-01-09 Google Inc. Devices and methods for use of phase information in speech synthesis systems
CN104217721B (zh) * 2014-08-14 2017-03-08 东南大学 基于说话人模型对齐的非对称语音库条件下的语音转换方法
US9721559B2 (en) * 2015-04-17 2017-08-01 International Business Machines Corporation Data augmentation method based on stochastic feature mapping for automatic speech recognition
CN107705801B (zh) * 2016-08-05 2020-10-02 中国科学院自动化研究所 语音带宽扩展模型的训练方法及语音带宽扩展方法
CN107103914B (zh) * 2017-03-20 2020-06-16 南京邮电大学 一种高质量的语音转换方法
CN107301859B (zh) * 2017-06-21 2020-02-21 南京邮电大学 基于自适应高斯聚类的非平行文本条件下的语音转换方法
CN107545903B (zh) * 2017-07-19 2020-11-24 南京邮电大学 一种基于深度学习的语音转换方法

Also Published As

Publication number Publication date
CN109671423A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN109671423B (zh) 训练数据有限情形下的非平行文本语音转换方法
CN108777140B (zh) 一种非平行语料训练下基于vae的语音转换方法
CN109326283B (zh) 非平行文本条件下基于文本编码器的多对多语音转换方法
Hsu et al. Learning latent representations for speech generation and transformation
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
Rebai et al. Improving speech recognition using data augmentation and acoustic model fusion
Hossain et al. Implementation of back-propagation neural network for isolated Bangla speech recognition
US20190147854A1 (en) Speech Recognition Source to Target Domain Adaptation
Luo et al. Emotional voice conversion using deep neural networks with MCC and F0 features
CN112331216A (zh) 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
Ahmed et al. Acoustic modeling using deep belief network for Bangla speech recognition
Pardede et al. Convolutional neural network and feature transformation for distant speech recognition
Miao et al. Improving language-universal feature extraction with deep maxout and convolutional neural networks
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
KR100832556B1 (ko) 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
Ling An acoustic model for English speech recognition based on deep learning
Kumar et al. Designing neural speaker embeddings with meta learning
Hasan et al. Investigation of the effect of mfcc variation on the convolutional neural network-based speech classification
CN108831486B (zh) 基于dnn与gmm模型的说话人识别方法
Li et al. Many-to-many voice conversion based on bottleneck features with variational autoencoder for non-parallel training data
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
Kaushik et al. End-to-end speaker age and height estimation using attention mechanism and triplet loss
Utomo et al. Spoken word and speaker recognition using MFCC and multiple recurrent neural networks
Hu et al. I-vector and dnn hybrid method for short utterance speaker recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant