CN107545903B - 一种基于深度学习的语音转换方法 - Google Patents

一种基于深度学习的语音转换方法 Download PDF

Info

Publication number
CN107545903B
CN107545903B CN201710589792.4A CN201710589792A CN107545903B CN 107545903 B CN107545903 B CN 107545903B CN 201710589792 A CN201710589792 A CN 201710589792A CN 107545903 B CN107545903 B CN 107545903B
Authority
CN
China
Prior art keywords
deep
network
characteristic parameters
speaker
dsae
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710589792.4A
Other languages
English (en)
Other versions
CN107545903A (zh
Inventor
李燕萍
凌云志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201710589792.4A priority Critical patent/CN107545903B/zh
Publication of CN107545903A publication Critical patent/CN107545903A/zh
Application granted granted Critical
Publication of CN107545903B publication Critical patent/CN107545903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于深度学习的语音转换方法,属于语音信号处理技术领域。本发明使用声音编解码器AHOcoder作为特征提取端和语音合成端,使用一种深度学习的方法对语音特征进行训练分别得到源说话人和目标说话人的深层特征,同时得到由深层特征重构原始特征的解码能力,使用BP神经网络实现源说话人和目标说话人深层特征的映射,从而实现语音转换。本发明优点在于对语音的原始特征进行了拼接,认为拼接后的联合特征参数包含有说话人语音特性的动态特征,通过预训练深度自编码器加速了深度神经网络的训练,且通过深层特征的转换使得在使用少量语料进行训练的情况下得到了品质较好的转换后的语音,并且本发明支持离线学习,节约了终端设备的计算资源和内存。

Description

一种基于深度学习的语音转换方法
技术领域
本发明涉及一种语音转换与语音合成的方法,属于语音信号处理技术领域。
背景技术
语音转换技术是语音信号处理的一个研究分支,它涵盖了说话人识别、语音识别及语音合成等领域的内容,拟在保留原有的语义信息不变的情况下改变语音的个性化信息,使特定说话人(即源说话人)的语音听起来像另一个特定说话人(即目标说话人)的语音。语音转换的主要任务包括提取两个特定说话人语音的特征参数并进行映射转换,然后将变换后的参数解码重构成转换后的语音。在此过程中要保证得到的转换后语音的听觉质量和转换后个性特征是否精确。
语音转换技术的研究经过多年发展,语音转换领域已经涌现出多种不同的方法,其中以高斯混合模型为代表的统计转换方法已经成为该领域中的经典方法。但是这类算法还是存在某些缺陷,比如:使用高斯模型进行语音转换实验,转换后的语音音质较差,且对高斯模型的混合度等参数设置得不恰当,通常导致欠拟合和过拟合;使用高斯混合模型来训练映射函数时考虑的是全局变量并通过迭代训练数据,这导致了计算量骤增,且需要在训练数据充分时,高斯混合模型才能达到较好的转换效果,这不适用于有限的计算资源和设备。
近年来,深度学习领域的火热加速了深度神经网络的训练速度和网络的有效性,其建模能力强,可以逼近复杂函数,更重要的是深度神经网络可以学习到深层特征表示,因此在使用比传统的高斯混合模型更少的训练数据的情况下,也能保证模型对特征参数转换的性能,且训练深度学习模型时支持离线学习,所以一定程度上可以解决用户终端的计算资源。
发明内容
本发明所要解决的技术问题是:在有限的计算资源和设备的条件下,提供一种语音转换方法,利用深度学习的优点结合深度学习加速网络训练的方法,应用AHOcoder语音编解码器,通过离线学习节约终端计算资源,且通过使用少量的训练数据也能得到较好的转换效果。
本发明为解决上述技术问题采用以下技术方案:
本发明提出一种基于深度学习的语音转换方法,包括训练步骤和语音转换步骤,其中,训练步骤如下:
1)、利用AHOcoder语音编解码器分别对源说话人和目标说话人的语音进行处理,提取出各自的梅尔倒谱特征参数Xt,Yt
2)、将提取出的特征参数逐句进行DTW对齐,然后取每一帧特征参数和其前后各一帧的特征拼接形成联合特征参数,分别作为源说话人的特征参数和目标说话人的特征参数,即Xp=(Xt-1,Xt,Xt+1),Yp=(Yt-1,Yt,Yt+1);
3)、通过深度堆栈自编码器DSAE分别对源说话人和目标说话人的特征参数进行训练,分别得到源说话人的深度堆栈自编码器DSAEs和目标说话人的深度堆栈自编码器DSAEt,然后利用前馈算法,将训练使用源说话人和目标说话人的语音特征参数分别逐帧输入到各自对应的DSAE中,得到每一帧对应的中间隐层的激活值,即为源说话人和目标说话人的深层特征DXp,DYp
4)、将源说话人和目标说话人的深层特征通过BP神经网络进行训练得到深层特征的映射网络;
5)、将DSAEs的编码块和DSAEt的解码块叠加到映射网络的两端,构成深度神经网络,并通过梯度下降算法依据均方误差最小化准则优化深度神经网络的权值,得到一个由源说话人语音联合特征参数直接转换为目标说话人语音联合特征参数特征的转换网络;
语音转换步骤如下:
6)、利用AHOcoder语音编解码器对源说话人的语音进行处理,提取出源说话人的梅尔倒谱特征参数,将提取出的特征参数逐句进行DTW对齐,然后取每一帧特征参数和其前后各一帧的特征拼接形成联合特征参数;
7)、将联合特征参数作为深度神经网络的输入,从深度神经网络的输出端即得到转换后目标说话人语音的联合特征参数,再通过AHOcoder语音编解码器合成转换后目标说话人的语音。
进一步的,本发明所提出的一种基于深度学习的语音转换方法,步骤1)中提取梅尔倒谱特征参数是利用AHOcoder语音编解码器提取语音的mcep参数,并将该参数读入Matlab程序中得到。
进一步的,本发明所提出的一种基于深度学习的语音转换方法,所述步骤3)中训练深度堆栈自编码器得到深层特征,包括如下步骤:
c1)、将步骤2)得到的特征参数通过降噪自编码器DAE方法训练第一个自编码器AE;
c2)、将第一个自编码器AE的隐层激活值作为输入,在降噪自编码器DAE后端训练3个自编码器AE,并设置好每层的节点数,训练完成后将每个自编码器AE的隐层和权值展开,即得到一个深度堆栈编码器DSAE模型;
c3)、将特征参数作为深度堆栈编码器DSAE模型的输入,通过前向传播得到模型的输出,即为深层特征。
进一步的,本发明所提出的一种基于深度学习的语音转换方法,DSAE模型编码块encoder采用5层网络,每层的节点数分别为57,180,70,15,64,则解码块decoder为与编码块对称的5层网络,隐层节点采用激活函数ReLU函数。
进一步的,本发明所提出的一种基于深度学习的语音转换方法,所述步骤4)中,映射网络的训练方法包括如下步骤:
构建一个含有单隐层的BP网络,以源说话人的深层特征DXp作为网络的输入,将网络的输出和目标说话人的深层特征DYp进行比较计算误差,然后采用BP算法调整网络权值。
进一步的,本发明所提出的一种基于深度学习的语音转换方法,利用深层特征DYp,DYp训练一个BP网络得到一个深层特征的映射网络,具体如下:
A、BP网络采用一个输入层,一个隐含层,一个输出层的三层神经网络,每层的节点数分别为64,100,64,隐含层的激活函数采用Sigmoid函数,即:
f(x)=1/(1+e-x)
B、将DYp作为训练数据,得到BP网络的输出值DXp′,利用CD算法最小化误差:
||DX′p-DYp||2
C、优化BP网络的权值,即得到深层特征的映射网络。
进一步的,本发明所提出的一种基于深度学习的语音转换方法,所述步骤5)具体步骤如下:
e1)、利用步骤3)得到的源说话人的深度堆栈自编码器DSAEs和目标说话人的深度堆栈自编码器DSAEt,以及步骤4)得到的映射网络组合成深度神经网络
Figure BDA0001354437550000031
;在深度神经网络
Figure BDA0001354437550000032
中,映射网络前端的权值采用源说话人DSAEs的encode编码权值,映射网络后端的权值采用DSAEt每层的倒序的decode解码权值;
e2)、依据均方误差最小化准则,采用后向误差传播的梯度下降算法优化深度神经网络
Figure BDA0001354437550000033
的权值至收敛。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
相比于经典的高斯转换方法,本发明利用深度学习的方法分别得到源说话人和目标说话人的DSAE(Deep Stacked Autoencoder,深度堆栈自编码器)模型和语音的深层特征,用BP网络进行训练得到深层特征的映射网络,最后将源说话人的DSAE的encoder编码模块、BP映射网络和目标说话人的DSAE的decoder解码模块组合成深度神经网络,作为特征参数的转换网络,实现语音特征参数的转换,最后用转换后的语音特征参数合成语音。
本发明的优点在于:
①利用深度学习可以学习到语音最本质的特征的优点,通过对语音特征参数的深层特征的转换,提高了在使用少量训练数据训练模型的情况下的语音转换效果;
②在本发明中,使用了拼接之后的联合特征参数来训练DSAE模型,由于经过拼接后的联合特征参数包含了更多的序列动态信息,所以使得模型能够学习到特定说话人说话时发声的动态变化,这样在使用同样的少量数据进行不充分的训练时,得到的转换语音效果要优于传统的高斯模型转换的方法;且本方法可以通过离线学习,节约终端计算和存储资源。
附图说明
图1是本发明涉及的系统的训练过程框图。
图2为本发明涉及的系统的转换过程框图。
图3为本发明中涉及的自编码器(AE)及训练过程、深度堆栈自编码器(DSAE)、深度神经网络的结构图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
AHOcoder特征参数提取模型是一个语音编解码器(语音分析/合成系统),由Daniel Erro在巴斯克大学的AHOLAB信号处理实验室研发而得。AHOcoder将16kHz、16bits的单声道wav语音分解为三部分:基频(logf0)、谱(梅尔倒谱系数MFCC)和最大浊音频率。AHOcoder语音分析、合成模型可以提供一个精确的语音分析以及高质量的语音波形重建。
AE(Autoencoder,自动编码器)是一种无监督学习方法,其模型的具体结构在图3中,其中we表示自动编码器的编码权值,wd表示解码权值,而DSAE(Deep StackedAutoencoder,深度堆栈自编码器)是将自动编码器“栈化”到逐层贪婪训练方法中得到的一种深度学习的模型,具体描述如图3。
本发明利用深度学习的优点结合深度学习加速网络训练的方法,应用AHOcoder语音编解码器,提供了一种可以通过离线学习,节约终端计算资源,且通过使用少量的训练数据也能得到较好的转换效果的语音转换方法。
本发明通过AHOcoder声音编解码器提取语音的梅尔倒谱特征MCEP并利用DTW(Dynamic Time Warping,动态时间归整)算法将特征对齐后进行逐帧的特征拼接,通过DSAE模型对拼接后的特征进行特征学习并得到深层特征,然后将深层特征通过BP神经网络进行学习得到映射网络,在转换时,由于在训练DSAE时也学得了将深层特征解码重构为原始语音特征的能力,故可以构建一个深度神经网络实现语音特征的转换,最后再通过AHOcoder合成语音。具体包括如下步骤:
(1)利用AHOcoder声音编解码器分别对源说话人和目标说话人的语音进行处理,提取出各自的梅尔倒谱特征参数Xt,Yt
(2)将提取出的特征参数逐句进行DTW对齐,然后进行特征参数的拼接,得到的联合特征参数,即Xp=(Xt-1,Xt,Xt+1),Yp=(Yt-1,Yt,Yt+1),把它们分别作为源说话人的特征参数和目标说话人的特征参数。
(3)通过DSAE模型分别对源说话人和目标说话人的特征参数Xp和Yp进行训练,得到源说话人和目标说话人的深度堆栈自编码器模型DSAEs和DSAEt,并得到深层特征DXp和DYp
(4)将两个说话人的深层特征DXp和DYp通过BP神经网络进行训练得到BP映射网络。
(5)将DSAEs和DSAEt和BP映射网络展开并组合成深度神经网络
Figure BDA0001354437550000051
,并通过CD算法依据最小化序列误差的准则进行权值调整。
(6)将训练好的深度神经网络
Figure BDA0001354437550000052
作为转换网络,将源说话人特征参数作为深度神经网络
Figure BDA0001354437550000053
的输入,利用前馈算法得到转换后的特征参数。
(7)将转换得到的特征参数再利用AHOcoder重建语音信号。
上述的步骤中,步骤(1)~(5)为训练步骤,步骤(6)、(7)为转换和合成步骤;所述深度堆栈自编码器DSAE是一种深度学习的模型,相比于其它的如深度置信网络DBN,卷积神经网络CNN等,DSAE在训练过程中能够学习到从深层特征重构原始输入的转换关系,所以DSAE是通过深度学习的方法进行语音转换实验的一种合理的模型。通过对语音特征参数用DSAE进行特征训练,即可得到语音的更深层的更抽象的特征,并且认为深层特征对语音信号有更好的描述。通过特征参数的拼接使得训练时特征参数中带着序列的动态信息,它代表着说话人发声的动态变化,这也使得模型在训练时能够学习到这种动态变化,得到更加自然的语音转换效果。通过BP网络训练得到的映射网络得到源说话人与目标说话人深层特征DXp和DYp之间的映射关系,然后通过DSAE的解码重构能力,将三个模型组合起来得到一个多层的深度神经网络
Figure BDA0001354437550000054
,作为特征参数的转换网络。
本发明是针对传统的高斯混合模型转换方法中存在的问题以及深度学习方法方法的优点,提出的一种新的解决方法,本方案有两个关键点:
一是利用DSAE模型对语音信号的梅尔倒谱特征进行特征建模,学习过程中利用了帧拼接的联合特征参数作为训练数据,使得模型可以学习到更多表征说话人发声动态变化的信息,之后得到深层特征,然后利用BP神经网络对源和目标的深层特征进行建模得到映射网络,之后利用DSAE建模时学习到的从深层特征重构原始数据的能力将映射后的深层特征还原为原始语音特征;二是利用BP神经网络对深层特征进行映射转换时,因为深层特征代表了语音信号更本质的特征,从而在模型训练不充分时也能得到较好的转换效果。
本发明的创新之处在于:①利用深度学习的方法获得语音的深层特征,并通过BP神经网络进行训练得到映射网络,从而建立源于目标说话人之间语音特征的转换规则;②利用帧拼接的联合特征参数作为DSAE模型训练的数据,拼接后的联合特征参数包含了表征说话人发声变化的序列动态信息,在此方法下,在利用少量数据进行训练时也能获得较好的转换效果。具体的操作步骤如下:
对于利用AHOcoder提取,并用DTW对齐后的原始语音特征Xt和Yt,t=1,2,...,T,其中T表示提取语音特征时语音分帧的总帧数,每一帧的维数为r维。通过特征拼接,得到联合特征参数Xp和Yp,其中Xp=(Xt-1,Xt,Xt+1),Yp=(Yt-1,Yt,Yt+1),联合特征参数为3r维特征(比如将一帧19维的特征参数和时序方向上的前一帧与后一帧特征参数拼接成为一帧57维的特征参数)。将Xp和Yp作为训练数据,分别利用DSAE模型进行模型训练得到DSAEs和DSAEt,并得到源说话人和目标说话人的深层特征DXp和DYp
接着用深层特征DXp和DYp训练BP网络作为深层特征的映射网络,然后将DSAEs的编码块和DSAEt的解码块叠加到映射网络的两端,构成深度神经网络
Figure BDA0001354437550000061
,通过BP算法优化
Figure BDA0001354437550000062
的网络的权值,即得到了一个由联合特征参数直接转换为目标语音联合特征参数特征的转换网络。最后将转换后的语音特征直接合成转换后的语音。
以下结合附图,进一步详细介绍本发明的语音转换系统具体的操作步骤。
参考如图1所示,训练阶段包括如下步骤:
①通过DSAE对Xp,Yp分别进行训练,得到DSAEs和DSAEt,同时得到源说话人与目标说话人的深层特征DXp,DYp
②利用深层特征DXp,DYp训练一个BP网络作为深层特征的映射网络;
③将DSAEs的编码块和DSAEt的解码块叠加到映射网络的两端,构成深度神经网络
Figure BDA0001354437550000071
通过BP算法优化
Figure BDA0001354437550000072
的网络的权值,即得到了一个由联合特征参数直接转换为目标语音联合特征参数特征的转换网络。
如图2所示,转换阶段步骤如下:
①将待转换的源说话人的语音,通过AHOcoder提取出原始语音特征参数,之后通过DTW进行对齐,然后进行特征拼接得到联合特征参数;
②将联合特征参数作为N的输入,从网络的输出端即得到转换后的联合特征参数,再通过AHOcoder合成转换后的语音;
下面进一步结合具体实例对本发明的技术方案作进一步说明。
在训练阶段:
①通过DSAE对Xp,Yp分别进行训练,得到DSAEs和DSAEt,同时得到源说话人与目标说话人的深层特征DXp,DYp。具体细节描述如下:
a.将Xp,Yp作为训练数据分别训练源说话人和目标说话人的DSAE。Xp,Yp分别为源说话人和目标说话人的57维的联合特征参数,然后利用DSAE模型进行训练,具体训练过程如图3所示。在本发明中,DSAE模型编码块encoder采用5层的网络,每层的节点数分别为57,180,70,15,64,则解码块decoder为与编码块对称的五层网络,隐层节点采用生物学角度与脑神经元更接近的激活函数ReLU函数,即:
f(x)=max(0,x)
因为ReLU函数具备单侧抑制、稀疏激活性和相对宽阔的兴奋边界,所以认为其具备更原始特征的表达能力。
隐层的激活值即为:hk+1=f(wkhk+bk)
其中wk为第k层与第k+1层之间的连接权值,bk为第k层的偏置。
b.以DSAEs为例,深层特征为DSAEs中间层的线性激活值,即:
DXp=w4h4+b4
②利用深层特征DXp,DYp训练一个BP网络得到一个深层特征的映射网络,具体细节描述如下:
A、BP网络采用一个输入层,一个隐含层,一个输出层的三层神经网络,每层的节点数分别为64,100,64,隐含层的激活函数采用Sigmoid函数,即:
f(x)=1/(1+e-x)
B、将DXp作为训练数据,得到BP网络的输出值DXp′,利用CD算法最小化误差:
||DXp′-DYp||2
C、优化BP网络的权值,即得到深层特征的映射网络。
③将DSAEs的编码块和DSAEt的解码块叠加到BP映射网络的两端,构成深度神经网络
Figure BDA0001354437550000085
,通过BP算法优化
Figure BDA0001354437550000086
的权值,即得到了一个由源说话人联合特征参数转换为目标说话人语音联合特征参数的转换。具体描述如下:
a.在训练阶段,得到DSAEs、DSAEt和BP映射网络,将DSAEs的编码块encoder和DSAEt的解码块decoder叠加到BP映射网络两端,即构成了一个关于BP映射网络隐含层左右对称的初始化深度神经网络。通过CD算法,最小化深度神经网络的输出Xp′与目标说话人语音联合特征参数Yp之间的误差,即:
||Xp′-Yp||2
优化整个网络的权值,最终得到一个联合特征参数的转换网络
Figure BDA0001354437550000081
当Xp输入
Figure BDA0001354437550000082
时,网络通过前段编码块生成深层特征DXp,之后通过BP映射网络得到DXp′,且认为DXp′为转换后的目标说话人语音的深层特征,之后网络后端的解码块将DXp′解码成转换后的联合特征参数供AHOcoder合成转换后的语音。
在转换阶段:
(1)将训练好的深度神经网络
Figure BDA0001354437550000083
作为转换网络,利用前馈算法,以源说话人联合特征参数作为输入得到
Figure BDA0001354437550000084
的输出值,即为转换后的语音联合特征特征参数。
(2)将转换后的语音特征参数再利用AHOcoder重建语音信号。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于深度学习的语音转换方法,其特征在于,包括训练步骤和语音转换步骤,其中,训练步骤如下:
1)、利用AHOcoder语音编解码器分别对源说话人和目标说话人的语音进行处理,提取出各自的梅尔倒谱特征参数Xt,Yt
2)、将提取出的特征参数逐句进行DTW对齐,然后取每一帧特征参数和其前后各一帧的特征拼接形成联合特征参数,分别作为源说话人的特征参数和目标说话人的特征参数,即Xp=(Xt-1,Xt,Xt+1),Yp=(Yt-1,Yt,Yt+1);
3)、通过深度堆栈自编码器DSAE分别对源说话人和目标说话人的特征参数进行训练,分别得到源说话人的深度堆栈自编码器DSAEs和目标说话人的深度堆栈自编码器DSAEt,然后利用前馈算法,将训练使用源说话人和目标说话人的语音特征参数分别逐帧输入到各自对应的DSAE中,得到每一帧对应的中间隐层的激活值,即为源说话人和目标说话人的深层特征DXp,DYp
4)、将源说话人和目标说话人的深层特征通过BP神经网络进行训练得到深层特征的映射网络;映射网络的训练方法包括如下步骤:
构建一个含有单隐层的BP网络,以源说话人的深层特征DXp作为网络的输入,将网络的输出和目标说话人的深层特征DYp进行比较计算误差,然后采用BP算法调整网络权值;
其中,利用深层特征DXp,DYp训练一个BP网络得到一个深层特征的映射网络,具体如下:
A、BP网络采用一个输入层,一个隐含层,一个输出层的三层神经网络,每层的节点数分别为64,100,64,隐含层的激活函数采用Sigmoid函数,即:
f(x)=1/(1+e-x)
B、将DXp作为训练数据,得到BP网络的输出值DXp',利用CD算法最小化误差:
||DXp′-DYp||2
C、优化BP网络的权值,即得到深层特征的映射网络;
5)、将DSAEs的编码块和DSAEt的解码块叠加到映射网络的两端,构成深度神经网络,并通过梯度下降算法依据均方误差最小化准则优化深度神经网络的权值,得到一个由源说话人语音联合特征参数直接转换为目标说话人语音联合特征参数特征的转换网络;
语音转换步骤如下:
6)、利用AHOcoder语音编解码器对源说话人的语音进行处理,提取出源说话人的梅尔倒谱特征参数,将提取出的特征参数逐句进行DTW对齐,然后取每一帧特征参数和其前后各一帧的特征拼接形成联合特征参数;
7)、将联合特征参数作为深度神经网络的输入,从深度神经网络的输出端即得到转换后目标说话人语音的联合特征参数,再通过AHOcoder语音编解码器合成转换后目标说话人的语音。
2.根据权利要求1所述的一种基于深度学习的语音转换方法,其特征在于:步骤1)中提取梅尔倒谱特征参数是利用AHOcoder语音编解码器提取语音的mcep参数,并将该参数读入Matlab程序中得到。
3.根据权利要求1所述的一种基于深度学习的语音转换方法,其特征在于,所述步骤3)中训练深度堆栈自编码器得到深层特征,包括如下步骤:
c1)、将步骤2)得到的特征参数通过降噪自编码器DAE方法训练第一个自编码器AE;
c2)、将第一个自编码器AE的隐层激活值作为输入,在降噪自编码器DAE后端训练3个自编码器AE,并设置好每层的节点数,训练完成后将每个自编码器AE的隐层和权值展开,即得到一个深度堆栈编码器DSAE模型;
c3)、将特征参数作为深度堆栈编码器DSAE模型的输入,通过前向传播得到模型的输出,即为深层特征。
4.根据权利要求3所述的一种基于深度学习的语音转换方法,其特征在于,DSAE模型编码块encoder采用5层网络,每层的节点数分别为57,180,70,15,64,则解码块decoder为与编码块对称的5层网络,隐层节点采用激活函数ReLU函数。
5.根据权利要求1所述的一种基于深度学习的语音转换方法,其特征在于:所述步骤5)具体步骤如下:
e1)、利用步骤3)得到的源说话人的深度堆栈自编码器DSAEs和目标说话人的深度堆栈自编码器DSAEt,以及步骤4)得到的映射网络组合成深度神经网络
Figure FDA0002552092800000021
在深度神经网络
Figure FDA0002552092800000022
中,映射网络前端的权值采用源说话人DSAEs的encode编码权值,映射网络后端的权值采DSAEt每层的倒序的decode解码权值;
e2)、依据均方误差最小化准则,采用后向误差传播的梯度下降算法优化深度神经网络
Figure FDA0002552092800000023
的权值至收敛。
CN201710589792.4A 2017-07-19 2017-07-19 一种基于深度学习的语音转换方法 Active CN107545903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710589792.4A CN107545903B (zh) 2017-07-19 2017-07-19 一种基于深度学习的语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710589792.4A CN107545903B (zh) 2017-07-19 2017-07-19 一种基于深度学习的语音转换方法

Publications (2)

Publication Number Publication Date
CN107545903A CN107545903A (zh) 2018-01-05
CN107545903B true CN107545903B (zh) 2020-11-24

Family

ID=60970208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710589792.4A Active CN107545903B (zh) 2017-07-19 2017-07-19 一种基于深度学习的语音转换方法

Country Status (1)

Country Link
CN (1) CN107545903B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108357B (zh) * 2018-01-12 2022-08-09 京东方科技集团股份有限公司 口音转换方法及装置、电子设备
CN108053836B (zh) * 2018-01-18 2021-03-23 成都嗨翻屋科技有限公司 一种基于深度学习的音频自动化标注方法
CN108304359B (zh) * 2018-02-06 2019-06-14 中国传媒大学 无监督学习统一特征提取器构建方法
CN108388549B (zh) 2018-02-26 2021-02-19 腾讯科技(深圳)有限公司 信息转换方法、装置、存储介质和电子装置
CN108461085A (zh) * 2018-03-13 2018-08-28 南京邮电大学 一种短时语音条件下的说话人识别方法
CN109671423B (zh) * 2018-05-03 2023-06-02 南京邮电大学 训练数据有限情形下的非平行文本语音转换方法
CN109035318B (zh) * 2018-06-14 2021-11-30 西安电子科技大学 一种图像风格的转换方法
CN109241972B (zh) * 2018-08-20 2021-10-01 电子科技大学 基于深度学习的图像语义分割方法
CN109147758B (zh) * 2018-09-12 2020-02-14 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN109472303A (zh) * 2018-10-30 2019-03-15 浙江工商大学 一种基于自编码网络决策的气体传感器漂移补偿方法
CN110070852B (zh) * 2019-04-26 2023-06-16 平安科技(深圳)有限公司 合成中文语音的方法、装置、设备及存储介质
US11854562B2 (en) * 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
CN110113432A (zh) * 2019-05-23 2019-08-09 吉林大学 一种基于深度学习算法的Web API请求适配方法
CN110187321B (zh) * 2019-05-30 2022-07-22 电子科技大学 基于深度学习的复杂环境下雷达辐射源特征参数提取方法
CN110223705B (zh) * 2019-06-12 2023-09-15 腾讯科技(深圳)有限公司 语音转换方法、装置、设备及可读存储介质
CN110491400B (zh) * 2019-08-21 2021-05-28 浙江树人学院(浙江树人大学) 一种基于深度自编码器的语音信号重建方法
CN110473516B (zh) * 2019-09-19 2020-11-27 百度在线网络技术(北京)有限公司 语音合成方法、装置以及电子设备
CN112786001B (zh) * 2019-11-11 2024-04-09 北京地平线机器人技术研发有限公司 语音合成模型训练方法、语音合成方法和装置
CN111128114B (zh) * 2019-11-11 2022-04-22 北京大牛儿科技发展有限公司 一种语音合成的方法及装置
WO2021120145A1 (zh) * 2019-12-20 2021-06-24 深圳市优必选科技股份有限公司 语音转换方法、装置、计算机设备及计算机可读存储介质
CN111433847B (zh) * 2019-12-31 2023-06-09 深圳市优必选科技股份有限公司 语音转换的方法及训练方法、智能装置和存储介质
CN111599368B (zh) * 2020-05-18 2022-10-18 杭州电子科技大学 一种基于直方图匹配的自适应实例规一化语音转换方法
CN112750426B (zh) * 2021-02-01 2023-10-20 福州大学 移动终端语音分析系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568476A (zh) * 2012-02-21 2012-07-11 南京邮电大学 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN103021418A (zh) * 2012-12-13 2013-04-03 南京邮电大学 一种面向多时间尺度韵律特征的语音转换方法
CN103531205A (zh) * 2013-10-09 2014-01-22 常州工学院 基于深层神经网络特征映射的非对称语音转换方法
WO2014189550A1 (en) * 2013-05-24 2014-11-27 University Of Maryland Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568476A (zh) * 2012-02-21 2012-07-11 南京邮电大学 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN103021418A (zh) * 2012-12-13 2013-04-03 南京邮电大学 一种面向多时间尺度韵律特征的语音转换方法
WO2014189550A1 (en) * 2013-05-24 2014-11-27 University Of Maryland Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions
CN103531205A (zh) * 2013-10-09 2014-01-22 常州工学院 基于深层神经网络特征映射的非对称语音转换方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于ISODATA聚类算法的语音转换研究;崔立梅等;《计算机技术与发展》;20170630;全文 *
面向中文语音情感识别的改进栈式自编码结构;朱芳枚 等;《东南大学学报(自然科学版)》;20170430;全文 *

Also Published As

Publication number Publication date
CN107545903A (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
CN107545903B (zh) 一种基于深度学习的语音转换方法
Fang et al. High-quality nonparallel voice conversion based on cycle-consistent adversarial network
CN112767958B (zh) 一种基于零次学习的跨语种音色转换系统及方法
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
Qian et al. Very deep convolutional neural networks for noise robust speech recognition
CN112735373B (zh) 语音合成方法、装置、设备及存储介质
WO2022083083A1 (zh) 一种声音变换系统以及声音变换系统的训练方法
Kons et al. High quality, lightweight and adaptable TTS using LPCNet
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN108777140A (zh) 一种非平行语料训练下基于vae的语音转换方法
CN108847249A (zh) 声音转换优化方法和系统
Song et al. ExcitNet vocoder: A neural excitation model for parametric speech synthesis systems
Fei et al. Research on speech emotion recognition based on deep auto-encoder
Chen et al. Improving Speech Recognition Using GAN-Based Speech Synthesis and Contrastive Unspoken Text Selection.
Aryal et al. Articulatory-based conversion of foreign accents with deep neural networks
Niwa et al. Statistical voice conversion based on WaveNet
CN111460143A (zh) 一种多人对话系统的情绪识别模型
Moon et al. Mist-tacotron: End-to-end emotional speech synthesis using mel-spectrogram image style transfer
Su et al. Cross-domain deep visual feature generation for mandarin audio–visual speech recognition
Bi et al. Deep feed-forward sequential memory networks for speech synthesis
CN112634918A (zh) 一种基于声学后验概率的任意说话人语音转换系统及方法
CN113470622B (zh) 一种可将任意语音转换成多个语音的转换方法及装置
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
Sadekova et al. A Unified System for Voice Cloning and Voice Conversion through Diffusion Probabilistic Modeling.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant