CN107545903B

CN107545903B - 一种基于深度学习的语音转换方法

Info

Publication number: CN107545903B
Application number: CN201710589792.4A
Authority: CN
Inventors: 李燕萍; 凌云志
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2020-11-24
Anticipated expiration: 2037-07-19
Also published as: CN107545903A

Abstract

本发明公开了一种基于深度学习的语音转换方法，属于语音信号处理技术领域。本发明使用声音编解码器AHOcoder作为特征提取端和语音合成端，使用一种深度学习的方法对语音特征进行训练分别得到源说话人和目标说话人的深层特征，同时得到由深层特征重构原始特征的解码能力，使用BP神经网络实现源说话人和目标说话人深层特征的映射，从而实现语音转换。本发明优点在于对语音的原始特征进行了拼接，认为拼接后的联合特征参数包含有说话人语音特性的动态特征，通过预训练深度自编码器加速了深度神经网络的训练，且通过深层特征的转换使得在使用少量语料进行训练的情况下得到了品质较好的转换后的语音，并且本发明支持离线学习，节约了终端设备的计算资源和内存。

Description

一种基于深度学习的语音转换方法

技术领域

本发明涉及一种语音转换与语音合成的方法，属于语音信号处理技术领域。

背景技术

语音转换技术是语音信号处理的一个研究分支，它涵盖了说话人识别、语音识别及语音合成等领域的内容，拟在保留原有的语义信息不变的情况下改变语音的个性化信息，使特定说话人(即源说话人)的语音听起来像另一个特定说话人(即目标说话人)的语音。语音转换的主要任务包括提取两个特定说话人语音的特征参数并进行映射转换，然后将变换后的参数解码重构成转换后的语音。在此过程中要保证得到的转换后语音的听觉质量和转换后个性特征是否精确。

语音转换技术的研究经过多年发展，语音转换领域已经涌现出多种不同的方法，其中以高斯混合模型为代表的统计转换方法已经成为该领域中的经典方法。但是这类算法还是存在某些缺陷，比如：使用高斯模型进行语音转换实验，转换后的语音音质较差，且对高斯模型的混合度等参数设置得不恰当，通常导致欠拟合和过拟合；使用高斯混合模型来训练映射函数时考虑的是全局变量并通过迭代训练数据，这导致了计算量骤增，且需要在训练数据充分时，高斯混合模型才能达到较好的转换效果，这不适用于有限的计算资源和设备。

近年来，深度学习领域的火热加速了深度神经网络的训练速度和网络的有效性，其建模能力强，可以逼近复杂函数，更重要的是深度神经网络可以学习到深层特征表示，因此在使用比传统的高斯混合模型更少的训练数据的情况下，也能保证模型对特征参数转换的性能，且训练深度学习模型时支持离线学习，所以一定程度上可以解决用户终端的计算资源。

发明内容

本发明所要解决的技术问题是：在有限的计算资源和设备的条件下，提供一种语音转换方法，利用深度学习的优点结合深度学习加速网络训练的方法，应用AHOcoder语音编解码器，通过离线学习节约终端计算资源，且通过使用少量的训练数据也能得到较好的转换效果。

本发明为解决上述技术问题采用以下技术方案：

本发明提出一种基于深度学习的语音转换方法，包括训练步骤和语音转换步骤，其中，训练步骤如下：

1)、利用AHOcoder语音编解码器分别对源说话人和目标说话人的语音进行处理，提取出各自的梅尔倒谱特征参数X_t，Y_t；

2)、将提取出的特征参数逐句进行DTW对齐，然后取每一帧特征参数和其前后各一帧的特征拼接形成联合特征参数，分别作为源说话人的特征参数和目标说话人的特征参数，即X_p＝(X_t-1，X_t，X_t+1)，Y_p＝(Y_t-1，Y_t，Y_t+1)；

3)、通过深度堆栈自编码器DSAE分别对源说话人和目标说话人的特征参数进行训练，分别得到源说话人的深度堆栈自编码器DSAE_s和目标说话人的深度堆栈自编码器DSAE_t，然后利用前馈算法，将训练使用源说话人和目标说话人的语音特征参数分别逐帧输入到各自对应的DSAE中，得到每一帧对应的中间隐层的激活值，即为源说话人和目标说话人的深层特征DX_p，DY_p；

4)、将源说话人和目标说话人的深层特征通过BP神经网络进行训练得到深层特征的映射网络；

5)、将DSAE_s的编码块和DSAE_t的解码块叠加到映射网络的两端，构成深度神经网络，并通过梯度下降算法依据均方误差最小化准则优化深度神经网络的权值，得到一个由源说话人语音联合特征参数直接转换为目标说话人语音联合特征参数特征的转换网络；

语音转换步骤如下：

6)、利用AHOcoder语音编解码器对源说话人的语音进行处理，提取出源说话人的梅尔倒谱特征参数，将提取出的特征参数逐句进行DTW对齐，然后取每一帧特征参数和其前后各一帧的特征拼接形成联合特征参数；

7)、将联合特征参数作为深度神经网络的输入，从深度神经网络的输出端即得到转换后目标说话人语音的联合特征参数，再通过AHOcoder语音编解码器合成转换后目标说话人的语音。

进一步的，本发明所提出的一种基于深度学习的语音转换方法，步骤1)中提取梅尔倒谱特征参数是利用AHOcoder语音编解码器提取语音的mcep参数，并将该参数读入Matlab程序中得到。

进一步的，本发明所提出的一种基于深度学习的语音转换方法，所述步骤3)中训练深度堆栈自编码器得到深层特征，包括如下步骤：

c1)、将步骤2)得到的特征参数通过降噪自编码器DAE方法训练第一个自编码器AE；

c2)、将第一个自编码器AE的隐层激活值作为输入，在降噪自编码器DAE后端训练3个自编码器AE，并设置好每层的节点数，训练完成后将每个自编码器AE的隐层和权值展开，即得到一个深度堆栈编码器DSAE模型；

c3)、将特征参数作为深度堆栈编码器DSAE模型的输入，通过前向传播得到模型的输出，即为深层特征。

进一步的，本发明所提出的一种基于深度学习的语音转换方法，DSAE模型编码块encoder采用5层网络，每层的节点数分别为57,180,70,15,64，则解码块decoder为与编码块对称的5层网络，隐层节点采用激活函数ReLU函数。

进一步的，本发明所提出的一种基于深度学习的语音转换方法，所述步骤4)中，映射网络的训练方法包括如下步骤：

构建一个含有单隐层的BP网络，以源说话人的深层特征DX_p作为网络的输入，将网络的输出和目标说话人的深层特征DY_p进行比较计算误差，然后采用BP算法调整网络权值。

进一步的，本发明所提出的一种基于深度学习的语音转换方法，利用深层特征DY_p，DY_p训练一个BP网络得到一个深层特征的映射网络，具体如下：

A、BP网络采用一个输入层，一个隐含层，一个输出层的三层神经网络，每层的节点数分别为64,100,64，隐含层的激活函数采用Sigmoid函数，即：

f(x)＝1/(1+e^-x)

B、将DY_p作为训练数据，得到BP网络的输出值DX_p′，利用CD算法最小化误差：

||DX′_p-DY_p||²￣

C、优化BP网络的权值，即得到深层特征的映射网络。

进一步的，本发明所提出的一种基于深度学习的语音转换方法，所述步骤5)具体步骤如下：

e1)、利用步骤3)得到的源说话人的深度堆栈自编码器DSAE_s和目标说话人的深度堆栈自编码器DSAE_t，以及步骤4)得到的映射网络组合成深度神经网络

；在深度神经网络

中，映射网络前端的权值采用源说话人DSAE_s的encode编码权值，映射网络后端的权值采用DSAE_t每层的倒序的decode解码权值；

e2)、依据均方误差最小化准则，采用后向误差传播的梯度下降算法优化深度神经网络

的权值至收敛。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

相比于经典的高斯转换方法，本发明利用深度学习的方法分别得到源说话人和目标说话人的DSAE(Deep Stacked Autoencoder，深度堆栈自编码器)模型和语音的深层特征，用BP网络进行训练得到深层特征的映射网络，最后将源说话人的DSAE的encoder编码模块、BP映射网络和目标说话人的DSAE的decoder解码模块组合成深度神经网络，作为特征参数的转换网络，实现语音特征参数的转换，最后用转换后的语音特征参数合成语音。

本发明的优点在于：

①利用深度学习可以学习到语音最本质的特征的优点，通过对语音特征参数的深层特征的转换，提高了在使用少量训练数据训练模型的情况下的语音转换效果；

②在本发明中，使用了拼接之后的联合特征参数来训练DSAE模型，由于经过拼接后的联合特征参数包含了更多的序列动态信息，所以使得模型能够学习到特定说话人说话时发声的动态变化，这样在使用同样的少量数据进行不充分的训练时，得到的转换语音效果要优于传统的高斯模型转换的方法；且本方法可以通过离线学习，节约终端计算和存储资源。

附图说明

图1是本发明涉及的系统的训练过程框图。

图2为本发明涉及的系统的转换过程框图。

图3为本发明中涉及的自编码器(AE)及训练过程、深度堆栈自编码器(DSAE)、深度神经网络的结构图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

AHOcoder特征参数提取模型是一个语音编解码器(语音分析/合成系统)，由Daniel Erro在巴斯克大学的AHOLAB信号处理实验室研发而得。AHOcoder将16kHz、16bits的单声道wav语音分解为三部分：基频(logf₀)、谱(梅尔倒谱系数MFCC)和最大浊音频率。AHOcoder语音分析、合成模型可以提供一个精确的语音分析以及高质量的语音波形重建。

AE(Autoencoder，自动编码器)是一种无监督学习方法，其模型的具体结构在图3中，其中w_e表示自动编码器的编码权值，w_d表示解码权值，而DSAE(Deep StackedAutoencoder,深度堆栈自编码器)是将自动编码器“栈化”到逐层贪婪训练方法中得到的一种深度学习的模型，具体描述如图3。

本发明利用深度学习的优点结合深度学习加速网络训练的方法，应用AHOcoder语音编解码器，提供了一种可以通过离线学习，节约终端计算资源，且通过使用少量的训练数据也能得到较好的转换效果的语音转换方法。

本发明通过AHOcoder声音编解码器提取语音的梅尔倒谱特征MCEP并利用DTW(Dynamic Time Warping，动态时间归整)算法将特征对齐后进行逐帧的特征拼接，通过DSAE模型对拼接后的特征进行特征学习并得到深层特征，然后将深层特征通过BP神经网络进行学习得到映射网络，在转换时，由于在训练DSAE时也学得了将深层特征解码重构为原始语音特征的能力，故可以构建一个深度神经网络实现语音特征的转换，最后再通过AHOcoder合成语音。具体包括如下步骤：

(1)利用AHOcoder声音编解码器分别对源说话人和目标说话人的语音进行处理，提取出各自的梅尔倒谱特征参数X_t，Y_t。

(2)将提取出的特征参数逐句进行DTW对齐，然后进行特征参数的拼接，得到的联合特征参数，即X_p＝(X_t-1，X_t，X_t+1)，Y_p＝(Y_t-1，Y_t，Y_t+1)，把它们分别作为源说话人的特征参数和目标说话人的特征参数。

(3)通过DSAE模型分别对源说话人和目标说话人的特征参数X_p和Y_p进行训练，得到源说话人和目标说话人的深度堆栈自编码器模型DSAE_s和DSAE_t，并得到深层特征DX_p和DY_p。

(4)将两个说话人的深层特征DX_p和DY_p通过BP神经网络进行训练得到BP映射网络。

(5)将DSAE_s和DSAE_t和BP映射网络展开并组合成深度神经网络

，并通过CD算法依据最小化序列误差的准则进行权值调整。

(6)将训练好的深度神经网络

作为转换网络，将源说话人特征参数作为深度神经网络

的输入，利用前馈算法得到转换后的特征参数。

(7)将转换得到的特征参数再利用AHOcoder重建语音信号。

上述的步骤中，步骤(1)～(5)为训练步骤，步骤(6)、(7)为转换和合成步骤；所述深度堆栈自编码器DSAE是一种深度学习的模型，相比于其它的如深度置信网络DBN，卷积神经网络CNN等，DSAE在训练过程中能够学习到从深层特征重构原始输入的转换关系，所以DSAE是通过深度学习的方法进行语音转换实验的一种合理的模型。通过对语音特征参数用DSAE进行特征训练，即可得到语音的更深层的更抽象的特征，并且认为深层特征对语音信号有更好的描述。通过特征参数的拼接使得训练时特征参数中带着序列的动态信息，它代表着说话人发声的动态变化，这也使得模型在训练时能够学习到这种动态变化，得到更加自然的语音转换效果。通过BP网络训练得到的映射网络得到源说话人与目标说话人深层特征DX_p和DY_p之间的映射关系，然后通过DSAE的解码重构能力，将三个模型组合起来得到一个多层的深度神经网络

，作为特征参数的转换网络。

本发明是针对传统的高斯混合模型转换方法中存在的问题以及深度学习方法方法的优点，提出的一种新的解决方法，本方案有两个关键点：

一是利用DSAE模型对语音信号的梅尔倒谱特征进行特征建模，学习过程中利用了帧拼接的联合特征参数作为训练数据，使得模型可以学习到更多表征说话人发声动态变化的信息，之后得到深层特征，然后利用BP神经网络对源和目标的深层特征进行建模得到映射网络，之后利用DSAE建模时学习到的从深层特征重构原始数据的能力将映射后的深层特征还原为原始语音特征；二是利用BP神经网络对深层特征进行映射转换时，因为深层特征代表了语音信号更本质的特征，从而在模型训练不充分时也能得到较好的转换效果。

本发明的创新之处在于：①利用深度学习的方法获得语音的深层特征，并通过BP神经网络进行训练得到映射网络，从而建立源于目标说话人之间语音特征的转换规则；②利用帧拼接的联合特征参数作为DSAE模型训练的数据，拼接后的联合特征参数包含了表征说话人发声变化的序列动态信息，在此方法下，在利用少量数据进行训练时也能获得较好的转换效果。具体的操作步骤如下：

对于利用AHOcoder提取，并用DTW对齐后的原始语音特征X_t和Y_t，t＝1，2，...，T，其中T表示提取语音特征时语音分帧的总帧数，每一帧的维数为r维。通过特征拼接，得到联合特征参数X_p和Y_p，其中X_p＝(X_t-1，X_t，X_t+1)，Y_p＝(Y_t-1，Y_t，Y_t+1)，联合特征参数为3r维特征(比如将一帧19维的特征参数和时序方向上的前一帧与后一帧特征参数拼接成为一帧57维的特征参数)。将X_p和Y_p作为训练数据，分别利用DSAE模型进行模型训练得到DSAE_s和DSAE_t，并得到源说话人和目标说话人的深层特征DX_p和DY_p。

接着用深层特征DX_p和DY_p训练BP网络作为深层特征的映射网络，然后将DSAE_s的编码块和DSAE_t的解码块叠加到映射网络的两端，构成深度神经网络

，通过BP算法优化

的网络的权值，即得到了一个由联合特征参数直接转换为目标语音联合特征参数特征的转换网络。最后将转换后的语音特征直接合成转换后的语音。

以下结合附图，进一步详细介绍本发明的语音转换系统具体的操作步骤。

参考如图1所示，训练阶段包括如下步骤：

①通过DSAE对X_p,Y_p分别进行训练，得到DSAE_s和DSAE_t，同时得到源说话人与目标说话人的深层特征DX_p,DY_p；

②利用深层特征DX_p,DY_p训练一个BP网络作为深层特征的映射网络；

③将DSAE_s的编码块和DSAE_t的解码块叠加到映射网络的两端，构成深度神经网络

通过BP算法优化

的网络的权值，即得到了一个由联合特征参数直接转换为目标语音联合特征参数特征的转换网络。

如图2所示，转换阶段步骤如下：

①将待转换的源说话人的语音，通过AHOcoder提取出原始语音特征参数，之后通过DTW进行对齐，然后进行特征拼接得到联合特征参数；

②将联合特征参数作为N的输入，从网络的输出端即得到转换后的联合特征参数，再通过AHOcoder合成转换后的语音；

下面进一步结合具体实例对本发明的技术方案作进一步说明。

在训练阶段：

①通过DSAE对X_p,Y_p分别进行训练，得到DSAE_s和DSAE_t，同时得到源说话人与目标说话人的深层特征DX_p,DY_p。具体细节描述如下：

a.将X_p,Y_p作为训练数据分别训练源说话人和目标说话人的DSAE。X_p,Y_p分别为源说话人和目标说话人的57维的联合特征参数，然后利用DSAE模型进行训练，具体训练过程如图3所示。在本发明中，DSAE模型编码块encoder采用5层的网络，每层的节点数分别为57,180,70,15,64，则解码块decoder为与编码块对称的五层网络，隐层节点采用生物学角度与脑神经元更接近的激活函数ReLU函数，即：

f(x)＝max(0，x)

因为ReLU函数具备单侧抑制、稀疏激活性和相对宽阔的兴奋边界，所以认为其具备更原始特征的表达能力。

隐层的激活值即为：h_k+1＝f(w_kh_k+b_k)

其中w_k为第k层与第k+1层之间的连接权值，b_k为第k层的偏置。

b.以DSAE_s为例，深层特征为DSAE_s中间层的线性激活值，即：

DX_p＝w₄h₄+b₄

②利用深层特征DX_p,DY_p训练一个BP网络得到一个深层特征的映射网络，具体细节描述如下：

f(x)＝1/(1+e^-x)

B、将DX_p作为训练数据，得到BP网络的输出值DX_p′，利用CD算法最小化误差：

||DX_p′-DY_p||²

C、优化BP网络的权值，即得到深层特征的映射网络。

③将DSAE_s的编码块和DSAE_t的解码块叠加到BP映射网络的两端，构成深度神经网络

，通过BP算法优化

的权值，即得到了一个由源说话人联合特征参数转换为目标说话人语音联合特征参数的转换。具体描述如下：

a.在训练阶段，得到DSAE_s、DSAE_t和BP映射网络，将DSAE_s的编码块encoder和DSAE_t的解码块decoder叠加到BP映射网络两端，即构成了一个关于BP映射网络隐含层左右对称的初始化深度神经网络。通过CD算法，最小化深度神经网络的输出X_p′与目标说话人语音联合特征参数Y_p之间的误差，即：

||X_p′-Y_p||²

优化整个网络的权值，最终得到一个联合特征参数的转换网络

当X_p输入

时，网络通过前段编码块生成深层特征DX_p，之后通过BP映射网络得到DX_p′，且认为DX_p′为转换后的目标说话人语音的深层特征，之后网络后端的解码块将DX_p′解码成转换后的联合特征参数供AHOcoder合成转换后的语音。

在转换阶段：

(1)将训练好的深度神经网络

作为转换网络，利用前馈算法，以源说话人联合特征参数作为输入得到

的输出值，即为转换后的语音联合特征特征参数。

(2)将转换后的语音特征参数再利用AHOcoder重建语音信号。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。