CN109767778A

CN109767778A - 一种融合Bi-LSTM和WaveNet的语音转换方法

Info

Publication number: CN109767778A
Application number: CN201811613192.8A
Authority: CN
Inventors: 张雄伟; 苗晓孔; 孙蒙; 曹铁勇; 郑昌艳; 李莉; 曾歆
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-05-17
Anticipated expiration: 2038-12-27
Also published as: CN109767778B

Abstract

本发明提出了一种融合Bi‑LSTM和WaveNet的语音转换方法，首先提取待转换语音特征，将待转换语音的梅尔频率倒谱系数送入特征转换网络转换，得到转换后的梅尔频率倒谱系数，然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数进行上采样并送入语音生成网络得到预生成语音，将预生成语音的梅尔频率倒谱系数送入后处理网络进行后处理，将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、线性转换后的基音频率再次上采样后送入语音生成网络，生成最终的转换语音。本发明生成的转换语音相似度更高，自然度更好。

Description

一种融合Bi-LSTM和WaveNet的语音转换方法

技术领域

本发明属于语音信号处理领域，具体为一种融合Bi-LSTM和WaveNet的语音转换方法。

背景技术

随着人工智能技术的迅速发展，其应用领域也越来越广泛。语音交互、智能仿声、个性化语音生成等技术逐步受到人们的关注。语音转换(Voice Conversion，VC)作为个性化语音生成的一种重要技术手段，涉及语音信号处理、语音学、模式识别、人工智能等多种学科，是当今语音处理领域的研究难点和热点之一。广义上讲，人们把改变语音中说话人特征的语音处理技术统称为语音转换或语音变换(Voice Transformation)。在实际研究和应用中，语音转换是指在保持语义内容不变的情况下，改变一个说话人(源说话人)的语音个性特征(如音色、韵律等)，使之具有另外一个说话人(目标说话人)的语音个性特征的一种语音处理技术。

近年来，随着语音信号处理、机器学习等技术的进步以及海量数据获取能力，大规模计算性能的提高，语音转换技术的研究取得了长足的进步，语音转换的性能也得到不断提升。典型的语音转换技术包括：基于高斯混合模型的语音转换(T.Toda,A.W.Black,andK.Tokuda,“Spectral conversion based on maximum likelihood estimationconsidering global variance of converted parameter,”Proc.of ICASSP,pp.9–12,2005)，基于频率规整的语音转换(Xiaohai Tian,Zhizheng Wu,Siu Wa Lee,Nguyen QuyHy,Eng Siong Chng,Minghui Dong,“Sparse representation for frequency warpingbased voice conversion”.Proc.of the ICASSP,pp.4235-4239,2015)，基于深度神经网络的语音转换(Lifa Sun,Shiyin Kang,Kun Li,Helen Meng,“Voice conversion usingdeep bidirectional long short-term memory based recurrent neural networks,”Proc.of ICASSP,pp.4869–4873,2015)等。这些语音转换网络模型框架主要包括训练阶段和转换阶段两个阶段。训练阶段，通过源说话人和目标说话人的平行语料库获取相应转换函数；转换阶段，将训练阶段得到的转换函数应用于待转换语音，对待转换语音的特征进行转换，最后利用转换后的特征合成转换语音。目前，虽然这些语音转换技术合理有效，也取得了较好的转换效果，但是由于大多数转换最终生成的语音波形，是使用基于确定声学参数的声码器生成的，所以转换语音通常存在过平滑问题，导致转换语音中缺少语音细节信息，并使转换后的语音嗡嗡作响，最终影响了转换语音的效果和质量，使它听起来不像自然语音那样流畅舒服。

发明内容

本发明的目的在于提出了一种融合Bi-LSTM和WaveNet的语音转换方法，解决现有语音转换方法缺少语音细节信息，转换质量不高的问题。

实现本发明的技术解决方案为：一种融合Bi-LSTM和WaveNet的语音转换方法，具体步骤为：

步骤1、提取源语音和目标语音的语音特征，包括梅尔频率倒谱系数、非周期频率和基音频率，并对源语音特征和目标语音特征进行预处理；

步骤2、将预处理后的源语音和目标语音的梅尔频率倒谱系数输入Bi-LSTM1网络模型对Bi-LSTM1网络模型进行训练，得到特征转换网络以及转换后的梅尔频率倒谱系数；

步骤3、将预处理后的目标语音梅尔频率倒谱系数进行上采样，将上采样后的目标语音梅尔频率倒谱系数、预处理后的目标语音非周期频率、基音频率以及目标语音一起输入WaveNet网络对WaveNet网络进行训练，得到语音生成网络，同时得到合成的目标语音；

步骤4、对步骤2得到的转换后的源语音的梅尔频率倒谱系数进行上采样，并将其与预处理后的源语音的非周期频率、基音频率送入步骤3所得的语音生成网络，得到预转换语音；

步骤5、提取预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数并进行动态时域规整，然后将动态时域规整后的预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数输入迭代次数可控的Bi-LSTM2网络模型对Bi-LSTM2网络模型进行训练，得到后处理网络；

步骤6、提取待转换语音特征，将待转换语音的梅尔频率倒谱系数送入步骤2的特征转换网络转换，得到转换后的梅尔频率倒谱系数，然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数进行上采样并送入步骤3的语音生成网络得到预生成语音，将预生成语音的梅尔频率倒谱系数送入步骤5得到的后处理网络进行后处理，将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、线性转换后的基音频率再次上采样后送入步骤3的语音生成网络，生成最终的转换语音。

本发明与现有技术相比，其显著优点为：1)本发明将双向长短时记忆递归神经网络用于语音特征的转换，能够联系上下文信息，更好地建模特征之间的映射，能够与音频生成模型相结合，使得生成的转换语音相似度更高，自然度更好；2)本发明通过对WaveNet增加后处理优化语音生成部分，使得语音生成系统更加稳定和准确，提高了转换系统的稳定性。

下面结合附图对本发明做进一步详细的描述。

附图说明

图1是本发明融合Bi-LSTM网络和WaveNet网络的语音转换方法流程图。

图2是本发明的Bi-LSTM网络和WaveNet网络的语音转换方法训练流程图。

图3是本发明利用Bi-LSTM网络实现语音特征转换的示意图。

图4是本发明利用条件WaveNet实现语音合成的示意图。

图5是本发明利用线性插值法得到与语音样点长度一致的特征示意图。

具体实施方式

一种融合双向长短时记忆递归神经网络(Bidirectional-Long Short-TermMemory Recurrent Neural Networks，简称Bi-LSTM)和波形生成神经网络(简称WaveNet)的语音转换方法，具体步骤为：

进一步的实施例中，步骤1中对源语音特征和目标语音特征进行预处理的具体内容为：

对源语音和目标语音的梅尔频率倒谱系数进行动态时域规整，得到对齐后的各自的梅尔频率倒谱系数；

对源语音和目标语音的基音频率进行线性转换并上采样；

对源语音和目标语音的非周期频率进行上采样。

进一步的实施例中，步骤2对Bi-LSTM1网络模型进行训练得到特征转换网络具体过程为：Bi-LSTM1初始化参数为θ_B1，训练时采用最小均方差准则对θ_B1进行更新，训练迭代次数为N2-N1，最终得到一个稳定的特征转换网络，训练过程可表示为：

式中，m_x和m_y分别表示对齐后的源语音和目标语音的梅尔频率倒谱系数，B1表示Bi-LSTM1网络，表示源语音转换后的梅尔频率倒谱系数，y表示目标语音，η_B1表示学习率，表示下降梯度，表示计算m_y和之间的最小均方差。

进一步的实施例中，步骤3将提取到的目标语音特征与目标语音一同送入WaveNet网络进行训练，得到语音生成网络的具体过程为：

采用最小均方差准则对WaveNet中初始化参数θ_W进行更新，训练迭代次数为N1，最终得到一个稳定的语音生成网络，训练过程即：

式中m'_y表示对齐并经上采样后的目标MFCC,f_y表示经过线性转换并上采样后的目标基音频率，A_y表示上采样后目标的非周期频率，表示经WaveNet生成的语音，y表示目标语音，η_W表示学习率。

进一步的实施例中，Bi-LSTM1网络模型具体为：学习速率为0.0001，批处理量大小为12，LSTM的“细胞单元”个数为50，迭代次数为50000；

Bi-LSTM2网络模型具体为：Bi-LSTM1学习速率为0.0002，批处理量大小为12，LSTM的“细胞单元”个数为50，迭代次数为2000；

WaveNet网络模型具体为：WaveNet学习速率为0.0001，迭代次数为100000，批处理量大小为32，跳跃连接层为512层，扩张卷积层为50层，u-律压缩编码通道数为256，残差通道数为32，音频采样率为16000Hz，训练模型数据维度为259维。

本发明将长短时记忆递归神经网络与波形生成神经模型相融合，首先通过Bi-LSTM模型有效联系语音上下文信息，解决特征转换模型能力不足的问题，其次，语音特征到语音波形的转换中，采用确定的参数化声码器，通常会导致语音质量下降，WaveNet能够有效解决特征到波形转换过程中的这一问题。融合模型能够有效解决转换语音中的过平滑问题，使得生成的转换语音相似度更高、自然度更好；并且通过对WaveNet增加后处理，优化语音生成，可防止WaveNet生成过程中语音崩塌现象的产生，使得语音生成更加准确，提高了语音转换系统的稳定性。

实施例

如图1所示，首先得到两个训练好的Bi-LSTM网络模型和一个波形生成神经网络模型(WaveNet)，其中，一个Bi-LSTM网络模型用于特征转换(Bi-LSTM1)，另一个Bi-LSTM网络模型用于后处理(Bi-LSTM2)，然后提取待转换语音特征，经训练好的用于特征转换的Bi-LSTM网络模型(Bi-LSTM1)转换后送入波形生成神经网络模型(WaveNet)生成预转换语音，接着通过另一个用于后处理的Bi-LSTM网络模型(Bi-LSTM2)进行后处理，最后再经波形生成神经网络模型(WaveNet)生成最终的转换语音。

如图2所示，具体过程包括如下几个步骤。

步骤1、对训练语音进行“预处理”

从平行语料库中将源语音和目标语音经STRAIGHT分析提取出各自的语音特征，包括：基音频率(F0)、梅尔频率倒谱系数(MFCC)、非周期频率(AP)；

对源语音和目标语音的梅尔频率倒谱系数MFCC进行动态时域规整(DTW)，得到对齐后的各自的梅尔频率倒谱系数(源语音S_MFCC，目标语音T_MFCC)；

对源语音和目标语音的基音频率进行线性转换并上采样；

对源语音和目标语音的非周期频率进行上采样。

步骤2、训练1，对Bi-LSTM1网络进行训练

将对齐后的源语音梅尔频率倒谱系数和目标语音梅尔频率倒谱系数，送入Bi-LSTM1网络模型开始训练。Bi-LSTM1初始化参数为θ_B1，Bi-LSTM网络模型中的初始化参数主要是权重值和偏移量，系统随机产生其初始化数值，训练时采用最小均方差准则对θ_B1进行更新，训练迭代次数为N2-N1，本实施例中，N2为150000，N1为100000。最终得到一个稳定的特征转换网络，训练过程可表示为：

步骤3、训练2，对Wavenet网络进行训练

将预处理后的目标语音梅尔频率倒谱系数进行上采样，将上采样后的目标语音梅尔频率倒谱系数、预处理后的目标语音非周期频率、基音频率以及目标语音一起输入WaveNet网络，开始训练。WaveNet中初始化参数为θ_W，训练时采用最小均方差准则对θ_W进行更新，训练迭代次数为N1，最终得到一个稳定的语音生成网络，同时得到合成的目标语音，训练过程表示为：

式中，m'_y表示对齐并经上采样后的目标语音梅尔频率倒谱系数,f_y表示经过线性转换并上采样后的目标语音基音频率，A_y表示上采样后的目标语言非周期频率，W表示Wavenet网络，表示经WaveNet生成的语音，y表示目标语音，η_W表示学习率。

步骤4、获取预转换语音

对步骤2得到的转换后的源语音的梅尔频率倒谱系数进行上采样，并将其与预处理后的源语音的非周期频率、基音频率送入步骤3所得的语音生成网络，得到预转换语音；

步骤5、训练3，对Bi-LSTM2网络进行训练

提取预转换语音与步骤3得到的合成的目标语音的梅尔频率倒谱系数并进行动态时域规整，然后送入Bi-LSTM2网络模型，Bi-LSTM2网络模型初始化参数为θ_B2，经N3-N2次迭代后，得到后处理网络，本实施例中N3为152000。

步骤6、生成转换语音

提取待转换语音特征，将待转换语音的梅尔频率倒谱系数送入步骤2的特征转换网络转换，得到转换后的梅尔频率倒谱系数，然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数都经上采样后送入步骤3的语音生成网络得到预生成语音，将预生成语音的梅尔频率倒谱系数送入步骤5得到的后处理网络进行后处理，将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、基音频率再次上采样后送入步骤3的语音生成网络，生成最终的转换语音。

上述步骤中，训练1和训练3中涉及到的Bi-LSTM网络的训练过程如图3所示，采用最小均方差准则训练以得到稳定的网络模型，分别用于特征转换和后处理。

本实施例中，Bi-LSTM1网络模型具体为：Bi-LSTM1学习速率为0.0001，批处理量大小为12，LSTM的“细胞单元”个数为50。迭代次数为50000。

Bi-LSTM2网络模型具体为：Bi-LSTM1学习速率为0.0002，批处理量大小为12,LSTM的“细胞单元”个数为50。迭代次数为2000。

在训练2中，WaveNet条件概率建模的流程如图4所示，WaveNet是一个深度自回归的模型，x₁，x₂…，x_t-1表示时间序列的样点，θ表示当前时刻的条件信息，其条件概率密度分布公式为：

对提取的特征逐一进行上采样后，按照图4的框架进行建模。通过训练，将语音波形点与条件建立起对应关系。其中，条件1和条件2构建过程中对MFCC插值上采样如图5所示，插值间隔为：△y＝|第i帧-第(i-1)帧)|/(帧间样点数n)。

基音频率线性转换过程采用的公式为：

式中，p_t ^(Y)和p_t ^(X)分别表示转换后的logF0和原始logF0，u^(X)和u^(Y)代表转换前后的均值，σ^(X)和σ^(Y)是转换前后的标准差，这些数据均来自训练数据。

Claims

1.一种融合Bi-LSTM和WaveNet的语音转换方法，其特征在于，具体步骤为：

2.根据权利要求1所述的融合Bi-LSTM和WaveNet的语音转换方法，其特征在于，步骤1中对源语音特征和目标语音特征进行预处理的具体内容为：

对源语音和目标语音的基音频率进行线性转换并上采样；

对源语音和目标语音的非周期频率进行上采样。

3.根据权利要求1所述的融合Bi-LSTM和WaveNet的语音转换方法，其特征在于，步骤2对Bi-LSTM1网络模型进行训练得到特征转换网络具体过程为：Bi-LSTM1初始化参数为θ_B1，训练时采用最小均方差准则对θ_B1进行更新，训练迭代次数为N2-N1，最终得到一个稳定的特征转换网络，训练过程可表示为：

4.根据权利要求1所述的融合Bi-LSTM和WaveNet的语音转换方法，其特征在于，步骤3将提取到的目标语音特征与目标语音一同送入WaveNet网络进行训练，得到语音生成网络的具体过程为：

5.根据权利要求1所述的融合Bi-LSTM和WaveNet的语音转换方法，其特征在于，Bi-LSTM1网络模型具体为：学习速率为0.0001，批量大小为12，LSTM的“细胞单元”个数为50。迭代次数为50000。

Bi-LSTM2网络模型具体为：学习速率为0.0001，批处理量大小为12，LSTM的细胞单元个数为50，迭代次数为50000；

Bi-LSTM2网络模型具体为：Bi-LSTM1学习速率为0.0002，批处理量大小为12，LSTM的细胞单元个数为50，迭代次数为2000；