CN109671423B

CN109671423B - 训练数据有限情形下的非平行文本语音转换方法

Info

Publication number: CN109671423B
Application number: CN201810418346.1A
Authority: CN
Inventors: 李燕萍; 许吉良
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-05-03
Filing date: 2018-05-03
Publication date: 2023-06-02
Anticipated expiration: 2038-05-03
Also published as: CN109671423A

Abstract

本发明公开了一种目标说话人训练数据有限情形下的多说话人对多说话人的非平行文本语音转换系统。在目标说话人训练数据有限情形下，通过对提取瓶颈特征的深度神经网络的训练过程进行干预与优化，从其他说话人特征空间自适应得到目标说话人的特征，解决了由于目标说话人不充分训练而导致特征空间分布不足的问题，完成非平行文本条件下基于瓶颈特征和变分自编码模型的多说话人对多说话人的语音转换。本发明的优势有三个方面：1）解除对平行文本的依赖，并且训练过程不需要任何对齐操作；2）可以将多个源‑目标说话人对的转换系统整合在一个转换模型中，即实现多对多转换；3）当目标说话人的训练数据有限时，可以完成非平行文本条件下的多对多转换，一定程度上实现语音转换技术从闭集走向开集，为实际的语音人机交互提供技术支撑。

Description

训练数据有限情形下的非平行文本语音转换方法

技术领域：

本发明涉及信号处理、机器学习及语音信号处理领域，特别涉及一种在训练数据有限情形下的非平行文本语音转换系统实现方法。

背景技术：

语音转换技术经过多年的研究，已经涌现了很多的经典转换方法，其中包括高斯混合模型(Gaussian Mixed Model，GMM)、频率弯折、深度神经网络(DNN)以及基于单元选择的方法等。但是这些语音转换方法大多需要使用平行语料库进行训练，建立源语音和目标语音频谱特征之间的转换规则。

一种基于变分自编码器(VAE)模型的语音转换方法，直接利用说话人的身份标签建立语音转换系统，这种语音转换系统在模型训练时不需要对源说话人和目标说话人的语音帧进行对齐，可以解除对平行文本的依赖。但是基于VAE的语音转换模型并不能解决目标语音训练语料不充分问题，即在进行decoder过程中，并不能有效得到表征目标语音个性特征的类别标签y_n，无法完成转换任务。在实际的语音人机交互中，常常无法获得目标说话人的充分训练语料，因此，有限语料下的转换问题是面向应用中亟需解决的问题。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容：

本发明的目的在于提供一种训练数据有限情形下的非平行文本语音转换方法，从而克服上述现有技术中的缺陷。

为实现上述目的，本发明提供了一种训练数据有限情形下的非平行文本语音转换方法,其特征在于，该方法包括以下步骤：

1训练部分：

1.1训练语料通过AHOcoder分析/合成模型提取出不同说话人不同语句MFCC特征参数X和语音基频log f₀；

1.2对1.1中每帧的语音特征X进行一次差分和二次差分，并与原特征拼接在一起得到特征X_t＝(X,ΔX,Δ²X)，然后将拼接后的特征与前后各一帧形成联合特征参数x_n＝(X_t-1,X_t,X_t+1)；

1.3将1.2中的联合特征x_n作为说话人识别任务的DNN网络的训练输入数据，DNN模型的输出为说话人Bottleneck特征b_n。当说话人训练数据不充分时，对DNN的训练过程进行干预与优化，对mini-batch错误率进行监控，设定一定的阈值。为了补充目标说话人的特征空间，对于错分到目标说话人一类的帧，通过改变标签将其归为目标说话人。然后继续DNN训练，待DNN模型训练至收敛后，提取每一帧的Bottleneck特征b_n作为VAE网络训练过程中decoder的监督信息，进行VAE模型训练；

1.4对于VAE模型的训练，将1.2中的x_n和1.3中DNN模型的输出的b_n作为VAE模型的输入，按照VAE模型训练方法进行模型训练。待VAE模型训练至收敛后，将VAE隐含空间z各帧的采样特征z_n提取出来作为目标说话人Bottleneck特征映射网络(BP网络)的训练数据；

1.5对于训练Bottleneck特征映射网络，将1.4中得到的z_n和说话人标签特征y_n组成联合特征(z_n,y_n)输入BP网络，并以DNN网络输出的Bottleneck特征b_n作为BP网络的监督数据进行训练，通过最小化网络的输出误差，从而得到Bottleneck特征映射网络；

1.6将以上训练好的DNN特征提取网络，VAE模型，Bottleneck特征映射网络组成语音转换系统。

2转换阶段：

2.1源说话人的任意测试语音先通过AHOcoder分析/合成模型提取出源说话人语音的MFCC特征参数X_src和logf₀特征参数；

2.2将源说话人语音特征参数X_src输入VAE语音转换模型，通过VAE模型encoder过程得到隐含空间z各帧的采样特征z_n，并将z_n和目标说话人标签y_n组成联合特征(z_n,y_n)输入Bottleneck特征映射网络(BP网络)，训练得到目标说话人Bottleneck特征b_n，将b_n和z_n通过VAE模型decoder重构出转换后的语音特征参数X_tar；

2.3将转换阶段2.1中提取的源说话人对数基频log f₀利用对数域线性变换转换得到目标说话人语音基频，将2.2中转换后的X_tar还原为梅尔倒谱形式的语音频谱特征参数x_n；

2.4将2.3中说话人语音频谱特征参数x_n和目标说话人语音基频通过AHOcoder模型合成转换后的说话人语音。

本发明进一步限定的技术方案为：

优选地，上述技术方案中，步骤训练部分的1.1中提取出的特征参数使用AHOcoder语音分析模型提取语音特征参数MFCC和对数基频logf₀。其中MFCC特征参数为19维语音频谱特征，并将MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征X_t＝(X,ΔX,Δ²X)，然后将前后相邻两帧拼接，从而得到171维的频谱特征x_n＝(X_t-1,X_t,X_t+1)，同时每一帧特征参数都对应到所属说话人的标签特征，即y_n。

优选地，上述技术方案中，步骤训练部分的1.3中当说话人训练数据不充分时，为了能从源说话人的特征空间中自适应出一定的目标说话人个性特征进行特征空间的补充，可以通过对DNN网络的训练过程进行干预与优化，在基于说话人识别任务的DNN网络中，在其Bottleneck层自适应出一定的目标说话人的个性特征空间。基于说话人识别任务的DNN网络训练过程的干预及Bottleneck层自适应训练具体步骤如下：

1.3.1准备DNN网络训练数据x_n，其中选取目标说话人的少量语句，其他说话人的充分语句，DNN网络softmax输出层节点数为参与训练的说话人的总人数；

1.3.2逐层预训练DNN网络之后，进行整个DNN网络的调参优化训练，在训练过程中对每个mini_batch的误差率进行监控，当误差率低于阈值30％时暂时停止DNN网络的调参训练，保存现有的网络结构和参数；

1.3.3对训练数据进行一次说话人识别分类统计，并筛选出错分到目标说话人类别的所有帧，将这些帧的标签替换为目标说话人的标签；

1.3.4通过随机梯度下降算法依据最小化帧误差的准则进行权值调整，继续DNN网络的训练至梯度收敛。

1.3.5然后将x_n逐帧输入达到收敛后的DNN网络，并将每一帧对应的Bottleneck层的激活值逐帧提取出来，即得到对应的Bottleneck特征b_n。

优选地，上述技术方案中，该方法分为说话人语音训练、说话人语音转换两个步骤：

1首先训练步骤包括：

1.1获取训练语料，本处采用的语音库为CMU ARCTIC。分为两组，一组是以男性bdl进行不充分训练，awb、rms、clb和slt进行充分训练，另一组是以女性slt进行不充分训练，而其他四个说话人awb、rms、clb、bdl进行充分训练。对于充分训练的说话人每人100条语音作为训练语料，而不充分训练的说话人每人5条语音作为训练语料；

1.2使用AHOcoder语音分析模型提取语音特征参数MFCC和对数基频logf₀。其中MFCC特征参数为19维语音频谱特征，并将MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征X_t＝(X,ΔX,Δ²X)，然后将前后相邻两帧拼接，从而得到171维的频谱特征x_n＝(X_t-1,X_t,X_t+1)，同时每一帧特征参数都对应到所属说话人的标签特征，即y_n。

1.3将1.2中的特征x_n参数作为DNN网络即Bottleneck特征提取网络的训练数据。DNN网络是一种多层堆栈全连接型人工神经网络，如图3所示。在本专利中，使用的DNN模型采用9层网络，其中输入层节点数为171，对应x_n每帧的171维特征，中间隐层数为7层，每层的节点数分别为1200、1200、1200、57、1200、1200，其中节点数较少的隐层为Bottleneck层。利用逐层贪婪预训练法对DNN各层节点之间的连接权值进行无监督的预训练，隐层的激活函数采用ReLu函数；

Bottleneck特征是DNN网络作为特征提取的一种运用，这种DNN模型中，中间有一层节点数较少的隐层，即为Bottleneck层，这一层各个节点的激活值通常被看作是输入信号的一种低维表示，所以对于基于不同任务进行训练的DNN模型，其Bottleneck层激活值所表达的信息也会随之变化。DNN模型提取Bottleneck特征和进行说话人识别任务分为两个阶段，可以将图3中的DNN网络拆分为两个模块：Analyzer和Classifier。DNN通过Analyzer解析网络从原始的语音频谱特征参数中解析出表示说话人个性特征空间的Bottleneck特征，而后通过Classifier分类网络对Bottleneck特征进行识别分类。通过对DNN的调优训练，不仅得到了最优的分类边界，同时在Bottleneck层也形成了适于特定分类任务的Bottleneck特征空间分布，即Analyzer解析网络将输入数据解析为最适合某种特定分类的特征空间分布。一般来说，以一个平面的二分类问题为例，DNN网络作为分类器，在其训练过程不受到干预的情况下，会最终收敛形成一个较好的分类边界，如图4所示。通过对DNN进行模块划分，将DNN网络一分为二进行分析，认为通过训练之后的DNN网络不仅具备最优的分类能力，同时各帧输入信号在Bottleneck层的激活值也正是由Analyzer模块解析出的最适于特定分类的特征空间分布。

基于DNN的这样一种特性，当说话人训练数据不充分时，为了能从源说话人的特征空间中自适应出一定的目标说话人个性特征进行特征空间的补充，可以通过对DNN网络的训练过程进行干预与优化，在基于说话人识别任务的DNN网络中，在其Bottleneck层自适应出一定的目标说话人的个性特征空间。

对DNN网络的训练过程进行干预之后，其分类边界的变化情况如图5所示，从图中可以看出，通过这样一种对DNN训练阶段进行人为干预的方法，少量类别的特征空间得到了有效补充，因此利用上述的对DNN网络训练过程进行干预的方式，认为DNN的Bottleneck层从其他说话人个性特征空间中自适应出了一定的目标说话人的特征空间，从而弥补了多说话人对多说话人语音转换中由于目标说话人不充分训练而导致的特征空间分布不足的问题。

1.4对于VAE模型的训练，将1.2中的x_n和1.3中DNN模型的输出b_n作为VAE模型的训练数据，其中的b_n与隐含特征z_n进行拼接形成联合特征，加入到VAE模型的decoder部分进行训练实现语音频谱特征的重构。VAE网络的训练过程中，图1中VAE模型参数估计过程中的两个优化项利用ADAM优化器来实现。待VAE模型训练至收敛后，将VAE隐含空间z各帧的采样特征z_n提取出来作为目标说话人Bottleneck特征映射网络(BP网络)的训练数据。本发明中VAE模型encoder输入层为171个节点，两个隐层，第一层为500个节点，第二层为64个节点，在第二层节点中，前32个节点计算混合高斯分布各分量的均值，后32个节点计算各分量的方差(此时是通过神经网络来计算更好拟合输入信号的高斯混合分布)，隐含空间z层包含32个节点，其各个节点的值通过从第二层隐层采样获得。decoder设置为包含一个隐层，节点数为500，输出层为171个节点。除了隐含空间z层为线性输出，其他隐层激活值为ReLU函数。

VAE模型用判别模型q_φ(z|x⁽ⁱ⁾)去逼近真实的后验概率p_θ(z|x⁽ⁱ⁾)，而衡量两个分布的相似程度，则采用KL散度，如式1-1所示：

将式1-1作贝叶斯公式的变换并整理可得式1-2：

于是：

由于p(X)是一个已知数据集的概率，希望最小化KL(q_φ(z|x⁽ⁱ⁾)||p_θ(z|x⁽ⁱ⁾))，就要使等号右边尽可能得到最大。又因为式1-4：

通过整理可得：

其中等号右边第一项是基于q_φ(z|X)的似然期望，也就是已知真实的z分布而计算出的X的分布，即根据z重建X的过程；第二项是负的KL散度。所以为找到一个好的q_φ(z|X)，使它尽可能地逼近p_θ(z|X)，需要做的就是：(1)右边第一项的log似然的期望最大化；(2)右边第二项的KL散度最小化。

为更加方便地求解式1-5，对于隐变量z，可以将z分为两部分，一部分是一个复杂函数g_φ(X)，再定义一个随机变量ε负责随机部分，所以可以用g_φ(X+ε)来表示服从条件概率的隐含空间z，即z^-1＝g_φ(X+ε⁽¹⁾)，其中q(z⁽ⁱ⁾)＝p(ε⁽ⁱ⁾)，则式1-5又可写为：

log p(X)-KL(q_φ(z)||p_θ(z|X))＝∫p(ε)log p(X|g_θ(X,z))dz-KL(q_φ(z|X,ε)||p(z)) 式1-6

若取随机变量ε服从标准正态分布，即ε＝N(0,I)，而将z|X简化为一种高斯关系，进而有：

q_φ(z|X,ε)＝N(z|μ(X),∑(X)) 式1-7

由于多维高斯分布下的KL散度公式为：

故式等号右侧第二项可改写为：

其中det为行列式，tr为矩阵的秩，d为I的秩即d＝tr(I)。将该式变为具体的神经网络和矩阵运算，将式1-9化简为：

这也是VAE模型的编码(encoder)部分。

等式右侧第一项即代表依赖隐变量z建出的数据应尽可能与X相同，这是VAE模型的解码(decoder)部分。

VAE模型所采用的训练语料中，选取其中四个说话人的语音对VAE模型进行充分训练，选取一个目标说话人的少量语音进行不充分训练，这样做的目的是为了初始化目标说话人的Bottleneck特征空间，Bottleneck特征提取DNN网络采用了分段式的训练方法和新的误差控制方式，从而使得基于说话人识别任务的DNN网络Bottleneck特征层进行了自适应。

1.5训练Bottleneck映射网络，将1.4中得到的z_n和说话人标签特征y_n组成联合特征(z_n,y_n)输入BP网络，并以DNN网络输出的Bottleneck特征b_n作为BP网络的监督数据进行训练，使得BP网络的输出与各帧对应的Bottleneck特征b_n之间的误差最小，从而得到Bottleneck特征映射网络。BP网络使用三层前馈全连接型的神经网络，输入层节点数为37个节点，其中32个节点对应VAE模型中隐含空间特征z_n的维数，5个节点对应参与训练的五个说话人构成的5维说话人标签y_n；输出层为57个节点，对应57维Bottleneck特征；中间包含一个隐层，节点数为1200，隐层激活函数为sigmoid函数来引入非线性变化。

1.6至此，VAE模型、DNN网络、和Bottleneck特征映射网络已经训练完成，如图1所示。

2进行语音转换：

2.1利用AHOcoder提取源说话人语音的MFCC参数X_src和对数基频

并利用MATLAB进行差分和特征拼接得到特征参数x′_n。具体做法：19维的MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征X_t＝(X,ΔX,Δ²X)，然后将前后相邻两帧拼接，从而得到171维的频谱特征x′_n＝(X_t-1,X_t,X_t+1)；

2.2将x′_n输入VAE模型得到隐含特征z_n，并将z_n与目标说话人标签y′进行特征拼接(z_n,y′)，将拼接后的联合特征输入Bottleneck映射网络，网络输出Bottleneck特征

2.3将此Bottleneck特征

作为VAE频谱转换网络decoder过程的控制条件，进而得到转换后的目标说话人语音频谱参数X_tar；

2.4将转换得到的语音特征参数X_tar去掉时域拼接和差分项还原成梅尔倒谱形式

并将2.1中提取的源说话人对数基频log f₀利用对数域线性变换转换得到目标说话人语音基频。

2.5最后将2.4中得到的目标说话人频谱参数特征

以及转换后的对数基频logf₀通过AHOcoder模型合成转换后的目标说话人语音。

优选地，上述技术方案中，步骤1.3中，DNN网络Bottleneck层自适应训练具体步骤如下：

优选地，上述技术方案中，步骤2.4中，源说话人对数基频log f₀利用对数域线性变换转换得到目标说话人语音基频。

对数域线性变换是一种简单的，同时也是当前使用最广泛的基频转换方法。这种方法基于一个假设，那就是每个说话人的基频在对数域服从一个高斯分布。那么，只要统计出每个说话人的对数基频的均值和方差，便能构造出两个说话人之间的基频转换关系：

其中源说话人的基频在对数域的均值和方差分别用μ_src和δ_src表示，目标说话人的基频在对数域的均值和方差分别用μ_tar和δ_tar表示，而F0_src则表示源说话人的基频，F0_conv表示转换后的基频，本处使用对数基频logF0_conv，即log f₀。

与现有技术相比，本发明有如下有益效果：通过这样一种非平行文本语音转换系统：(1)解除对平行文本的依赖，而且训练过程不需要任何对齐过程；(2)可以将多个源-目标说话人对的转换系统整合在一个转换模型中，即实现多说话人对多说话人转换；(3)当目标说话人的训练数据有限时，可以完成非平行文本条件下的语音转换，实现语音转换技术从闭集走向开集，为实际的人机交互提供技术支撑。

附图说明：

图1是本发明基于变分自编码模型和瓶颈特征的语音转换系统训练流程图

图2是本发明基于变分自编码模型和瓶颈特征的语音转换系统转换流程图

图3是基于说话人识别任务的瓶颈特征提取网络DNN结构图

图4二分类情况下DNN网络分类边界示例图

图5通过干预后的DNN网络分类边界示例

具体实施方式

下面对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

下面结合附图对本发明实施的一种在训练数据有限情形下的非平行文本语音转换系统进行详细描述。图1是基于变分自编码模型和瓶颈特征的语音转换系统训练流程图，图2是基于变分自编码模型和瓶颈特征的语音转换系统转换流程图，图3是基于说话人识别任务的瓶颈特征提取网络DNN结构图。该方法分为训练和转换两个步骤：

1说话人语音训练

基于DNN的这样一种特性，当说话人训练数据不充分时，为了能从源说话人的特征空间中自适应出一定的目标说话人个性特征进行特征空间的补充，可以通过对DNN网络的训练过程进行干预与优化，在基于说话人识别任务的DNN网络中，在其Bottleneck层自适应出一定的目标说话人的个性特征空间。基于说话人识别任务的DNN网络训练过程的干预及Bottleneck层自适应训练具体步骤如下：

1.4对于VAE模型的训练，1.2中的x_n和1.3中DNN模型的输出b_n作为VAE模型的训练数据，其中的b_n与隐含特征z_n进行拼接形成联合特征，加入到VAE模型的decoder部分进行训练实现语音频谱特征的重构。VAE网络的训练过程中，图1中VAE模型参数估计过程中的两个优化项利用ADAM优化器来实现。待VAE模型训练至收敛后，将VAE隐含空间z各帧的采样特征z_n提取出来作为目标说话人Bottleneck特征映射网络(BP网络)的训练数据。本发明中VAE模型encoder输入层为171个节点，两个隐层，第一层为500个节点，第二层为64个节点，在第二层节点中，前32个节点计算混合高斯分布各分量的均值，后32个节点计算各分量的方差(此时是通过神经网络来计算更好拟合输入信号的高斯混合分布)，隐含空间z层包含32个节点，其各个节点的值通过从第二层隐层采样获得。decoder设置为包含一个隐层，节点数为500，输出层为171个节点。除了隐含空间z层为线性输出，其他隐层激活值为ReLU函数。

将式1-1作贝叶斯公式的变换并整理可得式1-2：

于是：

通过整理可得：

log p(X)-KL(q_φ(z)||p_θ(z|X))

＝∫p(ε)logp(X|g_θ(X,z))dz-KL(q_φ(z|X,ε)||p(z)) 式1-6

q_φ(z|X,ε)＝N(z|μ(X),∑(X)) 式1-7

由于多维高斯分布下的KL散度公式为：

故式等号右侧第二项可改写为：

这也是VAE模型的编码(encoder)部分。

2语音转换：

2.1利用AHOcoder提取源说话人语音的MFCC参数X_src和对数基频

2.3将此Bottleneck特征

2.5最后将2.4中得到的目标说话人频谱参数特征

以及转换后的对数基频logf₀通过AHOcoder模型合成转换后的目标说话人语。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种训练数据有限情形下的非平行文本语音转换方法，其特征在于，包括以下步骤：

1训练部分：

1.1训练语料通过AHOcoder分析/合成模型提取出不同说话人的不同语句的梅尔频率倒谱系数Mel-Frequency Cepstral Coefficients，MFCC和对数基频log f₀；

1.2对1.1中说话人每帧的MFCC语音特征X进行一次差分和二次差分，并与原特征进行拼接得到特征X_t＝(X,ΔX,Δ²X)，然后将拼接后特征的前后各一帧形成联合特征参数x_n＝(X_t-1,X_t,X_t+1)；

1.3将1.2中的联合特征x_n作为说话人识别任务的深度神经网络(Deep NeuralNetworks，DNN)训练的输入数据，DNN模型的输出为说话人分类标签；当目标说话人训练数据不充分时，对DNN的训练过程进行干预与优化，补充目标说话人的特征空间；待DNN模型训练至收敛后，提取每一帧的Bottleneck特征b_n作为变分自编码器VariationalAutoencoder，VAE模型训练过程中decoder的监督信息；

1.4对于VAE模型的训练，将1.2中的输出x_n和1.3中DNN模型的输出b_n作为VAE模型的输入，按照VAE模型训练方法进行模型训练；待VAE模型训练至收敛后，将VAE隐含空间各帧的采样特征z_n提取出来作为目标说话人Bottleneck特征映射网络Back Propagation网络的训练数据；

1.5训练Bottleneck映射网络，将1.4中得到的z_n和说话人标签特征y_n组成联合特征(z_n,y_n)输入BP网络，并以DNN网络输出的Bottleneck特征b_n作为BP网络的监督数据进行训练，通过随机梯度下降算法优化网络的输出误差，从而得到Bottleneck特征映射网络；

1.6将以上训练好的DNN特征提取网络，VAE模型，Bottleneck特征映射网络组成语音转换系统；

2转换阶段：

2.1源说话人任意测试语音通过AHOcoder分析/合成模型提取源说话人MFCC特征参数X_src和对数基频log f₀；

2.2将源说话人任意测试语音的语音特征参数X_src输入VAE语音转换模型，通过VAE模型的encoder过程得到采样特征z_n，并将z_n和说话人标签特征y_n组成联合特征(z_n,y_n)输入Bottleneck特征映射网络BP网络，训练得到目标说话人Bottleneck特征b_n，将b_n和z_n通过VAE模型的decoder重构出转换后的语音特征参数X_tar；

2.3将转换阶段2.1中提取的源说话人对数基频log f₀转换为目标说话人语音对数基频，将转换后的语音特征参数X_tar还原为梅尔频率倒谱形式的语音频谱特征参数x_n；

2.4将2.3中的语音频谱特征参数x_n和目标说话人语音对数基频通过AHOcoder模型合成转换后的说话人语音。

2.根据权利要求1所述的训练数据有限情形下的非平行文本语音转换方法，其特征在于：所述步骤1.1中提取MFCC特征参数和对数基频log f₀是利用AHOcoder声音编码器提取得到，然后将MFCC特征参数读取到MATLAB平台进行处理。

3.根据权利要求1所述的训练数据有限情形下的非平行文本语音转换方法，其特征在于：所述步骤训练部分的1.2中提取的特征参数，首先将每一条语音特征参数在MATLAB平台对每一帧语音进行一次差分和二次差分，并将其与原始特征拼接到一起，得X_t＝(X,ΔX,Δ²X)，并将其前后各一帧拼接到一起得到参与VAE模型训练的联合特征x_n＝(X_t-1,X_t,X_t+1)。

4.根据权利要求1所述的训练数据有限情形下的非平行文本语音转换方法，其特征在于：所述步骤训练部分的1.3中对DNN特征提取网络的训练，当存在说话人训练数据不充分时，由于对目标说话人的不充分训练而使目标说话人的个性特征空间分布不足，所以需要对DNN网络的训练过程进行干预与优化，自适应出目标说话人的特征空间；当目标说话人训练数据有限时，基于说话人识别的DNN网络的Bottleneck层的训练由以下步骤组成：

1.3.1将说话人联合特征x_n作为DNN网络的训练数据；其中，选取目标说话人的有限语料，其他说话人的充分语料，DNN网络的softmax输出节点数为参加训练的说话人总数；

1.3.2逐层预训练DNN网络后，进行整个DNN网络的调参优化训练，在训练过程中对每个mini_batch的误差率进行监控，当误差率低于阈值30％时暂时停止DNN网络的调参训练，保存现有的网络结构和参数；

1.3.3对训练数据进行一次说话人识别的分类统计，并筛选出错分到目标说话人类别的所有帧，将这些帧的标签替换为目标说话人的标签；

1.3.4继续DNN网络的训练直至梯度收敛；通过对DNN网络训练进行干预后，能从其他说话人的特征空间中自适应出一定的目标说话人特征，完成特征空间的补充。

5.根据权利要求1所述的训练数据有限情形下的非平行文本语音转换方法，其特征在于：在2.3步骤，将源说话人语音基频采用对数域线性变换转换得到目标说话人语音基频，将转换得到的语音特征参数X_tar去掉时域拼接和差分项还原成梅尔倒谱形式，然后再利用AHOcoder声音编码器合成转换后的目标说话人语音。

6.根据权利要求1所述的训练数据有限情形下的非平行文本语音转换方法，其特征在于：该方法分为说话人语音训练、说话人语音转换两个步骤：

1说话人语音转换训练步骤包括：

1.1获取训练语料，本处采用的语音库为CMU ARCTIC；分为两组，一组是以男性bdl进行不充分训练，awb、rms、clb和slt进行充分训练，另一组是以女性slt进行不充分训练，而其他四个说话人awb、rms、clb、bdl进行充分训练；对于充分训练的说话人每人100条语音作为训练语料，而不充分训练的说话人每人5条语音作为训练语料；

1.2使用AHOcoder语音分析模型提取语音特征参数MFCC和对数基频log f₀；其中MFCC特征参数为19维语音频谱特征，并将MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征X_t＝(X,ΔX,Δ²X)，然后将前后相邻两帧拼接，从而得到171维的频谱特征x_n＝(X_t-1,X_t,X_t+1)，同时每一帧特征参数都对应到说话人标签特征，即y_n；

1.3将1.2中的特征x_n参数作为DNN网络即Bottleneck特征提取网络的训练数据；DNN网络是一种多层堆栈全连接型人工神经网络；在本方法中，使用的DNN模型采用9层网络，其中输入层节点数为171，对应x_n每帧的171维特征，中间隐层数为7层，每层的节点数分别为1200、1200、1200、57、1200、1200，其中节点数较少的隐层为Bottleneck层；利用逐层贪婪预训练法对DNN各层节点之间的连接权值进行无监督的预训练，隐层的激活函数采用ReLu函数；

Bottleneck特征是DNN网络作为特征提取的一种运用，这种DNN模型中，中间有一层节点数较少的隐层，即为Bottleneck层，这一层各个节点的激活值通常被看作是输入信号的一种低维表示，所以对于基于不同任务进行训练的DNN模型，其Bottleneck层激活值所表达的信息也会随之变化；DNN模型提取Bottleneck特征和进行说话人识别任务分为两个阶段，可以将DNN网络拆分为两个模块：Analyzer和Classifier；DNN通过Analyzer解析网络从原始的语音频谱特征参数中解析出表示说话人个性特征空间的Bottleneck特征，而后通过Classifier分类网络对Bottleneck特征进行识别分类；通过对DNN的调优训练，不仅得到了最优的分类边界，同时在Bottleneck层也形成了适于特定分类任务的Bottleneck特征空间分布，即Analyzer解析网络将输入数据解析为最适合某种特定分类的特征空间分布；以一个平面的二分类问题为例，DNN网络作为分类器，在其训练过程不受到干预的情况下，会最终收敛形成一个较好的分类边界；通过对DNN进行模块划分，将DNN网络一分为二进行分析，认为通过训练之后的DNN网络不仅具备最优的分类能力，同时各帧输入信号在Bottleneck层的激活值也正是由Analyzer模块解析出的最适于特定分类的特征空间分布；

基于DNN的这样一种特性，当说话人训练数据不充分时，为了能从源说话人的特征空间中自适应出一定的目标说话人个性特征进行特征空间的补充，可以通过对DNN网络的训练过程进行干预与优化，在基于说话人识别任务的DNN网络中，在其Bottleneck层自适应出一定的目标说话人的个性特征空间；

对DNN网络的训练过程进行干预之后，通过对DNN训练阶段进行人为干预的方法，少量类别的特征空间得到了有效补充，因此利用上述的对DNN网络训练过程进行干预的方式，认为DNN的Bottleneck层从其他说话人个性特征空间中自适应出了一定的目标说话人的特征空间，从而弥补了多说话人对多说话人语音转换中由于目标说话人不充分训练而导致的特征空间分布不足的问题；

1.4对于VAE模型的训练，将1.2中的x_n和1.3中DNN模型的输出b_n作为VAE模型的训练数据，其中的b_n与采样特征z_n进行拼接形成联合特征，加入到VAE模型的decoder部分进行训练实现语音频谱特征的重构；VAE网络的训练过程中，VAE模型参数估计过程中的两个优化项利用ADAM优化器来实现；待VAE模型训练至收敛后，将VAE隐含空间各帧的采样特征z_n提取出来作为目标说话人Bottleneck特征映射网络BP网络的训练数据；本方法中VAE模型encoder输入层为171个节点，两个隐层，第一层为500个节点，第二层为64个节点，在第二层节点中，前32个节点计算混合高斯分布各分量的均值，后32个节点计算各分量的方差，此时是通过神经网络来计算更好拟合输入信号的高斯混合分布，隐含空间层包含32个节点，其各个节点的值通过从第二层隐层采样获得；decoder设置为包含一个隐层，节点数为500，输出层为171个节点；除了隐含空间层为线性输出，其他隐层激活值为ReLU函数；

VAE模型用判别模型q_φ(z|x⁽ⁱ⁾)去逼近真实的后验概率p_θ(z|x⁽ⁱ⁾)，而衡量两个分布的相似程度，则采用KL散度，即式1-1所示：

将式1-1作贝叶斯公式的变换并整理可得式1-2：

于是：

由于p(X)是一个已知数据集的概率，希望最小化KL(q_φ(z|x⁽ⁱ⁾)||p_θ(z|x⁽ⁱ⁾))，就要使等号右边尽可能得到最大；又因为式1-4：

通过整理可得：

其中等号右边第一项是基于q_φ(z|X)的似然期望，也就是已知真实的z分布而计算出的X的分布，即根据z重建X的过程；第二项是负的KL散度；所以为找到一个好的q_φ(z|X)，使它尽可能地逼近p_θ(z|X)，需要做的就是：(1)右边第一项的log似然的期望最大化；(2)右边第二项的KL散度最小化；

为更加方便地求解式1-5，对于隐变量z，可以将z分为两部分，一部分是一个复杂函数g_φ(X)，再定义一个随机变量ε负责随机部分，所以可以用g_φ(X+ε)来表示服从条件概率的隐含空间，即zⁱ＝g_φ(X+ε⁽ⁱ⁾)，其中q(z⁽ⁱ⁾)＝p(ε⁽ⁱ⁾)，

则式1-5又可写为：

q_φ(z|X,ε)＝N(z|μ(X),∑(X)) 式1-7

由于多维高斯分布下的KL散度公式为：

故式等号右侧第二项可改写为：

其中det为行列式，tr为矩阵的秩，d为I的秩即d＝tr(I)；将该式变为具体的神经网络和矩阵运算，将式1-9化简为：

这也是VAE模型的编码部分；

等式右侧第一项即代表依赖隐变量z建出的数据应尽可能与X相同，这是VAE模型的解码部分；

VAE模型所采用的训练语料中，选取其中四个说话人的语音对VAE模型进行充分训练，选取一个目标说话人的少量语音进行不充分训练，这样做的目的是为了初始化目标说话人的Bottleneck特征空间，Bottleneck特征提取DNN网络采用了分段式的训练方法和新的误差控制方式，从而使得基于说话人识别任务的DNN网络Bottleneck特征层进行了自适应；

1.5训练Bottleneck映射网络，将1.4中得到的z_n和说话人标签特征y_n组成联合特征(z_n,y_n)输入BP网络，并以DNN网络输出的Bottleneck特征b_n作为BP网络的监督数据进行训练，使得BP网络的输出与各帧对应的Bottleneck特征b_n之间的误差最小，从而得到Bottleneck特征映射网络；BP网络使用三层前馈全连接型的神经网络，输入层节点数为37个节点，其中32个节点对应VAE模型中隐含空间特征z_n的维数，5个节点对应参与训练的五个说话人构成的5维说话人标签特征y_n；输出层为57个节点，对应57维Bottleneck特征；中间包含一个隐层，节点数为1200，隐层激活函数为sigmoid函数来引入非线性变化；

1.6至此，VAE模型、DNN网络、和Bottleneck特征映射网络已经训练完成；

2进行语音转换：

2.1利用AHOcoder提取源说话人语音的MFCC参数X_src和对数基频

并利用MATLAB进行差分和特征拼接得到特征参数x′_n；具体做法：19维的MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征X_t＝(X,ΔX,Δ²X)，然后将前后相邻两帧拼接，从而得到171维的频谱特征x′_n＝(X_t-1,X_t,X_t+1)；

2.2将x′_n输入VAE模型得到采样特征z_n，并将z_n与说话人标签特征y′进行特征拼接(z_n,y′)，将拼接后的联合特征输入Bottleneck映射网络，网络输出Bottleneck特征

2.3将此Bottleneck特征

并将转换阶段2.1中提取的源说话人对数基频log f₀利用对数域线性变换转换得到目标说话人语音基频；

对数域线性变换是一种简单的，同时也是当前使用最广泛的基频转换方法；这种方法基于一个假设，那就是每个说话人的基频在对数域服从一个高斯分布；那么，只要统计出每个说话人的对数基频的均值和方差，便能构造出两个说话人之间的基频转换关系：

其中源说话人的基频在对数域的均值和方差分别用μ_src和δ_src表示，目标说话人的基频在对数域的均值和方差分别用μ_tar和δ_tar表示，而F0_src则表示源说话人的基频，F0_conv表示转换后的基频，本处使用对数基频logF0_conv，即log f₀；

2.5最后将2.4中得到的目标说话人频谱参数特征

以及转换后的对数基频log f₀通过AHOcoder模型合成转换后的目标说话人语。

7.根据权利要求6所述的训练数据有限情形下的非平行文本语音转换方法，其特征在于：步骤1.3中，DNN网络Bottleneck层自适应训练具体步骤如下：

1.3.4通过随机梯度下降算法依据最小化帧误差的准则进行权值调整，继续DNN网络的训练至梯度收敛；