CN106782599A

CN106782599A - 基于高斯过程输出后滤波的语音转换方法

Info

Publication number: CN106782599A
Application number: CN201611189592.1A
Authority: CN
Inventors: 徐宁; 鲍静益; 姚潇; 汤彬; 汤一彬; 蒋爱民; 刘小峰
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2017-05-31

Abstract

本发明公开一种基于高斯过程输出后滤波的语音转换方法，首先进行训练阶段，针对源和目标的平行数据，利用高斯过程建立源与目标之间的映射关系，然后在转换阶段，通过该映射关系得到目标预测特征参数，利用高斯过程对该输出值进行最大似然估计，并建立输出值的方差的高斯分布。再对最大似然估计和方差的高斯分布进行联合最优化，完成对高斯过程输出的后滤波得到目标参数值，实现高质量的语音转换效果。本发明充分考虑了语音信号特征参数过平滑的问题，构造高斯过程输出后滤波的联合优化函数，提高预测特征参数的准确性，实现说话人个性特征的高质量变换。

Description

基于高斯过程输出后滤波的语音转换方法

技术领域

本发明涉及语音转换技术，属于语音识别与合成领域，特别是一种基于高斯过程输出后滤波的语音转换方法。

背景技术

语音转换技术是语音信号处理领域近年来新兴的研究分支，涵盖了语音识别和语音合成等领域的内容，拟在保持语义内容不变的情况下，通过改变一个特定说话人(被称为源说话人)的话音个性特征，使他(或她)说的话被听者认为是另一个特定说话人(被称为目标说话人)说的话。语音转换的主要任务包括提取代表说话人个性的特征参数并进行数学变换，然后将变换后的参数重构成语音。在这过程中，既要保持重构语音的听觉质量，又要兼顾转换后的个性特征是否准确。

经过多年的发展，语音转换领域已经涌现出一些高效实用的算法，其中以高斯混合模型为代表的统计转换方法目前已俨然成为了该领域公认的标准。但是这类算法亦存在某些弊端，例如：由于高斯混合模型自身模型参数的原因，使得转换后的谱参数过于平滑，导致不能准确地得到目标预测参数值，从而不能达到准确的转换效果。

针对上述问题，目前已存在一些应对方案。例如，基于最大后验概率的GMM转换算法，考虑采用最大后验概率自适应地构造转换函数，来解决转换后谱参数过平滑的问题；基于最大似然估计的GMM转换算法，考虑通过引入全局方差的概念解决过平滑问题。

发明内容

本发明要解决的技术问题为：通过高斯过程对源与目标参数进行训练得到映射函数关系，再对高斯过程预测输出值进一步联合优化，得到较为准确的目标预测输出值，实现高质量语音转换。

本发明采取的技术方案具体为：基于高斯过程输出后滤波的语音转换方法，包括以下步骤：

(1)采用语音分析模型对原始语音进行分析，得到原始语音的参数；

(2)从上述分析得到的参数中提取与音素相关的特征参数集合；

(3)对原始语音和目标语音的特征参数集合进行参数对齐操作；

(4)将对齐的特征参数集合利用高斯过程进行训练得到原始语音与目标语音的映射关系；

(5)输入待转换源语音的特征参数，通过步骤(4)得到的映射关系得到目标语音的特征参数预测值；

(6)利用高斯过程对目标语音的特征参数预测值进行最大似然估计，并计算目标语音特征参数预测值的方差的高斯分布；

(7)对最大似然估计结果和方差的高斯分布结果进行联合最优化，得到最佳目标语音特征参数预测值，最后用语音合成模型合成目标语音。

本发明中，步骤(1)～(4)为训练阶段，步骤(5)～(7)为转换阶段。高斯过程是一个随机过程，可以完全由两个统计参数确定，结构简单，通过高斯过程得到源与目标参数的映射关系，进而可实现语音转换。基于高斯过程的进行语音转换，一方面，高斯过程的非参数特性减少了模型参数的自由度，另一方面高斯过程具有较好的非线性映射能力，从而可以缓解过拟合的问题，避免转换后的谱参数过于平滑。

具体的，本发明步骤(1)中，采用语音分析模型对原始语音进行的分析包括：

1.1对原始语音进行固定时长的分帧，用自相关法对其基音频率进行估计；

1.2在浊音信号部分设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域；再利用最小二乘算法估计得到离散的谐波幅度值和相位值。

语音分析模型为现有技术，其可将语音信号模拟为可用于转换的特征参数，本发明可采用谐波随机模型，该模型将语音信号模拟为大量基频谐波正弦信号和噪声分量，对基频谐波正弦信号作进一步分析，得到适用于转换的语音信号特征参数。

自相关法为现有算法，是语音信号基音频率提取算法中较为经典且具有代表性的方法。

步骤(2)中，从步骤(1)中得到的参数包括原始语音的离散的谐波幅度值和相位值，从上述离散的谐波幅度值中提取与音素有关，即适用于语音转换任务的特征参数集合，包括步骤：

2.1对离散的谐波幅度值求取平方值；

2.2根据功率谱密度函数和自相关函数的一一对应关系，得到关于线性预测系数的托普里茨矩阵方程，求解该矩阵方程得到线性预测系数；

2.3将线性预测系数转换为目标倒谱系数，并求得原始语音的基音频率；

2.4得到包含原始语音倒谱系数和基因频率参数的特征参数集合。

步骤(3)中，对原始语音和目标语音的特征参数集合进行参数对齐操作的对其准则为：对于两个不等长的特征参数序列，利用动态规划的思想将其中一者的时间轴非线性的映射到另一者的时间轴上，从而实现一一对应的匹配关系；在特征参数集合的对齐过程中，通过迭代优化一个预设的累积失真函数，并限制搜索区域，最终获得时间规整函数。

搜索区域是根据第i帧源语音信号矢量和第j帧目标语音信号矢量之间的距离测度，规定的一个平行四边形作为限制条件；时间规整函数是关于源与目标语音帧特征矢量之间距离测度最小的规整函数，以保证语音之间存在最大的声学相似特性。

步骤(4)中所述得到原始语音与目标语音特征参数映射关系的方法包括以下步骤：

4.4从步骤(2)得到的特征参数矩阵中提取原语音参数矩阵中的所有参数将其作为输入，目标参数矩阵中的其中一维数值作为输出，通过高斯过程训练两者之间的映射关系；

源与目标的参数类型及数量皆相同，目标参数矩阵与源语音参数矩阵求解过程一致。各维参数是目标语音各帧特征参数中所有同一维组成的数据(即相同维不同帧所组成的数据)。

4.2依次选择目标参数矩阵中的其他各维数值作为输出，得到原始语音参数矩阵中参数与目标语音参数矩阵中各维数值之间的映射关系。

步骤(5)中，对于待转换源语音，处理过程包括步骤：

5.1对待转换源语音依次按步骤(1)、(2)、(3)进行分析处理，得到待转换源语音的特征参数；

5.2利用步骤(4)得到的映射关系，将步骤5.1得到的待转换源语音的特征参数，映射为目标语音的特征参数，即得到目标语音的特征参数预测值，进一步得到相应的特征参数矩阵。

步骤(6)包括如下步骤：

6.1利用高斯过程对步骤5.2所得目标语音特征参数矩阵中的各维特征参数进行最大似然估计；

6.2计算步骤6.1所得的目标语音各维特征参数的方差，并求取其方差的高斯分布。

步骤(7)包括如下步骤：

7.1构建步骤6.1所得最大似然估计值和步骤6.2所得方差的高斯分布的联合函数，并对该联合函数进行最优化，实现对高斯过程预测输出的后滤波，得到最佳目标预测值，重构目标语音的特征参数矩阵；

7.2基于上述重构的特征参数矩阵和目标语音的基音频率，利用语音合成模型转换为目标语音。

有益效果：

本发明充分考虑了造成转换后谱参数过于平滑问题的原因，结合高斯过程对转换后的预测谱参数输出值进行进一步联合优化，实现了高斯过程输出的后滤波，可达到高质量的语音转换效果。

附图说明

图1所示为本发明使用高斯过程的映射关系示意图；

图2所示为本发明的训练阶段流程示意图；

图3所示为本发明转换阶段流程示意图。

具体实施方式

以下结合附图和具体实施例进一步描述。

参考图1，本发明基于高斯过程输出后滤波的高质量语音转换方法，针对源和目标的平行数据，利用高斯过程建立源与目标之间的映射关系，通过该映射关系得到目标预测输出值，利用高斯过程对该输出值进行最大似然估计，并建立输出值的方差的高斯分布。对最大似然估计和方差的高斯分布进行联合最优化，得到目标参数值完成对高斯过程输出的后滤波，实现高质量的语音转换效果；具体包括如下步骤：

(2)从分析得到的参数中提取与音素相关的特征参数集合；

上述步骤中，步骤(1)～(4)为训练步骤，步骤(5)～(7)为转换步骤。高斯过程是一个随机过程，可以完全由两个统计参数确定，结构简单，通过高斯过程得到源与目标参数的映射关系，可以有效解决高斯混合模型造成的过拟合问题，另外对高斯过程预测输出进行进一步联合优化可有效解决过平滑问题。

本发明的提出是针对高斯混合模型在语音转换中存在的问题，有两个关键点：一是通过高斯过程训练源参数与目标参数各维数之间的映射关系，二是对高斯过程输出的目标预测值进行进一步分析，求其最大似然估计和方差的高斯分布，建立两者之间的联合函数并进行联合最优化，实现高斯过程输出的后滤波，得到更为准确的预测输出值，实现高质量语音转换。

再次参考图1，其中N是用于训练的特征参数的帧数，D为特征参数的维数。又设X，X’分别表示训练时的两个不同输入，X_*表示转换阶段的输入，y表示输出，则高斯过程可以完全由均值和协方差两个统计参数确定，即

y～GP(m(x),κ(X,X′)) (1)

其中为协方差函数，m(x)为均值函数，由于m(x)和κ(X,X′)中含有未知超参数σ和l，因此使用前需要对高斯过程进行训练，通过最大边缘相似度得到超参数σ和l，高斯过程训练完成后即可通过训练数据和测试输入进行预测得到测试输出，假设高斯过程预测输出值为y_*，测试输出y_*的后验概率分布为P(y_*|X,y,X_*)，即：

得：

v[y_*]＝κ(X_*,X_*)-κ(X_*,X)κ(X,X)^-1κ(X,X_*) (4)

其中，式(2)中的符号Ψ表示高斯分布函数，式(3)中表示高斯分布均值，式(4)中v[y_*]表示高斯分布方差。

本发明的创新之处在于：对高斯过程的预测输出值进行后滤波，以解决预测输出参数过平滑问题，具体为：

通过上式得到高斯分布的预测输出值，计算其最大似然估计和方差的高斯分布，并进行联合最优化，得到目标参数值完成对高斯过程输出的后滤波，实现高质量的语音转换效果；具体包括如下步骤：

高斯过程预测输出值y_*的最大似然估计函数为P(y_*)，预测输出值y_*的方差为v(y_*)，其高斯分布为P(v(y_*))，其联合对数似然函数为

其中w为测试帧数，是常数。求得联合对数似然函数的最大值

即得到目标预测值。

本发明进行语音转换的具体流程为，

如图2所示为训练阶段流程：

①通过语音分析模型的分析，获得训练阶段源与目标特征参数序列；

②将源和目标的特征参数集合通过动态时间规整算法进行对齐，使得对齐后的参数集合符合平行数据的要求；

③利用高斯过程对源与目标的特征参数进行训练，得到两者之间的映射关系；

如图3为转换阶段流程：

①通过语音分析模型的分析，获得转换阶段源特征参数序列；

②在给定特征参数序列以及训练得到的映射关系的基础上，预测转换语音的特征参数；

③对得到的转换语音特征参数利用公式(5)和(6)进行联合优化，进一步输出准确预测值，并合成转换语音。

实施例

在训练阶段：

①源和目标人的语音通过谐波加随机模型进行分解，得到基音频率轨迹和谐波声道谱参数的幅度值和相位值。具体细节描述如下:

a.对语音信号进行分帧，帧长30ms，帧重叠间隔15ms。

b.在每帧中，用自相关法估计基频，若该帧为清音帧，则设置基频等于零。

c.对于浊音帧(即基频不为零的帧)，假设其语音信号可以由一系列的正弦波叠加而成：

式中L为正弦波的个数，n为一帧语音中包含的样点数，{C_l}为正弦波的复幅度。令s_h表示s_h(n)在一帧内的样点所组成的矢量，则(7)式可以改写成：

其中，矩阵B由公式(7)中改写而成，ω₀为基音频率，列数表示一帧内一个采样点所组成的矢量，行数表示一帧内总采样点数，x表示语音信号叠加时的幅度值。C^* _L的上标“*”表示共轭的意思。

通过最小二乘算法可以确定以上的{C_l}：

其中s(n)是真实语音信号，w(n)是窗函数，一般取汉明窗。ε表示误差。将窗函数也改写成矩阵形式W：

则最优的x可以这样得到：

式中，x_opt表示语音信号叠加时幅度的最优值，上标H表示共轭复转置，由于(B^HW^HW)是一个托普里茨矩阵(Toeplitz Matrix)，因此可以用莱文森-杜宾(Levinson-Dubin)快速算法对其进行求解，s为真实语音信号s(n)在一帧的范围内的样点所组成的矢量。

d.得到了{C_l}，则谐波幅度A和相位值如下：

②由于原始谐波加噪声模型参数维数较高，不便于后续计算，因此必须对其进行降维。由于基频轨迹是一维参数，因此，降维的主要对象是声道幅度谱参数和相位参数。同时，降维的目标是将声道参数转化为经典的线性预测参数，进而产生适用于语音转换系统的倒谱系数。求解步骤如下：

a.分别求取离散的M个幅度值A_m的平方，并将其认为是离散功率谱的采样值P(ω_m)。

b.根据帕斯卡定律，功率谱密度函数和自相关函数是一对傅立叶变换对，则采用自相关函数表示其关系即为：式(13)即为关于线性预测系数的托普里茨矩阵方程，我们可以通过求解以下矩阵方程得到对线性预测参数系数的初步估值：

其中a₁,a₂,…,a_p是p阶线性预测参数系数，R₀～R_P分别表示为前p个整数离散点上的自相关函数值。

c.通过线性预测分析得到的合成滤波器的系统函数为H(z)，其冲激相应为h(n)：

其中{a_i}为线性预测系数，p为线性预测系数(LPC)的阶数，z表示数学中z变换的自变量。

下面求h(n)的倒谱首先根据同态处理法得到：

因为H(z)是最小相位的，即在单位圆内是解析的，所以可以展开成级数形式，即：

也就是说的逆变换是存在的，设将式(16)两边同时对z^-1求导：

得到：

令式(18)等号两边z的各次幂前系数分别相等，得到和a_i之间的递推关系：

按式(19)～(21)可直接从预测系数{a_i}求得倒谱系数

③通过步骤②得到的源和目标的倒谱系数参数，用动态时间规整算法进行对齐。所谓的“对齐”是指：使得对应的源和目标的倒谱系数在设定的失真准则上具有最小的失真距离。这样做的目的是：使得源和目标的特征序列在参数的层面上关联，便于后续统计模型学习其中的映射规律。动态时间规整算法步骤简要概述如下：

对于同一个语句的发音，假定源说话人的声学个性特征参数序列为而目标说话人的特征参数序列为且N_x≠N_y。设定源说话人的特征参数序列为参考模板，则动态时间规整算法就是要寻找时间规整函数使得目标特征序列的时间轴n_y非线性地映射到源特征参数序列的时间轴n_x，从而使得总的累积失真量最小，在数学上累积失真函数可以表示为：

其中表示第n_y帧的目标说话人特征参数和第帧源说话人特征参数之间的某种测度距离。

时间规整函数是关于源与目标语音帧特征矢量之间距离测度最小的规整函数，以保证语音之间存在最大的声学相似特性。在动态时间规整的规整过程中，规整函数是要满足以下的约束条件的，有边界条件和连续性条件分别为：

动态时间规整是一种最优化算法，它把一个N阶段决策过程化为N个单阶段的决策过程，也就是转化为逐一做出决策的N个子问题，以便简化计算。动态时间规整的过程一般是从最后一个阶段开始进行，也即它是一个逆序过程，其递推过程可以表示为：

其中，g(n_y,n_x)是为了n_y,n_x的取值满足时间规整函数的约束条件，D函数表示累计失真函数，d函数表示点与点之间的失真函数。

④训练高斯过程求其超参数：高斯过程可完全由二阶统计量确定，即均值和方差，假设均值函数为m(x)，方差函数为κ(X,X′)，高斯过程可表示为：

y～GP(m(x),κ(X,X′)) (26)

其中我们假设均值m(x)为0，方差κ(X,X′)为：

上式中包含未知超参数σ和l，因此通过训练数据对其高斯过程进行训练，计算σ和l的值。

将动态时间规整对齐后的源和目标特征参数作为高斯过程训练数据，得到两者之间的映射关系。

在转换阶段：

①待转换的源语音用谐波随机模型进行分析，得到基音频率轨迹和谐波声道谱参数的幅度值和相位值，该过程和训练阶段中的第一步相同。

②和训练阶段一样，将谐波加噪声模型参数转换为倒谱系数参数。

③利用训练阶段得到的映射关系将源语音倒谱系数和基音频率映射为转换语音的倒谱系数和基音频率。

④对得到的转换语音特征参数利用公式(5)和(6)进行联合优化，实现对高斯过程输出的后滤波，以便进一步输出更为准确的预测值。

⑤将转换后的倒谱系数参数反变换为谐波加随机模型系数，然后和映射后的基频轨迹一起合成转换后的语音，详细步骤如下：

a.将获得的用正弦模型的定义合成第k帧的语音，即：

b.为了减少帧间交替时产生的误差，采用叠接相加法合成整个语音，即对于任意相邻的两帧，有：

其中N表示一帧语音中包含的样点数，m代表样点数。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于高斯过程输出后滤波的语音转换方法，其特征是，包括以下步骤：

（1）采用语音分析模型对原始语音进行分析，得到原始语音的参数；

（2）从分析得到的参数中提取与音素相关的特征参数集合；

（3）对原始语音和目标语音的特征参数集合进行参数对齐操作；

（4）将对齐的特征参数集合利用高斯过程进行训练得到原始语音与目标语音的映射关系；

（5）输入待转换源语音的特征参数，通过步骤（4）得到的映射关系得到目标语音的特征参数预测值；

（6）利用高斯过程对目标语音的特征参数预测值进行最大似然估计，并计算目标语音特征参数预测值的方差的高斯分布；

（7）对最大似然估计结果和方差的高斯分布结果进行联合最优化，得到最佳目标语音特征参数预测值，最后用语音合成模型合成目标语音。

2.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法，其特征是，步骤（1）中，采用语音分析模型对原始语音进行的分析包括：

3.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法，其特征是，

步骤（2）中，从步骤（1）中得到的参数包括离散的谐波幅度值和相位值，从上述离散的谐波幅度值中提取与音素有关，即适用于语音转换任务的特征参数集合包括：

2.1对离散的谐波幅度值求取平方值；

2.2根据功率谱密度函数和自相关函数的一一对应关系，得到关于线性预测系数的托普里茨矩阵方程，求解该方程；

2.4得到包含倒谱系数和基因频率参数的特征参数矩阵。

4.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法，其特征是，步骤（3）中，对原始语音和目标语音的特征参数集合进行参数对齐操作的对其准则为：对于两个不等长的特征参数序列，利用动态规划的思想将其中一者的时间轴非线性的映射到另一者的时间轴上，从而实现一一对应的匹配关系；在现参数集合的对齐过程中，通过迭代优化一个预设的累积失真函数，并限制搜索区域，最终获得时间匹配函数。

5.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法，其特征是，步骤（4）中所述得到原始语音与目标语音特征参数映射关系的方法包括以下步骤：

4.4从步骤（2）得到的特征参数矩阵中提取原语音信号特征参数矩阵中的所有参数将其作为输入，目标语音参数矩阵中的其中一维数值作为输出，通过高斯过程训练两者之间的映射关系；

6.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法，其特征是，步骤（5）中，对于待转换源语音，处理过程包括步骤：

5.1对待转换源语音依次按步骤（1）、（2）、（3）进行分析处理，得到待转换源语音的特征参数；

5.2利用步骤（4）得到的映射关系，将步骤5.1得到的待转换源语音的特征参数，映射为目标语音的特征参数，即得到目标语音的特征参数预测值，进一步得到相应的特征参数矩阵。

7.根据权利要求6所述的基于高斯过程输出后滤波的语音转换方法，其特征是，步骤（6）包括如下步骤：

8.根据权利要求7所述的基于高斯过程输出后滤波的语音转换方法，其特征是，步骤（7）包括如下步骤：