CN108206024B

CN108206024B - 一种基于变分高斯回归过程的语音数据处理方法

Info

Publication number: CN108206024B
Application number: CN201711474721.6A
Authority: CN
Inventors: 徐宁; 缪晓宇; 刘小峰; 蒋爱民; 王平
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2021-06-25
Anticipated expiration: 2037-12-29
Also published as: CN108206024A

Abstract

本发明公开了一种基于变分高斯回归过程的语音数据处理方法，基于变分高斯回归过程模型进行语音数据处理，所述变分高斯回归过程模型在VFE近似基础上，对对数似然函数进行变换，使得求出的最终下限变大，求出活动点集的自由变分高斯分布，自由变分高斯分布为映射近似中所需要的选取点的后验分布，按映射近似的方法来对语音数据进行处理。本发明提高计算的效率，对于最后求出的下限最大值中的部分项作出近似，在尽量减小相似性的损失的同时，使得计算效率能够大大提升。

Description

一种基于变分高斯回归过程的语音数据处理方法

技术领域

本发明涉及语音数据处理领域，具体涉及一种基于变分高斯回归过程的语音数据处理方法

背景技术

对于语音数据的处理是现代信息数据处理的很重要的一部分，通过按时间间隔分帧，对于每一帧语音数据，可以用一个高维列向量来表示它，每一维对应一个特征，如共振峰频率，带宽等等。这样就能将语音数据的处理问题转换为更为常见的数据处理问题，进而转换为回归问题；

高斯过程回归是一种机器学习回归方法，它是一种非参数回归方法，所以相较于参数回归方法，它的过拟合现象并不严重，而且预测结果具有概率意义，既有预测值，同时还有对于预测值的可信度的判断(通俗的讲，就是对于预测结果准确率的信心)，在对于小样本数据的处理上，高斯过程回归的效果相当好。

但是高斯过程回归也有一些问题，最主要的就是所花费的计算代价极大，在当下时代，数据处理中所涉及的都是量级十分巨大的数据，所以标准的高斯过程回归在实际应用中并没有得到推广。现有技术，最标准高斯过程回归的最大问题就是计算量太大，换句话来说就是计算时间太长。而之后的各种近似包括VFE近似都是在尽量保证准确性的基础上，使得计算量减小，不可避免的会造成准确度的降低。

发明内容

发明目的：本发明在VFE((Variational Free approximation VariatioinalFree Energy approximation))近似模型的基础上进一步缩小PP近似(Project processapproximation，映射近似)模型和标准高斯过程回归模型两者对数似然函数之间的差异，从而提升预测准确性。

本发明技术方案如下。

一种基于变分高斯回归过程的语音数据处理方法，基于变分高斯回归过程模型进行语音数据处理，变分高斯回归过程模型在VFE近似基础上，对对数似然函数进行变换，将对数似然函数进行最小化，求出活动点集的自由变分高斯分布，自由变分高斯分布为映射近似中所需要的选取点的后验分布，按映射近似的方法来对语音数据进行处理。

一种基于变分高斯回归过程的语音数据处理方法，具体包括以下步骤：

S01，语音数据按时间间隔分帧，对每一帧数据提取特征数据，将特征数据组成训练数据，数量记为N，每个特征数据为d维数据；

S02，确定所需要的活动点的数量，记为m，在对数似然函数表达式进行变换之后，通过运用詹森不等式，计算得出一个下限，求出活动点集所服从的自由高斯分布；

S03，采用贪婪算法确定活动点集中的m个元素；

S04，对求出的对数似然函数下限中的参数求偏导，采用优化方法对偏导数进行最小化，得出参数的最优解；

S05，将步骤S04中求出的参数代入到步骤S02中的活动点集高斯分布中，并按照PP近似的方法来求出语音数据的预测值，实现对语音数据的回归。

步骤S02具体包括以下步骤：

(201)对数似然函数表达式为式(1)：

ln^p(y)＝ln∫∫p(y|f)p(f|f_m)p(f_m)dfdf_m (1)

在语音转换中，训练样本是每一帧源语音数据与其对应的目标语音数据所形成的数据对集合，假设目标语音数据为一维数据，建立目标语音数据模型为y＝f(x)+ε，其中y为观测到的带有噪声的观测值，f为未受到噪声污染的函数值，x为源语音数据，ε为噪声，假设噪声服从高斯分布N(0,σ²I)，定义I是指单位矩阵；f_m为活动点集中所有源语音数据所对应的目标数据的函数值；p(y|f)表示已知变量f后变量y的概率；p(f|f_m)表示已知f_m情况下f的概率，p(f_m)表示f_m的概率；p(y)表示y的概率；

(202)VFE近似过程为式(2)：

(203)詹森不等式表述为式为：

f为凸函数或者凹函数，x为随机变量，若f为凸函数，则E(f(x))≥f(E(x))；若f为凹函数，则E(f(x))≤f(E(x)))，其中E(f(x))是随机变量f(x)的期望；

(204)在高斯过程回归的预测阶段，结合詹森不等式将对数似然函数进行最小化，又因为ln函数为凹函数，得到式(3)：

将ln^p(y)的最小化问题转化为求式(3)不等式右边的最大化问题，不等式(3)右边定义为F_V(X_m,φ)，要求F_V(X_m,φ)的最大值，将φ(f_m)作为自变函数，进行变分求解，求出F_V(X_m,φ)的最大值以及所对应的φ(f_m)所服从的高斯分布；

(205)以所述VFE近似过程为基础，对数似然函数转换为式(4)：

则式(4)经过詹森不等式变化后，转换为式(5)：

n为正整数，

的Hessian矩阵为半正定矩阵，为凸函数，则

为凹函数，

得出：

表示均值为0，方差为

的高斯分布；

其中

K_Nm为所有N个数据与m个活动点之间的协方差，K_mm为m个活动点与m个活动点之间的协方差，K_mN为K_Nm的转置。

将n取得足够大(n≥10⁴)，式(7)中第三项忽略掉，近似等式变换为式(8)：

得出活动点集所服从的分布为：

φ(f_m)～N(σ^-2K_mm(K_mm+σ^-2K_mnK_nm)^-1K_mny,K_mm(K_mm+σ^-2K_mnK_nm)^-1K_mm)

设θ为所有参数的集合，根据极大似然法，要求出F_H(X_m)对θ的偏导，最终求出所有的参数θ。

步骤S03具体包括以下步骤：

(301)建立一个活动点集，活动点集初始为一个空集记为J，然后建立J的余集记为J^C，则JUJ^C为全部训练数据；

(302)随机从J^C中选取一部分元素建立一个工作集，记为W，将W中的数据点分别代入到

中去，最大化

为选取活动点的选择标准，其中

其中Tr是指矩阵的迹，即主对角线所有元素的和；选出使得

最大一个点加入活动点集J，更新J^C，并再次从J^C中随机选取工作集W，第二次选择第二个活动点，重复m次，直至选出m个活动点，使得J成为所需要的活动点集。

活动点集为代表整个训练样本的子集。

较优地，步骤S04所述优化方法为共轭梯度法或者牛顿法。

本发明的有益效果包括：本申请一种基于变分高斯回归过程的语音数据处理方法利用了

凹函数的性质，在VFE近似的基础上进一步提高了预测值得精确性；在VFE近似的基础上进一步缩小了PP近似与标准高斯过程回归两者似然函数的差异，从而使得语音预测结果会更加好，实现原语音数据准确回归；本发明提高计算的效率，对于最后求出的下限最大值中的部分项作出近似，在尽量减小相似性的损失的同时，使得计算效率能够大大提升。

附图说明

下面结合附图和实施例对本发明进一步说明；

图1为本发明一种基于变分高斯回归过程的语音数据处理方法流程图；

图2为本发明涉及的活动点集按照变分方法根据近似性标准选取的图示说明。

具体实施方式

下面结合附图并通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

为了使本发明的技术手段、创作特征、工作流程、使用方法达成目的与功效，且为了使该评价方法易于明白了解，下面结合具体实施例，进一步阐述本发明。

一种基于变分高斯回归过程的语音数据处理方法，基于变分高斯回归过程模型进行语音数据处理，所述变分高斯回归过程模型在VFE近似基础上，对对数似然函数进行变换，将对数似然函数进行最小化，然后求出活动点集的自由变分高斯分布，自由变分高斯分布为映射近似(PP近似)(Project Process approximation)中所需要的选取点的后验分布，按映射近似(PP近似)的方法来对语音数据进行处理。

如图1所示，一种基于变分高斯回归过程的语音数据处理方法，具体包括以下步骤：

S02，确定所需要的活动点的数量(活动点集代表整个训练样本的子集)，记为m，对对数似然函数进行变换，使用变分求出一个下限，在对数似然函数表达式进行变换之后，通过运用詹森不等式，得出一个下限，相较于VFE近似所得出的下限，本申请所得出的下限更大，并求出活动点集所服从的自由高斯分布；

S03，采用贪婪算法确定最终的活动点集中的m个元素；

S04，对求出的对数似然函数下限中的参数求偏导，并采用共轭梯度法或者牛顿法等优化方法对偏导数进行最小化，得出参数的最优解；

S05，按照PP近似的方法，将步骤S04中求出的参数代入到步骤S02中的活动点集高斯分布中，并按照PP近似的方法来求出语音数据的预测值，实现对语音数据的回归。语音数据进行分帧后，每一帧语音数据进行特征提取，由此将一段语音抽象成一组数据样本，而PP近似则是标准高斯过程回归的一种近似方法，即一种对数据的回归方法。

如图2所示，步骤S02具体包括以下步骤：

(201)对数似然函数表达式为式(1)：

ln^p(y)＝ln∫∫p(y|f)p(f|f_m)p(f_m)dfdf_m (1)

在语音转换中，训练样本是每一帧源语音数据与其对应的目标语音数据所形成的数据对集合，而目标语音数据是一个多维向量，为计算简便，假设目标语音数据为一维数据，建立目标语音数据模型为y＝f(x)+ε，其中y为观测到的带有噪声的观测值，f为未受到噪声污染的函数值，x为源语音数据，ε为噪声，假设噪声服从高斯分布N(0,σ²I)，定义I是单位矩阵；f_m为活动点集中所有源语音数据所对应的目标数据的函数值；p(y|f)表示已知变量f后变量y的概率；p(f|f_m)表示已知f_m情况下f的概率，p(f_m)表示f_m的概率；p(y)表示y的概率；

(202)VFE近似过程为式(2)：

(203)詹森不等式表述为式为：

(205)以所述VFE近似过程为基础，对数似然函数转换为式(4)：

则式(4)经过詹森不等式变化后，转换为式(5)：

n为正整数，

的Hessian矩阵为半正定矩阵，为凸函数，则

为凹函数，因此可以对等式作如上变换；

进一步证明上述式子比VFE近似所求的下限更大，证明如下：

令

对F_H(X_m,φ)再用一次詹森不等式，得到不等式(6)：

不等式右边则为F_V(X_m,φ)，由此得证。

最终得出：

定义I是指单位矩阵，

表示均值为0，方差为

的高斯分布；

其中

为了不增加计算量，将n取得足够大(n≥10⁴本实施例n＝10⁴)，式(7)中

第三项中的K_NN这一项忽略掉，近似等式变换为式(8)：

并得出活动点集所服从的分布为：

步骤S03具体包括以下步骤：

中去，这里最大化

为选取活动点的选择标准，其中

其中Tr是指矩阵的迹，即主对角线所有元素的和；选出使得

最大一个点(注：这里起始只有一个活动点)加入活动点集J，然后更新J^C，并再次从J^C中随机选取工作集W，第二次就是选择第二个活动点(第二次计算

最大值时，这里的X_m就是两个点了，一个是已经选择好的数据点，另一个是新的工作集W中的数据点)，这样重复m次，直至选出m个活动点，使得J成为所需要的活动点集。

步骤S04包括如下步骤：对步骤S03中所求出的对数似然函数的下限中的参数分别求偏导，采用牛顿法或者共轭梯度法优化方法得出参数的最优解。牛顿法或者共轭梯度法优化方法都是本领域技术人员的公知常识，本实施例不再详述。

将测试点的数据和步骤S04中求得的模型参数代入至PP近似模型中，从而得出最终预测结果。就是根据已有源语音数据和目标语音数据，给出一段新的源语音数据，音转换是建立在有双方语音音频的基础之上，预测出与之对应的目标语音数据。

本领域内的技术人员可以对本发明进行改动或变型的设计但不脱离本发明的思想和范围。因此，如果本发明的这些修改和变型属于本发明权利要求及其等同的技术范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于变分高斯回归过程的语音数据处理方法，其特征在于，

基于变分高斯回归过程模型进行语音数据处理，变分高斯回归过程模型进行语音数据处理具体包括以下步骤：所述变分高斯回归过程模型在VFE近似基础上，对对数似然函数进行变换，将对数似然函数进行最小化，求出活动点集的变分高斯分布，变分高斯分布为映射近似中所需要的活动点的后验分布，基于变分高斯分布按映射近似的方法来对语音数据进行处理；活动点集是整个训练样本的子集；

所述一种基于变分高斯回归过程的语音数据处理方法，具体包括以下步骤：

S02，确定所需要的活动点的数量为m，将对数似然函数表达式进行变换，通过运用詹森不等式，将对数似然函数进行最小化，求出活动点集所服从的变分高斯分布；

S03，采用贪婪算法确定活动点集中的m个元素；

S05，将步骤S04中求出的参数代入到步骤S02中的活动点集高斯分布中，并按照映射近似的方法来求出语音数据的预测值，实现对语音数据的回归；

所述步骤S03具体包括以下步骤：