CN107808673B

CN107808673B - 语音数据基于分簇聚类的分块高斯回归模型子集建模方法

Info

Publication number: CN107808673B
Application number: CN201711114782.1A
Authority: CN
Inventors: 缪晓宇; 徐宁; 王平
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2020-07-14
Anticipated expiration: 2037-11-13
Also published as: CN107808673A

Abstract

本发明公开了一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法，语音数据按时间间隔分帧，对每一帧数据进行特征提取，每一帧提取出来的高维数据降到三维后，进行分块高斯回归模型建模；所述分块高斯回归模型为基于子集法的高斯回归过程模型，在训练数据集中，按照贪婪算法选取出若干代表原训练数据集的点构成子集，将携带冗余信息的数据点剔除掉，本发明根据具体的测试点来调整所选取的子集，并且通过分簇聚类后，选取的子集来自各个不同的簇，能够代表整个数据集，这样选取的子集既能保证是最接近测试点的一部分局部最优点，同时兼顾全局。

Description

语音数据基于分簇聚类的分块高斯回归模型子集建模方法

技术领域

本发明涉及语音数据处理领域，具体涉及一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法。

背景技术

语音数据是现代信息数据的重要处理内容，每一帧语音数据，都可以用特征参数来描绘，比如说用共振峰有关参数，就是一帧语音数据的共振峰频率(第一维)，带宽(第二维)，能量频谱倾斜(第三维)等，用特征参数描述的语音数据帧高维数据，每一帧提取出来的高维数据能够降到三维后，能够进行回归及预测；

高斯过程回归是一种机器学习回归方法，它有着严格的统计学习理论基础，对处理高维数、小样本、非线性等复杂的问题具有很好的适用性，且泛化能力强，与神经网络、支持向量机相比，高斯过程回归具有容易实现、超参数自适应获取、非参数腿短灵活以及输出具有概率意义等优点。

但高斯过程回归所需的计算量极大，所以为了解决这个问题，很多的近似模型被提出来，而在这些近似模型中最简单但在有些场合下却最有效的就是子集法，而应用子集法的关键就是选取一个合适的子集。现有技术中，语音数据一般采取随机选取的方式，但这样的得出的语音数据预测结果较差，语音失真，严重影响语音数据的传输和仿真；而仅采用子集法获得高斯模型进行语音数据处理，很容易出现语音数据的严重的过拟合现象，而标准的高斯过程回归处理数据所花的时间又太长，这在实际应用中都会造成很不好的影响。

发明内容

为解决现有技术语音数据高斯回归模型子集选取计算量过大，预测结果查，语音失真，过拟合等问题，本发明公开一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法，根据具体的测试点来调整所选取的子集，并且通过分簇聚类后，最后选取的子集来自各个不同的簇，从而代表整个数据集，这样选取的语音数据高斯回归模型的子集既能保证是最接近测试点的一部分局部最优点，同时也能兼顾全局，语音数据预测准确，预测高效，延迟小。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法，语音数据按时间间隔分帧，对每一帧数据进行特征提取，每一帧提取出来的特征数据降到三维后，进行分块高斯回归模型建模；所述分块高斯回归模型为基于子集法的高斯回归过程模型，在训练数据集中，按照贪婪算法选取出若干代表原训练数据集的点构成子集，将携带冗余信息的数据点剔除掉。

语音数据基于分簇聚类的分块高斯回归模型子集建模方法，具体包括以下步骤：

S01，语音数据按时间间隔分帧，对每一帧数据进行特征提取，提取特征数据；

S02，每一帧提取出来的特征数据降到三维，组成训练数据；

S03，采用贪婪算法从训练数据集中选出一个子集；

S04，对选取的子集进行标准的高斯回归，求出高斯回归模型参数；

步骤S03具体包括以下步骤：

(a1)在N个三维训练数据中，选取的子集中包含M个元素，对N个三维训练数据进行初始分簇聚类，得出K个簇，并获得每个簇的质心；

其中[]为向前取整；

(a1)按照与质心的距离大小将训练集中的数据点等分为K个子集，每个簇中与相应簇质心距离d_i，比较d_i获取最远点到簇质心的距离R；

R＝max d_i,i＝1,2.....K；

(a3)以K个质心为圆心，R为半径做出K个球，利用训练数据总量和分簇个数的商N/K，确定r与R的关系，使得大球之中填充满小球；

m＝[lg^N/K]，

r＝R/(2m+1)；[]为向前取整；

r为小球的半径，R为大球的半径R与r的比例为2m+1，每个大球的直径分为2m+1段等长线段，将每个半径为R的大球当中填满半径为r的小球；

(a4)做一个与大球完全相切的正方体，以2r为棱长将大正方体分割为(2m+1)^3个小正方体，然后求出每个小正方体的中心坐标，判断每个中心坐标到大球体球心的距离是否小于等于R-r，然后选取距离小于等于R-r的小球心，将簇中的所有点按最近距离原则划分至各个小球心；

(a5)将每个簇中的数据点按最近距离原则分入到每个小球当中，并设立一个阈值C，当小球中的数据个数少于该阈值时，将该球中的数据点按最近距离原则分入到周围小球当中；

(a6)统计出每个簇中实际含小球的个数，并将每个小球的球心坐标记下，记含小球个数最多的簇中含p个小球，找出离测试点距离最近的p个小球球心，将所述p个小球中包含的数据作为子集。

较优地，步骤S04工作过程包括如下步骤：

(b1)利用已选取好的子集，对子集进行高斯过程的训练，取条件概率的负对数求出核函数的参数；

(b2)对所有的模型参数分别求偏导，采用共轭梯度法得出参数的最优解。

较优地，阈值C＝M/K。

较优地，步骤S05，将测试点的数据和步骤S04中求得的模型参数代入至高斯回归模型中。

本发明的有益效果包括：本发明公开一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法，在选取子集是不再是以能够代表整个数据集为主要方向，而是根据具体的测试点来调整所选取的子集，并且通过分簇聚类后，选取的子集来自各个不同的簇，能够代表整个数据集，这样选取的子集既能保证是最接近测试点的一部分局部最优点，同时兼顾全局。

附图说明

图1为本发明一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法流程图；

图2为本发明涉及的子集选取的图示说明。

具体实施方式

下面结合附图并通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

为了使本发明的技术手段、创作特征、工作流程、使用方法达成目的与功效，且为了使该评价方法易于明白了解，下面结合具体实施例，进一步阐述本发明。

如图1所示，一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法，语音数据按时间间隔分帧，对每一帧数据进行特征提取，每一帧提取出来的高维数据降到三维后，进行分块高斯回归模型建模；所述分块高斯回归模型为基于子集法的高斯回归过程模型，在训练数据集中，按照贪婪算法选取出若干代表原训练数据集的点构成子集，将携带冗余信息的数据点剔除掉。

语音数据子集的选择就是确定源样本和目标样本之间的映将射关系。语音数据的特征比较多，本发明公开的方法是假设在已有一种较有效的降维方法的前提下，将每一帧提取出来的高维数据能够降到三维；如PCA或者KPCA，这两种都是比较本技术领域通用的降维方法，然后进行语音数据回归及预测。

S01，语音数据按时间间隔分帧，对每一帧数据进行特征提取，提取特征数据；语音特征数据比较多，包括共振峰、共振峰频率、带宽、能量频谱倾斜和各种倒谱参数，倒谱参数包括离散倒谱，Mel频率倒谱和线性预测倒谱，每一帧都是一组高维数据；一帧语音数据的特征数据个数与纬数对应；

S02，每一帧提取出来的特征数据降到三维，组成训练数据；

S03，采用贪婪算法从训练数据集中选出一个子集；

S04，对选取的子集进行标准的高斯回归，求出高斯回归模型参数；高斯过程回归模型本身是个非参数过程，但是模型的核心是核函数，核函数中包含参数，在训练过程中，用优化方法求出核函数的参数；

步骤S05，将测试点的数据和步骤S04中求得的模型参数代入至高斯回归模型中。

步骤S03具体包括以下步骤：

其中[]为向前取整；

R＝max d_i,i＝1,2.....K；

(a3)以K个质心为圆心，R为半径做出K个球，利用训练数据总量和分簇个数的商N/K，确定r与R的关系，使得大球之中填充满小球，如图2所示；

m＝[lg^N/K]，

r＝R/(2m+1)；[]为向前取整；

r为小球的半径，R与r的比例为2m+1，每个大球的直径分为2m+1段等长线段，将每个半径为R的大球当中填满半径为r的小球；

(a4)做一个与大球完全相切的正方体，以2r为棱长将大正方体分割为(2m+1)^3个小正方体，然后求出每个小正方体的中心坐标，判断每个中心坐标到大球体球心的距离是否小于等于R-r，然后选取符合条件的小球心(距离小于等于R-r，则为符合条件)，将簇中的所有点(包括小圆内的以及小圆之间的空隙中的数据点)按最近距离原则划分至各个小球心；

步骤S04工作过程包括如下步骤：

(b1)利用已选取好的子集，对子集进行高斯过程的训练，取条件概率的负对数求出核函数的参数(取条件概率的负对数优化算法，是现有技术常用优化方法，实施例不再详述)；

阈值C＝M/K。

基于本发明公开的语音数据基于分簇聚类的分块高斯回归模型子集建模方法与子集法模型和标准高斯过程回归作仿真比较，选取4200帧语音数据经过特征提取以及PCA降维后，得到4200个训练点，即训练集中的数据点为N＝4200，对于子集法，取M为210；仿真结果如表1：

表1本发明与子集法模型和标准高斯过程回归作仿真比较

由表1可知，子集法很容易出现严重的过拟合现象，而标准的高斯过程回归处理数据所花的时间又太长，在实际应用中都会造成很不好的影响，本申请的技术方案解决了上述问题。

本领域内的技术人员可以对本发明进行改动或变型的设计但不脱离本发明的思想和范围。因此，如果本发明的这些修改和变型属于本发明权利要求及其等同的技术范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法，其特征在于，

语音数据按时间间隔分帧，对每一帧数据进行特征提取，每一帧提取出来的特征数据降到三维后，进行分块高斯回归模型建模；所述分块高斯回归模型为基于子集法的高斯回归过程模型，在训练数据集中，按照贪婪算法选取出若干代表原训练数据集的点构成子集，将携带冗余信息的数据点剔除掉；

具体包括以下步骤：

S02，每一帧提取出来的特征数据降到三维，组成训练数据；

S03，采用贪婪算法从训练数据集中选出一个子集；

所述步骤S03具体包括以下步骤：

其中[]为向前取整；

R＝maxd_i,i＝1,2.....K；

m＝[lg^N/K]，

r＝R/(2m+1)；[]为向前取整；

r为小球的半径，R为大球半径，R与r的比例为2m+1，每个大球的直径分为2m+1段等长线段，将每个半径为R的大球当中填满半径为r的小球；

(a4)做一个与大球完全相切的大正方体，以2r为棱长将大正方体分割为(2m+1)^3个小正方体，然后求出每个小正方体的中心坐标，判断每个中心坐标到大球体球心的距离是否小于等于R-r，然后选取距离小于等于R-r的小球心，将簇中的所有点按最近距离原则划分至各个小球心；

(a5)将每个簇中的数据点按最近距离原则分入到每个小球当中，并设立阈值C，当小球中的数据个数少于该阈值时，将该球中的数据点按最近距离原则分入到周围小球当中；

2.根据权利要求1所述的语音数据基于分簇聚类的分块高斯回归模型子集建模方法，其特征在于，

所述步骤S04工作过程包括如下步骤：

3.根据权利要求1所述的语音数据基于分簇聚类的分块高斯回归模型子集建模方法，其特征在于，阈值C＝M/K。

4.根据权利要求1所述的语音数据基于分簇聚类的分块高斯回归模型子集建模方法，其特征在于，

还包括步骤S05，将测试点的数据和步骤S04中求得的模型参数代入至高斯回归模型中。