CN107808673B - 语音数据基于分簇聚类的分块高斯回归模型子集建模方法 - Google Patents

语音数据基于分簇聚类的分块高斯回归模型子集建模方法 Download PDF

Info

Publication number
CN107808673B
CN107808673B CN201711114782.1A CN201711114782A CN107808673B CN 107808673 B CN107808673 B CN 107808673B CN 201711114782 A CN201711114782 A CN 201711114782A CN 107808673 B CN107808673 B CN 107808673B
Authority
CN
China
Prior art keywords
data
subset
clustering
regression model
ball
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711114782.1A
Other languages
English (en)
Other versions
CN107808673A (zh
Inventor
缪晓宇
徐宁
王平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201711114782.1A priority Critical patent/CN107808673B/zh
Publication of CN107808673A publication Critical patent/CN107808673A/zh
Application granted granted Critical
Publication of CN107808673B publication Critical patent/CN107808673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法,语音数据按时间间隔分帧,对每一帧数据进行特征提取,每一帧提取出来的高维数据降到三维后,进行分块高斯回归模型建模;所述分块高斯回归模型为基于子集法的高斯回归过程模型,在训练数据集中,按照贪婪算法选取出若干代表原训练数据集的点构成子集,将携带冗余信息的数据点剔除掉,本发明根据具体的测试点来调整所选取的子集,并且通过分簇聚类后,选取的子集来自各个不同的簇,能够代表整个数据集,这样选取的子集既能保证是最接近测试点的一部分局部最优点,同时兼顾全局。

Description

语音数据基于分簇聚类的分块高斯回归模型子集建模方法
技术领域
本发明涉及语音数据处理领域,具体涉及一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法。
背景技术
语音数据是现代信息数据的重要处理内容,每一帧语音数据,都可以用特征参数来描绘,比如说用共振峰有关参数,就是一帧语音数据的共振峰频率(第一维),带宽(第二维),能量频谱倾斜(第三维)等,用特征参数描述的语音数据帧高维数据,每一帧提取出来的高维数据能够降到三维后,能够进行回归及预测;
高斯过程回归是一种机器学习回归方法,它有着严格的统计学习理论基础,对处理高维数、小样本、非线性等复杂的问题具有很好的适用性,且泛化能力强,与神经网络、支持向量机相比,高斯过程回归具有容易实现、超参数自适应获取、非参数腿短灵活以及输出具有概率意义等优点。
但高斯过程回归所需的计算量极大,所以为了解决这个问题,很多的近似模型被提出来,而在这些近似模型中最简单但在有些场合下却最有效的就是子集法,而应用子集法的关键就是选取一个合适的子集。现有技术中,语音数据一般采取随机选取的方式,但这样的得出的语音数据预测结果较差,语音失真,严重影响语音数据的传输和仿真;而仅采用子集法获得高斯模型进行语音数据处理,很容易出现语音数据的严重的过拟合现象,而标准的高斯过程回归处理数据所花的时间又太长,这在实际应用中都会造成很不好的影响。
发明内容
为解决现有技术语音数据高斯回归模型子集选取计算量过大,预测结果查,语音失真,过拟合等问题,本发明公开一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法,根据具体的测试点来调整所选取的子集,并且通过分簇聚类后,最后选取的子集来自各个不同的簇,从而代表整个数据集,这样选取的语音数据高斯回归模型的子集既能保证是最接近测试点的一部分局部最优点,同时也能兼顾全局,语音数据预测准确,预测高效,延迟小。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法,语音数据按时间间隔分帧,对每一帧数据进行特征提取,每一帧提取出来的特征数据降到三维后,进行分块高斯回归模型建模;所述分块高斯回归模型为基于子集法的高斯回归过程模型,在训练数据集中,按照贪婪算法选取出若干代表原训练数据集的点构成子集,将携带冗余信息的数据点剔除掉。
语音数据基于分簇聚类的分块高斯回归模型子集建模方法,具体包括以下步骤:
S01,语音数据按时间间隔分帧,对每一帧数据进行特征提取,提取特征数据;
S02,每一帧提取出来的特征数据降到三维,组成训练数据;
S03,采用贪婪算法从训练数据集中选出一个子集;
S04,对选取的子集进行标准的高斯回归,求出高斯回归模型参数;
步骤S03具体包括以下步骤:
(a1)在N个三维训练数据中,选取的子集中包含M个元素,对N个三维训练数据进行初始分簇聚类,得出K个簇,并获得每个簇的质心;
Figure BDA0001466040900000021
其中[]为向前取整;
(a1)按照与质心的距离大小将训练集中的数据点等分为K个子集,每个簇中与相应簇质心距离di,比较di获取最远点到簇质心的距离R;
R=max di,i=1,2.....K;
(a3)以K个质心为圆心,R为半径做出K个球,利用训练数据总量和分簇个数的商N/K,确定r与R的关系,使得大球之中填充满小球;
m=[lgN/K],
Figure BDA0001466040900000022
r=R/(2m+1);[]为向前取整;
r为小球的半径,R为大球的半径R与r的比例为2m+1,每个大球的直径分为2m+1段等长线段,将每个半径为R的大球当中填满半径为r的小球;
(a4)做一个与大球完全相切的正方体,以2r为棱长将大正方体分割为(2m+1)^3个小正方体,然后求出每个小正方体的中心坐标,判断每个中心坐标到大球体球心的距离是否小于等于R-r,然后选取距离小于等于R-r的小球心,将簇中的所有点按最近距离原则划分至各个小球心;
(a5)将每个簇中的数据点按最近距离原则分入到每个小球当中,并设立一个阈值C,当小球中的数据个数少于该阈值时,将该球中的数据点按最近距离原则分入到周围小球当中;
(a6)统计出每个簇中实际含小球的个数,并将每个小球的球心坐标记下,记含小球个数最多的簇中含p个小球,找出离测试点距离最近的p个小球球心,将所述p个小球中包含的数据作为子集。
较优地,步骤S04工作过程包括如下步骤:
(b1)利用已选取好的子集,对子集进行高斯过程的训练,取条件概率的负对数求出核函数的参数;
(b2)对所有的模型参数分别求偏导,采用共轭梯度法得出参数的最优解。
较优地,阈值C=M/K。
较优地,步骤S05,将测试点的数据和步骤S04中求得的模型参数代入至高斯回归模型中。
本发明的有益效果包括:本发明公开一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法,在选取子集是不再是以能够代表整个数据集为主要方向,而是根据具体的测试点来调整所选取的子集,并且通过分簇聚类后,选取的子集来自各个不同的簇,能够代表整个数据集,这样选取的子集既能保证是最接近测试点的一部分局部最优点,同时兼顾全局。
附图说明
图1为本发明一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法流程图;
图2为本发明涉及的子集选取的图示说明。
具体实施方式
下面结合附图并通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
为了使本发明的技术手段、创作特征、工作流程、使用方法达成目的与功效,且为了使该评价方法易于明白了解,下面结合具体实施例,进一步阐述本发明。
如图1所示,一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法,语音数据按时间间隔分帧,对每一帧数据进行特征提取,每一帧提取出来的高维数据降到三维后,进行分块高斯回归模型建模;所述分块高斯回归模型为基于子集法的高斯回归过程模型,在训练数据集中,按照贪婪算法选取出若干代表原训练数据集的点构成子集,将携带冗余信息的数据点剔除掉。
语音数据子集的选择就是确定源样本和目标样本之间的映将射关系。语音数据的特征比较多,本发明公开的方法是假设在已有一种较有效的降维方法的前提下,将每一帧提取出来的高维数据能够降到三维;如PCA或者KPCA,这两种都是比较本技术领域通用的降维方法,然后进行语音数据回归及预测。
语音数据基于分簇聚类的分块高斯回归模型子集建模方法,具体包括以下步骤:
S01,语音数据按时间间隔分帧,对每一帧数据进行特征提取,提取特征数据;语音特征数据比较多,包括共振峰、共振峰频率、带宽、能量频谱倾斜和各种倒谱参数,倒谱参数包括离散倒谱,Mel频率倒谱和线性预测倒谱,每一帧都是一组高维数据;一帧语音数据的特征数据个数与纬数对应;
S02,每一帧提取出来的特征数据降到三维,组成训练数据;
S03,采用贪婪算法从训练数据集中选出一个子集;
S04,对选取的子集进行标准的高斯回归,求出高斯回归模型参数;高斯过程回归模型本身是个非参数过程,但是模型的核心是核函数,核函数中包含参数,在训练过程中,用优化方法求出核函数的参数;
步骤S05,将测试点的数据和步骤S04中求得的模型参数代入至高斯回归模型中。
步骤S03具体包括以下步骤:
(a1)在N个三维训练数据中,选取的子集中包含M个元素,对N个三维训练数据进行初始分簇聚类,得出K个簇,并获得每个簇的质心;
Figure BDA0001466040900000041
其中[]为向前取整;
(a1)按照与质心的距离大小将训练集中的数据点等分为K个子集,每个簇中与相应簇质心距离di,比较di获取最远点到簇质心的距离R;
R=max di,i=1,2.....K;
(a3)以K个质心为圆心,R为半径做出K个球,利用训练数据总量和分簇个数的商N/K,确定r与R的关系,使得大球之中填充满小球,如图2所示;
m=[lgN/K],
Figure BDA0001466040900000051
r=R/(2m+1);[]为向前取整;
r为小球的半径,R与r的比例为2m+1,每个大球的直径分为2m+1段等长线段,将每个半径为R的大球当中填满半径为r的小球;
(a4)做一个与大球完全相切的正方体,以2r为棱长将大正方体分割为(2m+1)^3个小正方体,然后求出每个小正方体的中心坐标,判断每个中心坐标到大球体球心的距离是否小于等于R-r,然后选取符合条件的小球心(距离小于等于R-r,则为符合条件),将簇中的所有点(包括小圆内的以及小圆之间的空隙中的数据点)按最近距离原则划分至各个小球心;
(a5)将每个簇中的数据点按最近距离原则分入到每个小球当中,并设立一个阈值C,当小球中的数据个数少于该阈值时,将该球中的数据点按最近距离原则分入到周围小球当中;
(a6)统计出每个簇中实际含小球的个数,并将每个小球的球心坐标记下,记含小球个数最多的簇中含p个小球,找出离测试点距离最近的p个小球球心,将所述p个小球中包含的数据作为子集。
步骤S04工作过程包括如下步骤:
(b1)利用已选取好的子集,对子集进行高斯过程的训练,取条件概率的负对数求出核函数的参数(取条件概率的负对数优化算法,是现有技术常用优化方法,实施例不再详述);
(b2)对所有的模型参数分别求偏导,采用共轭梯度法得出参数的最优解。
阈值C=M/K。
基于本发明公开的语音数据基于分簇聚类的分块高斯回归模型子集建模方法与子集法模型和标准高斯过程回归作仿真比较,选取4200帧语音数据经过特征提取以及PCA降维后,得到4200个训练点,即训练集中的数据点为N=4200,对于子集法,取M为210;仿真结果如表1:
表1本发明与子集法模型和标准高斯过程回归作仿真比较
Figure BDA0001466040900000052
Figure BDA0001466040900000061
由表1可知,子集法很容易出现严重的过拟合现象,而标准的高斯过程回归处理数据所花的时间又太长,在实际应用中都会造成很不好的影响,本申请的技术方案解决了上述问题。
本领域内的技术人员可以对本发明进行改动或变型的设计但不脱离本发明的思想和范围。因此,如果本发明的这些修改和变型属于本发明权利要求及其等同的技术范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法,其特征在于,
语音数据按时间间隔分帧,对每一帧数据进行特征提取,每一帧提取出来的特征数据降到三维后,进行分块高斯回归模型建模;所述分块高斯回归模型为基于子集法的高斯回归过程模型,在训练数据集中,按照贪婪算法选取出若干代表原训练数据集的点构成子集,将携带冗余信息的数据点剔除掉;
具体包括以下步骤:
S01,语音数据按时间间隔分帧,对每一帧数据进行特征提取,提取特征数据;
S02,每一帧提取出来的特征数据降到三维,组成训练数据;
S03,采用贪婪算法从训练数据集中选出一个子集;
S04,对选取的子集进行标准的高斯回归,求出高斯回归模型参数;
所述步骤S03具体包括以下步骤:
(a1)在N个三维训练数据中,选取的子集中包含M个元素,对N个三维训练数据进行初始分簇聚类,得出K个簇,并获得每个簇的质心;
Figure FDA0002465397850000011
其中[]为向前取整;
(a1)按照与质心的距离大小将训练集中的数据点等分为K个子集,每个簇中与相应簇质心距离di,比较di获取最远点到簇质心的距离R;
R=maxdi,i=1,2.....K;
(a3)以K个质心为圆心,R为半径做出K个球,利用训练数据总量和分簇个数的商N/K,确定r与R的关系,使得大球之中填充满小球;
m=[lgN/K],
Figure FDA0002465397850000012
r=R/(2m+1);[]为向前取整;
r为小球的半径,R为大球半径,R与r的比例为2m+1,每个大球的直径分为2m+1段等长线段,将每个半径为R的大球当中填满半径为r的小球;
(a4)做一个与大球完全相切的大正方体,以2r为棱长将大正方体分割为(2m+1)^3个小正方体,然后求出每个小正方体的中心坐标,判断每个中心坐标到大球体球心的距离是否小于等于R-r,然后选取距离小于等于R-r的小球心,将簇中的所有点按最近距离原则划分至各个小球心;
(a5)将每个簇中的数据点按最近距离原则分入到每个小球当中,并设立阈值C,当小球中的数据个数少于该阈值时,将该球中的数据点按最近距离原则分入到周围小球当中;
(a6)统计出每个簇中实际含小球的个数,并将每个小球的球心坐标记下,记含小球个数最多的簇中含p个小球,找出离测试点距离最近的p个小球球心,将所述p个小球中包含的数据作为子集。
2.根据权利要求1所述的语音数据基于分簇聚类的分块高斯回归模型子集建模方法,其特征在于,
所述步骤S04工作过程包括如下步骤:
(b1)利用已选取好的子集,对子集进行高斯过程的训练,取条件概率的负对数求出核函数的参数;
(b2)对所有的模型参数分别求偏导,采用共轭梯度法得出参数的最优解。
3.根据权利要求1所述的语音数据基于分簇聚类的分块高斯回归模型子集建模方法,其特征在于,阈值C=M/K。
4.根据权利要求1所述的语音数据基于分簇聚类的分块高斯回归模型子集建模方法,其特征在于,
还包括步骤S05,将测试点的数据和步骤S04中求得的模型参数代入至高斯回归模型中。
CN201711114782.1A 2017-11-13 2017-11-13 语音数据基于分簇聚类的分块高斯回归模型子集建模方法 Active CN107808673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711114782.1A CN107808673B (zh) 2017-11-13 2017-11-13 语音数据基于分簇聚类的分块高斯回归模型子集建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711114782.1A CN107808673B (zh) 2017-11-13 2017-11-13 语音数据基于分簇聚类的分块高斯回归模型子集建模方法

Publications (2)

Publication Number Publication Date
CN107808673A CN107808673A (zh) 2018-03-16
CN107808673B true CN107808673B (zh) 2020-07-14

Family

ID=61583667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711114782.1A Active CN107808673B (zh) 2017-11-13 2017-11-13 语音数据基于分簇聚类的分块高斯回归模型子集建模方法

Country Status (1)

Country Link
CN (1) CN107808673B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634863B (zh) * 2020-12-09 2024-02-09 深圳市优必选科技股份有限公司 一种语音合成模型的训练方法、装置、电子设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968988B (zh) * 2012-11-27 2015-09-16 河海大学常州校区 训练数据匮乏下的鲁棒性语音转换方法
CN103336842B (zh) * 2013-07-17 2016-10-05 山东师范大学 一种基于聚类和投票机制的主动学习初始样本选择方法
CN104700398A (zh) * 2014-12-31 2015-06-10 西安理工大学 一种点云场景物体提取方法
CN105740842B (zh) * 2016-03-01 2018-10-19 浙江工业大学 基于快速密度聚类算法的无监督人脸识别方法
CN106102161B (zh) * 2016-05-30 2019-10-15 天津大学 基于聚类算法分析数据优化的室内定位方法

Also Published As

Publication number Publication date
CN107808673A (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
US10984224B2 (en) Face detection method
US20210389736A1 (en) Systems and methods for learning for domain adaptation
US20180158449A1 (en) Method and device for waking up via speech based on artificial intelligence
WO2022042123A1 (zh) 图像识别模型生成方法、装置、计算机设备和存储介质
CN104809446B (zh) 基于校正手掌方向的掌纹感兴趣区域快速提取方法
CN109960808B (zh) 一种文本识别方法、装置、设备及计算机可读存储介质
US11508120B2 (en) Methods and apparatus to generate a three-dimensional (3D) model for 3D scene reconstruction
WO2020024396A1 (zh) 音乐风格识别方法、装置、计算机设备及存储介质
CN108021908B (zh) 人脸年龄段识别方法及装置、计算机装置及可读存储介质
CN108256449B (zh) 一种基于子空间分类器的人体行为识别方法
CN107358172B (zh) 一种基于人脸朝向分类的人脸特征点初始化方法
WO2021190046A1 (zh) 手势识别模型的训练方法、手势识别方法及装置
US20150131873A1 (en) Exemplar-based feature weighting
CN110459200A (zh) 语音合成方法、装置、计算机设备及存储介质
CN108985442B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN114819069A (zh) 基于dbscan聚类的客户端选择联邦学习方法
CN107808673B (zh) 语音数据基于分簇聚类的分块高斯回归模型子集建模方法
CN114417095A (zh) 一种数据集划分方法及装置
CN113627260A (zh) 识别手写汉字的笔顺的方法、系统和计算设备
CN110347807B (zh) 问题信息处理方法及装置
Xiao et al. Contact pitch and location prediction for directed self-assembly template verification
CN117079671A (zh) 音频处理方法、装置、计算机设备及存储介质
Capo et al. Active learning in nonstationary environments
CN116258861A (zh) 基于多标签学习的半监督语义分割方法以及分割装置
CN110706315A (zh) 平面设计的布局生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant