CN107808673A - 语音数据基于分簇聚类的分块高斯回归模型子集建模方法 - Google Patents

语音数据基于分簇聚类的分块高斯回归模型子集建模方法 Download PDF

Info

Publication number
CN107808673A
CN107808673A CN201711114782.1A CN201711114782A CN107808673A CN 107808673 A CN107808673 A CN 107808673A CN 201711114782 A CN201711114782 A CN 201711114782A CN 107808673 A CN107808673 A CN 107808673A
Authority
CN
China
Prior art keywords
subset
data
regression model
bead
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711114782.1A
Other languages
English (en)
Other versions
CN107808673B (zh
Inventor
缪晓宇
徐宁
王平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201711114782.1A priority Critical patent/CN107808673B/zh
Publication of CN107808673A publication Critical patent/CN107808673A/zh
Application granted granted Critical
Publication of CN107808673B publication Critical patent/CN107808673B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法,语音数据按时间间隔分帧,对每一帧数据进行特征提取,每一帧提取出来的高维数据降到三维后,进行分块高斯回归模型建模;所述分块高斯回归模型为基于子集法的高斯回归过程模型,在训练数据集中,按照贪婪算法选取出若干代表原训练数据集的点构成子集,将携带冗余信息的数据点剔除掉,本发明根据具体的测试点来调整所选取的子集,并且通过分簇聚类后,选取的子集来自各个不同的簇,能够代表整个数据集,这样选取的子集既能保证是最接近测试点的一部分局部最优点,同时兼顾全局。

Description

语音数据基于分簇聚类的分块高斯回归模型子集建模方法
技术领域
本发明涉及语音数据处理领域,具体涉及一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法。
背景技术
语音数据是现代信息数据的重要处理内容,每一帧语音数据,都可以用特征参数来描绘,比如说用共振峰有关参数,就是一帧语音数据的共振峰频率(第一维),带宽(第二维),能量频谱倾斜(第三维)等,用特征参数描述的语音数据帧高维数据,每一帧提取出来的高维数据能够降到三维后,能够进行回归及预测;
高斯过程回归是一种机器学习回归方法,它有着严格的统计学习理论基础,对处理高维数、小样本、非线性等复杂的问题具有很好的适用性,且泛化能力强,与神经网络、支持向量机相比,高斯过程回归具有容易实现、超参数自适应获取、非参数腿短灵活以及输出具有概率意义等优点。
但高斯过程回归所需的计算量极大,所以为了解决这个问题,很多的近似模型被提出来,而在这些近似模型中最简单但在有些场合下却最有效的就是子集法,而应用子集法的关键就是选取一个合适的子集。现有技术中,语音数据一般采取随机选取的方式,但这样的得出的语音数据预测结果较差,语音失真,严重影响语音数据的传输和仿真;而仅采用子集法获得高斯模型进行语音数据处理,很容易出现语音数据的严重的过拟合现象,而标准的高斯过程回归处理数据所花的时间又太长,这在实际应用中都会造成很不好的影响。
发明内容
为解决现有技术语音数据高斯回归模型子集选取计算量过大,预测结果查,语音失真,过拟合等问题,本发明公开一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法,根据具体的测试点来调整所选取的子集,并且通过分簇聚类后,最后选取的子集来自各个不同的簇,从而代表整个数据集,这样选取的语音数据高斯回归模型的子集既能保证是最接近测试点的一部分局部最优点,同时也能兼顾全局,语音数据预测准确,预测高效,延迟小。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法,语音数据按时间间隔分帧,对每一帧数据进行特征提取,每一帧提取出来的特征数据降到三维后,进行分块高斯回归模型建模;所述分块高斯回归模型为基于子集法的高斯回归过程模型,在训练数据集中,按照贪婪算法选取出若干代表原训练数据集的点构成子集,将携带冗余信息的数据点剔除掉。
语音数据基于分簇聚类的分块高斯回归模型子集建模方法,具体包括以下步骤:
S01,语音数据按时间间隔分帧,对每一帧数据进行特征提取,提取特征数据;
S02,每一帧提取出来的特征数据降到三维,组成训练数据;
S03,采用贪婪算法从训练数据集中选出一个子集;
S04,对选取的子集进行标准的高斯回归,求出高斯回归模型参数;
步骤S03具体包括以下步骤:
(a1)在N个三维训练数据中,选取的子集中包含M个元素,对N个三维训练数据进行初始分簇聚类,得出K个簇,并获得每个簇的质心;
其中[]为向前取整;
(a1)按照与质心的距离大小将训练集中的数据点等分为K个子集,每个簇中与相应簇质心距离di,比较di获取最远点到簇质心的距离R;
R=max di,i=1,2.....K;
(a3)以K个质心为圆心,R为半径做出K个球,利用训练数据总量和分簇个数的商N/K,确定r与R的关系,使得大球之中填充满小球;
m=[lgN/K],r=R/(2m+1);[]为向前取整;
r为小球的半径,R为大球的半径R与r的比例为2m+1,每个大球的直径分为2m+1段等长线段,将每个半径为R的大球当中填满半径为r的小球;
(a4)做一个与大球完全相切的正方体,以2r为棱长将大正方体分割为(2m+1)^3个小正方体,然后求出每个小正方体的中心坐标,判断每个中心坐标到大球体球心的距离是否小于等于R-r,然后选取距离小于等于R-r的小球心,将簇中的所有点按最近距离原则划分至各个小球心;
(a5)将每个簇中的数据点按最近距离原则分入到每个小球当中,并设立一个阈值C,当小球中的数据个数少于该阈值时,将该球中的数据点按最近距离原则分入到周围小球当中;
(a6)统计出每个簇中实际含小球的个数,并将每个小球的球心坐标记下,记含小球个数最多的簇中含p个小球,找出离测试点距离最近的p个小球球心,将所述p个小球中包含的数据作为子集。
较优地,步骤S04工作过程包括如下步骤:
(b1)利用已选取好的子集,对子集进行高斯过程的训练,取条件概率的负对数求出核函数的参数;
(b2)对所有的模型参数分别求偏导,采用共轭梯度法得出参数的最优解。
较优地,阈值C=M/K。
较优地,步骤S05,将测试点的数据和步骤S04中求得的模型参数代入至高斯回归模型中。
本发明的有益效果包括:本发明公开一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法,在选取子集是不再是以能够代表整个数据集为主要方向,而是根据具体的测试点来调整所选取的子集,并且通过分簇聚类后,选取的子集来自各个不同的簇,能够代表整个数据集,这样选取的子集既能保证是最接近测试点的一部分局部最优点,同时兼顾全局。
附图说明
图1为本发明一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法流程图;
图2为本发明涉及的子集选取的图示说明。
具体实施方式
下面结合附图并通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
为了使本发明的技术手段、创作特征、工作流程、使用方法达成目的与功效,且为了使该评价方法易于明白了解,下面结合具体实施例,进一步阐述本发明。
如图1所示,一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法,语音数据按时间间隔分帧,对每一帧数据进行特征提取,每一帧提取出来的高维数据降到三维后,进行分块高斯回归模型建模;所述分块高斯回归模型为基于子集法的高斯回归过程模型,在训练数据集中,按照贪婪算法选取出若干代表原训练数据集的点构成子集,将携带冗余信息的数据点剔除掉。
语音数据子集的选择就是确定源样本和目标样本之间的映将射关系。语音数据的特征比较多,本发明公开的方法是假设在已有一种较有效的降维方法的前提下,将每一帧提取出来的高维数据能够降到三维;如PCA或者KPCA,这两种都是比较本技术领域通用的降维方法,然后进行语音数据回归及预测。
语音数据基于分簇聚类的分块高斯回归模型子集建模方法,具体包括以下步骤:
S01,语音数据按时间间隔分帧,对每一帧数据进行特征提取,提取特征数据;语音特征数据比较多,包括共振峰、共振峰频率、带宽、能量频谱倾斜和各种倒谱参数,倒谱参数包括离散倒谱,Mel频率倒谱和线性预测倒谱,每一帧都是一组高维数据;一帧语音数据的特征数据个数与纬数对应;
S02,每一帧提取出来的特征数据降到三维,组成训练数据;
S03,采用贪婪算法从训练数据集中选出一个子集;
S04,对选取的子集进行标准的高斯回归,求出高斯回归模型参数;高斯过程回归模型本身是个非参数过程,但是模型的核心是核函数,核函数中包含参数,在训练过程中,用优化方法求出核函数的参数;
步骤S05,将测试点的数据和步骤S04中求得的模型参数代入至高斯回归模型中。
步骤S03具体包括以下步骤:
(a1)在N个三维训练数据中,选取的子集中包含M个元素,对N个三维训练数据进行初始分簇聚类,得出K个簇,并获得每个簇的质心;
其中[]为向前取整;
(a1)按照与质心的距离大小将训练集中的数据点等分为K个子集,每个簇中与相应簇质心距离di,比较di获取最远点到簇质心的距离R;
R=max di,i=1,2.....K;
(a3)以K个质心为圆心,R为半径做出K个球,利用训练数据总量和分簇个数的商N/K,确定r与R的关系,使得大球之中填充满小球,如图2所示;
m=[lgN/K],r=R/(2m+1);[]为向前取整;
r为小球的半径,R与r的比例为2m+1,每个大球的直径分为2m+1段等长线段,将每个半径为R的大球当中填满半径为r的小球;
(a4)做一个与大球完全相切的正方体,以2r为棱长将大正方体分割为(2m+1)^3个小正方体,然后求出每个小正方体的中心坐标,判断每个中心坐标到大球体球心的距离是否小于等于R-r,然后选取符合条件的小球心(距离小于等于R-r,则为符合条件),将簇中的所有点(包括小圆内的以及小圆之间的空隙中的数据点)按最近距离原则划分至各个小球心;
(a5)将每个簇中的数据点按最近距离原则分入到每个小球当中,并设立一个阈值C,当小球中的数据个数少于该阈值时,将该球中的数据点按最近距离原则分入到周围小球当中;
(a6)统计出每个簇中实际含小球的个数,并将每个小球的球心坐标记下,记含小球个数最多的簇中含p个小球,找出离测试点距离最近的p个小球球心,将所述p个小球中包含的数据作为子集。
步骤S04工作过程包括如下步骤:
(b1)利用已选取好的子集,对子集进行高斯过程的训练,取条件概率的负对数求出核函数的参数(取条件概率的负对数优化算法,是现有技术常用优化方法,实施例不再详述);
(b2)对所有的模型参数分别求偏导,采用共轭梯度法得出参数的最优解。
阈值C=M/K。
基于本发明公开的语音数据基于分簇聚类的分块高斯回归模型子集建模方法与子集法模型和标准高斯过程回归作仿真比较,选取4200帧语音数据经过特征提取以及PCA降维后,得到4200个训练点,即训练集中的数据点为N=4200,对于子集法,取M为210;仿真结果如表1:
表1本发明与子集法模型和标准高斯过程回归作仿真比较
由表1可知,子集法很容易出现严重的过拟合现象,而标准的高斯过程回归处理数据所花的时间又太长,在实际应用中都会造成很不好的影响,本申请的技术方案解决了上述问题。
本领域内的技术人员可以对本发明进行改动或变型的设计但不脱离本发明的思想和范围。因此,如果本发明的这些修改和变型属于本发明权利要求及其等同的技术范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种语音数据基于分簇聚类的分块高斯回归模型子集建模方法,其特征在于,
语音数据按时间间隔分帧,对每一帧数据进行特征提取,每一帧提取出来的特征数据降到三维后,进行分块高斯回归模型建模;所述分块高斯回归模型为基于子集法的高斯回归过程模型,在训练数据集中,按照贪婪算法选取出若干代表原训练数据集的点构成子集,将携带冗余信息的数据点剔除掉。
2.根据权利要求1所述的语音数据基于分簇聚类的分块高斯回归模型子集建模方法,其特征在于,
具体包括以下步骤:
S01,语音数据按时间间隔分帧,对每一帧数据进行特征提取,提取特征数据;
S02,每一帧提取出来的特征数据降到三维,组成训练数据;
S03,采用贪婪算法从训练数据集中选出一个子集;
S04,对选取的子集进行标准的高斯回归,求出高斯回归模型参数。
3.根据权利要求1所述的语音数据基于分簇聚类的分块高斯回归模型子集建模方法,其特征在于,
所述步骤S03具体包括以下步骤:
(a1)在N个三维训练数据中,选取的子集中包含M个元素,对N个三维训练数据进行初始分簇聚类,得出K个簇,并获得每个簇的质心;
其中[]为向前取整;
(a1)按照与质心的距离大小将训练集中的数据点等分为K个子集,每个簇中与相应簇质心距离di,比较di获取最远点到簇质心的距离R;
R=maxdi,i=1,2.....K;
(a3)以K个质心为圆心,R为半径做出K个球,利用训练数据总量和分簇个数的商N/K,确定r与R的关系,使得大球之中填充满小球;
m=[lgN/K],r=R/(2m+1);[]为向前取整;
r为小球的半径,R为大球半径,R与r的比例为2m+1,每个大球的直径分为2m+1段等长线段,将每个半径为R的大球当中填满半径为r的小球;
(a4)做一个与大球完全相切的大正方体,以2r为棱长将大正方体分割为(2m+1)^3个小正方体,然后求出每个小正方体的中心坐标,判断每个中心坐标到大球体球心的距离是否小于等于R-r,然后选取距离小于等于R-r的小球心,将簇中的所有点按最近距离原则划分至各个小球心;
(a5)将每个簇中的数据点按最近距离原则分入到每个小球当中,并设立阈值C,当小球中的数据个数少于该阈值时,将该球中的数据点按最近距离原则分入到周围小球当中;
(a6)统计出每个簇中实际含小球的个数,并将每个小球的球心坐标记下,记含小球个数最多的簇中含p个小球,找出离测试点距离最近的p个小球球心,将所述p个小球中包含的数据作为子集。
4.根据权利要求2所述的语音数据基于分簇聚类的分块高斯回归模型子集建模方法,其特征在于,
所述步骤S04工作过程包括如下步骤:
(b1)利用已选取好的子集,对子集进行高斯过程的训练,取条件概率的负对数求出核函数的参数;
(b2)对所有的模型参数分别求偏导,采用共轭梯度法得出参数的最优解。
5.根据权利要求1所述的语音数据基于分簇聚类的分块高斯回归模型子集建模方法,其特征在于,阈值C=M/K。
6.根据权利要求2所述的语音数据基于分簇聚类的分块高斯回归模型子集建模方法,其特征在于,
还包括步骤S05,将测试点的数据和步骤S04中求得的模型参数代入至高斯回归模型中。
CN201711114782.1A 2017-11-13 2017-11-13 语音数据基于分簇聚类的分块高斯回归模型子集建模方法 Expired - Fee Related CN107808673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711114782.1A CN107808673B (zh) 2017-11-13 2017-11-13 语音数据基于分簇聚类的分块高斯回归模型子集建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711114782.1A CN107808673B (zh) 2017-11-13 2017-11-13 语音数据基于分簇聚类的分块高斯回归模型子集建模方法

Publications (2)

Publication Number Publication Date
CN107808673A true CN107808673A (zh) 2018-03-16
CN107808673B CN107808673B (zh) 2020-07-14

Family

ID=61583667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711114782.1A Expired - Fee Related CN107808673B (zh) 2017-11-13 2017-11-13 语音数据基于分簇聚类的分块高斯回归模型子集建模方法

Country Status (1)

Country Link
CN (1) CN107808673B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634863A (zh) * 2020-12-09 2021-04-09 深圳市优必选科技股份有限公司 一种语音合成模型的训练方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968988A (zh) * 2012-11-27 2013-03-13 河海大学常州校区 训练数据匮乏下的鲁棒性语音转换方法
CN103336842A (zh) * 2013-07-17 2013-10-02 山东师范大学 一种基于聚类和投票机制的主动学习初始样本选择方法
CN104700398A (zh) * 2014-12-31 2015-06-10 西安理工大学 一种点云场景物体提取方法
CN105740842A (zh) * 2016-03-01 2016-07-06 浙江工业大学 基于快速密度聚类算法的无监督人脸识别方法
CN106102161A (zh) * 2016-05-30 2016-11-09 天津大学 基于聚类算法分析数据优化的室内定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968988A (zh) * 2012-11-27 2013-03-13 河海大学常州校区 训练数据匮乏下的鲁棒性语音转换方法
CN103336842A (zh) * 2013-07-17 2013-10-02 山东师范大学 一种基于聚类和投票机制的主动学习初始样本选择方法
CN104700398A (zh) * 2014-12-31 2015-06-10 西安理工大学 一种点云场景物体提取方法
CN105740842A (zh) * 2016-03-01 2016-07-06 浙江工业大学 基于快速密度聚类算法的无监督人脸识别方法
CN106102161A (zh) * 2016-05-30 2016-11-09 天津大学 基于聚类算法分析数据优化的室内定位方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
J. PARK, ETC: "Gaussian Process Regression (GPR) Representation in Predictive Model Markup Language (PMML)", <NATIONAL INSTITUDE OF STANDARDS AND TECHNOLOGY * US. DEPARTMENT OF COMMERCE> *
何志昆,刘光斌,赵曦晶,王明昊: "高斯过程回归方法综述", 《控制与决策》 *
沈赟,张丽清: "基于高斯过程模型的语音增强", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634863A (zh) * 2020-12-09 2021-04-09 深圳市优必选科技股份有限公司 一种语音合成模型的训练方法、装置、电子设备及介质
CN112634863B (zh) * 2020-12-09 2024-02-09 深圳市优必选科技股份有限公司 一种语音合成模型的训练方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN107808673B (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN108960407B (zh) 递归神经网路语言模型训练方法、装置、设备及介质
CN109948149B (zh) 一种文本分类方法及装置
CN111737426B (zh) 问答模型的训练方法、计算机设备以及可读存储介质
CN106778852A (zh) 一种修正误判的图像内容识别方法
CN110222184A (zh) 一种文本的情感信息识别方法及相关装置
CN110110800A (zh) 自动图像标注方法、装置、设备及计算机可读存储介质
CN109543165A (zh) 基于循环卷积注意力模型的文本生成方法及装置
CN113095038B (zh) 基于多任务辨别器生成对抗网络的字体生成方法及装置
CN117150026B (zh) 文本内容多标签分类方法与装置
CN108805260A (zh) 一种图说生成方法及装置
CN109583586A (zh) 一种卷积核处理方法及装置
CN108363685A (zh) 基于递归变分自编码模型的自媒体数据文本表示方法
CN113962192B (zh) 汉字字体生成模型的生成方法、汉字字体生成方法及装置
TW202022641A (zh) 嵌入結果的解釋方法和裝置
CN114241234A (zh) 细粒度图像分类方法、装置、设备及介质
CN110210419A (zh) 高分辨率遥感图像的场景识别系统及模型生成方法
CN110222755A (zh) 基于特征融合的深度学习场景识别方法
CN117808946A (zh) 基于大语言模型的二次元角色构建方法及系统
CN107808673A (zh) 语音数据基于分簇聚类的分块高斯回归模型子集建模方法
US7933449B2 (en) Pattern recognition method
Chen et al. Dual discriminator gan: Restoring ancient yi characters
CN114357138A (zh) 一种问答识别的方法、装置、电子设备及可读存储介质
CN112651513A (zh) 一种基于零样本学习的信息抽取方法及系统
Ronchetti et al. A comparison of small sample methods for handshape recognition
CN110222190A (zh) 数据增强方法、系统、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200714