CN103489007A - 基于样本先验信息的支持向量机核函数选择方法及应用 - Google Patents
基于样本先验信息的支持向量机核函数选择方法及应用 Download PDFInfo
- Publication number
- CN103489007A CN103489007A CN201310475813.1A CN201310475813A CN103489007A CN 103489007 A CN103489007 A CN 103489007A CN 201310475813 A CN201310475813 A CN 201310475813A CN 103489007 A CN103489007 A CN 103489007A
- Authority
- CN
- China
- Prior art keywords
- kernel function
- sample
- numbered
- data
- taken
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Complex Calculations (AREA)
Abstract
Description
技术领域
本发明涉及一种基于样本数据先验信息的支持向量机核函数选择方法及应用,尤其适用于实时在线的支持向量机模型预测控制场所。
背景技术
支持向量机(Support Vector Machine,SVM)是20世纪90年代Vapnik基于统计学习理论提出的一种新的机器学习方法。与传统统计学相比,支持向量机有完备的理论基础和严格的理论体系,能够解决有限样本的学习问题,具有很强的泛化能力。由于这一方法具有许多优良特性,并在不少领域如模式识别、回归估计、数据挖掘、生物信息学等领域均取得成功的应用。SVM建立在结构风险最小化原则基础之上,其核心思想之一是引入核函数技术,巧妙地解决了在高维特征空间中计算的“维数灾难”等问题。然而,不同的核函数所呈现出的特性各异,选择不同的核函数会导致SVM的推广性能有所不同。目前,如何针对具体问题选择(或构造)合适的核函数,缺乏相应的理论指导,存在很大的随意性和局限性,也是SVM应用领域遇到的一个重大难题。因此,构建一种能充分挖掘给定具体问题的样本数据先验信息,以及结合核函数蕴藏的度量特征进行SVM核函数选择机制,对于SVM技术的发展和核方法的完善有着积极的指导意义和实用价值。
发明内容
本发明的目的是提供一种基于样本先验信息的支持向量机核函数选择方法及应用,从样本数据先验信息出发构建一种有监督的SVM核函数选择机制,完善SVM核函数选择方法,有助于SVM学习能力和泛化能力的提高。
本发明的技术方案:一种基于样本先验信息的支持向量机核函数选择方法,包括如下步骤:
步骤1.输入样本数据其中Rn为n维数据空间,并对X进行变换使数据的范数小于1;
步骤2.对给定样本数据进行超球体的数学描述以及确定超球体的重心O和半径R;
步骤3.建立样本分布能量熵函数,并计算各样本的能量熵;
步骤4.构建样本分布判别函数及计算其判别结果;
步骤5.根据其判别结果与核函数性质(如黎曼度量、距离度量等)的相似性选择核函数类型;
步骤6.合理确定样本训练集和测试集后,SVM模型及参数优化;
步骤7.输出预测结果。
一种基于样本先验信息的支持向量机核函数选择方法在印度肝脏病人数据集、天平平衡测量数据集、澳大利亚的信用审批数据集、三连棋游戏结局数据集得到应用。
本发明构建了一种基于样本先验信息进行SVM核函数选择的机制,克服了传统的支持向量机模型选择方法中人为指定核函数类型而导致模型不能达到最优性能的缺点,提高了SVM学习能力和泛化能力,并具有运算速度快、非常适合实时在线SVM模型预测控制场所等特点。
具体实施方式
下面结合具体实例对本发明作进一步说明。
①所涉及的实例均来自UCI基准库,且为带标签的数据;
②以具有全局特性的多项式核函数和局部特性的径向基核函数为例进行预测结果比较;
④实例中样本分布判别函数定义为式中α为阈值,l为样本总数,l*为样本中的个数。结合核函数所蕴藏的度量特性,实例中取α=0.5为临界点。当计算出α>0.5,则判断该样本数据呈局部分布特性;当α≤0.5,则判断该样本数据呈全局分布特性。
⑤训练集与测试集的数据样本数量按照8:2比例予以随机划分;
⑥实例中SVM模型参数优化均采取粒子群算法(PSO)进行寻优;
⑦百分数均为SVM模型输出结果预测准确率。
实例1:印度肝脏病人数据集(Indian Liver Patient Dataset)
A步骤:样本共有579个数据,维数为10。经数据预处理后计算出超球体的重心O坐标为(0.5058,0.0000,0.1073,0.1786,0.085,0.3473,0.1652,0.4493,0.5326,0.4500),R=0.4984,α=0.9048。
由此判断该样本数据呈局部分布特性,则选取具有局部特性的径向基核函数为SVM核函数类型。
B步骤:按照已知样本的80%作为训练集、20%作为测试集,则取样本中的464个作为训练集、115组做为测试集。
C步骤:随机选出3组数据:
①第一组训练集分别取自编号为1#至154#、194#至348#、388#至542#,共计464个样本数据。测试集分别取自编号为155#至193#、349#至387#、543#至579#,共计115个样本数据。
②第二组训练集分别取自编号为39#至193#、349#至387#、427#至579#,共计464个样本数据。测试集分别取自编号为1#至38#、194#至232#、388#至426#,共计115个样本数据。
③第三组训练集取自编号为1#至464#,测试集取自编号为465#至579#。
实例1获得的实验结果:
①径向基核函数:83.65% 多项式核函数:73.08%
②径向基核函数:87.50% 多项式核函数:77.88%
③径向基核函数:90.38% 多项式核函数:85.58%
实例2:天平平衡测量数据集(Balance Scale Data Set)
A步骤:样本共有625个数据,维数为4。经数据预处理后计算出超球体的重心O坐标为(0.6250,0.5000,0.2500,0.7500),R=0.4507,α=0.2944。
由此判断该样本数据呈全局分布特性,则选取具有全局特性的多项式核函数为SVM核函数类型。
B步骤:按照已知样本的80%作为训练集、20%作为测试集,则取样本中的500个作为训练集、125组做为测试集。
C步骤:随机选出3组数据:
①第一组训练集分别取自编号为1#至166#、209#至375#、418#至584#,共500个样本数据。测试集分别取自编号为167#至208#、376#至#417#、585#至625#,共125个样本数据。
②第二组训练集分别取自编号为42#至208#、251#至417#、460#至625#,共500个样本数据。测试集分别取自编号为1#至41#、209#至250#、418#至459#,共125个样本数据。
③第三组训练集取自编号为1#至500#,测试集取自编号为501#至625#。
实例2获得的实验结果:
①径向基核函数:90.40% 多项式核函数:100.00%
②径向基核函数:92.80% 多项式核函数:97.60%
③径向基核函数:91.20% 多项式核函数:98.40%
实例3:澳大利亚的信用审批数据集(Australian Credit Approval Data Set)
A步骤:样本共有690个数据,维数为14。经数据预处理后计算出超球体的重心O坐标为(0.5000,0.1479,0.0105,0.2500,0.1923,0.1875,0.0007,0.0000,0.5000,0.0299,0.0000,0.5000,0.1050,0.0050),R=0.8007,α=0.9610。
由此判断该样本数据呈局部分布特性,则选取具有局部特性的径向基核函数为SVM核函数类型。
B步骤:取总样本数的80%作为训练集(即552个样本),20%作为测试集(即138个样本)。
C步骤:随机选出3组数据:
①第一组训练集分别取自编号为1#至184#、232#至416#、464#至648#,共计552个样本。测试集分别取自编号为185#至231#、417#至463#、649#至690#,共计138个样本。
②第二组训练集分别取自编号为47#至131#、179#至363#、411#至690#,共计552个样本。测试集分别取自编号为1#至46#、132#至178#、364#至410#,共计138个样本。
③第三组训练集取自编号为1#至552#,测试集取自编号为553#至690#。
实例3获得的实验结果:
①径向基核函数:87.55% 多项式核函数:85.29%
②径向基核函数:87.10% 多项式核函数:85.71%
③径向基核函数:87.68% 多项式核函数:84.78%
实例4:三连棋游戏结局数据集(Tic-Tac-Toe Endgame Data Set)
A步骤:样本共有958个数据,维数为9。经数据预处理后计算出超球体的重心O坐标为(0.2500,0.0000,0.5000,0.2500,0.2500,0.5000,1.0000,0.2500,0.7500),R=0.7500,α=0.0000。
由此判断该样本数据呈全局分布特性,则选取具有全局特性的多项式核函数为SVM核函数类型。
B步骤:按照样本的80%作为训练集,20%作为测试集,即取样本中的766个作为训练集,192个作为测试集。
C步骤:随机选出3组数据:
①第一组训练集分别取自编号为1#至255#、321#至576#、642#至897#,共计766个样本。测试集分别取自编号为256#至320#、577#至641#、898#至958,共计192个样本。
②第二组训练集分别取自编号为1#至383#、481#至864#,共计766个样本。测试集分别取自编号为384#至480#、865#至958#,共计192个样本。
③第三组训练集分别取自编号为1#至191#、251#至442#、492#至683#、733#至924#,共计766个样本。测试集分别取自编号为192#至250#、443#至491#、684#至732#、925#至958#,共计192个样本。
实例4获得的实验结果:
①径向基核函数:84.82% 多项式核函数:95.29%
②径向基核函数:79.58% 多项式核函数:85.86%
③径向基核函数:82.20% 多项式核函数:93.19%
通过以上4例样本数据的随机分组测试,可以看出:基于样本数据先验信息和核函数蕴藏的度量特征的相似性选择的SVM核函数类型分类的预测准确率,要高于选择其他类型核函数的SVM模型分类的预测准确率,其差异程度甚至高达10%以上。因此,本发明基于样本数据先验信息,结合核函数蕴藏的度量特征进行SVM核函数选择,是一种有监督的实用方法,克服了传统的支持向量机模型选择方法中人为指定核函数类型而导致模型不能达到最优性能的缺点,并具有运算速度快、非常适合实时在线SVM模型预测控制场所等特点。
Claims (5)
2.一种基于样本先验信息的支持向量机核函数选择方法在印度肝脏病人数据集的应用,其特征是:包括如下步骤:
A步骤:样本共有579个数据,维数为10;经数据预处理后计算出超球体的重心O坐标为:0.5058,0.0000,0.1073,0.1786,0.085,0.3473,0.1652,0.4493,0.5326,0.4500,R=0.4984,α=0.9048;
由此判断该样本数据呈局部分布特性,则选取具有局部特性的径向基核函数为SVM核函数类型;
B步骤:按照已知样本的80%作为训练集、20%作为测试集,则取样本中的464个作为训练集、115组做为测试集;
C步骤:随机选出3组数据:
①第一组训练集分别取自编号为1#至154#、194#至348#、388#至542#,共计464个样本数据;测试集分别取自编号为155#至193#、349#至387#、543#至579#,共计115个样本数据;
②第二组训练集分别取自编号为39#至193#、349#至387#、427#至579#,共计464个样本数据;测试集分别取自编号为1#至38#、194#至232#、388#至426#,共计115个样本数据;
③第三组训练集取自编号为1#至464#,测试集取自编号为465#至579#;
获得的结果:
①径向基核函数:83.65%,多项式核函数:73.08%;
②径向基核函数:87.50%,多项式核函数:77.88%;
③径向基核函数:90.38%,多项式核函数:85.58%。
3.一种基于样本先验信息的支持向量机核函数选择方法在天平平衡测量数据集的应用,其特征是:包括如下步骤:
A步骤:样本共有625个数据,维数为4,经数据预处理后计算出超球体的重心O坐标为:0.6250,0.5000,0.2500,0.7500,R=0.4507,α=0.2944;
由此判断该样本数据呈全局分布特性,则选取具有全局特性的多项式核函数为SVM核函数类型;
B步骤:按照已知样本的80%作为训练集、20%作为测试集,则取样本中的500个作为训练集、125组做为测试集;
C步骤:随机选出3组数据:
①第一组训练集分别取自编号为1#至166#、209#至375#、418#至584#,共500个样本数据;测试集分别取自编号为167#至208#、376#至#417#、585#至625#,共125个样本数据;
②第二组训练集分别取自编号为42#至208#、251#至417#、460#至625#,共500个样本数据;测试集分别取自编号为1#至41#、209#至250#、418#至459#,共125个样本数据;
③第三组训练集取自编号为1#至500#,测试集取自编号为501#至625#;
获得的结果:
①径向基核函数:90.40%,多项式核函数:100.00%;
②径向基核函数:92.80%,多项式核函数:97.60%;
③径向基核函数:91.20%,多项式核函数:98.40%。
4.一种基于样本先验信息的支持向量机核函数选择方法在澳大利亚的信用审批数据集的应用,其特征是:包括如下步骤:
A步骤:样本共有690个数据,维数为14,经数据预处理后计算出超球体的重心O坐标为:0.5000,0.1479,0.0105,0.2500,0.1923,0.1875,0.0007,0.0000,0.5000,0.0299,0.0000,0.5000,0.1050,0.0050,R=0.8007,α=0.9610;
由此判断该样本数据呈局部分布特性,则选取具有局部特性的径向基核函数为SVM核函数类型;
B步骤:取总样本数的80%作为训练集,即552个样本;20%作为测试集,即138个样本;
C步骤:随机选出3组数据:
①第一组训练集分别取自编号为1#至184#、232#至416#、464#至648#,共计552个样本;测试集分别取自编号为185#至231#、417#至463#、649#至690#,共计138个样本;
②第二组训练集分别取自编号为47#至131#、179#至363#、411#至690#,共计552个样本;测试集分别取自编号为1#至46#、132#至178#、364#至410#,共计138个样本;
③第三组训练集取自编号为1#至552#,测试集取自编号为553#至690#;
获得的结果:
①径向基核函数:87.55%,多项式核函数:85.29%;
②径向基核函数:87.10%,多项式核函数:85.71%;
③径向基核函数:87.68%,多项式核函数:84.78%。
5.一种基于样本先验信息的支持向量机核函数选择方法在三连棋游戏结局数据集的应用,其特征是:包括如下步骤:
A步骤:样本共有958个数据,维数为9,经数据预处理后计算出超球体的重心O坐标为:0.2500,0.0000,0.5000,0.2500,0.2500,0.5000,1.0000,0.2500,0.7500,R=0.7500,α=0.0000;
由此判断该样本数据呈全局分布特性,则选取具有全局特性的多项式核函数为SVM核函数类型;
B步骤:按照样本的80%作为训练集,20%作为测试集,即取样本中的766个作为训练集,192个作为测试集;
C步骤:随机选出3组数据:
①第一组训练集分别取自编号为1#至255#、321#至576#、642#至897#,共计766个样本;测试集分别取自编号为256#至320#、577#至641#、898#至958,共计192个样本;
②第二组训练集分别取自编号为1#至383#、481#至864#,共计766个样本;测试集分别取自编号为384#至480#、865#至958#,共计192个样本;
③第三组训练集分别取自编号为1#至191#、251#至442#、492#至683#、733#至924#,共计766个样本;测试集分别取自编号为192#至250#、443#至491#、684#至732#、925#至958#,共计192个样本;
获得的结果:
①径向基核函数:84.82%,多项式核函数:95.29%;
②径向基核函数:79.58%,多项式核函数:85.86%;
③径向基核函数:82.20%,多项式核函数:93.19%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310475813.1A CN103489007B (zh) | 2013-10-13 | 2013-10-13 | 基于样本先验信息的支持向量机核函数选择方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310475813.1A CN103489007B (zh) | 2013-10-13 | 2013-10-13 | 基于样本先验信息的支持向量机核函数选择方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103489007A true CN103489007A (zh) | 2014-01-01 |
CN103489007B CN103489007B (zh) | 2016-09-07 |
Family
ID=49829214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310475813.1A Expired - Fee Related CN103489007B (zh) | 2013-10-13 | 2013-10-13 | 基于样本先验信息的支持向量机核函数选择方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103489007B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104373338A (zh) * | 2014-11-19 | 2015-02-25 | 北京航空航天大学 | 一种基于lmd-svd和ig-svm的液压泵故障诊断方法 |
CN104462019A (zh) * | 2014-12-18 | 2015-03-25 | 江西理工大学 | 一种稀疏表示下支持向量机核函数选择方法及其应用 |
CN104809479A (zh) * | 2015-05-18 | 2015-07-29 | 上海海洋大学 | 基于支持向量机的鱼类栖息地适宜性指数建模方法 |
CN105488521A (zh) * | 2015-11-24 | 2016-04-13 | 章林柯 | 一种基于核函数的扩容样本筛选方法 |
CN109145933A (zh) * | 2017-06-28 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 媒体资源的分类器训练方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101794515A (zh) * | 2010-03-29 | 2010-08-04 | 河海大学 | 基于协方差和二叉树支持向量机的目标检测系统及方法 |
-
2013
- 2013-10-13 CN CN201310475813.1A patent/CN103489007B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101794515A (zh) * | 2010-03-29 | 2010-08-04 | 河海大学 | 基于协方差和二叉树支持向量机的目标检测系统及方法 |
Non-Patent Citations (2)
Title |
---|
朱树先,张仁杰: "《支持向量机核函数选择的研究》", 《科学技术与工程》, vol. 8, no. 6, 31 August 2008 (2008-08-31), pages 4513 - 4517 * |
杨钟瑾: "《核函数支持向量机》", 《计算机工程与应用》, vol. 44, no. 33, 31 December 2008 (2008-12-31), pages 1 - 5 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104373338A (zh) * | 2014-11-19 | 2015-02-25 | 北京航空航天大学 | 一种基于lmd-svd和ig-svm的液压泵故障诊断方法 |
CN104462019A (zh) * | 2014-12-18 | 2015-03-25 | 江西理工大学 | 一种稀疏表示下支持向量机核函数选择方法及其应用 |
CN104462019B (zh) * | 2014-12-18 | 2017-07-04 | 江西理工大学 | 一种稀疏表示下支持向量机核函数选择方法及其应用 |
CN104809479A (zh) * | 2015-05-18 | 2015-07-29 | 上海海洋大学 | 基于支持向量机的鱼类栖息地适宜性指数建模方法 |
CN104809479B (zh) * | 2015-05-18 | 2017-12-15 | 上海海洋大学 | 基于支持向量机的鱼类栖息地适宜性指数建模方法 |
CN105488521A (zh) * | 2015-11-24 | 2016-04-13 | 章林柯 | 一种基于核函数的扩容样本筛选方法 |
CN105488521B (zh) * | 2015-11-24 | 2018-10-30 | 海纳科德(湖北)科技有限公司 | 一种基于核函数的扩容样本筛选方法 |
CN109145933A (zh) * | 2017-06-28 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 媒体资源的分类器训练方法及装置 |
CN109145933B (zh) * | 2017-06-28 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 媒体资源的分类器训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103489007B (zh) | 2016-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xuan et al. | Multi-model fusion short-term load forecasting based on random forest feature selection and hybrid neural network | |
Li et al. | Multiobjective binary biogeography based optimization for feature selection using gene expression data | |
Chen et al. | A parallel genetic algorithm based feature selection and parameter optimization for support vector machine | |
Liu et al. | A new data classification method based on chaotic particle swarm optimization and least square-support vector machine | |
Li et al. | Vessel traffic flow forecasting by RSVR with chaotic cloud simulated annealing genetic algorithm and KPCA | |
CN112382352A (zh) | 基于机器学习的金属有机骨架材料结构特征快速评估方法 | |
CN103489007A (zh) | 基于样本先验信息的支持向量机核函数选择方法及应用 | |
Li et al. | Research of multi-population agent genetic algorithm for feature selection | |
CN109800898A (zh) | 一种智能短期负荷预测方法及系统 | |
CN103488561B (zh) | 一种在线升级主样本模型的kNN故障检测方法 | |
CN102542288A (zh) | 一种高光谱数据多特征空间构建与融合分类方法 | |
CN108460213A (zh) | 基于多聚类原型的t-s模型对炉腹煤气量的预测方法及程序 | |
CN102841985B (zh) | 一种基于结构域特征的关键蛋白质识别方法 | |
CN109472114A (zh) | 一种磁性纳米粒子仿真测试平台的优化设计方法及装置 | |
Yan | Weighted K-nearest neighbor classification algorithm based on Genetic Algorithm | |
Li et al. | A wind speed forecasting model based on multi-objective algorithm and interpretability learning | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN103455612A (zh) | 基于两阶段策略的非重叠与重叠网络社区检测方法 | |
Khan et al. | A new hybrid approach of clustering based probabilistic decision tree to forecast wind power on large scales | |
CN102621953B (zh) | 一种橡胶硬度的在线自动质量监控和预测模型更新的方法 | |
CN102129242A (zh) | 基于两层混合智能优化的批处理生产过程产品质量控制方法 | |
Guo et al. | Harris hawks optimization algorithm based on elite fractional mutation for data clustering | |
Sun et al. | Multiobjective sparrow search feature selection with sparrow ranking and preference information and its applications for high-dimensional data | |
Zhao et al. | Optimisation algorithm for decision trees and the prediction of horizon displacement of landslides monitoring | |
CN111090679A (zh) | 基于时序影响和图嵌入的时序数据表示学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160907 Termination date: 20211013 |
|
CF01 | Termination of patent right due to non-payment of annual fee |