CN103489007A

CN103489007A - 基于样本先验信息的支持向量机核函数选择方法及应用

Info

Publication number: CN103489007A
Application number: CN201310475813.1A
Authority: CN
Inventors: 梁礼明; 钟震; 杨国亮; 葛继; 翁发禄
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2013-10-13
Filing date: 2013-10-13
Publication date: 2014-01-01
Anticipated expiration: 2033-10-13
Also published as: CN103489007B

Abstract

本发明涉及一种基于样本数据先验信息的支持向量机核函数选择方法及应用，尤其适用于实时在线的支持向量机模型预测控制场所。本发明包括如下步骤：输入样本数据

，其中Rⁿ为n维数据空间，并对X进行变换使数据的范数小于1；对给定样本数据进行超球体的数学描述以及确定超球体的重心O和半径R；建立样本分布能量熵函数，并计算各样本的能量熵；构建样本分布判别函数及计算其判别结果；根据其判别结果与核函数性质（如黎曼度量、距离度量等）的相似性选择核函数类型；合理确定样本训练集和测试集后，SVM模型及参数优化；输出预测结果。其提高了SVM学习能力和泛化能力，并具有运算速度快、非常适合实时在线SVM模型预测控制场所等特点。

Description

基于样本先验信息的支持向量机核函数选择方法及应用

技术领域

本发明涉及一种基于样本数据先验信息的支持向量机核函数选择方法及应用，尤其适用于实时在线的支持向量机模型预测控制场所。

背景技术

支持向量机(Support Vector Machine，SVM)是20世纪90年代Vapnik基于统计学习理论提出的一种新的机器学习方法。与传统统计学相比,支持向量机有完备的理论基础和严格的理论体系,能够解决有限样本的学习问题，具有很强的泛化能力。由于这一方法具有许多优良特性，并在不少领域如模式识别、回归估计、数据挖掘、生物信息学等领域均取得成功的应用。SVM建立在结构风险最小化原则基础之上,其核心思想之一是引入核函数技术，巧妙地解决了在高维特征空间中计算的“维数灾难”等问题。然而，不同的核函数所呈现出的特性各异，选择不同的核函数会导致SVM的推广性能有所不同。目前，如何针对具体问题选择(或构造)合适的核函数,缺乏相应的理论指导，存在很大的随意性和局限性，也是SVM应用领域遇到的一个重大难题。因此，构建一种能充分挖掘给定具体问题的样本数据先验信息，以及结合核函数蕴藏的度量特征进行SVM核函数选择机制，对于SVM技术的发展和核方法的完善有着积极的指导意义和实用价值。

发明内容

本发明的目的是提供一种基于样本先验信息的支持向量机核函数选择方法及应用，从样本数据先验信息出发构建一种有监督的SVM核函数选择机制，完善SVM核函数选择方法，有助于SVM学习能力和泛化能力的提高。

本发明的技术方案：一种基于样本先验信息的支持向量机核函数选择方法，包括如下步骤：

步骤1.输入样本数据其中Rⁿ为n维数据空间，并对X进行变换使数据的范数小于1；

步骤2.对给定样本数据进行超球体的数学描述以及确定超球体的重心O和半径R；

步骤3.建立样本分布能量熵函数，并计算各样本的能量熵；

步骤4.构建样本分布判别函数及计算其判别结果；

步骤5.根据其判别结果与核函数性质（如黎曼度量、距离度量等）的相似性选择核函数类型；

步骤6.合理确定样本训练集和测试集后，SVM模型及参数优化；

步骤7.输出预测结果。

一种基于样本先验信息的支持向量机核函数选择方法在印度肝脏病人数据集、天平平衡测量数据集、澳大利亚的信用审批数据集、三连棋游戏结局数据集得到应用。

本发明构建了一种基于样本先验信息进行SVM核函数选择的机制，克服了传统的支持向量机模型选择方法中人为指定核函数类型而导致模型不能达到最优性能的缺点，提高了SVM学习能力和泛化能力，并具有运算速度快、非常适合实时在线SVM模型预测控制场所等特点。

具体实施方式

下面结合具体实例对本发明作进一步说明。

①所涉及的实例均来自UCI基准库，且为带标签的数据；

②以具有全局特性的多项式核函数和局部特性的径向基核函数为例进行预测结果比较；

③实例中第i个样本的能量熵函数取

其中d_io为第i个样本与重心O的欧氏距离；

④实例中样本分布判别函数定义为

式中α为阈值，l为样本总数，l^*为样本中

的个数。结合核函数所蕴藏的度量特性，实例中取α=0.5为临界点。当计算出α>0.5，则判断该样本数据呈局部分布特性；当α≤0.5，则判断该样本数据呈全局分布特性。

⑤训练集与测试集的数据样本数量按照8：2比例予以随机划分；

⑥实例中SVM模型参数优化均采取粒子群算法（PSO）进行寻优；

⑦百分数均为SVM模型输出结果预测准确率。

实例1：印度肝脏病人数据集（Indian Liver Patient Dataset）

A步骤：样本共有579个数据，维数为10。经数据预处理后计算出超球体的重心O坐标为（0.5058，0.0000，0.1073，0.1786，0.085，0.3473，0.1652，0.4493，0.5326，0.4500），R=0.4984，α=0.9048。

由此判断该样本数据呈局部分布特性，则选取具有局部特性的径向基核函数为SVM核函数类型。

B步骤：按照已知样本的80%作为训练集、20%作为测试集，则取样本中的464个作为训练集、115组做为测试集。

C步骤：随机选出3组数据：

①第一组训练集分别取自编号为1^#至154^#、194^#至348^#、388^#至542^#，共计464个样本数据。测试集分别取自编号为155^#至193^#、349^#至387^#、543^#至579^#，共计115个样本数据。

②第二组训练集分别取自编号为39^#至193^#、349^#至387^#、427^#至579^#，共计464个样本数据。测试集分别取自编号为1^#至38^#、194^#至232^#、388^#至426^#，共计115个样本数据。

③第三组训练集取自编号为1^#至464^#，测试集取自编号为465^#至579^#。

实例1获得的实验结果：

①径向基核函数：83.65% 多项式核函数：73.08%

②径向基核函数：87.50% 多项式核函数：77.88%

③径向基核函数：90.38% 多项式核函数：85.58%

实例2：天平平衡测量数据集（Balance Scale Data Set）

A步骤：样本共有625个数据，维数为4。经数据预处理后计算出超球体的重心O坐标为（0.6250，0.5000，0.2500，0.7500），R=0.4507，α=0.2944。

由此判断该样本数据呈全局分布特性，则选取具有全局特性的多项式核函数为SVM核函数类型。

B步骤：按照已知样本的80%作为训练集、20%作为测试集，则取样本中的500个作为训练集、125组做为测试集。

C步骤：随机选出3组数据：

①第一组训练集分别取自编号为1^#至166^#、209^#至375^#、418^#至584^#，共500个样本数据。测试集分别取自编号为167^#至208^#、376^#至^#417^#、585^#至625^#，共125个样本数据。

②第二组训练集分别取自编号为42^#至208^#、251^#至417^#、460^#至625^#，共500个样本数据。测试集分别取自编号为1^#至41^#、209^#至250^#、418^#至459^#，共125个样本数据。

③第三组训练集取自编号为1^#至500^#，测试集取自编号为501^#至625^#。

实例2获得的实验结果：

①径向基核函数：90.40% 多项式核函数：100.00%

②径向基核函数：92.80% 多项式核函数：97.60%

③径向基核函数：91.20% 多项式核函数：98.40%

实例3：澳大利亚的信用审批数据集（Australian Credit Approval Data Set）

A步骤：样本共有690个数据，维数为14。经数据预处理后计算出超球体的重心O坐标为（0.5000，0.1479，0.0105，0.2500，0.1923，0.1875，0.0007，0.0000，0.5000，0.0299，0.0000，0.5000，0.1050，0.0050），R=0.8007，α=0.9610。

B步骤：取总样本数的80%作为训练集（即552个样本），20%作为测试集（即138个样本）。

C步骤：随机选出3组数据：

①第一组训练集分别取自编号为1^#至184^#、232^#至416^#、464^#至648^#，共计552个样本。测试集分别取自编号为185^#至231^#、417^#至463^#、649^#至690^#，共计138个样本。

②第二组训练集分别取自编号为47^#至131^#、179^#至363^#、411^#至690^#，共计552个样本。测试集分别取自编号为1^#至46^#、132^#至178^#、364^#至410^#，共计138个样本。

③第三组训练集取自编号为1^#至552^#，测试集取自编号为553^#至690^#。

实例3获得的实验结果：

①径向基核函数：87.55% 多项式核函数：85.29%

②径向基核函数：87.10% 多项式核函数：85.71%

③径向基核函数：87.68% 多项式核函数：84.78%

实例4：三连棋游戏结局数据集（Tic-Tac-Toe Endgame Data Set）

A步骤：样本共有958个数据，维数为9。经数据预处理后计算出超球体的重心O坐标为（0.2500，0.0000，0.5000，0.2500，0.2500，0.5000，1.0000，0.2500，0.7500），R=0.7500，α=0.0000。

B步骤：按照样本的80%作为训练集，20%作为测试集，即取样本中的766个作为训练集，192个作为测试集。

C步骤：随机选出3组数据：

①第一组训练集分别取自编号为1^#至255^#、321^#至576^#、642^#至897^#，共计766个样本。测试集分别取自编号为256^#至320^#、577^#至641^#、898^#至958，共计192个样本。

②第二组训练集分别取自编号为1^#至383^#、481^#至864^#，共计766个样本。测试集分别取自编号为384^#至480^#、865^#至958^#，共计192个样本。

③第三组训练集分别取自编号为1^#至191^#、251^#至442^#、492^#至683^#、733^#至924^#，共计766个样本。测试集分别取自编号为192^#至250^#、443^#至491^#、684^#至732^#、925^#至958^#，共计192个样本。

实例4获得的实验结果：

①径向基核函数：84.82% 多项式核函数：95.29%

②径向基核函数：79.58% 多项式核函数：85.86%

③径向基核函数：82.20% 多项式核函数：93.19%

通过以上4例样本数据的随机分组测试，可以看出：基于样本数据先验信息和核函数蕴藏的度量特征的相似性选择的SVM核函数类型分类的预测准确率，要高于选择其他类型核函数的SVM模型分类的预测准确率，其差异程度甚至高达10%以上。因此，本发明基于样本数据先验信息，结合核函数蕴藏的度量特征进行SVM核函数选择，是一种有监督的实用方法，克服了传统的支持向量机模型选择方法中人为指定核函数类型而导致模型不能达到最优性能的缺点，并具有运算速度快、非常适合实时在线SVM模型预测控制场所等特点。

Claims

1.一种基于样本先验信息的支持向量机核函数选择方法，包括如下步骤：

步骤1：输入样本数据

其中Rⁿ为n维数据空间，并对X进行变换使数据的范数小于1；

步骤2：对给定样本数据进行超球体的数学描述以及确定超球体的重心O和半径R；

步骤3：建立样本分布能量熵函数，并计算各样本的能量熵；

步骤4：构建样本分布判别函数及计算其判别结果；

步骤5：根据其判别结果与核函数性质的相似性选择核函数类型；

步骤6：合理确定样本训练集和测试集后，SVM模型及参数优化；

步骤7：输出预测结果。

2.一种基于样本先验信息的支持向量机核函数选择方法在印度肝脏病人数据集的应用，其特征是：包括如下步骤：

A步骤：样本共有579个数据，维数为10；经数据预处理后计算出超球体的重心O坐标为：0.5058，0.0000，0.1073，0.1786，0.085，0.3473，0.1652，0.4493，0.5326，0.4500，R=0.4984，α=0.9048；

由此判断该样本数据呈局部分布特性，则选取具有局部特性的径向基核函数为SVM核函数类型；

B步骤：按照已知样本的80%作为训练集、20%作为测试集，则取样本中的464个作为训练集、115组做为测试集；

C步骤：随机选出3组数据：

①第一组训练集分别取自编号为1^#至154^#、194^#至348^#、388^#至542^#，共计464个样本数据；测试集分别取自编号为155^#至193^#、349^#至387^#、543^#至579^#，共计115个样本数据；

②第二组训练集分别取自编号为39^#至193^#、349^#至387^#、427^#至579^#，共计464个样本数据；测试集分别取自编号为1^#至38^#、194^#至232^#、388^#至426^#，共计115个样本数据；

③第三组训练集取自编号为1^#至464^#，测试集取自编号为465^#至579^#；

获得的结果：

①径向基核函数：83.65%，多项式核函数：73.08%；

②径向基核函数：87.50%，多项式核函数：77.88%；

③径向基核函数：90.38%，多项式核函数：85.58%。

3.一种基于样本先验信息的支持向量机核函数选择方法在天平平衡测量数据集的应用，其特征是：包括如下步骤：

A步骤：样本共有625个数据，维数为4，经数据预处理后计算出超球体的重心O坐标为：0.6250，0.5000，0.2500，0.7500，R=0.4507，α=0.2944；

由此判断该样本数据呈全局分布特性，则选取具有全局特性的多项式核函数为SVM核函数类型；

B步骤：按照已知样本的80%作为训练集、20%作为测试集，则取样本中的500个作为训练集、125组做为测试集；

C步骤：随机选出3组数据：

①第一组训练集分别取自编号为1^#至166^#、209^#至375^#、418^#至584^#，共500个样本数据；测试集分别取自编号为167^#至208^#、376^#至^#417^#、585^#至625^#，共125个样本数据；

②第二组训练集分别取自编号为42^#至208^#、251^#至417^#、460^#至625^#，共500个样本数据；测试集分别取自编号为1^#至41^#、209^#至250^#、418^#至459^#，共125个样本数据；

③第三组训练集取自编号为1^#至500^#，测试集取自编号为501^#至625^#；

获得的结果：

①径向基核函数：90.40%，多项式核函数：100.00%；

②径向基核函数：92.80%，多项式核函数：97.60%；

③径向基核函数：91.20%，多项式核函数：98.40%。

4.一种基于样本先验信息的支持向量机核函数选择方法在澳大利亚的信用审批数据集的应用，其特征是：包括如下步骤：

A步骤：样本共有690个数据，维数为14，经数据预处理后计算出超球体的重心O坐标为：0.5000，0.1479，0.0105，0.2500，0.1923，0.1875，0.0007，0.0000，0.5000，0.0299，0.0000，0.5000，0.1050，0.0050，R=0.8007，α=0.9610；

B步骤：取总样本数的80%作为训练集，即552个样本；20%作为测试集，即138个样本；

C步骤：随机选出3组数据：

①第一组训练集分别取自编号为1^#至184^#、232^#至416^#、464^#至648^#，共计552个样本；测试集分别取自编号为185^#至231^#、417^#至463^#、649^#至690^#，共计138个样本；

②第二组训练集分别取自编号为47^#至131^#、179^#至363^#、411^#至690^#，共计552个样本；测试集分别取自编号为1^#至46^#、132^#至178^#、364^#至410^#，共计138个样本；

③第三组训练集取自编号为1^#至552^#，测试集取自编号为553^#至690^#；

获得的结果：

①径向基核函数：87.55%，多项式核函数：85.29%；

②径向基核函数：87.10%，多项式核函数：85.71%；

③径向基核函数：87.68%，多项式核函数：84.78%。

5.一种基于样本先验信息的支持向量机核函数选择方法在三连棋游戏结局数据集的应用，其特征是：包括如下步骤：

A步骤：样本共有958个数据，维数为9，经数据预处理后计算出超球体的重心O坐标为：0.2500，0.0000，0.5000，0.2500，0.2500，0.5000，1.0000，0.2500，0.7500，R=0.7500，α=0.0000；

B步骤：按照样本的80%作为训练集，20%作为测试集，即取样本中的766个作为训练集，192个作为测试集；

C步骤：随机选出3组数据：

①第一组训练集分别取自编号为1^#至255^#、321^#至576^#、642^#至897^#，共计766个样本；测试集分别取自编号为256^#至320^#、577^#至641^#、898#至958，共计192个样本；

②第二组训练集分别取自编号为1^#至383^#、481^#至864^#，共计766个样本；测试集分别取自编号为384^#至480^#、865^#至958^#，共计192个样本；

③第三组训练集分别取自编号为1^#至191^#、251^#至442^#、492^#至683^#、733^#至924^#，共计766个样本；测试集分别取自编号为192^#至250^#、443^#至491^#、684^#至732^#、925^#至958^#，共计192个样本；

获得的结果：

①径向基核函数：84.82%，多项式核函数：95.29%；

②径向基核函数：79.58%，多项式核函数：85.86%；

③径向基核函数：82.20%，多项式核函数：93.19%。