CN107544944B

CN107544944B - 一种基于图论的支持向量机核函数选择方法及其应用

Info

Publication number: CN107544944B
Application number: CN201710783725.6A
Authority: CN
Inventors: 梁礼明; 陈明理; 翁发禄; 吴健; 冯新刚; 刘博文
Original assignee: Buddhist Tzu Chi General Hospital
Current assignee: Buddhist Tzu Chi General Hospital
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2020-06-02
Anticipated expiration: 2037-09-04
Also published as: CN107544944A

Abstract

本发明提供一种基于图论的支持向量机核函数选择方法及其应用。本发明将图论应用于支持向量机核函数选择，是一种支持向量机核函数选择的新方法及应用。本发明包括如下步骤：数据预处理；k邻域选取；邻接矩阵构造；本征维数估计；核函数类型选择；优化支持向量机模型参数并输出预测结果。本发明是一种有指导性的SVM核函数选择方法，能够针对具体问题有效地选择合适的核函数，克服了现有的SVM模型选择方法中人为指定核函数类型而导致模型不能达到最优性能的缺陷，并具实施预测准确率高，运算速度快、非常适合实时在线SVM模型预测控制场所。

Description

一种基于图论的支持向量机核函数选择方法及其应用

技术领域

本发明将图论应用于支持向量机核函数选择，是一种支持向量机核函数选择的新方法及应用。

背景技术

核方法(Kernel Method，KM)是统计学习理论(Statistical Learning Theory，SLT)与核技术相结合的产物。它能够有效地解决非线性分类与回归问题，较好地避免高维数据常出现的维数灾难等难以解决的问题。支持向量机(Support Vector Machine，SVM)是一种基于核的学习方法，核函数选取对SVM性能有着重要的影响。由于不同的核函数所表现出的度量特性迥异，选择不同的核函数会直接影响着SVM的泛化性能。根据具体问题的样本信息，结合核函数蕴含的度量特征，如何有效地进行核函数选择，一直是SVM研究领域的一个重要问题。然而目前SVM核函数的选择大多数是根据人为经验进行,缺乏相应的理论指导，存在很大的随意性和局限性。因此，研发一种既能充分利用给定具体问题的样本信息，又能结合不同核函数蕴藏的度量特征且具有通用性的核函数选择方法，则对于SVM技术的发展以及核方法的完善有着积极意义。

由于核是通过非线性映射将样本空间嵌入至特征空间，特征空间通常为高维流形，但对原问题而言，通常仅为一个低维流形。核又可以看成是描述两个样本点之间一种的相似关系,这种关系则可用相邻图来描述，两个节点相似就用图的相邻关系来描述最终形成图的邻接矩阵。而图又可以看成是流形学习的一种实现，图中的相邻关系就是流形中每个点的邻域关系。因此，核函数选择就是图中邻接矩阵的选择问题。由于图论有坚实的数学基础，故基于图论的SVM核函数选择是一个很有潜力的方向。

发明内容

本发明的目的是提供一种基于图论的支持向量机核函数选择方法及其应用，它能克服SVM应用过程中核函数选择的盲目性。利用图论构建样本数据无向图的邻接矩阵，借助流形学习的本征维数估计，有指导性地选择SVM核函数，以提高支持向量机的泛化能力。

本发明的技术方案：一种基于图论的支持向量机核函数选择方法，包括如下步骤：

步骤1，数据预处理：输入样本数据

其中R^D为D维数据空间，l为样本个数，对X进行预处理使其范数小于1并中心化；

步骤2，k邻域选取：在给定样本点附近寻找一个邻域，从中找出此局部邻域的几何结构，并计算每个样本点x_i与其余样本点x_j(j≠i)之间的欧氏距离；当x_j为x_i最近的k个点时，则把x_j视为与x_i是相邻的，即图G中有边x_ix_j；

步骤3，邻接矩阵构造：通过无向图

描述各样本数据点之间的关系，其中V为顶点集，E为边集，

为顶点与边的关联信息集；

①如果x_i和x_j是近邻点，则在图G中x_i与x_j之间有连接边，且连接边权值取α_ij＝α_ji＝1；如果x_i和x_j不是近邻点，则在图G中x_i与x_j之间没有连接边，且连接边权值取α_ij＝α_ji＝0；

②由无向图G的顶点和边以及相应的权值构造规模为D×D的(0,1)邻接矩阵；

步骤4，本征维数估计：利用主成分分析方法(PCA)将由样本数据构建的(0,1)邻接矩阵按照最大方差的方向予以映射变换，并通过计算协方差矩阵的特征值后估计其本征维数，具体过程如下：

假设数据样本进行了中心化，即∑_ix_i＝0，以及投影变换后得到的新坐标系为{ω₁,ω₂,…,ω_D}，ω_i为标准正交基向量，||ω_i||₂＝1，

丢弃新坐标系中的部分坐标，其维度降至d(d≤D)，则样本点x_i在低维坐标中的投影为z_i＝(z_i1,z_i2,…,z_id)，其中

是x_i在低维坐标系下第j维的坐标；因此，基于z_i重构x_i，则会得到

对于整个数据集，原始数据样本点xi与基于投影重构的样本点

之间距离为

其中W＝[ω₁,ω₂,…,ω_D]，const是一常数；

根据最近重构性，将式(1)最小化，则有

其中W＝[ω₁,ω₂,…,ω_D]，式(2)即为主成分分析方法(PCA)的优化目标；

利用拉格朗日乘子法求解式(2)可得

XX^Tω_i＝λ_iω_i (3)

由式(3)可以看出，只需要对协方差矩阵XX^T进行特征值分解，并将特征值排序，设定一个阈值δ，根据保留特征值的个数来估计本征维数的大小，即

其中λ_i为协方差矩阵XX^T的特征值，b是所选取的特征个数，l是样本个数，δ为设定的阈值；

步骤5，核函数类型选择：根据邻接矩阵的本征维数估计值，以及给定的阈值选择相应的SVM核函数类型，并确定支持向量机模型；

步骤6，优化支持向量机模型参数并输出预测结果。

本发明利用流形学习的本征维数估计方法，结合核函数蕴藏的度量特征，提出了一种基于图论的SVM核函数选择机制。这是一种有指导性的SVM核函数选择方法，能够针对具体问题有效地选择合适的核函数，克服了现有的SVM模型选择方法中人为指定核函数类型而导致模型不能达到最优性能的缺陷，并具实施预测准确率高，运算速度快、非常适合实时在线SVM模型预测控制场所。

具体实施方式

实验说明：

①本发明的应用所涉及的三组实施例数据集均来自于UCI数据库，分别是Tic-Tac-Toe Endgame Data Set(井字棋游戏数据集)、Liver Disorders Data Set(肝脏疾病数据集)和Haberman’s Survival Data Set(哈伯曼生存数据集)。

②本发明以典型的全局分布特征的多项式核函数和局部分布特征的径向基核函数(RBF)为例进行数值仿真实验。

③通过实验分析，确定核函数矩阵本征维数的阈值为d^*＝2，即d≤d^*，则选择多项式核函数；若d>d^*，则选择径向基核函数(RBF)。

④随机选取样本数据集的80％和20％分别作为SVM模型的训练集和测试集。

实施例一：Tic-Tac-Toe Endgame Data Set(井字棋游戏数据集)

A步骤：本组数据集来自UCI数据库，共有958组数据；对其进行预处理，使样本数据的范数小于1并中心化；然后选取左上角、中上方、右上角、中左方、正中间、中右方、左下方、中下方和右下角9个为输入变量，播放器为输出变量；

B步骤：在给定样本点附近寻找一个邻域，从中找出此局部邻域的几何结构，并计算每个样本点x_i与其余样本点x_j(j≠i)之间的欧氏距离，当x_j为x_i最近的k＝8个点时，则把x_j视为与x_i是相邻的，即图G中有连接边x_ix_j，且边权值为α_ij＝α_ji＝1；

C步骤：由无向图G的顶点和边以及相应的权值构造规模为9×9的(0,1)邻接矩阵；

D步骤：利用主成分分析方法(PCA)将规模为9×9的(0,1)邻接矩阵按照最大方差的方向予以映射变换，并通过计算协方差矩阵的特征值后估计其本征维数为d＝2；

E步骤：根据邻接矩阵的本征维数估计值，以及给定的阈值d^*＝2，选择具有全局分布特征的多项式核函数，并依此确定支持向量机模型；

F步骤：随机选取767组样本数据作为训练样本，191组样本数据作为测试样本；优化由多项式核函数构建的SVM模型参数后，最后随机实验三次并取平均值，其实施预测准确率为94.45％，而采用具有局部分布特征的径向基核函数(RBF)构建的SVM模型，其实施预测准确率仅为85.25％，两者相差9.20％。

实施例二：Liver Disorders Data Set(肝脏疾病数据集)

A步骤：本组数据集来自UCI数据库，共有345组数据；对其进行预处理，使样本数据的范数小于1并中心化；然后选取平均红细胞体积、碱性磷酸酶、丙氨酸转氨酶、天冬氨酸转氨酶、γ-谷氨酰转肽酶以及每天喝相当于半品脱酒精饮料的数量6个为输入变量，疾病状态为输出变量；

C步骤：由无向图G的顶点和边以及相应的权值构造规模为6×6的(0,1)邻接矩阵；

D步骤：利用主成分分析方法(PCA)将规模为6×6的(0,1)邻接矩阵按照最大方差的方向予以映射变换，并通过计算协方差矩阵的特征值后估计其本征维数为d＝3；

E步骤：根据邻接矩阵的本征维数估计值，以及给定的阈值d^*＝2，选择具有局部分布特征的径向基核函数(RBF)，并依此确定支持向量机模型；

F步骤：随机选取276组样本数据作为训练样本，69组样本数据作为测试样本；优化由径向基核函数(RBF)构建的SVM模型参数后，最后随机实验三次并取平均值，其实施预测准确率为100％，而采用具有全局分布特征的多项式核函数构建的SVM模型，其实施预测准确率仅为73.91％，两者相差高达26.09％之多。

实施例三：Haberman’s Survival Data Set(哈伯曼生存数据集)

A步骤：本组数据集来自UCI数据库，共有306组数据；对其进行预处理，使样本数据的范数小于1并中心化；然后选取手术时患者年龄、患者的手术年份和检测到的阳性腋窝淋巴结数3个为输入变量，生存状态(5年)为输出变量；

C步骤：由无向图G的顶点和边以及相应的权值构造规模为3×3的(0,1)邻接矩阵；

D步骤：利用主成分分析方法(PCA)将规模为3×3的(0,1)邻接矩阵按照最大方差的方向予以映射变换，并通过计算协方差矩阵的特征值后估计其本征维数为d＝2；

F步骤：随机选取245组样本数据作为训练样本，61组样本数据作为测试样本；优化由多项式核函数构建的SVM模型参数后，最后随机实验三次并取平均值，其实施预测准确率为95.48％，而采用具有局部分布特征的径向基核函数(RBF)构建的SVM模型，其实施预测准确率仅为83.42％，两者相差12.06％。

通过以上三个实施例样本数据的测试可以看出，利用图论理论所筛选出的核函数建立的支持向量机模型要优于其他核函数构建的支持向量机模型。因此，本发明将图论理论运用于支持向量机核函数选择，是一种有指导性的实用方法，弥补了传统的支持向量机模型选择方法中人为指定核函数类型导致模型不能达到最优性能的不足，并具有运算速度快、非常适合实时在线SVM模型预测控制场所。