CN106557785A

CN106557785A - 一种优化数据分类的支持向量机方法

Info

Publication number: CN106557785A
Application number: CN201611046732.XA
Authority: CN
Inventors: 王洪添; 刘丽娜
Original assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Current assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2017-04-05

Abstract

本发明公开了一种优化数据分类的支持向量机方法，其实现过程为：通过计算样例信息熵，对原始数据集进行修剪，即依据信息熵决定边缘数据的取舍，通过比较近邻样例的信息熵删除部分混淆程度较高的样例，在修剪后的数据集上训练SVM分类器。本发明的一种优化数据分类的支持向量机方法与现有技术相比，通过计算样本信息熵删除部分边缘数据和边界处混淆程度较高的样例以及噪声数据，用较少的训练样例学习SVM分类器，提高SVM的泛化性能，实用性强，适用范围广泛，易于推广。

Description

一种优化数据分类的支持向量机方法

技术领域

本发明涉及计算机应用技术领域，具体地说是一种优化数据分类的支持向量机方法。

背景技术

支持向量机(SVM)因其坚实的理论基础和良好的实践性能在机器学习领域得到了极大的发展，它是应用结构风险最小化的准则来训练分类器，在许多实际应用方面取得了良好的效果，比如人脸探测和识别，手写字符识别和文本分类等。在训练分类器时，SVM的着眼点在于两类的交界部分，那些混杂在另一类中的样本点不仅会增加分类器的计算负担，甚至会造成过学习，降低分类器的泛化性能。因此，寻找一种有效的数据集修剪方法对于提高支持向量机的分类精度具有重要意义，基于此，本发明提供一种优化数据分类的支持向量机方法。

发明内容

本发明的技术任务是针对以上不足之处，提供一种优化数据分类的支持向量机方法。

一种优化数据分类的支持向量机方法，其实现过程为：通过计算样例信息熵，对原始数据集进行修剪，即依据信息熵决定边缘数据的取舍，通过比较近邻样例的信息熵删除部分混淆程度较高的样例，在修剪后的数据集上训练SVM分类器。

计算样例信息熵包括信息熵为零和不为零两种情况：对于信息熵为零的样例，包括以下两种：1)该样例与其k近邻样例的类标一致；2)该样例与其k近邻样例的类标均不相同，其中第一种是指该样例是边缘数据，第二种是指该样例是噪声数据；对于信息熵不为零的样例，说明该样例的k近邻样例类别分布复杂，且这部分数据距离决策边界较近。

基于得到的信息熵对原始数据集进行修剪的过程包括：

第一步、删除信息熵为零的样例，这部分样例包括噪声数据和距离决策边界较远的样例，即边缘数据样例；

第二步、对决策边界附近的样例进行筛选，删除对分类无益的支持向量，降低边界处的混叠程度。

第二步中对决策边界附近的样例进行筛选的详细过程为：当样本x_i与其最近邻点x_j类别一致时，则不做处理；否则，分别计算x_i与x_j的信息熵E_i、E_j，对于信息熵较小的样例，计算与其k近邻样例类标的相同程度p_i，若p_i<θ，这里θ是指定的常数，0<θ<1，则删掉信息熵较小的样例，否则，不做任何操作。

本发明的具体实现过程为：

首先给定训练样本集为{(x₁,y₁)，(x₂,y₂)，…….,(x_n,y_n)},i＝1……n,其中x_i∈R^d，y_i∈{+1,-1}，其中初始训练集为T，将训练集T表示为矩阵TR_m×(n+1)＝[XY]，其中X＝(x₁...x_m)^T，Y＝(y₁...y_m)^T；

通过公式计算出每个样例的信息熵，得到一个所有样例的信息熵矩阵Entropy，在该公式中J是类别的总数，j代表J中的某个类别，p_j＝k_j/k，k_j代表样例x_i的k近邻中属于类别j的样例的个数；

删除信息熵为零的样例，得到新的数据集T’和数据修剪之后的信息熵Entropy'；

比较x_i与其最近邻x_j类标是否一致，若一致则不做处理，否则比较二者信息熵,对于信息熵较小的样例，观察该样例与其k近邻样例的类标相同程度p_i,删除小于阈值θ的样例，得到修剪之后的训练数据集S；

用SVM对S进行训练得到分类模型。

本发明的一种优化数据分类的支持向量机方法和现有技术相比，具有以下有益效果：

本发明的一种优化数据分类的支持向量机方法，通过计算样例信息熵，依据信息熵决定边缘数据的取舍，通过比较近邻样例的信息熵删除部分混淆程度较高的样例，在修剪后较少的训练样例的数据集上学习SVM分类器；通过计算样本信息熵删除部分边缘数据和边界处混淆程度较高的样例以及噪声数据，用较少的训练样例学习SVM分类器，提高SVM的泛化性能，实用性强，适用范围广泛，具有很好的推广应用价值。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本发明提供一种优化数据分类的支持向量机方法，通过计算样本信息熵删除部分边缘数据和边界处混淆程度较高的样例以及噪声数据，用较少的训练样例学习SVM分类器，实验表明，该发明可以提高SVM的泛化性能。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以期获得最好的推广能力。在训练分类器时，SVM的着眼点在于两类的交界部分，那些混杂在另一类中的样本点不仅会增加分类器的计算负担，甚至会造成过学习，降低分类器的泛化性能。因此，寻找一种有效的数据集修剪方法对于提高支持向量机的分类精度具有重要意义。

本发明提出了一种基于信息熵数据修剪的支持向量机方法，通过计算样例信息熵，并依据信息熵决定边缘数据的取舍，通过比较近邻样例的信息熵删除部分混淆程度较高的样例，在修剪后的数据集上训练SVM分类器。

具体的，依据信息熵决定边缘数据的取舍，通过比较近邻样例的信息熵删除部分混淆程度较高的样例，在修剪后较少的训练样例的数据集上学习SVM分类器。通过计算样本信息熵删除部分边缘数据和边界处混淆程度较高的样例以及噪声数据，用较少的训练样例学习SVM分类器，提高SVM的泛化性能。

给定训练样本集为{(x₁，y₁)，(x₂，y₂)，…，(x_i，y_i)，…,(x_n，y_n)},i＝1……n,其中x_i∈R^d，y_i∈{+1，-1}。当以上数据集线性可分时，SVM的目的是寻找一个超平面：

w·x+b＝0 (1)

这个超平面解如下凸二次规划问题得到：

s.t.y_i(w^Tx_i+b)≥1-ξ_i

ξ_i>0,i＝1,2,……n (2)

将以上二次规划问题转换为对偶形式，可得到最优分类超平面：

其中，SVs是支持向量，α_i是拉格朗日乘子。我们将分类函数(决策函数)类型为式(3)的学习机称为支持向量机。

统计学习理论指出，在N维空间中，假设样本分布于一个半径为R的超球范围内，则满足条件||w||≤A的正则超平面所构成的指示函数f(x,w,b)＝sgn(w^Tx+b)的VC维h满足下面的界：

h≤min([R²A²],N)+1 (4)

根据结构风险最小化原则，在使经验风险尽可能小的同时，应该尽量控制VC维的大小，从而减小置信范围，使期望风险最小。由式(3)可知，

其中，n₁是对分类有益的支持向量的数量，n₂是对分类无益的支持向量(即噪声数据)的数量。观察式(5)可得，若我们可以尽量减小n₂的大小，则w必然减小，根据式(4)对A的下界进行缩减，进而可降低函数的VC维，提高分类器的泛化性能。

本发明引入信息熵的概念来描述样例x_i与其k近邻样例的混杂程度。信息熵的公式描述如下：

其中，J是类别的总数，j代表J中的某个类别，p_j＝k_j/k，k_j代表样例x_i的k近邻中属于类别j的样例的个数。很明显，这个概念可以近似的估计出样例的混杂程度。对于信息熵为零的样例，包括两种情况：(1)该样例与其k近邻样例的类标一致(2)该样例与其k近邻样例的类标均不相同。第一种情况说明该样例是边缘数据，第二种情况说明该样例是噪声数据。对于信息熵不为零的样例，说明该样例的k近邻样例类别分布比较复杂，通常这部分数据距离决策边界较近，需做进一步讨论决定其取舍。

根据信息熵的概念及含义，第一步删除信息熵为零的样例，这部分样例包括距离决策边界较远的样例和噪声数据。第二步对决策边界附近的样例进行筛选，删除对分类无益的支持向量，降低边界处的混叠程度。

在现有技术中，发明人发现一种KCNN数据修剪方法：若样本x_i与其最近邻x_j类标不一致，则分别计算x_i与x_j到其最近k个同类点的平均距离d_i和d_j，如果d_i>d_j，删除x_i，反之删除d_j；否则，不做任何处理。该方法只考虑了同类样本对数据分布的影响，忽视了异类样本对数据分布的影响。

为此，本发明提出了一种基于信息熵的最近邻修剪方法，若样本x_i与其最近邻点x_j类别一致，则不做处理；否则，分别计算计算x_i与x_j的信息熵E_i、E_j，对于信息熵较小的样例(假设是样例x_i)，计算与其k近邻样例类标的相同程度p_i，若p_i<θ(θ是指定的常数，0<θ<1)，则删掉样例x_i，否则，不做任何操作。以上修剪方法充分考虑了同类样本和异类样本对样本分布的影响，更好地描述了决策边界附近样本的分布特征。

通过以上两步对原始数据集进行修剪，可得到一个新的规模较小的数据集，然后在修剪之后的数据集上对SVM进行训练。

更为具体的，本发明的实现过程如下所述：

算法输入：给定训练样本集为{(x₁,y₁)，(x₂,y₂)，…….,(x_n,y_n)},i＝1……n,其中x_i∈R^d，y_i∈{+1,-1}。设初始训练集为T，将训练集T表示为矩阵TR_m×(n+1)＝[XY]，其中X＝(x₁...x_m)^T，Y＝(y₁...y_m)^T。

算法输出：修剪后的训练集S以及用SVM训练S得到的分类模型。

算法步骤：

1)通过公式(6)计算出每个样例的信息熵，得到一个所有样例的信息熵矩阵Entropy。

for T中的每个样本点x_i(i＝1……n)

2)删除信息熵为零的样例，得到新的数据集T’和数据修剪之后的信息熵Entropy'。

for T中的每个样本点x_i(i＝1……n)

{if Entropy(x_i,k)＝0

删除矩阵T及Entropy的第i行，得到新矩阵T’和Entropy'；}。

3)比较x_i与其最近邻x_j类标是否一致，若一致则不做处理，否则比较二者信息熵,对于信息熵较小的样例(假设为x_i)，观察该样例与其k近邻样例的类标相同程度p_i,删除小于阈值θ的样例，得到修剪之后的训练数据集S。

for T中的每个样本点x_i(i＝1……n)

{if label(x_i)！＝label(x_j)&&Entropy'(x_i,k)<Entropy'(x_j,k)&&p_i<θ

删除矩阵T’中的第i行，得到新的训练数据集S；

else do nothing；

}。

4)用SVM对S进行训练得到分类模型。

鉴于支持向量机扎实的理论基础，并且和传统的学习算法相比较(如人工神经网络)，SVM通过提高数据的维度把非线性分类问题转换成线性分类问题，较好解决了传统算法中训练集误差最小而测试集误差仍较大的问题，算法的效率和精度都比较高，它在处理回归和模式识别等问题方面取得了显著的效果，目前该方法已经成功的运用到许多领域。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种优化数据分类的支持向量机方法，其特征在于，其实现过程为：通过计算样例信息熵，对原始数据集进行修剪，即依据信息熵决定边缘数据的取舍，通过比较近邻样例的信息熵删除部分混淆程度较高的样例，在修剪后的数据集上训练SVM分类器。

2.根据权利要求1所述的一种优化数据分类的支持向量机方法，其特征在于，计算样例信息熵包括信息熵为零和不为零两种情况：对于信息熵为零的样例，包括以下两种：1)该样例与其k近邻样例的类标一致；2)该样例与其k近邻样例的类标均不相同，其中第一种是指该样例是边缘数据，第二种是指该样例是噪声数据；对于信息熵不为零的样例，说明该样例的k近邻样例类别分布复杂，且这部分数据距离决策边界较近。

3.根据权利要求2所述的一种优化数据分类的支持向量机方法，其特征在于，基于得到的信息熵对原始数据集进行修剪的过程包括：

4.根据权利要求3所述的一种优化数据分类的支持向量机方法，其特征在于，第二步中对决策边界附近的样例进行筛选的详细过程为：当样本x_i与其最近邻点x_j类别一致时，则不做处理；否则，分别计算x_i与x_j的信息熵E_i、E_j，对于信息熵较小的样例，计算与其k近邻样例类标的相同程度p_i，若p_i<θ，这里θ是指定的常数，0<θ<1，则删掉信息熵较小的样例，否则，不做任何操作。

5.根据权利要求3或4所述的一种优化数据分类的支持向量机方法，其特征在于，本发明的具体实现过程为：

用SVM对S进行训练得到分类模型。