CN106557785A - 一种优化数据分类的支持向量机方法 - Google Patents
一种优化数据分类的支持向量机方法 Download PDFInfo
- Publication number
- CN106557785A CN106557785A CN201611046732.XA CN201611046732A CN106557785A CN 106557785 A CN106557785 A CN 106557785A CN 201611046732 A CN201611046732 A CN 201611046732A CN 106557785 A CN106557785 A CN 106557785A
- Authority
- CN
- China
- Prior art keywords
- sample
- comentropy
- data
- support vector
- vector machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种优化数据分类的支持向量机方法,其实现过程为:通过计算样例信息熵,对原始数据集进行修剪,即依据信息熵决定边缘数据的取舍,通过比较近邻样例的信息熵删除部分混淆程度较高的样例,在修剪后的数据集上训练SVM分类器。本发明的一种优化数据分类的支持向量机方法与现有技术相比,通过计算样本信息熵删除部分边缘数据和边界处混淆程度较高的样例以及噪声数据,用较少的训练样例学习SVM分类器,提高SVM的泛化性能,实用性强,适用范围广泛,易于推广。
Description
技术领域
本发明涉及计算机应用技术领域,具体地说是一种优化数据分类的支持向量机方法。
背景技术
支持向量机(SVM)因其坚实的理论基础和良好的实践性能在机器学习领域得到了极大的发展,它是应用结构风险最小化的准则来训练分类器,在许多实际应用方面取得了良好的效果,比如人脸探测和识别,手写字符识别和文本分类等。在训练分类器时,SVM的着眼点在于两类的交界部分,那些混杂在另一类中的样本点不仅会增加分类器的计算负担,甚至会造成过学习,降低分类器的泛化性能。因此,寻找一种有效的数据集修剪方法对于提高支持向量机的分类精度具有重要意义,基于此,本发明提供一种优化数据分类的支持向量机方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种优化数据分类的支持向量机方法。
一种优化数据分类的支持向量机方法,其实现过程为:通过计算样例信息熵,对原始数据集进行修剪,即依据信息熵决定边缘数据的取舍,通过比较近邻样例的信息熵删除部分混淆程度较高的样例,在修剪后的数据集上训练SVM分类器。
计算样例信息熵包括信息熵为零和不为零两种情况:对于信息熵为零的样例,包括以下两种:1)该样例与其k近邻样例的类标一致;2)该样例与其k近邻样例的类标均不相同,其中第一种是指该样例是边缘数据,第二种是指该样例是噪声数据;对于信息熵不为零的样例,说明该样例的k近邻样例类别分布复杂,且这部分数据距离决策边界较近。
基于得到的信息熵对原始数据集进行修剪的过程包括:
第一步、删除信息熵为零的样例,这部分样例包括噪声数据和距离决策边界较远的样例,即边缘数据样例;
第二步、对决策边界附近的样例进行筛选,删除对分类无益的支持向量,降低边界处的混叠程度。
第二步中对决策边界附近的样例进行筛选的详细过程为:当样本xi与其最近邻点xj类别一致时,则不做处理;否则,分别计算xi与xj的信息熵Ei、Ej,对于信息熵较小的样例,计算与其k近邻样例类标的相同程度pi,若pi<θ,这里θ是指定的常数,0<θ<1,则删掉信息熵较小的样例,否则,不做任何操作。
本发明的具体实现过程为:
首先给定训练样本集为{(x1,y1),(x2,y2),…….,(xn,yn)},i=1……n,其中xi∈Rd,yi∈{+1,-1},其中初始训练集为T,将训练集T表示为矩阵TRm×(n+1)=[XY],其中X=(x1...xm)T,Y=(y1...ym)T;
通过公式计算出每个样例的信息熵,得到一个所有样例的信息熵矩阵Entropy,在该公式中J是类别的总数,j代表J中的某个类别,pj=kj/k,kj代表样例xi的k近邻中属于类别j的样例的个数;
删除信息熵为零的样例,得到新的数据集T’和数据修剪之后的信息熵Entropy';
比较xi与其最近邻xj类标是否一致,若一致则不做处理,否则比较二者信息熵,对于信息熵较小的样例,观察该样例与其k近邻样例的类标相同程度pi,删除小于阈值θ的样例,得到修剪之后的训练数据集S;
用SVM对S进行训练得到分类模型。
本发明的一种优化数据分类的支持向量机方法和现有技术相比,具有以下有益效果:
本发明的一种优化数据分类的支持向量机方法,通过计算样例信息熵,依据信息熵决定边缘数据的取舍,通过比较近邻样例的信息熵删除部分混淆程度较高的样例,在修剪后较少的训练样例的数据集上学习SVM分类器;通过计算样本信息熵删除部分边缘数据和边界处混淆程度较高的样例以及噪声数据,用较少的训练样例学习SVM分类器,提高SVM的泛化性能,实用性强,适用范围广泛,具有很好的推广应用价值。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明提供一种优化数据分类的支持向量机方法,通过计算样本信息熵删除部分边缘数据和边界处混淆程度较高的样例以及噪声数据,用较少的训练样例学习SVM分类器,实验表明,该发明可以提高SVM的泛化性能。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。在训练分类器时,SVM的着眼点在于两类的交界部分,那些混杂在另一类中的样本点不仅会增加分类器的计算负担,甚至会造成过学习,降低分类器的泛化性能。因此,寻找一种有效的数据集修剪方法对于提高支持向量机的分类精度具有重要意义。
本发明提出了一种基于信息熵数据修剪的支持向量机方法,通过计算样例信息熵,并依据信息熵决定边缘数据的取舍,通过比较近邻样例的信息熵删除部分混淆程度较高的样例,在修剪后的数据集上训练SVM分类器。
具体的,依据信息熵决定边缘数据的取舍,通过比较近邻样例的信息熵删除部分混淆程度较高的样例,在修剪后较少的训练样例的数据集上学习SVM分类器。通过计算样本信息熵删除部分边缘数据和边界处混淆程度较高的样例以及噪声数据,用较少的训练样例学习SVM分类器,提高SVM的泛化性能。
给定训练样本集为{(x1,y1),(x2,y2),…,(xi,yi),…,(xn,yn)},i=1……n,其中xi∈Rd,yi∈{+1,-1}。当以上数据集线性可分时,SVM的目的是寻找一个超平面:
w·x+b=0 (1)
这个超平面解如下凸二次规划问题得到:
s.t.yi(wTxi+b)≥1-ξi
ξi>0,i=1,2,……n (2)
将以上二次规划问题转换为对偶形式,可得到最优分类超平面:
其中,SVs是支持向量,αi是拉格朗日乘子。我们将分类函数(决策函数)类型为式(3)的学习机称为支持向量机。
统计学习理论指出,在N维空间中,假设样本分布于一个半径为R的超球范围内,则满足条件||w||≤A的正则超平面所构成的指示函数f(x,w,b)=sgn(wTx+b)的VC维h满足下面的界:
h≤min([R2A2],N)+1 (4)
根据结构风险最小化原则,在使经验风险尽可能小的同时,应该尽量控制VC维的大小,从而减小置信范围,使期望风险最小。由式(3)可知,
其中,n1是对分类有益的支持向量的数量,n2是对分类无益的支持向量(即噪声数据)的数量。观察式(5)可得,若我们可以尽量减小n2的大小,则w必然减小,根据式(4)对A的下界进行缩减,进而可降低函数的VC维,提高分类器的泛化性能。
本发明引入信息熵的概念来描述样例xi与其k近邻样例的混杂程度。信息熵的公式描述如下:
其中,J是类别的总数,j代表J中的某个类别,pj=kj/k,kj代表样例xi的k近邻中属于类别j的样例的个数。很明显,这个概念可以近似的估计出样例的混杂程度。对于信息熵为零的样例,包括两种情况:(1)该样例与其k近邻样例的类标一致(2)该样例与其k近邻样例的类标均不相同。第一种情况说明该样例是边缘数据,第二种情况说明该样例是噪声数据。对于信息熵不为零的样例,说明该样例的k近邻样例类别分布比较复杂,通常这部分数据距离决策边界较近,需做进一步讨论决定其取舍。
根据信息熵的概念及含义,第一步删除信息熵为零的样例,这部分样例包括距离决策边界较远的样例和噪声数据。第二步对决策边界附近的样例进行筛选,删除对分类无益的支持向量,降低边界处的混叠程度。
在现有技术中,发明人发现一种KCNN数据修剪方法:若样本xi与其最近邻xj类标不一致,则分别计算xi与xj到其最近k个同类点的平均距离di和dj,如果di>dj,删除xi,反之删除dj;否则,不做任何处理。该方法只考虑了同类样本对数据分布的影响,忽视了异类样本对数据分布的影响。
为此,本发明提出了一种基于信息熵的最近邻修剪方法,若样本xi与其最近邻点xj类别一致,则不做处理;否则,分别计算计算xi与xj的信息熵Ei、Ej,对于信息熵较小的样例(假设是样例xi),计算与其k近邻样例类标的相同程度pi,若pi<θ(θ是指定的常数,0<θ<1),则删掉样例xi,否则,不做任何操作。以上修剪方法充分考虑了同类样本和异类样本对样本分布的影响,更好地描述了决策边界附近样本的分布特征。
通过以上两步对原始数据集进行修剪,可得到一个新的规模较小的数据集,然后在修剪之后的数据集上对SVM进行训练。
更为具体的,本发明的实现过程如下所述:
算法输入:给定训练样本集为{(x1,y1),(x2,y2),…….,(xn,yn)},i=1……n,其中xi∈Rd,yi∈{+1,-1}。设初始训练集为T,将训练集T表示为矩阵TRm×(n+1)=[XY],其中X=(x1...xm)T,Y=(y1...ym)T。
算法输出:修剪后的训练集S以及用SVM训练S得到的分类模型。
算法步骤:
1)通过公式(6)计算出每个样例的信息熵,得到一个所有样例的信息熵矩阵Entropy。
for T中的每个样本点xi(i=1……n)
2)删除信息熵为零的样例,得到新的数据集T’和数据修剪之后的信息熵Entropy'。
for T中的每个样本点xi(i=1……n)
{if Entropy(xi,k)=0
删除矩阵T及Entropy的第i行,得到新矩阵T’和Entropy';}。
3)比较xi与其最近邻xj类标是否一致,若一致则不做处理,否则比较二者信息熵,对于信息熵较小的样例(假设为xi),观察该样例与其k近邻样例的类标相同程度pi,删除小于阈值θ的样例,得到修剪之后的训练数据集S。
for T中的每个样本点xi(i=1……n)
{if label(xi)!=label(xj)&&Entropy'(xi,k)<Entropy'(xj,k)&&pi<θ
删除矩阵T’中的第i行,得到新的训练数据集S;
else do nothing;
}。
4)用SVM对S进行训练得到分类模型。
鉴于支持向量机扎实的理论基础,并且和传统的学习算法相比较(如人工神经网络),SVM通过提高数据的维度把非线性分类问题转换成线性分类问题,较好解决了传统算法中训练集误差最小而测试集误差仍较大的问题,算法的效率和精度都比较高,它在处理回归和模式识别等问题方面取得了显著的效果,目前该方法已经成功的运用到许多领域。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (5)
1.一种优化数据分类的支持向量机方法,其特征在于,其实现过程为:通过计算样例信息熵,对原始数据集进行修剪,即依据信息熵决定边缘数据的取舍,通过比较近邻样例的信息熵删除部分混淆程度较高的样例,在修剪后的数据集上训练SVM分类器。
2.根据权利要求1所述的一种优化数据分类的支持向量机方法,其特征在于,计算样例信息熵包括信息熵为零和不为零两种情况:对于信息熵为零的样例,包括以下两种:1)该样例与其k近邻样例的类标一致;2)该样例与其k近邻样例的类标均不相同,其中第一种是指该样例是边缘数据,第二种是指该样例是噪声数据;对于信息熵不为零的样例,说明该样例的k近邻样例类别分布复杂,且这部分数据距离决策边界较近。
3.根据权利要求2所述的一种优化数据分类的支持向量机方法,其特征在于,基于得到的信息熵对原始数据集进行修剪的过程包括:
第一步、删除信息熵为零的样例,这部分样例包括噪声数据和距离决策边界较远的样例,即边缘数据样例;
第二步、对决策边界附近的样例进行筛选,删除对分类无益的支持向量,降低边界处的混叠程度。
4.根据权利要求3所述的一种优化数据分类的支持向量机方法,其特征在于,第二步中对决策边界附近的样例进行筛选的详细过程为:当样本xi与其最近邻点xj类别一致时,则不做处理;否则,分别计算xi与xj的信息熵Ei、Ej,对于信息熵较小的样例,计算与其k近邻样例类标的相同程度pi,若pi<θ,这里θ是指定的常数,0<θ<1,则删掉信息熵较小的样例,否则,不做任何操作。
5.根据权利要求3或4所述的一种优化数据分类的支持向量机方法,其特征在于,本发明的具体实现过程为:
首先给定训练样本集为{(x1,y1),(x2,y2),…….,(xn,yn)},i=1……n,其中xi∈Rd,yi∈{+1,-1},其中初始训练集为T,将训练集T表示为矩阵TRm×(n+1)=[XY],其中X=(x1...xm)T,Y=(y1...ym)T;
通过公式计算出每个样例的信息熵,得到一个所有样例的信息熵矩阵Entropy,在该公式中J是类别的总数,j代表J中的某个类别,pj=kj/k,kj代表样例xi的k近邻中属于类别j的样例的个数;
删除信息熵为零的样例,得到新的数据集T’和数据修剪之后的信息熵Entropy';
比较xi与其最近邻xj类标是否一致,若一致则不做处理,否则比较二者信息熵,对于信息熵较小的样例,观察该样例与其k近邻样例的类标相同程度pi,删除小于阈值θ的样例,得到修剪之后的训练数据集S;
用SVM对S进行训练得到分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611046732.XA CN106557785A (zh) | 2016-11-23 | 2016-11-23 | 一种优化数据分类的支持向量机方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611046732.XA CN106557785A (zh) | 2016-11-23 | 2016-11-23 | 一种优化数据分类的支持向量机方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106557785A true CN106557785A (zh) | 2017-04-05 |
Family
ID=58445056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611046732.XA Pending CN106557785A (zh) | 2016-11-23 | 2016-11-23 | 一种优化数据分类的支持向量机方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106557785A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153657A (zh) * | 2017-12-22 | 2018-06-12 | 北京交通大学 | 大型数据中心服务器应用角色划分的方法 |
CN108154178A (zh) * | 2017-12-25 | 2018-06-12 | 北京工业大学 | 基于改进的svm-knn算法的半监督托攻击检测方法 |
CN109117739A (zh) * | 2018-07-18 | 2019-01-01 | 成都识达科技有限公司 | 一种基于邻域样本定向鉴别投影特征提取方法 |
CN110377732A (zh) * | 2019-06-27 | 2019-10-25 | 江苏大学 | 一种基于样本缩放的文本分类的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102938069A (zh) * | 2012-06-13 | 2013-02-20 | 北京师范大学 | 一种基于信息熵的纯净和混合像元自动划分方法 |
CN104834693A (zh) * | 2015-04-21 | 2015-08-12 | 上海交通大学 | 基于深度搜索的视觉图像检索方法及系统 |
-
2016
- 2016-11-23 CN CN201611046732.XA patent/CN106557785A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102938069A (zh) * | 2012-06-13 | 2013-02-20 | 北京师范大学 | 一种基于信息熵的纯净和混合像元自动划分方法 |
CN104834693A (zh) * | 2015-04-21 | 2015-08-12 | 上海交通大学 | 基于深度搜索的视觉图像检索方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153657A (zh) * | 2017-12-22 | 2018-06-12 | 北京交通大学 | 大型数据中心服务器应用角色划分的方法 |
CN108154178A (zh) * | 2017-12-25 | 2018-06-12 | 北京工业大学 | 基于改进的svm-knn算法的半监督托攻击检测方法 |
CN109117739A (zh) * | 2018-07-18 | 2019-01-01 | 成都识达科技有限公司 | 一种基于邻域样本定向鉴别投影特征提取方法 |
CN110377732A (zh) * | 2019-06-27 | 2019-10-25 | 江苏大学 | 一种基于样本缩放的文本分类的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105957076B (zh) | 一种基于聚类的点云分割方法及系统 | |
US10796145B2 (en) | Method and apparatus for separating text and figures in document images | |
CN106557785A (zh) | 一种优化数据分类的支持向量机方法 | |
CN104778476B (zh) | 一种图像分类方法 | |
KR101443187B1 (ko) | 영상 군집화 기반의 의료 영상 검색 방법 | |
CN105930862A (zh) | 一种基于密度自适应距离的密度峰聚类算法 | |
CN101751666A (zh) | 基于谱聚类的半监督多光谱遥感图像分割方法 | |
CN102254326A (zh) | 利用核传递进行图像分割的方法 | |
CN109409400A (zh) | 基于k近邻和多类合并密度峰值聚类方法、图像分割系统 | |
CN103617429A (zh) | 一种主动学习分类方法和系统 | |
CN109492673A (zh) | 一种基于谱聚类采样的不平衡数据预测方法 | |
CN107918772A (zh) | 基于压缩感知理论和gcForest的目标跟踪方法 | |
CN102393914A (zh) | 一种基于支持向量机分类树的地基云图识别方法 | |
CN108764359A (zh) | 无参数的k均值聚类方法 | |
CN108154158B (zh) | 一种面向增强现实应用的建筑物图像分割方法 | |
CN104156945A (zh) | 基于多目标粒子群算法的灰度图像分割方法 | |
CN104616000A (zh) | 一种人脸识别方法和装置 | |
Schinas et al. | CERTH@ MediaEval 2012 Social Event Detection Task. | |
CN104850859A (zh) | 一种基于多尺度分析的图像特征包构建方法 | |
CN112330616A (zh) | 一种脑脊液细胞图像自动化识别和计数的方法 | |
CN106920226A (zh) | 一种荔枝机械损伤判别方法 | |
CN103049760A (zh) | 基于图像分块和位置加权的稀疏表示目标识别方法 | |
CN109933619A (zh) | 一种半监督分类预测方法 | |
CN101251896A (zh) | 一种基于多分类器的物体检测系统及方法 | |
CN103235954A (zh) | 一种基于改进AdaBoost算法的地基云图识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170405 |