CN103065154A - 一种提高二分类支持向量机分类精度的方法 - Google Patents

一种提高二分类支持向量机分类精度的方法 Download PDF

Info

Publication number
CN103065154A
CN103065154A CN2012105446698A CN201210544669A CN103065154A CN 103065154 A CN103065154 A CN 103065154A CN 2012105446698 A CN2012105446698 A CN 2012105446698A CN 201210544669 A CN201210544669 A CN 201210544669A CN 103065154 A CN103065154 A CN 103065154A
Authority
CN
China
Prior art keywords
training
support vector
training sample
vector machine
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105446698A
Other languages
English (en)
Inventor
刘世元
朱金龙
张传维
陈修国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN2012105446698A priority Critical patent/CN103065154A/zh
Publication of CN103065154A publication Critical patent/CN103065154A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提高二分类支持向量机分类精度的方法,步骤为:在待分类的样本空间中获取训练样本,得到2p个具有n个维度训练样本;利用训练样本集进行支持向量机训练,获取分类边界权系数向量w;利用支持向量机对所有训练样本进行映射,统计出所有被错误识别的训练样本集I1;按绝对值的大小对向量w中的每一个分量进行排序;找出排序最后的分量并剔除;重复m次,训练样本的维度减少到n-m;剔除掉这些错误训练样本;对剩余的训练样本进行支持向量机训练,该支持向量机即为最优支持向量机。本发明可以筛选出训练样本中的最优维度,剔除训练样本集中的劣质训练样本,进而从源头上保证并提高了分类精度。

Description

一种提高二分类支持向量机分类精度的方法
技术领域
本发明属于分类技术及模式识别领域,具体涉及一种提高二分类支持向量机分类精度的方法。利用本发明方法可以筛选出训练样本中的最优维度,剔除训练样本集中的劣质训练样本,进而从源头上保证并提高了分类精度。
背景技术
支持向量机是上世纪90年代由Vapnik提出的一种全新的机器学习方法。得益于基于结构风险最小化的设计原理,相较之人工神经网络等传统机器学习方法,支持向量机具有更强的泛化能力。并且,支持向量机具有强大的小样本学习能力。因此,支持向量机自诞生起直到今天依然是一个十分热门的研究领域。
支持向量机的原始目的是为了解决数据的分类问题,其关键在于核函数。通过选取合适的核函数,可以将训练样本映射到一个高维空间中。进一步地,通过在此高维空间中找到一个最优分类面,可以最大限度地将训练样本分类开来。所谓最大限度,是指能够保证最大概率地正确分类开来训练样本。从统计学的角度上来说,就是对于总数为N的训练样本,要求支持向量机正确识别的样本数量m尽可能地大,最优情况下m=N。其中,m/N的值被定义为分类精度。因此,如何提高支持向量机的分类精度,已经成为一个值得深入研究的课题。
目前,已有部分相关文献或专利分别介绍了不同的提高支持向量机分类精确度的方法。其中具有代表性的,如CN101599126A《利用全局互信息加权的支持向量机分类器》提出了一种利用全局互信息相关度来提高分类精度的方法;美国顾永等人(I.Guyon et a1.,Mach.Learn.,Vo1.46,pp.389-422,2002)提出了一种迭代剔除不灵敏区间的支持向量机分类精度方法,进而提高了对肝癌细胞的识别精度。上述专利文献和论文所涉及的提高支持向量机的方法在各自的领域具有一定的代表性。
发明内容
本发明的目的在于提供一种普适性较强的提高二分类支持向量机分类精度的方法,该方法可以保证支持向量机的分类精度。
本发明提供的一种提高二分类支持向量机分类精度的方法,该方法包括下述步骤:
第1步在待分类的样本空间中获取训练样本,每一类样本空间对应一个训练样本集合,每一个训练样本集合中的每一个样本描述为向量形式,设向量的长度为n,即训练样本具有n个维度;每一个训练样本集合具有p个训练样本,两个训练样本集合则有2p个训练样本;
第2步利用训练样本集进行支持向量机训练,当支持向量机训练完毕,获取分类边界权系数向量w,其中w=[ω1,ω2,...,ωn],为一个维度为n的向量,其每一个向量分量对应于训练样本的一个维度上的数据;
第3步利用第2步中训练得到的支持向量机对训练样本集中的所有训练样本进行映射,根据映射结果统计出所有被错误识别的训练样本,这些被错误识别的训练样本组成一个错误样本集,该错误样本集被标记为I1
第4步按照向量w中的每一个分量的绝对值的大小对向量w中的每一个分量进行排序,向量分量的绝对值越大,其重要性越高;
第5步找出向量w中重要性最小的的分量,剔除掉该最小分量对应的所有训练样本数据中那个维度上的数据,从而使所有训练样本的维度均减少到n-1;
第6步利用第4步中得到的维度为n-1的所有训练样本进行支持向量机训练,即重复第2步至第5步的过程,重复预先设定m次,即得到m个错误样本集,训练样本的维度减少到n-m;
第7步找出m个错误样本集中共同的错误训练样本,并从第6步中获得的所有n-m维训练样本中剔除掉这些错误训练样本;对剩余的训练样本进行支持向量机训练,该支持向量机即为最优支持向量机。
本发明提出一种普适性较强的针对二分类支持向量机分类精度提高的方法。该方法在一定程度上挖掘了输入向量中的最优区间,剔除了输入向量中的不灵敏区间和对分类精度贡献度较小的训练样本,从而在源头上保证了支持向量机的分类精度。并且,该方法实现流程简单,操作方便。
附图说明
图1是本发明实例的实现流程图;
图2是二分类支持向量机对训练样本的分类示意图;
图3是训练样本存储矩阵示意图;
图4是错误分类样本集示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
支持向量机是一种广泛使用的用来处理分类问题的新方法。该方法的思想是利用核函数将待分类的样本映射到一个高维空间中,进而在高维空间中找寻一个最优分类面来分开两类(或多类)数据。常用的核函数包括线性核函数、径向基核函数等。如图2所示,两类待分类样本B和C被最优分类面A分隔开。支持向量机需要利用训练样本进行训练后获得,常用的训练方法包括最小二乘法、序列最小优化法等。本发明中采用线性核函数与最小二乘法来处理二分类中的精度提高问题。
如图1所示,本发明涉及到的精度提高方法包括下述过程:
第1步在待分类的样本空间中获取训练样本,每一类样本空间对应一个训练样本集合,每一个训练样本集合中的每一个样本在数学上的描述为向量形式,并且向量的长度为n,即训练样本具有n个维度。每一个训练样本集合具有p个训练样本,两个训练样本集合则有2p个训练样本,即所有训练样本数为2p;
训练样本集需要预先获取,训练样本集中含有多个训练样本。由于本发明面向对象为二分类问题,因此,有两个训练样本集,每一个训练样本集包含一类需要分类识别的样本,如图3所示:图3中D、E两个矩阵分别代表两个训练样本集。以矩阵D为例,矩阵的每一行代表一个训练样本,本实例中训练样本有10个分量,即训练样本的维度n=10;矩阵的行数代表训练样本集中的训练样本个数,本实例中有6个训练样本。因此,对于本实例中的二分类问题,每一类对应的训练样本集均包含6个训练样本。则所有训练样本数为12个。
第2步利用训练样本集进行支持向量机训练,当支持向量机训练完毕,获取分类边界权系数向量w,其中w=[ω1,ω2,...,ωn],为一个维度为n的向量,其每一个向量分量对应于训练样本的一个维度上的数据。
在本实例中,如第1步中所述,样本的维度为10,因此,分类边界权系数向量w具有10个分量,即w=[ω1,ω2,...,ω10],w的每一个分量对应着所有训练样本同样维度上的值:即w的第一个分量ω1对应着所有训练样本第一个维度上的值,w的第二个分量ω2对应着所有训练样本第二个维度上的值,其他的以此类推。
第3步利用第2步中训练得到的支持向量机对训练样本集中的所有训练样本进行映射,根据映射结果统计出所有被错误识别的训练样本,这些被错误识别的训练样本组成一个错误样本集,此处该错误样本集被标记为I1
训练完毕的支持向量机对所有训练样本进行识别后,有可能存在部分训练样本不能被正确地分类识别,这部分训练样本对于支持向量机的训练来说具有负面作用,因此需要进行剔除。为此,利用训练完毕的支持向量机对所有训练样本进行映射,找出被错误识别的训练样本,将这些训练样本组成错误训练样本集,并标记为I1。找出错误训练样本的目的,是在下一次训练支持向量机时在所有训练样本中剔除掉这些错误训练样本,进而在一定程度上提高了支持向量机的分类准确率。
第4步按照向量w中的每一个分量的绝对值的大小对向量w中的每一个分量进行排序,向量分量的绝对值越大,其重要性越高。
本实例中,对分类边界权系数向量w=[ω1,ω2,...,ω10]中的每一个分量按照其绝对值大小排序,绝对值越大,其重要性越高。
第5步找出w中重要性最小的的分量,剔除掉该最小分量对应的所有训练样本数据中那个维度上的数据,从而使所有训练样本的维度均减少到n-1;
本实例中,分类边界权系数向量w=[ω1,ω2,...,ω10]具有10个分量,每一个分量对应着所有训练样本同样维度上的值。假设ω2的绝对值在10个分量中最小,则剔除掉该最小分量对应的所有训练样本数据中那个维度上的数据:即当ω2的绝对值最小时,剔除该最小分量对应的所有训练样本数据中第二个维度上的数据。如果是ω3的绝对值在10个分量中最小,则剔除掉该最小分量对应的所有训练样本数据中第三个维度上的数据,其余以此类推。
第6步利用第4步中得到的维度为n-1的所有训练样本进行支持向量机训练,即重复第2步至第5步的过程,重复m次(一般情况下,2=<m<[n/2])。即一共可以得到m个错误样本集,训练样本的维度减少到n-m。
在本实例中,取m=2,即重复第2步至第5步两次,则一共可以得到两个错误样本集I1、I2,训练样本的维度减少到10-2=8维。在每一次重复第2步至第5步时,都会剔除掉所有训练样本中的某一个维度,并且得到一个错误训练样本集,以此类推,重复第2步至第5步多少次,就可以得到多少个错误训练样本集,并且就可以剔除所有训练样本多少个维度。训练的次数m是由用户指定,一般情况下,m<[n/2]。
第7步找出m个错误样本集中共同的错误训练样本,并从第6步中获得的所有n-m维训练样本中剔除掉这些错误训练样本。对剩余的训练样本进行支持向量机训练,该支持向量机即为最优支持向量机,从而保证了最优的分类精度。
在本实例中,找出第6步中获得的两个错误样本集I1、I2中共同的错误样本,示意图如图4所示,其中F为所有的错误训练样本集,G为在所有错误训练样本集中找出的共同的错误训练样本。假设有3个,则在所有训练样本中剔除掉这3个共同的错误样本,即剩余12-3=9个训练样本。并且,由第6步可知,样本的维度减少为8维。接下来,将这9个维度为8的训练样本进行支持向量机训练,该支持向量机即为最优支持向量机,从而保证了最优的分类精度。
本发明的内容适用于任何提高二分类支持向量机分类精度的领域。
以上所述为本发明的较佳实施例而已,但本发明不应该局限于该实施例和附图所公开的内容。所以凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (1)

1.一种提高二分类支持向量机分类精度的方法,该方法包括下述步骤:
第1步在待分类的样本空间中获取训练样本,每一类样本空间对应一个训练样本集合,每一个训练样本集合中的每一个样本描述为向量形式,设向量的长度为n,即训练样本具有n个维度;每一个训练样本集合具有p个训练样本,两个训练样本集合则有2p个训练样本;
第2步利用训练样本集进行支持向量机训练,当支持向量机训练完毕,获取分类边界权系数向量w,其中w=[ω1,ω2,...,ωn],为一个维度为n的向量,其每一个向量分量对应于训练样本的一个维度上的数据;
第3步利用第2步中训练得到的支持向量机对训练样本集中的所有训练样本进行映射,根据映射结果统计出所有被错误识别的训练样本,这些被错误识别的训练样本组成一个错误样本集,该错误样本集被标记为I1
第4步按照向量w中的每一个分量的绝对值的大小对向量w中的每一个分量进行排序,向量分量的绝对值越大,其重要性越高;
第5步找出向量w中重要性最小的的分量,剔除掉该最小分量对应的所有训练样本数据中那个维度上的数据,从而使所有训练样本的维度均减少到n-1;
第6步利用第4步中得到的维度为n-1的所有训练样本进行支持向量机训练,即重复第2步至第5步的过程,重复预先设定m次,即得到m个错误样本集,训练样本的维度减少到n-m;
第7步找出m个错误样本集中共同的错误训练样本,并从第6步中获得的所有n-m维训练样本中剔除掉这些错误训练样本;对剩余的训练样本进行支持向量机训练,该支持向量机即为最优支持向量机。
CN2012105446698A 2012-12-13 2012-12-13 一种提高二分类支持向量机分类精度的方法 Pending CN103065154A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105446698A CN103065154A (zh) 2012-12-13 2012-12-13 一种提高二分类支持向量机分类精度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105446698A CN103065154A (zh) 2012-12-13 2012-12-13 一种提高二分类支持向量机分类精度的方法

Publications (1)

Publication Number Publication Date
CN103065154A true CN103065154A (zh) 2013-04-24

Family

ID=48107777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105446698A Pending CN103065154A (zh) 2012-12-13 2012-12-13 一种提高二分类支持向量机分类精度的方法

Country Status (1)

Country Link
CN (1) CN103065154A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615989A (zh) * 2015-02-05 2015-05-13 北京邮电大学 一种室外昼夜区分方法
CN116580025A (zh) * 2023-07-12 2023-08-11 宁德时代新能源科技股份有限公司 缺陷过滤方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599126A (zh) * 2009-04-22 2009-12-09 哈尔滨工业大学 利用全局互信息加权的支持向量机分类器
CN102663417A (zh) * 2012-03-19 2012-09-12 河南工业大学 一种小样本数据模式识别的特征选择方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599126A (zh) * 2009-04-22 2009-12-09 哈尔滨工业大学 利用全局互信息加权的支持向量机分类器
CN102663417A (zh) * 2012-03-19 2012-09-12 河南工业大学 一种小样本数据模式识别的特征选择方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
EDDY MAYORAZ 等: "Support Vector Machines for Multi-class Classification", 《INTERNATIONAL WORK-CONFERENCE ON ARTIFICAL AND NATURAL NEURAL NETWORKS》, 24 June 1999 (1999-06-24) *
ISABELLE GUYON 等: "Gene Selection for Cancer Classification using Support Vector Machines", 《MACHINE LEARNING》, 2 January 2002 (2002-01-02) *
MICHAEL R.SMITH 等: "Improving Classification Accuracy by Identifying and Removing Instances that Should Be Misclassified", 《PROCEEDINGS OF INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》, 5 August 2011 (2011-08-05) *
唐发明: "基于统计学习理论的支持向量机算法研究", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》, no. 5, 15 May 2006 (2006-05-15) *
张长开 等: "基于支持向量机的属性优选和储层预测", 《石油地球物理勘探》, vol. 47, no. 2, 15 April 2012 (2012-04-15) *
王圆圆 等: "基于支持向量机(SVM)特征加权/选择的光谱匹配算法", 《光谱学与光谱分析》, vol. 29, no. 3, 15 March 2009 (2009-03-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615989A (zh) * 2015-02-05 2015-05-13 北京邮电大学 一种室外昼夜区分方法
CN104615989B (zh) * 2015-02-05 2018-06-15 北京邮电大学 一种室外昼夜区分方法
CN116580025A (zh) * 2023-07-12 2023-08-11 宁德时代新能源科技股份有限公司 缺陷过滤方法、装置、计算机设备和存储介质
CN116580025B (zh) * 2023-07-12 2024-04-02 宁德时代新能源科技股份有限公司 缺陷过滤方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
Wang et al. Evolving deep convolutional neural networks by variable-length particle swarm optimization for image classification
CN100595780C (zh) 一种基于模块神经网络的手写体数字自动识别方法
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
CN103617429A (zh) 一种主动学习分类方法和系统
CN105956560A (zh) 一种基于池化多尺度深度卷积特征的车型识别方法
CN102982349A (zh) 一种图像识别方法及装置
Lin et al. Stochastic coordinate coding and its application for drosophila gene expression pattern annotation
CN107122382A (zh) 一种基于说明书的专利分类方法
CN103366180A (zh) 一种基于自动特征学习的细胞图像分割方法
CN101833671A (zh) 一种基于支持向量机的表面肌电信号多类别模式识别方法
CN103258210A (zh) 一种基于字典学习的高清图像分类方法
CN104765839A (zh) 一种基于属性间相关系数的数据分类方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN103279746B (zh) 一种基于支持向量机的人脸识别方法及系统
CN103235947B (zh) 一种手写体数字识别方法及装置
CN104616029A (zh) 数据分类方法及装置
CN105389480A (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN103617435A (zh) 一种主动学习图像分类方法和系统
CN103020321B (zh) 近邻搜索方法与系统
CN101295362A (zh) 结合支持向量机以及近邻法的模式分类方法
CN110046941A (zh) 一种人脸识别方法、系统及电子设备和存储介质
CN102411592B (zh) 一种文本分类方法和装置
CN110188196A (zh) 一种基于随机森林的文本增量降维方法
CN103310205B (zh) 一种手写体数字识别方法及装置
CN107451617A (zh) 一种图转导半监督分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130424