CN103198052A - 一种基于支持向量机的主动学习方法 - Google Patents

一种基于支持向量机的主动学习方法 Download PDF

Info

Publication number
CN103198052A
CN103198052A CN2013101222442A CN201310122244A CN103198052A CN 103198052 A CN103198052 A CN 103198052A CN 2013101222442 A CN2013101222442 A CN 2013101222442A CN 201310122244 A CN201310122244 A CN 201310122244A CN 103198052 A CN103198052 A CN 103198052A
Authority
CN
China
Prior art keywords
sample
mark
candidate samples
support vector
vector machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101222442A
Other languages
English (en)
Other versions
CN103198052B (zh
Inventor
冷严
徐新艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201310122244.2A priority Critical patent/CN103198052B/zh
Publication of CN103198052A publication Critical patent/CN103198052A/zh
Application granted granted Critical
Publication of CN103198052B publication Critical patent/CN103198052B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明具体公开了一种基于支持向量机的主动学习方法。该方法在主动学习的每轮迭代过程中,从距离支持向量机分类器的分类面较近的样本中进一步挖掘样本的信息量,进而挑选信息含量更大的样本进行人工标注,以达到提高分类器的分类性能,减少人工标注工作量的目的。考虑到支持向量机边界(margin)内的样本距离分类面较近,本发明实施例将支持向量机边界内的样本作为信息含量较大的候选样本。在这些候选样本中,本发明实施例进一步选择那些处在两类边界概率较大的样本作为信息含量更大的样本交由专家进行人工标注。

Description

一种基于支持向量机的主动学习方法
技术领域
本发明涉及机器学习领域,特别是一种基于支持向量机的主动学习方法。
背景技术
在机器学习领域,训练一个具有良好分类性能的分类器需要大量已经标注好的样本参与训练。然而标注样本并不是越多越好,过多的标注样本可能会产生冗余,增加计算的工作量;而且,大量的已标注样本中并不是每个样本都是对分类器的训练有用的。那些信息含量大的样本,由于其对提高分类器性能的贡献大,因而是有用的样本,是值得我们标注的样本。因此,在进行样本标注时,除了要保证一定的数量以外,还应该保证标注样本的质量,这样不但能提高分类器的分类性能,而且可以减少人工标注的工作量。挑选最有用的样本进行人工标注,这正是主动学习技术的核心所在。
主动学习是当前机器学习领域的一个研究热点。所有的主动学习方法都需要对未标注样本的信息量大小进行评价,以挑选信息量大的样本交由专家标注。根据评价策略的不同,主动学习方法主要分为以下几类:
(1)基于不确定性采样的主动学习;
(2)基于委员会的主动学习;
(3)基于预期误差缩减的主动学习;
本发明是基于支持向量机的主动学习方法,属于基于不确定性采样的主动学习范畴。
支持向量机(support vector machines,SVM)是一个二值分类器。Tong&Koller在对称版本空间的假设下证明了距离SVM的分类面最近的样本其信息含量最大,因为此样本能迅速缩减版本空间。但是herbrich指出,现实中许多情况都难以很好地满足对称版本空间这一假设,因此距离分类面最近的样本的信息含量并没有我们预期的那么大。有鉴于此,本发明在样本与分类面距离的基础上进一步挖掘样本的信息量,以找到信息量更大的样本交由专家标注。
发明内容
为了在样本与分类面距离的基础上进一步挖掘样本的信息量,以采样信息量更大的样本,本发明具体公开了一种基于支持向量机的主动学习方法。
本发明采用的技术方案如下:
一种基于支持向量机的主动学习方法,包括以下步骤:
步骤1用初始已标注样本集L训练初始SVM分类器;
步骤2用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本,组成候选样本集S;
步骤3从候选样本集S中挑选信息含量最大的样本交给专家标注;
步骤4将专家标注后的样本放入已标注样本集L中;
步骤5用更新的已标注样本集L重新训练SVM分类器;
步骤6根据停止准则判断是退出循环还是继续迭代。
所述的步骤2中,用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本,组成候选样本集S的方法如下:以SVM分类器边界(margin)内的样本作为候选样本,组成候选样本集S,即:
S={xi|xi∈U,且|f(xi)|<1}
放入候选样本集S中的样本应同时从未标注样本集U中移除。
所述步骤3中,从候选样本集S中挑选信息含量最大的样本的方法如下:首先对候选样本集S中的每个样本xi,从已标注样本集L中寻找其K个最近邻样本,记作
Figure BDA00003027170900021
假设这K个最近邻样本中,正类样本的数目为ki +,负类样本的数目为ki -,求两者中的最小值,即:
k i = min { k + i , k - i }
最后,从候选样本集S中寻找ki值最大的那个未标注样本作为信息含量最大的样本,并将其交由专家进行人工标注,而对于候选样本集S中其余的样本,应当将其从候选样本集S中移除,并重新放回未标注样本集U中。
所述步骤6中,停止准则的设定方法如下:采用最大迭代次数作为停止准则,即设定迭代次数的最大值,当迭代次数达到此最大值时则停止迭代。最大迭代次数的取值可以根据标注专家对标注工作量的接受程度来定,即,如果标注专家在主动学习的迭代过程中最多愿意标注I个样本,则最大迭代次数的取值即设定为I。
本发明的有益效果:
1)本发明实施例提出的基于支持向量机的主动学习方法在用于支持向量机分类器的训练时能大幅度减少人工标注的工作量;
2)和单纯的基于样本与分类面的距离来选择人工标注样本的方法相比,本发明实施例提出的方法能选择到信息量更大的样本,因而能加快SVM分类器的收敛,提高SVM分类器的分类性能。
附图说明
图1是本发明实施例提出的基于支持向量机的主动学习方法的流程图;
图2是从未标注样本集U中挑选信息含量相对较大的候选样本,进而组成候选样本集S的流程图;
图3是从候选样本集S中挑选信息含量最大的样本的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提出的基于支持向量机的主动学习方法的流程图,具体包括如下6个步骤:(1)用初始已标注样本训练初始SVM分类器;(2)用SVM分类器从未标注样本集U中寻找信息含量相对较大的候选样本,组成候选样本集S;(3)从S中挑选信息含量最大的样本交给专家标注;(4)将标注后的样本放入已标注样本集L中;(5)用更新的已标注样本集L重新训练SVM分类器;(6)根据停止准则判断是退出循环还是继续迭代。下面首先介绍一下支持向量机的原理,然后再详细阐述以上6部分内容。
支持向量机(Support Vector Machines,SVM)原理:
SVM是一种判别式两类分类器,其决策函数可以表达为:
f(x)=wTφ(x)+b      (1)
w和b分别表示权值向量和偏斜量。φ(·)是非线性映射函数,用于将低维空间线性不可分的样本映射到高维空间,使得样本在高维空间中线性可分。f(x)=wTφ(x)+b=0所表示的超平面即为SVM的分类面。f(x)=wTφ(x)+b=±1所表示的超平面称为SVM分类器的边界(margin)。
对于两类分类问题,设在d维空间中有一组训练样本xi∈Rdi=1,...,N,样本的类别标签为yi∈{+1,-1}。SVM就是要寻找一个最优分类面,使得该分类面既能最大化分类间隔
Figure BDA00003027170900031
又能正确分类训练样本xi∈Rdi=1,...,N。具体可以表述为:
min ω , b , ξ 1 2 ω T ω + C Σ i = 1 N ξ i - - - ( 2 )
subject to yiTφ(xi)+b)≥1-ξii≥0,i=1,...,N
其中,ξi代表松弛变量。C是惩罚因子,用来控制对松弛变量ξi的惩罚程度。通过拉格朗日乘子法求解公式(2)中的优化问题可得:
ω = Σ i = 1 N α i y i φ ( x i ) - - - ( 3 )
其中,αi是拉格朗日乘子。公式(3)中有相当多的αi值会等于0,而那些αi值不等于0的样本被称之为支持向量。将(3)式代入(1)式后可将SVM的决策函数重写为:
f ( x ) = ω T φ ( x ) + b = Σ i = 1 M α i y i φ ( x i ) T φ ( x ) + b - - - ( 4 )
其中,M表示支持向量的个数。φ(xi)Tφ(x)的值可以通过核函数k(xi,x)=φ(xi)Tφ(x)求得,而不需知道映射函数φ(·)的显式表达式。本实施例中的核函数采用的是径向基核函数,即:
k(xi,x)=exp(-γ||xi-x||2)       (5)
对于任一测试样本x,将其代入SVM分类器,则样本的分类标签y可由下式得到:
y=sgn(f(x))         (6)
即,f(x)>0,则样本x属于+1类;f(x)<0,则样本x属于-1类。
(1)用初始已标注样本训练初始SVM分类器
主动学习是一个循环迭代的过程,在迭代开始之前首先需要标注少量样本,然后用这些初始的已标注样本训练一个初始SVM分类器。本实施例假设已经有一个初始已标注样本集,然后用其训练了一个初始SVM分类器。初始已标注样本放入已标注样本集L中,形成了L的初始值。其余未标注的样本组成了未标注样本集,用U表示。
(2)用SVM分类器从未标注样本集U中寻找信息含量相对较大的候选样本,组成候选样本集S
附图2给出了从未标注样本集U中挑选信息含量相对较大的候选样本,进而组成候选样本集S的流程图。距离SVM分类器的分类面相对较近的样本,由于其能近似平分版本空间,因此其信息含量相对较大。SVM分类器边界(margin)内的样本由于距离分类面相对较近,所以其信息含量相对较大。因此本实施例以边界(margin)内的样本作为候选样本,组成候选样本集S,即:
S={xi|xi∈U,且|f(xi)|<1}      (7)
放入候选样本集S中的样本应同时从未标注样本集U中移除。
(3)从S中挑选信息含量最大的样本交给专家标注
附图3给出了从候选样本集S中挑选信息含量最大的样本的结构框图。首先对S中的每个样本xi,从已标注样本集L中寻找其K个最近邻样本,记作
Figure BDA00003027170900051
假设这K个最近邻样本中,正类样本的数目为ki +,负类样本的数目为ki -,求两者中的最小值,即:
k i = min { k + i , k - i } - - - ( 8 )
最后,从S中寻找ki值最大的那个未标注样本作为信息含量最大的样本,并将其交由专家进行人工标注,而对于S中其余的样本,应当将其从S中移除,并重新放回未标注样本集U中。
ki值越大的未标注样本,其周围分布的正类样本和负类样本越均匀,这代表该未标注样本处在两类边界的概率越大,而类边界上的样本能帮助SVM分类器迅速找到真正的分类面,因而其信息含量也就越大。S中ki值最大的样本,一方面其离SVM分类面的距离较近,这在一定程度上能保证其信息量相对较大;另一方面,其ki值大,这从边界样本的角度进一步保证了其具有大的信息量。将这种样本进行标注后加入训练集中必将能较明显地提高分类器的分类性能。
(4)将标注后的样本放入已标注样本集L中
(5)用更新的已标注样本集L重新训练SVM分类器
(6)根据停止准则判断是退出循环还是继续迭代
本实施例采用最大迭代次数作为停止准则,即设定迭代次数的最大值,当迭代次数达到此最大值时则停止迭代。最大迭代次数的取值可以根据标注专家对标注工作量的接受程度来定,即,如果标注专家在主动学习的迭代过程中最多愿意标注I个样本,则最大迭代次数的取值即设定为I。
判断当前主动学习的循环迭代是否满足以上停止准则,满足则退出循环,输出训练好的SVM分类器,否则转入步骤(2),进入下一轮迭代。

Claims (4)

1.一种基于支持向量机的主动学习方法,其特征在于,包括以下步骤:
步骤1用初始已标注样本集L训练初始SVM分类器;
步骤2用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本,组成候选样本集S;
步骤3从候选样本集S中挑选信息含量最大的样本交给专家标注;
步骤4将专家标注后的样本放入已标注样本集L中;
步骤5用更新的已标注样本集L重新训练SVM分类器;
步骤6根据停止准则判断是退出循环还是继续迭代。
2.如权利要求1所述的一种基于支持向量机的主动学习方法,其特征在于,用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本,组成候选样本集S的方法如下:以SVM分类器边界内的样本作为候选样本,组成候选样本集S,即:
S={xi|xi∈U,且|f(xi)|<1}
放入候选样本集S中的样本应同时从未标注样本集U中移除。
3.如权利要求1所述的一种基于支持向量机的主动学习方法,其特征在于,所述步骤3中,从候选样本集S中挑选信息含量最大的样本的方法如下:首先对候选样本集S中的每个样本xi,从已标注样本集L中寻找其K个最近邻样本,记作
Figure FDA00003027170800011
假设这K个最近邻样本中,正类样本的数目为ki +,负类样本的数目为ki -,求两者中的最小值,即:
k i = min { k + i , k - i }
最后,从候选样本集S中寻找ki值最大的那个未标注样本作为信息含量最大的样本,并将其交由专家进行人工标注,而对于候选样本集S中其余的样本,应当将其从候选样本集S中移除,并重新放回未标注样本集U中。
4.如权利要求1所述的一种基于支持向量机的主动学习方法,其特征在于,所述步骤6中,停止准则的设定方法如下:采用最大迭代次数作为停止准则,即设定迭代次数的最大值,当迭代次数达到此最大值时则停止迭代;最大迭代次数的取值可以根据标注专家对标注工作量的接受程度来定,即,如果标注专家在主动学习的迭代过程中最多愿意标注I个样本,则最大迭代次数的取值即设定为I。
CN201310122244.2A 2013-04-09 2013-04-09 一种基于支持向量机的主动学习方法 Expired - Fee Related CN103198052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310122244.2A CN103198052B (zh) 2013-04-09 2013-04-09 一种基于支持向量机的主动学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310122244.2A CN103198052B (zh) 2013-04-09 2013-04-09 一种基于支持向量机的主动学习方法

Publications (2)

Publication Number Publication Date
CN103198052A true CN103198052A (zh) 2013-07-10
CN103198052B CN103198052B (zh) 2015-08-26

Family

ID=48720622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310122244.2A Expired - Fee Related CN103198052B (zh) 2013-04-09 2013-04-09 一种基于支持向量机的主动学习方法

Country Status (1)

Country Link
CN (1) CN103198052B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793510A (zh) * 2014-01-29 2014-05-14 苏州融希信息科技有限公司 一种基于主动学习的分类器构建方法
CN109857653A (zh) * 2019-01-17 2019-06-07 南通大学 一种基于主动学习的无监督缺陷程序模块识别方法
CN111751714A (zh) * 2020-06-11 2020-10-09 西安电子科技大学 一种基于svm和hmm的射频模拟电路故障诊断方法
WO2022237215A1 (zh) * 2021-05-11 2022-11-17 华为云计算技术有限公司 模型训练方法、系统、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030233369A1 (en) * 2002-06-17 2003-12-18 Fujitsu Limited Data classifying device, and active learning method used by data classifying device and active learning program of data classifying device
CN101295362A (zh) * 2007-04-28 2008-10-29 中国科学院国家天文台 结合支持向量机以及近邻法的模式分类方法
US20090287622A1 (en) * 2008-05-15 2009-11-19 Harry Wechsler System and Method for Active Learning/Modeling for Field Specific Data Streams
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102270192A (zh) * 2011-07-27 2011-12-07 浙江工业大学 一种基于svm主动学习的多标签分类控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030233369A1 (en) * 2002-06-17 2003-12-18 Fujitsu Limited Data classifying device, and active learning method used by data classifying device and active learning program of data classifying device
CN101295362A (zh) * 2007-04-28 2008-10-29 中国科学院国家天文台 结合支持向量机以及近邻法的模式分类方法
US20090287622A1 (en) * 2008-05-15 2009-11-19 Harry Wechsler System and Method for Active Learning/Modeling for Field Specific Data Streams
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102270192A (zh) * 2011-07-27 2011-12-07 浙江工业大学 一种基于svm主动学习的多标签分类控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冷严: "复杂音频的事件检测与分类中的关键问题研究", 《中国博士学位论文全文数据库信息科技辑》, 15 January 2013 (2013-01-15) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793510A (zh) * 2014-01-29 2014-05-14 苏州融希信息科技有限公司 一种基于主动学习的分类器构建方法
CN103793510B (zh) * 2014-01-29 2017-10-03 苏州融希信息科技有限公司 一种基于主动学习的分类器构建方法
CN109857653A (zh) * 2019-01-17 2019-06-07 南通大学 一种基于主动学习的无监督缺陷程序模块识别方法
CN109857653B (zh) * 2019-01-17 2022-02-25 南通大学 一种基于主动学习的无监督缺陷程序模块识别方法
CN111751714A (zh) * 2020-06-11 2020-10-09 西安电子科技大学 一种基于svm和hmm的射频模拟电路故障诊断方法
WO2022237215A1 (zh) * 2021-05-11 2022-11-17 华为云计算技术有限公司 模型训练方法、系统、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN103198052B (zh) 2015-08-26

Similar Documents

Publication Publication Date Title
CN103150578A (zh) 一种基于半监督学习的支持向量机分类器训练方法
CN107563439A (zh) 一种识别清洗食材图片的模型及识别食材类别的方法
Nowak et al. The CLEF 2011 Photo Annotation and Concept-based Retrieval Tasks.
Fang et al. Self-taught active learning from crowds
CN104156438A (zh) 一种基于置信度和聚类的未标记样本选择的方法
CN106503255A (zh) 基于描述文本自动生成文章的方法及系统
CN101620615B (zh) 一种基于决策树学习的自动图像标注与翻译的方法
CN104463101A (zh) 用于文字性试题的答案识别方法及系统
CN108629367A (zh) 一种基于深度网络增强服装属性识别精度的方法
CN105512289A (zh) 基于深度学习和哈希的图像检索方法
CN105787513A (zh) 多示例多标记框架下基于域适应迁移学习设计方法和系统
CN102708164B (zh) 电影期望值的计算方法及系统
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN103198052A (zh) 一种基于支持向量机的主动学习方法
CN106156805A (zh) 一种样本标签缺失数据的分类器训练方法
CN102842043B (zh) 基于自动聚类的粒子群优化分类方法
CN108416382A (zh) 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN106127197A (zh) 一种基于显著标签排序的图像显著性目标检测方法
CN107045640A (zh) 一种用于图像识别的基于邻域保持和核子空间对齐的方法
CN102831129B (zh) 一种基于多示例学习的检索方法及系统
CN102024030A (zh) 基于最大期望参数估计的多分类器集成方法
CN105469114A (zh) 一种提高K-means收敛速度的方法
CN106647272A (zh) 基于k均值改进卷积神经网络的机器人路径规划方法
CN102646198B (zh) 具有层次结构的混合线性svm分类器的模式识别方法
CN104881639A (zh) 一种基于层次tdp模型的人脸检测、分割和表情识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150826

Termination date: 20160409

CF01 Termination of patent right due to non-payment of annual fee