CN102270192A - 一种基于svm主动学习的多标签分类控制方法 - Google Patents
一种基于svm主动学习的多标签分类控制方法 Download PDFInfo
- Publication number
- CN102270192A CN102270192A CN2011102117849A CN201110211784A CN102270192A CN 102270192 A CN102270192 A CN 102270192A CN 2011102117849 A CN2011102117849 A CN 2011102117849A CN 201110211784 A CN201110211784 A CN 201110211784A CN 102270192 A CN102270192 A CN 102270192A
- Authority
- CN
- China
- Prior art keywords
- sample
- interval
- class
- classification
- expectation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及一种多标签分类方法。
背景技术
信息时代的到来,使得大量信息开始以计算机可读的形式存在,并且数量急剧增加。但是这些信息鱼龙混杂,很多有意义的数据都被大量的垃圾信息所淹没,如何从这些信息中自动分类出有用的信息将是一个重要的课题。
在传统的分类问题中,都是假定一个样本只属于一个类标签。但是由于客观事物本身的复杂性,一个样本可以同时拥有多个标签。在所有的多标签学习框架中,每个样本与一个标签集合相关联,多标签学习的任务就是要为未知样本预测其标签集,且标签集的大小是未知的。
监督的学习方法在分类领域得到了广泛的应用,但要想在这种方法下得到一个比较满意的分类模型则需要大量的训练数据。而构造多标签训练样本集则需要耗费领域专家巨大的工作量。同时,训练样本过多将使得学习过程变慢,甚至变得难以接受,而主动学习能有效的克服这两个瓶颈。它根据现有的分类模型,采用某种样本选择策略,迭代的选择一些最有价值的样本进行标记,能最快的改进现有模型的分类性能。支持向量机(SVM:Support Vector Machine)是在上世纪90年代以来逐渐被人们广泛应用的一种统计学习方法,是一种基于统计学习理论的新型的分类技术。支持向量机最突出的优点在于它强大的推广能力,在解决小样本、非线性和高维等模式识别问题中表现出许多特有的优势,是一种可以进行累积学习的学习模型。
目前,关于SVM主动学习的多标签分类技术还比较少,主要关注点还停留在单标签的主动学习上。据了解,国内最新且最有价值的关于多标签的研究就是杨碧姗的文章,先估计样本在每个标签上的后验概率并排序,接着利用逻辑回归预测标签的数目,然后近似的确定样本标签,据此来构造损失函数并作为样本的选择策略。而国内其他文章几乎都是针对多类的研究。比如袁勋等利用每个类别的后验概率构造样本置信度,以此作为样本选择依据,宋鑫颖等通过减少非支持向量来保证训练速度。国外最早使用SVM方法来解决多标签主动学习的是Xuchun Li,他利用在相邻两个循环中期望损失下降的程度作为分类器改进的标志。使用了最大平均损失值和最大损失值两种计算方法。Brinker利用的选择策略是依据所有二分类支持向量机的输出绝对值的最小值,以期能够最大限度的约简版本空间。由于不同的分类器间输出的值不具有直接可比性,所以Mohan Singh等提出了一种利用后验概率来选择样本的方法。
发明内容
为了克服已有的多标签分类方法的计算速度较慢、主动学习效果较差的不足,本发明提供一种计算速度快、模型合理、主动学习效果较好的基于SVM主动学习的多标签分类控制方法。
本发明解决其技术问题所采用的技术方案是:
一种基于SVM主动学习的多标签分类控制方法,所述多标签分类控制方法包括以下步骤:
1)选择样本,过程如下:
1.1)首先确定两条边界线之间的距离:在高维空间中的分类间隔;
1.2)对每个未知样本计算其决策值:将未知样本代入分类器,计算在高维空间中离分隔线间的距离;
1.3)计算每个样本所对应的后验概率值,包括正类的概率和负类的概率,分别表示为P(y=1|x)和P(y=-1|x);
1.4)根据期望间隔公式计算期望间隔的大小,若样本估计为正类时,则对应的间隔为: 若样本估计为负类的时候,则对应的间隔为
1.5)对某个特定的未知样本,其对应的期望间隔由下述公式计算得到EM=Margin+*P(y=1|x)+Margin-*P(y=-1|x);
1.6)确定好样本选择标准后,使用如下公式来选择最有价值的样本:
2)确定样本后,设定未带类别标注的候选样本集U、带类别标注的测试集L、每次从U中选取固定的样本数和主动学习循环的次数,分类过程如下:
2.1)从候选样本集U中选择n个样本并正确标注其类标号,构造初始训练样本集T,保证T中每个类别各有一个样本;
2.2)根据训练集T,构造SVM分类器f;
2.3)对U中所有样本使用当前分类器f进行计算,求得其决策值;
2.4)依据f值和sigmoid函数求得样本属于正类和负类的后验概率值;
2.5)根据后验概率和决策值,利用期望间隔公式求得期望间隔的大小;
2.6)依据公式(1)的标准从样本集U中选择额定数目的样本;
2.7)将步骤2.6)所选择的样本集正确标注后加入到训练集T中,同时从U中舍去此样本集;
2.8)若检测循环达到预定次数时,分类终止,并返回分类器f,否则重复步骤2.2)。
本发明的技术构思为:基于SVM分类器的构建就是寻求最大化分类间隔,因此在样本较少的情况下自然会使得样本间的间隔扩大化了,而且会远远大于实际间隔,从而导致了分类器在预测过程中会做出错误的判断。我们需要找到某种方法来尽快的缩减样本间的间隔大小。为此本发明提出了一种基于期望间隔大小选择策略的主动学习方法,依据当前样本集,能够迅速的缩小分类间隔,以求尽快的提高分类性能。根据图1,我们对本发明的原理进行阐述:当所选择的未知样本为正类的时候(图中空心圆),超平面将会向负类方向移动,由原支持向量所确定的分类间隔的正边界线可以由图1中的f(x)=1近似为到f′(x)=1,超平面也由S1近似成S2,而负边线的位置却不会有太大的改变,由此分类间隔可近似为(M argin为上一次分类间隔的大小)。反之,当样本为负类的时候,近似的原理也类似,故而不做重复的分析。对于任意一个未标记的样本,我们可以先估计它分别属于正类和负类的后验概率值,从而可以得到估计的分类间隔。
本发明的有益效果主要表现在:操作简单;计算速度快,特别是对于多标签情况;学习速度快;不依赖于径向基核函数。
附图说明
图1是期望间隔原理图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于SVM主动学习的多标签分类控制方法,所述多标签分类控制方法包括以下步骤:
1)选择样本,过程如下:
1.1)首先确定两条边界线之间的距离:在高维空间中的分类间隔;
1.2)对每个未知样本计算其决策值:将未知样本代入分类器,计算在高维空间中离分隔线间的距离;
1.3)计算每个样本所对应的后验概率值,包括正类的概率和负类的概率,分别表示为P(y=1|x)和P(y=-1|x);
1.4)根据期望间隔公式计算期望间隔的大小,若样本估计为正类时,则对应的间隔为: 若样本估计为负类的时候,则对应的间隔为
1.5)对某个特定的未知样本,其对应的期望间隔由下述公式计算得到EM=Margin+*P(y=1|x)+Margin-*P(y=-1|x);
1.6)确定好样本选择标准后,使用如下公式来选择最有价值的样本:
2)确定样本后,设定未带类别标注的候选样本集U、带类别标注的测试集L、每次从U中选取固定的样本数和主动学习循环的次数,分类过程如下:
2.1)从候选样本集U中选择n个样本并正确标注其类标号,构造初始训练样本集T,保证T中每个类别各有一个样本;
2.2)根据训练集T,构造SVM分类器f;
2.3)对U中所有样本使用当前分类器f进行计算,求得其决策值;
2.4)依据f值和sigmoid函数求得样本属于正类和负类的后验概率值;
2.5)根据后验概率和决策值,利用期望间隔公式求得期望间隔的大小;
2.6)依据公式(1)的标准从样本集U中选择额定数目的样本;
2.7)将步骤2.6)所选择的样本集正确标注后加入到训练集T中,同时从U中舍去此样本集;
2.8)若检测循环达到预定次数时,分类终止,并返回分类器f,否则重复步骤2.2)。
本实施例中,使用的SVM训练程序、后验概率的计算方法、数据集等均来自台湾大学林智仁教授等的成果,其中训练集、测试集为scene数据集。
1.首先把多标签的样本转变成单标签的样本。比如0、4标签集转换成0号标签,0、5标签集转换成1号标签。通过转换之后有14个不同的标签代表每个标签集合。
2.再从训练集每个标签类中选择第一个样本,作为起始训练样本集,并得到91个分类器。
3.用分类器对训练集的剩余标签计算每个样本的分类价值。如对scene训练集中的第一个样本进行相应计算,由于采用的是1-versus-1方法,需要对任意两个标签进行比较,可以得到以下数据。当是0标签和1标签比较的时候,对应的决策值为0.0250505,属于第0类标签的概率为49.5659%。因此该标签为正类时候的样本的间隔Margin=1.0250505,负类时候的间隔为Margin=0.9749495,则期望间隔的大小可以近似为1.0250505*49.5659%+0.9749495*0.504341=0.999782512。当时0标签和2标签比较的时候,同样可得,对应的决策值为0.0446003,属于第0类标签的概率为0.492272,则对应的期望间隔大小为0.999311。本例中,我们没有考虑软间隔问题,同时我们假定当决策值大于1的时候,认为未知样本对分类器分类性能的改进没有帮助,也就不计算该样本的期望间隔,不参与后期的最小期望间隔的比较。接下去需要对剩余的89组分类器计算期望间隔大小。再接着从91个间隔数据中挑选出最小的期望的间隔大小作为该样本的期望间隔大小,本例中该样本的分类价值为0.996563,再参与所有样本中的大小比较,选择间隔最小的20个样本作为最有价值的样本,再加入训练样本组,重新得到分类器。循环迭代,直到满足设定的停止条件。
4.对本方法的性能做初步的实验对比。每次循环选择20个样本,共循环10次,采用scene数据集中的测试样本集。若利用最小期望间隔方法,可以得到每次循环时,每组分类器能正确分类测试集的样本个数为:165,246,354,439,563,514,449,536,548,528,531。与此对比的最小决策值的方法能正确预测样本个数为:132,195,197,323,330,348,363,383,398,374,403。可以得到,基于期望间隔的方法性能远远好于基于最小决策值的主动学习方法。
Claims (1)
1.一种基于SVM主动学习的多标签分类控制方法,其特征在于:所述多标签分类控制方法包括以下步骤:
1)选择样本,过程如下:
1.1)首先确定两条边界线之间的距离:在高维空间中的分类间隔;
1.2)对每个未知样本计算其决策值:将未知样本代入分类器,计算在高维空间中离分隔线间的距离;
1.3)计算每个样本所对应的后验概率值,包括正类的概率和负类的概率,分别表示为P(y=1|x)和P(y=-1|x);
1.4)根据期望间隔公式计算期望间隔的大小,若样本估计为正类时,则对应的间隔为: 若样本估计为负类的时候,则对应的间隔为
1.5)对某个特定的未知样本,其对应的期望间隔由下述公式计算得到EM=Margin+*P(y=1|x)+Margin-*P(y=-1|x);
1.6)确定好样本选择标准后,使用如下公式来选择最有价值的样本:
2)确定样本后,设定未带类别标注的候选样本集U、带类别标注的测试集L、每次从U中选取固定的样本数和主动学习循环的次数,分类过程如下:
2.1)从候选样本集U中选择n个样本并正确标注其类标号,构造初始训练样本集T,保证T中每个类别各有一个样本;
2.2)根据训练集T,构造SVM分类器f;
2.3)对U中所有样本使用当前分类器f进行计算,求得其决策值;
2.4)依据f值和sigmoid函数求得样本属于正类和负类的后验概率值;
2.5)根据后验概率和决策值,利用期望间隔公式求得期望间隔的大小;
2.6)依据公式(1)的标准从样本集U中选择额定数目的样本;
2.7)将步骤2.6)所选择的样本集正确标注后加入到训练集T中,同时从U中舍去此样本集;
2.8)若检测循环达到预定次数时,分类终止,并返回分类器f,否则重复步骤2.2)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102117849A CN102270192A (zh) | 2011-07-27 | 2011-07-27 | 一种基于svm主动学习的多标签分类控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102117849A CN102270192A (zh) | 2011-07-27 | 2011-07-27 | 一种基于svm主动学习的多标签分类控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102270192A true CN102270192A (zh) | 2011-12-07 |
Family
ID=45052499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102117849A Pending CN102270192A (zh) | 2011-07-27 | 2011-07-27 | 一种基于svm主动学习的多标签分类控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102270192A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945255A (zh) * | 2012-10-18 | 2013-02-27 | 浙江大学 | 跨媒体多视角非完美标签学习方法 |
CN103198052A (zh) * | 2013-04-09 | 2013-07-10 | 山东师范大学 | 一种基于支持向量机的主动学习方法 |
CN103294716A (zh) * | 2012-02-29 | 2013-09-11 | 佳能株式会社 | 用于分类器的在线半监督学习方法和装置及处理设备 |
CN103793510A (zh) * | 2014-01-29 | 2014-05-14 | 苏州融希信息科技有限公司 | 一种基于主动学习的分类器构建方法 |
CN103927394A (zh) * | 2014-05-04 | 2014-07-16 | 苏州大学 | 一种基于svm的多标签主动学习分类方法及系统 |
CN104166706A (zh) * | 2014-08-08 | 2014-11-26 | 苏州大学 | 基于代价敏感主动学习的多标签分类器构建方法 |
CN107679564A (zh) * | 2017-09-20 | 2018-02-09 | 北京百度网讯科技有限公司 | 样本数据推荐方法及其装置 |
CN108229590A (zh) * | 2018-02-13 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种获取多标签用户画像的方法和装置 |
CN110458245A (zh) * | 2019-08-20 | 2019-11-15 | 图谱未来(南京)人工智能研究院有限公司 | 一种多标签分类模型训练方法、数据处理方法及装置 |
CN112840383B (zh) * | 2018-10-24 | 2024-03-08 | 富士通先端科技株式会社 | 纸币检查装置、纸币检查方法及纸币检查程序 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030233369A1 (en) * | 2002-06-17 | 2003-12-18 | Fujitsu Limited | Data classifying device, and active learning method used by data classifying device and active learning program of data classifying device |
CN101295362A (zh) * | 2007-04-28 | 2008-10-29 | 中国科学院国家天文台 | 结合支持向量机以及近邻法的模式分类方法 |
-
2011
- 2011-07-27 CN CN2011102117849A patent/CN102270192A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030233369A1 (en) * | 2002-06-17 | 2003-12-18 | Fujitsu Limited | Data classifying device, and active learning method used by data classifying device and active learning program of data classifying device |
CN101295362A (zh) * | 2007-04-28 | 2008-10-29 | 中国科学院国家天文台 | 结合支持向量机以及近邻法的模式分类方法 |
Non-Patent Citations (2)
Title |
---|
刘瑞阳: "基于SVM期望间隔的多标签分类的主动学习", 《计算机科学》, vol. 38, no. 4, 15 April 2011 (2011-04-15) * |
刘瑞阳: "基于加权SVM主动学习的多标签分类", 《计算机工程》, vol. 37, no. 8, 20 April 2011 (2011-04-20) * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294716B (zh) * | 2012-02-29 | 2016-08-10 | 佳能株式会社 | 用于分类器的在线半监督学习方法和装置及处理设备 |
CN103294716A (zh) * | 2012-02-29 | 2013-09-11 | 佳能株式会社 | 用于分类器的在线半监督学习方法和装置及处理设备 |
CN102945255A (zh) * | 2012-10-18 | 2013-02-27 | 浙江大学 | 跨媒体多视角非完美标签学习方法 |
CN102945255B (zh) * | 2012-10-18 | 2016-06-22 | 浙江大学 | 跨媒体多视角非完美标签学习方法 |
CN103198052A (zh) * | 2013-04-09 | 2013-07-10 | 山东师范大学 | 一种基于支持向量机的主动学习方法 |
CN103198052B (zh) * | 2013-04-09 | 2015-08-26 | 山东师范大学 | 一种基于支持向量机的主动学习方法 |
CN103793510A (zh) * | 2014-01-29 | 2014-05-14 | 苏州融希信息科技有限公司 | 一种基于主动学习的分类器构建方法 |
CN103793510B (zh) * | 2014-01-29 | 2017-10-03 | 苏州融希信息科技有限公司 | 一种基于主动学习的分类器构建方法 |
CN103927394A (zh) * | 2014-05-04 | 2014-07-16 | 苏州大学 | 一种基于svm的多标签主动学习分类方法及系统 |
CN103927394B (zh) * | 2014-05-04 | 2017-06-16 | 苏州大学 | 一种基于svm的多标签主动学习分类方法及系统 |
CN104166706A (zh) * | 2014-08-08 | 2014-11-26 | 苏州大学 | 基于代价敏感主动学习的多标签分类器构建方法 |
CN104166706B (zh) * | 2014-08-08 | 2017-11-03 | 苏州大学 | 基于代价敏感主动学习的多标签分类器构建方法 |
CN107679564A (zh) * | 2017-09-20 | 2018-02-09 | 北京百度网讯科技有限公司 | 样本数据推荐方法及其装置 |
US11640551B2 (en) | 2017-09-20 | 2023-05-02 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for recommending sample data |
CN108229590A (zh) * | 2018-02-13 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种获取多标签用户画像的方法和装置 |
CN108229590B (zh) * | 2018-02-13 | 2020-05-15 | 阿里巴巴集团控股有限公司 | 一种获取多标签用户画像的方法和装置 |
CN112840383B (zh) * | 2018-10-24 | 2024-03-08 | 富士通先端科技株式会社 | 纸币检查装置、纸币检查方法及纸币检查程序 |
CN110458245A (zh) * | 2019-08-20 | 2019-11-15 | 图谱未来(南京)人工智能研究院有限公司 | 一种多标签分类模型训练方法、数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102270192A (zh) | 一种基于svm主动学习的多标签分类控制方法 | |
CN109543203A (zh) | 一种基于随机森林的建筑冷热负荷预测方法 | |
CN108022001A (zh) | 基于pca和分位数回归森林的短期负荷概率密度预测方法 | |
CN103927394A (zh) | 一种基于svm的多标签主动学习分类方法及系统 | |
CN102609714B (zh) | 基于信息增益和在线支持向量机的新型分类器及分类方法 | |
CN105376097A (zh) | 网络流量的一种混合预测方法 | |
CN104573669A (zh) | 图像物体检测方法 | |
CN103116893B (zh) | 基于多示例多标记学习的数字图像标注方法 | |
CN104751182A (zh) | 基于ddag的svm多类分类主动学习算法 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN106855957A (zh) | 基于相似日和最小二乘支持向量机的工厂母线负荷预测 | |
CN107992890B (zh) | 一种基于局部特征的多视角分类器及设计方法 | |
CN106570250A (zh) | 面向电力大数据的微电网短期负荷预测方法 | |
WO2024051524A1 (zh) | 一种水风光发电功率联合预测方法、装置 | |
CN112381248A (zh) | 一种基于深度特征聚类和lstm的配电网故障诊断方法 | |
CN102163285A (zh) | 一种基于主动学习的跨域视频语义概念检测方法 | |
CN115409314A (zh) | 一种基于设备识别的企业实时碳排放计量方法 | |
CN104361135A (zh) | 一种图像检索方法 | |
CN110991729A (zh) | 一种基于迁移学习和多头注意力机制的负荷预测方法 | |
CN103605493A (zh) | 基于图形处理单元的并行排序学习方法及系统 | |
CN109993188B (zh) | 数据标签识别方法、行为识别方法及装置 | |
CN109242039A (zh) | 一种基于候选标记估计的未标记数据利用方法 | |
CN103605631B (zh) | 一种基于支持向量几何意义的增量学习方法 | |
Lei et al. | Coca: Cost-effective collaborative annotation system by combining experts and amateurs | |
CN104573331A (zh) | 一种基于MapReduce的K近邻数据预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20111207 |