CN103886330A - 基于半监督svm集成学习的分类方法 - Google Patents

基于半监督svm集成学习的分类方法 Download PDF

Info

Publication number
CN103886330A
CN103886330A CN201410119304.XA CN201410119304A CN103886330A CN 103886330 A CN103886330 A CN 103886330A CN 201410119304 A CN201410119304 A CN 201410119304A CN 103886330 A CN103886330 A CN 103886330A
Authority
CN
China
Prior art keywords
test sample
sample book
collection
label
book
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410119304.XA
Other languages
English (en)
Other versions
CN103886330B (zh
Inventor
焦李成
刘芳
张丹
王爽
白雪
侯彪
马文萍
马晶晶
杨淑媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201410119304.XA priority Critical patent/CN103886330B/zh
Publication of CN103886330A publication Critical patent/CN103886330A/zh
Application granted granted Critical
Publication of CN103886330B publication Critical patent/CN103886330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于半监督SVM集成学习的分类方法,主要解决现有分类方法对样本分布未知,尤其是样本分布不平衡时分类正确率低和不稳定的问题。其实现步骤是:(1)分别对训练样本集和测试样本集进行归一化;(2)更新归一化后测试样本集中正、负样本的比率,通过局部搜索构造差异性较大的基分类器;(3)用k-means算法对基分类器的分类结果进行聚类;(4)通过集成学习的分类方法获得测试样本集的最终分类结果。本发明通过更新正、负样本比率构造差异性较大的基分类器,利用更多的测试样本正确分类信息,并结合邓恩指标的集成学习的分类方法,提高了分布未知的样本分类正确率和稳定性,可用于模式识别、目标检测和分类的问题。

Description

基于半监督SVM集成学习的分类方法
技术领域
本发明属于图像处理技术领域,特别涉及分布未知的数据分类方法,可用于模式识别、目标检测、分布未知的数据分类。
背景技术
根据学习过程中是否存在有标记的样本,传统的机器学习可以分为监督学习和无监督学习两种。监督学习通过已有的训练样本得到一个最优模型,再利用这个模型将所有的输入映射为相对的输出,对输出进行判断从而实现分类的目的。但在很多实际应用中,由于缺少形成模式类的知识,或者实际工作中的困难,只能利用没有类别标记的样本,即所谓的无监督学习。
半监督学习是监督学习与无监督学习相结合的一种学习方法。同时利用已标记和未标记样本,通过挖掘未标记样本中所蕴含的各个待分类类型在特征空间中的固有结构,从而对训练样本拟合的分类器进行校正,减少因为训练样本代表性不好对分类器拟合造成的偏差。
在实际问题中,有标记的样本是有限的,大量的未标记样本存在于样本集中。为了让大量的未标记样本帮助提高分类器性能,近年来涌现了许多半监督学习算法,半监督支持向量机(Semi-supervised Support Vector Machine)就是其中一个重要的分支,将未标记样本的分布信息引入到了支持向量机SVM的学习中。结合未标记样本的半监督SVM方法的性能较单独使用训练样本有了显著提高。半监督SVM的目标函数是一个难以计算的混合整数规划问题,于是产生了许多求解方法。代表性的方法有直推式支持向量机TSVM,拉普拉斯支持向量机LapSVM,S4VMs等,其中LapSVM主要是通过图的拉普拉斯矩阵来探索数据的流形结构。
TSVM算法在分类之前需要人为设定测试样本集中的正、负样本比例,通常情况下,这个先验知识无法提供也很难估计,应用中常用的做法是用训练样本集中的正、负样本比例估计测试样本集中的正、负样本比例。
S4VMs算法经过多次迭代搜索到多个大间隔的决策面,在不断固定当前分类器决策面参数{w,b},更新测试样本集标签的过程中,需要设定与决策面距离较近的前P%的样本为正类,其他样本为负类。其中P%无法预先确定,需要人为设定或按照训练样本集中样本分布来估计。
上述这两种方法均依赖于样本的分布情况,如果样本分布估计有误,分类器的性能就会急剧下降。
发明内容
本发明的目的在于针对上述已有方法的不足,提出一种基于半监督SVM集成学习的分类方法,以减少由于对数据分布估计不准确带来的误分,提高集成学习的分类正确率和鲁棒性。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)分别对初始训练样本集
Figure BDA0000483149200000021
和测试样本集
Figure BDA0000483149200000022
进行归一化处理,得到归一化后的训练样本集
Figure BDA0000483149200000023
和测试样本集
Figure BDA0000483149200000024
其中Xi表示初始训练样本集中的第i个样本,Yi表示初始训练样本Xi的标签,Xj表示初始测试样本集中的第j个样本,xi表示归一化后训练样本集中的第i个样本,yi表示归一化后训练样本xi的标签,xj表示归一化后测试样本集中的第j个样本,l表示训练样本的个数,u表示测试样本的个数;
(2)构造差异性较大的基分类器:
(2a)设定样本的属性,即将类别标签为1的样本设为正样本,用+1表示,将类别标签为2的样本设为负样本,用-1表示;
(2b)设测试样本集中的初始正、负样本比率为:
Figure BDA0000483149200000025
并按照
Figure BDA0000483149200000026
更新测试样本集中的正、负样本比率β,其中numpos表示正样本的数量,numneg表示负样本的数量,T为更新的总次数,其取值为任意正整数;
(2c)随机初始化一组训练样本集
Figure BDA0000483149200000027
和测试样本集
Figure BDA0000483149200000028
根据不同的β参数进行局部搜索,得到T个分类器、局部搜索后的测试样本集
Figure BDA0000483149200000029
及其T个分类结果
Figure BDA00004831492000000210
其中
Figure BDA00004831492000000211
表示局部搜索后测试样本集中的第j个样本,表示第t个分类结果中测试样本
Figure BDA00004831492000000213
的标签,t=1,2,…,T;
(3)使用k-means算法对T个分类器和测试样本集
Figure BDA00004831492000000214
的T个分类结果进行聚类,得到N个分类器和测试样本集
Figure BDA0000483149200000031
的N个分类结果
Figure BDA0000483149200000032
其中N取值为任意小于T的正整数,
Figure BDA0000483149200000033
表示聚类后第n个分类结果中测试样本的标签,n=1,2,…,N;
(4)依次输入训练样本集
Figure BDA0000483149200000035
测试样本集测试样本集
Figure BDA0000483149200000037
的N个分类结果
Figure BDA0000483149200000038
通过集成学习获得测试样本集的最终分类结果
(4a)从测试样本集的第n个分类结果中,找出测试样本集中与第j个测试样本
Figure BDA00004831492000000330
分类结果一致的样本集和分类结果不一致的样本集,即一致集Xsame和非一致集Xdif
(4b)根据欧式距离,找出第j个测试样本在一致集Xsame和非一致集Xdif中的K近邻集合Xsame-k和Xdif-k
(4c)将K近邻集合Xsame-k、Xdif-k分别与训练样本
Figure BDA00004831492000000312
进行聚类,得到相似集S和相反集D;
(4d)依次对第j个测试样本
Figure BDA00004831492000000313
的N个分类结果计算邓恩指标DIj(n),n=1,2,…,N;
(4e)对上述邓恩指标DIj(n)进行降序排列,并从前
Figure BDA00004831492000000314
个邓恩指标DIj(n)对应的第j个测试样本
Figure BDA00004831492000000315
中,取出
Figure BDA00004831492000000316
个分类结果的标签作为第j个测试样本
Figure BDA00004831492000000317
的标签集M;
(4f)对标签集M中的标签求和,构造标签的和的符号函数
Figure BDA00004831492000000319
根据该符号函数
Figure BDA00004831492000000320
的值判定第j个测试样本
Figure BDA00004831492000000331
的最终标签
Figure BDA00004831492000000332
其中表示标签集M中第m个标签,m=1,2,…,M:
若标签的和大于零,则符号函数
Figure BDA00004831492000000323
的值为+1,得到第j个测试样本
Figure BDA00004831492000000324
的最终标签
Figure BDA00004831492000000325
为+1;
若标签的和小于零,则符号函数的值为-1,得到第j个测试样本
Figure BDA00004831492000000328
的最终标签
Figure BDA0000483149200000041
为-1;
若标签的和等于零,则符号函数的值为0,得到第j个测试样本
Figure BDA0000483149200000043
的最终标签
Figure BDA0000483149200000044
为邓恩指标DIj(n)最大值对应的第j个测试样本的标签 y j final = y j max ;
(4g)重复步骤(4a)至(4f),得到测试样本集
Figure BDA00004831492000000412
中所有测试样本的最终分类结果 { y j final } j = 1 u .
本发明与现有的技术相比具有以下优点:
1、本发明由于对正、负样本比率β进行更新,通过局部搜索算法获得具有差异性的基分类器,解决了传统SVM中构造差异性较大的基分类器较难的问题,弥补了半监督SVM算法需要预先估计正、负样本比例的缺陷。
2、本发明由于采用集成学习的分类方法,保留了更多的测试样本正确分类信息,并结合邓恩指标的评价准则,改善了传统方法分类正确率较低和鲁棒性较差的问题。
附图说明
图1是本发明的实现流程图;
图2是本发明和现有方法在不同正、负样本比率下的平均分类正确率对比图。
具体实施方式
以下结合附图对本发明的实施例和效果作进一步详细描述:
参照图1,本发明的实施步骤如下:
步骤1,分别对初始训练样本集和测试样本集进行归一化处理。
首先,根据使用需要选取表1中的8组数据,在每组数据中随机选取10个样本组成初始训练样本集,其余样本组成初始测试样本集;
其次,按如下步骤归一化初始训练样本集和测试样本集
Figure BDA00004831492000000410
其中Xi表示初始训练样本集中的第i个样本,Yi表示初始训练样本Xi的标签,l表示训练样本的个数,Xj表示初始测试样本集中的第j个样本,u表示测试样本的个数:
(1a)计算初始训练样本集和测试样本集中所有样本
Figure BDA00004831492000000411
的平均值 X ‾ ;
(1b)分别对初始训练样本集和测试样本集中的样本进行归一化,得到归一化后的训练样本xi及其标签yi和测试样本xj
x i = X i - X ‾ max ( X ) - min ( X ) - - - 1 )
yi=Yi  2)
x j = X j - X ‾ max ( X ) - min ( X ) - - - 3 )
其中,max(X)表示初始训练样本集和测试样本集中所有样本的最大值,min(X)表示初始训练样本集和测试样本集中所有样本的最小值,yi表示归一化后的训练样本xi的标签;
(1c)用所有归一化后的训练样本xi及其标签yi构成归一化后的训练样本集
用所有归一化后的测试样本xj构成归一化后的测试样本集
Figure BDA0000483149200000054
步骤2,构造差异性较大的基分类器。
(2a)设定样本的属性,即将类别标签为1的样本设为正样本,用+1表示,将类别标签为2的样本设为负样本,用-1表示;
(2b)设测试样本集中的初始正、负样本比率为:并按照
Figure BDA0000483149200000056
更新测试样本集中的正、负样本比率β;
其中,numpos表示正样本的数量,numneg表示负样本的数量,T为更新的总次数,本实例中T=200,但T的取值不局限于200,可以取10-200之间的任意正整数;
(2c)随机初始化一组训练样本集
Figure BDA0000483149200000057
和测试样本集
Figure BDA0000483149200000058
根据不同的β参数进行局部搜索,得到T个分类器、局部搜索后的测试样本集
Figure BDA0000483149200000059
及其T个分类结果其中
Figure BDA00004831492000000511
表示局部搜索后测试样本集中的第j个样本,表示第t个分类结果中测试样本
Figure BDA00004831492000000513
的标签,t=1,2,…,T:
(2c1)用SVM算法求解出随机初始化的训练样本集
Figure BDA0000483149200000061
和测试样本集
Figure BDA0000483149200000062
的超平面系数{w,b}和测试样本集
Figure BDA0000483149200000063
的初始标签集
Figure BDA0000483149200000064
其中w是特征空间中超平面的系数向量,b是超平面的阈值,
Figure BDA0000483149200000065
表示SVM算法求解出的测试样本xj的初始标签;
本实例中,SVM算法采用libsvm工具包中带权重的SVM求解方法,得到超平面系数{w,b}和测试样本集
Figure BDA0000483149200000066
的初始标签集
Figure BDA0000483149200000067
(2c2)计算测试样本xj的wK(xj,x)+b值,并按照降序排列,得到降序排列后的测试样本集
Figure BDA0000483149200000068
及其标签集
Figure BDA0000483149200000069
其中K(xj,x)是SVM算法中的径向基核函数,K(xj,x)表示测试样本xj和核函数中心x的径向基函数,
Figure BDA00004831492000000610
表示降序排列后测试样本
Figure BDA00004831492000000611
的标签;
(2c3)降序排列后,在当前正、负样本比率β参数下将前hp个测试样本的标签更新为+1,将第hp+1至u-hn个测试样本的标签更新为sgn(wK(xj,x)+b);将第u-hn+1至u个测试样本的标签更新为-1,得到测试样本集
Figure BDA00004831492000000612
更新后的标签集
Figure BDA00004831492000000625
其中,hp为更新后的正样本个数,hn为更新后的负样本个数,
Figure BDA00004831492000000626
表示更新后测试样本
Figure BDA00004831492000000613
的标签,sgn(wK(xj,x)+b)表示步骤(2c2)所述的wK(xj,x)+b的符号函数, h p = 1 2 ( 1 + β - α ) ( num pos + num neg ) , h n = 1 2 ( 1 - β - α ) ( num pos + num neg ) , α是一个修正常量,取值为α=0.05;
(2c4)从更新前测试样本集
Figure BDA00004831492000000616
的标签集
Figure BDA00004831492000000617
中随机选择20%的标签,替换对应位置更新后测试样本的标签,得到替换后测试样本集的标签集
Figure BDA00004831492000000619
(2c5)判断替换前后的测试样本集的标签集是否相等:若相等,则用替换后的标签集
Figure BDA00004831492000000621
作为测试样本集
Figure BDA00004831492000000622
的标签集;若不相等,则将训练样本集
Figure BDA00004831492000000623
和降序排列后的测试样本集
Figure BDA00004831492000000624
返回步骤(2c1);
(2c6)分别在T次更新的正、负样本比率β参数下,重复步骤(2c1)至(2c5),得到T个分类器、局部搜索后的测试样本集
Figure BDA0000483149200000071
及其T个分类结果
步骤3,使用k-means算法对T个分类器和测试样本集
Figure BDA0000483149200000073
的T个分类结果
Figure BDA0000483149200000074
进行聚类,得到N个分类器和测试样本集的N个分类结果
Figure BDA0000483149200000076
其中,
Figure BDA0000483149200000077
表示聚类后第n个分类结果中测试样本
Figure BDA0000483149200000078
的标签,n=1,2,…,N,本实例中N=30,但N的取值不局限于30,可以取任意小于
Figure BDA0000483149200000079
的正整数。
步骤4,采用集成学习的分类方法得到测试样本集的最终结果。
(4a)从测试样本集的第n个分类结果中,找出测试样本集中与第j个测试样本
Figure BDA00004831492000000711
分类结果一致的样本集和分类结果不一致的样本集,即一致集Xsame和非一致集Xdif
X same = { x ^ js | y s n = y j n } - - - 4 )
X dif = { x ^ jd | y d n ≠ y j n } - - - 5 )
其中,是测试样本集
Figure BDA00004831492000000733
中符合一致集Xsame等式的测试样本,
Figure BDA00004831492000000715
是在第n个分类结果中测试样本
Figure BDA00004831492000000716
的标签,
Figure BDA00004831492000000717
表示满足
Figure BDA00004831492000000718
条件的测试样本的集合,
Figure BDA00004831492000000719
是测试样本集
Figure BDA00004831492000000720
中符合非一致集Xdif不等式的测试样本,是在第n个分类结果中测试样本
Figure BDA00004831492000000722
的标签,
Figure BDA00004831492000000723
表示满足
Figure BDA00004831492000000724
条件的测试样本的集合;
(4b)根据欧式距离,找出第j个测试样本
Figure BDA00004831492000000725
在一致集Xsame和非一致集Xdif中的K近邻集合Xsame-k和Xdif-k
X same - k = { x ^ js | d ( x ^ js , x ^ j ) < d ks } - - - 6 )
X dif - k = { x ^ jd | d ( x ^ jd , x ^ j ) < d ks } - - - 7 )
其中,Xsame-k表示一致集Xsame的K近邻集合,
Figure BDA00004831492000000728
表示步骤(4a)所述测试样本
Figure BDA00004831492000000729
与第j个测试样本
Figure BDA00004831492000000730
的欧式距离,dks表示一致集Xsame中的测试样本与第j个测试样本的欧式距离从小到大排列后的第K个距离,
Figure BDA00004831492000000732
表示满足条件的测试样本的集合,Xdif-k表示非一致集Xdif的K近邻集合,
Figure BDA0000483149200000082
表示步骤(4a)所述测试样本与第j个测试样本的欧式距离,dkd表示非一致集Xdif中的测试样本与第j个测试样本
Figure BDA0000483149200000085
的欧式距离从小到大排列后的第K个距离, { x ^ jd | d ( x ^ jd , x ^ j ) < d kd } 表示满足 d ( x ^ jd , x ^ j ) < d kd 条件的测试样本的集合;
(4c)将K近邻集合Xsame-k、Xdif-k分别与训练样本
Figure BDA0000483149200000088
进行聚类,得到相似集S和相反集D:
S = X same-k &cup;{ x is | y is = y j n }--- 8 )
D = X dif - k &cup; { x id | y id &NotEqual; y j n } - - - 9 )
其中,xis是训练样本集
Figure BDA00004831492000000811
中符合等式的训练样本,yis是训练样本xis的标签,表示满足条件的训练样本的集合,xid是训练样本集
Figure BDA00004831492000000815
中符合不等式的训练样本,yid是训练样本xid的标签,
Figure BDA00004831492000000817
表示满足
Figure BDA00004831492000000818
条件的训练样本的集合;本实例中K=5,但K的取值不局限于5,可以取任意小于
Figure BDA00004831492000000819
的正整数;
(4d)按下式依次计算对第j个测试样本
Figure BDA00004831492000000820
的N个分类结果的邓恩指标DIj(n):
DI j ( n ) = min { x a , x b } &Element; D { d ( x a , x b ) } max { x c , x d } &Element; S { d ( x c , x d ) } - - - 10 )
其中,{xa,xb}∈D表示xa,xb是相反集D中的样本,d(xa,xb)表示样本xa,xb的欧式距离,{xc,xd}∈S表示xc,xd是相似集S中的样本,d(xc,xd)表示样本xc,xd的欧式距离;
(4e)对上述邓恩指标DIj(n)进行降序排列,并从前
Figure BDA00004831492000000822
个邓恩指标DIj(n)对应的第j个测试样本中,取出
Figure BDA00004831492000000824
个分类结果的标签作为第j个测试样本
Figure BDA00004831492000000825
的标签集M;
(4f)对标签集M中的标签
Figure BDA00004831492000000826
求和,构造标签的和的符号函数
Figure BDA00004831492000000827
根据该符号函数
Figure BDA00004831492000000829
的值判定第j个测试样本
Figure BDA00004831492000000830
的最终标签
Figure BDA00004831492000000831
其中
Figure BDA00004831492000000832
表示标签集M中第m个标签,m=1,2,…,M:
若标签的和大于零,则符号函数
Figure BDA0000483149200000091
的值为+1,得到第j个测试样本
Figure BDA0000483149200000092
的最终标签
Figure BDA0000483149200000093
为+1;
若标签的和小于零,则符号函数
Figure BDA0000483149200000094
的值为-1,得到第j个测试样本
Figure BDA0000483149200000095
的最终标签
Figure BDA0000483149200000096
为-1;
若标签的和等于零,则符号函数
Figure BDA0000483149200000097
的值为0,得到第j个测试样本
Figure BDA0000483149200000098
的最终标签
Figure BDA0000483149200000099
为邓恩指标DIj(n)最大值对应的第j个测试样本的标签
Figure BDA00004831492000000911
y j final = y j max ;
(4g)重复步骤(4a)至(4f),得到测试样本集
Figure BDA00004831492000000913
中所有测试样本的最终分类结果 { y j final } j = 1 u .
本发明的效果可以通过以下仿真实验进一步说明:
1.仿真条件:
仿真实验采用UCI数据库中的8组二分类数据集:2moons、heart、Bupa、sonar、wdbc、pima_indians、vote、breast。每个数据集的数据名称、样本数、特征维数以及正、负样本的比值如表1所示。
表1UCI数据库中的二分类数据
数据名称 样本数 特征维数 正、负样本比值
2moons 200 2 1:0.87
heart 270 13 1:0.80
Bupa 345 6 1:0.73
sonar 208 60 1:0.88
wdbc 569 30 1:0.59
pima_indians 768 8 1:0.54
vote 435 16 1:0.63
breast 277 9 1:0.41
仿真实验在CPU为Intel Core(TM)2Duo、主频2.33GHz,内存为2G的WINDOWSXP系统上用MATLAB7.0.1软件进行。
仿真使用的训练样本是用本发明方法与现有的SVM、S4VMs和LapSVM方法,均对2moons、heart、Bupa、sonar、wdbc、pima_indians、vote、breast数据集分别按照1:9,2:8,…,9:1共9组不同正、负样本的比值进行选取。
分别从UCI数据库中的二分类数据集中随机选取10个样本组成初始训练样本集,其余样本组成初始测试样本集,基于半监督SVM集成学习的分类方法的参数取值为T=200,N=30,α=0.05,K=5。
2.仿真内容及分析:
仿真1,用本发明方法及现有SVM、S4VMs和LapSVM方法进行仿真实验,在每组训练样本的正、负样本比值下,对UCI数据库中的二分类数据集分别进行30次分类实验,计算30次实验的平均分类正确率,作为UCI数据库中的二分类数据集的最终分类正确率,对比结果如图2所示。图2的横坐标是仿真使用的训练样本中正样本的个数,纵坐标是在不同训练样本的正、负样本比值下的平均分类正确率。因为训练样本的总数为10,训练样本中正样本的个数1,2,…,9间接表示着训练样本的正、负样本比值1:9,2:8,…,9:1共9组值,所以图2的横坐标用训练样本中正样本的个数简化了训练样本的正、负样本比值。其中:
图2(a)是对2moons数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(b)是对heart数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(c)是对Bupa数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(d)是对sonar数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(e)是对wdbc数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(f)是对pima_indians数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(g)是对vote数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(h)是对breast数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图。
从图2可见,现有S4VMs方法在训练样本与测试样本分布相近的情况下,性能较好,但是在训练样本与测试样本分布不同的情况下,尤其是某类训练样本只有一两个的情况下,性能急剧下降。现有S4VMs方法对正、负样本比值十分敏感,对样本数量的依赖性很强。现有SVM与LapSVM方法总体效果不如S4VMs理想,在某类训练样本很少的情况下基本失效,将所有的测试样本都分为一类。
本发明方法在训练样本与测试样本分布相近时,分类效果稍逊于S4VMs,但差距不是很明显。在训练样本分布大幅度变化时,本发明能够保持较高的分类正确率,且正确率浮动较小。在训练样本分布很极端,例如正、负类样本的比值达到1:9或者9:1的情况下,本发明的分类正确率也没有明显降低,此时其它三种方法均已失效,表明了本发明在极端情况下的有效性和稳定性,其鲁棒性大幅高于其它三种对比方法。
综上,本发明通过构造差异性较大的基分类器,解决了传统方法中构造差异性较大的基分类器较难的问题,弥补了半监督SVM算法需要预先估计正、负样本比例的缺陷;同时提出了一种半监督SVM集成学习的分类方法,与现有SVM、S4VMs和LapSVM方法相比,具有较高的分类正确率和出色的鲁棒性。

Claims (7)

1.一种基于半监督SVM集成学习的分类方法,包括如下步骤:
(1)分别对初始训练样本集
Figure FDA0000483149190000011
和测试样本集
Figure FDA0000483149190000012
进行归一化处理,得到归一化后的训练样本集
Figure FDA0000483149190000013
和测试样本集
Figure FDA0000483149190000014
其中Xi表示初始训练样本集中的第i个样本,Yi表示初始训练样本Xi的标签,Xj表示初始测试样本集中的第j个样本,xi表示归一化后训练样本集中的第i个样本,yi表示归一化后训练样本xi的标签,xj表示归一化后测试样本集中的第j个样本,l表示训练样本的个数,u表示测试样本的个数;
(2)构造差异性较大的基分类器:
(2a)设定样本的属性,即将类别标签为1的样本设为正样本,用+1表示,将类别标签为2的样本设为负样本,用-1表示;
(2b)设测试样本集中的初始正、负样本比率为:并按照
Figure FDA0000483149190000016
更新测试样本集中的正、负样本比率β,其中numpos表示正样本的数量,numneg表示负样本的数量,T为更新的总次数,其取值为任意正整数;
(2c)随机初始化一组训练样本集
Figure FDA0000483149190000017
和测试样本集
Figure FDA0000483149190000018
根据不同的β参数进行局部搜索,得到T个分类器、局部搜索后的测试样本集
Figure FDA0000483149190000019
及其T个分类结果
Figure FDA00004831491900000110
其中
Figure FDA00004831491900000111
表示局部搜索后测试样本集中的第j个样本,表示第t个分类结果中测试样本
Figure FDA00004831491900000113
的标签,t=1,2,…,T;
(3)使用k-means算法对T个分类器和测试样本集
Figure FDA00004831491900000114
的T个分类结果
Figure FDA00004831491900000115
进行聚类,得到N个分类器和测试样本集
Figure FDA00004831491900000116
的N个分类结果
Figure FDA00004831491900000117
其中N取值为任意小于T的正整数,表示聚类后第n个分类结果中测试样本
Figure FDA00004831491900000119
的标签,n=1,2,…,N;
(4)依次输入训练样本集测试样本集
Figure FDA0000483149190000022
测试样本集
Figure FDA0000483149190000023
的N个分类结果
Figure FDA0000483149190000024
通过集成学习获得测试样本集
Figure FDA0000483149190000025
的最终分类结果
Figure FDA0000483149190000026
(4a)从测试样本集的第n个分类结果中,找出测试样本集中与第j个测试样本
Figure FDA0000483149190000028
分类结果一致的样本集和分类结果不一致的样本集,即一致集Xsame和非一致集Xdif
(4b)根据欧式距离,找出第j个测试样本
Figure FDA0000483149190000029
在一致集Xsame和非一致集Xdif中的K近邻集合Xsame-k和Xdif-k
(4c)将K近邻集合Xsame-k、Xdif-k分别与训练样本
Figure FDA00004831491900000210
进行聚类,得到相似集S和相反集D;
(4d)依次对第j个测试样本
Figure FDA00004831491900000211
的N个分类结果计算邓恩指标DIj(n),n=1,2,…,N;
(4e)对上述邓恩指标DIj(n)进行降序排列,并从前
Figure FDA00004831491900000212
个邓恩指标DIj(n)对应的第j个测试样本中,取出
Figure FDA00004831491900000214
个分类结果的标签作为第j个测试样本
Figure FDA00004831491900000215
的标签集M;
(4f)对标签集M中的标签
Figure FDA00004831491900000216
求和,构造标签的和的符号函数根据该符号函数
Figure FDA00004831491900000218
的值判定第j个测试样本的最终标签
Figure FDA00004831491900000220
其中
Figure FDA00004831491900000221
表示标签集M中第m个标签,m=1,2,…,M:
若标签的和大于零,则符号函数的值为+1,得到第j个测试样本
Figure FDA00004831491900000223
的最终标签
Figure FDA00004831491900000224
为+1;
若标签的和小于零,则符号函数
Figure FDA00004831491900000225
的值为-1,得到第j个测试样本的最终标签
Figure FDA00004831491900000227
为-1;
若标签的和等于零,则符号函数
Figure FDA00004831491900000228
的值为0,得到第j个测试样本的最终标签
Figure FDA00004831491900000230
为邓恩指标DIj(n)最大值对应的第j个测试样本
Figure FDA00004831491900000231
的标签
Figure FDA00004831491900000232
y j final = y j max ;
(4g)重复步骤(4a)至(4f),得到测试样本集
Figure FDA0000483149190000032
中所有测试样本的最终分类结果 { y j final } j = 1 u .
2.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中步骤(1)所述的分别对初始训练样本集
Figure FDA0000483149190000034
和测试样本集
Figure FDA0000483149190000035
进行归一化处理,得到归一化后的训练样本集
Figure FDA0000483149190000036
和测试样本集
Figure FDA0000483149190000037
按如下步骤进行:
(1a)计算初始训练样本集和测试样本集中所有样本
Figure FDA0000483149190000038
Figure FDA0000483149190000039
的平均值 X &OverBar; ;
(1b)分别对初始训练样本集和测试样本集中的样本进行归一化,得到归一化后的训练样本xi及其标签yi和测试样本xj
x i = X i - X &OverBar; max ( X ) - min ( X ) - - - 1 )
yi=Yi  2)
x j = X j - X &OverBar; max ( X ) - min ( X ) - - - 3 )
其中,max(X)表示初始训练样本集和测试样本集中所有样本的最大值,min(X)表示初始训练样本集和测试样本集中所有样本的最小值;
(1c)用所有归一化后的训练样本xi及其标签yi构成归一化后的训练样本集
Figure FDA00004831491900000312
用所有归一化后的测试样本xj构成归一化后的测试样本集
3.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中步骤(2c)所述的根据不同的β参数进行局部搜索,按如下步骤进行:
(2c1)用SVM算法求解出随机初始化的训练样本集
Figure FDA00004831491900000314
和测试样本集的超平面系数{w,b}和测试样本集
Figure FDA00004831491900000316
的初始标签集
Figure FDA00004831491900000317
其中w是特征空间中超平面的系数向量,b是超平面的阈值,
Figure FDA0000483149190000041
表示SVM算法求解出的测试样本xj的初始标签;
(2c2)计算测试样本xj的wK(xj,x)+b值,并按照降序排列,得到降序排列后的测试样本集
Figure FDA0000483149190000042
及其标签集
Figure FDA0000483149190000043
其中K(xj,x)是SVM算法中的径向基核函数,K(xj,x)表示测试样本xj和核函数中心x的径向基函数,
Figure FDA0000483149190000044
表示降序排列后测试样本
Figure FDA0000483149190000045
的标签;
(2c3)降序排列后,在当前正、负样本比率β参数下将前hp个测试样本的标签更新为+1,将第hp+1至u-hn个测试样本的标签更新为sgn(wK(xj,x)+b);将第u-hn+1至u个测试样本的标签更新为-1,得到测试样本集
Figure FDA0000483149190000046
更新后的标签集
Figure FDA0000483149190000047
其中,hp为更新后的正样本个数,hn为更新后的负样本个数,
Figure FDA0000483149190000048
表示更新后测试样本的标签,sgn(wK(xj,x)+b)表示步骤(2c2)所述的wK(xj,x)+b的符号函数, h p = 1 2 ( 1 + &beta; - &alpha; ) ( num pos + num neg ) , h n = 1 2 ( 1 - &beta; - &alpha; ) ( num pos + num neg ) , α是一个修正常量,取值为α=0.05;
(2c4)从更新前测试样本集
Figure FDA00004831491900000412
的标签集中随机选择20%的标签,替换对应位置更新后测试样本的标签,得到替换后测试样本集
Figure FDA00004831491900000414
的标签集
Figure FDA00004831491900000415
(2c5)判断替换前后的测试样本集
Figure FDA00004831491900000416
的标签集是否相等:若相等,则用替换后的标签集
Figure FDA00004831491900000417
作为测试样本集
Figure FDA00004831491900000418
的标签集;若不相等,则将训练样本集
Figure FDA00004831491900000419
和降序排列后的测试样本集
Figure FDA00004831491900000420
返回步骤(2c1);
(2c6)分别在T次更新的正、负样本比率β参数下,重复步骤(2c1)至(2c5),得到T个分类器、局部搜索后的测试样本集
Figure FDA00004831491900000421
及其T个分类结果
Figure FDA00004831491900000422
4.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中所述步骤(4a)中的一致集Xsame和非一致集Xdif,是按下式计算:
X same = { x ^ js | y s n = y j n } - - - 4 )
X dif = { x ^ jd | y d n &NotEqual; y j n } - - - 5 )
其中,
Figure FDA0000483149190000053
是测试样本集
Figure FDA0000483149190000054
中符合一致集Xsame等式的测试样本,
Figure FDA0000483149190000055
是在第n个分类结果中测试样本
Figure FDA0000483149190000056
的标签,
Figure FDA0000483149190000057
表示满足
Figure FDA0000483149190000058
条件的测试样本的集合,
Figure FDA0000483149190000059
是测试样本集
Figure FDA00004831491900000510
中符合非一致集Xdif不等式的测试样本,
Figure FDA00004831491900000511
是在第n个分类结果中测试样本
Figure FDA00004831491900000512
的标签,
Figure FDA00004831491900000513
表示满足
Figure FDA00004831491900000514
条件的测试样本的集合。
5.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中所述步骤(4b)中的K近邻集合Xsame-k和Xdif-k,是按下式计算:
X same - k = { x ^ js | d ( x ^ js , x ^ j ) < d ks } - - - 6 )
X dif - k = { x ^ jd | d ( x ^ jd , x ^ j ) < d ks } - - - 7 )
其中,Xsame-k表示一致集Xsame的K近邻集合,
Figure FDA00004831491900000517
表示步骤(4a)所述测试样本
Figure FDA00004831491900000518
与第j个测试样本
Figure FDA00004831491900000519
的欧式距离,dks表示一致集Xsame中的测试样本与第j个测试样本
Figure FDA00004831491900000520
的欧式距离从小到大排列后的第K个距离,
Figure FDA00004831491900000521
表示满足
Figure FDA00004831491900000522
条件的测试样本的集合,Xdif-k表示非一致集Xdif的K近邻集合,表示步骤(4a)所述测试样本与第j个测试样本
Figure FDA00004831491900000525
的欧式距离,dkd表示非一致集Xdif中的测试样本与第j个测试样本
Figure FDA00004831491900000526
的欧式距离从小到大排列后的第K个距离, { x ^ jd | d ( x ^ jd , x ^ j ) < d kd } 表示满足 d ( x ^ jd , x ^ j ) < d kd 条件的测试样本的集合。
6.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中所述步骤(4c)中的相似集S和相反集D,是按下式计算:
S = X same-k &cup;{ x is | y is = y j n }--- 8 )
D = X dif - k &cup; { x id | y id &NotEqual; y j n } - - - 9 )
其中,xis是训练样本集
Figure FDA0000483149190000061
中符合
Figure FDA0000483149190000062
等式的训练样本,yis是训练样本xis的标签,
Figure FDA0000483149190000063
表示满足
Figure FDA0000483149190000064
条件的训练样本的集合,xid是训练样本集
Figure FDA0000483149190000065
中符合
Figure FDA0000483149190000066
不等式的训练样本,yid是训练样本xid的标签,
Figure FDA0000483149190000067
表示满足
Figure FDA0000483149190000068
条件的训练样本的集合。
7.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中所述步骤(4d)的邓恩指标DIj(n),是按下式计算:
DI j ( n ) = min { x a , x b } &Element; D { d ( x a , x b ) } max { x c , x d } &Element; S { d ( x c , x d ) } - - - 10 )
其中,{xa,xb}∈D表示xa,xb是相反集D中的样本,d(xa,xb)表示样本xa,xb的欧式距离,{xc,xd}∈S表示xc,xd是相似集S中的样本,d(xc,xd)表示样本xc,xd的欧式距离。
CN201410119304.XA 2014-03-27 2014-03-27 基于半监督svm集成学习的分类方法 Active CN103886330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410119304.XA CN103886330B (zh) 2014-03-27 2014-03-27 基于半监督svm集成学习的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410119304.XA CN103886330B (zh) 2014-03-27 2014-03-27 基于半监督svm集成学习的分类方法

Publications (2)

Publication Number Publication Date
CN103886330A true CN103886330A (zh) 2014-06-25
CN103886330B CN103886330B (zh) 2017-03-01

Family

ID=50955213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410119304.XA Active CN103886330B (zh) 2014-03-27 2014-03-27 基于半监督svm集成学习的分类方法

Country Status (1)

Country Link
CN (1) CN103886330B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598813A (zh) * 2014-12-09 2015-05-06 西安电子科技大学 一种基于集成学习和半监督svm的计算机入侵检测方法
CN104598586A (zh) * 2015-01-18 2015-05-06 北京工业大学 大规模文本分类的方法
CN104809435A (zh) * 2015-04-22 2015-07-29 上海交通大学 一种基于视觉一致性约束的图像目标分类方法
CN105447520A (zh) * 2015-11-23 2016-03-30 盐城工学院 一种基于加权投影对支持向量机的样本分类方法
CN106294593A (zh) * 2016-07-28 2017-01-04 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
CN106649789A (zh) * 2016-12-28 2017-05-10 浙江大学 一种基于集成半监督费舍尔判别的工业过程故障分类方法
CN107038252A (zh) * 2017-05-04 2017-08-11 沈阳航空航天大学 一种基于多模态数据的路由度量的生成方法
CN107292330A (zh) * 2017-05-02 2017-10-24 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN107657274A (zh) * 2017-09-20 2018-02-02 浙江大学 一种基于k‑means的二叉SVM‑tree不平衡数据工业故障分类方法
CN107766868A (zh) * 2016-08-15 2018-03-06 中国联合网络通信集团有限公司 一种分类器训练方法及装置
US10008218B2 (en) 2016-08-03 2018-06-26 Dolby Laboratories Licensing Corporation Blind bandwidth extension using K-means and a support vector machine
CN110008323A (zh) * 2019-03-27 2019-07-12 北京百分点信息科技有限公司 一种半监督学习结合集成学习的问题等价性判别的方法
CN110084290A (zh) * 2019-04-12 2019-08-02 北京字节跳动网络技术有限公司 训练分类器的方法、装置、电子设备和计算机可读存储介质
CN110309302A (zh) * 2019-05-17 2019-10-08 江苏大学 一种结合svm和半监督聚类的不平衡文本分类方法及系统
CN110991500A (zh) * 2019-11-19 2020-04-10 天津师范大学 一种基于嵌套式集成深度支持向量机的小样本多分类方法
CN112989207A (zh) * 2021-04-27 2021-06-18 武汉卓尔数字传媒科技有限公司 一种信息推荐方法及装置、电子设备、存储介质
CN113810333A (zh) * 2020-06-11 2021-12-17 中国科学院计算机网络信息中心 基于半监督谱聚类和集成svm的流量检测方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781942B (zh) * 2019-10-18 2021-03-09 中国科学技术大学 一种半监督图像分类方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071300A1 (en) * 2001-05-07 2005-03-31 Bartlett Peter L Kernels and methods for selecting kernels for use in learning machines
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071300A1 (en) * 2001-05-07 2005-03-31 Bartlett Peter L Kernels and methods for selecting kernels for use in learning machines
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIANGRONG ZHANG等: "SVMs Ensemble for Radar Target Recognition Based on Evolutionary Feature Selection", 《2007 IEEE CONGRESS ON EVOLUTIONARY COMPUTATION》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598813B (zh) * 2014-12-09 2017-05-17 西安电子科技大学 一种基于集成学习和半监督svm的计算机入侵检测方法
CN104598813A (zh) * 2014-12-09 2015-05-06 西安电子科技大学 一种基于集成学习和半监督svm的计算机入侵检测方法
CN104598586B (zh) * 2015-01-18 2018-04-17 北京工业大学 大规模文本分类的方法
CN104598586A (zh) * 2015-01-18 2015-05-06 北京工业大学 大规模文本分类的方法
CN104809435A (zh) * 2015-04-22 2015-07-29 上海交通大学 一种基于视觉一致性约束的图像目标分类方法
CN104809435B (zh) * 2015-04-22 2018-01-19 上海交通大学 一种基于视觉一致性约束的图像目标分类方法
CN105447520A (zh) * 2015-11-23 2016-03-30 盐城工学院 一种基于加权投影对支持向量机的样本分类方法
CN106294593A (zh) * 2016-07-28 2017-01-04 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
CN106294593B (zh) * 2016-07-28 2019-04-09 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
US10008218B2 (en) 2016-08-03 2018-06-26 Dolby Laboratories Licensing Corporation Blind bandwidth extension using K-means and a support vector machine
CN107766868A (zh) * 2016-08-15 2018-03-06 中国联合网络通信集团有限公司 一种分类器训练方法及装置
CN106649789B (zh) * 2016-12-28 2019-07-23 浙江大学 一种基于集成半监督费舍尔判别的工业过程故障分类方法
CN106649789A (zh) * 2016-12-28 2017-05-10 浙江大学 一种基于集成半监督费舍尔判别的工业过程故障分类方法
CN107292330A (zh) * 2017-05-02 2017-10-24 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN107038252A (zh) * 2017-05-04 2017-08-11 沈阳航空航天大学 一种基于多模态数据的路由度量的生成方法
CN107657274A (zh) * 2017-09-20 2018-02-02 浙江大学 一种基于k‑means的二叉SVM‑tree不平衡数据工业故障分类方法
CN110008323A (zh) * 2019-03-27 2019-07-12 北京百分点信息科技有限公司 一种半监督学习结合集成学习的问题等价性判别的方法
CN110008323B (zh) * 2019-03-27 2021-04-23 北京百分点科技集团股份有限公司 一种半监督学习结合集成学习的问题等价性判别的方法
CN110084290A (zh) * 2019-04-12 2019-08-02 北京字节跳动网络技术有限公司 训练分类器的方法、装置、电子设备和计算机可读存储介质
CN110084290B (zh) * 2019-04-12 2021-03-05 北京字节跳动网络技术有限公司 训练分类器的方法、装置、电子设备和计算机可读存储介质
CN110309302A (zh) * 2019-05-17 2019-10-08 江苏大学 一种结合svm和半监督聚类的不平衡文本分类方法及系统
CN110309302B (zh) * 2019-05-17 2023-03-24 江苏大学 一种结合svm和半监督聚类的不平衡文本分类方法及系统
CN110991500A (zh) * 2019-11-19 2020-04-10 天津师范大学 一种基于嵌套式集成深度支持向量机的小样本多分类方法
CN113810333A (zh) * 2020-06-11 2021-12-17 中国科学院计算机网络信息中心 基于半监督谱聚类和集成svm的流量检测方法及系统
CN112989207A (zh) * 2021-04-27 2021-06-18 武汉卓尔数字传媒科技有限公司 一种信息推荐方法及装置、电子设备、存储介质
CN112989207B (zh) * 2021-04-27 2021-08-27 武汉卓尔数字传媒科技有限公司 一种信息推荐方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN103886330B (zh) 2017-03-01

Similar Documents

Publication Publication Date Title
CN103886330A (zh) 基于半监督svm集成学习的分类方法
CN111191732B (zh) 一种基于全自动学习的目标检测方法
CN111079639B (zh) 垃圾图像分类模型构建的方法、装置、设备及存储介质
CN104091321B (zh) 适用于地面激光雷达点云分类的多层次点集特征的提取方法
CN102314614B (zh) 一种基于类共享多核学习的图像语义分类方法
CN102521656B (zh) 非平衡样本分类的集成迁移学习方法
CN103559504A (zh) 图像目标类别识别方法及装置
CN106960214A (zh) 基于图像的物体识别方法
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
CN110457982A (zh) 一种基于特征迁移学习的作物病害图像识别方法
CN103996018A (zh) 基于4dlbp的人脸识别方法
CN104392253B (zh) 一种草图数据集的交互式类别标注方法
CN106503731A (zh) 一种基于条件互信息和K‑means的无监督特征选择方法
CN106157375A (zh) 一种三维模型部件类别自动标注方法
CN103425996A (zh) 一种并行分布式的大规模图像识别方法
CN103971415A (zh) 一种三维模型构件的在线标注方法
CN104809469A (zh) 一种面向服务机器人的室内场景图像分类方法
CN109784405A (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN103065158A (zh) 基于相对梯度的isa模型的行为识别方法
CN108664633A (zh) 一种利用多样化文本特征进行文本分类的方法
CN104091038A (zh) 基于大间隔分类准则的多示例学习特征加权方法
CN106780376A (zh) 基于显著性检测和联合分割算法的背景图像分割方法
CN109543723A (zh) 一种鲁棒的图像聚类方法
CN103020167A (zh) 一种计算机中文文本分类方法
CN109948534A (zh) 采用快速密度峰值聚类进行人脸识别的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant