CN103886330A

CN103886330A - 基于半监督svm集成学习的分类方法

Info

Publication number: CN103886330A
Application number: CN201410119304.XA
Authority: CN
Inventors: 焦李成; 刘芳; 张丹; 王爽; 白雪; 侯彪; 马文萍; 马晶晶; 杨淑媛
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-03-27
Filing date: 2014-03-27
Publication date: 2014-06-25
Anticipated expiration: 2034-03-27
Also published as: CN103886330B

Abstract

本发明公开了一种基于半监督SVM集成学习的分类方法，主要解决现有分类方法对样本分布未知，尤其是样本分布不平衡时分类正确率低和不稳定的问题。其实现步骤是：(1)分别对训练样本集和测试样本集进行归一化；(2)更新归一化后测试样本集中正、负样本的比率，通过局部搜索构造差异性较大的基分类器；(3)用k-means算法对基分类器的分类结果进行聚类；(4)通过集成学习的分类方法获得测试样本集的最终分类结果。本发明通过更新正、负样本比率构造差异性较大的基分类器，利用更多的测试样本正确分类信息，并结合邓恩指标的集成学习的分类方法，提高了分布未知的样本分类正确率和稳定性，可用于模式识别、目标检测和分类的问题。

Description

基于半监督SVM集成学习的分类方法

技术领域

本发明属于图像处理技术领域，特别涉及分布未知的数据分类方法，可用于模式识别、目标检测、分布未知的数据分类。

背景技术

根据学习过程中是否存在有标记的样本，传统的机器学习可以分为监督学习和无监督学习两种。监督学习通过已有的训练样本得到一个最优模型，再利用这个模型将所有的输入映射为相对的输出，对输出进行判断从而实现分类的目的。但在很多实际应用中，由于缺少形成模式类的知识，或者实际工作中的困难，只能利用没有类别标记的样本，即所谓的无监督学习。

半监督学习是监督学习与无监督学习相结合的一种学习方法。同时利用已标记和未标记样本，通过挖掘未标记样本中所蕴含的各个待分类类型在特征空间中的固有结构，从而对训练样本拟合的分类器进行校正，减少因为训练样本代表性不好对分类器拟合造成的偏差。

在实际问题中，有标记的样本是有限的，大量的未标记样本存在于样本集中。为了让大量的未标记样本帮助提高分类器性能，近年来涌现了许多半监督学习算法，半监督支持向量机(Semi-supervised Support Vector Machine)就是其中一个重要的分支，将未标记样本的分布信息引入到了支持向量机SVM的学习中。结合未标记样本的半监督SVM方法的性能较单独使用训练样本有了显著提高。半监督SVM的目标函数是一个难以计算的混合整数规划问题，于是产生了许多求解方法。代表性的方法有直推式支持向量机TSVM，拉普拉斯支持向量机LapSVM，S4VMs等，其中LapSVM主要是通过图的拉普拉斯矩阵来探索数据的流形结构。

TSVM算法在分类之前需要人为设定测试样本集中的正、负样本比例，通常情况下，这个先验知识无法提供也很难估计，应用中常用的做法是用训练样本集中的正、负样本比例估计测试样本集中的正、负样本比例。

S4VMs算法经过多次迭代搜索到多个大间隔的决策面，在不断固定当前分类器决策面参数{w,b}，更新测试样本集标签的过程中，需要设定与决策面距离较近的前P%的样本为正类，其他样本为负类。其中P%无法预先确定，需要人为设定或按照训练样本集中样本分布来估计。

上述这两种方法均依赖于样本的分布情况，如果样本分布估计有误，分类器的性能就会急剧下降。

发明内容

本发明的目的在于针对上述已有方法的不足，提出一种基于半监督SVM集成学习的分类方法，以减少由于对数据分布估计不准确带来的误分，提高集成学习的分类正确率和鲁棒性。

为实现上述目的，本发明的技术方案包括如下步骤：

(1)分别对初始训练样本集

和测试样本集

进行归一化处理，得到归一化后的训练样本集

和测试样本集

其中X_i表示初始训练样本集中的第i个样本，Y_i表示初始训练样本X_i的标签，X_j表示初始测试样本集中的第j个样本，x_i表示归一化后训练样本集中的第i个样本，y_i表示归一化后训练样本x_i的标签，x_j表示归一化后测试样本集中的第j个样本，l表示训练样本的个数，u表示测试样本的个数；

(2)构造差异性较大的基分类器：

(2a)设定样本的属性，即将类别标签为1的样本设为正样本，用+1表示，将类别标签为2的样本设为负样本，用-1表示；

(2b)设测试样本集中的初始正、负样本比率为：

并按照

更新测试样本集中的正、负样本比率β，其中num_pos表示正样本的数量，num_neg表示负样本的数量，T为更新的总次数，其取值为任意正整数；

(2c)随机初始化一组训练样本集

和测试样本集

根据不同的β参数进行局部搜索，得到T个分类器、局部搜索后的测试样本集

及其T个分类结果

其中

表示局部搜索后测试样本集中的第j个样本，表示第t个分类结果中测试样本

的标签，t＝1,2,…,T；

(3)使用k-means算法对T个分类器和测试样本集

的T个分类结果进行聚类，得到N个分类器和测试样本集

的N个分类结果

其中N取值为任意小于T的正整数，

表示聚类后第n个分类结果中测试样本的标签，n＝1,2,…,N；

(4)依次输入训练样本集

测试样本集测试样本集

的N个分类结果

通过集成学习获得测试样本集的最终分类结果

(4a)从测试样本集的第n个分类结果中，找出测试样本集中与第j个测试样本

分类结果一致的样本集和分类结果不一致的样本集，即一致集X_same和非一致集X_dif；

(4b)根据欧式距离，找出第j个测试样本在一致集X_same和非一致集X_dif中的K近邻集合X_same-k和X_dif-k；

(4c)将K近邻集合X_same-k、X_dif-k分别与训练样本

进行聚类，得到相似集S和相反集D；

(4d)依次对第j个测试样本

的N个分类结果计算邓恩指标DI_j(n)，n＝1,2,…,N；

(4e)对上述邓恩指标DI_j(n)进行降序排列，并从前

个邓恩指标DI_j(n)对应的第j个测试样本

中，取出

个分类结果的标签作为第j个测试样本

的标签集M；

(4f)对标签集M中的标签求和，构造标签的和的符号函数

根据该符号函数

的值判定第j个测试样本

的最终标签

其中表示标签集M中第m个标签，m＝1,2,…,M：

若标签的和大于零，则符号函数

的值为+1，得到第j个测试样本

的最终标签

为+1；

若标签的和小于零，则符号函数的值为-1，得到第j个测试样本

的最终标签

为-1；

若标签的和等于零，则符号函数的值为0，得到第j个测试样本

的最终标签

为邓恩指标DI_j(n)最大值对应的第j个测试样本的标签即

y_{j}^{final} = y_{j}^{\max};

(4g)重复步骤(4a)至(4f)，得到测试样本集

中所有测试样本的最终分类结果

{y_{j}^{final}}_{j = 1}^{u} .

本发明与现有的技术相比具有以下优点：

1、本发明由于对正、负样本比率β进行更新，通过局部搜索算法获得具有差异性的基分类器，解决了传统SVM中构造差异性较大的基分类器较难的问题，弥补了半监督SVM算法需要预先估计正、负样本比例的缺陷。

2、本发明由于采用集成学习的分类方法，保留了更多的测试样本正确分类信息，并结合邓恩指标的评价准则，改善了传统方法分类正确率较低和鲁棒性较差的问题。

附图说明

图1是本发明的实现流程图；

图2是本发明和现有方法在不同正、负样本比率下的平均分类正确率对比图。

具体实施方式

以下结合附图对本发明的实施例和效果作进一步详细描述：

参照图1，本发明的实施步骤如下：

步骤1，分别对初始训练样本集和测试样本集进行归一化处理。

首先，根据使用需要选取表1中的8组数据，在每组数据中随机选取10个样本组成初始训练样本集，其余样本组成初始测试样本集；

其次，按如下步骤归一化初始训练样本集和测试样本集

其中X_i表示初始训练样本集中的第i个样本，Y_i表示初始训练样本X_i的标签，l表示训练样本的个数，X_j表示初始测试样本集中的第j个样本，u表示测试样本的个数：

(1a)计算初始训练样本集和测试样本集中所有样本

的平均值

\overset{&OverBar;}{X};

(1b)分别对初始训练样本集和测试样本集中的样本进行归一化，得到归一化后的训练样本x_i及其标签y_i和测试样本x_j：

x_{i} = \frac{X_{i} - \overset{&OverBar;}{X}}{\max (X) - \min (X)} - - - 1)

y_i＝Y_i 2)

x_{j} = \frac{X_{j} - \overset{&OverBar;}{X}}{\max (X) - \min (X)} - - - 3)

其中，max(X)表示初始训练样本集和测试样本集中所有样本的最大值，min(X)表示初始训练样本集和测试样本集中所有样本的最小值，y_i表示归一化后的训练样本x_i的标签；

(1c)用所有归一化后的训练样本x_i及其标签y_i构成归一化后的训练样本集

用所有归一化后的测试样本x_j构成归一化后的测试样本集

步骤2，构造差异性较大的基分类器。

(2b)设测试样本集中的初始正、负样本比率为：并按照

更新测试样本集中的正、负样本比率β；

其中，num_pos表示正样本的数量，num_neg表示负样本的数量，T为更新的总次数，本实例中T＝200，但T的取值不局限于200，可以取10-200之间的任意正整数；

(2c)随机初始化一组训练样本集

和测试样本集

及其T个分类结果其中

的标签，t＝1,2,…,T：

(2c1)用SVM算法求解出随机初始化的训练样本集

和测试样本集

的超平面系数{w,b}和测试样本集

的初始标签集

其中w是特征空间中超平面的系数向量，b是超平面的阈值，

表示SVM算法求解出的测试样本x_j的初始标签；

本实例中，SVM算法采用libsvm工具包中带权重的SVM求解方法，得到超平面系数{w,b}和测试样本集

的初始标签集

(2c2)计算测试样本x_j的wK(x_j,x)+b值，并按照降序排列，得到降序排列后的测试样本集

及其标签集

其中K(x_j,x)是SVM算法中的径向基核函数，K(x_j,x)表示测试样本x_j和核函数中心x的径向基函数，

表示降序排列后测试样本

的标签；

(2c3)降序排列后，在当前正、负样本比率β参数下将前h_p个测试样本的标签更新为+1，将第h_p+1至u-h_n个测试样本的标签更新为sgn(wK(x_j,x)+b)；将第u-h_n+1至u个测试样本的标签更新为-1，得到测试样本集

更新后的标签集

其中，h_p为更新后的正样本个数，h_n为更新后的负样本个数，

表示更新后测试样本

的标签，sgn(wK(x_j,x)+b)表示步骤(2c2)所述的wK(x_j,x)+b的符号函数，

h_{p} = \frac{1}{2} (1 + β - α) ({num}_{pos} + {num}_{neg}),

h_{n} = \frac{1}{2} (1 - β - α) ({num}_{pos} + {num}_{neg}),

α是一个修正常量，取值为α＝0.05；

(2c4)从更新前测试样本集

的标签集

中随机选择20%的标签，替换对应位置更新后测试样本的标签，得到替换后测试样本集的标签集

(2c5)判断替换前后的测试样本集的标签集是否相等：若相等，则用替换后的标签集

作为测试样本集

的标签集；若不相等，则将训练样本集

和降序排列后的测试样本集

返回步骤(2c1)；

(2c6)分别在T次更新的正、负样本比率β参数下，重复步骤(2c1)至(2c5)，得到T个分类器、局部搜索后的测试样本集

及其T个分类结果

步骤3，使用k-means算法对T个分类器和测试样本集

的T个分类结果

进行聚类，得到N个分类器和测试样本集的N个分类结果

其中，

表示聚类后第n个分类结果中测试样本

的标签，n＝1,2,…,N，本实例中N＝30，但N的取值不局限于30，可以取任意小于

的正整数。

步骤4，采用集成学习的分类方法得到测试样本集的最终结果。

分类结果一致的样本集和分类结果不一致的样本集，即一致集X_same和非一致集X_dif：

X_{same} = {{\hat{x}}_{js} | y_{s}^{n} = y_{j}^{n}} - - - 4)

X_{dif} = {{\hat{x}}_{jd} | y_{d}^{n} &NotEqual; y_{j}^{n}} - - - 5)

其中，是测试样本集

中符合一致集X_same等式的测试样本，

是在第n个分类结果中测试样本

的标签，

表示满足

条件的测试样本的集合，

是测试样本集

中符合非一致集X_dif不等式的测试样本，是在第n个分类结果中测试样本

的标签，

表示满足

条件的测试样本的集合；

(4b)根据欧式距离，找出第j个测试样本

在一致集X_same和非一致集X_dif中的K近邻集合X_same-k和X_dif-k：

X_{same - k} = {{\hat{x}}_{js} | d ({\hat{x}}_{js}, {\hat{x}}_{j}) {< d}_{ks}} - - - 6)

X_{dif - k} = {{\hat{x}}_{jd} | d ({\hat{x}}_{jd}, {\hat{x}}_{j}) {< d}_{ks}} - - - 7)

其中，X_same-k表示一致集X_same的K近邻集合，

表示步骤(4a)所述测试样本

与第j个测试样本

的欧式距离，d_ks表示一致集X_same中的测试样本与第j个测试样本的欧式距离从小到大排列后的第K个距离，

表示满足条件的测试样本的集合，X_dif-k表示非一致集X_dif的K近邻集合，

表示步骤(4a)所述测试样本与第j个测试样本的欧式距离，d_kd表示非一致集X_dif中的测试样本与第j个测试样本

的欧式距离从小到大排列后的第K个距离，

{{\hat{x}}_{jd} | d ({\hat{x}}_{jd}, {\hat{x}}_{j}) < d_{kd}}

表示满足

d ({\hat{x}}_{jd}, {\hat{x}}_{j}) < d_{kd}

条件的测试样本的集合；

(4c)将K近邻集合X_same-k、X_dif-k分别与训练样本

进行聚类，得到相似集S和相反集D：

S = X_{same-k} ∪{x_{is} | y_{is} = y_{j}^{n}}--- 8)

D = X_{dif - k} \cup {x_{id} | y_{id} &NotEqual; y_{j}^{n}} - - - 9)

其中，x_is是训练样本集

中符合等式的训练样本，y_is是训练样本x_is的标签，表示满足条件的训练样本的集合，x_id是训练样本集

中符合不等式的训练样本，y_id是训练样本x_id的标签，

表示满足

条件的训练样本的集合；本实例中K＝5，但K的取值不局限于5，可以取任意小于

的正整数；

(4d)按下式依次计算对第j个测试样本

的N个分类结果的邓恩指标DI_j(n)：

{DI}_{j} (n) = \frac{\min_{{x_{a}, x_{b}} &Element; D} {d (x_{a}, x_{b})}}{\max_{{x_{c}, x_{d}} &Element; S} {d (x_{c}, x_{d})}} - - - 10)

其中，{x_a,x_b}∈D表示x_a,x_b是相反集D中的样本，d(x_a,x_b)表示样本x_a,x_b的欧式距离，{x_c,x_d}∈S表示x_c,x_d是相似集S中的样本，d(x_c,x_d)表示样本x_c,x_d的欧式距离；

(4e)对上述邓恩指标DI_j(n)进行降序排列，并从前

个邓恩指标DI_j(n)对应的第j个测试样本中，取出

个分类结果的标签作为第j个测试样本

的标签集M；

(4f)对标签集M中的标签

求和，构造标签的和的符号函数

根据该符号函数

的值判定第j个测试样本

的最终标签

其中

表示标签集M中第m个标签，m＝1,2,…,M：

若标签的和大于零，则符号函数

的值为+1，得到第j个测试样本

的最终标签

为+1；

若标签的和小于零，则符号函数

的值为-1，得到第j个测试样本

的最终标签

为-1；

若标签的和等于零，则符号函数

的值为0，得到第j个测试样本

的最终标签

为邓恩指标DI_j(n)最大值对应的第j个测试样本的标签

即

y_{j}^{final} = y_{j}^{\max};

(4g)重复步骤(4a)至(4f)，得到测试样本集

中所有测试样本的最终分类结果

{y_{j}^{final}}_{j = 1}^{u} .

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件：

仿真实验采用UCI数据库中的8组二分类数据集：2moons、heart、Bupa、sonar、wdbc、pima_indians、vote、breast。每个数据集的数据名称、样本数、特征维数以及正、负样本的比值如表1所示。

表1UCI数据库中的二分类数据

数据名称	样本数	特征维数	正、负样本比值
				2moons	200	2	1:0.87
heart	270	13	1:0.80
				Bupa	345	6	1:0.73
sonar	208	60	1:0.88
				wdbc	569	30	1:0.59
pima_indians	768	8	1:0.54
				vote	435	16	1:0.63
breast	277	9	1:0.41

仿真实验在CPU为Intel Core(TM)2Duo、主频2.33GHz，内存为2G的WINDOWSXP系统上用MATLAB7.0.1软件进行。

仿真使用的训练样本是用本发明方法与现有的SVM、S4VMs和LapSVM方法，均对2moons、heart、Bupa、sonar、wdbc、pima_indians、vote、breast数据集分别按照1:9，2:8，…，9:1共9组不同正、负样本的比值进行选取。

分别从UCI数据库中的二分类数据集中随机选取10个样本组成初始训练样本集，其余样本组成初始测试样本集，基于半监督SVM集成学习的分类方法的参数取值为T＝200，N＝30，α＝0.05，K＝5。

2.仿真内容及分析：

仿真1，用本发明方法及现有SVM、S4VMs和LapSVM方法进行仿真实验，在每组训练样本的正、负样本比值下，对UCI数据库中的二分类数据集分别进行30次分类实验，计算30次实验的平均分类正确率，作为UCI数据库中的二分类数据集的最终分类正确率，对比结果如图2所示。图2的横坐标是仿真使用的训练样本中正样本的个数，纵坐标是在不同训练样本的正、负样本比值下的平均分类正确率。因为训练样本的总数为10，训练样本中正样本的个数1，2，…，9间接表示着训练样本的正、负样本比值1:9，2:8，…，9:1共9组值，所以图2的横坐标用训练样本中正样本的个数简化了训练样本的正、负样本比值。其中：

图2(a)是对2moons数据集使用本发明和现有方法，在不同训练样本的正、负样本比值下的平均分类正确率对比图；

图2(b)是对heart数据集使用本发明和现有方法，在不同训练样本的正、负样本比值下的平均分类正确率对比图；

图2(c)是对Bupa数据集使用本发明和现有方法，在不同训练样本的正、负样本比值下的平均分类正确率对比图；

图2(d)是对sonar数据集使用本发明和现有方法，在不同训练样本的正、负样本比值下的平均分类正确率对比图；

图2(e)是对wdbc数据集使用本发明和现有方法，在不同训练样本的正、负样本比值下的平均分类正确率对比图；

图2(f)是对pima_indians数据集使用本发明和现有方法，在不同训练样本的正、负样本比值下的平均分类正确率对比图；

图2(g)是对vote数据集使用本发明和现有方法，在不同训练样本的正、负样本比值下的平均分类正确率对比图；

图2(h)是对breast数据集使用本发明和现有方法，在不同训练样本的正、负样本比值下的平均分类正确率对比图。

从图2可见，现有S4VMs方法在训练样本与测试样本分布相近的情况下，性能较好，但是在训练样本与测试样本分布不同的情况下，尤其是某类训练样本只有一两个的情况下，性能急剧下降。现有S4VMs方法对正、负样本比值十分敏感，对样本数量的依赖性很强。现有SVM与LapSVM方法总体效果不如S4VMs理想，在某类训练样本很少的情况下基本失效，将所有的测试样本都分为一类。

本发明方法在训练样本与测试样本分布相近时，分类效果稍逊于S4VMs，但差距不是很明显。在训练样本分布大幅度变化时，本发明能够保持较高的分类正确率，且正确率浮动较小。在训练样本分布很极端，例如正、负类样本的比值达到1:9或者9:1的情况下，本发明的分类正确率也没有明显降低，此时其它三种方法均已失效，表明了本发明在极端情况下的有效性和稳定性，其鲁棒性大幅高于其它三种对比方法。

综上，本发明通过构造差异性较大的基分类器，解决了传统方法中构造差异性较大的基分类器较难的问题，弥补了半监督SVM算法需要预先估计正、负样本比例的缺陷；同时提出了一种半监督SVM集成学习的分类方法，与现有SVM、S4VMs和LapSVM方法相比，具有较高的分类正确率和出色的鲁棒性。

Claims

1.一种基于半监督SVM集成学习的分类方法，包括如下步骤：

(1)分别对初始训练样本集

和测试样本集

进行归一化处理，得到归一化后的训练样本集

和测试样本集

(2)构造差异性较大的基分类器：

(2b)设测试样本集中的初始正、负样本比率为：并按照

(2c)随机初始化一组训练样本集

和测试样本集

及其T个分类结果

其中

的标签，t＝1,2,…,T；

(3)使用k-means算法对T个分类器和测试样本集

的T个分类结果

进行聚类，得到N个分类器和测试样本集

的N个分类结果

其中N取值为任意小于T的正整数，表示聚类后第n个分类结果中测试样本

的标签，n＝1,2,…,N；

(4)依次输入训练样本集测试样本集

测试样本集

的N个分类结果

通过集成学习获得测试样本集

的最终分类结果

(4b)根据欧式距离，找出第j个测试样本

在一致集X_same和非一致集X_dif中的K近邻集合X_same-k和X_dif-k；

(4c)将K近邻集合X_same-k、X_dif-k分别与训练样本

进行聚类，得到相似集S和相反集D；

(4d)依次对第j个测试样本

的N个分类结果计算邓恩指标DI_j(n)，n＝1,2,…,N；

(4e)对上述邓恩指标DI_j(n)进行降序排列，并从前

个邓恩指标DI_j(n)对应的第j个测试样本中，取出

个分类结果的标签作为第j个测试样本

的标签集M；

(4f)对标签集M中的标签

求和，构造标签的和的符号函数根据该符号函数

的值判定第j个测试样本的最终标签

其中

表示标签集M中第m个标签，m＝1,2,…,M：

若标签的和大于零，则符号函数的值为+1，得到第j个测试样本

的最终标签

为+1；

若标签的和小于零，则符号函数

的值为-1，得到第j个测试样本的最终标签

为-1；

若标签的和等于零，则符号函数

的值为0，得到第j个测试样本的最终标签

为邓恩指标DI_j(n)最大值对应的第j个测试样本

的标签

即

y_{j}^{final} = y_{j}^{\max};

(4g)重复步骤(4a)至(4f)，得到测试样本集

中所有测试样本的最终分类结果

{y_{j}^{final}}_{j = 1}^{u} .

2.根据权利要求1所述的基于半监督SVM集成学习的分类方法，其中步骤(1)所述的分别对初始训练样本集

和测试样本集

进行归一化处理，得到归一化后的训练样本集

和测试样本集

按如下步骤进行：

(1a)计算初始训练样本集和测试样本集中所有样本

的平均值

\overset{&OverBar;}{X};

x_{i} = \frac{X_{i} - \overset{&OverBar;}{X}}{\max (X) - \min (X)} - - - 1)

y_i＝Y_i 2)

x_{j} = \frac{X_{j} - \overset{&OverBar;}{X}}{\max (X) - \min (X)} - - - 3)

其中，max(X)表示初始训练样本集和测试样本集中所有样本的最大值，min(X)表示初始训练样本集和测试样本集中所有样本的最小值；

用所有归一化后的测试样本x_j构成归一化后的测试样本集

3.根据权利要求1所述的基于半监督SVM集成学习的分类方法，其中步骤(2c)所述的根据不同的β参数进行局部搜索，按如下步骤进行：

(2c1)用SVM算法求解出随机初始化的训练样本集

和测试样本集的超平面系数{w,b}和测试样本集

的初始标签集

其中w是特征空间中超平面的系数向量，b是超平面的阈值，

表示SVM算法求解出的测试样本x_j的初始标签；

及其标签集

表示降序排列后测试样本

的标签；

更新后的标签集

表示更新后测试样本的标签，sgn(wK(x_j,x)+b)表示步骤(2c2)所述的wK(x_j,x)+b的符号函数，

h_{p} = \frac{1}{2} (1 + β - α) ({num}_{pos} + {num}_{neg}),

h_{n} = \frac{1}{2} (1 - β - α) ({num}_{pos} + {num}_{neg}),

α是一个修正常量，取值为α＝0.05；

(2c4)从更新前测试样本集

的标签集中随机选择20%的标签，替换对应位置更新后测试样本的标签，得到替换后测试样本集

的标签集

(2c5)判断替换前后的测试样本集

的标签集是否相等：若相等，则用替换后的标签集

作为测试样本集

的标签集；若不相等，则将训练样本集

和降序排列后的测试样本集

返回步骤(2c1)；

及其T个分类结果

4.根据权利要求1所述的基于半监督SVM集成学习的分类方法，其中所述步骤(4a)中的一致集X_same和非一致集X_dif，是按下式计算：

X_{same} = {{\hat{x}}_{js} | y_{s}^{n} = y_{j}^{n}} - - - 4)

X_{dif} = {{\hat{x}}_{jd} | y_{d}^{n} &NotEqual; y_{j}^{n}} - - - 5)

其中，

是测试样本集

中符合一致集X_same等式的测试样本，

是在第n个分类结果中测试样本

的标签，

表示满足

条件的测试样本的集合，

是测试样本集

中符合非一致集X_dif不等式的测试样本，

是在第n个分类结果中测试样本

的标签，

表示满足

条件的测试样本的集合。

5.根据权利要求1所述的基于半监督SVM集成学习的分类方法，其中所述步骤(4b)中的K近邻集合X_same-k和X_dif-k，是按下式计算：

X_{same - k} = {{\hat{x}}_{js} | d ({\hat{x}}_{js}, {\hat{x}}_{j}) {< d}_{ks}} - - - 6)

X_{dif - k} = {{\hat{x}}_{jd} | d ({\hat{x}}_{jd}, {\hat{x}}_{j}) {< d}_{ks}} - - - 7)

其中，X_same-k表示一致集X_same的K近邻集合，

表示步骤(4a)所述测试样本

与第j个测试样本

的欧式距离，d_ks表示一致集X_same中的测试样本与第j个测试样本

的欧式距离从小到大排列后的第K个距离，

表示满足

条件的测试样本的集合，X_dif-k表示非一致集X_dif的K近邻集合，表示步骤(4a)所述测试样本与第j个测试样本

的欧式距离，d_kd表示非一致集X_dif中的测试样本与第j个测试样本

的欧式距离从小到大排列后的第K个距离，

{{\hat{x}}_{jd} | d ({\hat{x}}_{jd}, {\hat{x}}_{j}) < d_{kd}}

表示满足

d ({\hat{x}}_{jd}, {\hat{x}}_{j}) < d_{kd}

条件的测试样本的集合。

6.根据权利要求1所述的基于半监督SVM集成学习的分类方法，其中所述步骤(4c)中的相似集S和相反集D，是按下式计算：

S = X_{same-k} ∪{x_{is} | y_{is} = y_{j}^{n}}--- 8)

D = X_{dif - k} \cup {x_{id} | y_{id} &NotEqual; y_{j}^{n}} - - - 9)

其中，x_is是训练样本集

中符合

等式的训练样本，y_is是训练样本x_is的标签，

表示满足

条件的训练样本的集合，x_id是训练样本集

中符合

不等式的训练样本，y_id是训练样本x_id的标签，

表示满足

条件的训练样本的集合。

7.根据权利要求1所述的基于半监督SVM集成学习的分类方法，其中所述步骤(4d)的邓恩指标DI_j(n)，是按下式计算：

{DI}_{j} (n) = \frac{\min_{{x_{a}, x_{b}} &Element; D} {d (x_{a}, x_{b})}}{\max_{{x_{c}, x_{d}} &Element; S} {d (x_{c}, x_{d})}} - - - 10)

其中，{x_a,x_b}∈D表示x_a,x_b是相反集D中的样本，d(x_a,x_b)表示样本x_a,x_b的欧式距离，{x_c,x_d}∈S表示x_c,x_d是相似集S中的样本，d(x_c,x_d)表示样本x_c,x_d的欧式距离。