CN112906779B

CN112906779B - 基于样本边界值及集成多样性的数据分类方法

Info

Publication number: CN112906779B
Application number: CN202110169621.2A
Authority: CN
Inventors: 刘星成; 沈子雄; 刘异橦
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2023-12-08
Anticipated expiration: 2041-02-07
Also published as: CN112906779A

Abstract

本发明提供一种基于样本边界值及集成多样性的数据分类方法，包括如下：将初始数据集划分为训练集、验证集、测试集；对训练集行处理，得到采样集；对每个采样集采用基分类器进行训练，得到集成系统；利用集成系统对验证集进行分类，得到验证集的分类预测结果矩阵；根据分类预测结果矩阵进行统计得到投票数向量、验证集样本个数，计算出基分类器池中的每个分类器的平均边界值；计算关于数据集标签类别的概率分布，并引入J‑S散度，计算得到某个基分类器与其它基分类器之间的平均差异程度；结合平均边界值、平均差异程度进行综合度量，得到新的集成系统，通过选取得到分类器子集合；利用分类器子集合对测试集进行分类预测，获取分类结果。

Description

基于样本边界值及集成多样性的数据分类方法

技术领域

本发明涉及机器学习技术领域，更具体地，涉及一种基于样本边界值及集成多样性的数据分类方法。

背景技术

分类是机器学习的主要任务之一，其根据已知标签类别的数据来训练学习分类器或算法，从而利用训练好的分类器或算法再去对未知的数据进行分类预测，重点在于如何提高最终的识别正确率，降低分类错误率。

现有的分类方法有集成学习方法(ensemble learning)[Dietterich T G.Ensemble Methods in Machine Learning[C]//International Workshop on MultipleClassifier Systems.Springer,Berlin,Heidelberg,2000](也可称为多分类器系统(multi-classifier system))、基于委员会的学习(committee-based learning)等，其依托某种生成方法得到一系列数量众多且相互之间又有一定差异性的基分类器，再根据特定的策略对分类结果进行整合并最终输出。

然而传统的集成学习方法存在以下几个问题：

第一个问题：现有的许多经典集成学习方法为了追求更高的泛化性能而训练数量众多的基分类器，由此也会出现部分基分类器的分类正确率不高、分类器相互之间的差异性比较小的情况，需要大量的计算资源去计算单个分类器的输出额外地浪费了许多存储资源，此外还会在一定程度上影响分类器总体的泛化性能。Zhou[Wei Gao,Zhi-HuaZhou.On the doubt about margin explanation of boosting[J].ArtificialIntelligence.2013,203:1-18]就曾在文章中论证过：集成系统的分类器子集合一般会比由所有分类器构成的集成系统的表现出更佳的泛化能力。如果能够从全部基分类器集合中筛选出部分基分类器并使得筛选出的基分类器的分类精度较高且相互之间的差异性较大，就能从整体上提升集成系统的泛化能力，同时又减少了内存占用，提高了装载速度和处理速度。

第二个问题：在许多实际的数据分类问题中，在给获取到的数据集打样本标签时会出现标注错误的情况，类似于Boosting这种串行式的集成算法会过度关注被错误分类的样本，因而面对错误标注的样本会出现过度拟合的情况。如何增强集成系统应对误标注噪声样本的能力也具有重要的研究意义。

第三个问题：多样性增强问题。Krogh[19]给出了“误差-分歧分解”，明确指出基分类器准确率越高、基分类器之间的多样性越大，则集成性能越好。如果集成系统中的众多基分类器之间很相似则完全没有必要生成众多的分类器，因此集成系统应该在保持基分类器高正确率的同时又能使得相互之间有一定的差异，即优势互补，通过多个不同的决策边界来更好地拟合真实的决策边界。

发明内容

本发明为克服上述现有技术中集成学习方法为了追求更高的泛化性能而训练数量众多的基分类器，需要大量的计算资源去计算单个分类器的输出额外地浪费了许多存储资源的问题，提供了一种基于样本边界值及集成多样性的数据分类方法，其能通过剔除差异性低的基分类器，提升集成系统整体的多样性，使得集成系统更加精简，利用筛选后的分类器集合再去分类预测相同分布的数据集，可以减少存储开销和计算时间。

为解决上述技术问题，本发明的技术方案如下：一种基于样本边界值及集成多样性的数据分类方法，所述的方法步骤包括如下：

S1：将初始数据集划分为训练集D_tr、验证集D_va、测试集D_te；并采用并行 Bagging算法对训练集D_tr进行处理，得到采样集D_{tr_t}，1≤t≤T；

S2：对每个采样集D_{tr_t}采用基分类器进行训练，得到集成系统ES；利用集成系统ES的每个基分类器对验证集进行分类，得到验证集的分类预测结果矩阵；

S3：根据分类预测结果矩阵进行统计得到投票数向量、验证集样本个数N_R，通过无监督形式的样本边界值度量标准算法计算出基分类器池中的每个分类器 h_t的平均边界值；

S4：计算关于数据集标签类别的概率分布，并引入J-S散度，进而计算得到某个基分类器与其它基分类器之间的平均差异程度；

S5：结合平均边界值、平均差异程度进行综合度量，得到新的集成系统ES^′，通过选取得到选择性集成后的分类器子集合ES_new；

S6：利用分类器子集合ES_new对测试集进行分类预测，获取最终的分类结果。

优选地，步骤S1，采用并行Bagging算法对训练集D_tr进行处理，具体如下：

采用bootstrap进行m次有放回的随机采样，一直到bootstrap样本集中的样本数目与采样前的初始训练集的样本数目相同结束，重复T轮操作，得到T个包含m个训练样本的采样集D_{tr_t}，其中1≤t≤T，采样出的训练子集互不相同，且 |D_{tr_t}|＝|D_tr|。

进一步地，步骤S2，利用集成系统ES的每个基分类器对验证集进行分类，采用多数投票得到验证集的分类预测结果矩阵其中，R_t＝[C_t(x₁)，C_t(x₂)，…,C_t(x_i)，…,C_t(x_N′)]^T为分类器池中第t个基分类器对验证集的分类结果构成的向量。

再进一步地，步骤S3，根据分类预测结果矩阵Mat，统计出验证集中各个样本属于每个类别的投票数矩阵对投票数矩阵Vote的各行元素进行降序排序，针对验证集中的每个样本x_i得到其排序后的投票数向量/>

再进一步地，步骤S3，将分类预测结果矩阵Mat与真实类标签向量对比，找出所有被正确分类的样本点D_{va_t}，并针对分类器池中的每个分类器，统计出被正确分类预测的验证集样本个数N_R，公式如下：

式中，h_t表示第t个基分类器，1≤t≤T；y_i表示真实的类标签； N^′为验证集样本个数；I(ture)＝1，I(false)＝0。

再进一步地，其特征在于：所述的无监督形式的样本边界值度量标准算法，其计算公式如下：

针对验证集中某一个样本点(x_i,y_i)而言，其中，代表投票数最多的类别的得票数，即集成系统中将样本(x_i,y_i)分类预测为c₁类别的基分类器数量最多；而/>代表投票数第二多的类别的得票数，依此类推，/>代表投票数最少的类别的得票数；

计算出基分类器池中的每个分类器h_t的平均边界值，其表达式如下：

再进一步地，步骤S4，针对基分类器池中某一个分类器的分类预测结果：

R_t＝[C_t(x₁),C_t(x₂),…,C_t(x_i),…,C_t(x_N′)]^T

计算其关于数据集标签类别的概率分布：

P_t＝(p₁,p₂,…,p_l,…,p_L)^T

其中，p_l为关于类别l的概率分布：

根据J-S散度计算得到两个不同分类器之间的J-S散度为：

其中，L为样本类别个数。当基分类器池中两个不同的分类器之间的J-S散度值越大，则表明其对应的分类结果的概率分布之间的信息差异越大。

再进一步地，将第t个基分类器与其它基分类器之间的平均差异程度表示为：

式中，1≤t≤T,1≤s≤T。

再进一步地，步骤S5，结合平均边界值、平均差异程度，采用目标函数进行综合度量，其公式表达式如下：

式中，λ∈[0，1]为正则化因子；

将基分类器池中的所有分类器按照TMD值进行降序排序，得到一个新的集成系统ES′＝{h₁′,h₂′,…,h_t′,…,h_T′}，其满足TMD(h′_t-1)>TMD(h′_t),0≤t≤T。

再进一步地，通过选取前S个能使集成系统ES^′在验证集上的平均分类正确率最大的基分类器，得到选择性集成后的分类器子集合：

ES_new＝arg max_{S,(1≤S≤T)}accuracy(ES′) (15)

ES_new＝{h₁′,h₂′,…,h_S′} (16)

其中，

与现有技术相比，本发明技术方案的有益效果是：

本发明提出的样本边界值度量标准算法无需知道样本的真实类别标签，是一种无监督形式的样本边界值度量标准，可以避免由于数据集中样本被误标记所带来的噪声影响，相比于现有的边界值度量标准相比，本发明对于含误标记噪声的数据集具有更强的鲁棒性。

此外，现有的边界值度量标准只考虑了两个类别，因此在面对最高得票数和第二得票数之差接近或相同的一些样本时，无法很好地度量他们距离决策边界的距离；而本发明提出的新的无监督形式的边界值度量标准将度量范围扩展到样本的所有已知类别，具有更好的适应性。

考虑到集成系统的多样性对集成系统泛化性能的影响，即集成系统中的各个分类器应该“好而不同”，本发明针对基分类器池中各个分类器的分类结果计算其关于数据集标签类别的概率分布，并引入J-S散度。通过J-S散度对不同分类器的分类结果的概率分布之间的差异性程度进行度量，如果某个分类器同整体的平均差异性程度较低，则其对集成系统的多样性贡献程度较低。通过剔除差异性低的基分类器，可以提升集成系统整体的多样性，使得集成系统更加精简。利用筛选后的分类器集合再去分类预测相同分布的数据集，可以减少存储开销和计算时间。

附图说明

图1是本实施例所述的数据分类方法的流程图。

图2是本实施例正常情况下海洋数据分类结果。

图3是本实施例5％的类标签标记错误情况下，海洋数据分类结果。

图4是本实施例10％的类标签标记错误情况下，海洋数据分类结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，仅用于示例性说明，不能理解为对本专利的限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于样本边界值及集成多样性的数据分类方法，所述的方法步骤包括如下：

本实施例假设初始数据集为一个维度N×n的矩阵：D＝{(x_i,y_i)|i＝ 1,2,…,N}，包含N个样本x_i和N个真实的类标签y_i，y_i∈{1,2,…,L}，即数据集共有L个类别。每个样本点x_i是一个d维的特征向量；H＝{h_t|t＝1,2,…,T}是一个包含T个基分类器的分类器池，其中，每个基分类器h_t相当于一个关于x_i的函数： y′_i＝h_t(x_i)，y′_i为预测的类标签。

在一个具体的实施例中，步骤S1，具体地，利用交叉验证将初始数据集等比例地划为三等份，分别用作训练集验证集/>测试集/>针对训练集D_tr，采用bootstrap进行m次有放回的随机采样，一直到bootstrap样本集中的样本数目与采样前的初始训练集的样本数目相同结束，重复T轮操作，得到T个包含m个训练样本的采样集D_{tr_t}(1≤t≤T)，采样出的训练子集互不相同，且|D_{tr_t}|＝|D_tr|。

在一个具体的实施例中，步骤S2，以CART(Classification and RegressionTree) 作基分类器，针对每个采样集中的所有样本利用基分类器进行训练，得到集成系统ES＝{h₁,h₂,…,h_t,…,h_T}。利用集成系统ES的每个基分类器针对验证集样本进行分类，采用多数投票得到验证集的分类预测结果矩阵/>其中，

R_t＝[C_t(x₁),C_t(x₂),…,C_t(x_j),…,C_t(x_N′)]^T为分类器池中第t个基分类器对验证集的分类结果构成的向量。

在一个具体的实施例中，步骤S2，根据分类预测结果矩阵，统计出验证集中各个样本属于每个类别的投票数矩阵即将该样本分类为某一类别的分类器的个数。对投票数矩阵Vote的各行元素进行降序排序，针对验证集中的每个样本x_j得到其排序后的投票数向量/>

将分类预测结果矩阵Mat与真实类标签向量对比，找出所有被正确分类的样本点D_{va_t}，并针对分类器池中的每个分类器，统计出被正确分类预测的验证集样本个数N_R：

式中，h_t表示第t个基分类器，1≤t≤T；y_j表示真实的类标签； N′为验证集样本个数；I(ture)＝1，I(false)＝0。

下面定义一种新的无监督形式的样本边界值度量标准算法，其公式表达式如下：

针对验证集中某一个样本点(x_j，y_j)而言，其中，代表投票数最多的类别的得票数，即集成系统中将样本(x_j,y_j)分类预测为c₁类别的基分类器数量最多；而/>代表投票数第二多的类别的得票数，依此类推，/>代表投票数最少的类别的得票数。

基于基分类器池中的每个分类器h_t，利用公式(2)分别计算出每个分类器h_t的平均边界值：

在一个具体的实施例中，步骤S4，鉴于现有的基于边界值的选择性集成学习算法很少考虑到分类器之间的差异性，本实施例还将从信息论的角度出发，引入Jenson-Shannon(J-S)散度，针对基分类器池中各个分类器的分类结果计算关于数据集标签类别的概率分布，并借此求它们的J-S散度。通过J-S散度对不同分类器的分类结果的概率分布之间的差异性程度进行度量，剔除差异性低的基分类器，提升集成系统整体的多样性。

设p＝{p₁,p₂,…,p_K}和q＝{q₁，q₂，…,q_K}是随机变量X上的两个概率分布，其中，K为离散随机变量的个数。则概率分布P和Q之间的J-S散度定义为：

其中，S是两个概率分布之间的K-L散度(Kullback-Leibler divergence)·

由公式(4)和(5)可得：

J-S散度具有如下性质：

(1)J-S散度是有界的，即0≤JS(p,q)≤1；

(2)J-S散度是对称的，即JS(p,q)＝JS(q,p)。

针对基分类器池中某一个分类器的分类预测结果：

R_t＝[C_t(x₁),C_t(x₂)，…，C_t(x_j),…,C_t(x_N′)]^T (8)

计算其关于数据集标签类别的概率分布：

P_t＝(p₁，p₂，…,p_l,…,p_L)^T (9)

其中，p_l为关于类别l的概率分布：

由公式(7)得到两个不同分类器之间的J-S散度(Classifiers Jensen-Shannondivergence)为：

当基分类器池中两个不同的分类器之间的J-S散度值越大，则表明其对应的分类结果的概率分布之间的信息差异越大，将第t个基分类器与其它基分类器之间的平均差异程度表示为：

当某个基分类器与其它基分类器之间的平均差异程度越大，则该基分类器对集成系统的多样性贡献程度也越大。通过剔除对集成系统多样性贡献成都低的分类器，降低集成系统的冗余度，减小搜索空间、计算时间和存储空间。

在一个具体的实施例中，为了同时考虑基分类器的平均边界值和多样性贡献程度，本实施例定义一种目标函数Tradeoff between margin and diversity(TMD)如下：

其中，λ∈[0，1]为正则化因子，用于对Φ(h_t)和这两种分类器度量标准的重要性程度进行平衡。

将基分类器池中的所有分类器按照TMD值进行降序排序，得到一个新的集成系统ES′＝{h₁′,h₂′,…,h_t′,…,h_T′}，其满足TMD(h′_t-1)>TMD(h′_t),0≤t≤T。排名越靠前的基分类器的TMD值越大，被认为具有更好的泛化性能。

通过选取前S个能使集成系统ES′在验证集上的平均分类正确率最大的基分类器，得到选择性集成后的分类器子集合：

ES_new＝arg max_{S,(1≤S≤T)}accuracy(ES′) (15)

ES_new＝{h₁′,h₂′,…,h_S′} (16)

其中，S的值并不是初始确定的，假设排序后的分类器序列为{h₄,h₁,h₃,h₂}，则可能的分类器子集合为：{h₄}，{h₄,h₁}， {h₄,h₁,h₃}，{h₄,h₁,h₃,h₂}，对应的平均分类正确率分别为：acc_Ⅰ，acc_Ⅱ，acc_Ⅲ， acc_Ⅳ。如果acc_Ⅱ在这四个正确率值中最高，则选取{h₄,h₁}为最终的分类器子集合。

利用筛选后得到的分类器子集合对测试集样本进行分类预测，获取最终的分类结果。

样本边界值可以表征样本距离分类边界的距离远近，如果只考虑那些被正确分类的样本，则当样本的边界值margin(x_j,y_j)越小时，该样本越靠近分类的决策边界，越难以被正确分类，这也就意味着该类样本包含着关于数据集类别的更多信息，相比于那些远离决策边界的样本而言需要更多关注。而对于基分类器池中的分类器来说，如果能将这些低边界值的样本都分类正确，那么这些分类器针对该数据集便具有更好的泛化性能，可以通过样本边界值来表征集成系统总体的边界值。

由公式(2)的定义可见，本实施例提出的样本边界值度量标准无需知道样本的真实类别标签，是一种无监督形式的边界值度量标准，可以避免由于数据集中样本被误标记所带来的噪声影响，与Guo H[Guo H,Liu H,Li R,et al.Margin&Diversity basedOrdering Ensemble Pruning[J]NEUROCOMPUTING,2017, 275(JAN.31):237-246]提出的边界值度量标准相比，本实施例对于含误标记噪声的数据集具有更强的鲁棒性。

此外，由Guo和Boukir[Guo L,Boukir S.Margin-based ordered aggregationfor ensemble pruning[M].Elsevier Science Inc.2013]提出的边界值度量标准只考虑了两个类别，因此在面对最高得票数和第二得票数之差接近或相同的一些样本时，无法很好地度量他们距离决策边界的距离；而本实施例提出的新的无监督形式的边界值度量标准将度量范围扩展到样本的所有已知类别，具有更好的适应性。

在Guo H[Guo H，Liu H，Li R，et al.Margin&Diversity based OrderingEnsemble Pruning[J].NEUROCOMPUTING，2017，275(JAN.31)：237-246]提出的算法中，没有考虑被正确分类的样本个数不同对集成系统总体边界值带来的影响。例如现在有h_a和h_b两个基分类器，h_a正确分类了两个样本x₁、x₂，而h_b正确分类了一个样本x₃，当x₁和x₂的边界值之和等于x₃时，会被认为这两个分类器的分类性能一样，但是h_a正确分类了两个边界值均小于x₃的样本，h_a也就理应被认为具有更好的泛化性能。因此，本实施例在求解集成系统的总体边界值时还考虑了被正确分类的样本个数N_R(h_t)，即对N_R(h_t)求平均值，使结果更加合理。

考虑到集成系统的多样性对集成系统泛化性能的影响，即集成系统中的各个分类器应该“好而不同”，本实施例针对基分类器池中各个分类器的分类结果计算其关于样本类别的概率分布，并借此求它们的J-S散度。通过J-S散度对不同分类器的分类结果的概率分布之间的差异性程度进行度量，如果某个分类器同整体的平均差异性程度较低，则其对集成系统的多样性贡献程度较低。通过剔除差异性低的基分类器，可以提升集成系统整体的多样性，使得集成系统更加精简。利用筛选后的分类器集合再去分类预测相同分布的数据集，可以减少存储开销和计算时间。

综上所述，本实施例提出的方法对于许多数据的分类准确率会有不同程度的提升。

为了进一步检验所提方法的分类性能，设计了如下实验：

在MATLAB 2016a软件下对UCI(University of California Irvine)和 KEEL(Knowledge Extraction Evolutionary Learning)公共数据库中的23个数据集上进行了数据分类实验。实验环境的计算机配置：CPU为core(TM)i7-8700，内存为16G，操作系统为Windows10，在本实验中使用的实验数据如表1所示。

表1、不同数据集的样本特性

下面是对实验所用的部分数据集作简单介绍：

Glass数据集根据玻璃的化学成分来判断玻璃的类型，目标是确定玻璃的用途。包含了214个样本，每个样本包含8个属性，分别为：折射率、钠、镁、铝、硅、钾、钙、钡、铁。玻璃的用途包括建筑房间用玻璃、车辆上的玻璃、玻璃容器等。确定玻璃的用途类型是为了鉴证。例如在一个车祸或犯罪现场，会有玻璃的碎片，确定这些玻璃碎片的用途、来源，有助于确定谁是过错方或者谁是罪犯。

Zoo是动物园数据集。包含101个样本，通过统计动物园中动物的：羽毛、是否卵生、水生、腿的数量、尾巴、毒性等16个特征，对动物进行分类。

Car是汽车评估数据集，包含1728个样本，6个特征，如：车门数、可乘车人数、安全性、维护保养价格、购买价格、行李箱尺寸。用以对汽车价值进行评估。

Ecoli数据集有307个样本，通过测量细胞的7个特征(包括细胞质、内膜、周质、外膜、外膜脂蛋白、内膜脂蛋白内膜、可分裂的信号序列)来预测蛋白质的定位点。

Tic-tac-toe数据集来源于一个三子相连获胜的游戏，不管是横竖斜相连，只要能够连成一条线即可，这个数据库编码在一字棋游戏结束时可能的棋盘配置的完整集合，假设“x”先玩。目标是“x获胜”(即，当“x”有8种可能的方法来创建 “three-in-a-row”时，为真)。

Seeds通过测量了小麦籽粒的7个几何参数：包括面积，周长，紧密度，籽粒长度，籽粒宽度，不对称系数，籽粒槽的长度。来确定小麦属于三个品种(卡马、罗莎和加拿大小麦)中的哪一个。

Segment数据集中的样本实例是从7张户外图片的数据库中随机抽取的。图像被手工分割，为每个像素创建一个分类。

Tae数据包括三个常规学期和两个夏季学期中威斯康星大学麦迪逊分校统计系151个助教(助教)作业的教学表现评估。分数被划分为3个大小大致相同的类别(“低”、“中”、“高”)，形成类别变量。

Vowel收集的数据来自9名男性说话者连续发出两个日语元音/ae/。对于每句话，我们使用如下所述的分析参数，对其进行12度线性预测分析，得到12个 LPC倒谱系数的离散时间序列。这意味着说话人的一个话语形成了一个长度在 7-29范围内的时间序列，时间序列的每个点有12个特征(12个系数)。

Wdbc数据集包含从一个乳腺肿块的细针抽吸(FNA)的数字化图像计算得到的30个特征。它们描述了图像中细胞核的特征。这个分类的目的是为了确定发现的肿瘤是良性还是恶性的。对三个不同的细胞核分别计算以下十个实值特征组成30个样本特征:a)半径:从中心到周长上点的距离的平均值；b)纹理:灰度值的标准差；c)周长；d)面积；e)平滑度:半径长度的局部变化；f)紧凑性:周长^2/面积- 1.0；g)凹性:轮廓的凹部分的严重程度；h)凹点:轮廓线的凹部分数；i)对称性； j)分形维数。

PenDigits通过收集来自44位作者的250个样本来创建一个手写数字识别数据库。数据通过WACOM PL-100V压敏平板电脑，集成LCD显示屏和无绳触控笔采集。输入区和显示区位于同一位置。连接到基于Intel 486的个人电脑的串口上，它允许收集笔迹样本。tablet发送$x$和$y$tablet坐标和笔的压力水平值在固定的时间间隔(采样率)100毫秒。

Phoneme数据集的目的是区分鼻音(第0类)和口腔音(第1类)。类分布为第0 类3818个样本和第1类1586个样本。音素的转录如下:sh为she,dcl为dark,iy 为she的元音，aa为dark的元音，ao为water的第一个元音。

Ringnorm数据集来自一个20维2类的分类问题。每一类都是从多元正态分布中得出的。

Spambase数据库包含关于4597封电子邮件的信息。任务是确定给定的电子邮件是否是垃圾邮件(第1类)(第2类)，取决于它的内容(从原始数据集中删除了 4个重复的实例)。大多数属性表明一个特定的单词或字符是否经常出现在电子邮件中。

在实验中，将数据集通过交叉验证的方式随机分成三份，分别为训练集、验证集和测试集，选取CART作为基分类器，来自于Matlab统计工具箱中的 Classregtree分类器。初始集成分类器规模设置为200个基分类器；将100次重复实验的结果取平均值，得到最终的分类准确率。为了确保实验的公平性，每个实验数据集的划分比例在相同的数据集上执行不同的分类方法时保持不变，以确保训练集、验证集和测试集用于每个分类方法都是相同的。在实验中选取了四种对比算法，它们均为集成学习分类算法，其中，Baggin[Breiman,Leo.Bagging Predictors[J].Machine Learning,1996,24(2):123-140]为经典的集成学习算法，没有经过分类器的筛选；UMEP[Guo L,Boukir S.Margin-based orderedaggregation for ensemble pruning[M].Elsevier Science Inc.2013]和MDEP[Guo H,Liu H,Li R,et al.Margin&Diversity based Ordering Ensemble Pruning[J].NEUROCOMPUTING,2017,275(JAN.31):237-246]均为利用边界值进行选择性分类器集成的分类算法；COMEP[Yijun,Bian,Wang,et al.Ensemble Pruning Based on ObjectionMaximization With a General Distributed Framework.[J].IEEE transactions onneural networks and learning systems,2019]为利用差异互信息熵来进行分类器排序并筛选的选择性集成算法。在实验中，为方便起见，MDEP中的α按照原论文中设置为0.2，本实施例提出的方法和COMEP算法中的λ均设置为0.2。

在实验操作中，为了避免每一维特征的单位和范围不同，而分类产生影响，需要先将特征进行标准化处理，实验中使用z-score标准化：

其中，X_i为原始第i维特征样本数据，Z_i为标准化之后的第i维样本特征，E (X_i)为第i维特征样本的均值，为第i维特征的标准差，利用公式(17) 就可以将原始数据变成均值为零，方差为1的标准化数据，这样就可以将不同量级的数据转化为同一量级，增加数据的可比性。

5种集成分类算法在22个测试数据集上的分类准确率。从表2可以看出，对于绝大部分的数据集，本实施例提出的方法都可以表现出较好的分类性能，与 Bagging、MDEP、UMEP、COMEP四种集成学习分类方法相比，性能均有不同程度的提高，具有一定的竞争力。表2中，本实施例的方法分类表现较好的结果用粗体字高亮。

表2 5种集成分类算法在23个测试数据集上的分类准确率

此外，本次实验还统计出进行选择性集成后的分类器子集合规模，综合四个选择性集成分类算法进行比较。集成学习的分类速度主要取决于集成系统中基分类器的数量和复杂度；对于统一使用CART树作为基分类器的算法，尽量减少集成系统规模可以减少计算时间和存储开销。表3显示了在所有数据集上，通过基于排序的四种选择性集成分类方法，在进行筛选后得到的集成系统子集合中的分类器的平均数量。我们的技术在选择性集成后分类器的规模上与COMEP方法相比略高，但是总体差距不大，且集成规模明显小于另外两种分类算法UMEP和 MDEP。可见，使用本实施例的方法，能显著减少集成系统中的分类器数量，减小计算代价。

表3 4种选择性集成分类算法在23个数据集上精简后的集成规模

本次实验还比较了本实施例的方法同其它4种集成分类算法在对抗误标记噪声数据时的性能差异。例如海洋数据在实际标记类别的时候会存在标记错误的情况，因此本实施例选取海洋数据，初始集成系统分类器数量依次设置为：10、 20、30……90、100，对样本类标签分别按照5％和10％的比例随机修改，并同正常情况比较，重复训练100次取平均值，以测试不同分类方法对抗误标记噪声数据时的性能表现。正常情况下海洋数据分类结果如图2所示，分别进行5％和 10％的类标签标记错误情况下，海洋数据分类结果如图3和图4所示。

可见，随着初始分类器数量的增加，分类准确率不断提升，并且本发明所提

本实施例所述的方法可以用于对采集的海洋传感器数据分类以进行预警提示。如实验中所用的Ocean data来自于国家地球系统科学数据中心 (http://www.geodata.cn)。本次实验整理和收集了南海海洋断面科学考察项目于 2009年春季、2010年秋季、2011年冬季、2012年夏季四个航次的海流和 CTD观测数据，抽取了总共1000个样本，整理的要素为相同经纬度下观测的温度、盐度、密度、声速和流速等特征。这些数据都是海洋环境正常时所观测得到的数据，本次实验首先在这些原始数据的基础上添加随机噪声，以模拟海洋环境异常时的情况，再使用制定的预警等级划分规则对数据进行等级划分，数据加上不同的模式标签。对整理后的海洋数据按照训练集、验证集和测试集进行等比例划分。用训练集训练出200个基分类器，并对验证集进行分类预测。用所提出的无监督形式边界值度量标准去衡量样本距离分类决策边界的间隔距离，重点关注那些边界值较小、靠近决策边界的难以分类的样本。通过分类正确的样本的边界值得到基分类器的平均边界值。再以提升集成系统总体边界值为目标，同时考虑分类器之间的差异性，通过多数投票融合最后的分类结果。实验结果表明，本实施例提出的方法相比于其它集成学习方法，均有不同程度的提高，分类准确率可以达到94.3％，同时，集成规模可以缩减到16个分类器。

本实施例还可以根据农作物的外部特征来区分农作物的品种，比如根据外部特征来得到小麦种子的品种。具体应用可以采用UCI公共数据集中的Seeds数据集作为训练样本，也可以预先测量小麦种子的不同特性，包括但不限于种子的面积、周长、紧密度、籽粒长度、籽粒宽度、不对称系数、籽粒槽的长度等等，记录种子本身属于的品种作为标签，来形成训练样本集合。通过对训练样本结合进行训练集、验证集和测试集的划分，利用本发明提出的方法找出那些难以进行简单分类的小麦种子，找出那些能够将其正确分类的分类器，得到一个针对该批小麦种子的精简的分类器集合。那么对于未知品种小麦种子，通过测量种子的上述特性，组成特征向量，输入本实施例的数据分类方法进行分类预测，可以自动得出种子的品种。

在各种应用中，为了避免每一维特征的单位和范围不同，对分类产生影响，需要先将特征进行标准化处理，如上述实验中使用的z-score标准化，当然也可以使用其他的标准化或者归一化方法。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于样本边界值及集成多样性的数据分类方法，其特征在于：所述的方法步骤包括如下：

S1：将初始数据集划分为训练集D_tr、验证集D_va、测试集D_te；并采用bootstrap对训练集D_tr进行处理，得到采样集D_{tr_t}，1≤t≤T；

S3：根据分类预测结果矩阵进行统计得到投票数向量、验证集样本个数N_R，通过无监督形式的样本边界值度量标准算法计算出基分类器池中的每个分类器h_t的平均边界值；

S5：结合平均边界值、平均差异程度进行综合度量，得到新的集成系统ES′，通过选取得到选择性集成后的分类器子集合ES_new；

S6：利用分类器子集合ES_new对测试集进行分类预测，获取最终的分类结果；

所述初始数据集包括Glass数据集、动物园数据集、汽车评估数据集、Ecoli数据集、Seeds数据集、Vowel数据集、Wdbc数据集、PenDigits数据库、Phoneme数据集；

其中，Glass数据集包含214个样本，每个样本包含8个属性，分别为：折射率、钠、镁、铝、硅、钾、钙、钡、铁；Glass数据集用于根据玻璃的化学成分来判断玻璃的类型；

动物园数据集包含101个样本，通过统计动物园中动物的：羽毛、是否卵生、水生、腿的数量、尾巴、毒性特征，对动物进行分类；

汽车评估数据集，包含1728个样本，6个特征：车门数、可乘车人数、安全性、维护保养价格、购买价格、行李箱尺寸，用于对汽车价值进行评估；

Ecoli数据集有307个样本，通过测量细胞的7个特征，包括细胞质、内膜、周质、外膜、外膜脂蛋白、内膜脂蛋白内膜、可分裂的信号序列，来预测蛋白质的定位点；

Seeds数据集通过测量小麦籽粒的7个几何参数：包括面积、周长、紧密度、籽粒长度、籽粒宽度、不对称系数、籽粒槽的长度，来确定小麦属于三个品种中的哪一个；品种包括卡马、罗莎和加拿大小麦；

Vowel数据集收集的数据来自9名男性说话者连续发出两个日语元音/ae/，对于每句话，使用分析参数，对其进行12度线性预测分析，得到12个LPC倒谱系数的离散时间序列，这意味着说话人的一个话语形成了一个长度在7-29范围内的时间序列，时间序列的每个点有12个特征；

Wdbc数据集包含从一个乳腺肿块的细针抽吸的数字化图像计算得到的30个特征，Wdbc数据集描述了图像中细胞核的特征；对三个不同的细胞核分别计算以下十个实值特征组成30个样本特征:a)半径:从中心到周长上点的距离的平均值；b)纹理:灰度值的标准差；c)周长；d)面积；e)平滑度:半径长度的局部变化；f)紧凑性:周长^2/面积-1.0；g)凹性:轮廓的凹部分的严重程度；h)凹点:轮廓线的凹部分数；i)对称性；j)分形维数；

Phoneme数据集的目的是区分鼻音和口腔音，鼻音记为第0类)，口腔音记为第1类；类分布为第0类3818个样本和第1类1586个样本，音素的转录如下:sh为she,dcl为dark,iy为she的元音，aa为dark的元音，ao为water的第一个元音；

步骤S3，将分类预测结果矩阵Mat与真实类标签向量对比，找出所有被正确分类的样本点D_{va_t}，并针对分类器池中的每个分类器，统计出被正确分类预测的验证集样本个数N_R，公式如下：

式中，h_t表示第t个基分类器，1≤t≤T；y_i表示类标签；N′为验证集样本个数；I(ture)＝1，I(false)＝0；

所述的无监督形式的样本边界值度量标准算法，其计算公式如下：

2.根据权利要求1所述的基于样本边界值及集成多样性的数据分类方法，其特征在于：步骤S1，采用bootstrap对训练集D_tr进行处理，具体如下：

采用bootstrap进行m次有放回的随机采样，一直到bootstrap样本集中的样本数目与采样前的初始训练集的样本数目相同结束，重复T轮操作，得到T个包含m个训练样本的采样集D_{tr_t}，其中1≤t≤T，采样出的训练子集互不相同，且|D_{tr_t}|＝|D_tr|。

3.根据权利要求1所述的基于样本边界值及集成多样性的数据分类方法，其特征在于：步骤S2，采用CART作基分类器，利用集成系统ES的每个基分类器对验证集进行分类，采用多数投票得到验证集的分类预测结果矩阵其中，R_t＝[C_t(x₁),C_t(x₂),…,C_t(x_i),…,C_t(x_N′)]^T为分类器池中第t个基分类器对验证集的分类结果构成的向量。

4.根据权利要求1所述的基于样本边界值及集成多样性的数据分类方法，其特征在于：步骤S3，根据分类预测结果矩阵Mat，统计出验证集中各个样本属于每个类别的投票数矩阵对投票数矩阵Vote的各行元素进行降序排序，针对验证集中的每个样本x_i得到其排序后的投票数向量/>

5.根据权利要求1所述的基于样本边界值及集成多样性的数据分类方法，其特征在于：步骤S4，针对基分类器池中某一个分类器的分类预测结果：

R_t＝[C_t(x₁),C_t(x₂),…,C_t(x_i),…,C_t(x_N′)]^T

计算其关于数据集标签类别的概率分布：

P_t＝(p₁,p₂,…,p_l,…,p_L)^T

其中，p_l为关于类别l的概率分布：

根据J-S散度计算得到两个不同分类器之间的J-S散度为：

其中，L为样本类别个数，T为基分类器个数，当基分类器池中两个不同的分类器之间的J-S散度值越大，则表明其对应的分类结果的概率分布之间的信息差异越大。

6.根据权利要求5所述的基于样本边界值及集成多样性的数据分类方法，其特征在于：将第t个基分类器与其它基分类器之间的平均差异程度表示为：

式中，1≤t≤T,1≤s≤T。

7.根据权利要求6所述的基于样本边界值及集成多样性的数据分类方法，其特征在于：步骤S5，结合平均边界值、平均差异程度，采用目标函数进行综合度量，其公式表达式如下：

式中，λ∈[0,1]为正则化因子；

8.根据权利要求7所述的基于样本边界值及集成多样性的数据分类方法，其特征在于：通过选取前S个能使集成系统ES′在验证集上的平均分类正确率最大的基分类器，得到选择性集成后的分类器子集合：

ES_new＝arg max_{S,(1≤S≤T)}accuracy(ES′) (15)

ES_new＝{h₁′,h₂′,…,h_S′} (16)

其中，