CN112906779B - 基于样本边界值及集成多样性的数据分类方法 - Google Patents

基于样本边界值及集成多样性的数据分类方法 Download PDF

Info

Publication number
CN112906779B
CN112906779B CN202110169621.2A CN202110169621A CN112906779B CN 112906779 B CN112906779 B CN 112906779B CN 202110169621 A CN202110169621 A CN 202110169621A CN 112906779 B CN112906779 B CN 112906779B
Authority
CN
China
Prior art keywords
classifier
sample
classification
samples
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110169621.2A
Other languages
English (en)
Other versions
CN112906779A (zh
Inventor
刘星成
沈子雄
刘异橦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110169621.2A priority Critical patent/CN112906779B/zh
Publication of CN112906779A publication Critical patent/CN112906779A/zh
Application granted granted Critical
Publication of CN112906779B publication Critical patent/CN112906779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于样本边界值及集成多样性的数据分类方法,包括如下:将初始数据集划分为训练集、验证集、测试集;对训练集行处理,得到采样集;对每个采样集采用基分类器进行训练,得到集成系统;利用集成系统对验证集进行分类,得到验证集的分类预测结果矩阵;根据分类预测结果矩阵进行统计得到投票数向量、验证集样本个数,计算出基分类器池中的每个分类器的平均边界值;计算关于数据集标签类别的概率分布,并引入J‑S散度,计算得到某个基分类器与其它基分类器之间的平均差异程度;结合平均边界值、平均差异程度进行综合度量,得到新的集成系统,通过选取得到分类器子集合;利用分类器子集合对测试集进行分类预测,获取分类结果。

Description

基于样本边界值及集成多样性的数据分类方法
技术领域
本发明涉及机器学习技术领域,更具体地,涉及一种基于样本边界值及集成 多样性的数据分类方法。
背景技术
分类是机器学习的主要任务之一,其根据已知标签类别的数据来训练学习分 类器或算法,从而利用训练好的分类器或算法再去对未知的数据进行分类预测, 重点在于如何提高最终的识别正确率,降低分类错误率。
现有的分类方法有集成学习方法(ensemble learning)[Dietterich T G.Ensemble Methods in Machine Learning[C]//International Workshop on MultipleClassifier Systems.Springer,Berlin,Heidelberg,2000](也可称为多分类器系统(multi-classifier system))、基于委员会的学习(committee-based learning)等, 其依托某种生成方法得到一系列数量众多且相互之间又有一定差异性的基分类 器,再根据特定的策略对分类结果进行整合并最终输出。
然而传统的集成学习方法存在以下几个问题:
第一个问题:现有的许多经典集成学习方法为了追求更高的泛化性能而训练 数量众多的基分类器,由此也会出现部分基分类器的分类正确率不高、分类器相 互之间的差异性比较小的情况,需要大量的计算资源去计算单个分类器的输出额 外地浪费了许多存储资源,此外还会在一定程度上影响分类器总体的泛化性能。Zhou[Wei Gao,Zhi-HuaZhou.On the doubt about margin explanation of boosting[J].ArtificialIntelligence.2013,203:1-18]就曾在文章中论证过:集成系统的分类器子 集合一般会比由所有分类器构成的集成系统的表现出更佳的泛化能力。如果能够从全部基分类器集合中筛选出部分基分类器并使得筛选出的基分类器的分类精 度较高且相互之间的差异性较大,就能从整体上提升集成系统的泛化能力,同时 又减少了内存占用,提高了装载速度和处理速度。
第二个问题:在许多实际的数据分类问题中,在给获取到的数据集打样本标 签时会出现标注错误的情况,类似于Boosting这种串行式的集成算法会过度关注 被错误分类的样本,因而面对错误标注的样本会出现过度拟合的情况。如何增强 集成系统应对误标注噪声样本的能力也具有重要的研究意义。
第三个问题:多样性增强问题。Krogh[19]给出了“误差-分歧分解”,明确指 出基分类器准确率越高、基分类器之间的多样性越大,则集成性能越好。如果集 成系统中的众多基分类器之间很相似则完全没有必要生成众多的分类器,因此集成系统应该在保持基分类器高正确率的同时又能使得相互之间有一定的差异,即 优势互补,通过多个不同的决策边界来更好地拟合真实的决策边界。
发明内容
本发明为克服上述现有技术中集成学习方法为了追求更高的泛化性能而训 练数量众多的基分类器,需要大量的计算资源去计算单个分类器的输出额外地浪 费了许多存储资源的问题,提供了一种基于样本边界值及集成多样性的数据分类 方法,其能通过剔除差异性低的基分类器,提升集成系统整体的多样性,使得集 成系统更加精简,利用筛选后的分类器集合再去分类预测相同分布的数据集,可以减少存储开销和计算时间。
为解决上述技术问题,本发明的技术方案如下:一种基于样本边界值及集成 多样性的数据分类方法,所述的方法步骤包括如下:
S1:将初始数据集划分为训练集Dtr、验证集Dva、测试集Dte;并采用并行 Bagging算法对训练集Dtr进行处理,得到采样集Dtr_t,1≤t≤T;
S2:对每个采样集Dtr_t采用基分类器进行训练,得到集成系统ES;利用集 成系统ES的每个基分类器对验证集进行分类,得到验证集的分类预测结果矩阵;
S3:根据分类预测结果矩阵进行统计得到投票数向量、验证集样本个数NR, 通过无监督形式的样本边界值度量标准算法计算出基分类器池中的每个分类器 ht的平均边界值;
S4:计算关于数据集标签类别的概率分布,并引入J-S散度,进而计算得到 某个基分类器与其它基分类器之间的平均差异程度;
S5:结合平均边界值、平均差异程度进行综合度量,得到新的集成系统ES, 通过选取得到选择性集成后的分类器子集合ESnew
S6:利用分类器子集合ESnew对测试集进行分类预测,获取最终的分类结果。
优选地,步骤S1,采用并行Bagging算法对训练集Dtr进行处理,具体如下:
采用bootstrap进行m次有放回的随机采样,一直到bootstrap样本集中的样 本数目与采样前的初始训练集的样本数目相同结束,重复T轮操作,得到T个包 含m个训练样本的采样集Dtr_t,其中1≤t≤T,采样出的训练子集互不相同,且 |Dtr_t|=|Dtr|。
进一步地,步骤S2,利用集成系统ES的每个基分类器对验证集进行分类, 采用多数投票得到验证集的分类预测结果矩阵 其中,Rt=[Ct(x1),Ct(x2),…,Ct(xi),…,Ct(xN′)]T为分类器池中第t个基 分类器对验证集的分类结果构成的向量。
再进一步地,步骤S3,根据分类预测结果矩阵Mat,统计出验证集中各个样 本属于每个类别的投票数矩阵对投票数矩阵Vote的各行元素进行 降序排序,针对验证集中的每个样本xi得到其排序后的投票数向量/>
再进一步地,步骤S3,将分类预测结果矩阵Mat与真实类标签向量对比,找 出所有被正确分类的样本点Dva_t,并针对分类器池中的每个分类器,统计出被正 确分类预测的验证集样本个数NR,公式如下:
式中,ht表示第t个基分类器,1≤t≤T;yi表示真实的类标签; N为验证集样本个数;I(ture)=1,I(false)=0。
再进一步地,其特征在于:所述的无监督形式的样本边界值度量标准算法, 其计算公式如下:
针对验证集中某一个样本点(xi,yi)而言,其中,代表投票数最多的类别的 得票数,即集成系统中将样本(xi,yi)分类预测为c1类别的基分类器数量最多;而/>代表投票数第二多的类别的得票数,依此类推,/>代表投票数最少的类别的 得票数;
计算出基分类器池中的每个分类器ht的平均边界值,其表达式如下:
再进一步地,步骤S4,针对基分类器池中某一个分类器的分类预测结果:
Rt=[Ct(x1),Ct(x2),…,Ct(xi),…,Ct(xN′)]T
计算其关于数据集标签类别的概率分布:
Pt=(p1,p2,…,pl,…,pL)T
其中,pl为关于类别l的概率分布:
根据J-S散度计算得到两个不同分类器之间的J-S散度为:
其中,L为样本类别个数。当基分类器池中两个不同的分类器之间的J-S散 度值越大,则表明其对应的分类结果的概率分布之间的信息差异越大。
再进一步地,将第t个基分类器与其它基分类器之间的平均差异程度表示为:
式中,1≤t≤T,1≤s≤T。
再进一步地,步骤S5,结合平均边界值、平均差异程度,采用目标函数进 行综合度量,其公式表达式如下:
式中,λ∈[0,1]为正则化因子;
将基分类器池中的所有分类器按照TMD值进行降序排序,得到一个新的集 成系统ES′={h1′,h2′,…,ht′,…,hT′},其满足TMD(h′t-1)>TMD(h′t),0≤t≤T。
再进一步地,通过选取前S个能使集成系统ES在验证集上的平均分类正确率 最大的基分类器,得到选择性集成后的分类器子集合:
ESnew=arg maxS,(1≤S≤T)accuracy(ES′) (15)
ESnew={h1′,h2′,…,hS′} (16)
其中,
与现有技术相比,本发明技术方案的有益效果是:
本发明提出的样本边界值度量标准算法无需知道样本的真实类别标签,是一 种无监督形式的样本边界值度量标准,可以避免由于数据集中样本被误标记所带 来的噪声影响,相比于现有的边界值度量标准相比,本发明对于含误标记噪声的 数据集具有更强的鲁棒性。
此外,现有的边界值度量标准只考虑了两个类别,因此在面对最高得票数和 第二得票数之差接近或相同的一些样本时,无法很好地度量他们距离决策边界的 距离;而本发明提出的新的无监督形式的边界值度量标准将度量范围扩展到样本 的所有已知类别,具有更好的适应性。
考虑到集成系统的多样性对集成系统泛化性能的影响,即集成系统中的各个 分类器应该“好而不同”,本发明针对基分类器池中各个分类器的分类结果计算 其关于数据集标签类别的概率分布,并引入J-S散度。通过J-S散度对不同分类器的分类结果的概率分布之间的差异性程度进行度量,如果某个分类器同整体的 平均差异性程度较低,则其对集成系统的多样性贡献程度较低。通过剔除差异性 低的基分类器,可以提升集成系统整体的多样性,使得集成系统更加精简。利用 筛选后的分类器集合再去分类预测相同分布的数据集,可以减少存储开销和计算 时间。
附图说明
图1是本实施例所述的数据分类方法的流程图。
图2是本实施例正常情况下海洋数据分类结果。
图3是本实施例5%的类标签标记错误情况下,海洋数据分类结果。
图4是本实施例10%的类标签标记错误情况下,海洋数据分类结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,仅用于示例性 说明,不能理解为对本专利的限制。基于本发明中的实施例,本领域普通技术人 员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于样本边界值及集成多样性的数据分类方法,所述的方 法步骤包括如下:
S1:将初始数据集划分为训练集Dtr、验证集Dva、测试集Dte;并采用并行 Bagging算法对训练集Dtr进行处理,得到采样集Dtr_t,1≤t≤T;
S2:对每个采样集Dtr_t采用基分类器进行训练,得到集成系统ES;利用集 成系统ES的每个基分类器对验证集进行分类,得到验证集的分类预测结果矩阵;
S3:根据分类预测结果矩阵进行统计得到投票数向量、验证集样本个数NR, 通过无监督形式的样本边界值度量标准算法计算出基分类器池中的每个分类器 ht的平均边界值;
本实施例假设初始数据集为一个维度N×n的矩阵:D={(xi,yi)|i= 1,2,…,N},包含N个样本xi和N个真实的类标签yi,yi∈{1,2,…,L},即数据集共 有L个类别。每个样本点xi是一个d维的特征向量;H={ht|t=1,2,…,T}是一个 包含T个基分类器的分类器池,其中,每个基分类器ht相当于一个关于xi的函数: y′i=ht(xi),y′i为预测的类标签。
在一个具体的实施例中,步骤S1,具体地,利用交叉验证将初始数据集等 比例地划为三等份,分别用作训练集验证集/>测试集/>针对训练集Dtr,采用bootstrap进行m次有放回的随机采样,一直 到bootstrap样本集中的样本数目与采样前的初始训练集的样本数目相同结束, 重复T轮操作,得到T个包含m个训练样本的采样集Dtr_t(1≤t≤T),采样出的训 练子集互不相同,且|Dtr_t|=|Dtr|。
在一个具体的实施例中,步骤S2,以CART(Classification and RegressionTree) 作基分类器,针对每个采样集中的所有样本利用基分类器进行训练,得到集 成系统ES={h1,h2,…,ht,…,hT}。利用集成系统ES的每个基分类器针对验证集样 本进行分类,采用多数投票得到验证集的分类预测结果矩阵/>其中,
Rt=[Ct(x1),Ct(x2),…,Ct(xj),…,Ct(xN′)]T为分类器池中第t个基分类器对验证集的分类结果构成的向量。
在一个具体的实施例中,步骤S2,根据分类预测结果矩阵,统计出验证集 中各个样本属于每个类别的投票数矩阵即将该样本分类为某一类 别的分类器的个数。对投票数矩阵Vote的各行元素进行降序排序,针对验证集中 的每个样本xj得到其排序后的投票数向量/>
将分类预测结果矩阵Mat与真实类标签向量对比,找出所有被正确分类的样 本点Dva_t,并针对分类器池中的每个分类器,统计出被正确分类预测的验证集样 本个数NR
式中,ht表示第t个基分类器,1≤t≤T;yj表示真实的类标签; N′为验证集样本个数;I(ture)=1,I(false)=0。
下面定义一种新的无监督形式的样本边界值度量标准算法,其公式表达式如 下:
针对验证集中某一个样本点(xj,yj)而言,其中,代表投票数最多的类别 的得票数,即集成系统中将样本(xj,yj)分类预测为c1类别的基分类器数量最多; 而/>代表投票数第二多的类别的得票数,依此类推,/>代表投票数最少的类别 的得票数。
基于基分类器池中的每个分类器ht,利用公式(2)分别计算出每个分类器ht的 平均边界值:
在一个具体的实施例中,步骤S4,鉴于现有的基于边界值的选择性集成学 习算法很少考虑到分类器之间的差异性,本实施例还将从信息论的角度出发,引 入Jenson-Shannon(J-S)散度,针对基分类器池中各个分类器的分类结果计算关于数据集标签类别的概率分布,并借此求它们的J-S散度。通过J-S散度对不同分 类器的分类结果的概率分布之间的差异性程度进行度量,剔除差异性低的基分类 器,提升集成系统整体的多样性。
设p={p1,p2,…,pK}和q={q1,q2,…,qK}是随机变量X上的两个概率分布, 其中,K为离散随机变量的个数。则概率分布P和Q之间的J-S散度定义为:
其中,S是两个概率分布之间的K-L散度(Kullback-Leibler divergence)·
由公式(4)和(5)可得:
J-S散度具有如下性质:
(1)J-S散度是有界的,即0≤JS(p,q)≤1;
(2)J-S散度是对称的,即JS(p,q)=JS(q,p)。
针对基分类器池中某一个分类器的分类预测结果:
Rt=[Ct(x1),Ct(x2),…,Ct(xj),…,Ct(xN′)]T (8)
计算其关于数据集标签类别的概率分布:
Pt=(p1,p2,…,pl,…,pL)T (9)
其中,pl为关于类别l的概率分布:
由公式(7)得到两个不同分类器之间的J-S散度(Classifiers Jensen-Shannondivergence)为:
当基分类器池中两个不同的分类器之间的J-S散度值越大,则表明其对应的 分类结果的概率分布之间的信息差异越大,将第t个基分类器与其它基分类器之 间的平均差异程度表示为:
当某个基分类器与其它基分类器之间的平均差异程度越大,则该基分类器对 集成系统的多样性贡献程度也越大。通过剔除对集成系统多样性贡献成都低的分 类器,降低集成系统的冗余度,减小搜索空间、计算时间和存储空间。
在一个具体的实施例中,为了同时考虑基分类器的平均边界值和多样性贡献 程度,本实施例定义一种目标函数Tradeoff between margin and diversity(TMD)如 下:
其中,λ∈[0,1]为正则化因子,用于对Φ(ht)和这两种分类器度量标准的 重要性程度进行平衡。
将基分类器池中的所有分类器按照TMD值进行降序排序,得到一个新的集 成系统ES′={h1′,h2′,…,ht′,…,hT′},其满足TMD(h′t-1)>TMD(h′t),0≤t≤T。 排名越靠前的基分类器的TMD值越大,被认为具有更好的泛化性能。
通过选取前S个能使集成系统ES′在验证集上的平均分类正确率最大的基分 类器,得到选择性集成后的分类器子集合:
ESnew=arg maxS,(1≤S≤T)accuracy(ES′) (15)
ESnew={h1′,h2′,…,hS′} (16)
其中,S的值并不是初始确定的,假 设排序后的分类器序列为{h4,h1,h3,h2},则可能的分类器子集合为:{h4},{h4,h1}, {h4,h1,h3},{h4,h1,h3,h2},对应的平均分类正确率分别为:acc,acc,acc, acc。如果acc在这四个正确率值中最高,则选取{h4,h1}为最终的分类器子集 合。
利用筛选后得到的分类器子集合对测试集样本进行分类预测,获取最终的分 类结果。
样本边界值可以表征样本距离分类边界的距离远近,如果只考虑那些被正确 分类的样本,则当样本的边界值margin(xj,yj)越小时,该样本越靠近分类的决 策边界,越难以被正确分类,这也就意味着该类样本包含着关于数据集类别的更 多信息,相比于那些远离决策边界的样本而言需要更多关注。而对于基分类器池 中的分类器来说,如果能将这些低边界值的样本都分类正确,那么这些分类器针 对该数据集便具有更好的泛化性能,可以通过样本边界值来表征集成系统总体的边界值。
由公式(2)的定义可见,本实施例提出的样本边界值度量标准无需知道样本 的真实类别标签,是一种无监督形式的边界值度量标准,可以避免由于数据集中 样本被误标记所带来的噪声影响,与Guo H[Guo H,Liu H,Li R,et al.Margin&Diversity basedOrdering Ensemble Pruning[J]NEUROCOMPUTING,2017, 275(JAN.31):237-246]提出的边界值度量标准相比,本实施例对于含误标记噪声 的数据集具有更强的鲁棒性。
此外,由Guo和Boukir[Guo L,Boukir S.Margin-based ordered aggregationfor ensemble pruning[M].Elsevier Science Inc.2013]提出的边界值度量标准只考虑了两个类别,因此在面对最高得票数和第二得票数之差接近或相同的一些样本时, 无法很好地度量他们距离决策边界的距离;而本实施例提出的新的无监督形式的 边界值度量标准将度量范围扩展到样本的所有已知类别,具有更好的适应性。
在Guo H[Guo H,Liu H,Li R,et al.Margin&Diversity based OrderingEnsemble Pruning[J].NEUROCOMPUTING,2017,275(JAN.31):237-246]提出的算 法中,没有考虑被正确分类的样本个数不同对集成系统总体边界值带来的影响。例如现在有ha和hb两个基分类器,ha正确分类了两个样本x1、x2,而hb正确分类 了一个样本x3,当x1和x2的边界值之和等于x3时,会被认为这两个分类器的分类 性能一样,但是ha正确分类了两个边界值均小于x3的样本,ha也就理应被认为具 有更好的泛化性能。因此,本实施例在求解集成系统的总体边界值时还考虑了被 正确分类的样本个数NR(ht),即对NR(ht)求平均值,使结果更加合理。
考虑到集成系统的多样性对集成系统泛化性能的影响,即集成系统中的各个 分类器应该“好而不同”,本实施例针对基分类器池中各个分类器的分类结果计 算其关于样本类别的概率分布,并借此求它们的J-S散度。通过J-S散度对不同分类器的分类结果的概率分布之间的差异性程度进行度量,如果某个分类器同整 体的平均差异性程度较低,则其对集成系统的多样性贡献程度较低。通过剔除差 异性低的基分类器,可以提升集成系统整体的多样性,使得集成系统更加精简。 利用筛选后的分类器集合再去分类预测相同分布的数据集,可以减少存储开销和 计算时间。
综上所述,本实施例提出的方法对于许多数据的分类准确率会有不同程度的 提升。
为了进一步检验所提方法的分类性能,设计了如下实验:
在MATLAB 2016a软件下对UCI(University of California Irvine)和 KEEL(Knowledge Extraction Evolutionary Learning)公共数据库中的23个数据集 上进行了数据分类实验。实验环境的计算机配置:CPU为core(TM)i7-8700, 内存为16G,操作系统为Windows10,在本实验中使用的实验数据如表1所示。
表1、不同数据集的样本特性
下面是对实验所用的部分数据集作简单介绍:
Glass数据集根据玻璃的化学成分来判断玻璃的类型,目标是确定玻璃的用途。包含了214个样本,每个样本包含8个属性,分别为:折射率、钠、镁、铝、 硅、钾、钙、钡、铁。玻璃的用途包括建筑房间用玻璃、车辆上的玻璃、玻璃 容器等。确定玻璃的用途类型是为了鉴证。例如在一个车祸或犯罪现场,会有玻 璃的碎片,确定这些玻璃碎片的用途、来源,有助于确定谁是过错方或者谁是罪犯。
Zoo是动物园数据集。包含101个样本,通过统计动物园中动物的:羽毛、 是否卵生、水生、腿的数量、尾巴、毒性等16个特征,对动物进行分类。
Car是汽车评估数据集,包含1728个样本,6个特征,如:车门数、可乘车 人数、安全性、维护保养价格、购买价格、行李箱尺寸。用以对汽车价值进行评 估。
Ecoli数据集有307个样本,通过测量细胞的7个特征(包括细胞质、内膜、 周质、外膜、外膜脂蛋白、内膜脂蛋白内膜、可分裂的信号序列)来预测蛋白质 的定位点。
Tic-tac-toe数据集来源于一个三子相连获胜的游戏,不管是横竖斜相连,只 要能够连成一条线即可,这个数据库编码在一字棋游戏结束时可能的棋盘配置的 完整集合,假设“x”先玩。目标是“x获胜”(即,当“x”有8种可能的方法来创建 “three-in-a-row”时,为真)。
Seeds通过测量了小麦籽粒的7个几何参数:包括面积,周长,紧密度,籽 粒长度,籽粒宽度,不对称系数,籽粒槽的长度。来确定小麦属于三个品种(卡 马、罗莎和加拿大小麦)中的哪一个。
Segment数据集中的样本实例是从7张户外图片的数据库中随机抽取的。图 像被手工分割,为每个像素创建一个分类。
Tae数据包括三个常规学期和两个夏季学期中威斯康星大学麦迪逊分校统计 系151个助教(助教)作业的教学表现评估。分数被划分为3个大小大致相同的类 别(“低”、“中”、“高”),形成类别变量。
Vowel收集的数据来自9名男性说话者连续发出两个日语元音/ae/。对于每 句话,我们使用如下所述的分析参数,对其进行12度线性预测分析,得到12个 LPC倒谱系数的离散时间序列。这意味着说话人的一个话语形成了一个长度在 7-29范围内的时间序列,时间序列的每个点有12个特征(12个系数)。
Wdbc数据集包含从一个乳腺肿块的细针抽吸(FNA)的数字化图像计算得到 的30个特征。它们描述了图像中细胞核的特征。这个分类的目的是为了确定发 现的肿瘤是良性还是恶性的。对三个不同的细胞核分别计算以下十个实值特征组 成30个样本特征:a)半径:从中心到周长上点的距离的平均值;b)纹理:灰度值的标 准差;c)周长;d)面积;e)平滑度:半径长度的局部变化;f)紧凑性:周长^2/面积- 1.0;g)凹性:轮廓的凹部分的严重程度;h)凹点:轮廓线的凹部分数;i)对称性; j)分形维数。
PenDigits通过收集来自44位作者的250个样本来创建一个手写数字识别数 据库。数据通过WACOM PL-100V压敏平板电脑,集成LCD显示屏和无绳触控 笔采集。输入区和显示区位于同一位置。连接到基于Intel 486的个人电脑的串口 上,它允许收集笔迹样本。tablet发送$x$和$y$tablet坐标和笔的压力水平值在固定的时间间隔(采样率)100毫秒。
Phoneme数据集的目的是区分鼻音(第0类)和口腔音(第1类)。类分布为第0 类3818个样本和第1类1586个样本。音素的转录如下:sh为she,dcl为dark,iy 为she的元音,aa为dark的元音,ao为water的第一个元音。
Ringnorm数据集来自一个20维2类的分类问题。每一类都是从多元正态分 布中得出的。
Spambase数据库包含关于4597封电子邮件的信息。任务是确定给定的电子 邮件是否是垃圾邮件(第1类)(第2类),取决于它的内容(从原始数据集中删除了 4个重复的实例)。大多数属性表明一个特定的单词或字符是否经常出现在电子邮 件中。
在实验中,将数据集通过交叉验证的方式随机分成三份,分别为训练集、验 证集和测试集,选取CART作为基分类器,来自于Matlab统计工具箱中的 Classregtree分类器。初始集成分类器规模设置为200个基分类器;将100次重 复实验的结果取平均值,得到最终的分类准确率。为了确保实验的公平性,每个 实验数据集的划分比例在相同的数据集上执行不同的分类方法时保持不变,以确 保训练集、验证集和测试集用于每个分类方法都是相同的。在实验中选取了四种 对比算法,它们均为集成学习分类算法,其中,Baggin[Breiman,Leo.Bagging Predictors[J].Machine Learning,1996,24(2):123-140]为经典的集成学习算法,没有 经过分类器的筛选;UMEP[Guo L,Boukir S.Margin-based orderedaggregation for ensemble pruning[M].Elsevier Science Inc.2013]和MDEP[Guo H,Liu H,Li R,et al.Margin&Diversity based Ordering Ensemble Pruning[J].NEUROCOMPUTING,2017,275(JAN.31):237-246]均为利用边界值进行选择性分类器集成的分类算法;COMEP[Yijun,Bian,Wang,et al.Ensemble Pruning Based on ObjectionMaximization With a General Distributed Framework.[J].IEEE transactions onneural networks and learning systems,2019]为利用差异互信息熵来进行分类器排序并筛 选的选择性集成算法。在实验中,为方便起见,MDEP中的α按照原论文中设置 为0.2,本实施例提出的方法和COMEP算法中的λ均设置为0.2。
在实验操作中,为了避免每一维特征的单位和范围不同,而分类产生影响, 需要先将特征进行标准化处理,实验中使用z-score标准化:
其中,Xi为原始第i维特征样本数据,Zi为标准化之后的第i维样本特征,E (Xi)为第i维特征样本的均值,为第i维特征的标准差,利用公式(17) 就可以将原始数据变成均值为零,方差为1的标准化数据,这样就可以将不同量 级的数据转化为同一量级,增加数据的可比性。
5种集成分类算法在22个测试数据集上的分类准确率。从表2可以看出, 对于绝大部分的数据集,本实施例提出的方法都可以表现出较好的分类性能,与 Bagging、MDEP、UMEP、COMEP四种集成学习分类方法相比,性能均有不同 程度的提高,具有一定的竞争力。表2中,本实施例的方法分类表现较好的结果 用粗体字高亮。
表2 5种集成分类算法在23个测试数据集上的分类准确率
此外,本次实验还统计出进行选择性集成后的分类器子集合规模,综合四个 选择性集成分类算法进行比较。集成学习的分类速度主要取决于集成系统中基分类器的数量和复杂度;对于统一使用CART树作为基分类器的算法,尽量减少集 成系统规模可以减少计算时间和存储开销。表3显示了在所有数据集上,通过基 于排序的四种选择性集成分类方法,在进行筛选后得到的集成系统子集合中的分 类器的平均数量。我们的技术在选择性集成后分类器的规模上与COMEP方法相 比略高,但是总体差距不大,且集成规模明显小于另外两种分类算法UMEP和 MDEP。可见,使用本实施例的方法,能显著减少集成系统中的分类器数量,减 小计算代价。
表3 4种选择性集成分类算法在23个数据集上精简后的集成规模
本次实验还比较了本实施例的方法同其它4种集成分类算法在对抗误标记 噪声数据时的性能差异。例如海洋数据在实际标记类别的时候会存在标记错误的 情况,因此本实施例选取海洋数据,初始集成系统分类器数量依次设置为:10、 20、30……90、100,对样本类标签分别按照5%和10%的比例随机修改,并同 正常情况比较,重复训练100次取平均值,以测试不同分类方法对抗误标记噪声 数据时的性能表现。正常情况下海洋数据分类结果如图2所示,分别进行5%和 10%的类标签标记错误情况下,海洋数据分类结果如图3和图4所示。
可见,随着初始分类器数量的增加,分类准确率不断提升,并且本发明所提
本实施例所述的方法可以用于对采集的海洋传感器数据分类以进行预警提 示。如实验中所用的Ocean data来自于国家地球系统科学数据中心 (http://www.geodata.cn)。本次实验整理和收集了南海海洋断面科学考察项目于 2009年春季、2010年秋季、2011年冬季、2012年夏季四个航次的海流和 CTD观测数据,抽取了总共1000个样本,整理的要素为相同经纬度下观测的温度、盐度、密度、声速和流速等特征。这些数据都是海洋环境正常时所观测得到 的数据,本次实验首先在这些原始数据的基础上添加随机噪声,以模拟海洋环境 异常时的情况,再使用制定的预警等级划分规则对数据进行等级划分,数据加上 不同的模式标签。对整理后的海洋数据按照训练集、验证集和测试集进行等比例 划分。用训练集训练出200个基分类器,并对验证集进行分类预测。用所提出的无监督形式边界值度量标准去衡量样本距离分类决策边界的间隔距离,重点关注 那些边界值较小、靠近决策边界的难以分类的样本。通过分类正确的样本的边界 值得到基分类器的平均边界值。再以提升集成系统总体边界值为目标,同时考虑 分类器之间的差异性,通过多数投票融合最后的分类结果。实验结果表明,本实 施例提出的方法相比于其它集成学习方法,均有不同程度的提高,分类准确率可 以达到94.3%,同时,集成规模可以缩减到16个分类器。
本实施例还可以根据农作物的外部特征来区分农作物的品种,比如根据外部 特征来得到小麦种子的品种。具体应用可以采用UCI公共数据集中的Seeds数据 集作为训练样本,也可以预先测量小麦种子的不同特性,包括但不限于种子的面 积、周长、紧密度、籽粒长度、籽粒宽度、不对称系数、籽粒槽的长度等等, 记录种子本身属于的品种作为标签,来形成训练样本集合。通过对训练样本结合 进行训练集、验证集和测试集的划分,利用本发明提出的方法找出那些难以进行简单分类的小麦种子,找出那些能够将其正确分类的分类器,得到一个针对该批 小麦种子的精简的分类器集合。那么对于未知品种小麦种子,通过测量种子的上 述特性,组成特征向量,输入本实施例的数据分类方法进行分类预测,可以自动 得出种子的品种。
在各种应用中,为了避免每一维特征的单位和范围不同,对分类产生影响, 需要先将特征进行标准化处理,如上述实验中使用的z-score标准化,当然也可 以使用其他的标准化或者归一化方法。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非 是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明 的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施 方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进 等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种基于样本边界值及集成多样性的数据分类方法,其特征在于:所述的方法步骤包括如下:
S1:将初始数据集划分为训练集Dtr、验证集Dva、测试集Dte;并采用bootstrap对训练集Dtr进行处理,得到采样集Dtr_t,1≤t≤T;
S2:对每个采样集Dtr_t采用基分类器进行训练,得到集成系统ES;利用集成系统ES的每个基分类器对验证集进行分类,得到验证集的分类预测结果矩阵;
S3:根据分类预测结果矩阵进行统计得到投票数向量、验证集样本个数NR,通过无监督形式的样本边界值度量标准算法计算出基分类器池中的每个分类器ht的平均边界值;
S4:计算关于数据集标签类别的概率分布,并引入J-S散度,进而计算得到某个基分类器与其它基分类器之间的平均差异程度;
S5:结合平均边界值、平均差异程度进行综合度量,得到新的集成系统ES′,通过选取得到选择性集成后的分类器子集合ESnew
S6:利用分类器子集合ESnew对测试集进行分类预测,获取最终的分类结果;
所述初始数据集包括Glass数据集、动物园数据集、汽车评估数据集、Ecoli数据集、Seeds数据集、Vowel数据集、Wdbc数据集、PenDigits数据库、Phoneme数据集;
其中,Glass数据集包含214个样本,每个样本包含8个属性,分别为:折射率、钠、镁、铝、硅、钾、钙、钡、铁;Glass数据集用于根据玻璃的化学成分来判断玻璃的类型;
动物园数据集包含101个样本,通过统计动物园中动物的:羽毛、是否卵生、水生、腿的数量、尾巴、毒性特征,对动物进行分类;
汽车评估数据集,包含1728个样本,6个特征:车门数、可乘车人数、安全性、维护保养价格、购买价格、行李箱尺寸,用于对汽车价值进行评估;
Ecoli数据集有307个样本,通过测量细胞的7个特征,包括细胞质、内膜、周质、外膜、外膜脂蛋白、内膜脂蛋白内膜、可分裂的信号序列,来预测蛋白质的定位点;
Seeds数据集通过测量小麦籽粒的7个几何参数:包括面积、周长、紧密度、籽粒长度、籽粒宽度、不对称系数、籽粒槽的长度,来确定小麦属于三个品种中的哪一个;品种包括卡马、罗莎和加拿大小麦;
Vowel数据集收集的数据来自9名男性说话者连续发出两个日语元音/ae/,对于每句话,使用分析参数,对其进行12度线性预测分析,得到12个LPC倒谱系数的离散时间序列,这意味着说话人的一个话语形成了一个长度在7-29范围内的时间序列,时间序列的每个点有12个特征;
Wdbc数据集包含从一个乳腺肿块的细针抽吸的数字化图像计算得到的30个特征,Wdbc数据集描述了图像中细胞核的特征;对三个不同的细胞核分别计算以下十个实值特征组成30个样本特征:a)半径:从中心到周长上点的距离的平均值;b)纹理:灰度值的标准差;c)周长;d)面积;e)平滑度:半径长度的局部变化;f)紧凑性:周长^2/面积-1.0;g)凹性:轮廓的凹部分的严重程度;h)凹点:轮廓线的凹部分数;i)对称性;j)分形维数;
Phoneme数据集的目的是区分鼻音和口腔音,鼻音记为第0类),口腔音记为第1类;类分布为第0类3818个样本和第1类1586个样本,音素的转录如下:sh为she,dcl为dark,iy为she的元音,aa为dark的元音,ao为water的第一个元音;
步骤S3,将分类预测结果矩阵Mat与真实类标签向量对比,找出所有被正确分类的样本点Dva_t,并针对分类器池中的每个分类器,统计出被正确分类预测的验证集样本个数NR,公式如下:
式中,ht表示第t个基分类器,1≤t≤T;yi表示类标签;N′为验证集样本个数;I(ture)=1,I(false)=0;
所述的无监督形式的样本边界值度量标准算法,其计算公式如下:
针对验证集中某一个样本点(xi,yi)而言,其中,代表投票数最多的类别的得票数,即集成系统中将样本(xi,yi)分类预测为c1类别的基分类器数量最多;而/>代表投票数第二多的类别的得票数,依此类推,/>代表投票数最少的类别的得票数;
计算出基分类器池中的每个分类器ht的平均边界值,其表达式如下:
2.根据权利要求1所述的基于样本边界值及集成多样性的数据分类方法,其特征在于:步骤S1,采用bootstrap对训练集Dtr进行处理,具体如下:
采用bootstrap进行m次有放回的随机采样,一直到bootstrap样本集中的样本数目与采样前的初始训练集的样本数目相同结束,重复T轮操作,得到T个包含m个训练样本的采样集Dtr_t,其中1≤t≤T,采样出的训练子集互不相同,且|Dtr_t|=|Dtr|。
3.根据权利要求1所述的基于样本边界值及集成多样性的数据分类方法,其特征在于:步骤S2,采用CART作基分类器,利用集成系统ES的每个基分类器对验证集进行分类,采用多数投票得到验证集的分类预测结果矩阵 其中,Rt=[Ct(x1),Ct(x2),…,Ct(xi),…,Ct(xN′)]T为分类器池中第t个基分类器对验证集的分类结果构成的向量。
4.根据权利要求1所述的基于样本边界值及集成多样性的数据分类方法,其特征在于:步骤S3,根据分类预测结果矩阵Mat,统计出验证集中各个样本属于每个类别的投票数矩阵对投票数矩阵Vote的各行元素进行降序排序,针对验证集中的每个样本xi得到其排序后的投票数向量/>
5.根据权利要求1所述的基于样本边界值及集成多样性的数据分类方法,其特征在于:步骤S4,针对基分类器池中某一个分类器的分类预测结果:
Rt=[Ct(x1),Ct(x2),…,Ct(xi),…,Ct(xN′)]T
计算其关于数据集标签类别的概率分布:
Pt=(p1,p2,…,pl,…,pL)T
其中,pl为关于类别l的概率分布:
根据J-S散度计算得到两个不同分类器之间的J-S散度为:
其中,L为样本类别个数,T为基分类器个数,当基分类器池中两个不同的分类器之间的J-S散度值越大,则表明其对应的分类结果的概率分布之间的信息差异越大。
6.根据权利要求5所述的基于样本边界值及集成多样性的数据分类方法,其特征在于:将第t个基分类器与其它基分类器之间的平均差异程度表示为:
式中,1≤t≤T,1≤s≤T。
7.根据权利要求6所述的基于样本边界值及集成多样性的数据分类方法,其特征在于:步骤S5,结合平均边界值、平均差异程度,采用目标函数进行综合度量,其公式表达式如下:
式中,λ∈[0,1]为正则化因子;
将基分类器池中的所有分类器按照TMD值进行降序排序,得到一个新的集成系统ES′={h1′,h2′,…,ht′,…,hT′},其满足TMD(h′t-1)>TMD(h′t),0≤t≤T。
8.根据权利要求7所述的基于样本边界值及集成多样性的数据分类方法,其特征在于:通过选取前S个能使集成系统ES′在验证集上的平均分类正确率最大的基分类器,得到选择性集成后的分类器子集合:
ESnew=arg maxS,(1≤S≤T)accuracy(ES′) (15)
ESnew={h1′,h2′,…,hS′} (16)
其中,
CN202110169621.2A 2021-02-07 2021-02-07 基于样本边界值及集成多样性的数据分类方法 Active CN112906779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110169621.2A CN112906779B (zh) 2021-02-07 2021-02-07 基于样本边界值及集成多样性的数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110169621.2A CN112906779B (zh) 2021-02-07 2021-02-07 基于样本边界值及集成多样性的数据分类方法

Publications (2)

Publication Number Publication Date
CN112906779A CN112906779A (zh) 2021-06-04
CN112906779B true CN112906779B (zh) 2023-12-08

Family

ID=76124036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110169621.2A Active CN112906779B (zh) 2021-02-07 2021-02-07 基于样本边界值及集成多样性的数据分类方法

Country Status (1)

Country Link
CN (1) CN112906779B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484571A (zh) * 2014-12-22 2015-04-01 深圳先进技术研究院 一种基于边缘距离排序的集成学习机修剪方法及系统
CN107194428A (zh) * 2017-05-26 2017-09-22 重庆师范大学 一种基于近邻密度和半监督knn的集成自训练方法
CN107977618A (zh) * 2017-11-28 2018-05-01 上海交通大学 一种基于双层级联神经网络的人脸对齐方法
CN110222173A (zh) * 2019-05-16 2019-09-10 吉林大学 基于神经网络的短文本情感分类方法及装置
CN111325264A (zh) * 2020-02-17 2020-06-23 武汉大学 一种基于熵的多标签数据分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484571A (zh) * 2014-12-22 2015-04-01 深圳先进技术研究院 一种基于边缘距离排序的集成学习机修剪方法及系统
CN107194428A (zh) * 2017-05-26 2017-09-22 重庆师范大学 一种基于近邻密度和半监督knn的集成自训练方法
CN107977618A (zh) * 2017-11-28 2018-05-01 上海交通大学 一种基于双层级联神经网络的人脸对齐方法
CN110222173A (zh) * 2019-05-16 2019-09-10 吉林大学 基于神经网络的短文本情感分类方法及装置
CN111325264A (zh) * 2020-02-17 2020-06-23 武汉大学 一种基于熵的多标签数据分类方法

Also Published As

Publication number Publication date
CN112906779A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
Gunal et al. Subspace based feature selection for pattern recognition
Adiwijaya et al. Dimensionality reduction using principal component analysis for cancer detection based on microarray data classification
Tang et al. A pruning neural network model in credit classification analysis
CN111063393B (zh) 基于信息融合和深度学习的原核生物乙酰化位点预测方法
Bouadjenek et al. Robust soft-biometrics prediction from off-line handwriting analysis
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN110940523A (zh) 一种无监督域适应故障诊断方法
CN113127705B (zh) 一种异构双向生成对抗网络模型及时间序列异常检测方法
CN112183652A (zh) 一种联邦机器学习环境下的边缘端偏见检测方法
Venu IOT Based Speech Recognition System to Improve the Performance of Emotion Detection
CN111833966A (zh) 一种基于自适应lasso的特征选择方法及系统
Arowolo et al. A hybrid dimensionality reduction model for classification of microarray dataset
Boragule et al. Learning to resolve uncertainties for large-scale face recognition
Al Zorgani et al. Comparative study of image classification using machine learning algorithms
Singh et al. Speaker specific feature based clustering and its applications in language independent forensic speaker recognition
Sebag et al. ROC-based evolutionary learning: Application to medical data mining
Surono et al. Developing an optimized recurrent neural network model for air quality prediction using K-means clustering and PCA dimension reduction
CN112906779B (zh) 基于样本边界值及集成多样性的数据分类方法
CN113792541B (zh) 一种引入互信息正则化器的方面级情感分析方法
Gosztolya et al. A feature selection-based speaker clustering method for paralinguistic tasks
Pardede et al. A Combination Of Support Vector Machine And Inception-V3 In Face-Based Gender Classification
Pryor et al. Deepfake Detection Analyzing Hybrid Dataset Utilizing CNN and SVM
CN113361653A (zh) 基于数据样本增强的深度学习模型去偏方法和装置
CN113538029A (zh) 用户行为数据预测方法、装置、设备及介质
CN112347162A (zh) 一种基于在线学习的多元时序数据规则挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant