CN111275206A - 一种基于启发式采样的集成学习方法 - Google Patents
一种基于启发式采样的集成学习方法 Download PDFInfo
- Publication number
- CN111275206A CN111275206A CN202010057454.8A CN202010057454A CN111275206A CN 111275206 A CN111275206 A CN 111275206A CN 202010057454 A CN202010057454 A CN 202010057454A CN 111275206 A CN111275206 A CN 111275206A
- Authority
- CN
- China
- Prior art keywords
- sample
- class
- samples
- data set
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000007636 ensemble learning method Methods 0.000 claims abstract description 30
- 238000012952 Resampling Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 12
- 239000000523 sample Substances 0.000 description 208
- 238000011156 evaluation Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种启发式采样的集成学习方法,适用于不均衡数据集的分类,所述方法包括:根据数据集中所有样本在特征空间的分布特征对数据集划分第二类别;根据各样本的所述第二类别分别设定不同的硬度权重,结合不均衡权重计算各样本的选中概率;根据各样本所述选中概率对数据集重采样,并对重采样后的数据集进行集成训练,获得最终的分类结果。本方法基于样本的内在特征进行有侧重的重采样,以提高不均衡数据集的采样质量,从而提高现有的集成学习方法对于不均衡数据集的分类效果。
Description
技术领域
本发明涉及数据挖掘和机器学习技术领域,尤其是涉及一种基于启发式采样的集成学习方法。
背景技术
近年来,数据挖掘和机器学习模型广泛应用于生活中的各个领域。其中,分类问题是机器学习领域中面临的重要任务之一。传统分类模型的构建通常基于如下假设:数据集中各个类别样本数量是均衡的。然而在许多现实应用中,这种假设是不成立的,即数据集中存在着类别不均衡的现象。如:交易欺诈检测、网络入侵检测、生物基因检测、垃圾邮件过滤等,其数据都是不均衡的。而当这种不均衡现象发生时,分类器对数量上较少的类别识别准确率将变得很低。在实际应用中,这些少数类样本通常具有很高的价值,将这些样本误分类为多数类会带来巨大的损失。如:交易欺诈检测中,非法交易类别(少数类)如果被误分为合法交易(多数类),将带来严重的经济损失。
目前在不均衡数据的处理问题上,集成学习的方法得到了广泛应用。集成学习的学习过程主要包括两个阶段。第一个阶段,使用数据预处理技术(欠采样或者过采样)对不均衡的数据集预处理,获得相对均衡的数据集子集。第二个阶段,利用机器学习模型在预处理获得的相对均衡的数据集子集上训练并得到最终的分类模型。然而,集成学习在数据集预处理阶段尚存在不足。首先,集成学习中的采样方法往往都是过采样或者欠采样其中的一种,而过采样和欠采样都存在一定的弊端。其中,过采样在采样过程中往往会生成大量的少数类样本,使得运行时间大大提升;而欠采样在采样过程中会删除部分的多数类样本,从而导致丢失部分信息。其次,现有的采样方法在选择样本的过程中往往仅侧重于调节不同类别之间的比例均衡,而并未考虑样本数据的内在属性特征。对于噪声、边界、稀缺样本等不同属性的样本被选中的概率均相同,导致采集到大量的无效样本同时也易丢失重要的样本信息,使得采样质量降低。并且,随着数据集的不均衡比和数据集中样本数量的增加,采集到无效样本的概率将大大增加。
发明内容
鉴于以上现有集成方法在处理不均衡数据集时存在的缺点,本发明的目的在于提供一种启发式采样的集成学习方法,用于解决现有集成学习方法对不均衡数据集的采样质量不高,以及由于预采样数据不均衡而使所述集成学习方法对数据集的分类效果降低的问题。
为实现上述目的及其他相关目的,本发明提供一种启发式采样的集成学习方法,通过采用对少数类别过采样和对多数类别欠采样的组合方式对数据集进行重采样,并结合每个样本的特征属性进行有侧重的采样,以提高不均衡数据集的采样质量,从而提高集成学习方法对于不均衡数据集的分类效果。
所述启发式采样的集成学习方法的步骤包括:对数据集的所有样本根据所述样本的第一类别以及在特征空间的分布特征划分第二类别;计算数据集中每个样本的选中概率;根据所述选中概率采用集成学习算法对数据集重采样和集成训练,获得最终的分类结果。其中,所述第一类别为所述数据集中样本的原始类别,所述第二类别为基于各所述样本在特征空间的分布特征所划分的类别。
于本发明一实施例中,所述选中概率的计算步骤包括:对于数据集中的任意样本xi,根据所述数据集中所有样本的所述第一类别总数和所述样本xi的标签值对应的所述第一类别的样本数计算所述样本xi的不均衡权重;根据所述样本xi的所述第二类别以及所述样本xi在特征空间内的局部分布特征计算硬度权重;根据所述不均衡权重和所述硬度权重,计算所述样本xi的所述选中概率。
于本发明一实施例中,所述对数据集的所有样本根据在特征空间的分布特征划分第二类别,包括:根据所述样本xi的所述第一类别,将所述样本xi周围第一最近邻内的其他第一类别样本划分为硬多数类或所述硬少数类;将数据集除所述硬多数类和所述硬少数类的其他样本划分为非硬类:当所述样本xi属于所述硬多数类,根据所述样本xi周围第二最近邻内其他标签样本的占比,将所述样本xi划分为多数样本边界类或噪声类:当所述样本xi属于所述硬少数类,根据所述样本xi周围第二最近邻内其他标签样本的占比,将所述样本xi划分为少数样本边界类或稀缺类。
于本发明一实施例中,所述根据所述样本xi的所述第二类别以及所述样本xi在特征空间内的局部分布特征计算硬度权重,包括:预先设置硬度阈值;当所述样本xi属于所述稀缺类、所述噪声类或所述非硬类时,分别设定所述样本xi的硬度权重大小;当所述样本xi属于所述多数样本边界类或所述少数样本边界类时,根据所述样本xi的局部标签权重和距离密度权重计算所述硬度权重。
于本发明一实施例中,所述当所述样本xi属于所述稀缺类、所述噪声类或所述非硬类时分别设定所述样本xi的硬度权重大小,包括:当所述样本xi属于所述稀缺类时,设定所述硬度权重为所述硬度阈值;当所述样本xi属于所述噪声类时,设定所述硬度权重为0;当所述样本xi属于所述非硬类时,设定所述硬度权重为1。
于本发明一实施例中,所述样本xi的距离密度权重的获取方式包括:获取所述样本xi周围第三最近邻内的最近边界异类簇;根据所述样本xi至所述最近边界异类簇的欧几里得距离,以及所述最近边界异类簇的簇密度获取所述样本xi的距离密度权重。
于本发明一实施例中,所述最近边界异类簇的簇密度采用高斯最大似然法获得。
于本发明一实施例中,所述根据所述选中概率采用集成学习算法对数据集重采样及集成训练的实现方法包括:根据所述选中概率采用Bagging算法对数据集进行重采样,获得新的数据集子集;对各所述新的数据集子集利用分类器进行训练获得训练模型;将各所述训练模型集成获得最终的分类结果。
于本发明一实施例中,所述分类器包括决策分类树。
如上所述,不同于其他的集成学习方法,本发明提供的所述启发式采样的集成学习方法在对数据集进行采样时采用了对少数类过采样和对多数类别欠采样的组合方式,并且结合每个样本的特征属性进行有侧重的采样,即不仅考虑了样本周围局部区域范围内样本标签的分布特征,同时还考虑了样本到其他类别样本边界的距离,以及离该样本最近其他类别样本所组成的簇密度大小,通过对不同类别的样本设置不同的硬度权重以增加边界样本与周围其他类样本的区分度,从而提高现有的集成学习方法对于不均衡数据集的分类效果。此外,所述启发式采样的集成学习方法还兼具有较好的分类运行效率。
附图说明
图1显示为本发明于一实施例中的流程示意图
图2显示为本发明于一实施例中的数据集的样本分布示意图
图3显示为显示为本发明于一实施例中对数据集划分所述第二类别后各类别集合的分布示意图
图4显示为本发明于一实施例中对划分所述第二类别的数据集进行4种不同处理后采用3种分类器进行分类后的F1评价结果
图5显示为本发明中于一实施例中的所述硬度权重的计算过程的流程示意图
图6显示为本发明中于一实施例中的样本A和样本B的所述最近边界异类簇集合的分布示意图
图7显示为本发明于一实施例中与其他的集成学习方法进行对比实验中所利用的实验数据集及信息描述
图8显示为本发明于一实施例中与其他的集成学习方法进行对比实验后所获得F1评价结果对比
图9显示为本发明于一实施例中与其他的集成学习方法对实验数据集进行分类的运行时间对比
元件标号说明
S100~S500 步骤
S301~S303 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明提供的一种启发式采样的集成学习方法,通过采用对少数类别过采样和对多数类别欠采样的组合方式对数据集进行重采样,并结合每个样本的特征属性进行有侧重的采样,以提高不均衡数据集的采样质量,从而提高现有的集成学习方法对于不均衡数据集的分类效果。
其主要思想是:首先,重采样方案采用对少数类别过采样和多数类别欠采样的组合形式对数据集进行重采样。其次,根据每一个样本的内在特征有侧重的采样,如:噪声会在采样过程中移除,边界样本等重要样本将有更高的概率被采集。
为更清楚得说明本发明的具体实施方法,设定所述不均衡数据集为数据集D,数据集D中样本的标签集合为y,数据集D中任意样本xi所属的样本第一类别中的样本类为c,样本类c的出现次数为N(c),任意样本为xi,xi∈D,则
请参阅图1,所述启发式采样的集成学习方法包括以下步骤:
S100,根据数据集中样本的第一类别总数和所述样本xi的标签值所对应的所述第一类别中的样本数计算所述样本xi的不均衡权重。
Bw(xi)=1/(m*N(y(xi))),i∈[1,n] (1)
其中,Bw(xi)为样本xi的不均衡权重;
m为数据集D中样本的第一类别数量;所述第一类别为数据集中各样本的原始类别;进一步的,所述第一类别包括多数类和少数类;
y(xi)为所述样本xi的标签值;
N(y(xi))为所述样本xi的标签值所对应的第一类别在数据集中的样本个数。
S200,对数据集的所有样本根据样本在特征空间的分布特征划分第二类别,实现根据样本的内在特征寻找数据中的困难样本,所述困难样本为容易被误分类的样本。
其中,所述样本在特征空间中的分布特征,包括所述样本最近邻的标签分布情况,即所述样本周围最近邻范围内与当前样本标签值不一致的其他样本的数量,以及所述样本与最近边界异类簇的距离信息和所述最近边界异类簇的密度信息等。
具体的,所述第二类别的划分方法包括:
根据所述样本xi的所述第一类别,将所述样本xi周围第一最近邻内的其他第一类别样本划分为硬多数类或硬少数类;
将数据集中除所述硬多数类和所述硬少数类外的其他样本划分为非硬类;
当所述样本xi属于所述硬多数类,根据所述样本xi周围第二最近邻内其他标签样本的占比,将所述样本xi划分为多数样本边界类或噪声类;
当所述样本xi属于所述硬少数类,根据所述样本xi周围第二最近邻内其他标签样本的占比,将所述样本xi划分为少数样本边界类或稀缺类。
于本实施例中,数据集D中的所述第一类别包括多数类和少数类,所述多数类别集合为Smaj,少数类集合为Smin,则所述第二类别的划分方法,包括:
具体的,所述第一最近邻k1为大于等于3的整数;
进一步的,所述第一最近邻k1优选为大于等于3的奇数;
更进一步的,所述第一最近邻k1优选为3。
设定Pro(xi)=l/k2, (2)
其中,Pro(xi)为一分类变量,用于反映样本xi周围所述第二最近邻k2中存在与样本xi标签值不同的样本的占比;l为所述第二最近邻k2中与样本xi标签值不同的样本的数量;
具体的,所述第二最近邻k2为大于等于3的整数;
进一步的,所述第二最近邻k2优选为大于等于3的奇数;
更进一步的,所述第二最近邻k2优选为3。
根据Pro(xi)的不同,对样本xi进行类别划分:
若Pro(xi)=1∩xi∈Shmin,则样本xi被定义为稀缺类样本,即xi∈Srare;
若Pro(xi)=1∩xi∈Shmaj,则样本xi被定义为噪声类样本,即xi∈Snoise;
若Pro(xi)∈[0,1)∩xi∈Shmaj,则样本xi被定义为多数样本边界类样本,即xi∈Sbmaj;
若Pro(xi)∈[0,1)∩xi∈Shmin,则样本xi被定义为少数样本边界类样本,即xi∈Sbmin。
可以理解的是,相比于目前常用的根据样本最近邻中是否存在其他类别的标签来判断该样本是否为容易被误分类的样本(第一分类方式),采用如上所述步骤200的类别划分方法可以发现更多的重要的样本(第二分类方式)。
为证明所述第二类别划分的合理性,对数据集中的所述第二类别采用不同的采样方式进行重采样处理,并将重采样后新的数据集采用不同的分类器进行分类,对分类结果采用F1评价方法进行分类效果评价。
请参阅图2,如图2所示的数据集D为一具有40个样本数据的原始数据集,其中0.0表示多数类样本,1.0表示少数类样本。按照所述步骤200对所述数据集D进行分类,分类结果请参阅图3,包括非硬类、噪声类、稀缺类、多数样本边界类和少数样本边界类(图中实线表示多数样本边界类,虚线表示少数样本边界类)。对分类后的数据集采用4种不同的采样方式分别进行重采样,对重采样后的所述新的数据集分别采用3种不同的分类器算法进行分类处理,对分类结果进行F1评价。所述四种不同的重采样方式包括:未经过任何处理(ori),移除稀缺类样本(remove rare),复制稀缺类样本2次(repeat rare),复制稀缺类样本并删除噪声类样本(repeat remove)。所述3种不同的分类器算法包括CART、Bagging和Percetion。所述F1评价结果请参阅图4,如图4所述,当所述重采样方式为复制稀缺类样本并删除噪声类样本时,各所述分类器取得最佳的分类效果;当所述重采样方式为复制稀缺样本2次时,各所述分类器的分类效果次之。
因此,通过所述步骤200对数据集进行细分,可以优化及提升分类器对数据集的分类性能。
S300,根据所述样本xi的所述第二类别以及所述样本xi在特征空间内的局部分布特征计算硬度权重,以实现对数据集中各样本有侧重得采样。
所述硬度权重为各样本数据被正确分类的难易程度,即所述硬度权重越高,则该样本被正确分类的困难越大。基于不同样本数据在特征空间的分布特征,设定对应的所述硬度权重,从用对分类较困难的样本赋予更高的被选中概率,使得机器学习算法更加重视这些容易被分错误的样本。
请参阅图5,于本实施例中,所述硬度权重的计算过程包括以下步骤:
S301,预先设置硬度阈值th。
所述硬度阈值th为一可调节的参数,用于将所述硬度权重的计算结果约束于一定的数值范围内,以防止某些样本的所述硬度权重远远高于其他样本的硬度权重而导致这些样本的重要性过于突出。
具体的,所述硬度阈值的设置范围为th∈[2,5];
进一步的,所述硬度阈值的设定范围优选为th∈[2,3]。
S302,当所述样本xi属于稀缺类、噪声类或非硬类时,分别设定所述样本xi的硬度权重大小。
于本实施例中,当所述样本xi属于稀缺类时,设定所述样本xi的硬度权重等于硬度阈值th,即:
其中,W(xi)为样本xi的硬度权重。
当所述样本xi属于噪声类时,设定所述样本xi的所述硬度权重为0,即:
当所述样本xi属于非硬类时,设定所述样本xi的所述硬度权重为1,即:
S303,当所述样本xi属于多数样本边界类或所述少数样本边界类时,根据所述样本xi的局部标签权重和距离密度权重计算所述硬度权重。
其中,所述局部标签权重用于反映样本因周围标签值不同的其他样本的多少而导致该样本被正确分类的难易程度;当所述样本周围与该样本标签值不同的样本数量越多,则该所述样本越难被所述分类器正确分类。
所述距离权重用于反映样本因距离周围其类别他样本的远近而导致该样本被正确分类的难易程度;当所述样本离周围其他类别样本越近,则该所述样本越难被所述分类器正确分类。
1)计算所述样本xi的局部标签权重。
于本实施例中,设定样本xi的局部标签权重为:
其中,Lw(xi)为样本xi的所述局部标签权重;Pro(xi)为所述公式1中的所述分类变量;k2为所述公式1中的k2值。当样本xi周围所述第二最近邻范围的与所述样本xi标签值不同的其他样本数目越多,则所述样本xi的局部标签权重越高。
2)计算所述样本xi的距离密度权重。
不同于现有的其他集成学习方法,本发明提供的所述启发式采样的集成学习方法不仅考虑了样本xi周围局部区域范围内样本类别的局部标签的分布特征,同时考虑了样本xi到其他类别样本边界的距离,以及离所述样本xi最近其他类别样本所组成的簇密度大小,以提升所述边界样本数据与周围其他类样本的区分能力,从而提高分类器对于样本数据分类精度。
于本实施例中,对于样本xi,在与xi不同的其他所述边界类中搜集所述样本xi的第三最近邻的样本,组成样本xi的最近边界异类簇。
具体的,当样本xi为多数样本边界类时,搜集其在所述少数样本边界类中的第三最近邻,并组成为组成样本xi的最近边界异类簇;即:
当样本xi为少数样本边界类时,搜集其在所述多数样本边界类中的第三最近邻,并组成为组成样本xi的最近边界异类簇;即:
其中,所述Skothnei(xi)为所述多数样本边界类和所述少数样本边界类的最近边界异类簇集合。
进一步的,所述第三最近邻可以为3、5、7、9或11。
更进一步的,所述第三最近邻优选为5。
为了更清楚地说明所述最近边界异类簇集合的设定方法,以示例图进行说明,请参阅图1和图6。其中图1为样本数据的原始分布图,图6为根据如上所述步骤获取的包含所述最近边界异类簇集合的示意图。所图6所示,当样本xi为所述少数样本边界类中的样本A时,其最近边界异类簇Skothnei(A)=C1;当样本xi为所述少数样本边界类中的样本B时,其最近边界异类簇Skothnei(B)=C2;即所述C1为样本A的所述最近边界异类簇,所述C2为样本B的所述最近边界异类簇。
所述距离密度权重为用以反映距离大小和密度大小的综合权重值。其中,所述距离大小为所述样本xi到其对应的所述最近边界异类簇的距离大小;所述密度大小为所述样本xi对应的所述最近边界异类簇的簇密度大小。
于本实施例中,设定样本样本xi的距离密度权重为:
其中,为样本xi和之间的欧几里得距离。为样本xi对应的所述最近边界异类簇Skothnei(xi)中各样本在特征空间中的位置均值;∑p∑q|Σ(p,q)|样本xi对应的所述最近边界异类簇中的样本数据在平面上的密度变量;所述p和q分别表示平面上的两个维度。
其中,fyn代表样本yn的特征向量;Nc为所述样本xi对应的所述最近边界异类簇Skothnei(xi)中的样本个数;样本yn为所述样本xi对应的所述最近边界异类簇Skothnei(xi)中的各样本。
于本实施例中,为能更好地反映所述样本xi对应的所述最近边界异类簇的密度大小,引入多元高斯函数来构建所述反映所述密度大小的所述密度变量。
进一步的,采用多元高斯函数的最大似然估计方法构建所述密度变量,为:
3)根据其所述局部标签权重和所述距离密度权重计算样本xi的硬度权重;
于本实施例中,所述硬度权重的计算步骤包括:
计算硬度权重中间变量Wb(xi),为局部标签权重和所述距离密度权重的乘积,即:
根据所述样本xi的所述第二类别,对所述硬度权重中间变量进行标准化处理,即:
根据所述样本xi的所述第二类别,以及所述样本xi标准化后的所述硬度权重中间变量获取所述样本xi的硬度权重。
W(xi)=min(W′(xi)*l1*len(Sbmaj),th) (13)
其中,min(a,b)表示返回参数a和参数b中的最小值;
len(Sbmaj)表示集合数据集合Sbmaj的大小;
th为所述硬度阈值;
l1为预设的边界样本阈值参数,为一可调节参数,具体的,l1∈[0.5,5];
进一步的,l1∈[0.5,3]。
W(xi)=min(W′b(xi)*l2*len(Sbmin),th) (14)
其中,l2=1+len(Sbmin)/len(Smin)。 (15)
S400,根据所述不均衡权重和所述硬度权重获得所述样本xi的选中概率P(xi)。
于本实施例中,所述样本xi的选中概率P(xi)的计算包括:
计算所述选中概率中间变量P′(xi),即:
P′(xi)=Bw(xi)*W(xi) (16)
对所述选中概率中间变量进行标准化处理,即:
S500,根据所述选中概率采用集成学习算法对数据集重采样获得新的数据子集,并对各所述新数据集子集进行集成训练,获得最终的分类结果。
于本实施例中,根据每个样本的所述选中概率采用Bagging算法对数据集进行有放回地加权采样,得一定数量的用于训练分类器的新数据集子集;
对各所述新的数据集子集采用分类器进行训练获得训练模型;
将各所述训练模型集成,采用多数投票原则获得最终的分类结果。
进一步的,采用决策分类树(CART)分类器对各所述数据集子集进行训练。
为进一步说明本发明的有益效果,可以通过示意图进行说明,请参阅图6,如果仅仅考虑标签权重Lw(xi)来衡量样本硬度,样本A和样本B的硬度大小是相等的。由此,所述局部标签分布不能全面反映样本的硬度权重。如图6所示,样本A相较于样本B,离其他类别的样本更近,即样本A的数据特征值与另外一个类别的数据特征值非常相似。C1和C2分别是离A和B最近的其他类别样本组成的最近边界异类簇,且C1比C2簇更加密集,当簇越密集时,则考虑簇对另外一个类别样本xi干扰越大,在进行分类时,则越难通过分类器进行区分。
为此,本发明的所述启发式采样的集成学习方法,对于易受到其他类别样本干扰的边界类样本,引入样本距离密度权重用于表征样本xi和其他类别样本的距离,以及该所述样本xi周围的所述最近边界异类簇密度。当一个样本xi离另外一个类别更近且最近的其他类别样本组成的簇更密集时,则该样本硬度权重更高。
而本发明所提出的距离密度权重的计算方式(公式7),引入了高斯函数的函数特性。以多元高斯函数的均值代表簇中心的位置,以多元高斯函数的协方差代表样本的离散程度即密度大小。当协方差越小时,簇就越密集。所以当获取簇的协方差的大小,即可以得到簇密度特征。
所述多元高斯函数的均值和协方差可以表达样本数据的均值和离散程度为本领域技术人员所知晓的公知常识,其原理在此不在赘述。
为验证本发明的有效性,将所述启发式采样的集成学习方法和其他的集成学习采样方法进行对比实验,采用F1评价方法对各采样方法的分类效果进行评价,所述F1评价的得分情况可参阅图7。
于对比实验中,本发明提供的所述启发式采样的集成学习方法的名称为ADASP,所述其他的集成学习采样方法包括BARF、SMOTEBagging(SMBa),RUSBoost(RUSB)和EasyEnsemble(EaEn)。
设定每一种集成学习方法的基分类器的数量SUB_num=100;所述BARF、SMOTEBagging(SMBa),RUSBoost(RUSB)和EasyEnsemble(EaEn)的实验参数设置分别采用其常用的参数设置方式。所述对比实验选取了40个不同的实验数据集,各所述实验数据集的数据特征如图7所示,其中Ex表示各实验数据集的样本数,IR表示各实验数据集的不均衡比例。对40个所述实验数据集分别采用不同的集成学习方法进行分类,对获得的分类结果分别进行F1评价计算,获得40组F1评价结果。所述F1评价结果请参阅图8,每一行表示单个数据集通过不同的集成学习方法进行分类后所获得的单组F1评价结果,最后一行表示不同的集成学习方法对所有数据集进行分类后所获得的F1评测均值。如图8所示,其中本发明所提供的所述启发式采样的集成学习方法(ADASP)在40组F1评价结果中所获得的最优F1值个数最多,同时F1均值最高,可见本发明的方法对于样本不均衡的数据集更具有较好的普适性和更优的分类效果。并且,所述对比实验对不同方法对单个数据集分类的运行时间进行统计和对比,请参阅图9,本发明的运行时间略高于欠采样的集成学习代表RUSBoost,相比于过采样的SMOTEBagging节约了近10倍的运行时间。因此,本发明提供的所述启发式采样的集成学习方法在处理不均衡样本数据集的分类问题时,相较于现有的集成学习方法不仅能有效得提升分类效果,还兼顾分类的运行效率,具有较高的运行效率。
综上所述,本发明提出的所述启发式采样的集成学习方法,相比于现有常用的集成学习方法,在处理不均衡数据集问题时,具有更优的分类性能,尤其是对于数据集中的边界样本,可以显著的提升边界样本的分类准确性。此外,所述集成学习方法还兼具较高的分类效率。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (9)
1.一种启发式采样的集成学习方法,适用于不均衡数据集的分类,其特征在于,所述方法包括:
对数据集的所有样本根据所述样本的第一类别以及在特征空间的分布特征划分第二类别;
计算数据集中每个样本的选中概率;
根据所述选中概率采用集成学习算法对数据集重采样和集成训练,获得最终的分类结果。
2.根据权利要求1所述的一种启发式采样的集成学习方法,其特征在于,所述选中概率的计算步骤包括:
对于数据集中任意样本xi,根据所述数据集中所有样本的所述第一类别总数和所述样本xi的标签值对应的所述第一类别的样本数计算所述样本xi的不均衡权重;
根据所述样本xi的所述第二类别以及所述样本xi在特征空间内的局部分布特征计算硬度权重;
根据所述不均衡权重和所述硬度权重,计算所述样本xi的所述选中概率。
3.根据权利要求2所述的一种启发式采样的集成学习方法,其特征在于,所述对数据集的所有样本根据在特征空间的分布特征划分第二类别,包括:
根据所述样本xi的所述第一类别,将所述样本xi周围第一最近邻内的其他第一类别样本划分为硬多数类或所述硬少数类;
将数据集除所述硬多数类和所述硬少数类的其他样本划分为非硬类;
当所述样本xi属于所述硬多数类,根据所述样本xi周围第二最近邻内其他标签样本的占比,将所述样本xi划分为多数样本边界类或噪声类;
当所述样本xi属于所述硬少数类,根据所述样本xi周围第二最近邻内其他标签样本的占比,将所述样本xi划分为少数样本边界类或稀缺类。
4.根据权利要求3所述的一种启发式采样的集成学习方法,其特征在于,所述根据所述样本xi的所述第二类别以及所述样本xi在特征空间内的局部分布特征计算硬度权重,包括:
预先设置硬度阈值;
当所述样本xi属于所述稀缺类、所述噪声类或所述非硬类时,分别设定所述样本xi的硬度权重大小;
当所述样本xi属于所述多数样本边界类或所述少数样本边界类时,根据所述样本xi的局部标签权重和距离密度权重计算所述硬度权重。
5.根据权利要求4所述的一种启发式采样的集成学习方法,其特征在于,所述当所述样本xi属于所述稀缺类、所述噪声类或所述非硬类时分别设定所述样本xi的硬度权重大小,包括:
当所述样本xi属于所述稀缺类时,设定所述硬度权重为所述硬度阈值;
当所述样本xi属于所述噪声类时,设定所述硬度权重为0;
当所述样本xi属于所述非硬类时,设定所述硬度权重为1。
6.根据权利要求4所述的一种启发式采样的集成学习方法,其特征在于,所述样本xi的距离密度权重的获取方式包括:
获取所述样本xi周围第三最近邻内的最近边界异类簇;
根据所述样本xi至所述最近边界异类簇的欧几里得距离,以及最近边界异类簇的簇密度获取所述样本xi的距离密度权重。
7.根据权利要求6所述的一种启发式采样的集成学习方法,其特征在于,所述最近边界异类簇的簇密度采用高斯最大似然法获得。
8.根据权利要求1所述的一种启发式采样的集成学习方法,其特征在于,所述根据所述选中概率采用集成学习算法对数据集重采样及集成训练的实现方法包括:
根据所述选中概率采用Bagging算法对数据集进行重采样,获得新的数据集子集;
对各所述新的数据集子集利用分类器进行训练获得训练模型;
将各所述训练模型集成获得最终的分类结果。
9.根据权利要求8所述的一种启发式采样的集成学习方法,其特征在于,所述分类器包括决策分类树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010057454.8A CN111275206A (zh) | 2020-01-19 | 2020-01-19 | 一种基于启发式采样的集成学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010057454.8A CN111275206A (zh) | 2020-01-19 | 2020-01-19 | 一种基于启发式采样的集成学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111275206A true CN111275206A (zh) | 2020-06-12 |
Family
ID=71003055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010057454.8A Pending CN111275206A (zh) | 2020-01-19 | 2020-01-19 | 一种基于启发式采样的集成学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275206A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541536A (zh) * | 2020-12-09 | 2021-03-23 | 长沙理工大学 | 用于信用评分的欠采样分类集成方法、设备及存储介质 |
CN112820299A (zh) * | 2020-12-29 | 2021-05-18 | 马上消费金融股份有限公司 | 声纹识别模型训练方法、装置及相关设备 |
CN113283467A (zh) * | 2021-04-14 | 2021-08-20 | 南京大学 | 一种基于平均损失和逐类选择的弱监督图片分类方法 |
-
2020
- 2020-01-19 CN CN202010057454.8A patent/CN111275206A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541536A (zh) * | 2020-12-09 | 2021-03-23 | 长沙理工大学 | 用于信用评分的欠采样分类集成方法、设备及存储介质 |
CN112820299A (zh) * | 2020-12-29 | 2021-05-18 | 马上消费金融股份有限公司 | 声纹识别模型训练方法、装置及相关设备 |
CN112820299B (zh) * | 2020-12-29 | 2021-09-14 | 马上消费金融股份有限公司 | 声纹识别模型训练方法、装置及相关设备 |
CN113283467A (zh) * | 2021-04-14 | 2021-08-20 | 南京大学 | 一种基于平均损失和逐类选择的弱监督图片分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443281B (zh) | 基于hdbscan聚类的文本分类自适应过采样方法 | |
CN108363810B (zh) | 一种文本分类方法及装置 | |
Gu et al. | Data mining on imbalanced data sets | |
CN111275206A (zh) | 一种基于启发式采样的集成学习方法 | |
Qureshi et al. | Adaptive discriminant wavelet packet transform and local binary patterns for meningioma subtype classification | |
CN112001788B (zh) | 一种基于rf-dbscan算法的信用卡违约欺诈识别方法 | |
CN113344075A (zh) | 基于特征学习与集成学习的高维不平衡数据分类方法 | |
Ougiaroglou et al. | Adaptive k-nearest-neighbor classification using a dynamic number of nearest neighbors | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
JP2005202932A (ja) | データを複数のクラスに分類する方法 | |
CN111046977A (zh) | 基于em算法和knn算法的数据预处理方法 | |
CN112036297A (zh) | 基于网联车辆驾驶数据的典型与极限场景划分与提取方法 | |
Blachnik | Ensembles of instance selection methods: A comparative study | |
CN111681132A (zh) | 适用于海量类别不平衡负荷数据的典型用电模式提取方法 | |
Wang et al. | Nearest Neighbor with Double Neighborhoods Algorithm for Imbalanced Classification. | |
CN109492664B (zh) | 一种基于特征加权模糊支持向量机的音乐流派分类方法及系统 | |
CN114841241A (zh) | 一种基于聚类和距离加权的不平衡数据分类方法 | |
CN113936185A (zh) | 一种基于局部密度信息的软件缺陷数据自适应过采样方法 | |
CN118364346A (zh) | 一种基于混合采样的不平衡数据分类方法 | |
Barandela et al. | Restricted decontamination for the imbalanced training sample problem | |
CN111027609B (zh) | 一种图像数据加权分类方法和系统 | |
CN117155701A (zh) | 一种网络流量入侵检测方法 | |
JPH0934861A (ja) | クラスタ分類装置 | |
Shi et al. | A hybrid sampling method based on safe screening for imbalanced datasets with sparse structure | |
CN113392908A (zh) | 基于边界密度的不平衡数据过采样算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200612 |
|
RJ01 | Rejection of invention patent application after publication |