CN105975611A - 自适应组合降采样增强学习机 - Google Patents
自适应组合降采样增强学习机 Download PDFInfo
- Publication number
- CN105975611A CN105975611A CN201610330862.XA CN201610330862A CN105975611A CN 105975611 A CN105975611 A CN 105975611A CN 201610330862 A CN201610330862 A CN 201610330862A CN 105975611 A CN105975611 A CN 105975611A
- Authority
- CN
- China
- Prior art keywords
- sample
- negative
- positive
- subsets
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Abstract
本发明涉及一种自适应组合降采样增强学习机,包括:根据和计算不平衡数据集的不平衡率;将全部的负样本通过不放回抽样均分为IR个独立不相交的子集,使各负样本子集中的样本数量与正样本数量接近;不平衡数据集中的全部正样本分别与各负样本子集进行组合,得到IR个平衡的子训练集;设迭代次数为T,用Real Adaboost算法分别对各平衡子集进行训练,得到T个不同的分类模型;使用一个平衡且与不平衡数据集数据分布相同的验证集进行分类实验,对输出的加权投票结果利用OTSU法寻找最优阈值。本发明可以在不平衡数据集上获得更好的分类效果。
Description
技术领域
本发明涉及机器学习与数据挖掘技术,具体涉及一种针对不平衡数据集的集成分类器。
背景技术
分类是机器学习技术最为重要的任务之一。当前,已经得到深入研究并广泛投入应用的支持向量机、线性判别分析及决策树等经典分类器在对样本进行训练时均以获得最高整体准确率为目标。对于二分类问题,若两类样本分别包含的样本数基本相等,则经典分类器可以通过训练获得良好的分类效果。然而,若正样本(少数类中的样本)和负样本(多数类中的样本)数量相差过大,经典分类器将无法给出良好的分类结果。例如,若某数据集中包含1个正样本和99个负样本,则将全部数据均分入负样本将获得99%的整体准确率,但由于其无法将正负样本分开,故这一数据毫无意义。为解决数据不平衡问题对正样本分类准确率带来的影响,迄今为止科研人员已提出多种方法。根据其操作对象的不同,这些方法主要可以分为数据级操作方法和算法级操作方法。
数据级操作方法主要通过改变训练集的正负样本数据分布来达到数据平衡,增加正样本的数量或减少负样本的数量均为可行方法。专利“一种分类器的构建方法”(CN104766098A)同时使用上述两种方法,既保证了采样后训练样本的代表性,也避免了过高的运算复杂度。然而,数据级方法也存在一定缺陷,即重采样过程对噪声较为敏感,个别远离同类大部分样本点的离群点可能会对最终的分类性能产生明显影响。
算法级操作方法主要通过对分类规则及数学模型进行优化来解决数据不平衡问题,常用的方法是对不同类的样本给出不同的错分代价或进行增强学习(boosting),通过多个弱分类器的叠加与投票获得性能较好的整体分类器。专利“一种基于代价敏感支持向量机的遥感图像自动解译方法”(CN103218625A)通过引入代价敏感算法来优化支持向量机,增大将正样本分错的惩罚系数,以此提高正样本的分类准确率;专利“基于不平衡分类指标与集成学习的不平衡数据分类方法”(CN104951809A)使用boosting算法不断增加错分样本的权重,使其在下一轮学习中被再次错分所需付出的代价变大,“迫使”错分的样本在下一轮迭代中给出同之前相反的分类结果,由此提高分类准确率。但算法级操作方法同样存在一定的局限性:若引入代价敏感参数,则代价损失函数的确定需要依靠先验知识确定,而这样的先验知识不仅难以获得,且不能保证准确;而增强学习方法仍然知识一种通用分类器的优化方法,并未刻意关注正样本,因此增强学习后数据不平衡问题虽得到缓解,但仍然存在。
为克服上述技术的缺陷并将其优势相结合,近年来,将数据级操作和算法级操作相结合的集成学习方法已经成为热门研究方向。集成学习框架可以将包括重采样、代价敏感、阈值投票等方法在内的多种机器学习方法进行融合并按照一定的顺序执行,以此达到扬长避短的目的。专利“组合降采样极限学习机”(CN104573708A)将投票算法与降采样技术相结合,在降低了错误分类方差的同时也减小了运算复杂度。同时,由于投票算法的作用,离群点对最终分类结果的影响也可减小。然而,该发明中得到的分类结果受各子分类器分类性能影响较大,分类性能不够稳定。
从上述分析可以看出,当前,集成学习方法虽已开始得到应用并展现出良好的发展前景,但其性能仍存在一定的提升空间。
发明内容
本发明提供一种集成分类器,在不平衡数据集上获得更好的分类性能。技术方案如下:
一种自适应组合降采样增强学习机,设不平衡数据集的正负样本总数为n,其中正样本的数目为np,负样本的数目为nn,np<nn,该方法的技术方案如下:
(1)根据np和nn计算不平衡数据集的不平衡率IR;
(2)将全部的负样本通过不放回抽样均分为IR个独立不相交的子集,使各负样本子集中的样本数量与正样本数量接近;
(3)不平衡数据集中的全部正样本分别与各负样本子集进行组合,得到IR个平衡的子训练集;
(4)设迭代次数为T,用Real Adaboost算法分别对各平衡子集进行训练,得到T个不同的分类模型;
(5)使用一个平衡且与不平衡数据集数据分布相同的验证集进行分类实验,对输出的加权投票结果利用OTSU法寻找最优阈值。
(6)对待分类的样本进行分类时,将其输入分类模型中,经各分类模型加权投票后将投票结果同步骤(5)中给出的最优阈值进行比较,若不小于最优阈值则判定为正样本,反之判定为负样本。
本发明受集成分类器设计思想启发,设计一种基于组合降采样的集成分类器。通过将子分类器用RealAdaboost算法进行优化,提高其单独分类性能;子分类器的结果融合采用加权投票方法,根据子分类器的分类错误率赋予不同权重,且最终的分类阈值根据投票结果自适应,有效提高了分类精度。经实验比较,本发明在多个分类器评价指标上具有明显优势。
附图说明
图1为Real Adaboost算法流程图。
图2为本发明系统流程图。
具体实施方式
下面结合附图对本发明作进一步详细的说明:
(1)取得测试和训练数据:示例中使用KEEL机器学习开源数据库中的红酒品质分类数据库,共有1599个红葡萄酒样本。其中,正样本为数据库中评分为4的红葡萄酒(评分取值为从0到10的整数),包含样本53个,即np=53;负样本为数据库中的其他全部1536个样本,即nn=1536。按(1)式计算不平衡率,
IR=round(nn/np) (1)
不平衡比例约为1:29。对各样本提取糖度、PH值、液体密度、硫含量等共11维样本,进行归一化处理。
(2)正负样本中,分别取一半样本为训练集,四分之一样本为验证集,另外四分之一样本为测试集。
(3)对负样本进行29次不放回均匀降采样,使降采样得到的各负样本子集中的样本个数同训练集中正样本的个数基本相同。将训练集中全部正样本分别与29个负样本相结合,得到29个平衡的子训练集。
(4)用上述得到的29个平衡训练集训练子分类器,分类算法为Real Adaboost,具体流程如图1所示。设训练迭代次数T=10,各样本的权值为D,则训练步骤可描述为:
1.将各训练样本的权值均初始化为D1(i)=1/(np+ns),i=1,...,(np+ns)。随后在迭代结束之前循环执行步骤2至步骤6:
2.将训练集中的特征按取值不同划分为若干个不相交的子空间,记为X1,...,Xn。
3.如(1)式所示,计算该轮迭代中每个子空间中样本的总权值
其中,l可取+1或-1,分别为正负样本的标签。通过上式计算可以得到每个子空间中正负类的累积样本权。若权值越高,则证明训练样本之前被分错的次数越多,即分类错误越多。
4.计算样本输出,对于任意xi∈Xj,定义
其中,ε为一个很小的正常量,用于保证输出的平滑性。由此可见,不同的子空间中分类器h将给出不同的输出,而同一子空间内的取值将有相同的输出。
5.定义归一化因子Z为各子空间中正负样本的累积样本权之积的和乘以2,即
由于W值表示样本权重,且在Real Adaboost算法中分类错误的样本将获得更高的权重,故Z可以表征分类误差。通过机器学习寻优训练选取在该轮迭代中使Z值最小(即分类误差最小)的分类参数,将该子空间的分类器ht作为该轮迭代的输出函数,即为该轮迭代训练得到的分类器。
6.按(4)式更新样本权值
对各样本的权值进行归一化处理后即可开始下一轮迭代。本发明中,步骤2至步骤6循环执行共10次;
7.最终得到的强分类器可表示为
其中,b为一判别阈值,通常默认为0。同时,可定义强分类器给出的分类结果置信度
本发明中,Real Adaboost结构中的基分类器采用C4.5决策树。其中,设置每个属性中至少包含两个样本,置信度为0.25,决策树训练完成后进行后剪枝处理。正样本数据标签为+1,负样本数据标签为-1。
(5)根据训练算法迭代完成后各子分类器最终的分类错误率决定其在最终的投票中得到的权重。
(6)将验证集样本输入已经完成训练及权值分配的分类系统,用OTSU法寻找阈值,即在集合[-1,1]内寻找最佳阈值分界点th,使分类结果以该点为界生成两类,则两类各有一中心点。计算两中心点方差,取值范围内使两类方差最大的阈值即为分类器最终的阈值。
完成加权投票后为全体验证集样本寻找合适的阈值th,使被th分出的两类获得最大的类间方差,此时的th即为分类系统的自适应阈值。
(7)测试:将待分类样本输入分类系统,输出加权投票结果后与阈值进行比较,若大于阈值则分入正类(+1),反之分入负类(-1)。
表1给出了直接运用C4.5决策树分类器对不平衡数据集进行分类、用组合降采样极限学习机进行分类及本发明所使用的自适应组合降采样增强学习机方法进行分类分别得到的测试结果。本发明采用以下几个指标对分类器性能进行评价:
表1 分类算法结果与比较(同一指标下最好的结果用黑体标出)
由表1可以看出,在数据高度不平衡的情况下,直接用简单分类器进行分类完全无法正确识别正样本,而本发明所使用的方法同时获得了理想的灵敏度和特异性结果,取得了对正负样本的分类准确率的最佳折中,展现出了良好的分类性能。
Claims (1)
1.一种自适应组合降采样增强学习机,设不平衡数据集的正负样本总数为n,其中正样本的数目为np,负样本的数目为nn,np<nn,该方法的技术方案如下:
(1)根据np和nn计算不平衡数据集的不平衡率IR;
(2)将全部的负样本通过不放回抽样均分为IR个独立不相交的子集,使各负样本子集中的样本数量与正样本数量接近;
(3)不平衡数据集中的全部正样本分别与各负样本子集进行组合,得到IR个平衡的子训练集;
(4)设迭代次数为T,用Real Adaboost算法分别对各平衡子集进行训练,得到T个不同的分类模型;
(5)使用一个平衡且与不平衡数据集数据分布相同的验证集进行分类实验,对输出的加权投票结果利用OTSU法寻找最优阈值。
(6)对待分类的样本进行分类时,将其输入分类模型中,经各分类模型加权投票后将投票结果同步骤(5)中给出的最优阈值进行比较,若不小于最优阈值则判定为正样本,反之判定为负样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610330862.XA CN105975611A (zh) | 2016-05-18 | 2016-05-18 | 自适应组合降采样增强学习机 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610330862.XA CN105975611A (zh) | 2016-05-18 | 2016-05-18 | 自适应组合降采样增强学习机 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105975611A true CN105975611A (zh) | 2016-09-28 |
Family
ID=56956953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610330862.XA Pending CN105975611A (zh) | 2016-05-18 | 2016-05-18 | 自适应组合降采样增强学习机 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105975611A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614967A (zh) * | 2018-10-10 | 2019-04-12 | 浙江大学 | 一种基于负样本数据价值重采样的车牌检测方法 |
CN109697399A (zh) * | 2017-10-24 | 2019-04-30 | 普天信息技术有限公司 | 一种人脸表情识别方法及装置 |
CN110046647A (zh) * | 2019-03-08 | 2019-07-23 | 同盾控股有限公司 | 一种验证码机器行为识别方法及装置 |
CN111091142A (zh) * | 2019-11-25 | 2020-05-01 | 国网四川省电力公司电力科学研究院 | 样本数量不平衡的电力系统暂态稳定状态集成预测方法 |
US10860641B2 (en) | 2017-03-31 | 2020-12-08 | Alibaba Group Holding Limited | Method, apparatus, and electronic devices for searching images |
CN112382382A (zh) * | 2020-10-23 | 2021-02-19 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
CN112529114A (zh) * | 2021-01-13 | 2021-03-19 | 北京云真信科技有限公司 | 基于gan的目标信息识别方法、电子设备和介质 |
CN112668749A (zh) * | 2020-11-24 | 2021-04-16 | 江苏中矿安华科技发展有限公司 | 一种基于类标加权极限学习机的煤矿瓦斯预警方法 |
CN112382382B (zh) * | 2020-10-23 | 2024-04-12 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710383A (zh) * | 2009-10-26 | 2010-05-19 | 北京中星微电子有限公司 | 一种身份认证的方法及认证装置 |
CN103390164A (zh) * | 2012-05-10 | 2013-11-13 | 南京理工大学 | 基于深度图像的对象检测方法及其实现装置 |
CN104102700A (zh) * | 2014-07-04 | 2014-10-15 | 华南理工大学 | 一种面向因特网不平衡应用流的分类方法 |
CN104573708A (zh) * | 2014-12-19 | 2015-04-29 | 天津大学 | 组合降采样极限学习机 |
CN105095884A (zh) * | 2015-08-31 | 2015-11-25 | 桂林电子科技大学 | 一种基于随机森林支持向量机的行人识别系统及处理方法 |
-
2016
- 2016-05-18 CN CN201610330862.XA patent/CN105975611A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710383A (zh) * | 2009-10-26 | 2010-05-19 | 北京中星微电子有限公司 | 一种身份认证的方法及认证装置 |
CN103390164A (zh) * | 2012-05-10 | 2013-11-13 | 南京理工大学 | 基于深度图像的对象检测方法及其实现装置 |
CN104102700A (zh) * | 2014-07-04 | 2014-10-15 | 华南理工大学 | 一种面向因特网不平衡应用流的分类方法 |
CN104573708A (zh) * | 2014-12-19 | 2015-04-29 | 天津大学 | 组合降采样极限学习机 |
CN105095884A (zh) * | 2015-08-31 | 2015-11-25 | 桂林电子科技大学 | 一种基于随机森林支持向量机的行人识别系统及处理方法 |
Non-Patent Citations (1)
Title |
---|
HAIBO HE 等: ""ADASYN: Adaptive Synthetic Sampling Approach for Imbalanced Learning"", 《2008 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10860641B2 (en) | 2017-03-31 | 2020-12-08 | Alibaba Group Holding Limited | Method, apparatus, and electronic devices for searching images |
CN109697399A (zh) * | 2017-10-24 | 2019-04-30 | 普天信息技术有限公司 | 一种人脸表情识别方法及装置 |
CN109614967A (zh) * | 2018-10-10 | 2019-04-12 | 浙江大学 | 一种基于负样本数据价值重采样的车牌检测方法 |
CN109614967B (zh) * | 2018-10-10 | 2020-07-17 | 浙江大学 | 一种基于负样本数据价值重采样的车牌检测方法 |
CN110046647A (zh) * | 2019-03-08 | 2019-07-23 | 同盾控股有限公司 | 一种验证码机器行为识别方法及装置 |
CN111091142A (zh) * | 2019-11-25 | 2020-05-01 | 国网四川省电力公司电力科学研究院 | 样本数量不平衡的电力系统暂态稳定状态集成预测方法 |
CN112382382A (zh) * | 2020-10-23 | 2021-02-19 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
CN112382382B (zh) * | 2020-10-23 | 2024-04-12 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
CN112668749A (zh) * | 2020-11-24 | 2021-04-16 | 江苏中矿安华科技发展有限公司 | 一种基于类标加权极限学习机的煤矿瓦斯预警方法 |
CN112668749B (zh) * | 2020-11-24 | 2023-07-07 | 江苏中矿安华科技发展有限公司 | 一种基于类标加权极限学习机的煤矿瓦斯预警方法 |
CN112529114A (zh) * | 2021-01-13 | 2021-03-19 | 北京云真信科技有限公司 | 基于gan的目标信息识别方法、电子设备和介质 |
CN112529114B (zh) * | 2021-01-13 | 2021-06-29 | 北京云真信科技有限公司 | 基于gan的目标信息识别方法、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105975611A (zh) | 自适应组合降采样增强学习机 | |
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
US10706332B2 (en) | Analog circuit fault mode classification method | |
CN102521656B (zh) | 非平衡样本分类的集成迁移学习方法 | |
CN103309953B (zh) | 一种基于多rbfnn分类器集成的多样化图像标注和检索方法 | |
CN109034194B (zh) | 基于特征分化的交易欺诈行为深度检测方法 | |
CN112465040B (zh) | 一种基于类不平衡学习算法的软件缺陷预测方法 | |
CN107644057B (zh) | 一种基于迁移学习的绝对不平衡文本分类方法 | |
CN110309302A (zh) | 一种结合svm和半监督聚类的不平衡文本分类方法及系统 | |
CN109766277A (zh) | 一种基于迁移学习与dnn的软件故障诊断方法 | |
CN108460421A (zh) | 不平衡数据的分类方法 | |
CN111275113A (zh) | 基于代价敏感混合网络的偏斜类时间序列异常检测方法 | |
CN109886284B (zh) | 基于层次化聚类的欺诈检测方法及系统 | |
CN101630367A (zh) | 基于多分类器的手写体字符识别拒识方法 | |
CN101964063A (zh) | 一种改进的AdaBoost分类器构造方法 | |
CN105787046A (zh) | 一种基于单边动态下采样的不平衡数据分类系统 | |
CN112633337A (zh) | 一种基于聚类和边界点的不平衡数据处理方法 | |
CN110516733A (zh) | 一种基于改进多分类孪生支持向量机的测井岩性识别方法 | |
CN105975993A (zh) | 一种基于边界升采样的不平衡数据分类方法 | |
CN106250913B (zh) | 一种基于局部典型相关分析的分类器集成车牌识别方法 | |
CN111950645A (zh) | 一种通过改进随机森林提高类不平衡分类性能的方法 | |
CN103631753A (zh) | 递减子空间集成学习算法 | |
CN104978569A (zh) | 一种基于稀疏表示的增量人脸识别方法 | |
CN108776809A (zh) | 一种基于Fisher核的双重采样集成分类模型 | |
CN106570514A (zh) | 一种基于词袋模型和支持向量机的汽车轮毂分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160928 |
|
RJ01 | Rejection of invention patent application after publication |