CN102945280A - 一种基于非平衡数据分布的多异质基分类器融合分类方法 - Google Patents

一种基于非平衡数据分布的多异质基分类器融合分类方法 Download PDF

Info

Publication number
CN102945280A
CN102945280A CN2012104603668A CN201210460366A CN102945280A CN 102945280 A CN102945280 A CN 102945280A CN 2012104603668 A CN2012104603668 A CN 2012104603668A CN 201210460366 A CN201210460366 A CN 201210460366A CN 102945280 A CN102945280 A CN 102945280A
Authority
CN
China
Prior art keywords
basic
expert
sample
sorter
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104603668A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Di Yun
Original Assignee
Di Yun
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Di Yun filed Critical Di Yun
Priority to CN2012104603668A priority Critical patent/CN102945280A/zh
Publication of CN102945280A publication Critical patent/CN102945280A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于非平衡数据分布的多异质基分类器融合分类方法,它涉及数据挖掘领域中的非平衡数据分类技术;首先利用基于差异采样率的重采样算法对样本进行预处理,包括过采样和欠采样两个过程,从而为不同的基分类器分配不同的待分类样本;计算各基分类器的分类错误率,进而计算出对应的权重;由过采样专家和欠采样专家统计各自结果;根据分类决策函数融和最后预测结果得到样本所述类别;本发明利用基于多异质基分类器融合分类方法从海量数据中发现少数类样本重要的特性,可以有效提高少数类样本精度,进而达到提高数据集整体分类精度的目的。

Description

一种基于非平衡数据分布的多异质基分类器融合分类方法
技术领域
本发明所涉及数据挖掘的技术领域,特别是涉及一种基于非平衡数据分布的多异质基分类器融合分类方法。
背景技术
近年来,随着数据挖掘研究的日益深入与应用的不断扩展,越来越多的研究者愈发感受到在一些复杂数据环境下,传统数据挖掘技术已难以适应新形势的不断变化。其中,针对非平衡数据分布环境的数据挖掘方法,逐渐成为该领域中的热点问题。自Nathalie Japkowicz全面提出面向非平衡数据集的学习后,基于非平衡数据分布环境的数据分类问题首次成了一个专门的研究主题和未来的研究重点之一。传统的分类方法着眼于提高数据集整体分类精度,倾向偏置多数类样本,忽略了少数类样本的精度,故已不适合非平衡数据的分类问题。
多分类器融合方法从系统论角度出发,不但融合多种重采样技术,而且能充分利用各基分类器的结果,故而能达到较好的精度,具有较稳定的鲁棒性。融合分类器不易出现过学习,同时具有较强的泛化能力。融合分类器本身具有的这种独特优势使其成为近年来数据挖掘领域中的研究热点。如在人脸识别及表情识别领域,不同分类器可以利用不同特征,采用某种组合策略,从而将多个分类器融合,使其优势互补,从而提高整体分类的准确率和鲁棒性。
2000年Thomas G.Dietterich从统计因素、计算因素和表示因素等三个方面深入分析了融合学习的有效性。1996年和1995年Breiman,Freund分别介绍和讨论了Bagging和Boosting这两种最典型的基分类器融合方法。Freund进而提出了AdaBoost算法,该算法可以非常容易地应用到实际问题中。但这些方法仅适用于正常态数据集中,并不适应于非平衡数据集,就当前的研究进展来看,适用于非平衡数据分布环境的基分类器融合方法仍为鲜见,尤其是在算法的多样性与分类准确度尤其是在提高少数类样本精度方面仍面临着难以突破的瓶颈问题。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于非平衡数据分布的多异质基分类器融合分类方法。
为了实现上述发明目的,采用的技术方案如下:
一种基于非平衡数据分布的多异质基分类器融合分类方法,包括:
决策者利用基于差异采样率的重采样算法对样本进行预处理,包括过采样和欠采样两个过程;在基于差异采样率重采样算法中,在过采样和欠采样过程中均可为不同基分类器赋予不同的采样率,从而确保各基分类器拥有不同的样本数量;
利用基于差异采样率重采样算法对Undersample专家和Oversample专家的N个基分类器分别赋予训练样本,然后使其分别独立生成新样本;
计算各基分类器的分类错误率,进而计算出对应的权重;
由Undersample专家和Oversample专家统计各自结果;
融和最后预测结果。
所述基于差异采样率重采样算法对样本进行预处理的过程(以过采样过程为例),具体为:
A、计算正类样本数量minsize和负类样本数量maxsize;
B、计算maxsize与minsize的差值subsize;
C、计算采样因子samfactor=subsize/n,其中n为基分类器数量;
D、计算各基分类器的样本数量minsamplesizei=minsize+samfasctor·oversamratei,其中,oversamratei为第i个基分类器的过采样率;
所述各基分类器分类错误率和对应权重的计算方法为:计算基分类器ht:X →{-1,1},该基分类器在分布Dt上的误差为:
Figure BDA00002410077900021
那么该基分类器的权重:
所述Undersample专家和Oversample专家统计结果的过程具体为:对于10个样本子集,仅分别独立保留最后一次迭代时生成的基分类器ht(x),在Undersample生成的10个样本子集
Figure BDA00002410077900023
(Oversample生成的10个样本子集
Figure BDA00002410077900024
)上皆生成相应的基分类器hi(x),i=1,2...10;对在
Figure BDA00002410077900025
上的10个基分类器进行10交叉验证,分别计算各自错误率εi,令该基分类器的权重为
Figure BDA00002410077900026
i=1,2...10;Undersample专家和Oversample专家最后预测结果分别为:
Figure BDA00002410077900027
i=1,2...10;如果ResultUndersample≥0则Undersample expert的融和结果为正类,否则为负类;如果ResultOversample≥0则Oversample expert的融和结果为正类,否则为负类。
所述融和最后预测结果具体为:经过分类决策函数,输出分类结果Result:
Figure BDA00002410077900028
与现有技术相比,本发明具有以下优点:
本发明首先利用基于差异采样率的重采样技术为各集分类器分配样本,避免了各基分类器训练完全相同的样本,保持了基分类器的多样性,从而尽可能避免了过适应;与等权重方法不同,我们利用样本识别的置信度设置基分类器的权重;采用的基分类器权重wi与Adaboost算法中基分类器权重相统一,且εi经过多次交叉验证得到,反映了基分类器性能优劣;又因为基分类器性能要优于随机分类结果,即pt(ht(x)|x)≥0.5,故 w i = 1 2 ln ( 1 - ϵ i ϵ i ) = 1 2 ln ( 1 - ( 1 - p t ( h t ( x ) | x ) ) 1 - p t ( h t ( x ) | x ) ) = 1 2 ln ( p t ( h t ( x ) | x ) 1 - p t ( h t ( x ) | x ) ) ≥ 0 , 第i基分类器的权重wi根据置信度设置,置信度越大,权重越大,反之亦然,从而论证了wi、εi与pt(ht(x)|x)的内在统一性,进而说明了基分类器权重计算方法的合理性;本发明仅利用了最后一轮生成的基分类器,而该基分类器从理论上是最优的;然后在10个不同样本集上对10个不同基分类器进行测试,并根据分类精度决定其权重,利用加权的投票机制代替平均投票机制;为正类样本设置较大偏置,在决策输出层只要有一个专家提交正类结果,则最终分类结果为正类。
附图说明
附图是本发明基于非平衡数据分布的多异质基分类器融合分类方法的工作流程图。
具体实施方式
下面结合附图对本发明作进一步的说明。
本发明在非平衡数据分布下的基于异质基分类器的融和分类实施过程如附图所示,具体包括步骤:
Step 1利用基于差异采样率的重采样算法对样本进行预处理,包括过采样和欠采样两个过程,从而为不同的基分类器分配不同的待分类样本;以过采样过程为例,具体为:
A、计算正类样本数量minsize和负类样本数量maxsize;
B、计算maxsize与minsize的差值subsize;
C、计算采样因子samfactor=subsize/n,其中n为基分类器数量;
D、计算各基分类器的样本数量minsamplesizei=minsize+samfactor·oversamratei,其中,oversamratei为第i个基分类器的过采样率;
Step 2计算各基分类器的分类错误率,进而计算出对应的权重;计算基分类器ht:X →{-1,1},该基分类器在分布Dt上的误差为:那么该基分类器的权重: α t = 1 2 ln ( 1 - ϵ t ϵ t ) ;
Step 3由Undersample专家和Oversample专家统计各自结果;对于10个样本子集,仅分别独立保留最后一次迭代时生成的基分类器ht(x),在Undersample生成的10个样本子集
Figure BDA00002410077900034
(Oversample生成的10个样本子集
Figure BDA00002410077900035
)上皆生成相应的基分类器hi(x),i=1,2...10;对在
Figure BDA00002410077900036
上的10个基分类器进行10交叉验证,分别计算各自错误率εi,令该基分类器的权重为
Figure BDA00002410077900041
i=1,2...10;Undersample专家和Oversample专家最后预测结果分别为:
Figure BDA00002410077900043
i=1,2...10;如果ResultUndersample≥0则Undersample expert的融和结果为正类,否则为负类;如果ResultOvesample≥0则Oversample expert的融和结果为正类,否则为负类。
Step 4根据所述Undersample专家和Oversample专家统计各自结果和分类决策函数融和最后预测结果,若分类决策函数即若ResultUndersample+ResultOversample大于或等于0,则融合结果为正类,反之为负类。

Claims (5)

1.一种基于非平衡数据分布的多异质基分类器融合分类方法,其特征在于,包括以下步骤:
决策者利用基于差异采样率的重采样算法对样本进行预处理,包括过采样和欠采样两个过程;在基于差异采样率重采样算法中,在过采样和欠采样过程中均可为不同基分类器赋予不同的采样率,从而确保各基分类器拥有不同的样本数量;
利用基于差异采样率重采样算法对欠采样专家和过采样专家的N个基分类器分别赋予训练样本,然后使其分别独立生成新样本;
计算各基分类器的分类错误率,进而计算出对应的权重;
过采样专家和欠采样专家统计各自结果;
根据分类决策函数融和最后预测结果,判断样本所属类别。
2.根据权利1所述的基于非平衡数据分布的多异质基分类器融合分类方法,其特征在于,各基分类器分类错误率和对应权重的计算方法为:计算基分类器ht:X→{-1,1},该基分类器在分布Dt上的误差为:
Figure FDA00002410077800011
那么该基分类器的权重:
Figure FDA00002410077800012
3.根据权利1所述的基于非平衡数据分布的多异质基分类器融合分类方法,其特征在于,所述Undersample专家和Oversample专家统计结果的过程具体为:对于10个样本子集,仅分别独立保留最后一次迭代时生成的基分类器ht(x),在Undersample生成的10个样本子集
Figure FDA00002410077800013
(Oversample生成的10个样本子集
Figure FDA00002410077800014
)上皆生成相应的基分类器hi(x),i=1,2...10;对在
Figure FDA00002410077800015
上的10个基分类器进行10交叉验证,分别计算各自错误率εi,令该基分类器的权重为
Figure FDA00002410077800016
i=1,2...10。
4.根据权利1所述的基于非平衡数据分布的多异质基分类器融合分类方法,其特征在于,Undersample专家和Oversample专家最后预测结果计算方法分别为:
Figure FDA00002410077800017
Figure FDA00002410077800018
i=1,2...10;如果ResultUndersample≥0则Undersample expert的融和结果为正类,否则为负类;如果ResultOversample≥0则Oversample expert的融和结果为正类,否则为负类。
5.根据权利1所述的基于非平衡数据分布的多异质基分类器融合分类方法,其特征在于,融和最后预测结果计算方法为:经过分类决策函数,输出分类结果Result:
Figure FDA00002410077800019
CN2012104603668A 2012-11-15 2012-11-15 一种基于非平衡数据分布的多异质基分类器融合分类方法 Pending CN102945280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104603668A CN102945280A (zh) 2012-11-15 2012-11-15 一种基于非平衡数据分布的多异质基分类器融合分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104603668A CN102945280A (zh) 2012-11-15 2012-11-15 一种基于非平衡数据分布的多异质基分类器融合分类方法

Publications (1)

Publication Number Publication Date
CN102945280A true CN102945280A (zh) 2013-02-27

Family

ID=47728224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104603668A Pending CN102945280A (zh) 2012-11-15 2012-11-15 一种基于非平衡数据分布的多异质基分类器融合分类方法

Country Status (1)

Country Link
CN (1) CN102945280A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593470A (zh) * 2013-11-29 2014-02-19 河南大学 一种双度集成的不均衡数据流分类算法
CN104102700A (zh) * 2014-07-04 2014-10-15 华南理工大学 一种面向因特网不平衡应用流的分类方法
CN104679860A (zh) * 2015-02-27 2015-06-03 北京航空航天大学 一种不平衡数据的分类方法
CN104933053A (zh) * 2014-03-18 2015-09-23 中国银联股份有限公司 非平衡类数据的分类
CN105320677A (zh) * 2014-07-10 2016-02-10 香港中文大学深圳研究院 一种训练流式不平衡数据的方法及设备
CN105809191A (zh) * 2016-03-07 2016-07-27 四川大学 一种融合Bagging的随机树慢性肾病分期预测算法
CN105975993A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于边界升采样的不平衡数据分类方法
CN106056130A (zh) * 2016-05-18 2016-10-26 天津大学 针对不平衡数据集的组合降采样线性判别分类方法
CN106156029A (zh) * 2015-03-24 2016-11-23 中国人民解放军国防科学技术大学 基于集成学习的多标签不平衡虚拟资产数据分类方法
CN106372655A (zh) * 2016-08-26 2017-02-01 南京邮电大学 一种非平衡iptv数据集上的少数类样本的合成方法
WO2017017682A1 (en) * 2015-07-29 2017-02-02 Agt International Gmbh Data fusion and classification with imbalanced datasets background
CN106385693A (zh) * 2016-09-22 2017-02-08 长沙创客软件有限公司 针对虚拟号段的电信诈骗判断方法
CN107092887A (zh) * 2017-04-21 2017-08-25 重庆邮电大学 一种基于Multi‑bands FDBN的运动想象脑电信号的特征提取方法
CN107153811A (zh) * 2017-03-20 2017-09-12 中国建设银行股份有限公司 用于多模态生物特征识别的方法、装置及系统
CN108958474A (zh) * 2018-05-29 2018-12-07 西北工业大学 一种基于误差权重的动作识别多传感信息融合方法
CN109816028A (zh) * 2019-01-18 2019-05-28 创新奇智(南京)科技有限公司 一种部分特征迁移的非平衡数据集分类模型融合方法
CN110045197A (zh) * 2019-02-27 2019-07-23 国网福建省电力有限公司 一种配网故障预警方法
CN110059762A (zh) * 2019-04-26 2019-07-26 迪爱斯信息技术股份有限公司 消防车辆调派方案的筛选方法及系统、终端设备
CN110059118A (zh) * 2019-04-26 2019-07-26 迪爱斯信息技术股份有限公司 特征属性的权重计算方法及装置、终端设备
CN113486804A (zh) * 2021-07-07 2021-10-08 科大讯飞股份有限公司 一种对象识别方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604322A (zh) * 2009-06-24 2009-12-16 北京理工大学 一种决策级文本自动分类融合方法
JP2010003106A (ja) * 2008-06-20 2010-01-07 Nippon Telegr & Teleph Corp <Ntt> 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010003106A (ja) * 2008-06-20 2010-01-07 Nippon Telegr & Teleph Corp <Ntt> 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体
CN101604322A (zh) * 2009-06-24 2009-12-16 北京理工大学 一种决策级文本自动分类融合方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
翟云等: "基于新型集成分类器的非平衡数据分类关键问题研究", 《系统工程与电子技术》, vol. 33, no. 1, 31 January 2011 (2011-01-31), pages 196 - 201 *
翟云等: "异构分类器融合环境下的非平衡数据分类模型", 《高技术通讯》, vol. 21, no. 10, 31 October 2011 (2011-10-31), pages 1102 - 1106 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593470B (zh) * 2013-11-29 2016-05-18 河南大学 一种双度集成的不均衡数据流分类算法
CN103593470A (zh) * 2013-11-29 2014-02-19 河南大学 一种双度集成的不均衡数据流分类算法
CN104933053A (zh) * 2014-03-18 2015-09-23 中国银联股份有限公司 非平衡类数据的分类
CN104102700A (zh) * 2014-07-04 2014-10-15 华南理工大学 一种面向因特网不平衡应用流的分类方法
CN105320677A (zh) * 2014-07-10 2016-02-10 香港中文大学深圳研究院 一种训练流式不平衡数据的方法及设备
CN104679860B (zh) * 2015-02-27 2017-11-07 北京航空航天大学 一种不平衡数据的分类方法
CN104679860A (zh) * 2015-02-27 2015-06-03 北京航空航天大学 一种不平衡数据的分类方法
CN106156029A (zh) * 2015-03-24 2016-11-23 中国人民解放军国防科学技术大学 基于集成学习的多标签不平衡虚拟资产数据分类方法
WO2017017682A1 (en) * 2015-07-29 2017-02-02 Agt International Gmbh Data fusion and classification with imbalanced datasets background
CN105809191A (zh) * 2016-03-07 2016-07-27 四川大学 一种融合Bagging的随机树慢性肾病分期预测算法
CN106056130A (zh) * 2016-05-18 2016-10-26 天津大学 针对不平衡数据集的组合降采样线性判别分类方法
CN105975993A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于边界升采样的不平衡数据分类方法
CN106372655A (zh) * 2016-08-26 2017-02-01 南京邮电大学 一种非平衡iptv数据集上的少数类样本的合成方法
CN106385693A (zh) * 2016-09-22 2017-02-08 长沙创客软件有限公司 针对虚拟号段的电信诈骗判断方法
CN106385693B (zh) * 2016-09-22 2020-02-07 长沙创客软件有限公司 针对虚拟号段的电信诈骗判断方法
CN107153811A (zh) * 2017-03-20 2017-09-12 中国建设银行股份有限公司 用于多模态生物特征识别的方法、装置及系统
CN107092887A (zh) * 2017-04-21 2017-08-25 重庆邮电大学 一种基于Multi‑bands FDBN的运动想象脑电信号的特征提取方法
CN108958474A (zh) * 2018-05-29 2018-12-07 西北工业大学 一种基于误差权重的动作识别多传感信息融合方法
CN109816028A (zh) * 2019-01-18 2019-05-28 创新奇智(南京)科技有限公司 一种部分特征迁移的非平衡数据集分类模型融合方法
CN110045197A (zh) * 2019-02-27 2019-07-23 国网福建省电力有限公司 一种配网故障预警方法
CN110045197B (zh) * 2019-02-27 2022-12-13 国网福建省电力有限公司 一种配网故障预警方法
CN110059762A (zh) * 2019-04-26 2019-07-26 迪爱斯信息技术股份有限公司 消防车辆调派方案的筛选方法及系统、终端设备
CN110059118A (zh) * 2019-04-26 2019-07-26 迪爱斯信息技术股份有限公司 特征属性的权重计算方法及装置、终端设备
CN110059762B (zh) * 2019-04-26 2022-07-19 迪爱斯信息技术股份有限公司 消防车辆调派方案的筛选方法及系统、终端设备
CN113486804A (zh) * 2021-07-07 2021-10-08 科大讯飞股份有限公司 一种对象识别方法、装置、设备及存储介质
CN113486804B (zh) * 2021-07-07 2024-02-20 科大讯飞股份有限公司 一种对象识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN102945280A (zh) 一种基于非平衡数据分布的多异质基分类器融合分类方法
CN103217960B (zh) 一种半导体生产线动态调度策略自动选择方法
CN102033964B (zh) 基于块划分及位置权重的文本分类方法
CN108090510A (zh) 一种基于间隔优化的集成学习方法及装置
CN101604322B (zh) 一种决策级文本自动分类融合方法
CN104657744B (zh) 一种基于非确定主动学习的多分类器训练方法及分类方法
CN111191835B (zh) 基于c-gan迁移学习的ies不完备数据负荷预测方法及系统
CN102737126B (zh) 云计算环境下的分类规则挖掘方法
CN108491874A (zh) 一种基于生成式对抗网络的图像单分类方法
CN103018673A (zh) 一种基于改进型动态小波神经网络的航天Ni-Cd蓄电池寿命预测方法
CN106251049A (zh) 一种大数据的电费风险模型构建方法
CN102609714B (zh) 基于信息增益和在线支持向量机的新型分类器及分类方法
CN104050242A (zh) 基于最大信息系数的特征选择、分类方法及其装置
CN105975992A (zh) 一种基于自适应升采样的不平衡数据集分类方法
CN103166830A (zh) 一种智能选择训练样本的垃圾邮件过滤系统和方法
CN107947921A (zh) 基于递归神经网络和概率上下文无关文法的密码生成系统
CN103617147A (zh) 一种矿井突水水源层识别方法
CN104820750A (zh) 一种基于判别分析的结构可靠度动态响应面方法
CN104778508A (zh) 一种基于多源数据融合的公共自行车租借预测方法
CN112761628B (zh) 基于长短期记忆神经网络的页岩气产量确定方法、装置
CN112734097A (zh) 无人驾驶列车能耗预测方法、系统及存储介质
CN106251241A (zh) 一种基于特征选择改进的LR‑Bagging算法
CN104091038A (zh) 基于大间隔分类准则的多示例学习特征加权方法
CN102495901A (zh) 通过局部均值保持实现类数据平衡的方法
CN103631753A (zh) 递减子空间集成学习算法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130227