CN105975993A - 一种基于边界升采样的不平衡数据分类方法 - Google Patents

一种基于边界升采样的不平衡数据分类方法 Download PDF

Info

Publication number
CN105975993A
CN105975993A CN201610332471.1A CN201610332471A CN105975993A CN 105975993 A CN105975993 A CN 105975993A CN 201610332471 A CN201610332471 A CN 201610332471A CN 105975993 A CN105975993 A CN 105975993A
Authority
CN
China
Prior art keywords
positive
sample
samples
unbalanced
positive sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610332471.1A
Other languages
English (en)
Inventor
李喆
吕卫
褚晶辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610332471.1A priority Critical patent/CN105975993A/zh
Publication of CN105975993A publication Critical patent/CN105975993A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于边界升采样的不平衡数据分类方法,包括:对于不平衡数据集中的每个正样本以欧氏距离作为距离度量,取不平衡数据集中距其最近的K个样本点,比对各个样本的类别标签,给出这K个样本点中负样本的数目,记为ki,若ki≥K/2,则可判定该正样本点位于正负样本的真实判决边界附近,反之则该正样本点远离边界;对选中的正样本,在其K个最近邻正样本中随机选取一个,在二者之间生成一个新的正样本点,此过程迭代执行多次,直至正负样本数目相同,以此构建平衡数据集;运用Bagging算法对生成的平衡数据集进行训练,得到最终的分类模型。本发明可以在不平衡数据集上获得更好的分类效果。

Description

一种基于边界升采样的不平衡数据分类方法
技术领域
本发明涉及模式识别技术,具体涉及一种针对不平衡数据集的分类器。
背景技术
随着社会的发展与科学技术的进步,以机器学习及模式识别技术为基础的计算机自动分类人们的日常生活中正在扮演愈发重要的角色。在此情况下,建立合适的数据分类模型和设定可信的性能评价标准成为目前的一大研究热点。
然而,诸如支持向量机、决策树及极限学习机等当前主流的分类器在设计时均以整体错分率作为训练数据模型的主要指标,而这一方法有效的前提建立在训练分类器所用的样本中各类数据基本平衡(即各类数目大致相等)。但在实际问题中,这一假设往往难以满足。例如,在信用卡欺诈检测中,具有欺诈行为的交易明显少于正常交易,若以降低总体分类错误率作为学习目标,则易导致具有欺诈行为的交易被误判定为正常交易。但是,考虑到欺诈行为对银行造成的巨大代价,欺诈行为的分类准确度才是实际应用中更受关注的部分,将欺诈行为误判为正常交易所付出的代价会远高于将正常交易误判为欺诈交易。在此情况下,针对不平衡数据集的研究得到了越来越多的关注。根据现有成果,不平衡分类主要可以在数据层面和算法层面进行操作。
数据层面的操作主要通过对数据进行重采样来改变数据分布,在构建分类器时使正样本(少数类样本)数量增加和负样本(多数类样本)数量减少,最终使正负样本的数目基本相同,以此实现数据平衡。专利“基于有监督上采样学习的蛋白质-核苷酸绑定位点预测方法”(CN104077499A)通过增加正样本的数量构建平衡数据集,最终用平衡数据集训练支持向量机用于分类。然而,在该发明中,正样本经简单复制后相当于被多次用于训练,这一问题易导致过拟合现象,从而影响最终的分类性能。专利“基于欠抽样面向不平衡数据集的交通事件自动检测方法”(CN103927874A)采用随机降采样方法,负集中的一部分样本(通常接近全体正样本的数量)被抽取并与全体正样本组成训练集对支持向量机进行训练。但该发明无法保证抽取出的负样本对原负集的代表性,因此分类性能也不够理想。
算法层面的操作则在分类器训练的过程中引入代价敏感计算或投票算法,通过不同改变分类器或样本的权重来解决数据不平衡问题。根据错误率来调节权值以降低分类错误率的Boosting算法和通过重复均匀采样以降低模型错误方差的Bagging算法均为常用的算法级方法。然而,单独的算法级方法无法对数据进行处理,其性能因此受到限制。
发明内容
本发明的目的是,提供一种基于升采样的集成学习方法,并对其中用于改变数据分布的升采样部分进行优化,以在不平衡数据集上获得更好的分类效果。
一种基于边界升采样的不平衡数据分类方法,设不平衡数据集中正样本数目为np,负样本数目为nn,该方法包括以下几个技术步骤:
(1)对于不平衡数据集中的每个正样本xi,以欧氏距离作为距离度量,取不平衡数据集中距其最近的K个样本点,比对各个样本的类别标签,给出这K个样本点中负样本的数目,记为ki,若ki≥K/2,则可判定该正样本点位于正负样本的真实判决边界附近,反之则该正样本点远离边界,对于所有位于边界附近的正样本点,作下述步骤处理,其余样本不作处理;
(2)对于所有在步骤(1)中选中的正样本,在其K个最近邻正样本中随机选取一个,在二者之间生成一个新的正样本点,此过程迭代执行多次,直至正负样本数目相同,以此构建平衡数据集。
(3)设有放回取样次数为T,每次取样的样本个数为n’,运用Bagging算法对生成的平衡数据集进行训练,得到最终的分类模型。
本发明针对不平衡数据集提出一种集成学习方法,将边界升采样同Bagging算法相结合,减小了噪声点与过拟合对分类结果造成的影响的同时减小了分类错误方差。经实验比较,本发明在多个分类器评价指标上具有明显优势。
附图说明
图1是Bagging算法的流程图。
图2是本发明的流程图。
具体实施方式
本发明受边界升采样算法和图1所示的Bagging算法启发,将二者进行组合,形成一个集成分类器。下面结合附图对本发明作进一步详细的说明。
(1)取得测试和训练数据:本发明选择KEEL数据库中的酵母菌数据库,主要表征酵母菌内蛋白质所处位置。正类表示蛋白质位于即将裂解细胞膜上,负类表示蛋白质位于胞浆或细胞骨架中。数据集共包含514个样本,其中正样本共51个,负样本共463个,即np=51,nn=463。数据库中共包含8维特征,从细胞液ph值、细胞膜形态等多个方面对酵母菌进行描述。训练与测试过程均选择C4.5决策树作为基分类器。其中,设置每个属性中至少包含两个样本,置信度为0.25,决策树训练完成后进行后剪枝处理。所有数据在进入分类器前均进行归一化处理,将所有特征取值投影到0至1之间。正样本数据标签为+1,负样本数据标签为-1。
(2)在数据边界升采样部分,设最近邻取值个数K=5,对正样本执行边界升采样处理。设新生成的样本点为newi,初始正样本为xi,被选中的最近邻正样本为xni,λ为一取值介于0至1之间的随机数,则新生成的正样本数据可按如下公式进行计算:
newi=xi+λ(xni-xi) (1)
经多轮迭代后使正负样本数目均为463,达到平衡。
(3)本发明采取五折交叉验证对完成边界升采样的平衡数据集进行训练与测试,可知在每一轮交叉验证中,训练集中应包含正负样本各360个,而其余样本均作为测试集。训练与测试均选择C4.5决策树作为基分类器的Bagging分类算法。其中,设C4.5决策树的最小叶节点数为2,置信度为0.25,树训练完成后需进行剪枝处理。所有数据在进入分类器前均完成归一化处理,即数据最小值为0,最大值为1。正样本数据标签为+1,负样本数据标签为-1。
(3)本发明中,取Bagging算法中每轮随机取样个数为训练集的一半,即360个,有放回取样过程共进行T=9次。每折验证均用上述训练集训练得到9个独立的C4.5子分类器,测试集中样本经测试输出分类结果后进行简单多数投票,若有至少5个子分类器判定该样本属于正类,则该样本最终分类结果为正类,反之则分入负类。
表1比较了直接运用C4.5决策树对酵母菌数据集进行分类、对正样本作随机升采样得到平衡数据集后用C4.5决策树进行分类及本发明所使用的方法(边界升采样Bagging)进行分类分别得到的测试结果。本发明采用以下几个指标对分类器性能进行评价:
表1分类算法结果与比较(同一指标下最好的结果用黑体标出)
由表1数据可以看出,不作任何处理直接分类虽然可以得到最高的整体准确率和特异性,但灵敏度性能最差。此时,不平衡的数据集导致判决边界向正样本倾斜,导致大量正样本被误分为负样本,引起分类器整体性能下降。而只使用随机升采样的方法与本发明均获得了更好的不平衡分类性能,且相比于只改变数据分布,本发明采用的集成学习方法对灵敏度和特异性的折中效果更好,在正负样本上均可获得更理想的分类性能。
综上所述,本发明在不平衡分类问题上得到了良好的分类性能。

Claims (1)

1.一种基于边界升采样的不平衡数据分类方法,设不平衡数据集中正样本数目为np,负样本数目为nn,该方法包括以下几个技术步骤:
(1)对于不平衡数据集中的每个正样本xi,以欧氏距离作为距离度量,取不平衡数据集中距其最近的K个样本点,比对各个样本的类别标签,给出这K个样本点中负样本的数目,记为ki,若ki≥K/2,则可判定该正样本点位于正负样本的真实判决边界附近,反之则该正样本点远离边界,对于所有位于边界附近的正样本点,作下述步骤处理,其余样本不作处理;
(2)对于所有在步骤(1)中选中的正样本,在其K个最近邻正样本中随机选取一个,在二者之间生成一个新的正样本点,此过程迭代执行多次,直至正负样本数目相同,以此构建平衡数据集。
(3)设有放回取样次数为T,每次取样的样本个数为n’,运用Bagging算法对生成的平衡数据集进行训练,得到最终的分类模型。
CN201610332471.1A 2016-05-18 2016-05-18 一种基于边界升采样的不平衡数据分类方法 Pending CN105975993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610332471.1A CN105975993A (zh) 2016-05-18 2016-05-18 一种基于边界升采样的不平衡数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610332471.1A CN105975993A (zh) 2016-05-18 2016-05-18 一种基于边界升采样的不平衡数据分类方法

Publications (1)

Publication Number Publication Date
CN105975993A true CN105975993A (zh) 2016-09-28

Family

ID=56955293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610332471.1A Pending CN105975993A (zh) 2016-05-18 2016-05-18 一种基于边界升采样的不平衡数据分类方法

Country Status (1)

Country Link
CN (1) CN105975993A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599913A (zh) * 2016-12-07 2017-04-26 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法
CN107301409A (zh) * 2017-07-18 2017-10-27 云南大学 基于Wrapper特征选择Bagging学习处理心电图的系统及方法
CN107403199A (zh) * 2017-08-07 2017-11-28 北京京东尚科信息技术有限公司 数据处理方法和装置
CN109740750A (zh) * 2018-12-17 2019-05-10 北京深极智能科技有限公司 数据收集方法及装置
CN110796349A (zh) * 2019-10-16 2020-02-14 昆明理工大学 一种信用卡盗刷事件预警模型的建立及评估方法
CN110998648A (zh) * 2018-08-09 2020-04-10 北京嘀嘀无限科技发展有限公司 一种分配订单的系统和方法
CN111461855A (zh) * 2019-01-18 2020-07-28 同济大学 基于欠采样的信用卡欺诈检测方法及系统、介质、设备
CN112749719A (zh) * 2019-10-31 2021-05-04 北京沃东天骏信息技术有限公司 一种用于样本均衡分类的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101405718A (zh) * 2006-03-30 2009-04-08 卡尔斯特里姆保健公司 具有局部线性嵌入的smote算法
CN102945280A (zh) * 2012-11-15 2013-02-27 翟云 一种基于非平衡数据分布的多异质基分类器融合分类方法
CN104766098A (zh) * 2015-04-30 2015-07-08 哈尔滨工业大学 一种分类器的构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101405718A (zh) * 2006-03-30 2009-04-08 卡尔斯特里姆保健公司 具有局部线性嵌入的smote算法
CN102945280A (zh) * 2012-11-15 2013-02-27 翟云 一种基于非平衡数据分布的多异质基分类器融合分类方法
CN104766098A (zh) * 2015-04-30 2015-07-08 哈尔滨工业大学 一种分类器的构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUI HAN 等: "Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning", 《ICIC 2005:ADVANCES IN INTELLIGENT COMPUTING》 *
NITESH V. CHAWLA 等: "SMOTE: Synthetic Minority Over-sampling Technique", 《JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH》 *
陶新民 等: "不均衡数据分类算法的综述", 《重庆邮电大学学报( 自然科学版)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599913A (zh) * 2016-12-07 2017-04-26 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法
CN106599913B (zh) * 2016-12-07 2019-08-06 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法
CN107301409A (zh) * 2017-07-18 2017-10-27 云南大学 基于Wrapper特征选择Bagging学习处理心电图的系统及方法
CN107301409B (zh) * 2017-07-18 2023-07-21 云南大学 基于Wrapper特征选择Bagging学习处理心电图的系统及方法
CN107403199A (zh) * 2017-08-07 2017-11-28 北京京东尚科信息技术有限公司 数据处理方法和装置
CN110998648A (zh) * 2018-08-09 2020-04-10 北京嘀嘀无限科技发展有限公司 一种分配订单的系统和方法
CN109740750A (zh) * 2018-12-17 2019-05-10 北京深极智能科技有限公司 数据收集方法及装置
CN111461855A (zh) * 2019-01-18 2020-07-28 同济大学 基于欠采样的信用卡欺诈检测方法及系统、介质、设备
CN111461855B (zh) * 2019-01-18 2023-07-28 同济大学 基于欠采样的信用卡欺诈检测方法及系统、介质、设备
CN110796349A (zh) * 2019-10-16 2020-02-14 昆明理工大学 一种信用卡盗刷事件预警模型的建立及评估方法
CN112749719A (zh) * 2019-10-31 2021-05-04 北京沃东天骏信息技术有限公司 一种用于样本均衡分类的方法和装置

Similar Documents

Publication Publication Date Title
CN105975993A (zh) 一种基于边界升采样的不平衡数据分类方法
CN111461855B (zh) 基于欠采样的信用卡欺诈检测方法及系统、介质、设备
CN108345911A (zh) 基于卷积神经网络多级特征的钢板表面缺陷检测方法
CN105975992A (zh) 一种基于自适应升采样的不平衡数据集分类方法
CN105069470A (zh) 分类模型训练方法及装置
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
CN108985327B (zh) 一种基于因子分析的地形匹配区自组织优化分类方法
CN106296195A (zh) 一种风险识别方法及装置
CN105975611A (zh) 自适应组合降采样增强学习机
CN109800810A (zh) 一种基于不平衡数据的少样本学习分类器构建方法
CN108345904A (zh) 一种基于随机敏感度采样的不平衡数据的集成学习算法
CN115048988B (zh) 基于高斯混合模型的不平衡数据集分类融合方法
CN109871901A (zh) 一种基于混合采样和机器学习的不平衡数据分类方法
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
CN105787046A (zh) 一种基于单边动态下采样的不平衡数据分类系统
CN110490582A (zh) 一种信用卡交易异常检测方法及装置
CN103902853B (zh) 基于支持向量机的剪接位点识别方法
CN109272056A (zh) 基于伪负样本的数据平衡方法及提高数据分类性能的方法
CN103490974A (zh) 一种垃圾邮件检测方法及装置
CN108920477A (zh) 一种基于二叉树结构的不平衡数据处理方法
CN116072302A (zh) 基于有偏随机森林模型的医疗不平衡数据分类方法
CN116467141A (zh) 日志识别模型训练、日志聚类方法和相关系统、设备
CN101996326A (zh) 多类目标的检测装置及检测方法
CN105005783B (zh) 从高维非对称数据中提取分类信息的方法
CN113360392A (zh) 一种跨项目软件缺陷预测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160928