CN110275910A - 一种不平衡数据集的过采样方法 - Google Patents

一种不平衡数据集的过采样方法 Download PDF

Info

Publication number
CN110275910A
CN110275910A CN201910535115.3A CN201910535115A CN110275910A CN 110275910 A CN110275910 A CN 110275910A CN 201910535115 A CN201910535115 A CN 201910535115A CN 110275910 A CN110275910 A CN 110275910A
Authority
CN
China
Prior art keywords
data set
sample
new
minority class
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910535115.3A
Other languages
English (en)
Inventor
侯雁博
朱志良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910535115.3A priority Critical patent/CN110275910A/zh
Publication of CN110275910A publication Critical patent/CN110275910A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据挖掘技术领域,提供一种不平衡数据集的过采样方法。本发明的方法为:首先,采集不平衡数据集,并基于K‑means方法对其聚类,根据每个类的数据集中元素个数划分少数类和多数类;然后,基于SMOTE方法,对少数类数据集进行过采样,得到合成的少数类数据集;接着,对合成的少数类数据集进行有放回的过采样,得到新的少数类数据集,形成新的数据集;最后,基于CCA方法,对新的数据集进行清洗:对新的数据集进行聚类,并计算每个类簇中每个样本与该类簇中其他样本之间的欧氏距离并排序,删除最远的欧氏距离对应的样本,得到清洗后的数据集。本发明能够有效合成更多的少数类样本,增加样本的易学习性,提高样本的有效性。

Description

一种不平衡数据集的过采样方法
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种不平衡数据集的过采样方法。
背景技术
过采样是处理阶级不平衡问题的一种很有效的方法,其通过复制或合成样本的方式来解决这个问题,以平衡多数类和少数类样本之间的分布。现有不平衡数据集的过采样方法多采用ADASYN过采样算法、B-SMOTE过采样算法,这些方法处理后的样本存在许多噪声,使得过采样后得到的数据有效性太差,从而影响分析结果。
发明内容
针对现有技术存在的问题,本发明提供一种不平衡数据集的过采样方法,能够有效合成更多的少数类样本,增加样本的易学习性,提高样本的有效性。
本发明的技术方案为:
一种不平衡数据集的过采样方法,其特征在于,包括下述步骤:
步骤1:采集不平衡数据集U0,基于K-means方法,对不平衡数据集U0进行聚类,得到K个类的数据集{U01,U02,...,U0q,...,U0K},q∈{1,2,...,K};记数据集U0q中元素个数为s(U0q),若s(U0q)<ε则将数据集U0q归入少数类数据集Um,若s(U0q)≥ε则将数据集U0q归入多数类数据集Ul
步骤2:基于SMOTE方法,对少数类数据集Um进行过采样,得到合成的少数类数据集Unew,m
步骤3:对合成的少数类数据集Unew,m进行有放回的过采样,并在采样过程中合成新的样本,得到新的少数类数据集U'new,m,形成新的数据集U=Ul∪U'new,m
步骤4:基于CCA方法,对新的数据集U进行清洗以去除噪声:
步骤4.1:基于K-means方法,对数据集U进行聚类,得到K'个类簇;
步骤4.2:对每个类簇,计算该类簇中每个样本与该类簇中其他样本之间的欧氏距离,对得到的该类簇中的所有欧氏距离进行排序,选取最远的欧氏距离对应的样本对进行删除,最终得到清洗后的数据集。
所述步骤2包括下述步骤:
步骤2.1:对少数类数据集Um={xm1,xm2,...,xmi,...,xmn}中的每个样本xmi,i∈{1,2,...,n},以欧氏距离为标准计算该样本xmi到少数类样本集Um中所有样本的距离,得到样本xmi的k近邻;
步骤2.2:根据不平衡数据集U0中样本不平衡比例设置采样比例以确定采样倍率N,在样本xmi的k近邻中随机选取M个样本xmj,在样本xmi与样本xmj之间欧氏距离的连线上随机选取一个节点合成新的样本xnew=xmi+|xmi-xmj|×δ,最终得到合成的少数类数据集Unew,m;其中,δ=rand(0,1)。
本发明的有益效果为:
本发明采用K-means方法和SMOTE方法对不平衡数据集进行过采样,并通过CAA方法对合成后的数据进行清洗以去除噪声,能够有效合成更多的少数类样本,增加样本的易学习性,提高样本的有效性。
附图说明
图1为本发明的不平衡数据集的过采样方法的流程图。
具体实施方式
下面将结合附图和具体实施方式,对本发明作进一步描述。
如图1所示,为本发明的不平衡数据集的过采样方法的流程图。本发明的不平衡数据集的过采样方法,其特征在于,包括下述步骤:
步骤1:采集不平衡数据集U0,基于K-means方法,对不平衡数据集U0进行聚类,得到K个类的数据集{U01,U02,...,U0q,...,U0K},q∈{1,2,...,K};记数据集U0q中元素个数为s(U0q),若s(U0q)<ε则将数据集U0q归入少数类数据集Um,若s(U0q)≥ε则将数据集U0q归入多数类数据集Ul
本实施例中,不平衡数据集U0为电信用户数据集,电信用户数据包括SERV_LEV(服务等级)、CONSUME_GRADE(消费等级)、CREDIT_DEG(信用度)、REMARK(业务员对用户的消费、业务的总结、推荐)、VIP_CODE(会员客户)、CUST_TYPE(记录客户战略分群)、STATUS_CD(客户是否流失,1表示流失,0表示非流失)等共30维数据特征。在步骤1中,采集电信用户数据集,电信用户数据集中电信用户样本总数为569。对电信用户数据集进行K-means聚类,得到K=16个类的数据集。令阈值ε=0.5×电信用户样本总数,对数据集进行多数类和少数类的划分,得到包括212个少数类电信用户样本的少数类数据集Um和包括357个多数类电信用户样本的多数类数据集Ul
步骤2:基于SMOTE方法,对少数类数据集Um进行过采样,得到合成的少数类数据集Unew,m
所述步骤2包括下述步骤:
步骤2.1:对少数类数据集Um={xm1,xm2,...,xmi,...,xmn}中的每个样本xmi,i∈{1,2,...,n},以欧氏距离为标准计算该样本xmi到少数类样本集Um中所有样本的距离,得到样本xmi的k近邻;
步骤2.2:根据不平衡数据集U0中样本不平衡比例设置采样比例以确定采样倍率N,在样本xmi的k近邻中随机选取M个样本xmj,在样本xmi与样本xmj之间欧氏距离的连线上随机选取一个节点合成新的样本xnew=xmi+|xmi-xmj|×δ,最终得到合成的少数类数据集Unew,m;其中,δ=rand(0,1)。
其中,SMOTE方法即为合成少数类过采样技术(Synthetic MinorityOversampling Technique)。本实施例中,根据电信用户数据集中样本不平衡比例0.59设置采样比例以确定采样倍率N=0.41,在少数类数据集中每个样本xmi的k近邻中随机选取M=16个样本xmj,合成新的样本,最终得到合成的少数类数据集Unew,m
然后,将步骤2中新合成的数据集加入到步骤3中,使数据集达到平衡。
步骤3:对合成的少数类数据集Unew,m进行有放回的过采样,并在采样过程中合成新的样本,得到新的少数类数据集U'new,m,形成新的数据集U=Ul∪U'new,m
本实施例中,步骤3中的过采样方法为ADASYN。
步骤4:基于CCA方法,对新的数据集U进行清洗以去除噪声:
步骤4.1:基于K-means方法,对数据集U进行聚类,得到K'个类簇;
步骤4.2:对每个类簇,计算该类簇中每个样本与该类簇中其他样本之间的欧氏距离,对得到的该类簇中的所有欧氏距离进行排序,选取最远的欧氏距离对应的样本对进行删除,最终得到清洗后的数据集。
其中,CCA即为典型相关分析(canonical correlation analysis)。采用欧氏距离的方式对每一类簇内的样本进行有效性判断,对于欧氏距离越远的样本,其稀疏性越高、聚集度越低,从而有效性越低,将有效性较低的样本视为难学习样本,成对删除有效性较低的那一类样本,最后剩下的聚集度较高的样本即为需要训练的数据集,也称该类样本为易学习样本。此外,也可以采用本领域技术人员所熟知的其他方式如内积的方式对每一类簇内的样本进行有效性判断,也可以单独删除有效性较低的那一类样本,以得到易学习样本。
本实施例中,基于K-means方法对数据集U进行聚类,得到K'=23个类簇。最终被清洗掉的样本总数为86,包括多数类样本75个、少数类样本11个。
本实施例中,分别用传统少数类样本合成方法ADASYN与本发明的结合改良后的SMOTE方法与CCA方法的不平衡数据集的过采样方法对电信用户数据集进行过采样,根据分别计算两种方法的精确度,得到传统少数类样本合成方法ADASYN的精确度为0.9379,而本发明的方法相对于传统方法在精确度上提高到了0.9694。其中,TP为预测为正、实际为正的那类数据集,也即本发明中目标类样本的数量;FP为预测为正、实际为负的那类数据集,TP+FP为步骤4中得到的清洗后的数据集中样本总数。
显然,上述实施例仅仅是本发明的一部分实施例,而不是全部的实施例。上述实施例仅用于解释本发明,并不构成对本发明保护范围的限定。基于上述实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,也即凡在本申请的精神和原理之内所作的所有修改、等同替换和改进等,均落在本发明要求的保护范围内。

Claims (2)

1.一种不平衡数据集的过采样方法,其特征在于,包括下述步骤:
步骤1:采集不平衡数据集U0,基于K-means方法,对不平衡数据集U0进行聚类,得到K个类的数据集{U01,U02,...,U0q,...,U0K},q∈{1,2,...,K};记数据集U0q中元素个数为s(U0q),若s(U0q)<ε则将数据集U0q归入少数类数据集Um,若s(U0q)≥ε则将数据集U0q归入多数类数据集Ul
步骤2:基于SMOTE方法,对少数类数据集Um进行过采样,得到合成的少数类数据集Unew,m
步骤3:对合成的少数类数据集Unew,m进行有放回的过采样,并在采样过程中合成新的样本,得到新的少数类数据集U'new,m,形成新的数据集U=Ul∪U'new,m
步骤4:基于CCA方法,对新的数据集U进行清洗以去除噪声:
步骤4.1:基于K-means方法,对数据集U进行聚类,得到K'个类簇;
步骤4.2:对每个类簇,计算该类簇中每个样本与该类簇中其他样本之间的欧氏距离,对得到的该类簇中的所有欧氏距离进行排序,选取最远的欧氏距离对应的样本对进行删除,最终得到清洗后的数据集。
2.根据权利要求1所述的不平衡数据集的过采样方法,其特征在于,所述步骤2包括下述步骤:
步骤2.1:对少数类数据集Um={xm1,xm2,...,xmi,...,xmn}中的每个样本xmi,i∈{1,2,...,n},以欧氏距离为标准计算该样本xmi到少数类样本集Um中所有样本的距离,得到样本xmi的k近邻;
步骤2.2:根据不平衡数据集U0中样本不平衡比例设置采样比例以确定采样倍率N,在样本xmi的k近邻中随机选取M个样本xmj,在样本xmi与样本xmj之间欧氏距离的连线上随机选取一个节点合成新的样本xnew=xmi+|xmi-xmj|×δ,最终得到合成的少数类数据集Unew,m;其中,δ=rand(0,1)。
CN201910535115.3A 2019-06-20 2019-06-20 一种不平衡数据集的过采样方法 Pending CN110275910A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910535115.3A CN110275910A (zh) 2019-06-20 2019-06-20 一种不平衡数据集的过采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910535115.3A CN110275910A (zh) 2019-06-20 2019-06-20 一种不平衡数据集的过采样方法

Publications (1)

Publication Number Publication Date
CN110275910A true CN110275910A (zh) 2019-09-24

Family

ID=67961144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910535115.3A Pending CN110275910A (zh) 2019-06-20 2019-06-20 一种不平衡数据集的过采样方法

Country Status (1)

Country Link
CN (1) CN110275910A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062806A (zh) * 2019-12-13 2020-04-24 合肥工业大学 个人金融信用风险评价方法、系统和存储介质
CN111881988A (zh) * 2020-07-31 2020-11-03 北京航空航天大学 基于少数类过采样方法的异质不平衡数据故障检测方法
CN113159137A (zh) * 2021-04-01 2021-07-23 北京市燃气集团有限责任公司 一种燃气负荷聚类方法及装置
CN113191431A (zh) * 2021-04-29 2021-07-30 武汉工程大学 一种细粒度车型识别方法、装置及存储介质
CN114781492A (zh) * 2022-03-30 2022-07-22 中国电子科技集团公司第五十四研究所 一种面向样本不均衡的网络流量数据增强方法
CN116108387A (zh) * 2023-04-14 2023-05-12 湖南工商大学 一种类不平衡数据过采样方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034691A (zh) * 2012-11-30 2013-04-10 南京航空航天大学 一种基于支持向量机的专家系统知识获取方法
CN107330477A (zh) * 2017-07-24 2017-11-07 南京邮电大学 一种针对非均衡数据分类的改进smote再抽样方法
CN107944460A (zh) * 2016-10-12 2018-04-20 甘肃农业大学 一种应用于生物信息学中类别不平衡分类方法
US20180330192A1 (en) * 2017-05-15 2018-11-15 International Business Machines Corporation Load-Balancing Training of Recommender System for Heterogeneous Systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034691A (zh) * 2012-11-30 2013-04-10 南京航空航天大学 一种基于支持向量机的专家系统知识获取方法
CN107944460A (zh) * 2016-10-12 2018-04-20 甘肃农业大学 一种应用于生物信息学中类别不平衡分类方法
US20180330192A1 (en) * 2017-05-15 2018-11-15 International Business Machines Corporation Load-Balancing Training of Recommender System for Heterogeneous Systems
CN107330477A (zh) * 2017-07-24 2017-11-07 南京邮电大学 一种针对非均衡数据分类的改进smote再抽样方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FELIX LAST等: "Oversampling for Imbalanced Learning Based on K-Means and SMOTE", 《INFORMATION SCIENCES》 *
李艳霞等: "不平衡数据分类方法综述", 《控制与决策》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062806A (zh) * 2019-12-13 2020-04-24 合肥工业大学 个人金融信用风险评价方法、系统和存储介质
CN111062806B (zh) * 2019-12-13 2022-05-10 合肥工业大学 个人金融信用风险评价方法、系统和存储介质
CN111881988A (zh) * 2020-07-31 2020-11-03 北京航空航天大学 基于少数类过采样方法的异质不平衡数据故障检测方法
CN111881988B (zh) * 2020-07-31 2022-06-14 北京航空航天大学 基于少数类过采样方法的异质不平衡数据故障检测方法
CN113159137A (zh) * 2021-04-01 2021-07-23 北京市燃气集团有限责任公司 一种燃气负荷聚类方法及装置
CN113191431A (zh) * 2021-04-29 2021-07-30 武汉工程大学 一种细粒度车型识别方法、装置及存储介质
CN114781492A (zh) * 2022-03-30 2022-07-22 中国电子科技集团公司第五十四研究所 一种面向样本不均衡的网络流量数据增强方法
CN116108387A (zh) * 2023-04-14 2023-05-12 湖南工商大学 一种类不平衡数据过采样方法及相关设备

Similar Documents

Publication Publication Date Title
CN110275910A (zh) 一种不平衡数据集的过采样方法
Zheng et al. Oversampling method for imbalanced classification
CN110880019B (zh) 通过无监督域适应训练目标域分类模型的方法
Galtier et al. Dealing with incongruence in phylogenomic analyses
CN104794195B (zh) 一种用于电信潜在换机用户发现的数据挖掘方法
CN104881689B (zh) 一种多标签主动学习分类方法及系统
CN103838754B (zh) 信息搜索装置及方法
CN107368534A (zh) 一种预测社交网络用户属性的方法
CN111599406B (zh) 结合网络聚类方法的全局多网络比对方法
Chen et al. Distinct counting with a self-learning bitmap
CN105488211A (zh) 基于特征分析的用户群确定方法
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN104484232B (zh) 一种提高图像重建速度的方法及装置
CN105630797B (zh) 数据处理方法及系统
Lee et al. Seeding for pervasively overlapping communities
CN109766710A (zh) 关联社交网络数据的差分隐私保护方法
CN105512301A (zh) 基于社交内容的用户分组方法
CN106056160B (zh) 非均衡iptv数据集下的用户报障预测方法
CN110390058A (zh) 考虑时效性的Web服务可信混合推荐方法
Handcock On cascading Latin hypercube designs and additive models for experiments
CN104933053A (zh) 非平衡类数据的分类
CN104850646B (zh) 一种针对单个不确定图的频繁子图挖掘方法
CN108717551A (zh) 一种基于最大隶属度的模糊层次聚类方法
CN107577681B (zh) 一种基于社交媒体图片的地域分析、推荐方法及系统
CN105813235B (zh) 移动终端客户社团的划分方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190924