CN113378987A - 基于密度的不平衡数据混合采样算法 - Google Patents

基于密度的不平衡数据混合采样算法 Download PDF

Info

Publication number
CN113378987A
CN113378987A CN202110762213.8A CN202110762213A CN113378987A CN 113378987 A CN113378987 A CN 113378987A CN 202110762213 A CN202110762213 A CN 202110762213A CN 113378987 A CN113378987 A CN 113378987A
Authority
CN
China
Prior art keywords
samples
sample
density
boundary
minority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110762213.8A
Other languages
English (en)
Inventor
姜诚
万静
纪耀立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202110762213.8A priority Critical patent/CN113378987A/zh
Publication of CN113378987A publication Critical patent/CN113378987A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于密度的不平衡数据混合采样算法,首先使用DBSCAN聚类算法对少数类和多数类进行聚类,识别并处理少数类和多数类离群点,然后依据样本的K近邻总距离,计算每个样本的边界密度,依据边界密度,确定少数类样本和多数类样本的边界区域和非边界区域,对少数类样本边界区域进行过采样,多数类样本非边界区域欠采样,最后得到平衡数据集,使用交叉验证划分数据,使用随机森林算法对样本分类测试,实验结果显示,本发明能够得到较好的分类结果,分类器性能得到提高。

Description

基于密度的不平衡数据混合采样算法
技术领域
本发明属于模式识别技术领域,涉及一种针对不平衡数据集的混合采样方法和分类算法的训练测试。
背景技术
在数据挖掘中,得到的数据如癌症患者,网络攻击识别,信用卡欺诈等较多不平衡数据,由于少数类包含的独有的特殊价值,如何准确的发现识别,是机器学习中是一项艰巨的挑战,逐渐成为机器学习领域的研究热点问题。
目前,不平衡数据相继提出了很多算法,主要在数据层面和算法层面上进行研究改进。
数据层面主要可以分为欠采样和过采样两个主要方面,欠采样主要通过删减多数类数据样本,目前主要通过聚类和整合的方法,但欠采样最大的问题是当样本数目较少时,欠采样后训练样本更少,这样导致模型无法得到准确的结果。
过采样层面主要是通过增加少数类样本,这样得到平衡的数据集,但过采样后容易存在过拟合,需要综合考虑样本的分布情况,精细化的合成有效的样本。
因此,本发明结合过采样和欠采样的缺陷,提出了基于密度的不平衡数据混合采样算法。
发明内容
本发明的目的是提出基于密度的不平衡数据混合采样算法,得到更加合理分布的平衡样本,从而提高分类器的预测性能和准确性。
本发明目的能够通过以下技术方案实现;
基于密度的不平衡数据混合采样算法,该算法包括以下步骤:
设原数据中总样本数目为H,对少数类和多数类样本使用DBSCAN聚类算法;
识别并剔除少数类和多数类噪声样本,最后得到少数类样本数目为X,多数类样本数目为Y;
具体地,需要依据DBSCAN聚类算法的结果,选择聚类簇样本数目低于阈值a的离群样本簇,并对该簇进行剔除。
对于每个样本,依据样本的K近邻总距离,计算样本的局部密度,依据局部密度设置阈值,将少数类和多数类分为边界区域和非边界区域;
具体地,计算局部密度计算选择K近邻样本时,采用欧氏距离,并通过到每个K近邻样本的总距离作为样本的局部密度。
对于每个边界区域的少数类,依据样本的边界密度大小,归一化处理,确定样本的权重,每个少数类周围合成不同数目的样本;
具体地,对于每个少数类边界样本,选取最近集合S中的两个样本X、Y,在两个样本连线上随机选取一点xq,在与原边界样本的连线上,合成单个样本xd,并重复相应的采样次数,得到新生成的平衡数据集,其中rand(0,1)表示0到1之间的随机数,生成新样本xd计算公式为:
xd=mi+rand(0,1)*(xq-mi)
对于每个非边界区域的多数类样本,依据样本的边界密度大小,进行随机欠采样,得到与少数类过采样后相同数目的平衡数据样本;
平衡训练集运用随机森林分类器进行分类训练测试,并与SMOTE、RUS等经典过采样和欠采样方法对比;
具体地,选择7组数据集上实验,采用十折交叉检验法,并使用F-value和G-mean等作为评价指标进行对比。
与现有的发明技术对比,本发明具有如下优点:
本发明提出的基于边界的不平衡数据混合采样算法,首先利用DABSCAN聚类算法,有效的剔除了噪声,避免了后续过采样和分类时的干扰,同时利用样本的局部密度,获得非边界区域和边界区域,精细化的欠采样和过采样,避免了过拟合的问题;实验结果表明,本发明提高了分类器的识别准确性和分类性能。
附图说明
图1为本发明基于边界的不平衡数据混合采样算法的步骤流程示意图;
图2为本发明分类所构造混淆矩阵;
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
基于边界的不平衡数据混合采样算法,该方法包括以下步骤:
设原数据中总样本数目为H,对少数类和多数类样本使用DBSCAN聚类算法;
识别并剔除少数类和多数类噪声样本,最后得到少数类样本数目为X,多数类样本数目为Y;
具体地,需要依据DBSCAN聚类算法的结果,选择聚类簇样本数目低于阈值a的离群样本簇,并对该簇进行剔除。
更进一步地,DBSCAN聚类算法允许可以有一个或者多个核心对象。如果只有一个核心对象,则簇里其他的非核心对象样本都在这个核心对象的∈-邻域里;如果有多个核心对象,则簇里的任意一个核心对象的∈-邻域中一定有一个其他的核心对象,否则这两个核心对象无法密度可达,这些核心对象的∈-邻域里所有的样本的集合组成的一个DBSCAN聚类簇。
对于每个样本,依据样本的K近邻总距离,计算样本的局部密度,依据局部密度设置阈值,将少数类和多数类分为边界区域和非边界区域;
具体地,每个样本mi计算局部密度计算选择K近邻样本时,采用欧氏距离,并通过到每个K近邻样本nj的总距离作为样本的局部密度Den,其中数据为T维,计算公式为:
Figure BDA0003149425490000031
每个边界区域的少数类,依据样本的边界密度大小,归一化处理,确定样本的权重,在每个少数类周围合成不同数目的样本;
具体地,首先计算每个少数类样本将其局部密度与所有边界少数类样本的总局部密度比值,归一化处理,得到每个少数了样本的过采样权重;
更进一步地,对于每个少数类边界样本mi,选取最近集合S中的两个样本X、Y,在两个样本连线上随机选取一点xq,在与原边界样本的连线上,合成单个样本xd,并重复相应的采样次数,得到新生成的平衡数据集,其中rand(0,1)表示0到1之间的随机数,生成新样本xd计算公式为:
xd=mi+rand(0,1)*(xq-mi)
对于每个非边界区域的多数类样本,依据样本的边界密度大小,进行随机欠采样,得到与少数类过采样后相同数目的平衡数据样本;
具体地,对于每个非边界区域的多数类样本,分别随机选取不同密度大小的多数类样本,这样能尽可能保证多数类的原始分布,使得得到的欠采样数据样本具有代表性和合理性。
平衡训练集运用随机森林分类器进行分类训练测试,并与SMOTE、RUS等经典过采样和欠采样方法对比;
具体地,选择7组数据集上实验,采用十折交叉检验法,并使用F-value和G-mean等作为评价指标进行对比。
更进一步地,根据图2所构造的混淆矩阵,同时用F-value和G-mean等作为评价指标进行对比。
其中F-value结合准确率和召回率的比值,G-mean能很准确判断分类器的性能。
综上所述,本发明使得少数类样本和多数类样本达到平衡,使得过采样和欠采样的能够得到合理分布的样本,实验结果表明分类器识别少数类的准确性得到提高,有效的解决分类器不能识别少数类的问题。

Claims (6)

1.基于密度的不平衡数据混合采样算法,该算法包括以下步骤:
(1)设原数据中总样本数目为H,对少数类和多数类样本使用DBSCAN聚类算法,识别并剔除少数类和多数类噪声样本,最后得到少数类样本数目为X,多数类样本数目为Y;
(2)对于每个样本,依据样本的K近邻总距离,计算样本的局部密度,依据局部密度设置阈值,将少数类和多数类分为边界区域和非边界区域;
(3)对于每个边界区域的少数类,依据样本的边界密度大小,归一化处理,确定样本的权重,每个少数类周围合成不同数目的样本;
(4)对于每个非边界区域的多数类样本,依据样本的边界密度大小,进行随机欠采样,得到与少数类过采样后相同数目的平衡数据样本;
(5)平衡训练集运用随机森林分类器进行分类训练测试,并与SMOTE、RUS等经典过采样和欠采样方法对比。
2.根据权利要求所述的基于密度的不平衡数据混合采样算法,其特征在于,步骤(1)中需要依据DBSCAN聚类算法的结果,选择聚类簇样本数目低于阈值a的离群样本簇,并对该簇进行剔除。
3.根据权利要求所述的基于密度的不平衡数据混合采样算法,其特征在于,步骤(2)中计算局部密度计算选择K近邻样本时,采用欧氏距离,并通过到每个K近邻样本的总距离作为样本的局部密度。
4.根据权利要求所述的基于密度的不平衡数据混合采样算法,其特征在于,步骤(3)中对于每个少数类边界样本,选取最近集合S中的两个样本X、Y,在两个样本连线上随机选取一点xq,在与原边界样本的连线上,合成单个样本xd,并重复相应的采样次数,得到新生成的平衡数据集,生成新样本xd公式:
xd=mi+rand(0,1)*(xq-mi)
其中rand(0,1)表示0到1之间的随机数。
5.根据权利要求所述的基于密度的不平衡数据混合采样算法,其特征在于,步骤(4)中对于每个多数类非边界样本,依据局部密度的大小,分段采样,这样尽可能的保证了多数类样本的原始分布。
6.根据权利要求所述的基于密度的不平衡数据混合采样算法,其特征在于,步骤(5)中选择7组实验数据集,采用十折交叉检验法,并使用F-value和G-mean等作为评价指标进行对比。
CN202110762213.8A 2021-07-06 2021-07-06 基于密度的不平衡数据混合采样算法 Pending CN113378987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110762213.8A CN113378987A (zh) 2021-07-06 2021-07-06 基于密度的不平衡数据混合采样算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110762213.8A CN113378987A (zh) 2021-07-06 2021-07-06 基于密度的不平衡数据混合采样算法

Publications (1)

Publication Number Publication Date
CN113378987A true CN113378987A (zh) 2021-09-10

Family

ID=77581074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110762213.8A Pending CN113378987A (zh) 2021-07-06 2021-07-06 基于密度的不平衡数据混合采样算法

Country Status (1)

Country Link
CN (1) CN113378987A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723514A (zh) * 2021-08-31 2021-11-30 重庆邮电大学 一种基于混合采样的安全接入日志数据平衡处理方法
CN113936185A (zh) * 2021-09-23 2022-01-14 杭州电子科技大学 一种基于局部密度信息的软件缺陷数据自适应过采样方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723514A (zh) * 2021-08-31 2021-11-30 重庆邮电大学 一种基于混合采样的安全接入日志数据平衡处理方法
CN113723514B (zh) * 2021-08-31 2023-10-20 重庆邮电大学 一种基于混合采样的安全接入日志数据平衡处理方法
CN113936185A (zh) * 2021-09-23 2022-01-14 杭州电子科技大学 一种基于局部密度信息的软件缺陷数据自适应过采样方法

Similar Documents

Publication Publication Date Title
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
CN111199214B (zh) 一种残差网络多光谱图像地物分类方法
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN107292350A (zh) 大规模数据的异常检测方法
CN113378987A (zh) 基于密度的不平衡数据混合采样算法
CN111626336A (zh) 一种基于不平衡数据集的地铁故障数据分类方法
CN109034194A (zh) 基于特征分化的交易欺诈行为深度检测方法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
CN109872776B (zh) 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN108764366A (zh) 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN110533116A (zh) 基于欧式距离的自适应集成的不平衡数据分类方法
CN115577858B (zh) 基于区块链的碳排放量预测方法、装置及电子设备
CN104038792B (zh) 用于iptv监管的视频内容分析方法及设备
CN112990286A (zh) 一种数据不平衡场景下的恶意流量检测方法
CN109271427A (zh) 一种基于近邻密度和流形距离的聚类方法
CN107194815B (zh) 客户分类方法及系统
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN110010204A (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
CN113269200A (zh) 一种基于少数类样本空间分布的不平衡数据过采样方法
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
CN113936185A (zh) 一种基于局部密度信息的软件缺陷数据自适应过采样方法
WO2022011855A1 (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN114399684B (zh) 一种基于双损失函数的高光谱图像开放性分类方法
CN113392908A (zh) 基于边界密度的不平衡数据过采样算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination