CN113378987A

CN113378987A - 基于密度的不平衡数据混合采样算法

Info

Publication number: CN113378987A
Application number: CN202110762213.8A
Authority: CN
Inventors: 姜诚; 万静; 纪耀立
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-09-10

Abstract

本发明公开了基于密度的不平衡数据混合采样算法，首先使用DBSCAN聚类算法对少数类和多数类进行聚类，识别并处理少数类和多数类离群点，然后依据样本的K近邻总距离，计算每个样本的边界密度，依据边界密度，确定少数类样本和多数类样本的边界区域和非边界区域，对少数类样本边界区域进行过采样，多数类样本非边界区域欠采样，最后得到平衡数据集，使用交叉验证划分数据，使用随机森林算法对样本分类测试，实验结果显示，本发明能够得到较好的分类结果，分类器性能得到提高。

Description

基于密度的不平衡数据混合采样算法

技术领域

本发明属于模式识别技术领域，涉及一种针对不平衡数据集的混合采样方法和分类算法的训练测试。

背景技术

在数据挖掘中，得到的数据如癌症患者，网络攻击识别，信用卡欺诈等较多不平衡数据，由于少数类包含的独有的特殊价值，如何准确的发现识别，是机器学习中是一项艰巨的挑战，逐渐成为机器学习领域的研究热点问题。

目前，不平衡数据相继提出了很多算法，主要在数据层面和算法层面上进行研究改进。

数据层面主要可以分为欠采样和过采样两个主要方面，欠采样主要通过删减多数类数据样本，目前主要通过聚类和整合的方法，但欠采样最大的问题是当样本数目较少时，欠采样后训练样本更少，这样导致模型无法得到准确的结果。

过采样层面主要是通过增加少数类样本，这样得到平衡的数据集，但过采样后容易存在过拟合，需要综合考虑样本的分布情况，精细化的合成有效的样本。

因此，本发明结合过采样和欠采样的缺陷，提出了基于密度的不平衡数据混合采样算法。

发明内容

本发明的目的是提出基于密度的不平衡数据混合采样算法，得到更加合理分布的平衡样本，从而提高分类器的预测性能和准确性。

本发明目的能够通过以下技术方案实现；

基于密度的不平衡数据混合采样算法，该算法包括以下步骤：

设原数据中总样本数目为H，对少数类和多数类样本使用DBSCAN聚类算法；

识别并剔除少数类和多数类噪声样本，最后得到少数类样本数目为X，多数类样本数目为Y；

具体地，需要依据DBSCAN聚类算法的结果，选择聚类簇样本数目低于阈值a的离群样本簇，并对该簇进行剔除。

对于每个样本，依据样本的K近邻总距离，计算样本的局部密度，依据局部密度设置阈值，将少数类和多数类分为边界区域和非边界区域；

具体地，计算局部密度计算选择K近邻样本时，采用欧氏距离，并通过到每个K近邻样本的总距离作为样本的局部密度。

对于每个边界区域的少数类，依据样本的边界密度大小，归一化处理，确定样本的权重，每个少数类周围合成不同数目的样本；

具体地，对于每个少数类边界样本，选取最近集合S中的两个样本X、Y，在两个样本连线上随机选取一点x_q，在与原边界样本的连线上，合成单个样本x_d，并重复相应的采样次数，得到新生成的平衡数据集，其中rand(0,1)表示0到1之间的随机数，生成新样本x_d计算公式为：

x_d＝m_i+rand(0,1)*(x_q-m_i)

对于每个非边界区域的多数类样本，依据样本的边界密度大小，进行随机欠采样，得到与少数类过采样后相同数目的平衡数据样本；

平衡训练集运用随机森林分类器进行分类训练测试，并与SMOTE、RUS等经典过采样和欠采样方法对比；

具体地，选择7组数据集上实验，采用十折交叉检验法，并使用F-value和G-mean等作为评价指标进行对比。

与现有的发明技术对比，本发明具有如下优点：

本发明提出的基于边界的不平衡数据混合采样算法，首先利用DABSCAN聚类算法，有效的剔除了噪声，避免了后续过采样和分类时的干扰，同时利用样本的局部密度，获得非边界区域和边界区域，精细化的欠采样和过采样，避免了过拟合的问题；实验结果表明，本发明提高了分类器的识别准确性和分类性能。

附图说明

图1为本发明基于边界的不平衡数据混合采样算法的步骤流程示意图；

图2为本发明分类所构造混淆矩阵；

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

基于边界的不平衡数据混合采样算法，该方法包括以下步骤：

更进一步地，DBSCAN聚类算法允许可以有一个或者多个核心对象。如果只有一个核心对象，则簇里其他的非核心对象样本都在这个核心对象的∈-邻域里；如果有多个核心对象，则簇里的任意一个核心对象的∈-邻域中一定有一个其他的核心对象，否则这两个核心对象无法密度可达，这些核心对象的∈-邻域里所有的样本的集合组成的一个DBSCAN聚类簇。

具体地，每个样本m_i计算局部密度计算选择K近邻样本时，采用欧氏距离，并通过到每个K近邻样本n_j的总距离作为样本的局部密度Den，其中数据为T维，计算公式为：

每个边界区域的少数类，依据样本的边界密度大小，归一化处理，确定样本的权重，在每个少数类周围合成不同数目的样本；

具体地，首先计算每个少数类样本将其局部密度与所有边界少数类样本的总局部密度比值，归一化处理，得到每个少数了样本的过采样权重；

更进一步地，对于每个少数类边界样本m_i，选取最近集合S中的两个样本X、Y，在两个样本连线上随机选取一点x_q，在与原边界样本的连线上，合成单个样本x_d，并重复相应的采样次数，得到新生成的平衡数据集，其中rand(0,1)表示0到1之间的随机数，生成新样本x_d计算公式为：

x_d＝m_i+rand(0,1)*(x_q-m_i)

具体地，对于每个非边界区域的多数类样本，分别随机选取不同密度大小的多数类样本，这样能尽可能保证多数类的原始分布，使得得到的欠采样数据样本具有代表性和合理性。

更进一步地，根据图2所构造的混淆矩阵，同时用F-value和G-mean等作为评价指标进行对比。

其中F-value结合准确率和召回率的比值，G-mean能很准确判断分类器的性能。

综上所述，本发明使得少数类样本和多数类样本达到平衡，使得过采样和欠采样的能够得到合理分布的样本，实验结果表明分类器识别少数类的准确性得到提高，有效的解决分类器不能识别少数类的问题。

Claims

1.基于密度的不平衡数据混合采样算法，该算法包括以下步骤：

(1)设原数据中总样本数目为H，对少数类和多数类样本使用DBSCAN聚类算法，识别并剔除少数类和多数类噪声样本，最后得到少数类样本数目为X，多数类样本数目为Y；

(2)对于每个样本，依据样本的K近邻总距离，计算样本的局部密度，依据局部密度设置阈值，将少数类和多数类分为边界区域和非边界区域；

(3)对于每个边界区域的少数类，依据样本的边界密度大小，归一化处理，确定样本的权重，每个少数类周围合成不同数目的样本；

(4)对于每个非边界区域的多数类样本，依据样本的边界密度大小，进行随机欠采样，得到与少数类过采样后相同数目的平衡数据样本；

(5)平衡训练集运用随机森林分类器进行分类训练测试，并与SMOTE、RUS等经典过采样和欠采样方法对比。

2.根据权利要求所述的基于密度的不平衡数据混合采样算法，其特征在于，步骤(1)中需要依据DBSCAN聚类算法的结果，选择聚类簇样本数目低于阈值a的离群样本簇，并对该簇进行剔除。

3.根据权利要求所述的基于密度的不平衡数据混合采样算法，其特征在于，步骤(2)中计算局部密度计算选择K近邻样本时，采用欧氏距离，并通过到每个K近邻样本的总距离作为样本的局部密度。

4.根据权利要求所述的基于密度的不平衡数据混合采样算法，其特征在于，步骤(3)中对于每个少数类边界样本，选取最近集合S中的两个样本X、Y，在两个样本连线上随机选取一点x_q，在与原边界样本的连线上，合成单个样本x_d，并重复相应的采样次数，得到新生成的平衡数据集，生成新样本x_d公式：

x_d＝m_i+rand(0，1)*(x_q-m_i)

其中rand(0，1)表示0到1之间的随机数。

5.根据权利要求所述的基于密度的不平衡数据混合采样算法，其特征在于，步骤(4)中对于每个多数类非边界样本，依据局部密度的大小，分段采样，这样尽可能的保证了多数类样本的原始分布。

6.根据权利要求所述的基于密度的不平衡数据混合采样算法，其特征在于，步骤(5)中选择7组实验数据集，采用十折交叉检验法，并使用F-value和G-mean等作为评价指标进行对比。