CN110674846A

CN110674846A - 基于遗传算法和k-means聚类的不平衡数据集过采样方法

Info

Publication number: CN110674846A
Application number: CN201910806287.XA
Authority: CN
Inventors: 张永; 方立超; 李世博; 张鑫鑫; 戴旺; 邢宗义
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2020-01-10

Abstract

本发明公开了一种基于遗传算法和k‑means聚类的不平衡数据集过采样方法，包括以下内容：输入原不平衡数据集，并将不平衡数据集划分为训练数据集和测试数据集；将训练数据集分为正类样本集和负类样本集；利用k‑means聚类算法对正类样本集进行聚类，得到若干不同的簇；对每个簇中的样本的数量分配对应的采样权重；计算各个簇中样本数据的马氏距离，并根据马氏距离的大小划分为两组父类样本数据集；根据遗传算法中的交叉算子，利用父类样本数据集合成新的正类样本；将新合成的正类样本和原始训练数据集合并成一个平衡的数据集；利用平衡数据集训练分类器模型；利用测试数据集对分类器模型的性能进行评估。本发明能够有效提高分类器模型对不平衡数据集中正类样本的分类准确率。

Description

基于遗传算法和k-means聚类的不平衡数据集过采样方法

技术领域

本发明属于计算机数据挖掘领域，涉及一种不平衡数据集的过采样分类方法，特别涉及一种基于遗传算法和k-means聚类的不平衡数据集过采样方法。

背景技术

在数据分类领域存在这样一种情形：在数据集中，不同类别样本的数量相差很大，其中数量较多的样本称为多类样本，数量较少的样本称为少类样本，多类样本被称作负类，少类样本被称作正类。通常，采用不平衡率(Imbalance Rate,IR)衡量一个数据集的不平衡程度，它是指数据集中负类样本数量与正类样本数量的比值。在很多实际应用领域，获取正类样本数据的代价往往更大，并且对不平衡数据集正类样本的正确分类通常比负类样本的正确分类具有更大的研究意义和实际应用价值。

这样的不平衡数据集广泛地存在于现实世界中，例如：疾病医疗诊断、物体异常检测、网络入侵预防和信用卡欺诈侦测等。传统的分类算法在设计之初都是假设数据集是平衡数据集，将这些算法直接应用于不平衡数据集分类时，很容易忽略那些更为更要的正类样本，导致正类样本的识别率很低。

目前，解决不平衡数据集分类问题的方法可分为算法层面和数据层面。算法层面通过对已有的分类算法进行改进，使算法在分类时更加偏向正类样本，如代价敏感算法、集成学习算法等，但是它们没有改变样本的分布，改进的算法通常仅适用于某一特定数据集。数据层面使用重采样技术使数据集达到平衡，根据采样对象的不同，重采样可以分为：1)过采样：通过遵循某种策略增加正类样本的数量使数据集平衡的技术；2)欠采样：通过减少负类样本的数量使数据集平衡的技术；3)混合采样：增加正类样本数量的同时减少负类样本的数量，使数据集平衡的技术。比较经典的采样算法有SMOTE、Borderline-SMOTE、MWMOTE等，但是这些算法是基于数据样本的距离对所有样本进行无区别的采样，没有考虑到正类样本的分布特征，导致采样的样本边界模糊重叠，容易使模型过拟合，导致预测精度降低。

发明内容

本发明的目的在于提供一种不平衡数据过采样处理方法，能够在保证整体正确率的同时，有效地提高模型对正类样本的识别精度。

实现本发明目的的技术解决方案为：一种基于遗传算法和k-means聚类的不平衡数据集过采样方法，该方法包括以下步骤：

步骤1、从不平衡数据集分类领域常用的数据库KEEL Dataset中获取不平衡数据集D；

步骤2、将不平衡数据集D划分为训练数据集D_Train和测试数据集D_Test；

步骤3、将D_Train中的数据样本划分为正类样本集N_min和负类样本集N_maj，并计算使得不平衡数据集能够平衡的待采样样本的数量T；

步骤4、利用k-means聚类算法对正类样本集N_min进行聚类，获得k个簇C_i,i＝1,2,...,k；

步骤5、为每个簇分配相应的采样权重，并根据采样权重计算每个簇需要采样的样本数量；

步骤6、计算各个簇中样本的马氏距离，并根据马氏距离的大小对样本进行排序分组，划分为两组父类数据集；

步骤7、根据遗传算法的交叉算子，利用步骤6中的父类数据集，不断合成新的正类样本直至样本数量达到该簇需要采样的样本数量；

步骤8、将步骤7合成的所有簇的新的正类样本和原始不平衡数据集D合并构成一个平衡数据集，并利用该数据集对分类器模型进行训练；

步骤9、利用测试数据集对步骤8训练好的模型进行性能评估。

进一步地，步骤4所述利用k-means聚类算法对正类样本集N_min进行聚类，获得k个簇，具体为：

步骤4-1、将正类样本数据集N_min和待聚类簇的个数k作为输入数据；

步骤4-2、随机产生k个初始簇心：c₁,c₂,...,c_k；

步骤4-3、对于正类样本集N_min中的每个数据样本，分别计算其距离步骤4-2中k个簇心的距离，并将该样本划分到距离最近的簇心所属的簇中；

步骤4-4、待将所有数据划分到相应的簇中后，计算各个簇中数据样本的均值，并以此均值作为新的簇心，完成对c₁,c₂,...,c_k的更新；

步骤4-5、重复步骤4-3和步骤4-4直至簇心不再发生变化或者达到指定的迭代次数，完成聚类。

进一步地，步骤6所述计算各个簇中样本的马氏距离，所用公式为：

式中，D_j表示第i个簇C_i中第j个样本的马氏距离，∑^-1为第i个簇C_i中所有样本的协方差矩阵，μ为样本的均值，x_j为第i个簇C_i中的第j个样本；

根据D_j的大小，对簇C_i中样本进行升序排序，将排序后的样本从中间分为两组，分别作为父类数据集

进一步地，步骤7所述根据遗传算法的交叉算子，利用步骤6中的父类数据集，不断合成新的正类样本直至样本数量达到该簇需要采样的样本数量，具体为：

步骤7-1、按对应的位置分别从父类数据集

中依次取出两个样本，利用遗传算法的交叉算子规则合成新的子代样本；其中，遗传算法的交叉算子公式为：

式中，

和

为第g代进行交叉的两个数据样本，l为样本的特征数，

为第g+1代对应的数据样本，λ为0到1的随机数；

步骤7-2、判断是否达到该簇需要采样的样本数量，若是，则终止采样；否则，利用新的子代样本和其父代样本继续合成新样本。

本发明与现有技术相比，其显著优点为：1)采用k-means聚类算法，充分考虑到正类样本原始分布特征，避免了新合成的正类样本侵入负类样本分布空间的问题；2)利用马氏距离作为衡量数据样本之间相似性的度量标准，避免了样本不同属性之间量纲的影响；3)将遗传算法的交叉算子引入样本的采样过程，使新样本的特征更具代表性，分布更加均匀，有效的提高了正类样本的识别率，减轻了模型过拟合的风险。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明基于遗传算法和k-means聚类的不平衡数据集过采样方法的流程图。

图2为本发明整体结构原理图。

图3为本发明实施例在公共数据集上取得的AUC值结果图；其中，图(a)～(d)分别为数据集vehicle0、glass2、glass4和pocker-8-9_vs_6的结果。

图4为本发明实施例在公共数据集上取得的g-means值结果；其中，图(a)～(d)分别为数据集vehicle0、glass2、glass4和pocker-8-9_vs_6的结果。

具体实施方式

结合图1、图2，本发明基于遗传算法和k-means聚类的不平衡数据集过采样方法，包括以下步骤：

进一步地，步骤3中计算使得不平衡数据集能够平衡的待采样样本的数量T，所用公式为：

T＝M_maj-M_min

式中，M_maj为负类样本集N_maj中的样本数，M_min为正类样本集N_min中的样本数。

进一步地，步骤4中利用k-means聚类算法对正类样本集N_min进行聚类，获得k个簇，具体为：

步骤4-2、随机产生k个初始簇心：c₁,c₂,...,c_k；

进一步地，步骤5中为每个簇分配相应的采样权重，所用公式为：

式中，W_i为第i个簇分配的采样权重，Num<C_i>表示第i个簇中数据样本的数量，Num<N_min＞表示正类样本的数量；

根据采样权重计算每个簇应该采样的样本数量：

T_i＝W_i*T

式中，T_i表示第i个簇应该采样的样本数量。

步骤7-1、按对应的位置分别从父类数据集

式中，

和

为第g代进行交叉的两个数据样本，l为样本的特征数，

为第g+1代对应的数据样本，λ为0到1的随机数；

进一步地，步骤8中分类器采用C4.5、AdaC2-I、AdaBoost.NC-I三种分类算法。

进一步地，步骤8中模型训练采用5-fold交叉验证法，即将数据集平均分为5份，每次实验取其中一份作为测试集，而其它四份作为训练集，以五次实验结果的平均值作为最终的结果。

进一步地，步骤9所述的模型评估，采用的评价指标为AUC值和g-mean值，计算公式为：

式中，TP表示正类样本被正确分类为正类的样本个数，FN表示正类样本被错误分类为负类的样本个数，TN表示负类样本被正确分类为负类的样本个数，FP表示负类样本被错误分类为正类的样本个数，具体可由下面的二分类混淆矩阵表示。

下面结合实施例对本发明作进一步详细的描述。

实施例

1、仿真环境

本实施例采用Python 3.5编程语言和KEEL软件进行测试，实验环境为64位Windows操作系统，硬件配置为Intel(R)Core i5-7300HQ CPU@2.50GHz，8G内存。

2、仿真内容与结果分析

本实施例中所使用的数据集均来自KEEL数据库中的不平衡数据集，它们的特征维度和不平衡率各不相同，具体信息如下表1所示。

表1实验数据集

实验中，与本发明进行对比试验的采样方法分别为：SMOTE、Borderline-SMOTE和Safe-Level SMOTE，采用的三种分类方法分别为：C4.5、AdaC2-I、AdaBoost.NC-I，中，C4.5为常规分类算法，AdaBoost.NC-I和AdaC2-I为集成分类算法。在仿真实验的过程中，设置k-means聚类算法中超参数k的值为1～4不等，以便寻找最好的聚类个数。模型的评估指标采用AUC值和g-means，具体的仿真结果如下表2-5所示。将下表2-5中的结果以可视化的方式显示为曲线图如图3和图4所示。

表2 glass2实验结果

备注：加粗数据为对应分类算法在该指标上取得的最大值

表3 vehicle0实验结果

备注：加粗数据为对应分类算法在该指标上取得的最大值

表4 glass4实验结果

备注：加粗数据为对应分类算法在该指标上取得的最大值

表5 poker-8-9_vs_6实验结果

备注：加粗数据为对应分类算法在该指标上取得的最大值

综合表2-5和图3、图4的结果可以看出，本发明基于遗传算法和k-means聚类的不平衡数据集过采样方法通过聚类技术充分考虑到样本的空间分布特征，在遗传算法交叉算子规则的指导下，合成的样本分布更加均匀，可以有效提高正类样本的识别率。实验证明，在与不同的分类算法结合时，在指标AUC值和g-mean值上均优于其它三种过采样算法，这证明了本发明的稳定性及性能的优越性。

Claims

1.一种基于遗传算法和k-means聚类的不平衡数据集过采样方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法，其特征在于，步骤3所述计算使得不平衡数据集能够平衡的待采样样本的数量T，所用公式为：

T＝M_maj-M_min

3.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法，其特征在于，步骤4所述利用k-means聚类算法对正类样本集N_min进行聚类，获得k个簇，具体为：

步骤4-2、随机产生k个初始簇心：c₁,c₂,...,c_k；

4.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法，其特征在于，步骤5所述为每个簇分配相应的采样权重，所用公式为：

式中，W_i为第i个簇分配的采样权重，Num<C_i>表示第i个簇中数据样本的数量，Num<N_min>表示正类样本的数量；

根据采样权重计算每个簇应该采样的样本数量：

T_i＝W_i*T

式中，T_i表示第i个簇应该采样的样本数量。

5.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法，其特征在于，步骤6所述计算各个簇中样本的马氏距离，所用公式为：

6.根据权利要求5所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法，其特征在于，步骤7所述根据遗传算法的交叉算子，利用步骤6中的父类数据集，不断合成新的正类样本直至样本数量达到该簇需要采样的样本数量，具体为：

步骤7-1、按对应的位置分别从父类数据集

式中，

和

为第g代进行交叉的两个数据样本，l为样本的特征数，

为第g+1代对应的数据样本，λ为0到1的随机数；

7.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法，其特征在于，步骤8所述分类器采用C4.5、AdaC2-I、AdaBoost.NC-I三种分类算法。

8.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法，其特征在于，步骤8所述模型训练采用5-fold交叉验证法，即将数据集平均分为5份，每次实验取其中一份作为测试集，而其它四份作为训练集，以五次实验结果的平均值作为最终的结果。

9.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法，其特征在于，步骤9所述的模型评估，采用的评价指标为AUC值和g-mean值，计算公式为：

式中，TP表示正类样本被正确分类为正类的样本个数，FN表示正类样本被错误分类为负类的样本个数，TN表示负类样本被正确分类为负类的样本个数，FP表示负类样本被错误分类为正类的样本个数。