CN111062425B

CN111062425B - 基于c-k-smote算法的不平衡数据集处理方法

Info

Publication number: CN111062425B
Application number: CN201911259004.0A
Authority: CN
Inventors: 郭朝有; 许喆; 曹蒙蒙; 马砚堃; 姚乾
Original assignee: Naval University of Engineering PLA
Current assignee: Naval University of Engineering PLA
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2022-10-28
Anticipated expiration: 2039-12-10
Also published as: CN111062425A

Abstract

本发明公开了一种基于C‑K‑SMOTE算法的不平衡数据集处理方法，先利用Canopy算法对少数类样本进行快速近似聚类，得到一系列canopy簇；然后再利用K‑means聚类算法对canopy簇再聚类，得到精准聚类簇，最后再利用SMOTE算法基于精准聚类簇进行插值处理，从而增加少数类样本数量使数据样本趋向平衡。本发明中基于C‑K‑SMOTE算法的不平衡数据集处理方法可有效平衡不平衡数据集，既保证了新生成的样本的有效性也保留了原数据分布模式且不存在边界模糊问题，利用修正的SMOTE算法插值公式还避免了近邻样本选择盲目性问题；本发明实现了Canopy算法和K‑means算法有机融合，利用K‑means再聚类解决了Canopy算法聚类精度低的问题，同时利用Canopy聚类克服了K‑means算法聚类簇数难以确定以及初始中心过于随机的问题。

Description

基于C-K-SMOTE算法的不平衡数据集处理方法

技术领域

本发明涉及数据集的处理方法优化领域，尤其涉及基于C-K-SMOTE算法的不平衡数据集处理方法。

背景技术

在类别数量上分布不均衡的数据集称为不平衡数据集，一般将类别数量多的数据样本称为多数类，类别数量少的数据样本称为少数类。不平衡数据集在信用卡诈骗、医疗诊断、网络入侵、故障诊断等领域均广泛存在，如何利用现有分类算法对不平衡数据进行有效分类是数据挖掘领域面临的挑战之一。

目前，主要从两个方面解决不平衡数据集的分类问题：一是从数据层面出发，利用数据平衡化方法使数据集达到平衡，如过采样或欠采样技术等；二是从算法层面出发，通过改进现有算法使其能够针对性地处理不平衡数据，如代价敏感学习、集成学习和单类学习等。

过采样或欠采样技术通过人为地增加或减少原始不平衡数据集中的少数类或多数类样本以改变数据样本的不平衡分布，从而使新的数据集在类别数量上达到平衡。Chawla等人提出的SMOTE(Synthetic Minority Over-Sampling Technique,SMOTE)算法是最为经典的启发式过采样技术，该算法在少数类样本和其近邻样本之间利用随机线性插值的方法合成新的少数类样本。但因对少数类样本进行无差别地选择，导致其合成样本质量不高。为此，Han等人提出了Borderline-SMOTE算法；Yen等人提出了先聚类再抽样的数据平衡化方法；曹正凤提出了C_SMOTE算法；陈斌等提出了KM-SMOTE算法，该方法先利用K-means算法聚类，然后再运用SMOTE算法进行过采样。虽然上述改进方法在一定程度上改善了数据集的不平衡分布，但也存在着一些不足，如数据样本分布模式改变、数据样本重叠导致合成样本有效性不足等。

发明内容

针对上述存在的问题，本发明旨在提供一种基于C-K-SMOTE算法的不平衡数据集处理方法，采用先聚类后插值的处理方法，既保证了新生成的样本的有效性也保留了原数据分布模式且不存在边界模糊问题。

为了实现上述目的，本发明所采用的技术方案如下：

基于C-K-SMOTE算法的不平衡数据集处理方法，其特征在于，包括以下步骤：

S1：利用Canopy算法对不平衡数据集的少数类样本进行快速近似聚类，得到一系列canopy簇；

S2：利用K-means聚类算法对canopy簇再次进行聚类，得到精准聚类簇；

S3：利用SMOTE算法在每一个精准聚类簇内进行插值处理，增加少数类样本数量使不平衡数据集趋向平衡。

进一步的，步骤S1的具体操作过程为：

S11：根据不平衡数据集的特征或者通过多次交叉实验确定距离阈值T₁和T₂，其中T₁＞T₂；

S12：在数据集中任取一点A，若无canopy簇存在，则把A点当作第一个canopy簇；若数据集中已经存在有canopy簇，计算A点与各个canopy簇簇心间距离D，则D＝{D₁,D₂,···,D_k}，其中，k为canopy聚类簇的簇数；

S13：比较D与T₁和T₂的大小，若T₂<D≤T₁，则点A归入相应的canopy簇，并根据canopy簇中各点几何平均值重新调整canopy簇的簇心；若D≤T₂，则将点A从数据集中剔除；若D＞T₁，则将生成一个新的canopy簇，并以点A作为该canopy簇的簇心；

S14：重复执行步骤S12和S13，直至数据集为空，聚类结束，得到一系列canopy簇，每个canopy簇对应一个簇心。

进一步的，步骤S2的具体操作过程为：

S21：选取步骤S1中canopy簇簇心以外的任一数据，计算其到k个簇心的距离，并将它重新划分至距离最近的簇中；

S22：计算每个聚类簇中所有数据样本的平均值，将其作为新的聚类簇簇心，并计算目标函数E的值；

S23：重复步骤S21和S22，直至聚类簇簇心不再变化或者E的值达到收敛条件，聚类结束，得到k个精准聚类簇。

进一步的，所述目标函数E的计算公式为

式中，x_i表示数据集中第i个数据样本，ω_j表示第j个聚类簇，z_j表示第j个聚类簇的簇心。

进一步的，所述E值的收敛条件为|E₂-E₁|＜ε，其中，ε取0.001，E₁和E₂分别代表前后两次迭代的目标函数值。

进一步的，步骤S3的具体操作过程为：

S31：在每个精准聚类簇内，以簇心与该精准聚类簇内的少数类样本进行随机线性插值处理，经过插值后可以得到一个新的合成样本；

S32：将插值得到的新样本放入不平衡数据集中，得到新的不平衡数据集，计算新的数据集的平衡度；

S33：若平衡度达不到要求，在S32得到的新的不平衡数据集的基础上重复S31和S32的操作，直至平衡度达到要求。

进一步的，所述随机线性插值采用的随机插值公式为P_j＝X_i+rand(0，1)×(u_t-X_i)，式中，X_i为少数类样本，i＝1,2，…n，n为少数类样本的总数；u_t为精准聚类簇簇心，t＝1,2，…k；P_j为合成的新数据，j＝1,2，…m，m为新合成数据的总数；rand(0,1)表示(0,1)区间的随机数。

进一步的，所述平衡度达到[0.6，1.0]即为达到要求。

本发明的有益效果是：

1、本发明基于C-K-SMOTE算法的不平衡数据集处理方法采用“先聚类后插值”的方法，可有效平衡不平衡数据集，既保证了新生成的样本的有效性也保留了原数据分布模式且不存在边界模糊问题；

2、本发明利用修正的SMOTE算法插值公式避免了近邻样本选择盲目性问题；

3、本发明实现了Canopy算法和K-means算法有机融合，利用K-means再聚类解决了Canopy算法聚类精度低的问题，同时利用Canopy聚类克服了K-means算法聚类簇数难以确定以及初始中心过于随机的问题。

附图说明

图1为本发明C-K-SMOTE算法的流程图；

图2a为本发明实施例一中原始数据样本图；

图2b为本发明实施例一中Canopy聚类生成Canopy簇图；

图2c为本发明实施例一中K-means聚类生成K-means算法聚类图；

图2d为本发明实施例一中基于Canopy和K-means算法对少数类样本聚类最终输出的聚类图；

图2e为本发明实施例一中基于C-K-SMOTE算法合成新样本图；

图2f为本发明实施例一中聚类中心C₂合成少数类样本过程示意图；

图3为本发明实施例二的实验G-means指标柱状图；

图4为本发明实施例二的实验F-value指标柱状图；

图5为本发明实施例二的TP/FP散点图。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

结合附图1所示，基于C-K-SMOTE算法的不平衡数据集处理方法，包括以下步骤：

步骤S1：利用Canopy算法对不平衡数据集的少数类样本进行快速近似聚类，得到一系列canopy簇；

具体的，包括以下步骤：

进一步的，步骤S2：利用K-means聚类算法对canopy簇再次进行聚类，得到精准聚类簇；

具体的，包括以下步骤S21：选取步骤S1中canopy簇簇心以外的任一数据，计算其到k个簇心的距离，并将它重新划分至距离最近的簇中；

S22：计算每个聚类簇中所有数据样本的平均值，将其作为新的聚类簇簇心，并计算目标函数E的值；目标函数E的计算公式为

S23：重复步骤S21和S22，直至聚类簇簇心不再变化或者E的值达到收敛条件，聚类结束，得到k个精准聚类簇；所述E值的收敛条件为|E₂-E₁|＜ε，其中，ε为0.001，E₁和E₂分别代表前后两次迭代的目标函数值。

进一步的，步骤S3：利用SMOTE算法在每一个精准聚类簇内进行插值处理，增加少数类样本数量使不平衡数据集趋向平衡。

具体的，包括以下步骤：

所述随机线性插值采用的随机插值公式为P_j＝X_i+rand(0，1)×(u_t-X_i)，式中，x_i为少数类样本，i＝1,2，…n，n为少数类样本的总数；u_t为精准聚类簇簇心，t＝1,2，…k；P_j为合成的新数据，j＝1,2，…m，m为新合成数据的总数；rand(0,1)表示(0,1)区间的随机数。

S32：将插值得到的新样本放入不平衡数据集中，得到新的不平衡数据集，计算新的数据集的平衡度；所述平衡度为少数类样本与多数类样本的数量之比；

S33：若平衡度达不到要求，在S32得到的新的不平衡数据集的基础上重复S31和S32的操作，直至平衡度达到要求。所述平衡度达到要求的标准为平衡度值的范围在[0.6，1.0]中。

实施例一：

结合附图2所示，原始少数类样本分布如附图2a所示，运用Canopy算法实现粗聚类，生成以A、B和C为簇心的三个canopy簇，如附图2b所示，运用K-means算法对canopy簇进行再聚类，得到三个精准簇，如图2c所示；经过不断的划分和初始中心优化调整之后，三个精准簇的中心分别为C₁、C₂和C₃，如附图2d所示。

运用K-means算法实现精聚类的过程中，聚类簇数k的值为Canopy聚类输出的canopy簇的个数，并以canopy簇的簇心作为初始聚类中心；该方法实现了Canopy算法和K-means算法有机融合，利用K-means再聚类解决了Canopy算法聚类精度低的问题，同时利用Canopy聚类克服了K-means算法聚类簇数难以确定以及初始中心过于随机的问题。此外，可基于Canopy的聚类结果甄别边界危险点。

基于上述精准簇，运用SMOTE过采样算法，随机插值即可合成新样本，如附图2e所示；其中，精准簇C₂的SMOTE算法过采样过程如附图2f所示。

如附图2f所示，以聚类中心C₂与该精准簇内所有少数类样本采用随机线性插值的方法生成新样本，所有的新样本全部位于精准簇内，且都位于相应的聚类中心附近，保证了新生成的样本的有效性、保留了原数据分布模式，不存在边界模糊问题，因此有效地解决了传统SMOTE算法存在的问题。

实施例二：

从公开数据集KEEL(Knowledge Extraction on Evolutionary Learning)数据库中的不平衡数据集中，选取Yeast、Ecoli和Page-blocks三组不同不平衡度的数据集，采用10倍5-折交叉验证方法将数据集划分为训练集和测试集，利用本发明中的基于C-K-SMOTE算法对测试数据集进行分类处理，测试数据集如表1所示；

表1测试数据集表

为了对比SMOTE算法和C-K-SMOTE算法的数据平衡化性能，设计三组实验方案，如表2所示。其中随机森林的决策树数目设定为100，SMOTE算法的最近邻值设定为3。

表2 C-K-SMOTE算法数据平衡化对比实验方案设计表

其中方案一，原始不平衡数据不做平衡化处理，直接运用随机森林算法对其进行分类。

方案二，采用传统SMOTE过采样算法平衡化原始不平衡数据集，得到相对平衡的数据集，然后再基于随机森林算法对处理后的数据集进行分类。

方案三，采用CKSMOTE改进算法对原始不平衡数据集进行平衡化操作，再使用随机森林算法对平衡后的数据集进行分类。

按照上述实验方案对表1中的8个不平衡数据集进行实验，并以G-means值、F-value值和TP/FP散点图等分类性能指标进行综合评价。

G-means值计算结果如表3所述，转换为柱状图如附图3(参照实质审查参考资料中图3)所示。

表3实验G-means指标值

由表3和附图3分析可得：

1)CKSMOTE+RF模型在8个数据集上的G-means值均高于SMOTE+RF模型，平均提高了8％左右，这表明CKSMOTE算法相比于传统的SMOTE算法在处理不平衡数据时的平衡效果更好，在提升随机森林算法分类效果上更为显著。

2)数据集的不平衡度越高，C-K-SMOTE算法的数据平衡化性能更好。以Yeast数据集为例，相比于SMOTE算法，Yeast1、Yeast3和Yeast4数据集C-K-SMOTE算法的G-means分别提高了5.66％、5.78％和26.47％。

实验F-value指标值如表4所示，转换为柱状图如附图4(参照实质审查参考资料中图4)所示。

表4实验F-value指标值

序号	数据集	数据集类型	RF	SMOTE+RF	CKSMOTE+RF
						1	Yeast1	低不平衡	0.5342	0.6066	0.5893
2	Yeast3	低不平衡	0.7569	0.7692	0.7615
						3	Yeast4	高不平衡	0.1774	0.3430	0.3432
4	Ecoli2	低不平衡	0.8240	0.8279	0.8594
						5	Ecoli3	低不平衡	0.5691	0.6331	0.5993
6	Ecoli4	高不平衡	0.7848	0.8528	0.8487
						7	Page-blocks0	低不平衡	0.6211	0.6421	0.6826
8	Page-blocks1	高不平衡	0.5526	0.6213	0.6845

由表4和附图4分析可得：

(1)C-K-SMOTE+RF算法在8个数据集下的F-value值比RF算法均有提高，平均提升了约10％，其中Yeast4数据集F-value值提高了将近一倍，在Page-blocks1数据集上也提高了24％左右，即经C-K-SMOTE改进算法平衡化处理后，原始数据集不平衡性得到显著改善，随机森林的分类效果得到明显提升。

(2)对于同一类别不同平衡度数据集，不平衡度越高，C-K-SMOTE+RF算法的平衡化效果越显著。以Ecoli数据集为例，经C-K-SMOTE改进算法平衡化处理后，数据集Ecoli2、Ecoli3和Ecoli4的F-value值相比于RF算法分别提高了4.29％、5.31％和8.15％。

实验TPrate指标值和FPrate指标值分别如表5和表6所示，转换为TP/FP散点图如附图5(参照实质审查参考资料中图5)所示。

表5实验TPrate指标值

序号	数据集	RF	SMOTE+RF	CKSMOTE+RF
					1	Yeast1	0.4801	0.6898	0.6911
2	Yeast3	0.7545	0.8773	0.8769
					3	Yeast4	0.4121	0.4727	0.5525
4	Ecoli2	0.7745	0.8309	0.8691
					5	Ecoli3	0.5143	0.7714	0.7822
6	Ecoli4	0.7	0.85	0.86
					7	Page-blocks0	0.7633	0.7832	0.8122
8	Page-blocks1	0.7821	0.7922	0.8523

表6试验FPrate指标值

序号	数据集	RF	SMOTE+RF	CKSMOTE+RF
					1	Yeast1	0.2115	0.2370	0.1337
2	Yeast3	0.0295	0.0500	0.0333
					3	Yeast4	0.0462	0.0440	0.0129
4	Ecoli2	0.0302	0.0316	0.0281
					5	Ecoli3	0.0571	0.0763	0.0566
6	Ecoli4	0	0.0095	0.0088
					7	Page-blocks0	0.1257	0.1166	0.1053
8	Page-blocks1	0.2213	0.2015	0.1842

由表5、表6和附图5分析可得：

1)C-K-SMOTE+RF模型在8个数据集下的TPrate值均比SMOTE+RF算法有提升，平均提高了约4.48％，同时FPrate值均有所降低，平均降低了约22.02％。即相比于SMOTE+RF模型，C-K-SMOTE+RF模型平衡化不平衡数据性能更优，随机森林分类效果提升程度更高。

2)数据集的不平衡度越高，C-K-SMOTE+RF模型的平衡化效果越显著。以Page-blocks数据集为例，由TP/FP散点图可以看出，经C-K-SMOTE改进算法平衡化处理后，数据集Page-blocks0和Page-blocks1Ecoli4的坐标位置相比于SMOTE+RF算法更趋近于左上角(0,1)的位置，这直观地表明了C-K-SMOTE改进算法能够更好地平衡不平衡数据集，同时也能改善随机森林的分类效果。

综合上述G-means值和TP/FP散点图的分析，本文所设计的C-K-SMOTE算法在平衡化处理不平衡数据集时效果更优，C-K-SMOTE+RF分类模型对少数类样本识别准确率更高，特别是对于不平衡度较大的数据集，其效果更加显著。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于C-K-SMOTE算法的不平衡数据集处理方法，其特征在于，包括以下步骤：

S3：利用SMOTE算法在每一个精准聚类簇内进行插值处理，增加少数类样本数量使不平衡数据集趋向平衡；

步骤S1的具体操作过程为：

S12：在数据集中任取一点A，若无canopy簇存在，则把A点当作第一个canopy簇；若数据集中已经存在有canopy簇，计算A点与各个canopy簇簇心间距离D，则D＝{D₁,D₂,…,D_k}，其中，k为canopy聚类簇的簇数；

S14：重复执行步骤S12和S13，直至数据集为空，聚类结束，得到一系列canopy簇，每个canopy簇对应一个簇心；

步骤S2的具体操作过程为：

所述目标函数E的计算公式为

式中，x_i表示数据集中第i个数据样本，ω_j表示第j个聚类簇，z_j表示第j个聚类簇的簇心；

S23：重复步骤S21和S22，直至E的值达到收敛条件，聚类结束，得到k个精准聚类簇；

所述E值的收敛条件为|E₂-E₁|＜ε，其中，ε取0.001，E₁和E₂分别代表前后两次迭代的目标函数值；

步骤S3的具体操作过程为：

所述随机线性插值采用的随机插值公式为P_j＝X_i+rand(0，1)×(u_t-X_i)，式中，X_i为少数类样本，i＝1,2，…n，n为少数类样本的总数；u_t为精准聚类簇簇心，t＝1,2，…k；P_j为合成的新数据，j＝1,2，…m，m为新合成数据的总数；rand(0,1)表示(0,1)区间的随机数；

S33：若平衡度达不到要求，在S32得到的新的不平衡数据集的基础上重复S31和S32的操作，直至平衡度达到[0.6，1.0]要求。