CN111931853A

CN111931853A - 基于层次聚类和改进smote的过采样方法

Info

Publication number: CN111931853A
Application number: CN202010806035.XA
Authority: CN
Inventors: 王鑫; 杨悦; 覃琴; 卢雨琪
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-11-13

Abstract

本发明公开了一种基于层次聚类和改进SMOTE的过采样方法，其特征在于，包括如下步骤：1）划分少数类簇；2）确定采样权重和概率分布；3）限制合成样本的生成区域；这种方法在不平衡数据处理上，能降低噪音干扰、减少合成重叠样本，对容易错分的边缘样本加以选择，兼顾类内不平衡及生成样本点的分布，最终提升分类性能。

Description

基于层次聚类和改进SMOTE的过采样方法

技术领域

本发明涉及不平衡数据的分类技术，具体是一种基于层次聚类和改进SMOTE的过采样方法。

背景技术

在现实生活中有很多不平衡数据的分类应用场景，如信用卡欺诈检测、信息检索和过滤、市场分析等场景。采用传统分类算法对不平衡数据进行分类，分类结果会倾向于多数类，出现分类失误的情况，数据集的不平衡状态又细分为两种：类间不平衡和类内不平衡，都会对模型性能造成影响。传统分类算法中过采样方法中存在合成样本重叠以及样本分布“边缘化”的问题也是分类性能下降的原因。因此如何改进传统算法解决数据集不平衡分类问题并提高分类性能是数据挖掘和机器学习的研究热点。

最常用的过采样方法是Chawla等2002年提出的SMOTE算法，算法思路是通过寻找样本的近邻集，在样本点与其近邻集随机选择的样本连线上合成新的样本点。Han Hui等人在2005年提出了Borderline-SMOTE算法，该算法将少数类样本分为边界区域、安全区域、危险区域，通过选择边界区域的样本点进行样本合成，避免了SMOTE不加区别地选择少数类样本而导致大量的冗余新样本的合成；He等人提出了ADASYN合成是根据数据分布自动确定每个少数类样本需要生成的样本数量，近邻多数类样本多的少数类样本生成更多的样本，相比于SMOTE，对样本分布进行了细致的划分；Cluster-SMOTE利用K-means算法对少数类样本进行聚类，找到少数类簇，然后分别应用SMOTE算法，但该方法没有确定最佳类簇个数且没有计算出每类簇该生成的样本数目；Kmeans-SMOTE将K-means聚类算法与SMOTE算法相结合，相比Cluster-SMOTE，Kmeans-SMOTE是对整个数据集进行聚类，发现重叠的类区域且避免在不安全区域中进行过度采样，并将合成样本限制在目标区域内，消除了类间和类内不平衡，同时避免了产生噪音样本，效果较好；CBSO将聚类与现有的合成过采样技术的数据生成机制相结合，确保生成的合成样本始终位于少数类区域，避免了错误样本的生成。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于层次聚类和改进SMOTE的过采样方法。这种方法在不平衡数据处理上，能降低噪音干扰、减少合成重叠样本，对容易错分的边缘样本加以选择，兼顾类内不平衡及生成样本点的分布，最终提升分类性能。

实现本发明目的的技术方案是：

一种基于层次聚类和改进SMOTE的过采样方法，包括如下步骤：

1)划分少数类簇：采用AGNES算法对样本进行聚类，将数据集划分成类簇，AGNES是一种层次聚类算法，该算法将每个样本点来看成一个类簇，然后将这些簇根据某种规则做合并，直到达到预设类簇个数或设定阈值，与传统质心方式聚合样本点的方法对比，AGNES算法可以不受样本点周围分布的形状限制，同时可以将特征空间范围不同的样本点聚合到一起，更好地解决类内不平衡问题，在确定类簇是否合并时采用平均距离计算方法，直到类簇间距离超过设定阈值，停止聚类，为了避免重叠样本的生成，还需要考虑多数类样本的分布，采用AGNES算法对少数类样本进行聚类前，先对多数类样本进行聚类，如果某一多数类簇到两少数类簇的距离小于两少数类簇的最小距离，则表明合并后的少数类簇合成样本时会产生重叠样本，不应该将两类簇做合并，包括：

1-1)给定原始数据集I，采用K近邻的思想过滤数据集I中的噪声样本，设定K＝5，遍历I中的样本，若I中样本的K个近邻中超过4/5的样本为该选取样本的相反样本类别，则判定该样本为噪声样本，剔除该噪声样本，将剩下的样本点组成样本集合I′；

2-1)对样本集合I′中的多数类样本先进行聚类，将每个样本看成单独的类簇，采用公式(1)计算簇间距离，合并距离最近的两类簇，重复上述过程直到达到预设阈值T_h，得到若干多数类簇集合

其中，x和y分别为类簇C_a和C_b中的样本点，|C_a|和|C_b|表示类簇中总的样本数目；

3-1)再根据得到的多数类簇集合划分少数类样本，同样将少数类样本看成一个个单独的类簇，得到少数类簇集合

4-1)由公式(1)计算两两少数簇间的距离，令D_min＝d(C_a,C_b)并记录下最小距离D_min及其对应的类簇编号a和b；

5-1)遍历多数类簇集合，找到多数簇

满足

到少数类簇

和

的距离均小于两少数类簇最小距离D_min，将这些多数类簇加入集合B中；

6-1)如果

则少数类簇

和

不进行合并，并将集合B中元素清空，否则，将少数类簇

和

合并成少数类簇

则少数类簇集合A中将减少一个元素；

7-1)重新依据公式(1)计算集合A中少数类簇

与剩余少数类簇间的距离，重复步骤3-1)至步骤6-1)，直到距离最近的少数类簇间的欧式距离大于阈值T_h,停止少数类簇的合并，得到最终的少数类簇集合

设置距离阈值T_h，判断是否做类簇合并，先定义一个值dist_avg：

其中，x_p和x_q同为少数类簇

中的样本点，

为该类簇中总的样本数目，dist_avg表示某一少数类簇中两两样本的距离的中位距离总和的平均值，选取样本距离的中位距离可以减少噪音样本的干扰，再定义阈值T_h如公式(3)所示：

T_h＝dist_avg*f (3)

参数f用于调整聚类算法的输出，增大f值，可增大类簇包含的数目大小，减小f值，则减小类簇包含的数目大小；

2)确定采样权重和概率分布：通过AGNES聚类获得若干样本数目不同的少数类簇，类簇内的密集程度也不同，需要考虑类内不平衡对分类性能的影响，于是对所有少数类簇根据样本数目赋予不同权重，不仅可以保证所有的少数类簇都进行过采样，不会忽略孤立的小类簇，而且有利于避免过拟合现象，因此根据少数类簇中样本数目分配不同的采样权重，记作W(i)如公式(4)所示：

其中，N表示少数类簇的总数，num(i)表示第i个少数类簇中的样本数目，由公式(4)可知，少数类簇中样本数目越多，则W(i)越小，即分配的权重越小，合成样本数目越小，最终实现类内平衡，由各类簇的采样权重W(i)与剔除噪声样本后剩余的多数类样本与少数类样本的差额N_maj-N_min，可以确定每个少数类簇的采样数目num(i)如公式(5)所示：

num(i)＝(N_maj-N_min)*W(i) (5)

此外，在分类任务中，通常越靠近决策边界的少数类样本越容易被错分，从而增加了少数类样本的学习难度，为此还需要筛选进行过采样的样本，这里引入少数类簇的概率分布，根据概率分布挑选难以学习的包含重要信息的少数类样本作为“种子样本”，以保证样本的合成质量，每个样本被选中的概率设置为D(i)公式(6)所示：

少数类簇的概率分布为公式(7)所示：

其中，y_a是x的第a个多数类样本近邻，1≤a≤k，

表示少数类子簇中样本x与多类样本y_a的欧式距离，i表示少数类簇中的某一样本，n表示某一少数类簇中的样本数目，k为近邻样本的数目，由公式(6)(7)可知，每个样本被选中的概率是依据该样本与多数类边界的距离所确定的，距离多数类边界越近的少数类样本被选择的概率高于距离较远的样本，再由每个样本被选中的概率构成少数类簇的概率分布，这样子不仅考虑了样本的分布特性，并且有效地扩展了少数类决策边界；

3)限制合成样本的生成区域：确定了每个少数类簇合成数目，并根据各少数类簇的概率分布选取“种子样本”，还需考虑合成样本的生成区域，进一步提高分类器的性能，防止合成样本分布“边缘化”，因此在进行样本合成时，需要将新生成的样本点分布考虑进去，在“种子样本”中随机选取一个样本，然后从该样本在同一少数类簇中的近邻少数类样本中再随机选择两个样本，将这三个样本组成一个三角形，样本本身作为三角形顶点，三个顶点分别到其质心的连线上随机生成一个样本，一个三角形产生3个合成样本，采用质心方式来限制样本点的生成区域，假设三个样本点分布为x₁，x₂，x₃，该样本点生成质心区域计算公式如公式(8)所示：

其中，x_i代表三个顶点横坐标，y_i代表三个顶点纵坐标，按照该方式生成样本点向样本点质心方向靠拢，在三个样本点到其质心的连线上合成新样本，再将合成样本添加到合成样本集中。

本技术方案为AGNES-SMOTE方法：首先采用K近邻思想对原数据集做噪音样本剔除，然后采用AGNES算法对多数类样本进行聚类，划分成若干个多数类簇，再对少数类样本进行聚类，并根据得到的多数类簇合并相近少数类簇，直到超出设定阈值则停止聚类，得到少数类簇，为每个少数类簇分配权重，同时计算出每个少数类簇的概率分布，结合两者对少数类簇中的样本进行过采样,合成过程中采用质心方式对合成样本限制生成区域。

这种方法在不平衡数据处理上，能降低噪音干扰、减少合成重叠样本，对容易错分的边缘样本加以选择，兼顾类内不平衡及生成样本点的分布，最终提升分类性能。

附图说明

图1为实施例中方法的流程示意图；

图2为实施例中原始数据分布示意图；

图3为实施例中采用SMOTE算法采样后的数据分布示意图；

图4为实施例中本例方法采样后的数据分布示意图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

1)划分少数类簇：采用AGNES算法对样本进行聚类，将数据集划分成类簇，AGNES是一种层次聚类算法，该算法将每个样本点来看成一个类簇，然后将这些簇根据某种规则做合并，直到达到预设类簇个数或设定阈值，与传统质心方式聚合样本点的方法对比，AGNES算法可以不受样本点周围分布的形状限制，同时可以将特征空间范围不同的样本点聚合到一起，更好地解决类内不平衡问题，本例在确定类簇是否合并时采用平均距离计算方法，直到类簇间距离超过设定阈值，停止聚类，为了避免重叠样本的生成，还需要考虑多数类样本的分布，采用AGNES算法对少数类样本进行聚类前，先对多数类样本进行聚类，如果某一多数类簇到两少数类簇的距离小于两少数类簇的最小距离，则表明合并后的少数类簇合成样本时会产生重叠样本，不应该将两类簇做合并，包括：

4-1)由公式(1)计算两两少数簇间的距离，令D_min＝d(C_a,C_b)并记录下最小距离对应的类簇编号a和b；

5-1)遍历多数类簇集合，找到多数簇

满足

到少数类簇

和

6-1)如果

则少数类簇

和

不进行合并，并将集合B中元素清空，否则，将少数类簇

和

合并成少数类簇

则少数类簇集合A中将减少一个元素；

7-1)重新依据公式(1)计算集合A中少数类簇

其中，x_p和x_q同为少数类簇

中的样本点，

T_h＝dist_avg*f (3)

其中，N表示少数类簇的总数，num(i)表示第i个少数类簇中的样本数目，由公式(4)可知，少数类簇中样本数目越多，则W(i)越小，即分配的权重越小，合成样本数目越小，最终实现类内平衡，由各类簇的采样权重W(i)与剔除噪声样本后剩余的多数类样本与少数类样本的差额N_maj-N_min，可以确定每个少数类簇的采样数目num(i)如公式(5)所示：。

num(i)＝(N_maj-N_min)*W(i) (5)

少数类簇的概率分布为公式(7)所示：

其中，y_a是x的第a个多数类样本近邻，1≤a≤k，

3)限制合成样本的生成区域：确定了每个少数类簇合成数目，并根据各少数类簇的概率分布选取“种子样本”，还需考虑合成样本的生成区域，进一步提高分类器的性能，防止合成样本分布“边缘化”，因此在进行样本合成时，需要将新生成的样本点分布考虑进去，在“种子样本”中随机选取一个样本，然后从该样本在同一少数类簇中的近邻少数类样本中再随机选择两个样本，将这三个样本组成一个三角形，样本本身作为三角形顶点，三个顶点分别到其质心的连线上随机生成一个样本，一个三角形产生3个合成样本，采用质心方式来限制样本点的生成区域，假设三个样本点分布为x₁，x₂，x₃，该样本点生成质心区域计算如公式(8)所示：

合成数据分布结果分析：本例采用人工数据集进行验证，对比本例方法与SMOTE算法合成样本的分布情况，结果如图2、图3、图4所示，其中圆点代表多数类样本，星号代表少数类样本及其合成样本，如图2所示，可以看出经SMOTE算法采样后的合成样本较多分布在边缘区域，甚至混入多数类样本区域而产生样本重叠，且新合成样本间高度相似、重复并没有改变原数据集中的类内不平衡，与图3相比，本例方法则有效过滤了噪音样本，聚类过程中考虑多数类样本的分布来划分少数类簇，避免了新生成样本混入多数类样本区域，降低了噪声的影响，对少数类簇分配采样权重以实现了少数类类内平衡，又根据概率分布对边缘容易错分的样本进行较多的采样，让两类样本形成明显的划分边界，针对样本分布边缘化问题，采用质心方式限制样本生成区域，进一步保证了样本合成质量，且合成样本具有多样性，数据分布如图4所示。

实际数据集结果分析：本例方法与SMOTE、Kmeans-SMOTE、Cluster-SMOTE进行对比实验，从下表1得到的实验结果可以发现，AGNES-SMOTE算法在数据集Ecoli、Libra、Yeast1、Optical_digits、Abalone和Us_crime上得到AUC值均优于其他采样算法，数据集Libra、Optical_digits和Spectrometer取得的AUC值较大，原因是这些数据集不平衡比例较大且包含较多的特征数，需要合成更多的样本，而AGNES-SMOTE算法考虑了类内不平衡，对样本加以选择并限制生成区域，减少了样本重叠的可能，进一步保证了样本的合成质量，为分类器提供了多样的样本信息，而数据集Haberman和Yeast1因为其数据集特征数较少且不平衡比例较小，则取得较低的AUC值。

本例方法在大部分数据集上取得较好的F-measure值和G-mean值，在数据集Ecoli、Yeast1、Haberman、Optical_digits和Abalone上F-measure值和G-mean值提升幅度较大，F-measure值最高达到了96.70％，G-mean值最高达到了97.53％，在数据集Libra中本文算法的G-mean值虽得到大幅提升，但其结果还是略低于Cluster-SMOTE上取得的结果，而其F-measure值则最高提高了14.25％，数据集Us_crime和Spectrometer上取得的F-measure值和G-mean值均低于其他算法，是因为其数据集包含较多的特征数，数据结构表现的较为复杂，总体来看，本例方法在不平衡数据处理上，降低了噪音干扰，减少了合成重叠样本，对容易错分的边缘样本加以选择，考虑了类内不平衡及生成样本点的分布，最终提升了分类性能。

表1数据集在不同算法下评价指标的值。

Claims

1.一种基于层次聚类和改进SMOTE的过采样方法，其特征在于，包括如下步骤：

1)划分少数类簇：采用AGNES算法对样本进行聚类，将数据集划分成类簇，包括：

4-1)由公式(1)计算两两少数簇间的距离，令D_min＝d(C_a,C_b)并记录下最小距离D_min及对应的类簇编号a和b；

5-1)遍历多数类簇集合，找到多数簇

满足

到少数类簇

和

6-1)如果

则少数类簇

和

不进行合并，并将集合B中元素清空，否则，将少数类簇

和

合并成少数类簇

则少数类簇集合A中将减少一个元素；

7-1)重新依据公式(1)计算集合A中少数类簇

其中，x_p和x_q同为少数类簇

中的样本点，

为该类簇中总的样本数目，dist_avg表示某一少数类簇中两两样本的距离的中位距离总和的平均值，再定义阈值T_h如公式(3)所示：

T_h＝dist_avg*f (3)

参数f用于调整聚类算法的输出；

2)确定采样权重和概率分布：根据少数类簇中样本数目分配不同的采样权重，记作W(i)如公式(4)所示：

其中，N表示少数类簇的总数，num(i)表示第i个少数类簇中的样本数目，由各类簇的采样权重W(i)与剔除噪声样本后剩余的多数类样本与少数类样本的差额N_maj-N_min，可以确定每个少数类簇的采样数目num(i)如公式(5)所示：

num(i)＝(N_maj-N_min)*W(i) (5)

引入少数类簇的概率分布，根据概率分布挑选难以学习的包含重要信息的少数类样本作为“种子样本”，每个样本被选中的概率设置为D(i)公式(6)所示：

少数类簇的概率分布为公式(7)所示：

其中，y_a是x的第a个多数类样本近邻，1≤a≤k，

表示少数类子簇中样本x与多类样本y_a的欧式距离，i表示少数类簇中的某一样本，n表示某一少数类簇中的样本数目，k为近邻样本的数目，由公式(6)(7)可知，每个样本被选中的概率是依据该样本与多数类边界的距离所确定的，距离多数类边界越近的少数类样本被选择的概率高于距离较远的样本，再由每个样本被选中的概率构成少数类簇的概率分布；

3)限制合成样本的生成区域：在进行样本合成时，在“种子样本”中随机选取一个样本，然后从该样本在同一少数类簇中的近邻少数类样本中再随机选择两个样本，将这三个样本组成一个三角形，样本本身作为三角形顶点，三个顶点分别到其质心的连线上随机生成一个样本，一个三角形产生3个合成样本，采用质心方式来限制样本点的生成区域，假设三个样本点分布为x₁，x₂，x₃，该样本点生成质心区域计算如公式(8)所示：

其中，x_i代表三个顶点横坐标，y_i代表三个顶点纵坐标，在三个样本点到其质心的连线上合成新样本，再将合成样本添加到合成样本集中。