CN109522936A

CN109522936A - 一种基于聚类的分层最近邻欠采样方法

Info

Publication number: CN109522936A
Application number: CN201811233719.4A
Authority: CN
Inventors: 高欣; 梁跃; 何杨; 刘鑫; 井潇; 刁新平
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-03-26

Abstract

本发明实施例提出了一种基于聚类的分层最近邻欠采样方法，包括：利用Kmeans聚类算法得到多数类样本的肘图，根据簇数与各个簇畸变程度之和的关系选择最优聚类的簇数k；使用Kmeans聚类算法将多数类样本聚为k簇，从而得到各个簇的中心点及簇内样本点个数；根据每个簇内样本点的数量，进行分层采样，选取每个簇中心点的最近邻与少数类样本合并作为采样结果。本发明实施例提供的技术方案，充分利用了多数类样本的分布特征，较好地保留了多数类样本的有用信息，且能有效提高后续分类算法的分类效果。

Description

一种基于聚类的分层最近邻欠采样方法

【技术领域】

本发明涉及机器学习领域欠采样方法，尤其涉及一种基于聚类的分层最近邻欠采样方法。

【背景技术】

在利用机器学习方法解决分类问题时，存在数据集不平衡即某一类样本的数量远远少于其他类样本数量的现象。根据合适的重采样算法解决数据集类间不平衡问题，以提高分类模型对少数类样本的识别率，是当今研究的热点之一。目前对于解决不平衡数据集分类问题，常用技术主要分为基于算法的方法和基于数据的方法。基于算法的方法是指根据分类算法在解决不平衡数据分类问题时的缺陷，适当修改算法，使之适应不平衡分类问题，常用的策略有代价敏感方法和集成学习方法。代价敏感方法通过引入代价敏感因子，对分类错误的少数类样本进行惩罚，如代价敏感决策树，代价敏感支持向量机等。集成学习方法使用一系列分类器进行学习，并将各个学习结果进行整合从而获得比单个分类器更好的学习效果，如bagging，AdaBoost，AdaCost等。基于算法的方法通过改变算法自身的计算过程来适应不平衡数据集，但是没有从根本上改变数据集类间的不平衡性，这大大降低了算法的泛化性能，而基于数据的方法将采样阶段与训练阶段独立，便于将不同的采样方式与不同的分类方法相结合，所以在实际使用中，较多使用基于数据的方法。基于数据的方法是指通过重采样过程，对数据集本身进行重构的一种简单有效的方式，可以使不平衡的样本分布变得比较平衡，从而提高分类器对少数类的识别率。重采样的方法主要分为增加少数类样本的数量(过采样)与减少多数类样本的数量(欠采样)两种。过采样方法是通过有放回抽样、对少数类样本进行复制、生成少数类的相似样本等方法来增加少数类样本的个数，从而达到平衡数据集的目的，包括对样本进行随机复制以及SMOTE算法等。SMOTE算法是通过插值生成新的人造样本，该算法在对少数类样本进行采样时存在一定的盲目性，所以许多学者提出了Borderline-SMOTE、ASMOTE、OSLDDSMOTE等改进方法。以上过采样方法通过复制或人工生成的方式来增加少数类样本，使得分类器过分注重这部分样本，从而导致过拟合现象。并且过采样会增加训练时间，提高计算的复杂度，这种方式不能从本质上解决少数类样本的稀缺性和数据表示的不充分性。欠采样方法是通过舍弃部分样本，减少多数类样本的个数，从而降低数据集不平衡的程度。随机欠采样可以通过减少多数类样本的数量来提高计算效率，但是具有一定的盲目性，并且会损失多数类样本的有用信息。所以欠采样方法要改进的重点是在平衡类间比例的基础上尽量保留原始数据集的有用信息。

【发明内容】

有鉴于此，本发明实施例提出了一种基于聚类的分层最近邻欠采样方法，以提高分类模型对少数类样本的识别率。

本发明实施例提出的一种基于聚类的分层最近邻欠采样方法，包括：

利用Kmeans聚类算法得到多数类样本的肘图，根据簇数与各个簇畸变程度之和的关系选择最优聚类的簇数k；

使用Kmeans聚类算法将多数类样本聚为k簇，从而得到各个簇的中心点及簇内样本点个数；

根据每个簇内样本点的数量，进行分层采样，选取每个簇中心点的最近邻与少数类样本合并作为采样结果。

上述方法中，利用Kmeans聚类算法得到多数类样本的肘图，根据簇数与各个簇畸变程度之和的关系选择最优聚类的簇数k的方法为：使用Kmeans算法对多数类样本进行聚类，计算各个簇畸变程度之和dist：

其中，k为聚类的簇数，p＝len(第clu_i簇)为第i个簇内样本点的个数，dist_ij为簇内第j个样本点x_ij与该簇中心点cen_i的欧式距离，得到聚类簇数k与对应簇畸变程度之和dist的变化关系，在k较小时，随着k值的增大，畸变程度会随之减小，每个簇内样本数量也相应减少，于是各样本会离所在簇的中心点更近，但是随着k值继续增大，畸变程度的减小速度会越来越缓慢，所以在k值增大的过程中，畸变程度减小幅度最大位置所对应的k值就是肘部，即最优聚类的簇数k。

上述方法中，使用Kmeans聚类算法将多数类样本聚为k簇，从而得到各个簇的中心点及簇内样本点个数的方法为：使用Kmeans聚类算法将多数类聚为k簇，Kmeans算法以欧氏距离作为相似测度，将样本划分为k类，采用迭代的方式，得到紧凑且独立的簇，即簇内样本具有较高的相似性，而簇间样本相似性较低，同时得到了各个簇的中心点k_centers：

k_centers＝cen_1，cen_2，…，cen_k

cen_i表示第i个簇的中心点，采用各个簇中心点作为欠采样时的中心，同时得到样本的簇标签k_clusters：

k_clusters＝clu_1，clu_2，…，clu_k

clu_i表示第i个簇的标签，利用各个簇的中心点和标签可以计算欠采样过程中各个簇的取值个数。

上述方法中，根据每个簇内样本点的数量，进行分层采样，选取每个簇中心点的最近邻与少数类样本合并作为采样结果的方法为：对于每一个聚类簇clu_i，利用分层的思想计算其在多数类样本中所占的比例p/M，根据少数类样本的数量计算每个簇内应抽取的样本数量num，如下所示：

num＝p/M*N

其中，M表示多数类样本的数量，N表示少数类样本的数量，使用kNN算法计算该簇中每个样本点x_ij与该簇中心点cen_i的欧氏距离dist_ij：

其中，n代表样本特征总数，cen_i_a为第i个簇的中心点在属性a上的取值，x_ija为该簇内第j个样本点在属性a上的取值，将样本点按照与中心点的距离进行排序，选取距离中心点的num个最近邻，作为该簇中所采的多数类样本，将所有簇中抽取的多数类样本与全部少数类样本合并，作为采样结果，即类间平衡的样本集T。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例所提出的基于聚类的分层最近邻欠采样方法的流程示意图；

图2是利用Kmeans聚类算法对KEEL上的公开数据集Yeast6进行聚类所得到的肘图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例给出基于聚类的分层最近邻欠采样方法，如图1所示，其为本发明实施例所提出的基于聚类的分层最近邻欠采样方法的流程示意图，该方法包括以下步骤：

步骤101，利用Kmeans聚类算法得到多数类样本的肘图，根据簇数与各个簇畸变程度之和的关系选择最优聚类的簇数k。

具体的，使用Kmeans算法对多数类样本进行聚类，计算各个簇畸变程度之和dist：

步骤102，使用Kmeans聚类算法将多数类样本聚为k簇，从而得到各个簇的中心点及簇内样本点个数。

具体的，使用Kmeans聚类算法将多数类聚为k簇，Kmeans算法以欧氏距离作为相似测度，将样本划分为k类，采用迭代的方式，得到紧凑且独立的簇，即簇内样本具有较高的相似性，而簇间样本相似性较低，同时得到了各个簇的中心点k_centers：

k_centers＝cen_1，cen_2，…，cen_k

k_clusters＝clu_1，clu_2，…，clu_k

步骤103，根据每个簇内样本点的数量，进行分层采样，选取每个簇中心点的最近邻与少数类样本合并作为采样结果。

具体的，对于每一个聚类簇clu_i，利用分层的思想计算其在多数类样本中所占的比例p/M，根据少数类样本的数量计算每个簇内应抽取的样本数量num，如下所示：

num＝p/M*N

算法1为本发明实施例所提出的基于聚类的分层最近邻欠采样方法的伪代码：

图2是利用Kmeans聚类算法对KEEL上的公开数据集Yeast6进行聚类所得到的肘图，根据部分实验数据的肘图选择k＝6，20，30，50进行采样。

表一是本发明实施例给出基于聚类的分层最近邻欠采样方法解决KEEL上10组公开数据集分类任务时，AUC值(受试者工作特征曲线下面积)的对比实验结果，其中，本发明实施例中对比方法是基于少数类样本数量的聚类采样算法。由表一可以得出，本发明所提出的方法在公开数据集中相比于对比方法在AUC值上平均提高了0.085。特别的，提出方法在poker-9_vs_7数据集上的提升值最高，达到0.25。本发明实施例所提出的方法能有效保留多数类样本的有用信息，所得的类间平衡数据集能有效提高后续分类算法的分类效果。

表一

综上所述，本发明实施例具有以下有益效果：

本发明实施的技术方案中，利用Kmeans聚类算法得到多数类样本的肘图，根据簇数与各个簇畸变程度之和的关系选择最优聚类的簇数k；使用Kmeans聚类算法将多数类样本聚为k簇，从而得到各个簇的中心点及簇内样本点个数；根据每个簇内样本点的数量，进行分层采样，选取每个簇中心点的最近邻与少数类样本合并作为采样结果。根据本发明实施例提供的技术方案，充分利用了多数类样本的分布特征，较好地保留了多数类样本的有用信息，且能有效提高后续分类算法的分类效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于聚类的分层最近邻欠采样方法，其特征在于，所述方法步骤包括：

(1)利用Kmeans聚类算法得到多数类样本的肘图，根据簇数与各个簇畸变程度之和的关系选择最优聚类的簇数k；

(2)使用Kmeans聚类算法将多数类样本聚为k簇，从而得到各个簇的中心点及簇内样本点个数；

(3)根据每个簇内样本点的数量，进行分层采样，选取每个簇中心点的最近邻与少数类样本合并作为采样结果。

2.根据权利要求1所述的方法，其特征在于，利用Kmeans聚类算法得到多数类样本的肘图，根据簇数与各个簇畸变程度之和的关系选择最优聚类的簇数k，具体说明如下：使用Kmeans算法对多数类样本进行聚类，计算各个簇畸变程度之和dist：

3.根据权利要求1所述的方法，其特征在于，使用Kmeans聚类算法将多数类样本聚为k簇，从而得到各个簇的中心点及簇内样本点个数，具体说明为：使用Kmeans聚类算法将多数类聚为k簇，Kmeans算法以欧氏距离作为相似测度，将样本划分为k类，采用迭代的方式，得到紧凑且独立的簇，即簇内样本具有较高的相似性，而簇间样本相似性较低，同时得到了各个簇的中心点k_centers：

k_centers＝cen_1，cen_2，…，cen_k

k_clusters＝clu_1，clu_2，…，clu_k

4.根据权利要求1所述的方法，其特征在于，根据每个簇内样本点的数量，进行分层采样，选取每个簇中心点的最近邻与少数类样本合并作为采样结果，具体说明为：对于每一个聚类簇clu_i，利用分层的思想计算其在多数类样本中所占的比例p/M，根据少数类样本的数量计算每个簇内应抽取的样本数量num，如下所示：

num＝p/M*N