CN106778853A

CN106778853A - 基于权重聚类和欠抽样的不平衡数据分类方法

Info

Publication number: CN106778853A
Application number: CN201611116829.3A
Authority: CN
Inventors: 邓晓衡; 钟维坚; 任炬
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2017-05-31

Abstract

不平衡数据集的分类已经成为数据挖掘中最具挑战性的问题之一。因为少数类样本数量远远少于多数类，导致少数类在传统算法的分类学习过程中存在正确率低、泛化性能不好等缺陷。算法集成已经成处理该问题的一个重要方法，其中基于随机欠抽样和基于聚类的两种集成算法能有效提高分类的性能。但是，前者容易造成信息丢失，后者计算复杂不易推广。本文提出一种基于权重聚类，融合欠抽样的改进的集成分类算法，具体为基于权重聚类和欠抽样的不平衡数据分类方法。算法根据样本权重划分簇，依据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集，并利用Adaboost算法框架对分类器进行集成，提高了分类效果。实验结果表明，该算法具有准确，简单，稳定性高的特点。

Description

基于权重聚类和欠抽样的不平衡数据分类方法

技术领域

本发明属于计算机技术领域，具体涉及到一种基于Adaboost算法的权重聚类和欠抽样的不平衡数据集分类方法。

背景技术

随着互联网技术的发展，人们获取的信息类型和数量都在快速地增加。大量的数据噪声和更加复杂的数据发布类型，会给我们的数据分析带来新的挑战。其中，不平衡数据集的分类已经成为数据挖掘中最具挑战性的问题之一，它广泛存在于医疗诊断，信用评估等领域。在不平衡数据中，多数类的样本数量远远大于少数类的数量，如果使用普通的机器学习方法和评价标准，很有可能会导致少数类被忽略，甚至直接被当做噪声处理掉。因此，普通的机器学习算法对不平衡数据集进行学习分类时往往难以取得较好的效果。

针对不平衡数据分类问题，研究者进行了大量研究，提出了许多解决方案。其中，基于数据层的方法前期对数据样本进行预处理，达到尽量平衡化数据样本的效果。如SMOTE方法，采用人工合成新样本的方式以平衡样本分布。然而，SMOTE在合成样本的过程中具有一定的盲目性，它不能对合成样本数量进行精确控制，同时也没有充分考虑到多数类近邻样本，往往导致严重的样本重叠。在这种情况下，SMOTEBoost算法将SMOTE方法数据层上的改进与集成学习相结合，在Adaboost算法每次迭代中引入合成样本，使得分类器对类别平衡关注。而RUSBoost算法则将欠抽样方法与Adaboost算法结合，在不平衡数据集中的多数类采用欠抽样的方式提取一部分样本，并与少数类样本组成样本平衡分布的训练集，从而在不平衡数据集上取得较好的泛化能力。然而RUSBoost算法在每一轮的Adaboost迭代的欠采样中，是从多数类样本随机地进行抽取，因此这种方法会造成多数类样本信息的丢失。即使通过Boosting的方法对这种丢失的信息进行一定程度上的弥补，但这弥补的程度是随机而不可定的。

在此背景下，提出基于权重聚类和欠抽样的不平衡数据分类算法。算法吸收Adaboost算法修改权重的方法，在训练的进行过程中，依据权重将多数类样本集合分为有序且相关性较小的子集，再从子集中进行抽样和少数类组成训练集合用于分类器算法训练。通过这样的方式，在不过分提高计算开销的情况下，优化了随机欠采样，提高了分类准确率。

发明内容

本发明提出基一种于权重聚类和欠抽样的不平衡数据分类算法。由于传统聚类算法处理在算法完成后便将子集固定了下来，它对多数类数据集有序程度的规划很可能不是最优的，不能满足集成算法的动态要求。而且，聚类算法往往要对数据集中的所有样本进行迭代的距离计算，这会带来非常大的计算开销。其次，传统的欠抽样方法没有考虑不平衡数据不同分布情况对抽样效果的影响。因此本发明的方法在聚类方式和前抽样方式上对传统的方法进行改进，在Adaboost算法的迭代过程中对簇根据样本权重方差对簇进行分割，达到自动聚类的效果，再从子集中依据样本权重进行抽样和少数类组成训练集合用于分类器算法训练。通过这样的方式，在不过分提高计算开销的情况下，优化了随机欠采样，提高了分类准确率。

为了达到以上目的，本发明在Adaboost算法模型的基础上，依据样本权重方差，在算法的每轮迭代过程中对簇进行分裂，从而将多数类样本划分为几个特定的簇，再从每个簇中抽取合适地样本组成平衡分布的训练集。算法具体实现步骤如下：

步骤1：建立Adaboost算法模型

Adaboost算法是一种典型的集成学习方法，可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值，算法迭代若干轮得到若干弱分类器；对于训练错误的样本，算法增加其权值，也就是让后续弱分类器更关注这类较难分类正确的样本。对于训练正确的样本，算法减小其权值，以降低下一轮被弱分类器选中的机会；最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下：

步骤1.1：给定训练集S＝{(x₁，y₁)，(x₂，y₂)，…，(x_n，y_n)}和预定的迭代次数T，w^t(i)表示第t轮迭代中样本xi的权值，初始t＝1。

步骤1.2：初始化样本权重：

w^t(i)＝1/n，i＝1,2,…,n

步骤1.3：使用弱分类算法在带权样本上训练得到弱分类器h_t，并更新训练样本权重并对样本权重进行归一化，公式如下：

其中ε_t为当前样本分布上的加权错误率，计算公式如下：

若t<T,令t＝t+1并重复步骤c；

步骤1.4：输出强分类器：

步骤2：基于权重方差的子集分割方法在Adaboost算法中，当h(x_i)表示一个弱分类器，w表示样本权重，y表示样本类别时，其方式如下：

通过在每轮迭代中对权重进行修正后，较难分类正确的样本往往有比较高的样本权重，而较容易分类正确的样本权重往往比较低。定义集合的权重方差WVar，当有集合C，C中样本数量为NC,集合中样本权重为w时，权重方差公式如下：

利用权重方差，可以将样本有序性进行评估。同类且性质接近的样本拥有近似的权重，当一个集合中的样本权重近似时，集合拥有较小的权重方差值。因此将C分割为两个子集C₁、C₂，定义子集方差和：

其中size表示集合中样本的数量，当两个子集C₁、C₂的样本权重比原集合C有序时，则其子集方差和较小。当集合C中样本数量为NC时，可能的子集分割情况的数量为NC-1，选取子集方差和最小的分割最为子集的分割，当输入一个带分裂簇C时，NC为C中样本的个数，w_k为C中样本的权重,k＝1,2…NC。在计算C中权重方差后，对C中的样本依据权重大小进行排序，对集合中的样本的进行从左到右的遍历，每次计算左右两个集合样本权重的最小方差和。

wsvar_min＝min_0<j<J{wsvar(P₁,P₂)}

计算所有可能分割的子集方差和后，选取其中子集方差和最小的情况，将原簇分割为两个子簇。

步骤3：融合权重聚类和Adaboost集成学习算法模型，已知有输入训练集S＝{x_i,y_i},i＝1,2…N；其中少数类集合为S⁺，多数类集合为S^-；S⁺,S^-∈S；C_j是S^-中的一个簇，初始C₁＝S^-；J为簇的数量；WeakLearn表示弱学习算法，则融合权重聚类和Adaboost集成学习算法模型具体步骤如下：

步骤3.1：已知有输入训练集S＝{x_i,y_i},i＝1,2…N；其中少数类集合为S⁺，多数类集合为S^-；S⁺,S^-∈S；C_j是S^-中的一个簇，初始C₁＝S^-；J为簇的数量，首先初始化所有样本的样本权重，公式如下：

步骤3.2：使样本集合中的多数类集合为初始第一个簇，即C₁＝S^-

步骤3.3：从各个簇中抽取一定数量的样本构成有代表性的训练数据集，确定每个簇的样本抽取数量。当w_k是第j个簇中样本的权重，N为少数类样本的数量，那么第j的簇C_j的抽样数量SNC_j为：

之后对每个簇采用TOP-K的方式，从没个簇C_j中随机抽取SNC_j个样本，并与所有的少数类样本组成临时训练集S′，训练集中的样本权重为w′。

步骤3.4：使用弱学习算法，根据S′以及w′训练一个分类器h(t)←I(S′)，并计算分类误差，分类误差计算公式如下：

由分类误差计算β＝ε_t/(1-ε_t)，并更新所有的样本权重，公式如下：

步骤3.5：对循环次数t，计算t％step，当t％step＝＝0and NS<MN时，对所有簇进行步骤2所示的分裂操作。

步骤3.6：若t<T，令t＝t+1，并重复步骤g，否则输出最终的集成分类器H(x)：

与现有技术相比，本发明分析方法的优点是：基于欠抽样和Boosting集成学习方法，，提出一种新聚类模型，在Adaboost算法迭代过程中，通过样本权重方差综合考虑多数类样本对分类训练的重要性，并通过TOP-K的方法将有代表性的样本抽取出来组成平衡分布的训练集。实际仿真结果和理论模型分析基本相一致，证实了本方法的正确性。另外，从不同数据分布的不平衡数据集的实验分析结果和仿真结果可以看出，在各种不平衡数据集分布情况下，该发明的方法都能很好地对有代表性的多数类样本进行聚类。在样本重叠严重的情况下情况下，该方法明显优于层次聚类方法。而在少数类子集分离的情况下，相比层次聚类方法，该方法能在较少复杂度的情况下取得较好的效果。因此，本发明的方法在聚类过程中能取得更好的聚类效果，相比传统方法也能取得更高的分类精确度。

附图说明

图1是本发明提出的基于权重聚类和欠抽样的不平衡数据分类方法的流程图；

图2是人工生成的三种不同数据分布情况下的二维数据图；

图3是本发明提出权重聚类方法和K-Mean聚类、层次聚类方法在普通不平衡二维数据上的聚类结果对比图；

图4是本发明提出方法和K-Mean聚类、层次聚类方法在少数类和多数类样本严重重叠数据上的聚类结果对比图；

图5是本发明提出方法和K-Mean聚类、层次聚类方法在不平衡数据中少数类子集分离情况下的聚类结果对比图；

图6是本发明提出方法和随机权重欠抽样方法、最邻近欠抽样方法在普通不平衡二维数据上的欠抽样效果对比图；

图7是本发明提出方法和随机权重欠抽样方法、最邻近欠抽样方法在少数类和多数类样本严重重叠数据上的欠抽样效果对比图；

图8是本发明提出方法和随机权重欠抽样方法、最邻近欠抽样方法在不平衡数据中少数类子集分离情况下的欠抽样效果对比图。

具体实施方法

为了更加详细的描述本发明提出的一种基于权重聚类和欠抽样的不平衡数据分类方法,下面将结合附图和仿真实验对本发明作进一步的详细说明。

本发明在Adaboost集成学习模型的基础上，通过样本权重方差对多数类样本簇进行分裂，达到聚类的效果。在前抽样阶段中，从每个簇中抽取最具代表性的多数类样本，与少数类样本组成平衡分布的数据集供Adaboost算法进行训练，最终输出集成的强分类器H(x)。

具体方法包括以下步骤：

步骤1、已知有输入训练集S＝{x_i,y_i},i＝1,2…N；其中少数类集合为S⁺，多数类集合为S^-；S⁺,S^-∈S；C_j是S^-中的一个簇，初始C₁＝S^-；J为簇的数量，初始J＝1；WeakLearn表示弱学习算法，本例中采用CART算法为弱学习算法，供Adaboost用作基分类器训练用。

步骤2、设定簇分裂步数Step＝5,簇的最大数量MN，通常MN＝size(S^-)/size(S⁺)。

步骤3、对所有的样本权重进行归一化：

步骤4：确定每个簇的样本抽取数量SNC_j。当w_k是第j个簇中样本的权重，N为少数类样本的数量，那么第j的簇C_j的抽样数量SNC_j为：

步骤5：每个簇采用TOP-K的方式，从每个簇C_j中抽取权重最大的SNC_j个样本，并与所有的少数类样本组成临时训练集S′，训练集中的样本权重为w′。

步骤6：使用CART算法为基分类器，根据S′以及w′训练一个分类器h(t)←I(S′)，并计算分类误差ε_t，分类误差计算公式如下：

步骤7：由分类误差计算β＝ε_t/(1-ε_t)，并更新所有的样本权重，公式如下：

步骤8：对循环次数t，计算t％step，当t％step＝＝0and NS<MN时，对所有簇进行分裂操作。当簇为C，C中样本数量为NC,集合中样本权重为w时，计算器权重方差，公式如下：

wsvar_min＝min_0<j<J{wsvar(P₁,P₂)}

步骤9：若t<T，令t＝t+1，并回到步骤4，否则输出最终的集成分类器H(x)：

本发明提出的方法可分为三个部分：1)对多数类的聚类，2)从多数类簇中进行欠抽样，3)训练集成分类器。当少数类样本数量为Np，多数类样本数量为Nn，则本发明提出的方法在三个部分的时间复杂度分别是O(Nn log(Nn)t),O(Np log Nn),and O(tB)，其中t,d,和B分别代表聚类用的迭代次数，样本的特征个数和基分类器的时间复杂度。与本方法相比，K-Means聚类方法和层次聚类方法的时间复杂度为O(Ntd)和O(N ²d logN)，其中N＝Nn+Np。因此，本发明提出的方法在时间复杂度上接近K-Means算法并远远小于层次聚类算法。

实施例1：

在该实施中，使用的数据为人工生成的1000条二维数据，多数类与少数类的比例为9:1。其中图2(a)为多数类和少数类边界较为明显的普通不平衡数据。图2(b)为多数类与少数类重叠的数据。图2(c)显示了少数类子集分离情况的不平衡数据。其中‘x’表示该点为多数类样本，‘o’表示该点为少数类样本。表1展示了实验对比所采用的算法，本实施在这三种分布的不平衡数据情况下，将本发明提出的基于样本权重方差聚类方法与K-Means(CEU)和层次聚类方法做聚类(EHCU)效果对比实验，实验中相同灰度的样本点表示同一簇的样本。在聚类的基础上，本实施将发明的欠抽样方法与传统基于权重随机欠抽样(CEU)、最邻近抽样方法(EHCU)进行抽样效果对比实验。

表1实验对比算法

图3-5分别显示了三种算法在三个人工生成数据集上的聚类结果，其中(a)图为本发明提出方法的聚类；(b)为K-Means聚类结果图；(c)为层次聚类结果图。由图3可知，当样本类别重叠不严重时，本发明的方法和层次聚类方法能分辨与少数类样本接触较多的多数类样本，并能很好地将少量与少数类重叠的多数类样本分为单独的几个簇。由图4可知，当数据重叠程度较高时，K-Means聚类和层次聚类不能取得较好的聚类效果，而本发明的方法能够识别重叠部分的多数类样本，并将其与其他样本区分。由图5可知，当少数类子集分离时，本发明提出的方法能够关注子集间的多数类样本。而K-Means聚类更趋向与样本的空间分布，将少数类与相近的多数类分为同一簇，其效果并不理想。

图6-8分别显示了三种算法在三个人工生成数据集上的欠抽样效果，其中(a)图为本发明提出方法的欠抽样效果图；(b)为基于权重随机欠抽样(CEU)效果图；(c)为最邻近抽样方法(EHCU)效果图。由图6可知，当样本类别重叠不严重时，本发明提出的方法能够较好地识别类别边界。由图7可知，当样本重叠严重时，基于基于K-Means聚类的随机权重抽样和基于层次聚类的最邻近抽样并不能取得太好的效果，且不能对重叠噪声进行控制。由图8可知，当少数类样本子集分离是，本发明的方法相比K-Means聚类的随机权重抽样能取得更好的效果。

实施例2：

在该实施中，选择22组具有不同实际应用背景的KEEL数据作为实验测试数据。所选取的数据集中，最小的多数类和少数类数量比为9.09，最大的为128。对于含有多个类别的数据，合并某些类别或只取两个类别。实验结果如表2所示。为了使结果更加可靠，实验对每个数据集的每次验证进行5次实验并取AUC结果的平均值。表2显示了各个对比算法和本文提出算法在22个不平衡数据集上的实验结果。

表2AUC指标实验结果

结果显示，本发明提出的算法在较多数据集上比其他算法有更好的表现，且综合平均AUC值最大。与表现第二好的算法相比，算法平均提升2％。因此，与其它算法相比，本文提出的算法在分类性能上有较好的提升。

Claims

1.一种基于权重聚类和欠抽样的不平衡数据分类方法，其特征在于包括以下步骤：

步骤1：建立Adaboost集成算法模型

Adaboost算法是一种典型的集成学习方法，可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值，算法迭代若干轮得到若干弱分类器；对于训练错误的样本，算法增加其权值，也就是让后续弱分类器更关注这类更难分类正确的样本。对于训练正确的样本，算法减小其权值，以降低下一轮被弱分类器选中的机会；最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下：

步骤1.1：给定训练集S＝{(x₁，y₁)，(x₂，y₂)，…，(x_n，y_n)}和预定的迭代次数T，w^t(i)表示第t轮迭代中样本x_i的权值，初始t＝1。

步骤1.2：初始化样本权重：

w^t(i)＝1/n，i＝1,2,…,n

w^{t + 1} (i) = w^{t} (i) \times \frac{1 - {ϵ_{t}}^{\frac{1}{2} \times | h t (x_{i}) - y_{i} |}}{ϵ_{t}}

w^{t + 1} (i) w^{t} (i) / Σ_{i = 1}^{n} w^{t} (i)

其中ε_t为当前样本分布上的加权错误率，计算公式如下：

ϵ_{t} = \underset{{jy}_{i} &NotEqual; y_{j i}}{Σ} (1 - h_{t} (x_{i}, y_{i}) + h_{t} (x_{i}, y))

若t<T，令t＝t+1并重复步骤c，否则，输出集成分类器H(x)：

H (x) = argmax Σ_{t = 1}^{T} h_{t} (x, y) l o g (\frac{1 - ϵ_{t}}{ϵ_{t}})

步骤2：建立基于权重方差的子集分割方法

在Adaboost算法中，当h(x_i)表示一个弱分类器，w表示样本权重，y表示样本类别时，其方式如下：

w_{h (x_{i}) &NotEqual; y_{i}} = w_{h (x_{i}) &NotEqual; y_{i}} \times \frac{1 - ϵ}{ϵ}, &Element; = \underset{h (x_{i}) &NotEqual; y_{i}}{Σ} w_{h (x_{i}) &NotEqual; y_{i}}

通过在每轮迭代中对权重进行修正后，较难分类正确的样本往往有比较高的样本权重，而较容易分类正确的样本权重往往比较低。定义集合的权重方差WVar，当有集合C，C中样本数量为NC,集合中样本权重为w时，权重方差公式如下

w var (C) = Σ_{i = 0}^{N C} {(w_{k} - \frac{Σ_{k = 0}^{N C} w_{k}}{N C})}^{2} / N C

w s var (C_{1}, C_{2}) = \frac{s i z e (C_{1})}{s i z e (C)} \times w var (C_{1}) + \frac{s i z e (C_{2})}{s i z e (C)} \times w var (C_{2})

其中size表示集合中样本的数量，当两个子集C₁、C₂的样本权重比原集合C有序时，则其子集方差和较小。当集合C中样本数量为I时，可能的子集分割情况的数量为I-1，选取子集方差和最小的分割最为子集的分割，当输入一个带分裂簇C时，NC为C重样本的个数，w_k为C中样本的权重，k＝1,2…NC，在计算C中权重方差wvar_s＝wvar(C)后，对C中的样本依据权重大小进行排序，对集合中的样本的进行从左到右的遍历，每次计算左右两个集合样本权重的最小方差和

wsvar_min＝min_0<j<J{wsvar(C₁,C₂)}

步骤3：建立融合权重聚类和Adaboost集成学习算法模型，已知有输入训练集S＝{x_i,y_i},i＝1,2…N；其中少数类集合为S⁺，多数类集合为S^-；S⁺，S^-∈S；C_j是S^-中的一个簇，J为簇的数量；WeakLearn表示若学习算法，则融合权重聚类和Adaboost集成学习算法模型具体步骤如下：

步骤3.1：初始化所有样本的样本权重，公式如下：

w_{i}^{1} = 1 / N

W = Σ_{i = 1}^{N} w_{i}, {SNC}_{j} = \underset{w_{k} &Element; C_{j}}{Σ} w_{k} / W

步骤3.4：对每个簇采用TOP-K的方式，从每个簇C_j中随机抽取SNC_j个样本，并与所有的少数类样本组成临时训练集S′，训练集中的样本权重为w′。

步骤d)、使用弱学习算法，根据S′以及w′训练一个分类器h(t)←I(S′)，并计算分类误差，分类误差计算公式如下：

h (t) : ϵ_{t} = \underset{{jy}_{i} &NotEqual; y_{j i}}{Σ} (1 - h_{t} (x_{i}, y_{i}) + h_{t} (x_{i}, y))

w_{i}^{t + 1} = w_{i}^{t} β_{t}^{1 - [[h_{t} (x_{i}) &NotEqual; y_{i}]]}

步骤3.5：对循环次数t，计算t％step，当t％step＝＝0且NS<MN时，对所有簇进行步骤2所示的分裂操作。

步骤:3.6：若t<T，令t＝t+1，并重复步骤g)，否则输出强分类器H(x)：

H (x) = argmax Σ_{t = 1}^{T} h_{t} (x, y) \log (\frac{1 - ϵ_{t}}{ϵ_{t}})