CN108460421A

CN108460421A - 不平衡数据的分类方法

Info

Publication number: CN108460421A
Application number: CN201810203520.0A
Authority: CN
Inventors: 邓晓衡; 吴佳祺; 漆华妹; 钟维坚; 陈凌驰
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2018-08-28

Abstract

本发明公开了一种不平衡数据的分类方法，包括获取需要分类的不平衡数据集；对数据样本权重进行初始化；抽取若干个样本构成代价敏感度高的样本集合并设置代价值；构成代价敏感度低的样本集合并设置代价值；采用基本分类器在样本上进行训练得到弱分类器；更新所有样本的权重值；对不平衡数据集的所有子集进行分裂和权重值更新；输出最终的集成分类器，完成不平衡数据分类。本发明提供的这种不平衡数据的分类方法提出了一种基于信息熵的子集分割方式来将多数类样本进行聚类，具有更高的分类精确度。

Description

不平衡数据的分类方法

技术领域

本发明具体涉及一种不平衡数据的分类方法。

背景技术

随着人类互联网技术的不断发展，不平衡数据处理成为了一个极具挑战性的问题。越来越多的噪声数据和复杂的数据发布存在于很多实际应用中。比如医疗诊断，文本分类以及卫星雷达对原油泄漏的检测。在这些应用中，正样本数量远小于负样本，但往往在分类中扮演重要地位。例如，在交通事故数据中，造成事故的男性驾驶员占绝大多数，而女性驾驶员的数量通常要小很多。但在分析交通事故成因时，他们占同样的重要地位。如果不平衡数据集得不到很好的处理，少数类数据很容易被忽略，甚至直接被当做噪声处理掉。

针对不平衡数据分类问题，研究者进行了大量研究，提出了许多解决方案。大致可以分为二种方法。

第一种方法是基于数据层的分类方法。基于数据层的分类方法分为欠采样和SMOTE方法。欠采样方法按照一定的抽样规则和抽样比例抽取多数类样本(负样本)，将剩余的多数类样本与少数类样本结合形成新的平衡数据集。SMOTE采用过采样方法，该方法按照一定规则人工合成一定比例的少数类样本，与多数类样本组成平衡数据集。但是欠采样方法在去掉一部分多数类样本的同时会丢失相应的样本信息，同时SMOTE方法人工合成的少数类样本也不能很好的代表其样本特征，并可能会导致过拟合。

第二种方法是代价敏感学习方法。代价敏感学习方法是基于算法层的学习方法。它主要考虑在分类中，当不同的分类错误会导致不同的惩罚力度时如何训练分类器。在不平衡数据集处理中，通过加大分类错误的少数类样本的权重增加力度，减缓分正确的少数类样本的权重减少，来提高错分的少数类样本的被识别率。但是代价敏感学习方法可能会增加一些噪声数据，并在调整样本权重时造成信息丢失。

发明内容

本发明的目的在于提供一种对于不平衡数据能够提高其分类准确率的不平衡数据的分类方法。

本发明提供的这种不平衡数据的分类方法，包括如下步骤：

S1.获取需要分类的不平衡数据集；

S2.对步骤S1获取的不平衡数据集中的数据样本权重进行初始化；

S3.从不平衡数据集的各个子集中抽取若干个样本，和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合，并设置代价敏感度高的样本集合中每一个样本的代价值；

S4.将没有被抽取的样本集构成代价敏感度低的样本集合，并设置代价敏感度低的样本集合中每一个样本的代价值；

S5.采用事先选定的弱分类算法作为基本分类器，在步骤S3和步骤S4得到的样本上进行训练，从而得到一个弱分类器；

S6.根据步骤S5得到的弱分类器，更新所有样本的权重值；

S7.对不平衡数据集的所有子集进行分裂和权重值的更新；

S8.输出最终的集成分类器，从而完成不平衡数据的分类。

步骤S2所述的对不平衡数据集中的数据样本权重进行初始化，具体为设置簇分裂的步数和簇的最大数量，并将不平衡数据集中的每一个数据样本权重值均设置为1/N，N为不平衡数据集中数据样本的个数。

步骤S3所述的抽取样本构成代价敏感度高的样本集合并设置代价值，具体为采用如下步骤构成集合并设置代价值：

(1)从各个子集中抽取若干个样本，抽取样本的数量采用如下公式计算：

式中SNC_j为抽取样本的数量，B为采样总数，w_k为第j个子集中的样本权重，C_j为第j个子集，W为不平衡数据集中的多数类样本集合的权重总和，w_i为不平衡数据集中的多数类样本集合的第i个数据样本的权重；

(2)步骤(1)中抽取的样本和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合，并设置每一个样本的代价值C_i；

步骤(1)中所述的所述的抽取若干个样本，具体为在每个子集中采用Top-k算法进行样本的抽取，选取top-k个权重最大的样本点。

步骤S5所述的得到一个弱分类器，具体为采用事先选定的弱分类算法作为基本分类器，根据步骤S3得到的代价敏感度高的样本集合S’和步骤S4得到的代价敏感度低的样本集合w’一起作为新的不平衡数据集，训练得到一个弱分类器h_t。

步骤S6所述的根据弱分类器更新所有样本的权重值，具体为采用如下步骤更新所有样本的权重值：

1)采用如下公式计算步骤S5得到的弱分类器的分类误差：

式中ε_t为分类误差，t为迭代次数，H_t(x_i)为第t次迭代基分类器对于样本x_i的分类结果，y_i为样本x_i的类别，w_ti为第t次迭代时样本x_i的权重；分类误差ε_t为被分类器错误分类的样本权重之和；I(H_t(x_i)≠y_i)的取值规则为：若H_t(x_i)≠y_i则I(H_t(x_i)≠y_i)的取值为1，否则I(H_t(x_i)≠y_i)取值为0；

2)采用如下公式计算弱分类器的权重：

式中α_t为弱分类器的权重；

3)采用如下公式更新所有样本的权重值：

式中D_t+1(i)为第i个样本在t+1时刻的权重分布，D_t(i)为第i个样本在t时刻的权重分布，α_t为弱分类器的权重，y_i为x_i的类别，h_t(x_i)为为第t次迭代基分类器对于x_i的分类结果，β_i为样本x_i代价敏感值，Z_t为归一化因子；其中，当样本被正确分类时β_i取值为β₊，样本被错误分类时β_i取值为β_-，正确分类定义为h_t(x_i)＝y_i，错误分类定义为h_t(x_i)≠y_i；β₊＝-0.5C_i+0.5，β_-＝0.5C_i+0.5，C_i为代价敏感因子，且若样本为代价敏感度高的样本则0＜C_i＜1，若样本为代价敏感度低的样本则-1＜C_i＜0。

步骤S7所述的对不平衡数据集的所有子集进行分裂和权重值的更新，具体为采用如下步骤进行分裂和更新：

A.若当前的迭代步数t对簇分裂步数step取余为0且当前子集数目NS小于所设的子集的最大数量MN时，采用如下公式计算子集的信息熵：

式中H_w为子集的信息熵，M为该子集中桶的数量，j为桶的编号且j为1～M之间的的自然数，d_j为第j号桶标签且w为样本权重，min()为取最小值函数，max()为取最大值函数，p(d_j)为第j号桶样本权重之和占子集所有样本权重之和的比例，且p(d_j)＝size(d_j)/nc，nc为该子集中所有样本的数量，size(A)表示集合A桶中样本的数量；

B.根据步骤A得到的子集的信息熵，采用如下规则对子集进行分割：

采用如下公式计算分割后子集的信息熵大小，并得到可以获得最大信息增益的集合分割点：

max(gain_j＝(info(S)-info_j))

式中H_sw(C₁,C₂)为集合划分为C₁,C₂时该集合的信息熵大小，size(A)表示集合A的样本个数，H_w(C₁)表示子集C₁的信息熵大小，H_w(C₂)表示子集C₂的信息熵大小，max()表示取最大值，info(S)表示为划分前集合信息熵大小，info_j表示以第j个桶划分时，集合信息熵H_sw(C₁,C₂)的大小；

C.若步骤B得到的集合分割点所得到的最大增益与集合信息熵的比值大于事先设定的阈值，则将该集合分割点将该子集进行分割；

D.重复步骤S4～S7直至当前的迭代步数t对簇分裂步数step取余为0且当前子集数目NS小于簇的最大数量MN。

步骤S8所述的输出最终的集成分类器并完成不平衡数据的分类，具体为采用如下步骤输出最终的集成分类器并完成分类：

a.重复步骤S5～S7，直至当前的迭代步数t大于或等于事先设定的迭代次数T；

b.采用如下公式输出最终的集成分类器：

式中H(x)为最终的集成分类器，argmax(f(x))是求取f(x)的最大值函数，h_t(x,y)为各个弱分类器，ε_t为弱分类器的分类误差；

c.采用步骤b得到的集成分类器对不平衡数据集进行分类。

本发明提供的这种不平衡数据的分类方法，提出一种基于信息熵的子集分割方式来将多数类样本进行聚类，并通过欠采样方法抽取一部分多数类样本点与少数类样本组成代价敏感度高的训练样本，采用欠采样的原因在于抽取的这一部分更能代表整体的多数类样本；在Adacost算法训练迭代过程中，考虑代价敏感不同对错误分类的样本权重进行更新，此方法的不同点在于Adacost算法中的训练数据为整体的不平衡数据集；实验结果证明，本发明方法相对于现有方法，具有更高的分类精确度。

附图说明

图1为本发明方法的方法流程图。

图2为本发明方法在22个不平衡数据集下和其他算法的AUC指标比较示意图。

具体实施方式

如图1所示为本发明方法的方法流程图：本发明提供的这种不平衡数据的分类方法，包括如下步骤：

S1.获取需要分类的不平衡数据集；

S2.对步骤S1获取的不平衡数据集中的数据样本权重进行初始化，具体为设置簇分裂的步数和簇的最大数量，并将不平衡数据集中的每一个数据样本权重值均设置为1/N，N为不平衡数据集中数据样本的个数；

S3.从不平衡数据集的各个子集中抽取若干个样本，和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合，并设置代价敏感度高的样本集合中每一个样本的代价值，具体为采用如下步骤构成集合并设置代价值：

(1)从各个子集中抽取若干个样本，即在每个子集中采用Top-k算法抽取k个权重最大样本，采用如下公式进行计算：

S5.采用事先选定的弱分类算法作为基本分类器，在步骤S3和步骤S4得到的样本上进行训练，从而得到一个弱分类器，具体为采用事先选定的弱分类算法作为基本分类器，根据步骤S3得到的代价敏感度高的样本集合S’和步骤S4得到的代价敏感度低的样本集合w’一起作为新的不平衡数据集，训练得到一个弱分类器h_t；

S6.根据步骤S5得到的弱分类器，更新所有样本的权重值，具体为采用如下步骤更新所有样本的权重值：

1)采用如下公式计算步骤S5得到的弱分类器的分类误差：

式中ε_t为分类误差，t为迭代次数，H_t(x_i)为第t次迭代基分类器对于样本x_i的分类结果，y_i为样本x_i的类别，w_ti为第t次迭代时样本x_i的权重；所以分类误差ε_t为被分类器错误分类的样本权重之和；I(H_t(x_i)≠y_i)的取值规则为：若H_t(x_i)≠y_i则I(H_t(x_i)≠y_i)的取值为1，否则I(H_t(x_i)≠y_i)取值为0，即若H_t(x_i)为第t次迭代基分类器对于样本x_i的分类结果与样本x_i的类别y_i相同，则视为分类正确，此时I(H_t(x_i)≠y_i)取值为0，若H_t(x_i)为第t次迭代基分类器对于样本x_i的分类结果与样本x_i的类别y_i不相同，则认定此时分类错误，则其相应的样本权重计入分类误差ε_t；

2)采用如下公式计算弱分类器的权重：

式中α_t为弱分类器的权重；

3)采用如下公式更新所有样本的权重值：

S7.对不平衡数据集的所有子集进行分裂和权重值的更新，具体为采用如下步骤进行分裂和更新：

A.若当前的迭代次数t对簇分裂步数step取余为0且NS(子集数目)小于子集的最大数量MN时，采用如下公式计算子集的信息熵：

式中H_w为子集的信息熵，M为子集中桶的数目，j为桶的编号且j为1～M之间的的自然数，d_j为第j号桶标签且w为样本权重，min()为取最小值函数，max()为取最大值函数，p(d_j)为第j号桶样本权重之和占子集所有样本权重之和的比例，所以p(d_j)＝size(d_j)/nc，p(d_j)＝size(d_j)/nc，nc为所有样本的数量，size(A)表示集合A中样本的数量；

max(gain_j＝(info(S)-info_j))

式中H_sw(C₁,C₂)为集合划分为C₁,C₂时，该集合的信息熵大小，size(A)表示集合A的样本个数，H_w(C₁)表示子集C₁的信息熵大小，H_w(C₂)表示子集C₂的信息熵大小，max()表示取最大值，info(S)表示为划分前集合信息熵大小，info_j表示以第j个桶划分时，集合信息熵H_sw(C₁,C₂)的大小；

D.重复步骤S4～S7直至当前的迭代次数t对簇分裂步数step取余不为0或NS(子集数目)小于簇的最大数量MN；

S8.输出最终的集成分类器，从而完成不平衡数据的分类，具体为采用如下步骤输出最终的集成分类器并完成分类：

a.重复步骤S5～S7，直至当前的迭代次数t大于或等于事先设定的迭代次数T；

b.采用如下公式输出最终的集成分类器：

式中H(x)为最终的集成分类器，argmax(f(x))是使得f(x)取最大值，h_t(x,y)为各个弱分类器，ε_t为弱分类器的分类误差；

c.采用步骤b得到的集成分类器对不平衡数据集进行分类。

如图2所示为本发明方法在22个不平衡数据集下和其他算法的AUC指标比较示意图：在该实施例中，选择22组具有不同实际应用背景的KEEL数据作为实验测试数据。所选取的数据集中，最小的多数类和少数类数量比为9.09，最大的为128。对于含有多个类别的数据，合并某些类别或只取两个类别。为了使结果更加可靠，实验对每个数据集的每次验证进行5次实验并取AUC结果的平均值。图2显示了各个对比算法和本文提出算法在22个不平衡数据集上的实验结果，其中，第一竖行是KEEL里开源的不平衡数据集名称，IR是不平衡度，CEU是基于K-means聚类和Adaboost集成算法的不平衡数据分类方法，EHCU是基于层次聚类聚类和Adaboost集成算法的不平衡数据分类方法，ECUS-Adacost为本发明的方法。

结果显示，本发明提出的算法在较多数据集上比其他算法有更好的表现，且综合平均AUC值最大。

Claims

1.一种不平衡数据的分类方法，包括如下步骤：

S1.获取需要分类的不平衡数据集；

S6.根据步骤S5得到的弱分类器，更新所有样本的权重值；

S7.对不平衡数据集的所有子集进行分裂和权重值的更新；

S8.输出最终的集成分类器，从而完成不平衡数据的分类。

2.根据权利要求1所述的不平衡数据的分类方法，其特征在于步骤S2所述的对不平衡数据集中的数据样本权重进行初始化，具体为设置簇分裂的步数和簇的最大数量，并将不平衡数据集中的每一个数据样本权重值均设置为1/N，N为不平衡数据集中数据样本的个数。

3.根据权利要求2所述的不平衡数据的分类方法，其特征在于步骤S3所述的抽取样本构成代价敏感度高的样本集合并设置代价值，具体为采用如下步骤构成集合并设置代价值：

(2)步骤(1)中抽取的样本和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合，并设置每一个样本的代价值C_i。

4.根据权利要求3所述的不平衡数据的分类方法，其特征在于步骤(1)中所述的所述的抽取若干个样本，具体为在每个子集中采用Top-k算法进行样本的抽取，选取top-k个权重最大的样本点。

5.根据权利要求4所述的不平衡数据的分类方法，其特征在于步骤S5所述的得到一个弱分类器，具体为采用事先选定的弱分类算法作为基本分类器，根据步骤S3得到的代价敏感度高的样本集合S’和步骤S4得到的代价敏感度低的样本集合w’一起作为新的不平衡数据集，训练得到一个弱分类器h_t。

6.根据权利要求5所述的不平衡数据的分类方法，其特征在于步骤S6所述的根据弱分类器更新所有样本的权重值，具体为采用如下步骤更新所有样本的权重值：

1)采用如下公式计算步骤S5得到的弱分类器的分类误差：

2)采用如下公式计算弱分类器的权重：

式中α_t为弱分类器的权重；

3)采用如下公式更新所有样本的权重值：

7.根据权利要求6所述的不平衡数据的分类方法，其特征在于步骤S7所述的对不平衡数据集的所有子集进行分裂和权重值的更新，具体为采用如下步骤进行分裂和更新：

max(gain_j＝(info(S)-info_j))

8.根据权利要求7所述的不平衡数据的分类方法，其特征在于步骤S8所述的输出最终的集成分类器并完成不平衡数据的分类，具体为采用如下步骤输出最终的集成分类器并完成分类：

b.采用如下公式输出最终的集成分类器：

c.采用步骤b得到的集成分类器对不平衡数据集进行分类。