CN109086412A

CN109086412A - 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法

Info

Publication number: CN109086412A
Application number: CN201810876006.3A
Authority: CN
Inventors: 高欣; 何杨; 李新鹏; 阎博; 井潇; 李军良; 徐建航
Original assignee: Beijing University of Posts and Telecommunications; Beijing Kedong Electric Power Control System Co Ltd; State Grid Jibei Electric Power Co Ltd
Current assignee: Beijing University of Posts and Telecommunications; Beijing Kedong Electric Power Control System Co Ltd; State Grid Jibei Electric Power Co Ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2018-12-25

Abstract

本发明实施例提出了一种基于自适应加权Bagging‑GBDT的不平衡数据分类方法，包括：根据k‑means算法将多数类样本聚成多个簇，对每个簇样本进行多次分层欠采样；将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集，根据这些子集训练多个预测精度较高的GBDT子分类模型；根据测试点邻域样本类别自适应地确定各子模型权重，据此通过加权硬投票方式集成最终的分类模型。本发明实施例提供的技术方案，可以有效解决正负样本不平衡的分类问题，能针对每一个数据样本实现分类模型的自适应加权集成，提高分类模型的综合指标。

Description

一种基于自适应加权Bagging-GBDT的不平衡数据分类方法

【技术领域】

本发明涉及机器学习领域分类方法，尤其涉及一种基于自适应加权Bagging-GBDT的不平衡数据分类方法。

【背景技术】

在利用机器学习方法解决分类问题时，存在正负样本数目不平衡的现象。根据合适的分类算法解决数据不平衡分类问题，以提高模型对正负样本整体的识别率，是当今研究的热点之一。解决目前对于不平衡数据的分类问题，常用技术主要分为数据层面和算法层面。数据层面主要包括重采样，重采样是一种数据预处理方法，而不是分类方法。重采样技术分为对数目较少类别的过抽样与对数目较多类别的欠抽样。过抽样中经典的方法是SMOTE算法，该算法从每个少数类样本的最近邻中随机挑选一个样本，然后在这两个样本之间的连线上随机选择一点作为新合成的少数类样本。过抽样具有的缺点是增加少数样本，可能会造成过拟合，而且样本的增加也会影响计算效率。欠抽样中主要有随机欠采样，该算法可以减少运行时间，尤其当训练数据数目很大时，可以通过减少多数类样本数量来提高模型效率。但是随机欠采样具有一定的盲目性，会导致部分多数类样本信息的丢失。算法层面主要包括代价敏感学习，该方法为少数类样本分配的错误分类代价成本高于多数类样本，优化目标是使分类器的分类结果对应总代价成本最低，如何确定合适的代价成本是这类方法需要考虑的问题，同时也是难以解决的问题。将采样技术与集成学习方法相结合也是处理不平衡数据集分类问题的有效手段，这样不仅能够充分利用采样技术平衡数据集，还可以通过集成学习得到强分类器以提高学习准确率。主要分为基于Bagging和基于Boosting的方法，前者继承bagging思想的优点，即减少了方差，但是缺点在于降低偏差方面的效果不如基于Boosting的方法，有效地组合两种方法可以提高对不平衡数据的分类效果。

【发明内容】

有鉴于此，本发明实施例提出了一种基于自适应加权Bagging-GBDT的不平衡数据分类方法，以提高分类模型对正负样本整体的识别率。

本发明实施例提出的一种基于自适应加权Bagging-GBDT的不平衡数据分类方法，包括：

根据k-means算法将多数类样本聚成多个簇，对每个簇样本进行多次分层欠采样；

将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集，根据这些子集训练多个预测精度较高的GBDT子分类模型；

根据测试点邻域样本类别自适应地确定各子模型权重，据此通过加权硬投票方式集成最终的分类模型。

上述方法中，根据k-means聚类算法对多数类样本进行多次分层欠采样，解决随机欠采样方法易丢弃潜在有用样本的问题的方法为：假定数据集中正负样本的不平衡比率为Ratio，设定聚类中心点个数k为{Ratio,3,5,10}中的某个值，训练集少数类样本总数为num，根据k-means算法将多数类训练样本聚成k簇，对每个簇根据其包含的样本总数进行分层抽样且满足抽样总数等于num，重复不放回抽样T次；

上述方法中，将每次采样后的多数类样本与全部少数类训练样本组合得到多个样本子集，根据这些子集训练多个预测精度较高的GBDT子分类模型的方法为：通过组合采样后的多数类样本与全部少数类训练样本得到T份训练集，假定表示第t份训练子集，其中，t＝1:T，(x_i,y_i)表示该子集中的第i个样本，x_i为样本输入特征，y_i为样本真实类别，y_i∈(0,1)，N为训练集样本总数，初始化对应的子模型h₀(x)，如下所示：

其中，表示当h₀(x)为最小时，叶结点输出值c的取值，L(y_i,c)表示样本i对应的损失函数，当迭代次数为m时，对中所有的训练样本(x_i,y_i)计算负梯度r_mi：

其中，m＝1:M，M为总迭代次数，δ表示求偏导，h_m-1(x_i)表示样本i在第m-1次迭代对应子模型上的预测值，根据(x_i,r_mi)拟合第m棵子树，得到该树的叶结点区R_mj，其中，j＝1,2,...,J，j代表第j个叶节点，J为叶节点总数，对j＝1,2,...,J，计算最优拟合值c_mj：

c_mj代表第m棵子树中第j个叶节点输出值，更新子模型h_m(x)：

其中，I为指示函数，若样本属于叶节点R_mj则I取值1，不属于则I为0，重复迭代，直到m＝M，得到最终子模型h_M(x)；

上述方法中，根据测试点邻域样本类别自适应地确定各子模型权重，据此通过加权硬投票方式集成最终的分类模型的方法为：当测试样本x_te进入分类模型时，计算欧氏距离dist：

其中，b代表样本特征总数，x_tea与x_tra分别为测试点与训练集内某一样本点在属性a上的取值，统计在训练样本集内最近n个邻居点少数类样本的数目count，计算少数类权重系数w₊＝count×1/n+1，多数类权重系数w-默认设置为1；分别通过各个子分类模型进行测试得到预测样本类别；根据加权投票法得到最终的分类模型H(x)：

其中，w∈(w₊,w-)，表示H(x)取最大值时测试样本对应的预测类别，h_t(x)表示第t个子模型，据此得出测试样本的实际预测类别。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例所提出的基于自适应加权Bagging-GBDT的不平衡数据分类方法的流程示意图；

图2是本发明实施例所提出的基于自适应加权Bagging-GBDT的不平衡数据分类方法模型训练阶段与测试阶段算法框架流程图；

图3是本发明实施例应用于10例公开不平衡数据集解决二分类任务时，Bagging-GBDT方法与典型不平衡分类方法ModifiedBagging的G-mean值的对比示意图，G-mean指的是多数类与少数类查全率乘积平方根；

图4是本发明实施例应用于10例公开不平衡数据集解决分类任务时，Bagging-GBDT方法与典型不平衡分类方法ModifiedBagging的F1-measure值的对比示意图，F1-measure指的是少数类查全率与查准率调和平均值。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例给出基于自适应加权Bagging-GBDT的不平衡数据分类方法，请参考图1，其为本发明实施例所提出的基于自适应加权Bagging-GBDT的不平衡数据分类方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤101，根据k-means算法将多数类样本聚成多个簇，对每个簇样本进行多次分层欠采样。

具体的，假定数据集中正负样本的不平衡比率为Ratio，设定聚类中心点个数k为{Ratio,3,5,10}中的某个值，训练集少数类样本总数为num，根据k-means算法将多数类训练样本聚成k簇，对每个簇根据其包含的样本总数进行分层抽样且满足抽样总数等于num，重复不放回抽样T次。

步骤102，将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集，根据这些子集训练多个预测精度较高的GBDT子分类模型。

具体的，通过组合采样后的多数类样本与全部少数类训练样本得到T份训练集，假定表示第t份训练子集，其中，t＝1:T，(x_i,y_i)表示该子集中的第i个样本，x_i为样本输入特征，y_i为样本真实类别，y_i∈(0,1)，N为训练集样本总数，初始化对应的子模型h₀(x)，如下所示：

c_mj代表第m棵子树中第j个叶节点输出值，更新子模型h_m(x)：

其中，I为指示函数，若样本属于叶节点R_mj则I取值1，不属于则I为0，重复迭代，直到m＝M，得到最终子模型h_M(x)。

步骤103，根据测试点邻域样本类别自适应地确定各子模型权重，据此通过加权硬投票方式集成最终的分类模型。

具体的，当测试样本x_te进入分类模型时，计算欧氏距离dist：

算法1为本发明实施例所提出的基于自适应加权Bagging-GBDT的不平衡数据分类方法的伪代码：

图2是本发明实施例所提出的基于自适应加权Bagging-GBDT的不平衡数据分类方法训练阶段与测试阶段算法框架流程图，提出的方法主要包括训练阶段与测试阶段。在训练阶段，首先将训练数据集划分为多数类与少数类，对多数类样本进行k-means聚类，得到k个样本簇。根据分层抽样法从k个样本簇中随机抽取与少数类样本相同数量的多数类样本，重复抽样T次。将T份多数类样本集分别与全部少数类样本组合得到T份训练样本子集，对全部子集进行训练建立T个GBDT分类子模型。在测试阶段，在训练集中选取离测试点最近的n个点，统计n个点中属于少数类的样本个数count，根据count计算权重系数w₊、w-，根据权重系数对各个子模型进行加权投票集成最终的分类模型。

表一是本发明实施例给出基于自适应加权Bagging-GBDT的不平衡数据分类方法解决10例公开数据集分类任务时，G-mean值(各类查全率乘积平方根)的对比实验结果，其中，本发明实施例中对比方法是典型解决不平衡分类问题的ModifiedBagging方法。由表一可以得出，本发明所提出的方法在公开数据集中相比于对比方法在G-mean值均有所提高。特别的，提出方法在糖尿病数据集上的提升值最高，达到7.94％。本发明实施例所提出的方法在不平衡数据分类整体查全率取得了一定突破。

表一

图3是本发明实施例应用于10例公开数据集解决分类任务时，与ModifiedBagging方法的G-mean值对比示意图。

表二是本发明实施例给出基于自适应加权Bagging-GBDT的不平衡数据分类方法解决10例公开数据集分类任务时，F1-measure值(少数类查全率与查准率调和平均值)的对比实验结果，其中，本发明实施例中对比方法是典型解决不平衡分类问题的ModifiedBagging方法。由表二可以得出，本发明所提出的方法在公开数据集中相比于对比方法在F1-measure值均有所提高。特别的，提出方法在心脏病数据集上的提升值最高，达到12.2％。本发明实施例所提出的方法在对少数类别样本的分类取得了一定突破。

表二

图4是本发明实施例应用于10例公开数据集解决分类任务时，与ModifiedBagging方法的F1-measure值对比示意图。

综上所述，本发明实施例具有以下有益效果：

本发明实施的技术方案中，根据k-means聚类算法对多数类样本进行多次欠采样，解决随机欠采样方法易丢弃潜在有用样本的问题；将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集，根据这些子集训练多个预测精度较高的GBDT子分类模型；根据测试点邻域样本类别自适应地确定各子模型权重，据此通过加权硬投票方式集成最终的分类模型。根据本发明实施例提供的技术方案，可以有效解决正负样本不平衡的分类问题，能针对每一个数据样本实现分类模型的自适应加权集成，提高分类模型的综合指标。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于自适应加权Bagging-GBDT的不平衡数据分类方法，其特征在于，所述方法步骤包括：

(1)根据k-means算法将多数类样本聚成多个簇，对每个簇样本进行多次分层欠采样；

(2)将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集，根据这些子集训练多个预测精度较高的GBDT子分类模型；

(3)根据测试点邻域样本类别自适应地确定各子模型权重，据此通过加权硬投票方式集成最终的分类模型。

2.根据权利要求1所述的方法，其特征在于，根据k-means算法将多数类样本聚成多个簇，对每个簇样本进行多次分层欠采样，具体说明如下：假定数据集中正负样本的不平衡比率为Ratio，设定聚类中心点个数k为{Ratio,3,5,10}中的某个值，训练集少数类样本总数为num，根据k-means算法将多数类训练样本聚成k簇，对每个簇根据其包含的样本总数进行分层抽样且满足抽样总数等于num，重复不放回抽样T次。

3.根据权利要求1所述的方法，其特征在于，将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集，根据这些子集训练多个预测精度较高的GBDT子分类模型，具体说明为：通过组合采样后的多数类样本与全部少数类训练样本得到T份训练集，假定表示第t份训练子集，其中，t＝1:T，(x_i,y_i)表示该子集中的第i个样本，x_i为样本输入特征，y_i为样本真实类别，y_i∈(0,1)，N为训练集样本总数，初始化对应的子模型h₀(x)，如下所示：

其中，argm_cin表示当h₀(x)为最小时，叶结点输出值c的取值，L(y_i,c)表示样本i对应的损失函数，当迭代次数为m时，对中所有的训练样本(x_i,y_i)计算负梯度r_mi：

c_mj代表第m棵子树中第j个叶节点输出值，更新子模型h_m(x)：

4.根据权利要求1所述的方法，其特征在于，根据测试点邻域样本类别自适应地确定各子模型权重，据此通过加权硬投票方式集成最终的分类模型，具体说明为：当测试样本x_te进入分类模型时，计算欧氏距离dist：

其中，b代表样本特征总数，x_tea与x_tra分别为测试点与训练集内某一样本点在属性a上的取值，统计在训练样本集内最近n个邻居点少数类样本的数目count，计算少数类权重系数w₊＝count×1/n+1，多数类权重系数w_-默认设置为1；分别通过各个子分类模型进行测试得到预测样本类别；根据加权投票法得到最终的分类模型H(x)：

其中，w∈(w₊,w_-)，表示H(x)取最大值时测试样本对应的预测类别，h_t(x)表示第t个子模型，据此得出测试样本的实际预测类别。