CN107886135A

CN107886135A - 一种处理不平衡大数据的并行随机森林算法

Info

Publication number: CN107886135A
Application number: CN201711248656.5A
Authority: CN
Inventors: 秦静
Original assignee: Jiangsu Lsyw Polytron Technologies Inc
Current assignee: Jiangsu Lsyw Polytron Technologies Inc
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2018-04-06

Abstract

本发明公开了一种处理不平衡大数据的并行随机森林算法，属于不平衡大数据分类领域。为了解决基于MapReduce机制的并行随机森林算法对不平衡数据分类效率低的问题，本发明提出了融合分层自助抽样和敏感代价思想的并行随机森林方法（SBWMR_RF），首先对每个分块数据集的正类和负类分别进行自助抽样，保证随机性的同时增加正类的信息量，其次动态计算每个分块的代价敏感矩阵，将敏感代价用于基分类器构建的核心步骤。本发明从调整数据分布和调节算法两个方面对不平衡大数据分而治之，弱化了数据偏置的影响，提高了对不平衡大数据的分类准确率，在极不平衡环境下优势明显。

Description

一种处理不平衡大数据的并行随机森林算法

技术领域

本发明涉及一种处理不平衡大数据的并行随机森林算法。属于机器学习中的分类技术，涉及不平衡大数据分类方法。

背景技术

处理大数据的技术重点是实现快速、可伸缩的并行化分析处理。Hardtop作为主流的框架，利用了“分而治之”的朴素思想为大数据处理整合了分布式文件系统HDFS、分布式计算框架Map Reduce、非关系数据库HBASE等，能很好的存储、管理、挖掘“大数据”的任务。大数据和大数据分析处理技术相互促进。基于Map Reduce的并行随机森林算法Map ReduceRandom Forest，以下简称MR_RF，作为集成分类的一种，因为在处理分类和回归问题上简单高效，又兼具良好的并行性，给源源不断的大数据分类处理提供了新思路。

值得注意的是，在大数据环境下虽然我们有大量样本，但其中对我们有用的观测样本往往很有限，而这小部分数据又“物以稀为贵”，表现出数量和价值上的不平衡性。传统的分类算法都以均衡样本为前提，在面对不平衡数据集分类任务时往往泛化性能不高。

目前，集成分类处理不平衡数据有2个层面的改进。从数据层面出发的改进，主要是获得大致平衡数据子集如OverBagging、UnderBagging、easyEnsemble等；从算法层面出发的改进，主要体现在重构训练集的同时，引入敏感代价因子，设计敏感代价基分类器。

MR_RF在处理不平衡数据分类问题时，由于正类样本密度过低且基分类器又建立在每个分块的抽样数据上，使得数据偏置影响加深；其次MR_RF在构建树时采用全局最小gini值作为选择分裂点的标准，易忽略正类，有将正类分为负类的趋势，分类效率降低。因此本发明提出一个结合分层自助抽样和敏感代价的并行随机森林算法，以下简称SBWMR_RF算法。

发明内容

本发明SBWMR_RF算法，意在设计出一种符合实际大数据分类应用环境的并行随机森林算法，为了有效提高对常见的不平衡大数据分类问题的效率，本发明提出融合分层自助抽样方法和敏感代价思想的并行随机森林算法，结合MapReduce，从调整数据分布和调节算法两个方面对不平衡大数据分而治之。首先对每个分块数据集的正类和负类分别进行自助抽样，保证随机性的同时增加正类的信息量。其次动态计算每个分块的代价敏感矩阵，将敏感代价用于基分类器构建的核心步骤，如计算最优分割点，叶子节点所属类别，预测时加权投票等，并行构建敏感代价的决策树，最后把模型用于大数据分类。

1.分层自助抽样

在不平衡的数据环境下，有很大的可能性自助抽样后的数据全是来自负类，所以本发明利用分层自助抽样，对正类和负类每一层分别有放回的随机抽样，抽样次数和各层样本大小相同，各层的自助抽样集组合成最后的抽样集，确保有一定的正类出现在抽样集中。

2.敏感代价方法

除了增加对正类的抽样概率，本发明还修改算法在数据集上的偏置，改善由于全局搜索策略而导致正类被误分的问题。所以本发明引入敏感代价学习方法。（1）重构训练集。不改变已有算法，但根据样本的不同错分代价给每一个样本赋一个权值，接着按不同权重对原始样本集进行重新统计。（2）引入敏感代价因子设计出敏感代价的决策树算法。通常对小样本赋予较高的代价，大样本赋予较小的代价，期望以此来平衡样本之间的数目差异。其关键步骤是获取代价敏感矩阵。记正类被误分代价为C(+,-)，相对的负类被误分代价C(-,+),满足。本发明采用动态的分块代价敏感矩阵而代替固定的全局代价敏感矩阵，考虑分块对数据偏置加深的影响，从而达到理论上的平衡效果。动态计算每一个分块的代价敏感矩阵设置，见公式（1）。

（1）

将每个类别的不同误分代价引入到CART树的构建中。

1）在构建计算树的计算最佳分裂点时加入敏感代价信息，见公式(2)。

（2）

表示在分割点A的条件下，集合的纯度。D₁和D₂是按照是否是A值将集合D分成的两部分。其中，，D_k是D中属于第k类的样本子集，C_k是第k类的误分代价，K是类的个数。

2）构建的CART树是无限伸展的，直到分支上的数据少于一定数量或者数据全属于一类数据就停止生长。此时计算分支末端叶子节点所属哪个类别I，见公式（3）。

（3）

表示叶子节点所属类别。

3）计算叶子节点的权值w，见公式(4)，用于分类预测阶段的加权投票。

（4）

表示实例的代价和与实例个数总和的比值。

附图说明

附图1：SBWMR_RF算法并行构建的流程图。

附图2：SBWMR_RF算法并行分类的流程图。

具体实施方案

本发明设计出的一种大数据环境下有效处理不平衡数据分类问题的并行随机森林算法。具体过程分为模型构建和分类预测两个部分，具体将结合图1，图2流程图说明如下：

SBWMR_RF算法在模型构建时，多个分块并行处理。首先利用Hardtop平台，将数据分块并发送到不同的数据节点上，然后计算每个分块的代价矩阵，见公式(1)，C(-,+)用动态的局部不平衡指数，避免分块加深不平衡性。数据键值对<key,value>做为输入，key为编码一个实例的二进制流，value是每个实例的具体数据。对各个分块数据进行分层自助抽样，然后组成最后的抽样数据集{sd_1, sd_2, …sd_k,}，构建代价敏感CART树。输出键值对<key’,value’>，key’由树id和分块id组成，value’是一个基分类器。汇总各棵树形成SBWMR_RF算法模型WH{wh_1, wh_2, …wh_k,}。

将SBWMR_RF算法用于分类预测时，首先对测试集分成几个互相独立的子集并分发到不同的数据节点。每个分块输入数据键值对<key,value>，key为编码实例的二进制流，value是实例的具体数据。遍历所有树，采用加权投票的方式，见公式(4)，取得最终的预测结果。输出键值对<key’,value’>，key’是实例的实际类别，value’是一个实例的预测类别。多个分块并行处理，将结果汇聚。计算GMean指标值。

算法模型在搭建的Hadoop平台为4台集群节点上实验，集群由1000M宽带互联。配置均为CPU：Deon L5639的、内存：4G、缓存：12M、硬盘：200G、Hadoop版本：Hadoop 2.0.0 CDH4.5、OS版本:Centos 7.0、Mahout版本:Mahout 0.7 CDH 4.5。

选取的数据集为kdd Cup 1999和the Record Linkage Comparison Patterns(RLCP)。同时本发明，将kdd Cup 1999这个多分类数据集按照不同类别形成不平衡二元分类大数据集，从上至下数据量依次增大具体信息见表1。

表1 不平衡数据集

其中NIns表示实例的数量、NAttr表示属性的数量、Class(n:p)表示负类与正类的数量、IR是负类与正类数量的比值，其表示全局不平衡指数。

对于不平衡数据集分类效果的评价，精度不适用，因为正类比例不足1%的情况下，即使正类全被分为负类，精度依旧可以达到99%，但这样的分类器是没有实际意义的。为此本发明采用常用的G-mean（简称GM）标准作为评价指标。由混淆矩阵而来，具体见表2。其中，TP表示正类样本判为正类的数目、TN表示负类样本判为负类的数目、FN与FP分别表示判断错误实际为正类和负类的样本。

表2 混淆矩阵

分类	预测正类	预测负类
			实际正类	TP	FN
实际负类	FP	TN

GM值表示的是正类召回率和负类召回率的几何平均值。(+)表示越大越好。其定义如下：

（6）

即只有对负类和正类的召回率同时都高的情况下，GM的值才最大。

表3是两种算法在不同数据集上的GM值。从表中可以看出以下结论。

第一：绝大多数数据集的训练数据集和测试数据集的GM值都没有很大差距，说明SBWMR_RF算法没有出现过拟合。第二：分析不平衡程度极高的数据集如kddDOS_VS_U2R，kddnormal_VS_U2R两个数据集，SBWMR_RF算法准确率在较MR_RF有明显提高，说明SBWMR_RF算法在极不平衡数据集下优势明显。综合考虑8个数据集，SBWMR_RF算法分类性能稳定，效率较高，由于分层自助抽样和加权建树使得它在极不平衡的数据集下分类优势明显。

表3 SBWMRR_RF和MR_RF在8个数据集上

G-mean值对比表

相对于现有的技术，本发明的实施例产生的有益效果在于：本发明实施例将分层自助抽样方法和敏感代价思想引入到MR_RF中，利用分层自助抽样方法增大对少数类的抽样数量，提高基分类器的精度；同时考虑正负类不同的误分代价，动态计算每个分块的代价敏感矩阵，并将其引入到构建基分类器的关键步骤，从算法层面进一步弱化数据偏置的影响，提高了对不平衡大数据的分类准确率，没有出现过拟合现象，在极不平衡环境下优势明显。

Claims

1.一种处理不平衡大数据的并行随机森林算法(SBWMR_RF算法)，其特征在于：在分块数据上，动态计算分块数据的代价敏感矩阵；对每个分块数据进行分层自助抽样，得到的自助抽样子集用于敏感代价CART树的构建，过程中将敏感代价应用到最优分割点选择，叶子节点类别计算，叶子节点投票权重计算三个环节；多个基分类器并行构建，组合成森林，对源源不断的数据进行加权分类。

2.根据权利要求1所述的一种处理不平衡大数据的并行随机森林方法，其特征在于：利用Hadoop平台，将数据按照特定大小分块，动态计算每个分块数据的代价敏感矩阵，本发明对正类样本赋予较高的代价，负类样本赋予较小的代价，记C(+,-)为正类被误分的代价，则负类被误分代价为C(-,+)，满足，动态计算每一个分块的代价敏感矩阵设置，其中k为分块的计数变量。

3.根据权利要求1所述的一种处理不平衡大数据的并行随机森林方法，利用分层自助抽样得到抽样子集，其特征在于：在不平衡数据集的二元分类中，对于正类，负类两层数据分别有放回的随机抽样，抽取次数和类大小一样，组合各层自助抽样数据形成最终的分层自助抽样集，确保随机性的同时又有一定的正类出现在抽样集中。

4.根据权利要求1所述的一种处理不平衡大数据的并行随机森林方法，其特征在于：在分层抽样数据集上构建敏感代价的CART树，将敏感代价应用于计算树的最佳分裂点上，从随机选择的少量属性中，利用加权Gini不纯度计算使得当前纯度变化最大的分裂点，构建的CART树是无限伸展的，直到分支上的数据少于一定数量或者数据全属于一类就停止生长，计算分支末端叶子节点所属哪个类别，此时同样引入敏感代价，取叶子节点中加权类别数目最多的类别作为叶子节点的代表类。

5.根据权利要求1所述的一种处理不平衡大数据的并行随机森林方法，其特征在于：把模型用于新数据加权预测，叶子节点权重取实例的代价总和与实例个数总和的比值，对于每块数据的每一条实例，都需要遍历森林中的所有树，得到每棵树的加权投票结果，最终取结果的众数作为实例的分类值。