CN112836735A

CN112836735A - 一种优化的随机森林处理不平衡数据集的方法

Info

Publication number: CN112836735A
Application number: CN202110110757.6A
Authority: CN
Inventors: 卢宇彤; 邓雷
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-25
Anticipated expiration: 2041-01-27
Also published as: CN112836735B

Abstract

本发明公开了一种优化的随机森林处理不平衡数据集的方法，所述方法包括数据预处理、随机森林模型的构建和分类预测，其中，所述数据预处理部分将找出少数类样本最近邻的k个多数类样本，组成难区分的区域，将这个区域的样本在原始数据集中进行重标签，且在难区分的区域进行少数类样本的生成，将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出；所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集，得到两个随机森林模型，所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证，最后获得样本的分类预测结果。本发明达到对少数类预测性能提升的同时，对多数类的预测正确率不会下降严重的目的。

Description

一种优化的随机森林处理不平衡数据集的方法

技术领域

本发明属于数据分析、挖掘和机器学习技术领域技术领域，特别涉及一种优化的随机森林处理不平衡数据集的方法。

技术背景

随着大数据时代的到来，数据挖掘成为越来越重要的技术，而分类是数据挖掘中最常见的任务，利用分类算法挖掘数据的潜在信息，有利于对问题提供有效的预测。在现实中的分类场景往往存在许多数据集分布不均衡的情况，而针对不同的问题，不同的分类有着不同的重视程度。一般的分类算法追求提升数据集整体的分类准确率，导致对少数类样本的预测分类准确率远低于对多数类样本的预测分类准确率，即将少数类样本错分为多数类从而偏向于多数类，而在一些领域，少数类样本的分类信息有着更重要的价值。

随机森林算法是一种机器学习的集成算法，利用Bootstrap随机重采样技术和随机特征选择技术构建多棵决策树，通过投票得到分类结果。该算法解决了单棵决策树容易过拟合的缺点，并且随机森林有着良好的鲁棒性及泛化能力，是一种优秀的分类算法。但随机森林处理不均衡数据集也有着一样的缺陷，即更偏向于提高整体的准确率而导致少数类样本的分类性能下降。

为了解决随机森林处理不均衡数据集时对少数类样本的性能较差的问题，如今有着许多的改进方法被提出和使用。

一、在数据处理层面上有过采样和欠采样方法。过采样方法是利用如smote算法等数据合成算法对少数类样本进行合成，从而增加少数类样本的数量达到减少数据集不均衡的程度。欠采样方法是通过减少多数类样本从而减少数据集不均衡的程度。然后利用随机森林对处理后的数据进行训练和预测。

二、ENN算法，通过找出一些多数类样本，假如这些多数类的样本的三个最近邻样本属于少数类，则将这部分多数类样本从原始数据集中移除，达到数据清洗以及数据平衡化的效果，从而利用随机森林对处理后的数据集进行训练和预测，提升对少数类样本的分类正确率。

三、有偏向的随机森林算法。该算法同时在数据处理以及算法层面进行优化，首先将数据集分成多数类样本集和主要关注的少数类样本集，通过k近邻算法找出少数类样本集中每个样本的最近邻的k个多数类样本组成第二个数据集，分别在原始数据集以及新产生的第二个数据集上构建两批随机森林，由于第二个数据集是有少数类样本及其最近邻的多数类样本组成，数据集的不均衡程度较低，构建出来的树对少数类有更好的识别能力。这样一来通过控制在两个数据集上生成的树的数量可以分别识别多数类和少数类，很好的提升分类性能。

上述现有技术仍然存在缺陷：

数据处理层面的缺点有：过采样技术由于未对少数类样本进行分析，直接产生相似的少数类样本容易造成产生冗余样本从而导致模型过拟合。欠采样技术由于减少了多数类样本以达到降低数据集不均衡率的程度，造成多数类类的信息丢失，降低了多数类的分类正确率。

ENN算法的缺点是，该算法即使移除了一些多数类样本，但是数据集的分布可能仍具有较大的不均衡率，并且由于删掉了部分多数类样本，会导致多数类的分类正确率下降。

目前效果最好的有偏向的随机森林算法虽然通过找出易错分区域，通过两个数据集来分别训练随机森林从而达到提升分类性能的目的，但是其少数类信息扔较少，得到的第二个数据集仍可能不均衡分布程度较大，而且由于随机森林采用的是Bootstrap随机重采样技术，这会导致少数类样本被采样到的几率降低而影响少数类样本的分类正确率。

发明内容

鉴于现有技术的缺陷，本发明旨在于提供一种优化的随机森林处理不平衡数据集的方法，该方法先找出少数类样本的k个最近邻多数类样本，这些样本所处区域为较难区分的区域，在原始数据集中将这些区域的样本重新标类为unknown，并且在这些难区分的样本中，通过在少数类样本及其k个最近邻的多数类样本之间进行新样本的合成，生成的数量根据多数类与少数类的样本比例决定，将新生成的样本固定为少数类标签，这样做的目的是将多数类与少数类之间的分类超平面向更能识别少数类的方向扩张，从而达到在不减少多数类样本的情况下赋予少数类更高的权重的目的。最后将生成两片森林，利用样本重标签后的原始数据集训练多棵决策树组成第一片随机森林，利用难区分区域的样本以及新样本组成的第二个数据集训练多棵决策树组成第二片森林。当对数据进行分类时，如果第一片森林对数据分类投票为多数类，则该分类结果就是其最终的分类结果，当第一片森林对数据的分类结果为unknown时，则将这些数据继续放入到第二片森林进行判断其最终结果是属于多数类还是少数类。这样做的目的是在保证多数类分类正确率的情况下，能更好的提升对少数类的分类正确率。

为了实现上述目的，本发明采用的技术方案如下：

一种优化的随机森林处理不平衡数据集的方法，所述方法包括数据预处理、随机森林模型的构建和分类预测，其中，所述数据预处理将找出少数类样本最近邻的k个多数类样本，组成难区分的区域，将这个区域的样本在原始数据集中进行重标签，且在难区分的区域进行少数类样本的生成，将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出；所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集，得到两个随机森林模型；所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证，最后获得样本的分类预测结果。

需要说明的是，所述据预处理包括：

A：读取原始数据集S；

B：首先将原始数据集S区分为多数类样本集S_maj和少数类样本集 S_min，应用k近邻算法找出少数类样本集中每个样本最近邻的k个多数类样本，这些多数类样本组成S_k-maj样本集，将S_min和S_k-maj样本集组成的区域成为难区分的区域；

C：在原始数据集中将难区分区域中的样本赋予新的类标unknown，但是在难区分区域中，这些样本仍保留其原有类标；

D：在少数类样本与其最近邻的多数类样本之间进行样本的生成，新生成的样本均标为少数类；

E：输出重标签后的原始数据集S_new以及插入新样本后的难区分区域的数据集S_area。

需要进一步说明的是，所述步骤D中还包括：

D1：首先找出少数类样本，通过knn算法找出其最近邻的多数类样本，得到难区分的区域；

D2：在少数类样本与其最近邻的多数类样本之间进行插值产生新的少数类样本的公式为：

x_new＝x_min+λ(x_maj-x_min)；

其中，新产生的样本数量根据该区域中多数类样本与少数类样本的比例决定。

需要说明的是，所述随机森林模型的构建、所述分类预测包括：

A：将数据预处理后的两个训练数据集：重标签后的原始数据集 S_new和新加入样本后的难区分区域的数据集S_area输入；

B：训练步骤A中两个随机森林模型，分别利用的是S_new和S_area当做训练数据集，利用S_new训练出来的模型称为RF1，利用S_area训练出来的模型称为RF2；

C：将验证数据集首先输入到RF1，得到RF1对每个样本的预测结果；

D：判断RF1对验证数据集的预测结果是否为标签unknown，如果对样本的预测结果不是unknown，则预测的标签作为最后该样本的预测结果，如果对样本的预测结果为unknown则需要进一步判断；

E：将RF1预测为unknown的样本集合输入到RF2进行预测，得到的预测结果作为最后的样本分类结果。

本发明的有益效果在于，找出难区分的区域后，产生了新的少数类样本，提升了少数类的信息，提高了随机森林利用Bootstrap随机重采样技术时少数类被采样到的概率，并且新产生的少数类样本介于少数类和其近邻的多数类之间，通过控制参数λ可以使得分类超平面朝着更能识别少数类的方向扩张，有利于提升少数类的分类正确率。此外，本发明利用了重标签技术，对原始数据集中难区分的区域进行类别重标签，并且构建出两个随机森林模型，分步对样本的分类进行预测，第一个模型保证了对多数类的分类正确率的同时，利用第二个模型对被第一个模型预测为unknown标签的样本进一步进行分类预测，而第二个模型能很好的识别少数类样本，从而达到对少数类预测性能提升的同时，对多数类的预测正确率不会下降严重的目的。

附图说明

图1是本发明数据预处理方法的流程图；

图2是本发明随机森林模型的构建及分类预测的流程图；

图3是本发明的新样本的合成示意图。

具体实施例

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

需要指出的是，为了更好的理解本发明，以下为本发明使用的参数的说明：

S:原始数据集；

N：样本总数；

M：特征总数；

L：少数类的标签；

unknown：样本重标签后的类标签；

S_new：对原始数据及中样本进行重标签后的数据集；

S_maj：原始数据集中多数类样本集；

S_min：原始数据集中少数类样本集；

S_unknown：难区分区域的样本集；

S_k-maj：少数类样本的最近邻k个多数类样本组成的集合；

x_min：少数类样本(向量)；

x_maj:多数类样本(向量)；

x_new：新产生的样本(向量)；

y_new：新产生的样本类标签；

S_area：插入新样本后的难区分区域的数据集；

RF1：用S_new训练出来的随机森林模型；

RF2：用S_unkown训练出来的随机森林模型；

λ：范围在[0,1]的超参数。

实施例

本发明为一种优化的随机森林处理不平衡数据集的方法，所述方法包括数据预处理、随机森林模型的构建和分类预测，其中，所述数据预处理将找出少数类样本最近邻的k个多数类样本，组成难区分的区域，将这个区域的样本在原始数据集中进行重标签，且在难区分的区域进行少数类样本的生成，将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出；所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集，得到两个随机森林模型；所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证，最后获得样本的分类预测结果。

如图1所示，本发明的据预处理包括：

A：读取原始数据集S；

需要进一步说明的是，所述步骤D中还包括：

x_new＝x_min+λ(x_maj-x_min)；

如图2所示，本发明的随机森林模型的构建和分类预测包括：

本发明实例中，首先通过对数据集进行预处理，将数据集分成多数类样本和少数类样本，并且通过knn算法找出少数类样本最近邻的多数类样本，组难区分区域，并且在原始数据集中将这部分区域进行重标签为unknown，由于少数类错分的区域往往是处于少数类和多数类的边界，所以这样做有助于将这些区域找到。此外在难区分区域中又提出了一种新的样本生成方法，通过在少数类样本与其最近邻的多数类样本之间生成新的样本，并且将这些样本标为少数类，这样做是为了将分类超平面朝着更能识别少数类的方向扩大，并且通过调节参数λ可以调整新样本的落点，λ为0时相当于对少数类样本进行复制，提高少数类样本被采样到的几率。

通过产生随机森林RF1和RF2，对数据的预测分成了两个阶段， RF1能识别多数类，RF2能很好的识别少数类，这样达到在对少数类预测性能提升的同时，对多数类的预测正确率不会下降严重。

进一步的，如图3所示，圆形为少数类样本，三角形为多数类样本，而分割线为分类超平面，通过控制参数λ∈[0,1]利用公式产生的新样本处于少数类和多数类之间，当λ为0时只是简单复制了少数了样本，提升了抽样时少数类被选中的概率，当0<λ<1时，超平面介于少数类和多数类之间，且λ>0.5时，产生的样本使得分类超平面更易区分少数类，λ＝1时，产生的样本是多数类样本的复制，但是标签为少数类L，这样会牺牲一定的多数类正确率但是能很好的识别出少数类样本。通过分析，对少数类预测性能提升的同时，对多数类的预测正确率不会下降严重。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变，而所有的这些改变，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种优化的随机森林处理不平衡数据集的方法，其特征在于，所述方法包括数据预处理、随机森林模型的构建和分类预测，其中，所述数据预处理将找出少数类样本最近邻的k个多数类样本，组成难区分的区域，将这个区域的样本在原始数据集中进行重标签，且在难区分的区域进行少数类样本的生成，将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出；所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集，得到两个随机森林模型；所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证，最后获得样本的分类预测结果。

2.根据权利要求1所述的优化的随机森林处理不平衡数据集的方法，其特征在于，所述据预处理包括：

A：读取原始数据集S；

B：首先将原始数据集S区分为多数类样本集S_maj和少数类样本集S_min，应用k近邻算法找出少数类样本集中每个样本最近邻的k个多数类样本，这些多数类样本组成S_k-maj样本集，将S_min和S_k-maj样本集组成的区域成为难区分的区域；

3.根据权利要求2所述的优化的随机森林处理不平衡数据集的方法，其特征在于，所述步骤D中还包括：

x_new＝x_min+λ(x_maj-x_min)；

4.根据权利要求1所述的优化的随机森林处理不平衡数据集的方法，其特征在于，所述随机森林模型的构建、所述分类预测包括：

A：将数据预处理后的两个训练数据集：重标签后的原始数据集S_new和新加入样本后的难区分区域的数据集S_area输入；