CN109344907A

CN109344907A - 基于改进评判标准分类算法的判别方法

Info

Publication number: CN109344907A
Application number: CN201811272036.XA
Authority: CN
Inventors: 顾海艳
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-02-15

Abstract

一种基于改进评判标准分类算法的判别方法，是以随机森林算法为例，提出一种基于多评判指标选定随机森林参数，上采样平衡样本分布的方案来构建新的随机森林模型。通过比较改进的随机森林模型和原始随机森林模型、逻辑回归模型以及支持向量机模型，得出改进的随机森林模型性能更为优异的结论，也就说明基于多评判指标选定算法参数是一种可行的方案。本方法解决了现有技术中，实际场景类别的判定通常运用数据挖掘中的分类算法，但是通常数据挖掘的分类算法以单一的指标构建模型，模型的判别效果不如人意的问题。

Description

基于改进评判标准分类算法的判别方法

技术领域

本发明属于数据挖掘技术的应用领域，具体是一种基于改进评判标准分类算法的判别方法。

背景技术

数据挖掘技术在生活生产中扮演着越来越重要的角色，运用于语音识别，图像识别，商品推荐等实际场景中。其中的分类算法是数据挖掘技术的重要支撑之一。一个完美的分类算法可以媲美人类对事物的感知。但是，由于现如今的传统分类算法依旧存在各种各样的缺陷，所以特定场景下依旧不能称得上是完美的分类算法，不能够有效对事物进行分类。因此，需要对传统的分类算法进行改进，以期其能够越来越接近完美的分类算法。

发明内容

为了解决上述问题，本发明提出一种新的实际场景类别分类方法，本方法的思路介绍如下：

随机森林算法于2001年由Breiman提出，作为一种高效的分类判别方法，应用于各个领域。随机森林的原理是，用随机的方式建立一个决策树的森林，森林中的每一棵树之间几乎没有关联(也可以说是关联较小)。在随机森林模型构建完毕之后，可通过输入新的样本特征来判别待测样本的类别，判别的精度相对于普通决策树而言有较大幅度的提高。

本发明是一种基于改进评判标准分类算法的判别方法，步骤包括：

一、先通过采集特征指标数据作为样本数据，构建随机森林模型；

二、再在实际分类场景中，采集待测人员的特征指标数据，采用步骤一得到的随机森林模型对特征指标数据进行快速判别，判别待测人员的类别。

步骤一中的随机森林算法：

1、原始随机森林算法

单一决策树存在误差较大以及过拟合的风险，为了解决决策树存在的问题，Breiman于2001年提出了随机森林算法。随机森林算法的核心思想是，

1)首先，从原始数据集中放回抽取同等规模数据量的样本数据；

2)然后，从原始特征变量中抽取一定数量的特征，构成成特征子集；

3)最后，用抽取的样本数据和特征子集不剪枝构建决策树。

重复上述三步操作N次，形成N棵决策树，将决策树集成，采用多数投票的准则，最终完成随机森林模型的构建。

把新样本特征变量输入模型，随机森林模型将多数决策树的判定一致的结果作为最终结果。

随机森林能够处理高维数据，并且不用做特征筛选，能够快速构建模型。但是模型训练过程中只依赖于袋外估计的结果，且模型评估指标单一，以单一的评估指标选择参数，容易造成模型性能的乐观估计。当样本数据不平衡时，容易倾向于多数类样本，少数类的判别效果较差。因此需要克服以上三个缺点。本发明提出了改进的随机森林算法。

2、改进的随机森林算法

针对于原始随机森林模型存在的只依赖于袋外估计的结果、模型评估指标单一且样本不平衡时模型倾向于多数类样本的问题，本发明提出一种改进的随机森林算法。

a、针对只依赖于袋外估计结果的改进。

原始随机森林的评判只依赖于袋外估计，这就会容易造成评估结果的乐观估计。为了克服这一弊端，

本发明先将数据进行训练集和测试集的划分，在训练集上进行交叉验证，通过交叉验证结果来初步评估模型的性能以及确定参数；再在测试集上评估模型的性能。

交叉验证和测试集两者的性能评估优于只依赖于只依靠袋外估计对模型性能的评估。

b、针对模型性能评估指标单一的改进。

原始随机森林的模型评估只依赖于单一的评估指标，在评估过程中不能有效的反应样本类别不平衡或者样本类别重要性这一信息。为了克服这一弊端，

本发明在模型训练阶段：

首先，计算F1统计量，选择最优的F1统计量以及低于一点五个标准差以内的F1统计量的模型参数；

然后，在上一步骤候选参数中计算分类精度，选择最优的分类精度以及低于一点五个标准差以内的分类精度；这些分类精度所对应参数组合作为候选的参数组合；

最后，在上一候选参数中计算AUC，选择最优的AUC以及低于一点五个标准差以内的AUC，这些AUC所对应参数组合作为候选的参数组合。

在测试集上代入上述步骤中候选参数，在测试集上F1统计量表现最优的参数组合作为最后的参数组合。以最后参数的模型性能作为最终的模型性能的评估。

c、针对样本数据不平衡模型偏向于多数类判别的改进。

这里主要从改变数据分布角度出发，主要策略有上采样和下采样。当数据分布不平衡，且两个类别的数量都不是特别多时，采用上采样策略，扩充少数类样本的数量；当数据分布不平衡，且两个类别的数量都很多时，采用下采样策略，较少多数类样本的数量。

现有技术中：综合评价指标F1是精确率(也称为查准率)P和召回率R的调和平均数。AUC是ROC曲线下面积。

本发明的方法将随机森林模型运用到实际分类场景上，针对随机森林模型存在的不足，以及原始数据样本分布不均衡的实际情况，通过对现有的随机森林算法进行改进，设定多种指标搜索最优参数，对原始样本数据构造人工样本，形成新的数据集。用最优参数拟合样本数据，构造新的随机森林模型。结果表明，基于改进的随机森林模型的性能得到提升，适用于实际分类场景。

附图说明

图1是原始随机森林算法实证部分中，最大精度对应的ROC曲线图；

图2.1、2.和2.3分别是改进随机森林模型实证部分中，表2.3的AUC值对应的ROC曲线；

图2.4是改进随机森林模型实证部分中，三次测试集ROC曲线图；

图3.1、3.2以及3.3分别是模型比较部分中，三个模型的三次训练集和测试集划分的ROC曲线及AUC值。

图3.4、3.5以及3.6分别是模型比较部分中，改进前后模型的三次测试集的ROC曲线及AUC值。

具体实施方式

下面结合附图与具体实施方式对本发明进一步说明。

1、原始随机森林算法实证

为了展现模型的改进效果，选择一个分类样本集data来作为被拟合的数据集，并且data数据集的正负样本比例为1:3。特征变量为feature1，feature2，feature3，feature4，feature4，feature5，feature6，y。其中y是待分类变量。

1.1数据预处理

(1)消除多重共线性

对数值型特征变量feature1，feature2，feature3，feature4，feature4，feature5进行多重共线性检验，检验结果如表1.1所示：

表1.1

如表1.1所示，数值型特征变量之间的相关系数的绝对值小于0.5，表明特征变量之间的线性相关性较弱，可将这些特征变量代入随机森林模型中。

(2)校正偏度

对数值型特征变量进行变量正态分布性检验，选取的指标是变量的偏度。各变量的偏度如表1.2所示：

表1.2

由于feature1、feature2、feature3、feature5的偏度较大，所以需要对这些特征变量进行偏度变换，这里采用Box-Cox变换。变换后的数据偏度如表3所示：

表1.3

经过变换的特征变量比原有的特征变量更加接近正态分布。

(3)标准化

对数值型变量进行标准化变换。经过Box-Cox变换的数据均值，标准差如表1.4所示：

表1.4

经过标准化变换的数据的均值，标准差如表1.5所示：

表1.5

因子型变量feature6只有两种状态，因此不需要对其做独热编码操作。

1.2随机森林模型构造

随机森林模型构建的流程如下所示：

(1)确定特征变量总数为6，构建单个决策树的特征子集的特征变量的个数m可以为2,3,4；

(2)确定森林树的颗树n，设置为10,50,100,150,200,300,500；

(3)计算特征子集个数和树的棵树的笛卡尔乘积，得到参数组合(m,n)；

(4)将每一组参数拟合随机森林模型，得到3×7＝21个随机森林模型；

(5)得到每个随机森林模型的袋外估计的精度，选择精度最高的参数作为最优参数组合；

(6)用最优参数组合和全部数据拟合随机森林模型。

表1.6为全部参数组合下全部随机森林模型袋外估计的精度：

表1.6

表1.6表明，当特征子集的特征变量的个数是3，随机森林树的棵数是50时，随机森林模型能够使得袋外估计的精度达到最大，最大的精度为78.09％。

最大精度对应袋外估计的精度，查准率，召回率以及F1统计量的值如表1.7所示。

表1.7

最大精度对应的ROC曲线如图1所示，AUC的值为0.77。

对参数组合为(3,50)的随机森林模型分析发现，模型精度为78.09％，查准率为75.36％，召回率为70.27％，F1为72.73％。模型的ROC值为0.77。由于样本数据中，负样本的数量多于正样本的数量，所以出现这一结果符合实际。

原始随机森林构造的模型的最终结果表明，模型的最大精度为78.09％，查准率为75.36％，召回率为70.27％，F1为72.73％，考虑到样本不平衡这一实际情况，出现这一结果符合实际。由于原始随机森林构建的模型不能有效地对正样本进行判别，因此需要考虑对原始随机森林算法进行改进，使其能够兼顾正负两类样本的判别。在模型的指标选择上应该多重指标的集成，而非单个指标确定模型的参数。

2、改进随机森林模型实证

2.1样本平衡化

由于data数据的样本分布不平衡，且正负样本的数量较少，因此适合采用上采样方法。本发明主要采用SMOTE算法进行上采样。

SMOTE(Synthetic Minority Oversampling Technique)算法的基础是随机过采样算法，但是由于随机过采样只是对少数类样本的简单复制，这会导致模型的过拟合。针对随机过采样的弊端，SMOTE算法提出首先对少数类样本进行分析，并且根据分析结果合成人工样本而非简单复制。算法流程如下所示：

(1)针对少数类的每一个样本x，以欧氏距离作为度量标准，计算该样本到少数类全部样本的距离，并根据欧式距离确定其k近邻。

(2)计算正负样本的不平衡比例n，确定采样的倍数n，从k近邻中随机选择近邻，假设选出的近邻为y

(3)对于随机选出的每一个近邻y，构建新样本：

x_new＝x+rand(0,1)×|x-y|

对data数据采用SMOTE算法，数据达到平衡。正负样本的比例近似为1:1。

2.2训练集和测试集划分

随机森林由于存在袋外估计，因此可以不用对数据进行训练集和测试集划分。但是由于袋外估计可能会导致模型性能的乐观估计，因此为了得到较为真实的模型泛化性能的评估，需要对data数据进行训练集和测试集划分。设定训练集和测试集的划分比例为3:1。可对数据进行重复三次的训练集和测试集的划分，模型的泛化性能的评估更加可靠。

2.3最优参数确定

(1)以原始数据的F1统计量为评估指标，对参数组合进行第一轮筛选。表2.1为全部参数组合下全部随机森林模型袋外估计的F1统计量。

表2.1

F1统计量的最大值为72.82％，标准差为2.5％，因此低于最大值一点五个标准差范围为68.98％～72.82％，因此候选参数组合有(2,10)，(3,10)，(3,50)，(3,100),进入下一轮筛选。

(2)以原始数据精度为评估指标，对参数组合进行第二轮筛选。表2.2为第二轮候选参数组合下全部随机森林模型袋外估计的精度。

表2.2

精度最大值为78.09％，标准差为2.1％，因此低于最大值一点五个标准差范围为75.00％～78.09％，因此候选参数组合有(3,10)，(3,50)，(3,100),进入下一轮筛选。

(3)以原始数据AUC值为评估指标，对参数组合进行第三轮筛选。表2.3为第三轮候选参数组合下全部随机森林模型袋外估计的AUC值。图2.1、2.2至图2.3为AUC值对应的ROC曲线。

表2.3

AUC值最大为0.77，标准差为0.05，因此低于最大值一点五个标准差范围为0.75～0.77，因此候选参数组合有(3,50)，(3,100),进入下一轮筛选。

(4)以测试集的F1统计量作为评估指标，对参数组合进行第四轮筛选。表2.4为全部参数组合下全部随机森林模型在测试集上的F1统计量。

表2.4

表2.4表明，当特征子集的特征变量的个数为3，森林的树的棵树为100时，能够拟合出性能最好的随机森林模型。由于是在原始数据上确定最优参数，依旧没有解决正负样本不平衡的问题，因此需要在确定的最优参数，在上采样的数据集上构建最终的随机森林模型。

2.4模型拟合

模型拟合的流程如下：

(1)训练集测试集划分

(2)在训练集进行SMOTE算法构造人工样本，加入到原始数据中，形成新的训练集

(3)在新的训练集用确定的参数进行随机森林模型拟合

进行全部数据的三次训练集和测试集划分，三次训练集上袋外估计的精度、查准率，召回率以及F1统计量如表2.5所示，三次测试集预测的结果如表2.6所示。三次测试集ROC曲线如图2.4所示。

表2.5

表2.6

表2.5结果表明，改进的随机森林模型的袋外估计整体精度在81％左右，查准率在81％左右，召回率在80％左右，F1统计量在80％左右，模型在袋外估计的整体性能优异。原始随机森林-模型的袋外估计整体精度在78％左右，查准率在75％左右，召回率在70左右，F1统计量在72％左右。改进的随机森林模型在精度、查准率、召回率以及F1统计量优于原始随机森林模型。

表2.6的结果表明，改进的随机森林模型在测试集整体精度在81％左右，查准率在80％左右，召回率在80％左右，F1统计量在80％左右，模型在测试集的整体性能优异，与自身的袋外估计结果一致。

图2.4结果表明，改进的随机森林模型测试集的ROC曲线以下的面积AUC在0.84左右，模型在ROC曲线的表现优异。原始随机森林模型袋外估计的ROC曲线以下的面积AUC最优结果为0.77左右。改进的随机森林模型在AUC值的表现优于原始随机森林模型。

3.模型比较

3.1与逻辑回归以及支持向量机的比较

由于比较的是不同模型之间的性能，因此需要保持数据的一致性。采用的数据都为进行上采样的数据。表3.1、3.2以及3.3是三个模型三次训练集和测试集划分的精度，查准率、召回率以及F1的值。图3.1、3.2以及3.3是三个模型的三次训练集和测试集划分的ROC曲线及AUC值。

表3.1

表3.2

表3.3

表3.1结果表明，在经过上采样之后，随机森林的精度81.22％，高于逻辑回归的72.31％，高于支持向量机的78.27％；随机森林的查准率80.25％，高于逻辑回归的77.14％，高于支持向量机的78.53％；随机森林的召回率81.31％，高于逻辑回归的71.85，高于支持向量机的78.14％；随机森林的F1为80.76％，高于逻辑回归的74.18％，高于支持向量机的78.33％。

表3.2结果表明，在经过上采样之后，随机森林的精度80.76％，高于逻辑回归的72.52％，高于支持向量机的77.51％；随机森林的查准率80.45％，高于逻辑回归的77.43％，高于支持向量机的78.58％；随机森林的召回率80.83％，高于逻辑回归的71.15％，高于支持向量机的77.19％；随机森林的F1为80.64％，高于逻辑回归的74.31％，高于支持向量机的77.88％。

表3.3结果表明，在经过上采样之后，随机森林的精度80.57％，高于逻辑回归的72.48％，高于支持向量机的79.11％；随机森林的查准率81.11％，高于逻辑回归的77.21％，高于支持向量机的79.08％；随机森林的召回率80.39％，高于逻辑回归的71.82％，高于支持向量机的79.16％；随机森林的F1为80.75％，高于逻辑回归的74.36％，高于支持向量机的79.12％。

图3.1表明，改进的随机森林模型的AUC值为0.85，高于逻辑回归的0.79，高于支持向量机的0.82。

图3.2表明，改进的随机森林模型的AUC值为0.83，高于逻辑回归的0.78，高于支持向量机的0.80。

图3.3表明，改进的随机森林模型的AUC值为0.83，高于逻辑回归的0.78，高于支持向量机的0.80。

比较改进的随机森林模型与逻辑回归模型、支持向量机模型的精度、查准率、召回率、F1值以及AUC值的结果，改进的随机森林模型全面优于逻辑回归模型和支持向量机模型，表明改进的随机森林在同样的数据集下优于逻辑回归模型以及支持向量机模型。

3.2与原始随机森林模型比较

由于改进的随机森林模型中的有对训练数据进行上采样的过程，因此用测试集来评价两个模型的性能。对原始数据进行三次训练集和测试集划分，并且用原始训练数据构建原始随机森林模型，三次训练数据进行上采样，再构建改进的随机森林模型。表3.4，3.5以及3.6是改进前后两个模型三次测试集精度，查准率、召回率以及F1的值。图3.4、3.5以及3.6是改进前后模型的三次测试集的ROC曲线及AUC值。

表3.4

表3.5

表3.6

表3.4、表3.5以及表3.6的结果表明，改进后的随机森林模型在精度、查准率、召回率以及F1的值都优于改进前的随机森林的模型。

图3.4、图3.5以及图3.6的结果表明，改进后的随机森林模型的AUC值比改进前的随机森林的模型的AUC值高0.09左右，表明模型的性能有了较大幅度提升。

表3.4～3.6和图3.4～3.6表明，改进的随机森林模型在性能上全面优于原始的随机森林模型，改进的方案是切实可行的。

改进的随机森林模型的在和原始随机森林模型、逻辑回归模型以及支持向量机模型比较之后，得出性能最优的结论，这表明在实际分类场景中可将改进的随机森林模型运用到人员类别的判别上。

Claims

1.一种基于改进评判标准分类算法的判别方法，其特征是步骤包括：

(一)先通过采集数据作为样本数据，构建随机森林模型；

(二)再在实际分类场景中，采集被测人员特征指标数据，采用步骤一得到的随机森林模型对特征指标数据进行快速判别，得知待测人员的类别；

所述步骤(一)中的随机森林模型的构建方法是先采用原始随机森林算法构建原始随机森林模型；再采用改进的随机森林算法对原始森林模型进行改进，得到最终的随机森林模型：

原始随机森林模型的构建步骤包括：

1)首先，从样本数据的原始数据集中放回抽取同等规模数据量的样本数据；2)然后，从样本数据的原始特征变量中抽取一定数量的特征，构成特征子集；3)最后，用步骤1)得到的样本数据和步骤2)得到的特征子集不剪枝构建决策树；4)重复步骤1～3)N次，形成N棵决策树，将决策树集成，采用多数投票的准则，最终完成随机森林模型的构建；

所述步骤(二)中，把待测人员的特征指标数据中的特征变量输入随机森林模型，随机森林模型将多数决策树的判定一致的结果作为最终结果；

对原始随机森林模型进行改进：

a、先将原始数据集进行训练集和测试集的划分，在训练集上进行交叉验证，通过交叉验证结果来初步评估模型的性能以及确定参数；再在测试集上评估模型的性能；

b、在训练集中，首先，计算F1统计量，选择最优的F1统计量以及低于一点五个标准差以内的F1统计量的模型参数作为候选参数；

然后，在候选参数中计算分类精度，选择最优的分类精度以及低于一点五个标准差以内的分类精度，这些分类精度所对应参数组合作为候选的参数组合；

另外，在候选参数中计算AUC，选择最优的AUC以及低于一点五个标准差以内的AUC，这些AUC所对应参数组合作为候选的参数组合；

最后，在测试集中代入候选参数；在测试集F1统计量表现最优的参数组合作为最后的参数组合；以最后参数的模型性能作为最终的模型性能的评估。

c、从改变数据分布角度出发，采用上采样或下采样的策略；

当数据分布不平衡，且正负样本的数量都不是特别多时，采用上采样策略，扩充少数类样本的数量；

当数据分布不平衡，且正负样本的数量都很多时，采用下采样策略，较少多数类样本的数量。