CN107766883A

CN107766883A - 一种基于加权决策树的优化随机森林分类方法及系统

Info

Publication number: CN107766883A
Application number: CN201710961077.9A
Authority: CN
Inventors: 陈靓影; 徐如意; 刘乐元; 张坤
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University; Central China Normal University
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2018-03-06

Abstract

本发明提供了一种基于加权决策树的优化随机森林分类方法及系统，属于模式识别技术领域。该方法为：采用自举法生成多个训练数据集；对每个训练数据集随机抽取特征集；训练决策树，并根据特征集的统计特性或决策树的性能为每个决策树分配投票权重；引入投票机制，加速随机森林的分类过程。本发明利用训练样本的统计特性或决策树的分类性能来分配决策树的投票权重，并利用投票机制加速决策进程，能有效提高随机森林的分类性能和分类效率。

Description

一种基于加权决策树的优化随机森林分类方法及系统

技术领域

本发明属于模式识别和数据挖掘技术领域，具体涉及一种基于加权决策树的优化随机森林分类方法。

背景技术

随着信息技术高速发展，各领域内的数据量呈现爆炸式增长，世界已然进入大数据时代。为了从海量的数据中发现蕴含其中的有价值信息，数据挖掘技术成为当下最活跃的研究领域之一。所谓数据挖掘，一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

随机森林是数据挖掘中最具研究价值的方法之一，作为一种组合分类器，它的主要思想是基于两个随机过程，即训练样本随机抽取和特征集随机抽取来构建多棵相对独立的决策树分类器，然后通过所有决策树投票获得最终的预测结果。

随机森林由于其泛化能力强，不宜出现过拟合；决策树之间相互独立，适宜并行计算；无需额外的特征选择，处理高维、大数据能力强；相较于其他算法实现简单、效率高、准确率高；以及特征贡献度可评估等优点，被广泛应用于遥感探测、人机交互、多媒体处理、电子商务等领域。

尽管随机森林具有上述优点，仍然存在一些不足之处。传统随机森林模型对具有不同泛化能力的决策树拥有相同的投票权重，这影响了模型整体分类能力的稳定性。

发明内容

针对现有技术存在的问题和改进需求，本发明提供了一种基于加权决策树的随机森林分类方法及系统，利用训练样本的统计特性或决策树的分类性能来分配决策树的权重，并引入半投票机制加速分类决策进程，能有效提高分类性能和分类效率。

一种基于加权决策树的优化随机森林分类方法,包括离线训练和在线预测部分，

所述离线训练部分包括以下步骤：

(S1)重复在同一数据源中提取多次数据，得到多个样本数相同的训练集；

(S2)在每一训练集中，提取每个样本的特征向量和标签向量；

(S3)利用每一训练集的特征向量和标签向量训练随机森林分类模型，得到多个决策树；

(S4)对每一训练集，分别将其所有样本的同一特征构成特征向量，计算该特征向量与该训练集的标签向量之间的统计相关性，对所有特征对应的统计相关性进行叠加，叠加结果即为该训练集训练得到的决策树的投票权重；

所述在线分类部分包括以下步骤：

(T1)按照投票权重由高到低选取决策树依次对待分类数据进行分类，将决策树的投票权重作为其分类所得类别的投票数，实时计算各类别的投票总数，如某一类别所得投票总数超过预定阈值，则停止分类，该类别即为最终分类结果。

一种基于加权决策树的优化随机森林分类系统,包括离线训练模块和在线预测模块，其特征在于：

所述离线训练模块包括以：

训练子集提取子模块，用于重复在同一数据源中提取多次数据，得到多个样本数相同的训练集；

特征标签提取子模块，用于在每一训练集中，提取每一样本提取特征向量和标签向量；

决策树训练子模块，用于利用每一训练集的特征向量和标签向量训练随机森林分类模型，得到多个决策树；

投票权重计算子模块，用于对每一训练集，分别将其所有样本的同一特征构成特征向量，计算该特征向量与该训练集的标签向量之间的统计相关性，对所有特征对应的统计相关性进行叠加，叠加结果即为该训练子集训练得到的决策树的投票权重；

所述在线分类模块,用于按照投票权重由高到低选取决策树依次对待分类数据进行分类，将决策树的投票权重作为其分类所得类别的投票数，实时计算各类别的投票总数，如某一类别所得投票总数超过预定阈值，则停止分类，该类别即为最终分类结果。

一种基于加权决策树的优化随机森林分类方法,包括离线训练和在线预测部分，其特征在于：

所述离线训练部分包括以下步骤：

(S2)在每一训练集中，提取每个样本的特征向量和标签向量；

(S4)将数据源中没被提取过的数据作为袋外数据,利用袋外数据测试决策树的性能，得到各决策树的投票权重：S₊为决策树利用袋外数据预测正确的样本数量，S表示袋外数据的样本总量，α_o为决策树的归一化因子；

所述在线分类部分包括以下步骤：

一种基于加权决策树的优化随机森林分类系统,包括离线训练模块和在线预测模块：

所述离线训练模块包括以：

投票权重计算子模块，用于将数据源中没被提取过的数据作为袋外数据,利用袋外数据测试决策树的性能，得到各决策树的投票权重：S₊为决策树利用袋外数据预测正确的样本数量，S表示袋外数据的样本总量，α_o为决策树的归一化因子；

进一步地，所述为决策树的归一化因子α_o＝1/所有决策树的权重之和，

进一步地，所述统计相关性采用相关系数、卡方、互信息中的任意一种统计学度量指标来计算。

进一步地，所述预定阈值为所有决策树的投票权值之和的一半。

与现有技术相比，本发明的优点和效果在于：

1.本发明利用训练样本的统计特性或决策树的分类性能来分配决策树的投票权重，引入投票加权的方法可以有效的提高随机森林模型整体的泛化能力；

2.本发明引入投票机制，对构建好的加权随机森林模型按照决策树投票权重进行降序排序，在随机森林模型进行串行投票的过程中，确定投票量达到预定阈值的分类终止条件，通过提前触发预测终止条件来提高模型分类的效率。

附图说明

图1为本发明基于加权决策树的随机森林分类方法的实现流程图；

图2为本发明半投票机制的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

附图1为本发明基于加权决策树的优化随机森林分类方法的实现流程图，包括以下步骤：

(S1)采用“自举法”生成多个训练数据集。

采用“自举法”从给定的训练数据集X中，生成M个新的训练数据集X₁,…,X_M，每个新的数据集包含相同数量的样本，每个样本都可以视为一个向量。自举法，是指从数据集X中随机有放回的抽取样本来构建一个数据集。重复“自举法”的过程M次，即可得到M个数据集。生成的M个数据集将用于训练随机森林的M棵决策树。

(S2)对每个训练数据集随机抽取特征集。

本发明定义样本的特征为样本向量的每一维度。对生成的每个数据集，随机选择向量的k个维度构成特征集。

(S3)训练决策树，并根据特征集的统计特性或决策树的预测性能为每个决策树分配投票权重。

将随机选择的特征集作为决策树的输入，训练决策树。对M个数据集分别训练M棵决策树。并对每颗决策树根据特征集的统计特性或决策树的预测性能来分配投票权重。

数据集所有样本在某一特征下的特征向量和数据集的标签向量之间的统计相关性，用来判断每个特征对决策树预测的重要性。特征集的统计特性将所有特征的重要性叠加作为每颗决策树的投票权重。

决策树的决策性能则采用“袋外数据估计”。将数据源中没被提取过的数据作为袋外数据,利用袋外数据测试决策树的性能，得到各决策树的投票权重。

所述步骤(S3)中的统计相关性可采用相关系数、卡方、互信息中的任意一种统计学度量指标来估计。

(S4)引入投票机制，加速随机森林的分类过程。

本发明一种较佳实时方式中，定义半投票量，为总投票量的一半。按照投票权值的大小对决策树进行降序排列，将泛化能力强的决策树排在前列。在随机森林模型进行数据分类的过程中，决策树分类器按顺序对数据进行预测和加权投票，并实时监测投票数量是否达到半投票量而终止分类过程。

实例：

本实例所用数据集选自UCI公共数据库，该数据库包含多达383个记录不同个体特征的数据集。每个数据集以“属性——值”的形式描述样本，“属性”就是样本的特征向量，“值”就是样本的标记。利用随机森林算法，就是将大量样本的“属性”和“值”作为输入，输出“属性”和“值”之间的映射关系，或者能够根据新的“属性”来预测“值”，具体实现步骤如下：

1.采用“自举法”生成多个训练数据集

采用“自举法”，即随机有放回的采样策略产生新的训练数据集，每个新的数据集包含相同数量的样本，每个样本都可以视为一个向量。重复“自举法”的过程100次，共产生100个训练数据集X₁,…,X₁₀₀。

2.对每个训练数据集随机抽取特征集

对每个训练数据集，随机选取k个特征作为该数据集的特征集。k一般取log₂d，其中d是数据集中每个样本的向量长度。

3.训练决策树，并根据特征集的统计特性或决策树的预测性能为每个决策树分配投票权重

将随机选择的特征集作为决策树的输入，训练决策树。对100个数据集分别训练100棵决策树，决策树的训练过程与现有的随机森林训练决策树的过程完全一致。对每颗决策树根据特征集的统计特性或决策树的预测性能来分配投票权重。

数据集所有样本在某一特征下的特征向量和数据集的标签向量之间的统计相关性，用来判断每个特征对决策树预测的重要性。特征集的统计特性将所有特征的重要性叠加作为每颗决策树的投票权重。对于统计相关性可以采用相关系数、卡方或者互信息来估计。

决策树的决策性能则采用“袋外数据估计”。在随机有放回的训练过程中，未被抽中的数据集被称为袋外数据。利用袋外数据对决策树预测能力的评估，称为“袋外数据估计”。每个决策树的性能表示为根据所有决策树的性能确定归一化因子α_o＝1/所有决策树性能之和(如果以100为单位，α_o＝100/所有决策树权重之和)，S₊为决策树利用“袋外数据估计”预测正确的样本数量；S表示“袋外数据估计”的样本总量。对于每颗决策树h(x)，定义基于“袋外数据估计”的投票权值p^OOB，可表示为：

4.引入投票机制，加速随机森林的分类过程

如附图2所示，按照投票权值的大小对决策树进行降序排列，将泛化能力强的决策树排在前列。在随机森林模型进行数据分类的过程中，决策树分类器按顺序对数据进行预测和加权投票，并实时监测投票数量是否达到预定阈值(譬如半投票量)而终止分类过程。通过①和②两种路径都可以得到随机森林模型最终的投票结果，其中①路径预测结果的获得是在没有完成所有决策树预测投票的情况下，触发了半投票量模式的终止条件提前结束了整个分类流程，通过路径②获得的预测结果是完成了所有决策树数据预测和投票之后分析各个分类标签投票情况获得的。

半投票量模式获得的分类结果和传统随机森林模型获得的分类结果是一致的，但前者可以在没有进行全预测投票之前就可以终止分类流程给出分类结果，显然比传统随机森林模型分类速度快，且随着模型中决策树的泛化能力的增强，投票权重的增加，半投票量模式进行投票时越容易触发投票终止条件更快的给出分类结果，使得分类的速度加快。

应用上述步骤得到的随机森林模型，在UCI公共数据集上进行对比实验，实验结果表明引入投票加权的方法可以有效的提高随机森林模型整体的泛化能力，其中以相关系数作为决策树投票权重计算依据时，模型表现出更稳定、更高的分类准确率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于加权决策树的优化随机森林分类方法,包括离线训练和在线预测部分，其特征在于：

所述离线训练部分包括以下步骤：

(S2)在每一训练集中，提取每个样本的特征向量和标签向量；

所述在线分类部分包括以下步骤：

2.根据权利要求1所述的基于加权决策树的优化随机森林分类方法,其特征在于：所述统计相关性采用相关系数、卡方、互信息中的任意一种统计学度量指标来计算。

3.根据权利要求1或2所述的基于加权决策树的优化随机森林分类方法,其特征在于：所述预定阈值为所有决策树的投票权值之和的一半。

4.一种基于加权决策树的优化随机森林分类系统,包括离线训练模块和在线预测模块，其特征在于：

所述离线训练模块包括以：

5.一种基于加权决策树的优化随机森林分类方法,包括离线训练和在线预测部分，其特征在于：

所述离线训练部分包括以下步骤：

(S2)在每一训练集中，提取每个样本的特征向量和标签向量；

所述在线分类部分包括以下步骤：

6.根据权利要求5所述的基于加权决策树的优化随机森林分类系统,其特征在于：所述为决策树的归一化因子α_o＝1/所有决策树的权重之和，

7.根据权利要求5所述的基于加权决策树的优化随机森林分类系统,其特征在于：所述统计相关性采用相关系数、卡方、互信息中的任意一种统计学度量指标来计算。

8.根据权利要求5或6或7所述的基于加权决策树的优化随机森林分类系统,其特征在于：所述预定阈值为所有决策树的投票权值之和的一半。

9.一种基于加权决策树的优化随机森林分类系统,包括离线训练模块和在线预测模块，其特征在于：

所述离线训练模块包括以：

10.根据权利要求9所述的基于加权决策树的优化随机森林分类系统,其特征在于：所述为决策树的归一化因子α_o＝1/所有决策树的权重之和，