CN104636814A

CN104636814A - 一种随机森林模型的优化方法及系统

Info

Publication number: CN104636814A
Application number: CN201310567988.5A
Authority: CN
Inventors: 权奕铭; 李俊杰; 郭向林; 高琴; 吴胤旭
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2013-11-14
Filing date: 2013-11-14
Publication date: 2015-05-20

Abstract

本发明适用于数据处理技术领域，提供了一种随机森林模型的优化方法及系统，所述方法包括：创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图；根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图，采用决策树间相同属性节点的比例计算决策树间的相似度；根据所述随机森林模型中不同预测精度决策树的分布直方图，删除预测精度最小的决策树，和/或根据计算获得的决策树间的相似度，删除所述随机森林模型中决策树间相似度最高的决策树。通过本发明优化后的随机森林模型具有规模小、预测精度高及预测速度快等特点，有效提高了随机森林模型的预测效率。

Description

一种随机森林模型的优化方法及系统

技术领域

本发明属于数据处理技术领域，尤其涉及一种随机森林模型的优化方法及系统。

背景技术

随机森林是一种有监督的集成学习分类技术，其模型由一组决策树分类器组成，所述模型对数据的分类是通过单个决策树的分类结果进行集体投票来决定最终结果的。通过对训练样本空间和属性空间注入随机性，充分保证了每个决策树之间的独立性和差异性，很好地克服了决策树过拟合问题，同时对噪声和异常值也有较好的鲁棒性。虽然随机森林模型预测效果显著优于单个决策树，但其预测速度明显下降，随着决策树数目的增多，其预测时间也相应增加。

发明内容

本发明实施例在于提供一种随机森林模型的优化方法，以解决现有随机森林模型预测速度下降及预测时间增加的问题。

本发明实施例的第一方面，提供一种随机森林模型的优化方法，所述方法包括：

创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图；

根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图，采用决策树间相同属性节点的比例计算决策树间的相似度；

根据所述随机森林模型中不同预测精度决策树的分布直方图，删除预测精度最小的决策树，和/或根据计算获得的决策树间的相似度，删除所述随机森林模型中决策树间相似度最高的决策树。

本发明实施例的第二方面，提供一种随机森林模型的优化系统，所述系统包括：

直方图创建单元，用于创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图；

相似度计算单元，用于根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图，采用决策树间相同属性节点的比例计算决策树间的相似度；

优化单元，用于根据所述随机森林模型中不同预测精度决策树的分布直方图，删除预测精度最小的决策树，和/或根据计算获得的决策树间的相似度，删除所述随机森林模型中决策树间相似度最高的决策树。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例通过创建随机森林模型的热力分布直方图、创建不同预测精度决策树的分布直方图以及采用决策树间相同属性节点的比例计算决策树间的相似度对所述随机森林模型进行决策树的删减优化，使得优化后的随机森林模型具有规模小、预测精度高及预测速度快等特点，有效提高了随机森林模型的预测效率和准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的随机森林模型优化方法的实现流程图；

图2是本发明第二实施例提供的随机森林模型优化系统的组成结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了第一实施例提供的随机森林模型优化方法的实现流程，该方法过程详述如下：

在步骤S101中，创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图。

在本实施例中，随机森林模型的热力分布直方图(Heat Map)可表示随机森林模型中决策树的密度分布情况。对随机森林模型进行分区，并构建分布网格，统计落入网格中的决策树数量，根据统计到的决策树数量通过量化得到不同颜色的热力分布直方图，通过所述热力分布直方图能清晰的显示决策树间的相似分布情况，方便实现随机森林模型的优化。

另外，利用随机森林中决策树的分类预测精度，创建所有不同精度决策树的分布直方图。可通过横轴表示决策树的精度分布，以一定的增量递增；纵轴表示某精度区间决策树的统计个数，通过不同预测精度决策树的分布直方图，可为随机森林模型优化提供以决策树预测精度优化的依据。

在步骤S102中，据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图，采用决策树间相同属性节点的比例计算决策树间的相似度。

在本实施例中，随机森林模型中两两决策树之间的相似性度量可构建一个相似性矩阵，根据所述相似性矩阵结合多维标量法获取低维空间随机森林模型中决策树之间的相关性。

本实施例提出一种新的相似度计算方法，即采用决策树间相同属性节点的比例计算决策树间的相似度，可有效提高决策树间相似度计算的准确性，具体如下：

设随机森林模型为{h(X,θ_k)k=1,2,...,n},并且记｛Node（n_i，k）i,k=1,2,...,n｝，则两棵决策树之间的相似度可采用以下公式计算获得：

(Node（n_i,k）∩Node（n_j,p）)/(Node（n_i,k）∪Node（n_j,p）)，i≠j，k≠p；

其中，n为所述随机森林模型中决策树的个数，Node（n_i,k）表示第k棵决策树中所含属性节点的个数n_i，Node（n_j,p）表示第p棵决策树中所含属性节点的个数n_j，Node（n_i,k）∩Node（n_j,p）表示第k棵决策树和第p棵决策树中所含相同属性节点的个数，Node（n_i,k）∪Node（n_j,p）表示第k棵决策树和第p棵决策树中所含的全部属性节点的个数，i，j，k，p=1,2,...,n。相似度数值越大表示两棵决策树越相似。

在步骤S103中，根据所述随机森林模型中不同预测精度决策树的分布直方图，删除预测精度最小的决策树，和/或根据计算获得的决策树间的相似度，删除所述随机森林模型中决策树间相似度最高的决策树。

在本实施例中，删除预测精度最小的决策树具体可以为：

定义{Precision(h(X，θ_k))k=1,2,...,n},其中n为所述随机森林模型中决策树的个数，h(X，θ_k)为单棵决策树，Precision(.)为单棵决策树预测精度的函数，通过sortincrease(Precision(.))表示对所有决策树按预测精度大小进行升序或降序排序，根据排序结果，依次删除预测精度最小的决策树。

和/或根据计算获得的决策树间的相似度，删除所述随机森林模型中决策树间相似度最高的决策树，具体可以是删除所述决策树间相似度最高的两颗决策树或者其中一颗决策树。

进一步的是，本实施例所述根据所述随机森林模型中不同预测精度决策树的分布直方图，删除预测精度最小的决策树，和/或根据计算获得的决策树间的相似度，删除决策树间相似度最高的决策树具体包括：

判断所述随机森林模型是否符合预设的优化停止条件；

若否，根据所述随机森林模型中不同预测精度决策树的分布直方图，删除预测精度最小的决策树，和/或根据计算获得的决策树间的相似度，删除决策树间相似度最高的决策树；否则停止当前优化操作。

优选的是，所述预设的优化停止条件为：

所述随机森林模型整体预测精度（Strength_RF）最大且所述随机森林模型中决策树之间相关度（correlation_RF）最小（即Maximum(Strength_RF)∪Minimum(correlation_RF)）；或者所述随机森林模型整体预测精度收敛至预设极值且所述随机森林模型中决策树之间相关度（correlation_RF）和所述随机森林模型的泛化误差界（errorBound_RF）最小（即Minimum(correlation_RF)∪Minimum(errorBound_RF)）。

通过本发明实施例使得优化后的随机森林模型具有规模小、预测精度高及预测速度快的特点，有效提高了随机森林模型的预测效率和准确率。而且本发明实施例实现简单，对硬件要求较低，具有较高的灵活性。

实施例二：

图2示出了本发明第二实施例提供的随机森林模型优化系统的组成结构，为了便于说明，仅示出了与本发明实施例相关的部分。

该随机森林模型优化系统可应用于各种数据处理终端，例如口袋计算机（Pocket Personal Computer，PPC）、掌上电脑、计算机、笔记本电脑、个人数字助理（Personal Digital Assistant，PDA）等，可以是运行于这些终端内的软件单元、硬件单元或者软硬件相结合的单元，也可以作为独立的挂件集成到这些终端中或者运行于这些终端的应用系统中。

该随机森林模型优化系统包括直方图创建单元21、相似度计算单元22以及优化单元23。其中，各单元具体功能如下：

直方图创建单元21，用于创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图；

相似度计算单元22，用于根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图，采用决策树间相同属性节点的比例计算决策树间的相似度；

优化单元23，用于根据所述随机森林模型中不同预测精度决策树的分布直方图，删除预测精度最小的决策树，和/或根据计算获得的决策树间的相似度，删除所述随机森林模型中决策树间相似度最高的决策树。

进一步的，所述相似度计算单元22采用以下公式计算决策树间的相似度：

其中，n为所述随机森林模型中决策树的个数，Node（n_i,k）表示第k棵决策树中所含属性节点的个数ni，Node（n_j,p）表示第p棵决策树中所含属性节点的个数n_j，Node（n_i,k）∩Node（n_j,p）表示第k棵决策树和第p棵决策树中所含相同属性节点的个数，Node（n_i,k）∪Node（n_j,p）表示第k棵决策树和第p棵决策树中所含的全部属性节点的个数，i，j，k，p=1,2,...,n。

进一步的，其特征在于，所述优化单元23包括：

判断模块231，用于判断所述随机森林模型是否符合预设的优化停止条件；

优化模块232，用于在所述判断模块判断结果为否时，根据所述随机森林模型中不同预测精度决策树的分布直方图，删除预测精度最小的决策树，和/或根据计算获得的决策树间的相似度，删除决策树间相似度最高的决策树；在所述判断模块判断结果为是时，停止当前优化操作。

进一步的，所述预设的优化停止条件包括：

所述随机森林模型整体预测精度最大且所述随机森林模型中决策树之间相关度最小；或者所述随机森林模型整体预测精度收敛至预设极值且所述随机森林模型中决策树之间相关度和所述随机森林模型的泛化误差界最小。

进一步的，所述优化单元23具体用于：

根据所述随机森林模型中不同预测精度决策树的分布直方图，按各决策树的预测精度大小进行升序或降序排序，根据排序结果，删除预测精度最小的决策树。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元或模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元或模块既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例的对应过程，在此不再赘述。

综上所述，本发明实施例通过创建随机森林模型的热力分布直方图、创建不同预测精度决策树的分布直方图以及采用决策树间相同属性节点的比例计算决策树间的相似度对所述随机森林模型进行决策树的删减优化，使得优化后的随机森林模型具有规模小、预测精度高及预测速度快的特点，有效提高了随机森林模型的预测效率和准确率。而且本发明实施例实现简单，对硬件要求较低，从而有利于降低产品成本，具有较强的易用性和实用性。

本领域普通技术人员还可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以在存储于一计算机可读取存储介质中，所述的存储介质，包括ROM/RAM、磁盘、光盘等。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明由所提交的权利要求书确定的专利保护范围。

Claims

1.一种随机森林模型的优化方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述采用决策树间相同属性节点的比例计算决策树间的相似度的公式为：

3.如权利要求1或2所述的方法，其特征在于，所述根据所述随机森林模型中不同预测精度决策树的分布直方图，删除预测精度最小的决策树，和/或根据计算获得的决策树间的相似度，删除决策树间相似度最高的决策树包括：

判断所述随机森林模型是否符合预设的优化停止条件；

4.如权利要求3所述的方法，其特征在于，所述预设的优化停止条件包括：

5.如权利要求1所述的方法，其特征在于，所述根据所述随机森林模型中不同预测精度决策树的分布直方图，删除预测精度最小的决策树包括：

6.一种随机森林模型的优化系统，其特征在于，所述系统包括：

7.如权利要求6所述的系统，其特征在于，所述相似度计算单元采用以下公式计算决策树间的相似度：

其中，n为所述随机森林模型中决策树的个数，Node（n_i,k）表示第k棵决策树中所含属性节点的个数n_i，Node（n_j,p）表示第p棵决策树中所含属性节点的个数n_j，Node（n_i,k）∩Node（n_j,p）表示第k棵决策树和第p棵决策树中所含相同属性节点的个数，Node（n_i,k）∪Node（n_j,p）表示第k棵决策树和第p棵决策树中所含的全部属性节点的个数，i，j，k，p=1,2,...,n。

8.如权利要求6或7所述的系统，其特征在于，所述优化单元包括：

判断模块，用于判断所述随机森林模型是否符合预设的优化停止条件；

优化模块，用于在所述判断模块判断结果为否时，根据所述随机森林模型中不同预测精度决策树的分布直方图，删除预测精度最小的决策树，和/或根据计算获得的决策树间的相似度，删除决策树间相似度最高的决策树；在所述判断模块判断结果为是时，停止当前优化操作。

9.如权利要求8所述的系统，其特征在于，所述预设的优化停止条件包括：

10.如权利要求6所述的系统，其特征在于，所述优化单元具体用于：