CN104572786A

CN104572786A - 随机森林分类模型的可视化优化处理方法及装置

Info

Publication number: CN104572786A
Application number: CN201310522082.1A
Authority: CN
Inventors: 赫彩凤; 李俊杰; 郭向林
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-10-29
Filing date: 2013-10-29
Publication date: 2015-04-29
Also published as: WO2015062209A1

Abstract

本发明公开了一种随机森林分类模型的可视化优化处理方法，包括：对于已构建的随机森林分类模型，通过袋外数据估计随机森林分类模型各个决策树之间的相关度；利用随机森林分类模型各个决策树之间的相关度，构建相关性矩阵；根据相关性矩阵，通过降维技术获取三维以下空间的随机森林分类模型的可视化图形；根据随机森林分类模型的可视化图形，对随机森林分类模型进行优化处理，以使得处理后的随机森林分类模型第二泛化误差上界不超过处理前的随机森林分类模型的第一泛化误差上界。通过上述方式，本发明能够减少随机森林分类模型中决策树的数目，降低随机森林分类模型所需的内存空间，同时还能提高预测速度和精度。

Description

随机森林分类模型的可视化优化处理方法及装置

技术领域

本发明涉及数据挖掘技术领域，特别是涉及一种随机森林分类模型的可视化优化处理方法及装置。

背景技术

分类问题是统计学、数据分析、机器学习和数据挖掘研究领域常遇到的最基本任务之一。该任务的主要目标是利用训练数据构建一个具有较强泛化能力的预测模型（即学习机），集成学习在该方面具有显著优势。集成学习的基本思路是使用多个学习机来解决同一问题。两个前提条件决定集成学习之可行性：一是单个基学习机是有效的，也就是说单个基学习机的精度应该大于随机猜对的概率；二是各基学习机之间的差异性。

随机森林是一种有监督的集成学习分类技术，其分类模型由一组决策树分类器组成，模型对数据的分类是通过单个决策树的分类结果进行集体投票来决定最终结果。它结合了Leo Breiman的Bagging集成学习理论与Ho提出的随机子空间方法，通过对训练样本空间和属性空间注入随机性，充分保证了每个决策树之间的独立性和差异性，很好地克服了决策树过拟合问题，同时对噪声和异常值也有较好的鲁棒性。

本申请的发明人在长期的研发中发现，随机森林预测效果显著优于单个决策树，但存在一些缺点：与单个决策树相比，预测速度明显下降，并且随着决策树数目的增多，所需的存储空间也急剧增多。

发明内容

本发明主要解决的技术问题是提供一种随机森林分类模型的可视化优化处理方法及装置，能够减少随机森林分类模型中决策树的数目，降低随机森林分类模型所需的内存空间，同时还能提高预测速度和精度。

第一方面，本发明提供一种随机森林分类模型的可视化优化处理方法，包括：对于已构建的随机森林分类模型，通过袋外数据估计所述随机森林分类模型各个决策树之间的相关度；利用所述随机森林分类模型各个决策树之间的相关度，构建相关性矩阵；根据所述相关性矩阵，通过降维技术获取三维以下空间的所述随机森林分类模型的可视化图形；根据所述随机森林分类模型的可视化图形，对所述随机森林分类模型进行优化处理，以使得所述处理后的随机森林分类模型第二泛化误差上界不超过处理前的随机森林分类模型的第一泛化误差上界。

在第一方面的第一种可能的实现方式中，所述根据所述相关性矩阵，通过降维技术获取三维以下空间的所述随机森林分类模型的可视化图形的步骤，包括：根据所述相关性矩阵，通过多维尺度分析MDS降维技术获取三维以下空间的所述随机森林分类模型的可视化图形。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述可视化图形是散点图，所述散点图的每个点代表一个决策树，所述散点图每两个点之间的距离代表所述随机森林分类模型对应的决策树之间的相关度。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述散点图的点用不同颜色表示，以表达所述散点图的点所对应的决策树的分类强度信息。

结合第一方面的第二种可能的实现方式，在第一方面的第四种可能的实现方式中，所述散点图是密度分布的热力图。

在第一方面的第五种可能的实现方式中，所述根据所述随机森林分类模型的可视化图形，对所述随机森林分类模型进行优化处理的步骤包括：根据所述随机森林分类模型的可视化图形，选择一个决策树；将距离所述选择的决策树最近的K个决策树删除，获得处理后所述随机森林分类模型对应的第二泛化误差上界；将所述处理后所述随机森林分类模型对应的第二泛化误差上界与处理前的随机森林分类模型的第一泛化误差上界进行比较；若处理后所述随机森林分类模型对应的第二泛化误差上界减小，则返回所述根据所述随机森林分类模型的可视化图形，选择一个决策树的步骤进行循环，直到处理后所述随机森林分类模型对应的第二泛化误差上界不再减小。

结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述与处理前的随机森林分类模型的第一泛化误差上界进行比较的步骤之后，包括：若处理后所述随机森林分类模型对应的第二泛化误差上界增大，则撤销所述与处理前的随机森林分类模型的第一泛化误差上界进行比较的步骤之前的步骤；采用决策树规则匹配算法将所述随机森林分类模型中结构相似的决策树删除。

在第一方面的第七种可能的实现方式中，所述相关性矩阵的第i行第j列的元素是所述随机森林分类模型第i个决策树和第j个决策树之间的相关度，其中，所述i和j是不为零的自然数。

第二方面，本发明提供一种随机森林分类模型的可视化优化处理装置，所述装置包括：估计模块、构建模块、获取模块以及优化模块；所述估计模块用于对于已构建的随机森林分类模型，通过袋外数据估计所述随机森林分类模型各个决策树之间的相关度；所述构建模块用于利用所述估计模块估计的所述随机森林分类模型各个决策树之间的相关度，构建相关性矩阵；所述获取模块用于根据所述构建模块构建的所述相关性矩阵，通过降维技术获取三维以下空间的所述随机森林分类模型的可视化图形；所述优化模块用于根据所述获取模块获取的所述随机森林分类模型的可视化图形，对所述随机森林分类模型进行优化处理，以使得所述处理后的随机森林分类模型第二泛化误差上界不超过处理前的随机森林分类模型的第一泛化误差上界。

在第二方面的第一种可能的实现方式中，所述获取模块具体用于根据所述相关性矩阵，通过多维尺度分析MDS降维技术获取三维以下空间的所述随机森林分类模型的可视化图形。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述可视化图形是散点图，所述散点图的每个点代表一个决策树，所述散点图每两个点之间的距离代表所述随机森林分类模型对应的决策树之间的相关度。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述散点图的点用不同颜色表示，以表达所述散点图的点所对应的决策树的分类强度信息。

结合第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述散点图是密度分布的热力图。

在第二方面的第五种可能的实现方式中，所述优化模块包括：选择单元、获得单元、比较单元以及返回单元；所述选择单元用于根据所述随机森林分类模型的可视化图形，选择一个决策树；所述获得单元用于将距离所述选择单元选择的决策树最近的K个决策树删除，获得处理后所述随机森林分类模型对应的第二泛化误差上界；所述比较单元用于将所述获得单元获得的所述处理后所述随机森林分类模型对应的第二泛化误差上界与处理前的随机森林分类模型的第一泛化误差上界进行比较；所述返回单元用于在所述比较单元的比较结果是处理后所述随机森林分类模型对应的第二泛化误差上界减小时，返回所述选择单元进行循环，直到处理后所述随机森林分类模型对应的第二泛化误差上界不再减小。

结合第二方面的第五种可能的实现方式，在第二方面的第六种可能的实现方式中，所述优化模块还包括：撤销单元和删除单元；所述撤销单元用于在所述比较单元的比较结果是处理后所述随机森林分类模型对应的第二泛化误差上界增大时，撤销所述比较单元之前的所有操作；所述删除单元用于在所述撤销单元撤销所述比较单元之前的所有操作后，采用决策树规则匹配算法将所述随机森林分类模型中结构相似的决策树删除。

在第二方面的第七种可能的实现方式中，所述相关性矩阵的第i行第j列的元素是所述随机森林分类模型第i个决策树和第j个决策树之间的相关度，其中，所述i和j是不为零的自然数。

本发明的有益效果是：区别于现有技术的情况，本发明由于获得随机森林分类模型的可视化图形，在根据随机森林分类模型的可视化图形，对随机森林分类模型进行优化处理时，不仅能够提高随机森林分类模型的学习性能，减少随机森林分类模型中决策树的数目，同时由于可视化图形的形象、直观，在根据随机森林分类模型的可视化图形优化时，可以直接看到优化的效果，因此所以能够提高预测速度和精度，不需要大量的内存空间存储优化算法的结果，能够降低随机森林分类模型所需的内存空间。

附图说明

图1是本发明随机森林分类模型的可视化优化处理方法一实施方式的流程图；

图2是本发明随机森林分类模型的可视化优化处理方法中决策树的训练过程示意图；

图3是本发明随机森林分类模型的可视化优化处理方法另一实施方式的流程图；

图4是本发明随机森林分类模型的可视化优化处理方法中密度分布热力图可视化的示意图；

图5是本发明随机森林分类模型的可视化优化处理方法又一实施方式的流程图；

图6是本发明随机森林分类模型的可视化优化处理装置一实施方式的结构示意图；

图7是本发明随机森林分类模型的可视化优化处理装置一实施方式的结构示意图；

图8是本发明随机森林分类模型的可视化优化处理装置又一实施方式的结构示意图。

具体实施方式

下面结合附图和实施方式对本发明进行详细说明。

参阅图1，图1是本发明随机森林分类模型的可视化优化处理方法一实施方式的流程图，包括：

步骤S101：对于已构建的随机森林分类模型，通过袋外数据估计随机森林分类模型各个决策树之间的相关度。

在机器学习中，随机森林分类模型是一个包含多个决策树的分类器，并且其输出的分类结果是由单个决策树输出的分类结果的总数而定。设随机森林可表示为{h(X，θ_k)，k＝1，2，…，Ｋ}，其中表示决策树，K为随机森林所包含的决策树个数。这里的{θ_k，k＝１，２，…，Ｋ}是一个随机变量序列，它是由随机森林的两大随机化思想决定的：（1）Bagging思想：从原样本集X有放回地随机抽取K个与原样本集同样大小的训练样本集{T_k，k＝１，２，…，Ｋ｝（每次约有37%的样本未被抽中），每个训练样本集Ｔ_ｋ构造一个对应的决策树。（2）特征子空间思想：在对决策树每个节点进行分裂时，从全部属性中等概率随机抽取一个属性子集（通常取个属性，Ｍ为特征总数），再从这个子集中选择一个最优属性来分裂节点。随机森林构建之过程就是训练各决策树之过程，决策树分类器的训练过程如图2所示。根据C4.5决策树算法，采用自上而下的贪婪算法构建一个树状结构，每个分支对应一个属性值，如此递归直到满足终止条件，每个叶节点表示沿此路径的样本的所属类别。

由于Bagging方法每次从原样本集X中随机抽取训练样本X_k时，约有37%的样本没有被选中，这一部分未被选中的数据即为袋外数据。袋外数据可用于估计随机森林分类模型各个决策树的分类强度s、决策树之间的相关度随机森林分类模型的分类性能的主要因素一是单个决策树的分类强度，单个决策树的分类强度越大，则随机森林分类模型的分类性能越好；二是决策树之间的相关度，决策树之间的相关度越大，则随机森林分类模型的分类性能越差。

步骤S102：利用随机森林分类模型各个决策树之间的相关度，构建相关性矩阵。

相关性矩阵也叫相关系数矩阵，是由矩阵各列间的相关系数构成的。也就是说，相关性矩阵第i行第j列的元素是原矩阵第i行和第j列的相关系数。

在构建相关性矩阵时，相关性矩阵第i行第j列的元素是原矩阵第i 行决策树和第j列决策树之间的相关度。

其中，在本发明实施方式中，相关性矩阵的第i行第j列的元素是随机森林分类模型第i个决策树和第j个决策树之间的相关度，其中，i和j是不为零的自然数。

步骤S103：根据相关性矩阵，通过降维技术获取三维以下空间的随机森林分类模型的可视化图形。

通常，高维特征集合存在以下几方面问题：原始观察空间中的样本具有大量的冗余特征；存在许多与给定任务无关的特征，即存在许多与类别仅有微弱相关度的特征；存在许多与给定任务冗余的特征，如特征相互之间存在强烈的相关度；存在噪声数据。这些问题增加了训练分类器的难度，因此，为了数据分析以及数据可视化（通常是二维或三维），需要对高维空间进行降维处理。现有技术中，降维的方法主要有：线性降维方法、传统非线性降维方法、基于流行学习的非线性降维方法等等，其中，线性降维方法主要包括：主成分分析方法PCA、线性判别分析方法LDA、多维尺度分析方法MDS等，非线性降维方法主要包括：核主成分分析方法KPCA、主曲线方法、自组织映射方法SOM、产生式拓扑映射方法GTM等等，基于流行学习的非线性降维方法主要有：保距特征映射IOSMAP、局部线性嵌入LLE、拉普拉斯特征映射LE等等。

种类繁多的信息源产生的大量数据，远远超出了人脑分析解释这些数据的能力。可视化技术作为解释大量数据最有效的手段而率先被科学与工程计算领域采用。可视化把数据转换成图形，给予人们深刻与意想不到的洞察力，在很多领域使科学家的研究方式发生了根本变化。它的核心技术是可视化服务器硬件和软件。可视化的主要过程是建模和渲染：建模是把数据映射成物体的几何图元；渲染是把几何图元描绘成图形或图像，渲染是绘制真实感图形的主要技术，严格地说，渲染就是根据基于光学原理的光照模型计算物体可见面投影到观察者眼中的光亮度大小和色彩的组成，并把它转换成适合图形显示设备的颜色值，从而确定投影画面上每一像素的颜色和光照效果，最终生成具有真实感的图形。真实感图形是通过物体表面的颜色和明暗色调来表现的，它和物体表面的材料性质、表面向视线方向辐射的光能有关，计算复杂，计算量很大。

根据构建的相关性矩阵，通过降维技术即可获取三维以下（包括三维）空间的该随机森林分类模型的可视化图形，以便于更好地分析并优化该随机森林分类模型。

步骤S104：根据随机森林分类模型的可视化图形，对随机森林分类模型进行优化处理，以使得处理后的随机森林分类模型第二泛化误差上界不超过处理前的随机森林分类模型的第一泛化误差上界。

机器学习的性能可以通过泛化误差来表达，泛化误差越小，则该机器的学习性能越好，反之则性能越差。

泛化误差上界，是指分类模型在新的未知的数据上的测试误差率的上界。在随机森林分类模型中，泛化误差由两个要素决定，分别是：随机森林的总体分类强度和决策树之间的平均相关度。泛化误差与随机森林的总体分类强度成反比，与决策树之间的平均相关度成正比，即如果需要提高随机森林分类模型的学习性能，需要减小泛化误差，可以通过两个途径：一是提高随机森林的总体分类强度，将决策树分类强度弱的决策树删除，二是降低决策树之间的平均相关度，将相关度高的决策树删除。

由于随机森林分类模型的可视化图形比较形象生动，用户根据随机森林分类模型的可视化图形，可以很方便的对随机森林分类模型进行优化处理。处理后的随机森林分类模型第二泛化误差上界不超过处理前的随机森林分类模型的第一泛化误差上界，即第二泛化误差上界小于或等于第一泛化误差上界，此时优化处理后的随机森林分类模型才是可以接受的，否则，第二泛化误差上界大于第一泛化误差上界，表明优化处理后的随机森林分类模型的学习性能比优化处理前的随机森林分类模型还要差，很显然，优化处理后的随机森林分类模型是不可接受的。

本发明实施方式由于获得随机森林分类模型的可视化图形，在根据随机森林分类模型的可视化图形，对随机森林分类模型进行优化处理时，不仅能够提高随机森林分类模型的学习性能，减少随机森林分类模型中决策树的数目，同时由于可视化图形的形象、直观，在根据随机森林分类模型的可视化图形优化时，可以直接看到优化的效果，因此所以能够提高预测速度和精度，不需要大量的内存空间存储优化算法的结果，能够降低随机森林分类模型所需的内存空间。

参阅图3，图3是本发明随机森林分类模型的可视化优化处理方法另一实施方式的流程图，包括：

步骤S201：对于已构建的随机森林分类模型，通过袋外数据估计随机森林分类模型各个决策树之间的相关度。

在机器学习中，随机森林分类模型是一个包含多个决策树的分类器，并且其输出的分类结果是由单个决策树输出的分类结果的总数而定。设随机森林可表示为{h(X，θ_ｋ），ｋ＝１，２，…，Ｋ｝，其中表示决策树，Ｋ为随机森林所包含的决策树个数。这里的｛θ_ｋ，ｋ＝１，２，…，Ｋ｝是一个随机变量序列，它是由随机森林的两大随机化思想决定的：（1）Bagging思想：从原样本集Ｘ有放回地随机抽取Ｋ个与原样本集同样大小的训练样本集｛Ｔ_ｋ，ｋ＝１，２，…，Ｋ｝（每次约有37%的样本未被抽中），每个训练样本集Ｔ_ｋ构造一个对应的决策树。（2）特征子空间思想：在对决策树每个节点进行分裂时，从全部属性中等概率随机抽取一个属性子集（通常取个属性，Ｍ为特征总数），再从这个子集中选择一个最优属性来分裂节点。

由于Bagging方法每次从原样本集Ｘ中随机抽取训练样本Ｘ_ｋ时，约有37%的样本没有被选中，这一部分未被选中的数据即为袋外数据。袋外数据可用于估计随机森林分类模型各个决策树的分类强度ｓ、决策树之间的相关度随机森林分类模型的分类性能的主要因素一是单个决策树的分类强度，单个决策树的分类强度越大，则随机森林分类模型的分类性能越好；二是决策树之间的相关度，决策树之间的相关度越大，则随机森林分类模型的分类性能越差。

步骤S202：利用随机森林分类模型各个决策树之间的相关度，构建相关性矩阵。

在构建相关性矩阵时，相关性矩阵第i行第j列的元素是原矩阵第i行决策树和第j列决策树之间的相关度。

步骤S203：根据相关性矩阵，通过多维尺度分析MDS降维技术获取三维以下空间的所述随机森林分类模型的可视化图形。

高维特征集合存在以下几方面问题：原始观察空间中的样本具有大量的冗余特征；存在许多与给定任务无关的特征，即存在许多与类别仅有微弱相关度的特征；存在许多与给定任务冗余的特征，如特征相互之间存在强烈的相关度；存在噪声数据。这些问题增加了训练分类器的难度，因此，为了数据分析以及数据可视化（通常是二维或三维），需要对高维空间进行降维处理。

MDS利用的是成对样本间的相关度，目的是利用这个信息去构建合适的低维空间，使得样本在此空间的距离与在高维空间中的样本间的相关性尽可能的保持一致。MDS方法有5个关键的要素，分别为主体、客体、准则、准则权重、主体权重。具体定义为：1）客体：被评估的对象，可以认为是待分类的几种类别。2）主体：评估客体的单位，就是训练数据。3）准则：根据研究目的自行定义，用以评估客体优劣的标准。4）准则权重：主体衡量准则重要性后，对每个准则分别赋予权重值。5）主体权重：研究者权衡准则重要性后，对主体赋予权重值。对于要分析的数据包括I个物体，定义一个距离函数的集合，其中δ_i,j是第i个和第j个对象之间的距离，于是有

Δ : = (\begin{matrix} δ_{1,1} & δ_{1,2} & . . . & δ_{1, I} \\ δ_{2,1} & δ_{2,2} & . . . & δ_{2, I} \\ . & . & . \\ . & . & . \\ . & . & . \\ δ_{I, 1} & δ_{I, 2} & . . . & δ_{I, I} \end{matrix}) .

MDS算法的目的就是根据这个Δ，寻找I个向量x₁，...，x_I∈R^N，使||x_i-x_j||≈δ_i，j，其中i和j属于I。这里的||.||是向量的范数，在经典的MDS中，该规范是欧氏距离，但广义的讲，这个规范可以是任意函数。也就是说，MDS试图找到一个子空间Rn，I个物体嵌入在这个子空间中，而彼此的相关度被尽可能的保留。如果这个子空间的维数N选择为2或者3，可以画出向量x_j获得一个I个物体相关度的一个可视化的结果。

总之，MDS作为一种探索性数据分析技术，操作相对简单，结果解释直观。

可视化把数据转换成图形，给予人们深刻与意想不到的洞察力，在很多领域使科学家的研究方式发生了根本变化。它的核心技术是可视化服务器硬件和软件。可视化的主要过程是建模和渲染：建模是把数据映射成物体的几何图元；渲染是把几何图元描绘成图形或图像，渲染是绘制真实感图形的主要技术，严格地说，渲染就是根据基于光学原理的光照模型计算物体可见面投影到观察者眼中的光亮度大小和色彩的组成，并把它转换成适合图形显示设备的颜色值，从而确定投影画面上每一像素的颜色和光照效果，最终生成具有真实感的图形。

根据构建的相关性矩阵，通过MDS降维技术即可获取三维以下（包括三维）空间的该随机森林分类模型的可视化图形，以便于更好地分析并优化该随机森林分类模型。

其中，可视化图形是散点图，散点图的每个点代表一个决策树，散点图每两个点之间的距离代表随机森林分类模型对应的决策树之间的相关度。通过该散点图可以形象的观察到每两个决策树之间的相关度的大小，两个点之间的距离近，表明这两个点对应的两个决策树之间的相关度大，两个点之间的距离远，表明这两个点对应的两个决策树之间的相关度小。

其中，散点图的点用不同颜色表示，以表达散点图的点所对应的决策树的分类强度信息。根据该点对应的颜色，即可大致确定该点所对应的决策树的分类强度的大小。

但上述的可视化仅是一种粗粒度的可视化表达，随机森林分类模型中各决策树的聚簇密度可以更细粒度地呈现随机森林中各决策树的分布情况。通过归一化方法将二维平面的决策树模型种群密度分成10色阶，表示不同等级的密度，即散点图是密度分布的热力图。通过密度分布的热力图表达方法，用户可以观测到不同密度决策树种群的分布，如图4所示。

步骤S204：根据随机森林分类模型的可视化图形，对随机森林分类模型进行优化处理，以使得处理后的随机森林分类模型第二泛化误差上界不超过处理前的随机森林分类模型的第一泛化误差上界。

本发明实施方式由于获得随机森林分类模型的可视化图形，在根据随机森林分类模型的可视化图形，对随机森林分类模型进行优化处理时，不仅能够提高随机森林分类模型的学习性能，减少随机森林分类模型中决策树的数目，同时由于可视化图形的形象、直观，在根据随机森林分类模型的可视化图形优化时，可以直接看到优化的效果，因此所以能够提高预测速度和精度，不需要大量的内存空间存储优化算法的结果，能够降低随机森林分类模型所需的内存空间。另外，通过MDS降维技术，使得操作相对简单，结果解释直观。

参阅图5，图5是本发明随机森林分类模型的可视化优化处理方法又一实施方式的流程图，包括：

步骤S301：对于已构建的随机森林分类模型，通过袋外数据估计随机森林分类模型各个决策树之间的相关度。

在机器学习中，随机森林分类模型是一个包含多个决策树的分类器，并且其输出的分类结果是由单个决策树输出的分类结果的总数而定。

由于Bagging方法每次从原样本集中随机抽取训练样本时，约有37%的样本没有被选中，这一部分未被选中的数据即为袋外数据。袋外数据可用于估计随机森林分类模型各个决策树的分类强度、决策树之间的相关度。随机森林分类模型的分类性能的主要因素一是单个决策树的分类强度，单个决策树的分类强度越大，则随机森林分类模型的分类性能越好；二是决策树之间的相关度，决策树之间的相关度越大，则随机森林分类模型的分类性能越差。

步骤S302：利用随机森林分类模型各个决策树之间的相关度，构建相关性矩阵。

步骤S303：根据相关性矩阵，通过多维尺度分析MDS降维技术获取三维以下空间的所述随机森林分类模型的可视化图形。

其中，可视化图形是散点图，散点图的每个点代表一个决策树，散点图每两个点之间的距离代表随机森林分类模型对应的决策树之间的相关度。

进一步地，散点图的点用不同颜色表示，以表达散点图的点所对应的决策树的分类强度信息。

进一步地，散点图是密度分布的热力图。

步骤S304：根据随机森林分类模型的可视化图形，对随机森林分类模型进行优化处理，以使得处理后的随机森林分类模型第二泛化误差上界不超过处理前的随机森林分类模型的第一泛化误差上界。

在随机森林分类模型中，泛化误差由两个要素决定，分别是：随机森林的总体分类强度和决策树之间的平均相关度。泛化误差与随机森林的总体分类强度成反比，与决策树之间的平均相关度成正比，即如果需要提高随机森林分类模型的学习性能，需要减小泛化误差，可以通过两个途径：一是提高随机森林的总体分类强度，将决策树分类强度弱的决策树删除，二是降低决策树之间的平均相关度，将相关度高的决策树删除。

其中，步骤S304包括：子步骤S304a、子步骤S304b、子步骤S304c、子步骤S304d、子步骤S304e以及子步骤S304f。

子步骤S304a：根据随机森林分类模型的可视化图形，选择一个决策树。

子步骤S304b：将距离选择的决策树最近的K个决策树删除，获得处理后随机森林分类模型对应的第二泛化误差上界。

子步骤S304b采用的方法即为K最近邻（k-Nearest Neighbour，KNN）分类算法，KNN是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

距离选择的决策树最近的K个决策树可以认为属于同一个类别，通过子步骤S304b，可以将初步认为是同一个类别的距离选择的决策树最近的K个决策树删除。

子步骤S304c：将处理后随机森林分类模型对应的第二泛化误差上界与处理前的随机森林分类模型的第一泛化误差上界进行比较。

子步骤S304d：若处理后随机森林分类模型对应的第二泛化误差上界减小，则返回子步骤S304a进行循环，直到处理后随机森林分类模型对应的第二泛化误差上界不再减小。

子步骤S304e：若处理后随机森林分类模型对应的第二泛化误差上界增大，则撤销子步骤S304c之前的步骤。

子步骤S304f：采用决策树规则匹配算法将随机森林分类模型中结构相似的决策树删除。

通过子步骤S304b后，比较第一泛化误差上界和第二泛化误差上界的大小，如果第二泛化误差上界减小，则说明处理后的随机森林分类模型得到了优化，返回子步骤S304a进行循环，直到处理后随机森林分类模型对应的第二泛化误差上界不再减小，此时说明按照该方法，随机森林分类模型的优化效果已经达到最好。如果第二泛化误差上界增大，说明处理后的随机森林分类模型的性能没有处理前的性能好，撤销子步骤S304c之前的步骤，采用决策树规则匹配算法将随机森林分类模型中结构相似的决策树删除。

例如：最原始的未经过任何处理过的随机森林分类模型的泛化误差上界为0.2，一种情况是，经过子步骤S304a和子步骤S304b第一次处理后，随机森林分类模型的泛化误差上界为0.3，很显然，需要撤销子步骤S304a和子步骤S304b的处理，采用决策树规则匹配算法将随机森林分类模型中结构相似的决策树删除。另一种情况是，经过子步骤S304a和子步骤S304b多次处理，例如经过子步骤S304a和子步骤S304b四次处理，第一次、第二次、第三次以及第四次处理后的随机森林分类模型的泛化误差上界分别为0.19、0.17、0.14以及0.15，很显然，第一次、第二次、第三次的处理后，随机森林分类模型的泛化误差上界是在减小的，第四次的泛化误差上界0.15比第三次的泛化误差上界0.14增大了，也就是说，第三次处理后的随机森林分类模型的泛化误差上界已经不再减小了，这个时候，选择接收第三次优化后的随机森林分类模型。当然，也可以采用决策树规则匹配算法将第三次的随机森林分类模型中结构相似的决策树进一步进行删除。

当然，在实际应用中，还可以其它的优化方法，例如：基于余量函数分布的随机森林优化算法。四个余量函数分布的变种将作为评价随机森林分类算法模型泛化能力以及单个决策树重要性的度量标准被引入此算法中。换句话说，此优化算法利用以上四种余量函数作为评价算法优化程度的目标函数，每次通过搜索使目标函数最优化的树并将其从随机森林模型中删除来逐步提高分类算法的性能。具体来讲，当初始随机森林模型构建好之后，随机森林中的每个决策树将按照其重要性进行排序。决策树的重要性通过将此决策树删除之后的随机森林余量函数的变化程度来度量。然后算法将最不重要的决策树从随机森林中删去，这样迭代地进行上述过程直到随机森林模型达到最优。所以这种优化方法是通过降低随机森林的规模来提高其分类性能的。

本发明实施方式由于获得随机森林分类模型的可视化图形，在根据随机森林分类模型的可视化图形，对随机森林分类模型进行优化处理时，不仅能够提高随机森林分类模型的学习性能，减少随机森林分类模型中决策树的数目，同时由于可视化图形的形象、直观，在根据随机森林分类模型的可视化图形优化时，可以直接看到优化的效果，因此所以能够提高预测速度和精度，不需要大量的内存空间存储优化算法的结果，能够降低随机森林分类模型所需的内存空间。另外，通过MDS降维技术，使得操作相对简单，结果解释直观；通过K最近邻分类算法，可以快速删除属于同一类别的决策树；通过决策树规则匹配算法，可以删除结构相似的决策树。

参阅图6，图6是本发明随机森林分类模型的可视化优化处理装置一实施方式的结构示意图，该装置包括：估计模块101、构建模块102、获取模块103以及优化模块104。

需要说明的是，本实施方式的装置可以执行图1、图3以及图5的步骤。

估计模块101用于对于已构建的随机森林分类模型，通过袋外数据估计随机森林分类模型各个决策树之间的相关度。

在机器学习中，随机森林分类模型是一个包含多个决策树的分类器，并且其输出的分类结果是由单个决策树输出的分类结果的总数而定。设随机森林可表示为{h(X，θ_k)，k＝1，２，…，K}，其中表示决策树，K为随机森林所包含的决策树个数。这里的{θ_k，k＝1，２，…，Ｋ}是一个随机变量序列，它是由随机森林的两大随机化思想决定的：（1）Bagging思想：从原样本集X有放回地随机抽取K个与原样本集同样大小的训练样本集{T_k，k＝1，２，…，K}（每次约有37%的样本未被抽中），每个训练样本集T_k构造一个对应的决策树。（2）特征子空间思想：在对决策树每个节点进行分裂时，从全部属性中等概率随机抽取一个属性子集（通常取个属性，M为特征总数），再从这个子集中选择一个最优属性来分裂节点。根据C4.5决策树算法，采用自上而下的贪婪算法构建一个树状结构，每个分支对应一个属性值，如此递归直到满足终止条件，每个叶节点表示沿此路径的样本的所属类别。

构建模块102用于利用估计模块101估计的随机森林分类模型各个决策树之间的相关度，构建相关性矩阵。

获取模块103用于根据构建模块102构建的相关性矩阵，通过降维技术获取三维以下空间的随机森林分类模型的可视化图形。

高维特征集合存在以下几方面问题：原始观察空间中的样本具有大量的冗余特征；存在许多与给定任务无关的特征，即存在许多与类别仅有微弱相关度的特征；存在许多与给定任务冗余的特征，如特征相互之间存在强烈的相关度；存在噪声数据。这些问题增加了训练分类器的难度，因此，为了数据分析以及数据可视化（通常是二维或三维），需要对高维空间进行降维处理。现有技术中，降维的方法主要有：线性降维方法、传统非线性降维方法、基于流行学习的非线性降维方法等等。

可视化技术作为解释大量数据最有效的手段而率先被科学与工程计算领域采用。可视化把数据转换成图形，给予人们深刻与意想不到的洞察力，在很多领域使科学家的研究方式发生了根本变化。它的核心技术是可视化服务器硬件和软件。可视化的主要过程是建模和渲染：建模是把数据映射成物体的几何图元；渲染是把几何图元描绘成图形或图像，渲染是绘制真实感图形的主要技术，严格地说，渲染就是根据基于光学原理的光照模型计算物体可见面投影到观察者眼中的光亮度大小和色彩的组成，并把它转换成适合图形显示设备的颜色值，从而确定投影画面上每一像素的颜色和光照效果，最终生成具有真实感的图形。

优化模块104用于根据获取模块103获取的随机森林分类模型的可视化图形，对随机森林分类模型进行优化处理，以使得处理后的随机森林分类模型第二泛化误差上界不超过处理前的随机森林分类模型的第一泛化误差上界。

参阅图7，图7是本发明随机森林分类模型的可视化优化处理装置一实施方式的结构示意图，该装置包括：估计模块201、构建模块202、获取模块203以及优化模块204。

需要说明的是，本实施方式的装置可以执行图3和图5的步骤。

估计模块201用于对于已构建的随机森林分类模型，通过袋外数据估计随机森林分类模型各个决策树之间的相关度。

构建模块202用于利用估计模块201估计的随机森林分类模型各个决策树之间的相关度，构建相关性矩阵。

获取模块203用于根据构建模块202构建的相关性矩阵，通过降维技术获取三维以下空间的随机森林分类模型的可视化图形。

进一步地，散点图是密度分布的热力图。

优化模块204用于根据获取模块203获取的随机森林分类模型的可视化图形，对随机森林分类模型进行优化处理，以使得处理后的随机森林分类模型第二泛化误差上界不超过处理前的随机森林分类模型的第一泛化误差上界。

优化模块204包括：选择单元2041、获得单元2042、比较单元2043以及返回单元2044。

选择单元2041用于根据随机森林分类模型的可视化图形，选择一个决策树。

获得单元2042用于将距离选择单元2041选择的决策树最近的K个决策树删除，获得处理后随机森林分类模型对应的第二泛化误差上界。

比较单元2043用于将获得单元2042获得的处理后随机森林分类模型对应的第二泛化误差上界与处理前的随机森林分类模型的第一泛化误差上界进行比较。

返回单元2044用于在比较单元2043的比较结果是处理后随机森林分类模型对应的第二泛化误差上界减小时，返回选择单元2041进行循环，直到处理后随机森林分类模型对应的第二泛化误差上界不再减小。

优化模块204还包括：撤销单元2045和删除单元2046。

撤销单元2045用于在比较单元2043的比较结果是处理后随机森林分类模型对应的第二泛化误差上界增大时，撤销比较单元2043之前的所有操作。

删除单元2046用于在撤销单元2045撤销比较单元2043之前的所有操作后，采用决策树规则匹配算法将随机森林分类模型中结构相似的决策树删除。

参阅图8，图8是本发明随机森林分类模型的可视化优化处理装置又一实施方式的结构示意图，该装置包括：处理器71、与处理器71耦合的存储器72以及数据总线73，其中，处理器71和存储器72通过数据总线73连接。

在一些实施方式中，存储器72存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：

操作系统721，包含各种系统程序，用于实现各种基础业务以及处理基于硬件的任务；

应用程序模块722，包含各种应用程序，用于实现各种应用业务。

在本发明实施方式中，通过调用存储器72存储的程序或指令，处理器71用于：对于已构建的随机森林分类模型，通过袋外数据估计随机森林分类模型各个决策树之间的相关度；利用随机森林分类模型各个决策树之间的相关度，构建相关性矩阵；根据相关性矩阵，通过降维技术获取三维以下空间的随机森林分类模型的可视化图形；根据随机森林分类模型的可视化图形，对随机森林分类模型进行优化处理，以使得处理后的随机森林分类模型第二泛化误差上界不超过处理前的随机森林分类模型的第一泛化误差上界。

在上述各个实施方式中，进一步地，所述处理器71还用于：根据所述相关性矩阵，通过多维尺度分析MDS降维技术获取三维以下空间的所述随机森林分类模型的可视化图形。

其中，所述可视化图形是散点图，所述散点图的每个点代表一个决策树，所述散点图每两个点之间的距离代表所述随机森林分类模型对应的决策树之间的相关度。

其中，所述散点图的点用不同颜色表示，以表达所述散点图的点所对应的决策树的分类强度信息。

其中，所述散点图是密度分布的热力图。

进一步地，所述处理器71还用于：根据所述随机森林分类模型的可视化图形，选择一个决策树；将距离所述选择的决策树最近的K个决策树删除，获得处理后所述随机森林分类模型对应的第二泛化误差上界；将所述处理后所述随机森林分类模型对应的第二泛化误差上界与处理前的随机森林分类模型的第一泛化误差上界进行比较；若处理后所述随机森林分类模型对应的第二泛化误差上界减小，则返回所述根据所述随机森林分类模型的可视化图形，选择一个决策树的步骤进行循环，直到处理后所述随机森林分类模型对应的第二泛化误差上界不再减小。

进一步地，所述处理器71还用于：若处理后所述随机森林分类模型对应的第二泛化误差上界增大，则撤销所述与处理前的随机森林分类模型的第一泛化误差上界进行比较的步骤之前的步骤；采用决策树规则匹配算法将所述随机森林分类模型中结构相似的决策树删除。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种随机森林分类模型的可视化优化处理方法，其特征在于，包括：

对于已构建的随机森林分类模型，通过袋外数据计算所述随机森林分类模型各个决策树之间的相关度；

利用所述随机森林分类模型各个决策树之间的相关度，构建相关性矩阵；

根据所述相关性矩阵，通过降维技术获取三维以下空间的所述随机森林分类模型的可视化图形；

根据所述随机森林分类模型的可视化图形，对所述随机森林分类模型进行优化处理，以使得所述处理后的随机森林分类模型第二泛化误差上界不超过处理前的随机森林分类模型的第一泛化误差上界。

2.根据权利要求1所述的方法，其特征在于，所述根据所述相关性矩阵，通过降维技术获取三维以下空间的所述随机森林分类模型的可视化图形的步骤，包括：根据所述相关性矩阵，通过多维尺度分析MDS降维技术获取三维以下空间的所述随机森林分类模型的可视化图形。

3.根据权利要求2所述的方法，其特征在于，所述可视化图形是散点图，所述散点图的每个点代表一个决策树，所述散点图每两个点之间的距离代表所述随机森林分类模型对应的决策树之间的相关度。

4.根据权利要求3所述的方法，其特征在于，所述散点图的点用不同颜色表示，以表达所述散点图的点所对应的决策树的分类强度信息。

5.根据权利要求3所述的方法，其特征在于，所述散点图是密度分布的热力图。

6.根据权利要求1所述的方法，其特征在于，所述根据所述随机森林分类模型的可视化图形，对所述随机森林分类模型进行优化处理的步骤包括：

根据所述随机森林分类模型的可视化图形，选择一个决策树；

将距离所述选择的决策树最近的K个决策树删除，获得处理后所述随机森林分类模型对应的第二泛化误差上界；

将所述处理后所述随机森林分类模型对应的第二泛化误差上界与处理前的随机森林分类模型的第一泛化误差上界进行比较；

若处理后所述随机森林分类模型对应的第二泛化误差上界减小，则返回所述根据所述随机森林分类模型的可视化图形，选择一个决策树的步骤进行循环，直到处理后所述随机森林分类模型对应的第二泛化误差上界不再减小。

7.根据权利要求6所述的方法，其特征在于，所述与处理前的随机森林分类模型的第一泛化误差上界进行比较的步骤之后，包括：

若处理后所述随机森林分类模型对应的第二泛化误差上界增大，则撤销所述与处理前的随机森林分类模型的第一泛化误差上界进行比较的步骤之前的步骤；

采用决策树规则匹配算法将所述随机森林分类模型中结构相似的决策树删除。

8.根据权利要求1所述的方法，其特征在于，所述相关性矩阵的第i行第j列的元素是所述随机森林分类模型第i个决策树和第j个决策树之间的相关度，其中，所述i和j是不为零的自然数。

9.一种随机森林分类模型的可视化优化处理装置，其特征在于，所述装置包括：估计模块、构建模块、获取模块以及优化模块；

所述估计模块用于对于已构建的随机森林分类模型，通过袋外数据估计所述随机森林分类模型各个决策树之间的相关度；

所述构建模块用于利用所述估计模块估计的所述随机森林分类模型各个决策树之间的相关度，构建相关性矩阵；

所述获取模块用于根据所述构建模块构建的所述相关性矩阵，通过降维技术获取三维以下空间的所述随机森林分类模型的可视化图形；

所述优化模块用于根据所述获取模块获取的所述随机森林分类模型的可视化图形，对所述随机森林分类模型进行优化处理，以使得所述处理后的随机森林分类模型第二泛化误差上界不超过处理前的随机森林分类模型的第一泛化误差上界。

10.根据权利要求9所述的装置，其特征在于，所述获取模块具体用于根据所述相关性矩阵，通过多维尺度分析MDS降维技术获取三维以下空间的所述随机森林分类模型的可视化图形。

11.根据权利要求10所述的装置，其特征在于，所述可视化图形是散点图，所述散点图的每个点代表一个决策树，所述散点图每两个点之间的距离代表所述随机森林分类模型对应的决策树之间的相关度。

12.根据权利要求11所述的装置，其特征在于，所述散点图的点用不同颜色表示，以表达所述散点图的点所对应的决策树的分类强度信息。

13.根据权利要求11所述的装置，其特征在于，所述散点图是密度分布的热力图。

14.根据权利要求9所述的装置，其特征在于，所述优化模块包括：选择单元、获得单元、比较单元以及返回单元；

所述选择单元用于根据所述随机森林分类模型的可视化图形，选择一个决策树；

所述获得单元用于将距离所述选择单元选择的决策树最近的K个决策树删除，获得处理后所述随机森林分类模型对应的第二泛化误差上界；

所述比较单元用于将所述获得单元获得的所述处理后所述随机森林分类模型对应的第二泛化误差上界与处理前的随机森林分类模型的第一泛化误差上界进行比较；

所述返回单元用于在所述比较单元的比较结果是处理后所述随机森林分类模型对应的第二泛化误差上界减小时，返回所述选择单元进行循环，直到处理后所述随机森林分类模型对应的第二泛化误差上界不再减小。

15.根据权利要求14所述的装置，其特征在于，所述优化模块还包括：撤销单元和删除单元；

所述撤销单元用于在所述比较单元的比较结果是处理后所述随机森林分类模型对应的第二泛化误差上界增大时，撤销所述比较单元之前的所有操作；

所述删除单元用于在所述撤销单元撤销所述比较单元之前的所有操作后，采用决策树规则匹配算法将所述随机森林分类模型中结构相似的决策树删除。

16.根据权利要求9所述的装置，其特征在于，所述相关性矩阵的第i行第j列的元素是所述随机森林分类模型第i个决策树和第j个决策树之间的相关度，其中，所述i和j是不为零的自然数。