CN113557534A

CN113557534A - 深度森林模型开发和训练

Info

Publication number: CN113557534A
Application number: CN202080018916.3A
Authority: CN
Inventors: 许静; 王锐; 马小明; 杨继辉; 张雪英; J·J·许; 韩四儿
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-03-12
Filing date: 2020-03-06
Publication date: 2021-10-26
Also published as: US20200293906A1; WO2020183316A1; US11893499B2; JP7398474B2; JP2022524006A; DE112020000545T5

Abstract

用于分析数据的深度森林模型的自动开发和训练包括，使用数据生长决策树的随机森林，确定森林的袋外(OOB)预测，将所述OOB预测附加到数据集，以及使用包括所附加的OOB预测的数据集来生长另外的森林，并且合并该另外的森林的输出，然后利用该模型对训练数据集之外的数据进行分类。

Description

深度森林模型开发和训练

背景技术

本公开一般地涉及用于开发和训练用于分析数据的模型的系统和方法。本公开尤其涉及使用深度随机森林自动开发和训练模型以分析数据的系统。

深度学习至少部分由于深度神经网络的成功应用而众所周知，特别是在涉及图像和语音信息的任务中。深度神经网络也具有缺陷。深度神经网络可能需要大量的数据用于训练，这使得深度神经网络不太适合于小规模数据。深度神经网络可以是包括太多超参数的非常复杂的模型。可能需要仔细地调整这些参数以达到期望的学习准确度，使得深度神经网络的训练更像技术，而不是科学或工程学。

Zhou等人提出了一种新的深度学习方法gcForest(多粒度级联森林)[Z.-H.Zhou和F.Ji.Deep forest：towards an alternative to deep neural networks(深度森林：朝向深度神经网络的替代方案).arXiv：1702.08835v2，2017]。该方法试图通过随机森林的级联结构来实现关键的深度学习想法，即表示学习，其中级联的每个层接收由前一层创建的特征信息，并且将其结果输出到下一层。gcForest可以实现与深度神经网络有竞争力的性能，但是具有较少的上述缺陷。

随机森林由Breiman在2001年提出[L.Breiman.Random forests(随机森林).Machine Learning(机器学习)，45(1)：5-32，2001]。它是决策树的集合。当在集合中生长这些决策树时，应用特殊处理。首先，在自举(bootstrap)样本上生长每个树。自举样本通过从训练数据中采样并替换来获得，并且样本大小与训练数据的大小相等。第二，每个树需要在样本上完全生长，直到每个叶节点仅包含相同类的实例，并且不需要修剪。更重要的是，当分割树中的任何节点时，它随机地选择预测因子的一部分，从该部分预测因子中选择具有最佳gini值的预测因子用于分割。

当对数据实例进行评分时，随机森林使用多数表决来组合来自个体树的预测。例如，考虑具有3个类(c1、c2和c3)的目标变量以及森林中的1000个决策树。假设针对3个类的投票的数量分别是200、300和500。然后，随机森林将报告针对正在评分的实例的类概率的向量，即，[0.2，0.3，0.5]。还将报告c3的标签预测，因为它具有最大预测概率。

如果实例是训练实例，则随机森林提供生成袋外(Out-of-Bag，OOB)预测的选项。这样的预测是用树的投票计数的结果，这些树尚未将实例包括在它们的自举样本中。继续以上实例，如果存在尚未将实例用于训练的400个树，且c1、c2和c3的投票数目分别为100、100和200，那么所述实例的OOB预测(概率向量)将为[0.25、0.25、0.50]。标签预测将是c3，因为它对应于最大概率。通过将实例标签与对训练数据的OOB标签预测进行比较来计算森林的OOB精确度。

gcForest的方法使用交叉验证来生成新的特征信息。虽然交叉验证是有效的，但它也带来挑战。首先，gcForest的方法包括每层中的多个随机森林学习器N，并且其需要针对每个学习器的k倍交叉验证。由此，每一层需要总共N*k个学习器。当数据集很大时，由于学习器的数量随着数据集的大小而增加，并且构建甚至单个学习器是昂贵的，所以可能出现性能问题。将需要非常强大的计算设施。第二，由于交叉验证和对从训练数据集导出的验证数据集的需要，训练数据可能不被完全使用。gcForest的方法将数据分成训练样本和验证样本，并且如果不能提高验证样本的准确度则停止训练。验证样本的使用使得小数据问题甚至更差。

发明内容

可以由利用深度随机森林的系统、方法和计算机程序产品来分析数据，其中该深度随机森林具有减少的超参数集合以及减少的调整要求(tuning requirements)。在一个方面，机器学习模型由随机森林层自动构建。从数据集生长随机森林的决策树。为随机森林确定袋外(OOB)预测和类标签预测。将数据集的每个实例的OOB预测附加到数据集。通过增加更多森林层来扩展该模型。每个新的森林从由前一层生成的数据集的附加版本生长。将合并器层添加到最后的数据附加层，以产生模型输出。

在一个方面，通过使用其中单个用户提供的超参数是每个森林的树的数量的方法，可以减少计算资源。在这个方面，通过接收训练数据集和每个随机森林的指定数量的决策树，可以自动构建机器学习模型。然后，从该训练数据集生长指定数量的决策树。为训练数据集的每个实例确定OOB预测和类标签。为每个实例将OOB预测附加到训练数据，然后使用附加的数据集生成森林的下一层。使用OOB标签预测确定每一层的OOB精确度。增加另外的层，直到OOB精确度停止随着另外的层显著提高。增加一个合并器，以整合最后一个另外的森林层的输出，并提供模型输出。

在一个方面，从训练数据集生长森林的决策树。指定将用于生长树的、每个森林的树的个数和类向量的维数。模型具有多层，每层提供一个森林，从而减少分类所需的计算资源。确定森林的袋外(OOB)预测。将OOB预测附加到数据集，作为每个数据集实例的新特征。附加OOB预测提供了用于从每层向后续层增加新特征信息的方式，而不必使用会导致特征信息丢失的模型。为森林确定OOB精确度。通过重复上述步骤并使用前一层的用于训练的附加数据集，来增加单个森林的另外层，直到新层的OOB精确度不再显著提高。OOB精确度的使用消除了在分析中的交叉验证的需求，进一步减少了计算资源。最后一个森林的输出被合并，并使用整个模型从训练数据集外部来分析数据。

附图说明

图1提供了根据本发明的一个实施例的系统的示意图。

图2提供了描绘根据本发明的一个实施例的操作序列的流程图。

图3描绘了根据本发明的一个实施例的数据流。

图4描绘了根据本发明的一个实施例的云计算环境。

图5描绘了根据本发明的一个实施例的抽象模型层。

具体实施方式

深度神经网络(DNN)结构已成功应用于机器学习应用。DNN可能包括许多超参数，因此可能难以调整到手头的问题和数据集。DNN也可能难以应用于与小数据集有关的应用，因为DNN可能需要大数据集来将模型训练到可接受的精确度水平。DNN结构的操作的复杂性和不透明性可能导致难以在开发或指定DNN结构的情况下在不进行过度实验的情况下在层数和每层节点方面确定最佳结构以实现期望或必要的精确度的系统。所需要的是一种机器学习模型结构，其即使应用于小数据集，也可以在不需要与DNN相关联的情况下容易地指定和调整，并且当已经实现最佳精确度时可以自动完成模型开发。

所公开的系统、方法和计算机程序产品提供了机器学习模型开发和训练，由于使用了有替换地选自所提供的训练数据集的自举(bootstrapped)训练数据集，其可适用于小数据集。本发明的实施例仅描述了用于模型开发的单个超参数-每个森林的随机树的个数。本发明的实施例提供了每层单个随机森林的简化结构，并在不太可能进一步提高精确度的情况下自动停止模型开发，从而提供具有相对低的计算复杂性的精确模型。在一个实施例中，可以生成每层具有不止一个森林的模型。这样的森林需要额外的计算资源，但在模型精确度上并未显现出显著提高。

在一个实施例中，用于开发和训练用于分析数据的模型的计算机实现的方法可以开始于机器学习模型的开发和构建。该模型可用于分类或回归分析。模型开发源于与模型要用于的机器学习任务相关联的训练数据集。训练数据可以经由网络提供、从本地传感器获得、或经由计算机可读介质提供。

数据可包括数字、文本、音频、视频或图像数据。数据可能与位置、语音、音乐、娱乐、医疗保健、财务信息、车辆数据、物流数据、销售数据或涉及机器学习分析的其他数据类型相关联。

必须指定模型所要求的每个森林的随机决策树的个数。该个数可以由用户输入指定，或者可以基于先前的模型开发工作设置为一个缺省量。在一个实施例中，该个数可以指定为五百个树。在一个实施例中，可以采用随机数发生器或伪随机数发生器随机选择该个数。随着向模型增加每一层/森林，每个森林的树的个数可以保持恒定。在一个实施例中，每个森林的树的个数对于每一层/森林可以变化。

每个决策树从有替换地选自训练数据集的自举数据样本生长。自举样本在尺寸上与训练数据集相当。有替换地选择提供了一种从训练数据集生长树的方式，同时减少了将树与训练数据过度拟合的风险。举例来说，对于训练数据集[1，2，3，4，5，6]，有替换地选择的自举样本可以包括[1，2，2，3，5，6]。

每个树自其对应的自举样本完全生长，直到该树的每个节点只包含同一类的实例，不需要剪枝。随着每个树的生长，对类预测器的随机选择定义了树节点的分叉，其中使用具有最低基尼杂质值的分集来定义该节点。类向量的维数可以指定为用于构建模型的参数，或者，可以通过考虑可能的类向量维度值的范围来开发模型。基尼杂质值反映一个从数据集随机选择的数据实例被错误标记的可能性。基尼杂质值零表明该实例被错误标记的可能性为0，说明该节点的所有实例都属于同一类。

举例来说，训练数据集包括一千个数据实例，每个数据实例包括四个实例属性d、e、f、g和一个分类标签c。在生长树的过程中，系统会评估在根节点采用实例属性的不同组合分离数据的结果，以划分数据集。该评估选择具有错误标记随机数据实例的最低可能性、即最低类杂质的属性组合。对于该例子，基于属性d的值，划分根节点。将属性d的每个可能的值定义为根节点的一个分支，例如，属性d具有四个不同的值d1、d2、d3、d4，则从根节点定义四个分支。该评估过程然后对由属性d分支定义的每个节点进行。同样，选择产生最不可能错误标记随机数据实例的数据划分的属性或属性组合，来定义每个节点的分支。该选择对于由数据的原始分叉所限定的每个节点来说可能是不同的。例如，组合d1，e；d2，e；d3，f；and d4，g；定义了下一组分支。在仍然包含不止一单个类的标记数据、同时在该分支上还具有大于最小个数的实例、还未达到所指定的最大个数的节点级别、或者类杂质不能由另一个分叉所改进的每个分支上，继续这个过程。

在一个实施例中，可以为随机树森林计算袋外(OOB)预测。OOB预测构成一个向量，该向量包括由不具有作为其自举数据集的一部分的特定实例的所有随机树对特定训练数据集数据实例的投票总和导出的维度。举例来说，考虑具有五百个随机决策树、分析具有三个类c1、c2、c3的数据的森林。在这个例子中，对于两百个树，训练数据集的实例1不是自举数据集的一部分。由这两百个树对实例1的评估产生一百个分类c1、五十个分类c2和五十个分类c3。森林对实例1的OOB向量将为[0.5，0.25，0.25]，而这三个维度代表该分类被树所选择的概率。每个实例的OOB标签预测也被确定为来自OOB预测向量的最高概率类。对于这个例子，OOB标签预测将为c1。

在一个实施例中，可以将OOB预测类向量作为数据实例的一个新特征，附加到该数据实例。在该例子中，数据集的实例1具有向量[0.5，0.25，0.25]，作为由该森林确定的新特征，附加到数据实例。然后将附加的数据集传递到模型的下一层，用于生长该层的单个森林的决策树。

在一个实施例中，还计算森林/层的OOB精确度。将OOB精确度计算为OOB标签预测与所标记数据的实际数据标签的比较。在该例子中，标记为c1并具有OOB预测[0.5，0.25，0.25]的实例1具有OOB标签预测c1，其是被正确标记的。整个数据集的整个森林的OOB精确度被计算为由标签预测正确分类的实例的比例。

在一个实施例中，采用从原始层输出的附加数据集作为新的训练数据集来生成第二森林/层。第二森林的预定个数的随机树中的每个树从有替换地取自附加的训练数据集中的自举数据集生长。为新森林计算OOB预测，并进一步附加到训练数据集。确定新森林的OOB精确度，并将其与模型的前一森林/层的OOB精确度进行比较。

继续迭代：森林生成，数据附加，OOB预测和OOB精确度计算，直到当前层OOB精确度与前一层相比不再显著改变。在一个实施例中，大于0.005％的OOB精确度变化被认为是显著提高。

在一个实施例中，将每层的森林的输出附加到数据集，这样，数据集的每个实例都具有一个新的特征增加到所使用的模型的每一层。在这个实施例中，通过将新特征增加到每个数据实例，向每个后续层提供了关于每个实例的新信息，而不是将所确定的关于该实例的新信息压缩到后续层的补充数据模型中。由于模型保真度问题，这种补充模型可能会导致特征信息的损失，因为模型可能会在数据实例之间平滑特征信息，而不是将特定的新特征信息附加到每个实例。

在增加新的森林不能显著提高OOB精确度的时候，增加合并器功能，以合并最后一层的输出。另一个随机森林可以用作合并器，同时无需计算OOB预测或OOB精确度。在一个实施例中，可以将梯度增强功能、例如XGBoost用作合并最后一个森林的输出的功能。合并器的增加利用了由增加到模型的最后一个森林附加到数据集的额外特征。没有合并器的模型会产生未考虑增加到数据集的这个最终OOB预测器的结果，并提供较低的预测精确度。在合并器被增加到该层/森林之后，在机器学习上下文中，可以将模型用于所希望的目的，分析训练数据集之外的数据。

示例：

在一个实施例中，从数据集构建机器学习模型。决策树的随机森林从该数据集生长。确定该森林的OOB预测，并附加到该数据集。决策树的额外森林从该附加的数据集生长。将合并器增加到该模型，以合并额外森林的输出，并提供模型输出。

在一个实施例中，与每个森林的决策树的个数的说明一起，接收训练数据集。具有指定个数的决策树的第一随机森林从该数据集生长。使用该随机森林确定OOB预测和类标签。将OOB预测附加到训练数据集。确定森林的OOB精确度。具有指定个数的决策树的额外森林从附加的数据集生长。为该额外森林确定OOB预测和类标签。将OOB预测附加到已经附加了的数据集。确定额外森林的OOB精确度，将其与原始森林OOB精确度进行比较。继续这样的生长森林、确定OOB预测、类标签和精确度、将预测附加到数据集并将精确度与前一森林的精确度进行比较的过程，直到OOB精确度没有因为新的森林有显著的提高(＜0.005％)。将合并结构增加到最后一个森林，以提供模型的输出。

在一个实施例中，与每个森林的决策树的个数的说明以及决策树的类向量的说明一起，接收训练数据集。然后构建具有多个顺序层的模型。每层包括一单个随机森林，以减少在构建模型时的计算资源需求。具有指定个数的决策树的随机森林从该数据集生长。使用该随机森林确定OOB预测和类标签。将OOB预测附加到训练数据集。确定森林的OOB精确度。具有指定个数的决策树的额外森林从附加的数据集生长。为该额外森林确定OOB预测和类标签。将OOB预测附加到已经附加了的数据集。确定额外森林的OOB精确度，将其与原始森林OOB精确度进行比较。继续这样的生长森林、确定OOB预测、类标签和精确度、将预测附加到数据集并将精确度与前一森林的精确度进行比较的过程，直到OOB精确度没有因为新的森林有显著的提高(＜0.005％)。将合并结构增加到最后一个森林，以提供模型的输出。

实验结果：

构建本发明的实施例，并将其与使用标准数据集的标准进行比较：随机森林、XGBoost和gcforest模型。对于该实验，将每个森林的数的个数指定为五百，随机选择的属性的个数是√d(d是数据实例属性的个数)，每个树生长到纯叶节点。用随机森林和用于XGBoost的XGBoost合并器中的每一个来构建本发明的实施例，使用缺省设置。对于GCForest，每层包括四个完全随机森林和四个常规随机森林。使用三折类向量来用于类向量生成。

将每个数据集分成训练样本(50％)和测试样本(50％)。训练样本用于训练模型，测试样本用于评估所训练的模型。对于每个数据集，将每个模型类型构建、训练并评估五次。结果如下面的表1所示。本发明的实施例被标记为带有随机森林合并器的增量深度森林(IDF RF)以及带有XGBoost合并器的IDF(IDF XGBoost)。如表中所示，对于评估的大多数标准数据集，本发明的实施例的精确度超过已知的机器学习模型I的精确度。

表1：模型精确度(％)

图1提供了与实践所公开的发明相关联的示例性网络资源的示意图。可以在处理指令流的任何公开的元件的处理器中实践本发明。如图所示，联网客户端设备110无线连接到服务器子系统102。客户端设备104经由网络114无线连接到服务器子系统102。客户端设备104和110包括机器学习程序(未示出)以及足够的计算资源(处理器，内存，网络通信硬件)来执行程序。如图1所示，服务器子系统102包括服务器计算机150。图1描绘了根据本发明实施例的联网计算机系统1000内的服务器计算机150的组件的框图。应当理解，图1仅提供了一个实现的说明，并不暗示关于可以实现不同实施例的环境的任何限制。可以对所描绘的环境进行许多修改。

服务器计算机150可包括处理器154、高速缓存162、存储器158、持久存储器170、通信单元152、输入/输出(I/O)接口156和通信结构140。通信结构140提供高速缓存162、存储器158、持久存储器170、通信单元152和输入/输出(I/O)接口156之间的通信。通信结构140可以用任何被设计用于在处理器(例如微处理器、通信和网络处理器等)、系统存储器、外围设备以及系统内的任何其他硬件组件之间传递数据和/或控制信息的体系结构来实现。例如，通信结构140可以用一个或多个总线实现。

存储器158和持久存储器170是计算机可读存储介质。在该实施例中，存储器158包括随机存取存储器160(RAM)。通常，存储器158可包括任何合适的易失性或非易失性计算机可读存储介质。高速缓存162是快速存储器，其通过从存储器158保持最近访问的数据和最近访问的数据附近的数据来增强处理器154的性能。

用于实践本发明的实施例的程序指令和数据、例如机器学习程序175存储在持久存储器170中，用于由服务器计算机150的相应处理器154中的一个或多个通过高速缓存162执行和/或访问。在该实施例中，持久存储器170包括磁性硬盘驱动器。作为替代，或者除了磁性硬盘驱动器之外，持久存储器170可以包括固态硬盘驱动器、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存，或能够存储程序指令或数字信息的任何其他计算机可读存储介质。

持久存储器170使用的介质也可以是可移动的。例如，可移动硬盘驱动器可用于持久存储器170。其他示例包括光盘和磁盘、拇指驱动器和智能卡，其被插入到驱动器中以便转移到另一计算机可读存储介质上，该另一计算机可读存储介质也是持久存储器170的一部分。

在这些示例中，通信单元152提供与其他数据处理系统或设备的通信，包括客户端计算设备104和110的资源。在这些示例中，通信单元152包括一个或多个网络接口卡。通信单元152可以通过使用物理和无线通信链路之一或两者来提供通信。用于实现本发明的软件分发程序和其他程序和数据可以通过通信单元152下载到服务器计算机150的持久存储器170中。

I/O接口156允许与可以连接到服务器计算机150的其他设备输入和输出数据。例如，I/O接口156可以提供到外部设备190、例如键盘、小键盘、触摸屏、麦克风、数码相机和/或一些其他合适的输入设备的连接。外部设备190还可以包括便携式计算机可读存储介质，例如拇指驱动器、便携式光盘或磁盘、以及存储卡。用于实践本发明实施例的软件和数据，例如服务器计算机150上的机器学习程序175，可以存储在这样的便携式计算机可读存储介质上，并且可以通过I/O接口156加载到持久存储器170上。I/O接口156还连接到显示器180。

显示器180提供向用户显示数据的机制，并且可以是例如计算机监视器。显示器180还可以用作触摸屏，例如平板电脑的显示器。

图2提供了显示与本发明的实施例相关联的示例性活动的流程图200。在程序开始之后，在210接收训练数据集。训练数据集可以包括与所期望模型所用于的机器学习任务相关联的任何形式的数据。示例包括数字、字符、音频、视频和图像数据及其组合。在220接收每个森林的随机树的个数。该个数可以由用户选择，根据数据集和机器学习任务的本质自动确定，或者用一个随机或伪随机数发生器自动选择。随机树在230生长。每个树可以从自举数据样本生长，自举数据样本大小与训练数据集相当，有替换地选自训练数据集。自举数据可以无替换地选择，并使用一个小于训练数据的集合，但这些选择会降低所完成的模型的精确度，并导致模型到训练数据集的过度拟合。在240确定对于训练数据的每个实例的袋外(OOB)预测和标签预测。OOB预测提供关于每个数据实例的新特征信息，并在250附加到数据集的相应实例。在260为完整森林确定OOB精确度。为每个实例采用OOB标签预测，并在整个森林和整个训练数据集上汇总正确的预测，来计算OOB精确度。在270将OOB精确度与来自模型前一层的OOB精确度进行比较。如果OOB精确度有显著改进(在一个实施例中，＞0.005％的改进构成显著改进)，该方法返回步骤230，生长另一层/森林，并增加到该模型。在一个实施例中，在显著改进之后，方法返回步骤220，可以确定新的层/森林中的树的个数，其可以不同于前一层/森林。如果OOB精确度没有显著改进，在280将一个合并器添加到该模型，以汇总最后一层/森林的输出以供使用。该方法的模型仅包括优化OOB精确度所必须的森林/层的个数。模型将所有新特征信息(OOB预测)传递到每个后续层，从而在这个传递中不会丢失模型所确定的任何新特征信息。

图3提供了随着模型被构建训练数据集的演化的示例。如图所示，包括数据实例X的数据集300作为输入提供给森林1 310。对于数据集300的每个数据实例，由森林1 310为实例X确定类向量P1，并附加到实例X，产生附加数据集320。然后将附加的数据集320作为对森林2330的输入，森林2330为实例X产生类向量P2。将类向量P2附加到实例，产生附加数据集340。该过程继续，直到新森林的OOB精确度相比于前一森林未显著改进。将合并器350添加到该模型，以汇总最后增加的森林的输出，在图中由附加数据集350表示，其包含包括最后一个类向量Pn的所有附加类向量。合并器360的输出370构成对于数据实例的类预测。

应当理解，尽管本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。

云计算是一种服务交付模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便、按需的网络访问，所述可配置计算资源可以用最小的管理努力或与服务提供商的交互来快速配置和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可按需自动地单方面供应计算能力，诸如服务器时间和网络存储，而无需与服务提供商进行人工交互。

广泛的网络接入：通过网络提供功能，并通过标准机制进行访问，所述标准机制促进由异构的瘦客户端或厚客户端平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池化：提供者的计算资源被汇集起来以使用多租户模型来服务于多个消费者，不同的物理和虚拟资源根据需要被动态分配和重新分配。存在位置独立性的意义，因为消费者通常对所提供资源的确切位置不具有控制权或知识，但可能能够指定更高抽象层级的位置(例如，国家、州或数据中心)。

快速弹性：在某些情况下，可以快速且弹性地配置功能，以快速扩展缩小并迅速释放以快速收缩。对于消费者而言，可用于配置的功能通常似乎是无限的，可以在任何时间以任何数量购买。

度量的服务：云系统通过利用与服务类型(例如，存储、处理、带宽和活动用户帐户)相适应的某种抽象层级的计量能力，自动控制和优化资源使用。可以监视、控制和报告资源使用情况，为所使用服务的提供者和使用者提供透明性。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用在云基础设施上运行的提供者的应用。这些应用可通过诸如web浏览器(例如，基于web的电子邮件)的瘦客户端接口从不同客户端设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至个体应用功能的底层云基础结构，可能的例外是有限的用户特定的应用配置设置。

平台即服务(PaaS)：向消费者提供的能力是在云基础结构上部署消费者创建或获取的应用，所述应用是用提供者所支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础结构，但是具有对所部署的应用以及可能的应用托管环境配置的控制。

基础设施即服务(IaaS)：向消费者提供的能力是提供消费者能够部署和运行可包括操作系统和应用的任意软件的处理、存储、网络和其他基本计算资源。消费者不管理或控制底层云基础结构，而是具有对操作系统、存储、所部署的应用的控制，以及对所选联网组件(例如，主机防火墙)的可能有限的控制。

部署模型如下：

私有云：云基础结构仅为组织运营。它可以由组织或第三方管理，并且可存在于场所内或场所外。

社区云：云基础结构由多个组织共享，并支持具有共同关注点(例如，任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可存在于场所内或场所外。

公共云：云基础结构可供公众或大型行业团体使用，并由销售云服务的组织拥有。

混合云：云基础结构是由两个或更多个云(私有、社区或公共的)组成的，这些云仍然是唯一性实体，但通过标准化或专有技术来绑定在一起，这些技术实现数据和应用的可移植性(例如，用于云之间的负载平衡的云突发)。

云计算环境是面向服务的，着重于无状态性、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础架构。

现在参见图4，描绘说明性云计算环境50。如图所示，云计算环境50包括一个或多个云计算节点10，云消费者使用的本地计算设备(诸如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N)可与云计算节点10通信。节点10可以彼此通信。它们可以在一个或多个网络中，诸如在上文所述的私有云、社区云、公共云或混合云或其组合中，被物理地或虚拟地分组(未示出)。这允许云计算环境50提供基础结构、平台和/或软件作为服务，云消费者不需要为其在本地计算设备上维护资源。应当理解，图4中所示的计算设备54A-N的类型仅旨在是说明性的，并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备进行通信。

现在参见图5，示出了由云计算环境50(图4)提供的一组功能抽象层。应预先理解，图5中所示的部件、层和功能旨在仅是说明性的，并且本发明的实施例不限于此。如图所示，提供了以下层和相应的功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个示例中，管理层80可提供下文所描述的功能。资源供应81提供用于执行云计算环境内的任务的计算资源和其他资源的动态获取。计量和定价82在云计算环境内利用资源时提供成本跟踪，并针对这些资源的消费进行计费或开票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及对数据和其他资源的保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(SLA)计划和履行85为根据SLA预期的云计算资源的未来要求提供云计算资源的预安排和采购。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟教室教育交付93；数据分析处理94；事务处理95；以及机器学习程序175。

本发明可以是处于任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。本发明可有利地在处理指令流的任何系统(单个或并行)中实践。所述计算机程序产品可包含上面具有计算机可读程序指令的计算机可读存储介质(或媒体)，所述计算机可读程序指令用于致使处理器执行本发明的各方面。

计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体例子的非穷举列表包括以下：便携式计算机盘，硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)，静态随机存取存储器(SRAM)、便携式致密盘只读存储器(CD-ROM)，数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡片)或具有记录在其上的指令的凹槽中的凸起结构)，以及上述的任意合适的组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)、或通过导线传输的电信号。

本文所述的计算机可读程序指令可从计算机可读存储介质下载到相应的计算/处理设备，或经由网络(例如，互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令并且转发这些计算机可读程序指令以便存储在对应的计算/处理设备内的计算机可读存储介质中。

用于执行本技术方案的操作的计算机可读程序指令可以是汇编指令，指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据，集成电路的配置数据，或以一种或多种编程语言的任何组合编写的源代码或目标代码，包括面向对象的Smalltalk、C++等编程语言，以及过程式编程语言，例如“C”编程语言或类似的编程语言。计算机可读程序指令可完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。在一些实施例中，电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过使用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化，以便执行本技术方案的各方面。

在此参照根据技术方案的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本技术方案的各方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机的处理器，专用计算机或其他可编程数据处理装置，以产生机器，其通过计算机或其他可编程数据处理装置的处理器执行，创建用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令还可存储在可指导计算机的计算机可读存储介质中，可编程数据处理装置，和/或以特定方式起作用的其他设备，使得具有存储在其中的指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。

计算机可读程序指令还可以加载到计算机、其他可编程数据处理装置上，或使得在计算机上执行一系列操作步骤的其他装置，其他可编程装置或其他设备，以产生计算机实现的过程，使得在计算机上执行的指令，其他可编程装置或其他设备实现流程图和/或框图中的一个或多个方框中指定的功能和动作。

附图中的流程图和框图示出了根据本技术方案的不同实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。对此，流程图或框图中的每个方框可以代表模块、段或指令的一部分，其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些替代实施例中，框中所标注的功能可以不以图中所标注的次序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。还将注意的是，框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现，所述基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。

出于说明的目的已经呈现了对在此的不同实施例的描述，但是并不旨在是穷尽性的或局限于所披露的实施例。在不背离所描述的实施例的范围和精神的情况下，许多修改和变化对本领域的普通技术人员而言将是显而易见的。选择在此使用的术语以最佳地解释实施例的原理、实际应用或在市场上找到的技术上的技术改进，或使得本领域普通技术人员能够理解在此披露的实施例。

Claims

1.一种用于开发和训练用于分析数据的模型的计算机实现的方法，该方法包括：

通过以下步骤构造模型：

由一个或多个计算机处理器从数据集生长决策树的随机森林；

由一个或多个计算机处理器确定对于所述随机森林的袋外(OOB)预测；

由一个或多个计算机处理器将所述袋外预测附加到所述数据集；

由一个或多个计算机处理器使用具有附加的OOB预测的数据集来生长另外的随机森林；并且

由一个或多个计算机处理器用合并器合并所述另外的随机森林的输出。

2.根据权利要求1所述的方法，其中，每个随机森林都是从选自下组的数据生长的，该组由以下各项组成：数字、文本、音频、视频、图像数据位置、语音、音乐、娱乐、医疗保健、财务信息、车辆、物流、以及销售数据。

3.根据权利要求1所述的方法，其中，使用数据集来生长所述决策树的随机森林包括：使用自举样本来生长决策树，以生长每个树，所述自举样本是有替换地取自所述数据集。

4.根据权利要求1所述的方法，进一步包括：确定每个随机森林的OOB精确度，并且添加随机森林，直到所述OOB精确度没有显著提高。

5.根据权利要求1所述的方法，其中，所述合并器包括选自由随机森林和梯度提升结构组成的组中的结构。

6.根据权利要求1所述的方法，其中，所述模型包括层序列，每层包括单个随机森林。

7.一种用于开发和训练用于分析数据的模型的计算机程序产品，所述计算机程序产品包括一个或多个计算机可读存储设备和存储在所述一个或多个计算机可读存储设备上的程序指令，所述程序指令包括：

编程指令，当由一个或多个计算机处理器执行时，所述编程指令使所述处理器执行如权利要求1至6中任一项所述的方法的步骤。

8.一种用于开发和训练用于分析数据的模型的计算机系统，所述计算机系统包括：

一个或多个计算机处理器；

一个或多个计算机可读存储设备；

存储在所述一个或多个计算机可读存储设备上的用于由所述至少一个计算机处理器执行的程序指令，所述程序指令包括：

编程指令，当由所述一个或多个计算机处理器执行时，所述编程指令使所述计算机处理器执行如权利要求1至6中任一项所述的方法的步骤。

9.根据权利要求1所述的方法，包括：

由一个或多个计算机处理器接收训练数据集；

确定所述随机森林的OOB精确度；

由一个或多个计算机处理器确定所述另外的随机森林的OOB精确度；

由一个或多个计算机处理器比较所述随机森林和所述另外的随机森林的OOB精确度。

10.根据权利要求9所述的方法，包括：

通过以下步骤构建顺序层的模型，每一层包括单个随机森林：

由一个或多个计算机处理器接收训练数据集；

由一个或多个计算机处理器接收每个森林的确定数量的树和类向量规范；

由一个或多个计算机处理器使用所述训练数据集为第一森林增长所确定的树的数量；

由一个或多个计算机处理器确定对于所述第一森林的第一包外(OOB)预测；

由一个或多个计算机处理器将OOB预测附加到所述数据集；

由一个或多个计算机处理器确定所述第一森林的OOB精确度；

由一个或多个计算机处理器，使用附加有OOB预测的训练数据集合，为另外的森林增加所确定的树的数量；

由一个或多个计算机处理器确定用于所述另外的森林的另外的OOB预测；

由一个或多个计算机处理器将另外的OOB预测附加到所述数据集；

由一个或多个计算机处理器确定所述另外的森林的另外的OOB精确度；

由一个或多个计算机处理器添加森林，直到所述另外的OOB精确度未提高；并且

由一个或多个计算机处理器合并所述另外的森林的输出。