CN109829471A

CN109829471A - 随机森林的训练方法、装置、存储介质和电子设备

Info

Publication number: CN109829471A
Application number: CN201811557768.3A
Authority: CN
Inventors: 高睿; 于福超
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-05-31
Anticipated expiration: 2038-12-19
Also published as: CN109829471B

Abstract

本公开涉及一种随机森林的训练方法、装置、存储介质和电子设备，该方法包括：通过n组训练数据集训练出包含n棵树的随机森林；通过随机森林中的每棵树对应的描述数据对每棵树进行评判，以获取每棵树对应的目标预测结果；当任一棵树的正确率小于预设阈值时，根据每棵树的正确率，将该n棵树合并为m棵树；并获取该m棵树对应的m组训练数据集；以m组训练数据集为基础，循环执行上述步骤，直至获取到每棵树对应的目标预测结果的正确率都大于或等于该预设阈值的随机森林。能够在对随机森林的多次训练过程中持续对训练数据分布和模型数量进行改动，在保证随机森林分类预测的泛化性的同时，强化关键的训练数据的作用，提高随机森林分类预测的精确度。

Description

随机森林的训练方法、装置、存储介质和电子设备

技术领域

本公开涉及机器学习领域，具体地，涉及一种随机森林的训练方法、装置、存储介质和电子设备。

背景技术

随机森林是一个包含多个决策树的分类器，其输出的预测结果是由每棵树输出的预测结果的众数而定。决策树是一种用于监督学习的树形结构模型。在监督学习中，可以先给定一组样本，其中的每个样本都包含一组属性(描述数据)和一个预先确定的类别(预测结果)。通过学习这一组样本，可以得到一个具备分类功能的决策树，该决策树能够对新出现的事件(或称示例)给出正确的分类(即输出预测结果)。相关技术中，在对随机森林进行训练时，通常通过全量训练数据中的一部分数据分别对随机森林中的每棵决策树进行一次训练，再在对新事件数据进行分类预测时通过投票方式输出得票数最多的预测结果，以完成事件的分类。这种分类方式可以避免分类预测中的过拟合现象，提高分类器的泛化性，但只经历单次训练的决策树的预测正确率不高，无法应对训练过程中训练数据中数据特征不均衡(某个分类的数据极多)的情况，进而造成整个分类预测过程的精确度降低的问题。

发明内容

为克服相关技术中存在的问题，本公开的目的是提供一种随机森林的训练方法、装置、存储介质和电子设备。

为了实现上述目的，根据本公开实施例的第一方面，提供一种随机森林的训练方法，所述方法包括：

通过第一训练数据训练出随机森林，所述第一训练数据包含n组训练数据集，所述随机森林包含n棵树，所述训练数据集包含描述数据和预测结果；

通过所述随机森林中的每棵树对应的训练数据集中的描述数据对所述每棵树进行评判，以获取所述每棵树对应的目标预测结果；

当所述随机森林中任一棵树对应的目标预测结果的正确率小于预设阈值时，根据所述每棵树对应的目标预测结果的正确率，将所述n棵树合并为m棵树，其中，m小于或等于n；

将所述m棵树对应的m组描述数据与m个目标预测结果合成为m组训练数据集，作为第二训练数据；

将所述第二训练数据作为所述第一训练数据，循环执行从所述通过第一训练数据训练出随机森林到所述将所述m棵树对应的m组描述数据与m个目标预测结果合成为m个训练数据集的步骤，直至获取到目标随机森林，所述目标随机森林中的每棵树对应的目标预测结果的正确率都大于或等于所述预设阈值。

可选的，所述方法还包括：

将待预测事件对应的描述数据作为所述目标随机森林的输入，以获取所述目标随机森林中的多棵树输出的多个预测结果；

通过投票方式确定所述多个预测结果中的出现次数最多的预测结果，作为所述待预测事件的预测结果。

可选的，在所述通过第一训练数据训练出随机森林之前，所述方法还包括：

在全量训练数据中确定n组训练数据集，作为所述第一训练数据，所述全量训练数据包括预先采集的所述待预测事件的同类事件对应的描述数据，以及所述同类事件的预测结果。

可选的，所述根据所述每棵树对应的目标预测结果的正确率，将所述n棵树合并为m棵树，包括：

按照所述每棵树对应的目标预测结果的正确率从小到大的顺序，对所述n棵树进行排序；

将排序后的所述n棵树中的第i棵树和第n+1-i棵树合并为树模型；

通过所述第i棵树对应的训练数据集中的描述数据对所述树模型进行评判，以获取所述树模型对应的第一目标预测结果；

通过所述第n+1-i棵树对应的训练数据集中的描述数据对所述树模型进行评判，以获取所述树模型对应的第二目标预测结果；

根据所述第i棵树对应的目标预测结果的第一正确率、所述第n+1-i棵树对应的目标预测结果的第二正确率、所述第一目标预测结果的第三正确率、所述第二目标预测结果的第四正确率以及预设的正确率阈值，确定保留所述树模型、所述第i棵树和所述第n+1-i棵树中的一者或两者；

令i＝i+1，循环执行从所述将排序后的所述n棵树中的第i棵树和第n+1-i棵树合并为树模型到所述根据所述第i棵树对应的目标预测结果的第一正确率、所述第n+1-i棵树对应的目标预测结果的第二正确率、所述第一目标预测结果的第三正确率、所述第二目标预测结果的第四正确率以及预设的正确率阈值，确定保留所述树模型、所述第i棵树和所述第n+1-i棵树中的一者或两者的步骤，直至获取到所述m棵树。

可选的，所述根据所述第i棵树对应的目标预测结果的第一正确率、所述第n+1-i棵树对应的目标预测结果的第二正确率、所述第一目标预测结果的第三正确率、所述第二目标预测结果的第四正确率以及预设的正确率阈值，确定保留所述树模型、所述第i棵树和所述第n+1-i棵树中的一者或两者，包括：

获取所述第一正确率与所述第二正确率的和，作为第一正确率结果；

获取所述第三正确率与所述第四正确率的和减去所述正确率阈值的差值，作为第二正确率结果；

当所述第一正确率结果小于所述第二正确率结果时，确定保留所述树模型；或者，

当所述第一正确率结果大于或等于所述第二正确率结果时，确定保留所述第i棵树和所述第n+1-i棵树。

当所述第三正确率大于所述第一正确率，并且所述第四正确率大于所述第二正确率时，保留所述树模型；或者，

当所述第四正确率小于或等于所述第二正确率，或者所述第三正确率小于或等于所述第一正确率时，保留所述第i棵树和所述第n+1-i棵。

可选的，所述将所述m棵树对应的m组描述数据与m个目标预测结果合成为m组训练数据集，作为第二训练数据，包括：

针对于所述m棵树中通过两棵树合并出的一个或多个目标树模型，将所述两棵树对应的两组描述数据和两个目标预测结果合成为每个目标树模型对应的训练数据集；

针对于所述m棵树中除所述目标树模型之外的一棵或多棵目标树，将每棵目标树对应的描述数据和目标预测结果合成为所述每棵目标树对应的训练数据集；

获取所述每个目标树模型对应的训练数据集以及所述每棵目标树对应的训练数据集，以生成所述m组训练数据集，作为所述第二训练数据。

根据本公开实施例的第二方面，提供一种随机森林的训练装置，所述装置包括：

随机森林预训练模块，用于通过第一训练数据训练出随机森林，所述第一训练数据包含n组训练数据集，所述随机森林包含n棵树，所述训练数据集包含描述数据和预测结果；

随机森林评判模块，用于通过所述随机森林中的每棵树对应的训练数据集中的描述数据对所述每棵树进行评判，以获取所述每棵树对应的目标预测结果；

随机森林合并模块，用于当所述随机森林中任一棵树对应的目标预测结果的正确率小于预设阈值时，根据所述每棵树对应的目标预测结果的正确率，将所述n棵树合并为m棵树，其中，m小于或等于n；

数据集合成模块，用于将所述m棵树对应的m组描述数据与m个目标预测结果合成为m组训练数据集，作为第二训练数据；

循环执行模块，用于将所述第二训练数据作为所述第一训练数据，循环执行从所述通过第一训练数据训练出随机森林到所述将所述m棵树对应的m组描述数据与m个目标预测结果合成为m个训练数据集的步骤，直至获取到目标随机森林，所述目标随机森林中的每棵树对应的目标预测结果的正确率都大于或等于所述预设阈值。

可选的，所述装置还包括：

数据输入模块，用于将待预测事件对应的描述数据作为所述目标随机森林的输入，以获取所述目标随机森林中的多棵树输出的多个预测结果；

结果确定模块，用于通过投票方式确定所述多个预测结果中的出现次数最多的预测结果，作为所述待预测事件的预测结果。

可选的，所述装置还包括：

训练数据确定模块，用于在全量训练数据中确定n组训练数据集，作为所述第一训练数据，所述全量训练数据包括预先采集的所述待预测事件的同类事件对应的描述数据，以及所述同类事件的预测结果。

可选的，所述随机森林合并模块，包括：

正确率排序子模块，用于按照所述每棵树对应的目标预测结果的正确率从小到大的顺序，对所述n棵树进行排序；

模型合并子模块，用于将排序后的所述n棵树中的第i棵树和第n+1-i棵树合并为树模型；

第一模型评判子模块，用于通过所述第i棵树对应的训练数据集中的描述数据对所述树模型进行评判，以获取所述树模型对应的第一目标预测结果；

第二模型评判子模块，用于通过所述第n+1-i棵树对应的训练数据集中的描述数据对所述树模型进行评判，以获取所述树模型对应的第二目标预测结果；

模型保留子模块，用于根据所述第i棵树对应的目标预测结果的第一正确率、所述第n+1-i棵树对应的目标预测结果的第二正确率、所述第一目标预测结果的第三正确率、所述第二目标预测结果的第四正确率以及预设的正确率阈值，确定保留所述树模型、所述第i棵树和所述第n+1-i棵树中的一者或两者；

循环执行子模块，用于令i＝i+1，循环执行从所述将排序后的所述n棵树中的第i棵树和第n+1-i棵树合并为树模型到所述根据所述第i棵树对应的目标预测结果的第一正确率、所述第n+1-i棵树对应的目标预测结果的第二正确率、所述第一目标预测结果的第三正确率、所述第二目标预测结果的第四正确率以及预设的正确率阈值，确定保留所述树模型、所述第i棵树和所述第n+1-i棵树中的一者或两者的步骤，直至获取到所述m棵树。

可选的，所述模型保留子模块，用于：

可选的，所述数据集合成模块，包括：

第一数据集合成子模块，用于针对于所述m棵树中通过两棵树合并出的一个或多个目标树模型，将所述两棵树对应的两组描述数据和两个目标预测结果合成为每个目标树模型对应的训练数据集；

第二数据集合成子模块，用于针对于所述m棵树中除所述目标树模型之外的一棵或多棵目标树，将每棵目标树对应的描述数据和目标预测结果合成为所述每棵目标树对应的训练数据集；

数据集生成子模块，用于获取所述每个目标树模型对应的训练数据集以及所述每棵目标树对应的训练数据集，以生成所述m组训练数据集，作为所述第二训练数据。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本公开实施例第一方面提供的随机森林的训练方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开实施例第一方面提供的随机森林的训练方法的步骤。

通过上述技术方案，本公开能够通过第一训练数据训练出随机森林，该第一训练数据包含n组训练数据集，该随机森林包含n棵树，该训练数据集包含描述数据和预测结果；通过该随机森林中的每棵树对应的训练数据集中的描述数据对上述每棵树进行评判，以获取上述每棵树对应的目标预测结果；当该随机森林中任一棵树对应的目标预测结果的正确率小于预设阈值时，根据上述每棵树对应的目标预测结果的正确率，将该n棵树合并为m棵树，其中，m小于或等于n；将该m棵树对应的m组描述数据与m个目标预测结果合成为m组训练数据集，作为第二训练数据；将该第二训练数据作为该第一训练数据，循环执行从该通过第一训练数据训练出随机森林到该将该m棵树对应的m组描述数据与m个目标预测结果合成为m个训练数据集的步骤，直至获取到目标随机森林，该目标随机森林中的每棵树对应的目标预测结果的正确率都大于或等于该预设阈值。能够在对随机森林的多次训练过程中持续对训练数据分布和模型数量进行改动，在保证随机森林分类预测的泛化性同时，强化关键的训练数据的作用，提高随机森林分类预测的精确度。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种随机森林的训练方法的流程图；

图2是根据图1所示实施例示出的另一种随机森林的训练方法的流程图；

图3是根据图2所示实施例示出的又一种随机森林的训练方法的流程图；

图4是根据图3所示实施例示出的一种树的合并方法的流程图；

图5是根据图3所示实施例示出的一种训练数据合成方法的流程图；

图6是根据一示例性实施例示出的一种随机森林的训练装置的框图；

图7是根据图6所示实施例示出的另一种随机森林的训练装置的框图；

图8是根据图6所示实施例示出的又一种随机森林的训练装置的框图；

图9是根据图8所示实施例示出的一种随机森林合并模块的框图；

图10是根据图8所示实施例示出的一种数据集合成模块的框图；

图11是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种随机森林的训练方法的流程图，如图1所示，该方法包括：

步骤101，通过第一训练数据训练出随机森林。

其中，该第一训练数据包含n组训练数据集，该随机森林包含n棵树，该训练数据集包含描述数据和预测结果。上述的树为决策树(或称分类树)，该决策树为现有的树形结构的学习模型，该随机森林由多个决策树组成。

以水果的分类预测为例，该n组训练数据集中的任一组训练数据集可以如下列的表1所示。

表1

A	B	C	D	E
					黄皮	白瓤	月牙状	味甜	香蕉
绿皮	红瓤	球状	味甜	西瓜
					红皮	白瓤	球状	味酸甜	苹果

其中，表1中的每一行为一个预测事件(或称实例)，表1中包含4个实例，A、B、C和D这四列中的数据为描述数据，E列中的数据为预测结果。需要说明的是，每个训练数据集中可以包含大量实例对应的大量描述数据和对应的预测结果，此处的表1仅以香蕉、西瓜和苹果这三个实例对应的描述数据和对应的预测结果为例进行展示。

示例地，在该步骤101中，可以通过n组与表1中所示的数据集类似的训练数据集训练出n棵决策树，作为该随机森林。该步骤可以称为随机森林的预训练步骤，该预训练步骤后得到的随机森林在分类精准度方面还具备一定的缺陷，因此需要在下列步骤中结合AdaBoosting方法的理念，对随机森林中的每棵树进行多次训练，并在训练过程中持续对训练数据的分布进行改动，逐步强化关键的训练数据的作用，提高该随机森林的精准度。

步骤102，通过该随机森林中的每棵树对应的训练数据集中的描述数据对上述每棵树进行评判，以获取上述每棵树对应的目标预测结果。

示例地，在获取到上述n棵决策树后，可以通过原训练数据集中的描述数据对每棵树进行评判，即，删除原训练数据集中的预测结果，将剩下的描述数据输入其对应的已经通过预训练的决策树，得到该决策树当前的预测结果(即目标预测结果)，进而获取到每棵决策树对应的正确率。

以上述表1为例，A、B、C和D这四列中的描述数据作为使用表1中的训练数据集预训练出的决策树A的输入，得到目标预测结果。该目标预测结果实际上也为包括三个预测结果数据的列。可以将该目标预测结果中的数据与上述的E列中的数据的进行对比，以获取该目标预测结构的正确率。例如，该目标预测结果中包括：香蕉、西瓜和荔枝，则与上述的E列相比，该目标预测结果的正确率即为2/3。

步骤103，当该随机森林中任一棵树对应的目标预测结果的正确率小于预设阈值时，根据上述每棵树对应的目标预测结果的正确率，将该n棵树合并为m棵树。

其中，m小于或等于n。

步骤104，将该m棵树对应的m组描述数据与m个目标预测结果合成为m组训练数据集，作为第二训练数据。

示例地，当该随机森林中任一棵树对应的目标预测结果的正确率小于预设阈值时，可以认为当前的随机森林的精确度依然较低，需要重新预训练出新的随机森林，以提高随机森林中的每棵决策树的精确度。可以理解的是，如果依然使用原来的训练数据集进行训练，得到的随机森林与已经过评判的随机森林不会存在太大差别。因此，在该步骤104中，针对于每棵决策树，此处可以通过用于评判的该决策树的描述数据和该决策树输出的目标预测结果组成新的训练数据集，进而针对于每棵决策树重新训练出一棵新的决策树。在这个过程中，为了避免正确率过低的决策树对下一轮训练的影响，同时减少每次训练的决策树的数量以减小资源损耗量，可以在上述步骤103中通过每棵树对应的目标预测结果的正确率将已经过评判n棵决策树进行一定程度的合并(实际为用正确率较高的决策树去合并正确率较低的决策树)。之后，再通过保留下来的m棵决策树对应的描述数据和目标预测结果针对于m棵决策树种每棵决策树重新训练出一棵新的决策树。

步骤105，将该第二训练数据作为该第一训练数据，循环执行从该通过第一训练数据训练出随机森林到该将该m棵树对应的m组描述数据与m个目标预测结果合成为m个训练数据集的步骤，直至获取到目标随机森林。

其中，该目标随机森林中的每棵树对应的目标预测结果的正确率都大于或等于该预设阈值。

示例地，可以理解的是，可以对重新训练出的每棵新的决策树再次进行评判，并在重新训练出的决策树输出的目标预测结果的正确率达到该预设阈值时，获取该随机森林，作为精确度达到标准可以投入使用的目标随机森林。而当决策树输出的目标预测结果的正确率还是没有达到该预设阈值时，可以将新获取到的第二训练数据(即重新训练出的多棵决策树对应的描述数据和目标预测结果)作为上述的第一训练数据，循环执行上述步骤101到104，直至每棵树对应的目标预测结果的正确率都大于或等于该预设阈值，进而得到该目标随机森林。

综上所述，本公开能够通过第一训练数据训练出随机森林，该第一训练数据包含n组训练数据集，该随机森林包含n棵树，该训练数据集包含描述数据和预测结果；通过该随机森林中的每棵树对应的训练数据集中的描述数据对上述每棵树进行评判，以获取上述每棵树对应的目标预测结果；当该随机森林中任一棵树对应的目标预测结果的正确率小于预设阈值时，根据上述每棵树对应的目标预测结果的正确率，将该n棵树合并为m棵树，其中，m小于或等于n；将该m棵树对应的m组描述数据与m个目标预测结果合成为m组训练数据集，作为第二训练数据；将该第二训练数据作为该第一训练数据，循环执行从该通过第一训练数据训练出随机森林到该将该m棵树对应的m组描述数据与m个目标预测结果合成为m个训练数据集的步骤，直至获取到目标随机森林，该目标随机森林中的每棵树对应的目标预测结果的正确率都大于或等于该预设阈值。能够在对随机森林的多次训练过程中持续对训练数据的分布进行改动并对随机森林的模型规模进行缩减，在保证随机森林分类预测的泛化性，减小随机森林训练过程中的计算量的同时，强化关键的训练数据的作用，提高随机森林分类预测的精确度。

图2是根据图1所示实施例示出的另一种随机森林的训练方法的流程图，如图2所示，在上述步骤105之后，该方法还可以包括：

步骤106，将待预测事件对应的描述数据作为该目标随机森林的输入，以获取该目标随机森林中的多棵树输出的多个预测结果。

步骤107，通过投票方式确定上述多个预测结果中的出现次数最多的预测结果，作为该待预测事件的预测结果。

示例地，在获取到该目标随机森林后，可以通过该目标随机森林对现有的待预测事件的描述数据进行预测。其中，目标随机森林中的每棵决策树都会输出一个预测结果。在上述多个预测结果中，可以通过随机森林的voting(投票)方式选出一个出现次数最多的预测结果作为该待预测事件的最终预测结果。

依然以上述的水果的分类预测为例，设该目标随机森林中包含30棵树，该待预测事件对应的描述数据为绿皮、绿瓤、球状、味甜。该目标随机森林会根据该描述数据输出30个预测结果，其中，25个为葡萄，3个为青苹果，2个为猕猴桃。如此，则将其中得票率最高(出现次数最多)的葡萄作为该最终预测结果。

图3是根据图2所示实施例示出的又一种随机森林的训练方法的流程图，如图3所示，在上述步骤101之前，该方法可以包括：

步骤108，在全量训练数据中确定n组训练数据集，作为该第一训练数据。

其中，该全量训练数据包括预先采集的该待预测事件的同类事件对应的描述数据，以及该同类事件的预测结果。原则上该全量训练数据需要尽可能详尽的对一种同类事件进行描述。依然以上述的水果的分类预测为例，该同类事件即为水果的分类预测事件，则需要采集尽量多的种类的水果的预测事件(尽量多的实例)的数据。需要说明的是，该步骤108中的训练数据集的确定方式可以为随机选取的方式，每个训练数据集可以包含完全不同的实例，或者训练数据集之间可以包含相互重合的部分。

图4是根据图3所示实施例示出的一种树的合并方法的流程图，如图4所示，上述步骤103可以包括：

步骤1031，按照上述每棵树对应的目标预测结果的正确率从小到大的顺序，对该n棵树进行排序。

步骤1032，将排序后的该n棵树中的第i棵树和第n+1-i棵树合并为树模型。

示例地，此处需要用正确率较高的决策树去合并正确率较低的决策树，因此，需要先将n棵树中的每棵树按照正确率进行从小到大的排序。例如，设n＝4，其正确率分别为0.2，0.4，0.5，0.8。可以在排序后，分别对正确率为0.2(第1棵树)和0.8(第4+1-1棵树，即第4棵树)的两棵决策树，以及正确率为0.4(第2棵树)和0.5(第4+1-2棵树，即第3棵树)的两棵决策树进行合并。合并后会得到两棵决策树连接起来的一个树模型。

步骤1033，通过该第i棵树对应的训练数据集中的描述数据对该树模型进行评判，以获取该树模型对应的第一目标预测结果。

步骤1034，通过该第n+1-i棵树对应的训练数据集中的描述数据对该树模型进行评判，以获取该树模型对应的第二目标预测结果。

示例地，在步骤1033和1034中，需要通过两棵决策树对应的训练数据集中的描述数据对这两棵树组成的数据模型进行评判，以获取两个目标预测结果，再加上两棵树原本已获取到的两个目标预测结果，此处对于这两棵树实际生成了四个目标预测结果。

步骤1035，根据该第i棵树对应的目标预测结果的第一正确率、该第n+1-i棵树对应的目标预测结果的第二正确率、该第一目标预测结果的第三正确率、该第二目标预测结果的第四正确率以及预设的正确率阈值，确定保留该树模型、该第i棵树和该第n+1-i棵树中的一者或两者。

示例地，可以通过预先设定的正确率阈值对四个目标预测结果的正确率进行判定，以确定要保留在上述的m棵树中的决策树，此时，该步骤1035可以包括：获取该第一正确率与该第二正确率的和，作为第一正确率结果；获取该第三正确率与该第四正确率的和减去该正确率阈值的差值，作为第二正确率结果；当该第一正确率结果小于该第二正确率结果时，确定保留该树模型；或者，当该第一正确率结果大于或等于该第二正确率结果时，确定保留该第i棵树和该第n+1-i棵树。

或者，由于正确率阈值需要人为设定，容易出现误差，因此可以直接将上述四个目标预测结果的正确率进行比对，以确定要保留在上述的m棵树中的决策树，此时，该步骤1035可以包括：当该第三正确率大于该第一正确率，并且该第四正确率大于该第二正确率时，保留该树模型；或者，当该第四正确率小于或等于该第二正确率，或者该第三正确率小于或等于该第一正确率时，保留该第i棵树和该第n+1-i棵。

步骤1036，令i＝i+1，循环执行从该将排序后的该n棵树中的第i棵树和第n+1-i棵树合并为树模型到该根据该第i棵树对应的目标预测结果的第一正确率、该第n+1-i棵树对应的目标预测结果的第二正确率、该第一目标预测结果的第三正确率、该第二目标预测结果的第四正确率以及预设的正确率阈值，确定保留该树模型、该第i棵树和该第n+1-i棵树中的一者或两者的步骤，直至获取到该m棵树。

示例地，可以循环执行上述步骤1032至1035，直至完成上述的n棵树中的每棵决策树的合并，获取到该m棵树。可以理解的是，在极端情况下，该n棵树中的每棵树都不需要进行合并，因此在上文中设定m小于或等于n。

图5是根据图3所示实施例示出的一种训练数据合成方法的流程图，如图5所示，上述步骤104可以包括：

步骤1041，针对于该m棵树中通过两棵树合并出的一个或多个目标树模型，将该两棵树对应的两组描述数据和两个目标预测结果合成为每个目标树模型对应的训练数据集。

步骤1042，针对于该m棵树中除该目标树模型之外的一棵或多棵目标树，将每棵目标树对应的描述数据和目标预测结果合成为上述每棵目标树对应的训练数据集。

步骤1043，获取该每个目标树模型对应的训练数据集以及上述每棵目标树对应的训练数据集，以生成该m组训练数据集，作为该第二训练数据。

示例地，此时，该m棵树中包含两棵树合并而成的树模型(目标树模型)，以及经过上述步骤1035确定的不需要进行合并的决策树(目标树)。对于通过两棵树合并出的一个或多个目标树模型，需要通过这两棵树对应的两组描述数据和两个目标预测结果合成其对应的训练数据集；对于不需要进行合并的目标树，可以直接将该目标树的描述数据和目标预测结果合成为其对应的训练数据集，以在下个循环中训练出对应的新的决策树。

图6是根据一示例性实施例示出的一种随机森林的训练装置的框图，如图6所示，该装置600包括：

随机森林预训练模块610，用于通过第一训练数据训练出随机森林，该第一训练数据包含n组训练数据集，该随机森林包含n棵树，该训练数据集包含描述数据和预测结果；

随机森林评判模块620，用于通过该随机森林中的每棵树对应的训练数据集中的描述数据对上述每棵树进行评判，以获取上述每棵树对应的目标预测结果；

随机森林合并模块630，用于当该随机森林中任一棵树对应的目标预测结果的正确率小于预设阈值时，根据上述每棵树对应的目标预测结果的正确率，将该n棵树合并为m棵树，其中，m小于或等于n；

数据集合成模块640，用于将该m棵树对应的m组描述数据与m个目标预测结果合成为m组训练数据集，作为第二训练数据；

循环执行模块650，用于将该第二训练数据作为该第一训练数据，循环执行从该通过第一训练数据训练出随机森林到该将该m棵树对应的m组描述数据与m个目标预测结果合成为m个训练数据集的步骤，直至获取到目标随机森林，该目标随机森林中的每棵树对应的目标预测结果的正确率都大于或等于该预设阈值。

图7是根据图6所示实施例示出的另一种随机森林的训练装置的框图，如图7所示，该装置600还包括：

数据输入模块660，用于将待预测事件对应的描述数据作为该目标随机森林的输入，以获取该目标随机森林中的多棵树输出的多个预测结果；

结果确定模块670，用于通过投票方式确定上述多个预测结果中的出现次数最多的预测结果，作为该待预测事件的预测结果。

图8是根据图6所示实施例示出的又一种随机森林的训练装置的框图，如图8所示，该装置600还包括：

训练数据确定模块680，用于在全量训练数据中确定n组训练数据集，作为该第一训练数据，该全量训练数据包括预先采集的该待预测事件的同类事件对应的描述数据，以及该同类事件的预测结果。

图9是根据图8所示实施例示出的一种随机森林合并模块的框图，如图8所示，该随机森林合并模块630，包括：

正确率排序子模块631，用于按照上述每棵树对应的目标预测结果的正确率从小到大的顺序，对该n棵树进行排序；

模型合并子模块632，用于将排序后的该n棵树中的第i棵树和第n+1-i棵树合并为树模型；

第一模型评判子模块633，用于通过该第i棵树对应的训练数据集中的描述数据对该树模型进行评判，以获取该树模型对应的第一目标预测结果；

第二模型评判子模块634，用于通过该第n+1-i棵树对应的训练数据集中的描述数据对该树模型进行评判，以获取该树模型对应的第二目标预测结果；

模型保留子模块635，用于根据该第i棵树对应的目标预测结果的第一正确率、该第n+1-i棵树对应的目标预测结果的第二正确率、该第一目标预测结果的第三正确率、该第二目标预测结果的第四正确率以及预设的正确率阈值，确定保留该树模型、该第i棵树和该第n+1-i棵树中的一者或两者；

循环执行子模块636，用于令i＝i+1，循环执行从该将排序后的该n棵树中的第i棵树和第n+1-i棵树合并为树模型到该根据该第i棵树对应的目标预测结果的第一正确率、该第n+1-i棵树对应的目标预测结果的第二正确率、该第一目标预测结果的第三正确率、该第二目标预测结果的第四正确率以及预设的正确率阈值，确定保留该树模型、该第i棵树和该第n+1-i棵树中的一者或两者的步骤，直至获取到该m棵树。

可选的，该模型保留子模块635，用于：

获取该第一正确率与该第二正确率的和，作为第一正确率结果；

获取该第三正确率与该第四正确率的和减去该正确率阈值的差值，作为第二正确率结果；

当该第一正确率结果小于该第二正确率结果时，确定保留该树模型；或者，

当该第一正确率结果大于或等于该第二正确率结果时，确定保留该第i棵树和该第n+1-i棵树。

可选的，该模型保留子模块635，用于：

当该第三正确率大于该第一正确率，并且该第四正确率大于该第二正确率时，保留该树模型；或者，

当该第四正确率小于或等于该第二正确率，或者该第三正确率小于或等于该第一正确率时，保留该第i棵树和该第n+1-i棵。

图10是根据图8所示实施例示出的一种数据集合成模块的框图，如图8所示，该数据集合成模块640，包括：

第一数据集合成子模块641，用于针对于该m棵树中通过两棵树合并出的一个或多个目标树模型，将该两棵树对应的两组描述数据和两个目标预测结果合成为每个目标树模型对应的训练数据集；

第二数据集合成子模块642，用于针对于该m棵树中除该目标树模型之外的一棵或多棵目标树，将每棵目标树对应的描述数据和目标预测结果合成为上述每棵目标树对应的训练数据集；

数据集生成子模块643，用于获取该每个目标树模型对应的训练数据集以及上述每棵目标树对应的训练数据集，以生成该m组训练数据集，作为该第二训练数据。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据一示例性实施例示出的一种电子设备1100的框图。如图11所示，该电子设备1100可以包括：处理器1101，存储器1102，多媒体组件1103，输入/输出(I/O)接口1104，以及通信组件1105。

其中，处理器1101用于控制该电子设备1100的整体操作，以完成上述的随机森林的训练方法中的全部或部分步骤。存储器1102用于存储各种类型的数据以支持在该电子设备1100的操作，这些数据例如可以包括用于在该电子设备1100上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件1103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1102或通过通信组件1105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口1104为处理器1101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1105用于该电子设备1100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件1105可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备1100可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的随机森林的训练方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，例如包括程序指令的存储器1102，上述程序指令可由电子设备1100的处理器1101执行以完成上述的随机森林的训练方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，本领域技术人员在考虑说明书及实践本公开后，容易想到本公开的其它实施方案，均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。同时本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。本公开并不局限于上面已经描述出的精确结构，本公开的范围仅由所附的权利要求来限制。

Claims

1.一种随机森林的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在所述通过第一训练数据训练出随机森林之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述每棵树对应的目标预测结果的正确率，将所述n棵树合并为m棵树，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第i棵树对应的目标预测结果的第一正确率、所述第n+1-i棵树对应的目标预测结果的第二正确率、所述第一目标预测结果的第三正确率、所述第二目标预测结果的第四正确率以及预设的正确率阈值，确定保留所述树模型、所述第i棵树和所述第n+1-i棵树中的一者或两者，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述第i棵树对应的目标预测结果的第一正确率、所述第n+1-i棵树对应的目标预测结果的第二正确率、所述第一目标预测结果的第三正确率、所述第二目标预测结果的第四正确率以及预设的正确率阈值，确定保留所述树模型、所述第i棵树和所述第n+1-i棵树中的一者或两者，包括：

7.根据权利要求4所述的方法，其特征在于，所述将所述m棵树对应的m组描述数据与m个目标预测结果合成为m组训练数据集，作为第二训练数据，包括：

8.一种随机森林的训练装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。