CN112270352A

CN112270352A - 一种基于并行剪枝优化的决策树生成方法及装置

Info

Publication number: CN112270352A
Application number: CN202011156573.5A
Authority: CN
Inventors: 卢宇彤; 彭一; 陈志广
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-26

Abstract

本发明公开了一种基于并行剪枝优化的决策树生成方法及装置，该方法包括：获取训练集并根据训练集和C4.5算法生成决策树，得到待剪枝决策树；基于最小错误剪枝算法对待剪枝决策树进行初步剪枝，得到预处理决策树；根据训练集和并行的k‑折交叉验证方法选择最优置信度；根据最优置信度再评估预处理决策树的结点，并根据评估结果对预处理决策树再剪枝，得到剪枝完成的决策树。该装置包括存储器以及用于执行上述基于并行剪枝优化的决策树生成方法的处理器。通过使用本发明，能够克服当前最小错误剪枝算法剪枝不足的缺点。本发明作为一种基于并行剪枝优化的决策树生成方法及装置，可广泛应用于数据挖掘领域中的决策树算法领域。

Description

一种基于并行剪枝优化的决策树生成方法及装置

技术领域

本发明涉及数据挖掘领域中的决策树算法领域，尤其涉及一种基于并行剪枝优化的决策树生成方法及装置。

背景技术

分类决策树是一种对实例进行分类的树形结构，决策树由结点和有向边组成，是数据挖掘算法分类算法中的一种经典算法。为了避免决策树对数据的过度拟合、简化决策树并提高决策树的泛化能力，剪枝是构建决策树分类器中必不可少的一步，目前的最小错误剪枝方法存在预测精度降低的问题，预估的剪枝后产生的误差不准确。当数据集较大时，使用最小错误剪枝算法剪枝后，输出的决策树仍存在规模较大的问题，即剪枝不足，并且存在过拟合的问题，泛化性能提升不显著。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于并行剪枝优化的决策树生成方法及装置，克服了数据集较大的情况下，目前的最小错误剪枝算法剪枝不足的缺点。

本发明所采用的第一技术方案是：一种基于并行剪枝优化的决策树生成方法，包括以下步骤：

获取训练集并根据训练集和C4.5算法生成决策树，得到待剪枝决策树；

基于最小错误剪枝算法对待剪枝决策树进行初步剪枝，得到预处理决策树；

根据训练集和并行的k-折交叉验证方法选择最优置信度；

根据最优置信度再评估预处理决策树的结点，并根据评估结果对预处理决策树再剪枝，得到剪枝完成的决策树。

进一步，所述基于最小错误剪枝算法对待剪枝决策树进行初步剪枝，得到预处理决策树这一步骤，其具体包括：

基于最小错误剪枝算法自下而上计算待剪枝决策树中非叶子结点误差和对应结点的分枝误差和；

将非叶子结点误差与对应结点的分枝误差和进行比较，得到结点比较结果；

根据结点比较结果对待剪枝决策树进行剪枝，得到预处理决策树。

进一步，所述根据结点比较结果对待剪枝决策树进行剪枝，得到预处理决策树这一步骤，其具体包括：

判断到非叶子结点误差不大于对应结点的分枝误差和，对该结点进行剪枝；

判断到非叶子结点误差大于对应结点的分枝误差和，不对该结点剪枝并自下而上进行下一个非叶子结点的计算；

完成所有非叶子结点的剪枝，得到预处理决策树。

进一步，所述根据训练集和并行的k-折交叉验证方法选择最优置信度这一步骤，其具体包括：

将训练集划分为多个子集，得到子验证集和子训练集；

根据训练集和处理核生成多棵子决策树，一个处理核负责一棵子决策树的生成；

对多棵子决策树使用最小错误剪枝算法进行剪枝，得到多棵预处理后的子决策树；

遍历预设的置信度集合并选择其中一个置信度作为临时置信度；

根据临时置信度对预处理后的多棵子决策树进行剪枝，得到多棵剪枝后子决策树；

通过子验证集分别计算多棵剪枝后子决策树的正确率，并将正确率的平均值作为性能评价指标；

性能评价指标达到预设值，将其对应的临时置信度确定为最优置信度；

所述处理核和子决策树的数量相等。

进一步，所述根据最优置信度再评估预处理决策树的结点，并根据评估结果对预处理决策树再剪枝，得到剪枝完成的决策树这一步骤，其具体包括这一步骤，其具体包括：

获取最优置信度并自下而上评估预处理决策树中非叶子结点；

获取非叶子结点的孩子结点并判断孩子结点是否为叶子结点，若是则遍历判断下一个孩子结点，若不是，则计算误差增量并将误差增量与最优置信度比较，得到比较结果；

根据比较结果对预处理决策树进行剪枝，得到剪枝完成的决策树。

进一步，误差增量的计算公式如下：

上式中，E_r(T_t)_after表示假定对该结点的非叶子孩子结点剪枝后，该结点的分枝误差，E_r(T_t)表示该结点的分枝误差，N表示父结点的训练样本数，n_i表示孩子结点中的训练样本数量。E_r(t_i)是该孩子结点的结点误差，E_r(T_i)是该孩子结点的分枝误差。

进一步，所述根据比较结果对预处理决策树进行剪枝，得到剪枝完成的决策树这一步骤，其具体包括：

判断到误差增量不大于最优置信度，对该孩子结点进行剪枝；

判断到误差增量大于最优置信度，不对该孩子结点进行剪枝并进行下一个孩子结点的计算；

完成所有非叶子结点的评估和剪枝，得到剪枝完成的决策树。

本发明所采用的第二技术方案是：一种基于并行剪枝优化的决策树生成装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述一种基于并行剪枝优化的决策树生成方法。

本发明方法及装置的有益效果是：先通过最小错误剪枝算法进行初步剪枝，再选定最优置信度对决策树进行再剪枝，采用并行化的方式可以在节省剪枝时间的同时，克服当前剪枝算法剪枝不足的缺点，提高泛化性能。

附图说明

图1是本发明一种基于并行剪枝优化的决策树生成方法。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图1所示，本发明提供了一种基于并行剪枝优化的决策树生成方法，该方法包括以下步骤：

S101、获取训练集并根据训练集和C4.5算法生成决策树，得到待剪枝决策树；

具体地，输入训练数据集D，使用C4.5生成算法构建决策树T_i。

S102、基于最小错误剪枝算法对待剪枝决策树进行初步剪枝，得到预处理决策树；

具体地，计算T_i树中每个非叶子结点误差E_r(t)和分枝的误差和E_r(T_t)并进行比较，根据比较结果进行初步剪枝。

S103、根据训练集和并行的k-折交叉验证方法选择最优置信度。

具体地，将训练集划分为多个子集，得到子验证集和子训练集；基于子训练集和C4.5算法生成决策树，得到多棵子决策树；选定置信度为临时最优置信度，使用S104中算法，对多棵子训练决策树进行剪枝，得到剪枝决策树；通过子验证集分别计算剪枝训练决策树的正确率并得到性能评价指标，循环选定置信度对多棵子训练决策树进行剪枝步骤直至性能评价指标达到预设值，确定当前置信度为最优置信度。

S104、根据最优置信度再评估预处理决策树的结点，并根据评估结果对预处理决策树再剪枝，得到剪枝完成的决策树。

具体地，输入最优置信度α，遍历预处理决策树非叶子结点的孩子结点，计算非叶子结点的误差增量β，当β≤α时，对该孩子结点进行剪枝。

进一步作为本方法的优选实施例，所述基于最小错误剪枝算法对待剪枝决策树进行初步剪枝，得到预处理决策树这一步骤，其具体包括：

进一步作为本方法的优选实施例，所述根据结点比较结果对待剪枝决策树进行剪枝，得到预处理决策树这一步骤，其具体包括：

完成所有非叶子结点的剪枝，得到预处理决策树。

具体地，若E_r(t)≤E_r(T_t)，则进行裁减，否则，自下而上判定下一个非叶子结点。

进一步作为本方法优选实施例，所述根据训练集和并行的k-折交叉验证方法选择最优置信度这一步骤，其具体包括：

将训练集划分为多个子集，得到子验证集和子训练集；

具体地，将训练集划分为多个子集，每个子集的训练样本数量相等，将每个子集轮流作为子验证集，其余子集作为子训练集，可得到多个子训练集和其对应的子验证集的集合。

具体地，根据多个子训练集，使用多个处理核生成多棵子决策树，其中一个处理核使用C4.5决策树生成算法，负责一棵子决策树的生成。

所述处理核和子决策树的数量相等。

具体地，所述处理核即处理器，所述非叶子结点为有后续结点的结点；所述孩子结点为度为0的结点，也叫终端结点；所述叶子结点为没有后续结点的结点。

上述在k-折交叉验证求最优置信度α的基础上采用多核并行技术对改进的最小错误剪枝算法进行加速，有助于缩短剪枝时间。

本发明的改进优点在于可变的置信度α，α的选择决定了进一步裁剪的程度，选择合适的α值，就可以得到更小且更准确的树。当α取值很大时，决策树倾向于被裁减为单个叶结点，当α取值过小时，再次评估公式倾向于不进行剪枝，即值保留最小错误剪枝法的特性。

进一步作为本方法优选实施例，所述根据最优置信度再评估预处理决策树的结点，并根据评估结果对预处理决策树再剪枝，得到剪枝完成的决策树这一步骤，其具体包括：

具体地，判断孩子结点是否均为叶子结点，若是，则评估下一个非叶子结点；否则假定对该非叶子孩子结点剪枝，计算父结点的误差增量β，并与最优置信度α比较，得到比较结果；计算误差增量β，当β≤α时，对该孩子结点进行剪枝，直到不能继续为止，得到剪枝完成的决策树。

对于决策树树中每个非叶子结点,计算该结点的分枝误差E_r(T_t)：

其中，n(t)为结点t的样本总数。假设有K个孩子结点，训练样本落入孩子结点k的数量为n_k(t),E_r(T_tk)为结点k作为根结点的分枝误差，当结点k为叶子结点时，E_r(T_tk)为结点误差。

假定对该结点的非叶子结点的孩子结点i进行剪枝，则预测的分枝误差E_r(T_t)_after计算公式如下：

其中，N为结点的训练样本数，假定有K个孩子结点，训练样本落入孩子结点k的数量为n_k(t)，E_r(T_tk)为结点k作为根结点的分枝误差，n_i为孩子结点i的训练样本数量，E_r(t_i为结点i的结点误差。

进一步作为本方法优选实施例，假定对孩子结点i剪枝后，该结点产生的误差增量的计算公式如下：

进一步作为本方法优选实施例，所述根据比较结果对预处理决策树进行剪枝，得到剪枝完成的决策树这一步骤，其具体包括：

一种基于并行剪枝优化的决策树生成装置：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于并行剪枝优化的决策树生成方法，其特征在于，包括以下步骤：

根据训练集和并行的k-折交叉验证方法选择最优置信度；

2.根据权利要求1所述一种基于并行剪枝优化的决策树生成方法，其特征在于，所述基于最小错误剪枝算法对待剪枝决策树进行初步剪枝，得到预处理决策树这一步骤，其具体包括：

3.根据权利要求2所述一种基于并行剪枝优化的决策树生成方法，其特征在于，所述根据结点比较结果对待剪枝决策树进行剪枝，得到预处理决策树这一步骤，其具体包括：

完成所有非叶子结点的剪枝，得到预处理决策树。

4.根据权利要求3所述一种基于并行剪枝优化的决策树生成方法，其特征在于，所述根据训练集和并行的k-折交叉验证方法选择最优置信度这一步骤，其具体包括：

将训练集划分为多个子集，得到子验证集和子训练集；

所述处理核和子决策树的数量相等。

5.根据权利要求4所述一种基于并行剪枝优化的决策树生成方法，其特征在于，所述根据最优置信度再评估预处理决策树的结点，并根据评估结果对预处理决策树再剪枝，得到剪枝完成的决策树这一步骤，其具体包括：

6.根据权利要求5所述一种基于并行剪枝优化的决策树生成方法，其特征在于，误差增量的计算公式如下：

7.根据权利要求6所述一种基于并行剪枝优化的决策树生成方法，其特征在于，所述根据比较结果对预处理决策树进行剪枝，得到剪枝完成的决策树这一步骤，其具体包括：

8.一种基于并行剪枝优化的决策树生成装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7任一项所述一种基于并行剪枝优化的决策树生成方法。