CN105843924A

CN105843924A - 一种认知计算中基于cart的决策树构建方法

Info

Publication number: CN105843924A
Application number: CN201610179487.3A
Authority: CN
Inventors: 王堃; 陆恒; 张明翔; 岳东; 孙雁飞; 吴蒙; 亓晋; 陈思光
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2016-08-10

Abstract

本发明公开一种认知计算中基于CART的决策树构建方法，包括：根据决策树的制定规则，初始化决策树的根节点和对应的特征属性集；对训练集的数据进行排序操作；判断节点中的所有样本数据是否属于同一类，计算待分裂的节点的最优和次优特征属性，判断是否满足选择最优分裂属性和中断机制的分裂条件，若满足，则使用最优分裂属性进行分裂，根据使用最优分裂属性分裂，然后使用特征属性分裂后的节点迭代替换当前节点，从左右两个分支中添加一个新的叶子节点，达到决策树的自动分裂；否则等待数据流输入，进行样本更新，继续对节点分裂进行计算。本发明进一步提高了处理数据流的准确度，降低了系统阻塞的可能性。

Description

一种认知计算中基于CART的决策树构建方法

技术领域

本发明涉及大数据处理技术领域，尤其涉及认知计算中基于CART的决策树构建方法。

背景技术

云计算、物联网等新兴技术的快速发展促使数据的规模正以前所未有的速度增长，大数据时代已经开始到来。决策树是数据挖掘中的一种常用数据处理模型，常见的决策树构建算法包括ID3，C4.5以及CART等，然而，ID3，C4.5和CART等决策树构建算法都是为静态数据集设计的，它们无法直接应用于数据流的处理，因为数据流是无穷无尽的。除此之外，数据流将以很快的速度源源不断的流入系统，这也给决策树的训练带来了极大的挑战。现有的研究对数据流的处理也有一些解决方案，近十年使用最多的工具是增量学习，增量学习技术能够从数据中学习新的知识并且保留原有知识，并且整个过程不用重复处理已经学习过的数据。根据这一特性，可以使用增量学习技术来获取特征属性。但由于无法使用无穷多的数据集来计算最优特征的选择，因此只能使用已知数据来构成样本集来训练决策树，已经远远不能满足当前数据处理的需要。

发明内容

鉴于上述现有技术的不足之处，本发明提出一种认知计算中基于CART的决策树构建方法，在一定概率下，通过样本训练所得的最优特征与整个数据流应该选择的最优特征是一致的，可在较短的训练时间内得到较高准确性的决策树模型。

一种认知计算中基于CART的决策树构建方法，包括以下步骤：

步骤1、初始化决策树的根节点和对应的特征属性集；

步骤2、根据此时决策树的特征属性，对训练集的数据进行排序操作；

步骤3、判断节点中的所有样本数据是否具有相同类别的数据标签，如果是，则执行步骤4，否则结束；

步骤4、将节点设置为待分裂的节点，同时计算节点的最优和次优特征属性；

步骤5、判断节点是否满足最优特征属性和中断机制的分裂条件，如果满足，则使用最优特征属性进行分裂，将分裂后的节点替换当前节点，并从分支中添加一个新的叶子节点，达到决策树的自动分裂；否则等待数据流输入，进行样本更新，然后执行步骤4。

所述决策树的特征属性是Gini增益。

所述最优特征属性为Gini增益最大的特征属性。

所述中断机制的分裂条件是满足其中为i为x或y，L、R代表不同的训练子集；中断参数其中Z_(1-α)是指标准正态分布N(0,1)的1-α分位数，Q(K)则表示5K²-8K+4，在这种情况下，g^x比g^y大的概率是1-α。

本发明通过对海量数据流训练来处理数据流数据，使用已知数据来构成样本集来训练决策树，提高了处理数据流的准确度，降低了系统阻塞的可能性。

附图说明

图1为本发明实施例基于CART的决策树构建方法的流程图；

图2为本发明实施例与MDT和GDT算法准确性性能对比；

图3为本发明实施例与McDiarmid Tree算法性能对比；

图4为本发明实施例准确性与干扰数据比例的关系；

图5为本发明实施例与Gauss Decision Tree训练时间对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

CART首先创建一个根节点N₀，在学习的过程中，对于每一个指定的节点N_a都有一个指定的训练集S的子集S_a与之对应。对于根节点，对应的就是训练集S。当一个节点对应的子集都属于同一个分类的时候，该节点就被设置为叶子节点，代表该节点的训练已经完成。如果一个节点对应的子集不都属于同一个分类的时候，算法将继续迭代进行，直至所有的训练子集都对应相应的叶子节点。

对于每个可以获取的属性bⁱ，该属性的取值Bⁱ将分成为两个区间的子集和这两种子集将训练子集S_a分成两个部分L_q和R_q。在CART中，常用的杂质度量方法是Gini指数，对于一个子训练集S_a，其Gini指数表示方法如下：

G i n i (S_{a}) = 1 - Σ_{k = 1}^{K} {(P_{k, a})}^{2} - - - (1)

其中，P表示训练集中属于该分类的概率，k代表分类数值，a代表训练子集编号。从公式1容易看出，Gini指数的最小值是0，当所有样本都正确分类的时候取得最小值。换句话说，Gini指数反映了分类结果的纯度，数值越小，分类越纯，结果也就越准确。当前节点中训练集的分类通概率出现时，Gini指数出现最大值。

根据概率关系，可以得到加权Gini指数：

G i n i_w (S_{a}, B_{L}^{i}) = P_{L, a} (B_{L}^{i}) G i n i (L_{a} (B_{L}^{i})) + (1 - P_{L, a} (B_{L}^{i})) G i n i (R_{a} (B_{L}^{i})) - - - (2)

在CART中，根据Gini指数或者加权Gini指数的增益来对节点进行分裂操作，这类似于ID3算法中根据信息熵增益进行分裂操作。

所有的计算和分析都是基于整个数据集进行分析的。下面将讨论针对流数据的分析。由于流数据是无限的，不可能做到像CART一样来计算样本中属于某一分类的概率，而只能根据已知的数据样本对其概率进行估计。

考虑到一个固定的节点的情况，在前面的分析中使用S_a表示，根据前面的分析，可以得到如下结论：

P_{K L} (B_{L}^{i}) = 1 - Σ_{j = 1}^{K - 1} P_{j L} (B_{L}^{i}) - - - (3)

P_{K R} (B_{L}^{i}) = 1 - Σ_{j = 1}^{K - 1} P_{j R} (B_{L}^{i}) - - - (4)

这样，相当于是考虑了K个特征中的K-1个来进行计算。根据这一规则，概率P_k可以类似的计算出来，计算方法如下：

P_{k} = 1 - Σ_{j = 1}^{K} P_{j} - - - (5)

从公式5可以看出，K个特征属性中的K-1一个是重要的。注意，概率P_j不是根据选定的特征属性来决定的，而是可以根据以及来计算，结算公式如下：

P_{j} (P_{L}, P_{j L}, P_{j R}) = P_{L} (B_{L}^{i}) P_{j L} (B_{L}^{i}) + (1 - P_{L} (B_{L}^{i})) P_{j R} (B_{L}^{i}) - - - (6)

对于任意的数据集，数据集的每一个组成元素都属于K个类别的某一个。Gini指数可以使用如下公式计算。

G i n i (P_{1}, P_{2}, ..., P_{K - 1}) = 1 - Σ_{j = 1}^{K} {P_{j}}^{2} = 1 - Σ_{j = 1}^{K - 1} {P_{j}}^{2} - {(1 - Σ_{j = 1}^{K - 1} P_{j})}^{2} - - - (7)

其中P_j表示数据集中属于第j个分类的概率。这样一来，Gini指数可以使用K-1个变量的函数来表示。同样，Gini增益也可以使用以上提及的参数来表示：

Gini_g＝Gini(P₁,P₂...,P_K-1)-P_LGini(P_1L,P_2L...,P_(K-1)L)-(1-P_L)Gini(P_1R,P_2R...,P_(K-1)R) (8)

因此，最优的分裂选择特征属性可以根据如下公式求出：

{\hat{B}}_{L}^{i} = \max (g (P_{L} (B_{L}^{i}), P_{1 L} (B_{L}^{i}), ..., P_{(K - 1) L} (B_{L}^{i}), P_{1 R} (B_{L}^{i}), ..., P_{(K - 1) R} (B_{L}^{i})) - - - (9)

使用符号gⁱ表示特征属性bⁱ的Gini增益。使用符号表示的估计量，后面出现预估量的地方，采用相同的表示方法。这些预估值在符合二项分布的随机变量中可以当作是算术平均值来对待。假设s是数据集S的一个变量，定义一个变量δ，当s属于Lⁱ时候为1，不属于Lⁱ时候为0。这时候，δ是服从二项分布的变量，且平均值为方差为类似的，定义δ_kL和δ_kR，k属于{1,2，…，K-1}。当左节点数据子集l_m属于第k个分类的时候，δ_kL变量值为1，当右节点数据子集r_m属于第k个分类的时候，δ_kR变量值为1。

如果根据两个不同的特征属性和样本集计算出的Gini增益数值大于一个给定的特殊值，则该值一定概率上反映真实的Gini增益值。根据这一依据，可以根据最近得到的数据集决定最佳特征属性进行决策树分裂建树操作。

为了方便描述，将记作然后考虑两个特征属性b^x和b^y，然后计算它们的Gini增益值。如果它们的差值满足最优分裂属性的方法，即如下公式10的关系：

{\overset{&OverBar;}{g}}^{x} - {\overset{&OverBar;}{g}}^{y} > γ_{K} - - - (10)

其中引入中断参数γ_K如公式11所示：

γ_{K} = Z_{(1 - α)} \frac{\sqrt{2 Q (K)}}{\sqrt{n}} - - - (11)

公式(11)中的Z_(1-α)是指标准正态分布N(0,1)的1-α分位数。Q(K)则表示5K²-8K+4。在这种情况下，g^x比g^y大的概率是1-α。也就是说，如果g^x和g^y的Gini增益的预估值的关系满足公式10，则g^x和g^y的真实值满足g^x>g^y的概率是1-α。中断参数的引入是引入中断机制，即γ_K>0，它可以一定程度上防止程序堵塞，较少程序的计算量。

根据之前的结论可以知道，当b^x和b^y是具有最大Gini增益的特征属性的时候，那么，b^x可以选择作为分裂属性。而这种情况出现的可信度为1-α^D-1。也就是说，可以在一定可信度下确定分裂所应该选择的最优特征属性。

在图2中，通过实验分析CART_DS算法与McDiarmid Tree(MDT)和GaussianDecision Tree(GDT)算法进行性能对比。设置中断因子参数θ为0.05，设置固定概率值α为10^-7。固定这些参数不变，从104到109改变训练数据集的数量，比较算法分类的准确性上的表现。三种算法在准确性性能方面的表现基本一致，本章提出的CART_DS算法稍微领先。这种结果出现的原因是因为三种算法实质上都是基于CART生成决策树算法所作出的改进。也就是说，对于相同的数据集，三种算法可能生成一致的决策树。但是从总体趋势我们可以看出，算法的准确性都随着数据集的数量的增加表现为上升趋势，当数据集数量在10⁹数量级的时候，算法的准确性可以接近95％。

在图3中，分析CART_DS算法与McDiarmid Tree算法的性能。设置中断因子参数θ为0，设置固定概率值α为0.1。在使用CART生成决策树的过程中，最重要的分裂(也就是具有最大增益的分裂)通常就是第一次分裂，即根节点的分裂。由于生成树的最终结果是类似的，算法最终的准确率趋于相同。同时从图中可以看出，CART_DS算法比McDiarmid Tree算法做分裂的时候所需要的数据样本数量更少，因此，CART_DS算法在于一个分裂操作中需要更少的训练数据集，根节点的分裂操作总是比McDiarmid Tree算法更快。

在图4中，在样本数据中加入一定比例的噪声(干扰数据)。使用如下机制来生成干扰数据。在每一次数据生成的过程中，按照一个固定的概率来改变样本数据中的特征属性和标签值，改变后的值是所有可能值，并且每一种数值的取值可能性是一致的。的取值从0％到50％之间(包含)逐渐变化。本实验的仿真实验结果表明，随着噪声比例的增加，准确率随之下降。

在图5中，分析CART_DS算法与Gaussian Decision Tree算法在训练时间上的性能对比。设置中断因子参数θ为0，设置固定概率值α为0.1，改变训练样本集的数量n。从实验结果可以看出，随着训练数据集规模的增加，CART_DS算法在训练时间上的表现比GaussianDecision Tree算法在训练时间上的表现所体现出的优势越发明显，换句话说，CART_DS算法在大数据规模下使用，优势更加明显。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。

Claims

1.一种认知计算中基于CART的决策树构建方法，其特征是，包括以下步骤：

步骤1、初始化决策树的根节点和对应的特征属性集；

2.根据权利要求1所述的决策树构建方法，其特征是，步骤2中所述决策树的特征属性是Gini增益。

3.根据权利要求2所述的决策树构建方法，其特征是，所述最优特征属性为Gini增益最大的特征属性。

4.根据权利要求1所述的决策树构建方法，其特征是，所述中断机制的分裂条件是满足其中为i为x或y，L、R代表不同的训练子集；中断参数其中Z_(1-α)是指标准正态分布N(0,1)的1-α分位数，Q(K)则表示5K²-8K+4，在这种情况下，g^x比g^y大的概率是1-α。