CN108416395A

CN108416395A - 一种基于属性简约的交互式决策树构建方法

Info

Publication number: CN108416395A
Application number: CN201810255706.0A
Authority: CN
Inventors: 杨雷; 代钰; 韩冰; 郭珍; 张斌
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2018-08-17

Abstract

本发明属于数据分析与挖掘技术领域，具体涉及一种基于属性简约的交互式决策树构建方法，包括以下步骤：1)根据属性简约方法得出有限样本集合的简约核集；2)根据所述简约核集生成决策树；3)进行交互式决策树剪枝。本发明针对大数据环境中数据维度较高导致用户难以理解的问题，利用互信息计算属性核集，对剩余属性利用粒子群算法进行训练；在训练的同时，引入条件属性与决策属性的依赖度对粒子速度进行更新，提高收敛速度，最终得到全局近似最优约简的属性集合；在决策树构建过程中融入领域专家的剪枝经验，能够提高决策树的分类精度，降低其错分代价。

Description

一种基于属性简约的交互式决策树构建方法

所属技术领域

本发明属于数据分析与挖掘技术领域，具体涉及一种基于属性简约的交互式决策树构建方法。

技术背景

随着网络技术的发展，人们在日常生活与工作中产生的数据逐渐成指数型增长，由此产生海量数据。工业界和学术界开展了大量关于海量数据分析和处理方面的研究工作，以在数据中挖掘有价值的知识，而分类问题是这些工作中非常重要的研究问题之一。在分类算法中，决策树算法是应用最为广泛的一种算法。然而在大数据环境中，数据通常具有较高的维度，容易导致决策树生长速度慢、分类精度较低以及错分代价较高等问题。为此，大数据环境中的决策树构建是需要研究并解决的一个关键问题。

发明内容

针对上述存在的技术问题，本发明提供一种基于属性简约的交互式决策树构建方法，其特征在于，包括以下步骤：

步骤1，根据属性简约方法得出有限样本集合U的简约核集；

步骤2，根据所述简约核集，利用C4.5算法生成决策树，并利用R语言对所述决策树进行可视化，得到可视化决策树；

步骤3，交互式决策树剪枝；

对于所述决策树的任意节点t，如果删除所述节点t的所有子树，即对以节点t的所有子树进行剪枝；判断是否对所述节点t的所有子树进行剪枝，即所述节点t的剪枝决策，其判断方法为：

步骤3.1，领域专家交互剪枝；

所述领域专家根据领域经验决定所述节点t的剪枝决策，如果所述剪枝决策为对所述节点t进行剪枝，则计算与此剪枝决策相对应的剪枝评价，所述剪枝评价包括节点分类代价、节点精度代价和节点复杂度收益；

步骤3.2，构建基于BP神经网络的决策树交互式剪枝决策模型，构建方法为：

步骤3.2.1，建立历史剪枝经验数据库；

设置历史剪枝经验数据库的节点数量要求，判断经过所述步骤4.1中领域专家的剪枝决策的节点数量，如果该数量不满足所述历史剪枝经验数据库的节点数量要求，则返回步骤4.1，如果该数量满足所述历史剪枝经验数据库的节点数量要求，则建立历史剪枝经验数据库；

所述历史剪枝经验数据库中的信息记录包括步骤4.1得出的关于所述数据库中每个节点的领域专家信息、节点的分类代价、节点的精度代价、节点的复杂度收益和剪枝决策；

步骤3.2.2，根据所述历史剪枝经验数据库，建立面向剪枝决策的BP神经网络模型；

步骤3.3，根据所述步骤4.2构建的BP神经网络剪枝决策模型，得到针对所述任意节点t的剪枝决策，当所述剪枝决策为可以删除所述t的所有子树时，提示可以进行剪枝；否则，不提示。

所述步骤1，根据属性简约方法得出有限样本集合U的简约核集，包括以下步骤：

步骤1.1，基于互信息求核集；

记决策表S＝<U,C∪D,V,f>，其中U为有限样本集合，U＝{x₁,x₂,....,x_n}，C为非空条件属性集合，D为非空决策属性集合，f:U×(C∪D)→V为函数，用于确定所述U中每一个样本x的属性值；

首先设核集Core为空，其中包括C中对于决策属性来说必不可少的条件属性；然后计算所述C和D的互信息I(C；D)；然后遍历所述C中的每一个条件属性a，计算集合C-{a}和所述D的互信息I(C-{a}；D)；

如果I(C-{a}；D)＜I(C；D)，则说明所述条件属性a对于决策属性来说是一个必不可少的条件属性，将所述a加入到Core中，即Core＝Core+{a}；若I(C-{a}；D)≥I(C；D)，则说明所述a对于决策属性来说不是一个必不可少的条件属性，不将所述a加入到Core中；

步骤1.2，利用突变粒子群算法对所述核集Core进行属性约简；

步骤1.2.1，建立所述属性约简的目标函数；

记不在所述核集Core中的属性所构成的集合为P，即P＝C-Core；

所述属性约简的目标是在P中找到一组条件属性加入到核集Core中，使得经过属性约简调整后的核集，即简约核集Core'中包含的条件属性对于决策属性重要度最大，同时所述Core'所包含的条件属性个数最少；实现该目标的具体方法为：

建立简约标识集合Y＝{y₁,y₂,...,y_m}，其中的任意一个元素y_u分别与所述P中任意一个条件属性p_u相对应；

如果所述p_u被加入到所述核集Core中，则y_u＝1；如果所述p_u未被加入到所述核集Core中，则y_u＝0；

所述核集Core在属性约简的目标达成后，即得到简约核集Core'，

为了度量所述Core'包含的条件属性对于决策属性合集D的重要度IDegree，根据信息熵理论，给出重要度度量公式：

根据所述重要度度量公式构建属性约简的目标函数，该目标函数是要找到所述简约标识集合Y，以使得所述IDegree最大，同时所述Core'所包含的条件属性个数最少；所述属性约简的目标函数为：

其中，N为被加入到所述核集Core中的条件属性的个数；

步骤1.2.2，建立突变粒子群算法的适应度函数；

建立种群规模为K的粒子群，所述K为设定值；记粒子sp_v为L维空间中的任意一个粒子，所述L维空间为C∪D的大小；

所述sp_v的初始位置的设置方法为：

所述sp_v在所述L维空间的第u维方向的位置随机设置为0或1，从而得到所述sp_v在所述L维空间中的位置随机设置所述sp_v在所述L维空间的第u维方向的速度从而得到所述sp_v在所述L维空间中的速度根据所述属性约简的目标函数，将适应度函数定义为：

其中，α和β为权重大小，α和β的取值范围为[0,1]，且α+β＝1；

步骤1.2.3，计算所述粒子群的全局最优位置gBest，即所述简约标识集合Y；

步骤1.2.4，根据所述简约标识集合Y，将其中所述y_u的值为1的条件属性加入到所述核集Core中，得到所述简约核集Core'。

所述步骤1.2.3，计算所述粒子群的全局最优位置gBest，即所述简约标识集合Y，计算方法为：

步骤1-a，根据所述适应度函数计算所述sp_v的初始最优位置pBest_v以及所述粒子群的初始全局最优位置gBest；

步骤1-b，计算所述sp_v的速度和位置；

将所述条件属性与决策属性的依赖程度，即所述条件属性与决策属性间的互信息更新粒子的速度，作为粒子群算法的收敛速度，计算粒子收敛速度公式为：

此式用于计算所述sp_v的速度，式(4)中，γ，α₁，α₂和α₃为预先设定的经验值；E为向量，E＝<e₁,e₂,...e_k>，其中任意一个元素e_o为条件属性p_u与决策属性集合D的互信息值，即e_o＝I(p_u；D)；t表示当前迭代；

使用取整函数得到计算粒子收敛位置公式：

此式用于计算所述sp_v的位置；

步骤1-c，对粒子群进行多样性评估；

利用欧式距离，计算任意两个粒子间的距离，如果所述的两个粒子间距离小于事先设置的阈值，则说明所述的两个粒子的多样性较差，则对所述的两个粒子进行交叉变异操作；如果所述的两个粒子间距离大于或等于事先设置的阈值，则说明所述的两个粒子的多样性较强，则不对所述的两个粒子进行交叉变异操作；

步骤1-d，判断所述步骤1-b的迭代次数是否达到设置的阈值，如果不是，则返回所述步骤1-b；如果是，则得到粒子群的全局最优位置gBest，即简约标识集合Y。

所述步骤3.1，领域专家交互剪枝；

所述领域专家根据领域经验决定所述节点t的剪枝决策，如果所述剪枝决策为对所述节点t进行剪枝，则计算与此剪枝决策相对应的剪枝评价，所述剪枝评价包括节点分类代价、节点精度代价和节点复杂度收益，计算方法为：

步骤3.1.1，建立错分代价表，计算所述节点t的所有子树删除后的分类代价，即节点分类代价；

由领域专家根据领域经验决定节点t的剪枝决策并建立错分代价表，该表的结构为<Ca,Cb,COST>，其中，Ca表示类别，Cb表示所述类别Ca被误分为的类别，COST表示类别Ca误分为类别Cb产生的成本开销节点分类代价；

计算节点t的所有子树删除后的分类代价，即节点分类代价，计算方法为：

其中，COST_ab表示所述节点t的所有子树被删除后，类别c被分为类别d时的节点分类代价，COST_hr表示所述节点t的所有子树被删除前，分类h被分为r时的节点分类代价；

步骤3.1.2，计算所述节点t的所有子树删除后的精度代价Acu_t，即节点精度代价，计算方法为：

其中，card(T)为节点t的所有子树被删除前的正确分类的样本数，card(T-t)为所述节点t的所有子树被删除后的正确分类的样本数；

步骤3.1.3，利用下面公式计算所述节点t的所有子树被删除后的决策树复杂度收益Complex_t，即节点复杂度收益，计算方法为：

其中，Deep(T-t)为所述节点t的所有子树被删除后的决策树的深度；Hierachy(T-t)分别为所述节点t的所有子树被删除后的决策树的宽度；Deep(T)为剪枝前的决策树的深度；Hierachy(T)为剪枝前的决策树的宽度。

所述步骤3.2.2，根据所述历史剪枝经验数据库，建立面向剪枝决策的BP神经网络模型，建立方法为：

步骤3-a，BP神经网络初始化；

根据所述历史剪枝经验数据库，以所述数据库中每个节点的分类代价、精度代价和复杂度收益作为输入向量，输入层的节点数Cinput设置为3；以所述剪枝决策作为输出向量，若剪枝则输出1，否则输出0；所以输出层的节点数Coutput是1；根据kolmogorov经验公式，确定隐含层节点数Chidden，即：

其中，α的取值范围为[1,10]；

这里，确定隐含层节点数Chidden为4；

选择S型的logsig函数为激励函数；

步骤3-b，将BP神经网络模型进行训练并将训练好的模型进行存储持久化，得到基于BP神经网络的决策树交互式剪枝决策模型。

本发明的有益效果：

本发明提出一种基于属性简约的交互式决策树构建方法，本发明针对大数据环境中数据维度较高导致用户难以理解的问题，利用互信息计算属性核集，对剩余属性利用粒子群算法进行训练；在训练的同时，为了防止粒子随迭代次数的增加而使得多样性消失这种情况的发生，对于较为相似的粒子进行交叉变异操作以保持种群多样性，同时，在训练过程中引入条件属性与决策属性的依赖度对粒子速度进行更新，能够提高收敛速度，最终得到全局近似最优约简的属性集合；在决策树构建过程中融入领域专家的剪枝经验，能够提高决策树的分类精度，降低其错分代价。

本发明设计合理，易于实现，具有很好的实用价值。

附图说明

图1为本发明具体实施方式中所述基于属性简约的交互式决策树构建方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明做进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对于决策树构建问题，本发明提出了一种基于属性简约的交互式决策树构建方法，如图1所示，包括以下步骤：

步骤1，根据属性简约方法得出有限样本集合U的简约核集；

步骤1.1，基于互信息求核集；

步骤1.2，利用突变粒子群算法对所述核集Core进行属性约简；

步骤1.2.1，建立所述属性约简的目标函数；

记不在所述核集Core中的属性所构成的集合为P，即P＝C-Core；

根据式(2)构建属性约简的目标函数，该目标函数是要找到所述简约标识集合Y，以使得所述IDegree最大，同时所述Core'所包含的条件属性个数最少；所述属性约简的目标函数为：

式(3)中，N为被加入到所述核集Core中的条件属性的个数；

步骤1.2.2，建立突变粒子群算法的适应度函数；

所述sp_v的初始位置的设置方法为：

式(4)中，α和β为权重大小，α和β的取值范围为[0,1]，且α+β＝1；

步骤1.2.3，计算所述粒子群的全局最优位置gBest，即所述简约标识集合Y，计算方法为：

步骤1-b，计算所述sp_v的速度和位置；

式(5)用于计算所述sp_v的速度，式(4)中，γ，α₁，α₂和α₃为预先设定的经验值；E为向量，E＝<e₁,e₂,...e_k>，其中任意一个元素e_o为条件属性p_u与决策属性集合D的互信息值，即e_o＝I(p_u；D)；t表示当前迭代；

使用取整函数得到计算粒子收敛位置公式：

式(6)用于计算所述sp_v的位置；

步骤1-c，对粒子群进行多样性评估；

步骤1-d，判断所述步骤2-b的迭代次数是否达到设置的阈值，如果不是，则返回所述步骤2-b；如果是，则得到粒子群的全局最优位置gBest，即简约标识集合Y。

步骤1.2.4，根据所述简约标识集合Y，将其中所述y_u的值为1的条件属性加入到所述核集Core中，得到所述简约核集Core'；

步骤3，交互式决策树剪枝；

步骤3.1，领域专家交互剪枝；

式(7)中，COST_ab表示所述节点t的所有子树被删除后，类别c被分为类别d时的节点分类代价，COST_hr表示所述节点t的所有子树被删除前，分类h被分为r时的节点分类代价；

式(8)中，card(T)为节点t的所有子树被删除前的正确分类的样本数，card(T-t)为所述节点t的所有子树被删除后的正确分类的样本数；

式(9)中，Deep(T-t)为所述节点t的所有子树被删除后的决策树的深度；Hierachy(T-t)分别为所述节点t的所有子树被删除后的决策树的宽度；Deep(T)为剪枝前的决策树的深度；Hierachy(T)为剪枝前的决策树的宽度。

步骤3.2.1，建立历史剪枝经验数据库；

步骤3.2.2，根据所述历史剪枝经验数据库，建立面向剪枝决策的BP神经网络模型，建立方法为：

步骤3-a，BP神经网络初始化；

式(10)中，α的取值范围为[1,10]；

这里，确定隐含层节点数Chidden为4；

选择S型的logsig函数为激励函数；

Claims

1.一种基于属性简约的交互式决策树构建方法，其特征在于，包括以下步骤：

步骤1，根据属性简约方法得出有限样本集合U的简约核集；

步骤3，交互式决策树剪枝；

步骤3.1，领域专家交互剪枝；

步骤3.2.1，建立历史剪枝经验数据库；

2.根据权利要求1所述的基于属性简约的交互式决策树构建方法，其特征在于，所述步骤1，根据属性简约方法得出有限样本集合U的简约核集，包括以下步骤：

步骤1.1，基于互信息求核集；

步骤1.2，利用突变粒子群算法对所述核集Core进行属性约简；

步骤1.2.1，建立所述属性约简的目标函数；

记不在所述核集Core中的属性所构成的集合为P，即P＝C-Core；

其中，N为被加入到所述核集Core中的条件属性的个数；

步骤1.2.2，建立突变粒子群算法的适应度函数；

所述sp_v的初始位置的设置方法为：

3.根据权利要求2所述的基于属性简约的交互式决策树构建方法，其特征在于，所述步骤1.2.3，计算所述粒子群的全局最优位置gBest，即所述简约标识集合Y，计算方法为：

步骤1-b，计算所述sp_v的速度和位置；

使用取整函数得到计算粒子收敛位置公式：

此式用于计算所述sp_v的位置；

步骤1-c，对粒子群进行多样性评估；

4.根据权利要求1所述的基于属性简约的交互式决策树构建方法，其特征在于，所述步骤3.1，领域专家交互剪枝；

5.根据权利要求4所述的基于属性简约的交互式决策树构建方法，其特征在于，所述步骤3.2.2，根据所述历史剪枝经验数据库，建立面向剪枝决策的BP神经网络模型，建立方法为：

步骤3-a，BP神经网络初始化；

其中，α的取值范围为[1,10]；

这里，确定隐含层节点数Chidden为4；

选择S型的logsig函数为激励函数；