CN108416395A - 一种基于属性简约的交互式决策树构建方法 - Google Patents
一种基于属性简约的交互式决策树构建方法 Download PDFInfo
- Publication number
- CN108416395A CN108416395A CN201810255706.0A CN201810255706A CN108416395A CN 108416395 A CN108416395 A CN 108416395A CN 201810255706 A CN201810255706 A CN 201810255706A CN 108416395 A CN108416395 A CN 108416395A
- Authority
- CN
- China
- Prior art keywords
- attribute
- decision
- node
- beta pruning
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据分析与挖掘技术领域,具体涉及一种基于属性简约的交互式决策树构建方法,包括以下步骤:1)根据属性简约方法得出有限样本集合的简约核集;2)根据所述简约核集生成决策树;3)进行交互式决策树剪枝。本发明针对大数据环境中数据维度较高导致用户难以理解的问题,利用互信息计算属性核集,对剩余属性利用粒子群算法进行训练;在训练的同时,引入条件属性与决策属性的依赖度对粒子速度进行更新,提高收敛速度,最终得到全局近似最优约简的属性集合;在决策树构建过程中融入领域专家的剪枝经验,能够提高决策树的分类精度,降低其错分代价。
Description
所属技术领域
本发明属于数据分析与挖掘技术领域,具体涉及一种基于属性简约的交互式决策树构建方法。
技术背景
随着网络技术的发展,人们在日常生活与工作中产生的数据逐渐成指数型增长,由此产生海量数据。工业界和学术界开展了大量关于海量数据分析和处理方面的研究工作,以在数据中挖掘有价值的知识,而分类问题是这些工作中非常重要的研究问题之一。在分类算法中,决策树算法是应用最为广泛的一种算法。然而在大数据环境中,数据通常具有较高的维度,容易导致决策树生长速度慢、分类精度较低以及错分代价较高等问题。为此,大数据环境中的决策树构建是需要研究并解决的一个关键问题。
发明内容
针对上述存在的技术问题,本发明提供一种基于属性简约的交互式决策树构建方法,其特征在于,包括以下步骤:
步骤1,根据属性简约方法得出有限样本集合U的简约核集;
步骤2,根据所述简约核集,利用C4.5算法生成决策树,并利用R语言对所述决策树进行可视化,得到可视化决策树;
步骤3,交互式决策树剪枝;
对于所述决策树的任意节点t,如果删除所述节点t的所有子树,即对以节点t的所有子树进行剪枝;判断是否对所述节点t的所有子树进行剪枝,即所述节点t的剪枝决策,其判断方法为:
步骤3.1,领域专家交互剪枝;
所述领域专家根据领域经验决定所述节点t的剪枝决策,如果所述剪枝决策为对所述节点t进行剪枝,则计算与此剪枝决策相对应的剪枝评价,所述剪枝评价包括节点分类代价、节点精度代价和节点复杂度收益;
步骤3.2,构建基于BP神经网络的决策树交互式剪枝决策模型,构建方法为:
步骤3.2.1,建立历史剪枝经验数据库;
设置历史剪枝经验数据库的节点数量要求,判断经过所述步骤4.1中领域专家的剪枝决策的节点数量,如果该数量不满足所述历史剪枝经验数据库的节点数量要求,则返回步骤4.1,如果该数量满足所述历史剪枝经验数据库的节点数量要求,则建立历史剪枝经验数据库;
所述历史剪枝经验数据库中的信息记录包括步骤4.1得出的关于所述数据库中每个节点的领域专家信息、节点的分类代价、节点的精度代价、节点的复杂度收益和剪枝决策;
步骤3.2.2,根据所述历史剪枝经验数据库,建立面向剪枝决策的BP神经网络模型;
步骤3.3,根据所述步骤4.2构建的BP神经网络剪枝决策模型,得到针对所述任意节点t的剪枝决策,当所述剪枝决策为可以删除所述t的所有子树时,提示可以进行剪枝;否则,不提示。
所述步骤1,根据属性简约方法得出有限样本集合U的简约核集,包括以下步骤:
步骤1.1,基于互信息求核集;
记决策表S=<U,C∪D,V,f>,其中U为有限样本集合,U={x1,x2,....,xn},C为非空条件属性集合,D为非空决策属性集合,f:U×(C∪D)→V为函数,用于确定所述U中每一个样本x的属性值;
首先设核集Core为空,其中包括C中对于决策属性来说必不可少的条件属性;然后计算所述C和D的互信息I(C;D);然后遍历所述C中的每一个条件属性a,计算集合C-{a}和所述D的互信息I(C-{a};D);
如果I(C-{a};D)<I(C;D),则说明所述条件属性a对于决策属性来说是一个必不可少的条件属性,将所述a加入到Core中,即Core=Core+{a};若I(C-{a};D)≥I(C;D),则说明所述a对于决策属性来说不是一个必不可少的条件属性,不将所述a加入到Core中;
步骤1.2,利用突变粒子群算法对所述核集Core进行属性约简;
步骤1.2.1,建立所述属性约简的目标函数;
记不在所述核集Core中的属性所构成的集合为P,即P=C-Core;
所述属性约简的目标是在P中找到一组条件属性加入到核集Core中,使得经过属性约简调整后的核集,即简约核集Core'中包含的条件属性对于决策属性重要度最大,同时所述Core'所包含的条件属性个数最少;实现该目标的具体方法为:
建立简约标识集合Y={y1,y2,...,ym},其中的任意一个元素yu分别与所述P中任意一个条件属性pu相对应;
如果所述pu被加入到所述核集Core中,则yu=1;如果所述pu未被加入到所述核集Core中,则yu=0;
所述核集Core在属性约简的目标达成后,即得到简约核集Core',
为了度量所述Core'包含的条件属性对于决策属性合集D的重要度IDegree,根据信息熵理论,给出重要度度量公式:
根据所述重要度度量公式构建属性约简的目标函数,该目标函数是要找到所述简约标识集合Y,以使得所述IDegree最大,同时所述Core'所包含的条件属性个数最少;所述属性约简的目标函数为:
其中,N为被加入到所述核集Core中的条件属性的个数;
步骤1.2.2,建立突变粒子群算法的适应度函数;
建立种群规模为K的粒子群,所述K为设定值;记粒子spv为L维空间中的任意一个粒子,所述L维空间为C∪D的大小;
所述spv的初始位置的设置方法为:
所述spv在所述L维空间的第u维方向的位置随机设置为0或1,从而得到所述spv在所述L维空间中的位置随机设置所述spv在所述L维空间的第u维方向的速度从而得到所述spv在所述L维空间中的速度根据所述属性约简的目标函数,将适应度函数定义为:
其中,α和β为权重大小,α和β的取值范围为[0,1],且α+β=1;
步骤1.2.3,计算所述粒子群的全局最优位置gBest,即所述简约标识集合Y;
步骤1.2.4,根据所述简约标识集合Y,将其中所述yu的值为1的条件属性加入到所述核集Core中,得到所述简约核集Core'。
所述步骤1.2.3,计算所述粒子群的全局最优位置gBest,即所述简约标识集合Y,计算方法为:
步骤1-a,根据所述适应度函数计算所述spv的初始最优位置pBestv以及所述粒子群的初始全局最优位置gBest;
步骤1-b,计算所述spv的速度和位置;
将所述条件属性与决策属性的依赖程度,即所述条件属性与决策属性间的互信息更新粒子的速度,作为粒子群算法的收敛速度,计算粒子收敛速度公式为:
此式用于计算所述spv的速度,式(4)中,γ,α1,α2和α3为预先设定的经验值;E为向量,E=<e1,e2,...ek>,其中任意一个元素eo为条件属性pu与决策属性集合D的互信息值,即eo=I(pu;D);t表示当前迭代;
使用取整函数得到计算粒子收敛位置公式:
此式用于计算所述spv的位置;
步骤1-c,对粒子群进行多样性评估;
利用欧式距离,计算任意两个粒子间的距离,如果所述的两个粒子间距离小于事先设置的阈值,则说明所述的两个粒子的多样性较差,则对所述的两个粒子进行交叉变异操作;如果所述的两个粒子间距离大于或等于事先设置的阈值,则说明所述的两个粒子的多样性较强,则不对所述的两个粒子进行交叉变异操作;
步骤1-d,判断所述步骤1-b的迭代次数是否达到设置的阈值,如果不是,则返回所述步骤1-b;如果是,则得到粒子群的全局最优位置gBest,即简约标识集合Y。
所述步骤3.1,领域专家交互剪枝;
所述领域专家根据领域经验决定所述节点t的剪枝决策,如果所述剪枝决策为对所述节点t进行剪枝,则计算与此剪枝决策相对应的剪枝评价,所述剪枝评价包括节点分类代价、节点精度代价和节点复杂度收益,计算方法为:
步骤3.1.1,建立错分代价表,计算所述节点t的所有子树删除后的分类代价,即节点分类代价;
由领域专家根据领域经验决定节点t的剪枝决策并建立错分代价表,该表的结构为<Ca,Cb,COST>,其中,Ca表示类别,Cb表示所述类别Ca被误分为的类别,COST表示类别Ca误分为类别Cb产生的成本开销节点分类代价;
计算节点t的所有子树删除后的分类代价,即节点分类代价,计算方法为:
其中,COSTab表示所述节点t的所有子树被删除后,类别c被分为类别d时的节点分类代价,COSThr表示所述节点t的所有子树被删除前,分类h被分为r时的节点分类代价;
步骤3.1.2,计算所述节点t的所有子树删除后的精度代价Acut,即节点精度代价,计算方法为:
其中,card(T)为节点t的所有子树被删除前的正确分类的样本数,card(T-t)为所述节点t的所有子树被删除后的正确分类的样本数;
步骤3.1.3,利用下面公式计算所述节点t的所有子树被删除后的决策树复杂度收益Complext,即节点复杂度收益,计算方法为:
其中,Deep(T-t)为所述节点t的所有子树被删除后的决策树的深度;Hierachy(T-t)分别为所述节点t的所有子树被删除后的决策树的宽度;Deep(T)为剪枝前的决策树的深度;Hierachy(T)为剪枝前的决策树的宽度。
所述步骤3.2.2,根据所述历史剪枝经验数据库,建立面向剪枝决策的BP神经网络模型,建立方法为:
步骤3-a,BP神经网络初始化;
根据所述历史剪枝经验数据库,以所述数据库中每个节点的分类代价、精度代价和复杂度收益作为输入向量,输入层的节点数Cinput设置为3;以所述剪枝决策作为输出向量,若剪枝则输出1,否则输出0;所以输出层的节点数Coutput是1;根据kolmogorov经验公式,确定隐含层节点数Chidden,即:
其中,α的取值范围为[1,10];
这里,确定隐含层节点数Chidden为4;
选择S型的logsig函数为激励函数;
步骤3-b,将BP神经网络模型进行训练并将训练好的模型进行存储持久化,得到基于BP神经网络的决策树交互式剪枝决策模型。
本发明的有益效果:
本发明提出一种基于属性简约的交互式决策树构建方法,本发明针对大数据环境中数据维度较高导致用户难以理解的问题,利用互信息计算属性核集,对剩余属性利用粒子群算法进行训练;在训练的同时,为了防止粒子随迭代次数的增加而使得多样性消失这种情况的发生,对于较为相似的粒子进行交叉变异操作以保持种群多样性,同时,在训练过程中引入条件属性与决策属性的依赖度对粒子速度进行更新,能够提高收敛速度,最终得到全局近似最优约简的属性集合;在决策树构建过程中融入领域专家的剪枝经验,能够提高决策树的分类精度,降低其错分代价。
本发明设计合理,易于实现,具有很好的实用价值。
附图说明
图1为本发明具体实施方式中所述基于属性简约的交互式决策树构建方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明做进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对于决策树构建问题,本发明提出了一种基于属性简约的交互式决策树构建方法,如图1所示,包括以下步骤:
步骤1,根据属性简约方法得出有限样本集合U的简约核集;
步骤1.1,基于互信息求核集;
记决策表S=<U,C∪D,V,f>,其中U为有限样本集合,U={x1,x2,....,xn},C为非空条件属性集合,D为非空决策属性集合,f:U×(C∪D)→V为函数,用于确定所述U中每一个样本x的属性值;
首先设核集Core为空,其中包括C中对于决策属性来说必不可少的条件属性;然后计算所述C和D的互信息I(C;D);然后遍历所述C中的每一个条件属性a,计算集合C-{a}和所述D的互信息I(C-{a};D);
如果I(C-{a};D)<I(C;D),则说明所述条件属性a对于决策属性来说是一个必不可少的条件属性,将所述a加入到Core中,即Core=Core+{a};若I(C-{a};D)≥I(C;D),则说明所述a对于决策属性来说不是一个必不可少的条件属性,不将所述a加入到Core中;
步骤1.2,利用突变粒子群算法对所述核集Core进行属性约简;
步骤1.2.1,建立所述属性约简的目标函数;
记不在所述核集Core中的属性所构成的集合为P,即P=C-Core;
所述属性约简的目标是在P中找到一组条件属性加入到核集Core中,使得经过属性约简调整后的核集,即简约核集Core'中包含的条件属性对于决策属性重要度最大,同时所述Core'所包含的条件属性个数最少;实现该目标的具体方法为:
建立简约标识集合Y={y1,y2,...,ym},其中的任意一个元素yu分别与所述P中任意一个条件属性pu相对应;
如果所述pu被加入到所述核集Core中,则yu=1;如果所述pu未被加入到所述核集Core中,则yu=0;
所述核集Core在属性约简的目标达成后,即得到简约核集Core',
为了度量所述Core'包含的条件属性对于决策属性合集D的重要度IDegree,根据信息熵理论,给出重要度度量公式:
根据式(2)构建属性约简的目标函数,该目标函数是要找到所述简约标识集合Y,以使得所述IDegree最大,同时所述Core'所包含的条件属性个数最少;所述属性约简的目标函数为:
式(3)中,N为被加入到所述核集Core中的条件属性的个数;
步骤1.2.2,建立突变粒子群算法的适应度函数;
建立种群规模为K的粒子群,所述K为设定值;记粒子spv为L维空间中的任意一个粒子,所述L维空间为C∪D的大小;
所述spv的初始位置的设置方法为:
所述spv在所述L维空间的第u维方向的位置随机设置为0或1,从而得到所述spv在所述L维空间中的位置随机设置所述spv在所述L维空间的第u维方向的速度从而得到所述spv在所述L维空间中的速度根据所述属性约简的目标函数,将适应度函数定义为:
式(4)中,α和β为权重大小,α和β的取值范围为[0,1],且α+β=1;
步骤1.2.3,计算所述粒子群的全局最优位置gBest,即所述简约标识集合Y,计算方法为:
步骤1-a,根据所述适应度函数计算所述spv的初始最优位置pBestv以及所述粒子群的初始全局最优位置gBest;
步骤1-b,计算所述spv的速度和位置;
将所述条件属性与决策属性的依赖程度,即所述条件属性与决策属性间的互信息更新粒子的速度,作为粒子群算法的收敛速度,计算粒子收敛速度公式为:
式(5)用于计算所述spv的速度,式(4)中,γ,α1,α2和α3为预先设定的经验值;E为向量,E=<e1,e2,...ek>,其中任意一个元素eo为条件属性pu与决策属性集合D的互信息值,即eo=I(pu;D);t表示当前迭代;
使用取整函数得到计算粒子收敛位置公式:
式(6)用于计算所述spv的位置;
步骤1-c,对粒子群进行多样性评估;
利用欧式距离,计算任意两个粒子间的距离,如果所述的两个粒子间距离小于事先设置的阈值,则说明所述的两个粒子的多样性较差,则对所述的两个粒子进行交叉变异操作;如果所述的两个粒子间距离大于或等于事先设置的阈值,则说明所述的两个粒子的多样性较强,则不对所述的两个粒子进行交叉变异操作;
步骤1-d,判断所述步骤2-b的迭代次数是否达到设置的阈值,如果不是,则返回所述步骤2-b;如果是,则得到粒子群的全局最优位置gBest,即简约标识集合Y。
步骤1.2.4,根据所述简约标识集合Y,将其中所述yu的值为1的条件属性加入到所述核集Core中,得到所述简约核集Core';
步骤2,根据所述简约核集,利用C4.5算法生成决策树,并利用R语言对所述决策树进行可视化,得到可视化决策树;
步骤3,交互式决策树剪枝;
对于所述决策树的任意节点t,如果删除所述节点t的所有子树,即对以节点t的所有子树进行剪枝;判断是否对所述节点t的所有子树进行剪枝,即所述节点t的剪枝决策,其判断方法为:
步骤3.1,领域专家交互剪枝;
所述领域专家根据领域经验决定所述节点t的剪枝决策,如果所述剪枝决策为对所述节点t进行剪枝,则计算与此剪枝决策相对应的剪枝评价,所述剪枝评价包括节点分类代价、节点精度代价和节点复杂度收益,计算方法为:
步骤3.1.1,建立错分代价表,计算所述节点t的所有子树删除后的分类代价,即节点分类代价;
由领域专家根据领域经验决定节点t的剪枝决策并建立错分代价表,该表的结构为<Ca,Cb,COST>,其中,Ca表示类别,Cb表示所述类别Ca被误分为的类别,COST表示类别Ca误分为类别Cb产生的成本开销节点分类代价;
计算节点t的所有子树删除后的分类代价,即节点分类代价,计算方法为:
式(7)中,COSTab表示所述节点t的所有子树被删除后,类别c被分为类别d时的节点分类代价,COSThr表示所述节点t的所有子树被删除前,分类h被分为r时的节点分类代价;
步骤3.1.2,计算所述节点t的所有子树删除后的精度代价Acut,即节点精度代价,计算方法为:
式(8)中,card(T)为节点t的所有子树被删除前的正确分类的样本数,card(T-t)为所述节点t的所有子树被删除后的正确分类的样本数;
步骤3.1.3,利用下面公式计算所述节点t的所有子树被删除后的决策树复杂度收益Complext,即节点复杂度收益,计算方法为:
式(9)中,Deep(T-t)为所述节点t的所有子树被删除后的决策树的深度;Hierachy(T-t)分别为所述节点t的所有子树被删除后的决策树的宽度;Deep(T)为剪枝前的决策树的深度;Hierachy(T)为剪枝前的决策树的宽度。
步骤3.2,构建基于BP神经网络的决策树交互式剪枝决策模型,构建方法为:
步骤3.2.1,建立历史剪枝经验数据库;
设置历史剪枝经验数据库的节点数量要求,判断经过所述步骤4.1中领域专家的剪枝决策的节点数量,如果该数量不满足所述历史剪枝经验数据库的节点数量要求,则返回步骤4.1,如果该数量满足所述历史剪枝经验数据库的节点数量要求,则建立历史剪枝经验数据库;
所述历史剪枝经验数据库中的信息记录包括步骤4.1得出的关于所述数据库中每个节点的领域专家信息、节点的分类代价、节点的精度代价、节点的复杂度收益和剪枝决策;
步骤3.2.2,根据所述历史剪枝经验数据库,建立面向剪枝决策的BP神经网络模型,建立方法为:
步骤3-a,BP神经网络初始化;
根据所述历史剪枝经验数据库,以所述数据库中每个节点的分类代价、精度代价和复杂度收益作为输入向量,输入层的节点数Cinput设置为3;以所述剪枝决策作为输出向量,若剪枝则输出1,否则输出0;所以输出层的节点数Coutput是1;根据kolmogorov经验公式,确定隐含层节点数Chidden,即:
式(10)中,α的取值范围为[1,10];
这里,确定隐含层节点数Chidden为4;
选择S型的logsig函数为激励函数;
步骤3-b,将BP神经网络模型进行训练并将训练好的模型进行存储持久化,得到基于BP神经网络的决策树交互式剪枝决策模型。
步骤3.3,根据所述步骤4.2构建的BP神经网络剪枝决策模型,得到针对所述任意节点t的剪枝决策,当所述剪枝决策为可以删除所述t的所有子树时,提示可以进行剪枝;否则,不提示。
Claims (5)
1.一种基于属性简约的交互式决策树构建方法,其特征在于,包括以下步骤:
步骤1,根据属性简约方法得出有限样本集合U的简约核集;
步骤2,根据所述简约核集,利用C4.5算法生成决策树,并利用R语言对所述决策树进行可视化,得到可视化决策树;
步骤3,交互式决策树剪枝;
对于所述决策树的任意节点t,如果删除所述节点t的所有子树,即对以节点t的所有子树进行剪枝;判断是否对所述节点t的所有子树进行剪枝,即所述节点t的剪枝决策,其判断方法为:
步骤3.1,领域专家交互剪枝;
所述领域专家根据领域经验决定所述节点t的剪枝决策,如果所述剪枝决策为对所述节点t进行剪枝,则计算与此剪枝决策相对应的剪枝评价,所述剪枝评价包括节点分类代价、节点精度代价和节点复杂度收益;
步骤3.2,构建基于BP神经网络的决策树交互式剪枝决策模型,构建方法为:
步骤3.2.1,建立历史剪枝经验数据库;
设置历史剪枝经验数据库的节点数量要求,判断经过所述步骤4.1中领域专家的剪枝决策的节点数量,如果该数量不满足所述历史剪枝经验数据库的节点数量要求,则返回步骤4.1,如果该数量满足所述历史剪枝经验数据库的节点数量要求,则建立历史剪枝经验数据库;
所述历史剪枝经验数据库中的信息记录包括步骤4.1得出的关于所述数据库中每个节点的领域专家信息、节点的分类代价、节点的精度代价、节点的复杂度收益和剪枝决策;
步骤3.2.2,根据所述历史剪枝经验数据库,建立面向剪枝决策的BP神经网络模型;
步骤3.3,根据所述步骤4.2构建的BP神经网络剪枝决策模型,得到针对所述任意节点t的剪枝决策,当所述剪枝决策为可以删除所述t的所有子树时,提示可以进行剪枝;否则,不提示。
2.根据权利要求1所述的基于属性简约的交互式决策树构建方法,其特征在于,所述步骤1,根据属性简约方法得出有限样本集合U的简约核集,包括以下步骤:
步骤1.1,基于互信息求核集;
记决策表S=<U,C∪D,V,f>,其中U为有限样本集合,U={x1,x2,....,xn},C为非空条件属性集合,D为非空决策属性集合,f:U×(C∪D)→V为函数,用于确定所述U中每一个样本x的属性值;
首先设核集Core为空,其中包括C中对于决策属性来说必不可少的条件属性;然后计算所述C和D的互信息I(C;D);然后遍历所述C中的每一个条件属性a,计算集合C-{a}和所述D的互信息I(C-{a};D);
如果I(C-{a};D)<I(C;D),则说明所述条件属性a对于决策属性来说是一个必不可少的条件属性,将所述a加入到Core中,即Core=Core+{a};若I(C-{a};D)≥I(C;D),则说明所述a对于决策属性来说不是一个必不可少的条件属性,不将所述a加入到Core中;
步骤1.2,利用突变粒子群算法对所述核集Core进行属性约简;
步骤1.2.1,建立所述属性约简的目标函数;
记不在所述核集Core中的属性所构成的集合为P,即P=C-Core;
所述属性约简的目标是在P中找到一组条件属性加入到核集Core中,使得经过属性约简调整后的核集,即简约核集Core'中包含的条件属性对于决策属性重要度最大,同时所述Core'所包含的条件属性个数最少;实现该目标的具体方法为:
建立简约标识集合Y={y1,y2,...,ym},其中的任意一个元素yu分别与所述P中任意一个条件属性pu相对应;
如果所述pu被加入到所述核集Core中,则yu=1;如果所述pu未被加入到所述核集Core中,则yu=0;
所述核集Core在属性约简的目标达成后,即得到简约核集Core',
为了度量所述Core'包含的条件属性对于决策属性合集D的重要度IDegree,根据信息熵理论,给出重要度度量公式:
根据所述重要度度量公式构建属性约简的目标函数,该目标函数是要找到所述简约标识集合Y,以使得所述IDegree最大,同时所述Core'所包含的条件属性个数最少;所述属性约简的目标函数为:
其中,N为被加入到所述核集Core中的条件属性的个数;
步骤1.2.2,建立突变粒子群算法的适应度函数;
建立种群规模为K的粒子群,所述K为设定值;记粒子spv为L维空间中的任意一个粒子,所述L维空间为C∪D的大小;
所述spv的初始位置的设置方法为:
所述spv在所述L维空间的第u维方向的位置随机设置为0或1,从而得到所述spv在所述L维空间中的位置随机设置所述spv在所述L维空间的第u维方向的速度从而得到所述spv在所述L维空间中的速度根据所述属性约简的目标函数,将适应度函数定义为:
其中,α和β为权重大小,α和β的取值范围为[0,1],且α+β=1;
步骤1.2.3,计算所述粒子群的全局最优位置gBest,即所述简约标识集合Y;
步骤1.2.4,根据所述简约标识集合Y,将其中所述yu的值为1的条件属性加入到所述核集Core中,得到所述简约核集Core'。
3.根据权利要求2所述的基于属性简约的交互式决策树构建方法,其特征在于,所述步骤1.2.3,计算所述粒子群的全局最优位置gBest,即所述简约标识集合Y,计算方法为:
步骤1-a,根据所述适应度函数计算所述spv的初始最优位置pBestv以及所述粒子群的初始全局最优位置gBest;
步骤1-b,计算所述spv的速度和位置;
将所述条件属性与决策属性的依赖程度,即所述条件属性与决策属性间的互信息更新粒子的速度,作为粒子群算法的收敛速度,计算粒子收敛速度公式为:
此式用于计算所述spv的速度,式(4)中,γ,α1,α2和α3为预先设定的经验值;E为向量,E=<e1,e2,...ek>,其中任意一个元素eo为条件属性pu与决策属性集合D的互信息值,即eo=I(pu;D);t表示当前迭代;
使用取整函数得到计算粒子收敛位置公式:
此式用于计算所述spv的位置;
步骤1-c,对粒子群进行多样性评估;
利用欧式距离,计算任意两个粒子间的距离,如果所述的两个粒子间距离小于事先设置的阈值,则说明所述的两个粒子的多样性较差,则对所述的两个粒子进行交叉变异操作;如果所述的两个粒子间距离大于或等于事先设置的阈值,则说明所述的两个粒子的多样性较强,则不对所述的两个粒子进行交叉变异操作;
步骤1-d,判断所述步骤1-b的迭代次数是否达到设置的阈值,如果不是,则返回所述步骤1-b;如果是,则得到粒子群的全局最优位置gBest,即简约标识集合Y。
4.根据权利要求1所述的基于属性简约的交互式决策树构建方法,其特征在于,所述步骤3.1,领域专家交互剪枝;
所述领域专家根据领域经验决定所述节点t的剪枝决策,如果所述剪枝决策为对所述节点t进行剪枝,则计算与此剪枝决策相对应的剪枝评价,所述剪枝评价包括节点分类代价、节点精度代价和节点复杂度收益,计算方法为:
步骤3.1.1,建立错分代价表,计算所述节点t的所有子树删除后的分类代价,即节点分类代价;
由领域专家根据领域经验决定节点t的剪枝决策并建立错分代价表,该表的结构为<Ca,Cb,COST>,其中,Ca表示类别,Cb表示所述类别Ca被误分为的类别,COST表示类别Ca误分为类别Cb产生的成本开销节点分类代价;
计算节点t的所有子树删除后的分类代价,即节点分类代价,计算方法为:
其中,COSTab表示所述节点t的所有子树被删除后,类别c被分为类别d时的节点分类代价,COSThr表示所述节点t的所有子树被删除前,分类h被分为r时的节点分类代价;
步骤3.1.2,计算所述节点t的所有子树删除后的精度代价Acut,即节点精度代价,计算方法为:
其中,card(T)为节点t的所有子树被删除前的正确分类的样本数,card(T-t)为所述节点t的所有子树被删除后的正确分类的样本数;
步骤3.1.3,利用下面公式计算所述节点t的所有子树被删除后的决策树复杂度收益Complext,即节点复杂度收益,计算方法为:
其中,Deep(T-t)为所述节点t的所有子树被删除后的决策树的深度;Hierachy(T-t)分别为所述节点t的所有子树被删除后的决策树的宽度;Deep(T)为剪枝前的决策树的深度;Hierachy(T)为剪枝前的决策树的宽度。
5.根据权利要求4所述的基于属性简约的交互式决策树构建方法,其特征在于,所述步骤3.2.2,根据所述历史剪枝经验数据库,建立面向剪枝决策的BP神经网络模型,建立方法为:
步骤3-a,BP神经网络初始化;
根据所述历史剪枝经验数据库,以所述数据库中每个节点的分类代价、精度代价和复杂度收益作为输入向量,输入层的节点数Cinput设置为3;以所述剪枝决策作为输出向量,若剪枝则输出1,否则输出0;所以输出层的节点数Coutput是1;根据kolmogorov经验公式,确定隐含层节点数Chidden,即:
其中,α的取值范围为[1,10];
这里,确定隐含层节点数Chidden为4;
选择S型的logsig函数为激励函数;
步骤3-b,将BP神经网络模型进行训练并将训练好的模型进行存储持久化,得到基于BP神经网络的决策树交互式剪枝决策模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810255706.0A CN108416395A (zh) | 2018-03-27 | 2018-03-27 | 一种基于属性简约的交互式决策树构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810255706.0A CN108416395A (zh) | 2018-03-27 | 2018-03-27 | 一种基于属性简约的交互式决策树构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108416395A true CN108416395A (zh) | 2018-08-17 |
Family
ID=63133494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810255706.0A Pending CN108416395A (zh) | 2018-03-27 | 2018-03-27 | 一种基于属性简约的交互式决策树构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416395A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445080A (zh) * | 2020-04-01 | 2020-07-24 | 中电万维信息技术有限责任公司 | 一种基于随机森林的西北内陆河生态基流预测方法 |
CN113313578A (zh) * | 2021-06-15 | 2021-08-27 | 中国银行股份有限公司 | 信用卡消费分期的决策方法及装置 |
CN114500561A (zh) * | 2022-02-17 | 2022-05-13 | 中国电力科学研究院有限公司 | 电力物联网网络资源分配决策方法、系统、设备及介质 |
-
2018
- 2018-03-27 CN CN201810255706.0A patent/CN108416395A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445080A (zh) * | 2020-04-01 | 2020-07-24 | 中电万维信息技术有限责任公司 | 一种基于随机森林的西北内陆河生态基流预测方法 |
CN113313578A (zh) * | 2021-06-15 | 2021-08-27 | 中国银行股份有限公司 | 信用卡消费分期的决策方法及装置 |
CN113313578B (zh) * | 2021-06-15 | 2024-03-08 | 中国银行股份有限公司 | 信用卡消费分期的决策方法及装置 |
CN114500561A (zh) * | 2022-02-17 | 2022-05-13 | 中国电力科学研究院有限公司 | 电力物联网网络资源分配决策方法、系统、设备及介质 |
CN114500561B (zh) * | 2022-02-17 | 2024-02-20 | 中国电力科学研究院有限公司 | 电力物联网网络资源分配决策方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399748B (zh) | 一种基于随机森林与聚类算法的道路旅行时间预测方法 | |
CN105740651B (zh) | 一种特定癌症差异表达基因调控网络的构建方法 | |
CN113642849B (zh) | 考虑空间分布特征的地质灾害危险性综合评价方法及装置 | |
CN109101632A (zh) | 基于制造大数据的产品质量异常数据追溯分析方法 | |
CN103136355B (zh) | 一种基于自动阈值鱼群算法的文本聚类方法 | |
CN108595414B (zh) | 基于源汇空间变量推理的土壤重金属企业污染源识别方法 | |
Rahman et al. | Discretization of continuous attributes through low frequency numerical values and attribute interdependency | |
CN110059852A (zh) | 一种基于改进随机森林算法的股票收益率预测方法 | |
CN108416395A (zh) | 一种基于属性简约的交互式决策树构建方法 | |
Otero et al. | Handling continuous attributes in ant colony classification algorithms | |
CN104820724B (zh) | 文本类教育资源知识点预测模型获得方法及模型应用方法 | |
CN109345007A (zh) | 一种基于XGBoost特征选择的有利储层发育区预测方法 | |
Chen et al. | Detection of multivariate geochemical anomalies using the bat-optimized isolation forest and bat-optimized elliptic envelope models | |
CN101089884A (zh) | 一种人口数据空间化动态建模方法 | |
CN109118004B (zh) | 一种工程构筑选址适宜区预测方法 | |
CN111126865A (zh) | 一种基于科技大数据的技术成熟度判断方法和系统 | |
CN108985455A (zh) | 一种计算机应用神经网络预测方法及系统 | |
CN109961129A (zh) | 一种基于改进粒子群的海上静止目标搜寻方案生成方法 | |
CN106227965B (zh) | 一种顾及时空分布非平稳特征的土壤有机碳空间抽样网络设计方法 | |
CN110362911A (zh) | 一种面向设计过程的代理模型选择方法 | |
CN113420506A (zh) | 掘进速度的预测模型建立方法、预测方法及装置 | |
CN112464040B (zh) | 图结构识别、可视化展示及显示操作方法及装置 | |
CN105758403A (zh) | 一种基于Vague集模糊推理的地磁图适配性的综合评价方法 | |
Noor et al. | Prediction map of rainfall classification using random forest and inverse distance weighted (IDW) | |
CN109871894A (zh) | 一种结合森林优化和粗糙集的数据离散化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180817 |