CN104866314A - 一种基于循环更新模式的决策树构建方法 - Google Patents

一种基于循环更新模式的决策树构建方法 Download PDF

Info

Publication number
CN104866314A
CN104866314A CN201510277941.4A CN201510277941A CN104866314A CN 104866314 A CN104866314 A CN 104866314A CN 201510277941 A CN201510277941 A CN 201510277941A CN 104866314 A CN104866314 A CN 104866314A
Authority
CN
China
Prior art keywords
decision
decision tree
decision table
value
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510277941.4A
Other languages
English (en)
Inventor
贾靓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou University
Original Assignee
Changzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou University filed Critical Changzhou University
Priority to CN201510277941.4A priority Critical patent/CN104866314A/zh
Publication of CN104866314A publication Critical patent/CN104866314A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于循环更新模式的决策树构建方法,对于给定决策表,使用基于其决策树时空复杂度的目标函数帕累托最优值与贝叶斯理论计算贝叶斯概率,根据贝叶斯概率修改给定决策表,使用基于决策树选择标准的计算方法构建所修改决策表的决策树,将决策树应用于信息系统进行自动决策并自动记录决策过程。在系统运行一段时间后,根据所记录决策过程的数据,计算对应决策表每行的自动决策次数与决策表所有行的总决策次数之比,根据该比例修改决策表,使用基于决策树选择标准的计算方法构建所修改决策表的新决策树,再次将新决策树应用于信息系统,如此反复,直至所计算的每行比例小于决策变化率阀值。应用本发明方案的信息系统具有高效的自动决策功能。

Description

一种基于循环更新模式的决策树构建方法
技术领域
本发明涉及一种基于循环更新模式的决策树构建方法。
背景技术
用于构建决策树的计算方法的数量和种类很多,这些算法大多着眼于决策树端点数和决策树高度等决策树复杂度进行构建,其种类大致可分为动态规划,增量算法,贪婪算法等。根据S.Hussain,“Total path length and number of terminalnodes for decision trees”,ProcediaComput.Sci.,vol.35,pp.514-521,2014.的研究,对于一般的决策表,通常无法构建具有所有复杂度最小化的决策树。这种无法最小化所有复杂度的情况属于多目标最优化理论的范畴,但与多目标最优化中可行空间可被显式探索不同,决策树复杂度的可行空间通过决策树与子决策树间的关系进行探索。由于决策树复杂度可行空间的隐式探索方式,决策树算法一般只对决策表进行一次性分析。这种构建决策表的模式,既脱离现实应用的实际需要,又常常无法得到具有复杂度理论上最优化的决策树。虽然在数据挖掘中,存在根据决策树应用情况修改决策表的算法,例如D.M.Farid,L.Zhang,C.M.Rahman,M.A.Hossain,R.Strachan,"Hybrid decision tree andBayesclassifiers for multi-class classification tasks",Expert Syst.with Applicat.,vol.41,no.4,pp.1937-1946,Mar.2014.,但建立在一次性删减决策表内部信息的基础上。这种修改决策表的方式,既不能保证决策表的信息完整,又无法根据实际应用做进一步的决策树优化。因此,为更符合实际应用需求,提升应用决策树系统的自动决策效率,生成决策树的过程应考虑应用需求,从而保证良好的决策效率。
发明内容
本发明要解决的技术问题是:为了提升应用决策树系统的自动决策效率,生成决策树的过程紧密结合应用需求,从而保证良好的决策效率,本发明提供一种基于循环更新模式的决策树构建方法。
为使陈述清楚明了,现集中定义本发明所涉及的部分符号和概念。
{·}表示一集合,且其中的任一元素均不与集合中的其他元素重复。
{·}表示一任意集合。
|{·}|表示集合{·}中含有不同元素的种类数。
|{·}|表示集合{·}中元素的数量。
Z+表示不包括零的正整数集合。
R+表示不包括零的正实数集合。
Rn表示n∈Z+的n维实向量空间。
“max{元素|条件}”或“max条件元素”表示满足条件的最大元素。
“min{元素|条件}”或“min条件元素”表示满足条件的最小元素。
T0表示对本发明方案给定的初始决策表。
T表示对本发明方案中每次输入程序的决策表。
T‘表示任意非空的决策表,以下对T‘的相关定义与描述均适用于T0和T。
E(T‘)表示T‘中的条件属性集合,且满足E(T‘)={E(T‘)}
C(T‘)表示T‘中的条件值集合的集合。
D(T‘)表示T‘中的决策值集合。决策值即“决策属性值(values of decisionattributes)”,又称“决策特征值”,或“决策属性值”,本申请中简称为“决策值”。
f1,f2,…,f|E(T‘)|∈E(T‘)表示T‘的共|E(T‘)|个条件属性。
{c11,c12,…,c1|E(T‘)|},{c21,c22,…,c2|E(T‘)|},…,{c|C(T‘)|1,c|C(T‘)|2,…,c|C(T‘)|·|E(T‘)|}∈C(T‘)表示T‘的共|C(T‘)|个条件值集合,对于C(T‘)中任意条件值集合,其元素均为条件值且属于Rn
表示T‘的共|D(T‘)|个决策值。
T‘是具有如下结构的二维表:
对于fi∈E(T‘),i∈Z+且1≤i≤|E(T‘)|,i表示条件属性fi在E(T‘)中的索引。
对于rj={cj1,cj2,…,cj|E(R‘)|}∈C(T‘),j∈Z+且1≤j≤|C(T‘)|,j表示条件值集合rj,即T‘中的第j行的索引。
对于且j1≠j2,j1,j2∈Z+,1≤j1≤|C(T‘)|,1≤j2≤|C(T‘)|,不等式成立。
dm∈D(T‘),m∈Z+,1≤m≤|D(T‘)|,m表示dm在D(T‘)中的索引。
rj与dm相关:rj∈C(T‘)与dm∈D(T‘)在T‘中排列为同一行时称为rj与dm相关。
C(dm)={rj∈C(T‘)|rj与dm相关}。
C(T‘,fi)表示T‘中对应列fi的所有条件值的集合。决策表是二维的,每一行(不包括最后一个决策值)都包含一行条件值,每一列(不包括最后的决策列)也包含一列条件值。
rj(c)={cjy∈rj|cjy=c},∈Z+,1≤y≤|E(T‘)|。
多目标最优化:多目标最优化中n1个约束条件由函数定义,n2个目标函数及其值组成目标空间 其中k2=1,2,…,n2的自变量构成了决策空间m∈Z+中满足其中k1=1,2,…,n1的向量集合称为可行空间。定义从到子集的映射其中代表通过上的投影。对于给定的向量多目标最优化定义如下。
对于称为帕累托最优化当且仅当 F k 2 ( x &prime; ) &le; F k 2 ( x * ) 成立,并且 &Exists; k 3 , 1 &le; k 3 &le; n 2 , F k 3 ( x &prime; ) < F k 3 ( x * ) 成立。中的最小值记做 的假设为 ( F 1 ( x &prime; ) , F 2 ( x &prime; ) , . . . , F n 2 ( x &prime; ) ) = ( F 1 * , F 2 * , . . . , F n 2 * , ) 成立。
子决策表,即子表:对于元素互不相同的集合n∈Z+,和一组C(T‘)中条件值集合所包含的,依次对应条件属性的条件值根据T‘可构建子表Θ。Θ和T‘具有相同的条件属性,即E(Θ)=E(T‘),但其行是从T中抽取的,即对于任意rj={cj1,cj2…cj|E(T‘)|}∈C(Θ),成立。此时,Θ也记做
决策树:若T‘的树状表达方式记做ΓT‘且对于任意cji∈rj∈C(T‘),其处理顺序任意,即处理顺序并不遵循固定顺序,例如所对应的f1,f2,…,f|E(T‘)|∈E(T‘)在T‘中的排列顺序,ΓT‘的节点可以是fi∈E(T‘)或D(T‘)中的值。在ΓT‘中,若节点v1,v2∈E(T‘)∪D(T‘),v1≠v2,被一条由v1指向v2的边连接,则边被C(T‘,v1)中的值所标识。ΓT‘中由连接节点的有向边定义了节点的处理顺序。ΓT‘的根节点是该节点只有指向其它节点的边且没有指向该节点的边,根节点可以是任意fi∈E(T‘)。ΓT‘的叶子结点是该节点没有指向其它节点的边且只有从其它节点出发的边指向该点,叶子结点只能是D(T‘)中的值。符合上述描述的T‘的树状表达方式ΓT‘称为决策树。
决策树集合根据决策树定义可知,对于给定的决策表T‘,存在多个基于T‘的,结构各异的决策树,这些决策树的集合称为决策树集合,记做
通路:从ΓT‘中根节点fi开始,移动n3∈Z+步到节点v∈E(T‘)∪D(T‘)所经过的路径称为fi和v间的n3步通路,其中所经过的节点和边依次被属性和值所标识。根据n3步通路,子表T‘(v)可根据下式构造。
决策树时间与空间复杂度,即时空复杂度:对于任意rj={cj1,cj2…cj|E(T‘)|}∈C(T‘),rj对应唯一的决策值dj∈D(T‘)。在基于T‘(dj)构造的决策树中,存在一条表示rj∪{dj}的通路,rj的长定义为从T‘(dj)中根节点到节点dj的通路上所经过边上所标识值的总和,即k4∈Z+。对于基于子表T‘(v)构建的决策树ΓT‘(v),T‘(v)的总长定义为ΓT‘(v)的时间复杂度定义如下。
TT‘(v)的空间复杂度定义为ΓT‘(v)的叶子节点数。根据定义,是将ΓT‘(v)分别映射至Z+和Rn的函数,即
在以上定义的基础上,本发明解决其技术问题所采用的技术方案是:一种基于循环更新模式的决策树构建方法,包括以下步骤:
步骤1:根据给定的初始决策表计算基于决策树时空复杂度的目标函数帕累托最优值;
步骤2:根据步骤1计算所得目标函数帕累托最优值,结合贝叶斯理论,计算决策表中每行的贝叶斯概率,根据计算所得的贝叶斯概率修改初始决策表;
步骤3:根据所修改的决策表构建初始决策树;在应用初始决策树的信息系统中,在满足决策树应用数据可回收并能计算决策表每行决策频率的前提下,根据决策频率修改决策表,根据所修改的决策表构建新决策树;
步骤4:在信息系统中应用新决策树,再回收并分析新决策树的应用数据,如此反复直至当前决策变化率小于给定的决策变化率阀值时终止,从而循环更新决策树。
步骤1中帕累托最优值的定义如下文所述:
分别表示的取值范围,定义如下映射
其中用图表示任意非空的决策表T‘及其与子表,以及子表与子表之间的关系时,图的节点代表子表T‘(v)=T′v,从包含属性fi∈E(T′v)的节点T′v出发,指向节点T′v(fi,ak),ak∈C(T‘,fi),k∈Z+,k=1,…,|C(T′v,fi)|的边用(fi,ak)标识;图中的边是有向的,且连接了一个表及其子表,图是有向非循环图(directedacyclic graph,DAG),对于节点T′v∈DAG,|D(T′v)|其存在以下两种情况:
当|D(T′v)|=1,对于任意T′v中的行rj∈C(T′v),rj与所有行共享一个公共的决策值,此时,T′v是DAG的叶子节点,且
当|D(T′v)|>1,rj∈C(T′v)根据其对应的决策值分类,从节点T′v开始,对于任意fi∈E(T′v),若则存在被 标识的数量为|C(T′v,fi)|的边分别指向节点 对于每个T′v(fi,ak),都存在对应的
对于fi∈E(T′v),由其中组成的所有可能组合构成了如下定义的有序集合,
其中v=[1 … 1]T,*表示内积,且vk′*v<vk′+1*v其中k′=i,i+1,…,i+|C(T′v)|-1,令kmax=|C(T′v,fi)|,vi定义如下:
对于vi≠vk″,i+1≤k″≤|C(Tv)|,k″∈Z+,vk″定义如下:
对于T′v(fi,ak),可求得的值;对于基于决策树的时空复杂度且关于属性fi∈E(T′v)的目标函数定义如下:
其中vk′(k)表示向量vk′中第k个元素;根据关于E(T′v)的,用于描述子表T′v时空复杂度的目标函数帕累托最优值的定义如下:
如果T′v是图的叶子节点,则且帕累托最优点为如果T′v不是叶子节点,则对于每个fi∈E(T′v)计算并选计算所得的最小值作为的值,此时帕累托最优点为其中是用于找到生成的函数;对于决策树的时空复杂度的多目标最优化,目标空间是基于函数值的二维空间。
步骤2中,若P(dm)=|C(dm)|/|C(T‘)|, k6∈Z+,则对于rj的贝叶斯概率P(rj)定义如下:
计算所得贝叶斯概率用于修改初始决策表,若当前决策表非初始决策表,则根据决策表T‘的应用数据,即应用决策表T‘及其决策树进行自动决策的信息系统,在运行过程中积累的,与决策过程相关的,且用于统计分析的计算机数据,计算决策表T‘中每行的决策频率,即由决策表T‘的应用数据记录的信息系统使用过程中,符合rj中全部条件值的自动决策次数,与符合决策表T‘所有行的自动决策总次数的比值。
步骤3和步骤4:若T1表示第一次根据初始决策表T0和贝叶斯概率生成的决策表,T2表示第二次根据决策表T1的应用数据计算的决策频率修改T1获得的决策表,…,Tt+1表示第t+1次根据决策表Tt的应用数据计算的决策频率修改Tt获得的决策表,且表示第t+1次生成的决策表Tt+1中的第j行,t∈Z+∪{0},则修改决策表Tt的定义如下:
表示根据信息系统的的决策频率,的定义如下:
当t=0,当t>0;对于第t+1次生成的Tt+1,则Tt+1的决策树由基于“决策树选择标准”,即的算法生成,“决策树选择标准”的定义如下:
对于任意 根据计算的值,并根据Tt+1(v)计算的值,最终计算选择中具有最小值的决策树为这个过程一直反复,直到被构建为止;
循环更新模式的终止条件在步骤2内进行检查,要终止该模式,需要设置两个常数:决策频率阀值 和决策变化率阀值 仅在步骤2内固定,步骤2外这两个阀值根据需要在0到1之间调整;
整个模式终止与否取决于当前决策变化率也称第t+1次决策变化率,用于计算在t+1次修改决策表且t>0时,决策频率超过的行数占总行数的比例;t=0,无需计算,定义如下:
循环更新模式的终止条件为:该条件满足时,说明当前决策树根据所给参数已没有必要再做更新。
本发明的有益效果是,本发明的一种基于循环更新模式的决策树构建方法,对于给定决策表,使用基于其决策树时空复杂度的目标函数帕累托最优值与贝叶斯理论计算贝叶斯概率,根据贝叶斯概率修改给定决策表,使用基于决策树选择标准的计算方法构建所修改决策表的决策树,将决策树应用于信息系统进行自动决策并自动记录决策过程。在系统运行一段时间后,根据所记录决策过程的数据,计算对应决策表每行的自动决策次数与决策表所有行的总决策次数之比,根据该比例修改决策表,使用基于决策树选择标准的计算方法构建所修改决策表的新决策树,再次将新决策树应用于信息系统,如此反复,直至所计算的每行比例小于决策变化率阀值。应用本发明方案的信息系统具有高效的自动决策功能。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明的一种基于循环更新模式的决策树构建方法的UML活动图。
图2是本发明的一种基于循环更新模式的决策树构建方法中步骤1.1的UML活动图。
图3是本发明的一种基于循环更新模式的决策树构建方法中步骤1.2的UML活动图。
图4是本发明的一种基于循环更新模式的决策树构建方法中步骤3.1的UML活动图。
图5是本发明的一种基于循环更新模式的决策树构建方法中步骤3.2的UML活动图。
图6是本发明的一种基于循环更新模式的决策树构建方法的决策记录每日累计数量图表。
图7是本发明的一种基于循环更新模式的决策树构建方法的每日自动决策次数图表。
图8是本发明的一种基于循环更新模式的决策树构建方法的每日平均自动决策耗时图表。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
本发明计算方法的具体实施方式由编写计算机程序完成。本发明实施方案共包含四个步骤:
步骤1:根据给定的初始决策表计算基于决策树时空复杂度的目标函数的帕累托最优值;
步骤2:根据步骤1计算所得目标函数帕累托最优值,结合贝叶斯理论,计算决策表中每行的贝叶斯概率,根据计算所得的贝叶斯概率修改初始决策表;
步骤3:根据所修改的决策表构建初始决策树;在应用初始决策树的信息系统中,在满足决策树应用数据可回收并能计算决策表每行决策频率的前提下,根据决策频率修改决策表,根据所修改的决策表构建新决策树;
步骤4:在信息系统中应用新决策树,再回收并分析新决策树的应用数据,如此反复直至当前决策变化率小于给定的决策变化率阀值时终止,从而循环更新决策树。
该方法的顺序及逻辑关系详见图1。
以下分别对这四个步骤展开说明。
步骤1包括步骤1.1:以从决策表T开始并逐级向下的方式生成有向非循环图;和步骤1.2:从步骤1.1生成的有向非循环图的终结点开始,以逐级向上的方式计算帕累托最优值
步骤1.1:该步骤用于构建计算目标函数帕累托最优值的数据结构:有向非循环图(DAG),其详细流程可见图2。该步骤以递归方式分割决策表T,生成其全部子表;再将决策表T添加给有向非循环图后,算法递归式从有向非循环图中找到一个未分割的决策表T′,并将其子表T′(fi,ak),其中fi∈E(T′)且ak∈C(T,fi),添加给DAG;节点T′和T′(fi,ak)用从T′出发并指向T′(fi,ak)的边连接,这些边用对应的(fi,ak)标识。给有向非循环图添加节点仅当有向非循环图中未发现该节点时进行,如果节点T′(fi,ak)在有向非循环图中已存在,且有一条连接T′和T′(fi,ak)的有向边时,则为该边添加标识(fi,ak);一直持续添加节点和边,或修改边,直至有向非循环图中的所有节点都被分割过或无法分割为止。有向非循环图中无法分割的节点是只有1行的决策表,也称为终节点。
步骤1.2:该步骤根据步骤1.1生成的DAG,从有向非循环图的终结点开始,对每个子表T′逐层向上计算关于属性fi∈E(T′)的目标函数的值直至完成计算,其详细流程可见图3。从有向非循环图中具有帕累托最优点(1,0)的叶子节点开始,找出上一级,只包含叶子节点的子表节点T′,根据叶子节点提供的的最小值与|C(T′)|的和作为子表T′时空复杂度的目标函数的值;在抵达T之前,算法递归式寻找下一个所有子表已完成计算的决策表T′,并将最小的值与|C(T′)|的和作为的值;对于T,每个与fi∈E(T)相关的点都被视作帕累托最优点并作为最终结果输出。
步骤2:该步骤根据当前决策表Tt+1是否为初次修改为条件,对决策表进行修改。决策表修改对应具体修改由完成。该步骤的两种判断结果分别对应定义的两条分支:如果决策表初次修改,即定义中的t=0分支,则使用贝叶斯概率修改得到否则,由定义中的t>0分支,根据决策频率修改得到t=0时,Tt+1的决策值所在列包含原有决策值和贝叶斯概率,之后的每次修改,该列包含原有决策值和决策频率。步骤2还包含步骤1至步骤4的流程终止条件:是否成立。若成立,则继续流程,否则终止。
步骤3:该步骤根据步骤2修改的决策表,使用“决策树选择标准”,即构建决策树。该步骤包括两个子步骤:步骤3.1:生成T的所有非空子决策表;和步骤3.2:基于“决策树选择标准”生成基于T的决策树ΓT
步骤3.1:该步骤生成用于构建决策树ΓT的T的所有非空子表,其详细流程可见图4。根据T′中条件属性与其值的组合生成非空子表成为分割,可分割即可以生成非空子表,不可分割即无法生成非空子表。从输入的T开始,根据每个fi与其条件值的组合分割T,以递归方式对子表再次分割,直至由分割产生的子表无法分割为止。这种由上至下的分割方式,可以获取T的所有非空子表。
步骤3.2:该步骤根据“决策树选择标准”对于每个子表构建最小化的决策树,其详细流程可见图5。该步骤首先找出具有相同决策值的子表,即子表中所有行的决策值相同,该类子表对应仅由一个决策值构成的决策树,无需计算在此基础上,选择所有子表已完成决策树构建的表T′,根据其决策值种类,将子表分类,并计算每个子表的选择具有最小的决策树作为整个分类及其所含子表的决策树,根据fi及其涉及的分类,构建以fi为根节点的决策树,计算每个fi选择具有最小的决策树作为T′的决策树,如此反复,直至生成T的决策树为止。
步骤4:该步骤将步骤3构造的决策树应用于信息系统,具体的应用方式取决于该信息系统的架构等特点,在系统运行一段时间后,对系统数据进行回收并分析,回收与分析手段也取决于信息系统的数据保存格式与方法等特点,决策频率的计算依赖于信息系统及相关的数据分析软件。由于步骤4涉及标准各异的信息系统和多样化的数据回收与分析方法,且步骤4仅为本发明技术方案提供决策表和决策频率,其具体计算方法根据决策树的实际应用情况和所应用的信息系统特定决定,不属于本发明范畴,本发明不作赘述。
本发明的高效性实验证明:
以计算机程序模拟自动决策过程,即对根据本发明方案提出的模式设计计算机程序并开展为期6个月的性能测试实验。在模拟环境下,根据给定的决策表,首先使用贝叶斯概率构建初始决策树并应用该决策树,之后进入循环更新模式,即使用程序自动输入数据,每天随机自动决策次数保持在0到3000之间,每月运行天数约为当月第1天至第15天,每月第16天至第30天之内完成对当月前15天的决策表应用数据分析并计算每行决策频率,生成新决策树并应用新决策树,如此反复,直至满6个月。
图6至图8总结了实验结果:
实验过程中,程序每次成功的自动决策都会记录在数据库中,这样的记录称为决策记录,每次自动决策时会扫描决策记录,决策记录的数量随天数增加而增加,具体的增幅情况见图6。为模仿真实应用环境,每日的随机决策次数不定,实验从7月份开始,7月内进行了少量决策,之后的每个月,除11月进行的压力测试以外,决策次数大体相仿,详细情况可见图7。
自动决策高效性由图8证明。在图8中,每个点都表示当日自动决策耗时平均值,以下简称决策耗时。由于图6至图8横轴采用的单位都是“日”,所以可以方便地比较三幅图的数据。由于每次决策都扫描系统内的所有决策记录,因此理论上随着图6中系统中决策记录的增加,决策耗时应呈逐渐增加的趋势,但图8所示12月的决策耗时与之前9月至11月的决策耗时相比,并未出现大幅增加,与7月至8月相比,甚至有所下降。这说明在长期决策过程中,虽然决策过程涉及的数据越来越多,但决策耗时维持在相对稳定的水平上。图7中11月进行了压力测试,其他月份正常测试,观察图8中对应月份的决策耗时,可以发现11月的决策耗时与相邻的10月,12月决策耗时相比,没有发生显著升高。这说明在短期决策过程中,虽然决策数量有大幅变化,但决策耗时维持在相对稳定的水平上。
综上所述,通过为期6个月的实验,可以确定以本发明提出的基于循环更新模式的决策树构建方法所构建的决策树,及基于该模式的自动决策功能具有性能高效的特点。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (4)

1.一种基于循环更新模式的决策树构建方法,其特征在于:包括以下步骤:
步骤1:根据给定的初始决策表计算基于决策树时空复杂度的目标函数帕累托最优值;
步骤2:根据步骤1计算所得目标函数帕累托最优值,结合贝叶斯理论,计算决策表中每行的贝叶斯概率,根据计算所得的贝叶斯概率修改初始决策表;
步骤3:根据所修改的决策表构建初始决策树;在应用初始决策树的信息系统中,在满足决策树应用数据可回收并能计算决策表每行决策频率的前提下,根据决策频率修改决策表,根据所修改的决策表构建新决策树;
步骤4:在信息系统中应用新决策树,再回收并分析新决策树的应用数据,如此反复直至当前决策变化率小于给定的决策变化率阀值时终止,从而循环更新决策树。
2.如权利要求1所述的基于循环更新模式的决策树构建方法,其特征在于:步骤1中帕累托最优值的定义如下:
k6∈Z+ 分别表示的取值范围,定义如下映射
其中用图表示任意非空的决策表T‘及其与子表,以及子表与子表之间的关系时,图的节点代表子表T‘(v)=T′v,从包含属性fi∈E(T′v)的节点T′v出发,指向节点T′v(fi,ak),ak∈C(T‘,fi),k∈Z+,k=1,…,|C(T′v,fi)|的边用(fi,ak)标识;图中的边是有向的,且连接了一个表及其子表,图是有向非循环图(directedacyclic graph,DAG),对于节点T′v∈DAG,|D(T′v)|其存在以下两种情况:
当|D(T′v)|=1,对于任意T′v中的行rj∈C(T′v),rj与所有行共享一个公共的决策值,此时,T′v是DAG的叶子节点,且
当|D(T′v)|>1,rj∈C(T′v)根据其对应的决策值分类,从节点T′v开始,对于任意fi∈E(T′v),若则存在被(fi,a1),(fi,a2),…,标识的数量为|C(T′v,fi)|的边分别指向节点T′v(fi,a1),对于每个T′v(fi,ak),都存在对应的
对于fi∈E(T′v),由其中组成的所有可能组合构成了如下定义的有序集合,
其中v=[1…1]T,*表示内积,且vk′*v<vk′+1*v其中k′=i,i+1,…,i+|C(T′v)|-1,令kmax≤|C(T′v,fi)|,vi定义如下:
对于vi≠vk″,i+1≤k″≤|C(Tv)|,k″∈Z+,vk″定义如下:
对于T′v(fi,ak),可求得的值;对于基于决策树的时空复杂度且关于属性fi∈E(T′v)的目标函数定义如下:
其中vk′(k)表示向量vk′中第k个元素;根据关于E(T′v)的,用于描述子表T′v时空复杂度的目标函数帕累托最优值的定义如下:
如果T′v是图的叶子节点,则且帕累托最优点为如果T′v不是叶子节点,则对于每个fi∈E(T′v)计算并选计算所得的最小值作为的值,此时帕累托最优点为其中是用于找到生成的函数;对于决策树的时空复杂度的多目标最优化,目标空间是基于函数值的二维空间。
3.如权利要求2所述的基于循环更新模式的决策树构建方法,其特征在于:步骤2中,若P(dm)=|C(dm)|/|C(T‘)|, k6∈Z+,则对于rj的贝叶斯概率P(rj)定义如下:
计算所得贝叶斯概率用于修改初始决策表,若当前决策表非初始决策表,则根据决策表T‘的应用数据,即应用决策表T‘及其决策树进行自动决策的信息系统,在运行过程中积累的,与决策过程相关的,且用于统计分析的计算机数据,计算决策表T‘中每行的决策频率,即由决策表T‘的应用数据记录的信息系统使用过程中,符合rj中全部条件值的自动决策次数,与符合决策表T‘任意行的自动决策总次数的比值。
4.如权利要求3所述的基于循环更新模式的决策树构建方法,其特征在于:步骤3和步骤4:若T1表示第一次根据初始决策表T0和贝叶斯概率生成的决策表,T2表示第二次根据决策表T1的应用数据计算的决策频率修改T1获得的决策表,…,Tt+1表示第t+1次根据决策表Tt的应用数据计算的决策频率修改Tt获得的决策表,且表示第t+1次生成的决策表Tt+1中的第j行,t∈Z+∪{0},则修改决策表Tt的定义如下:
表示根据信息系统的的决策频率,的定义如下:
当t=0,当t>0;对于第t+1次生成的Tt+1,则Tt+1的决策树由基于“决策树选择标准”,即的算法生成,“决策树选择标准”的定义如下:
对于任意 根据计算的值,并根据Tt+1(v)计算的值,最终计算选择中具有最小值的决策树为这个过程一直反复,直到被构建为止;
循环更新模式的终止条件在步骤2内进行检查,要终止该模式,需要设置两个常数:决策频率阀值 和决策变化率阀值 仅在步骤2内固定,步骤2外这两个阀值根据需要在0到1之间调整;
整个模式终止与否取决于当前决策变化率也称第t+1次决策变化率,用于计算在t+1次修改决策表且t>0时,决策频率超过的行数占总行数的比例;t=0,无需计算,定义如下:
循环更新模式的终止条件为:该条件满足时,说明当前决策树根据所给参数已没有必要再做更新。
CN201510277941.4A 2015-05-27 2015-05-27 一种基于循环更新模式的决策树构建方法 Pending CN104866314A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510277941.4A CN104866314A (zh) 2015-05-27 2015-05-27 一种基于循环更新模式的决策树构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510277941.4A CN104866314A (zh) 2015-05-27 2015-05-27 一种基于循环更新模式的决策树构建方法

Publications (1)

Publication Number Publication Date
CN104866314A true CN104866314A (zh) 2015-08-26

Family

ID=53912165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510277941.4A Pending CN104866314A (zh) 2015-05-27 2015-05-27 一种基于循环更新模式的决策树构建方法

Country Status (1)

Country Link
CN (1) CN104866314A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874339A (zh) * 2016-12-20 2017-06-20 北京华宇信息技术有限公司 一种有向循环图的展示方法及其应用
CN111353600A (zh) * 2020-02-20 2020-06-30 第四范式(北京)技术有限公司 一种异常行为检测方法及装置
CN112350947A (zh) * 2020-10-23 2021-02-09 杭州迪普信息技术有限公司 一种报文匹配决策树的更新方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647391A (zh) * 2012-03-30 2012-08-22 南京邮电大学 一种基于决策层数据融合的协作调制信号识别方法
CN103902591A (zh) * 2012-12-27 2014-07-02 中国科学院深圳先进技术研究院 构建决策树分类器的方法及装置
CN103996287A (zh) * 2014-05-26 2014-08-20 江苏大学 一种基于决策树模型的车辆强制换道决策方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647391A (zh) * 2012-03-30 2012-08-22 南京邮电大学 一种基于决策层数据融合的协作调制信号识别方法
CN103902591A (zh) * 2012-12-27 2014-07-02 中国科学院深圳先进技术研究院 构建决策树分类器的方法及装置
CN103996287A (zh) * 2014-05-26 2014-08-20 江苏大学 一种基于决策树模型的车辆强制换道决策方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874339A (zh) * 2016-12-20 2017-06-20 北京华宇信息技术有限公司 一种有向循环图的展示方法及其应用
CN111353600A (zh) * 2020-02-20 2020-06-30 第四范式(北京)技术有限公司 一种异常行为检测方法及装置
CN111353600B (zh) * 2020-02-20 2023-12-12 第四范式(北京)技术有限公司 一种异常行为检测方法及装置
CN112350947A (zh) * 2020-10-23 2021-02-09 杭州迪普信息技术有限公司 一种报文匹配决策树的更新方法及装置
CN112350947B (zh) * 2020-10-23 2022-07-29 杭州迪普信息技术有限公司 一种报文匹配决策树的更新方法及装置

Similar Documents

Publication Publication Date Title
Gero et al. An exploration‐based evolutionary model of a generative design process
CN105718490A (zh) 一种用于更新分类模型的方法及装置
CN104881581A (zh) 物联网数据高效分析方法
Zhang et al. Simulation optimization using the particle swarm optimization with optimal computing budget allocation
CN105354588A (zh) 一种构造决策树的方法
Sauterey et al. When everything is not everywhere but species evolve: an alternative method to model adaptive properties of marine ecosystems
CN109165672A (zh) 一种基于渐进式学习的集成分类方法
CN104834751A (zh) 基于物联网的数据分析方法
CN104866314A (zh) 一种基于循环更新模式的决策树构建方法
CN111967271A (zh) 分析结果的生成方法、装置、设备及可读存储介质
Yang et al. Target shape design optimization by evolving B-splines with cooperative coevolution
CN113468044B (zh) 一种基于改进的灰色预测演化算法的测试用例生成方法
CN110263917A (zh) 一种神经网络压缩方法及装置
CN110427341A (zh) 一种基于路径排序的知识图谱实体关系挖掘方法
Kim et al. Batch sequential minimum energy design with design-region adaptation
CN107105052A (zh) 基于图规划的启发式Web服务组合方法
CN104866587A (zh) 基于物联网的数据挖掘方法
Mezentsev et al. On problems and algorithm of clustering and constructing optimal routes by speed criterion
Solomatin Optimization of Development Strategies for Group of Gas Fields
CN109359197A (zh) 一种税费种类认证方法、装置和计算机可读存储介质
Novak et al. Weighted domination number of cactus graphs
Merkuryeva et al. Integrated solutions for delivery planning and scheduling in distribution centres
Moallemi et al. Informing the delineation of input uncertainty space in exploratory modelling using a heuristic approach
Vetter et al. The automatic generalisation of building polygons with arcGIS standard tools based on the 1: 50,000 Swiss National Map Series
Bijandi et al. Reallocation model in land consolidation using multi‐objective particle swarm optimization dealing with landowners' rights

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150826