CN104866314A

CN104866314A - 一种基于循环更新模式的决策树构建方法

Info

Publication number: CN104866314A
Application number: CN201510277941.4A
Authority: CN
Inventors: 贾靓
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2015-05-27
Filing date: 2015-05-27
Publication date: 2015-08-26

Abstract

本发明涉及一种基于循环更新模式的决策树构建方法，对于给定决策表，使用基于其决策树时空复杂度的目标函数帕累托最优值与贝叶斯理论计算贝叶斯概率，根据贝叶斯概率修改给定决策表，使用基于决策树选择标准的计算方法构建所修改决策表的决策树，将决策树应用于信息系统进行自动决策并自动记录决策过程。在系统运行一段时间后，根据所记录决策过程的数据，计算对应决策表每行的自动决策次数与决策表所有行的总决策次数之比，根据该比例修改决策表，使用基于决策树选择标准的计算方法构建所修改决策表的新决策树，再次将新决策树应用于信息系统，如此反复，直至所计算的每行比例小于决策变化率阀值。应用本发明方案的信息系统具有高效的自动决策功能。

Description

一种基于循环更新模式的决策树构建方法

技术领域

本发明涉及一种基于循环更新模式的决策树构建方法。

背景技术

用于构建决策树的计算方法的数量和种类很多，这些算法大多着眼于决策树端点数和决策树高度等决策树复杂度进行构建，其种类大致可分为动态规划，增量算法，贪婪算法等。根据S.Hussain,“Total path length and number of terminalnodes for decision trees”,ProcediaComput.Sci.,vol.35,pp.514-521,2014.的研究，对于一般的决策表，通常无法构建具有所有复杂度最小化的决策树。这种无法最小化所有复杂度的情况属于多目标最优化理论的范畴，但与多目标最优化中可行空间可被显式探索不同，决策树复杂度的可行空间通过决策树与子决策树间的关系进行探索。由于决策树复杂度可行空间的隐式探索方式，决策树算法一般只对决策表进行一次性分析。这种构建决策表的模式，既脱离现实应用的实际需要，又常常无法得到具有复杂度理论上最优化的决策树。虽然在数据挖掘中，存在根据决策树应用情况修改决策表的算法，例如D.M.Farid,L.Zhang,C.M.Rahman,M.A.Hossain,R.Strachan,"Hybrid decision tree andBayesclassifiers for multi-class classification tasks",Expert Syst.with Applicat.,vol.41,no.4,pp.1937-1946,Mar.2014.，但建立在一次性删减决策表内部信息的基础上。这种修改决策表的方式，既不能保证决策表的信息完整，又无法根据实际应用做进一步的决策树优化。因此，为更符合实际应用需求，提升应用决策树系统的自动决策效率，生成决策树的过程应考虑应用需求，从而保证良好的决策效率。

发明内容

本发明要解决的技术问题是：为了提升应用决策树系统的自动决策效率，生成决策树的过程紧密结合应用需求，从而保证良好的决策效率，本发明提供一种基于循环更新模式的决策树构建方法。

为使陈述清楚明了，现集中定义本发明所涉及的部分符号和概念。

{·}_≠表示一集合，且其中的任一元素均不与集合中的其他元素重复。

{·}表示一任意集合。

|{·}|_≠表示集合{·}中含有不同元素的种类数。

|{·}|表示集合{·}中元素的数量。

Z⁺表示不包括零的正整数集合。

R⁺表示不包括零的正实数集合。

Rⁿ表示n∈Z⁺的n维实向量空间。

“max{元素|条件}”或“max_条件元素”表示满足条件的最大元素。

“min{元素|条件}”或“min_条件元素”表示满足条件的最小元素。

T₀表示对本发明方案给定的初始决策表。

T表示对本发明方案中每次输入程序的决策表。

T‘表示任意非空的决策表，以下对T‘的相关定义与描述均适用于T₀和T。

E(T‘)表示T‘中的条件属性集合，且满足E(T‘)＝{E(T‘)}_≠。

C(T‘)表示T‘中的条件值集合的集合。

D(T‘)表示T‘中的决策值集合。决策值即“决策属性值(values of decisionattributes)”，又称“决策特征值”，或“决策属性值”，本申请中简称为“决策值”。

f₁,f₂,…,f_|E(T‘)|∈E(T‘)表示T‘的共|E(T‘)|个条件属性。

{c₁₁,c₁₂,…,c_1|E(T‘)|}，{c₂₁,c₂₂,…,c_2|E(T‘)|}，…，{c_|C(T‘)|1,c_|C(T‘)|2,…,c_{|C(T‘)|·|E(T‘)|}}∈C(T‘)表示T‘的共|C(T‘)|个条件值集合，对于C(T‘)中任意条件值集合，其元素均为条件值且属于Rⁿ。

表示T‘的共|D(T‘)|_≠个决策值。

T‘是具有如下结构的二维表：

对于f_i∈E(T‘)，i∈Z⁺且1≤i≤|E(T‘)|，i表示条件属性f_i在E(T‘)中的索引。

对于r_j＝{c_j1,c_j2,…,c_j|E(R‘)|}∈C(T‘)，j∈Z⁺且1≤j≤|C(T‘)|，j表示条件值集合r_j，即T‘中的第j行的索引。

对于且j₁≠j₂，j₁,j₂∈Z⁺，1≤j₁≤|C(T‘)|，1≤j₂≤|C(T‘)|，不等式成立。

d_m∈D(T‘)，m∈Z⁺，1≤m≤|D(T‘)|_≠，m表示d_m在D(T‘)中的索引。

r_j与d_m相关：r_j∈C(T‘)与d_m∈D(T‘)在T‘中排列为同一行时称为r_j与d_m相关。

C(d_m)＝{r_j∈C(T‘)|r_j与d_m相关}。

C(T‘,f_i)表示T‘中对应列f_i的所有条件值的集合。决策表是二维的，每一行(不包括最后一个决策值)都包含一行条件值，每一列(不包括最后的决策列)也包含一列条件值。

r_j(c)＝{c_jy∈r_j|c_jy＝c}，∈Z⁺，1≤y≤|E(T‘)|。

多目标最优化：多目标最优化中n₁个约束条件由函数定义，n₂个目标函数及其值组成目标空间其中k₂＝1,2,…,n₂的自变量构成了决策空间m∈Z⁺，中满足其中k₁＝1,2,…,n₁的向量集合称为可行空间。定义从到子集的映射其中代表通过在上的投影。对于给定的向量多目标最优化定义如下。

对于称为帕累托最优化当且仅当

F_{k_{2}} (x^{'}) \leq

F_{k_{2}} (x *)

成立，并且

&Exists; k_{3}, 1 \leq k_{3} \leq n_{2},

F_{k_{3}} (x^{'}) < F_{k_{3}} (x *)

成立。中的最小值记做的假设为

(F_{1} (x^{'}), F_{2} (x^{'}), . . ., F_{n_{2}} (x^{'})) =

(F_{1}^{*}, F_{2}^{*}, . . ., F_{n 2}^{*},)

成立。

子决策表，即子表：对于元素互不相同的集合n∈Z⁺，和一组C(T‘)中条件值集合所包含的，依次对应条件属性的条件值根据T‘可构建子表Θ。Θ和T‘具有相同的条件属性，即E(Θ)＝E(T‘)，但其行是从T中抽取的，即对于任意r_j＝{c_j1,c_j2…c_j|E(T‘)|}∈C(Θ)，成立。此时，Θ也记做

决策树：若T‘的树状表达方式记做Γ_T‘且对于任意c_ji∈r_j∈C(T‘)，其处理顺序任意，即处理顺序并不遵循固定顺序，例如所对应的f₁,f₂,…,f_|E(T‘)|∈E(T‘)在T‘中的排列顺序，Γ_T‘的节点可以是f_i∈E(T‘)或D(T‘)中的值。在Γ_T‘中，若节点v₁,v₂∈E(T‘)∪D(T‘)，v₁≠v₂，被一条由v₁指向v₂的边连接，则边被C(T‘,v₁)中的值所标识。Γ_T‘中由连接节点的有向边定义了节点的处理顺序。Γ_T‘的根节点是该节点只有指向其它节点的边且没有指向该节点的边，根节点可以是任意f_i∈E(T‘)。Γ_T‘的叶子结点是该节点没有指向其它节点的边且只有从其它节点出发的边指向该点，叶子结点只能是D(T‘)中的值。符合上述描述的T‘的树状表达方式Γ_T‘称为决策树。

决策树集合根据决策树定义可知，对于给定的决策表T‘，存在多个基于T‘的，结构各异的决策树，这些决策树的集合称为决策树集合，记做

通路：从Γ_T‘中根节点f_i开始，移动n₃∈Z⁺步到节点v∈E(T‘)∪D(T‘)所经过的路径称为f_i和v间的n₃步通路，其中所经过的节点和边依次被属性和值所标识。根据n₃步通路，子表T‘(v)可根据下式构造。

决策树时间与空间复杂度，即时空复杂度：对于任意r_j＝{c_j1,c_j2…c_j|E(T‘)|}∈C(T‘)，r_j对应唯一的决策值d_j∈D(T‘)。在基于T‘(d_j)构造的决策树中，存在一条表示r_j∪{d_j}的通路，r_j的长定义为从T‘(d_j)中根节点到节点d_j的通路上所经过边上所标识值的总和，即k₄∈Z⁺。对于基于子表T‘(v)构建的决策树Γ_T‘(v)，T‘(v)的总长定义为Γ_T‘(v)的时间复杂度定义如下。

T_T‘(v)的空间复杂度定义为Γ_T‘(v)的叶子节点数。根据定义，和是将Γ_T‘(v)分别映射至Z⁺和Rⁿ的函数，即

在以上定义的基础上，本发明解决其技术问题所采用的技术方案是：一种基于循环更新模式的决策树构建方法，包括以下步骤：

步骤1：根据给定的初始决策表计算基于决策树时空复杂度的目标函数帕累托最优值；

步骤2：根据步骤1计算所得目标函数帕累托最优值，结合贝叶斯理论，计算决策表中每行的贝叶斯概率，根据计算所得的贝叶斯概率修改初始决策表；

步骤3：根据所修改的决策表构建初始决策树；在应用初始决策树的信息系统中，在满足决策树应用数据可回收并能计算决策表每行决策频率的前提下，根据决策频率修改决策表，根据所修改的决策表构建新决策树；

步骤4：在信息系统中应用新决策树，再回收并分析新决策树的应用数据，如此反复直至当前决策变化率小于给定的决策变化率阀值时终止，从而循环更新决策树。

步骤1中帕累托最优值的定义如下文所述：

若分别表示和的取值范围，定义如下映射

其中用图表示任意非空的决策表T‘及其与子表，以及子表与子表之间的关系时，图的节点代表子表T‘(v)＝T′_v，从包含属性f_i∈E(T′_v)的节点T′_v出发，指向节点T′_v(f_i,a_k)，a_k∈C(T‘,f_i)，k∈Z⁺，k＝1,…,|C(T′_v,f_i)|的边用(f_i,a_k)标识；图中的边是有向的，且连接了一个表及其子表，图是有向非循环图(directedacyclic graph，DAG)，对于节点T′_v∈DAG，|D(T′_v)|_≠其存在以下两种情况：

当|D(T′_v)|_≠＝1，对于任意T′_v中的行r_j∈C(T′_v)，r_j与所有行共享一个公共的决策值，此时，T′_v是DAG的叶子节点，且

当|D(T′_v)|_≠＞1，r_j∈C(T′_v)根据其对应的决策值分类，从节点T′_v开始，对于任意f_i∈E(T′_v)，若则存在被标识的数量为|C(T′_v,f_i)|的边分别指向节点对于每个T′_v(f_i,a_k)，都存在对应的

对于f_i∈E(T′_v)，由其中组成的所有可能组合构成了如下定义的有序集合，

其中v＝[1 … 1]^T，*表示内积，且v_k′*v＜v_k′+1*v其中k′＝i,i+1,…,i+|C(T′_v)|－1，令k_max＝|C(T′_v,f_i)|，v_i定义如下：

对于v_i≠v_k″，i+1≤k″≤|C(T_v)|，k″∈Z⁺，v_k″定义如下：

对于T′_v(f_i,a_k)，可求得的值；对于基于决策树的时空复杂度且关于属性f_i∈E(T′_v)的目标函数定义如下：

其中v_k′(k)表示向量v_k′中第k个元素；根据关于E(T′_v)的，用于描述子表T′_v时空复杂度的目标函数帕累托最优值的定义如下：

如果T′_v是图的叶子节点，则且帕累托最优点为如果T′_v不是叶子节点，则对于每个f_i∈E(T′_v)计算并选计算所得的最小值作为的值，此时帕累托最优点为其中是用于找到生成的的函数；对于决策树的时空复杂度的多目标最优化，目标空间是基于函数和值的二维空间。

步骤2中，若P(d_m)＝|C(d_m)|/|C(T‘)|，当 k₆∈Z⁺，则对于r_j的贝叶斯概率P(r_j)定义如下：

计算所得贝叶斯概率用于修改初始决策表，若当前决策表非初始决策表，则根据决策表T‘的应用数据，即应用决策表T‘及其决策树进行自动决策的信息系统，在运行过程中积累的，与决策过程相关的，且用于统计分析的计算机数据，计算决策表T‘中每行的决策频率，即由决策表T‘的应用数据记录的信息系统使用过程中，符合r_j中全部条件值的自动决策次数，与符合决策表T‘所有行的自动决策总次数的比值。

步骤3和步骤4：若T₁表示第一次根据初始决策表T₀和贝叶斯概率生成的决策表，T₂表示第二次根据决策表T₁的应用数据计算的决策频率修改T₁获得的决策表，…，T_t+1表示第t+1次根据决策表T_t的应用数据计算的决策频率修改T_t获得的决策表，且表示第t+1次生成的决策表T_t+1中的第j行，t∈Z⁺∪{0}，则修改决策表T_t的定义如下：

若表示根据信息系统的的决策频率，的定义如下：

若当t＝0，当t＞0；对于第t+1次生成的T_t+1，则T_t+1的决策树由基于“决策树选择标准”，即的算法生成，“决策树选择标准”的定义如下：

对于任意根据计算的值，并根据T_t+1(v)计算的值，最终计算选择中具有最小值的决策树为这个过程一直反复，直到被构建为止；

循环更新模式的终止条件在步骤2内进行检查，要终止该模式，需要设置两个常数：决策频率阀值且和决策变化率阀值且和仅在步骤2内固定，步骤2外这两个阀值根据需要在0到1之间调整；

整个模式终止与否取决于当前决策变化率也称第t+1次决策变化率，用于计算在t+1次修改决策表且t＞0时，决策频率超过的行数占总行数的比例；t＝0，无需计算，定义如下：

循环更新模式的终止条件为：该条件满足时，说明当前决策树根据所给参数和已没有必要再做更新。

本发明的有益效果是，本发明的一种基于循环更新模式的决策树构建方法，对于给定决策表，使用基于其决策树时空复杂度的目标函数帕累托最优值与贝叶斯理论计算贝叶斯概率，根据贝叶斯概率修改给定决策表，使用基于决策树选择标准的计算方法构建所修改决策表的决策树，将决策树应用于信息系统进行自动决策并自动记录决策过程。在系统运行一段时间后，根据所记录决策过程的数据，计算对应决策表每行的自动决策次数与决策表所有行的总决策次数之比，根据该比例修改决策表，使用基于决策树选择标准的计算方法构建所修改决策表的新决策树，再次将新决策树应用于信息系统，如此反复，直至所计算的每行比例小于决策变化率阀值。应用本发明方案的信息系统具有高效的自动决策功能。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的一种基于循环更新模式的决策树构建方法的UML活动图。

图2是本发明的一种基于循环更新模式的决策树构建方法中步骤1.1的UML活动图。

图3是本发明的一种基于循环更新模式的决策树构建方法中步骤1.2的UML活动图。

图4是本发明的一种基于循环更新模式的决策树构建方法中步骤3.1的UML活动图。

图5是本发明的一种基于循环更新模式的决策树构建方法中步骤3.2的UML活动图。

图6是本发明的一种基于循环更新模式的决策树构建方法的决策记录每日累计数量图表。

图7是本发明的一种基于循环更新模式的决策树构建方法的每日自动决策次数图表。

图8是本发明的一种基于循环更新模式的决策树构建方法的每日平均自动决策耗时图表。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

本发明计算方法的具体实施方式由编写计算机程序完成。本发明实施方案共包含四个步骤：

步骤1：根据给定的初始决策表计算基于决策树时空复杂度的目标函数的帕累托最优值；

该方法的顺序及逻辑关系详见图1。

以下分别对这四个步骤展开说明。

步骤1包括步骤1.1：以从决策表T开始并逐级向下的方式生成有向非循环图；和步骤1.2：从步骤1.1生成的有向非循环图的终结点开始，以逐级向上的方式计算帕累托最优值

步骤1.1：该步骤用于构建计算目标函数帕累托最优值的数据结构：有向非循环图(DAG)，其详细流程可见图2。该步骤以递归方式分割决策表T，生成其全部子表；再将决策表T添加给有向非循环图后，算法递归式从有向非循环图中找到一个未分割的决策表T′，并将其子表T′(f_i,a_k)，其中f_i∈E(T′)且a_k∈C(T,f_i)，添加给DAG；节点T′和T′(f_i,a_k)用从T′出发并指向T′(f_i,a_k)的边连接，这些边用对应的(f_i,a_k)标识。给有向非循环图添加节点仅当有向非循环图中未发现该节点时进行，如果节点T′(f_i，a_k)在有向非循环图中已存在，且有一条连接T′和T′(f_i,a_k)的有向边时，则为该边添加标识(f_i，a_k)；一直持续添加节点和边，或修改边，直至有向非循环图中的所有节点都被分割过或无法分割为止。有向非循环图中无法分割的节点是只有1行的决策表，也称为终节点。

步骤1.2：该步骤根据步骤1.1生成的DAG，从有向非循环图的终结点开始，对每个子表T′逐层向上计算关于属性f_i∈E(T′)的目标函数的值直至与完成计算，其详细流程可见图3。从有向非循环图中具有帕累托最优点(1,0)的叶子节点开始，找出上一级，只包含叶子节点的子表节点T′，根据叶子节点提供的的最小值与|C(T′)|的和作为子表T′时空复杂度的目标函数的值；在抵达T之前，算法递归式寻找下一个所有子表已完成计算的决策表T′，并将最小的值与|C(T′)|的和作为的值；对于T，每个与f_i∈E(T)相关的点都被视作帕累托最优点并作为最终结果输出。

步骤2：该步骤根据当前决策表T_t+1是否为初次修改为条件，对决策表进行修改。决策表修改对应具体修改由完成。该步骤的两种判断结果分别对应定义的两条分支：如果决策表初次修改，即定义中的t＝0分支，则使用贝叶斯概率修改得到否则，由定义中的t＞0分支，根据决策频率修改得到t＝0时，T_t+1的决策值所在列包含原有决策值和贝叶斯概率，之后的每次修改，该列包含原有决策值和决策频率。步骤2还包含步骤1至步骤4的流程终止条件：是否成立。若成立，则继续流程，否则终止。

步骤3：该步骤根据步骤2修改的决策表，使用“决策树选择标准”，即构建决策树。该步骤包括两个子步骤：步骤3.1：生成T的所有非空子决策表；和步骤3.2：基于“决策树选择标准”生成基于T的决策树Γ_T。

步骤3.1：该步骤生成用于构建决策树Γ_T的T的所有非空子表，其详细流程可见图4。根据T′中条件属性与其值的组合生成非空子表成为分割，可分割即可以生成非空子表，不可分割即无法生成非空子表。从输入的T开始，根据每个f_i与其条件值的组合分割T，以递归方式对子表再次分割，直至由分割产生的子表无法分割为止。这种由上至下的分割方式，可以获取T的所有非空子表。

步骤3.2：该步骤根据“决策树选择标准”对于每个子表构建最小化的决策树，其详细流程可见图5。该步骤首先找出具有相同决策值的子表，即子表中所有行的决策值相同，该类子表对应仅由一个决策值构成的决策树，无需计算在此基础上，选择所有子表已完成决策树构建的表T′，根据其决策值种类，将子表分类，并计算每个子表的选择具有最小的决策树作为整个分类及其所含子表的决策树，根据f_i及其涉及的分类，构建以f_i为根节点的决策树，计算每个f_i的选择具有最小的决策树作为T′的决策树，如此反复，直至生成T的决策树为止。

步骤4：该步骤将步骤3构造的决策树应用于信息系统，具体的应用方式取决于该信息系统的架构等特点，在系统运行一段时间后，对系统数据进行回收并分析，回收与分析手段也取决于信息系统的数据保存格式与方法等特点，决策频率的计算依赖于信息系统及相关的数据分析软件。由于步骤4涉及标准各异的信息系统和多样化的数据回收与分析方法，且步骤4仅为本发明技术方案提供决策表和决策频率，其具体计算方法根据决策树的实际应用情况和所应用的信息系统特定决定，不属于本发明范畴，本发明不作赘述。

本发明的高效性实验证明：

以计算机程序模拟自动决策过程，即对根据本发明方案提出的模式设计计算机程序并开展为期6个月的性能测试实验。在模拟环境下，根据给定的决策表，首先使用贝叶斯概率构建初始决策树并应用该决策树，之后进入循环更新模式，即使用程序自动输入数据，每天随机自动决策次数保持在0到3000之间，每月运行天数约为当月第1天至第15天，每月第16天至第30天之内完成对当月前15天的决策表应用数据分析并计算每行决策频率，生成新决策树并应用新决策树，如此反复，直至满6个月。

图6至图8总结了实验结果：

实验过程中，程序每次成功的自动决策都会记录在数据库中，这样的记录称为决策记录，每次自动决策时会扫描决策记录，决策记录的数量随天数增加而增加，具体的增幅情况见图6。为模仿真实应用环境，每日的随机决策次数不定，实验从7月份开始，7月内进行了少量决策，之后的每个月，除11月进行的压力测试以外，决策次数大体相仿，详细情况可见图7。

自动决策高效性由图8证明。在图8中，每个点都表示当日自动决策耗时平均值，以下简称决策耗时。由于图6至图8横轴采用的单位都是“日”，所以可以方便地比较三幅图的数据。由于每次决策都扫描系统内的所有决策记录，因此理论上随着图6中系统中决策记录的增加，决策耗时应呈逐渐增加的趋势，但图8所示12月的决策耗时与之前9月至11月的决策耗时相比，并未出现大幅增加，与7月至8月相比，甚至有所下降。这说明在长期决策过程中，虽然决策过程涉及的数据越来越多，但决策耗时维持在相对稳定的水平上。图7中11月进行了压力测试，其他月份正常测试，观察图8中对应月份的决策耗时，可以发现11月的决策耗时与相邻的10月，12月决策耗时相比，没有发生显著升高。这说明在短期决策过程中，虽然决策数量有大幅变化，但决策耗时维持在相对稳定的水平上。

综上所述，通过为期6个月的实验，可以确定以本发明提出的基于循环更新模式的决策树构建方法所构建的决策树，及基于该模式的自动决策功能具有性能高效的特点。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于循环更新模式的决策树构建方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于循环更新模式的决策树构建方法，其特征在于：步骤1中帕累托最优值的定义如下：

若 k₆∈Z⁺，分别表示和的取值范围，定义如下映射

且

其中用图表示任意非空的决策表T‘及其与子表，以及子表与子表之间的关系时，图的节点代表子表T‘(v)＝T′_v，从包含属性f_i∈E(T′_v)的节点T′_v出发，指向节点T′_v(f_i，a_k)，a_k∈C(T‘，f_i)，k∈Z⁺，k＝1，…，|C(T′_v，f_i)|的边用(f_i，a_k)标识；图中的边是有向的，且连接了一个表及其子表，图是有向非循环图(directedacyclic graph，DAG)，对于节点T′_v∈DAG，|D(T′_v)|_≠其存在以下两种情况：

当|D(T′_v)|_≠＞1，r_j∈C(T′_v)根据其对应的决策值分类，从节点T′_v开始，对于任意f_i∈E(T′_v)，若则存在被(f_i，a₁)，(f_i，a₂)，…，标识的数量为|C(T′_v，f_i)|的边分别指向节点T′_v(f_i，a₁)，对于每个T′_v(f_i，a_k)，都存在对应的

其中v＝[1…1]^T，*表示内积，且v_k′*v＜v_k′+1*v其中k′＝i，i+1，…，i+|C(T′_v)|-1，令k_max≤|C(T′_v，f_i)|，v_i定义如下：

对于T′_v(f_i，a_k)，可求得的值；对于基于决策树的时空复杂度且关于属性f_i∈E(T′_v)的目标函数定义如下：

3.如权利要求2所述的基于循环更新模式的决策树构建方法，其特征在于：步骤2中，若P(d_m)＝|C(d_m)|/|C(T‘)|，当 k₆∈Z⁺，则对于r_j的贝叶斯概率P(r_j)定义如下：

计算所得贝叶斯概率用于修改初始决策表，若当前决策表非初始决策表，则根据决策表T‘的应用数据，即应用决策表T‘及其决策树进行自动决策的信息系统，在运行过程中积累的，与决策过程相关的，且用于统计分析的计算机数据，计算决策表T‘中每行的决策频率，即由决策表T‘的应用数据记录的信息系统使用过程中，符合r_j中全部条件值的自动决策次数，与符合决策表T‘任意行的自动决策总次数的比值。

4.如权利要求3所述的基于循环更新模式的决策树构建方法，其特征在于：步骤3和步骤4：若T₁表示第一次根据初始决策表T₀和贝叶斯概率生成的决策表，T₂表示第二次根据决策表T₁的应用数据计算的决策频率修改T₁获得的决策表，…，T_t+1表示第t+1次根据决策表T_t的应用数据计算的决策频率修改T_t获得的决策表，且表示第t+1次生成的决策表T_t+1中的第j行，t∈Z⁺∪{0}，则修改决策表T_t的定义如下：

若表示根据信息系统的的决策频率，的定义如下：