CN105843924A - 一种认知计算中基于cart的决策树构建方法 - Google Patents
一种认知计算中基于cart的决策树构建方法 Download PDFInfo
- Publication number
- CN105843924A CN105843924A CN201610179487.3A CN201610179487A CN105843924A CN 105843924 A CN105843924 A CN 105843924A CN 201610179487 A CN201610179487 A CN 201610179487A CN 105843924 A CN105843924 A CN 105843924A
- Authority
- CN
- China
- Prior art keywords
- node
- decision
- splitting
- data
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种认知计算中基于CART的决策树构建方法,包括:根据决策树的制定规则,初始化决策树的根节点和对应的特征属性集;对训练集的数据进行排序操作;判断节点中的所有样本数据是否属于同一类,计算待分裂的节点的最优和次优特征属性,判断是否满足选择最优分裂属性和中断机制的分裂条件,若满足,则使用最优分裂属性进行分裂,根据使用最优分裂属性分裂,然后使用特征属性分裂后的节点迭代替换当前节点,从左右两个分支中添加一个新的叶子节点,达到决策树的自动分裂;否则等待数据流输入,进行样本更新,继续对节点分裂进行计算。本发明进一步提高了处理数据流的准确度,降低了系统阻塞的可能性。
Description
技术领域
本发明涉及大数据处理技术领域,尤其涉及认知计算中基于CART的决策树构建方法。
背景技术
云计算、物联网等新兴技术的快速发展促使数据的规模正以前所未有的速度增长,大数据时代已经开始到来。决策树是数据挖掘中的一种常用数据处理模型,常见的决策树构建算法包括ID3,C4.5以及CART等,然而,ID3,C4.5和CART等决策树构建算法都是为静态数据集设计的,它们无法直接应用于数据流的处理,因为数据流是无穷无尽的。除此之外,数据流将以很快的速度源源不断的流入系统,这也给决策树的训练带来了极大的挑战。现有的研究对数据流的处理也有一些解决方案,近十年使用最多的工具是增量学习,增量学习技术能够从数据中学习新的知识并且保留原有知识,并且整个过程不用重复处理已经学习过的数据。根据这一特性,可以使用增量学习技术来获取特征属性。但由于无法使用无穷多的数据集来计算最优特征的选择,因此只能使用已知数据来构成样本集来训练决策树,已经远远不能满足当前数据处理的需要。
发明内容
鉴于上述现有技术的不足之处,本发明提出一种认知计算中基于CART的决策树构建方法,在一定概率下,通过样本训练所得的最优特征与整个数据流应该选择的最优特征是一致的,可在较短的训练时间内得到较高准确性的决策树模型。
一种认知计算中基于CART的决策树构建方法,包括以下步骤:
步骤1、初始化决策树的根节点和对应的特征属性集;
步骤2、根据此时决策树的特征属性,对训练集的数据进行排序操作;
步骤3、判断节点中的所有样本数据是否具有相同类别的数据标签,如果是,则执行步骤4,否则结束;
步骤4、将节点设置为待分裂的节点,同时计算节点的最优和次优特征属性;
步骤5、判断节点是否满足最优特征属性和中断机制的分裂条件,如果满足,则使用最优特征属性进行分裂,将分裂后的节点替换当前节点,并从分支中添加一个新的叶子节点,达到决策树的自动分裂;否则等待数据流输入,进行样本更新,然后执行步骤4。
所述决策树的特征属性是Gini增益。
所述最优特征属性为Gini增益最大的特征属性。
所述中断机制的分裂条件是满足其中为i为x或y,L、R代表不同的训练子集;中断参数其中Z(1-α)是指标准正态分布N(0,1)的1-α分位数,Q(K)则表示5K2-8K+4,在这种情况下,gx比gy大的概率是1-α。
本发明通过对海量数据流训练来处理数据流数据,使用已知数据来构成样本集来训练决策树,提高了处理数据流的准确度,降低了系统阻塞的可能性。
附图说明
图1为本发明实施例基于CART的决策树构建方法的流程图;
图2为本发明实施例与MDT和GDT算法准确性性能对比;
图3为本发明实施例与McDiarmid Tree算法性能对比;
图4为本发明实施例准确性与干扰数据比例的关系;
图5为本发明实施例与Gauss Decision Tree训练时间对比。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
CART首先创建一个根节点N0,在学习的过程中,对于每一个指定的节点Na都有一个指定的训练集S的子集Sa与之对应。对于根节点,对应的就是训练集S。当一个节点对应的子集都属于同一个分类的时候,该节点就被设置为叶子节点,代表该节点的训练已经完成。如果一个节点对应的子集不都属于同一个分类的时候,算法将继续迭代进行,直至所有的训练子集都对应相应的叶子节点。
对于每个可以获取的属性bi,该属性的取值Bi将分成为两个区间的子集和这两种子集将训练子集Sa分成两个部分Lq和Rq。在CART中,常用的杂质度量方法是Gini指数,对于一个子训练集Sa,其Gini指数表示方法如下:
其中,P表示训练集中属于该分类的概率,k代表分类数值,a代表训练子集编号。从公式1容易看出,Gini指数的最小值是0,当所有样本都正确分类的时候取得最小值。换句话说,Gini指数反映了分类结果的纯度,数值越小,分类越纯,结果也就越准确。当前节点中训练集的分类通概率出现时,Gini指数出现最大值。
根据概率关系,可以得到加权Gini指数:
在CART中,根据Gini指数或者加权Gini指数的增益来对节点进行分裂操作,这类似于ID3算法中根据信息熵增益进行分裂操作。
所有的计算和分析都是基于整个数据集进行分析的。下面将讨论针对流数据的分析。由于流数据是无限的,不可能做到像CART一样来计算样本中属于某一分类的概率,而只能根据已知的数据样本对其概率进行估计。
考虑到一个固定的节点的情况,在前面的分析中使用Sa表示,根据前面的分析,可以得到如下结论:
这样,相当于是考虑了K个特征中的K-1个来进行计算。根据这一规则,概率Pk可以类似的计算出来,计算方法如下:
从公式5可以看出,K个特征属性中的K-1一个是重要的。注意,概率Pj不是根据选定的特征属性来决定的,而是可以根据以及来计算,结算公式如下:
对于任意的数据集,数据集的每一个组成元素都属于K个类别的某一个。Gini指数可以使用如下公式计算。
其中Pj表示数据集中属于第j个分类的概率。这样一来,Gini指数可以使用K-1个变量的函数来表示。同样,Gini增益也可以使用以上提及的参数来表示:
Gini_g=Gini(P1,P2...,PK-1)-PLGini(P1L,P2L...,P(K-1)L)-(1-PL)Gini(P1R,P2R...,P(K-1)R) (8)
因此,最优的分裂选择特征属性可以根据如下公式求出:
使用符号gi表示特征属性bi的Gini增益。使用符号表示的估计量,后面出现预估量的地方,采用相同的表示方法。这些预估值在符合二项分布的随机变量中可以当作是算术平均值来对待。假设s是数据集S的一个变量,定义一个变量δ,当s属于Li时候为1,不属于Li时候为0。这时候,δ是服从二项分布的变量,且平均值为方差为类似的,定义δkL和δkR,k属于{1,2,…,K-1}。当左节点数据子集lm属于第k个分类的时候,δkL变量值为1,当右节点数据子集rm属于第k个分类的时候,δkR变量值为1。
如果根据两个不同的特征属性和样本集计算出的Gini增益数值大于一个给定的特殊值,则该值一定概率上反映真实的Gini增益值。根据这一依据,可以根据最近得到的数据集决定最佳特征属性进行决策树分裂建树操作。
为了方便描述,将记作然后考虑两个特征属性bx和by,然后计算它们的Gini增益值。如果它们的差值满足最优分裂属性的方法,即如下公式10的关系:
其中引入中断参数γK如公式11所示:
公式(11)中的Z(1-α)是指标准正态分布N(0,1)的1-α分位数。Q(K)则表示5K2-8K+4。在这种情况下,gx比gy大的概率是1-α。也就是说,如果gx和gy的Gini增益的预估值的关系满足公式10,则gx和gy的真实值满足gx>gy的概率是1-α。中断参数的引入是引入中断机制,即γK>0,它可以一定程度上防止程序堵塞,较少程序的计算量。
根据之前的结论可以知道,当bx和by是具有最大Gini增益的特征属性的时候,那么,bx可以选择作为分裂属性。而这种情况出现的可信度为1-αD-1。也就是说,可以在一定可信度下确定分裂所应该选择的最优特征属性。
在图2中,通过实验分析CART_DS算法与McDiarmid Tree(MDT)和GaussianDecision Tree(GDT)算法进行性能对比。设置中断因子参数θ为0.05,设置固定概率值α为10-7。固定这些参数不变,从104到109改变训练数据集的数量,比较算法分类的准确性上的表现。三种算法在准确性性能方面的表现基本一致,本章提出的CART_DS算法稍微领先。这种结果出现的原因是因为三种算法实质上都是基于CART生成决策树算法所作出的改进。也就是说,对于相同的数据集,三种算法可能生成一致的决策树。但是从总体趋势我们可以看出,算法的准确性都随着数据集的数量的增加表现为上升趋势,当数据集数量在109数量级的时候,算法的准确性可以接近95%。
在图3中,分析CART_DS算法与McDiarmid Tree算法的性能。设置中断因子参数θ为0,设置固定概率值α为0.1。在使用CART生成决策树的过程中,最重要的分裂(也就是具有最大增益的分裂)通常就是第一次分裂,即根节点的分裂。由于生成树的最终结果是类似的,算法最终的准确率趋于相同。同时从图中可以看出,CART_DS算法比McDiarmid Tree算法做分裂的时候所需要的数据样本数量更少,因此,CART_DS算法在于一个分裂操作中需要更少的训练数据集,根节点的分裂操作总是比McDiarmid Tree算法更快。
在图4中,在样本数据中加入一定比例的噪声(干扰数据)。使用如下机制来生成干扰数据。在每一次数据生成的过程中,按照一个固定的概率来改变样本数据中的特征属性和标签值,改变后的值是所有可能值,并且每一种数值的取值可能性是一致的。的取值从0%到50%之间(包含)逐渐变化。本实验的仿真实验结果表明,随着噪声比例的增加,准确率随之下降。
在图5中,分析CART_DS算法与Gaussian Decision Tree算法在训练时间上的性能对比。设置中断因子参数θ为0,设置固定概率值α为0.1,改变训练样本集的数量n。从实验结果可以看出,随着训练数据集规模的增加,CART_DS算法在训练时间上的表现比GaussianDecision Tree算法在训练时间上的表现所体现出的优势越发明显,换句话说,CART_DS算法在大数据规模下使用,优势更加明显。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。
Claims (4)
1.一种认知计算中基于CART的决策树构建方法,其特征是,包括以下步骤:
步骤1、初始化决策树的根节点和对应的特征属性集;
步骤2、根据此时决策树的特征属性,对训练集的数据进行排序操作;
步骤3、判断节点中的所有样本数据是否具有相同类别的数据标签,如果是,则执行步骤4,否则结束;
步骤4、将节点设置为待分裂的节点,同时计算节点的最优和次优特征属性;
步骤5、判断节点是否满足最优特征属性和中断机制的分裂条件,如果满足,则使用最优特征属性进行分裂,将分裂后的节点替换当前节点,并从分支中添加一个新的叶子节点,达到决策树的自动分裂;否则等待数据流输入,进行样本更新,然后执行步骤4。
2.根据权利要求1所述的决策树构建方法,其特征是,步骤2中所述决策树的特征属性是Gini增益。
3.根据权利要求2所述的决策树构建方法,其特征是,所述最优特征属性为Gini增益最大的特征属性。
4.根据权利要求1所述的决策树构建方法,其特征是,所述中断机制的分裂条件是满足其中为i为x或y,L、R代表不同的训练子集;中断参数其中Z(1-α)是指标准正态分布N(0,1)的1-α分位数,Q(K)则表示5K2-8K+4,在这种情况下,gx比gy大的概率是1-α。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610179487.3A CN105843924A (zh) | 2016-03-25 | 2016-03-25 | 一种认知计算中基于cart的决策树构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610179487.3A CN105843924A (zh) | 2016-03-25 | 2016-03-25 | 一种认知计算中基于cart的决策树构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105843924A true CN105843924A (zh) | 2016-08-10 |
Family
ID=56583481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610179487.3A Pending CN105843924A (zh) | 2016-03-25 | 2016-03-25 | 一种认知计算中基于cart的决策树构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105843924A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509962A (zh) * | 2017-02-28 | 2018-09-07 | 优信互联(北京)信息技术有限公司 | 一种识别车辆信息的方法及其装置 |
CN108764282A (zh) * | 2018-04-19 | 2018-11-06 | 中国科学院计算技术研究所 | 一种类别增量行为识别方法和系统 |
CN109218211A (zh) * | 2017-07-06 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 数据流的控制策略中阈值的调整方法、装置和设备 |
CN110019987A (zh) * | 2018-11-28 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种基于决策树的日志匹配方法和装置 |
CN110808865A (zh) * | 2019-11-13 | 2020-02-18 | 北京理工大学 | 一种被动工控网络拓扑发现方法及工控网络安全管理系统 |
CN112491971A (zh) * | 2020-11-09 | 2021-03-12 | 苏州浪潮智能科技有限公司 | 一种计算集群节点调度方法、装置、设备、产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102281196A (zh) * | 2011-08-11 | 2011-12-14 | 中兴通讯股份有限公司 | 决策树生成方法及设备、基于决策树报文分类方法及设备 |
CN102750286A (zh) * | 2011-04-21 | 2012-10-24 | 常州蓝城信息科技有限公司 | 一种处理缺失数据的新型决策树分类器方法 |
US9049196B1 (en) * | 2003-03-15 | 2015-06-02 | SQLStream, Inc. | Method for distributed RDSMS |
CN104881797A (zh) * | 2015-06-03 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 特征属性的构建方法 |
-
2016
- 2016-03-25 CN CN201610179487.3A patent/CN105843924A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9049196B1 (en) * | 2003-03-15 | 2015-06-02 | SQLStream, Inc. | Method for distributed RDSMS |
CN102750286A (zh) * | 2011-04-21 | 2012-10-24 | 常州蓝城信息科技有限公司 | 一种处理缺失数据的新型决策树分类器方法 |
CN102281196A (zh) * | 2011-08-11 | 2011-12-14 | 中兴通讯股份有限公司 | 决策树生成方法及设备、基于决策树报文分类方法及设备 |
CN104881797A (zh) * | 2015-06-03 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 特征属性的构建方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509962A (zh) * | 2017-02-28 | 2018-09-07 | 优信互联(北京)信息技术有限公司 | 一种识别车辆信息的方法及其装置 |
CN109218211A (zh) * | 2017-07-06 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 数据流的控制策略中阈值的调整方法、装置和设备 |
CN109218211B (zh) * | 2017-07-06 | 2022-04-19 | 创新先进技术有限公司 | 数据流的控制策略中阈值的调整方法、装置和设备 |
CN108764282A (zh) * | 2018-04-19 | 2018-11-06 | 中国科学院计算技术研究所 | 一种类别增量行为识别方法和系统 |
CN110019987A (zh) * | 2018-11-28 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种基于决策树的日志匹配方法和装置 |
CN110019987B (zh) * | 2018-11-28 | 2023-05-09 | 创新先进技术有限公司 | 一种基于决策树的日志匹配方法和装置 |
CN110808865A (zh) * | 2019-11-13 | 2020-02-18 | 北京理工大学 | 一种被动工控网络拓扑发现方法及工控网络安全管理系统 |
CN110808865B (zh) * | 2019-11-13 | 2021-04-02 | 北京理工大学 | 一种被动工控网络拓扑发现方法及工控网络安全管理系统 |
CN112491971A (zh) * | 2020-11-09 | 2021-03-12 | 苏州浪潮智能科技有限公司 | 一种计算集群节点调度方法、装置、设备、产品 |
CN112491971B (zh) * | 2020-11-09 | 2022-05-31 | 苏州浪潮智能科技有限公司 | 一种计算集群节点调度方法、装置、设备、产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105843924A (zh) | 一种认知计算中基于cart的决策树构建方法 | |
US10311368B2 (en) | Analytic system for graphical interpretability of and improvement of machine learning models | |
Brandmaier et al. | Structural equation model trees. | |
US11915104B2 (en) | Normalizing text attributes for machine learning models | |
US9251465B2 (en) | System and methods for interactive displays based on associations for machine-guided rule creation | |
CN111368920B (zh) | 基于量子孪生神经网络的二分类方法及其人脸识别方法 | |
CN106648654A (zh) | 一种数据感知的Spark配置参数自动优化方法 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
US20140337271A1 (en) | System for efficiently generating k-maximally predictive association rules with a given consequent | |
CN111127246A (zh) | 一种输电线路工程造价的智能预测方法 | |
CN104035779A (zh) | 一种数据流决策树分类中的缺失值处理方法 | |
WO2020215694A1 (zh) | 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备 | |
CN108596204B (zh) | 一种基于改进型scdae的半监督调制方式分类模型的方法 | |
Nanda et al. | Modeling software effort estimation using hybrid PSO-ANFIS | |
CN111309975A (zh) | 一种增强图模型抗攻击能力的方法和系统 | |
CN106326904A (zh) | 获取特征排序模型的装置和方法以及特征排序方法 | |
Golovkine et al. | Learning the smoothness of noisy curves with application to online curve estimation | |
US10628541B2 (en) | Method and apparatus for selecting integrated circuit device neural network modeling sample | |
US20070036441A1 (en) | Monotonic classifier | |
CN106156107A (zh) | 一种新闻热点的发现方法 | |
Sun et al. | Application of logistic regression with fixed memory step gradient descent method in multi-class classification problem | |
CN110032585B (zh) | 一种时间序列双层符号化方法及装置 | |
CN109614999A (zh) | 一种数据处理方法、装置、设备及计算机可读存储介质 | |
CN109472276A (zh) | 模式识别模型的构建方法和装置及模式识别方法 | |
Eriksson et al. | Computationally efficient off-line joint change point detection in multiple time series |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160810 |
|
RJ01 | Rejection of invention patent application after publication |