CN106372671A - 一种c4.5决策树算法下的连续属性度量选择的增量学习方法 - Google Patents
一种c4.5决策树算法下的连续属性度量选择的增量学习方法 Download PDFInfo
- Publication number
- CN106372671A CN106372671A CN201610807099.5A CN201610807099A CN106372671A CN 106372671 A CN106372671 A CN 106372671A CN 201610807099 A CN201610807099 A CN 201610807099A CN 106372671 A CN106372671 A CN 106372671A
- Authority
- CN
- China
- Prior art keywords
- decision tree
- connection attribute
- former
- algorithm
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003066 decision tree Methods 0.000 title claims abstract description 92
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000005259 measurement Methods 0.000 title abstract description 13
- 230000006872 improvement Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 17
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims 2
- 238000005284 basis set Methods 0.000 claims 1
- 239000012141 concentrate Substances 0.000 claims 1
- 230000000644 propagated effect Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 9
- 230000006870 function Effects 0.000 abstract description 6
- 239000000523 sample Substances 0.000 description 15
- 238000007418 data mining Methods 0.000 description 10
- 238000013138 pruning Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 241000288113 Gallirallus australis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种C4.5决策树算法下的连续属性度量选择的增量学习方法,采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进,形成增量学习过程;介于后向传播算法主要应用于连续属性,所以本发明主要研究的是在连续属性阈值选取改进方面;该方案是在现有技术方案中增加了增量学习的功能,在连续属性阈值方面,摒弃了原先整棵树或者是部分分支的重新计算,这种复杂的,低效的方法,结合后向传播这种高效的学习方案,不仅增加了决策树C4.5的功能,更是一种新的学习方式。
Description
技术领域
本发明涉及一种数据处理技术领域,尤其涉及一种C4.5决策树算法下的连续属性度量选择的增量学习方法。
背景技术
随着当前数据量的增多,从数据中挖掘出有价值的信息成为当前研究的热门,数据挖掘起源于KDD,在数据挖掘中,常见有效的数据挖掘算法有分类、聚类、关联、线性回归等,BI是其重要的应用领域。1984年,多位统计学家出版了CART算法,介绍了二叉决策树的产生过程,作为分类算法中的有名的决策树C4.5算法,有着数据挖掘十大算法之一的美誉,它能够使数据以树的形式表现出来,并且对于专业外的人员,也能够根据决策树做出精确判断。决策树ID3和决策树C4.5算法都是来自于CLS的思维模式,决策树C4.5算法是在ID3的基础上做出了改进得到的,C4.5拥有ID3的几乎全部优点并且新增了以下部分功能:属性选择的标准改为了信息增益比,对于连续属性也提出了关于度量的选择方案,使用迭代K次来进行交叉验证等。虽然C4.5算法优点很多,产生的分类规则也易于理解,准确率提高较高。但是C4.5算法的缺点是在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效,并且没有增量学习的方法。
然而,这些不足并不影响C4.5算法在实际中的很好应用,许多学者在此方面做了很多研究工作,还有学者已经证明,C4.5在处理许多连续属性的操作是整棵决策树构造过程70%以上的时间,因此C4.5决策树算法中对连续属性的处理进行改进是很有必要的,以此来提高算法的执行效率。虽然有很多文献对于传统的决策树C4.5算法在对于处理连续属性选择度量提出了自己的看法和选择标准方面有了改进,比如参考文献[1]中利用最新无穷小的性质改进信息增益率的计算,但是很多研究并没有增量学习的方法,而在当前背景下,增量学习作为数据挖掘一个重点研究对象,仅仅依靠训练集来判断,往往出现偏倚,因此增量学习,对于一个数据挖掘系统来说,往往会有新的样本添加到训练样本,或者应用已有的规则来检验数据集,这就要求系统在原来学习规则的基础上,对新添样本进行学习,并以此来挖掘新的知识,以最小的代价更新原有的知识结构。对新样本的增量学习能力是一个完善的挖掘系统所必需具备的。
下面给出两种相关的技术方案及其相关分析。
(一)决策树的生成是采取分治的思想,依次选择一个属性作为分支的节点,自顶向下的生成一颗决策树树。其中,生成决策树关键的步骤是分裂过程,C4.5采用的是信息增益率作为分裂准则,并且能处理连续属性,在C4.5算法中,对连续属性的处理如下:
(1.1)对连续属性的取值进行从低到高排序;
(1.2)把两个属性取值之间的中点作为可能的分裂点,以此将数据集分成两部分,计算每个可能的分裂点的信息增益;
(1.3)对每个分裂点的信息增益进行修正:减去log2(N-1)/|D|;
(1.4)选择修正后信息增益最大的,分裂点作为该属性的最佳分裂点;
(1.5)计算最佳分裂点的信息增益率作为属性的信息增益率;
(1.6)选择信息增益率最大的属性作为分裂属性。
从上面的处理过程可以看出,当数据集中同时拥有连续属性和离散属性时,C4.5算法倾向于选择连续的属性作为分裂属性,因此连续属性的信息增益需要减去log2(N-1)/|D|作为修正,其中N为可能的分裂点个数,|D|是数据集大小。注意连续属性选择最佳分裂点不用信息增益率,而采用信息增益,然后用最大的信息增益对应的信息增益率作为属性的信息增益率。
(二)C4.5算法不具备增量学习功能的,也就是说当用已经生成的决策树判断已知的实例时,如果判断错了,想要改进当前决策树,只能将新旧样本组合,对所有样本进行重新学习,将会付出很大的时间代价。在参考文献[2]中,作者提出一种C4.5算法的样本增量学习的方法,主要思想是:
(2.1)用已建好的决策树模型对新增的样本进行分类;
(2.2)如分类正确,将新样本信息添加至各相关节点;
(2.3)如在某个决策节点出现了分类错误,则将该节点下原有所有样本与新样本组合为新样本集,以该决策节点为根节点进行建树,并将该节点原来所含的所有元素删除。
可以看出,相对于所有样本的重新学习过程而言,技术二是将重新学习的对象从系统所有样本集合缩小到了某个决策节点需分类的样本集合。如果该决策点原来所含样本较多,且已建好多个决策分支,因为一个新样本而去重新对其进行建树,不管是在时间还是效率上仍将会付出不小的代价。
缩略语和关键术语定义
BI Business Intelligence 商业智能
CART Classification And Regression Trees 分类与回归树算法
CLS Concept Learning System 概念学习系统
ID3 Iterative Dichotomiser 迭代二分器
KDD Knowledge-Discovery in Databases 数据库知识发现
WAKA Waikato Environment for Knowledge Analysis 怀卡托智能分析环境
参考文献
[1]黄爱辉.决策树C4.5算法的改进及应用[J].科学技术与工程,2009
[2]孙卫祥.基于数据挖掘与信息融合的故障诊断方法研究[D].上海:上海交通大学,2006
[3]程龙,蔡远文数据挖掘C4.5算法的编程设计与增量学习改进[A]北京:装备指挥技术学院,2009
[4]李爱,王洪伟一种基于Weka软件的专家系统知识获取方法[P].中国专利:CN103092914A,2013-05-08
[5]邓维斌,刘进一种改进C4.5决策树算法下的不平衡数据抽样方法[P]:CN105373606A,2016-03-02
发明内容
发明目的:针对现有技术(一)中C4.5决策树算法对于连续属性度量选择无法增量学习的问题(或者说如果需要进行增量学习,只能先将实例和原有训练集结合成为新的训练集,再次运用C4.5决策树生成规范才能够实现)、以及现有技术(二)中选取部分分支来重新生成C4.5决策树分支的问题,本发明提供一种C4.5决策树算法下的连续属性度量选择的增量学习方法,不用重新生成分支,只需要改变连续属性的阈值并结合后向传播算法对阈值进行调整即可实现增量学习,能够有效减少迭代次数,减少计算复杂度,并提高C4.5决策树的准确率。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种C4.5决策树算法下的连续属性度量选择的增量学习方法,采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进,形成增量学习过程,具体包括如下步骤:
(1)利用C4.5决策树算法对训练集进行训练,生成原C4.5决策树;进入步骤(2);
(2)利用原C4.5决策树对已知分类的测试集一中的所有样本进行分类:对分类正确的样本,将样本添加到训练集中并保存,即将样本添加到原C4.5决策树的样本对象数组中,同时将样本的索引号添加到原C4.5决策树的相关叶节点上;对分类错误的样本,将由于同一个连续属性度量选择而导致分类错误的样本归类到该连续属性的候选改进集中,不同连续属性的候选改进集可以存在交集,进入步骤(3);
(3)针对某一个连续属性的候选改进集,利用神经网络中的后向传播算法对该连续属性的改进集的权重、初始值(就是对初始输入的连续属性的值进行规范化,使其落入0.0~0.1之间)和偏倚进行初始化,并添加该连续属性度量选择的阈值;进入步骤(4);
(4)根据后向传播过程中的传播误差、偏倚改变量以及反馈值更新该连续属性度量选择的阈值(该更新过程利用后向传播算法的基础概念即可实现,可参考《数据挖掘概念与技术》P263中的例子);将更新后的该连续属性度量选择的阈值应用于原C4.5决策树形成新C4.5决策树,同时使用新C4.5决策树和原C4.5决策树分别对已知分类的测试集二进行分类,统计新C4.5决策树的准确率L2和原C4.5决策树的准确率L1,进入步骤(5);
(5)根据针对该连续属性设定的学习率X(学习率X是对新C4.5决策树准确率的一种要求,从侧面也反应了测试集一的权重,其值由实验员根据原C4.5决策树对测试集一的测试结果设定,一般在1.0~2.0之间),比较原C4.5决策树和新C4.5决策树的准确率:若则以新C4.5决策树替换原C4.5决策树并保存,否则,维持原C4.5决策树。
具体的,所述连续属性采用信息增益的方式进行记录,而不是采用信息增益率的方式进行记录,因为虽然C4.5决策树在离散属性时采用的是信息增益率的选择方式,但是在连续属性阈值时采用信息增益的选择方式要更好,这点已经在理论和实践中验证过;所述神经网络中的后向传播算法的剪枝规则采用后剪枝规则,这也是C4.5决策树自带的剪枝规则。
具体的,所述步骤(3)中,连续属性的改进集的权重、初始值和偏倚进行初始化,具体为:权重的初始值为连续属性的改进集样本数与测试集一样本数的比值,偏倚的初始值为-0.5到0.5之间的随机数。
具体的,所述步骤(5)中,学习率X的取值在1.0到2.0之间。
有益效果:本发明针对现有技术方案决策树C4.5没有增量学习的问题,提出了一种C4.5决策树算法下的连续属性度量选择的增量学习方法,介于后向传播算法主要应用于连续属性,所以本发明主要研究的是在连续属性阈值选取改进方面;该方案是在现有技术方案中增加了增量学习的功能,在连续属性阈值方面,摒弃了原先整棵树或者是部分分支的重新计算,这种复杂的,低效的方法,结合后向传播这种高效的学习方案,不仅增加了决策树C4.5的功能,更是一种新的学习方式。
附图说明
图1为后向传播算法的流程;
图2为决策树C4.5构造学习规则的流程图;
图3为决策树C4.5增量学习规则的流程图;
图4为本发明的整体流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图4所示为一种C4.5决策树算法下的连续属性度量选择的增量学习方法,下面就各个步骤的具体实现过程加以具体说明。
步骤一:利用C4.5决策树算法对训练集进行训练,生成原C4.5决策树。
设训练集D总共有m个属性,其中一个属性记为属性A,对训练集D进行观测,发现属性A有v个分裂点,分别记为{a1,a2,a3,…,av},根据这v个分裂点可以将训练集D划分成v个分区域子集,分别记为{D1,D2,D3,…,Dv},则属性A的熵InfoA(D)为:
设分区域子集Dj有n个不同的分类,该n个分类记为{D1,j,D2,j,D3,j,…,Dn,j},则Info(Dj)按照如下方式计算:
其中:InfoA(D)是按照属性A对训练集D中的元素进行分类所需要的期望信息,Info(Dj)是从训练集D中分类出分区域子集Dj需要的信息增益;|D|为训练集D的大小(即训练集D的样本数),|Dj|为分区域子集Dj的大小(即分区域子集Dj的样本数),|Di,j|为分类Di,j的大小(即分类Di,j的样本数);
训练集D中的所有信息增益Info(D)为:
属性A的信息增益Gain(A)为:
Gain(A)=Info(D)-InfoA(D) (4)
属性A的信息增益率GrianRate(A)为:
对于C4.5决策树的离散属性,一般根据离散属性的信息增益率来划分,信息增益率越大则越优先选择;对于C4.5决策树的连续属性,取连续属性的阈值范围的等分点作为可能的分裂点,将连续属性通过上述方法计算得到的信息增益减去log2(v-1)/|D|后作为修正,剪枝按照悲观剪枝法,根据该连续属性的选择方式对训练集D进行训练,生成原C4.5决策树,进入步骤二。
步骤二:利用原C4.5决策树对已知分类的测试集一中的所有样本进行分类。
对分类正确的样本,将样本添加到训练集中并保存,即将样本添加到原C4.5决策树的样本对象数组中,同时将样本的索引号添加到原C4.5决策树的相关叶节点上;对分类错误的样本,将由于同一个连续属性度量选择而导致分类错误的样本归类到该连续属性的候选改进集中,不同连续属性的候选改进集可以存在交集,进入步骤三。
步骤三:针对某一个连续属性的候选改进集,利用神经网络中的后向传播算法对该连续属性的改进集的权重、初始值和偏倚进行初始化,并添加该连续属性度量选择的阈值。
设原C4.5决策树共有S个类别,记候选改进集为W={W1,W2,…,Ws,,WS},Ws表示应当属于第s类别却被错误分到其他类别的所有样本组成的子集,|Ws|表示子集Ws的大小(即子集Ws的样本数)。
找到最大(样本数最多)子集记为Wm={Wm_1,Wm_2,…,Wm_s,Wm_S},Wm_s表示应当属于第m类别却被错误分到第s类别的所有样本组成的区子集,|Wm_s|表示区子集Wm_s的大小(即区子集Wm_s的样本数),Wm_m=0,|Wm_m|=0。
找到最大(样本数最多)区子集和次大(样本数次多)区子集 表示最大区子集的大小(即最大区子集的样本数),表示次大区子集的大小(即次大区子集的样本数)。
定义样本集则有
对样本集Wm_n中的连续属性Z进行如下研究:令K=|Wm_n|, 最大区子集的连续属性Z的值为次大区子集的连续属性Z的值为
神经网络的第一层包括K个小单元,第二层包括单元j1和单元j2,第三层包括单元j;其中,K个小单元表示样本集Wm_n的K个样本,单元j1表示最大区子集Wm_n1的错误类别(即第n1类别),单元j2表示最大区子集Wm_n2的错误类别(即第n2类别),单元j表示样本集Wm_n的正确类别(即第m类别)。
①对于神经网络的第一层,记为最大区子集Wm_n1的K1个样本,为最大区子集Wm_n2的K2个样本。
传入单元j1的所有K1个小单元的初始值为输出为且有:
传入单元j2的所有K2个小单元的初始值为Ii1,输出为且有:
②对于神经网络的第二层:单元j1的初始值为输出为单元j2的初始值为输出为且有:
其中:为从小单元到单元j1的权值,为从小单元到单元j2的权值, 为单元j1的偏倚,为单元j2的偏倚,和为-0.5~0.5之间的随机小数(小数点后保留一位)。
对于单元j1,误差通过下式计算:
对于单元j2,误差通过下式计算:
其中:Y为连续属性Z在原C4.5决策树中的阈值。
③对于神经网络的第三层:单元j的初始值为Ij,输出为Oj,且有:
其中:为从单元j1到单元j的权值,为从单元j2到单元j的权值,θj为单元j的偏倚,θj为-0.5~0.5之间的随机小数(小数点后保留一位)。
对于单元j,误差Errj通过下式计算:
最后,根据误差Errj调整连续属性Z的阈值,调整后连续属性Z的阈值为Y=Y(1+Errj)。
步骤四:将更新后的阈值应用于原C4.5决策树形成新C4.5决策树。
同时使用新C4.5决策树和原C4.5决策树分别对已知分类的测试集二进行分类,统计新C4.5决策树的准确率L2和原C4.5决策树的准确率L1。
步骤五:根据针对该连续属性设定的学习率X。
若则以新C4.5决策树替换原C4.5决策树并保存;否则,维持原C4.5决策树。
下面以表1的人口收入为例给出采用本发明的分类效果。
该数据集来源于机器学习数据集,根据2000年某地的上网的上行流量和下行流量统计,包含多个属性,判断是否经常在高峰时间上网,该数据集共有1842个实例,4个属性,两种分类,没有缺失值,本例采用预处理的方式,从中选取不同大小的数据集作为训练集和测试集。
表1数据训练集基本特征
属性 | 特征含义 | 取值类型 |
Ip | 网络地址 | 离散 |
Time | 上网时间 | 连续 |
Way | 数据方式 | 离散 |
Web | 网站 | 离散 |
Class | 类别 | 离散 |
本实验是在weka试验平台上运行,weka平台是当前流行的一种数据挖掘开源软件,试验结果对比如表2。
表2试验结果对比
由试验结果对比可得出,结合后向传播改进的C4.5算法的精确率有了明显的提高。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种C4.5决策树算法下的连续属性度量选择的增量学习方法,其特征在于:采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进,形成增量学习过程,具体包括如下步骤:
(1)利用C4.5决策树算法对训练集进行训练,生成原C4.5决策树;进入步骤(2);
(2)利用原C4.5决策树对已知分类的测试集一中的所有样本进行分类:对分类正确的样本,将样本添加到训练集中并保存,即将样本添加到原C4.5决策树的样本对象数组中,同时将样本的索引号添加到原C4.5决策树的相关叶节点上;对分类错误的样本,将由于同一个连续属性度量选择而导致分类错误的样本归类到该连续属性的候选改进集中,不同连续属性的候选改进集可以存在交集,进入步骤(3);
(3)针对某一个连续属性的候选改进集,利用神经网络中的后向传播算法对该连续属性的改进集的权重、初始值和偏倚进行初始化,并添加该连续属性度量选择的阈值;进入步骤(4);
(4)根据后向传播过程中的传播误差、偏倚改变量以及反馈值更新该连续属性度量选择的阈值;将更新后的该连续属性度量选择的阈值应用于原C4.5决策树形成新C4.5决策树,同时使用新C4.5决策树和原C4.5决策树分别对已知分类的测试集二进行分类,统计新C4.5决策树的准确率L2和原C4.5决策树的准确率L1,进入步骤(5);
(5)根据针对该连续属性设定的学习率X,比较原C4.5决策树和新C4.5决策树的准确率:若则以新C4.5决策树替换原C4.5决策树并保存,否则,维持原C4.5决策树。
2.根据权利要求1所述的C4.5决策树算法下的连续属性度量选择的增量学习方法,其特征在于:所述连续属性采用信息增益的方式进行记录,所述神经网络中的后向传播算法的剪枝规则采用后剪枝规则。
3.根据权利要求1所述的C4.5决策树算法下的连续属性度量选择的增量学习方法,其特征在于:所述步骤(3)中,连续属性的改进集的权重、初始值和偏倚进行初始化,具体为:权重的初始值为连续属性的改进集样本数与测试集一样本数的比值,偏倚的初始值为-0.5到0.5之间的随机数。
4.根据权利要求1所述的C4.5决策树算法下的连续属性度量选择的增量学习方法,其特征在于:所述步骤(5)中,学习率X的取值在1.0到2.0之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610807099.5A CN106372671A (zh) | 2016-09-06 | 2016-09-06 | 一种c4.5决策树算法下的连续属性度量选择的增量学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610807099.5A CN106372671A (zh) | 2016-09-06 | 2016-09-06 | 一种c4.5决策树算法下的连续属性度量选择的增量学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106372671A true CN106372671A (zh) | 2017-02-01 |
Family
ID=57900255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610807099.5A Pending CN106372671A (zh) | 2016-09-06 | 2016-09-06 | 一种c4.5决策树算法下的连续属性度量选择的增量学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106372671A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733966A (zh) * | 2017-04-14 | 2018-11-02 | 国网重庆市电力公司 | 一种基于决策树群的多维电能表现场状态检验方法 |
CN110930399A (zh) * | 2019-12-10 | 2020-03-27 | 南京医科大学 | 基于支持向量机的tka术前临床分期智能评估方法 |
-
2016
- 2016-09-06 CN CN201610807099.5A patent/CN106372671A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733966A (zh) * | 2017-04-14 | 2018-11-02 | 国网重庆市电力公司 | 一种基于决策树群的多维电能表现场状态检验方法 |
CN110930399A (zh) * | 2019-12-10 | 2020-03-27 | 南京医科大学 | 基于支持向量机的tka术前临床分期智能评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | A feature selection algorithm of decision tree based on feature weight | |
CN114741519B (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
CN111881342A (zh) | 一种基于图孪生网络的推荐方法 | |
CN110851491B (zh) | 基于多重邻居节点的多重语义影响的网络链接预测方法 | |
CN107885853A (zh) | 一种基于深度学习的组合式文本分类方法 | |
CN107545275A (zh) | 重采样与代价敏感学习融合的不平衡数据集成分类方法 | |
CN108334580A (zh) | 一种结合链接和属性信息的社区发现方法 | |
CN107169628A (zh) | 一种基于大数据互信息属性约简的配电网可靠性评估方法 | |
CN106446964A (zh) | 一种增量式的梯度提升决策树更新方法 | |
CN103927550B (zh) | 一种手写体数字识别方法及系统 | |
CN113705099A (zh) | 基于对比学习的社交平台谣言检测模型构建方法及检测方法 | |
CN107870957A (zh) | 一种基于信息增益和bp神经网络的热门微博预测方法 | |
CN106250438A (zh) | 基于随机游走模型的零引用文章推荐方法及系统 | |
CN107784394A (zh) | 考虑前景理论的高速公路路线方案不确定多属性优选方法 | |
CN109325019A (zh) | 数据关联关系网络构建方法 | |
CN110443574B (zh) | 多项目卷积神经网络评审专家推荐方法 | |
CN114528949A (zh) | 一种基于参数优化的电能计量异常数据的识别与补偿方法 | |
CN110135167A (zh) | 一种随机森林的边缘计算终端安全等级评估方法 | |
CN107833142A (zh) | 学术社交网络科研合作者推荐方法 | |
CN113344615A (zh) | 一种基于gbdt和dl融合模型的营销活动预测方法 | |
CN103400190A (zh) | 一种使用遗传算法优化极限学习机的集成框架方法 | |
CN111461921A (zh) | 一种基于机器学习的负荷建模典型用户数据库更新方法 | |
CN103886030B (zh) | 基于代价敏感决策树的信息物理融合系统数据分类方法 | |
CN104616062A (zh) | 一种基于多目标遗传规划的非线性系统辨识方法 | |
CN107123055A (zh) | 一种基于PageRank的社交大数据信息最大化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170201 |