CN106372671A

CN106372671A - 一种c4.5决策树算法下的连续属性度量选择的增量学习方法

Info

Publication number: CN106372671A
Application number: CN201610807099.5A
Authority: CN
Inventors: 徐平平; 周小蹦; 于凌涛
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2016-09-06
Filing date: 2016-09-06
Publication date: 2017-02-01

Abstract

本发明公开了一种C4.5决策树算法下的连续属性度量选择的增量学习方法，采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进，形成增量学习过程；介于后向传播算法主要应用于连续属性，所以本发明主要研究的是在连续属性阈值选取改进方面；该方案是在现有技术方案中增加了增量学习的功能，在连续属性阈值方面，摒弃了原先整棵树或者是部分分支的重新计算，这种复杂的，低效的方法，结合后向传播这种高效的学习方案，不仅增加了决策树C4.5的功能，更是一种新的学习方式。

Description

一种C4.5决策树算法下的连续属性度量选择的增量学习方法

技术领域

本发明涉及一种数据处理技术领域，尤其涉及一种C4.5决策树算法下的连续属性度量选择的增量学习方法。

背景技术

随着当前数据量的增多，从数据中挖掘出有价值的信息成为当前研究的热门，数据挖掘起源于KDD，在数据挖掘中，常见有效的数据挖掘算法有分类、聚类、关联、线性回归等，BI是其重要的应用领域。1984年，多位统计学家出版了CART算法，介绍了二叉决策树的产生过程，作为分类算法中的有名的决策树C4.5算法，有着数据挖掘十大算法之一的美誉，它能够使数据以树的形式表现出来，并且对于专业外的人员，也能够根据决策树做出精确判断。决策树ID3和决策树C4.5算法都是来自于CLS的思维模式，决策树C4.5算法是在ID3的基础上做出了改进得到的，C4.5拥有ID3的几乎全部优点并且新增了以下部分功能：属性选择的标准改为了信息增益比，对于连续属性也提出了关于度量的选择方案，使用迭代K次来进行交叉验证等。虽然C4.5算法优点很多，产生的分类规则也易于理解，准确率提高较高。但是C4.5算法的缺点是在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效，并且没有增量学习的方法。

然而，这些不足并不影响C4.5算法在实际中的很好应用，许多学者在此方面做了很多研究工作，还有学者已经证明，C4.5在处理许多连续属性的操作是整棵决策树构造过程70％以上的时间，因此C4.5决策树算法中对连续属性的处理进行改进是很有必要的，以此来提高算法的执行效率。虽然有很多文献对于传统的决策树C4.5算法在对于处理连续属性选择度量提出了自己的看法和选择标准方面有了改进，比如参考文献[1]中利用最新无穷小的性质改进信息增益率的计算，但是很多研究并没有增量学习的方法，而在当前背景下，增量学习作为数据挖掘一个重点研究对象，仅仅依靠训练集来判断，往往出现偏倚，因此增量学习，对于一个数据挖掘系统来说，往往会有新的样本添加到训练样本，或者应用已有的规则来检验数据集，这就要求系统在原来学习规则的基础上，对新添样本进行学习，并以此来挖掘新的知识，以最小的代价更新原有的知识结构。对新样本的增量学习能力是一个完善的挖掘系统所必需具备的。

下面给出两种相关的技术方案及其相关分析。

(一)决策树的生成是采取分治的思想，依次选择一个属性作为分支的节点，自顶向下的生成一颗决策树树。其中，生成决策树关键的步骤是分裂过程，C4.5采用的是信息增益率作为分裂准则，并且能处理连续属性，在C4.5算法中，对连续属性的处理如下：

(1.1)对连续属性的取值进行从低到高排序；

(1.2)把两个属性取值之间的中点作为可能的分裂点，以此将数据集分成两部分，计算每个可能的分裂点的信息增益；

(1.3)对每个分裂点的信息增益进行修正：减去log₂(N-1)/|D|；

(1.4)选择修正后信息增益最大的，分裂点作为该属性的最佳分裂点；

(1.5)计算最佳分裂点的信息增益率作为属性的信息增益率；

(1.6)选择信息增益率最大的属性作为分裂属性。

从上面的处理过程可以看出，当数据集中同时拥有连续属性和离散属性时，C4.5算法倾向于选择连续的属性作为分裂属性，因此连续属性的信息增益需要减去log₂(N-1)/|D|作为修正，其中N为可能的分裂点个数，|D|是数据集大小。注意连续属性选择最佳分裂点不用信息增益率，而采用信息增益，然后用最大的信息增益对应的信息增益率作为属性的信息增益率。

(二)C4.5算法不具备增量学习功能的，也就是说当用已经生成的决策树判断已知的实例时，如果判断错了，想要改进当前决策树，只能将新旧样本组合，对所有样本进行重新学习，将会付出很大的时间代价。在参考文献[2]中，作者提出一种C4.5算法的样本增量学习的方法，主要思想是：

(2.1)用已建好的决策树模型对新增的样本进行分类；

(2.2)如分类正确，将新样本信息添加至各相关节点；

(2.3)如在某个决策节点出现了分类错误，则将该节点下原有所有样本与新样本组合为新样本集，以该决策节点为根节点进行建树，并将该节点原来所含的所有元素删除。

可以看出，相对于所有样本的重新学习过程而言，技术二是将重新学习的对象从系统所有样本集合缩小到了某个决策节点需分类的样本集合。如果该决策点原来所含样本较多，且已建好多个决策分支，因为一个新样本而去重新对其进行建树，不管是在时间还是效率上仍将会付出不小的代价。

缩略语和关键术语定义

BI Business Intelligence 商业智能

CART Classification And Regression Trees 分类与回归树算法

CLS Concept Learning System 概念学习系统

ID3 Iterative Dichotomiser 迭代二分器

KDD Knowledge-Discovery in Databases 数据库知识发现

WAKA Waikato Environment for Knowledge Analysis 怀卡托智能分析环境

参考文献

[1]黄爱辉.决策树C4.5算法的改进及应用[J].科学技术与工程，2009

[2]孙卫祥.基于数据挖掘与信息融合的故障诊断方法研究[D].上海：上海交通大学，2006

[3]程龙，蔡远文数据挖掘C4.5算法的编程设计与增量学习改进[A]北京：装备指挥技术学院，2009

[4]李爱，王洪伟一种基于Weka软件的专家系统知识获取方法[P].中国专利:CN103092914A，2013-05-08

[5]邓维斌，刘进一种改进C4.5决策树算法下的不平衡数据抽样方法[P]:CN105373606A，2016-03-02

发明内容

发明目的：针对现有技术(一)中C4.5决策树算法对于连续属性度量选择无法增量学习的问题(或者说如果需要进行增量学习，只能先将实例和原有训练集结合成为新的训练集，再次运用C4.5决策树生成规范才能够实现)、以及现有技术(二)中选取部分分支来重新生成C4.5决策树分支的问题，本发明提供一种C4.5决策树算法下的连续属性度量选择的增量学习方法，不用重新生成分支，只需要改变连续属性的阈值并结合后向传播算法对阈值进行调整即可实现增量学习，能够有效减少迭代次数，减少计算复杂度，并提高C4.5决策树的准确率。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种C4.5决策树算法下的连续属性度量选择的增量学习方法，采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进，形成增量学习过程，具体包括如下步骤：

(1)利用C4.5决策树算法对训练集进行训练，生成原C4.5决策树；进入步骤(2)；

(2)利用原C4.5决策树对已知分类的测试集一中的所有样本进行分类：对分类正确的样本，将样本添加到训练集中并保存，即将样本添加到原C4.5决策树的样本对象数组中，同时将样本的索引号添加到原C4.5决策树的相关叶节点上；对分类错误的样本，将由于同一个连续属性度量选择而导致分类错误的样本归类到该连续属性的候选改进集中，不同连续属性的候选改进集可以存在交集，进入步骤(3)；

(3)针对某一个连续属性的候选改进集，利用神经网络中的后向传播算法对该连续属性的改进集的权重、初始值(就是对初始输入的连续属性的值进行规范化，使其落入0.0～0.1之间)和偏倚进行初始化，并添加该连续属性度量选择的阈值；进入步骤(4)；

(4)根据后向传播过程中的传播误差、偏倚改变量以及反馈值更新该连续属性度量选择的阈值(该更新过程利用后向传播算法的基础概念即可实现，可参考《数据挖掘概念与技术》P263中的例子)；将更新后的该连续属性度量选择的阈值应用于原C4.5决策树形成新C4.5决策树，同时使用新C4.5决策树和原C4.5决策树分别对已知分类的测试集二进行分类，统计新C4.5决策树的准确率L₂和原C4.5决策树的准确率L₁，进入步骤(5)；

(5)根据针对该连续属性设定的学习率X(学习率X是对新C4.5决策树准确率的一种要求，从侧面也反应了测试集一的权重，其值由实验员根据原C4.5决策树对测试集一的测试结果设定，一般在1.0～2.0之间)，比较原C4.5决策树和新C4.5决策树的准确率：若则以新C4.5决策树替换原C4.5决策树并保存，否则，维持原C4.5决策树。

具体的，所述连续属性采用信息增益的方式进行记录，而不是采用信息增益率的方式进行记录，因为虽然C4.5决策树在离散属性时采用的是信息增益率的选择方式，但是在连续属性阈值时采用信息增益的选择方式要更好，这点已经在理论和实践中验证过；所述神经网络中的后向传播算法的剪枝规则采用后剪枝规则，这也是C4.5决策树自带的剪枝规则。

具体的，所述步骤(3)中，连续属性的改进集的权重、初始值和偏倚进行初始化，具体为：权重的初始值为连续属性的改进集样本数与测试集一样本数的比值，偏倚的初始值为-0.5到0.5之间的随机数。

具体的，所述步骤(5)中，学习率X的取值在1.0到2.0之间。

有益效果：本发明针对现有技术方案决策树C4.5没有增量学习的问题，提出了一种C4.5决策树算法下的连续属性度量选择的增量学习方法，介于后向传播算法主要应用于连续属性，所以本发明主要研究的是在连续属性阈值选取改进方面；该方案是在现有技术方案中增加了增量学习的功能，在连续属性阈值方面，摒弃了原先整棵树或者是部分分支的重新计算，这种复杂的，低效的方法，结合后向传播这种高效的学习方案，不仅增加了决策树C4.5的功能，更是一种新的学习方式。

附图说明

图1为后向传播算法的流程；

图2为决策树C4.5构造学习规则的流程图；

图3为决策树C4.5增量学习规则的流程图；

图4为本发明的整体流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图4所示为一种C4.5决策树算法下的连续属性度量选择的增量学习方法，下面就各个步骤的具体实现过程加以具体说明。

步骤一：利用C4.5决策树算法对训练集进行训练，生成原C4.5决策树。

设训练集D总共有m个属性，其中一个属性记为属性A，对训练集D进行观测，发现属性A有v个分裂点，分别记为{a₁,a₂,a₃,…,a_v}，根据这v个分裂点可以将训练集D划分成v个分区域子集，分别记为{D₁,D₂,D₃,…,D_v}，则属性A的熵Info_A(D)为：

{Info}_{A} (D) = Σ_{j = 1}^{v} \frac{| D_{j} |}{| D |} I n f o (D_{j}) = Σ_{j = 1}^{v} p_{j} I n f o (D_{j}) - - - (1)

设分区域子集D_j有n个不同的分类，该n个分类记为{D_1,j,D_2,j,D_3,j,…,D_n,j}，则Info(D_j)按照如下方式计算：

I n f o (D_{j}) = - Σ_{i = 1}^{n} \frac{| D_{i, j} |}{| D_{j} |} \log_{2} (\frac{| D_{i, j} |}{| D_{j} |}) - - - (2)

其中：Info_A(D)是按照属性A对训练集D中的元素进行分类所需要的期望信息，Info(D_j)是从训练集D中分类出分区域子集D_j需要的信息增益；|D|为训练集D的大小(即训练集D的样本数)，|D_j|为分区域子集D_j的大小(即分区域子集D_j的样本数)，|D_i,j|为分类D_i,j的大小(即分类D_i,j的样本数)；

训练集D中的所有信息增益Info(D)为：

I n f o (D) = - Σ_{j = 1}^{v} p_{j} \log_{2} (p_{j}) - - - (3)

属性A的信息增益Gain(A)为：

Gain(A)＝Info(D)-Info_A(D) (4)

属性A的信息增益率GrianRate(A)为：

G r i a n R a t e (A) = \frac{G a i n (A)}{{Info}_{A} (D)} - - - (5)

对于C4.5决策树的离散属性，一般根据离散属性的信息增益率来划分，信息增益率越大则越优先选择；对于C4.5决策树的连续属性，取连续属性的阈值范围的等分点作为可能的分裂点，将连续属性通过上述方法计算得到的信息增益减去log₂(v-1)/|D|后作为修正，剪枝按照悲观剪枝法，根据该连续属性的选择方式对训练集D进行训练，生成原C4.5决策树，进入步骤二。

步骤二：利用原C4.5决策树对已知分类的测试集一中的所有样本进行分类。

对分类正确的样本，将样本添加到训练集中并保存，即将样本添加到原C4.5决策树的样本对象数组中，同时将样本的索引号添加到原C4.5决策树的相关叶节点上；对分类错误的样本，将由于同一个连续属性度量选择而导致分类错误的样本归类到该连续属性的候选改进集中，不同连续属性的候选改进集可以存在交集，进入步骤三。

步骤三：针对某一个连续属性的候选改进集，利用神经网络中的后向传播算法对该连续属性的改进集的权重、初始值和偏倚进行初始化，并添加该连续属性度量选择的阈值。

设原C4.5决策树共有S个类别，记候选改进集为W＝{W₁,W₂,…,W_s,,W_S}，W_s表示应当属于第s类别却被错误分到其他类别的所有样本组成的子集，|W_s|表示子集W_s的大小(即子集W_s的样本数)。

找到最大(样本数最多)子集记为W_m＝{W_{m_1},W_{m_2},…,W_{m_s},W_{m_S}}，W_{m_s}表示应当属于第m类别却被错误分到第s类别的所有样本组成的区子集，|W_{m_s}|表示区子集W_{m_s}的大小(即区子集W_{m_s}的样本数)，W_{m_m}＝0，|W_{m_m}|＝0。

找到最大(样本数最多)区子集和次大(样本数次多)区子集表示最大区子集的大小(即最大区子集的样本数)，表示次大区子集的大小(即次大区子集的样本数)。

定义样本集则有

对样本集W_{m_n}中的连续属性Z进行如下研究：令K＝|W_{m_n}|，最大区子集的连续属性Z的值为次大区子集的连续属性Z的值为

神经网络的第一层包括K个小单元，第二层包括单元j₁和单元j₂，第三层包括单元j；其中，K个小单元表示样本集W_{m_n}的K个样本，单元j₁表示最大区子集W_{m_n1}的错误类别(即第n1类别)，单元j₂表示最大区子集W_{m_n2}的错误类别(即第n2类别)，单元j表示样本集W_{m_n}的正确类别(即第m类别)。

①对于神经网络的第一层，记为最大区子集W_{m_n1}的K₁个样本，为最大区子集W_{m_n2}的K₂个样本。

传入单元j₁的所有K₁个小单元的初始值为输出为且有：

O_{i_{1}} = \frac{1}{| L_{i_{1}_m a x} |} I_{i_{1}} - - - (6)

传入单元j₂的所有K₂个小单元的初始值为I_i1，输出为且有：

O_{i_{2}} = \frac{1}{| L_{i_{2}_m a x} |} I_{i_{2}} - - - (7)

②对于神经网络的第二层：单元j₁的初始值为输出为单元j₂的初始值为输出为且有：

I_{j_{1}} = θ_{j_{1}} + Σ_{k = 1}^{K_{1}} W_{j_{1}} O_{i_{1}_k} - - - (8)

I_{j_{2}} = θ_{j_{2}} + Σ_{k = 1}^{K_{2}} W_{j_{2}} O_{i_{2}_k} - - - (9)

O_{j_{1}} = \frac{1}{1 + e^{- I_{j_{1}}}} - - - (10)

O_{j_{2}} = \frac{1}{1 + e^{- I_{j_{2}}}} - - - (11)

其中：为从小单元到单元j₁的权值，为从小单元到单元j₂的权值，为单元j₁的偏倚，为单元j₂的偏倚，和为-0.5～0.5之间的随机小数(小数点后保留一位)。

对于单元j₁，误差通过下式计算：

{Err}_{j_{1}} = O_{j_{1}} (1 - O_{j_{1}}) (\frac{Y}{L_{i_{1}_m a x}} - O_{j_{1}}) - - - (12)

对于单元j₂，误差通过下式计算：

{Err}_{j_{2}} = O_{j_{2}} (1 - O_{j_{2}}) (\frac{Y}{L_{i_{2}_m a x}} - O_{j_{2}}) - - - (13)

其中：Y为连续属性Z在原C4.5决策树中的阈值。

③对于神经网络的第三层：单元j的初始值为I_j，输出为O_j，且有：

I_{j} = W_{j_{1} j} O_{j_{1}} + W_{j_{2} j} O_{j_{2}} + θ_{i} - - - (14)

其中：为从单元j₁到单元j的权值，为从单元j₂到单元j的权值，θ_j为单元j的偏倚，θ_j为-0.5～0.5之间的随机小数(小数点后保留一位)。

对于单元j，误差Err_j通过下式计算：

{Err}_{j} = O_{j} (1 - O_{j}) ({Err}_{j_{1}} W_{j_{1} j} + {Err}_{j_{2}} W_{j_{2} j}) - - - (15)

最后，根据误差Err_j调整连续属性Z的阈值，调整后连续属性Z的阈值为Y＝Y(1+Err_j)。

步骤四：将更新后的阈值应用于原C4.5决策树形成新C4.5决策树。

同时使用新C4.5决策树和原C4.5决策树分别对已知分类的测试集二进行分类，统计新C4.5决策树的准确率L₂和原C4.5决策树的准确率L₁。

步骤五：根据针对该连续属性设定的学习率X。

若则以新C4.5决策树替换原C4.5决策树并保存；否则，维持原C4.5决策树。

下面以表1的人口收入为例给出采用本发明的分类效果。

该数据集来源于机器学习数据集，根据2000年某地的上网的上行流量和下行流量统计，包含多个属性，判断是否经常在高峰时间上网，该数据集共有1842个实例，4个属性，两种分类，没有缺失值，本例采用预处理的方式，从中选取不同大小的数据集作为训练集和测试集。

表1数据训练集基本特征

属性	特征含义	取值类型
			Ip	网络地址	离散
Time	上网时间	连续
			Way	数据方式	离散
Web	网站	离散
			Class	类别	离散

本实验是在weka试验平台上运行，weka平台是当前流行的一种数据挖掘开源软件，试验结果对比如表2。

表2试验结果对比

由试验结果对比可得出，结合后向传播改进的C4.5算法的精确率有了明显的提高。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种C4.5决策树算法下的连续属性度量选择的增量学习方法，其特征在于：采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进，形成增量学习过程，具体包括如下步骤：

(3)针对某一个连续属性的候选改进集，利用神经网络中的后向传播算法对该连续属性的改进集的权重、初始值和偏倚进行初始化，并添加该连续属性度量选择的阈值；进入步骤(4)；

(4)根据后向传播过程中的传播误差、偏倚改变量以及反馈值更新该连续属性度量选择的阈值；将更新后的该连续属性度量选择的阈值应用于原C4.5决策树形成新C4.5决策树，同时使用新C4.5决策树和原C4.5决策树分别对已知分类的测试集二进行分类，统计新C4.5决策树的准确率L₂和原C4.5决策树的准确率L₁，进入步骤(5)；

(5)根据针对该连续属性设定的学习率X，比较原C4.5决策树和新C4.5决策树的准确率：若则以新C4.5决策树替换原C4.5决策树并保存，否则，维持原C4.5决策树。

2.根据权利要求1所述的C4.5决策树算法下的连续属性度量选择的增量学习方法，其特征在于：所述连续属性采用信息增益的方式进行记录，所述神经网络中的后向传播算法的剪枝规则采用后剪枝规则。

3.根据权利要求1所述的C4.5决策树算法下的连续属性度量选择的增量学习方法，其特征在于：所述步骤(3)中，连续属性的改进集的权重、初始值和偏倚进行初始化，具体为：权重的初始值为连续属性的改进集样本数与测试集一样本数的比值，偏倚的初始值为-0.5到0.5之间的随机数。

4.根据权利要求1所述的C4.5决策树算法下的连续属性度量选择的增量学习方法，其特征在于：所述步骤(5)中，学习率X的取值在1.0到2.0之间。