CN109543711A

CN109543711A - 一种基于id3算法的决策树生成方法

Info

Publication number: CN109543711A
Application number: CN201811193658.3A
Authority: CN
Inventors: 王宝亮; 马明杰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2019-03-29

Abstract

本发明涉及一种基于ID3算法的决策树生成方法，对ID3算法进行改进，方法如下：利用K‑means++算法将数据集中连续的属性取值离散化，然后计算各个条件属性的重要性SGA(a,P,A),选择重要性大的属性作为分裂点，反复迭代，直到所有条件属性均被用作分裂节点，最终剪枝成决策树。

Description

一种基于ID3算法的决策树生成方法

技术领域

本发明属于机器学习和数据挖掘技术领域。

背景技术

数据挖掘就是对观测到的数据集(经常是庞大的)进行分析，目的是发现

未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。该定义中所说的“观测到的数据”，是与“实验室得到的”数据相对而言的。一般来说，数据挖掘所处理的数据是为了其他某个目的已经收集好的，而不是为了数据分析本身去收集的。这意味着数据挖掘的目标根本不在数据采集策略。这是数据挖掘区别于大多数统计任务的一个特征，在统计中经常是利用高效率的策略来采集数据以回答特定的问题。数据挖掘就是寻找数据集中的关系，也就是寻找精确、方便并且有价值地总结了数据的某一特征的表示。

随着机器学习的普遍深入，数据挖掘已经变得非常重要，而作为数据挖掘中的分类算法之一的决策树也应用的越来越广泛。决策树分类(Decision Tree Classification)是数据挖掘领域中的重要分支之一。决策树分类学习是以实例数据为基础，通过一组无次序、无规则的实例推理出决策树表示形式的分类规则。如果给定的训练数据集中的数据能准确地反映分析对象的本质，则对应的决策树就能够准确地对该问题进行分类。决策树是判断给定样本与某种属性相关联的决策过程的一种表示方法。决策树的每个内部节点是对属性的一个测试，每个分支代表一个测试输出，每个叶节点标识某个类别或类别的分布。当一个待分类的样本沿根节点，经内部节点的测试达到某个叶节点时，则判定该样本属于此叶节点所标识的类别。创建决策树的过程，即树的生长过程是不断地把训练数据集进行划分的过程，每次划分对应一个属性，也对应着一个内部节点，划分所选的属性应使划分后的分组“差异”最大。

决策树的生成算法主要由3类，ID3，C4.5，CART。这三类算法各有优缺点，ID3算法就是对每个节点选择信息增益Gain(S，A)最大的属性作为测试属性。该算法的优点是，理论清晰，方法简单，学习能力较强。但是，ID3算法也存在缺点，首先ID3算法倾向于选择取值较多的属性，而在大多数情况下多值属性不一定是最优的属性；其次，ID3算法只对比较小的数据集有效，且对噪声比较敏感，当训练数据集变大时，决策树可能会随之改变。比较ID3算法，C4.5算法在效率上有了很大的提高。不仅可以直接处理连续型属性，还可以允许训练样本集中出现属性空缺的样本。生成的决策树的分枝也较少。信息增益函数对于那些可能产生多分支输出的测试倾向于产生大的函数值，但是输出分支多不表示该测试对未知的对象具有更好的预测效果。信息增益率函数可以弥补这个缺陷。以往的经验说明信息增益率函数比信息增益函数更健壮，能稳定的选择好的测试。CART是Classification AndRegression Tree的简称，可以处理高度倾斜或多态的数值型数据，也可处理顺序或无序的类属性数据。CART选择具有最小gini系数值的属性作为测试属性，gini值越小，样本的“纯净度”越高，划分效果越好。

ID3算法是数据挖掘中一个重要的分类算法该算法用信息增益作为分裂属性算择的标准，生成的决策树结构简单，结果可读性好。然而，ID3算法并不适用于连续数据，且倾向于选择多值属性分裂。目前虽然提出基于模糊集和粗糙集的改进方案，用条件属性的粗糙度代替属性的信息熵作为分裂的标准，以解决ID3算法倾向选择多值属性的问题。而对于ID3无法处理连续值的问题，C4.5和CART算法可以解决。C4.5算法对连续属性进行分割并使分割信息熵最小，采用信息增益率作为分裂属性的标准。CART算法在属性值连续的情况下，使用最小剩余方差来判定回归树的最优划分，生成回归树。但是C4.5和CART算法的输出结果带有连续属性值的具体范围，不易于理解。客观世界中，存在这样一类数

据，在采样时是连续的，在决策时，需用具有较好可读性的离散指标代替原连续值。因此，有必要对连续量进行离散化并深入挖掘该连续量反映的评价等级信息，如在某种对学生的评价中，需将其连续成绩转化为“优”“良”“中”“差”的评价指标。对于这些数据，设计一种高效、可读性强的决策方法是非常必要的。提出对于决策树中的连续属性值用聚类算法进行离散化的思路，但是对于这种方法的具体实施、预测正确率、应用场合及局限的研究上仍有待进一步分析探讨。

发明内容

本发明提供一种基于ID3算法的决策树生成方法。本发明提出用K-means++算法离散化连续属性值的思想，并且结合粗糙集，改进原有的ID3算法，减少传统ID3算法的运算量。技术方案如下：

一种基于ID3算法的决策树生成方法，对ID3算法进行改进，方法如下：利用K-means++算法将数据集中连续的属性取值离散化，然后计算各个条件属性的重要性SGA(a，P，A)，选择重要性大的属性作为分裂点，反复迭代，直到所有条件属性均被用作分裂节点，最终剪枝成决策树。

本发明的有益效果如下：

1.本发明提出的决策树生成方法，可以改善ID3决策树生成树算法不能处理连续属性数据的问题，使用K-means算法，连续数据离散化，再利用ID3算法生成决策树。

2.本发明将决策规则由利用信息增益来决定分裂节点，改为由SAG(a，P，Q)属性重要性来决定分裂节点，改善了ID3倾向于选取属性取值较多的属性的缺点，使决策树的特征选取更加合理，避免了决策树过于复杂产生的过拟合。

附图说明

图1改进的ID3算法流程

具体实施方式

本发明的基本思想是：利用K-means++算法将数据集中连续的属性取值离散化，然后计算各个条件属性的重要性SGA(a，P，A)，选择重要性大的属性作为分裂点。反复迭代，直到所有条件属性均被用作分裂节点。最终剪枝成决策树。

如图(1)，具体步骤如下：

1)数据初始化，统计训练集中的样本数，设训练集D，共有K类，统计D1......Dk的样本数。

2)判断属性是否为离散。若为离散执行步骤3。否则，确定离散化后取值个数，应用K-means++算法离散化，并用离散值代替原来的连续值。

3)计算活跃的条件属性的重要性，计算SGA(a，P，Q)。

4)分割样本集，选择重要性最大的条件属性作为分裂节点。

5)继续分裂样本集，重复步骤3和步骤4，选择剩余的条件属性分割样本集，直至所有条件属性均被用作分裂节点。

6)剪枝，生成决策树。

说明1：K-means++算法：

输入数据集D、聚类数目k；

输出k个簇和k个聚类中心

1)throd＝1000000；j＝1

2)从原始数据集D中选取k个初始化数据中心，设(初始聚类中心之间的距离尽量远)

3)while thord＞0.0001do

4)j++

5)分配数据点到最近的聚类中心；

6)计算每个簇新的聚类中心

7)

8)end

9)输出C^(j)

说明2：SAG(a，P，Q)

γ_p(Q)＝card(P(X))/card(X)

式中：card是求模运算，X是属于等价关系Q下的等价类非空集合。对于P下的属性a，分别计算a加入p与未加入P时的γ_p(Q)，可以看出属性a的重要性。SAG(a，P，Q)＝γ_p(Q)-γ_p-|a|(Q)

本发明适用数据的分类与回归，用于预测新数据，改进的决策树生成算法ID3适用于连续数据可以分类的数据，比如学生成绩60以下为不及格，60-80位良好，80-100为优秀，或者人的年龄分为青年中年老年等，连续数据可以离散化为分类代表，只要连续数据可以离散化，就可以用于ID3生成树的构建，构建的生成树结构简单，对于测试集或者新数据的预测效果是良好的，改进的算法可读性好，预测的精度也有所提高，因此适用于可离散的连续数据的预测。

Claims

1.一种基于ID3算法的决策树生成方法，对ID3算法进行改进，方法如下：利用K-means++算法将数据集中连续的属性取值离散化，然后计算各个条件属性的重要性SGA(a,P,A),选择重要性大的属性作为分裂点，反复迭代，直到所有条件属性均被用作分裂节点，最终剪枝成决策树。