CN106934423A

CN106934423A - 一种决策树的构建方法及系统

Info

Publication number: CN106934423A
Application number: CN201710157040.0A
Authority: CN
Inventors: 刘明皓; 刘楠
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-03-16
Filing date: 2017-03-16
Publication date: 2017-07-07

Abstract

本发明涉及一种决策树的构建方法及系统，其中，所述方法包括：创建目标节点，所述目标节点对应样本集和剩余属性集；若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值，将所述目标节点设置为决策树中的决策点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类；若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致，将所述目标节点设置为决策树中的决策点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类。本发明提供的技术方案，能够在信息增益为0时，正常构建决策树。

Description

一种决策树的构建方法及系统

技术领域

本发明属于数据处理技术领域，尤其涉及一种决策树的构建方法及系统。

背景技术

当前，随着数据量的不断增多，为了有效地对数据进行处理，涌现了不少的数据处理算法。其中，决策树(DecisionTree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。决策数有两大优点：1)决策树模型可以读性好，具有描述性，有助于人工分析；2)效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。

目前在创建决策树时，通常可以对决策树中节点的样本集进行分析，根据样本集中剩余属性的信息增益来创建决策树。然而，在数据集比较大的时候，在生成树的过程中，某些节点会出现一些特殊的样本集，该样本集会导致剩余属性的信息增益均为0，以致无法选出分裂属性，此时常规的算法则无法生成决策树。

发明内容

有鉴于此，本发明的目的在于提供一种决策树的构建方法及系统，能够应对信息增益为0的情况。

为达到上述目的，本发明提供如下技术方案：

一种决策树的构建方法，所述方法包括：

创建目标节点，所述目标节点对应样本集和剩余属性集；

若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值，将所述目标节点设置为决策树中的决策点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类；

若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致，将所述目标节点设置为决策树中的决策点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类。

进一步地，在创建目标节点之后，所述方法还包括：

若所述目标节点的样本集都在同一个类，将所述目标节点设置为决策树中的叶子节点，并用所述同一个类的类名标记所述目标节点。

进一步地，在创建目标节点之后，所述方法还包括：

若所述目标节点的剩余属性集为空，将所述目标节点设置为决策树中的叶子节点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类。

进一步地，所述方法还包括：

确定所述剩余属性集中具有最高信息增益的目标属性；

根据所述目标属性的属性值生成分支节点；其中，生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集；生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。

一种决策树的构建系统，所述系统包括：

目标节点创建单元，用于创建目标节点，所述目标节点对应样本集和剩余属性集；

同属性值处理单元，用于若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值，将所述目标节点设置为决策树中的决策点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类；

同取值比例处理单元，用于若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致，将所述目标节点设置为决策树中的决策点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类。

进一步地，所述系统还包括：

同类处理单元，用于若所述目标节点的样本集都在同一个类，将所述目标节点设置为决策树中的叶子节点，并用所述同一个类的类名标记所述目标节点。

进一步地，所述系统还包括：

空集处理单元，用于若所述目标节点的剩余属性集为空，将所述目标节点设置为决策树中的叶子节点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类。

进一步地，所述系统还包括：

最高信息增益确定单元，用于确定所述剩余属性集中具有最高信息增益的目标属性；

分支节点生成单元，用于根据所述目标属性的属性值生成分支节点；其中，生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集；生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。

本发明的有益效果在于：

本发明针对信息增益为0的情况进行分析，产生了两种信息增益为0的场景：一种是各分类属性的属性值唯一，此时各分类属性作为测试属性时，信息增益为0，无法选出信息增益最高的属性；另一种是对于当前节点，结果属性中各取值的样本比例与各分支节点的结果属性中各取值的样本比例一致，同样无法选出信息增益最高的属性。基于这两种情况，本发明均确定了创建的目标节点的类型并且确定了标记的方式，从而解决了在信息增益为0时无法继续生成决策树的问题。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本申请中决策树的创建方法流程图；

图2为本申请中取值比例相同的示意图；

图3为本申请中决策树的创建系统结构示意图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

请参阅图1，本申请提供一种决策树的创建方法，所述方法包括：

S1：创建目标节点，所述目标节点对应样本集和剩余属性集；

S2：若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值，将所述目标节点设置为决策树中的决策点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类；

S3：若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致，将所述目标节点设置为决策树中的决策点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类。

其中，信息增益为0的情况可以分为两种。请参阅表1，一种是个分类属性的属性值唯一，此时各分类属性作为测试属性时，信息增益均为0，从而无法选出信息增益最高的属性。

表1信息增益为0的第一种情况

由表1可见，每个分类属性的属性值均唯一且相同，那么则无法选出信息增益最高的属性。

请参阅图2，另一种信息增益为0的情况是对于当前节点，结果属性中各取值的样本比例与各分支节点的结果属性中各取值的样本比例一致。在图2中，结果属性中有两个取值，一个是变化，另一个是未变化，这两种取值的样本比例均与下方各个分支节点的结果属性中两种取值的样本比例一致，同样无法选出信息增益最高的属性。

上述两种情况采用常规的决策树创建的方式均无法继续进行，而本发明针对这两种情况，均将所述目标节点设置为决策树中的决策点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类，从而保证决策树能够正常创建。

在本实施方式中，在创建目标节点之后，所述方法还包括：

在本实施方式中，所述方法还包括：

确定所述剩余属性集中具有最高信息增益的目标属性；

请参阅图3，本申请还提供一种决策树的构建系统，所述系统包括：

目标节点创建单元100，用于创建目标节点，所述目标节点对应样本集和剩余属性集；

同属性值处理单元200，用于若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值，将所述目标节点设置为决策树中的决策点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类；

同取值比例处理单元300，用于若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致，将所述目标节点设置为决策树中的决策点，并根据多数表决原则，将所述目标节点标记为样本集中最普通的类。

在本实施方式中，所述系统还包括：

本发明的有益效果在于：

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种决策树的构建方法，其特征在于，所述方法包括：

创建目标节点，所述目标节点对应样本集和剩余属性集；

2.根据权利要求1所述的方法，其特征在于，在创建目标节点之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在创建目标节点之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述剩余属性集中具有最高信息增益的目标属性；

5.一种决策树的构建系统，其特征在于，所述系统包括：

6.根据权利要求5所述的系统，其特征在于，所述系统还包括：

7.根据权利要求5所述的系统，其特征在于，所述系统还包括：

8.根据权利要求5所述的系统，其特征在于，所述系统还包括：