CN106934423A - 一种决策树的构建方法及系统 - Google Patents

一种决策树的构建方法及系统 Download PDF

Info

Publication number
CN106934423A
CN106934423A CN201710157040.0A CN201710157040A CN106934423A CN 106934423 A CN106934423 A CN 106934423A CN 201710157040 A CN201710157040 A CN 201710157040A CN 106934423 A CN106934423 A CN 106934423A
Authority
CN
China
Prior art keywords
destination node
attribute
node
sample set
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710157040.0A
Other languages
English (en)
Inventor
刘明皓
刘楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710157040.0A priority Critical patent/CN106934423A/zh
Publication of CN106934423A publication Critical patent/CN106934423A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种决策树的构建方法及系统,其中,所述方法包括:创建目标节点,所述目标节点对应样本集和剩余属性集;若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。本发明提供的技术方案,能够在信息增益为0时,正常构建决策树。

Description

一种决策树的构建方法及系统
技术领域
本发明属于数据处理技术领域,尤其涉及一种决策树的构建方法及系统。
背景技术
当前,随着数据量的不断增多,为了有效地对数据进行处理,涌现了不少的数据处理算法。其中,决策树(DecisionTree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。
目前在创建决策树时,通常可以对决策树中节点的样本集进行分析,根据样本集中剩余属性的信息增益来创建决策树。然而,在数据集比较大的时候,在生成树的过程中,某些节点会出现一些特殊的样本集,该样本集会导致剩余属性的信息增益均为0,以致无法选出分裂属性,此时常规的算法则无法生成决策树。
发明内容
有鉴于此,本发明的目的在于提供一种决策树的构建方法及系统,能够应对信息增益为0的情况。
为达到上述目的,本发明提供如下技术方案:
一种决策树的构建方法,所述方法包括:
创建目标节点,所述目标节点对应样本集和剩余属性集;
若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;
若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
进一步地,在创建目标节点之后,所述方法还包括:
若所述目标节点的样本集都在同一个类,将所述目标节点设置为决策树中的叶子节点,并用所述同一个类的类名标记所述目标节点。
进一步地,在创建目标节点之后,所述方法还包括:
若所述目标节点的剩余属性集为空,将所述目标节点设置为决策树中的叶子节点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
进一步地,所述方法还包括:
确定所述剩余属性集中具有最高信息增益的目标属性;
根据所述目标属性的属性值生成分支节点;其中,生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集;生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。
一种决策树的构建系统,所述系统包括:
目标节点创建单元,用于创建目标节点,所述目标节点对应样本集和剩余属性集;
同属性值处理单元,用于若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;
同取值比例处理单元,用于若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
进一步地,所述系统还包括:
同类处理单元,用于若所述目标节点的样本集都在同一个类,将所述目标节点设置为决策树中的叶子节点,并用所述同一个类的类名标记所述目标节点。
进一步地,所述系统还包括:
空集处理单元,用于若所述目标节点的剩余属性集为空,将所述目标节点设置为决策树中的叶子节点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
进一步地,所述系统还包括:
最高信息增益确定单元,用于确定所述剩余属性集中具有最高信息增益的目标属性;
分支节点生成单元,用于根据所述目标属性的属性值生成分支节点;其中,生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集;生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。
本发明的有益效果在于:
本发明针对信息增益为0的情况进行分析,产生了两种信息增益为0的场景:一种是各分类属性的属性值唯一,此时各分类属性作为测试属性时,信息增益为0,无法选出信息增益最高的属性;另一种是对于当前节点,结果属性中各取值的样本比例与各分支节点的结果属性中各取值的样本比例一致,同样无法选出信息增益最高的属性。基于这两种情况,本发明均确定了创建的目标节点的类型并且确定了标记的方式,从而解决了在信息增益为0时无法继续生成决策树的问题。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本申请中决策树的创建方法流程图;
图2为本申请中取值比例相同的示意图;
图3为本申请中决策树的创建系统结构示意图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
请参阅图1,本申请提供一种决策树的创建方法,所述方法包括:
S1:创建目标节点,所述目标节点对应样本集和剩余属性集;
S2:若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;
S3:若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
其中,信息增益为0的情况可以分为两种。请参阅表1,一种是个分类属性的属性值唯一,此时各分类属性作为测试属性时,信息增益均为0,从而无法选出信息增益最高的属性。
表1信息增益为0的第一种情况
由表1可见,每个分类属性的属性值均唯一且相同,那么则无法选出信息增益最高的属性。
请参阅图2,另一种信息增益为0的情况是对于当前节点,结果属性中各取值的样本比例与各分支节点的结果属性中各取值的样本比例一致。在图2中,结果属性中有两个取值,一个是变化,另一个是未变化,这两种取值的样本比例均与下方各个分支节点的结果属性中两种取值的样本比例一致,同样无法选出信息增益最高的属性。
上述两种情况采用常规的决策树创建的方式均无法继续进行,而本发明针对这两种情况,均将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类,从而保证决策树能够正常创建。
在本实施方式中,在创建目标节点之后,所述方法还包括:
若所述目标节点的样本集都在同一个类,将所述目标节点设置为决策树中的叶子节点,并用所述同一个类的类名标记所述目标节点。
在本实施方式中,在创建目标节点之后,所述方法还包括:
若所述目标节点的剩余属性集为空,将所述目标节点设置为决策树中的叶子节点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
在本实施方式中,所述方法还包括:
确定所述剩余属性集中具有最高信息增益的目标属性;
根据所述目标属性的属性值生成分支节点;其中,生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集;生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。
请参阅图3,本申请还提供一种决策树的构建系统,所述系统包括:
目标节点创建单元100,用于创建目标节点,所述目标节点对应样本集和剩余属性集;
同属性值处理单元200,用于若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;
同取值比例处理单元300,用于若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
在本实施方式中,所述系统还包括:
同类处理单元,用于若所述目标节点的样本集都在同一个类,将所述目标节点设置为决策树中的叶子节点,并用所述同一个类的类名标记所述目标节点。
在本实施方式中,所述系统还包括:
空集处理单元,用于若所述目标节点的剩余属性集为空,将所述目标节点设置为决策树中的叶子节点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
在本实施方式中,所述系统还包括:
最高信息增益确定单元,用于确定所述剩余属性集中具有最高信息增益的目标属性;
分支节点生成单元,用于根据所述目标属性的属性值生成分支节点;其中,生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集;生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。
本发明的有益效果在于:
本发明针对信息增益为0的情况进行分析,产生了两种信息增益为0的场景:一种是各分类属性的属性值唯一,此时各分类属性作为测试属性时,信息增益为0,无法选出信息增益最高的属性;另一种是对于当前节点,结果属性中各取值的样本比例与各分支节点的结果属性中各取值的样本比例一致,同样无法选出信息增益最高的属性。基于这两种情况,本发明均确定了创建的目标节点的类型并且确定了标记的方式,从而解决了在信息增益为0时无法继续生成决策树的问题。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (8)

1.一种决策树的构建方法,其特征在于,所述方法包括:
创建目标节点,所述目标节点对应样本集和剩余属性集;
若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;
若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
2.根据权利要求1所述的方法,其特征在于,在创建目标节点之后,所述方法还包括:
若所述目标节点的样本集都在同一个类,将所述目标节点设置为决策树中的叶子节点,并用所述同一个类的类名标记所述目标节点。
3.根据权利要求1所述的方法,其特征在于,在创建目标节点之后,所述方法还包括:
若所述目标节点的剩余属性集为空,将所述目标节点设置为决策树中的叶子节点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述剩余属性集中具有最高信息增益的目标属性;
根据所述目标属性的属性值生成分支节点;其中,生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集;生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。
5.一种决策树的构建系统,其特征在于,所述系统包括:
目标节点创建单元,用于创建目标节点,所述目标节点对应样本集和剩余属性集;
同属性值处理单元,用于若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;
同取值比例处理单元,用于若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
6.根据权利要求5所述的系统,其特征在于,所述系统还包括:
同类处理单元,用于若所述目标节点的样本集都在同一个类,将所述目标节点设置为决策树中的叶子节点,并用所述同一个类的类名标记所述目标节点。
7.根据权利要求5所述的系统,其特征在于,所述系统还包括:
空集处理单元,用于若所述目标节点的剩余属性集为空,将所述目标节点设置为决策树中的叶子节点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
8.根据权利要求5所述的系统,其特征在于,所述系统还包括:
最高信息增益确定单元,用于确定所述剩余属性集中具有最高信息增益的目标属性;
分支节点生成单元,用于根据所述目标属性的属性值生成分支节点;其中,生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集;生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。
CN201710157040.0A 2017-03-16 2017-03-16 一种决策树的构建方法及系统 Pending CN106934423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710157040.0A CN106934423A (zh) 2017-03-16 2017-03-16 一种决策树的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710157040.0A CN106934423A (zh) 2017-03-16 2017-03-16 一种决策树的构建方法及系统

Publications (1)

Publication Number Publication Date
CN106934423A true CN106934423A (zh) 2017-07-07

Family

ID=59432625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710157040.0A Pending CN106934423A (zh) 2017-03-16 2017-03-16 一种决策树的构建方法及系统

Country Status (1)

Country Link
CN (1) CN106934423A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170866A (zh) * 2018-01-30 2018-06-15 深圳市茁壮网络股份有限公司 一种样本查找方法及装置
CN109188330A (zh) * 2018-08-30 2019-01-11 云南电力试验研究院(集团)有限公司 一种配电网故障指示器的故障诊断方法及系统
CN110069929A (zh) * 2019-04-18 2019-07-30 北京神州绿盟信息安全科技股份有限公司 漏洞处置分析方法及其分析模型的构建方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170866A (zh) * 2018-01-30 2018-06-15 深圳市茁壮网络股份有限公司 一种样本查找方法及装置
CN108170866B (zh) * 2018-01-30 2022-03-11 深圳市茁壮网络股份有限公司 一种样本查找方法及装置
CN109188330A (zh) * 2018-08-30 2019-01-11 云南电力试验研究院(集团)有限公司 一种配电网故障指示器的故障诊断方法及系统
CN110069929A (zh) * 2019-04-18 2019-07-30 北京神州绿盟信息安全科技股份有限公司 漏洞处置分析方法及其分析模型的构建方法和装置

Similar Documents

Publication Publication Date Title
CN110880019B (zh) 通过无监督域适应训练目标域分类模型的方法
CN106650789B (zh) 一种基于深度lstm网络的图像描述生成方法
CN107122796B (zh) 一种基于多分支网络融合模型的光学遥感图像分类方法
CN112632290B (zh) 一种融合图结构和文本信息的自适应知识图谱表示学习方法
CN109753995A (zh) 一种基于3d目标分类和场景语义分割的网络优化结构
CN110955780A (zh) 一种用于知识图谱的实体对齐方法
CN106934423A (zh) 一种决策树的构建方法及系统
CN109816032A (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
Zhang et al. Development of a supervised software tool for automated determination of optimal segmentation parameters for ecognition
CN108415846A (zh) 一种生成最小自动化测试用例集的方法和装置
CN106254321A (zh) 一种全网络异常数据流分类方法
CN105528432B (zh) 一种数字资源热点生成方法及装置
CN110377659A (zh) 一种智能图表推荐系统及方法
CN109145003A (zh) 一种构建知识图谱的方法及装置
CN111353583B (zh) 基于群卷积特征拓扑空间的深度学习网络及其训练方法
Du et al. Research on decision tree algorithm based on information entropy
CN105740521A (zh) 油藏数值模拟系统求解过程中的小网格剔除方法和装置
CN104850862B (zh) 一种基于单位代价收益敏感决策树的分类方法
CN103164533B (zh) 基于信息理论的复杂网络社团检测方法
CN112085164A (zh) 一种基于无锚框网络的区域推荐网络提取方法
CN108595588B (zh) 一种科学数据存储关联方法
CN107193979A (zh) 一种同源图片检索的方法
CN111008285A (zh) 一种基于论文关键属性网络的作者消歧方法
CN110110764B (zh) 基于混合式网络的随机森林策略优化方法、存储介质
CN110232954B (zh) 基于迁移学习的分子对接方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707

RJ01 Rejection of invention patent application after publication