CN106934423A - 一种决策树的构建方法及系统 - Google Patents

一种决策树的构建方法及系统 Download PDF

Info

Publication number
CN106934423A
CN106934423A CN201710157040.0A CN201710157040A CN106934423A CN 106934423 A CN106934423 A CN 106934423A CN 201710157040 A CN201710157040 A CN 201710157040A CN 106934423 A CN106934423 A CN 106934423A
Authority
CN
China
Prior art keywords
target node
attribute
node
target
remaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710157040.0A
Other languages
English (en)
Inventor
刘明皓
刘楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710157040.0A priority Critical patent/CN106934423A/zh
Publication of CN106934423A publication Critical patent/CN106934423A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种决策树的构建方法及系统,其中,所述方法包括:创建目标节点,所述目标节点对应样本集和剩余属性集;若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。本发明提供的技术方案,能够在信息增益为0时,正常构建决策树。

Description

一种决策树的构建方法及系统
技术领域
本发明属于数据处理技术领域,尤其涉及一种决策树的构建方法及系统。
背景技术
当前,随着数据量的不断增多,为了有效地对数据进行处理,涌现了不少的数据处理算法。其中,决策树(DecisionTree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。
目前在创建决策树时,通常可以对决策树中节点的样本集进行分析,根据样本集中剩余属性的信息增益来创建决策树。然而,在数据集比较大的时候,在生成树的过程中,某些节点会出现一些特殊的样本集,该样本集会导致剩余属性的信息增益均为0,以致无法选出分裂属性,此时常规的算法则无法生成决策树。
发明内容
有鉴于此,本发明的目的在于提供一种决策树的构建方法及系统,能够应对信息增益为0的情况。
为达到上述目的,本发明提供如下技术方案:
一种决策树的构建方法,所述方法包括:
创建目标节点,所述目标节点对应样本集和剩余属性集;
若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;
若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
进一步地,在创建目标节点之后,所述方法还包括:
若所述目标节点的样本集都在同一个类,将所述目标节点设置为决策树中的叶子节点,并用所述同一个类的类名标记所述目标节点。
进一步地,在创建目标节点之后,所述方法还包括:
若所述目标节点的剩余属性集为空,将所述目标节点设置为决策树中的叶子节点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
进一步地,所述方法还包括:
确定所述剩余属性集中具有最高信息增益的目标属性;
根据所述目标属性的属性值生成分支节点;其中,生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集;生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。
一种决策树的构建系统,所述系统包括:
目标节点创建单元,用于创建目标节点,所述目标节点对应样本集和剩余属性集;
同属性值处理单元,用于若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;
同取值比例处理单元,用于若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
进一步地,所述系统还包括:
同类处理单元,用于若所述目标节点的样本集都在同一个类,将所述目标节点设置为决策树中的叶子节点,并用所述同一个类的类名标记所述目标节点。
进一步地,所述系统还包括:
空集处理单元,用于若所述目标节点的剩余属性集为空,将所述目标节点设置为决策树中的叶子节点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
进一步地,所述系统还包括:
最高信息增益确定单元,用于确定所述剩余属性集中具有最高信息增益的目标属性;
分支节点生成单元,用于根据所述目标属性的属性值生成分支节点;其中,生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集;生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。
本发明的有益效果在于:
本发明针对信息增益为0的情况进行分析,产生了两种信息增益为0的场景:一种是各分类属性的属性值唯一,此时各分类属性作为测试属性时,信息增益为0,无法选出信息增益最高的属性;另一种是对于当前节点,结果属性中各取值的样本比例与各分支节点的结果属性中各取值的样本比例一致,同样无法选出信息增益最高的属性。基于这两种情况,本发明均确定了创建的目标节点的类型并且确定了标记的方式,从而解决了在信息增益为0时无法继续生成决策树的问题。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本申请中决策树的创建方法流程图;
图2为本申请中取值比例相同的示意图;
图3为本申请中决策树的创建系统结构示意图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
请参阅图1,本申请提供一种决策树的创建方法,所述方法包括:
S1:创建目标节点,所述目标节点对应样本集和剩余属性集;
S2:若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;
S3:若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
其中,信息增益为0的情况可以分为两种。请参阅表1,一种是个分类属性的属性值唯一,此时各分类属性作为测试属性时,信息增益均为0,从而无法选出信息增益最高的属性。
表1信息增益为0的第一种情况
由表1可见,每个分类属性的属性值均唯一且相同,那么则无法选出信息增益最高的属性。
请参阅图2,另一种信息增益为0的情况是对于当前节点,结果属性中各取值的样本比例与各分支节点的结果属性中各取值的样本比例一致。在图2中,结果属性中有两个取值,一个是变化,另一个是未变化,这两种取值的样本比例均与下方各个分支节点的结果属性中两种取值的样本比例一致,同样无法选出信息增益最高的属性。
上述两种情况采用常规的决策树创建的方式均无法继续进行,而本发明针对这两种情况,均将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类,从而保证决策树能够正常创建。
在本实施方式中,在创建目标节点之后,所述方法还包括:
若所述目标节点的样本集都在同一个类,将所述目标节点设置为决策树中的叶子节点,并用所述同一个类的类名标记所述目标节点。
在本实施方式中,在创建目标节点之后,所述方法还包括:
若所述目标节点的剩余属性集为空,将所述目标节点设置为决策树中的叶子节点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
在本实施方式中,所述方法还包括:
确定所述剩余属性集中具有最高信息增益的目标属性;
根据所述目标属性的属性值生成分支节点;其中,生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集;生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。
请参阅图3,本申请还提供一种决策树的构建系统,所述系统包括:
目标节点创建单元100,用于创建目标节点,所述目标节点对应样本集和剩余属性集;
同属性值处理单元200,用于若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;
同取值比例处理单元300,用于若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
在本实施方式中,所述系统还包括:
同类处理单元,用于若所述目标节点的样本集都在同一个类,将所述目标节点设置为决策树中的叶子节点,并用所述同一个类的类名标记所述目标节点。
在本实施方式中,所述系统还包括:
空集处理单元,用于若所述目标节点的剩余属性集为空,将所述目标节点设置为决策树中的叶子节点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
在本实施方式中,所述系统还包括:
最高信息增益确定单元,用于确定所述剩余属性集中具有最高信息增益的目标属性;
分支节点生成单元,用于根据所述目标属性的属性值生成分支节点;其中,生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集;生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。
本发明的有益效果在于:
本发明针对信息增益为0的情况进行分析,产生了两种信息增益为0的场景:一种是各分类属性的属性值唯一,此时各分类属性作为测试属性时,信息增益为0,无法选出信息增益最高的属性;另一种是对于当前节点,结果属性中各取值的样本比例与各分支节点的结果属性中各取值的样本比例一致,同样无法选出信息增益最高的属性。基于这两种情况,本发明均确定了创建的目标节点的类型并且确定了标记的方式,从而解决了在信息增益为0时无法继续生成决策树的问题。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (8)

1.一种决策树的构建方法,其特征在于,所述方法包括:
创建目标节点,所述目标节点对应样本集和剩余属性集;
若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;
若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
2.根据权利要求1所述的方法,其特征在于,在创建目标节点之后,所述方法还包括:
若所述目标节点的样本集都在同一个类,将所述目标节点设置为决策树中的叶子节点,并用所述同一个类的类名标记所述目标节点。
3.根据权利要求1所述的方法,其特征在于,在创建目标节点之后,所述方法还包括:
若所述目标节点的剩余属性集为空,将所述目标节点设置为决策树中的叶子节点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述剩余属性集中具有最高信息增益的目标属性;
根据所述目标属性的属性值生成分支节点;其中,生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集;生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。
5.一种决策树的构建系统,其特征在于,所述系统包括:
目标节点创建单元,用于创建目标节点,所述目标节点对应样本集和剩余属性集;
同属性值处理单元,用于若所述目标节点的样本集中与所述剩余属性集中对应的属性均只取一个属性值,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类;
同取值比例处理单元,用于若所述目标节点的剩余属性集中作为分裂属性生成的各分支节点的类别属性的取值比例均与所述目标节点一致,将所述目标节点设置为决策树中的决策点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
6.根据权利要求5所述的系统,其特征在于,所述系统还包括:
同类处理单元,用于若所述目标节点的样本集都在同一个类,将所述目标节点设置为决策树中的叶子节点,并用所述同一个类的类名标记所述目标节点。
7.根据权利要求5所述的系统,其特征在于,所述系统还包括:
空集处理单元,用于若所述目标节点的剩余属性集为空,将所述目标节点设置为决策树中的叶子节点,并根据多数表决原则,将所述目标节点标记为样本集中最普通的类。
8.根据权利要求5所述的系统,其特征在于,所述系统还包括:
最高信息增益确定单元,用于确定所述剩余属性集中具有最高信息增益的目标属性;
分支节点生成单元,用于根据所述目标属性的属性值生成分支节点;其中,生成的所述分支节点的样本集为所述目标节点的样本集中具有最高信息增益的属性取所述目标属性的属性值时所对应的子样本集;生成的所述分支节点的剩余属性集为所述目标节点的剩余属性集中删除所述目标属性后得到的新的剩余属性集。
CN201710157040.0A 2017-03-16 2017-03-16 一种决策树的构建方法及系统 Pending CN106934423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710157040.0A CN106934423A (zh) 2017-03-16 2017-03-16 一种决策树的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710157040.0A CN106934423A (zh) 2017-03-16 2017-03-16 一种决策树的构建方法及系统

Publications (1)

Publication Number Publication Date
CN106934423A true CN106934423A (zh) 2017-07-07

Family

ID=59432625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710157040.0A Pending CN106934423A (zh) 2017-03-16 2017-03-16 一种决策树的构建方法及系统

Country Status (1)

Country Link
CN (1) CN106934423A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170866A (zh) * 2018-01-30 2018-06-15 深圳市茁壮网络股份有限公司 一种样本查找方法及装置
CN109188330A (zh) * 2018-08-30 2019-01-11 云南电力试验研究院(集团)有限公司 一种配电网故障指示器的故障诊断方法及系统
CN110069929A (zh) * 2019-04-18 2019-07-30 北京神州绿盟信息安全科技股份有限公司 漏洞处置分析方法及其分析模型的构建方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170866A (zh) * 2018-01-30 2018-06-15 深圳市茁壮网络股份有限公司 一种样本查找方法及装置
CN108170866B (zh) * 2018-01-30 2022-03-11 深圳市茁壮网络股份有限公司 一种样本查找方法及装置
CN109188330A (zh) * 2018-08-30 2019-01-11 云南电力试验研究院(集团)有限公司 一种配电网故障指示器的故障诊断方法及系统
CN110069929A (zh) * 2019-04-18 2019-07-30 北京神州绿盟信息安全科技股份有限公司 漏洞处置分析方法及其分析模型的构建方法和装置

Similar Documents

Publication Publication Date Title
CN104281882B (zh) 基于用户特征的预测社交网络信息流行度的方法及系统
CN108182245A (zh) 人对象属性分类知识图谱的构建方法及装置
WO2022247955A1 (zh) 非正常账号识别方法、装置、设备和存储介质
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN105824862A (zh) 一种基于电子设备的图片分类方法及电子设备
TWI673617B (zh) 使用者背景資訊的收集方法及裝置
CN108763376A (zh) 融合关系路径、类型、实体描述信息的知识表示学习方法
CN109885693B (zh) 基于知识图谱的快速知识对比方法及系统
CN103150383B (zh) 一种短文本数据的事件演化分析方法
CN105677640A (zh) 一种面向开放文本的领域概念抽取方法
CN102122280A (zh) 一种智能提取内容对象的方法及系统
CN117934891B (zh) 一种基于图结构的图像对比聚类方法及系统
CN112528845A (zh) 一种基于深度学习的物理电路图识别方法及其应用
CN107330020A (zh) 一种基于结构和属性相似度的用户实体解析方法
CN106934423A (zh) 一种决策树的构建方法及系统
CN105956158A (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN113052712A (zh) 社交数据的分析方法、系统及存储介质
CN116235165A (zh) 一种智能提供推荐信息的方法和装置
CN104915680A (zh) 基于改进型rbf神经网络的多标签蜕变关系预测方法
CN113554172B (zh) 基于案例文本的裁判规则知识抽取方法及系统
CN111159411A (zh) 一种融合知识图谱的文本立场分析方法、系统及存储介质
CN118839191A (zh) 一种基于数据中台的数据分类方法
CN119046472A (zh) 知识图谱中实体类型的更新方法、装置和计算机设备
CN104462448A (zh) 一种分组名分类方法及装置
CN106776529B (zh) 业务情感分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707