CN102054002A - 一种数据挖掘系统中决策树的生成方法及装置 - Google Patents

一种数据挖掘系统中决策树的生成方法及装置 Download PDF

Info

Publication number
CN102054002A
CN102054002A CN2009102367476A CN200910236747A CN102054002A CN 102054002 A CN102054002 A CN 102054002A CN 2009102367476 A CN2009102367476 A CN 2009102367476A CN 200910236747 A CN200910236747 A CN 200910236747A CN 102054002 A CN102054002 A CN 102054002A
Authority
CN
China
Prior art keywords
data
unfiled
attribute
candidate nodes
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009102367476A
Other languages
English (en)
Inventor
邓超
徐萌
高丹
罗治国
周文辉
孙少陵
肖建明
段云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN2009102367476A priority Critical patent/CN102054002A/zh
Publication of CN102054002A publication Critical patent/CN102054002A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据挖掘系统中决策树的生成方法及装置,主要技术方案包括:A、遍历设定数据集合,确定决策树当前层每个候选节点分别对应的未分类数据集;B、根据确定的未分类数据属性,确定每个候选节点分别对应的数据属性的属性值;C、根据确定的属性值,分别生成每个节点的决策树分支;D、分别判断每个决策树分支下节点对应的未分类数据集中的数据是否为预先确定的设定数据属性的同一属性值,将判断结果为否的节点确定为当前层的下一层的候选节点,并将下一层作为当前层返回步骤A,将判断结果为是的节点分别确定为其所在分支的最后一个节点。根据该技术方案,减少了遍历数据集合的次数,从而提高了计算效率,减少了对系统资源的占用。

Description

一种数据挖掘系统中决策树的生成方法及装置
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种数据挖掘系统中决策树的生成方法及装置。
背景技术
数据挖掘又称数据库中的知识发现,是指从大量的不完全的、有噪声的、模糊的数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。
数据挖掘的一个重要功能是数据分类,数据分类是指将数据映射到预先定义好的群组或类,目前常用的分类方法为基于决策树的方法,用决策树进行分类,生成规则易于理解并且高效,由于树的规模独立于数据库规模,所以决策树对于大规模数据库具有很好的扩展性。决策树是以实例为基础的归纳学习算法,它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则,采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,叶节点是要学习划分的类。决策树中叶子节点代表实例样本所属的分类类别。树上的每一个非叶子节点指定了对实例的某个决策属性的测试,并且该节点的每一个后继分支对应于该决策属性的一个可能值,从根到叶节点的一条路径就对应着一条合取规则,整个决策数就对应着一组析取表达式规则。
用决策树进行分类主要包括两个步骤:第一步是利用训练集生成一棵决策树,建立决策树模型,这个过程实际上是一个从数据中获取知识,进行机器学习的过程;第二步是利用生成的决策树对输入数据进行分类,对输入的纪录,从根节点依次测试记录的属性值,直到到达某个叶子节点,从而找到该记录所在的类。基本的决策树生成方法是通过自顶向下增长节点实现的,其核心是为每个节点选取能最佳分类当前数据集的属性,成为该节点的决策属性。常用的ID3和C4.5等决策树生成算法,都以每个候选属性的信息增益值来衡量其分类能力,决策树上每个节点选择候选属性中具有最高信息增益值的属性为最佳分类属性,成为该节点的决策属性。需要指出的是,为得到特定候选属性的信息增益值,需要统计待分类数据集中该属性每个属性值对应不同分类类别的频度,进而计算该属性的信息熵以及信息增益值。这是决策树生成过程中最主要的计算阶段。
如图1所示,现有决策树生成方法的基本流程为:
步骤101、重复遍历全部数据集,依次计算每个候选属性的信息增益值。
如图所示,该步骤中,首先通过遍历全部数据集计算第1个候选属性的信息增益值,然后通过遍历全部数据集计算第2个候选属性的信息增益值,依此类推,最后通过遍历全部数据集计算最后一个候选属性的信息增益值。
步骤102、选择具有最大信息增益值的候选属性为全部数据集对应的决策属性,成为决策树根节点。
步骤103、依次为根节点决策属性的每个属性值产生一个分支,并得到决策属性各属性值对应的未分类数据子集,按照递归方式建立各属性值对应的分支的决策子树。
如图所示,该步骤中,首先得到决策属性第1个属性值对应的未分类数据子集并按照递归方式建立第1个属性值对应的分支的决策子树,然后得到决策属性第2个属性值对应的未分类数据子集并按照递归方式建立第2个属性值对应的分支的决策子树,依此类推,最后得到决策属性最后1个属性值对应的未分类数据子集并按照递归方式建立最后1个属性值对应的分支的决策子树。
其中,步骤101中,计算一个候选属性的信息增益值的过程如图2所示,包括步骤:
步骤201、重复遍历全部数据集,依次确定当前候选属性各属性值对应不同分类类别的频度;
如图所示,该步骤中,首先通过遍历全部数据集确定当前候选属性第1个属性值对应不同分类类别的频度,然后通过遍历全部数据集确定当前候选属性第2个属性值对应不同分类类别的频度,依此类推,最后通过遍历全部数据集确定当前候选属性最后1个属性值对应不同分类类别的频度。
步骤202、合并该候选属性各属性值对应的频度,计算该候选属性的信息熵;
步骤203、根据该候选属性的信息熵计算该候选属性的信息增益值。
以上决策树生成方法中,在为根节点选择决策属性时,需要多次重复遍历全部数据集,当数据集为海量数据时,执行效率低,且易造成存储资源占用严重,系统性能降低;并且,计算多个候选属性的信息增益值时,采用依次顺序求解的串行方式,计算效率低,且无法充分利用系统的计算资源。
针对以上问题,现有技术提出了一种决策树生成的MapReduce局部并行化方案,该方案对决策树生成基本方法中计算单个候选属性的信息增益值的过程(上述步骤201~步骤203)进行了改进,通过将数据分块存储,并利用MapReduce分块并行方式执行各候选属性的信息增益值的计算过程,提高了计算效率。如图3所示,具体包括如下步骤:
步骤301、将数据分布存储到多个PC机器组成的分布式集群环境中;
步骤302、遍历全部数据集,分块并行计算当前候选属性每个属性值分别对应不同分类类别的频度;
步骤303、分块合并该候选属性各属性值对应的频度,计算该候选属性的信息熵;
步骤304、根据该候选属性的信息熵计算该候选属性的信息增益值。
通过上述方案,解决了在确定候选属性信息增益值时需要多次重复遍历全部数据集而导致计算效率低的问题,但仍然存在如下问题:
1、各个候选属性间信息增益值的确定过程仍是顺次串行执行,每计算一个候选属性的信息增益值仍然需要遍历一次数据全集,计算效率低,并且占用存储资源多;
2、决策属性值对应的分支下决策子树的构建,仍是采用深度优先的递归方式,执行效率低,资源占用多,并且需要系统提供大量内存资源记录递归环境。
综上所述,现有基于决策树的数据分类方案中,由于决策树生成过程中各个候选属性间信息增益值的确定过程顺次串行执行,并且决策属性值对应的分支下决策子树的构建采用深度优先的递归策略,导致计算效率低,并且占用系统资源多。
发明内容
有鉴于此,本发明实施例提供一种数据挖掘系统中决策树的生成方法及装置,用于解决现有技术生成决策树的过程计算效率低以及占用系统资源多的问题。
本发明实施例通过如下技术方案实现:
根据本发明实施例的一个方面,提供了一种数据挖掘系统中决策树的生成方法。
根据本发明实施例提供的数据挖掘系统中决策树的生成方法,包括:
A、遍历设定数据集合,确定决策树当前层每个候选节点分别对应的未分类数据集;
B、根据所述每个候选节点分别对应的未分类数据集的未分类数据属性,确定所述每个候选节点分别对应的数据属性的属性值;
C、根据所述每个候选节点分别对应的属性值,分别生成所述每个节点的决策树分支;
D、分别判断每个所述决策树分支下的节点对应的未分类数据集中的数据是否为预先确定的设定数据属性的同一属性值,将判断结果为否的决策树分支下的节点确定为当前层的下一层的候选节点,并将所述下一层作为当前层返回步骤A,将判断结果为是的决策树分支下的节点分别确定为其所在分支的最后一个节点。
根据本发明实施例的另一个方面,还提供了一种数据挖掘系统中决策树的生成装置。
根据本发明实施例提供的数据挖掘系统中决策树的生成装置,包括:
未分类数据集确定单元,用于遍历设定数据集合,确定决策树当前层每个候选节点分别对应的未分类数据集;
属性值确定单元,用于根据所述未分类数据集确定单元确定的每个候选节点分别对应的未分类数据集的未分类数据属性,确定所述每个候选节点分别对应的数据属性的属性值;
决策树分支确定单元,用于根据所述属性值确定单元确定的每个候选节点分别对应的属性值,分别生成所述每个节点的决策树分支;
判断单元,用于分别判断所述决策树分支确定单元确定的每个所述决策树分支下的节点对应的未分类数据集中的数据是否为预先确定的设定数据属性的同一属性值,将判断结果为否的决策树分支下的节点确定为当前层的下一层的候选节点,并将所述下一层确定为当前层控制所述未分类数据集确定单元执行决策树当前层每个候选节点分别对应的未分类数据集的操作,将判断结果为是的决策树分支下的节点分别确定为其所在分支的最后一个节点。
通过本发明实施例提供的上述至少一个技术方案,遍历设定数据集合,确定决策树当前层每个候选节点分别对应的未分类数据集,根据所述每个候选节点分别对应的未分类数据集的未分类数据属性,并行确定所述每个候选节点分别对应的数据属性的属性值,根据所述每个候选节点分别对应的属性值,分别生成所述每个节点的决策树分支,分别判断每个所述决策树分支下的节点对应的未分类数据集中的数据是否为预先确定的设定数据属性的同一属性值,将判断结果为否的决策树分支下的节点确定为当前层的下一层的候选节点,将判断结果为是的决策树分支下的节点分别确定为其所在分支的最后一个节点。通过该技术方案,决策树的生成过程从根节点开始一层一层向下生成,即遍历一次数据集合,能够并行确定决策树处于同一层的所有候选节点的数据属性,与现有技术采用的深度优先的递归方式相比,减少了遍历数据集合的次数,从而提高了计算效率,减少了对系统资源的占用。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明背景技术中决策树生成方法的基本流程图;
图2为本发明背景技术中计算一个候选属性的信息增益值的流程图;
图3为本发明背景技术中计算一个候选属性的信息增益值的改进流程图;
图4为本发明实施例中数据挖掘系统中决策树的生成方法流程图一;
图5为本发明实施例中数据挖掘系统中决策树的生成方法流程图二;
图6为本发明实施例中分布式集群系统中各PC机节点间的存储和计算关系示意图;
图7为本发明实施例中决策树示意图;
图8为本发明实施例中数据挖掘系统中决策树的生成装置示意图。
具体实施方式
为了给出提高数据分类效率以及提高系统性能的实现方案,本发明实施例提供了一种数据挖掘系统中决策树的生成方法及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
根据本发明实施例,首先提供了一种数据挖掘系统中决策树的生成方法,如图4所示,包括:
步骤401、遍历设定数据集合,确定决策树当前层每个候选节点(也可称为待分裂节点)分别对应的未分类数据集;
步骤402、根据每个候选节点分别对应的未分类数据集的未分类数据属性(也可称为未分类候选属性),确定每个候选节点分别对应的数据属性;
步骤403、确定每个候选节点分别对应的数据属性的属性值,并根据每个候选节点分别对应的数据属性的属性值,分别生成每个节点的决策树分支;
步骤404、分别判断每个决策树分支下的节点对应的未分类数据集是否对应预先确定的设定数据属性(也可称为分类属性)的同一属性值,将判断结果为否的决策树分支下的节点确定为当前层的下一层的候选节点,并将下一层作为当前层返回步骤A,若是,则执行步骤405;
步骤405、将判断结果为是的决策树分支下的节点分别确定为其所在分支的最后一个节点。
其中,上述步骤401中,若当前层为决策树的第一层(即决策树根节点),则当前层包括一个候选节点,并且该候选节点对应的未分类数据集为设定数据集合中的全部数据;若当前层为决策树第一层与最后一层之间的层,则当前层包括至少一个候选节点并且各候选节点对应的未分类数据集为该设定数据集合中符合各候选节点所在分支对应属性值的数据集合,例如,当前层为第二层,有2个候选节点,分别对应第一层根节点对应属性的属性值A以及属性值B,则这2个候选节点对应的未分类数据集分别为设定数据集合中满足属性值A的数据集合以及满足属性值B的数据集合。
本发明实施例生成的决策树一般都应用于数据分类,基于此需求,会预先确定要得到的分类类别的数据属性以及属性值,即归属于同一类别的数据对应同一数据属性的属性值,根据本发明实施例,上述步骤404中,预先确定的设定数据属性即为该设定数据集合对应的数据属性中的一种。
相应地,若步骤401中的当前层为决策树的第一层根节点,则为该根节点确定数据属性时所对应的未分类数据属性为选定的设定数据集合对应的数据属性中除该设定数据属性以外的数据属性;若步骤401中的当前层为决策树第一层与最后一层之间的层,则为该层各候选节点确定数据属性时对应的未分类数据属性为选定的设定数据集合对应的数据属性中除该设定数据属性以及该候选节点所在分支各节点分别对应的数据属性以外的数据属性,例如,当前层为决策树的第三层,选定的设定数据集合包括A、B、C、D、E五种数据属性,其中,选定的最终得到的分类类别对应的数据属性为A属性,该层中的一个候选节点所在分支各节点(即第一层根节点以及第二层节点)对应的数据属性分别为B、E属性,则该候选节点对应的未分类数据属性包括:C属性和D属性。
上述步骤402中,可以采用串行或并行方式确定每个候选节点分别对应的数据属性的属性值,较佳地,为了提高处理速度,以并行的方式确定决策树中同一层每个候选节点分别对应的数据属性,其中,根据候选节点对应的未分类数据集的一个未分类数据属性确定该候选节点对应的数据属性的具体过程如下:
以并行方式确定该候选节点对应的未分类数据集的各未分类数据属性的信息增益值;并确定具有最大信息增益值的数据属性为该候选节点对应的数据属性。
其中,确定候选节点对应的未分类数据集的一个未分类数据属性的信息增益值的过程包括:
以并行方式计算未分类数据属性的各属性值对应设定类别的频度;并根据计算得到的频度,确定该未分类数据属性对应的信息熵,并根据该信息熵确定该未分类数据属性的信息增益值。
实际应用中,一般数据挖掘都面临海量数据,根据本发明实施例,首先将数据分布存储到多个PC机器组成的分块分布环境中,有多个PC分块扫描数据生成对应的决策树,其中,每个PC中执行的过程如图5所示,包括如下步骤:
步骤501、分块并行计算根节点对应的未分类数据属性的每个属性值对应设定分类类别的频度;
步骤502、分块并行合并具有相同候选属性的不同属性值的频度统计项,分块并行汇总计算各分类数据属性的信息熵,并根据各未分类数据属性的信息熵计算各未分类数据属性的信息增益值;
步骤503、将所有未分类数据属性的信息增益值按从大到小的顺序排列,选择具有最大信息增益值的未分类数据属性作为决策树根节点对应的数据属性;
步骤504、根据根节点对应的数据属性的属性值生成决策树的下层分支;
步骤505、确定下层分支节点对应的未分类数据集对应预先确定的设定数据属性同一属性值的节点为该分支的组后一个叶节点,并确定下层分支节点对应的未分类数据集对应预先确定的设定数据属性不同属性值的节点为第二层候选节点;
重复步骤502~步骤505依次确定决策树第二层~最后一层各候选节点对应的数据属性,直到各分支下节点对应的未分类数据集对应预先确定的设定数据属性同一属性值,完成决策树的构建过程。
对应上述决策树生成过程,分布式集群系统中各PC机节点间的存储和计算关系如图6所示,其中:
在步骤601中,总控节点负责将海量数据分割为块,并分布式存储于各PC节点。
各PC节点对各分块数据子集并行执行计算,确定同一层内各分支子树对应节点的数据属性,按照计算任务的不同分为Map计算节点和Reduce计算节点。其中:
在步骤602中,对应上述流程的步骤501,每个Map计算节点,按照总控节点的指派,负责遍历1个分块数据子集中每行记录,并为每行记录映射产生一个形式为:<分支编号,未分类数据属性名,属性值,类别标记,1>的单位向量,然后对这些单位向量进行局部汇总,输出形式为:<分支编号,未分类数据属性名,属性值,类别标记,频度>的频度统计向量,即该分块数据子集中所有未分类数据属性的每个属性值对应的频度统计项。
在步骤603中,对应上述流程中的步骤502,每个reduce计算节点,收集所有Map计算节点产生的频度统计向量,汇总具有相同<分支编号、未分类数据属性名>的频度统计向量子集,进而计算特定分支下特定未分类数据属性名对应的信息熵和信息增益值,输出<分支编号、未分类数据属性名、信息增益值>的向量;
在步骤604中,对应上述流程中的步骤503,每个reduce计算节点,对所有<分支编号、未分类数据属性名、信息增益值>向量收集,并计算具有相同<分支编号>的向量子集,按照信息增益值排序,并返回最大信息增益值对应的未分类数据属性名<分支编号、数据属性名>,即成为该分支下节点对应的数据属性。
为了更好地理解本发明实施例提供的决策树的生成方法,以下结合具体实例进一步对本发明实施例提供的决策树生成过程进行说明:
确定的数据集如下表所示:
  序号   性别   年龄   收入   婚否   出境旅游状况
  1   男   38   4000   是   否
  2   男   40   3000   是   是
  3   女   31   6000   是   否
  4   男   29   10000   否   否
  5   男   31   4000   是   是
  6   女   32   4000   是   是
  7   女   31   3000   是   是
  8   女   40   3000   是   是
  9   男   64   1500   是   是
根据数据分类的需要,最终要得到的数据分类对应“出境旅游状况”数据属性的两个属性值,即出境旅游和未出境旅游,如上表,数据集合中各条数据对应的数据属性包括:“性别”、“年龄”、“收入”、“婚否”以及“出境旅游状况”,其中,“出境旅游状况”属性作为最终要得到的分类对应的数据属性,因此,后续确定决策树各节点时对应的数据属性中不包括该“出境旅游属性”。
根据本发明实施例提供的上述方法,结合上表中数据得到各数据属性对应的信息增益值如下:
Gain(s,sex)=0.038    Gain(s,age)=0.326
Gain(s,sal)=0.399    Gain(s,mer)=0.218
显然,“收入(sal)”属性具有最大的信息增益值,因此,确定决策树根节点对应的数据属性为“收入(Salary)”;
然后确定“收入”数据属性对应的属性值,即“>=4000”以及“<4000”,并分别产生这两个属性值的分支,然后根据上述方法选择下层节点对应的数据属性,最终得到的决策树如图7所示,其中,确定第二层两个节点分别对应“Marrage(婚否)”属性、“Sex(性别)”属性,在属性为“Marriage”对应的“NO”属性值分支下,对应的未分类数据集都对应“出境旅游状况”的“否”属性值,因此,该分支达到数据分类要求的类别,无需再向下延伸,同理,在属性为“Sex”对应的“女”属性值分支下,对应的未分类数据集都对应“出境旅游状况”的“是”属性值,因此,该分支达到数据分类要求的类别,无需再向下延伸;决策树的后续层也都基于第二层决策树的生成原理,此处不再一一描述。
与上述流程对应,本发明实施例还提供了一种数据挖掘系统中决策树的生成装置,如图8所示,该装置包括:
未分类数据集确定单元801、属性值确定单元802、决策树分支确定单元803以及判断单元804;
其中:
未分类数据集确定单元801,用于遍历设定数据集合,确定决策树当前层每个候选节点分别对应的未分类数据集;
属性值确定单元802,用于根据未分类数据集确定单元801确定的每个候选节点分别对应的未分类数据集的未分类数据属性,确定每个候选节点分别对应的数据属性的属性值;
决策树分支确定单元803,用于根据属性值确定单元802确定的每个候选节点分别对应的属性值,分别生成每个节点的决策树分支;
判断单元804,用于分别判断所述决策树分支确定单元803确定的每个决策树分支下的节点对应的未分类数据集中的数据是否为预先确定的设定数据属性的同一属性值,将判断结果为否的决策树分支下的节点确定为当前层的下一层的候选节点,并将所述下一层确定为当前层控制未分类数据集确定单元801执行决策树当前层每个候选节点分别对应的未分类数据集的操作,将判断结果为是的决策树分支下的节点分别确定为其所在分支的最后一个节点。
进一步地,本发明一个实施例中,上述属性值确定单元802包括:属性确定模块以及属性值确定模块(未在图中标出);其中:
属性确定模块,用于根据每个候选节点分别对应的未分类数据集的未分类数据属性,以并行方式确定所述每个候选节点分别对应的数据属性;
属性值确定模块,用于确定每个候选节点分别对应的数据属性的属性值。
上述属性值确定单元802在确定一个候选节点对应的数据属性时,具体用于:
以并行方式确定候选节点对应的未分类数据集的各未分类数据属性的信息增益值,并确定具有最大信息增益值的数据属性为该候选节点对应的数据属性。
进一步地,本发明一个实施例中,上述属性确定模块在确定所述候选节点对应的未分类数据集的一个未分类数据属性的信息增益值时,具体用于:
以并行方式计算未分类数据属性的各属性值对应设定类别的频度,并根据计算得到的所述频度,确定所述未分类数据属性对应的信息熵,并根据所述信息熵确定所述未分类数据属性的信息增益值。
应当理解,该实施例提供的决策树生成装置所实现的功能与上述实施例提供的决策树生成方法流程一一对应,对于该装置各个功能单元所实现的更为详细的处理流程,在上述方法实施例中已做详细描述,此处不再详细描述。
通过本发明实施例提供的上述至少一个技术方案,遍历设定数据集合,确定决策树当前层每个候选节点分别对应的未分类数据集,根据所述每个候选节点分别对应的未分类数据集的未分类数据属性,并行确定所述每个候选节点分别对应的数据属性的属性值,根据所述每个候选节点分别对应的属性值,分别生成所述每个节点的决策树分支,分别判断每个所述决策树分支下的节点对应的未分类数据集中的数据是否为预先确定的设定数据属性的同一属性值,将判断结果为否的决策树分支下的节点确定为当前层的下一层的候选节点,将判断结果为是的决策树分支下的节点分别确定为其所在分支的最后一个节点。通过该技术方案,决策树的生成过程从根节点开始一层一层向下生成,即遍历一次数据集合,能够并行确定决策树处于同一层的所有候选节点的数据属性,与现有技术采用的深度优先的递归方式相比,减少了遍历数据集合的次数,从而提高了计算效率,减少了对系统资源的占用。
本发明实施例中,确定各未分类数据属性的信息增益值的过程也采用并行方式,与现有技术采用的串行方式相比,减少了遍历数据集合的次数,从而进一步提高了计算效率,减少了对系统资源的占用。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (11)

1.一种数据挖掘系统中决策树的生成方法,其特征在于,包括:
A、遍历设定数据集合,确定决策树当前层每个候选节点分别对应的未分类数据集;
B、根据所述每个候选节点分别对应的未分类数据集的未分类数据属性,确定所述每个候选节点分别对应的数据属性的属性值;
C、根据所述每个候选节点分别对应的属性值,分别生成所述每个节点的决策树分支;
D、分别判断每个所述决策树分支下的节点对应的未分类数据集中的数据是否为预先确定的设定数据属性的同一属性值,将判断结果为否的决策树分支下的节点确定为当前层的下一层的候选节点,并将所述下一层作为当前层返回步骤A,将判断结果为是的决策树分支下的节点分别确定为其所在分支的最后一个节点。
2.如权利要求1所述的方法,其特征在于,若当前层为所述决策树的第一层,则当前层包括一个候选节点并且所述候选节点对应的未分类数据集为所述设定数据集合;
若当前层为所述决策树第一层与最后一层之间的层,则当前层包括至少一个候选节点并且所述候选节点对应的未分类数据集为所述设定数据集合中符合所述候选节点所在分支对应属性值的数据集合。
3.如权利要求1所述的方法,其特征在于,所述预先确定的设定数据属性为所述数据集合对应的数据属性中的一种。
4.如权利要求3所述的方法,其特征在于,若当前层为所述决策树的第一层,则所述未分类数据属性为所述数据集合对应的数据属性中除所述设定数据属性以外的数据属性;
若当前层为所述决策树第一层与最后一层之间的层,则所述未分类数据属性为所述数据集合对应的数据属性中除所述设定数据属性以及所述候选节点所在分支各节点分别对应的数据属性以外的数据属性。
5.如权利要求1所述的方法,其特征在于,所述根据所述每个候选节点分别对应的未分类数据集的未分类数据属性,确定所述每个候选节点分别对应的数据属性的属性值,包括:
根据所述每个候选节点分别对应的未分类数据集的未分类数据属性,以并行方式确定所述每个候选节点分别对应的数据属性;以及,
确定所述每个候选节点分别对应的数据属性的属性值。
6.如权利要求5所述的方法,其特征在于,确定一个候选节点对应的数据属性,包括:
以并行方式确定所述候选节点对应的未分类数据集的各未分类数据属性的信息增益值;
确定具有最大信息增益值的数据属性为所述候选节点对应的数据属性。
7.如权利要求6所述的方法,其特征在于,确定所述候选节点对应的未分类数据集的一个未分类数据属性的信息增益值,包括:
以并行方式计算所述未分类数据属性的各属性值对应设定类别的频度;
根据计算得到的所述频度,确定所述未分类数据属性对应的信息熵,并根据所述信息熵确定所述未分类数据属性的信息增益值。
8.一种数据挖掘系统中决策树的生成装置,其特征在于,包括:
未分类数据集确定单元,用于遍历设定数据集合,确定决策树当前层每个候选节点分别对应的未分类数据集;
属性值确定单元,用于根据所述未分类数据集确定单元确定的每个候选节点分别对应的未分类数据集的未分类数据属性,确定所述每个候选节点分别对应的数据属性的属性值;
决策树分支确定单元,用于根据所述属性值确定单元确定的每个候选节点分别对应的属性值,分别生成所述每个节点的决策树分支;
判断单元,用于分别判断所述决策树分支确定单元确定的每个所述决策树分支下的节点对应的未分类数据集中的数据是否为预先确定的设定数据属性的同一属性值,将判断结果为否的决策树分支下的节点确定为当前层的下一层的候选节点,并将所述下一层确定为当前层控制所述未分类数据集确定单元执行决策树当前层每个候选节点分别对应的未分类数据集的操作,将判断结果为是的决策树分支下的节点分别确定为其所在分支的最后一个节点。
9.如权利要求8所述的装置,其特征在于,所述属性值确定单元包括:
属性确定模块,用于根据所述每个候选节点分别对应的未分类数据集的未分类数据属性,以并行方式确定所述每个候选节点分别对应的数据属性;
属性值确定模块,用于确定所述每个候选节点分别对应的数据属性的属性值。
10.如权利要求9所述的装置,其特征在于,所述属性确定模块在确定一个候选节点对应的数据属性时,具体用于:
以并行方式确定所述候选节点对应的未分类数据集的各未分类数据属性的信息增益值,并确定具有最大信息增益值的数据属性为所述候选节点对应的数据属性。
11.如权利要求10所述的装置,其特征在于,所述属性确定模块在确定所述候选节点对应的未分类数据集的一个未分类数据属性的信息增益值时,具体用于:
以并行方式计算所述未分类数据属性的各属性值对应设定类别的频度,并根据计算得到的所述频度,确定所述未分类数据属性对应的信息熵,并根据所述信息熵确定所述未分类数据属性的信息增益值。
CN2009102367476A 2009-10-28 2009-10-28 一种数据挖掘系统中决策树的生成方法及装置 Pending CN102054002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102367476A CN102054002A (zh) 2009-10-28 2009-10-28 一种数据挖掘系统中决策树的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102367476A CN102054002A (zh) 2009-10-28 2009-10-28 一种数据挖掘系统中决策树的生成方法及装置

Publications (1)

Publication Number Publication Date
CN102054002A true CN102054002A (zh) 2011-05-11

Family

ID=43958336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102367476A Pending CN102054002A (zh) 2009-10-28 2009-10-28 一种数据挖掘系统中决策树的生成方法及装置

Country Status (1)

Country Link
CN (1) CN102054002A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214213A (zh) * 2011-05-31 2011-10-12 中国科学院计算技术研究所 一种采用决策树的数据分类方法和系统
CN102436506A (zh) * 2011-12-27 2012-05-02 Tcl集团股份有限公司 一种网络服务器端海量数据的处理方法及装置
CN102664787A (zh) * 2012-04-01 2012-09-12 华为技术有限公司 决策树的生成方法和装置
CN102710772A (zh) * 2012-06-04 2012-10-03 包丽霞 一种基于云平台的海量数据通讯系统
CN102739778A (zh) * 2012-06-05 2012-10-17 包丽霞 一种云平台下统计分析的实现方法
CN103092889A (zh) * 2011-11-07 2013-05-08 阿里巴巴集团控股有限公司 实体对象的确定方法、条件节点树的建立方法及装置
CN103108343A (zh) * 2011-11-15 2013-05-15 中国移动通信集团设计院有限公司 建立决策树的方法及装置、网络性能优化方法及装置
CN104699768A (zh) * 2015-02-16 2015-06-10 南京邮电大学 一种网络物理系统混合数据分类方法
CN104951472A (zh) * 2014-03-29 2015-09-30 华为技术有限公司 一种基于分布式的数据统计的方法
CN105808582A (zh) * 2014-12-30 2016-07-27 华为技术有限公司 基于分层策略的决策树并行生成方法和装置
CN106250461A (zh) * 2016-07-28 2016-12-21 北京北信源软件股份有限公司 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法
CN106407215A (zh) * 2015-07-31 2017-02-15 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN106452825A (zh) * 2016-07-20 2017-02-22 国网江苏省电力公司南京供电公司 一种基于改进决策树的配用电通信网告警关联分析方法
CN106997488A (zh) * 2017-03-22 2017-08-01 扬州大学 一种结合马尔科夫决策过程的动作知识提取方法
CN107741879A (zh) * 2017-10-19 2018-02-27 郑州云海信息技术有限公司 一种大数据处理方法及其装置
CN108170769A (zh) * 2017-12-26 2018-06-15 上海大学 一种基于决策树算法的装配制造质量数据处理方法
CN108304164A (zh) * 2017-09-12 2018-07-20 马上消费金融股份有限公司 一种业务逻辑的开发方法及开发系统
CN108632269A (zh) * 2018-05-02 2018-10-09 南京邮电大学 基于c4.5决策树算法的分布式拒绝服务攻击检测方法
CN111695588A (zh) * 2020-04-14 2020-09-22 北京迅达云成科技有限公司 一种基于云计算的分布式决策树学习系统

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214213A (zh) * 2011-05-31 2011-10-12 中国科学院计算技术研究所 一种采用决策树的数据分类方法和系统
CN103092889B (zh) * 2011-11-07 2016-01-06 阿里巴巴集团控股有限公司 实体对象的确定方法、条件节点树的建立方法及装置
CN103092889A (zh) * 2011-11-07 2013-05-08 阿里巴巴集团控股有限公司 实体对象的确定方法、条件节点树的建立方法及装置
CN103108343A (zh) * 2011-11-15 2013-05-15 中国移动通信集团设计院有限公司 建立决策树的方法及装置、网络性能优化方法及装置
CN103108343B (zh) * 2011-11-15 2016-01-27 中国移动通信集团设计院有限公司 建立决策树的方法及装置、网络性能优化方法及装置
CN102436506A (zh) * 2011-12-27 2012-05-02 Tcl集团股份有限公司 一种网络服务器端海量数据的处理方法及装置
WO2013149555A1 (zh) * 2012-04-01 2013-10-10 华为技术有限公司 决策树的生成方法和装置
CN102664787B (zh) * 2012-04-01 2014-10-08 华为技术有限公司 决策树的生成方法和装置
US10026039B2 (en) 2012-04-01 2018-07-17 Huawei Technologies Co., Ltd Method and apparatus for generating decision tree
CN102664787A (zh) * 2012-04-01 2012-09-12 华为技术有限公司 决策树的生成方法和装置
CN102710772A (zh) * 2012-06-04 2012-10-03 包丽霞 一种基于云平台的海量数据通讯系统
CN102710772B (zh) * 2012-06-04 2015-09-30 何春涛 一种基于云平台的海量数据通讯系统
CN102739778A (zh) * 2012-06-05 2012-10-17 包丽霞 一种云平台下统计分析的实现方法
WO2015149497A1 (zh) * 2014-03-29 2015-10-08 华为技术有限公司 一种基于分布式的数据统计的方法
CN104951472A (zh) * 2014-03-29 2015-09-30 华为技术有限公司 一种基于分布式的数据统计的方法
CN105808582A (zh) * 2014-12-30 2016-07-27 华为技术有限公司 基于分层策略的决策树并行生成方法和装置
CN104699768A (zh) * 2015-02-16 2015-06-10 南京邮电大学 一种网络物理系统混合数据分类方法
CN106407215A (zh) * 2015-07-31 2017-02-15 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN106452825A (zh) * 2016-07-20 2017-02-22 国网江苏省电力公司南京供电公司 一种基于改进决策树的配用电通信网告警关联分析方法
CN106250461A (zh) * 2016-07-28 2016-12-21 北京北信源软件股份有限公司 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法
CN106997488A (zh) * 2017-03-22 2017-08-01 扬州大学 一种结合马尔科夫决策过程的动作知识提取方法
CN108304164A (zh) * 2017-09-12 2018-07-20 马上消费金融股份有限公司 一种业务逻辑的开发方法及开发系统
CN108304164B (zh) * 2017-09-12 2021-12-03 马上消费金融股份有限公司 一种业务逻辑的开发方法及开发系统
CN107741879A (zh) * 2017-10-19 2018-02-27 郑州云海信息技术有限公司 一种大数据处理方法及其装置
CN108170769A (zh) * 2017-12-26 2018-06-15 上海大学 一种基于决策树算法的装配制造质量数据处理方法
CN108632269A (zh) * 2018-05-02 2018-10-09 南京邮电大学 基于c4.5决策树算法的分布式拒绝服务攻击检测方法
CN108632269B (zh) * 2018-05-02 2020-06-02 南京邮电大学 基于c4.5决策树算法的分布式拒绝服务攻击检测方法
CN111695588A (zh) * 2020-04-14 2020-09-22 北京迅达云成科技有限公司 一种基于云计算的分布式决策树学习系统

Similar Documents

Publication Publication Date Title
CN102054002A (zh) 一种数据挖掘系统中决策树的生成方法及装置
CN104050242B (zh) 基于最大信息系数的特征选择、分类方法及其装置
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN102750286B (zh) 一种处理缺失数据的新型决策树分类器方法
CN107229751A (zh) 一种面向流式数据的并行增量式关联规则挖掘方法
CN110008259A (zh) 可视化数据分析的方法及终端设备
CN105654196A (zh) 一种基于电力大数据的自适应负荷预测选择方法
CN106131158A (zh) 一种云数据中心环境下基于云租户信用度的资源调度装置
WO2018166270A2 (zh) 一种基于指标和方向向量相结合的多目标优化方法及系统
CN106446478A (zh) 一种切削加工工艺优选系统及方法
CN106845642A (zh) 一种带约束云工作流调度的自适应多目标进化方法
CN105183796A (zh) 一种基于聚类的分布式链路预测方法
CN106909942A (zh) 一种面向高维度大数据的子空间聚类方法及装置
CN109325062A (zh) 一种基于分布式计算的数据依赖挖掘方法及系统
CN113484837A (zh) 一种面向电磁大数据的未知雷达辐射源智能识别方法
CN108427753A (zh) 一种新的数据挖掘方法
CN108446735A (zh) 一种基于差分进化优化近邻成分分析的特征选择方法
CN104778368A (zh) 一种针对高维多目标优化问题的Pareto集个体排序方法
WO2020259391A1 (zh) 一种数据库脚本性能测试的方法及装置
Aronis et al. Increasing the Efficiency of Data Mining Algorithms with Breadth-First Marker Propagation.
CN105590167A (zh) 电场多元运行数据分析方法及装置
Wu et al. Historical information-based differential evolution for dynamic optimization problem
CN110427341A (zh) 一种基于路径排序的知识图谱实体关系挖掘方法
López-Herrera et al. Applying multi-objective evolutionary algorithms to the automatic learning of extended Boolean queries in fuzzy ordinal linguistic information retrieval systems
CN115080386A (zh) 基于自动驾驶功能要求的场景有效性分析方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110511