CN104111920B - 一种基于决策树的预测方法及装置 - Google Patents

一种基于决策树的预测方法及装置 Download PDF

Info

Publication number
CN104111920B
CN104111920B CN201310131606.4A CN201310131606A CN104111920B CN 104111920 B CN104111920 B CN 104111920B CN 201310131606 A CN201310131606 A CN 201310131606A CN 104111920 B CN104111920 B CN 104111920B
Authority
CN
China
Prior art keywords
decision tree
property value
test case
node
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310131606.4A
Other languages
English (en)
Other versions
CN104111920A (zh
Inventor
陈焕华
曹国祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310131606.4A priority Critical patent/CN104111920B/zh
Publication of CN104111920A publication Critical patent/CN104111920A/zh
Application granted granted Critical
Publication of CN104111920B publication Critical patent/CN104111920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于决策树的预测方法及装置,涉及数据处理领域,能够提高决策树模型和决策树模型测过程的可视化效果,该方法具体包括:根据特征属性对预存的产品缺陷数据集中的数据进行属性选择生成目标训练集;采用决策树算法对训练集进行训练生成决策树,其中,训练集属于目标训练集;对决策树进行压缩得到第一决策树;利用可视化技术显示第一决策树;从测试集中选取至少一条测试例依次输入第一决策树中进行测试,生成至少一条测试例的分类路径;利用可视化技术在第一决策树中显示至少一条测试例的分类路径。本发明应用于产品缺陷预测。

Description

一种基于决策树的预测方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种基于决策树的预测方法及装置。
背景技术
决策树模型是一种常见的缺陷预测模型,当产品发生故障时,能够帮助维修人员快速定位缺陷类型,及时拿出维修方案,降低维修成本。但是由于很多种产品的某些固有属性特征发布特别分散,会造成训练得到的决策树模型特别庞大,比如缺陷产品种类、缺陷单板种类成千上万种,缺陷类型(预测属性)也达到数百种,因此面对如此庞大的决策树,用传统的决策树可视化方法是不可行的。因此,现有技术提出了一种CABRO的大规模决策树可视化技术,该CABRO可视化系统界面中有左右两个窗口,左面的窗口叫做全集窗口,可以展现整棵的决策树,但是没有一个节点信息,右面的窗口叫做局部窗口,选中全局窗口中决策树的一块矩形面积时,该矩形面积会在局部窗口中展现出来,这样即能够看到整棵决策树的整体结构,又可以看到决策树中的某一部分的详细信息,使得大规模决策树的可视化效果较好。
但是发明人发现现有技术中的CABRO可视化系统可视化技术有如下问题:该CABRO可视化系统界面无法直观的显示预测路径,需要多次移动全局窗口中的矩形框,然后在局部窗口中观看,使得决策树模型可视化效果较差。
发明内容
本发明的实施例提供一种基于决策树的预测方法及装置,能够提高决策树模型和决策树模型测过程的可视化效果。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种基于决策树的预测方法,包括:
根据特征属性对预存的产品缺陷数据集中的数据进行属性选择生成目标训练集,其中,所述特征属性为所述产品缺陷数据集中产品的固有属性或缺陷属性;
采用决策树算法对所述训练集进行训练生成决策树,其中,所述训练集属于所述目标训练集;
对所述决策树进行压缩得到第一决策树;
利用可视化技术显示所述第一决策树;
从测试集中选取至少一条测试例依次输入所述第一决策树中进行测试,生成所述至少一条测试例的分类路径;
利用所述可视化技术在所述第一决策树中显示所述至少一条测试例的分类路径。
在第一种可能的实现方式中,根据第一方面,所述方法还包括:
根据所述至少一条测试例的分类路径判断是否调节所述特征属性和所述决策树算法的算法系数;
若判断结果为是,则调节所述特征属性和所述决策树算法的算法系数;
重新根据调节后的特征属性对预存的产品缺陷数据集中的数据进行属性选择生成新的训练集,并采用调节过算法系数的决策树算法根据所述新的训练集生成新的决策树。
在第二种可能的实现方式中,根据第一方面,所述对所述决策树进行压缩得到第一决策树,包括:
通过后续遍历所述决策树中每条边对应的节点和父节点的节点对,其中,所述节点包括子节点或子树;
将所述决策树中所有的有相同节点对的边进行合并,得到所述第一决策树。
在第三种可能的实现方式中,根据第二种可能的实现方式,所述将所述决策树中所有的有相同节点对的边进行合并,得到所述第一决策树之后,还包括:
将所有的合并后的边及对应的所述有相同节点对的边存入标记文件的信息映射表中,其中,所述信息映射表为所述决策树的边和所述第一决策树的边的对应关系表。
在第四种可能的实现方式中,根据第一方面,所述从测试集中选取至少一条测试例依次输入所述第一决策树中进行测试,生成所述至少一条测试例的分类路径,包括:
通过解析从测试集中选取的至少一条测试例中的每条测试例,得到所述每条测试例的属性值对集合;
将第一属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配;
若所述第一属性值对集合与所述第一决策树的第一层级有匹配,则将所述第一属性值对集合与所述第一决策树的第一层级的所有节点进行匹配,直到所述第一决策树的所有层级的节点全部匹配完,则所述第一属性值对集合对应的测试例分类完成;
将所述第一属性值对集合对应的测试例的分类路径进行标注,并将第二属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配,直到所有测试例全部分类完成;
其中,所述第一属性值对集合与第二属性值对集合属于所述属性值对集合,所述第一层级为通过由上至下进行分层的所述第一决策树的第一层节点。
在第五种可能的实现方式中,根据第四种可能的实现方式,所述将第一属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配之后,还包括:
若所述第一属性值对集合与所述第一决策树的第一层级无匹配,则对所述第一属性值对集合对应的测试例在所述第一决策树中无法分类;
将第三属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配,其中,所述第三属性值对集合属于所述属性值对集合,所述第一层级为通过由上至下进行分层的所述第一决策树的第一层节点。
在第六种可能的实现方式中,结合第一方面或第一种至第五种可能的实现方式中的任一种实现方式,所述可视化技术包括以放射型多层有向图的方式可视化第一决策树的技术。
第二方面,提供一种基于决策树的预测装置,包括:
筛选单元,用于根据特征属性对预存的产品缺陷数据集中的数据进行属性选择生成训练集,其中,所述特征属性为所述产品缺陷数据集中产品的固有属性或缺陷属性;
训练单元,用于采用决策树算法对所述训练集进行训练生成决策树,其中,所述训练集属于所述筛选单元选择的所述目标训练集;
压缩单元,用于对所述决策树进行压缩得到第一决策树;
可视化单元,用于利用可视化技术显示所述压缩单元得到的所述第一决策树;
测试单元,用于从测试集中选取至少一条测试例依次输入所述压缩单元得到的所述第一决策树中进行测试,生成所述至少一条测试例的分类路径;
所述可视化单元,还用于利用所述可视化技术在所述压缩单元得到的所述第一决策树中显示所述测试单元生成的所述至少一条测试例的分类路径。
在第一种可能的实现方式中,根据第二方面,所述装置还包括:
判断单元,用于根据所述测试单元得到的所述至少一条测试例的分类路径判断是否调节所述特征属性和所述决策树算法的算法系;
调节单元,用于若所述判断单元的判断结果为是,则调节所述特征属性和所述决策树算法的算法系数;
所述训练单元,还用于重新根据所述调节单元得到的所述调节后的特征属性对预存的产品缺陷数据集中的数据进行属性选择生成新的训练集,并采用所述调节单元得到的调节过算法系数的决策树算法根据所述新的训练集生成新的决策树。
在第二种可能的实现方式中,根据第二方面,所述压缩单元,包括:
扫描模块,用于通过后续遍历所述训练单元生成的所述决策树中每条边对应的节点和父节点的节点对,其中,所述节点包括子节点或子树;
合并模块,用于将所述训练单元生成的所述决策树中所有的有相同节点对的边进行合并,得到所述第一决策树。
在第三种可能的实现方式中,根据第二种可能的实现方式,所述对压缩单元,还包括:
存储模块,用于将所有的合并后的边及对应的所述有相同节点对的边存入标记文件的信息映射表中,其中,所述信息映射表为所述决策树的边和所述第一决策树的边的对应关系表。
在第四种可能的实现方式中,根据第二方面,所述测试单元,包括:
解析模块,用于通过解析从测试集中选取的至少一条测试例中的每条测试例,得到所述每条测试例的属性值对集合;
匹配模块,用于将所述解析模块解析出的第一属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配;
所述匹配模块,还用于若所述解析模块解析出的所述第一属性值对集合与所述第一决策树的第一层级有匹配,则将所述解析模块解析出的所述第一属性值对集合与所述第一决策树的第一层级的所有节点进行匹配,直到所述第一决策树的所有层级的节点全部匹配完,则所述第一属性值对集合对应的测试例分类完成;
标注模块,用于将所述匹配模块得到的所述第一属性值对集合对应的测试例的分类路径进行标注,并将所述解析模块解析出的第二属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配,直到所有测试例全部分类完成;
其中,所述第一属性值对集合与第二属性值对集合属于所述属性值对集合,所述第一层级为通过由上至下进行分层的所述第一决策树的第一层节点。
在第五种可能的实现方式中,根据第四种可能的实现方式,所述测试单元,还包括:
所述匹配模块,还用于若所述解析模块解析出的所述第一属性值对集合与所述第一决策树的第一层级无匹配,则对所述第一属性值对集合对应的测试例在所述第一决策树中无法分类;及用于将所述解析模块解析出的第三属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配,其中,所述第三属性值对集合属于所述属性值对集合,所述第一层级为通过由上至下进行分层的所述第一决策树的第一层节点。
在第六种可能的实现方式中,结合第二方面或第一种至第五种可能的实现方式中的任一种实现方式,所述可视化技术包括以放射型多层有向图的方式可视化第一决策树的技术。
本发明实施例提供的基于决策树的预测方法及装置,能够以放射型多层有向图的方式来可视化大规模决策树模型,以及以可视化的方式来展示决策树模型的预测过程,帮助分析预测原因,并且在对决策树进行预测是,能够显示测试例的分类路径,使得用户能够看到简洁清晰的决策树模型及测试例的分类路径。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于决策树的预测方法流程图;
图2为本发明实施例提供的另一种基于决策树的预测方法流程图;
图3为本发明实施例提供的一种基于决策树的预测装置组成示意图;
图4为本发明实施例提供的另一种基于决策树的预测装置组成示意图;
图5为本发明另一实施例提供的一种基于决策树的预测装置组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例提供了一种基于决策树的预测方法,如图1所示,该方法包括如下步骤:
101、基于决策树的预测装置根据特征属性对产品缺陷数据集中的数据进行属性选择生成目标训练集。
其中,上述的特征属性为产品缺陷数据集中产品的固有属性或缺陷属性。
102、基于决策树的预测装置采用决策树算法对训练集进行训练生成决策树。
其中,训练集属于目标训练集。
103、基于决策树的预测装置对决策树进行压缩得到第一决策树。
104、基于决策树的预测装置利用可视化技术显示第一决策树。
105、基于决策树的预测装置从测试集中选取至少一条测试例依次输入第一决策树中进行测试,生成至少一条测试例的分类路径。
106、基于决策树的预测装置利用可视化技术在第一决策树中显示至少一条测试例的分类路径。
本发明实施例提供的基于决策树的预测方法,能够以可视化技术来显示大规模决策树模型,以及利用可视化技术来展示决策树模型的预测过程,帮助分析预测原因,并且在对决策树进行预测时,能够显示测试例的分类路径,使得用户能够看到简洁清晰的决策树模型及测试例的分类路径。
本发明的实施例提供一种基于决策树的预测方法,如图2所示,该方法包括如下步骤:
201、基于决策树的预测装置根据特征属性对产品缺陷数据集中的数据进行属性选择生成目标训练集。
其中,上述特征属性包括上述产品缺陷数据集中产品的固有属性或缺陷属性。其中,上述的产品缺陷数据集是工作人员对缺陷产品属性的记录,包括产品的固有属性(如,产品名称,产品线,制造商等)和产品的缺陷属性(如缺陷类型、缺陷代码来源,缺陷产品来源国家/省份,缺陷单板编码等),以及其他属性,而且一般来说上述的产品缺陷数据集会有几十维数据,数据量会很大,因此,需要从中挑选出所需要的数据。
具体的,基于决策树的预测装置从输入的产品缺陷数据集中根据特征属性选择对下述预测过程有用的属性数据。比如,若该产品缺陷数据集是50列的数据集,在经过属性选择后,剩余的只有10列数据,则该10列数据就会作为训练集。此外,属性选择既可以缩小数据集的大小,又可以提高决策树模型的预测效果,是产品缺陷预测的重要步骤之一,而在进行属性选择时,所用到的方法一般是通过算法选择(如:基于信息增益的特征选择算法)和人工选择相结合的方式来进行的选择的。
可选的,在步骤201之后还包括:基于决策树的预测装置将目标训练集分为训练集和测试集两部分。
具体的,在决策树模型训练中,一般会有两种模型测试的方法,一种是将训练集中的数据分成两部分,将一部分数据用来做训练生成决策树(即训练集),一部分数据用来做测试(及测试集),其中,一般在测试集中选择测试例;另一种方法是采用n-折交叉验证法,将训练集中的数据分为n折,若将数据分为10份,取其中9份用来做训练生成决策树,剩下的一份用来做测试,作为测试例进行测试,直到将10份数据全都作为测试例分别进行测试,才能完成整个测试过程。
可选的,基于决策树的预测装置也可以将步骤201生成的目标训练集的全部或一部分数据作为训练集,而下述的测试集可以从其他的产品缺陷数据集中获取。
202、基于决策树的预测装置采用决策树算法对训练集进行训练,生成决策树。
其中,上述的训练集属于目标训练集,上述的决策树算法包括但不限于:C4.5决策树算法或随机森林算法。而且在对训练集进行训练和输入输出时,可以使用目前的开源工具,如wake工具,也可以自己写代码实现。
此外,在本步骤中生成的决策树可以是一颗,也可以是多颗,若生成多颗决策树,则按照生成决策树的顺序或任意顺序,依次对选取的决策树进行压缩和测试,每一个决策树完成测试后,再进行下一个。
203、基于决策树的预测装置对决策树进行压缩得到第一决策树。
进一步可选的,步骤203具体包括:
203a、基于决策树的预测装置通过后续遍历所述决策树中每条边对应的节点和父节点的节点对。
其中,上述节点包括子节点或子树,若上述节点对为子树与父节点的组合,则需要两颗子树完全相同,且父节点相同,才可以组合为节点对。
203b、基于决策树的预测装置将决策树中所有的有相同节点对的边进行合并,得到第一决策树。
进一步可选的,步骤203还包括:
203c、基于决策树的预测装置将所有的合并后的边及对应的有相同节点对的两个边存入标记文件的信息映射表中。
其中,上述的信息映射表为决策树的边和第一决策树的边的对应关系表。
具体的,首先将决策树通过由上到下进行分层将决策树进行分级,其中该决策树由上到下的层级由(level 0,1,1,……)进行标注,每层level的节点用node(N)来进行标注。具体的压缩过程为:后续遍历整个决策树,即从最底层level n开始,扫描每条边对应的结点和父节点的组合对,若相同父节点下的叶子节点也相同,则将这些边合并为一条,并用Lx来表示(x=1,2,3,……),且该合并后的边作为压缩精简后的第一决策树的边,在leveln扫描完成后,向上移至level n-1,并重复level n的处理过程,直到所有层级全部扫描完,则整个压缩精简过程才全部完成。
其中,上述的边的合并过程可以描述为:若有节点N0、N1(N0、N1也可以为两棵树),且其父节点为PN0,N0,N1和父节点之间的连接边分别为e0,e1,如果N0=N1,那么合并e0e1为L0,并在legend文件(即上述的标记文件)中的信息映射表中以L0:e0e1的形式进行存储。
204、基于决策树的预测装置利用可视化技术显示第一决策树。
可选的,上述的可视化技术包括以放射型多层有向图的方式可视化第一决策树的技术,其中,当以放射形多层有向图的方式可视化步骤203生成的第一决策树时,能够使得第一决策树的节点分布更加均匀,可视化空间利用更充分,可视化效果更加突出。此外,在实现本步骤时可以借助一些可视化工具,如Graphviz sfdp filter,其中在进行决策树模型输出时,是输出两个文件,一个是精简的放射多层有向文件,一个是描述精简边Lx的legend文件。
205、基于决策树的预测装置从测试集中选取至少一条测试例依次输入第一决策树中进行测试,生成至少一条测试例的分类路径。
205a、基于决策树的预测装置通过解析从测试集中选取的至少一条测试例中的每条测试例,得到每条测试例的属性值对集合。
具体的,该测试例的各属性之间是以分隔符分隔(如逗号,竖线等),如“故障地点=value1,生产线=value2,……”,首先将上述的测试例中的分隔符进行解析,然后将生成的属性值对存入集合中,其他测试例重复上述过程。
205b、基于决策树的预测装置将第一属性值对集合输入第一决策树与第一决策树的第一层级进行匹配。
若第一属性值对集合与第一决策树的第一层级有匹配,则转向步骤205c,若第一属性值对集合与第一决策树的第一层级无匹配,则转向步骤205e。
205c、基于决策树的预测装置将第一属性值对集合与所第一决策树的第一层级的所有节点进行匹配,直到第一决策树的所有层级的节点全部匹配完,则第一属性值对集合对应的测试例分类完成。
205d、基于决策树的预测装置在放射型多层有向图中将第一属性值对集合对应的测试例的分类路径进行标注,并第二属性值对集合输入第一决策树与第一决策树的第一层级进行匹配,直到所有测试例全部分类完成。
其中,上述的第一属性值对集合与第二属性值对集合属于上述的属性值对集合,上述的第一层级为通过由上至下进行分层的第一决策树的第一层节点。
205e、基于决策树的预测装置对第一属性值对集合对应的测试例在第一决策树中无法分类。
205f、基于决策树的预测装置将第三属性值对集合输入第一决策树与第一决策树的第一层级进行匹配。
其中,上述的第三属性值对集合属于属性值对集合,上述的第一层级为通过由上至下进行分层的所述第一决策树的第一层节点。
其中,该第一决策树有上至下层级为(level 0,1,1,……),而每层(level 0,1,1,……)上的匹配节点分别为node 0,1,2,……。
具体的,步骤205的具体过程为:
从至少一个测试例中选取一个测试例的对应的属性值对集合,及第一属性值对集合,首先,从level 0开始,将该第一属性值对集合与第一决策树的level 0层级的匹配节点对(即匹配节点与对应的边的组合)是否匹配,若匹配,则从level 1开始将该第一属性值对集合与第一决策树的level 1的结点node1开始依次进行匹配,直到第一决策树的所有层级的匹配节点全部匹配完全,则说明该第一属性值对集合对应的测试例分类完成,然后,在放射型多层有向图中将第一属性值对集合对应的测试例的分类路径进行标注,并选取另一个测试例对应的属性值对集合(即第二属性值对集合)与第一决策树进行匹配过程,直到所有测试例全部分类完成。若不匹配,则对该测试例在第一决策树中无法分类,并选取下一个测试例对应的属性值对集合(即第三属性值对集合)与第一决策树进行匹配过程。此外,上述的对测试例的分类路径进行标注的标注方法可以为用不同颜色进行加粗放大。
206、基于决策树的预测装置利用可视化技术在第一决策树中显示至少一条测试例的分类路径。
具体的,基于决策树的预测装置由于对至少一条测试例的分类路径进行了标注,因此在将至少一条测试例的分类路径在第一决策树中显示时,能够使得用户可以更加直观清晰的看到测试过程和测试例的分类路径,帮助用户分析预测结果,进而根据预测结果对决策树算法的算法参数和特征属性进行了调节重生生成新的更为准确的决策树。
207、基于决策树的预测装置根据至少一条测试例的分类路径判断是否调节特征属性和决策树算法的算法系数。
若判断结果为是,则转向步骤208,若判断结果为否,则结束该基于决策树的预测过程。
208、基于决策树的预测装置调节特征属性和决策树算法的算法系数。
本发明实施例提供的基于决策树的预测方法,能够以可视化技术来显示大规模决策树模型,以及利用可视化技术来展示决策树模型的预测过程,帮助分析预测原因,并且在对决策树进行预测时,能够显示测试例的分类路径,使得用户能够看到简洁清晰的决策树模型及测试例的分类路径。
本发明的实施例提供一种基于决策树的预测装置,该装置用于实现上述的基于决策树的预测方法,如图3、4所示,该基于决策树的预测装置3包括:筛选单元31,训练单元32、压缩单元33、可视化单元34和测试单元35,其中:
筛选单元31,用于根据特征属性对预存的产品缺陷数据集中的数据进行属性选择生成训练集,其中,特征属性为产品缺陷数据集中产品的固有属性或缺陷属性。
训练单元32,用于根据决策树算法对训练集进行训练生成决策树,其中,训练集属于筛选单元31选择的目标训练集。
压缩单元33,用于对训练单元32生成的决策树进行压缩得到第一决策树。
可视化单元34,用于利用可视化技术显示压缩单元33得到的第一决策树。
测试单元35,用于从测试集中选取至少一条测试例依次输入压缩单元33得到的第一决策树中进行测试,生成至少一条测试例的分类路径。
可视化单元34,还用于利用可视化技术在压缩单元33得到的第一决策树中显示测试单元35生成的至少一条测试例的分类路径。
可选的,该装置还包括:判断单元36和调节单元37,其中:
判断单元36,用于根据测试单元34得到的至少一条测试例的分类路径判断是否调节特征属性和决策树算法的算法系。
调节单元37,用于若判断单元36判断的结果为是,则调节特征属性和决策树算法的算法系数。
训练单元31,还用于重新根据调节单元37得到的调节后的特征属性对预存的产品缺陷数据集中的数据进行属性选择生成新的训练集,并采用调节单元37得到的调节过算法系数的决策树算法根据新的训练集生成新的决策树。
进一步可选的,如图4所示,压缩单元33,包括:扫描模块331、合并模块332和存储模块333,其中:
扫描模块331,用于通过后续遍历训练单元32生成的决策树中每条边对应的节点和父节点的节点对,其中,节点包括子节点或子树。
合并模块332,用于将训练单元32生成的决策树中所有的有相同节点对的边进行合并,得到第一决策树。
存储模块333,用于将所有的合并后的边及对应的有相同节点对的边存入标记文件的信息映射表中,其中,信息映射表为决策树的边和第一决策树的边的对应关系表。
进一步可选的,如图4所示,测试单元35,包括:解析模块351、匹配模块352和标注模块353,其中:
解析模块351,用于通过解析从测试集中选取的至少一条测试例中的每条测试例,得到每条测试例的属性值对集合。
匹配模块352,用于将解析模块351解析出的第一属性值对集合输入第一决策树与第一决策树的第一层级进行匹配。
匹配模块352,还用于若解析模块351解析出的第一属性值对集合与第一决策树的第一层级有匹配,则将解析模块351解析出的第一属性值对集合与第一决策树的第一层级的所有节点进行匹配,直到第一决策树的所有层级的节点全部匹配完,则第一属性值对集合对应的测试例分类完成。
标注模块353,用于第一属性值对集合对应的测试例的分类路径进行标注,并将解析模块341解析出的第二属性值对集合输入第一决策树与第一决策树的第一层级进行匹配,直到所有测试例全部分类完成。
其中,第一属性值对集合与第二属性值对集合属于属性值对集合,第一层级为通过由上至下进行分层的第一决策树的第一层节点。
进一步可选的,如图4所示,测试单元35,还包括:
匹配模块352,还用于若解析模块351解析出的第一属性值对集合与第一决策树的第一层级无匹配,则对解析模块351解析出的第一属性值对集合对应的测试例在第一决策树中无法分类;及用于将解析模块351解析出的第三属性值对集合输入第一决策树与第一决策树的第一层级进行匹配,其中,第三属性值对集合属于属性值对集合,第一层级为通过由上至下进行分层的第一决策树的第一层节点。
可选的,该可视化技术包括以放射型多层有向图的方式可视化第一决策树的技术。
本发明实施例提供的基于决策树的预测装置,,能够以可视化技术来显示大规模决策树模型,以及利用可视化技术来展示决策树模型的预测过程,帮助分析预测原因,并且在对决策树进行预测是,能够显示测试例的分类路径,使得用户能够看到简洁清晰的决策树模型及测试例的分类路径。
本发明的实施例提供一种基于决策树的预测装置,该装置用于实现上述的基于决策树的预测方法,如图5所示,该基于决策树的预测装置4包括:至少一个处理器41,存储器42,通信总线43以及至少一个通信接口44。
其中,通信总线43用于实现上述组件之间的连接并通信,该通信接口44用于与外部设备连接并通信。
存储器42中存储需要执行的程序代码,这些程序代码具体可以包括:筛选单元421,训练单元422、压缩单元423、可视化单元424和测试单元425。
处理器41用于执行存储器42中存储的单元,当上述单元被处理器41执行时,可以实现如下功能:
筛选单元421,用于根据特征属性对预存的产品缺陷数据集中的数据进行属性选择生成训练集,其中,特征属性为产品缺陷数据集中产品的固有属性或缺陷属性。
训练单元422,用于根据决策树算法对训练集进行训练生成决策树,其中,训练集属于筛选单元421选择的目标训练集。
压缩单元423,用于对训练单元422生成的决策树进行压缩得到第一决策树。
可视化单元424,用于利用可视化技术显示压缩单423得到的第一决策树。
测试单元425,用于从测试集中选取至少一条测试例依次输入压缩单元423得到的第一决策树中进行测试,生成至少一条测试例的分类路径。
可视化单元424,还用于利用可视化技术在压缩单元423得到的第一决策树中显示测试单元425生成的至少一条测试例的分类路径。
可选的,该存储器42还包括:判断单元426和调节单元427,其中:
判断单元426,用于根据测试单元424得到的至少一条测试例的分类路径判断是否调节特征属性和决策树算法的算法系。
调节单元427,用于若判断单元426判断的结果为是,则调节特征属性和决策树算法的算法系数。
训练单元421,还用于重新根据调节单元427得到的调节后的特征属性对预存的产品缺陷数据集中的数据进行属性选择生成新的训练集,并采用调节单元427得到的调节过算法系数的决策树算法根据新的训练集生成新的决策树。
进一步可选的,压缩单元423,包括:扫描模块、合并模块和存储模块,其中:
扫描模块,用于通过后续遍历所述训练单元生成的所述决策树中每条边对应的节点和父节点的节点对,其中,所述节点包括子节点或子树;
合并模块,用于将所述训练单元生成的所述决策树中所有的有相同节点对的边进行合并,得到所述第一决策树。
存储模块,用于将所有的合并后的边及对应的所述有相同节点对的边存入标记文件的信息映射表中,其中,所述信息映射表为所述决策树的边和所述第一决策树的边的对应关系表。
进一步可选的,测试单元425,包括:解析模块、匹配模块和标注模块,其中:
解析模块,用于通过解析从测试集中选取的至少一条测试例中的每条测试例,得到所述每条测试例的属性值对集合。
匹配模块,用于将解析模块解析出的第一属性值对集合输入所述第一决策树与第一决策树的第一层级进行匹配。
匹配模块,还用于若解析模块解析出的第一属性值对集合与第一决策树的第一层级有匹配,则将解析模块解析出的第一属性值对集合与第一决策树的第一层级的所有节点进行匹配,直到第一决策树的所有层级的节点全部匹配完,则第一属性值对集合对应的测试例分类完成。
标注模块,用于将第一属性值对集合对应的测试例的分类路径进行标注,并将解析模块解析出的第二属性值对集合输入第一决策树与第一决策树的第一层级进行匹配,直到所有测试例全部分类完成。
其中,第一属性值对集合与第二属性值对集合属于属性值对集合,第一层级为通过由上至下进行分层的第一决策树的第一层节点。
进一步可选的,测试单元425,还包括:
匹配模块,还用于若解析模块解析出的第一属性值对集合与第一决策树的第一层级无匹配,则对解析模块解析出的第一属性值对集合对应的测试例在第一决策树中无法分类;及用于将解析模块解析出的第三属性值对集合输入第一决策树与第一决策树的第一层级进行匹配,其中,第三属性值对集合属于属性值对集合,第一层级为通过由上至下进行分层的第一决策树的第一层节点。
可选的,该可视化技术包括以放射型多层有向图的方式可视化第一决策树的技术。
本发明实施例提供的基于决策树的预测装置,能够以可视化技术来显示大规模决策树模型,以及利用可视化技术来展示决策树模型的预测过程,帮助分析预测原因,并且在对决策树进行预测是,能够显示测试例的分类路径,使得用户能够看到简洁清晰的决策树模型及测试例的分类路径。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种基于决策树的预测方法,其特征在于,包括:
根据特征属性对预存的产品缺陷数据集中的数据进行属性选择生成目标训练集,其中,所述特征属性为所述产品缺陷数据集中产品的固有属性或缺陷属性;
采用决策树算法对训练集进行训练生成决策树,其中,所述训练集属于所述目标训练集;
对所述决策树进行压缩得到第一决策树;
利用可视化技术显示所述第一决策树;
从测试集中选取至少一条测试例依次输入所述第一决策树中进行测试,生成所述至少一条测试例的分类路径;
利用所述可视化技术在所述第一决策树中显示所述至少一条测试例的分类路径;
所述方法还包括:
根据所述至少一条测试例的分类路径判断是否调节所述特征属性和所述决策树算法的算法系数;
若判断结果为是,则调节所述特征属性和所述决策树算法的算法系数;
重新根据调节后的特征属性对预存的产品缺陷数据集中的数据进行属性选择生成新的训练集,并采用调节过算法系数的决策树算法根据所述新的训练集生成新的决策树。
2.根据权利要求1所述的方法,其特征在于,所述对所述决策树进行压缩得到第一决策树,包括:
通过后续遍历所述决策树中每条边对应的节点和父节点的节点对,其中,所述节点包括子节点或子树;
将所述决策树中所有的有相同节点对的边进行合并,得到所述第一决策树。
3.根据权利要求2所述的方法,其特征在于,所述将所述决策树中所有的有相同节点对的边进行合并,得到所述第一决策树之后,还包括:
将所有的合并后的边及对应的所述有相同节点对的边存入标记文件的信息映射表中,其中,所述信息映射表为所述决策树的边和所述第一决策树的边的对应关系表。
4.根据权利要求1所述的方法,其特征在于,所述从测试集中选取至少一条测试例依次输入所述第一决策树中进行测试,生成所述至少一条测试例的分类路径,包括:
通过解析从测试集中选取的至少一条测试例中的每条测试例,得到所述每条测试例的属性值对集合;
将第一属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配;
若所述第一属性值对集合与所述第一决策树的第一层级有匹配,则将所述第一属性值对集合与所述第一决策树的第一层级的所有节点进行匹配,直到所述第一决策树的所有层级的节点全部匹配完,则所述第一属性值对集合对应的测试例分类完成;
将所述第一属性值对集合对应的测试例的分类路径进行标注,并将第二属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配,直到所有测试例全部分类完成;
其中,所述第一属性值对集合与第二属性值对集合属于所述属性值对集合,所述第一层级为通过由上至下进行分层的所述第一决策树的第一层节点。
5.根据权利要求4所述的方法,其特征在于,所述将第一属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配之后,还包括:
若所述第一属性值对集合与所述第一决策树的第一层级无匹配,则对所述第一属性值对集合对应的测试例在所述第一决策树中无法分类;
将第三属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配,其中,所述第三属性值对集合属于所述属性值对集合,所述第一层级为通过由上至下进行分层的所述第一决策树的第一层节点。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述可视化技术包括以放射型多层有向图的方式可视化第一决策树的技术。
7.一种基于决策树的预测装置,其特征在于,包括:
筛选单元,用于根据特征属性对预存的产品缺陷数据集中的数据进行属性选择生成目标训练集,其中,所述特征属性为所述产品缺陷数据集中产品的固有属性或缺陷属性;
训练单元,用于采用决策树算法对训练集进行训练生成决策树,其中,所述训练集属于所述筛选单元选择的所述目标训练集;
压缩单元,用于对所述决策树进行压缩得到第一决策树;
可视化单元,用于利用可视化技术显示所述压缩单元得到的所述第一决策树;
测试单元,用于从测试集中选取至少一条测试例依次输入所述压缩单元得到的所述第一决策树中进行测试,生成所述至少一条测试例的分类路径;
所述可视化单元,还用于利用所述可视化技术在所述压缩单元得到的所述第一决策树中显示所述测试单元生成的所述至少一条测试例的分类路径;
判断单元,用于根据所述测试单元得到的所述至少一条测试例的分类路径判断是否调节所述特征属性和所述决策树算法的算法系数;
调节单元,用于若所述判断单元的判断结果为是,则调节所述特征属性和所述决策树算法的算法系数;
所述训练单元,还用于重新根据所述调节单元得到的所述调节后的特征属性对预存的产品缺陷数据集中的数据进行属性选择生成新的训练集,并采用所述调节单元得到的调节过算法系数的决策树算法根据所述新的训练集生成新的决策树。
8.根据权利要求7所述的装置,其特征在于,所述压缩单元,包括:
扫描模块,用于通过后续遍历所述训练单元生成的所述决策树中每条边对应的节点和父节点的节点对,其中,所述节点包括子节点或子树;
合并模块,用于将所述训练单元生成的所述决策树中所有的有相同节点对的边进行合并,得到所述第一决策树。
9.根据权利要求8所述的装置,其特征在于,所述压缩单元,还包括:
存储模块,用于将所有的合并后的边及对应的所述有相同节点对的边存入标记文件的信息映射表中,其中,所述信息映射表为所述决策树的边和所述第一决策树的边的对应关系表。
10.根据权利要求7所述的装置,其特征在于,所述测试单元,包括:
解析模块,用于通过解析从测试集中选取的至少一条测试例中的每条测试例,得到所述每条测试例的属性值对集合;
匹配模块,用于将所述解析模块解析出的第一属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配;
所述匹配模块,还用于若所述解析模块解析出的所述第一属性值对集合与所述第一决策树的第一层级有匹配,则将所述解析模块解析出的所述第一属性值对集合与所述第一决策树的第一层级的所有节点进行匹配,直到所述第一决策树的所有层级的节点全部匹配完,则所述第一属性值对集合对应的测试例分类完成;
标注模块,用于将所述匹配模块得到的所述第一属性值对集合对应的测试例的分类路径进行标注,并将所述解析模块解析出的第二属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配,直到所有测试例全部分类完成;
其中,所述第一属性值对集合与第二属性值对集合属于所述属性值对集合,所述第一层级为通过由上至下进行分层的所述第一决策树的第一层节点。
11.根据权利要求10所述的装置,其特征在于,所述测试单元,还包括:
所述匹配模块,还用于若所述解析模块解析出的所述第一属性值对集合与所述第一决策树的第一层级无匹配,则对所述第一属性值对集合对应的测试例在所述第一决策树中无法分类;及用于将所述解析模块解析出的第三属性值对集合输入所述第一决策树与所述第一决策树的第一层级进行匹配,其中,所述第三属性值对集合属于所述属性值对集合,所述第一层级为通过由上至下进行分层的所述第一决策树的第一层节点。
12.根据权利要求7至11任一项所述的装置,其特征在于,所述可视化技术包括以放射型多层有向图的方式可视化第一决策树的技术。
CN201310131606.4A 2013-04-16 2013-04-16 一种基于决策树的预测方法及装置 Active CN104111920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310131606.4A CN104111920B (zh) 2013-04-16 2013-04-16 一种基于决策树的预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310131606.4A CN104111920B (zh) 2013-04-16 2013-04-16 一种基于决策树的预测方法及装置

Publications (2)

Publication Number Publication Date
CN104111920A CN104111920A (zh) 2014-10-22
CN104111920B true CN104111920B (zh) 2018-03-09

Family

ID=51708716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310131606.4A Active CN104111920B (zh) 2013-04-16 2013-04-16 一种基于决策树的预测方法及装置

Country Status (1)

Country Link
CN (1) CN104111920B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997330B (zh) * 2016-01-22 2020-11-06 阿里巴巴(中国)有限公司 随机森林模型的转换方法及装置
CN105930934B (zh) * 2016-04-27 2018-08-14 第四范式(北京)技术有限公司 展示预测模型的方法、装置及调整预测模型的方法、装置
CN106022907A (zh) * 2016-05-13 2016-10-12 清华大学 大型商业银行后台核心交易事件趋势预测方法及其系统
CN106054104B (zh) * 2016-05-20 2019-01-11 国网新疆电力公司电力科学研究院 一种基于决策树的智能电表故障实时预测方法
CN107193992A (zh) * 2017-06-06 2017-09-22 云南电网有限责任公司信息中心 一种基于决策树算法的220kV主变压器状态评估预测方法
CN107391365B (zh) * 2017-07-06 2020-10-13 武汉大学 一种面向软件缺陷预测的混合特征选择方法
CN107682178A (zh) * 2017-08-30 2018-02-09 国信优易数据有限公司 一种移动用户上网操作行为预测方法和装置
CN107678531B (zh) 2017-09-30 2020-12-01 Oppo广东移动通信有限公司 应用清理方法、装置、存储介质及电子设备
CN110851343A (zh) * 2018-08-21 2020-02-28 北京京东尚科信息技术有限公司 一种基于决策树的测试方法和装置
CN111343127B (zh) * 2018-12-18 2021-03-16 北京数安鑫云信息技术有限公司 一种提升爬虫识别召回率的方法、装置、介质及设备
CN109669030A (zh) * 2018-12-28 2019-04-23 佛山科学技术学院 一种基于决策树的工业注塑产品缺陷诊断方法
CN109767269B (zh) * 2019-01-15 2022-02-22 网易(杭州)网络有限公司 一种游戏数据的处理方法和装置
CN110532266A (zh) * 2019-08-28 2019-12-03 京东数字科技控股有限公司 一种数据处理的方法和装置
CN112085087B (zh) * 2020-09-04 2024-04-26 中国平安财产保险股份有限公司 业务规则生成的方法、装置、计算机设备及存储介质
CN112308120B (zh) * 2020-10-15 2023-09-29 国家电网公司华北分部 对继电保护装置缺陷进行定级的方法、装置及存储介质
CN113177212B (zh) * 2021-04-25 2022-07-19 支付宝(杭州)信息技术有限公司 联合预测方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003100405A1 (fr) * 2002-05-23 2003-12-04 Hitachi High-Technologies Corporation Procede de generation de dispositif de classification de defauts et procede de classification automatique des defauts
CN101751399A (zh) * 2008-12-12 2010-06-23 中国移动通信集团河北有限公司 决策树优化方法和优化系统
US7831526B1 (en) * 2006-08-25 2010-11-09 Fair Isaac Corporation Article and method for finding a compact representation to visualize complex decision trees

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003100405A1 (fr) * 2002-05-23 2003-12-04 Hitachi High-Technologies Corporation Procede de generation de dispositif de classification de defauts et procede de classification automatique des defauts
US7831526B1 (en) * 2006-08-25 2010-11-09 Fair Isaac Corporation Article and method for finding a compact representation to visualize complex decision trees
CN101751399A (zh) * 2008-12-12 2010-06-23 中国移动通信集团河北有限公司 决策树优化方法和优化系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种新的简化ID3 决策树的算法;吴宣为;《合肥工业大学学报( 自然科学版)》;20041231;第27 卷(第12期);第1565-1569页 *
基于决策树的焊缝缺陷类型识别研究;钟映春;《计算机工程与应用》;20081031;第44卷(第20期);第226-228页 *

Also Published As

Publication number Publication date
CN104111920A (zh) 2014-10-22

Similar Documents

Publication Publication Date Title
CN104111920B (zh) 一种基于决策树的预测方法及装置
CN104021264B (zh) 一种缺陷预测方法及装置
US10120912B2 (en) System and method for combination-based data analysis
CN104820716B (zh) 基于数据挖掘的装备可靠性评估方法
CN104021248B (zh) 一种航空机载机械类产品fmeca分析方法
CN109472390B (zh) 基于机器学习的规划方案智能生成方法及系统
CN107451666A (zh) 基于大数据分析的断路器装配质量问题追溯系统和方法
CN104573185B (zh) 高速列车技术指标的处理方法及装置
CN107679634A (zh) 一种基于数据可视化的供电故障报修分析和预测的方法
CN106067094A (zh) 一种动态评估方法及系统
CN108319987A (zh) 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN108090675A (zh) 一种整车生产制造的质量管理系统
CN103902816A (zh) 基于数据挖掘技术的带电检测数据处理方法
CN104978411B (zh) 一种高速列车的车型开发方法和装置
CN103268613A (zh) 利用遥感、地理信息系统技术检测小班林业资源的方法
CN107609325A (zh) 基于sat的故障树求解最小割集的方法
CN106227828A (zh) 一种同构层次数据对比可视分析方法和应用
CN107169234A (zh) 一种采煤机摇臂系统维修性综合评价方法
CN104731953A (zh) 一种基于r的数据预处理系统的构建方法
CN110309073A (zh) 移动应用程序用户界面错误自动化检测方法、系统及终端
CN102998999B (zh) 石油化工产品生产设备性能参数校核装置
Schultz et al. Life cycle assessment comparing ten sources of manmade cellulose fiber
Haider et al. Does industrialisation and urbanisation affect energy consumption: a relative study of India and Iran
CN105911965A (zh) 一种在数据监测系统中实现数据分析的方法
CN117036112A (zh) 一种土地规划用的地理信息系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant