CN104021264B - 一种缺陷预测方法及装置 - Google Patents
一种缺陷预测方法及装置 Download PDFInfo
- Publication number
- CN104021264B CN104021264B CN201310066324.0A CN201310066324A CN104021264B CN 104021264 B CN104021264 B CN 104021264B CN 201310066324 A CN201310066324 A CN 201310066324A CN 104021264 B CN104021264 B CN 104021264B
- Authority
- CN
- China
- Prior art keywords
- training
- classifier
- tree
- unit
- nth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 399
- 230000007547 defect Effects 0.000 claims abstract description 126
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000003066 decision tree Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004519 manufacturing process Methods 0.000 description 20
- 238000000926 separation method Methods 0.000 description 14
- 238000012423 maintenance Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000002950 deficient Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种缺陷预测方法及装置,涉及数据处理领域,实现了对故障产品的缺陷的准确及快速定位。具体方案为:根据目标属性从预存的产品故障记录中选择训练属性集,并将所述目标属性和所述训练属性集组合成训练集;其中,所述目标属性为历史故障产品的缺陷属性;根据所述训练集生成分类器集合;其中,所述分类器集合包含至少2个树分类器;将所述分类器集合作为预测模型预测故障产品的缺陷。本发明用于故障产品的缺陷预测的过程中。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种缺陷预测方法及装置。
背景技术
随着时代的发展,能够满足人们需求的产品种类和数量逐渐增多,产品的质量是也已成为用户及企业关心的主要问题,特别是尤其对于企业来说,产品的质量就是企业的根本,因此降低产品的缺陷率对企业至关重要。而引起产品缺陷的原因主要是产品的生产工艺,包括产品的设计、所使用材料的质量、生产商能力等,因此对于企业来讲,若想降低产品的缺陷率,就需要分析并改进产品的生产工艺,从而提高产品质量。
每个产品都有关于该产品各方面的信息的记录,如原料来源、生产信息、测试信息、运输信息、使用信息等等,而当产品在使用或者生产过程中出现某一类型的缺陷或者故障时,引起这类缺陷或故障的因素和记录的该产品的信息具有一定的关联性。
现有技术提供一种故障产品缺陷预测方法,具体为利用记录的出现过故障的产品的信息,通过基于决策树的分类算法生成单一决策树,此时当产品出现故障时,便可以根据生成的决策树对故障产品的缺陷进行预测。而当记录的出现过故障的产品的信息的分类标签较多时,采用基于决策树的分类算法产生的单一决策树就容易引起过拟合或欠拟合,从而导致无法进行缺陷预测。因此当产品出现缺陷或者故障时,如何快速的定位故障点,并查找到故障原因已成为业界研究的重点。
发明内容
本发明的实施例提供一种缺陷预测方法及装置,实现了对故障产品的缺陷的准确及快速定位。
本发明的第一方面,提供一种缺陷预测方法,包括:
根据目标属性从预存的产品故障记录中选择训练属性集,并将所述目标属性和所述训练属性集组合成训练集;其中,所述目标属性为历史故障产品的缺陷属性;
根据所述训练集生成分类器集合;其中,所述分类器集合包含至少2个树分类器;
将所述分类器集合作为预测模型预测故障产品的缺陷。
结合第一方面,在一种可能的实现方式中,所述训练集包含M个训练单元,每个训练单元包含一个目标属性和一个训练属性集;
所述根据所述训练集生成分类器集合,包括:
从所述训练集中选取第一训练子集;
根据预设策略生成与所述第一训练子集相对应的第一树分类器;
从所述训练集中选取第二训练子集;
根据预设策略生成与所述第二训练子集相对应的第二树分类器;
从所述训练集中选取第N训练子集;其中,所述第N训练子集包含M’个训练单元,所述M’小于等于所述M;
根据预设策略生成与所述第N训练子集相对应的第N树分类器;其中,所述N为大于等于2的整数;
将N个树分类器组合生成所述分类器集合。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,还包括:
当生成第K-1树分类器时,获取生成的K-1个树分类器的错误率;
当生成第K树分类器时,获取生成的K个树分类器的错误率;以便当所述K个树分类器的错误率和所述K-1个树分类器的错误率的差值小于预设的阈值时,将所述K个树分类器组合生成所述分类器集合;其中,所述K为小于等于N的整数。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,所述当生成第K树分类器时,获取生成的K个树分类器的错误率,包括:
根据第一训练单元从所述分类器集合中选取第一类树分类器;
根据所述第一类树分类器生成所述第一训练单元的第一预测标签;
根据第二训练单元从所述分类器集合中选取第二类树分类器;
根据所述第二类树分类器生成所述第二训练单元的第二预测标签;
根据第M训练单元从所述分类器集合中选取第M类树分类器;其中,所述第M类树分类器为未使用第M训练单元生成树分类器的分类器集合,所述M为训练集中包含训练单元的个数;
根据所述第M类树分类器生成所述第M训练单元的第M预测标签;
根据M个预测标签获取所述生成的K个树分类器的错误率。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,所述根据所述第M类树分类器生成所述第M训练单元的第M预测标签,具体包括:
根据生成所述第M预测标签;其中,COOB(M,xM)为所述第M训练单元的第M预测标签,Cj为第j树分类器,为所述第M类树分类器,h(εj)为第j树分类器的权重,Cj(xM)为根据所述第j树分类器和所述第M训练单元中包含的训练属性集得到的目标属性,y∈Y,Y为分类标签集合。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,所述根据M个预测标签获取所述生成的K个树分类器的错误率,具体包括:
根据获取所述生成的K个树分类器的错误率;其中,E(T)为所述生成的K个树分类器的错误率,M为所述训练集中训练单元的个数,COOB(r,xr)为所述第r训练单元的第r预测标签,yr为第r训练单元的目标属性。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,在所述根据预设策略生成与所述第N训练子集相对应的第N树分类器之后,还包括:
从所述训练集中选取第N’训练子集;其中,所述第N’训练子集与所述第N训练子集的交集为空,所述第N’训练子集包含至少一个训练单元;
根据所述第N’训练子集获取所述第N树分类器的误预测率;
根据所述第N树分类器误预测率获取所述第N树分类器的权重。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,所述将所述分类器集合作为预测模型预测故障产品的缺陷,包括:
统计所述故障产品的属性信息;
根据所述属性信息将所述分类器集合作为预测模型预测所述故障产品的缺陷得到分类标签集合;
根据所述分类器集合和所述分类器集合中每个树分类器的权重,获取所述分类标签集合中每个分类标签的信任值。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,所述预设策略包括决策树算法。
本发明的第二方面,提供一种缺陷预测装置,包括:
处理单元,用于根据目标属性从预存的产品故障记录中选择训练属性集,并将所述目标属性和所述训练属性集组合成训练集;其中,所述目标属性为历史故障产品的缺陷属性;
生成单元,用于根据所述处理单元得到的训练集生成分类器集合;其中,所述分类器集合包含至少2个树分类器;
预测单元,用于将所述生成单元生成的分类器集合作为预测模型预测故障产品的缺陷。
结合第二方面,在一种可能的实现方式中,所述训练集包含M个训练单元,每个训练单元包含一个目标属性和一个训练属性集;
所述生成单元,包括:
选取模块,用于从所述处理单元得到的所述训练集中选取第一训练子集;
生成模块,用于根据预设策略生成与所述选取模块选取的所述第一训练子集相对应的第一树分类器;
所述选取模块,还用于从所述处理单元得到的所述训练集中选取第二训练子集;
所述生成模块,还用于根据预设策略生成与所述选取模块选取的所述第二训练子集相对应的第二树分类器;
所述选取模块,还用于从所述处理单元得到的所述训练集中选取第N训练子集;其中,所述第N训练子集包含M’个训练单元,所述M’小于等于所述M;
所述生成模块,还用于根据预设策略生成与所述选取模块选取的所述第N训练子集相对应的第N树分类器;其中,所述N为大于等于2的整数;
组合模块,用于将所述生成模块生成的N个树分类器组合生成所述分类器集合。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,所述生成单元还包括:
第一获取模块,用于当生成第K-1树分类器时,获取生成的K-1个树分类器的错误率;
第二获取模块,用于当生成第K树分类器时,获取生成的K个树分类器的错误率;以便当所述K个树分类器的错误率和所述K-1个树分类器的错误率的差值小于预设的阈值时,将所述K个树分类器组合生成所述分类器集合;其中,所述K为小于等于N的整数。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,所述第二获取模块,包括:
选取子模块,用于根据第一训练单元从所述分类器集合中选取第一类树分类器;
生成子模块,用于根据所述选取子模块选取的所述第一类树分类器生成所述第一训练单元的第一预测标签;
所述选取子模块,还用于根据第二训练单元从所述分类器集合中选取第二类树分类器;
所述生成子模块,还用于根据所述选取子模块选取的所述第二类树分类器生成所述第二训练单元的第二预测标签;
所述选取子模块,还用于根据第M训练单元从所述分类器集合中选取第M类树分类器;其中,所述第M类树分类器为未使用第M训练单元生成树分类器的分类器集合,所述M为训练集中包含训练单元的个数;
所述生成子模块,还用于根据所述选取子模块选取的所述第M类树分类器生成所述第M训练单元的第M预测标签;
获取子模块,用于根据所述生成子模块生成的M个预测标签获取所述生成的K个树分类器的错误率。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,所述生成子模块,具体用于:
根据生成所述第M预测标签;其中,COOB(M,xM)为所述第M训练单元的第M预测标签,Cj为第j树分类器,为所述第M类树分类器,h(εj)为第j树分类器的权重,Cj(xM)为根据所述第j树分类器和所述第M训练单元中包含的训练属性集得到的目标属性,y∈Y,Y为分类标签集合。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,所述获取子模块,具体用于:
根据获取所述生成子模块生成的K个树分类器的错误率;其中,E(T)为所述生成的K个树分类器的错误率,M为所述训练集中训练单元的个数,COOB(r,xr)为所述第r训练单元的第r预测标签,yr为第r训练单元的目标属性。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,还包括:
选取单元,用于在所述生成模块根据预设策略生成与所述第N训练子集相对应的第N树分类器之后,从所述训练集中选取第N’训练子集;其中,所述第N’训练子集与所述第N训练子集的交集为空,所述第N’训练子集包含至少一个训练单元;
第一获取单元,用于根据所述选取单元选取的所述第N’训练子集获取所述第N树分类器的误预测率;
第一获取单元,用于根据所述第一获取单元获取到的所述第N树分类器误预测率获取所述第N树分类器的权重。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,所述预测单元包括:
统计模块,用于统计所述故障产品的属性信息;
预测模块,用于根据所述统计模块统计的所述属性信息将所述分类器集合作为预测模型预测所述故障产品的缺陷得到分类标签集合;
第三获取模块,用于根据所述分类器集合和所述分类器集合中每个树分类器的权重,获取所述分类标签集合中每个分类标签的信任值。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,所述预设策略包括决策树算法。
本发明实施例提供的一种缺陷预测方法及装置,根据目标属性从预存的产品故障记录中选择训练属性集,并根据目标属性和训练属性集组合成训练集生成包含至少2个树分类器的分类器集合,此时当产品出现故障时,便可以将该分类器集合作为预测模型来预测故障产品的缺陷,利用该分类器集合作为预测模型,解决了采用单一决策树容易引起过拟合或欠拟合而导致无法对故障产品进行缺陷预测的问题,并且在实现了对故障产品的缺陷快速定位的同时也提高了对故障产品缺陷预测的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种缺陷预测方法流程图;
图2为本发明实施例2提供的一种缺陷预测方法流程图;
图3为本发明实施例3提供的一种缺陷预测装置组成示意图;
图4为本发明实施例3提供的另一种缺陷预测装置组成示意图;
图5为本发明实施例4提供的一种缺陷预测装置组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供一种缺陷预测方法,如图1所示,该方法可以包括:
101、根据目标属性从预存的产品故障记录中选择训练属性集,并将目标属性和训练属性集组合成训练集。
其中,当一个产品出现故障时,故障检测人员一般情况下都希望能够快速的定位出故障产品的缺陷类型或者导致产品出现故障的器件,以便来节省维修人员的维修的时间,而要实现对故障产品的缺陷类型或者是导致产品出现故障的器件进行快速的定位,可以通过提前训练预测模型来实现,首先故障检测人员可以将生产环节或者使用过程中出现过故障的产品的信息进行收集并将这些信息记录到产品故障记录中,这样当训练预测模型的时候,便可以根据历史故障产品的缺陷属性从提前记录的出现过故障的产品的产品故障记录中选择建立预测模型所必须的属性作为训练属性集,其中,将历史故障产品的缺陷属性定义为目标属性,当根据目标属性选择好训练属性集之后,将目标属性和训练属性集组合生成训练集,具体的,训练集中可以包含多个训练单元,其中每个训练单元中包含一个目标属性和一个训练属性集。
102、根据训练集生成分类器集合;其中,分类器集合包含至少2个树分类器。
其中,当根据目标属性选择好需要的训练属性集,并将目标属性和训练属性集组合成训练集之后,便可以根据训练集生成分类器集合,具体的,该分类器集合中包含至少2个树分类器,每个树分类器根据预设的策略生成,并将生成的所有的树分类器共同组成分类器集合。该预设的策略可以是决策树算法等。
103、将分类器集合作为预测模型预测故障产品的缺陷。
其中,在生产或者使用过程中,若某个产品出现了故障,便可以根据生成的包含至少一个树分类器的分类器集合快速并准确的定位出该故障产品的缺陷。
本发明实施例提供的一种缺陷预测方法,根据目标属性从预存的产品故障记录中选择训练属性集,并根据目标属性和训练属性集组合成训练集生成包含至少2个树分类器的分类器集合,此时当产品出现故障时,便可以将该分类器集合作为预测模型来预测故障产品的缺陷,利用该分类器集合作为预测模型,解决了采用单一决策树容易引起过拟合或欠拟合而导致无法对故障产品进行缺陷预测的问题,并且在实现了对故障产品的缺陷快速定位的同时也提高了对故障产品缺陷预测的准确率。
实施例2
本发明实施例提供一种缺陷预测方法,如图2所示,该方法可以包括:
201、根据目标属性从预存的产品故障记录中选择训练属性集,并将目标属性和训练属性集组合成训练集。
具体的,当一个产品在生产过程中或者使用过程中出现故障时,一般情况下故障检测人员都希望可以快速的定位故障产品的缺陷类型或者出现故障的器件,而对于任何一种产品来说,故障或缺陷的出现都与该产品的客观信息有一定的关联性,例如,产品的型号、使用环境、原料来源等等。为了实现在产品出现故障或者缺陷时,能够快速的定位故障产品的缺陷类型或者出现故障的器件,可以从生产环节或者使用过程中出现过故障的产品的产品故障记录中选择出建立预测模型需要的属性,并将选择出来的属性组成训练集,利用该训练集来建立预测模型。
其中,首先要做的就是收集生产环节或者使用过程中的出现过故障的产品的属性信息,并将每个故障产品的属性信息记录下来。属性信息具体的可以分为以下几类:描述产品特征的属性、描述使用环境的属性、描述生产环节的属性以及缺陷属性。其中,描述产品特性的属性可以是产品名称、产品型号、组成部件等;描述使用环境的属性可以是使用周期、使用地点、使用气候等;描述生产环节的属性可以是生产日期、加工部门、检测记录等;缺陷属性则可以是缺陷类型、缺陷现象、缺陷根因、缺陷器件等。
需要说明的是,本发明实施例对记录的故障产品的属性信息的分类以及每种分类下记录的属性信息的种类不作限制,对记录故障产品的属性信息的形式也不作限制。
其次,由于对于故障产品来说,记录的属性信息有很多,而有些属性不是建立预测模型所必须要使用的属性,也就是说某些属性对判断故障产品的缺陷的作用不大,因此接下来要做的就是对故障产品的属性信息进行筛选。可以理解的是,历史故障记录中记录的故障产品的属性信息中的缺陷属性也极有可能是将来出现故障的产品故障,即是将来出现故障的产品需要进行预测的属性,因此为了方便本领域技术人员的理解,我们将历史故障产品的缺陷属性称为目标属性,将根据历史故障产品的缺陷属性挑选出与其关联性较大的属性称为训练属性集,我们可以将目标属性和训练属性集组成训练集,这样便可以利用训练集来建立预测模型。筛选过程具体的可以是:针对目标属性,对记录的属性信息进行筛选,可以选出X个属性形成训练属性集,其中X可以是记录的属性信息中的全部属性,也可以是1个属性。例如,历史故障产品的缺陷属性为缺陷类型,即可以定义目标属性Y={缺陷类型},记录的故障产品的属性信息包括:产品名称、产品型号、组成部件、使用周期、使用地点、使用气候、生产日期、加工部门、检测记录、缺陷类型、缺陷现象、缺陷根因、缺陷器件,那么我们可以利用预设的规则在记录的故障产品的历史故障记录中的属性信息中选择建立预测模型所需要的属性来组成训练属性集,假设我们选出来的属性为:产品名称、生产日期、加工部门、使用周期,即可以定义训练属性集X={产品名称、生产日期、加工部门、使用周期},这样即可以定义训练集T={产品名称、生产日期、加工部门、使用周期、缺陷类型},当选出目标属性和训练属性集之后,便可以根据目标属性和训练属性集从历史故障记录中选取多个故障产品相对应的属性来生成训练集,该训练属性集中包含M个训练单元,每个训练单元包含一个历史故障产品的目标属性和训练属性集。其中,对于训练属性集中属性的选择有2个要求:一是利用训练属性集建立的预测目标属性的预测模型的准确率要高,这点要求可以通过重复的针对该目标属性选择不同的训练属性集组成训练集,并验证由不同生成的训练集建立的预测模型的准确性,从中选择准确性最高的作为建立预测模型所需的训练集,并可以将已知的缺陷的故障产品的目标属性去掉,将该故障产品在生产和制造过程中的属性信息作为测试数据,来检测生成的树分类器准确性;二是训练属性集里的属性在故障产品被检测前是可获得的,例如,在上述记录的故障产品的属性信息中缺陷器件不能作为训练属性集中的属性,因为在故障检测前,并不能获知该故障产品是那个器件出现了故障。
需要说明的是,训练属性集的具体选择规则可以是遍历的方法,也可以是通过计算和目标属性的相关性来选出相关性最大的前X个属性作为训练属性集。计算和目标属性的相关性的选择方法是较为常用的方法,其中计算相关性的算法也有很多,一种最简单的相关性的计算方法是计算各属性和目标属性同时出现的频率,同时出现的频率越高,相关性便越大。在本发明实施例中,对训练属性集的选择方法及选择某些方法时需要运用的算法不作限制。
202、根据训练集生成分类器集合;其中,分类器集合包含至少2个树分类器。
其中,在根据目标属性从预存的产品故障记录中选择训练属性集,并组合成训练集之后,便可以根据训练集生成分类器集合。可以理解的是,目标属性和训练属性集组成的训练集可以包含M个训练单元,其中每个训练单元包含一个目标属性和一个训练属性集,即训练集T={(Xr,Yr),r=1,2,…M},其中(X1,Y1)即为第一训练单元。
根据训练集T={(Xr,Yr),r=1,2,…M}生成一个分类器集合C={Cj,j=1,2,…N}具体的可以是分为以下步骤,202a、202b及202c:
202a、从训练集中选取第N训练子集;其中N为大于等于2的整数。
其中,从训练集T={(Xr,Yr),r=1,2,…M}中选取第N训练子集,该第N训练子集包含M’个训练单元,M’小于等于M,选取方法可以为可放回的随机抽样,本发明实施例在此不作限制。例如,可以从训练集中选取第一训练子集,第二训练子集...第N训练子集。
202b、根据预设策略生成与该第N训练子集相对应的第N树分类器。
其中,在从训练集中选取到第N训练子集之后,可以根据预设的策略生成与该第N训练子集相对应的第N树分类器。该预设策略可以是生成树算法,具体的可以理解的是:将从训练集中选择的第N训练子集作为根节点,并按照分离算法选择分离属性和分离谓词,将根节点按照分离属性和分离谓词进行分裂,得到两个分支,对于每一个分支中的属性可以利用属性选择策略进行选择,然后对分支继续进行按照分离算法进行分裂,重复上述步骤直到得到最终生成的分支可以确定目标属性,最后再根据树裁剪策略对生成的树分类器进行检测。例如训练集T={产品名称、生产日期、加工部门、使用周期、缺陷类型},其中包含M个训练单元,第N训练子集为包含M’个训练单元的集合并将该第N训练子集作为根节点,假设根据分离算法选择分离属性为使用周期、分离谓词为使用周期大于50天和使用周期小于等于50天,这样便可以根据分离属性和分离谓词将根节点分为2个分支,可以再继续选择分离属性和分离谓词进行分裂,直到可以确定目标属性。
其中,上述树分类器生成过程中使用的分离算法包括但不限于信息熵检验、基尼索引检验、开方检验、增益率检验;属性选择可以包括随机单个属性选择和随机多个属性选择,属性选择策略本发明实施例不作限制;树裁剪策略包括但不限于预裁剪策略、后裁剪策略。
202c、重复以上步骤202a、202b,生成N个树分类器,并将N个树分类器组合生成分类器集合。
其中,本发明实施例中的生成的树分类器的个数N可以是预先设置的门限值,即当生成的树分类器的个数达到预定的门限值时,便可以将生成的N个树分类器组成生成分类器集合,例如当预设的门限值N为5时,分类器集合C={C1,C2,C3,C4,C5}。何时生成分类器集合也可以是通过计算生成的K个树分类器的错误率和生成的K-1个树分类器的错误率的差值来决定,具体的,当生成第K-1树分类器时,可以计算生成的K-1个树分类器的错误率,并且当生成第K树分类器时,计算生成的K个树分类器的错误率,这样当计算得到K个树分类器的错误率和K-1个树分类器的错误率的差值小于预设的阈值时,便将生成的K个树分类器组合生成分类器集合,其中,K为小于等于N的整数。
当生成第K树分类器时,生成的K个树分类器的错误率的计算方法为:对于训练集中的每一个训练单元,计算其预测标签,并根据该预测标签得到生成的K个树分类器的错误率。具体的,根据第一训练单元从分类器集合中选取第一类树分类器,并根据第一类树分类器生成第一训练单元的第一预测标签;根据第二训练单元从分类器集合中选取第二类树分类器,并根据第二类树分类器生成第二训练单元的第二预测标签,...根据第M训练单元从分类器集合中选取第M类树分类器,并根据第M类树分类器生成第M训练单元的第M预测标签;重复上述步骤,直到针对训练集中的每一个训练单元都对应计算出来该训练单元对应的预测标签再结束,最后根据计算出来的M个预测标签得到生成的K个树分类器的错误率。其中,第M类树分类器为未使用第M训练单元生成树分类器的分类器集合。
预测标签具体计算过程为,假设对于训练集中的第r训练单元(其中r为大于0,并小于等于M的正整数)来说,分类器集合中的树分类器可以分为两类,一类为使用第r训练单元生成的树分类器,另一类为未使用第r训练单元生成的树分类器,我们将未使用第r训练单元生成的树分类器组成一个集合,并称为第r类树分类器,记作那么第r训练单元的第r预测标签的具体计算公式为:
其中,COOB(r,xr)为第r训练单元的第r预测标签,Cj为第j树分类器,为第r类树分类器,h(εj)为第j树分类器的权重,Cj(xr)为根据第j树分类器和第r训练单元中包含的训练属性集得到的目标属性,y为分类标签,y∈Y,Y为根据第r训练单元和分类器集合得到的分类标签集合,I(x)是指标函数:I(true)=1,I(false)=0。
生成的K个树分类器的错误率的具体计算公式为:
其中,E(T)为生成的K个树分类器的错误率,M为训练集中训练单元的个数,COOB(r,xr)为所述第r训练单元的第r预测标签,yr为第r训练单元的目标属性,I(x)是指标函数:I(true)=1,I(false)=0。
第j树分类器的权重的具体计算过程为:从训练集中选取第j’训练子集,然后根据第j’训练子集获取第j树分类器的误预测率,最后根据第j树分类器误预测率获取第j树分类器的权重。其中,所述第j’训练子集与所述第j训练子集的交集为空,所述第j’训练子集包含至少一个训练单元。具体的:将第j’训练子集记录为r=1,2,…N},其中T″∩T′=φ,T′为生成第j树分类器的第j训练子集,第j树分类器的误预测率的具体计算公式为:
其中,εj为第j树分类器的误预测率,N为第N’训练子集中训练单元的个数,I(x)是指标函数:I(true)=1,I(false)=0,为根据第j树分类器和第r训练单元中包含的训练属性集得到的目标属性,为第r训练单元包含的目标属性。
第j树分类器的权重由公式h(εj)得到,其中,h(x)=1-x或
203、统计故障产品的属性信息。
其中,当需要预测故障产品的缺陷时,可以先统计故障产品的属性信息,该属性信息是故障产品的在生产及使用过程中获得的数据,可以包括:产品名称、产品型号、组成部件、使用周期、使用地点、生产日期、加工部门等。
204、根据属性信息将分类器集合作为预测模型预测故障产品的缺陷得到分类标签集合。
其中,当将故障产品的属性信息统计出来之后,可以利用统计出来的该故障产品的属性信息,将提前训练好的分类器集合作为预测模型,预测故障产品的缺陷,由于生成的分类器集合中包含N个树分类器,因为采用该分类器集合预测出来的故障产品的缺陷将会出现多个预测结果,将预测出来的多个结果作为分类标签集合。采用本发明实施例提供的缺陷预测方法,不仅可以预测出故障产品的缺陷,还可以得到多个预测结果供维修人员参考,当维修人员根据预测出来的第一个预测结果检测故障产品时,发现第一个预测结果不是故障产品的缺陷时,便可以从分类标签集合中选择其他的预测结果来对故障产品进行检测,直到找到故障产品真正的缺陷,这样便可以节约维修人员的时间。
205、根据分类器集合和分类器集合中树分类器的权重,获取分类标签集合中每个分类标签的信任值。
其中,当根据统计出的故障产品的属性信息得到分类标签集合之后,为了让维修人员能够更快的定位出故障产品的缺陷,还可以根据分类器集合和分类器集合中树分类器的权重,计算分类标签集合中每个分类标签的信任值。分类标签的信任值的具体计算方法为:
其中,Y为分类标签集合,y∈Y;Ur(y)为分类标签y的信任值;Z为归一化因子,h(εj)为第j树分类器的权重;I(x)是指标函数:
I(true)=1,I(false)=0;Cj(xr)为根据第j树分类器预测的故障产品的目标属性。
若通过公式计算出Ur(y)=0,则表明该属性信息没有用于y的分类,此外,r可能的缺陷分类标签定义为{y∈YUr(y)>σ}。
本发明实施例提供一种缺陷预测方法,根据目标属性从预存的产品故障记录中选择训练属性集,并根据目标属性和训练属性集组合成训练集生成包含至少2个树分类器的分类器集合,此时当产品出现故障时,便可以将该分类器集合作为预测模型来预测故障产品的缺陷,利用该分类器集合作为预测模型,解决了采用单一决策树容易引起过拟合或欠拟合而导致无法对故障产品进行缺陷预测的问题,并且在实现了对故障产品的缺陷快速定位的同时也提高了对故障产品缺陷预测的准确率。
并且,当将分类器集合作为预测模型预测故障产品的缺陷时,还可以得到多个预测结果,并可以计算出每个预测结果的信任值,节约了维修人员定位缺陷的时间。
实施例3
本发明实施例提供一种缺陷预测装置,如图3所示,包括:处理单元31、生成单元32、预测单元33。
处理单元31,用于根据目标属性从预存的产品故障记录中选择训练属性集,并将所述目标属性和所述训练属性集组合成训练集;其中,所述目标属性为历史故障产品的缺陷属性。
生成单元32,用于根据所述处理单元31得到的训练集生成分类器集合;其中,所述分类器集合包含至少2个树分类器。
预测单元33,用于将所述生成单元32生成的分类器集合作为预测模型预测故障产品的缺陷。
进一步的,所述训练集包含M个训练单元,每个训练单元包含一个目标属性和一个训练属性集。
进一步的,如图4所示,所述生成单元32可以包括:选取模块321、生成模块322、组合模块323。
选取模块321,用于从所述处理单元31得到的所述训练集中选取第一训练子集。
生成模块322,用于根据预设策略生成与所述选取模块321选取的所述第一训练子集相对应的第一树分类器。
所述选取模块321,还用于从所述处理单元31得到的所述训练集中选取第二训练子集。
所述生成模块322,还用于根据预设策略生成与所述选取模块321选取的所述第二训练子集相对应的第二树分类器。
所述选取模块321,还用于从所述处理单元31得到的所述训练集中选取第N训练子集;其中,所述第N训练子集包含M’个训练单元,所述M’小于等于所述M。
所述生成模块322,还用于根据预设策略生成与所述选取模块321选取的所述第N训练子集相对应的第N树分类器;其中,所述N为大于等于2的整数。
组合模块323,用于将所述生成模块322生成的N个树分类器组合生成所述分类器集合。
进一步的,所述生成单元32还可以包括:第一获取模块324、第二获取模块325。
第一获取模块324,用于当生成第K-1树分类器时,获取生成的K-1个树分类器的错误率。
第二获取模块325,用于当生成第K树分类器时,获取生成的K个树分类器的错误率;以便当所述K个树分类器的错误率和所述K-1个树分类器的错误率的差值小于预设的阈值时,将所述K个树分类器组合生成所述分类器集合;其中,所述K为小于等于N的整数。
进一步的,所述第二获取模块325可以包括:选取子模块3251、生成子模块3252、获取子模块3253。
选取子模块3251,用于根据第一训练单元从所述分类器集合中选取第一类树分类器。
生成子模块3252,用于根据所述选取子模块3251选取的所述第一类树分类器生成所述第一训练单元的第一预测标签。
所述选取子模块3251,还用于根据第二训练单元从所述分类器集合中选取第二类树分类器。
所述生成子模块3252,还用于根据所述选取子模块3251选取的所述第二类树分类器生成所述第二训练单元的第二预测标签。
所述选取子模块3251,还用于根据第M训练单元从所述分类器集合中选取第M类树分类器;其中,所述第M类树分类器为未使用第M训练单元生成树分类器的分类器集合,所述M为训练集中包含训练单元的个数。
所述生成子模块3252,还用于根据所述选取子模块3251选取的所述第M类树分类器生成所述第M训练单元的第M预测标签。
获取子模块3253,用于根据所述生成子模块3252生成的M个预测标签获取所述生成的K个树分类器的错误率。
进一步的,所述生成子模块3252具体用于:根据生成所述第M预测标签;其中,COOB(M,xM)为所述第M训练单元的第M预测标签,Cj为第j树分类器,为所述第M类树分类器,h(εj)为第j树分类器的权重,Cj(xM)为根据所述第j树分类器和所述第M训练单元中包含的训练属性集得到的目标属性,y∈Y,Y为分类标签集合。
进一步的,所述获取子模块3253具体用于:根据获取所述生成子模块3252生成的K个树分类器的错误率;其中,E(T)为所述生成的K个树分类器的错误率,M为所述训练集中训练单元的个数,COOB(r,xr)为所述第r训练单元的第r预测标签,yr为第r训练单元的目标属性。
进一步的,该装置还可以包括:选取单元34、第一获取单元35、第二获取单元36。
选取单元34,用于在所述生成模块322根据预设策略生成与所述第N训练子集相对应的第N树分类器之后,从所述训练集中选取第N’训练子集;其中,所述第N’训练子集与所述第N训练子集的交集为空,所述第N’训练子集包含至少一个训练单元。
第一获取单元35,用于根据所述选取单元34选取的所述第N’训练子集获取所述第N树分类器的误预测率。
第二获取单元36,用于根据所述第一获取单元35获取到的所述第N树分类器误预测率获取所述第N树分类器的权重。
进一步的,所述预测单元33可以包括:统计模块331、预测模块332、第三获取模块333。
统计模块331,用于统计所述故障产品的属性信息。
预测模块332,用于根据所述统计模块331统计的所述属性信息将所述分类器集合作为预测模型预测所述故障产品的缺陷得到分类标签集合。
第三获取模块333,用于根据所述分类器集合和所述分类器集合中每个树分类器的权重,获取所述分类标签集合中每个分类标签的信任值。
本发明实施例提供一种缺陷预测装置,根据目标属性从预存的产品故障记录中选择训练属性集,并根据目标属性和训练属性集组合成训练集生成包含至少2个树分类器的分类器集合,此时当产品出现故障时,便可以将该分类器集合作为预测模型来预测故障产品的缺陷,利用该分类器集合作为预测模型,解决了采用单一决策树容易引起过拟合或欠拟合而导致无法对故障产品进行缺陷预测的问题,并且在实现了对故障产品的缺陷快速定位的同时也提高了对故障产品缺陷预测的准确率。
并且,当将分类器集合作为预测模型预测故障产品的缺陷时,还可以得到多个预测结果,并可以计算出每个预测结果的信任值,节约了维修人员定位缺陷的时间。
实施例4
本发明实施例提供一种缺陷预测装置,如图5所示,包括:至少一个处理器41、存储器42、通信接口43和总线44,该至少一个处理器41、存储器42和通信接口43通过总线44连接并完成相互间的通信,其中:
所述总线44可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。所述总线44可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
所述存储器42用于存储可执行程序代码,该程序代码包括计算机操作指令。存储器42可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
所述处理器41可能是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
所述通信接口43,主要用于实现本实施例的设备之间的通信。
所述处理器41执行所述程序代码,用于根据目标属性从预存的产品故障记录中选择训练属性集,并将所述目标属性和所述训练属性集组合成训练集;其中,所述目标属性为历史故障产品的缺陷属性,根据所述训练集生成分类器集合;其中,所述分类器集合包含至少2个树分类器,并将生成的分类器集合作为预测模型预测故障产品的缺陷。
进一步的,所述训练集包含M个训练单元,每个训练单元包含一个目标属性和一个训练属性集。所述处理器41,还用于从所述训练集中选取第一训练子集,根据预设策略生成与所述第一训练子集相对应的第一树分类器;从所述训练集中选取第二训练子集,根据预设策略生成与所述第二训练子集相对应的第二树分类器;从所述训练集中选取第N训练子集,根据预设策略生成与所述第N训练子集相对应的第N树分类器,最后将生成的N个树分类器组合生成所述分类器集合。其中,所述第N训练子集包含M’个训练单元,所述M’小于等于所述M,所述N为大于等于2的整数。
进一步的,所述处理器41,还用于当生成第K-1树分类器时,获取生成的K-1个树分类器的错误率,并且当生成第K树分类器时,获取生成的K个树分类器的错误率,以便当所述K个树分类器的错误率和所述K-1个树分类器的错误率的差值小于预设的阈值时,将所述K个树分类器组合生成所述分类器集合;其中,所述K为小于等于N的整数。
进一步的,所述处理器41,还用于根据第一训练单元从所述分类器集合中选取第一类树分类器,根据所述第一类树分类器生成所述第一训练单元的第一预测标签;根据第二训练单元从所述分类器集合中选取第二类树分类器,根据所述第二类树分类器生成所述第二训练单元的第二预测标签;根据第M训练单元从所述分类器集合中选取第M类树分类器;根据所述第M类树分类器生成所述第M训练单元的第M预测标签,最后根据生成的M个预测标签获取所述生成的K个树分类器的错误率。其中,所述第M类树分类器为未使用第M训练单元生成树分类器的分类器集合,所述M为训练集中包含训练单元的个数。
进一步的,所述处理器41还用于:根据生成所述第M预测标签;其中,COOB(M,xM)为所述第M训练单元的第M预测标签,Cj为第j树分类器,为所述第M类树分类器,h(εj)为第j树分类器的权重,Cj(xM)为根据所述第j树分类器和所述第M训练单元中包含的训练属性集得到的目标属性,y∈Y,Y为分类标签集合。并根据获取生成的K个树分类器的错误率;其中,E(T)为所述生成的K个树分类器的错误率,M为所述训练集中训练单元的个数,COOB(r,xr)为所述第r训练单元的第r预测标签,yr为第r训练单元的目标属性。
进一步的,所述处理器41,还用于在所述根据预设策略生成与所述第N训练子集相对应的第N树分类器之后,从所述训练集中选取第N’训练子集,根据所述第N’训练子集获取所述第N树分类器的误预测率,根据所述第N树分类器误预测率获取所述第N树分类器的权重。其中,所述第N’训练子集与所述第N训练子集的交集为空,所述第N’训练子集包含至少一个训练单元。
进一步的,所述处理器41,还用于统计所述故障产品的属性信息,根据所述属性信息将所述分类器集合作为预测模型预测所述故障产品的缺陷得到分类标签集合,并根据所述分类器集合和所述分类器集合中树分类器的权重,获取所述分类标签集合中每个分类标签的信任值。
进一步的,所述预设策略包括决策树算法。
本发明实施例提供一种缺陷预测装置,根据目标属性从预存的产品故障记录中选择训练属性集,并根据目标属性和训练属性集组合成训练集生成包含至少2个树分类器的分类器集合,此时当产品出现故障时,便可以将该分类器集合作为预测模型来预测故障产品的缺陷,利用该分类器集合作为预测模型,解决了采用单一决策树容易引起过拟合或欠拟合而导致无法对故障产品进行缺陷预测的问题,并且在实现了对故障产品的缺陷快速定位的同时也提高了对故障产品缺陷预测的准确率。
并且,当将分类器集合作为预测模型预测故障产品的缺陷时,还可以得到多个预测结果,并可以计算出每个预测结果的信任值,节约了维修人员定位缺陷的时间。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (16)
1.一种缺陷预测方法,其特征在于,包括:
根据目标属性从预存的产品故障记录中选择训练属性集,并将所述目标属性和所述训练属性集组合成训练集;其中,所述目标属性为历史故障产品的缺陷属性;
根据所述训练集生成分类器集合;其中,所述分类器集合包含至少2个树分类器,所述分类器集合包含的所述树分类器的个数为N;
当生成第K-1树分类器时,获取生成的K-1个树分类器的错误率;
当生成第K树分类器时,获取生成的K个树分类器的错误率;以便当所述K个树分类器的错误率和所述K-1个树分类器的错误率的差值小于预设的阈值时,将所述K个树分类器组合生成所述分类器集合;其中,所述K为小于等于N的整数;
将所述分类器集合作为预测模型预测故障产品的缺陷。
2.根据权利要求1所述的缺陷预测方法,其特征在于,所述训练集包含M个训练单元,每个训练单元包含一个目标属性和一个训练属性集;
所述根据所述训练集生成分类器集合,包括:
从所述训练集中选取第一训练子集;
根据预设策略生成与所述第一训练子集相对应的第一树分类器;
从所述训练集中选取第二训练子集;
根据预设策略生成与所述第二训练子集相对应的第二树分类器;
从所述训练集中选取第N训练子集;其中,所述第N训练子集包含M’个训练单元,所述M’小于等于所述M;
根据预设策略生成与所述第N训练子集相对应的第N树分类器;其中,所述N为大于等于2的整数;
将N个树分类器组合生成所述分类器集合。
3.根据权利要求1所述的缺陷预测方法,其特征在于,所述当生成第K树分类器时,获取生成的K个树分类器的错误率,包括:
根据第一训练单元从所述分类器集合中选取第一类树分类器;
根据所述第一类树分类器生成所述第一训练单元的第一预测标签;
根据第二训练单元从所述分类器集合中选取第二类树分类器;
根据所述第二类树分类器生成所述第二训练单元的第二预测标签;
根据第M训练单元从所述分类器集合中选取第M类树分类器;其中,所述第M类树分类器为未使用第M训练单元生成树分类器的分类器集合,所述M为训练集中包含训练单元的个数;
根据所述第M类树分类器生成所述第M训练单元的第M预测标签;
根据M个预测标签获取所述生成的K个树分类器的错误率。
4.根据权利要求3所述的缺陷预测方法,其特征在于,所述根据所述第M类树分类器生成所述第M训练单元的第M预测标签,具体包括:
根据生成所述第M预测标签;其中,COOB(M,xM)为所述第M训练单元的第M预测标签,Cj为第j树分类器,为所述第M类树分类器,h(εj)为第j树分类器的权重,Cj(xM)为根据所述第j树分类器和所述第M训练单元中包含的训练属性集得到的目标属性,y∈Y,Y为分类标签集合。
5.根据权利要求4所述的缺陷预测方法,其特征在于,所述根据M个预测标签获取所述生成的K个树分类器的错误率,具体包括:
根据获取所述生成的K个树分类器的错误率;其中,E(T)为所述生成的K个树分类器的错误率,M为所述训练集中训练单元的个数,COOB(r,xr)为所述第r训练单元的第r预测标签,yr为第r训练单元的目标属性。
6.根据权利要求2所述的缺陷预测方法,其特征在于,在所述根据预设策略生成与所述第N训练子集相对应的第N树分类器之后,还包括:
从所述训练集中选取第N’训练子集;其中,所述第N’训练子集与所述第N训练子集的交集为空,所述第N’训练子集包含至少一个训练单元;
根据所述第N’训练子集获取所述第N树分类器的误预测率;
根据所述第N树分类器误预测率获取所述第N树分类器的权重。
7.根据权利要求6所述的缺陷预测方法,其特征在于,所述将所述分类器集合作为预测模型预测故障产品的缺陷,包括:
统计所述故障产品的属性信息;
根据所述属性信息将所述分类器集合作为预测模型预测所述故障产品的缺陷得到分类标签集合;
根据所述分类器集合和所述分类器集合中每个树分类器的权重,获取所述分类标签集合中每个分类标签的信任值。
8.根据权利要求2、6、7中任一权利要求所述的缺陷预测方法,其特征在于,所述预设策略包括决策树算法。
9.一种缺陷预测装置,其特征在于,包括:
处理单元,用于根据目标属性从预存的产品故障记录中选择训练属性集,并将所述目标属性和所述训练属性集组合成训练集;其中,所述目标属性为历史故障产品的缺陷属性;
生成单元,用于根据所述处理单元得到的训练集生成分类器集合;其中,所述分类器集合包含至少2个树分类器,所述分类器集合包含的所述树分类器的个数为N;
所述生成单元包括:
第一获取模块,用于当生成第K-1树分类器时,获取生成的K-1个树分类器的错误率;
第二获取模块,用于当生成第K树分类器时,获取生成的K个树分类器的错误率;以便当所述K个树分类器的错误率和所述K-1个树分类器的错误率的差值小于预设的阈值时,将所述K个树分类器组合生成所述分类器集合;其中,所述K为小于等于N的整数;
预测单元,用于将所述生成单元生成的分类器集合作为预测模型预测故障产品的缺陷。
10.根据权利要求9所述的缺陷预测装置,其特征在于,所述训练集包含M个训练单元,每个训练单元包含一个目标属性和一个训练属性集;
所述生成单元,包括:
选取模块,用于从所述处理单元得到的所述训练集中选取第一训练子集;
生成模块,用于根据预设策略生成与所述选取模块选取的所述第一训练子集相对应的第一树分类器;
所述选取模块,还用于从所述处理单元得到的所述训练集中选取第二训练子集;
所述生成模块,还用于根据预设策略生成与所述选取模块选取的所述第二训练子集相对应的第二树分类器;
所述选取模块,还用于从所述处理单元得到的所述训练集中选取第N训练子集;其中,所述第N训练子集包含M’个训练单元,所述M’小于等于所述M;
所述生成模块,还用于根据预设策略生成与所述选取模块选取的所述第N训练子集相对应的第N树分类器;其中,所述N为大于等于2的整数;
组合模块,用于将所述生成模块生成的N个树分类器组合生成所述分类器集合。
11.根据权利要求9所述的缺陷预测装置,其特征在于,所述第二获取模块,包括:
选取子模块,用于根据第一训练单元从所述分类器集合中选取第一类树分类器;
生成子模块,用于根据所述选取子模块选取的所述第一类树分类器生成所述第一训练单元的第一预测标签;
所述选取子模块,还用于根据第二训练单元从所述分类器集合中选取第二类树分类器;
所述生成子模块,还用于根据所述选取子模块选取的所述第二类树分类器生成所述第二训练单元的第二预测标签;
所述选取子模块,还用于根据第M训练单元从所述分类器集合中选取第M类树分类器;其中,所述第M类树分类器为未使用第M训练单元生成树分类器的分类器集合,所述M为训练集中包含训练单元的个数;
所述生成子模块,还用于根据所述选取子模块选取的所述第M类树分类器生成所述第M训练单元的第M预测标签;
获取子模块,用于根据所述生成子模块生成的M个预测标签获取所述生成的K个树分类器的错误率。
12.根据权利要求11所述的缺陷预测装置,其特征在于,所述生成子模块,具体用于:
根据生成所述第M预测标签;其中,COOB(M,xM)为所述第M训练单元的第M预测标签,Cj为第j树分类器,为所述第M类树分类器,h(εj)为第j树分类器的权重,Cj(xM)为根据所述第j树分类器和所述第M训练单元中包含的训练属性集得到的目标属性,y∈Y,Y为分类标签集合。
13.根据权利要求12所述的缺陷预测装置,其特征在于,所述获取子模块,具体用于:
根据获取所述生成子模块生成的K个树分类器的错误率;其中,E(T)为所述生成的K个树分类器的错误率,M为所述训练集中训练单元的个数,COOB(r,xr)为所述第r训练单元的第r预测标签,yr为第r训练单元的目标属性。
14.根据权利要求10所述的缺陷预测装置,其特征在于,还包括:
选取单元,用于在所述生成模块根据预设策略生成与所述第N训练子集相对应的第N树分类器之后,从所述训练集中选取第N’训练子集;其中,所述第N’训练子集与所述第N训练子集的交集为空,所述第N’训练子集包含至少一个训练单元;
第一获取单元,用于根据所述选取单元选取的所述第N’训练子集获取所述第N树分类器的误预测率;
第二获取单元,用于根据所述第一获取单元获取到的所述第N树分类器误预测率获取所述第N树分类器的权重。
15.根据权利要求14所述的缺陷预测装置,其特征在于,所述预测单元包括:
统计模块,用于统计所述故障产品的属性信息;
预测模块,用于根据所述统计模块统计的所述属性信息将所述分类器集合作为预测模型预测所述故障产品的缺陷得到分类标签集合;
第三获取模块,用于根据所述分类器集合和所述分类器集合中每个树分类器的权重,获取所述分类标签集合中每个分类标签的信任值。
16.根据权利要求10、14、15中任一权利要求所述的缺陷预测装置,其特征在于,所述预设策略包括决策树算法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310066324.0A CN104021264B (zh) | 2013-02-28 | 2013-02-28 | 一种缺陷预测方法及装置 |
EP13876166.3A EP2854053B1 (en) | 2013-02-28 | 2013-07-29 | Defect prediction method and device |
PCT/CN2013/080279 WO2014131262A1 (zh) | 2013-02-28 | 2013-07-29 | 一种缺陷预测方法及装置 |
US14/587,724 US10068176B2 (en) | 2013-02-28 | 2014-12-31 | Defect prediction method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310066324.0A CN104021264B (zh) | 2013-02-28 | 2013-02-28 | 一种缺陷预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104021264A CN104021264A (zh) | 2014-09-03 |
CN104021264B true CN104021264B (zh) | 2017-06-20 |
Family
ID=51427505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310066324.0A Active CN104021264B (zh) | 2013-02-28 | 2013-02-28 | 一种缺陷预测方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10068176B2 (zh) |
EP (1) | EP2854053B1 (zh) |
CN (1) | CN104021264B (zh) |
WO (1) | WO2014131262A1 (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015090774A1 (en) | 2013-12-17 | 2015-06-25 | Asml Netherlands B.V. | Yield estimation and control |
US9471452B2 (en) * | 2014-12-01 | 2016-10-18 | Uptake Technologies, Inc. | Adaptive handling of operating data |
US9898811B2 (en) * | 2015-05-08 | 2018-02-20 | Kla-Tencor Corporation | Method and system for defect classification |
US10437702B2 (en) * | 2016-02-29 | 2019-10-08 | B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University | Data-augmented software diagnosis method and a diagnoser therefor |
US10229169B2 (en) * | 2016-03-15 | 2019-03-12 | International Business Machines Corporation | Eliminating false predictors in data-mining |
CN106054104B (zh) * | 2016-05-20 | 2019-01-11 | 国网新疆电力公司电力科学研究院 | 一种基于决策树的智能电表故障实时预测方法 |
CN107888397B (zh) * | 2016-09-30 | 2020-12-25 | 华为技术有限公司 | 确定故障类型的方法和装置 |
US11086761B2 (en) * | 2017-03-20 | 2021-08-10 | Devfactory Innovations Fz-Llc | Defect prediction operation |
US10789550B2 (en) * | 2017-04-13 | 2020-09-29 | Battelle Memorial Institute | System and method for generating test vectors |
CN110197187A (zh) * | 2018-02-24 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 对用户流失进行预测的方法、设备、存储介质以及处理器 |
CN108985465A (zh) * | 2018-05-21 | 2018-12-11 | 许继电气股份有限公司 | 一种换流站故障分类方法及系统 |
CN108776808A (zh) * | 2018-05-25 | 2018-11-09 | 北京百度网讯科技有限公司 | 一种用于检测钢包溶蚀缺陷的方法和装置 |
US11604441B2 (en) | 2018-06-15 | 2023-03-14 | Johnson Controls Tyco IP Holdings LLP | Automatic threshold selection of machine learning/deep learning model for anomaly detection of connected chillers |
US11859846B2 (en) | 2018-06-15 | 2024-01-02 | Johnson Controls Tyco IP Holdings LLP | Cost savings from fault prediction and diagnosis |
CN110196792B (zh) * | 2018-08-07 | 2022-06-14 | 腾讯科技(深圳)有限公司 | 故障预测方法、装置、计算设备及存储介质 |
CN109214527B (zh) * | 2018-08-09 | 2020-10-30 | 南瑞集团有限公司 | 一种变压器故障早期诊断预警方法和系统 |
CN109491914B (zh) * | 2018-11-09 | 2021-11-30 | 大连海事大学 | 基于不平衡学习策略高影响缺陷报告预测方法 |
CN109657718B (zh) * | 2018-12-19 | 2023-02-07 | 广东省智能机器人研究院 | 一种数据驱动的smt生产线上spi缺陷类别智能识别方法 |
CN109739902A (zh) * | 2018-12-29 | 2019-05-10 | 联想(北京)有限公司 | 一种数据分析方法、设备及计算机可读存储介质 |
CN110796288B (zh) * | 2019-09-29 | 2022-05-03 | 宁波海上鲜信息技术有限公司 | 一种信息推送方法、装置及存储介质 |
CN110888798B (zh) * | 2019-10-14 | 2022-11-04 | 西安理工大学 | 一种基于图卷积神经网络对软件缺陷预测方法 |
CN112785101A (zh) * | 2019-11-06 | 2021-05-11 | 中国石油化工股份有限公司 | 存储器、炼油化工设备缺陷处置方法、装置和设备 |
CN113011690A (zh) * | 2019-12-19 | 2021-06-22 | 华为技术有限公司 | 用于产品缺陷定位的模型的训练及选择方法和装置 |
US11410064B2 (en) * | 2020-01-14 | 2022-08-09 | International Business Machines Corporation | Automated determination of explanatory variables |
CN111259953B (zh) * | 2020-01-15 | 2023-10-20 | 云南电网有限责任公司电力科学研究院 | 一种基于电容型设备缺陷数据的设备缺陷时间预测方法 |
CN111291105B (zh) * | 2020-01-21 | 2023-12-15 | 江门荣信电路板有限公司 | 一种pcb板检验数据处理方法、装置和存储介质 |
US11175973B1 (en) * | 2020-05-11 | 2021-11-16 | International Business Machines Corporation | Prediction of performance degradation with non-linear characteristics |
CN113297045B (zh) * | 2020-07-27 | 2024-03-08 | 阿里巴巴集团控股有限公司 | 分布式系统的监控方法及装置 |
CN111968098A (zh) * | 2020-08-24 | 2020-11-20 | 广东工业大学 | 一种带钢表面缺陷检测方法、装置和设备 |
CN112506483B (zh) * | 2020-12-04 | 2024-04-05 | 北京五八信息技术有限公司 | 数据增广方法、装置、电子设备及存储介质 |
CN113204482B (zh) * | 2021-04-21 | 2022-09-13 | 武汉大学 | 基于语义属性子集划分与度量匹配的异质缺陷预测方法及系统 |
CN113656390A (zh) * | 2021-08-13 | 2021-11-16 | 国网辽宁省电力有限公司信息通信分公司 | 一种基于缺陷设备的电力设备缺陷标签画像方法 |
CN115269377B (zh) * | 2022-06-23 | 2023-07-11 | 南通大学 | 一种基于优化实例选择的跨项目软件缺陷预测方法 |
CN116993327B (zh) * | 2023-09-26 | 2023-12-15 | 国网安徽省电力有限公司经济技术研究院 | 用于变电站的缺陷定位系统及其方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1575210A1 (en) * | 2004-03-10 | 2005-09-14 | Sun Microsystems, Inc. | Method and apparatus for hybrid group key management |
CN101556553A (zh) * | 2009-03-27 | 2009-10-14 | 中国科学院软件研究所 | 基于需求变更的缺陷预测方法和系统 |
CN102622510A (zh) * | 2012-01-31 | 2012-08-01 | 龚波 | 一种软件缺陷量化管理系统和方法 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5991699A (en) | 1995-05-04 | 1999-11-23 | Kla Instruments Corporation | Detecting groups of defects in semiconductor feature space |
EP0786725A1 (en) | 1995-10-30 | 1997-07-30 | Texas Instruments Incorporated | Improvements in or relating to the prediction of product defects |
US6148099A (en) * | 1997-07-03 | 2000-11-14 | Neopath, Inc. | Method and apparatus for incremental concurrent learning in automatic semiconductor wafer and liquid crystal display defect classification |
US6513025B1 (en) * | 1999-12-09 | 2003-01-28 | Teradyne, Inc. | Multistage machine learning process |
US7536677B2 (en) | 2003-12-19 | 2009-05-19 | International Business Machines Corporation | Method, system, and product for determining defect detection efficiency |
WO2006098766A2 (en) * | 2004-09-17 | 2006-09-21 | Proximex | Incremental data fusion and decision making system and associated method |
US7996219B2 (en) * | 2005-03-21 | 2011-08-09 | At&T Intellectual Property Ii, L.P. | Apparatus and method for model adaptation for spoken language understanding |
CA2605143A1 (en) | 2005-04-15 | 2006-10-26 | Becton, Dickinson And Company | Diagnosis of sepsis |
US7614043B2 (en) | 2005-08-26 | 2009-11-03 | Microsoft Corporation | Automated product defects analysis and reporting |
US7451009B2 (en) | 2005-09-07 | 2008-11-11 | General Instrument Corporation | Method and apparatus for product defect classification |
US20070124235A1 (en) | 2005-11-29 | 2007-05-31 | Anindya Chakraborty | Method and system for income estimation |
GB2434225A (en) | 2006-01-13 | 2007-07-18 | Cytokinetics Inc | Random forest modelling of cellular phenotypes |
JP4644613B2 (ja) * | 2006-02-27 | 2011-03-02 | 株式会社日立ハイテクノロジーズ | 欠陥観察方法及びその装置 |
US20070260563A1 (en) * | 2006-04-17 | 2007-11-08 | International Business Machines Corporation | Method to continuously diagnose and model changes of real-valued streaming variables |
WO2008036691A2 (en) | 2006-09-19 | 2008-03-27 | Metabolon, Inc. | Biomarkers for prostate cancer and methods using the same |
US9330127B2 (en) * | 2007-01-04 | 2016-05-03 | Health Care Productivity, Inc. | Methods and systems for automatic selection of classification and regression trees |
JP5095315B2 (ja) | 2007-09-05 | 2012-12-12 | 富士フイルム株式会社 | ペロブスカイト型酸化物、強誘電体膜とその製造方法、強誘電体素子、及び液体吐出装置 |
US8306942B2 (en) * | 2008-05-06 | 2012-11-06 | Lawrence Livermore National Security, Llc | Discriminant forest classification method and system |
US8165826B2 (en) | 2008-09-30 | 2012-04-24 | The Boeing Company | Data driven method and system for predicting operational states of mechanical systems |
US8140514B2 (en) | 2008-11-26 | 2012-03-20 | Lsi Corporation | Automatic classification of defects |
US8676432B2 (en) * | 2010-01-13 | 2014-03-18 | GM Global Technology Operations LLC | Fault prediction framework using temporal data mining |
CN101799320B (zh) * | 2010-01-27 | 2011-05-25 | 北京信息科技大学 | 一种旋转设备故障预测方法及其装置 |
US8924313B2 (en) * | 2010-06-03 | 2014-12-30 | Xerox Corporation | Multi-label classification using a learned combination of base classifiers |
CN102928720B (zh) * | 2012-11-07 | 2015-02-11 | 广东电网公司 | 油浸式主变压器的缺陷率检测方法 |
-
2013
- 2013-02-28 CN CN201310066324.0A patent/CN104021264B/zh active Active
- 2013-07-29 WO PCT/CN2013/080279 patent/WO2014131262A1/zh active Application Filing
- 2013-07-29 EP EP13876166.3A patent/EP2854053B1/en active Active
-
2014
- 2014-12-31 US US14/587,724 patent/US10068176B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1575210A1 (en) * | 2004-03-10 | 2005-09-14 | Sun Microsystems, Inc. | Method and apparatus for hybrid group key management |
CN101556553A (zh) * | 2009-03-27 | 2009-10-14 | 中国科学院软件研究所 | 基于需求变更的缺陷预测方法和系统 |
CN102622510A (zh) * | 2012-01-31 | 2012-08-01 | 龚波 | 一种软件缺陷量化管理系统和方法 |
Non-Patent Citations (1)
Title |
---|
基于改进二叉树多分类SVM的焊缝缺陷分类方法;罗爱民等;《焊接学报》;20100731;第31卷(第7期);52页2.2基于最小分离度聚类的二叉树SVM算法,第53页3实验结果分析 * |
Also Published As
Publication number | Publication date |
---|---|
US10068176B2 (en) | 2018-09-04 |
US20150112903A1 (en) | 2015-04-23 |
EP2854053A4 (en) | 2016-12-21 |
EP2854053A1 (en) | 2015-04-01 |
EP2854053B1 (en) | 2019-10-09 |
WO2014131262A1 (zh) | 2014-09-04 |
CN104021264A (zh) | 2014-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104021264B (zh) | 一种缺陷预测方法及装置 | |
CN109598095B (zh) | 评分卡模型的建立方法、装置、计算机设备和存储介质 | |
Weyuker et al. | Comparing the effectiveness of several modeling methods for fault prediction | |
CN108683530B (zh) | 多维度数据的数据分析方法、装置及存储介质 | |
US10592308B2 (en) | Aggregation based event identification | |
US20190087737A1 (en) | Anomaly detection and automated analysis in systems based on fully masked weighted directed | |
US20150347923A1 (en) | Error classification in a computing system | |
US20110066908A1 (en) | Similarity detection for error reports | |
US10943181B2 (en) | Just in time classifier training | |
CN103617435B (zh) | 一种主动学习图像分类方法和系统 | |
US11270210B2 (en) | Outlier discovery system selection | |
US20160379133A1 (en) | Reasoning classification based on feature pertubation | |
EP3591604A1 (en) | Defect rate analytics to reduce defectiveness in manufacturing | |
CN110727567A (zh) | 软件质量检测的方法、装置、计算机设备和存储介质 | |
CN113010389A (zh) | 一种训练方法、故障预测方法、相关装置及设备 | |
WO2023115875A1 (zh) | 硬件设备维护方法、装置及电子设备 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
William et al. | Novel Approach for Software Reliability Analysis Controlled with Multifunctional Machine Learning Approach | |
CN114169460A (zh) | 样本筛选方法、装置、计算机设备和存储介质 | |
CN110661818B (zh) | 事件异常检测方法、装置、可读存储介质和计算机设备 | |
CN111783883A (zh) | 一种异常数据的检测方法及装置 | |
CN113689020A (zh) | 业务信息预测方法、装置、计算机设备和存储介质 | |
CN115630708A (zh) | 一种模型更新方法、装置、电子设备、存储介质及产品 | |
CN115659826A (zh) | 一种服务器故障率检测方法、装置、电子设备及存储介质 | |
CN111224919A (zh) | 一种ddos识别方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |