CN112330095A - 一种基于决策树算法的质量管理方法 - Google Patents
一种基于决策树算法的质量管理方法 Download PDFInfo
- Publication number
- CN112330095A CN112330095A CN202011074050.6A CN202011074050A CN112330095A CN 112330095 A CN112330095 A CN 112330095A CN 202011074050 A CN202011074050 A CN 202011074050A CN 112330095 A CN112330095 A CN 112330095A
- Authority
- CN
- China
- Prior art keywords
- quality improvement
- quality
- improvement opportunity
- decision tree
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003066 decision tree Methods 0.000 title claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 25
- 238000007726 management method Methods 0.000 title claims abstract description 23
- 230000007547 defect Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000009826 distribution Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 239000010750 BS 2869 Class C2 Substances 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 17
- 238000004519 manufacturing process Methods 0.000 abstract description 11
- 238000003745 diagnosis Methods 0.000 abstract description 6
- 238000005065 mining Methods 0.000 description 5
- 238000007418 data mining Methods 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 239000010749 BS 2869 Class C1 Substances 0.000 description 2
- 238000003326 Quality management system Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000013072 incoming material Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Manufacturing & Machinery (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于决策树算法的质量管理方法,包括以下步骤:第一步,建立训练样本数据库S,第二步,判断所述训练样本数据库S中样本是否是质量改进机会,构建“是质量改进机会”和“不是质量改进机会”的目标属性;第三步,基于ID3决策树算法构建识别引起质量改进机会原因的识别模型;第四步,将所述识别模型识别的引起质量改进机会的原因推送相应的责任部门。本发明基于ID3决策树算法建识别引起质量改进机会原因的识别模型,一定程度提高智能自主识别模型的准确率,可帮助企业对造成产品质量缺陷进行责任分析和自动诊断,降低生产中的不合格率。
Description
技术领域
本发明属于质量管理技术领域,具体地说,涉及一种基于决策树算法的质量管理方法。
背景技术
传统的轨道交通质量管理方法致力于质量的控制和诊断,主要是事后处理。另一方面,随着制造业信息化的深入,企业从日常的生产活动中,收集到大量的、杂乱的数据未能得到充分利用,大多只停留在对数据的简单统计与图表的显示,缺少进一步的挖掘及利用隐藏在数据背后的有用信息,不能利用科学的数据计算模型自动给出改进机会,无法对公司质量改进活动提供支撑。
有鉴于此,特提出本发明。
发明内容
本发明要解决的技术问题在于克服现有技术的不足,提供一种基于决策树算法的质量管理方法,可帮助企业对造成产品质量缺陷进行责任分析和自动诊断,降低生产中的不合格率。
为解决上述技术问题,本发明采用技术方案的基本构思是:
一种基于决策树算法的质量管理方法,包括以下步骤:
第一步,建立训练样本数据库S,
第二步,判断所述训练样本数据库S中样本是否是质量改进机会,构建“是质量改进机会”和“不是质量改进机会”的目标属性;
第三步,基于ID3决策树算法构建识别引起质量改进机会原因的识别模型;
第四步,将所述识别模型识别的引起质量改进机会的原因推送相应的责任部门。
进一步的,第三步中包括
步骤S31,所述训练样本数据库S中的数据按照“是质量改进机会”和“不是质量改进机会”的目标属性被分为“是质量改进机会”或“不是质量改进机会”两个类别标签,其中“是质量改进机会”为S1,“不是质量改进机会”为S2,
步骤S32,计算对所述训练样本数据库S按照目标属性分类所需的信息熵、每个类别的信息熵,获取每个类别的信息增益,
步骤S33,选取所有类别中最大的信息增益作为决策树的根节点,建立从根节点到叶节点的决策树,直到节点特征中的数据在类别上取值都相同或没有类别可再供划分使用,以此构建识别模型。
进一步的,步骤S32中包括
①计算所述训练样本数据库S按照目标属性分类所需的信息熵;
②根据数据类型的不同,所述训练样本数据库包括n个不同的类别,分别为类别C1、类别C2、类别Ci、...,类别Cn,1<i<n,
假设类别Ci具有k个不同的特征,分别为特征a1,特征a2,特征aj...,特征ak,1<j<k,
分别获取类别Ci中特征a1,特征a2,特征aj...,特征ak的信息熵,再计算类别Ci的平均信息期望;
③计算类别Ci的信息增益Gain(Ci)。
进一步的,第三步中还包括步骤S34,
步骤S34,对所述识别模型进行评价及验证,采用决策准确率来表示识别模型的可正确分类概率,其中,正确决策样本数为正确得预测出是否是质量改进机会得样本数,测试样本总数为测试所用的总的样本数,即包括正确与不正确得预测出是否是质量改进机会得样本总数,计算公式为:
根据计算公式获得如下表格:
表中,TP为:将正例预测为正例(的数目),真实为0,预测也为0;
FP为:将负例预测为正例(的数目),真实为1,预测为0;
FN为:将正例预测为负例(的数目),真实为0,预测为1;
TN为:将负例预测为负例(的数目),真实为1,预测也为1。
进一步的,第二步中包括
从产品缺陷维度构建规则模型,通过数据池字段,构建当月不良占当月总累计不良比率、当月不良占季度累计不良比率、累计季度不良占当年总不良比率、同比增长率及环比增长率来评价产品缺陷的比率;
从时间维度构建规则模型,将历史年份发生缺陷的数量,对比当年各月的缺陷数量,对质量改进机会进行评价,构建标准总月均不良数量、标准各环节月均总不良数量、当月总不良数量、各环节当月总不良数量、当月不良数量、累计季度总不良数量一系列评价指标;
获取质量改进机会综合指标,构建“是质量改进机会”和“不是质量改进机会”的目标属性。
进一步的,获取质量改进机会综合指标,构建“是质量改进机会”和“不是质量改进机会”的目标属性包括
①假设所述训练样本数据库S有n’行记录,m’个变量,训练样本数据库可以用一个n’×m’的矩阵A表示:A=[x1...xm’]
②将矩阵A中的数据归一化处理;
③计算第j’个变量下第i’行记录所占比重,1<j’<m’,1<i’<n’;
④计算第j’个变量的熵值、差异系数和权重,获取每一行记录的质量改进机会综合指标的数据分布;
⑤判断所述质量改进机会综合指标的数据分布是否满足正态分布,若是,依据3sigma原则,将质量改进机会综合指标偏离均值3个标准差以外的数据判定为质量改进机会动态阈值,若否,依据切比雪夫不等式原理将分布概率低于10%区间内的数据判定为质量改进机会动态阈值;
⑥判断每一行记录的质量改进机会综合指标是否大于质量改进机会动态阈值,若是,则“是质量改进机会”,若否,则“不是质量改进机会”。
采用上述技术方案后,本发明与现有技术相比具有以下有益效果。
1.本发明利用分类决策树数据挖掘算法,构建智能识别轨道交通中自动识别质量改进机会,具有独创性;
2.本发明构建动态阈值,动态评价指标,模型结果更具有实时性和准确性;
3.本发明实现了面向质量管理改进模型构建过程的封装,具有系统化思维和高度可迁移性;
4.本发明提出的智能识别质量改进机会的模型,可帮助企业对造成产品质量缺陷进行责任分析和自动诊断,降低生产中的不合格率。
5.本发明具有较强的可借鉴性,对于其他质量管理改进和提高产品质量具有较强的指导意义,可复制性强。
下面结合附图对本发明的具体实施方式作进一步详细的描述。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1是本发明基于决策树算法的质量管理方法的流程图;
图2是本发明基于决策树算法的质量管理方法的另一流程图;
图3是本发明一个实施例中决策树的示意图。
需要说明的是,这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对实施例中的技术方案进行清楚、完整地描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
在本发明的描述中,需要说明的是,术语“上”“下”“前”“后”“左”“右”“竖直”“水平”“内”“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”“相连”“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1至图3所示,本发明提供一种基于决策树算法的质量管理方法,包括以下步骤,如图1所示,
第一步,建立训练样本数据库S,
第二步,判断所述训练样本数据库S中样本是否是质量改进机会,构建“是质量改进机会”和“不是质量改进机会”的目标属性;
第三步,基于ID3决策树算法构建识别引起质量改进机会原因的识别模型;
第四步,将所述识别模型识别的引起质量改进机会的原因推送相应的责任部门。
具体的,如图2所示,第一步中,由于实际生产、来料、售后运营各个质量周期内的环节,数据多样,各个环节间又相互影响,导致质量管理系统采集的数据无法直接使用。为后面模型的数据质量做准备,将质量管理系统的不同数据库的表字段进行数据质量分析,分析空值占比,确定出有用的字段。将不同环节有用的字段进行清洗标准化,将不同数据库中的表进行整合,建立数据挖掘有用字段的一张表,形成数据池。
在数据表规整后,进行研究对象取数,对数据中的缺失值,不完整,不一致等脏数据进行预处理和清洗。根据质量分析的人、机、料、法、环等维度分析抽取相应的特征属性,获得训练样本数据库S,包括的特征属性有生产区域,产品,责任单位,缺陷等级,缺陷描述等影响因素。
第二步中,对数据进行预处理以后,可以通过绘制图表、计算某些特征量等手段进行数据的特征分析。主要通过分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析等角度。通过数据特征分析确定数据分布类型,数量占比最多的一些缺陷等,为模型的构建提供思路。
从大量的数据探索中,分析可利用指标,依据数据特征分析后,对现有的字段结合业务,选取对业务有关联的业务字段,构建潜在质量改进机会、评价指标体系,动态阈值等。
由于质量问题的数据为业务人员记录数据,多为非数值型数据,对数据进行数值化处理,由于产品只记录不良的缺陷数量,故采用占比来评价潜在质量改进机会:
从产品缺陷维度构建规则模型,通过数据池字段,构建当月不良占当月总累计不良比率、当月不良占季度累计不良比率、累计季度不良占当年总不良比率、同比增长率及环比增长率等等,来评价产品缺陷的比率。
从时间维度构建规则模型,将历史年份发生缺陷的数量,对比当年各月的缺陷数量,对质量改进机会进行评价,构建标准总月均不良数量、标准各环节月均总不良数量、当月总不良数量、各环节当月总不良数量、当月不良数量、累计季度总不良数量等一系列评价指标。
评价指标构建完后,构建质量改进机会综合指标,构建“是质量改进机会”和“不是质量改进机会”的目标属性。
本发明的一些实施例中通过熵值法确定权重系数,质量改进机会综合指标通过各自评价指标与对应得权重系数相乘后求和求得。
熵值法用来判断某个指标的离散程度的数学方法。离散程度越大,即信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。根据熵的特性,我们可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响越大。
具体的步骤如下,
①假设所述训练样本数据库S有n’行记录,m’个变量,数据可以用一个n’×m’的矩阵A表示:
A=[x1...xm’]
②数据的归一化处理
其中,xi’j’表示矩阵A的第i’行j’列元素,公式为:
③计算第j’个变量下第i’行记录所占比重
④计算第j’个变量的熵值
⑤计算第j’个变量的差异系数
gj'=1-ej'
⑥计算第j’个变量的权重
通过熵值法求出权重系数,质量改进机会综合指标通过各自指标与对应得权重系数相乘后求和求得。
探索质量改进机会综合指标得数据分布,若为正态分布,质量改进机会动态阈值,依据3sigma原则,把质量改进机会综合指标偏离均值3个标准差以为的数据判定为质量改进机会动态阈值。若不符合正态分布,采用切比雪夫不等式原理,将分布概率低于10%区间内的数据判定为质量改进机会动态阈值。有了质量改进机会综合指标及质量改进机会动态阈值,就可判断是否是质量改进机会。若质量改进机会综合指标>质量改进机会动态阈值,则是质量改进机会,反之,则不是质量改进机会。质量改进机会的迫切程度为质量改进机会综合指标与质量改进机会动态阈值的差值。
进一步的,由于质量数据为离散数据,故本发明提出一种基于ID3决策树的质量改进分析模型,找出那些频繁引起质量问题的因素,对造成产品质量缺陷进行责任分析和诊断,企业可针对性的采取措施,进而提高产品质量。
决策树模型建立过程如第三步所述,第三步具体包括:
步骤S31,所述训练样本数据库S中的数据按照“是质量改进机会”和“不是质量改进机会”的目标属性被分为“是质量改进机会”或“不是质量改进机会”两个类别标签,其中“是质量改进机会”为S1,“不是质量改进机会”为S2;
步骤S32,计算对所述训练样本数据库S按照目标属性分类所需的信息熵、每个类别的信息熵,获取每个类别的信息增益;
步骤S33,选取所有类别中最大的信息增益作为决策树的根节点,建立从根节点到叶节点的决策树,直到节点特征中的数据在类别上取值都相同或没有类别可再供划分使用,以此构建识别模型。
具体的,步骤S32中包括
①计算所述训练样本数据库S按照目标属性分类所需的信息熵;
I(S)=I(S1,S2)=-P1log2(P1)-P2log2(P2),其中P1是S1的概率,P2是S2的概率,P1+P2=1。
②根据数据类型的不同,所述训练样本数据库包括n个不同的类别,分别为类别C1、类别C2、类别Ci、...,类别Cn,1<i<n,
假设类别Ci具有k个不同的特征,分别为特征a1,特征a2,...,特征ak,分别获取类别Ci中特征a1,特征a2,特征aj...,特征ak的信息熵,再计算类别Ci的平均信息期望E(Ci);
例如,对于类别C1而言,具有3个不同的特征,分别为特征a1,特征a2,特征a3,则
特征a1的信息熵I(a1)=I(S1,S2)=-Pa1log2(Pa1)-(1-Pa1)log2(1-Pa1),其中,Pa1表示特征a1的样本数中“是质量改进机会”的样本数占特征a1总样本数的比例,1-Pa1表示特征a1的样本数中“不是质量改进机会”的样本数占特征a1总样本数的比例;
特征a2的信息熵I(a2)=I(S1,S2)=-Pa2log2(Pa2)-(1-Pa2)log2(1-Pa2),其中,Pa2表示特征a2的样本数中“是质量改进机会”的样本数占特征a2总样本数的比例,1-Pa2表示特征a2的样本数中“不是质量改进机会”的样本数占特征a2总样本数的比例;
特征a3的信息熵I(a3)=I(S1,S2)=-Pa3log2(Pa3)-(1-Pa3)log2(1-Pa3),其中,Pa3表示特征a3的样本数中“是质量改进机会”的样本数占特征a3总样本数的比例,1-Pa3表示特征a3的样本数中“不是质量改进机会”的样本数占特征a3总样本数的比例;
那么,类别C1的平均信息期望E(C1)可由下式获得
依次类推,可以计算获得全部类别的平均信息期望。
③计算类别Ci的信息增益Gain(Ci)
同样以C1而言为例说明,Gain(C1)=I(S)-E(C1);
依次类推,可以计算获得全部类别的信息增益。
显然,平均信息期望越小,信息增益的值越大,说明选择测试类别对于分类提供的信息越大,选择类别之后对分类的不确定程度越小。求出所有类别里面最大的信息增益来作决策树的根节点,从该类别每一个特征引出一个分枝,并划分样本,确定信息较多,预测结果更准确。
通过计算信息增益,比较并选取最大的信息增益对树进行扩展,建立从根节点到叶节点的决策树,直到节点子集中的数据在属性上取值都相同或没有属性可再供划分使用。
另外在统计过程中,是质量改进机会表示为质量改进机会综合指标>质量改进机会阈值,判断为是,反之,则不是质量改进机会。是质量改进机会概率为是质量改进机会数量/总数量,不是质量改进机会的概率为不是质量改进机会/总数量的比值。
在本发明的一些实施例中,对于轨道交通行业,训练样本数据库包括四个类别:产品、生产区域,缺陷和责任单位,产品包括产品A、产品B、产品C三个特征,生产区域包括生产区域a、生产区域b两个特征,缺陷包括缺陷I、缺陷II两个特征,责任单位包括责任单位1、责任单位2两个特征。依据以上的公式进行计算,生成的决策树模型如图3所示。
进一步的,由于噪声等因素的影响,会使得样本某些特征的取值与样本自身的类别不相匹配的情况,基于这些数据生成的决策树的某些枝叶会产生一些错误;尤其是在决策树靠近枝叶的末端,由于样本变少,这种无关因素的干扰就会突显出来;由此产生的决策树可能存在过拟合的现象。树枝修剪就是通过统计学的方法删除不可靠的分支,使得整个决策树的分类速度和分类精度得到提高。
生成的完整决策树对数据集进行分类时会产生的“过度拟合”问题,因此需要对它进行化简,本发明通过采用后剪枝策略,从树的叶子开始剪枝,逐步向根的方向剪。
为了对决策模型有效性进行检验,从数据库随机抽取整理好的数据来测试训练后的模型,得出的混淆矩阵。为了让模型有效性更直观,用决策准确率来表示模型的可正确分类概率,其中,正确决策样本数为正确得预测出是否是质量改进机会得样本数,测试样本总数为测试所用的总的样本数,即包括正确与不正确得预测出是否是质量改进机会得样本总数,计算公式为:
根据计算公式获得如下表格:
表中,TP为:将正例预测为正例(的数目),真实为0,预测也为0;
FP为:将负例预测为正例(的数目),真实为1,预测为0;
FN为:将正例预测为负例(的数目),真实为0,预测为1;
TN为:将负例预测为负例(的数目),真实为1,预测也为1。
通过决策准确率,可知道模型得预测效果。进一步通过决策树图提取出规则,可为质量管理和相关决策人员提供一定的质量改进预测和问题解决得参考依据,帮助管理人员发现产品质量问题得潜在原因,帮助企业持续改善产品质量。对质量问题进行整改后,将模型运行一个周期,对比整改前的评价指标与整改后的评价指标,判断质量整改的效果。
本发明是基于质量历史数据,进行挖掘算法识别异常改进机会,发出预警信息。根据目前动车组现有大量历史质量数据,确定业务对象,定义出业务挖掘目标。寻找所有与业务对象有关的数据,并从中选择出适用于数据挖掘应用的原始数据。原始数据中可能会有一些错误的或者缺陷的脏数据,对有问题的数据进行预处理,为进一步的分析建模做准备。为了便于挖掘,格式不统一要转换为统一格式,非数值型数据要转化为数值型,以便找出真正有用的特征变量。通过已有的字段,构造质量评价指标体系,以及潜在质量改进机会体系的特征。通过对现有字段指标的特征构建,选择分类的决策树挖掘算法,建立预警规则模型。对建立的预警规则模型利用未参与建模的测试集数据进行验证评价,并将结果与实际情况进行比较。若在此过程发现模型不够优化,可回到前面的步骤进行调整。
本发明建立了基于决策树算法的质量管理方法,相较于传统的质量管理改进方法具有以下几点优势:
1.本发明利用分类决策树数据挖掘算法,构建智能识别轨道交通中自动识别质量改进机会,具有独创性;
2.本发明构建动态阈值,动态评价指标,模型结果更具有实时性和准确性;
3.本发明实现了面向质量管理改进模型构建过程的封装,具有系统化思维和高度可迁移性;
4.本发明提出的智能识别质量改进机会的模型,可帮助企业对造成产品质量缺陷进行责任分析和自动诊断,降低生产中的不合格率。
5.本发明具有较强的可借鉴性,对于其他质量管理改进和提高产品质量具有较强的指导意义,可复制性强。
以上所述仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专利的技术人员在不脱离本发明技术方案范围内,当可利用上述提示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明方案的范围内。
Claims (6)
1.一种基于决策树算法的质量管理方法,其特征在于:包括以下步骤:
第一步,建立训练样本数据库S,
第二步,判断所述训练样本数据库S中样本是否是质量改进机会,构建“是质量改进机会”和“不是质量改进机会”的目标属性;
第三步,基于ID3决策树算法构建识别引起质量改进机会原因的识别模型;
第四步,将所述识别模型识别的引起质量改进机会的原因推送相应的责任部门。
2.根据权利要求1所述的一种基于决策树算法的质量管理方法,其特征在于:第三步中包括
步骤S31,所述训练样本数据库S中的数据按照“是质量改进机会”和“不是质量改进机会”的目标属性被分为“是质量改进机会”或“不是质量改进机会”两个类别标签,其中“是质量改进机会”为S1,“不是质量改进机会”为S2,
步骤S32,计算对所述训练样本数据库S按照目标属性分类所需的信息熵、每个类别的信息熵,获取每个类别的信息增益,
步骤S33,选取所有类别中最大的信息增益作为决策树的根节点,建立从根节点到叶节点的决策树,直到节点特征中的数据在类别上取值都相同或没有类别可再供划分使用,以此构建识别模型。
3.根据权利要求2所述的一种基于决策树算法的质量管理方法,其特征在于:步骤S32中包括
①计算所述训练样本数据库S按照目标属性分类所需的信息熵;
②根据数据类型的不同,所述训练样本数据库包括n个不同的类别,分别为类别C1、类别C2、类别Ci、...,类别Cn,1<i<n,
假设类别Ci具有k个不同的特征,分别为特征a1,特征a2,特征aj...,特征ak,1<j<k,
分别获取类别Ci中特征a1,特征a2,特征aj...,特征ak的信息熵,再计算类别Ci的平均信息期望;
③计算类别Ci的信息增益Gain(Ci)。
5.根据权利要求3所述的一种基于决策树算法的质量管理方法,其特征在于:第二步中包括
从产品缺陷维度构建规则模型,通过数据池字段,构建当月不良占当月总累计不良比率、当月不良占季度累计不良比率、累计季度不良占当年总不良比率、同比增长率及环比增长率来评价产品缺陷的比率;
从时间维度构建规则模型,将历史年份发生缺陷的数量,对比当年各月的缺陷数量,对质量改进机会进行评价,构建标准总月均不良数量、标准各环节月均总不良数量、当月总不良数量、各环节当月总不良数量、当月不良数量、累计季度总不良数量一系列评价指标;
获取质量改进机会综合指标,构建“是质量改进机会”和“不是质量改进机会”的目标属性。
6.根据权利要求5所述的一种基于决策树算法的质量管理方法,其特征在于:获取质量改进机会综合指标,构建“是质量改进机会”和“不是质量改进机会”的目标属性包括
①假设所述训练样本数据库S有n’行记录,m’个变量,训练样本数据库可以用一个n’×m’的矩阵A表示:A=[x1...xm’]
②将矩阵A中的数据归一化处理;
③计算第j’个变量下第i’行记录所占比重,1<j’<m’,1<i’<n’;
④计算第j’个变量的熵值、差异系数和权重,获取n’行记录中每一行记录的质量改进机会综合指标的数据分布;
⑤判断所述质量改进机会综合指标的数据分布是否满足正态分布,若是,依据3sigma原则,将质量改进机会综合指标偏离均值3个标准差以外的数据判定为质量改进机会动态阈值,若否,依据切比雪夫不等式原理将分布概率低于10%区间内的数据判定为质量改进机会动态阈值;
⑥判断每一行记录的质量改进机会综合指标是否大于质量改进机会动态阈值,若是,则“是质量改进机会”,若否,则“不是质量改进机会”。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011074050.6A CN112330095A (zh) | 2020-10-09 | 2020-10-09 | 一种基于决策树算法的质量管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011074050.6A CN112330095A (zh) | 2020-10-09 | 2020-10-09 | 一种基于决策树算法的质量管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112330095A true CN112330095A (zh) | 2021-02-05 |
Family
ID=74313408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011074050.6A Pending CN112330095A (zh) | 2020-10-09 | 2020-10-09 | 一种基于决策树算法的质量管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112330095A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113578972A (zh) * | 2021-04-08 | 2021-11-02 | 华院计算技术(上海)股份有限公司 | 一种热轧产品质量追溯方法及装置 |
CN113689036A (zh) * | 2021-08-24 | 2021-11-23 | 成都电科智联科技有限公司 | 一种基于决策树c4.5算法的热像仪质量问题原因预测方法 |
CN114565578A (zh) * | 2022-03-01 | 2022-05-31 | 人民百业科技有限公司 | 一种高色域显示屏质量智能检测系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150120071A1 (en) * | 2012-06-29 | 2015-04-30 | Abb Technology Ltd | Method for optimization of control and fault analysis in a thermal power plant |
CN108664010A (zh) * | 2018-05-07 | 2018-10-16 | 广东省电信规划设计院有限公司 | 发电机组故障数据预测方法、装置和计算机设备 |
CN110569867A (zh) * | 2019-07-15 | 2019-12-13 | 山东电工电气集团有限公司 | 基于决策树算法的输电线路故障原因判别方法、介质及设备 |
-
2020
- 2020-10-09 CN CN202011074050.6A patent/CN112330095A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150120071A1 (en) * | 2012-06-29 | 2015-04-30 | Abb Technology Ltd | Method for optimization of control and fault analysis in a thermal power plant |
CN108664010A (zh) * | 2018-05-07 | 2018-10-16 | 广东省电信规划设计院有限公司 | 发电机组故障数据预测方法、装置和计算机设备 |
CN110569867A (zh) * | 2019-07-15 | 2019-12-13 | 山东电工电气集团有限公司 | 基于决策树算法的输电线路故障原因判别方法、介质及设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113578972A (zh) * | 2021-04-08 | 2021-11-02 | 华院计算技术(上海)股份有限公司 | 一种热轧产品质量追溯方法及装置 |
CN113689036A (zh) * | 2021-08-24 | 2021-11-23 | 成都电科智联科技有限公司 | 一种基于决策树c4.5算法的热像仪质量问题原因预测方法 |
CN114565578A (zh) * | 2022-03-01 | 2022-05-31 | 人民百业科技有限公司 | 一种高色域显示屏质量智能检测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112330095A (zh) | 一种基于决策树算法的质量管理方法 | |
CN105373894A (zh) | 基于稽查数据的电力营销业务诊断模型的建立方法及系统 | |
CN110263827B (zh) | 基于交易规律识别的异常交易检测方法及装置 | |
CN115276006A (zh) | 一种用于电力集成系统的负荷预测的方法及系统 | |
CN110634080A (zh) | 异常用电检测方法、装置、设备及计算机可读存储介质 | |
CN112756759B (zh) | 点焊机器人工作站故障判定方法 | |
CN111242484A (zh) | 基于转移概率的车辆风险综合评价方法 | |
CN109947815B (zh) | 一种基于离群点算法的窃电辨识方法 | |
CN105426441B (zh) | 一种时间序列自动预处理方法 | |
CN113177729A (zh) | 基于企业关联风险传导的风险预警方法、系统及设备 | |
CN117828539B (zh) | 数据智能融合分析系统及方法 | |
CN115630839A (zh) | 一种基于数据挖掘的生产智能反馈调控系统 | |
CN104239722A (zh) | 一种基于因素间相关关系识别的预测方法 | |
CN113762764A (zh) | 一种进口食品安全风险自动分级与预警系统及方法 | |
CN110334767B (zh) | 一种用于空气质量分类的改进随机森林方法 | |
CN114021808A (zh) | 一种基于突发事件影响等级识别的电力资源配置方法 | |
CN113628024A (zh) | 基于大数据平台系统的财务数据智能稽核系统及方法 | |
CN111143616B (zh) | 一种视频图像数据治理方法 | |
CN113393169B (zh) | 基于大数据技术的金融行业交易系统性能指标分析方法 | |
CN115935073A (zh) | 基于人工智能交叉验证的舆情分析方法及系统 | |
CN112765553B (zh) | 一种基于大数据的工程项目管理系统 | |
CN115130872A (zh) | 一种基于深度学习判断的用工风险评估系统 | |
CN117273549B (zh) | 一种基于绩效考核指标体系的绩效考核方法及系统 | |
CN117172607B (zh) | 基于公共空间服务的数据采集和项目运营分析系统 | |
CN110956340A (zh) | 工程试验检测数据管理预警决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210205 |
|
RJ01 | Rejection of invention patent application after publication |