CN115374858B - 基于混合集成模型的流程工业生产品质的智能诊断方法 - Google Patents
基于混合集成模型的流程工业生产品质的智能诊断方法 Download PDFInfo
- Publication number
- CN115374858B CN115374858B CN202211016250.5A CN202211016250A CN115374858B CN 115374858 B CN115374858 B CN 115374858B CN 202211016250 A CN202211016250 A CN 202211016250A CN 115374858 B CN115374858 B CN 115374858B
- Authority
- CN
- China
- Prior art keywords
- base classifier
- candidate base
- samples
- candidate
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000009776 industrial production Methods 0.000 title claims abstract description 50
- 238000003745 diagnosis Methods 0.000 title claims abstract description 45
- 230000008569 process Effects 0.000 claims abstract description 47
- 238000004519 manufacturing process Methods 0.000 claims abstract description 29
- 230000010354 integration Effects 0.000 claims abstract description 20
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 16
- 238000007637 random forest analysis Methods 0.000 claims description 13
- 238000012706 support-vector machine Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000005406 washing Methods 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 7
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 229910000831 Steel Inorganic materials 0.000 description 7
- 239000010959 steel Substances 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000005098 hot rolling Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Manufacturing & Machinery (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了基于混合集成模型的流程工业生产品质的智能诊断方法,涉及流程工业生产品质的诊断技术领域。该方法首先采集工业生产过程数据和生产品质数据,然后对采集的数据进行预处理并对生产品质划分类别、计算不平衡度,构建流程工业生产品质数据集,之后采用ADASYN‑RENN对数据集进行平衡采样,以采样后的数据集为基础,同时考虑模型融合的基分类器的性能和多样性,构建混合模型的基分类器候选池,通过对比不同候选分类器组合方式的分类性能,最后选取性能最优的分类器组合建立混合集成模型用于流程工业生产品质的智能诊断。该方法分类性能好、鲁棒性强,相比于其他数据驱动方法和现场机理模型具有更优异的诊断性能,可广泛投入到流程工业生产过程当中。
Description
技术领域
本发明涉及流程工业生产品质的诊断技术领域,具体涉及基于混合集成模型的流程工业生产品质的智能诊断方法。
背景技术
在流程工业中,生产过程包含众多工序,下游工序常常受上游工序品质的影响,使得整个生产过程具有遗传性、非线性和强耦合性。有效地实现流程工业各工序生产品质的智能诊断,不仅可以提升生产节奏防止批量缺陷的出现,还能提升整个生产流程的控制水平。传统的基于机理的诊断模型,一般需要将生产过程中非线性、强耦合的影响因素简化为线性问题再进行诊断,传统模型虽然可以一定程度实现生产品质诊断,但是模型本身存在一定误差。随着对于产品质量的要求日益提高,传统的机理模型已经很难有较大的进步与改善。
此外,虽然近些年随着计算机技术的发展,结合工业互联网技术和数据驱动技术,流程工业的在线监测、产品预测得到一定发展,但还存在一定缺陷:全流程分析控制云平台、全流程智能诊断系统,是在全流程层面对产品质量的顶层设计,而缺少对具体品质评估方法或者分析诊断方法的深入研究;而产品品质预测方法虽然实现了产品品质预测,但这些方法忽略了流程工业产品数据的不平衡性,不合格产品的数量往往很少,传统数据驱动方法只关注总体的预测准确性而忽视少数类的不合格产品的预测准确性。
发明内容
针对现有技术存在的问题,本发明提供了一种基于混合集成模型的流程工业生产品质的智能诊断方法。
本发明的技术方案是:
基于混合集成模型的流程工业生产品质的智能诊断方法,该方法包括以下步骤:
步骤1:采集影响产品品质的关键生产过程数据和产品品质数据;
步骤2:对所述生产过程数据进行异常值剔除;
步骤3:剔除异常样本后,按照产品质量合格范围,划分出小于合格范围、处于合格范围、超过合格范围共三个类别的产品品质标签;
步骤4:由剔除异常样本后的生产过程数据和产品品质标签构建流程工业生产品质数据集;
步骤5:计算所述流程工业生产品质数据集的不平衡度IR;
步骤6:对流程工业生产品质数据集进行重采样,以消除工业数据的不平衡度同时生成高质量的少数类样本;
步骤7:构建基分类器候选池,该分类器候选池包括随机森林RF、极端随机树ET、极端梯度提升XGB、轻型梯度提升机LGBM、多层感知器MLP和支持向量机SVC共6个候选基分类器;
步骤8:从重采样后的流程工业生产品质数据集划分出训练集,用于训练基分类器候选池中的候选基分类器,确定候选池中各个候选基分类器的最优超参数;
步骤9:对所述候选基分类器进行不同的组合,并比较各个组合的诊断性能,将其中诊断性能最佳的组合确定为最终的混合集成模型;
步骤10:将最终的混合集成模型用于流程工业生产品质的智能诊断。
进一步地,根据所述的基于混合集成模型的流程工业生产品质的智能诊断方法,采用拉伊依达准则对所述生产过程数据进行异常值剔除。
进一步地,根据所述的基于混合集成模型的流程工业生产品质的智能诊断方法,所述流程工业生产品质数据集的不平衡度IR的计算公式如下:
式中Sma为数据集中多数类样本数量,Smi为数据集中少数类样本数量。
进一步地,根据所述的基于混合集成模型的流程工业生产品质的智能诊断方法,利用ADASYN算法与RENN算法相结合的采样方法ADASYN-RENN对流程工业生产品质数据集进行重采样。
进一步地,根据所述的基于混合集成模型的流程工业生产品质的智能诊断方法,所述步骤6包括如下步骤:
步骤6.1:计算需要生成的样本数量:
ΔS=Sma-Smi (5)
式中ΔS为需要生成的样本数量,Sma为数据集中多数类样本数量,Smi为数据集中少数类样本数量;
步骤6.2:计算少数类样本的K近邻样本中多数类样本的占比,公式如下:
其中αi为数据集中第i个少数类样本的K近邻样本中多数类样本的占比;Si-ma为数据集中第i个少数类样本的近邻中多数类样本的数量,i=1,2,3,…,Smi;
步骤6.3:将αi进行标准化,公式如下:
步骤6.4:计算每个少数类样本需要生成的样本数量Si,公式如下:
式中Si为每个少数类样本需要生成的样本数量;
步骤6.5:根据Si,按照如下公式进行新样本的合成:
asyn=ai+random(0,1)*|a′i-ai| (9)
式中asyn为新生成的样本,a′i为ai的近邻样本,ai是数据集中的第i个少数类样本,i=1,2,3,…,Smi;
步骤6.6:对新生成的少数类样本与原始的多数类样本之间的重叠样本进行清洗。
进一步地,根据所述的基于混合集成模型的流程工业生产品质的智能诊断方法,对新生成的少数类样本与原始的多数类样本之间的重叠样本进行清洗的规则为:如果一个样本的K个近邻样本中有一半以上的样本和其类别不一致,则将这个样本清洗。
进一步地,根据所述的基于混合集成模型的流程工业生产品质的智能诊断方法,对所述候选基分类器进行不同组合的方法包括:
首先构建3个候选基分类器集:选取随机森林和极端随机树作为bagging候选基分类器集,选取极端梯度提升和轻型梯度提升机作为boosting候选基分类器集,选取多层感知器和支持向量机作为非集成候选基分类器集;
然后构建3基分类器组合:分别从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中各选取一个候选基分类器进行3个基分类器的组合,共获得8种3基分类器组合;
再然后构建4基分类器组合:1)从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的一个候选基分类器集选取两个候选基分类器以及从其余两个候选基分类器集各选取一个候选基分类器进行4个基分类器的组合,共获得12种4基分类器组合;2)从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的两个候选基分类器集各选取两个候选基分类器,其余一个候选基分类器集不作选取,共获得3种4基分类器组合;
又然后构建5基分类器组合:选取5个基分类器的组合,从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的两个候选基分类器集各选取两个候选基分类器,其余一个候选基分类器集选取一个候选基分类器,共获得6种5基分类器组合;
最后构建6基分类器组合:选取全部6个候选基分类器进行组合,获得1个6基分类器组合;
综上,共获得30种候选基分类器组合。
与现有技术相比,本发明具有如下有益效果:
通过结合采样技术解决流程工业数据的不平衡性问题,生成高质量的少数类样本;随后为了提高诊断模型对非线性、强耦合的数据的鲁棒性,建立混合模型的分类器候选池,通过模型融合技术比较不同分类器组合的性能,选择最优性能的分类器组合建立混合集成模型,进而实现基于混合集成模型的流程工业生产品质的智能诊断。本发明提出的混合集成模型方法分类性能好、鲁棒性强,相比于其他数据驱动方法和现场机理模型具有更优异的诊断性能,可以广泛地投入到流程工业生产过程当中。
附图说明
为了更清楚地说明本发明实施例中的具体方式,下面将对实施例中涉及的相关附图做简单说明,下面的附图仅仅是本发明的优选实施例,对于本领域普通技术人员来说,在没有创造性改变的前提下,可以根据这些附图获得其它的附图。
图1为本实施方式基于混合集成模型的流程工业生产品质的智能诊断方法的流程示意图;
图2为本发明方法与六种基分类器的性能对比结果图;
图3为本发明方法与其他四种数据驱动方法的性能对比结果图;
图4为本发明方法与现场机理模型的性能比较图;
具体实施方式
下面结合附图及较佳实施例详细说明本发明的具体实施方式。虽然以下描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,因此,本发明的保护范围由所附权利要求书限定。
本发明方法的核心思路是:首先采集工业生产过程数据和生产品质数据,然后对采集到的数据进行预处理并对生产品质划分类别、计算不平衡度,构建流程工业生产品质数据集,之后采用ADASYN-RENN对数据集进行平衡采样,以采样后的数据集为基础,同时考虑模型融合的基分类器的性能和多样性,构建混合模型的基分类器候选池,通过对比不同候选分类器组合方式的分类性能,最后选取性能最优的分类器组合建立混合集成模型用于流程工业生产品质的智能诊断。
本发明提供的基于混合集成模型的流程工业生产品质的智能诊断方法,具体实现流程如图1所示,包括:
步骤1:采集影响产品品质的关键生产过程数据和产品品质数据;
步骤2:对所述生产过程数据进行异常值剔除;
本实施方式采用拉伊依达准则(Pauta criterion)对所述生产过程数据进行异常值剔除,公式如下:
其中xi是第i个数据;是xi的平均值;σ是标准差;S为采集到生产过程数据的数量。若某样本的数据与平均值的差的绝对值大于3倍的标准差,则该点将被视为异常值予以剔除;
步骤3:剔除异常样本后,按照产品质量合格范围,划分出小于合格范围、处于合格范围、超过合格范围共三个类别的产品品质标签;
步骤4:由剔除异常样本后的生产过程数据和产品品质标签构建流程工业生产品质数据集;
步骤5:计算所述流程工业生产品质数据集的不平衡度IR,公式如下:
式中Sma为数据集中多数类样本数量,Smi为数据集中少数类样本数量;
步骤6:对流程工业生产品质数据集进行重采样,以消除工业数据的不平衡度同时生成高质量的少数类样本;
在实际工业生产中,流程工业生产品质数据集一般具有高度不平衡度,即IR>9,因此针对具有高度不平衡性的流程工业生产品质数据集,本实施方式利用ADASYN(AdaptiveSynthetic Sampling,自适应生产采样技术)算法与RENN(Repeated Edited NearestNeighbor,重复删除近邻样本技术)算法相结合的采样方法ADASYN-RENN对流程工业生产品质数据集进行重采样,以消除工业数据的不平衡度同时生成高质量的少数类样本,具体步骤如下:
步骤6.1:计算需要生成的样本数量,公式如下:
ΔS=Sma-Smi (5)
式中ΔS为需要生成的样本数量,Sma为数据集中多数类样本数量,Smi为数据集中少数类样本数量;
步骤6.2:计算少数类样本的K近邻样本中多数类样本的占比αi,公式如下:
式中αi为数据集中第i个少数类样本的K近邻样本中多数类样本的占比;Si-ma为数据集中第i个少数类样本的近邻中多数类样本的数量,i=1,2,3,…,Smi;
步骤6.3:将αi进行标准化,公式如下:
步骤6.4:计算每个少数类样本需要生成的样本数量Si,公式如下:
式中Si为每个少数类样本需要生成的样本数量;
步骤6.5:根据Si,按照如下公式进行新样本的合成:
asyn=ai+rnadom(0,1)*|a′i-ai| (9)
式中asyn为新生成的样本,a′i为ai的近邻样本,ai是数据集中的第i个少数类样本,i=1,2,3,…,Smi;
步骤6.6:对新生成的少数类样本与原始的多数类样本之间的重叠样本进行清洗;
由于新生成的少数类样本不可避免会与原始的多数类样本产生重叠,因此需要对重叠样本进行清洗,以消除重叠样本产生的噪声。
本实施方式采用的清洗规则为:如果一个样本的K个近邻样本中有一半以上的样本和其类别不一致,则将这个样本清洗;
步骤6.7:重复步骤6.6,直到数据集中没有样本可以被清洗;
步骤7:构建基分类器候选池,该分类器候选池包括随机森林RF、极端随机树ET、极端梯度提升XGB、轻型梯度提升机LGBM、多层感知器MLP和支持向量机SVC共6个候选基分类器。
为满足分类性能和原理多样性要求,在流程工业生产品质数据集进行ADASYN-RENN采样后,本实施方式分别从集成学习、深度学习、传统机器学习中选择不同原理的分类算法进行组合构建混合集成模型的基分类器候选池,具体是:
随机森林(RF)是一种bagging集成学习算法,具有优异的分类性能,采用装袋法从原始训练数据集中随机抽取多个子数据集训练多个基决策树,通过投票策略产生最终结果,因此本实施方式将随机森林选为第一个候选基分类器。
极端随机树(ET)也是一种bagging集成学习算法,但不同于随机森林,它采用全部原始训练数据集训练多个基决策树,每个基决策树的分裂策略是完全随机的,最终结果通过投票产生,本实施方式将极端随机树选为第二个候选基分类器;
极端梯度提升(XGB)是一种boosting集成学习算法,通过预排序算法和近似算法来减少训练中的偏差,并采用Level-wise策略分裂决策树,具有出色的性能,因此本实施方式将极端梯度提升选为第三个候选基分类器;
轻型梯度提升机(LGBM)也是boosting集成学习算法,它在训练中采用直方图算法并随机丢弃梯度较小的样本,是计算速度最快的集成算法,因此本实施方式将轻型梯度提升机选为第四个候选基分类器;
多层感知器(MLP)是最基础的深度学习结构,具有很强的表征学习能力和处理非线性问题的能力,因此本实施方式将多层感知器选为第五个候选基分类器;
支持向量机(SVC)是经典的机器学习算法,它通过核函数将非线性问题映射到高维空间,并通过优化超平面使分类间隔最大,因此本实施方式将支持向量机选为第六个候选基分类器。
步骤8:从重采样后的流程工业生产品质数据集划分出训练集,用于训练基分类器候选池中的候选基分类器,确定候选池中各个候选基分类器的最优超参数;
在流程工业生产品质数据集进行ADASYN-RENN采样后,为了使所提出的方法具有最佳的诊断性能,在本实施方式中,采用5折交叉验证法随机将预处理后的数据集分为5折,每次取其中1折作为测试集、其余4折作为原始训练集,重复5次这一过程以保证每折都会作为1次测试集;其中,原始训练集用于训练分类器,测试集用于测试分类器的性能;训练采用贪婪搜索策略,确定候选池中各个候选基分类器的最优超参数。
在本实施方式中,需要确定随机森林的最优超参数,包括:树生长策略、基学习器数量、树最大深度、分裂内部节点的最小样本数、分裂叶子节点的最小样本数、分裂树的最大特征数;需要确定极端随机树的最优超参数,包括:树生长策略、基学习器数量、树最大深度、分裂内部节点的最小样本数、分裂叶子节点的最小样本数、分裂树的最大特征数;需要确定极端梯度提升的最优超参数,包括:迭代次数、学习率、最小分裂损失、树的最大深度、子节点的最小样本权重和、训练样本的子样本占比、构建每棵树时列的子样本占比、L1正则项和L2正则项;需要确定轻型梯度提升机的最优超参数,包括:迭代次数、学习率、树的叶节点数量、树的最大深度、子节点的最小样本权重和、训练样本的子样本占比、构建每棵树时列的子样本占比、L1正则项和L2正则项;需要确定多层感知器的最优超参数,包括:隐含层节点数、激活函数、学习率、正则化项;需要确定支持向量机的最优超参数,包括:最小损失、惩罚系数。
步骤9:对所述候选基分类器进行不同的组合,并比较各个组合的诊断性能,将其中诊断性能最佳的组合确定为最终的混合集成模型,具体步骤如下:
步骤9.1:对所述候选基分类器进行不同的组合,获得多种基分类器组合;
步骤9.1.1:构建3个候选基分类器集:选取随机森林和极端随机树作为bagging候选基分类器集,选取极端梯度提升和轻型梯度提升机作为boosting候选基分类器集,选取多层感知器和支持向量机作为非集成候选基分类器集;
步骤9.1.2:构建3基分类器组合:分别从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中各选取一个候选基分类器进行3个基分类器的组合,共获得8种3基分类器组合;
步骤9.1.3:构建4基分类器组合:1)从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的一个候选基分类器集选取两个候选基分类器以及从其余两个候选基分类器集各选取一个候选基分类器进行4个基分类器的组合,共获得12种4基分类器组合;2)从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的两个候选基分类器集各选取两个候选基分类器,其余一个候选基分类器集不作选取,共获得3种4基分类器组合;
步骤9.1.4:构建5基分类器组合:选取5个基分类器的组合,从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的两个候选基分类器集各选取两个候选基分类器,其余一个候选基分类器集选取一个候选基分类器,共获得6种5基分类器组合;
步骤9.1.5:构建6基分类器组合:选取全部6个候选基分类器进行组合,获得1个6基分类器组合;
步骤9.2:针对所获得的30种候选基分类器组合,比较各个组合的诊断性能,将具有最优诊断性能的组合,作为最终的混合集成模型;
步骤9.2.1:对于每个候选基分类器组合,若其中某个分类器的预测类别结果为j,则类别j得到一票;采用多数投票法对组合中全部分类器的预测类别结果进行集成,得到该候选基分类器组合的预测结果,公式如下:
其中CLASS为候选基分类器组合的预测类别,为类别j得到的票数,N为数据集中生产品质的类别的数量;
步骤9.2.2:采用10折交叉验证法进行50次,计算各个基分类器组合的MAUC、G-Mean、F1-Macro指标值;
式中和分别是实际为类别j的样本被分类为类别i的概率和实际为类别i的样本被分类为类别j的概率。
式中i、c和recalli分别是第i类别、类别数量以及每一类的召回率。
式中F1i是每一类别的F1值。
式中precision和recall分别是某一类别的精确率和召回率。
式中TP和FP分别是某一类别的真阳性率和假阳性率。
式中FN是某一类别的假阴性率。
步骤9.2.3:比较各个组合的综合性能,将具有最优诊断性能的组合,作为最终的混合集成模型。
步骤10:将最终的混合集成模型用于流程工业生产品质的智能诊断。
实施例
为验证基于混合集成模型的流程工业生产品质的智能诊断方法的有效性,以带钢生产的轧制过程为例,将某热轧厂的热轧带钢凸度作为智能诊断的对象,对本发明方法进行智能诊断性能测试。
首先对采集到的热轧轧制生产过程数据和带钢凸度数据进行异常值剔除、归一化、划分标签处理,构建热轧带钢凸度数据集,凸度数据集如表1所示;
表1
凸度数据集中各类别带钢凸度样本的分布如表2所示;
表2
然后采用ADASYN-RENN对凸度数据集进行平衡采样以消除凸度数据集的不平衡度,将平衡采样后的数据集用于混合集成模型的建模;
再然后采用贪婪搜索策略和交叉验证法,确定基分类器候选池中各个候选基分类器的最优超参数,最优超参数如表3所示;
表3
又然后,建立30种基分类器的不同组合,如表4所示,最后在30种组合中,判断出由极端随机树ET、极端梯度提升XGB、轻型梯度提升机LGBM和多层感知器MLP构成的4分类器组合是综合性能最优的组合,因此作为最终的混合集成模型,用于对热轧带钢凸度的智能诊断;
表4
将本实施例确定的混合集成模型与基分类器候选池中的6个算法进行对比,以MAUC、G-Mean、F1-Macro作为评价指标。如图2所示,本实施例的混合集成模型的诊断性能优于基分类器候选池中6个算法。将最新的集成算法CatBoost、gcForest以及处理表格型数据的神经网络TabNet、深度网络集成与本实施例的混合集成模型进行对比,并将MAUC、G-Mean、F1-Macro作为评价指标。如图3所示,本实施例的混合集成模型是诊断性能最优、鲁棒性最强的模型。将现场机理模型与本实施例的混合集成模型进行比较,如图4所示,混合集成模型的MAUC、G-Mean、F1-Macro分别为0.7536、0.6686、0.5832,均优于现场机理模型,也就是说本实施例的混合集成模型可以有效实现热轧带钢凸度的智能诊断。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (1)
1.基于混合集成模型的流程工业生产品质的智能诊断方法,其特征在于,该方法包括以下步骤:
步骤1:采集影响产品品质的关键生产过程数据和产品品质数据;
步骤2:采用拉依达准则对所述生产过程数据进行异常值剔除;
步骤3:剔除异常样本后,按照产品质量合格范围,划分出小于合格范围、处于合格范围、超过合格范围共三个类别的产品品质标签;
步骤4:由剔除异常样本后的生产过程数据和产品品质标签构建流程工业生产品质数据集;
步骤5:计算所述流程工业生产品质数据集的不平衡度;
步骤6:当IR>9时,利用 ADASYN算法与RENN算法相结合的采样方法ADASYN-RENN对流程工业生产品质数据集进行重采样,以消除工业数据的不平衡度同时生成高质量的少数类样本;
步骤7:构建基分类器候选池,该分类器候选池包括随机森林RF、极端随机树ET、极端梯度提升XGB、轻型梯度提升机LGBM、多层感知器MLP 和支持向量机SVC 共6个候选基分类器;
步骤8:从重采样后的流程工业生产品质数据集划分出训练集,用于训练基分类器候选池中的候选基分类器,确定候选池中各个候选基分类器的最优超参数;
步骤9:对所述候选基分类器进行不同的组合,并比较各个组合的诊断性能,将其中诊断性能最佳的组合确定为最终的混合集成模型;
步骤10:将最终的混合集成模型用于流程工业生产品质的智能诊断;
所述流程工业生产品质数据集的不平衡度的计算公式如下:
(4)
式中为数据集中多数类样本数量,为数据集中少数类样本数量;
所述步骤6包括如下步骤:
步骤6.1:计算需要生成的样本数量:
(5)
式中为需要生成的样本数量,为数据集中多数类样本数量,为数据集中少数类样本数量;
步骤6.2:计算少数类样本的K近邻样本中多数类样本的占比,公式如下:
(6)
其中为数据集中第i个少数类样本的K近邻样本中多数类样本的占比;为数据集中第i个少数类
样本的近邻中多数类样本的数量,;
步骤6.3:将进行标准化,公式如下:
(7)
步骤6.4:计算每个少数类样本需要生成的样本数量,公式如下:
(8)
式中为每个少数类样本需要生成的样本数量;
步骤6.5:根据,按照如下公式进行新样本的合成:
(9)
式中为新生成的少数类样本,为的近邻样本,是数据集中的第i
个少数类样本,;
步骤6.6:对新生成的少数类样本与原始的多数类样本之间的重叠样本进行清洗,从而获得重采样后的流程工业生产品质数据集;
对新生成的少数类样本与原始的多数类样本之间的重叠样本进行清洗的规则为:如果一个样本的K个近邻样本中有一半以上的样本和其类别不一致,则将这个样本清洗;
所述候选基分类器进行不同组合的方法包括:
首先构建3个候选基分类器集:选取随机森林和极端随机树作为bagging候选基分类器集,选取极端梯度提升和轻型梯度提升机作为boosting候选基分类器集,选取多层感知器和支持向量机作为非集成候选基分类器集;
然后构建3基分类器组合:分别从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中各选取一个候选基分类器进行3个基分类器的组合,共获得8种3基分类器组合;
再然后构建4基分类器组合:1)从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的一个候选基分类器集选取两个候选基分类器以及从其余两个候选基分类器集各选取一个候选基分类器进行4个基分类器的组合,共获得12种4基分类器组合;2)从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的两个候选基分类器集各选取两个候选基分类器,其余一个候选基分类器集不作选取,共获得3种4基分类器组合;
又然后构建5基分类器组合:选取5个基分类器的组合,从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的两个候选基分类器集各选取两个候选基分类器,其余一个候选基分类器集选取一个候选基分类器,共获得6种5基分类器组合;
最后构建6基分类器组合:选取全部6个候选基分类器进行组合,获得1个6基分类器组合;
综上,共获得30种候选基分类器组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211016250.5A CN115374858B (zh) | 2022-08-24 | 2022-08-24 | 基于混合集成模型的流程工业生产品质的智能诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211016250.5A CN115374858B (zh) | 2022-08-24 | 2022-08-24 | 基于混合集成模型的流程工业生产品质的智能诊断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115374858A CN115374858A (zh) | 2022-11-22 |
CN115374858B true CN115374858B (zh) | 2024-05-14 |
Family
ID=84068525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211016250.5A Active CN115374858B (zh) | 2022-08-24 | 2022-08-24 | 基于混合集成模型的流程工业生产品质的智能诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115374858B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117732886B (zh) * | 2024-02-07 | 2024-04-30 | 东北大学 | 一种基于级联智能诊断的热轧质量预控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533116A (zh) * | 2019-09-04 | 2019-12-03 | 大连大学 | 基于欧式距离的自适应集成的不平衡数据分类方法 |
CN111091201A (zh) * | 2019-12-23 | 2020-05-01 | 北京邮电大学 | 一种基于数据分区混合采样的不平衡集成分类方法 |
CN112992346A (zh) * | 2021-04-09 | 2021-06-18 | 中山大学附属第三医院(中山大学肝脏病医院) | 重症脊髓损伤预后的预测模型的建立方法 |
CN114330881A (zh) * | 2021-12-29 | 2022-04-12 | 南京邮电大学 | 一种数据驱动的风机叶片结冰预测方法及装置 |
CN114826675A (zh) * | 2022-03-28 | 2022-07-29 | 杭州趣链科技有限公司 | 基于数据块集成分类的网络流量异常检测方法、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10303737B2 (en) * | 2013-03-15 | 2019-05-28 | Alexander Statnikov | Data analysis computer system and method for fast discovery of multiple Markov boundaries |
-
2022
- 2022-08-24 CN CN202211016250.5A patent/CN115374858B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533116A (zh) * | 2019-09-04 | 2019-12-03 | 大连大学 | 基于欧式距离的自适应集成的不平衡数据分类方法 |
CN111091201A (zh) * | 2019-12-23 | 2020-05-01 | 北京邮电大学 | 一种基于数据分区混合采样的不平衡集成分类方法 |
CN112992346A (zh) * | 2021-04-09 | 2021-06-18 | 中山大学附属第三医院(中山大学肝脏病医院) | 重症脊髓损伤预后的预测模型的建立方法 |
CN114330881A (zh) * | 2021-12-29 | 2022-04-12 | 南京邮电大学 | 一种数据驱动的风机叶片结冰预测方法及装置 |
CN114826675A (zh) * | 2022-03-28 | 2022-07-29 | 杭州趣链科技有限公司 | 基于数据块集成分类的网络流量异常检测方法、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
E. Burnaev,et al.Influence of resampling on accuracy of imbalanced classification.《Eighth International Conference on Machine Vision》.2015,1-5. * |
面向海量不平衡数据的轨道电路故障诊断方法;邢玉龙,等;《中国安全科学学报》;20220515;112-118 * |
Also Published As
Publication number | Publication date |
---|---|
CN115374858A (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108922560B (zh) | 一种基于混合深度神经网络模型的城市噪声识别方法 | |
CN108646725B (zh) | 基于动态加权的双模型故障诊断方法 | |
CN101746269B (zh) | 基于软计算的疲劳驾驶融合检测方法 | |
Jiang et al. | Two-stage structural damage detection using fuzzy neural networks and data fusion techniques | |
CN110706720B (zh) | 一种端到端无监督深度支撑网络的声学异常检测方法 | |
CN113065581B (zh) | 基于参数共享对抗域自适应网络的振动故障迁移诊断方法 | |
Zhang et al. | Differentiable neural architecture search augmented with pruning and multi-objective optimization for time-efficient intelligent fault diagnosis of machinery | |
CN110674858B (zh) | 一种基于时空关联与大数据挖掘的交通舆情检测方法 | |
CN112289391B (zh) | 一种基于机器学习的阳极铝箔性能预测系统 | |
CN113901977A (zh) | 一种基于深度学习的电力用户窃电识别方法及系统 | |
CN115374858B (zh) | 基于混合集成模型的流程工业生产品质的智能诊断方法 | |
Shang et al. | A hybrid method for traffic incident detection using random forest-recursive feature elimination and long short-term memory network with Bayesian optimization algorithm | |
CN114692677B (zh) | 一种基于多目标特征选择的焊接缺陷识别方法 | |
CN117171521A (zh) | 一种针对缺陷检测的钢铁产品性能智能诊断方法 | |
CN114091349A (zh) | 一种基于多源领域自适应的滚动轴承寿命预测方法 | |
Zhang et al. | Amplitude‐frequency images‐based ConvNet: Applications of fault detection and diagnosis in chemical processes | |
CN116883393A (zh) | 一种基于无锚框目标检测算法的金属表面缺陷检测方法 | |
CN113450344B (zh) | 带钢表面缺陷检测方法及系统 | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN110222610A (zh) | 一种信号分类的方法及装置 | |
CN105824785A (zh) | 基于惩罚回归的快速异常点检测方法 | |
CN113283467A (zh) | 一种基于平均损失和逐类选择的弱监督图片分类方法 | |
CN117669373A (zh) | 一种锻造成形装备液压系统能耗预测方法及系统 | |
CN107256453B (zh) | 一种基于改进elm算法的毛管质量预报方法 | |
CN116224950A (zh) | 面向无人生产线自组织重构的智能故障诊断方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |