CN115374858B

CN115374858B - 基于混合集成模型的流程工业生产品质的智能诊断方法

Info

Publication number: CN115374858B
Application number: CN202211016250.5A
Authority: CN
Inventors: 孙杰; 丁成砚; 陈长瑞; 高淑峰; 李霄剑; 彭文; 张殿华
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2024-05-14
Anticipated expiration: 2042-08-24
Also published as: CN115374858A

Abstract

本发明提供了基于混合集成模型的流程工业生产品质的智能诊断方法，涉及流程工业生产品质的诊断技术领域。该方法首先采集工业生产过程数据和生产品质数据，然后对采集的数据进行预处理并对生产品质划分类别、计算不平衡度，构建流程工业生产品质数据集，之后采用ADASYN‑RENN对数据集进行平衡采样，以采样后的数据集为基础，同时考虑模型融合的基分类器的性能和多样性，构建混合模型的基分类器候选池，通过对比不同候选分类器组合方式的分类性能，最后选取性能最优的分类器组合建立混合集成模型用于流程工业生产品质的智能诊断。该方法分类性能好、鲁棒性强，相比于其他数据驱动方法和现场机理模型具有更优异的诊断性能，可广泛投入到流程工业生产过程当中。

Description

基于混合集成模型的流程工业生产品质的智能诊断方法

技术领域

本发明涉及流程工业生产品质的诊断技术领域，具体涉及基于混合集成模型的流程工业生产品质的智能诊断方法。

背景技术

在流程工业中，生产过程包含众多工序，下游工序常常受上游工序品质的影响，使得整个生产过程具有遗传性、非线性和强耦合性。有效地实现流程工业各工序生产品质的智能诊断，不仅可以提升生产节奏防止批量缺陷的出现，还能提升整个生产流程的控制水平。传统的基于机理的诊断模型，一般需要将生产过程中非线性、强耦合的影响因素简化为线性问题再进行诊断，传统模型虽然可以一定程度实现生产品质诊断，但是模型本身存在一定误差。随着对于产品质量的要求日益提高，传统的机理模型已经很难有较大的进步与改善。

此外，虽然近些年随着计算机技术的发展，结合工业互联网技术和数据驱动技术，流程工业的在线监测、产品预测得到一定发展，但还存在一定缺陷：全流程分析控制云平台、全流程智能诊断系统，是在全流程层面对产品质量的顶层设计，而缺少对具体品质评估方法或者分析诊断方法的深入研究；而产品品质预测方法虽然实现了产品品质预测，但这些方法忽略了流程工业产品数据的不平衡性，不合格产品的数量往往很少，传统数据驱动方法只关注总体的预测准确性而忽视少数类的不合格产品的预测准确性。

发明内容

针对现有技术存在的问题，本发明提供了一种基于混合集成模型的流程工业生产品质的智能诊断方法。

本发明的技术方案是：

基于混合集成模型的流程工业生产品质的智能诊断方法，该方法包括以下步骤：

步骤1：采集影响产品品质的关键生产过程数据和产品品质数据；

步骤2：对所述生产过程数据进行异常值剔除；

步骤3：剔除异常样本后，按照产品质量合格范围，划分出小于合格范围、处于合格范围、超过合格范围共三个类别的产品品质标签；

步骤4：由剔除异常样本后的生产过程数据和产品品质标签构建流程工业生产品质数据集；

步骤5：计算所述流程工业生产品质数据集的不平衡度IR；

步骤6：对流程工业生产品质数据集进行重采样，以消除工业数据的不平衡度同时生成高质量的少数类样本；

步骤7：构建基分类器候选池，该分类器候选池包括随机森林RF、极端随机树ET、极端梯度提升XGB、轻型梯度提升机LGBM、多层感知器MLP和支持向量机SVC共6个候选基分类器；

步骤8：从重采样后的流程工业生产品质数据集划分出训练集，用于训练基分类器候选池中的候选基分类器，确定候选池中各个候选基分类器的最优超参数；

步骤9：对所述候选基分类器进行不同的组合，并比较各个组合的诊断性能，将其中诊断性能最佳的组合确定为最终的混合集成模型；

步骤10：将最终的混合集成模型用于流程工业生产品质的智能诊断。

进一步地，根据所述的基于混合集成模型的流程工业生产品质的智能诊断方法，采用拉伊依达准则对所述生产过程数据进行异常值剔除。

进一步地，根据所述的基于混合集成模型的流程工业生产品质的智能诊断方法，所述流程工业生产品质数据集的不平衡度IR的计算公式如下：

式中S_ma为数据集中多数类样本数量，S_mi为数据集中少数类样本数量。

进一步地，根据所述的基于混合集成模型的流程工业生产品质的智能诊断方法，利用ADASYN算法与RENN算法相结合的采样方法ADASYN-RENN对流程工业生产品质数据集进行重采样。

进一步地，根据所述的基于混合集成模型的流程工业生产品质的智能诊断方法，所述步骤6包括如下步骤：

步骤6.1：计算需要生成的样本数量：

ΔS＝S_ma-S_mi (5)

式中ΔS为需要生成的样本数量，S_ma为数据集中多数类样本数量，S_mi为数据集中少数类样本数量；

步骤6.2：计算少数类样本的K近邻样本中多数类样本的占比，公式如下：

其中α_i为数据集中第i个少数类样本的K近邻样本中多数类样本的占比；S_i-ma为数据集中第i个少数类样本的近邻中多数类样本的数量，i＝1,2,3,…,S_mi；

步骤6.3：将α_i进行标准化，公式如下：

步骤6.4：计算每个少数类样本需要生成的样本数量S_i，公式如下：

式中S_i为每个少数类样本需要生成的样本数量；

步骤6.5：根据S_i，按照如下公式进行新样本的合成：

a_syn＝a_i+random(0,1)*|a′_i-a_i| (9)

式中a_syn为新生成的样本，a′_i为a_i的近邻样本，a_i是数据集中的第i个少数类样本，i＝1,2,3,…,S_mi；

步骤6.6：对新生成的少数类样本与原始的多数类样本之间的重叠样本进行清洗。

进一步地，根据所述的基于混合集成模型的流程工业生产品质的智能诊断方法，对新生成的少数类样本与原始的多数类样本之间的重叠样本进行清洗的规则为：如果一个样本的K个近邻样本中有一半以上的样本和其类别不一致，则将这个样本清洗。

进一步地，根据所述的基于混合集成模型的流程工业生产品质的智能诊断方法，对所述候选基分类器进行不同组合的方法包括：

首先构建3个候选基分类器集：选取随机森林和极端随机树作为bagging候选基分类器集，选取极端梯度提升和轻型梯度提升机作为boosting候选基分类器集，选取多层感知器和支持向量机作为非集成候选基分类器集；

然后构建3基分类器组合：分别从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中各选取一个候选基分类器进行3个基分类器的组合，共获得8种3基分类器组合；

再然后构建4基分类器组合：1)从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的一个候选基分类器集选取两个候选基分类器以及从其余两个候选基分类器集各选取一个候选基分类器进行4个基分类器的组合，共获得12种4基分类器组合；2)从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的两个候选基分类器集各选取两个候选基分类器，其余一个候选基分类器集不作选取，共获得3种4基分类器组合；

又然后构建5基分类器组合：选取5个基分类器的组合，从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的两个候选基分类器集各选取两个候选基分类器，其余一个候选基分类器集选取一个候选基分类器，共获得6种5基分类器组合；

最后构建6基分类器组合：选取全部6个候选基分类器进行组合，获得1个6基分类器组合；

综上，共获得30种候选基分类器组合。

与现有技术相比，本发明具有如下有益效果：

通过结合采样技术解决流程工业数据的不平衡性问题，生成高质量的少数类样本；随后为了提高诊断模型对非线性、强耦合的数据的鲁棒性，建立混合模型的分类器候选池，通过模型融合技术比较不同分类器组合的性能，选择最优性能的分类器组合建立混合集成模型，进而实现基于混合集成模型的流程工业生产品质的智能诊断。本发明提出的混合集成模型方法分类性能好、鲁棒性强，相比于其他数据驱动方法和现场机理模型具有更优异的诊断性能，可以广泛地投入到流程工业生产过程当中。

附图说明

为了更清楚地说明本发明实施例中的具体方式，下面将对实施例中涉及的相关附图做简单说明，下面的附图仅仅是本发明的优选实施例，对于本领域普通技术人员来说，在没有创造性改变的前提下，可以根据这些附图获得其它的附图。

图1为本实施方式基于混合集成模型的流程工业生产品质的智能诊断方法的流程示意图；

图2为本发明方法与六种基分类器的性能对比结果图；

图3为本发明方法与其他四种数据驱动方法的性能对比结果图；

图4为本发明方法与现场机理模型的性能比较图；

具体实施方式

下面结合附图及较佳实施例详细说明本发明的具体实施方式。虽然以下描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，因此，本发明的保护范围由所附权利要求书限定。

本发明方法的核心思路是：首先采集工业生产过程数据和生产品质数据，然后对采集到的数据进行预处理并对生产品质划分类别、计算不平衡度，构建流程工业生产品质数据集，之后采用ADASYN-RENN对数据集进行平衡采样，以采样后的数据集为基础，同时考虑模型融合的基分类器的性能和多样性，构建混合模型的基分类器候选池，通过对比不同候选分类器组合方式的分类性能，最后选取性能最优的分类器组合建立混合集成模型用于流程工业生产品质的智能诊断。

本发明提供的基于混合集成模型的流程工业生产品质的智能诊断方法，具体实现流程如图1所示，包括：

步骤2：对所述生产过程数据进行异常值剔除；

本实施方式采用拉伊依达准则(Pauta criterion)对所述生产过程数据进行异常值剔除，公式如下：

其中x_i是第i个数据；是x_i的平均值；σ是标准差；S为采集到生产过程数据的数量。若某样本的数据与平均值的差的绝对值大于3倍的标准差，则该点将被视为异常值予以剔除；

步骤5：计算所述流程工业生产品质数据集的不平衡度IR，公式如下：

式中S_ma为数据集中多数类样本数量，S_mi为数据集中少数类样本数量；

在实际工业生产中，流程工业生产品质数据集一般具有高度不平衡度，即IR>9，因此针对具有高度不平衡性的流程工业生产品质数据集，本实施方式利用ADASYN(AdaptiveSynthetic Sampling，自适应生产采样技术)算法与RENN(Repeated Edited NearestNeighbor，重复删除近邻样本技术)算法相结合的采样方法ADASYN-RENN对流程工业生产品质数据集进行重采样，以消除工业数据的不平衡度同时生成高质量的少数类样本，具体步骤如下：

步骤6.1：计算需要生成的样本数量，公式如下：

ΔS＝S_ma-S_mi (5)

步骤6.2：计算少数类样本的K近邻样本中多数类样本的占比α_i，公式如下：

式中α_i为数据集中第i个少数类样本的K近邻样本中多数类样本的占比；S_i-ma为数据集中第i个少数类样本的近邻中多数类样本的数量，i＝1,2,3,…,S_mi；

步骤6.3：将α_i进行标准化，公式如下：

式中S_i为每个少数类样本需要生成的样本数量；

步骤6.5：根据S_i，按照如下公式进行新样本的合成：

a_syn＝a_i+rnadom(0,1)*|a′_i-a_i| (9)

步骤6.6：对新生成的少数类样本与原始的多数类样本之间的重叠样本进行清洗；

由于新生成的少数类样本不可避免会与原始的多数类样本产生重叠，因此需要对重叠样本进行清洗，以消除重叠样本产生的噪声。

本实施方式采用的清洗规则为：如果一个样本的K个近邻样本中有一半以上的样本和其类别不一致，则将这个样本清洗；

步骤6.7：重复步骤6.6，直到数据集中没有样本可以被清洗；

步骤7：构建基分类器候选池，该分类器候选池包括随机森林RF、极端随机树ET、极端梯度提升XGB、轻型梯度提升机LGBM、多层感知器MLP和支持向量机SVC共6个候选基分类器。

为满足分类性能和原理多样性要求，在流程工业生产品质数据集进行ADASYN-RENN采样后，本实施方式分别从集成学习、深度学习、传统机器学习中选择不同原理的分类算法进行组合构建混合集成模型的基分类器候选池，具体是：

随机森林(RF)是一种bagging集成学习算法，具有优异的分类性能，采用装袋法从原始训练数据集中随机抽取多个子数据集训练多个基决策树，通过投票策略产生最终结果，因此本实施方式将随机森林选为第一个候选基分类器。

极端随机树(ET)也是一种bagging集成学习算法，但不同于随机森林，它采用全部原始训练数据集训练多个基决策树，每个基决策树的分裂策略是完全随机的，最终结果通过投票产生，本实施方式将极端随机树选为第二个候选基分类器；

极端梯度提升(XGB)是一种boosting集成学习算法，通过预排序算法和近似算法来减少训练中的偏差，并采用Level-wise策略分裂决策树，具有出色的性能，因此本实施方式将极端梯度提升选为第三个候选基分类器；

轻型梯度提升机(LGBM)也是boosting集成学习算法，它在训练中采用直方图算法并随机丢弃梯度较小的样本，是计算速度最快的集成算法，因此本实施方式将轻型梯度提升机选为第四个候选基分类器；

多层感知器(MLP)是最基础的深度学习结构，具有很强的表征学习能力和处理非线性问题的能力，因此本实施方式将多层感知器选为第五个候选基分类器；

支持向量机(SVC)是经典的机器学习算法，它通过核函数将非线性问题映射到高维空间，并通过优化超平面使分类间隔最大，因此本实施方式将支持向量机选为第六个候选基分类器。

在流程工业生产品质数据集进行ADASYN-RENN采样后，为了使所提出的方法具有最佳的诊断性能，在本实施方式中，采用5折交叉验证法随机将预处理后的数据集分为5折，每次取其中1折作为测试集、其余4折作为原始训练集，重复5次这一过程以保证每折都会作为1次测试集；其中，原始训练集用于训练分类器，测试集用于测试分类器的性能；训练采用贪婪搜索策略，确定候选池中各个候选基分类器的最优超参数。

在本实施方式中，需要确定随机森林的最优超参数，包括：树生长策略、基学习器数量、树最大深度、分裂内部节点的最小样本数、分裂叶子节点的最小样本数、分裂树的最大特征数；需要确定极端随机树的最优超参数，包括：树生长策略、基学习器数量、树最大深度、分裂内部节点的最小样本数、分裂叶子节点的最小样本数、分裂树的最大特征数；需要确定极端梯度提升的最优超参数，包括：迭代次数、学习率、最小分裂损失、树的最大深度、子节点的最小样本权重和、训练样本的子样本占比、构建每棵树时列的子样本占比、L1正则项和L2正则项；需要确定轻型梯度提升机的最优超参数，包括：迭代次数、学习率、树的叶节点数量、树的最大深度、子节点的最小样本权重和、训练样本的子样本占比、构建每棵树时列的子样本占比、L1正则项和L2正则项；需要确定多层感知器的最优超参数，包括：隐含层节点数、激活函数、学习率、正则化项；需要确定支持向量机的最优超参数，包括：最小损失、惩罚系数。

步骤9：对所述候选基分类器进行不同的组合，并比较各个组合的诊断性能，将其中诊断性能最佳的组合确定为最终的混合集成模型，具体步骤如下：

步骤9.1：对所述候选基分类器进行不同的组合，获得多种基分类器组合；

步骤9.1.1：构建3个候选基分类器集：选取随机森林和极端随机树作为bagging候选基分类器集，选取极端梯度提升和轻型梯度提升机作为boosting候选基分类器集，选取多层感知器和支持向量机作为非集成候选基分类器集；

步骤9.1.2：构建3基分类器组合：分别从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中各选取一个候选基分类器进行3个基分类器的组合，共获得8种3基分类器组合；

步骤9.1.3：构建4基分类器组合：1)从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的一个候选基分类器集选取两个候选基分类器以及从其余两个候选基分类器集各选取一个候选基分类器进行4个基分类器的组合，共获得12种4基分类器组合；2)从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的两个候选基分类器集各选取两个候选基分类器，其余一个候选基分类器集不作选取，共获得3种4基分类器组合；

步骤9.1.4：构建5基分类器组合：选取5个基分类器的组合，从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的两个候选基分类器集各选取两个候选基分类器，其余一个候选基分类器集选取一个候选基分类器，共获得6种5基分类器组合；

步骤9.1.5：构建6基分类器组合：选取全部6个候选基分类器进行组合，获得1个6基分类器组合；

步骤9.2：针对所获得的30种候选基分类器组合，比较各个组合的诊断性能，将具有最优诊断性能的组合，作为最终的混合集成模型；

步骤9.2.1：对于每个候选基分类器组合，若其中某个分类器的预测类别结果为j，则类别j得到一票；采用多数投票法对组合中全部分类器的预测类别结果进行集成，得到该候选基分类器组合的预测结果，公式如下：

其中CLASS为候选基分类器组合的预测类别，为类别j得到的票数，N为数据集中生产品质的类别的数量；

步骤9.2.2：采用10折交叉验证法进行50次，计算各个基分类器组合的MAUC、G-Mean、F1-Macro指标值；

式中和分别是实际为类别j的样本被分类为类别i的概率和实际为类别i的样本被分类为类别j的概率。

式中i、c和recall_i分别是第i类别、类别数量以及每一类的召回率。

式中F1_i是每一类别的F1值。

式中precision和recall分别是某一类别的精确率和召回率。

式中TP和FP分别是某一类别的真阳性率和假阳性率。

式中FN是某一类别的假阴性率。

步骤9.2.3：比较各个组合的综合性能，将具有最优诊断性能的组合，作为最终的混合集成模型。

实施例

为验证基于混合集成模型的流程工业生产品质的智能诊断方法的有效性，以带钢生产的轧制过程为例，将某热轧厂的热轧带钢凸度作为智能诊断的对象，对本发明方法进行智能诊断性能测试。

首先对采集到的热轧轧制生产过程数据和带钢凸度数据进行异常值剔除、归一化、划分标签处理，构建热轧带钢凸度数据集，凸度数据集如表1所示；

表1

凸度数据集中各类别带钢凸度样本的分布如表2所示；

表2

然后采用ADASYN-RENN对凸度数据集进行平衡采样以消除凸度数据集的不平衡度，将平衡采样后的数据集用于混合集成模型的建模；

再然后采用贪婪搜索策略和交叉验证法，确定基分类器候选池中各个候选基分类器的最优超参数，最优超参数如表3所示；

表3

又然后，建立30种基分类器的不同组合，如表4所示，最后在30种组合中，判断出由极端随机树ET、极端梯度提升XGB、轻型梯度提升机LGBM和多层感知器MLP构成的4分类器组合是综合性能最优的组合，因此作为最终的混合集成模型，用于对热轧带钢凸度的智能诊断；

表4

将本实施例确定的混合集成模型与基分类器候选池中的6个算法进行对比，以MAUC、G-Mean、F1-Macro作为评价指标。如图2所示，本实施例的混合集成模型的诊断性能优于基分类器候选池中6个算法。将最新的集成算法CatBoost、gcForest以及处理表格型数据的神经网络TabNet、深度网络集成与本实施例的混合集成模型进行对比，并将MAUC、G-Mean、F1-Macro作为评价指标。如图3所示，本实施例的混合集成模型是诊断性能最优、鲁棒性最强的模型。将现场机理模型与本实施例的混合集成模型进行比较，如图4所示，混合集成模型的MAUC、G-Mean、F1-Macro分别为0.7536、0.6686、0.5832，均优于现场机理模型，也就是说本实施例的混合集成模型可以有效实现热轧带钢凸度的智能诊断。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.基于混合集成模型的流程工业生产品质的智能诊断方法，其特征在于，该方法包括以下步骤：

步骤2：采用拉依达准则对所述生产过程数据进行异常值剔除；

步骤5：计算所述流程工业生产品质数据集的不平衡度；

步骤6：当IR>9时，利用 ADASYN算法与RENN算法相结合的采样方法ADASYN-RENN对流程工业生产品质数据集进行重采样，以消除工业数据的不平衡度同时生成高质量的少数类样本；

步骤7：构建基分类器候选池，该分类器候选池包括随机森林RF、极端随机树ET、极端梯度提升XGB、轻型梯度提升机LGBM、多层感知器MLP 和支持向量机SVC 共6个候选基分类器；

步骤10：将最终的混合集成模型用于流程工业生产品质的智能诊断；

所述流程工业生产品质数据集的不平衡度的计算公式如下：

（4）

式中为数据集中多数类样本数量，为数据集中少数类样本数量；

所述步骤6包括如下步骤：

步骤6.1：计算需要生成的样本数量：

（5）

式中为需要生成的样本数量，为数据集中多数类样本数量，为数据集中少数类样本数量；

（6）

其中为数据集中第i个少数类样本的K近邻样本中多数类样本的占比；为数据集中第i个少数类

样本的近邻中多数类样本的数量，；

步骤6.3：将进行标准化，公式如下：

（7）

步骤6.4：计算每个少数类样本需要生成的样本数量，公式如下：

（8）

式中为每个少数类样本需要生成的样本数量；

步骤6.5：根据，按照如下公式进行新样本的合成：

（9）

式中为新生成的少数类样本，为的近邻样本，是数据集中的第i

个少数类样本，；

步骤6.6：对新生成的少数类样本与原始的多数类样本之间的重叠样本进行清洗，从而获得重采样后的流程工业生产品质数据集；

对新生成的少数类样本与原始的多数类样本之间的重叠样本进行清洗的规则为：如果一个样本的K个近邻样本中有一半以上的样本和其类别不一致，则将这个样本清洗；

所述候选基分类器进行不同组合的方法包括：

再然后构建4基分类器组合：1）从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的一个候选基分类器集选取两个候选基分类器以及从其余两个候选基分类器集各选取一个候选基分类器进行4个基分类器的组合，共获得12种4基分类器组合；2）从bagging候选基分类器集、boosting候选基分类器集、非集成候选基分类器集中的两个候选基分类器集各选取两个候选基分类器，其余一个候选基分类器集不作选取，共获得3种4基分类器组合；

综上，共获得30种候选基分类器组合。