CN113807606B

CN113807606B - 可解释集成学习的间歇过程质量在线预测方法

Info

Publication number: CN113807606B
Application number: CN202111176711.0A
Authority: CN
Inventors: 孙衍宁; 谭润芝; 王无印; 许鸿伟; 秦威
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-07-22
Anticipated expiration: 2041-10-09
Also published as: CN113807606A

Abstract

一种可解释集成学习的间歇过程质量在线预测方法，通过传感器采集的间歇过程历史数据集建立最终产品质量模型，经数据预处理得到候选输入变量；分时段计算候选输入变量与最终产品质量之间的Copula熵并进行排序，选取Copula熵最大的前M个候选输入变量作为关键变量；根据最终产品质量模型设计堆叠集成随机森林算法，训练该堆叠集成随机森林算法后，利用训练得到的堆叠集成随机森林算法对间歇过程的最终产品质量进行在线预测。本发明显著提升了质量预测的可解释性，可以帮助现场工程师准确地把握生产运行状态和产品质量信息，进而为间歇过程的控制决策提供有用参考。

Description

可解释集成学习的间歇过程质量在线预测方法

技术领域

本发明涉及的是一种信息处理领域的技术，具体是一种可解释集成学习的间歇过程质量在线预测方法。

背景技术

间歇生产过程已被广泛应用于精细化工、生物制药、食品加工等诸多领域。由于涉及非常复杂的物理化学反应，并受到外部不确定因素的极大干扰，间歇过程的最终产品质量难以保持稳定，因此生产现场需要及时调整工艺参数。然而，最终产品质量只能在生产结束后进行离线测量，质量反馈严重滞后，且需要较高的人力和时间成本，设计准确性高、解释性强的质量在线预测方法已成为必然选择。

现有针对间歇过程质量预测的研究大致分为第一性原理方法和数据驱动方法。前者通过物理、化学实验或仿真，并借助统计学模型来推理实际工业过程的因果关系，只有深刻理解其中的物理化学规律，该类方法才能很好地发挥作用。随着数据采集和机器学习等技术的广泛应用，数据驱动方法已成为间歇过程质量预测研究的主流，其重点在于挖掘数据中的关联关系，而不试图反映实际工业过程的因果关系，例如偏最小二乘(PLS)、主成分分析(PCA)、支持向量回归(SVR)等浅层学习模型，以及多层感知器(MLP)、长短期记忆网络(LSTM)、卷积神经网络(CNN)等先进的深度学习模型。

然而，这些数据驱动方法用于间歇过程的质量预测仍面临如下挑战：

1)影响因素众多：间歇生产过程往往涉及复杂、持续的物理化学反应，是典型的多变量控制过程。通常，与温度、压力和时间相关的工艺变量是影响间歇过程产品质量的主要因素，然而并不是所有的变量都有利于质量预测。这些影响因素之间相互作用，存在很强的非线性关联关系，很难准确地提取质量相关信息、并有效去除冗余信息。

2)分时段特性：变量间的相关关系并非随时间时刻变化，而是跟随生产进程发生规律性的改变，呈现分段性。在不同的时段，影响最终产品质量的因素不同，也就是说，最终产品质量由过程变量在不同时段的动态轨迹决定，且每个过程变量对最终产品质量的贡献可能不同，在建模过程中应该予以充分考虑。

3)可解释性差：现有浅层/深度学习的解决思路通常侧重于提升预测精度，而忽略了模型的可解释性，尽管高精度的质量预测很重要，但在工业领域内模型可解释并与工艺知识达成一致，也是实现安全、可靠应用的必然要求。

发明内容

本发明针对现有数据驱动方法缺乏可解释性、难以与工艺知识达成一致的问题，提出一种可解释集成学习的间歇过程质量在线预测方法，通过多时段特性进行最终产品质量建模来描述间歇过程的工艺机理，并在关联和预测两方面分别通过Copula熵和堆叠集成随机森林算法实现间歇过程关键变量选择和质量定量表征，显著提升了质量预测的可解释性，可以帮助现场工程师准确地把握生产运行状态和产品质量信息，进而为间歇过程的控制决策提供有用参考。

本发明是通过以下技术方案实现的：

本发明涉及一种可解释集成学习的间歇过程质量在线预测方法，通过传感器采集的间歇过程历史数据集建立最终产品质量模型，经数据预处理得到候选输入变量；分时段计算候选输入变量与最终产品质量之间的Copula熵并进行排序，选取Copula熵最大的前M个候选输入变量作为关键变量；根据最终产品质量模型设计堆叠集成随机森林算法，训练该堆叠集成随机森林算法后，利用训练得到的堆叠集成随机森林算法对间歇过程的最终产品质量进行在线预测。

所述的间歇过程历史数据集包括：1)时段无关变量V_u：包含L个变量(l＝1,2,…,L)和I个批次运行(i＝1,2,…,I)的二维数组，这类变量在批次方向上是非线性动态变化的，但在同一批次的时间方向上是不变的，如某一关键时刻的温度和压力、某一关键时段的持续时间、设备状态的设定参数等；2)时段相关变量V_r,k：包含J个变量(j＝1,2,…,J)、K个时间间隔(k＝1,2,…,K)和I个批次运行(i＝1,2,…,I)的三维数组，这类变量如温度、压力、流量等随生产过程在时间和批次方向上都是非线性动态变化的；3)最终产品质量指标Y：包含Q个变量(q＝1,2,…,Q)和I个批次运行(i＝1,2,…,I)的二维数组。

所述的最终产品质量模型，即时段无关变量以及时段相关变量在每个时间点产生影响的加权叠加：

其中：Y为某一批次的最终产品质量，Q₀、Q_k分别表示V_u和V_r对最终产品质量的局部影响，ω₀、ω_k分别表示局部影响的权值。考虑间歇过程的多时段特性，在每个时段提取时段相关变量的时序特征，从时段无关变量和每个时段的时序特征中选择最终产品质量的关键变量集S_u,S_r,p，其中p＝1,2,…,P表示P个时段；所述的时段无关变量产生的影响记为时段0，则最终产品质量模型公式化为

所述的数据预处理是指在每个时段提取时段相关变量的6个时序特征，包括：均值

方差

极差max(x_j)-min(x_j)，中位数median(x_j)，偏度

和峰度

其中：

表示变量x_j的第k个样本点，N表示样本点的数目，

表示N个样本点的均值。

所述的候选输入变量与最终产品质量之间的Copula熵通过K近邻方法进行近似估计，具体为：

其中：k_N为邻居数，

为双伽马函数，ε_i为第i个样本到最近邻的欧氏距离，c_D＝πD/[2Г(1+0.5D)],D＝Q+1为u的维数，

为修正项，u＝[u₀,u₁,…,u_Q]表示候选输入变量与最终产品质量的边际累积密度函数，通过秩统计量来估计，具体为：

其中：i＝1,…,I表示I个批次运行的数据样本，q＝1,…,Q表示Q个最终产品质量指标，χ为秩统计量。

所述的堆叠集成随机森林算法，首先采用随机森林算法学习不同时段对最终产品质量的局部影响Q_p(p＝0,1,…,P)，然后采用线性回归算法学习不同时段局部影响的权重ω_p(p＝0,1,…,P)，通过最终产品质量模型输出质量预测值。

本发明涉及一种实现上述方法的系统，包括：数据采集和预处理模块、关键变量选择模块、质量预测模型构建模块以及模型维护模块，其中：数据采集和预处理模块直接采集工业现场仪表得到的历史数据，并进行数据去噪、空值和异常值检测处理，得到关键变量选择及质量预测建模所需历史数据集；关键变量选择模块根据历史数据信息，选择与质量变量关系密切的变量集合，从而剔除冗余信息、降低质量预测建模难度和模型复杂度；质量预测模型构建模块综合考虑历史数据和应用对象，选定合适的预测方法建立模型；模型维护模块根据质量预测模型投入使用一段时间后的性能下降趋势，对质量预测模型进行在线校正，以保证模型预测的准确性和可靠性。

技术效果

本发明通过关键变量选择模块和质量预测模型构建模块考虑多时段的最终产品质量建模、Copula熵关键变量选择和堆叠集成随机森林实现可解释集成的高精度间歇过程质量在线预测。本发明整体解决了现有数据驱动方法缺乏可解释性、难以与工艺知识达成一致的问题，其准确性及解释性均高于现有技术。

附图说明

图1为本发明流程图；

图2为批产过程历史数据集示意图；

图3为间歇过程最终产品质量模型示意图；

图4为随机森林算法流程示意图；

图5为质量在线预测结果的实验对比图；

图6为质量在线预测结果的散点对比图；

图7为质量在线预测误差的概率密度曲线对比图。

具体实施方式

本实施例的所有代码在Python 3.7中运行，计算机配置为Intel(R)Core(TM)i7-8700 CPU@3.20GHz 32.00G RAM。

本实施例基于第四届工业大数据创新竞赛中富士康集团提供的注塑成型过程16600个生产批次样本，包括86个时段无关变量和22个时段相关变量，最终产品质量指标为3维产品尺寸Size 1、Size 2和Size 3。

如图1所示，为本实施例涉及的一种可解释集成学习的间歇过程质量在线预测方法，包括以下步骤：

步骤A：获取传感器采集的间歇过程历史数据集，分析数据集中3种类型的原始数据，如图2所示，构建最终产品质量模型。在本实施例中，时段无关变量数目为86个，时段相关变量数目为22个，最终产品质量指标为3维产品尺寸Size 1、Size 2和Size 3。

步骤B：数据预处理。本实施例中，针对22个时段相关变量，在注塑成型过程的11个关键生产时段：合模、注射、保压、熔胶、后松退、冷却、开模、顶进、顶退、中子进和中子退，分别提取22个时段相关变量的6个时序特征，即每个生产时段p(p＝1,2,…P)衍生出132个候选输入变量。

步骤C：Copula熵关键变量选择。本实施例中，针对86个时段无关变量，依次计算每个变量与最终产品质量指标的Copula熵，并按照大小进行排序，选择Copula熵最大的前30个变量(即M＝30)定义为生产时段p＝0的关键变量集S_u；类似地，针对每个生产时段，计算每个候选输入变量与最终产品质量指标的Copula熵，并按照大小进行排序，选择Copula熵最大的前30个变量定义为生产时段p＝1,2,…,P的关键变量集S_r,p。采用K近邻方法估计Copula熵时，k_N越小，统计误差越大，系统误差越小；k_N越大，则反之。在本实施例中，k_N的取值为3。

步骤D：训练堆叠集成随机森林算法，获得不同时段对最终产品质量的局部影响Q_p(p＝0,1,…,P)，以及不同时段局部影响的权重ω_p(p＝0,1,…,P)。随机森林算法的超参数主要涉及树的数量n_tree和每次分裂随机特征的数量m_try，实际应用中进行微调就可以获得出色的性能。在本实施例中，n_tree的取值为100，m_try的取值为2，以数据集中的9960个样本作为训练集，其余样本作为测试集，采用均方根误差(RMSE)和决定系数R²作为性能评价指标，具体为：

其中：N_T为测试集中的样本数，y_i为第i个样本的真实值，

为质量预测方法的估计值，

为所有估计值的平均值。

步骤E：输入在线数据或测试集样本，进行间歇过程最终产品质量的在线预测。在本实施例中，采用测试集数据模拟质量在线预测的过程，并选择线性回归(LR)、K近邻回归(KNN)作为基准方法进行了对比实验，本方法获得了最佳性能。对比结果如表1所示，可以看出本方法获得了最低的RMSE和最高的R²分数，这足以说明，相比其他两种基准方法，本方法的准确性和解释性更好。

表1性能对比结果

如图5所示，为3种方法对质量在线预测结果的实验对比，如图可见，本方法可以更有效地预测质量的微小波动。

如图6所示，为质量在线预测结果的散点对比图，可以看出，本方法的质量预测值比其他方法更接近真实值。

如图7所示，为质量在线预测误差的概率密度曲线对比图，可以看出，本方法的概率密度曲线比其他方法更瘦、更高，这进一步证明了其优越性。

经过具体实际实验，在Windows10/Python3.7的具体环境设置下，以第四届工业大数据创新竞赛中富士康集团提供的注塑成型过程数据集对本发明进行测试，能够得到的实验数据是：如表1所示的各项指标均优于现有方法。

与现有技术相比，本方法通过计算Copula熵更好的提取了不同时段对最终产品质量的关键影响信息，通过堆叠集成随机森林算法综合考虑了多时段制造偏差对最终产品质量的累积影响。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种可解释集成学习的间歇过程质量在线预测方法，其特征在于，通过传感器采集的间歇过程历史数据集建立最终产品质量模型，经数据预处理得到候选输入变量；分时段计算候选输入变量与最终产品质量之间的Copula熵并进行排序，选取Copula熵最大的前M个候选输入变量作为关键变量；根据最终产品质量模型设计堆叠集成随机森林算法，训练该堆叠集成随机森林算法后，利用训练得到的堆叠集成随机森林算法对间歇过程的最终产品质量进行在线预测；

所述的间歇过程历史数据集包括：时段无关变量V_u，时段相关变量V_r,k，最终产品质量指标Y；

所述的最终产品质量模型，即时段无关变量V_u以及时段相关变量V_r在每个时间点产生影响的加权叠加：

其中：Y为某一批次的最终产品质量，Q₀、Q_k分别表示V_u和V_r对最终产品质量的局部影响，ω₀、ω_k分别表示局部影响的权值；考虑间歇过程的多时段特性，在每个时段提取时段相关变量的时序特征，从时段无关变量和每个时段的时序特征中选择最终产品质量的关键变量集S_u,S_r,p，其中p＝1,2,…,P表示P个时段，k＝1,2,…,K表示K个时间间隔；

所述的时段无关变量产生的影响记为时段0，则最终产品质量模型公式化为

所述的堆叠集成随机森林算法，首先采用随机森林算法学习不同时段对最终产品质量的局部影响Q_p，然后采用线性回归算法学习不同时段局部影响的权重ω_p，通过最终产品质量模型输出质量预测值；

所述的间歇过程质量在线预测方法，具体包括：

步骤A：获取传感器采集的间歇过程历史数据集：分析数据集中3种类型的原始数据，构建最终产品质量模型，其中时段无关变量数目为86个，时段相关变量数目为22个，最终产品质量指标为3维产品尺寸Size 1、Size 2和Size 3；

步骤B：数据预处理：针对22个时段相关变量，在注塑成型过程的11个关键生产时段：合模、注射、保压、熔胶、后松退、冷却、开模、顶进、顶退、中子进和中子退，分别提取22个时段相关变量的6个时序特征，即每个生产时段衍生出132个候选输入变量；

步骤C：Copula熵关键变量选择：针对86个时段无关变量，依次计算每个变量与最终产品质量指标的Copula熵，并按照大小进行排序，选择Copula熵最大的前30个变量定义为生产时段p＝0的关键变量集S_u；针对每个生产时段，计算每个候选输入变量与最终产品质量指标的Copula熵，并按照大小进行排序，选择Copula熵最大的前30个变量定义为生产时段p＝1,2,…P的关键变量集S_r,p，采用K近邻方法估计Copula熵时，k_N的取值为3；

步骤D：训练堆叠集成随机森林算法，获得不同时段对最终产品质量的局部影响以及不同时段局部影响的权重；随机森林算法的树的数量n_tree取值为100，和每次分裂随机特征的数量m_try的取值为2，以数据集中的9960个样本作为训练集，其余样本作为测试集，采用均方根误差和决定系数R²作为性能评价指标，具体为：

其中：N_T为测试集中的样本数，y_i为第i个样本的真实值，

为质量预测方法的估计值，

为所有估计值的平均值；

步骤E：输入在线数据或测试集样本，进行间歇过程最终产品质量的在线预测：采用测试集数据模拟质量在线预测的过程，并选择线性回归、K近邻回归作为基准方法进行了对比实验。

2.根据权利要求1所述的可解释集成学习的间歇过程质量在线预测方法，其特征是，所述的数据预处理是指在每个时段提取时段相关变量的6个时序特征，包括：均值

方差

极差max(x_j)-min(x_j)，中位数median(x_j)，偏度

和峰度

其中：

表示变量x_j的第k个样本点，N表示样本点的数目，

表示N个样本点的均值。

3.根据权利要求2所述的可解释集成学习的间歇过程质量在线预测方法，其特征是，所述的候选输入变量与最终产品质量之间的Copula熵通过K近邻方法进行近似估计，具体为：

其中：k_N为邻居数，

4.一种实现根据权利要求1～3中任一所述方法的可解释集成学习的间歇过程质量在线预测系统，其特征在于，包括：数据采集和预处理模块、关键变量选择模块、质量预测模型构建模块以及模型维护模块，其中：数据采集和预处理模块直接采集工业现场仪表得到的历史数据，并进行数据去噪、空值和异常值检测处理，得到关键变量选择及质量预测建模所需历史数据集；关键变量选择模块根据历史数据信息，选择与质量变量关系密切的变量集合，从而剔除冗余信息、降低质量预测建模难度和模型复杂度；质量预测模型构建模块综合考虑历史数据和应用对象，选定预测方法建立模型；模型维护模块根据质量预测模型投入使用一段时间后的性能下降趋势，对质量预测模型进行在线校正，以保证模型预测的准确性和可靠性。