CN113807606B - 可解释集成学习的间歇过程质量在线预测方法 - Google Patents

可解释集成学习的间歇过程质量在线预测方法 Download PDF

Info

Publication number
CN113807606B
CN113807606B CN202111176711.0A CN202111176711A CN113807606B CN 113807606 B CN113807606 B CN 113807606B CN 202111176711 A CN202111176711 A CN 202111176711A CN 113807606 B CN113807606 B CN 113807606B
Authority
CN
China
Prior art keywords
quality
final product
variables
time
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111176711.0A
Other languages
English (en)
Other versions
CN113807606A (zh
Inventor
孙衍宁
谭润芝
王无印
许鸿伟
秦威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202111176711.0A priority Critical patent/CN113807606B/zh
Publication of CN113807606A publication Critical patent/CN113807606A/zh
Application granted granted Critical
Publication of CN113807606B publication Critical patent/CN113807606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Manufacturing & Machinery (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种可解释集成学习的间歇过程质量在线预测方法,通过传感器采集的间歇过程历史数据集建立最终产品质量模型,经数据预处理得到候选输入变量;分时段计算候选输入变量与最终产品质量之间的Copula熵并进行排序,选取Copula熵最大的前M个候选输入变量作为关键变量;根据最终产品质量模型设计堆叠集成随机森林算法,训练该堆叠集成随机森林算法后,利用训练得到的堆叠集成随机森林算法对间歇过程的最终产品质量进行在线预测。本发明显著提升了质量预测的可解释性,可以帮助现场工程师准确地把握生产运行状态和产品质量信息,进而为间歇过程的控制决策提供有用参考。

Description

可解释集成学习的间歇过程质量在线预测方法
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种可解释集成学习的间歇过程质量在线预测方法。
背景技术
间歇生产过程已被广泛应用于精细化工、生物制药、食品加工等诸多领域。由于涉及非常复杂的物理化学反应,并受到外部不确定因素的极大干扰,间歇过程的最终产品质量难以保持稳定,因此生产现场需要及时调整工艺参数。然而,最终产品质量只能在生产结束后进行离线测量,质量反馈严重滞后,且需要较高的人力和时间成本,设计准确性高、解释性强的质量在线预测方法已成为必然选择。
现有针对间歇过程质量预测的研究大致分为第一性原理方法和数据驱动方法。前者通过物理、化学实验或仿真,并借助统计学模型来推理实际工业过程的因果关系,只有深刻理解其中的物理化学规律,该类方法才能很好地发挥作用。随着数据采集和机器学习等技术的广泛应用,数据驱动方法已成为间歇过程质量预测研究的主流,其重点在于挖掘数据中的关联关系,而不试图反映实际工业过程的因果关系,例如偏最小二乘(PLS)、主成分分析(PCA)、支持向量回归(SVR)等浅层学习模型,以及多层感知器(MLP)、长短期记忆网络(LSTM)、卷积神经网络(CNN)等先进的深度学习模型。
然而,这些数据驱动方法用于间歇过程的质量预测仍面临如下挑战:
1)影响因素众多:间歇生产过程往往涉及复杂、持续的物理化学反应,是典型的多变量控制过程。通常,与温度、压力和时间相关的工艺变量是影响间歇过程产品质量的主要因素,然而并不是所有的变量都有利于质量预测。这些影响因素之间相互作用,存在很强的非线性关联关系,很难准确地提取质量相关信息、并有效去除冗余信息。
2)分时段特性:变量间的相关关系并非随时间时刻变化,而是跟随生产进程发生规律性的改变,呈现分段性。在不同的时段,影响最终产品质量的因素不同,也就是说,最终产品质量由过程变量在不同时段的动态轨迹决定,且每个过程变量对最终产品质量的贡献可能不同,在建模过程中应该予以充分考虑。
3)可解释性差:现有浅层/深度学习的解决思路通常侧重于提升预测精度,而忽略了模型的可解释性,尽管高精度的质量预测很重要,但在工业领域内模型可解释并与工艺知识达成一致,也是实现安全、可靠应用的必然要求。
发明内容
本发明针对现有数据驱动方法缺乏可解释性、难以与工艺知识达成一致的问题,提出一种可解释集成学习的间歇过程质量在线预测方法,通过多时段特性进行最终产品质量建模来描述间歇过程的工艺机理,并在关联和预测两方面分别通过Copula熵和堆叠集成随机森林算法实现间歇过程关键变量选择和质量定量表征,显著提升了质量预测的可解释性,可以帮助现场工程师准确地把握生产运行状态和产品质量信息,进而为间歇过程的控制决策提供有用参考。
本发明是通过以下技术方案实现的:
本发明涉及一种可解释集成学习的间歇过程质量在线预测方法,通过传感器采集的间歇过程历史数据集建立最终产品质量模型,经数据预处理得到候选输入变量;分时段计算候选输入变量与最终产品质量之间的Copula熵并进行排序,选取Copula熵最大的前M个候选输入变量作为关键变量;根据最终产品质量模型设计堆叠集成随机森林算法,训练该堆叠集成随机森林算法后,利用训练得到的堆叠集成随机森林算法对间歇过程的最终产品质量进行在线预测。
所述的间歇过程历史数据集包括:1)时段无关变量Vu:包含L个变量(l=1,2,…,L)和I个批次运行(i=1,2,…,I)的二维数组,这类变量在批次方向上是非线性动态变化的,但在同一批次的时间方向上是不变的,如某一关键时刻的温度和压力、某一关键时段的持续时间、设备状态的设定参数等;2)时段相关变量Vr,k:包含J个变量(j=1,2,…,J)、K个时间间隔(k=1,2,…,K)和I个批次运行(i=1,2,…,I)的三维数组,这类变量如温度、压力、流量等随生产过程在时间和批次方向上都是非线性动态变化的;3)最终产品质量指标Y:包含Q个变量(q=1,2,…,Q)和I个批次运行(i=1,2,…,I)的二维数组。
所述的最终产品质量模型,即时段无关变量以及时段相关变量在每个时间点产生影响的加权叠加:
Figure BDA0003295432890000021
其中:Y为某一批次的最终产品质量,Q0、Qk分别表示Vu和Vr对最终产品质量的局部影响,ω0、ωk分别表示局部影响的权值。考虑间歇过程的多时段特性,在每个时段提取时段相关变量的时序特征,从时段无关变量和每个时段的时序特征中选择最终产品质量的关键变量集Su,Sr,p,其中p=1,2,…,P表示P个时段;所述的时段无关变量产生的影响记为时段0,则最终产品质量模型公式化为
Figure BDA0003295432890000029
Figure BDA0003295432890000022
所述的数据预处理是指在每个时段提取时段相关变量的6个时序特征,包括:均值
Figure BDA0003295432890000023
方差
Figure BDA0003295432890000024
极差max(xj)-min(xj),中位数median(xj),偏度
Figure BDA0003295432890000025
和峰度
Figure BDA0003295432890000026
其中:
Figure BDA0003295432890000027
表示变量xj的第k个样本点,N表示样本点的数目,
Figure BDA0003295432890000028
表示N个样本点的均值。
所述的候选输入变量与最终产品质量之间的Copula熵通过K近邻方法进行近似估计,具体为:
Figure BDA0003295432890000031
其中:kN为邻居数,
Figure BDA0003295432890000032
为双伽马函数,εi为第i个样本到最近邻的欧氏距离,cD=πD/[2Г(1+0.5D)],D=Q+1为u的维数,
Figure BDA0003295432890000033
为修正项,u=[u0,u1,…,uQ]表示候选输入变量与最终产品质量的边际累积密度函数,通过秩统计量来估计,具体为:
Figure BDA0003295432890000034
其中:i=1,…,I表示I个批次运行的数据样本,q=1,…,Q表示Q个最终产品质量指标,χ为秩统计量。
所述的堆叠集成随机森林算法,首先采用随机森林算法学习不同时段对最终产品质量的局部影响Qp(p=0,1,…,P),然后采用线性回归算法学习不同时段局部影响的权重ωp(p=0,1,…,P),通过最终产品质量模型输出质量预测值。
本发明涉及一种实现上述方法的系统,包括:数据采集和预处理模块、关键变量选择模块、质量预测模型构建模块以及模型维护模块,其中:数据采集和预处理模块直接采集工业现场仪表得到的历史数据,并进行数据去噪、空值和异常值检测处理,得到关键变量选择及质量预测建模所需历史数据集;关键变量选择模块根据历史数据信息,选择与质量变量关系密切的变量集合,从而剔除冗余信息、降低质量预测建模难度和模型复杂度;质量预测模型构建模块综合考虑历史数据和应用对象,选定合适的预测方法建立模型;模型维护模块根据质量预测模型投入使用一段时间后的性能下降趋势,对质量预测模型进行在线校正,以保证模型预测的准确性和可靠性。
技术效果
本发明通过关键变量选择模块和质量预测模型构建模块考虑多时段的最终产品质量建模、Copula熵关键变量选择和堆叠集成随机森林实现可解释集成的高精度间歇过程质量在线预测。本发明整体解决了现有数据驱动方法缺乏可解释性、难以与工艺知识达成一致的问题,其准确性及解释性均高于现有技术。
附图说明
图1为本发明流程图;
图2为批产过程历史数据集示意图;
图3为间歇过程最终产品质量模型示意图;
图4为随机森林算法流程示意图;
图5为质量在线预测结果的实验对比图;
图6为质量在线预测结果的散点对比图;
图7为质量在线预测误差的概率密度曲线对比图。
具体实施方式
本实施例的所有代码在Python 3.7中运行,计算机配置为Intel(R)Core(TM)i7-8700 CPU@3.20GHz 32.00G RAM。
本实施例基于第四届工业大数据创新竞赛中富士康集团提供的注塑成型过程16600个生产批次样本,包括86个时段无关变量和22个时段相关变量,最终产品质量指标为3维产品尺寸Size 1、Size 2和Size 3。
如图1所示,为本实施例涉及的一种可解释集成学习的间歇过程质量在线预测方法,包括以下步骤:
步骤A:获取传感器采集的间歇过程历史数据集,分析数据集中3种类型的原始数据,如图2所示,构建最终产品质量模型。在本实施例中,时段无关变量数目为86个,时段相关变量数目为22个,最终产品质量指标为3维产品尺寸Size 1、Size 2和Size 3。
步骤B:数据预处理。本实施例中,针对22个时段相关变量,在注塑成型过程的11个关键生产时段:合模、注射、保压、熔胶、后松退、冷却、开模、顶进、顶退、中子进和中子退,分别提取22个时段相关变量的6个时序特征,即每个生产时段p(p=1,2,…P)衍生出132个候选输入变量。
步骤C:Copula熵关键变量选择。本实施例中,针对86个时段无关变量,依次计算每个变量与最终产品质量指标的Copula熵,并按照大小进行排序,选择Copula熵最大的前30个变量(即M=30)定义为生产时段p=0的关键变量集Su;类似地,针对每个生产时段,计算每个候选输入变量与最终产品质量指标的Copula熵,并按照大小进行排序,选择Copula熵最大的前30个变量定义为生产时段p=1,2,…,P的关键变量集Sr,p。采用K近邻方法估计Copula熵时,kN越小,统计误差越大,系统误差越小;kN越大,则反之。在本实施例中,kN的取值为3。
步骤D:训练堆叠集成随机森林算法,获得不同时段对最终产品质量的局部影响Qp(p=0,1,…,P),以及不同时段局部影响的权重ωp(p=0,1,…,P)。随机森林算法的超参数主要涉及树的数量ntree和每次分裂随机特征的数量mtry,实际应用中进行微调就可以获得出色的性能。在本实施例中,ntree的取值为100,mtry的取值为2,以数据集中的9960个样本作为训练集,其余样本作为测试集,采用均方根误差(RMSE)和决定系数R2作为性能评价指标,具体为:
Figure BDA0003295432890000041
其中:NT为测试集中的样本数,yi为第i个样本的真实值,
Figure BDA0003295432890000042
为质量预测方法的估计值,
Figure BDA0003295432890000043
为所有估计值的平均值。
步骤E:输入在线数据或测试集样本,进行间歇过程最终产品质量的在线预测。在本实施例中,采用测试集数据模拟质量在线预测的过程,并选择线性回归(LR)、K近邻回归(KNN)作为基准方法进行了对比实验,本方法获得了最佳性能。对比结果如表1所示,可以看出本方法获得了最低的RMSE和最高的R2分数,这足以说明,相比其他两种基准方法,本方法的准确性和解释性更好。
表1性能对比结果
Figure BDA0003295432890000051
如图5所示,为3种方法对质量在线预测结果的实验对比,如图可见,本方法可以更有效地预测质量的微小波动。
如图6所示,为质量在线预测结果的散点对比图,可以看出,本方法的质量预测值比其他方法更接近真实值。
如图7所示,为质量在线预测误差的概率密度曲线对比图,可以看出,本方法的概率密度曲线比其他方法更瘦、更高,这进一步证明了其优越性。
经过具体实际实验,在Windows10/Python3.7的具体环境设置下,以第四届工业大数据创新竞赛中富士康集团提供的注塑成型过程数据集对本发明进行测试,能够得到的实验数据是:如表1所示的各项指标均优于现有方法。
与现有技术相比,本方法通过计算Copula熵更好的提取了不同时段对最终产品质量的关键影响信息,通过堆叠集成随机森林算法综合考虑了多时段制造偏差对最终产品质量的累积影响。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (4)

1.一种可解释集成学习的间歇过程质量在线预测方法,其特征在于,通过传感器采集的间歇过程历史数据集建立最终产品质量模型,经数据预处理得到候选输入变量;分时段计算候选输入变量与最终产品质量之间的Copula熵并进行排序,选取Copula熵最大的前M个候选输入变量作为关键变量;根据最终产品质量模型设计堆叠集成随机森林算法,训练该堆叠集成随机森林算法后,利用训练得到的堆叠集成随机森林算法对间歇过程的最终产品质量进行在线预测;
所述的间歇过程历史数据集包括:时段无关变量Vu,时段相关变量Vr,k,最终产品质量指标Y;
所述的最终产品质量模型,即时段无关变量Vu以及时段相关变量Vr在每个时间点产生影响的加权叠加:
Figure FDA0003656464580000011
其中:Y为某一批次的最终产品质量,Q0、Qk分别表示Vu和Vr对最终产品质量的局部影响,ω0、ωk分别表示局部影响的权值;考虑间歇过程的多时段特性,在每个时段提取时段相关变量的时序特征,从时段无关变量和每个时段的时序特征中选择最终产品质量的关键变量集Su,Sr,p,其中p=1,2,…,P表示P个时段,k=1,2,…,K表示K个时间间隔;
所述的时段无关变量产生的影响记为时段0,则最终产品质量模型公式化为
Figure FDA0003656464580000012
Figure FDA0003656464580000013
所述的堆叠集成随机森林算法,首先采用随机森林算法学习不同时段对最终产品质量的局部影响Qp,然后采用线性回归算法学习不同时段局部影响的权重ωp,通过最终产品质量模型输出质量预测值;
所述的间歇过程质量在线预测方法,具体包括:
步骤A:获取传感器采集的间歇过程历史数据集:分析数据集中3种类型的原始数据,构建最终产品质量模型,其中时段无关变量数目为86个,时段相关变量数目为22个,最终产品质量指标为3维产品尺寸Size 1、Size 2和Size 3;
步骤B:数据预处理:针对22个时段相关变量,在注塑成型过程的11个关键生产时段:合模、注射、保压、熔胶、后松退、冷却、开模、顶进、顶退、中子进和中子退,分别提取22个时段相关变量的6个时序特征,即每个生产时段衍生出132个候选输入变量;
步骤C:Copula熵关键变量选择:针对86个时段无关变量,依次计算每个变量与最终产品质量指标的Copula熵,并按照大小进行排序,选择Copula熵最大的前30个变量定义为生产时段p=0的关键变量集Su;针对每个生产时段,计算每个候选输入变量与最终产品质量指标的Copula熵,并按照大小进行排序,选择Copula熵最大的前30个变量定义为生产时段p=1,2,…P的关键变量集Sr,p,采用K近邻方法估计Copula熵时,kN的取值为3;
步骤D:训练堆叠集成随机森林算法,获得不同时段对最终产品质量的局部影响以及不同时段局部影响的权重;随机森林算法的树的数量ntree取值为100,和每次分裂随机特征的数量mtry的取值为2,以数据集中的9960个样本作为训练集,其余样本作为测试集,采用均方根误差和决定系数R2作为性能评价指标,具体为:
Figure FDA0003656464580000021
Figure FDA0003656464580000022
其中:NT为测试集中的样本数,yi为第i个样本的真实值,
Figure FDA0003656464580000023
为质量预测方法的估计值,
Figure FDA0003656464580000024
为所有估计值的平均值;
步骤E:输入在线数据或测试集样本,进行间歇过程最终产品质量的在线预测:采用测试集数据模拟质量在线预测的过程,并选择线性回归、K近邻回归作为基准方法进行了对比实验。
2.根据权利要求1所述的可解释集成学习的间歇过程质量在线预测方法,其特征是,所述的数据预处理是指在每个时段提取时段相关变量的6个时序特征,包括:均值
Figure FDA0003656464580000025
方差
Figure FDA0003656464580000026
极差max(xj)-min(xj),中位数median(xj),偏度
Figure FDA0003656464580000027
和峰度
Figure FDA0003656464580000028
其中:
Figure FDA0003656464580000029
表示变量xj的第k个样本点,N表示样本点的数目,
Figure FDA00036564645800000210
表示N个样本点的均值。
3.根据权利要求2所述的可解释集成学习的间歇过程质量在线预测方法,其特征是,所述的候选输入变量与最终产品质量之间的Copula熵通过K近邻方法进行近似估计,具体为:
Figure FDA00036564645800000211
其中:kN为邻居数,
Figure FDA00036564645800000212
为双伽马函数,εi为第i个样本到最近邻的欧氏距离,cD=πD/[2Г(1+0.5D)],D=Q+1为u的维数,
Figure FDA00036564645800000213
为修正项,u=[u0,u1,…,uQ]表示候选输入变量与最终产品质量的边际累积密度函数,通过秩统计量来估计,具体为:
Figure FDA00036564645800000214
其中:i=1,…,I表示I个批次运行的数据样本,q=1,…,Q表示Q个最终产品质量指标,χ为秩统计量。
4.一种实现根据权利要求1~3中任一所述方法的可解释集成学习的间歇过程质量在线预测系统,其特征在于,包括:数据采集和预处理模块、关键变量选择模块、质量预测模型构建模块以及模型维护模块,其中:数据采集和预处理模块直接采集工业现场仪表得到的历史数据,并进行数据去噪、空值和异常值检测处理,得到关键变量选择及质量预测建模所需历史数据集;关键变量选择模块根据历史数据信息,选择与质量变量关系密切的变量集合,从而剔除冗余信息、降低质量预测建模难度和模型复杂度;质量预测模型构建模块综合考虑历史数据和应用对象,选定预测方法建立模型;模型维护模块根据质量预测模型投入使用一段时间后的性能下降趋势,对质量预测模型进行在线校正,以保证模型预测的准确性和可靠性。
CN202111176711.0A 2021-10-09 2021-10-09 可解释集成学习的间歇过程质量在线预测方法 Active CN113807606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111176711.0A CN113807606B (zh) 2021-10-09 2021-10-09 可解释集成学习的间歇过程质量在线预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111176711.0A CN113807606B (zh) 2021-10-09 2021-10-09 可解释集成学习的间歇过程质量在线预测方法

Publications (2)

Publication Number Publication Date
CN113807606A CN113807606A (zh) 2021-12-17
CN113807606B true CN113807606B (zh) 2022-07-22

Family

ID=78897487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111176711.0A Active CN113807606B (zh) 2021-10-09 2021-10-09 可解释集成学习的间歇过程质量在线预测方法

Country Status (1)

Country Link
CN (1) CN113807606B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298611A (zh) * 2019-05-16 2019-10-01 重庆瑞尔科技发展有限公司 基于随机森林与深度学习的船舶货运效率调控方法及系统
CN111144017A (zh) * 2019-12-30 2020-05-12 北京化工大学 一种基于ff-rvm的多时段间歇过程软测量建模方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468371B2 (en) * 2018-09-22 2022-10-11 Securonix, Inc. Prediction explainer for ensemble learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298611A (zh) * 2019-05-16 2019-10-01 重庆瑞尔科技发展有限公司 基于随机森林与深度学习的船舶货运效率调控方法及系统
CN111144017A (zh) * 2019-12-30 2020-05-12 北京化工大学 一种基于ff-rvm的多时段间歇过程软测量建模方法

Also Published As

Publication number Publication date
CN113807606A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
EP3620983B1 (en) Computer-implemented method, computer program product and system for data analysis
US12001949B2 (en) Computer-implemented method, computer program product and system for data analysis
CN111222549B (zh) 一种基于深度神经网络的无人机故障预测方法
CN107451101B (zh) 一种分层集成的高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法
Guo et al. A deep learning just-in-time modeling approach for soft sensor based on variational autoencoder
CN111079836B (zh) 基于伪标签方法和弱监督学习的过程数据故障分类方法
Bidar et al. Soft sensor modeling based on multi-state-dependent parameter models and application for quality monitoring in industrial sulfur recovery process
CN113012766B (zh) 一种基于在线选择性集成的自适应软测量建模方法
Gao et al. A process fault diagnosis method using multi‐time scale dynamic feature extraction based on convolutional neural network
Liu et al. Dual attention-based temporal convolutional network for fault prognosis under time-varying operating conditions
Yang et al. Granger causality for multivariate time series classification
JP2019179319A (ja) 予測モデル作成装置、予測モデル作成方法および予測モデル作成プログラム
Wang et al. Multilayer perceptron for sparse functional data
CN115096627A (zh) 一种液压成形智能装备制造过程故障诊断与运维方法及系统
CN114692507A (zh) 基于堆叠泊松自编码器网络的计数数据软测量建模方法
CN114297921A (zh) 基于am-tcn的故障诊断方法
CN113807606B (zh) 可解释集成学习的间歇过程质量在线预测方法
Chen Anomaly detection in semiconductor manufacturing through time series forecasting using neural networks
Du et al. Online intelligent monitoring and diagnosis of aircraft horizontal stabilizer assemble processes
Saha et al. Missing value estimation in DNA microarrays using linear regression and fuzzy approach
CN111062118B (zh) 一种基于神经网络预测分层的多层软测量建模系统及方法
Sedano et al. The application of a two-step AI model to an automated pneumatic drilling process
He et al. Uncertainty-Aware Data-Driven Tobacco Loosening and Conditioning Process Moisture Prediction and Control Optimization
CN112651168B (zh) 基于改进神经网络算法的建设用地面积预测方法
CN116596396A (zh) 一种基于k近邻插值和slstm的工业聚乙烯过程质量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant