CN113807606B - 可解释集成学习的间歇过程质量在线预测方法 - Google Patents
可解释集成学习的间歇过程质量在线预测方法 Download PDFInfo
- Publication number
- CN113807606B CN113807606B CN202111176711.0A CN202111176711A CN113807606B CN 113807606 B CN113807606 B CN 113807606B CN 202111176711 A CN202111176711 A CN 202111176711A CN 113807606 B CN113807606 B CN 113807606B
- Authority
- CN
- China
- Prior art keywords
- quality
- final product
- variables
- time
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000008569 process Effects 0.000 title claims abstract description 42
- 239000012467 final product Substances 0.000 claims abstract description 53
- 241000039077 Copula Species 0.000 claims abstract description 26
- 238000004519 manufacturing process Methods 0.000 claims abstract description 20
- 238000007637 random forest analysis Methods 0.000 claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 230000010354 integration Effects 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 7
- 239000000047 product Substances 0.000 claims abstract description 6
- 238000012163 sequencing technique Methods 0.000 claims abstract description 3
- 238000012360 testing method Methods 0.000 claims description 9
- 238000010923 batch production Methods 0.000 claims description 8
- 230000001419 dependent effect Effects 0.000 claims description 8
- 238000002474 experimental method Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 238000012417 linear regression Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 claims description 4
- -1 pressure maintaining Substances 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000001746 injection moulding Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 238000001816 cooling Methods 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 230000007423 decrease Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 239000003292 glue Substances 0.000 claims description 2
- 239000001257 hydrogen Substances 0.000 claims description 2
- 238000002347 injection Methods 0.000 claims description 2
- 239000007924 injection Substances 0.000 claims description 2
- 238000002844 melting Methods 0.000 claims description 2
- 230000008018 melting Effects 0.000 claims description 2
- 238000007430 reference method Methods 0.000 claims description 2
- 230000036962 time dependent Effects 0.000 claims 1
- 239000007795 chemical reaction product Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 235000010724 Wisteria floribunda Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000003889 chemical engineering Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012847 fine chemical Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Manufacturing & Machinery (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种可解释集成学习的间歇过程质量在线预测方法,通过传感器采集的间歇过程历史数据集建立最终产品质量模型,经数据预处理得到候选输入变量;分时段计算候选输入变量与最终产品质量之间的Copula熵并进行排序,选取Copula熵最大的前M个候选输入变量作为关键变量;根据最终产品质量模型设计堆叠集成随机森林算法,训练该堆叠集成随机森林算法后,利用训练得到的堆叠集成随机森林算法对间歇过程的最终产品质量进行在线预测。本发明显著提升了质量预测的可解释性,可以帮助现场工程师准确地把握生产运行状态和产品质量信息,进而为间歇过程的控制决策提供有用参考。
Description
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种可解释集成学习的间歇过程质量在线预测方法。
背景技术
间歇生产过程已被广泛应用于精细化工、生物制药、食品加工等诸多领域。由于涉及非常复杂的物理化学反应,并受到外部不确定因素的极大干扰,间歇过程的最终产品质量难以保持稳定,因此生产现场需要及时调整工艺参数。然而,最终产品质量只能在生产结束后进行离线测量,质量反馈严重滞后,且需要较高的人力和时间成本,设计准确性高、解释性强的质量在线预测方法已成为必然选择。
现有针对间歇过程质量预测的研究大致分为第一性原理方法和数据驱动方法。前者通过物理、化学实验或仿真,并借助统计学模型来推理实际工业过程的因果关系,只有深刻理解其中的物理化学规律,该类方法才能很好地发挥作用。随着数据采集和机器学习等技术的广泛应用,数据驱动方法已成为间歇过程质量预测研究的主流,其重点在于挖掘数据中的关联关系,而不试图反映实际工业过程的因果关系,例如偏最小二乘(PLS)、主成分分析(PCA)、支持向量回归(SVR)等浅层学习模型,以及多层感知器(MLP)、长短期记忆网络(LSTM)、卷积神经网络(CNN)等先进的深度学习模型。
然而,这些数据驱动方法用于间歇过程的质量预测仍面临如下挑战:
1)影响因素众多:间歇生产过程往往涉及复杂、持续的物理化学反应,是典型的多变量控制过程。通常,与温度、压力和时间相关的工艺变量是影响间歇过程产品质量的主要因素,然而并不是所有的变量都有利于质量预测。这些影响因素之间相互作用,存在很强的非线性关联关系,很难准确地提取质量相关信息、并有效去除冗余信息。
2)分时段特性:变量间的相关关系并非随时间时刻变化,而是跟随生产进程发生规律性的改变,呈现分段性。在不同的时段,影响最终产品质量的因素不同,也就是说,最终产品质量由过程变量在不同时段的动态轨迹决定,且每个过程变量对最终产品质量的贡献可能不同,在建模过程中应该予以充分考虑。
3)可解释性差:现有浅层/深度学习的解决思路通常侧重于提升预测精度,而忽略了模型的可解释性,尽管高精度的质量预测很重要,但在工业领域内模型可解释并与工艺知识达成一致,也是实现安全、可靠应用的必然要求。
发明内容
本发明针对现有数据驱动方法缺乏可解释性、难以与工艺知识达成一致的问题,提出一种可解释集成学习的间歇过程质量在线预测方法,通过多时段特性进行最终产品质量建模来描述间歇过程的工艺机理,并在关联和预测两方面分别通过Copula熵和堆叠集成随机森林算法实现间歇过程关键变量选择和质量定量表征,显著提升了质量预测的可解释性,可以帮助现场工程师准确地把握生产运行状态和产品质量信息,进而为间歇过程的控制决策提供有用参考。
本发明是通过以下技术方案实现的:
本发明涉及一种可解释集成学习的间歇过程质量在线预测方法,通过传感器采集的间歇过程历史数据集建立最终产品质量模型,经数据预处理得到候选输入变量;分时段计算候选输入变量与最终产品质量之间的Copula熵并进行排序,选取Copula熵最大的前M个候选输入变量作为关键变量;根据最终产品质量模型设计堆叠集成随机森林算法,训练该堆叠集成随机森林算法后,利用训练得到的堆叠集成随机森林算法对间歇过程的最终产品质量进行在线预测。
所述的间歇过程历史数据集包括:1)时段无关变量Vu:包含L个变量(l=1,2,…,L)和I个批次运行(i=1,2,…,I)的二维数组,这类变量在批次方向上是非线性动态变化的,但在同一批次的时间方向上是不变的,如某一关键时刻的温度和压力、某一关键时段的持续时间、设备状态的设定参数等;2)时段相关变量Vr,k:包含J个变量(j=1,2,…,J)、K个时间间隔(k=1,2,…,K)和I个批次运行(i=1,2,…,I)的三维数组,这类变量如温度、压力、流量等随生产过程在时间和批次方向上都是非线性动态变化的;3)最终产品质量指标Y:包含Q个变量(q=1,2,…,Q)和I个批次运行(i=1,2,…,I)的二维数组。
所述的最终产品质量模型,即时段无关变量以及时段相关变量在每个时间点产生影响的加权叠加:其中:Y为某一批次的最终产品质量,Q0、Qk分别表示Vu和Vr对最终产品质量的局部影响,ω0、ωk分别表示局部影响的权值。考虑间歇过程的多时段特性,在每个时段提取时段相关变量的时序特征,从时段无关变量和每个时段的时序特征中选择最终产品质量的关键变量集Su,Sr,p,其中p=1,2,…,P表示P个时段;所述的时段无关变量产生的影响记为时段0,则最终产品质量模型公式化为
所述的数据预处理是指在每个时段提取时段相关变量的6个时序特征,包括:均值方差极差max(xj)-min(xj),中位数median(xj),偏度和峰度其中:表示变量xj的第k个样本点,N表示样本点的数目,表示N个样本点的均值。
所述的候选输入变量与最终产品质量之间的Copula熵通过K近邻方法进行近似估计,具体为:其中:kN为邻居数,为双伽马函数,εi为第i个样本到最近邻的欧氏距离,cD=πD/[2Г(1+0.5D)],D=Q+1为u的维数,为修正项,u=[u0,u1,…,uQ]表示候选输入变量与最终产品质量的边际累积密度函数,通过秩统计量来估计,具体为:其中:i=1,…,I表示I个批次运行的数据样本,q=1,…,Q表示Q个最终产品质量指标,χ为秩统计量。
所述的堆叠集成随机森林算法,首先采用随机森林算法学习不同时段对最终产品质量的局部影响Qp(p=0,1,…,P),然后采用线性回归算法学习不同时段局部影响的权重ωp(p=0,1,…,P),通过最终产品质量模型输出质量预测值。
本发明涉及一种实现上述方法的系统,包括:数据采集和预处理模块、关键变量选择模块、质量预测模型构建模块以及模型维护模块,其中:数据采集和预处理模块直接采集工业现场仪表得到的历史数据,并进行数据去噪、空值和异常值检测处理,得到关键变量选择及质量预测建模所需历史数据集;关键变量选择模块根据历史数据信息,选择与质量变量关系密切的变量集合,从而剔除冗余信息、降低质量预测建模难度和模型复杂度;质量预测模型构建模块综合考虑历史数据和应用对象,选定合适的预测方法建立模型;模型维护模块根据质量预测模型投入使用一段时间后的性能下降趋势,对质量预测模型进行在线校正,以保证模型预测的准确性和可靠性。
技术效果
本发明通过关键变量选择模块和质量预测模型构建模块考虑多时段的最终产品质量建模、Copula熵关键变量选择和堆叠集成随机森林实现可解释集成的高精度间歇过程质量在线预测。本发明整体解决了现有数据驱动方法缺乏可解释性、难以与工艺知识达成一致的问题,其准确性及解释性均高于现有技术。
附图说明
图1为本发明流程图;
图2为批产过程历史数据集示意图;
图3为间歇过程最终产品质量模型示意图;
图4为随机森林算法流程示意图;
图5为质量在线预测结果的实验对比图;
图6为质量在线预测结果的散点对比图;
图7为质量在线预测误差的概率密度曲线对比图。
具体实施方式
本实施例的所有代码在Python 3.7中运行,计算机配置为Intel(R)Core(TM)i7-8700 CPU@3.20GHz 32.00G RAM。
本实施例基于第四届工业大数据创新竞赛中富士康集团提供的注塑成型过程16600个生产批次样本,包括86个时段无关变量和22个时段相关变量,最终产品质量指标为3维产品尺寸Size 1、Size 2和Size 3。
如图1所示,为本实施例涉及的一种可解释集成学习的间歇过程质量在线预测方法,包括以下步骤:
步骤A:获取传感器采集的间歇过程历史数据集,分析数据集中3种类型的原始数据,如图2所示,构建最终产品质量模型。在本实施例中,时段无关变量数目为86个,时段相关变量数目为22个,最终产品质量指标为3维产品尺寸Size 1、Size 2和Size 3。
步骤B:数据预处理。本实施例中,针对22个时段相关变量,在注塑成型过程的11个关键生产时段:合模、注射、保压、熔胶、后松退、冷却、开模、顶进、顶退、中子进和中子退,分别提取22个时段相关变量的6个时序特征,即每个生产时段p(p=1,2,…P)衍生出132个候选输入变量。
步骤C:Copula熵关键变量选择。本实施例中,针对86个时段无关变量,依次计算每个变量与最终产品质量指标的Copula熵,并按照大小进行排序,选择Copula熵最大的前30个变量(即M=30)定义为生产时段p=0的关键变量集Su;类似地,针对每个生产时段,计算每个候选输入变量与最终产品质量指标的Copula熵,并按照大小进行排序,选择Copula熵最大的前30个变量定义为生产时段p=1,2,…,P的关键变量集Sr,p。采用K近邻方法估计Copula熵时,kN越小,统计误差越大,系统误差越小;kN越大,则反之。在本实施例中,kN的取值为3。
步骤D:训练堆叠集成随机森林算法,获得不同时段对最终产品质量的局部影响Qp(p=0,1,…,P),以及不同时段局部影响的权重ωp(p=0,1,…,P)。随机森林算法的超参数主要涉及树的数量ntree和每次分裂随机特征的数量mtry,实际应用中进行微调就可以获得出色的性能。在本实施例中,ntree的取值为100,mtry的取值为2,以数据集中的9960个样本作为训练集,其余样本作为测试集,采用均方根误差(RMSE)和决定系数R2作为性能评价指标,具体为:其中:NT为测试集中的样本数,yi为第i个样本的真实值,为质量预测方法的估计值,为所有估计值的平均值。
步骤E:输入在线数据或测试集样本,进行间歇过程最终产品质量的在线预测。在本实施例中,采用测试集数据模拟质量在线预测的过程,并选择线性回归(LR)、K近邻回归(KNN)作为基准方法进行了对比实验,本方法获得了最佳性能。对比结果如表1所示,可以看出本方法获得了最低的RMSE和最高的R2分数,这足以说明,相比其他两种基准方法,本方法的准确性和解释性更好。
表1性能对比结果
如图5所示,为3种方法对质量在线预测结果的实验对比,如图可见,本方法可以更有效地预测质量的微小波动。
如图6所示,为质量在线预测结果的散点对比图,可以看出,本方法的质量预测值比其他方法更接近真实值。
如图7所示,为质量在线预测误差的概率密度曲线对比图,可以看出,本方法的概率密度曲线比其他方法更瘦、更高,这进一步证明了其优越性。
经过具体实际实验,在Windows10/Python3.7的具体环境设置下,以第四届工业大数据创新竞赛中富士康集团提供的注塑成型过程数据集对本发明进行测试,能够得到的实验数据是:如表1所示的各项指标均优于现有方法。
与现有技术相比,本方法通过计算Copula熵更好的提取了不同时段对最终产品质量的关键影响信息,通过堆叠集成随机森林算法综合考虑了多时段制造偏差对最终产品质量的累积影响。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (4)
1.一种可解释集成学习的间歇过程质量在线预测方法,其特征在于,通过传感器采集的间歇过程历史数据集建立最终产品质量模型,经数据预处理得到候选输入变量;分时段计算候选输入变量与最终产品质量之间的Copula熵并进行排序,选取Copula熵最大的前M个候选输入变量作为关键变量;根据最终产品质量模型设计堆叠集成随机森林算法,训练该堆叠集成随机森林算法后,利用训练得到的堆叠集成随机森林算法对间歇过程的最终产品质量进行在线预测;
所述的间歇过程历史数据集包括:时段无关变量Vu,时段相关变量Vr,k,最终产品质量指标Y;
所述的最终产品质量模型,即时段无关变量Vu以及时段相关变量Vr在每个时间点产生影响的加权叠加:其中:Y为某一批次的最终产品质量,Q0、Qk分别表示Vu和Vr对最终产品质量的局部影响,ω0、ωk分别表示局部影响的权值;考虑间歇过程的多时段特性,在每个时段提取时段相关变量的时序特征,从时段无关变量和每个时段的时序特征中选择最终产品质量的关键变量集Su,Sr,p,其中p=1,2,…,P表示P个时段,k=1,2,…,K表示K个时间间隔;
所述的堆叠集成随机森林算法,首先采用随机森林算法学习不同时段对最终产品质量的局部影响Qp,然后采用线性回归算法学习不同时段局部影响的权重ωp,通过最终产品质量模型输出质量预测值;
所述的间歇过程质量在线预测方法,具体包括:
步骤A:获取传感器采集的间歇过程历史数据集:分析数据集中3种类型的原始数据,构建最终产品质量模型,其中时段无关变量数目为86个,时段相关变量数目为22个,最终产品质量指标为3维产品尺寸Size 1、Size 2和Size 3;
步骤B:数据预处理:针对22个时段相关变量,在注塑成型过程的11个关键生产时段:合模、注射、保压、熔胶、后松退、冷却、开模、顶进、顶退、中子进和中子退,分别提取22个时段相关变量的6个时序特征,即每个生产时段衍生出132个候选输入变量;
步骤C:Copula熵关键变量选择:针对86个时段无关变量,依次计算每个变量与最终产品质量指标的Copula熵,并按照大小进行排序,选择Copula熵最大的前30个变量定义为生产时段p=0的关键变量集Su;针对每个生产时段,计算每个候选输入变量与最终产品质量指标的Copula熵,并按照大小进行排序,选择Copula熵最大的前30个变量定义为生产时段p=1,2,…P的关键变量集Sr,p,采用K近邻方法估计Copula熵时,kN的取值为3;
步骤D:训练堆叠集成随机森林算法,获得不同时段对最终产品质量的局部影响以及不同时段局部影响的权重;随机森林算法的树的数量ntree取值为100,和每次分裂随机特征的数量mtry的取值为2,以数据集中的9960个样本作为训练集,其余样本作为测试集,采用均方根误差和决定系数R2作为性能评价指标,具体为: 其中:NT为测试集中的样本数,yi为第i个样本的真实值,为质量预测方法的估计值,为所有估计值的平均值;
步骤E:输入在线数据或测试集样本,进行间歇过程最终产品质量的在线预测:采用测试集数据模拟质量在线预测的过程,并选择线性回归、K近邻回归作为基准方法进行了对比实验。
4.一种实现根据权利要求1~3中任一所述方法的可解释集成学习的间歇过程质量在线预测系统,其特征在于,包括:数据采集和预处理模块、关键变量选择模块、质量预测模型构建模块以及模型维护模块,其中:数据采集和预处理模块直接采集工业现场仪表得到的历史数据,并进行数据去噪、空值和异常值检测处理,得到关键变量选择及质量预测建模所需历史数据集;关键变量选择模块根据历史数据信息,选择与质量变量关系密切的变量集合,从而剔除冗余信息、降低质量预测建模难度和模型复杂度;质量预测模型构建模块综合考虑历史数据和应用对象,选定预测方法建立模型;模型维护模块根据质量预测模型投入使用一段时间后的性能下降趋势,对质量预测模型进行在线校正,以保证模型预测的准确性和可靠性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111176711.0A CN113807606B (zh) | 2021-10-09 | 2021-10-09 | 可解释集成学习的间歇过程质量在线预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111176711.0A CN113807606B (zh) | 2021-10-09 | 2021-10-09 | 可解释集成学习的间歇过程质量在线预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113807606A CN113807606A (zh) | 2021-12-17 |
CN113807606B true CN113807606B (zh) | 2022-07-22 |
Family
ID=78897487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111176711.0A Active CN113807606B (zh) | 2021-10-09 | 2021-10-09 | 可解释集成学习的间歇过程质量在线预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807606B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298611A (zh) * | 2019-05-16 | 2019-10-01 | 重庆瑞尔科技发展有限公司 | 基于随机森林与深度学习的船舶货运效率调控方法及系统 |
CN111144017A (zh) * | 2019-12-30 | 2020-05-12 | 北京化工大学 | 一种基于ff-rvm的多时段间歇过程软测量建模方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11468371B2 (en) * | 2018-09-22 | 2022-10-11 | Securonix, Inc. | Prediction explainer for ensemble learning |
-
2021
- 2021-10-09 CN CN202111176711.0A patent/CN113807606B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298611A (zh) * | 2019-05-16 | 2019-10-01 | 重庆瑞尔科技发展有限公司 | 基于随机森林与深度学习的船舶货运效率调控方法及系统 |
CN111144017A (zh) * | 2019-12-30 | 2020-05-12 | 北京化工大学 | 一种基于ff-rvm的多时段间歇过程软测量建模方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113807606A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3620983B1 (en) | Computer-implemented method, computer program product and system for data analysis | |
US12001949B2 (en) | Computer-implemented method, computer program product and system for data analysis | |
CN111222549B (zh) | 一种基于深度神经网络的无人机故障预测方法 | |
CN107451101B (zh) | 一种分层集成的高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法 | |
Guo et al. | A deep learning just-in-time modeling approach for soft sensor based on variational autoencoder | |
CN111079836B (zh) | 基于伪标签方法和弱监督学习的过程数据故障分类方法 | |
Bidar et al. | Soft sensor modeling based on multi-state-dependent parameter models and application for quality monitoring in industrial sulfur recovery process | |
CN113012766B (zh) | 一种基于在线选择性集成的自适应软测量建模方法 | |
Gao et al. | A process fault diagnosis method using multi‐time scale dynamic feature extraction based on convolutional neural network | |
Liu et al. | Dual attention-based temporal convolutional network for fault prognosis under time-varying operating conditions | |
Yang et al. | Granger causality for multivariate time series classification | |
JP2019179319A (ja) | 予測モデル作成装置、予測モデル作成方法および予測モデル作成プログラム | |
Wang et al. | Multilayer perceptron for sparse functional data | |
CN115096627A (zh) | 一种液压成形智能装备制造过程故障诊断与运维方法及系统 | |
CN114692507A (zh) | 基于堆叠泊松自编码器网络的计数数据软测量建模方法 | |
CN114297921A (zh) | 基于am-tcn的故障诊断方法 | |
CN113807606B (zh) | 可解释集成学习的间歇过程质量在线预测方法 | |
Chen | Anomaly detection in semiconductor manufacturing through time series forecasting using neural networks | |
Du et al. | Online intelligent monitoring and diagnosis of aircraft horizontal stabilizer assemble processes | |
Saha et al. | Missing value estimation in DNA microarrays using linear regression and fuzzy approach | |
CN111062118B (zh) | 一种基于神经网络预测分层的多层软测量建模系统及方法 | |
Sedano et al. | The application of a two-step AI model to an automated pneumatic drilling process | |
He et al. | Uncertainty-Aware Data-Driven Tobacco Loosening and Conditioning Process Moisture Prediction and Control Optimization | |
CN112651168B (zh) | 基于改进神经网络算法的建设用地面积预测方法 | |
CN116596396A (zh) | 一种基于k近邻插值和slstm的工业聚乙烯过程质量预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |