CN115062542A - 基于二维稳健lstm的聚合反应过程质量预测方法 - Google Patents

基于二维稳健lstm的聚合反应过程质量预测方法 Download PDF

Info

Publication number
CN115062542A
CN115062542A CN202210673203.1A CN202210673203A CN115062542A CN 115062542 A CN115062542 A CN 115062542A CN 202210673203 A CN202210673203 A CN 202210673203A CN 115062542 A CN115062542 A CN 115062542A
Authority
CN
China
Prior art keywords
lstm
moment
cnn
mcc
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210673203.1A
Other languages
English (en)
Inventor
刘毅
刘桥
许亮峰
高增梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210673203.1A priority Critical patent/CN115062542A/zh
Publication of CN115062542A publication Critical patent/CN115062542A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/10Noise analysis or noise optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于二维稳健LSTM的聚合反应过程质量预测方法,包括以下步骤:步骤1、获取聚乙烯工业生产过程变量数据集;步骤2、聚乙烯工业生产过程数据集的预处理、重构及划分;步骤3、建立基于最大相关熵的CNN‑LSTM融合模型并训练;步骤4、模型性能评估。本发明利用CNN提取与质量变量相关的关键特征,LSTM学习时间数据内部表示,并将MCC作为损失函数,通过MCC对工业噪声或离群点表现得不敏感使得CNN‑LSTM更加稳健精确,本发明有助于在含噪声与离群点的多变量时序数据中对聚乙烯工业生产过程的熔融指数准确预测。

Description

基于二维稳健LSTM的聚合反应过程质量预测方法
技术领域
本发明涉及基于一种二维稳健LSTM的聚合反应过程质量预测方法,本发明属于化工过程中的软测量建模领域。
背景技术
在化工过程工业中,过程数据往往存在高维度的特征变量,从而导致变量存在冗余的信息与噪声。常见的工业过程软测量模型特征提取方法如PCA(Principal ComponentAnalysis,PCA)、SAE(Stacked Auto-Encoder,SAE),这些方法需要人为参与,在模型训练之前先一个一个地提取出特征,之后再将选出的这些特征输入模型。同时其特征提取部分一般都为无监督学习,未能把关键质量变量考虑进去,导致提取的特征未能很好的解释质量特性。此外,过程数据之间还存在很强的相关性与非线性,即过程数据是具有高度非线性与高度动态性的时间序列。
递归神经网络(Recurrent Neural Network,RNN)通过将时序的概念引入到网络结构设计中,在时序数据分析中表现出更强的适应性,为提取时间序列特征提供了更好的解决方案。随着处理时间序列长度的增加,会使得网络训练期间容易产生梯度消失与梯度爆炸等问题,从而导致RNN网络预测精度不足。另外在开放环境下,由于数据采集环境的复杂性、采集设备性能的限制以及人为因素的影响,使得收集到的数据中含有大量的不确定性,如数据存在各种噪声与异常点等,极大地降低了数据的可用性。在回归建模中,常用的损失函数为最小二乘损失(MSE)。随着误差的增大,相应的损失呈平方增加。当训练数据中存在异常点时,异常点处的回归误差将主导整个损失函数值的增加或减小,从而导致此时训练得到的模型偏向于异常样本。
卷积神经网络(Convolutional Neural Network,CNN)作为一种深度前馈神经网络,其网络结构通常由输入层、卷积层、池化层等组成。在特征提取方面,CNN通过卷积层的卷积操作提取局部特征,然后池化层对卷积输出施行下采样操作,保留强特征,去除弱特征,同时减少参数数量,防止过拟合。
长短期记忆(Long-Short-Term Memory,LSTM)神经网络是在RNN结构的基础上,引入门控单元替代RNN隐含层中的神经元,使其对较长时间序列上的信息能够选择性地通过和剔除,改善RNN在长时间序列上记忆能力不足、梯度消失和梯度爆炸的问题。
最大相关熵准则(Maximum Correntropy Criterion,MCC)最早用在信号的噪声处理领域,后经证明了在回归问题中,MCC在处理包含非高斯噪声或离群点的数据时表现出良好的性能。
本发明将CNN与LSTM进行有效融合,并采用MCC作为损失函数,提出一种稳健MCC-CNN-LSTM质量预测方法。该方法中CNN提取与质量变量相关的关键特征,LSTM学习时间数据内部表示,将最大相关熵准则作为损失函数,通过最大相关熵准则对工业噪声或离群点表现得不敏感使得CNN-LSTM更加稳健精确。
发明内容
针对现有技术中存在的上述问题,本发明的目的在于通过CNN提取与质量变量相关的关键特征,LSTM学习时间数据内部表示,MCC作为损失函数对噪声或离群点表现得不敏感,使得建立的模型成为一种更加精确可靠的聚合反应过程质量预测方法。
本发明解决其技术问题所采用的技术方案是:
基于二维稳健LSTM的聚合反应过程质量预测方法,包括以下步骤:
(1)获取聚乙烯工业生产过程变量数据集:
获取聚乙烯工业生产过程变量,过程变量数据集包括输入变量和输出变量,取聚乙烯生产过程中的一个反应器内的一组变量为输入变量,该反应器的产品质量变量记为MI,取MI为输出变量;
(2)数据集的预处理、数据重构及数据集划分:
对步骤(1)中获取的聚乙烯工业生产过程变量数据集进行数据标准化处理,使其变成无量纲数据集,然后,将数据集进行重构,最后将重构后的无量纲数据集按设定比例划分为训练集和测试集;
(3)建立MCC-CNN-LSTM神经网络模型并训练:
建立基于最大相关熵准则MCC的CNN-LSTM融合的神经网络,将训练集输入所建立的MCC-CNN-LSTM神经网络进行训练;
(4)对MCC-CNN-LSTM神经网络训练所建立的模型进行性能评估:
将聚乙烯工业生产数据集送入软测量模型中进行训练预测评估;采用均方根误差RMSE与最大绝对误差MAE作为评价指标对模型进行评估,验证MCC-CNN-LSTM神经网络的性能。
进一步的,所述步骤(2)的具体过程如下:
步骤2.1:为消除过程变量之间因量纲带来的差异性,对数据进行归一化处理,公式如下:
Figure BDA0003695435220000041
其中:x′为标准化处理后的数据集,x为所采集的原始数据集;xmin为原始过程变量数据的最小值,xmax为原始过程变量数据的最大值;
步骤2.2:归一化处理后,将时间序列数据进行重构,重构后的输入矩阵如下所示:
Figure BDA0003695435220000042
式中:Xt是重构后的输入矩阵数据,q的上标数字代表不同的过程变量,t表示时间间隔,M代表滑动窗口;
步骤2.3:数据重构后将数据集划分为测试集与训练集。
进一步的,所述步骤(3)的具体过程如下:
步骤3.1:建立MCC-CNN-LSTM神经网络:
针对CNN-LSTM模型,以X=[xT+1,x2,…,xT+M]T∈RM×N表示模型的输入矩阵,其中x代表每个时间间隔的特征向量,下标T代表时间,M代表时间序列的长度,N代表时间序列的特征个数;输入数据第d次卷积运算公式为:
pd=fd(X⊙Wd+bd)
其中:⊙为卷积运算,卷积核Wd∈RJ×N是权值向量,其中J为卷积核尺寸,即提取时间序列特征的时间窗宽度,bd为该层的偏置项,fd(·)表示卷积层激活函数,pd为卷积核的特征映射矩阵;
通过L个过滤器得到多个特征为P=[p1,p2,…,pL],为了提取到足够的隐藏信息,卷积层的输出维度一般比较大。池化层的作用就是对输入特征进行降采样,同时对众多特征进行过滤筛选,强化部分显著特征;最大池化层具体公式如下:
G=maxpooling(P)
其中:G=[g1,g2…gD]T∈RD×F为全局最大池化后的新构成的时间序列矩阵,D代表新生成的时间序列的长度,F代表时间序列的特征个数,maxpooling为最大池化操作;
池化后新构成的时间序列矩阵G作为LSTM层的输入矩阵,三个门的具体计算如下所示:
ft=σ2(Wfxgt+Wfhht-1+bf)
it=σ2(Wixgt+Wihht-1+bi)
ot=σ2(Woxgt+Wohht-1+bo)
其中ft、it、ot分别为遗忘门、输入门与输出门,σ2为非线性激活函数,sigmoid函数用作门的激活函数,gt与ht-1分别表示采样时刻t的输入向量、和采样时刻t-1的隐藏向量;式中,bf、bi、bo为相应门单元的偏置项,Wfx、Wfh、Wix、Wih、Wox、Woh对应门单元的连接权值;
在LSTM内部,生成一个中间状态C(t)为:
Ct=tanh(Wcxgt+Wchht-1+bc)
Figure BDA0003695435220000051
其中,tanh表示非线性tanh激活函数,Wcx、Wch为中间状态的连接权值,
Figure BDA0003695435220000052
用于表示Hadamard乘积;
CNN-LSTM最终的输出yt表示为:
yt=L(Vht+bl)
其中L(·)代表预测函数的映射,V与bl分别代表对应的连接权重与偏置项;
相关熵用于信号除噪场景,其能够处理非高斯噪声和脉冲噪声;相关熵定义为描述两个随机变量Q和R之间的局部相似度,表示为:
Figure BDA0003695435220000064
其中:
Figure BDA0003695435220000065
为两个随机变量Q和R之间的局部相似度,
Figure BDA0003695435220000066
是一个核函数,E(·)是一个求期望运算;
根据相关熵的定义,MCC定义为:
Figure BDA0003695435220000061
其中,ei是系统在监督学习过程中产生的误差,即
Figure BDA0003695435220000062
代表预测值,yi代表真实值,B代表样本数,w是一组可调整的模型参数;
在CNN-LSTM的模型优化策略中,MCC构建以高斯核函数为核心的损失函数,取代常用的损失函数MSE来增加模型的鲁棒性,并通过Adam优化算法进行模型参数求解;Adam优化算法一般处理最小化问题,而MCC属于最大化问题,所以需对MCC准则进行等效转化为求最小值问题,即目标函数f(w),如下所示:
Figure BDA0003695435220000063
其中σ1代表内核宽度;
过程构建了CNN-LSTM神经网络,整个网络采用MCC准则作为损失函数进行训练;
步骤3.2:网络结构及参数设置
MCC-CNN-LSTM神经网络结构由输入层,两层卷积层、最大池化层、LSTM层与全连接层构成;通过网格选择的方式确定时间窗口大小,内核参数宽度,并采用自适应矩估计算法优化器对网络参数进行训练;为防止模型过拟合,在MCC-CNN-LSTM神经网络中添加dropout层;
步骤3.3:利用自适应矩估计算法训练模型
自适应矩估计算法在参数更新过程中通过对梯度的一阶矩估计和二阶矩估计,自适应的为每一个参数设置不同的学习率进行更新。在概率论中,如果一个随机变量X服从某个分布,X的一阶矩定义为E(X),也就是样本均值;X的二阶矩定义为E(X2),也就是样本平方的均值;
利用自适应矩估计算法优化模型参数,首先定义α表示初始学习率,它控制参数的更新比率,定义较大的值在更新过程中会有更快的更新速度,网络会更快的收敛,而定义较小的值时参数的更新速度会相应变慢,但网络会收敛到更好的性能;定义β1表示一阶矩估计指数衰减率;定义β2表示二阶矩估计指数衰减率;定义m表示梯度的一阶矩;定义n表示梯度的二阶矩;定义t表示时间步;自适应矩估计算法的优化流程可归纳如下:
1)初始化相关参数:在0时刻,令α=0.001,β1=0.9,β2=0.999,m=0,n=0,不断优化θ,直到目标函数f(θ)满足求解要求;
2)更新一阶矩和二阶矩:在任意时刻,只要目标函数f(θ)不满足求解要求,就会在下一时刻更新一阶矩和二阶矩,具体过程如下:
Figure BDA0003695435220000081
其中:gt是t时刻权值的梯度,
Figure BDA0003695435220000082
是求梯度符号,θt-1是t-1时刻的权值矩阵;
mt=β1·mt-1+(1-β1)·gt
vt=β2·vt-1+(1-β2)·gt 2
上面两个式子分别对一阶矩和二阶矩进行更新;
Figure BDA0003695435220000083
Figure BDA0003695435220000084
上面两个式子分别对一阶矩和二阶矩进行偏差校正;其中:
Figure BDA0003695435220000085
Figure BDA0003695435220000086
分别是校正后的一阶矩和二阶矩;
3)更新网络参数:具体过程如下所示:
Figure BDA0003695435220000087
其中:θt是t时刻更新后的权值矩阵,θt-1是t-1时刻待更新的权值矩阵,同时为了避免分母为零,令参数ε=10-8
若θt满足求解要求,则停止优化并输出结果,否则跳回2)继续优化。
进一步的,所述步骤(4)的过程为:
MCC-CNN-LSTM网络模型经过训练后对其进行性能评估,满足要求后才能使用;评估指标采用均方根误差RMSE与最大绝对误差MAE,计算公式如下:
Figure BDA0003695435220000091
Figure BDA0003695435220000092
其中:
Figure BDA0003695435220000093
为软测量模型预测值,yi为目标域测试集真实值,Btest为测试集的样本数。
本发明的有益效果主要表现在:
本发明是基于二维稳健LSTM的聚合反应过程质量预测方法,通过CNN提取与质量变量相关的关键特征,LSTM学习时间数据内部表示,利用信号除噪场景中的MCC作为损失函数对噪声或离群点表现得不敏感,使得建立的模型更加稳健精确。
附图说明
图1是本发明的方法流程图;
图2为本发明的MCC-CNN-LSTM神经网络模型结构图;
图3为本发明实施例中,聚乙烯工业生产测试集中本发明的方法与其他模型的预测误差图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合说明书附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参照图1~图3,基于二维稳健LSTM的聚合反应过程质量预测方法,包括以下步骤:
(1)获取聚乙烯工业生产过程变量数据集:
获取聚乙烯工业生产过程变量,取聚乙烯生产过程中的一个反应器内的一组变量为输入变量,该反应器的产品质量变量记为MI,所述MI为输出变量,所述过程变量数据集包括输入变量和输出变量。
获取聚乙烯工业生产过程变量数据集,共211个样本,每个样本包括12个输入变量,1个预测变量;
(2)数据集的预处理、数据重构及数据集划分:
步骤2.1:为消除过程变量之间因量纲带来的差异性,对数据进行归一化处理,公式如下:
Figure BDA0003695435220000101
其中:x′为标准化处理后的数据集,x为所采集的原始数据集;xmin为原始过程变量数据的最小值,xmax为原始过程变量数据的最大值;
步骤2.2:归一化处理后将时间序列数据进行重构,重构后的输入矩阵如下所示:
Figure BDA0003695435220000111
式中:Xt是重构后的输入矩阵数据,q的上标数字代表不同的过程变量,t表示时间间隔,M代表滑动窗口;
步骤2.3:数据重构后将数据集划分为测试集与训练集,其中测试集占样本总数的25%,训练集占总数的75%;
(3)建立MCC-CNN-LSTM神经网络模型并训练
步骤3.1:建立MCC-CNN-LSTM神经网络
针对CNN-LSTM模型,以X=[xT+1,x2,…,xT+M]T∈RM×N表示模型的输入矩阵,其中x代表每个时间间隔的特征向量,M代表时间序列的长度,N代表时间序列的特征个数。输入数据第d次卷积运算公式为:
pd=fd(X⊙Wd+bd)
其中:⊙为卷积运算,卷积核Wd∈RJ×N是权值向量,其中J为卷积核尺寸,即提取时间序列特征的时间窗宽度。bd为该层的偏置项,fd(·)表示卷积层激活函数,pd为卷积核的特征映射矩阵;
通过L个过滤器得到多个特征为P=[p1,p2,…,pL],为了提取到足够的隐藏信息,卷积层的输出维度一般比较大。池化层的作用就是对输入特征进行降采样,同时对众多特征进行过滤筛选,强化部分显著特征。最大池化层具体公式如下:
G=maxpooling(P)
其中:G=[g1,g2…gD]T∈RD×F为全局最大池化后的新构成的时间序列矩阵,其中D代表新生成的时间序列的长度,F代表时间序列的特征个数,maxpooling为最大池化操作;
池化后新构成的时间序列矩阵G作为LSTM层的输入矩阵,三个门的具体计算如下所示:
ft=σ2(Wfxgt+Wfhht-1+bf)
it=σ2(Wixgt+Wihht-1+bi)
ot=σ2(Woxgt+Wohht-1+bo)
其中ft、it、ot分别为遗忘门、输入门与输出门,σ2为非线性激活函数,通常sigmoid函数可以用作门的激活函数,gt与ht-1分别表示采样时刻t的输入向量、和采样时刻t-1的隐藏向量。式中,bf、bi、bo为相应门单元的偏置项,Wfx、Wfh、Wix、Wih、Wox、Woh对应门单元的连接权值;
在LSTM内部,生成一个中间状态C(t)为:
Ct=tanh(Wcxgt+Wchht-1+bc)
Figure BDA0003695435220000121
其中tanh表示非线性tanh激活函数,Wcx、Wch为中间状态的连接权值,
Figure BDA0003695435220000122
用于表示Hadamard乘积;
CNN-LSTM最终的输出yt可以表示为:
yt=L(Vht+bl)
其中L(·)代表预测函数的映射,V与bl分别代表对应的连接权重与偏置项;
相关熵一般用于信号除噪场景,其可以处理非高斯噪声和脉冲噪声。相关熵定义为描述两个随机变量Q和R之间的局部相似度,可以表示为:
Figure BDA0003695435220000131
其中:
Figure BDA0003695435220000132
为两个随机变量Q和R之间的局部相似度,
Figure BDA0003695435220000133
是一个核函数,E(·)是一个求期望运算;
根据相关熵的定义,MCC可以被进一步推导出来,其可以定义为:
Figure BDA0003695435220000134
其中ei是系统在监督学习过程中产生的误差,即
Figure BDA0003695435220000135
代表预测值,yi代表真实值,B代表样本数,w是一组可调整的模型参数;
在CNN-LSTM的模型优化策略中,MCC构建以高斯核函数为核心的损失函数,取代常用的损失函数(MSE)来增加模型的鲁棒性,并通过Adam优化算法进行模型参数求解。Adam优化算法一般处理最小化问题,而MCC属于最大化问题,所以需对MCC准则进行等效转化为求最小值问题,即目标函数f(w),如下所示:
Figure BDA0003695435220000136
其中σ1代表内核宽度;
过程构建了CNN-LSTM神经网络,整个网络采用MCC准则作为损失函数进行训练。
步骤3.2:网络结构及参数设置
MCC-CNN-LSTM神经网络结构由输入层(每个时序数据的尺寸为9*12),2层卷积层(卷积核数目依次为20与10,卷积核尺寸为2*12)、最大池化层(池大小为2)、LSTM层(神经元数量为20)与全连接层构成。设置的超参数包括时间窗口大小、训练次数和内核参数宽度等。通过网格选择的方式确定时间窗口大小设置为6,内核参数宽度为0.8,并采用自适应矩估计算法优化器对网络参数进行训练,epoch为500,batch_size为10。为防止模型过拟合,在MCC-CNN-LSTM神经网络中添加dropout层,dropout值设定为0.2。
步骤3.3:利用自适应矩估计算法训练模型
自适应矩估计算法在参数更新过程中通过对梯度的一阶矩估计和二阶矩估计,自适应的为每一个参数设置不同的学习率进行更新。在概率论中,如果一个随机变量X服从某个分布,X的一阶矩定义为E(X),也就是样本均值;X的二阶矩定义为E(X2),也就是样本平方的均值。
利用自适应矩估计算法优化模型参数,首先定义α表示初始学习率,它控制参数的更新比率,定义较大的值在更新过程中会有更快的更新速度,网络会更快的收敛,而定义较小的值时参数的更新速度会相应变慢,但网络会收敛到更好的性能;定义β1表示一阶矩估计指数衰减率;定义β2表示二阶矩估计指数衰减率;定义m表示梯度的一阶矩;定义n表示梯度的二阶矩;定义t表示时间步。自适应矩估计算法的优化流程可归纳如下:
1)初始化相关参数。在0时刻,令α=0.001,β1=0.9,β2=0.999,m=0,n=0。不断优化θ,直到目标函数f(θ)满足求解要求。
2)更新一阶矩和二阶矩。在任意时刻,只要目标函数f(θ)不满足求解要求,就会在下一时刻更新一阶矩和二阶矩,具体过程如下:
Figure BDA0003695435220000151
其中:gt是t时刻权值的梯度,
Figure BDA0003695435220000152
是求梯度符号,θt-1是t-1时刻的权值矩阵;
mt=β1·mt-1+(1-β1)·gt
vt=β2·vt-1+(1-β2)·gt 2
上面两个式子分别对一阶矩和二阶矩进行更新。
Figure BDA0003695435220000153
Figure BDA0003695435220000154
上面两个式子分别对一阶矩和二阶矩进行偏差校正。其中:
Figure BDA0003695435220000155
Figure BDA0003695435220000156
分别是校正后的一阶矩和二阶矩;
3)更新网络参数。具体过程如下所示:
Figure BDA0003695435220000157
其中:θt是t时刻更新后的权值矩阵,θt-1是t-1时刻待更新的权值矩阵,同时为了避免分母为零,令参数ε=10-8
若θt满足求解要求,则停止优化并输出结果,否则跳回2)继续优化。
(4)对MCC-CNN-LSTM神经网络训练所建立的模型进行性能评估
MCC-CNN-LSTM网络模型经过训练后对其进行性能评估,满足要求后才能使用。本发明采用的评估指标为均方根误差(RMSE)与最大绝对误差(MAE),计算公式如下:
Figure BDA0003695435220000161
Figure BDA0003695435220000162
其中:
Figure BDA0003695435220000163
为软测量模型预测值,yi为目标域测试集真实值,Ntest为测试集的样本数;
实例:基于二维稳健LSTM的聚合反应过程质量预测方法,过程如下:
(1)收集聚乙烯工业生产过程变量数据集
获取聚乙烯工业生产过程变量数据集,共211个样本,每个样本包括12个输入变量,1个预测变量;
(2)聚乙烯工业生产过程变量数据集的预处理、数据重构及数据集划分
首先对聚乙烯工业生产过程变量数据集进行归一化处理。其次,将数据集进行重构,最后将归一化后的重构数据划分为训练集和测试集,其中测试集占样本总数的25%,训练集占总数的75%;
(3)建立MCC-CNN-LSTM神经网络模型并训练
将带有工业噪声与离群点的多变量聚乙烯工业生产训练集,输入到MCC-CNN-LSTM神经网络中进行训练,并采用自适应矩估计算法优化模型参数。
(4)模型性能评估
将本方法与MCC-LSTM和LSTM两种方法进行实验比较,用测试集的均方根误差(RMSE)与最大绝对误差(MAE)作为评价标准,RMSE与MAE值越小越好。其比较结果如表1所示,表中列出本方法、MCC-LSTM和LSTM在测试集中的结果。从结果可知,本发明的方法比MCC-LSTM与传统LSTM模型的RMSE与MAE更小,所以MCC-CNN-LSTM方法在聚合反应过程质量预测中更加精确可靠。
表1为本方法与MCC-LSTM和传统LSTM预测结果比较
Figure BDA0003695435220000171
本发明方法提出的基于二维稳健LSTM的聚合反应过程质量预测方法,能够很好的提取重要特征与处理时序数据,并能有效抵抗数据噪声与离群点带来的影响,提高了聚合反应过程质量预测的可靠性与精确性。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (4)

1.基于二维稳健LSTM的聚合反应过程质量预测方法,其特征在于,包括以下步骤:
(1)获取聚乙烯工业生产过程变量数据集:
获取聚乙烯工业生产过程变量,过程变量数据集包括输入变量和输出变量,取聚乙烯生产过程中的一个反应器内的一组变量为输入变量,该反应器的产品质量变量记为MI,取MI为输出变量;
(2)数据集的预处理、数据重构及数据集划分:
对步骤(1)中获取的聚乙烯工业生产过程变量数据集进行数据标准化处理,使其变成无量纲数据集,然后,将数据集进行重构,最后将重构后的无量纲数据集按设定比例划分为训练集和测试集;
(3)建立MCC-CNN-LSTM神经网络模型并训练:
建立基于最大相关熵准则MCC的CNN-LSTM融合的神经网络,将训练集输入所建立的MCC-CNN-LSTM神经网络进行训练;
(4)对MCC-CNN-LSTM神经网络训练所建立的模型进行性能评估:
将聚乙烯工业生产数据集送入软测量模型中进行训练预测评估;采用均方根误差RMSE与最大绝对误差MAE作为评价指标对模型进行评估,验证MCC-CNN-LSTM神经网络的性能。
2.如权利要求1所述的基于二维稳健LSTM的聚合反应过程质量预测方法,其特征在于,所述步骤(2)的具体过程如下:
步骤2.1:为消除过程变量之间因量纲带来的差异性,对数据进行归一化处理,公式如下:
Figure FDA0003695435210000021
其中:x′为标准化处理后的数据集,x为所采集的原始数据集;xmin为原始过程变量数据的最小值,xmax为原始过程变量数据的最大值;
步骤2.2:归一化处理后,将时间序列数据进行重构,重构后的输入矩阵如下所示:
Figure FDA0003695435210000022
式中:Xt是重构后的输入矩阵数据,q的上标数字代表不同的过程变量,t表示时间间隔,M代表滑动窗口;
步骤2.3:数据重构后将数据集划分为测试集与训练集;
3.如权利要求1或2所述的基于二维稳健LSTM的聚合反应过程质量预测方法,其特征在于,所述步骤(3)的具体过程如下:
步骤3.1:建立MCC-CNN-LSTM神经网络:
针对CNN-LSTM模型,以X=[xT+1,x2,…,xT+M]T∈RM×N表示模型的输入矩阵,其中x代表每个时间间隔的特征向量,下标T代表时间,M代表时间序列的长度,N代表时间序列的特征个数;输入数据第d次卷积运算公式为:
pd=fd(X⊙Wd+bd)
其中:⊙为卷积运算,卷积核Wd∈RJ×N是权值向量,其中J为卷积核尺寸,即提取时间序列特征的时间窗宽度,bd为该层的偏置项,fd(·)表示卷积层激活函数,pd为卷积核的特征映射矩阵;
通过L个过滤器得到多个特征为P=[p1,p2,…,pL],池化层的作用就是对输入特征进行降采样,同时对众多特征进行过滤筛选,强化部分显著特征;最大池化层具体公式如下:
G=maxpooling(P)
其中:G=[g1,g2…gD]T∈RD×F为全局最大池化后的新构成的时间序列矩阵,D代表新生成的时间序列的长度,F代表时间序列的特征个数,maxpooling为最大池化操作;
池化后新构成的时间序列矩阵G作为LSTM层的输入矩阵,三个门的具体计算如下所示:
ft=σ2(Wfxgt+Wfhht-1+bf)
it=σ2(Wixgt+Wihht-1+bi)
ot=σ2(Woxgt+Wohht-1+bo)
其中ft、it、ot分别为遗忘门、输入门与输出门,σ2为非线性激活函数,sigmoid函数用作门的激活函数,gt与ht-1分别表示采样时刻t的输入向量、和采样时刻t-1的隐藏向量;式中,bf、bi、bo为相应门单元的偏置项,Wfx、Wfh、Wix、Wih、Wox、Woh对应门单元的连接权值;
在长短期记忆LSTM神经网络内部,生成一个中间状态C(t)为:
Ct=tanh(Wcxgt+Wchht-1+bc)
Figure FDA0003695435210000031
其中,tanh表示非线性tanh激活函数,Wcx、Wch为中间状态的连接权值,
Figure FDA0003695435210000032
用于表示Hadamard乘积;
CNN-LSTM最终的输出yt表示为:
yt=L(Vht+bl)
其中L(·)代表预测函数的映射,V与bl分别代表对应的连接权重与偏置项;
相关熵用于信号除噪场景,其能够处理非高斯噪声和脉冲噪声;相关熵定义为描述两个随机变量Q和R之间的局部相似度,表示为:
Figure FDA0003695435210000044
其中:
Figure FDA0003695435210000045
为两个随机变量Q和R之间的局部相似度,
Figure FDA0003695435210000046
是一个核函数,E(·)是一个求期望运算;
根据相关熵的定义,最大相关熵准则MCC定义为:
Figure FDA0003695435210000041
其中,ei是系统在监督学习过程中产生的误差,即
Figure FDA0003695435210000042
代表预测值,yi代表真实值,B代表样本数,w是一组可调整的模型参数;
在CNN-LSTM的模型优化策略中,最大相关熵准则MCC构建以高斯核函数为核心的损失函数,取代常用的损失函数MSE来增加模型的鲁棒性,并通过Adam优化算法进行模型参数求解;对MCC准则进行等效转化为求最小值问题,即目标函数f(w),如下所示:
Figure FDA0003695435210000043
其中σ1代表内核宽度;
过程构建了CNN-LSTM神经网络,整个网络采用最大相关熵准则MCC作为损失函数进行训练;
步骤3.2:网络结构及参数设置
MCC-CNN-LSTM神经网络结构由输入层,两层卷积层、最大池化层、长短期记忆LSTM层与全连接层构成;通过网格选择的方式确定时间窗口大小,内核参数宽度,并采用自适应矩估计算法优化器对网络参数进行训练;为防止模型过拟合,在MCC-CNN-LSTM神经网络中添加dropout层;
步骤3.3:利用自适应矩估计算法训练模型
利用自适应矩估计算法优化模型参数,首先定义α表示初始学习率,它控制参数的更新比率,定义较大的值在更新过程中会有更快的更新速度,网络会更快的收敛,而定义较小的值时参数的更新速度会相应变慢,但网络会收敛到更好的性能;定义β1表示一阶矩估计指数衰减率;定义β2表示二阶矩估计指数衰减率;定义m表示梯度的一阶矩;定义n表示梯度的二阶矩;定义t表示时间步;自适应矩估计算法的优化流程可归纳如下:
1)初始化相关参数:在0时刻,令α=0.001,β1=0.9,β2=0.999,m=0,n=0,不断优化θ,直到目标函数f(θ)满足求解要求;
2)更新一阶矩和二阶矩:在任意时刻,只要目标函数f(θ)不满足求解要求,就会在下一时刻更新一阶矩和二阶矩,具体过程如下:
Figure FDA0003695435210000051
其中:gt是t时刻权值的梯度,
Figure FDA0003695435210000052
是求梯度符号,θt-1是t-1时刻的权值矩阵;
mt=β1·mt-1+(1-β1)·gt
Figure FDA0003695435210000053
上面两个式子分别对一阶矩和二阶矩进行更新;
Figure FDA0003695435210000061
Figure FDA0003695435210000062
上面两个式子分别对一阶矩和二阶矩进行偏差校正;其中:
Figure FDA0003695435210000063
Figure FDA0003695435210000064
分别是校正后的一阶矩和二阶矩;
3)更新网络参数:具体过程如下所示:
Figure FDA0003695435210000065
其中:θt是t时刻更新后的权值矩阵,θt-1是t-1时刻待更新的权值矩阵,同时为了避免分母为零,令参数ε=10-8
若θt满足求解要求,则停止优化并输出结果,否则跳回2)继续优化。
4.如权利要求1或2所述的基于二维稳健LSTM的聚合反应过程质量预测方法,其特征在于,所述步骤(4)的过程为:
MCC-CNN-LSTM网络模型经过训练后对其进行性能评估,满足要求后才能使用;评估指标采用均方根误差RMSE与最大绝对误差MAE,计算公式如下:
Figure FDA0003695435210000066
Figure FDA0003695435210000067
其中:
Figure FDA0003695435210000068
为软测量模型预测值,yi为目标域测试集真实值,Btest为测试集的样本数。
CN202210673203.1A 2022-06-15 2022-06-15 基于二维稳健lstm的聚合反应过程质量预测方法 Pending CN115062542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210673203.1A CN115062542A (zh) 2022-06-15 2022-06-15 基于二维稳健lstm的聚合反应过程质量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210673203.1A CN115062542A (zh) 2022-06-15 2022-06-15 基于二维稳健lstm的聚合反应过程质量预测方法

Publications (1)

Publication Number Publication Date
CN115062542A true CN115062542A (zh) 2022-09-16

Family

ID=83199935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210673203.1A Pending CN115062542A (zh) 2022-06-15 2022-06-15 基于二维稳健lstm的聚合反应过程质量预测方法

Country Status (1)

Country Link
CN (1) CN115062542A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117172135A (zh) * 2023-11-02 2023-12-05 山东省科霖检测有限公司 一种智能噪声监测管理方法与系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117172135A (zh) * 2023-11-02 2023-12-05 山东省科霖检测有限公司 一种智能噪声监测管理方法与系统
CN117172135B (zh) * 2023-11-02 2024-02-06 山东省科霖检测有限公司 一种智能噪声监测管理方法与系统

Similar Documents

Publication Publication Date Title
CN111563706A (zh) 一种基于lstm网络的多变量物流货运量预测方法
CN112364779A (zh) 信号处理与深-浅网络多模型融合的水声目标识别方法
CN108629370B (zh) 一种基于深度置信网络的分类识别算法及装置
CN113723007B (zh) 基于drsn和麻雀搜索优化的设备剩余寿命预测方法
Böhm et al. Uncertainty quantification with generative models
CN114038055A (zh) 一种基于对比学习和生成对抗网络的图像生成方法
CN116052254A (zh) 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法
CN115062542A (zh) 基于二维稳健lstm的聚合反应过程质量预测方法
CN113762471A (zh) 一种基于注意力机制与贝叶斯优化的相空间重构参数估计方法
CN115731396A (zh) 一种基于贝叶斯变分推断的持续学习方法
CN112001115A (zh) 一种半监督动态软测量网络的软测量建模方法
CN117217915A (zh) 一种基于深度迁移学习的股票价格预测方法
Wang et al. Research on feature extraction and recognition method of underwater acoustic target based on deep convolutional network
CN115561005A (zh) 基于eemd分解和轻量化神经网络的化工过程故障诊断方法
CN117313160B (zh) 一种隐私增强的结构化数据仿真生成方法及系统
CN110598737A (zh) 一种深度学习模型的在线学习方法、装置、设备及介质
CN113569993A (zh) 一种聚合反应过程质量预测模型构建方法
CN110288002B (zh) 一种基于稀疏正交神经网络的图像分类方法
CN110826184B (zh) 一种在时变时滞下narx模型结构和参数的变分贝叶斯辨识方法
Pattanaik et al. Nonlinear system identification for speech model using linear predictive coefficients based radial basis function
CN111160464B (zh) 基于多隐层加权动态模型的工业高阶动态过程软测量方法
CN114298164A (zh) 基于klms算法和趋势滤波的自适应故障预测方法
CN114118146A (zh) 一种基于信念规则库的滚动轴承故障诊断方法及系统
Su et al. Neural network based fusion of global and local information in predicting time series
JP2021144659A (ja) 計算機、計算方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination