CN115062542A

CN115062542A - 基于二维稳健lstm的聚合反应过程质量预测方法

Info

Publication number: CN115062542A
Application number: CN202210673203.1A
Authority: CN
Inventors: 刘毅; 刘桥; 许亮峰; 高增梁
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-09-16

Abstract

基于二维稳健LSTM的聚合反应过程质量预测方法，包括以下步骤：步骤1、获取聚乙烯工业生产过程变量数据集；步骤2、聚乙烯工业生产过程数据集的预处理、重构及划分；步骤3、建立基于最大相关熵的CNN‑LSTM融合模型并训练；步骤4、模型性能评估。本发明利用CNN提取与质量变量相关的关键特征，LSTM学习时间数据内部表示，并将MCC作为损失函数，通过MCC对工业噪声或离群点表现得不敏感使得CNN‑LSTM更加稳健精确，本发明有助于在含噪声与离群点的多变量时序数据中对聚乙烯工业生产过程的熔融指数准确预测。

Description

基于二维稳健LSTM的聚合反应过程质量预测方法

技术领域

本发明涉及基于一种二维稳健LSTM的聚合反应过程质量预测方法，本发明属于化工过程中的软测量建模领域。

背景技术

在化工过程工业中，过程数据往往存在高维度的特征变量，从而导致变量存在冗余的信息与噪声。常见的工业过程软测量模型特征提取方法如PCA(Principal ComponentAnalysis，PCA)、SAE(Stacked Auto-Encoder，SAE)，这些方法需要人为参与，在模型训练之前先一个一个地提取出特征，之后再将选出的这些特征输入模型。同时其特征提取部分一般都为无监督学习，未能把关键质量变量考虑进去，导致提取的特征未能很好的解释质量特性。此外，过程数据之间还存在很强的相关性与非线性，即过程数据是具有高度非线性与高度动态性的时间序列。

递归神经网络(Recurrent Neural Network，RNN)通过将时序的概念引入到网络结构设计中，在时序数据分析中表现出更强的适应性，为提取时间序列特征提供了更好的解决方案。随着处理时间序列长度的增加，会使得网络训练期间容易产生梯度消失与梯度爆炸等问题，从而导致RNN网络预测精度不足。另外在开放环境下，由于数据采集环境的复杂性、采集设备性能的限制以及人为因素的影响，使得收集到的数据中含有大量的不确定性，如数据存在各种噪声与异常点等，极大地降低了数据的可用性。在回归建模中，常用的损失函数为最小二乘损失(MSE)。随着误差的增大，相应的损失呈平方增加。当训练数据中存在异常点时，异常点处的回归误差将主导整个损失函数值的增加或减小，从而导致此时训练得到的模型偏向于异常样本。

卷积神经网络(Convolutional Neural Network，CNN)作为一种深度前馈神经网络，其网络结构通常由输入层、卷积层、池化层等组成。在特征提取方面，CNN通过卷积层的卷积操作提取局部特征，然后池化层对卷积输出施行下采样操作，保留强特征，去除弱特征，同时减少参数数量，防止过拟合。

长短期记忆(Long-Short-Term Memory，LSTM)神经网络是在RNN结构的基础上，引入门控单元替代RNN隐含层中的神经元，使其对较长时间序列上的信息能够选择性地通过和剔除，改善RNN在长时间序列上记忆能力不足、梯度消失和梯度爆炸的问题。

最大相关熵准则(Maximum Correntropy Criterion，MCC)最早用在信号的噪声处理领域，后经证明了在回归问题中，MCC在处理包含非高斯噪声或离群点的数据时表现出良好的性能。

本发明将CNN与LSTM进行有效融合，并采用MCC作为损失函数，提出一种稳健MCC-CNN-LSTM质量预测方法。该方法中CNN提取与质量变量相关的关键特征，LSTM学习时间数据内部表示，将最大相关熵准则作为损失函数，通过最大相关熵准则对工业噪声或离群点表现得不敏感使得CNN-LSTM更加稳健精确。

发明内容

针对现有技术中存在的上述问题，本发明的目的在于通过CNN提取与质量变量相关的关键特征，LSTM学习时间数据内部表示，MCC作为损失函数对噪声或离群点表现得不敏感，使得建立的模型成为一种更加精确可靠的聚合反应过程质量预测方法。

本发明解决其技术问题所采用的技术方案是：

基于二维稳健LSTM的聚合反应过程质量预测方法，包括以下步骤：

(1)获取聚乙烯工业生产过程变量数据集：

获取聚乙烯工业生产过程变量，过程变量数据集包括输入变量和输出变量，取聚乙烯生产过程中的一个反应器内的一组变量为输入变量，该反应器的产品质量变量记为MI，取MI为输出变量；

(2)数据集的预处理、数据重构及数据集划分：

对步骤(1)中获取的聚乙烯工业生产过程变量数据集进行数据标准化处理，使其变成无量纲数据集，然后，将数据集进行重构，最后将重构后的无量纲数据集按设定比例划分为训练集和测试集；

(3)建立MCC-CNN-LSTM神经网络模型并训练：

建立基于最大相关熵准则MCC的CNN-LSTM融合的神经网络，将训练集输入所建立的MCC-CNN-LSTM神经网络进行训练；

(4)对MCC-CNN-LSTM神经网络训练所建立的模型进行性能评估：

将聚乙烯工业生产数据集送入软测量模型中进行训练预测评估；采用均方根误差RMSE与最大绝对误差MAE作为评价指标对模型进行评估，验证MCC-CNN-LSTM神经网络的性能。

进一步的，所述步骤(2)的具体过程如下：

步骤2.1：为消除过程变量之间因量纲带来的差异性，对数据进行归一化处理，公式如下：

其中：x′为标准化处理后的数据集，x为所采集的原始数据集；x_min为原始过程变量数据的最小值，x_max为原始过程变量数据的最大值；

步骤2.2：归一化处理后，将时间序列数据进行重构，重构后的输入矩阵如下所示：

式中：X_t是重构后的输入矩阵数据，q的上标数字代表不同的过程变量，t表示时间间隔，M代表滑动窗口；

步骤2.3：数据重构后将数据集划分为测试集与训练集。

进一步的，所述步骤(3)的具体过程如下：

步骤3.1：建立MCC-CNN-LSTM神经网络：

针对CNN-LSTM模型，以X＝[x_T+1,x₂,…,x_T+M]^T∈R^M×N表示模型的输入矩阵，其中x代表每个时间间隔的特征向量，下标T代表时间，M代表时间序列的长度，N代表时间序列的特征个数；输入数据第d次卷积运算公式为：

p_d＝f_d(X⊙W_d+b_d)

其中：⊙为卷积运算，卷积核W_d∈R^J×N是权值向量，其中J为卷积核尺寸，即提取时间序列特征的时间窗宽度，b_d为该层的偏置项，f_d(·)表示卷积层激活函数，p_d为卷积核的特征映射矩阵；

通过L个过滤器得到多个特征为P＝[p₁,p₂,…,p_L]，为了提取到足够的隐藏信息，卷积层的输出维度一般比较大。池化层的作用就是对输入特征进行降采样，同时对众多特征进行过滤筛选，强化部分显著特征；最大池化层具体公式如下：

G＝maxpooling(P)

其中：G＝[g₁,g₂…g_D]^T∈R^D×F为全局最大池化后的新构成的时间序列矩阵，D代表新生成的时间序列的长度，F代表时间序列的特征个数，maxpooling为最大池化操作；

池化后新构成的时间序列矩阵G作为LSTM层的输入矩阵，三个门的具体计算如下所示：

f_t＝σ₂(W_fxg_t+W_fhh_t-1+b_f)

i_t＝σ₂(W_ixg_t+W_ihh_t-1+b_i)

o_t＝σ₂(W_oxg_t+W_ohh_t-1+b_o)

其中f_t、i_t、o_t分别为遗忘门、输入门与输出门，σ₂为非线性激活函数，sigmoid函数用作门的激活函数，g_t与h_t-1分别表示采样时刻t的输入向量、和采样时刻t-1的隐藏向量；式中，b_f、b_i、b_o为相应门单元的偏置项，W_fx、W_fh、W_ix、W_ih、W_ox、W_oh对应门单元的连接权值；

在LSTM内部，生成一个中间状态C_(t)为：

C_t＝tanh(W_cxg_t+W_chh_t-1+b_c)

其中，tanh表示非线性tanh激活函数，W_cx、W_ch为中间状态的连接权值，

用于表示Hadamard乘积；

CNN-LSTM最终的输出y_t表示为：

y_t＝L(Vh_t+b_l)

其中L(·)代表预测函数的映射，V与b_l分别代表对应的连接权重与偏置项；

相关熵用于信号除噪场景，其能够处理非高斯噪声和脉冲噪声；相关熵定义为描述两个随机变量Q和R之间的局部相似度，表示为：

其中：

为两个随机变量Q和R之间的局部相似度，

是一个核函数，E(·)是一个求期望运算；

根据相关熵的定义，MCC定义为：

其中，e_i是系统在监督学习过程中产生的误差，即

代表预测值，y_i代表真实值，B代表样本数，w是一组可调整的模型参数；

在CNN-LSTM的模型优化策略中，MCC构建以高斯核函数为核心的损失函数，取代常用的损失函数MSE来增加模型的鲁棒性，并通过Adam优化算法进行模型参数求解；Adam优化算法一般处理最小化问题，而MCC属于最大化问题，所以需对MCC准则进行等效转化为求最小值问题，即目标函数f(w)，如下所示：

其中σ₁代表内核宽度；

过程构建了CNN-LSTM神经网络，整个网络采用MCC准则作为损失函数进行训练；

步骤3.2：网络结构及参数设置

MCC-CNN-LSTM神经网络结构由输入层，两层卷积层、最大池化层、LSTM层与全连接层构成；通过网格选择的方式确定时间窗口大小，内核参数宽度，并采用自适应矩估计算法优化器对网络参数进行训练；为防止模型过拟合，在MCC-CNN-LSTM神经网络中添加dropout层；

步骤3.3：利用自适应矩估计算法训练模型

自适应矩估计算法在参数更新过程中通过对梯度的一阶矩估计和二阶矩估计，自适应的为每一个参数设置不同的学习率进行更新。在概率论中，如果一个随机变量X服从某个分布，X的一阶矩定义为E(X)，也就是样本均值；X的二阶矩定义为E(X²)，也就是样本平方的均值；

利用自适应矩估计算法优化模型参数，首先定义α表示初始学习率，它控制参数的更新比率，定义较大的值在更新过程中会有更快的更新速度，网络会更快的收敛，而定义较小的值时参数的更新速度会相应变慢，但网络会收敛到更好的性能；定义β₁表示一阶矩估计指数衰减率；定义β₂表示二阶矩估计指数衰减率；定义m表示梯度的一阶矩；定义n表示梯度的二阶矩；定义t表示时间步；自适应矩估计算法的优化流程可归纳如下：

1)初始化相关参数：在0时刻，令α＝0.001，β₁＝0.9，β₂＝0.999，m＝0，n＝0，不断优化θ，直到目标函数f(θ)满足求解要求；

2)更新一阶矩和二阶矩：在任意时刻，只要目标函数f(θ)不满足求解要求，就会在下一时刻更新一阶矩和二阶矩，具体过程如下：

其中：g_t是t时刻权值的梯度，

是求梯度符号，θ_t-1是t-1时刻的权值矩阵；

m_t＝β₁·m_t-1+(1-β₁)·g_t

v_t＝β₂·v_t-1+(1-β₂)·g_t ²

上面两个式子分别对一阶矩和二阶矩进行更新；

上面两个式子分别对一阶矩和二阶矩进行偏差校正；其中：

和

分别是校正后的一阶矩和二阶矩；

3)更新网络参数：具体过程如下所示：

其中：θ_t是t时刻更新后的权值矩阵，θ_t-1是t-1时刻待更新的权值矩阵，同时为了避免分母为零，令参数ε＝10^-8；

若θ_t满足求解要求，则停止优化并输出结果，否则跳回2)继续优化。

进一步的，所述步骤(4)的过程为：

MCC-CNN-LSTM网络模型经过训练后对其进行性能评估，满足要求后才能使用；评估指标采用均方根误差RMSE与最大绝对误差MAE，计算公式如下：

其中：

为软测量模型预测值，y_i为目标域测试集真实值，B_test为测试集的样本数。

本发明的有益效果主要表现在：

本发明是基于二维稳健LSTM的聚合反应过程质量预测方法，通过CNN提取与质量变量相关的关键特征，LSTM学习时间数据内部表示，利用信号除噪场景中的MCC作为损失函数对噪声或离群点表现得不敏感，使得建立的模型更加稳健精确。

附图说明

图1是本发明的方法流程图；

图2为本发明的MCC-CNN-LSTM神经网络模型结构图；

图3为本发明实施例中，聚乙烯工业生产测试集中本发明的方法与其他模型的预测误差图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合说明书附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参照图1～图3，基于二维稳健LSTM的聚合反应过程质量预测方法，包括以下步骤：

(1)获取聚乙烯工业生产过程变量数据集：

获取聚乙烯工业生产过程变量，取聚乙烯生产过程中的一个反应器内的一组变量为输入变量，该反应器的产品质量变量记为MI，所述MI为输出变量，所述过程变量数据集包括输入变量和输出变量。

获取聚乙烯工业生产过程变量数据集，共211个样本，每个样本包括12个输入变量，1个预测变量；

(2)数据集的预处理、数据重构及数据集划分：

步骤2.2：归一化处理后将时间序列数据进行重构，重构后的输入矩阵如下所示：

步骤2.3：数据重构后将数据集划分为测试集与训练集，其中测试集占样本总数的25％，训练集占总数的75％；

(3)建立MCC-CNN-LSTM神经网络模型并训练

步骤3.1：建立MCC-CNN-LSTM神经网络

针对CNN-LSTM模型，以X＝[x_T+1,x₂,…,x_T+M]^T∈R^M×N表示模型的输入矩阵，其中x代表每个时间间隔的特征向量，M代表时间序列的长度，N代表时间序列的特征个数。输入数据第d次卷积运算公式为：

p_d＝f_d(X⊙W_d+b_d)

其中：⊙为卷积运算，卷积核W_d∈R^J×N是权值向量，其中J为卷积核尺寸，即提取时间序列特征的时间窗宽度。b_d为该层的偏置项，f_d(·)表示卷积层激活函数，p_d为卷积核的特征映射矩阵；

通过L个过滤器得到多个特征为P＝[p₁,p₂,…,p_L]，为了提取到足够的隐藏信息，卷积层的输出维度一般比较大。池化层的作用就是对输入特征进行降采样，同时对众多特征进行过滤筛选，强化部分显著特征。最大池化层具体公式如下：

G＝maxpooling(P)

其中：G＝[g₁,g₂…g_D]^T∈R^D×F为全局最大池化后的新构成的时间序列矩阵，其中D代表新生成的时间序列的长度，F代表时间序列的特征个数，maxpooling为最大池化操作；

f_t＝σ₂(W_fxg_t+W_fhh_t-1+b_f)

i_t＝σ₂(W_ixg_t+W_ihh_t-1+b_i)

o_t＝σ₂(W_oxg_t+W_ohh_t-1+b_o)

其中f_t、i_t、o_t分别为遗忘门、输入门与输出门，σ₂为非线性激活函数，通常sigmoid函数可以用作门的激活函数，g_t与h_t-1分别表示采样时刻t的输入向量、和采样时刻t-1的隐藏向量。式中，b_f、b_i、b_o为相应门单元的偏置项，W_fx、W_fh、W_ix、W_ih、W_ox、W_oh对应门单元的连接权值；

在LSTM内部，生成一个中间状态C_(t)为：

C_t＝tanh(W_cxg_t+W_chh_t-1+b_c)

其中tanh表示非线性tanh激活函数，W_cx、W_ch为中间状态的连接权值，

用于表示Hadamard乘积；

CNN-LSTM最终的输出y_t可以表示为：

y_t＝L(Vh_t+b_l)

相关熵一般用于信号除噪场景，其可以处理非高斯噪声和脉冲噪声。相关熵定义为描述两个随机变量Q和R之间的局部相似度，可以表示为：

其中：

为两个随机变量Q和R之间的局部相似度，

是一个核函数，E(·)是一个求期望运算；

根据相关熵的定义，MCC可以被进一步推导出来，其可以定义为：

其中e_i是系统在监督学习过程中产生的误差，即

在CNN-LSTM的模型优化策略中，MCC构建以高斯核函数为核心的损失函数，取代常用的损失函数(MSE)来增加模型的鲁棒性，并通过Adam优化算法进行模型参数求解。Adam优化算法一般处理最小化问题，而MCC属于最大化问题，所以需对MCC准则进行等效转化为求最小值问题，即目标函数f(w)，如下所示：

其中σ₁代表内核宽度；

过程构建了CNN-LSTM神经网络，整个网络采用MCC准则作为损失函数进行训练。

步骤3.2：网络结构及参数设置

MCC-CNN-LSTM神经网络结构由输入层(每个时序数据的尺寸为9*12)，2层卷积层(卷积核数目依次为20与10，卷积核尺寸为2*12)、最大池化层(池大小为2)、LSTM层(神经元数量为20)与全连接层构成。设置的超参数包括时间窗口大小、训练次数和内核参数宽度等。通过网格选择的方式确定时间窗口大小设置为6，内核参数宽度为0.8，并采用自适应矩估计算法优化器对网络参数进行训练，epoch为500，batch_size为10。为防止模型过拟合，在MCC-CNN-LSTM神经网络中添加dropout层，dropout值设定为0.2。

步骤3.3：利用自适应矩估计算法训练模型

自适应矩估计算法在参数更新过程中通过对梯度的一阶矩估计和二阶矩估计，自适应的为每一个参数设置不同的学习率进行更新。在概率论中，如果一个随机变量X服从某个分布，X的一阶矩定义为E(X)，也就是样本均值；X的二阶矩定义为E(X²)，也就是样本平方的均值。

利用自适应矩估计算法优化模型参数，首先定义α表示初始学习率，它控制参数的更新比率，定义较大的值在更新过程中会有更快的更新速度，网络会更快的收敛，而定义较小的值时参数的更新速度会相应变慢，但网络会收敛到更好的性能；定义β₁表示一阶矩估计指数衰减率；定义β₂表示二阶矩估计指数衰减率；定义m表示梯度的一阶矩；定义n表示梯度的二阶矩；定义t表示时间步。自适应矩估计算法的优化流程可归纳如下：

1)初始化相关参数。在0时刻，令α＝0.001，β₁＝0.9，β₂＝0.999，m＝0，n＝0。不断优化θ，直到目标函数f(θ)满足求解要求。

2)更新一阶矩和二阶矩。在任意时刻，只要目标函数f(θ)不满足求解要求，就会在下一时刻更新一阶矩和二阶矩，具体过程如下：

其中：g_t是t时刻权值的梯度，

是求梯度符号，θ_t-1是t-1时刻的权值矩阵；

m_t＝β₁·m_t-1+(1-β₁)·g_t

v_t＝β₂·v_t-1+(1-β₂)·g_t ²

上面两个式子分别对一阶矩和二阶矩进行更新。

上面两个式子分别对一阶矩和二阶矩进行偏差校正。其中：

和

分别是校正后的一阶矩和二阶矩；

3)更新网络参数。具体过程如下所示：

(4)对MCC-CNN-LSTM神经网络训练所建立的模型进行性能评估

MCC-CNN-LSTM网络模型经过训练后对其进行性能评估，满足要求后才能使用。本发明采用的评估指标为均方根误差(RMSE)与最大绝对误差(MAE)，计算公式如下：

其中：

为软测量模型预测值，y_i为目标域测试集真实值，N_test为测试集的样本数；

实例：基于二维稳健LSTM的聚合反应过程质量预测方法，过程如下：

(1)收集聚乙烯工业生产过程变量数据集

(2)聚乙烯工业生产过程变量数据集的预处理、数据重构及数据集划分

首先对聚乙烯工业生产过程变量数据集进行归一化处理。其次，将数据集进行重构，最后将归一化后的重构数据划分为训练集和测试集，其中测试集占样本总数的25％，训练集占总数的75％；

(3)建立MCC-CNN-LSTM神经网络模型并训练

将带有工业噪声与离群点的多变量聚乙烯工业生产训练集，输入到MCC-CNN-LSTM神经网络中进行训练，并采用自适应矩估计算法优化模型参数。

(4)模型性能评估

将本方法与MCC-LSTM和LSTM两种方法进行实验比较，用测试集的均方根误差(RMSE)与最大绝对误差(MAE)作为评价标准，RMSE与MAE值越小越好。其比较结果如表1所示，表中列出本方法、MCC-LSTM和LSTM在测试集中的结果。从结果可知，本发明的方法比MCC-LSTM与传统LSTM模型的RMSE与MAE更小，所以MCC-CNN-LSTM方法在聚合反应过程质量预测中更加精确可靠。

表1为本方法与MCC-LSTM和传统LSTM预测结果比较

本发明方法提出的基于二维稳健LSTM的聚合反应过程质量预测方法，能够很好的提取重要特征与处理时序数据，并能有效抵抗数据噪声与离群点带来的影响，提高了聚合反应过程质量预测的可靠性与精确性。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。