CN110705692A

CN110705692A - 一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测方法

Info

Publication number: CN110705692A
Application number: CN201910910902.1A
Authority: CN
Inventors: 袁小锋; 李林; 王雅琳; 阳春华; 桂卫华
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-17
Anticipated expiration: 2039-09-25
Also published as: CN110705692B

Abstract

本发明属于工业过程控制领域，具体涉及一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法，具体包括步骤：选取对产品质量有影响的关键变量，对输入变量和质量变量连续均匀采样；对采样的原始数据集进行离差标准化；确定训练集数据；确定网络的参数和超参数，训练基于空间和时间注意力的长短期记忆网络；利用训练完成的网络，得到质量变量的预测值。本发明不仅能自适应地选择和质量变量相关的输入变量，还能处理工业过程中的动态特性，极大地提高软测量模型的准确性。

Description

一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测方法

技术领域

本发明涉及工业过程预测与控制领域，具体涉及一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法。

背景技术

软测量技术由于其响应迅速、维护成本低而被广泛应用于现代工业过程中，对某些关键的质量变量进行监控实现对关键质量变量的预测，达到保证产品质量、生产安全的目的。

当前软测量技术主要有主成分回归分析、偏最小二乘回归、支持向量回归、人工神经网络算法等。但是这类浅层的网络不能很好的挖掘过程数据中的非线性特征，因此预测性能也受到一定的限制。深度神经网络的提出很好的解决了浅层网络存在的问题，针对工业过程的复杂非线性特性，深度神经网络通过学习一种深层的非线性网络结构，可以对复杂的工业过程进行建模，并且拥有强大的从少数样本中学习数据深层特征的能力。在考虑非线性的基础上，循环神经网络同时还能够对工业过程的动态特性进行建模，因此和其他的神经网络相比，循环神经网络具有更高的预测精度。为了避免循环神经网络存在的梯度消失和梯度爆炸问题，循环神经网络的一种变体，长短期记忆网络，应运而生。

考虑到工业过程的质量变量和输入变量之间的相互的影响，且不同的过程变量和质量变量之间具有不同程度的关联，因此可以充分利用质量变量和不同输入变量之间的关联来提高模型的预测性能，此外，可以利用不同时刻的输入样本对当前时刻的质量变量的影响程度的大小建立时序动态模型。故本发明针对现有的软测量模型存在的问题，提供基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测方法，实现对生产过程关键质量变量进行精确预测的作用。

发明内容

本发明的目的在于克服现有技术没有充分综合考虑了工业过程的非线性、输入变量和关键质量变量之间的相关性、工业过程时间上的动态性的问题，提供一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法，实现了对生产过程关键质量变量进行精确预测。

一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法，包括以下步骤：

S1.选取对产品质量有影响的关键变量，对输入变量和对应的质量变量连续均匀采样：

基于生产过程，通过机理分析和专家知识，选取对质量变量产生影响的若干变量作为输入变量，等时间间隔对所述的输入变量和相应的质量变量连续均匀采样若干次，得到输入变量与相应的质量变量的时间序列原始数据集记为(X,Y)；

其中T为采集样本次数，1≤t≤T₁；

S2.对采样的原始数据集进行离差标准化：

对步骤S1所述的数据进行离差标准化：

其中x_min为样本数据的最小值，x_max为样本数据的最大值；

则得到新的数据集记为

作为训练集：

其中，

n为输入变量的数量，

S3.构建和训练模型

S31.对输入样本进行编码：

利用空间注意力机制对训练集中每个样本计算输入变量和质量变量之间的相关性，并为每个输入变量分配相应的注意力权值，得到新的加权输入样本；利用长短期记忆网络对输入样本提取隐层的特征；

S32.对隐藏层的状态进行解码：

利用时间注意力机制通过计算各个时刻隐藏层状态和当前输出之间的相关性，为各个时刻的隐含状态分配不同的注意力权重并计算加权和作为当前质量变量的预测输入，最后通过一个非线性长短期记忆网络单元得到当前时刻的质量变量的预测值；

S33.确定网络的参数和超参数，训练基于空间和时间注意力的长短期记忆网络：

计算模型的损失函数MSE：

利用误差反向传播算法和Adam算法更新网络参数，在达到最大迭代次数R后停止模型的训练；

S4.实时采集输入变量值，利用训练完成的模型，计算质量变量的预测值：

其中，

是解码长短期记忆网络的t-1时刻的隐层输出；c_(t)是时间注意力机制的输出；f_l(*)表示一个长短期记忆单元；V和b_v为网络学习到的权值和偏置。

进一步地，所述的步骤S31具体处理如下：

利用空间注意力机制对新的数据集中每个样本计算输入变量和质量变量之间的相关性：

其中s_(t-1)为解码输出的隐状态，V₁ ⁱ,W₁ ⁱ,

为网络权重矩阵，

为偏置向量；

对计算出的变量注意力值进行归一化：

得到空间注意力机制的最终输出为：

利用长短期神经网络单元通过前向传播算法得到隐层状态：

遗忘门：

输入门：

输出门：

中间状态输入：

其中w_*x，w_*h分别表示当前时刻输入

前一时刻的隐状态h_(t-1)与长短期记忆细胞单元中三个控制门以及中间状态的转换矩阵，b_*表示三个控制门和中间状态的偏置量；

当前时刻的细胞状态和隐藏层输出为：

h_(t)＝o_(t)⊙tan h(m_(t))。

进一步地，所述的步骤S32具体处理如下：

利用时间注意力机制通过计算滑动窗口内的输入样本和解码的隐层状态之间的相似度作为注意力，来度量输入样本和质量变量之间的相关性：

其中s_(t-1)解码过程的隐层状态，T为滑动窗口的长度，V₂ ^k,W₂ ^k,

为权重矩阵，

为时间注意力机制的偏置向量；

对时间注意力进行归一化：

得到解码过程的长短期记忆网络t时刻的一个输入：

计算出c_(t)之后，将c_(t)和已知的目标序列

一起更新解码过程的隐层状态：

其中，W₃,V₃和为解码过程的长短期记忆网络的权值矩阵，b₃为解码过程的长短期记忆网络的偏置向量，f_l(·)代表一个长短期记忆单元；

得到t时刻的质量变量的预测值：

其中，V和b_v分别表示权值矩阵和偏置向量，f_l(·)代表一个长短期记忆单元。

进一步地，所述的步骤S33之后还包括：

S34.采集测试样本，利用测试集数据验证模型的预测性能：

设测试集输入样本和质量变量为：

当j＝1时，随机初始化当前时刻的质量变量的初始值，将初始化的值和当前时刻时间注意力机制的输出一起作为解码过程的输入得到当前时刻的质量变量预测值；当j＞1时，利用已知的质量变量序列

和时间注意力的输出一起作为解码过程的输入得到当前时刻的质量变量预测值。

与现有技术相比，本发明有益效果在于：利用长短期记忆网络建立输入变量和质量变量之间的动态非线性模型，并在此基础上先利用一个空间注意力机制来获得质量变量和输入变量之间的相关性，再利用一个时间注意力机制来建立质量变量和输入样本的动态相关性，实现不仅能自适应地选择和质量变量相关的输入变量、还能处理工业过程中的时序性问题的效果，极大地提高软测量模型的准确性。

附图说明

图1为本发明一个实施例处理流程的示意图。

图2为本发明一个实施例处长短期记忆单元结构示意图。

图3为本发明一个实施例处注意力机制结构示意图。

图4为本发明一个实施例处基于空间和时间注意力的长短期记忆网络结构图。

图5为本发明一个实施例1处中加氢裂化简图。

图6为本发明一个实施例1处中长短期记忆神经网络模型质量变量的预测值和真实值对比曲线图。

图7为本发明一个实施例1处中基于注意力的长短期记忆网络模型质量变量的预测值和真实值对比曲线图。

图8为本发明一个实施例1处中基于空间和时间注意力的长短期记忆网络模型的预测值和质量变量真实值对比曲线图。

图9为本发明一个实施例2处中脱丁烷塔简图。

图10为本发明一个实施例2处中长短期记忆神经网络模型质量变量的预测值和真实值对比曲线图。

图11为本发明一个实施例2处中基于注意力的长短期记忆网络模型质量变量的预测值和真实值对比曲线图。

图12为本发明一个实施例2处中基于空间和时间注意力的长短期记忆网络模型的预测值和质量变量真实值对比曲线图。

具体实施方式

为了进一步公开本发明，下文将结合说明书附图和较佳的实施例对本发明作更全面、细致地描述。

除非另有定义，下文中所使用到的专业术语与本领域技术人员通常理解的含义相同，本文所使用的专业术语只是为了描述具体实施例的目的，并不是旨在限制本发明的保护范围。

发明人在充分总结和分析现有技术的优劣基础上，对现有技术做了改进，提出一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法，首先从生产过程中选取对质量变量有影响的关键变量，再按照时间先后对关键变量和质量变量进行独立重复采样，对采样的数据集进行归一化处理后作为训练集。再进入编码阶段，输入变量通过一个空间注意力机制计算它和相应时刻质量变量的相关性，从而得到一个新的加权输入样本，再利用一个长短期记忆单元提取输入样本的隐藏层特征。再进入解码阶段，时间注意力机制被用来度量在当前时刻的质量变量预测时应该在前面多个时刻的输入样本上分配的注意力，最后得到所有输入样本和相应的注意力权值的一个加权和项作为输入来对当前时刻的质量变量进行预测。本发明所提供的技术方案不仅能自适应地选择和质量变量相关的输入变量，还能处理工业过程中的动态特性，极大地提高软测量模型的准确性。具体包括以下步骤：

基于生产过程，通过机理分析和专家知识，选取对质量变量产生影响的若干变量作为输入变量，等时间间隔对所述的输入变量和相应的质量变量重复采样若干次，得到输入变量与相应的质量变量的时间序列原始数据集记为(X,Y)；

其中T₁为采集样本次数，1≤t≤T₁；

S2.对采样的原始数据集进行离差标准化：

对步骤S1所述的数据进行离差标准化：

其中x_min为样本数据的最小值，x_max为样本数据的最大值；

则得到新的数据集记为(X,Y)作为训练集：

其中，

n为输入变量的数量，

S3.构建和训练模型

S31.对输入样本进行编码：

S32.对隐藏层的状态进行解码：

计算模型的损失函数MSE：

其中，

是解码过程的长短期记忆网络的t-1时刻的隐层输出；c_(t)是时间注意力机制的输出；f_l(*)表示一个长短期记忆单元；V和b_v为网络学习到的权值和偏置。

前述的步骤S31具体处理如下：

其中s_(t-1)为解码输出的隐状态，V₁ ⁱ,W₁ ⁱ,为网络权重矩阵，

为偏置向量；

对计算出的变量注意力值进行归一化：

得到空间注意力机制的最终输出为：

利用长短期神经网络单元通过前向传播算法得到隐层状态：

遗忘门：

输入门：

输出门：

中间状态输入：

其中w_*x，w_*h分别表示当前时刻输入

前一时刻的隐状态h_(t-1)分别与长短期记忆细胞单元中三个控制门以及中间状态的转换矩阵，b_*表示三个控制门和中间状态的偏置量；

当前时刻的细胞状态和隐藏层输出为：

h_(t)＝o_(t)⊙tan h(m_(t))。

前述的步骤S32具体处理如下：

为权重矩阵，

为时间注意力机制的偏置向量；

对时间注意力进行归一化：

得到解码过程的长短期记忆网络t时刻的一个输入：

计算出c_(t)之后，将c_(t)和已知的目标序列

一起更新解码过程的隐层状态：

得到t时刻的质量变量的预测值：

进一步地，所述的步骤S33之后还包括：

S34.采集测试样本，利用测试集数据验证模型的预测性能：

设测试集输入样本和质量变量为：

当j＝1时，随机初始化当前时刻的质量变量的初始值，将初始化的值和当前时刻时间注意力机制的输出一起作为解码过程的输入得到当前时刻的质量变量预测值；当j＞1时，利用已知的质量变量序列和时间注意力的输出一起作为解码过程的输入得到当前时刻的质量变量预测值。

实施例1：

如流程图如图1所示，下面对加氢裂化过程航煤初馏点进行预测：

步骤(1)、从加氢裂化过程中选取对航煤初馏点产生影响的43个变量(如表1所示)作为输入变量，提取了268天每天8时和20时离线化验得到的536个样本。

步骤(2)、对步骤(1)中收集到的数据进行离差标准化得到新的数据集，转化函数为：

其中x_min为数据集的最小值，x_max为数据集的最大值。离差标准化是对原始数据的线性变换，使结果落到[0,1]区间；

将前450个样本作为训练集训练模型参数,剩下的86个样本作为测试集测试模型的预测性能，首先得到训练集的输入和输出矩阵：

其中，

步骤(3)、对输入样本进行编码：利用空间注意力机制对新的数据集中每个样本计算输入变量和质量变量之间的相关性：

其中s_(t-1)为解码输出的隐状态，V₁ ⁱ,W₁ ⁱ,为网络权重矩阵，为偏置向量。对计算出的变量注意力值进行归一化：

由此可以得到空间注意力机制的最终输出为：

在得到和质量变量相关的输入之后，利用长短期神经网络单元通过前向传播算法得到隐层状态：

遗忘门：

输入门：

输出门：

中间状态输入：

其中w_*x，w_*h分别表示当前时刻输入

前一时刻的隐状态h_(t-1)与长短期记忆细胞单元中三个控制门以及中间状态的转换矩阵，b_*表示三个控制门和中间状态的偏置量；当前时刻的细胞状态和隐藏层输出为：

h_(t)＝o_(t)⊙tan h(m_(t))

步骤(4)、对隐藏层的状态进行解码：考虑工业过程数据的动态特性，前面时刻的输入变量对当前时刻的输出会产生不同程度的影响，因此，时间注意力机制通过计算滑动窗口内的输入样本和解码的隐层状态之间的相似度，来度量输入样本和质量变量之间的相关性：

为权重矩阵，

为时间注意力机制的偏置向量；

对时间注意力进行归一化：

由此可以得到解码过程的长短期记忆网络t时刻的一个输入：

计算出c_(t)之后，将c_(t)和已知的目标序列

一起更新解码过程的隐层状态：

其中，W₃,V₃和为解码过程的长短期记忆网络的权值矩阵，b₃为解码过程的长短期记忆网络的偏置向量，f_l(·)代表一个长短期记忆单元。最后，可以得到t时刻的质量变量的预测值：

其中，V和b_v分别表示权值矩阵和偏置向量，f_l(·)代表一个长短期记忆单元；

步骤(5)、计算模型的损失函数MSE：

利用误差反向传播算法和Adam算法更新网络参数，在达到最大迭代次数R＝220后停止模型的训练。

步骤(6)、利用测试集数据验证模型的预测性能，测试集输入样本和质量变量为：

当j＝1时，将输入样本通过训练好的模型先计算出当前时刻的时间注意力机制输出，之后随机初始化当前时刻的质量变量的初始值，将初始化的值和当前时刻时间注意力机制的输出一起作为解码过程的输入得到当前时刻的质量变量预测值，当j＞1时，将输入样本通过训练好的模型计算出时间注意力机制的输出后，和已知的质量变量序列一起更新解码过程隐层输出：

最后，可以得到测试集中第j个样本对应的质量变量的预测值：

利用标准的均方根误差(RMSE)来评价软测量模型的预测精度，计算公式如下：

其中

和

分别为质量变量在T₁+j时刻的真实值和预测值。

预测结果分别如图6、图7、图8所示，均方根误差RMSE如表2所示。可以看出本发明的基于空间和时间注意力的长短期记忆网络较基于注意力的长短期记忆网络和循环神经网络可以更精确的预测质量变量的真实值，验证了本发明的有效性。

实施例2：

如流程图如图9所示，下面对脱丁烷塔C4浓度进行预测：

步骤(1)、从脱丁烷塔中选取对C4浓度产生影响的7个变量(如表3所示)作为输入变量，每10分钟进行一次采样，得到共1700个样本。

将前1500个样本作为训练集训练模型参数,剩下的200个样本作为测试集测试模型的预测性能，首先得到训练集的输入和输出矩阵：

其中，

其中s_(t-1)为解码输出的隐状态，V₁ ⁱ,W₁ ⁱ,

为网络权重矩阵，为偏置向量。对计算出的变量注意力值进行归一化：

由此可以得到空间注意力机制的最终输出为：

遗忘门：

输入门：

输出门：

中间状态输入：

其中w_*x，w_*h分别表示当前时刻输入

h_(t)＝o_(t)⊙tan h(m_(t))

为权重矩阵，为时间注意力机制的偏置向量；

对时间注意力进行归一化：

由此可以得到解码过程的长短期记忆网络t时刻的一个输入：

计算出c_(t)之后，将c_(t)和已知的目标序列

一起更新解码过程的隐层状态：

步骤(5)、计算模型的损失函数MSE：

利用误差反向传播算法和Adam算法更新网络参数，在达到最大迭代次数R＝60后停止模型的训练。

当j＝1时，将输入样本通过训练好的模型先计算出当前时刻的时间注意力机制输出，之后随机初始化当前时刻的质量变量的初始值，将初始化的值和当前时刻时间注意力机制的输出一起作为解码过程的输入得到当前时刻的质量变量预测值，当j＞1时，将输入样本通过训练好的模型计算出时间注意力机制的输出

后，和已知的质量变量序列

一起更新解码过程隐层输出：

其中

和

分别为质量变量在T₁+j时刻的真实值和预测值。

预测结果分别如图10、图11、图12所示，均方根误差RMSE如表4所示。可以看出本发明的基于空间和时间注意力的长短期记忆网络较基于注意力的长短期记忆网络和循环神经网络可以更精确的预测质量变量的真实值，验证了本发明的有效性。

表1加氢裂化过程输入变量说明

表2三种方法在加氢裂化过程中的预测均方根误差RMSE

表3脱丁烷塔过程输入变量说明

表4三种方法在脱丁烷塔过程中的预测均方根误差RMSE

Claims

1.一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测方法，其特征在于，包括以下步骤：

S1.基于生产过程，通过机理分析和专家知识，选取对质量变量产生影响的若干变量作为输入变量，等时间间隔对所述的输入变量和相应的质量变量连续均匀采样若干次，得到输入变量与相应的质量变量的时间序列原始数据集记为(X,Y)；

其中T₁为采集样本次数，1≤t≤T₁；

S2.对采样的原始数据集进行离差标准化：

对步骤S1所述的数据进行离差标准化：

其中x_min为样本数据的最小值，x_max为样本数据的最大值；

则得到新的数据集记为作为训练集：

其中，

n为输入变量的数量，

S3.构建和训练模型

S31.对输入样本进行编码：

S32.对隐藏层的状态进行解码：

计算模型的损失函数MSE：

其中，

2.根据权利要求1所述的基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法，其特征在于：所述的步骤S31具体处理如下：

其中s_(t-1)为解码输出的隐状态，V₁ ⁱ,W₁ ⁱ,

为注意力网络权重矩阵，

为偏置向量；

对计算出的变量注意力值进行归一化：

得到空间注意力机制的最终输出为：

利用长短期神经网络单元通过前向传播算法得到隐层状态：

遗忘门：

输入门：

输出门：

中间状态输入：

其中w_*x，w_*h分别表示当前时刻输入

当前时刻的细胞状态和隐藏层输出分别为：

h_(t)＝o_(t)⊙tanh(m_(t))。

3.根据权利要求1所述的基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法，其特征在于：所述的步骤S32具体处理如下：

利用时间注意力机制通过计算滑动窗口内的输入样本和解码的隐层状态之间的相似度作为注意力，来度量每个时刻的输入样本和质量变量之间的相关性：

其中s_(t-1)是解码过程的长短期记忆网络的隐层状态，T为滑动窗口的长度，V₂ ^k,W₂ ^k,

为权重矩阵，

为时间注意力机制的偏置向量；

对时间注意力进行归一化：

得到解码过程的长短期记忆网络t时刻的一个输入：

计算出c_(t)之后，将c_(t)和已知的目标序列

一起更新解码过程的隐层状态：

得到t时刻的质量变量的预测值：

4.根据权利要求1所述的基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法，其特征在于，所述的步骤S33之后还包括：

S34.采集测试样本，利用测试集数据验证模型的预测性能：

设测试集输入样本和质量变量分别为：