CN113065281B

CN113065281B - 一种基于传递熵与长短期记忆网络的te过程时序预测方法

Info

Publication number: CN113065281B
Application number: CN202110299172.3A
Authority: CN
Inventors: 高学金; 贾阳阳; 高慧慧; 韩华云
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-03-20
Filing date: 2021-03-20
Publication date: 2024-05-31
Anticipated expiration: 2041-03-20
Also published as: CN113065281A

Abstract

本发明涉及一种基于传递熵与长短期记忆网络的TE过程时序预测方法。针对TE过程变量间关联性强，易将冗余信息引入预测模型，导致时序预测精度低和训练速率慢的问题，本发明将传递熵算法的不对称性用于变量选取，在TE过程反应器单元变量中选择出对反应器温度影响较大的上游变量，剔除下游不相关变量的干扰，从而降低时序预测模型的复杂度。利用LSTM在时序预测方面的优越性能，基于传递熵选择出的变量建立LSTM时间序列预测模型，预测反应器温度的未来时间序列。

Description

一种基于传递熵与长短期记忆网络的TE过程时序预测方法

技术领域

本发明涉及基于信息熵的关键变量选取和基于深度学习的时序预测技术领域，特别是针对TE(Tennessee Eastman))过程变量间关联性强的特性提出了一种基于传递熵与长短期记忆网络的TE过程时序预测方法，是流程工业技术领域的重要分支。

背景技术

工业过程时序预测的目的是现场操作人员通过监控关键过程变量实现对整个生产流程的控制，从而保证生产过程的安全和平稳运行，因此，对关键过程参数反应器温度准确的时序预测对于提高过程控制性能和优化产品的质量指标以及工业过程安全运行具有重要的作用。

由RNN变化而来的LSTM(Long Short-Term Memory)引入各种门结构，很大程度上提高了预测性能。因此，本发明选用LSTM方法进行TE过程时序预测。但是，在TE生产过程中，由于其复杂的物理连接特点，过程变量间具有复杂的关联性。如果将全部变量纳入到已建立好的模型之中，就会对分析自变量与因变量之间的客观关系形成干扰，还可能增加预测误差。因此，许多学者对变量选择进行了研究。徐圆等利用k-近邻互信息方法对多元时序变量进行相关性选择，得到一组相关变量集以降低系统变量的维数，提高系统故障预测的精度。赵荣荣等将k-近邻互信息(k-MI)引入到辅助变量的选择中，从而达到筛选辅助变量的目的。孙茂伟等采用基于正则化互信息的特征排序指标进行学习器的输入特征抽取。高洁等提出基于互信息筛选出与故障类别高度相关的关键故障变量，有效提升故障诊断模型性能，增强模型可解释性。然而，TE过程属于流程工业生产过程，其物质流、信息流、能量流呈现有序流动的状态。对于一个给定的目标变量，从流动方向上可将过程变量分为“上游变量”(因变量)和“下游变量”(果变量)。下游变量对目标变量的作用是冗余的，上述方法只能衡量两个变量间相关性的大小，而无法从方向上剔除该冗余。

发明内容

针对TE过程变量间关联性强，易将冗余信息引入预测模型，导致时序预测精度低和训练速率慢的问题，提出一种基于传递熵与长短期记忆网络的TE过程时序预测方法。本发明将传递熵算法的不对称性用于变量选取，在TE过程反应器单元变量中选择出对反应器温度影响较大的上游变量，剔除下游不相关变量的干扰，从而降低时序预测模型的复杂度。利用LSTM在时序预测方面的优越性能，基于传递熵选择出的变量建立LSTM时间序列预测模型，预测反应器温度的未来时间序列。

基于传递熵与长短期记忆网络的TE过程时序预测方法，其特征在于包括以下步骤：

(1)采集TE工业过程反应器单元正常操作情况下的历史数据，构成样本集(X₁,X₂,…,X_m,…,X₈,Y)，即其中X_m表示第m个变量，即物料A进入反应器的流量、物料D进入反应器的流量、物料E进入反应器的流量、回收反应物的流量、反应器的进料总流量、反应器压力、反应器液位、反应器冷却水出口温度。Y表示要预测的目标变量，即反应器温度，每个变量包含i＝(1,2,…,I)个采样时刻，即X_m＝(X_m,1,X_m,2,…X_8,i)，Y＝(y₁,y₂,…,y_I)，其中X_m,i表示第i个采样时刻的第m个变量的测量值，Y_i表示第i个采样时刻目标变量反应器温度的测量值。

(2)对物料A进入反应器的流量、物料D进入反应器的流量、物料E进入反应器的流量、回收反应物的流量、反应器的进料总流量、反应器压力、反应器液位、反应器冷却水出口温度和反应器温度历史数据进行归一化处理，处理方式如下：

对变量X_m进行归一化，可表示如下：

其中，表示第i个采样时刻第m个过程变量归一化后的数据，i＝1,2,…I，m＝1,2,…M；max()为求最大值函数，min()求最小值函数。

对反应器温度Y进行归一化，可表示如下：

其中，为第i个采样时刻反应器温度Y归一化后的数据，i＝1,2,…I。max()为求最大值函数，min()求最小值函数。

(3)利用传递熵进行变量选择：

①利用(2)归一化后的数据，分别计算物料A进入反应器的流量、物料D进入反应器的流量、物料E进入反应器的流量、回收反应物的流量、反应器的进料总流量、反应器压力、反应器液位、反应器冷却水出口温度与反应器温度之间的传递熵值，其计算公式如下：

变量对目标变量/>的传递熵值：

其中，表示变量/>对目标变量/>的传递熵值，x_m,i和y_i分别代表了变量/>和变量/>在i时刻的测量值，y_i+1代表了/>在未来下一时刻的测量值。/>为概率，/>和/>为条件概率，可利用核密度估计方法求得。i＝1,2,…I，m＝1,2,…M。k和l分别为/>和/>的植入维度，/>通常，为了避免在计算过程中引入复杂的高维概率密度，取k＝l＝1，这不影响变量之间的传递关系。

目标变量对过程变量/>的传递熵值：

其中，表示目标变量/>对变量/>的传递熵值，x_m,i和y_i分别代表了变量/>和变量/>在i时刻的测量值，x_m,i+1代表了/>在未来下一时刻的测量值。/>为概率，/>和/>为条件概率，可利用核密度估计方法求得。i＝1,2,…I，m＝1,2,…M。k和l分别为/>和/>的植入维度，/> 通常，为了避免在计算过程中引入复杂的高维概率密度，取k＝l＝1，这不影响变量之间的传递关系。

②分别计算物料A进入反应器的流量、物料D进入反应器的流量、物料E进入反应器的流量、回收反应物的流量、反应器的进料总流量、反应器压力、反应器液位、反应器冷却水出口温度和反应器温度之间的传递熵的差值：

其中，表示变量/>到目标变量/>的传递熵/>与目标变量/>到变量/>的传递熵/>的差值，/>表示变量/>对目标变量/>的传递熵值，/>表示目标变量/>对变量/>的传递熵值。m＝1,2,…M。

③通过传递熵差值从物料A进入反应器的流量、物料D进入反应器的流量、物料E进入反应器的流量、回收反应物的流量、反应器的进料总流量、反应器压力、反应器液位、反应器冷却水出口温度中筛选出满足(即传递熵/>>传递熵/>)的变量/>构造出影响目标变量的关键变量集/>其中，Q为满足的变量个数。

(4)建立LSTM时时间序列预测模型，具体包括以下步骤：

①将(3)筛选出的关键变量集和反应器温度/>一起构成LSTM的输入数据集/>

②确定LSTM神经网络模型，包括输入门、遗忘门和输出门，输入为数据集在第i个时刻输入的数据为数据通过输入门的具体形式为：

input_i＝σ(W_input[h_i-1,x_i]+b_input) (6)

其中，input_i为输入门在第i个时刻的输出，W_input为输入门的权重矩阵，b_input为输入门偏置，h_i-1为上一时刻的输出向量，x_i为该时刻的输入向量，[h_i-1,x_i]表示把向量h_i-1和向量x_i拼接成一个向量。σ为sigmoid函数。

遗忘门计算公式为:

f_i＝σ(W_f[h_i-1,x_i]+b_f) (7)

其中，f_i为遗忘门在第i个时刻的输出，W_f为遗忘门的权重矩阵，b_f为输入门偏置，h_i-1为上一时刻的输出向量，x_i为该时刻的输入向量，[h_i-1,x_i]表示把向量h_i-1和向量x_i拼接成一个向量。σ为sigmoid函数。

当前记忆的计算公式：

C′_i＝tanh(W_c[h_i-1,x_i]+b_c) (8)

其中，C′_i为在第i个时刻的记忆，即当前记忆，W_c为当前输入的单元状态的权重，b_c为当前输入的单元状态的偏置，h_i-1为上一时刻的输出向量，x_i为该时刻的输入向量，[h_i-1,x_i]表示把向量h_i-1和向量x_i拼接成一个向量。tanh为tanh函数。

当前时刻单元状态的计算公式：

C_i＝f_iC_i-1+input_iC′_i (9)

其中，C_i为在第i个时刻的单元状态，即当前时刻的单元状态，f_i为遗忘门在第i个时刻的输出，可由式(7)得出，C_i-1为第i-1个时刻的单元状态，即长期记忆，input_i为输入门在第i个时刻的输出，可由式(6)得出，C′_i为第i个时刻的记忆，即当前记忆，可由式(8)得出。

输出门的计算公式：

O_i＝σ(W_o[h_i-1,x_i]+b_o) (10)

O_i表示输出门在第i个时刻的的输出，W_o表示输出门的权重矩阵，[h_i-1,x_i]即把向量h_i-1和向量x_i拼接成一个向量，b₀为该门的偏置。σ为sigmoid函数。

③对网络参数θ＝{W_f、b_f、W_input、b_input、W_c、b_c、W_o、b_o}进行随机初始化，采用Adam优化算法迭代训练LSTM神经网络，对参数θ进行更新，定义损失函数为：

其中，为第i采样时刻变量/>的预测值，/>为第i采样时刻变量/>实际测量值，I为总采样点的个数。

④根据迭代epoch次后的模型参数W_f、b_f、W_i、b_i、W_c、b_c、W_o、b_o对反应器温度的未来时序进行预测。

有益效果

本发明对TE过程进行变量选取时，不仅考虑了过程变量对目标变量在相关性大小的影响，而且考虑到了信息在两个方向上传递量存在的差异，从流动方向上排除该冗余变量到目标变量的干扰。同时，结合LSTM模型在时间序列预测方面的优势，加快模型训练速度，提高预测准确性，对流程工业时序预测具有重要意义。

附图说明

图1所示为整体流程图图示；

图2所示为各变量与目标变量之间互信息计算值图示；

图3所示为各变量与目标变量之间传递熵差值的结果图示；

图4所示为时序预测结果图图示；(a)LSTM预测结果图(b)MI-LSTM预测结果图(c)TE-LSTM预测结果

具体实施方式

TE过程是一个对实际过程工业系统进行仿真的模型，根据其过程模型中包含的五个部分，可以将田纳西-伊斯曼过程分为五个子单元，记为搅拌反应器单元、冷凝器单元、产物分离器单元、汽提塔单元和压缩机单元。本发明选取搅拌反应器单元用于验证方法的有效性。表1所示为TE过程搅拌反应器单元包含的9个变量，取反应器温度作为时序预测的输出变量。

表1 TE过程搅拌反应器单元变量

Table 1 Variables of TE process stirred reactor unit

基于以上描述，按照发明内容，将具体过程利用python语言在spyder中实现如下：

step1:取正常操作情况下958组数据，共9个变量，构成样本集(X₁,X₂,…X₈,Y)，其中X₁,X₂,…X₈分别为物料A进入反应器的流量、物料D进入反应器的流量、物料E进入反应器的流量、回收反应物的流量、反应器的进料总流量、反应器压力、反应器液位、反应器冷却水出口温度，Y为反应器温度。每个变量包含i＝(1,2,…,958)个采样时刻，即X_m＝(X_m,1,X_m,2,…X_M,958)，Y＝(y₁,y₂,…,y₉₅₈)，其中X_m,i表示第i个采样时刻的第m个变量的测量值，Y_i表示第i个采样时刻反应器温度的测量值，i＝1,2,…,958，m＝1,2,…,8。

step2:对(X₁,X₂,…X₈,Y)进行归一化处理，处理方式如下：

对变量X_m(m＝1,2,…,8)进行归一化，可表示如下：

其中，表示第i个采样时刻第m个过程变量归一化后的数据，i＝1,2,…,958，m＝1,2,…,8；min()和max()可用python里自带的求最大值函数max()和最小值函数min()实现。

对反应器温度进行归一化，可表示如下：

其中，为第i个采样时刻变量Y归一化后的数据，i＝1,2,…,958。min()和max()可用python里自带的求最大值函数max()和最小值函数min()实现。

step3:利用传递熵进行变量选择：

①利用step2归一化后的数据，分别计算每个变量对反应器温度的传递熵值，以及反应器温度/>对变量/>的传递熵值。变量对目标变量反应器温度/>的传递熵计算公式如下：

其中，表示变量/>对反应器温度/>的传递熵值，x_m,i和y_i分别代表了变量/>和反应器温度/>在i时刻的测量值，y_i+1代表了/>在下一时刻的测量值。/>为概率，/>和/>为条件概率，可利用python中的核密度估计函数KernelDensity()求得，i＝1,2,…,958，m＝1,2,…,8。k和l分别为/>和/>的植入维度，/>通常，为了避免在计算过程中引入复杂的高维概率密度，取k＝l＝1，这不影响变量之间的传递关系。

反应器温度对变量/>的传递熵值：

其中，表示反应器温度/>对变量/>的传递熵值，x_m,i和y_i分别代表了变量/>和变量/>在i时刻的测量值，x_m,i+1代表了/>在下一时刻的测量值。/>为概率，/>和/>为条件概率，可利用python中的核密度估计函数KernelDensity()求得，i＝1,2,…,958，m＝1,2,…,8。k和l分别为/>和/>的植入维度，/> 通常，为了避免在计算过程中引入复杂的高维概率密度，取k＝l＝1，这不影响变量之间的传递关系。

②计算变量到反应器温度/>的传递熵/>与反应器温度/>到变量/>的传递熵/>的差值：

其中，表示变量/>到反应器温度/>的传递熵/>与反应器温度/>到变量/>的传递熵/>的差值。/>表示变量/>对反应器温度/>的传递熵值，/>表示反应器温度/>对变量/>的传递熵值。

③通过传递熵差值从变量集中筛选出满足/>(即传递熵/>>传递熵/>)的变量/>构造出影响目标变量的关键变量集

step4:建立LSTM时时间序列预测模型，具体包括以下步骤：

①将(3)筛选出的关键变量集和目标变量/>一起构成LSTM的输入数据集/>

②确定LSTM神经网络模型，包括输入门、遗忘门和输出门，在第i个时刻输入的数据为数据通过输入门的具体形式为：

input_i＝σ(W_input[h_i-1,x_i]+b_input) (17)

遗忘门计算公式为:

f_i＝σ(W_f[h_i-1,x_i]+b_f) (18)

当前记忆的计算公式：

C′_i＝tanh(W_c[h_i-1,x_i]+b_c) (19)

当前时刻单元状态的计算公式：

C_i＝f_iC_i-1+input_iC′_i (20)

其中，C_i为在第i个时刻的单元状态，即当前时刻的单元状态，f_i为遗忘门在第i个时刻的输出，可有式(18)得出，C_i-1为第i-1个时刻的单元状态，即长期记忆，input_i为输入门在第i个时刻的输出，可由式(17)得出，C′_i为第i个时刻的记忆，即当前记忆，可由式(19)得出。

输出门的计算公式：

O_i＝σ(W_o[h_i-1,x_i]+b_o) (21)

③对网络参数θ＝{W_f、b_f、W_input、b_input、W_c、b_c、W_o、b_o}进行随机初始化，采用Adam优化算法迭代训练LSTM神经网络，对参数θ进行更新。

④根据迭代epoch＝100次的模型参数W_f、b_f、W_i、b_i、W_c、b_c、W_o、b_o对反应器温度未来的时序进行预测。

step5:为了验证本发明方法的有效性，实验将本发明方法与未进行变量选择时LSTM模型、互信息(mutual information，MI)-LSTM方法作对比。

使用预测均方根误差指标RMSE(root mean square error,RMSE)评价模型的预测效果，其定义如下：

式中，y_i为第i采样时刻过程变量预测值，为第i采样时刻过程变量实际测量值，I为预测点的个数。

用python中的time来记录模型训练时间，用于衡量变量选取前后模型训练速度。

有图3可知，物料A进入反应器的流量与反应器温度传递熵差值大于0。由于反应器内发生放热反应，参与反应的物料A的量发生变化会导致反应器内温度的变化，物料A的流量会影响反应器温度，因此，物料A进入反应器的流量是反应器温度的原因变量。同理，回收反应物的流量与反应器温度差值大于0。由于循环的物料回流入反应器，导致反应器内液位和压力的变化，同时由于回流物料参与反应，所以会影响反应器的温度，因此回收反应物的流量是反应器温度的原因变量。以上分析与田纳西-伊斯曼过程的机理相符，因此所提传递熵变量选取方法具有一定的合理性。另外，利用互信息的方法，只考虑两个变量间相互作用的信息，但该方法不能表明相关性的方向。由图2可知反应器液位和反应器温度之间具有较强的相关性，而利用传递熵的方法，可从流动方向上是排除该变量到目标变量的干扰，表明了传递熵在排除冗余信息上的优越性。

由图示可以看出，利用传递熵的方法，可从流动方向上是排除该变量到目标变量的干扰，考虑变量间方向性的变量选取方法在后续时序预测的精度和训练速度方面都有所提高。

表2模型预测结果对比表

三种方法时序预测结果如图4，其模型预测对比如表2所示，可以看出，使用反应器单元全部特征所建立的时间序列模型在测试数据集上的预测准确率最低，所建时间序列预测模型最复杂，学习训练时间最长；相比模型1，使用互信息选取的特征子集所建立的时间序列模型，在预测性能和训练速度上都有所提升；相比前两个方法，基于传递熵与长短期记忆网络的TE过程时间序列模型RMSE和训练时间都减小。说明基于传递熵与长短期记忆网络的TE过程时间序列模型，所建时间序列预测模型最简单，训练速度最快，能在保证预测精度的同时，能有效剔除冗余信息。

Claims

1.一种基于传递熵与长短期记忆网络的TE过程时序预测方法，其特征在于包括以下步骤：

(1)采集TE工业过程反应器单元正常操作情况下的历史数据，构成样本集(X₁,X₂,…,X_m,…,X₈,Y)，其中X_m表示第m个变量，即物料A进入反应器的流量、物料D进入反应器的流量、物料E进入反应器的流量、回收反应物的流量、反应器的进料总流量、反应器压力、反应器液位、反应器冷却水出口温度；Y表示要预测的目标变量，即反应器温度，每个变量包含i＝1,2,…,I个采样时刻，即X_m＝(X_m,1,X_m,2,…X_m,i…，X_8,i)，Y＝(y₁,y₂,…Y_i…,y_I)，其中X_m,i表示第i个采样时刻的第m个变量的测量值，Y_i表示第i个采样时刻目标变量反应器温度的测量值；

对变量X_m进行归一化，表示如下：

其中，表示第i个采样时刻第m个过程变量归一化后的数据，i＝1,2,…I，m＝1,2,…M；max()为求最大值函数，min()为求最小值函数；

对反应器温度Y进行归一化，表示如下：

其中，为第i个采样时刻反应器温度Y归一化后的数据，i＝1,2,…I；max()为求最大值函数，min()为求最小值函数；

(3)利用传递熵进行变量选择：

①利用步骤(2)归一化后的数据，分别计算物料A进入反应器的流量、物料D进入反应器的流量、物料E进入反应器的流量、回收反应物的流量、反应器的进料总流量、反应器压力、反应器液位、反应器冷却水出口温度与反应器温度之间的传递熵值，其计算公式如下：

变量对目标变量/>的传递熵值：

其中，表示变量/>对目标变量/>的传递熵值，x_m,i和y_i分别代表了变量/>和变量/>在i时刻的测量值，y_i+1代表了/>在未来下一时刻的测量值；/>为概率，/>和/>为条件概率，利用核密度估计方法求得；i＝1,2,…I，m＝1,2,…M；k和l分别为/>和/>的植入维度，通常，为了避免在计算过程中引入复杂的高维概率密度，取k＝l＝1，这不影响变量之间的传递关系；

目标变量对过程变量/>的传递熵值：

其中，表示目标变量/>对变量/>的传递熵值，x_m,i和y_i分别代表了变量/>和变量/>在i时刻的测量值，x_m,i+1代表了/>在未来下一时刻的测量值；/>为概率，/>和/>为条件概率，利用核密度估计方法求得；i＝1,2,…I，m＝1,2,…M；k和l分别为/>和/>的植入维度，通常，为了避免在计算过程中引入复杂的高维概率密度，取k＝l＝1，这不影响变量之间的传递关系；

其中，表示变量/>到目标变量/>的传递熵/>与目标变量/>到变量/>的传递熵/>的差值，/>表示变量/>对目标变量/>的传递熵值，/>表示目标变量/>对变量/>的传递熵值；m＝1,2,…M；

③通过传递熵差值从物料A进入反应器的流量、物料D进入反应器的流量、物料E进入反应器的流量、回收反应物的流量、反应器的进料总流量、反应器压力、反应器液位、反应器冷却水出口温度中筛选出满足即/>的变量/>构造出影响目标变量的关键变量集/> 其中，Q为满足的变量个数；

(4)建立LSTM时时间序列预测模型，具体包括以下步骤：

①将步骤(3)筛选出的关键变量集和反应器温度/>一起构成LSTM的输入数据集/>

②确定LSTM神经网络模型，包括输入门、遗忘门和输出门，输入为数据集在第i个时刻输入的数据为/> 数据通过输入门的具体形式为：

input_i＝σ(W_input[h_i-1,x_i]+b_input) (6)

其中，input_i为输入门在第i个时刻的输出，W_input为输入门的权重矩阵，b_input为输入门偏置，h_i-1为上一时刻的输出向量，x_i为该时刻的输入向量，[h_i-1,x_i]表示把向量h_i-1和向量x_i拼接成一个向量；σ为sigmoid函数；

遗忘门计算公式为:

f_i＝σ(W_f[h_i-1,x_i]+b_f) (7)

其中，f_i为遗忘门在第i个时刻的输出，W_f为遗忘门的权重矩阵，b_f为遗忘门偏置，h_i-1为上一时刻的输出向量，x_i为该时刻的输入向量，[h_i-1,x_i]表示把向量h_i-1和向量x_i拼接成一个向量；σ为sigmoid函数；

当前记忆的计算公式：

C′_i＝tanh(W_c[h_i-1,x_i]+b_c) (8)

其中，C′_i为在第i个时刻的记忆，即当前记忆，W_c为当前输入的单元状态的权重，b_c为当前输入的单元状态的偏置，h_i-1为上一时刻的输出向量，x_i为该时刻的输入向量，[h_i-1,x_i]表示把向量h_i-1和向量x_i拼接成一个向量；tanh为tanh函数；

当前时刻单元状态的计算公式：

C_i＝f_iC_i-1+input_iC′_i (9)

其中，C_i为在第i个时刻的单元状态，即当前时刻的单元状态，f_i为遗忘门在第i个时刻的输出，由式(7)得出，C_i-1为第i-1个时刻的单元状态，即长期记忆，input_i为输入门在第i个时刻的输出，由式(6)得出，C′_i为第i个时刻的记忆，即当前记忆，由式(8)得出；

输出门的计算公式：

O_i＝σ(W_o[h_i-1,x_i]+b_o) (10)

O_i表示输出门在第i个时刻的输出，W_o表示输出门的权重矩阵，[h_i-1,x_i]即把向量h_i-1和向量x_i拼接成一个向量，b₀为该门的偏置；σ为sigmoid函数；

其中，为第i采样时刻变量/>的预测值，/>为第i采样时刻变量/>实际测量值，I为总采样点的个数；

④根据迭代100次以上后的模型参数W_f、b_f、W_i、b_i、W_c、b_c、W_o、b_o对反应器温度的未来时序进行预测。