CN114547974A

CN114547974A - 基于输入变量选择与lstm神经网络的动态软测量建模方法

Info

Publication number: CN114547974A
Application number: CN202210127269.0A
Authority: CN
Inventors: 孙凯; 隋璘; 刘咏诗; 俞晓冬
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2022-05-27

Abstract

本发明涉及基于输入变量选择与LSTM神经网络的动态软测量建模方法，包括如下步骤:S1：采集输入、输出数据组成历史训练样本数据库；S2：对采集的样本数据进行预处理，将采集的数据进行缺失值、异常值处理及数据标准化；S3：构建和训练LSTM神经网络软测量模型；S4：MNNG算法设计：基于MIC算法设计自适应约束算子，并将自适应约束算子嵌入NNG算法约束中；S5：将MNNG算法嵌入LSTM神经网络结构，优化LSTM网络输入权重，删除冗余变量，建立更简化的软测量模型。本方案基于非负绞杀算法与最大互信息系数设计自适应加权惩罚函数，并将其与长短期记忆神经网络相结合，提供了一种基于输入变量选择与LSTM神经网络的动态软测量建模方法。

Description

基于输入变量选择与LSTM神经网络的动态软测量建模方法

技术领域

本发明涉及工程建模与软测量领域，具体涉及一种基于输入变量选择与LSTM神经网络的动态软测量建模方法。

背景技术

现代工业过程中，为保证产品质量与生产过程安全性，需要对某些难以直接测量却又与之密切相关的关键变量进行实时监测，以满足工业生产需求。软测量技术由于其在线检测经济可靠，响应迅速，易于达到对产品质量的实时监测与控制，已成为化工过程控制领域的研究热点问题。

软测量建模方法主要有偏最小二乘回归、支持向量机、人工神经网络(artificialneural network，ANN)等，其中，ANN因其出色的非线性映射能力、不依赖系统先验知识的学习能力，常用于各种现代流程工业和过程控制领域的关键参数软测量。然而，实际工业过程本质上具有复杂的时滞特性与动态特性，某些关键参数的状态不仅与其它过程参数的当前时刻状态有关，也依赖于其过去某时刻或某时段的状态。而传统ANN多采用前馈网络结构，难以捕获两者之间复杂的动态时序关系，因此所建立的软测量模型往往难以满足生产要求。另一方面，复杂工业过程中存在过多特征变量，且具有高度相关性与强耦合性，包含大量冗余信息，从而使模型复杂度增大，性能降低。

发明内容

针对上述问题，本发明综合考虑现代化工过程建模中存在的非线性、多变量、强耦合、动态等特征所导致的模型复杂度增高和建模精度降低等问题，基于非负绞杀算法与最大互信息系数设计自适应加权惩罚函数，并将其与长短期记忆(long short-term memory，LSTM)神经网络相结合，提供了一种基于加权输入变量选择与LSTM神经网络的动态软测量建模方法。

本发明提供如下技术方案：基于输入变量选择与LSTM神经网络的动态软测量建模方法，包括如下步骤:

S1：采集输入、输出数据组成历史训练样本数据库；

S2：对采集的样本数据进行预处理，将采集的数据进行缺失值、异常值处理及数据标准化；

S3：构建和训练LSTM神经网络软测量模型；

S4：MNNG算法设计：基于MIC算法设计自适应约束算子，并将自适应约束算子嵌入NNG算法约束中；

S5：将MNNG算法嵌入LSTM神经网络结构，优化LSTM网络输入权重，删除冗余变量，建立更简化的软测量模型。

在步骤S1中，通过机理分析与专家经验，从工业分散控制系统中选取可能对待测变量预测产生影响的重要过程变量作为输入变量，按时间间隔T对其进行连续均匀采样，获得输入输出变量数据集，此数据集为从工业分散控制系统中所采集的原始数据，在经过数据清洗后方可利用，步骤S2即为数据清洗步骤。

步骤S2具体包括:

S201：首先对于只含有部分时间点的变量，如果其残缺数据较多，无法补充，将此类变量删除，删除样本中数据全部为恒定值的变量；对于部分数据为空值的变量，空值处用其前后两个数据的平均值代替；

S202：其次根据工艺要求与操作经验，总结出原始数据变量的操作范围，然后采用最大、最小的限幅方法剔除一部分不在此范围的样本，并根据拉依达准则(3σ准则)去除异常值；拉依达准则是指先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除,首先对被测变量进行等精度测量，独立获得x₁,x₂,…,x_n，求其算术平均值

及剩余误差

并计算出标准差σ，若某个测量值x_i的剩余误差v_i(1≤i≤n)，若满足下式：

则认为该误差属于粗大误差，含有该误差的数据x_i应予以剔除；

S203：最后将输入、输出变量按z-score法(正规化方法)进行数据标准化。

步骤S3具体包括：

S301：数据集划分，将预处理后的数据前80％作为训练数据集，剩余20％作为测试数据集，用以构建、训练三层LSTM神经网络；

S302：LSTM神经网络模型训练，LSTM神经网络的训练算法为基于时间的反向传播算法，具体训练过程主要包括三步：

(1)前向计算：计算各门控单元与LSTM单元的输出值，即f_(t)、i_(t)、o_(t)、c′_(t)、C_(t)、h_(t)的值，

C_(t)＝f_(t)⊙C_(t-1)+i_(t)⊙c′_(t)

h_(t)＝o_(t)⊙tanh(C_(t))

式中，f_(t)、i_(t)、o_(t)、c′_(t)分别代表遗忘门、输入门、输出门与候选细胞状态的输出，

表示当前时刻的输入，

表示前一时刻的隐藏状态，W、b分别为各门控单元对应权重矩阵与偏置向量，即网络所需要学习的参数，p与q分别表示网络输入维度与隐含层节点数，σ(·)表示sigmoid非线性激活函数，tanh(·)表示双曲正切激活函数，⊙为向量点乘运算；

(2)反向计算：计算其损失函数值，LSTM模型损失函数为半均方根误差，计算方式如下：

其中y_i和

分别为数据样本的实际值与估计值，n_i为数据样本数量，HMSE反映了网络的训练状态，HMSE值越小，证明数据集拟合效果越好；

(3)梯度更新：基于相应误差项，采用Adam优化算法对网络权重进行更新。Adam优化算法是一种可以代替传统随机梯度下降算法的一阶优化算法,在相同的训练周期内具有更高的计算效率与更好的收敛性能，同时所需要的计算空间更少。

S303：采用网格搜索法(gridsearch，GS)对LSTM神经网络超参数进行调优；首先依据先验知识确定不同超参数的候选置信取值，生成待搜索网格；然后采用网格搜索法对LSTM神经网络超参数进行调优，选择最优超参数组合；训练生成初始LSTM神经网络，获得网络初始输入权重y_(t)；

式中式中，f_(t)、i_(t)、o_(t)、c′_(t)分别代表遗忘门、输入门、输出门与候选细胞状态的输出，W、b分别为各门控单元对应权重矩阵与偏置向量，即网络所需要学习的参数，q表示隐含层节点数，tanh(·)表示双曲正切激活函数，⊙为向量点乘运算。

步骤S4具体包括：

S401：分别计算各输入变量x_i与输出变量y之间的MIC值δ＝[δ₁,δ₂,…,δ_p]，

S402：构建各输入变量相对于输出变量的重要性因子μ_i，其计算公式如下所示：

其中δ_i为各输入变量x_i与输出变量y间的MIC值，p为输入变量个数，

S403：将重要性因子μ_i作为自适应算子嵌入NNG算法约束，以构建基于MNNG算法的稀疏模型，其计算公式如下式所示：

其中

为变量自适应收缩算子，以指导NNG算法对不同输入变量施加不惩罚强度,s为绞杀参数，MNNG算法克服了NNG系数估计有偏的缺点，可根据不同输入变量的重要程度，自适应地为其所对应的回归系数分配不同的惩罚强度。

步骤S5具体包括：

S501：将MNNG算法的自适应收缩系数θ添加到LSTM网络输入权重，建立新的LSTM神经网络表达式：

其中各门控单元输出更新为：

则MNNG-LSTM算式表示为：

S502：MNNG-LSTM优化表达式求解，对于给定的绞杀参数s，采用MNNG-LSTM算式获得最优收缩向量θ^*，可获得一组新的预测权重系数：

其中

对于

当

时，输入变量

被删除，各门控单元输出更新为：

则优化后的LSTM模型输出变量y_(t)可表示为：

通过上述描述可以本发明提供基于输入变量选择与LSTM神经网络的动态软测量建模方法，本方法基于MIC算法以设计自适应约束算子，将其嵌入NNG算法约束中，提出一种基于加权惩罚约束的输入变量选择算法。MNNG算法可根据不同输入变量的重要程度，自适应地为其所对应的回归系数分配不同的惩罚强度，从而克服了NNG算法系数估计有偏的缺点。MNNG-LSTM算法充分利用LSTM神经网络的长时历史信息记忆能力，挖掘辅助变量与主导变量之间复杂的时序对应关系，提高了模型的动态信息处理性能。另一方面，利用MNNG算法优化LSTM输入权重矩阵，剔除冗余输入变量，降低模型复杂性与训练难度，提高模型的泛化性能。

本方案涉及非负绞杀算法、最大互信息系数算法、LSTM神经网络算法等，非负绞杀(Nonnegative garrote，NNG)算法是一种基于惩罚约束的变量选择算法，具有出色的系数收缩能力，最早被用以解决线性子集回归问题。算法通过对最小二乘模型系数的压缩实现输入变量选择，防止模型过拟合。

y＝xβ+ε (1)

其中x＝[x₁,x₂,…,x_p]与y分别代表输入、输出变量，β＝[β₁,β₂,…,β_p]^T为系数矩阵，ε为随机误差。算法设计了一组收缩向量θ＝[θ₁,θ₂,…,θ_p]，并将其添加到最小二乘(ordinary least squares，OLS)回归表达式：

其中X∈R^n×p为输入数据样本矩阵，每一列代表一个候选输入变量，n为样本总数，Y∈Rⁿ为输出数据样本矩阵，

表示OLS系数估计。对于给定的绞杀超参数s，求解式(2)，可得优化的收缩向量

将θ^*代入式(1)，可获得新的系数估计：

对于

当

时，输入变量x_i被删除，则y的预测模型可表示为：

在NNG算法中，s值的大小决定了算法的绞杀强度：当s≥p时，式(2)中约束

无效，即

模型将保留所有输入变量；随着s逐渐减小，算法绞杀强度增强，更多

趋向于0，意味着更多的变量被删除；当s减小到0时，所有输入变量都将被删除。算法通过调整s值改变绞杀强度，并结合模型选择准则选择最佳绞杀参数及相应模型。

最大互信息系数(Maximal Information Coefficient，MIC)是一种新颖的变量相关性度量方法，以衡量每个输入变量和输出变量之间的关联程度。MIC是在互信息的基础上改进的，具有更高的准确度，同时该方法还具有公平性，对称性和普适性等优点，被广泛用于探寻大规模数据集中变量对之间的潜在关联性。

MIC算法求解的是在二维空间中两个变量之间的相关性，主要利用互信息和网格划分方法进行计算。如果需要计算两个变量之间的相关性，首先由这两个变量在二维空间内构成的散点图上进行网格划分，其次根据网格的划分求得这两个变量的近似概率密度，进而求得这两个变量之间的互信息，最后对其进行归一化处理。对于给定的有限有序对数据集D＝{(x_i,y_i),i＝1,2,…,n}，其中变量X＝{x₁,x₂,…,x_u,…,x_n}，变量Y＝{y₁,y₂,…,y_i,…,y_n}，假设划分G分别将变量X和Y的值域分为x和y段，G即为x×y的网格，设落入G的点的数量占数据集D数量的比例为其概率密度D|G，而根据不同的网格划分情况得到的概率分布D|G也不同，取不同划分方式中的互信息最大值作为划分G的互信息值。定义划分G下D的最大互信息公式为：

其中，P(x,y)为X和Y的联合概率密度，P(x)和P(y)分别为X和Y的边缘概率密度，使用直方图估计对上述的概率密度进行估计。显然，不同的网格数量和位置下都有一个与之对应的互信息值，其中归一化后的最大的互信息值为I(D,X,Y)，将不同划分下得到的最大归一化互信息值组成特征矩阵M(D)_x,y，其计算公式如下所示：

则MIC的求解公式为：

MIC(X；Y)＝max_x*y＜B(n){M(D)_x,y} (7)

其中B(n)为网格G划分x×y的上限值。MIC不仅可以对大量数据中变量间的线性和非线性关系进行度量，而且可以广泛地挖掘出变量间的非函数依赖关系，可作为输入变量相对于输出变量的相关性评估指标δ，以构建输入变量重要性因子μ_i参与自适应算子设计。

LSTM神经网络是在循环神经网络(recurrent neural network，RNN)的基础上提出的，是一类具有历史信息记忆能力的人工神经网络。LSTM神经网络通过采用信息存储单元代替RNN基本隐含神经元，以实现信息的长时记忆，克服了RNN存在的长期依赖问题。本发明构建的LSTM神经网络为三层网络结构，其基本网络结构与物理架构图如附图1、2所示，通过前向传播算法可获得个门控单元输出：

遗忘门：

输入门：

输出门：

候选单元状态：

表示当前时刻的输入，

表示前一时刻的隐藏状态，W、b分别为各门控单元对应权重矩阵与偏置向量，即网络所需要学习的参数，p与q分别表示网络输入维度与隐含层节点数，σ(·)表示sigmoid非线性激活函数，tanh(·)表示双曲正切激活函数。更新后的细胞状态C_(t)与单元输出h_(t)为：

C_(t)＝f_(t)⊙C_(t-1)+i_(t)⊙c′_(t) (12)

h_(t)＝o_(t)⊙tanh(C_(t)) (13)

其中⊙为向量点乘运算，则最终网络输出y_(t)可表示为：

LSTM神经网络可长时记忆、动态分析、处理历史信息，建立变量间的长时依赖关系，并实现信息的留存持久化。

附图说明

图1为本发明动态软测量建模方法中长短期记忆单元结构图。

图2为本发明动态软测量建模方法中长短期记忆单元内部物理架构图。

图3为本发明动态软测量建模方法中实施例：火电厂脱硫工艺简要示意图。

图4为本发明动态软测量建模方法的火电厂SO2浓度烟气排放预测曲线。

具体实施方式

下面将结合本发明具体实施方式中的附图，对本发明具体实施方式中的技术方案进行清楚、完整地描述，显然，所描述的具体实施方式仅仅是本发明一种具体实施方式，而不是全部的具体实施方式。基于本发明中的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

通过附图可以看出，本发明的基于输入变量选择与LSTM神经网络的动态软测量建模方法，包括如下步骤:

S1：采集输入、输出数据组成历史训练样本数据库；

通过机理分析与专家经验，从工业分散控制系统中选取可能对待测变量预测产生影响的重要过程变量作为输入变量，按时间间隔T对其进行连续均匀采样，获得输入输出变量数据集记为(X,Y)。

具体包括:

及剩余误差

S3：构建和训练LSTM神经网络软测量模型；

具体包括：

C_(t)＝f_(t)⊙C_(t-1)+i_(t)⊙c′_(t)

h_(t)＝o_(t)⊙tanh(C_(t))

表示当前时刻的输入，

其中y_i和

具体包括：

其中

S5具体包括：

其中各门控单元输出更新为：

则MNNG-LSTM算式表示为：

其中

对于

当

时，输入变量

被删除，各门控单元输出更新为：

则优化后的LSTM模型输出变量y_(t)可表示为：

下面将结合一个具体的实施例来说明本发明的有效性与优越性。本实施例以常见的化工过程——火电厂脱硫工艺过程为例，实验数据来自于该火电厂脱硫工艺过程数据采集系统，目的是对该过程SO2烟气排放浓度进行软测量建模。

该火电厂脱硫工艺过程的流程图如附图所示，经过对该火电厂脱硫过程研究及数据分析预处理后，最终确定了由30个辅助变量组成的候选输入变量集，如表1所示。

表1火电厂脱硫工艺过程SO₂浓度软测量建模候选输入变量

为体现MNNG-LSTM算法优越性，本文将其与LSTM和NNG-LSTM软测量算法进行性能比较，仿真结果如表2所示。

如表2所示，与LSTM算法相比，基于输入变量选择的NNG-LSTM与MNNG-LSTM算法所建模型的各项性能指标均有明显提升，充分证明了通过有效地输入变量选择可降低模型复杂度，提高预测精度。其中，MNNG-LSTM算法所建立的模型平均输入变量数目最少，误差评价指标MSE最低，决定系数R2也明显高于NNG-LSTM算法，验证了所提算法的优越性。仿真结果表明MNNG-LSTM算法所建立的软测量模型克服了NNG系数估计有偏的缺点，可根据不同输入变量的重要程度，自适应地为其所对应的回归系数分配不同的惩罚强度，具有更高的精度和更好的性能，提高了SO2浓度监测的准确性和可靠性，并为脱硫过程控制系统的优化设计提供了有力的技术支撑。

尽管已经示出和描述了本发明的具体实施方式，对于本领域的普通技术人员而言，可以理解在不脱离发明的原理和精神的情况下可以对这些具体实施方式进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于输入变量选择与LSTM神经网络的动态软测量建模方法，其特征在于包括如下步骤:

S1：采集输入、输出数据组成历史训练样本数据库；

S3：构建和训练LSTM神经网络软测量模型；

S5：将MNNG算法嵌入LSTM神经网络结构，优化LSTM网络输入权重，删除冗余变量，建立简化的软测量模型。

2.根据权利要求1所述基于输入变量选择与LSTM神经网络的动态软测量建模方法，其特征在于，

步骤S1中，通过机理分析与专家经验，从工业分散控制系统中选取可能对待测变量预测产生影响的重要过程变量作为输入变量，按时间间隔T对其进行连续均匀采样，获得输入输出变量数据集。

3.根据权利要求1或2所述基于输入变量选择与LSTM神经网络的动态软测量建模方法，其特征在于，

步骤S2具体包括:

S202：其次根据工艺要求与操作经验，总结出原始数据变量的操作范围，然后采用最大、最小的限幅方法剔除一部分不在此范围的样本，并根据拉依达准则去除异常值；拉依达准则是指先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除,首先对被测变量进行等精度测量，独立获得x₁,x₂,…,x_n，求其算术平均值