CN113223634B

CN113223634B - 基于二维自注意力增强gru模型高炉铁水硅含量预测方法

Info

Publication number: CN113223634B
Application number: CN202110303503.6A
Authority: CN
Inventors: 李俊方; 杨春节; 王文海
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2022-09-16
Anticipated expiration: 2041-03-22
Also published as: CN113223634A

Abstract

本发明公开了一种基于二维自注意力增强GRU模型高炉铁水硅含量预测方法，属于工业过程监控、建模和仿真领域。通过从真实的高炉生产数据中获取有效信息建立模型，实现铁水硅含量提前预测，指导后续生产操作。考虑高炉生产过程中各参数变量对产品铁水硅含量的影响大小不同且随时间动态变化，提出在GRU模型特征维度增加自注意力，获取各参数变量的动态权重；同时，考虑系统动态性以及大时滞问题，提出基于因果卷积的时间维度自注意力机制，实现高炉运行参数局部动态特征增强感知，以及运行参数同工艺指标的软对标；本发明方法对于具有大时滞、强动态性的高炉系统具有很好的拟合效果，能够实现对高炉铁水硅含量的准确预测。

Description

基于二维自注意力增强GRU模型高炉铁水硅含量预测方法

技术领域

本发明属于工业过程监控、建模和仿真领域，特别涉及一种基于二维自注意力增强GRU模型高炉铁水硅含量预测方法。

背景技术

高炉炼铁是工业生产的重要过程，提高高炉炼铁效率会带来巨大的经济效益。但是高炉炼铁是一个极其复杂的高温高压、强耦合、强干扰的工业过程，这使得人们很难测量高炉内部的温度压力等信息，很难准确评估高炉的运行状态。研究学者多用铁水硅含量作为一项重要参考指标对高炉炉内温度进行评估。在稳定工况下，当硅含量低于某一合理区间，就表明炉温过低将影响炼铁生产，而当硅含量高于这一合理区间，则表明此时炉内温度过高，焦炭消耗过量。为保证炼铁过程的高效稳定运行一般需要将高炉炉内温度控制在合理的范围，相应的也就是将铁水硅含量控制在合理范围。如果可以提前预知硅含量，操作工将可以提前进行适当的操作来调整高炉的运行状态以保持其高效平稳运行。而传统的硅含量检测方法是将出炉铁水进行化验获得，这样得到的结果有严重的滞后，生产参考性大大降低，无法及早调整高炉运行状态。

现有的用于硅含量建模预测的据驱动模型主要有：回归分析、BP神经网络、支持向量机等，这类模型虽然能够实现高炉系统的非线性建模，但是无法充分提取系统的动态特征，针对变量时滞问题，只能人工通过相关性来分析各变量时滞情况，这些不足一定程度上影响了模型的预测精度。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种基于二维自注意力增强GRU(Gated Recurrent Unit)模型的高炉铁水硅含量预测方法。

一种基于二维自注意力增强GRU模型高炉铁水硅含量预测方法，步骤如下：

步骤(1)选取与铁水硅含量相关的高炉过程参数和状态参数，通过相关性分析确定用于硅含量预测的变量，取相关性高的变量；

步骤(2)在GRU模型基础上增加特征维度自注意力机制，各时刻特征变量同其上一时刻的隐藏层状态向量，进行相似性计算，获取各相关变量动态权重；

步骤(3)在增加特征维度注意力机制的GRU模型基础上增加基于因果卷积的时间维度自注意力机制，通过因果卷积计算输入序列各时刻，t＝1～T，对应局部的包含动态特征信息的键向量K_t＝1～T，再利用因果卷积计算时间序列最后时刻，t＝T，对应局部的包含历史动态特征信息的查询向量Q，通过查询向量Q同各时刻键向量K进行相似性计算，获得各时刻采样点的初始权重，归一化后获得各时刻隐含状态向量的注意力权重；最终各时刻隐含层状态向量加权求和获得编码向量c，c向量导入线性层激活后获得最终的预测值—硅含量；

步骤(4)设定损失函数MAE或MSE，利用处理好的数据集对模型进行训练调参，利用验证集检验模型预测精度，调整模型超参数直至模型预测精度达标；

步骤(5)采集高炉生产过程中的时间序列数据，输入模型，获得硅含量预测值。

步骤(1)所述的相关性高的变量为炉顶压力、透气性指数、喷煤率、富氧率、顶温、压差、热风温度、热风压力、热风流量、冷风湿度、上一时刻硅含量。

步骤(2)在原有的GRU模型基础上增加特征维度自注意力机制：模型的输入为时间序列{X₁,X₂,...,X_t,...,X_T}，其中

为t时刻原始n维输入特征，首先输入时间序列的第一个时刻的各特征变量X_t＝1不加权重，经GRU单元计算得到隐含状态向量h_t＝1，后续各时刻输入X_t便可同其上一时刻GRU单元隐含状态向量h_t-1拼接后输入特征权重计算层计算对应时刻各特征变量的权重，权重值经softmax层归一化后获得t时刻n维特征变量的权重

同原始特征变量值加权，获得加权后的n维输入特征

步骤(3)首先利用加权后的各时刻的输入特征

输入GRU单元，获得对应时刻的隐含状态向量序列{h₁,h₂,...,h_T}，利用因果卷积获得各时刻隐含状态向量h对应的键向量K，这一步需要通过试验确定合理的卷积核的大小kernel_size，以及卷积核数量，滑动步长为1，卷积操作时，需要在序列前添补kernel_size-1个值，获得各h向量对应的键向量{K₁,K₂,...,K_T}，然后用大小及数量均相同的卷积核针对h_T局部进行因果卷积，获得查询向量Q，查询向量Q依次同各键向量点乘求取相似性，经softmax层归一化后获得各h向量的时间维度的注意力权重{ω₁,ω₂,...,ω_T}，各h向量加权求和后获得编码c向量，经线性层激活后得到预测值——硅含量。

本发明的有益效果：模型通过特征维度自注意力机制获取高炉各变量的动态权重，实现有用信息增强，降低了信息噪声；同时因果卷积时间自注意力机制，使得模型充分挖掘个时刻输入的局部特征，更有效的分析输入序列各时刻对硅含量进行预测的信息价值，增强了有效信息提取能力，通过模型训练学习，实现输入输出时间上的软对标，更合理的解决高炉系统硅含量预测的时滞问题；最终提高了硅含量的预测精度。

附图说明

图1所示为特征维度自注意力机制GRU模型计算各特征变量注意力权重的过程。

图2所示为特征注意力加权后的输入经GRU单元计算隐藏状态向量h的过程。

图3所示为时间维度基于因果卷积自注意力机制的编码及解码过程。

图4所示为硅含量预测结果与实际数据对比。

具体实施方式

以下结合附图和实施例对本发明做进一步的阐述。

基于二维自注意力增强GRU模型高炉铁水硅含量预测方法的具体步骤如下：

步骤(1)通过专家经验确定影响铁水硅含量的变量，然后进行相关性分析确定最终选取的模型输入变量数量——炉顶压力、透气性指数、喷煤率、富氧率、顶温、压差、热风温度、热风压力、热风流量、冷风湿度、前序时刻硅含量。变量太多导致信息噪声多，同时会导致GRU模型参数过多，增加训练难度及耗时；变量过少导致有益信息损失。

步骤(2)在原有的GRU模型基础上增加特征维度自注意力机制。考虑到高炉的动态特征，高炉各参数对铁水硅含量的影响大小也会随着时间进行变化。因此本方法设计如图1所示结构，

为t时刻原始n维输入特征，

为t时刻各特征变量的权重，

为t时刻加权后的n维输入特征，h_t-1表示t-1时刻的隐含状态向量。示意图右侧所示为加权后的n维时间序列。首先时间序列的第一个时刻的各特征变量X_t＝1不加权重，经GRU单元计算得到隐含状态向量h_t＝1。后续各时刻输入X_t同其上一时刻隐含状态向量h_t-1拼接后输入特征权重计算层(全连接层等)计算对应时刻各特征变量的权重，权重值经softmax层归一化后同原始特征变量值加权，获得加权后的n维输入特征。

通过计算X_t和h_t-1的“相似性”来获取特征变量注意力权重是因为，变量在一个连续的时间序列内，其对硅含量这一预测变量的影响权重是随时间连续变化的。h_t-1是通过

计算获得，h_t-1包含X_t各变量权重变化趋势信息，因此可以通过此方法学习获得各变量沿时间序列的权重变化。

步骤(3)：首先利用加权后的各时刻的输入特征

输入GRU单元，获得对应时刻的隐含状态向量序列{h₁,h₂,...,h_T}如图2所示。然后如图3所示，利用因果卷积获得各时刻隐藏状态向量h对应的键向量k，这一步需要通过试验确定合理的卷积核的大小kernel_size，以及卷积核数量，滑动步长为1，卷积操作时，需要在序列前添补kernel_size-1个值，获得各h向量对应的键向量{K₁,K₂,...,K_T}，然后用大小及数据均相同的卷积核针对h_T进行因果卷积，获得查询向量Q，查询向量Q依次同各键向量点乘求取相似性，经softmax层归一化后获得各h向量的时间维度的注意力权重{ω₁,ω₂,...,ω_T}，各h向量加权求和后获得编码c向量，经线性层激活后得到预测值。

在机器翻译领域中seq2seq模型引入注意力机制，是因为利用唯一的编码向量c很难准确翻译所有的目标字词。在翻译不同的目标语言字词时，不同源语言字词的信息贡献度是不同的，因此引入注意力机制，翻译不同目标语言字词时，赋予源语言字词信息不同注意力权重获得不同的编码向量进行翻译。因为目标语言字词间前后关系紧密，往往在翻译出前序字词后对后一个字词会有一个大致推断。因此在解码阶段翻译某目标语言单词时，可以认为解码单元前一时刻输出的隐含状态向量s_t-1包含了大量目标字词的信息。进而计算s_t-1同源语言各字词信息的相关性，可近似视为目标字词同各源语言字词信息的相关性，以此来确定各字词信息的注意力权重。

区别于上述注意力机制，本模型为单时间步预测方法，不需要针对不同预测时间点去计算不同的编码向量。且预测变量虽具有一定的动态特征，但是很难通过前序各时刻硅含量对后一时刻硅含量做一个推断，即引入seq2seq模型在解码阶段找到一个量替代预测变量来计算输入时间序列各时刻采样点同预测变量的相关性强弱是困难的。所以本方法引入自注意力机制，考虑循环单元最后输出隐含状态向量h_T包含预测变量信息最为丰富。因此通过求取输入序列各时刻的局部特征信息({K₁,K₂,...,K_T})和h_T的局部特征信息(Q)，使二者进行相似性计算，获得各隐含状态向量h的时间注意力权重。对有益信息进行增强。

步骤(4)设定损失函数MAE或MSE，利用处理好的数据集对模型进行训练调参，利用验证集检验模型预测精度，调整模型超参数直至模型预测精度达标。

本方法在工业数据上进了实验，实验结果如图4所示，实线为真实的硅含量值，虚线为模型预测值，可以看出模型预测取得了很好地效果。

Claims

1.一种基于二维自注意力增强GRU模型高炉铁水硅含量预测方法，其特征在于，步骤如下：

步骤(2)在GRU模型基础上增加特征维度自注意力机制，各时刻特征变量同其上一时刻的隐藏层状态向量，进行相似性计算，获取各相关变量动态权重；模型的输入为时间序列{X₁,X₂,...,X_t,...,X_T}，其中

同原始特征变量值加权，获得加权后的n维输入特征

步骤(3)在增加特征维度注意力机制的GRU模型基础上增加基于因果卷积的时间维度自注意力机制，通过因果卷积计算输入序列各时刻，t＝1～T，对应局部的包含动态特征信息的键向量K_t＝1～T，再利用因果卷积计算时间序列最后时刻，t＝T，对应局部的包含历史动态特征信息的查询向量Q，通过查询向量Q同各时刻键向量K进行相似性计算，获得各时刻采样点的初始权重，归一化后获得各时刻隐含状态向量的注意力权重；最终各时刻隐含层状态向量加权求和获得编码向量c，c向量导入线性层激活后获得最终的预测值—硅含量；步骤(3)首先利用加权后的各时刻的输入特征

输入GRU单元，获得对应时刻的隐含状态向量序列{h₁,h₂,...,h_T}，利用因果卷积获得各时刻隐含状态向量h对应的键向量K，这一步需要通过试验确定合理的卷积核的大小kernel_size，以及卷积核数量，滑动步长为1，卷积操作时，需要在序列前添补kernel_size-1个值，获得各h向量对应的键向量{K₁,K₂,...,K_T}，然后用大小及数量均相同的卷积核针对h_T局部进行因果卷积，获得查询向量Q，查询向量Q依次同各键向量点乘求取相似性，经softmax层归一化后获得各h向量的时间维度的注意力权重{ω₁,ω₂,...,ω_T}，各h向量加权求和后获得编码c向量；

2.根据权利要求1所述的方法，其特征在于，步骤(1)所述的相关性高的变量为炉顶压力、透气性指数、喷煤率、富氧率、顶温、压差、热风温度、热风压力、热风流量、冷风湿度、上一时刻硅含量。