CN114862055A

CN114862055A - 一种基于多源数据驱动的钢铁企业高炉煤气预测方法

Info

Publication number: CN114862055A
Application number: CN202210622952.1A
Authority: CN
Inventors: 李毅仁; 聂礼强; 贾永坡; 宋雪萌; 李玉涛; 刘杰; 冯兴; 王晔
Original assignee: Hegang Digital Technology Co ltd; Shandong University; Qingdao Haier Smart Technology R&D Co Ltd
Current assignee: Hegang Digital Technology Co ltd; Shandong University; Qingdao Haier Smart Technology R&D Co Ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-08-05

Abstract

本发明公开了一种基于多源数据驱动的钢铁企业高炉煤气预测方法，步骤一：建立包含高炉煤气发生量、高炉煤气消耗量及其影响因素的实时数据库；步骤二：对步骤一生成的CSV文件进行预处理；步骤三：对原始数据进行数据分析，计算煤气量与其所有潜在影响因素的相关系数；步骤四：制作相应的训练样本，并划分训练数据集、验证数据集和测试数据集；步骤五：使用一维卷积神经网络和循环神经网络，对高炉煤气产生量和高炉煤气消耗量及其主要影响因素进行特征提取操作；本发明通过将卷积神经网络和循环神经网络应用到高炉煤气产消量的预测上，利用煤气历史量和主要影响因素相结合的多源数据进行驱动，实现了全自动、低误差率的实时动态煤气量预测。

Description

一种基于多源数据驱动的钢铁企业高炉煤气预测方法

技术领域

本发明属于钢铁企业高炉煤气预测技术领域，具体涉及一种基于多源数据驱动的钢铁企业高炉煤气预测方法。

背景技术

钢铁行业是经济的重要基础产业，长期以来为建设提供了重要的材料保障，推动了工业化、现代化的进程。钢铁行业是高耗能行业之一，同时也是推进节能降耗的重点行业。目前，钢铁企业智能化水平较低、信息化管理体系不够完善，导致钢铁生产过程中出现能耗高、效率低、污染重以及煤气放散等问题。为了解决高炉煤气放散问题，需要对钢铁企业的高炉煤气发生量和高炉煤气消耗量进行准确的、动态的预测；

钢铁企业的高炉煤气发生量或消耗量的预测本质上是一个时序预测任务。该类任务最直接的解决方式，是基于高炉煤气发生量或消耗量的历史数据，挖掘其随时间变化的规律。事实上，除了高炉煤气发生量或消耗量的历史数据，其主要影响因素(如送风风量、送风含氧量、废气温度等)的历史数据也间接隐含着高炉煤气发生量或消耗量的变化模式。因此，如何有效地融合这两种来源的数据，提升高炉煤气发生量或消耗量的预测效果，是亟待解决的技术关键点。针对高炉煤气发生量或消耗量及其主要影响因素这两种不同来源的数据，如何利用先进的深度学习技术，深入挖掘其中包含的高炉煤气发生量或消耗量的变化模式，也是我们待解决的技术关键点；为此本发明提出一种基于多源数据驱动的钢铁企业高炉煤气预测方法。

发明内容

本发明的目的在于提供一种基于多源数据驱动的钢铁企业高炉煤气预测方法，煤气历史量与其主要影响因素等多源数据相结合，实现低误差率、全自动的实时动态预测效果。

为实现上述目的，本发明提供如下技术方案：一种基于多源数据驱动的钢铁企业高炉煤气预测方法，其特征在于：步骤一：首先我们建立了一个包含高炉煤气发生量、高炉煤气消耗量及其影响因素的实时数据库；从数据库中获取高炉煤气产生量及其影响因素的瞬时值数据、高炉煤气消耗量及其影响因素的瞬时值数据，并保存至CSV文件；

步骤二：对步骤一生成的CSV文件进行预处理，使其可以用于后续的煤气量预测工作；

步骤三：对原始数据进行数据分析，计算煤气量与其所有潜在影响因素的相关系数，筛选出最能决定煤气量的主要影响因素，便于后续更好地对煤气量进行预测；

步骤四：结合本发明要解决的时序预测任务，制作相应的训练样本，并划分训练数据集、验证数据集和测试数据集；

步骤五：使用一维卷积神经网络和循环神经网络，对高炉煤气产生量和高炉煤气消耗量及其主要影响因素进行特征提取操作，挖掘出数据中潜在的多层次规律；

步骤六：将步骤五中两个模型得到的预测结果送入多层感知机模型，将结果映射为当前时刻T分钟后的煤气量数值。

优选的所述步骤一中具体包括：S11：对高炉煤气量及其所有潜在影响因素进行顺序编号，并作为其列名，建立数据与标签的一对一映射关系，便于后续程序的自动化处理；S12：从数据库中按照一定的采样频率(每分钟采样一次)抽取出数据，并保存为程序便于处理的CSV文件格式。

优选的，所述步骤二具体包括：S21：检查是否含有缺失数据，使用平均值或者线性插值的方法对其进行补全处理；

S22：对原始数据进行下采样，例如取某时刻前t分钟内的煤气量平均值作为该时刻的煤气量瞬时值，减小煤气量数据的噪声；

S23：对离群值采用基于数理统计的检测方法，正态分布假设检验；通常认为发生概率小于5％的事件，在一次试验中是几乎不可能发生的；由此可见如果X落在(μ-3σ,μ+3σ)以外的概率小于千分之三，在实际问题中常认为相应的事件不会发生，基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间，这称之为正态分布的“3σ”原则；其中，X为某一变量，μ为该变量的均值，σ为该变量的标准差；利用这一原则，可以检测出每个点的数据是否是离群值；

S24：对上述得到的数据进行最大-最小归一化处理，可以使各个特征维度对目标函数的影响权重一致，提高迭代求解的收敛速度；公式如下：

优选的，所述步骤三具体包括：S31：对煤气发生量与送风风量、送风含氧量等所有潜在影响因素分别计算相关系数，对煤气消耗量与废气温度、废气含氧量等所有潜在影响因素分别计算相关系数，相关系数的计算方法主要采用皮尔逊相关系数，公式如下：

其中ρ是皮尔逊相关系数，X代表煤气发生量或煤气消耗量，Y代表煤气发送量或煤气消耗量的某一影响因素，μ与σ分别代表各自变量的均值和标准差；经过对数据的相关性分析，我们发现高炉煤气发生量主要与送风风量、送风含氧量、煤比、焦比、高炉温度等影响因素相关，高炉煤气消耗量主要与热风炉状态、废气温度、废气含氧量等影响因素相关。

优选的，步骤四具体包括：S41：针对高炉煤气历史发生量或历史消耗量数据，按照(前N分钟煤气历史量，数分钟后煤气预测值)的格式制作数据集样本；针对高炉煤气发生量或消耗量的主要影响因素数据，按照(前N分钟影响因素历史量，数分钟后煤气预测值)的格式制作数据集样本；

S42：使用滑动窗口的采样方法，从原始数据中按照S41所述样本格式进行采样，并制作成数据集；将数据集按照6:2:2划分出训练数据集、验证数据集和测试数据集。

优选的，所述步骤五具体包括：S51：将高炉煤气发生历史量或消耗历史量的主要影响因素作为一维卷积神经网络的输入，它们均是相同长度的一维序列，可以拼接成一个矩阵同时输入到模型中；矩阵是M行N列的，M指的是输入特征维度，N表示时间序列的长度；

S52：在输入矩阵的基础上，使用多种尺寸不同的卷积核，卷积核的尺寸为W行N列，其中N与输入矩阵的列数保持一致，W的大小可变；这些大小不同的卷积核被用来提取输入矩阵不同方面的特征，分别与输入矩阵进行卷积操作后得到若干个特征图；本模型使用的是一维卷积运算(TextCNN模型)，是指卷积核只在一个方向上移动，具体到本任务上，是在时间的方向上进行移动；卷积核在时间上是从远到近地移动，有助于捕获数据间的时间相关性；使用尺寸大小不同的卷积核是为了使模型得到时间远近不同的特征，多层次的特征使得模型训练更加有效；

S53：尺寸不同的特征图经过最大池化层，得到尺寸统一的特征图向量，依次拼接在一起，使得最终得到的特征向量的长度与输入矩阵的长度保持一致；池化层的目的是在卷积层的基础上，进一步对特征向量进行降维，有利于模型提高泛化能力和鲁棒性；经池化层后得到的每一个向量都代表着所在时间段的特征，这样模型就能捕获多个不同层次的特征；

S54：将高炉煤气发生历史量或高炉煤气消耗历史量这一单独的序列数据，输入循环神经网络GRU中，该网络可以用来捕捉长时间序列中的数据前后依赖关系；假设将当前时刻前M分钟的高炉煤气历史量输入GRU中，则模型输出为当前时刻T分钟后的高炉煤气量预测值，模型会自动建立从输入到输出的映射关系。

优选的，所述步骤六具体包括：S61：将S5中TextCNN模型和GRU模型得到的煤气量预测值输入多层感知机模型中，利用集成学习的思想，综合卷积神经网络和循环神经网络得到的不同层次的特征，降低模型预测的误差率，同时提高了模型预测结果的稳定性。两个模型的预测值输入一个单层的线性层中，再加入非线性激活函数，使得特征向量的维度降为1，即实现从特征向量到真实预测值的映射过程；非线性激活函数ReLU的公式如下：

ReLU(x)＝max(0，x)

S62：根据预测值和真实值，利用MSE损失函数，计算出当前的训练损失，并进行利用Adam优化器进行损失的反向传播，对模型中的各个参数进行优化，使得模型最终在训练集上收敛，在验证集上取得与训练集相近的结果；MSE损失函数公式如下：

其中m代表训练数据的数量，

代表每次的预测值，

代表每次的真实值；为了防止模型在训练集过度拟合，损失一定的泛化性能，我们在训练过程中使用了早停技术；在训练集上每结束一轮训练时，都对验证集进行模型效果评估，如果该轮验证集评估结果比上一轮训练时的评估结果要差得多，那么此时应当停止训练，模型此时在过拟合和欠拟合之间取得了一个较好的平衡。

与现有技术相比，本发明的有益效果是：本发明通过将卷积神经网络和循环神经网络应用到高炉煤气产消量的预测上，利用煤气历史量和主要影响因素相结合的多源数据进行驱动，实现了全自动、低误差率的实时动态煤气量预测；同时，本发明使用的是基于煤气量主要影响因素的动态预测，具有较好的实时性，能够正确指导调度系统调配高炉煤气，进一步降低了高炉煤气的放散；由于高炉煤气是钢铁企业用量最大的煤气类型，所以本发明对践行节能减排政策和提高企业效益有着极其重要的意义。

附图说明

图1为本发明的流程示意图；

图2为本发明的TextCNN模型结构图；

图3为本发明的高炉煤气产生量预测值与真实值对比图；

图4为本发明的高炉煤气消耗量预测值与真实值对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图4，本发明提供一种方法技术方案：一种基于多源数据驱动的钢铁企业高炉煤气预测方法，步骤一：首先建立一个包含高炉煤气发生量、高炉煤气消耗量及其影响因素的实时数据库；从数据库中获取高炉煤气产生量及其影响因素的瞬时值数据、高炉煤气消耗量及其影响因素的瞬时值数据，并保存至CSV文件；

本实施例中，优选的，步骤一中还包括：S11：对高炉煤气量及其所有潜在影响因素进行顺序编号，并作为其列名，建立数据与标签的一对一映射关系，便于后续程序的自动化处理；S12：从数据库中按照一定的采样频率(每分钟)抽取出数据，并保存为程序便于处理的CSV文件格式。

本实施例中，优选的，步骤二具体包括：S21：检查是否含有缺失数据，使用平均值或者线性插值的方法对其进行补全处理；

其中，

是经过归一化得到的数据，X_i是归一化前的原始数据，

X_max与X_min是归一化前原始数据的最大值和最小值。

本实施例中，优选的，步骤三具体包括：S31：对煤气发生量与送风风量、送风含氧量等所有潜在影响因素分别计算相关系数，对煤气消耗量与废气温度、废气含氧量等所有潜在影响因素分别计算相关系数，相关系数的计算方法主要采用皮尔逊相关系数，公式如下：

本实施例中，优选的，步骤四具体包括：S41：针对高炉煤气历史发生量或历史消耗量数据，按照(前N分钟煤气历史量，数分钟后煤气预测值)的格式制作数据集样本；针对高炉煤气发生量或消耗量的主要影响因素数据，按照(前N分钟影响因素历史量，数分钟后煤气预测值)的格式制作数据集样本；

本实施例中，优选的，步骤五具体包括：S51：将高炉煤气发生历史量或消耗历史量的主要影响因素作为一维卷积神经网络的输入，它们均是相同长度的一维序列，可以拼接成一个矩阵同时输入到模型中；矩阵是M行N列的，M指的是输入特征维度，N表示时间序列的长度；

S53：尺寸不同的特征图经过最大池化层，得到尺寸统一的特征图向量，依次拼接在一起，使得最终得到的特征向量的长度与输入矩阵的长度保持一致；池化层的目的是在卷积层的基础上，进一步对特征向量进行降维，有利于模型提高泛化能力和鲁棒性；经池化层后得到的每一个向量都代表着所在时间段的特征，模型就能捕获多个不同层次的特征；模型结构图见图2；

本实施例中，优选的，步骤六具体包括：S61：将S5中TextCNN模型和GRU模型得到的煤气量预测值输入多层感知机模型中，利用集成学习的思想，综合卷积神经网络和循环神经网络得到的不同层次的特征，降低模型预测的误差率，同时提高了模型预测结果的稳定性。两个模型的预测值输入一个单层的线性层中，再加入非线性激活函数，使得特征向量的维度降为1，即实现从特征向量到真实预测值的映射过程；非线性激活函数ReLU的公式如下：

ReLU(x)＝max(0，x)S62：根据预测值和真实值，利用MSE损失函数，计算出当前的训练损失，并进行利用Adam优化器进行损失的反向传播，对模型中的各个参数进行优化，使得模型最终在训练集上收敛，在验证集上取得与训练集相近的结果；MSE损失函数公式如下：

其中，m代表训练数据的数量，

代表每次的预测值，

实验表明，在综合使用一维卷积神经网络、循环神经网络和多源数据驱动的条件下，煤气产生量的预测误差率低至3％，高炉煤气消耗量的预测误差率低至10％，且模型预测结果比较稳定，预测效果如图3、图4所示。同时，本发明使用的是基于煤气量主要影响因素的动态预测(每分钟采样一次)，具有较好的实时性，能够正确指导调度系统调配高炉煤气，进一步降低了高炉煤气的放散。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多源数据驱动的钢铁企业高炉煤气预测方法，其特征在于：

步骤一：首先建立一个包含高炉煤气发生量、高炉煤气消耗量及其影响因素的实时数据库；从数据库中获取高炉煤气产生量及其影响因素的瞬时值数据、高炉煤气消耗量及其影响因素的瞬时值数据，并保存至CSV文件；

2.根据权利要求1所述的一种基于多源数据驱动的钢铁企业高炉煤气预测方法，其特征在于：所述步骤一中还包括：S11：对高炉煤气量及其所有潜在影响因素进行顺序编号，并作为其列名，建立数据与标签的一对一映射关系，便于后续程序的自动化处理；S12：从数据库中按照一定的采样频率(每分钟采样一次)抽取出数据，并保存为程序便于处理的CSV文件格式。

3.根据权利要求1所述的一种基于多源数据驱动的钢铁企业高炉煤气预测方法，其特征在于：所述步骤二还包括：S21：检查是否含有缺失数据，使用平均值或者线性插值的方法对其进行补全处理；

4.根据权利要求1所述的一种基于多源数据驱动的钢铁企业高炉煤气预测方法，其特征在于：所述步骤三还包括：S31：对煤气发生量与送风风量、送风含氧量所有潜在影响因素分别计算相关系数，对煤气消耗量与废气温度、废气含氧量所有潜在影响因素分别计算相关系数，相关系数的计算方法主要采用皮尔逊相关系数，公式如下：

其中ρ是皮尔逊相关系数，X代表煤气发生量或煤气消耗量，Y代表煤气发送量或煤气消耗量的某一影响因素，μ与σ分别代表各自变量的均值和标准差。

5.根据权利要求1所述的一种基于多源数据驱动的钢铁企业高炉煤气预测方法，其特征在于：步骤四还包括：S41：针对高炉煤气历史发生量或历史消耗量数据，按照(前N分钟煤气历史量，数分钟后煤气预测值)的格式制作数据集样本；针对高炉煤气发生量或消耗量的主要影响因素数据，按照(前N分钟影响因素历史量，数分钟后煤气预测值)的格式制作数据集样本；

6.根据权利要求1所述的一种基于多源数据驱动的钢铁企业高炉煤气预测方法，其特征在于：所述步骤五还包括：S51：将高炉煤气发生历史量或消耗历史量的主要影响因素作为一维卷积神经网络的输入，它们均是相同长度的一维序列，可以拼接成一个矩阵同时输入到模型中；矩阵是M行N列的，M指的是输入特征维度，N表示时间序列的长度；

S52：在输入矩阵的基础上，使用多种尺寸不同的卷积核，卷积核的尺寸为W行N列，其中N与输入矩阵的列数保持一致，W的大小可变；这些大小不同的卷积核被用来提取输入矩阵不同方面的特征，分别与输入矩阵进行卷积操作后得到若干个特征图；本模型使用的是一维卷积运算(TextCNN模型)；

S53：尺寸不同的特征图经过最大池化层，得到尺寸统一的特征图向量，依次拼接在一起，使得最终得到的特征向量的长度与输入矩阵的长度保持一致；池化层的目的是在卷积层的基础上，进一步对特征向量进行降维，有利于模型提高泛化能力和鲁棒性；经池化层后得到的每一个向量都代表着所在时间段的特征，模型就能捕获多个不同层次的特征；

7.根据权利要求6所述的一种基于多源数据驱动的钢铁企业高炉煤气预测方法，其特征在于：所述步骤六还包括：S61：将S5中TextCNN模型和GRU模型得到的煤气量预测值输入多层感知机模型中，利用集成学习的思想，综合卷积神经网络和循环神经网络得到的不同层次的特征，降低模型预测的误差率，同时提高了模型预测结果的稳定性；两个模型的预测值输入一个单层的线性层中，再加入非线性激活函数，使得特征向量的维度降为1，即实现从特征向量到真实预测值的映射过程；非线性激活函数ReLU的公式如下：

ReLU(x)＝max(0，x)

其中m代表训练数据的数量，

代表每次的预测值，