CN111950854A

CN111950854A - 一种基于多层神经网络的焦炭质量指标预测方法

Info

Publication number: CN111950854A
Application number: CN202010675306.2A
Authority: CN
Inventors: 芦建文; 王宏; 卢培山; 江鑫; 王勇; 付利俊; 贾晓宗; 欧宇星; 资金凯
Original assignee: Dalian Zhihui Marine Software Co ltd; Baotou Iron and Steel Group Co Ltd
Current assignee: Dalian Zhihui Marine Software Co ltd; Baotou Iron and Steel Group Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-11-17
Anticipated expiration: 2040-07-14
Also published as: CN111950854B

Abstract

本发明公开了一种基于多层神经网络的焦炭质量指标预测方法，属于工业信息技术领域。采用工业实际生产数据，首先对数据进行清洗，采用梯度增强树对影响焦炭质量指标的因素进行相关性分析，选择出与灰分、硫分、M₁₀、M₄₀、CRI和CSR等最相关的变量，进而构建训练样本，建立多层神经网络预测模型来对焦炭质量指标进行预测，并采用智能优化算法对模型中的变量进行优化，给出最终的焦炭质量指标预测结果。本发明能够对焦炭质量指标进行高精度预测，满足工业生产需求，并为后续生产提供数据支撑和指导，亦可推广到其他焦化产品行业。

Description

一种基于多层神经网络的焦炭质量指标预测方法

技术领域

本发明具体涉及一种基于多层神经网络的焦炭质量指标预测方法，属于工业信息技术领域。

背景技术

焦炭作为钢铁工业生产过程中的一种重要的固体燃料，是由煤在高温条件下经干馏等工艺获得的。目前，焦化厂的配煤基本是以肥煤和焦煤等优质炼焦煤为主，其中国内焦煤加肥煤的最大配比超过了80％，弱黏煤不足5％甚至不配弱黏煤(王帅.(2018).炼焦煤分析及焦炭质量预测的研究.(Doctoral dissertation))。而从现有生产工艺与我国煤炭资源分布来看，气煤、1/3焦煤等弱黏煤和中黏煤作为炼焦过程中的优质煤种，其储量和产量相对较大，但在实际炼焦生产中配比偏低，造成了优质炼焦煤供不应求。因此，从能源的可持续利用和国家战略发展的角度来看，更加科学的统筹与规划炼焦煤资源的开发和利用，以及加强对稀缺煤种的保护与开采，成为了亟待解决的关键技术问题。

此外，由于近年来我国钢铁产量逐年攀升，焦炭作为高炉炼铁的主要原料，其需求量也急剧增加，导致了焦炭产能的扩张对炼焦煤需求量的大幅度上升，出现了优质炼焦煤资源供应紧张、价格偏高的现象。企业炼焦煤来源矿点较多且其质量波动较大，使得焦炭质量的稳定性降低，这也给高炉的冶炼带来不利影响。因此，准确预测焦炭的质量，成为了焦化行业急需解决的问题。

鉴于此，国内外的研究者对焦炭质量的预测模型提出了各种不同的预测方法(Zhang,Q.,Wu,X.,Feng,A.,&Shi,M..(2004).Prediction of coke quality atbaosteel.Fuel Processing Technology,86(1),1-11) (Golovko,M.B.,Drozdnik,I.D.,Miroshnichenko,D.V.,&Kaftan, Y.S..(2012).Predicting the yield of cokingbyproducts on the basis of elementary and petrographic analysis of the coalbatch.Coke and Chemistry,55(6),204-214)，所建模型的差异性也较大，其根本原因在于各焦化企业入炉煤质量各不相同以及每个焦化企业的炼焦工艺及炼焦操作条件互有差异，因此现有的模型无法直接满足钢厂的实际生产。

发明内容

因此，本发明目的是提供一种基于多层神经网络的焦炭质量指标预测方法，解决钢铁企业焦炭生产过程中的质量指标预测问题。方法使用采集自现场的实际工业数据，首先对数据进行数据清洗；使用梯度增强树模型进行各因素的相关性分析，并构建训练集；最后本发明采用多层神经网络模型实现焦炭质量指标的准确预测。

具体的，本发明提供的基于多层神经网络的焦炭质量指标预测方法，具体步骤如下：

(1)由现场数据库采集历史配合煤指标、工业参数以及对应的焦炭各质量指标数据，经过数据清洗后作为基础数据样本；

(2)为减少预测模型的复杂度，降低相关性不强的因素对预测结果的影响，采用极限梯度增强树方法对各因素进行相关性分析，选择出与结果相关性较高的指标进行后续预测；

(3)对焦炭各质量指标建立多层神经网络(Multi-layer Neural Network) 模型，确定其输入层、隐含层数、隐含节点数以及输出层的确定；

(4)基于智能优化算法对模型中各变量参数进行优化，提高预测精度，并给出最终的预测结果。

本发明的有益效果在于：本发明克服了传统焦炭质量指标预测方法对机理依赖性过强、需假设线性关系以及平均精度较低的问题。首先基于梯度增强树对影响焦炭质量指标的因素进行相关性分析，进而筛选出最相关的变量，并基于多层神经网络对各质量指标进行预测。实验结果表明，其平均绝对误差与平均相对误差等指标均高于国家标准和企业标准，符合实际生产应用的需求。

附图说明

图1为相关性分析流程图

图2为数据处理与样本构建流程图

图3为质量指标预测的网络结构图

图4为本发明的总体流程图

图5(a)为相对焦炭灰分的特征重要性评估图

图5(b)为相对焦炭硫分的特征重要性评估图

图5(c)为相对焦炭M₁₀的特征重要性评估图

图5(d)为相对焦炭M₄₀的特征重要性评估图

图5(e)为相对焦炭CRI的特征重要性评估图

图5(f)为相对焦炭CSR的特征重要性评估图

图6为焦炭灰分预测值与测量值趋势图

图7为焦炭硫分预测值与测量值趋势图

图8为焦炭M₁₀预测值与测量值趋势图

图9为焦炭M₄₀预测值与测量值趋势图

图10为焦炭CRI预测值与测量值趋势图

图11为焦炭CSR预测值与测量值趋势图

具体实施方式

下面结合附图对本发明的具体实施方式进行说明：

本发明采用工业实际生产数据，首先对数据进行清洗，采用梯度增强树对影响焦炭质量指标的因素进行相关性分析，选择出与灰分、硫分、M10、M40、 CRI和CSR等最相关的变量，进而构建训练样本，建立多层神经网络预测模型来对焦炭质量指标进行预测，并采用智能优化算法对模型中的变量进行优化，给出最终的焦炭质量指标预测结果。本发明能够对焦炭质量指标进行高精度预测，满足工业生产需求，并为后续生产提供数据支撑和指导，亦可推广到其他焦化产品行业。

(1)影响焦炭质量指标的相关性分析

为了减少预测模型的复杂度，降低相关性不强的因素对预测结果造成的影响，对各因素进行相关性分析是十分有必要的。极限梯度增强树(Extreme Gradient BoostingTrees，EGBT)是一种集成学习算法，其通过提升训练多个弱分类器从而组成一个强健的分类/回归模型，每个弱分类器都由CART回归树构成。EGBT的思想是不断的训练新树来拟合之前树种群的预测残差，在训练完成后，将每棵树对应叶节点的分数汇总即得样本的预测值。极限梯度增强树的目标函数定义为：

其中：Obj表示目标函数，n表示样本数，y_i表示第i个样本的类别标签，

表示模型对训练样本的预测值，

表示为最终模型的预测误差，K表示树的数量，f_k表示第几个颗树，Ω(f_k)即为正则项表示第k棵树的复杂度。F为所有决策树代表的函数空间，，训练损失部分可写作

其中：

表示前(t-1)轮迭代时第i个样本的预测值，f_t(x_i)表示第t棵树对x_i的预测值。具体损失函数l往往取平方损失或逻辑损失。正则化函数定义为：

其中：Ω(f_t)即为正则项表示第t棵树的复杂度，T为叶节点个数，w_j表示各叶节点的分数，系数γ和λ分别为控制叶节点个数和叶节点分数的权重。

式(1)给出了EGBT方法的训练、扩充和分配方法，每一棵树的结构则遵循普通CART树的训练思想进行学习。将某次迭代后的集成模型定义如(4)所示：

其中：

表示模型对训练样本的预测值，K表示树的数量，f_k(x_i)表示第t棵树对x_i的预测函数。进而将公式一与公式四联立扩展，利用贪婪算法应用在前t 轮的模型迭代中，表示为式(5)：

其中：

表示前(t-1)轮模型预测，f_t(x_i)表示新t轮加入的预测函数。将公式五与公式一联立后改写，加入正则化函数公式三，第t轮极限梯度增强树的目标函数如公式(6)所示：

公式(6)近似展开成二阶项形式，表示为公式(7)：

其中：

const表示常量。

将树拆分成结构部分q和叶子权重部分w，其中结构函数q把输入映射到叶子的索引上，w给定每个索引号对应的椅子分数，则树的叶子节点值函数f_t(x) 表示为公式(8)：

f_t(x)＝w_q(x),w∈R^T,q:R^d→{1,2,…,T} (8)

公式(8)代入公式(7)，整理如公式(9)所示：

公式(9)进行简化，表示为公式(10):

其中：

公式(10)进行极值求解，可得叶子节点的最佳值

及此时目标函数的值 Obj^*，分别表示为公式(11)与公式(12)：

由公式(11)和公式(12)选出各个叶子节点的最佳值，相互比对相对应的目标函数值，选出树的最优结构，当整个模型训练完成后，统计各个输入特征在所有树节点中出现时所带来的分支信息增益来衡量其特征重要性，即可得到该特征与目标指标的相关性。其技术路线如图1所示。

(2)数据处理与样本构建

随着大量数据集的不断积累，我们可以对其进行数据挖掘，从中挖掘出隐含的先前未知的并具有潜在价值的信息。但大量学者在研究数据挖掘的过程中普遍发现：“数据存储丰富但难以提取有效信息”，究其原因有二，一是缺乏行之有效的数据分析技术，二是数据中存在许多异常数据。故进行数据清洗，剔除或纠正数据中的异常数据，是非常有必要的。

本模型采用现场获取的生产数据作为训练集和测试集样本。由于实际生产过程采集的数据比较复杂，存在错误数据(例如参数为0或负数)、缺失数据(有个别参数没有记录)和非典型数据(数据明显偏离正常值且很少出现)等“脏数据”，该数据不能作为训练样本和测试样本，必须剔除。操作包括删除错误数据、删除缺失数据、删除非典型数据等步骤。本项目基于焦炭生产工艺知识及焦化工程师长年累积的经验，初步建立数据清洗的规则，进而综合近期焦炭生产的实际情况，确定最终的样本数据清洗规则，如表1所示，将超过取值范围的数据全都清除。

表1样本数据取值范围

对数据进行处理之后，根据焦炭质量指标的相关性分析，基于样本权重构造训练集，即将各因素对结果的影响以权重的方式分配到训练集中，更加突出各因素对预测结果的不同影响。

在对训练集选取完毕之后，对数据进行归一化也是必不可少的。神经网络误差反向传播算法中权值的学习采用绝对误差平方和为指标函数，各个输入数据之间量纲往往不同，这势必造成各神经元在学习中收敛的不平衡性。例如配合煤细度的数值在65-85之间，而配合煤的硫分在0.6-1.3之间，两者在数值上差了几十倍，硫分的数值信息会被大数值信息所“淹没”。为了防止该情况发生，可以通过尺度变换，将所有参数取值的都变换到[-1，1]的区间内，从而使得网络训练一开始就给各输入分量以同等重要的地位。对于网络的输入、输出数据，都需要进行归一化，具体的公式如下所示：

式中a、b为常量，X_max、X_min为每组因子变量的最大值和最小值。X、X′为每组因子变量归一化前和归一化后的值。由于网络的输出是归一化后的输出值，因而在模型工作过程中，对网络输出依据公式

进行反归一化换算。式中a、b与归一化公式的a、b同值，X_max、X_min为输出样本的最大值和最小值，与公式四中的X_max、X_min同值，X′₁、X₁为网络输出的归一化值和反归一化值，即X₁为网络模型的最终输出。数据处理与样本构建的流程图如图2所示。

(3)基于多层神经网络的焦炭质量指标预测

由于炼焦过程中存在复杂的化学反应，焦炭质量指标与配合煤的指标之间存在较强的非线性关系，无法直接用线性函数表示，也无法直接基于工艺过程构建机理模型。目前生产过程信息化程度较高，现场数据库中存有大量配合煤指标、工艺过程参数、焦炭质量指标等的测量数据。因此，可采用基于数据的方法来对该反应过程建模，并预测对应的质量指标。

目前，基于数据的机器学习预测方法已有许多研究，如线性回归模型、BP 神经网络、支持向量机等。其中，BP神经网络由于其自学习能力强、能以任意精度逼近一个非线性函数的优点而被广泛应用于数据预测领域。针对炼焦过程具有复杂的非线性关系的特点，本项目采用多层BP神经网络模型来进行质量指标的预测。

通过多层神经网络建立焦炭质量指标预测模型的主要步骤如下：

步骤1：输入层和输出层的确定

输出层确定为焦炭质量指标，即焦炭灰分、硫分、M₁₀、M₄₀、CRI、CSR。对于输入层，根据不同的质量指标，采用极限梯度增强树对输入参数进行相应的特征选择，选取相关性强的指标作为多层神经网络模型的输入。

步骤2：隐含层数和隐节点数的确定

增加神经网络隐含层数，可以降低误差，拟合更加复杂的函数关系，但同时也会增加训练时间和出现“过拟合”的概率。通过多次实验，确定隐含层数为3层。隐含层节点的个数取决于训练样本数、样本噪声大小以及样本中蕴涵规律的复杂程度。确定隐含层节点数常用的方法是试凑法，该方法常采用经验公式

式中，I为输入层神经元的个数，K为输出层神经元的个数。神经网络模型的最佳隐含层节点数一般会落入区间[2,2J+3]。在每次训练中，设定一个固定的训练周期，分别使用不同的隐含层节点，训练模型之后检验模型，比较每次获得的目标误差，找出最佳隐含层节点数。最终，确定三个隐含层的节点数目分别为10、8、5。

步骤3：转移函数的选择

转移函数用于对求和单元的计算结果进行函数运算，进而得到神经元的输出。模型采用sigmoid和purelin函数作为转移函数，tan-sigmoid可以将神经元的输入范围从(-∞,+∞)映射到(-1,1)，log-sigmoid可以将神经元的输入范围从(-∞,+∞)映射到(0,1)，purelin为线性函数。本发明综合运用这些转移函数来处理和逼近输入和输出的非线性关系。

步骤4：动量项参数的选择

动量项参数的选择范围为0.1～0.9，其值的确定可以通过对比实验来实现；即在模型建立过程中应用样本数据，动量每次递增0.1，其它条件不变进行测试，取测试效果最好的值。

综上，本发明所提的焦炭质量指标预测模型的基本结构如图3所示，计算流程如图4焦炭质量预测流程图所示。各因素分析结果如图5(a)-图5(f)所示，质量指标的预测效果与误差分别如图6-图11所示，预测精度统计如表2所示。其中精度统计指标平均绝对误差(MAE)的计算公式为

其中，T为计算长度，y(t)为预测值，y_d(t)为真实测量值。

表2预测结果精度统计

质量名称	国家标准	企业标准	预测结果(MAE)
				灰分	0.2	0.15	0.10
硫分	0.05	0.02	0.01
				M<sub>10</sub>	1.0	0.5	0.03
M<sub>40</sub>	3.0	1.0	0.20
				CRI	2.4	0.5	0.39
CSR	3.2	0.5	0.47

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多层神经网络的焦炭质量指标预测方法，其特征在于，所述方法具体包括：

步骤一由现场数据库采集历史配合煤指标、工业参数以及对应的焦炭各质量指标数据，经过数据清洗后作为基础数据样本；

步骤二采用极限梯度增强树方法对各因素进行相关性分析，选择出与结果相关性较高的指标进行后续预测；

步骤三对焦炭各质量指标建立多层神经网络模型，确定其输入层、隐含层数、隐含节点数以及输出层的确定；

步骤四基于智能优化算法对模型中各变量参数进行优化，提高预测精度，并给出最终的预测结果。

2.如权利要求1所述的基于多层神经网络的焦炭质量指标预测方法，其特征在于，所述方法中相关性分析具体为：

对各因素进行极限梯度增强树相关性分析，通过提升训练多个弱分类器从而组成一个强健的分类/回归模型，每个弱分类器都由CART回归树构成，极限梯度增强树不断的训练新树来拟合之前树种群的预测残差，在训练完成后，将每棵树对应叶节点的分数汇总即得样本的预测值，极限梯度增强树的目标函数定义如公式一所示：

表示模型对训练样本的预测值，

表示为最终模型的预测误差，K表示树的数量，f_k表示第几个颗树，Ω(f_k)即为正则项表示第k棵树的复杂度。F为所有决策树代表的函数空间，训练损失部分如公式二所示

其中：

表示前(t-1)轮迭代时第i个样本的预测值，f_t(x_i)表示第t棵树对x_i的预测值。损失函数l取平方损失或逻辑损失，正则化函数定义为公式三：

具体实施方式如下：公式一给出了EGBT方法的训练、扩充和分配方法，每一棵树的结构则遵循普通CART树的训练思想进行学习。将某次迭代后的集成模型定义如公式四所示：

其中：

表示模型对训练样本的预测值，K表示树的数量，f_k(x_i)表示第t棵树对x_i的预测函数。进而将公式一与公式四联立扩展，利用贪婪算法应用在前t轮的模型迭代中，表示为公式五：

其中：

表示前(t-1)轮模型预测，f_t(x_i)表示新t轮加入的预测函数。将公式五与公式一联立后改写，加入正则化函数公式三，第t轮极限梯度增强树的目标函数如公式六所示：

公式六近似展开成二阶项形式，表示为公式七：

其中：

const表示常量。将树拆分成结构部分q和叶子权重部分w，其中结构函数q把输入映射到叶子的索引上，w给定每个索引号对应的椅子分数，则树的叶子节点值函数f_t(x)表示为公式八：

f_t(x)＝w_q(x),w∈R^T,q:R^d→{1,2,…,T} 公式八

公式八代入公式七，整理如公式九所示：

公式九进行简化，表示为公式十:

其中：

公式十进行极值求解，可得叶子节点的最佳值

及此时目标函数的值Obj^*，分别表示为公式十一与公式十二：

由公式十一和公式十二选出各个叶子节点的最佳值，相互比对相对应的目标函数值，选出树的最优结构，当整个模型训练完成后，统计各个输入特征在所有树节点中出现时所带来的分支信息增益来衡量其特征重要性，即可得到该特征与目标指标的相关性。

3.如权利要求2所述的基于多层神经网络的焦炭质量指标预测方法，其特征在于，所述方法中数据清洗后作为基础数据样本具体包括：

采用现场获取的生产数据作为训练集和测试集样本，剔除数据操作包括删除错误数据、删除缺失数据、删除非典型数据，将超过取值范围的数据全都清除；

对数据进行处理之后，根据焦炭质量指标的相关性分析，基于样本权重构造训练集，即将各因素对结果的影响以权重的方式分配到训练集中；

在对训练集选取完毕之后，对数据进行归一化，通过尺度变换，将所有参数取值的都变换到[-1，1]的区间内，从而使得网络训练一开始就给各输入分量以同等重要的地位，对于网络的输入、输出数据，都进行归一化，具体的公式如公式十三所示：

式中a、b为常量，X_max、X_min为每组变量的最大值和最小值，X、X′为每组变量归一化前和归一化后的值，由于网络的输出是归一化后的输出值，因而在模型工作过程中，对网络输出依据公式十四进行反归一化换算，

式中a、b为常量，与公式四的a、b同值，X_max、X_min为输出样本的最大值和最小值，与公式四中的X_max、X_min同值，X′₁、X₁为网络输出的归一化值和反归一化值，即X₁为网络模型的最终输出。

4.如权利要求3所述的基于多层神经网络的焦炭质量指标预测方法，其特征在于，所述方法中步骤三具体包括：

采用基于数据的方法来对该反应过程建模，并预测对应的质量指标，具体采用多层BP神经网络模型来进行质量指标的预测，

步骤三一：输入层和输出层的确定

输出层确定为焦炭质量指标，即焦炭灰分、硫分、M₁₀、M₄₀、CRI、CSR，对于输入层，根据不同的质量指标，采用极限梯度增强树对输入参数进行相应的特征选择，选取相关性强的指标作为多层神经网络模型的输入；

步骤三二：隐含层数和隐节点数的确定

确定隐含层和隐节点数采用试凑法，采用公式十五

式中，I为输入层神经元的个数，K为输出层神经元的个数，神经网络模型的最佳隐含层节点数一般会落入区间[2,2J+3]，在每次训练中，设定一个固定的训练周期，分别使用不同的隐含层节点，训练模型之后检验模型，比较每次获得的目标误差，找出最佳隐含层数和隐节点数；

步骤三三：转移函数的选择

转移函数用于对求和单元的计算结果进行函数运算，进而得到神经元的输出，模型采用sigmoid和purelin函数作为转移函数，tan-sigmoid可以将神经元的输入范围从(-∞,+∞)映射到(-1,1)，log-sigmoid可以将神经元的输入范围从(-∞,+∞)映射到(0,1)，purelin为线性函数，运用这些转移函数来处理和逼近输入和输出的非线性关系；

步骤三四：动量项参数的选择