CN114881307A

CN114881307A - 一种基于WOA优化LightGBM的钢铁成锭率预测方法

Info

Publication number: CN114881307A
Application number: CN202210440137.3A
Authority: CN
Inventors: 冯艺; 王楚晴; 封雯静; 刘逸辰
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-08-09

Abstract

本发明公开了一种基于WOA优化LightGBM的钢铁成锭率预测方法，包括数据收集，数据清洗，构建Light GBM回归模型，使用WOA优化LightGBM模型，模型训练，将待预测成锭率钢铁的特征数据输入训练好的WOA‑LightGBM模型中，得到该钢铁的成锭率预测值。本发明运用LightGBM模型，可以处理无时间序列关系的数据，使用WOA对LightGBM模型超参数进行优化，通过控制收缩包围机制的参数来控制模型依概率全局收敛，使得模型能更可靠地找到全局最优解、降低模型误差。

Description

一种基于WOA优化LightGBM的钢铁成锭率预测方法

技术领域

本发明属于钢铁成锭率预测技术领域，具体涉及一种基于WOA优化LightGBM的钢铁成锭率预测方法。

背景技术

钢铁成锭率是决定钢铁的综合成材率关键因素之一,现有研究主要依据带有时间序列的钢铁冶炼实时检测数据，预测钢铁某一具体的力学或化学性能，例如：利用使用PSO-LSTM模型，在具有时间序列关系的数据集上，根据拉速、碳含量、磷含量、硫含量等特征预测钢铁连铸胚力学性能。这种方法虽然能较好地预测钢铁的力学性能，但LSTM模型是一种时间递归神经网络，不适用处理不含时序关系的数据集；此外，已经有学者对PSO算法中粒子构成的马尔科夫链进行分析，从转移概率的角度证明了PSO算法不具有全局收敛性，因此使用该模型进行钢铁成锭率预测时容易陷入局部最优解、难以保证预测精度。

随着工业智能化的发展，提出一种能缩短冶炼产品研发周期、提高质量稳定性以及生产效率，适用于预测钢铁成锭率的方案是必要的。

发明内容

本发明的目的是针对现有的PSO-LSTM模型无法处理不含时序关系的数据集、PSO算法对于超参数的搜索不具备全局收敛性、易陷入局部最优解，导致现有模型不易找到全局最优解、进行预测的误差较高等问题，提出了一种更加适合处理不含时间序列关系的数据集、更容易跳出局部最优解、预测结果更加准确的钢铁成锭率预测方案。

为实现上述目的，本发明采用如下技术方案：

一种基于WOA优化LightGBM的钢铁成锭率预测方法，包括步骤如下：

步骤1数据收集；收集带有成锭率数值的若干个样本钢铁，以这些样本的特征数据作为样本集，提取待预测成锭率钢铁的特征数据；

步骤2数据清洗；对步骤1所述样本集中数据进行标准化、KS检验、异常值检测、缺失值填补和归一化处理；

步骤3构建WOA-LightGBM回归模型；根据GBDT算法构建决策树，使用直方图算法、带深度限制的叶子生长策略构建出Light GBM模型；使用WOA鲸鱼算法优化LightGBM，通过限制WOA算法中的参数A和C，使得模型能在训练时获得最优超参数；将步骤2清洗得到的样本数据输入WOA-LightGBM模型中进行训练，训练过程中采用K折交叉验证法，得到训练好的WOA-LightGBM模型；

步骤4将待预测成锭率钢铁的特征数据输入步骤3训练好的WOA-LightGBM模型中，得到该钢铁的成锭率预测值。

作为优选实施例，步骤1所述样本集、待预测成锭率钢铁的特征数据均包括：钢锭规格、废钢投入量、返回合金钢、碳素钢、结疤、短尺、白点、表面其他、Mo、Ni、Cr、Mn、C和Si共14个特征。

具体地，步骤2具体包括：

步骤2.1删除成锭率为1的样本，对数据标准化得到标准化数据集样本；

步骤2.2对标准化数据集样本进行KS检验；

步骤2.3对经过KS检验的数据集进行异常值检测，并清空异常数值；

步骤2.4对清空的数值进行缺失值填补；

步骤2.5对填补后的数据集进行归一化操作，最终得到清洗后的数据集。

进一步地，步骤2.3中对KS检验结果符合正态分布的特征，根据3σ原则检测异常值，将异常数值清空；对非正态分布的特征用四分位法进行异常值检测，将异常数值清空。

进一步地，步骤2.4的做法如下：用均值插补法对步骤2.3中数据集的特征数据进行缺失值处理，填补步骤2.3中清空的数值。

具体地，步骤3中限制WOA算法中的参数A和C的取值范围的方法是：先计算当前最优位置的和当前鲸鱼种群中一个解之间的距离向量的远近，根据距离向量大小使用不同的公式对参数A和C的值进行更新。

进一步地，步骤3中模型训练过程中采用K折交叉验证法，将加入类别特征以及土壤渗透率值的样本新特征数据集分成K个子集，将每个子集数据分别作为一次验证集，其余的K-1组子集数据作为训练集，这样进行K轮训练，得到训练好的WOA-LightGBM模型。

LightGBM是一种在GBDT算法上优化后的模型，效果卓越，已经应用在房价评估、用户流失情况、疾病预测等问题中。钢铁冶炼过程中难以实时检测出钢铁的多种力学性能指标，因此相关数据通常不包括时序关系，而LightGBM模型不需要数据集具有时序关系，且在处理高维数据时具有较好的效果，适用于钢铁成锭率预测问题。WOA是一种启发式算法，已有研究通过马尔科夫链证明了WOA算法中的收缩包围机制是决定鲸鱼优化算法是否收敛的关键因素，因此可以通过控制收缩包围机制的参数使得WOA全局收敛、寻找到全局最优解，WOA算法具有弥补PSO算法的能力。本发明使用WOA优化LightGBM的超参数，进一步提升模型的准确率。此外，针对LightGBM模型对数据噪声敏感的问题，本发明通过多种方法对数据进行异常处理，降低噪声对LightGBM模型的干扰。

使用WOA优化LightGBM进行钢铁成锭率预测，能在缺乏时间序列的情况下进行预测；模型使用WOA算法优化超参数，相比于原PSO算法能更可靠地找到全局最优解。本发明通过WOA进行超参数寻优，进一步提高了预测效果。

本发明的有益效果为：

本发明为钢铁成锭率的预测提供了一种处理无时间序列关系、能更可靠地找到全局最优解、预测效果更好的方法。本发明运用LightGBM模型，可以处理无时间序列关系的数据，使用WOA对LightGBM模型超参数进行优化，通过控制收缩包围机制的参数来控制模型依概率全局收敛，使得模型能更可靠地找到全局最优解、降低模型误差。此外，本发明在数据处理时，结合先验知识与多种方法剔除异常数据，降低了噪声对模型的影响，进一步降低模型误差。

附图说明

图1是本发明方法的流程；

图2是实施例中四分位法下钢铁成锭率非正态分布的特征数据的箱型图；

图3是WOA算法的收缩包围机制；

图4是WOA算法的螺旋更新位置机制；

图5是WOA-LightGBM的预测效果图；

图6是多个模型预测钢铁成锭率的均方根误差比较；

图7是多个模型预测钢铁成锭率的平均绝对误差比较；

图8是多个模型预测钢铁成锭率的平均绝对百分误差比较；

具体实施方式

如图1，本发明所述预测方法包括：

步骤1.数据收集。在钢铁成锭率数据集内筛选带有钢铁成锭率数值的样本，样本特征为钢锭规格(单位：吨，例如一炉钢投入24支钢钉)，废钢投入量(单位：％)，返回合金钢(单位：％，是一种钢铁厂生产过程中不成为产品的钢铁废料，一般都能直接装入炉内用于冶炼钢铁)，碳素钢(单位：％，一种铁碳合金)，结疤(钢材表面缺陷之一,表现为产品表面有疤状金属薄片，隐去单位)，短尺(钢锭表面质量的一个检查项目，指长度小于标准规定的不定尺长度下限、但不小于允许的最短长度，隐去单位)，白点(钢锭表面质量的一个检查项目，钢材或锻件内部的一种微裂纹，隐去单位)，表面其他(钢锭表面质量的一个检查项目，是一种钢材表面缺陷的名称，隐去单位)，Mo(化学元素Mo的含量，隐去单位)，Ni(化学元素Ni的含量，隐去单位)，Cr(化学元素Cr的含量，隐去单位)，Mn(化学元素Mn的含量，隐去单位)，C(化学元素C的含量，隐去单位)，Si(化学元素Si的含量，隐去单位)共14个特征，一共200条样本。生成样本集(F，y)＝[f₁,f₂,f₃,……,f₁₄,y]。F＝[f₁,f₂,f₃,……,f₁₄]为特征向量集，y是目标向量。选取部分样本数据展示如表1：

表1

步骤2.数据清洗

钢铁冶炼过程中，通常成锭率数值无法达到1，因此成锭率为1的样本为异常数据，采用简单剔除法删去,如表1中的样本15，对数据标准化得到新样本集，为标准化数据集样本。以表1为例，标准化数据集样本如表2：

表2

对上述表2所得的钢铁成锭率标准化数据集样本，进行KS检验。KS检验结果如表3所示：

表3

特征	pvalue	特征	pvalue
				钢锭规格	0.000000739	表面其他	0.061171093
废钢投入量	0.000023648	Mo	0.015705672
				返回合金钢	0.071811607	Ni	0.008786475
碳素钢	0.000208725	Cr	0.000050450
				结疤	0.005652619	Mn	0.001324739
短尺	0.000014218	C	0.000001375
				白点	0.000030607	Si	0.000052072

pvalue大于0.05的特征满足正态分布，满足正态分布的特征有返回合金钢、表面其他，不满足正态分布的特征有钢锭规格，废钢投入量，碳素钢，结疤，短尺，白点，Mo，Ni，Cr，Mn，C，Si共12个。对检验结果为正态分布的特征，根据3σ原则检测异常值：记样本集在特征j上的标准差为σ,均值为μ。由于特征j符合正态分布，因此特征j的数值分布在(μ-3σ,μ+3σ)中的概率为0.9974。对于超出(μ-3σ,μ+3σ)的数值进行清空。经检验，符合正态分布的特征返回合金钢含量和表面其他的对应数据中无异常数据，无需清空。

对非正态分布的特征用四分位法进行异常值检测，四分位法下钢铁成锭率非正态分布的特征数据的箱型图如图2所示。将异常数值清空：记样本集在特征j上的上四分位数为Q1，下四分位数为Q2，则有如下最大值与最小值边界：

其中，k可以取1.5或3。本实施例取1.5。据此求解得到特征j的上下边界，超出边界的数值清空，清空后结果如表4所示：

表4

其中NAN为被清空的数值，表示样本14的白点特征值、样本16的Si特征值、样本17的碳素钢、白点特征值出现异常，需要清除。

然后对所有清空的数值进行均值插补，用该属性有效值的平均值进行插补缺失值。以表4所列样本为例，经数值均值插补后的结果如表5所示：

表5

对表5的特征数据进行归一化处理。将所得的14个特征的样本数据缩放至

[0,1]范围。采用公式(2)：

其中，f_i ^(j)是第i个特征向量中第j个样本的特征值，f_i ^(j)′是归一化后的第i个特征向量的第j个样本的特征值，min(f_i)是第i个特征向量中元素的最小值，max(f_i)是第i个特征向量中元素的最大值。以表5样本为例，归一化后的数据如表6：

表6

步骤3.构建WOA-LightGBM回归模型

步骤3.1根据GBDT算法构建决策树。

假设数据集D＝{(x_i,y_i)|i＝1,2,...,n}，其中n表示样本个数，x_i表示第i个样本，每个样本有i个特征，y_i表示样本目标值。

首先，初始化弱学习器：根据公式(3)估计令损失函数极小化的常数值：

其中，L为损失函数；C为子区间的输出值，一般用均值，它使得估计的损失函数最小化；y_i为样本i的目标值，i＝1，2，…，n。

其次，模型迭代：令m表示迭代次数，最大值为M。根据公式(4)计算残差r_mi，根据残差更新目标值，L为损失函数，f_m-1(x)为前一次迭代的输出值：

根据残差r_mi拟合回归树，得到第m棵树的叶节点域R_mj，j＝1,2,3,...,J。其中，j表示叶节点个数。根据公式(5)计算每个区域输出值C，使得损失函数极小化：

然后根据公式(6)更新回归树：

其中I为指示函数，当回归树判定x∈m_j时，其值为1，否则为0。

最后，迭代M次后输出最终模型。

步骤3.2在此基础上，使用直方图算法、带深度限制的叶子生长策略等构建出Light GBM模型。

(1)直方图算法

将连续的浮点型特征离散化，得到L个整数，构造出宽度为L的直方图。模型在遍历数据时，使用离散化后的值作为索引在直方图中累积统计量。完成一次遍历后，在离散后的L个整数中寻找最优分裂点。

(2)带深度限制的叶子生长策略

每次分裂时，从当前所有叶子节点中选择分裂增益最大的叶子节点进行分裂，并设置一个最大深度max_depth。这能保证模型的效率，并可以防止过拟合。

步骤3.3.在此基础上，使用WOA优化LightGBM模型

采用WOA鲸鱼算法优化LightGBM，获得最优超参数，提高模型的精度，主要包括以下步骤：

步骤3.3.1初始化鲸鱼种群位置及参数；计算鲸鱼种群初始位置的参数值,初始化当前最优解；

初始化鲸鱼位置及参数：设定鲸鱼种群数量SearchAgents_no为30；以LightGBM模型中的最大深度max_depth、叶子的数量num_leaves、树叶上可以有的数据的最小数量mindatain_leaf作为WOA寻优的对象，设定个体维度dim为3；随机初始化或人为设定鲸鱼种群初始位置SearchAgentsPosition[SearchAgents_no，dim]；鲸鱼种群中的每个个体表示一个备选解，根据公式(7)计算当前鲸鱼种群中各个个体的初始适应度：

Fitness表示个体的适应度，y表示预测值，

表示真实值的均值，

表示真实值。R²表示了模型的拟合优度

选取当前所有个体中的最优解作为初始的最优解，以对应的适应度初始化最优适应度。

步骤3.3.2超参数寻优：迭代更新鲸鱼种群空间位置，每一轮中计算根据更新后的鲸群位置计算适应度，根据适应度变化情况确定下一代鲸鱼的位置；判断是否满足结束条件，如果满足则输出最优鲸鱼个体所对应位置以及对应的参数值，若不满足，继续迭代，直至满足预设条件，本模型中设定的预设条件为迭代次数达到最大迭代代数k或适应度达到0.8，这里k取500。

每次迭代时，在[0,1]之间随机取数p。

若p小于0.5，则WOA依据收缩包围机制搜索猎物，根据||A||大小使用不同方式更新鲸鱼个体的位置，A的计算公式如公式(8)所示：若||A||小于1，则WOA根据公式(10)更新鲸鱼个体的位置；若||A||若大于等于1，则随机选择一个当前鲸鱼种群中的个体，根据公式(11)更新鲸鱼位置：

表示系数向量，

刻画了鲸鱼游走的步长计算公式(8)：

其中，

和

是满足[0,1]中的随机向量；

在搜索过程中，由2线性递减到0，公式如(9)：

其中，t表示当前的迭代次数，T_max为最大的迭代次数。

其中，t表示当前迭代的次数；

表示从所有鲸鱼种群个体中随机选择的一个解；

刻画了表示迭代第t代时鲸鱼个体和随机选取的鲸鱼个体之间的距离向量的远近，

表示迭代第t代时鲸鱼个体的位置向量，

表示迭代第t+1代时鲸鱼个体的位置向量。

根据公式(11)更新鲸鱼种群的空间位置，效果如图3所示：

其中，t表示当前迭代的次数，

刻画了当前最优解和第t代种群中的一个解之间的距离向量的远近，

表示迭代第t代时鲸鱼个体的位置向量，

表示迭代第t+1代时鲸鱼个体的位置向量。

表示目前为止最好的鲸鱼位置向量d，

表示当前鲸鱼的位置向量。

由于WOA算法的全局收敛性受收缩包围机制的参数影响，因此对参数A和C进行控制：

CX^*(t)-X_i(t)>0时，要求系数A与C满足公式(12)，若不满足则重新取随机向量

和

其中，X^*(t)表示当前最优解，X_i(t)表示第i个解：

CX^*(t)-X_i(t)＜0时，要求系数A与C满足公式(13)，若不满足则重新取随机向量

和

其他情况的发生概率较小，因此不再考虑。

若p大于等于0.5，则WOA进行狩猎行为：

根据公式(14)更新鲸鱼个体的位置，如图4所示：

其中，

表示第i个搜索鲸鱼个体的位置到目标最优解的距离，b是常数，用于定义对数螺旋的形状，l是在[-1,1]上均匀分布的随机向量。

特别地，若更新后的特征超出特征合理范围，则取消对该特征的更新。

根据公式(7)，计算种群中所有个体的适应度。

选择当前适应度最大的解作为当前最优解，其适应度作为当前最优适应度。

判断是否满足结束条件,如果满足则输出最优鲸鱼个体所对应位置以及对应的参数值，若不满足,继续迭代,直至满足预设条件。

本发明中，约束条件为适应度大于0.8或迭代次数达到最大k，这里k取500。

步骤3.4模型训练

步骤3.4.1将清洗后的数据按照70％作为训练集，30％作为测试集进行划分。部分训练集与测试集如下所示，训练集前5个样本，如表7，测试集前5个样本，如表8。

表7

表8

步骤3.4.2采用K折交叉验证方式，将原始数据分成K组，将每个子集数据分别做一次验证集，其余的K-1组子集数据作为训练集，这样进行K轮训练，本实施例取K＝10。

步骤3.4.3输入测试集中的包含14个特征的数据，得到钢铁成锭率预测值。上述样本83、64、199、77、70通过模型预测得到的结果如表9所示：

表9

样本编号	真实值	预测值
			83	0.935	0.936
64	0.936	0.941
			199	0.928	0.937
77	0.946	0.944
			70	0.899	0.922

步骤4.模型评估

完成模型训练后，需要对模型的预测效果进行评估。本实施例主要采用均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分误差(MAPE)。公式如下：

其中，y为钢铁成锭率实际值，

为预测值，

为实际值的均值，m为样本个数。

图5是WOA-LightGBM的预测效果图。为了更好的评估模型效果，将模型的预测结果与已有方法进行比较，比较结果如表10。

表10

预测模型	RMSE	MAE	MSE
				LightGBM	0.0491	0.0372	0.0026
Gradient Boosting Regressor	0.0455	0.0333	0.0022
				Bayesian Ridge	0.0459	0.0362	0.0024
K Neighbors Regressor	0.0437	0.0332	0.0021
				AdaBoost Regressor	0.0444	0.0328	0.0022
PSO-LightGBM	0.0448	0.0340	0.0020
				WOA-LightGBM	0.0442	0.0323	0.0020

可见，根据均方根误差、平均绝对误差和平均绝对百分误差，本发明的WOA-LightGBM模型优于原LightGBM、贝叶斯岭回归、AdaBoost等模型，采用WOA-LightGBM回归融合的方式进行钢铁成锭率具有更好的准确性，如图6-8所示。本发明使用LightGBM模型作为基础模型，能够处理不含时间序列关系的数据；使用WOA算法，通过控制收缩包围机制的参数保证WOA算法的依概率收敛性，相比于原PSO算法能更可靠地找到全局最优解。且本发明通过多种异常检验方法，剔除异常数据，降低了噪声对LightGBM模型的干扰。本发明能提升钢铁成锭率的预测精度。

本发明的WOA-LightGBM模型能处理普通的、不含时序关系的数据，且WOA依概率全局收敛，可通过控制WOA算法的收缩包围机制的参数控制算法的收敛性，因此WOA-LightGBM比PSO-LSTM更能找到的最优解。

Claims

1.一种基于WOA优化LightGBM的钢铁成锭率预测方法，其特征在于，包括步骤如下：

步骤3构建WOA-LightGBM回归模型；根据GBDT算法构建决策树，使用直方图算法、带深度限制的叶子生长策略构建出LightGBM模型；采用WOA鲸鱼算法优化LightGBM，通过限制WOA算法中的参数A和C的取值范围，使得模型在训练时能够自动获得最优超参数；将步骤2清洗得到的样本数据输入WOA-LightGBM模型中进行训练，训练过程中采用K折交叉验证法，得到训练好的WOA-LightGBM模型；

2.根据权利要求1所述的一种基于WOA优化LightGBM的钢铁成锭率预测方法，其特征在于，步骤1所述样本集、待预测成锭率钢铁的特征数据均包括：钢锭规格、废钢投入量、返回合金钢、碳素钢、结疤、短尺、白点、表面其他、Mo、Ni、Cr、Mn、C和Si共14个特征。

3.根据权利要求1所述的一种基于WOA优化LightGBM的钢铁成锭率预测方法，其特征在于，步骤2具体包括：

步骤2.2对标准化数据集样本进行KS检验；

步骤2.4对清空的数值进行缺失值填补；

4.根据权利要求3所述的一种基于WOA优化LightGBM的钢铁成锭率预测方法，其特征在于，步骤2.3中对KS检验结果符合正态分布的特征，根据3σ原则检测异常值，将异常数值清空；对非正态分布的特征用四分位法进行异常值检测，将异常数值清空。

5.根据权利要求4所述的一种基于WOA优化LightGBM的钢铁成锭率预测方法，其特征在于，步骤2.4的做法如下：用均值插补法对步骤2.3中数据集的特征数据进行缺失值处理，填补步骤2.3中清空的数值。

6.根据权利要求1所述的一种基于WOA优化LightGBM的钢铁成锭率预测方法，其特征在于，步骤3中限制WOA算法中的参数A和C的取值范围的方法是：先计算当前最优位置的和当前鲸鱼种群中一个解之间的距离向量的远近，根据距离向量与零向量之间的大小关系，要求参数A和C的值满足不同的限制条件。

7.根据权利要求1所述的一种基于WOA优化LightGBM的钢铁成锭率预测方法，其特征在于，步骤3中模型训练过程中采用K折交叉验证法，将加入类别特征以及土壤渗透率值的样本新特征数据集分成K个子集，将每个子集数据分别作为一次验证集，其余的K-1组子集数据作为训练集，这样进行K轮训练，得到训练好的WOA-LightGBM模型。