CN113011491A

CN113011491A - 一种主成分分析协同随机森林的热连轧带钢宽度预测方法

Info

Publication number: CN113011491A
Application number: CN202110285167.7A
Authority: CN
Inventors: 丁敬国; 郭锦华; 李旭; 彭文; 孙杰; 张殿华
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-06-22

Abstract

本发明提供一种主成分分析协同随机森林的热连轧带钢宽度预测方法，涉及热连轧轧制过程控制技术领域。该方法首先确定热连轧生产线设备布置形式，并确定温度制度、轧机设备参数及轧制边界条件，根据生产线特征，确定需要采集的关于换钢种、换规格及换辊后的首块钢宽度的实测数据；并对采集的实测数据进行标准化处理；然后采用主成分分析法对标准化处理后的数据集进行降维处理及特征选择，并确定进行带钢宽度预测的随机森林宽度预测模型的输入变量；将基于主成分分析降维处理及特征选择后的数据集按照一定的比例划分为训练集与测试集，根据随机森林算法构建并训练随机森林宽度预测模型；并对随机森林宽度预测模型的预测精度进行评估。

Description

一种主成分分析协同随机森林的热连轧带钢宽度预测方法

技术领域

本发明涉及热连轧轧制过程控制技术领域，尤其涉及一种主成分分析协同随机森林的热连轧带钢宽度预测方法。

背景技术

板带宽度是带钢热连轧轧制过程中除厚度、板形等外一项极为重要的质量指标，宽度偏差每减小1mm，成材率就可提高0.1％，宽度精度的好坏严重地影响着带钢产品的质量与产量。良好的宽度精度不仅仅可以提高带钢产品的成材率、降低板带损耗率，更可以帮助热轧用户和后部工序创造优良的生产条件。精确的宽度控制对于带钢的产品质量具有重要意义，改进、寻求更加完善的宽度控制策略，提高带钢宽度控制精度已经成为当前轧钢领域研究的热点。日益激烈的全球竞争和钢铁行业的产能过剩危机对热轧带钢的生产技术和产品质量提出了更高的要求。

传统的热轧带钢宽度预测模型在进一步提高宽度预测精度上已经遇到了瓶颈，为了提高热连轧粗轧带钢宽度尺寸设定精度，国内外学者进行了大量的理论探索，提出了人工神经网络以及引入粒子群、朴素贝叶斯来优化神经网络等宽度预报方法，为板带材宽度尺寸精准控制技术的发展起到了积极的推动作用。但随着人工智能技术的快速发展，当前宽度预报模型已经不能满足当前生产力发展及下游企业对宽度尺寸精度的要求，主要原因是宽度控制过程存在非线性、复杂性、耦合性等特点，且人工神经网络虽已广泛应用于带钢宽度的控制和预测，但仍存在收敛速度慢、网络结构选择随机性大、易陷入局部极小值、网络泛化能力有限等缺点，从而限制了宽度预报精度的进一步提高。这就要求对热连轧粗轧生产过程的宽度预测算法进行探索，研究新的宽度预测控制方法。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种主成分分析协同随机森林的热连轧带钢宽度预测方法，提高热连轧粗轧带钢出口宽度预测精度，进而提高热连轧产品成材率。

为解决上述技术问题，本发明所采取的技术方案是：一种主成分分析协同随机森林的热连轧带钢宽度预测方法，包括以下步骤：

步骤1、确定热连轧生产线设备布置形式，并确定温度制度、轧机设备参数及轧制边界条件，根据生产线特征，确定需要采集的关于换钢种、换规格及换辊后的首块钢宽度的实测数据；

所述温度制度，包括：坯料出炉温度和钢板进入粗轧机组前的温度；所述轧机设备参数，包括：轧机最大轧制力、轧机最大力矩、轧机最大功率和轧机刚度；所述轧制边界条件，包括：环境温度、冷却水温度和轧辊温度；

步骤2、将所采集的关于换钢种、换规格及换辊后的首块钢宽度的实测数据进行标准化处理；

设定采集的关于换钢种、换规格及换辊后的首块钢宽度的实测数据中含有m个样本，每个样本有n个指标，且第i个样本对应的第j个指标为x_ij，于是构造成一个m×n维的矩阵X：

将采集的关于换钢种、换规格及换辊后的首块钢宽度的实测数据进行标准化，如下公式所示：

其中，

为第j个指标的样本均值，

为第j个指标的方差，i＝1、2、...、m，j＝1、2、...、n；得到标准化后的数据符合标准正态分布，即均值为0，方差为1；

将矩阵X中对应的指标变量进行标准化，如下公式所示：

其中，

为第j个指标变量的标准化数据；

步骤3、采用主成分分析法对标准化处理后的数据集进行降维处理及特征选择，并确定进行带钢宽度预测的随机森林宽度预测模型的输入变量；

步骤3.1、首先计算标准化后的数据集的协方差矩阵R＝(r_hw)_n×n如下公式所示：

其中，协方差

x_h，x_w分别指第h，w个指标变量，h＝1、2、...、n,w＝1、2、...、n；

分别为指标变量x_h、x_w对应的样本平均值；

步骤3.2、计算协方差矩阵R的特征值λ₁≥λ₂≥...≥λ_n≥0及对应的特征向量u₁,u₂,...,u_n，其中u_j＝(u_1j,u_2j,...,u_nj)^T，u_nj表示第j个特征向量的第n个分量；由n个特征向量组成n个新的指标变量y₁,y₂,...,y_n，如下公式所示：

步骤3.3、设定y₁是第1主成分，y₂是第2主成分,...,y_n是第n主成分；计算各主成分y_j的贡献率b_j及前g个主成分y₁,y₂,...,y_g的累计贡献率α_g：

步骤3.4、遵循特征值大于1，累计贡献率在85％～90％范围内的原则选取主成分，并根据所选择的主成分确定降维后的K个特征；并将确定的降维后的K个特征作为进行带钢宽度预测的随机森林宽度预测模型的输入变量；

步骤4、将基于主成分分析降维处理及特征选择后的数据集按照一定的比例划分为训练集与测试集，根据随机森林算法构建并训练随机森林宽度预测模型；

步骤4.1、首先将基于主成分分析降维处理及特征选择后的数据集按照一定的比例切分为训练集S和测试集C；

步骤4.2、采用随机抽样方法在训练样本集S中有放回地重采样，随机抽取s个样本，产生t个子训练集；

步骤4.3、分别对t个子训练集进行训练，生成相应的t个决策树，由此构成随机森林宽度预测模型；针对单棵决策树的叶节点选择属性，先从K个特征中随机提取k个特征作为该决策树的当前节点，并在k个特征中进行最佳分裂选择最优的切分点做左右子树划分；

步骤4.4、让每棵决策树在深度上不断地分枝，直到每棵决策树的叶节点所有特征属性都属于同一范围；在决策树生长过程中，不进行剪枝，使其得到最大限度的生长；将生成的多棵决策树组成随机森林，通过在训练集上的训练，得到随机森林宽度预测模型；

步骤4.5、最后，在测试集上应用训练得到的随机森林宽度预测模型，取所有决策树预测结果的均值作为随机森林宽度预测模型最终的预测结果，即得到热连轧带钢宽度的预测结果；

步骤5、对随机森林宽度预测模型的预测精度进行评估；

采用均方差MSE、平均绝对百分比误差MAPE和拟合决定系数R-squared来衡量随机森林宽度预测模型的准确度；

MSE公式为：

MAPE公式为：

R-squared的公式为：

其中，n表示样本数据的数量；Y⁽ⁱ⁾和

分别是第i个样本的测量值和预测值。

采用上述技术方案所产生的有益效果在于：本发明提供的一种主成分分析协同随机森林的热连轧带钢宽度预测方法，具有较好的可行性，实现了热连轧粗轧带钢宽度的高精度预测，应用到实际生产中可以提高成材率、减少损耗、提高企业效益。

附图说明

图1为本发明实施例提供的一种主成分分析协同随机森林的热连轧带钢宽度预测方法的流程图；

图2为本发明实施例提供的热连轧生产线设备布置示意图；

图3为本发明实施例提供的随机森林算法原理结构图；

图4为本发明实施例提供的带钢平均出口宽度不同预测模型的精度值对比图；

图5为本发明实施例提供的带钢平均出口宽度不同预测模型的预测误差频率直方图，其中，(a)为PCA-RF带钢平均出口宽度模型预测误差直方图，(b)为PCA-SVR带钢平均出口宽度模型预测误差直方图，(c)为PCA-KNN带钢平均出口宽度模型预测误差直方图；

图6为本发明实施例提供的PCA-RF各道次出口宽度模型预测误差频率直方图，其中，(a)为PCA-RF带钢第一道次出口宽度模型预测误差频率直方图，(b)为PCA-RF带钢第三道次出口宽度模型预测误差频率直方图，(c)为PCA-RF带钢第五道次出口宽度模型预测误差频率直方图；

图7为本发明实施例提供的PCA-RF各道次出口宽度模型真实值与预测值对照图，其中(a)为PCA-RF带钢第一道次出口宽度模型预测值与真实值对照图，(b)为PCA-RF带钢第三道次出口宽度模型预测值与真实值对照图，(c)为PCA-RF带钢第五道次出口宽度模型预测值与真实值对照图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例以热连轧机生产线为例，使用本发明的主成分分析协同随机森林(即PCA-RF)的热连轧带钢宽度预测方法对带钢换钢种、换规格及换辊后的首块钢出口宽度进行预测。

本实施例中，一种主成分分析协同随机森林的热连轧带钢宽度预测方法，如图1所示，包括以下步骤：

本实施例中，热连轧生产线设备布置形式如图2所示，坯料出炉温度为1200℃，钢板进入精轧机组前的温度为1050℃；确定的轧机设备参数为：轧机最大轧制力是30000kN、轧机最大力矩是2200kN.m、轧机最大功率是3800kW×2，轧机刚度是4800kN/mm；确定的轧制边界条件为：环境温度为30℃，冷却水温度为25℃，轧辊温度为80℃。本施例中基于热连轧生产线，采集带钢宽度在1100mm-1700mm之间的换钢种、换规格及换辊后的首块钢样本作为实测数据集，其中包括983组样本，52个参数特征，如表1所示。本实施例将数据参数分别从板坯、轧件、轧辊、温度、工艺几个类别划分，包括生产各个环节对带钢宽度的影响因素。本实施例中预测目标为换钢种、换规格及换辊后的首块钢平均出口宽度以及带钢第一、三、五道次出口宽度；

表1带钢宽度影响参数及类别

表中，R表示平辊，E表示立辊，字母后第一位数字表示平辊或立辊的序号，第二位数字表示轧制道次；

其中，

为第j个指标的样本均值，

将矩阵X中对应的指标变量进行标准化，如下公式所示：

其中，

为第j个指标变量的标准化数据；

本实施例中，为消除量纲影响，对采集的数据进行标准化处理。由于热连轧粗轧过程中带钢宽度主要由立辊、平辊控制，且受到温度影响较大，故将立辊开口度、水平轧制过程的宽展以及降温导致的收缩度直接作为模型的输入项，不再进行主成分分析。故需要进行标准化的数据参数个数为49，样本数量为983，即m＝983，n＝49，i＝1,2,...,983，j＝1,2,...,49；

步骤3.1、主成分分析，其本质是正交系坐标变换，首先计算标准化后的数据集的协方差矩阵R＝(r_hw)_n×n如下公式所示：

其中，协方差

分别为指标变量x_h、x_w对应的样本平均值；

本实施例中，协方差矩阵R的特征值按从大到小排序分别为：10.858、9.932、6.074、5.096、3.579、2.994、1.796、1.548、1.146、0.944。

步骤3.4、遵循特征值大于1，累计贡献率在85％～90％范围以内，并尽可能接近于85％的原则选取主成分，并根据所选择的主成分确定降维后的K个特征；并将确定的降维后的K个特征作为进行带钢宽度预测的随机森林宽度预测模型的输入变量；

本实施例中，各主成分贡献率b_j分别为：22.159、20.269、12.395、10.400、7.305、6.110、3.666、3.160、2.340、1.926；主成分累积贡献率α_g分别为：22.159、42.427、54.823、65.222、72.527、78.637、82.303、85.463、87.803、89.729，结果如表2所示；

表2主成分特征值和贡献率

根据表2，当主成分数为8时，其特征值为1.548(≥1)，主成分累计贡献率为85.463％(≥85％)，故选取前八个主成分所包含的信息代替全部数据的信息含量；由成分矩阵选择载荷值≥0.7的指标，提取出20个影响宽度的主要参数，其中包括最大宽度，目标宽度，最小宽度，定宽压力机出口宽度，板坯宽度，来料热态宽度，R2-1实际轧制力、R2-2实际轧制力、R2-3实际轧制力、R2-4实际轧制力、R2-5实际轧制力、R1-1辊缝，R2-1辊缝，R2-3辊缝，定宽压力机辊缝，最大入口温度，R2-4速度，R2-5穿带速度，R2-1压下量，E2-3压下量。将这20项变量与立辊开口度、水平轧制过程的宽展以及降温导致的收缩度同时作为随机森林宽度预测模型的输入项。

步骤4、将基于主成分分析降维处理及特征选择后的数据集按照一定的比例划分为训练集与测试集，根据如图3所示的随机森林算法构建并训练随机森林宽度预测模型；

本实施例中，按照7:3的比例将降维处理及特征选择后的数据集划分为训练集与测试集，则训练样本集S＝688，测试集样本C＝295；

步骤4.2、采用Bootstrap随机抽样方法在训练样本集S中有放回地重采样，随机抽取s个样本，产生t个子训练集；

步骤4.3、分别对t个子训练集进行训练，生成相应的t个决策树，由此构成随机森林宽度预测模型；针对单棵决策树的叶节点选择属性，先从K个特征中随机提取k个特征作为该决策树的当前节点，并在k个特征中进行最佳分裂选择最优的切分点做左右子树划分；本实施例中特征数为K＝23；

步骤4.4、让每棵决策树在深度上不断地分枝，直到每颗决策树中叶节点的所有特征属性都属于同一范围；在决策树生长过程中，不进行剪枝，使其得到最大限度的生长；将生成的多棵决策树组成随机森林，通过在训练集上的训练，得到随机森林宽度预测模型；

本实施例中，采用支持向量机回归算法(SVR)、K-最近邻算法(KNN)、随机森林算法(RF)分别建立PCA-SVR、PCA-KNN、PCA-RF带钢平均出口宽度预测模型，通过各个模型的R-squared值、预测误差进行对比验证，验证结果如图4、图5所示，从图可以看出，本发明的PCA-RF模型性能较好，具有较好的可行性。

同时，本实施例应用PCA-RF带钢宽度预测模型分别对带钢第一、三、五道次出口宽度进行预测，如图6、7所示，图6为PCA-RF模型对带钢各道次出口宽度预测误差频率直方图，图7为PCA-RF模型对带钢各道次宽度的预测值与真实值对照图。在线应用结果表明，换钢种、换规格及换辊后首块钢采用PCA-RF模型预测各道次出口宽度预测误差集中在-10mm～10mm之间，其中96％以上的样本点的预测误差在-5mm～5mm之间。

步骤5、对随机森林宽度预测模型的预测精度进行评估；

为评估模型预测值与实际值的偏差大小，本发明采用均方差(mean squarederror，即MSE)、平均绝对百分比误差(mean absolute percent error，即MAPE)和拟合决定系数(coefficient of determination，即R-squared)来衡量随机森林宽度预测模型的准确度。

MSE公式为：

MAPE公式为：

R-squared的公式为：

其中，n表示样本数据的数量；Y⁽ⁱ⁾和

分别是第i个样本的测量值和预测值。

为进一步验证PCA-RF模型的预测效果，本发明采用MSE、MAPE、R-squared函数对PCA-RF模型对带钢各道次出口宽度进行预测的预测精度进行评估，如表3所示，结果显示换钢种、换规格及换辊后首块钢各道次出口宽度预测模型的MSE值分布在8～11之间，MAPE值分布在0.1～0.2范围内，R-squared值控制在了99.9％～1范围内。

表3 PCA-RF模型宽度预测误差对照表

模型	MSE	MAPE	R-squared
				第一道次出口宽度	10.99863	0.16439	0.99936
第三道次出口宽度	8.72523	0.15887	0.99949
				第五道次出口宽度	8.16790	0.14038	0.99951

综上所述，本发明方法达到了预期成果，可以更精确地预测带钢粗轧的出口宽度，实现了带钢宽度的高精度预测。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。