CN111126490B

CN111126490B - 一种基于深度随机森林的钢板板形异常识别方法

Info

Publication number: CN111126490B
Application number: CN201911356131.2A
Authority: CN
Inventors: 刘强; 常学敏
Original assignee: 东北大学
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2023-10-31
Anticipated expiration: 2039-12-25
Also published as: CN111126490A

Abstract

本发明提供一种基于深度随机森林的钢板板形异常识别方法，涉及钢板板形异常识别技术领域，本发明首先采集钢板的厚度数据集和板形质量标签，计算钢板的相对厚度数据集，并对相对厚度数据集进行上采样或下采样，得到每一块钢板长度方向和宽度方向采样点一致的钢板，对相对厚度数据集进行归一化处理；然后以表征钢板的相对厚度的特征向量为输入、钢板的板形质量标签为输出，利用训练样本集以及验证样本集构建并训练基于深度随机森林的钢板板形异常识别模型，得到最优深度随机森林的模型；最后采集待检测钢板的厚度数据集，计算并将表征待检测钢板的相对厚度的特征向量输入最优深度随机森林模型，得到其板形质量标签。

Description

一种基于深度随机森林的钢板板形异常识别方法

技术领域

本发明涉及产品质量异常识别技术领域，尤其涉及一种基于深度随机森林的钢板板形异常识别方法。

背景技术

随着现代化工、石油、冶金、机械、物流等工业不断向大型化、复杂化和连续化方向发展，产品生产质量的识别分类也显得更加重要。在现代钢铁轧制生产过程中，钢板板形作为一种关键的产品质量指标，因此对钢板板形的异常识别也成为提高钢铁生产效率的重要步骤。在目前的钢板生产中，由于钢板生产过程工序繁多，得到的钢板板形易发生变形，产生板形故障。钢板板形由人工观察来进行标签标定，判断其板形出现的故障类型，然后决定对其进行下一步调整操作，这种人工观察检测所做出的判断决策主观性强，缺少客观定性定量的标准，易发生误报漏报的情况，影响工业生产效率与产品生产质量。因此对钢板板形进行准确的判断能够辅助现场工作人员的决策，及时对其进行下一步调整修复，对故障进行及时的处理，并且可以辅助工厂技术人员对生产过程进行故障诊断，有助于帮助生产系统定位故障原因及位置。

发明内容

针对现有技术存在的问题，本发明提供一种基于深度随机森林的钢板板形异常识别方法。

本发明的技术方案为：

一种基于深度随机森林的钢板板形异常识别方法，包括下述步骤：

步骤1：对厚板生产过程中剪切线工艺后的第k块钢板进行厚度采样测量，得到第k块钢板的厚度数据集H_k＝{h_k(i,j),i∈{1,2,...,M},j∈{1,2,...,N_k}}，并采集第k块钢板的板形质量标签y_k；

其中，k∈{1,2,...,S}，S为钢板的总块数，h_k(i,j)为第k块钢板在采样点(i,j)处的厚度，i为钢板宽度方向上的采样点序号，j为钢板长度方向上的采样点序号，M为钢板宽度方向上的采样点总数，N_k为第k块钢板长度方向上的采样点总数，N_k与第k块钢板的长度成正比；钢板故障类型y_k∈{0,1，2}，y_k＝0代表第k块钢板出现除中浪以外故障的钢板，y_k＝1代表第k块钢板是无异常的钢板，y_k＝2代表第k块钢板是出现中浪故障的钢板；

步骤2：对钢板数据进行预处理；

步骤2.1：计算第k块钢板的初始相对厚度数据集C_k＝{c_k(i,j),i∈{1,2,...,M},j∈{1,2,...,N_k}}；其中，c_k(i,j)为第k块钢板在采样点(i,j)处的相对厚度，为第k块钢板的目标厚度；

步骤2.2：对于第k块钢板长度方向上的采样点总数N_k，将其处理为同样长度的采样点数L，则第k块钢板进行采样点处理后的相对厚度数据集变为C_k＝{c_k(i,j),i∈{1,2,...,M},j∈{1,2,...,L}}；当第k块钢板长度方向上的采样点总数N_k>L时，对其采用B样条插值的下采样，将第k块钢板长度方向上的采样点总数N_k采样成L个采样点；当第k块钢板长度方向上的采样点总数N_k<L时，对其采用B样条插值的上采样，将第k块钢板长度方向上的采样点总数N_k采样成L个采样点；当第k块钢板长度方向上的采样点总数N_k＝L时，直接取其采样点总数L；

步骤2.3：将第k块钢板进行采样点处理后的相对厚度数据集C_k＝{c_k(i,j),i∈{1,2,...,M},j∈{1,2,...,L}}归一化处理，归一化处理后的相对厚度数据集中0≤c_k(i,j)≤1；

步骤3：构造钢板板形质量样本集C＝{C₁,C₂,...C_k,...,C_S}，其中C_k＝{c_k(i,j),i∈{1,2,...,M},j∈{1,2,...,L}}，其中S为钢板总数，构造钢板板形相对厚度数据集对应的标签集Y＝{y₁,y₂,...,y_k,...,y_S}，y_k为表征第k块钢板的质量标签，y_k∈{0,1，2}；

步骤4：从钢板板形质量样本集C中选取样本构成训练样本集R，以表征钢板的相对厚度的数据集作为特征矩阵作为输入，钢板的板形质量标签为输出，利用训练样本集R构建并训练基于深度森林的钢板板形质量异常识别模型；

步骤4.1：划分数据集，将钢板板形质量样本集C划分为训练集R、验证集V以及测试集T三部分；

其中，训练集R用于模型的构建；验证集V在模型的构建过程中用于验证模型，辅助模型的构建，防止出现过度拟合；测试集T用于检测模型的构建，用于评估模型准确率，测试模型的泛化能力；

步骤4.2：搭建准确分类钢板板形的深度随机森林模型网络：

步骤4.2.1：判断输入特征是否为高维度，是否在时间或者空间上具有约束关系；若输入特征具备以上任一特征性，则选择在架构模型时，首先将原始输入特征经过多窗口扫描结构，将多窗口扫描结构得到的特征向量输入下一个结构级联结构，再进行异常识别；否则直接进入步骤4.2.3，进行异常识别；

步骤4.2.2：多窗口扫描结构：原始输入特征向量为E＝S*M*L，其中S为钢板总数，M为钢板宽度方向上的采样点总数，L为钢板长度方向上经过上采样或下采样得到的一致的采样点总数；窗口扫描维度为q*q，经过滑动窗口扫描后，得到N＝S*[(M-q+1)*(L-q+1)]个q*q的特征矩阵；

定义决策树组成的森林，选择s₁种不同类型的随机森林，每一种类型森林为l个，即一共有n₁＝s₁*l个森林，将窗口扫描N个q*q的特征矩阵输入森林，得到N*n₁个3维类向量，其中3为厚板分类标签为y_k∈{0,1，2}三类；

将这N*n₁个3维的类向量连接起来，即得到比原始输入的特征向量维度更高的特征向量E＝N*n₁*3维；

步骤4.2.3：若是未满足输入特征满足高维度，或在时间或空间上有约束关系的任一约束条件，则不使用多窗口扫描结构，直接将原始特征向量E＝S*M*L作为级联结构的输入；

级联森林的每一层都是由决策树组成的森林构成，将特征向量输入级联层A_n，其中，n表示森林所属层数，每一层森林都由不同类型的随机森林组成，A_n＝{f₁*g₁,f₂*g₂,...,f_t*g_t}，其中，f_t表示第t种随机森林，g_t表示第t种随机森林的个数，f_t＝{r₁,r₂,...,r_m}，其中，t表示第t种随机森林，m表示第t个森林里决策树的总数；

输入到级联森林的特征向量E，经过第一层森林，特征向量转换为E₁＝n*l*3+E维度，然后作为下一层的输入特征向量，直到最后一层级联A_n，因为决策树是在特征空间中不断划分子空间，并且给每个子空间打上标签，每一个森林输出三维的类向量，即每个森林的每棵决策树会根据样本所在的子空间中训练样本的类别占比生成一个类别的概率分布h_p＝{(x₁％,y₁％,z₁％),(x₂％,y₂％,z₂％),...,(x_m％,y_m％,z_m％)}，其中，p表示第p个随机森林，m表示第p个森林里决策树的总数，x_m％表示第一个类别的概率，y_m％表示第二个类别的概率，z_m％表示第三个类别的概率，然后对森林内所有树的各类比例取平均其中f_p表示第p个随机森林的输出三维类向量，x_p％表示第p个随机森林输出的第一个类别的概率，y_p％表示第p个随机森林输出的第二个类别的概率，z_p％表示第p个随机森林输出的第三个类别的概率，得到整个森林对各类的比例，最后对所有的森林输出的各类比例取平均，其中，w表示最后一层级联的随机森林的总数，再对其取最大值，MAX＝max{F}＝max{(x％,y％,z％)}，得到概率最大的类别；

为了降低过拟合与欠拟合风险，每个森林产生的类向量由K折交叉验证产生，每个实例都将被用作K-1次训练数据，产生K-1个类向量，然后对其取平均值以产生作为级联中下一级的增强特征的最终类向量，在扩展一个新的级后，整个级联的性能将在验证集上进行估计，如果没有显著的性能增益，训练过程将终止；因此，级联中级的数量是自动确定的；

步骤4.3：用训练集R进行模型训练，调节超参数，同时在保存的深度随机森林模型中用验证集V进行模型验证测试，增加模型的泛化能力，经过训练调参，提高模型精确度；

步骤4.4：将精确度达到历史最高的训练模型进行保存，然后将测试数据集T作为模型输入，模型输出的测试集标签与原人工标签进行对比，得到模型的测试精确度，测试模型的泛化能力，检验模型对于新数据的分类能力。

步骤5：对厚板生产工艺剪切线工艺后的待检测钢板进行厚度采样测量，得到待检测钢板的厚度数据集，采用步骤2至步骤3方法，计算待检测钢板的相对厚度数据集，对相对厚度数据集进行上采样或下采样得到同样长度方向的采样点，并且对相对厚度数据集进行归一化，得到表征待检测钢板的相对厚度的特征向量D_test，将D_test输入训练后的钢板板形质量异常识别模型，输出待检测钢板的板形质量标签。

本发明的有益效果为：

本发明通过采集钢板的厚度数据集，经过上采样或下采样的钢板相对厚度数据集，构成表征钢板的相对厚度的特征向量，并以表征钢板的相对厚度的特征向量为输入、钢板的板形质量标签为输出，利用训练样本集构建并训练基于深度随机森林的钢板板形质量异常识别模型，能够对钢板板形质量进行有效检测，提高钢板板形质量异常检测的客观性、准确性和实时性。本发明利用多种决策树组成的深度随机森林挖掘多数据的特征而非传统地降维，充分发挥了级联森林数据挖掘能力强的优点；本发明能够快速精确的提取大数据特征并且训练模型超参数相较神经网络少的特点，能够训练得到更加精确的数据模型，有利于后面新数据的判定；本发明能够从众多的历史数据中挖掘自动学习提取出特征参数，能够辅助现场工作人员检测剪切线之后的钢板板形是否发生异常，且发生何种异常，从而决定这块钢板下面工序如何实施改善板形

附图说明

图1为本发明的基于深度随机森林的钢板板形质量异常识别方法的流程图；

图2为本发明实施例的基于深度随机森林的钢板板形异常识别方法的模型结构示意图；

图3为本发明实施例的基于深度随机森林的钢板板形异常识别方法的异常识别分类效果图。

具体实施方式

下面将结合附图和具体实施方式，对本发明作进一步描述。

一种基于深度随机森林的钢板板形异常识别方法，如图1所示，包括下述步骤：

本实施例中，采集剪切线后每块钢板的厚度数据为50维*(400～700)维的厚度数据，即宽度方向上固定为M＝50个采样点，长度方向的采样点数目N_k与钢板长度有关，400≤N_k≤700。本实施例共选取S＝16404块钢板的厚度数据和板形质量标签，其中4300块钢板是除中浪故障以外的异常钢板、8976块钢板是无异常故障发生钢板、3128块钢板是中浪故障异常钢板。

由于这些钢板是剪切线工艺后的钢板，钢板的边部以及头部位置部位可能由于剪切力发生部分变形，因此除上述采取采样点的方法，还可以通过实地考察根据现场工人的实际经验，考虑是否选择钢板边部和头尾部分的厚度数据。

步骤2：对钢板数据进行预处理；

本实施例中，由于长度方向的采样点数目N_k与钢板长度有关，400≤N_k≤700，N_k的大小不一致，因此本实施例中取L＝500,即每一块钢板若N_k>500，则通过下采样的方法，将其采样为500；若是N_k<500，则通过上采样的方法，将其采样为500,N_k＝500时，直接取其采样点总数500；经过这一步骤的数据预处理，所有的钢板长度方向的采样点数目都变为500，宽度方向依旧是每一块钢板为50，因此每块钢板的厚度数据都变为50维*500维的厚度数据；

本实施例中，在步骤2数据预处理后，每块钢板的厚度数据都变为50维*500维的归一化的厚度数据，全部的厚度数据就组成了钢板板形质量的样本集，同时厚板数据集对应的标签集也由0、1或2的数字标签组成。

深度森林(Deep Forest)是周志华教授和冯霁博士在2017年提出来的，是一种新的可以与深度神经网络相媲美的基于决策树的模型。相比深度神经网络，深度森林容易训练，计算开销小，天然适用于并行的部署，效率高，超参数少，模型对超参数调节不敏感，并且一套超参数可使用到不同数据集，可以适应于不同大小的数据集，模型复杂度可自适应伸缩，且每个级联的生成使用了交叉验证，避免过拟合，同时在理论分析方面也比深度神经网络更加容易。

本实施例中，按照训练比例p₁％、验证比例p₂％、测试比例p₃％对钢板板形质量样本集C进行随机分层采样，得到训练集R、验证集V和测试集T。本实施例中，p₁％＝50，p₂％＝30，p₃％＝20。

步骤4.2：搭建准确分类钢板板形的深度随机森林模型网络：

本实例中，厚板板形厚度数据集作为输入特征，并不具备高维度，并且在时间或者空间上也没有紧密的约束关系，因此在选择架构模型时，可以选择不经过多窗口扫描结构，直接将原始相对厚度数据集输入级联结构，也可以选择经过多窗口扫描结构，然后将多窗口扫描结构输出的特征向量输入级联结构。本实例采用了以上两种结构。

本实施例中，利用多窗口扫描的模型结构中，选择了窗口扫描维度为50维*50维，多窗口扫描结构中选择了完全随机森林与随机森林两种类型的森林，最后输出特征向量V；

输入到级联森林的特征向量E，经过第一层森林，特征向量转换为E₁＝n*l*3+E维度，然后作为下一层的输入特征向量，直到最后一层级联A_n，因为决策树是在特征空间中不断划分子空间，并且给每个子空间打上标签，每一个森林输出三维的类向量，即每个森林的每棵决策树会根据样本所在的子空间中训练样本的类别占比生成一个类别的概率分布h_p＝{(x₁％,y₁％,z₁％),(x₂％,y₂％,z₂％),...,(x_m％,y_m％,z_m％)}，其中，p表示第p个随机森林，m表示第p个森林里决策树的总数，x_m％表示第一个类别的概率，y_m％表示第二个类别的概率，z_m％表示第三个类别的概率，然后对森林内所有树的各类比例取平均其中f_p表示第p个随机森林的输出三维类向量，x_p％表示第p个随机森林输出的第一个类别的概率，y_p％表示第p个随机森林输出的第二个类别的概率，z_p％表示第p个随机森林输出的第三个类别的概率，得到整个森林对各类的比例，最后对所有的森林输出的各类比例取平均，其中，w表示最后一层级联的随机森林的总数,再对其取最大值，MAX＝max{F}＝max{(x％,y％,z％)}，得到概率最大的类别；

为了降低过拟合与欠拟合风险，每个森林产生的类向量由K折交叉验证产生，具体来说，每个实例都将被用作K-1次训练数据，产生K-1个类向量，然后对其取平均值以产生作为级联中下一级的增强特征的最终类向量，在扩展一个新的级后，整个级联的性能将在验证集上进行估计，如果没有显著的性能增益，训练过程将终止；因此，级联中级的数量是自动确定的；

本实施例中，级联结构的每一层级选择了四种基学习器，即四种类型的森林，增加结构的多样性。将训练得到的参数模型进行保存，以便之后的新数据输入来判断其标签，从而辅助现场人工的人眼检验以及下一步的板形改善工作。

本实施例中，得到的最优结构如图2所示。对预处理后的钢板板形数据作为原始数据输入模型，可以选择窗口扫描结构得到的特征向量输入到级联结构，也可以直接将预处理后的原始钢板板形数据输入级联结构，经过其自学习最后每种森林得到三种异常识别概率向量，再对其取平均取最大值概率，即此钢板板形属于的故障类别。

本实施例中，以三个特征属性生成的深度随机森林为例，对测试集的样本采用决策树组成的深度随机森林进行自学习训练，训练得到最优模型精确率为87.42％，将200个测试样本输入模型为例，得到的分类情况如图3所示，纵坐标为0表示无故障钢板，纵坐标为1表示除中浪外其它故障钢板，纵坐标为2表示中浪故障钢板。随后可以随时更新模型，将新的数据输入模型，输出区分三类样本。辅助现场工作人员进行钢板的分类，避免明显误分类情况的发生，对钢板进行及时的调整修复，辅助技术人员进行故障诊断，帮助生产系统定位故障原因及位置。

显然，上述实施例仅仅是本发明的一部分实施例，而不是全部的实施例。上述实施例仅用于解释本发明，并不构成对本发明保护范围的限定。基于上述实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，也即凡在本申请的精神和原理之内所作的所有修改、等同替换和改进等，均落在本发明要求的保护范围内。

Claims

1.一种基于深度随机森林的钢板板形异常识别方法，其特征在于，包括下述步骤：

步骤2：对钢板数据进行预处理；

步骤4.2：搭建准确分类钢板板形的深度随机森林模型网络：

步骤4.4：将精确度达到历史最高的训练模型进行保存，然后将测试数据集T作为模型输入，模型输出的测试集标签与原人工标签进行对比，得到模型的测试精确度，测试模型的泛化能力，检验模型对于新数据的分类能力；