CN111126490B - 一种基于深度随机森林的钢板板形异常识别方法 - Google Patents
一种基于深度随机森林的钢板板形异常识别方法 Download PDFInfo
- Publication number
- CN111126490B CN111126490B CN201911356131.2A CN201911356131A CN111126490B CN 111126490 B CN111126490 B CN 111126490B CN 201911356131 A CN201911356131 A CN 201911356131A CN 111126490 B CN111126490 B CN 111126490B
- Authority
- CN
- China
- Prior art keywords
- steel plate
- forest
- model
- kth
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 229910000831 Steel Inorganic materials 0.000 title claims abstract description 220
- 239000010959 steel Substances 0.000 title claims abstract description 220
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 103
- 239000013598 vector Substances 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000012795 verification Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims description 33
- 238000003066 decision tree Methods 0.000 claims description 21
- 238000004519 manufacturing process Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 230000005856 abnormality Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000010008 shearing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005272 metallurgy Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- General Factory Administration (AREA)
Abstract
本发明提供一种基于深度随机森林的钢板板形异常识别方法,涉及钢板板形异常识别技术领域,本发明首先采集钢板的厚度数据集和板形质量标签,计算钢板的相对厚度数据集,并对相对厚度数据集进行上采样或下采样,得到每一块钢板长度方向和宽度方向采样点一致的钢板,对相对厚度数据集进行归一化处理;然后以表征钢板的相对厚度的特征向量为输入、钢板的板形质量标签为输出,利用训练样本集以及验证样本集构建并训练基于深度随机森林的钢板板形异常识别模型,得到最优深度随机森林的模型;最后采集待检测钢板的厚度数据集,计算并将表征待检测钢板的相对厚度的特征向量输入最优深度随机森林模型,得到其板形质量标签。
Description
技术领域
本发明涉及产品质量异常识别技术领域,尤其涉及一种基于深度随机森林的钢板板形异常识别方法。
背景技术
随着现代化工、石油、冶金、机械、物流等工业不断向大型化、复杂化和连续化方向发展,产品生产质量的识别分类也显得更加重要。在现代钢铁轧制生产过程中,钢板板形作为一种关键的产品质量指标,因此对钢板板形的异常识别也成为提高钢铁生产效率的重要步骤。在目前的钢板生产中,由于钢板生产过程工序繁多,得到的钢板板形易发生变形,产生板形故障。钢板板形由人工观察来进行标签标定,判断其板形出现的故障类型,然后决定对其进行下一步调整操作,这种人工观察检测所做出的判断决策主观性强,缺少客观定性定量的标准,易发生误报漏报的情况,影响工业生产效率与产品生产质量。因此对钢板板形进行准确的判断能够辅助现场工作人员的决策,及时对其进行下一步调整修复,对故障进行及时的处理,并且可以辅助工厂技术人员对生产过程进行故障诊断,有助于帮助生产系统定位故障原因及位置。
发明内容
针对现有技术存在的问题,本发明提供一种基于深度随机森林的钢板板形异常识别方法。
本发明的技术方案为:
一种基于深度随机森林的钢板板形异常识别方法,包括下述步骤:
步骤1:对厚板生产过程中剪切线工艺后的第k块钢板进行厚度采样测量,得到第k块钢板的厚度数据集Hk={hk(i,j),i∈{1,2,...,M},j∈{1,2,...,Nk}},并采集第k块钢板的板形质量标签yk;
其中,k∈{1,2,...,S},S为钢板的总块数,hk(i,j)为第k块钢板在采样点(i,j)处的厚度,i为钢板宽度方向上的采样点序号,j为钢板长度方向上的采样点序号,M为钢板宽度方向上的采样点总数,Nk为第k块钢板长度方向上的采样点总数,Nk与第k块钢板的长度成正比;钢板故障类型yk∈{0,1,2},yk=0代表第k块钢板出现除中浪以外故障的钢板,yk=1代表第k块钢板是无异常的钢板,yk=2代表第k块钢板是出现中浪故障的钢板;
步骤2:对钢板数据进行预处理;
步骤2.1:计算第k块钢板的初始相对厚度数据集Ck={ck(i,j),i∈{1,2,...,M},j∈{1,2,...,Nk}};其中,ck(i,j)为第k块钢板在采样点(i,j)处的相对厚度, 为第k块钢板的目标厚度;
步骤2.2:对于第k块钢板长度方向上的采样点总数Nk,将其处理为同样长度的采样点数L,则第k块钢板进行采样点处理后的相对厚度数据集变为Ck={ck(i,j),i∈{1,2,...,M},j∈{1,2,...,L}};当第k块钢板长度方向上的采样点总数Nk>L时,对其采用B样条插值的下采样,将第k块钢板长度方向上的采样点总数Nk采样成L个采样点;当第k块钢板长度方向上的采样点总数Nk<L时,对其采用B样条插值的上采样,将第k块钢板长度方向上的采样点总数Nk采样成L个采样点;当第k块钢板长度方向上的采样点总数Nk=L时,直接取其采样点总数L;
步骤2.3:将第k块钢板进行采样点处理后的相对厚度数据集Ck={ck(i,j),i∈{1,2,...,M},j∈{1,2,...,L}}归一化处理,归一化处理后的相对厚度数据集中0≤ck(i,j)≤1;
步骤3:构造钢板板形质量样本集C={C1,C2,...Ck,...,CS},其中Ck={ck(i,j),i∈{1,2,...,M},j∈{1,2,...,L}},其中S为钢板总数,构造钢板板形相对厚度数据集对应的标签集Y={y1,y2,...,yk,...,yS},yk为表征第k块钢板的质量标签,yk∈{0,1,2};
步骤4:从钢板板形质量样本集C中选取样本构成训练样本集R,以表征钢板的相对厚度的数据集作为特征矩阵作为输入,钢板的板形质量标签为输出,利用训练样本集R构建并训练基于深度森林的钢板板形质量异常识别模型;
步骤4.1:划分数据集,将钢板板形质量样本集C划分为训练集R、验证集V以及测试集T三部分;
其中,训练集R用于模型的构建;验证集V在模型的构建过程中用于验证模型,辅助模型的构建,防止出现过度拟合;测试集T用于检测模型的构建,用于评估模型准确率,测试模型的泛化能力;
步骤4.2:搭建准确分类钢板板形的深度随机森林模型网络:
步骤4.2.1:判断输入特征是否为高维度,是否在时间或者空间上具有约束关系;若输入特征具备以上任一特征性,则选择在架构模型时,首先将原始输入特征经过多窗口扫描结构,将多窗口扫描结构得到的特征向量输入下一个结构级联结构,再进行异常识别;否则直接进入步骤4.2.3,进行异常识别;
步骤4.2.2:多窗口扫描结构:原始输入特征向量为E=S*M*L,其中S为钢板总数,M为钢板宽度方向上的采样点总数,L为钢板长度方向上经过上采样或下采样得到的一致的采样点总数;窗口扫描维度为q*q,经过滑动窗口扫描后,得到N=S*[(M-q+1)*(L-q+1)]个q*q的特征矩阵;
定义决策树组成的森林,选择s1种不同类型的随机森林,每一种类型森林为l个,即一共有n1=s1*l个森林,将窗口扫描N个q*q的特征矩阵输入森林,得到N*n1个3维类向量,其中3为厚板分类标签为yk∈{0,1,2}三类;
将这N*n1个3维的类向量连接起来,即得到比原始输入的特征向量维度更高的特征向量E=N*n1*3维;
步骤4.2.3:若是未满足输入特征满足高维度,或在时间或空间上有约束关系的任一约束条件,则不使用多窗口扫描结构,直接将原始特征向量E=S*M*L作为级联结构的输入;
级联森林的每一层都是由决策树组成的森林构成,将特征向量输入级联层An,其中,n表示森林所属层数,每一层森林都由不同类型的随机森林组成,An={f1*g1,f2*g2,...,ft*gt},其中,ft表示第t种随机森林,gt表示第t种随机森林的个数,ft={r1,r2,...,rm},其中,t表示第t种随机森林,m表示第t个森林里决策树的总数;
输入到级联森林的特征向量E,经过第一层森林,特征向量转换为E1=n*l*3+E维度,然后作为下一层的输入特征向量,直到最后一层级联An,因为决策树是在特征空间中不断划分子空间,并且给每个子空间打上标签,每一个森林输出三维的类向量,即每个森林的每棵决策树会根据样本所在的子空间中训练样本的类别占比生成一个类别的概率分布hp={(x1%,y1%,z1%),(x2%,y2%,z2%),...,(xm%,ym%,zm%)},其中,p表示第p个随机森林,m表示第p个森林里决策树的总数,xm%表示第一个类别的概率,ym%表示第二个类别的概率,zm%表示第三个类别的概率,然后对森林内所有树的各类比例取平均其中fp表示第p个随机森林的输出三维类向量,xp%表示第p个随机森林输出的第一个类别的概率,yp%表示第p个随机森林输出的第二个类别的概率,zp%表示第p个随机森林输出的第三个类别的概率,得到整个森林对各类的比例,最后对所有的森林输出的各类比例取平均,其中,w表示最后一层级联的随机森林的总数,再对其取最大值,MAX=max{F}=max{(x%,y%,z%)},得到概率最大的类别;
为了降低过拟合与欠拟合风险,每个森林产生的类向量由K折交叉验证产生,每个实例都将被用作K-1次训练数据,产生K-1个类向量,然后对其取平均值以产生作为级联中下一级的增强特征的最终类向量,在扩展一个新的级后,整个级联的性能将在验证集上进行估计,如果没有显著的性能增益,训练过程将终止;因此,级联中级的数量是自动确定的;
步骤4.3:用训练集R进行模型训练,调节超参数,同时在保存的深度随机森林模型中用验证集V进行模型验证测试,增加模型的泛化能力,经过训练调参,提高模型精确度;
步骤4.4:将精确度达到历史最高的训练模型进行保存,然后将测试数据集T作为模型输入,模型输出的测试集标签与原人工标签进行对比,得到模型的测试精确度,测试模型的泛化能力,检验模型对于新数据的分类能力。
步骤5:对厚板生产工艺剪切线工艺后的待检测钢板进行厚度采样测量,得到待检测钢板的厚度数据集,采用步骤2至步骤3方法,计算待检测钢板的相对厚度数据集,对相对厚度数据集进行上采样或下采样得到同样长度方向的采样点,并且对相对厚度数据集进行归一化,得到表征待检测钢板的相对厚度的特征向量Dtest,将Dtest输入训练后的钢板板形质量异常识别模型,输出待检测钢板的板形质量标签。
本发明的有益效果为:
本发明通过采集钢板的厚度数据集,经过上采样或下采样的钢板相对厚度数据集,构成表征钢板的相对厚度的特征向量,并以表征钢板的相对厚度的特征向量为输入、钢板的板形质量标签为输出,利用训练样本集构建并训练基于深度随机森林的钢板板形质量异常识别模型,能够对钢板板形质量进行有效检测,提高钢板板形质量异常检测的客观性、准确性和实时性。本发明利用多种决策树组成的深度随机森林挖掘多数据的特征而非传统地降维,充分发挥了级联森林数据挖掘能力强的优点;本发明能够快速精确的提取大数据特征并且训练模型超参数相较神经网络少的特点,能够训练得到更加精确的数据模型,有利于后面新数据的判定;本发明能够从众多的历史数据中挖掘自动学习提取出特征参数,能够辅助现场工作人员检测剪切线之后的钢板板形是否发生异常,且发生何种异常,从而决定这块钢板下面工序如何实施改善板形
附图说明
图1为本发明的基于深度随机森林的钢板板形质量异常识别方法的流程图;
图2为本发明实施例的基于深度随机森林的钢板板形异常识别方法的模型结构示意图;
图3为本发明实施例的基于深度随机森林的钢板板形异常识别方法的异常识别分类效果图。
具体实施方式
下面将结合附图和具体实施方式,对本发明作进一步描述。
一种基于深度随机森林的钢板板形异常识别方法,如图1所示,包括下述步骤:
步骤1:对厚板生产过程中剪切线工艺后的第k块钢板进行厚度采样测量,得到第k块钢板的厚度数据集Hk={hk(i,j),i∈{1,2,...,M},j∈{1,2,...,Nk}},并采集第k块钢板的板形质量标签yk;
其中,k∈{1,2,...,S},S为钢板的总块数,hk(i,j)为第k块钢板在采样点(i,j)处的厚度,i为钢板宽度方向上的采样点序号,j为钢板长度方向上的采样点序号,M为钢板宽度方向上的采样点总数,Nk为第k块钢板长度方向上的采样点总数,Nk与第k块钢板的长度成正比;钢板故障类型yk∈{0,1,2},yk=0代表第k块钢板出现除中浪以外故障的钢板,yk=1代表第k块钢板是无异常的钢板,yk=2代表第k块钢板是出现中浪故障的钢板;
本实施例中,采集剪切线后每块钢板的厚度数据为50维*(400~700)维的厚度数据,即宽度方向上固定为M=50个采样点,长度方向的采样点数目Nk与钢板长度有关,400≤Nk≤700。本实施例共选取S=16404块钢板的厚度数据和板形质量标签,其中4300块钢板是除中浪故障以外的异常钢板、8976块钢板是无异常故障发生钢板、3128块钢板是中浪故障异常钢板。
由于这些钢板是剪切线工艺后的钢板,钢板的边部以及头部位置部位可能由于剪切力发生部分变形,因此除上述采取采样点的方法,还可以通过实地考察根据现场工人的实际经验,考虑是否选择钢板边部和头尾部分的厚度数据。
步骤2:对钢板数据进行预处理;
步骤2.1:计算第k块钢板的初始相对厚度数据集Ck={ck(i,j),i∈{1,2,...,M},j∈{1,2,...,Nk}};其中,ck(i,j)为第k块钢板在采样点(i,j)处的相对厚度, 为第k块钢板的目标厚度;
步骤2.2:对于第k块钢板长度方向上的采样点总数Nk,将其处理为同样长度的采样点数L,则第k块钢板进行采样点处理后的相对厚度数据集变为Ck={ck(i,j),i∈{1,2,...,M},j∈{1,2,...,L}};当第k块钢板长度方向上的采样点总数Nk>L时,对其采用B样条插值的下采样,将第k块钢板长度方向上的采样点总数Nk采样成L个采样点;当第k块钢板长度方向上的采样点总数Nk<L时,对其采用B样条插值的上采样,将第k块钢板长度方向上的采样点总数Nk采样成L个采样点;当第k块钢板长度方向上的采样点总数Nk=L时,直接取其采样点总数L;
本实施例中,由于长度方向的采样点数目Nk与钢板长度有关,400≤Nk≤700,Nk的大小不一致,因此本实施例中取L=500,即每一块钢板若Nk>500,则通过下采样的方法,将其采样为500;若是Nk<500,则通过上采样的方法,将其采样为500,Nk=500时,直接取其采样点总数500;经过这一步骤的数据预处理,所有的钢板长度方向的采样点数目都变为500,宽度方向依旧是每一块钢板为50,因此每块钢板的厚度数据都变为50维*500维的厚度数据;
步骤2.3:将第k块钢板进行采样点处理后的相对厚度数据集Ck={ck(i,j),i∈{1,2,...,M},j∈{1,2,...,L}}归一化处理,归一化处理后的相对厚度数据集中0≤ck(i,j)≤1;
步骤3:构造钢板板形质量样本集C={C1,C2,...Ck,...,CS},其中Ck={ck(i,j),i∈{1,2,...,M},j∈{1,2,...,L}},其中S为钢板总数,构造钢板板形相对厚度数据集对应的标签集Y={y1,y2,...,yk,...,yS},yk为表征第k块钢板的质量标签,yk∈{0,1,2};
本实施例中,在步骤2数据预处理后,每块钢板的厚度数据都变为50维*500维的归一化的厚度数据,全部的厚度数据就组成了钢板板形质量的样本集,同时厚板数据集对应的标签集也由0、1或2的数字标签组成。
步骤4:从钢板板形质量样本集C中选取样本构成训练样本集R,以表征钢板的相对厚度的数据集作为特征矩阵作为输入,钢板的板形质量标签为输出,利用训练样本集R构建并训练基于深度森林的钢板板形质量异常识别模型;
深度森林(Deep Forest)是周志华教授和冯霁博士在2017年提出来的,是一种新的可以与深度神经网络相媲美的基于决策树的模型。相比深度神经网络,深度森林容易训练,计算开销小,天然适用于并行的部署,效率高,超参数少,模型对超参数调节不敏感,并且一套超参数可使用到不同数据集,可以适应于不同大小的数据集,模型复杂度可自适应伸缩,且每个级联的生成使用了交叉验证,避免过拟合,同时在理论分析方面也比深度神经网络更加容易。
步骤4.1:划分数据集,将钢板板形质量样本集C划分为训练集R、验证集V以及测试集T三部分;
其中,训练集R用于模型的构建;验证集V在模型的构建过程中用于验证模型,辅助模型的构建,防止出现过度拟合;测试集T用于检测模型的构建,用于评估模型准确率,测试模型的泛化能力;
本实施例中,按照训练比例p1%、验证比例p2%、测试比例p3%对钢板板形质量样本集C进行随机分层采样,得到训练集R、验证集V和测试集T。本实施例中,p1%=50,p2%=30,p3%=20。
步骤4.2:搭建准确分类钢板板形的深度随机森林模型网络:
步骤4.2.1:判断输入特征是否为高维度,是否在时间或者空间上具有约束关系;若输入特征具备以上任一特征性,则选择在架构模型时,首先将原始输入特征经过多窗口扫描结构,将多窗口扫描结构得到的特征向量输入下一个结构级联结构,再进行异常识别;否则直接进入步骤4.2.3,进行异常识别;
本实例中,厚板板形厚度数据集作为输入特征,并不具备高维度,并且在时间或者空间上也没有紧密的约束关系,因此在选择架构模型时,可以选择不经过多窗口扫描结构,直接将原始相对厚度数据集输入级联结构,也可以选择经过多窗口扫描结构,然后将多窗口扫描结构输出的特征向量输入级联结构。本实例采用了以上两种结构。
步骤4.2.2:多窗口扫描结构:原始输入特征向量为E=S*M*L,其中S为钢板总数,M为钢板宽度方向上的采样点总数,L为钢板长度方向上经过上采样或下采样得到的一致的采样点总数;窗口扫描维度为q*q,经过滑动窗口扫描后,得到N=S*[(M-q+1)*(L-q+1)]个q*q的特征矩阵;
定义决策树组成的森林,选择s1种不同类型的随机森林,每一种类型森林为l个,即一共有n1=s1*l个森林,将窗口扫描N个q*q的特征矩阵输入森林,得到N*n1个3维类向量,其中3为厚板分类标签为yk∈{0,1,2}三类;
将这N*n1个3维的类向量连接起来,即得到比原始输入的特征向量维度更高的特征向量E=N*n1*3维;
本实施例中,利用多窗口扫描的模型结构中,选择了窗口扫描维度为50维*50维,多窗口扫描结构中选择了完全随机森林与随机森林两种类型的森林,最后输出特征向量V;
步骤4.2.3:若是未满足输入特征满足高维度,或在时间或空间上有约束关系的任一约束条件,则不使用多窗口扫描结构,直接将原始特征向量E=S*M*L作为级联结构的输入;
级联森林的每一层都是由决策树组成的森林构成,将特征向量输入级联层An,其中,n表示森林所属层数,每一层森林都由不同类型的随机森林组成,An={f1*g1,f2*g2,...,ft*gt},其中,ft表示第t种随机森林,gt表示第t种随机森林的个数,ft={r1,r2,...,rm},其中,t表示第t种随机森林,m表示第t个森林里决策树的总数;
输入到级联森林的特征向量E,经过第一层森林,特征向量转换为E1=n*l*3+E维度,然后作为下一层的输入特征向量,直到最后一层级联An,因为决策树是在特征空间中不断划分子空间,并且给每个子空间打上标签,每一个森林输出三维的类向量,即每个森林的每棵决策树会根据样本所在的子空间中训练样本的类别占比生成一个类别的概率分布hp={(x1%,y1%,z1%),(x2%,y2%,z2%),...,(xm%,ym%,zm%)},其中,p表示第p个随机森林,m表示第p个森林里决策树的总数,xm%表示第一个类别的概率,ym%表示第二个类别的概率,zm%表示第三个类别的概率,然后对森林内所有树的各类比例取平均其中fp表示第p个随机森林的输出三维类向量,xp%表示第p个随机森林输出的第一个类别的概率,yp%表示第p个随机森林输出的第二个类别的概率,zp%表示第p个随机森林输出的第三个类别的概率,得到整个森林对各类的比例,最后对所有的森林输出的各类比例取平均,其中,w表示最后一层级联的随机森林的总数,再对其取最大值,MAX=max{F}=max{(x%,y%,z%)},得到概率最大的类别;
为了降低过拟合与欠拟合风险,每个森林产生的类向量由K折交叉验证产生,具体来说,每个实例都将被用作K-1次训练数据,产生K-1个类向量,然后对其取平均值以产生作为级联中下一级的增强特征的最终类向量,在扩展一个新的级后,整个级联的性能将在验证集上进行估计,如果没有显著的性能增益,训练过程将终止;因此,级联中级的数量是自动确定的;
步骤4.3:用训练集R进行模型训练,调节超参数,同时在保存的深度随机森林模型中用验证集V进行模型验证测试,增加模型的泛化能力,经过训练调参,提高模型精确度;
步骤4.4:将精确度达到历史最高的训练模型进行保存,然后将测试数据集T作为模型输入,模型输出的测试集标签与原人工标签进行对比,得到模型的测试精确度,测试模型的泛化能力,检验模型对于新数据的分类能力。
本实施例中,级联结构的每一层级选择了四种基学习器,即四种类型的森林,增加结构的多样性。将训练得到的参数模型进行保存,以便之后的新数据输入来判断其标签,从而辅助现场人工的人眼检验以及下一步的板形改善工作。
本实施例中,得到的最优结构如图2所示。对预处理后的钢板板形数据作为原始数据输入模型,可以选择窗口扫描结构得到的特征向量输入到级联结构,也可以直接将预处理后的原始钢板板形数据输入级联结构,经过其自学习最后每种森林得到三种异常识别概率向量,再对其取平均取最大值概率,即此钢板板形属于的故障类别。
步骤5:对厚板生产工艺剪切线工艺后的待检测钢板进行厚度采样测量,得到待检测钢板的厚度数据集,采用步骤2至步骤3方法,计算待检测钢板的相对厚度数据集,对相对厚度数据集进行上采样或下采样得到同样长度方向的采样点,并且对相对厚度数据集进行归一化,得到表征待检测钢板的相对厚度的特征向量Dtest,将Dtest输入训练后的钢板板形质量异常识别模型,输出待检测钢板的板形质量标签。
本实施例中,以三个特征属性生成的深度随机森林为例,对测试集的样本采用决策树组成的深度随机森林进行自学习训练,训练得到最优模型精确率为87.42%,将200个测试样本输入模型为例,得到的分类情况如图3所示,纵坐标为0表示无故障钢板,纵坐标为1表示除中浪外其它故障钢板,纵坐标为2表示中浪故障钢板。随后可以随时更新模型,将新的数据输入模型,输出区分三类样本。辅助现场工作人员进行钢板的分类,避免明显误分类情况的发生,对钢板进行及时的调整修复,辅助技术人员进行故障诊断,帮助生产系统定位故障原因及位置。
显然,上述实施例仅仅是本发明的一部分实施例,而不是全部的实施例。上述实施例仅用于解释本发明,并不构成对本发明保护范围的限定。基于上述实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,也即凡在本申请的精神和原理之内所作的所有修改、等同替换和改进等,均落在本发明要求的保护范围内。
Claims (1)
1.一种基于深度随机森林的钢板板形异常识别方法,其特征在于,包括下述步骤:
步骤1:对厚板生产过程中剪切线工艺后的第k块钢板进行厚度采样测量,得到第k块钢板的厚度数据集Hk={hk(i,j),i∈{1,2,...,M},j∈{1,2,...,Nk}},并采集第k块钢板的板形质量标签yk;
其中,k∈{1,2,...,S},S为钢板的总块数,hk(i,j)为第k块钢板在采样点(i,j)处的厚度,i为钢板宽度方向上的采样点序号,j为钢板长度方向上的采样点序号,M为钢板宽度方向上的采样点总数,Nk为第k块钢板长度方向上的采样点总数,Nk与第k块钢板的长度成正比;钢板故障类型yk∈{0,1,2},yk=0代表第k块钢板出现除中浪以外故障的钢板,yk=1代表第k块钢板是无异常的钢板,yk=2代表第k块钢板是出现中浪故障的钢板;
步骤2:对钢板数据进行预处理;
步骤2.1:计算第k块钢板的初始相对厚度数据集Ck={ck(i,j),i∈{1,2,...,M},j∈{1,2,...,Nk}};其中,ck(i,j)为第k块钢板在采样点(i,j)处的相对厚度, 为第k块钢板的目标厚度;
步骤2.2:对于第k块钢板长度方向上的采样点总数Nk,将其处理为同样长度的采样点数L,则第k块钢板进行采样点处理后的相对厚度数据集变为Ck={ck(i,j),i∈{1,2,...,M},j∈{1,2,...,L}};当第k块钢板长度方向上的采样点总数Nk>L时,对其采用B样条插值的下采样,将第k块钢板长度方向上的采样点总数Nk采样成L个采样点;当第k块钢板长度方向上的采样点总数Nk<L时,对其采用B样条插值的上采样,将第k块钢板长度方向上的采样点总数Nk采样成L个采样点;当第k块钢板长度方向上的采样点总数Nk=L时,直接取其采样点总数L;
步骤2.3:将第k块钢板进行采样点处理后的相对厚度数据集Ck={ck(i,j),i∈{1,2,...,M},j∈{1,2,...,L}}归一化处理,归一化处理后的相对厚度数据集中0≤ck(i,j)≤1;
步骤3:构造钢板板形质量样本集C={C1,C2,...Ck,...,CS},其中Ck={ck(i,j),i∈{1,2,...,M},j∈{1,2,...,L}},其中S为钢板总数,构造钢板板形相对厚度数据集对应的标签集Y={y1,y2,...,yk,...,yS},yk为表征第k块钢板的质量标签,yk∈{0,1,2};
步骤4:从钢板板形质量样本集C中选取样本构成训练样本集R,以表征钢板的相对厚度的数据集作为特征矩阵作为输入,钢板的板形质量标签为输出,利用训练样本集R构建并训练基于深度森林的钢板板形质量异常识别模型;
步骤4.1:划分数据集,将钢板板形质量样本集C划分为训练集R、验证集V以及测试集T三部分;
其中,训练集R用于模型的构建;验证集V在模型的构建过程中用于验证模型,辅助模型的构建,防止出现过度拟合;测试集T用于检测模型的构建,用于评估模型准确率,测试模型的泛化能力;
步骤4.2:搭建准确分类钢板板形的深度随机森林模型网络:
步骤4.2.1:判断输入特征是否为高维度,是否在时间或者空间上具有约束关系;若输入特征具备以上任一特征性,则选择在架构模型时,首先将原始输入特征经过多窗口扫描结构,将多窗口扫描结构得到的特征向量输入下一个结构级联结构,再进行异常识别;否则直接进入步骤4.2.3,进行异常识别;
步骤4.2.2:多窗口扫描结构:原始输入特征向量为E=S*M*L,其中S为钢板总数,M为钢板宽度方向上的采样点总数,L为钢板长度方向上经过上采样或下采样得到的一致的采样点总数;窗口扫描维度为q*q,经过滑动窗口扫描后,得到N=S*[(M-q+1)*(L-q+1)]个q*q的特征矩阵;
定义决策树组成的森林,选择s1种不同类型的随机森林,每一种类型森林为l个,即一共有n1=s1*l个森林,将窗口扫描N个q*q的特征矩阵输入森林,得到N*n1个3维类向量,其中3为厚板分类标签为yk∈{0,1,2}三类;
将这N*n1个3维的类向量连接起来,即得到比原始输入的特征向量维度更高的特征向量E=N*n1*3维;
步骤4.2.3:若是未满足输入特征满足高维度,或在时间或空间上有约束关系的任一约束条件,则不使用多窗口扫描结构,直接将原始特征向量E=S*M*L作为级联结构的输入;
级联森林的每一层都是由决策树组成的森林构成,将特征向量输入级联层An,其中,n表示森林所属层数,每一层森林都由不同类型的随机森林组成,An={f1*g1,f2*g2,...,ft*gt},其中,ft表示第t种随机森林,gt表示第t种随机森林的个数,ft={r1,r2,...,rm},其中,t表示第t种随机森林,m表示第t个森林里决策树的总数;
输入到级联森林的特征向量E,经过第一层森林,特征向量转换为E1=n*l*3+E维度,然后作为下一层的输入特征向量,直到最后一层级联An,因为决策树是在特征空间中不断划分子空间,并且给每个子空间打上标签,每一个森林输出三维的类向量,即每个森林的每棵决策树会根据样本所在的子空间中训练样本的类别占比生成一个类别的概率分布hp={(x1%,y1%,z1%),(x2%,y2%,z2%),...,(xm%,ym%,zm%)},其中,p表示第p个随机森林,m表示第p个森林里决策树的总数,xm%表示第一个类别的概率,ym%表示第二个类别的概率,zm%表示第三个类别的概率,然后对森林内所有树的各类比例取平均其中fp表示第p个随机森林的输出三维类向量,xp%表示第p个随机森林输出的第一个类别的概率,yp%表示第p个随机森林输出的第二个类别的概率,zp%表示第p个随机森林输出的第三个类别的概率,得到整个森林对各类的比例,最后对所有的森林输出的各类比例取平均,其中,w表示最后一层级联的随机森林的总数,再对其取最大值,MAX=max{F}=max{(x%,y%,z%)},得到概率最大的类别;
为了降低过拟合与欠拟合风险,每个森林产生的类向量由K折交叉验证产生,每个实例都将被用作K-1次训练数据,产生K-1个类向量,然后对其取平均值以产生作为级联中下一级的增强特征的最终类向量,在扩展一个新的级后,整个级联的性能将在验证集上进行估计,如果没有显著的性能增益,训练过程将终止;因此,级联中级的数量是自动确定的;
步骤4.3:用训练集R进行模型训练,调节超参数,同时在保存的深度随机森林模型中用验证集V进行模型验证测试,增加模型的泛化能力,经过训练调参,提高模型精确度;
步骤4.4:将精确度达到历史最高的训练模型进行保存,然后将测试数据集T作为模型输入,模型输出的测试集标签与原人工标签进行对比,得到模型的测试精确度,测试模型的泛化能力,检验模型对于新数据的分类能力;
步骤5:对厚板生产工艺剪切线工艺后的待检测钢板进行厚度采样测量,得到待检测钢板的厚度数据集,采用步骤2至步骤3方法,计算待检测钢板的相对厚度数据集,对相对厚度数据集进行上采样或下采样得到同样长度方向的采样点,并且对相对厚度数据集进行归一化,得到表征待检测钢板的相对厚度的特征向量Dtest,将Dtest输入训练后的钢板板形质量异常识别模型,输出待检测钢板的板形质量标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911356131.2A CN111126490B (zh) | 2019-12-25 | 2019-12-25 | 一种基于深度随机森林的钢板板形异常识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911356131.2A CN111126490B (zh) | 2019-12-25 | 2019-12-25 | 一种基于深度随机森林的钢板板形异常识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126490A CN111126490A (zh) | 2020-05-08 |
CN111126490B true CN111126490B (zh) | 2023-10-31 |
Family
ID=70502062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911356131.2A Active CN111126490B (zh) | 2019-12-25 | 2019-12-25 | 一种基于深度随机森林的钢板板形异常识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126490B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681227B (zh) * | 2020-06-09 | 2023-03-14 | 中冶赛迪信息技术(重庆)有限公司 | 一种飞剪机器异常的判断方法、系统、电子设备及介质 |
CN111790762B (zh) * | 2020-07-30 | 2022-02-15 | 武汉科技大学 | 一种基于随机森林的热轧带钢轧制力设定方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102179413A (zh) * | 2009-12-18 | 2011-09-14 | Posco公司 | 检测冷轧过程中的质量异常的方法和系统 |
CN110516750A (zh) * | 2019-08-30 | 2019-11-29 | 东北大学 | 一种基于cart决策树的钢板板形质量异常检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8306942B2 (en) * | 2008-05-06 | 2012-11-06 | Lawrence Livermore National Security, Llc | Discriminant forest classification method and system |
-
2019
- 2019-12-25 CN CN201911356131.2A patent/CN111126490B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102179413A (zh) * | 2009-12-18 | 2011-09-14 | Posco公司 | 检测冷轧过程中的质量异常的方法和系统 |
CN110516750A (zh) * | 2019-08-30 | 2019-11-29 | 东北大学 | 一种基于cart决策树的钢板板形质量异常检测方法 |
Non-Patent Citations (1)
Title |
---|
随机森林在板材表面缺陷分类中的应用;胡峻峰 等;东北林业大学学报;第43卷(第8期);第86-90页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111126490A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104712542B (zh) | 一种基于物联网的往复压缩机敏感特征提取与故障诊断方法 | |
CN103914064B (zh) | 基于多分类器和d-s证据融合的工业过程故障诊断方法 | |
CN106404441B (zh) | 一种基于非线性相似度指标的故障分类诊断方法 | |
CN111126490B (zh) | 一种基于深度随机森林的钢板板形异常识别方法 | |
CN111580506A (zh) | 基于信息融合的工业过程故障诊断方法 | |
CN112904810B (zh) | 基于有效特征选择的流程工业非线性过程监测方法 | |
Zhang et al. | Data anomaly detection for structural health monitoring by multi-view representation based on local binary patterns | |
CN112000081B (zh) | 基于多块信息提取和马氏距离的故障监测方法及系统 | |
CN108197280B (zh) | 一种基于工业设备数据的可挖掘性评估方法 | |
WO2021114320A1 (zh) | 一种oica和rnn融合模型的污水处理过程故障监测方法 | |
CN106326915A (zh) | 一种基于改进核Fisher的化工过程故障诊断方法 | |
CN112149750A (zh) | 一种供水管网爆管识别数据驱动方法 | |
CN111105082A (zh) | 基于机器学习的工件质量预测模型构建方法及预测方法 | |
CN109240276B (zh) | 基于故障敏感主元选择的多块pca故障监测方法 | |
CN112231971B (zh) | 基于相对整体趋势扩散故障样本生成的高炉故障诊断方法 | |
CN118297444A (zh) | 一种面向人工智能的数据集质量通用评估方法 | |
CN116204825A (zh) | 一种基于数据驱动的生产线设备故障检测方法 | |
Chou et al. | SHM data anomaly classification using machine learning strategies: A comparative study | |
CN117557827A (zh) | 一种基于自编码级联森林的板形异常检测方法 | |
CN110108474A (zh) | 一种旋转机械运行稳定性在线监测与评估方法及系统 | |
CN106250937B (zh) | 一种基于非相似度指标的故障分类诊断方法 | |
CN113551904A (zh) | 基于层次机器学习的齿轮箱多类型并发故障诊断方法 | |
CN110057588B (zh) | 基于奇异值与图论特征融合的轴承早期故障检测与诊断方法及系统 | |
CN110490218B (zh) | 一种基于两级dbn的滚动轴承故障自学习方法 | |
CN117150337A (zh) | 基于分诊制的化工过程故障诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |