CN110516750B - 一种基于cart决策树的钢板板形质量异常检测方法 - Google Patents

一种基于cart决策树的钢板板形质量异常检测方法 Download PDF

Info

Publication number
CN110516750B
CN110516750B CN201910812350.0A CN201910812350A CN110516750B CN 110516750 B CN110516750 B CN 110516750B CN 201910812350 A CN201910812350 A CN 201910812350A CN 110516750 B CN110516750 B CN 110516750B
Authority
CN
China
Prior art keywords
steel plate
relative thickness
kth
olr
shape quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910812350.0A
Other languages
English (en)
Other versions
CN110516750A (zh
Inventor
刘强
胡磊
丁进良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910812350.0A priority Critical patent/CN110516750B/zh
Publication of CN110516750A publication Critical patent/CN110516750A/zh
Application granted granted Critical
Publication of CN110516750B publication Critical patent/CN110516750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Control Of Metal Rolling (AREA)

Abstract

本发明涉及钢板板形质量异常检测技术领域,提供一种基于CART决策树的钢板板形质量异常检测方法。首先采集钢板的厚度数据集和板形质量标签,计算钢板的相对厚度数据集;然后提取表征钢板相对厚度的钢板质量相关特征为最优超限率、相对厚度在长度、宽度方向上的波动参数,构造钢板板形质量样本集;接着以表征钢板的相对厚度的特征向量为输入、钢板的板形质量标签为输出,利用训练样本集构建并训练基于CART决策树的钢板板形质量异常检测模型,得到最优子树;最后采集待检测钢板的厚度数据集,计算并将表征待检测钢板的相对厚度的特征向量输入最优子树,得到其板形质量标签。本发明能够提高钢板板形质量异常检测的客观性、准确性和实时性。

Description

一种基于CART决策树的钢板板形质量异常检测方法
技术领域
本发明涉及钢板板形质量异常检测技术领域,特别是涉及一种基于CART决策树的钢板板形质量异常检测方法。
背景技术
中厚板是国家现代化不可缺少的一项钢材品种,被广泛用于造船、石油平台、锅炉、压力容器、管线、建筑、桥梁及重型汽车等领域。在现代中厚板生产中,随着高附加值钢种比例不断扩大,用户对板形质量的要求不断提高,尤其对钢板不平度精度要求越来越严格。但目前对钢板断面形状和平直度的控制还没有达到高质量,由于钢板冷却后温度分布不均,即使经过热矫直工序后仍可能发生变形。剪切后的钢板经人工检测其平直度达不到要求的,需要由剪后的横移修磨台架或横移吊车送至冷矫直机上进行冷矫直,将钢板的不平直度消除到要求的范围以内。这种人工观察检测做出判断主观性强,没有定量的标准,并且实际误分类的情况比较频繁,十分影响效率和产品质量。
发明内容
针对现有技术存在的问题,本发明提供一种基于CART决策树的钢板板形质量异常检测方法,能够提高钢板板形质量异常检测的客观性、准确性和实时性。
本发明的技术方案为:
一种基于CART决策树的钢板板形质量异常检测方法,其特征在于,包括下述步骤:
步骤1:数据采集:对剪切线后的第k块钢板进行厚度采样测量,得到第k块钢板的厚度数据集为Ak={ak(i,j),i∈{1,2,...,M},j∈{1,2,...,Nk}},并采集第k块钢板的板形质量标签yk
其中,k∈{1,2,...,K},K为钢板的总块数,ak(i,j)为第k块钢板在采样点(i,j)处的厚度,i为钢板宽度方向上的采样点序号,j为钢板长度方向上的采样点序号,M为钢板宽度方向上的采样点总数,Nk为第k块钢板长度方向上的采样点总数,Nk与第k块钢板的长度成正比;yk∈{0,1},yk=0代表第k块钢板需要追加冷矫工序,yk=1代表第k块钢板不需要追加冷矫工序;
步骤2:数据预处理:计算第k块钢板的相对厚度数据集为Bk={bk(i,j),i∈{1,2,...,M},j∈{1,2,...,Nk}};
其中,bk(i,j)为第k块钢板在采样点(i,j)处的相对厚度,bk(i,j)=ak(i,j)-ak *,ak *为第k块钢板的目标厚度;
步骤3:提取表征钢板相对厚度平均范围的钢板质量相关特征为最优超限率:
步骤3.1:设置钢板相对厚度阈值集合为{δ12,...,δl,...,δL};
其中,δl为第l个钢板相对厚度阈值,l∈{1,2,...,L},L为钢板相对厚度阈值的总数;
步骤3.2:计算超限率特征属性集为X={x1,x2,...,xk,...,xK};
其中,xk为第k块钢板的超限率向量,xk=(oLRk1,oLRk2,...,oLRkl,...,oLRkL)T,oLRkl为第k块钢板相对第l个钢板相对厚度阈值δl的超限率,
Figure BDA0002185413840000021
oLCkl为第k块钢板的相对厚度数据集Bk中绝对值超过阈值δl的元素数量;
步骤3.3:基于线性判别分析,结合板形质量标签yk,从第k块钢板的超限率向量xk中选取最优超限率oLRk,best,得到最优超限率集合oLR={oLR1,best,oLR2,best,...,oLRk,best,...,oLRK,best};
步骤4:提取表征钢板相对厚度整体波动范围的钢板质量相关特征为钢板相对厚度在长度、宽度方向上的波动参数,得到波动参数特征属性集为V={v1,v2,...,vk,...,vK};
其中,vk为第k块钢板的波动参数向量,vk=(lVk,wVk)T,lVk为第k块钢板的相对厚度在长度方向上的波动参数,wVk为第k块钢板的相对厚度在宽度方向上的波动参数;
步骤5:构造钢板板形质量样本集为E={(z1,y1),(z2,y2),...,(zk,yk),...,(zK,yK)},zk为表征第k块钢板的相对厚度的特征向量,zk=(zk1,zk2,zk3)T=(oLRk,best,lVk,wVk)T
步骤6:从钢板板形质量样本集E中选取样本构成训练样本集F,以表征钢板的相对厚度的特征向量为输入、钢板的板形质量标签为输出,利用训练样本集F构建并训练基于CART决策树的钢板板形质量异常检测模型;
步骤7:对剪切线后的待检测钢板进行厚度采样测量,得到待检测钢板的厚度数据集,采用步骤2至步骤5中相同的方法,计算待检测钢板的相对厚度数据集、最优超限率、相对厚度在长度方向上的波动参数、相对厚度在宽度方向上的波动参数,得到表征待检测钢板的相对厚度的特征向量ztest,将ztest输入训练后的钢板板形质量异常检测模型,输出待检测钢板的板形质量标签。
所述步骤3.3包括下述步骤:
步骤3.3.1:构造超限率-板形质量标签数据集D={(x1,y1),(x2,y2),...,(xk,yk),...,(xK,yK)},将数据集D中的元素按照板形质量标签分为两类D0={(xk,yk),yk=0}、D1={(xk,yk),yk=1};
步骤3.3.2:计算类内散度矩阵为
Figure BDA0002185413840000031
其中,x为超限率向量,um为类Dm中超限率向量的均值,m∈{0,1},
Figure BDA0002185413840000032
Dm|为类Dm中的元素个数;
步骤3.3.3:计算类间散度矩阵为
Sb=(u0-u1)(u0-u1)T
步骤3.3.4:计算矩阵Sw-1Sb的最大特征值对应的特征向量w1
步骤3.3.5:计算特征向量w1中绝对值最大的元素,得到绝对值最大的元素对应的序号best,将超限率向量xk中的第best个元素oLRk,best作为第k块钢板的最优超限率,得到最优超限率集合oLR={oLR1,best,oLR2,best,...,oLRk,best,...,oLRK,best}。
所述步骤4包括下述步骤:
步骤4.1:计算第k块钢板的相对厚度在长度方向上的波动参数lVk为第k块钢板的相对厚度在长度方向上的方差,
Figure BDA0002185413840000033
Figure BDA0002185413840000034
为第k块钢板在长度方向的第j个采样点序号对应的相对厚度的平均值,
Figure BDA0002185413840000041
步骤4.2:计算第k块钢板的相对厚度在宽度方向上的波动参数wVk为第k块钢板的相对厚度在宽度方向上的方差,
Figure BDA0002185413840000042
Figure BDA0002185413840000043
为第k块钢板在宽度方向的第i个采样点序号对应的相对厚度的平均值,
Figure BDA0002185413840000044
步骤4.3:重复上述步骤4.1至步骤4.2,直至k=K,得到波动参数特征属性集V={v1,v2,...,vk,...,vK},vk=(lVk,wVk)T
所述步骤6中,利用训练样本集F构建并训练基于CART决策树的钢板板形质量异常检测模型,包括下述步骤:
步骤6.1:利用训练样本集F建立CART决策树:
步骤6.1.1:计算训练样本集F根据特征Zn是否小于可能值cn被分割成两部分F1(Zn,cn)={(zk,yk),zkn<cn}、F2(Zn,cn)={(zk,yk),zkn≥cn}对应的基尼指数为
Figure BDA0002185413840000045
其中,n∈{1,2,3},特征Z1、Z2、Z3分别代表最优超限率、相对厚度在长度方向上的波动参数、相对厚度在宽度方向上的波动参数;cn为特征Zn的可能值,cn∈{zkn,zkn∈F};Gini(F1(Zn,cn))、Gini(F2(Zn,cn))分别为集合F1(Zn,cn)、F2(Zn,cn)的基尼指数,
Figure BDA0002185413840000046
C1m、C2m分别为集合F1(Zn,cn)、F2(Zn,cn)中属于第m类的样本子集,m∈{0,1},第0、1类分别为板形质量标签为0、1的类;|F|、|F1(Zn,cn)|、|F2(Zn,cn)|、|C1m|、|C2m|分别为集合F、F1(Zn,cn)、F2(Zn,cn)、C1m、C2m中的样本总数;
选择最小基尼指数min{Gini(F,Zn,cn),n∈{1,2,3},cn∈{zkn,zkn∈F}}对应的特征、可能值分别作为最优特征、最优二值切分点;
步骤6.1.2:将最优特征作为CART决策树的根结点,从根节点生成两个子结点,根据最优二值切分点将训练样本集F分配到该两个子节点中;
步骤6.1.3:从根节点开始,对生成的子节点执行步骤6.1.1至步骤6.1.2的操作,继续生成新的子节点,直到新的子节点不能再生成子节点,生成原始二叉决策树T0
步骤6.2:对原始二叉决策树T0进行剪枝;
步骤6.2.1:令s=0,T=T0
步骤6.2.2:令α=+∞;
步骤6.2.3:自下而上地对树T的内部结点t进行计算
Figure BDA0002185413840000051
α=min(α,g(t));其中,Tt表示以t为根结点的子树,|Tt|是Tt的叶结点个数,C(Tt)是以t为根结点对训练数据的训练误差,C(t)是以t为单结点对训练数据的训练误差;
步骤6.2.4:自上而下地访问内部结点t,对g(t)=α的内部结点进行剪枝,并对叶结点t以多数表决法决定其类,得到树T;
步骤6.2.5:令s=s+1,αs=α,Ts=T
步骤6.2.6:如果T不是由根结点及两个叶结点构成的树,回到步骤6.2.4;
步骤6.2.7:采用交叉验证法在子树序列{T0,T1,...,Ts}上选取最优子树Tα
所述步骤6中,从钢板板形质量样本集E中选取样本构成训练样本集F包括:基于留出法,按照训练比例s1%、测试比例s2%对钢板板形质量样本集E进行随机分层采样,得到训练集F和测试集F'。
本发明的有益效果为:
本发明通过提取表征钢板相对厚度的最优超限率、相对厚度在长度、宽度方向上的波动参数,构成表征钢板的相对厚度的特征向量,并以表征钢板的相对厚度的特征向量为输入、钢板的板形质量标签为输出,利用训练样本集构建并训练基于CART决策树的钢板板形质量异常检测模型,能够对钢板板形质量进行有效检测,提高钢板板形质量异常检测的客观性、准确性和实时性。本发明巧妙地将线性判别分析的权重系数用来进行特征选择而非传统地降维,同时充分发挥了决策树数据挖掘能力强的优点;本发明能够直接从历史的分类数据中学习规则参数,辅助现场工作人员检测剪切线之后的钢板板形是否不良,以决定是否需要追加冷矫工序来改善板形。
附图说明
图1为本发明的基于CART决策树的钢板板形质量异常检测方法的流程图。
图2为具体实施方式中本发明的基于CART决策树的钢板板形质量异常检测方法得到的最优子树的结构示意图;
图3为具体实施方式中本发明的基于CART决策树的钢板板形质量异常检测方法的CART决策树异常检测分类效果图。
具体实施方式
下面将结合附图和具体实施方式,对本发明作进一步描述。
如图1所示,本发明的基于CART决策树的钢板板形质量异常检测方法,包括下述步骤:
步骤1:数据采集:对剪切线后的第k块钢板进行厚度采样测量,得到第k块钢板的厚度数据集为Ak={ak(i,j),i∈{1,2,...,M},j∈{1,2,...,Nk}},并采集第k块钢板的板形质量标签yk
其中,k∈{1,2,...,K},K为钢板的总块数,ak(i,j)为第k块钢板在采样点(i,j)处的厚度,i为钢板宽度方向上的采样点序号,j为钢板长度方向上的采样点序号,M为钢板宽度方向上的采样点总数,Nk为第k块钢板长度方向上的采样点总数,Nk与第k块钢板的长度成正比;yk∈{0,1},yk=0代表第k块钢板需要追加冷矫工序,yk=1代表第k块钢板不需要追加冷矫工序。
本实施例中,采集剪切线后每块钢板的厚度数据为50维*(400~700)维的厚度数据,即宽度方向上固定为M=50个采样点,长度方向的采样点数目Nk与钢板长度有关,400≤Nk≤700。本实施例共选取K=16404块钢板的厚度数据和板形质量标签,其中5821块钢板经过冷矫、10583块钢板未经过冷矫。根据每块钢板是否经过冷矫工序判定钢板板形质量的好坏。若经过冷矫工序,则认为钢板板形质量存在问题,是坏板;反之,则认为是好板。
此外,除了上述采取采样点的方法,还可以根据现场工人的实际经验,考虑是否选择钢板边部和头尾部分的厚度数据。
步骤2:数据预处理:计算第k块钢板的相对厚度数据集为Bk={bk(i,j),i∈{1,2,...,M},j∈{1,2,...,Nk}};
其中,bk(i,j)为第k块钢板在采样点(i,j)处的相对厚度,bk(i,j)=ak(i,j)-ak *,ak *为第k块钢板的目标厚度。
其中,由于不同的钢板最终目标厚度不相同,且厚度偏差范围与目标厚度之间不在一个数量级。为了方便比较,需要对每块子板原始厚度数据减去目标厚度,得到相对厚度数据。
步骤3:提取表征钢板相对厚度平均范围的钢板质量相关特征为最优超限率:
步骤3.1:设置钢板相对厚度阈值集合为{δ12,...,δl,...,δL};
其中,δl为第l个钢板相对厚度阈值,l∈{1,2,...,L},L为钢板相对厚度阈值的总数;
本实施例中,L=10,置钢板相对厚度阈值集合为{1.5,2,2.5,3,3.5,4,4.5,5,5.5,6};
步骤3.2:计算超限率特征属性集为X={x1,x2,...,xk,...,xK};
其中,xk为第k块钢板的超限率向量,xk=(oLRk1,oLRk2,...,oLRkl,...,oLRkL)T,oLRkl为第k块钢板相对第l个钢板相对厚度阈值δl的超限率,
Figure BDA0002185413840000071
oLCkl为第k块钢板的相对厚度数据集Bk中绝对值超过阈值δl的元素数量;
步骤3.3:基于线性判别分析,结合板形质量标签yk,从第k块钢板的超限率向量xk中选取最优超限率oLRk,best,得到最优超限率集合oLR={oLR1,best,oLR2,best,...,oLRk,best,...,oLRK,best}。
其中,为了衡量钢板相对厚度总体与目标相对厚度的偏差程度,选取相对厚度的超限率来表征。钢板相对厚度阈值根据人的经验知识在大致范围选取多组可能的值,分别计算钢板相对厚度超过阈值的数量占总数量的百分比;由于设置不同厚度阈值得到的特征数较多,但表征是相同的含义。在CART决策树建模中,只是单纯地基于基尼指数来进行特征选择,有可能只由某几个具有相同表征意义的特征来决定,没有从人的领域知识角度充分利用钢板厚度范围和波动情况这两方面的特征,不利于最终决策树的解释。为了尽量克服决策树的这个缺点,利用线性判别分析(LDA)在多个不同阈值得到的超限率的特征中选取一个最佳特征,具体如下:
步骤3.3.1:构造超限率-板形质量标签数据集D={(x1,y1),(x2,y2),...,(xk,yk),...,(xK,yK)},将数据集D中的元素按照板形质量标签分为两类D0={(xk,yk),yk=0}、D1={(xk,yk),yk=1};
步骤3.3.2:计算类内散度矩阵为
Figure BDA0002185413840000081
其中,x为超限率向量,um为类Dm中超限率向量的均值,m∈{0,1},
Figure BDA0002185413840000082
Dm|为类Dm中的元素个数;
步骤3.3.3:计算类间散度矩阵为
Sb=(u0-u1)(u0-u1)T
步骤3.3.4:计算矩阵Sw-1Sb的最大特征值对应的特征向量w1
步骤3.3.5:计算特征向量w1中绝对值最大的元素,得到绝对值最大的元素对应的序号best,将超限率向量xk中的第best个元素oLRk,best作为第k块钢板的最优超限率,得到最优超限率集合oLR={oLR1,best,oLR2,best,...,oLRk,best,...,oLRK,best}。
本实施例中,特征向量w1的各个元素如表1所示。其中绝对值最大的元素对应的序号best=10,从而将超限率向量xk中的第10个元素oLRk,10作为第k块钢板的最优超限率。
表1
元素序号 1 2 3 4 5 6 7 8 9 10
元素值 -45.8 -44.6 -44.7 -45.2 -46.0 -46.8 -47.2 -47.2 -48.7 -52.2
步骤4:提取表征钢板相对厚度整体波动范围的钢板质量相关特征为钢板相对厚度在长度、宽度方向上的波动参数,得到波动参数特征属性集为V={v1,v2,...,vk,...,vK};
其中,vk为第k块钢板的波动参数向量,vk=(lVk,wVk)T,lVk为第k块钢板的相对厚度在长度方向上的波动参数,wVk为第k块钢板的相对厚度在宽度方向上的波动参数。
其中,为了衡量钢板整体厚度的波动变化,从长度和宽度这两个方向上提取相应的特征,可以为平直度、凸度或方差等本领域技术人员熟知的可以用来表征钢板相对厚度整体波动范围的特征。本实施例中,以相对厚度在长度、宽度方向上的方差作为表征钢板相对厚度整体波动范围的钢板质量相关特征,其计算过程具体如下:
步骤4.1:计算第k块钢板的相对厚度在长度方向上的波动参数lVk为第k块钢板的相对厚度在长度方向上的方差,
Figure BDA0002185413840000091
Figure BDA0002185413840000092
为第k块钢板在长度方向的第j个采样点序号对应的相对厚度的平均值,
Figure BDA0002185413840000093
步骤4.2:计算第k块钢板的相对厚度在宽度方向上的波动参数wVk为第k块钢板的相对厚度在宽度方向上的方差,
Figure BDA0002185413840000094
Figure BDA0002185413840000095
为第k块钢板在宽度方向的第i个采样点序号对应的相对厚度的平均值,
Figure BDA0002185413840000096
步骤4.3:重复上述步骤4.1至步骤4.2,直至k=K,得到波动参数特征属性集V={v1,v2,...,vk,...,vK},vk=(lVk,wVk)T
步骤5:构造钢板板形质量样本集为E={(z1,y1),(z2,y2),...,(zk,yk),...,(zK,yK)},zk为表征第k块钢板的相对厚度的特征向量,zk=(zk1,zk2,zk3)T=(oLRk,best,lVk,wVk)T
步骤6:从钢板板形质量样本集E中选取样本构成训练样本集F,以表征钢板的相对厚度的特征向量为输入、钢板的板形质量标签为输出,利用训练样本集F构建并训练基于CART决策树的钢板板形质量异常检测模型。
其中,决策树(Classify andRegression Tree,CART)是1984年由Breiman等人提出,已经在统计领域和数据挖掘技术中普遍使用。与神经网络或贝叶斯分类等分类模型相比,其分类原理简单易懂,很容易被使用人员理解和接受。在决策树分类过程中,一般不需要人为设定参数,更适合于知识发现的要求。
基于留出法,按照训练比例s1%、测试比例s2%对钢板板形质量样本集E进行随机分层采样,得到训练集F和测试集F'。本实施例中,s1=70,s2=30。
利用训练样本集F构建并训练基于CART决策树的钢板板形质量异常检测模型,包括下述步骤:
步骤6.1:利用训练样本集F建立CART决策树:
步骤6.1.1:计算训练样本集F根据特征Zn是否小于可能值cn被分割成两部分F1(Zn,cn)={(zk,yk),zkn<cn}、F2(Zn,cn)={(zk,yk),zkn≥cn}对应的基尼指数为
Figure BDA0002185413840000101
其中,n∈{1,2,3},特征Z1、Z2、Z3分别代表最优超限率、相对厚度在长度方向上的波动参数、相对厚度在宽度方向上的波动参数;cn为特征Zn的可能值,cn∈{zkn,zkn∈F};Gini(F1(Zn,cn))、Gini(F2(Zn,cn))分别为集合F1(Zn,cn)、F2(Zn,cn)的基尼指数,
Figure BDA0002185413840000102
C1m、C2m分别为集合F1(Zn,cn)、F2(Zn,cn)中属于第m类的样本子集,m∈{0,1},第0、1类分别为板形质量标签为0、1的类;|F|、|F1(Zn,cn)|、|F2(Zn,cn)|、|C1m|、|C2m|分别为集合F、F1(Zn,cn)、F2(Zn,cn)、C1m、C2m中的样本总数;
选择最小基尼指数min{Gini(F,Zn,cn),n∈{1,2,3},cn∈{zkn,zkn∈F}}对应的特征、可能值分别作为最优特征、最优二值切分点;
其中,基尼指数越小代表杂质越低、越“纯净”;
步骤6.1.2:将最优特征作为CART决策树的根结点,从根节点生成两个子结点,根据最优二值切分点将训练样本集F分配到该两个子节点中;
步骤6.1.3:从根节点开始,对生成的子节点执行步骤6.1.1至步骤6.1.2的操作,继续生成新的子节点,直到新的子节点不能再生成子节点,生成原始二叉决策树T0
步骤6.2:对原始二叉决策树T0进行剪枝。
先从原始决策树生成各种剪枝效果的决策树,再用交叉验证来检验剪枝后的预测能力,选择泛化预测能力最好的剪枝后的树作为最终的CART决策树,具体步骤如下:
步骤6.2.1:令s=0,T=T0
步骤6.2.2:令α=+∞;
步骤6.2.3:自下而上地对树T的内部结点t进行计算
Figure BDA0002185413840000111
α=min(α,g(t));其中,Tt表示以t为根结点的子树,|Tt|是Tt的叶结点个数,C(Tt)是以t为根结点对训练数据的训练误差,C(t)是以t为单结点对训练数据的训练误差;本实施例中,将以t为根结点对训练数据进行分类的基尼指数作为C(Tt),将以t为单结点对训练数据进行分类的基尼指数作为C(t);
步骤6.2.4:自上而下地访问内部结点t,对g(t)=α的内部结点进行剪枝,并对叶结点t以多数表决法决定其类,得到树T;
步骤6.2.5:令s=s+1,αs=α,Ts=T
步骤6.2.6:如果T不是由根结点及两个叶结点构成的树,回到步骤6.2.4;
步骤6.2.7:采用交叉验证法在子树序列{T0,T1,...,Ts}上选取最优子树Tα
本实施例中,得到的最优子树如图2所示。该最优子树的决策树规则解释如下:决策树首先判断超限率是否小于4.4%,若否则是坏板,若是,则进一步判断长度方向上的方差是否小于5.994;若不小于5.994则是坏板,若小于5.994则进一步判断宽度方向上的方差是否小于1.177;若小于1.177则是好板,若不小于1.177则是坏板。上述决策树规则与人的经验基本上一致,并且将分类规则定量地可视化表现出来。
步骤7:对剪切线后的待检测钢板进行厚度采样测量,得到待检测钢板的厚度数据集,采用步骤2至步骤5中相同的方法,计算待检测钢板的相对厚度数据集、最优超限率、相对厚度在长度方向上的波动参数、相对厚度在宽度方向上的波动参数,得到表征待检测钢板的相对厚度的特征向量ztest,将ztest输入训练后的钢板板形质量异常检测模型,输出待检测钢板的板形质量标签。
本实施例中,以两个特征属性生成的CART决策树为例,对测试集中的样本采用决策树得到的if-then-else规则,从上到下进行判断,即从根结点到具体的叶结点逐步判断,生成的决策边界及两类样本在特征空间的分布情况如图3所示。图3中,黑色实线为决策边界,可以看出,本发明能够区分两类样本,避免明显误分类的情况。为了确保板形质量,现场技术人员需要对处于决策边界附近的样本进行确认。
显然,上述实施例仅仅是本发明的一部分实施例,而不是全部的实施例。上述实施例仅用于解释本发明,并不构成对本发明保护范围的限定。基于上述实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,也即凡在本申请的精神和原理之内所作的所有修改、等同替换和改进等,均落在本发明要求的保护范围内。

Claims (5)

1.一种基于CART决策树的钢板板形质量异常检测方法,其特征在于,包括下述步骤:
步骤1:数据采集:对剪切线后的第k块钢板进行厚度采样测量,得到第k块钢板的厚度数据集为Ak={ak(i,j),i∈{1,2,…,M},j∈{1,2,...,Nk}},并采集第k块钢板的板形质量标签yk
其中,k∈{1,2,...,K},K为钢板的总块数,ak(i,j)为第k块钢板在采样点(i,j)处的厚度,i为钢板宽度方向上的采样点序号,j为钢板长度方向上的采样点序号,M为钢板宽度方向上的采样点总数,Nk为第k块钢板长度方向上的采样点总数,Nk与第k块钢板的长度成正比;yk∈{0,1},yk=0代表第k块钢板需要追加冷矫工序,yk=1代表第k块钢板不需要追加冷矫工序;
步骤2:数据预处理:计算第k块钢板的相对厚度数据集为Bk={bk(i,j),i∈{1,2,...,M},j∈{1,2,...,Nk}};
其中,bk(i,j)为第k块钢板在采样点(i,j)处的相对厚度,bk(i,j)=ak(i,j)-ak *,ak *为第k块钢板的目标厚度;
步骤3:提取表征钢板相对厚度平均范围的钢板质量相关特征为最优超限率:
步骤3.1:设置钢板相对厚度阈值集合为{δ12,...,δl,…,δL};
其中,δl为第l个钢板相对厚度阈值,l∈{1,2,…,L},L为钢板相对厚度阈值的总数;
步骤3.2:计算超限率特征属性集为X={x1,x2,…,xk,…,xK};
其中,xk为第k块钢板的超限率向量,xk=(oLRk1,oLRk2,…,oLRkl,…,oLRkL)T,oLRkl为第k块钢板相对第l个钢板相对厚度阈值δl的超限率,
Figure FDA0002185413830000011
oLCkl为第k块钢板的相对厚度数据集Bk中绝对值超过阈值δl的元素数量;
步骤3.3:基于线性判别分析,结合板形质量标签yk,从第k块钢板的超限率向量xk中选取最优超限率oLRk,best,得到最优超限率集合oLR={oLR1,best,oLR2,best,…,oLRk,best,…,oLRK,best};
步骤4:提取表征钢板相对厚度整体波动范围的钢板质量相关特征为钢板相对厚度在长度、宽度方向上的波动参数,得到波动参数特征属性集为V={v1,v2,...,vk,...,vK};
其中,vk为第k块钢板的波动参数向量,vk=(lVk,wVk)T,lVk为第k块钢板的相对厚度在长度方向上的波动参数,wVk为第k块钢板的相对厚度在宽度方向上的波动参数;
步骤5:构造钢板板形质量样本集为E={(z1,y1),(z2,y2),...,(zk,yk),...,(zK,yK)},zk为表征第k块钢板的相对厚度的特征向量,zk=(zk1,zk2,zk3)T=(oLRk,best,lVk,wVk)T
步骤6:从钢板板形质量样本集E中选取样本构成训练样本集F,以表征钢板的相对厚度的特征向量为输入、钢板的板形质量标签为输出,利用训练样本集F构建并训练基于CART决策树的钢板板形质量异常检测模型;
步骤7:对剪切线后的待检测钢板进行厚度采样测量,得到待检测钢板的厚度数据集,采用步骤2至步骤5中相同的方法,计算待检测钢板的相对厚度数据集、最优超限率、相对厚度在长度方向上的波动参数、相对厚度在宽度方向上的波动参数,得到表征待检测钢板的相对厚度的特征向量ztest,将ztest输入训练后的钢板板形质量异常检测模型,输出待检测钢板的板形质量标签。
2.根据权利要求1所述的基于CART决策树的钢板板形质量异常检测方法,其特征在于,所述步骤3.3包括下述步骤:
步骤3.3.1:构造超限率-板形质量标签数据集D={(x1,y1),(x2,y2),...,(xk,yk),...,(xK,yK)},将数据集D中的元素按照板形质量标签分为两类D0={(xk,yk),yk=0}、D1={(xk,yk),yk=1};
步骤3.3.2:计算类内散度矩阵为
Figure FDA0002185413830000021
其中,x为超限率向量,um为类Dm中超限率向量的均值,m∈{0,1},
Figure FDA0002185413830000022
|Dm|为类Dm中的元素个数;
步骤3.3.3:计算类间散度矩阵为
Sb=(u0-u1)(u0-u1)T
步骤3.3.4:计算矩阵Sw -1Sb的最大特征值对应的特征向量w1
步骤3.3.5:计算特征向量w1中绝对值最大的元素,得到绝对值最大的元素对应的序号best,将超限率向量xk中的第best个元素oLRk,best作为第k块钢板的最优超限率,得到最优超限率集合oLR={oLR1,best,oLR2,best,…,oLRk,best,…,oLRK,best}。
3.根据权利要求1所述的基于CART决策树的钢板板形质量异常检测方法,其特征在于,所述步骤4包括下述步骤:
步骤4.1:计算第k块钢板的相对厚度在长度方向上的波动参数lVk为第k块钢板的相对厚度在长度方向上的方差,
Figure FDA0002185413830000031
Figure FDA0002185413830000032
为第k块钢板在长度方向的第j个采样点序号对应的相对厚度的平均值,
Figure FDA0002185413830000033
步骤4.2:计算第k块钢板的相对厚度在宽度方向上的波动参数wVk为第k块钢板的相对厚度在宽度方向上的方差,
Figure FDA0002185413830000034
Figure FDA0002185413830000035
为第k块钢板在宽度方向的第i个采样点序号对应的相对厚度的平均值,
Figure FDA0002185413830000036
步骤4.3:重复上述步骤4.1至步骤4.2,直至k=K,得到波动参数特征属性集V={v1,v2,…,vk,…,vK},vk=(lVk,wVk)T
4.根据权利要求1所述的基于CART决策树的钢板板形质量异常检测方法,其特征在于,所述步骤6中,利用训练样本集F构建并训练基于CART决策树的钢板板形质量异常检测模型,包括下述步骤:
步骤6.1:利用训练样本集F建立CART决策树:
步骤6.1.1:计算训练样本集F根据特征Zn是否小于可能值cn被分割成两部分F1(Zn,cn)={(zk,yk),zkn<cn}、F2(Zn,cn)={(zk,yk),zkn≥cn}对应的基尼指数为
Figure FDA0002185413830000041
其中,n∈{1,2,3},特征Z1、Z2、Z3分别代表最优超限率、相对厚度在长度方向上的波动参数、相对厚度在宽度方向上的波动参数;cn为特征Zn的可能值,cn∈{zkn,zkn∈F};Gini(F1(Zn,cn))、Gini(F2(Zn,cn))分别为集合F1(Zn,cn)、F2(Zn,cn)的基尼指数,
Figure FDA0002185413830000042
C1m、C2m分别为集合F1(Zn,cn)、F2(Zn,cn)中属于第m类的样本子集,m∈{0,1},第0、1类分别为板形质量标签为0、1的类;|F|、|F1(Zn,cn)|、|F2(Zn,cn)|、|C1m|、|C2m|分别为集合F、F1(Zn,cn)、F2(Zn,cn)、C1m、C2m中的样本总数;
选择最小基尼指数min{Gini(F,Zn,cn),n∈{1,2,3},cn∈{zkn,zkn∈F}}对应的特征、可能值分别作为最优特征、最优二值切分点;
步骤6.1.2:将最优特征作为CART决策树的根结点,从根节点生成两个子结点,根据最优二值切分点将训练样本集F分配到该两个子节点中;
步骤6.1.3:从根节点开始,对生成的子节点执行步骤6.1.1至步骤6.1.2的操作,继续生成新的子节点,直到新的子节点不能再生成子节点,生成原始二叉决策树T0
步骤6.2:对原始二叉决策树T0进行剪枝;
步骤6.2.1:令s=0,T=T0
步骤6.2.2:令α=+∞;
步骤6.2.3:自下而上地对树T的内部结点t进行计算
Figure FDA0002185413830000043
α=min(α,g(t));其中,Tt表示以t为根结点的子树,|Tt|是Tt的叶结点个数,C(Tt)是以t为根结点对训练数据的训练误差,C(t)是以t为单结点对训练数据的训练误差;
步骤6.2.4:自上而下地访问内部结点t,对g(t)=α的内部结点进行剪枝,并对叶结点t以多数表决法决定其类,得到树T;
步骤6.2.5:令s=s+1,αs=α,Ts=T
步骤6.2.6:如果T不是由根结点及两个叶结点构成的树,回到步骤6.2.4;
步骤6.2.7:采用交叉验证法在子树序列{T0,T1,...,Ts}上选取最优子树Tα
5.根据权利要求1所述的基于CART决策树的钢板板形质量异常检测方法,其特征在于,所述步骤6中,从钢板板形质量样本集E中选取样本构成训练样本集F包括:基于留出法,按照训练比例s1%、测试比例s2%对钢板板形质量样本集E进行随机分层采样,得到训练集F和测试集F'。
CN201910812350.0A 2019-08-30 2019-08-30 一种基于cart决策树的钢板板形质量异常检测方法 Active CN110516750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910812350.0A CN110516750B (zh) 2019-08-30 2019-08-30 一种基于cart决策树的钢板板形质量异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910812350.0A CN110516750B (zh) 2019-08-30 2019-08-30 一种基于cart决策树的钢板板形质量异常检测方法

Publications (2)

Publication Number Publication Date
CN110516750A CN110516750A (zh) 2019-11-29
CN110516750B true CN110516750B (zh) 2022-11-15

Family

ID=68628189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910812350.0A Active CN110516750B (zh) 2019-08-30 2019-08-30 一种基于cart决策树的钢板板形质量异常检测方法

Country Status (1)

Country Link
CN (1) CN110516750B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126490B (zh) * 2019-12-25 2023-10-31 东北大学 一种基于深度随机森林的钢板板形异常识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516104A (zh) * 2017-07-11 2017-12-26 合肥工业大学 一种基于二分法的优化cart决策树生成方法及其装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260531A1 (en) * 2017-03-10 2018-09-13 Microsoft Technology Licensing, Llc Training random decision trees for sensor data processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516104A (zh) * 2017-07-11 2017-12-26 合肥工业大学 一种基于二分法的优化cart决策树生成方法及其装置

Also Published As

Publication number Publication date
CN110516750A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
Audretsch et al. Mansfield’s missing link: The impact of knowledge spillovers on firm growth
CN110634080A (zh) 异常用电检测方法、装置、设备及计算机可读存储介质
CN113838054B (zh) 基于人工智能的机械零件表面损伤检测方法
CN107168063B (zh) 基于集成变量选择型偏最小二乘回归的软测量方法
CN113688458B (zh) 一种基于层次分析法的地基基础方案优选方法
CN110097266A (zh) 一种基于云模型的流程工业装备服役安全风险评估方法
CN106056235A (zh) 基于古林法物元可拓模型的输电网效率效益检测方法
CN112149750A (zh) 一种供水管网爆管识别数据驱动方法
CN108445867A (zh) 一种基于分散式icr模型的非高斯过程监测方法
CN111126499A (zh) 一种基于二次聚类的用电行为模式分类方法
CN103902798B (zh) 数据预处理方法
CN109447153A (zh) 用于非均衡数据分类的散度-激励自编码器及其分类方法
CN104155245A (zh) 一种基于模式识别与谱图映射的油品多类性质的检测方法
CN114429152A (zh) 基于动态指数对抗性自适应的滚动轴承故障诊断方法
CN110516750B (zh) 一种基于cart决策树的钢板板形质量异常检测方法
CN115471097A (zh) 一种数据驱动的井下局部区域安全状态评估方法
CN110084301B (zh) 一种基于隐马尔可夫模型的多工况过程工况辨识方法
CN106709522B (zh) 一种基于改进模糊三角数的高压电缆施工缺陷分级方法
CN112464168B (zh) 一种综合能源潜力用户靶向评估提取方法
CN105824785A (zh) 基于惩罚回归的快速异常点检测方法
CN111144910B (zh) 基于模糊熵均值阴影集的招投标“串标、陪标”对象推荐方法及装置
CN112581188A (zh) 工程项目投标报价预测模型构建方法、预测方法及模型
Sánchez et al. Applicability of cluster validation indexes for large data sets
CN114021905A (zh) 一种中小企业信用风险评价方法
CN113808393A (zh) 一种消除混杂控制对象影响的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant