CN110428175A - 一种基于深度学习的热轧带钢板凸度预报方法 - Google Patents
一种基于深度学习的热轧带钢板凸度预报方法 Download PDFInfo
- Publication number
- CN110428175A CN110428175A CN201910715086.9A CN201910715086A CN110428175A CN 110428175 A CN110428175 A CN 110428175A CN 201910715086 A CN201910715086 A CN 201910715086A CN 110428175 A CN110428175 A CN 110428175A
- Authority
- CN
- China
- Prior art keywords
- value
- layer
- data
- convexity
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000013135 deep learning Methods 0.000 title claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 77
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000010187 selection method Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000010606 normalization Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 71
- 230000006870 function Effects 0.000 claims description 66
- 229910000831 Steel Inorganic materials 0.000 claims description 57
- 239000010959 steel Substances 0.000 claims description 57
- 238000004519 manufacturing process Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000011478 gradient descent method Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 10
- 230000037430 deletion Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 238000005098 hot rolling Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 2
- 239000000203 mixture Substances 0.000 abstract 1
- 238000012549 training Methods 0.000 description 33
- 238000005096 rolling process Methods 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 230000010355 oscillation Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 235000004257 Cordia myxa Nutrition 0.000 description 3
- 244000157795 Cordia myxa Species 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000001808 coupling effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 1
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005097 cold rolling Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005272 metallurgy Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000002436 steel type Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Manufacturing & Machinery (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
- Control Of Metal Rolling (AREA)
Abstract
本发明公开了一种基于深度学习的热轧带钢板凸度预报方法,包括以下步骤:S1,采集并记录带钢生产数据,然后对采集到的数据进行预处理,包括缺失值删除、异常值删除、归一化;S2,根据所述带钢生产数据,利用基于Morisita指数的属性选择方法,去除所采集数据中的冗余与不相关属性,筛选出能够表征板凸度变化的最少数量的属性构成预报模型的输入变量集;S3,基于所述的输入变量集建立基于深广卷积神经网络的带钢出口板凸度预报模型,从而获得热轧带钢出口板凸度。本发明利用卷积神经网络中的卷积层提取数据的高阶特征和不变性特征,学习变量间局部相关关系,并结合深度神经网络的全局特征学习能力,显著提高了板凸度预报精度。
Description
技术领域
本发明涉及一种基于深度学习的热轧带钢板凸度预报方法,属于冶金领域。
背景技术
钢铁行业是国民生产和社会发展的支柱产业,在钢铁产品中,带钢素有通用钢材之称,是高端产品的重要基础材料,广泛应用于建筑、交通、国防等领域。随着制造业水平的不断提高,对高精度板带材的需求急剧增加,对板带材尺寸精度的要求也就更加严格。热轧作为带钢轧制的中间步骤,对冷轧等下游工序的产品质量有重大影响,因此实现热轧带钢板形的精准控制具有重要意义。带钢板形主要有板凸度和平坦度两个指标,板凸度反映断面形状,对板带材使用过程中焊接、装配等工艺的难度和最终产品性能有突出影响。此外,板带材轧制过程中,凸度测量仪的安装位置在精轧机组末机架出口侧3-5米处,所以相对于轧制过程,凸度测量值的获取存在明显的时间滞后,严重影响了控制效果。因此,根据生产过程数据对带钢出口凸度提前进行预报,对于实现带钢板凸度的精准控制具有重要意义。
热连轧生产线设备众多,大量的生产参数都会对热轧带钢板凸度造成一定程度的影响,这些影响无法用机理知识准确表述且相互之间存在不同程度的耦合作用。热轧生产数据波动和检测误差较大、信噪比低、分布不均匀,加之前文叙述的影响因素多、参数间高度耦合、作用机理复杂等问题,使得利用机理知识和传统机器学习方法进行带钢板凸度预报建模的难度较大,即使常用的机器学习与深度学习模型,如卷积神经网络、深度神经网络、支持向量机等,其模型预报精度与泛化能力也有待提高。
发明内容
本发明的目的在于,提供一种基于深度学习的热轧带钢板凸度预报方法,它可以有效解决现有技术中存在的问题,尤其是采用传统的机器学习与深度学习模型进行预报,其模型预报精度与泛化能力均较低的问题。
为解决上述技术问题,本发明采用如下的技术方案:一种基于深度学习的热轧带钢板凸度预报方法,包括以下步骤:
S1,采集并记录带钢生产数据,然后对采集到的数据进行预处理,包括缺失值删除、异常值删除、归一化;
S2,根据所述带钢生产数据,利用基于Morisita指数的属性选择方法,去除所采集数据中的冗余与不相关属性,筛选出能够表征板凸度变化的最少数量的属性构成预报模型的输入变量集;
S3,基于所述的输入变量集建立基于深广卷积神经网络的带钢出口板凸度预报模型,从而获得热轧带钢出口板凸度。
优选的,所述的基于Morisita指数的属性选择方法,即首先利用Morisita指数进行热轧数据集(X,Y)及其数据子集F、(F,Y)的固有维度估计,得到相应的估计值Mm;定义(F,Y)与F之间的固有维度之差Diss(F,Y)=Mm(F,Y)-Mm(F)为属性子集F与输出变量Y之间的独立性指标;其次,以Diss值为评价指标,根据前向顺序选择法从热轧数据集中选取一系列属性,作为预报模型的输入变量。从而能够准确量化属性子集F与输出变量Y之间的独立性,能够筛选出既能完全表征板凸度变化又不存在冗余现象的输入变量集,且筛选出的输入变量具有明确的物理意义。
更优选的,所述的基于Morisita指数的属性选择方法,具体包括以下步骤:
S21,选择一组δ值,计算相应的Morisita指数Im,δ;再利用log(Im,δ)与log(1/δ)之间线性部分的斜率Sm计算所估计数据集的固有维度估计值Mm:其中,2≤m;
S22,根据前向顺序选择法筛选预报模型的输入变量:首先,分别计算属性集合X中每个属性Xj与输出变量Y之间的独立性指标Diss(Xj,Y)(Diss(Xj,Y)=Mm(Xj,Y)-Mm(Xj)),将Diss值中最小值对应的属性Xj从X中移除,加入到待确定的属性排序集Z中,并在向量DissF中记录此Diss值;
S23,然后,将数据集X中剩余的每个属性Xi与Z中已有属性合并为属性子集(Z,Xi),分别计算每个属性子集(Z,Xi)与输出变量Y之间的独立性指标Diss(Z,Xi,Y)(Diss(Z,Xi,Y)=Mm(Z,Xi,Y)-Mm(Z,Xi)),将所得的Diss中最小值对应的属性Xi从X中移除并加入Z中,同时在向量DissF中记录此Diss值;
S24,重复步骤S23,直到属性集合X中最后一个属性被移除并加入到属性排序集Z中;
S25,选择最先使得Diss值降为0的属性变量以及在其之前加入Z中的属性变量组成预报模型的输入变量集(其后使得Diss值保持为0的变量则是Y的不相关变量或输入变量集的冗余变量,不予保留)。
通过采用上述的基于Morisita指数和前向选择策略的属性选择方法,根据数据集的固有维度计算一系列属性子集与输出变量之间的独立性,通过独立性指标排序来检索数据集中可用于建模的相关属性,筛选出能够完全表征板凸度变化且不存在冗余的一组输入变量,建立基于深广卷积神经网络的预报模型,提高了热轧带钢板凸度的预报精度,为实现板凸度精准控制打下了良好的基础;同时在属性选择过程中,将前向选择算法与高维热轧数据集相结合,逐层筛选对解释板凸度变化有贡献的属性,能够准确估计出需要保留的属性数目,避免了遍历高维数据集所有属性子集带来的庞大计算量。
优选为,m=2。实验证明,对于固定的δ取值序列,m取[2,100]区间内的任意数字得到的Diss序列结果都是相同的,属性选择的结果也是相同的,因此为了提高计算速度,优选m=2。
优选的,通过以下方法计算Morisita指数Im,δ:
其中,在归一化之后的待估计数据集所属的欧式空间上叠加一个E维网格,网格边长为1,将网格等分为Q个对角线长度为δ的方块,每个方块边长为l,P1表示从N个数据点中随机选择m个点,此m个随机点来自同一方块的概率;表示构造的一个与待估计数据集同等规模的随机分布数据集,叠加同样的网格后,在这个数据集中m个随机选择的点来自同一方块的概率;ni为第i个方块中数据点的个数;Q=(1/l)E;N为待估计数据集中数据点的个数;E为待估计数据集的欧几里得维度。通过利用本发明的方法计算Im,δ进而计算估计值Mm。此方法既能够准确得到数据集的固有维度估计值,又因最终公式简单直接而容易在编程环境中实现。
上述的基于深度学习的热轧带钢板凸度预报方法中,步骤S21中,通过以下方法来确定δ序列值:首先,确定1/l序列的取值,然后通过公式确定δ序列的取值,;其中,1/l表示E维网格每条边上的方块个数(由于数据预处理操作将热轧数据集中每列数据的取值均归一化到了[0,1]区间(以消除变量间量纲差异对属性选择结果的影响),因此数据集处于每条边长均为1的E维空间中,叠加其上的E维网格的每条边长也是1);1/l序列通过以下方法进行选取:
首先,针对完整的数据集,即包含所有属性和输出变量的数据集,计算并绘制log(Im,1/l)与log(1/l)的关系图,并通过log(Im,1/l)与log(1/l)关系图中线性部分对应的1/l范围来确定1/l取值集合的上界和下界;
其次,若1/l取值集合的上界小于30,则1/l序列取此范围内的每一个整数;若1/l取值集合的上界大于等于30,则(为了减小计算量)1/l序列取其中2的几何级数。由于对角线长度δ常为小数,难以直接指定其取值序列,因此通过确定1/l序列的取值,从而准确的确定了δ序列的取值。
前述的基于深度学习的热轧带钢板凸度预报方法中,步骤S3中所述的基于深广卷积神经网络的带钢出口板凸度预报模型,利用深度神经网络DNN部分学习输入数据的全局特征,利用卷积神经网络CNN部分中卷积层的局部连接、特征提取功能学习输入数据的局部特征,将二者的学习结果结合,得到板凸度预报输出值;具体公式为:
其中,y为板凸度预报输出值,为DNN部分最后一层隐含层中第i个节点的输出,为DNN中最后一层隐含层中第i个节点与输出节点的连接权值;为CNN部分最后一层全连接层中第j个节点的输出,为CNN中最后一层全连接层中第j个节点与输出节点的连接权值;b为偏置项,σ为非线性激活函数(可选择tanh函数);通过利用深度神经网络部分学习输入数据的全局特征,利用卷积神经网络部分中卷积层的局部连接、特征提取功能学习输入数据的局部特征,将二者的学习结果结合,来建立板凸度预报模型,从而可以显著提高模型预报的精度。
优选的,建立板凸度预报模型的深度神经网络部分时,将属性选择所得的向量输入网络,经过3层隐含层,得到全局特征学习结果,每层隐含层节点的输出为
其中,为DNN中第j层隐含层中第i个节点的输出,为第j层的前一层中第k个节点的值,为第j层的前一层中第k个节点与第j层隐含层中第i个节点之间的连接权值,bd,j,i为偏置项,σ为非线性激活函数(可选择tanh函数);最后一层隐含层的输出即为DNN部分的输出
优选的,建立板凸度预报模型的卷积神经网络部分时,将属性选择所得到的输入向量转化为二维矩阵输入卷积神经网络。从而可以充分利用卷积神经网络中卷积层所具备的特征提取的功能,提取输入矩阵的不变性特征和高阶特征以学习变量间的局部相关关系,特征提取之后再输入全连接层,与直接使用全连接网络相比,预报效果有显著的提升。
优选的,步骤S3还包括:建立基于深广卷积神经网络的带钢出口板凸度预报模型时,利用卷积层运算的局部连接、权值共享,提取输入矩阵的高阶特征及不变性特征,同时缩减卷积神经网络部分的模型参数。
更优选的,所述的利用卷积层运算的局部连接提取输入矩阵的高阶特征及不变性特征,同时缩减卷积神经网络部分的模型参数,包括:卷积核在输入矩阵上滑动,每次运算都只和输入矩阵中与之重叠的区域连接并进行卷积操作;所述的利用卷积层运算的权值共享特性提取输入矩阵的高阶特征及不变性特征,同时缩减模型参数包括:卷积层输出矩阵中的每个元素都由输入矩阵与同一卷积核进行卷积运算所得,运算过程中输入矩阵的各个区域共享同一卷积核的权值,卷积结果计算公式为:
其中,为CNN中第j层卷积结果的第i个输出矩阵中第s行k列的值,为第j层卷积层的输入矩阵中第s+u-1行k+v-1列的值,为第j层卷积层的第i个卷积核中第u行v列的权值,bcc,i,j为偏置项,σ为非线性激活函数(可选择selu函数)。
优选的,步骤S3还包括:将CNN部分中经过若干层卷积层后得到的输出特征矩阵展平为一个向量,输入其后的全连接层,全连接层的操作与DNN中隐含层的操作相同,即
其中,为CNN中第j层全连接层中第i个节点的输出,为第j层全连接层的前一层中第k个节点的值,为第j层的前一层中第k个节点与第j层中第i个节点之间的连接权值,bcf,j,i为偏置项,σ为非线性激活函数(可选择tanh函数);最后一层全连接层的输出即为CNN部分的学习结果与DNN的学习结果结合得到预报模型的板凸度预报输出。
前述的基于深度学习的热轧带钢板凸度预报方法中,步骤S3还包括:采用小批量梯度下降法反向优化卷积神经网络的参数θ,即每次迭代只随机优化一个小批量数据上的损失函数,参数θ更新的公式为:
其中,θ代表整个卷积神经网络中所有需要迭代优化的参数,包括权值ω和偏置b;η为参数更新步长;J(θ)为损失函数;进行参数更新时,达到设定的迭代次数即终止;
损失函数为:
其中,yi为板凸度的实际值(其值为数据集中输出变量的值),yi *为板凸度的预报值;R(ω)为正则化项,表示模型的复杂度,λ表示模型复杂度损失在总损失中的比例;wi代表所采用的神经网络预报模型中所有的权值。
优选为,所述的迭代次数设为10000。从而使得预报模型达到收敛,预报精度更高。
优选为,将η设置为随着迭代次数增加而逐渐减小的变量,保证优化速度的同时能够减小目标函数值在最优解附近的振荡,采用指数衰减法设置参数更新步长η,公式为:
ηi+1=ηi.dri/ds
其中,ηi+1表示新一轮迭代学习率,ηi表示当前迭代学习率,i表示当前迭代轮数,dr表示衰减系数,ds表示衰减速度,即所有样本数据迭代完一次所需轮数。
针对训练数据规模较大的数据集,本发明反向优化算法采用小批量梯度下降法,既克服了梯度下降法中每次迭代都需优化全部训练数据上的损失函数所带来的训练速度缓慢的问题,又避免了随机梯度下降法中每次迭代仅仅随机优化某一条训练数据上的损失函数所带来的参数震荡严重、甚至无法达到局部最优等问题。小批量梯度下降法综合了以上二者的优点:一方面,通过矩阵运算,每次在一部分数据上优化损失函数不会比单个数据慢太多;另一方面,可以大大减少收敛所需的迭代次数,同时达到与梯度下降法接近的收敛效果。另外,本发明所采用的小批量梯度下降法相对于启发式优化算法,具有训练速度快、收敛速度快等优势;此外,损失函数中,正则化项表达式将各个权值的平方和加入损失函数,能够限制训练过程中权值的大小,使得模型不能任意拟合训练数据中的随机噪音,从而提高了模型的泛化能力,即提高模型在未参与训练的数据上的预报性能。
与现有技术相比,本发明具有以下优点:
1、本发明采用能够准确预报板凸度的深度学习方法——基于深广卷积神经网络的板凸度预报模型:热连轧机系统是一个具有非线性、多变量、强耦合、大时滞特性的动态系统,热轧带钢板凸度的影响因素众多,作用机理复杂,直接影响带钢板凸度的预报精度,进而影响控制效果。本发明综合考虑热连轧机生产线各部分设备的生产参数对带钢出口板凸度的非线性作用以及参数间不同程度的耦合关系,将深度学习引入板凸度的预报,提出一种基于深广卷积神经网络的板凸度预报方法,避免了建立系统各变量与带钢出口凸度之间的数学物理关系式,拟合出影响因素对板凸度的作用模型,提高了带钢出口凸度预报精度,为出口板凸度的精准控制奠定了基础;而且本发明利用深度神经网络部分学习输入数据的全局特征,利用卷积神经网络部分的卷积层提取数据的高阶特征和不变性特征,学习变量间的局部相关关系,二者结合,进一步提高了板凸度预报精度。经试验研究表明:将本发明的深广卷积神经网络模型预报结果与卷积神经网络、深度神经网络和支持向量机的预报结果对比,结果显示本发明所建立的深广卷积神经网络模型预报误差各项指标均优于对比模型,有更高的模型精度与泛化能力。本发明的模型预报性能符合实际生产要求,为热轧带钢板凸度的预报提供了新的思路与方法。
2、本发明采用能够去除冗余和不相关变量的属性选择方法——基于Morisita指数的属性选择方法:由于热连轧系统中各部分作用机理复杂,很难用精确的物理数学模型加以描述,且板凸度预报中存在大量的影响因素,这些因素与板凸度变化呈非线性关系,因素之间存在不同程度的耦合作用和冗余现象,利用先验知识无法准确筛选出既能完全表征板凸度变化又不存在过多冗余的输入变量集。因此本发明采用基于Morisita指数和前向选择策略的属性选择方法,根据数据集的固有维度计算每个属性子集与输出变量之间的独立性,通过独立性指标排序来检索数据集中可用于建模的相关属性,去除原始数据集中的冗余与不相关信息,同时保留能够充分解释板凸度变化的信息,从而进一步提高了板凸度预报精度。
3、本发明通过这种方式Diss(F,Y)=Mm(F,Y)-Mm(F)定义属性子集F与输出变量Y之间独立性,能够精确衡量某属性子集对Y的解释能力,从而能够直接删除热轧带钢数据集中Y的无关属性和冗余属性。这种方式的优势在于:与互信息等通过计算每个属性与输出变量之间相关系数并设置阈值来选择强相关属性建立预报模型的方法相比,本发明的方法能够去除强相关属性中的冗余属性,只保留能够解释输出变量的最少数量的属性,在减少预报模型输入变量数目的基础上不损失信息量,既能减少计算复杂度又能提高预报精度;与将最终的模型预报结果作为评价函数进行最优属性子集选择的包裹式方法相比,本发明的方法在保证预报效果的同时大大减少了计算量;与主成分分析等降维方法相比,本发明的方法既能去除冗余变量,又能保留所选变量的物理意义。
4、本发明将卷积神经网络引入热轧带钢板凸度的预报,将其优势应用于具有非线性强耦合特性的热连轧生产数据上,利用特征提取功能突出了变量间的作用关系,提取数据的高阶特征以及不变性特征,有利于预报精度的提高,具体实现时,卷积核按照顺序在输入矩阵上滑动,每次卷积操作都只与输入矩阵局部连接,且输入矩阵的每个局部区域都共享同一卷积核(即卷积核只与输入矩阵中的局部区域连接并卷积,得到其对应的输出矩阵中的一个元素,然后卷积核滑动,保证和输入矩阵上的所有区域都连接卷积过,即得一个完整的输出矩阵;然后下一个卷积核与输入矩阵滑动卷积,得到下一个输出矩阵,也就是说,一个输出矩阵生成的过程中,输入矩阵中的每个局部区域共享同一卷积核,如果生成另一个输出矩阵则换另一个卷积核进行操作)。
本发明的难度在于,样本数量增长的同时,所采集的变量数目也在迅速增加。机理知识的缺乏导致回归预报问题中考虑的一些输入变量与输出变量相关性弱甚至不相关,且输入变量之间存在冗余现象。当弱相关或冗余变量较多时,不仅增加了建模过程中的计算复杂度且影响模型的预报准确性,因此在建立预报模型之前需要进行属性选择,筛选出既能完全表征输出变量又无冗余现象的输入变量集。本发明利用基于Morisita指数的属性选择方法去除所采集数据中的冗余与不相关变量,筛选出能够表征板凸度变化的最少数量的输入变量建立板凸度预报模型,从而提高了预报准确度,降低了计算成本。本发明的另外一个难点在于:热连轧生产线作用机理复杂,板凸度的影响变量众多,经过属性选择得到的输入变量之间依然存在不同程度的非线性耦合关系,这些关系无法用数学表达式准确描述,机理模型和传统机器学习模型都难以准确模拟此生产过程,导致板凸度预报精度较低。本发明利用深度学习模型对于非线性强耦合数据强大的拟合学习能力,通过深度神经网络学习输入数据的全局特征,同时通过卷积神经网络中的卷积层提取数据的高阶和不变性特征从而学习到数据的局部特征,最后将二者学习结果结合,显著提高了板凸度预报模型的预报精度和泛化能力。
附图说明
图1是本发明的一种实施例的结构示意图;
图2为二维空间数据的Morisita指数计算网格示意图;
图3为深广卷积神经网络板凸度预报模型示意图;
图4为卷积操作示意图;
图5为训练集最后批次100组数据预报结果;
图6为测试集板凸度预报结果。
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
具体实施方式
一种基于深度学习的热轧带钢板凸度预报方法,如图1所示,包括以下步骤:
S1,采集并记录带钢生产数据,然后对采集到的数据进行预处理,包括缺失值删除、异常值删除、归一化;
S2,根据所述带钢生产数据,利用基于Morisita指数的属性选择方法,去除所采集数据中的冗余与不相关属性,筛选出能够表征板凸度变化的最少数量的属性构成预报模型的输入变量集;
S3,基于所述的输入变量集建立基于深广卷积神经网络的带钢出口板凸度预报模型,从而获得热轧带钢出口板凸度。
为了能够筛选出既能完全表征板凸度变化又不存在冗余现象的输入变量集,且筛选出的输入变量具有明确的物理意义,所述的基于Morisita指数的属性选择方法,即首先利用Morisita指数进行热轧数据集(X,Y)及其数据子集F、(F,Y)的固有维度估计,得到相应的估计值Mm;定义(F,Y)与F之间的固有维度之差Diss(F,Y)=Mm(F,Y)-Mm(F)为属性子集F与输出变量Y之间的独立性指标;其次,以Diss值为评价指标,根据前向顺序选择法从热轧数据集中选取一系列属性,作为预报模型的输入变量。
可选的,所述的基于Morisita指数的属性选择方法,具体包括以下步骤:
S21,选择一组δ值,计算相应的Morisita指数Im,δ;再利用log(Im,δ)与log(1/δ)之间线性部分的斜率Sm计算所估计数据集的固有维度估计值Mm:其中,2≤m;优选为,m=2(实验证明,对于固定的δ取值序列,m取[2,100]区间内的任意数字得到的Diss序列结果都是相同的,属性选择的结果也是相同的,因此为了提高计算速度,在本实施例中取m=2);
S22,根据前向顺序选择法筛选预报模型的输入变量:首先,分别计算属性集合X中每个属性Xj(如Xj,j=1,2,…50)与输出变量Y之间的独立性指标Dis(sj,X(Diss(Xj,Y)=Mm(Xj,Y)-Mm(Xj)),将Diss值中最小值对应的属性Xj从X中移除,加入到待确定的属性排序集Z中,并在向量DissF中记录此Diss值;
S23,然后,将数据集X中剩余的每个属性Xi(如Xi(i=1,2,…,49))与Z中已有属性合并为属性子集(Z,Xi),分别计算每个属性子集(Z,Xi)与输出变量Y之间的独立性指标Diss(Z,Xi,Y)(Diss(Z,Xi,Y)=Mm(Z,Xi,Y)-Mm(Z,Xi)),将所得的(49个)Diss中最小值对应的属性Xi从X中移除并加入Z中,同时在向量DissF中记录此Diss值;
S24,重复步骤S23,直到属性集合X中最后一个属性被移除并加入到属性排序集Z中;
S25,选择最先使得Diss值降为0的属性变量以及在其之前加入Z中的属性变量组成预报模型的输入变量集(其后使得Diss值保持为0的变量则是Y的不相关变量或输入变量集的冗余变量,不予保留)。
为了能够准确得到数据集的固有维度估计值,并直接在编程环境中以简单的方式实现,步骤S21中,通过以下方法计算Morisita指数Im,δ:
其中,在归一化之后的待估计数据集所属的欧式空间上叠加一个E维网格,网格边长为1,将网格等分为Q个对角线长度为δ的方块,方块边长为l,P1表示从N个数据点中随机选择m个点,此m个随机点来自同一方块的概率;表示构造的一个与待估计数据集同等规模的随机分布数据集,叠加同样的网格后,在这个数据集中m个随机选择的点来自同一方块的概率;ni为第i个方块中数据点的个数;Q=(1/l)E;N为待估计数据集中数据点的个数;E为待估计数据集的欧几里得维度。(从N个数据点(实际上,N是预处理之后所有带钢生产数据的个数;预处理之后的完整数据集包括50个属性和1个输出变量,N(N=11544)个数据点,数据集可看做一个11544×51的矩阵;每次从中抽取若干列构成数据子集进行固有维度估计,因此每个子集中也都包含N个数据点,即本实施例中所有需要进行固有维度估计的数据集均包含N个数据点)中随机选择m个点,首先计算此m个随机点来自同一方块的概率P1(设所使用数据集有N个数据点,某次Im,δ计算将叠加在数据空间上的E维网格划分为了Q个大小相等的方块,每个方块中数据点的个数为ni(i=1,2,...Q),则从数据空间中随机选择m个点共有N(N-1)(N-2)…(N-m+1)种情况,此m个点来自同一方块共有种情况,因此m个点来自同一方块的概率P1为:
再构造一个与所研究数据集同等规模的随机分布数据集(在实际操作过程中,可利用matlab软件中的rand函数产生与所研究数据集同等规模的随机分布数据集),叠加同样的网格,计算在这个数据集中m个随机选择的点来自同一方块的概率P2(对于同规模的随机分布数据集,从中随机选择的m个点来自同一方块共有种情况,因此m个点来自同一方块的概率P2为
优选为N=11544。
由于对角线长度δ常为小数,难以直接指定其取值序列,为了准确地确定δ序列的取值,通过以下方法来确定δ序列值:首先,确定1/l序列的取值,然后通过公式确定δ序列的取值;其中,1/l表示E维网格每条边上的方块个数(由于数据预处理操作将热轧数据集中每列数据的取值均归一化到了[0,1]区间(以消除变量间量纲差异对属性选择结果的影响),因此数据集处于每条边长均为1的E维空间中,叠加其上的E维网格的每条边长也是1);1/l序列通过以下方法进行选取:
首先,针对完整的数据集,即包含所有属性和输出变量的数据集,计算并绘制log(Im,1/l)与log(1/l)的关系图(在此过程中1/l的取值序列应足够大,本实施例中设置为:1/l∈{1,2,...,200}),并通过log(Im,1/l)与log(1/l)关系图中线性部分对应的1/l范围来确定1/l取值集合的上界和下界(注:由于log(1/δ)与log(1/l)为线性关系,另外,由Im,δ的计算公式可知,Im,δ的计算只跟网格内数据点的分布情况有关,1/l序列与δ序列虽数值不同,却代表了相同的网格划分情况即相同的网格内数据点分布情况,因此log(Im,1/l)=log(Im,δ);所以log(Im,1/l)与log(1/l)关系图中线性部分和log(Im,δ)与log(1/δ)关系图中线性部分是相同的)。在本实施例中,log(Im,1/l)与log(1/l)关系图线性部分对应的1/l取值范围为:(1,2,3,4,...73));其次,若1/l取值集合的上界小于30,则1/l序列取此范围内的每一个整数;若1/l取值集合的上界大于等于30,则(为了减小计算量)1/l序列取其中2的几何级数(本实施例中,1/l的取值序列为:(1,2,4,8,16,32,64))。
为了进一步提高模型预报的精度,步骤S3中所述的基于深广卷积神经网络的带钢出口板凸度预报模型,利用深度神经网络DNN部分学习输入数据的全局特征,利用卷积神经网络CNN部分中卷积层的局部连接、特征提取功能学习输入数据的局部特征,将二者的学习结果结合,得到板凸度预报输出值(如图3所示);具体公式为:
其中,y为板凸度预报输出值,为DNN部分最后一层隐含层中第i个节点的输出,为DNN中最后一层隐含层中第i个节点与输出节点的连接权值;为CNN部分最后一层全连接层中第j个节点的输出,为CNN中最后一层全连接层中第j个节点与输出节点的连接权值;b为偏置项,σ为非线性激活函数(可选择tanh函数)。
本发明中,步骤S3还包括:建立基于深广卷积神经网络的带钢出口板凸度预报模型时,利用深度神经网络的全连接操作学习输入数据的全局特征。
具体地,所述的利用全连接运算提取全局特征包括:将属性选择所得到的变量输入网络,经过3层隐含层,得到全局特征学习结果,每层隐含层节点的输出为:
其中,为DNN中第j层隐含层中第i个节点的输出,为第j层的前一层中第k个节点的值,为第j层的前一层中第k个节点与第j层隐含层中第i个节点之间的连接权值,bd,j,i为偏置项,σ为非线性激活函数(可选择tanh函数);最后一层隐含层的输出即为DNN部分的输出
为了进一步提高预报精度,建立板凸度预报模型的卷积神经网络部分时,将属性选择所得到的输入向量转化为二维矩阵输入卷积神经网络。从而可以充分利用卷积神经网络中卷积层所具备的特征提取的功能,提取输入矩阵的不变性特征和高阶特征以学习变量间的局部相关关系,特征提取之后再输入全连接层。
本发明中,步骤S3还包括:建立基于深广卷积神经网络的带钢出口板凸度预报模型时,利用卷积层运算的局部连接、权值共享,提取输入矩阵的高阶特征及不变性特征,同时缩减卷积神经网络部分的模型参数。
具体的,所述的利用卷积层运算的局部连接提取输入矩阵的高阶特征及不变性特征,同时缩减卷积神经网络部分的模型参数,包括:卷积核在输入矩阵上滑动,每次运算都只和输入矩阵中与之重叠的区域连接并进行卷积操作;所述的利用卷积层运算的权值共享特性提取输入矩阵的高阶特征及不变性特征,同时缩减模型参数包括:卷积层某输出矩阵中的每个元素都由输入矩阵与同一卷积核进行卷积运算所得,运算过程中输入矩阵的各个区域共享同一卷积核的权值(卷积运算如图4所示),卷积结果计算公式为:
其中,为CNN中第j层卷积结果的第i个输出矩阵中第s行k列的值,为第j层卷积层的输入矩阵中第s+u-1行k+v-1列的值,为第j层卷积层的第i个卷积核中第u行v列的权值,bcc,i,j为偏置项,σ为非线性激活函数(可选择selu函数)。
将CNN部分中经过若干层卷积层后得到的输出特征矩阵展平为一个向量,输入其后的全连接层,全连接层的操作与DNN中隐含层的操作相同,即
其中,为CNN中第j层全连接层中第i个节点的输出,为第j层全连接层的前一层中第k个节点的值,为第j层的前一层中第k个节点与第j层中第i个节点之间的连接权值,bcf,j,i为偏置项,σ为非线性激活函数(可选择tanh函数);最后一层全连接层的输出即为CNN部分的学习结果与DNN的学习结果结合得到预报模型的板凸度预报输出。
为了克服梯度下降法中每次迭代都需优化全部训练数据上的损失函数所带来的训练速度缓慢的问题,又避免随机梯度下降法中每次迭代仅仅随机优化某一条训练数据上的损失函数所带来的参数震荡严重、甚至无法达到局部最优等问题,步骤S3还包括:采用小批量梯度下降法反向优化卷积神经网络的参数θ,即每次迭代只随机优化一个小批量数据上的损失函数((本实施例中每次随机选取100条训练数据),参数θ更新的公式为:
其中,θ代表整个卷积神经网络中所有需要迭代优化的参数,包括权值ω和偏置b;η为参数更新步长;J(θ)为损失函数;进行参数更新时,达到设定的迭代次数即终止;
损失函数为:
其中,yi为板凸度的实际值(其值为数据集中输出变量的值),yi *为板凸度的预报值;R(ω)为正则化项,表示模型的复杂度,(表达式将各个权值的平方和加入损失函数,能够限制训练过程中权值的大小,使得模型不能任意拟合训练数据中的随机噪音,提高模型的泛化能力,即提高模型在未参与训练的数据上的预报性能);λ表示模型复杂度损失在总损失中的比例(λ为超参数,需手工调试,本实施例中,λ取0.0015);wi代表所采用的神经网络预报模型中所有的权值。
可选的,所述的迭代次数设为10000;模型达到收敛,预报精度更高。
优选为,将η设置为随着迭代次数增加而逐渐减小的变量,保证优化速度的同时能够减小目标函数值在最优解附近的振荡,采用指数衰减法设置参数更新步长η,公式为:
ηi+1=ηi.dri/ds
其中,ηi+1表示新一轮迭代学习率,ηi表示当前迭代学习率,i表示当前迭代轮数,dr表示衰减系数,ds表示衰减速度,即所有样本数据迭代完一次所需轮数(本实施例中,i的取值范围为1~10000,基础学习率η1设置为0.01,dr设为0.99,ds为训练集样本总量除以每批次所使用样本数量所得,其值为
实验例:一种基于深度学习的热轧带钢板凸度预报方法,如图1所示,包括以下步骤:
(1)数据采集和记录:采集某2160热连轧机组的轧制历史数据,包括:精轧机组每个机架的速度、轧制力、弯辊力、窜辊量,侧压机压下量,粗轧中心线位置、以及带钢的钢种、温度、长度、宽度、厚度、重量等,每条带钢采集上述50个生产变量数据和凸度数据作为一条样本,并用一个51维向量来表示;
(2)数据预处理:对原始数据进行数据清洗及转化,包括缺失值删除、利用3σ准则进行异常值删除以及归一化等步骤,得到11544条带钢的生产参数进行预报模型的训练和测试。删除缺失值和异常值之后的数据集矩阵表示为:
为了消除不同变量之间取值范围和量纲差异对模型训练的影响,提高收敛速度和预报精度,对数据集进行归一化,经归一化变换后的矩阵表示为:
所用归一化的公式为:
其中,xmax,j和xmin,j分别表示第j列数据中的最大值与最小值。
(3)属性选择
利用基于Morisita指数的属性选择方法去除所采集数据中的冗余与弱相关变量,筛选出能够表征板凸度变化的最少数量的输入变量来建立板凸度预报模型;所述的基于Morisita指数的属性选择方法,即利用Morisita指数进行数据集固有维度估计,根据数据集固有维度之差来选择用于预报模型建立的输入变量;具体包括以下步骤:
a.参数设置:为求出数据集的固有维度估计值Mm,需选择一组合适的δ值,计算相应的Im,δ,利用log(Im,δ)与log(1/δ)之间线性部分的斜率Sm计算Mm的数值;本实施例中,m=2(即随机选择两个点来计算Im,δ);确定δ序列时,借助于方块边长l的倒数1/l,1/l的取值序列为:(1,2,4,8,16,32,64),根据公式得到相应的δ序列。
b.分别计算数据集X中每个属性Xj(j=1,2,…,50)与输出变量Y之间的独立性,公式如下:
Diss(Xj,Y)=Mm(Xj,Y)-Mm(Xj);
选择Diss最小值所对应的属性Xj,并在向量DissF中记录此Diss值;将选择的属性Xj从数据集X中移除,加入到待确定的属性排序集Z中;
c.分别计算X中每个剩余属性如Xi(i=1,2,…,49)与Z中已有属性合并后与Y之间的独立性,公式如下:
Diss(Z,Xi,Y)=Mm(Z,Xi,Y)-Mm(Z,Xi)
选择Diss最小值所对应的属性Xi,并在向量DissF向量中记录此Diss值;将选择的变量Xi从数据集X中移除并加入到Z中;
重复执行步骤c,直到X中最后一个属性被移除并加入到Z中,计算结束。DissF中存储的Diss数值是递减的,每个数值DissF(i)表示其对应的属性Zi(i=1,2,…,50)及其之前的属性所构成的属性子集与变量Y之间的独立性。DissF中的数值及其对应的属性如下表:
表1属性子集与Y的独立性指标
Z<sub>1</sub> | Z<sub>2</sub> | Z<sub>3</sub> | Z<sub>4</sub> | Z<sub>5</sub> | Z<sub>6</sub> | Z<sub>7</sub> | Z<sub>8</sub> | Z<sub>9</sub> | Z<sub>10</sub> | ... | Z<sub>50</sub> | |
变量 | X<sub>1</sub> | X<sub>3</sub> | X<sub>13</sub> | X<sub>16</sub> | X<sub>2</sub> | X<sub>7</sub> | X<sub>37</sub> | X<sub>29</sub> | X<sub>25</sub> | X<sub>30</sub> | ... | X<sub>49</sub> |
DissF | 0.54 | 0.51 | 0.49 | 0.45 | 0.25 | 0.13 | 0.08 | 0.02 | 0 | 0 | ... | 0 |
由表可知,应选择变量(X1X3X13X16X2X7X37X29X25)作为预报模型的输入变量集;
其中,本发明中定义Diss=ID(属性子集,输出变量)-ID(属性子集),用来表示属性子集与输出变量Y之间的独立性。只有在属性子集中加入与Y相关且与现有属性子集不完全冗余的属性才能使Diss值减小,Diss减为0说明目前已选属性集已经能够完全表征输出变量Y。
其中,通过以下方法计算Morisita指数Im,δ:设有包含N个数据点的数据集,其欧几里得维度为E;在归一化之后的待估计数据集所属的欧式空间上叠加一个E维网格,则网格边长为1;将网格划分为Q个对角线长度为δ的方块,每个方块边长为l;图2所示为在二维数据空间上叠加网格时,网格随δ取值的变化情况。从N个数据点中随机选择m个点,首先计算此m个随机点来自同一方块的概率P1,再构造一个与待估计数据集同等规模的随机分布数据集,叠加同样的网格,计算在这个数据集中m个随机选择的点来自同一方块的概率P2,则有:
其中,ni为第i个方块中数据点的个数;
对于固定的m值,选择一组δ值,计算相应的Im,δ;如果数据集服从分形行为,即数据集的局部性质和结构与整体相似,那么log(Im,δ)与log(1/δ)的函数关系是线性的;将双log图中直线部分的斜率定义为Morisita斜率Sm,则固有维度ID(·)的估计值Mm定义为:
本实施例中,N=11544,代表预处理之后的数据含有11544条样本;E的值随着待估计固有维度的数据集的变化而变化,E为数据集的列数;1/l的取值序列为(1,2,4,8,16,32,64);m取2,
Q=(1/l)E。
(4)数据集划分:根据属性选择结果,将11544条9变量的生产数据按照8:2的比例随机划分为训练集和测试集,即训练集样本数为11544×80%≈9236,测试集样本数为11544×20%≈2308;
(5)建立板凸度预报模型:基于深广卷积神经网络的板凸度预报模型如图3所示。其中,深度神经网络(DNN)部分利用全连接操作学习输入数据的全局特征,卷积神经网络(CNN)部分利用卷积层的局部连接、特征提取功能学习输入数据的局部特征。将二者的学习结果结合,得到板凸度的预报输出值:
其中,y为板凸度预报输出值,为DNN部分最后一层隐含层中第i个节点的输出,为DNN部分最后一层隐含层中第i个节点与输出节点的连接权值;为CNN部分最后一层全连接层中第j个节点的输出,为CNN部分最后一层全连接层中第j个节点与输出节点的连接权值;b为偏置项,σ为非线性激活函数(可选择tanh函数)。
在DNN部分,将属性选择所得的变量输入网络,经过3层隐含层,得到全局特征学习结果,每层隐含层节点的输出为:
其中,为DNN中第j层隐含层中第i个节点的输出,为第j层的前一层中第k个节点的值,为第j层的前一层中第k个节点与第j层隐含层中第i个节点之间的连接权值,bd,j,i为偏置项,σ为非线性激活函数(可选择tanh函数);最后一层隐含层的输出即为DNN部分的输出
在CNN部分,为了充分利用二维卷积操作的特征提取的功能,将每个样本9维的输入向量转换为3×3的矩阵作为CNN模型的输入,学习变量间的局部相关关系。
对本发明中用到的Le-Net5结构卷积神经网络中的卷积层作详细介绍。本发明用到的二维卷积运算的原理如图4所示,卷积核对输入矩阵进行滑动遍历卷积,每执行一次卷积操作,得到输出矩阵的一个元素。
如图4所示,卷积核在输入矩阵上滑动,和输入矩阵中与之重叠的区域进行卷积操作,卷积结果计算公式为:
其中,为CNN中第j层卷积结果的第i个输出矩阵中第s行k列的值,为第j层卷积层的输入矩阵中第s+u-1行k+v-1列的值,为第j层卷积层的第i个卷积核中第u行v列的权值,bcc,i,j为偏置项,σ为非线性激活函数(可选择selu函数)。
卷积操作会导致输出矩阵的维度比输入矩阵小,由于经过属性选择后输入矩阵的维度本就偏小,所以为了更好地保存提取出的高级特征,同时也为了减轻过拟合,在卷积时对输入矩阵进行零填充(即在输入矩阵的上下各一行、前后各一列的位置上填充0元素),保证卷积后的输出矩阵大小与输入矩阵相同。
另外,经属性选择之后的输入数据不含冗余变量,因此为了更完整地保存数据信息,本发明省略了原始卷积神经网络模型中的池化层。
第一层卷积选取30个3×3的卷积核,每个卷积核按照图4所示操作独立地对输入矩阵进行卷积,得到30个输出矩阵,滑动步长设为1且对输入矩阵进行了零填充,因此,每个输出矩阵的维度仍为3×3。
第二层卷积选取60个3×3的卷积核,不进行零填充,卷积操作仍如图4所示,得到60个1×1的输出矩阵。
将第二层卷积的输出结果转换成一维向量的形式,输入全连接层,全连接层的操作与深度神经网络部分中的隐含层相同,即
其中,为CNN中第j层全连接层中第i个节点的输出,为第j层全连接层的前一层中第k个节点的值,为第j层的前一层中第k个节点与第j层中第i个节点之间的连接权值,bcf,j,i为偏置项,σ为非线性激活函数(可选择tanh函数);最后一层全连接层的输出即为CNN部分的学习结果与DNN的学习结果结合得到预报模型的板凸度预报输出。
(6)深广卷积神经网络的训练:,待训练的模型参数包括深度神经网络部分中各层之间的连接权值和偏置,卷积神经网络部分中卷积层的权值和偏置,各全连接层之间的连接权值和偏置,以及两部分网络与输出节点之间的连接权值与偏置。损失函数J(θ)以样本的板凸度预报值与实际值之间的均方误差(MSE,mean squared error)为基础,同时为减轻过拟合问题,在J(θ)中加入正则化项。正则化的思想就是在损失函数中加入刻画模型复杂程度的指标,加入正则化项后的损失函数表达式为:
其中,yi为板凸度的实际值,yi *为板凸度的预报值;θ代表整个深广卷积神经网络中所有的参数,包括权值ω和偏置b;R(ω)为正则化项,表示模型的复杂度,λ表示模型复杂度损失在总损失中的比例。
一般来说模型复杂度只由权值ω决定,常用的R(ω)有两种形式,分别为L1正则化和L2正则化,本发明选用L2正则化,表达式为:
模型参数的反向优化算法选择小批量梯度下降法,即每次迭代时只随机优化一小部分(一个批次)训练数据的损失函数,既克服了梯度下降法在全部训练数据上优化损失函数造成的计算量大、参数更新速度慢等弊端,又解决了随机梯度下降每次迭代只优化某一条训练数据所带来的参数波动较大且甚至无法达到局部最优等问题。小批量梯度下降法与梯度下降法进行参数更新的方式相同,参数θ更新的公式为:
将参数更新步长η设置为随着迭代次数增加而逐渐减小的变量,保证优化速度的同时能够减小目标函数值在最优解附近的振荡。采用指数衰减法设置参数η,公式为:
ηi+1=ηi.dri/ds
其中,ηi+1表示新一轮迭代学习率,ηi表示当前迭代学习率,i表示当前迭代轮数,dr表示衰减系数,ds表示衰减速度,即所有样本数据迭代完一次所需轮数(本实验例中,i的取值范围为1~10000,基础学习率η1设置为0.01,dr设为0.99,ds为训练集样本总量除以每批次所使用样本数量所得,其值为
具体的,训练集与测试集预报结果如图5和图6所示。训练过程中采用小批量梯度下降法,即每次训练迭代过程都是随机选择一小部分训练数据(本实验例选取100个)计算并优化其损失函数,因此训练集预报结果展示以最后一个批次的训练结果为例。
(7)预报模型性能测试
采用平均绝对误差MAE,平均绝对百分误差MAPE,均方误差RMSE来评价深广卷积神经网络带钢出口凸度预报模型的泛化性能,即模型在未参与过训练的测试数据上的性能表现。上述指标计算公式如下:
将深广卷积神经网络模型预报结果与卷积神经网络、深度神经网络和支持向量机对比,测试集预报效果如表2所示。结果显示本发明所建立的深广卷积神经网络模型预报误差各项指标均优于对比模型,有更高的预报精度与泛化能力,符合实际生产中的精度要求,为热轧带钢板凸度的预报提供了新的思路与方法。
表2测试集在不同模型上的预报效果
Claims (10)
1.一种基于深度学习的热轧带钢板凸度预报方法,其特征在于,包括以下步骤:
S1,采集并记录带钢生产数据,然后对采集到的数据进行预处理,包括缺失值删除、异常值删除、归一化;
S2,根据所述带钢生产数据,利用基于Morisita指数的属性选择方法,去除所采集数据中的冗余与不相关属性,筛选出能够表征板凸度变化的最少数量的属性构成预报模型的输入变量集;
S3,基于所述的输入变量集建立基于深广卷积神经网络的带钢出口板凸度预报模型,从而获得热轧带钢出口板凸度。
2.根据权利要求1所述的基于深度学习的热轧带钢板凸度预报方法,其特征在于,所述的基于Morisita指数的属性选择方法,即首先利用Morisita指数进行热轧数据集(X,Y)及其数据子集F、(F,Y)的固有维度估计,得到相应的估计值Mm;定义(F,Y)与F之间的固有维度之差Diss(F,Y)=Mm(F,Y)-Mm(F)为属性子集F与输出变量Y之间的独立性指标;其次,以Diss值为评价指标,根据前向顺序选择法从热轧数据集中选取一系列属性,作为预报模型的输入变量。
3.根据权利要求2所述的基于深度学习的热轧带钢板凸度预报方法,其特征在于,所述的基于Morisita指数的属性选择方法,具体包括以下步骤:
S21,选择一组δ值,计算相应的Morisita指数Im,δ;再利用log(Im,δ)与log(1/δ)之间线性部分的斜率Sm计算所估计数据集的固有维度估计值Mm:其中,2≤m;优选为,m=2;
S22,根据前向顺序选择法筛选预报模型的输入变量:首先,分别计算属性集合X中每个属性Xj与输出变量Y之间的独立性指标Diss(Xj,Y):Diss(Xj,Y)=Mm(Xj,Y)-Mm(Xj),将Diss值中最小值对应的属性Xj从X中移除,加入到待确定的属性排序集Z中,并在向量DissF中记录此Diss值;
S23,然后,将数据集X中剩余的每个属性Xi与Z中已有属性合并为属性子集(Z,Xi),分别计算每个属性子集(Z,Xi)与输出变量Y之间的独立性指标Diss(Z,Xi,Y):Diss(Z,Xi,Y)=Mm(Z,Xi,Y)-Mm(Z,Xi),将所得的Diss中最小值对应的属性Xi从X中移除并加入Z中,同时在向量DissF中记录此Diss值;
S24,重复步骤S23,直到属性集合X中最后一个属性被移除并加入到属性排序集Z中;
S25,选择最先使得Diss值降为0的属性变量以及在其之前加入Z中的属性变量组成预报模型的输入变量集。
4.根据权利要求3所述的基于深度学习的热轧带钢板凸度预报方法,其特征在于,步骤S21中,通过以下方法计算Morisita指数Im,δ:
其中,在归一化之后的待估计数据集所属的欧式空间上叠加一个E维网格,网格边长为1,将网格等分为Q个对角线长度为δ的方块,每个方块边长为l,P1表示从N个数据点中随机选择m个点,此m个随机点来自同一方块的概率;表示构造的一个与待估计数据集同等规模的随机分布数据集,叠加同样的网格后,在这个数据集中m个随机选择的点来自同一方块的概率;ni为第i个方块中数据点的个数;Q=(1/l)E;N为待估计数据集中数据点的个数;E为待估计数据集的欧几里得维度。
5.根据权利要求3所述的基于深度学习的热轧带钢板凸度预报方法,其特征在于,步骤S21中,通过以下方法来确定δ序列值:首先,确定1/l序列的取值,然后通过公式确定δ序列的取值;其中,1/l表示E维网格每条边上的方块个数;1/l序列通过以下方法进行选取:
首先,针对完整的数据集,即包含所有属性和输出变量的数据集,计算并绘制log(Im,1/l)与log(1/l)的关系图,并通过log(Im,1/l)与log(1/l)关系图中线性部分对应的1/l范围来确定1/l取值集合的上界和下界;
其次,若1/l取值集合的上界小于30,则1/l序列取此范围内的每一个整数;若1/l取值集合的上界大于等于30,则1/l序列取其中2的几何级数。
6.根据权利要求1-5任一所述的基于深度学习的热轧带钢板凸度预报方法,其特征在于,步骤S3中所述的基于深广卷积神经网络的带钢出口板凸度预报模型,利用深度神经网络DNN部分学习输入数据的全局特征,利用卷积神经网络CNN部分中卷积层的局部连接、特征提取功能学习输入数据的局部特征,将二者的学习结果结合,得到板凸度预报输出值;具体公式为:
其中,y为板凸度预报输出值,为DNN部分最后一层隐含层中第i个节点的输出,为DNN中最后一层隐含层中第i个节点与输出节点的连接权值;为CNN部分最后一层全连接层中第j个节点的输出,为CNN中最后一层全连接层中第j个节点与输出节点的连接权值;b为偏置项,σ为非线性激活函数;优选为,建立板凸度预报模型的DNN部分时,将属性选择所得的变量输入网络,经过3层隐含层,得到全局特征学习结果,每层隐含层节点的输出为:
其中,为DNN中第j层隐含层中第i个节点的输出,为第j层的前一层中第k个节点的值,为第j层的前一层中第k个节点与第j层隐含层中第i个节点之间的连接权值,bd,j,i为偏置项,σ为非线性激活函数;最后一层隐含层的输出即为DNN部分的输出
7.根据权利要求6所述的基于深度学习的热轧带钢板凸度预报方法,其特征在于,建立板凸度预报模型的卷积神经网络部分时,将属性选择所得到的输入向量转化为二维矩阵输入卷积神经网络。
8.根据权利要求6所述的基于深度学习的热轧带钢板凸度预报方法,其特征在于,步骤S3还包括:建立基于深广卷积神经网络的带钢出口板凸度预报模型时,利用卷积层运算的局部连接、权值共享,提取输入矩阵的高阶特征及不变性特征,同时缩减卷积神经网络部分的模型参数;优选为,所述的利用卷积层运算的局部连接提取输入矩阵的高阶特征及不变性特征,同时缩减卷积神经网络部分的模型参数,包括:卷积核在输入矩阵上滑动,每次运算都只和输入矩阵中与之重叠的区域连接并进行卷积操作;所述的利用卷积层运算的权值共享特性提取输入矩阵的高阶特征及不变性特征,同时缩减模型参数包括:卷积层输出矩阵中的每个元素都由输入矩阵与同一卷积核进行卷积运算所得,运算过程中输入矩阵的各个区域共享同一卷积核的权值,卷积结果计算公式为:
其中,为CNN中第j层卷积层的第i个输出矩阵中第s行k列的值,为第j层卷积层的输入矩阵中第s+u-1行k+v-1列的值,为第j层卷积层的第i个卷积核中第u行v列的权值,bcc,i,j为偏置项,σ为非线性激活函数。
9.根据权利要求6所述的基于深度学习的热轧带钢板凸度预报方法,其特征在于,步骤S3还包括:将卷积神经网络部分中经过若干层卷积层后得到的输出特征矩阵展平为一个向量,输入其后的全连接层,全连接层的操作与DNN中隐含层的操作相同,即
其中,为CNN中第j层全连接层中第i个节点的输出,为第j层全连接层的前一层中第k个节点的值,为第j层的前一层中第k个节点与第j层中第i个节点之间的连接权值,bcf,j,i为偏置项,σ为非线性激活函数;最后一层全连接层的输出即为CNN部分的学习结果与DNN的学习结果结合得到预报模型的板凸度预报输出。
10.根据权利要求6所述的基于深度学习的热轧带钢板凸度预报方法,其特征在于,步骤S3还包括:采用小批量梯度下降法反向优化卷积神经网络的参数θ,即每次迭代只随机优化一个小批量数据上的损失函数,参数θ更新的公式为:
其中,θ代表整个卷积神经网络中所有需要迭代优化的参数,包括权值ω和偏置b;η为参数更新步长;J(θ)为损失函数;进行参数更新时,达到设定的迭代次数即终止;
损失函数为:
其中,yi为板凸度的实际值,yi *为板凸度的预报值;R(ω)为正则化项,表示模型的复杂度,λ表示模型复杂度损失在总损失中的比例;wi代表所采用的神经网络预报模型中所有的权值;优选为,所述的迭代次数设为10000;优选为,采用指数衰减法设置参数更新步长η,公式为:
ηi+1=ηi.dri/ds
其中,ηi+1表示新一轮迭代学习率,ηi表示当前迭代学习率,i表示当前迭代轮数,dr表示衰减系数,ds表示衰减速度,即所有样本数据迭代完一次所需轮数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910715086.9A CN110428175B (zh) | 2019-08-05 | 2019-08-05 | 一种基于深度学习的热轧带钢板凸度预报方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910715086.9A CN110428175B (zh) | 2019-08-05 | 2019-08-05 | 一种基于深度学习的热轧带钢板凸度预报方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110428175A true CN110428175A (zh) | 2019-11-08 |
CN110428175B CN110428175B (zh) | 2022-05-24 |
Family
ID=68412462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910715086.9A Active CN110428175B (zh) | 2019-08-05 | 2019-08-05 | 一种基于深度学习的热轧带钢板凸度预报方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110428175B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241657A (zh) * | 2019-12-30 | 2020-06-05 | 新大陆数字技术股份有限公司 | 一种基于深度学习的冷轧带钢板形预测方法 |
CN111250548A (zh) * | 2020-01-18 | 2020-06-09 | 太原科技大学 | 一种基于核偏最小二乘结合支持向量机的板凸度预测方法 |
CN111258996A (zh) * | 2020-01-15 | 2020-06-09 | 东北大学 | 一种面向工业大数据的产品质量多源深度融合预报方法 |
CN112255095A (zh) * | 2020-09-25 | 2021-01-22 | 汕头大学 | 一种土体应力应变关系确定方法 |
CN112439794A (zh) * | 2020-12-04 | 2021-03-05 | 东北大学 | 一种基于lstm的热轧弯辊力预测方法 |
CN112926644A (zh) * | 2021-02-22 | 2021-06-08 | 山东大学 | 一种滚动轴承剩余使用寿命预测方法及系统 |
CN113753343A (zh) * | 2021-07-23 | 2021-12-07 | 阳春新钢铁有限责任公司 | 一种成品盘卷防挤压变形的控制系统及方法 |
CN113808370A (zh) * | 2021-09-17 | 2021-12-17 | 国家石油天然气管网集团有限公司 | 一种面向滑坡的多指标耦合监测预警方法 |
CN114692817A (zh) * | 2020-12-31 | 2022-07-01 | 合肥君正科技有限公司 | 一种动态调整量化feature clip值的方法 |
CN117840232A (zh) * | 2024-03-05 | 2024-04-09 | 东北大学 | 一种基于增量学习的热轧过程宽度预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107377634A (zh) * | 2017-07-19 | 2017-11-24 | 东北大学 | 一种热轧带钢出口凸度预报方法 |
CN108021938A (zh) * | 2017-11-29 | 2018-05-11 | 中冶南方工程技术有限公司 | 一种冷轧带钢表面缺陷在线检测方法以及检测系统 |
CN108242054A (zh) * | 2018-01-09 | 2018-07-03 | 北京百度网讯科技有限公司 | 一种钢板缺陷检测方法、装置、设备和服务器 |
CN109632825A (zh) * | 2019-01-18 | 2019-04-16 | 创新奇智(重庆)科技有限公司 | 一种钢卷表面异常突起的自动检测方法 |
-
2019
- 2019-08-05 CN CN201910715086.9A patent/CN110428175B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107377634A (zh) * | 2017-07-19 | 2017-11-24 | 东北大学 | 一种热轧带钢出口凸度预报方法 |
CN108021938A (zh) * | 2017-11-29 | 2018-05-11 | 中冶南方工程技术有限公司 | 一种冷轧带钢表面缺陷在线检测方法以及检测系统 |
CN108242054A (zh) * | 2018-01-09 | 2018-07-03 | 北京百度网讯科技有限公司 | 一种钢板缺陷检测方法、装置、设备和服务器 |
CN109632825A (zh) * | 2019-01-18 | 2019-04-16 | 创新奇智(重庆)科技有限公司 | 一种钢卷表面异常突起的自动检测方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241657A (zh) * | 2019-12-30 | 2020-06-05 | 新大陆数字技术股份有限公司 | 一种基于深度学习的冷轧带钢板形预测方法 |
CN111241657B (zh) * | 2019-12-30 | 2023-03-10 | 新大陆数字技术股份有限公司 | 一种基于深度学习的冷轧带钢板形预测方法 |
CN111258996A (zh) * | 2020-01-15 | 2020-06-09 | 东北大学 | 一种面向工业大数据的产品质量多源深度融合预报方法 |
CN111258996B (zh) * | 2020-01-15 | 2023-09-01 | 东北大学 | 一种面向工业大数据的产品质量多源深度融合预报方法 |
CN111250548B (zh) * | 2020-01-18 | 2021-11-12 | 太原科技大学 | 一种基于核偏最小二乘结合支持向量机的板凸度预测方法 |
CN111250548A (zh) * | 2020-01-18 | 2020-06-09 | 太原科技大学 | 一种基于核偏最小二乘结合支持向量机的板凸度预测方法 |
CN112255095A (zh) * | 2020-09-25 | 2021-01-22 | 汕头大学 | 一种土体应力应变关系确定方法 |
CN112255095B (zh) * | 2020-09-25 | 2023-12-01 | 汕头大学 | 一种土体应力应变关系确定方法 |
CN112439794A (zh) * | 2020-12-04 | 2021-03-05 | 东北大学 | 一种基于lstm的热轧弯辊力预测方法 |
CN114692817A (zh) * | 2020-12-31 | 2022-07-01 | 合肥君正科技有限公司 | 一种动态调整量化feature clip值的方法 |
CN112926644A (zh) * | 2021-02-22 | 2021-06-08 | 山东大学 | 一种滚动轴承剩余使用寿命预测方法及系统 |
CN113753343A (zh) * | 2021-07-23 | 2021-12-07 | 阳春新钢铁有限责任公司 | 一种成品盘卷防挤压变形的控制系统及方法 |
CN113808370A (zh) * | 2021-09-17 | 2021-12-17 | 国家石油天然气管网集团有限公司 | 一种面向滑坡的多指标耦合监测预警方法 |
CN117840232A (zh) * | 2024-03-05 | 2024-04-09 | 东北大学 | 一种基于增量学习的热轧过程宽度预测方法 |
CN117840232B (zh) * | 2024-03-05 | 2024-05-31 | 东北大学 | 一种基于增量学习的热轧过程宽度预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110428175B (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428175B (zh) | 一种基于深度学习的热轧带钢板凸度预报方法 | |
Huang et al. | Dsanet: Dual self-attention network for multivariate time series forecasting | |
CN111950854B (zh) | 一种基于多层神经网络的焦炭质量指标预测方法 | |
CN107729943B (zh) | 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用 | |
CN113537600B (zh) | 一种全过程耦合机器学习的中长期降水预报建模方法 | |
CN111241657B (zh) | 一种基于深度学习的冷轧带钢板形预测方法 | |
CN106022954B (zh) | 基于灰色关联度的多重bp神经网络负荷预测方法 | |
CN109886464B (zh) | 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法 | |
CN107505837A (zh) | 一种半监督神经网络模型及基于该模型的软测量建模方法 | |
CN112439794B (zh) | 一种基于lstm的热轧弯辊力预测方法 | |
CN106815782A (zh) | 一种基于神经网络统计学模型的房地产估值方法及系统 | |
CN112945162B (zh) | 一种堆积层滑坡位移预测模型及预测方法 | |
CN106778846A (zh) | 一种基于支持向量机的风电场风速预测方法 | |
CN104881707B (zh) | 一种基于集成模型的烧结能耗预测方法 | |
CN113780420B (zh) | 基于gru-gcn的变压器油中溶解气体浓度预测方法 | |
CN107274016A (zh) | 随机蛙跳算法优化对称极限学习机的带钢出口厚度预测方法 | |
CN113722997A (zh) | 一种基于静态油气田数据的新井动态产量预测方法 | |
CN110110447B (zh) | 一种混合蛙跳反馈极限学习机带钢厚度预测方法 | |
CN117010274B (zh) | 一种基于集成增量学习的地下水有害元素智能预警方法 | |
CN117455551A (zh) | 一种基于行业关系复杂网络的行业用电量预测方法 | |
CN109540089A (zh) | 一种基于贝叶斯-克里金模型的桥面高程拟合方法 | |
CN117592358A (zh) | 一种利用mic指标进行热轧带钢机械性能优化的方法 | |
CN112170502A (zh) | 一种轧制过程弯辊力的预测方法 | |
CN111832951A (zh) | 用于评价小断块特低渗储层油藏开发价值的方法和系统 | |
CN111861002A (zh) | 基于数据驱动高斯学习技术的建筑物冷热负荷预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |