CN111931948A - 用于测量混凝土抗压强度的深度集成森林回归建模方法 - Google Patents

用于测量混凝土抗压强度的深度集成森林回归建模方法 Download PDF

Info

Publication number
CN111931948A
CN111931948A CN202010263130.XA CN202010263130A CN111931948A CN 111931948 A CN111931948 A CN 111931948A CN 202010263130 A CN202010263130 A CN 202010263130A CN 111931948 A CN111931948 A CN 111931948A
Authority
CN
China
Prior art keywords
layer
forest
concrete
compressive strength
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010263130.XA
Other languages
English (en)
Inventor
汤健
夏恒
乔俊飞
杜胜利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010263130.XA priority Critical patent/CN111931948A/zh
Publication of CN111931948A publication Critical patent/CN111931948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种用于测量混凝土抗压强度的基于深度集成森林回归的建模方法,包括:通过采用适合工业过程的维数约简策略对原始高维特征进行预处理,获得约简特征向量;然后,以约简特征向量作为输入,训练多个子森林模型,通过KNN近邻法选取若干个子森林的预测值进行组合获得层回归向量,将其与约简特征向量进行组合获得增强层回归向量,进而获得该层的输出;其次,将输入层的增强层回归向量作输入,以获得第2层森林模型的输出,重复依次进行,直到完成第K‑1层森林模型的输出;最后,以第K‑1层的中间层森林模型的输出作为输出层森林模型模块输入,训练多个子森林模型,通过将该层子森林模型的预测输出进行算术平均最终预测结果。

Description

用于测量混凝土抗压强度的深度集成森林回归建模方法
技术领域
本发明涉及一种用于测量混凝土抗压强度的深度集成森林回归建模方法。
背景技术
限于复杂物理/化学生产过程的机理不清、非线性和强耦合等综合复杂特性,表征该类过程产品质量和环保指标的关键过程参数通常被称为难测参数[1]。这类参数采用先人工定时采样、再在实验室离线化验分析(如混凝土抗压强度、城市固废焚烧过程污染排放的二噁英浓度和表征磨矿质量的磨矿粒度)或依靠优秀的领域专家在生产现场凭经验估计(如表征磨矿效率的磨机负荷)得到。上述非精确、大滞后的检测方法成为制约生产过程实现运行优化与反馈控制的主要瓶颈之一[2]。结合生产过程机理和经验知识,采用离线容易检测的过程变量建立难测参数的软测量模型是解决该问题的有效方法之一[3]。
集成学习作为机器学习的主要分支,在工业过程难测参数软测量领域得到了广泛的应用。决策树(DT)作为集成学习的一种基学习器,不仅可以处理分类问题,也能够处理回归问题,其中最具代表性的为分类与回归树(CART)[4]。将DT进行集成的方法被称之为森林算法(FM),其中以Breiman提出的随机森林(RF)[5]算法最具有代表性。
深度神经网络学习算法[6]使得传统机器学习方法在很多领域失去了竞争性,但其本质上为“黑箱”模型,存在着超参数多、训练难度大等问题。Zhou等人[7]分析DNN成功的内在原因,提出了由多粒度扫描和级联森林两部分组成的深度森林(DF)结构,进行非神经网络结构深度学习的研究,初步探索了由FM模型组成的深度模型。Kevin等人[8]也从DNN中获取灵感,通过将神经元替换成DT,提出了一种前瞻性深层随机森林(FTDRF)。虽然类似相关研究逐渐增多,但其研究领域主要以处理图像识别、自然语言处理等分类问题为主,主要贡献在于将类分布向量作为层与层之间传递的特征表征方式。针对工业过程连续性数值数据,文献[9]在多粒度扫描之前,引入深度玻尔兹曼机(DBM)将原始特征转换成二维向量,然后采用DF方法构建分类器,采用工业过程故障诊断数据对方法进行了验证,实验结果表明DBM与DF结合的方法有效提高了故障诊断的识别率。
混凝土作为现代建设工程中必不可少的材料,其抗压强度是混凝土最为重要的指标。在混凝土结构工程中,混凝土的强度是通过混凝土试件抗压强度试验的结果进行检验评定。因无法在线测量混凝土抗压强度的实时数据,导致混凝土生产制作流程难以实现优化控制。针对混凝土抗压强度参数通常需要长周期的离线化验分析才能获得。文献[10,11,12]均提出了基于集成学习的软测量建模方法,实现了混凝土抗压强度的在线软测量。但上述研究文献的混凝土抗压强度软测量模型的结构复杂,模块之间没有考虑特征的表征学习,同时存在对混凝土抗压强度软测量值预测精度偏低等问题。
发明内容
复杂工业过程的难以检测质量指标或环保指标参数通常需要长周期的离线化验分析才能获得,为实现这些过程的运行优化控制通常需要对这些难测参数进行在线实时测量。涉及多种物理、化学原理的工业过程的机理复杂性导致难以构建具有可解释性的高维输入特征与难测参数间的映射模型。
针对上述问题,本发明提出了一种用于测量混凝土抗压强度的基于深度集成森林回归 (DEFR)的建模方法包括:采用维数约简模块通过采用适合工业过程的维数约简策略对原始高维特征进行预处理,获得约简特征向量;采用输入层森林模块以约简特征向量作为输入,训练多个子森林模型,通过KNN近邻法选取若干个子森林的预测值进行组合获得层回归向量,将其与约简特征向量进行组合获得增强层回归向量,进而获得该层的输出;采用中间层森林模块包含K-2层,其将输入层的增强层回归向量作输入,采用与输入层森林模块相同的方式获得第2层森林模型的输出,重复依次进行,直到完成第K-1层森林模型的输出;采用输出层森林模块以第K-1层的中间层森林模型的输出作为输出层(第K层)森林模型模块输入,训练多个子森林模型,通过将该层子森林模型的预测输出进行算术平均最终预测结果。采用UCI平台混凝土抗压强度数据仿真验证了所提方法的有效性。
附图说明
图1本发明流程图;
图2第tth个子森林模型F1,t(·)的示意图;
图3不同样本阈值下的RMSE;
图4不同决策树数量下的RMSE;
图5混凝土强度训练集的预测曲线;
图6混凝土强度验证集的预测曲线;
图7混凝土强度测试数据的预测曲线;
图8不同特征的相关系数值;
图9不同样本阈值下的RMSE;
图10不同决策树数量下的RMSE;
图11混凝土强度训练集的预测曲线;
图12混凝土强度验证集的预测曲线;
图13混凝土强度测试集的预测曲线。
具体实施方式
本发明提出了一种用于测量混凝土抗压强度的基于深度集成森林回归(DEFR)的建模方法,通过由维数约简模块、输入层森林模块、中间层森林模块和输出层森林模块实现DEFR 建模,其中,每个子森林模型中的决策树数量为J个,如图1所示。
图1中,x表示原始高维特征向量,其包括:混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个过程测量值(过程测量值即为数据样本的特征,下文将统一描述成特征);xdimred表示通过维数约简后的约简特征向量(输入层的输入特征向量),即对混凝土抗压强度8个特征进行维数约简;F1,t(·) 表示混凝土抗压强度软测量中,输入层森林模型的第tth个子森林模型;
Figure BDA0002440107990000031
表示输入层森林模型中第tth个子森林模型F1,t(·)的J个决策树生成的混凝土抗压强度预测值向量;
Figure BDA0002440107990000032
表示输入层森林模型中第tth个预测值向量
Figure BDA0002440107990000033
的预测均值;
Figure BDA0002440107990000034
表示利用kNN从输入层森林模型中第tth个预测值向量
Figure BDA0002440107990000035
中选择预测均值
Figure BDA0002440107990000036
附近的kkNN个混凝土抗压强度预测值组成的回归向量;
Figure BDA0002440107990000037
表示输入层森林模型的T个回归向量串联组成的层回归向量;
Figure BDA0002440107990000038
表示约简特征向量xdimred与输入层森林模型的层回归向量串联组成的增强层回归向量,其同时为混凝土抗压强度软测量模型中,中间层(第2层)的输入特征向量;
Figure BDA0002440107990000039
表示输入特征向量xdimred与第k-1层森林模型的层回归向量串联组成的增强层回归向量,即为混凝土抗压强度软测量模型中,第kth层森林模型输入特征向量;k=1,2,…,K,K表示DEFR的层数(深度);Fk,t(·)表示混凝土抗压强度软测量模型中,第kth层森林模型中第tth个子森林模型;
Figure BDA00024401079900000310
表示第kth层森林模型中第tth个子森林模型Fk,t(·)的J个决策树生成的混凝土抗压强度预测值向量;
Figure BDA00024401079900000311
表示第kth层森林模型中第tth预测值向量
Figure BDA00024401079900000312
的预测均值;
Figure BDA00024401079900000313
表示利用kNN从预测值向量
Figure BDA00024401079900000314
中选择预测均值
Figure BDA00024401079900000315
附近kkNN个混凝土抗压强度预测值组成的回归向量;
Figure BDA00024401079900000316
表示第kth层森林模型的T个回归向量串联组成的层回归向量;
Figure BDA00024401079900000317
表示输入特征向量xdimred与第kth层森林模型的层回归向量串联组成的增强层回归向量,即为第k+1层森林模型的输入特征向量;
Figure BDA00024401079900000318
表示第(K-1)th层森林模型的T个回归向量串联组成的层回归向量;
Figure BDA00024401079900000319
表示输入特征向量xdimred与第 K-1层森林模型的层回归向量串联组成的增强层回归向量,即为混凝土抗压强度软测量模型中,第Kth层森林模型输入特征向量;FK,t(·)表示混凝土抗压强度软测量模型中,第Kth 层森林模型中第tth个子森林模型;
Figure BDA00024401079900000320
表示第Kth层森林模型中第tth个子森林模型FK,t(·)的J个决策树生成的混凝土抗压强度预测值向量;
Figure BDA0002440107990000041
表示第Kth层森林中第tth个预测值向量
Figure BDA0002440107990000042
的预测均值;
Figure BDA0002440107990000043
表示DEFR最终的混凝土抗压强度预测输出值。
上述模块的功能如下:
(1)维数约简模块:采用维数约简方法对混凝土抗压强度数据中的原始高维特征向量进行预处理,获取约简特征向量;
(2)输入层森林模型模块:将约简特征向量作为输入,构建T个由J个决策树组成的子森林模型形成输入层森林模型,在每个子森林模型的预测值向量中选择kkNN个预测值组合成层回归向量,然后与约简向量组合形成增强层回归向量,进而获得中间层森林模型模块的输入;
(3)中间层森林模型模块:将输入层森林模型得到的增强层回归向量作为输入,以训练输入层森林模型相同的方式继续训练K-2层森林模型;
(4)输出层森林模型模块:以第K-1层森林模型的输出作为输出层(第K层)森林模型模块的输入,训练第K层森林模型,然后将第K层森林模型中的T个预测真值进行算术平均,进而得到最终混凝土抗压强度预测结果。
维数约简模块的具体处理过程为:
复杂物理/化学生产过程普遍存在强耦合、非线性等特点,导致过程数据中存在很多冗余特征易形成建模的维数灾等问题[13]。在进行模型训练前考虑利用维数约简算法将高维原始特征向量降低成有限的维数。维数约简能够用于处理维数灾问题、提高算法效率和模型可解释性以及数据可视化。由于回归问题中的输出为连续型实值变量,导致很多在分类问题中效果很好的约简方法并不能达到最优效果,以下列举了面向回归问题的线性和非线性维数约简方法,在使用本申请所提方法时,可根据不同数据集特点选择相应的维数约简方法,得到维数约简特征向量。
其中,线性维数约简方法有:(1)基于前二阶矩的维数约简算法:切片逆回归(Sliced Inverse Regression,SIR)[14]、切片平均方差估计(Sliced Average VarianceEstimation,SAE) [15]、主Hessian方向(Principal Hessian Direction,pHd)[16]、方向回归算法(Directional Regression,DR)[17];(2)基于模型的维数约简算法:主拟合成分[18];(3)基于互信息的维数约简算法:核维数约简(Kernel Dimension Reduction,KDR)[19]、最小平方维数约简 (Least-Squared Dimension Reduction,LSDR)[20]、基于非参互信息的维数约简(Mutual Information-Based Dimension Reduction,MIDR)[21];(4)基于相依准则的维数约简算法:希尔伯特-施密特独立性准则(Hilbert-Schmidt IndependenceCriterion,HSIC)[22]、距离协方差(Distance Covariance,DCOV)[23];(5)基于回归梯度的维数约简算法:基于梯度的核维数约简(Gradient-Based Kernel DimensionReduction,gKDR)[24]、最小平方梯度维数约简 (Least-Squares Gradients forDimension Reduction,LSGDR)[25]等。
非线性维数约简方法主要有:协方差算子逆回归(Covariance Operator InverseRegression, COIR)[26]、核切片逆回归(Kernel Sliced Inverse Regression,KSIR)[27]等。
输入层森林模型模块的具体处理过程为:
DEFR结构中的子森林可以采用多种形式的回归森林模型,如随机森林、完全随机森林等。采用自助采样(Bootstrap)和随机子空间法(Random Subspace Method,RSM)对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个特征和混凝土抗压强度检测值的训练集 D={(xi,yi),i=1,2,…N}∈RN×M进行样本和特征的随机采样,以增加子森林的多样性。
首先,描述输入层子森林的构建过程。
采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个特征和混凝土抗压强度检测值的训练集D进行随机采样,以输入层森林模型中第tth个子森林模型的J个训练子集
Figure BDA0002440107990000051
为例,其产生过程可表示为,
Figure BDA0002440107990000052
其中,D表示混凝土抗压强度软测量模型中,输入层森林模型中包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个特征和混凝土抗压强度检测值的训练集;J表示Bootstrap次数,也表示输入层森林模型中每个子森林模型的决策树数量;
Figure BDA0002440107990000053
表示输入层森林模型中第tth个子森林的第jth个训练子集,其中
Figure BDA0002440107990000054
表示第jth个训练子集从混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个特征中选择Mj个特征的训练样本,yj表示混凝土抗压强度的实际检测值;m=1,…,Mj, Mj表示输入层森林模型中第tth个子森林的第jth个训练集从8个特征中选择的特征数量,通常存在Mj<<M;t=1,2,...,T,t表示输入层森林模型中第tth个子森林模型。
以上述J个训练子集
Figure BDA0002440107990000055
构建混凝土抗压强度软测量模型中第tth个子森林中的J个决策树,得到输入层中第tth个子森林模型F1,t(·),其示意如图2所示。
构建子森林模型的过程详见文献[28]。重复上述步骤T次,即可得到输入层森林模型的集合
Figure BDA0002440107990000056
接着,描述输入层森林模型的增强层回归向量产生过程。
针对输入层森林模型中第tth个子森林模型,每个决策树模型将对混凝土过程测量值样本产生一个混凝土抗压强度预测值
Figure BDA0002440107990000061
然后得到J个混凝土抗压强度预测值
Figure BDA0002440107990000062
组成的预测值向量
Figure BDA0002440107990000063
计算输入层森林模型中第tth个子森林模型的预测均值,
Figure BDA0002440107990000064
通过kNN选取预测均值
Figure BDA0002440107990000065
附近的kkNN个混凝土抗压强度预测值组成第tth个子森林的回归向量
Figure BDA0002440107990000066
重复上述步骤T次,得到输入层森林模型中T个子森林模型的层回归向量
Figure BDA0002440107990000067
接着,将对混凝土抗压强度8个特征进行维数约简后的约简特征向量xdimred与层回归向量
Figure BDA0002440107990000068
进行串联组合,得到做为输入层森林模型输出的增强层回归向量
Figure BDA0002440107990000069
即为混凝土抗压强度软测量模型的中间层森林模型(第2层)的输入。其产生过程可表示为,
Figure BDA00024401079900000610
其中,kkNN表示选择预测均值附近的混凝土抗压强度预测值数量。
中间层森林模型模块的具体处理过程为:
以第kth层森林模型为例介绍中间层森林模型模块的构建过程。
第kth层森林模型的训练数据集Dk={(xk,i,yi),
Figure BDA00024401079900000611
为第k-1层森林模型所输出的增强层回归向量
Figure BDA00024401079900000612
与混凝土抗压强度检测值的组合,其中特征包含:混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量
Figure BDA00024401079900000613
其表示过程为,
Figure BDA0002440107990000071
其中,y表示训练集D中的混凝土抗压强度真值向量;N表示训练集D的样本数量;
Figure BDA0002440107990000072
表示第k-1层森林模型的层回归向量与将对混凝土抗压强度8个特征进行维数约简后的约简特征向量xdimred串联之后的增强层回归向量; Dk={(xk,i,yi),
Figure BDA0002440107990000073
表示第kth层森林模型的输入训练集,其中xk,i表示第ith个包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量
Figure BDA0002440107990000074
的训练样本,yi表示第ith个混凝土抗压强度的实际检测值;Mk=M+(kkNN×T)表示第kth层森林模型包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征、层回归向量
Figure BDA0002440107990000075
和混凝土抗压强度检测值的训练数据集 Dk的输入特征数量。
然后,采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征、层回归向量
Figure BDA0002440107990000076
和混凝土抗压强度检测值的训练数据集Dk进行样本和特征的随机采样,其训练子集的产生过程可表示为,
Figure BDA0002440107990000077
其中,
Figure BDA0002440107990000078
表示第kth层森林模型中第tth个子森林模型的第jth个训练子集,其中
Figure BDA0002440107990000079
表示第jth个训练子集中从混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量
Figure BDA00024401079900000710
中选择
Figure BDA0002440107990000081
个特征的训练样本,yj表示混凝土抗压强度的实际检测值;
Figure BDA0002440107990000082
Figure BDA0002440107990000083
表示第kth层森林模型中第tth个子森林模型的第jth个训练集从8个特征和层回归向量
Figure BDA0002440107990000084
中选择的特征数量,通常存在
Figure BDA0002440107990000085
以上述J个训练子集
Figure BDA0002440107990000086
构建混凝土抗压强度软测量模型中第kth层森林模型中第tth个子森林模型的J个决策树,得到第kth层森林模型中的第tth个子森林模型Fk,t(·)。
重复上述步骤T次,得到第kth层森林模型的集合
Figure BDA0002440107990000087
接着,描述第kth层森林模型的增强层回归向量产生过程。
第kth层森林模型中第tth个子森林模型,每个决策树模型对输入产生一个混凝土抗压强度预测值
Figure BDA0002440107990000088
可得到J个混凝土抗压强度预测值
Figure BDA0002440107990000089
组成的预测值向量
Figure BDA00024401079900000810
计算第kth层中第tth个子森林模型的预测均值,
Figure BDA00024401079900000811
通过kNN选取预测均值
Figure BDA00024401079900000812
附近的kkNN个混凝土抗压强度预测值组成第tth个子森林模型的回归向量
Figure BDA00024401079900000813
重复上述步骤T次,得到T个子森林模型的回归向量,组合后得到第kth层森林模型的层回归向量
Figure BDA00024401079900000814
接着,将对混凝土抗压强度8个特征进行维数约简后的约简特征向量xdimred与层回归向量
Figure BDA00024401079900000815
进行串联组合,得到第kth层森林模型输出的增强层回归向量
Figure BDA00024401079900000816
即为第k+1层森林模型的输入。其产生过程可表示为,
Figure BDA00024401079900000817
输出层森林模型模块的具体处理过程为:
第Kth层森林模型的训练数据集DK={(xK,i,yi),
Figure BDA00024401079900000818
为第K-1 层森林模型输出的增强层回归向量
Figure BDA00024401079900000819
与混凝土抗压强度检测值的组合,其中特征包含:混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量
Figure BDA0002440107990000091
其表示过程为,
Figure BDA0002440107990000092
其中,DK={(xK,i,yi),
Figure BDA0002440107990000093
表示第Kth层森林模型的训练集,其中xK,i表示第ith个包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量
Figure BDA0002440107990000094
的训练样本,yi表示第ith个混凝土抗压强度的实际检测值;MK=M+(kkNN×T)表示第Kth层包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征、层回归向量
Figure BDA0002440107990000095
和混凝土抗压强度检测值的训练数据集DK的特征数量。
然后采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征、层回归向量
Figure BDA0002440107990000096
和混凝土抗压强度检测值的训练数据集DK进行样本和特征的随机采样,第Kth层森林模型中第tth个子森林模型的J个训练子集产生过程可表示为,
Figure BDA0002440107990000097
其中,
Figure BDA0002440107990000098
表示第Kth层森林模型中第tth个子森林模型的第jth个训练子集,其中
Figure BDA0002440107990000099
表示第jth个训练子集中从混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量
Figure BDA00024401079900000910
中选择
Figure BDA00024401079900000911
个特征的训练样本,yj表示混凝土抗压强度的实际检测值;
Figure BDA00024401079900000912
Figure BDA00024401079900000913
表示第Kth层森林模型中第tth个子森林模型的第jth个训练集从8个特征和层回归向量
Figure BDA0002440107990000101
中选择的特征数量,通常存在
Figure BDA0002440107990000102
以上述J个训练子集构建第Kth层中第tth个子森林模型的J个决策树,获得第Kth层的第tth个子森林模型FK,t(·)。重复上述步骤T次,得到第Kth层森林模块的模型
Figure BDA0002440107990000103
第Kth层中第tth个子森林模型,每个决策树模型将产生一个混凝土抗压强度预测值
Figure BDA0002440107990000104
然后得到J个混凝土抗压强度预测值
Figure BDA0002440107990000105
组成的预测值向量
Figure BDA0002440107990000106
计算第Kth层中第tth个子森林模型的预测均值,
Figure BDA0002440107990000107
重复上述步骤T次,得到T个子森林模型的预测输出集合
Figure BDA0002440107990000108
最后,将T个子森林模型的混凝土抗压强度预测值进行算术平均,
Figure BDA0002440107990000109
其中,
Figure BDA00024401079900001010
表示DEFR模型最终的混凝土抗压强度预测输出。
实施例仿真验证
实验数据描述
采用University of California Irvine(UCI)平台提供的混凝土抗压强度数据集[29,30]验证本文方法。该数据集中包含1030个样本,其中前8列为输入,分别是混凝土、高炉矿渣粉、粉煤灰、水、减水剂、粗集料和细集料在每立方混凝土中各配料的含量及混凝土的置放天数;第9列为输出,即混凝土抗压强度。本文中,将1030个样本中的1/2作为训练样本, 1/4作为验证样本,1/4样本作为测试样本。
根据混凝土抗压强度数据集的特征属性,下面将分别进行有维数约简模块(下文中为了进行区分,将无维数约简模块的模型表示成DEFR-dimred)和无维数约简模块(有维数约简模块的模型表示成DEFR-Nodimred)实验。实验中初始参数设置为,混凝土抗压强度软测量模型中森林层的子森林个数设置为T=8,其中包含4个随机森林和4个完全随机森林, kNN选择的混凝土抗压强度预测值个数kkNN=1。
有维数约简模块
实验结果
混凝土抗压强度中混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量和细集料含量及混凝土置放天数8个特征与混凝土抗压强度真值的线性相关系数统计结果如图3所示,
8个特征与混凝土抗压强度的相关系数绝对值如图3所示,以0.2为分界线将八个特征分成两部分。其中大于0.2的特征为:混凝土含量、水含量、减水剂含量和混凝土置放天数。因此,通过维数约简模块从混凝土抗压强度数据的八个特征中选择混凝土含量、水含量、减水剂含量和混凝土置放天数四个特征作为训练集。
以50次运行的均值作为最终结果,参数设置为 K=50,Mj=4,kkNN=1,T=8,J=500,其中Mj=4表示混凝土抗压强度数据集中混凝土含量、水含量、减水剂含量和混凝土置放天数四个特征和层回归向量中随机选择四个特征。测试决策树叶结点的训练样本阈值θForest与混凝土抗压强度软测量模型DEFR-dimred在验证集中的RMSE之间的关系,实验结果如图4所示。
由图4可知,当叶结点的训练样本阈值θDT=10时验证集的RMSE(7.1736)值达到最小,当θDT再增大时RMSE也随之增大。因此选择决策树叶结点的训练样本阈值θDT=10。
然后,测试森林层模型中子森林模型的决策树的数量J与混凝土抗压强度软测量模型 DEFR-dimred在验证集中的RMSE之间的关系,如图5所示。
由图5可知,混凝土抗压强度软测量模型DEFR-dimred中森林层的子森林中决策树的数量J=100时验证集的RMSE(6.9979)值达到最小。
最终混凝土抗压强度软测量模型DEFR-dimred的参数确定为: T=8,kkNN=1,K=50,θDT=10,Mj=4,J=100。
方法比较
采用完全随机森林方法(CRF)和随机森林(RF)与本文所提方法DEFR-dimred进行比较,其中:CRF参数设置为:θDT=10,Mj=4,J=100,RF参数设置为:θDT=10,Mj=4,J=100。
不同软测量方法的预测曲线如图6、7和8所示。
表1不同方法的比较结果
Figure BDA0002440107990000111
图6-8和表1的结果表明:(1)CRF因其所固有的随机性而在预测混凝土抗压强度中具有最大的预测误差,测试集误差为9.3488;(2)RF采用最小平均误差规则进行决策树的节点切分,使得其在混凝土抗压强度的预测性能强于CRF,测试集误差为7.5390; (3)本文所提DEFR-Nodimred方法在训练集、验证集和测试集中对混凝土抗压强度的预测均具有最佳预测性能,测试集误差为7.2320,其层数K=3。
无维数约简模块
实验结果
以50次运行的均值作为最终结果,参数设置为 K=50,Mj=4,kkNN=1,T=8,J=500,其中Mj=4表示从混凝土抗压强度数据集中8 个特征和层回归向量中随机选择4个作为输入特征。测试决策树叶结点的训练样本阈值θForest与混凝土抗压强度软测量模型DEFR-Nodimred在验证集中的RMSE之间的关系,实验结果如图9所示。
由图9可知,当叶结点的训练样本阈值θDT=10时验证集的RMSE(7.4893)值达到最小,当θDT再增大时RMSE也随之增大。因此选择决策树叶结点的训练样本阈值θDT=10。
然后,测试森林层模型中子森林模型的决策树的数量J与混凝土抗压强度软测量模型 DEFR-Nodimred在验证集中的RMSE之间的关系,如图10所示。
由图10可知,混凝土抗压强度软测量模型DEFR-Nodimred中森林层的子森林中决策树的数量J=200时验证集的RMSE(7.4771)值达到最小。
最终混凝土抗压强度软测量模型DEFR-Nodimred的参数确定为: T=8,kkNN=1,K=50,θDT=10,Mj=4,J=200。
方法比较
采用完全随机森林方法(CRF)和随机森林(RF)与本文所提方法DEFR-Nodimred进行比较,其中:CRF参数设置为:θDT=10,Mj=4,J=200,RF参数设置为:θDT=10,Mj=4,J=200。
不同软测量方法的预测曲线如图11、12和13所示。
不同建模方法的统计结果如表2所示。
表2不同方法的比较结果
Figure BDA0002440107990000121
图11-13和表1、表2的结果表明:(1)省去维数约简模块后,本文所提 DEFR-Nodimred方法在训练集、验证集和测试集中对混凝土抗压强度的预测均具有最佳预测性能,测试集误差为6.4018,其层数K=3。;(2)与为进行维数约简的DEFR-dimred 相比,DEFR-Nodimred在在验证集和测试集中对混凝土抗压强度的预测均好于 DEFR-dimred,说明本文所提深度森林结构的有效性。
因此,本文所提方法首次提出的深度集成森林回归模型在混凝土抗压强度软测量中具有最佳的预测性能。
针对工业过程难测参数的软测量建模,本发明提出一种基于深度集成森林回归的建模方法。主要贡献表现在:首次解决了深度集成森林在回归问题中层级之间的特征表征方式,首次实现了深度森林结构在回归建模问题中的应用。通过UCI平台混凝土抗压强度数据仿真验证了所提方法的有效性。
参考文献
[1]柴天佑.复杂工业过程运行优化与反馈控制.自动化学报,2013,39(11):1744-1757.
[2]汤健,田福庆,贾美英,李东.基于频谱数据驱动的旋转机械设备负荷软测量[M],国防工业出版社,2015 年6月,北京
[3]Kadlec P,Gabrys B,Strand S.Data-driven soft-sensors in the processindustry[J].Computers and Chemical Engineering,2009,33(4):795-814.
[4]Breiman L,Friedman J,Stone C.Classification and RegressionTrees.Wadsworth,1984.
[5]Breiman,L.Random forests.Machine Learning,2001,45(1),5–32.
[6]I.Goodfellow,Y.Bengio,and A.Courville.Deep Learning.MIT Press,Cambridge,MA,2016.
[7]ZhouZH,FengJ.Deepforest:Towards an alternative to deep neuralnetworks[J].eprintarXiv:1702.08835,2017.
[8]KMiller,C Hettinger,et al.Forward thinking:Building deep randomforests.2017,arXiv:1705.07366.
[9]Hu G,Li H,Xia Y,Luo L.A deep Boltzmann machine and multi-grainedscanning forest ensemble collaborative method and its application toindustrial fault diagnosis.Computers in Industry.2018.100, 287-296.
[10]Jian Tang,Jian Zhang,Zhiwei Wu,et al.Modeling collinear datausing double-layer GA-based selective ensemble kernel partial least squaresalgorithm.Neurocomputing.219(2017):248-262.
[11]Jian Tang,Junfei Qiao,Jian Zhang,et al.Combinatorial optimizationof input features and learning parameters for decorrelated neural networkensemble-based soft measuring mosel.Neurocomputing. 275(2018):1426-1440.
[12]v汤健,乔俊飞.基于选择性集成核学习算法的固废焚烧过程二噁英排放浓度软测量[J].化工学报,2019,70(02):696-706.
[13]Shan H M,Zhang J P.Real-valued multivariate dimension reduction:review[J].Journal of Automation,2018, 44(2):193-215.
[14]Li K C.Sliced inverse regression for dimension reduction.Journalof the American Statistical Associatio, 1991,86(414):316-327.
[15]Cook R D,Weisberg S.Sliced inverse regression for dimensionreduction:comment.Journal of the American Statistical Association,1991,86(414):328—332.
[16]Li K C.On principal Hessian directions for data visualization anddimension reduction:another application of Stein’s lemma.Journal of theAmerican Statistical Association,1992,87(420):1025-1039.
[17]Li B,Wang S L.On directional regression for dimensionreduction.Journal of the American Statistical Association,2007,102(479):997—1008.
[18]Cook R D.Fisher 1ecture:dimension reduction inregression.Statistical Science,2007,22(1):1-26
[19]Fukumizu K,Bach FR,Jordan MI.Dimensionality reduction forsupervised learning with reproducing kernel Hilbert spaces.Journal of MachineLearning Research,2004,5:73—99.
[20]Suzuki T,Sugiyama M.Suficient dimension reduction via squared—loss mutual information estimation.In Proceedings of InternationalConferenceon Artificial Intelligence and Statistics,Chia Laguna Resort,Sardinia, Italy,2010,9:804-811.
[21]Faivishevsky L,Goldberger J.Dimensionality reduction based onnon—parametric mutual information. Neurocom—putting.2012.80:3l-37.
[22]Gretton A,Bousquet O,Smola A,Schokopf B.Measuring Statisticaldependence with Hilbert— Schmidtnorms.In:Proceedings of the 16thInternational Conferenceon Algorithmic Learning Theory.Berlin, Heidelberg:Springer-Verlag,2005.63-77.
[23]Szekely G J,Rizzo M L,BakirovN K.Measuring and testing dependenceby correlation of distances.The Annals of Statistics,2007,35(6):2769-2794.
[24]Fukumizu K,Leng C L.Gradient—based kernel dimension Reductionfor regression.Journal of the American Statistical Association,2014,109(505):359-370.
[25]Sasaki H,Tangkaratt V,Sugiyama M.Suficient dimension reductionvia direct estimation of the gradients of logarithmic conditionaldensities.In:Proceedings of the 7th Asian Conferenceon MachineLearning.HongKong, China:PMLR,2015.33-48.
[26]Kim M,Pavlovic V,Central subspace dimensionality reduction usingcovariance operators.IEEE Transactions on Pattern Analysis and MachineIntelligence,20113,3(4):657—670.
[27]Wu H M.Kernel sliced inverse regression with applications toclassification.Journal of Computational and Graphical Statistics,2012,17(3):590-610.
[28]汤健,夏恒,乔俊飞,郭子豪.<一种二噁英排放浓度预测方法>,国家知识产权局,申请号: 202010083784.4,申请日期:2020年2月10日。
[29]Yeh I C.Modeling of Strength of High Performance Concrete UsingArtificial Neural Networks[J].Cement and Concrete Research,1998,28(12):1797-1808.
[30]Tang J,Yu W,Chai TY,et al.On-line Principal Component Analysiswith Application to Process Modeling[J]. Neurocomputing,2012,82(1):167-178。

Claims (4)

1.一种用于测量混凝土抗压强度的基于深度集成森林回归的建模方法,其特征在于,包括以下步骤:
步骤1、采用维数约简模块通过采用适合工业过程的维数约简策略对原始高维特征进行预处理,获得约简特征向量;
步骤2、采用输入层森林模块以约简特征向量作为输入,训练多个子森林模型,通过KNN近邻法选取若干个子森林的预测值进行组合获得层回归向量,将其与约简特征向量进行组合获得增强层回归向量,进而获得该层的输出;
步骤3、采用中间层森林模块包含K-2层,其将输入层的增强层回归向量作输入,采用与输入层森林模块相同的方式获得第2层森林模型的输出,重复依次进行,直到完成第K-1层森林模型的输出;
步骤4、采用输出层森林模块以第K-1层的中间层森林模型的输出作为输出层(第K层)森林模型模块输入,训练多个子森林模型,通过将该层子森林模型的预测输出进行算术平均最终预测结果。
2.如权利要求1所述的用于测量混凝土抗压强度的基于深度集成森林回归的建模方法,其特征在于,步骤1中所述原始高维特征向量,其包括:混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数。
3.如权利要求2所述的用于测量混凝土抗压强度的基于深度集成森林回归的建模方法,其特征在于,所述输入层森林模型模块的具体处理过程包括以下步骤:
步骤21,描述输入层子森林的构建过程
采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数八个特征和混凝土抗压强度检测值的训练集D进行随机采样,
设输入层森林模型中第tth个子森林模型的J个训练子集为
Figure FDA0002440107980000011
以上述J个训练子集
Figure FDA0002440107980000012
构建混凝土抗压强度软测量模型中第tth个子森林中的J个决策树,得到输入层中第tth个子森林模型F1,t(·),
重复上述步骤T次,即可得到输入层森林模型的集合
Figure FDA0002440107980000013
步骤22,描述输入层森林模型的增强层回归向量产生过程
针对输入层森林模型中第tth个子森林模型,每个决策树模型将对混凝土过程测量值样本产生一个混凝土抗压强度预测值
Figure FDA0002440107980000014
然后得到J个混凝土抗压强度预测值
Figure FDA0002440107980000015
组成的预测值向量
Figure FDA0002440107980000016
计算输入层森林模型中第tth个子森林模型的预测均值,
Figure FDA0002440107980000017
通过kNN选取预测均值
Figure FDA0002440107980000018
附近的kkNN个混凝土抗压强度预测值组成第tth个子森林的回归向量
Figure FDA0002440107980000021
重复上述步骤T次,得到输入层森林模型中T个子森林模型的层回归向量
Figure FDA0002440107980000022
步骤23,将对混凝土抗压强度8个特征进行维数约简后的约简特征向量xdimred与层回归向量
Figure FDA0002440107980000023
进行串联组合,得到做为输入层森林模型输出的增强层回归向量
Figure FDA0002440107980000024
即为混凝土抗压强度软测量模型的中间层森林模型(第2层)的输入。
4.如权利要求3所述的用于测量混凝土抗压强度的基于深度集成森林回归的建模方法,其特征在于,步骤4具体为:
设第Kth层森林模型的训练数据集
Figure FDA0002440107980000025
为第K-1层森林模型输出的增强层回归向量
Figure FDA0002440107980000026
与混凝土抗压强度检测值的组合,其包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数八个特征和层回归向量
Figure FDA0002440107980000027
采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数八个特征、层回归向量
Figure FDA0002440107980000028
和混凝土抗压强度检测值的训练数据集DK进行样本和特征的随机采样,
以第Kth层森林模型中第tth个子森林模型的J个训练子集构建第Kth层中第tth个子森林模型的J个决策树,获得第Kth层的第tth个子森林模型FK,t(·),重复上述步骤T次,得到第Kth层森林模块的模型
Figure FDA0002440107980000029
第Kth层中第tth个子森林模型,每个决策树模型将产生一个混凝土抗压强度预测值
Figure FDA00024401079800000210
然后得到J个混凝土抗压强度预测值
Figure FDA00024401079800000211
组成的预测值向量
Figure FDA00024401079800000212
计算第Kth层中第tth个子森林模型的预测均值,
Figure FDA00024401079800000213
重复上述步骤T次,得到T个子森林模型的预测输出集合
Figure FDA00024401079800000214
最后,将T个子森林模型的混凝土抗压强度预测值进行算术平均,
Figure FDA00024401079800000215
其中,
Figure FDA00024401079800000216
表示DEFR模型最终的混凝土抗压强度预测输出。
CN202010263130.XA 2020-04-07 2020-04-07 用于测量混凝土抗压强度的深度集成森林回归建模方法 Pending CN111931948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010263130.XA CN111931948A (zh) 2020-04-07 2020-04-07 用于测量混凝土抗压强度的深度集成森林回归建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010263130.XA CN111931948A (zh) 2020-04-07 2020-04-07 用于测量混凝土抗压强度的深度集成森林回归建模方法

Publications (1)

Publication Number Publication Date
CN111931948A true CN111931948A (zh) 2020-11-13

Family

ID=73316284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010263130.XA Pending CN111931948A (zh) 2020-04-07 2020-04-07 用于测量混凝土抗压强度的深度集成森林回归建模方法

Country Status (1)

Country Link
CN (1) CN111931948A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117805247A (zh) * 2023-12-29 2024-04-02 广东融创高科检测鉴定有限公司 一种混凝土缺陷超声检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104261742A (zh) * 2014-09-22 2015-01-07 浙江水利水电学院 混凝土配合比的非线性优化方法
CN109187025A (zh) * 2018-09-19 2019-01-11 哈尔滨理工大学 一种集成kelm的滚动轴承剩余使用寿命预测方法
CN110717249A (zh) * 2019-09-16 2020-01-21 中国石油大学(北京) 页岩气储层测井孔隙度快速预测方法及系统
WO2020024319A1 (zh) * 2018-08-01 2020-02-06 苏州大学张家港工业技术研究院 用于交通流量预测的卷积神经网络多点回归预测模型

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104261742A (zh) * 2014-09-22 2015-01-07 浙江水利水电学院 混凝土配合比的非线性优化方法
WO2020024319A1 (zh) * 2018-08-01 2020-02-06 苏州大学张家港工业技术研究院 用于交通流量预测的卷积神经网络多点回归预测模型
CN109187025A (zh) * 2018-09-19 2019-01-11 哈尔滨理工大学 一种集成kelm的滚动轴承剩余使用寿命预测方法
CN110717249A (zh) * 2019-09-16 2020-01-21 中国石油大学(北京) 页岩气储层测井孔隙度快速预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何新礼;谢莉;杨慧中;: "基于DP-RFR的多模型软测量建模", 控制工程, no. 01, 20 January 2020 (2020-01-20), pages 66 - 71 *
杨晓峰;严建峰;刘晓升;杨璐;: "深度随机森林在离网预测中的应用", 计算机科学, no. 06, 15 June 2016 (2016-06-15), pages 216 - 221 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117805247A (zh) * 2023-12-29 2024-04-02 广东融创高科检测鉴定有限公司 一种混凝土缺陷超声检测方法及系统

Similar Documents

Publication Publication Date Title
Madandoust et al. Evolutionary design of generalized GMDH-type neural network for prediction of concrete compressive strength using UPV
Taylor Neural networks and their applications
CN107886161A (zh) 一种提高复杂信息系统效能的全局敏感性分析方法
Tavana Amlashi et al. Estimation of the compressive strength of green concretes containing rice husk ash: a comparison of different machine learning approaches
CN106874935A (zh) 基于多核函数自适应融合的支持向量机参数选择方法
Paudel et al. Compressive strength of concrete material using machine learning techniques
CN110009014A (zh) 一种融合相关系数与互信息的特征选择方法
Aggarwal et al. Regression with conditional GAN
Gupta et al. Prediction of the compressive strength of concrete using various predictive modeling techniques
Kong et al. Deep PLS: A lightweight deep learning model for interpretable and efficient data analytics
CN113822499A (zh) 一种基于模型融合的列车备件损耗预测方法
Rahchamani et al. A hybrid optimized learning‐based compressive performance of concrete prediction using GBMO‐ANFIS classifier and genetic algorithm reduction
Khatti et al. A scientometrics review of soil properties prediction using soft computing approaches
Che et al. Few-shot structural repair decision of civil aircraft based on deep meta-learning
CN111931948A (zh) 用于测量混凝土抗压强度的深度集成森林回归建模方法
Tan et al. Data-driven battery electrode production process modeling enabled by machine learning
Ehsani et al. Machine learning for predicting concrete carbonation depth: A comparative analysis and a novel feature selection
Li et al. The prediction of cement compressive strength based on gray level images and neural network
Prakash et al. Speculation of compressive strength of concrete in real-time
Koya Comparison of different machine learning algorithms to predict mechanical properties of concrete
CN114861436A (zh) 一种融合特征金字塔的图卷积网络预测钢铁疲劳强度的方法
Pani et al. A hybrid soft sensing approach of a cement mill using principal component analysis and artificial neural networks
Bansal et al. Comparative study of machine learning methods to predict compressive strength of high-performance concrete and model validation on experimental data
Li et al. Multiclass weighted least squares twin bounded support vector machine for intelligent water leakage diagnosis
Santosa et al. Computational of Concrete Slump Model Based on H2O Deep Learning framework and Bagging to reduce Effects of Noise and Overfitting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination