CN111931948A - 用于测量混凝土抗压强度的深度集成森林回归建模方法 - Google Patents
用于测量混凝土抗压强度的深度集成森林回归建模方法 Download PDFInfo
- Publication number
- CN111931948A CN111931948A CN202010263130.XA CN202010263130A CN111931948A CN 111931948 A CN111931948 A CN 111931948A CN 202010263130 A CN202010263130 A CN 202010263130A CN 111931948 A CN111931948 A CN 111931948A
- Authority
- CN
- China
- Prior art keywords
- layer
- forest
- concrete
- compressive strength
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000004567 concrete Substances 0.000 title claims abstract description 171
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000010354 integration Effects 0.000 title claims abstract description 6
- 239000013598 vector Substances 0.000 claims abstract description 119
- 238000012549 training Methods 0.000 claims abstract description 59
- 230000009467 reduction Effects 0.000 claims abstract description 48
- 238000004519 manufacturing process Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000005259 measurement Methods 0.000 claims description 33
- 238000003066 decision tree Methods 0.000 claims description 30
- 239000003638 chemical reducing agent Substances 0.000 claims description 24
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 23
- 239000010881 fly ash Substances 0.000 claims description 21
- 239000000843 powder Substances 0.000 claims description 21
- 239000002893 slag Substances 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 description 17
- 238000012360 testing method Methods 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000012795 verification Methods 0.000 description 9
- 238000010200 validation analysis Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012824 chemical production Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- HGUFODBRKLSHSI-UHFFFAOYSA-N 2,3,7,8-tetrachloro-dibenzo-p-dioxin Chemical compound O1C2=CC(Cl)=C(Cl)C=C2OC2=C1C=C(Cl)C(Cl)=C2 HGUFODBRKLSHSI-UHFFFAOYSA-N 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 208000027697 autoimmune lymphoproliferative syndrome due to CTLA4 haploinsuffiency Diseases 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000010813 municipal solid waste Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000004056 waste incineration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种用于测量混凝土抗压强度的基于深度集成森林回归的建模方法,包括:通过采用适合工业过程的维数约简策略对原始高维特征进行预处理,获得约简特征向量;然后,以约简特征向量作为输入,训练多个子森林模型,通过KNN近邻法选取若干个子森林的预测值进行组合获得层回归向量,将其与约简特征向量进行组合获得增强层回归向量,进而获得该层的输出;其次,将输入层的增强层回归向量作输入,以获得第2层森林模型的输出,重复依次进行,直到完成第K‑1层森林模型的输出;最后,以第K‑1层的中间层森林模型的输出作为输出层森林模型模块输入,训练多个子森林模型,通过将该层子森林模型的预测输出进行算术平均最终预测结果。
Description
技术领域
本发明涉及一种用于测量混凝土抗压强度的深度集成森林回归建模方法。
背景技术
限于复杂物理/化学生产过程的机理不清、非线性和强耦合等综合复杂特性,表征该类过程产品质量和环保指标的关键过程参数通常被称为难测参数[1]。这类参数采用先人工定时采样、再在实验室离线化验分析(如混凝土抗压强度、城市固废焚烧过程污染排放的二噁英浓度和表征磨矿质量的磨矿粒度)或依靠优秀的领域专家在生产现场凭经验估计(如表征磨矿效率的磨机负荷)得到。上述非精确、大滞后的检测方法成为制约生产过程实现运行优化与反馈控制的主要瓶颈之一[2]。结合生产过程机理和经验知识,采用离线容易检测的过程变量建立难测参数的软测量模型是解决该问题的有效方法之一[3]。
集成学习作为机器学习的主要分支,在工业过程难测参数软测量领域得到了广泛的应用。决策树(DT)作为集成学习的一种基学习器,不仅可以处理分类问题,也能够处理回归问题,其中最具代表性的为分类与回归树(CART)[4]。将DT进行集成的方法被称之为森林算法(FM),其中以Breiman提出的随机森林(RF)[5]算法最具有代表性。
深度神经网络学习算法[6]使得传统机器学习方法在很多领域失去了竞争性,但其本质上为“黑箱”模型,存在着超参数多、训练难度大等问题。Zhou等人[7]分析DNN成功的内在原因,提出了由多粒度扫描和级联森林两部分组成的深度森林(DF)结构,进行非神经网络结构深度学习的研究,初步探索了由FM模型组成的深度模型。Kevin等人[8]也从DNN中获取灵感,通过将神经元替换成DT,提出了一种前瞻性深层随机森林(FTDRF)。虽然类似相关研究逐渐增多,但其研究领域主要以处理图像识别、自然语言处理等分类问题为主,主要贡献在于将类分布向量作为层与层之间传递的特征表征方式。针对工业过程连续性数值数据,文献[9]在多粒度扫描之前,引入深度玻尔兹曼机(DBM)将原始特征转换成二维向量,然后采用DF方法构建分类器,采用工业过程故障诊断数据对方法进行了验证,实验结果表明DBM与DF结合的方法有效提高了故障诊断的识别率。
混凝土作为现代建设工程中必不可少的材料,其抗压强度是混凝土最为重要的指标。在混凝土结构工程中,混凝土的强度是通过混凝土试件抗压强度试验的结果进行检验评定。因无法在线测量混凝土抗压强度的实时数据,导致混凝土生产制作流程难以实现优化控制。针对混凝土抗压强度参数通常需要长周期的离线化验分析才能获得。文献[10,11,12]均提出了基于集成学习的软测量建模方法,实现了混凝土抗压强度的在线软测量。但上述研究文献的混凝土抗压强度软测量模型的结构复杂,模块之间没有考虑特征的表征学习,同时存在对混凝土抗压强度软测量值预测精度偏低等问题。
发明内容
复杂工业过程的难以检测质量指标或环保指标参数通常需要长周期的离线化验分析才能获得,为实现这些过程的运行优化控制通常需要对这些难测参数进行在线实时测量。涉及多种物理、化学原理的工业过程的机理复杂性导致难以构建具有可解释性的高维输入特征与难测参数间的映射模型。
针对上述问题,本发明提出了一种用于测量混凝土抗压强度的基于深度集成森林回归 (DEFR)的建模方法包括:采用维数约简模块通过采用适合工业过程的维数约简策略对原始高维特征进行预处理,获得约简特征向量;采用输入层森林模块以约简特征向量作为输入,训练多个子森林模型,通过KNN近邻法选取若干个子森林的预测值进行组合获得层回归向量,将其与约简特征向量进行组合获得增强层回归向量,进而获得该层的输出;采用中间层森林模块包含K-2层,其将输入层的增强层回归向量作输入,采用与输入层森林模块相同的方式获得第2层森林模型的输出,重复依次进行,直到完成第K-1层森林模型的输出;采用输出层森林模块以第K-1层的中间层森林模型的输出作为输出层(第K层)森林模型模块输入,训练多个子森林模型,通过将该层子森林模型的预测输出进行算术平均最终预测结果。采用UCI平台混凝土抗压强度数据仿真验证了所提方法的有效性。
附图说明
图1本发明流程图;
图2第tth个子森林模型F1,t(·)的示意图;
图3不同样本阈值下的RMSE;
图4不同决策树数量下的RMSE;
图5混凝土强度训练集的预测曲线;
图6混凝土强度验证集的预测曲线;
图7混凝土强度测试数据的预测曲线;
图8不同特征的相关系数值;
图9不同样本阈值下的RMSE;
图10不同决策树数量下的RMSE;
图11混凝土强度训练集的预测曲线;
图12混凝土强度验证集的预测曲线;
图13混凝土强度测试集的预测曲线。
具体实施方式
本发明提出了一种用于测量混凝土抗压强度的基于深度集成森林回归(DEFR)的建模方法,通过由维数约简模块、输入层森林模块、中间层森林模块和输出层森林模块实现DEFR 建模,其中,每个子森林模型中的决策树数量为J个,如图1所示。
图1中,x表示原始高维特征向量,其包括:混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个过程测量值(过程测量值即为数据样本的特征,下文将统一描述成特征);xdimred表示通过维数约简后的约简特征向量(输入层的输入特征向量),即对混凝土抗压强度8个特征进行维数约简;F1,t(·) 表示混凝土抗压强度软测量中,输入层森林模型的第tth个子森林模型;表示输入层森林模型中第tth个子森林模型F1,t(·)的J个决策树生成的混凝土抗压强度预测值向量;表示输入层森林模型中第tth个预测值向量的预测均值;表示利用kNN从输入层森林模型中第tth个预测值向量中选择预测均值附近的kkNN个混凝土抗压强度预测值组成的回归向量;表示输入层森林模型的T个回归向量串联组成的层回归向量;表示约简特征向量xdimred与输入层森林模型的层回归向量串联组成的增强层回归向量,其同时为混凝土抗压强度软测量模型中,中间层(第2层)的输入特征向量;表示输入特征向量xdimred与第k-1层森林模型的层回归向量串联组成的增强层回归向量,即为混凝土抗压强度软测量模型中,第kth层森林模型输入特征向量;k=1,2,…,K,K表示DEFR的层数(深度);Fk,t(·)表示混凝土抗压强度软测量模型中,第kth层森林模型中第tth个子森林模型;表示第kth层森林模型中第tth个子森林模型Fk,t(·)的J个决策树生成的混凝土抗压强度预测值向量;表示第kth层森林模型中第tth预测值向量的预测均值;表示利用kNN从预测值向量中选择预测均值附近kkNN个混凝土抗压强度预测值组成的回归向量;表示第kth层森林模型的T个回归向量串联组成的层回归向量;表示输入特征向量xdimred与第kth层森林模型的层回归向量串联组成的增强层回归向量,即为第k+1层森林模型的输入特征向量;表示第(K-1)th层森林模型的T个回归向量串联组成的层回归向量;表示输入特征向量xdimred与第 K-1层森林模型的层回归向量串联组成的增强层回归向量,即为混凝土抗压强度软测量模型中,第Kth层森林模型输入特征向量;FK,t(·)表示混凝土抗压强度软测量模型中,第Kth 层森林模型中第tth个子森林模型;表示第Kth层森林模型中第tth个子森林模型FK,t(·)的J个决策树生成的混凝土抗压强度预测值向量;表示第Kth层森林中第tth个预测值向量的预测均值;表示DEFR最终的混凝土抗压强度预测输出值。
上述模块的功能如下:
(1)维数约简模块:采用维数约简方法对混凝土抗压强度数据中的原始高维特征向量进行预处理,获取约简特征向量;
(2)输入层森林模型模块:将约简特征向量作为输入,构建T个由J个决策树组成的子森林模型形成输入层森林模型,在每个子森林模型的预测值向量中选择kkNN个预测值组合成层回归向量,然后与约简向量组合形成增强层回归向量,进而获得中间层森林模型模块的输入;
(3)中间层森林模型模块:将输入层森林模型得到的增强层回归向量作为输入,以训练输入层森林模型相同的方式继续训练K-2层森林模型;
(4)输出层森林模型模块:以第K-1层森林模型的输出作为输出层(第K层)森林模型模块的输入,训练第K层森林模型,然后将第K层森林模型中的T个预测真值进行算术平均,进而得到最终混凝土抗压强度预测结果。
维数约简模块的具体处理过程为:
复杂物理/化学生产过程普遍存在强耦合、非线性等特点,导致过程数据中存在很多冗余特征易形成建模的维数灾等问题[13]。在进行模型训练前考虑利用维数约简算法将高维原始特征向量降低成有限的维数。维数约简能够用于处理维数灾问题、提高算法效率和模型可解释性以及数据可视化。由于回归问题中的输出为连续型实值变量,导致很多在分类问题中效果很好的约简方法并不能达到最优效果,以下列举了面向回归问题的线性和非线性维数约简方法,在使用本申请所提方法时,可根据不同数据集特点选择相应的维数约简方法,得到维数约简特征向量。
其中,线性维数约简方法有:(1)基于前二阶矩的维数约简算法:切片逆回归(Sliced Inverse Regression,SIR)[14]、切片平均方差估计(Sliced Average VarianceEstimation,SAE) [15]、主Hessian方向(Principal Hessian Direction,pHd)[16]、方向回归算法(Directional Regression,DR)[17];(2)基于模型的维数约简算法:主拟合成分[18];(3)基于互信息的维数约简算法:核维数约简(Kernel Dimension Reduction,KDR)[19]、最小平方维数约简 (Least-Squared Dimension Reduction,LSDR)[20]、基于非参互信息的维数约简(Mutual Information-Based Dimension Reduction,MIDR)[21];(4)基于相依准则的维数约简算法:希尔伯特-施密特独立性准则(Hilbert-Schmidt IndependenceCriterion,HSIC)[22]、距离协方差(Distance Covariance,DCOV)[23];(5)基于回归梯度的维数约简算法:基于梯度的核维数约简(Gradient-Based Kernel DimensionReduction,gKDR)[24]、最小平方梯度维数约简 (Least-Squares Gradients forDimension Reduction,LSGDR)[25]等。
非线性维数约简方法主要有:协方差算子逆回归(Covariance Operator InverseRegression, COIR)[26]、核切片逆回归(Kernel Sliced Inverse Regression,KSIR)[27]等。
输入层森林模型模块的具体处理过程为:
DEFR结构中的子森林可以采用多种形式的回归森林模型,如随机森林、完全随机森林等。采用自助采样(Bootstrap)和随机子空间法(Random Subspace Method,RSM)对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个特征和混凝土抗压强度检测值的训练集 D={(xi,yi),i=1,2,…N}∈RN×M进行样本和特征的随机采样,以增加子森林的多样性。
首先,描述输入层子森林的构建过程。
采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个特征和混凝土抗压强度检测值的训练集D进行随机采样,以输入层森林模型中第tth个子森林模型的J个训练子集为例,其产生过程可表示为,
其中,D表示混凝土抗压强度软测量模型中,输入层森林模型中包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个特征和混凝土抗压强度检测值的训练集;J表示Bootstrap次数,也表示输入层森林模型中每个子森林模型的决策树数量;表示输入层森林模型中第tth个子森林的第jth个训练子集,其中表示第jth个训练子集从混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个特征中选择Mj个特征的训练样本,yj表示混凝土抗压强度的实际检测值;m=1,…,Mj, Mj表示输入层森林模型中第tth个子森林的第jth个训练集从8个特征中选择的特征数量,通常存在Mj<<M;t=1,2,...,T,t表示输入层森林模型中第tth个子森林模型。
接着,描述输入层森林模型的增强层回归向量产生过程。
计算输入层森林模型中第tth个子森林模型的预测均值,
接着,将对混凝土抗压强度8个特征进行维数约简后的约简特征向量xdimred与层回归向量进行串联组合,得到做为输入层森林模型输出的增强层回归向量即为混凝土抗压强度软测量模型的中间层森林模型(第2层)的输入。其产生过程可表示为,
其中,kkNN表示选择预测均值附近的混凝土抗压强度预测值数量。
中间层森林模型模块的具体处理过程为:
以第kth层森林模型为例介绍中间层森林模型模块的构建过程。
第kth层森林模型的训练数据集Dk={(xk,i,yi),为第k-1层森林模型所输出的增强层回归向量与混凝土抗压强度检测值的组合,其中特征包含:混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量其表示过程为,
其中,y表示训练集D中的混凝土抗压强度真值向量;N表示训练集D的样本数量;表示第k-1层森林模型的层回归向量与将对混凝土抗压强度8个特征进行维数约简后的约简特征向量xdimred串联之后的增强层回归向量; Dk={(xk,i,yi),表示第kth层森林模型的输入训练集,其中xk,i表示第ith个包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量的训练样本,yi表示第ith个混凝土抗压强度的实际检测值;Mk=M+(kkNN×T)表示第kth层森林模型包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征、层回归向量和混凝土抗压强度检测值的训练数据集 Dk的输入特征数量。
然后,采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征、层回归向量和混凝土抗压强度检测值的训练数据集Dk进行样本和特征的随机采样,其训练子集的产生过程可表示为,
其中,表示第kth层森林模型中第tth个子森林模型的第jth个训练子集,其中表示第jth个训练子集中从混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量中选择个特征的训练样本,yj表示混凝土抗压强度的实际检测值; 表示第kth层森林模型中第tth个子森林模型的第jth个训练集从8个特征和层回归向量中选择的特征数量,通常存在
接着,描述第kth层森林模型的增强层回归向量产生过程。
计算第kth层中第tth个子森林模型的预测均值,
输出层森林模型模块的具体处理过程为:
第Kth层森林模型的训练数据集DK={(xK,i,yi),为第K-1 层森林模型输出的增强层回归向量与混凝土抗压强度检测值的组合,其中特征包含:混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量其表示过程为,
其中,DK={(xK,i,yi),表示第Kth层森林模型的训练集,其中xK,i表示第ith个包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量的训练样本,yi表示第ith个混凝土抗压强度的实际检测值;MK=M+(kkNN×T)表示第Kth层包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征、层回归向量和混凝土抗压强度检测值的训练数据集DK的特征数量。
然后采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征、层回归向量和混凝土抗压强度检测值的训练数据集DK进行样本和特征的随机采样,第Kth层森林模型中第tth个子森林模型的J个训练子集产生过程可表示为,
其中,表示第Kth层森林模型中第tth个子森林模型的第jth个训练子集,其中表示第jth个训练子集中从混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量中选择个特征的训练样本,yj表示混凝土抗压强度的实际检测值; 表示第Kth层森林模型中第tth个子森林模型的第jth个训练集从8个特征和层回归向量中选择的特征数量,通常存在
最后,将T个子森林模型的混凝土抗压强度预测值进行算术平均,
实施例仿真验证
实验数据描述
采用University of California Irvine(UCI)平台提供的混凝土抗压强度数据集[29,30]验证本文方法。该数据集中包含1030个样本,其中前8列为输入,分别是混凝土、高炉矿渣粉、粉煤灰、水、减水剂、粗集料和细集料在每立方混凝土中各配料的含量及混凝土的置放天数;第9列为输出,即混凝土抗压强度。本文中,将1030个样本中的1/2作为训练样本, 1/4作为验证样本,1/4样本作为测试样本。
根据混凝土抗压强度数据集的特征属性,下面将分别进行有维数约简模块(下文中为了进行区分,将无维数约简模块的模型表示成DEFR-dimred)和无维数约简模块(有维数约简模块的模型表示成DEFR-Nodimred)实验。实验中初始参数设置为,混凝土抗压强度软测量模型中森林层的子森林个数设置为T=8,其中包含4个随机森林和4个完全随机森林, kNN选择的混凝土抗压强度预测值个数kkNN=1。
有维数约简模块
实验结果
混凝土抗压强度中混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量和细集料含量及混凝土置放天数8个特征与混凝土抗压强度真值的线性相关系数统计结果如图3所示,
8个特征与混凝土抗压强度的相关系数绝对值如图3所示,以0.2为分界线将八个特征分成两部分。其中大于0.2的特征为:混凝土含量、水含量、减水剂含量和混凝土置放天数。因此,通过维数约简模块从混凝土抗压强度数据的八个特征中选择混凝土含量、水含量、减水剂含量和混凝土置放天数四个特征作为训练集。
以50次运行的均值作为最终结果,参数设置为 K=50,Mj=4,kkNN=1,T=8,J=500,其中Mj=4表示混凝土抗压强度数据集中混凝土含量、水含量、减水剂含量和混凝土置放天数四个特征和层回归向量中随机选择四个特征。测试决策树叶结点的训练样本阈值θForest与混凝土抗压强度软测量模型DEFR-dimred在验证集中的RMSE之间的关系,实验结果如图4所示。
由图4可知,当叶结点的训练样本阈值θDT=10时验证集的RMSE(7.1736)值达到最小,当θDT再增大时RMSE也随之增大。因此选择决策树叶结点的训练样本阈值θDT=10。
然后,测试森林层模型中子森林模型的决策树的数量J与混凝土抗压强度软测量模型 DEFR-dimred在验证集中的RMSE之间的关系,如图5所示。
由图5可知,混凝土抗压强度软测量模型DEFR-dimred中森林层的子森林中决策树的数量J=100时验证集的RMSE(6.9979)值达到最小。
最终混凝土抗压强度软测量模型DEFR-dimred的参数确定为: T=8,kkNN=1,K=50,θDT=10,Mj=4,J=100。
方法比较
采用完全随机森林方法(CRF)和随机森林(RF)与本文所提方法DEFR-dimred进行比较,其中:CRF参数设置为:θDT=10,Mj=4,J=100,RF参数设置为:θDT=10,Mj=4,J=100。
不同软测量方法的预测曲线如图6、7和8所示。
表1不同方法的比较结果
图6-8和表1的结果表明:(1)CRF因其所固有的随机性而在预测混凝土抗压强度中具有最大的预测误差,测试集误差为9.3488;(2)RF采用最小平均误差规则进行决策树的节点切分,使得其在混凝土抗压强度的预测性能强于CRF,测试集误差为7.5390; (3)本文所提DEFR-Nodimred方法在训练集、验证集和测试集中对混凝土抗压强度的预测均具有最佳预测性能,测试集误差为7.2320,其层数K=3。
无维数约简模块
实验结果
以50次运行的均值作为最终结果,参数设置为 K=50,Mj=4,kkNN=1,T=8,J=500,其中Mj=4表示从混凝土抗压强度数据集中8 个特征和层回归向量中随机选择4个作为输入特征。测试决策树叶结点的训练样本阈值θForest与混凝土抗压强度软测量模型DEFR-Nodimred在验证集中的RMSE之间的关系,实验结果如图9所示。
由图9可知,当叶结点的训练样本阈值θDT=10时验证集的RMSE(7.4893)值达到最小,当θDT再增大时RMSE也随之增大。因此选择决策树叶结点的训练样本阈值θDT=10。
然后,测试森林层模型中子森林模型的决策树的数量J与混凝土抗压强度软测量模型 DEFR-Nodimred在验证集中的RMSE之间的关系,如图10所示。
由图10可知,混凝土抗压强度软测量模型DEFR-Nodimred中森林层的子森林中决策树的数量J=200时验证集的RMSE(7.4771)值达到最小。
最终混凝土抗压强度软测量模型DEFR-Nodimred的参数确定为: T=8,kkNN=1,K=50,θDT=10,Mj=4,J=200。
方法比较
采用完全随机森林方法(CRF)和随机森林(RF)与本文所提方法DEFR-Nodimred进行比较,其中:CRF参数设置为:θDT=10,Mj=4,J=200,RF参数设置为:θDT=10,Mj=4,J=200。
不同软测量方法的预测曲线如图11、12和13所示。
不同建模方法的统计结果如表2所示。
表2不同方法的比较结果
图11-13和表1、表2的结果表明:(1)省去维数约简模块后,本文所提 DEFR-Nodimred方法在训练集、验证集和测试集中对混凝土抗压强度的预测均具有最佳预测性能,测试集误差为6.4018,其层数K=3。;(2)与为进行维数约简的DEFR-dimred 相比,DEFR-Nodimred在在验证集和测试集中对混凝土抗压强度的预测均好于 DEFR-dimred,说明本文所提深度森林结构的有效性。
因此,本文所提方法首次提出的深度集成森林回归模型在混凝土抗压强度软测量中具有最佳的预测性能。
针对工业过程难测参数的软测量建模,本发明提出一种基于深度集成森林回归的建模方法。主要贡献表现在:首次解决了深度集成森林在回归问题中层级之间的特征表征方式,首次实现了深度森林结构在回归建模问题中的应用。通过UCI平台混凝土抗压强度数据仿真验证了所提方法的有效性。
参考文献
[1]柴天佑.复杂工业过程运行优化与反馈控制.自动化学报,2013,39(11):1744-1757.
[2]汤健,田福庆,贾美英,李东.基于频谱数据驱动的旋转机械设备负荷软测量[M],国防工业出版社,2015 年6月,北京
[3]Kadlec P,Gabrys B,Strand S.Data-driven soft-sensors in the processindustry[J].Computers and Chemical Engineering,2009,33(4):795-814.
[4]Breiman L,Friedman J,Stone C.Classification and RegressionTrees.Wadsworth,1984.
[5]Breiman,L.Random forests.Machine Learning,2001,45(1),5–32.
[6]I.Goodfellow,Y.Bengio,and A.Courville.Deep Learning.MIT Press,Cambridge,MA,2016.
[7]ZhouZH,FengJ.Deepforest:Towards an alternative to deep neuralnetworks[J].eprintarXiv:1702.08835,2017.
[8]KMiller,C Hettinger,et al.Forward thinking:Building deep randomforests.2017,arXiv:1705.07366.
[9]Hu G,Li H,Xia Y,Luo L.A deep Boltzmann machine and multi-grainedscanning forest ensemble collaborative method and its application toindustrial fault diagnosis.Computers in Industry.2018.100, 287-296.
[10]Jian Tang,Jian Zhang,Zhiwei Wu,et al.Modeling collinear datausing double-layer GA-based selective ensemble kernel partial least squaresalgorithm.Neurocomputing.219(2017):248-262.
[11]Jian Tang,Junfei Qiao,Jian Zhang,et al.Combinatorial optimizationof input features and learning parameters for decorrelated neural networkensemble-based soft measuring mosel.Neurocomputing. 275(2018):1426-1440.
[12]v汤健,乔俊飞.基于选择性集成核学习算法的固废焚烧过程二噁英排放浓度软测量[J].化工学报,2019,70(02):696-706.
[13]Shan H M,Zhang J P.Real-valued multivariate dimension reduction:review[J].Journal of Automation,2018, 44(2):193-215.
[14]Li K C.Sliced inverse regression for dimension reduction.Journalof the American Statistical Associatio, 1991,86(414):316-327.
[15]Cook R D,Weisberg S.Sliced inverse regression for dimensionreduction:comment.Journal of the American Statistical Association,1991,86(414):328—332.
[16]Li K C.On principal Hessian directions for data visualization anddimension reduction:another application of Stein’s lemma.Journal of theAmerican Statistical Association,1992,87(420):1025-1039.
[17]Li B,Wang S L.On directional regression for dimensionreduction.Journal of the American Statistical Association,2007,102(479):997—1008.
[18]Cook R D.Fisher 1ecture:dimension reduction inregression.Statistical Science,2007,22(1):1-26
[19]Fukumizu K,Bach FR,Jordan MI.Dimensionality reduction forsupervised learning with reproducing kernel Hilbert spaces.Journal of MachineLearning Research,2004,5:73—99.
[20]Suzuki T,Sugiyama M.Suficient dimension reduction via squared—loss mutual information estimation.In Proceedings of InternationalConferenceon Artificial Intelligence and Statistics,Chia Laguna Resort,Sardinia, Italy,2010,9:804-811.
[21]Faivishevsky L,Goldberger J.Dimensionality reduction based onnon—parametric mutual information. Neurocom—putting.2012.80:3l-37.
[22]Gretton A,Bousquet O,Smola A,Schokopf B.Measuring Statisticaldependence with Hilbert— Schmidtnorms.In:Proceedings of the 16thInternational Conferenceon Algorithmic Learning Theory.Berlin, Heidelberg:Springer-Verlag,2005.63-77.
[23]Szekely G J,Rizzo M L,BakirovN K.Measuring and testing dependenceby correlation of distances.The Annals of Statistics,2007,35(6):2769-2794.
[24]Fukumizu K,Leng C L.Gradient—based kernel dimension Reductionfor regression.Journal of the American Statistical Association,2014,109(505):359-370.
[25]Sasaki H,Tangkaratt V,Sugiyama M.Suficient dimension reductionvia direct estimation of the gradients of logarithmic conditionaldensities.In:Proceedings of the 7th Asian Conferenceon MachineLearning.HongKong, China:PMLR,2015.33-48.
[26]Kim M,Pavlovic V,Central subspace dimensionality reduction usingcovariance operators.IEEE Transactions on Pattern Analysis and MachineIntelligence,20113,3(4):657—670.
[27]Wu H M.Kernel sliced inverse regression with applications toclassification.Journal of Computational and Graphical Statistics,2012,17(3):590-610.
[28]汤健,夏恒,乔俊飞,郭子豪.<一种二噁英排放浓度预测方法>,国家知识产权局,申请号: 202010083784.4,申请日期:2020年2月10日。
[29]Yeh I C.Modeling of Strength of High Performance Concrete UsingArtificial Neural Networks[J].Cement and Concrete Research,1998,28(12):1797-1808.
[30]Tang J,Yu W,Chai TY,et al.On-line Principal Component Analysiswith Application to Process Modeling[J]. Neurocomputing,2012,82(1):167-178。
Claims (4)
1.一种用于测量混凝土抗压强度的基于深度集成森林回归的建模方法,其特征在于,包括以下步骤:
步骤1、采用维数约简模块通过采用适合工业过程的维数约简策略对原始高维特征进行预处理,获得约简特征向量;
步骤2、采用输入层森林模块以约简特征向量作为输入,训练多个子森林模型,通过KNN近邻法选取若干个子森林的预测值进行组合获得层回归向量,将其与约简特征向量进行组合获得增强层回归向量,进而获得该层的输出;
步骤3、采用中间层森林模块包含K-2层,其将输入层的增强层回归向量作输入,采用与输入层森林模块相同的方式获得第2层森林模型的输出,重复依次进行,直到完成第K-1层森林模型的输出;
步骤4、采用输出层森林模块以第K-1层的中间层森林模型的输出作为输出层(第K层)森林模型模块输入,训练多个子森林模型,通过将该层子森林模型的预测输出进行算术平均最终预测结果。
2.如权利要求1所述的用于测量混凝土抗压强度的基于深度集成森林回归的建模方法,其特征在于,步骤1中所述原始高维特征向量,其包括:混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数。
3.如权利要求2所述的用于测量混凝土抗压强度的基于深度集成森林回归的建模方法,其特征在于,所述输入层森林模型模块的具体处理过程包括以下步骤:
步骤21,描述输入层子森林的构建过程
采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数八个特征和混凝土抗压强度检测值的训练集D进行随机采样,
步骤22,描述输入层森林模型的增强层回归向量产生过程
计算输入层森林模型中第tth个子森林模型的预测均值,
4.如权利要求3所述的用于测量混凝土抗压强度的基于深度集成森林回归的建模方法,其特征在于,步骤4具体为:
设第Kth层森林模型的训练数据集为第K-1层森林模型输出的增强层回归向量与混凝土抗压强度检测值的组合,其包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数八个特征和层回归向量
采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数八个特征、层回归向量和混凝土抗压强度检测值的训练数据集DK进行样本和特征的随机采样,
以第Kth层森林模型中第tth个子森林模型的J个训练子集构建第Kth层中第tth个子森林模型的J个决策树,获得第Kth层的第tth个子森林模型FK,t(·),重复上述步骤T次,得到第Kth层森林模块的模型
最后,将T个子森林模型的混凝土抗压强度预测值进行算术平均,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010263130.XA CN111931948A (zh) | 2020-04-07 | 2020-04-07 | 用于测量混凝土抗压强度的深度集成森林回归建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010263130.XA CN111931948A (zh) | 2020-04-07 | 2020-04-07 | 用于测量混凝土抗压强度的深度集成森林回归建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111931948A true CN111931948A (zh) | 2020-11-13 |
Family
ID=73316284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010263130.XA Pending CN111931948A (zh) | 2020-04-07 | 2020-04-07 | 用于测量混凝土抗压强度的深度集成森林回归建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931948A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117805247A (zh) * | 2023-12-29 | 2024-04-02 | 广东融创高科检测鉴定有限公司 | 一种混凝土缺陷超声检测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104261742A (zh) * | 2014-09-22 | 2015-01-07 | 浙江水利水电学院 | 混凝土配合比的非线性优化方法 |
CN109187025A (zh) * | 2018-09-19 | 2019-01-11 | 哈尔滨理工大学 | 一种集成kelm的滚动轴承剩余使用寿命预测方法 |
CN110717249A (zh) * | 2019-09-16 | 2020-01-21 | 中国石油大学(北京) | 页岩气储层测井孔隙度快速预测方法及系统 |
WO2020024319A1 (zh) * | 2018-08-01 | 2020-02-06 | 苏州大学张家港工业技术研究院 | 用于交通流量预测的卷积神经网络多点回归预测模型 |
-
2020
- 2020-04-07 CN CN202010263130.XA patent/CN111931948A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104261742A (zh) * | 2014-09-22 | 2015-01-07 | 浙江水利水电学院 | 混凝土配合比的非线性优化方法 |
WO2020024319A1 (zh) * | 2018-08-01 | 2020-02-06 | 苏州大学张家港工业技术研究院 | 用于交通流量预测的卷积神经网络多点回归预测模型 |
CN109187025A (zh) * | 2018-09-19 | 2019-01-11 | 哈尔滨理工大学 | 一种集成kelm的滚动轴承剩余使用寿命预测方法 |
CN110717249A (zh) * | 2019-09-16 | 2020-01-21 | 中国石油大学(北京) | 页岩气储层测井孔隙度快速预测方法及系统 |
Non-Patent Citations (2)
Title |
---|
何新礼;谢莉;杨慧中;: "基于DP-RFR的多模型软测量建模", 控制工程, no. 01, 20 January 2020 (2020-01-20), pages 66 - 71 * |
杨晓峰;严建峰;刘晓升;杨璐;: "深度随机森林在离网预测中的应用", 计算机科学, no. 06, 15 June 2016 (2016-06-15), pages 216 - 221 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117805247A (zh) * | 2023-12-29 | 2024-04-02 | 广东融创高科检测鉴定有限公司 | 一种混凝土缺陷超声检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Madandoust et al. | Evolutionary design of generalized GMDH-type neural network for prediction of concrete compressive strength using UPV | |
Taylor | Neural networks and their applications | |
CN107886161A (zh) | 一种提高复杂信息系统效能的全局敏感性分析方法 | |
Tavana Amlashi et al. | Estimation of the compressive strength of green concretes containing rice husk ash: a comparison of different machine learning approaches | |
CN106874935A (zh) | 基于多核函数自适应融合的支持向量机参数选择方法 | |
Paudel et al. | Compressive strength of concrete material using machine learning techniques | |
CN110009014A (zh) | 一种融合相关系数与互信息的特征选择方法 | |
Aggarwal et al. | Regression with conditional GAN | |
Gupta et al. | Prediction of the compressive strength of concrete using various predictive modeling techniques | |
Kong et al. | Deep PLS: A lightweight deep learning model for interpretable and efficient data analytics | |
CN113822499A (zh) | 一种基于模型融合的列车备件损耗预测方法 | |
Rahchamani et al. | A hybrid optimized learning‐based compressive performance of concrete prediction using GBMO‐ANFIS classifier and genetic algorithm reduction | |
Khatti et al. | A scientometrics review of soil properties prediction using soft computing approaches | |
Che et al. | Few-shot structural repair decision of civil aircraft based on deep meta-learning | |
CN111931948A (zh) | 用于测量混凝土抗压强度的深度集成森林回归建模方法 | |
Tan et al. | Data-driven battery electrode production process modeling enabled by machine learning | |
Ehsani et al. | Machine learning for predicting concrete carbonation depth: A comparative analysis and a novel feature selection | |
Li et al. | The prediction of cement compressive strength based on gray level images and neural network | |
Prakash et al. | Speculation of compressive strength of concrete in real-time | |
Koya | Comparison of different machine learning algorithms to predict mechanical properties of concrete | |
CN114861436A (zh) | 一种融合特征金字塔的图卷积网络预测钢铁疲劳强度的方法 | |
Pani et al. | A hybrid soft sensing approach of a cement mill using principal component analysis and artificial neural networks | |
Bansal et al. | Comparative study of machine learning methods to predict compressive strength of high-performance concrete and model validation on experimental data | |
Li et al. | Multiclass weighted least squares twin bounded support vector machine for intelligent water leakage diagnosis | |
Santosa et al. | Computational of Concrete Slump Model Based on H2O Deep Learning framework and Bagging to reduce Effects of Noise and Overfitting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |