CN111931948A

CN111931948A - 用于测量混凝土抗压强度的深度集成森林回归建模方法

Info

Publication number: CN111931948A
Application number: CN202010263130.XA
Authority: CN
Inventors: 汤健; 夏恒; 乔俊飞; 杜胜利
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-11-13

Abstract

本发明公开一种用于测量混凝土抗压强度的基于深度集成森林回归的建模方法，包括：通过采用适合工业过程的维数约简策略对原始高维特征进行预处理，获得约简特征向量；然后，以约简特征向量作为输入，训练多个子森林模型，通过KNN近邻法选取若干个子森林的预测值进行组合获得层回归向量，将其与约简特征向量进行组合获得增强层回归向量，进而获得该层的输出；其次，将输入层的增强层回归向量作输入，以获得第2层森林模型的输出，重复依次进行，直到完成第K‑1层森林模型的输出；最后，以第K‑1层的中间层森林模型的输出作为输出层森林模型模块输入，训练多个子森林模型，通过将该层子森林模型的预测输出进行算术平均最终预测结果。

Description

用于测量混凝土抗压强度的深度集成森林回归建模方法

技术领域

本发明涉及一种用于测量混凝土抗压强度的深度集成森林回归建模方法。

背景技术

限于复杂物理/化学生产过程的机理不清、非线性和强耦合等综合复杂特性，表征该类过程产品质量和环保指标的关键过程参数通常被称为难测参数[1]。这类参数采用先人工定时采样、再在实验室离线化验分析(如混凝土抗压强度、城市固废焚烧过程污染排放的二噁英浓度和表征磨矿质量的磨矿粒度)或依靠优秀的领域专家在生产现场凭经验估计(如表征磨矿效率的磨机负荷)得到。上述非精确、大滞后的检测方法成为制约生产过程实现运行优化与反馈控制的主要瓶颈之一[2]。结合生产过程机理和经验知识，采用离线容易检测的过程变量建立难测参数的软测量模型是解决该问题的有效方法之一[3]。

集成学习作为机器学习的主要分支，在工业过程难测参数软测量领域得到了广泛的应用。决策树(DT)作为集成学习的一种基学习器，不仅可以处理分类问题，也能够处理回归问题，其中最具代表性的为分类与回归树(CART)[4]。将DT进行集成的方法被称之为森林算法(FM)，其中以Breiman提出的随机森林(RF)[5]算法最具有代表性。

深度神经网络学习算法[6]使得传统机器学习方法在很多领域失去了竞争性，但其本质上为“黑箱”模型，存在着超参数多、训练难度大等问题。Zhou等人[7]分析DNN成功的内在原因，提出了由多粒度扫描和级联森林两部分组成的深度森林(DF)结构，进行非神经网络结构深度学习的研究，初步探索了由FM模型组成的深度模型。Kevin等人[8]也从DNN中获取灵感，通过将神经元替换成DT，提出了一种前瞻性深层随机森林(FTDRF)。虽然类似相关研究逐渐增多，但其研究领域主要以处理图像识别、自然语言处理等分类问题为主，主要贡献在于将类分布向量作为层与层之间传递的特征表征方式。针对工业过程连续性数值数据，文献[9]在多粒度扫描之前，引入深度玻尔兹曼机(DBM)将原始特征转换成二维向量，然后采用DF方法构建分类器，采用工业过程故障诊断数据对方法进行了验证，实验结果表明DBM与DF结合的方法有效提高了故障诊断的识别率。

混凝土作为现代建设工程中必不可少的材料，其抗压强度是混凝土最为重要的指标。在混凝土结构工程中，混凝土的强度是通过混凝土试件抗压强度试验的结果进行检验评定。因无法在线测量混凝土抗压强度的实时数据，导致混凝土生产制作流程难以实现优化控制。针对混凝土抗压强度参数通常需要长周期的离线化验分析才能获得。文献[10,11,12]均提出了基于集成学习的软测量建模方法，实现了混凝土抗压强度的在线软测量。但上述研究文献的混凝土抗压强度软测量模型的结构复杂，模块之间没有考虑特征的表征学习，同时存在对混凝土抗压强度软测量值预测精度偏低等问题。

发明内容

复杂工业过程的难以检测质量指标或环保指标参数通常需要长周期的离线化验分析才能获得，为实现这些过程的运行优化控制通常需要对这些难测参数进行在线实时测量。涉及多种物理、化学原理的工业过程的机理复杂性导致难以构建具有可解释性的高维输入特征与难测参数间的映射模型。

针对上述问题，本发明提出了一种用于测量混凝土抗压强度的基于深度集成森林回归 (DEFR)的建模方法包括：采用维数约简模块通过采用适合工业过程的维数约简策略对原始高维特征进行预处理，获得约简特征向量；采用输入层森林模块以约简特征向量作为输入，训练多个子森林模型，通过KNN近邻法选取若干个子森林的预测值进行组合获得层回归向量，将其与约简特征向量进行组合获得增强层回归向量，进而获得该层的输出；采用中间层森林模块包含K-2层，其将输入层的增强层回归向量作输入，采用与输入层森林模块相同的方式获得第2层森林模型的输出，重复依次进行，直到完成第K-1层森林模型的输出；采用输出层森林模块以第K-1层的中间层森林模型的输出作为输出层(第K层)森林模型模块输入，训练多个子森林模型，通过将该层子森林模型的预测输出进行算术平均最终预测结果。采用UCI平台混凝土抗压强度数据仿真验证了所提方法的有效性。

附图说明

图1本发明流程图；

图2第tth个子森林模型F_1,t(·)的示意图；

图3不同样本阈值下的RMSE；

图4不同决策树数量下的RMSE；

图5混凝土强度训练集的预测曲线；

图6混凝土强度验证集的预测曲线；

图7混凝土强度测试数据的预测曲线；

图8不同特征的相关系数值；

图9不同样本阈值下的RMSE；

图10不同决策树数量下的RMSE；

图11混凝土强度训练集的预测曲线；

图12混凝土强度验证集的预测曲线；

图13混凝土强度测试集的预测曲线。

具体实施方式

本发明提出了一种用于测量混凝土抗压强度的基于深度集成森林回归(DEFR)的建模方法，通过由维数约简模块、输入层森林模块、中间层森林模块和输出层森林模块实现DEFR 建模，其中，每个子森林模型中的决策树数量为J个，如图1所示。

图1中，x表示原始高维特征向量，其包括：混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个过程测量值(过程测量值即为数据样本的特征，下文将统一描述成特征)；x_dimred表示通过维数约简后的约简特征向量(输入层的输入特征向量)，即对混凝土抗压强度8个特征进行维数约简；F_1,t(·) 表示混凝土抗压强度软测量中，输入层森林模型的第tth个子森林模型；

表示输入层森林模型中第tth个子森林模型F_1,t(·)的J个决策树生成的混凝土抗压强度预测值向量；

表示输入层森林模型中第tth个预测值向量

的预测均值；

表示利用kNN从输入层森林模型中第tth个预测值向量

中选择预测均值

附近的k_kNN个混凝土抗压强度预测值组成的回归向量；

表示输入层森林模型的T个回归向量串联组成的层回归向量；

表示约简特征向量x_dimred与输入层森林模型的层回归向量串联组成的增强层回归向量，其同时为混凝土抗压强度软测量模型中，中间层(第2层)的输入特征向量；

表示输入特征向量x_dimred与第k-1层森林模型的层回归向量串联组成的增强层回归向量，即为混凝土抗压强度软测量模型中，第kth层森林模型输入特征向量；k＝1,2,…,K，K表示DEFR的层数(深度)；F_k,t(·)表示混凝土抗压强度软测量模型中，第kth层森林模型中第tth个子森林模型；

表示第kth层森林模型中第tth个子森林模型F_k,t(·)的J个决策树生成的混凝土抗压强度预测值向量；

表示第kth层森林模型中第tth预测值向量

的预测均值；

表示利用kNN从预测值向量

中选择预测均值

附近k_kNN个混凝土抗压强度预测值组成的回归向量；

表示第kth层森林模型的T个回归向量串联组成的层回归向量；

表示输入特征向量x_dimred与第kth层森林模型的层回归向量串联组成的增强层回归向量，即为第k+1层森林模型的输入特征向量；

表示第(K-1)th层森林模型的T个回归向量串联组成的层回归向量；

表示输入特征向量x_dimred与第 K-1层森林模型的层回归向量串联组成的增强层回归向量，即为混凝土抗压强度软测量模型中，第Kth层森林模型输入特征向量；F_K,t(·)表示混凝土抗压强度软测量模型中，第Kth 层森林模型中第tth个子森林模型；

表示第Kth层森林中第tth个预测值向量

的预测均值；

表示DEFR最终的混凝土抗压强度预测输出值。

上述模块的功能如下：

(1)维数约简模块：采用维数约简方法对混凝土抗压强度数据中的原始高维特征向量进行预处理，获取约简特征向量；

(2)输入层森林模型模块：将约简特征向量作为输入，构建T个由J个决策树组成的子森林模型形成输入层森林模型，在每个子森林模型的预测值向量中选择k_kNN个预测值组合成层回归向量，然后与约简向量组合形成增强层回归向量，进而获得中间层森林模型模块的输入；

(3)中间层森林模型模块：将输入层森林模型得到的增强层回归向量作为输入，以训练输入层森林模型相同的方式继续训练K-2层森林模型；

(4)输出层森林模型模块：以第K-1层森林模型的输出作为输出层(第K层)森林模型模块的输入，训练第K层森林模型，然后将第K层森林模型中的T个预测真值进行算术平均，进而得到最终混凝土抗压强度预测结果。

维数约简模块的具体处理过程为：

复杂物理/化学生产过程普遍存在强耦合、非线性等特点，导致过程数据中存在很多冗余特征易形成建模的维数灾等问题[13]。在进行模型训练前考虑利用维数约简算法将高维原始特征向量降低成有限的维数。维数约简能够用于处理维数灾问题、提高算法效率和模型可解释性以及数据可视化。由于回归问题中的输出为连续型实值变量，导致很多在分类问题中效果很好的约简方法并不能达到最优效果，以下列举了面向回归问题的线性和非线性维数约简方法，在使用本申请所提方法时，可根据不同数据集特点选择相应的维数约简方法，得到维数约简特征向量。

其中，线性维数约简方法有：(1)基于前二阶矩的维数约简算法：切片逆回归(Sliced Inverse Regression,SIR)[14]、切片平均方差估计(Sliced Average VarianceEstimation,SAE) [15]、主Hessian方向(Principal Hessian Direction,pHd)[16]、方向回归算法(Directional Regression,DR)[17]；(2)基于模型的维数约简算法：主拟合成分[18]；(3)基于互信息的维数约简算法：核维数约简(Kernel Dimension Reduction,KDR)[19]、最小平方维数约简 (Least-Squared Dimension Reduction,LSDR)[20]、基于非参互信息的维数约简(Mutual Information-Based Dimension Reduction,MIDR)[21]；(4)基于相依准则的维数约简算法：希尔伯特-施密特独立性准则(Hilbert-Schmidt IndependenceCriterion,HSIC)[22]、距离协方差(Distance Covariance,DCOV)[23]；(5)基于回归梯度的维数约简算法：基于梯度的核维数约简(Gradient-Based Kernel DimensionReduction,gKDR)[24]、最小平方梯度维数约简 (Least-Squares Gradients forDimension Reduction,LSGDR)[25]等。

非线性维数约简方法主要有：协方差算子逆回归(Covariance Operator InverseRegression, COIR)[26]、核切片逆回归(Kernel Sliced Inverse Regression,KSIR)[27]等。

输入层森林模型模块的具体处理过程为：

DEFR结构中的子森林可以采用多种形式的回归森林模型，如随机森林、完全随机森林等。采用自助采样(Bootstrap)和随机子空间法(Random Subspace Method,RSM)对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个特征和混凝土抗压强度检测值的训练集 D＝{(x_i,y_i),i＝1,2,…N}∈R^N×M进行样本和特征的随机采样，以增加子森林的多样性。

首先，描述输入层子森林的构建过程。

采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个特征和混凝土抗压强度检测值的训练集D进行随机采样，以输入层森林模型中第tth个子森林模型的J个训练子集

为例，其产生过程可表示为，

其中，D表示混凝土抗压强度软测量模型中，输入层森林模型中包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个特征和混凝土抗压强度检测值的训练集；J表示Bootstrap次数，也表示输入层森林模型中每个子森林模型的决策树数量；

表示输入层森林模型中第tth个子森林的第jth个训练子集，其中

表示第jth个训练子集从混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量和混凝土置放天数等八个特征中选择M^j个特征的训练样本，y^j表示混凝土抗压强度的实际检测值；m＝1,…,M^j， M^j表示输入层森林模型中第tth个子森林的第jth个训练集从8个特征中选择的特征数量，通常存在M^j＜＜M；t＝1,2,...,T，t表示输入层森林模型中第tth个子森林模型。

以上述J个训练子集

构建混凝土抗压强度软测量模型中第tth个子森林中的J个决策树，得到输入层中第tth个子森林模型F_1,t(·)，其示意如图2所示。

构建子森林模型的过程详见文献[28]。重复上述步骤T次，即可得到输入层森林模型的集合

接着，描述输入层森林模型的增强层回归向量产生过程。

针对输入层森林模型中第tth个子森林模型，每个决策树模型将对混凝土过程测量值样本产生一个混凝土抗压强度预测值

然后得到J个混凝土抗压强度预测值

组成的预测值向量

计算输入层森林模型中第tth个子森林模型的预测均值，

通过kNN选取预测均值

附近的k_kNN个混凝土抗压强度预测值组成第tth个子森林的回归向量

重复上述步骤T次，得到输入层森林模型中T个子森林模型的层回归向量

接着，将对混凝土抗压强度8个特征进行维数约简后的约简特征向量x_dimred与层回归向量

进行串联组合，得到做为输入层森林模型输出的增强层回归向量

即为混凝土抗压强度软测量模型的中间层森林模型(第2层)的输入。其产生过程可表示为，

其中，k_kNN表示选择预测均值附近的混凝土抗压强度预测值数量。

中间层森林模型模块的具体处理过程为：

以第kth层森林模型为例介绍中间层森林模型模块的构建过程。

第kth层森林模型的训练数据集D_k＝{(x_k,i,y_i),

为第k-1层森林模型所输出的增强层回归向量

与混凝土抗压强度检测值的组合，其中特征包含：混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量

其表示过程为，

其中，y表示训练集D中的混凝土抗压强度真值向量；N表示训练集D的样本数量；

表示第k-1层森林模型的层回归向量与将对混凝土抗压强度8个特征进行维数约简后的约简特征向量x_dimred串联之后的增强层回归向量； D_k＝{(x_k,i,y_i),

表示第kth层森林模型的输入训练集，其中x_k,i表示第ith个包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量

的训练样本，y_i表示第ith个混凝土抗压强度的实际检测值；M_k＝M+(k_kNN×T)表示第kth层森林模型包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征、层回归向量

和混凝土抗压强度检测值的训练数据集 D_k的输入特征数量。

然后，采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征、层回归向量

和混凝土抗压强度检测值的训练数据集D_k进行样本和特征的随机采样，其训练子集的产生过程可表示为，

其中，

表示第kth层森林模型中第tth个子森林模型的第jth个训练子集，其中

表示第jth个训练子集中从混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量

中选择

个特征的训练样本，y^j表示混凝土抗压强度的实际检测值；

表示第kth层森林模型中第tth个子森林模型的第jth个训练集从8个特征和层回归向量

中选择的特征数量，通常存在

以上述J个训练子集

构建混凝土抗压强度软测量模型中第kth层森林模型中第tth个子森林模型的J个决策树，得到第kth层森林模型中的第tth个子森林模型F_k,t(·)。

重复上述步骤T次，得到第kth层森林模型的集合

接着，描述第kth层森林模型的增强层回归向量产生过程。

第kth层森林模型中第tth个子森林模型，每个决策树模型对输入产生一个混凝土抗压强度预测值

可得到J个混凝土抗压强度预测值

组成的预测值向量

计算第kth层中第tth个子森林模型的预测均值，

通过kNN选取预测均值

附近的k_kNN个混凝土抗压强度预测值组成第tth个子森林模型的回归向量

重复上述步骤T次，得到T个子森林模型的回归向量，组合后得到第kth层森林模型的层回归向量

进行串联组合，得到第kth层森林模型输出的增强层回归向量

即为第k+1层森林模型的输入。其产生过程可表示为，

输出层森林模型模块的具体处理过程为：

第Kth层森林模型的训练数据集D_K＝{(x_K,i,y_i),

为第K-1 层森林模型输出的增强层回归向量

其表示过程为，

其中，D_K＝{(x_K,i,y_i),

表示第Kth层森林模型的训练集，其中x_K,i表示第ith个包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征和层回归向量

的训练样本，y_i表示第ith个混凝土抗压强度的实际检测值；M_K＝M+(k_kNN×T)表示第Kth层包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征、层回归向量

和混凝土抗压强度检测值的训练数据集D_K的特征数量。

然后采用Bootstrap和RSM对包含混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量、细集料含量、混凝土置放天数等八个特征、层回归向量

和混凝土抗压强度检测值的训练数据集D_K进行样本和特征的随机采样，第Kth层森林模型中第tth个子森林模型的J个训练子集产生过程可表示为，

其中，

中选择

个特征的训练样本，y^j表示混凝土抗压强度的实际检测值；

中选择的特征数量，通常存在

以上述J个训练子集构建第Kth层中第tth个子森林模型的J个决策树，获得第Kth层的第tth个子森林模型F_K,t(·)。重复上述步骤T次，得到第Kth层森林模块的模型

第Kth层中第tth个子森林模型，每个决策树模型将产生一个混凝土抗压强度预测值

然后得到J个混凝土抗压强度预测值

组成的预测值向量

计算第Kth层中第tth个子森林模型的预测均值，

重复上述步骤T次，得到T个子森林模型的预测输出集合

最后，将T个子森林模型的混凝土抗压强度预测值进行算术平均，

其中，

表示DEFR模型最终的混凝土抗压强度预测输出。

实施例仿真验证

实验数据描述

采用University of California Irvine(UCI)平台提供的混凝土抗压强度数据集[29,30]验证本文方法。该数据集中包含1030个样本，其中前8列为输入，分别是混凝土、高炉矿渣粉、粉煤灰、水、减水剂、粗集料和细集料在每立方混凝土中各配料的含量及混凝土的置放天数；第9列为输出，即混凝土抗压强度。本文中，将1030个样本中的1/2作为训练样本， 1/4作为验证样本，1/4样本作为测试样本。

根据混凝土抗压强度数据集的特征属性，下面将分别进行有维数约简模块(下文中为了进行区分，将无维数约简模块的模型表示成DEFR-dimred)和无维数约简模块(有维数约简模块的模型表示成DEFR-Nodimred)实验。实验中初始参数设置为，混凝土抗压强度软测量模型中森林层的子森林个数设置为T＝8，其中包含4个随机森林和4个完全随机森林， kNN选择的混凝土抗压强度预测值个数k_kNN＝1。

有维数约简模块

实验结果

混凝土抗压强度中混凝土含量、高炉矿渣粉含量、粉煤灰含量、水含量、减水剂含量、粗集料含量和细集料含量及混凝土置放天数8个特征与混凝土抗压强度真值的线性相关系数统计结果如图3所示，

8个特征与混凝土抗压强度的相关系数绝对值如图3所示，以0.2为分界线将八个特征分成两部分。其中大于0.2的特征为：混凝土含量、水含量、减水剂含量和混凝土置放天数。因此，通过维数约简模块从混凝土抗压强度数据的八个特征中选择混凝土含量、水含量、减水剂含量和混凝土置放天数四个特征作为训练集。

以50次运行的均值作为最终结果，参数设置为 K＝50,M^j＝4,k_kNN＝1,T＝8,J＝500，其中M^j＝4表示混凝土抗压强度数据集中混凝土含量、水含量、减水剂含量和混凝土置放天数四个特征和层回归向量中随机选择四个特征。测试决策树叶结点的训练样本阈值θ_Forest与混凝土抗压强度软测量模型DEFR-dimred在验证集中的RMSE之间的关系，实验结果如图4所示。

由图4可知，当叶结点的训练样本阈值θ_DT＝10时验证集的RMSE(7.1736)值达到最小，当θ_DT再增大时RMSE也随之增大。因此选择决策树叶结点的训练样本阈值θ_DT＝10。

然后，测试森林层模型中子森林模型的决策树的数量J与混凝土抗压强度软测量模型 DEFR-dimred在验证集中的RMSE之间的关系，如图5所示。

由图5可知，混凝土抗压强度软测量模型DEFR-dimred中森林层的子森林中决策树的数量J＝100时验证集的RMSE(6.9979)值达到最小。

最终混凝土抗压强度软测量模型DEFR-dimred的参数确定为： T＝8,k_kNN＝1,K＝50,θ_DT＝10,M^j＝4,J＝100。

方法比较

采用完全随机森林方法(CRF)和随机森林(RF)与本文所提方法DEFR-dimred进行比较，其中：CRF参数设置为：θ_DT＝10,M^j＝4,J＝100，RF参数设置为：θ_DT＝10,M^j＝4,J＝100。

不同软测量方法的预测曲线如图6、7和8所示。

表1不同方法的比较结果

图6-8和表1的结果表明：(1)CRF因其所固有的随机性而在预测混凝土抗压强度中具有最大的预测误差，测试集误差为9.3488；(2)RF采用最小平均误差规则进行决策树的节点切分，使得其在混凝土抗压强度的预测性能强于CRF，测试集误差为7.5390； (3)本文所提DEFR-Nodimred方法在训练集、验证集和测试集中对混凝土抗压强度的预测均具有最佳预测性能，测试集误差为7.2320，其层数K＝3。

无维数约简模块

实验结果

以50次运行的均值作为最终结果，参数设置为 K＝50,M^j＝4,k_kNN＝1,T＝8,J＝500，其中M^j＝4表示从混凝土抗压强度数据集中8 个特征和层回归向量中随机选择4个作为输入特征。测试决策树叶结点的训练样本阈值θ_Forest与混凝土抗压强度软测量模型DEFR-Nodimred在验证集中的RMSE之间的关系，实验结果如图9所示。

由图9可知，当叶结点的训练样本阈值θ_DT＝10时验证集的RMSE(7.4893)值达到最小，当θ_DT再增大时RMSE也随之增大。因此选择决策树叶结点的训练样本阈值θ_DT＝10。

然后，测试森林层模型中子森林模型的决策树的数量J与混凝土抗压强度软测量模型 DEFR-Nodimred在验证集中的RMSE之间的关系，如图10所示。

由图10可知，混凝土抗压强度软测量模型DEFR-Nodimred中森林层的子森林中决策树的数量J＝200时验证集的RMSE(7.4771)值达到最小。

最终混凝土抗压强度软测量模型DEFR-Nodimred的参数确定为： T＝8,k_kNN＝1,K＝50,θ_DT＝10,M^j＝4,J＝200。

方法比较

采用完全随机森林方法(CRF)和随机森林(RF)与本文所提方法DEFR-Nodimred进行比较，其中：CRF参数设置为：θ_DT＝10,M^j＝4,J＝200，RF参数设置为：θ_DT＝10,M^j＝4,J＝200。

不同软测量方法的预测曲线如图11、12和13所示。

不同建模方法的统计结果如表2所示。

表2不同方法的比较结果

图11-13和表1、表2的结果表明：(1)省去维数约简模块后，本文所提 DEFR-Nodimred方法在训练集、验证集和测试集中对混凝土抗压强度的预测均具有最佳预测性能，测试集误差为6.4018，其层数K＝3。；(2)与为进行维数约简的DEFR-dimred 相比，DEFR-Nodimred在在验证集和测试集中对混凝土抗压强度的预测均好于 DEFR-dimred，说明本文所提深度森林结构的有效性。

因此，本文所提方法首次提出的深度集成森林回归模型在混凝土抗压强度软测量中具有最佳的预测性能。

针对工业过程难测参数的软测量建模，本发明提出一种基于深度集成森林回归的建模方法。主要贡献表现在：首次解决了深度集成森林在回归问题中层级之间的特征表征方式，首次实现了深度森林结构在回归建模问题中的应用。通过UCI平台混凝土抗压强度数据仿真验证了所提方法的有效性。

参考文献

[1]柴天佑.复杂工业过程运行优化与反馈控制.自动化学报,2013,39(11):1744-1757.

[2]汤健，田福庆，贾美英，李东.基于频谱数据驱动的旋转机械设备负荷软测量[M],国防工业出版社，2015 年6月，北京

[3]Kadlec P,Gabrys B,Strand S.Data-driven soft-sensors in the processindustry[J].Computers and Chemical Engineering,2009,33(4):795-814.

[4]Breiman L,Friedman J,Stone C.Classification and RegressionTrees.Wadsworth,1984.

[5]Breiman,L.Random forests.Machine Learning,2001,45(1),5–32.

[6]I.Goodfellow,Y.Bengio,and A.Courville.Deep Learning.MIT Press,Cambridge,MA,2016.

[7]ZhouZH,FengJ.Deepforest:Towards an alternative to deep neuralnetworks[J].eprintarXiv:1702.08835，2017.

[8]KMiller,C Hettinger,et al.Forward thinking:Building deep randomforests.2017,arXiv:1705.07366.

[9]Hu G,Li H,Xia Y,Luo L.A deep Boltzmann machine and multi-grainedscanning forest ensemble collaborative method and its application toindustrial fault diagnosis.Computers in Industry.2018.100, 287-296.

[10]Jian Tang,Jian Zhang,Zhiwei Wu,et al.Modeling collinear datausing double-layer GA-based selective ensemble kernel partial least squaresalgorithm.Neurocomputing.219(2017):248-262.

[11]Jian Tang,Junfei Qiao,Jian Zhang,et al.Combinatorial optimizationof input features and learning parameters for decorrelated neural networkensemble-based soft measuring mosel.Neurocomputing. 275(2018):1426-1440.

[12]v汤健,乔俊飞.基于选择性集成核学习算法的固废焚烧过程二噁英排放浓度软测量[J].化工学报,2019,70(02):696-706.

[13]Shan H M,Zhang J P.Real-valued multivariate dimension reduction:review[J].Journal of Automation,2018, 44(2):193-215.

[14]Li K C.Sliced inverse regression for dimension reduction.Journalof the American Statistical Associatio, 1991,86(414):316-327.

[15]Cook R D,Weisberg S.Sliced inverse regression for dimensionreduction:comment.Journal of the American Statistical Association,1991,86(414):328—332.

[16]Li K C.On principal Hessian directions for data visualization anddimension reduction:another application of Stein’s lemma.Journal of theAmerican Statistical Association,1992,87(420):1025-1039.

[17]Li B,Wang S L.On directional regression for dimensionreduction.Journal of the American Statistical Association,2007,102(479):997—1008.

[18]Cook R D.Fisher 1ecture:dimension reduction inregression.Statistical Science,2007,22(1):1-26

[19]Fukumizu K,Bach FR,Jordan MI.Dimensionality reduction forsupervised learning with reproducing kernel Hilbert spaces.Journal of MachineLearning Research,2004,5:73—99.

[20]Suzuki T,Sugiyama M.Suficient dimension reduction via squared—loss mutual information estimation.In Proceedings of InternationalConferenceon Artificial Intelligence and Statistics,Chia Laguna Resort,Sardinia, Italy,2010,9:804-811.

[21]Faivishevsky L,Goldberger J.Dimensionality reduction based onnon—parametric mutual information. Neurocom—putting.2012.80:3l-37.

[22]Gretton A,Bousquet O,Smola A,Schokopf B.Measuring Statisticaldependence with Hilbert— Schmidtnorms.In:Proceedings of the 16thInternational Conferenceon Algorithmic Learning Theory.Berlin, Heidelberg:Springer-Verlag,2005.63-77.

[23]Szekely G J,Rizzo M L,BakirovN K.Measuring and testing dependenceby correlation of distances.The Annals of Statistics,2007,35(6):2769-2794.

[24]Fukumizu K,Leng C L.Gradient—based kernel dimension Reductionfor regression.Journal of the American Statistical Association,2014,109(505):359-370.

[25]Sasaki H,Tangkaratt V,Sugiyama M.Suficient dimension reductionvia direct estimation of the gradients of logarithmic conditionaldensities.In:Proceedings of the 7th Asian Conferenceon MachineLearning.HongKong, China:PMLR,2015.33-48.

[26]Kim M,Pavlovic V,Central subspace dimensionality reduction usingcovariance operators.IEEE Transactions on Pattern Analysis and MachineIntelligence,20113,3(4):657—670.

[27]Wu H M.Kernel sliced inverse regression with applications toclassification.Journal of Computational and Graphical Statistics,2012,17(3):590-610.

[28]汤健,夏恒,乔俊飞,郭子豪.<一种二噁英排放浓度预测方法>,国家知识产权局，申请号： 202010083784.4，申请日期：2020年2月10日。

[29]Yeh I C.Modeling of Strength of High Performance Concrete UsingArtificial Neural Networks[J].Cement and Concrete Research,1998,28(12):1797-1808.

[30]Tang J,Yu W,Chai TY,et al.On-line Principal Component Analysiswith Application to Process Modeling[J]. Neurocomputing,2012,82(1):167-178。