CN113780383B

CN113780383B - 基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法

Info

Publication number: CN113780383B
Application number: CN202111000438.6A
Authority: CN
Inventors: 汤健; 徐雯; 夏恒; 乔俊飞
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Filing date: 2021-08-27
Publication date: 2024-07-05
Anticipated expiration: 2041-08-27

Abstract

本发明提供基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法。城市固废焚烧(MSWI)过程排放的二噁英(DXN)是浓度的实时检测是实现MSWI过程运行优化控制的关键因素之一。然而，受限于DXN浓度获取的时间和经济成本，仅可获得少量的建模数据。因此，传统的有监督建模方法难以满足实际需求。为了充分利用工业现场分布式控制系统实时获取的过程数据，首先，随机采样有标记数据生成多个训练子集。接着，利用训练子集构建多个RF模型，并对未标记的过程数据进行伪标记。最后，利用由伪标记数据和原始有标记数据组成的混合样本训练用于预测二噁英排放浓度的深度森林回归模型。在基准数据集和实际DXN数据上的实验结果验证了所提方法的有效性。

Description

基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法

技术领域

城市固废焚烧(MSWI)技术具有无害化、减量化、资源化等显著优势。然而，MSWI过程中排放出的被称为“世纪毒药”的持久性污染物二噁英(DXN)在生物体内具有明显的积累和放大作用，对生态环境和人类健康有着极大的危害。实时检测其排放浓度对于MSWI过程运行优化和控制污染排放具有重要意义。目前，MSWI过程中DXN排放浓度的检测针对尾部烟囱排放的烟气进行。一般有以下三种DXN的检测方法：1)离线直接检测法，该方法周期长、成本高、滞后时间大；2)指示物/关联物在线间接检测法，该方法需要复杂度高和昂贵的检测设备，滞后时间居中，此外，映射模型依赖于DXN离线化验；3)软测量法，以相关的易检测过程变量和常规污染物浓度为输入构建数据驱动模型，具有检测设备复杂度低、滞后时间小、在线测量等特点。综上所述，前两种方法难以支撑MSWI过程的实时运行优化。此外，由于获得DXN排放浓度的高经济和时间成本，用于构建预测模型的样本非常少。通过分布式控制系统实时获取的MSWI过程变量和常规污染物浓度数据在已有的DXN建模方法中并未得到有效利用。

背景技术

基于上述分析，本文提出了一种基于半监督RF和深度森林回归(DFR)集成的DXN浓度预测模型(SSEn-RFDFR)。首先，随机采样有标记数据后得到多个训练子集，用于构建RF模型。接着，利用RF模型对未标记的过程数据进行伪标记以增加建模数据。最后，利用原始有标记和伪标记的数据训练DFR模型进行DXN排放浓度的预测。在基准和实际DXN数据集上验证了所提出方法的有效性。

MSWI过程中的DXN排放问题在1977年首次引起了研究人员的注意。如图1所示为MSWI的工艺流程，包含固废储运、固废焚烧、余热锅炉、烟气处理和烟气排放五个部分。

MSWI的过程包括DXN的产生、吸收和排放三个阶段。在固废焚烧和余热锅炉阶段，为保证有机物的有效分解，通常要求焚烧炉内的烟气温度达到850℃并至少保持2秒。如图1所示，在烟气处理阶段，石灰和活性炭被喷射进入反应器中以去除酸性气体、吸附DXN和一些重金属物，使得烟气G1中的DXN被分为两部分：一部分被吸附进入飞灰储仓，另一部分经袋式过滤器后保留在烟气G2中，通过引风机排入烟囱后作为烟气G3排入大气。

附图说明

图1基于炉排炉的MSWI工艺流程；

图2SSEn-RFDFR建模策略图；

图3一个RF模型选择伪标记样本流程图；

图4CCS数据上的预测拟合曲线；

图5基于CCS数据集的RMSE随超参数变化曲线图；

图6基于DXN数据集的RMSE随超参数变化曲线图。

发明内容

因此，DXN浓度与固废焚烧、烟气处理和烟气排放阶段的变量有关。图1中，x_SWI表示固废焚烧阶段的变量，包含燃烧室温度(x_cct)、炉排温度(x_gt)、炉排速度(x_gs)、风量(x_av)、压力(x_p)；x_FGC代表烟气处理阶段的变量，含有袋式除尘器温度(x_bft)、引风机烟气出口温度(x_idft)、活性炭用量(x_ca)、石灰用量(x_la)、尿素用量(x_ua)、油量(x_oa)变量；x_FGE为烟气排放中的变量，包括烟气中的氧气灰尘(x_dust)、氮氧化物二氧化硫盐酸(x_HCL)、一氧化碳(x_CO)和二氧化碳浓度。可以表示如下，

x_SWI＝[x_cct,x_gt,x_gs,x_av,x_p] (1)

x_FGC＝[x_bft,x_idft,x_ca,x_la,x_ua,x_oa] (2)

虽然离线化验分析可精确测量DXN的浓度，但其时间和经济成本较高，因此很难获得足够的用于建模的有标记数据。同时，大量的MSWI过程变量和DCS系统中易于检测的气体浓度较易获得，将这些变量记作x_MSWI，即x_MSWI＝[x_SWI,x_FGC,x_FGE]，但传统有监督建模策略中未能够有效地使用未标记数据。因此，希望使用易获得的未标记(unlabeled)样本x_unlabeled∈x_MSWI辅助建模以提高预测性能。DXN浓度预测模型的最终性能可通过最小化均方根误差(RMSE)进行优化，其描述如下，

其中，和分别是DXN数据集中第i个样本的DXN浓度预测值和真值，N_DXN表示DXN数据集的样本个数。

可通过使用同时包含伪标记和有标记(labeled)数据训练得到的半监督(Semi-supervised)模型f_SS(·)得到，

其中，(x_labeled,y_labeled)为有标记数据，x_unlabeled为无标记数据，为无标记数据x_unlabeled的伪标签，即x_unlabeled的预测值，M_un为选择的无标记样本数量，δ_x为衡量伪标记样本有效性的标准，

伪标记样本可通过标记预测值模型f_label(·)计算得到，

其中，(x_labeled,y_labeled)为有标记数据，θ_model表示为建模参数集，模型f_SS(·)和f_label(·)的具体训练过程将在3.1节详细阐述。

RMSE可通过选择的未标记样本数量M_un和衡量伪标记样本有效性的标准δ_x进行优化。因此，综合使用有标记和未标记数据的半监督策略可有效解决目前DXN排放浓度预测中未能利用未标记数据的问题。

SSEn-RFDFR模型中包含用于获取伪标记样本的半监督模块和基于DFR的DXN预测模块，其策略如图2所示。

3.1获取伪标记样本的半监督模块

基于MSWI过程的有标记数据集，构建多个RF模型用于伪标记无标记样本，训练集在选择最优的伪标记样本后进行更新。下文将分别介绍本模块的四个部分。

1)生成多个训练子集

首先，记D_labeled为有标记数据集，N为有标记数据集的样本数量，x_n为过程数据，y_n为真值数据(在本文使用的DXN数据集中，x_n含有127个过程变量，y_n为DXN浓度值)。其描述如下，

接着，通过bootstrap对有标记数据集D_labeled进行随机采样以得到K个样本个数为N的训练子集这些子集将用于训练初始的多个RF模型。

2)训练初始的多个RF模型

多个RF模型是SSEn-RFDFR策略的重要组成部分。通过这些模型，可得到未标记样本对应的伪标签。

首先，通过bootstrap和随机子空间方法(RSM)对子集的样本和特征进行随机采样，获得J个子训练集

接着，在训练子集所在的空间中，将每个区域递归地划分为两个子区域R₁和R₂，并使用每个子区域上的输出值构建决策树。基于以下准则，即公式(8)，遍历寻找最优变量编号和切分点取值(M^j,s)，

其中，和分别表示两个区域R₁和R₂的DXN测量值；和分别为两个区域R₁和R₂中DXN测量值的平均值；θ_Forest表示叶节点包含的训练样本数量阈值(在本文中选择数据集样本个数N的1/10作为阈值)。基于上述准则，首先通过遍历所有输入特征得到最优变量编号和切分点取值(M^j,s)，将输入特征空间划分为左、右两个区域，例如在DXN数据集中选择(M^j,s)＝(40,275)表示其最优变量的编号为40，通过表1可知对应的DXN数据过程变量为燃烧炉排1-1右内侧温度，取值为275℃(若使用的为基准数据集则根据其具体数据确定切分点取值)。该过程可由公式(9)描述，其中x^(j)为该最优变量的取值，

R₁(M^j,s)＝{x|x^(j)≤s},R₂(M^j,s)＝{x|x^(j)＞s} (9)

接着，根据公式(8)对每个区域重复遍历过程，直到叶节点包含的样本个数少于设定的阈值θ_Forest为止，输入空间被划分为为M个区域，定义第jth个训练子集的决策树模型为Γ^j(·)，

其中，是区域R_m内训练样本的真值均值，由公式(11)进行计算；I(·)为指示函数，当存在时I(·)＝1，否则I(·)＝0；表示区域R_m内包含的训练样本个数；表示区域R_m内第jth个训练子集的真值。

重复公式(10)和(11)的步骤J次即可得到第k个RF模型如下所示。

最后，根据公式(8)-(12)的步骤，可得到K个RF模型的集合

3)伪标记未标记样本

构建的K个RF模型F_RF(·)用于对未标记样本x_unlabeled进行伪标记得到伪标签。未标记样本x_unlabeled中包含的样本个数为M_un(在本文使用的DXN数据集中x_unlabeled包含34个样本，每个样本含有127个过程变量)。其描述如下，

用表示其中的一个未标记样本，其伪标签由第k个RF模型得到。根据上述内容2)中的描述，使用伪标记样本和原始有标记样本的混合数据集训练新的RF模型

通过计算未标记样本x_unlabeled在有标记数据集D_labeled中邻域集Ω_U,t的RMSE确定伪标记样本的效果，邻域集Ω_U,t通过K最近邻(KNN)方法得到。RF模型和用于获取邻域集Ω_U,t的预测值和表示迭代次数，描述如下，

用以评估将伪标记样本添加到原始有标记数据集x_labeled后对近邻域集的预测效果，

其中，是近邻域集Ω_U,t中样本x_Ω的真实DXN值，为对近邻域集Ω_U,t中样本x_Ω预测得到的伪标签，表示利用RF模型对近邻域集Ω_U,t中样本x_Ω预测得到的伪标签。近邻域集计算得到的值越高，表示加入该伪标记样本对提高模型预测精度的正效应越大。根据可选择出置信度高的未标记样本和其预测值。图3描述了利用其中一个RF模型进行伪标记的过程。

4)更新建模样本

由于存在K个训练子集故可根据上述内容2)和3)选择每个训练子集的最优(即置信度高)伪标记样本将这些样本集加入到有标记训练集D_labeled中，可更新得到训练集D_new-train，表示如下：

3.2基于DFR的DXN预测模块

更新后的训练集D_new-train用于训练DFR模型。DFR模型包括输入层、中间层和输出层森林模块。输入层森林模块的输入是训练集D_new-train。在训练多个子森林模型后，使用KNN法选择子森林的预测值，将其组合后得到层回归向量，增强层回归向量由层回归向量与训练集D_new-train组合后得到。中间森林模块包含L-2层，将从输入层得到的增强层回归向量作为输入，输出以与输入层相同的方式得到。重复这个过程，直到得到第L-1层森林模型的输出。输出层森林模块将L-1层森林模型的输出作为第L层森林模型的输入训练多个子森林模型，通过对子森林模型的预测值进行算术平均得到最终的预测结果。

1)输入层森林模块

首先，使用bootstrap和RSM方法对训练集D_new-train进行随机采样，构建RF和CRF的子森林模型。与RF算法不同的是，CRF算法中使用随机的方法遍历变量寻找最优的变量编号和切分点取值。

输入层森林模块中由I个子森林模型组成，第ith个子森林模型的J个决策树生成的预测值向量为由每个决策树产生的预测值组成。通过下式计算第一层森林模块中第ith个子森林模型的预测平均值

相应地，通过KNN方法选择h个接近预测均值的预测值形成第ith层子森林的回归向量重复公式(18)的步骤I次后，即可得到输入层森林模型中I个子森林模型的层回归向量

最后，将输入的训练集特征集x_new-train(x_new-train为D_new-train中只含127个DXN过程变量的样本)和层回归向量通过特征组合函数f_FeaCom(·)结合，得到输入层森林模块的增强型回归向量即中间层森林模块的输入，

其中，h表示选择接近预测平均值的预测值的数量。

2)中间层森林模块

中层森林模块中森林模型的训练数据集D_λ＝{(x_λ,n,y_n),n＝1,2,…,N+K},λ＝2,3,…L-1为增强层回归向量即第λ-1层森林模型的输出，x_λ,n为训练数据集D_λ中的过程数据，y_n为训练数据集D_λ中的真值，

其中，y_D表示训练集D_new-train中的DXN真实浓度值；N+K表示训练集D_new-train中的样本数；为由第λ-1层森林模型的层回归向量和原始特征向量x_new-train组成的增强层回归向量；D_λ表示第λth个森林模型的训练集。预测值由第λth层森林模型中的第ith个子森林模型的每个决策树模型生成，用于获得由J个预测值组成的预测值向量

通过KNN方法选择h个接近预测均值的预测值，形成第ith个子森林的回归向量以及第λth层森林模型的层回归向量重复步骤(21)I次后，可得到第λth层森林模型的层回归向量

最后，将输入的训练集特征集x_new-train和层回归向量组合，形成第λth层森林模块的增强层回归向量即第λ+1层森林模型的输入。

3)输出层森林模块

第Lth层森林模型的训练数据集D_L＝{(x_L,n,y_n),n＝1,2,…,N}是第L-1层森林模型输出的增强层回归向量即将x_new-train和层回归向量的组合，

其中，y_D表示训练集D_new-train中的DXN真实值；N+K表示训练集D_new-train中的样本个数。

使用bootstrap和RSM对训练集D_L的样本和特征进行随机采样。根据公式(10)可构建第ith个子森林模型的决策树模型，进而得到第Lth层森林模型记第Lth层中第ith个子森林模型的每个决策树模型生成的预测值为预测值向量由J个预测值组成。最后，第Lth层中的第Ith个子森林模型的预测均值由下式计算，

重复步骤(24)I次后可得到I个子森林模型的预测输出I个子森林模型预测值的算术平均值为：

其中，表示DFR模型的最终预测得到的DXN浓度值。

具体实施方式

4.1基于基准数据集的实验

1)数据描述

基准数据集为加州大学欧文分校(UCI)平台提供的混凝土抗压强度数据。该数据集包含1030个样本，其中前8列分别为每立方米混凝土中水泥、高炉矿渣、粉煤灰、水、减水剂、粗骨料和细骨料的含量以及混凝土存放天数，第9列为混凝土抗压强度。本实验中按照从第一个样本中每隔10个样本选取一个样本的规则选取103个样本，按照2:1:1的比例分为训练集、验证集和测试集。接着选择相同数量(即103个)的样本作为未标记样本。

2)实验结果

本次实验中主要包含以下参数：最小样本量Minsample、选取的特征数量FeaturesNum、训练子集数k、决策树数量J、迭代次数T、选取的未标记样本个数以及近邻域样本个数。

在SSEn-RFDFR建模策略中设置参数如下：Minsamples＝9，FeaturesNum＝5，K＝30，J＝50，T＝10，选取的未标记样本数为15，近邻域样本数为30。

在本文中，最终结果以运行20次得到的结果的均值、方差和最小值记录。下表分别记录了在训练集、验证集和测试集上得到的RMSE和MAE值。

在测试集上的拟合曲线如图4所示。

表1.CCS训练集结果

表2.CCS验证集结果

表3.CCS测试集结果

从上述表中可以看出，使用SSEn-RFDFR建模策略得到的RMSE和MAE均值最小，说明该模型的预测精度高于其他方法。此外，在测试集上的结果表明该模型具有更好的泛化性能。同时，方差值表明数据的分布接近均值的程度，表明其预测的结果相对稳定。

3)参数分析

当某些超参数的值发生变化时，测试验证集RMSE的变化情况。在图5中，RMSE随超参数值的增加而变化。可以看出，当训练子集数K＝20，最小样本数Minsamples＝15，和选取的特征数FeaturesNum＝7时，所建立模型的均方根误差分别为最小。因此，在后续研究可以调整最佳参数值以取得更好的结果。

4.2基于基准数据集的实验

1)数据描述

本节建模数据为北京某MSWI发电厂1#、2#炉近6年来的真实DXN排放浓度数据，其中包括来自固废焚烧系统、余热锅炉系统、烟气处理系统和烟气排放系统的127个过程变量，表4为其明细。该数据共有67个标记样本，前33个样本其中的1/2为训练集，1/4为验证集，1/4为测试集。剩余的34个样本用作未标记数据集。

表4. 127个过程变量明细

2)实验结果

本次实验中主要包含以下参数：最小样本量Minsample、选取的特征数量FeaturesNum、训练子集数k、决策树数量J、迭代次数T、选择未标记样本个数以及近邻域样本数。

在SSEn-RFDFR建模策略中设置参数如下：Minsamples＝9，FeaturesNum＝26，K＝30，J＝50，T＝10，选取的未标记样本数为15，近邻域样本数为30。

在本实验中，与基准数据集相同，最终结果将以运行20次后的平均值、方差和最小值记录。下表分别是在训练集、验证集和测试集上得到的RMSE和MAE结果。

表5.DXN训练集结果

表6.DXN验证集结果

表7.DXN测试集结果

从4种方法在DXN数据集上的实验可以看出，SSEn-RFDFR方法得到的均方根误差最小，说明其预测性能和泛化性能最好。虽然DT方法的结果往往可以得到最小的RMSE和MAE值，但较大的均值表明该模型得到的预测结果不如其他方法稳定。实验结果表明，加入一定数量的伪标记样本可以提高模型预测的准确，这验证了半监督策略的有效性。

3)参数分析

与基准数据集相同，当某些超参数的值发生变化时，分别测试验证集的RMSE变化。图6所示为RMSE的曲线随着超参数值的增加而变化。可以看出，当训练子集的数量增加至K＝25时，RMSE最小。然而，当训练子集个数大于25时，RMSE随着子集数的增加而增加。而且，当Minsamples＝9时，验证集的RMSE最小，之后有增加的趋势。同样，当FeaturesNum＝22时，RMSE最小。

为了充分利用MSWI过程中较易获得的未标记数据，本文提出了一种新的半监督方法，贡献主要包括：1)基于半监督集成RF和DFR策略设计了SSEn-RFDFR模型；2)在半监督RF策略中有效利用了包含丰富信息的无标记样本，并通过无标记数据的近邻域计算伪标签的正负效应从而选择出置信度较高的伪标记样本，将其加入到标记的训练样本中后，实现了训练样本的扩展；3)本文首次将半监督策略应用于DXN浓度预测建模，与传统的监督策略相比，所提出的方法提高了预测精度。

在仿真实验中可以看出，这种方法虽然可以取得较好的效果但仍有进一步优化的空间。一方面，可以使用算法进一步调整所提出模型的超参数以获得最佳结果。另一方面，为了提高模型的预测精度，可以考虑增加模型的多样性，这些问题将在未来的研究工作中得到解决。

Claims

1.基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法，其特征在于：

MSWI的过程包括DXN的产生、吸收和排放三个阶段；在固废焚烧和余热锅炉阶段，为保证有机物的有效分解，要求焚烧炉内的烟气温度达到850℃并至少保持2秒；在烟气处理阶段，石灰和活性炭被喷射进入反应器中以去除酸性气体、吸附DXN和一些重金属物，使得烟气G1中的DXN被分为两部分：一部分被吸附进入飞灰储仓，另一部分经袋式过滤器后保留在烟气G2中，通过引风机排入烟囱后作为烟气G3排入大气；

因此，DXN浓度与固废焚烧、烟气处理和烟气排放阶段的变量有关；x_SWI表示固废焚烧阶段的变量，包含燃烧室温度x_cct、炉排温度x_gt、炉排速度x_gs、风量x_av、压力x_p；x_FGC代表烟气处理阶段的变量，含有袋式除尘器温度x_bft、引风机烟气出口温度x_idft、活性炭用量x_ca、石灰用量x_la、尿素用量x_ua、油量x_oa变量；x_FGE为烟气排放中的变量，包括烟气中的氧气灰尘x_dust、氮氧化物二氧化硫盐酸x_HCL、一氧化碳x_CO和二氧化碳浓度；可以表示如下，

x_SWI＝[x_cct,x_gt,x_gs,x_av,x_p] (1)

x_FGC＝[x_bft,x_idft,x_ca,x_la,x_ua,x_oa] (2)

虽然离线化验分析可精确测量DXN的浓度，但其时间和经济成本高，因此只能获得用于建模的小样本标记数据；同时，大量的MSWI过程变量和DCS系统中检测的气体浓度可以获得，将这些变量记作x_MSWI，即x_MSWI＝[x_SWI,x_FGC,x_FGE]，但传统有监督建模策略中未能够使用未标记数据；因此，使用能够获得的未标记unlabeled样本x_unlabeled∈x_MSWI辅助建模以提高预测性能；DXN浓度预测模型的最终性能可通过最小化均方根误差RMSE进行优化，其描述如下，

其中，和分别是DXN数据集中第i个样本的DXN浓度预测值和真值，N_DXN表示DXN数据集的样本个数；

可通过使用同时包含伪标记和有标记数据训练得到的半监督模型f_SS(·)得到，

其中，(x_labeled,y_labeled)为有标记数据，x_unlabeled为无标记数据，为无标记数据x_unlabeled的伪标签，即x_unlabeled的预测值，M_un为选择的无标记样本数量，为衡量伪标记样本有效性的标准，0<δ_x≤1；

伪标记样本可通过标记预测值模型f_label(·)计算得到，

其中，(x_labeled,y_labeled)为有标记数据，θ_model表示为建模参数集，模型f_SS(·)和f_label(·)的具体训练过程将在3.1节详细阐述；

RMSE可通过选择的未标记样本数量M_un和衡量伪标记样本有效性的标准δ_x进行优化；因此，综合使用有标记和未标记数据的半监督策略可有效解决目前DXN排放浓度预测中未能利用未标记数据的问题；

SSEn-RFDFR模型中包含用于获取伪标记样本的半监督模块和基于DFR的DXN预测模块；

3.1获取伪标记样本的半监督模块

基于MSWI过程的有标记数据集，构建多个RF模型用于伪标记无标记样本，训练集在选择最优的伪标记样本后进行更新；下文将分别介绍本模块的四个部分；

1)生成多个训练子集

首先，记D_labeled为有标记数据集，N为有标记数据集的样本数量，x_n为过程数据，y_n为真值数据，在本方法使用的DXN数据集中，x_n含有127个过程变量，y_n为DXN浓度值；其描述如下，

接着，通过bootstrap对有标记数据集D_labeled进行随机采样以得到K个样本个数为N的训练子集这些子集将用于训练初始的多个RF模型；

2)训练初始的多个RF模型

多个RF模型是SSEn-RFDFR策略的重要组成部分；通过这些模型，可得到未标记样本对应的伪标签；

首先，通过bootstrap和随机子空间即RSM方法对子集的样本和特征进行随机采样，获得J个子训练集其中k＝1,2,…,K，j＝1,2,…J；

接着，在训练子集所在的空间中，将每个区域递归地划分为两个子区域R₁和R₂，并使用每个子区域上的输出值构建决策树；基于以下准则，即公式(8)，遍历寻找最优变量编号和切分点取值(M^j,s)，

其中，和分别表示两个区域R₁和R₂的DXN测量值；和分别为两个区域R₁和R₂中DXN测量值的平均值；θ_Forest表示叶节点包含的训练样本数量阈值，在本方法中选择数据集样本个数N的1/10作为阈值；基于上述准则，首先通过遍历所有输入特征得到最优变量编号和切分点取值即M^j和s，将输入特征空间划分为左、右两个区域，该过程可由公式(9)描述，其中x^(j)为该最优变量的取值，

R₁(M^j,s)＝{x|x^(j)≤s},R₂(M^j,s)＝{x|x^(j)>s} (9)

接着，根据公式(8)对每个区域重复遍历过程，直到叶节点包含的样本个数少于设定的阈值θ_Forest为止，输入空间被划分为M个区域，定义第jth个训练子集的决策树模型为Γ^j(·)，

其中，是区域R_m内训练样本的真值均值，由公式(11)进行计算；I(·)为指示函数，当存在时I(·)＝1，否则I(·)＝0；表示区域R_m内包含的训练样本个数；表示区域R_m内第jth个训练子集的真值；

重复公式(10)和(11)的步骤J次即可得到第k个RF模型如下所示；

最后，根据公式(8)-(12)的步骤，可得到K个RF模型的集合

3)伪标记未标记样本

构建的K个RF模型F_RF(·)用于对未标记样本x_unlabeled进行伪标记得到伪标签；未标记样本x_unlabeled中包含的样本个数为M_un，每个样本含有127个过程变量；其描述如下，

用表示其中的一个未标记样本，其伪标签由第k个RF模型得到；根据上述内容2)中的描述，使用伪标记样本即和原始有标记样本的混合数据集训练新的RF模型

通过计算未标记样本x_unlabeled在有标记数据集D_labeled中邻域集Ω_U,t的RMSE确定伪标记样本的效果，邻域集Ω_U,t通过K最近邻即KNN方法得到；RF模型和用于获取邻域集Ω_U,t的预测值和表示迭代次数，描述如下，

用以评估将伪标记样本即添加到原始有标记数据集x_labeled后对近邻域集的预测效果，

其中，是近邻域集Ω_U,t中样本x_Ω的真实DXN值，为对近邻域集Ω_U,t中样本x_Ω预测得到的伪标签，表示利用RF模型对近邻域集Ω_U,t中样本x_Ω预测得到的伪标签；近邻域集计算得到的值越高，表示加入该伪标记样本即对提高模型预测精度的正效应越大；根据可选择出置信度高的未标记样本和其预测值；

4)更新建模样本

由于存在K个训练子集故可根据上述内容2)和3)选择每个训练子集的最优即置信度高伪标记样本将这些样本集加入到有标记训练集D_labeled中，可更新得到训练集D_new-train，表示如下：

3.2基于DFR的DXN预测模块

更新后的训练集D_new-train用于训练DFR模型；DFR模型包括输入层、中间层和输出层森林模块；输入层森林模块的输入是训练集D_new-train；在训练多个子森林模型后，使用KNN法选择子森林的预测值，将其组合后得到层回归向量，增强层回归向量由层回归向量与训练集D_new-train组合后得到；中间层森林模块包含L-2层，将从输入层得到的增强层回归向量作为输入，输出以与输入层相同的方式得到；重复这个过程，直到得到第L-1层森林模型的输出；输出层森林模块将L-1层森林模型的输出作为第L层森林模型的输入训练多个子森林模型，通过对子森林模型的预测值进行算术平均得到最终的预测结果；

1)输入层森林模块

首先，使用bootstrap和RSM方法对训练集D_new-train进行随机采样，构建RF和CRF的子森林模型；与RF算法不同的是，CRF算法中使用随机的方法遍历变量寻找最优的变量编号和切分点取值；

输入层森林模块中由I个子森林模型组成，第ith个子森林模型的J个决策树生成的预测值向量为由每个决策树产生的预测值组成；通过下式计算第一层森林模块中第ith个子森林模型的预测平均值

最后，将输入的训练集特征集x_new-train，其中x_new-train为D_new-train中只含127个DXN过程变量的样本，和层回归向量通过特征组合函数f_FeaCom(·)结合，得到输入层森林模块的增强型回归向量即中间层森林模块的输入，

其中，h表示选择接近预测平均值的预测值的数量；

2)中间层森林模块

中间层森林模块中森林模型的训练数据集D_λ＝{(x_λ,n,y_n),n＝1,2,…,N+K},λ＝2,3,…L-1为增强层回归向量即第λ-1层森林模型的输出，x_λ,n为训练数据集D_λ中的过程数据，y_n为训练数据集D_λ中的真值，

其中，y_D表示训练集D_new-train中的DXN真实浓度值；N+K表示训练集D_new-train中的样本数；为由第λ-1层森林模型的层回归向量和原始特征向量x_new-train组成的增强层回归向量；D_λ表示第λth个森林模型的训练集；预测值由第λth层森林模型中的第ith个子森林模型的每个决策树模型生成，用于获得由J个预测值组成的预测值向量

通过KNN方法选择h个接近预测均值的预测值，形成第ith个子森林的回归向量以及第λth层森林模型的层回归向量重复公式(21)I次后，可得到第λth层森林模型的层回归向量

最后，将输入的训练集特征集x_new-train和层回归向量组合，形成第λth层森林模块的增强层回归向量即第λ+1层森林模型的输入；

3)输出层森林模块

其中，y_D表示训练集D_new-train中的DXN真实值；N+K表示训练集D_new-train中的样本个数；

使用bootstrap和RSM对训练集D_L的样本和特征进行随机采样；根据公式(10)可构建第ith个子森林模型的决策树模型，进而得到第Lth层森林模型记第Lth层中第ith个子森林模型的每个决策树模型生成的预测值为预测值向量由J个预测值组成；最后，第Lth层中的第Ith个子森林模型的预测均值由下式计算，

重复公式(24)I次后可得到I个子森林模型的预测输出I个子森林模型预测值的算术平均值为：

其中，表示DFR模型的最终预测得到的DXN浓度值。