CN111461355B

CN111461355B - 基于随机森林的二噁英排放浓度迁移学习预测方法

Info

Publication number: CN111461355B
Application number: CN202010198927.6A
Authority: CN
Inventors: 汤健; 夏恒; 乔俊飞; 杜胜利; 李晓理
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2023-10-31
Anticipated expiration: 2040-03-20
Also published as: CN111461355A

Abstract

本发明公开一种基于随机森林的二噁英排放浓度迁移学习预测方法，包括：首先，对DXN排放浓度的源域样本和目标域样本赋予初始权重；然后，基于随机样本采样和随机特征采样策略建立基于RF的DXN排放浓度预测模型；最后，基于预测误差对样本权重进行迭代调整，增大源域中与目标域相关实例的权重，提升目标域DXN排放浓度预测模型的泛化能力。

Description

基于随机森林的二噁英排放浓度迁移学习预测方法

技术领域

本发明属于城市固废焚烧技术领域，尤其涉及一种基于随机森林的二噁英排放浓度迁移学习预测方法。

背景技术

城市固废焚烧(MSWI)发电是实现生活垃圾减量化、资源化、无害化的主要方式之一^[1]。然而，因垃圾组分复杂、焚烧参数波动、焚烧设备特性漂移等原因造成了一些MSWI发电厂存在排放气体不符合标准等问题^[2]。二噁英(DXN)是MSWI过程所排放的具有极强化学性和热稳定性的剧毒持久性有机污染物，其浓度超标是造成MSWI建厂出现“邻避效应”的主要原因^[3]。在MSWI过程中，易检测的焚烧温度、炉排速度、进风压力和一次/二次风量等过程变量以秒为单位进行采集和存储，但DXN排放浓度只能通过在线采样与离线化验相结合的方法按照月/季周期或不确定周期进行检测^[4]。已成为当前研究热点的基于DXN关联物的在线检测方式在本质上为间接检测方法，依然存在检测时间滞后、检测精度难以保证等问题^[5]。DXN排放浓度的实时在线检测是MSWI过程实现经济指标与环保指标协同优化控制必不可少的重要环节^[4]。可见，DXN排放浓度的建模样本具有数量小、维数高、共线性等特性。现有数据驱动的DXN排放浓度预测建模方法存在易落入局部最小值、过拟合、模型泛化性和可解释性差等缺点^[6,7,8]。

信息化技术的发展使得流程行业也逐步积累了蕴含丰富知识的工业大数据^[9]。如何将相似/相近工业过程数据中的知识进行“迁移”是解决建模领域标记样本稀缺等问题的难点之一。迁移学习可用于解决目标任务标注数据稀缺的问题^[10]，其打破了传统机器学习对训练数据和测试数据必须服从独立同分布的约束假设，使得有标注数据等少量有监督信息能够在相似或相同领域间实现迁移和复用。

近几年，迁移学习逐渐成为集成学习领域的研究热点。基于Bagging思想^[11]，Kamishima 等人提出了包含学习和过滤两步骤的TrBagg迁移算法^[12]，其特点在于未采用可减少预测误差的弱学习器；Kumagae等人在此基础上提出的OptTrBagg方法^[13]进一步提高了算法的分类精度。随机森林(RF)算法^[14]相较于Bagging机制，同时进行训练样本和特征的随机采样，具有较高的预测精度和泛化性能，但针对小样本数据其预测精误差的泛化性也有待于进一步地提升。此外，基于预测误差顺序补偿机制的序列集成学习Boosting方法^[15]也已经成为迁移学习研究的热点。Dai等人提出了基于迁移学习的TrAdaBoost算法^[16]，其他学者相继在类似算法的动态更新、深度迁移等方面进行了研究，文献[17]在TrAdaBoost的基础上提出了迁移Boost算法，其引入多源域进行对目标域进行迁移，提高了源域信息向目标域传输的可能性；文献[18]采用潜在的狄利克雷分配(LDA)^[19]对源域和目标域的类别进行提取，然后利用TrAdaBoost进行迁移学习建模，实验表明其能提高单独使用TrAdaBoost算法的分类精度；文献[20]针对概念漂移中数据分布不断变化的现象，提出了一种将成本项与AdaBoost 相结合的概念漂移学习方法，实验结果表明基于成本敏感的boosting策略案比AdaBoost和 TrAdaBoost方法具有更佳的精度；文献[21]针对软件缺陷预测中目标域数据不足的问题，提出了一种代价敏感的Boosting方法，在给定少量目标标记数据的情况下，在减小知识转移代价的同时进行类不平衡的学习，结果表明可以有效提高软件缺陷检测的性能；文献[22]针对TrAdaBoost算法引入了动态更新因子后提高了分类准确率；文献[23]提出了一种基于决策树的Boosting迁移方法(DtrBoost)，通过最小化源域和目标域的相关学习界，将学习后的权值分配给基学习器，通过实验验证了所提方法的有效性；但上述研究主要面向文本识别、情感分类和图像识别等分类领域，难以直接应用于本申请所面对的回归建模领域；此外，这些方法由于采用单数据集构建模型，使得分类精度还具有较大提升潜力，并且。进一步，文献[24]针对传感器的位置对上肢运动能力预测性能的影响，采用RF和TrAdaBoost结合的迁移方法建立了评估模型，其能够将针对某一部位建立的传统评估模型用于其他部位的运动能力识别，有效的克服因位置不同导致传感器的评估性能下降的问题，但该策略在回归建模领域的研究未见报道。此外，Pardoe等人在TrAdaBoost算法的基础上改进了误差表示方式，提出了TrAdaBoost.R2、两阶段TrAdaBoost.R2等算法应用于回归建模领域^[25]，但这两种算法在本质上仍然属于基于单数据集的单模型建模方法，针对高维样本其预测精度还待于提升。因此，集成RF和TrAdaBoost.R2算法进行回归建模的创新研究有待进行，其在DXN排放浓度预测建模领域更是未见报道。

发明内容

二噁英(DXN)排放浓度是关系到城市固废焚烧(MSWI)过程稳定与无害运行的重要指标，也是实现该过程的经济与环保指标均衡优化控制的关键影响因素。但实际MSWI过程中的 DXN排放浓度只能离线化验获得，这导致建模样本稀缺。针对上述问题，本文利用相同工艺流程的DXN排放浓度源域样本进行实例迁移，构建基于随机森林(RF)的DXN排放浓度迁移学习预测方法，包括基于均值的源域/目标域样本权重分配、基于RF的DXN预测模型构建、基于预测误差的权重更新共3个部分。首先，对DXN排放浓度的源域样本和目标域样本赋予初始权重；然后，基于随机样本采样和随机特征采样策略建立基于RF的DXN排放浓度预测模型；最后，基于预测误差对样本权重进行迭代调整，增大源域中与目标域相关实例的权重，提升目标域DXN排放浓度预测模型的泛化能力。

附图说明

图1城市固废焚烧工艺流程；

图2本发明的流程图；

图3DXN预测模型的CART树数量与RMSE间的关系；

图4DXN预测模型的输入特征与RMSE间的关系

图5DXN预测模型的权重更新次数K与RMSE间的关系；

图6训练数据的预测曲线；

图7测试数据的预测曲线。

具体实施方式

城市固废(MSW)通过市政车辆运输到地磅称重后卸入垃圾池，经过3～7天的生物发酵、脱水，由垃圾抓斗投放到加料斗，经进料器将垃圾推送到焚烧炉排上，先后经过干燥、燃烧和燃烬三个主要阶段，干燥过后的MSW中的可燃成分通过一次风机输送的助燃空气开始着火燃烧，产生的灰渣从炉排末端落至输渣机上进入到渣坑，最后在指定地点进行填埋处理。图1给出了北京某MSWI发电厂工艺流程图。

燃烧过程产生的高温烟气在一燃室的温度应控制在850℃以上，以保证有害气体的分解。烟气经过二燃室时，通过二次风机输送的空气产生高度湍流并停留超过2s，使有害气体进一步分解。高温烟气随后进入余热锅炉系统，通过吸热产生的高温蒸汽推动汽轮发电机组进行发电。经过吸热环节的烟气混合石灰和活性炭进入脱酸反应器发生中和反应，以吸附其中的DXN和重金属，紧接着在袋式除尘器中被除去烟气颗粒物、中和反应物和活性炭吸附物，部分烟灰混合物在混合器中加水后重新进入脱酸反应器进行重复处理。其中反应器和袋式除尘器产生的飞灰直接进入到飞灰罐进行收集和进一步处理。最终的尾气通过引风机经烟囱排放到大气中，尾气中包含烟尘、CO、NOx、SO₂、HCL、HF、Hg、Cd和DXN等物质。

由图1可知，在MSWI过程中主要将MSW转化为残渣、飞灰、烟气与热量，其中残渣、飞灰与烟气三种产物与DXN的排放有关^[26]。炉膛残渣产生量多，但DXN浓度含量较低；飞灰产生量比残渣少，但DXN浓度比残渣高；烟气中的DXN浓度包括不完全燃烧生成和新规合成反应生成两种方式^[27]。目前针对MSWI产生的DXN检测一般方式是企业和环保部门按照月/季度周期或不确定周期进行离线化验分析，不仅时间周期长而且检测费用比较昂贵。由此可知，DXN软测量建模样本存在真值数据少、过程变量维数高问题。

本发明提供一种基于随机森林的二噁英排放浓度迁移学习预测方法包括：基于均值的源域/目标域样本权重分配、基于RF的DXN预测模型构建、基于预测误差的权重更新共3个部分，如图2所示。(注：为表述方便，后文中采用DXN预测模型表示DXN排放浓度预测模型)。

在图2中：表示用于MSWI过程DXN排放浓度建模的源域样本；/>表示用于MSWI过程DXN排放浓度建模的目标域样本；表示按照均值方式计算得到的全部样本的初始权重，即和/>分别表示第kth次和 (k+1)th次权重更新时的样本权重；/>表示对源域样本进行随机样本采样和特征采样后与目标域样本组合后得到的第jth个训练子集；j＝1,L,J；J表示训练子集的数量，也是基于RF的DXN预测子模型的数量；/>表示第kth次权重更新的第jth个基于RF的DXN 预测子模型；k＝1,L,K，K表示依据经验设定的权重更新次数；/>表示第kth次权重更新时的第jth个基于RF的DXN预测子模型/>的预测值；/>表示全部样本基于第 kth次权重更新的基于RF的DXN预测模型F^k(·)的预测值；/>表示第ith个建模样本的预测输出；/>表示第kth次权重更新模型的预测值/>与真值/>的误差；ε_k表示迭代更新条件；/>表示最终DXN预测模型F(·)的输出。

本发明的DXN预测方法中各个部分的功能如下所示：

(1)基于均值的源域/目标域样本权重分配：根据源域数据D_S和目标域数据D_T的样本数量，为全部训练样本分配相等的初始权重

(2)基于RF的DXN预测模型构建：以第kth次权重更新为例，基于源域数据D_S和初始权重或更新后权重进行有放回的随机样本采样和特征采样，通过与目标域数据D_T的组合获得J个训练子集进一步建立J个基于RF的DXN预测子模型/>再通过简单平均加权获得第kth次权重更新后的基于RF的DXN预测模型F^k(·)的输出/>

(3)基于预测误差的权重更新：计算第kth次权重更新后的预测模型的预测误差通过调整误差/>和样本权重/>计算得到迭代更新条件ε_k和权重调整的常数β，进而获得更新后的源域样本权重/>和目标域样本权重/>

本发明提供一种基于随机森林的二噁英排放浓度迁移学习预测方法，包括：

步骤1、基于均值的源域/目标域样本权重分配

将在预定时间周期内获取的、与待预测MSWI过程相似或相近的DXN排放浓度样本作为源域数据，并记为相应的，将目标域数据记为

采用如下简单平均方法，计算得到源域和目标域样本的初始权重，

可知，可采用表示全部样本的初始权重。

本申请中依据经验、工业过程的实际需求和计算设备的计算能力，确定权重更新次数并将其记为K，并将第kth次的更新样本权重记为其可分解表示为，

显然，在第1次的权重计算时，的取值应为/>在DXN预测模型的构建过程中，需要对样本权重进行迭代更新，以增强源域样本向目标样本的迁移能力。

步骤2、基于RF的DXN预测模型构建

以第kth次权重更新的过程为例，描述基于RF的DXN预测模型的构建过程。

首先，计算在D_S中用于选择样本的权重阈值如下所示：

其中，k_thre为权重阈值的权系数，其默认值为1。

接着，在源域中选择样本权值大于的N′个样本，再在小于/>的实例中通过Bootstrap采样方法获得(N-N′)个样本。通过以上方式，对源域D_S进行依据经验预设定的 J次操作，获得基于源域的训练子集/>

最后，将源域训练子集与目标域D_T进行组合，并引入随机子空间法(RSM)选择特征子集，最终生成包含N+M个样本和Q_j个特征的J个训练子集/>

训练子集的产生过程可表示为：

其中，表示源域中样本权重大于/>的N′个样本；/>表示源域中样本权重小于/>的(N-N′)个样本；/>表示经过第jth次的样本采样和特征采样获得的训练子集；q＝1,L,Q，Q表示DXN建模样本中全部输入特征的数量； Q_j′表示第jth个训练子集所包含的输入特征数量，通常存在Q_j′<<Q′。

此处，以第jth个训练子集为例描述基于RF的DXN子模型的构建过程。去除因随机采样造成的训练子集中所存在的重复样本，并将新的训练子集标记为以第qth个输入特征x^j,q作为切分变量，以第i_selth个样本所对应的值作为切分点，将输入特征空间切分为两个区域R₁和R₂，

基于以下准则遍历寻找最佳切分变量(输入特征)编号和切分点取值，

其中，和/>分别表示第jth个训练子集在R₁和R₂区域的DXN测量值；C₁和C₂分别表示在R₁和R₂两个区域中DXN测量值的均值。

基于上述准则，首先通过遍历所有输入特征找到最优变量编号和切分点取值，将输入特征空间划分为两个区域；然后对每个区域再重复上述过程，直到叶子点所包含的训练样本数量少于预先设定的阈值θ_RF；最终将输入特征空间划分为P个区域(其中P也表示CART回归树的叶子节点数)，将这些区域分别标记为R₁,L,R_p,L,R_P。

采用CART回归树构建的基于RF的DXN子模型可表示为：

其中，

其中，N_Rp表示区域R_p所包含的训练样本数量；表示第jth个训练子集在R_p区域的第/>h个建模样本的DXN测量值；I(·)为指示函数，在/>时存在I(·)＝1，否则存在 I(·)＝0。

重复上述过程，将J个基于RF的DXN子模型的预测输出进行简单加权平均，进而获得第kth次权重更新后的基于RF的DXN预测模型F^k(·)，其可表示为，

其中，表示DXN预测模型F^k(·)的预测输出。

步骤3、基于预测误差的权重更新

首先，计算预测输出与测量真值/>的误差，以第ith个建模样本为例，如下，

进而，预测误差的集合可表示为

按下式计算误差的最大值，

再通过下式将真实误差映射为调整误差值/>

接着，按照下式计算迭代更新条件ε_k，

接着，通过判断ε_k是否大于阈值ε_thre(默认值为0.5)和达到预设定的权重更新次数K；若达到则更新停止，并获得最终的DXN预测模型F(·)的输出反之，则对源域数据集D_S和目标域数据集D_T组成的建模样本的权重进行更新，其主要思想是：增大源域中与目标域相关样本的权重，减小不相关样本的权重，同时保持目标域样本权重的增大。具体步骤如下：

首先按照下式，计算更新系数β的值，

接着，计算源域和目标域样本的权重更新值，如下所示，

最后，采用新的权重更新值记为，

替代上一次采用的权重值如下，

综上，本申请提出了基于随机森林的DXN排放浓度迁移学习预测方法，包括：首先，对源于相同MSWI过程的不同生产线的DXN排放浓度的源域样本和目标域样本赋予相同的初始权重；然后，基于随机样本采样和随机特征采样策略建立多个并行的基于RF的DXN 排放浓度预测子模型后进行简单加权平均；最后，基于预测误差对样本权重进行迭代调整，增大源域中与目标域相关实例的权重。

因此，所提方法通过对RF和TrAdaBoost.R2算法进行了有效集成，构建了基于多训练集的并行多模型集成建模方法，有效提升了目标域DXN排放浓度预测模型的泛化能力

实验验证

建模数据

本文建模数据包含某MSWI发电厂1#炉和2#炉的过程变量和实际DXN测量值，将其分别作为目标域和源域数据，其中：过程变量分别源于发电系统(53个)、公共电气系统(115个)、余热锅炉系统(14个)、焚烧系统(79个)、烟气处理系统(20个)和末端检测系统(6个)共287个特征；DXN排放浓度数据为近6年的离线化验数据，其单位为ng/Nm³。因此，源域样本实例33个；目标域样本35个，其中：2/3作为目标域训练数据，1/3作为目标域测试数据。

建模实验

针对基于RF的DXN预测模型，首先设置训练样本阈值θ_RF＝5和权值更新次数K＝20，根据经验规则设置输入特征数量其它模型参数采用默认值。

以50次运行的均值作为最终结果，基于RF的DXN预测模型中的回归树数量与RMSE间的关系，如图3所示。

由图3可知，当CART树数量在[40,60]区间时，具有最低的RMSE值。

选择CART回归树数量J＝55，采用相同的权值更新次数，仍然以50次运行的均值为结果，基于RF的DXN预测模型的输入特征与RMSE的关系如图4所示。

由图4可知，当输入特征Q′＝16时具有最小的RMSE值。

依据上述结果，选择回归树数量J＝55和输入特征Q′＝16后，仍然以50次运行的均值为结果，权重更新次数K与RMSE间的关系如图5所示。

从图5中可以看出，当循环次数为20时，RMSE值最小，但其并未达到循环停止的条件ε_k≥0.5。可见，建模参数仍可进一步的进行优化调整。

方法比较

为验证本文所提方法的有效性，本文所提方法(TrAdaBoost.R2+RF)与标准RF方法、基于决策树的TrAdaBoost.R2方法(TrAdaBoost.R2+Decision Tree)进行了实验对比。实验中，为防止决策树的过拟合，选择阈值θ_RF＝10。上述3种方法中，针对训练集和测试集RMSE 的统计结果及预测曲线分别如表1、图6和图7所示。

表1不同方法的比较结果

由表1、图6和图7可知：

(1)针对RMSE，基于迁移学习的两种方法的小于标准RF方法，表明将2#炉的DXN排放浓度样本数据作为源域进行实例迁移能够提高作为目标域1#炉的DXN预测模型的性能；

(2)本文所提方法的预测误差(0.028440)低于以Decision Tree作为子模型的迁移方法 (0.030105)，表明所提方法通过RF算法的随机样本采样和特征采样所获得的多数据集构建多模型的策略是有效的，降低了传统的单数据集构建单模型的TrAdaBoost.R2模型的预测误差，提升了模型的泛化性能，同时本申请所提方法也充分利用了RF所固有的具有处理高维样本的优越性，验证了集成RF算法和TrAdaBoost.R2算法的策略具有创新性；

(3)本文所提方法虽然在训练和测试数据上都具有最佳的预测性能，在从测试曲线的预测趋势上还存在较大误差，表明可通过优化建模参数或增加评价指标等方法进一步地提高迁移学习的效果。

针对MSWI过程的二噁英(DXN)排放浓度的真值样本少、过程变量维度高，导致传统基于神经网络的预测模型精确度差的问题，本文建立了基于随机森林(RF)的DXN排放浓度迁移学习预测模型，其创新性体现在：首次提出将RF和TrAdaBoost.R2相结合的回归建模算法，提升了预测模型的拟合和泛化性能，并构建了面向实际MSWI过程数据的DXN排放浓度预测模型。研究结果表明，该方法能够有效迁移相同工艺过程的源域信息，能够提高目标域DXN预测模型的泛化性能。该研究能够有效促进迁移学习在DXN排放浓度预测建模领域的研究，对MSWI过程的运行优化具有重要意义。

参考文献

__________________________________

[1]Li X,Zhang C,Li Y,et al.The Status of Municipal Solid WasteIncineration(MSWI)in China and its Clean Development.Waste Management,2016,104:498-503.

[2]J.W.Lu,S.Zhang,J.Hai,et al.Status and perspectives of municipalsolid waste incineration in China:a comparison with developed regions.WasteManage.Vol.69,170-186,2017.

[3]Li X,Zhang C,Li Y,Zhi Q.The Status of Municipal Solid WasteIncineration(MSWI)in China and its Clean Development.Energy Procedia,2016,104:498-503

[4]乔俊飞,郭子豪,汤健.面向城市固废焚烧过程的二噁英排放浓度检测方法综述[J/OL].自动化学报:1-26[2019-06-27].https://doi.org/10.16383/j.aas.c190005.

[5]Lavric E D,Konnov AA,Ruyck J D.Surrogate compounds for dioxins inincineration.A review.Waste Management,2005,25(7):755-765

[6]Bunsan S,Chen W Y,Chen H W,Chuang Y H,Grisdanurak N.Modeling thedioxin emission of a municipal solid waste incinerator using neuralnetworks.Chemosphere,2013,92:258-264.

[7]Chang N B,Chen W C.Prediction of PCDDs/PCDFs emissions frommunicipal incinerators by genetic programming and neural networkmodeling.Waste Management&Research,2000,18,41-351.

[8]Wang Hai-Rui,Zhang Yong,Wang Hua.As tudy of GA-BP based predictionmodel of Dioxin emis s ion from MSW incinerator.Microcomputer Information,2008,24(21):222-224.

[9]Liu Qiang,Qin S.Joe.Perspectives on big data modeling of processindustries.Acta Automatica Sinica,2016,42(2):161-171

[10]Pan S J,Yang Q.Asurvey on transfer learning.IEEE Transactions onKnowledge and Data Engineering,2010,22:1345–1359.

[11]L Breiman.Bagging predictors.Machine Learning,vol.24,pp.123–140,1996.

[12]Kamishima T,Hamasaki M,Akaho S.TrBagg:ASimple Transfer LearningMethod and its Application to Personalization in Collaborative Tagging,2009Ninth IEEE International Conference on Data Mining,pp. 219-228.

[13]Kumagae Y,Murata M,Takaya N,Uchiyama T.Transfer leaning forprediction of purchase items using multiple e-commerce sites’information.In:DEIM Forum 2012,C8–6(2012)

[14]L Breiman.Random Forests.In Machine Learning,volume 45,pages 5–32,2001.1

[15]Drucker H,and Cortes C.Boosting Decision Trees.Neural InformationProcessing 8,ed:D.S.Touretzky,M,C.Mozer and M.E.Hasselmo.Morgan Kaufmann,pp.479485.

[16]Dai W,Yang Q,Xue G-R,Yu Y.Boosting for transfer learning.In:Proceedings of the 24th International Conference on Machine Learning,ICML2007,pp.193–200(2007)

[17]E Eaton,M desJardins.Set-based boosting for instance-leveltransfer.in Proc.IEEE Int.Conf.Data Mining Workshops,Dec.2009,pp.422–428.

[18]X Huang,Y Rao,et al.Cross-domain sentiment classification viatopic-related TrAdaBoost.in Proc.AAAI,2017,pp.4939–4940.

[19]Blei D M,Ng AY,Jordan M I.Latent dirichlet allocation.J.Mach.Learn.Res.2003.3:993–1022.

[20]A Venkatesan,N C Krishnan,et al.“Cost-sensitive boosting forconcept drift,”in Proc.Int.Workshop Handling Concept Drift Adapt.Inf.Syst.,2010,pp.41–47.

[21]D Ryu,J Baik et al.A transfer cost-sensitive boosting approachfor cross-project defect prediction.Softw.Qual.J.,vol.25,no.1,pp.235–272,2017

[22]S Al-Stouhi.C K Reddy.Adaptive boosting for transfer learningusing dynamic updates.in Machine Learning and Knowledge Discovery inDatabases.Berlin,Germany:Springer,2011,pp.60–75.

[23]Jiang S,Mao H,et al.Deep Decision Tree Transfer Boosting.IEEETrans Neural Netw Learn Syst.2019.

[24]Yu L,Wang J,Guo L,et al.Transfer learning based quantitativeassessment model of upper limb movement ability for stroke survivors[C]//20172nd International Conference on Information Technology(INCIT).IEEE,2017.

[25]D Pardoe,P Stone.Boosting for regression transfer.in Proc.27thInt.Conf.Mach.Learn.(ICML),2010,pp.863–870.

[26]Mckay G.Dioxin characterisation,formation and minimisation duringmunicipal solid waste(MSW)incineration:review.Chemical Engineering Journal,2002,86(3):343-368

[27]Li Hai-Ying,Zhang Shu-Ting,Zhao Xin-Hua.Detection methods ofdioxins emitted from municipal solid waste incinerator.Journal of FuelChemistry and Technology,2005,33(3):379-384.

Claims

1.一种基于随机森林的二噁英排放浓度迁移学习预测方法，其特征在于，包括以下步骤：

步骤1、对二噁英DXN排放浓度的源域样本和目标域样本赋予初始权重；

步骤2、基于随机样本采样和随机特征采样策略建立基于随机森林RF的二噁英DXN排放浓度预测模型；

步骤3、基于预测误差对样本权重进行迭代调整，增大源域中与目标域相关实例的权重；步骤1具体为：

将在预定时间周期内获取的、与待预测城市固废焚烧MSWI过程相似或相近的二噁英DXN排放浓度样本作为源域数据，并记为相应的，将目标域数据记为/>

采用简单平均方法，计算得到源域和目标域样本的初始权重，

采用表示全部样本的初始权重，

设确定权重更新次数并将其记为K，并将第kth次的更新样本权重记为其可分解表示为，

在第1次的权重计算时，的取值为/>对样本权重进行迭代更新；

步骤2具体为：

基于随机森林RF的二噁英DXN预测模型的构建过程中第kth次权重更新的过程为：

首先，计算在D_S中用于选择样本的权重阈值如下所示：

其中，k_thre为权重阈值的权系数，其默认值为1，

接着，在源域中选择样本权值大于的N′个样本，再在小于/>的实例中通过Bootstrap采样方法获得N-N′个样本，通过以上方式，对源域D_S进行依据经验预设定的J次操作，获得基于源域的训练子集/>最后，将源域训练子集/>与目标域D_T进行组合，并引入随机子空间法RSM选择特征子集，最终生成包含N+M个样本和Q_j个特征的J个训练子集/>

训练子集的产生过程可表示为：

其中，表示源域中样本权重大于/>的N′个样本；/>表示源域中样本权重小于/>的N-N′个样本；/>表示经过第jth次的样本采样和特征采样获得的训练子集；q＝1,...,Q，Q表示二噁英DXN建模样本中全部输入特征的数量；Q′_j表示第jth个训练子集所包含的输入特征数量，Q′_j<<Q′；

对第jth个训练子集基于随机森林RF的二噁英DXN子模型的构建过程，首先去除因随机采样造成的训练子集中所存在的重复样本，并将其标记为以第qth个输入特征x^j,q作为切分变量，以第i_selth个样本所对应的值作为切分点，将输入特征空间切分为两个区域R₁和R₂，

基于以下准则遍历寻找最佳切分变量编号和切分点取值，

其中，和/>分别表示第jth个训练子集在R₁和R₂区域的二噁英DXN测量值；C₁和C₂分别表示在R₁和R₂两个区域中二噁英DXN测量值的均值，

基于上述准则，首先通过遍历所有输入特征找到最优变量编号和切分点取值，将输入特征空间划分为两个区域；然后对每个区域再重复上述过程，直到叶子点所包含的训练样本数量少于预先设定的阈值θ_RF；最终将输入特征空间划分为P个区域，将这些区域分别标记为R₁,...,R_p,...,R_P，

采用CART回归树构建的基于随机森林RF的二噁英DXN子模型可表示为：

其中，

其中，N_Rp表示区域R_p所包含的训练样本数量；表示第jth个训练子集在R_p区域的第个建模样本的二噁英DXN测量值；I(·)为指示函数，在/>时存在I(·)＝1，否则存在I(·)＝0；

重复上述过程，将J个基于随机森林RF的二噁英DXN子模型的预测输出进行简单加权平均，进而获得第kth次权重更新后的基于随机森林RF的二噁英DXN预测模型F^k(·)，其可表示为，

其中，表示二噁英DXN预测模型F^k(·)的预测输出；

步骤3具体为：

首先，计算第ith个建模样本的预测输出与测量真值/>的误差，如下，

预测误差的集合表示为

将全部预测误差映射到统一的区间，按下式计算误差的最大值，