CN111461355B - 基于随机森林的二噁英排放浓度迁移学习预测方法 - Google Patents
基于随机森林的二噁英排放浓度迁移学习预测方法 Download PDFInfo
- Publication number
- CN111461355B CN111461355B CN202010198927.6A CN202010198927A CN111461355B CN 111461355 B CN111461355 B CN 111461355B CN 202010198927 A CN202010198927 A CN 202010198927A CN 111461355 B CN111461355 B CN 111461355B
- Authority
- CN
- China
- Prior art keywords
- dxn
- weight
- sample
- dioxin
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 52
- 238000013508 migration Methods 0.000 title claims abstract description 21
- 230000005012 migration Effects 0.000 title claims abstract description 21
- HGUFODBRKLSHSI-UHFFFAOYSA-N 2,3,7,8-tetrachloro-dibenzo-p-dioxin Chemical compound O1C2=CC(Cl)=C(Cl)C=C2OC2=C1C=C(Cl)C(Cl)=C2 HGUFODBRKLSHSI-UHFFFAOYSA-N 0.000 title claims abstract 16
- 238000005070 sampling Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 37
- 239000010813 municipal solid waste Substances 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 8
- 238000004056 waste incineration Methods 0.000 claims description 5
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 241000135164 Timea Species 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 1
- KVGZZAHHUNAVKZ-UHFFFAOYSA-N 1,4-Dioxin Chemical compound O1C=COC=C1 KVGZZAHHUNAVKZ-UHFFFAOYSA-N 0.000 description 78
- 238000004422 calculation algorithm Methods 0.000 description 18
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 11
- 239000003546 flue gas Substances 0.000 description 11
- 238000001514 detection method Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 6
- 238000013526 transfer learning Methods 0.000 description 6
- 238000002485 combustion reaction Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 239000010881 fly ash Substances 0.000 description 5
- 239000007789 gas Substances 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000003556 assay Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 3
- 229910052799 carbon Inorganic materials 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 2
- 235000011941 Tilia x europaea Nutrition 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 2
- 239000000428 dust Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 239000004571 lime Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000006386 neutralization reaction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 239000002893 slag Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 239000002918 waste heat Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000002156 adsorbate Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000002956 ash Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000018044 dehydration Effects 0.000 description 1
- 238000006297 dehydration reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 229910001385 heavy metal Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000002957 persistent organic pollutant Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000376 reactant Substances 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 210000001364 upper extremity Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于随机森林的二噁英排放浓度迁移学习预测方法,包括:首先,对DXN排放浓度的源域样本和目标域样本赋予初始权重;然后,基于随机样本采样和随机特征采样策略建立基于RF的DXN排放浓度预测模型;最后,基于预测误差对样本权重进行迭代调整,增大源域中与目标域相关实例的权重,提升目标域DXN排放浓度预测模型的泛化能力。
Description
技术领域
本发明属于城市固废焚烧技术领域,尤其涉及一种基于随机森林的二噁英排放浓度迁移学习预测方法。
背景技术
城市固废焚烧(MSWI)发电是实现生活垃圾减量化、资源化、无害化的主要方式之一[1]。然而,因垃圾组分复杂、焚烧参数波动、焚烧设备特性漂移等原因造成了一些MSWI发电厂存在排放气体不符合标准等问题[2]。二噁英(DXN)是MSWI过程所排放的具有极强化学性和热稳定性的剧毒持久性有机污染物,其浓度超标是造成MSWI建厂出现“邻避效应”的主要原因[3]。在MSWI过程中,易检测的焚烧温度、炉排速度、进风压力和一次/二次风量等过程变量以秒为单位进行采集和存储,但DXN排放浓度只能通过在线采样与离线化验相结合的方法按照月/季周期或不确定周期进行检测[4]。已成为当前研究热点的基于DXN关联物的在线检测方式在本质上为间接检测方法,依然存在检测时间滞后、检测精度难以保证等问题[5]。DXN排放浓度的实时在线检测是MSWI过程实现经济指标与环保指标协同优化控制必不可少的重要环节[4]。可见,DXN排放浓度的建模样本具有数量小、维数高、共线性等特性。现有数据驱动的DXN排放浓度预测建模方法存在易落入局部最小值、过拟合、模型泛化性和可解释性差等缺点[6,7,8]。
信息化技术的发展使得流程行业也逐步积累了蕴含丰富知识的工业大数据[9]。如何将相似/相近工业过程数据中的知识进行“迁移”是解决建模领域标记样本稀缺等问题的难点之一。迁移学习可用于解决目标任务标注数据稀缺的问题[10],其打破了传统机器学习对训练数据和测试数据必须服从独立同分布的约束假设,使得有标注数据等少量有监督信息能够在相似或相同领域间实现迁移和复用。
近几年,迁移学习逐渐成为集成学习领域的研究热点。基于Bagging思想[11],Kamishima 等人提出了包含学习和过滤两步骤的TrBagg迁移算法[12],其特点在于未采用可减少预测误差的弱学习器;Kumagae等人在此基础上提出的OptTrBagg方法[13]进一步提高了算法的分类精度。随机森林(RF)算法[14]相较于Bagging机制,同时进行训练样本和特征的随机采样,具有较高的预测精度和泛化性能,但针对小样本数据其预测精误差的泛化性也有待于进一步地提升。此外,基于预测误差顺序补偿机制的序列集成学习Boosting方法[15]也已经成为迁移学习研究的热点。Dai等人提出了基于迁移学习的TrAdaBoost算法[16],其他学者相继在类似算法的动态更新、深度迁移等方面进行了研究,文献[17]在TrAdaBoost的基础上提出了迁移Boost算法,其引入多源域进行对目标域进行迁移,提高了源域信息向目标域传输的可能性;文献[18]采用潜在的狄利克雷分配(LDA)[19]对源域和目标域的类别进行提取,然后利用TrAdaBoost进行迁移学习建模,实验表明其能提高单独使用TrAdaBoost算法的分类精度;文献[20]针对概念漂移中数据分布不断变化的现象,提出了一种将成本项与AdaBoost 相结合的概念漂移学习方法,实验结果表明基于成本敏感的boosting策略案比AdaBoost和 TrAdaBoost方法具有更佳的精度;文献[21]针对软件缺陷预测中目标域数据不足的问题,提出了一种代价敏感的Boosting方法,在给定少量目标标记数据的情况下,在减小知识转移代价的同时进行类不平衡的学习,结果表明可以有效提高软件缺陷检测的性能;文献[22]针对TrAdaBoost算法引入了动态更新因子后提高了分类准确率;文献[23]提出了一种基于决策树的Boosting迁移方法(DtrBoost),通过最小化源域和目标域的相关学习界,将学习后的权值分配给基学习器,通过实验验证了所提方法的有效性;但上述研究主要面向文本识别、情感分类和图像识别等分类领域,难以直接应用于本申请所面对的回归建模领域;此外,这些方法由于采用单数据集构建模型,使得分类精度还具有较大提升潜力,并且。进一步,文献[24]针对传感器的位置对上肢运动能力预测性能的影响,采用RF和TrAdaBoost结合的迁移方法建立了评估模型,其能够将针对某一部位建立的传统评估模型用于其他部位的运动能力识别,有效的克服因位置不同导致传感器的评估性能下降的问题,但该策略在回归建模领域的研究未见报道。此外,Pardoe等人在TrAdaBoost算法的基础上改进了误差表示方式,提出了TrAdaBoost.R2、两阶段TrAdaBoost.R2等算法应用于回归建模领域[25],但这两种算法在本质上仍然属于基于单数据集的单模型建模方法,针对高维样本其预测精度还待于提升。因此,集成RF和TrAdaBoost.R2算法进行回归建模的创新研究有待进行,其在DXN排放浓度预测建模领域更是未见报道。
发明内容
二噁英(DXN)排放浓度是关系到城市固废焚烧(MSWI)过程稳定与无害运行的重要指标,也是实现该过程的经济与环保指标均衡优化控制的关键影响因素。但实际MSWI过程中的 DXN排放浓度只能离线化验获得,这导致建模样本稀缺。针对上述问题,本文利用相同工艺流程的DXN排放浓度源域样本进行实例迁移,构建基于随机森林(RF)的DXN排放浓度迁移学习预测方法,包括基于均值的源域/目标域样本权重分配、基于RF的DXN预测模型构建、基于预测误差的权重更新共3个部分。首先,对DXN排放浓度的源域样本和目标域样本赋予初始权重;然后,基于随机样本采样和随机特征采样策略建立基于RF的DXN排放浓度预测模型;最后,基于预测误差对样本权重进行迭代调整,增大源域中与目标域相关实例的权重,提升目标域DXN排放浓度预测模型的泛化能力。
附图说明
图1城市固废焚烧工艺流程;
图2本发明的流程图;
图3DXN预测模型的CART树数量与RMSE间的关系;
图4DXN预测模型的输入特征与RMSE间的关系
图5DXN预测模型的权重更新次数K与RMSE间的关系;
图6训练数据的预测曲线;
图7测试数据的预测曲线。
具体实施方式
城市固废(MSW)通过市政车辆运输到地磅称重后卸入垃圾池,经过3~7天的生物发酵、脱水,由垃圾抓斗投放到加料斗,经进料器将垃圾推送到焚烧炉排上,先后经过干燥、燃烧和燃烬三个主要阶段,干燥过后的MSW中的可燃成分通过一次风机输送的助燃空气开始着火燃烧,产生的灰渣从炉排末端落至输渣机上进入到渣坑,最后在指定地点进行填埋处理。图1给出了北京某MSWI发电厂工艺流程图。
燃烧过程产生的高温烟气在一燃室的温度应控制在850℃以上,以保证有害气体的分解。烟气经过二燃室时,通过二次风机输送的空气产生高度湍流并停留超过2s,使有害气体进一步分解。高温烟气随后进入余热锅炉系统,通过吸热产生的高温蒸汽推动汽轮发电机组进行发电。经过吸热环节的烟气混合石灰和活性炭进入脱酸反应器发生中和反应,以吸附其中的DXN和重金属,紧接着在袋式除尘器中被除去烟气颗粒物、中和反应物和活性炭吸附物,部分烟灰混合物在混合器中加水后重新进入脱酸反应器进行重复处理。其中反应器和袋式除尘器产生的飞灰直接进入到飞灰罐进行收集和进一步处理。最终的尾气通过引风机经烟囱排放到大气中,尾气中包含烟尘、CO、NOx、SO2、HCL、HF、Hg、Cd和DXN等物质。
由图1可知,在MSWI过程中主要将MSW转化为残渣、飞灰、烟气与热量,其中残渣、飞灰与烟气三种产物与DXN的排放有关[26]。炉膛残渣产生量多,但DXN浓度含量较低;飞灰产生量比残渣少,但DXN浓度比残渣高;烟气中的DXN浓度包括不完全燃烧生成和新规合成反应生成两种方式[27]。目前针对MSWI产生的DXN检测一般方式是企业和环保部门按照月/季度周期或不确定周期进行离线化验分析,不仅时间周期长而且检测费用比较昂贵。由此可知,DXN软测量建模样本存在真值数据少、过程变量维数高问题。
本发明提供一种基于随机森林的二噁英排放浓度迁移学习预测方法包括:基于均值的源域/目标域样本权重分配、基于RF的DXN预测模型构建、基于预测误差的权重更新共3个部分,如图2所示。(注:为表述方便,后文中采用DXN预测模型表示DXN排放浓度预测模型)。
在图2中:表示用于MSWI过程DXN排放浓度建模的源域样本;/>表示用于MSWI过程DXN排放浓度建模的目标域样本;表示按照均值方式计算得到的全部样本的初始权重,即 和/>分别表示第kth次和 (k+1)th次权重更新时的样本权重;/>表示对源域样本进行随机样本采样和特征采样后与目标域样本组合后得到的第jth个训练子集;j=1,L,J;J表示训练子集的数量,也是基于RF的DXN预测子模型的数量;/>表示第kth次权重更新的第jth个基于RF的DXN 预测子模型;k=1,L,K,K表示依据经验设定的权重更新次数;/>表示第kth次权重更新时的第jth个基于RF的DXN预测子模型/>的预测值;/>表示全部样本基于第 kth次权重更新的基于RF的DXN预测模型Fk(·)的预测值;/>表示第ith个建模样本的预测输出;/>表示第kth次权重更新模型的预测值/>与真值/>的误差;εk表示迭代更新条件;/>表示最终DXN预测模型F(·)的输出。
本发明的DXN预测方法中各个部分的功能如下所示:
(1)基于均值的源域/目标域样本权重分配:根据源域数据DS和目标域数据DT的样本数量,为全部训练样本分配相等的初始权重
(2)基于RF的DXN预测模型构建:以第kth次权重更新为例,基于源域数据DS和初始权重或更新后权重进行有放回的随机样本采样和特征采样,通过与目标域数据DT的组合获得J个训练子集进一步建立J个基于RF的DXN预测子模型/>再通过简单平均加权获得第kth次权重更新后的基于RF的DXN预测模型Fk(·)的输出/>
(3)基于预测误差的权重更新:计算第kth次权重更新后的预测模型的预测误差通过调整误差/>和样本权重/>计算得到迭代更新条件εk和权重调整的常数β,进而获得更新后的源域样本权重/>和目标域样本权重/>
本发明提供一种基于随机森林的二噁英排放浓度迁移学习预测方法,包括:
步骤1、基于均值的源域/目标域样本权重分配
将在预定时间周期内获取的、与待预测MSWI过程相似或相近的DXN排放浓度样本作为源域数据,并记为相应的,将目标域数据记为
采用如下简单平均方法,计算得到源域和目标域样本的初始权重,
可知,可采用表示全部样本的初始权重。
本申请中依据经验、工业过程的实际需求和计算设备的计算能力,确定权重更新次数并将其记为K,并将第kth次的更新样本权重记为其可分解表示为,
显然,在第1次的权重计算时,的取值应为/>在DXN预测模型的构建过程中,需要对样本权重进行迭代更新,以增强源域样本向目标样本的迁移能力。
步骤2、基于RF的DXN预测模型构建
以第kth次权重更新的过程为例,描述基于RF的DXN预测模型的构建过程。
首先,计算在DS中用于选择样本的权重阈值如下所示:
其中,kthre为权重阈值的权系数,其默认值为1。
接着,在源域中选择样本权值大于的N′个样本,再在小于/>的实例中通过Bootstrap采样方法获得(N-N′)个样本。通过以上方式,对源域DS进行依据经验预设定的 J次操作,获得基于源域的训练子集/>
最后,将源域训练子集与目标域DT进行组合,并引入随机子空间法(RSM)选择特征子集,最终生成包含N+M个样本和Qj个特征的J个训练子集/>
训练子集的产生过程可表示为:
其中,表示源域中样本权重大于/>的N′个样本;/>表示源域中样本权重小于/>的(N-N′)个样本;/>表示经过第jth次的样本采样和特征采样获得的训练子集;q=1,L,Q,Q表示DXN建模样本中全部输入特征的数量; Qj′表示第jth个训练子集所包含的输入特征数量,通常存在Qj′<<Q′。
此处,以第jth个训练子集为例描述基于RF的DXN子模型的构建过程。去除因随机采样造成的训练子集中所存在的重复样本,并将新的训练子集标记为以第qth个输入特征xj,q作为切分变量,以第iselth个样本所对应的值作为切分点,将输入特征空间切分为两个区域R1和R2,
基于以下准则遍历寻找最佳切分变量(输入特征)编号和切分点取值,
其中,和/>分别表示第jth个训练子集在R1和R2区域的DXN测量值;C1和C2分别表示在R1和R2两个区域中DXN测量值的均值。
基于上述准则,首先通过遍历所有输入特征找到最优变量编号和切分点取值,将输入特征空间划分为两个区域;然后对每个区域再重复上述过程,直到叶子点所包含的训练样本数量少于预先设定的阈值θRF;最终将输入特征空间划分为P个区域(其中P也表示CART回归树的叶子节点数),将这些区域分别标记为R1,L,Rp,L,RP。
采用CART回归树构建的基于RF的DXN子模型可表示为:
其中,
其中,NRp表示区域Rp所包含的训练样本数量;表示第jth个训练子集在Rp区域的第/>h个建模样本的DXN测量值;I(·)为指示函数,在/>时存在I(·)=1,否则存在 I(·)=0。
重复上述过程,将J个基于RF的DXN子模型的预测输出进行简单加权平均,进而获得第kth次权重更新后的基于RF的DXN预测模型Fk(·),其可表示为,
其中,表示DXN预测模型Fk(·)的预测输出。
步骤3、基于预测误差的权重更新
首先,计算预测输出与测量真值/>的误差,以第ith个建模样本为例,如下,
进而,预测误差的集合可表示为
按下式计算误差的最大值,
再通过下式将真实误差映射为调整误差值/>
接着,按照下式计算迭代更新条件εk,
接着,通过判断εk是否大于阈值εthre(默认值为0.5)和达到预设定的权重更新次数K;若达到则更新停止,并获得最终的DXN预测模型F(·)的输出反之,则对源域数据集DS和目标域数据集DT组成的建模样本的权重进行更新,其主要思想是:增大源域中与目标域相关样本的权重,减小不相关样本的权重,同时保持目标域样本权重的增大。具体步骤如下:
首先按照下式,计算更新系数β的值,
接着,计算源域和目标域样本的权重更新值,如下所示,
最后,采用新的权重更新值记为,
替代上一次采用的权重值如下,
综上,本申请提出了基于随机森林的DXN排放浓度迁移学习预测方法,包括:首先,对源于相同MSWI过程的不同生产线的DXN排放浓度的源域样本和目标域样本赋予相同的初始权重;然后,基于随机样本采样和随机特征采样策略建立多个并行的基于RF的DXN 排放浓度预测子模型后进行简单加权平均;最后,基于预测误差对样本权重进行迭代调整,增大源域中与目标域相关实例的权重。
因此,所提方法通过对RF和TrAdaBoost.R2算法进行了有效集成,构建了基于多训练集的并行多模型集成建模方法,有效提升了目标域DXN排放浓度预测模型的泛化能力
实验验证
建模数据
本文建模数据包含某MSWI发电厂1#炉和2#炉的过程变量和实际DXN测量值,将其分别作为目标域和源域数据,其中:过程变量分别源于发电系统(53个)、公共电气系统(115个)、余热锅炉系统(14个)、焚烧系统(79个)、烟气处理系统(20个)和末端检测系统(6个)共287个特征;DXN排放浓度数据为近6年的离线化验数据,其单位为ng/Nm3。因此,源域样本实例33个;目标域样本35个,其中:2/3作为目标域训练数据,1/3作为目标域测试数据。
建模实验
针对基于RF的DXN预测模型,首先设置训练样本阈值θRF=5和权值更新次数K=20,根据经验规则设置输入特征数量其它模型参数采用默认值。
以50次运行的均值作为最终结果,基于RF的DXN预测模型中的回归树数量与RMSE间的关系,如图3所示。
由图3可知,当CART树数量在[40,60]区间时,具有最低的RMSE值。
选择CART回归树数量J=55,采用相同的权值更新次数,仍然以50次运行的均值为结果,基于RF的DXN预测模型的输入特征与RMSE的关系如图4所示。
由图4可知,当输入特征Q′=16时具有最小的RMSE值。
依据上述结果,选择回归树数量J=55和输入特征Q′=16后,仍然以50次运行的均值为结果,权重更新次数K与RMSE间的关系如图5所示。
从图5中可以看出,当循环次数为20时,RMSE值最小,但其并未达到循环停止的条件εk≥0.5。可见,建模参数仍可进一步的进行优化调整。
方法比较
为验证本文所提方法的有效性,本文所提方法(TrAdaBoost.R2+RF)与标准RF方法、基于决策树的TrAdaBoost.R2方法(TrAdaBoost.R2+Decision Tree)进行了实验对比。实验中,为防止决策树的过拟合,选择阈值θRF=10。上述3种方法中,针对训练集和测试集RMSE 的统计结果及预测曲线分别如表1、图6和图7所示。
表1不同方法的比较结果
由表1、图6和图7可知:
(1)针对RMSE,基于迁移学习的两种方法的小于标准RF方法,表明将2#炉的DXN排放浓度样本数据作为源域进行实例迁移能够提高作为目标域1#炉的DXN预测模型的性能;
(2)本文所提方法的预测误差(0.028440)低于以Decision Tree作为子模型的迁移方法 (0.030105),表明所提方法通过RF算法的随机样本采样和特征采样所获得的多数据集构建多模型的策略是有效的,降低了传统的单数据集构建单模型的TrAdaBoost.R2模型的预测误差,提升了模型的泛化性能,同时本申请所提方法也充分利用了RF所固有的具有处理高维样本的优越性,验证了集成RF算法和TrAdaBoost.R2算法的策略具有创新性;
(3)本文所提方法虽然在训练和测试数据上都具有最佳的预测性能,在从测试曲线的预测趋势上还存在较大误差,表明可通过优化建模参数或增加评价指标等方法进一步地提高迁移学习的效果。
针对MSWI过程的二噁英(DXN)排放浓度的真值样本少、过程变量维度高,导致传统基于神经网络的预测模型精确度差的问题,本文建立了基于随机森林(RF)的DXN排放浓度迁移学习预测模型,其创新性体现在:首次提出将RF和TrAdaBoost.R2相结合的回归建模算法,提升了预测模型的拟合和泛化性能,并构建了面向实际MSWI过程数据的DXN排放浓度预测模型。研究结果表明,该方法能够有效迁移相同工艺过程的源域信息,能够提高目标域DXN预测模型的泛化性能。该研究能够有效促进迁移学习在DXN排放浓度预测建模领域的研究,对MSWI过程的运行优化具有重要意义。
参考文献
__________________________________
[1]Li X,Zhang C,Li Y,et al.The Status of Municipal Solid WasteIncineration(MSWI)in China and its Clean Development.Waste Management,2016,104:498-503.
[2]J.W.Lu,S.Zhang,J.Hai,et al.Status and perspectives of municipalsolid waste incineration in China:a comparison with developed regions.WasteManage.Vol.69,170-186,2017.
[3]Li X,Zhang C,Li Y,Zhi Q.The Status of Municipal Solid WasteIncineration(MSWI)in China and its Clean Development.Energy Procedia,2016,104:498-503
[4]乔俊飞,郭子豪,汤健.面向城市固废焚烧过程的二噁英排放浓度检测方法综述[J/OL].自动化学报:1-26[2019-06-27].https://doi.org/10.16383/j.aas.c190005.
[5]Lavric E D,Konnov AA,Ruyck J D.Surrogate compounds for dioxins inincineration.A review.Waste Management,2005,25(7):755-765
[6]Bunsan S,Chen W Y,Chen H W,Chuang Y H,Grisdanurak N.Modeling thedioxin emission of a municipal solid waste incinerator using neuralnetworks.Chemosphere,2013,92:258-264.
[7]Chang N B,Chen W C.Prediction of PCDDs/PCDFs emissions frommunicipal incinerators by genetic programming and neural networkmodeling.Waste Management&Research,2000,18,41-351.
[8]Wang Hai-Rui,Zhang Yong,Wang Hua.As tudy of GA-BP based predictionmodel of Dioxin emis s ion from MSW incinerator.Microcomputer Information,2008,24(21):222-224.
[9]Liu Qiang,Qin S.Joe.Perspectives on big data modeling of processindustries.Acta Automatica Sinica,2016,42(2):161-171
[10]Pan S J,Yang Q.Asurvey on transfer learning.IEEE Transactions onKnowledge and Data Engineering,2010,22:1345–1359.
[11]L Breiman.Bagging predictors.Machine Learning,vol.24,pp.123–140,1996.
[12]Kamishima T,Hamasaki M,Akaho S.TrBagg:ASimple Transfer LearningMethod and its Application to Personalization in Collaborative Tagging,2009Ninth IEEE International Conference on Data Mining,pp. 219-228.
[13]Kumagae Y,Murata M,Takaya N,Uchiyama T.Transfer leaning forprediction of purchase items using multiple e-commerce sites’information.In:DEIM Forum 2012,C8–6(2012)
[14]L Breiman.Random Forests.In Machine Learning,volume 45,pages 5–32,2001.1
[15]Drucker H,and Cortes C.Boosting Decision Trees.Neural InformationProcessing 8,ed:D.S.Touretzky,M,C.Mozer and M.E.Hasselmo.Morgan Kaufmann,pp.479485.
[16]Dai W,Yang Q,Xue G-R,Yu Y.Boosting for transfer learning.In:Proceedings of the 24th International Conference on Machine Learning,ICML2007,pp.193–200(2007)
[17]E Eaton,M desJardins.Set-based boosting for instance-leveltransfer.in Proc.IEEE Int.Conf.Data Mining Workshops,Dec.2009,pp.422–428.
[18]X Huang,Y Rao,et al.Cross-domain sentiment classification viatopic-related TrAdaBoost.in Proc.AAAI,2017,pp.4939–4940.
[19]Blei D M,Ng AY,Jordan M I.Latent dirichlet allocation.J.Mach.Learn.Res.2003.3:993–1022.
[20]A Venkatesan,N C Krishnan,et al.“Cost-sensitive boosting forconcept drift,”in Proc.Int.Workshop Handling Concept Drift Adapt.Inf.Syst.,2010,pp.41–47.
[21]D Ryu,J Baik et al.A transfer cost-sensitive boosting approachfor cross-project defect prediction.Softw.Qual.J.,vol.25,no.1,pp.235–272,2017
[22]S Al-Stouhi.C K Reddy.Adaptive boosting for transfer learningusing dynamic updates.in Machine Learning and Knowledge Discovery inDatabases.Berlin,Germany:Springer,2011,pp.60–75.
[23]Jiang S,Mao H,et al.Deep Decision Tree Transfer Boosting.IEEETrans Neural Netw Learn Syst.2019.
[24]Yu L,Wang J,Guo L,et al.Transfer learning based quantitativeassessment model of upper limb movement ability for stroke survivors[C]//20172nd International Conference on Information Technology(INCIT).IEEE,2017.
[25]D Pardoe,P Stone.Boosting for regression transfer.in Proc.27thInt.Conf.Mach.Learn.(ICML),2010,pp.863–870.
[26]Mckay G.Dioxin characterisation,formation and minimisation duringmunicipal solid waste(MSW)incineration:review.Chemical Engineering Journal,2002,86(3):343-368
[27]Li Hai-Ying,Zhang Shu-Ting,Zhao Xin-Hua.Detection methods ofdioxins emitted from municipal solid waste incinerator.Journal of FuelChemistry and Technology,2005,33(3):379-384.
Claims (1)
1.一种基于随机森林的二噁英排放浓度迁移学习预测方法,其特征在于,包括以下步骤:
步骤1、对二噁英DXN排放浓度的源域样本和目标域样本赋予初始权重;
步骤2、基于随机样本采样和随机特征采样策略建立基于随机森林RF的二噁英DXN排放浓度预测模型;
步骤3、基于预测误差对样本权重进行迭代调整,增大源域中与目标域相关实例的权重;步骤1具体为:
将在预定时间周期内获取的、与待预测城市固废焚烧MSWI过程相似或相近的二噁英DXN排放浓度样本作为源域数据,并记为相应的,将目标域数据记为/>
采用简单平均方法,计算得到源域和目标域样本的初始权重,
采用表示全部样本的初始权重,
设确定权重更新次数并将其记为K,并将第kth次的更新样本权重记为其可分解表示为,
在第1次的权重计算时,的取值为/>对样本权重进行迭代更新;
步骤2具体为:
基于随机森林RF的二噁英DXN预测模型的构建过程中第kth次权重更新的过程为:
首先,计算在DS中用于选择样本的权重阈值如下所示:
其中,kthre为权重阈值的权系数,其默认值为1,
接着,在源域中选择样本权值大于的N′个样本,再在小于/>的实例中通过Bootstrap采样方法获得N-N′个样本,通过以上方式,对源域DS进行依据经验预设定的J次操作,获得基于源域的训练子集/>最后,将源域训练子集/>与目标域DT进行组合,并引入随机子空间法RSM选择特征子集,最终生成包含N+M个样本和Qj个特征的J个训练子集/>
训练子集的产生过程可表示为:
其中,表示源域中样本权重大于/>的N′个样本;/>表示源域中样本权重小于/>的N-N′个样本;/>表示经过第jth次的样本采样和特征采样获得的训练子集;q=1,...,Q,Q表示二噁英DXN建模样本中全部输入特征的数量;Q′j表示第jth个训练子集所包含的输入特征数量,Q′j<<Q′;
对第jth个训练子集基于随机森林RF的二噁英DXN子模型的构建过程,首先去除因随机采样造成的训练子集中所存在的重复样本,并将其标记为以第qth个输入特征xj,q作为切分变量,以第iselth个样本所对应的值作为切分点,将输入特征空间切分为两个区域R1和R2,
基于以下准则遍历寻找最佳切分变量编号和切分点取值,
其中,和/>分别表示第jth个训练子集在R1和R2区域的二噁英DXN测量值;C1和C2分别表示在R1和R2两个区域中二噁英DXN测量值的均值,
基于上述准则,首先通过遍历所有输入特征找到最优变量编号和切分点取值,将输入特征空间划分为两个区域;然后对每个区域再重复上述过程,直到叶子点所包含的训练样本数量少于预先设定的阈值θRF;最终将输入特征空间划分为P个区域,将这些区域分别标记为R1,...,Rp,...,RP,
采用CART回归树构建的基于随机森林RF的二噁英DXN子模型可表示为:
其中,
其中,NRp表示区域Rp所包含的训练样本数量;表示第jth个训练子集在Rp区域的第个建模样本的二噁英DXN测量值;I(·)为指示函数,在/>时存在I(·)=1,否则存在I(·)=0;
重复上述过程,将J个基于随机森林RF的二噁英DXN子模型的预测输出进行简单加权平均,进而获得第kth次权重更新后的基于随机森林RF的二噁英DXN预测模型Fk(·),其可表示为,
其中,表示二噁英DXN预测模型Fk(·)的预测输出;
步骤3具体为:
首先,计算第ith个建模样本的预测输出与测量真值/>的误差,如下,
预测误差的集合表示为
将全部预测误差映射到统一的区间,按下式计算误差的最大值,
再通过下式将真实误差映射为调整误差值/>
接着,按照下式计算迭代更新条件εk,
接着,通过判断εk是否大于阈值εthre,εthre默认值为0.5和达到预设定的权重更新次数K;若达到则更新停止,并获得最终的二噁英DXN预测模型F(·)的输出反之,则对源域数据集DS和目标域数据集DT组成的建模样本的权重进行更新;具体步骤如下:
首先按照下式,计算更新系数β的值,
接着,计算源域和目标域样本的权重更新值,如下所示,
最后,采用新的权重更新值记为,
替代上一次采用的权重值如下,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010198927.6A CN111461355B (zh) | 2020-03-20 | 2020-03-20 | 基于随机森林的二噁英排放浓度迁移学习预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010198927.6A CN111461355B (zh) | 2020-03-20 | 2020-03-20 | 基于随机森林的二噁英排放浓度迁移学习预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461355A CN111461355A (zh) | 2020-07-28 |
CN111461355B true CN111461355B (zh) | 2023-10-31 |
Family
ID=71682839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010198927.6A Active CN111461355B (zh) | 2020-03-20 | 2020-03-20 | 基于随机森林的二噁英排放浓度迁移学习预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461355B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183709B (zh) * | 2020-09-22 | 2023-11-10 | 生态环境部华南环境科学研究所 | 一种垃圾焚烧废气二噁英超标预测预警方法 |
CN112836432A (zh) * | 2021-02-07 | 2021-05-25 | 浙江工业大学 | 基于迁移学习的室内颗粒悬浮物浓度预测方法 |
CN113222209B (zh) * | 2021-03-25 | 2022-02-25 | 中国科学技术大学先进技术研究院 | 基于域适应的区域尾气迁移预测方法、系统及存储介质 |
CN113205159B (zh) * | 2021-05-31 | 2022-04-15 | 西南交通大学 | 一种知识迁移方法、无线网络设备个体识别方法及系统 |
CN113780384B (zh) * | 2021-08-28 | 2024-05-28 | 北京工业大学 | 基于集成决策树算法的城市固废焚烧过程关键被控变量预测方法 |
CN113570161B (zh) * | 2021-08-29 | 2024-05-24 | 浙江工业大学 | 基于宽度迁移学习的搅拌釜反应物浓度预测模型构建方法 |
CN113798315B (zh) * | 2021-10-16 | 2022-07-29 | 北京航空航天大学 | 基于机器学习的热强化sve技术气体排放控制方法 |
CN114265312B (zh) * | 2021-12-22 | 2023-09-12 | 中国矿业大学 | 一种基于双生自迁移模型的间歇过程分层优化方法 |
CN116628598B (zh) * | 2023-05-15 | 2024-03-12 | 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) | 一种基于大数据和nmf模型的二噁英来源解析方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815643A (zh) * | 2017-01-18 | 2017-06-09 | 中北大学 | 基于随机森林迁移学习的红外光谱模型传递方法 |
CN109978011A (zh) * | 2019-03-04 | 2019-07-05 | 北京工业大学 | 一种城市固废焚烧过程二噁英排放浓度预测系统 |
WO2020008365A2 (en) * | 2018-07-02 | 2020-01-09 | 3M Innovative Properties Company | Transferring learning in classifier-based sensing systems |
-
2020
- 2020-03-20 CN CN202010198927.6A patent/CN111461355B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815643A (zh) * | 2017-01-18 | 2017-06-09 | 中北大学 | 基于随机森林迁移学习的红外光谱模型传递方法 |
WO2020008365A2 (en) * | 2018-07-02 | 2020-01-09 | 3M Innovative Properties Company | Transferring learning in classifier-based sensing systems |
CN109978011A (zh) * | 2019-03-04 | 2019-07-05 | 北京工业大学 | 一种城市固废焚烧过程二噁英排放浓度预测系统 |
Non-Patent Citations (2)
Title |
---|
Vikas Kumar Jain等.Exponentially Weighted Random Forest.《https://www.researchgate.net/publication/337487508》.2019,第1-9页. * |
李东.基于实例的随机森林迁移学习研究.《中国优秀硕士学位论文全文数据库(电子期刊)》.2019,第3-4章. * |
Also Published As
Publication number | Publication date |
---|---|
CN111461355A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461355B (zh) | 基于随机森林的二噁英排放浓度迁移学习预测方法 | |
Xia et al. | Dioxin emission prediction based on improved deep forest regression for municipal solid waste incineration process | |
You et al. | Comparison of ANN (MLP), ANFIS, SVM, and RF models for the online classification of heating value of burning municipal solid waste in circulating fluidized bed incinerators | |
CN107016455B (zh) | 循环流化床生活垃圾焚烧锅炉炉膛出口烟气含氧量的预测系统及方法 | |
CN108549792B (zh) | 一种基于潜结构映射算法的固废焚烧过程二噁英排放浓度软测量方法 | |
CN107038334B (zh) | 循环流化床生活垃圾焚烧锅炉co排放预测系统及方法 | |
CN111144609A (zh) | 一种锅炉废气排放预测模型建立方法、预测方法及装置 | |
CN111260149B (zh) | 一种二噁英排放浓度预测方法 | |
CN110135057B (zh) | 基于多层特征选择的固废焚烧过程二噁英排放浓度软测量方法 | |
CN107944173B (zh) | 一种基于选择性集成最小二乘支撑向量机的二噁英软测量系统 | |
Sun et al. | Prediction of oxygen content using weighted PCA and improved LSTM network in MSWI process | |
CN112464544B (zh) | 一种城市固废焚烧过程二噁英排放浓度预测模型构建方法 | |
Dashti et al. | Review of higher heating value of municipal solid waste based on analysis and smart modelling | |
Ibikunle et al. | Modelling the energy content of municipal solid waste and determination of its physico-chemical correlation using multiple regression analysis | |
CN110991756A (zh) | 基于ts模糊神经网络的mswi炉膛温度预测方法 | |
CN111462835B (zh) | 一种基于深度森林回归算法的二噁英排放浓度软测量方法 | |
Kumar et al. | Development of lower heating value prediction models and estimation of energy recovery potential of municipal solid waste and RDF incineration | |
Kiang | Fuel property estimation and combustion process characterization: Conventional fuels, biomass, biocarbon, waste fuels, refuse derived fuel, and other alternative fuels | |
Pital et al. | Computational intelligence and low cost sensors in biomass combustion process | |
CN109978011A (zh) | 一种城市固废焚烧过程二噁英排放浓度预测系统 | |
Xia et al. | Dioxin emission concentration forecasting model for MSWI process with random forest-based transfer learning | |
Li et al. | Modelling nitrogen oxide emission trends from the municipal solid waste incineration process using an adaptive bi‐directional long and short‐term memory network | |
Zhang et al. | Heterogeneous ensemble prediction model of CO emission concentration in municipal solid waste incineration process using virtual data and real data hybrid-driven | |
JP3668405B2 (ja) | ごみ焼却炉の制御方法及び装置 | |
Kusiak et al. | Optimizing combustion efficiency of a circulating fluidized boiler: A data mining approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |