CN111260149A - 一种二噁英排放浓度预测方法 - Google Patents
一种二噁英排放浓度预测方法 Download PDFInfo
- Publication number
- CN111260149A CN111260149A CN202010083784.4A CN202010083784A CN111260149A CN 111260149 A CN111260149 A CN 111260149A CN 202010083784 A CN202010083784 A CN 202010083784A CN 111260149 A CN111260149 A CN 111260149A
- Authority
- CN
- China
- Prior art keywords
- dxn
- gbdt
- training
- submodel
- submodels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- HGUFODBRKLSHSI-UHFFFAOYSA-N 2,3,7,8-tetrachloro-dibenzo-p-dioxin Chemical compound O1C2=CC(Cl)=C(Cl)C=C2OC2=C1C=C(Cl)C(Cl)=C2 HGUFODBRKLSHSI-UHFFFAOYSA-N 0.000 title claims abstract 7
- 238000012549 training Methods 0.000 claims abstract description 90
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 238000010276 construction Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 44
- 238000012360 testing method Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000004886 process control Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000002347 injection Methods 0.000 claims 1
- 239000007924 injection Substances 0.000 claims 1
- 238000007637 random forest analysis Methods 0.000 abstract description 47
- 230000010354 integration Effects 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 3
- 238000011112 process operation Methods 0.000 abstract description 2
- KVGZZAHHUNAVKZ-UHFFFAOYSA-N 1,4-Dioxin Chemical compound O1C=COC=C1 KVGZZAHHUNAVKZ-UHFFFAOYSA-N 0.000 description 104
- 239000010813 municipal solid waste Substances 0.000 description 15
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 9
- 239000003546 flue gas Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000002485 combustion reaction Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 239000010881 fly ash Substances 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000004056 waste incineration Methods 0.000 description 5
- 239000007789 gas Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000000428 dust Substances 0.000 description 3
- 238000010248 power generation Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000000779 smoke Substances 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 239000003610 charcoal Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000006386 neutralization reaction Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000002893 slag Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 239000002918 waste heat Substances 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 239000002028 Biomass Substances 0.000 description 1
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 1
- 235000011941 Tilia x europaea Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000002156 adsorbate Substances 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000002956 ash Substances 0.000 description 1
- 229910052793 cadmium Inorganic materials 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000018044 dehydration Effects 0.000 description 1
- 238000006297 dehydration reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001125 extrusion Methods 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 229910001385 heavy metal Inorganic materials 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004571 lime Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 229910052753 mercury Inorganic materials 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000002957 persistent organic pollutant Substances 0.000 description 1
- 229920000747 poly(lactic acid) Polymers 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 239000000376 reactant Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 239000004071 soot Substances 0.000 description 1
- 238000005486 sulfidation Methods 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 231100001234 toxic pollutant Toxicity 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
- G01N33/0009—General constructional details of gas analysers, e.g. portable test equipment
- G01N33/0027—General constructional details of gas analysers, e.g. portable test equipment concerning the detector
- G01N33/0036—General constructional details of gas analysers, e.g. portable test equipment concerning the detector specially adapted to detect a particular component
- G01N33/0047—Organic compounds
- G01N33/0049—Halogenated organic compounds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Medicinal Chemistry (AREA)
- Combustion & Propulsion (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Food Science & Technology (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Educational Administration (AREA)
- Mathematical Optimization (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
Abstract
本发明公开一种基于随机森林和梯度提升树混合集成的二噁英排放浓度预测方法,首先,针对具有小样本高维特性的DXN建模数据进行训练样本和输入特征的随机采样以生成训练子集;接着,基于训练子集建立J个基于RF的DXN子模型;然后,对每个基于RF的DXN子模型进行I次迭代,构建J×I个基于GBDT的DXN子模型;最后,对基于RF和GBDT的DXN子模型的预测输出采用简单平均加权方式进行合并,获得最终输出。采用集成RF和GBDT的DXN预测模型构建方法能够提高DXN在线预测精度,辅助进行MSWI过程操作参数的运行优化,提高企业经济效益。
Description
技术领域
本发明属于城市固废焚烧技术领域,尤其涉及一种基于随机森林和梯度提升树混合集成的二噁英排放浓度预测方法。
背景技术
经济的迅速发展和城市化建设的不断升级使得我国城市固体废物(MSW)的产生量迅速增加,特别是在经济发达和人口密集的地区,某些城市正面临着垃圾围城危机[1]。城市固体废物焚烧(MSWI)发电是实现垃圾减量化、资源化、无害化的典型处理方式[2]。目前国内MSWI发电厂数量已超过300座,炉排炉式焚烧炉占比超过了2/3[3]。由于我国垃圾组分的特殊性,导致引进的焚烧设备多处于人工手动控制运行状态,常出现“水土不服”的现象,同时造成了MSWI排放不合标等问题[4]。针对这种现象,最为紧要的问题是:如何在满足经济效益的情况下控制MSWI过程的污染排放[5]。二噁英(DXN)作为MSWI排放的一种具有极强化学性和热稳定性的剧毒持久性有机污染物,是造成焚烧建厂出现“邻避效应”的主要原因之一[6]。
在实际工业过程中,主要通过在线采样与离线实验分析相结合的方法按照一定的周期进行DXN排放浓度检测[3],但该方式成本昂贵且周期比较长,主要问题是:难以支撑MSWI运行参数的实时优化控制以达到使DXN排放浓度最小化的目的[7]。因此,实现DXN排放浓度的在线预测非常必要。MSWI过程具有复杂的物理和化学特性,难以建立DXN排放浓度的精确机理模型[8]。DXN排放浓度的在线预测是实现MSWI过程优化控制必不可少的重要环节[9]。针对DXN的在线检测研究,目前多是先进行相关关联物的测量再通过映射关系实现DXN的在线预测[10,11,12];但存在设备昂贵、适应性弱和预测精度有待提升等问题[3]。软测量方法具有比直接离线分析和关联物检测更快、更经济地预测难测参数的能力,其在工业领域中已得到广泛应用[13]。针对MSWI过程,已存在采用特征选择结合神经网络构建DXN预测建模的研究[14,15,16];由于DXN建模数据具有的样本少、维数高、共线性等特性,使得这些方法存在易落入局部最小值、过拟合和模型泛化性能差等问题。
针对传统单一预测模型存在的局限性,基于集成学习的预测模型成为当前研究热点。随机森林(RF)算法具有较强的噪声处理和非线性数据建模能力[17,18],但较少用于非线性回归[19]。文献[20]面向静电传感器阵列,采用基于RF的集成模型预测硫化床中生物质的水分含量。文献[21]提出基于主成分分析和RF的软测量模型,用于在线预测双螺杆挤出过程中聚丙交酯的拉伸性能。文献[22]提出了具有自我监测的RF模型在线估算磨机中的P80粒径。相对于基于建模数据采样进行并行集成的RF算法,梯度提升决策树(GBDT)是另外一种比较流行的机器学习算法[23],但在样本特征维数较高且样本数量较大时,其效率和可伸缩性仍有待提高[24]。文献[25]集逻辑回归(LR)、GBDT和投票特征间隔(VFI)等方法于一体对滑坡敏感性进行评估。文献[26]采用GBDT进行建筑能耗预测。文献[27]构建基于GBDT的自动判断电力系统负荷周期的预测模型。文献[28]提出了一种基于GBDT的光伏功率预测模型,主要思想是通过梯度提升对二叉树进行集成融合。文献[29]采用基于实例的迁移学习方法结合GBDT建立风力发电分位数回归模型。文献[30]结合GBDT提出了基于Bagging集成学习框架的预测模型。以上研究多采用单一的RF或GBDT算法建模,难以有效构建具有小样本、高维特性的DXN排放浓度预测模型。
发明内容
二噁英(DXN)是城市固废焚烧(MSWI)过程排放的剧毒污染物。目前实际工业过程主要通过先现场采集排放烟气样品再在实验室化验分析的方式对DXN排放浓度进行检测,存在周期长、费用高等问题。本申请利用过程控制系统实时采集的过程变量,建立基于随机森林(RF)和梯度提升树(GBDT)混合集成的DXN排放浓度预测模型。首先,针对具有小样本高维特性的DXN建模数据进行训练样本和输入特征的随机采样以生成训练子集;接着,基于训练子集建立J个基于RF的DXN子模型;然后,对每个基于RF的DXN子模型进行I次迭代,构建J×I个基于GBDT的DXN子模型;最后,对基于RF和GBDT的DXN子模型的预测输出采用简单平均加权方式进行合并,获得最终输出。采用集成RF和GBDT的DXN预测模型构建方法能够提高DXN在线预测精度,辅助进行MSWI过程操作参数的运行优化,提高企业经济效益。
附图说明
图1城市固废焚烧工艺流程;
图2建模策略图;
图3训练数据的预测曲线;
图4测试数据的预测曲线。
具体实施方式
面向DXN生成的MSWI过程描述
MSW通过车辆运输到地磅称重后卸入垃圾池,经3~7天的生物发酵和脱水后,由垃圾抓斗投放至加料斗,经进料器将其推送到焚烧炉排上,先后经历干燥、燃烧和燃烬三个主要阶段。干燥后的MSW中的可燃成分通过一次风机输送的助燃空气开始着火燃烧,产生的灰渣从炉排末端落至输渣机上后再进入到渣坑,最后在指定地点进行填埋处理。燃烧过程产生的高温烟气在一燃室的温度应控制在850℃以上,以保证有害气体的分解和燃烧。烟气经过二燃室时,通过二次风机输送的空气产生高度湍流并保证烟气停留超过2s,使有害气体进一步分解。高温烟气随后进入余热锅炉系统,通过吸热产生的高温蒸汽推动汽轮发电机组进行发电。随后烟气混合石灰和活性炭进入脱酸反应器发生中和反应,吸附其中的DXN和重金属,接着在袋式除尘器中被除去烟气颗粒物、中和反应物和活性炭吸附物,部分烟灰混合物在混合器中加水后重新进入脱酸反应器进行重复处理。反应器和袋式除尘器产生的飞灰进入到飞灰罐后需运输至相关机构以进一步处理。最终的尾气通过引风机经烟囱排放到大气,其包含烟尘、CO、NOx、SO2、HCL、HF、Hg、Cd和DXN等物质。
由图1可知,MSWI过程主要是将MSW转化为残渣、飞灰、烟气与热量,其中残渣、飞灰与烟气三种产物与DXN的排放相关[31]。炉膛残渣产生量多,但DXN浓度含量较低;飞灰产生量比残渣少,其DXN浓度比残渣高;烟气中的DXN浓度包括不完全燃烧生成和新规合成反应生成两种方式[32]。目前,针对DXN检测主要是企业和环保部门以月或者季度为周期进行离线化验,不仅周期长而且费用昂贵。由此可知,DXN建模数据存在真值样本少、过程变量维数高等问题;同时,也存在MSW中的DXN含量未知、DXN生成和吸收阶段的机理复杂不清等客观问题。因此,采用软测量技术建立DXN排放浓度预测模型符合实际需求。
本文提出RF和GBDT(EnRFGBDT)混合集成的DXN建模策略,包含训练样本与输入特征随机采样、基于RF的DXN子模型构建、基于GBDT的DXN子模型构建和基于简单平均的DXN集成预测共4个模块,如图2所示。
在图2中,表示与采集DXN化验样品同时段的MSWI过程的炉膛温度、活性炭喷射量、烟囱排放气体浓度、炉排速度、一次风\二次风流量由过程控制系统所采集的过程变量(输入特征)所组成的输入数据,其中N为训练样本数量,M为过程变量数量;表示在MSWI过程末端,即在烟囱排放处进行在线采集离线化验的DXN排放浓度组成的输出数据;{X,y}表示由输入数据和输出数据所组成的训练样本集;{Xj,yj}表示第jth个从{X,y}中随机采样得到的训练子集,表示全部训练子集;J为训练子集的数量,同时也为基于RF的DXN子模型数量;表示第jth个基于RF的DXN子模型的DXN排放浓度预测值,表示全部基于RF的DXN子模型的预测输出;ej,0表示第jth个基于RF的DXN子模型的DXN排放浓度预测值与测量值yj的误差;ej,1表示基于第jth个训练子集的基于GBDT的第1个DXN子模型的误差预测值与作为其输出数据真值ej,0的误差;ej,i表示针对第jth个训练子集的基于GBDT的第ith个DXN子模型的误差预测值与作为其输入数据真值ej,i-1的误差;表示针对第jth个训练子集的基于GBDT的全部DXN子模型的误差预测输出,I为针对单个训练子集基于GBDT的DXN子模型数量,也是针对单个训练子集的迭代次数;表示混合集成模型的DXN排放浓度预测输出。
本文所提EnRFGBDT模型内部的子模型均采用最大化生长的CART回归树构建。基于RF的DXN子模型的训练子集及其输入特征采用随机采样方式产生,其特征数量远小于初始建模数据中的特征数量,进而降低了CART回归树间的相关性,提高了对异常值和噪声数据的鲁棒性。基于GBDT的多个串行DXN子模型也进一步提高了CART回归树的预测精度。最终建立了具有“并行+串行”模式的DXN集成预测模型。不同子模块的功能如下所示:
综合上述模块的功能可知,本文所提方法的建模步骤为:第1步,对MSWI过程数据进行有放回的随机采样和指定特征数量的随机抽取,生成J个训练子集;第2步,构建J个基于RF的DXN子模型第3步,以的预测误差为输出数据真值,进行I次迭代学习,得到I×J个基于GBDT的DXN子模型第四步,将基于RF和GBDT的DXN子模型进行简单平均加权,得到最终的DXN排放浓度集成预测模型。
训练样本与输入特征随机采样模块的具体工作过程为:
采用自助采样法(Bootstrap)与随机子空间法(RSM)对MSWI过程数据进行处理。利用Bootstrap抽取与训练样本子集的样本数量相同的训练子集,随后引入RSM机制随机选择部分特征,最终生成包含N个样本和Mj个特征的J个训练子集。
训练子集的产生过程可表示为:
基于RF的DXN子模型构建模块的具体工作过程为:
基于以下准则遍历寻找最佳切分变量(输入特征)编号和切分点取值,
基于上述准则,首先通过遍历所有输入特征找到最优切分变量编号和切分点的取值,并将输入特征空间划分为两个区域;然后对每个区域重复上述过程,直到叶子点所包含的训练样本数量少于预先设定的阈值θRF;最终将输入特征空间划分为K个区域(其中K也表示CART回归树的叶子节点数),将这些区域分别标记为R1,L,Rk,L,RK。
采用CART回归树构建的基于RF的DXN子模型可表示为:
其中,
其中,(ej,0)n表示基于第nth个训练样本的DXN排放浓度预测误差。
基于GBDT的DXN子模型构建模块的具体工作过程为:
本申请基于GBDT的DXN子模型是通过构建多个“串联”的弱学习器模型的方式实现,其中:多个弱学习器模型的训练子集的输入数据保持不变,除第1个子模型的训练子集的输出数据真值为基于RF的子模型的预测值与测量值的误差外,其它子模型均以前一次迭代的GBDT子模型的预测误差作为训练子集的输出数据真值。
此处,以第jth个基于GBDT的DXN子模型的构建为例。假定共有I个基于GBDT的DXN子模型需要构建,并且均采用CART回归树构建。
上述子模型的损失函数的定义如下,
其中,(ej,1)n表示针对第nth个样本的基于GBDT的第1个DXN子模型的预测误差。
在迭代I-1次之后,第Ith个子模型的训练子集的输出数据真值为,
进而,第Ith个子模型可表示为,
其中,(ej,I-1)n表示针对第nth个样本的基于GBDT的第(I-1)th个DXN子模型的预测误差。
基于简单平均的DXN集成预测模块的具体工作流程为:
针对第jth个训练子集,本文构建了1个基于RF的和I个基于GBDT的DXN子模型,这些子模型以串行方式产生,其预测输出之和作为第jth个训练子集的总体输出,可表示为,
由于J个训练子集间是并行的,通过简单平均加权方式对上述DXN子模型进行合并,最后DXN排放浓度集成预测模型fDXN(·)可表示如下:
实验验证
建模数据
本文建模数据为北京某MSWI发电厂1#和2#炉近6年的检验数据,包含作为输入数据的过程变量和作为输出数据的DXN排放浓度测量值,其中:过程变量分别源于发电系统(53个)、公共电气系统(115个)、余热锅炉系统(14个)、焚烧系统(79个)、烟气处理系统(20个)和末端检测系统(6个);作为输出数据的DXN排放浓度采用在线采集离线化验分析的方式获得,其单位为ng/Nm3。全部67个样本中的2/3(45个)用作训练数据,1/3(22个)用作测试数据。
建模实验
实验中,RF和GBDT方法均采用平方误差作为损失函数,随机样本数量为45,输入特征数量的范围为[10,20,30,40,50,60,70,80,90,100],GBDT的迭代次数范围为[1,2,3,4,5,6,7,8,9],CART回归树叶子节点包含的最小样本数量为3。采用Bootstrap算法抽样的袋外数据(OOB)进行模型测试,以均方根误差(RMSE)作为评估指标。
针对基于RF的DXN预测模型,表1给出了固定CART回归树的数量为5时,输入特征数量与OOB误差间的关系(实验结果为50次的均值)。
表1不同特征数量时的OOB误差
由表1可知,当特征数量为15时,OOB误差最低。固定输入特征数量后,RF模型中CAR回归树的数量与OOB误差间的关系如表2所示(实验结果为50次的均值)。
表2不同CART树数量时的OOB误差
由表2可知知,当CART回归树达到40棵时,基于RF的DXN模型具有最小的OOB误差,但其略小表1中的最小值。可见,需要在RF中同时对回归树和输入特征数量进行优化才能够获得更佳的预测性能。
针对基于GBDT的DXN预测模型,平方误差损失函数与迭代次数间的关系如表3所示。
表3 GBDT预测模型中迭代次数与损失函数间的关系
由图3可知,损失函数值随迭代次数的增加而逐渐降低,在迭代次数达到5次后,误差的下降趋势变弱。因此,确定合适的迭代次数对降低计算消耗非常必要。
综合考虑上述RF和GBDT模型的建模结果,此处针对本申请所提方法采用的建模参数为:输入特征维数10、CART回归树数量5、GBDT子模型数量(迭代次数)5。不同方法针对训练集和测试集的RMSE统计结果如表4所示。图3和4分别给出了RF、GBDT和本申请所提方法的预测曲线。
表4基于RF、GBDT和所提方法构建DXN模型的统计结果
由表4、图3和图4可知:(1)基于GBDT的DXN模型在测试集上具有最大的预测误差(0.03529),主要原因在于GBDT采用了全部过程变量作为DXN模型的输入特征,而另外两种方法均对输入特征进行了基于随机选择的约简。可见,对高维过程变量进行特征选择非常有必要;(2)基于RF的DXN模型,在CART回归树数量设为5和输入特征设为15时,其在训练集上的RMSE值最大(0.34060),在测试集中的RMSE(0.030199)小于GBDT(0.035291)方法,说明RF的泛化能力强于GBDT;(3)本文所提EnRFGBDT方法,在训练和测试数据上都具有最好的预测性能,表明所提策略能够同时降低输入特征维度和提升预测模型泛化性能的能力。
针对二噁英(DXN)难以实时检测的问题,基于实际城市固废焚烧过程数据,本文建立了基于随机森林(RF)和梯度提升树(GBDT)的混合集成DXN排放浓度预测模型,其创新性体现在:通过RF构建的首层DXN子模型和GBDT构建多个DXN子模型,同时进行维数约简和降低模型预测误差。基于MSWI过程的真实数据的仿真实验结果表明了所提方法在预测效果上优于单一的RF和GBDT预测模型。
参考文献
[1]Li X,Zhang C,Li Y,et al.The Status of Municipal Solid WasteIncineration(MSWI)in China and its Clean Development.Waste Management,2016,104:498-503.
[2]Li X,Zhang C,Li Y,et al.The Status of Municipal Solid WasteIncineration(MSWI)in China and its Clean Development.Waste Management,2016,104:498-503.
[3]乔俊飞,郭子豪,汤健.面向城市固废焚烧过程的二噁英排放浓度检测方法综述[J/OL].自动化学报:1-26[2019-12-24].https://doi.org/10.16383/j.aas.c190005..
[4]J.W.Lu,S.Zhang,J.Hai,et al.Status and perspectives of municipalsolid waste incineration in China:a comparison with developed regions.WasteManage.Vol.69,170-186,2017.
[5]Yuanan H,Hefa C,Shu T.The growing importance of waste-to-energy(WTE)incineration in China's anthropogenic mercury emissions:Emissioninventories and reduction strategies[J].Renewable and Sustainable EnergyReviews,2018,97:119-137.
[6]Li X,Zhang C,Li Y,Zhi Q.The Status of Municipal Solid WasteIncineration(MSWI)in China and its Clean Development.Energy Procedia,2016,104:498-503
[7]Zhang H J,Ni Y W,Chen J P,Zhang Q.Influence of variation in theoperating conditions on PCDD/F distribution in a full-scale MSW incinerator[J].Chemosphere,2008,70(4):721-730.
[8]B.R.Stanmore.Modeling the formation of PCDD/F in solid wasteincinerators,Chemosphere,Vol.47,565-773,2002.
[9]Lavric E D,Konnov A A,Ruyck J D.Surrogate compounds for dioxins inincineration.A review.Waste Management,2005,25(7):755-765
[10]Li A-Dan,Hong-Wei,Wang Jing.Online detection of dioxin anddioxin-related substances using laser desoption/laser ionization-massspectrometry.Journal of Yanshan University,2015,39(6):511-515.
[11]Cao Y,Shang Fan-Jie,Pan Deng-Gao.Gas Chromatography-MassSpectrometry Transmission Line System for On-line Detection of Dioxins.China,CN206378474U,2017-08-04.
[12]Nakui H,Koyama H,Takakura A,Watanabe N.Online measurements oflow-volatile organic chlorine for dioxin monitoring at municipal wasteincinerators.Chemosphere,2011,85(2):151-155
[13]F.A.A.Souza,R.Araújo,J.Mendes,Review of soft sensor methods forregression applications,Chemometr.Intell.Lab.Syst.152(2016)69–79.
[14]Bunsan S,Chen W Y,Chen H W,Chuang Y H,Grisdanurak N.Modeling thedioxin emission of a municipal solid waste incinerator using neuralnetworks.Chemosphere,2013,92:258-264.
[15]Chang N B,Chen W C.Prediction of PCDDs/PCDFs emissions frommunicipal incinerators by genetic programming and neural networkmodeling.Waste Management&Research,2000,18,41-351.
[16]Wang Hai-Rui,Zhang Yong,Wang Hua.A s tudy of GA-BP basedprediction model of Dioxin emis s ion from MSW incinerator.MicrocomputerInformation,2008,24(21):222-224.
[17]F.Stulp,O.Sigaud,Many regression algorithms,one unified model:areview,Neural Network.69(2015)60–79.
[18]Breiman,L.,2001.Random Forests.Machine Learning.45,5-32.
[19]Kneale,C.,Brown,S.D.,2018.Small moving window calibration modelsfor soft sensing processes with limited history.Chemometrics and IntelligentLaboratory Systems 183,36-46.
[20]Zhang,W.B.,Cheng,X.F.,Hu,Y.H.,Yan,Y.,2019.Online prediction ofbiomass moisture content in a fluidized bed dryer using electrostatic sensorarrays and the Random Forest method.Fuel 239,437-445.
[21]Mulrennan,K.,Donovan,J.,Creedon,L.,Rogers,I.,Lyons,J.G.,McAfee,M.,2018.A soft sensor for prediction of mechanical properties of extruded PLAsheet using an instrumented slit die and machine learning algorithms.PolymerTesting 69,462-469.
[22]Napier,L.F.A.,Aldrich,C.,2017.An IsaMill(TM)Soft Sensor based onRandom Forests and Principal Component Analysis.Ifac Papersonline 50,1175-1180.
[23]Friedman J.Greedy function approximation:a gradient boostingmachine.Annals of Statistics,2001,29(5)
[24]Ke,G.L.,Meng,Q.,Finley,T.,Wang,T.F.,Chen,W.,Ma,W.D.,Ye,Q.W.,Liu,T.Y.,2017.LightGBM:A Highly Efficient Gradient Boosting DecisionTree.Advances in Neural Information Processing Systems 30(Nips 2017)30.
[25]Sachdeva,S.,Bhatia,T.,Verma,A.K.,2020.A novel voting ensemblemodel for spatial prediction of landslides using GIS.International Journal ofRemote Sensing 41,929-952.
[26]Wang,R.,Lu,S.L.,Li,Q.P.,2019.Multi-criteria comprehensive studyon predictive algorithm of hourly heating energy consumption for residentialbuildings.Sustainable Cities and Society 49.
[27]Chen,B.B.,Lin,R.H.,Zou,H.,2018.A Short Term Load PeriodicPrediction Model Based on GBDT.2018Ieee 18th International Conference onCommunication Technology(Icct),1402-1406.
[28]Wang,J.D.,Li,P.,Ran,R.,Che,Y.B.,Zhou,Y.,2018.A Short-TermPhotovoltaic Power Prediction Model Based on the Gradient Boost DecisionTree.Applied Sciences-Basel 8.
[29]Cai,L.,Gu,J.,Ma,J.H.,Jin,Z.J.,2019.Probabilistic Wind PowerForecasting Approach via Instance-Based Transfer Learning Embedded GradientBoosting Decision Trees.Energies 12.
[30]Liu,X.L.,Tan,W.A.,Tang,S.,2019.A Bagging-GBDT ensemble learningmodel for city air pollutant concentration prediction.4th InternationalConference on Advances in Energy Resources and Environment Engineering 237.
[31]Mckay G.Dioxin characterisation,formation and minimisation duringmunicipal solid waste(MSW)incineration:review.Chemical Engineering Journal,2002,86(3):343-368
[32]Li Hai-Ying,Zhang Shu-Ting,Zhao Xin-Hua.Detection methods ofdioxins emitted from municipal solid waste incinerator.Journal of FuelChemistry and Technology,2005,33(3):379-384.
Claims (5)
1.一种二噁英排放浓度预测方法,其特征在于,包括以下步骤:
步骤1、通过训练样本与输入特征随机采样模块,对训练样本集{X∈RN×M,y∈RN×1}进行有放回的N次随机采样并随机选择固定数量的输入特征,生成训练子集其中,表示与采集DXN化验样品同时段的MSWI过程的炉膛温度、活性炭喷射量、烟囱排放气体浓度、炉排速度、一次风\二次风流量由过程控制系统所采集的过程变量所组成的输入数据,其中N为训练样本数量,M为过程变量数量;表示在MSWI过程末端,即在烟囱排放处进行在线采集离线化验的DXN排放浓度组成的输出数据;
3.如权利要求2所述的二噁英排放浓度预测方法,其特征在于,所述基于RF的DXN子模型构建模块的具体工作过程为:
基于以下准则遍历寻找最佳切分变量编号和切分点取值,
基于上述准则,首先通过遍历所有输入特征找到最优切分变量编号和切分点的取值,并将输入特征空间划分为两个区域;然后对每个区域重复上述过程,直到叶子点所包含的训练样本数量少于预先设定的阈值θRF;最终将输入特征空间划分为K个区域,将这些区域分别标记为R1,L,Rk,L,RK,所述K也表示CART回归树的叶子节点数,
采用CART回归树构建的基于RF的DXN子模型可表示为:
其中,
其中,(ej,0)n表示基于第nth个训练样本的DXN排放浓度预测误差,
4.如权利要求3所述的二噁英排放浓度预测方法,其特征在于,所述基于GBDT的DXN子模型构建模块的具体工作过程为:通过构建多个“串联”的弱学习器模型的方式实现,其中,多个弱学习器模型的训练子集的输入数据保持不变,除第1个子模型的训练子集的输出数据真值为基于RF的子模型的预测值与测量值的误差外,其它子模型均以前一次迭代的GBDT子模型的预测误差作为训练子集的输出数据真值,
以第jth个基于GBDT的DXN子模型的构建为例,假定共有I个基于GBDT的DXN子模型需要构建,并且均采用CART回归树构建,
上述子模型的损失函数的定义如下,
其中,(ej,1)n表示针对第nth个样本的基于GBDT的第1个DXN子模型的预测误差,
在迭代I-1次之后,第Ith个子模型的训练子集的输出数据真值为,
进而,第Ith个子模型可表示为,
其中,(ej,I-1)n表示针对第nth个样本的基于GBDT的第(I-1)th个DXN子模型的预测误差,
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010083784.4A CN111260149B (zh) | 2020-02-10 | 2020-02-10 | 一种二噁英排放浓度预测方法 |
PCT/CN2020/080528 WO2021159585A1 (zh) | 2020-02-10 | 2020-03-21 | 一种二噁英排放浓度预测方法 |
US17/544,213 US20220092482A1 (en) | 2020-02-10 | 2021-12-07 | Method for predicting dioxin emission concentration |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010083784.4A CN111260149B (zh) | 2020-02-10 | 2020-02-10 | 一种二噁英排放浓度预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111260149A true CN111260149A (zh) | 2020-06-09 |
CN111260149B CN111260149B (zh) | 2023-06-23 |
Family
ID=70954426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010083784.4A Active CN111260149B (zh) | 2020-02-10 | 2020-02-10 | 一种二噁英排放浓度预测方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220092482A1 (zh) |
CN (1) | CN111260149B (zh) |
WO (1) | WO2021159585A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882130A (zh) * | 2020-07-30 | 2020-11-03 | 浙江大学 | 一种基于生成路径聚类与Box-Cox变换的二噁英排放在线预测方法 |
CN112183709A (zh) * | 2020-09-22 | 2021-01-05 | 生态环境部华南环境科学研究所 | 一种垃圾焚烧废气二噁英超标预测预警方法 |
CN112420135A (zh) * | 2020-11-20 | 2021-02-26 | 北京化工大学 | 一种基于样方法和分位数回归的虚拟样本生成方法 |
CN112464544A (zh) * | 2020-11-17 | 2021-03-09 | 北京工业大学 | 一种城市固废焚烧过程二噁英排放浓度预测模型构建方法 |
CN113780384A (zh) * | 2021-08-28 | 2021-12-10 | 北京工业大学 | 基于集成决策树算法的城市固废焚烧过程关键被控变量预测方法 |
WO2023231667A1 (zh) * | 2022-05-31 | 2023-12-07 | 北京工业大学 | 基于集成t-s模糊回归树的mswi过程二噁英排放软测量方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398836A (zh) * | 2022-01-19 | 2022-04-26 | 北京工业大学 | 基于宽度混合森林回归的mswi过程二噁英排放软测量方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549792A (zh) * | 2018-06-27 | 2018-09-18 | 北京工业大学 | 一种基于潜结构映射算法的固废焚烧过程二噁英排放浓度软测量方法 |
CN109389253A (zh) * | 2018-11-09 | 2019-02-26 | 国网四川省电力公司电力科学研究院 | 一种基于可信性集成学习的电力系统扰动后频率预测方法 |
CN109408774A (zh) * | 2018-11-07 | 2019-03-01 | 上海海事大学 | 基于随机森林和梯度提升树的预测污水出水指标的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426882B (zh) * | 2015-12-24 | 2018-11-20 | 上海交通大学 | 一种人脸图像中快速定位人眼的方法 |
CN109976998B (zh) * | 2017-12-28 | 2022-06-07 | 航天信息股份有限公司 | 一种软件缺陷预测方法、装置和电子设备 |
AU2018102040A4 (en) * | 2018-12-10 | 2019-01-17 | Chen, Shixuan Mr | The method of an efficient and accurate credit rating system through the gradient boost decision tree |
-
2020
- 2020-02-10 CN CN202010083784.4A patent/CN111260149B/zh active Active
- 2020-03-21 WO PCT/CN2020/080528 patent/WO2021159585A1/zh active Application Filing
-
2021
- 2021-12-07 US US17/544,213 patent/US20220092482A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549792A (zh) * | 2018-06-27 | 2018-09-18 | 北京工业大学 | 一种基于潜结构映射算法的固废焚烧过程二噁英排放浓度软测量方法 |
CN109408774A (zh) * | 2018-11-07 | 2019-03-01 | 上海海事大学 | 基于随机森林和梯度提升树的预测污水出水指标的方法 |
CN109389253A (zh) * | 2018-11-09 | 2019-02-26 | 国网四川省电力公司电力科学研究院 | 一种基于可信性集成学习的电力系统扰动后频率预测方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882130A (zh) * | 2020-07-30 | 2020-11-03 | 浙江大学 | 一种基于生成路径聚类与Box-Cox变换的二噁英排放在线预测方法 |
CN111882130B (zh) * | 2020-07-30 | 2022-01-11 | 浙江大学 | 一种基于生成路径聚类与Box-Cox变换的二噁英排放在线预测方法 |
CN112183709A (zh) * | 2020-09-22 | 2021-01-05 | 生态环境部华南环境科学研究所 | 一种垃圾焚烧废气二噁英超标预测预警方法 |
CN112183709B (zh) * | 2020-09-22 | 2023-11-10 | 生态环境部华南环境科学研究所 | 一种垃圾焚烧废气二噁英超标预测预警方法 |
CN112464544A (zh) * | 2020-11-17 | 2021-03-09 | 北京工业大学 | 一种城市固废焚烧过程二噁英排放浓度预测模型构建方法 |
CN112420135A (zh) * | 2020-11-20 | 2021-02-26 | 北京化工大学 | 一种基于样方法和分位数回归的虚拟样本生成方法 |
CN112420135B (zh) * | 2020-11-20 | 2024-09-13 | 北京化工大学 | 一种基于样方法和分位数回归的虚拟样本生成方法 |
CN113780384A (zh) * | 2021-08-28 | 2021-12-10 | 北京工业大学 | 基于集成决策树算法的城市固废焚烧过程关键被控变量预测方法 |
CN113780384B (zh) * | 2021-08-28 | 2024-05-28 | 北京工业大学 | 基于集成决策树算法的城市固废焚烧过程关键被控变量预测方法 |
WO2023231667A1 (zh) * | 2022-05-31 | 2023-12-07 | 北京工业大学 | 基于集成t-s模糊回归树的mswi过程二噁英排放软测量方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021159585A1 (zh) | 2021-08-19 |
CN111260149B (zh) | 2023-06-23 |
US20220092482A1 (en) | 2022-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111260149B (zh) | 一种二噁英排放浓度预测方法 | |
Xia et al. | Dioxin emission prediction based on improved deep forest regression for municipal solid waste incineration process | |
CN111461355B (zh) | 基于随机森林的二噁英排放浓度迁移学习预测方法 | |
CN108549792B (zh) | 一种基于潜结构映射算法的固废焚烧过程二噁英排放浓度软测量方法 | |
CN112464544B (zh) | 一种城市固废焚烧过程二噁英排放浓度预测模型构建方法 | |
CN110135057B (zh) | 基于多层特征选择的固废焚烧过程二噁英排放浓度软测量方法 | |
CN110991756B (zh) | 基于ts模糊神经网络的mswi炉膛温度预测方法 | |
CN111144609A (zh) | 一种锅炉废气排放预测模型建立方法、预测方法及装置 | |
CN107944173B (zh) | 一种基于选择性集成最小二乘支撑向量机的二噁英软测量系统 | |
CN111462835B (zh) | 一种基于深度森林回归算法的二噁英排放浓度软测量方法 | |
CN112183709B (zh) | 一种垃圾焚烧废气二噁英超标预测预警方法 | |
CN114398836A (zh) | 基于宽度混合森林回归的mswi过程二噁英排放软测量方法 | |
CN111780127A (zh) | 一种垃圾焚烧炉燃烧管理系统 | |
Xia et al. | Soft measuring method of dioxin emission concentration for MSWI process based on RF and GBDT | |
CN117151701B (zh) | 一种热电联产的工业余热回收利用系统 | |
Cui et al. | Multi-condition operational optimization with adaptive knowledge transfer for municipal solid waste incineration process | |
CN109978011A (zh) | 一种城市固废焚烧过程二噁英排放浓度预测系统 | |
WO2024146070A1 (zh) | 一种基于改进生成对抗网络的二噁英排放浓度软测量方法 | |
He et al. | Prediction of MSWI furnace temperature based on TS fuzzy neural network | |
Liu et al. | MSWI Multi-Temperature Prediction Based on Patch Time Series Transformer | |
CN113780384B (zh) | 基于集成决策树算法的城市固废焚烧过程关键被控变量预测方法 | |
CN115717709B (zh) | 基于注意力机制lstm模型的入炉垃圾热值实时预测方法 | |
CN116557873B (zh) | 固体废物焚烧处理在线灰渣玻璃化回转熔融方法及系统 | |
Song et al. | Neural Network-based Modeling or Boiler Combustion Control System for Power Generation | |
CN118296821A (zh) | 基于粒子群算法优化的ReliefF-BP神经网络垃圾热值预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |