CN113283614B - 基于OcE的PM2.5浓度预测方法 - Google Patents
基于OcE的PM2.5浓度预测方法 Download PDFInfo
- Publication number
- CN113283614B CN113283614B CN202110476514.4A CN202110476514A CN113283614B CN 113283614 B CN113283614 B CN 113283614B CN 202110476514 A CN202110476514 A CN 202110476514A CN 113283614 B CN113283614 B CN 113283614B
- Authority
- CN
- China
- Prior art keywords
- model
- elm
- oce
- concentration
- nar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000006870 function Effects 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 230000002123 temporal effect Effects 0.000 claims abstract description 8
- 238000013112 stability test Methods 0.000 claims abstract description 4
- 239000013618 particulate matter Substances 0.000 claims description 196
- 208000037916 non-allergic rhinitis Diseases 0.000 claims description 46
- 238000012360 testing method Methods 0.000 claims description 46
- 230000008569 process Effects 0.000 claims description 19
- 241000764238 Isis Species 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010998 test method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000004883 computer application Methods 0.000 abstract description 2
- 241000218220 Ulmaceae Species 0.000 description 2
- 239000000809 air pollutant Substances 0.000 description 2
- 231100001243 air pollutant Toxicity 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 206010014561 Emphysema Diseases 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 208000010505 Nose Neoplasms Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000037830 nasal cancer Diseases 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/06—Investigating concentration of particle suspensions
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Pathology (AREA)
- Evolutionary Computation (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Analytical Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Dispersion Chemistry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于OcE的PM2.5浓度预测方法,属于计算机应用技术领域。本发明包括,第一步:使用ONAR模型来描述PM2.5数据流的动态特性,搭建在线PM2.5浓度预测模型框架。第二步:利用EnsMDOS‑ELM来递归学习每一代NAR模型的非线性函数。EnsMDOS‑ELM中的基学习机是MDOS‑ELM,使用GEM融合规则获得新一代MDOS‑ELM子模型的权重。第三步:综合执行第一步~第二步,即可获得基于OcE的PM2.5浓度预测模型。第四步:设计了OcE预测模型时间稳定性的检验方法,即任何当前NAR‑EnsMDOS‑ELM模型都可以稳定预测未来几年(e.g.,一年和两年)的每小时PM2.5浓度。本发明以新颖且更合理的方式搭建基于OcE技术的PM2.5浓度预测模型,挖掘空气质量数据中的有用信息。实验结果表明所申请技术能够显著提高每小时PM2.5浓度预测的时间稳定性和泛化性。
Description
技术领域
本发明本发明涉及在线学习、集成学习和神经网络技术,属于计算机应用技术领域,尤其涉及一种基于OcE的PM2.5浓度预测方法。
背景技术
本发明以最受关注的空气污染物——细颗粒物(即PM2.5)浓度为主要研究对象。中国快速的城市化和工业化带来了严重的空气污染。PM2.5是最有害的空气污染物之一,它由空气动力学直径小于2.5μm的空气传播颗粒组成。长期暴露于高浓度PM2.5中会严重危害人类健康,例如肺气肿,肺部疾病,肺癌和鼻癌的风险更高。此外,长期高浓度的PM2.5会逐渐降低城市的人才吸引力,侵蚀城市经济增长,降低区域竞争力等。改善空气质量和降低PM2.5的浓度是非常困难的,它们不可能在短时间内得到完全解决。时间稳定的且高精度的PM2.5浓度预测器不仅有助于政府做出正确的决策和采取措施(例如,限制交通以减少向大气排放的废气),还可以帮助人们计划出行。因此,迫切需要这样的PM2.5浓度预测模型。
迄今为止,PM2.5浓度预测模型大致分为两类。一类是基于大气扩散模拟的机理预报器。尽管具有良好的解释性,但机理预测因子总是过分简化PM2.5的形成过程和环境,因此在分析和预测PM2.5浓度方面存在局限性。另一类是数据驱动的模型,可以进一步分为线性和非线性PM2.5浓度预报器。线性函数近似拟合非线性函数,在建模PM2.5浓度的复杂非线性关系时面临着严峻的挑战。在非线性预报器方面,Zhou等人(2019)[Y.Zhou,F.-J.Chang,L.-C.Chang,I-F.K.,Y.-S.Wang.Explore a deep learning multi-output neuralnetwork for regional multi-step-ahead air quality forecasts.Journal ofCleaner Production,vol.209,pp.134-145,Feb.2019.],[Y.Zhou,F.-J.Chang,L.-C.Chang,I-F.Kao,Y.-S.Wang,C.-C.Kang.Multi-output support vector machine forregional multi-step-ahead PM2.5 forecasting,Science of the Total Environment,vol.651,pp.230-240,2019.]提出了两个PM2.5浓度多步超前预测模型,它们属于带有外源输入的非线性自回归(Nonlinear Auto-Regressive with eXogenous input,NARX)模型。Shang等人(2019)[Z.Shang,T.Deng,J.He,X.Duan.Anovel model for hourlyPM2.5concentration prediction based on CART and EELM.Science of the TotalEnvironment,vol.651,pp.3043-3052,2019.]提出了一个不完整的非线性时间序列模型。已发表的PM2.5浓度预测模型中,具有学习大规模数据的优势的是基于将非线性时间序列模型与机器学习算法相结合的混合方法。但是,PM2.5浓度会随着时间而变化,而这些预测模型大都利用离线学习策略,难以在持续增加的数据中进行更新。
发明内容
为了提高PM2.5浓度预测的时间稳定性和泛化性,本发明提出了基于OcE的PM2.5浓度预测方法,为面向大规模且持续增加的空气质量数据建立时间稳定性和泛化性更高的PM2.5预测模型提供一种新的思路和方法。
技术方案如下:
一种基于OcE的PM2.5浓度预测方法,步骤如下:
第一步:使用ONAR模型来描述PM2.5数据流的动态特性,搭建在线PM2.5浓度预测模型框架;基于ONAR的PM2.5浓度预测模型包括两部分:
一部分是NAR时间序列模型,其数学表达式如下:
PM2.5(t+1)=f(PM2.5(t),PM2.5(t-1),…,PM2.5(t-p)), (1)
其中PM2.5(t+1),PM2.5(t),PM2.5(t-1),…,PM2.5(t-p)表示PM2.5浓度时间序列,时间单位是小时;PM2.5·(t+1)表示下一小时的PM2.5浓度;PM2.5(t)表示当前PM2.5浓度;PM2.5(t-1),PM2.5(t-2),…,PM2.5(t-p)是前1,2,…,p个小时的PM2.5浓度,p+1表示自回归的阶数,选取若干个候选值p+1=1,2,3,4,…分别建立基于ONAR的PM2.5浓度预测模型,选取使得PM2.5浓度预测精度最高的p+1候选值最为p+1的最终值,f(·)表示非线性映射函数;
另外一部分是初代NAR模型的建立过程以及后代NAR模型的在线更新过程;
第二步:利用EnsMDOS-ELM递归学习每一代NAR模型的非线性函数,利用GEM融合规则获得每一代MDOS-ELM子模型的权重;
第三步:综合执行第一步~第二步,获得基于OcE的PM2.5浓度预测模型;
第四步:设计OcE预测模型时间稳定性的检测方法,即任何当前NAR-EnsMDOS-ELM模型预测未来几年的每小时PM2.5浓度。
进一步的,第一步的初代NAR模型的建立过程以及后代NAR模型的在线更新过程,实现过程为:PM2.5数据按时间顺序不断产生;
根据时间顺序,使用历史周期内的PM2.5数据构造初代样本块/>建立初代NARPM2.5浓度预测模型/>令后代NAR模型的更新周期为/>当累计了第1个更新周期/>的样本后构造第1代样本块/>更新/>获得第一代NAR PM2.5浓度预测模型/>当累计了第2个更新周期/>的样本后构造第2代样本块/>更新/>获得第一代NAR PM2.5浓度预测模型/>以此类推,不断获得新的样本块并更新模型;
分别准备和/>候选集,即/>年,2年,3年;/>年,1年,产生了6种组合: 分别在每种组合下建立并测试基于OcE的PM2.5浓度预测模型,挑选预测性能最好的组合。
进一步的,第二步的EnsMDOS-ELM是指以MDOS-ELM为基学习机的集成方法,获得EnsMDOS-ELM的过程,包括:EnsMDOS-ELM模型集成了一组具有递归学习能力的且各不相同的MDOS-ELM子模型,EnsMDOS-ELM模型主要包括两个环节:
第一个环节是训练各代MDOS-ELM子模型,每一个初代MDOS-ELM子模型都建立在初代样本块上;令/>表示初代EnsMDOS-ELM中的第i个子模型,其中M表示EnsMDOS-ELM中子模型的总数;当获得第1代样本块/>后,第1代MDOS-ELM子模型通过递归学习的方式从自其初代子模型/>更新获得;当获得第2代样本块/>后,第2代MDOS-ELM子模型/>通过递归学习的方式从自第1初代子模型/>更新获得;
第二个环节是使用Perrone和Cooper定义的GEM融合规则计算每一代MDOS-ELM子模型的权重;每一代子模型的权重都随着新样本块进行动态调整。4.根据权利要求3所述的基于OcE的PM2.5浓度预测方法,其特征在于:第四步的OcE预测模型时间稳定性的检验过程如下:任何当前NAR-EnsMDOS-ELM模型预测未来几年的每小时PM2.5浓度,其中NAR-EnsMDOS-ELM表示以EnsMDOS-ELM为非线性拟合函数的NAR模型;使用2010~2015年北京每小时PM2.5数据进行实验;当和/>时,OcE PM2.5浓度预测模型的测试集均方根误差及其标准差最低,即预测性能最好;此时,使用2010~2011年的每小时PM2.5数据构造/>并建立/>每年更新一次OcE PM2.5浓度预测模型;由2012年的每小时PM2.5数据构造/>并建立/>由2013年的每小时PM2.5数据构造/>并建立/>依次类推,当/>和/>时的OcE PM2.5浓度预测模型的具体的时间稳定性检验过程:
如果检验OcE模型对未来一年的预测效果,则以2012年的每小时PM2.5数据为的测试集;以2013年的每小时PM2.5数据为/>的测试集;以2014年的每小时PM2.5数据为/>的测试集;依次类推,计算OcE模型在2012~2015测试集上RMSE的平均值/>和标准差
如果检测OcE模型对未来两年的预测效果,则以2013年的每小时PM2.5数据为的测试集;以2014年的每小时PM2.5数据为/>的测试集;以2015年的每小时PM2.5数据为/>的测试集;依次类推,计算OcE模型在2013~2015测试集上RMSE的平均值/>和标准差
从理论上分析,会大于等于/>这是因为随着预测周期的延长,预测难度会加大,预测误差会随之增大;/>小于等于或略大于则表明OcE模型的时间稳定性好;实验结果证明基于OcE的PM2.5浓度预测模型具有好的时间稳定性。
本发明的有益效果是:
基于OcE的PM2.5浓度预测方法的思想是:第一步:使用ONAR模型来描述PM2.5数据流的动态特性,搭建在线PM2.5浓度预测模型框架。第二步:利用EnsMDOS-ELM来递归学习每一代NAR模型的非线性函数。EnsMDOS-ELM中的基学习机是MDOS-ELM,使用GEM融合规则获得新一代MDOS-ELM子模型的权重。第三步:综合执行第一步~第二步,即可获得基于OcE的PM2.5浓度预测模型。第四步:设计了OcE预测模型时间稳定性的检验方法,即任何当前NAR-EnsMDOS-ELM模型都可以稳定预测未来几年(e.g.,一年和两年)的每小时PM2.5浓度。
本发明以新颖且更合理的方式搭建基于OcE技术的PM2.5浓度预测模型,挖掘空气质量数据中的有用信息。期望其进一步提高每小时PM2.5浓度预测的时间稳定性和泛化性。
具体实施方式
本发明的具体实施方式如下:
基于OcE的PM2.5浓度预测方法,其特征在于:包括如下步骤,
第一步:使用ONAR模型来描述PM2.5数据流的动态特性,搭建在线PM2.5浓度预测模型框架。基于ONAR(在线非线性自回归,Online Nonlinear Auto-Regressive)的PM2.5浓度预测模型包括两部分。一部分是NAR时间序列模型,其数学表达式如下:
PM2.5(t+1)=f(PM2.5(t),PM2.5(t-1),…,PM2.5(t-p)),(1)其中PM2.5(t+1),PM2.5(t),PM2.5(t-1),…,PM2.5(t-p)表示PM2.5浓度时间序列。时间单位是小时。PM2.5(t+1)是下一小时的PM2.5浓度;PM2.5(t)是当前PM2.5浓度;PM2.5(t-1),PM2.5(t-2),…,PM2.5(t-p)是前1,2,…,p个小时的PM2.5浓度。p+1是自回归的阶数,由实验经验获得,即选取几个候选值p+1=1,2,3,4,…分别建立基于ONAR的PM2.5浓度预测模型,选取使得PM2.5浓度预测精度最高的p+1候选值最为p+1的最终值。f(·)表示非线性映射函数。
另外一部分是初代NAR模型的建立过程以及后代NAR模型的在线更新过程。
第二步:利用EnsMDOS-ELM来递归学习每一代NAR模型的非线性函数。EnsMDOS-ELM是指以MDOS-ELM为基学习机的集成方法,能够提高单个MDOS-ELM(记忆减退型在线极限学习机,Ensemble Memory Degradation based Online Sequential ELMs)模型的泛化性。利用GEM融合规则获得每一代MDOS-ELM子模型的权重。GEM是Perrone和Cooper定义的广义集成方法(General Ensemble Method),实际上是一种计算子模型权重(i.e.,融合规则)的方法。
第三步:综合执行第一步~第二步,即可获得基于OcE的PM2.5浓度预测模型。
第四步:设计了OcE预测模型时间稳定性的检测方法,即任何当前NAR-EnsMDOS-ELM模型预测未来几年(e.g.,一年和两年)的每小时PM2.5浓度。
优选地,第一步的初代NAR模型的建立过程以及后代NAR模型的在线更新过程,实现过程为:PM2.5数据是按时间顺序不断产生。根据时间顺序,我们使用历史周期内的PM2.5数据构造初代样本块/>建立初代NAR PM2.5浓度预测模型/>令后代NAR模型的更新周期为当累计了第1个更新周期/>的样本后构造第1代样本块/>更新/>获得第一代NAR PM2.5浓度预测模型/>当累计了第2个更新周期/>的样本后构造第2代样本块/>更新/>获得第一代NAR PM2.5浓度预测模型/>以此类推,不断获得新的样本块并更新模型。
另外,历史周期和更新周期/>是两个关键参数,需要通过实验确定。实验方案是,分别准备/>和/>候选集,即/>年,2年,3年;/>年(半年),1年。产生了6种组合: 分别在每种组合下建立并测试基于OcE的PM2.5浓度预测模型,挑选预测性能(均方根误差和训练时间)最好的组合。
优选地,第二步的EnsMDOS-ELM是指以MDOS-ELM为基学习机的集成方法,获得EnsMDOS-ELM的过程包括:EnsMDOS-ELM模型集成了一组具有递归学习能力的且各不相同的MDOS-ELM子模型。EnsMDOS-ELM模型主要包括两个环节。第一个环节是训练各代MDOS-ELM子模型。每一个初代MDOS-ELM子模型都建立在初代样本块上,但是这些初代子模型具有不同的随机初始权重,因此彼此之间存在差异。令/>表示初代EnsMDOS-ELM中的第i个子模型。M表示EnsMDOS-ELM中子模型的总数,在我们的OcE PM2.5浓度预测模型中M=6。当获得第1代样本块/>后,第1代MDOS-ELM子模型/>通过递归学习的方式从自其初代子模型/>更新获得。当获得第2代样本块/>后,第2代MDOS-ELM子模型通过递归学习的方式从自第1初代子模型/>更新获得。第二个环节是使用Perrone和Cooper定义的GEM融合规则计算每一代MDOS-ELM子模型的权重。特别地,每一代子模型的权重都是随着新样本块动态调整的。
优选地,第四步的OcE预测模型时间稳定性的检验方法。检验过程包括:任何当前NAR-EnsMDOS-ELM模型预测未来几年(e.g.,一年和两年)的每小时PM2.5浓度,其中NAR-EnsMDOS-ELM表示以EnsMDOS-ELM为非线性拟合函数的NAR模型。我们使用2010~2015年北京每小时PM2.5数据进行实验。实验发现,当和/>时,OcE PM2.5浓度预测模型的测试集均方根误差(Root Mean Square Error,RMSE)及其标准差最低,即预测性能最好。此时,使用2010~2011年的每小时PM2.5数据构造/>并建立/>每年更新一次OcE PM2.5浓度预测模型。那么,由2012年的每小时PM2.5数据构造/>并建立/>由2013年的每小时PM2.5数据构造/>并建立/>依次类推。我们以/>和/>时的OcE PM2.5浓度预测模型为例,介绍具体的时间稳定性检验过程:
如果检验OcE模型对未来一年的预测效果,则以2012年的每小时PM2.5数据为的测试集;以2013年的每小时PM2.5数据为/>的测试集;以2014年的每小时PM2.5数据为/>的测试集;依次类推。计算OcE模型在2012~2015测试集上RMSE的平均值/>和标准差
如果检测OcE模型对未来两年的预测效果,则以2013年的每小时PM2.5数据为的测试集;以2014年的每小时PM2.5数据为/>的测试集;以2015年的每小时PM2.5数据为/>的测试集;依次类推。计算OcE模型在2013~2015测试集上RMSE的平均值/>和标准差
从理论上分析,会大于等于/>这是因为随着预测周期的延长,预测难度会加大,预测误差会随之增大。/>小于等于或略大于/>则表明OcE模型的时间稳定性很好。实验结果证明基于OcE的PM2.5浓度预测模型具有很好的时间稳定性。
本节通过仿真实验,验证基于OcE的PM2.5浓度预测方法作为一种新的思路和方法,在面向大规模且持续增加的空气质量数据建立时间稳定性和泛化性更高的PM2.5预测模型时的有效性。
实验数据
使用2010~2015年北京地区每小时PM2.5浓度数据进行了实验分析。Liang等人已经分析和验证了该数据的可靠性和一致性。我们对数据进行了预处理,包括缺失值填补、对数转换、异常值检测和替换、以及数据归一化。MDOS-ELM子模型的激活函数是“Sigmoid”函数。子模型的数量适合设置为6个。采用RMSE度量模型的预测精度和泛化性,计算公式如下:
表1当和/>时OcE PM2.5浓度预测模型对未来一年的PM2.5浓度的预测结果
p+1 | 1 | 2 | 3 | 4 |
测试集平均RMSE | 4.88 | 23.40 | 35.38 | 38.89 |
确定p+1的值。设置和/>此时,OcE PM2.5浓度预测模型对未来一年的PM2.5浓度的预测过程:2010年的PM2.5数据构成了初始样本块/>以2011年的每小时PM2.5数据为的测试集;以2011年的每小时PM2.5数据为第1代样本块/>以2012年的每小时PM2.5数据为的测试集;…;以2014年的每小时PM2.5数据为第3代样本块/>以2015年的每小时PM2.5数据为/>的测试集。预测结果见表1,结果表明,当p+1=1时,OcEPM2.5浓度预测模型的平均RMSE最低,表明当p+1=1时,OcE PM2.5浓度预测模型的泛化性最好,所以选取p+1=1。
表2当和/>或2时,OcE PM2.5浓度预测模型对未来一年的PM2.5浓度的预测结果
确定的值。当/>和/>时,OcE PM2.5浓度预测模型对未来一年的PM2.5浓度的预测过程:2010~2011年的PM2.5数据构成了初始样本块/>以2012年的每小时PM2.5数据为的测试集;以2012年的每小时PM2.5数据为第1代样本块/>以2013年的每小时PM2.5数据为的测试集;…;以2014年的每小时PM2.5数据为第3代样本块/>以2015年的每小时PM2.5数据为/>的测试集。结果见表2,结果表明,/>和2时,测试集平均RMSE几乎一样,但是/>时测试集RMSE标准差要小的多,因此从时间稳定性和泛化性的角度,确定/>
表3当和/>时,基于OcE的PM2.5浓度预测对未来一年和两年的PM2.5浓度的预测结果
评价指标 | 预测未来一年 | 预测未来两年 |
测试集平均RMSE | 4.87 | 5.37 |
测试集RMSE标准差 | 1.54 | 1.26 |
为进一步验证OcE PM2.5浓度预测模型的时间稳定性,我们对比了当和/>时,OcE PM2.5浓度预测模型对未来一年和两年的PM2.5浓度的预测效果,结果见表3。未来两年的PM2.5浓度的预测过程是:2010~2011年的PM2.5数据构成了初始样本块/>以2013年的每小时PM2.5数据为/>的测试集;以2012年的每小时PM2.5数据为第1代样本块/>以2014年的每小时PM2.5数据为/>的测试集;以2013年的每小时PM2.5数据为2代样本块/>以2015年的每小时PM2.5数据为/>的测试集。结果显示,预测未来两年的测试集平均RMSE大于预测未来一年的测试集平均RMSE,表明随着预测周期的延长预测难度加大。但是,预测未来两年的测试集RMSE标准差小于预测未来一年测试集RMSE标准差,说明OcE PM2.5浓度预测模型的时间稳定性很好。
综上,实验结果表明,所申请的基于OcE的PM2.5浓度预测方法能够显著提高PM2.5浓度预测的时间稳定性和泛化性。
使用ONAR(Online Nonlinear Auto-Regressiv,在线非线性自回归,)模型来描述PM2.5数据流的动态特性,搭建在线PM2.5浓度预测模型框架。利用EnsMDOS-ELM来递归学习每一代NAR模型的非线性函数。EnsMDOS-ELM能够提高单个MDOS-ELM(Ensemble MemoryDegradation based Online Sequential ELMs,记忆减退型在线极限学习机)模型的泛化性。利用GEM(General Ensemble Method)融合规则获得每一代MDOS-ELM子模型的权重。实验中任何当前NAR-EnsMDOS-ELM模型都预测未来几年(e.g.,一年和两年)的每小时PM2.5浓度。实验结果表明所申请技术能够显著提高PM2.5浓度预测的时间稳定性和泛化性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (2)
1.一种基于OcE的PM2.5浓度预测方法,其特征在于,步骤如下:
第一步:使用ONAR模型来描述PM2.5数据流的动态特性,搭建在线PM2.5浓度预测模型框架;基于ONAR的PM2.5浓度预测模型包括两部分:
一部分是NAR时间序列模型,其数学表达式如下:
PM2.5(t+1)=f(PM2.5(t),PM2.5(t-1),…,PM2.5(t-p)), (1)
其中PM2.5(t+1),PM2.5(t),PM2.5(t-1),…,PM2.5(t-p)表示PM2.5浓度时间序列,时间单位是小时;PM2.5·(t+1)表示下一小时的PM2.5浓度;PM2.5(t)表示当前PM2.5浓度;PM2.5(t-1),PM2.5(t-2),…,PM2.5(t-p)是前1,2,…,p个小时的PM2.5浓度,p+1表示自回归的阶数,选取若干个候选值p+1=1,2,3,4,…分别建立基于ONAR的PM2.5浓度预测模型,选取使得PM2.5浓度预测精度最高的p+1候选值最为p+1的最终值,f(·)表示非线性映射函数;
另外一部分是初代NAR模型的建立过程以及后代NAR模型的在线更新过程;
第二步:利用EnsMDOS-ELM递归学习每一代NAR模型的非线性函数,利用GEM融合规则获得每一代MDOS-ELM子模型的权重;
第三步:综合执行第一步~第二步,获得基于OcE的PM2.5浓度预测模型;
第四步:设计OcE预测模型时间稳定性的检测方法,即任何当前NAR-EnsMDOS-ELM模型预测未来几年的每小时PM2.5浓度;
在上述步骤中,
第一步的初代NAR模型的建立过程以及后代NAR模型的在线更新过程,实现过程为:PM2.5数据按时间顺序不断产生;
根据时间顺序,使用历史周期内的PM2.5数据构造初代样本块/>建立初代NAR PM2.5浓度预测模型/>令后代NAR模型的更新周期为/>当累计了第1个更新周期/>的样本后构造第1代样本块/>更新/>获得第一代NAR PM2.5浓度预测模型/>当累计了第2个更新周期的样本后构造第2代样本块/>更新/>获得第一代NAR PM2.5浓度预测模型/>以此类推,不断获得新的样本块并更新模型;
分别准备和/>候选集,即/>年,2年,3年;/>年,1年,产生了6种组合: 分别在每种组合下建立并测试基于OcE的PM2.5浓度预测模型,挑选预测性能最好的组合,即OcE PM2.5浓度预测模型的测试集均方根误差及其标准差最低的组合;
第二步的EnsMDOS-ELM是指以MDOS-ELM为基学习机的集成方法,获得EnsMDOS-ELM的过程,包括:EnsMDOS-ELM模型集成了一组具有递归学习能力的且各不相同的MDOS-ELM子模型,EnsMDOS-ELM模型主要包括两个环节:
第一个环节是训练各代MDOS-ELM子模型,每一个初代MDOS-ELM子模型都建立在初代样本块上;令/>表示初代EnsMDOS-ELM中的第i个子模型,其中M表示EnsMDOS-ELM中子模型的总数;当获得第1代样本块/>后,第1代MDOS-ELM子模型通过递归学习的方式从自其初代子模型/>更新获得;当获得第2代样本块S2后,第2代MDOS-ELM子模型/> 通过递归学习的方式从自第1初代子模型/>更新获得;
第二个环节是使用Perrone和Cooper定义的GEM融合规则计算每一代MDOS-ELM子模型的权重;每一代子模型的权重都随着新样本块进行动态调整。
2.根据权利要求1所述的基于OcE的PM2.5浓度预测方法,其特征在于:第四步的OcE预测模型时间稳定性的检验过程如下:任何当前NAR-EnsMDOS-ELM模型预测未来几年的每小时PM2.5浓度,其中NAR-EnsMDOS-ELM表示以EnsMDOS-ELM为非线性拟合函数的NAR模型;使用2010~2015年北京每小时PM2.5数据进行实验;当和/>时,OcE PM2.5浓度预测模型的测试集均方根误差及其标准差最低,即预测性能最好;此时,使用2010~2011年的每小时PM2.5数据构造/>并建立/>每年更新一次OcE PM2.5浓度预测模型;由2012年的每小时PM2.5数据构造/>并建立/>由2013年的每小时PM2.5数据构造/>并建立/>依次类推,当/>和时的OcE PM2.5浓度预测模型的具体的时间稳定性检验过程:
如果检验OcE模型对未来一年的预测效果,则以2012年的每小时PM2.5数据为的测试集;以2013年的每小时PM2.5数据为/>的测试集;以2014年的每小时PM2.5数据为/>的测试集;依次类推,计算OcE模型在2012~2015测试集上RMSE的平均值/>和标准差
如果检测OcE模型对未来两年的预测效果,则以2013年的每小时PM2.5数据为的测试集;以2014年的每小时PM2.5数据为/>的测试集;以2015年的每小时PM2.5数据为/>的测试集;依次类推,计算OcE模型在2013~2015测试集上RMSE的平均值/>和标准差
从理论上分析,会大于等于/>这是因为随着预测周期的延长,预测难度会加大,预测误差会随之增大;/>小于等于或略大于/>则表明OcE模型的时间稳定性好;实验结果证明基于OcE的PM2.5浓度预测模型具有好的时间稳定性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110476514.4A CN113283614B (zh) | 2021-04-29 | 2021-04-29 | 基于OcE的PM2.5浓度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110476514.4A CN113283614B (zh) | 2021-04-29 | 2021-04-29 | 基于OcE的PM2.5浓度预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283614A CN113283614A (zh) | 2021-08-20 |
CN113283614B true CN113283614B (zh) | 2023-09-12 |
Family
ID=77277707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110476514.4A Active CN113283614B (zh) | 2021-04-29 | 2021-04-29 | 基于OcE的PM2.5浓度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283614B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014075108A2 (en) * | 2012-11-09 | 2014-05-15 | The Trustees Of Columbia University In The City Of New York | Forecasting system using machine learning and ensemble methods |
CN105528515A (zh) * | 2015-11-27 | 2016-04-27 | 国家电网公司 | 燃煤电站锅炉烟气污染物排放的环保经济性评价分析方法 |
WO2016101182A1 (zh) * | 2014-12-23 | 2016-06-30 | 清华大学 | 基于贝叶斯网络和极限学习机的区间型指标预报方法 |
CN107122526A (zh) * | 2017-04-06 | 2017-09-01 | 大连大学 | 基于异态特征子集集成算法的试验段马赫数建模方法 |
CN110362989A (zh) * | 2019-04-22 | 2019-10-22 | 浙江师范大学 | 基于记忆减退型在线序列极限学习机的恶意网页检测方法 |
CN110598953A (zh) * | 2019-09-23 | 2019-12-20 | 哈尔滨工程大学 | 一种时空相关的空气质量预测方法 |
CN111144286A (zh) * | 2019-12-25 | 2020-05-12 | 北京工业大学 | 一种融合emd和lstm的城市pm2.5浓度预测方法 |
CN111369072A (zh) * | 2020-03-19 | 2020-07-03 | 大连理工大学 | 一种基于稀疏化方法的核最小均方时间序列在线预测模型 |
CN111859800A (zh) * | 2020-07-15 | 2020-10-30 | 河海大学 | 用于pm2.5浓度分布的时空估算和预测的方法 |
CN112378619A (zh) * | 2020-11-06 | 2021-02-19 | 东北财经大学 | 具有ReMD-OSELM的FER-FSE在风洞试验冲压阶段总压实时建模中的应用 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10976471B2 (en) * | 2017-03-07 | 2021-04-13 | International Business Machines Corporation | Post-processing air quality forecasts |
US10353362B2 (en) * | 2017-05-03 | 2019-07-16 | Ul Llc | Method and system for predictive air filter maintenance for sustained indoor air quality |
-
2021
- 2021-04-29 CN CN202110476514.4A patent/CN113283614B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014075108A2 (en) * | 2012-11-09 | 2014-05-15 | The Trustees Of Columbia University In The City Of New York | Forecasting system using machine learning and ensemble methods |
WO2016101182A1 (zh) * | 2014-12-23 | 2016-06-30 | 清华大学 | 基于贝叶斯网络和极限学习机的区间型指标预报方法 |
CN105528515A (zh) * | 2015-11-27 | 2016-04-27 | 国家电网公司 | 燃煤电站锅炉烟气污染物排放的环保经济性评价分析方法 |
CN107122526A (zh) * | 2017-04-06 | 2017-09-01 | 大连大学 | 基于异态特征子集集成算法的试验段马赫数建模方法 |
CN110362989A (zh) * | 2019-04-22 | 2019-10-22 | 浙江师范大学 | 基于记忆减退型在线序列极限学习机的恶意网页检测方法 |
CN110598953A (zh) * | 2019-09-23 | 2019-12-20 | 哈尔滨工程大学 | 一种时空相关的空气质量预测方法 |
CN111144286A (zh) * | 2019-12-25 | 2020-05-12 | 北京工业大学 | 一种融合emd和lstm的城市pm2.5浓度预测方法 |
CN111369072A (zh) * | 2020-03-19 | 2020-07-03 | 大连理工大学 | 一种基于稀疏化方法的核最小均方时间序列在线预测模型 |
CN111859800A (zh) * | 2020-07-15 | 2020-10-30 | 河海大学 | 用于pm2.5浓度分布的时空估算和预测的方法 |
CN112378619A (zh) * | 2020-11-06 | 2021-02-19 | 东北财经大学 | 具有ReMD-OSELM的FER-FSE在风洞试验冲压阶段总压实时建模中的应用 |
Non-Patent Citations (1)
Title |
---|
张丹宁等.基于NARX神经网络的PM2.5/10浓度值预测模型——以咸阳市两寺渡监测站为例.《地球环境学报》.2020,第11卷(第2期),第161-168页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113283614A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492830B (zh) | 一种基于时空深度学习的移动污染源排放浓度预测方法 | |
CN109063938B (zh) | 基于psode-bp神经网络的空气质量预测方法 | |
CN110782093B (zh) | 融合ssae深度特征学习和lstm的pm2.5小时浓度预测方法及系统 | |
CN108009674A (zh) | 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法 | |
Kang et al. | Application of BP neural network optimized by genetic simulated annealing algorithm to prediction of air quality index in Lanzhou | |
CN112085163A (zh) | 一种基于注意力增强图卷积神经网络agc和门控循环单元gru的空气质量预测方法 | |
Huang et al. | A new air quality forecasting model using data mining and artificial neural network | |
CN109523021A (zh) | 一种基于长短时记忆网络的动态网络结构预测方法 | |
CN110555551B (zh) | 一种智慧城市的空气质量大数据管理方法及系统 | |
CN110533239B (zh) | 一种智慧城市空气品质高精度测量方法 | |
CN108399470B (zh) | 一种基于多示例遗传神经网络的室内pm2.5预测方法 | |
CN108537336B (zh) | 一种基于深度神经网络的空气质量预测方法 | |
CN112232483A (zh) | 一种结合cnn和lstm的航班平均票价预测方法 | |
CN109754122A (zh) | 一种基于随机森林特征提取的bp神经网络的数值预测方法 | |
CN114694767B (zh) | 基于时空图常微分方程网络的pm2.5浓度预测方法 | |
CN114444561A (zh) | 基于CNNs-GRU融合深度学习模型的PM2.5预测方法 | |
Xiong et al. | A novel GM (1, N) model based on interval gray number and its application to research on smog pollution | |
CN117171546A (zh) | 一种结合污染扩散指数的城市空气质量预测方法 | |
CN115629160A (zh) | 一种基于时空图的空气污染物浓度预测方法及系统 | |
CN113283614B (zh) | 基于OcE的PM2.5浓度预测方法 | |
CN117634678A (zh) | 基于实际运行场景的低碳园区碳排放预测方法 | |
CN113281229A (zh) | 一种基于小样本下多模型自适应大气pm2.5浓度预测方法 | |
CN111079996B (zh) | 一种基于bp神经网络电力负荷预测的虚拟坐席系统 | |
Kekulanadara et al. | Machine learning approach for predicting air quality index | |
Arun et al. | Real Time Air Quality Evaluation Model using Machine Learning Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |