CN112884079A - 一种基于Stacking集成模型的近地面二氧化氮浓度估算方法 - Google Patents
一种基于Stacking集成模型的近地面二氧化氮浓度估算方法 Download PDFInfo
- Publication number
- CN112884079A CN112884079A CN202110338272.2A CN202110338272A CN112884079A CN 112884079 A CN112884079 A CN 112884079A CN 202110338272 A CN202110338272 A CN 202110338272A CN 112884079 A CN112884079 A CN 112884079A
- Authority
- CN
- China
- Prior art keywords
- data
- concentration
- ground
- model
- remote sensing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- JCXJVPUVTGWSNB-UHFFFAOYSA-N nitrogen dioxide Inorganic materials O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 19
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 title claims abstract description 7
- 238000012544 monitoring process Methods 0.000 claims abstract description 59
- 230000010354 integration Effects 0.000 claims abstract description 17
- 238000012795 verification Methods 0.000 claims abstract description 6
- 238000004140 cleaning Methods 0.000 claims abstract description 4
- 238000004088 simulation Methods 0.000 claims abstract description 4
- 230000005855 radiation Effects 0.000 claims description 18
- 238000001704 evaporation Methods 0.000 claims description 6
- 230000008020 evaporation Effects 0.000 claims description 6
- 238000002310 reflectometry Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 24
- 238000010801 machine learning Methods 0.000 abstract description 8
- 230000007547 defect Effects 0.000 abstract description 5
- 238000012935 Averaging Methods 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 abstract description 3
- 238000012417 linear regression Methods 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 24
- 238000012549 training Methods 0.000 description 13
- 230000002354 daily effect Effects 0.000 description 12
- 238000009826 distribution Methods 0.000 description 11
- 239000003344 environmental pollutant Substances 0.000 description 6
- 230000002068 genetic effect Effects 0.000 description 6
- 231100000719 pollutant Toxicity 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000007789 gas Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 238000012950 reanalysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 239000005436 troposphere Substances 0.000 description 2
- 239000002028 Biomass Substances 0.000 description 1
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 238000003916 acid precipitation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001983 electron spin resonance imaging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000002803 fossil fuel Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008303 genetic mechanism Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004199 lung function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000006552 photochemical reaction Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000004062 sedimentation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000005437 stratosphere Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
- G01N33/0009—General constructional details of gas analysers, e.g. portable test equipment
- G01N33/0027—General constructional details of gas analysers, e.g. portable test equipment concerning the detector
- G01N33/0036—General constructional details of gas analysers, e.g. portable test equipment concerning the detector specially adapted to detect a particular component
- G01N33/0037—NOx
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medicinal Chemistry (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Combustion & Propulsion (AREA)
- Food Science & Technology (AREA)
- Computational Linguistics (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于遥感数据应用技术技术领域,涉及一种基于Stacking集成模型的近地面二氧化氮浓度估算方法,包括以下步骤:获取监测站点实际NO2浓度数据、气象监测数据、地理数据和人口数据;获取NO2对流层柱浓度卫星遥感数据并进行验证;数据清理,采用网格化方式对监测站点实际NO2浓度数据和NO2对流层柱浓度卫星遥感数据进行求均并与气象监测数据匹配,构建NO2数据集;基于NO2数据集进行建模,采用GA‑RF、GA‑GBRT和GA‑XGBoost三种模型作为基学习器,岭回归作为元学习器进行融合得到Stacking集成模型;利用Stacking集成模型对近地面NO2浓度进行模拟估算,得到近地面NO2浓度。本发明通过多种机器学习算法的结合,克服单个模型的缺陷,优化线性回归的输入,提升模型整体性能。
Description
技术领域
本发明属于遥感数据应用技术技术领域,涉及一种基于Stacking集成模型的近地面二氧化氮浓度估算方法。
背景技术
NO2是大气中重要的污染物,关系到光化学烟雾,酸沉降以及大气臭氧变化,对水体,土壤和大气造成破坏。NO2不仅是O3、PAN等光化学污染物的重要前体物,还能通过光化学反应生成NO3,形成酸沉降,严重危害到大气和生态环境。NO2的自然排放源主要有闪电、土壤排放和生物质的自然燃烧等自然过程;化石燃料燃烧和汽车尾气排放是NO2排放的主要人为源,人为源排放占2/3。NO2是一种生命时间较短(只有小时量级)的污染气体,高浓度的NO2大都存在于排放源周围,并且存在于对流层的低层,尤其是边界层底部,而近地面NO2浓度直接威胁人体健康,会导致肺功能下降和呼吸道疾病。目前NO2已经作为空气质量监测的日常项目之一,监测近地面NO2浓度能够反映NO2治理成效,为研究大气环境变化,分析大气质量变化原因提供依据。
传统观测NO2浓度的手段有地面光谱仪监测、机载观测器监测和大气定点采样等技术。但这些传统的观测手段在时间和空间范围上或多或少有着限制,不能够进行大尺度的研究。例如:地基点式和化学抽取式分析方法能够较为准确地得到NO2的实际浓度,但是这些站点在空间上稀疏并且排列不均匀,大部分站点分布在城市中,站点数据仅能够反映小范围地区的污染状况;机载观测仪器能够获得NO2的垂直廓线信息和空间分辨率较高的区域NO2浓度分布,但是这种观测手段比较昂贵。
机器学习模型,如随机森林模型和极限随机树模型,由于具有处理复杂变量的能力,通产更具有较高的预测精度。随着机器学习模型的不断研究与发展,已经有越来越多的研究利用机器学习模型估算近地面NO2浓度。2019年韩旭的硕士毕业论文《基于多源卫星数据产品的近地面NO2浓度遥感估算》中,综合OMI和GOME-2两颗卫星产品的数据,选用机器学习方法中的极限随机树模型和随机森林模型,用十折交叉验证方法对上述两种模型进行评价,最终选用极限随机树模型对近地面白天NO2浓度进行估算。
集成学习是一种机器学习方法,是将多种算法进行集成,最终通过某种一定的规则组成一个完整算法的过程。集成学习主要由基学习器组成,在数数据集中,通过不同的规则给基学习器进行训练数数据集的分配,让各个基学习器进行算法运算,再根据融合集成规则进行算法融合集成,也就是构成集成模型,来构成强学习器。目前,集成学习算法主要分为两大类型,即基于Boosting结构的集成学习算法和基于Bagging结构的集成学习算法。在Boosting结构中,常见的算法包括Adaboost、XGBoost、GBDT。在Bagging家族中代表的算法为随机森林算法。遗传算法是一种借鉴生物界自然选择和生物体遗传机制的随机搜索算法,进化算法不需要了解问题的全部特征,就可以通过体现进化机制的进化过程完成问题求解。目前,未见有将经遗传算法优化的集成学习模型应用于气体浓度估算中的报道。
发明内容
本发明的目的在于提供一种基于Stacking集成模型的近地面二氧化氮浓度估算方法,通过多种机器学习算法的结合,克服单个模型的缺陷,优化线性回归的输入,提升模型整体性能。
为实现上述目的,本发明采用以下技术方案:
本发明提供一种基于Stacking集成模型的近地面二氧化氮浓度估算方法,包括以下步骤:
S1,获取监测站点实际NO2浓度数据、气象监测数据、地理数据和人口数据;
S2,通过TROPOMI传感器获取NO2对流层柱浓度卫星遥感数据并进行验证;
S3,对站点实际监测NO2浓度数据和NO2对流层柱浓度卫星遥感数据进行数据清理;
S4,采用网格化方式对监测站点实际NO2浓度数据和NO2对流层柱浓度卫星遥感数据进行求均并与气象监测数据匹配,构建NO2数据集;
S5,基于NO2数据集进行建模,采用GA-RF、GA-GBRT和GA-XGBoost三种模型作为基学习器,岭回归作为元学习器进行融合得到Stacking集成模型;
S6,利用Stacking集成模型对近地面NO2浓度进行模拟估算,得到近地面NO2浓度。
优选地,所述气象监测数据包括以下参数:10米北风速、近地面2m露点温度、近地面2m温度、边界层高度、蒸发量、地面太阳净辐射、地面太阳辐射向下和地面热辐射向下。
优选地,所述地理数据包括经度和纬度。
优选地,所述步骤S3具体包括:对监测站点实际NO2浓度数据日监测数少于20次的数据进行剔除;对NO2对流层柱浓度卫星遥感数据中的低精度数据进行剔除。
优选地,所述低精度数据包括云辐射率小于0.3、太阳天顶角小于85、地表反射率小于0.3的数据。
优选地,步骤S4中所述NO2数据集中单个样本特征包含以下参数:NO2对流层柱浓度卫星遥感数据、经度、纬度、人口数据、10米北风速、近地面2m露点温度、近地面2m温度、边界层高度、蒸发量、地面太阳净辐射、地面太阳辐射向下和地面热辐射向下。
相比现有技术,本发明的有益效果在于:
本发明所用的估算模型经过遗传算法优化,将GA-RF、GA-GBRT和GA-XGBoost三种模型融合成Stacking模型,通过多种机器学习算法的结合,克服了单个模型的缺陷,优化线性回归的输入,提升模型整体性能;通过获得的区域尺度近地表NO2的浓度可以比较精准地指示NO2浓度的时空变化特征,弥补了地面监测站点少,分布不均匀的缺陷,该数据可对NO2暴露健康评估和NO2对陆地生态系统影响评估提供科学依据,也为制定大气环境保护策略提供科学依据。
附图说明
图1为本发明采用的107个站点分布图。
图2为河南省NO2对流层柱浓度卫星遥感数据与监测站点NO2浓度数据日均值的散点图。
图3为监测站点NO2浓度数据与NO2对流层柱浓度数据值的月均值对比图。
图4为本发明Stacking集成模型的构建过程示意图。
图5为河南省前100个测试样本估算结果与真实结果的对比图。
图6为河南省近地面NO2浓度日均估算值与站点监测值的空间分布对比图。
图7为同一地点的实际NO2浓度值与模型近估算NO2浓度值的散点图。
具体实施方式
以下实施例用于说明本发明,但不用来限定本发明的保护范围。若未特别指明,实施例中所用技术手段为本领域技术人员所熟知的常规手段。下述实施例中的试验方法,如无特别说明,均为常规方法。
实施例一
S1,获取监测站点实际NO2浓度数据、气象监测数据、地理数据和人口数据。
本发明监测站点实际NO2浓度数据来源于国家环境监测中心,采用国家环境监测中心2019年河南省107个站点的NO2质量浓度数据,站点分布如图1所示。环境监测点测得的NO2质量浓度以μg/m3表示,监测周期为1小时。卫星过境时间约为当地时间13:00,选取环境监测点13:00-14:00地面站观测数据的平均值作为日平均值。
本发明气象检测数据来源于欧洲中期天气预报中心(European Centre forMedium-Range Weather Forecasting,ECMWF)第五代再分析数据(ECMWF Reanalysis v5,ERA5)。ERA5首次利用由10个成员组成,时间分辨率为3h,空间分辨率为62km的集合再分析产品来评估大气的不确定性。这个新功能以ECMWF开发的数据同化集合(EDA)系统为基础,可以解释观测和预报模型中的误差,给用户在分析不同时间、地点的大气参数时带来更多的信心。再次,ERA5将更多的历史观测数据尤其是卫星数据利用到先进的数据同化和模式系统中,用以估计更为准确的大气状况。气象监测数据包括以下参数10米北风速、近地面2m露点温度、近地面2m温度、边界层高度、蒸发量、地面太阳净辐射、地面太阳辐射向下和地面热辐射向下。
S2,通过TROPOMI传感器获取NO2对流层柱浓度卫星遥感数据并进行验证。
本发明NO2对流层柱浓度卫星遥感数据来源于TROPOMI传感器。TROPOMI过赤道的时间为当地时间13:30前后,每日几乎全球覆盖。TROPOMI的UV-VIS(紫外-可见光)光谱范围为270~495nm。与2004发射且现仍在轨道上运行的OMI相比,TROPOMI可提供更精细分辨率的NO2探测能力。TROPOMI_NO2产品达到7×3.5km2,较OMI_NO2 13×24km2有了明显提升。而且TROPOMI_NO2产品数据是基于DOMINO-2产品算法以及OMI的EUQA4ECV NO2数据集的反演—同化—模型算法,经过进一步优化,并融合了全球三维、1°×1°经纬度分辨率化学传输模式TM5-MP,提升了以往传感器的2°×3°经纬度分辨率精度。本发明所用NO2对流层柱浓度卫星遥感数据(TROPOMI_NO2)在对流层排放监测网(http://www.temis.nl/)下载得到,版本为TM5-MP-DOMINO version1.2.x&1.3.x OFFLINE,ESRI grid格式,时间跨度为2019年1月~12月。
将2019年1~12月监测站点发布的河南省站点NO2质量浓度数据按月求平均值,同时提取了TROPOMI对流层NO2柱浓度数据月均值,比较两种产品的月均浓度。
图2示出了河南省NO2对流层柱浓度卫星遥感数据与监测站点NO2浓度数据日均值的散点图,相关系数r=0.67,说明TROPOMI传感器获取的对流层NO2对流层柱浓度与监测站点的近地面NO2质量浓度数据是显著相关的。
图3示出了监测站点NO2浓度数据与NO2对流层柱浓度数据值的月均值对比图。从图3可以看出,TROPOMI卫星数据反演的对流层NO2柱浓度月均值与监测站点的地面实测数据分布趋势基本相同,具有一致的季节性周期变化;该省1、12月浓度值达到最高,7、8月浓度值最低,冬季高夏季低。2月份浓度较1月份明显好转,这可能和春节期间河南污染排放的减少有关,禁放烟花爆竹、春节前后汽车使用少、工矿企业减少生产,都使空气质量得到改善。
通过监测站点与TROPOMI传感器的结果对比,得出两者数据相关性很高,可以利用TROPOMI传感器获取NO2对流层柱浓度卫星遥感数据来反映其他无站点监测区域的浓度污染情况。
S3,对站点实际监测NO2浓度数据和NO2对流层柱浓度卫星遥感数据进行数据清理。
由于气象监测数据是网格化分布的,且分辨率为0.25°×0.25°,而监测站点是散点分布,且每日TROPOMI获取的数据定位是不均匀的,所以匹配经纬度需要匹配同一像元下的国控站点数据与卫星监测数据,通过气象数据像元中心点以±0.125°做网格将包含在内的国控站点数据与卫星监测数据取均值,解决了不同经纬度下单个样本的采样。
获取的气象监测数据和卫星遥感数据以NC格式存储,监测站点实际监测NO2数据以txt格式存储。使用遥感开发语言IDL来读取NC文件,使用Java读取txt文件,将原始数据导入SQL Server中进行整理。
对原始数据中存在异常值或无效值进行剔除,具体为:对监测站点实际NO2浓度数据日监测数少于20次的数据进行剔除;对NO2对流层柱浓度卫星遥感数据中的低精度数据进行剔除,其中低精度数据包括云辐射率(CloudFraction)<0.3、太阳天顶角(SolarZenithAngle)<85、地表反射率(TerrainReflectivity)<0.3的数据。
S4,采用网格化方式对监测站点实际NO2浓度数据和NO2对流层柱浓度卫星遥感数据进行求均并与气象监测数据匹配,构建NO2数据集。
由于气象监测数据和监测站点实际监测NO2浓度数据的时间分辨率都是1小时,因此构建的数据集也是以小时为单位,以CSV文件格式进行存储。本实施例将构建的NO2数据集命名为NO2-Edata,得到的数据集包含17396个样本点,单个样本特征包含以下参数:TROPOMI_NO2、经度、纬度、人口数据、10米北风速、近地面2m露点温度、近地面2m温度、边界层高度、蒸发量、地面太阳净辐射、地面太阳辐射向下和地面热辐射向下、国控站点监测值。数据集中部分样本数据(日均平均数)如表1所示。
表1本实施例得到的NO2数据集中部分样本数据
S5,基于NO2数据集进行建模,采用GA-RF、GA-GBRT和GA-XGBoost三种模型作为基学习器,岭回归作为元学习器进行融合得到Stacking集成模型。
本发明中GA-RF模型为基于遗传算法优化的随机森林模型;GA-GBRT模型为基于遗传算法优化的迭代决策树模型;GA-XGBoost模型为基于遗传算法优化的分布式梯度增强树模型。Stacking集成模型的构建过程如图4所示。
S6,利用Stacking集成模型对近地面NO2浓度进行模拟估算,得到近地面NO2浓度。
详细的算法步骤如下:
1)将NO2-Edata训练集按3:1的比率划分为训练集train和测试集test,并对数据进行归一化处理,按照特征标签将训练集和测试集分为train_x、train_y、test_x和test_y。
2)选用GA-RF、GA-GBRT和GA-XGB作为第1层基模型,采用5折交叉验证来训练第1层基模型,对于每个基模型,将训练集train分为5份,对于每一份,用另外4份训练模型,然后根据这份数据的特征预测出这一份的结果train_p1,同时对测试集进行预测得到test_p1。
3)重复此步骤,直到每一份都预测出来,得到5份训练集预测值:train_p1、train_p2、train_p3、train_p4、train_p5和测试集预测值:test_p1、test_p2、test_p3、test_p4和test_p5。将5份训练集预测值结合起来得到完整的训练集预测值train_predict,将5份测试集预测值结合起来得到完整的测试集预测值test_predict。
4)将训练集预测值train_predict和标签值train_y作为训练数据输入到第2层岭回归模型,岭回归学习第一层模型3种算法输出结果与近地面NO2浓度之间的关系,生成回归模型用于后续估算。
5)将测试集预测值test_predict输入到第2层岭回归模型进行预测,得到最终近地面NO2估算结果,并将估算结果与测试集标签test_y进行对比计算其集成模型的估算性能。
图5示出了河南省前100个测试样本估算结果与真实结果的对比图。
根据时间跨度取春季(2019年3月1日)、夏季(2019年6月1日)、秋季(2019年9月1日)、冬季(2019年12月1日)的结果进行分析。为了方便观察结果,使用IDL将模型估算得出的数值数据转换成tif图,然后利用ArgGis作时空分布图,图6示出了河南省近地面NO2浓度日均估算值与站点监测值的空间分布对比图,估算时间分别为20190301(a1和b1)、20190601(a2和b2)、20190901(a3和b3)和20191201(a4和b4);a(1-4)为站点监测值(单位:μg/m3);b(1-4)为本发明估算值(单位:μg/m3、网格:0.25°×0.25°)。a(1-4)为国控站点监测值的空间分布图,监测设备原因每天的监测量不一致,显示值为日均值。b(1-4)是Stacking模型日均估算值的空间分布图,由于NO2-Edata数据集中的卫星数据在部分区域有缺失,所以估算结果也存在缺失。从图6可以看出,本发明估算结果与站点监测值有一致性,郑州、新乡和鹤壁等地NO2浓度偏高,信阳和南阳NO2浓度偏低。这是由于河南省以北地区工业基础雄厚、污染排放集中,因此NO2浓度高;信阳南阳多以山区,以农业为主,工业排放少,因此NO2浓度低。选取的结果分别是春夏秋冬的一天,具有代表性,可以看出冬季NO2浓度污染最高,春季次之,夏季和秋季NO2浓度污染最低。这是由于气象条件分析,冬季北方天气静稳、干燥寒冷降水量少、大气边界层较低等因素造成污染物无法扩散和稀释,易出现重污染天气过程。夏季温度升高、降水量充足、大气边界层较高等因素污染物容易扩散与稀释,所以污染物浓度较低。
在搭建完Stacking集成模型后,使用NO2-Edata测试集的样本数(4329个)进行估算评估。本发明采用常用的统计指标来衡量Stacking集成模型的预测性能,主要包括:决定系数(R-Square,R2)、平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root MeanSquare Error,RMSE)和平均绝对百分误差(Mean Absolute Percentage Error,MAPE)。图7为同一地点的实际NO2浓度值与模型近估算NO2浓度值的散点图。估算值与真实值决定系数R2高达0.80。计算得测试集样本平均绝对误差MAE为4.29,均方根误差RMSE为6.66,平均绝对百分比误差MAPE为27.55。
本发明Stacking集成模型与其他单一模型在NO2-Edata数据集上的训练效果对比,如表2所示。
表2 Stacking集成模型与其他单一模型在NO2-Edata数据集上的训练效果对比
由表2以看出,以上七种模型的验证结果的拟合斜率较为接近,处在0.70-0.80区间内,这表明七种模型的预测结果都存在低值高估和高值低估的现象。值得注意的是,相比于基学习器模型,Stacking模型表现出了更好的预测性能,并且有更高的斜率,说明低值高估和高值低估的现象相对不严重。Stacking模型的平均绝对误差(MAE)和均方根误差(RMSE)分别为4.29μg/m3和6.66μg/m3,要小于其他六种模型的MAE和RMSE,说明利用Stacking模型进行估算时,其估算值与国控站点的观测值之间的误差和偏差更小,可以认为Stacking模型的估算结果更加接近真值,回归模型表现更好的性能。此外,Stacking模型的平均绝对百分比误差(MAPE)为27.55%,也要小于其他六种模型,说明误差与国控站点的观测值之间的比例更小,同样说明Stacking模型的预测结果与真值之间的误差最小。
综上所述,本发明通过获得的区域尺度近地表NO2的浓度可以比较精准地指示NO2浓度的时空变化特征,弥补地面监测站点少,分布不均匀的缺陷,该数据可对NO2暴露健康评估和NO2对陆地生态系统影响评估提供科学依据,也为制定大气环境保护政策提供科学依据。
以上所述之实施例,只是本发明的较佳实施例而已,仅仅用以解释本发明,并非限制本发明实施范围,对于本技术领域的技术人员来说,当然可根据本说明书中所公开的技术内容,通过置换或改变的方式轻易做出其它的实施方式,故凡在本发明的原理上所作的变化和改进等,均应包括于本发明申请专利范围内。
Claims (6)
1.一种基于Stacking集成模型的近地面二氧化氮浓度估算方法,其特征在于,包括以下步骤:
S1,获取监测站点实际NO2浓度数据、气象监测数据、地理数据和人口数据;
S2,通过TROPOMI传感器获取NO2对流层柱浓度卫星遥感数据并进行验证;
S3,对站点实际监测NO2浓度数据和NO2对流层柱浓度卫星遥感数据进行数据清理;
S4,采用网格化方式对监测站点实际NO2浓度数据和NO2流层柱浓度卫星遥感数据进行求均并与气象监测数据匹配,构建NO2数据集;
S5,基于NO2数据集进行建模,采用GA-RF、GA-GBRT和GA-XGBoost三种模型作为基学习器,岭回归作为元学习器进行融合得到Stacking集成模型;
S6,利用Stacking集成模型对近地面NO2浓度进行模拟估算,得到近地面NO2浓度。
2.根据权利要求1所述的估算方法,其特征在于,所述气象监测数据包括以下参数:10米北风速、近地面2m露点温度、近地面2m温度、边界层高度、蒸发量、地面太阳净辐射、地面太阳辐射向下和地面热辐射向下。
3.根据权利要求1所述的估算方法,其特征在于,所述地理数据包括经度和纬度。
4.根据权利要求1所述的估算方法,其特征在于,所述步骤S3具体包括:对监测站点实际NO2浓度数据日监测数少于20次的数据进行剔除;对NO2对流层柱浓度卫星遥感数据中的低精度数据进行剔除。
5.根据权利要求4所述的估算方法,其特征在于,所述低精度数据包括云辐射率小于0.3、太阳天顶角小于85、地形反射率小于0.3的数据。
6.根据权利要求1所述的估算方法,其特征在于,步骤S4中所述NO2数据集中单个样本特征包含以下参数:NO2对流层柱浓度卫星遥感数据、经度、纬度、人口数据、10米北风速、近地面2m露点温度、近地面2m温度、边界层高度、蒸发量、地面太阳净辐射、地面太阳辐射向下和地面热辐射向下。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110338272.2A CN112884079A (zh) | 2021-03-30 | 2021-03-30 | 一种基于Stacking集成模型的近地面二氧化氮浓度估算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110338272.2A CN112884079A (zh) | 2021-03-30 | 2021-03-30 | 一种基于Stacking集成模型的近地面二氧化氮浓度估算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112884079A true CN112884079A (zh) | 2021-06-01 |
Family
ID=76039872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110338272.2A Pending CN112884079A (zh) | 2021-03-30 | 2021-03-30 | 一种基于Stacking集成模型的近地面二氧化氮浓度估算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112884079A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297528A (zh) * | 2021-06-10 | 2021-08-24 | 四川大学 | 一种基于多源大数据的no2高分辨率时空分布计算方法 |
CN113326660A (zh) * | 2021-06-17 | 2021-08-31 | 广西路桥工程集团有限公司 | 基于GA-XGBoost模型的隧道围岩挤压变形预测方法 |
CN113449476A (zh) * | 2021-07-08 | 2021-09-28 | 浙江大学 | 基于Stacking的脱丁烷塔中丁烷含量软测量方法 |
CN113761790A (zh) * | 2021-07-27 | 2021-12-07 | 河海大学 | 一种基于Stacking集成学习的果树叶片氮含量估算方法 |
CN114255392A (zh) * | 2021-12-21 | 2022-03-29 | 中国科学技术大学 | 基于卫星超光谱遥感和人工智能的二氧化氮浓度预测系统 |
CN114266200A (zh) * | 2022-02-24 | 2022-04-01 | 山东大学 | 二氧化氮浓度预测方法及系统 |
CN114463616A (zh) * | 2022-01-28 | 2022-05-10 | 国能大渡河流域水电开发有限公司 | 一种基于Stacking与EMOS-CSG的多源卫星降水融合方法 |
CN114611706A (zh) * | 2022-02-21 | 2022-06-10 | 河南大学 | 基于Stacking多模型融合设计的空气污染物缺失值补充方法 |
CN114757103A (zh) * | 2022-04-19 | 2022-07-15 | 河南大学 | 基于时空光梯度增强机的地表o3浓度估算方法 |
CN114878748A (zh) * | 2022-05-07 | 2022-08-09 | 国网四川省电力公司电力科学研究院 | 一种co2排放量的监测方法及监测系统 |
CN114898823A (zh) * | 2022-07-01 | 2022-08-12 | 北京英视睿达科技股份有限公司 | 一种高时空分辨率遥感近地面no2浓度预估方法和系统 |
CN115112586A (zh) * | 2022-07-01 | 2022-09-27 | 行星数据科技(苏州)有限公司 | 一种多源数据融合下的牧场甲烷排放量估算方法 |
CN115238327A (zh) * | 2022-05-25 | 2022-10-25 | 南京大学 | 基于卫星监测的三维空间甲烷分布格局模拟方法 |
CN115310550A (zh) * | 2022-08-16 | 2022-11-08 | 国网四川省电力公司电力科学研究院 | 一种大气二氧化碳干空气柱浓度计算方法及系统 |
CN115344997A (zh) * | 2022-07-11 | 2022-11-15 | 中国水利水电科学研究院 | 夏玉米植株叶片-冠层-像元尺度氮浓度协同预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921604A (zh) * | 2018-06-22 | 2018-11-30 | 华南理工大学 | 一种基于代价敏感分类器集成的广告点击率预测方法 |
CN109242021A (zh) * | 2018-09-07 | 2019-01-18 | 浙江财经大学 | 一种基于多阶段混合模型的分类预测方法 |
CN109567818A (zh) * | 2018-11-20 | 2019-04-05 | 苏州大学 | 基于血红蛋白信息的多种行走步态调整意图的识别方法 |
CN110988263A (zh) * | 2019-12-02 | 2020-04-10 | 中国科学技术大学 | 一种基于改进的Stacking模型的车辆尾气浓度估计方法 |
CN111901330A (zh) * | 2020-07-24 | 2020-11-06 | 中移(杭州)信息技术有限公司 | 集成学习模型构建方法、识别方法及装置、服务器和介质 |
CN112257868A (zh) * | 2020-09-25 | 2021-01-22 | 建信金融科技有限责任公司 | 构建和训练用于预测客流量的集成预测模型的方法及装置 |
-
2021
- 2021-03-30 CN CN202110338272.2A patent/CN112884079A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921604A (zh) * | 2018-06-22 | 2018-11-30 | 华南理工大学 | 一种基于代价敏感分类器集成的广告点击率预测方法 |
CN109242021A (zh) * | 2018-09-07 | 2019-01-18 | 浙江财经大学 | 一种基于多阶段混合模型的分类预测方法 |
CN109567818A (zh) * | 2018-11-20 | 2019-04-05 | 苏州大学 | 基于血红蛋白信息的多种行走步态调整意图的识别方法 |
CN110988263A (zh) * | 2019-12-02 | 2020-04-10 | 中国科学技术大学 | 一种基于改进的Stacking模型的车辆尾气浓度估计方法 |
CN111901330A (zh) * | 2020-07-24 | 2020-11-06 | 中移(杭州)信息技术有限公司 | 集成学习模型构建方法、识别方法及装置、服务器和介质 |
CN112257868A (zh) * | 2020-09-25 | 2021-01-22 | 建信金融科技有限责任公司 | 构建和训练用于预测客流量的集成预测模型的方法及装置 |
Non-Patent Citations (5)
Title |
---|
李一蜚: "基于梯度提升回归树的中国近地面O3浓度遥感估算", 《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》, vol. 2021, no. 1 * |
赵滨 等: "基于Stacking的地面PM2.5浓度估算", vol. 38, no. 2, pages 154 - 157 * |
韩旭,: "基于多源卫星数据产品的近地面NO2浓度遥感估算", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅰ辑》, vol. 2019, no. 11, 15 November 2019 (2019-11-15), pages 27 - 30 * |
韩旭: "基于多源卫星数据产品的近地面NO2浓度遥感估算", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅰ辑》, vol. 2019, no. 11 * |
饶兰兰: "基于时空地理加权回归模型估算近地面NO2浓度", 《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》, vol. 2018, no. 3 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297528B (zh) * | 2021-06-10 | 2022-07-01 | 四川大学 | 一种基于多源大数据的no2高分辨率时空分布计算方法 |
CN113297528A (zh) * | 2021-06-10 | 2021-08-24 | 四川大学 | 一种基于多源大数据的no2高分辨率时空分布计算方法 |
CN113326660B (zh) * | 2021-06-17 | 2022-11-29 | 广西路桥工程集团有限公司 | 基于GA-XGBoost模型的隧道围岩挤压变形预测方法 |
CN113326660A (zh) * | 2021-06-17 | 2021-08-31 | 广西路桥工程集团有限公司 | 基于GA-XGBoost模型的隧道围岩挤压变形预测方法 |
CN113449476A (zh) * | 2021-07-08 | 2021-09-28 | 浙江大学 | 基于Stacking的脱丁烷塔中丁烷含量软测量方法 |
CN113761790A (zh) * | 2021-07-27 | 2021-12-07 | 河海大学 | 一种基于Stacking集成学习的果树叶片氮含量估算方法 |
CN113761790B (zh) * | 2021-07-27 | 2024-04-23 | 河海大学 | 一种基于Stacking集成学习的果树叶片氮含量估算方法 |
CN114255392A (zh) * | 2021-12-21 | 2022-03-29 | 中国科学技术大学 | 基于卫星超光谱遥感和人工智能的二氧化氮浓度预测系统 |
CN114463616A (zh) * | 2022-01-28 | 2022-05-10 | 国能大渡河流域水电开发有限公司 | 一种基于Stacking与EMOS-CSG的多源卫星降水融合方法 |
CN114463616B (zh) * | 2022-01-28 | 2024-04-12 | 国能大渡河流域水电开发有限公司 | 一种基于Stacking与EMOS-CSG的多源卫星降水融合方法 |
CN114611706B (zh) * | 2022-02-21 | 2023-04-25 | 河南大学 | 基于Stacking多模型融合设计的空气污染物缺失值补充方法 |
CN114611706A (zh) * | 2022-02-21 | 2022-06-10 | 河南大学 | 基于Stacking多模型融合设计的空气污染物缺失值补充方法 |
CN114266200A (zh) * | 2022-02-24 | 2022-04-01 | 山东大学 | 二氧化氮浓度预测方法及系统 |
CN114757103A (zh) * | 2022-04-19 | 2022-07-15 | 河南大学 | 基于时空光梯度增强机的地表o3浓度估算方法 |
CN114878748A (zh) * | 2022-05-07 | 2022-08-09 | 国网四川省电力公司电力科学研究院 | 一种co2排放量的监测方法及监测系统 |
CN115238327A (zh) * | 2022-05-25 | 2022-10-25 | 南京大学 | 基于卫星监测的三维空间甲烷分布格局模拟方法 |
CN115238327B (zh) * | 2022-05-25 | 2023-05-23 | 南京大学 | 基于卫星监测的三维空间甲烷分布格局模拟方法 |
CN114898823A (zh) * | 2022-07-01 | 2022-08-12 | 北京英视睿达科技股份有限公司 | 一种高时空分辨率遥感近地面no2浓度预估方法和系统 |
CN114898823B (zh) * | 2022-07-01 | 2022-10-14 | 北京英视睿达科技股份有限公司 | 一种高时空分辨率遥感近地面no2浓度预估方法和系统 |
CN115112586A (zh) * | 2022-07-01 | 2022-09-27 | 行星数据科技(苏州)有限公司 | 一种多源数据融合下的牧场甲烷排放量估算方法 |
CN115112586B (zh) * | 2022-07-01 | 2024-06-07 | 行星数据科技(苏州)有限公司 | 一种多源数据融合下的牧场甲烷排放量估算方法 |
CN115344997A (zh) * | 2022-07-11 | 2022-11-15 | 中国水利水电科学研究院 | 夏玉米植株叶片-冠层-像元尺度氮浓度协同预测方法 |
CN115344997B (zh) * | 2022-07-11 | 2024-05-31 | 中国水利水电科学研究院 | 夏玉米植株叶片-冠层-像元尺度氮浓度协同预测方法 |
CN115310550A (zh) * | 2022-08-16 | 2022-11-08 | 国网四川省电力公司电力科学研究院 | 一种大气二氧化碳干空气柱浓度计算方法及系统 |
CN115310550B (zh) * | 2022-08-16 | 2023-07-14 | 国网四川省电力公司电力科学研究院 | 一种大气二氧化碳干空气柱浓度计算方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112884079A (zh) | 一种基于Stacking集成模型的近地面二氧化氮浓度估算方法 | |
CN113297528B (zh) | 一种基于多源大数据的no2高分辨率时空分布计算方法 | |
CN112905560B (zh) | 一种多源时空大数据深度融合的空气污染预测方法 | |
Carmichael et al. | The MICS-Asia study: model intercomparison of long-range transport and sulfur deposition in East Asia | |
Buchard et al. | Evaluation of the surface PM2. 5 in Version 1 of the NASA MERRA Aerosol Reanalysis over the United States | |
Li et al. | Spatiotemporal estimation of satellite-borne and ground-level NO2 using full residual deep networks | |
Chen et al. | Ensemble and enhanced PM10 concentration forecast model based on stepwise regression and wavelet analysis | |
Qin et al. | Satellite-based estimation of surface NO2 concentrations over east-central China: A comparison of POMINO and OMNO2d data | |
Nowlan et al. | Global dry deposition of nitrogen dioxide and sulfur dioxide inferred from space‐based measurements | |
Koukouli et al. | Updated SO 2 emission estimates over China using OMI/Aura observations | |
Liu et al. | Estimation of monthly bulk nitrate deposition in China based on satellite NO2 measurement by the Ozone Monitoring Instrument | |
Kong et al. | High-resolution (0.05× 0.05) NO x emissions in the Yangtze River Delta inferred from OMI | |
Ma et al. | Statistical spatial-temporal modeling of ambient ozone exposure for environmental epidemiology studies: A review | |
Bagheri | A machine learning-based framework for high resolution mapping of PM2. 5 in Tehran, Iran, using MAIAC AOD data | |
Theys et al. | A global stratospheric bromine monoxide climatology based on the BASCOE chemical transport model | |
Dou et al. | Estimates of daily ground-level NO2 concentrations in China based on Random Forest model integrated K-means | |
Guo et al. | Spatial distributions and temporal variations of atmospheric aerosols and the affecting factors: a case study for a region in central China | |
Long et al. | Estimating daily ground-level NO2 concentrations over China based on TROPOMI observations and machine learning approach | |
Liu et al. | Quantifying PM2. 5 mass concentration and particle radius using satellite data and an optical-mass conversion algorithm | |
Tuna Tuygun et al. | Estimation of particulate matter concentrations in Türkiye using a random forest model based on satellite AOD retrievals | |
Fan et al. | Data integration for ML-CNPM 2.5: A public sample dataset based on machine learning models and remote sensing technology applied for estimating ground-level PM 2.5 in China | |
Li et al. | Combing GOME-2B and OMI Satellite Data to Estimate Near-Surface NO 2 of Mainland China | |
CN117219183A (zh) | 多云雨地区的高覆盖度近地面no2浓度估算方法及系统 | |
He et al. | Seamless reconstruction and spatiotemporal analysis of satellite-based XCO2 incorporating temporal characteristics: A case study in China during 2015–2020 | |
Huang et al. | PM2. 5 concentration estimation with 1-km resolution at high coverage over urban agglomerations in China using the BPNN-KED approach and potential application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210601 |
|
RJ01 | Rejection of invention patent application after publication |