CN116223395A - 近地表痕量气体浓度反演模型及反演方法 - Google Patents

近地表痕量气体浓度反演模型及反演方法 Download PDF

Info

Publication number
CN116223395A
CN116223395A CN202211545701.4A CN202211545701A CN116223395A CN 116223395 A CN116223395 A CN 116223395A CN 202211545701 A CN202211545701 A CN 202211545701A CN 116223395 A CN116223395 A CN 116223395A
Authority
CN
China
Prior art keywords
data
model
trace gas
monitoring
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211545701.4A
Other languages
English (en)
Inventor
吝路军
刘静
杨震
刘慧娟
董思源
王政伟
韩勇
秦杰英
杨静静
韦云鹏
李玟
吕婧
曹磊
高飞
张霖琳
张淳
陈静
李毅辉
葛毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Province Environmental Monitoring Center Station
Zhongyao Environment Xi'an Co ltd
Original Assignee
Shaanxi Province Environmental Monitoring Center Station
Zhongyao Environment Xi'an Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Province Environmental Monitoring Center Station, Zhongyao Environment Xi'an Co ltd filed Critical Shaanxi Province Environmental Monitoring Center Station
Publication of CN116223395A publication Critical patent/CN116223395A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/02Instruments for indicating weather conditions by measuring two or more variables, e.g. humidity, pressure, temperature, cloud cover or wind speed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N2021/1793Remote sensing
    • G01N2021/1795Atmospheric mapping of gases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Environmental Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Atmospheric Sciences (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Ecology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

一种近地表痕量气体浓度反演模型及基于该模型反演地表痕量气体浓度的方法,反演模型基于遥感数据与站点数据建立反演模型。通过如下步骤建立反演模型,S1,收集地表监测数据、遥感数据、气象数据和其他数据;S2,对步骤S1收集的数据进行预处理,得到预处理后的初始建模数据;S3,对初始建模数据进行特征筛选,得到建模数据集;S4,根据建模数据集搭建模型。反演模型建立后,可通过该模型反演地表痕量气体浓度。本发明结合人工智能与大数据挖掘与技术,建立遥感监测的痕量气体总柱浓度与地面站点监测的痕量气体质量浓度的反演模型,能够准确、高效地反演近地表痕量气体的时空分布特征,支撑大气污染物防治工作的精准实施。

Description

近地表痕量气体浓度反演模型及反演方法
技术领域
本发明涉及气象信息技术领域,特别是涉及一种近地表痕量气体浓度反演模型及通过该模型反演近地表痕量气体浓度分布的方法。
背景技术
痕量气体包括O3、NO2、SO2、CO。目前痕量气体的监测手段主要为地面监测和遥感监测。其中地面监测主要有地面监测站点的自动监测、手动取样监测和走航监测,优点是监测的时间频率和精度均较高,缺点是地面监测站点分布不均匀,监测结果覆盖范围小,只能满足监测站点周围区域,建设和维护成本高,无法满足区域化大尺度痕量气体浓度实时且准确监控的需求。遥感监测能周期性、重复地从空中乃至宇宙空间对大范围区域进行对地观测,解决了地面站点覆盖范围小的缺点,但目前的遥感技术针对痕量气体只能提供不同垂直范围内的总柱浓度、对流层柱浓度或痕量气体剖面产品,针对颗粒物只能提供气溶胶光学厚度产品,不能提供近地表痕量气体的浓度。
因此,针对现有技术不足,提供一种能准确、高效地反演近地表痕量气体的时空分布特征的近地表痕量气体浓度反演模型及通过该模型反演近地表痕量气体浓度分布的方法以克服现有技术不足甚为必要。
发明内容
本发明的目的在于避免现有技术的不足之处而提供一种近地表痕量气体浓度反演模型及通过该模型反演近地表痕量气体浓度分布的方法,能够准确、高效地反演近地表痕量气体的时空分布特征特别是浓度特征。
本发明的目的通过以下技术措施实现。
提供一种近地表痕量气体浓度反演模型,基于遥感数据与站点数据建立反演模型。结合人工智能与大数据挖掘技术,建立遥感监测的痕量气体总柱浓度(以下简称“遥感数据”)与地面站点监测的痕量气体质量浓度(以下简称“站点数据”)的回归模型(反演模型),准确、高效地反演近地表痕量气体的时空分布特征,支撑大气污染物防治工作的精准实施。
优选的,上述近地表痕量气体浓度反演模型,基于遥感数据与站点数据建立反演模型,具体通过如下步骤建立:
S1,收集地表监测数据、遥感数据、气象数据和地理-人口数据;S2,对步骤S1收集的数据进行预处理,得到预处理后的初始建模数据;S3,对初始建模数据进行特征筛选,得到建模数据集;S4,根据建模数据集搭建模型。
优选的,S1中,收集地表监测数据具体是:从地方省级环境监测中心站获取地表痕量气体浓度数据,包括痕量气体的小时值、8小时均值和24小时均值,痕量气体使用13:00和14:00的算术平均值,数据中包含了监测站点的经度、纬度和日期。
收集遥感数据具体是:痕量气体遥感数据使用的是哨兵5P的L2级总柱浓度产品数据,哨兵5P卫星过境时间为13:00-14:00之间,搭载的传感器“TROPOMI”是迄今为止技术性能先进、空间分辨率最高的大气监测光谱仪,时间分辨率为1天,空间分辨率为7km×3.5km。遥感数据从Google Earth Engine(GEE)平台上下载。
收集气象数据具体是:气象数据从省级气象局获取,气象条件监测站点密集且分布比较均匀,气象类型包括平均温度(TEM_Avg,℃)、最大温度(TEM_Max,℃)、最小温度(TEM_Min,℃)、平均相对湿度(RHU,%)、8:00-8:00累积降雨量(PRE08,mm)、20:00-20:00累积降雨量(PRE20,mm)、2分钟平均风速(WIN,m/s)、蒸发量(EVP,mm)、日照时数(SSH,h),全部为日均值数据。
收集地理-人口数据具体是收集数字高程模型(DEM)、地表覆盖类型数据(GLC)和人口密度数据(PopDen),其中数字高程模型(DEM)空间分辨率为30m×30m,地表覆盖类型数据(GLC或者LU)空间分辨率为30m×30m,人口密度数据(PopDen)空间分辨率0.09°×0.09°。
优选的,上述的近地表痕量气体浓度反演模型,S2对步骤S1收集的数据进行预处理的具体过程是:
S21,数据提取
首先从空气质量监测的原始文件中提取近三年目标城市群所有空气质量监测站点的痕量气体13:00-14:00的监测结果,删除缺失值后,将每天13:00和14:00的监测结果求算术平均值,作为地面监测结果,得到痕量气体监测数据集;提取过程中同时包含监测站点的经度、纬度和监测日值,根据监测站点的经度和纬度信息转化为WGS-84坐标系下的点矢量文件,简称“痕量气体点矢量”,用于提取对应监测站点的遥感-气象-地理-人口密度数据等。
其次,将GEE下载的遥感数据重投影至WGS84坐标系,使用最近邻采样方法重采样至1km×1km的分辨率,使用痕量气体点矢量提取对应点位的遥感数据,得到遥感数据集。
再次,从气象数据原始文件中提取近三年所有监测站点的日均值监测结果,包含气象监测站点的经纬度和日期,剔除所有缺失值,依次按照日期和气象数据字段信息,按照经纬度和监测结果将各个气象字段的监测数据转化为WGS-84坐标系下的点矢量文件,然后按照反距离权重插值方法插值到1km×1km分辨率,进一步矢量转栅格后形成栅格文件,栅格文件的像元值就是气象字段的日均值监测结果,最后使用痕量气体点矢量提取对每天各字段对应位置的气象结果,得到气象数据集。
最后,DEM、GLC、PopDen均为栅格文件,其中DEM和GLC分辨率为30m×30m,PopDen分辨率为900m×900m,使用最近邻采样方法重采样至1km×1km,重投影至WGS-84坐标系下,使用痕量气体矢量提取像元值,得到辅助数据集(或称为地理-人口数据集)。
S22,数据结合
数据提取阶段共提取了4个数据集,分别为痕量气体的监测数据集、遥感数据集、气象数据集、辅助数据集,四份数据集中均包含有经度、纬度和日期,按照这三个字段将四份数据结合成为最终的数据集,简称“原始数据集”,进一步将原始数据集中的日期转化为每年的第几天,Day Of Year(DOY),原始数据集中痕量气体的监测结果为标签,其余全部为特征。
S23.异常值剔除
对原始数据集进行异常值检查,检查异常值的方法是绘制箱型图,将含有异常值的样本全部删除;此外,根据先验知识将包含气象数据异常值(如WIN>50m/s,TEM_Avg>40℃,SSH>14h等)的样本剔除,即删除极端天气的影响。
优选的,上述的近地表痕量气体浓度反演模型,S3中对初始建模数据进行特征筛选,特征筛选的目的是在不减小原始数据集中携带信息的前提下,进一步简化数据集,简化后的数据集建模既能保证模型的精度,也降低了模型的复杂度,适用性更强,反演结果更加准确。
特征筛选具体包括:
S31.绘制散点图研究相关关系
通过绘制散点图的方式,研究数据集中各特征变量与标签之间的相关关系,并将含有极端天气样本对应到的特征删除;
S32.统计person相关系数和p_value
通过统计标签与特征之间的person相关系数,将person相关系数为0.00的特征删除;进一步计算p_value值,将p_value>0.01的变量删除;
S33.机器学习筛选特征
将经过步骤S31、S32筛选后的数据集带入随机森林模型,使用该模型的内建函数“feature.importance”计算特征重要性,排序后按照特征重要性得分由小到大排序,依次删除得分较小的特征,查看建模精度变化(选择统计指标决定系数R2或者均方根误差RMSE评估模型),直到模型精度发生较大变化时停止删除特征,得到建模数据集,简称“数据集”。优选的,上述近地表痕量气体浓度反演模型,S4搭建模型建模使用的机器学习算法为eXtreme Gradient Boosting(XGBoost),是以决策树为基学习器构建的集成算法,基学习器为Classification And Regression Tree(CART)决策树,使用XGBoost反演近地表痕量气体浓度建立回归模型,模型搭建过程使用的标签为痕量气体的监测浓度,特征为数据集中除痕量气体浓度之外的其他特征;
模型建立后,进入参数调节步骤,参数调节具体通过如下过程进行:
首先,把数据集划分两份,一份是训练集,占总数据量的70%,用来调整模型的超参数,一份是测试集,占总数据量的30%,用来测试模型的泛化能力;
其次,绘制回归模型指标变化的学习曲线,循坏调节每个超参数,选取超参数相对适宜的数值;
最后,对每个超参数选择一个数值范围,使用XGBoost库中的网格搜索的方法,选择超参数之间的最佳搭配方案。
进一步的,上述的近地表痕量气体浓度反演模型,S4搭建模型的具体过程是:
S4.1模型环境搭建
利用python3.8平台,安装1.4.2版本的xgboost、0.24.2版本的scikit-learn、1.21.3版本的Numpy、1.3.4版本的Pandas和3.43版本的matplotlib库包,使用Numpy和Pandas两个库包进行数据预处理,从xgboost库包中调用XGBoost算法搭建模型,从scikit-learn库包中调用train_test_split函数划分数据集,调用r2_score和mean_squared_error函数计算评估指标R2和MSE,使用matplotlib绘制R2和MSE的学习曲线,调用GridSearchCV类进行网格搜索,确定最佳参数组合;
S4.2超参数调节
对xgboost算法中的超参数进行调整,需要进行调节的超参数包括:n_estimators、max_depth、gamma、reg_alpha、reg_lambda、random_state、learning_rate、colsample_bylevel、subsample、colsample_bytree、colsample_bynode、min_child_weight;n_estimators、max_depth、gamma、reg_alpha、reg_lambda、random_state六个超参数取默认值,对learning_rate、colsample_bylevel、subsample、colsample_bytree、colsample_bynode、min_child_weight超参数单独进行训练;对任意一个超参数进行训练的方法是:确定超参数的取值范围,然后对每个取值绘制R2和MSE点,所有取值点相连组成学习曲线,根据评估指标R2和MSE的值,确定超参数的优选取值;超参数的优选取值条件是:当超参数取值大于优选取值之后,R2变大和MSE变小的速率在减小;
S4.3网格搜索参数调节
对S4.2中获取的每个超参数赋一个取值区间,将所有超参数的取值区间输入网格搜索中,确定超参数的最佳组合。
优选的,上述的近地表痕量气体浓度反演模型,为了防止模型过拟合,使用XGBoost库中的十折交叉验证的方法做模型评估优化模型,防止模型过拟合,提升模型的泛化能力。十折是指训练集和验证集随机的分成十份,轮流将其中9份作为训练数据,1份作为测试数据,总共开展十次,用十次结果的平均值来评估模型精度。
作为一种优选方式,近地表痕量气体浓度反演模型,痕量气体O3模型中,超参数取值为n_estimators=300,earning_rate=0.06,max_depth=10,gamma=9,colsample_bylevel=0.65,subsample=0.74,colsample_bytree=0.7,random_state=420,reg_alpha=18,reg_lambda=0.9,colsample_bynode=0.7,min_child_weight=5,其余参数可取默认值。
作为另一种优选方式,近地表痕量气体浓度反演模型,痕量气体NO2模型中,超参数取值为n_estimators=390,earning_rate=0.11,max_depth=11,colsample_bylevel=0.33,colsample_bytree=0.22,random_state=0,reg_alpha=80,colsample_bynode=0.7,min_child_weight=5,其余参数可取默认值。
本发明基于上述近地表痕量气体浓度反演模型反演近地表痕量气体浓度的方法,通过如下步骤进行:
S1,数据准备
准备拟反演日期和范围的遥感数据、气象数据和地理-人口密度数据,处理方法与建模时的数据预处理方法一致,处理结果为栅格数据,分辨率为1km×1km,坐标系为WGS-84坐标系;
S2,处理栅格行列数
使用拟反演范围的四至坐标分别裁剪遥感、气象、地理-人口密度的栅格文件,按照遥感数据的行列号,使用最近邻法对气象、地理-人口密度栅格文件重采样,使得遥感、气象、地理-人口密度栅格数据具有相同的行列号;
S3,提取数据
按照行列数依次提取遥感、气象、地理-人口密度的像元值,每一个像元的遥感、气象、地理-人口密度数据组成一个样本,提取完所有特征之后,对遥感数据的缺失值按照周围10个像元的平均值进行填补;
S4,反演痕量气体浓度
将提取的样本数据导入已建立的近地表痕量气体浓度反演模型中,得到每个样本对应的痕量气体浓度,根据遥感数据的行列数、坐标系和仿射变换系数将痕量气体浓度处理成栅格文件,每一个像元即是反演的痕量气体浓度。
本发明的近地表痕量气体浓度反演模型及基于该反演模型反演近地表痕量气体浓度的方法,模型结合人工智能与大数据挖掘技术,建立了遥感监测的痕量气体总柱浓度(以下简称“遥感数据”)与地面站点监测的痕量气体质量浓度(以下简称“站点数据”)的(反演模型),能够准确、高效地反演近地表痕量气体的时空分布特征。反演模型从数据的角度出发,研究大空间范围长时间序列中,不同的气象条件、地理因素、人口密度等条件下,痕量气体的遥感监测数据与地面监测站点数据的相关关系以及气象-地理-人口因素对相关关系的影响特征。利用先验知识和数理统计方法,筛选对相关关系有影响的气象-地理-人口特征(影响因子),利用数据挖掘能力强大的机器学习算法,建立痕量气体地面监测数据与遥感-气象-地理-人口数据之间的模型,采用参数调节、网格搜索和交叉验证等手段进一步优化反演模型。基于反演模型,结合不同时间大范围覆盖的遥感-气象-地理-人口数据,反演近地表痕量气体的时空分布。
说明书附图
图1是本发明实施例5中的O3与其他特征之间的相关关系散点图。
图2是O3与其它特征之间的相关系数矩阵。
图3是臭氧模型训练集散点密度图。
图4是臭氧模型训练集空间分布特征。
图5是各城市训练集监测的O3浓度月均值和预测的O3月均值浓度。
图6是臭氧模型验证集散点密度图。
图7是臭氧模型各项评价指标的空间分布特征图,其中图7a为样本量;图7b为均方根误差;图7c为为决定系数;
图7d为平均绝对误差。
图8是2021年6月26日关中城市群模型反演O3的空间分布特征。
图9是2021年6月26日关中城市群监测站点O3浓度空间分布。
图10是2021年6月26日关中城市群模型反演O3浓度空间分布。
图11是本发明实施例6中的二氧化氮模型训练集散点密度图。
图12是二氧化氮模型验证集散点密度图。
图13是二氧化氮模型各项评价指标的空间分布特征,其中图13a为样本量;图13b为均方根误差;图13c为为决定系数;图13d为平均绝对误差。
图14是2021年6月24日关中城市群模型反演NO2的空间分布特征。
图15是2021年6月25日关中城市群模型反演NO2的空间分布特征。
图16是2021年6月26日关中城市群模型反演NO2的空间分布特征。
具体实施方式
实施例1。
一种近地表痕量气体浓度反演模型,基于遥感数据与站点数据建立反演模型。结合人工智能与大数据挖掘与技术,建立遥感监测的痕量气体总柱浓度(以下简称“遥感数据”)与地面站点监测的痕量气体质量浓度(以下简称“站点数据”)的回归模型(反演模型),准确、高效地反演近地表痕量气体的时空分布特征,支撑大气污染物防治工作的精准实施。
具体的,该近地表痕量气体浓度反演模型,通过如下步骤建立:
S1,收集地表监测数据、遥感数据、气象数据和地理-人口数据;S2,对步骤S1收集的数据进行预处理,得到预处理后的初始建模数据;S3,对初始建模数据进行特征筛选,得到建模数据集;S4,根据建模数据集搭建模型。
其中,S1收集地表监测数据具体是:从地方省级环境监测中心站(如陕西省环境监测站、山西省环境监测站等,具体可以根据需要判断的地理位置选择)获取地表痕量气体浓度数据,包括痕量气体的小时值、8小时均值和24小时均值,痕量气体使用13:00和14:00的算术平均值,数据中包含了监测站点的经度、纬度和日期。
收集遥感数据具体是:痕量气体遥感数据使用的是哨兵5P的L2级总柱浓度产品数据,哨兵5P卫星过境时间为13:00-14:00之间,搭载的传感器“TROPOMI”是迄今为止技术性能先进、空间分辨率最高的大气监测光谱仪,时间分辨率为1天,空间分辨率为7km×3.5km。遥感数据从Google Earth Engine(GEE)平台上下载。
收集气象数据具体是:气象数据从省级气象局(如陕西省气象局、河北省气象局,具体跟进需要的地理区域选择)获取,气象条件监测站点密集且分布比较均匀,气象类型包括平均温度(TEM_Avg,℃)、最大温度(TEM_Max,℃)、最小温度(TEM_Min,℃)、平均相对湿度(RHU,%)、8:00-8:00累积降雨量(PRE08,mm)、20:00-20:00累积降雨量(PRE20,mm)、2分钟平均风速(WIN,m/s)、蒸发量(EVP,mm)、日照时数(SSH,h),全部为日均值数据。
收集地理-人口数据具体是收集数字高程模型(DEM)、地表覆盖类型数据(GLC)和人口密度数据(PopDen),其中数字高程模型(DEM)空间分辨率为30m×30m,地表覆盖类型数据(GLC或者LU)空间分辨率为30m×30m,人口密度数据(PopDen)空间分辨率0.09°×0.09°。
痕量气体具有空间和时间上异质性,将日期数据转化为每年的第几天(DOY),匹配时间异质性,用监测站点的经纬度(Lon/Lat)匹配空间异质性。
S2对步骤S1收集的数据进行预处理的具体过程是:
S21,数据提取
首先从空气质量监测的原始文件中提取近三年(如2018年-2020年)目标城市群所有空气质量监测站点的痕量气体13:00-14:00的监测结果,删除缺失值后,将每天13:00和14:00的监测结果求算术平均值,作为地面监测结果,得到痕量气体监测数据集;提取过程中同时包含监测站点的经度、纬度和监测日值,根据监测站点的经度和纬度信息转化为WGS-84坐标系下的点矢量文件,简称“痕量气体点矢量”,用于提取对应监测站点的遥感-气象-地理-人口密度数据等。
其次,将GEE下载的遥感数据重投影至WGS84坐标系,使用最近邻采样方法重采样至1km×1km的分辨率,使用痕量气体点矢量提取对应点位的遥感数据,得到遥感数据集。最近邻采样方法具体方式是:利用GEE(Google Earth Engine)平台,调用ImageCollection函数获取哨兵5p遥感offline产品数据集,通过select函数筛选L3_O3和L3_NO2遥感产品,并通过filterBounds函数和filterDate函数依次筛选数据范围和时间,对筛选结果采用最近邻采样方法重采样至1km×1km,继续调用resample函数进行重采样,resample函数使用参数为mode=bilinear。
再次,从气象数据原始文件中提取近三年所有监测站点的日均值监测结果,包含气象监测站点的经纬度和日期,剔除所有缺失值,依次按照日期和气象数据字段信息,按照经纬度和监测结果将各个气象字段的监测数据转化为WGS-84坐标系下的点矢量文件,然后按照反距离权重插值方法插值到1km×1km分辨率,进一步矢量转栅格后形成栅格文件,栅格文件的像元值就是气象字段的日均值监测结果,最后使用痕量气体点矢量提取对每天各字段对应位置的气象结果,得到气象数据集。反距离插值法具体是:利用python3.8平台,安装3.3.3版本的GDAL库包,调用gdal.grid()函数进行反距离插值,插值算法的参数全部使用算法的默认参数。使用的参数为power=3.6,smoothing=0,radius1=0,radius2=0,angle=0,max_points=3.6,min_points=0,nodata=0。
最后,DEM、GLC、PopDen均为栅格文件,其中DEM和GLC分辨率为30m×30m,PopDen分辨率为900m×900m,使用最近邻采样方法重采样至1km×1km,重投影至WGS-84坐标系下,使用痕量气体矢量提取像元值,得到辅助数据集(或称为地理-人口数据集)。
S22,数据结合
数据提取阶段共提取了4个数据集,分别为痕量气体的监测数据集、遥感数据集、气象数据集、辅助数据集,四份数据集中均包含有经度、纬度和日期,按照这三个字段将四份数据结合成为最终的数据集,简称“原始数据集”,进一步将原始数据集中的日期转化为每年的第几天,Day Of Year(DOY),原始数据集中痕量气体的监测结果为标签,其余全部为特征。
S23.异常值剔除
对原始数据集进行异常值检查,检查异常值的方法是绘制箱型图,将含有异常值的样本全部删除;此外,根据先验知识将包含气象数据异常值(如WIN>50m/s,TEM_Avg>40℃,SSH>14h等)的样本剔除,即删除极端天气的影响。
S3中对初始建模数据进行特征筛选,特征筛选的目的是在不减小原始数据集中携带信息的前提下,进一步简化数据集,简化后的数据集建模既能保证模型的精度,也降低了模型的复杂度,适用性更强,反演结果更加准确。
特征筛选具体包括:
S31.绘制散点图研究相关关系
通过绘制散点图的方式,研究数据集中各特征变量与标签之间的相关关系,并将含有极端天气样本对应到的特征删除;
S32.统计person相关系数和p_value
通过统计标签与特征之间的person相关系数,将person相关系数为0.00的特征删除;进一步计算p_value值,将p_value>0.01的变量删除;
S33.机器学习筛选特征
将经过步骤S31、S32筛选后的数据集带入随机森林模型,使用该模型的内建函数“feature.importance”计算特征重要性,排序后按照特征重要性得分由小到大排序,依次删除得分较小的特征,查看建模精度变化(选择统计指标决定系数R2或者均方根误差RMSE评估模型),直到模型精度发生较大变化时停止删除特征,得到建模数据集,简称“数据集”。
该近地表痕量气体浓度反演模型,S4搭建模型建模使用的机器学习算法为eXtreme Gradient Boosting(XGBoost),是以决策树为基学习器构建的集成算法,基学习器为Classification And Regression Tree(CART)决策树,使用XGBoost反演近地表痕量气体浓度建立回归模型,模型搭建过程使用的标签为痕量气体的监测浓度,特征为数据集中除痕量气体浓度之外的其他特征。
模型建立后,进入参数调节步骤,参数调节具体通过如下过程进行:
首先,把数据集划分两份,一份是训练集,占总数据量的70%,用来调整模型的超参数,一份是测试集,占总数据量的30%,用来测试模型的泛化能力;其次,绘制回归模型指标变化的学习曲线,循坏调节每个超参数,选取超参数相对适宜的数值;最后,对每个超参数选择一个数值范围,使用XGBoost库中的网格搜索的方法,选择超参数之间的最佳搭配方案。
该近地表痕量气体浓度反演模型,结合人工智能与大数据挖掘技术,建立了遥感监测的痕量气体总柱浓度(以下简称“遥感数据”)与地面站点监测的痕量气体质量浓度(以下简称“站点数据”)的(反演模型),能够准确、高效地反演近地表痕量气体的时空分布特征,支撑大气污染物防治工作的精准实施。
CART决策树、XGBoost等都是现有技术,在此简单说明其原理。
CART树:对于给定的数据集,选择最优切分特征j(特征信息)与切分点s(特征中所有可能取值);
遍历特征j,对固定的切分特征j扫描切分点s,选择使式1达到最小值的(j,s)对;
Figure BDA0003979718090000061
式1中,R1和R2表示由(j,s)对划分的两个数据集,yi是样本i的标签(锂的检测结果),xi表示数据集中的(j,s)对,c1是R1上的平均值,c2是R2上的平均值,
用选定的(j,s)对划分区域并决定相应的输出值:
R1(j,s)={x|x(j)≤s},R2(j,s)={x|x(j)>s} (式2);
Figure BDA0003979718090000062
继续对两个子区域R1和R2调用步骤①,②,直至满足停止条件;
将输入空间(数据集)划分为M个区域(叶子结点)R1,R2,……,Rm,生成决策树:
Figure BDA0003979718090000063
式4中,f(x)表示预测结果,M表示叶子结点的个数,m表示第m个叶子结点,Rm表示叶子结点的集合,
Figure BDA0003979718090000064
表示叶子结点的平均值(该结点上的预测值),I表示叶子结点的权重(叶子结点的样本个数占总样本个数的权重)。
Boosting是一族可将弱学习器提升为强学习器的算法;这族算法的工作机制类似:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合。
GBDT专注于回归的树的提升集成模型,按照Boosting算法迭代构建CART决策树,最终的预测结果为:
Figure BDA0003979718090000065
式5中,
Figure BDA0003979718090000066
是最终预测结果,K是树的总数量,k代表第k棵决策树,γk是第k颗树的权重,hk表示第k棵树上的预测结果。
XGBoost是GBDT的改进,在
Figure BDA0003979718090000067
上有所不同,是对梯度提升树的进一步优化,目的是为了提高模型运行效率,
防止过拟合,提高模型的泛化能力,对于XGBoost来说,整个模型在这个样本i上给出的预测结果为:
Figure BDA0003979718090000071
目标函数为:
Figure BDA0003979718090000072
式6中,fk表示第k棵决策树的函数,xi表示样本i对应的特征向量,K表示决策树的数量,F表示所有决策树的集合。
式7中,L(Φ)t表示迭代过程的目标函数,
Figure BDA0003979718090000073
表示前t-1次迭代的预测值,Ω(fx)是防止过拟合的正则项,γ和λ是正则项系数,防止决策树过于复杂。
实施例2。
一种近地表痕量气体浓度反演模型,其它特征与实施例1相同,不同之处在于,还针对搭建的回归模型,进行模型评估。
根据搭建的回归模型,采用模型评估指标决定系数R2、平均平方误差MSE、平均绝对误差MAE、均方根误差RMSE中的至少种参数进行评估。
R2取值范围为0~1,越接近于1,说明模型的预测效果越好,越接近于0,说明模型的预测效果越差,如果为负值,说明模型的效果非常差,模型基本不可用,计算公式见式I:
Figure BDA0003979718090000074
式I中yi是监测值,f(xi)是预测值,
Figure BDA0003979718090000075
是监测值的平均值,m是样本数。
MAE计算每一个样本的预测值和真实值的差的绝对值,然后求和再取平均值,用于评估预测结果和真实数据集的接近程度,其值越小说明拟合效果越好,计算公式见式II;
Figure BDA0003979718090000076
其中,yi是监测值,f(xi)是预测值,m是样本数。
MSE计算每一个预测值与真实值差的平方,然后求和再取平均值。该指标计算的是拟合数据和原始数据对应样本点误差的平方和的均值,其值越小说明拟合效果越好,计算结果见式III;
Figure BDA0003979718090000077
/>
其中,yi是监测值,f(xi)是预测值,m是样本数。
RMSE均方根误差就是在均方误差的基础上再开方,其值越小说明拟合效果越好,计算公式见式IV;
Figure BDA0003979718090000078
其中,yi是监测值,f(xi)是预测值,m是样本数。
为了防止模型过拟合,使用十折交叉验证的方法做模型评估,十折是指训练集和验证集随机的分成十份,轮流将其中9份作为训练数据,1份作为测试数据,总共开展十次(即十次十折交叉验证),用十次结果的平均值来评估模型精度。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次。
模型搭建完成之后评价模型在时间上和空间上的表现特征,如果评估效果不理想,需要重新调节参数,优化模型。模型调优之后,用测试集验证模型的泛化能力。
本方案建立的反演模型从数据的角度出发,研究大空间范围长时间序列中,不同的气象条件、地理因素、人口密度等条件下,痕量气体的遥感监测数据与地面监测站点数据的相关关系以及气象-地理-人口因素对相关关系的影响特征。利用先验知识和数理统计方法,筛选对相关关系有影响的气象-地理-人口特征(影响因子),利用数据挖掘能力强大的机器学习算法,建立痕量气体地面监测数据与遥感-气象-地理-人口数据之间的模型,采用参数调节、网格搜索和交叉验证等手段进一步优化反演模型。基于反演模型,结合不同时间大范围覆盖的遥感-气象-地理-人口数据,反演近地表痕量气体的时空分布。
实施例3。
一种近地表痕量气体浓度反演模型,其它特征与实施例1相同,不同之处在于,具体通过如下方法搭建模型的。
S4搭建模型的具体过程是:
S4.1模型环境搭建
利用python3.8平台,安装1.4.2版本的xgboost、0.24.2版本的scikit-learn、1.21.3版本的Numpy、1.3.4版本的Pandas和3.43版本的matplotlib库包,使用Numpy和Pandas两个库包进行数据预处理,从xgboost库包中调用XGBoost算法搭建模型,从scikit-learn库包中调用train_test_split函数划分数据集,调用r2_score和mean_squared_error函数计算评估指标R2和MSE,使用matplotlib绘制R2和MSE的学习曲线,调用GridSearchCV类进行网格搜索,确定最佳参数组合。
S4.2超参数调节
对xgboost算法中的超参数进行调整,需要进行调节的超参数包括:n_estimators、max_depth、gamma、reg_alpha、reg_lambda、random_state、learning_rate、colsample_bylevel、subsample、colsample_bytree、colsample_bynode、min_child_weight;n_estimators、max_depth、gamma、reg_alpha、reg_lambda、random_state六个超参数取默认值,对learning_rate、colsample_bylevel、subsample、colsample_bytree、colsample_bynode、min_child_weight超参数单独进行训练。对任意一个超参数进行训练的方法是:确定超参数的取值范围,然后对每个取值绘制R2和MSE点,所有取值点相连组成学习曲线,根据评估指标R2和MSE的值,确定超参数的优选取值。超参数的优选取值条件是:当超参数取值大于优选取值之后,R2变大和MSE变小的速率在减小。
S4.3网格搜索参数调节
对S4.2中获取的每个超参数赋一个取值区间,将所有超参数的取值区间输入网格搜索中,确定超参数的最佳组合。
通过本实施例的方法,对陕西地区2018年-2020年的近地表痕量气体O3建立的浓度反演模型的超参数取值为n_estimators=300,earning_rate=0.06,max_depth=10,gamma=9,colsample_bylevel=0.65,subsample=0.74,colsample_bytree=0.7,random_state=420,reg_alpha=18,reg_lambda=0.9,colsample_bynode=0.7,min_child_weight=5,其余参数可取默认值。
通过本实施例的方法,对陕西地区2018年-2020年的近地表痕量气体NO2建立的浓度反演模型的,痕量气体NO2模型中,超参数取值为n_estimators=390,earning_rate=0.11,max_depth=11,colsample_bylevel=0.33,colsample_bytree=0.22,random_state=0,reg_alpha=80,colsample_bynode=0.7,min_child_weight=5,其余参数可取默认值。
通过建立的浓度反演模型,基于陕西地区2018-2021的数据进行模型反演应用,能够准确反演对应时时、区域对应的近地表痕量气体浓度情况。
实施例4。
一种基于实施例1至3任意一实施例的近地表痕量气体浓度反演模型反演近地表痕量气体浓度的方法,通过如下步骤进行:
S1,数据准备
准备拟反演日期和范围的遥感数据、气象数据和地理-人口密度数据,处理方法与建模时的数据预处理方法一致,处理结果为栅格数据,分辨率为1km×1km,坐标系为WGS-84坐标系;
S2,处理栅格行列数
使用拟反演范围的四至坐标分别裁剪遥感、气象、地理-人口密度的栅格文件,按照遥感数据的行列号,使用最近邻法对气象、地理-人口密度栅格文件重采样,使得遥感、气象、地理-人口密度栅格数据具有相同的行列号;
S3,提取数据
按照行列数依次提取遥感、气象、地理-人口密度的像元值,每一个像元的遥感、气象、地理-人口密度数据组成一个样本,提取完所有特征之后,对遥感数据的缺失值按照周围10个像元的平均值进行填补;
S4,反演痕量气体浓度
将提取的样本数据导入已建立的近地表痕量气体浓度反演模型中,得到每个样本对应的痕量气体浓度,根据遥感数据的行列数、坐标系和仿射变换系数将痕量气体浓度处理成栅格文件,每一个像元即是反演的痕量气体浓度。
本实施例的基于近地表痕量气体浓度反演模型反演近地表痕量气体浓度的方法,能够准确、高效地反演近地表痕量气体的浓度情况。
实施例5。
利用陕西省环境气象监测站、陕西省气象局的数据建立针对近地表痕量气体O3浓度反演模型,利用此模型对陕西省的近地表痕量气体O3浓度进行反演。根据2018-2020年的数据建立近地表痕量气体浓度反演模型,以下模型建立过程中所采用的数据均为2018-2020年陕西区域的相关数据。以2020年6月22日近地表臭氧浓度进行反演,验证本发明方法的有效性。
1.数据收集
1)地表监测数据:地表O3浓度数据从中国环境监测总站获取,包括了O3的小时值、8小时均值和24小时均值,为了和遥感数据相匹配,使用13:00和14:00的平均数据搭建臭氧模型,数据中包含了监测站点的经度、纬度和日期。2)遥感数据:遥感数据使用的是哨兵5P的L2级O3的总柱浓度产品数据,时间分辨率为1天,空间分辨率为7km×3.5km。遥感数据从GEE平台上下载。3)气象数据:气象数据从陕西省气象局获取,全部为日均值文件,气象条件监测站点密集且分布均匀,气象类型包括平均温度(TEM_Avg)、最大温度(TEM_Max)、最小温度(TEM_Min)、平均相对湿度(RH)、8:00-8:00累积降雨量(PRE_08)、20:00-20:00累积降雨量(PRE_20)、2分钟平均风速(WIN)、蒸发量(EVP)、日照时数(SSH),全部为日均值数据。根据1677个气象站点的坐标,制作点矢量文件,使用反距离权重法重采样至1km×1km的分辨率,矢量文件进一步转化为栅格文件。4)地理-人口数据:其他用到的数据有数字高程模型(DEM),空间分辨率为30m×30m;地表覆盖类型数据(GLU或者LU,本实施例中选用GLU),空间分辨率为30m×30m,人口密度数据(PopDen),空间分辨率0.09°×0.09°。
O3具有空间和时间上异质性,所以将日期数据转化为每年的第几天(DOY),匹配时间异质性,用监测站点的经纬度(Lon/Lat)匹配空间异质性。
2.数据整合
提取关中城市群所有地面监测站点(共54个)2018年9月至2020年12月13:00和14:00的O3监测浓度,按天计算O3的平均浓度作为建模的标签数据。将遥感-气象-地理-人口数据按照预处理方法处理成WGS84坐标系下,1km×1km的空间分辨率的栅格数据,按照O3监测站点的经纬度提取每日的遥感-气象-地理-人口数据,结合到一起,形成了以O3为标签,以DOY、Lon、Lat、TEM_Avg、TEM_Max、TEM_Min、RHU、PRE08、PRE20、WIN、EVP、SSH、DEM、GLC、PopDen、SP-5O3为特征的数据集,总共包含样本量22236条样本量。对整合的数据集删除空值和异常值(例如日照时数SSH大于15小时,风速大于50m/s,蒸发量大于50mm等),本次剩余样本量22164条。
3.特征选择
根据绘制的散点图,如图1所示,其中蒸发量和日照时数数据明显存在问题,理论上讲关中城市群日照时数不能超过15小时,蒸发量对O3的影响完全没有规律,将日照时数和蒸发量从数据集中删除。
DOY对臭氧的影响关系明显,每年的5月到9月是臭氧的高发季节;其余时间臭氧的浓度较低。经度大、纬度高的关中城市群东北部地区(临汾市和运城市)臭氧明显高于西部地区,空间位置对臭氧的浓度影响较大;温度越高,臭氧浓度越高,温度降低,臭氧浓度相应降低,最高温度、最低温度和平均温度的影响一致;湿度在40%~60%的范围内,O3浓度最高;降雨在30mm以内,臭氧的浓度急剧下降,大于30mm之后,降雨对臭氧的浓度影响不大,但O3浓度相对低降雨量较低;风速大于2m/s,对臭氧的传输效果明显;海拔高度在400m~600m的范围内,O3浓度最高,这是由于关中城市群海拔低处多为平原地区,人类生产活动强,排放量大,不同的土地利用类型和地表覆盖类型以及人口密度对O3浓度影响有差别,但影响不明显,且以上变量对臭氧的影响为非线性影响,所以建模过程中要使用非线性的模型。所有特征与O3的相关性包括正相关和负相关,没有不相关的特征,如图2所示,但DEM和WIN_S_2mi_Avg两个特征的p_value均大于0.01,将这两个特征从数据集中剔除,得到最终建模的数据集。
4.模型搭建
4.1模型环境搭建:利用python3.8平台,安装1.4.2版本的xgboost、0.24.2版本的scikit-learn、1.21.3版本的Numpy、1.3.4版本的Pandas和3.43版本的matplotlib库包,使用Numpy和Pandas两个库包进行数据预处理,从xgboost库包中调用XGBoost算法搭建模型,从scikit-learn库包中调用train_test_split函数划分数据集,调用r2_score和mean_squared_error函数计算评估指标R2和MSE,使用matplotlib绘制R2和MSE的学习曲线,调用GridSearchCV类进行网格搜索,确定最佳参数组合。
4.2超参数调节:对xgboost算法中的超参数进行调整,需要进行调节的超参数包括:n_estimators、max_depth、gamma、reg_alpha、reg_lambda、random_state、learning_rate、colsample_bylevel、subsample、colsample_bytree、colsample_bynode、min_child_weight;n_estimators、max_depth、gamma、reg_alpha、reg_lambda、random_state六个超参数没有固定取值范围,根据经验选择取值范围,可直接选用软件的默认值,对learning_rate、colsample_bylevel、subsample、colsample_bytree、colsample_bynode、min_child_weight超参数单独进行训练。对任意一个超参数进行训练的方法是:确定超参数的取值范围,然后对每个取值绘制R2和MSE点,所有取值点相连组成学习曲线,根据评估指标R2和MSE的值,确定超参数的优选取值。超参数的优选取值条件是:当超参数取值大于优选取值之后,R2变大和MSE变小的速率在减小。
4.3网格搜索参数调节:对4.2中获取的每个超参数赋一个取值区间,例如,单参数调节时n_estimators取值为300,对n_estimators赋取值区间[298,299,300,301,302]。将所有超参数的取值区间输入网格搜索中,确定超参数的最佳组合。
通过单参数调节、网格搜索等手段结合学习曲线多次尝试,尽可能将模型的验证集精度提高,随后在保持验证集模型精度基本不变的情况下,通过剪枝操作,将训练集的模型精度下调,最大限度的缩小训练集和验证集的精度,降低模型的泛化误差,提高模型的鲁棒性,并通过测试集检验模型的泛化能力。最终确定的痕量气体O3模型中,超参数取值为n_estimators=300,earning_rate=0.06,max_depth=10,gamma=9,colsample_bylevel=0.65,subsample=0.74,colsample_bytree=0.7,random_state=420,reg_alpha=18,reg_lambda=0.9,colsample_bynode=0.7,min_child_weight=5,其它参数取系统默认值。训练集R2为0.98,十折交叉验证R2平均值为0.94,测试集R2为0.94。
5 模型评价
5.1 训练集模型评价
5.1.1训练集模型总体表现:臭氧模型训练集总体表现较好,决定系数R2为0.98,几乎没有偏差,表现出轻微的过拟合现象,表明XGBoost强大的学习能力。图3展示了建模的结果,训练样本为15514条,均方根误差为5.87μg/m3
5.1.2训练集模型空间表现:为了进一步探索模型在空间上的表现,将训练集中每一个点的模型表现特征做了统计。其中45%的监测站点的样本数超过300个,34%的监测站点数介于200~300个,决定系数R2全部大于0.90,如图4所示,为0.95~1,均方误差MSE为17.28~61.09μg/m3,平均绝对误差MAE为3.16~5.81μg/m3,均方根误差为4.16~7.82μg/m3,见表2。从空间上来看,关中城市群临汾、运城、渭南、西安、咸阳、宝鸡这几个城市的站点建模效果最佳,R2为0.98~1,这些城市地形平坦,为关中城市群工业生产发展较好的城市,污染物浓度相对较高,气象条件相对稳定,预测效果最好。其余城市多为山区,气象条件多变,污染物浓度相对较低,模型效果略有下降,但仍在0.95~0.97之间。以上统计结果表明在训练集数据上,模型在空间上的表现优异。
表2关中城市群各监测站点训练集的模型评估因子统计结果
Figure BDA0003979718090000101
/>
Figure BDA0003979718090000111
Figure BDA0003979718090000121
5.1.3.训练集模型时间表现:为了研究模型在不同时间的表现,对各个城市的监测站点分别求监测值和模型预测值的月均值,分城市对比模型在不同时间上的表现。从时间上来看,每年的5月到9月是臭氧污染物的高发季节,这与高温情况下O3等臭氧前体物的转化密切相关,每年的12月次年到2月臭氧浓度最低,关中城市群中各个城市均具有这样的规律,如图5所示。从地表监测结果和模型预测结果的差距(图中两线之间的差距)来看,无论是臭氧的高发季节,还是臭氧浓度较低的季节,监测值和预测值基本一致,尤其是临汾、运城、渭南、西安、咸阳、宝鸡这些城市,监测值绘制的线与预测值绘制的线基本重合,如图5所示,在其余几个城市上,两条线的重合度也非常高。在训练集上,模型在时间上的预测精度高,表现优异。
5.2测试集模型表现
5.2.1.测试集模型总体表现:模型在测试集的表现基本上反应了模型在未知数据集上的表现。体现了模型的泛化能力和鲁棒性。测试集总共6650个样本,来自关中城市群54个监测站点,决定系数R2为0.94,如图6所示,无论是在低值区域还是在高值区域,点位都比较均匀的分布在1:1线的两侧,收敛效果较好。模型回归线的斜率为0.92,如图6,截距为7.67μg/m3,表明模型在低值区域,预测的O3浓度可能略高于监测的O3浓度,相反的,在高值区域,预测的O3浓度可能略低于监测的O3浓度,而且随着浓度的提升,这一误差可能越明显。模型整体上的预测能力优异,可以用于对不同时间、大范围的O3浓度预测。
5.2.2.测试集模型空间表现:为研究测试集数据上,模型在空间的表现,同样将测试集中每一个点的模型表现特征做了统计。各监测站点的样本数为32~268个,约有33%的监测站点测试数据超过150个,约有39%的监测站点测试数据超过140个,约74%的监测站点测试数据超过100个,测试数据的样本量较多,从空间分布来看,各城市的监测站点分布比较均匀,如图7a所示。各监测站点的决定系数R2为0.74~0.97,见表3,平均为0.94,约有84%的监测站点R2≥0.90,约98%的监测站点R2>0.80,只有两个监测站点的R2不大于0.80。从空间分布来看,临汾、运城、渭南、西安、咸阳这几个城市所有站点的R2全部大于0.90,宝鸡市、铜川市、庆阳、平凉这几个城市所有站点的R2大于0.81,天水市和商洛市各有一个站点的R2小于0.81,分别为0.8、0.74,如图7c所示。各监测站点的均方误差MSE为80.94~333.43μg/m3,平均约154.17μg/m3,约13%的监测站点MSE≤100μg/m3,约83%的监测站点MSE≤200μg/m3。各监测站点的平均绝对误差MAE为5.2~10.2μg/m3(表2),平均约8.53μg/m3,约63%的站点MAE≤8μg/m3,约93%的监测站点MAE≤10μg/m3。从空间分布来看,平均绝对误差最小的监测站点都分布在临汾、运城、渭南、西安、宝鸡、铜川、天水这几个城市,平均误差最大的监测站点分布在临汾和西安市,均为一个站点(图7d)。各监测站点的均方根误差为6.93~15.33μg/m3(表3),平均约12.01μg/m3,约35%的监测站点RMSE≤10μg/m3,约94%的监测站点RMSE≤15μg/m3,从空间分布来看,均方根误差小于10μg/m3的站点分布均匀在天水、平凉、庆阳、西安、咸阳、渭南、商洛、运城、铜川、杨凌这几个城市(图7d)。从空间分布来看,运城、渭南、西安、咸阳、宝鸡、庆阳这几个城市的模型表现最好,其次为铜川、平凉,天水、临汾和商洛略差。
表3关中城市群各监测站点测试集的模型评估因子统计结果
Figure BDA0003979718090000122
/>
Figure BDA0003979718090000131
5.3测试集模型时间表现:渭南、西安、庆阳、平凉、天水这几个城市不同时间段的地面监测O3浓度与预测的O3浓度基本无偏差。运城、商洛、咸阳,宝鸡这几个城市不同时间上略有偏差,偏差不大于20μg/m3。临汾市各时间的模型表现总体较好,预测有偏差的2020年5月、2020年6月,2020年8月,差异均在10μg/m3范围内。铜川在时间上偶尔存在较大偏差,约为50μg/m3,整体预测的O3浓度与地面监测O3浓度无偏差。通过以上预测,可见模型在时间维度上表现优异。
6模型应用:收集2021年6月24日至2021年6月30日的遥感-气象-地理-人口数据,(与建模时的数据类型一致),重投影至WGS-84坐标系,反距离权重法重采样值1km×1km,提取每一个网格的像元值,带入模型进行反演,反演该时间段关中城市群近地表O3浓度的时空分布,并将反演的O3浓度(如图8至图10所示)与站点监测的O3站点浓度进行对比,总体分布趋势一致,精度大幅度提升。可见,本实施例的方法能够精确、有效用于近地表痕量气体浓度的反演。
实施例6。
利用陕西省环境气象监测站、陕西省气象局的数据建立针对近地表痕量气体NO2浓度反演模型,利用此模型对陕西省的近地表痕量气体NO2浓度进行反演。根据2018-2020年的数据建立近地表痕量气体浓度反演模型,以下模型建立过程中所采用的数据均为2018-2020年陕西区域的相关数据。以2021年6月24日-2021年6月30日近地表二氧化氮浓度反演为例,说明本实施例方法的应用。
6.1数据收集
1)地表监测数据:地表NO2浓度数据从中国环境监测总站获取,为了和遥感数据相匹配,使用13:00小时值和14:00小时值的算术平均数搭建臭氧模型,数据中包含了监测站点的经度、纬度和日期。2)遥感数据:遥感数据使用的是哨兵5P的L2级NO2的总柱浓度产品数据。遥感数据从GEE平台上下载,数据格式为栅格数据。3)气象数据:气象数据从陕西省气象局获取,全部为日均值文件,气象条件监测站点密集且分布均匀,气象类型包括TEM_Avg、TEM_Max、TEM_Min、RH、PRE_08、PRE_20、WIN、EVP、SSH,全部为日均值数据,根据1677个气象站点的坐标,制作点矢量文件,使用反距离权重法重采样至1km×1km的分辨率,矢量文件进一步转化为栅格文件。4)地理-人口数据:地理数据有DEM、GLC、LU,空间分辨率均为30m×30m;人口数据使用PopDen,空间分辨率0.09°×0.09°。NO2具有空间和时间上异质性,所以将日期数据转化为每年的第几天(DOY),匹配时间异质性,用监测站点的经纬度(Lon/Lat)匹配空间异质性。
6.2数据整合与处理
提取关中城市群所有地面监测站点(共54个)2018年9月至2020年12月13:00和14:00的NO2监测的小时值浓度,按天计算NO2的平均浓度作为建模的标签数据。将遥感数据、气象数据、其他数据重投影至WGS-84坐标系,采样至1km×1km空间分辨率,按照NO2监测站点的经纬度提取每日的遥感数据、气象数据、其他数据的对应值,结合到一起,形成了以NO2为标签,以DOY、Lon、Lat、TEM_Avg、TEM_Max、TEM_Min、RHU、PRE08、PRE20、WIN、EVP、SSH、DEM、GLC、PopDen、SP-5NO2为特征的数据集,总共包含样本量22236条样本量。
对整合的数据集删除空值和异常值(例如日照时数SSH大于15小时,风速大于50m/s,蒸发量大于50mm等),本次剩余样本量22164条。
9.3特征选择
根据绘制的散点图,其中日照时数数据与NO2的变化特征不明显,将日照时数从数据集中删除。
DOY对臭氧的影响关系明显,每年的秋冬季节是NO2的高发季节;夏季NO2的浓度较低。经度介于108.5°~109.5°、纬度介于34°~35°的关中城市群中部地区(西安市)NO2明显高于西部地区,空间位置对NO2的浓度影响较大;平均温度介于-5℃~15℃的秋冬季节,NO2浓度高,平均温度小于-5℃或者大于25℃,NO2浓度相应降低,最高温度、最低温度和平均温度的影响趋势一致;湿度在50%~80%的范围内,NO2浓度最高;降雨在20mm以内,NO2的浓度急剧下降,大于20mm之后,降雨对NO2的浓度影响不大,但NO2浓度相对低降雨量较低;风速大于2m/s,对二氧化氮的传输效果明显;海拔高度在400m~600m的范围内,NO2浓度最高,这是由于关中城市群海拔低处多为平原地区,人类生产活动强,排放量大,不同的土地利用类型和地表覆盖类型以及人口密度对NO2浓度影响有差别,但影响不明显,且以上变量对二氧化氮的影响为非线性影响,所以建模过程中要使用非线性的模型。根据person相关系数统计结果,所有特征与NO2的相关性包括正相关和负相关,没有不相关的特征,且所有特征的p_value均小于0.01,因此,不需剔除数据集中的特征。
9.4模型搭建
采用与实施例5相同的方式通过单参数调节、网格搜索等手段结合学习曲线多次尝试,尽可能将模型的验证集精度提高,随后在保持验证集模型精度基本不变的情况下,通过剪枝操作,将训练集的模型精度下调,最大限度的缩小训练集和验证集的精度,降低模型的泛化误差,提高模型的鲁棒性,并通过测试集检验模型的泛化能力。
最终确定的模型,训练集R2为0.98,十折交叉验证R2平均值为0.89,测试集R2为0.89。痕量气体NO2模型中,超参数取值为n_estimators=390,earning_rate=0.11,max_depth=11,colsample_bylevel=0.33,colsample_bytree=0.22,random_state=0,reg_alpha=80,colsample_bynode=0.7,min_child_weight=5,其余参数可取默认值。
9.5模型评价
9.5.1训练集模型评价
1.训练集模型总体表现
二氧化氮模型训练集总体表现较好,决定系数R2为0.98,几乎没有偏差,表现出轻微过拟合现象,表明XGBoost强大的学习能力。图11展示了建模的结果,训练样本为15514条,均方根误差为2.61μg/m3
2.训练集模型空间表现
为了进一步探索模型在空间上的表现,将训练集中每一个点的模型表现特征做了统计。其中各监测站点的样本数为80~546个,约有96%的监测站点样本数据超过100个,所有监测站点样本数据超过50个,决定系数R2全部大于0.90,为0.90~1,均方误差MSE为1.88~14.39μg/m3,平均绝对误差MAE为0.97~2.77μg/m3,均方根误差为1.37~3.79μg/m3,见表5。从空间上来看,关中城市群临汾、运城、渭南、西安、咸阳这几个城市的站点建模效果最佳,R2为0.96~1,这些城市地形平坦,为关中城市群工业生产发展较多的城市,污染物浓度相对较高,气象条件相对稳定,所以预测效果最好。其余城市多为山区,气象条件不均匀,污染物浓度相对较低,模型效果略有下降,但仍在0.90~0.95之间。以上统计结果表明在训练集数据上,模型在空间上的表现优异。
表5关中城市群各监测站点训练集的模型评估因子统计结果
Figure BDA0003979718090000151
/>
Figure BDA0003979718090000161
3.训练集模型时间表现
为了研究模型在不同时间的表现,对各个城市的监测站点分别求监测值和模型预测值的月均值,分城市对比模型在不同时间上的表现。从时间上来看,每年的11月到次年2月是二氧化氮污染物的高发季节,每年的3月到次年10月二氧化氮浓度最低,关中城市群中各个城市均具有这样的规律。从地表监测结果和模型预测结果的差距来看,无论是二氧化氮的高发季节,还是二氧化氮浓度较低的季节,监测值和预测值基本一致,尤其是临汾、运城、商洛、西安、庆阳、宝鸡、天水这些城市,监测值绘制的线与预测值绘制的线基本重合,在其余几个城市上,两条线的重合度也非常高。在训练集上,模型在时间上的预测精度高,表现优异。
9.5.2测试集模型表现
1.测试集模型总体表现
模型在测试集的表现基本上反应了模型在未知数据集上的表现。体现了模型的泛化能力和鲁棒性。测试集总共6650个样本,来自关中城市群54个监测站点,决定系数R2为0.89,无论是在低值区域还是在高值区域,点位大部分都比较均匀的分布在1:1线的两侧,只有个别点点位分布离1:1线较远,整体收敛效果较好。模型回归线的斜率为0.88,见图12,截距为2.78μg/m3,表明模型在低值区域,预测的NO2浓度可能略高于监测的NO2浓度,相反的,在高值区域,预测的NO2浓度可能略低于监测的NO2浓度,而且随着浓度的提升,这一误差可能越明显。模型整体上的预测能力优异,可以用于地面上NO2浓度的预测。
2.测试集模型空间表现
为研究测试集数据上,模型在空间的表现,同样将测试集中每一个点的模型表现特征做了统计。各监测站点的样本数为40~228个,约有30%的监测站点测试数据超过150个,约有72%的监测站点测试数据超过100个,约96%的监测站点测试数据超过50个,测试数据的样本量较多,从空间分布来看,各城市的监测站点分布比较均匀,天水市的样本量略少(图13a)。各监测站点的决定系数R2为0.58~0.92,平均为0.83,约有17%的监测站点R2≥0.90,约78%的监测站点R2≥0.80,约91%的监测站点R2≥0.70,约98%的监测站点R2≥0.60,只有一个监测站点的R2小于0.60。从空间分布来看,临汾、渭南、西安、咸阳这几个城市所有站点的R2均大于0.80,铜川市、商洛市、庆阳、天水、宝鸡、平凉这几个城市大部分站点的R2大于0.6,只有庆阳市有一个站点的R2仅有0.58(图13c),与其他站点相差较大。各监测站点的均方误差MSE为5.18~110.82μg/m3(表6),平均约37.16μg/m3,约74%的监测站点MSE≤50μg/m3,约98%的监测站点MSE≤100μg/m3。各监测站点的平均绝对误差MAE为1.46~6.97μg/m3(表6),平均约3.93μg/m3,约83%的站点MAE≤5μg/m3,所有监测站点MAE≤10μg/m3。从空间分布来看,所有城市监测站点平均绝对误差值都较小,不超过10μg/m3(图13d)。各监测站点的均方根误差为2.28~10.53μg/m3(表6),平均约5.83μg/m3,约98%的监测站点RMSE≤10μg/m3,100%的监测站点RMSE≤15μg/m3,从空间分布来看,均方根误差最大的监测站点分布在西安市,仅有一个站点,值为10.53μg/m3,其余城市监测站点均方根误差均小于10μg/m3(图13b)。从空间分布来看,临汾、渭南、西安、咸阳这几个城市的模型表现最好,其次为运城、宝鸡、天水、平凉、铜川略差。
表6关中城市群各监测站点测试集的模型评估因子统计结果
Figure BDA0003979718090000171
/>
Figure BDA0003979718090000181
3.测试集模型时间表现
临汾市、运城、渭南、西安、咸阳、宝鸡等各市时间的模型表现总体较好,在不同时间段地面监测NO2浓度与预测的NO2浓度差异均在10μg/m3范围内。商洛市各时间的模型表现总体较好,预测有偏差的2018年9月、2018年12月,2020年1月,差异均在20μg/m3范围内。通过以上预测,可以看出模型在时间维度上表现优异。
9.6模型应用:收集2021年6月24日至2021年6月30日的遥感-气象-地理-人口数据,反演该时间段关中城市群近地表NO2浓度的时空分布,结果如图14至图所示。反演结果与站点监测的NO2站点浓度进行对比,总体分布趋势一致,精度大幅度提升。

Claims (9)

1.一种近地表痕量气体浓度反演模型,其特征在于:基于遥感数据与站点数据建立反演模型,具体通过如下步骤建立:
S1,收集地表监测数据、遥感数据、气象数据和地理-人口数据;
S2,对步骤S1收集的数据进行预处理,得到预处理后的初始建模数据;
S3,对初始建模数据进行特征筛选,得到建模数据集;
S4,根据建模数据集搭建模型。
2.根据权利要求1所述的近地表痕量气体浓度反演模型,其特征在于:
S1中,收集地表监测数据具体是:
从地方省级环境监测中心站获取地表痕量气体浓度数据,包括痕量气体的小时值、8小时均值和24小时均值,痕量气体使用13:00和14:00的算术平均值,数据中包含了监测站点的经度、纬度和日期;
收集遥感数据具体是:
痕量气体遥感数据使用的是哨兵5P的L2级总柱浓度产品数据,时间分辨率为1天,空间分辨率为7km×3.5km,遥感数据从Google Earth Engine平台上下载;
收集气象数据具体是:
气象数据从省级气象局获取,气象类型包括平均温度、最大温度、最小温度、平均相对湿度、8:00-8:00累积降雨量、20:00-20:00累积降雨量、2分钟平均风速、蒸发量、日照时数,所述气象数据全部为日均值数据;
收集地理-人口数据具体是收集数字高程模型、地表覆盖类型数据和人口密度数据,其中数字高程模型空间分辨率为30m×30m,地表覆盖类型数据空间分辨率为30m×30m,人口密度数据空间分辨率0.09°×0.09°。
3.根据权利要求2所述的近地表痕量气体浓度反演模型,其特征在于:
S2对步骤S1收集的数据进行预处理的具体过程是:
S21,数据提取
首先从空气质量监测的原始文件中提取2018年-2020年目标城市群所有空气质量监测站点的痕量气体13:00-14:00的监测结果,删除缺失值后,将每天13:00和14:00的监测结果求算术平均值,作为地面监测结果,得到痕量气体监测数据集;提取过程中同时包含监测站点的经度、纬度和监测日值,根据监测站点的经度和纬度信息转化为WGS-84坐标系下的点矢量文件,简称“痕量气体点矢量”,用于提取对应监测站点的遥感数据、气象数据、地理数据、人口密度数据;
其次,将GEE下载的遥感数据重投影至WGS84坐标系,使用最近邻采样方法重采样至1km×1km的分辨率,使用痕量气体点矢量提取对应点位的遥感数据,得到遥感数据集;
再次,从气象数据原始文件中提取2018-2020年所有监测站点的日均值监测结果,包含气象监测站点的经纬度和日期,剔除所有缺失值,依次按照日期和气象数据字段信息,按照经纬度和监测结果将各个气象字段的监测数据转化为WGS-84坐标系下的点矢量文件,然后按照反距离权重插值方法插值到1km×1km分辨率,进一步矢量转栅格后形成栅格文件,栅格文件的像元值就是气象字段的日均值监测结果,最后使用痕量气体点矢量提取对每天各字段对应位置的气象结果,得到气象数据集;
最后,DEM、GLC、PopDen均为栅格文件,其中DEM和GLC分辨率为30m×30m,PopDen分辨率为900m×900m,使用最近邻采样方法重采样至1km×1km,重投影至WGS-84坐标系下,使用痕量气体矢量提取像元值,得到辅助数据集;
S22,数据结合
数据提取阶段共提取了4个数据集,分别为痕量气体的监测数据集、遥感数据集、气象数据集、辅助数据集,四份数据集中均包含有经度、纬度和日期,按照这三个字段将四份数据结合成为最终的数据集,简称“原始数据集”,进一步将原始数据集中的日期转化为每年的第几天,Day Of Year(DOY),原始数据集中痕量气体的监测结果为标签,其余全部为特征;
S23.异常值剔除
对原始数据集进行异常值检查,检查异常值的方法是绘制箱型图,将含有异常值的样本全部删除;此外,根据先验知识将气象数据的异常值剔除,即删除极端天气的影响,同样将含有极端天气的样本删除。
4.根据权利要求3所述的近地表痕量气体浓度反演模型,其特征在于:S3中对初始建模数据进行特征筛选,具体包括:
S31.绘制散点图研究相关关系
通过绘制散点图的方式,研究数据集中各特征变量与标签之间的相关关系,并将含有极端天气样本对应到的特征删除;
S32.统计person相关系数和p_value
通过统计标签与特征之间的person相关系数,将person相关系数为0.00的特征删除;进一步计算p_value值,将p_value>0.01的变量删除;
S33.机器学习筛选特征
将步骤S31、S32筛选后的数据集带入随机森林模型,使用该模型的内建函数“feature.importance”计算特征重要性,排序后按照特征重要性得分由小到大排序,依次删除得分较小的特征,查看建模精度变化,直到模型精度发生较大变化时停止删除特征,得到建模数据集,简称“数据集”。
5.根据权利要求4所述的近地表痕量气体浓度反演模型,其特征在于:S4搭建模型建模使用的机器学习算法为eXtreme Gradient Boosting,基学习器为Classification AndRegression Tree决策树,使用XGBoost反演近地表痕量气体浓度建立回归模型,模型搭建过程使用的标签为痕量气体的浓度,特征为数据集中除痕量气体浓度之外的其他特征;
模型建立后,进入参数调节步骤,参数调节具体通过如下过程进行:
首先,把数据集划分两份,一份是训练集,占总数据量的70%,用来调整模型的超参数,一份是测试集,占总数据量的30%,用来测试模型的泛化能力;
其次,绘制回归模型指标变化的学习曲线,循坏调节每个超参数,选取超参数相对适宜的数值;
最后,对每个超参数选择一个数值范围,使用网格搜索的方法,选择超参数之间的最佳搭配方案。
6.根据权利要求5所述的近地表痕量气体浓度反演模型,其特征在于:S4搭建模型的具体过程是:
S4.1模型环境搭建
利用python3.8平台,安装1.4.2版本的xgboost、0.24.2版本的scikit-learn、1.21.3版本的Numpy、1.3.4版本的Pandas和3.43版本的matplotlib库包,使用Numpy和Pandas两个库包进行数据预处理,从xgboost库包中调用XGBoost算法搭建模型,从scikit-learn库包中调用train_test_split函数划分数据集,调用r2_score和mean_squared_error函数计算评估指标R2和MSE,使用matplotlib绘制R2和MSE的学习曲线,调用GridSearchCV类进行网格搜索,确定最佳参数组合;
S4.2超参数调节
对xgboost算法中的超参数进行调整,需要进行调节的超参数包括:n_estimators、max_depth、gamma、reg_alpha、reg_lambda、random_state、learning_rate、colsample_bylevel、subsample、colsample_bytree、colsample_bynode、min_child_weight;n_estimators、max_depth、gamma、reg_alpha、reg_lambda、random_state六个超参数取默认值,对learning_rate、colsample_bylevel、subsample、colsample_bytree、colsample_bynode、min_child_weight超参数单独进行训练;
对任意一个超参数进行训练的方法是:确定超参数的取值范围,然后对每个取值绘制R2和MSE点,所有取值点相连组成学习曲线,根据评估指标R2和MSE的值,确定超参数的优选取值;
超参数的优选取值条件是:当超参数取值大于优选取值之后,R2变大和MSE变小的速率在减小;
S4.3网格搜索参数调节
对S4.2中获取的每个超参数赋一个取值区间,将所有超参数的取值区间输入网格搜索中,确定超参数的最佳组合。
7.根据权利要求6所述的近地表痕量气体浓度反演模型,其特征在于:痕量气体O3模型中,超参数取值为n_estimators=300,earning_rate=0.06,max_depth=10,gamma=9,colsample_bylevel=0.65,subsample=0.74,colsample_bytree=0.7,random_state=420,reg_alpha=18,reg_lambda=0.9,colsample_bynode=0.7,min_child_weight=5。
8.根据权利要求6所述的近地表痕量气体浓度反演模型,其特征在于:痕量气体NO2模型中,超参数取值为n_estimators=390,earning_rate=0.11,max_depth=11,colsample_bylevel=0.33,colsample_bytree=0.22,random_state=0,reg_alpha=80,colsample_bynode=0.7,min_child_weight=5。
9.基于如权利要求1至8任意一项所述的近地表痕量气体浓度反演模型反演近地表痕量气体浓度的方法,其特征在于:通过如下步骤进行:
S1,数据准备
准备拟反演日期和范围的遥感数据、气象数据和地理-人口密度数据,处理方法与建模时的数据预处理方法一致,处理结果为栅格数据,分辨率为1km×1km,坐标系为WGS-84坐标系;
S2,处理栅格行列数
使用拟反演范围的四至坐标分别裁剪遥感、气象、地理-人口密度的栅格文件,按照遥感数据的行列号,使用最近邻法对气象、地理-人口密度栅格文件重采样,使得遥感、气象、地理-人口密度栅格数据具有相同的行列号;
S3,提取数据
按照行列数依次提取遥感、气象、地理-人口密度的像元值,每一个像元的遥感、气象、地理-人口密度数据组成一个样本,提取完所有特征之后,对遥感数据的缺失值按照周围10个像元的平均值进行填补;
S4,反演痕量气体浓度
将提取的样本数据导入已建立的近地表痕量气体浓度反演模型中,得到每个样本对应的痕量气体浓度,根据遥感数据的行列数、坐标系和仿射变换系数将痕量气体浓度处理成栅格文件,每一个像元即是反演的痕量气体浓度。
CN202211545701.4A 2022-04-29 2022-12-05 近地表痕量气体浓度反演模型及反演方法 Pending CN116223395A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210465007.5A CN115420690A (zh) 2022-04-29 2022-04-29 近地表痕量气体浓度反演模型及反演方法
CN2022104650075 2022-04-29

Publications (1)

Publication Number Publication Date
CN116223395A true CN116223395A (zh) 2023-06-06

Family

ID=84196616

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210465007.5A Pending CN115420690A (zh) 2022-04-29 2022-04-29 近地表痕量气体浓度反演模型及反演方法
CN202211545701.4A Pending CN116223395A (zh) 2022-04-29 2022-12-05 近地表痕量气体浓度反演模型及反演方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210465007.5A Pending CN115420690A (zh) 2022-04-29 2022-04-29 近地表痕量气体浓度反演模型及反演方法

Country Status (1)

Country Link
CN (2) CN115420690A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116504330B (zh) * 2023-06-28 2023-09-19 航天宏图信息技术股份有限公司 污染物浓度反演方法、装置、电子设备及可读存储介质
CN117216490B (zh) * 2023-11-08 2024-01-19 中国铁道科学研究院集团有限公司电子计算技术研究所 一种智能大数据采集系统

Also Published As

Publication number Publication date
CN115420690A (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN112905560B (zh) 一种多源时空大数据深度融合的空气污染预测方法
Wei et al. Full-coverage mapping and spatiotemporal variations of ground-level ozone (O3) pollution from 2013 to 2020 across China
CN109213964B (zh) 一种融合多源特征地理参数的卫星aod产品校正方法
Zhao et al. High-resolution daily AOD estimated to full coverage using the random forest model approach in the Beijing-Tianjin-Hebei region
CN116223395A (zh) 近地表痕量气体浓度反演模型及反演方法
Qin et al. Satellite-based estimation of surface NO2 concentrations over east-central China: A comparison of POMINO and OMNO2d data
CN113297528B (zh) 一种基于多源大数据的no2高分辨率时空分布计算方法
CN112884079A (zh) 一种基于Stacking集成模型的近地面二氧化氮浓度估算方法
Chi et al. Machine learning-based estimation of ground-level NO2 concentrations over China
CN109858686A (zh) 一种基于EnKF的地面排放清单反演优化方法
CN114240719A (zh) 一种基于多元逐步回归的空气质量缺失数据填充方法及系统
CN110261272B (zh) 基于地理探测和pca对pm2.5浓度分布的关键影响因子筛选方法
Yu et al. Deep learning-based downscaling of tropospheric nitrogen dioxide using ground-level and satellite observations
CN114898823B (zh) 一种高时空分辨率遥感近地面no2浓度预估方法和系统
CN116611547A (zh) 大气污染物来源预报方法、装置、设备及存储介质
CN114724647A (zh) 一种高时空分辨率co2通量反演系统及方法
CN109657988B (zh) 基于hasm和欧氏距离算法的烟叶品质分区方法
Liu et al. Estimation of surface ammonia concentrations and emissions in China from the polar-orbiting Infrared Atmospheric Sounding Interferometer and the FY-4A Geostationary Interferometric Infrared Sounder
CN117219183A (zh) 多云雨地区的高覆盖度近地面no2浓度估算方法及系统
CN116822624A (zh) 一种基于深度森林模型框架的近地表o3估算方法
CN115950832A (zh) 一种基于卫星数据反演近地面二氧化氮浓度的方法
He et al. Seamless Reconstruction and Spatiotemporal Analysis of Satellite-based XCO2 Incorporating Temporal Characteristics: A Case Study in China during 2015-2020
CN113095499A (zh) 一种绝缘子等值附盐密度的预测方法
CN116429648B (zh) 改进的时空LightGBM的地表PM10估算方法
Gilbert et al. Machine-Learning Approaches for Assessing Aerosol Optical Depth (AOD) in Ghana, West Africa

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination