CN113297528A - 一种基于多源大数据的no2高分辨率时空分布计算方法 - Google Patents
一种基于多源大数据的no2高分辨率时空分布计算方法 Download PDFInfo
- Publication number
- CN113297528A CN113297528A CN202110645612.6A CN202110645612A CN113297528A CN 113297528 A CN113297528 A CN 113297528A CN 202110645612 A CN202110645612 A CN 202110645612A CN 113297528 A CN113297528 A CN 113297528A
- Authority
- CN
- China
- Prior art keywords
- data
- concentration
- time
- model
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 68
- 238000004364 calculation method Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012544 monitoring process Methods 0.000 claims abstract description 45
- 238000011160 research Methods 0.000 claims abstract description 21
- 238000010801 machine learning Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000009286 beneficial effect Effects 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 24
- 239000005436 troposphere Substances 0.000 claims description 22
- 238000012952 Resampling Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000001419 dependent effect Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 8
- 238000011835 investigation Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000001704 evaporation Methods 0.000 claims description 4
- 230000008020 evaporation Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012821 model calculation Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 7
- 239000003344 environmental pollutant Substances 0.000 abstract description 5
- 231100000719 pollutant Toxicity 0.000 abstract description 5
- 230000010354 integration Effects 0.000 abstract 1
- 239000003570 air Substances 0.000 description 8
- 238000005457 optimization Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000013589 supplement Substances 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000000149 argon plasma sintering Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007596 consolidation process Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 229910044991 metal oxide Inorganic materials 0.000 description 2
- 150000004706 metal oxides Chemical class 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000012080 ambient air Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- -1 coking Substances 0.000 description 1
- 238000004939 coking Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000002803 fossil fuel Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007800 oxidant agent Substances 0.000 description 1
- 230000001590 oxidative effect Effects 0.000 description 1
- 230000008635 plant growth Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010206 sensitivity analysis Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明涉及大气污染物监测技术领域,且公开了一种基于多源大数据的NO2高分辨率时空分布计算方法,具体步骤如下,收集并预处理研究区域内的NO2地面监测数据、卫星遥感柱浓度数据以及所需的环境协变量数据;将微型空气质量监测站(简称传感器)与临近的标准空气质量监测站(简称标准站)配对,通过地理加权回归模型对传感器NO2浓度数据进行校准。采用基于机器学习的“两步法”算法,首先填补得到完整的卫星遥感柱浓度数据,再将其作为一个协变量参与建模,重构1km网格NO2逐时浓度的全面域分布。本发明高效地融合“天地一体”监测数据,计算结果有助于更全面地刻画污染物分布信息,为空气质量精细化管理提供支撑。
Description
技术领域
本发明涉及大气污染物监测技术领域,具体为一种基于多源大数据的NO2高分辨率时空分布计算方法。
背景技术
NO2是主要的大气污染物之一,NO2污染会对人体健康及生态环境健康产生较大危害。NO2是夜间大气化学反应的重要氧化剂,会直接或间接地导致辐射强迫,从而影响全球气候变化。同时,也会对植被生长造成不利影响,破坏当地生态环境。作为发展中国家,中国在近几十年不断推进城市化、工业化发展,大量消耗化石燃料,使得大气NO2污染日益严重。为缓解当前严重的NO2污染,提出了NO2的减排目标,并将减排责任明确划分至各省份。
近年来,已有研究采用传统统计学模型重构NO2浓度时空分布,这些模型主要依赖于来自空气质量标准站的监测数据。然而,由于标准站空间分布不均匀,呈现出大城市监测站点集中、部分中小城市或村镇分布稀疏的现象,其监测数据仅能准确反应监测点临近区域的环境空气质量水平,在体现全面域的污染水平上具有一定的局限性。如仅依赖标准站的数据训练模型,易产生采样偏差问题,影响模型的整体计算性能。来自卫星遥感的对流层NO2垂直柱浓度与地面NO2浓度的相关性较高,且能提供浓度的区域空间分布信息,将其融入模型可以显著地提高地面NO2浓度分布估算的准确性。然而,目前卫星遥感柱浓度数据较低的时间覆盖率限制了其在NO2逐时浓度计算中的应用。
这里提出的一种全新的基于多源大数据的NO2污染物高分辨率时空分布计算方法,采用低成本传感器监测作为地面空气质量标准站监测的补充,利用其密集布点的优势,扩充地面NO2浓度的监测数据集。同时,填补完整的卫星对流层NO2垂直柱浓度数据作为协变量参与模型计算,可以提供更准确的空间浓度信息。采用机器学习模型(例如随机森林,神经网络,LightGBM等),计算推断城市尺度全面域的NO2高时空分辨率浓度分布。空间分辨率为1km,时间分辨率为每小时。
发明内容
为实现上述更高计算精准度的目的,本发明提供如下技术方案:一种基于多源大数据的NO2高分辨率时空分布计算方法,具体步骤如下:
1)研究区域内的NO2浓度监测数据与环境协变量数据的预处理。涉及以下内容:
A)三个不同来源的NO2浓度数据集(标准站、传感器、卫星遥感);
B)气象数据;
C)人口密度数据;
D)PBLH数据;
E)土地利用数据;
F)NDVI数据;
G)海拔数据;
H)道路信息数据(网格内道路长度,网格中心到最近道路的距离);
I)通过时空插值、重采样等方法将协变量处理至研究区域的1km网格,并填补时间上的缺失值。
2)考虑到传感器浓度数据的质量存在较大的不确定性,将传感器与临近的标准站配对,采用GWR模型,参照标准站浓度数据对所有传感器NO2浓度进行校准,并清洗异常值,与标准站NO2浓度数据集合并为地面NO2监测浓度数据。具体步骤如下:首先选择距离传感器500m之内距离最近的标准站进行配对,基于配对的传感器-标准站逐时浓度数据构建GWR模型,对其它所有未配对传感器的监测浓度进行校准。校准过程会采用湿度、温度作为协变量。对校准后的传感器浓度数据进行异常值清洗(例如负值,校准偏差较大的值等),之后与标准站浓度数据集合并,作为模型的训练数据。
3)“两步法”第一步:采用卫星遥感对流层NO2垂直柱浓度的观测值作为因变量,协变量集合作为自变量构建机器学习模型,填补研究区域内所有1km网格的逐时卫星遥感柱浓度数据。
4)“两步法”第二步:采用合并后的NO2地面监测浓度作为因变量,协变量集合(包括填补完整的卫星遥感对流层NO2垂直柱浓度数据)作为自变量,构建机器学习模型,重构得到研究区域1km网格逐时NO2地面浓度的全面域分布。
作为优化,所述NO2浓度数据主要有三个来源,分别为地面标准站数据、地面传感器数据、以及卫星遥感获得的对流层NO2垂直柱浓度。其中,地面传感器数据,通过低成本传感器在空气质量监测获取,其成本低、灵活性高、时间分辨率高,适合密集布点。传感器设备采用光散射、电化学、金属氧化物或光离子的传感器监测方法,采用太阳能供电和常规市电供电相结合的形式,保证监测工作的正常进行。本发明将传感器的NO2浓度信息与地面标准站以及卫星的数据相互融合、补充,提升计算准确性。
作为优化,所述气象数据包括但不仅限于温度、大气压、相对湿度、蒸发量、南北向风速、东西向风速。
作为优化,所述研究区域内的NO2浓度监测数据与环境协变量数据的预处理这一步骤中,NO2浓度数据清洗异常值后,根据站点经纬度处理到1km网格;环境协变量数据通过空间插值、重采样等方法填补至研究区域的1km网格;将卫星遥感对流层NO2垂直柱浓度数据重采样至研究区域的1km网格;为平滑空间分布并考虑邻近效应,对人口密度、土地利用、NDVI、海拔、道路信息等数据进行空间卷积;对于时间维度上存在缺失数据的协变量,采用时间插值、时间卷积等方法填补该变量在每个网格的缺失值。
作为优化,所述校准传感器浓度这一步骤中,采用GWR模型,将校准清洗后的传感器浓度与标准站浓度合并,构建新的NO2地面监测浓度数据集。
作为优化,所述模型的训练及时空分布重构这一步骤中,提出的“两步法”第一步将卫星遥感对流层NO2垂直柱浓度填补完整,作为协变量参与后续模型的训练,训练好的模型计算全面域的1km网格逐时NO2浓度数据,计算出的浓度分布具有高时空分辨率的特点,可以获得研究区域精细化的空气质量分布信息。
作为优化,所述模型的训练及时空分布重构这一步骤中,采用十折交叉验证方法,从基于网格、基于月、基于区域等多个维度检验模型计算的准确性。
作为优化,所述模型的训练及时空分布重构这一步骤中,采用的机器学习模型计算速度快,占用资源少,可快速计算全面域的NO2逐时浓度时空分布。
本发明的。效果是:在前期准备地面NO2浓度监测数据时,以传感器的浓度数据作为补充,获得更多的时空分布信息,同时扩充了训练数据集,提升计算准确性。
在重构研究区域NO2高分辨率时空分布时,采用“两步法”算法,首先将研究区域1km网格、逐时的卫星对流层NO2垂直柱浓度填补完整,将其加入协变量集合,参与下一步的模型构建与时空分布计算。填补完整的卫星柱浓度数据从空间分布的角度提供了准确的信息,使得计算结果更加准确。
在模型的训练及时空分布重构中,采用机器学习模型,可以很好地拟合变量之间的非线性高阶交互关系,对于大数据集的计算更加准确、高效。
附图说明
图1为本发明的步骤流程图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
一种基于多源大数据的NO2高分辨率时空分布计算方法,具体步骤如下:
1)研究区域的NO2浓度监测数据与环境协变量数据的预处理(具体的 NO2浓度来源,协变量种类可以根据计算的目标区域实际情况及当地数据质量进行增减,并不局限于此);
A)三个不同来源的NO2浓度数据(标准站、传感器、卫星遥感);
B)气象数据;
C)人口密度数据;
D)PBLH数据;
E)土地利用数据;
F)NDVI数据;
G)海拔数据;
H)道路信息数据(网格内道路长度,网格中心到最近道路的距离);
I)通过时空插值、重采样等方法将协变量处理至研究区域的1km网格,并填补时间上的缺失值。
2)考虑到传感器浓度数据的质量存在较大的不确定性,将传感器与临近的标准站配对,采用GWR模型,参照标准站浓度数据对所有传感器NO2浓度进行校准,并清洗异常值,与标准站NO2浓度数据集合并为地面NO2监测浓度数据。具体步骤如下:首先选择距离传感器500m之内距离最近的标准站进行配对,基于配对的传感器-标准站逐时浓度数据构建GWR模型,对其它所有未配对传感器的监测浓度进行校准。校准过程会采用湿度、温度作为协变量。对校准后的传感器浓度数据进行异常值清洗(例如负值,校准偏差较大的值等),之后与标准站浓度数据集合并,作为模型的训练数据。
3)“两步法”第一步:采用卫星遥感NO2对流层垂直柱浓度的观测值作为因变量,协变量集合作为自变量构建机器学习模型,填补研究区域内所有1km网格的逐时卫星柱浓度数据。
4)“两步法”第二步:采用合并后的NO2地面监测浓度作为因变量,协变量集合(包括填补完整的卫星遥感对流层NO2垂直柱浓度数据)作为自变量,构建机器学习模型,重构得到研究区域1km网格逐时NO2地面浓度的全面域分布。
所述NO2浓度数据主要有三个来源,分别为地面标准站数据、地面传感器数据、以及卫星遥感获得的对流层NO2垂直柱浓度。其中,地面传感器数据,通过低成本传感器在空气质量监测,其成本低、灵活性高、时间分辨率高,适合密集布点。传感器设备采用光散射、电化学、金属氧化物或光离子的传感器监测方法,采用太阳能供电和常规市电供电相结合的形式,保证监测工作的正常进行。本发明将传感器的NO2浓度信息与地面标准站以及卫星的数据相互融合、补充,提升计算准确性。
所述气象数据包括但不仅限于分别为温度、大气压、相对湿度、蒸发量、南北向风速、东西向风速。
所述研究区域的NO2浓度监测数据与环境协变量数据的预处理这一步骤中,NO2浓度数据清洗异常值后,根据站点经纬度处理到1km网格中;环境协变量数据通过空间插值、重采样等方法填补至研究区域的1km网格;将卫星遥感对流层NO2垂直柱浓度数据重采样至研究区域的1km网格;为平滑空间分布并考虑邻近效应,对人口密度、土地利用、NDVI、海拔、道路等数据进行空间卷积;对于时间维度上存在缺失数据的自变量,采用时间卷积填补该变量在每个网格的缺失值。
时间卷积处理过程:
o(t)=∑n[I(n)·W(t-n)]/∑nW(t-n) (1)
其中,O(t)整个研究周期第t天的输出值,I(n)为第n天可用的原始值,W(t-n) 为I(n)在计算O(t)时的权值。W(t-n)由高斯核函数确定:
W(t-n)=exp[-(t-n)2/(2σ2)] (2)
其中,σ为高斯函数的标准差,基于敏感性分析及数据平滑程度的考虑,该参数依据每个网格上最大数据缺失天数进行动态变化。
在模型的训练及时空分布重构的步骤中,提出的“两步法”第一步将卫星遥感对流层NO2垂直柱浓度填补完整,作为协变量参与后续模型的训练,训练好的模型计算全面域的1km网格逐时NO2浓度数据,计算出的浓度分布具有高时空分辨率的特点,可以获得研究区域精细化的空气质量分布信息。
在模型的训练及时空分布重构的步骤中,采用十折交叉验证方法,从基于网格、基于月、基于区域等多个维度检验模型计算的准确性。
在模型的训练及时空分布重构的步骤中,采用机器学习模型,其计算速度快,占用资源少,可快速计算全面域的NO2逐时浓度时空分布。
本发明的有益效果是:在前期准备地面NO2浓度监测数据时,以传感器的浓度数据作为补充,获得更多的时空分布信息,同时扩充了训练数据集,提升计算准确性。
在重构研究区域NO2高分辨率时空分布时,采用“两步法”算法,首先将研究区域1km网格、逐时的卫星对流层NO2垂直柱浓度填补完整,将其加入协变量集合,参与下一步的模型构建与时空分布计算。填补完整的卫星遥感柱浓度数据从空间分布的角度提供了准确的信息,使得计算结果更加准确。
在模型的训练及时空分布重构中,采用机器学习模型,可以很好的拟合变量之间的非线性高阶交互关系,对于大数据集的计算更加准确、高效。
实施例:
某市是中国的老工业城市之一,其产业结构以高能耗、高污染的行业为主,例如钢铁、焦化、水泥、火电等。地面NO2浓度高分辨率时空分布能有效地捕捉到更多的空气质量分布信息,对该地区大气污染防治具有重要意义。
本次计算采用“两步法”算法,基于LightGBM机器学习计算模块,融合标准站、传感器、和哨兵5号(Sentinel-5P)卫星搭载的遥感传感器“TROPOMI 对流层观测仪”多源NO2浓度数据,以实现准确重构NO2高分辨率时空分布的目标。应用机器学习模型,结合气象数据、道路信息等数据,计算该地区1km 网格2018年7月1日至2019年6月30日的NO2逐时浓度。
1.收集数据;
1)标准站监测数据
地面标准站NO2逐时监测数据来源于299个标准监测站点。利用R语言 forecast包中的tsoutliers函数对每个站点的NO2逐时数据进行异常值清洗。对于非季节性的数据,该函数对其拟合出局部加权回归散点平滑曲线;对于季节性变化的数据,先进行季节和趋势的分解后再拟合局部回归(LOESS)曲线,若残差位于±2(q0.9-q0.1),±(q0.75-q0.25),±3.0(q0.75-q0.25)以外(其中 qp是残差的p分位数),则判定该数据为异常值。
2)传感器监测数据
地面传感器NO2逐时监测数据来源于680个传感器。同上,采用R语言 forecast包中的tsoutliers函数对每个站点的NO2逐时数据进行清洗。
表1地面标准站、传感器NO2监测数据统计信息表
注:Q1、Q2、Q3分别表示第一、第二、第三分位数;地面NO2监测数据的单位为μg/m3
3)TROPOMI NO2对流层垂直柱浓度
NO2对流层柱浓度数据来源于欧洲航天局在2017年10月13日成功发射的“哨兵5号”卫星。该卫星专用于全球大气污染监测,搭载的遥感传感器为“对流层观测仪”(TROPOMI),是当前空间分辨率最高的大气监测光谱仪之一,成像幅宽为2600km,成像分辨率为7km×3.5km,每日可实现全球各地全覆盖。由于我国的经纬度跨度较大,TROPOMI在各地的成像时间具有一定差异,大约在当地时间的12点至14点之间。将获得的TROPOMI对流层NO2柱浓度数据经空间重采样到1km网格上。
4)NDVI
NDVI数据来源于中等解析度光谱仪卫星值,其空间分辨率为250米,间隔为8天。将获取的数据通过面积加权平均的方法重采样至1km网格,并对每个网格的数据进行时间卷积,填补缺失数据。为了平滑空间分布并考虑邻近效应,对时间卷积后的NDVI数据进行空间卷积,得到NDVI空间卷积变量。
5)PBLH
逐时PBLH数据来源于美国航空航天局第二版现代回顾性研究与应用分析,其空间分辨率为0.625°×0.5°。将获取的数据通过面积加权平均的方法重采样至1km网格。
6)土地利用信息
土地利用类型数据来源于欧洲航天局气候变化行动第二阶段产品,其空间分辨率为300米。为了平滑空间分布并考虑邻近效应,对重采样到1km网格后的土地利用数据进行空间卷积,得到土地利用空间卷积变量。
7)海拔
海拔数据来源于美国航空航天局航天飞机雷达地形任务,其空间分辨率为30米。下载好的原始数据通过面积加权平均的方法重采样至1km网格。为了平滑空间分布并考虑邻近效应,对重采样后的海拔数据进行空间卷积,得到海拔空间卷积变量。
8)道路信息
道路信息数据来源于公开道路地图。道路信息数据分为两个变量:网格中心点到道路的最近距离;网格内道路总长度。
9)气象监测数据
逐时气象数据包括温度、大气压、东西向风速、南北向风速、降雨量、相对湿度、蒸发量共七个变量。数据来源于研究区域及其周边的51个气象监测站点。首先对每个站点的气象数据进行清洗,去除异常值。随后,对于两类站点中数据缺失时间长度不超过3天的进行填补,缺失超过3天的则不填补。时间填补后,使用正态变换和结合海拔的协同克里金对这些数据进行空间插值。
2.其它数据
1)网格中心点到海的最近距离
从中国海岸线的矢量文件中提取各网格中心点到海岸线的最近距离。
2)人口密度
人口密度数据来自于美国航天航空局社会经济数据与应用中心,其空间分辨率为30弧秒。将下载好的原始数据通过面积加权平均的方法重采样至1km 网格。为了平滑空间分布并考虑邻近效应,对重采样后的人口密度数据进行空间卷积,得到人口密度空间卷积变量。
3.基于LightGBM计算模块的“两步法”算法
LightGBM是boosting算法实现的一种,可进行高性能并行计算,并且在控制模型过拟合方面具有优秀表现。在本计算中,采用LightGBM算法对来自TROPOMI的NO2对流层垂直柱浓度进行建模填补。
在数据预处理阶段,我们采用GWR模型对传感器数据进行校准,首先将所有标准站和传感器的数据匹配至1km网格,若网格中存在多个站点则取平均。将距离传感器500m之内距离最近的标准站配对,根据配对站点的空间位置和浓度,以温度和湿度作为协变量,建立GWR模型,对所有传感器的浓度数据进行校准,再与标准站数据合并,作为下一步建模的训练数据。
“两步法”第一步,将卫星遥感对流层NO2垂直柱浓度的观测值重采样至 1km网格,并与海拔、土地利用、气象信息、人口密度等其它协变量的数据进行匹配,作为训练数据集。卫星遥感的观测值作为因变量,其它协变量作为自变量训练模型。采用训练完成的模型,基于全面域的1km网格协变量数据集,填补卫星遥感柱浓度数据的空缺。第二步,将处理至1km网格的地面监测NO2浓度,与对流层NO2柱浓度、海拔、土地利用、气象信息、人口密度等其它协变量的数据进行匹配。地面监测浓度作为因变量,其它协变量作为自变量训练模型,重构全面域1km网格的地面NO2逐时浓度。
综上所述,在研究区域内的NO2浓度数据以及其协变量的数据前期准备中,采用传感器的浓度数据作为补充,计算推断地表NO2浓度的高分辨率时空分布,获得更全面地时空分布信息。基于样本的十折交叉验证结果表明,模型R2为0.77。
表2模型验证结果
基于全面域的重构结果,绘制空间分布图,筛选典型污染事件,定位污染区域,刻画传播路径,为精细化空气质量管理提供支撑。
表3变量信息表
综上所述,在前期准备地面NO2浓度监测数据时,以传感器的浓度作为补充数据,计算NO2高分辨率时空分布,以获得更多的时空分布信息,扩充了训练数据集,使得计算更加准确。
以上内容仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于多源大数据的NO2高分辨率时空分布计算方法,其特征在于:具体步骤如下:
1)研究区域的NO2浓度监测数据与环境协变量数据预处理;涉及以下内容:
A)三个不同来源的NO2浓度数据集,包括标准空气质量监测站(简称标准站)NO2浓度、微型空气质量监测站(简称传感器)NO2浓度、卫星遥感对流层NO2垂直柱浓度;
B)气象数据;
C)人口密度数据;
D)行星边界层高度(PBLH)数据;
E)土地利用数据;
F)归一化植被指数(NDVI)数据;
G)海拔数据;
H)道路信息数据(网格内道路长度,网格中心到最近道路的距离);
I)通过时空插值、重采样等方法将协变量处理至研究区域的1km网格,并填补时间上的缺失值;
2)将传感器与临近的标准站配对,采用地理加权回归模型(GWR)对传感器数据进行校准清洗,将其与标准站的NO2浓度数据集进行合并;
3)“两步法”第一步:采用卫星遥感对流层NO2垂直柱浓度的观测值作为因变量,协变量集合作为自变量构建机器学习模型,填补研究区域内所有1km网格的逐时卫星遥感柱浓度数据;
4)“两步法”第二步:采用合并后的NO2地面监测浓度作为因变量,协变量集合(包括填补完整的卫星遥感对流层NO2垂直柱浓度数据)作为自变量,构建机器学习模型,重构得到研究区域1km网格逐时NO2地面浓度的全面域分布。
2.根据权利要求1所述的一种基于多源大数据的NO2高分辨率时空分布计算方法,其特征在于:所述NO2浓度数据主要有三个来源,分别为地面标准站数据、地面传感器数据、以及卫星遥感获得的对流层NO2垂直柱浓度。
3.根据权利要求1所述的一种基于多源大数据的NO2高分辨率时空分布计算方法,其特征在于:所述气象数据包括但不仅限于温度、大气压、相对湿度、蒸发量、南北向风速、东西向风速。
4.根据权利要求1所述的一种基于多源大数据的NO2高分辨率时空分布计算方法,其特征在于:所述研究区域的NO2浓度监测数据与环境协变量数据预处理这一步骤中,NO2浓度数据清洗异常值后,根据站点经纬度处理到1km网格;环境协变量数据通过空间插值、重采样等方法填补至研究区域的1km网格;为平滑空间分布并考虑邻近效应,对协变量进行空间卷积;对于时间维度上存在缺失数据的协变量,采用时间插值、时间卷积等方法填补该变量在每个网格的缺失值。
5.根据权利要求1所述的一种基于多源大数据的NO2高分辨率时空分布计算方法,其特征在于:所述模型的训练及时空分布重构步骤中,提出的“两步法”第一步将卫星遥感对流层NO2垂直柱浓度填补完整,作为协变量参与后续模型的训练,提供准确的空间分布信息,有利于提高地面NO2计算的准确性。
6.根据权利要求1所述的一种基于多源大数据的NO2高分辨率时空分布计算方法,其特征在于:所述模型的训练及时空分布重构步骤中,“两步法”第二步训练的模型用于计算整个研究区域的1km网格逐时NO2浓度。
7.根据权利要求1所述的一种基于多源大数据的NO2高分辨率时空分布计算方法,其特征在于:所述模型的训练及时空分布重构步骤中,采用十折交叉验证方法,从基于样本、基于网格、基于月、基于区域等多个维度检验模型计算的准确性。
8.根据权利要求1所述的一种基于多源大数据的NO2高分辨率时空分布计算方法,其特征在于:所述模型的训练及时空分布重构步骤中,采用机器学习模型,可以很好地拟合变量之间的非线性高阶交互关系,对于大数据集的计算更加准确、高效。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110645612.6A CN113297528B (zh) | 2021-06-10 | 2021-06-10 | 一种基于多源大数据的no2高分辨率时空分布计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110645612.6A CN113297528B (zh) | 2021-06-10 | 2021-06-10 | 一种基于多源大数据的no2高分辨率时空分布计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113297528A true CN113297528A (zh) | 2021-08-24 |
CN113297528B CN113297528B (zh) | 2022-07-01 |
Family
ID=77327740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110645612.6A Expired - Fee Related CN113297528B (zh) | 2021-06-10 | 2021-06-10 | 一种基于多源大数据的no2高分辨率时空分布计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297528B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113984969A (zh) * | 2021-10-26 | 2022-01-28 | 西安交通大学 | 一种基于多源时空数据融合的空气质量预测方法及系统 |
CN114169232A (zh) * | 2021-11-29 | 2022-03-11 | 中国科学技术大学 | 全时段三维大气污染物的重构方法、装置、计算机设备和存储介质 |
CN114255392A (zh) * | 2021-12-21 | 2022-03-29 | 中国科学技术大学 | 基于卫星超光谱遥感和人工智能的二氧化氮浓度预测系统 |
CN114330146A (zh) * | 2022-03-02 | 2022-04-12 | 北京英视睿达科技股份有限公司 | 一种卫星气体数据补全方法和系统 |
CN114720398A (zh) * | 2022-05-24 | 2022-07-08 | 北京劢亚科技有限公司 | 一种测量碳值的空间分布的系统和方法 |
CN114861882A (zh) * | 2022-05-07 | 2022-08-05 | 国网四川省电力公司电力科学研究院 | 一种co2时空分布重构方法及系统 |
CN114878748A (zh) * | 2022-05-07 | 2022-08-09 | 国网四川省电力公司电力科学研究院 | 一种co2排放量的监测方法及监测系统 |
CN114898823A (zh) * | 2022-07-01 | 2022-08-12 | 北京英视睿达科技股份有限公司 | 一种高时空分辨率遥感近地面no2浓度预估方法和系统 |
CN115238245A (zh) * | 2022-09-22 | 2022-10-25 | 中科三清科技有限公司 | 污染物监测方法、装置、存储介质及电子设备 |
CN115310550A (zh) * | 2022-08-16 | 2022-11-08 | 国网四川省电力公司电力科学研究院 | 一种大气二氧化碳干空气柱浓度计算方法及系统 |
CN116008481A (zh) * | 2023-01-05 | 2023-04-25 | 山东理工大学 | 基于大范围地面监测站点的空气污染物监测方法、装置 |
CN117557921A (zh) * | 2023-09-25 | 2024-02-13 | 中国海洋大学 | 基于数值模拟和深度学习的叶绿素遥感数据重构方法 |
CN118351964A (zh) * | 2024-04-29 | 2024-07-16 | 四川大学 | 一种基于多元数据的环境no2光解速率估算方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014207492A1 (en) * | 2013-06-28 | 2014-12-31 | Óbudai Egyetem | Measurement data collection method and system for spatially detecting atmosphere properties |
CN104361156A (zh) * | 2014-10-29 | 2015-02-18 | 中国石油化工股份有限公司 | 一种基于加热炉燃烧模型的优化燃烧卡边条件确定方法 |
CN105550784A (zh) * | 2016-01-20 | 2016-05-04 | 中科宇图科技股份有限公司 | 一种空气质量监测站优化布点方法 |
CN106404620A (zh) * | 2015-07-30 | 2017-02-15 | 中国科学院遥感与数字地球研究所 | 地统计插值与卫星遥感联合反演地面pm2.5的方法及系统 |
CN108469273A (zh) * | 2018-02-27 | 2018-08-31 | 济宁中科云天环保科技有限公司 | 基于机器学习算法的云端数据联调校准方法 |
CN110766257A (zh) * | 2018-07-28 | 2020-02-07 | 华中科技大学 | 一种评估人群空气污染物短期暴露浓度的方法 |
CN111323544A (zh) * | 2020-03-27 | 2020-06-23 | 沈阳沃尔鑫环保科技有限公司 | 一种基于微型空气质量监测仪器的校准方法及系统 |
CN112884079A (zh) * | 2021-03-30 | 2021-06-01 | 河南大学 | 一种基于Stacking集成模型的近地面二氧化氮浓度估算方法 |
CN112905560A (zh) * | 2021-02-02 | 2021-06-04 | 中国科学院地理科学与资源研究所 | 一种多源时空大数据深度融合的空气污染预测方法 |
-
2021
- 2021-06-10 CN CN202110645612.6A patent/CN113297528B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014207492A1 (en) * | 2013-06-28 | 2014-12-31 | Óbudai Egyetem | Measurement data collection method and system for spatially detecting atmosphere properties |
CN104361156A (zh) * | 2014-10-29 | 2015-02-18 | 中国石油化工股份有限公司 | 一种基于加热炉燃烧模型的优化燃烧卡边条件确定方法 |
CN106404620A (zh) * | 2015-07-30 | 2017-02-15 | 中国科学院遥感与数字地球研究所 | 地统计插值与卫星遥感联合反演地面pm2.5的方法及系统 |
CN105550784A (zh) * | 2016-01-20 | 2016-05-04 | 中科宇图科技股份有限公司 | 一种空气质量监测站优化布点方法 |
CN108469273A (zh) * | 2018-02-27 | 2018-08-31 | 济宁中科云天环保科技有限公司 | 基于机器学习算法的云端数据联调校准方法 |
CN110766257A (zh) * | 2018-07-28 | 2020-02-07 | 华中科技大学 | 一种评估人群空气污染物短期暴露浓度的方法 |
CN111323544A (zh) * | 2020-03-27 | 2020-06-23 | 沈阳沃尔鑫环保科技有限公司 | 一种基于微型空气质量监测仪器的校准方法及系统 |
CN112905560A (zh) * | 2021-02-02 | 2021-06-04 | 中国科学院地理科学与资源研究所 | 一种多源时空大数据深度融合的空气污染预测方法 |
CN112884079A (zh) * | 2021-03-30 | 2021-06-01 | 河南大学 | 一种基于Stacking集成模型的近地面二氧化氮浓度估算方法 |
Non-Patent Citations (2)
Title |
---|
YU ZHAN 等: "Spatiotemporal prediction of continuous daily PM2.5 concentrations across China using a spatially explicit machine learning algorithm", 《ATMOSPHERIC ENVIRONMENT》 * |
王庆鑫: "基于Himawari-8卫星的AOD反演及PM2.5估算研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113984969A (zh) * | 2021-10-26 | 2022-01-28 | 西安交通大学 | 一种基于多源时空数据融合的空气质量预测方法及系统 |
CN114169232A (zh) * | 2021-11-29 | 2022-03-11 | 中国科学技术大学 | 全时段三维大气污染物的重构方法、装置、计算机设备和存储介质 |
CN114255392A (zh) * | 2021-12-21 | 2022-03-29 | 中国科学技术大学 | 基于卫星超光谱遥感和人工智能的二氧化氮浓度预测系统 |
CN114255392B (zh) * | 2021-12-21 | 2023-06-20 | 中国科学技术大学 | 基于卫星超光谱遥感和人工智能的二氧化氮浓度预测系统 |
CN114330146A (zh) * | 2022-03-02 | 2022-04-12 | 北京英视睿达科技股份有限公司 | 一种卫星气体数据补全方法和系统 |
CN114878748A (zh) * | 2022-05-07 | 2022-08-09 | 国网四川省电力公司电力科学研究院 | 一种co2排放量的监测方法及监测系统 |
CN114861882A (zh) * | 2022-05-07 | 2022-08-05 | 国网四川省电力公司电力科学研究院 | 一种co2时空分布重构方法及系统 |
CN114720398A (zh) * | 2022-05-24 | 2022-07-08 | 北京劢亚科技有限公司 | 一种测量碳值的空间分布的系统和方法 |
CN114898823A (zh) * | 2022-07-01 | 2022-08-12 | 北京英视睿达科技股份有限公司 | 一种高时空分辨率遥感近地面no2浓度预估方法和系统 |
CN114898823B (zh) * | 2022-07-01 | 2022-10-14 | 北京英视睿达科技股份有限公司 | 一种高时空分辨率遥感近地面no2浓度预估方法和系统 |
CN115310550A (zh) * | 2022-08-16 | 2022-11-08 | 国网四川省电力公司电力科学研究院 | 一种大气二氧化碳干空气柱浓度计算方法及系统 |
CN115238245A (zh) * | 2022-09-22 | 2022-10-25 | 中科三清科技有限公司 | 污染物监测方法、装置、存储介质及电子设备 |
CN116008481A (zh) * | 2023-01-05 | 2023-04-25 | 山东理工大学 | 基于大范围地面监测站点的空气污染物监测方法、装置 |
CN117557921A (zh) * | 2023-09-25 | 2024-02-13 | 中国海洋大学 | 基于数值模拟和深度学习的叶绿素遥感数据重构方法 |
CN118351964A (zh) * | 2024-04-29 | 2024-07-16 | 四川大学 | 一种基于多元数据的环境no2光解速率估算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113297528B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113297528B (zh) | 一种基于多源大数据的no2高分辨率时空分布计算方法 | |
Chen et al. | Extreme gradient boosting model to estimate PM2. 5 concentrations with missing-filled satellite data in China | |
CN113297527B (zh) | 基于多源城市大数据的pm2.5全面域时空计算推断方法 | |
Carmichael et al. | The MICS-Asia study: model intercomparison of long-range transport and sulfur deposition in East Asia | |
CN112884079A (zh) | 一种基于Stacking集成模型的近地面二氧化氮浓度估算方法 | |
Zhao et al. | High-resolution daily AOD estimated to full coverage using the random forest model approach in the Beijing-Tianjin-Hebei region | |
CN112905560A (zh) | 一种多源时空大数据深度融合的空气污染预测方法 | |
Qin et al. | Satellite-based estimation of surface NO2 concentrations over east-central China: A comparison of POMINO and OMNO2d data | |
He et al. | Satellite-derived 1-km estimates and long-term trends of PM2. 5 concentrations in China from 2000 to 2018 | |
CN105912836B (zh) | 一种纯遥感数据驱动的流域水循环模拟方法 | |
Ding et al. | Intercomparison of NO x emission inventories over East Asia | |
CN111723524B (zh) | 一种基于日变化约束的pm2.5卫星遥感反演方法 | |
CN106404620A (zh) | 地统计插值与卫星遥感联合反演地面pm2.5的方法及系统 | |
Sakti et al. | Spatial integration framework of solar, wind, and hydropower energy potential in Southeast Asia | |
Heo et al. | Digital elevation model-based convolutional neural network modeling for searching of high solar energy regions | |
Wang et al. | Constructing a gridded direct normal irradiance dataset in China during 1981–2014 | |
Ma et al. | Statistical spatial-temporal modeling of ambient ozone exposure for environmental epidemiology studies: A review | |
Liu et al. | Estimation of monthly bulk nitrate deposition in China based on satellite NO2 measurement by the Ozone Monitoring Instrument | |
Jin et al. | Global validation and hybrid calibration of CAMS and MERRA-2 PM2. 5 reanalysis products based on OpenAQ platform | |
CN113553782B (zh) | 一种用于预报风速的降尺度方法 | |
Cao et al. | A long-term analysis of atmospheric black carbon MERRA-2 concentration over China during 1980–2019 | |
Cao et al. | Country-level evaluation of solar radiation data sets using ground measurements in China | |
Guo et al. | Spatial distributions and temporal variations of atmospheric aerosols and the affecting factors: a case study for a region in central China | |
CN112100922A (zh) | 一种基于wrf和cnn卷积神经网络的风资源预测方法 | |
da Silva et al. | Climate downscaling over South America for 1971–2000: application in SMAP rainfall-runoff model for Grande River Basin |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220701 |
|
CF01 | Termination of patent right due to non-payment of annual fee |