CN113297527A

CN113297527A - 基于多源城市大数据的pm2.5全面域时空计算推断方法

Info

Publication number: CN113297527A
Application number: CN202110643654.6A
Authority: CN
Inventors: 詹宇; 唐蝶; 付建博; 王春迎; 李涛; 李春圆; 刘莘义; 朱瑢昕; 马红楠; 马景金
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-08-24
Anticipated expiration: 2041-06-09
Also published as: CN113297527B

Abstract

本发明涉及大气污染物时空分布计算领域，且公开了基于多源城市大数据的细颗粒物(PM_2.5)全面域时空计算推断方法。该方法通过收集固定站及传感器PM_2.5浓度数据、卫星遥感气溶胶光学厚度，以及其它环境协变量，建立迭代补缺‑机器学习模型，有效地解决了多源数据融合中存在的数据异质性、时空欠匹配和抽样偏差等问题。本发明灵活高效地融合固定站、传感器和卫星遥感等多源数据，能更加准确地重构PM_2.5的高分辨率时空分布，形成1km网格PM_2.5逐时浓度的高分辨率时空分布结果，这是实现空气质量精细化管控的重要技术基础，有利于实时发掘和定位高潜污染源，最终能针对性地监测管控污染排放。

Description

基于多源城市大数据的PM2.5全面域时空计算推断方法

技术领域

本发明涉及大气污染物时空分布计算领域，具体为基于多源城市大数据的PM_2.5全面域时空计算推断方法。

背景技术

近年来，我国大部分地区的空气质量得到明显改善，但总体污染水平仍然较高，其中细颗粒物(PM_2.5)仍是大部分地区的空气首要污染物，掌握PM_2.5等大气污染物浓度的高分辨率时空分布对于空气质量精细化管理具有重要价值，在增设地面监测站点的同时，基于多维环境数据及机器学习，通过“以算补测”的方式，经济、高效地获得大气污染物浓度的高精度时空分布(如1km网格PM_2.5的逐时浓度)，是目前环境大数据研究的热点之一，属于数据科学研究范畴的机器学习模型，擅于处理多维大数据，能有效模拟多变量间非线性及交互作用，是重构大气污染物浓度时空分布的重要方法。然而，环境数据中普遍存在的训练数据时空欠匹配、抽样偏差等问题，限制了机器学习模型在环境领域的实际应用。

机器学习模型广泛应用于重构PM_2.5等大气污染物的时空分布研究。研究者以卫星遥感、气象条件、土地利用类型等信息作为自变量组合(以下简称为特征空间)，以PM_2.5等污染物的地面浓度作为因变量(简称为输出空间)，基于定义的算法，构建从特征空间到输出空间的映射集合(简称为模型空间)。大量的多维环境数据也为机器学习重构PM_2.5等大气污染物的时空分布提供必要且丰富的基础数据。如何充分发挥多维数据各自的比较优势，如地面监测的时间覆盖优势和卫星遥感数据的空间覆盖优势，是当前基于环境大数据重构空气质量时空分布的研究的一个重点，也是难点。

时空欠匹配问题指的是不同变量的数据在时间和空间上无法完全匹配。例如，按照小时和1km网格对MODIS的AOD数据和地面监测PM_2.5逐时浓度数据进行时空匹配后，形成的数据集中有很多行只包含其中一列的数据，即存在大量不完整的样本。为了获得丰富的训练样本及全面域的时空分布结果，须对多维数据中的缺失值进行填补。有研究采用多重补缺、预测模型等方法填补AOD数据中的缺失值。但由于AOD与PM_2.5等变量间存在较强的关联，对AOD进行补缺时如果忽略其对PM_2.5的影响，将损坏该多变量联合分布的一致性，使PM_2.5时空分布重构结果产生较大偏差。因此，须研究建立时空欠匹配多维数据缺失值的填补方法，维持模型中多变量联合分布的一致性。

对于训练数据的抽样偏差问题，须平衡其对不同特征子空间表示的非均衡性。抽样偏差问题指的是训练数据样本点在特征空间中呈现非均衡分布，使训练的模型在预测数据相关的特征子空间中缺乏泛化能力。例如，2013-2015年间MODIS的AOD数据在成都市区的缺失度明显高于郊区，而地面监测站点大多位于市区，如果忽略AOD或PM_2.5数据的抽样偏差问题，将导致城区和郊区的PM_2.5浓度估算产生较大偏差。已有研究应用过/欠采样、样本加权等方式，降低抽样偏差对模型泛化能力的不利影响。据此，可以通过探究训练样本的加权策略，平衡抽样偏差数据对不同特征子空间的表示能力。

综上所述，亟需研究相关机器学习模型的特征空间优化机制，故而我们提出了基于多源城市大数据的PM_2.5全面域时空计算推断方法，该方法能够有效地解决空气质量多源信息融合中存在的数据异质性、时空欠匹配和抽样偏差等问题，提高大气污染物浓度时空分布重构的准确性。

发明内容

为达到有效解决空气质量多源信息融合中存在的时空欠匹配和抽样偏差等问题的目的，本发明提供了一种基于多源城市大数据的PM_2.5全面域时空计算推断方法，其关键的迭代补缺技术充分发挥了多维环境数据各自的优势，有效解决了训练数据时空欠匹配、抽样偏差的问题，为大气污染物时空分布重构提供算法支持，“以算补测”，为空气质量精细化管理提供科学支持。

本发明的技术方案主要包括以下步骤：

S1、信息集成：构建城市尺度“天地一体”空气质量监测及多源基础信息数据库，包括卫星遥感、固定站和传感器的空气质量监测数据、气象、排放清单、土地利用、海拔、NDVI、PBLH、人口密度、道路分布等基础信息；

S2、迭代补缺：建立迭代补缺-机器学习模型，将卫星数据、传感器数据、固定站数据依次作为因变量，另两个变量及S1中的其它环境协变量作为自变量，训练相应的机器学习模型，以此模型的预测值插补该因变量的缺失值。迭代计算，直至这三个变量补缺后的数据集相似性收敛，得到填补完整的数据集；

S3、时空重构：根据S2中获得填补完整的数据集作为训练数据集，建立机器学习模型，重构全面域、全时空的PM_2.5地面浓度；

S4、模型验证：采用基于样本、基于站点、基于月份、基于区域的多维度验证方法来评价模型的性能。

作为优化，所述S1的卫星遥感数据来自于丰富的卫星遥感监测，如MODIS、葵花8号以及我国的环境卫星等，提供大范围高时空分辨率的AOD等信息；传感器PM_2.5数据来自于部署的大量且密集的低成本传感器的在线监测浓度数据；固定站PM_2.5数据来自于研究区域标准空气质量自动监测站在线监测的常规大气污染物的逐时浓度；气象站提供在线监测的温度、湿度、风场等基本气象信息。使用基于“超级平滑器”算法的过滤器对空气质量和气象观测数据进行数据清理。

作为优化，所述S1从在线数据库中获取土地利用类型、海拔、人口密度、排放清单等相关信息，通过空间重采样、时/空卷积等特征工程方法预处理上述多源环境数据，再由时空关联等方法合并成统一的数据集，用于机器学习模型的训练和预测，该数据集通常包括数十至数百个变量。

作为优化，所述S1中卫星遥感是“天地一体”空气质量监测的重要组成部分，虽然在冬季存在较大缺失，但在观测条件较好的夏、秋季提供重要的空气污染空间分布趋势，为基于信息融合的完整面域时空计算提供重要信息，从多类信息源获取包括土地利用类型、海拔、NDVI、道路、排放清单等基础数据，采用空间重采样和时空插值等地理信息系统GIS技术，将以上数据分配到1km网格上，为后续的计算提供数据保障。

作为优化，所述S2有效解决了多源数据融合中数据异质性和时空匹配的问题，在填补缺失数据时维持多变量联合分布的一致性。具体计算步骤如下：

迭代填补计算：

输入：Y_j：时间、空间上待填补的变量，j＝1,…,m

STlist：待填补变量在时间、空间上的并集

D：协变量(在STlist中没有数据缺失)

maxiter：最大迭代数

iter：迭代数，初始迭代数iter＝1

missY_j：待填补变量Y_j在STlist中数据缺失的部分

obsY_j：待填补变量Y_j在STlist中具有观测数据的部分

A：训练数据集，A＝(Y_j,D)

convThreshold：收敛阈值

输出：迭代中填补结果最优的数据集

方法：

初始化以上变量

对每个Y_j，j＝1,…,m：

missY_m,0←obsY_m的均值

更新Y_m,0←[obsY_m,missY_m,0]

更新训练集为A₀←(Y_j,0,D)

当iter<maxiter时：

对每个Y_j，j＝1,…,m：

应变量A←obsY_m

自变量B←[Y_j\Y_m]_obsYm

构建GBM模型f_A＝(B,D_obsYm)

得到missY_m部分的预测值missY_m,pre，替换missY_m,iter-1

missY_m,iter←(missY_m,pre+missY_m,iter-1)/2

更新Y_m,iter←[obsY_m,missY_m,iter]

更新训练数据集A_iter←(Y_j,iter,D)

计算Y_j,iter与Y_j,iter-1的标准化欧式距离d_iter

如果d_iter＝0：

结束迭代

当iter>5：

计算Δd_iter←(d_iter+d_iter-1-d_iter-3-d_iter-4)/2

如果Δd_iter<ε：

结束迭代

iter←iter+1

返回迭代中的最优填补结果，即d_iter最小时，填补获得的训练集A_iter。

作为优化，所述S2、S3中围绕训练数据抽样偏差问题，引入数据时空密度反向加权的策略对训练样本加权，提升模型对研究区域的整体重构性能。根据训练数据的时空分布密度，对各训练数据样本进行反向加权，给数据密度稀疏的样本更高的权重。地面监测PM_2.5数据主要存在空间上抽样偏差问题，而卫星遥感数据在空间和时间上都存在抽样偏差问题。

作为优化，反向加权步骤如下：将整个研究区域分隔为n×n个小区域，按照小区域分割及月份分层，分别统计变量j在小区域r月份m中的数据量N_j,r,m。在以变量j作为因变量的机器学习模型中，将每条训练样本的权重赋为相应小区域及月份数据量的倒数，即w_i,j＝1/N_j,r,m。样本加权通过修正模型训练时的损失函数影响模型结构，实现模型对不同特征子空间模拟的平衡性，降低其对训练数据稀少区域或时期的估算偏差。以变量j为因变量的模型损失函数定义如下：

其中，

和y_i,j分别是变量j在样本i的预测值和观测值。

作为优化，所述S4中基于样本和基于站点的验证采用十折交叉验证法。基于样本的十折交叉验证将数据集随机分成10份，轮流将其中9份作为训练数据，1份作为验证数据，进行试验比对。基于站点的十折交叉验证将站点随机分为10份，轮流将9份用于训练，1份用于验证。基于月份的验证选取一个月的数据作为验证数据，其余月份数据作为训练数据进行验证。基于区域的验证，按照上述的小区域分割情况，将其中一个区域的数据作为验证数据，其它区域的数据作为训练数据，进行模型性能的评估。

本发明的有益效果是：

基于多源城市大数据的PM_2.5全面域时空计算推断方法，通过收集固定站、传感器PM_2.5浓度数据，以及卫星遥感的AOD浓度，以及相应网格气象、土地利用、海拔、NDVI、PBLH、人口密度等多源环境信息，建立迭代补缺-机器学习模型计算PM_2.5的高分辨率时空分布，有效地解决空气质量多源数据融合中存在的数据异质性、时空匹配和抽样偏差等问题。本发明灵活高效地融合固定站、传感器和卫星遥感等多源数据，更加准确地重构大气污染物的高分辨率时空分布，基于得到的1km网格逐时浓度的高分辨率时空分布结果，是空气质量精细化管控的重要基础，实时发掘和定位高潜污染源，有助于针对性地减少污染排放。

附图说明

附图1为本发明总体流程图

附图2为本发明迭代补缺算法示意图

附图3为本发明迭代补缺收敛示意图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅实施例中的附图，基于多源城市大数据的PM_2.5全面域时空计算推断方法，包括以下步骤：

S2、迭代补缺：建立迭代补缺-机器学习模型重构PM_2.5地面浓度，将卫星数据、传感器数据、固定站数据依次作为因变量，另两个变量及S1中的其它环境协变量作为自变量，训练相应的机器学习模型，以此模型的预测值插补该因变量的缺失值。迭代计算，直至这三个变量补缺后的数据集相似性收敛，得到填补完整的数据集；

S3、时空重构：根据S2中获得的填补完整的数据集作为训练数据集，建立机器学习模型重构全面域、全时空的PM_2.5地面浓度；

S4、模型验证：采用基于样本、基于站点、基于月份、基于区域的多维验证方法来评价模型性能。

请参阅实施例，S1的卫星遥感数据来自于信息丰富的卫星遥感监测，如MODIS、葵花8号以及我国的环境卫星等，提供大范围高时空分辨率的AOD等信息；传感器PM_2.5数据来自于部署的大量且密集的低成本传感器的在线监测浓度数据；固定站PM_2.5数据来自于研究区域标准空气质量自动监测站在线监测的常规大气污染物的逐时浓度；气象站提供在线监测的温度、湿度、风场等基本气象信息。利用R语言forecast包中的tsoutliers函数对空气质量和气象观测数据进行数据清理，替换异常值。

请参阅实施例，S1从在线数据库中获取土地利用类型、海拔、人口密度、排放清单等相关信息，通过空间重采样、时/空卷积等特征工程方法预处理上述多源环境数据，再由时空关联等方法合并成统一的数据集，用于机器学习模型的训练和预测，该数据集通常包括数十至数百个变量。

请参阅实施例，S1中卫星遥感是“天地一体”空气质量监测的重要组成部分，虽然在冬季存在较大缺失，但在观测条件较好的夏、秋季提供重要的空气污染空间分布趋势，为基于信息融合的完整面域时空计算提供重要信息，从多类信息源获取包括土地利用类型、海拔、NDVI、PBLH、道路、排放清单等基础数据，采用空间重采样和时空插值等地理信息系统(GIS)技术，将以上数据分配到1km网格上，为后续的计算提供数据保障。

请参阅实施例，S2有效解决了多源数据融合中数据异质性和时空匹配的问题，在填补缺失数据时维持多变量联合分布的一致性。具体计算步骤如下：

迭代填补计算：

输入：Y_j：时间、空间上待填补的变量，j＝1,…,m

STlist：待填补变量在时间、空间上的并集

D：协变量(在STlist中没有数据缺失)

maxiter：最大迭代数

iter：迭代数，初始迭代数iter＝1

missY_j：待填补变量Y_j在STlist中数据缺失的部分

obsY_j：待填补变量Y_j在STlist中具有观测数据的部分

A：训练数据集，A＝(Y_j,D)

convThreshold：收敛阈值

输出：迭代中填补结果最优的数据集

方法：

初始化以上变量

对每个Y_j，j＝1,…,m：

missY_m,0←obsY_m的均值

更新Y_m,0←[obsY_m,missY_m,0]

更新训练集为A₀←(Y_j,0,D)

当iter<maxiter时：

对每个Y_j，j＝1,…,m：

应变量A←obsY_m

自变量B←[Y_j\Y_m]_obsYm

构建GBM模型f_A＝(B,D_obsYm)

得到missY_m部分的预测值missY_m,pre，替换missY_m,iter-1

missY_m,iter←(missY_m,pre+missY_m,iter-1)/2

更新Y_m,iter←[obsY_m,missY_m,iter]

更新训练数据集A_iter←(Y_j,iter,D)

计算Y_j,iter与Y_j,iter-1的标准化欧式距离d_iter

如果d_iter＝0：

结束迭代

当iter>5：

计算Δd_iter←(d_iter+d_iter-1-d_iter-3-d_iter-4)/2

如果Δd_iter<ε：

结束迭代

iter←iter+1

请参阅实施例，S2、S3中围绕训练数据抽样偏差问题，引入数据时空密度反向加权的策略对训练样本加权，提升模型对研究区域的整体重构性能。根据训练数据的时空分布密度，对各训练数据样本进行反向加权，给数据密度稀疏的样本更高的权重。地面监测PM_2.5数据主要存在空间上抽样偏差问题，而卫星遥感数据在空间和时间上都存在抽样偏差问题。

请参阅实施例，反向加权步骤如下：将整个研究区域分隔为n×n个小区域，按照小区域分割及月份分层，分别统计变量j在小区域r月份m中的数据量N_j,r,m。在以变量j作为因变量的机器学习模型中，将每条训练样本的权重赋为相应小区域及月份数据量的倒数，即w_i,j＝1/N_j,r,m。样本加权通过修正模型训练时的损失函数影响模型结构，实现模型对不同特征子空间模拟的平衡性，降低其对训练数据稀少区域或时期的估算偏差。以变量j为因变量的模型损失函数定义如下：

其中，

和y_i,j分别是变量j在样本i的预测值和观测值。

请参阅实施例，S4中基于样本和基于站点的验证采用十折交叉验证法。基于样本的十折交叉验证将数据集随机分成10份，轮流将其中9份作为训练数据，1份作为验证数据，进行试验比对。基于站点的十折交叉验证将站点随机分为10份，轮流将9份用于训练，1份用于验证。基于月份的验证选取一个月的数据作为验证数据，其余月份数据作为训练数据进行验证。基于区域的验证，按照上述的小区域分割情况，将其中一个区域的数据作为验证数据，其它区域的数据作为训练数据，进行模型性能的评估。

实施例：

某市是中原地区重要的工业城市，由于产业结构偏重、能源结构偏煤、产业布局不合理、环境基础设施建设较慢等原因，在环境污染防治攻坚战开展初期面临着前所未有的环境质量改善压力，其首要污染物以颗粒物为主。针对城市尺度的PM_2.5高分辨率时空分布重构是空气质量精细化管控的重要基础，实时发掘和定位高潜污染源，有助于该市的大气污染防治工作。

本实施例利用迭代补缺-梯度推进机算法(II-GBM)，基于XGBoost机器学习计算模块，对固定站、传感器监测的地面PM_2.5浓度，以及多角度大气校正算法(MAIAC)和葵花8号卫星反演的AOD等城市多源数据融合，实现该市某一年地面PM_2.5浓度全面域的时空计算，在计算过程中维持了多变量联合分布的一致性，得到更准确的时空分布结果。

1、数据收集和处理，构建基础环境数据库

(1)PM_2.5地面监测数据

PM_2.5监测数据来源于固定站(国控站、省控站、乡镇站)和传感器(β射线扬尘站、808微型站)共计195个站点。站点分布集中在市区，周边区县站点分布较为稀疏。本例中固定站共包含国控点4个、省控点25个、乡镇站22个；传感器包含β射线扬尘站30个、808微型站114个。根据站点的经纬度，将PM_2.5监测数据清理后处理到对应的1km网格中。

(2)卫星遥感数据

AOD数据来源于葵花8号和MAIAC卫星产品。葵花8号是一颗由日本气象厅运营的地球静止气象卫星，于2014年10月发射，位于赤道以上140.7°E，覆盖东亚大部分地区(包括中国大部分地区)和西太平洋。葵花8号卫星搭载了先进的AHI成像仪，有16个光谱带，以5公里分辨率每隔10分钟检索AOD。本研究中用到的是2级AOD数据，观测时间为北京时间06:00至17:00。

MAIAC采用时间序列分析和基于图像的加工技术，在植被稀疏的土地和相对明亮的表面进行气溶胶反演和大气修正。源自MODIS辐射率的MAIAC AOD产品具有1km空间分辨率，并且已被证明与PM_2.5浓度具有很强的相关性。搭载有MODIS光谱仪的Terra和Aqua卫星，分别发射于1999年12月和2002年5月，他们获取数据的时间分别是当地时间大约早上10:30，下午1:30。本研究中，将Aqua卫星和Terra卫星的MAIAC AOD值相结合以提高空间覆盖率。

利用逆距离加权方法将葵花8号和MAIAC的AOD数据空间重采样到研究区域的1km网格中。

(3)气象数据

本实施例中用到的气象数据包括大气压力、相对湿度、降雨量、温度、蒸汽压、风场(南北风速、东西风速)等，来自于该市及其周边区域的85个气象站点。由于气象条件的原始数据是基于站点的观测数据，因此我们使用基于海拔的协同克里金插值法将气象数据插值到1km网格中。考虑到地形对天气的影响，将海拔数据作为协同克里金插值中的协变量与普通克里金插值法相比，可以大大提高降水等天气变量的估计精度。

(4)其它环境协变量

a.植被覆盖指数(NDVI)

年度植被覆盖指数取自于MODIS传感器值，分辨率为250m，时间间隔为8天。

b.行星边界层高度(PBLH)

小时行星边界层高度数据取自于美国航空航天局第二版现代回顾性研究与应用分析，分辨率为0.625°×0.5°。

c.土地利用类型

土地利用类型数据取自于全球土地利用类型数据库，分辨率为30米。

d.海拔

海拔数据取自于美国航空航天局航天飞机雷达地形任务,分辨率为30米。

e.道路分布

道路密度数据取自于公开道路地图。

f.人口密度

人口密度数据取自于美国航天航空局社会经济数据与应用中心，世界人口栅格，版本4，分辨率为30弧秒。

将该市按照1km×1km的分辨率，划分为N个网格。单个网格内多个点位数据取平均值得到该网格小时数据。除PM_2.5网格原始数据，AOD、气象数据外，NDVI、PBLH、土地利用类型、道路密度及距离、人口密度等数据通过面积加权平均和时/空卷积的办法，填补缺失数据，得到覆盖全区域的数据集。再由时空关联等方法将上述所有数据合并成统一的数据集，用于机器学习模型的训练和预测。

2、迭代补缺

II-GBM的迭代过程主要是(附图2)：对于葵花8号和MAIAC的AOD数据、传感器和固定站的PM_2.5地面监测数据，首先将上述四组数据观测值部分的并集组成一个新的数据集，并与气象、人口密度等数据匹配。四组数据的缺失部分赋予一个初始值，各组数据的平均值作为相应的初始值。从观测数据较完整的一组数据开始迭代补缺。例如，首先对于葵花8号的AOD数据，选择有观测值的部分与其它数据源匹配建立模型，估算该组数据缺失的部分。然后对于MAIAC的AOD、传感器PM_2.5地面监测数据、固定站PM_2.5地面监测数据采用同样的方法填补训练。依次循环，逐步迭代，直到填补部分的数据相似性收敛(附图3)。此方法的优点在于填补AOD的时候加入了PM_2.5的信息，使得AOD-PM_2.5的关系在迭代过程中更加稳定，不同的数据源逐步融合，达到一种和谐稳定的状态，维持了各变量联合分布的一致性，且极大地扩充了模型的训练样本。

模型训练过程中每一行样本的权重由数据的时空密度反向加权给出，有效地解决了站点分布集中在市区所导致的抽样偏差的问题。研究区共分隔为3×3个小区域，按照小区域分割情况及12个月月份分层，分别统计变量j在小区域r月份m中的数据量N_j,r,m。在以变量j作为因变量的机器学习模型中，将每条训练样本的权重赋为相应小区域及月份数据量的倒数，即w_i,j＝1/N_j,r,m。

3、时空重构

根据迭代填补完成后的填补完整的数据集作为训练数据集，建立XGBoost模型重构全时间和空间的PM_2.5地面浓度。采用的XGBoost机器学习模型，计算速度更快，适应于高性能并行计算，能高效地处理上千万行的训练数据集，可以计算大时间空间尺度范围的PM_2.5浓度时空分布。

4、模型验证

以基于样本的十折交叉验证为例，对于上述要进行迭代训练的匹配后的数据集，包含葵花8号、MAIAC、传感器PM_2.5和固定站PM_2.5四组数据，每组都随机分为10份。每一折验证时，将每组数据的一份赋为空值。在整个数据集中，这四组数据只要有一组不为空值的全部行组成训练数据集，四组数据全为空值的行作为预测数据。将训练数据利用II-GBM进行迭代训练并建立模型，预测数据放入模型得到PM_2.5的预测值。循环10次，直至每一个观测值都有对应的预测值。每一折验证时，四组数据是随机分为10份，所以每一份赋为空值的数据中，可能包含匹配的四组数据值都为空值的行，也包含不全为空值的行。不全为空值的行作为训练数据集进行迭代补缺，这部分的预测值定义为迭代填补值。用填补后的数据集建立模型来预测全为空值的部分，这部分的预测值定义为预测值。

该市的PM_2.5精细化计算性能良好，决定系数R²＝0.85，均方根误差RMSE＝20.4μg/m³，相对预测误差RPE＝29.0％。而且迭代补缺过程和填补后的数据集预测PM_2.5的过程都有良好的计算结果。

N：样本量；R²：决定系数；RMSE：均方根误差(μg/m³)；RPE：相对预测误差(％)。

综上所述，计算城市PM_2.5浓度时采用迭代补缺的方法，充分利用了卫星遥感数据和传感器数据，获得了更多时间和空间上的信息，且在计算过程中维持了多变量联合分布的一致性，使得计算更加准确，得到城市全面域的1km网格的逐时浓度。对于重构的结果，我们可以从空间和时间上对该市PM_2.5污染分布进行研究，污染物高分辨率的时空分布结果是空气质量精细化管控的重要基础，能够实时发掘和定位高潜污染源，有助于针对性地减少污染排放，帮助空气质量管理者制定决策等。

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于多源城市大数据的PM_2.5全面域时空计算推断方法，其特征在于，包括以下步骤：

S1、信息集成：构建城市尺度“天地一体”空气质量监测及多源基础信息数据库，包括卫星遥感、固定站和传感器的空气质量监测数据，以及气象、排放清单、土地利用、海拔、植被覆盖指数(NDVI)、行星边界层高度(PBLH)、人口密度、道路分布等基础信息；

S2、迭代补缺：建立迭代补缺-机器学习模型，重构PM_2.5地面浓度，将卫星数据、传感器数据、固定站数据依次作为因变量，另两个变量及S1中的其它环境协变量作为自变量，训练相应的机器学习模型，以此模型的预测值插补该因变量的缺失值；迭代计算，直至这三个变量补缺后的数据集相似性收敛，得到填补完整的数据集；

S4、模型验证：采用基于样本、基于站点、基于月份、基于区域的多维度验证方法来评价模型性能。

2.根据权利要求1所述的基于多源城市大数据的PM_2.5全面域时空计算推断方法，其特征在于：所述S1的卫星遥感数据来自于丰富的卫星遥感监测，如中分辨率成像光谱仪(MODIS)、葵花8号以及我国的环境卫星等，提供大范围高时空分辨率的气溶胶光学厚度(AOD)等信息；传感器PM_2.5数据来自于部署的大量且密集的低成本传感器的在线监测浓度数据；固定站PM_2.5数据来自于研究区域标准空气质量自动监测站在线监测的常规大气污染物的逐时浓度；气象站提供在线监测的温度、湿度、风场等基本气象信息。

3.根据权利要求1所述的基于多源城市大数据的PM_2.5全面域时空计算推断方法，其特征在于：所述S1从在线数据库中获取土地利用类型、海拔、人口密度、排放清单等相关信息，通过空间重采样、时/空卷积等特征工程方法预处理上述多源环境数据，再由时空关联等方法合并成统一的数据集，用于机器学习模型的训练和预测，该数据集通常包括数十至数百个变量。

4.根据权利要求1所述的基于多源城市大数据的PM_2.5全面域时空计算推断方法，其特征在于：所述S1中卫星遥感是“天地一体”空气质量监测的重要组成部分，虽然卫星遥感数据在冬季存在较多缺失，但在观测条件较好的夏、秋季能提供重要的空气污染空间分布趋势，为基于信息融合的完整面域时空计算提供重要信息。

5.根据权利要求1所述的基于多源城市大数据的PM_2.5全面域时空计算推断方法，其特征在于：所述S2有效解决了多源数据融合中数据异质性和时空匹配的问题，在填补缺失数据时维持多变量联合分布的一致性；具体计算步骤如下：

迭代填补计算：

输入：Y_j：时间、空间上待填补的变量，j＝1,…,m

STlist：待填补变量在时间、空间上的并集

D：协变量(在STlist中没有数据缺失)

maxiter：最大迭代数

iter：迭代数，初始迭代数iter＝1

missY_j：待填补变量Y_j在STlist中数据缺失的部分

obsY_j：待填补变量Y_j在STlist中具有观测数据的部分

A：训练数据集，A＝(Y_j,D)

convThreshold：收敛阈值

输出：迭代中填补结果最优的数据集

方法：

初始化以上变量

对每个Y_j，j＝1,…,m：

missY_m,0←obsY_m的均值

更新Y_m,0←[obsY_m,missY_m,0]

更新训练集为A₀←(Y_j,0,D)

当iter<maxiter时：

对每个Y_j，j＝1,…,m：

应变量A←obsY_m

自变量B←[Y_j\Y_m]_obsYm

构建GBM模型f_A＝(B,D _obsYm)

得到missY_m部分的预测值missY_m,pre，替换missY_m,iter-1

missY_m,iter←(missY_m,pre+missY_m,iter-1)/2

更新Y_m,iter←[obsY_m,missY_m,iter]

更新训练数据集A_iter←(Y_j,iter,D)

计算Y_j,iter与Y_j,iter-1的标准化欧式距离d_iter

如果d_iter＝0：

结束迭代

当iter>5：

计算Δd_iter←(d_iter+d_iter-1-d_iter-3-d_iter-4)/2

如果Δd_iter<ε：

结束迭代

iter←iter+1

6.根据权利要求1所述的基于多源城市大数据的PM_2.5全面域时空计算推断方法，其特征在于：所述S2、S3中围绕训练数据抽样偏差问题，引入数据时空密度反向加权的策略对训练样本加权，提升模型对研究区域的整体重构性能；根据训练数据的时空分布密度，对各训练数据样本进行反向加权，给数据密度稀疏的样本更高的权重；地面监测PM_2.5数据主要存在空间上抽样偏差问题，而卫星遥感数据在空间和时间上都存在抽样偏差问题。

7.根据权利要求6所述的基于多源城市大数据的PM_2.5全面域时空计算推断方法，其特征在于，所述反向加权步骤如下：

将整个研究区域分隔为n×n个小区域，按照小区域分割及月份分层，分别统计变量j在小区域r月份m中的数据量N_j,r,m；在以变量j作为因变量的机器学习模型中，将每条训练样本的权重赋为相应小区域及月份数据量的倒数，即w_i,j＝1/N_j,r,m；样本加权通过修正模型训练时的损失函数影响模型结构，实现模型对不同特征子空间模拟的平衡性，降低其对训练数据稀少区域或时期的估算偏差,以变量j为因变量的模型损失函数定义如下：

其中，

和y_i,j分别是变量j在样本i的预测值和观测值。

8.根据权利要求1所述的基于多源城市大数据的PM_2.5全面域时空计算推断方法，其特征在于：所述S4中基于样本和基于站点的验证采用十折交叉验证法；基于样本的十折交叉验证将数据集随机分成10份，轮流将其中9份作为训练数据，1份作为验证数据，进行试验比对；基于站点的十折交叉验证将站点随机分为10份，轮流将9份用于训练，1份用于验证；基于月份的验证选取一个月的数据作为验证数据，其余月份数据作为训练数据进行验证；基于区域的验证，按照权利要求7所述的小区域分割，将其中一个区域的数据作为验证数据，其它区域的数据作为训练数据，进行模型性能的评估。