CN113297527A - 基于多源城市大数据的pm2.5全面域时空计算推断方法 - Google Patents

基于多源城市大数据的pm2.5全面域时空计算推断方法 Download PDF

Info

Publication number
CN113297527A
CN113297527A CN202110643654.6A CN202110643654A CN113297527A CN 113297527 A CN113297527 A CN 113297527A CN 202110643654 A CN202110643654 A CN 202110643654A CN 113297527 A CN113297527 A CN 113297527A
Authority
CN
China
Prior art keywords
data
iter
space
time
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110643654.6A
Other languages
English (en)
Other versions
CN113297527B (zh
Inventor
詹宇
唐蝶
付建博
王春迎
李涛
李春圆
刘莘义
朱瑢昕
马红楠
马景金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110643654.6A priority Critical patent/CN113297527B/zh
Publication of CN113297527A publication Critical patent/CN113297527A/zh
Application granted granted Critical
Publication of CN113297527B publication Critical patent/CN113297527B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大气污染物时空分布计算领域,且公开了基于多源城市大数据的细颗粒物(PM2.5)全面域时空计算推断方法。该方法通过收集固定站及传感器PM2.5浓度数据、卫星遥感气溶胶光学厚度,以及其它环境协变量,建立迭代补缺‑机器学习模型,有效地解决了多源数据融合中存在的数据异质性、时空欠匹配和抽样偏差等问题。本发明灵活高效地融合固定站、传感器和卫星遥感等多源数据,能更加准确地重构PM2.5的高分辨率时空分布,形成1km网格PM2.5逐时浓度的高分辨率时空分布结果,这是实现空气质量精细化管控的重要技术基础,有利于实时发掘和定位高潜污染源,最终能针对性地监测管控污染排放。

Description

基于多源城市大数据的PM2.5全面域时空计算推断方法
技术领域
本发明涉及大气污染物时空分布计算领域,具体为基于多源城市大数据的PM2.5全面域时空计算推断方法。
背景技术
近年来,我国大部分地区的空气质量得到明显改善,但总体污染水平仍然较高,其中细颗粒物(PM2.5)仍是大部分地区的空气首要污染物,掌握PM2.5等大气污染物浓度的高分辨率时空分布对于空气质量精细化管理具有重要价值,在增设地面监测站点的同时,基于多维环境数据及机器学习,通过“以算补测”的方式,经济、高效地获得大气污染物浓度的高精度时空分布(如1km网格PM2.5的逐时浓度),是目前环境大数据研究的热点之一,属于数据科学研究范畴的机器学习模型,擅于处理多维大数据,能有效模拟多变量间非线性及交互作用,是重构大气污染物浓度时空分布的重要方法。然而,环境数据中普遍存在的训练数据时空欠匹配、抽样偏差等问题,限制了机器学习模型在环境领域的实际应用。
机器学习模型广泛应用于重构PM2.5等大气污染物的时空分布研究。研究者以卫星遥感、气象条件、土地利用类型等信息作为自变量组合(以下简称为特征空间),以PM2.5等污染物的地面浓度作为因变量(简称为输出空间),基于定义的算法,构建从特征空间到输出空间的映射集合(简称为模型空间)。大量的多维环境数据也为机器学习重构PM2.5等大气污染物的时空分布提供必要且丰富的基础数据。如何充分发挥多维数据各自的比较优势,如地面监测的时间覆盖优势和卫星遥感数据的空间覆盖优势,是当前基于环境大数据重构空气质量时空分布的研究的一个重点,也是难点。
时空欠匹配问题指的是不同变量的数据在时间和空间上无法完全匹配。例如,按照小时和1km网格对MODIS的AOD数据和地面监测PM2.5逐时浓度数据进行时空匹配后,形成的数据集中有很多行只包含其中一列的数据,即存在大量不完整的样本。为了获得丰富的训练样本及全面域的时空分布结果,须对多维数据中的缺失值进行填补。有研究采用多重补缺、预测模型等方法填补AOD数据中的缺失值。但由于AOD与PM2.5等变量间存在较强的关联,对AOD进行补缺时如果忽略其对PM2.5的影响,将损坏该多变量联合分布的一致性,使PM2.5时空分布重构结果产生较大偏差。因此,须研究建立时空欠匹配多维数据缺失值的填补方法,维持模型中多变量联合分布的一致性。
对于训练数据的抽样偏差问题,须平衡其对不同特征子空间表示的非均衡性。抽样偏差问题指的是训练数据样本点在特征空间中呈现非均衡分布,使训练的模型在预测数据相关的特征子空间中缺乏泛化能力。例如,2013-2015年间MODIS的AOD数据在成都市区的缺失度明显高于郊区,而地面监测站点大多位于市区,如果忽略AOD或PM2.5数据的抽样偏差问题,将导致城区和郊区的PM2.5浓度估算产生较大偏差。已有研究应用过/欠采样、样本加权等方式,降低抽样偏差对模型泛化能力的不利影响。据此,可以通过探究训练样本的加权策略,平衡抽样偏差数据对不同特征子空间的表示能力。
综上所述,亟需研究相关机器学习模型的特征空间优化机制,故而我们提出了基于多源城市大数据的PM2.5全面域时空计算推断方法,该方法能够有效地解决空气质量多源信息融合中存在的数据异质性、时空欠匹配和抽样偏差等问题,提高大气污染物浓度时空分布重构的准确性。
发明内容
为达到有效解决空气质量多源信息融合中存在的时空欠匹配和抽样偏差等问题的目的,本发明提供了一种基于多源城市大数据的PM2.5全面域时空计算推断方法,其关键的迭代补缺技术充分发挥了多维环境数据各自的优势,有效解决了训练数据时空欠匹配、抽样偏差的问题,为大气污染物时空分布重构提供算法支持,“以算补测”,为空气质量精细化管理提供科学支持。
本发明的技术方案主要包括以下步骤:
S1、信息集成:构建城市尺度“天地一体”空气质量监测及多源基础信息数据库,包括卫星遥感、固定站和传感器的空气质量监测数据、气象、排放清单、土地利用、海拔、NDVI、PBLH、人口密度、道路分布等基础信息;
S2、迭代补缺:建立迭代补缺-机器学习模型,将卫星数据、传感器数据、固定站数据依次作为因变量,另两个变量及S1中的其它环境协变量作为自变量,训练相应的机器学习模型,以此模型的预测值插补该因变量的缺失值。迭代计算,直至这三个变量补缺后的数据集相似性收敛,得到填补完整的数据集;
S3、时空重构:根据S2中获得填补完整的数据集作为训练数据集,建立机器学习模型,重构全面域、全时空的PM2.5地面浓度;
S4、模型验证:采用基于样本、基于站点、基于月份、基于区域的多维度验证方法来评价模型的性能。
作为优化,所述S1的卫星遥感数据来自于丰富的卫星遥感监测,如MODIS、葵花8号以及我国的环境卫星等,提供大范围高时空分辨率的AOD等信息;传感器PM2.5数据来自于部署的大量且密集的低成本传感器的在线监测浓度数据;固定站PM2.5数据来自于研究区域标准空气质量自动监测站在线监测的常规大气污染物的逐时浓度;气象站提供在线监测的温度、湿度、风场等基本气象信息。使用基于“超级平滑器”算法的过滤器对空气质量和气象观测数据进行数据清理。
作为优化,所述S1从在线数据库中获取土地利用类型、海拔、人口密度、排放清单等相关信息,通过空间重采样、时/空卷积等特征工程方法预处理上述多源环境数据,再由时空关联等方法合并成统一的数据集,用于机器学习模型的训练和预测,该数据集通常包括数十至数百个变量。
作为优化,所述S1中卫星遥感是“天地一体”空气质量监测的重要组成部分,虽然在冬季存在较大缺失,但在观测条件较好的夏、秋季提供重要的空气污染空间分布趋势,为基于信息融合的完整面域时空计算提供重要信息,从多类信息源获取包括土地利用类型、海拔、NDVI、道路、排放清单等基础数据,采用空间重采样和时空插值等地理信息系统GIS技术,将以上数据分配到1km网格上,为后续的计算提供数据保障。
作为优化,所述S2有效解决了多源数据融合中数据异质性和时空匹配的问题,在填补缺失数据时维持多变量联合分布的一致性。具体计算步骤如下:
迭代填补计算:
输入:Yj:时间、空间上待填补的变量,j=1,…,m
STlist:待填补变量在时间、空间上的并集
D:协变量(在STlist中没有数据缺失)
maxiter:最大迭代数
iter:迭代数,初始迭代数iter=1
missYj:待填补变量Yj在STlist中数据缺失的部分
obsYj:待填补变量Yj在STlist中具有观测数据的部分
A:训练数据集,A=(Yj,D)
convThreshold:收敛阈值
输出:迭代中填补结果最优的数据集
方法:
初始化以上变量
对每个Yj,j=1,…,m:
missYm,0←obsYm的均值
更新Ym,0←[obsYm,missYm,0]
更新训练集为A0←(Yj,0,D)
当iter<maxiter时:
对每个Yj,j=1,…,m:
应变量A←obsYm
自变量B←[Yj\Ym]obsYm
构建GBM模型fA=(B,DobsYm)
得到missYm部分的预测值missYm,pre,替换missYm,iter-1
missYm,iter←(missYm,pre+missYm,iter-1)/2
更新Ym,iter←[obsYm,missYm,iter]
更新训练数据集Aiter←(Yj,iter,D)
计算Yj,iter与Yj,iter-1的标准化欧式距离diter
如果diter=0:
结束迭代
当iter>5:
计算Δditer←(diter+diter-1-diter-3-diter-4)/2
如果Δditer<ε:
结束迭代
iter←iter+1
返回迭代中的最优填补结果,即diter最小时,填补获得的训练集Aiter
作为优化,所述S2、S3中围绕训练数据抽样偏差问题,引入数据时空密度反向加权的策略对训练样本加权,提升模型对研究区域的整体重构性能。根据训练数据的时空分布密度,对各训练数据样本进行反向加权,给数据密度稀疏的样本更高的权重。地面监测PM2.5数据主要存在空间上抽样偏差问题,而卫星遥感数据在空间和时间上都存在抽样偏差问题。
作为优化,反向加权步骤如下:将整个研究区域分隔为n×n个小区域,按照小区域分割及月份分层,分别统计变量j在小区域r月份m中的数据量Nj,r,m。在以变量j作为因变量的机器学习模型中,将每条训练样本的权重赋为相应小区域及月份数据量的倒数,即wi,j=1/Nj,r,m。样本加权通过修正模型训练时的损失函数影响模型结构,实现模型对不同特征子空间模拟的平衡性,降低其对训练数据稀少区域或时期的估算偏差。以变量j为因变量的模型损失函数定义如下:
Figure BDA0003108930670000071
其中,
Figure BDA0003108930670000072
和yi,j分别是变量j在样本i的预测值和观测值。
作为优化,所述S4中基于样本和基于站点的验证采用十折交叉验证法。基于样本的十折交叉验证将数据集随机分成10份,轮流将其中9份作为训练数据,1份作为验证数据,进行试验比对。基于站点的十折交叉验证将站点随机分为10份,轮流将9份用于训练,1份用于验证。基于月份的验证选取一个月的数据作为验证数据,其余月份数据作为训练数据进行验证。基于区域的验证,按照上述的小区域分割情况,将其中一个区域的数据作为验证数据,其它区域的数据作为训练数据,进行模型性能的评估。
本发明的有益效果是:
基于多源城市大数据的PM2.5全面域时空计算推断方法,通过收集固定站、传感器PM2.5浓度数据,以及卫星遥感的AOD浓度,以及相应网格气象、土地利用、海拔、NDVI、PBLH、人口密度等多源环境信息,建立迭代补缺-机器学习模型计算PM2.5的高分辨率时空分布,有效地解决空气质量多源数据融合中存在的数据异质性、时空匹配和抽样偏差等问题。本发明灵活高效地融合固定站、传感器和卫星遥感等多源数据,更加准确地重构大气污染物的高分辨率时空分布,基于得到的1km网格逐时浓度的高分辨率时空分布结果,是空气质量精细化管控的重要基础,实时发掘和定位高潜污染源,有助于针对性地减少污染排放。
附图说明
附图1为本发明总体流程图
附图2为本发明迭代补缺算法示意图
附图3为本发明迭代补缺收敛示意图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅实施例中的附图,基于多源城市大数据的PM2.5全面域时空计算推断方法,包括以下步骤:
S1、信息集成:构建城市尺度“天地一体”空气质量监测及多源基础信息数据库,包括卫星遥感、固定站和传感器的空气质量监测数据、气象、排放清单、土地利用、海拔、NDVI、PBLH、人口密度、道路分布等基础信息;
S2、迭代补缺:建立迭代补缺-机器学习模型重构PM2.5地面浓度,将卫星数据、传感器数据、固定站数据依次作为因变量,另两个变量及S1中的其它环境协变量作为自变量,训练相应的机器学习模型,以此模型的预测值插补该因变量的缺失值。迭代计算,直至这三个变量补缺后的数据集相似性收敛,得到填补完整的数据集;
S3、时空重构:根据S2中获得的填补完整的数据集作为训练数据集,建立机器学习模型重构全面域、全时空的PM2.5地面浓度;
S4、模型验证:采用基于样本、基于站点、基于月份、基于区域的多维验证方法来评价模型性能。
请参阅实施例,S1的卫星遥感数据来自于信息丰富的卫星遥感监测,如MODIS、葵花8号以及我国的环境卫星等,提供大范围高时空分辨率的AOD等信息;传感器PM2.5数据来自于部署的大量且密集的低成本传感器的在线监测浓度数据;固定站PM2.5数据来自于研究区域标准空气质量自动监测站在线监测的常规大气污染物的逐时浓度;气象站提供在线监测的温度、湿度、风场等基本气象信息。利用R语言forecast包中的tsoutliers函数对空气质量和气象观测数据进行数据清理,替换异常值。
请参阅实施例,S1从在线数据库中获取土地利用类型、海拔、人口密度、排放清单等相关信息,通过空间重采样、时/空卷积等特征工程方法预处理上述多源环境数据,再由时空关联等方法合并成统一的数据集,用于机器学习模型的训练和预测,该数据集通常包括数十至数百个变量。
请参阅实施例,S1中卫星遥感是“天地一体”空气质量监测的重要组成部分,虽然在冬季存在较大缺失,但在观测条件较好的夏、秋季提供重要的空气污染空间分布趋势,为基于信息融合的完整面域时空计算提供重要信息,从多类信息源获取包括土地利用类型、海拔、NDVI、PBLH、道路、排放清单等基础数据,采用空间重采样和时空插值等地理信息系统(GIS)技术,将以上数据分配到1km网格上,为后续的计算提供数据保障。
请参阅实施例,S2有效解决了多源数据融合中数据异质性和时空匹配的问题,在填补缺失数据时维持多变量联合分布的一致性。具体计算步骤如下:
迭代填补计算:
输入:Yj:时间、空间上待填补的变量,j=1,…,m
STlist:待填补变量在时间、空间上的并集
D:协变量(在STlist中没有数据缺失)
maxiter:最大迭代数
iter:迭代数,初始迭代数iter=1
missYj:待填补变量Yj在STlist中数据缺失的部分
obsYj:待填补变量Yj在STlist中具有观测数据的部分
A:训练数据集,A=(Yj,D)
convThreshold:收敛阈值
输出:迭代中填补结果最优的数据集
方法:
初始化以上变量
对每个Yj,j=1,…,m:
missYm,0←obsYm的均值
更新Ym,0←[obsYm,missYm,0]
更新训练集为A0←(Yj,0,D)
当iter<maxiter时:
对每个Yj,j=1,…,m:
应变量A←obsYm
自变量B←[Yj\Ym]obsYm
构建GBM模型fA=(B,DobsYm)
得到missYm部分的预测值missYm,pre,替换missYm,iter-1
missYm,iter←(missYm,pre+missYm,iter-1)/2
更新Ym,iter←[obsYm,missYm,iter]
更新训练数据集Aiter←(Yj,iter,D)
计算Yj,iter与Yj,iter-1的标准化欧式距离diter
如果diter=0:
结束迭代
当iter>5:
计算Δditer←(diter+diter-1-diter-3-diter-4)/2
如果Δditer<ε:
结束迭代
iter←iter+1
返回迭代中的最优填补结果,即diter最小时,填补获得的训练集Aiter
请参阅实施例,S2、S3中围绕训练数据抽样偏差问题,引入数据时空密度反向加权的策略对训练样本加权,提升模型对研究区域的整体重构性能。根据训练数据的时空分布密度,对各训练数据样本进行反向加权,给数据密度稀疏的样本更高的权重。地面监测PM2.5数据主要存在空间上抽样偏差问题,而卫星遥感数据在空间和时间上都存在抽样偏差问题。
请参阅实施例,反向加权步骤如下:将整个研究区域分隔为n×n个小区域,按照小区域分割及月份分层,分别统计变量j在小区域r月份m中的数据量Nj,r,m。在以变量j作为因变量的机器学习模型中,将每条训练样本的权重赋为相应小区域及月份数据量的倒数,即wi,j=1/Nj,r,m。样本加权通过修正模型训练时的损失函数影响模型结构,实现模型对不同特征子空间模拟的平衡性,降低其对训练数据稀少区域或时期的估算偏差。以变量j为因变量的模型损失函数定义如下:
Figure BDA0003108930670000131
其中,
Figure BDA0003108930670000132
和yi,j分别是变量j在样本i的预测值和观测值。
请参阅实施例,S4中基于样本和基于站点的验证采用十折交叉验证法。基于样本的十折交叉验证将数据集随机分成10份,轮流将其中9份作为训练数据,1份作为验证数据,进行试验比对。基于站点的十折交叉验证将站点随机分为10份,轮流将9份用于训练,1份用于验证。基于月份的验证选取一个月的数据作为验证数据,其余月份数据作为训练数据进行验证。基于区域的验证,按照上述的小区域分割情况,将其中一个区域的数据作为验证数据,其它区域的数据作为训练数据,进行模型性能的评估。
实施例:
某市是中原地区重要的工业城市,由于产业结构偏重、能源结构偏煤、产业布局不合理、环境基础设施建设较慢等原因,在环境污染防治攻坚战开展初期面临着前所未有的环境质量改善压力,其首要污染物以颗粒物为主。针对城市尺度的PM2.5高分辨率时空分布重构是空气质量精细化管控的重要基础,实时发掘和定位高潜污染源,有助于该市的大气污染防治工作。
本实施例利用迭代补缺-梯度推进机算法(II-GBM),基于XGBoost机器学习计算模块,对固定站、传感器监测的地面PM2.5浓度,以及多角度大气校正算法(MAIAC)和葵花8号卫星反演的AOD等城市多源数据融合,实现该市某一年地面PM2.5浓度全面域的时空计算,在计算过程中维持了多变量联合分布的一致性,得到更准确的时空分布结果。
1、数据收集和处理,构建基础环境数据库
(1)PM2.5地面监测数据
PM2.5监测数据来源于固定站(国控站、省控站、乡镇站)和传感器(β射线扬尘站、808微型站)共计195个站点。站点分布集中在市区,周边区县站点分布较为稀疏。本例中固定站共包含国控点4个、省控点25个、乡镇站22个;传感器包含β射线扬尘站30个、808微型站114个。根据站点的经纬度,将PM2.5监测数据清理后处理到对应的1km网格中。
(2)卫星遥感数据
AOD数据来源于葵花8号和MAIAC卫星产品。葵花8号是一颗由日本气象厅运营的地球静止气象卫星,于2014年10月发射,位于赤道以上140.7°E,覆盖东亚大部分地区(包括中国大部分地区)和西太平洋。葵花8号卫星搭载了先进的AHI成像仪,有16个光谱带,以5公里分辨率每隔10分钟检索AOD。本研究中用到的是2级AOD数据,观测时间为北京时间06:00至17:00。
MAIAC采用时间序列分析和基于图像的加工技术,在植被稀疏的土地和相对明亮的表面进行气溶胶反演和大气修正。源自MODIS辐射率的MAIAC AOD产品具有1km空间分辨率,并且已被证明与PM2.5浓度具有很强的相关性。搭载有MODIS光谱仪的Terra和Aqua卫星,分别发射于1999年12月和2002年5月,他们获取数据的时间分别是当地时间大约早上10:30,下午1:30。本研究中,将Aqua卫星和Terra卫星的MAIAC AOD值相结合以提高空间覆盖率。
利用逆距离加权方法将葵花8号和MAIAC的AOD数据空间重采样到研究区域的1km网格中。
(3)气象数据
本实施例中用到的气象数据包括大气压力、相对湿度、降雨量、温度、蒸汽压、风场(南北风速、东西风速)等,来自于该市及其周边区域的85个气象站点。由于气象条件的原始数据是基于站点的观测数据,因此我们使用基于海拔的协同克里金插值法将气象数据插值到1km网格中。考虑到地形对天气的影响,将海拔数据作为协同克里金插值中的协变量与普通克里金插值法相比,可以大大提高降水等天气变量的估计精度。
(4)其它环境协变量
a.植被覆盖指数(NDVI)
年度植被覆盖指数取自于MODIS传感器值,分辨率为250m,时间间隔为8天。
b.行星边界层高度(PBLH)
小时行星边界层高度数据取自于美国航空航天局第二版现代回顾性研究与应用分析,分辨率为0.625°×0.5°。
c.土地利用类型
土地利用类型数据取自于全球土地利用类型数据库,分辨率为30米。
d.海拔
海拔数据取自于美国航空航天局航天飞机雷达地形任务,分辨率为30米。
e.道路分布
道路密度数据取自于公开道路地图。
f.人口密度
人口密度数据取自于美国航天航空局社会经济数据与应用中心,世界人口栅格,版本4,分辨率为30弧秒。
将该市按照1km×1km的分辨率,划分为N个网格。单个网格内多个点位数据取平均值得到该网格小时数据。除PM2.5网格原始数据,AOD、气象数据外,NDVI、PBLH、土地利用类型、道路密度及距离、人口密度等数据通过面积加权平均和时/空卷积的办法,填补缺失数据,得到覆盖全区域的数据集。再由时空关联等方法将上述所有数据合并成统一的数据集,用于机器学习模型的训练和预测。
2、迭代补缺
II-GBM的迭代过程主要是(附图2):对于葵花8号和MAIAC的AOD数据、传感器和固定站的PM2.5地面监测数据,首先将上述四组数据观测值部分的并集组成一个新的数据集,并与气象、人口密度等数据匹配。四组数据的缺失部分赋予一个初始值,各组数据的平均值作为相应的初始值。从观测数据较完整的一组数据开始迭代补缺。例如,首先对于葵花8号的AOD数据,选择有观测值的部分与其它数据源匹配建立模型,估算该组数据缺失的部分。然后对于MAIAC的AOD、传感器PM2.5地面监测数据、固定站PM2.5地面监测数据采用同样的方法填补训练。依次循环,逐步迭代,直到填补部分的数据相似性收敛(附图3)。此方法的优点在于填补AOD的时候加入了PM2.5的信息,使得AOD-PM2.5的关系在迭代过程中更加稳定,不同的数据源逐步融合,达到一种和谐稳定的状态,维持了各变量联合分布的一致性,且极大地扩充了模型的训练样本。
模型训练过程中每一行样本的权重由数据的时空密度反向加权给出,有效地解决了站点分布集中在市区所导致的抽样偏差的问题。研究区共分隔为3×3个小区域,按照小区域分割情况及12个月月份分层,分别统计变量j在小区域r月份m中的数据量Nj,r,m。在以变量j作为因变量的机器学习模型中,将每条训练样本的权重赋为相应小区域及月份数据量的倒数,即wi,j=1/Nj,r,m
3、时空重构
根据迭代填补完成后的填补完整的数据集作为训练数据集,建立XGBoost模型重构全时间和空间的PM2.5地面浓度。采用的XGBoost机器学习模型,计算速度更快,适应于高性能并行计算,能高效地处理上千万行的训练数据集,可以计算大时间空间尺度范围的PM2.5浓度时空分布。
4、模型验证
以基于样本的十折交叉验证为例,对于上述要进行迭代训练的匹配后的数据集,包含葵花8号、MAIAC、传感器PM2.5和固定站PM2.5四组数据,每组都随机分为10份。每一折验证时,将每组数据的一份赋为空值。在整个数据集中,这四组数据只要有一组不为空值的全部行组成训练数据集,四组数据全为空值的行作为预测数据。将训练数据利用II-GBM进行迭代训练并建立模型,预测数据放入模型得到PM2.5的预测值。循环10次,直至每一个观测值都有对应的预测值。每一折验证时,四组数据是随机分为10份,所以每一份赋为空值的数据中,可能包含匹配的四组数据值都为空值的行,也包含不全为空值的行。不全为空值的行作为训练数据集进行迭代补缺,这部分的预测值定义为迭代填补值。用填补后的数据集建立模型来预测全为空值的部分,这部分的预测值定义为预测值。
该市的PM2.5精细化计算性能良好,决定系数R2=0.85,均方根误差RMSE=20.4μg/m3,相对预测误差RPE=29.0%。而且迭代补缺过程和填补后的数据集预测PM2.5的过程都有良好的计算结果。
Figure BDA0003108930670000181
N:样本量;R2:决定系数;RMSE:均方根误差(μg/m3);RPE:相对预测误差(%)。
综上所述,计算城市PM2.5浓度时采用迭代补缺的方法,充分利用了卫星遥感数据和传感器数据,获得了更多时间和空间上的信息,且在计算过程中维持了多变量联合分布的一致性,使得计算更加准确,得到城市全面域的1km网格的逐时浓度。对于重构的结果,我们可以从空间和时间上对该市PM2.5污染分布进行研究,污染物高分辨率的时空分布结果是空气质量精细化管控的重要基础,能够实时发掘和定位高潜污染源,有助于针对性地减少污染排放,帮助空气质量管理者制定决策等。
以上,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.基于多源城市大数据的PM2.5全面域时空计算推断方法,其特征在于,包括以下步骤:
S1、信息集成:构建城市尺度“天地一体”空气质量监测及多源基础信息数据库,包括卫星遥感、固定站和传感器的空气质量监测数据,以及气象、排放清单、土地利用、海拔、植被覆盖指数(NDVI)、行星边界层高度(PBLH)、人口密度、道路分布等基础信息;
S2、迭代补缺:建立迭代补缺-机器学习模型,重构PM2.5地面浓度,将卫星数据、传感器数据、固定站数据依次作为因变量,另两个变量及S1中的其它环境协变量作为自变量,训练相应的机器学习模型,以此模型的预测值插补该因变量的缺失值;迭代计算,直至这三个变量补缺后的数据集相似性收敛,得到填补完整的数据集;
S3、时空重构:根据S2中获得填补完整的数据集作为训练数据集,建立机器学习模型,重构全面域、全时空的PM2.5地面浓度;
S4、模型验证:采用基于样本、基于站点、基于月份、基于区域的多维度验证方法来评价模型性能。
2.根据权利要求1所述的基于多源城市大数据的PM2.5全面域时空计算推断方法,其特征在于:所述S1的卫星遥感数据来自于丰富的卫星遥感监测,如中分辨率成像光谱仪(MODIS)、葵花8号以及我国的环境卫星等,提供大范围高时空分辨率的气溶胶光学厚度(AOD)等信息;传感器PM2.5数据来自于部署的大量且密集的低成本传感器的在线监测浓度数据;固定站PM2.5数据来自于研究区域标准空气质量自动监测站在线监测的常规大气污染物的逐时浓度;气象站提供在线监测的温度、湿度、风场等基本气象信息。
3.根据权利要求1所述的基于多源城市大数据的PM2.5全面域时空计算推断方法,其特征在于:所述S1从在线数据库中获取土地利用类型、海拔、人口密度、排放清单等相关信息,通过空间重采样、时/空卷积等特征工程方法预处理上述多源环境数据,再由时空关联等方法合并成统一的数据集,用于机器学习模型的训练和预测,该数据集通常包括数十至数百个变量。
4.根据权利要求1所述的基于多源城市大数据的PM2.5全面域时空计算推断方法,其特征在于:所述S1中卫星遥感是“天地一体”空气质量监测的重要组成部分,虽然卫星遥感数据在冬季存在较多缺失,但在观测条件较好的夏、秋季能提供重要的空气污染空间分布趋势,为基于信息融合的完整面域时空计算提供重要信息。
5.根据权利要求1所述的基于多源城市大数据的PM2.5全面域时空计算推断方法,其特征在于:所述S2有效解决了多源数据融合中数据异质性和时空匹配的问题,在填补缺失数据时维持多变量联合分布的一致性;具体计算步骤如下:
迭代填补计算:
输入:Yj:时间、空间上待填补的变量,j=1,…,m
STlist:待填补变量在时间、空间上的并集
D:协变量(在STlist中没有数据缺失)
maxiter:最大迭代数
iter:迭代数,初始迭代数iter=1
missYj:待填补变量Yj在STlist中数据缺失的部分
obsYj:待填补变量Yj在STlist中具有观测数据的部分
A:训练数据集,A=(Yj,D)
convThreshold:收敛阈值
输出:迭代中填补结果最优的数据集
方法:
初始化以上变量
对每个Yj,j=1,…,m:
missYm,0←obsYm的均值
更新Ym,0←[obsYm,missYm,0]
更新训练集为A0←(Yj,0,D)
当iter<maxiter时:
对每个Yj,j=1,…,m:
应变量A←obsYm
自变量B←[Yj\Ym]obsYm
构建GBM模型fA=(B,D obsYm)
得到missYm部分的预测值missYm,pre,替换missYm,iter-1
missYm,iter←(missYm,pre+missYm,iter-1)/2
更新Ym,iter←[obsYm,missYm,iter]
更新训练数据集Aiter←(Yj,iter,D)
计算Yj,iter与Yj,iter-1的标准化欧式距离diter
如果diter=0:
结束迭代
当iter>5:
计算Δditer←(diter+diter-1-diter-3-diter-4)/2
如果Δditer<ε:
结束迭代
iter←iter+1
返回迭代中的最优填补结果,即diter最小时,填补获得的训练集Aiter
6.根据权利要求1所述的基于多源城市大数据的PM2.5全面域时空计算推断方法,其特征在于:所述S2、S3中围绕训练数据抽样偏差问题,引入数据时空密度反向加权的策略对训练样本加权,提升模型对研究区域的整体重构性能;根据训练数据的时空分布密度,对各训练数据样本进行反向加权,给数据密度稀疏的样本更高的权重;地面监测PM2.5数据主要存在空间上抽样偏差问题,而卫星遥感数据在空间和时间上都存在抽样偏差问题。
7.根据权利要求6所述的基于多源城市大数据的PM2.5全面域时空计算推断方法,其特征在于,所述反向加权步骤如下:
将整个研究区域分隔为n×n个小区域,按照小区域分割及月份分层,分别统计变量j在小区域r月份m中的数据量Nj,r,m;在以变量j作为因变量的机器学习模型中,将每条训练样本的权重赋为相应小区域及月份数据量的倒数,即wi,j=1/Nj,r,m;样本加权通过修正模型训练时的损失函数影响模型结构,实现模型对不同特征子空间模拟的平衡性,降低其对训练数据稀少区域或时期的估算偏差,以变量j为因变量的模型损失函数定义如下:
Figure FDA0003108930660000041
其中,
Figure FDA0003108930660000042
和yi,j分别是变量j在样本i的预测值和观测值。
8.根据权利要求1所述的基于多源城市大数据的PM2.5全面域时空计算推断方法,其特征在于:所述S4中基于样本和基于站点的验证采用十折交叉验证法;基于样本的十折交叉验证将数据集随机分成10份,轮流将其中9份作为训练数据,1份作为验证数据,进行试验比对;基于站点的十折交叉验证将站点随机分为10份,轮流将9份用于训练,1份用于验证;基于月份的验证选取一个月的数据作为验证数据,其余月份数据作为训练数据进行验证;基于区域的验证,按照权利要求7所述的小区域分割,将其中一个区域的数据作为验证数据,其它区域的数据作为训练数据,进行模型性能的评估。
CN202110643654.6A 2021-06-09 2021-06-09 基于多源城市大数据的pm2.5全面域时空计算推断方法 Expired - Fee Related CN113297527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110643654.6A CN113297527B (zh) 2021-06-09 2021-06-09 基于多源城市大数据的pm2.5全面域时空计算推断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110643654.6A CN113297527B (zh) 2021-06-09 2021-06-09 基于多源城市大数据的pm2.5全面域时空计算推断方法

Publications (2)

Publication Number Publication Date
CN113297527A true CN113297527A (zh) 2021-08-24
CN113297527B CN113297527B (zh) 2022-07-26

Family

ID=77327841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110643654.6A Expired - Fee Related CN113297527B (zh) 2021-06-09 2021-06-09 基于多源城市大数据的pm2.5全面域时空计算推断方法

Country Status (1)

Country Link
CN (1) CN113297527B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114169232A (zh) * 2021-11-29 2022-03-11 中国科学技术大学 全时段三维大气污染物的重构方法、装置、计算机设备和存储介质
CN114186491A (zh) * 2021-12-07 2022-03-15 大连理工大学 基于改进lur模型的细颗粒物浓度时空特征分布方法
CN114255392A (zh) * 2021-12-21 2022-03-29 中国科学技术大学 基于卫星超光谱遥感和人工智能的二氧化氮浓度预测系统
CN114510850A (zh) * 2022-04-20 2022-05-17 四川国蓝中天环境科技集团有限公司 一种大气六参差异化的多模型融合校准方法及系统
CN114549259A (zh) * 2022-02-23 2022-05-27 中科海慧(北京)科技有限公司 一种基于多源数据融合的智慧城市优化管理方法
CN114936957A (zh) * 2022-05-23 2022-08-23 福州大学 基于移动监测数据的城市pm25浓度分布模拟及场景解析模型
CN114943303A (zh) * 2022-06-16 2022-08-26 福州大学 一种基于多传感器遥感的时序aod重构方法
CN115310550A (zh) * 2022-08-16 2022-11-08 国网四川省电力公司电力科学研究院 一种大气二氧化碳干空气柱浓度计算方法及系统
CN115356241A (zh) * 2022-08-12 2022-11-18 无锡中科光电技术有限公司 一种基于激光雷达的大气颗粒物检测方法及系统
CN116142364A (zh) * 2023-02-17 2023-05-23 昆明理工大学 一个电动自行车转弯防滑预警系统
CN116992294A (zh) * 2023-09-26 2023-11-03 成都国恒空间技术工程股份有限公司 卫星测控训练评估方法、装置、设备及存储介质
CN117592005A (zh) * 2024-01-19 2024-02-23 中国科学院空天信息创新研究院 Pm2.5浓度卫星遥感估算方法、装置、设备及介质
CN118351964A (zh) * 2024-04-29 2024-07-16 四川大学 一种基于多元数据的环境no2光解速率估算方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955742A (zh) * 2014-04-28 2014-07-30 淮阴工学院 一种基于集成学习的pm2.5预报方法
AU2018100221A4 (en) * 2018-02-21 2018-03-29 Feng, Yinan MR A correction method based on linear regression algorithm for PM2.5 sensors
CN109213964A (zh) * 2018-07-13 2019-01-15 中南大学 一种融合多源特征地理参数的卫星aod产品校正方法
CN109763553A (zh) * 2018-12-13 2019-05-17 四川大学 一种适用于控制雨水径流颗粒物的装置
US20190156485A1 (en) * 2017-11-21 2019-05-23 Zoox, Inc. Sensor data segmentation
CN110909309A (zh) * 2019-11-21 2020-03-24 中国科学院遥感与数字地球研究所 一种逐小时高分辨率pm2.5数据的获取方法
CN111414717A (zh) * 2020-03-02 2020-07-14 浙江大学 一种基于XGBoost-LightGBM的机组功率预测方法
CN111859800A (zh) * 2020-07-15 2020-10-30 河海大学 用于pm2.5浓度分布的时空估算和预测的方法
CN112016772A (zh) * 2020-10-29 2020-12-01 成都中轨轨道设备有限公司 一种自然灾害预警系统及方法
CN112069673A (zh) * 2020-08-31 2020-12-11 河南大学 基于梯度提升决策树地表pm2.5浓度估算的方法
CN112257341A (zh) * 2020-10-20 2021-01-22 浙江大学 一种基于异源数据差补融合的定制产品性能预测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955742A (zh) * 2014-04-28 2014-07-30 淮阴工学院 一种基于集成学习的pm2.5预报方法
US20190156485A1 (en) * 2017-11-21 2019-05-23 Zoox, Inc. Sensor data segmentation
AU2018100221A4 (en) * 2018-02-21 2018-03-29 Feng, Yinan MR A correction method based on linear regression algorithm for PM2.5 sensors
CN109213964A (zh) * 2018-07-13 2019-01-15 中南大学 一种融合多源特征地理参数的卫星aod产品校正方法
CN109763553A (zh) * 2018-12-13 2019-05-17 四川大学 一种适用于控制雨水径流颗粒物的装置
CN110909309A (zh) * 2019-11-21 2020-03-24 中国科学院遥感与数字地球研究所 一种逐小时高分辨率pm2.5数据的获取方法
CN111414717A (zh) * 2020-03-02 2020-07-14 浙江大学 一种基于XGBoost-LightGBM的机组功率预测方法
CN111859800A (zh) * 2020-07-15 2020-10-30 河海大学 用于pm2.5浓度分布的时空估算和预测的方法
CN112069673A (zh) * 2020-08-31 2020-12-11 河南大学 基于梯度提升决策树地表pm2.5浓度估算的方法
CN112257341A (zh) * 2020-10-20 2021-01-22 浙江大学 一种基于异源数据差补融合的定制产品性能预测方法
CN112016772A (zh) * 2020-10-29 2020-12-01 成都中轨轨道设备有限公司 一种自然灾害预警系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHEN ZHAO-YUE 等: "Extreme gradient boosting model to estimate PM2.5 concentrations with missing-filled satellite data in China", 《ATMOSPHERIC ENVIRONMENT》 *
ZHAN YU 等: "Spatiotemporal prediction of continuous daily PM2.5 concentrations across China using a spatially explicit machine learning algorithm", 《ATMOSPHERIC ENVIRONMENT》 *
张旱文: "基于多模态数据的空气污染物联合预测研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅰ辑》 *
汤宇磊 等: "四川盆地PM2.5与PM10高分辨率时空分布及关联分析", 《中国环境科学》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114169232B (zh) * 2021-11-29 2024-08-09 中国科学技术大学 全时段三维大气污染物的重构方法、装置、计算机设备和存储介质
CN114169232A (zh) * 2021-11-29 2022-03-11 中国科学技术大学 全时段三维大气污染物的重构方法、装置、计算机设备和存储介质
CN114186491A (zh) * 2021-12-07 2022-03-15 大连理工大学 基于改进lur模型的细颗粒物浓度时空特征分布方法
CN114255392A (zh) * 2021-12-21 2022-03-29 中国科学技术大学 基于卫星超光谱遥感和人工智能的二氧化氮浓度预测系统
CN114549259A (zh) * 2022-02-23 2022-05-27 中科海慧(北京)科技有限公司 一种基于多源数据融合的智慧城市优化管理方法
CN114510850A (zh) * 2022-04-20 2022-05-17 四川国蓝中天环境科技集团有限公司 一种大气六参差异化的多模型融合校准方法及系统
CN114510850B (zh) * 2022-04-20 2022-06-21 四川国蓝中天环境科技集团有限公司 一种大气六参差异化的多模型融合校准方法及系统
CN114936957A (zh) * 2022-05-23 2022-08-23 福州大学 基于移动监测数据的城市pm25浓度分布模拟及场景解析模型
CN114936957B (zh) * 2022-05-23 2024-08-09 福州大学 基于移动监测数据的城市pm25浓度分布模拟及场景解析模型
CN114943303A (zh) * 2022-06-16 2022-08-26 福州大学 一种基于多传感器遥感的时序aod重构方法
CN115356241A (zh) * 2022-08-12 2022-11-18 无锡中科光电技术有限公司 一种基于激光雷达的大气颗粒物检测方法及系统
CN115310550A (zh) * 2022-08-16 2022-11-08 国网四川省电力公司电力科学研究院 一种大气二氧化碳干空气柱浓度计算方法及系统
CN116142364A (zh) * 2023-02-17 2023-05-23 昆明理工大学 一个电动自行车转弯防滑预警系统
CN116992294B (zh) * 2023-09-26 2023-12-19 成都国恒空间技术工程股份有限公司 卫星测控训练评估方法、装置、设备及存储介质
CN116992294A (zh) * 2023-09-26 2023-11-03 成都国恒空间技术工程股份有限公司 卫星测控训练评估方法、装置、设备及存储介质
CN117592005A (zh) * 2024-01-19 2024-02-23 中国科学院空天信息创新研究院 Pm2.5浓度卫星遥感估算方法、装置、设备及介质
CN117592005B (zh) * 2024-01-19 2024-04-26 中国科学院空天信息创新研究院 Pm2.5浓度卫星遥感估算方法、装置、设备及介质
CN118351964A (zh) * 2024-04-29 2024-07-16 四川大学 一种基于多元数据的环境no2光解速率估算方法

Also Published As

Publication number Publication date
CN113297527B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
CN113297527B (zh) 基于多源城市大数据的pm2.5全面域时空计算推断方法
CN113297528B (zh) 一种基于多源大数据的no2高分辨率时空分布计算方法
Rao et al. Estimating daily average surface air temperature using satellite land surface temperature and top-of-atmosphere radiation products over the Tibetan Plateau
US20230213337A1 (en) Large-scale forest height remote sensing retrieval method considering ecological zoning
Dall'Amico et al. First results of SMOS soil moisture validation in the upper Danube catchment
CN112905560A (zh) 一种多源时空大数据深度融合的空气污染预测方法
Chi et al. Machine learning-based estimation of ground-level NO2 concentrations over China
CN110751094A (zh) 一种基于gee综合遥感影像和深度学习方法的作物估产技术
CN112699959B (zh) 基于能量泛函模型的多源多尺度降水数据融合方法和装置
CN111210483B (zh) 基于生成对抗网络和数值模式产品的仿真卫星云图生成方法
US20240094436A1 (en) High-resolution standardized precipitation evapotranspiration index dataset development method based on random forest regression model
CN115310550B (zh) 一种大气二氧化碳干空气柱浓度计算方法及系统
Bai et al. Multiscale and multisource data fusion for full-coverage PM2. 5 concentration mapping: Can spatial pattern recognition come with modeling accuracy?
CN112285808B (zh) 一种aphrodite降水数据的降尺度方法
Chen et al. Ground-level ozone estimation based on geo-intelligent machine learning by fusing in-situ observations, remote sensing data, and model simulation data
Zhang et al. Estimation of PM 2.5 mass concentrations in Beijing–Tianjin–Hebei region based on geographically weighted regression and spatial downscaling method
Hong et al. Assimilating Fengyun-4A observations to improve WRF-Chem PM2. 5 predictions in China
CN113779863B (zh) 一种基于数据挖掘的地表温度降尺度方法
CN114169215B (zh) 一种耦合遥感与区域气象模式的地表温度反演方法
Liu et al. First satellite-based regional hourly NO2 estimations using a space-time ensemble learning model: A case study for Beijing-Tianjin-Hebei Region, China
CN115420690A (zh) 近地表痕量气体浓度反演模型及反演方法
Han et al. Estimation of high-resolution PM2. 5 concentrations based on gap-filling aerosol optical depth using gradient boosting model
Tang et al. Filling then spatio-temporal fusion for all-sky MODIS land surface temperature generation
CN117219183A (zh) 多云雨地区的高覆盖度近地面no2浓度估算方法及系统
CN115795402B (zh) 一种基于变分法的多源降水数据融合方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220726

CF01 Termination of patent right due to non-payment of annual fee