CN115544706A

CN115544706A - 一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法

Info

Publication number: CN115544706A
Application number: CN202110732777.7A
Authority: CN
Inventors: 周立国
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-12-30

Abstract

本发明涉及一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，采用WRF模拟的气象场数据作为自变量数据之一输入模型，通过小波分解的方法将估算目标PM_2.5分为两个估算分目标，即PM_2.5_A4和PM_2.5_D，运用XGBoost模型分别挖掘这两个分目标与自变量数据之间的关系，两个估算分目标的和即为估算目标PM_2.5浓度，对于AOD存在和AOD缺失区域分别构建小波和XGBoost集成模型，最终得到区域全覆盖的PM_2.5浓度估算结果。本发明在一定程度上解决了现有大气细颗粒物估算研究中的浓度低估问题和AOD缺失问题，能够更加清晰直观地展示污染事件中PM_2.5浓度的空间演变情况，为开展大气污染防治提供更加精确的数据支撑。

Description

一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法

技术领域

本发明涉及大气细颗粒物浓度检测领域，尤其是涉及一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法。

背景技术

由于数十年来快速的经济发展和城市扩张，大气细颗粒物(PM_2.5)一直是中国的首要污染物之一，PM_2.5是指空气动力学当量直径≤2.5μm的颗粒物，其粒径较小，能在大气中长时间停留和远距离传输，对局地空气质量产生重大影响；此外，由于其比表面积较大，易于附带有毒有害物质，对人体健康造成严重威胁，自2013年以来，PM_2.5被列为我国六大常规大气污染物之一，并开展地面实时监测，然而，由于监测站点数量有限且分布不均，无法全面、动态地反映PM_2.5在较大地理范围内的时空变化，获取高分辨率且空间连续的PM_2.5浓度数据对于环境疾病学研究及污染控制政策尤为重要，卫星遥感反演的气溶胶光学厚度(AOD)与PM_2.5有很好的相关性，并且具有较长的时间序列和较高的空间分辨率，因而被广泛用于弥补地面监测数据在时间和空间上的不足。

目前已有多种模型被用于挖掘PM_2.5和AOD的相关关系，相比于现有的统计回归模型，机器学习在处理具有非线性和时空异质性的PM_2.5-AOD相关关系时具有更高的准确性，尤其是在面对大数据时其优势尤为凸显，然而，在现有的研究中，运用机器学习方法估算PM_2.5浓度普遍存在浓度低估的问题，在重污染情况下模型表现较差，此外，AOD数据的缺失现象非常严重，厚云层遮盖、高地表反射都有可能导致AOD缺失，因而给PM_2.5的全覆盖估算造成困扰，总而言之，浓度低估问题和AOD缺失问题是目前PM_2.5浓度估算研究中面临的重大难题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法。

本发明的目的可以通过以下技术方案来实现：

一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，包括如下步骤：

S100、研究区域内数据获取及数据预处理；

S200、设定网格的时空分别率，建立覆盖整个研究区域的网格，对预处理后的数据进行基于网格的时空匹配得到建模数据集；

S300、确定土地覆盖数据、人口密度数据和道路长度数据的缓冲区半径，将缓冲区半径内的这些数据加入模型作为模型的自变量；

S400、将PM_2.5浓度数据进行四层小波分解，得到两个估算分目标，即PM_2.5_A4和PM_2.5_D；

S500、对研究区域内的AOD存在区域和AOD缺失区域分别构建XGBoost模型估算PM_2.5浓度；

S600、AOD存在区域和AOD缺失区域分别采用对应模型的估算结果，得到区域全覆盖的PM_2.5浓度估算结果。

所述的步骤S100具体包括以下步骤：

S110、获取研究区内监测站点的PM_2.5浓度数据以及与PM_2.5相关的时空数据，包括MODIS AOD数据、其它大气污染物监测数据、土地覆盖数据、人口数据、路网数据、高程数据和归一化植被指数，所述的其它大气污染物监测数据包括SO₂、NO₂、O₃和CO的监测数据，所述的MODIS AOD数据具体包括10:30和13:30时刻的AOD数据；

S120、采用普通克里金插值法对基于站点的SO₂、NO₂、O₃、CO监测数据进行插值得到与网格空间分别率相同的面状数据；

S130、采用气象研究与预报模式WRF模拟获取研究区域在研究时段内的气象场数据，并从气象场数据中提取出所需要的数据作为模型的自变量，并采用地面气象监测站的监测数据对模拟结果进行验证，提取出的数据包括行星边界层高度PBLH、地表气压PSFC、2m处的气温T2、2m处的相对湿度RH2、10m处的风速WSPD10和10m处的风向WDIR10。

所述的步骤S130中，WRF的模拟结果的空间分辨率与网格的空间分辨率相同，且WRF的模拟结果的时间分辨率为1h。

所述的步骤S200具体包括以下步骤：

S210、将各个网格内的PM_2.5站点的监测值定义为该网格的PM_2.5浓度值，若出现两个或两个以上站点在一个网格内时则取各站点的监测值均值；

S220、空间匹配：将空间分辨率与网格不一致的数据重采样至3km，包括土地覆盖数据、人口数据、高程数据、归一化植被指数，道路长度数据具体为以各个网格中点为中心、缓冲区半径内的道路长度，到海岸线的距离数据通过计算各个网格中点到海岸线的最近距离得到；

S230、时间匹配：对时间分辨率为1h的数据进行时间匹配，分别对大气污染物数据和气象数据取均值后与对应时刻的AOD数据进行匹配；

S240、对时空匹配完成的数据，获取网格中心的经度、纬度、月份、天数和小时数作为自变量加入数据集中；

S250、根据AOD数据的存在与否建立两个数据集，存在AOD数据的数据集记为第一数据集，不存在AOD数据的数据集记为第二数据集。

所述的步骤S300具体为：

对土地覆盖数据、人口密度数据和道路长度数据建立以各个网格中点为中心的不同半径的缓冲区，根据皮尔逊相关系数选取相关性最强的缓冲区半径，将缓冲区半径内的这些数据加入模型作为模型的自变量。

所述的皮尔逊相关系数r的计算式为：

其中，X_i和Y_i分别表示两个变量，其对应均值分别为

和

n为样本个数

所述的步骤400具体为：

在各站点采用db6小波基函数对PM_2.5浓度进行四层小波分解，将估算目标PM_2.5分成两个分目标，具体包括第四层低频系数PM_2.5_A4以及第一层至第四层高频系数之和PM_2.5_D。

所述的步骤S500具体包括以下步骤：

S510、对于第一数据集，以PM_2.5_A4作为因变量，以所有时空要素作为自变量，构建XGBoost模型并进行PM_2.5_A4估算，得到PM_2.5_A4的估算结果，并且以PM_2.5D为因变量，以所有时空要素作为自变量，构建XGBoost模型并进行PM_2.5_D估算，得到PM_2.5_D的估算结果，将PM_2.5_A4估算结果与PM_2.5_D估算结果相加，得到AOD存在区域的PM_2.5的估算结果，该模型记为Model MW；

S520、对于第二数据集，模型的自变量中没有AOD数据，采用步骤S510相同的步骤得到AOD缺失区域的PM_2.5的估算结果，该模型记为Model NW；

S530、分别评估模型Model MW和Model NW。

所述的评估指标包括决定系数R²、均方根误差RMSE、平均绝对误差MAE以及模型的拟合直线斜率K-value。

所述的步骤S600具体为：

针对研究区域内的所有网格，对AOD存在区域应用模型Model MW的估算结果，对AOD缺失区域应用模型Model NW的结果，最终得到区域全覆盖的PM_2.5浓度估算结果。

与现有技术相比，本发明具有以下优点：

本发明解决了现有的PM_2.5浓度估算研究中的AOD大范围缺失问题，并在一定程度上改善了机器学习估算PM_2.5研究中的浓度低估问题；此外，WRF模型的支持使得各种气象参数被引入模型，气象参数的模拟精度较高且能够覆盖整个研究区域。

本发明适用于由遥感AOD数据估算全区域覆盖的PM_2.5浓度空间分布，另外，本发明加入了网格到海岸线的距离作为自变量，该变量计算的是各个网格中心到海岸线的最近距离，对于沿海区域来说可在一定程度上表征海陆交换对污染物的稀释扩散作用。

附图说明

图1为本发明的小波和XGBoost模型集成的PM_2.5浓度估算方法流程图。

图2为本发明具体实施例中的小波和XGBoost模型集成的PM_2.5浓度估算方法流程图。

图3为具体实施例中AOD数据的全年覆盖率，其中，图(3a)为10：30的AOD数据全年覆盖率，图(3a)为13：30的AOD数据全年覆盖率。

图4为具体实施例中单一XGBoost模型、小波和XGBoost集成模型的模拟效果对比，其中，图(4a)为AOD存在区域单一XGBoost模型的模拟结果，图(4b)为AOD存在区域小波和XGBoost集成模型的模拟结果，图(4c)为AOD缺失区域单一XGBoost模型的模拟结果，图(4d)为AOD缺失区域小波和XGBoost集成模型的模拟结果。

图5为具体实施例中PM_2.5浓度在一次典型的污染物事件中的空间演变图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。

如图1所示，本发明提供了一种小波和XGBoost模型集成的大气细颗粒物估算方法，通过该模型挖掘PM_2.5浓度与各个时空变量的相关关系，分别进行AOD存在和AOD缺失情况下PM_2.5浓度的估算，最终得到准确率较高且全区域覆盖的PM_2.5浓度估算结果，本发明的估算方法包括如下步骤：

步骤S100，数据获取及数据预处理，具体过程如下：

步骤S110，获取研究区内监测站点的PM_2.5浓度数据，获取与PM_2.5相关的时空数据，包括MODIS AOD、其它大气污染物(SO₂、NO₂、O₃、CO)监测数据、土地覆盖数据、人口数据、路网数据、高程(DEM)数据、归一化植被指数(NDVI)。MODIS是搭载Terra和Aqua两颗卫星的中分辨率成像光谱仪，分别在每日当地时间约10:30和13:30过境，因此能够提供对应时段的AOD数据，具有较高的空间分辨率、连续的全球覆盖、较高的反演精度等优势。

步骤S120，运用普通克里金插值方法对基于站点的SO₂、NO₂、O₃、CO监测数据进行插值得到空间分辨率为3km的面状数据，可以使用ArcGIS中的arcpy进行污染物数据的批量插值工作。

步骤S130，运行气象研究与预报模式(WRF)模拟得到研究区域在研究时段内的气象场数据，模拟结果的空间分辨率为3km，时间分辨率为1h。WRF是一种中尺度数值天气预报系统，具有方便高效、可移植、可扩充、易维护等优点，能够提供不同高度处的、多种类型的气象数据。在一个具体的实施例中，提取的气象数据包括行星边界层高度PBLH、地表气压PSFC、2m处的气温T2、2m处的相对湿度RH2、10m处的风速WSPD10、10m处的风向WDIR10，并采用地面气象监测站的监测数据进行模拟结果的验证。

步骤S200，利用ArcGIS的创建渔网工具建立囊括整个研究区域的空间分辨率为3km*3km的网格，并对步骤S100中获取的数据进行基于网格的时空匹配得到建模数据集，具体过程如下：

步骤S210，各个网格的PM_2.5浓度被定义为该网格内的PM_2.5站点的监测值，如果有两个或两个以上站点在一个网格内则取均值。

步骤S220，空间匹配：将空间分辨率与网格不一致的数据重采样至3km，包括土地覆盖数据、人口数据、DEM、NDVI，可以使用ArcGIS中的重采样工具。此外，道路长度数据被表示为以各个网格中点为中心、缓冲区半径内的道路长度，可以使用ArcGIS中的相交工具；到海岸线的距离数据(DTC)通过计算各个网格中点到海岸线的最近距离得到，可以使用ArcGIS中的邻域分析工具。

步骤S230，时间匹配：具有1h时间分辨率的数据需要进行时间匹配。对10：00和11：00的大气污染物数据、气象数据取均值，与10：30的AOD数据进行匹配，可以使用python中的groupby工具进行分组求均值。采用同样的方法得到与13：30的AOD数据匹配的大气污染物数据和气象数据。

步骤S240，对于时空匹配完成的数据，计算网格中心的经度、纬度，及月份、天数、小时数作为自变量加入数据集中。

步骤S250，根据AOD数据的存在与否建立两个数据集，有AOD数据的记为数据集一，没有AOD数据的记为数据集二。在一个具体的实施例中，数据集一的数据量为31036，数据集二的数据量为149094。

步骤S300，对于步骤S200中的土地覆盖数据、人口密度数据、道路长度数据建立以各个网格中点为中心的不同半径的缓冲区，根据皮尔逊相关系数选取相关性最强的缓冲区半径，该半径内的各个要素作为模型的自变量。皮尔逊相关系数的计算公式如下：

其中，X_i和Y_i分别表示两个变量，其对应均值分别为

和

n为样本个数。在一个具体的实施例中，土地覆盖数据的缓冲区半径选取范围为100m、300m、500m、1000m、2000m、3000m，人口密度数据的缓冲区半径选取范围为500m、1000m、2000m，道路长度数据的缓冲区半径选取范围为100m、300m、500m、1000m、3000m。最终根据皮尔逊相关系数确定土地覆盖数据、人口密度数据、道路长度数据的缓冲区半径分别为3000m、2000m、3000m。

步骤S400，将步骤S200中得到的PM_2.5浓度进行小波分解，选用db6小波基函数，分解层数定为4层，因此估算目标PM_2.5被分成两个分目标，一个分目标为第四层低频系数，记为PM_2.5_A4，另一个分目标为第一层至第四层高频系数的和，记为PM_2.5_D。小波分解可将信号拆分为高频部分和低频部分，其中高频信号表征该序列的突变特征，低频信号代表该信号的一般特征，在处理具有多层次演变规律的非平稳序列时具有极大的优势。PM_2.5浓度的小波分解基于各个站点分别进行，可使用python中的pywt包完成。

步骤S500，根据步骤S400结果，对数据集一和数据集二分别利用XGBoost模型构建PM_2.5浓度估算模型，具体过程如下：

步骤S510，对于数据集一，以PM_2.5_A4为因变量，其余时空要素为自变量，利用XGBoost模型进行PM_2.5_A4估算，对于学习率、迭代次数、树最大深度、L1正则化项、L2正则化项等超参数进行网格搜索调参，选取最优参数构建模型，得到PM_2.5_A4估算结果。XGBoost模型是陈天奇等人开发的一个开源机器学习项目，是一种以分类回归树为基函数的提升方法，基本思想为弱分类器组装形成强分类器。具体的，基于python中的xgboost包完成模型的初步实现以及参数设置，各个超参数需要分别进行调参，利用网格搜索的交叉验证功能GridSearchCV，以决定系数R²为评价指标，根据时间跟内存的预算合理调整，选取最优参数快速构建模型。

步骤S520，以PM_2.5_D为因变量，其余步骤与S510中相同，得到PM_2.5_D估算结果。

步骤S530，将PM_2.5_A4估算结果与PM_2.5_D估算结果相加，得到PM_2.5的估算结果，该模型记为Model MW。

步骤S540，对于数据集二，即AOD缺失区域的PM_2.5估算过程与数据集一相同，即S510-S530，但自变量中没有AOD，该模型记为Model NW。

步骤S550，分别评估模型Model MW和Model NW的表现，评估指标为决定系数R²、均方根误差RMSE、平均绝对误差MAE，及模型的拟合直线斜率K-value用于评估模型的低估表现，前三项评估指标的计算公式如下：

其中，y_i为真实值，

为估算值，

为所有真实值的平均值，n为样本个数。具体的，为了避免一次验证的结果具有偶发性，可以选用十折交叉验证的方法评估模型表现。将输入数据集随机分成十等份，每一次验证的过程都选取其中九份作为训练集，而剩下的一份作为测试集去评估模型的表现。这一评估过程将重复十次直到所有的样本都作为测试集被评估为止，十次模型输出结果组成估算值与真实值比较，计算得到上述四个评估指标。

步骤S600，针对研究区域内的所有网格，对AOD存在区域应用模型Model MW的结果，对AOD缺失区域应用模型ModelNW的结果，最终可得到区域全覆盖的PM_2.5浓度估算结果。

下面以一个具体的实施例，按照上述步骤对本发明进行进一步的说明。

以长三角城市群为例，具体流程如图2所示。获取2017年1月1日至2018年12月31日研究区域内的PM_2.5浓度数据和包括MODIS AOD数据在内的相关时空数据，运用普通克里金插值方法对其他大气污染物数据进行插值得到空间分辨率为3km的面状数据。经过统计发现AOD数据在10：30和13：30的全年覆盖率大致为23％-36％(图3)，缺失现象非常严重表明用以往的机器学习方法无法得到全区域覆盖的PM_2.5估算结果。运用WRF模型模拟得到研究区域的气象数据，采用气象监测站点的监测数据进行验证，验证结果表明PSFC和T2的模拟结果较好，其相关系数均达到了0.8以上，RH2、WSPD10和WDIR10的相关系数在0.54-0.74之间。建立囊括整个研究区域的空间分辨率为3km*3km的网格，对获取的数据进行基于网格的时空匹配得到建模数据集。根据皮尔逊相关系数确定土地覆盖数据、人口密度数据、道路长度数据的缓冲区半径分别为3000m、2000m、3000m。发明进一步对AOD存在和AOD缺失区域分别构建小波和XGBoost集成模型，在每一个集成模型中，分别以四层小波分解得到的PM_2.5_A4和PM_2.5_D为因变量构建XGBoost模型，PM_2.5估算值为PM_2.5_A4估算值和PM_2.5_D估算值的和。集成模型得到的十折交叉验证结果如图4所示，其中，由AOD存在区域构建的模型ModelMW的R²为0.80，RMSE为11.57μg/m³，MAE为8.22μg/m³，K-value为0.79；由AOD缺失区域构建的模型Model NW的R²为0.87，RMSE为12.83μg/m³，MAE为8.97μg/m³，K-value为0.86。发明还构建了没有小波分解步骤的单一XGBoost模型用于比较模型的精度提升(图4)，结果表明，该集成模型能够有效提升模型的拟合精度，且对浓度低估现象有一定程度的改善。最后，将发明的结果应用于一次典型污染事件，如图5所示得到了覆盖整个长三角区域、空间连续的PM_2.5估算结果，由此该污染事件中PM_2.5浓度的空间演变情况得到清晰地展现，证明了本发明的可行性及有效性。

综上所述，本发明提供了一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，对于AOD存在和缺失区域分别建模，得到全区域覆盖的PM_2.5浓度估算结果，且对机器学习中普遍存在的浓度低估问题有一定程度的改善效果，弥补了现有PM_2.5浓度估算研究中的浓度低估问题和AOD缺失问题，为开展大气污染防治提供更为精确的数据支撑。

Claims

1.一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，其特征在于，包括如下步骤：

S100、研究区域内数据获取及数据预处理；

2.根据权利要求1所述的一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，其特征在于，所述的步骤S100具体包括以下步骤：

S110、获取研究区内监测站点的PM_2.5浓度数据以及与PM_2.5相关的时空数据，包括MODISAOD数据、其它大气污染物监测数据、土地覆盖数据、人口数据、路网数据、高程数据和归一化植被指数，所述的其它大气污染物监测数据包括SO₂、NO₂、O₃和CO的监测数据，所述的MODIS AOD数据具体包括10:30和13:30时刻的AOD数据；

3.根据权利要求2所述的一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，其特征在于，所述的步骤S130中，WRF的模拟结果的空间分辨率与网格的空间分辨率相同，且WRF的模拟结果的时间分辨率为1h。

4.根据权利要求3所述的一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，其特征在于，所述的步骤S200具体包括以下步骤：

5.根据权利要求4所述的一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，其特征在于，所述的步骤S300具体为：

6.根据权利要求5所述的一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，其特征在于，所述的皮尔逊相关系数r的计算式为：

其中，X_i和Y_i分别表示两个变量，其对应均值分别为X^-和Y^-，n为样本个数。

7.根据权利要求4所述的一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，其特征在于，所述的步骤400具体为：

8.根据权利要求7所述的一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，其特征在于，所述的步骤S500具体包括以下步骤：

S510、对于第一数据集，以PM_2.5_A4作为因变量，以所有时空要素作为自变量，构建XGBoost模型并进行PM_2.5_A4估算，得到PM_2.5_A4的估算结果，并且以PM_2.5_D为因变量，以所有时空要素作为自变量，构建XGBoost模型并进行PM_2.5_D估算，得到PM_2.5_D的估算结果，将PM_2.5_A4估算结果与PM_2.5_D估算结果相加，得到AOD存在区域的PM_2.5的估算结果，该模型记为Model MW；

S530、分别评估模型Model MW和Model NW。

9.根据权利要求8所述的一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，其特征在于，所述的评估指标包括决定系数R²、均方根误差RMSE、平均绝对误差MAE以及模型的拟合直线斜率K-value。

10.根据权利要求8所述的一种小波和XGBoost模型集成的大气细颗粒物浓度估算方法，其特征在于，所述的步骤S600具体为：