CN112069673A

CN112069673A - 基于梯度提升决策树地表pm2.5浓度估算的方法

Info

Publication number: CN112069673A
Application number: CN202010896824.7A
Authority: CN
Inventors: 郑辉; 张鹏岩; 张文; 李颜颜; 杨丹; 何炜欢
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-11
Anticipated expiration: 2040-08-31
Also published as: CN112069673B

Abstract

基于梯度提升决策树地表PM2.5浓度估算的方法，它涉及一种PM2.5浓度估算的方法。本发明为了解决利用化学、物理及统计模型估计或者预测PM2.5浓度时由于空间、时间非平稳性及受样本量的限制的问题。本方法如下：一、对地面观察的PM2.5浓度数据进行预处理，获得各个站点的平均PM2.5观测浓度数据。二、对遥感AOD产品数据进行处理，获得控制质量较好的AOD数据和扩大AOD数据的空间覆盖率。三、对气象数据和辅助数据预处理，统一化处理。四、数据进行整合，确保所有数据在空间和时间上都一致。五、对数据探索性分析，消除多变量间的共线性问题。六、利用梯度提升决策树方法构建PM2.5浓度估算模型。本发明适用于从遥感AOD数据中估算大范围地表PM2.5浓度空间分布。

Description

基于梯度提升决策树地表PM2.5浓度估算的方法

技术领域

本发明涉及一种PM2.5浓度估算的方法。

背景技术

细颗粒物PM2.5是大气污染物的主要成分，且关注度较高。已有研究表明，PM2.5被吸入人体后会直接进入支气管，引发包括哮喘、支气管炎和心血管病等方面的疾病，影响人体健康。鉴于目前出现的PM2.5污染问题，中国需要具有精细高、覆盖全国范围的高分辨率PM2.5数据。

精确的PM2.5浓度数据主要靠地面监测获得，但由于地面监测网站点稀疏，监测数据有限，以及站点分布不均问题，导致无法模拟较大地理范围内PM2.5浓度的时空变化，有很大的局限性。而卫星遥感影像可以提供较大空间范围的数据，因此拟合卫星衍生的气溶胶光学深度(AOD)信息成为推断地面PM2.5浓度的另一种可靠方法。

目前，设计出多种方法及模型来挖掘AOD与地面PM2.5之间的关系，进而估算或者预测地面PM2.5浓度。包括化学、物理及统计模型；其中，统计模型因其简单、快速且精确的特性而被广泛使用。例如线性混合效应(LME)模型、土地利用回归(LUR)模型等，再到地理加权回归(GWR)模型。虽然这些模型考虑了数据的空间特征，可以解决AOD和PM2.5之间的空间变异性；但这些模型忽略了时间因素或者忽略了PM2.5和AOD关系可能随时间变化的特性，导致估计结果精度较低。针对这些问题，有研究者提出一种考虑空间和时间非平稳性的两阶段(two-stage)模型，第一阶段使用LME模型解释PM2.5-AOD的时间变化关系，然后在第二阶段使用GWR模型对其空间变化进行建模；但该模型不能同时处理PM2.5和AOD关系的时空变化，且受样本量的限制。同时，由于PM2.5浓度受气象条件，土地变化和人类活动等诸多因素的影响，数据多且复杂，因此使用以上传统模型中的任何一种来模拟PM2.5都具有挑战性。

发明内容

本发明的目的是为了解决利用化学、物理及统计模型估计或者预测PM2.5浓度时由于空间、时间非平稳性及受样本量的限制的问题，提供了一种基于梯度提升决策树地表PM2.5浓度估算的方法。

基于梯度提升决策树地表PM2.5浓度估算的方法按照以下步骤进行：

一、对地面观察的PM2.5浓度数据进行预处理，获取研究区内各个站点的日、月、年平均PM2.5观测浓度数据；

二、对遥感AOD产品数据进行处理，获得控制质量较好的AOD数据和扩大AOD数据的空间覆盖率，然后根据步骤一所获得的结果数据提取对应点的遥感AOD数据；

根据步骤一所获得的结果数据提取对应点的遥感AOD数据过程如下：

a、利用遥感AOD产品数据的控制质量文件数据，选择通过了质量检验的数据(也即是控制质量为3的数据集，即QA＝3)，通过对原始AOD数据裁切，获得控制质量较好的AOD数据；

b、通过一般线性回归方法对每天不同源遥感数据的AOD数据进行拟合、弥补缺失区域以扩大空间覆盖率，线性回归拟合公式如下：

τ_星1＝α×τ_星2+β (1)

τ_星2＝α×τ_星1+β (2)

公式中τ_星1为Terra卫星的AOD，τ_星2为Aqua卫星的AOD数据，α和β分别为线性回归方程的斜率和截距。

c、根据步骤一所获得的结果数据提取对应点的遥感AOD数据。

三、对气象数据和辅助数据预处理，不同格式和时间分辨率数据统一化处理，然后，根据步骤二所获得的数据结果提取对应点的气象、辅助数据；

四、根据步骤三结果数据进行整合，以确保所有数据在空间和时间上都一致，具体过程如下：

d、创建覆盖整个研究区的格网数据，并与步骤三中合成的AOD数据相匹配；

e、对落在一个格网中同一变量的多个数据求平均，以确保所有变量数据在空间和时间上都与AOD数据一致。

五、根据步骤四结果对数据探索性分析，以消除多变量之间的共线性问题，从而避免信息重复，过程如下：

f、利用方差膨胀因子(Variance Inflation Factor,VIF)方法计算所选变量之间的共线性关值；

g、根据VIF值大小判断是否存在共线性，当VIF值小于10时认为变量间不存在共线性问题；VIF值大于等于10存在明显共线性问题，共线性的变量只选择一个变量参与模型估算。

六、根据步骤五结果，利用梯度提升决策树方法构建PM2.5浓度估算模型，具体过程如下：

h、从数据集N中提取Z个样本，此时为只有一个根节点的树；

i、对每个样本计算负梯度，即残差；

j、将残差作为训练数据，通过最小化损失函数，从M维特征中选取最佳划分节点，划分样本得到新树对应的叶子节点区域，更新树；

k、重复i和j过程直到损失函数最小L(y,f_t(x))＝L(y,f_t-1(x)+h_t(x))，即样本的损失尽量变得最小。式中L(y,f_t(x))为本轮的损失函数，L(y,f_t-1(x))为前一轮迭代得到的损失函数，h_t(x)为回归树模型的弱学习器。

并且对于每棵梯度提升决策回归树，都有满足以下条件：

其中(x_i，y_i)为样本集，i＝1,2,…,N，x^j为变量x的第j个特征，R_m(j，s)为切分变量x^j和切分点s对应的区域，

为每个区域的最优值；

l、根据k中的结果，然后模型中加入时间和空间特征，最终的模型如下所示：

PM_2.5＝f(变量，......变量，DOY，X，Y) (6)

其中，DOY代表一年中的某一天，X为经度，Y为纬度。

步骤三所述气象数据为温度、降水或蒸散发。

步骤三所述辅助数据为DEM、NDVI或LUCC。

本发明解决了利用化学、物理及统计模型估计或者预测PM2.5浓度时由于空间、时间非平稳性及受样本量的限制的问题。本发明适用于从遥感AOD数据中估算大范围地表PM2.5浓度空间分布。

附图说明

图1为本发明基于梯度提升决策树地表PM2.5浓度估算方法的流程图；

图2为PM2.5地面监测站点年均值空间分布图；

图3为原始Terra的AOD缺失率的空间分布图；

图4为原始Aqua的AOD缺失率的空间分布图；

图5为Terra、Aqua两者合并后的AOD缺失率的空间分布图；

图6为原始Terra、原始Aqua及两者合并后的AOD缺失率的图例；

图7为用于构建PM2.5预测模型的自变量站点数据的直方图统计特性图；

图8为用于构建PM2.5预测模型AOD的直方图统计特性图；

图9为用于构建PM2.5预测模型DEM的直方图统计特性图；

图10为用于构建PM2.5预测模型NDVI的直方图统计特性图；

图11为用于构建PM2.5预测模型TEMP的直方图统计特性图；

图12为用于构建PM2.5预测模型PREC的直方图统计特性图；

图13为用于构建PM2.5预测模型ET的直方图统计特性图；

图14为用于构建PM2.5预测模型Shum的直方图统计特性图；

图15为用于构建PM2.5预测模型SP的直方图统计特性图；

图16为用于构建PM2.5预测模型BLH的直方图统计特性图；

图17为用于构建PM2.5预测模型WS的直方图统计特性图；

图18为用于构建PM2.5预测模型POP的直方图统计特性图；

图19为构建PM2.5预测模型所有变量的相关性分析结果图；

图20为所有变量之间的相关性探索性分析结果图；

图21为所有变量之间的共线性分析结果图；

图22为模型预测与地表观测的PM2.5浓度参差空间分布图；

图23为基于梯度提升决策树方法与其他方法预测结果对比图；

图24为基于梯度提升决策树方法预测值与站点观测值在日尺度上的拟合结果图；

图25为基于梯度提升决策树方法预测值与站点观测值在空间上的验证结果图；

图26为基于梯度提升决策树方法预测值与站点观测值在时间上的验证结果图；

图27为基于梯度提升决策树方法预测值与样本的交叉验证结果图；

图28为基于梯度提升决策树方法预测值与站点观测在日尺度上的模型拟合、空间、时间和样本交叉验证的图例。

具体实施方式

本发明技术方案不局限于以下所列举具体实施方式，还包括各具体实施方式间的任意组合。

具体实施方式一：本实施方式基于梯度提升决策树地表PM2.5浓度估算的方法按照以下步骤进行：

τ_星1＝α×τ_星2+β (1)

τ_星2＝α×τ_星1+β (2)

c、根据步骤一所获得的结果数据提取对应点的遥感AOD数据。

h、从数据集N中提取Z个样本，此时为只有一个根节点的树；

i、对每个样本计算负梯度，即残差；

并且对于每棵梯度提升决策回归树，都有满足以下条件：

为每个区域的最优值；

PM_2.5＝f(变量，......变量，DOY，X，Y) (6)

其中，DOY代表一年中的某一天，X为经度，Y为纬度。

具体实施方式二：本实施方式与具体实施方式一不同的是步骤三所述气象数据为温度、降水或蒸散发。其他与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是步骤三所述辅助数据为DEM、NDVI或LUCC。其他与具体实施方式一或二相同。

采用下述实验验证本发明效果：

实验一：

本发明技术方案具体实施将结合以下实验进行说明，利用梯度提升决策树方法估算地表PM2.5浓度。结合图1说明本实验，基于梯度提升决策树地表PM2.5浓度估算的方法如下：

一、对地面观察的PM2.5浓度数据进行预处理，获取研究区内各个站点的日(月、年)平均PM2.5观测浓度数据。

首先，根据地面观测站点获得逐小时的污染观测数据合成日尺度的数据，然后同样的方法合成月、年时间尺度的PM2.5数据，年尺度的结果如图2所示。

二、对遥感AOD产品数据进行处理，获得控制质量较好的AOD数据和扩大AOD数据的空间覆盖率。然后，根据步骤一所获得的结果数据提取对应点的遥感AOD数据。由于云、阴雨天气、雾霾、AOD反演算法等导致数据缺失较多，为了克服或削弱这一影响，需要将Aqua和Terra遥感卫星获得AOD数据进行合并，如图3-6。

a、利用遥感AOD产品数据的控制质量文件数据，根据控制质量说明，通过对原始AOD数据裁切，获得控制质量较好的AOD数据；

τ_星1＝α×τ_星2+β (1)

τ_星2＝α×τ_星1+β (2)

c、根据步骤一所获得的结果数据提取对应点的遥感AOD数据。

步骤三、对气象数据(温度、降水、蒸散发等)和辅助数据(DEM、NDVI、LUCC等)预处理，不同格式和时间分辨率数据统一化处理。然后，根据步骤二所获得的数据结果提取对应点的气象、辅助数据，并统计所有变量数据特性分布情况，如图7-18所示。

步骤四、根据步骤三结果数据进行整合，以确保所有数据在空间和时间上都一致。其具体过程如下：

d、创建覆盖整个研究区的格网数据，并与步骤三中合成的AOD数据相匹配。

e、对落在一个格网中同一变量的多个数据求平均，以确保所有变量数据在空间和时间上都与AOD数据一致，如图19所示。

步骤五、根据步骤四结果对数据探索性分析，以消除多变量之间的共线性问题，从而避免信息重复。其具体过程如下：

f、求出个变量之间的相关性，对数据探索性分析，根据相关性分析变量在模型中的贡献情况，如图20所示。

g、利用方差膨胀因子(VIF)方法计算所选变量之间的共线性关值，根据VIF值大小判断是否存在共线性，当VIF值小于10时认为变量间不存在共线性问题；VIF值大于等于10存在明显共线性问题，共线性的变量只选择一个变量参与模型估算。结果如图21所示。

步骤六、根据步骤五结果，利用梯度提升决策树方法构建PM2.5浓度估算模型。其具体过程如下：

h、从数据集N中提取Z个样本，此时为只有一个根节点的树。

i、对每个样本计算负梯度，即残差。如图22所示。

j、将残差作为训练数据，通过最小化损失函数，从M维特征中选取最佳划分节点，划分样本得到新树对应的叶子节点区域，更新树。

并且对于每棵梯度提升决策回归树，都有满足以下条件：

为每个区域的最优值；

PM_2.5＝f(变量，......变量，DOY，X，Y) (6)

其中，DOY代表一年中的某一天，X为经度，Y为纬度。

完成PM2.5预测。基于梯度提升决策树方法与其他方法预测结果比较，如图23所示；基于梯度提升决策树方法预测值与站点观测值在日尺度上拟合结果及在空间、时间和样本交叉验证的结果如图24-28所示。