CN114974459B

CN114974459B - Pm2.5浓度估算模型的构建方法

Info

Publication number: CN114974459B
Application number: CN202210578832.6A
Authority: CN
Inventors: 陈玉敏; 谭黄元; 苏恒; 陈玥君; 周安南; 陈国栋
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2024-04-16
Anticipated expiration: 2042-05-25
Also published as: CN114974459A

Abstract

本发明提供一种PM_2.5浓度估算模型的构建方法，该方法利用多源的自然环境和社会因子，进行处理和拼接获得覆盖研究区的各种栅格化影响因子；针对反距离权重型空间权重矩阵和k邻近型空间权重矩阵中的带宽，利用遗传算法得到一组最优带宽，不同的带宽代表各个影响因子的对PM_2.5浓度具有不同尺度的空间影响；并基于该最优带宽和空间权重矩阵类型得到多组空间特征向量，构建多尺度特征向量空间滤值变系数模型，将空间特征向量与影响因子分别配对，表示每一影响因子所具有的不同的空间影响，本发明消除了PM_2.5浓度的空间自相关效应，提高模型精度，最终得到高精度的地表PM_2.5浓度连续分布。

Description

PM2.5浓度估算模型的构建方法

技术领域

本发明属于空间统计分析服务应用的技术领域，具体涉及一种PM_2.5浓度估算模型的构建方法。

背景技术

PM_2.5是指漂浮在空气中的空气动力学直径≤2.5μg/m³的细颗粒物，目前是我国大多数城市的首要大气污染物。研究表明，高浓度PM_2.5对人类社会和个人身体健康具有不利影响，如阻碍视线影响交通，损害个人呼吸系统、心血管系统和免疫系统。

区域性的PM_2.5浓度监测依赖于大规模的空气质量监测站点的建立，随着全国空气质量监测站点愈发完备，越来越多的研究人员将研究重心转为大范围的PM_2.5浓度建模。部分学者采用普通克里金方法，依据空气质量监测站点的PM_2.5浓度值进行插值，获得缺乏监测数据区域的PM_2.5浓度。还有一部分学者采用普通时空克里金和贝叶斯最大熵方法，通过经验时空半方差函数捕获PM_2.5浓度的时空依赖，充分利用PM_2.5的空间和时间特征，得到多维时间的大规模区域性的PM_2.5浓度值。然而上述方法缺乏考虑自然和社会环境的相关因素对PM_2.5浓度值的影响，同时其拟合精度受限于空气质量监测站点的分布不均问题。

随着遥感影像的愈发成熟，其具有高时空分辨率和覆盖范围广的特征，越来越多的学者尝试采用遥感影像解决监测站点分布不均匀的问题。相关学者利用气溶胶厚度和颗粒物存在的相关关系，构建线性模型拟合PM_2.5浓度；部分学者探究了其他相关自然因素如：地表温度、降水、高程等对PM_2.5浓度。如郭红等基于卫星多光谱技术，计算大气气溶胶光学厚度的年平均值、地面PM_2.5浓度观测平均值、相关气象数据平均值，构建PM_2.5浓度估算模型，克服了监测站点分布不均匀问题。此外，部分学者将社会因素纳入PM_2.5浓度估算过程中，相关社会因子数据包括夜光强度、人口密度、交通路网、土地利用等因素。

传统的线性回归建模难以拟合相关因子对PM_2.5浓度的复杂影响过程。土地利用回归（Land-use regression, LUR）、空间滞后模型（Spatial lag model, SLM）、空间误差模型（Spatial error model, SEM）、地理加权回归（Geographically weighted regression,GWR）等具有空间地理思维的回归方法被应用到PM_2.5浓度建模当中。随着机器学习和深度学习在各个行业地广泛应用，相关模型也被应用到PM_2.5浓度建模当中，如支持向量回归（Support Vactor Regression, SVR）、BP神经网络、随机森林算法（Random forest, RF）、深度残差网络（Deep residual network, ResNet）、长短期记忆模型（long-short termmemory, LSTM）等。然而，PM_2.5浓度具有空间自相关性，存在较强的空间聚集效应，而相关算法缺乏对空间影响的考虑，同时认为各个影响因子对PM_2.5浓度的空间影响是同质的，缺乏多尺度空间影响的考虑。

Zhang等人采用特征向量空间滤值建模方法模拟地表PM_2.5浓度，分别考虑了自变量中的空间影响因子和非空间影响因子，但对于空间变异部分考虑不足。Tan等人采用随机效应特征向量空间滤值算法构建空间变系数方法构建地表PM_2.5浓度模型，将自变量对PM_2.5浓度的影响分为定系数和空间变系数部分，但缺乏考虑自变量对PM_2.5浓度的多尺度影响。

发明内容

本发明的目的在于针对现有技术的不足之处，提供一种PM_2.5浓度估算模型的构建方法，该方法对特征向量空间滤值变系数方法进行拓展，引入空间多尺度概念，表示影响因子对PM_2.5浓度具有的多尺度效应，提出一种自适应的空间多尺度方法，进一步提高模型拟合精度。

为解决上述技术问题，本发明采用如下技术方案：

一种PM_2.5浓度估算模型的构建方法，其特征在于，包括如下步骤：

步骤1：对地面监测站点记录的PM_2.5数据进行质量评估与均值处理；

步骤2：选取合适的影响因子，并对影响因子进行预处理处理与均值处理；

步骤3：统一坐标站点和影响因子的空间坐标系，并得到坐标站点下的PM_2.5浓度值和各个影响因子数值；

步骤4：计算PM_2.5浓度值和各个影响因子的皮尔逊相关系数，对相关系数低于一定值的影响因子进行剔除；

步骤5：根据实际需求的比例将步骤4中的数据划分为建模集和测试集；

步骤6：选取合适的空间权重矩阵类型；

步骤7：基于遗传算法选取最佳带宽；

步骤8：根据步骤7中得到的最佳带宽和步骤6中所选择的空间权重矩阵类型，构建空间权重矩阵；中心化空间权重矩阵并求取特征值和特征向量，其特征向量代表空间影响，为空间特征向量，并对所获得的空间特征向量进行初筛；将生成的空间特征向量与影响因子分别配对组成交互项；对影响因子、交互项进行重新组合构建模型，并对交互项和空间特征向量采用前向选择进行筛选；

步骤9：对模型精度评价；

步骤10：根据上述获得的空间特征向量和影响因子，代入步骤8所构建模型进行计算PM_2.5浓度值并制图，获得大范围内的连续PM_2.5浓度图。

进一步地，步骤2具体包括如下步骤：

步骤2.1：从各种资源节点获取各个影响因子的原始影像和相关数据，其中，影响因子包括自然环境因子和社会因子，影像类根据不同产品类型的相关需求进行相关校正；针对离散站点或其他矢量格式，通过相关软件进行矢量转栅格、插值、核密度分析的操作转换为覆盖研究区的栅格影像；

步骤2.2：对原始影像数据进行拼接和均值处理，得到覆盖范围完整的影像数据，再根据影像因子时空分辨率和PM_2.5浓度时间分辨率的实际需求，统一影像因子得时空分辨率，进行上述处理完成后仍存在缺失值的问题，进行缺失值补全操作。

进一步地，步骤4中对皮尔逊相关系数小于0.1的影响因子进行剔除。

进一步地，步骤6中空间权重矩阵的类型包括反距离权重型空间权重矩阵和k邻近型空间权重矩阵。

进一步地，步骤7中最佳带宽的选取方法为：

步骤7.1：对带宽进行编码并生成一组带宽；

步骤7.2：根据步骤7.1的规则生成多组带宽，初始化多组带宽种群；

步骤7.3：构建适应度函数，应用该函数评价各个种群中各组带宽适应度；其中，适应度函数的公式如下所示：

式中，表示第i份验证集的第j个站点PM_2.5浓度真实值；/>表示第i份验证集的第j个站点PM_2.5浓度拟合值；适应度Opt越大表示该组带宽适应度越强；

步骤7.4：通过收敛条件判断，收敛条件为循环迭代次数，如迭代次数未达到收敛条件，则对未达到收敛条件的个体进行选择、交叉、变异操作；

步骤7.5：通过收敛条件判断，如果迭代次数达到收敛条件，则将该种群中适应度最佳的一组带宽进行解码，即将二进制变为十进制，并将结果进行返回。

进一步地，步骤8中，中心化空间权重矩阵的公式为：

其中，为构建的某一空间权重矩阵；I为n维单位矩阵；/>是一个n×n的矩阵，矩阵内所有元素都等于1；n是研究区内监测站点的数量；/>为中心化后空间权重矩阵；

随后，求取特征值和特征向量/>，对所有空间权重矩阵/>依次进行上述步骤，求取特征值和特征向量，并对每一组特征值和特征向量进行下述初筛操作：

其中，是某一带宽下的特征值，/>是该带宽下最大的特征值，其意义在于筛选对应特征值在前25%的特征向量，该部分特征向量代表了对应的空间权重矩阵中空间影响的主要部分，为空间特征向量。

进一步地，步骤8中，具体还包括：

将空间特征向量与影响因子分别配对，构成一系列的交互项，其意义为空间影响/>对影响因子/>的影响作用，即不同区域的影响因子对PM_2.5浓度有不同的作用，并构建模型如下所示：

其中，表示PM_2.5浓度；/>表示常数项系数；/>表示对应常数项的交互项，表示选择了的/>中/>个空间特征向量；/>表示/>前的系数；/>表示第k个影响因子；/>表示影响因子/>前的系数；/>表示对应影响因子/>所选择的p个空间特征向量，相乘组成/>交互项；/>表示其交互项/>前的系数；/>表示误差项，其中，空间特征向量的筛选采用前向逐步回归的方法。

进一步地，步骤10中，大范围PM_2.5浓度制图的方法为：

构建研究区域范围内的虚拟格网点，根据制图空间分辨率要求，构建制图区域内横行竖列规则排布的依据空间分辨率间隔的格网点，利用最佳带宽和空间权重矩阵形式提取空间特征向量，并提取各个虚拟格网点下的影响因子数值，代入模型进行解算得到区域内空间连续的PM_2.5浓度分布。

与现有技术相比，本发明的有益效果为：本发明对特征向量空间滤值变系数方法进行了拓展，引入空间多尺度概念，表示影响因子对PM_2.5浓度具有的多尺度效应，因此本发明所提供的PM_2.5浓度估算模型能够针对PM_2.5浓度的空间自相关性和影响因子对PM_2.5所具有的空间效应，捕获每一影响因子对PM_2.5浓度具有的不同空间尺度影响，提高了浓度估算模型的精度；此外，本发明消除了PM_2.5浓度的空间自相关效应，进一步提高了模型精度，最终得到高精度的地表PM_2.5浓度连续分布。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例步骤7的子流程图；

图3为本发明实施例步骤8的子流程图；

图4为本发明实施例步骤10的子流程图。

具体实施方式

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明要解决的问题是：地面空气质量国控检测点分布不均匀且数量不足难以进行合理建模获得大范围内空间连续的PM_2.5浓度分布。同时传统回归建模方法难以衡量和确定自变量因子对PM_2.5浓度在不同空间尺度上的影响。针对这些问题，本发明基于地面空气质量国控检测点PM_2.5浓度和栅格化影响因子数据，使用自适应多尺度特征向量空间滤值变系数方法构建地面PM_2.5浓度模型，得到大范围内连续的地面PM_2.5浓度分布图。

参见图1，本发明提供的一种PM_2.5浓度估算模型的构建方法，包括以下步骤：

步骤1：地面监测站点PM_2.5浓度质量评估与均值处理。原始的站点PM_2.5数据是每小时的平均浓度，单位为毫克每立方米（μg/m³），同时包含各个检测站点的坐标点。由于各个站点的长期监测条件不同，存在缺失值，此处站点的有效性一般的质量评价可通过：每日不少于 12个有效小时平均值，每月不少于21个有效日均值（2月份不少于19个有效日均值），每年不少于12个有效月均值，对不符合相关质量要求的站点数据进行剔除，经过均值处理变换为日、月、年等均值浓度。

步骤2：影响因子的预处理处理与均值处理；

步骤2.1：从各种资源节点获取各个影响因子的原始影像和相关数据，影响因子可以包括自然环境因子和社会因子，其中自然环境因子包括气溶胶厚度、气温、气压、相对湿度、降水量、地面高程、植被覆盖情况、行星边界层高度等；社会因子包括土地利用状况、人口、各类地面兴趣点分布（如工厂等）、道路分布等。由于影响因子分别有影像或站点等多种格式，影像类可根据不同产品类型的相关需求进行相关校正；针对离散站点或其他矢量格式，可通过相关软件如ArcGIS、Envi、Erdas或其他编程语言进行矢量转栅格、插值、核密度分析等操作转换为覆盖研究区的栅格影像；

步骤2.2：由于各个影响因子的原始影像数据可能存在的一定范围内的缺失值、单幅影像不能完整覆盖研究区域或同一区域存在多个时间段数据等现象，通过拼接和均值处理，得到覆盖范围较为完整的影像，该步骤可通过ArcGIS、Envi、Erdas或相关编程语言python、R、matlab实现。根据影像因子时空分辨率和PM_2.5浓度时间分辨率等实际需求，得到统一时间分辨率的因子数据；对于上述处理完成后，研究区内还存在部分缺失值亦可通过上述软件进行插值等填补操作。

步骤3：监测站点坐标、影响因子影像重投影与空间连接。由于监测站点和各个影响因子之间的坐标系并不统一，需要进行重投影操作，形成统一的坐标系基准，并提取监测站点坐标的各个影响因子的数值，形成一个具有坐标值，PM_2.5浓度，该坐标点下各个影响因子数值的多个时间段数据表。

步骤4：影响因子筛选；计算步骤3中得到的每一个时间段的数值表中PM_2.5浓度与各个影响因子的皮尔逊相关系数，一般对相关系数小于0.1的影响因子进行剔除。

步骤5：建模集与测试集划分。对步骤4中得到的数据表，一般按照70%和30%的比例划分为建模集和测试集，也可根据实际需求自行划分比例，其划分后数据提供给后续进行相关建模和精度评价步骤。

步骤6：选取与构建空间权重矩阵类型；此步骤中空间权重矩阵的类型包括反距离权重型空间权重矩阵和k邻近型空间权重矩阵，利用步骤5中得到的建模集的各个站点坐标构建该空间；

（1）反距离权重型空间权重矩阵，包括指数1型模型、指数2型模型、高斯1型模型、高斯2型模型，球状模型，其构建方法如下述公式依次所示：

其中空间权重矩阵W是一个n×n的二维表；n为站点个数表示对应空间权重矩阵i行j列的数值，表示站点i和站点j之间的权重数值；exp表示指数函数；/>表示站点i和站点j之间的距离；r表示带宽，r的范围一般为[0, max(/>)]，是步骤7中待优化和求取的数值。

（2）k邻近型空间权重矩阵，其空间权重矩阵W的形式与反距离权重型空间权重矩阵一致，是一个n×n的二维表，通过设置站点是否邻接代表其空间权重关系，其中，表示站点间邻接，/>；最近邻的意义在于，空间矩阵中站点i与它最邻接的k个其他站点是可以联通的，除此k个站点，其余站点不邻接。其中，k值范围一般为[0, n]，与反距离权重型空间权重矩阵中的带宽类似，同样将其默认作为带宽，是步骤7中待优化和求取的数值。

步骤7：基于遗传算法的最佳带宽选取，其具体流程示意图参见图2；

步骤7.1：对带宽进行编码并生成一组带宽；根据选取的自变量个数k，生成k+1个带宽，表示可依据所选择的空间权重矩阵形式生成k+1份空间特征向量。每个自变量能与对应的适合的空间特征向量进行以乘积形式的组合，剩下的1份特征向量表示与常数项配对，其模型形式可见步骤8.4，其带宽生成的范围是依据所选取的空间权重矩阵形式，如步骤6中两类空间权重矩阵各自带宽的范围所述，随机生成k+1个范围内的带宽，并对其进行二进制编码转换；

步骤7.2：初始化多组带宽种群；根据步骤7.1的规则生成多组带宽，每组带宽的带宽数量为k+1个，其组数可根据需求自行确定，一般组数越多耗时越久，需要的算力越大；

步骤7.3：评价各个种群中各组带宽适应度；其适应度函数通过，如下公式计算。将建模集随机分为10份，对其中9份数据进行建模，其建模过程可参照步骤8，剩余1份数据作为验证集，计算该验证集的均方根误差，循环直到每1份数据都作为验证集，将得到的10份均方根误差作均值和取负数处理，其数值Opt为该组带宽的适应度，其公式如下所示。

其中，表示第i份验证集的第j个站点PM_2.5浓度真实值；/>表示第i份验证集的第j个站点PM_2.5浓度拟合值；该适应度Opt越大表示该组带宽适应度越强；

步骤7.4：选择、交叉、变异操作。通过收敛条件判断，其收敛条件为循环迭代次数，其数值可自行设置；如未达到，则进行此处的选择、交叉、变异操作，其中，“选择”表示该带宽的适应度值越大，该个体被保留的可能性越大；“交叉”表示两组带宽之间按一定概率互相交换结构（由于带宽是二进制01编码之后，交换结构即交换各自的01部分）；“变异”表示按照一定概率随机将该组带宽中的二进制结构从“0”变成“1”或“1”变成“0”；

步骤7.5：解码并返回结果；通过收敛条件判断，如果迭代次数达到收敛条件，则将该种群中适应度最佳的一组带宽进行解码，即将二进制变为十进制，并将结果进行返回。

步骤8：多尺度特征向量空间滤值变系数建模，其具体流程示意图参见图3；

步骤8.1：构建空间权重矩阵；根据提供的一组带宽，所选择的空间权重矩阵形式以及建模集中的站点坐标信息，构建k+1个带宽不同的空间权重矩阵；

步骤8.2：中心化空间权重矩阵并求取特征值和特征向量，中心化过程如下所示：

其中为步骤8.1构建的某一空间权重矩阵；I为n维单位矩阵；/>是一个n×n的矩阵，矩阵内所有元素都等于1；n是研究区内监测站点的数量；/>为中心化后空间权重矩阵。随后求取特征值/>和特征向量/>。对所有空间权重矩阵/>依次进行上述步骤，求取特征值和特征向量。对每一组特征值和特征向量进行下述初筛操作：

其中是某一带宽下的特征值，/>是该带宽下最大的特征值，其意义在于筛选对应特征值在前25%的特征向量，该部分特征向量代表了对应的空间权重矩阵中空间影响的主要部分，为空间特征向量；

步骤8.3：特征向量与影响因子分别配对；步骤8.2得到的k+1组空间特征（）向量分别对应1组常数项和k个影响因子，组成交互项（/>），表示空间影响对，其意义为空间影响/>对影响因子/>的影响作用，即不同区域的影响因子对PM_2.5浓度有不同的作用；

步骤8.4：前向选择筛选空间特征向量并求解模型系数；对步骤8.3的交互项进行重新组合，得到的模型公式如下所示：

步骤9：模型精度评价；计算所得模型的R²、调整后R²（Adj.R²）、均方根误差（RMSE）以及残差的Moran’s I等作为模型评价指标，以验证所提出的模型PM_2.5浓度估算模型的精度。同时，将测试集带入模型进行解算，获得PM_2.5浓度拟合值，并与测试集中PM_2.5浓度真实值进行计算均方根误差（RMSE）。相关计算公式如下所示：

其中是空气质量检测站点i的PM_2.5浓度观测值；/>是观测数据的平均值；/>是模型拟合的检测站点i的PM_2.5浓度；n是站点的个数。

其中p是自变量的个数；R²和Adj.R²的取值范围是[0, 1]，值越大说明模型拟合优度越高。

其中式子中各个参数同上，RMSE数值在一定程度上表示了拟合数值和真实值的偏差，其数值越小表示拟合精度越高。

其中是模型中空气质量检测站点i的PM_2.5浓度拟合值与真实值之间的残差，/>是残差平均值，/>是站点i和j之间空间权重。/>的取值范围是[-1, 1]，值越接近于0，残差的空间自相关性越弱，模型越可靠。

步骤10：大范围PM_2.5浓度制图，其具体流程示意图参见图4；

步骤10.1：构建虚拟格网点；根据制图空间分辨率要求（一般与影响因子的空间分辨率一致），构建制图区域内横行竖列规则排布的依据空间分辨率间隔的格网点，每个点代表该区域的浓度数值。该步骤可通过ArcGIS的“创建渔网”功能、QGIS中的“创建网格”功能或者其他方式进行构建；

步骤10.2：提取虚拟格网点特征值与特征向量；根据步骤6所选择的空间权重举重构建形式和步骤7得到的最佳带宽，计算每个格网点下的特征值和特征向量；

步骤10.3：提取虚拟格网点处影响因子数值；通过格网点的坐标将该点处的各个影响因子的数值提取，得到制图范围内密布的、格网点化的各个影响因子数值；

步骤10.4：模型计算数值与制图；将步骤10.3和步骤10.4中得到的格网点处的空间特征向量和影响因子数值代入模型进行计算，得到密布的，格网点化的PM_2.5浓度值。依据10.1中定义的制图空间分辨率要求，将格网点转换为栅格图像，各个格网点为栅格图像内各个像素点的PM_2.5浓度数值，最后对栅格图像进行相关显示和制图处理得到该区域内空间连续的PM_2.5浓度分布。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种PM_2.5浓度估算模型的构建方法，其特征在于，包括如下步骤：

步骤6：选取合适的空间权重矩阵类型；

步骤7：基于遗传算法选取最佳带宽；

步骤9：对模型精度评价；

步骤10：根据上述获得的空间特征向量和影响因子，代入步骤8所构建模型进行计算PM_2.5浓度值并制图，获得大范围内的连续PM_2.5浓度图；

其中，步骤7中最佳带宽的选取方法为：

步骤7.1：对带宽进行编码并生成一组带宽；

式中，表示第i份验证集的第j个站点PM_2.5浓度真实值；/>表示第i份验证集的第j个站点PM_2.5浓度拟合值；适应度Opt越大表示该组带宽适应度越强；n是研究区内监测站点的数量；

2.根据权利要求1所述的PM_2.5浓度估算模型的构建方法，其特征在于，步骤2具体包括如下步骤：

3.根据权利要求1所述的PM_2.5浓度估算模型的构建方法，其特征在于，步骤4中对皮尔逊相关系数小于0.1的影响因子进行剔除。

4.根据权利要求1所述的PM_2.5浓度估算模型的构建方法，其特征在于，步骤6中空间权重矩阵的类型包括反距离权重型空间权重矩阵和k邻近型空间权重矩阵。

5.根据权利要求1所述的PM_2.5浓度估算模型的构建方法，其特征在于，步骤8中，中心化空间权重矩阵的公式为：

6.根据权利要求1所述的PM_2.5浓度估算模型的构建方法，其特征在于，步骤8中，具体还包括：

将空间特征向量与影响因子分别配对，构成一系列的交互项，其意义为空间影响对影响因子/>的影响作用，即不同区域的影响因子对PM_2.5浓度有不同的作用，并构建模型如下所示：

7.根据权利要求1所述的PM_2.5浓度估算模型的构建方法，其特征在于，步骤10中，大范围PM_2.5浓度制图的方法为：