CN115438582A

CN115438582A - 一种联合多要素和图注意力的pm2.5浓度预测方法

Info

Publication number: CN115438582A
Application number: CN202211070069.2A
Authority: CN
Inventors: 石陆魁; 张慧珍; 张清瑞; 张少璞; 赵仕远
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-12-06

Abstract

本发明公开一种联合多要素和图注意力的PM2.5浓度预测方法，本发明方法充分考虑了相关气象要素对PM2.5浓度的影响，通过皮尔逊相关性分析先筛选出对PM2.5浓度影响较大的气象要素，然后和PM2.5浓度数据一起输入到网络中学习特征，通过考虑多要素的影响从而指导PM2.5浓度突变情况下的预测；此外，在神经网络模型中设计了图注意力模块，采用图注意力机制对每个监测站点的邻居站点进行自适应分析，根据潜在相关度的强弱赋予不同大小的注意力权值，然后通过社交池化机制将不同邻居站点的差异性影响信息进行整合，将其考虑到当前站点的预测中，通过学习站点的局部时空相关性提高模型的预测精度。

Description

一种联合多要素和图注意力的PM2.5浓度预测方法

技术领域

发明属于环境数据预测技术领域，具体是一种联合多要素和图注意力的PM2.5浓度预测方法。

背景技术

空气污染是环境科学的一个重点研究内容，PM2.5对人类健康构成极大威胁，因此有必要提前预测PM2.5浓度的变化趋势。然而，PM2.5的浓度变化受污染源、周边环境变化、气象因素等多种复杂因素的影响，使得准确预测PM2.5浓度的变化趋势十分具有挑战性。

目前，国内外学者关于PM2.5浓度的预测方法主要分为两类：确定性方法和统计方法。确定性方法是指利用空气动力学理论和物理化学方程建立大气污染物浓度扩散模型。这类模型不需要大量的数据，而是通过了解污染源、污染排放量、各类气体的化学成分和大气扩散的物理过程等来对污染物的分布进行预测。在早期污染预测中，确定性方法得到了广泛的应用。然而，确定性方法都具有相似的局限性，那就是它们都需要丰富的先验知识和高速的计算机器，并且所建立的数值模型与区域的相关性极强，因此模型的泛化能力比较弱。

而随着统计方法的出现，确定性方法的局限性逐渐被缓解。统计方法可以利用大量的历史数据，通过较为简单的模型学习出污染物的变化规律。其中，功能强大的人工神经网络为后期PM2.5浓度的预测提供了新思路，加速推进了预测问题的进步，所以利用神经网络对污染物进行预测逐渐获得了众多学者的关注。其中，循环神经网络和其变体长短期记忆网络被广泛应用于各类预测任务中。长短期记忆网络能够模拟空气的时空演化，有效地从空气污染物的时间序列模式中提取有用的特征，因此适用于建模PM2.5的历史浓度数据，从而产生较为可靠的预测。

然而，目前关于PM2.5浓度预测研究还存在很多问题：一是许多预测方法没有充分考虑目标站点PM2.5浓度与周边地区的相关性；二是受污染排放和相关要素影响，PM2.5浓度变化剧烈，突变情况下很难进行准确预测。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种联合多要素和图注意力的PM2.5浓度预测方法。本发明预测方法考虑了影响PM2.5浓度的多种气象要素，并在神经网络模型中设计了图注意力机制，大大提升了PM2.5浓度预测的准确性。

本发明解决所述技术问题采用的技术方案如下：设计一种联合多要素和图注意力的PM2.5浓度预测方法，其特征在于，该方法包括如下步骤：

第一步、获取某一区域的K个监测站点的PM2.5浓度与气象要素的历史数据集，该历史数据集包括PM2.5浓度的micaps格点数据和多个气象要素的micaps格点数据，PM2.5浓度的micaps格点数据或一个气象要素的micaps格点数据为一个时空序列向量；

第二步、对历史数据集中的缺失值进行填值处理，然后利用皮尔逊相关性分析，筛选出历史数据集中与PM2.5浓度强相关的其他气象要素；最后，将筛选出来的与PM2.5浓度强相关的其他气象要素数据与PM2.5浓度数据分别进行标准化处理，获得原始数据集；

第三步、根据监测站点的经纬度坐标，将原始数据集中的PM2.5浓度数据和与其强相关的其他气象要素数据分别利用克里金插值法进行插值处理，分别得到G种数据的一定像素大小的网格数据时间序列；然后将每个采样时刻点的网格数据划分成若干个R*R大小的小网格数据，并将G种数据的小网格数据根据监测站点与采样时刻点对应进行拼接，得到若干个小网格数据集，一个小网格数据集为包含N个监测站点的G种数据的阵列数据，N＝R²，得到训练数据；

第四步、利用训练数据和平衡注意力社交长短期记忆神经网络进行PM2.5浓度数据预测，具体包括如下步骤：

步骤4.1：将第三步中得到的训练数据以采样时刻点的数量按顺序划分为训练集、验证集；

步骤4.2：将训练集按采样时刻点划分为数量相等的若干组，将一组数据中的前部分的采样时刻点的数据作为BAS-LSTM神经网络的输入，得到后部分的采样时刻点的数据的预测值；具体的，将一组数据的前部分的采样时刻点的每个小网格数据集依次输入到BAS-LSTM神经网络，BAS-LSTM神经网络由多组神经网络模块构成，一组神经网络模块包括一个LSTM单元、一个图注意力层和一个社交池化层；每一组神经网络模块对应一组数据中的前部分一个采样时刻点；

对于第t个采样时刻点，对于监测站点i，对应的神经网络模块的LSTM单元的信息处理方程如下:

其中，

与

是第t个采样时刻点的的LSTM单元的输入；其中，

与第t个采样时刻点的一个小网格数据集中的监测站点i的真实数据

相关；

为遗忘门，

为第t-1个采样时刻点的LSTM单元状态，

为输入门，

为LSTM单元临时状态，

为输出门，

为隐藏状态信息；W_f、W_i、W_c和W_o分别是遗忘门、输入门、输入单元和输出门的权重矩阵，b_f、b_i、b_c和b_o依次为遗忘门、输入门、输入单元和输出门的偏置；σ为sigmoid激活函数，tanh也是激活函数，

表示按位素乘；

由一个小网格数据集得到当前采样时刻点的N个监测站点的隐藏状态信息h，h＝

其中

N为节点个数，这里N＝R²，F为每个节点隐藏状态信息的特征维数；将

作为第t个采样时刻点的图注意力层的输入，以学习相邻监测站间的注意力权重，具体过程为：在每个采样时刻点，将局部区域R*R内的监测站看作是完整图上的节点，利用图注意力机制对邻居节点的信息进行处理，将不同的重要性权重分别赋予不同的邻居节点信息，学习相邻节点之间的图注意力权重，公式如下：

其中，t＝1,2,…T_obs，||为拼接运算；a∈R^2F'，为单层前馈神经网络的权重向量，T代表转置操作；e_i,j为节点j在第t个采样时刻点对节点i的注意力权重系数；在每个采样时刻点，首先将节点i和其邻居节点j的隐藏状态信息

进行线性变化；W∈R^F'*F，为应用于每个节点的共享线性变换的权值矩阵，F为

的特征维数，F'为输出的维数；然后将

和

进行拼接，将拼接好的状态信息与一个可学习的权重向量a^T做点积操作，再将得到的数值通过LeakyReLU激活函数得到注意力权重系数e_i,j，最后经过softmax函数对e_i,j进行归一化，得到规范化的权重α_i,j就是节点j对于节点i的注意力权重；Ν_i表示节点i在图上的邻居集，学习节点i与其他邻居节点k之间的注意力权重与之类似；图注意力层的输出为注意力权重矩阵A，A∈R^N*N，生成的权重矩阵会被输入到下一层即社交池化层，通过下一层汇聚邻居节点的不同影响信息；

社交池化层对周围相关节点的隐藏状态信息进行加权汇集，对于每一个目标节点而言，将其和邻居节点的隐藏状态信息与对应的注意力权重矩阵相乘，然后在水平和垂直方向进行求和，得到社交状信息

利用式(11)和式(12)进行空间相关性学习，整合邻居节点的相关状态信息从而学习节点之间的空间交互作用：

其中，1_mn(sx,sy)是一个指示函数，用于检查(sx,sy)是否在第(m,n)网格单元中，(sx_k,sy_k)代表节点k的空间相对坐标，j∈N(i)，N(i)代表节点i的相邻点的集合，α_i,j代表节点j相对于节点i的注意力权重；

为第t个时刻点节点j的LSTM单元的隐藏状态信息，

是节点i经过整合后的社交状态信息，包含了自身和周围相关邻居节点的隐藏状态信息；

第t个采样时刻点的神经网络模块向第t+1个采样时刻点的神经网络模块传递的是社交状态信息，将节点i的第t个采样时刻点的社交状态信息与第t+1个时刻点的真实数据

作为第t+1个时刻的LSTM单元的输入，具体方式为：将第t个时刻的社交状态信息

嵌入到

向量中，并将第t+1个时刻的PM2.5浓度和相关气象要素的真实数据

嵌入到

中，然后将

和

输入到第t+1个时刻的LSTM单元中，得到

公式如下：

其中，φ(·)是带有ReLU激活函数的嵌入函数，W_ex和W_eh是嵌入权重，

是节点i在第t个采样时刻点的社交状态信息，

是第t+1个采样时刻点节点i的真实数据；W_l是LSTM模型的权重，

是节点i在第t+1个采样时刻点的LSTM单元隐藏状态信息；公式(15)表示，将

和

作为第t+1个时刻点的LSTM单元的输入，根据公式(3)-(8)，得到

再根据公式公式(9)-(12)，即可得到第t+1个采样时刻点的神经网络模块输出的社交状态信息

在BAS-LSTM神经网络开始训练时，各参数初始化采用pytorch框架中的默认值，并令初始隐藏状态信息

与初始单元状态信息C₀均为0，然后将训练集的一组数据的前部分的采样时刻点的每个小网格数据集依次输入到对应采样时刻点的神经网络模块中，依次迭代学习，直到最后一个采样时刻点，得到各个节点最后一个采样时刻点的LSTM单元的隐藏状态信息；对于节点i，其最后一个采样时刻点的LSTM单元的隐藏状态信息为

将

经过一个线性层处理，将其转换成G种数据的T_pred维矩阵，公式如下：

其中，

是节点i在第T_obs个采样时刻点的LSTM单元的隐藏状态信息，

T_obs是采样时刻点的总数，即一组数据的前部分的采样时刻点数量；T_pred是预测时刻点的总数，即一组数据的后部分的采样时刻点数量；W_p是可学习的参数，为一个变换矩阵，即线性层；选择出

中的PM2.5的浓度数据

即得节点i的T_pred个预测时刻点的PM2.5浓度数据；

通过最小化B-MSE损失更新网络参数，网络参数更新采用RMSprop优化算法，B-MSE公式如下：

其中，K是某一区域的监测站点总个数，T_obs是采样时刻点的总数，T_pred是预测时刻点的总数，

代表第n个预测时刻点第i个监测站点的权重，

和

分别对应于第n个预测时刻点监测站点i的PM2.5浓度的真实值和预测值；根据该组数据的B-MSE损失更新一次网络参数，然后输入下一组数据，重新迭代计算，得到下一组数据的B-MSE损失，再更新一次网络参数；重复过程，直至计算完最后一组数据的B-MSE损失，然后再更新一次网络参数，BAS-LSTM神经网络的一轮训练完成，保存网络模型；

步骤4.3：将验证集输入到步骤4.2中保存的网络模型中，验证集包括多组数据，一组数据的采样时刻点数量与训练集中的一组数据的采样时刻点数量相同，将验证集的前部分采样时刻点的每个小网格数据集依次输入到BAS-LSTM神经网络模型中，得到后部分采样时刻点的PM2.5浓度的预测数据；利用公式(17)-(18)计算验证集中每组数据的B-MSE值，然后求所有组数据的平均B-MSE损失；

步骤4.4：将步骤4.2中保存的网络模型的参数作为BAS-LSTM神经网络下一轮训练的初始参数，重复步骤4.2-步骤4.3的过程，得到一个新的网络模型和验证集在该网络模型下的平均B-MSE损失；将上一个网络模型的参数作为神经网络下一轮训练的初始参数，不断重复步骤4.2-步骤4.3的过程，若验证集的平均B-MSE损失连续20轮次不下降，则将学习率缩小10倍；如果验证集的平均B-MSE损失连续30轮次不下降，则停止训练；将使验证集的平均B-MSE损失最小的网络模型选择为最优网络模型；

步骤4.5：利用BAS-LSTM神经网络模型进行PM2.5浓度的预测；待预测时刻点的数量为验证集中一组数据的后部分采样时刻点的数量相同，获取顺接在待预测时刻点之前的与验证集中一组数据前部分采样时刻点数量相同的时刻点的数据，将该数据的每个小网格数据集依次输入到步骤4.4中的最优网络模型中，得到待预测时刻点的PM2.5浓度的预测数据。

与现有技术相比，本发明的优点和有益效果是：

1.本发明方法充分考虑了相关气象要素对PM2.5浓度的影响，通过皮尔逊相关性分析先筛选出对PM2.5浓度影响较大的气象要素，然后和PM2.5浓度数据一起输入到网络中学习特征，通过考虑多要素的影响从而指导PM2.5浓度突变情况下的预测；

2.本发明方法在神经网络模型设计了图注意力模块以学习周围站点对目标站点的不同影响；采用图注意力机制对每个监测站点的邻居站点进行自适应分析，根据潜在相关度的强弱赋予不同大小的注意力权值，然后通过社交池化机制将不同邻居的差异性影响信息进行整合，将其考虑到当前站点的预测中，通过学习站点的局部时空相关性以提高模型的预测精度。

附图说明

图1为本发明一种联合多要素和图注意力的PM2.5浓度预测方法的BAS-LSTM神经网络的流程与原理示意图。

图2为本发明一种联合多要素和图注意力的PM2.5浓度预测方法的BAS-LSTM神经网络的LSTM单元的原理示意图(图中字符省略监测站点标识)。

图3为本发明一种联合多要素和图注意力的PM2.5浓度预测方法的BAS-LSTM神经网络的图注意力层的原理示意图。

图4为本发明一种联合多要素和图注意力的PM2.5浓度预测方法的BAS-LSTM神经网络的社交池化层的原理示意图。

具体实施方式

下面结合附图和具体实现方式对本发明的技术方案进行详细说明，并不以此限定本申请的保护范围。

本发明为一种联合多要素和图注意力的PM2.5浓度预测方法(简称方法，参见图1-4)，该方法包括如下步骤：

获取PM2.5浓度与气象要素数据集，例如华北地区数据集，该数据集由中国河北省气象局提供，原始数据集包括全国1591个监测站点的35种气象要素数据和PM2.5浓度数据；监测时间为2017年11月1日至2018年3月31日，采样频率以3小时为间隔；因为监测期间华北地区是典型的PM2.5污染区域，污染具有显著的季节性和区域相关性；从全国1591个监测站点中选取出北京市、天津市和河北省所有的合计87个监测站点的PM2.5浓度数据和气象数据制作数据集；数据集覆盖范围为北纬36°34′39″至40°0′40″，东经114°21′15″至119°45′45″；

由于PM2.5的浓度受到其他相关气象要素的影响，通过考虑其他相关要素的影响能够指导PM2.5浓度的预测，特别是在PM2.5浓度突变情况下，通过学习相关多要素的特征能够及时改善PM2.5的特征学习，提高PM2.5的预测精度；为此，通过皮尔逊相关性分析，计算出各项气象要素与PM2.5之间的相关性，然后利用相关度大小筛选出对PM2.5浓度影响比较大的气象要素，融合相关要素进行预测；具体实现过程如下：

2-1)对气象数据和PM2.5浓度数据进行数据预处理：首先是缺失值处理，采用拉格朗日插值法对35个气象要素和PM2.5浓度数据中的缺失值进行填值处理；

2-2)计算各气象要素与PM2.5浓度数据之间的皮尔逊相关系数：利用式(1)分别计算35个气象要素与PM2.5浓度要素之间的皮尔逊相关系数，筛选出皮尔逊相关系数的绝对值大于0.5的要素；当皮尔逊相关性系数的绝对值大于0.5，则认为是强相关关系，该要素对PM2.5影响较大；

其中，cov(X,Y)表示两个变量之间的协方差，σ_X和σ_Y分别表示变量X和变量Y的标准差，μ_X和μ_Y分别表示变量X和变量Y的均值，ρ_X,Y代表两变量之间的相关性系数；

根据定义，皮尔逊相关性系数的范围在[-1，+1]之间，若两要素的相关性系数介于-1～0之间，表明变量之间存在负相关关系；相关性系数在0～+1之间，则表明变量之间存在正相关关系；相关性系数越接近于0，相关性强度越弱，反之系数的绝对值越接近于1则相关度越强；并且当相关性系数的绝对值在0.1～0.3之间，认为两个变量之间是弱相关关系；相关性系数绝对值在0.3～0.5之间，则可以认为两个变量之间是中度相关关系；如果相关性系数的绝对值大于0.5，则认为是强相关关系；

2-3)对筛选出的多要素数据和PM2.5浓度数据进行标准化处理；根据变量间的皮尔逊相关度大小筛选出相关性最强的9个气象要素，分别为2m相对湿度、700hpa位温、850hpa位温、925hpa位温、999hpa混合层高度、2m露点温度、999hpa能见度、999hpa海平面气压和过去12h v方向通风量；将筛选出的9个气象要素以及PM2.5浓度，合计10个要素，利用公式(2)进行标准化处理：

其中，

是第t个采样时刻点第g个要素的数据，

是第t个采样时刻点第g个要素的数据标准化之后的结果，μ_g是第g个要素总体数据的均值，σ_g是第g个要素总体数据的标准差；

本实施例中，原始数据集中共计1208个采样时刻点、87个监测站点的PM2.5浓度数据和9个气象要素数据，PM2.5浓度数据或每个气象要素数据经过克里金插值法处理形成1208个大小为311×251像素的网格数据；最后将每个网格数据划分成若干个R*R大小的小网格，考虑R²个监测站点之间的局部时空相关性，对于单一监测点来说，另外R²-1个监测站点就视为它的邻居站点，这里R取值为2，如图1所示；则一个小网格数据集为包含4个监测站点的10种数据的阵列数据；

第四步、利用训练数据和平衡注意力社交长短期记忆(Balanced AttentionSocial Long Short-Term Memory，简称BAS-LSTM)神经网络进行PM2.5浓度数据预测，具体包括如下步骤：

步骤4.2：将训练集按采样时刻点划分为数量相等的若干组，将一组数据中的前部分的采样时刻点的数据作为BAS-LSTM神经网络的输入，得到后部分的采样时刻点的数据的预测值；具体的，将一组数据的前部分的采样时刻点的每个小网格数据集依次输入到BAS-LSTM神经网络，BAS-LSTM神经网络由多组神经网络模块构成，一组神经网络模块包括一个LSTM单元、一个图注意力(Graph Attention，GAT)层和一个社交池化层(Social-Pooling，S-P)；每一组神经网络模块对应一组数据中的前部分一个采样时刻点。

其中，

与

是第t个采样时刻点的的LSTM单元的输入；其中，