CN113326981B

CN113326981B - 基于动态时空注意力机制的大气环境污染物预测模型

Info

Publication number: CN113326981B
Application number: CN202110578556.9A
Authority: CN
Inventors: 周围; 张航涛; 张英俊
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2024-05-31
Anticipated expiration: 2041-05-26
Also published as: CN113326981A

Abstract

本发明涉及环境监测技术领域，提出了基于动态时空注意力机制的大气环境污染物预测模型，包括获得S个监测站点污染物的浓度数据、温度数据和湿度数据，构建输入矩阵；对输入矩阵进行一维卷积操作，得到原始序列；构建时空编码器，将原始序列输入时空编码器；添加卷积门控单元控制时空编码器的输出；构建静态注意力机制和动态注意力机制，与时空编码器的输出信息进行融合，得到目标站点的编码信息；构建解码器，解码目标站点的编码信息，输出预测结果。通过上述技术方案，解决了现有技术中空气污染物预测模型预测准确度差的问题。

Description

基于动态时空注意力机制的大气环境污染物预测模型

技术领域

本发明涉及环境监测技术领域，具体的，涉及基于动态时空注意力机制的大气环境污染物预测模型。

背景技术

空气污染是影响人类身体健康、生态环境和气候变化的重要公共卫生问题。世界卫生组织（World Health Organization, WHO）公布的空气污染物主要包括空气动力学直径小于2.5μm的颗粒物（PM2.5），气动力学直径小于10μm的颗粒物（PM10），二氧化硫（SO2），二氧化氮（NO2）以及臭氧（O3）。近些年来，臭氧已经成为继SO2，PM2.5后困扰城市空气质量改善和达标的首要污染物，国内外许多地区的臭氧污染形式严峻，近地面臭氧浓度居高不下，对臭氧污染的防控与治理已经成为各部门需要解决的重要问题。臭氧污染会对人及动植物会产生不可逆的损害，为防止臭氧污染进一步恶化，越来越多的学者们致力于研究臭氧污染的成因与缓解方法。其中，准确实时的臭氧污染时空监测数据是臭氧污染治理的基本保障。为此，政府及企业逐步建立了由空气质量监测站点（Air Quality Sensor Node,AQSN）所组成的空气质量监测网络。这些广泛分布监测站点为高精度、高时空分辨率的大气污染监测数据提供可能。

时空监测数据的引入为高精度的臭氧浓度预测提供了可能。因此，越来越多的学者开始针对大气污染物时空数据进行挖掘和研究。但针对基于时空数据的臭氧的预测任务仍存在许多挑战，比如：一、环境臭氧浓度的影响因素众多，且臭氧与其前驱体之间的响应关系复杂，非简单的线性关系，这给臭氧预测带来了困难。二、一个监测站点的臭氧浓度会不同程度的受其它站点的污染物浓度值影响，这种影响的大小不仅与站点之间的距离有关，还与风向、风速等动态的气象条件有关，这些都会影响预测的准确性。

发明内容

本发明提出基于动态时空注意力机制的大气环境污染物预测模型，解决了现有技术中空气污染物预测模型预测准确度差的问题。

本发明的技术方案如下：包括

步骤S100：获得S个监测站点污染物的浓度数据、温度数据和湿度数据，构建输入矩阵；

步骤S200：对输入矩阵进行一维卷积操作，得到原始序列；

步骤S300：构建时空编码器，将原始序列输入时空编码器；

步骤S400：添加卷积门控单元控制时空编码器的输出；

步骤S500：构建静态注意力机制和动态注意力机制，与时空编码器的输出信息进行融合，得到目标站点的编码信息；

步骤S600：构建解码器，解码目标站点的编码信息，输出预测结果。

进一步，对输入矩阵进行一维卷积操作，具体为：

用m个高度为h，宽度与输入矩阵维度相同的过滤器在时间维度上进行卷积，

其中代表卷积操作，/>代表第k个卷积核，/>代表激活函数，对站点s进行卷积得到的结果记为/>，卷积模块的输出组成原始序列/>。

进一步，构建时空编码器的步骤，具体包括：

步骤S310：采用内积法，在输入矩阵加上时序信息嵌入，具体为：

步骤S311：计算时刻i与时刻j之间的权重

其中，为计算Query和Key的待训练参数矩阵，/>，/>分别表示各个监测站点i时刻和j时刻与时序信息嵌入/>相加后的向量，/>为放缩因子；

步骤S312：将各个时刻的输入通过线性变换后加权求和，得到时刻i的编码向量/>：

步骤S313：加入多头自注意力机制，多个注意力头并行执行，并通过以LeakyReLU为激活函数的全连接层进行融合，得到时序编码信息：

为全连接层的参数，Concat代表拼接操作，h为注意力头的个数；

步骤S320：加入空域自注意力机制，在空间维度对各监测站点进行信息融合，具体为：

步骤S321：将站点图信息嵌入Ge，，并将各个监测站点的空间编码Ge与时序编码信息相加，得到/>；

步骤S322：通过变换矩阵将相加后的结果分别映射到不同的空间中做相似度计算：

步骤S323：通过权值融合站点信息来更新每个监测站点的特征：

步骤S324：加入多头自注意力机制，多个注意力头并行执行，并通过以LeakyReLU为激活函数的全连接层进行融合，得到时空编码信息：

融合了同一时间不同监测站点的信息。

进一步，添加卷积门控单元控制时空编码器的输出，具体为：

步骤S410：将原始序列与时空编码信息进行拼接，通过一维卷积操作以及Sigmoid函数得到每一个时间步编码结果的权重：

其中，为卷积门控单元中的第k个卷积核；

步骤S420：表示Sigmoid函数，将权重/>映射到0，1区间：

步骤S430：将时空编码信息与原始序列进行逐项加权，得到要输出的编码信息：

进一步，构建静态注意力机制和动态注意力机制，与时空编码器的输出信息进行融合，具体为：

步骤S510：根据每个监测站点的空间编码Ge以及目标站点的空间编码，计算每个监测站点对应的注意力权重，得到各监测站点与目标站点之间固定的相关关系：

步骤S520：根据注意力权重，将各个监测站点的时空编码信息加权求和得到目标点的静态特征编码：

其中，表示站点p的图嵌入表示，/>代表了站点之间静态的相关关系，/>即目标站点的静态特征编码；

步骤S530：通过特征嵌入的方式表达风速风向动态气象信息，根据风向及风速的大小将气象条件划分成9个离散值，再将其嵌入到高维空间中，得到动态特征编码，时刻i的动态特征编码由Dei表示；

步骤S540：计算各监测站点的动态特征编码与空间编码Ge之间的内积，得到动态的相关关系：

步骤S550：计算时空编码器的输出的加权和，得到目标站点的动态信息编码：

步骤S560：将目标站点静态编码信息与动态编码信息进行融合，并通过卷积门控单元进行加权，得到目标站点的编码信息：

W_A以及b_A为卷积门控单元的参数，通过门控单元可以调整监测站点之间静态以及动态相关关系的影响，站点融合模块的输出为

进一步，构建解码器，解码目标站点的编码信息，具体为：

解码器被设计成为包含一层GRU层以及一层全连接层的结构：

其中，表示目标点臭氧浓度的预测结果，FC表示全连接层，GRU表示门控循环单元。将/>向量与同一时刻的动态气象编码一同作为解码器输入。

本发明的工作原理及有益效果为：

本发明中一维卷积层的作用是解决污染物之间存在的交叉影响，通过提升维度提高模型表达能力，提取特征之间非线性关系；通过构建时空编码器，使模型记住更长的序列信息，通过时域及空域进行交叉编码，增加时域和空域的感受野，通过多头自注意力提高模型的学习能力；进一步，添加卷积门控单元控制时空编码器的输出，学习和控制原始序列和时空编码信息的权重分配；静态注意力机制和动态注意力机制，共同构成动态时空注意力机制，通过动态特征嵌入表达了风速风向信息，实现动态站点信息融合，得到的目标站点编码信息中包含了时空信息和气象信息；最后通过解码器解码目标站点编码信息，得到准确的预测结果。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明模型建立流程图；

图2为本发明中预测模型整体框架图；

图3为本发明中时域自注意力机制、空域自注意力机制和站点信息融合模块计算示意图；

图4为本发明中卷积门控单元计算流程图；

图5为各模型预测曲线；

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都涉及本发明保护的范围。

如图1所示，为本实施例预测模型的流程图，包括：

步骤S100：获得S个监测站点污染物的浓度数据、温度数据和湿度数据，构建输入矩阵

；

步骤S200：对输入矩阵进行一维卷积操作，得到原始序列；

步骤S300：构建时空编码器，将原始序列输入时空编码器；

步骤S400：添加卷积门控单元控制时空编码器的输出；

下面，以臭氧监测为例进行说明。在臭氧预测任务中，针对每个关注的站点（即目标站点），通过已知站点（即监测站点）的空间信息以及监测数据，来估计目标站点的臭氧浓度。该任务的数学模型可表示为：

其中，表示站点i的污染物浓度序列，/>，/>表示输入窗口的长度，/>代表站点i在t时刻的监测数据，N为监测数据的维度，/>为映射函数。

为描述方便，本实施例预测模型记为DSTAN模型，整体架构如图2所示，主要包括四个部分，分别是一维卷积层，时空自注意力编码器，基于动态时空注意力机制的动态站点信息融合模块以及解码器部分。一维卷积层的作用是解决污染物之间存在的交叉影响，通过提升维度提高模型表达能力，提取特征之间非线性关系。时空自注意力编码器的作用是使模型记住更长的序列信息，通过时域及空域进行交叉编码，增加时域和空域的感受野，通过多头自注意力提高模型的学习能力。卷积门控单元的作用是学习和控制原始信息和编码信息的权重分配。动态站点信息融合模块通过动态特征嵌入表达了风速风向信息，基于动态时空注意力机制实现动态站点信息融合。解码器的主要作用是解码时序信息，输出预测结果。

下面介绍各个模块以及卷积门控单元的计算过程。

（1）卷积模块

首先，一维卷积的作用之一是提取臭氧与其前驱体之间非线性的交叉影响。我们分别将各个站点窗口大小为的污染物浓度数据连同温度，湿度作为这一部分的输入，即，其中/>。

将一维卷积操作分别作用于各个站点的时间序列上。具体的，我们用m个高度为h，宽度与各个站点输入数据维度相同的过滤器在时间维度上进行卷积。这一过程可表示为：

其中代表卷积操作，/>代表第k个卷积核，/>代表激活函数，对站点s进行卷积得到的结果记为/>，卷积模块的输出可表示为各站点卷积结果组成的序列。

（2）时空编码器

时空编码器部分包含两个子模块，分别是时域自注意力机制以及空域自注意力机制。时域自注意力计算示意图由图3(1)表示，空域自注意力计算示意图如图3(2)所示。图中标1，2，3的圆点分别表示三个不同站点，虚线表示信息传递的方向，，/>表示信息权重。两个子模块进行编码后均通过一个卷积门控单元来控制哪些信息需要传递下去。编码器可以进行重复堆叠。时域自注意力机制与空域自注意力机制的交替组合同时提高了模型编码阶段时域和空域的感受野。

a）时域自注意力机制

首先，我们通过时域的自注意力机制替代RNN来提取每个站点之间的时序信息。这样做有两个好处：一是RNN对于远距离的时序信息难以提取，这是由RNN的编码过程所决定的。RNN需要一个时间步一个时间步进行计算并更新当前的细胞状态，当序列长度过长时，RNN遍很难记忆之前的信息。而自注意力机制克服了这种困难。这是由于自注意力机制可以通盘考虑序列内所有时间点的信息进而对某一时刻进行编码。第二个好处是，自注意力机制相比RNN大大加快训练速度。这是由于RNN编码时，每一步的计算结果均要依赖上一时刻的输出，这使得RNN无法并行化训练。而自注意力机制通过矩阵乘法进行编码，这大大加快了运行速度。

时空编码器的输入为一维卷积模块的输出结果。首先分别对各个站点的时域上使用自注意力机制进行编码，这一过程可由图3(1)表示。由于自注意力机制无法直接学习序列中的相对位置信息（这里的位置信息指的是时间上的先后关系），因此我们需要在输入序列上加上时序信息嵌入（Temporal Embedding, TE），/>。本文选择内积法计算注意力值，这是出于内积法在时间和空间上的高效性。首先我们计算时刻i与时刻j之间的权重/>：

为计算Query和Key的待训练参数矩阵，/>，/>分别表示各个监测站点i时刻和j时刻与时序信息嵌入/>相加后的向量，/>为放缩因子，控制内积的值不会过大而降低学习效率。之后，将各个时刻的输入通过/>线性变换后加权求和，得到时刻i的编码向量/>：

为了增加模型的表达能力，我们引入了多头自注意力机制，多头自注意力可以同时注意到序列中的各个部分。每个头的运算方式均相同，但分别使用了不同的映射矩阵。多个注意力头可以并行执行，并通过以LeakyReLU为激活函数的全连接层进行融合：

为全连接层的参数，Concat代表拼接操作，h为注意力头的个数。

b）空域自注意力机制

注意到每个站点的时域编码向量只包含了单一站点的时序信息。但在实际场景下，一个站点的污染物浓度会不同程度的受其它站点的污染物影响，为了对这一特性进行建模，我们引入了空域自注意力机制，在空间维度对各个站点进行信息融合。空间上的信息融合方式如图3(2)。为了表达站点之间的依赖关系，我们将站点嵌入至高维向量，即站点图信息嵌入（Graph Embedding, GE），/>。将各个监测站点的空间编码Ge与输入数据（即时序编码信息）相加，得到/>。其次通过变换矩阵/>将相加后的结果分别映射到不同的空间中做相似度计算：

与时域自注意力机制相似，通过权值融合站点信息来更新每个监测站点的特征：

同样的，通过多头自注意力提高模型的学习能力，空域自注意力模块的输出可以表示为：

融合了同一时间不同监测站点的信息。在DSTAN模型中，通过时域及空域交叉进行编码，可以同时增加时域和空域的感受野。为了在每次编码后衡量编码信息有多少需要继续传递下去，有多少信息需要被遗忘，DSTAN分别在时域自注意力模块和空域自注意力模块后加入门控机制，来决定新的状态信息有多少需要被保留。

（3）卷积门控单元

为了衡量编码后的状态信息有多少需要继续保留下去，本实施例提出了卷积门控单元。卷积门控单元的结构以及卷积门控单元与时域，空域自注意力机制的关系由图4表示。首先将原始序列与编码后的序列进行拼接，通过一维卷积操作以及Sigmoid函数得到每一个时间步编码结果的权重：

其中，代表逐元素相乘，/>为卷积门控单元中的第k个卷积核。不同的卷积核可能学习不同的权重分配模式，/>为融合各卷积结果的参数矩阵，/>。/>表示Sigmoid函数，将值映射到0，1区间。

即/>和/>两个向量间的权重分配。将编码后的序列u与原始序列x进行加逐项权，即可得到要输出的状态信息。

（4）动态时空注意力机制

目标点的臭氧浓度会受到周围站点污染物浓度的影响，为了预测目标点的臭氧浓度，需要学习目标点与各输入站点之间的依赖关系。在实际场景下，这种依赖关系不是静态不变的，而是随着气象条件的不断变化动态更新的。比如，当大风吹过时，目标站点的监测数据可能与位于上风向的站点有更高的依赖关系。为了建模这一场景，我们在DSTAN模型中引入了动态的气象因素，提出了基于动态时空注意力机制的动态站点信息融合方法。站点融合模块包括两个部分，分别是静态注意力机制以及动态注意力机制，两者共同构成了动态时空注意力机制。如图3(3)所示，图中标T的圆点表示目标点，表示站点融合时的静态信息权重，/>表示动态信息权重。静态注意力机制学习的是各站点与目标地之间固定的相关关系，通过每个站点的编码以及代表目标地点的站点编码进行计算。通过计算目标点与输入站点编码在映射后的空间中的内积，可以得到每个站点对应的注意力权重：

通过站点图信息嵌入Ge计算得到的注意力权重将各个站点的编码信息加权求和得到目标点的静态特征编码：

其中，表示站点i的图嵌入表示，/>代表了站点之间静态的相关关系。/>即目标站点的静态特征编码。

本文通过特征嵌入的方式表达风速风向动态气象信息，根据风向及风速的大小将气象条件划分成微风、北风、东北风、东风等9个离散值，再将其嵌入到高维空间中，时刻i的动态特征嵌入由Dei表示。为了合理的简化计算，本文假设动态特征Dei与站点位置无关。相似的，动态的相关关系可以由动态特征编码Dei与站点空间编码Ge之间的内积表示：

目标站点的动态信息编码为时空编码器的输出/>的加权和。

通过静态注意力机制以及动态注意力机制将各个站点信息进行融合，得到目标站点的编码信息。两种注意力产生的结果通过卷积门控单元进行加权。编码及融合方式由下式表示：

W_A以及b_A为卷积门控单元的参数，通过门控单元可以调整站点之间静态以及动态相关关系的影响。站点融合模块的输出为。

（5）解码器

通过门控循环单元（GRU）可以学习目标站点的时序编码，从而实现单步以及多步预测。因此，解码器被设计成为包含一层GRU层以及一层全连接层的结构：

其中，表示目标点臭氧浓度的预测结果，FC表示全连接层，GRU表示门控循环单元。我们将/>向量与同一时刻的气象编码一同作为解码器输入。

DSTAN的各特征嵌入均施加了Dropout操作以减少过拟合，增强模型鲁棒性。DSTAN通过最小化预测值与实际值之间的均方误差进行训练：

其中，表示第i个样本的预测值，yi表示第i个样本的实际值，N为样本数。

为验证本实施例预测模型的效果，挑选了具有代表性的5个目标点：

一、站点选取

（1）目标站点1：该区域内大气污染监测站点分布最为密集。经输入站点优化后，CCWOA算法筛选出了3个输入站点，其中与目标点最近的站点距离0.97km，最远的监测站点距离4.59km，平均站点距离为2.75km。

（2）目标站点2：该地区监测站点分布较为密集。CCWOA算法选择了5个监测站点的数据作为输入。其中最近的监测站点距离目标点4.17km。

（3）目标站点3：该目标站点附近监测站点分布稀疏。最优的站点选择结果来自于WOA算法，输入站点数为9，与目标站点的平均距离为19.87km。

（4）目标站点4：针对该目标点优化选择了5个监测站点作为预测输入，这5个监测站与目标点的平均距离为20.35km。

（5）目标站点5：该地区监测站点分布稀疏。CCWOA算法选择了6个站点作为输入站点，最近的站点距离目标点8.17km，平均距离16.19km。

综上经过站点优化后，目标站点1、目标站点2的数据集中站点数较少，站点距离较近。目标站点3、目标站点5数据集中站点数量较多，距离较远。各数据集的基本信息如表1所示。

表1 各目标站点数据集基本信息

二、评价指标与对比模型

为了充分探究各预测模型在不同目标站点数据集上的表现，本文选用了四种评价指标，包括平均绝对误差（MAE），均方误差（Mean Square Error, MSE），均方根误差（RootMean Square Error, RMSE），以及可决系数（Coefficient of determination,R2）。MAE的计算方式已在第三章给出介绍，其它指标的计算方式如下：

（1）平均绝对误差

我们用平均绝对误差（Mean Absolute Error, MAE）来表示所选站点的预测精

度，MAE的计算公式如下：

其中，N表示样本个数，^xi表示模型预测结果，xi表示实际值。

（2）均方误差

均方误差是一种表示估计量与实际值之间距离的评价指标，可用来表示模型的预测精度。MSE的计算公式如下：

(3)均方根误差

均方根误差为均方误差的算数平方根，RMSE的计算方式如下：

（4）可决系数

可决系数即R2，可用于评估预测值和实际值的符合程度，一般情况下，R2越接近1，表示回归预测的解释精度越高。R2的计算公式如下：

为了充分比较所提出模型的性能。本文选择了6个对比模型作为基线，包括机器学习传统模型：支持向量回归（Support Vactor Regression, SVR）,决策树回归（DT），集成模型：随机森林回归（Random Forest Regression, RFR），深度时空模型：时空图卷积神经网络（STGCN），图多注意力模型（GMAN）。

三、实验结果及分析

3.1表2列出了各模型在五个目标站点数据集上的预测结果。各评价指标中表现最优的结果已被加粗标记。

（1）目标站点1预测结果

在目标站点1数据集上，各模型均达到了较高的预测精度。从R2评价指标来看，SVR模型和RFR模型表现最优，R2值都为0.96。SVR模型取得了最优的MAE，RMSE以及MSE值。STGCN，GMAN以及DSTAN模型表现均不如这些基线模型，但相差不大。这是因为在目标站点1数据集上，输入的监测站点距离相对较近，站点间的臭氧浓度存在较强的线性关系，而SVR模型则更擅长学习这种线性关系。

相比之下，参数量较的大的模型STGCN，GMAN以及DSTAN反而容易陷入过拟合现象。这也验证了图深度学习模型在节点间距较近，节点相关性较强时，模型的学习能力反而存在瓶颈的问题。

（2）目标站点2预测结果

对于目标站点2的数据集，SVR，RFR，GMAN，DSTAN的R2值同时达到0.92。各模型均能达到较好的预测精度。平均MAE值为14.63，平均RMSE为19.38。这是因为目标站点2数据集的平均站点距离为15.23，最近站点距离为4.17，站点距离相对较近，站点间的相关性较高，且受气象条件的影响较小。在6个对比模型中，GMAN模型取得了最好的预测精度，但DSTAN模型的预测表现与GMAN的预测表现差异并不大。

（3）目标站点3预测结果

在对目标站点3的臭氧浓度进行预测时，本实施例提出的DSTAN模型表现最优。其次GMAN在也保持了较高的精度，这体现了GMAN模型稳定的学习能力和强大的泛化性能。目标站点3数据集上，DSTAN预测的MAE值为12.45，相比GMAN降低了10.36%。这是因为，虽然GMAN与DSTAN都采用了图嵌入方法学习站点间的静态依赖关系，但DSTAN中的卷积门控单元以及站点信息融合模块在整体上对模型预测精度产生了积极影响。卷积门控单元相比残差连接，可以在时间维度上学习原始序列与编码序列的权重分配。目标站点3数据集包含9个站点，站点数量较多，这也表示在输入的图节点数较多时，图嵌入学习能够展现出较高的学习性能。

（4）目标站点4预测结果

目标站点4数据集包含5个监测站点，在此目标点臭氧预测任务上，DSTAN为表现最优的模型。DSTAN预测的MAE值为8.90，相比GMAN降低了4.81%。这体现了DSTAN在不同环境下稳定的预测性能。DSTAN相比其它模型同时考虑了站点之间的静态位置关系以及动态气象因素，通过信息融合模块中的动态以及静态注意力机制学习各个站点对目标点臭氧浓度的影响，从而在站点相距较远时也能达到较高的预测精度。除此之外，针对监测传感器存在的污染物交叉影响问题，DSTAN通过引入一维卷积模块有效进行解决。

（5）目标站点5预测结果

在目标站点5数据集上，各模型均未取得较好的预测精度，平均R2值为0.76，平均MAE值为22.18，平均RMSE为28.07。这表明在此数据集上，目标点的臭氧预测存在挑战性。根据前文的分析结论，目标站点5数据集的站点间距较远，这是该地区臭氧预测精度低的原因之一。其次，当监测站点的距离较远时，站点间的响应关系更易受到风速及风向的影响。本文提出的DSTAN模型的RMSE值为23.19，MAE值为18.46，R2值为0.84。相比其它基线模型，在各个评价指标上都有提升。MAE评价指标相比GMAN模型减小了7.47%，RMSE评价指标相比GMAN模型减小了4.80%，在R2值上相比GMAN提高了2.44%。这说明，DSTAN中的动态站点融合机制可以正确学习不同风速风向条件下，目标站点与各站点的依赖关系。对比其它数据集可以看出，在站点距离较远、站点数较多的情况下，DSTAN模型相比其它模型可以更好的学习站点内的时序信息以及站点之间的相关关系。这是因为DSTAN通过时域自注意力机制以及空域自注意力机制交叉编码，同时增加了模型在时域上的感受野和空域上的感受野，并通过卷积门控单元学习时间维度上原始序列和编码序列的权重分配，从而展现出了精度优势。

相比其它五个基线模型的MAE平均值，DSTAN模型在五个目标点预测任务上的MAE值分别下降了2.02%，6.77%，36.07%，23.74%，19.49%。平均下降了17.62%，在总体上达到较高预测精度。

本文对各模型的预测结果进行了可视化，如图5所示。图中红色虚线代表目标站点真实的臭氧浓度，蓝色的曲线代表DSTAN模型的预测结果，绿色曲线代表STGCN的预测结果，黄色线代表GMAN的预测结果。从图中可以看出，蓝色曲线和黄色曲线都能很好的拟合目标值的大小和趋势，这说明DSTAN模型与GMAN模型都具有较高的预测精度。STGCN和DSTAN模型分别通过图卷积以及图嵌入方式学习空间信息，从拟合情况上看STGCN也取得了较好的表现。

从图5中可以看出，STGCN的预测曲线相比其它模型有更大的波动，在对目标站点3和目标站点5数据集上较为明显，这种波动在一定程度上影响了STGCN的预测精度。目标站点3和目标站点5数据集的监测站点数量较多，站点距离较远。

因此，风速风向对臭氧预测的影响更明显，气象条件的动态变化对STGCN的预测精度产生了消极影响。为了研究卷积门控单元，基于气象信息的动态注意力机制，以及基于站点信息的静态注意力机制这三个部分对DSTAN模型预测的贡献，我们对DSTAN进行了消融实验。DSTAN模型消融实验结果如表3所示。各评价指标中，表现最好的结果已被加粗标记。其中：

（1）DSTAN-RG

DSTAN-RG表示在DSTAN模型的基础上，去除了卷积门控单元，并使用残差连接代替。

（2）DSTAN-RD

DSTAN-RD表示在DSTAN模型的基础上，去除了站点信息融合模块中的动态注意力机制，只通过站点编码进行融合。

（3）DSTAN-RS

DSTAN-RS表示在DSTAN模型的基础上，去除站点信息融合模块中的静态站点信息融合机制，只通过动态气象信息进行站点融合。

从表4.3中可以看出，在大多数情况下，卷积门控单元、动态气象信息、静态站点信息对预测均有积极影响，去除这些部分均会降低模型的预测精度。但卷积门控单元对预测精度的影响最大。通过引入卷积门控单元，DSTAN在5个数据集上MAE值分别减少了45.33%，25.98%，9.03%，18.79%，19.25%。

3.2 消融实验结果

（1）目标站点1预测消融实验结果

值得注意的是，对于目标站点1数据集，从DSTAN模型的站点信息融合模块中去除动态注意力机制后DSTAN模型的预测精度反而有所提高，MAE值从10.18下降至9.72，RMSE值从14.11下降至12.92。这说明在站点间距较小的情况下，风速风向信息对模型预测的影响较小，引入的风速风向信息对预测造成了一定程度的干扰。这说明在站点相对较近，站点相关性较高时，气象信息对预测的帮助不大，引入气象信息可能对臭氧预测有负面作用。在预测目标站点1的臭氧浓度时，卷积门控单元对预测精度贡献最大，当使用卷积门控单元时，R2值从0.83提升至0.95，提升了14.46%。

（2）目标站点2预测消融实验结果

在目标站点2数据集上，无论是动态气象信息还是静态站点信息对模型预测均无明显影响，这说明目标站点2与数据集中不仅各站点相关性较高，且受气象因素影响较小。相比动态注意力模块以及静态注意力模块，卷积门控单元对预测的提升最大，使用卷积门控单元后，R2值从0.86提升至0.92。

（3）目标站点3预测消融实验结果

在预测目标站点3的臭氧浓度时，动态注意力模块以及静态注意力模块对预测精度的提升均起到了积极作用，两者相比，基于站点图嵌入的静态注意力模块对模型表现提升更大。从MAE评价指标上来看，静态注意力模块对模型预测精度提升了12.70%，卷积门控单元对模型预测精度提升了9.03%。两者均对模型预测有较大贡献。

（4）目标站点4预测消融实验结果

从目标点4的消融实验结果来看，各模块对模型预测精度均有提升。融合卷积门控单元、动态注意力机制以及静态注意力机制后，DSTAN模型的MAE值为8.90，相比DSTAN-RG的MAE值10.96，下降了2.06。相比DSTAN-RD的MAE值11.73，下降了2.83。相比DSTAN-RS的MAE值10.03，下降了1.13。相比其它目标站点，目标站点4的消融实验差异较小，且各消融模型的预测精度均较高。这说明由于目标站点4与其它输入站点的相关性较高，且受风速风向变化的影响较小，各消融实验并未表现出较大差异。

（5）目标站点5预测消融实验结果

卷积门控单元、动态注意力机制以及静态注意力机制对DSTAN模型预测均有明显提升。从R2评价指标上看，卷积门控单元、动态注意力机制以及静态注意力机制对DSTAN模型预测分别提升了15.07%，9.09%，5.00%。动态注意力机制比静态注意力机制提升更明显，结合表1分析，目标站点5附近的监测站点分布稀疏，站点间隔较远，因此目标站点5的臭氧浓度，更易受到风速风向条件影响。这说明DSTAN模型中的动态注意力机制能够正确学习不同风速风向条件下，各站点污染物浓度之间的响应关系。

综上分析，在总体上卷积门控单元、动态注意力机制以及静态注意力机制对DSTAN模型的预测均有贡献，且卷积门控单元对模型预测精度的提升较为明显。当输入站点与目标站点的距离较远时，DSTAN模型中的动态注意力机制可以有效利用风速风向信息学习站点关系的动态变化（如目标站点5的消融实验结果）。当输入站点与目标站点的距离较近时，静态注意力机制对模型预测的贡献更大（如目标站点1的消融实验结果）。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于动态时空注意力机制的大气环境污染物预测模型，其特征在于，包括

步骤S200：对输入矩阵进行一维卷积操作，得到原始序列；

步骤S300：构建时空编码器，将原始序列输入时空编码器；

其中，构建时空编码器的步骤，具体包括：

步骤S311：计算时刻i与时刻j之间的权重

融合了同一时间不同监测站点的信息；

步骤S400：添加卷积门控单元控制时空编码器的输出；具体为：

其中，为卷积门控单元中的第k个卷积核；

步骤S420：表示Sigmoid函数，将权重/>映射到0，1区间：

步骤S500：构建静态注意力机制和动态注意力机制，与时空编码器的输出信息进行融合，得到目标站点的编码信息；具体为：

步骤S540：计算各监测站点的动态特征编码与空间编码Ge之间的内积，得到动态的站点相关关系：

步骤S550：计算时空编码器的输出的加权和，得到目标站点的动态信息编码/>：

WA以及bA为卷积门控单元的参数，通过门控单元可以调整监测站点之间静态以及动态相关关系的影响，站点融合模块的输出为

2.根据权利要求1所述的基于动态时空注意力机制的大气环境污染物预测模型，其特征在于，对输入矩阵进行一维卷积操作，具体为：

3.根据权利要求1所述的基于动态时空注意力机制的大气环境污染物预测模型，其特征在于，构建解码器，解码目标站点的编码信息，具体为：

解码器被设计成为包含一层GRU层以及一层全连接层的结构：

其中，表示目标点臭氧浓度的预测结果，FC表示全连接层，GRU表示门控循环单元，为时刻i的动态特征编码，将/>向量与同一时刻的动态气象编码一同作为解码器输入。