CN114841400A

CN114841400A - 基于多任务时空图卷积的空气质量预测方法

Info

Publication number: CN114841400A
Application number: CN202210299336.7A
Authority: CN
Inventors: 韩启龙; 卢丹; 刘思宇; 宋洪涛
Original assignee: Harbin Engineering University; Beijing Institute of Electronic System Engineering
Current assignee: Harbin Engineering University; Beijing Institute of Electronic System Engineering
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-08-02

Abstract

本发明提出基于多任务时空图卷积的空气质量预测方法。本发明所述方法使用记忆网络、注意力机制，多层图卷积网络等技术构建基于多任务的深度时空序列数据预测模型，利用单一站点的本地属性和整体站点的全局属性，动态的构建站点间的邻接关系图；利用多层图卷积分别聚合单一站点的时序关系以及邻居站点的空间关系；利用多任务协同训练策略既考虑细粒度站点级别的预测任务，也充分考虑了粗粒度城市级别的预测任务，大大提高了时空序列数据预测效果。

Description

基于多任务时空图卷积的空气质量预测方法

技术领域

本发明属于时空数据挖掘技术领域，特别是涉及基于多任务时空图卷积的空气质量预测方法。

背景技术

随着工业化和城市化的不断发展，空气污染如今被认为是全世界人类共同体当前和未来的一个主要问题。空气污染通常被定义为由于人类活动或自然过程引起某些物质进入大气中呈现出足够危害生命健康的浓度。为了减轻人们长期暴露于空气污染的影响，准确的空气质量预测对政府决策以及个人都是至关重要的，例如可以帮助城市管理者制定更好的交通控制决策，大幅减少局部的严重污染(Francesca and Ivo 2008)。然而，由于空气质量与气象(风向、风速、温度等)、路网拓扑结构和区域功能性等因素有着复杂且动态的关系，给空气质量预测任务带来了很多的挑战。由于大气污染物的扩散本质是一个时空过程，因此时空相关性建模是空气质量预测任务的关键。

大量的研究工作使得空气质量预测方法在近几十年取得了长远的发展。最为基础常用的方法是像Li和Zhang分别在2017和2019年提出的那样简单的合并异构数据源在单一时间步的数据形成特征向量，并应用递归神经网络(RNN、GRU)来对非线性的时间序列进行建模。由于这类简单的方法没有考虑不同站点之间的空间关系，预测能力是有限的。Zheng在2013年提出了U-air模型，开始尝试利用站点间的空间关系辅助预测，简单的聚集邻居站点的空气质量监测读数、空间特征(POIs、路网)和气象数据提高了预测准确度。该模型显式表明了空间相关性是建模预测模型必不可少的一部分。然而，这些方法表现的空间相关性往往是静态的，不适合在整个训练中推广应用。由于动态空间关系建模的重要性，Cheng在2018年提出利用注意力机制区分不同站点对目标站点空气质量(AQI)的贡献权重。进一步地，Liang也在同年提出了改进版的预测模型，该模型在考虑地理空间相似度的同时学习不同时间步下动态的站点空间关系。

图卷积网络(GCN)近些年受到了越来越多的关注，并已经被应用于空气质量预测中站点间空间关系的建模。Wilson等在2018年提出通过图卷积获得监测站之间的高阶空间关系。Wang等在2021年将多种预定义的空间关系建模成底层图，并设计了一个基于GCN的并行编码模型，利用注意力机制获得不同空间关系的聚合特征。在该类框架中，图中的节点是监测站点的集合，图中的边代表成对监测站点之间的空间关联性。虽然现有的方法可以捕获复杂的时空相关性，但是仅仅考虑单个时间步的局部特征忽略了站点的整体全局模式，会使模型不稳定，此外计算空间关系预先确定的静态图结构并不是空气质量预测这种动态任务的最优解决方案。

对于时间相关性，虽然RNN被广泛的应用于时见相关性建模，例如Liet等在2017年采用堆叠的长短期记忆网络(LSTM)从历史空气质量数据和其他辅助数据中提取特征。Zhang等和Luo等在2019年采用编码器-解码器网络来模拟非线性的时间演变来对长期的空气质量序列进行建模。大多数现有的方法在建模时间相关性时都严重依赖RNN，若在时间序列相关性较弱或存在较多噪声的情况下，卷积网络由于稳定的梯度似乎比RNN更有优势。此外，监测站点之间的相关性不仅依赖于单一时间步的本地特征，还依赖于站点长期的全局特征，如周期性和趋势。由于推荐系统中短期意图和长期偏好共同建模可以提高推荐准确性，因此认为建模空间关系时考虑站点局部数据的同时考虑整体模式也会促进空气质量预测任务的学习。

发明内容

本发明目的是针对空气质量预测问题，克服现有技术的不足，提出了基于多任务时空图卷积的空气质量预测方法。本发明使用记忆网络、注意力机制，多层图卷积网络等技术构建基于多任务时空图卷积的空气质量预测方法，利用单一站点的本地属性和整体站点的全局属性，动态的构建站点间的邻接关系图；利用多层图卷积分别聚合单一站点的时序关系以及邻居站点的空间关系；利用多任务协同训练策略既考虑细粒度站点级别的预测任务，也充分考虑了粗粒度城市级别的预测任务，大大提高了时空序列数据预测效果。

本发明是通过以下技术方案实现的，本发明提出基于多任务时空图卷积的空气质量预测方法，所述方法包括以下步骤：

步骤1：获得站点空气质量监测数据集和细粒度的网格化气象数据集，构建POI数据集以及时间特征数据集，将数据集进行预处理并分为训练集、验证集和测试集，并将PM2.5作为目标污染物；

步骤2：构建基于多任务时空图卷积的空气质量预测模型；

步骤3：利用训练集对步骤2所述基于多任务时空图卷积的空气质量预测模型进行训练；

步骤4：将测试集中站点的时空序列数据输入到步骤3中训练后的基于多任务时空图卷积的空气质量预测模型，输出未来γ步的空气质量预测值。

进一步地，所述步骤1包括以下步骤：

步骤1.1：在空气质量监测数据集中，对每个站点的历史监测数据利用线性插值和最大最小标准化方法进行预处理；

步骤1.2：在网格化气象数据集中根据各个空气质量监测站点的经纬度将最近的气象监测站点数据作为该空气质量监测站点的气象数据，利用最大最小标准化方法进行预处理；

步骤1.3：从路网数据集中提取各站点周围的兴趣点信息，将各类兴趣点技术作为POI特征，进行最大最小标准化预处理；

步骤1.4：提取时间特征；

步骤1.5：将预处理好的数据集，划分为训练集、验证集和测试集。

进一步地，所述步骤2包括以下步骤：

步骤2.1：对每个时间步利用记忆网络和注意力机制构建动态的空间关系图；

步骤2.1.1：获得历史监测数据集中每个时间步的监测数据，将每个时间步的N个站点数据输入到特征重构模块，该特征重构模块是一个编码器-解码器结构，获得每个站点重构后的嵌入表示；

步骤2.1.2：构建每个站点的长期记忆单元；并将步骤2.1.1中重构的嵌入表示与长期模式嵌入表示进行聚合操作，得到最终的各站点该时间步的嵌入表示；

步骤2.1.3：根据步骤2.1.2得到的嵌入表示，利用注意力机制自适应得到成对站点间的影响权重构成每个时刻的空间关系图；

步骤2.2：利用图卷积网络和图神经网络分别对空间关联性和时间关联性建模；

步骤2.2.1：在每个时间步下，根据步骤2.1得到各个站点最终的嵌入表示以及N×N的邻接矩阵，进行拼接后输入到L层图卷积神经网络模块中，通过L层图卷积神经网络，聚合空间维度上的信息，得到每个站点融合K跳邻居后的嵌入表示；

步骤2.2.2：根据步骤2.2.1的操作，最终得到一个T×N的嵌入表示矩阵，T为历史时间序列长度，将该嵌入表示矩阵输入到CNN卷积神经网络模块中，聚合时间维度上的嵌入表示，得到最终各站点融合时空信息后的表示向量；

步骤2.3：利用多层的图神经网络构建站点的短期特征和长期模式，并利用多任务框架获得细粒度基于站点的预测任务和粗粒度基于城市的预测任务；

步骤2.3.1：将步骤2.2.2得到的融合时空信息后的表示向量分别输入到长期CNN预测模块和短期CNN预测模块中，得到最终的细粒度站点级别的预测序列；

步骤2.3.2：将步骤2.2.2得到的融合时空信息后的表示向量输入到另一个长期CNN预测模块中，得到最终的粗粒度城市级别的预测序列。

进一步地，所述步骤3包括以下步骤：

步骤3.1：将训练集中的数据输入到自适应空间关系图模块，得到一个时间序列下每个时间步不同的空间关系图；

步骤3.2：将步骤3.1得到的每个时间步不同的空间关系图输入到时空关系建模模块，得到各个站点每一时间步融合时空信息后的嵌入表示；

步骤3.3：将步骤3.2各个站点时空特征嵌入表示输入到多任务空气质量预测模块，得到细粒度站点级别的预测结果和粗粒度城市级别的预测结果；

步骤3.4：通过计算预测细粒度站点级别未来γ个时刻的PM2.5与真实PM2.5之间的误差来更新模型的参数以优化损失函数，训练得到最优的基于多任务时空图卷积的空气质量预测模型。

进一步地，所述步骤2.1.1中的特征重构模块的输入是步骤1中各个站点的特征向量，为了使模型训练更稳定，通过一个自动编码器得到重构后的特征向量作为后续模型的输入，特征重构模块通过以下步骤构建：

(1)构建一个编码器以原始特征向量作为输入，编码器为一层神经网络将原始输入编码成嵌入表示，具体计算公式如下：

h＝σ(Wx+b)

其中，x是站点原始的特征向量；W和b是编码器的变换矩阵；σ是激活函数；

(2)构建一个解码器以编码器的输出作为输入，解码器是一层神经网络将嵌入表示还原成与原始输入拥有相同维度的特征向量，具体计算公式如下：

其中，h是编码器最终的输出向量；W′和b′是解码器的变换矩阵，σ'为激活函数。

进一步地，所述步骤2.1.2中的记忆单元捕获各站点的长期模式，并利用一层全连接网络将各站点的长期模式表示与重构后的特征向量进行拼接得到最终的嵌入表示，具体计算步骤如下：

(1)为每个站点初始化一个记忆单元，记忆单元的记忆功能如下式记：

(2)最终的嵌入表征为

其中||表示拼接操作，β定义了记忆网络中的遗忘因子；矩阵W_m和W_h，以及向量b_m和b_h都是模型中的训练参数；起始状态下，

采用随机初始化。

进一步地，所述步骤2.1.3中通过注意力机制得到每个时刻动态的空间关系图结构，空间关联图的N个节点代表N个监测站点的集合，边代表的是当前时刻站点间的空间影响，具体计算步骤如下：

(1)将步骤2.1.2得到的每个站点最终的嵌入表示输入到注意力机制模块中，得到站点间的注意力得分，如下式记：

其中，W_s是注意力机制的变换矩阵，N是站点总数，σ是激活函数；公式中

和

分别是站点s_i和站点s_j的嵌入表征；

(2)所有站点间的注意力得分构成了邻接矩阵

将动态邻接矩阵与一个单元矩阵进行拼接然后进行标准化处理得到最终的邻接矩阵，计算公式如下：

其中，

是一个N×N的单元矩阵，D^t是t时刻所有站点构成的对角矩阵。

进一步地，所述步骤2.2对应的时空建模模块分别对空间和时间进行聚合，输入为各站点最终的历史特征嵌入表示以及动态邻接矩阵，通过以下步骤实现：

(1)首先进行空间聚合，在每个时间步，已知各站点最终的历史特征嵌入表示和动态的邻接矩阵，利用多层图卷积层聚合多跳邻居站点的信息，具体公式如下：

其中，H^t聚合了t时刻所有站点的空间信息，l代表卷积网络的聚合步数，也就是l跳邻居站点的信息；

是空间图卷积的变换矩阵，其中h是站点特征的维度；

(2)对T个时间步的N个监测站点都进行空间聚合，得到一个T×N的矩阵，接下来进行时间维度的聚合，在该T×N的矩阵中应用卷积核为Γ×1，padding为(1，0)的卷积神经网络聚合纵向时间维度特征，具体公式如下：

其中，

表示站点s_i在t时刻的邻居站点集合，Γ为时间维度上的聚合跨度；由于历史监测数据是有序的，应用时间卷积网络得到最终的站点表征，具体公式如下：

其中，

是站点s_i在t时刻融合空间信息后的嵌入表示，θ_D是时间卷积网络的参数集合。

进一步地，步骤2.3.2中所述的粗粒度城市级别的预测任务作为辅助任务，利用卷积神经网络得到粗粒度的城市空气质量预测结果，具体计算公式如下：

其中，N是站点数量，

是每个时间步所有站点时空数据的平均值；θ_A是粗粒度站点级别预测任务中卷积神经网络的参数集合。

进一步地，步骤3.4中所述的损失函数结合细粒度站点级别的预测误差和粗粒度城市级别的预测误差，具体计算如下：

其中M训练样本的个数，γ是预测时间窗口，α是平衡细粒度站点级别预测损失和粗粒度城市级别损失的参数。

与现有技术相比，本发明的有益效果是提供了基于多任务时空图卷积的空气质量预测方法，充分考虑和挖掘站点间动态的空间关系以及站点本身监测序列的时间关系，基于站点的空气质量监测数据、气象数据以及路网数据并利用记忆网络、注意力机制和(图)卷积神经网络等技术构建多任务的预测模型，提升空气质量预测准确度并缓解数据不平稳的问题。

附图说明

图1为基于多任务时空图卷积的空气质量预测方法流程图；

图2为基于多任务时空图卷积的空气质量预测模型框架图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1-2，本发明提供了基于多任务时空图卷积的空气质量预测方法，具体包括以下步骤：

步骤1：获得空气质量监测数据、气象数据、路网数据等，将数据集进行预处理并分为训练集、验证集和测试集；

所述步骤1具体包含以下步骤：

步骤1.1：从历史的空气质量监测数据中，提取各个站点的监测数据，例如PM2.5、PM10、NO2、SO2、CO、O3等信息；

步骤1.2：从历史的气象监测数据集中，提取网格化的气象监测数据以及气象监测站点的经纬度坐标结合空气质量监测站点的经纬度坐标，计算出空气质量监测站点与各气象监测站点之间的距离，将离每个空气质量监测站点最近的气象监测站点的数据作为该空气监测站点的气象数据，包括风速、风向、温度、湿度、气压等气象信息；

步骤1.3：从路网数据集中，以每个站点为中心r为半径，提取每个站点周围的兴趣点类别数据以及路网拓扑数据，例如工业厂区、公园、娱乐场所、餐馆、高速公路、小路等路网相关信息；

步骤1.4：提取时间特征(小时、星期以及月份)；

步骤1.5：将数据集进行预处理，以8:1:1的比例划分为训练集、验证集和测试集。

步骤2：构建基于多任务时空图卷积的空气质量预测模型；

所述步骤2具体包含以下步骤：

所述步骤2.1中，由于空气质量监测数据都是数值类信息，且数据中有缺失数据，利用线性插值方法填充缺失数据后，采用最大最小标准化方法进行预处理得到初始的嵌入表示；

所述步骤2.1中，对于气象数据和路网数据，由于这两个数据集比较完整，去掉异常最小值后采用最大最小标准化方法得到初始的嵌入表示；

所述步骤2.1中，每个站点最终的嵌入表示为空气监测数据、气象数据和路网数据初始嵌入表示序列的融合；

所述步骤2.1中的监测站点空间关系图(G)是根据监测站点的实时数据动态构建的，如图2绿色虚线框中所示，节点即空气质量监测站点集合，边即成对空气质量监测站点之间动态的空间关系，并通过以下步骤构建：

(1)在任意时刻t，对于站点的实时特征(x^t)，采用自动编码器的方法将原始特征x^t进行重构，目的是提高样本的平稳性，减轻异常数据对训练造成的影响。自动编码器如下公式计：

h＝σ(Wx+b)

其中，x是站点原始的特征向量，h是编码器最终的输出向量；σ和σ'分别是编码器和解码器的激活函数，W和W'分别是编码器和解码器的变换矩阵，b和b'分别是编码器和解码器的偏差向量。

(2)在任意时刻t，对于站点的长期模式特征，采用记忆网络的方法学习各站点的长期序列模式，记忆网络的输入为上一步骤得到的该时间步重构后的特征以及上一时间步记忆网络的输出，可通过下式计：

其中||表示拼接操作，

是站点s_i重构后的嵌入表示，β定义了记忆网络中的遗忘因子；σ是记忆网络的激活函，

是站点s_i在t-1时刻的长期模式嵌入表示，矩阵W_m和向量b_m是记忆网络模型中的变换矩阵以及偏差向量。

(3)最终各个站点的特征表达是重构后的短期实时数据特征

与长期序列模式

的融合，计为下式：

其中||表示拼接操作，σ是特征融合的激活函数，矩阵W_h和向量b_h是特征融合网络的变换矩阵以及偏差向量。

(4)根据上一步骤得到的站点长短期特征融合过的数据，采用注意力机制对不同站点之间边(空间)的关系进行动态建模，图G中任意两个节点s_i和s_j之间的注意力打分根据下式计：

和

分别是站点s_i和站点s_j的嵌入表征。

(5)根据上一步骤，每对站点之间都可计算出一个权重值，也就是空间图G中边的权重；此外由于空气污染的扩散特性，站点的空间关系图应当包含每个站点的自环，因此可通过如下公式计算出每个时刻空间图G的邻接矩阵：

其中，

是一个N×N的单元矩阵，D^t是t时刻所有站点构成的对角矩阵；A^t是t时刻每对站点之间空间关系构成的邻接矩阵，

是t时刻最终的站点空间关系图。因此可以看出，这种自适应邻接矩阵的方法更切合空气质量数据预测的实际场景。

如图2蓝色虚线框内所示，所述步骤2.2中包括空间维度信息融合和时间维度信息融合。空间维度信息融合所需的空间关系图为步骤2.1所述的动态的空间关系图，并将空间信息融合后的结构作为时间维度信息融合的输入，具体通过以下步骤构建：

(1)在任意时刻t，空间维度的信息聚合的节点集合是步骤2.1中所述的所有空气监测站点的集合，根据步骤2.1得到的自适应空间关系图(邻接矩阵A)，采用图卷积网络(GCN)方法聚合多层邻居站点的信息得到融合多层空间关系后的节点嵌入表示，具体如下式计：

其中，H^t聚合了t时刻所有站点的空间信息；

是t时刻最终的站点空间关系图，l代表卷积网络的聚合步数，也就是l跳邻居站点的信息；E^t是t时刻所有站点嵌入表征的集合；

是空间图卷积的变换矩阵，其中h是站点特征的维度。

(2)对于时间维度的信息聚合，根据上一步骤得到每一时刻空间信息融合后的结果{H¹,H²,H³,…,H^T}，其中T为历史时间窗口，采用卷积核为((2×Γ)+1，1)的卷积神经网络聚合时间维度的信息，如下式计：

其中，

表示站点s_i在t时刻的邻居站点集合，Γ为时间维度上的聚合跨度；

所述步骤2.3中多任务空气质量预测模型包含一个主任务和一个辅助任务，主任务为细粒度站点级别的空气质量预测任务；辅助任务为粗粒度城市级别的空气质量预测任务，如图2红色虚线框中所示，主任务和辅助任务采用不同的网络进行训练，具体通过以下步骤构建：

(1)主任务是细粒度站点级别的预测任务，根据步骤2.2所述得到各个站点融合时空信息后的嵌入表示，分别考虑站点本身长期时间序列不同时间步对未来空气质量的影响以及短期内邻居站点由于拓扑关系对未来空气质量的影响。具体通过以下步骤构建：

·由于历史每个时间步对预测未来空气质量的权重不应相同，采用纵向卷积神经网络(CNN)的方法自动学到不同时间步下的权重，如下式计：

其中，

是所有站点融合时空信息后的嵌入表征，θ_L是长期不同时间步依赖建模中卷积神经网络的参数集合。

·除了站点本身历史监测预测的长期影响，站点未来的空气质量也与邻居站点最近n个时刻的历史监测数据有关，采用横向卷积神经网络(CNN)的方法计算邻居站点对目标站点的短期影响权重，如下式计：

其中，

是最近的n步各站点时空信息融合后的嵌入表征，N是站点数量；θ_S是短期空间依赖建模中卷积神经网络的参数集合。

·细粒度站点级别的预测任务是上述两方面的融合，如下式计：

其中，W_o和b_o是细粒度站点级别预测的变换矩阵。

(2)辅助任务是粗粒度城市级别的预测任务，根据步骤2.2所述得到各个站点融合时空信息后的嵌入表示，将每一时间步各站点的嵌入表示求平均作为整个城市粗粒度的嵌入表示，采用如下公式利用卷积神经网络(CNN)对未来时间步做出预测：

其中，N是站点数量，

步骤3.2：将3.1得到的每个时间步不同的空间关系图输入到时空关系建模模块，得到各个站点每一时间步融合时空信息后的嵌入表示；

步骤3.3：将3.2学到站点时空特征表示输入到多任务空气质量预测模块，得到细粒度站点级别的预测结果和粗粒度城市级别的预测结果；

优选的，步骤3.4中所述的损失函数具体计算如下：

步骤3.5：每K次数训练后，将验证集中的数据输入到步骤3.4训练好的基于多任务时空图卷积的空气质量预测模型，得到验证集中各个站点未来γ个时间步的空气质量值(PM2.5)；

步骤3.6：计算验证集中预测空气质量值与真实空气质量值之间的误差，不更新网络参数，验证集的目的就是未来辅助训练找到最优的超参数使得预测准确度最高。

步骤4：将测试集中待预测的历史时间窗口下的空气质量监测数据、历史气象数据、路网数据等信息输入到步骤3中已经训练好的基于多任务时空图卷积的空气质量预测模型，得到各个站点未来γ个时间步的空气质量值(PM2.5)。

以上对本发明所提出的基于多任务时空图卷积的空气质量预测方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。