CN113657042A

CN113657042A - 一种基于多尺度注意力机制的空气质量参数预测方法

Info

Publication number: CN113657042A
Application number: CN202111029024.6A
Authority: CN
Inventors: 马武彬; 顾桐菲; 吴亚辉; 邓苏; 周浩浩
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-11-16
Anticipated expiration: 2041-09-01

Abstract

本发明公开了一种基于多尺度注意力机制的空气质量参数预测方法，包括以下步骤：构建基于多尺度注意力机制的混合循环神经网络模型；利用训练集数据，对所述的混合循环神经网络模型进行训练，所述的训练集数据包括影响因素数据和已知空气参数质量数值；将测试集数据输入训练完毕的混合循环神经网络模型，计算获得空气质量参数的预测值。本发明方法在传统的循环神经网络基础上，引入注意力机制，提出基于多尺度注意力机制的卷积循环GRU的空气质量参数预测方法，其预测精度更高。

Description

一种基于多尺度注意力机制的空气质量参数预测方法

技术领域

本发明属于空气质量预测技术领域，具体涉及一种基于多尺度注意力机制的空气质量参数预测方法。

背景技术

空气污染问题已经严重影响了人们的生命健康。据不完全统计，每年空气污染导致人们死亡的人数已经上升到了300万。尤其是在发展中国家，PM2.5 是空气污染的主要成分之一，对未来PM2.5浓度的准确预测可以为人们的出行以及政府环境影响相关决策提供重要信息，减少空气污染对人们带来的危害。于是，PM2.5浓度的预测问题成为了当前研究的热点。

政府一直致力于如何减少空气污染以及对人们健康的影响。一方面，政府通过限制污染企业、提倡绿色清洁能源的使用，努力治理减少空气污染物排放的同时，另一方面通过提前预测未来PM2.5浓度信息发布公众，提醒人们在浓度过高的条件下减少户外活动，能够给保护人们的身体健康。因此，对于PM2.5 污染浓度的预测研究显得尤为重要。

目前对于PM2.5污染浓度的预测精度仍然不够，难以满足人们的需求。由于影响PM2.5浓度的因素非常多，且不同因素之间的关系非常复杂，难以确定不同尺度信息对其浓度的影响。例如过去连续几个或者几十个小时无风的不同尺度条件下对未来PM2.5的影响情况，或者过去几个或几十个小时降雨的不同尺度对未来PM2.5的影响情况。目前采用的主要方法有基于回归的预测、基于随机森林的预测、基于SVM的预测以及基于神经网络的预测，然而这些方法都难以捕捉到这些不同尺度信息对PM2.5浓度的影响。

发明内容

有鉴于此，为解决空气质量参数尤其是PM2.5的精准预测问题，本发明的目的在于提供基于多尺度注意力机制的空气质量参数预测方法，所述方法在传统的循环神经网络基础上，引入注意力机制，提出基于多尺度注意力机制的卷积循环GRU的空气质量参数预测方法。

基于上述目的，提出一种基于多尺度注意力机制的空气质量参数预测方法，包括以下步骤：

步骤1，构建基于多尺度注意力机制的混合循环神经网络模型；

步骤2，利用训练集数据，对所述的混合循环神经网络模型进行训练，所述的训练集数据包括影响因素数据和已知空气质量参数数值；

步骤3，将测试集数据输入训练完毕的混合循环神经网络模型，计算获得空气质量参数的预测值。

具体地，所述的混合神经网络模型包括第一卷积层、第一双向GRU层、第一多尺度注意力层、第二双向GRU层、第二多尺度注意力层、第二卷积层和全连接层，各层之间依次顺序连接，第一卷积层的输出和第一双向GRU层的输出连接后同时作为第一多尺度注意力层和第二多尺度注意力层的输入，所述的双向GRU层由一个前向GRU模型和一个后向GRU模型并联形成一个双向结构，所述的双向GRU层输出两个合并的GRU信号，所述的全连接层的输出层为1，所述的混合神经网络模型中第一卷积层的输入为影响因素数据序列，全连接层的输出为空气质量参数值。

具体地，对于所述的混合神经网络模型为

x₀,...,x_T为影响因素序列数据，(y₀,...,y_K),K<T为已知的空气质量参数值， (y_K+1,...,y_T)为需要预测的空气质量参数值，

为相应的估计值，输入为 x₀,...,x_T,y₀,...,y_K变量，依次输入所述的混合神经网络模型中开始训练，损失函数采用标准归一化MSE，激活函数采用Relu函数。

具体地，所述的混合神经网络模型的解析表达式如下：

C⁴ _t＝η²([C² _t,C³ _t])

其中，x_t为t时刻模型的输入，η¹(·)和η²(·)为两个卷积操作，[·,·]为合并连接操作，MutiScalAttention(·,ScaleNum1)和MutiScalAttention(·,ScaleNum2)为ScaleNum1 和ScaleNum2两个尺度的注意力采集操作，每个注意力层前需要一个双向GRU层作为输入，之间采取串联结构，具体的融合卷积的过程如下：

第一卷积层η¹(x_t)接受序列数据x_t的输入，输出为

同时作为第一多尺度注意力层和第二多尺度注意力层的输入；

为第一双向GRU层的输出，

表示将前向GRU的输出

与后向GRU输出

进行合并连接；

是对第一双向GRU层乘以权重向量

并加上偏移向量

的结果；

将

与η¹(x_t)的输出

进行合并为P_t ¹，作为第一多尺度注意力层的输入；

是第一多尺度注意力层尺度为ScaleNum1的注意力层的输出，连接到第二双向GRU层；

为第二双向GRU层的输出，

表示将其中前向GRU的输出

与后向GRU输出

进行合并连接；

是对第二双向GRU层乘以权重向量

并加上偏移向量

的结果；

以此类推，通过表达式得到

然后通过一个卷积操作对两次多尺度注意力模型结果进行融合，对不同尺度对输出进行筛选和识别，使得那些对目标更为重要的尺度信息能够保留下来，得到输出

再经过一个全连接操作得到输出O_t；

其中，

和

均是通过学习训练所得。

具体地，在所述的第一多尺度注意力层和第二多尺度注意力层中采用改进的多尺度注意力模型，结构如下：d_t＝Dense((W_d·x'_t+B_d),units＝ScaleNum)， f_t＝1D-expand_dims(d_t)，o_t＝attention(f_t)，所述的多尺度注意力模型分为两步，首先在输入变量处利用全连接层的输出单元生成尺度信息，尺度大小用 ScaleNum表示，从而将输入模型预处理为一个固定尺度的二维向量d_t；然后采用一维扩展机制1D-expand_dims，将二维向量d_t扩展成三维向量f_t，使得多尺度注意力模型能够展开识别固定尺度下的输入信息，x'_t为输入变量，W_d和B_d为需要学习的参数向量，Dense()表示全连接操作，o_t＝attention(f_t)中，包括以下两步操作：a_t＝V_a·Softmax(W_af_t ^T+B_a)，o_t＝Dense(W_ba_i ^T·f_t+B_b)，其中，f_t ^T是f_t的转置，V_a，W_a以及B_a是需要学习的参数向量，第一步通过SoftMax输出为a_t，将第a_t转置乘以输入f_t作为下一步的输入，W_b和B_b为全连接层输出学习参数，所述多尺度注意力层的模型过程记为o_t＝MutiScalAttention(f_t,ScaleNum)。

所述的双向GRU层通过连接前向GRU和后向GRU两个GRU模型形成的一个双向结构，前向GRU中第一层遗忘门输出：f¹ _t＝σ(W¹ _f[H¹ _t-1,x”_t]+B¹ _f)，σ(x)＝1/(1+e^-x)，在前向GRU更新门中，第一输出为：z¹ _t＝σ(W¹ _z[H¹ _t-1,x”_t]+B¹ _z)，第二输出为：

同理，后向GRU相应的第一输出为：z² _t＝σ(W² _z[H² _t-1,x”_t]+B² _z)，第二输出：

前向 GRU的中间输出

以及后向GRU的中间输出

通过对中间输出的聚合操作，得到输出

表示将前向GRU的输出

与后向GRU输出

进行合并连接，作为双向GRU层的输出

x”_t为双向GRU层的输入，[W¹ _f,B¹ _f]， [W¹ _Z,B¹ _Z]，[W¹ _h,B¹ _h]为前向GRU模型参数，[W² _f,B² _f],[W² _Z,B² _Z]，[W² _h,B² _h] 为反向GRU模型参数，[W¹² _o,B¹² _o]为输出层参数。

优选地，所述的卷积层为1维卷积网络。

具体地，所述的影响因素数据包括：露点温度、空气温度、空气湿度、大气压力、风向、风速、每小时降雨量和当天累计降雨量。

本发明方法中的混合循环神经网络模型主要包含多尺度注意力层、双向 GRU层和全连接层，将多尺度注意力层引入到循环神经网络中，将改进后的多个注意力单元通过串联方式进行连接，从不同尺度上分布注意力机制，从而使得模型能够从不同尺度采集历史信息，区别不同输入元素对预测结果的影响，双向GRU层在GRU的基础上能够更加充分的获取序列数据的上下文信息，整个模型采用卷积结构对不同尺度注意力机制的识别输出进行融合，并通过卷积连接对不同尺度对输出进行筛选和识别，使得那些对目标更为重要的尺度信息能够保留下来，由此对空气质量参数值的预测获取更好的精度。

附图说明

图1为本发明方法的流程示意图；

图2为本发明方法的数据处理流程图；

图3为本发明中1维卷积网络的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，提出一种基于多尺度注意力机制的空气质量参数预测方法，包括以下步骤：

具体地，对于所述的混合神经网络模型为

具体地，所述的混合神经网络模型的解析表达式如下：

C⁴ _t＝η²([C² _t,C³ _t])

第一卷积层η¹(x_t)接受序列数据x_t的输入，输出为

为第一双向GRU层的输出，

表示将前向GRU的输出

与后向GRU输出

进行合并连接；

是对第一双向GRU层乘以权重向量

并加上偏移向量

的结果；

将

与η¹(x_t)的输出

进行合并为P_t ¹，作为第一多尺度注意力层的输入；

为第二双向GRU层的输出，

表示将其中前向GRU的输出

与后向GRU输出

进行合并连接；

是对第二双向GRU层乘以权重向量

并加上偏移向量

的结果；

以此类推，通过表达式得到

再经过一个全连接操作得到输出O_t；本发明方法的数据处理流程如图2所示；

其中，

和

均是通过学习训练所得。

所述的双向GRU层通过连接前向GRU和后向GRU两个GRU模型形成的一个双向结构，前向GRU中第一层遗忘门输出：f¹ _t＝σ(W¹ _f[H¹ _t-1,x”_t]+B¹ _f)，σ(x)＝1/(1+e^-x)，f¹ _t为NumberofGRUCells×20的2维中间矩阵，NumberofGRUCells 代表正向GRU模型的内部神经单元数量，x_t为2维矩阵数据，维度为Windowsize×20，Windowsize为输入数据的长度；在前向GRU更新门中，第一输出为：

z¹ _t的数据格式同f¹ _t一样，第二输出为：

同理，后向GRU相应的第一输出为： z² _t＝σ(W² _z[H² _t-1,x”_t]+B² _z)，第二输出：

前向GRU 的中间输出

以及后向GRU的中间输出

通过对中间输出的聚合操作，得到输出

表示将前向GRU的输出

与后向GRU输出

进行合并连接，作为双向GRU层的输出

为NumberofGRUCells×20 的2维中间矩阵

优选地，所述的卷积层为1维卷积网络。卷积神经网络一般包括1维卷积、 2维卷积以及3维卷积网络。一维卷积网络主要用于序列数据，例如音频数据、设备维修抽样数据等，二维卷积主要用于图像处理，例如图像分类、目标识别、图像分割等，三维卷积网络主要用于视频处理，例如医学影像视频、动作检测等。本实施例中主要对时间序列数据进行分析，采用1维卷积网络结果。典型的1维卷积网络结果如图3所示。其中包含一维卷积核向量，过滤尺寸(filter size)k＝4。卷积间隔(dilation factors)d＝1。

对于当前需要卷积的元素s来讲，一维卷积操作的数学表达式为：

其中f(i)表示卷积核函数，X_s-d·i表示向前取间隔为d的样本值。

为了更好的展示本实施例的细节，采用北京的城市空气污染数据集，每个城市一共包括采集时间、季节、PM2.5值、雾气、温度、相对湿度、大气压力、风向、风速、每小时降雨量等15项数据。数据样本每1小时采集一次。数据说明如表1所示。

表1数据集中数据项含义说明

对已有的数据集主要做如下处理：1、样本数据中删除年份数据和月份数据，对小时数据进行分类，对应白天和黑夜，分为两类进行替换。2、对其中的缺失数据进行插值和删除处理，因为每个城市都包含了多个传感器的空气检测点，有些传感器空气检测点的数据是丢失的，因此采用横向插值法，将同一时刻距离较近的空气采集数据按照距离进行平均，插入到该数据项中。3、数据分类裂项处理：a)将代表类别的数据，例如季节、风向数据，按照每一个不同值增加一列数据项进行裂项处理；b)对于连续型数值，进行数据归一化到[0,1]间的值。

模型的实验参数如表2所示：

表2：算法变量参数取值

实验环境：本文所采用的实验背景为：电脑主要配置为：Pentium(R)Dual- core3.06CPU，8G RAM内存。

效果评估：本文对算法的性能评估采用的参数包括RMSE、MAE、MAPE以及CC：

RMSE(Root Mean Square Error，均方根误差)，其计算方式为：

MAE(Mean Absolutely Error，平均绝对误差)，其计算方式为：

MAPE(Mean Absolutely Percentage Error平均绝对百分误差)，其计算方式为：

CCV(correlation coefficient value)，相关系数，算方式为：

需要说明的是，RMSE、MAE以及MAPE都是对预测误差的衡量，其值越小代表越准确，而CCV参数代表两个序列数量的相关系数，其值越大，代表两个序列数据越为相关，预测效果越好。

针对北京数据集，降雨量、雾气、温度、PM2.5数据随着季节的变化呈周期性变化。

下面采本发明方法对PM2.5的浓度进行预测。首先预测北京未来3小时的 PM2.5的浓度，预测精度如表3。

表3：不同方法的预测结果值

从表3中可以看出，在针对北京未来3小时的空气质量参数PM2.5浓度预测计算中，本发明方法相对于其他循环神经网络模型具备较好的精度。从RMSE 指标上看，相对于LSTM、GRU、Att-Based、Att-LSTM、Att-GRU、LSTM-Att、GRU- Att、Bi-LSTM、Bi-GRU、Bi-Conv-LSTM、Bi-Conv-GRU网络模型，本发明方法将误差减少了9.10％、27.67％、22.84％、16.07％、10.96％、24.30％、9.10％、3.72％、 1.77％、4.55％、5.48％。平均准确度分别提高了14.86％、30.60％、41.13％、28.84％、 23.73％、33.75％、14.86％、21.25％、13.61％、15.57％、15.67％，而且预测相关性分别提高了-3.61％、-2.99％、-7.56％、-5.90％、-4.45％、-7.58％、-3.61％、-2.31％、 -1.22％、-2.67％、-3.24％，并且，在平均百分误差上，本发明方法都要比其他网络模型表现出更好的性能。

由发明内容和实施例可知，本发明方法首先对数据进行了预处理，采用线性插值方法对缺失数据进行了处理，并分析了城市空气污染数据在不同季节、不同天气下的总体特征；其次，对注意力机制进行改进，提出多尺度注意力结构模型。将改进后的多个注意力单元通过串联方式进行连接，从不同尺度上分布注意力机制，从而使得模型能够从不同尺度采集历史信息；在本实施例中采用卷积结构对不同尺度注意力机制的识别输出进行融合，并通过卷积连接对不同尺度对输出进行筛选和识别，使得那些对目标更为重要的尺度信息能够保留下来，提高空气质量参数的预测精度。

Claims

1.一种基于多尺度注意力机制的空气质量参数预测方法，其特征在于，包括以下步骤：

步骤3，将测试集数据输入训练完毕的混合循环神经网络模型，计算获得空气质量参数的预测值；

所述的混合神经网络模型包括第一卷积层、第一双向GRU层、第一多尺度注意力层、第二双向GRU层、第二多尺度注意力层、第二卷积层和全连接层，各层之间依次顺序连接，第一卷积层的输出和第一双向GRU层的输出连接后同时作为第一多尺度注意力层和第二多尺度注意力层的输入，所述的双向GRU层由一个前向GRU模型和一个后向GRU模型并联形成一个双向结构，所述的双向GRU层输出两个合并的GRU信号，所述的全连接层的输出层为1，所述的混合神经网络模型中第一卷积层的输入为影响因素数据序列，全连接层的输出为空气质量参数值。

2.根据权利要求1所述的一种基于多尺度注意力机制的空气质量参数预测方法，其特征在于，对于所述的混合神经网络模型为

x₀,...,x_T为影响因素序列数据，(y₀,...,y_K),K<T为已知的空气质量参数值，(y_K+1,...,y_T)为需要预测的空气质量参数值，

为相应的估计值，输入为x₀,...,x_T,y₀,...,y_K变量，依次输入所述的混合神经网络模型中开始训练，损失函数采用标准归一化MSE，激活函数采用Relu函数。

3.根据权利要求1所述的一种基于多尺度注意力机制的空气质量参数预测方法，其特征在于，所述的混合神经网络模型的解析表达式如下：

C⁴ _t＝η²([C² _t,C³ _t])

其中，x_t为t时刻模型的输入，η¹(·)和η²(·)为两个卷积操作，[·,·]为合并连接操作，MutiScalAttention(·,ScaleNum1)和MutiScalAttention(·,ScaleNum2)为ScaleNum1和ScaleNum2两个尺度的注意力采集操作，具体的融合卷积的过程如下：

第一卷积层η¹(x_t)接受序列数据x_t的输入，输出为

为第一双向GRU层的输出，

表示将前向GRU的输出

与后向GRU输出

进行合并连接；

是对第一双向GRU层乘以权重向量

并加上偏移向量

的结果；

将

与η¹(x_t)的输出

进行合并为P_t ¹，作为第一多尺度注意力层的输入；

为第二双向GRU层的输出，

表示将其中前向GRU的输出

与后向GRU输出

进行合并连接；

是对第二双向GRU层乘以权重向量

并加上偏移向量

的结果；

以此类推，通过表达式得到

再经过一个全连接操作得到输出O_t；

其中，

和

均是通过学习训练所得。

4.根据权利要求2或3所述的一种基于多尺度注意力机制的空气质量参数预测方法，其特征在于，在所述的第一多尺度注意力层和第二多尺度注意力层中采用改进的多尺度注意力模型，结构如下：d_t＝Dense((W_d·x'_t+B_d),units＝ScaleNum)，f_t＝1D-expand_dims(d_t)，o_t＝attention(f_t)，所述的多尺度注意力模型分为两步，首先在输入变量处利用全连接层的输出单元生成尺度信息，尺度大小用ScaleNum表示，从而将输入模型预处理为一个固定尺度的二维向量d_t；然后采用一维扩展机制1D-expand_dims，将二维向量d_t扩展成三维向量f_t，使得多尺度注意力模型能够展开识别固定尺度下的输入信息，x'_t为输入变量，W_d和B_d为需要学习的参数向量，Dense()表示全连接操作，o_t＝attention(f_t)中，包括以下两步操作：a_t＝V_a·Softmax(W_af_t ^T+B_a)，o_t＝Dense(W_ba_i ^T·f_t+B_b)，其中，f_t ^T是f_t的转置，V_a，W_a以及B_a是需要学习的参数向量，第一步通过SoftMax输出为a_t，将第a_t转置乘以输入f_t作为下一步的输入，W_b和B_b为全连接层输出学习参数，所述多尺度注意力层的模型过程记为o_t＝MutiScalAttention(f_t,ScaleNum)。

5.根据权利要求4所述的一种基于多尺度注意力机制的空气质量参数预测方法，其特征在于，所述的双向GRU层通过连接前向GRU和后向GRU两个GRU模型形成的一个双向结构，前向GRU中第一层遗忘门输出：f¹ _t＝σ(W¹ _f[H¹ _t-1,x”_t]+B¹ _f)，σ(x)＝1/(1+e^-x)，在前向GRU更新门中，第一输出为：z¹ _t＝σ(W¹ _z[H¹ _t-1,x”_t]+B¹ _z)，第二输出为：

前向GRU的中间输出

以及后向GRU的中间输出

通过对中间输出的聚合操作，得到输出

表示将前向GRU的输出

与后向GRU输出

进行合并连接，作为双向GRU层的输出

为双向GRU层的输入，[W¹ _f,B¹ _f]，[W¹ _Z,B¹ _Z]，[W¹ _h,B¹ _h]为前向GRU模型参数，[W² _f,B² _f],[W² _Z,B² _Z]，[W² _h,B² _h]为反向GRU模型参数，[W¹² _o,B¹² _o]为输出层参数。

6.根据权利要求5所述的一种基于多尺度注意力机制的空气质量参数预测方法，其特征在于，所述的卷积层为1维卷积网络。

7.根据权利要求1所述的一种基于多尺度注意力机制的空气质量参数预测方法，其特征在于，所述的影响因素数据包括：露点温度、空气温度、空气湿度、大气压力、风向、风速、每小时降雨量和当天累计降雨量。