CN113077094A

CN113077094A - 一种基于lstm-gcn的臭氧预测方法

Info

Publication number: CN113077094A
Application number: CN202110394823.7A
Authority: CN
Inventors: 陈兴国; 吴多丰; 李扬; 吕咏洲; 杨尚东
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-07-06
Anticipated expiration: 2041-04-13
Also published as: CN113077094B

Abstract

本发明揭示了一种基于LSTM‑GCN的臭氧预测方法，包括如下步骤，通过长短期记忆网络LSTM得到观测点的隐状态，将每个观测点的隐状态构造成图，作为图卷积神经网络GCN的输入，得到所有观测点加权后的隐状态，最后通过线性网络得出预测结果。本发明的方法结合了邻居观测点来辅助目标观测点预测臭氧数据。LSTM网络能起到很好的时序预测作用，GCN能很好地汇聚周遭观测点对目标观测点的影响，借此辅助预测目标观测点的臭氧含量，二者结合能够更加准确地对目标观测点的臭氧含量做出预测，为臭氧污染问题的控制和监管供科学依据，为环保相关部门和政府治理部门制订相关决策提供科学合理的理论基础和预测方法。

Description

一种基于LSTM-GCN的臭氧预测方法

技术领域

本发明属于人工智能信息预测技术领域，尤其涉及一种基于LSTM-GCN的臭氧预测方法。

背景技术

臭氧是一种关键的二次大气污染物，主要是由大气中的氮氧化物、碳氢化合物在特殊的气象条件下（如强烈日光、无风或微风、夏季至初秋），经过一系列复杂的光学反应生成。由于工业化和城市化的迅速发展，我国臭氧前体物排放量不断增加，臭氧问题越发突出。臭氧对人体健康的危害主要体现在以下几方面：1.强烈刺激呼吸道，造成咽喉肿痛、胸闷咳嗽、引发支气管炎和肺气肿；2.造成神经中毒，头晕头痛、视力下降、记忆力衰退；3.对人体皮肤中的维生素E起到破坏作用，致使人的皮肤起皱，出现黑斑；4.破坏人体免疫技能，诱发淋巴细胞染色体病变，加速衰老，致使胎儿畸形。此外，臭氧作为一种强氧化性气体，能够较快地与含有不饱和碳碳键的有机化合物反应。这类有机化合物普遍存在于室内的建筑材料，居家用品，以及橡胶、丝、棉花、醋酸纤维素、尼龙和聚酯的制成品中。因此，含有这些材料的物品极易被臭氧破坏，从而造成燃料褪色、照牌图像层脱色、轮胎老化等现象。生态系统的地下部分也会受到臭氧污染的影响，而且呈现出不断积累的过程，受到最主要直接影响的是植物对水分和养分的吸收以及生态系统的物质循环，土壤中的碳、氮循环系统受到的影响尤其明显，由此造成对植物的伤害而影响土壤的肥力。

目前，臭氧污染已经成为我国重要的大气环境污染物之一，随着城市化、工业化的不断加快和机动车数量的持续增长，我国地面臭氧污染问题也变得愈加突出。由于臭氧形成的机理复杂，远距离传属性强，前体物排放地与臭氧污染出现地往往不在同一区域，各个城市不同区域之间也有相互影响，只有通过高密度、高强度的监测和预测，多地联合互相协作才能掌握其污染规律。但传统的预测方法精度和效率都较为低下。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提出一种基于LSTM-GCN的臭氧预测方法。

本发明的目的将通过以下技术方案得以实现：

通过长短期记忆网络LSTM得到观测点的隐状态，将每个观测点的隐状态构造成图，作为图卷积神经网络GCN的输入，得到所有观测点加权后的隐状态，最后通过线性网络得出预测结果。

S101、选定目标观测点，所述目标观测点即环境监测站点，是指可以出具具有法律效力的“水和废水”监测、“噪声”监测、“环境空气和废气”监测、“辐射”监测、“臭氧”监测等报告的单位，作为需要做出臭氧预测的地理位置；

S102、以目标观测点为中心，计算目标观测点与其他观测点的地理距离；其他观测点即在地理位置上距离目标观测点较近的观测点，地理距离为在二维平面坐标系下目标观测点到某个其他观测点的欧式距离，如目标观测点的二维平面坐标为

，某个其他观测点的二维平面坐标为

，则根据欧式距离公式

，目标观测点与某个其他观测点的二维平面坐标为

。

S103、对距离进行排序，选择其中距离最小的K个点作为邻居观测点；根据S102计算出所有其他观测点与目标观测点的距离，得到一组距离序列

，将序列从小到大进行排序，前K个序列值所对应的其他观测点，即为邻居观测点。

S104、基于距离对目标观测点与邻居观测点构造拓扑图用于GCN；拓扑图也叫做拓扑结构图，是指由计算机、打印机、网络设备及其他设备构成的网络结构图，应用到其他领域中表现为以一定的方式将目标与目标之间进行连接。将每个观测点作为拓扑图中的节点，每个邻居观测点分别与目标观测点直接相连，构成星型拓扑结构图。

S105、对目标观测点与邻居观测点所构成的数据集进行数据清洗并拼接成一个数据集；每一个观测点所监测的环境信息都是实时监测的，包括臭氧数据在内是以每小时为单位的时序数据集，每个观测点的监测数据的时间跨度也并不相同。针对每个观测点的时序数据集，找出有数据缺失的日期，逐个为其插值，若某一小时的臭氧监测数据缺失，则插入值为相邻两个小时的均值，即缺失值前一小时与后一小时的臭氧含量的均值；进一步地，对每个数据集的时间跨度做交集，得到每个观测点的共同时间跨度，最后对所有数据集进行组合，形成一个数据集。

S106、对数据集进行预处理，即归一化得到放缩后的数据；得到数据集之后，还需要的操作是将数据做归一化处理，这里使用的是最大最小值标准化，归一化可以消除量纲，使模型训练加快收敛速度。

S107、用滑动窗口的方式创建适用于监督学习的输入集与输出集；例如，对序列数据

，滑动窗口的串口大小为4，每次窗口移动的步长为1，则第一次滑动窗口得到的序列为

，其中

为输入集的一部分，

为输出集的一部分；第二次滑动窗口得到的序列为

，其中

为输入集的一部分，

为输出集的一部分；以此类推，直至滑动窗口无法移动；

S108、按一定比例切分数据集，分为训练集输入、训练集输出、测试集输入和测试集输出；在机器学习中，训练集用于训练模型，模型包含输入和输出，测试集用来检验最终选择最优的模型的性能如何，同样测试集也包含输入和输出两部分，通常的切分比例为4：1；

S109、对训练集输入做batch划分；batch划分将训练集切分为较小的划分，每次训练时依次输入较小的划分，每次计算该次划分的梯度，并进行参数更新，增加训练速度。

S110、对于每个batch划分，输入LSTM网络得到目标观测点的隐状态向量和邻居观测点的隐状态向量；LSTM网络的是在循环神经网络基础上做出的改进，在LSTM网络节点中，输入节点的数据会经过节点内部的三个门限运算得到下该节点的输出，并作为下一节点的输入。其中一个门限运算使用

函数来筛选出新加入到输入中的信息，输入与

函数的组合即为隐状态；隐向量的含义是指当前的输入数据有多少能够被使用；

S111、将各个观测点的隐向量作为拓扑图中对应节点的属性，再使用GCN进行汇聚；将LSTM网络得到的每个隐向量与各个观测点一一对应，根据S104中构建的拓扑图，将每个隐向量与拓扑图中的节点对应，并将隐向量作为节点属性，最后将图最为GCN的输入。

S112、GCN汇聚后得到各观测点更新后的属性；GCN是一种卷积神经网络，它的作用目标是在图上，并充分利用图的结构信息，提取图结构中的特征信息，能够起到对图结构的信息汇聚；将拓扑图输入到GCN中，GCN对每个节点进行特征提取，即GCN的输出，得到每个节点更新后的属性,。

S113、取出目标观测点对应的属性值，输入到线性神经网络中，线性网络的输出即为预测结果；线性神经网络是机器学习中最简单的神经网络，可用作回归与分类问题的处理，由输入层、隐藏层、输出层构成，其中输入层节点与输出层节点采用全连接的方式，激活函数是线性函数；将GCN的输出输入到线性网络中，进行回归预测，得到预测结果；

S114、计算预测结果与训练集输出中对应输出的均方误差，利用误差计算梯度，并更新网络中的参数；均方误差是指预测值与真是观测值之差的平方的期望。均方误差是衡量“平均误差”的一种较为方便的方法，均方误差可以评价数据的变化程度，均方误差的值越小，说明预测模型所描述实验数据具有更好的精确度，网络参数也应该向均方误差更小的方向进行更新。

本发明的有益效果体现在：通过LSTM（LSTM, Long Short-Term Memory）网络和GCN（GCN, Graph Convolutional Network）两个模块，结合邻居观测点来辅助目标观测点预测臭氧数据。LSTM网络能起到很好的时序预测作用，GCN能很好地汇聚周遭观测点对目标观测点的影响，借此辅助预测目标观测点的臭氧含量，二者结合能够更加准确地对目标观测点的臭氧含量做出预测，为臭氧污染问题的控制和监管供科学依据，也为环保相关部门和政府治理部门制订相关决策提供科学合理的理论基础和预测方法。

附图说明

图1：本发明预测方法的流程示意图。

图2：采用本发明的预测方法相与传统LSTM预测方法的预测误差对比图。

具体实施方式

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

本发明揭示了一种基于LSTM-GCN的臭氧预测方法，其通过长短期记忆网络LSTM得到观测点的隐状态，将每个观测点的隐状态构造成图，作为图卷积神经网络GCN的输入，得到所有观测点加权后的隐状态，最后通过线性网络得出预测结果。

以下结合图1具体阐述说明：

S101、选定目标观测点：江苏省南京市鼓楼区草场门，其他观测点为：江苏省南京市仙林大学城、江苏省南京市玄武湖、江苏省南京市奥体中心。

S102、以目标观测点为中心，计算目标观测点与其他观测点的地理距离；分别计算目标观测点草长门与其他观测点在地图上的直线距离，距离江苏省南京市仙林大学城17km，距离江苏省南京市玄武湖5.7km，距离江苏省南京市奥体中心5.5km。

S103、对距离序列{17，5.7，5.5}进行从小到大排序，得到的结果为{5.5，5.7，17}，选择其中距离最小的3个点作为邻居观测点；邻居观测点为：江苏省南京市奥体中心，江苏省南京市玄武湖、江苏省南京市仙林大学城。

S104、根据目前四个观测点，建立拓扑图，将四个观测点作为拓扑图的节点，以目标观测点南京市草场门所对应的节点为中心节点，其他三个节点分别与中心节点相连，构造拓扑图。

S105、对目标观测点与邻居观测点所构成的数据集进行数据清洗并拼接成一个数据集；目标观测点与邻居观测点的数据集包含连续的72小时的臭氧监测数据，以及未来48小时的臭氧监测数据；对臭氧数据进行数据缺值插入，如缺少某天内的15点的臭氧含量，但得知14点的臭氧含量为A与16点的臭氧含量为B，进行均值插值缺失，则15点的臭氧含量为(79mg/m³+75mg/m³)/2。进一步地，每个目标站点的时间跨度并不相同，草场门包含的连续的72小时的臭氧监测数据的时间跨度为2016年至2018年，而南京市玄武湖观测点的时间跨度为2017年至2018年，选择每个观测点时间跨度的交集2017年至2018年作为统一时间跨度进行拼接。

S106、得到数据集后，对数据集进行归一化处理。例如某个序列数据

，包含三个数据{1,4,9}，那么先找到序列中的最大值与最小值，最大值为9，最小值为1，再根据公式

对每个数据进行归一化，同样的方法，对目标观测点数据集和邻居观测点数据集进行归一化处理。

S107、用滑动窗口的方式创建适用于监督学习的输入集与输出集；例如：有如下序列数据{1,2,3,4,5,6,7,8,9,10}，假设滑动窗口大小为5，其中前3个序列值用作输入，后两个序列值作为输出，则得到输入样本：[1，2，3]；输出样本：[4，5]。若滑动窗口移动步长为1，则窗口向右移动一个单位得到第二个样本，输入：[2，3，4]；输出：[5，6]，以此类推。在草场门观测点中，滑动窗口的窗口大小为5，取窗口中前3个序列值作为输入样本，后2个序列的指作为输出样本。

S108、按4：1的比例切分数据集，分为训练集输入、训练集输出、测试集输入和测试集输出；对数据集进行切分，其中五分之一的数据集作为测试集，其余作为训练集使用。

S109、对训练集输入做batch划分；每次在训练过程中，batch 划分取64，每次向网络中输入64个样本进行训练，计算64个样本的梯度并进行更新与LSTM网络参数迭代。

S110、对于每个划分，输入LSTM网络得到目标观测点的隐状态向量和邻居观测点的隐状态向量；目标观测点的隐状态向量为[-1.055e-01, -3.227e-01, 1.047e+00, -2.615e-01, -4.853e-01, 1.285e+00, -1.111e+00, -1.497e-01, -1.414e-01, 7.614e-01, 9.139e-01, -4.166e-02, -1.1439e-02, 4.691e-01,-3.408e-01,3.600e-01, -1.254e-01, 6.450e-01,1.419e+00, 1.847e+00]，某个邻居节点的隐状态向量为：[2.29e+00, -9.393e-01, -4.534e-01, -3.797e-01, -1.095e-01, 1.096e+00, 8.490e-01,5.213e-01, -2.917e-01, 6.080e-01, -1.482e-00, 4.543e-01, -7.665e-01, -1.172e+00, 3.432e-01,7.450e-02, 5.308e-01, 9.461e-01, -1.309e+00, -2.828e-01]。

S111、将各个观测点的隐向量作为拓扑图中对应节点的属性，再使用GCN进行汇聚；对已经构造好的拓扑图的节点，根据隐状态向量与节点的对应关系，为节点的数据域添加隐状态向量，由此构成一个带有隐状态向量的拓扑图，以此作为GCN的输入。

S112、GCN汇聚后得到各观测点更新后的属性；将构造好的拓扑图作为GCN的输入，得到输出[[-0.047, -0.1776, -0.0167, …, 0.1479, -0.0331, -0.0314], [-0.0018,-0.0744, -0.0079, …, 0.0595, -0.0134, -0.0134], [-0.0054, -0.1422, -0.0177,…, 0.1216, -0.0243, -0.0198], …, [-0.0040, -0.1152, -0.0220, …, 0.0871, -0.0137, -0.0145], [-0.0059, -0.1543, -0.0309, …, 0.1130, -0.0200, -0.0169],[-0.0006, -0.1215, -0.0224, …, 0.0986, -0.0124, -0.0165]]。

S113、取出目标观测点对应的属性值，输入到线性网络中，线性网络的输出即为预测结果；输出结果为：[-0.1926, -0.1681, -0.1659, …, 0.0555, -0.0897, 0.1969]。

S114、计算预测结果与训练集输出中对应输出的均方误差，利用误差计算梯度更新网络中的参数；计算得到某一时刻均方误差为24.815, 同样，计算单个LSTM网络预测臭氧的均方误差为37.576，效果对比图如图2所示，由均方误差的结果对比可知，经过GCN汇聚邻居节点的信息后的预测值较单个LSTM网络预测有较大提升。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于LSTM-GCN的臭氧预测方法，其特征在于：包括如下步骤，通过长短期记忆网络LSTM得到观测点的隐状态，将每个观测点的隐状态构造成图，作为图卷积神经网络GCN的输入，得到所有观测点加权后的隐状态，最后通过线性网络得出预测结果。

2.如权利要求1所述的一种基于LSTM-GCN的臭氧预测方法，其特征在于：包括以下步骤：

S101、选定目标观测点；

S102、以目标观测点为中心，计算目标观测点与其他观测点的地理距离；

S103、对S102中计算出的地理距离进行排序，选择其中距离最小的K个点作为邻居观测点；

S104、基于以上所得的距离构造拓扑图，并用于GCN；

S105、对目标观测点与邻居观测点所构成的数据集进行数据清洗并拼接成一个数据集；

S106、对拼接成的数据集进行预处理得到放缩后的数据；

S107、用滑动窗口的方式创建适用于监督学习的输入集与输出集；

S108、按比例切分数据集，分为训练集输入、训练集输出、测试集输入和测试集输出；

S109、对S108中的训练集输入做batch划分；

S110、对于每个batch，输入LSTM层得到目标观测点的隐状态向量和邻居观测点的隐状态向量；

S111、将各个观测点的隐向量作为拓扑图中对应节点的属性，再使用GCN进行汇聚；

S112、GCN汇聚后得到各观测点更新后的属性；

S113、取出目标观测点对应的属性值，输入到线性网络中，线性网络的输出即为预测结果。

3.如权利要求2所述的一种基于LSTM-GCN的臭氧预测方法，其特征在于，所述方法还包括更新步骤，S114、计算预测结果与训练集输出中对应输出的均方误差，利用误差计算梯度更新网络中的参数。

4.如权利要求2所述的一种基于LSTM-GCN的臭氧预测方法，其特征在于，所述S103中的地理距离的计算方式为欧氏距离计量方式。

5. 如权利要求2所述的一种基于LSTM-GCN的臭氧预测方法，其特征在于，所述S104的拓扑图中，以目标观测点为中心，其他观测点为节点。

6.如权利要求2所述的一种基于LSTM-GCN的臭氧预测方法，其特征在于，所述S105中当数据集中存在某时刻臭氧数据的缺失与某个时段的数据缺失，则需要找出数据集有数据缺失的时刻与时段，进行前后时刻与时段的均值插值。

7.如权利要求2所述的一种基于LSTM-GCN的臭氧预测方法，其特征在于，所述S106中对数据集进行归一化处理。

8.如权利要求7所述的一种基于LSTM-GCN的臭氧预测方法，其特征在于，所述S106中采用最大最小值标准化对数据集进行预处理，并以目标观测点的数字特征作为归一化的标准。

9.如权利要求2所述的一种基于LSTM-GCN的臭氧预测方法，其特征在于，所述S111中所有的隐向量以图的方式作为GCN的输入，以邻居观测点和目标观测点之间的欧式距离的倒数作为GCN中图的边权值。

10.如权利要求9所述的一种基于LSTM-GCN的臭氧预测方法，其特征在于，所述S111中以所有的隐向量以无向图的方式作为GCN的输入，

a、对每个观测点，计算目标观测点与邻居观测点的欧式距离；

b、拓扑图中，观测点为图的结点；结点属性为观测点对应的隐状态；结点间边是否存在以观测点是否毗邻为衡量标准；边的权值为观测点间欧氏距离的倒数。