CN113313235A

CN113313235A - 一种基于改进的lstm的空气质量预测模型及方法

Info

Publication number: CN113313235A
Application number: CN202110606132.9A
Authority: CN
Inventors: 方伟; 朱润苏; 孙俊; 吴小俊
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-27
Anticipated expiration: 2041-05-25
Also published as: CN113313235B

Abstract

本发明公开了一种基于改进的LSTM的空气质量预测模型及方法，属于环境保护技术领域。所述模型通过对于Vanilla LSTM的内部循环结构进行简化、改进，减少了一定的参数，增强了该结构对于异常细胞状态的包容性，生成了最终的IV‑LSTM结构。同时，在数据输入输出模型上进行改进，通过LS‑DTW算法选出相关站点增加数据输入通道。相比于纯DTW算法，LS‑DTW选出的站点与目标站点的相似程度更强，数据输入相关性更强，所以整体模型的预测结果更精确。

Description

一种基于改进的LSTM的空气质量预测模型及方法

技术领域

本发明涉及一种基于改进的LSTM的空气质量预测模型及方法，属于环境保护技术领域。

背景技术

近年来，随着经济水平的增长，人们对健康的要求越来越高，干净的空气是维持人类健康的基本需求，而空气质量指数AQI(Air Quality Index)是衡量空气质量好坏的一个直观标准，因此可以对空气质量指数AQI进行预测以获知空气质量好坏。

当下在空气预测研究领域人们已经尝试了各式各样的方法，从最早的通过经验知识建立空气污染扩散模型，到线性回归、随机森林等传统机器学习模型，也取得了各式各样的突破。后来随着机器学习的不断发展，有人将深度学习网络和空气质量预测联结起来。因为空气质量指数受多方面因素影响，不具有明显的规律性，而深度学习可以通过多方面的数据输入来挖掘出无序数据背后的规律，并且提高预测的精准度和鲁棒性。并且，多通道数据输入会产生多项输出结果，最终基于站点特性选择数据输出的路径能够一定程度上提升模型的预测效果。因此一个质量较高的基于深度网络的空气质量预测模型除了需要深度网络训练数据，还需要一种高效准确并且全面的数据输入输出模型。

空气质量预测领域现阶段使用比较广泛的深度网络主要是循环神经网络RNN(Recurrent Neural Network)和长短期记忆网络LSTM(Long Short-Term Memory)，而LSTM又以更好的性能在空气质量深度预测方法中占据主导地位。自从LSTM被提出以来，人们也对LSTM的结构进行了多次改进，其中Vanilla LSTM对于精准时间间隔预测有更好的效果，Vanilla LSTM(后简写为VLSTM)是在Standard LSTM基础上加上了peephole connections。但是这种形式比起S-LSTM产生了更多的参数，参数增加，则每轮训练过程中权重的更新效果就会变弱，这使得它在训练过程中更难收敛。同时，VLSTM使用历史信息的方式使得递归训练过程对新输入数据更加敏感，这意味着少量的异常数据可能会对整个深度学习网络的收敛速度造成很大的延迟，相同迭代次数下的预测精度会有所下降，也即VLSTM虽然一定程度上对于精准时间间隔预测有更好的效果，但是会使的整个深度学习网络在训练过程中更难收敛，最终导致模型的预测精度有所下降。

发明内容

为了更精确的预测空气质量指数，本发明提供了一种基于改进Vanilla-LSTM的空气质量预测模型，所述模型包括：

多通道数据输入模块、深度学习网络模块和多路径结果输出模块；各模块依次连接；其中，所述多路径结果输出模块根据对应的输入数据所属站点的类型选择相应的输出通道输入预测结果。

可选的，所述多通道数据输入模块根据输入数据所属站点的类型选择相应的输入通道将数据输入深度学习网络模块，其中，所述站点的类型为根据各空气质量监测站点的特征将所有空气质量监测站点分为三类，包括：

第一类为污染源头的监测站点，特征是自身站点附近不断产生空气污染因素；

第二类是作为污染物的受众的监测站点，特征为站点本身不产生空气污染物，但会受周边污染物的扩散影响；

第二类是复杂混合站点，特征为本身站点周围出现空气污染源，同时也会明显受到周边污染物的扩散影响。

可选的，所述深度学习网络模块包含5个数据通道，针对第一类站点，选择通道1和通道2对其空气质量进行最终预测；针对第二类站点，选择通道3，通道4和通道5对其空气质量进行最终预测；针对第三类站点，选择5个数据通道共同对其空气质量进行最终预测。

可选的，所述深度学习网络模块将输入门和遗忘门进行融合对于新输入的站点污染数据x_t，前一时间片的站点污染数据h_t-1以及迁移时间片单元状态c^t-1的权重矩阵减半。

可选的，所述深度学习网络模块为三层隐含层网络，第一层为IV-LSTM网络之后连接两层全连接层用于数据的回归。

可选的，所述IV-LSTM层节点参数设为20，全连接层分别为70和30。

本发明还提供一种基于上述空气质量预测模型进行空气质量预测的方法。

可选的，所述方法用于预测PM2.5值。

可选的，所述方法根据空气质量监测站点采集的空气质量数据和气象数据预测PM2.5值。

可选的，所述空气质量数据包括CO、NO₂、SO₂、O₃、PM10和PM2.5，所述气象数据包括温度、湿度、风速以及风向。

本发明有益效果是：

通过对于Vanilla LSTM的内部循环结构进行简化、改进，减少了一定的参数，增强了该结构对于异常细胞状态的包容性，生成了最终的IV-LSTM结构。同时，在数据输入输出模型上进行改进，通过LS-DTW算法选出相关站点增加数据输入通道。相比于纯DTW算法，LS-DTW选出的站点与目标站点的相似程度更强，数据输入相关性更强，所以整体模型的预测更为有效。多通道产生的多组结果又经过多路选择方法针对性地将站点分成三大类，通过使用不同通道的结果进行整合，完成了预测精度上的又一次提升。最终实验证明了IV-LSTM模型在本数据及上性能的提升卓有成效，以及MCMR的有效性。最终的MCMR模型使用多通道输入和多路径输出的方式，相比经典算法和代表性新算法，其结果取得了较为理想的提升。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中提供的基于改进Vanilla-LSTM的空气质量预测模型的结构图。

图2A是本发明一个实施例中提供的IVLSTM结构改进A的内部结构图；

图2B是本发明一个实施例中提供的IVLSTM结构改进B的内部结构图；

图2C是本发明一个实施例中提供的IVLSTM结构改进C的内部结构图。

图3是本发明一个实施例中提供的多路径结果输出模块细节图。

图4A是本发明一个实施例中提供的MCMR模块有效性检验仿真结果MAE指标图；

图4B是本发明一个实施例中提供的MCMR模块有效性检验仿真结果准确率指标图。

图5A是本发明一个实施例中提供的基于改进Vanilla-LSTM的空气质量预测模型的整体模型与Baseline模型MAE指标对比图；

图5B是本发明一个实施例中提供的基于改进Vanilla-LSTM的空气质量预测模型的整体模型与Baseline模型准确率指标对比图。

图6是本发明一个实施例中提供的基于改进Vanilla-LSTM的空气质量预测模型的模型预测效果与真实值对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

本实施例提供一种基于改进V-LSTM的空气质量预测模型，参见图1，所述模型包括：多通道数据输入模块、深度学习网络模块和多路径结果输出模块；各模块依次连接；其中，所述多路径结果输出模块根据对应的输入数据所属站点的类型选择相应的输出通道输入预测结果。

本申请针对历史信息的使用方式进行进一步改良，最终通过在输出门上错位使用细胞状态的方式一方面增强历史信息的使用频率，另一方面使模型的训练过程平稳和精度提升。然后以此深度模块为核心，设计整体的模型如图1所示，增加了多通道输入和多路输出的模块，使多通道输入效率提升，并对特征不同的各个站点的输出进行路径选择，确保最终的预测精度。

参数量降低，则在训练过程中模型就更易收敛，迭代次数相同的情况下训练出的模型预测精度更高。使用这种改进思路，本申请在VLSTM的基础上进行改进，可以得到如图2A所示的结构图(后称结构A)，其前向传播公式为式1-6所示。其中，x为数据集中的输入向量，c为用于循环的细胞状态的输入向量，h为过程输出的输入向量，t为当前LSTM单元所处的时间节点，f，i，z，o，分别代表遗忘门、输入门，加速门和输出门，W_st为在门s中与输入向量t相对应的权重向量，b_s为门s的偏置向量，门s即遗忘门f、输入门i，加速门z和输出门o。

f^t＝1-i^t (2)

c^t＝i^t⊙z^t+f^t⊙c^t-1 (4)

h^t＝tanh(c^t)⊙o^t (6)

众所周知，LSTM训练过程中历史信息主要保存在其细胞状态中，即c^t-1作为输入向量的一部分，将其中的历史信息输入到t时刻的LSTM单元中，c^t作为更新后的细胞状态更多包含的是t时刻的信息。因此在结构A的中，在输出门加入c^t向量，使得o^t也受到c^t变化的影响，如上式4所示的h^t的两个点乘因式tanh(c^t)和o^t均会因为c^t变化的而随之改变，这就使得最终输出h^t对于c^t的变化过于敏感，从而增加了训练过程的不稳定件，因此本文在结构A的基础上提出了结构B，即如图2B所示的结构。将式5用式7代替。(结构B降低对c^t的敏感度)

在结构B改进后，为了进一步提升网络预测精度，本申请在结构B的基础上又加入了改进，如图2C中虚线线头所指，形成结构C。结构C中增加的通路将c^t-1的信息引入到输出门当中，一方面增强了对历史信息的利用强度；另一方面，降低了传播过程中异常细胞状态的影响，使得深度模型训练过程中的收敛更稳定，相同迭代次数下，训练出来的模型输出结果更为优异。LSTM结构作为时间序列预测的重要方法，能够正确有效地使用历史信息是其高精度预测的关键。结构C就是在同一时间节点t中三次使用c^t-1的信息，以此来增强历史信息对于时间点t的输出信息的影响效果。而将c^t-1输入到输出门也在一定程度上中和了输出信息的另一部分tanh(c^t)中c^t的异常波动。当c^t-1与c^t相似度高的时候，模型C近似于模型A，因为细胞状态特征相似，因此对相同特征有一定的增强。而当c^t-1与c^t相似度极低时，会出现两种情况：第一种是c^t与c^t+1相似度极高，说明c^t-1和c^t的改变稳定，细胞状态大幅度变化不是因为出现异常值而是特征需要改变，则最迟在c^t+1时，该改变特征就会得到增强；第二种情况是c^t-1与c^t+1相似，而与c^t差异极大，这说明t时间所产生的新的细胞状态有异常，因此在时间片t和t+1中，异常特征就被c^t-1和c^t+1进行中和，因此对权重进行了稳定迭代，产生了更加稳定的输出。最终确定的前向传播公式用式8代替式7。(结构C一定程度上剔除了异常值)

一个完整的空气质量预测模型不仅需要深度学习方法，还需要与之匹配的数据输入输出方法，同样的深度网络，输入数据越有效，输出路径越精准，最终的预测结果就越精确。本文通过使用MCMR模型来选取与站点对应的通道模型以及有效数据，并在IV-LSTM训练出结果后整合输出。通过五个输入通道，从不同角度在整体信息中选取有效数据，以达到对全局数据更全面的利用，通过三条输出路径，根据站点自身特点选择路径整合相应通道输出结果得到最终预测结果。

本申请通过被预测目标的时间相关站点的空气质量信息和天气信息、被预测目标站点空气质量信息和天气信息，空间相关站点的空气质量信息和天气预测数据三层面共五个通道，从全局信息中甄选对应通道的信息作为模型训练的输入。其中，被预测目标站点空气质量信息和天气信息像时间相关站点一样也分成两个通道，数据无需任何处理可以直接输入。而空间相关站点本文采用了欧氏距离KNN算法，通过监测站的经纬度信息计算其欧式距离，再通过KNN算法取最靠近的5个站点作为信息点输入深度网络。此外剩余两通道为时间相关站点数据通道，需要进行针对性筛选。该层面重点是如何挑选与目标站点时间相关的站点。

动态时间折叠方法(DTW)是一种通过动态规划的方式对两个时间序列进行相似性比较。这种方法通过折叠时间的方式可以很好地体现非线性关系下的一种相似性，可以用作目标站点时间相关站点的相似性选择。而线性相似DTW(LS-DTW)是本文提出的用来为DTW赋以权重而形成的新算法，目的是强化不同因素相似度对DTW选择的影响。与目标预测序列具有更强相似度的空气质量因素或天气因素应该被分配更大的权重来进行DTW选择。

LS-DTW算法通过对目标站点非预测目标各项信息的时间序列与预测目标信息时间序列线性错位回归计算得出其相似度，并以此作为DTW值的加权数。LS部分主要通过将被比较序列与目标序列形成多个错位矩阵，以该矩阵作为输入与目标序列进行线性回归，并计算其最小误差e，并以1/(e+1)作为相似系数，误差越小，则相似系数越接近于1。

所谓多路模型如图3所示，即在确定五条信息输入通道的基础上，有选择地使用其中的部分或全部通道，形成不同的通路。现实生活中，监测站点主要分为三类，一类是作为污染源头的站点，主要特征是自身站点附近不断产生空气污染因素，比如地处交通要道，工厂附近的监测点；一类是主要作为污染物的受众的监测站点，特征为本身不产生空气污染物，但会受周边污染物扩散影响的站点；最后一类则是复杂混合站点，其特征为本身监测站点周围会出现空气污染源，同时也会明显受到周边区域空气污染物扩散的影响。

根据这三种站点的各自特征，本申请设计了三种路径依次对应以上提到的不同情况站点。对于第一种情况的站点，由于其空气污染物是以自己为中心向外部辐射，并不受到周围站点的影响，我们仅使用包含该站点本身的信息输入通道对其空气质量进行最终预测。而对于第二种情况的站点，由于其本身不产生空气污染物，而主要受周遭环境影响，所以我们仅使用包含与该站点相关的信息输入通道对其空气质量进行最终预测。第三种情况我们则将五个通道共同用于最终预测，以确保对于第一第二点提到的两方面因素协同作用的空气污染物的变化预测出更为准确的结果。

为验证本申请提出模型的预测效果，本申请采集了包含了2014年5月1日到2018年4月30日来自北京35个站点的空气质量监测数据以及气象数据，其中，空气质量数据为每小时采样一次，大气数据以行政区为单位每小时更新一次，包括每3小时更新一次的天气预报数据。空气质量数据包括CO,NO2,SO2,O3,PM10和PM2.5，而气象数据包括温度、湿度、风速以及风向。在进行实验之前，数据都进行了归一化操作。

本申请提供的深度预测模型为三层隐含层网络。该深度网络模型的第一层为IV-LSTM网络之后连接两层全连接层用于数据的回归，其中IV-LSTM层节点参数设为20，全连接层分别为70和30。在训练过程中，我们取10:1的训练集和测试集，采用SGD更新方式，batch设置为40，训练epoch为100代，初始学习率为1，并以每代0.99下降。LSTM网络的初始权重为随机值。

本申请采用4种指标，分别是平均绝对误差(MAE)，标准根方差(RMSE)，准确率(Acc.)以及多次试验的方差(std.)，其中MAE，RMSE，Acc定义如下：

在实验结果方面我们做了一系列实验来证明本申请提供的模型的优越性。首先进行LSTM网络的改进对比实验，验证IV-LSTM改进的有效性。然后对多路多通道的数据输入方式进行对照试验，一方面对于五个通道数据输入的有效性和必要性进行了验证，另一方面对于多路选择输入的必要性进行验证。最后通过与经典模型与新模型实验结果的对比，验证本文模型的整体性能。

对于IV-LSTM有效性实验，使用V-LSTM结构模型、改进结构A，B，C以及GRU结构预测6h后的空气质量。由于在整体结构中，多路输出过程会导致参与网络训练的数据发生变化，为了保证实验结果的准确性，本部分实验所有站点均使用相同的输入通道，不进行输入通道的选择步骤。实验结果如表1所示，通过实验结果我们可以发现，在本部分实验中V-LSTM的预测效果要优于GRU，说明针对空气质量预测数据集来说，完整的V-LSTM在预测效果上更具优势，论证了本文在V-LSTM结构上进一步改进的合理性。而结构ABC结果好于V-LSTM结构，说明本文的改进方向正确，改进结构比经典的V-LSTM结构在本文的实验中更具有优异性。而结构A结果好于V-LSTM，说明将在节约了遗忘门参数的情况下，网络性能由于参数减少而得到了提升。而结构B和结构C结果好于结构A说明针对降低输出结果对于LSTM当前细胞状态c^t敏感度的改进取得了成功，使得网络性能得到了提升。结构C预测结构优于结构B，说明在输出门中引用细胞状态c^t-1的历史信息对预测效果的提升有益。而由各指标的std可以看出，最终确定的结构C在稳定性上也要高于传统V-LSTM结构和GRU结构。

表1 IV-LSTM有效性

论证多路多通道模型的有效性：实验结果如图4A和图4B所示。其中L模型代表训练模型仅使用了站点本身数据即通道1和2，不包含相似站点和相近站点信息。R模型代表训练模型仅使用了相近站点和相似站点信息即通道3、4、5，不包含目标站点本身的信息。MC模型是使用全部5个通道信息进行最终结果的整合。MCMR即进行路径选择的多路多通道模型。可以发现，仅用本身信息的L模型，预测效果最差。而使用LS-DTW选择的相关信息输入通道R(LS-DTW)模型效果比DTW算法选择的相关信息输入通道R(DTW)模型的预测效果更好，验证了LS-DTW选择算法的有效性。然而当将两部分信息共同使用后，预测结果相较R模型得到了一定的提升，这说明多通道输入模型的有效性和必要性。而最终的MCMR模型在进行了路径选择后，其预测的MAE相较于R模型和MC模型，有了较大幅度的提升，这说明路径选择方法卓有成效。

本申请将最终成型的基于IV-LSTM的MCMR模型与一些经典算法，LR、RT和ANN进行比较，同时与具有代表性的空气质量预测模型FFA和STE进行比较，在6h、9h、12h和24h的时间间隔状态下比较其预测结果和精度。如图5A和图5B所示，传统方法无论是预测精度还是预测误差上都与新方法有不少差距，而比较有代表意义的2015年提出的FFA模型与2018年提出得的STE模型在结果上都要优于之前的算法，在MAE指标上，MCMR比之前表现最优的STE模型在6h、9h、12h和24h预测结果分别提升了7.2％，8.4％，3.5％和12.8％，在预测精度上除了12h的精度几乎与STE持平，其他时间段的预测均为最优，在24h中效果提升得尤为明显。因为从时间阶段上来看，24h为一天的长度，规律性更强，而12h相比24h来说，人类社会活动基本处于相反的状态，因此更难把握规律，更难提升预测效果。最终本申请将预测结果与真实数据的对比图呈现在图6中。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进Vanilla-LSTM的空气质量预测模型，其特征在于，所述模型包括：

2.根据权利要求1所述的空气质量预测模型，其特征在于，所述多通道数据输入模块根据输入数据所属站点的类型选择相应的输入通道将输入数据输入深度学习网络模块，其中，所述站点的类型为根据各空气质量监测站点的特征将所有空气质量监测站点分为三类，包括：

3.根据权利要求2所述的空气质量预测模型，其特征在于，所述深度学习网络模块包含5个数据通道，针对第一类站点，选择通道1和通道2对其空气质量进行最终预测；针对第二类站点，选择通道3，通道4和通道5对其空气质量进行最终预测；针对第三类站点，选择5个数据通道共同对其空气质量进行最终预测。

4.根据权利要求3所述的空气质量预测模型，其特征在于，所述深度学习网络模块将输入门和遗忘门进行融合对于新输入的站点污染数据x^t，前一时间片的站点污染数据h^t-1以及迁移时间片单元状态c^t-1的权重矩阵减半。

5.根据权利要求4所述的空气质量预测模型，其特征在于，所述深度学习网络模块为三层隐含层网络，第一层为IV-LSTM网络之后连接两层全连接层用于数据的回归。

6.根据权利要求5所述的空气质量预测模型，其特征在于，所述IV-LSTM层节点参数设为20，全连接层分别为70和30。

7.一种基于权利要求1-6任一所述的空气质量预测模型进行空气质量预测的方法。

8.根据权利要求7所述的方法，其特征在于，所述方法用于预测PM2.5值。

9.根据权利要求8所述的方法，其特征在于，所述方法根据空气质量监测站点采集的空气质量数据和气象数据预测PM2.5值。

10.根据权利要求9所述的方法，其特征在于，所述空气质量数据包括CO、NO₂、SO₂、O₃、PM10和PM2.5，所述气象数据包括温度、湿度、风速以及风向。