CN110263977A

CN110263977A - 基于lstm神经网络模型的优化预测pm2.5的方法及装置

Info

Publication number: CN110263977A
Application number: CN201910441016.9A
Authority: CN
Inventors: 童海滨; 胡锦程; 唐林昊; 王慧慧; 刘晓君; 刘喆; 张嫣文
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-09-20

Abstract

本发明涉及环境监测技术领域，公开一种基于LSTM神经网络模型的优化预测PM2.5的方法，包括：对环境数据进行特征提取并进行预处理，得到环境数据集，将环境数据集划分为训练集和测试集；根据所述训练集训练LSTM神经网络模型，所述LSTM神经网络模型包括attention层；采用Adam算法对所述LSTM神经网络模型的参数进行优化；采用所述测试集基于优化后的LSTM神经网络模型进行PM2.5的预测。本发明还公开一种基于LSTM神经网络模型的优化预测PM2.5的装置，包括：特征提取及预处理模块、训练模块、优化模块及预测模块。本发明通过加入attention层，可自动分析权重系数。

Description

基于LSTM神经网络模型的优化预测PM2.5的方法及装置

技术领域

本发明涉及环境监测技术领域，特别涉及一种基于LSTM神经网络模型的优化预测PM2.5的方法及装置。

背景技术

针对PM2.5浓度预测问题，国内外学者做了大量研究工作，提出了一系列模型。在预测方法方面，主要有线性回归、时间序列、灰色模型、支持向量机、贝叶斯等传统方法以及近期以神经网络(neural network，NN)算法为主导的人工智能方法。传统方法具有结构简单易识别、模型解释能力强等特点，但PM2.5的形成属于一个复杂的物理变化过程，具有明显的时空分异和非线性特征，因此传统方法很难反映实际情况。目前，神经网络算法具有较强的非线性和自我学习能力，已广泛应用于空气污染预测领域。比如BP神经网络可以解决因众多因素决定复杂非线性拟合的问题，然而问题在求解时容易陷入局部最小且层内没有神经元连接，没有同时考虑不同层次特征抽象和时间轴的上下文关联。而RNN循环神经网络中序列过长梯度爆炸，很难自动捕获延迟窗口长度的最优值。而本发明基于LSTM改进预测PM2.5，可以避免上述问题。

LSTM算法全称为Long short-term memory，最早由Sepp Hochreiter和JürgenSchmidhuber于1997年提出，是一种特定形式的RNN(Recurrent neural network，循环神经网络)，而RNN是一系列能够处理序列数据的神经网络的总称。

一般地，RNN包含如下三个特性：

a)循环神经网络能够在每个时间节点产生一个输出，且隐单元间的连接是循环的；

b)循环神经网络能够在每个时间节点产生一个输出，且该时间节点上的输出仅与下一时间节点的隐单元有循环连接；

c)循环神经网络包含带有循环连接的隐单元，且能够处理序列数据并输出单一的预测。

RNN还有许多变形，例如双向RNN(Bidirectional RNN)等。然而，RNN在处理长期依赖(时间序列上距离较远的节点)时会遇到巨大的困难，因为计算距离较远的节点之间的联系时会涉及雅可比矩阵的多次相乘，这会带来梯度消失(经常发生)或者梯度膨胀(较少发生)的问题，这样的现象被许多学者观察到并独立研究。为了解决该问题，研究人员提出了许多解决办法，例如ESN(Echo State Network)，增加有漏单元(Leaky Units)等等。其中最成功应用最广泛的就是门限RNN(Gated RNN)，而LSTM就是门限RNN中最著名的一种。有漏单元通过设计连接间的权重系数，从而允许RNN累积距离较远节点间的长期联系；而门限RNN则泛化了这样的思想，允许在不同时刻改变该系数，且允许网络忘记当前已经累积的信息。

LSTM的巧妙之处在于通过增加输入门限，遗忘门限和输出门限，使得自循环的权重是变化的，这样一来在模型参数固定的情况下，不同时刻的积分尺度可以动态改变，从而避免了梯度消失或者梯度膨胀的问题。

现有的LSTM(长短时间记忆型)有效地解决了长时间的依赖的问题，然而它不能自动分析权重系数，不论输入长短都将其编码成一个固定长度的向量表示(解码效果很差)，这使模型对于长输入序列的学习效果很差，实际预测PM2.5效果也不太令人满意。

发明内容

本发明的目的在于解决现有的LSTM模型长输入序列的学习效果差、不能自动分析权重系数，从而导致PM2.5预测不准确的问题，提出一种基于LSTM神经网络模型的优化预测PM2.5的方法及装置。

为了实现上述目的，本发明采用以下技术方案：

一种基于LSTM神经网络模型的优化预测PM2.5的方法，包括：

步骤1：对环境数据进行特征提取并进行预处理，得到环境数据集，将环境数据集划分为训练集和测试集；

步骤2：根据所述训练集训练LSTM神经网络模型，所述LSTM神经网络模型包括attention层；

步骤3：采用Adam算法对所述LSTM神经网络模型的参数进行优化；

步骤4：采用所述测试集基于优化后的LSTM神经网络模型进行PM2.5的预测。

进一步地，所述环境数据包括空气污染物数据及空气PM2.5值。

进一步地，所述特征提取为：

对环境数据中的相对湿度、可见度、NO₂浓度、N_XO_Y浓度及空气PM2.5值进行提取，N_XO_Y为大气中除NO₂外的氮氧化物。

进一步地，所述预处理包括：对环境数据中的异常值和缺失值进行处理以及数据标准化处理。

进一步地，所述对环境数据中的异常值和缺失值进行处理为：对于缺失值或异常值均选取对应值前后两个时刻的平均值代替缺失值或异常值对应时刻的值。

进一步地，所述数据标准化处理为：

采用z-score方法对特征提取后的环境数据进行标准化处理。

进一步地，在所述步骤2之前，还包括：

确定LSTM神经网络模型的网络结构；所述网络结构包括输入层、隐含层、attention层及输出层，其中attention层层数为1，attention层节点的数目为10个，attention层的权重向量的计算公式为：

W_l＝Softmax(P_l)*P_l

其中，W_l为attention层的权重向量，P_l为隐含层的输出，1≤l≤m-l,l∈N，m为训练集中预处理后的环境数据个数。

进一步地，所述步骤4还包括：

采用均方误差作为LSTM神经网络模型的损失函数。

一种基于LSTM神经网络模型的优化预测PM2.5的装置，包括：

特征提取及预处理模块，用于对环境数据进行特征提取并进行预处理，得到环境数据集，将环境数据集划分为训练集和测试集；

训练模块，用于根据所述训练集训练LSTM神经网络模型，所述LSTM神经网络模型包括attention层；

优化模块，用于采用Adam算法对所述LSTM神经网络模型的参数进行优化；

预测模块，用于采用所述测试集基于优化后的LSTM神经网络模型进行PM2.5的预测。

进一步地，还包括：

网络结构确定模块，用于确定LSTM神经网络模型的网络结构；所述网络结构包括输入层、隐含层、attention层及输出层，其中attention层层数为1，attention层节点的数目为10个，attention层的权重向量的计算公式为：

W_l＝Softmax(P_l)*P_l

与现有技术相比，本发明具有的有益效果：

本发明利用了attention层，在隐含层之后、输出层之前加入一个attention层，在前向计算过程中该层经过softmax函数转换成每个节点的权重系数，attention层中每个节点的值乘上该权重系数为该节点的输出。通过加入attention层，来判定隐含层中每个维度对结果的影响程度，且权重系数越大对结果影响越大，从而将网络专注到某个或者某几个维度的变化。具体而言，传统LSTM模型存在一个问题：不论输入长短都将其编码成一个固定长度的向量表示，这使模型对于长输入序列的学习效果很差(解码效果很差)、不能自动分析权重系数。而attention机制则克服了上述问题，原理是在模型输出时会选择性地专注考虑输入中的对应相关的信息。如本发明中输入为相对湿度、可见度、NO₂浓度及N_XO_Y浓度四个维度的特征，不加attention机制LSTM神经网络并不能区分出哪个维度的特征对PM2.5值的预测更具有相关性，通过加入attention机制，可以使得对PM2.5值影响更大的特征具有更大的权重系数。本发明通过加入了attention层，判断出关于相对湿度、可见度、NO₂浓度及N_XO_Y浓度哪一个在PM2.5预测问题中具有更大的权重系数，从而能更好地预测PM2.5。

附图说明

图1为本发明实施例一种基于LSTM神经网络模型的优化预测PM2.5的方法的基本流程图；

图2为本发明实施例另一种基于LSTM神经网络模型的优化预测PM2.5的方法的基本流程图；

图3为本发明实施例另一种基于LSTM神经网络模型的优化预测PM2.5的方法的数据处理流程图；

图4为本发明实施例一种基于LSTM神经网络模型的优化预测PM2.5的装置的结构示意图；

图5为本发明实施例另一种基于LSTM神经网络模型的优化预测PM2.5的装置的结构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

实施例一：

如图1所示，一种基于LSTM神经网络模型的优化预测PM2.5的方法，包括以下步骤：

步骤S101：对环境数据进行特征提取并进行预处理，得到环境数据集，将环境数据集划分为训练集和测试集；

步骤S102：根据所述训练集训练LSTM神经网络模型，所述LSTM神经网络模型包括attention层；

步骤S103：采用Adam算法对所述LSTM神经网络模型的参数进行优化；

步骤S104：采用所述测试集基于优化后的LSTM神经网络模型进行PM2.5的预测。

本发明利用了attention层，在隐含层之后、输出层之前加入一个attention层，在前向计算过程中该层经过softmax函数转换成每个节点的权重系数，attention层中每个节点的值乘上该权重系数为该节点的输出。通过加入attention层，来判定隐含层中每个维度对结果的影响程度，且权重系数越大对结果影响越大，从而将网络专注到某个或者某几个维度的变化。

实施例二：

如图2-3所示，另一种基于LSTM神经网络模型的优化预测PM2.5的方法，包括以下步骤：

步骤S201：对环境数据进行特征提取并进行预处理，得到环境数据集，将环境数据集划分为训练集和测试集；

具体地，环境数据包括空气污染物数据及空气PM2.5值。

具体地，特征提取为：

对空气污染物数据中的相对湿度(humidity(％))、可见度(visibility(km))、NO₂浓度、N_XO_Y浓度及空气PM2.5值进行提取，N_XO_Y为大气中除NO₂外的氮氧化物。

具体地，预处理包括：对环境数据中的异常值和缺失值进行处理以及数据标准化处理。

具体地，对环境数据中的异常值和缺失值进行处理为：对于缺失值或异常值均选取对应值前后两个时刻的平均值代替缺失值或异常值对应时刻的值。由于原始数据中前后两个时刻的值差别较小，所以对于缺失值和异常值均选取该值前后两个时刻的平均值代替该时刻的值。

具体地，数据标准化处理为：

采用z-score方法对特征提取后的空气污染物数据进行标准化处理。

对数据标准化处理可加快网络训练收敛速度，提高模型训练的精度，消除范围较大的特征值给梯度更新所带来的影响。

对环境数据进行特征提取后，得到：

T_a＝(x₁,x₂,x₃,x₄,....x_n)

1≤n n∈N

其中，T_a为特征提取后的环境数据的集合，x₁为第1个时间点的特征提取后的环境数据，n为特征提取后的环境数据总个数。

对环境数据进行标准化处理后，得到环境数据集T_a'：

T'_a＝(x'₁,x'₂,x'₃,x'₄,....x'_n)

其中，x'₁为第1个时间点的标准化处理后的环境数据，n为标准化处理后的环境数据总个数。

将环境数据集T'_a划分为训练集T'_tr和测试集T'_test：

T'_tr＝(x'₁,x'₂,x'₃,x'₄,....x'_m)

T'_test＝(x'_m+1,x'_m+2,x'_m+3,x'_m+4,....x'_n)

1≤m≤n m,n∈N

其中，m为训练集中预处理后的环境数据个数。作为一种可实施方式，环境数据为开封市2015-2018年的环境数据，具体包括开封市2015-2018年空气污染物及空气PM2.5值，其中2015-2017年的预处理后的环境数据作为训练集，共有20000条，即m为20000，2018年的预处理后的环境数据作为测试集，共有6985条，故n为26985。其中各数据按照时间先后顺序进行采集，即环境数据编号的前后顺序对应的为环境数据数据采集时间的先后顺序。训练集T_t'_r如表1所示，测试集T_t'_est如表2所示。

表1训练集示例

visibility(km)	humidity(％)	NO<sub>2</sub>	N<sub>X</sub>O<sub>Y</sub>	PM2.5
					8.6	75.0	21.0	24.0	83.1
8.3	78.0	23.0	26.0	81.8
					7.6	80.0	18.0	21.0	85.2

表2测试集示例

visibility(km)	humidity(％)	NO<sub>2</sub>	N<sub>X</sub>O<sub>Y</sub>	PM2.5
					7.4	76.0	12.0	14.0	35.7
7.6	75.0	9.0	11.0	33.8
					7.6	74.0	9.0	10.0	28.2

具体地，在训练时，训练集中，将空气PM2.5值去除作为标签数据，将去除空气PM2.5值后的训练数据(四维数据)输入LSTM神经网络进行模型的训练；对应的，在测试时，测试集中，将空气PM2.5值去除作为标签数据，将去除空气PM2.5值后的测试数据(四维数据)输入LSTM神经网络进行模型的测试。

步骤S202：确定LSTM神经网络模型的网络结构：

所述网络结构包括输入层、隐含层、attention层及输出层，其中attention层层数为1，attention层节点的数目为10个，输入层层数为1，输入层节点的数目为4，隐含层层数为2，隐含层每层节点的数目为30个，attention层层数为1，attention层节点的数目为10个，输出层层数为1，输出层节点的数目为1，防止网络过拟合的失效率为0.9，学习率为0.001。具体如下：

为了适应隐含层输入的特点，构建短时间输入序列，通过固定步长来确定时间序列的长度，取步长为l，则网络模型的输入为：

x_l＝{x'_l,x'_l+1,x'_l+2,x'_l+3,....,x'_m}

1≤l≤m-l,l∈N

将x_l输入网络，经过隐藏层的输出为：

P＝{P₁,P₂,P₃,P₄,.....P_m-l}

P_l＝LSTM(x'_l,c^＜t-1＞,h^＜t-1＞)

其中，c^＜t-1＞和h^＜t-1＞为上一时刻的细胞状态和隐藏层状态。

attention层的权重向量的计算公式为：

W_l＝Softmax(P_l)*P_l

其中，W_l为attention层的权重向量，P_l为隐含层的输出。

步骤S203：根据所述训练集训练LSTM神经网络模型，所述LSTM神经网络模型包括attention层；

步骤S204：采用Adam算法对所述LSTM神经网络模型的参数进行优化；具体地，对LSTM神经网络模型的权重及偏置值进行优化。

步骤S205：采用所述测试集基于优化后的LSTM神经网络模型进行PM2.5的预测。

具体地，步骤S205还包括：

采用均方误差作为LSTM神经网络模型的损失函数。

因为本实施例数据为时间序列数据，误差范围设置为±10，即当测试数据落在原始数据±10窗口范围以内，表示预测正确。

具体地，本实施中采用准确率对预测结果进行评估，本发明的准确率为0.8080；作为一种对比实验，去除attention层后，准确率为0.7275。

值得说明的是，本发明还可用于根据2015年之前的开封市空气污染物数据对2015年之前的开封市空气PM2.5数据进行预测，从而可以根据预测结果得出近年来开封市空气PM2.5数据的变化趋势，并应用于开封市PM2.5的研究。

实施例三：

如图4所示，一种基于LSTM神经网络模型的优化预测PM2.5的装置，包括：

特征提取及预处理模块301，用于对环境数据进行特征提取并进行预处理，得到环境数据集，将环境数据集划分为训练集和测试集；

训练模块302，用于根据所述训练集训练LSTM神经网络模型，所述LSTM神经网络模型包括attention层；

优化模块303，用于采用Adam算法对所述LSTM神经网络模型的参数进行优化；

预测模块304，用于采用所述测试集基于优化后的LSTM神经网络模型进行PM2.5的预测。

实施例四：

如图5所示，另一种基于LSTM神经网络模型的优化预测PM2.5的装置，包括：

特征提取及预处理模块401，用于对环境数据进行特征提取并进行预处理，得到环境数据集，将环境数据集划分为训练集和测试集；具体地，所述环境数据包括空气污染物数据及空气PM2.5值；所述特征提取为：对环境数据中的相对湿度、可见度、NO₂浓度、N_XO_Y浓度及空气PM2.5值进行提取，N_XO_Y为大气中除NO₂外的氮氧化物；所述预处理包括：对环境数据中的异常值和缺失值进行处理以及数据标准化处理；所述对环境数据中的异常值和缺失值进行处理为：对于缺失值或异常值均选取对应值前后两个时刻的平均值代替缺失值或异常值对应时刻的值；所述数据标准化处理为：采用z-score方法对特征提取后的环境数据进行标准化处理。

网络结构确定模块402，用于确定LSTM神经网络模型的网络结构；所述网络结构包括输入层、隐含层、attention层及输出层，其中attention层层数为1，attention层节点的数目为10个，attention层的权重向量的计算公式为：

W_l＝Soft max(P_l)*P_l

训练模块403，用于根据所述训练集训练LSTM神经网络模型，所述LSTM神经网络模型包括attention层；

优化模块404，用于采用Adam算法对所述LSTM神经网络模型的参数进行优化；

预测模块405，用于采用所述测试集基于优化后的LSTM神经网络模型进行PM2.5的预测。具体地，还用于采用均方误差作为LSTM神经网络模型的损失函数。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于LSTM神经网络模型的优化预测PM2.5的方法，其特征在于，包括：

2.根据权利要求1所述的基于LSTM神经网络模型的优化预测PM2.5的方法，其特征在于，所述环境数据包括空气污染物数据及空气PM2.5值。

3.根据权利要求1所述的基于LSTM神经网络模型的优化预测PM2.5的方法，其特征在于，所述特征提取为：

4.根据权利要求2所述的基于LSTM神经网络模型的优化预测PM2.5的方法，其特征在于，所述预处理包括：对环境数据中的异常值和缺失值进行处理以及数据标准化处理。

5.根据权利要求4所述的基于LSTM神经网络模型的优化预测PM2.5的方法，其特征在于，所述对环境数据中的异常值和缺失值进行处理为：对于缺失值或异常值均选取对应值前后两个时刻的平均值代替缺失值或异常值对应时刻的值。

6.根据权利要求4所述的基于LSTM神经网络模型的优化预测PM2.5的方法，其特征在于，所述数据标准化处理为：

采用z-score方法对特征提取后的环境数据进行标准化处理。

7.根据权利要求4所述的基于LSTM神经网络模型的优化预测PM2.5的方法，其特征在于，在所述步骤2之前，还包括：

W_l＝Softmax(P_l)*P_l

8.根据权利要求1所述的基于LSTM神经网络模型的优化预测PM2.5的方法，其特征在于，所述步骤4还包括：

采用均方误差作为LSTM神经网络模型的损失函数。

9.一种基于LSTM神经网络模型的优化预测PM2.5的装置，其特征在于，包括：

10.根据权利要求9所述的一种基于LSTM神经网络模型的优化预测PM2.5的装置，其特征在于，还包括：

W_l＝Softmax(P_l)*P_l