CN109142171B

CN109142171B - 基于特征扩张的融合神经网络的城市pm10浓度预测方法

Info

Publication number: CN109142171B
Application number: CN201810622784.XA
Authority: CN
Inventors: 张波; 雍睿涵; 李美子; 倪琴
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2021-08-03
Anticipated expiration: 2038-06-15
Also published as: CN109142171A

Abstract

本发明涉及一种基于特征扩张的融合神经网络的城市PM10浓度预测方法，包括：步骤S1：基于特征扩张的栈式自编码器和LSTM网络，构建城市PM10浓度预测的模型；步骤S2：从污染物和气象的监测数据中选择训练数据和测试数据；步骤S3：利用训练数据对基于特征扩张的栈式自编码器进行训练；步骤S4：基于高斯函数对栈式自编码器的输出的特征向量进行处理，为不同城市的特征向量计算相应的影响权重，加权求和得到新的特征向量；步骤S5：将新的特征向量输入到LSTM中，进行模型的整体训练；步骤S6：将测试数据输入训练好的模型，衡量测试数据产生的预测结果的误差；步骤S7：将训练和微调好的模型用于空气污染物浓度预测。与现有技术相比，本发明具有预测准确等优点。

Description

基于特征扩张的融合神经网络的城市PM10浓度预测方法

技术领域

本发明涉及一种PM10浓度预测方法，尤其是涉及一种基于特征扩张的融合神经网络的城市PM10浓度预测方法。

背景技术

空气污染是日常生活中被广泛关注的问题，并且随着空气污染问题日益严重，空气污染物的种类日益繁多，空气污染物的形成和扩散的方也式愈加复杂，污染物浓度的预测不再是单点性的，而是具有动态的、区域联动性的。所以在当前形式下，为了做出更为精确的污染物浓度预测，预防重污染事件的发生，提升环境管理和决策水平，应充分利用监测到的污染物和气象大数据，充分挖掘和学习数据特征，并且充分考虑污染物浓度的关联性。

空气污染物浓度预测是学术界研究的热点问题之一，目前的研究成果包括以唐晓等为代表的基于数值统计的方法，建立目标污染物浓度与其他污染物浓度之间的关系；MDong等为代表的基于概率分布的方法，将时间因素加入了模型训练，运用半隐马尔科夫法为不同浓度级别的PM2.5都训练出对应的模型；Balachandran等为代表的基于传统机器学习的方法，以历史的气象和污染物浓度数据为训练集和测试集，以BP神经网络为预测模型，建立空气污染物浓度预测体系。这些方法在以往环境形势简单，数据规模较小的情况下，发挥了长足的优势，然而在面临着海量污染物数据和气象数据的情况下，这些方法缺乏对数据特征的深度分析，无法充分学习数据特征，挖掘数据联系，同时，这些方法将污染物浓度变化视为离散型事件，不考虑且不能进行时间和空间上的关联分析，从而无法进行精确的污染物浓度预测。

另一方面，考虑到用于空气污染物浓度预测的完备数据集较难获得，大部分存在特征缺失和特征维度不足的情况，导致预测模型无法充分学习数据特征和挖掘数据间的联系，从而无法做出准确的预测。目前学术界极少存在预测模型中对特征维度进行扩充的技术研究，然而这种技术对处理特征维度不足的问题十分有效。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于特征扩张的融合神经网络的城市PM10浓度预测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于特征扩张的融合神经网络的城市PM10浓度预测方法，包括：

步骤S1：基于特征扩张的栈式自编码器和LSTM网络，构建城市PM10浓度预测的模型；

步骤S2：针对所构建的模型，从污染物和气象的监测数据中选择训练数据和测试数据；

步骤S3：利用训练数据对基于特征扩张的栈式自编码器进行训练；

步骤S4：基于高斯函数对栈式自编码器的输出的特征向量进行处理，为不同城市的特征向量计算相应的影响权重，加权求和得到新的特征向量；

步骤S5：将所述新的特征向量输入到LSTM中，进行模型的整体训练；

步骤S6：将测试数据输入训练好的模型，衡量测试数据产生的预测结果的误差，若误差超过阈值，则返回步骤S2，反之，则执行步骤S7；

步骤S7：将训练和微调好的模型用于空气污染物浓度预测。

所述模型包括：

基于特征扩张的栈式自编码器，用于接收输入数据，进行特征维度扩充，挖掘和提取输入数据的重要特征；

基于高斯函数的中间过程处理模块，用于为栈式自编码器输出的特征向量计算相应的影响权重，并将其与原输出加权求和形成新的特征向量；

LSTM网络：用于接收栈式自编码器和中间过程处理模块处理后产生的新的输出，提取时间序列特征，产生最终预测结果。

所述基于特征扩张的栈式自编码器，设有3层自编码器，每层的节点数分别为64个、128个和256个；所述LSTM网络为单层，神经元数量为128个。

所述步骤S2具体包括：

步骤S21：按照设定比例从污染物和气象的监测数据中选取训练数据和测试数据，并对选取的数据进行归一化的预处理，归一化处理后的数据为：

其中：x'为归一化处理后的数据，μ为原始数据均值，σ为原始数据标准差，x为归一化处理前的数据；

步骤S22：设置模型的误差阈值，将输入的训练数据的污染物数据和气象数据转化为二维矩阵，其中，矩阵的每一行为一个站点的各污染物信息和气象信息，每一列为指定的污染物信息或者指定的气象信息；

步骤S23：将输入特征从二维矩阵拉平成用于输入到栈式自编码器中的一维向量。

所述步骤S3具体包括：

步骤S31：将被拉平成一维向量的多个城市的输入特征输入到栈式自编码器，以单独对栈式自编码器进行训练；

步骤S32：栈式自编码器通过逐渐增加每层的节点数实现对输入特征的维度扩充，挖掘特征信息，并将训练之后产生的参数值和偏差值作为下一步模型整体训练时的初始值，其中损失函数采用如下重构误差：

其中：y为模型训练后的最终输出，J(θ)为x，y的重构误差，θ为网络的参数集合，L(·)表示损失函数，D(·)为栈式自编码器的解码函数，E为栈式自编码器的编码函数，N为预测所用的历史数据总时长，i为样本序号。

所述步骤S4具体包括：

步骤S41：基于(t-D,…,t)时间段每个城市产生的D个不同的一维输出向量，根据每个周边城市和目标城市之间的距离为它们计算相应的影响权重：

e＝A*exp(-B)

其中：e为每个城市的影响权重，A为幅值，exp(·)为以自然常数为底的指数函数，B为自然对数的指数，σ_jd为经度样本的方差，σ_wd为纬度样本的方差，(jd,wd)为周边城市各个观测站点的经纬度，(jd₀,wd₀)为待预测的目标城市的中心点的经纬度；

步骤S42：根据得到的影响权重将得到的多个城市的向量融合成新的特征向量，作为LSTM网络的输入：

In＝e₁*out₁+e₂*out₂+...+e_n*out_n+out_target

其中：In为融合结果，out₁,out₂,out₃,...,out_n,out_target为周边城市和目标城市个城市的数据通过栈式自编码器产生的输出。

所述步骤S5具体为：

将训练好的栈式自编码器和未训练的LSTM结合，以中间处理的结果为LSTM的输入，进行整个模型的训练，整个模型训练的损失函数为：

其中：

为训练阶段的损失函数，λ为非负超参数，

为网络中连接权值的集合，ζ为比例参数；

所述步骤S6具体包括：

步骤S61：将测试数据输入训练好的模型，得到预测结果，

步骤S62：将测试的预测结果与观测值作对比，运用相关系数和平均绝对误差衡量模型误差，若预测结果与观测值的误差在预先设定的阈值内，则执行步骤S7，否则返回步骤S2。

所述相关系数为：

其中：r(O,P)为观测值和预测值的相关系数，Cov(O,P)为观测值和预测值的协方差，Var[O],Var[P]分别是观测值和预测值的方差。

其特征在于，所述平均绝对误差为：

其中：MAE为平均绝对误差，i为时间序号，N为预测的总时长，P为预测值，O为观测值。

与现有技术相比，本发明具有以下有益效果：

1)并未将污染物的预测工作仅仅依赖于大量历史数据总结出的经验和历史经验归纳污染物的变化规律，从而能够充分考虑大气环境复杂多变这一问题。

2)能够进行空气污染物浓度的联动性分析，不会忽略污染物浓度的时间和空间关联，能够很好地建立过去时间和未来时间的污染物浓度的联系，也能够很好地建立城市间污染物浓度的联系。

3)有效解决了有关污染物浓度预测的数据集经常出现的不完备、特征维度不足的情况，有利于预测模型充分学习数据特征，做出更精确的预测。

附图说明

图1为本发明方法的主要步骤示意图；

图2为本发明实施例的流程示意图；

图3为本发明针对两种栈式自编码器的比较；

图4为本发明所构建的预测模型的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

首先对空气污染物浓度预测进行定义：

定义1空气污染物浓度预测：主要是通过历史污染物和气象信息，对PM2.5、PM10等一系列空气污染在未来一定时间内的浓度进行预测，是环境科学、气象科学、计算机科学等都在重点研究的课题之一，因而具有一定的学科交叉性。

定义2传统预测法：非深度学习的空气污染物浓度预测方法统称为传统的预测方法，如基于历史数据和统计学方法的经验模型的预测；基于统计学和数学方法或模型建立概率模型的预测；利用综合方法的预测；以及基于传统机器学习建立的预测模型等，均属于传统预测法。

一种基于特征扩张的融合神经网络的城市PM10浓度预测方法，如图1～图3所示，包括：

具体的，基于深度学习原理，利用一种可以进行特征扩充的栈式自编码器及LSTM的融合神经网络，加入了中间过程处理步骤，构建城市PM10浓度预测的模型。具体的：基于深度学习原理和基于特征扩充的栈式自编码器及LSTM网络的特点，根据环境监测各类污染物浓度和气象因子的数据，以PM10为预测的目标污染物，构建城市PM10浓度预测的模型，模型以栈式自编码器为底层，挖掘和提取输入数据重要特征；基于高斯函数的中间过程处理将空间联系纳入预测体系，其结果作为高层LSTM的输入，提取时间序列特征，产生最终预测结果。

如图4所示，模型包括：利用特征扩充的栈式自编码器网络，用于接收输入数据，增加特征维度，挖掘输入特征的隐含联系并提取重要特征；基于高斯函数的中间过程处理模块，栈式自编码器的输出结果和高斯函数计算的影响权重进行加权求和，产生新的结合了空间关联的输入特征；LSTM网络，用于接收纳入了空间关联的输入特征，提取时间序列特征，产生最终预测结果。

步骤S2：针对所构建的模型，从污染物和气象的监测数据中选择训练数据和测试数据，具体包括：

步骤S21：按照设定比例从污染物和气象的监测数据中选取训练数据和测试数据，并对选取的数据进行归一化的预处理，归一化处理后选取Z-score标准化方法：

其中：x'为归一化处理后的数据，μ为原始数据均值，σ为原始数据标准差，x为归一化处理前的数据，经过处理的数据皆符合μ＝0，σ＝1的标准正态分布；

步骤S22：设置模型的误差阈值，将输入的训练数据的污染物数据和气象数据转化为二维矩阵，其中，矩阵的每一行为一个站点的各污染物信息和气象信息，每一列为指定的污染物信息或者指定的气象信息，

合理设置模型的误差阈值，取值范围在0.001-0.00001之间，学习速率在0.01-0.1之间取值，最大迭代次数为1000次，LSTM的自循环系数取0.001，λ取1e-4，ζ取0.9。对于栈式自编码器，设置为三层自编码器堆栈而成，每层的节点数分别为64个、128个和256个，LSTM网络为单层，神经元数量为128。

对于栈式自编码器，其训练阶段的重构损失函数如下：

其中：J(θ)为x，y的重构误差，θ为网络的参数集合，L(·)表示损失函数，y为模型训练后的最终输出，D(·)为栈式自编码器的解码函数，E为栈式自编码器的编码函数，N为预测所用的历史数据总时长，i为样本序号，可以理解为某一时刻，定义X为输入向量，经过栈式自编码器编码后得到压缩后的数据特征h，Y是h解码后的结果，在本文中可以理解为某一时刻，N是预测所用的历史数据总时长。

步骤S3：利用训练数据对模型进行训练，首先是单独对栈式自编码器的预训练，将S2中数据预处理得到的多个城市的具有时间序列性的一维向量输入到栈式自编码器，对栈式自编码器进行训练，同时通过栈式自编码器，实现对输入特征的维度扩充。不同于常规的对特征进行压缩的栈式自编码器，该栈式自编码器采用编码的方式增加特征维度，对比如图3所示。其训练的过程同常规的自编码器一致。

具体包括：

步骤S31：将被拉平成一维向量的多个城市的输入特征输入到栈式自编码器，以单独对栈式自编码器进行训练，具体为无监督的预训练，栈式自编码器的每一隐藏层都以贪婪学习的方式逐层训练。输入层X通过编码得到隐藏层h，输出层Y是h解码后的结果，Y期望与X尽可能相等，则可以得到X和h之间的连接权重和偏差值，通过最小化X和Y的重构误差以达到调整和优化权重和偏差的目的。

对于从X到h的过程，可以表示为：

h＝σ(W₁x+b₁)

其中，W₁和b₁为输入层到第一层隐藏层的连接权重和偏差值。

对于从h到Y的过程，可以表示为：

h＝σ(W₂x+b₂)

其中，W₂和b₂为输入层到第一层隐藏层的连接权重和偏差值。

接着，第一层训练好的隐藏层h被用来训练第二层隐藏层，训练方式同上。输入层X在训练第二层隐藏层时不会起到任何作用，所以在该阶段会被移出训练过程。重复上述预训练步骤直至三层自编码器均被训练好，同时每一层的参数也被确定下来。

步骤S32：栈式自编码器通过逐渐增加每层的节点数实现对输入特征的维度扩充，挖掘特征信息，并将训练之后产生的参数值和偏差值作为下一步模型整体训练时的初始值。

具体的，对于模型，其训练阶段的损失函数如下：

其中：

为训练阶段的损失函数，λ为非负超参数，

为网络中连接权值的集合，ζ为控制L1，L2 penalty使用的比例参数，ζ∈(0,1)。

函数设置为均方根误差和正则项之和。训练阶段的损失函数前半部分为栈式自编码器的重构误差；后半部分引入Elastic Net算法进行正则化约束。

具体的，进行有监督的微调。定义X为输入向量，经过栈式自编码器编码后得到压缩后的数据特征h，Y是h解码后的结果，θ是网络的参数集合。L表示损失函数，i是样本序号，在本文中可以理解为某一时刻，N是预测所用的历史数据总时长。E代表栈式自编码器的编码过程，D代表解码过程。

L表示损失函数，i是样本序号，在本文中可以理解为某一时刻，N是预测所用的历史数据总时长。训练后得到的参数和偏差值作为网络训练时的初始参数，训

练时更新参数方式如下：

以上是对栈式自编码器的训练，这一阶段输入的二维矩阵中，主要包括以下因子{PM2.5浓度，温度，风速，风向，湿度，降水量，其他污染物浓度，站点}，将输入的二维矩阵拉平成一维输入向量，输入到栈式自编码器中，通过逐渐进行特征维度的扩张，挖掘到隐藏的数据特征及特征间的联系。栈式自编码器以贪心算法为核心，通过设定输出尽可能等同于输入，并进行误差反向传播，逐层训练，最后进行以重构误差为基准的全局的有监督的微调。栈式自编码器训练之后产生的参数值和偏差值作为下一步模型整体训练时的初始值。

步骤S4：对栈式自编码的输出的中间结果的处理，纳入污染物浓度的空间关联性。栈式自编码器的最终输出为多个城市的更高的、具有更多信息的特征向量，这些向量可以精确地表示低维度的输入矩阵。有多少种时间序列的输出取决于采用了多少个周边城市的数据。这些输入矩阵分别输入栈式自编码器进行训练，网络充分学习每个城市的数据特征。考虑到污染物的空间关联性，城市间的污染物相互影响程度取决于彼此之间的距离，栈式自编码器输出的多个城市的一维向量会通过高斯函数计算出的影响权重合并成一个输入向量。加强空间关联，避免对矩阵进行处理的复杂性。具体包括：

e＝A*exp(-B)

其中：e为每个城市的影响权重，A为幅值，exp(·)为以自然常数为底的指数函数，B为自然对数的指数，σ_jd为经度样本的方差，σ_wd为纬度样本的方差，(jd,wd)为周边城市各个观测站点的经纬度，(jd₀,wd₀)为待预测的目标城市的中心点的经纬度，B和e都将会有不同的值，记作e₁，e₂，…，e_n。

高斯函数本身具有一个特性使其适合处理此类问题：当两点距离为0时，计算所得权重为1；当两点距离逐渐增大时，权重逐渐趋向于0。

In＝e₁*out₁+e₂*out₂+...+e_n*out_n+out_target

步骤S5：将新的特征向量输入到LSTM中，进行模型的整体训练，具体为：

其中：

为训练阶段的损失函数，θ为前一阶段训练好的参数集合，λ为非负超参数，

为网络中连接权值的集合，ζ为比例参数；

对于LSTM，具体训练过程如下：

A)LSTM的遗忘门首先选择性遗忘部分历史污染物数据和气象信息，f为遗忘门的输出：

f_t＝σ(W_f[h_t-1,x_t]+b_f)

B)更新单元的状态信息，i为更新的新信息，C’为新的候选向量值，单元C的状态可以按如下步骤更新：

C)在过去的信息更新完毕后，即可得到PM10的预测值，在(8)中用o_t表示，隐藏单元的信息也在C_t的基础上进行更新：

LSTM输出的时间序列预测值为最终结果。在整个模型使用随机梯度下降法的fine-tuning阶段，排除深层神经网络训练时易产生过拟合问题的影响。本发明使用结合了Ridge Regression和Lasso法优势的Elastic Net算法进行L1和L2正则化约束，通过误差反向传播的方式计算误差函数对网络全部权重和偏置值的梯度进行更新，避免过拟合问题，损失函数设置如下：

训练过程持续至模型的性能符合期望。模型训练结束后，各连接权值和参数也随之确定。

步骤S6：将测试数据输入训练好的模型，衡量测试数据产生的预测结果的误差，若误差超过阈值，则返回步骤S2，反之，则执行步骤S7，具体包括：

步骤S61：将测试数据输入训练好的模型，得到预测结果，