CN109492822A

CN109492822A - 空气污染物浓度时空域关联预测方法

Info

Publication number: CN109492822A
Application number: CN201811411040.XA
Authority: CN
Inventors: 张波; 邹国建; 李美子; 倪琴
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University; University of Shanghai for Science and Technology
Priority date: 2018-11-24
Filing date: 2018-11-24
Publication date: 2019-03-19
Anticipated expiration: 2038-11-24
Also published as: CN109492822B

Abstract

本发明涉及一种空气污染物浓度时空域关联预测方法，包括：步骤S1：以PM2.5为样例的目标污染物预测，构建基于残差网络和卷积LSTM网络预测模型；步骤S2：从环境监测数据中选择合适的训练和测试数据，完成对预测模型的初始化；步骤S3：对预测模型逐阶段进行训练，得到能够对PM2.5进行精确预测的神经网路预测模型；步骤S4：利用验证集选择模型的超参数(层数、节点数、学习率)，直至模型最优；步骤S5：利用验证后的预测模型进行城市PM2.5预测。与现有技术相比，本发明使用卷积LSTM网络为中间层，实现对底层ResNet网络提取到的空间特征进行深层次时空关联特征提取，从而提升网络模型的预测性能，使用全连接层接收卷积LSTM的隐藏状态，产生最终的预测结果。

Description

空气污染物浓度时空域关联预测方法

技术领域

本发明涉及一种城市空气污染物浓度预测方法，尤其是涉及一种空气污染物浓度时空域关联预测方法。

背景技术

近年来，空气污染问题的日益严重引发了全世界的广泛关注。以PM2.5与PM10等污染物给人们的生活健康带来巨大的影响。空气污染问题日益突出，空气污染分析和预测具有复杂性和动态性，涉及多部门、多地区和多领域，对空气污染进行准确的预测，需要处理大量与之相关的环境数据和环境信息。各类机构重视并聚焦于空气污染的应对与处理能力的提升，其中空气污染预测技术是目前关注的焦点问题之一。目前，深度学习技术为代表的新型人工智能技术，为综合利用空气污染海量监测数据实现高精度预测提供了新的技术支撑。因此，如何借助深度学习技术，实现空气污染预测技术的性能提升，是目前环境污染现状下我们所要解决的一个问题。

传统的空气污染物浓度预测技术主要以数值预测为关键手段，可以借助过往历史污染浓度数据实现对未来污染状态的预测分析。大多传统的空气污染物浓度数值预测模型，主要包括：基于假设理论和先验知识的确定性模型；基于数理统计的模型；基于小样本数据的传统机器学习的模型等。这些模型主要的优点在于计算复杂度低、计算速度快、易于实现。然而，面对空气污染数据维度高、影响因素多样性高、污染检测数据海量化等情况，传统数值分析模型遇到了以下关键难题：(1)分析模型采用的数据源过于单一，大多仅建立在污染数据单一集合上面，缺乏对其他环境因素，如天气数据的综合考虑；(2)在空间维度和时间维度上，传统模型缺乏对污染数据内部时空关联特征的挖掘能力，无法实现数据内部深层次联系提取和应对突变天气环境带来的影响；(3)模型的大规模数据运用能力有限，很难从大数据的角度挖掘出污染物的时空相关性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种空气污染物浓度时空域关联预测方法。

本发明的目的可以通过以下技术方案来实现：

一种空气污染物浓度时空域关联预测方法，包括：

步骤S1：根据环境监测各类污染物浓度和气象因子的数据及时空分布特点，以PM2.5为样例的目标污染物预测，构建基于残差网络和卷积LSTM网络的预测模型；

步骤S2：从环境监测数据中选择合适的训练和测试数据，完成对预测模型的初始化；

步骤S3：对预测模型逐阶段进行训练，得到能够对PM2.5进行精确预测的神经网路预测模型；

步骤S4：利用验证集选择模型的超参数，直至模型最优；

步骤S5：利用验证后的预测模型进行城市PM2.5预测。

所述预测模型包括：

底层，由ResNet组成，用于压缩和提取输入数据空间关联特征，并以三维特征序列形式输出；

高层，由Convolutional LSTM组成，用于基于三维特征序列产生最终预测序列。

所述步骤S2中模型初始化过程包括：

步骤S21：对选取的监测数据进行归一化的预处理，并将数据集按照70％，15％，15％的比例划分训练集、验证集和测试集；

步骤S22：设置模型的误差阈值，将训练集的污染物数据和气象数据转化为二维矩阵输入模型。

ResNet网络的卷积层数取为9层，卷积核的尺寸为3x3，Convolutional LSTM网络为单层，全连接层的每层神经元数量分别为256和64。

对于ResNet网络，定义其训练阶段的损失函数为均方根误差函数：

其中：RMSE为均方根误差函数，y_i为污染物浓度的观测值，p_i为污染物浓度的预测值，n为预测序列的长度；

对于整个预测模型，定义其训练阶段的损失函数为：

其中：为整个预测模型训练阶段的损失函数，λ为非负参数，ζ为控制L1，L2使用比例的参数，为网络中几种连接权值的集合。

所述步骤S3具体包括：

步骤S31：将被转化成二维矩阵的输入特征输入到ResNet中对ResNet进行训练，以ResNet网络训练阶段的损失函数衡量预测的准确性，直至误差小于设定阈值；

步骤S32：基于训练集数据对整个预测模型进行训练。

所述步骤S31中，ResNet网络训练阶段输入的二维矩阵中，包括以下因子：PM2.5浓度，温度，风速，风向，湿度，降水量，其他污染物浓度，站点。

所述步骤S31中，ResNet的内部结构是以重构单元为单位对传统CNN重构，每一层的重构单元为三层的卷积层，每一个重构单元的输入为上一个重构单元的输入和输出的和，其中，输入和输出的和表示输入和输出特征图中每个对应通道的特征值相加过后得到的新的特征图。

所述步骤S32中训练过程具体包括：

步骤S321：ConvLSTM对ResNet输出的信息进行选择性遗忘；

步骤S322：ConvLSTM选择输入信息中用来更新状态单元的的信息；

步骤S323：将旧的单元状态更新为新的单元状态；

步骤S324：基于新的单元状态确定输出信息输出提取的最终时空序列特征。

与现有技术相比，本发明具有以下有益效果：

1)RCL-Learning采用残差网络ResNet作为模型底层，实现多城市监测站点数据的空间特征提取，同时避免梯度消失或梯度爆炸问题，消除深层网络的退化问题。

2)RCL-Learning在底层上方采用Convolutional LSTM，既通过ConvolutionalLSTM获得时间序列预测的性能优点，同时避免梯度消失问题，从而实现提取残差网络层输出的高维度数据中所隐含高层特征，达到挖掘数据时空相关性目标。

3)RCL-Learning可同时应用多城市站点天气和污染多类别监测数据，满足环境监测大数据的综合利用，同时兼顾数据时空分布变化和分布规律，实现对目标城市空气污染物浓度预测。

附图说明

图1为本发明的主要步骤流程示意图；

图2为本发明实施例中的流程示意图；

图3为本发明的底层结构，用于提取数据空间特征；

图4为本发明的中间层架构，用于提取数据时空特征；

图5为本发明所构建的预测模型的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本申请首先对空气污染物浓度预测进行定义：

定义1空气污染物浓度预测：主要是通过历史污染物和气象信息，对PM2.5、PM10等一系列空气污染在未来一定时间内的浓度进行预测，是环境科学、气象科学、计算机科学等都在重点研究的课题之一，因而具有一定的学科交叉性。

定义2传统预测法：非深度学习的空气污染物浓度预测方法统称为传统的预测方法，大多传统的空气污染物浓度数值预测模型，主要包括：基于假设理论和先验知识的确定性模型；基于数理统计的模型；基于小样本数据的传统机器学习的模型等，均属于传统预测法。

一种空气污染物浓度时空域关联预测方法，如图1和图2所示，包括：

步骤S1：基于深度学习原理和ResNet及Convolutional LSTM网络的特点，根据环境监测各类污染物浓度和气象因子的数据，以PM2.5为预测的目标污染物，构建城市PM2.5浓度预测的模型，如图3和图4所示，模型以ResNet为底层，深层次提取输入数据空间关联特征；其结果作为高层Convolutional LSTM的输入，提取时空关联特征，并将该层网络的最终隐藏状态输入到全连接层产生预测结果；

如图4所示，ResNet的预训练优先于整个模型的训练，并通过反向传播算法进行误差传递和网络连接权值的更新；将训练好的ResNet加入整个模型进行训练。输入的二维矩阵序列经过ResNet的重构单元的卷积产生的是多个具有时间序列的特征图，特征图按照时间序列顺序依次输入到Convolutional LSTM中，进行空间关联和时间序列特征的提取，并输出最终的隐藏状态，全连接层接收隐藏状态并产生预测结果，得到PM2.5在未来一定时间段的浓度值。SGD表示随机梯度下降法，用来将误差反向传播到整个模型，更新各层节点之间的连接权值。

步骤S2：根据构建的融合神经网络预测模型的特点，从海量环境监测数据中选择合适的训练和测试数据，完成对预测模型的初始化。

对于收集的数据首先第一步需要做的是数据的预处理工作，数据的空值填充增强模型的鲁棒性，本发明选取均值填充方法：

方法中j表示一个站点，M^j表示数据集中站点j某一空气污染物浓度值的非空集合长度，为非空集合中的浓度值，为填充值。

对用于建模的数据进行归一化处理，提高模型的训练速度和预测精度，本发明中选取的标准化方法为：

给予原始样本数据均值和标准差，分别用μ和σ表示，经过处理的数据皆符合μ＝0，σ＝1的标准正态分布。

将数据集按照70％，15％，15％的比例划分训练集、验证集和测试集，以选取最优预测模型。

合理设置模型的误差阈值，取值范围在0.001-4.5之间，学习速率在0.0005-0.02之间取值，最大epoch设置为100次，λ取1e-4，ζ取0.9。对于ResNet网络，每个重构单元的卷积层数设置为3，ResNet网络的层数设置为9层，Convolutional LSTM网络为单层卷积的循环体结构，卷积核的尺寸为3x3。

将输入的训练集的污染物数据和气象数据转化为二维矩阵，矩阵的每一行对应的列值为一个城市所有站点的特定污染物信息或者特定气象信息的平均值(如对应的是A城市每一时刻CO的平均值＝A城市所有监测站点CO浓度的和/A城市监测站点数)。

对于ResNe网络，定义其训练阶段的损失函数如下：

对于整个模型，定义其训练阶段的损失函数如下：

函数设置为均方根误差和正则项之和。上式中，前半部分为均方根误差；后半部分引入正则化约束，λ为一个非负参数，表示网络中几种连接权值的集合，ζ为控制L1，L2使用比例的参数，ζ∈(0,1)。损失函数将计算出的误差通过反向传播分摊到网络各层，同时采用随机梯度下降算法来调整网络中的权重直至损失函数收敛。

步骤S3：对预测模型逐阶段进行训练，得到能够对PM2.5进行精确预测的神经网路预测模型，

首先，对模型的初始化过程如下：

X＝(X₁,...,X_t,...,X_r)

OUT_t＝φ(X_t)

L＝g((OUT₁,...,OUT_t,...,OUT_r))

P＝f(L)

假设其中X，表示的是输入的时间序列矩阵，X_t表示每一时刻输入到ResNet网络层中的二维数据矩阵，OUT_t表示ResNet网络每一时刻的输出三维特征，L为ConvolutionalLSTM输出的最终隐藏状态，P表示当全连接层接收Convolutional LSTM隐藏状态后产生的预测序列。

整个预测模型的训练可以具体分为以下两步，具体包括：

步骤S32：基于训练集数据对整个预测模型进行训练。

对ResNet的训练中，将被转化成二维矩阵的输入特征输入到ResNet中。ResNet的内部结构是以重构单元为单位对传统CNN重构，每一层的重构单元为三层的卷积层，每一个重构单元的输入为上一个重构单元的输入和输出的和(和：表示输入和输出特征图中每个对应通道的特征值相加过后得到的新的特征图)。卷积层的卷积核对该特征矩阵进行学习，经过ResNet中的每个重构单元卷积后，将得到的N个特征图和重构单元的输入特征做加法(如上)操作，作为下一个重构单元的输入。训练过程如下函数所示：

F(X):＝H(X)-X

其中H(X)就是对重构单元进行映射关系的拟合，X为重构单元的输入。我们把每个重构单元定义为:

H(X)＝F(X,{W})+W_s*X

其中F(X,{W})为学习到的残差映射即重构单元的输出，F(X,{W})可以用训练过程的函数表示(W_s*X为卷积运算、b_i为偏置项、σ为ReLU函数)，F和X加法运算是各个通道中两个特征图的对应元素相加，W_s用来解决X与F(X,{W})的维数匹配问题，“*”表示卷积运算。

F(X,{W})＝σ(W*X+b)

通过对模型的训练，H(X)＝F(X,{W})+W_s*X中残差函数F(X,{W_i})的值会渐进逼近于0，从而F(X):＝H(X)-X可以近似表示为H(X)＝X的恒等映射直至整个模型收敛。假设输入序列为X＝(X₁，X₂，...，X_t，...，X_r)，残差网络每一时刻的输出值OUT_t可以通过下式得到，然后将输出的值输入到全连接层。

Out_t＝φ({H₁(X_t),...,H_k(X_t),...,H_m(X_t)})

在上式中，m表示为网络重构单元的个数，X_t为t时刻输入值，H_k(X_t)为每个重构单元的输出，φ为整个ResNet的计算函数。

这一阶段输入的二维矩阵中，主要包括以下因子{PM2.5浓度，温度，风速，风向，湿度，降水量，其他污染物浓度，站点}，以损失函数衡量预测的准确性，采用反向传播算法，将ResNet所有重构单元的权重进行更新，优化网络预测性能，减少预测值和观测值之间的误差。当网络符合期望后，停止第一阶段网络的训练，进入第二阶段的训练。

对于整个模型的训练，二维输入矩阵经ResNet压缩和特征提取后转化为的高度浓缩化的具有时序性的二维矩阵作为Convolutional LSTM层的输入，模型具有时间序列预测的功能，将r小时内污染物与气象数据的值X＝(X₁,...,X_t,...,X_r)作为整个模型的输入，预测的目标是未来n小时内的PM2.5的浓度值。假设X_t为t时刻的输入，W为过滤器，b为偏置，‘*’为卷积运算，为哈达玛积，Convolutional LSTM的训练过程如下：

a.Convolutional LSTM对t时刻ResNet输出的信息进行选择性的遗忘；

f_t＝σ(W_f*X_t+W_f*H_t-1+W_f*C_t-1+b_f)

b.决定在单元状态中储存新的信息，该信息来自两部分，“输入门限”的sigmoid层决定更新的信息，tanh层创建新的候选值向量，

i_t＝tanh(W_i*X_t+W_i*H_t-1+W_i*C_t-1+b_i)

c.Convolutional LSTM利用f_t、和i_t计算结果来更新状态单元，

d.Convolutional LSTM最后决定输出隐藏状态的信息，即为提取的最终时空序列特征，

O_t＝σ(W_o*X_t+W_o*H_t-1+W_o*C_t-1+b_o)

Convolutional LSTM输出的隐藏状态经过全连接层产生预测序列，输出最终结果。在整个模型使用随机梯度下降法的微调阶段，为排除深层神经网络训练时易产生过拟合问题的影响，本发明采用L1和L2正则化约束，通过误差反向传播的方式计算误差函数对网络全部权重和偏置值的梯度进行更新，训练过程持续至模型的性能符合期望。模型训练结束后，各连接权值和参数也随之确定并且持久化。

步骤S4：利用验证集选择模型的超参数，直至模型最优；

此外，对于测试集，输入模型得到的预测结果，与观测值作对比，运用相关系数和平均绝对误差，均方根误差和运行时间来衡量模型误差和预测性能。公式分别如下式所示：

上式中，Corr为观测值和预测值的相关系数，为观测值和预测值的协方差，Var[y]和分别是观测值和预测值的方差。

其中y为观测值，为预测值，s为测试样本容量，MAE为平均绝对误差，RMSE为均方根误差。

若计算所得的真实值与观测值的误差在预先设定的阈值内，且优于传统预测方法在同等情况下的预测结果，则说明模型满足预期，可以用于预测未来一定时间内的城市PM2.5的浓度。

对训练所得的预测模型进行性能评估。经实验分析和对比，相比于其他已有的方法，在相同情况下，本发明的模型能够产生精确度更高的结果，且能够充分利用海量的污染物和气象数据，以及结合数据的时空特性来做预测。

步骤S5：利用验证后的预测模型进行城市PM2.5预测。

述，本发明所构建的基于ResNet和Convolutional LSTM融合神经网络的预测模型是建立在已存在的两种深度神经网络的研究上的，利用两种网络的特点和优势，建立一种可以预测目标城市未来一定时间内的PM2.5浓度的模型。所使用的损失函数也为以往的研究中存在的，且被证明可以很好地衡量结果准确性。所以本发明针对以往的预测污染物浓度的方法的不足，充分利用了已存在的研究成果，提出了基于两种深度神经网络融合的预测模型。该模型以ResNet为底层，对输入数据进行空间关联特征的提取，其输出结果作为高层Convolutional LSTM网络的输入，提取污染物的时空关联特征，可以充分考虑到污染物的时间和空间的关联性，得到更为精确的预测结果，因而具有实际性的应用前景。

Claims

1.一种空气污染物浓度时空域关联预测方法，其特征在于，包括：

步骤S4：利用验证集选择模型的超参数，直至模型最优；

步骤S5：利用验证后的预测模型进行城市PM2.5预测。

2.根据权利要求1所述的一种空气污染物浓度时空域关联预测方法，其特征在于，所述预测模型包括：

3.根据权利要求1所述的一种空气污染物浓度时空域关联预测方法，其特征在于，所述步骤S2中模型初始化过程包括：

4.根据权利要求3所述的一种空气污染物浓度时空域关联预测方法，其特征在于，ResNet网络的卷积层数取为9层，卷积核的尺寸为3x3，Convolutional LSTM网络为单层，全连接层的每层神经元数量分别为256和64。

5.根据权利要求4所述的一种空气污染物浓度时空域关联预测方法，其特征在于，对于ResNet网络，定义其训练阶段的损失函数为均方根误差函数：

对于整个预测模型，定义其训练阶段的损失函数为：

6.根据权利要求5所述的一种空气污染物浓度时空域关联预测方法，其特征在于，所述步骤S3具体包括：

步骤S32：基于训练集数据对整个预测模型进行训练。

7.根据权利要求6所述的一种空气污染物浓度时空域关联预测方法，其特征在于，所述步骤S31中，ResNet网络训练阶段输入的二维矩阵中，包括以下因子：PM2.5浓度，温度，风速，风向，湿度，降水量，其他污染物浓度，站点。

8.根据权利要求6所述的一种空气污染物浓度时空域关联预测方法，其特征在于，所述步骤S31中，ResNet的内部结构是以重构单元为单位对传统CNN重构，每一层的重构单元为三层的卷积层，每一个重构单元的输入为上一个重构单元的输入和输出的和，其中，输入和输出的和表示输入和输出特征图中每个对应通道的特征值相加过后得到的新的特征图。

9.根据权利要求6所述的一种空气污染物浓度时空域关联预测方法，其特征在于，所述步骤S32中训练过程具体包括：

步骤S321：ConvLSTM对ResNet输出的信息进行选择性遗忘；

步骤S323：将旧的单元状态更新为新的单元状态；