CN112766454A

CN112766454A - 一种空气pm2.5浓度预测方法、系统、终端及存储介质

Info

Publication number: CN112766454A
Application number: CN202011405598.4A
Authority: CN
Inventors: 李继明; 程学珍; 赵猛; 许传诺; 李靖宇
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-05-07
Anticipated expiration: 2040-12-04
Also published as: CN112766454B

Abstract

本发明提供一种空气PM2.5浓度预测方法、系统、终端及存储介质，均可进行：原始数据获取：得到原始数据集；缺失数据处理：基于删除和填充法修复缺失数据得到修复原始数据集；延时分析：得到过去24小时前P小时内各污染物及气象特征与PM2_5在过去2×P小时内的特征数据的时移Pearson结果；构建特征矩阵：以污染物及气象特征中的所有特征为列，利用污染物及气象特征中每一个特征在修复原始数据集中的特征数据及上述得到的所有时移Pearson结果构建初始矩阵，基于初始矩阵获取特征矩阵；PM2.5浓度预测：将所构建的特征矩阵输入SPP‑LSTM神经网络进行计算，从输出结果中读取得到未来1小时空气中PM2.5的浓度。本发明用于提高空气PM2.5浓度预测精度，用于增加对输入特征的适应能力。

Description

一种空气PM2.5浓度预测方法、系统、终端及存储介质

技术领域

本发明涉及空气污染物浓度预测领域，具体涉及一种空气PM2.5浓度预测方法、系统、终端及存储介质。

背景技术

PM2.5是一种直径小于或等于2.5微米的复杂颗粒物，是形成近年来中国北方地区雾霾天气的主要成分，暴露于高PM2.5的环境会引起糖尿病、肺癌、呼吸系统疾病、心血管疾病等一系列疾病，比如暴露于高PM2.5环境会使患有哮喘、心肌梗死和心力衰竭的风险增加。完成空气中PM2.5的预测并提前发布预警能够有效保障人类的身体健康。

对空气PM2.5浓度的预测，从预测时间上看可以分为长期预测和短期预测两种情况。长期预测可预测3天到6个月的PM2.5浓度预测，长期预测可以为政策制定者提供参考，使其在进行政策制定时更好的考虑PM2.5对环境的影响；短期预测更多是预测1小时后的PM2.5浓度，短期预测更具有实时性，能为人类短时的活动提供防护。

目前,已经有多种建立PM2.5浓度预测模型的方法，总体上可分为基于化学机理模型(chemical transport models)、基于统计及机器学习模型、基于深度学习模型三大类。化学机理模型预测方法是利用污染物扩散方式、气象环境因素以及污染物排放源数量及地理位置等多源信息构建的预测模型，这种方法仅需依据当前模型中各个变量的状态来获得较为准确的PM2.5预测结果，但是在模型中往往存在化学反应过程不完全明确，污染排放源的信息不全或者动态变化较大等问题，模型中每一个因素的调节都需要重新对模型进行修正，影响到预测的准确性及适应性。现阶段中国的环境监测网络已经建立，积累的大量的历史数据为采用数据统计和深度学习方法进行分析和预测提供了可能。基于统计及机器学习模型主要包括线性回归方法、马尔科夫模型、自回归滑动平均模型、支持向量机(SVM)模型、支持向量回归(SVR)、随机森林算法及人工神经网络(ANN)模型等。

目前，多数的研究都将污染物及气象特征(meteorological variables)作为预测PM2.5浓度模型的重要输入，污染物及气象特征与PM2.5存在着密切的关系，部分参数与PM2.5的相关性较强，对预测结果有重要的影响，同时也是最容易获得的，研究者可以从环境监测站(Environmental Monitoring Station)获得PM2.5数据的同时获得污染物及气象特征。但是这些参数对PM2.5的影响不一定为短时，如风速对PM2.5的消散有重要作用，但是风速的影响有滞后性，一段时间的强风后才能带来PM2.5的消散。

而且在实际中，历史数据往往存在缺失的情况，为了保证算法能够使用，通常单独采取填充法或者删除法保证算法输入特征的一致性。然而，删除法会导致数据缺失，会导致输入特征大小的不一致。填充法会增加数据的不确定性，一定程度上会影响模型预测的精度。

为此，本发明提供一种空气PM2.5浓度预测方法、系统、终端及存储介质，用于解决上述问题。

发明内容

针对现有技术的上述不足，本发明提供一种空气PM2.5浓度预测方法、系统、终端及存储介质，用于提高空气PM2.5浓度预测精度，并用于增加对输入特征的适应能力。

第一方面，本发明提供一种空气PM2.5浓度预测方法，包括：

原始数据获取：获取过去24小时内每个小时的污染物及气象特征的特征数据，构成原始数据集；所述污染物及气象特征为预先设定的特征,包括污染物特征和气象特征；污染物特征为污染物的浓度；污染物特征包括PM2_5，所述PM2_5表示PM2.5的浓度；

缺失数据处理：计算原始数据集中每一个特征的特征数据的缺失率，删除原始数据集中缺失率达预先设定的缺失率阈值的特征的特征数据，对原始数据集中缺失率在所述缺失率阈值以下的特征的特征数据采用填充法进行修复，得到处理后的原始数据集，记为修复原始数据集；

延时分析：获取污染物及气象特征在过去24小时之前P小时内每小时的特征数据，并获取PM2_5在过去2×P小时内每小时的特征数据；采用延时分析方法，分析获取到的污染物及气象特征中每一个特征在过去24小时前P小时内的特征数据与获取到的PM2_5在过去2×P小时内的特征数据之间的P小时相关性，得到过去24小时前P小时内污染物及气象特征中每一个特征与PM2_5在过去2×P小时内的特征数据的时移Pearson结果；P为大于24的整数；

构建特征矩阵：以污染物及气象特征中的所有特征为列，利用污染物及气象特征中每一个特征在修复原始数据集中的特征数据及上述得到的所有时移Pearson结果构建一个(24+P)×n的初始矩阵，n为污染物及气象特征中所有特征的数量；统计初始矩阵中每一列特征数据的损失数量，并对初始矩阵中除PM2_5所在列之外的每一列均进行预处理，预处理后得到的矩阵即为所要构建的特征矩阵；所述预处理为：若所统计的列的损失数量大于预先设定的数量阈值,则删除该列数据，若所统计的列的损失数量小于或等于所述数量阈值，则采用前后值填充法修复该列数据；

PM2.5浓度预测：将所构建的特征矩阵输入预先创建并训练好的SPP-LSTM神经网络进行计算，输出结果即为预测的未来1小时内各污染物及气象特征的预测特征数据；从预测特征数据中读取PM2_5的值，即得到预测的未来1小时空气中PM2.5的浓度；

所述SPP-LSTM神经网络的结构包括依次设置的：

第一卷积层，采用5×1的卷积核，采用ReLU激活函数，设置有6个滤波器；

第一池化层，采用大小为2×1的核进行最大值池化；

第二卷积层，采用5×1的卷积核，设置有16个滤波器；

第二池化层，采用大小为2×1的核进行最大值池化；

SSP层，使用三种spatial pool size，三种spatial pool size依序为4×2，2×2，1×1；

LSTM层，神经元的个数设为144个，激活函数采用sigmoid函数；

Dense全连接层，输入层为144个神经元，第二层为120个神经元，第三层为84个神经元，最后输出层为1。

进一步地，所述污染物特征还包括PM10、NO2、SO2、CO、O3_1和O3_8的浓度，气象特征包括温度、降雨量、相对湿度和陆地风速；O3_1的浓度表示1小时臭氧浓度数据，O3_8的浓度表示8小时的臭氧浓度数据；其中，原始数据集中O3_8的浓度的特征数据，还包括在所述过去24小时之前168小时内每8小时的O3_8的浓度数据。

进一步地，原始数据集中的数据来源于空气质量实时发布平台。

进一步地，该空气PM2.5浓度预测方法还包括步骤：采用MAE、RMSE和Corr作为模型性能评估的指标，对训练好的SPP-LSTM神经网络进行性能评估。

第二方面，本发明提供一种空气PM2.5浓度预测系统，包括：

原始数据获取单元：获取过去24小时内每个小时的污染物及气象特征的特征数据，构成原始数据集；所述污染物及气象特征为预先设定的特征,包括污染物特征和气象特征；污染物特征为污染物的浓度；污染物特征包括PM2_5，所述PM2_5表示PM2.5的浓度；

缺失数据处理单元：计算原始数据集中每一个特征的特征数据的缺失率，删除原始数据集中缺失率达预先设定的缺失率阈值的特征的特征数据，对原始数据集中缺失率在所述缺失率阈值以下的特征的特征数据采用填充法进行修复，得到处理后的原始数据集，记为修复原始数据集；

延时分析单元：获取污染物及气象特征在过去24小时之前P小时内每小时的特征数据，并获取PM2_5在过去2×P小时内每小时的特征数据；采用延时分析方法，分析获取到的污染物及气象特征中每一个特征在过去24小时前P小时内的特征数据与获取到的PM2_5在过去2×P小时内的特征数据之间的P小时相关性，得到过去24小时前P小时内污染物及气象特征中每一个特征与PM2_5在过去2×P小时内的特征数据的时移Pearson结果；P为大于24的整数；

构建特征矩阵单元：以污染物及气象特征中的所有特征为列，利用污染物及气象特征中每一个特征在修复原始数据集中的特征数据及上述得到的所有时移Pearson结果构建一个(24+P)×n的初始矩阵，n为污染物及气象特征中所有特征的数量；统计初始矩阵中每一列特征数据的损失数量，并对初始矩阵中除PM2_5所在列之外的每一列均进行预处理，预处理后得到的矩阵即为所要构建的特征矩阵；所述预处理为：若所统计的列的损失数量大于预先设定的数量阈值,则删除该列数据，若所统计的列的损失数量小于或等于所述数量阈值，则采用前后值填充法修复该列数据；

PM2.5浓度预测单元：将所构建的特征矩阵输入预先创建并训练好的SPP-LSTM神经网络进行计算，输出结果即为预测的未来1小时内各污染物及气象特征的预测特征数据；从预测特征数据中读取PM2_5的值，即得到预测的未来1小时空气中PM2.5的浓度；

所述SPP-LSTM神经网络，其结构包括依次设置的：

第一池化层，采用大小为2×1的核进行最大值池化；

第二卷积层，采用5×1的卷积核，设置有16个滤波器；

第二池化层，采用大小为2×1的核进行最大值池化；

LSTM层，神经元的个数设为144个，激活函数采用sigmoid函数；

进一步地，该空气PM2.5浓度预测系统，还包括性能评估单元，用于采用MAE、RMSE和Corr作为模型性能评估的指标，对训练好的SPP-LSTM神经网络进行性能评估。

第三方面，本发明提供一种终端，包括：

处理器；

用于存储处理器的执行指令的存储器；

其中，所述处理器被配置为执行以上各方面所述的方法。

第四方面，本发明提供一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上各方面所述的方法。

本发明的有益效果在于，

(1)本发明提供的空气PM2.5浓度预测方法、系统、终端及存储介质，一方面在特征矩阵中添加了时移Pearson结果，另一方面融合了SSP-NET及LTSM，无需要求模型输入特征大小是固定长度，增强了模型对输入特征的适应能力。

(2)本发明提供的空气PM2.5浓度预测方法、系统、终端及存储介质，在处理数据缺失问题时，采用了删除法和填充法相结合的方式，一定程度上有助于增加信息的完整度，继而有助于解决数据缺失的问题，从而有助于提高预测结果的精度。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明所述初始矩阵的一个实施例的结构图示意图。

图3是本发明所述Case1结构图的示意图。

图4是本发明所述Case3结构图的示意图。

图5是本发明所述2019年12月预测值与真实值的结果对比图。

图6是本发明所述SPP-LSTM神经网络的结构示意图。

图7是本发明所述过去24小时前48小时内每一个特征(记为特征C)与PM2_5在过去96小时内的特征数据的时移Pearson结果的计算过程示意图。

图8为现有LSTM内部结构示意图。

图9为现有SPP-NET的结构示意图。

图10是本发明一个实施例的系统的示意性框图。

图11为本发明实施例提供的一种终端的结构示意图。

图12是本发明实施例提供的一种计算机存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

基础知识说明：

(一)LSTM(Long Short Term Memory Networks，长短时记忆神经网络)

基于LSTM单元的循环神经网络是由一连串的重复LSTM单元组成。LSTM单元被称为记忆细胞(Memroy celll)，包含输入门(input gate)、输出门(output gate)、遗忘门(forget gate)三个门。其中，遗忘门决定前一时刻中的记忆是否会被记住，输入门决定当前输入有多少被保留下来，输出门决定当前记忆的信息有多少会被立即输出。

图8为现有LSTM内部结构示意图。如图8所示，x_t为输入，f_t代表遗忘门，i_t代表输入门，o_t代表输出门；C是记忆细胞(memroy cell)，C_t-1代表上一时刻的记忆信息，C_t代表当前时刻的记忆信息，h_t是LSTM单元的输出，h_t-1是前一刻的输出。

LSTM单元任务就是接收上一时刻的输出数据和当前时刻的输入数据，完成对细胞状态(cell state)的修改和计算，产生当前时刻的输出，计算过程如下：

第一步遗忘门计算过程，其具体的计算公式如下所示：

f_t＝δ(W_f·[h_t-1，x_t]+b_f， (1)

第二步输入门的计算过程，计算公式如下：

i_t＝δ(W_i·[h_t-1，x_t]+b_i)， (2)

第三步是t时刻记忆，计算过程如下：

第四步是计算t时刻的记忆状态，具体公式如下所示：

第五步计算输出门系数o_t，

o_t＝δ(W_o·[h_t-1，x_t]+b_o)， (5)

第六步计算网络的输出h_t，

h_t＝o_t×tanh(c_t) (6)

其中，上述δ为sigmoid函数，数学表达式为δ＝(1+e^-x)^-1。

(二)SPP-NET(Spatial Pyramid Pooling Network)

SPP-NET主要层结构有四个：卷积层、池化层、空间金字塔池化层和全连接层，通过堆叠这些层结构形成了一个完整的SPP-NET结构，如图9所示。卷积层主要是对输入数据特征提取，包括卷积和激励函数的非线性两个步骤；池化层又被称为下采样层，主要是在保证数据完整的基础上，对上一层的输出特征进行压缩，逐渐降低空间大小来减少网络中的参数数量和计算量，并且也可以控制过拟合；所有层卷积和池化作用后的特征再经SPP-NET层整合，被转化成一维向量；将一维向量输入神经网络进行拟合或分类。SPP-NET可以解决输入向量大小不一造成的缺陷。

图1是本发明一实施例的方法的流程示意图。

如图1所示，该方法100包括：

步骤110，原始数据获取。具体地，获取过去24小时内每个小时的污染物及气象特征的特征数据，构成原始数据集。所述污染物及气象特征为预先设定的特征,包括污染物特征和气象特征。污染物特征为污染物的浓度。污染物特征包括PM2_5，所述PM2_5表示PM2.5的浓度。

步骤120，缺失数据处理。

该步骤120具体为：计算原始数据集中每一个特征的特征数据的缺失率，删除原始数据集中缺失率达预先设定的缺失率阈值的特征的特征数据，对原始数据集中缺失率在所述缺失率阈值以下的特征的特征数据采用填充法进行修复，得到处理后的原始数据集，记为修复原始数据集。

步骤130，延时分析。所述延时分析，包括：获取污染物及气象特征在过去24小时之前P小时内每小时的特征数据，并获取所述PM2_5在过去2×P小时内每小时的特征数据；采用延时分析方法，分析获取到的污染物及气象特征中每一个特征在过去24小时前P小时内的特征数据与获取到的PM2_5在过去2×P小时内的特征数据之间的P小时相关性，得到过去24小时前P小时内污染物及气象特征中每一个特征与PM2_5在过去2×P小时内的特征数据的时移Pearson结果。P为大于24的整数。所述过去24小时之前P小时，即为过去24+P小时。

步骤140，构建特征矩阵。

具体地，以污染物及气象特征中的所有特征为列，利用污染物及气象特征中每一个特征在修复原始数据集中的特征数据及上述得到的所有时移Pearson结果构建一个(24+P)×n的初始矩阵，n为污染物及气象特征中所有特征的数量；统计初始矩阵中每一列特征数据的损失数量，并对初始矩阵中除PM2_5(即对应PM2.5)所在列之外的每一列均进行预处理，预处理后得到的矩阵即为所要构建的特征矩阵；所述预处理为：若所统计的列的损失数量大于预先设定的数量阈值,则删除该列的数据，若所统计的列的损失数量小于或等于所述数量阈值，则采用前后值填充法修复该列数据。

步骤150，PM2.5浓度预测。具体地，将所构建的特征矩阵输入预先创建并训练好的SPP-LSTM神经网络进行计算，输出结果即为预测得到的未来1小时内各污染物及气象特征的预测特征数据；从预测特征数据中读取PM2_5对应的值，即得到预测的未来1小时空气中PM2.5的浓度。

其中，所述SPP-LSTM神经网络，其结构包括依次设置的：

第一池化层，采用大小为2×1的核进行最大值池化；

第二卷积层，采用5×1的卷积核，设置有16个滤波器；

第二池化层，采用大小为2×1的核进行最大值池化；

LSTM层，神经元的个数设为144个，激活函数采用sigmoid函数；

所述SPP-LSTM神经网络的结构示意图如图6所示。如图6所示，该SSP-LSTM神经网络可鲁棒性的适应输入特征矩阵的大小变化；其前半部分是Convolutional层，用于特征的提取；接着是为SSP层，负责对feature map从不同的角度进行特征提取，再聚合保证了输入LSTM层的特征向量的长度一致性，后半部分是LSTM网络加一全连接层，用于预测下一小时的PM2.5的浓度值。

可选地，作为本发明的一个实施例，所述污染物特征还包括PM10、NO2、SO2、CO、O3_1和O3_8的浓度，气象特征包括温度、降雨量、相对湿度和陆地风速；O3_1的浓度表示1小时臭氧浓度数据，O3_8的浓度表示8小时的臭氧浓度数据；其中，原始数据集中O3_8的浓度的特征数据，还包括在所述过去24小时之前168小时内每8小时的O3_8的浓度数据；其中，原始数据集中O3_8的浓度的特征数据，还包括在所述过去24小时之前168小时内每8小时的O3_8的浓度数据。

可选地，原始数据集中的数据来源于空气质量实时发布平台。

可选地，作为本发明的一个实施例，该方法100还包括步骤：采用MAE、RMSE和Corr作为模型性能评估的指标，对所述SPP-LSTM神经网络进行性能评估。

可选地，作为本发明的一个实施例，所述预先设定的数量阈值为5，所述预先设定的缺失率阈值为25％。

为了便于对本发明的理解，下面结合实施例中对未来1小时空气PM2.5浓度预测的过程，对本发明提供的空气PM2.5浓度预测方法做进一步的描述。

具体的，所述空气PM2.5浓度预测方法包括：

步骤2.1：原始数据获取。

数据来源(Data Source)：本说明书中使用到的所有原始数据，包括空气质量数据(对应污染物特征的特征数据)和气象数据(对应气象特征的特征数据)，均来源于全国空气质量实时发布平台青岛站点，每小时更新一次，选取黄岛子站点为研究对象。

在本实施例中，获取黄岛子站点过去24小时内每个小时的污染物及气象特征的特征数据，以及获取黄岛子站点过去24小时之前168小时内每8小时的污染物及气象特征中的臭氧的浓度数据，构成原始数据集。

具体地，在本实施例中，所述污染物及气象特征中包含污染物特征和气象特征。本实施例中所选取的污染物特征为污染物PM2_5、PM10、NO2、SO2、CO、O3_1和O3_8的浓度，所选取的气象特征为温度、降雨量、相对湿度和陆地风速，总计11个特征。对应的数据特征描述如表1所示。

表1数据特征描述表

步骤2.2：缺失数据处理

实际实现时，采集到的原始数据往往会出现数据缺失的情况，不同程度的数据缺失会导致研究结果产生偏差，各种特征都存在不同程度的缺失，如表2所示，其中PM10的缺失量(Quantity)最大，缺失率(Loss Rate)达到了7.58％，而最小的HUMI和TEMP也达到了4.62％。表3从存在特征缺失的天数进行了分析，其中一天内存在缺失PM10这一特征的天数达到了996天，缺失率为45.45％(996/2191)，缺失率最少的HUMI和TEMP也达到了23.41％(513/2191)。

表2数据特征按小时缺失表

表3数据特征每天缺失表

删除法和填充法是本领域常用的缺失值处理方法。其中，删除法是将出现缺失数据的整组数据全部删除，把剩余所有完整数据组作为接下来的实验数据。简单的使用删除法会导致数据丢失，可能会导致有用信息被浪费掉，进而影响数据集特征提取效果。填充法不删除数据，而是采用某个数据值来替代缺失值，在填充方法中，替代值的确定是一个需要重点解决的问题。如果数据缺失量较大时，简单数据填充会增加样本的不确定性及带来更多的不准确信息，影响预测模型的精度。

由此，本实施例中采用的缺失数据处理方法为：计算原始数据集中每一个特征(包括污染物特征和气象特征)特征数据的缺失率，删除原始数据集中缺失率达到25％(为本实施例中预先设定的数量阈值)的特征的特征数据，对原始数据集中缺失率在25％以下的特征的特征数据采用填充法进行修复，得到处理后的原始数据集，记为修复原始数据集。可见本申请中选用的特征数据具备一定的不会瞬间突变的特点。

步骤2.3：延时分析。

本实施例中采用Pearson相关系数分析空气污染物浓度和气象条件与PM2.5的相关性。

步骤2.3.1：延时分析数据来源

获取所述黄岛子站点过去24小时之前48(此处“48”对应所述的P)小时内每个小时的污染物及气象特征(包括所有的污染物特征和气象特征)的特征数据。并获取所述黄岛子站点过去96(对应所述的2×P)小时内每小时的污染物特征PM2_5的特征数据。其中，所述过去24小时和过去96小时，是自当前时刻起的过去24小时和过去96小时。

步骤2.3.2：延时分析

Pearson相关系数分析法是分析两个变量之间相关性强弱的一种方法。计算N个样本的两个变量之间的Pearson相关系数R_lk，其公式(7)如下所示：

式(7)中，

Pearson相关系数R_kk取值范围是(-1,1)，|R_kk|表明两个变量之间相关的程度，|R_lk|越接近1，两个变量相关程度越高，它们之间的关系越密切。

Pearson相关系数法多用于分析PM2.5与某特征同时刻的相关性。本文采用延时分析的方法，分析PM2.5与每一个特征的48小时相关性。

具体地，该步骤2.3.2的实现方法为：

步骤2.3.2.1，利用所采集到的每一个特征在过去24小时之前48小时内的所有特征数据构建各自对应的一维向量。

具体地，在本实施例中：

将所采集到的过去24小时之前48小时内PM2_5的所有特征数据构建成一维列向量，记为T_{PM2_5}；

将所采集到的PM10的在过去24小时之前48小时内的所有特征数据构建成一维列向量，记为T_PM10；

将所采集到的NO2的在过去24小时前48小时内的所有特征数据构建成一维列向量，记为T_NO2；

将所采集到的SO2的在过去24小时前48小时内的所有特征数据构建成一维列向量，记为T_SO2；

将所采集到的CO的在过去24小时前48小时内的所有特征数据构建成一维列向量，记为T_CO；

将所采集到的O3_1的在过去24小时前48小时内的所有特征数据构建成一维列向量，记为T_{O3_1}；

将所采集到的O3_8的在过去24小时前48小时内的所有特征数据构建成一维列向量，记为T_{O3_8}；

将所采集到的温度的在过去24小时前48小时内的所有特征数据构建成一维列向量，记为T_TEMP；

将所采集到的降雨量的在过去24小时前48小时内的所有特征数据构建成一维列向量，记为T_RAIN；

将所采集到的相对湿度的在过去24小时前48小时内的所有特征数据构建成一维列向量，记为T_HUMI；

将所采集到的陆地风速的在过去24小时前48小时内的所有特征数据构建成一维列向量，记为T_LWS。

本实施例中所涉及的每一个一维列向量，均含有48个元素，本实施例中所构建的每一个一维向量，均是一个样本。

步骤2.3.2.2，利用所采集到的PM2_5在过去96小时内的所有特征数据构建P(本实施例中P＝48)个不同的一维向量，该P个一维向量与步骤2.3.2.1中构建的所有一维向量的元素的个数均相等。

具体实现时，将所采集到的PM2_5在过去96小时内的所有特征数据用数组Z[-95,-94,-93,...,-1,0]表示,其中：数组Z中的“-95”表示过去第96个小时的PM2.5数据，数组Z中的“-94”表示过去第95个小时的PM2.5数据，数组Z中的“-93”表示过去第94个小时的PM2.5数据,以此类推,数组Z中的“-1”表示过去第2个小时的PM2.5数据，数组Z中的“0”表示过去第1小时的PM2.5数据。基于数组Z[-95,-94,-93,...,-1,0]，本实施例中所构建的P个一维向量依次为：

T1[-95:-48],T2[-94:-47],T3[-93:-46]，…,T47[-48:-1],T48[-47:0]。

步骤2.3.2.3，采用延时分析方法，利用上述步骤2.3.2.1和步骤2.3.2.2中所构建的一维向量，分析获取到的污染物及气象特征中每一个特征在过去24小时前48小时内的特征数据与获取到的PM2_5在过去96小时内的特征数据之间的48小时相关性，得到过去24小时前48小时内污染物及气象特征中每一个特征与PM2_5在过去96小时内的特征数据的时移Pearson结果。

具体地，将步骤2.3.2.1中得到的各特征的一维向量均记为特征向量，则该步骤2.3.2.3为：

计算每一个特征向量与T1[-95:-48]、T2[-94:-47]、T3[-93:-46]、…、T47[-48:-1]和T48[-47:0]的Pearson分析结果(即Pearson相关系数)，对应输出每一个特征向量对应的时移Pearson结果，即对应得到过去24小时前48小时内每一个特征与PM2_5在过去96小时内的特征数据的时移Pearson结果。

其中，图7是过去24小时前48小时内每一个特征(均记为特征C)与PM2_5在过去96小时内的特征数据的时移Pearson结果的计算过程示意图，图7中的附图标记500即为过去24小时前48小时内特征C与PM2_5在过去96小时内的特征数据的时移Pearson结果(是一个48×1矩阵)。图7中一维向量T[-71:-24]为特征C在过去24小时前第48小时至过去24小时前第1小时的特征数据构成的向量，其中的“-71”表示特征C在过去24小时前第48小时的特征数据,“-24”表示特征C在过去24小时前1小时的特征数据。

比如以一维向量T_PM10为例：依次计算T_PM10与T1[-95:-48]、T2[-94:-47]、T3[-93:-46]、…、T47[-48:-1]和T48[-47:0]的Pearson分析结果(即Pearson相关系数)，以列向量的形式输出T_PM10与T1[-95:-48]、T2[-94:-47]、T3[-93:-46]、…、T47[-48:-1]和T48[-47:0]的Pearson分析结果，得到过去24小时前48小时内PM10与过去96小时内PM2_5的时移Pearson结果(简称“PM10与PM2_5的时移Pearson结果”)，该时移Pearson结果是一个48×1矩阵。将图7中所示的“特征C”替换为PM10，图7则变成所述PM10与PM2_5的时移Pearson结果的计算过程示意图。

再比如以一维向量T_{PM2_5}为例：依次计算T_{PM2_5}与T1[-95:-48]、T2[-94:-47]、T3[-93:-46]、…、T47[-48:-1]和T48[-47:0]的Pearson分析结果(即Pearson相关系数)，以列向量的形式输出T_{PM2_5}与T1[-95:-48]、T2[-94:-47]、T3[-93:-46]、…、T47[-48:-1]和T48[-47:0]的Pearson分析结果，得到过去24小时前48小时内PM2_5与过去96小时内PM2_5的时移Pearson结果(简称“PM2_5与PM2_5的时移Pearson结果”)，该结果是一个48×1矩阵。将图7中所示的“特征C”替换为PM2_5，图7则变成所述PM2_5与PM2_5的时移Pearson结果的计算过程示意图。

参照所述PM10与PM2_5的时移Pearson结果或参照所述PM2_5与PM2_5的时移Pearson结果，计算得到过去24小时前48小时内NO2、SO2、CO、O3_1、O3_8、温度(TEMP)、降雨量(RAIN)、相对湿度(HUMI)以及陆地风速(LWS)与过去96小时内PM2_5的时移Pearson结果(依次简称为：NO2、SO2、CO、O3_1、O3_8、TEMP、RAIN、HUMI、LWS与PM2_5的时移Pearson结果)。

步骤2.4：构建特征矩阵。

通过Case1、Case2和Case3三种不同的数据组织方式对原始数据(来源参见步骤2.1)进行组织以验证模型的有效性及对不同形状输入特征的适应能力。Case1:按照图3所示Case1结构图的形式组织数据，假设预测t+1时刻的PM2.5浓度，t-23到t时刻的各特征数据被组织成一个24×11的矩阵，矩阵中存在数据缺失的情况会采用前值或后值填充来保证数据的完整度，如果数据大面积(经验)前后值填充无法解决缺失问题时，采用补零的方法解决，最终目的是保证输入矩阵24×11的形状不变。其中，图3中每一列的“t”、“t-1”、“t-2”、...、“t-23”依次表示各自列对应特征在过去第1小时、过去第2小时、...、过去第24小时的特征数据。

case2：本申请采用该种方式组织数据。具体包括：

步骤①,以污染物及气象特征中的所有特征为列，利用污染物及气象特征中每一个特征在修复原始数据集中的特征数据及上述得到的所有时移Pearson结果构建一个72×n的初始矩阵，n为污染物及气象特征中所有特征的数量(对应本实施例中污染物及气象特征的数量，本实施例中n＝11，具体地，本实施例中的特征为：污染物特征(PM2_5、PM10、NO2、SO2、CO、O3_1和O3_8)和气象特征(温度、降雨量、相对湿度和陆地风速))；

步骤②，统计初始矩阵中每一列特征数据的损失数量，并对初始矩阵中除PM2_5所在列之外的每一列的数据均进行如下预处理：若所统计的列的损失数量大于5(对应预先设定的数量阈值)则删除该列数据；若所统计的列的损失数量小于或等于5，则采用前后值填充法修复该列的数据；

步骤③，经过步骤②中预处理后得到的矩阵即为所要构建的特征矩阵，记为72×m矩阵，m为所构建的该特征矩阵的列数。

具体在使用本方法100进行PM2.5浓度预测时，为进一步增加预测结果的可靠性，可在得到72×m的特征矩阵后，判断其中的m的值是否小于4，并在判定m的值小于4(此时特征矩阵中包含的数据信息较少)时，删除该特征矩阵并重复执行步骤2.1-步骤2.4。

图2为所述初始矩阵的结构示意图。如图2所示，图中各列的“t”、“t-1”、“t-2”、...、“t-23”依次表示各列对应特征在过去第1个小时、过去第2个小时、...、过去第24个小时的特征数据，比如“CO”所在列的“t”、“t-1”、“t-2”、...、“t-23”表示“CO”在过去第1小时、过去第2个小时、...、过去第24个小时的特征数据，其他列的“t”、“t-1”、“t-2”、...、“t-23”可参照“CO”。

其中，图2中所涉及的每一列的特征与PM2_5的时移结果，均为48×1的矩阵，比如“CO与PM2_5的时移结果”为48×1的矩阵。

在基于初始矩阵构建特征矩阵时，如图2所示，该图2对应的初始矩阵中除PM2_5所在列之外的其他每一列的数据均需进行预处理。以图2对应初始矩阵的“CO”列为例：如果该列中“CO”的特征数据的丢失总数量大于5则删除该列；如果该列中“CO”的特征数据的丢失总数量不大于5，则保留初始矩阵中“CO”所在的列，并采用前后值填充法对该列中的特征数据进行修复。

参照“CO”列，处理初始矩阵中除PM2_5所在列之外的其他所有列的特征数据，全部处理完成后，得到特征矩阵，记为特征矩阵A。

case3：t-23到t时刻的各特征(总数量为n)的数据构建一个24×n的初始矩阵，其结构图如图4所示，对初始矩阵中数据的处理方式与Case2相同。

步骤2.5：PM2.5浓度预测。

将特征矩阵A输入上述预先训练好的SPP-LSTM神经网络进行计算，输出结果即为预测的未来1小时内各污染物及气象特征的预测特征数据。从预测特征数据中读取PM2_5的值，即得到预测的未来1小时内空气中PM2.5的浓度。

可选地，作为本发明的一个实施例，本方法还包括步骤2.6：性能评估。

具体地，采用MAE(平均绝对误差)、RMSE(均方根误差)和Corr(相关系数)作为模型性能评估的指标，对训练好的SPP-LSTM神经网络进行性能评估。

其中，MAE通过计算真实值与预测值的绝对误差的平均值来刻画模型精度，反映预测值偏差的实际情况：

均方根误差(Root Mean Square Error,RMSE)RMSE通过计算真实值与预测值之间差的平方和的均值的平方根，它是用来衡量预测值与实际值之间的偏差程度：

相关系数(Corr)用来计算预测值与实际值的相关程度

其中，以上N表示预测数据集的个数，Y_i表示第i时刻的预测值，

表示的是第i时刻真实值。

采用上述三种模型性能评估用于对上述预先训练好的SPP-LSTM神经网络进行性能的比较。其中，前两种模型评估指标计算出的数值越小，说明预测值越接近实际值即预测精度越高。相关系数计算出数值的绝对值越接近1，说明预测值与实际值的相关性越高即预测效果越好。

步骤2.61：实验开发环境如表4所示:

表4实验开发环境配置

步骤2.62：训练过程

将预测数据集按9-1比例划分，90％作为训练集，10％作为测试集。

采用L1 Loss(平均绝对误差函数(MAE损失函数))作为损失函数，使用随机梯度下降法进行搜索优化。

利用获得的模型(SPP-LSTM神经网络)对2019年12月的PM2.5浓度进行预测，预测结果图如图5所示，预测精度表如表5所示。

表5 2019年12月测试样本预测精度表

综上，对比Case1与Case3两种不同输入特征,从模型在测试集上的表现可以看出，Case3删除了大量数据缺失的特征，可以在一定程度上提高模型的预测精度，利用模型对2019年12月的PM2.5进行预测，发现预测精度Case1好于Case3，可以看出Case3模型的稳定性会降低。加入延时Pearson结果的预测模型Case2在Corr表现出更好的特性，同时对2019年12月的预测可以看出模型的预测精度及稳定性在一定程度上均优于Case1和Case3。

如图10示，该系统200包括：

原始数据获取单元201：获取过去24小时内每个小时的污染物及气象特征的特征数据，构成原始数据集；所述污染物及气象特征为预先设定的特征,包括污染物特征和气象特征；污染物特征为污染物的浓度；污染物特征包括PM2_5，所述PM2_5表示PM2.5的浓度；

缺失数据处理单元202：计算原始数据集中每一个特征的特征数据的缺失率，删除原始数据集中缺失率达预先设定的缺失率阈值的特征的特征数据，对原始数据集中缺失率在所述缺失率阈值以下的特征的特征数据采用填充法进行修复，得到处理后的原始数据集，记为修复原始数据集；

延时分析单元203：获取污染物及气象特征在过去24小时之前P小时内每小时的特征数据，并获取PM2_5在过去2×P小时内每小时的特征数据；采用延时分析方法，分析获取到的污染物及气象特征中每一个特征在过去24小时前P小时内的特征数据与获取到的PM2_5在过去2×P小时内的特征数据之间的P小时相关性，得到过去24小时前P小时内污染物及气象特征中每一个特征与PM2_5在过去2×P小时内的特征数据的时移Pearson结果；P为大于24的整数；

构建特征矩阵单元204：以污染物及气象特征中的所有特征为列，利用污染物及气象特征中每一个特征在修复原始数据集中的特征数据及上述得到的所有时移Pearson结果构建一个(24+P)×n的初始矩阵，n为污染物及气象特征中所有特征的数量；统计初始矩阵中每一列特征数据的损失数量，并对初始矩阵中除PM2_5所在列之外的每一列均进行预处理，预处理后得到的矩阵即为所要构建的特征矩阵；所述预处理为：若所统计的列的损失数量大于预先设定的数量阈值,则删除该列数据，若所统计的列的损失数量小于或等于所述数量阈值，则采用前后值填充法修复该列数据；

PM2.5浓度预测单元205：将所构建的特征矩阵输入预先创建并训练好的SPP-LSTM神经网络进行计算，输出结果即为预测的未来1小时内各污染物及气象特征的预测特征数据；从预测特征数据中读取PM2_5的值，即得到预测的未来1小时空气中PM2.5的浓度；

所述的SPP-LSTM神经网络，其结构包括依次设置的：

第一池化层，采用大小为2×1的核进行最大值池化；

第二卷积层，采用5×1的卷积核，设置有16个滤波器；

第二池化层，采用大小为2×1的核进行最大值池化；

LSTM层，神经元的个数设为144个，激活函数采用sigmoid函数；

可选地，作为本发明的一个实施例，所述污染物特征还包括PM10、NO2、SO2、CO、O3_1和O3_8的浓度，气象特征包括温度、降雨量、相对湿度和陆地风速；O3_1的浓度表示1小时臭氧浓度数据，O3_8的浓度表示8小时的臭氧浓度数据；其中，原始数据集中O3_8的浓度的特征数据，还包括在所述过去24小时之前168小时内每8小时的O3_8的浓度数据。

可选地，作为本发明的一个实施例，原始数据集中的数据来源于空气质量实时发布平台。

可选地，作为本发明的一个实施例，该空气PM2.5浓度预测系统还包括性能评估单元，用于采用MAE、RMSE和Corr作为模型性能评估的指标，对训练好的SPP-LSTM神经网络进行性能评估。

图11为本发明实施例提供的一种终端300的结构示意图，该终端300可以用于执行本发明实施例提供的方法100。

本发明还提供一种计算机存储介质400，如图12所示，其中，该计算机存储介质400可存储有程序410，该程序410执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种空气PM2.5浓度预测方法，其特征在于，包括：

延时分析：获取污染物及气象特征在过去24小时之前P小时内每小时的特征数据，并获取所述PM2_5在过去2×P小时内每小时的特征数据；采用延时分析方法，分析获取到的污染物及气象特征中每一个特征在过去24小时前P小时内的特征数据与获取到的PM2_5在过去2×P小时内的特征数据之间的P小时相关性，得到过去24小时前P小时内污染物及气象特征中每一个特征与PM2_5在过去2×P小时内的特征数据的时移Pearson结果；P为大于24的整数；

所述SPP-LSTM神经网络的结构包括依次设置的：

第一池化层，采用大小为2×1的核进行最大值池化；

第二卷积层，采用5×1的卷积核，设置有16个滤波器；

第二池化层，采用大小为2×1的核进行最大值池化；

LSTM层，神经元的个数设为144个，激活函数采用sigmoid函数；

2.根据权利要求1所述的空气PM2.5浓度预测方法，其特征在于，所述污染物特征还包括PM10、NO2、SO2、CO、O3_1和O3_8的浓度，气象特征包括温度、降雨量、相对湿度和陆地风速；O3_1的浓度表示1小时臭氧浓度数据，O3_8的浓度表示8小时的臭氧浓度数据；其中，原始数据集中O3_8的浓度的特征数据，还包括在所述过去24小时之前168小时内每8小时的O3_8的浓度数据。

3.根据权利要求1所述的空气PM2.5浓度预测方法，其特征在于，原始数据集中的数据来源于空气质量实时发布平台。

4.根据权利要求1所述的空气PM2.5浓度预测方法，其特征在于，该空气PM2.5浓度预测方法还包括步骤：采用MAE、RMSE和Corr作为模型性能评估的指标，对训练好的SPP-LSTM神经网络进行性能评估。

5.一种空气PM2.5浓度预测系统，其特征在于，包括：

所述的SPP-LSTM神经网络，其结构包括依次设置的：

第一池化层，采用大小为2×1的核进行最大值池化；

第二卷积层，采用5×1的卷积核，设置有16个滤波器；

第二池化层，采用大小为2×1的核进行最大值池化；

LSTM层，神经元的个数设为144个，激活函数采用sigmoid函数；

6.根据权利要求5所述的空气PM2.5浓度预测系统，其特征在于，所述污染物特征还包括PM10、NO2、SO2、CO、O3_1和O3_8的浓度，气象特征包括温度、降雨量、相对湿度和陆地风速；O3_1的浓度表示1小时臭氧浓度数据，O3_8的浓度表示8小时的臭氧浓度数据；其中，原始数据集中O3_8的浓度的特征数据，还包括在所述过去24小时之前168小时内每8小时的O3_8的浓度数据。

7.根据权利要求5所述的空气PM2.5浓度预测系统，其特征在于，原始数据集中的数据来源于空气质量实时发布平台。

8.根据权利要求5所述的空气PM2.5浓度预测系统，其特征在于，该空气PM2.5浓度预测系统还包括性能评估单元，用于采用MAE、RMSE和Corr作为模型性能评估的指标，对训练好的SPP-LSTM神经网络进行性能评估。

9.一种终端，其特征在于，包括：

处理器；

用于存储处理器的执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-4任一项所述的方法。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的方法。