CN112990531B

CN112990531B - 一种基于特征增强ConvLSTM的雾霾预测方法

Info

Publication number: CN112990531B
Application number: CN202011557861.1A
Authority: CN
Inventors: 王钰; 张钰洁; 杨杏丽
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-11-19
Anticipated expiration: 2040-12-23
Also published as: CN112990531A

Abstract

本发明涉及一种基于特征增强ConvLSTM的雾霾预测方法。目的是解决现有的雾霾预测方法过多地依赖前提假设、预测结果准确率不高、未运用数据空间信息的技术问题。技术方案为：一种基于特征增强ConvLSTM的雾霾预测方法，包括如下步骤：数据预处理；生成图像数据；ConvLSTM特征融合；CNN特征提取；多元LSTM时间序列预测，其中本发明预测方法中作为训练样本的是图像数据，提取特征后，对各层特征分别进行两两融合得到预测图，本发明基于深度神经网络探索天气系统对雾霾的影响以及雾霾数据的时空相关性，建立细粒度雾霾预测模型，极大地提高了雾霾预测的深度、广度和精确度；充分地利用了空间信息，通过特征融合保证了预测结果的准确性以及模型的稳定性。

Description

一种基于特征增强ConvLSTM的雾霾预测方法

技术领域

本发明属于气象预测技术领域，具体涉及一种基于特征增强ConvLSTM的雾霾预测方法。

背景技术

雾霾，其主要组成部分为细微颗粒物(Fine particulate matter，PM_2.5)，它是由有毒物质如重金属和致癌物质等组成的有机化合物，因其可以直接进入肺部的原因，被称为对人体最有害的空气污染物之一，近年来，越来越多的人们对于污染物对城市的环境损害问题以及其对身体产生的负面影响给予密切关注。

为了防治雾霾，我国出台了各种各样的法律条例以及应对方法，但是大多措施都只是在雾霾污染发生后的补救措施。本质上，我们要及时监测雾霾的各影响因子数据，对数据进行建模分析及预测，进而提前提出应对方法来防止大规模雾霾污染的发生，探究其根源，掌握其规律，才能更好的应对雾霾天气污染，即融合人工智能，机器学习、环境科学、气象科学等相关领域的知识对雾霾时空演化进行建模分析及预测。

对雾霾时空演化的研究是由两方面决定的：数据与方法；在数据获取方面，近年来我国建立了越来越多的大气污染物监测站，发射了风云气象卫星(搭载了监测气溶胶光学深度的传感器)可以得到更多的雾霾相关遥感数据，由此可见我国对雾霾治理的重视程度。在雾霾数据分析方面，主要有三类方法。

第一类方法以环保部门为主：在大气动力学模式的基础上耦合大气物理化学模块(污染物的沉降，运输和扩散以及二次气溶胶反应)，代入污染物排放清单对未来大气情况进行推测，其中数值预报模式为最常用方法，该模式有一定的理论基础，会保留更多的物理化学过程，但是计算量特别大，需要在超级巨型计算机上进行部署；此外，数值预报是在天气现象已知情况下的因果关系基础上建立起来的，会因人们认识的不完整性而存在一定的系统误差，从而造成预测结果不准确。

第二类方法以普通科研人员为主：主要是采用数理统计模型方法进行预测；统计模型预报方法首先是选取与预报对象相关的物理因子，然后在预报对象与物理因子之间建立某种统计关系，根据统计关系预报未来时刻的天气，例如多元回归和分类等模型；该方法虽然在实际操作过程中比较容易实现，但是综合考虑大气能见度、气象条件、化学成分、谱分布、气溶胶浓度的关系比较复杂，若要单独建立准确率较高的雾霾统计预报方程难度比较大。

第三类方法以气象部门为主：主要是依据污染物浓度数据集筛选出关联性强的气象因子，利用统计方法建立预报方程，最后将气象数值预报模式的输出量代入预报方程进行统计预报，该方法需要雾霾数据满足一些前提假设：如线性系统或平稳随机过程，但是雾霾的形成具有明显的非线性性和混沌性，不满足上述假设，预测准确率普遍较低。

发明内容

本发明的目的是解决现有的雾霾预测方法过多地依赖前提假设和预测结果准确率不高的技术问题，提供一种基于特征增强ConvLSTM的雾霾预测方法。

为解决上述技术问题，本发明采用的技术方案是：

一种基于特征增强ConvLSTM的雾霾预测方法，包括如下步骤：

1)数据预处理：从公开途径获取雾霾指标数据，提取日度数据，然后按照温度、气压、相对湿度、露点温度、风力风向、气溶胶光学厚度AOD、气溶胶散射系数、气溶胶吸收系数、PM_2.5分别汇总到9个表中；

2)生成图像数据：根据获得的PM_2.5数值数据生成PM_2.5图像，将其作为ConvLSTM模型的标签，然后将汇总的8因素日度数据生成8通道图像，再将生成的图像数据分为训练样本集和测试样本集；

3)ConvLSTM特征融合：对步骤2)中得到的训练样本集进行归一化处理，使用堆叠三层ConvLSTM模型训练，提取每一层特征，保留训练好的参数，进行参数微调；

输入测试样本集，基于训练好的堆叠三层ConvLSTM模型进行测试，分别将每一层的输出特征保存下来；

将所得的各层特征两两融合，即第一层与第二层特征融合得到预测图Z_i1，第二层与第三层特征融合得到预测图Z_i2，第一层与第三层特征融合得到预测图Z_i3，对所得的预测图Z_i1、Z_i2、Z_i3求平均值得到下一时刻的最终PM_2.5预测结果图Z_i，其中i＝1，2,…，n；

4)CNN特征提取：对步骤3)所得最终PM_2.5预测结果图Z_i通过CNN模型提取图像特征；

5)多元LSTM时间序列预测：对步骤4)中提取的特征与当前PM_2.5值结合作为LSTM神经网络的输入，下一时刻PM_2.5的值作为标签，构造多元LSTM时间序列预测，得到预测结果值。

与现有技术相比，本发明的有益效果是：

1、本发明基于深度神经网络探索天气系统对雾霾的影响以及雾霾数据的时空相关性，建立细粒度雾霾预测模型，极大地提高了雾霾预测的深度、广度和精确度；

2、本发明对原始数据进行直接训练，不需要做过多的假设；从雾霾形成角度出发，选取8个相关性最强的影响因子作为雾霾预测的基本因素；数据转化为图像的处理方式既保留了区域之间的空间相关性，又利用了具体的空气质量指标的信息，能够直接可视化预测结果，以及得到精确的PM_2.5值，使人可以直接从视觉上观察我国雾霾变化的趋势；

3、本发明可同时得到空气质量的空间分布情况和定量值，克服了传统方法对数据过多假设的弊端，充分地利用了空间信息，通过特征融合保证了预测结果的准确性以及模型的稳定性；

4、本发明还可以为国家制定科学合理的雾霾治理措施和应急预案提供建议、意见与参考。

附图说明

图1为本发明的雾霾预测流程图；

图2为通道示例图；

图3为ConvLSTM模型网络结构图；

图4为本发明网络结构图；

图5为LSTM模型网络结构图；

图6为本发明的多元LSTM预测模型结构图；

图7为使用ConvLSTM模型所得示例一的PM_2.5预测结果图；

图8为示例一的PM_2.5真实结果图；

图9为使用ConvLSTM模型所得示例二的PM_2.5预测结果图；

图10为示例二的PM_2.5真实结果图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1-10所示，一种基于特征增强ConvLSTM的雾霾预测方法，包括如下步骤：

1)数据预处理：从环保部公开数据库及国家气象局收集2015年1月1日至2020年5月31日的雾霾指标数据，提取日度数据，然后按照温度、气压、相对湿度、露点温度、风力风向、气溶胶光学厚度AOD、气溶胶散射系数、气溶胶吸收系数、PM_2.5分别汇总到9个表中；

2)生成图像数据：将汇总的8因素日度数据生成342×463×3的8通道图共为1978张的数据集；然后根据获得的PM_2.5数值数据生成对应的PM_2.5日度图像数据，将其作为ConvLSTM模型的标签，将生成的图像数据集按照7：3的比例分为训练样本集和测试样本集：其中训练样本1385张，测试样本593张；

3)ConvLSTM特征融合：对步骤2)所得的训练样本集进行归一化处理，使用堆叠三层ConvLSTM模型训练，提取每一层特征，保留训练好的参数，进行参数微调；

输入测试样本，基于训练好的堆叠三层ConvLSTM模型进行测试，分别将每一层的输出特征保存下来；

将所得的各层特征两两融合，即第一层与第二层特征融合，得到预测图Z_i1，第二层与第三层特征融合得到预测图Z_i2，第一层与第三层特征融合得到预测图Z_i3；所得的预测图Z_i1、Z_i2、Z_i3求平均值得到下一时刻的最终PM_2.5预测结果图Z_i，其中i＝1，2，…，n；

图6为ConvLSTM模型，其中i_t表示输入门的输出，f_t表示遗忘门的输出，

表示当前时刻的单元状态，o_t表示输出门的输出，

表示更新当前序列索引的预测输出。

4)CNN特征提取：对步骤3)所得最终PM_2.5预测结果图Z_i通过CNN模型提取图像特征；将所得图像特征与当前时刻的PM_2.5值结合作为后续多元LSTM模型的输入；

5)多元LSTM时间序列预测：对步骤3)中提取的特征与当前PM_2.5值结合作为LSTM神经网络的输入，下一时刻PM_2.5的值作为标签，构造多元LSTM时间序列预测，得到预测结果值。

所述LSTM神经网络由三个门来控制，分别是输入门、遗忘门和输出门。

所述输入门控制着网络的输入，用来提取输入的信息；

所述遗忘门控制着记忆单元；

所述输出门控制着网络的输出。

传播过程在每个序列索引位置的过程为：

1.更新遗忘门输出：f_t＝σ(W_f·[h_t-1,x_t]+b_f)

2.更新输入门输出：i_t＝σ(W_i·[h_t-1,x_t]+b_i)

3.当前输入的单元状态：c′_t＝tanh(W_c·[h_t-1,x_t]+b_c)

4.当前时刻的单元状态：

5.更新输出门输出：o_t＝σ(W_o·[h_t-1,x_t]+b_o)

6.更新当前序列索引预测输出：

如图7-10分别为使用ConvLSTM模型所得的两个日期的PM_2.5预测图与真实结果图对比，其中，图7和图8为示例1，且图7和图8分别为2019年7月23日山西省的PM_2.5预测图和真实结果图；图9和图10为示例2，且图9和图10分别为2015年6月12日山西省的PM_2.5预测图和真实结果图；上述两个示例是从同一个参数设置下的堆叠三层的ConvLSTM模型所得到的预测结果，两个示例是随机选取的。

图中各个市所对应的区域的颜色深度即表示PM_2.5浓度的严重程度，颜色越趋于白色，证明PM_2.5值越大，污染程度越严重，从示例1和示例2的对比图中可以看出，图片预测结果图与真实值基本吻合，能够直观的预测出各市PM_2.5值的严重程度；

总的来说，本发明与传统的雾霾预测方法相比，从雾霾形成角度出发，选取8个与雾霾相关性最强的影响因子作为雾霾预测的基本属性，充分利用了相关空气质量指标的信息，数据转化为图像的处理方式又保留了区域之间的空间相关性，能够可视化预测结果，使人可以直接从视觉上判断雾霾变化趋势，为政府相关雾霾预防措施的实施和决策提供依据和参考。

Claims

1.一种基于特征增强ConvLSTM的雾霾预测方法，其特征在于：包括如下步骤：

将所得的各层特征两两融合，即第一层与第二层特征融合得到预测图Z_i1，第二层与第三层特征融合得到预测图Z_i2，第一层与第三层特征融合得到预测图Z_i3，对所得的预测图Z_i1、Z_i2、Z_i3求平均值得到下一时刻的最终PM_2.5预测结果图Z_i，其中i＝1，2，…，n；