CN114565136B

CN114565136B - 一种基于生成对抗网络的空气质量预测优化方法

Info

Publication number: CN114565136B
Application number: CN202210103413.7A
Authority: CN
Inventors: 许志伟; 王嘉泰; 刘广文; 王永生
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2024-01-26
Anticipated expiration: 2042-01-27
Also published as: CN114565136A

Abstract

一种基于生成对抗网络的空气质量预测优化方法，收集数据若干空气质量监测点的实测数据和一次预报数据；利用空气质量监测点A的实测数据，训练生成对抗网络A，对其它空气质量监测点的实测数据，分别利用生成对抗网络A的判别器继续训练，得到多个生成器，通过得到的生成器预测和修正对应空气质量监测点的一次预报数据，并作为二次预报模型的输入；根据各空气质量监测点的生成器，对每一个空气质量监测点生成器的预测结果进行集成，建立一个协同时空的二次预报模型，并通过该模型得到污染物的浓度值单日预报，并计算相应AQI和首要污染物。本发明可降低预测结果误差，提高预报的准确性。

Description

一种基于生成对抗网络的空气质量预测优化方法

技术领域

本发明属于人工智能技术领域，特别涉及一种基于生成对抗网络的空气质量预测优化方法。

背景技术

包括一氧化碳(CO)，臭氧(O₃)，细颗粒物(PM2.5)等在内的有害物质以超出正常标准范围的浓度存在于大气中，对生态系统和环境有着严重损害。

目前常用WRF-CMAQ模拟体系(以下简称WRF-CMAQ模型)对空气质量进行预报。WRF-CMAQ模型主要包括WRF和CMAQ两部分：WRF是一种中尺度数值天气预报系统，用于为CMAQ提供所需的气象场数据；CMAQ是一种三维欧拉大气化学与传输模拟系统，其根据来自WRF的气象信息及场域内的污染排放清单，基于物理和化学反应原理模拟污染物等的变化过程，继而得到具体时间点或时间段的预报结果。

但受制于模拟的气象场以及排放清单的不确定性，以及对包括臭氧在内的污染物生成机理的不完全明晰，WRF-CMAQ模型的预报结果并不理想。其中，由于实际气象条件对空气质量影响很大(例如湿度降低有利于臭氧的生成)，臭氧污染形成过程受到多种一次污染物因素及光照强度等气象因素影响，使得WRF-CMAQ的预报结果存在较大偏差。

发明内容

为了克服上述现有技术的缺点，解决WRF-CMAQ模型的不鲁棒性，本发明的目的在于提供一种基于生成对抗网络的空气质量预测优化方法，利用空气质量监测点实际监测得到的数据(简称为“实测数据”)，对WRF-CMAQ模型运行产生的不准确数据(简称为“一次预报数据”)进行修正，最终能够结合时序性和区域相关性二次建模，达到更好的预测效果，该方法可以在现有的数据基础上进一步提高效率，同时改善实际气象条件对空气的影响，进一步提高污染物浓度预报准确性。

为了实现上述目的，本发明采用的技术方案是：

一种基于生成对抗网络的空气质量预测优化方法，包括如下步骤：

步骤1，收集数据，所述数据包括地理位置相邻的若干空气质量监测点在一段时间内的实测数据和一次预报数据；

步骤2，利用空气质量监测点A的实测数据，训练生成对抗网络A，训练完毕后，生成对抗网络A的生成器能够预测数据；

步骤3，对其它空气质量监测点的实测数据，分别利用生成对抗网络A的判别器继续训练，得到多个生成器，生成器的数量与空气质量监测点的数量一致，通过得到的生成器预测和修正对应空气质量监测点的一次预报数据，并作为二次预报模型的输入；

步骤4，根据各空气质量监测点的生成器，对每一个空气质量监测点生成器的预测结果进行集成，建立一个协同时空的二次预报模型，并通过该模型得到污染物的浓度值单日预报，并计算相应AQI和首要污染物。

在实施例中，所述步骤1，实测数据为空气质量监测点实际监测得到的数据；一次预报数据为空气质量监测点原有模型运行产生的预测数据。所述实测数据和一次预报数据中含有缺失值，因此可引入掩码矩阵表示每一条时间序列中的缺失值为0，非缺失值为1，从而有效利用数据中的非缺失数据。

在实施例中，所述空气质量监测点原有模型为WRF-CMAQ模型。

在实施例中，所述步骤2，要训练生成对抗网络A，需先确认生成对抗网络的结构和损失函数，网络结构引入门控循环单元(GRUI)作为主网络，损失函数选用WGAN的损失函数。

在实施例中，所述步骤2，在训练过程中，先随机生成若干高斯分布的初始化向量作为噪声，将所述噪声传入生成伪时间序列的生成器和区分伪数据和真实数据的判别器实现平衡，使得判别器判别正确和判别错误的概率均达到0.5，当生成的数据真实的概率最大时，停止训练。

在实施例中，所述步骤3，首先针对其它空气质量监测点提供的数据筛选出预报效果相对较好、预报准确率相对较高的气象条件作为预报因子，以缩小数据范围；接着以训练好的生成对抗网络A的判别器训练其他空气质量监测点的生成器，网络结构与损失函数与训练生成对抗网络A时完全一致，最终得到多个空气质量监测点的生成对抗网络的生成器，该生成器能够对一次预报数据做预测与修正。

在实施例中，所述步骤4，将各空气质量监测点训练好的生成器做同构集成，再结合各生成器的权重w，建立一个同时适用于各空气质量监测点的二次预报模型，将各生成器预测与修正的一次预报数据进行加权平均求和，作为二次预报模型的输入，最后通过二次预报模型计算输出相应AQI和首要污染物，进而预测空气质量。

在实施例中，所述空气质量监测点的数量至少为3个。

与现有技术相比，本发明的有益效果是：

现有的空气质量预测模型主要指的是WRF-CMAQ模拟体系，但该模型但受制于模拟的气象场以及排放清单的不确定性，以及对包括臭氧在内的污染物生成机理的不完全明晰，WRF-CMAQ预报模型的结果也就是一次预报数据并不理想。

本发明在此基础上，使用气象、环境预报模式评估采用的统计指标进行评价，评价WRF-CMAQ一次预报模型在多个监测点的各项浓度预报。然后，根据上一步评价得出预测值与实测值之间的关系，降低预测结果误差，提高预报的准确性，建立一个同时适用于多个监测点的时间二次预报数据模型，确保模型具有一定的鲁棒性，适用于更多场景。

附图说明

图1是本发明实施例的主要流程示意图。

图2是本发明实施例的详细流程示意图。

图3是本发明GRUI单元示意图。

图4是本发明集成学习结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明实施方案作进一步详细描述。

本发明可能涉及到的参数介绍如下：

SO2，二氧化硫；PM2.5，细颗粒物；PM10，可吸入颗粒物；CO，一氧化碳；O3，臭氧；NO2，二氧化氮；IAQI，空气质量分指数；AQI，空气质量指数；CP，污染物P的质量浓度值；BPHi，与CP相近的污染物浓度限值的高位值；BPLo，与CP相近的污染物浓度限值的低位值；IAQIHi，与BPHi对应的空气质量分指数；IAQILo，与BPLo对应的空气质量分指数；RMSE，均方根误差；MB，平均偏差；MFE，标准化分数误差；MFB，标准化分数偏差；HAC，层次聚合聚类。

本发明为一种基于生成对抗网络的空气质量预测方法，以空气质量监测点的数量为3个为例，对本发明作出详细描述，3个空气质量监测点分别定义为监测点A、监测点B和监测点C，其处于相邻的地理位置，本发明中的相邻，指具有空气质量预报意义上的相邻，例如，空气质量监测点两两间直线距离小于100km，相邻区域的污染物浓度之间会相互影响。本实施例中，监测点A与B、C的距离分别为14.6km、10.1km。

本实施例利用GAN，GAN能够从随机的“噪声”中生成“真实”的样本，受GAN在图像填充方面的成功启发，利用GAN对原始的不完整时间序列数据进行生成作为预测结果。数据来自于监测点A、B、C逐小时的实测数据和一次预报数据。其中，实测数据时间跨度为2019-4-16至2021-7-13，监测点A共19432条实测数据，监测点B共19598条实测数据，监测点C共19491条实测数据。一次预报数据的时间跨度为2020-7-23至2021-7-13，监测点A共25416条一次预报数据，监测点B共25416条一次预报数据，监测点C共25344条一次预报数据。其中，一次预报数据为监测点原有模型运行产生的预测数据，该原有模型一般指本领域通常部署的WRF-CMAQ模型。

参考图1和图2，本发明的步骤具体包括：

步骤1：针对监测点A训练生成对抗网络A，并从中得到生成对抗网络A的生成器与判别器。

监测点A的实测数据或一次预报数据中，污染物浓度是一个6维(6种空气污染物)的多变量时间序列X的集合，在时间序列T＝{t₀,…,t_n-1}下，表示为其中/>是在X时刻下的检测值，/>是/>的第一个j个变量。例如，d＝6，n＝3，“none”是缺失值，具体X由以下公式给出：

如上，获取的数据基于时序关系且有缺失值(“none”值)，所以，为了降低缺失值对预测结果的影响，引入掩码矩阵M来表示时间序列中的值是否存在，如果存在，则否则/>

接下来确定生成对抗网络的结构、损失函数以及训练方法。本发明中，网络结构引入门控循环单元(GRUI)作为主网络，其可以考虑非固定时间滞后，并减弱由时间滞后决定的过去观测数据的影响。

GRUI单元结构如图3所示，其计算表达如下：

其中μ是更新门，r是重置门，是隐藏门，σ是sigmoid激活函数，W_μ，W_r，/>b_μ，b_r，/>是训练参数，⊙是元素相乘。

为保证时序关系的稳定，本发明对生成器与判别器结构进行了如下调整。第一，判别器由GRUI层组成，目的是学习不完整或完整的时间序列。第二，GRUI的最后一个隐藏状态的顶部堆叠全连接层用于分类。第三，为了防止过拟合，对全连接层采用了dropout剪枝技术。第四，为确保生成样本的时延与原始样本的时延相同，生成器也由GRUI层和全连接层组成。第五，生成器是一个自馈网络，这意味着生成器的当前输出将被馈送到同一细胞的下一次迭代中。

接着确定网络的损失函数。GAN由生成器和判别器组成。生成器学习到一个映射G(z)，试图将随机噪声向量映射到真实的时间序列。判别器试图找到一个映射来告诉我们输入数据是真实的概率。由于模型坍塌问题，传统GAN很难训练。WGAN是GAN的另一种训练方式，它使用了比原来更容易训练的Wasserstein距离，可以有效避免模型坍塌问题。WGAN可以提高学习阶段的稳定性，避免模式崩溃的问题，为GAN模型的优化提供了方便。在本发明中，使用了WGAN的损失函数，WGAN的损耗函数由以下公式给出：

训练过程分为两个阶段：在第一阶段，通过在GAN中的判别器和生成器中采用GRUI，训练有素的对抗性模型可以学习整个数据集的分布、观测之间的隐含关系以及数据集的时间信息。在第二阶段，训练生成器的输入“噪声”，使生成的时间序列尽可能接近原始的不完全时间序列，即随机生成若干高斯分布的初始化向量作为噪声，将噪声传入生成伪时间序列的生成器和区分伪数据和真实数据的判别器实现平衡，使得判别器判别正确和判别错误的概率均达到0.5。当生成的数据真实的概率最大时，停止训练。此时得到生成对抗网络A，其生成器为一个弱学习器，可以对一次预报数据做预测和修正。

步骤2：在得到生成对抗网络A之后，利用其中的判别器作为训练监测点B、C的判别器，从而分别得到监测点B、C的生成器。

由于数据提供的气象条件太多，可以先通过预报因子缩小范围。在监测点B、C提供的数据中，筛选出预报因子主要选择能进行预报且预报效果相对较好、预报准确率相对较高的气象条件，以缩小数据范围。初步选取实测数据6项中的温度、湿度、气压，一次预报数据15项中的比湿、短波辐射、地面太阳能辐射、近地10米风速、近地10米风向、边界层高度。具体选取方法采用Metropolis采样算法。Metropolis采样算法解决的问题是；从一个复杂的目标分布获取近似的样本。

利用对抗学习机制可以有效提升模型泛化能力的特点，在为监测点A构建的生成对抗网络的基础上，使用监测点B、C的数据训练生成器，形成适用性更强的污染物浓度预测模型，此步骤训练网络和之前训练监测点A的生成对抗网络完全一致。

使用预报因子的数据训练为时序深度学习模型，即生成对抗网络。一次预报数据和实测数据均存在缺失和偏差。训练过程中，利用MCMC方法为模型训练数据提供标签，综合使用一次预报数据和实测数据标注训练数据。MCMC的具体做法是当污染物浓度一次预报数据与后续污染物浓度实测数据近似时，以一次预报数据作为标签，而当二者不相似时，以一定概率使用一次预报数据作为标签，否则使用后续实测数据作为标签。证明这一过程可以真实反映一次预测数据的准确性，优化二次建模准确性。然后，用训练好的生成对抗网络A的判别器作为判别器，使用监测点B、C的数据训练生成器，网络结构与损失函数与训练生成对抗网络A时完全一致，最终得到适用性更强的污染物浓度预测模型，即相应的生成对抗网络，并由此得到适用于三个监测点的三个生成器，该生成器能够对一次预报数据做预测与修正。

步骤3：根据各空气质量监测点的生成器，对每一个空气质量监测点生成器的预测结果进行集成，建立一个协同时空的二次预报模型，并通过该模型得到污染物的浓度值单日预报，并计算相应AQI和首要污染物。

因为不同监测点之间除距离外，监测方式都相同。所以本发明选用同构集成的集成学习方法，通过多个学习器的集成来处理分析。使用一系列学习器进行学习，并使用模型融合方法把各个学习结果进行整合，从而获得比单个学习器更好的学习效果的一种机器学习方法。集成算法由两部分组成：一部分是利用之前得到的三个生成单个的生成器也即弱学习器，另一部分则是利用下文将它们的输出结果进行融合，如图4所示。

利用同构集成的集成学习方法，一部分之前训练得到的三个生成器也即弱学习器，另一部分则是利用每个生成器也即弱学习器的权重，将它们的输出结果进行加权平均求和，完成适用监测点A,B,C的二次预报模型。具体流程为：

(1)将监测点A、B、C训练得到的三个生成器作为三个弱学习器h₁,h₂,h₃。

(2)结合策略为加权平均，每个弱学习器有一个权重w，则最终预测是：

最终将经过三个监测点生成器预测修正的一次预报数据作为二次预报模型的输入，传入二次预报模型中，并计算AQI和首要污染物。

时间同样选取2020年7月23日-8月23日污染物浓度一次预报数据与预测三天的首天数据，在5个常见的气象预测准确性度量参数，相关系数(R)、均方根误差(RMSE)、平均偏差(MB)、标准化分数误差(MFE)和标准化分数偏差(MFB)。模式预报效果的“达标”范围为-60％≤MFB≤60％、MFE≤75％而“优秀”范围为-30％≤MFB≤30％、MFE≤50％。

表3-1监测点A模型评价指标表

污染物	R	MB	MFB	MFE	RMSE
						SO2	0.11	11.17	65.01％	96.5％	11.17
NO2	0.10	-10.70	-91.16％	83.15％	10.70
						CO	0.07	10.37	64.74％	80.75％	10.37
O3	0.15	-14.46	94.55％	91.64％	14.46
						PM10	0.16	-11.90	-79.10％	78.83％	11.90
PM2.5	0.13	10.08	66.51％	88.81％	10.08

表3-2监测点B模型评价指标表

污染物	R	MB	MFB	MFE	RMSE
						SO2	0.22	-12.51	91.5％	96.97％	12.51
NO2	0.06	-13.10	85.07％	87.14％	13.10
						CO	0.22	12.16	-80.1％	77.71％	12.16
O3	0.16	-11.64	67.93％	80.91％	11.64
						PM10	0.15	11.81	-72.24％	98.3％	11.81
PM2.5	0.20	14.56	62.7％	96.05％	14.56

表3-3监测点C模型评价指标表

表3-1到表3-5是通过五项统计指标评估3个监测点一次预报模型的浓度预报，由表可知，时间选取2020年7月23日-8月23日污染物浓度实测与预测3天的第1天的数据，监测点A、监测点B、监测点C三个监测点的各项污染物浓度指标与实测数据的误差及偏差较大，证明一次模型预测效果很差。

表3-4监测点A模型评价指标表

污染物	R	MB	MFB	MFE	RMSE
						SO2	0.26	-9.47	59.11％	68.44％	9.47
NO2	0.39	9.28	39.81％	50.40％	9.28
						CO	0.23	-10.84	-53.87％	54.84％	10.84
O3	0.23	7.30	-39.34％	76.12％	7.30
						PM10	0.31	-7.38	-54.25％	57.91％	7.38
PM2.5	0.44	6.14	-58.26％	52.73％	6.14

表3-5监测点B模型评价指标表

污染物	R	MB	MFB	MFE	RMSE
						SO2	0.26	8.34	-57.91％	52.6％	8.34
NO2	0.33	-6.50	-43.0％	49.6％	6.50
						CO	0.35	7.77	62.0％	48.23％	7.77
O3	0.40	10.42	42.0％	53.76％	10.42
						PM10	0.43	5.0	42.0％	56.52％	5.0
PM2.5	0.42	5.77	50.0％	73.07％	5.77

表3-6监测点C模型评价指标表

污染物	R	MB	MFB	MFE	RMSE
						SO2	0.32	7.92	-34.29％	78.07％	7.92
NO2	0.43	-11.08	-56.22％	67.31％	11.08
						CO	0.42	-7.94	-53.97％	44.86％	7.94
O3	0.44	9.33	48.85％	54.84％	9.33
						PM10	0.44	11.82	58.66％	54.97％	11.82
PM2.5	0.27	7.41	40.16％	62.51％	7.41

根据本发明的方法，使用一次预报模型的评价指标，对二次预报数据模型进行评价。由表3-4到表3-6可知，时间同样选取2020年7月23日-8月23日污染物浓度实测与预测3天的首天的数据，与一次预报模型的监测点A、监测点B、监测点C三个监测相比，二次预报模型R更大、RMSE更小、ME更小等各项污染物浓度指标与实测数据的误差及偏差较小，证明二次模型预测效果较好。

收集监测点A、B、C从2020年8月25日到8月28日PM2.5，NO2，SO2，CO，O3，PM10这六类数据的值，确定这六项污染物的浓度限值mg/m³及对应的污染物项目浓度限值，得到下表各项污染物浓度数值并根据这一数值计算出AQI和首要污染物。

3-7二次预报模型污染物浓度及AQI预测结果表

根据该表，可根据各项污染物浓度数值计算出AQI和首要污染物，公式如下：

Claims

1.一种基于生成对抗网络的空气质量预测优化方法，其特征在于，包括如下步骤：

步骤1，收集数据，所述数据包括地理位置相邻的若干空气质量监测点在一段时间内的实测数据和一次预报数据；实测数据为空气质量监测点实际监测得到的数据；一次预报数据为空气质量监测点原有模型运行产生的预测数据，引入掩码矩阵表示每一条时间序列中的缺失值为0，非缺失值为1，从而有效利用数据中的非缺失数据；

步骤2，利用空气质量监测点A的实测数据，训练生成对抗网络A，训练完毕后，生成对抗网络A的生成器能够预测数据；网络结构引入门控循环单元（GRUI）作为主网络，损失函数选用WGAN的损失函数；

其中：

判别器由GRUI层组成，目的是学习不完整或完整的时间序列，GRUI的最后一个隐藏状态的顶部堆叠全连接层用于分类，并对全连接层采用了dropout剪枝技术；

生成器由GRUI层和全连接层组成，且生成器是一个自馈网络，即生成器的当前输出将被馈送到同一细胞的下一次迭代中；

步骤3，首先针对其它空气质量监测点提供的实测数据筛选出气象条件作为预报因子，以缩小数据范围；接着以训练好的生成对抗网络A的判别器训练其他空气质量监测点的生成器，网络结构与损失函数与训练生成对抗网络A时完全一致，最终得到多个空气质量监测点的生成对抗网络的生成器，生成器的数量与空气质量监测点的数量一致，通过得到的生成器预测和修正对应空气质量监测点的一次预报数据，并作为二次预报模型的输入；

2.根据权利要求1所述基于生成对抗网络的空气质量预测优化方法，其特征在于，所述空气质量监测点原有模型为WRF-CMAQ模型。

3.根据权利要求1所述基于生成对抗网络的空气质量预测优化方法，其特征在于，所述步骤2，在训练过程中，先随机生成若干高斯分布的初始化向量作为噪声，将所述噪声传入生成伪时间序列的生成器和区分伪数据和真实数据的判别器实现平衡，使得判别器判别正确和判别错误的概率均达到0.5，当生成的数据真实的概率最大时，停止训练。

4.根据权利要求1所述基于生成对抗网络的空气质量预测优化方法，其特征在于，所述步骤4，将各空气质量监测点训练好的生成器做同构集成，再结合各生成器的权重w，建立一个同时适用于各空气质量监测点的二次预报模型，将各生成器预测与修正的一次预报数据进行加权平均求和，作为二次预报模型的输入，最后通过二次预报模型计算输出相应AQI和首要污染物，进而预测空气质量。

5.根据权利要求1所述基于生成对抗网络的空气质量预测优化方法，其特征在于，所述空气质量监测点的数量至少为3个。