CN114565136B - 一种基于生成对抗网络的空气质量预测优化方法 - Google Patents
一种基于生成对抗网络的空气质量预测优化方法 Download PDFInfo
- Publication number
- CN114565136B CN114565136B CN202210103413.7A CN202210103413A CN114565136B CN 114565136 B CN114565136 B CN 114565136B CN 202210103413 A CN202210103413 A CN 202210103413A CN 114565136 B CN114565136 B CN 114565136B
- Authority
- CN
- China
- Prior art keywords
- air quality
- data
- quality monitoring
- prediction
- generators
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000005457 optimization Methods 0.000 title claims abstract description 12
- 238000012544 monitoring process Methods 0.000 claims abstract description 83
- 239000003344 environmental pollutant Substances 0.000 claims abstract description 32
- 231100000719 pollutant Toxicity 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims 1
- 238000005259 measurement Methods 0.000 abstract description 14
- 230000008485 antagonism Effects 0.000 abstract description 5
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 18
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 11
- 229910002091 carbon monoxide Inorganic materials 0.000 description 11
- 239000000356 contaminant Substances 0.000 description 11
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- JCXJVPUVTGWSNB-UHFFFAOYSA-N nitrogen dioxide Inorganic materials O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 9
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000013618 particulate matter Substances 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 239000000809 air pollutant Substances 0.000 description 1
- 231100001243 air pollutant Toxicity 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000000926 atmospheric chemistry Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于生成对抗网络的空气质量预测优化方法,收集数据若干空气质量监测点的实测数据和一次预报数据;利用空气质量监测点A的实测数据,训练生成对抗网络A,对其它空气质量监测点的实测数据,分别利用生成对抗网络A的判别器继续训练,得到多个生成器,通过得到的生成器预测和修正对应空气质量监测点的一次预报数据,并作为二次预报模型的输入;根据各空气质量监测点的生成器,对每一个空气质量监测点生成器的预测结果进行集成,建立一个协同时空的二次预报模型,并通过该模型得到污染物的浓度值单日预报,并计算相应AQI和首要污染物。本发明可降低预测结果误差,提高预报的准确性。
Description
技术领域
本发明属于人工智能技术领域,特别涉及一种基于生成对抗网络的空气质量预测优化方法。
背景技术
包括一氧化碳(CO),臭氧(O3),细颗粒物(PM2.5)等在内的有害物质以超出正常标准范围的浓度存在于大气中,对生态系统和环境有着严重损害。
目前常用WRF-CMAQ模拟体系(以下简称WRF-CMAQ模型)对空气质量进行预报。WRF-CMAQ模型主要包括WRF和CMAQ两部分:WRF是一种中尺度数值天气预报系统,用于为CMAQ提供所需的气象场数据;CMAQ是一种三维欧拉大气化学与传输模拟系统,其根据来自WRF的气象信息及场域内的污染排放清单,基于物理和化学反应原理模拟污染物等的变化过程,继而得到具体时间点或时间段的预报结果。
但受制于模拟的气象场以及排放清单的不确定性,以及对包括臭氧在内的污染物生成机理的不完全明晰,WRF-CMAQ模型的预报结果并不理想。其中,由于实际气象条件对空气质量影响很大(例如湿度降低有利于臭氧的生成),臭氧污染形成过程受到多种一次污染物因素及光照强度等气象因素影响,使得WRF-CMAQ的预报结果存在较大偏差。
发明内容
为了克服上述现有技术的缺点,解决WRF-CMAQ模型的不鲁棒性,本发明的目的在于提供一种基于生成对抗网络的空气质量预测优化方法,利用空气质量监测点实际监测得到的数据(简称为“实测数据”),对WRF-CMAQ模型运行产生的不准确数据(简称为“一次预报数据”)进行修正,最终能够结合时序性和区域相关性二次建模,达到更好的预测效果,该方法可以在现有的数据基础上进一步提高效率,同时改善实际气象条件对空气的影响,进一步提高污染物浓度预报准确性。
为了实现上述目的,本发明采用的技术方案是:
一种基于生成对抗网络的空气质量预测优化方法,包括如下步骤:
步骤1,收集数据,所述数据包括地理位置相邻的若干空气质量监测点在一段时间内的实测数据和一次预报数据;
步骤2,利用空气质量监测点A的实测数据,训练生成对抗网络A,训练完毕后,生成对抗网络A的生成器能够预测数据;
步骤3,对其它空气质量监测点的实测数据,分别利用生成对抗网络A的判别器继续训练,得到多个生成器,生成器的数量与空气质量监测点的数量一致,通过得到的生成器预测和修正对应空气质量监测点的一次预报数据,并作为二次预报模型的输入;
步骤4,根据各空气质量监测点的生成器,对每一个空气质量监测点生成器的预测结果进行集成,建立一个协同时空的二次预报模型,并通过该模型得到污染物的浓度值单日预报,并计算相应AQI和首要污染物。
在实施例中,所述步骤1,实测数据为空气质量监测点实际监测得到的数据;一次预报数据为空气质量监测点原有模型运行产生的预测数据。所述实测数据和一次预报数据中含有缺失值,因此可引入掩码矩阵表示每一条时间序列中的缺失值为0,非缺失值为1,从而有效利用数据中的非缺失数据。
在实施例中,所述空气质量监测点原有模型为WRF-CMAQ模型。
在实施例中,所述步骤2,要训练生成对抗网络A,需先确认生成对抗网络的结构和损失函数,网络结构引入门控循环单元(GRUI)作为主网络,损失函数选用WGAN的损失函数。
在实施例中,所述步骤2,在训练过程中,先随机生成若干高斯分布的初始化向量作为噪声,将所述噪声传入生成伪时间序列的生成器和区分伪数据和真实数据的判别器实现平衡,使得判别器判别正确和判别错误的概率均达到0.5,当生成的数据真实的概率最大时,停止训练。
在实施例中,所述步骤3,首先针对其它空气质量监测点提供的数据筛选出预报效果相对较好、预报准确率相对较高的气象条件作为预报因子,以缩小数据范围;接着以训练好的生成对抗网络A的判别器训练其他空气质量监测点的生成器,网络结构与损失函数与训练生成对抗网络A时完全一致,最终得到多个空气质量监测点的生成对抗网络的生成器,该生成器能够对一次预报数据做预测与修正。
在实施例中,所述步骤4,将各空气质量监测点训练好的生成器做同构集成,再结合各生成器的权重w,建立一个同时适用于各空气质量监测点的二次预报模型,将各生成器预测与修正的一次预报数据进行加权平均求和,作为二次预报模型的输入,最后通过二次预报模型计算输出相应AQI和首要污染物,进而预测空气质量。
在实施例中,所述空气质量监测点的数量至少为3个。
与现有技术相比,本发明的有益效果是:
现有的空气质量预测模型主要指的是WRF-CMAQ模拟体系,但该模型但受制于模拟的气象场以及排放清单的不确定性,以及对包括臭氧在内的污染物生成机理的不完全明晰,WRF-CMAQ预报模型的结果也就是一次预报数据并不理想。
本发明在此基础上,使用气象、环境预报模式评估采用的统计指标进行评价,评价WRF-CMAQ一次预报模型在多个监测点的各项浓度预报。然后,根据上一步评价得出预测值与实测值之间的关系,降低预测结果误差,提高预报的准确性,建立一个同时适用于多个监测点的时间二次预报数据模型,确保模型具有一定的鲁棒性,适用于更多场景。
附图说明
图1是本发明实施例的主要流程示意图。
图2是本发明实施例的详细流程示意图。
图3是本发明GRUI单元示意图。
图4是本发明集成学习结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明实施方案作进一步详细描述。
本发明可能涉及到的参数介绍如下:
SO2,二氧化硫;PM2.5,细颗粒物;PM10,可吸入颗粒物;CO,一氧化碳;O3,臭氧;NO2,二氧化氮;IAQI,空气质量分指数;AQI,空气质量指数;CP,污染物P的质量浓度值;BPHi,与CP相近的污染物浓度限值的高位值;BPLo,与CP相近的污染物浓度限值的低位值;IAQIHi,与BPHi对应的空气质量分指数;IAQILo,与BPLo对应的空气质量分指数;RMSE,均方根误差;MB,平均偏差;MFE,标准化分数误差;MFB,标准化分数偏差;HAC,层次聚合聚类。
本发明为一种基于生成对抗网络的空气质量预测方法,以空气质量监测点的数量为3个为例,对本发明作出详细描述,3个空气质量监测点分别定义为监测点A、监测点B和监测点C,其处于相邻的地理位置,本发明中的相邻,指具有空气质量预报意义上的相邻,例如,空气质量监测点两两间直线距离小于100km,相邻区域的污染物浓度之间会相互影响。本实施例中,监测点A与B、C的距离分别为14.6km、10.1km。
本实施例利用GAN,GAN能够从随机的“噪声”中生成“真实”的样本,受GAN在图像填充方面的成功启发,利用GAN对原始的不完整时间序列数据进行生成作为预测结果。数据来自于监测点A、B、C逐小时的实测数据和一次预报数据。其中,实测数据时间跨度为2019-4-16至2021-7-13,监测点A共19432条实测数据,监测点B共19598条实测数据,监测点C共19491条实测数据。一次预报数据的时间跨度为2020-7-23至2021-7-13,监测点A共25416条一次预报数据,监测点B共25416条一次预报数据,监测点C共25344条一次预报数据。其中,一次预报数据为监测点原有模型运行产生的预测数据,该原有模型一般指本领域通常部署的WRF-CMAQ模型。
参考图1和图2,本发明的步骤具体包括:
步骤1:针对监测点A训练生成对抗网络A,并从中得到生成对抗网络A的生成器与判别器。
监测点A的实测数据或一次预报数据中,污染物浓度是一个6维(6种空气污染物)的多变量时间序列X的集合,在时间序列T={t0,…,tn-1}下,表示为其中/>是在X时刻下的检测值,/>是/>的第一个j个变量。例如,d=6,n=3,“none”是缺失值,具体X由以下公式给出:
如上,获取的数据基于时序关系且有缺失值(“none”值),所以,为了降低缺失值对预测结果的影响,引入掩码矩阵M来表示时间序列中的值是否存在,如果存在,则否则/>
接下来确定生成对抗网络的结构、损失函数以及训练方法。本发明中,网络结构引入门控循环单元(GRUI)作为主网络,其可以考虑非固定时间滞后,并减弱由时间滞后决定的过去观测数据的影响。
GRUI单元结构如图3所示,其计算表达如下:
其中μ是更新门,r是重置门,是隐藏门,σ是sigmoid激活函数,Wμ,Wr,/>bμ,br,/>是训练参数,⊙是元素相乘。
为保证时序关系的稳定,本发明对生成器与判别器结构进行了如下调整。第一,判别器由GRUI层组成,目的是学习不完整或完整的时间序列。第二,GRUI的最后一个隐藏状态的顶部堆叠全连接层用于分类。第三,为了防止过拟合,对全连接层采用了dropout剪枝技术。第四,为确保生成样本的时延与原始样本的时延相同,生成器也由GRUI层和全连接层组成。第五,生成器是一个自馈网络,这意味着生成器的当前输出将被馈送到同一细胞的下一次迭代中。
接着确定网络的损失函数。GAN由生成器和判别器组成。生成器学习到一个映射G(z),试图将随机噪声向量映射到真实的时间序列。判别器试图找到一个映射来告诉我们输入数据是真实的概率。由于模型坍塌问题,传统GAN很难训练。WGAN是GAN的另一种训练方式,它使用了比原来更容易训练的Wasserstein距离,可以有效避免模型坍塌问题。WGAN可以提高学习阶段的稳定性,避免模式崩溃的问题,为GAN模型的优化提供了方便。在本发明中,使用了WGAN的损失函数,WGAN的损耗函数由以下公式给出:
训练过程分为两个阶段:在第一阶段,通过在GAN中的判别器和生成器中采用GRUI,训练有素的对抗性模型可以学习整个数据集的分布、观测之间的隐含关系以及数据集的时间信息。在第二阶段,训练生成器的输入“噪声”,使生成的时间序列尽可能接近原始的不完全时间序列,即随机生成若干高斯分布的初始化向量作为噪声,将噪声传入生成伪时间序列的生成器和区分伪数据和真实数据的判别器实现平衡,使得判别器判别正确和判别错误的概率均达到0.5。当生成的数据真实的概率最大时,停止训练。此时得到生成对抗网络A,其生成器为一个弱学习器,可以对一次预报数据做预测和修正。
步骤2:在得到生成对抗网络A之后,利用其中的判别器作为训练监测点B、C的判别器,从而分别得到监测点B、C的生成器。
由于数据提供的气象条件太多,可以先通过预报因子缩小范围。在监测点B、C提供的数据中,筛选出预报因子主要选择能进行预报且预报效果相对较好、预报准确率相对较高的气象条件,以缩小数据范围。初步选取实测数据6项中的温度、湿度、气压,一次预报数据15项中的比湿、短波辐射、地面太阳能辐射、近地10米风速、近地10米风向、边界层高度。具体选取方法采用Metropolis采样算法。Metropolis采样算法解决的问题是;从一个复杂的目标分布获取近似的样本。
利用对抗学习机制可以有效提升模型泛化能力的特点,在为监测点A构建的生成对抗网络的基础上,使用监测点B、C的数据训练生成器,形成适用性更强的污染物浓度预测模型,此步骤训练网络和之前训练监测点A的生成对抗网络完全一致。
使用预报因子的数据训练为时序深度学习模型,即生成对抗网络。一次预报数据和实测数据均存在缺失和偏差。训练过程中,利用MCMC方法为模型训练数据提供标签,综合使用一次预报数据和实测数据标注训练数据。MCMC的具体做法是当污染物浓度一次预报数据与后续污染物浓度实测数据近似时,以一次预报数据作为标签,而当二者不相似时,以一定概率使用一次预报数据作为标签,否则使用后续实测数据作为标签。证明这一过程可以真实反映一次预测数据的准确性,优化二次建模准确性。然后,用训练好的生成对抗网络A的判别器作为判别器,使用监测点B、C的数据训练生成器,网络结构与损失函数与训练生成对抗网络A时完全一致,最终得到适用性更强的污染物浓度预测模型,即相应的生成对抗网络,并由此得到适用于三个监测点的三个生成器,该生成器能够对一次预报数据做预测与修正。
步骤3:根据各空气质量监测点的生成器,对每一个空气质量监测点生成器的预测结果进行集成,建立一个协同时空的二次预报模型,并通过该模型得到污染物的浓度值单日预报,并计算相应AQI和首要污染物。
因为不同监测点之间除距离外,监测方式都相同。所以本发明选用同构集成的集成学习方法,通过多个学习器的集成来处理分析。使用一系列学习器进行学习,并使用模型融合方法把各个学习结果进行整合,从而获得比单个学习器更好的学习效果的一种机器学习方法。集成算法由两部分组成:一部分是利用之前得到的三个生成单个的生成器也即弱学习器,另一部分则是利用下文将它们的输出结果进行融合,如图4所示。
利用同构集成的集成学习方法,一部分之前训练得到的三个生成器也即弱学习器,另一部分则是利用每个生成器也即弱学习器的权重,将它们的输出结果进行加权平均求和,完成适用监测点A,B,C的二次预报模型。具体流程为:
(1)将监测点A、B、C训练得到的三个生成器作为三个弱学习器h1,h2,h3。
(2)结合策略为加权平均,每个弱学习器有一个权重w,则最终预测是:
最终将经过三个监测点生成器预测修正的一次预报数据作为二次预报模型的输入,传入二次预报模型中,并计算AQI和首要污染物。
时间同样选取2020年7月23日-8月23日污染物浓度一次预报数据与预测三天的首天数据,在5个常见的气象预测准确性度量参数,相关系数(R)、均方根误差(RMSE)、平均偏差(MB)、标准化分数误差(MFE)和标准化分数偏差(MFB)。模式预报效果的“达标”范围为-60%≤MFB≤60%、MFE≤75%而“优秀”范围为-30%≤MFB≤30%、MFE≤50%。
表3-1监测点A模型评价指标表
污染物 | R | MB | MFB | MFE | RMSE |
SO2 | 0.11 | 11.17 | 65.01% | 96.5% | 11.17 |
NO2 | 0.10 | -10.70 | -91.16% | 83.15% | 10.70 |
CO | 0.07 | 10.37 | 64.74% | 80.75% | 10.37 |
O3 | 0.15 | -14.46 | 94.55% | 91.64% | 14.46 |
PM10 | 0.16 | -11.90 | -79.10% | 78.83% | 11.90 |
PM2.5 | 0.13 | 10.08 | 66.51% | 88.81% | 10.08 |
表3-2监测点B模型评价指标表
污染物 | R | MB | MFB | MFE | RMSE |
SO2 | 0.22 | -12.51 | 91.5% | 96.97% | 12.51 |
NO2 | 0.06 | -13.10 | 85.07% | 87.14% | 13.10 |
CO | 0.22 | 12.16 | -80.1% | 77.71% | 12.16 |
O3 | 0.16 | -11.64 | 67.93% | 80.91% | 11.64 |
PM10 | 0.15 | 11.81 | -72.24% | 98.3% | 11.81 |
PM2.5 | 0.20 | 14.56 | 62.7% | 96.05% | 14.56 |
表3-3监测点C模型评价指标表
污染物 | R | MB | MFB | MFE | RMSE |
SO2 | 0.11 | 11.17 | 65.01% | 96.5% | 11.17 |
NO2 | 0.10 | -10.70 | -91.16% | 83.15% | 10.70 |
CO | 0.07 | 10.37 | 64.74% | 80.75% | 10.37 |
O3 | 0.15 | -14.46 | 94.55% | 91.64% | 14.46 |
PM10 | 0.16 | -11.90 | -79.10% | 78.83% | 11.90 |
PM2.5 | 0.13 | 10.08 | 66.51% | 88.81% | 10.08 |
表3-1到表3-5是通过五项统计指标评估3个监测点一次预报模型的浓度预报,由表可知,时间选取2020年7月23日-8月23日污染物浓度实测与预测3天的第1天的数据,监测点A、监测点B、监测点C三个监测点的各项污染物浓度指标与实测数据的误差及偏差较大,证明一次模型预测效果很差。
表3-4监测点A模型评价指标表
污染物 | R | MB | MFB | MFE | RMSE |
SO2 | 0.26 | -9.47 | 59.11% | 68.44% | 9.47 |
NO2 | 0.39 | 9.28 | 39.81% | 50.40% | 9.28 |
CO | 0.23 | -10.84 | -53.87% | 54.84% | 10.84 |
O3 | 0.23 | 7.30 | -39.34% | 76.12% | 7.30 |
PM10 | 0.31 | -7.38 | -54.25% | 57.91% | 7.38 |
PM2.5 | 0.44 | 6.14 | -58.26% | 52.73% | 6.14 |
表3-5监测点B模型评价指标表
污染物 | R | MB | MFB | MFE | RMSE |
SO2 | 0.26 | 8.34 | -57.91% | 52.6% | 8.34 |
NO2 | 0.33 | -6.50 | -43.0% | 49.6% | 6.50 |
CO | 0.35 | 7.77 | 62.0% | 48.23% | 7.77 |
O3 | 0.40 | 10.42 | 42.0% | 53.76% | 10.42 |
PM10 | 0.43 | 5.0 | 42.0% | 56.52% | 5.0 |
PM2.5 | 0.42 | 5.77 | 50.0% | 73.07% | 5.77 |
表3-6监测点C模型评价指标表
污染物 | R | MB | MFB | MFE | RMSE |
SO2 | 0.32 | 7.92 | -34.29% | 78.07% | 7.92 |
NO2 | 0.43 | -11.08 | -56.22% | 67.31% | 11.08 |
CO | 0.42 | -7.94 | -53.97% | 44.86% | 7.94 |
O3 | 0.44 | 9.33 | 48.85% | 54.84% | 9.33 |
PM10 | 0.44 | 11.82 | 58.66% | 54.97% | 11.82 |
PM2.5 | 0.27 | 7.41 | 40.16% | 62.51% | 7.41 |
根据本发明的方法,使用一次预报模型的评价指标,对二次预报数据模型进行评价。由表3-4到表3-6可知,时间同样选取2020年7月23日-8月23日污染物浓度实测与预测3天的首天的数据,与一次预报模型的监测点A、监测点B、监测点C三个监测相比,二次预报模型R更大、RMSE更小、ME更小等各项污染物浓度指标与实测数据的误差及偏差较小,证明二次模型预测效果较好。
收集监测点A、B、C从2020年8月25日到8月28日PM2.5,NO2,SO2,CO,O3,PM10这六类数据的值,确定这六项污染物的浓度限值mg/m3及对应的污染物项目浓度限值,得到下表各项污染物浓度数值并根据这一数值计算出AQI和首要污染物。
3-7二次预报模型污染物浓度及AQI预测结果表
根据该表,可根据各项污染物浓度数值计算出AQI和首要污染物,公式如下:
Claims (5)
1.一种基于生成对抗网络的空气质量预测优化方法,其特征在于,包括如下步骤:
步骤1,收集数据,所述数据包括地理位置相邻的若干空气质量监测点在一段时间内的实测数据和一次预报数据;实测数据为空气质量监测点实际监测得到的数据;一次预报数据为空气质量监测点原有模型运行产生的预测数据,引入掩码矩阵表示每一条时间序列中的缺失值为0,非缺失值为1,从而有效利用数据中的非缺失数据;
步骤2,利用空气质量监测点A的实测数据,训练生成对抗网络A,训练完毕后,生成对抗网络A的生成器能够预测数据;网络结构引入门控循环单元(GRUI)作为主网络,损失函数选用WGAN的损失函数;
其中:
判别器由GRUI层组成,目的是学习不完整或完整的时间序列,GRUI的最后一个隐藏状态的顶部堆叠全连接层用于分类,并对全连接层采用了dropout剪枝技术;
生成器由GRUI层和全连接层组成,且生成器是一个自馈网络,即生成器的当前输出将被馈送到同一细胞的下一次迭代中;
步骤3,首先针对其它空气质量监测点提供的实测数据筛选出气象条件作为预报因子,以缩小数据范围;接着以训练好的生成对抗网络A的判别器训练其他空气质量监测点的生成器,网络结构与损失函数与训练生成对抗网络A时完全一致,最终得到多个空气质量监测点的生成对抗网络的生成器,生成器的数量与空气质量监测点的数量一致,通过得到的生成器预测和修正对应空气质量监测点的一次预报数据,并作为二次预报模型的输入;
步骤4,根据各空气质量监测点的生成器,对每一个空气质量监测点生成器的预测结果进行集成,建立一个协同时空的二次预报模型,并通过该模型得到污染物的浓度值单日预报,并计算相应AQI和首要污染物。
2.根据权利要求1所述基于生成对抗网络的空气质量预测优化方法,其特征在于,所述空气质量监测点原有模型为WRF-CMAQ模型。
3.根据权利要求1所述基于生成对抗网络的空气质量预测优化方法,其特征在于,所述步骤2,在训练过程中,先随机生成若干高斯分布的初始化向量作为噪声,将所述噪声传入生成伪时间序列的生成器和区分伪数据和真实数据的判别器实现平衡,使得判别器判别正确和判别错误的概率均达到0.5,当生成的数据真实的概率最大时,停止训练。
4.根据权利要求1所述基于生成对抗网络的空气质量预测优化方法,其特征在于,所述步骤4,将各空气质量监测点训练好的生成器做同构集成,再结合各生成器的权重w,建立一个同时适用于各空气质量监测点的二次预报模型,将各生成器预测与修正的一次预报数据进行加权平均求和,作为二次预报模型的输入,最后通过二次预报模型计算输出相应AQI和首要污染物,进而预测空气质量。
5.根据权利要求1所述基于生成对抗网络的空气质量预测优化方法,其特征在于,所述空气质量监测点的数量至少为3个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210103413.7A CN114565136B (zh) | 2022-01-27 | 2022-01-27 | 一种基于生成对抗网络的空气质量预测优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210103413.7A CN114565136B (zh) | 2022-01-27 | 2022-01-27 | 一种基于生成对抗网络的空气质量预测优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114565136A CN114565136A (zh) | 2022-05-31 |
CN114565136B true CN114565136B (zh) | 2024-01-26 |
Family
ID=81712902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210103413.7A Active CN114565136B (zh) | 2022-01-27 | 2022-01-27 | 一种基于生成对抗网络的空气质量预测优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114565136B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072873B (zh) * | 2024-04-19 | 2024-07-05 | 西南石油大学 | 一种空气质量预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273995A (zh) * | 2016-04-08 | 2017-10-20 | 株式会社日立制作所 | 空气质量预报方法 |
CN110261547A (zh) * | 2019-07-04 | 2019-09-20 | 北京思路创新科技有限公司 | 一种空气质量预报方法和设备 |
CN111369057A (zh) * | 2020-03-05 | 2020-07-03 | 电子科技大学 | 一种基于深度学习的空气质量预测优化方法及系统 |
CN113298230A (zh) * | 2021-05-14 | 2021-08-24 | 西安理工大学 | 一种基于生成对抗网络的不平衡数据集的预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11195125B2 (en) * | 2016-04-27 | 2021-12-07 | International Business Machines Corporation | Pollution prediction |
-
2022
- 2022-01-27 CN CN202210103413.7A patent/CN114565136B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273995A (zh) * | 2016-04-08 | 2017-10-20 | 株式会社日立制作所 | 空气质量预报方法 |
CN110261547A (zh) * | 2019-07-04 | 2019-09-20 | 北京思路创新科技有限公司 | 一种空气质量预报方法和设备 |
CN111369057A (zh) * | 2020-03-05 | 2020-07-03 | 电子科技大学 | 一种基于深度学习的空气质量预测优化方法及系统 |
CN113298230A (zh) * | 2021-05-14 | 2021-08-24 | 西安理工大学 | 一种基于生成对抗网络的不平衡数据集的预测方法 |
Non-Patent Citations (1)
Title |
---|
生成对抗网络理论模型和应用综述;徐一峰;;金华职业技术学院学报(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114565136A (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114280696B (zh) | 一种海雾等级智能预报方法及系统 | |
CN108426812B (zh) | 一种基于记忆神经网络的pm2.5浓度值预测方法 | |
CN113919448A (zh) | 一种任意时空位置二氧化碳浓度预测影响因素分析方法 | |
CN111665575B (zh) | 一种基于统计动力的中长期降雨分级耦合预报方法及系统 | |
Penalba et al. | A data-driven long-term metocean data forecasting approach for the design of marine renewable energy systems | |
CN113496104A (zh) | 基于深度学习的降水预报订正方法及系统 | |
CN114781538B (zh) | 一种ga-bp神经网络耦合决策树的空气质量预测方法和系统 | |
Zhou et al. | Exploring Copula-based Bayesian Model Averaging with multiple ANNs for PM2. 5 ensemble forecasts | |
CN110909924A (zh) | 基于交叉熵优化器的城市扩张多情景模拟元胞自动机方法 | |
Mahesh et al. | Forecasting El Niño with convolutional and recurrent neural networks | |
CN114676822A (zh) | 一种基于深度学习的多属性融合空气质量预报方法 | |
CN115438848A (zh) | 基于深度混合图神经网络的pm2.5浓度长期预测方法 | |
Chen et al. | Generative machine learning methods for multivariate ensemble postprocessing | |
CN114912343A (zh) | 基于lstm神经网络的空气质量二次预报模型构建方法 | |
CN114565136B (zh) | 一种基于生成对抗网络的空气质量预测优化方法 | |
Ashrafi et al. | Prediction of climate change induced temperature rise in regional scale using neural network | |
CN114880933A (zh) | 一种基于再分析资料的无探空站点地基微波辐射计大气温湿廓线反演方法及系统 | |
CN117109582A (zh) | 结合传感网络和机器学习的大气污染源定位系统及方法 | |
CN118052300A (zh) | 一种基于机器学习的空气质量数值模型和统计模型融合方法 | |
CN117744849A (zh) | 基于混合深度神经网络的pm2.5浓度预测方法、系统及设备 | |
KR20230123574A (ko) | 인공지능 전이학습을 이용한 미세먼지 예측, 환기제어시스템 및 방법 | |
CN114998719A (zh) | 一种基于深度学习和多源遥感数据的林火预测方法 | |
Schütz et al. | Improving classification‐based nowcasting of radiation fog with machine learning based on filtered and preprocessed temporal data | |
Awang et al. | Forecasting ozone concentration levels using Box-Jenkins ARIMA modelling and artificial neural networks: A comparative study | |
Allen | Advanced statistical post-processing of ensemble weather forecasts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |