CN116307292A - 一种基于机器学习和集成学习的空气质量预报优化方法 - Google Patents
一种基于机器学习和集成学习的空气质量预报优化方法 Download PDFInfo
- Publication number
- CN116307292A CN116307292A CN202310572023.9A CN202310572023A CN116307292A CN 116307292 A CN116307292 A CN 116307292A CN 202310572023 A CN202310572023 A CN 202310572023A CN 116307292 A CN116307292 A CN 116307292A
- Authority
- CN
- China
- Prior art keywords
- data
- pollutant
- air quality
- monitoring data
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000005457 optimization Methods 0.000 title claims abstract description 17
- 239000003344 environmental pollutant Substances 0.000 claims abstract description 100
- 231100000719 pollutant Toxicity 0.000 claims abstract description 100
- 238000012544 monitoring process Methods 0.000 claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000012360 testing method Methods 0.000 claims abstract description 64
- 238000012937 correction Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 10
- 238000009795 derivation Methods 0.000 claims description 9
- 238000001556 precipitation Methods 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 239000000356 contaminant Substances 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000005855 radiation Effects 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims 1
- MWUXSHHQAYIFBG-UHFFFAOYSA-N Nitric oxide Chemical compound O=[N] MWUXSHHQAYIFBG-UHFFFAOYSA-N 0.000 description 18
- 210000002569 neuron Anatomy 0.000 description 13
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 2
- 239000000809 air pollutant Substances 0.000 description 2
- 231100001243 air pollutant Toxicity 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 description 1
- 102100033620 Calponin-1 Human genes 0.000 description 1
- 102100033591 Calponin-2 Human genes 0.000 description 1
- 101000945318 Homo sapiens Calponin-1 Proteins 0.000 description 1
- 101000945403 Homo sapiens Calponin-2 Proteins 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- JCXJVPUVTGWSNB-UHFFFAOYSA-N nitrogen dioxide Inorganic materials O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/10—Devices for predicting weather conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Environmental & Geological Engineering (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Tourism & Hospitality (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Atmospheric Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Ecology (AREA)
- Environmental Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及空气质量预报技术领域,具体公开了一种基于机器学习和集成学习的空气质量预报优化方法。本发明通过获取气象监测数据和污染物监测数据,并获取WRF气象预报数据和空气质量模型的CMAQ污染物预报数据;构建第一训练集和第一测试集;对第一层集成学习模型进行训练和测试,并预测获取空气质量特征;构建第二训练集和第二测试集;对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值。能够利用历史气象和污染物的监测数据,结合气象预报数据和污染物预报数据,通过第一层集成学习模型提取空气质量特征,结合第二层树类机器学习模型对目标污染物预报数据进行本地化修正,达到校准污染物预报值的目的。
Description
技术领域
本发明属于空气质量预报技术领域,尤其涉及一种基于机器学习和集成学习的空气质量预报优化方法。
背景技术
随着经济和城市化的快速发展,空气污染形势日益严峻,SO2(二氧化硫)、NO2(二氧化氮)、NO(一氧化氮)、PM2.5以及PM10等浓度不断增加,严重影响了区域生态环境质量和公众健康。因此,建立精准的污染物预测模型,准确预报空气质量,为相关部门制定污染防控策略提供预警依据,将对大气环境污染综合防治、降低人群暴露风险具有重要的现实意义和应用价值。
当前,污染物浓度预测手段主要采用基于理化过程的数值预报模式,数值预报模式基于严格的物理化学方程,能够对区域大尺度空气污染物浓度实现空间全覆盖模拟,但受实时排放清单限制,模拟数据产品空间分辨率和精度都整体较低;且第三代空气质量预报模式Models-3/CMAQ广泛应用于PM2.5和臭氧(O3)浓度预测,但其预测变量受排放源清单的不确定性、模式的物理和化学机制极为复杂等因素的影响,与实际分布偏差较大,导致空气质量模式CMAQ对主要污染物的预报误差较大。
发明内容
本发明实施例的目的在于提供一种基于机器学习和集成学习的空气质量预报优化方法,旨在解决背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种基于机器学习和集成学习的空气质量预报优化方法,所述方法具体包括以下步骤:
获取历史记录的气象监测数据和污染物监测数据,并获取中尺度气象模型的WRF气象预报数据和空气质量模型的CMAQ污染物预报数据;
对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理,构建第一训练集和第一测试集;
根据所述第一训练集和所述第一测试集,对第一层集成学习模型进行训练和测试,并预测获取空气质量特征;
将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理,构建第二训练集和第二测试集;
根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值。
作为本发明实施例技术方案进一步的限定,所述对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理,构建第一训练集和第一测试集具体包括以下步骤:
对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行特征预处理、特征衍生、特征筛选和时序特征提取,利用时间序列转换为第一输入输出顺序对;
将所述第一输入输出顺序对划分为比例为4:1的第一预训练集和第一预测试集;
利用最小最大规格化,对所述第一预训练集和所述第一预测试集进行缩放,得到第一缩放训练集和第一缩放测试集;
根据第一层集成学习模型的格式要求,将所述第一缩放训练集和所述第一缩放测试集转化为第一训练集和第一测试集。
作为本发明实施例技术方案进一步的限定,所述最小最大规格化的表达式为:
其中,max表示数据的最大值,min表示数据的最小值,x表示规格化转换前的数值,x*表示缩放后的数值。
作为本发明实施例技术方案进一步的限定,所述对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行特征预处理、特征衍生、特征筛选和时序特征提取,利用时间序列转换为第一输入输出顺序对具体包括以下步骤:
对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行因素选取;
因素选取之后,对数据进行除时间外的异常值的判定和处理;
异常值的判定和处理之后,对数据进行空值处理;
空值处理之后,对气象监测数据进行业务特征衍生;
确定业务特征衍生后的气象监测数据对应时刻的目标污染物监测值,并进行相关性计算,设置相关性阈值,保留大于相关性阈值的气象因素;
在每个时刻,取前72小时的气象监测数据、前72小时的污染物监测数据以及未来H1时间段的目标污染物监测数据,利用时间序列转换为第一输入输出顺序对。
作为本发明实施例技术方案进一步的限定,所述根据所述第一训练集和所述第一测试集,对第一层集成学习模型进行训练和测试,并预测获取空气质量特征具体包括以下步骤:
将所述第一训练集输入至第一层集成学习模型中进行训练;
利用网格搜索和交叉验证对所述第一层集成学习模型进行寻优,获取各个最优模型的优超参数;
根据所述优超参数,第一层集成学习模型利用所述第一训练集和所述第一测试集进行训练和测试,通过多步预测获取未来H1时间段的目标变量预测值,作为基于集成学习的空气质量特征。
作为本发明实施例技术方案进一步的限定,所述将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理,构建第二训练集和第二测试集具体包括以下步骤:
将所述WRF气象预报数据和所述CMAQ污染物预报数据根据时间进行数据合并,获得预报数据集;
利用最小最大规格化,对所述预报数据集进行缩放,得到预报缩放数据集;
根据未来H1时间段的日期和时间,将所述预报缩放数据集、所述空气质量特征和所述目标污染物监测数据合并,并转换为第二输入输出顺序对;
将第二输入输出顺序对划分为比例为4:1的第二训练集和第二测试集。
作为本发明实施例技术方案进一步的限定,所述根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值具体包括以下步骤:
根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行模型训练和测试,获取未来H1时间段的目标污染物的预测修正值;
利用最小最大反规格化,对所述预测修正值进行缩放,获得目标污染物修正值。
作为本发明实施例技术方案进一步的限定,所述最小最大反规格化的表达式为:
作为本发明实施例技术方案进一步的限定,所述气象监测数据包括时间、瞬时温度、地面气压、相对湿度、2分钟平均风向、2分钟平均风速、1小时降水和10分钟平均能见度变量;所述污染物监测数据包括时间、SO2、NO、NO2、NOx、CO、O3、PM10和PM2.5变量;所述WRF气象预报数据包括时间、湿度、温度、边界层高度、太阳辐射、降水、风速和风向变量;所述CMAQ污染物预报数据包括时间、PM2.5、PM10、O3、CO、NO2和SO2变量。
作为本发明实施例技术方案进一步的限定,所述第一层集成学习模型由两类机器学习模型并联式集成,包括递归类神经网络模型和卷积类神经网络模型;所述第二层树类机器学习模型包括随机森林、XGBoost和Catboost;所述第一层集成学习模型与所述第二层树类机器学习模型串联式耦合。
与现有技术相比,本发明的有益效果是:
1、本发明实施例能够利用历史气象和污染物的监测数据,结合气象预报数据和污染物预报数据,通过第一层集成学习模型提取空气质量特征,结合第二层树类机器学习模型对目标污染物预报数据进行本地化修正,达到校准污染物预报值的目的,能有效地纠正空气质量模型CMAQ的目标污染物预报变量和实际分布的偏差;
2、利用集成学习同时以并联结构和串联结构将所述递归类神经网络模型、卷积类神经网络、树类机器学习模型的优点级联,提高总体预测性能;
3、利用树类机器学习算法的集成模型,引入了两层随机性,有效避免过拟合问题,同时提高模型对本地污染物预测的泛化能力;
4、能够利用预测时间点前的最新历史实测气象和空气质量信息,弥补空气质量模型滞后性的问题,并结合预报数据实现对目标污染物预报变量本地化修正的目的。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1示出了本发明实施例提供的方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解的是,现有的技术中,污染物浓度预测手段主要采用基于理化过程的数值预报模式,数值预报模式基于严格的物理化学方程,能够对区域大尺度空气污染物浓度实现空间全覆盖模拟,但受实时排放清单限制,模拟数据产品空间分辨率和精度都整体较低;且第三代空气质量预报模式Models-3/CMAQ广泛应用于PM2.5和臭氧(O3)浓度预测,但其预测变量受排放源清单的不确定性、模式的物理和化学机制极为复杂等因素的影响,与实际分布偏差较大,导致空气质量模式CMAQ对主要污染物的预报误差较大。
为解决上述问题,本发明实施例通过获取气象监测数据和污染物监测数据,并获取WRF气象预报数据和空气质量模型的CMAQ污染物预报数据;构建第一训练集和第一测试集;对第一层集成学习模型进行训练和测试,并预测获取空气质量特征;构建第二训练集和第二测试集;对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值。能够利用历史气象和污染物的监测数据,结合气象预报数据和污染物预报数据,通过第一层集成学习模型提取空气质量特征,结合第二层树类机器学习模型对目标污染物预报数据进行本地化修正,达到校准污染物预报值的目的。
图1示出了本发明实施例提供的方法的流程图。
具体的,在本发明提供的一个优选实施方式中,一种基于机器学习和集成学习的空气质量预报优化方法,所述方法具体包括以下步骤:
步骤S101,获取历史记录的气象监测数据和污染物监测数据,并获取中尺度气象模型的WRF气象预报数据和空气质量模型的CMAQ污染物预报数据。
在本发明实施例中,从监测站获取历史记录的气象监测数据和污染物监测数据,并获取中尺度气象模型的WRF气象预报数据和空气质量模型的CMAQ污染物预报数据。
步骤S102,对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理,构建第一训练集和第一测试集。
在本发明实施例中,对气象监测数据、污染物监测数据、WRF气象预报数据和CMAQ污染物预报数据进行因素选取,之后,对选取的气象监测数据、污染物监测数据、WRF气象预报数据和CMAQ污染物预报数据进行除时间外的异常值的判定和处理,若数据由实际数值和文本组成,则剔除文本部分(例如:气象监测数据中“2分钟平均风向”变量的值为“73/ENE”,则删去文本部分,保留数值“73”。),再对异常值处理后的数据进行空值处理,使用前一个非空数值填补空值,进而对气象监测数据进行业务特征衍生,并根据对应日期,将数值分配到小时数值中(例如:将年、月、日、小时从数据的时间中提取出来,计算瞬时温度、地面气压、相对湿度、1小时降水、10分钟平均能见度等因素的日均值、日标准差、日最大值、日最小值、与上一个值的差值、日降雨小时数等统计值,并根据对应日期,将数值分配到小时数值中。),通过确定业务特征衍生后的气象监测数据对应时刻的目标污染物监测值,进行相关性计算,且设置相关性阈值,保留大于相关性阈值的气象因素(例如:对业务特征衍生后的气象监测数据与对应时刻的PM2.5浓度监测值进行相关性的计算,设置相关性阈值为0.35,保留相关性大于0.35的气象因素),在每个时刻,取前72小时的气象监测数据、前72小时的污染物监测数据以及未来H1时间段的目标污染物监测数据,利用时间序列转换为第一输入输出顺序对,将第一输入输出顺序对划分为比例为4:1的第一预训练集和第一预测试集,利用最小最大规格化,将第一预训练集和第一预测试集进行缩放处理,得到第一缩放训练集和第一缩放测试集,最后根据第一层集成学习模型的格式要求,将第一缩放训练集和第一缩放测试集转化为第一训练集和第一测试集。
具体的,最小最大规格化的表达式为:
其中,max表示数据的最大值,min表示数据的最小值,x表示规格化转换前的数值,x*表示缩放后的数值。
可以理解的是,气象监测数据包括时间、瞬时温度、地面气压、相对湿度、2分钟平均风向、2分钟平均风速、1小时降水和10分钟平均能见度变量;污染物监测数据包括时间、SO2、NO、NO2、NOx、CO、O3、PM10和PM2.5变量; WRF气象预报数据包括时间、湿度、温度、边界层高度、太阳辐射、降水、风速和风向变量; CMAQ污染物预报数据包括时间、PM2.5、PM10、O3、CO、NO2和SO2变量。因此,在进行因素选取中:气象监测数据时间、瞬时温度、地面气压、相对湿度、2分钟平均风向、2分钟平均风速、1小时降水和10分钟平均能见度变量;污染物监测数据选取时间、SO2、NO、NO2、NOx、CO、O3、PM10和PM2.5变量;WRF气象预报数据选取时间、湿度、温度、边界层高度、太阳辐射、降水、风速和风向变量; CMAQ污染物预报数据选取时间、PM2.5、PM10、O3、CO、NO2和SO2变量。
步骤S103,根据所述第一训练集和所述第一测试集,对第一层集成学习模型进行训练和测试,并预测获取空气质量特征。
在本发明实施例中,将第一训练集输入至第一层集成学习模型中进行训练,再利用网格搜索和交叉验证对第一层集成学习模型进行寻优,获取各个最优模型的优超参数,进而根据优超参数,第一层集成学习模型中的机器学习模型利用第一训练集和第一测试集进行训练和测试,通过多步预测获取各个模型未来H1时间段的目标变量预测值,作为基于集成学习的空气质量特征。
步骤S104,将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理,构建第二训练集和第二测试集。
在本发明实施例中,将WRF气象预报数据和CMAQ污染物预报数据根据时间进行数据合并,获得预报数据集,进而利用最小最大规格化,将预报数据集进行缩放处理,得到预报缩放数据集,再根据未来H1时间段的日期和时间,将预报缩放数据集、空气质量特征和目标污染物监测数据进行合并,之后转化为第二输入输出顺序对,将第二输入输出顺序对按照4:1的比例划分,得到第二训练集和第二测试集。
步骤S105,根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值。
在本发明实施例中,根据第二训练集和第二测试集,对第二层树类机器学习模型进行模型训练和测试,获取未来H1时间段的目标污染物的预测修正值,再利用最小最大反规格化,将预测修正值进行缩放处理,得到目标污染物修正值。
具体的,最小最大反规格化的表达式为:
可以理解的是,第一层集成学习模型由两类机器学习模型并联式集成,包括递归类神经网络模型和卷积类神经网络模型;第二层树类机器学习模型包括随机森林、XGBoost和Catboost;第一层集成学习模型与第二层树类机器学习模型串联式耦合;递归类神经网络模型主要为长短时记忆网络LSTM,包括第一个LSTM网络(LSTM1)、第二个LSTM网络(LSTM2);卷积类神经网络模型主要为卷积神经网络(CNN)和引入LSTM层的卷积神经网络,包括第一个卷积神经网络(CNN1)、第二个卷积神经网络(CNN2)、CNN-LSTM。
具体的,在本发明中,随机森林的基分类器的数量为88;XGBoost的基分类器的数量为70;Catboost的基分类器的数量为250;LSTM1包括依次连接的LSTM层、全连接层;LSTM层中神经元的个数为40个;全连接层中神经元的个数为H1的小时数;LSTM2包括依次连接的第一LSTM层、第一Dropout层、第二LSTM层、第二Dropout层、第三LSTM层、第三Dropout层、全连接层;第一LSTM层、第二LSTM层、第三LSTM层中神经元的个数为32个;第一Dropout层、第二Dropout层、第三Dropout层的Dropout率为0.2;CNN1包括依次连接的卷积层、池化层、Flatten层、第一全连接层、第二全连接层;卷积层中神经元的个数为64个;池化层中核大小为2;第一全连接层中神经元的个数为64个;第二全连接层中神经元的个数为H1的小时数;CNN2包括依次连接的第一卷积层、第一激活层、第一池化层、第二卷积层、第二激活层、第三卷积层、第三激活层、第二池化层、Flatten层、第一全连接层、第二全连接层;第一卷积层中神经元的个数为32个;第一池化层中核大小为2;第二卷积层中神经元的个数为64个;第三卷积层中神经元的个数为64个;第二池化层中核大小为2;第一全连接层中神经元的个数为64个;第二全连接层中神经元的个数为H1的小时数;CNN-LSTM包括依次连接的卷积层、池化层、LSTM层、全连接层、激活层;卷积层中神经元的个数为64个;池化层中核大小为2;LSTM层中神经元的个数为70个。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述方法具体包括以下步骤:
获取历史记录的气象监测数据和污染物监测数据,并获取中尺度气象模型的WRF气象预报数据和空气质量模型的CMAQ污染物预报数据;
对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理,构建第一训练集和第一测试集;
根据所述第一训练集和所述第一测试集,对第一层集成学习模型进行训练和测试,并预测获取空气质量特征;
将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理,构建第二训练集和第二测试集;
根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值。
2.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理,构建第一训练集和第一测试集具体包括以下步骤:
对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行特征预处理、特征衍生、特征筛选和时序特征提取,利用时间序列转换为第一输入输出顺序对;
将所述第一输入输出顺序对划分为比例为4:1的第一预训练集和第一预测试集;
利用最小最大规格化,对所述第一预训练集和所述第一预测试集进行缩放,得到第一缩放训练集和第一缩放测试集;
根据第一层集成学习模型的格式要求,将所述第一缩放训练集和所述第一缩放测试集转化为第一训练集和第一测试集。
4.根据权利要求2所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行特征预处理、特征衍生、特征筛选和时序特征提取,利用时间序列转换为第一输入输出顺序对具体包括以下步骤:
对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行因素选取;
因素选取之后,对数据进行除时间外的异常值的判定和处理;
异常值的判定和处理之后,对数据进行空值处理;
空值处理之后,对气象监测数据进行业务特征衍生;
确定业务特征衍生后的气象监测数据对应时刻的目标污染物监测值,并进行相关性计算,设置相关性阈值,保留大于相关性阈值的气象因素;
在每个时刻,取前72小时的气象监测数据、前72小时的污染物监测数据以及未来H1时间段的目标污染物监测数据,利用时间序列转换为第一输入输出顺序对。
5.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述根据所述第一训练集和所述第一测试集,对第一层集成学习模型进行训练和测试,并预测获取空气质量特征具体包括以下步骤:
将所述第一训练集输入至第一层集成学习模型中进行训练;
利用网格搜索和交叉验证对所述第一层集成学习模型进行寻优,获取各个最优模型的优超参数;
根据所述优超参数,第一层集成学习模型利用所述第一训练集和所述第一测试集进行训练和测试,通过多步预测获取未来H1时间段的目标变量预测值,作为基于集成学习的空气质量特征。
6.根据权利要求4所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理,构建第二训练集和第二测试集具体包括以下步骤:
将所述WRF气象预报数据和所述CMAQ污染物预报数据根据时间进行数据合并,获得预报数据集;
利用最小最大规格化,对所述预报数据集进行缩放,得到预报缩放数据集;
根据未来H1时间段的日期和时间,将所述预报缩放数据集、所述空气质量特征和所述目标污染物监测数据合并,并转换为第二输入输出顺序对;
将第二输入输出顺序对划分为比例为4:1的第二训练集和第二测试集。
7.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值具体包括以下步骤:
根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行模型训练和测试,获取未来H1时间段的目标污染物的预测修正值;
利用最小最大反规格化,对所述预测修正值进行缩放,获得目标污染物修正值。
9.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述气象监测数据包括时间、瞬时温度、地面气压、相对湿度、2分钟平均风向、2分钟平均风速、1小时降水和10分钟平均能见度变量;所述污染物监测数据包括时间、SO2、NO、NO2、NOx、CO、O3、PM10和PM2.5变量;所述WRF气象预报数据包括时间、湿度、温度、边界层高度、太阳辐射、降水、风速和风向变量;所述CMAQ污染物预报数据包括时间、PM2.5、PM10、O3、CO、NO2和SO2变量。
10.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述第一层集成学习模型由两类机器学习模型并联式集成,包括递归类神经网络模型和卷积类神经网络模型;所述第二层树类机器学习模型包括随机森林、XGBoost和Catboost;所述第一层集成学习模型与所述第二层树类机器学习模型串联式耦合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310572023.9A CN116307292B (zh) | 2023-05-22 | 2023-05-22 | 一种基于机器学习和集成学习的空气质量预报优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310572023.9A CN116307292B (zh) | 2023-05-22 | 2023-05-22 | 一种基于机器学习和集成学习的空气质量预报优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116307292A true CN116307292A (zh) | 2023-06-23 |
CN116307292B CN116307292B (zh) | 2023-08-04 |
Family
ID=86818943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310572023.9A Active CN116307292B (zh) | 2023-05-22 | 2023-05-22 | 一种基于机器学习和集成学习的空气质量预报优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116307292B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI662422B (zh) * | 2018-04-23 | 2019-06-11 | 國家中山科學研究院 | Air quality prediction method based on machine learning model |
CN111369057A (zh) * | 2020-03-05 | 2020-07-03 | 电子科技大学 | 一种基于深度学习的空气质量预测优化方法及系统 |
CN111832814A (zh) * | 2020-07-01 | 2020-10-27 | 北京工商大学 | 一种基于图注意力机制的空气污染物浓度预测方法 |
US20210201205A1 (en) * | 2019-12-26 | 2021-07-01 | Wipro Limited | Method and system for determining correctness of predictions performed by deep learning model |
CN113379148A (zh) * | 2021-06-24 | 2021-09-10 | 合肥工业大学智能制造技术研究院 | 基于多种机器学习算法融合的污染物浓度反演方法 |
CN114548591A (zh) * | 2022-03-01 | 2022-05-27 | 重庆邮电大学 | 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统 |
CN114580696A (zh) * | 2020-12-02 | 2022-06-03 | 中国人民解放军战略支援部队信息工程大学 | 一种pm2.5浓度预测方法 |
US20220343221A1 (en) * | 2018-06-28 | 2022-10-27 | Ashton Robinson Cook | Machine learning-based disaster modeling and high-impact weather event forecasting |
WO2023005120A1 (zh) * | 2021-07-27 | 2023-02-02 | 上海上实龙创智能科技股份有限公司 | 楼宇能耗预测方法、装置、计算机设备和存储介质 |
CN115730684A (zh) * | 2022-12-09 | 2023-03-03 | 安徽大学 | 一种基于lstm-cnn模型的空气质量检测系统 |
US20230131036A1 (en) * | 2021-10-26 | 2023-04-27 | Wuhan University | Retrieval method for surface ozone based on surface ultraviolet radiation irradiance |
-
2023
- 2023-05-22 CN CN202310572023.9A patent/CN116307292B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI662422B (zh) * | 2018-04-23 | 2019-06-11 | 國家中山科學研究院 | Air quality prediction method based on machine learning model |
US20220343221A1 (en) * | 2018-06-28 | 2022-10-27 | Ashton Robinson Cook | Machine learning-based disaster modeling and high-impact weather event forecasting |
US20210201205A1 (en) * | 2019-12-26 | 2021-07-01 | Wipro Limited | Method and system for determining correctness of predictions performed by deep learning model |
CN111369057A (zh) * | 2020-03-05 | 2020-07-03 | 电子科技大学 | 一种基于深度学习的空气质量预测优化方法及系统 |
CN111832814A (zh) * | 2020-07-01 | 2020-10-27 | 北京工商大学 | 一种基于图注意力机制的空气污染物浓度预测方法 |
CN114580696A (zh) * | 2020-12-02 | 2022-06-03 | 中国人民解放军战略支援部队信息工程大学 | 一种pm2.5浓度预测方法 |
CN113379148A (zh) * | 2021-06-24 | 2021-09-10 | 合肥工业大学智能制造技术研究院 | 基于多种机器学习算法融合的污染物浓度反演方法 |
WO2023005120A1 (zh) * | 2021-07-27 | 2023-02-02 | 上海上实龙创智能科技股份有限公司 | 楼宇能耗预测方法、装置、计算机设备和存储介质 |
US20230131036A1 (en) * | 2021-10-26 | 2023-04-27 | Wuhan University | Retrieval method for surface ozone based on surface ultraviolet radiation irradiance |
CN114548591A (zh) * | 2022-03-01 | 2022-05-27 | 重庆邮电大学 | 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统 |
CN115730684A (zh) * | 2022-12-09 | 2023-03-03 | 安徽大学 | 一种基于lstm-cnn模型的空气质量检测系统 |
Non-Patent Citations (4)
Title |
---|
LIU, DUEN‐REN: "Air pollution forecasting based on attention‐based LSTM neural network and ensemble learning", 《EXPERT SYSTEMS》 * |
于伸庭;刘萍;: "基于长短期记忆网络-卷积神经网络(LSTM-CNN)的北京市PM_(2.5)浓度预测", 环境工程, no. 06 * |
周扬: "上海市能见度时空特征及预测研究", 《中国优秀硕士学位论文全文数据库 基础科学辑(月刊)》, no. 11 * |
陈春玮: "基于双向循环神经网络的空气质量预测模型的实现", 《科学技术创新》, no. 28 * |
Also Published As
Publication number | Publication date |
---|---|
CN116307292B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109802430B (zh) | 一种基于LSTM-Attention网络的风电电网控制方法 | |
Alencar et al. | Hybrid approach combining SARIMA and neural networks for multi-step ahead wind speed forecasting in Brazil | |
CN112465243B (zh) | 一种空气质量预报方法及系统 | |
Đozić et al. | Application of artificial neural networks for testing long-term energy policy targets | |
CN111626518A (zh) | 基于深度学习神经网络的城市天级需水量在线预测方法 | |
CN114358213B (zh) | 非线性时序数据预测的误差消融处理方法及系统与介质 | |
CN117394306B (zh) | 基于新能源并网的风电功率预测模型建立方法及其应用 | |
Awan et al. | Application of artificial neural networks for monsoon rainfall prediction | |
Ordieres-Meré et al. | Predicting ground level ozone in Marrakesh by machine-learning techniques | |
CN109615147A (zh) | 一种未来72小时大气污染预报预警方法 | |
CN113111592A (zh) | 一种基于emd-lstm的短期风电功率预测方法 | |
Ashrafi et al. | Prediction of climate change induced temperature rise in regional scale using neural network | |
CN113537591A (zh) | 长期天气预测方法、装置、计算机设备及存储介质 | |
CN116013426A (zh) | 一种高时空分辨率的站点臭氧浓度预测方法 | |
Omoyele et al. | Increasing the resolution of solar and wind time series for energy system modeling: A review | |
CN111680712A (zh) | 基于日内相似时刻的变压器油温预测方法、装置及系统 | |
CN115238948A (zh) | 小水电发电量预测方法及装置 | |
CN116307292B (zh) | 一种基于机器学习和集成学习的空气质量预报优化方法 | |
CN117665975A (zh) | 一种基于迁移学习和lstm的降水预测方法 | |
CN117154682B (zh) | 一种基于神经网络的光伏系统功率预测方法及装置 | |
CN116774316A (zh) | 短临降水的预测方法、装置、存储介质及计算机设备 | |
CN116565850A (zh) | 一种基于qr-blstm的风电功率超短期预测方法 | |
CN114254828B (zh) | 一种基于混合卷积特征提取器和gru的电力负荷预测方法 | |
CN113723670B (zh) | 变时间窗口的光伏发电功率短期预测方法 | |
Caraka et al. | Employing moving average long short term memory for predicting rainfall |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |