CN116307292A - 一种基于机器学习和集成学习的空气质量预报优化方法 - Google Patents

一种基于机器学习和集成学习的空气质量预报优化方法 Download PDF

Info

Publication number
CN116307292A
CN116307292A CN202310572023.9A CN202310572023A CN116307292A CN 116307292 A CN116307292 A CN 116307292A CN 202310572023 A CN202310572023 A CN 202310572023A CN 116307292 A CN116307292 A CN 116307292A
Authority
CN
China
Prior art keywords
data
pollutant
air quality
monitoring data
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310572023.9A
Other languages
English (en)
Other versions
CN116307292B (zh
Inventor
刘莹
徐学哲
殷馨玉
童军华
阳成强
余雪
徐增增
郭旗扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Zhongkelanyi Information Technology Co ltd
Original Assignee
Anhui Zhongkelanyi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Zhongkelanyi Information Technology Co ltd filed Critical Anhui Zhongkelanyi Information Technology Co ltd
Priority to CN202310572023.9A priority Critical patent/CN116307292B/zh
Publication of CN116307292A publication Critical patent/CN116307292A/zh
Application granted granted Critical
Publication of CN116307292B publication Critical patent/CN116307292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Atmospheric Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Ecology (AREA)
  • Environmental Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及空气质量预报技术领域,具体公开了一种基于机器学习和集成学习的空气质量预报优化方法。本发明通过获取气象监测数据和污染物监测数据,并获取WRF气象预报数据和空气质量模型的CMAQ污染物预报数据;构建第一训练集和第一测试集;对第一层集成学习模型进行训练和测试,并预测获取空气质量特征;构建第二训练集和第二测试集;对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值。能够利用历史气象和污染物的监测数据,结合气象预报数据和污染物预报数据,通过第一层集成学习模型提取空气质量特征,结合第二层树类机器学习模型对目标污染物预报数据进行本地化修正,达到校准污染物预报值的目的。

Description

一种基于机器学习和集成学习的空气质量预报优化方法
技术领域
本发明属于空气质量预报技术领域,尤其涉及一种基于机器学习和集成学习的空气质量预报优化方法。
背景技术
随着经济和城市化的快速发展,空气污染形势日益严峻,SO2(二氧化硫)、NO2(二氧化氮)、NO(一氧化氮)、PM2.5以及PM10等浓度不断增加,严重影响了区域生态环境质量和公众健康。因此,建立精准的污染物预测模型,准确预报空气质量,为相关部门制定污染防控策略提供预警依据,将对大气环境污染综合防治、降低人群暴露风险具有重要的现实意义和应用价值。
当前,污染物浓度预测手段主要采用基于理化过程的数值预报模式,数值预报模式基于严格的物理化学方程,能够对区域大尺度空气污染物浓度实现空间全覆盖模拟,但受实时排放清单限制,模拟数据产品空间分辨率和精度都整体较低;且第三代空气质量预报模式Models-3/CMAQ广泛应用于PM2.5和臭氧(O3)浓度预测,但其预测变量受排放源清单的不确定性、模式的物理和化学机制极为复杂等因素的影响,与实际分布偏差较大,导致空气质量模式CMAQ对主要污染物的预报误差较大。
发明内容
本发明实施例的目的在于提供一种基于机器学习和集成学习的空气质量预报优化方法,旨在解决背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种基于机器学习和集成学习的空气质量预报优化方法,所述方法具体包括以下步骤:
获取历史记录的气象监测数据和污染物监测数据,并获取中尺度气象模型的WRF气象预报数据和空气质量模型的CMAQ污染物预报数据;
对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理,构建第一训练集和第一测试集;
根据所述第一训练集和所述第一测试集,对第一层集成学习模型进行训练和测试,并预测获取空气质量特征;
将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理,构建第二训练集和第二测试集;
根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值。
作为本发明实施例技术方案进一步的限定,所述对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理,构建第一训练集和第一测试集具体包括以下步骤:
对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行特征预处理、特征衍生、特征筛选和时序特征提取,利用时间序列转换为第一输入输出顺序对;
将所述第一输入输出顺序对划分为比例为4:1的第一预训练集和第一预测试集;
利用最小最大规格化,对所述第一预训练集和所述第一预测试集进行缩放,得到第一缩放训练集和第一缩放测试集;
根据第一层集成学习模型的格式要求,将所述第一缩放训练集和所述第一缩放测试集转化为第一训练集和第一测试集。
作为本发明实施例技术方案进一步的限定,所述最小最大规格化的表达式为:
Figure SMS_1
其中,max表示数据的最大值,min表示数据的最小值,x表示规格化转换前的数值,x*表示缩放后的数值。
作为本发明实施例技术方案进一步的限定,所述对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行特征预处理、特征衍生、特征筛选和时序特征提取,利用时间序列转换为第一输入输出顺序对具体包括以下步骤:
对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行因素选取;
因素选取之后,对数据进行除时间外的异常值的判定和处理;
异常值的判定和处理之后,对数据进行空值处理;
空值处理之后,对气象监测数据进行业务特征衍生;
确定业务特征衍生后的气象监测数据对应时刻的目标污染物监测值,并进行相关性计算,设置相关性阈值,保留大于相关性阈值的气象因素;
在每个时刻,取前72小时的气象监测数据、前72小时的污染物监测数据以及未来H1时间段的目标污染物监测数据,利用时间序列转换为第一输入输出顺序对。
作为本发明实施例技术方案进一步的限定,所述根据所述第一训练集和所述第一测试集,对第一层集成学习模型进行训练和测试,并预测获取空气质量特征具体包括以下步骤:
将所述第一训练集输入至第一层集成学习模型中进行训练;
利用网格搜索和交叉验证对所述第一层集成学习模型进行寻优,获取各个最优模型的优超参数;
根据所述优超参数,第一层集成学习模型利用所述第一训练集和所述第一测试集进行训练和测试,通过多步预测获取未来H1时间段的目标变量预测值,作为基于集成学习的空气质量特征。
作为本发明实施例技术方案进一步的限定,所述将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理,构建第二训练集和第二测试集具体包括以下步骤:
将所述WRF气象预报数据和所述CMAQ污染物预报数据根据时间进行数据合并,获得预报数据集;
利用最小最大规格化,对所述预报数据集进行缩放,得到预报缩放数据集;
根据未来H1时间段的日期和时间,将所述预报缩放数据集、所述空气质量特征和所述目标污染物监测数据合并,并转换为第二输入输出顺序对;
将第二输入输出顺序对划分为比例为4:1的第二训练集和第二测试集。
作为本发明实施例技术方案进一步的限定,所述根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值具体包括以下步骤:
根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行模型训练和测试,获取未来H1时间段的目标污染物的预测修正值;
利用最小最大反规格化,对所述预测修正值进行缩放,获得目标污染物修正值。
作为本发明实施例技术方案进一步的限定,所述最小最大反规格化的表达式为:
Figure SMS_2
其中,
Figure SMS_3
是指经过预测后的数值,即反规格化转换前的数值,max表示数据的最大值,min表示数据的最小值,/>
Figure SMS_4
表示放大后的数值。
作为本发明实施例技术方案进一步的限定,所述气象监测数据包括时间、瞬时温度、地面气压、相对湿度、2分钟平均风向、2分钟平均风速、1小时降水和10分钟平均能见度变量;所述污染物监测数据包括时间、SO2、NO、NO2、NOx、CO、O3、PM10和PM2.5变量;所述WRF气象预报数据包括时间、湿度、温度、边界层高度、太阳辐射、降水、风速和风向变量;所述CMAQ污染物预报数据包括时间、PM2.5、PM10、O3、CO、NO2和SO2变量。
作为本发明实施例技术方案进一步的限定,所述第一层集成学习模型由两类机器学习模型并联式集成,包括递归类神经网络模型和卷积类神经网络模型;所述第二层树类机器学习模型包括随机森林、XGBoost和Catboost;所述第一层集成学习模型与所述第二层树类机器学习模型串联式耦合。
与现有技术相比,本发明的有益效果是:
1、本发明实施例能够利用历史气象和污染物的监测数据,结合气象预报数据和污染物预报数据,通过第一层集成学习模型提取空气质量特征,结合第二层树类机器学习模型对目标污染物预报数据进行本地化修正,达到校准污染物预报值的目的,能有效地纠正空气质量模型CMAQ的目标污染物预报变量和实际分布的偏差;
2、利用集成学习同时以并联结构和串联结构将所述递归类神经网络模型、卷积类神经网络、树类机器学习模型的优点级联,提高总体预测性能;
3、利用树类机器学习算法的集成模型,引入了两层随机性,有效避免过拟合问题,同时提高模型对本地污染物预测的泛化能力;
4、能够利用预测时间点前的最新历史实测气象和空气质量信息,弥补空气质量模型滞后性的问题,并结合预报数据实现对目标污染物预报变量本地化修正的目的。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1示出了本发明实施例提供的方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解的是,现有的技术中,污染物浓度预测手段主要采用基于理化过程的数值预报模式,数值预报模式基于严格的物理化学方程,能够对区域大尺度空气污染物浓度实现空间全覆盖模拟,但受实时排放清单限制,模拟数据产品空间分辨率和精度都整体较低;且第三代空气质量预报模式Models-3/CMAQ广泛应用于PM2.5和臭氧(O3)浓度预测,但其预测变量受排放源清单的不确定性、模式的物理和化学机制极为复杂等因素的影响,与实际分布偏差较大,导致空气质量模式CMAQ对主要污染物的预报误差较大。
为解决上述问题,本发明实施例通过获取气象监测数据和污染物监测数据,并获取WRF气象预报数据和空气质量模型的CMAQ污染物预报数据;构建第一训练集和第一测试集;对第一层集成学习模型进行训练和测试,并预测获取空气质量特征;构建第二训练集和第二测试集;对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值。能够利用历史气象和污染物的监测数据,结合气象预报数据和污染物预报数据,通过第一层集成学习模型提取空气质量特征,结合第二层树类机器学习模型对目标污染物预报数据进行本地化修正,达到校准污染物预报值的目的。
图1示出了本发明实施例提供的方法的流程图。
具体的,在本发明提供的一个优选实施方式中,一种基于机器学习和集成学习的空气质量预报优化方法,所述方法具体包括以下步骤:
步骤S101,获取历史记录的气象监测数据和污染物监测数据,并获取中尺度气象模型的WRF气象预报数据和空气质量模型的CMAQ污染物预报数据。
在本发明实施例中,从监测站获取历史记录的气象监测数据和污染物监测数据,并获取中尺度气象模型的WRF气象预报数据和空气质量模型的CMAQ污染物预报数据。
步骤S102,对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理,构建第一训练集和第一测试集。
在本发明实施例中,对气象监测数据、污染物监测数据、WRF气象预报数据和CMAQ污染物预报数据进行因素选取,之后,对选取的气象监测数据、污染物监测数据、WRF气象预报数据和CMAQ污染物预报数据进行除时间外的异常值的判定和处理,若数据由实际数值和文本组成,则剔除文本部分(例如:气象监测数据中“2分钟平均风向”变量的值为“73/ENE”,则删去文本部分,保留数值“73”。),再对异常值处理后的数据进行空值处理,使用前一个非空数值填补空值,进而对气象监测数据进行业务特征衍生,并根据对应日期,将数值分配到小时数值中(例如:将年、月、日、小时从数据的时间中提取出来,计算瞬时温度、地面气压、相对湿度、1小时降水、10分钟平均能见度等因素的日均值、日标准差、日最大值、日最小值、与上一个值的差值、日降雨小时数等统计值,并根据对应日期,将数值分配到小时数值中。),通过确定业务特征衍生后的气象监测数据对应时刻的目标污染物监测值,进行相关性计算,且设置相关性阈值,保留大于相关性阈值的气象因素(例如:对业务特征衍生后的气象监测数据与对应时刻的PM2.5浓度监测值进行相关性的计算,设置相关性阈值为0.35,保留相关性大于0.35的气象因素),在每个时刻,取前72小时的气象监测数据、前72小时的污染物监测数据以及未来H1时间段的目标污染物监测数据,利用时间序列转换为第一输入输出顺序对,将第一输入输出顺序对划分为比例为4:1的第一预训练集和第一预测试集,利用最小最大规格化,将第一预训练集和第一预测试集进行缩放处理,得到第一缩放训练集和第一缩放测试集,最后根据第一层集成学习模型的格式要求,将第一缩放训练集和第一缩放测试集转化为第一训练集和第一测试集。
具体的,最小最大规格化的表达式为:
Figure SMS_5
其中,max表示数据的最大值,min表示数据的最小值,x表示规格化转换前的数值,x*表示缩放后的数值。
可以理解的是,气象监测数据包括时间、瞬时温度、地面气压、相对湿度、2分钟平均风向、2分钟平均风速、1小时降水和10分钟平均能见度变量;污染物监测数据包括时间、SO2、NO、NO2、NOx、CO、O3、PM10和PM2.5变量; WRF气象预报数据包括时间、湿度、温度、边界层高度、太阳辐射、降水、风速和风向变量; CMAQ污染物预报数据包括时间、PM2.5、PM10、O3、CO、NO2和SO2变量。因此,在进行因素选取中:气象监测数据时间、瞬时温度、地面气压、相对湿度、2分钟平均风向、2分钟平均风速、1小时降水和10分钟平均能见度变量;污染物监测数据选取时间、SO2、NO、NO2、NOx、CO、O3、PM10和PM2.5变量;WRF气象预报数据选取时间、湿度、温度、边界层高度、太阳辐射、降水、风速和风向变量; CMAQ污染物预报数据选取时间、PM2.5、PM10、O3、CO、NO2和SO2变量。
步骤S103,根据所述第一训练集和所述第一测试集,对第一层集成学习模型进行训练和测试,并预测获取空气质量特征。
在本发明实施例中,将第一训练集输入至第一层集成学习模型中进行训练,再利用网格搜索和交叉验证对第一层集成学习模型进行寻优,获取各个最优模型的优超参数,进而根据优超参数,第一层集成学习模型中的机器学习模型利用第一训练集和第一测试集进行训练和测试,通过多步预测获取各个模型未来H1时间段的目标变量预测值,作为基于集成学习的空气质量特征。
步骤S104,将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理,构建第二训练集和第二测试集。
在本发明实施例中,将WRF气象预报数据和CMAQ污染物预报数据根据时间进行数据合并,获得预报数据集,进而利用最小最大规格化,将预报数据集进行缩放处理,得到预报缩放数据集,再根据未来H1时间段的日期和时间,将预报缩放数据集、空气质量特征和目标污染物监测数据进行合并,之后转化为第二输入输出顺序对,将第二输入输出顺序对按照4:1的比例划分,得到第二训练集和第二测试集。
步骤S105,根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值。
在本发明实施例中,根据第二训练集和第二测试集,对第二层树类机器学习模型进行模型训练和测试,获取未来H1时间段的目标污染物的预测修正值,再利用最小最大反规格化,将预测修正值进行缩放处理,得到目标污染物修正值。
具体的,最小最大反规格化的表达式为:
Figure SMS_6
其中,
Figure SMS_7
是指经过预测后的数值,即反规格化转换前的数值,max表示数据的最大值,min表示数据的最小值,/>
Figure SMS_8
表示放大后的数值。
可以理解的是,第一层集成学习模型由两类机器学习模型并联式集成,包括递归类神经网络模型和卷积类神经网络模型;第二层树类机器学习模型包括随机森林、XGBoost和Catboost;第一层集成学习模型与第二层树类机器学习模型串联式耦合;递归类神经网络模型主要为长短时记忆网络LSTM,包括第一个LSTM网络(LSTM1)、第二个LSTM网络(LSTM2);卷积类神经网络模型主要为卷积神经网络(CNN)和引入LSTM层的卷积神经网络,包括第一个卷积神经网络(CNN1)、第二个卷积神经网络(CNN2)、CNN-LSTM。
具体的,在本发明中,随机森林的基分类器的数量为88;XGBoost的基分类器的数量为70;Catboost的基分类器的数量为250;LSTM1包括依次连接的LSTM层、全连接层;LSTM层中神经元的个数为40个;全连接层中神经元的个数为H1的小时数;LSTM2包括依次连接的第一LSTM层、第一Dropout层、第二LSTM层、第二Dropout层、第三LSTM层、第三Dropout层、全连接层;第一LSTM层、第二LSTM层、第三LSTM层中神经元的个数为32个;第一Dropout层、第二Dropout层、第三Dropout层的Dropout率为0.2;CNN1包括依次连接的卷积层、池化层、Flatten层、第一全连接层、第二全连接层;卷积层中神经元的个数为64个;池化层中核大小为2;第一全连接层中神经元的个数为64个;第二全连接层中神经元的个数为H1的小时数;CNN2包括依次连接的第一卷积层、第一激活层、第一池化层、第二卷积层、第二激活层、第三卷积层、第三激活层、第二池化层、Flatten层、第一全连接层、第二全连接层;第一卷积层中神经元的个数为32个;第一池化层中核大小为2;第二卷积层中神经元的个数为64个;第三卷积层中神经元的个数为64个;第二池化层中核大小为2;第一全连接层中神经元的个数为64个;第二全连接层中神经元的个数为H1的小时数;CNN-LSTM包括依次连接的卷积层、池化层、LSTM层、全连接层、激活层;卷积层中神经元的个数为64个;池化层中核大小为2;LSTM层中神经元的个数为70个。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述方法具体包括以下步骤:
获取历史记录的气象监测数据和污染物监测数据,并获取中尺度气象模型的WRF气象预报数据和空气质量模型的CMAQ污染物预报数据;
对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理,构建第一训练集和第一测试集;
根据所述第一训练集和所述第一测试集,对第一层集成学习模型进行训练和测试,并预测获取空气质量特征;
将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理,构建第二训练集和第二测试集;
根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值。
2.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理,构建第一训练集和第一测试集具体包括以下步骤:
对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行特征预处理、特征衍生、特征筛选和时序特征提取,利用时间序列转换为第一输入输出顺序对;
将所述第一输入输出顺序对划分为比例为4:1的第一预训练集和第一预测试集;
利用最小最大规格化,对所述第一预训练集和所述第一预测试集进行缩放,得到第一缩放训练集和第一缩放测试集;
根据第一层集成学习模型的格式要求,将所述第一缩放训练集和所述第一缩放测试集转化为第一训练集和第一测试集。
3.根据权利要求2所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述最小最大规格化的表达式为:
Figure QLYQS_1
其中,max表示数据的最大值,min表示数据的最小值,x表示规格化转换前的数值,x*表示缩放后的数值。
4.根据权利要求2所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行特征预处理、特征衍生、特征筛选和时序特征提取,利用时间序列转换为第一输入输出顺序对具体包括以下步骤:
对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行因素选取;
因素选取之后,对数据进行除时间外的异常值的判定和处理;
异常值的判定和处理之后,对数据进行空值处理;
空值处理之后,对气象监测数据进行业务特征衍生;
确定业务特征衍生后的气象监测数据对应时刻的目标污染物监测值,并进行相关性计算,设置相关性阈值,保留大于相关性阈值的气象因素;
在每个时刻,取前72小时的气象监测数据、前72小时的污染物监测数据以及未来H1时间段的目标污染物监测数据,利用时间序列转换为第一输入输出顺序对。
5.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述根据所述第一训练集和所述第一测试集,对第一层集成学习模型进行训练和测试,并预测获取空气质量特征具体包括以下步骤:
将所述第一训练集输入至第一层集成学习模型中进行训练;
利用网格搜索和交叉验证对所述第一层集成学习模型进行寻优,获取各个最优模型的优超参数;
根据所述优超参数,第一层集成学习模型利用所述第一训练集和所述第一测试集进行训练和测试,通过多步预测获取未来H1时间段的目标变量预测值,作为基于集成学习的空气质量特征。
6.根据权利要求4所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理,构建第二训练集和第二测试集具体包括以下步骤:
将所述WRF气象预报数据和所述CMAQ污染物预报数据根据时间进行数据合并,获得预报数据集;
利用最小最大规格化,对所述预报数据集进行缩放,得到预报缩放数据集;
根据未来H1时间段的日期和时间,将所述预报缩放数据集、所述空气质量特征和所述目标污染物监测数据合并,并转换为第二输入输出顺序对;
将第二输入输出顺序对划分为比例为4:1的第二训练集和第二测试集。
7.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行训练和测试,并获取目标污染物修正值具体包括以下步骤:
根据所述第二训练集和所述第二测试集,对第二层树类机器学习模型进行模型训练和测试,获取未来H1时间段的目标污染物的预测修正值;
利用最小最大反规格化,对所述预测修正值进行缩放,获得目标污染物修正值。
8.根据权利要求7所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述最小最大反规格化的表达式为:
Figure QLYQS_2
其中,
Figure QLYQS_3
是指经过预测后的数值,即反规格化转换前的数值,max表示数据的最大值,min表示数据的最小值,/>
Figure QLYQS_4
表示放大后的数值。
9.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述气象监测数据包括时间、瞬时温度、地面气压、相对湿度、2分钟平均风向、2分钟平均风速、1小时降水和10分钟平均能见度变量;所述污染物监测数据包括时间、SO2、NO、NO2、NOx、CO、O3、PM10和PM2.5变量;所述WRF气象预报数据包括时间、湿度、温度、边界层高度、太阳辐射、降水、风速和风向变量;所述CMAQ污染物预报数据包括时间、PM2.5、PM10、O3、CO、NO2和SO2变量。
10.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法,其特征在于,所述第一层集成学习模型由两类机器学习模型并联式集成,包括递归类神经网络模型和卷积类神经网络模型;所述第二层树类机器学习模型包括随机森林、XGBoost和Catboost;所述第一层集成学习模型与所述第二层树类机器学习模型串联式耦合。
CN202310572023.9A 2023-05-22 2023-05-22 一种基于机器学习和集成学习的空气质量预报优化方法 Active CN116307292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310572023.9A CN116307292B (zh) 2023-05-22 2023-05-22 一种基于机器学习和集成学习的空气质量预报优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310572023.9A CN116307292B (zh) 2023-05-22 2023-05-22 一种基于机器学习和集成学习的空气质量预报优化方法

Publications (2)

Publication Number Publication Date
CN116307292A true CN116307292A (zh) 2023-06-23
CN116307292B CN116307292B (zh) 2023-08-04

Family

ID=86818943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310572023.9A Active CN116307292B (zh) 2023-05-22 2023-05-22 一种基于机器学习和集成学习的空气质量预报优化方法

Country Status (1)

Country Link
CN (1) CN116307292B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI662422B (zh) * 2018-04-23 2019-06-11 國家中山科學研究院 Air quality prediction method based on machine learning model
CN111369057A (zh) * 2020-03-05 2020-07-03 电子科技大学 一种基于深度学习的空气质量预测优化方法及系统
CN111832814A (zh) * 2020-07-01 2020-10-27 北京工商大学 一种基于图注意力机制的空气污染物浓度预测方法
US20210201205A1 (en) * 2019-12-26 2021-07-01 Wipro Limited Method and system for determining correctness of predictions performed by deep learning model
CN113379148A (zh) * 2021-06-24 2021-09-10 合肥工业大学智能制造技术研究院 基于多种机器学习算法融合的污染物浓度反演方法
CN114548591A (zh) * 2022-03-01 2022-05-27 重庆邮电大学 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统
CN114580696A (zh) * 2020-12-02 2022-06-03 中国人民解放军战略支援部队信息工程大学 一种pm2.5浓度预测方法
US20220343221A1 (en) * 2018-06-28 2022-10-27 Ashton Robinson Cook Machine learning-based disaster modeling and high-impact weather event forecasting
WO2023005120A1 (zh) * 2021-07-27 2023-02-02 上海上实龙创智能科技股份有限公司 楼宇能耗预测方法、装置、计算机设备和存储介质
CN115730684A (zh) * 2022-12-09 2023-03-03 安徽大学 一种基于lstm-cnn模型的空气质量检测系统
US20230131036A1 (en) * 2021-10-26 2023-04-27 Wuhan University Retrieval method for surface ozone based on surface ultraviolet radiation irradiance

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI662422B (zh) * 2018-04-23 2019-06-11 國家中山科學研究院 Air quality prediction method based on machine learning model
US20220343221A1 (en) * 2018-06-28 2022-10-27 Ashton Robinson Cook Machine learning-based disaster modeling and high-impact weather event forecasting
US20210201205A1 (en) * 2019-12-26 2021-07-01 Wipro Limited Method and system for determining correctness of predictions performed by deep learning model
CN111369057A (zh) * 2020-03-05 2020-07-03 电子科技大学 一种基于深度学习的空气质量预测优化方法及系统
CN111832814A (zh) * 2020-07-01 2020-10-27 北京工商大学 一种基于图注意力机制的空气污染物浓度预测方法
CN114580696A (zh) * 2020-12-02 2022-06-03 中国人民解放军战略支援部队信息工程大学 一种pm2.5浓度预测方法
CN113379148A (zh) * 2021-06-24 2021-09-10 合肥工业大学智能制造技术研究院 基于多种机器学习算法融合的污染物浓度反演方法
WO2023005120A1 (zh) * 2021-07-27 2023-02-02 上海上实龙创智能科技股份有限公司 楼宇能耗预测方法、装置、计算机设备和存储介质
US20230131036A1 (en) * 2021-10-26 2023-04-27 Wuhan University Retrieval method for surface ozone based on surface ultraviolet radiation irradiance
CN114548591A (zh) * 2022-03-01 2022-05-27 重庆邮电大学 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统
CN115730684A (zh) * 2022-12-09 2023-03-03 安徽大学 一种基于lstm-cnn模型的空气质量检测系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIU, DUEN‐REN: "Air pollution forecasting based on attention‐based LSTM neural network and ensemble learning", 《EXPERT SYSTEMS》 *
于伸庭;刘萍;: "基于长短期记忆网络-卷积神经网络(LSTM-CNN)的北京市PM_(2.5)浓度预测", 环境工程, no. 06 *
周扬: "上海市能见度时空特征及预测研究", 《中国优秀硕士学位论文全文数据库 基础科学辑(月刊)》, no. 11 *
陈春玮: "基于双向循环神经网络的空气质量预测模型的实现", 《科学技术创新》, no. 28 *

Also Published As

Publication number Publication date
CN116307292B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN109802430B (zh) 一种基于LSTM-Attention网络的风电电网控制方法
Alencar et al. Hybrid approach combining SARIMA and neural networks for multi-step ahead wind speed forecasting in Brazil
CN112465243B (zh) 一种空气质量预报方法及系统
Đozić et al. Application of artificial neural networks for testing long-term energy policy targets
CN111626518A (zh) 基于深度学习神经网络的城市天级需水量在线预测方法
CN114358213B (zh) 非线性时序数据预测的误差消融处理方法及系统与介质
CN117394306B (zh) 基于新能源并网的风电功率预测模型建立方法及其应用
Awan et al. Application of artificial neural networks for monsoon rainfall prediction
Ordieres-Meré et al. Predicting ground level ozone in Marrakesh by machine-learning techniques
CN109615147A (zh) 一种未来72小时大气污染预报预警方法
CN113111592A (zh) 一种基于emd-lstm的短期风电功率预测方法
Ashrafi et al. Prediction of climate change induced temperature rise in regional scale using neural network
CN113537591A (zh) 长期天气预测方法、装置、计算机设备及存储介质
CN116013426A (zh) 一种高时空分辨率的站点臭氧浓度预测方法
Omoyele et al. Increasing the resolution of solar and wind time series for energy system modeling: A review
CN111680712A (zh) 基于日内相似时刻的变压器油温预测方法、装置及系统
CN115238948A (zh) 小水电发电量预测方法及装置
CN116307292B (zh) 一种基于机器学习和集成学习的空气质量预报优化方法
CN117665975A (zh) 一种基于迁移学习和lstm的降水预测方法
CN117154682B (zh) 一种基于神经网络的光伏系统功率预测方法及装置
CN116774316A (zh) 短临降水的预测方法、装置、存储介质及计算机设备
CN116565850A (zh) 一种基于qr-blstm的风电功率超短期预测方法
CN114254828B (zh) 一种基于混合卷积特征提取器和gru的电力负荷预测方法
CN113723670B (zh) 变时间窗口的光伏发电功率短期预测方法
Caraka et al. Employing moving average long short term memory for predicting rainfall

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant