CN116307292A

CN116307292A - 一种基于机器学习和集成学习的空气质量预报优化方法

Info

Publication number: CN116307292A
Application number: CN202310572023.9A
Authority: CN
Inventors: 刘莹; 徐学哲; 殷馨玉; 童军华; 阳成强; 余雪; 徐增增; 郭旗扬
Original assignee: Anhui Zhongkelanyi Information Technology Co ltd
Current assignee: Anhui Zhongkelanyi Information Technology Co ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-06-23
Anticipated expiration: 2043-05-22
Also published as: CN116307292B

Abstract

本发明涉及空气质量预报技术领域，具体公开了一种基于机器学习和集成学习的空气质量预报优化方法。本发明通过获取气象监测数据和污染物监测数据，并获取WRF气象预报数据和空气质量模型的CMAQ污染物预报数据；构建第一训练集和第一测试集；对第一层集成学习模型进行训练和测试，并预测获取空气质量特征；构建第二训练集和第二测试集；对第二层树类机器学习模型进行训练和测试，并获取目标污染物修正值。能够利用历史气象和污染物的监测数据，结合气象预报数据和污染物预报数据，通过第一层集成学习模型提取空气质量特征，结合第二层树类机器学习模型对目标污染物预报数据进行本地化修正，达到校准污染物预报值的目的。

Description

一种基于机器学习和集成学习的空气质量预报优化方法

技术领域

本发明属于空气质量预报技术领域，尤其涉及一种基于机器学习和集成学习的空气质量预报优化方法。

背景技术

随着经济和城市化的快速发展，空气污染形势日益严峻，SO₂(二氧化硫)、NO₂(二氧化氮)、NO(一氧化氮)、PM2.5以及PM10等浓度不断增加，严重影响了区域生态环境质量和公众健康。因此，建立精准的污染物预测模型，准确预报空气质量，为相关部门制定污染防控策略提供预警依据，将对大气环境污染综合防治、降低人群暴露风险具有重要的现实意义和应用价值。

当前，污染物浓度预测手段主要采用基于理化过程的数值预报模式，数值预报模式基于严格的物理化学方程，能够对区域大尺度空气污染物浓度实现空间全覆盖模拟，但受实时排放清单限制，模拟数据产品空间分辨率和精度都整体较低；且第三代空气质量预报模式Models-3/CMAQ广泛应用于PM2.5和臭氧(O₃)浓度预测，但其预测变量受排放源清单的不确定性、模式的物理和化学机制极为复杂等因素的影响，与实际分布偏差较大，导致空气质量模式CMAQ对主要污染物的预报误差较大。

发明内容

本发明实施例的目的在于提供一种基于机器学习和集成学习的空气质量预报优化方法，旨在解决背景技术中提出的问题。

为实现上述目的，本发明实施例提供如下技术方案：

一种基于机器学习和集成学习的空气质量预报优化方法，所述方法具体包括以下步骤：

获取历史记录的气象监测数据和污染物监测数据，并获取中尺度气象模型的WRF气象预报数据和空气质量模型的CMAQ污染物预报数据；

对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理，构建第一训练集和第一测试集；

根据所述第一训练集和所述第一测试集，对第一层集成学习模型进行训练和测试，并预测获取空气质量特征；

将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理，构建第二训练集和第二测试集；

根据所述第二训练集和所述第二测试集，对第二层树类机器学习模型进行训练和测试，并获取目标污染物修正值。

作为本发明实施例技术方案进一步的限定，所述对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理，构建第一训练集和第一测试集具体包括以下步骤：

对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行特征预处理、特征衍生、特征筛选和时序特征提取，利用时间序列转换为第一输入输出顺序对；

将所述第一输入输出顺序对划分为比例为4：1的第一预训练集和第一预测试集；

利用最小最大规格化，对所述第一预训练集和所述第一预测试集进行缩放，得到第一缩放训练集和第一缩放测试集；

根据第一层集成学习模型的格式要求，将所述第一缩放训练集和所述第一缩放测试集转化为第一训练集和第一测试集。

作为本发明实施例技术方案进一步的限定，所述最小最大规格化的表达式为：

；

其中，max表示数据的最大值，min表示数据的最小值，x表示规格化转换前的数值，x*表示缩放后的数值。

作为本发明实施例技术方案进一步的限定，所述对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行特征预处理、特征衍生、特征筛选和时序特征提取，利用时间序列转换为第一输入输出顺序对具体包括以下步骤：

对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行因素选取；

因素选取之后，对数据进行除时间外的异常值的判定和处理；

异常值的判定和处理之后，对数据进行空值处理；

空值处理之后，对气象监测数据进行业务特征衍生；

确定业务特征衍生后的气象监测数据对应时刻的目标污染物监测值，并进行相关性计算，设置相关性阈值，保留大于相关性阈值的气象因素；

在每个时刻，取前72小时的气象监测数据、前72小时的污染物监测数据以及未来H1时间段的目标污染物监测数据，利用时间序列转换为第一输入输出顺序对。

作为本发明实施例技术方案进一步的限定，所述根据所述第一训练集和所述第一测试集，对第一层集成学习模型进行训练和测试，并预测获取空气质量特征具体包括以下步骤：

将所述第一训练集输入至第一层集成学习模型中进行训练；

利用网格搜索和交叉验证对所述第一层集成学习模型进行寻优，获取各个最优模型的优超参数；

根据所述优超参数，第一层集成学习模型利用所述第一训练集和所述第一测试集进行训练和测试，通过多步预测获取未来H1时间段的目标变量预测值，作为基于集成学习的空气质量特征。

作为本发明实施例技术方案进一步的限定，所述将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理，构建第二训练集和第二测试集具体包括以下步骤：

将所述WRF气象预报数据和所述CMAQ污染物预报数据根据时间进行数据合并，获得预报数据集；

利用最小最大规格化，对所述预报数据集进行缩放，得到预报缩放数据集；

根据未来H1时间段的日期和时间，将所述预报缩放数据集、所述空气质量特征和所述目标污染物监测数据合并，并转换为第二输入输出顺序对；

将第二输入输出顺序对划分为比例为4：1的第二训练集和第二测试集。

作为本发明实施例技术方案进一步的限定，所述根据所述第二训练集和所述第二测试集，对第二层树类机器学习模型进行训练和测试，并获取目标污染物修正值具体包括以下步骤：

根据所述第二训练集和所述第二测试集，对第二层树类机器学习模型进行模型训练和测试，获取未来H1时间段的目标污染物的预测修正值；

利用最小最大反规格化，对所述预测修正值进行缩放，获得目标污染物修正值。

作为本发明实施例技术方案进一步的限定，所述最小最大反规格化的表达式为：

；

其中，

是指经过预测后的数值，即反规格化转换前的数值，max表示数据的最大值，min表示数据的最小值，/>

表示放大后的数值。

作为本发明实施例技术方案进一步的限定，所述气象监测数据包括时间、瞬时温度、地面气压、相对湿度、2分钟平均风向、2分钟平均风速、1小时降水和10分钟平均能见度变量；所述污染物监测数据包括时间、SO₂、NO、NO₂、NO_x、CO、O₃、PM10和PM2.5变量；所述WRF气象预报数据包括时间、湿度、温度、边界层高度、太阳辐射、降水、风速和风向变量；所述CMAQ污染物预报数据包括时间、PM2.5、PM10、O₃、CO、NO₂和SO₂变量。

作为本发明实施例技术方案进一步的限定，所述第一层集成学习模型由两类机器学习模型并联式集成，包括递归类神经网络模型和卷积类神经网络模型；所述第二层树类机器学习模型包括随机森林、XGBoost和Catboost；所述第一层集成学习模型与所述第二层树类机器学习模型串联式耦合。

与现有技术相比，本发明的有益效果是：

1、本发明实施例能够利用历史气象和污染物的监测数据，结合气象预报数据和污染物预报数据，通过第一层集成学习模型提取空气质量特征，结合第二层树类机器学习模型对目标污染物预报数据进行本地化修正，达到校准污染物预报值的目的，能有效地纠正空气质量模型CMAQ的目标污染物预报变量和实际分布的偏差；

2、利用集成学习同时以并联结构和串联结构将所述递归类神经网络模型、卷积类神经网络、树类机器学习模型的优点级联，提高总体预测性能；

3、利用树类机器学习算法的集成模型，引入了两层随机性，有效避免过拟合问题，同时提高模型对本地污染物预测的泛化能力；

4、能够利用预测时间点前的最新历史实测气象和空气质量信息，弥补空气质量模型滞后性的问题，并结合预报数据实现对目标污染物预报变量本地化修正的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1示出了本发明实施例提供的方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解的是，现有的技术中，污染物浓度预测手段主要采用基于理化过程的数值预报模式，数值预报模式基于严格的物理化学方程，能够对区域大尺度空气污染物浓度实现空间全覆盖模拟，但受实时排放清单限制，模拟数据产品空间分辨率和精度都整体较低；且第三代空气质量预报模式Models-3/CMAQ广泛应用于PM2.5和臭氧(O₃)浓度预测，但其预测变量受排放源清单的不确定性、模式的物理和化学机制极为复杂等因素的影响，与实际分布偏差较大，导致空气质量模式CMAQ对主要污染物的预报误差较大。

为解决上述问题，本发明实施例通过获取气象监测数据和污染物监测数据，并获取WRF气象预报数据和空气质量模型的CMAQ污染物预报数据；构建第一训练集和第一测试集；对第一层集成学习模型进行训练和测试，并预测获取空气质量特征；构建第二训练集和第二测试集；对第二层树类机器学习模型进行训练和测试，并获取目标污染物修正值。能够利用历史气象和污染物的监测数据，结合气象预报数据和污染物预报数据，通过第一层集成学习模型提取空气质量特征，结合第二层树类机器学习模型对目标污染物预报数据进行本地化修正，达到校准污染物预报值的目的。

图1示出了本发明实施例提供的方法的流程图。

具体的，在本发明提供的一个优选实施方式中，一种基于机器学习和集成学习的空气质量预报优化方法，所述方法具体包括以下步骤：

步骤S101，获取历史记录的气象监测数据和污染物监测数据，并获取中尺度气象模型的WRF气象预报数据和空气质量模型的CMAQ污染物预报数据。

在本发明实施例中，从监测站获取历史记录的气象监测数据和污染物监测数据，并获取中尺度气象模型的WRF气象预报数据和空气质量模型的CMAQ污染物预报数据。

步骤S102，对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理，构建第一训练集和第一测试集。

在本发明实施例中，对气象监测数据、污染物监测数据、WRF气象预报数据和CMAQ污染物预报数据进行因素选取，之后，对选取的气象监测数据、污染物监测数据、WRF气象预报数据和CMAQ污染物预报数据进行除时间外的异常值的判定和处理，若数据由实际数值和文本组成，则剔除文本部分（例如：气象监测数据中“2分钟平均风向”变量的值为“73/ENE”，则删去文本部分，保留数值“73”。），再对异常值处理后的数据进行空值处理，使用前一个非空数值填补空值，进而对气象监测数据进行业务特征衍生，并根据对应日期，将数值分配到小时数值中（例如：将年、月、日、小时从数据的时间中提取出来，计算瞬时温度、地面气压、相对湿度、1小时降水、10分钟平均能见度等因素的日均值、日标准差、日最大值、日最小值、与上一个值的差值、日降雨小时数等统计值，并根据对应日期，将数值分配到小时数值中。），通过确定业务特征衍生后的气象监测数据对应时刻的目标污染物监测值，进行相关性计算，且设置相关性阈值，保留大于相关性阈值的气象因素（例如：对业务特征衍生后的气象监测数据与对应时刻的PM2.5浓度监测值进行相关性的计算，设置相关性阈值为0.35，保留相关性大于0.35的气象因素），在每个时刻，取前72小时的气象监测数据、前72小时的污染物监测数据以及未来H1时间段的目标污染物监测数据，利用时间序列转换为第一输入输出顺序对，将第一输入输出顺序对划分为比例为4：1的第一预训练集和第一预测试集，利用最小最大规格化，将第一预训练集和第一预测试集进行缩放处理，得到第一缩放训练集和第一缩放测试集，最后根据第一层集成学习模型的格式要求，将第一缩放训练集和第一缩放测试集转化为第一训练集和第一测试集。

具体的，最小最大规格化的表达式为：

；

可以理解的是，气象监测数据包括时间、瞬时温度、地面气压、相对湿度、2分钟平均风向、2分钟平均风速、1小时降水和10分钟平均能见度变量；污染物监测数据包括时间、SO₂、NO、NO₂、NO_x、CO、O₃、PM10和PM2.5变量； WRF气象预报数据包括时间、湿度、温度、边界层高度、太阳辐射、降水、风速和风向变量； CMAQ污染物预报数据包括时间、PM2.5、PM10、O₃、CO、NO₂和SO₂变量。因此，在进行因素选取中：气象监测数据时间、瞬时温度、地面气压、相对湿度、2分钟平均风向、2分钟平均风速、1小时降水和10分钟平均能见度变量；污染物监测数据选取时间、SO₂、NO、NO₂、NO_x、CO、O₃、PM10和PM2.5变量；WRF气象预报数据选取时间、湿度、温度、边界层高度、太阳辐射、降水、风速和风向变量； CMAQ污染物预报数据选取时间、PM2.5、PM10、O₃、CO、NO₂和SO₂变量。

步骤S103，根据所述第一训练集和所述第一测试集，对第一层集成学习模型进行训练和测试，并预测获取空气质量特征。

在本发明实施例中，将第一训练集输入至第一层集成学习模型中进行训练，再利用网格搜索和交叉验证对第一层集成学习模型进行寻优，获取各个最优模型的优超参数，进而根据优超参数，第一层集成学习模型中的机器学习模型利用第一训练集和第一测试集进行训练和测试，通过多步预测获取各个模型未来H1时间段的目标变量预测值，作为基于集成学习的空气质量特征。

步骤S104，将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理，构建第二训练集和第二测试集。

在本发明实施例中，将WRF气象预报数据和CMAQ污染物预报数据根据时间进行数据合并，获得预报数据集，进而利用最小最大规格化，将预报数据集进行缩放处理，得到预报缩放数据集，再根据未来H1时间段的日期和时间，将预报缩放数据集、空气质量特征和目标污染物监测数据进行合并，之后转化为第二输入输出顺序对，将第二输入输出顺序对按照4：1的比例划分，得到第二训练集和第二测试集。

步骤S105，根据所述第二训练集和所述第二测试集，对第二层树类机器学习模型进行训练和测试，并获取目标污染物修正值。

在本发明实施例中，根据第二训练集和第二测试集，对第二层树类机器学习模型进行模型训练和测试，获取未来H1时间段的目标污染物的预测修正值，再利用最小最大反规格化，将预测修正值进行缩放处理，得到目标污染物修正值。

具体的，最小最大反规格化的表达式为：

；

其中，

表示放大后的数值。

可以理解的是，第一层集成学习模型由两类机器学习模型并联式集成，包括递归类神经网络模型和卷积类神经网络模型；第二层树类机器学习模型包括随机森林、XGBoost和Catboost；第一层集成学习模型与第二层树类机器学习模型串联式耦合；递归类神经网络模型主要为长短时记忆网络LSTM，包括第一个LSTM网络（LSTM1）、第二个LSTM网络（LSTM2）；卷积类神经网络模型主要为卷积神经网络（CNN）和引入LSTM层的卷积神经网络，包括第一个卷积神经网络（CNN1）、第二个卷积神经网络（CNN2）、CNN-LSTM。

具体的，在本发明中，随机森林的基分类器的数量为88；XGBoost的基分类器的数量为70；Catboost的基分类器的数量为250；LSTM1包括依次连接的LSTM层、全连接层；LSTM层中神经元的个数为40个；全连接层中神经元的个数为H1的小时数；LSTM2包括依次连接的第一LSTM层、第一Dropout层、第二LSTM层、第二Dropout层、第三LSTM层、第三Dropout层、全连接层；第一LSTM层、第二LSTM层、第三LSTM层中神经元的个数为32个；第一Dropout层、第二Dropout层、第三Dropout层的Dropout率为0.2；CNN1包括依次连接的卷积层、池化层、Flatten层、第一全连接层、第二全连接层；卷积层中神经元的个数为64个；池化层中核大小为2；第一全连接层中神经元的个数为64个；第二全连接层中神经元的个数为H1的小时数；CNN2包括依次连接的第一卷积层、第一激活层、第一池化层、第二卷积层、第二激活层、第三卷积层、第三激活层、第二池化层、Flatten层、第一全连接层、第二全连接层；第一卷积层中神经元的个数为32个；第一池化层中核大小为2；第二卷积层中神经元的个数为64个；第三卷积层中神经元的个数为64个；第二池化层中核大小为2；第一全连接层中神经元的个数为64个；第二全连接层中神经元的个数为H1的小时数；CNN-LSTM包括依次连接的卷积层、池化层、LSTM层、全连接层、激活层；卷积层中神经元的个数为64个；池化层中核大小为2；LSTM层中神经元的个数为70个。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习和集成学习的空气质量预报优化方法，其特征在于，所述方法具体包括以下步骤：

2.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法，其特征在于，所述对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行处理，构建第一训练集和第一测试集具体包括以下步骤：

3.根据权利要求2所述的基于机器学习和集成学习的空气质量预报优化方法，其特征在于，所述最小最大规格化的表达式为：

；

4.根据权利要求2所述的基于机器学习和集成学习的空气质量预报优化方法，其特征在于，所述对所述气象监测数据、所述污染物监测数据、所述WRF气象预报数据和所述CMAQ污染物预报数据进行特征预处理、特征衍生、特征筛选和时序特征提取，利用时间序列转换为第一输入输出顺序对具体包括以下步骤：

异常值的判定和处理之后，对数据进行空值处理；

空值处理之后，对气象监测数据进行业务特征衍生；

5.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法，其特征在于，所述根据所述第一训练集和所述第一测试集，对第一层集成学习模型进行训练和测试，并预测获取空气质量特征具体包括以下步骤：

将所述第一训练集输入至第一层集成学习模型中进行训练；

6.根据权利要求4所述的基于机器学习和集成学习的空气质量预报优化方法，其特征在于，所述将所述WRF气象预报数据、所述CMAQ污染物预报数据和所述空气质量特征合并处理，构建第二训练集和第二测试集具体包括以下步骤：

7.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法，其特征在于，所述根据所述第二训练集和所述第二测试集，对第二层树类机器学习模型进行训练和测试，并获取目标污染物修正值具体包括以下步骤：

8.根据权利要求7所述的基于机器学习和集成学习的空气质量预报优化方法，其特征在于，所述最小最大反规格化的表达式为：

；

其中，

表示放大后的数值。

9.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法，其特征在于，所述气象监测数据包括时间、瞬时温度、地面气压、相对湿度、2分钟平均风向、2分钟平均风速、1小时降水和10分钟平均能见度变量；所述污染物监测数据包括时间、SO₂、NO、NO₂、NO_x、CO、O₃、PM10和PM2.5变量；所述WRF气象预报数据包括时间、湿度、温度、边界层高度、太阳辐射、降水、风速和风向变量；所述CMAQ污染物预报数据包括时间、PM2.5、PM10、O₃、CO、NO₂和SO₂变量。

10.根据权利要求1所述的基于机器学习和集成学习的空气质量预报优化方法，其特征在于，所述第一层集成学习模型由两类机器学习模型并联式集成，包括递归类神经网络模型和卷积类神经网络模型；所述第二层树类机器学习模型包括随机森林、XGBoost和Catboost；所述第一层集成学习模型与所述第二层树类机器学习模型串联式耦合。