CN114611706B

CN114611706B - 基于Stacking多模型融合设计的空气污染物缺失值补充方法

Info

Publication number: CN114611706B
Application number: CN202210155739.4A
Authority: CN
Inventors: 蔡坤; 张旭升; 葛强; 左宪禹; 杨宣; 祁永凯
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2023-04-25
Anticipated expiration: 2042-02-21
Also published as: CN114611706A

Abstract

本发明提供一种基于Stacking多模型融合设计的空气污染物缺失值补充方法。该方法包括：获取各个国控站点监测的空气污染物数据和地理数据；针对每个国控站点，遍历其上的所有空气污染物数据，找到缺失值，并将缺失值所在位置处的数值补充为0；再次遍历其上的所有空气污染物数据，将数值非0的数据加入至训练集中，将数值为0的数据加入预测集中；将所有国控站点的训练集和预测集分别组合在一起，记作数据集Air‑data；使用Hyperopt分别对ET、RF、GBDT、XGBOOST和LGBM进行参数优化；将上述优化后的五种模型分别作为五个基学习器，将岭回归模型作为元学习器，基于数据集Air‑data对基学习器和元学习器进行融合得到Stacking集成模型；采用Stacking集成模型实现对空气污染物数据中的缺失值的估算。

Description

基于Stacking多模型融合设计的空气污染物缺失值补充方法

技术领域

本发明涉及空气污染物应用技术领域，尤其涉及一种基于Stacking多模型融合设计的空气污染物缺失值补充方法。

背景技术

过去的几十年里，随着工业化和城市化的快速发展，空气污染物浓度水平的不断上升已成为全球关注的焦点。根据世界卫生组织的数据，世界上每10人中就有9人生活在被污染的空气中。常见的空气污染物包括NO2,O3,PM10,PM2.5 等，它们不仅会导致环境问题，如土壤酸化，雾和霾，还会导致健康问题，如心脏病和肺部疾病。为了提前做好预防大气污染的准备，从而减轻大气污染对人体健康和经济的影响，我国已设立多个空气监测站，监测和收集空气污染数据，以便进一步研究。然而，由于收集传感器的损坏、设计不良的收集过程以及人为的错误等种种因素，各个国控站点观测到的数据总会有缺失。这些缺失的数据对后续时序数据的预测和分析带来了极大的困难。所以时序数据补缺是一个需要迫切解决的重要难题。

从数据缺失的性质而言，缺失数据的处理主要分为两种方案，一种是在尽量不影响研究结果的前提下将缺失记录删除，另一种就是研究如何按照采集数据的性质，规律等因素对缺失的数据进行补充。当只有极少量数据发生缺失时，可以在研究中使用删除少量缺失记录的方式来处理缺失数据。相比于删除法的大量使用限制，使用各种方式对由于不可控因素导致的采集数据缺失进行补充可以说是一种较为通用的方式。相关研究人员尝试使用均值，上一个有效记录等数据来对缺失数据进行填补，但是原始的均值填补法由于填补的数据为均值数据忽略了原始采集数据的变化趋势。

发明内容

针对现有技术存在的精度低、分析程序复杂和时序性差的问题，本发明提供一种基于Stacking多模型融合设计的空气污染物缺失值补充方法。

本发明提供一种基于Stacking多模型融合设计的空气污染物缺失值补充方法，包括：

步骤1：获取各个国控站点监测的空气污染物数据和地理数据；

步骤2：针对每个国控站点，遍历其上的所有空气污染物数据，找到每个类型污染物的缺失值，并将缺失值所在位置处的数值补充为0；然后，再次遍历其上的所有空气污染物数据，将数值非0的数据加入至训练集中，将数值为0的数据加入预测集中；将所有国控站点的训练集和预测集分别组合在一起，记作数据集Air-data；

步骤3：使用贝叶斯优化法Hyperopt分别对极端决策树模型ET、随机森林模型RF、迭代决策树模型GBDT、分布式梯度增强树模型XGBOOST和分布式梯度决策树模型LGBM进行参数优化，将优化后的模型分别记作Hyperopt-ET、 Hyperopt-RF、Hyperopt-GBDT、Hyperopt-XGBOOST和Hyperopt-LGBM；

步骤4：将Hyperopt-ET、Hyperopt-RF、Hyperopt-GBDT、Hyperopt-XGBOOST 和Hyperopt-LGBM五种模型分别作为五个基学习器，将岭回归模型作为元学习器，基于所述数据集Air-data对所述基学习器和所述元学习器进行融合得到 Stacking集成模型；

步骤5：采用所述Stacking集成模型实现对空气污染物数据中的缺失值的估算。

进一步地，所述方法还包括：

若在某个国控站点上找到的缺失值的数量与其上的所有数据量的比值大于设定阈值，则认为该国控站点上的缺失值较多；

将缺失值较多的国控站点对应的数据从数据集Air-data中进行剔除。

进一步地，步骤4具体包括：

步骤4.1：将数据集Air-data中的训练集按照设定比例重新划分为训练集A 和测试集B；

步骤4.2：根据训练集A采用5折交叉验证方式分别对五个所述基学习器进行训练，采用训练好的五个所述基学习器分别生成五个数据集A1、A2、A3、 A4和A5；所述数据集A1、A2、A3、A4和A5的数据量均与训练集A的数据量相同；

步骤4.3：将所述数据集A1、A2、A3、A4和A5组合在一起作为岭回归模型的训练集，使得所述岭回归模型学习得到五个所述基学习器的输出结果与真实的空气污染物数据之间的关系，即为Stacking集成模型。

进一步地，所述方法还包括：

在对五个所述基学习器采用5折交叉验证方式进行训练的过程中，将测试集 B划分为五部分，选择其中的四部分用来训练，并对剩下的一部分进行预测，并将五次预测结果进行平均得到新的测试集B1；所述测试集B1的数据量与所述测试集B的数据量相同；

采用所述测试集B1验证所述Stacking集成模型的性能。

进一步地，所述空气污染物数据包括：小时NO₂浓度、小时PM₁₀浓度、小时PM_2.5浓度和小时O₃浓度。

进一步地，所述地理数据包括：经度和纬度。

进一步地，验证所述Stacking集成模型的性能时所用的指标包括：决定系数、平均绝对误差和均方根误差。

本发明的有益效果：

本发明采用Hyperopt-ET、Hyperopt-RF、Hyperopt-GBDT、 Hyperopt-XGBOOST和Hyperopt-LGBM五种模型作为基学习器，通过交叉验证训练基学习器，岭回归作为元学习器；其中，第一层的多个基学习器以原始训练集为输入，第二层的岭回归模型再以第一层的输出作为特征来训练元学习器，最终得到完整的模型，之后用于估算缺失的空气污染物浓度。Stacking集成方法集成了多种学习器的估算与预测结果，克服了单个模型的缺陷，优化了线性回归的输入，提升了模型整体性能。

附图说明

图1为本发明实施例提供的基于Stacking多模型融合设计的空气污染物缺失值补充方法的流程示意图；

图2为本发明实施例提供的对基学习器和元学习器进行融合得到Stacking 集成模型的示意图；

图3为本发明实施例提供的Stacking集成模型使用测试集进行估算后，取前 300个测试样本估算结果与真实结果的对比图；

图4为本发明实施实例提供的同一地点的实际污染物浓度值与模型估算污染物浓度值的散点图；

图5为本发明实施例提供的Stacking集成模型与其他模型在数据集Air-data上的训练效果对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的基于Stacking多模型融合设计的空气污染物缺失值补充方法，包括以下步骤：

S101：获取各个国控站点监测的空气污染物数据和地理数据；

具体地，所述空气污染物数据包括：小时NO₂浓度、小时PM₁₀浓度、小时 PM_2.5浓度和小时O₃浓度；所述地理数据包括：经度和纬度。

S102：针对每个国控站点，遍历其上的所有空气污染物数据，找到每个类型污染物的缺失值，并将缺失值所在位置处的数值补充为0；然后，再次遍历其上的所有空气污染物数据，将数值非0的数据加入至训练集中，将数值为0的数据加入预测集中；将所有国控站点的训练集和预测集分别组合在一起，记作数据集 Air-data；

具体地，国控站点监测的空气污染物数据是以CSV格式存储的，为了便于数据处理，可以使用python读取CSV文件，然后将该CSV文件数据导入MySQL 中进行整理。

需要说明的是，一般而言，在现实中，NO₂、PM₁₀、PM_2.5和O₃的浓度值不会为0，所以浓度为0的数据同样当作缺失值。

S103：使用贝叶斯优化法Hyperopt分别对极端决策树模型ET、随机森林模型RF、迭代决策树模型GBDT、分布式梯度增强树模型XGBOOST和分布式梯度决策树模型LGBM进行参数优化，将优化后的模型分别记作Hyperopt-ET、 Hyperopt-RF、Hyperopt-GBDT、Hyperopt-XGBOOST和Hyperopt-LGBM；

具体地，Hyperopt-ET模型为基于贝叶斯算法优化的极端决策树模型、 Hyperopt-RF模型为基于贝叶斯算法优化的随机森林模型；Hyperopt-GBDT模型为基于贝叶斯算法优化的迭代决策树模型；Hyperopt-XGBOOST模型为基于贝叶斯算法优化的分布式梯度增强树、Hyperopt-LGBM模型为基于贝叶斯算法优化的分布式梯度决策树。

S104：将Hyperopt-ET、Hyperopt-RF、Hyperopt-GBDT、Hyperopt-XGBOOST 和Hyperopt-LGBM五种模型分别作为五个基学习器，将岭回归模型作为元学习器，基于所述数据集Air-data对所述基学习器和所述元学习器进行融合得到 Stacking集成模型；

作为一种可实施方式，如图2所示，本步骤包括以下子步骤：

S1041：将数据集Air-data中的训练集按照设定比例重新划分为训练集A和测试集B；

例如，将数据集Air-data按4:1的比例划分为训练集和测试集，然后对数据进行归一化，消除奇异样本数据的不良影响。

S1042：根据训练集A采用5折交叉验证方式分别对五个所述基学习器进行训练，采用训练好的五个所述基学习器分别生成五个数据集A1、A2、A3、A4 和A5；所述数据集A1、A2、A3、A4和A5的数据量均与训练集A的数据量相同；

S1043：将所述数据集A1、A2、A3、A4和A5组合在一起作为岭回归模型的训练集，使得所述岭回归模型学习得到五个所述基学习器的输出结果与真实的空气污染物数据之间的关系，即为Stacking集成模型。

S105：采用所述Stacking集成模型实现对空气污染物数据中的缺失值的估算。

若某一国控站点上的缺失值较多，即使进行数据的补缺，对后续空气污染物的预测和分析也会产生极大的影响，因此在上述实施例的基础上，本发明实施例在步骤S102之后，还包括：对数据集Air-data进行数据清理；主要包括以下内容：若在某个国控站点上找到的缺失值的数量与其上的所有数据量的比值大于设定阈值，则认为该国控站点上的缺失值较多；将缺失值较多的国控站点对应的数据从数据集Air-data中进行剔除。

例如，对某一国控站点监测到的小时浓度值缺失数量超过总数量的10％时，可以判定为该国控站点缺失值较多。

本发明实施例中，采用Hyperopt-ET、Hyperopt-RF、Hyperopt-GBDT、Hyperopt-XGBOOST和Hyperopt-LGBM五种模型作为基学习器，通过交叉验证训练基学习器，岭回归作为元学习器；其中，第一层的多个基学习器以原始训练集为输入，第二层的岭回归模型再以第一层的输出作为特征来训练元学习器，最终得到完整的模型，之后用于估算缺失的空气污染物浓度。Stacking集成方法集成了多种学习器的估算与预测结果，克服了单个模型的缺陷，优化了线性回归的输入，提升了模型整体性能。

在上述各实施例的基础上，本发明还包括：

采用所述测试集B1验证所述Stacking集成模型的性能。

作为一种可实施方式，验证所述Stacking集成模型的性能时所用的指标包括：决定系数、平均绝对误差和均方根误差。

具体地，在预测回归问题中，决定系数R2是用来衡量回归结果的好坏，也是回归拟合曲线的拟合优度。决定系数的取值在0到1之间，值越大越好，其中p为预测值，m为真实值，具体公式如下：

平均绝对误差MAE是绝对误差的平均值，能够更好的反映出预测值与真实值的误差实际情况，具体公式如下：

均方根误差RMSE主要衡量预测值和真实值之间的偏差，具体公式如下：

为了验证本发明所提供的方法的有效性，本发明还提供下述实验数据。

如图3、图4和图5所示，四种污染物NO₂、PM₁₀、PM_2.5、O₃的测试样本分别为16919、16358、16689和16900个，估算值与真实值决定系数R²分别为0.87、0.941、0.979和0.948。计算得测试集样本平均绝对误差MAE分别为4.236、 8.28、4.542和7.903，均方根误差RMSE为6.531、14.22、6.965和10.831。

相比于基学习器模型，Stacking集成模型表现出了更好的预测性能，并且有更高的斜率，说明低值高估和高值低估的现象相对不严重。Stacking集成模型的平均绝对误差(MAE)和均方根误差(RMSE)要小于其他五种模型的MAE和 RMSE，说明利用Stacking集成模型进行补缺时，其估算值与国控站点的观测值之间的误差和偏差更小，可以认为Stacking集成模型的估算结果更加接近真值，回归模型表现更好的性能。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于Stacking多模型融合设计的空气污染物缺失值补充方法，其特征在于，包括：

步骤3：使用贝叶斯优化法Hyperopt分别对极端决策树模型ET、随机森林模型RF、迭代决策树模型GBDT、分布式梯度增强树模型XGBOOST和分布式梯度决策树模型LGBM进行参数优化，将优化后的模型分别记作Hyperopt-ET、Hyperopt-RF、Hyperopt-GBDT、Hyperopt-XGBOOST和Hyperopt-LGBM；

步骤4：将Hyperopt-ET、Hyperopt-RF、Hyperopt-GBDT、Hyperopt-XGBOOST和Hyperopt-LGBM五种模型分别作为五个基学习器，将岭回归模型作为元学习器，基于所述数据集Air-data对所述基学习器和所述元学习器进行融合得到Stacking集成模型；

2.根据权利要求1所述的基于Stacking多模型融合设计的空气污染物缺失值补充方法，其特征在于，还包括：

3.根据权利要求1所述的基于Stacking多模型融合设计的空气污染物缺失值补充方法，其特征在于，步骤4具体包括：

步骤4.1：将数据集Air-data中的训练集按照设定比例重新划分为训练集A和测试集B；

步骤4.2：根据训练集A采用5折交叉验证方式分别对五个所述基学习器进行训练，采用训练好的五个所述基学习器分别生成五个数据集A1、A2、A3、A4和A5；所述数据集A1、A2、A3、A4和A5的数据量均与训练集A的数据量相同；

4.根据权利要求3所述的基于Stacking多模型融合设计的空气污染物缺失值补充方法，其特征在于，还包括：

在对五个所述基学习器采用5折交叉验证方式进行训练的过程中，将测试集B划分为五部分，选择其中的四部分用来训练，并对剩下的一部分进行预测，并将五次预测结果进行平均得到新的测试集B1；所述测试集B1的数据量与所述测试集B的数据量相同；

采用所述测试集B1验证所述Stacking集成模型的性能。

5.根据权利要求1所述的基于Stacking多模型融合设计的空气污染物缺失值补充方法，其特征在于，所述空气污染物数据包括：小时NO₂浓度、小时PM₁₀浓度、小时PM_2.5浓度和小时O₃浓度。

6.根据权利要求1所述的基于Stacking多模型融合设计的空气污染物缺失值补充方法，其特征在于，所述地理数据包括：经度和纬度。

7.根据权利要求4所述的基于Stacking多模型融合设计的空气污染物缺失值补充方法，其特征在于，验证所述Stacking集成模型的性能时所用的指标包括：决定系数、平均绝对误差和均方根误差。