CN114462511A

CN114462511A - 一种基于XGBoost算法的PM2.5数据异常识别方法

Info

Publication number: CN114462511A
Application number: CN202210053540.0A
Authority: CN
Inventors: 汪太明; 侯玉婧; 孟双双; 王启蒙; 尤洋; 刘超; 郭亚静
Original assignee: Suncere Information Technology Co ltd; CHINA NATIONAL ENVIRONMENTAL MONITORING CENTRE
Current assignee: Suncere Information Technology Co ltd; CHINA NATIONAL ENVIRONMENTAL MONITORING CENTRE
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-05-10

Abstract

本发明公开了一种基于XGBoost算法的PM_2.5数据异常识别方法，包括：步骤1：采集国控站六项污染物的小时数据，步骤2：数据预处理，步骤3：从原始数据中提取特征，步骤4：模型训练与测试，步骤5：异常数据分析，步骤6：运维事件标识并去除，步骤7：气象监测要素整合，步骤8：仪器设备参数异常判定。本发明利用机器学习实现异常数据的自动识别，将机器学习应用到国家空气监测站审核平台，实现数据异常识别自动化，同时自动化的审核机制可以做到实时对数据进行质量控制；一方面可以减少人工审核的局限性，精准识别异常数据，减少出错率，另一方面可以减轻数据复核人员的工作负担和压力以及进一步减少人力成本。

Description

一种基于XGBoost算法的PM2.5数据异常识别方法

技术领域

本发明涉及空气质量监测技术领域，尤其涉及一种基于XGBoost算法的PM_2.5数据异常识别方法。

背景技术

国家空气监测站主要负责监测全国各地的环境空气质量，目前共建有近2000个国控级别的空气质量监测站，监测6项常规污染物，分别为CO、 O₃、SO₂、NO₂、PM_2.5和PM₁₀。每小时会产生1个小时监测数据，一天产生24 条小时数据。国控站由运维公司进行运维，空气质量监测数据先由运维公司的审核人员对数据进行审核，对仪器质检、故障、运行不稳定期间产生的数据做无效处理，并进行提交给环境监测总站对数据进行复核。目前国控空气站数据复核采用人工复核的方式，数据复核人员根据多站点单污染物、单站点多污染物的相关性、差异性变化趋势等对异常数据进行判断，结合数据趋势异常的时间点或时间段，如数据异常偏高或异常偏低的时间段，查看疑似异常时间段的监测仪器运行状态，将异常值反馈给运维人员，核实数据是否异常，每天都要进行数据复核，由于人工复核工作量大，需要大量的人力成本，在复核过程中可能会因为人的局限性和主观性导致数据异常识别时发生遗漏和错判等问题。

针对现有技术存在的问题，需要选择合适的数据异常识别算法用于大气监测异常数据的识别，同时构建合适的特征用于数据异常识别算法，在数据复核部分时，及时发现数据中存在的异常值，以辅助人工复核。

发明内容

本发明所要解决的技术问题在于，提供一种基于XGBoost算法的PM_2.5数据异常识别方法。

为了解决上述技术问题，本发明提供了一种基于XGBoost算法的PM_2.5数据异常识别方法，包括以下步骤：

步骤1：采集国控站六项污染物的小时数据，形成原始数据；

步骤2：数据预处理，对原始数据进行预处理，提高原始数据质量；

步骤3：从原始数据中提取特征，对原始数据进行观察，构建四大类特征；

步骤4：模型训练与测试，确定XGBoost算法作为训练模型并测试；

步骤5：异常数据分析，对于模型识别后的异常数据，进一步进行分析，分析后的数据用于后续调整模型参数，改善模型性能；

步骤6：运维事件标识并去除，数据分析时，将运维前、后的时间段对数据造成影响的，去除相应时段的监测数据；

步骤7：气象监测要素整合，通过分析点位气象参数，结合数据情况综合判断数据有效性；

步骤8：仪器设备参数异常判定，对其他原因导致的站点数据发生变化，进行数据分析时再次判定关键参数的异常情况。

其中，所述步骤2包括对数据预处理过程中产生的带标识数据定为异常值缺失数据并进行插补，使用关系系数矩阵确定缺失值取值排序，关系系数R计算公式为：

其中，

cov((X_i,X_j))＝E((X_i-E(X_i))·(X_j-E(X_j)))。

其中，所述步骤3中四大类特征为基础特征、相关污染物特征、气象特征和历史数据特征。

其中，所述步骤4包括定义XGBoost算法的目标函数：

其中，

其中，(x_i,y_i)为数据集样本，x_i表示特征向量，y_i表示样本标签，模型包含K棵树，f_K(x)表示第K棵决策树。

其中，所述步骤5具体包括以下步骤：

步骤5-1：将城市进行聚类，目标城市与周边城市PM2.5数据逐月对比分析，通过相对偏差法和相邻月相对偏差变幅法研判该城市整体数据质量异常变化情况，其中，相对偏差法的计算公式为：

相对偏差(％)＝(目标城市月均值-除目标城市外其他城市月均值的均值)/除目标城市外其他城市月均值的均值*100％，

相邻月相对偏差变幅法的计算公式为：

相对偏差变幅(％)＝本月偏差-上月偏差；

步骤5-2：将分析后得到的最优参数组合作为XGBoost参数重新训练模型，并对测试集进行预测；

步骤5-3：评估测试集结果，在该参数上进行调优。

其中，所述步骤6具体包括以下步骤：

步骤6-1：对运维前数据分析是在决策树分裂过程中，在每个节点分裂前预先进行评估，若该节点由于运维因素影响分裂后不能使决策树泛化能力提升，则该节点不分裂；

步骤6-2：对运维后数据分析则是先构造一颗完全决策树，自底向上对非叶子节点进行评估，若将该叶子节点剪枝有助于决策树模型泛化能力的提升，则将该节点子树剪去，使其变为叶子节点。

其中，所述步骤7具体包括以下步骤：

步骤7-1：确定需要进行分类的监测指标，按照环境空气质量标准进行等级划分，对原始数据进行训练集和测试集的划分，利用训练集的数据构建决策树；

步骤7-2：建好决策树后利用测试集数据进行验证，验证决策树构建的效果，并根据测试结果优化和调整模型；

步骤7-3：构建最终模型树型结构，输出分类结果中每个类别对应的监测指标取值范围以及每个树枝预测的准确率；

步骤7-4：对于分类准确率小于85％的树枝重新进行样本的选择和决策树的训练，给予预测率较低的级别以较大的权重进入到训练集中，重复以上步骤，直到分类准确率均在85％以上为止；

步骤7-5：输出各树型对应的监测参数范围，利用反推过程对多个监测指标的检测样本进行质量控制，多个监测指标的检测样本的某个参数对应标准范围之外判断为异常值，反之为正常监测，直到遍历完多有的待检测样本为止。

其中，所述步骤8具体包括以下步骤：

步骤8-1：查看站点参数曲线，若参数曲线变动在规定范围内，可判断为正常监测，否则进行下一步验证；

步骤8-2：查看巡检工单是否注明修改参数，短时参数变动，可判断为正常监测，否则进行下一步验证；

步骤8-3：查看更换备机情况，验证设备日志是否表明更换设备，因设备发生更换导致的短时参数变动，可判断为正常监测，否则为异常值。

实施本发明，具有如下有益效果：

本发明从现有历史数据构造了包括基础特征、历史数据特征以及关联污染物特征四大类特征，这些特征在制定好构造规则后，只需要少量的技术人员在每隔一段时间对模型进行维护，进而利用机器学习实现异常数据的自动识别。将机器学习应用到国家空气监测站审核平台，实现数据异常识别自动化，同时自动化的审核机制可以做到实时对数据进行质量控制；一方面可以减少人工审核的局限性，精准识别异常数据，减少出错率，另一方面可以减轻数据复核人员的工作负担和压力以及进一步减少人力成本。

附图说明

图1是本发明实施例的流程方框图；

图2是本发明实施例中基础特征的示意图；

图3是本发明实施例中相关污染物特征的示意图；

图4是本发明实施例中历史数据特征的示意图；

图5是本发明实施例中训练模型方法的示意图；

图6是本发明实施例中训练模型另一种方法的示意图；

图7是本发明实施例中评价指标的示意图；

图8是本发明实施例中参数异常的判断流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，一种基于XGBoost算法的PM_2.5数据异常识别方法，包括以下步骤：

步骤1：采集国控站六项污染物的小时数据，形成原始数据。选择各城市、长三角地区、汾渭平原近3年国控站六项污染物的小时数据，数据为各个站点六项污染物小时值的数据及系统与人为标识。

步骤2：数据预处理，对原始数据进行预处理，提高原始数据质量。将标签列为空值，即无异常值的补充为“0”，在数据审核过程中会产生一部分于带标识数据，对带标识数据定为异常值缺失数据并进行插补，使用关系系数矩阵确定缺失值取值排序，关系系数R计算公式为：

其中，

cov((X_i,X_j))＝E((X_i-E(X_i))·(X_j-E(X_j)))，再去除重复数据。

步骤3：从原始数据中提取特征，对原始数据进行观察，构建四大类特征，四大类特征分别为基础特征、相关污染物特征、气象特征和历史数据特征。

如图2所示，基础特征包括当前所在月份、当前所在小时、是否为对照点、站点所在区域、所在城市站点总个数、该站点当前PM_2.5小时值、当前小时所有站点的PM_2.5均值、该站点PM_2.5与所有站点均值的差值、该站点 PM_2.5与所有站点均值的差值、该站点PM_2.5与所有站点均值的相对偏差、该站点当前小时PM_2.5在所有站点中的浓度排名。优选的，当前小时所有站点的PM_2.5均值计算方法为：先求得所在城市站点两两之间的相关系数r，再求得每个站点与其他站点相关系数的均值r_mean,对r_mean排序，然后根据每个城市站点个数的多少去除相关性较差的站点，对所在城市相关性较好的站点求均值作为当前小时的均值。

如图3所示，相关污染物特征包括该站点当前PM₁₀小时值、当前小时所有站点的PM₁₀均值、该站点PM₁₀与所有站点均值的差值、该站点PM₁₀与所有站点均值的相对偏差、该站点当前小时PM₁₀在所有站点中的浓度排名、该站点当前小时PM_2.5相对偏差与PM₁₀相对偏差的差值、该站点当前小时PM_2.5排名与PM₁₀排名的差值。

气象特征包括气压、温度、湿度、风向、风速、降水量和能见度共七个气象监测参数，由安装在站房上的气象监测仪捕获的，采样器距地面3- 15米，捕集范围内环境空气流动不受任何影响。

如图4所示，历史数据特征分为前N天的特征和前M个小时的特征两大部分，包括该站点前N天同一小时的PM_2.5浓度、排名、排名与当前小时是否一致、浓度与当前小时的浓度差，该站点该小时前30天PM_2.5的平均排名，该站点当前小时与前7天同一小时均值的差值，该站点当前小时与前15天同一小时均值的差值，该站点当前小时与前30天同一小时均值的差值，该站点前M个小时的PM_2.5浓度、排名、排名与当前小时是否一致、排名与当前小时的浓度差，该站点前M个小时的平均排名，该站点当前小时与前M个小时均值的差值。优选的，N取值范围为[1,30]，M取值范围为[1,5]。

PM_2.5颗粒物浓度数据产生是采用β射线吸收原理，用朗博比尔定律计算出颗粒物的质量，根据采样时间和流量计算出的浓度值，由以下公式产生：

其中，Δm为颗粒物的质量浓度，A为滤带斑点面积，μ_m为吸收系数，Q为样气流量，Δt为采样时间。

步骤4：模型训练与测试，确定XGBoost算法作为训练模型并测试。

XGBoost模型定义：

其中，(x_i,y_i)为数据集样本，x_i表示特征向量，y_i表示样本标签，模型包含K棵树，f_K(x)表示第K棵决策树，决策树对样本特征进行映射，使每个样本落在该树的某个叶子节点上，每个叶子节点均包含一个权重分数，作为落在此叶子节点的样本在本棵树的预测值ω。计算样本在每棵树的预测值(即ω)之和，并将其作为样本的最终预测值。

XGBoost目标函数定义：

目标函数Obj由两项组成：第一项为损失函数，用于评估模型预测值和真实值之间的损失或误差，第二项为正则化项，用于控制模型的复杂度，正则化项倾向于选择简单的模型，避免过拟合。正则化项的定义：

第一项γT通过叶子节点数及其系数控制树的复杂度，值越大则目标函数越大，从而抑制模型的复杂程度。第二项为用于控制叶子节点的权重分数。训练时在Python上直接调用XGBoost模块中的XGBClassifier来进行，根据实验数据，主要针对函数中两个参数进行调参，分别是n_estimators和 scale_pos_weight，将n_estimators设置为1000，scale_pos_weight设置为0.5。

如图5和6所示，在训练模型时，分别通过两个方法来进行：一是分别在各城市、汾渭平原和长三角地区的数据上训练单独的模型并测试；二是把所有数据揉在一起，通过在特征中加入“区域”来训练一个模型并在三个区域的数据上做测试。

如图7所示，通过覆盖率r和和准确率p来评价指标，覆盖率r为从实际是异常的样本中识别出异常的样本率：

准确率p为预测为异常的样本中实际是异常的概率：

步骤5：异常数据分析，对于模型识别后的异常数据，进一步进行分析，分析后的数据用于后续调整模型参数，改善模型性能。具体包括以下步骤：

步骤5-1：将城市进行聚类，目标城市与周边城市PM_2.5数据逐月对比分析，通过相对偏差法和相邻月相对偏差变幅法研判该城市整体数据质量异常变化情况，其中，相对偏差法的计算公式为：

相邻月相对偏差变幅法的计算公式为：

相对偏差变幅(％)＝本月偏差-上月偏差；

步骤5-3：评估测试集结果，在该参数上进行调优，同时确保该对整体模型性能的提升是单调的，使最终选取的参数对模型整体性产生正向影响，避免训练过程中的随机性对参数选择产生的干扰。

步骤6：运维事件标识并去除，在进行数据分析的时候，根据运维前、运维后产生的影响对决策树进行预剪枝、后剪枝，从而降低模型对样本噪声的敏感性，减少过拟合的产生，提高模型的整体泛化能力，具体包括以下步骤：

步骤7：气象监测要素整合，通过分析点位气象参数，结合数据情况综合判断数据有效性。具体包括以下步骤：

步骤7-2：建好决策树后利用测试集数据进行验证，验证决策树构建的效果，并根据测试结果不断优化和调整模型；

步骤7-4：对于分类准确率小于85％的树枝重新进行样本的选择和决策树的训练，给予预测率较低的级别以较大的权重进入到训练集中，重复上述步骤，直到分类准确率均在85％以上为止；

步骤7-5：输出各树型对应的监测参数范围，利用反推过程对多个监测指标的检测样本进行质量控制，如果多个监测指标的检测样本的某个参数对应标准范围之外判断为异常值，反之为正常监测；直到遍历完多有的待检测样本为止。

步骤8：仪器设备参数异常判定，由于人为运维失误、返厂维修恢复出厂设置或突然断电等原因导致关键参数发生变化，均可能会导致站点数据发生变化，进行数据分析时需要判定关键参数的异常情况，如图8所示，具体包括以下步骤：

步骤8-1：查看站点参数曲线，包括K值/斜率、截距、灵敏度、K0值、最高加热温度、最小加热效率、相对湿度目标值等重要参数，若参数曲线变动在规定范围内，可判断为正常监测，否则进行下一步验证；

步骤8-2：查看巡检工单是否注明修改参数，因仪器采集、网络、停电等原因导致的短时参数变动，可判断为正常监测，否则进行下一步验证；

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于XGBoost算法的PM_2.5数据异常识别方法，其特征在于，包括以下步骤：

步骤1：采集国控站六项污染物的小时数据，形成原始数据；

2.根据权利要求1所述的一种基于XGBoost算法的PM2.5数据异常识别方法，其特征在于，所述步骤2包括对数据预处理过程中产生的带标识数据定为异常值缺失数据并进行插补，使用关系系数矩阵确定缺失值取值排序，关系系数R计算公式为：

其中，

cov((X_i，X_j))＝E((X_i-E(X_i))·(X_j-E(X_j)))。

3.根据权利要求1所述的一种基于XGBoost算法的PM_2.5数据异常识别方法，其特征在于，所述步骤3中所述四大类特征为基础特征、相关污染物特征、气象特征和历史数据特征。

4.根据权利要求1所述的一种基于XGBoost算法的PM_2.5数据异常识别方法，其特征在于，所述步骤4包括定义XGBoost算法的目标函数：

其中，

5.根据权利要求1所述的一种基于XGBoost算法的PM_2.5数据异常识别方法，其特征在于，所述步骤5具体包括以下步骤：

相邻月相对偏差变幅法的计算公式为：

相对偏差变幅(％)＝本月偏差-上月偏差；

步骤5-3：评估测试集结果，在该参数上进行调优。

6.根据权利要求1所述的一种基于XGBoost算法的PM2.5数据异常识别方法，其特征在于，所述步骤6具体包括以下步骤：

7.根据权利要求1所述的一种基于XGBoost算法的PM_2.5数据异常识别方法，其特征在于，所述步骤7具体包括以下步骤：

8.根据权利要求1所述的一种基于XGBoost算法的PM2.5数据异常识别方法，其特征在于，所述步骤8具体包括以下步骤：