CN114462511A - 一种基于XGBoost算法的PM2.5数据异常识别方法 - Google Patents
一种基于XGBoost算法的PM2.5数据异常识别方法 Download PDFInfo
- Publication number
- CN114462511A CN114462511A CN202210053540.0A CN202210053540A CN114462511A CN 114462511 A CN114462511 A CN 114462511A CN 202210053540 A CN202210053540 A CN 202210053540A CN 114462511 A CN114462511 A CN 114462511A
- Authority
- CN
- China
- Prior art keywords
- data
- abnormal
- model
- judging
- decision tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002159 abnormal effect Effects 0.000 claims abstract description 42
- 238000012544 monitoring process Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000012423 maintenance Methods 0.000 claims abstract description 21
- 239000003344 environmental pollutant Substances 0.000 claims abstract description 14
- 231100000719 pollutant Toxicity 0.000 claims abstract description 13
- 238000007405 data analysis Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000005856 abnormality Effects 0.000 claims abstract description 4
- 238000003066 decision tree Methods 0.000 claims description 29
- 230000008859 change Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 238000007689 inspection Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000013138 pruning Methods 0.000 claims description 5
- 239000012080 ambient air Substances 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000003908 quality control method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 abstract description 2
- 239000013618 particulate matter Substances 0.000 description 24
- 239000003570 air Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012552 review Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005250 beta ray Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000004898 kneading Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种基于XGBoost算法的PM2.5数据异常识别方法,包括:步骤1:采集国控站六项污染物的小时数据,步骤2:数据预处理,步骤3:从原始数据中提取特征,步骤4:模型训练与测试,步骤5:异常数据分析,步骤6:运维事件标识并去除,步骤7:气象监测要素整合,步骤8:仪器设备参数异常判定。本发明利用机器学习实现异常数据的自动识别,将机器学习应用到国家空气监测站审核平台,实现数据异常识别自动化,同时自动化的审核机制可以做到实时对数据进行质量控制;一方面可以减少人工审核的局限性,精准识别异常数据,减少出错率,另一方面可以减轻数据复核人员的工作负担和压力以及进一步减少人力成本。
Description
技术领域
本发明涉及空气质量监测技术领域,尤其涉及一种基于XGBoost算法的PM2.5数据异常识别方法。
背景技术
国家空气监测站主要负责监测全国各地的环境空气质量,目前共建有近2000个国控级别的空气质量监测站,监测6项常规污染物,分别为CO、 O3、SO2、NO2、PM2.5和PM10。每小时会产生1个小时监测数据,一天产生24 条小时数据。国控站由运维公司进行运维,空气质量监测数据先由运维公司的审核人员对数据进行审核,对仪器质检、故障、运行不稳定期间产生的数据做无效处理,并进行提交给环境监测总站对数据进行复核。目前国控空气站数据复核采用人工复核的方式,数据复核人员根据多站点单污染物、单站点多污染物的相关性、差异性变化趋势等对异常数据进行判断,结合数据趋势异常的时间点或时间段,如数据异常偏高或异常偏低的时间段,查看疑似异常时间段的监测仪器运行状态,将异常值反馈给运维人员,核实数据是否异常,每天都要进行数据复核,由于人工复核工作量大,需要大量的人力成本,在复核过程中可能会因为人的局限性和主观性导致数据异常识别时发生遗漏和错判等问题。
针对现有技术存在的问题,需要选择合适的数据异常识别算法用于大气监测异常数据的识别,同时构建合适的特征用于数据异常识别算法,在数据复核部分时,及时发现数据中存在的异常值,以辅助人工复核。
发明内容
本发明所要解决的技术问题在于,提供一种基于XGBoost算法的PM2.5数据异常识别方法。
为了解决上述技术问题,本发明提供了一种基于XGBoost算法的PM2.5数据异常识别方法,包括以下步骤:
步骤1:采集国控站六项污染物的小时数据,形成原始数据;
步骤2:数据预处理,对原始数据进行预处理,提高原始数据质量;
步骤3:从原始数据中提取特征,对原始数据进行观察,构建四大类特征;
步骤4:模型训练与测试,确定XGBoost算法作为训练模型并测试;
步骤5:异常数据分析,对于模型识别后的异常数据,进一步进行分析,分析后的数据用于后续调整模型参数,改善模型性能;
步骤6:运维事件标识并去除,数据分析时,将运维前、后的时间段对数据造成影响的,去除相应时段的监测数据;
步骤7:气象监测要素整合,通过分析点位气象参数,结合数据情况综合判断数据有效性;
步骤8:仪器设备参数异常判定,对其他原因导致的站点数据发生变化,进行数据分析时再次判定关键参数的异常情况。
其中,所述步骤2包括对数据预处理过程中产生的带标识数据定为异常值缺失数据并进行插补,使用关系系数矩阵确定缺失值取值排序,关系系数R计算公式为:
其中,所述步骤3中四大类特征为基础特征、相关污染物特征、气象特征和历史数据特征。
其中,所述步骤4包括定义XGBoost算法的目标函数:
其中,
其中,(xi,yi)为数据集样本,xi表示特征向量,yi表示样本标签,模型包含K棵树,fK(x)表示第K棵决策树。
其中,所述步骤5具体包括以下步骤:
步骤5-1:将城市进行聚类,目标城市与周边城市PM2.5数据逐月对比分析,通过相对偏差法和相邻月相对偏差变幅法研判该城市整体数据质量异常变化情况,其中,相对偏差法的计算公式为:
相对偏差(%)=(目标城市月均值-除目标城市外其他城市月均值的均值)/除目标城市外其他城市月均值的均值*100%,
相邻月相对偏差变幅法的计算公式为:
相对偏差变幅(%)=本月偏差-上月偏差;
步骤5-2:将分析后得到的最优参数组合作为XGBoost参数重新训练模型,并对测试集进行预测;
步骤5-3:评估测试集结果,在该参数上进行调优。
其中,所述步骤6具体包括以下步骤:
步骤6-1:对运维前数据分析是在决策树分裂过程中,在每个节点分裂前预先进行评估,若该节点由于运维因素影响分裂后不能使决策树泛化能力提升,则该节点不分裂;
步骤6-2:对运维后数据分析则是先构造一颗完全决策树,自底向上对非叶子节点进行评估,若将该叶子节点剪枝有助于决策树模型泛化能力的提升,则将该节点子树剪去,使其变为叶子节点。
其中,所述步骤7具体包括以下步骤:
步骤7-1:确定需要进行分类的监测指标,按照环境空气质量标准进行等级划分,对原始数据进行训练集和测试集的划分,利用训练集的数据构建决策树;
步骤7-2:建好决策树后利用测试集数据进行验证,验证决策树构建的效果,并根据测试结果优化和调整模型;
步骤7-3:构建最终模型树型结构,输出分类结果中每个类别对应的监测指标取值范围以及每个树枝预测的准确率;
步骤7-4:对于分类准确率小于85%的树枝重新进行样本的选择和决策树的训练,给予预测率较低的级别以较大的权重进入到训练集中,重复以上步骤,直到分类准确率均在85%以上为止;
步骤7-5:输出各树型对应的监测参数范围,利用反推过程对多个监测指标的检测样本进行质量控制,多个监测指标的检测样本的某个参数对应标准范围之外判断为异常值,反之为正常监测,直到遍历完多有的待检测样本为止。
其中,所述步骤8具体包括以下步骤:
步骤8-1:查看站点参数曲线,若参数曲线变动在规定范围内,可判断为正常监测,否则进行下一步验证;
步骤8-2:查看巡检工单是否注明修改参数,短时参数变动,可判断为正常监测,否则进行下一步验证;
步骤8-3:查看更换备机情况,验证设备日志是否表明更换设备,因设备发生更换导致的短时参数变动,可判断为正常监测,否则为异常值。
实施本发明,具有如下有益效果:
本发明从现有历史数据构造了包括基础特征、历史数据特征以及关联污染物特征四大类特征,这些特征在制定好构造规则后,只需要少量的技术人员在每隔一段时间对模型进行维护,进而利用机器学习实现异常数据的自动识别。将机器学习应用到国家空气监测站审核平台,实现数据异常识别自动化,同时自动化的审核机制可以做到实时对数据进行质量控制;一方面可以减少人工审核的局限性,精准识别异常数据,减少出错率,另一方面可以减轻数据复核人员的工作负担和压力以及进一步减少人力成本。
附图说明
图1是本发明实施例的流程方框图;
图2是本发明实施例中基础特征的示意图;
图3是本发明实施例中相关污染物特征的示意图;
图4是本发明实施例中历史数据特征的示意图;
图5是本发明实施例中训练模型方法的示意图;
图6是本发明实施例中训练模型另一种方法的示意图;
图7是本发明实施例中评价指标的示意图;
图8是本发明实施例中参数异常的判断流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,一种基于XGBoost算法的PM2.5数据异常识别方法,包括以下步骤:
步骤1:采集国控站六项污染物的小时数据,形成原始数据。选择各城市、长三角地区、汾渭平原近3年国控站六项污染物的小时数据,数据为各个站点六项污染物小时值的数据及系统与人为标识。
步骤2:数据预处理,对原始数据进行预处理,提高原始数据质量。将标签列为空值,即无异常值的补充为“0”,在数据审核过程中会产生一部分于带标识数据,对带标识数据定为异常值缺失数据并进行插补,使用关系系数矩阵确定缺失值取值排序,关系系数R计算公式为:
步骤3:从原始数据中提取特征,对原始数据进行观察,构建四大类特征,四大类特征分别为基础特征、相关污染物特征、气象特征和历史数据特征。
如图2所示,基础特征包括当前所在月份、当前所在小时、是否为对照点、站点所在区域、所在城市站点总个数、该站点当前PM2.5小时值、当前小时所有站点的PM2.5均值、该站点PM2.5与所有站点均值的差值、该站点 PM2.5与所有站点均值的差值、该站点PM2.5与所有站点均值的相对偏差、该站点当前小时PM2.5在所有站点中的浓度排名。优选的,当前小时所有站点的PM2.5均值计算方法为:先求得所在城市站点两两之间的相关系数r,再求得每个站点与其他站点相关系数的均值r_mean,对r_mean排序,然后根据每个城市站点个数的多少去除相关性较差的站点,对所在城市相关性较好的站点求均值作为当前小时的均值。
如图3所示,相关污染物特征包括该站点当前PM10小时值、当前小时所有站点的PM10均值、该站点PM10与所有站点均值的差值、该站点PM10与所有站点均值的相对偏差、该站点当前小时PM10在所有站点中的浓度排名、该站点当前小时PM2.5相对偏差与PM10相对偏差的差值、该站点当前小时PM2.5排名与PM10排名的差值。
气象特征包括气压、温度、湿度、风向、风速、降水量和能见度共七个气象监测参数,由安装在站房上的气象监测仪捕获的,采样器距地面3- 15米,捕集范围内环境空气流动不受任何影响。
如图4所示,历史数据特征分为前N天的特征和前M个小时的特征两大部分,包括该站点前N天同一小时的PM2.5浓度、排名、排名与当前小时是否一致、浓度与当前小时的浓度差,该站点该小时前30天PM2.5的平均排名,该站点当前小时与前7天同一小时均值的差值,该站点当前小时与前15天同一小时均值的差值,该站点当前小时与前30天同一小时均值的差值,该站点前M个小时的PM2.5浓度、排名、排名与当前小时是否一致、排名与当前小时的浓度差,该站点前M个小时的平均排名,该站点当前小时与前M个小时均值的差值。优选的,N取值范围为[1,30],M取值范围为[1,5]。
PM2.5颗粒物浓度数据产生是采用β射线吸收原理,用朗博比尔定律计算出颗粒物的质量,根据采样时间和流量计算出的浓度值,由以下公式产生:
其中,Δm为颗粒物的质量浓度,A为滤带斑点面积,μm为吸收系数,Q为样气流量,Δt为采样时间。
步骤4:模型训练与测试,确定XGBoost算法作为训练模型并测试。
XGBoost模型定义:
其中,(xi,yi)为数据集样本,xi表示特征向量,yi表示样本标签,模型包含K棵树,fK(x)表示第K棵决策树,决策树对样本特征进行映射,使每个样本落在该树的某个叶子节点上,每个叶子节点均包含一个权重分数,作为落在此叶子节点的样本在本棵树的预测值ω。计算样本在每棵树的预测值(即ω)之和,并将其作为样本的最终预测值。
XGBoost目标函数定义:
目标函数Obj由两项组成:第一项为损失函数,用于评估模型预测值和真实值之间的损失或误差,第二项为正则化项,用于控制模型的复杂度,正则化项倾向于选择简单的模型,避免过拟合。正则化项的定义:
第一项γT通过叶子节点数及其系数控制树的复杂度,值越大则目标函数越大,从而抑制模型的复杂程度。第二项为用于控制叶子节点的权重分数。训练时在Python上直接调用XGBoost模块中的XGBClassifier来进行,根据实验数据,主要针对函数中两个参数进行调参,分别是n_estimators和 scale_pos_weight,将n_estimators设置为1000,scale_pos_weight设置为0.5。
如图5和6所示,在训练模型时,分别通过两个方法来进行:一是分别在各城市、汾渭平原和长三角地区的数据上训练单独的模型并测试;二是把所有数据揉在一起,通过在特征中加入“区域”来训练一个模型并在三个区域的数据上做测试。
如图7所示,通过覆盖率r和和准确率p来评价指标,覆盖率r为从实际是异常的样本中识别出异常的样本率:
准确率p为预测为异常的样本中实际是异常的概率:
步骤5:异常数据分析,对于模型识别后的异常数据,进一步进行分析,分析后的数据用于后续调整模型参数,改善模型性能。具体包括以下步骤:
步骤5-1:将城市进行聚类,目标城市与周边城市PM2.5数据逐月对比分析,通过相对偏差法和相邻月相对偏差变幅法研判该城市整体数据质量异常变化情况,其中,相对偏差法的计算公式为:
相对偏差(%)=(目标城市月均值-除目标城市外其他城市月均值的均值)/除目标城市外其他城市月均值的均值*100%,
相邻月相对偏差变幅法的计算公式为:
相对偏差变幅(%)=本月偏差-上月偏差;
步骤5-2:将分析后得到的最优参数组合作为XGBoost参数重新训练模型,并对测试集进行预测;
步骤5-3:评估测试集结果,在该参数上进行调优,同时确保该对整体模型性能的提升是单调的,使最终选取的参数对模型整体性产生正向影响,避免训练过程中的随机性对参数选择产生的干扰。
步骤6:运维事件标识并去除,在进行数据分析的时候,根据运维前、运维后产生的影响对决策树进行预剪枝、后剪枝,从而降低模型对样本噪声的敏感性,减少过拟合的产生,提高模型的整体泛化能力,具体包括以下步骤:
步骤6-1:对运维前数据分析是在决策树分裂过程中,在每个节点分裂前预先进行评估,若该节点由于运维因素影响分裂后不能使决策树泛化能力提升,则该节点不分裂;
步骤6-2:对运维后数据分析则是先构造一颗完全决策树,自底向上对非叶子节点进行评估,若将该叶子节点剪枝有助于决策树模型泛化能力的提升,则将该节点子树剪去,使其变为叶子节点。
步骤7:气象监测要素整合,通过分析点位气象参数,结合数据情况综合判断数据有效性。具体包括以下步骤:
步骤7-1:确定需要进行分类的监测指标,按照环境空气质量标准进行等级划分,对原始数据进行训练集和测试集的划分,利用训练集的数据构建决策树;
步骤7-2:建好决策树后利用测试集数据进行验证,验证决策树构建的效果,并根据测试结果不断优化和调整模型;
步骤7-3:构建最终模型树型结构,输出分类结果中每个类别对应的监测指标取值范围以及每个树枝预测的准确率;
步骤7-4:对于分类准确率小于85%的树枝重新进行样本的选择和决策树的训练,给予预测率较低的级别以较大的权重进入到训练集中,重复上述步骤,直到分类准确率均在85%以上为止;
步骤7-5:输出各树型对应的监测参数范围,利用反推过程对多个监测指标的检测样本进行质量控制,如果多个监测指标的检测样本的某个参数对应标准范围之外判断为异常值,反之为正常监测;直到遍历完多有的待检测样本为止。
步骤8:仪器设备参数异常判定,由于人为运维失误、返厂维修恢复出厂设置或突然断电等原因导致关键参数发生变化,均可能会导致站点数据发生变化,进行数据分析时需要判定关键参数的异常情况,如图8所示,具体包括以下步骤:
步骤8-1:查看站点参数曲线,包括K值/斜率、截距、灵敏度、K0值、最高加热温度、最小加热效率、相对湿度目标值等重要参数,若参数曲线变动在规定范围内,可判断为正常监测,否则进行下一步验证;
步骤8-2:查看巡检工单是否注明修改参数,因仪器采集、网络、停电等原因导致的短时参数变动,可判断为正常监测,否则进行下一步验证;
步骤8-3:查看更换备机情况,验证设备日志是否表明更换设备,因设备发生更换导致的短时参数变动,可判断为正常监测,否则为异常值。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (8)
1.一种基于XGBoost算法的PM2.5数据异常识别方法,其特征在于,包括以下步骤:
步骤1:采集国控站六项污染物的小时数据,形成原始数据;
步骤2:数据预处理,对原始数据进行预处理,提高原始数据质量;
步骤3:从原始数据中提取特征,对原始数据进行观察,构建四大类特征;
步骤4:模型训练与测试,确定XGBoost算法作为训练模型并测试;
步骤5:异常数据分析,对于模型识别后的异常数据,进一步进行分析,分析后的数据用于后续调整模型参数,改善模型性能;
步骤6:运维事件标识并去除,数据分析时,将运维前、后的时间段对数据造成影响的,去除相应时段的监测数据;
步骤7:气象监测要素整合,通过分析点位气象参数,结合数据情况综合判断数据有效性;
步骤8:仪器设备参数异常判定,对其他原因导致的站点数据发生变化,进行数据分析时再次判定关键参数的异常情况。
3.根据权利要求1所述的一种基于XGBoost算法的PM2.5数据异常识别方法,其特征在于,所述步骤3中所述四大类特征为基础特征、相关污染物特征、气象特征和历史数据特征。
5.根据权利要求1所述的一种基于XGBoost算法的PM2.5数据异常识别方法,其特征在于,所述步骤5具体包括以下步骤:
步骤5-1:将城市进行聚类,目标城市与周边城市PM2.5数据逐月对比分析,通过相对偏差法和相邻月相对偏差变幅法研判该城市整体数据质量异常变化情况,其中,相对偏差法的计算公式为:
相对偏差(%)=(目标城市月均值-除目标城市外其他城市月均值的均值)/除目标城市外其他城市月均值的均值*100%,
相邻月相对偏差变幅法的计算公式为:
相对偏差变幅(%)=本月偏差-上月偏差;
步骤5-2:将分析后得到的最优参数组合作为XGBoost参数重新训练模型,并对测试集进行预测;
步骤5-3:评估测试集结果,在该参数上进行调优。
6.根据权利要求1所述的一种基于XGBoost算法的PM2.5数据异常识别方法,其特征在于,所述步骤6具体包括以下步骤:
步骤6-1:对运维前数据分析是在决策树分裂过程中,在每个节点分裂前预先进行评估,若该节点由于运维因素影响分裂后不能使决策树泛化能力提升,则该节点不分裂;
步骤6-2:对运维后数据分析则是先构造一颗完全决策树,自底向上对非叶子节点进行评估,若将该叶子节点剪枝有助于决策树模型泛化能力的提升,则将该节点子树剪去,使其变为叶子节点。
7.根据权利要求1所述的一种基于XGBoost算法的PM2.5数据异常识别方法,其特征在于,所述步骤7具体包括以下步骤:
步骤7-1:确定需要进行分类的监测指标,按照环境空气质量标准进行等级划分,对原始数据进行训练集和测试集的划分,利用训练集的数据构建决策树;
步骤7-2:建好决策树后利用测试集数据进行验证,验证决策树构建的效果,并根据测试结果优化和调整模型;
步骤7-3:构建最终模型树型结构,输出分类结果中每个类别对应的监测指标取值范围以及每个树枝预测的准确率;
步骤7-4:对于分类准确率小于85%的树枝重新进行样本的选择和决策树的训练,给予预测率较低的级别以较大的权重进入到训练集中,重复以上步骤,直到分类准确率均在85%以上为止;
步骤7-5:输出各树型对应的监测参数范围,利用反推过程对多个监测指标的检测样本进行质量控制,多个监测指标的检测样本的某个参数对应标准范围之外判断为异常值,反之为正常监测,直到遍历完多有的待检测样本为止。
8.根据权利要求1所述的一种基于XGBoost算法的PM2.5数据异常识别方法,其特征在于,所述步骤8具体包括以下步骤:
步骤8-1:查看站点参数曲线,若参数曲线变动在规定范围内,可判断为正常监测,否则进行下一步验证;
步骤8-2:查看巡检工单是否注明修改参数,短时参数变动,可判断为正常监测,否则进行下一步验证;
步骤8-3:查看更换备机情况,验证设备日志是否表明更换设备,因设备发生更换导致的短时参数变动,可判断为正常监测,否则为异常值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210053540.0A CN114462511A (zh) | 2022-01-18 | 2022-01-18 | 一种基于XGBoost算法的PM2.5数据异常识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210053540.0A CN114462511A (zh) | 2022-01-18 | 2022-01-18 | 一种基于XGBoost算法的PM2.5数据异常识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114462511A true CN114462511A (zh) | 2022-05-10 |
Family
ID=81410161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210053540.0A Pending CN114462511A (zh) | 2022-01-18 | 2022-01-18 | 一种基于XGBoost算法的PM2.5数据异常识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114462511A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757311A (zh) * | 2023-05-31 | 2023-09-15 | 广州沃索环境科技有限公司 | 基于大数据的生态环境污染监测方法及系统 |
CN117352193A (zh) * | 2023-12-05 | 2024-01-05 | 山东法默康医药咨询有限公司 | 基于药品长期试验的数据处理方法、系统、装置及介质 |
WO2024119683A1 (zh) * | 2022-12-09 | 2024-06-13 | 河北先河环保科技股份有限公司 | 区域空气质量污染程度的判断方法、装置及存储介质 |
-
2022
- 2022-01-18 CN CN202210053540.0A patent/CN114462511A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024119683A1 (zh) * | 2022-12-09 | 2024-06-13 | 河北先河环保科技股份有限公司 | 区域空气质量污染程度的判断方法、装置及存储介质 |
CN116757311A (zh) * | 2023-05-31 | 2023-09-15 | 广州沃索环境科技有限公司 | 基于大数据的生态环境污染监测方法及系统 |
CN117352193A (zh) * | 2023-12-05 | 2024-01-05 | 山东法默康医药咨询有限公司 | 基于药品长期试验的数据处理方法、系统、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114462511A (zh) | 一种基于XGBoost算法的PM2.5数据异常识别方法 | |
Steffen et al. | A comparison of data quality control protocols for atmospheric mercury speciation measurements | |
CN110716512A (zh) | 一种基于燃煤电站运行数据的环保装备性能预测方法 | |
CN107480698A (zh) | 基于多个监测指标的质量控制方法 | |
CN112818604A (zh) | 一种基于风功率预测的风电机组风险度评估方法 | |
CN108802856B (zh) | 一种基于ai的源数据动态修正预报系统及其工作方法 | |
CN116011317B (zh) | 一种基于多方法融合的小尺度近实时大气污染溯源方法 | |
CN114912343A (zh) | 基于lstm神经网络的空气质量二次预报模型构建方法 | |
CN111027193A (zh) | 一种基于回归模型的短期水位预测方法 | |
CN113570163A (zh) | 基于数学模型的大气臭氧浓度预测方法、系统和装置 | |
CN114354783A (zh) | 基于在运数据的特高压油色谱监测装置健康度评估方法 | |
CN115453064B (zh) | 一种细颗粒物空气污染成因分析方法及系统 | |
CN111126489A (zh) | 一种基于集成学习的输电设备状态评价方法 | |
CN111275341A (zh) | 基于lasso及随机森林的高拱坝谷幅变形分析方法 | |
CN102607641A (zh) | 一种燃气轮机的聚类异常检测方法 | |
CN114757413A (zh) | 一种基于时序数列分析耦合神经网络预测的不良数据辨识方法 | |
CN116432123A (zh) | 一种基于cart决策树算法的电能表故障预警方法 | |
CN111861206A (zh) | 一种基于企业电力大数据的工业行业景气指数获取方法 | |
CN112702408A (zh) | 基于多感知功能的物联网系统及方法 | |
CN114295778B (zh) | 一种基于火电厂烟气排放质量评价方法及评价系统 | |
CN116187861A (zh) | 基于同位素的水质溯源监测方法及相关装置 | |
CN116910677A (zh) | 一种工业仪表故障诊断方法及系统 | |
CN116934102A (zh) | 一种用于工业园区的环境风险管控系统 | |
CN112986497B (zh) | 基于气体传感器阵列指纹识别的污染气体溯源方法 | |
CN116930423A (zh) | 一种空气质量模型模拟效果的自动验证评估方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |