CN114970977A

CN114970977A - 数字化城市空气质量监测数据的异常数据检测方法及系统

Info

Publication number: CN114970977A
Application number: CN202210492772.6A
Authority: CN
Inventors: 王明光; 杨帆; 蒋维; 谢红; 钟浩; 刘红志; 高友光; 钱程; 陈磊
Original assignee: New Wisdom Daoshu Shanghai Technology Co ltd
Current assignee: New Wisdom Daoshu Shanghai Technology Co ltd
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2022-08-30

Abstract

本发明提供一种数字化城市空气质量监测数据的异常数据检测方法及系统，包括：步骤S1：对获取的化工环保站空气治理监测样本数据中空气质量指数数据进行初步的异常值筛选，剔除异常数据，形成初步处理的样本；步骤S2：采用隔离森林对初步处理的样本数据中的空气质量指数数据潜在的异常值进行识别；步骤S3：对识别出的潜在的异常值数据进行剔除，并进行Z‑Score标准化预处理；步骤S4：利用样本数据进行线性回归，线性回归模型采用Lasso回归模型进行建模；步骤S5：预测空气质量指数值，进行标准化残差，使用三西格玛准则判断异常值。本发明能够提高线性回归模型的鲁棒性，且利于利用得到的回归模型再进行异常值检测的精确度提高。

Description

数字化城市空气质量监测数据的异常数据检测方法及系统

技术领域

本发明涉及化学工业技术领域，具体地，涉及一种数字化城市空气质量监测数据的异常数据检测方法及系统。

背景技术

数字城市是从工业化时代向信息化时代转换的基本标志之一。它一般指在城市"自然、社会、经济"系统的范畴中，能够有效获取、分类存储、自动处理和智能识别海量数据的、具有高分辨率和高度智能化的、既能虚拟现实又可直接参与城市管理和服务的一项综合工程。

化工行业历来是国家经济发展的支柱产业，与人民群众的日常生产生活密不可分。伴随着化工行业迅速发展化工园区面临高耗能、高污染、高风险特征，长期以来人们把化工园区空气质量监测作为一项重要任务。化工园区空气质量监测主要是通过前端监测设备监测如空气中的细颗粒物(pm_2.5)、可吸入颗粒物(pm₁₀)、二氧化硫(SO₂)、二氧化氮(NO₂)、臭氧(O₃)、一氧化碳(CO)等多项污染物浓度来判断化工园区的空气质量指数(AQI)。

每个化工园区空气污染物的浓度关联关系不同，空气质量指数不同。为了探究化工园区空气质量指数受哪些空气污染物的影响程度更大并同时检测出不符合相应的模型的异常值，现有文献：[陈学.基于线性回归模型对空气质量指数的影响因素分析——以重庆市大足区为例[J].环境影响评价,2021,43(05):79-82.]探究空气质量指数影响因素分析是直接使用线性回归的方式，对数据进行线性回归建立模型，对模型回归检验等。

对于模型建立之后的异常检测专利有：公开号为CN106897941A的中国发明专利，公开了一种基于四分位箱线图的风机异常数据处理方法及装置，使用箱线图的方式对将不符合模型的异常值进行识别出来进行处理。

上述基于线性回归的实现方法面临这的问题：

线性回归模型做回归方程对空气污染物的影响程度进行判断，然后去做空气质量指数异常值检测，是在模型建立完毕，并且模型拟合程度比较好的情况下通过箱线图四分位距(IQR)做异常值识别的一个步骤。

虽然现有技术是可以将数据回归进行预测分析也可以将异常值进行一个检测出来，但是其不好的地方就在于：

1、直接建立线性回归模型的时候回归模型会受到异常值的影响，使用最小二乘法回归拟合准则对模型参数进行估计的时候可能存在估计偏差较大的情况，从而导致模型存在不稳健。

2、在模型存在不稳健的情况下再去箱线图进行异常检测的话这个时候检验出的异常值的效果也不会很好。

专有名词解释：

LASSO：Least absolute shrinkage and selection operator，LASSO回归；

Z-Scores：Standardized Population Data，以标准差单位表现的一组观察值；

The least square method，最小二乘法；

Isolation Forest，隔离森林算法。

发明内容

针对现有技术中的缺陷，本发明提供一种数字化城市空气质量监测数据的异常数据检测方法及系统。

根据本发明提供的一种数字化城市空气质量监测数据的异常数据检测方法及系统，所述方案如下：

第一方面，提供了一种数字化城市空气质量监测数据的异常数据检测方法，所述方法包括：

步骤S1：获取化工环保站空气治理监测样本数据，并对化工环保站空气治理监测样本数据中空气质量指数数据进行初步的异常值筛选，剔除异常数据，形成初步处理的样本；

步骤S2：采用隔离森林进一步对初步处理的样本数据中的空气质量指数数据潜在的异常值进行识别；

步骤S3：样本数据中对识别出的潜在的异常值数据进行剔除，剔除潜在的异常值数据之后，对剔除后的样本进行Z-Score标准化预处理；

步骤S4：利用标准化预处理之后的样本数据进行线性回归，线性回归模型采用Lasso回归模型进行建模；

步骤S5：利用样本回归出的模型，预测空气质量指数值，然后进行标准化残差，使用三西格玛准则判断异常值。

优选地，所述步骤S1包括：将化工环保站空气治理监测样本数据中空气质量指数数据进行初步的异常值筛选，通过绘制箱线图的方式查看空气质量指数数据的一个数据分布情况，然后利用箱线图四分位距IQR进行识别，将空气质量指数数据中大于Q3+1.5IQR和小于Q1-1.51IQR的数据作为异常值进行筛选剔除处理。

优选地，所述步骤S2中隔离森林处理包括：

步骤S2.1：构建隔离树；

步骤S2.2：计算路径长度h(x)；

步骤S2.3：计算异常分数；

步骤S2.4：异常分数阈值参数Score选择。

优选地，所述步骤S2.2中计算路径长度h(x)是指对于一个数据对象，将其从根节点到被隔离的叶子节点之间树的高度，数据对象的叶节点路径长度等于二叉搜索树中搜索失败时的路径长度，其中，二叉搜索树中搜索失败时的路径长度计算公式：

c(n)＝2H(n-1)-(2(n-1)/n)

H(i)＝ln(i)+γ

其中，x表示一条样本数据；n表示样本数据集中样本的个数；E(h(x))表示样本x在一批隔离树中的路径长度期望；c(n)表示给定一个n个样本的数据集，树的平均路径长度；H(i)表示谐波数；γ是欧拉常数。

优选地，所述步骤S4包括：线性回归模型采用Lasso回归模型进行建模：

假设函数为：h_θ(x)＝θ₀x₀+θ₁x₁+...+θ_nx_n

损失函数为：

目标：minJ(θ₀,θ₁...θ_n)

其中，x₀,x₁...x_n是自变量，h_θ(x)是因变量；θ₀,θ₁...θ_n是带估测的参数；m为训练集样本的个数，λ为正则化参数；x⁽ⁱ⁾表示第i个样本；h_θ(x)表示假设的预测函数.；J(θ)表示损失函数；i表示表示第i个样本号；j表示表示第j个参数号；|θ_j|表示第j个参数的绝对值。

使用最小二乘法在指定正则化参数下求解带估测参数，得出空气质量回归方程。

优选地，所述步骤S5包括：采用步骤S4中得到的回归方程对空气质量数据进行检验异常值，通过实际监测到的空气质量指数-预测的空气质量指数再进行标准化进行计算，使用三西格玛准则进行判断当日某时刻的空气质量指数的异常值，观察标准化残差值绝对值是否大于3，大于3则为异常值。

第二方面，提供了一种数字化城市空气质量监测数据的异常数据检测系统，所述系统包括：

模块M1：获取化工环保站空气治理监测样本数据，并对化工环保站空气治理监测样本数据中空气质量指数数据进行初步的异常值筛选，剔除异常数据，形成初步处理的样本；

模块M2：采用隔离森林进一步对初步处理的样本数据中的空气质量指数数据潜在的异常值进行识别；

模块M3：样本数据中对识别出的潜在的异常值数据进行剔除，剔除潜在的异常值数据之后，对剔除后的样本进行Z-Score标准化预处理；

模块M4：利用标准化预处理之后的样本数据进行线性回归，线性回归模型采用Lasso回归模型进行建模；

模块M5：利用样本回归出的模型，预测空气质量指数值，然后进行标准化残差，使用三西格玛准则判断异常值。

优选地，所述模块M1包括：将化工环保站空气治理监测样本数据中空气质量指数数据进行初步的异常值筛选，通过绘制箱线图的方式查看空气质量指数数据的一个数据分布情况，然后利用箱线图四分位距IQR进行识别，将空气质量指数数据中大于Q3+1.5IQR和小于Q1-1.51IQR的数据作为异常值进行筛选剔除处理。

优选地，所述模块M2中隔离森林处理包括：

模块M2.1：构建隔离树；

模块M2.2：计算路径长度h(x)；

模块M2.3：计算异常分数；

模块M2.4：异常分数阈值参数Score选择。

优选地，所述模块M2.2中计算路径长度h(x)是指对于一个数据对象，将其从根节点到被隔离的叶子节点之间树的高度，数据对象的叶节点路径长度等于二叉搜索树中搜索失败时的路径长度，其中，二叉搜索树中搜索失败时的路径长度计算公式：

c(n)＝2H(n-1)-(2(n-1)/n)

H(i)＝ln(i)+γ

与现有技术相比，本发明具有如下的有益效果：

1、本发明使用箱线图与隔离森林算法进行先进行异常检测，保证回归样本的一个可代表性；

2、本发明中的回归模型采用Lasso回归模型，可有效解决数据存在过拟合的情况，以及变量之间存在多重共线性问题最后在提前做异常检测的情况下使得模型更加稳健，更具有鲁棒性；

3、本发明利用稳健模型做数据最后的异常检测的话利用传统统计学中残差分析中标准化残差值，来进行判断异常值，计算量小，步骤简单，易操作。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明整体流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例提供了一种数字化城市空气质量监测数据的异常数据检测方法，参照图1所示，该方法具体包括：

步骤S1：获取化工环保站空气治理监测样本数据，并对化工环保站空气治理监测样本数据中空气质量指数数据进行初步的异常值筛选，剔除异常数据，形成初步处理的样本。

具体地，步骤S1包括：将化工环保站空气治理监测样本数据中空气质量指数数据进行初步的异常值筛选，通过绘制箱线图的方式查看空气质量指数数据的一个数据分布情况，然后利用箱线图四分位距IQR进行识别，将空气质量指数数据中大于Q3+1.5IQR和小于Q1-1.51IQR的数据作为异常值进行筛选剔除处理。

步骤S2：采用隔离森林进一步对初步处理的样本数据中的空气质量指数数据潜在的异常值进行识别。

具体地，步骤S2中隔离森林处理包括：

步骤S2.1：构建隔离树；

步骤S2.2：计算路径长度h(x)；

计算路径长度h(x)是指对于一个数据对象，将其从根节点到被隔离的叶子节点之间树的高度，数据对象的叶节点路径长度等于二叉搜索树中搜索失败时的路径长度，其中，二叉搜索树中搜索失败时的路径长度计算公式：

c(n)＝2H(n-1)-(2(n-1)/n)

H(i)＝ln(i)+γ

步骤S2.3：计算异常分数；

步骤S2.4：异常分数阈值参数Score选择。

步骤S3：样本数据中对识别出的潜在的异常值数据进行剔除，剔除潜在的异常值数据之后，对剔除后的样本进行Z-Score标准化预处理。

步骤S4：利用标准化预处理之后的样本数据进行线性回归，线性回归模型采用Lasso回归模型进行建模。

具体地，步骤S4包括：线性回归模型采用Lasso回归模型进行建模：

假设函数为：h_θ(x)＝θ₀x₀+θ₁x₁+...+θ_nx_n

损失函数为：

目标：minJ(θ₀,θ₁...θ_n)

具体地，步骤S5包括：采用步骤S4中得到的回归方程对空气质量数据进行检验异常值，通过实际监测到的空气质量指数-预测的空气质量指数再进行标准化进行计算，使用三西格玛准则进行判断当日某时刻的空气质量指数的异常值，观察标准化残差值绝对值是否大于3，大于3则为异常值。

接下来，对本发明进行更为具体的说明。

一种数字化城市空气质量监测数据的异常数据检测方法，该方法实现描述如下：

a、对化工环保站空气治理监测样本数据中空气质量指数数据，首先使用箱型图初步剔除异常值，在此基础上采用隔离森林进一步识别数据中潜在的异常值。

b、样本数据中对识别出的异常值数据进行剔除，并对其进行Z-Score标准化预处理。

c、确定回归模型，确定回归模型中因变量空气质量指数，自变量空气中的细颗粒物(pm_2.5)、可吸入颗粒物(pm₁₀)、二氧化硫(SO₂)、二氧化氮(NO₂)、臭氧(O₃)、一氧化碳(CO)。将处理后的样本数据作为线性回归的预测模型的学习样本进行回归建模。

下面对每个实现步骤详细进行描述：

步骤S1：空气质量指数基于概率模型进行异常检验。

本步骤是将化工环保站空气治理监测样本数据中空气质量指数数据进行初步的异常值筛选，通过绘制箱线图的方式查看空气质量指数数据的一个数据分布情况，然后利用箱线图四分位距(IQR)进行识别，将空气质量指数数据中大于Q3+1.5IQR和小于Q1-1.51IQR的数据认为不能代表样本中的数据作为异常值进行筛选剔除处理(此处的数据剔除是指剔除数据表中相应的一行数据如当日某一时刻空气质量指数为异常值，则相应的当天那一时刻对应研究的多种污染物的数据一起剔除)。

通过步骤S1能够初步检测样本的异常值，对样本中的异常数据进行剔除处理，形成初步处理的样本。

步骤S2：空气质量指数基于隔离森林进行异常值检测。

本步骤是在步骤S1的基础上采用隔离森林进一步对初步处理的样本数据中的空气质量指数数据潜在的异常值进行识别。

隔离森林是一种无监督学习算法，通过隔离数据中的离群值识别异常。主要原理是通过样本建立的隔离树，求其分割的路径长度h(x)，路径长度h(x)越小，即离树的根节点越近，表示该数据越容易被隔离，也就意味着需少量划分次数即可将异常对象与其他对象区别。

隔离森林处理的主要三个步骤就是1、构建隔离树；2、计算路径长度h(x)；3、计算异常分数；4、异常分数阈值参数Score选择。

对于构建隔离树：先在初步处理的样本中的空气质量指数抽取256(此为默认数值)个子样本并随机选择一个样本属性及隔离值将子样本空间进行递归地划分。从而通过隔离过程来一个建立隔离树结构，直至每个数据对象都由一棵隔离树与其他对象区别开来。此处构建隔离树数目100(此为默认数值)棵。

对于计算路径长度h(x)：路径长度h(x)是指对于一个数据对象，将其从根节点到被隔离的叶子节点之间树的高度。数据对象的叶节点路径长度等于二叉搜索树中搜索失败时的路径长度。

其中二叉搜索树中搜索失败时的路径长度计算公式：

c(n)＝2H(n-1)-(2(n-1)/n)

H(i)＝ln(i)+γ

对于异常分数计算：异常分数的计算主要是通过公式：

计算出每个待测数据的异常分数,通过s是否趋近于1判断数据是否优先被隔离。

异常分数阈值参数Score选择：在隔离森林检测异常值阶段，隔离树数目以及抽取子样本数据按照默认值设置，即t＝100，φ＝256。异常分数阈值参数Score根据样本数据情况设置。如本发明采用了箱型图处理之后的初步处理的样本可视化情况帮助选择异常分数阈值。以化工环保站空气治理监测样本数据为例，在score取0.9的时候由于异常分数阈值参数设置较高，异常值检测的结果只有两个，在score取值为0.7的时候由于异常分数阈值较低，异常检验结果为30个，过多的数据被识别成异常值，部分数据不是真正的异常点。在score选取为0.8的时候检测处7个异常点，异常分数阈值合理。即采用设置不同的score进行对比方法选取异常分数阈值得出异常分数阈值。

在经过构造空气质量指数数据隔离树然后计算路径长度，得出异常分数。再通过可视化方式帮助选择异常分数阈值，完成隔离森林异常检测。

通过步骤S2隔离森林算法的异常隔离，利用构造隔离树、计算路径长度、计算异常分数、对异常分数阈值参数Score进行选择判断异常标准将经过初步异常处理之后的样本再进一步识别潜在异常，减少了异常值的掩盖和淹没效应。

步骤S3：回归样本数据进行预处理。

本步骤是在箱线图异常检测以及隔离森林异常检测的基础上，在样本数据中剔除异常值数据之后进行的处理的过程。由于样本数据集存在CO(一氧化碳)的数据取值范围与其他NO₂(二氧化氮),O₃(臭氧)等彼此差异很大情况，需要对进行回归的数据量采用z-score标准化即标准差标准化，通过计算不同数据的均值和标准差进行计算。

通过步骤S3的数据预处理将样本中数据度量单位不同或者取值范围彼此差异很大的数据进行标准化，有利于步骤S4回归模型中对空气质量指数影响因素的影响强弱判断。

步骤S4：样本数据做Lasso线性回归建模。

本步骤是利用预处理之后的样本数据进行线性回归的过程。线性回归模型采用Lasso回归模型进行建模。

假设函数为：h_θ(x)＝θ₀x₀+θ₁x₁+...+θ_nx_n

损失函数为：

目标：minJ(θ₀,θ₁...θ_n)

通过步骤S4利用最小二乘法求解Lasso线性回归模型参数θ₀,θ₁...θ_n得到线性回归方程，使用回归方程对空气质量指数进行预测分析。Lass线性回归能够很好解决线性回归中出现过拟合以及变量间存在共线性问题。

步骤S5：回归模型监测异常值。

本步骤是采用步骤S4得到的回归方程对空气质量数据进行检验异常值，通过实际监测到的空气质量指数-预测的空气质量指数再进行标准化(残差标准化)进行计算，使用3西格玛准则进行判断当日某时刻的空气质量指数的异常值。观察标准化残差值绝对值是否大于3，大于3为异常值。

通过步骤S5利用样本回归出的模型，预测空气质量指数值，然后进行标准化残差，使用3西格玛准则判断异常值。

本发明实施例提供了一种数字化城市空气质量监测数据的异常数据检测方法及系统，先做异常值检验将空气质量样本中的空气质量指数的异常值相关数据进行一个筛选处理，然后将处理好的样本数据进行回归。这样的回归第一解决了回归过程因为异常值导致中的最小二乘法存在估计偏差较大的问题，同时提高线性回归模型的鲁棒性，帮助回归分析预测更加准确。第二更利于利用得到的回归模型再进行异常值检测的精确度提高。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种数字化城市空气质量监测数据的异常数据检测方法，其特征在于，包括：

2.根据权利要求1所述的数字化城市空气质量监测数据的异常数据检测方法，其特征在于，所述步骤S1包括：将化工环保站空气治理监测样本数据中空气质量指数数据进行初步的异常值筛选，通过绘制箱线图的方式查看空气质量指数数据的一个数据分布情况，然后利用箱线图四分位距IQR进行识别，将空气质量指数数据中大于Q3+1.5IQR和小于Q1-1.51IQR的数据作为异常值进行筛选剔除处理。

3.根据权利要求1所述的数字化城市空气质量监测数据的异常数据检测方法，其特征在于，所述步骤S2中隔离森林处理包括：

步骤S2.1：构建隔离树；

步骤S2.2：计算路径长度h(x)；

步骤S2.3：计算异常分数；

步骤S2.4：异常分数阈值参数Score选择。

4.根据权利要求3所述的数字化城市空气质量监测数据的异常数据检测方法，其特征在于，所述步骤S2.2中计算路径长度h(x)是指对于一个数据对象，将其从根节点到被隔离的叶子节点之间树的高度，数据对象的叶节点路径长度等于二叉搜索树中搜索失败时的路径长度，其中，二叉搜索树中搜索失败时的路径长度计算公式：

c(n)＝2H(n-1)-(2(n-1)/n)

H(i)＝ln(i)+γ

5.根据权利要求1所述的数字化城市空气质量监测数据的异常数据检测方法，其特征在于，所述步骤S4包括：线性回归模型采用Lasso回归模型进行建模：

假设函数为：h_θ(x)＝θ₀x₀+θ₁x₁+...+θ_nx_n

损失函数为：

目标：minJ(θ₀,θ₁...θ_n)

其中，x₀,x₁...x_n是自变量，h_θ(x)是因变量；θ₀,θ₁...θ_n是带估测的参数；m为训练集样本的个数，λ为正则化参数；x⁽ⁱ⁾表示第i个样本；h_θ(x)表示假设的预测函数.；J(θ)表示损失函数；i表示表示第i个样本号；j表示表示第j个参数号；|θ_j|表示第j个参数的绝对值；

6.根据权利要求1所述的数字化城市空气质量监测数据的异常数据检测方法，其特征在于，所述步骤S5包括：采用步骤S4中得到的回归方程对空气质量数据进行检验异常值，通过实际监测到的空气质量指数-预测的空气质量指数再进行标准化进行计算，使用三西格玛准则进行判断当日某时刻的空气质量指数的异常值，观察标准化残差值绝对值是否大于3，大于3则为异常值。

7.一种数字化城市空气质量监测数据的异常数据检测系统，其特征在于，包括：

8.根据权利要求7所述的数字化城市空气质量监测数据的异常数据检测系统，其特征在于，所述模块M1包括：将化工环保站空气治理监测样本数据中空气质量指数数据进行初步的异常值筛选，通过绘制箱线图的方式查看空气质量指数数据的一个数据分布情况，然后利用箱线图四分位距IQR进行识别，将空气质量指数数据中大于Q3+1.5IQR和小于Q1-1.51IQR的数据作为异常值进行筛选剔除处理。

9.根据权利要求7所述的数字化城市空气质量监测数据的异常数据检测系统，其特征在于，所述模块M2中隔离森林处理包括：

模块M2.1：构建隔离树；

模块M2.2：计算路径长度h(x)；

模块M2.3：计算异常分数；

模块M2.4：异常分数阈值参数Score选择。

10.根据权利要求9所述的数字化城市空气质量监测数据的异常数据检测系统，其特征在于，所述模块M2.2中计算路径长度h(x)是指对于一个数据对象，将其从根节点到被隔离的叶子节点之间树的高度，数据对象的叶节点路径长度等于二叉搜索树中搜索失败时的路径长度，其中，二叉搜索树中搜索失败时的路径长度计算公式：

c(n)＝2H(n-1)-(2(n-1)/n)

H(i)＝ln(i)+γ