CN110807174A

CN110807174A - 一种基于统计分布的污水厂厂群出水分析及异常识别方法

Info

Publication number: CN110807174A
Application number: CN201911013385.4A
Authority: CN
Inventors: 李志华; 卢猛; 傅阳菲
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-02-18
Anticipated expiration: 2039-10-23
Also published as: CN110807174B

Abstract

本发明公开了一种基于统计分布的污水厂厂群出水分析及异常识别方法，包括获取区域内多个污水厂的实时在线监测的出水水质数据，建立数据集；对数据集中缺失值和异常值预处理；选择所有污水厂中对应指标的总体出水水质数据，并绘制其概率密度曲线图，判断数据服从的统计分布类型P；对每个污水厂对应的出水水质指标进行概率密度分布函数参数估计；得到对应出水水质指标的参数数据集，设置上侧分位数a和下侧分位数b，并根据在分位数不同区域判定污水厂数据及运行是否存在异常风险，并且根据概率密度分布特征与污水厂实际运行结合，表征污水厂行为特性。该方法根据其统计分布特征来评估污水厂的行为特性，快速识别和监管具有异常风险的污水厂。

Description

一种基于统计分布的污水厂厂群出水分析及异常识别方法

技术领域

本发明属于污水处理领域，涉及一种通过对区域中多个污水厂出水水质数据的统计分布分析，从而表征出污水厂特性及异常状态识别的方法。

背景技术

当前全国各地的污水厂分布散乱，尤其是一些偏远地区的污水厂，环保部门想要对所有污水处理厂进行有效的监管，其成本和难度是非常巨大的。这也就出现了一系列的问题，比如：污水处理厂为应付环保部门的环境考核和督察，不在污染治理上做功夫，而是在监测数据上做手脚，以“临时达标”来完成任务；便得环保部门不能针对每个污水处理厂进行合理的评估，判断其是否出现技术落后、能耗大和管理不当等问题，大大的减弱了对污水处理厂的监管力度。目前存在的监管技术，只是针对单个污水厂进行监督管理，局限过大，不能适用于区域内的多个污水厂。对此，我们提出了一种通过对区域中多个污水厂出水水质数据的统计分布特征的分析，来为当前相关的环保部门提供一个可行有效的监管方法。

发明内容

本发明的目的在于提供一种可监管污水厂排放行为特征和识别污水厂异常的方法。我们根据区域内多个污水厂总体的统计分布类型，来获得每个污水厂出水水质数据的统计分布特性，利用分位数选择数据离群值，识别出具有数据异常的污水厂，同时根据分布函数的数字特征来表征出每个污水厂的运行状况。

本发明的目的是通过下述技术方案来实现的。

一种基于统计分布的污水厂厂群出水分析及异常识别方法，包括下述步骤：

(1)获取区域内多个污水厂的实时在线监测的出水水质数据，建立数据集；

(2)剔除数据集中所包含的缺失值和异常值，保留修正数据集，并将修正数据集按不同污水厂不同出水水质指标进行标记，如下：T_ij(i＝1,2,3...j＝1,2,3...)，表示第i个污水厂第j个出水水质指标的数据集；T_j(j＝1,2,3...)表示所有污水厂第j个出水指标的总体出水水质数据集；

(3)选择所有污水厂中第j个出水指标的总体出水水质数据集T_j，并绘制其概率密度曲线图，判断所有水厂总体的数据的统计分布类型P_j，并分析该分布的统计特征；

(4)将第i个污水厂第j个出水水质指标的数据集T_ij(i＝1,2,3...)，单独进行P_j概率密度分布函数的参数估计，获取到每个污水厂的参数数据集；

(5)得到每个污水厂第j个出水水质指标的参数数据集，对不同的参数数据集，设置上侧分位数a和下侧分位数b，在分位数为0-a％和b％-1的污水厂，表明其数据不正常，及运行存在异常风险；在分位数a％-b％污水厂，表明其为运行管理良好、数据正常；

并且根据P_j分布特征与污水厂实际运行相结合，来表征污水厂的行为特性。

进一步，所述步骤1)中，获取区域内多个污水厂的实时在线监测的出水水质数据，建立数据集；出水水质数据包括：BOD、氨氮、pH值、COD和总氮等多个指标数据。

进一步，所述步骤2)中，缺失值为数据在收集过程中导致部分数据为空值；

所述异常值为监测设备器件出现异常，产生过大的数据漂移，导致数据变化异常大或者值为负值。

进一步，所述步骤3)中，选择所有污水厂中相对应的出水指标总体数据，绘制其概率密度分布图，根据分布特征进而判断对应指标数据所服从的统计分布类型P。

进一步，所述步骤4)中，通过极大似然法对每个污水厂分布类型P的概率密度函数进行参数估计，获取到所有污水厂的参数数据集，具体如下：

1)广义Gamma的概率密度分布函数f(x|α,β,γ)中Г(α)为伽玛函数，具有三个参数α、β和γ；

2)控制其中的两个参数，做出另一个参数取不同值下函数的曲线；

3)正态分布具有两个参数σ和μ，控制其中的一个参数，做出另一个参数取不同值下函数的曲线。

进一步，所述步骤5)中，对所有污水厂的不同参数，设置上侧分位数a和下侧分位数b，在分位数为0-a和b-1的污水厂为数据及运行异常的污水厂，在分位数a-b污水厂为运行良好、数据正常的污水厂；并且根据P的分布特性与污水厂运行相结合，来表征污水厂的特性。

其中，上侧分位数a和下侧分位数b分别满足如下：

利用分位数将污水厂进行分类：

对于出水氨氮，参数数据集A、B和C三类在分位数0-10％、10％-90％和90％-100％的污水厂分为A1、A2、A3，B1、B2、B3，C1、C2和C3九类；

A2、B2、C2位于分位数10％-90％数据污水分布集中区，为出水氨氮数据正常的污水厂；

A1、A3、B1、B3、C1、C3六类位于污水分布两侧，为出水氨氮具有异常风险的污水厂；

对于出水COD，D和E两类在分位数0-10％、10％-90％和90％-100％的污水厂分为D1、D2、D3，E1、E2和E3六类；

D2、E2位于10％-90％数据分布集中区，为出水COD数据正常的污水厂；

D1、D3、E1和E3四类位于分布两侧，为出水COD具有异常风险的污水厂。

进一步，所述步骤5)中，根据概率密度分布函数P_j的分布特征与污水厂实际运行相结合，来表征污水厂的行为特性如下：

(1)出水COD正态分布参数σ越小，分布曲线较陡，顶部尖锐，则表示污水厂常年运行较好，数据波动范围不大；

(2)正态分布参数σ越大，分布曲线平缓，不符合正态分布，则表示出水COD的异常散乱；

(3)正态分布参数μ较小时，出水COD值主要集中在较小数值附近，则表示运行管理水平较好；

(4)正态分布参数μ较大时，可以看出出水COD值主要集中在较高数值附近，则表示出水COD普通较高，污水处理差。

本发明具有以下优点：

1)成本低，操作简单

该方法只需要收集污水厂的出水水质数据，通过该模型分析，可对污水厂的运行状态进行评估，相关人员不用亲自到现场即完成对污水厂的监管，减少了中间的成本。

2)迅速高效

污水厂分布散乱，并且数量众多，为完成对污水厂的评估，当前方法并不能快速高效的做到，本发明提出了以区域多个污水厂为对象，通过出水水质数据的分析，即可达到对污水厂的监管评估，减少了传统中的耗时长等问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的不当限定，在附图中：

图1(a)和图1(b)分别为本区域内所有污水厂出水氨氮和出水COD的概率密度曲线图；

图2(a)、2(b)、图2(c)为不同参数值下的广义伽玛分布曲线变化图；

图3(a)和图3(b)为不同参数值下的正态分布曲线变化图；

图4(a)、图4(c)、图4(e)为广义Gamma分布参数在分位数0-10％内的污水厂出水氨氮概率密度曲线图；

图4(b)、图4(d)、图4(f)为广义Gamma分布参数在分位数90％-1内的污水厂出水氨氮概率密度曲线图；

图5(a)和图5(c)为正态分布参数在分位数0-10％内的污水厂出水COD概率密度曲线图；

图5(b)和图5(d)为正态分布参数在分位数90％-1内的污水厂出水COD概率密度曲线图。

具体实施方式

下面通过附图及实施例对本发明做进一步的说明，在此本发明的示意性实施例以及说明一解释本发明，但并不作为对本发明的限定。

本发明通过发现一种基于统计分布的污水厂厂群出水分析及异常识别方法，进而选择合适的管理运行，包括以下步骤：

(1)获取区域内多个污水厂的实时在线监测的出水水质数据，出水水质数据包括：BOD、氨氮、pH值、COD和总氮等多个指标数据，建立数据集；

(2)剔除数据集中所包含的缺失值和异常值，数据在收集过程中，会由于人为或者设备原因，导致部分数据为空值，我们称为缺失值，缺失排除在外，不计入数据样本中；同时监测设备器件会出现异常，产生过大的数据漂移，导致数据变化异常大或者值为负值，对于这一部分数据，我们称为异常值。为避免数据分析结果偏差过大，我们根据仪器的所测范围选择正常范围内的数据。保留修正数据集，并将修正数据集按不同污水厂不同出水水质指标进行标记，如下：T_ij(i＝1,2,3...j＝1,2,3...)，表示第i个污水厂第j个出水水质指标的数据集；T_j(j＝1,2,3...)表示所有污水厂第j个出水指标的总体出水水质数据集；

(4)通过极大似然法对第i个污水厂第j个出水水质指标的数据集T_ij(i＝1,2,3...)，进行P_j概率密度分布函数的参数估计，获取到所有污水厂的参数数据集；具体如下：

1)广义Gamma的概率密度分布函数f(x|α,β,γ)中Г(α)为伽玛函数，具有三个参数α、β和γ，如式(1)所示：

式中，Г(α)为伽玛函数，α、β为形状参数，γ为尺度参数，x为出水水质数据；

正态分布具有两个参数σ和μ，其概率密度分布函数如公式(2)：

式中，σ为标准差，μ为数学期望；

3)控制其中的一个参数，做出另一个参数取不同值下函数的曲线。

(5)得到每个污水厂第j个出水水质指标的参数数据集，对不同的参数数据集，设置上侧分位数a和下侧分位数b，其中，上侧分位数a和下侧分位数b分别满足使用者需要的判定精度，上下分位数越靠近两侧则判定精度越高，能选出较少但是异常程度较大的水厂，反之能选出较多但是异常程度较小的水厂。对于出水氨氮，参数数据集A、B和C三类在分位数0-10％、10％-90％和90％-100％的污水厂分为A1、A2、A3，B1、B2、B3，C1、C2和C3九类；

在分位数为0-a％和b％-1的污水厂，表明其数据不正常，运行存在异常风险；在分位数a％-b％污水厂，表明其数据正常，运行管理良好。

并且根据概率密度分布函数P_j的分布特征与污水厂实际运行相结合，来表征污水厂的行为特性。

具体如下：

以出水COD为例，根据正态分布函数的参数估计值可以表征如下污水厂的行为特性：

(1)正态分布参数σ越小，分布曲线较陡，顶部尖锐，该污水厂与其他污水厂相比较，出水COD的值过于稳定，其原因有可能以高能耗为代价进而维持数据稳定；数据存在造假风险；污水厂常年运行较好，数据波动范围不大。

(2)正态分布参数σ越大，分布曲线平缓，不符合正态分布，该污水厂与其他污水厂相比较，出水COD的异常散乱，原因有可能为技术水平落后；数据存在做假风险，没有服从正态分布。

(3)正态分布参数μ较小时，出水COD值主要集中在较小数值附近，该污水厂与其他污水厂相比较，出水COD普遍较低，其原因有可能为污水处理技术水平高；运行管理水平较好；或者存在做假风险，将数据较大值去除。

(4)正态分布参数μ较大时，可以看出出水COD值主要集中在较高数值附近，该污水厂与其他污水厂相比较，出水COD普通较高，其原因有可能为污水处理技术水平落后；技术人员的专业素养和污水厂的运行管理水平有待提高。

下面通过具体实施例进一步说明本发明效果。

1)通过西安绿标水环境科技有限公司提供的WBM400型污水处理智慧运行工作站，收集本地区104个污水厂一年内实时在线监测的出水数据；在此以出水氨氮和COD为数据样本进行说明。

2)对出水氨氮和COD数据进行预处理。

数据在收集过程中，导致部分数据为空值的缺失值不计入数据样本中；同时对仪器本身出现过大的数据漂移导致的数据变化异常大或者值为负值的异常值，进行剔除。因此为避免数据分析结果偏差过大，我们根据仪器的所测范围，选择在范围0-60mg/L的出水氨氮数据以及在范围0-120mg/L的出水COD数据作为数据分析样本。

假定，T_i1(i＝1,2,3…104)表示第i个污水厂出水氨氮的数据集，T₁为所有污水厂的出水氨氮数据集；T_i2(i＝1,2,3...104)表示第i个污水厂出水COD的数据集，T₂为所有污水厂的出水COD数据集。

3)分别绘制所有污水厂的出水氨氮数据集T₁和出水COD数据集T₂的密度函数图，如图1(a)、图1(b)；根据密度函数图，可以分别判断出水氨氮和出水COD的服从的统计分布模型广义Gamma分布和正态分布。

4)广义Gamma的概率密度分布函数中Г(α)为伽玛函数，具有三个参数α、β和γ，如公式(1)所示：

控制其中的两个参数，做出另一个参数取不同值下函数的曲线，直观地了解各个参数对分布的影响。

图2(a)为α＝2，β＝2时，γ分别取2,4,8时的广义Gamma分布函数对应的曲线；结果表明参数γ越小，广义Gamma分布概率密度函数峰值越大，且形状越尖锐。

图2(b)为α＝2，γ＝2时，β分别取1,2,3时的广义Gamma分布函数对应的曲线；结果表明参数β对广义Gamma分布的拖尾情况有所影响，β越小，拖尾越严重；反之，拖尾越短。

图2(c)为β＝2，γ＝2时，α分别取2,4,6时的广义Gamma分布函数对应的曲线；结果表明参数α对广义Gamma分布的拖尾也有影响，当α越小时，拖尾越严重；α越大时，曲线越平缓。

5)正态分布具有二个参数σ和μ，其概率密度分布函数如公式(2)：

控制其中的一个参数，做出另一个参数取不同值下函数的曲线，直观地了解各个参数对分布的影响。

图3(a)为μ＝0时，σ分别取0.5,1,1.5时的正态分布函数对应的曲线；结果表明参数σ仅影响正态分布的形状，当σ越小，曲线越陡，顶部越尖锐；σ越大时，曲线越平缓。

图3(b)为σ＝1时，μ分别取-1,0,1时的正态分布函数对应的曲线；结果表明参数μ仅影响正态分布的位置，对曲线形状没有改变，当μ为越小时，曲线向左边移动；当μ越大时，曲线向右边移动。

6)分别对每个污水厂的出水氨氮和COD数据集T_i1和T_i2(n＝1,2,3…104)进行广义Gamma分布和正态分布函数的参数估计，使用极大似然估计法对广义Gamma分布参数α_i、β_i和γ_i和正态分布参数σ_i和μ_i(i＝1,2,3..104)进行估计；最后得到所有污水厂广义Gamma分布参数估计值α_i、β_i和γ_i以及正态分布参数估计值σ_i和μ_i(i＝1,2,3..104)，令A、B、C、D、E分别为参数α_i、β_i、γ_i、σ_i和μ_i的数据集。

7)利用分位数将污水厂进行分类。对于出水氨氮，参数数据集A、B和C三类在分位数0-10％、10％-90％和90％-100％的污水厂分为A1、A2、A3，B1、B2、B3，C1、C2、C3九类；A2、B2、C2位于分位数10％-90％数据分布集中区，为出水氨氮数据正常的污水厂；A1、A3、B1、B3、C1、C3六类位于分布两侧，为出水氨氮具有异常风险的污水厂。对于出水COD，D和E两类在分位数0-10％、10％-90％和90％-100％的污水厂分为D1、D2、D3，E1、E2、E3六类；D2、E2位于10％-90％数据分布集中区，为出水COD数据正常的污水厂。D1、D3、E1和E3四类位于分布两侧，为出水COD具有异常风险的污水厂。

实施例分析

以出水氨氮为例。根据广义Gamma的参数估计值，得到A1、A3、B1、B3、C1、C3六类具有异常数据的污水厂，我们分别从每类中任意选取两个污水厂作为分析对象，绘制其概率密度图，如图4(a)、图4(b)、图4(c)、图4(d)、图4(e)和图4(f)所示，分析如下：

从图4(a)、图4(d)和图4(f)中可以看出，A1、B3和C3类污水厂，即参数α越小，β和γ越大，数据分布越散乱，且会出现双峰或者多峰，其密度分布图不符合广义Gamma分布模型，表明该类污水厂污水技术落后，不能保证出水水质的稳定在一定的范围内；污水处理频繁受进水冲击，使污水处理环境不断受到破坏；数据存在造假嫌疑，造成数据不服从广义Gamma分布。在图4(b)、图4(c)和图4(e)中，A3、B1和C1类污水厂，即参数α越大，β和γ越小，数据分布越集中，且集中于0-1之间，表明该类污水厂有可能通过高能耗行为使水质一直保持在较小的范围内；污水处理环境稳定，运行过程中很少受到外界的不利因素的影响；污水厂技术人员水平极高，能够及时的应对现场所出现的问题；数据存在造假嫌疑，篡改数据，使数据一直保持在较小的范围内。

以出水COD为例。根据正态分布函数的参数估计值，得到D1、D3、E1和E3四类具有异常数据的污水厂，我们分别从每类中任意选取两个污水厂作为分析对象，绘制其概率密度图，如图5(a)、图5(b)、图5(c)、图5(d)所示，分析如下：

图5(a)为正态分布参数σ在分位数0-10％内的两个污水厂出水COD的密度函数分布，可以看出曲线较陡，顶部尖锐，该污水厂与其他污水厂相比较，出水COD的值过于稳定，其原因有可能以高能耗为代价进而维持数据稳定；数据存在造假风险；污水厂常年运行较好，数据波动范围不大。

图5(b)为正态分布参数σ在分位数90％-1内的两个污水厂出水COD的密度函数分布，可以看出曲线平缓，不符合正态分布，该污水厂与其他污水厂相比较，出水COD的异常散乱，原因有可能为技术水平落后；数据存在做假风险，没有服从正态分布。

图5(c)为正态分布参数μ在分位数0-10％内的两个污水厂出水COD的密度函数分布，可以看出出水COD值主要集中在数值10附近，该污水厂与其他污水厂相比较，出水COD普遍较低，其原因有可能为污水处理技术水平高；运行管理水平较好；或者存在做假风险，将数据较大值去除。

图5(d)为正态分布参数μ在分位数90％-1内的两个污水厂出水COD的密度函数分布，可以看出出水COD值主要集中在数值35附近，该污水厂与其他污水厂相比较，出水COD普通较高，其原因有可能为污水处理技术水平落后；技术人员的专业素养和污水厂的运行管理水平有待提高。

由此可以看出通过出水水质数据的统计分布特征，能够表征污水厂的行为特征，识别出具有异常风险的污水厂，为相关环保部门对污水厂的监管提供了可行有效的办法。

本发明并不局限于上述实施例，在本发明公开的技术方案的基础上，本领域的技术人员根据所公开的技术内容，不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形，这些替换和变形均在本发明的保护范围内。

Claims

1.一种基于统计分布的污水厂厂群出水分析及异常识别方法，其特征在于，包括下述步骤：

(2)剔除数据集中所包含的缺失值和异常值，保留修正数据集，并将修正数据集按照不同污水厂不同出水水质指标进行标记如下：

T_ij表示第i个污水厂第j个出水水质指标的数据集；i＝1,2,3...；j＝1,2,3...；

T_j表示所有污水厂第j个出水指标的总体出水水质数据集；

(4)将第i个污水厂第j个出水水质指标的数据集Tij单独进行Pj概率密度分布函数的参数估计，获取到每个污水厂的参数数据集；

(5)得到每个污水厂第j个出水水质指标的参数数据集，对不同的参数数据集设置上侧分位数a和下侧分位数b，在分位数为0-a％和b％-1的污水厂，表明其数据不正常，运行存在异常风险；在分位数a％-b％污水厂，表明其数据正常，运行管理良好；

2.按照权利要求1所述的一种基于统计分布的污水厂厂群出水分析及异常识别方法，其特征在于，所述步骤1)中，出水水质数据包括：BOD、氨氮、pH值、COD和总氮。

3.根据权利要求1所述的一种基于统计分布的污水厂厂群出水分析及异常识别方法，其特征在于，所述步骤2)中，缺失值为数据在收集过程中导致部分数据为空值；

4.根据权利要求1所述的一种基于统计分布的污水厂厂群出水分析及异常识别方法，其特征在于，所述步骤4)中，通过极大似然法对每个污水厂分布类型P的概率密度函数进行参数估计，获取到所有污水厂的参数数据集，具体如下：

控制其中的两个参数，做出另一个参数取不同值下函数的曲线；

2)正态分布具有两个参数σ和μ，其概率密度分布函数如公式(2)：

式中，σ为标准差，μ为数学期望；

控制其中的一个参数，做出另一个参数取不同值下函数的曲线。

5.根据权利要求1所述的一种基于统计分布的污水厂厂群出水分析及异常识别方法，其特征在于，所述步骤5)中，所述上侧分位数a和下侧分位数b分别满足如下：

利用分位数将污水厂进行分类：

6.根据权利要求1所述的一种基于统计分布的污水厂厂群出水分析及异常识别方法，其特征在于，所述步骤5)中，根据概率密度分布函数P_j的分布特征与污水厂实际运行相结合，来表征污水厂的行为特性如下：

(4)正态分布参数μ较大时，可以看出出水COD值主要集中在较高数值附近，则表示出水COD较高，污水处理差。