CN110807174A - 一种基于统计分布的污水厂厂群出水分析及异常识别方法 - Google Patents

一种基于统计分布的污水厂厂群出水分析及异常识别方法 Download PDF

Info

Publication number
CN110807174A
CN110807174A CN201911013385.4A CN201911013385A CN110807174A CN 110807174 A CN110807174 A CN 110807174A CN 201911013385 A CN201911013385 A CN 201911013385A CN 110807174 A CN110807174 A CN 110807174A
Authority
CN
China
Prior art keywords
sewage
data
effluent
distribution
plants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911013385.4A
Other languages
English (en)
Other versions
CN110807174B (zh
Inventor
李志华
卢猛
傅阳菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Architecture and Technology
Original Assignee
Xian University of Architecture and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Architecture and Technology filed Critical Xian University of Architecture and Technology
Priority to CN201911013385.4A priority Critical patent/CN110807174B/zh
Publication of CN110807174A publication Critical patent/CN110807174A/zh
Application granted granted Critical
Publication of CN110807174B publication Critical patent/CN110807174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • CCHEMISTRY; METALLURGY
    • C02TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02FTREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02F1/00Treatment of water, waste water, or sewage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Hydrology & Water Resources (AREA)
  • Environmental & Geological Engineering (AREA)
  • Water Supply & Treatment (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Activated Sludge Processes (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于统计分布的污水厂厂群出水分析及异常识别方法,包括获取区域内多个污水厂的实时在线监测的出水水质数据,建立数据集;对数据集中缺失值和异常值预处理;选择所有污水厂中对应指标的总体出水水质数据,并绘制其概率密度曲线图,判断数据服从的统计分布类型P;对每个污水厂对应的出水水质指标进行概率密度分布函数参数估计;得到对应出水水质指标的参数数据集,设置上侧分位数a和下侧分位数b,并根据在分位数不同区域判定污水厂数据及运行是否存在异常风险,并且根据概率密度分布特征与污水厂实际运行结合,表征污水厂行为特性。该方法根据其统计分布特征来评估污水厂的行为特性,快速识别和监管具有异常风险的污水厂。

Description

一种基于统计分布的污水厂厂群出水分析及异常识别方法
技术领域
本发明属于污水处理领域,涉及一种通过对区域中多个污水厂出水水质数据的统计分布分析,从而表征出污水厂特性及异常状态识别的方法。
背景技术
当前全国各地的污水厂分布散乱,尤其是一些偏远地区的污水厂,环保部门想要对所有污水处理厂进行有效的监管,其成本和难度是非常巨大的。这也就出现了一系列的问题,比如:污水处理厂为应付环保部门的环境考核和督察,不在污染治理上做功夫,而是在监测数据上做手脚,以“临时达标”来完成任务;便得环保部门不能针对每个污水处理厂进行合理的评估,判断其是否出现技术落后、能耗大和管理不当等问题,大大的减弱了对污水处理厂的监管力度。目前存在的监管技术,只是针对单个污水厂进行监督管理,局限过大,不能适用于区域内的多个污水厂。对此,我们提出了一种通过对区域中多个污水厂出水水质数据的统计分布特征的分析,来为当前相关的环保部门提供一个可行有效的监管方法。
发明内容
本发明的目的在于提供一种可监管污水厂排放行为特征和识别污水厂异常的方法。我们根据区域内多个污水厂总体的统计分布类型,来获得每个污水厂出水水质数据的统计分布特性,利用分位数选择数据离群值,识别出具有数据异常的污水厂,同时根据分布函数的数字特征来表征出每个污水厂的运行状况。
本发明的目的是通过下述技术方案来实现的。
一种基于统计分布的污水厂厂群出水分析及异常识别方法,包括下述步骤:
(1)获取区域内多个污水厂的实时在线监测的出水水质数据,建立数据集;
(2)剔除数据集中所包含的缺失值和异常值,保留修正数据集,并将修正数据集按不同污水厂不同出水水质指标进行标记,如下:Tij(i=1,2,3...j=1,2,3...),表示第i个污水厂第j个出水水质指标的数据集;Tj(j=1,2,3...)表示所有污水厂第j个出水指标的总体出水水质数据集;
(3)选择所有污水厂中第j个出水指标的总体出水水质数据集Tj,并绘制其概率密度曲线图,判断所有水厂总体的数据的统计分布类型Pj,并分析该分布的统计特征;
(4)将第i个污水厂第j个出水水质指标的数据集Tij(i=1,2,3...),单独进行Pj概率密度分布函数的参数估计,获取到每个污水厂的参数数据集;
(5)得到每个污水厂第j个出水水质指标的参数数据集,对不同的参数数据集,设置上侧分位数a和下侧分位数b,在分位数为0-a%和b%-1的污水厂,表明其数据不正常,及运行存在异常风险;在分位数a%-b%污水厂,表明其为运行管理良好、数据正常;
并且根据Pj分布特征与污水厂实际运行相结合,来表征污水厂的行为特性。
进一步,所述步骤1)中,获取区域内多个污水厂的实时在线监测的出水水质数据,建立数据集;出水水质数据包括:BOD、氨氮、pH值、COD和总氮等多个指标数据。
进一步,所述步骤2)中,缺失值为数据在收集过程中导致部分数据为空值;
所述异常值为监测设备器件出现异常,产生过大的数据漂移,导致数据变化异常大或者值为负值。
进一步,所述步骤3)中,选择所有污水厂中相对应的出水指标总体数据,绘制其概率密度分布图,根据分布特征进而判断对应指标数据所服从的统计分布类型P。
进一步,所述步骤4)中,通过极大似然法对每个污水厂分布类型P的概率密度函数进行参数估计,获取到所有污水厂的参数数据集,具体如下:
1)广义Gamma的概率密度分布函数f(x|α,β,γ)中Г(α)为伽玛函数,具有三个参数α、β和γ;
2)控制其中的两个参数,做出另一个参数取不同值下函数的曲线;
3)正态分布具有两个参数σ和μ,控制其中的一个参数,做出另一个参数取不同值下函数的曲线。
进一步,所述步骤5)中,对所有污水厂的不同参数,设置上侧分位数a和下侧分位数b,在分位数为0-a和b-1的污水厂为数据及运行异常的污水厂,在分位数a-b污水厂为运行良好、数据正常的污水厂;并且根据P的分布特性与污水厂运行相结合,来表征污水厂的特性。
其中,上侧分位数a和下侧分位数b分别满足如下:
利用分位数将污水厂进行分类:
对于出水氨氮,参数数据集A、B和C三类在分位数0-10%、10%-90%和90%-100%的污水厂分为A1、A2、A3,B1、B2、B3,C1、C2和C3九类;
A2、B2、C2位于分位数10%-90%数据污水分布集中区,为出水氨氮数据正常的污水厂;
A1、A3、B1、B3、C1、C3六类位于污水分布两侧,为出水氨氮具有异常风险的污水厂;
对于出水COD,D和E两类在分位数0-10%、10%-90%和90%-100%的污水厂分为D1、D2、D3,E1、E2和E3六类;
D2、E2位于10%-90%数据分布集中区,为出水COD数据正常的污水厂;
D1、D3、E1和E3四类位于分布两侧,为出水COD具有异常风险的污水厂。
进一步,所述步骤5)中,根据概率密度分布函数Pj的分布特征与污水厂实际运行相结合,来表征污水厂的行为特性如下:
(1)出水COD正态分布参数σ越小,分布曲线较陡,顶部尖锐,则表示污水厂常年运行较好,数据波动范围不大;
(2)正态分布参数σ越大,分布曲线平缓,不符合正态分布,则表示出水COD的异常散乱;
(3)正态分布参数μ较小时,出水COD值主要集中在较小数值附近,则表示运行管理水平较好;
(4)正态分布参数μ较大时,可以看出出水COD值主要集中在较高数值附近,则表示出水COD普通较高,污水处理差。
本发明具有以下优点:
1)成本低,操作简单
该方法只需要收集污水厂的出水水质数据,通过该模型分析,可对污水厂的运行状态进行评估,相关人员不用亲自到现场即完成对污水厂的监管,减少了中间的成本。
2)迅速高效
污水厂分布散乱,并且数量众多,为完成对污水厂的评估,当前方法并不能快速高效的做到,本发明提出了以区域多个污水厂为对象,通过出水水质数据的分析,即可达到对污水厂的监管评估,减少了传统中的耗时长等问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的不当限定,在附图中:
图1(a)和图1(b)分别为本区域内所有污水厂出水氨氮和出水COD的概率密度曲线图;
图2(a)、2(b)、图2(c)为不同参数值下的广义伽玛分布曲线变化图;
图3(a)和图3(b)为不同参数值下的正态分布曲线变化图;
图4(a)、图4(c)、图4(e)为广义Gamma分布参数在分位数0-10%内的污水厂出水氨氮概率密度曲线图;
图4(b)、图4(d)、图4(f)为广义Gamma分布参数在分位数90%-1内的污水厂出水氨氮概率密度曲线图;
图5(a)和图5(c)为正态分布参数在分位数0-10%内的污水厂出水COD概率密度曲线图;
图5(b)和图5(d)为正态分布参数在分位数90%-1内的污水厂出水COD概率密度曲线图。
具体实施方式
下面通过附图及实施例对本发明做进一步的说明,在此本发明的示意性实施例以及说明一解释本发明,但并不作为对本发明的限定。
本发明通过发现一种基于统计分布的污水厂厂群出水分析及异常识别方法,进而选择合适的管理运行,包括以下步骤:
(1)获取区域内多个污水厂的实时在线监测的出水水质数据,出水水质数据包括:BOD、氨氮、pH值、COD和总氮等多个指标数据,建立数据集;
(2)剔除数据集中所包含的缺失值和异常值,数据在收集过程中,会由于人为或者设备原因,导致部分数据为空值,我们称为缺失值,缺失排除在外,不计入数据样本中;同时监测设备器件会出现异常,产生过大的数据漂移,导致数据变化异常大或者值为负值,对于这一部分数据,我们称为异常值。为避免数据分析结果偏差过大,我们根据仪器的所测范围选择正常范围内的数据。保留修正数据集,并将修正数据集按不同污水厂不同出水水质指标进行标记,如下:Tij(i=1,2,3...j=1,2,3...),表示第i个污水厂第j个出水水质指标的数据集;Tj(j=1,2,3...)表示所有污水厂第j个出水指标的总体出水水质数据集;
(3)选择所有污水厂中第j个出水指标的总体出水水质数据集Tj,并绘制其概率密度曲线图,判断所有水厂总体的数据的统计分布类型Pj,并分析该分布的统计特征;
(4)通过极大似然法对第i个污水厂第j个出水水质指标的数据集Tij(i=1,2,3...),进行Pj概率密度分布函数的参数估计,获取到所有污水厂的参数数据集;具体如下:
1)广义Gamma的概率密度分布函数f(x|α,β,γ)中Г(α)为伽玛函数,具有三个参数α、β和γ,如式(1)所示:
式中,Г(α)为伽玛函数,α、β为形状参数,γ为尺度参数,x为出水水质数据;
2)控制其中的两个参数,做出另一个参数取不同值下函数的曲线;
正态分布具有两个参数σ和μ,其概率密度分布函数如公式(2):
Figure BDA0002244878900000062
式中,σ为标准差,μ为数学期望;
3)控制其中的一个参数,做出另一个参数取不同值下函数的曲线。
(5)得到每个污水厂第j个出水水质指标的参数数据集,对不同的参数数据集,设置上侧分位数a和下侧分位数b,其中,上侧分位数a和下侧分位数b分别满足使用者需要的判定精度,上下分位数越靠近两侧则判定精度越高,能选出较少但是异常程度较大的水厂,反之能选出较多但是异常程度较小的水厂。对于出水氨氮,参数数据集A、B和C三类在分位数0-10%、10%-90%和90%-100%的污水厂分为A1、A2、A3,B1、B2、B3,C1、C2和C3九类;
A2、B2、C2位于分位数10%-90%数据污水分布集中区,为出水氨氮数据正常的污水厂;
A1、A3、B1、B3、C1、C3六类位于污水分布两侧,为出水氨氮具有异常风险的污水厂;
对于出水COD,D和E两类在分位数0-10%、10%-90%和90%-100%的污水厂分为D1、D2、D3,E1、E2和E3六类;
D2、E2位于10%-90%数据分布集中区,为出水COD数据正常的污水厂;
D1、D3、E1和E3四类位于分布两侧,为出水COD具有异常风险的污水厂。
在分位数为0-a%和b%-1的污水厂,表明其数据不正常,运行存在异常风险;在分位数a%-b%污水厂,表明其数据正常,运行管理良好。
并且根据概率密度分布函数Pj的分布特征与污水厂实际运行相结合,来表征污水厂的行为特性。
具体如下:
以出水COD为例,根据正态分布函数的参数估计值可以表征如下污水厂的行为特性:
(1)正态分布参数σ越小,分布曲线较陡,顶部尖锐,该污水厂与其他污水厂相比较,出水COD的值过于稳定,其原因有可能以高能耗为代价进而维持数据稳定;数据存在造假风险;污水厂常年运行较好,数据波动范围不大。
(2)正态分布参数σ越大,分布曲线平缓,不符合正态分布,该污水厂与其他污水厂相比较,出水COD的异常散乱,原因有可能为技术水平落后;数据存在做假风险,没有服从正态分布。
(3)正态分布参数μ较小时,出水COD值主要集中在较小数值附近,该污水厂与其他污水厂相比较,出水COD普遍较低,其原因有可能为污水处理技术水平高;运行管理水平较好;或者存在做假风险,将数据较大值去除。
(4)正态分布参数μ较大时,可以看出出水COD值主要集中在较高数值附近,该污水厂与其他污水厂相比较,出水COD普通较高,其原因有可能为污水处理技术水平落后;技术人员的专业素养和污水厂的运行管理水平有待提高。
下面通过具体实施例进一步说明本发明效果。
1)通过西安绿标水环境科技有限公司提供的WBM400型污水处理智慧运行工作站,收集本地区104个污水厂一年内实时在线监测的出水数据;在此以出水氨氮和COD为数据样本进行说明。
2)对出水氨氮和COD数据进行预处理。
数据在收集过程中,导致部分数据为空值的缺失值不计入数据样本中;同时对仪器本身出现过大的数据漂移导致的数据变化异常大或者值为负值的异常值,进行剔除。因此为避免数据分析结果偏差过大,我们根据仪器的所测范围,选择在范围0-60mg/L的出水氨氮数据以及在范围0-120mg/L的出水COD数据作为数据分析样本。
假定,Ti1(i=1,2,3…104)表示第i个污水厂出水氨氮的数据集,T1为所有污水厂的出水氨氮数据集;Ti2(i=1,2,3...104)表示第i个污水厂出水COD的数据集,T2为所有污水厂的出水COD数据集。
3)分别绘制所有污水厂的出水氨氮数据集T1和出水COD数据集T2的密度函数图,如图1(a)、图1(b);根据密度函数图,可以分别判断出水氨氮和出水COD的服从的统计分布模型广义Gamma分布和正态分布。
4)广义Gamma的概率密度分布函数中Г(α)为伽玛函数,具有三个参数α、β和γ,如公式(1)所示:
Figure BDA0002244878900000081
控制其中的两个参数,做出另一个参数取不同值下函数的曲线,直观地了解各个参数对分布的影响。
图2(a)为α=2,β=2时,γ分别取2,4,8时的广义Gamma分布函数对应的曲线;结果表明参数γ越小,广义Gamma分布概率密度函数峰值越大,且形状越尖锐。
图2(b)为α=2,γ=2时,β分别取1,2,3时的广义Gamma分布函数对应的曲线;结果表明参数β对广义Gamma分布的拖尾情况有所影响,β越小,拖尾越严重;反之,拖尾越短。
图2(c)为β=2,γ=2时,α分别取2,4,6时的广义Gamma分布函数对应的曲线;结果表明参数α对广义Gamma分布的拖尾也有影响,当α越小时,拖尾越严重;α越大时,曲线越平缓。
5)正态分布具有二个参数σ和μ,其概率密度分布函数如公式(2):
Figure BDA0002244878900000091
控制其中的一个参数,做出另一个参数取不同值下函数的曲线,直观地了解各个参数对分布的影响。
图3(a)为μ=0时,σ分别取0.5,1,1.5时的正态分布函数对应的曲线;结果表明参数σ仅影响正态分布的形状,当σ越小,曲线越陡,顶部越尖锐;σ越大时,曲线越平缓。
图3(b)为σ=1时,μ分别取-1,0,1时的正态分布函数对应的曲线;结果表明参数μ仅影响正态分布的位置,对曲线形状没有改变,当μ为越小时,曲线向左边移动;当μ越大时,曲线向右边移动。
6)分别对每个污水厂的出水氨氮和COD数据集Ti1和Ti2(n=1,2,3…104)进行广义Gamma分布和正态分布函数的参数估计,使用极大似然估计法对广义Gamma分布参数αi、βi和γi和正态分布参数σi和μi(i=1,2,3..104)进行估计;最后得到所有污水厂广义Gamma分布参数估计值αi、βi和γi以及正态分布参数估计值σi和μi(i=1,2,3..104),令A、B、C、D、E分别为参数αi、βi、γi、σi和μi的数据集。
7)利用分位数将污水厂进行分类。对于出水氨氮,参数数据集A、B和C三类在分位数0-10%、10%-90%和90%-100%的污水厂分为A1、A2、A3,B1、B2、B3,C1、C2、C3九类;A2、B2、C2位于分位数10%-90%数据分布集中区,为出水氨氮数据正常的污水厂;A1、A3、B1、B3、C1、C3六类位于分布两侧,为出水氨氮具有异常风险的污水厂。对于出水COD,D和E两类在分位数0-10%、10%-90%和90%-100%的污水厂分为D1、D2、D3,E1、E2、E3六类;D2、E2位于10%-90%数据分布集中区,为出水COD数据正常的污水厂。D1、D3、E1和E3四类位于分布两侧,为出水COD具有异常风险的污水厂。
实施例分析
以出水氨氮为例。根据广义Gamma的参数估计值,得到A1、A3、B1、B3、C1、C3六类具有异常数据的污水厂,我们分别从每类中任意选取两个污水厂作为分析对象,绘制其概率密度图,如图4(a)、图4(b)、图4(c)、图4(d)、图4(e)和图4(f)所示,分析如下:
从图4(a)、图4(d)和图4(f)中可以看出,A1、B3和C3类污水厂,即参数α越小,β和γ越大,数据分布越散乱,且会出现双峰或者多峰,其密度分布图不符合广义Gamma分布模型,表明该类污水厂污水技术落后,不能保证出水水质的稳定在一定的范围内;污水处理频繁受进水冲击,使污水处理环境不断受到破坏;数据存在造假嫌疑,造成数据不服从广义Gamma分布。在图4(b)、图4(c)和图4(e)中,A3、B1和C1类污水厂,即参数α越大,β和γ越小,数据分布越集中,且集中于0-1之间,表明该类污水厂有可能通过高能耗行为使水质一直保持在较小的范围内;污水处理环境稳定,运行过程中很少受到外界的不利因素的影响;污水厂技术人员水平极高,能够及时的应对现场所出现的问题;数据存在造假嫌疑,篡改数据,使数据一直保持在较小的范围内。
以出水COD为例。根据正态分布函数的参数估计值,得到D1、D3、E1和E3四类具有异常数据的污水厂,我们分别从每类中任意选取两个污水厂作为分析对象,绘制其概率密度图,如图5(a)、图5(b)、图5(c)、图5(d)所示,分析如下:
图5(a)为正态分布参数σ在分位数0-10%内的两个污水厂出水COD的密度函数分布,可以看出曲线较陡,顶部尖锐,该污水厂与其他污水厂相比较,出水COD的值过于稳定,其原因有可能以高能耗为代价进而维持数据稳定;数据存在造假风险;污水厂常年运行较好,数据波动范围不大。
图5(b)为正态分布参数σ在分位数90%-1内的两个污水厂出水COD的密度函数分布,可以看出曲线平缓,不符合正态分布,该污水厂与其他污水厂相比较,出水COD的异常散乱,原因有可能为技术水平落后;数据存在做假风险,没有服从正态分布。
图5(c)为正态分布参数μ在分位数0-10%内的两个污水厂出水COD的密度函数分布,可以看出出水COD值主要集中在数值10附近,该污水厂与其他污水厂相比较,出水COD普遍较低,其原因有可能为污水处理技术水平高;运行管理水平较好;或者存在做假风险,将数据较大值去除。
图5(d)为正态分布参数μ在分位数90%-1内的两个污水厂出水COD的密度函数分布,可以看出出水COD值主要集中在数值35附近,该污水厂与其他污水厂相比较,出水COD普通较高,其原因有可能为污水处理技术水平落后;技术人员的专业素养和污水厂的运行管理水平有待提高。
由此可以看出通过出水水质数据的统计分布特征,能够表征污水厂的行为特征,识别出具有异常风险的污水厂,为相关环保部门对污水厂的监管提供了可行有效的办法。
本发明并不局限于上述实施例,在本发明公开的技术方案的基础上,本领域的技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形,这些替换和变形均在本发明的保护范围内。

Claims (6)

1.一种基于统计分布的污水厂厂群出水分析及异常识别方法,其特征在于,包括下述步骤:
(1)获取区域内多个污水厂的实时在线监测的出水水质数据,建立数据集;
(2)剔除数据集中所包含的缺失值和异常值,保留修正数据集,并将修正数据集按照不同污水厂不同出水水质指标进行标记如下:
Tij表示第i个污水厂第j个出水水质指标的数据集;i=1,2,3...;j=1,2,3...;
Tj表示所有污水厂第j个出水指标的总体出水水质数据集;
(3)选择所有污水厂中第j个出水指标的总体出水水质数据集Tj,并绘制其概率密度曲线图,判断所有水厂总体的数据的统计分布类型Pj,并分析该分布的统计特征;
(4)将第i个污水厂第j个出水水质指标的数据集Tij单独进行Pj概率密度分布函数的参数估计,获取到每个污水厂的参数数据集;
(5)得到每个污水厂第j个出水水质指标的参数数据集,对不同的参数数据集设置上侧分位数a和下侧分位数b,在分位数为0-a%和b%-1的污水厂,表明其数据不正常,运行存在异常风险;在分位数a%-b%污水厂,表明其数据正常,运行管理良好;
并且根据概率密度分布函数Pj的分布特征与污水厂实际运行相结合,来表征污水厂的行为特性。
2.按照权利要求1所述的一种基于统计分布的污水厂厂群出水分析及异常识别方法,其特征在于,所述步骤1)中,出水水质数据包括:BOD、氨氮、pH值、COD和总氮。
3.根据权利要求1所述的一种基于统计分布的污水厂厂群出水分析及异常识别方法,其特征在于,所述步骤2)中,缺失值为数据在收集过程中导致部分数据为空值;
所述异常值为监测设备器件出现异常,产生过大的数据漂移,导致数据变化异常大或者值为负值。
4.根据权利要求1所述的一种基于统计分布的污水厂厂群出水分析及异常识别方法,其特征在于,所述步骤4)中,通过极大似然法对每个污水厂分布类型P的概率密度函数进行参数估计,获取到所有污水厂的参数数据集,具体如下:
1)广义Gamma的概率密度分布函数f(x|α,β,γ)中Г(α)为伽玛函数,具有三个参数α、β和γ,如式(1)所示:
Figure FDA0002244878890000021
式中,Г(α)为伽玛函数,α、β为形状参数,γ为尺度参数,x为出水水质数据;
控制其中的两个参数,做出另一个参数取不同值下函数的曲线;
2)正态分布具有两个参数σ和μ,其概率密度分布函数如公式(2):
式中,σ为标准差,μ为数学期望;
控制其中的一个参数,做出另一个参数取不同值下函数的曲线。
5.根据权利要求1所述的一种基于统计分布的污水厂厂群出水分析及异常识别方法,其特征在于,所述步骤5)中,所述上侧分位数a和下侧分位数b分别满足如下:
利用分位数将污水厂进行分类:
对于出水氨氮,参数数据集A、B和C三类在分位数0-10%、10%-90%和90%-100%的污水厂分为A1、A2、A3,B1、B2、B3,C1、C2和C3九类;
A2、B2、C2位于分位数10%-90%数据污水分布集中区,为出水氨氮数据正常的污水厂;
A1、A3、B1、B3、C1、C3六类位于污水分布两侧,为出水氨氮具有异常风险的污水厂;
对于出水COD,D和E两类在分位数0-10%、10%-90%和90%-100%的污水厂分为D1、D2、D3,E1、E2和E3六类;
D2、E2位于10%-90%数据分布集中区,为出水COD数据正常的污水厂;
D1、D3、E1和E3四类位于分布两侧,为出水COD具有异常风险的污水厂。
6.根据权利要求1所述的一种基于统计分布的污水厂厂群出水分析及异常识别方法,其特征在于,所述步骤5)中,根据概率密度分布函数Pj的分布特征与污水厂实际运行相结合,来表征污水厂的行为特性如下:
(1)出水COD正态分布参数σ越小,分布曲线较陡,顶部尖锐,则表示污水厂常年运行较好,数据波动范围不大;
(2)正态分布参数σ越大,分布曲线平缓,不符合正态分布,则表示出水COD的异常散乱;
(3)正态分布参数μ较小时,出水COD值主要集中在较小数值附近,则表示运行管理水平较好;
(4)正态分布参数μ较大时,可以看出出水COD值主要集中在较高数值附近,则表示出水COD较高,污水处理差。
CN201911013385.4A 2019-10-23 2019-10-23 一种基于统计分布的污水厂厂群出水分析及异常识别方法 Active CN110807174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911013385.4A CN110807174B (zh) 2019-10-23 2019-10-23 一种基于统计分布的污水厂厂群出水分析及异常识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911013385.4A CN110807174B (zh) 2019-10-23 2019-10-23 一种基于统计分布的污水厂厂群出水分析及异常识别方法

Publications (2)

Publication Number Publication Date
CN110807174A true CN110807174A (zh) 2020-02-18
CN110807174B CN110807174B (zh) 2023-03-14

Family

ID=69489066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911013385.4A Active CN110807174B (zh) 2019-10-23 2019-10-23 一种基于统计分布的污水厂厂群出水分析及异常识别方法

Country Status (1)

Country Link
CN (1) CN110807174B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037106A (zh) * 2020-08-07 2020-12-04 汉威科技集团股份有限公司 一种基于特征互相关性和概率密度的数据异常分析方法
CN115017215A (zh) * 2022-08-05 2022-09-06 阿里巴巴(中国)有限公司 数据处理方法及计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006334480A (ja) * 2005-05-31 2006-12-14 Toshiba Corp 下水処理場制御装置
WO2015147349A1 (ko) * 2014-03-26 2015-10-01 부산대학교 산학협력단 동일한 방류수계를 공유하는 다수의 하수처리장의 통합운영관리장치 및 그 방법
CN106709242A (zh) * 2016-12-07 2017-05-24 常州大学 一种鉴别污水监测数据真伪的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006334480A (ja) * 2005-05-31 2006-12-14 Toshiba Corp 下水処理場制御装置
WO2015147349A1 (ko) * 2014-03-26 2015-10-01 부산대학교 산학협력단 동일한 방류수계를 공유하는 다수의 하수처리장의 통합운영관리장치 및 그 방법
CN106709242A (zh) * 2016-12-07 2017-05-24 常州大学 一种鉴别污水监测数据真伪的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
秦文韬等: "城市污水处理系统真核微生物群落特性与地域性差异", 《环境科学》 *
罗本福等: "污水厂改扩建项目设计进水水质的确定", 《中国给水排水》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037106A (zh) * 2020-08-07 2020-12-04 汉威科技集团股份有限公司 一种基于特征互相关性和概率密度的数据异常分析方法
CN112037106B (zh) * 2020-08-07 2023-12-15 汉威科技集团股份有限公司 一种基于特征互相关性和概率密度的数据异常分析方法
CN115017215A (zh) * 2022-08-05 2022-09-06 阿里巴巴(中国)有限公司 数据处理方法及计算设备
CN115017215B (zh) * 2022-08-05 2022-12-09 阿里巴巴(中国)有限公司 数据处理方法及计算设备

Also Published As

Publication number Publication date
CN110807174B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN111275333B (zh) 污染数据处理方法和装置
CN109583680B (zh) 一种基于支持向量机的窃电辨识方法
CN110636066B (zh) 基于无监督生成推理的网络安全威胁态势评估方法
CN111614491A (zh) 一种面向电力监控系统安全态势评估指标选取方法及系统
CN111401418A (zh) 一种基于改进Faster r-cnn的员工着装规范检测方法
CN112101790A (zh) 一种水体监测视频及数据联动预警方法及系统
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN111339499B (zh) 一种基于时间轨迹相似度的污水处理厂运行状态评估方法
CN109409444B (zh) 一种基于先验概率的多元电网故障类型的判别方法
CN110807174B (zh) 一种基于统计分布的污水厂厂群出水分析及异常识别方法
CN111310803B (zh) 环境数据处理方法和装置
CN111813618A (zh) 数据异常检测方法、装置、设备及存储介质
CN111506635A (zh) 一种基于自回归和朴素贝叶斯算法的居民用电行为分析的系统及方法
CN117370919B (zh) 污水处理设备远程监控系统
CN115222303B (zh) 基于大数据的行业风险数据分析方法、系统及存储介质
CN106682835A (zh) 一种数据驱动的复杂机电系统服役质量状态评估方法
CN115062851B (zh) 基于多算法融合的排污异常监测方法及系统
CN114817681B (zh) 一种基于大数据分析的金融风控系统及其管理设备
CN116956148A (zh) 一种电力系统数据交互安全威胁信息分析方法
CN117391458B (zh) 基于数据分析的安全生产风险检测预警方法及系统
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN111666978A (zh) 一种it系统运维大数据的智能故障预警系统
CN116310842B (zh) 基于遥感图像的土壤盐碱区域识别划分方法
CN117436688A (zh) 一种基于电力营销数据的电费回收风险预警方法及系统
CN117217531A (zh) 基于人工智能的工厂安全运行风险数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant