CN112287988A - 一种水污染源在线监测数据异常的识别方法 - Google Patents

一种水污染源在线监测数据异常的识别方法 Download PDF

Info

Publication number
CN112287988A
CN112287988A CN202011118055.4A CN202011118055A CN112287988A CN 112287988 A CN112287988 A CN 112287988A CN 202011118055 A CN202011118055 A CN 202011118055A CN 112287988 A CN112287988 A CN 112287988A
Authority
CN
China
Prior art keywords
data
abnormal
representing
time series
trend
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011118055.4A
Other languages
English (en)
Inventor
蒋鸿伟
叶效强
余阳
暴军
谭成灶
吴玉书
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ctsy Environmental Technology Co ltd
Original Assignee
Guangdong Ctsy Environmental Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ctsy Environmental Technology Co ltd filed Critical Guangdong Ctsy Environmental Technology Co ltd
Priority to CN202011118055.4A priority Critical patent/CN112287988A/zh
Publication of CN112287988A publication Critical patent/CN112287988A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/18Water
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/20Controlling water pollution; Waste water treatment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

一种水污染源在线监测数据异常的识别方法,步骤A:接入站点监测数据;步骤B:对站点监测数据中异常数据进行初级识别;步骤C:对站点监测数据中异常数据进行二级识别;步骤D:剔除步骤B和步骤C中识别的异常数据,剔除异常数据后的站点监测数据转换成时间序列数据,从时间序列数据分解出周期成份和中位数,根据周期成份和中位数获取残差,对残差进行异常检测,进行三级识别;步骤E:根据步骤D中进行三级识别后的异常数据的波动特征,确认异常原因,并对异常数据进行分类标记;步骤F:根据异常数据的波动特征以及对应的异常原因,进行BP神经网络机器学习分类,对数据异常现象的原因进行智能识别。

Description

一种水污染源在线监测数据异常的识别方法
技术领域
本发明涉及水质监测技术领域,尤其涉及一种水污染源在线监测数据异常的识别方法。
背景技术
水污染源在线监测数据为环境管理部门、环境执法部门提供了重要决策依据。但是,由于污水的监测过程往往会经历取样单元、消解单元、检测单元、计量单元等多个环节,任何一个环节的仪器故障,或者工作曲线斜率、工作曲线截距、消解时间、消解温度、消解压力、冷却温度、冷却时间、显色温度、显色时间等监测仪器输入参数的变化,都有可能导致监测数据异常。此外,受监测环境、维护保养、水体中的噪声等其它方面的影响,也会导致监测数据异常波动。
在现场运维过程中,往往需要通过现场检查、实际水样比对试验、标准样品试验等质控手段来识别异常监测数据,这种人工审核和质控的方法通常能有效识别水污染监测中异常数据,但是也面临了一些瓶颈问题:一是人工审核过程繁杂,需要耗费大量人力、物力;二是污染源监测站点多,监测设备质量参差不齐,且每个监测站点的实际运行情况不同,人工审核结果易受个人经验的主观性影响,从而可能对异常数据的判别存在一定的偏差;三是对于仪器故障引起的数据异常波动,人工审核存在运维盲目、识别故障的周期长、识别故障的准确性欠佳、需要现场排查等缺点,导致运维不及时,影响污染源自动监测设备的运行质量和运行效率。
目前,水污染源在线监测数据的智能识别已有初步研究,比如有通过历史数据的波动规律、同行业相似性、以及监测因子之间的逻辑关系等专家知识库判别;也有通过聚类分析、预测模型等方法判别。此外,环保部《水污染源在线监测系统(CODCr、NH3-N等)数据有效性判别技术规范》也制定了数据有效性判别方法,但其核心是数据有效性的判别规范。结合污水的排放特征,智能识别水污染在线监测异常数据,目前尚缺乏对这方面的深入研究。
在污水在线监测的日常运维实践中,通常需要通过人工审核的方式,或者使用检测算法识别异常监测数据。其中,人工通过质控手段识别异常数据是比较常用的方法,这种方法主要依赖运维人员的质控经验。首先筛选出值为零值、负值、急剧升高、急剧下降、连续不变等异常数据,然后通过现场检查、实际水样比对试验、标准样品试验等质控手段来识别,再做判别和处理。而异常检测算法主要是通过统计学方法、模型的预测方法、距离的检测方法、神经网络方法、以及支持向量机方法等来判别。以上两种异常数据识别方法都存在一定的缺陷,人工审核的方式,受运维人员的经验的影响,并且审核效率比较低(比如,急剧升高、急剧下降、连续不变等,对于变化的幅度、以及持续的时长往往依赖运维人员的经验);而常见的异常检测算法,并没有结合污水在线监测异常数据频繁出现的特征,以及污水监测数据传输信号异常极大地拉伸均值和方差的情况,从而导致部分异常点难以捕获,鲁棒性比较差(比如监测数据中出现了传输信号异常引起的亿级以上的极大值,均值和方差被极大的拉升,此时基于3倍标准偏差的拉依达法、t检验法等统计学方法均不再适用)。因此,针对污水的在线监测异常数据,迫切需要一种结合污水的排放特征、更具有鲁棒性的智能识别的方法。
发明内容
本发明的目的在于针对背景技术中的缺陷,提出一种水污染源在线监测数据异常的识别方法,解决背景技术中问题。
为达此目的,本发明采用以下技术方案:
一种水污染源在线监测数据异常的识别方法,包括如下步骤:
步骤A:接入站点监测数据;
步骤B:对站点监测数据中异常数据进行初级识别;
步骤C:对站点监测数据中异常数据进行二级识别;
步骤D:剔除步骤B和步骤C中识别的异常数据,剔除后的站点监测数据转换成时间序列数据,从时间序列数据分解出周期成份和中位数,根据周期成份和中位数获取残差,对残差进行异常检测,进行三级识别;
步骤E:根据步骤D中进行三级识别后的异常数据的波动特征,确认异常原因,并对异常数据进行分类标记;
步骤F:根据异常数据的波动特征以及对应的异常原因,进行BP神经网络机器学习分类,对数据异常现象的原因进行智能识别。
优选的,在步骤B中,初级识别包括检测站点监测数据的完整性,补全站点监测数据中报文数据缺失的时段、并将补全时段的监测值标记为NULL值;
剔除步骤B中识别的异常数据包括剔除缺失值、水流量为零的值、不变值、负值、超量程、氨氮大于总氮的值、低于分位数的极小值、超出分位数的极大值的数据,以及剔除显著异常值。
优选的,在步骤C中,根据监测仪器运行状态和异常报警对异常数据进行二级识别,具体包括:剔除监测仪器处于非正常采样监测时段和异常报警时段的数据。
优选的,在步骤D中,X=SX+TX+RX
其中,X表示时间序列数据,X=[X1…XN],X1表示时间序列数据中第一个样本的原始数据,XN表示时间序列数据中第N个样本的原始数据;
SX表示周期成份,
Figure BDA0002731008190000041
Figure BDA0002731008190000042
表示时间序列数据中第一个样本分解出来的周期成份,
Figure BDA0002731008190000043
表示时间序列数据中第N个样本分解出来的周期成份;
TX表示趋势成份,
Figure BDA0002731008190000044
Figure BDA0002731008190000045
表示时间序列第一个样本分解出来的趋势成份,
Figure BDA0002731008190000046
表示时间序列第N个样本分解出来的趋势成份;
RX表示残差,
Figure BDA0002731008190000047
Figure BDA0002731008190000048
表示时间序列第一个样本分解出来的残差项,
Figure BDA0002731008190000049
表示时间序列第N个样本分解出来的残差项;
N表示时间序列样本数;
对时间序列数据进行内循环递归,包括通过内循环更新趋势成分和周期成份,运行更新迭代直至趋势成份
Figure BDA00027310081900000410
与周期成份
Figure BDA00027310081900000411
收敛,趋势成份
Figure BDA00027310081900000412
表示的是第k+1次内循环更新的趋势成份,周期成份
Figure BDA00027310081900000413
表示的是第k+1次内循环更新的周期成份,具体步骤如下:
步骤D1:去除趋势,获取去除了趋势成份的剩余值;
Figure BDA00027310081900000414
其中:
Figure BDA00027310081900000415
表示时间序列数据X在“去除第k次内循环更新的趋势成份
Figure BDA00027310081900000416
”后的剩余值;
X表示时间序列数据;
Figure BDA00027310081900000417
表示第k次内循环更新的趋势成份,其中起始值
Figure BDA00027310081900000418
步骤D2:周期子系列平滑,将
Figure BDA00027310081900000419
拆分成v个子序列
Figure BDA00027310081900000420
其中,v表示一个周期样本数,k表示第k次内循环;
对每个子序列使用局部多项式回归进行平滑;
将每个子系列平滑结果重新组成当前周期系列,并标记为C(k)
步骤D3:使用低筒滤波器平滑周期子系列,对步骤D2中周期系列C(k)一次做窗口长度为v、v、3的移动平均,使用局部多项式回归平滑输出结果L(k)
步骤D4:去除平滑周期子序列的趋势,第k+1次内循环更新的周期成份为
Figure BDA0002731008190000051
步骤D5:去除周期成份,
Figure BDA0002731008190000052
其中,
Figure BDA0002731008190000053
表示时间序列数据X在“去除第k+1次内循环更新的周期成份
Figure BDA0002731008190000054
”后的剩余值;
步骤D6:趋势平滑,对
Figure BDA0002731008190000055
再次使用局部多项式回归进行平滑,并根据平滑结果更新
Figure BDA0002731008190000056
优选的,对时间序列数据进行外循环递归,包括计算鲁棒性权重,具体步骤如下:
步骤d1:计算残差,R(1)=X-S(k)-T(k)
其中,R(1)表示时间序列分解后的剩余残差;
X表示时间序列数据;
S(k)表示第k次内循环分解的时间序列周期成份;
T(k)表示第k次内循环分解的时间序列趋势成份;
l表示第1次外循环,即外循环的次数;
步骤d2:分配鲁棒性权重,对每个数据点
Figure BDA0002731008190000057
分别分配鲁棒性权重
Figure BDA0002731008190000058
其中:i=1…N,N表示时间序列原本数,
Figure BDA0002731008190000059
表示时间序列数据中第i个样本分解后的剩余残差;分配鲁棒性权重公式如下:
Figure BDA00027310081900000510
其中:
Figure BDA0002731008190000061
表示时间序列数据中第i个样本分解后的剩余残差;
Figure BDA0002731008190000062
表示鲁棒性权重;
median|R(l)|表示N个时间序列样本分解后的剩余残差的中位数;
B表示B函数,如下所示:
Figure BDA0002731008190000063
其中,
Figure BDA0002731008190000064
在每一次内循环进行步骤D2-D6中的局部多项式回归时,需要给每个数据点分配鲁棒性权重。
优选的,在步骤D中,RX=X-SX-TX
其中:X表示时间序列数据;
SX表示周期成份;
TX表示趋势成份;
RX表示残差;
步骤一:使用剩余样本的中位数
Figure BDA0002731008190000068
替换趋势成份;
Figure BDA0002731008190000065
对残差RX进行异常检测,包括:
步骤二:计算检验统计量Ri;
Figure BDA0002731008190000066
其中:xi表示删除上一轮使
Figure BDA0002731008190000067
差异最大的样本后,剩余样本数中的第i个样本,i=1,…,n(n表示剩余样本个数);
MAD=median(|xi-median(X)|);
其中,median(X)表示剩余样本的中位数;
MAD表示“每个剩余样本与剩余样本的中位数只差的绝对值差异”的中位数;
步骤三:计算临界值λi,包括:在显著性水平为α的条件下:
Figure BDA0002731008190000071
i=1,…,k,k表示内循环的次数;
其中,n表示剩余样本个数(1,…,n),α表示显著性水平,tp,n-i-1表示置信度为p,自由度为n-i-1的t分布分位数,
Figure BDA0002731008190000072
步骤四:比较检验统计量Ri与临界值λi,若Ri>λi,则第i个样本为异常数据。
有益效果:
本发明结合污水在线监测异常数据频繁、异常率较大的特点,提出更具有鲁棒性的方法进行异常数据检测,克服了因异常数据较多、信号异常的影响,能更准确地捕获异常数据,大幅提高现场运维人员的工作效率。
附图说明
图1是本发明的水污染源在线监测数据异常的智能识别及异常原因分类流程图;
图2为本发明水污染源在线监测数据异常的COD异常识别效果示意图;
图3为本发明水污染源在线监测数据异常的氨氮异常识别效果示意图;
图4为本发明水污染源在线监测数据异常的总氮异常识别效果示意图;
图5为本发明水污染源在线监测数据异常的总磷异常识别效果示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
本发明的一种水污染源在线监测数据异常的识别方法,包括如下步骤:
步骤A:接入站点监测数据;
步骤B:对站点监测数据中异常数据进行初级识别;
步骤C:对站点监测数据中异常数据进行二级识别;
步骤D:剔除步骤B和步骤C中识别的异常数据,剔除后的站点监测数据转换成时间序列数据,从时间序列数据分解出周期成份和中位数,根据周期成份和中位数获取残差,对残差进行异常检测,进行三级识别;
步骤E:根据步骤D中进行三级识别后的异常数据的波动特征,确认异常原因,并对异常数据进行分类标记;
步骤F:根据异常数据的波动特征以及对应的异常原因,进行BP神经网络机器学习分类,对数据异常现象的原因进行智能识别。
优选的,在步骤B中,初级识别包括检测站点监测数据的完整性,补全站点监测数据中报文数据缺失的时段、并将补全时段的监测值标记为NULL值;
剔除步骤B中识别的异常数据包括剔除缺失值、水流量为零的值、不变值、负值、超量程、氨氮大于总氮的值、低于分位数的极小值、超出分位数的极大值的数据,以及剔除显著异常值。
优选的,在步骤C中,根据监测仪器运行状态和异常报警对异常数据进行二级识别,具体包括:剔除监测仪器处于非正常采样监测时段和异常报警时段的数据,具体的,将仪器处于停运期间、维护保养、故障维修、校准、标样核查、水样比对等非正常采样监测时段,以及缺试剂告警、缺水样告警、缺空白水告警、加热异常、漏液告警等异常报警时段的数据予以剔除。
优选的,在步骤D中,X=SX+TX+RX
其中,X表示时间序列数据,X=[X1…XN],X1表示时间序列数据中第一个样本的原始数据,XN表示时间序列数据中第N个样本的原始数据;
SX表示周期成份,
Figure BDA0002731008190000091
Figure BDA0002731008190000092
表示时间序列数据中第一个样本分解出来的周期成份,
Figure BDA0002731008190000093
表示时间序列数据中第N个样本分解出来的周期成份;
TX表示趋势成份,
Figure BDA0002731008190000094
Figure BDA0002731008190000095
表示时间序列第一个样本分解出来的趋势成份,
Figure BDA0002731008190000096
表示时间序列第N个样本分解出来的趋势成份;
RX表示残差,
Figure BDA0002731008190000097
Figure BDA0002731008190000098
表示时间序列第一个样本分解出来的残差项,
Figure BDA0002731008190000099
表示时间序列第N个样本分解出来的残差项;
N表示时间序列样本数;
对时间序列数据进行内循环和外循环,主要由内部循环和外部循环这两个递归过程组成。内循环迭代更新的趋势和季节性成份,重复这个过程k次。另一方面,外循环通过1次传递将鲁棒性权重赋给每个数据点,从而减少或消除异常对趋势和季节成分的影响。
对时间序列数据进行内循环递归,包括通过内循环更新趋势成分和周期成份,运行更新迭代直至趋势成份
Figure BDA00027310081900000910
与周期成份
Figure BDA00027310081900000911
收敛,趋势成份
Figure BDA00027310081900000912
表示的是第k+1次内循环更新的趋势成份,周期成份
Figure BDA00027310081900000913
表示的是第k+1次内循环更新的周期成份,具体步骤如下:
步骤D1:去除趋势,获取去除了趋势成份的剩余值;
Figure BDA00027310081900000914
其中:
Figure BDA00027310081900000915
表示时间序列数据X在“去除第k次内循环更新的趋势成份
Figure BDA00027310081900000916
”后的剩余值;
X表示时间序列数据;
Figure BDA00027310081900000917
表示第k次内循环更新的趋势成份,其中起始值
Figure BDA00027310081900000918
步骤D2:周期子系列平滑,将
Figure BDA0002731008190000101
拆分成v个子序列
Figure BDA0002731008190000102
其中,v表示一个周期样本数,k表示第k次内循环;
对每个子序列使用局部多项式回归进行平滑;
将每个子系列平滑结果重新组成当前周期系列,并标记为C(k)
步骤D3:使用低筒滤波器平滑周期子系列,对步骤D2中周期系列C(k)一次做窗口长度为v、v、3的移动平均,使用局部多项式回归平滑输出结果L(k)
步骤D4:去除平滑周期子序列的趋势,第k+1次内循环更新的周期成份为
Figure BDA0002731008190000103
步骤D5:去除周期成份,
Figure BDA0002731008190000104
其中,
Figure BDA0002731008190000105
表示时间序列数据X在“去除第k+1次内循环更新的周期成份
Figure BDA0002731008190000106
”后的剩余值;
步骤D6:趋势平滑,对
Figure BDA0002731008190000107
再次使用局部多项式回归进行平滑,并根据平滑结果更新
Figure BDA0002731008190000108
优选的,对时间序列数据进行外循环递归,包括计算鲁棒性权重,具体步骤如下:
步骤d1:计算残差,R(l)=X-S(k)-T(k)
其中,R(l)表示时间序列分解后的剩余残差;
X表示时间序列数据;
S(k)表示第k次内循环分解的时间序列周期成份;
T(k)表示第k次内循环分解的时间序列趋势成份;
l表示第1次外循环,即外循环的次数;
步骤d2:分配鲁棒性权重,对每个数据点
Figure BDA0002731008190000109
分别分配鲁棒性权重
Figure BDA00027310081900001010
其中:i=1…N,N表示时间序列原本数,
Figure BDA00027310081900001011
表示时间序列数据中第i个样本分解后的剩余残差;分配鲁棒性权重公式如下:
Figure BDA0002731008190000111
其中:
Figure BDA0002731008190000112
表示时间序列数据中第i个样本分解后的剩余残差;
Figure BDA0002731008190000113
表示鲁棒性权重;
median|R(l)|表示N个时间序列样本分解后的剩余残差的中位数;
B表示B函数,如下所示:
Figure BDA0002731008190000114
其中,
Figure BDA0002731008190000115
在每一次内循环进行步骤D2-D6中的局部多项式回归时,需要给每个数据点分配鲁棒性权重。
优选的,在步骤D中,RX=X-SX-TX
其中:X表示时间序列数据;
SX表示周期成份;
TX表示趋势成份;
RX表示残差;
由于污水的监测过程往往会经历取样单元、消解单元、检测单元、计量单元等多个环节,并且污水监测仪器输入参数繁多,任何一个环节的仪器故障、输入参数的变化、监测环境变化、维护保养、水体中的噪声、异常信号等都有可能导致监测数据异常。因此,在污水在线监测实践中,监测数据异常波动比较频繁。但是,在现场监测中,由于污水处理厂的水力停留时间一般比较长,根据污水处理厂的工艺不同,水力停留时间一般为7-40小时,受此影响,污水的水质变化往往比较缓慢,尤其是生活污水。
结合污水在线监测异常数据繁多、污水质变化迟缓的实际情况,为减少异常数据对异常检测的影响,降低异常点误报率,这里用更具有鲁棒性的中位数
Figure BDA0002731008190000121
替换趋势成份TX,具体步骤如下:
步骤一:使用剩余样本的中位数
Figure BDA0002731008190000122
替换趋势成份;
Figure BDA0002731008190000123
使用异常检测S-H-ESD方法检测对残差RX进行异常检测。由于污水在线监测异常数据繁多,异常值会大幅推高均值和方差,从而导致ESD检验对异常数据的检出率偏低,检出的异常数据占比通常局限在5%以内。另外,污水在线监测一般是每两小时完成一次监测,污水监测数据量本身并不大,异常数据多、全量数据小,即污水在线监测数据的异常率比较高。而使用更具鲁棒性的中位数与MAD替换ESD检验中的均值与标准差的S-H-ESD算法,可以检测最高达到50%的异常数据,因此,这里使用S-H-ESD方法,对残差RX进行异常检测,以更好捕获异常数据;
对残差RX进行异常检测,包括:
步骤二:计算检验统计量Ri,i=1,…,y,y表示y个检验统计量;
Figure BDA0002731008190000124
其中:xi表示删除上一轮使
Figure BDA0002731008190000125
差异最大的样本后,剩余样本数中的第i个样本,i=1,…,n(n表示剩余样本个数);
MAD=median(|xi-median(X)|);
其中,median(X)表示剩余样本的中位数;
MAD表示“每个剩余样本与剩余样本的中位数只差的绝对值差异”的中位数;
因污水的异常数据占比较大,更具鲁棒性的中位数
Figure BDA0002731008190000131
通常比平均值更小,因此中位数
Figure BDA0002731008190000132
替换平均值后,公式中
Figure BDA0002731008190000133
的值也越大,即xi
Figure BDA0002731008190000134
相差越大,该数据点是离群值的可能性也越大。此外,MAD通常比标准差更小,标准差可通过MAD来估计,估计公式为:标准差
Figure BDA0002731008190000135
更小的MAD替换分母更大的标准差后,检验统计量Ri也越大,该数据点是离群值的可能性同样也越大。
这个过程,我们首先删除使
Figure BDA0002731008190000136
最大的xi,然后重新计算余下的n-1个数据的Ri,再移除相应的xi,重复这个过程直到移除了y个满足条件的数据,形成y个检验统计量R1,R2,…Ry
步骤三:计算临界值λi,包括:在显著性水平为α的条件下:
Figure BDA0002731008190000137
i=1,…,k,k表示内循环的次数;
其中,n表示剩余样本个数(1,…,n),α表示显著性水平,tp,n-i-1表示置信度为p,自由度为n-i-1的t分布分位数,
Figure BDA0002731008190000138
步骤四:比较检验统计量Ri与临界值λi,若Ri>λi,则第i个样本为异常数据;
重复步骤一至步骤四y次。
进一步的,在步骤E:根据步骤D中进行三级识别后的异常数据的波动特征,确认异常原因,并对异常数据进行分类标记;
步骤F:根据异常数据的波动特征以及对应的异常原因,进行BP神经网络机器学习分类,对数据异常现象的原因进行智能识别,后续随着数据量的增加而自动更新迭代分类模型,不断适应数据的变化,提高异常诊断准确率;
将通过BP神经网络异常数据诊断的结果,推送给现场运维人员,指导现场运维人员识别异常数据产生的原因,以及为运维人员进行仪器故障排查提供支持。
以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

Claims (6)

1.一种水污染源在线监测数据异常的识别方法,其特征在于:包括如下步骤:
步骤A:接入站点监测数据;
步骤B:对站点监测数据中异常数据进行初级识别;
步骤C:对站点监测数据中异常数据进行二级识别;
步骤D:剔除步骤B和步骤C中识别的异常数据,剔除异常数据后的站点监测数据转换成时间序列数据,从时间序列数据分解出周期成份和中位数,根据周期成份和中位数获取残差,对残差进行异常检测,进行三级识别;
步骤E:根据步骤D中进行三级识别后的异常数据的波动特征,确认异常原因,并对异常数据进行分类标记;
步骤F:根据异常数据的波动特征以及对应的异常原因,进行BP神经网络机器学习分类,对数据异常现象的原因进行智能识别。
2.根据权利要求1所述一种水污染源在线监测数据异常的识别方法,其特征在于:
在步骤B中,初级识别包括检测站点监测数据的完整性,补全站点监测数据中报文数据缺失的时段、并将补全时段的监测值标记为NULL值;
剔除步骤B中识别的异常数据包括剔除缺失值、水流量为零的值、不变值、负值、超量程、氨氮大于总氮的值、低于分位数的极小值、超出分位数的极大值的数据,以及剔除显著异常值。
3.根据权利要求1所述一种水污染源在线监测数据异常的识别方法,其特征在于:
在步骤C中,根据监测仪器运行状态和异常报警对异常数据进行二级识别,具体包括:剔除监测仪器处于非正常采样监测时段和异常报警时段的数据。
4.根据权利要求1所述一种水污染源在线监测数据异常的识别方法,其特征在于:
在步骤D中,X=SX+TX+RX
其中,X表示时间序列数据,X=[X1…XN],X1表示时间序列数据中第一个样本的原始数据,XN表示时间序列数据中第N个样本的原始数据;
SX表示周期成份,
Figure FDA0002731008180000021
Figure FDA0002731008180000022
表示时间序列数据中第一个样本分解出来的周期成份,
Figure FDA0002731008180000023
表示时间序列数据中第N个样本分解出来的周期成份;
TX表示趋势成份,
Figure FDA0002731008180000024
Figure FDA0002731008180000025
表示时间序列第一个样本分解出来的趋势成份,
Figure FDA0002731008180000026
表示时间序列第N个样本分解出来的趋势成份;
RX表示残差,
Figure FDA0002731008180000027
Figure FDA0002731008180000028
表示时间序列第一个样本分解出来的残差项,
Figure FDA0002731008180000029
表示时间序列第N个样本分解出来的残差项;
N表示时间序列样本数;
对时间序列数据进行内循环递归,包括通过内循环更新趋势成分和周期成份,运行更新迭代直至趋势成份
Figure FDA00027310081800000210
与周期成份
Figure FDA00027310081800000211
收敛,趋势成份
Figure FDA00027310081800000212
表示的是第k+1次内循环更新的趋势成份,周期成份
Figure FDA00027310081800000213
表示的是第k+1次内循环更新的周期成份,具体步骤如下:
步骤D1:去除趋势,获取去除了趋势成份的剩余值;
Figure FDA00027310081800000214
其中:
Figure FDA00027310081800000215
表示时间序列数据X在“去除第k次内循环更新的趋势成份
Figure FDA00027310081800000216
”后的剩余值;
X表示时间序列数据;
Figure FDA0002731008180000031
表示第k次内循环更新的趋势成份,其中起始值
Figure FDA0002731008180000032
步骤D2:周期子系列平滑,将
Figure FDA0002731008180000033
拆分成v个子序列
Figure FDA0002731008180000034
其中,v表示一个周期样本数,k表示第k次内循环;
对每个子序列使用局部多项式回归进行平滑;
将每个子系列平滑结果重新组成当前周期系列,并标记为C(k)
步骤D3:使用低筒滤波器平滑周期子系列,对步骤D2中周期系列C(k)一次做窗口长度为v、v、3的移动平均,使用局部多项式回归平滑输出结果L(k)
步骤D4:去除平滑周期子序列的趋势,第k+1次内循环更新的周期成份为
Figure FDA0002731008180000035
步骤D5:去除周期成份,
Figure FDA0002731008180000036
其中,
Figure FDA0002731008180000037
表示时间序列数据X在“去除第k+1次内循环更新的周期成份
Figure FDA0002731008180000038
”后的剩余值;
步骤D6:趋势平滑,对
Figure FDA0002731008180000039
再次使用局部多项式回归进行平滑,并根据平滑结果更新
Figure FDA00027310081800000310
5.根据权利要求4所述一种水污染源在线监测数据异常的识别方法,其特征在于:
对时间序列数据进行外循环递归,包括计算鲁棒性权重,具体步骤如下:
步骤d1:计算残差,R(l)=X-S(k)-T(k)
其中,R(l)表示时间序列分解后的剩余残差;
X表示时间序列数据;
S(k)表示第k次内循环分解的时间序列周期成份;
T(k)表示第k次内循环分解的时间序列趋势成份;
l表示第l次外循环,即外循环的次数;
步骤d2:分配鲁棒性权重,对每个数据点
Figure FDA0002731008180000041
分别分配鲁棒性权重
Figure FDA0002731008180000042
其中:i=1…N,N表示时间序列原本数,
Figure FDA0002731008180000043
表示时间序列数据中第i个样本分解后的剩余残差;分配鲁棒性权重公式如下:
Figure FDA0002731008180000044
其中:
Figure FDA0002731008180000045
表示时间序列数据中第i个样本分解后的剩余残差;
Figure FDA0002731008180000046
表示鲁棒性权重;
median|R(l)|表示N个时间序列样本分解后的剩余残差的中位数;
B表示B函数,如下所示:
Figure FDA0002731008180000047
其中,
Figure FDA0002731008180000048
在每一次内循环进行步骤D2-D6中的局部多项式回归时,需要给每个数据点分配鲁棒性权重。
6.根据权利要求5所述一种水污染源在线监测数据异常的识别方法,其特征在于:
在步骤D中,RX=X-SX-TX
其中:X表示时间序列数据;
SX表示周期成份;
TX表示趋势成份;
RX表示残差;
步骤一:使用剩余样本的中位数
Figure FDA0002731008180000049
替换趋势成份;
Figure FDA00027310081800000410
对残差RX进行异常检测,包括:
步骤二:计算检验统计量Ri
Figure FDA0002731008180000051
其中:xi表示删除上一轮使
Figure FDA0002731008180000052
差异最大的样本后,剩余样本数中的第i个样本,i=1,…,n(n表示剩余样本个数);
MAD=median(|xi-median(X)|);
其中,median(X)表示剩余样本的中位数;
MAD表示“每个剩余样本与剩余样本的中位数只差的绝对值差异”的中位数;
步骤三:计算临界值λi,包括:在显著性水平为α的条件下:
Figure FDA0002731008180000053
k表示内循环的次数;
其中,n表示剩余样本个数(1,…,n),α表示显著性水平,tp,n-i-1表示置信度为p,自由度为n-i-1的t分布分位数,
Figure FDA0002731008180000054
步骤四:比较检验统计量Ri与临界值λi,若Ri>λi,则第i个样本为异常数据。
CN202011118055.4A 2020-10-19 2020-10-19 一种水污染源在线监测数据异常的识别方法 Pending CN112287988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011118055.4A CN112287988A (zh) 2020-10-19 2020-10-19 一种水污染源在线监测数据异常的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011118055.4A CN112287988A (zh) 2020-10-19 2020-10-19 一种水污染源在线监测数据异常的识别方法

Publications (1)

Publication Number Publication Date
CN112287988A true CN112287988A (zh) 2021-01-29

Family

ID=74497635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011118055.4A Pending CN112287988A (zh) 2020-10-19 2020-10-19 一种水污染源在线监测数据异常的识别方法

Country Status (1)

Country Link
CN (1) CN112287988A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609115A (zh) * 2021-08-03 2021-11-05 招商局重庆交通科研设计院有限公司 一种边坡形变监测数据的数据清洗方法
CN114417263A (zh) * 2022-01-27 2022-04-29 中国环境科学研究院 污染物波动系数确定、污染物监控方法及装置、存储介质
CN114817228A (zh) * 2022-06-01 2022-07-29 武汉大学 一种湖泊水位长时间序列监测数据的异常值剔除方法
CN115561133A (zh) * 2022-09-20 2023-01-03 生态环境部环境工程评估中心 火电行业cems校准期间异常数据的自动识别方法和系统
CN115661682A (zh) * 2022-12-27 2023-01-31 生态环境部卫星环境应用中心 一种工业热源对象的自动化提取方法及提取装置
CN116110516A (zh) * 2023-04-14 2023-05-12 青岛山青华通环境科技有限公司 一种污水处理过程异常工况识别方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101690A1 (zh) * 2014-12-22 2016-06-30 国家电网公司 基于时间序列分析的输变电设备的状态监测数据清洗方法
CN109034252A (zh) * 2018-08-01 2018-12-18 中国科学院大气物理研究所 空气质量站点监测数据异常的自动化识别方法
CN110088619A (zh) * 2017-10-09 2019-08-02 Bl科技有限责任公司 用于废水处理厂或饮用水厂的过程和资产健康诊断、异常检测和控制的智能系统和方法
CN110737874A (zh) * 2019-09-02 2020-01-31 中国科学院地理科学与资源研究所 一种基于空间关系的流域水质监测异常值检测方法
CN111275307A (zh) * 2020-01-16 2020-06-12 生态环境部华南环境科学研究所 一种水质自动在线站高频连续观测数据质量控制方法
CN111444168A (zh) * 2020-03-26 2020-07-24 易电务(北京)科技有限公司 一种配电室变压器日最大负荷异常数据检测处理方法
CN111612032A (zh) * 2020-04-08 2020-09-01 深圳市水务科技有限公司 一种数据处理方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101690A1 (zh) * 2014-12-22 2016-06-30 国家电网公司 基于时间序列分析的输变电设备的状态监测数据清洗方法
CN110088619A (zh) * 2017-10-09 2019-08-02 Bl科技有限责任公司 用于废水处理厂或饮用水厂的过程和资产健康诊断、异常检测和控制的智能系统和方法
CN109034252A (zh) * 2018-08-01 2018-12-18 中国科学院大气物理研究所 空气质量站点监测数据异常的自动化识别方法
CN110737874A (zh) * 2019-09-02 2020-01-31 中国科学院地理科学与资源研究所 一种基于空间关系的流域水质监测异常值检测方法
CN111275307A (zh) * 2020-01-16 2020-06-12 生态环境部华南环境科学研究所 一种水质自动在线站高频连续观测数据质量控制方法
CN111444168A (zh) * 2020-03-26 2020-07-24 易电务(北京)科技有限公司 一种配电室变压器日最大负荷异常数据检测处理方法
CN111612032A (zh) * 2020-04-08 2020-09-01 深圳市水务科技有限公司 一种数据处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆佳丽;: "基于改进时间序列模型的日志异常检测方法", 信息网络安全, no. 09, 10 September 2020 (2020-09-10) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609115A (zh) * 2021-08-03 2021-11-05 招商局重庆交通科研设计院有限公司 一种边坡形变监测数据的数据清洗方法
CN114417263A (zh) * 2022-01-27 2022-04-29 中国环境科学研究院 污染物波动系数确定、污染物监控方法及装置、存储介质
CN114817228A (zh) * 2022-06-01 2022-07-29 武汉大学 一种湖泊水位长时间序列监测数据的异常值剔除方法
CN115561133A (zh) * 2022-09-20 2023-01-03 生态环境部环境工程评估中心 火电行业cems校准期间异常数据的自动识别方法和系统
CN115561133B (zh) * 2022-09-20 2023-08-29 生态环境部环境工程评估中心 火电行业cems校准期间异常数据的自动识别方法和系统
CN115661682A (zh) * 2022-12-27 2023-01-31 生态环境部卫星环境应用中心 一种工业热源对象的自动化提取方法及提取装置
CN116110516A (zh) * 2023-04-14 2023-05-12 青岛山青华通环境科技有限公司 一种污水处理过程异常工况识别方法和装置

Similar Documents

Publication Publication Date Title
CN112287988A (zh) 一种水污染源在线监测数据异常的识别方法
CN112001511A (zh) 基于数据挖掘的设备可靠性及动态风险评价方法、系统和设备
CN115856204B (zh) 基于三维回声状态网络的掘进工作面瓦斯浓度预测方法
CN114757413A (zh) 一种基于时序数列分析耦合神经网络预测的不良数据辨识方法
CN116991130A (zh) 一种石化生产智能化自动化控制系统和方法
CN111191855B (zh) 一种基于管网多元水质时序数据的水质异常事件识别预警方法
CN115358293A (zh) 一种降低系统偏差对评估结果干扰的组合方法
CN111198979A (zh) 一种用于对输变电可靠性评估大数据进行清洗的方法及系统
CN110781206A (zh) 一种学习拆回表故障特征规则预测在运电能表是否故障的方法
CN108508860B (zh) 一种基于耦合关系的流程工业生产系统数据监测方法
CN117152119A (zh) 一种基于图像处理的型材瑕疵视觉检测方法
CN117113135A (zh) 一种可对异常数据整理分类的碳排放异常监测分析系统
CN117436569A (zh) 基于随机森林的核电设备故障预测和智能标定方法及系统
CN114662981B (zh) 基于大数据应用的污染源企业监管方法
CN112067289A (zh) 一种基于神经网络的电机轴及传动轴异常振动预警算法
CN113836813B (zh) 一种基于数据分析的高炉风口漏水检测方法
CN116184955A (zh) 运行阈值设置方法及监控方法、监控系统
CN115577309A (zh) 带式输送机突发故障预警方法及系统
CN115115213A (zh) 一种钢铁产品质量特性的追溯分析方法及装置
CN117935519B (zh) 一种燃气检测警报系统
CN112381697A (zh) 一种水污染源在线监测数据弄虚作假行为自动识别方法
CN117035230B (zh) 一种基于大数据分析的污水处理设备运行状态评估方法
CN117870034B (zh) 洁净室环境参数的控制方法、装置及系统
CN117631632B (zh) 一种pta混合入料的控制方法及系统
CN117349777B (zh) 一种水环境在线监测数据真伪智能识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination