CN114202209A - 一种水质异常识别方法及装置 - Google Patents

一种水质异常识别方法及装置 Download PDF

Info

Publication number
CN114202209A
CN114202209A CN202111531199.7A CN202111531199A CN114202209A CN 114202209 A CN114202209 A CN 114202209A CN 202111531199 A CN202111531199 A CN 202111531199A CN 114202209 A CN114202209 A CN 114202209A
Authority
CN
China
Prior art keywords
abnormal
standard deviation
water quality
abnormal change
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111531199.7A
Other languages
English (en)
Inventor
江芳芳
黄小芹
靳家欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Kewei Data Technology Co ltd
Original Assignee
Ningbo Kewei Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Kewei Data Technology Co ltd filed Critical Ningbo Kewei Data Technology Co ltd
Priority to CN202111531199.7A priority Critical patent/CN114202209A/zh
Publication of CN114202209A publication Critical patent/CN114202209A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063114Status monitoring or status determination for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种水质异常识别方法,包括以下步骤:A,获取原始水质数据;B,设置初始标准差阈值和移动法分组数值;C,确定异常变化开始点;D,确定异常变化的程度;E,确定异常变化结束点;F,上报异常变化开始点、异常变化的程度和异常变化结束点,并根据异常变化的程度进行告警。本发明还公开了一种水质异常识别装置。本发明的可以识别“晴天排放、雨天排污”,利用算法参数的设定来控制分析精度,通过对检测值波动的变化的分析实现“数据提纯”,不但能过滤掉设备误差、偶然事件产生的个别异常值,还能准确识别“晴天排放”,以及“雨天排污”,使算法对排放事件的预警率能够达到90%以上,提高相关工作人员的效率。

Description

一种水质异常识别方法及装置
技术领域
本发明涉及水处理技术领域,尤其涉及一种水质异常识别方法及装置。
背景技术
在线水质监测是指利用在线水质传感器安装在指定地点,进行实时检测,并将检测的数据实时传输给终端,并通过分析手段进行实时分析,以达到对实时情况的掌握和处理。
现有的水质检测数据分析方法,主要采用对单个的检测值与各类排放标准进行简单的值比对的方法,以此作为告警依据。其检测值在排放标准区间内则正常,其检测值在排放区间外则异常。
但是,发明人在实现本发明时发现:现有技术的方法的侧重点在于评价水质,无法识别是否存在“排放行为”(个别水质参数正常,也可能存在排放行为),也无法识别“降水天排污行为”(借助降水的稀释能力进行排污),也无法识别因设备误差、偶然事件产生的个别异常值,从而频繁告警导致人力资源浪费的问题。
发明内容
(一)要解决的技术问题
本发明要解决的问题是提供一种水质异常识别方法及装置,以克服现有技术中的缺陷。
(二)技术方案
为解决上述技术问题,本发明提供了一种水质异常识别方法,所述方法包括以下步骤:
A,通过传感器获取预先设定的时间段内的原始水质数据;
B,将获取的原始水质数据按照时序进行排序,得到待测数据集,并从所述待测数据集中提取出非异常数据集,根据所述非异常数据集设置初始标准差阈值和移动法分组数值;
C,计算所述待测数据集中相邻数值之间的标准差和分组数值的标准差和,并将计算结果与所述初始标准差阈值进行比较,根据比较结果确定异常变化开始点;
D,从所述异常变化开始点开始,计算所述待测数据集中相邻数值之间的偏斜度,得到斜率值,并根据所述斜率值确定异常变化的程度;
E,计算与所述异常变化开始点斜率相反的数值对应的标准差和,并将计算结果与所述初始标准差阈值进行比较,根据比较结果确定异常变化结束点;
F,上报所述异常变化开始点、异常变化的程度和异常变化结束点,并根据所述异常变化的程度进行告警。
进一步,在所述步骤B中,所述从待测数据集中提取出非异常数据集的过程包括:
B1,根据iForest算法识别所述待测数据集中的异常点,通过标记异常点反推非异常数据集。
进一步,在所述步骤B1中,具体包括:
B11,从时间t内随机选择n(n≤256)个数据样本点构成子集Ωi,i ∈1,2,m,(m≤100),在m个子集上构建树;
B12,设定特征q=水质参数数据,分割值p,对子集Ωi进行二分裂;
B13,设定树高为1,建树;
B14,依次建立m个树,根据m个决策数的平均深度定义其是否异常;
B15,基于定义异常结果,反推非异常数据集
D={x1,x2,...,x(t-n)}。
进一步,在所述步骤B14中,具体包括:
B141,引入异常值函数s(x,n)来衡量记录x是否为异常点:
Figure BDA0003410824750000031
其中,E(h(x))为x在多棵树中的路径长度的期望值;
c(n)=2H(n-1)-(2(n-1)/n)
H(*)=In(*)+ξ
其中,c(n)是为一个包含n个样本的数据集,树的平均路径长度,用来标准化记录x的路径长度;H(*)为调和数,ξ为欧拉常数,约为 0.5772156649;
B142,根据s(x,n)定义异常概率,当E(h(x))→c(n),
Figure BDA0003410824750000032
时, 不能区分是不是异常;当E(h(x))→0,
Figure BDA0003410824750000033
时,判定为异常;当 E(h(x))→n-1,s→0时,判定为正常。
进一步,在所述步骤B中,所述根据非异常数据集设置初始标准差阈值和移动法分组数值的过程具体包括:
B2,从非异常数据集D={x1,x2,...,x(t-n)},确定所述非异常数据集D中的最小值和最大值xmin与xmax,计算xmin与xmax的标准差值σm,基于传感器设备10%的数据重复性误差,计算初始标准差阈值σs=1.1*σm
B3,设置移动法分组数值Group Size=y。
进一步,所述步骤C包括:
C1,基于初始设定的标准差阈值参数δs和移动法分组数值参数y,计算相邻两个数值之间的标准差
Figure BDA0003410824750000041
(xi与 x(i-1)为相邻两个数据,且i≥2);
C2,计算标准差σi值与初始标准差阈值σs的差σc
当σc≥0时,xi则为异常值,对应的时间节点ti标定为异常变化开始点。
进一步,在所述步骤C中,还包括:
C3,当σc<0时,则xi为正常值,将σi计入相邻分组数组内y个数值Dy={xi,x(i-1),...,x(i-y)}(1≤(i-y)≤y)的标准差组σy={σi,σ(i-1),...,σ(i-y))},并计算标准差组σy内的标准差和σd:σd=σi(i-1)+...+σ(i-y)
C4,对比σd与σs之间的数值大小:
当σd≥σs,即分组组数内标准差和超过初始标准差参数,则xi为异常值,对应的时间节点ti标定为异常变化开始点。
进一步,所述步骤D具体包括:
D1,基于xi为异常值,对应的时间节点ti标定为异常变化开始点,根据公式
Figure BDA0003410824750000042
计算xi与x(i-1)数值之间的偏斜度Si
D2,确定异常变化的程度为|Si|。
进一步,所述步骤D还包括:
D3,获取天气参数,将天气参数分为降水和非降水;
D4,根据所述天气参数和斜率值,确定异常变化的原因,具体包括:
当天气参数为降水,且Si>0时,确定异常变化的原因为上升异常,为降水天排污,排污倍数为Si
当天气参数为降水,且Si<0时,确定为正常,降水稀释倍数为|Si|;
当天气参数为非降水,且Si>0时,确定异常变化的原因为上升异常,为非降水天排污,排污倍数为Si
当天气参数为非降水,且Si<0时,确定异常变化的原因为下降异常,为非降水天排污,排污倍数为|Si|。
进一步,所述步骤E包括:
E1,持续对比xi与x(i+1)数值之间的偏斜度S(i+1),当偏斜度Si与S(i+1)保持一致时,则为持续异常;
E2,当偏斜度Si与S(i+1)不一致时,计算xi与x(i+1)之间的标准差σ(i+1),并计算标准差σ(i+1)值与初始标准差阈值σs的差σ(c+1),当σ(c+1)≥0时,判断x(i+1)正常,确定t(i+1)为异常变化结束点。
进一步,所述步骤E还包括:
E3,当σ(c+1)<0时,判断为持续异常,将x(i+1)标记为斜率相反,σ(i+1)计入标准差和σd
E4,重复步骤E2和E3,得到σd=σ(i+1)+…+σ(i+b),当σd≥σs时,则判断x(i+b)正常,确定t(i+1)为异常变化结束点。
进一步,在所述步骤F之后,还包括:
G,当两个异常变化开始点的时间间隔超过预先设定的时间阈值时,重复步骤A和步骤B,重新获取新的原始水质数据并设置新的初始标准差阈值和移动法分组数值。
本发明还提供了一种水质异常识别装置,所述装置包括:
原始水质数据获取单元,用于获取预先设定的时间段内的原始水质数据;
初始标准差阈值和移动法分组数值设置单元,与所述原始水质数据获取单元连接,用于将获取的原始水质数据按照时序进行排序,得到待测数据集,并从所述待测数据集中提取出非异常数据集,根据所述非异常数据集设置初始标准差阈值和移动法分组数值;
异常变化开始点确定单元,分别与所述原始水质数据获取单元和初始标准差阈值和移动法分组数值设置单元连接,用于计算所述待测数据集中相邻数值之间的标准差和分组数值的标准差和,并将计算结果与所述初始标准差阈值进行比较,根据比较结果确定异常变化开始点;
异常变化的程度确定单元,与所述异常变化开始点确定单元连接,用于从所述异常变化开始点开始,计算所述待测数据集中相邻数值之间的偏斜度,得到斜率值,并根据所述斜率值确定异常变化的程度;
异常变化结束点确定单元,与所述异常变化的程度确定单元连接,用于计算与所述异常变化开始点斜率相反的数值对应的标准差和,并将计算结果与所述初始标准差阈值进行比较,根据比较结果确定异常变化结束点;
上报和告警单元,分别与所述异常变化开始点确定单元、异常变化的程度确定单元和异常变化结束点确定单元连接,用于上报所述异常变化开始点、异常变化的程度和异常变化结束点,并根据所述异常变化的程度进行告警。
(三)有益效果
本发明的可以识别“晴天排放、雨天排污”,利用算法参数的设定来控制分析精度,通过对检测值波动的变化的分析实现“数据提纯”,不但能过滤掉设备误差、偶然事件产生的个别异常值,还能准确识别“晴天排放”,以及“雨天排污”,使算法对排放事件的预警率能够达到90%以上,提高相关工作人员的效率。
附图说明
图1是本发明实施例的一种水质异常识别方法的流程图;
图2是本发明实施例的一种水质异常识别装置的结构图;
图3是本发明实施例的一种水质异常识别的实现过程流程图;
图4是本发明实施例的一种数据分析方法流程图;
图5是本发明实施例的一种基于标准差的数据异常识别结果图:
图6是本发明实施例的一种基于iForest的数据分类结果图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例一
本发明实施例的一种水质异常识别方法如图1所示,其基于标准差及斜率法分析水质数据异常变化及对异常程度的识别。参照图1,本实施例包括以下步骤:
步骤s101,获取原始水质数据。本实施例中,通过传感器获取预先设定的时间段t内的原始水质数据,其中时间参数t是通过人工设定的,该原始水质数据包括原始水质数据的时间及电导率参数数值。
步骤s102,从原始水质数据中获取待测数据集和非异常数据集,根据非异常数据集设置初始标准差阈值和移动法分组数值。本实施例中,将获取的原始水质数据按照时序进行排序,得到待测数据集,并从所述待测数据集中提取出非异常数据集,根据所述非异常数据集设置初始标准差阈值和移动法分组数值。本实施例具体包括以下过程:
首先,根据iForest(Isolation Forest,孤立森林)算法识别所述待测数据集中的异常点,通过标记异常点反推非异常数据集。iForest 是一个快速异常检测方法,具有线性时间复杂度和高精准度,其采用二叉树去对数据进行切分,数据点在二叉树中所处的深度反应了该条数据的“疏离”程度,iForest算法主要针对连续型结构化数据中的异常点识别。本实施例中具体包括:
步骤a,从时间t内随机选择n(n≤256)个数据样本点构成子集Ωi,i∈1,2,m,(m≤100),在m个子集上构建树。
步骤b,设定特征q=水质参数数据,分割值p,对子集Ωi进行二分裂。
步骤c,设定树高为1,建树。
步骤d,依次建立m个树,根据m个决策数的平均深度定义其是否异常。本实施例中,定义其是否异常的过程具体包括:
(1):引入异常值函数s(x,n)来衡量记录x是否为异常点:
Figure BDA0003410824750000081
其中,E(h(x))为x在多棵树中的路径长度的期望值;
c(n)=2H(n-1)-(2(n-1)/n)
H(*)=In(*)+ξ
其中,c(n)是为一个包含n个样本的数据集,树的平均路径长度,用来标准化记录x的路径长度;H(*)为调和数,ξ为欧拉常数,约为 0.5772156649。
(2):根据s(x,n)定义异常概率。当E(h(x))→c(n),
Figure BDA0003410824750000092
时,不能区分是不是异常;当E(h(x))→0,
Figure BDA0003410824750000093
时,判定为异常;当 E(h(x))→n-1,s→0时,判定为正常。
步骤e,基于定义异常结果,反推非异常数据集 D={x1,x2,...,x(t-n)}。
本实施例通过步骤a~步骤e获取到了非异常数据集D。
然后,从非异常数据集D={x1,x2,...,x(t-n)}确定所述非异常数据集D中的最小值和最大值xmin与xmax,计算xmin与xmax的标准差值σm,基于传感器设备10%的数据重复性误差,计算初始标准差阈值σs=1.1*σm
最后,设置移动法分组数值Group Size=y。
步骤s103,计算待测数据集中相邻数值之间的标准差和分组数值的标准差和,并将计算结果与初始标准差阈值进行比较,根据比较结果确定异常变化开始点。本实施例具体包括以下过程:
首先,基于初始设定的标准差阈值参数δs和移动法分组数值参数 y,计算相邻两个数值之间的标准差
Figure BDA0003410824750000091
(xi与 x(i-1)为相邻两个数据,且i≥2);
然后,计算标准差σi值与初始标准差阈值σs的差σc
当σc≥0时,xi则为异常值,对应的时间节点ti标定为异常变化开始点。
当σc<0时,则xi为正常值,将σi计入相邻分组数组内y个数值Dy={xi,x(i-1),...,x(i-y)}(1≤(i-y)≤y)的标准差组σy={σi,σ(i-1),...,σ(i-y))},并计算标准差组σy内的标准差和σd:σd=σi(i-1)+...+σ(i-y)
再对比σd与σs之间的数值大小,当σd≥σs时,即分组组数内标准差和超过初始标准差参数,则xi则为异常值,对应的时间节点ti标定为异常变化开始点。
步骤s104,从异常变化开始点开始,计算待测数据集中相邻数值之间的偏斜度,得到斜率值,并引入天气参数,根据斜率值和天气参数确定异常变化的程度和异常变化的原因。本实施例具体包括以下过程:
首先,基于xi为异常值,对应的时间节点ti标定为异常变化开始点,根据公式
Figure BDA0003410824750000101
计算xi与x(i-1)数值之间的偏斜度 Si,并确定异常变化的程度为|Si|。
然后,获取天气参数,将天气参数分为降水和非降水,并根据所述天气参数和斜率值,确定异常变化的原因:
当天气参数为降水,且Si>0时,确定异常变化的原因为上升异常,为降水天排污,排污倍数为Si
当天气参数为降水,且Si<0时,确定为正常,降水稀释倍数为|Si|;
当天气参数为非降水,且Si>0时,确定异常变化的原因为上升异常,为非降水天排污,排污倍数为Si
当天气参数为非降水,且Si<0时,确定异常变化的原因为下降异常,为非降水天排污,排污倍数为|Si|。
步骤s105,计算与异常变化开始点斜率相反的数值对应的标准差和,并将计算结果与初始标准差阈值进行比较,根据比较结果确定异常变化结束点。本实施例具体包括以下过程:
(1)持续对比xi与x(i+1)数值之间的偏斜度S(i+1)
(2)比较偏斜度Si与S(i+1)。当偏斜度Si与S(i+1)保持一致时,则为持续异常;即当Si>0且S(i+1)≥0时,或者当Si<0且S(i+1)≤0,时,为持续异常。
(3)当偏斜度Si与S(i+1)不一致时,即当Si>0且S(i+1)≤0时,或者当Si<0且S(i+1)≥0时,计算xi与x(i+1)之间的标准差σ(i+1),并计算标准差σ(i+1)值与初始标准差阈值σs的差σ(c+1)。当σ(c+1)≥0时,判断x(i+1)正常,确定t(i+1)为异常变化结束点。
(4)当σ(c+1)<0时,判断为持续异常,将x(i+1)标记为斜率相反,σ(i+1)计入标准差和σd
(5)重复步骤(3)和步骤(4),得到
σd=σ(i+1)+…+σ(i+b),当σd≥σs时,则判断x(i+b)正常,确定 t(i+1)为异常变化结束点。
步骤s106,上报异常变化开始点、异常变化的程度和异常变化结束点,并根据异常变化的程度进行告警。
步骤s107,当两个异常变化开始点的时间间隔超过预先设定的时间阈值时,重复步骤s101和步骤s102,重新获取新的原始水质数据并设置新的初始标准差阈值和移动法分组数值。本实施例中,当两个异常变化开始点的时间间隔超过7天,则重复步骤s101和步骤s102,重新计算标准差参数σs
本发明实施例基于标准差和斜率法定义水质数据异常事件,颠覆了传统水质数据异常识别单一阈值上下限数值的设定,基于实际数据变化定义异常,更加灵活、有效。
实施例二
本发明实施例的一种水质异常识别装置如图2所示,所述装置包括原始水质数据获取单元21、初始标准差阈值和移动法分组数值设置单元22、异常变化开始点确定单元23、异常变化的程度确定单元 24、异常变化结束点确定单元25和上报和告警单元26,其中原始水质数据获取单元21与初始标准差阈值和移动法分组数值设置单元22 连接,异常变化开始点确定单元23分别与原始水质数据获取单元21 与初始标准差阈值和移动法分组数值设置单元22连接,异常变化的程度确定单元24分别与异常变化开始点确定单元23和异常变化结束点确定单元25连接,上报和告警单元26分别与异常变化开始点确定单元23、异常变化的程度确定单元24和异常变化结束点确定单元25 连接。
原始水质数据获取单元21用于获取预先设定的时间段内的原始水质数据。
初始标准差阈值和移动法分组数值设置单元22用于将获取的原始水质数据按照时序进行排序,得到待测数据集,并从所述待测数据集中提取出非异常数据集,根据所述非异常数据集设置初始标准差阈值和移动法分组数值。
异常变化开始点确定单元23用于计算所述待测数据集中相邻数值之间的标准差和分组数值的标准差和,并将计算结果与所述初始标准差阈值进行比较,根据比较结果确定异常变化开始点。
异常变化的程度确定单元24用于从所述异常变化开始点开始,计算所述待测数据集中相邻数值之间的偏斜度,得到斜率值,并根据所述斜率值确定异常变化的程度。
异常变化结束点确定单元25用于计算与所述异常变化开始点斜率相反的数值对应的标准差和,并将计算结果与所述初始标准差阈值进行比较,根据比较结果确定异常变化结束点。
上报和告警单元26用于上报所述异常变化开始点、异常变化的程度和异常变化结束点,并根据所述异常变化的程度进行告警。
当采用本实施例的水质异常识别装置时,其水质异常识别的实现过程如图3所示,其过程如下:首先通过水质传感器获取检测数据,然后将检测数据通过NB-IoT(NarrowBand Internet of Things,窄带物联网)无线传输到服务器,服务器再按照指定协议进行数据解析,基础平台将解析后的数据按照算法规则整理成相应的数据计算包,并通过接口传输成算法程序进行计算,算法程序接收到数据包后开始计算并将计算结果传输给基础平台,最后基础平台收到计算结果,并将计算结果进行展示。
其中数据分析部分采用的方法如图4所示,首先,收集一段时间 t内的原始水质数据样本并根据时序依次排序,引入iForest算法,确定非异常数据集的最大值、最小值,并基于传感器设备10%的数据重复性误差,计算初始标准差阈值,移动法分组数值为y;其次,基于初始设定的参数,计算相邻数值标准差及分组数组内标准差和,任一计算结果超过设定标准差阈值,标记为异常变化开始;再次,引入天气参数,通过标准差及斜率数值情况,确定异常变化开始的原因、异常变化的程度;最后,计算与异常变化开始点斜率相反的数值对应的标准差和,并将计算结果与初始标准差阈值进行比较,根据比较结果确定异常变化结束点。
实施例三
本实施例的一种基于iForest的数据分类结果如图6所示,本实施例从7天内的原始数据中随机选择125个电导率原始数值数据作为数据样本,设置分割值p为10,通过iForest算法分类异常值及非异常值,锁定异常值数据有3个。
将剩余的122个数据定义为非异常数据集,按照数据数值大小进行排序,确定非异常数据集的最大值为1242,最小值为984,得出初始标准差阈值=129,移动法分组数值为6。
对7天内的原始数据,基于初始标准差阈值=129,移动法分组数值为6的参数设定,可获得如图5所示的基于标准差的数据异常识别结果。
本发明的可以识别“晴天排放、雨天排污”,利用算法参数的设定来控制分析精度,通过对检测值波动的变化的分析实现“数据提纯”,不但能过滤掉设备误差、偶然事件产生的个别异常值,还能准确识别“晴天排放”,以及“雨天排污”,使算法对排放事件的预警率能够达到90%以上,提高相关工作人员的效率。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种水质异常识别方法,其特征在于,所述方法包括以下步骤:
A,通过传感器获取预先设定的时间段内的原始水质数据;
B,将获取的原始水质数据按照时序进行排序,得到待测数据集,并从所述待测数据集中提取出非异常数据集,根据所述非异常数据集设置初始标准差阈值和移动法分组数值;
C,计算所述待测数据集中相邻数值之间的标准差和分组数值的标准差和,并将计算结果与所述初始标准差阈值进行比较,根据比较结果确定异常变化开始点;
D,从所述异常变化开始点开始,计算所述待测数据集中相邻数值之间的偏斜度,得到斜率值,并根据所述斜率值确定异常变化的程度;
E,计算与所述异常变化开始点斜率相反的数值对应的标准差和,并将计算结果与所述初始标准差阈值进行比较,根据比较结果确定异常变化结束点;
F,上报所述异常变化开始点、异常变化的程度和异常变化结束点,并根据所述异常变化的程度进行告警。
2.如权利要求1所述的水质异常识别方法,其特征在于,在所述步骤B中,所述从待测数据集中提取出非异常数据集的过程包括:
B1,根据iForest算法识别所述待测数据集中的异常点,通过标记异常点反推非异常数据集。
3.如权利要求2所述的水质异常识别方法,其特征在于,在所述步骤B1中,具体包括:
B11,从时间t内随机选择n(n≤256)个数据样本点构成子集Ωi,i∈1,2,m,(m≤100),在m个子集上构建树;
B12,设定特征q=水质参数数据,分割值p,对子集Ωi进行二分裂;
B13,设定树高为1,建树;
B14,依次建立m个树,根据m个决策数的平均深度定义其是否异常;
B15,基于定义异常结果,反推非异常数据集D={x1,x2,...,x(t-n)}。
4.如权利要求3所述的水质异常识别方法,其特征在于,在所述步骤B14中,具体包括:
B141,引入异常值函数s(x,n)来衡量记录x是否为异常点:
Figure FDA0003410824740000021
其中,E(h(x))为x在多棵树中的路径长度的期望值;
c(n)=2H(n-1)-(2(n-1)/n)
H(*)=In(*)+ξ
其中,c(n)是为一个包含n个样本的数据集,树的平均路径长度,用来标准化记录x的路径长度;H(*)为调和数,ξ为欧拉常数,约为0.5772156649;
B142,根据s(x,n)定义异常概率,当E(h(x))→c(n),
Figure FDA0003410824740000022
时,不能区分是不是异常;当E(h(x))→0,
Figure FDA0003410824740000023
时,判定为异常;当E(h(x))→n-1,s→0时,判定为正常。
5.如权利要求3所述的水质异常识别方法,其特征在于,在所述步骤B中,所述根据非异常数据集设置初始标准差阈值和移动法分组数值的过程具体包括:
B2,从非异常数据集D={x1,x2,...,x(t-n)},确定所述非异常数据集D中的最小值和最大值xmin与xmax,计算xmin与xmax的标准差值σm,基于传感器设备10%的数据重复性误差,计算初始标准差阈值σs=1.1*σm
B3,设置移动法分组数值Group Size=y。
6.如权利要求5所述的水质异常识别方法,其特征在于,所述步骤C包括:
C1,基于初始设定的标准差阈值参数δs和移动法分组数值参数y,计算相邻两个数值之间的标准差
Figure FDA0003410824740000031
(xi与x(i-1)为相邻两个数据,且i≥2);
C2,计算标准差σi值与初始标准差阈值σs的差σc
当σc≥0时,xi则为异常值,对应的时间节点ti标定为异常变化开始点。
7.如权利要求6所述的水质异常识别方法,其特征在于,在所述步骤C中,还包括:
C3,当σc<0时,则xi为正常值,将σi计入相邻分组数组内y个数值Dy={xi,x(i-1),...,x(i-y)}(1≤(i-y)≤y)的标准差组σy={σi,σ(i-1),...,σ(i-y))},并计算标准差组σy内的标准差和σd:σd=σi(i-1)+...+σ(i-y)
C4,对比σd与σs之间的数值大小:
当σd≥σs,即分组组数内标准差和超过初始标准差参数,则xi为异常值,对应的时间节点ti标定为异常变化开始点。
8.如权利要求7所述的水质异常识别方法,其特征在于,所述步骤D具体包括:
D1,基于xi为异常值,对应的时间节点ti标定为异常变化开始点,根据公式
Figure FDA0003410824740000041
计算xi与x(i-1)数值之间的偏斜度Si
D2,确定异常变化的程度为|Si|。
9.如权利要求8所述的水质异常识别方法,其特征在于,所述步骤D还包括:
D3,获取天气参数,将天气参数分为降水和非降水;
D4,根据所述天气参数和斜率值,确定异常变化的原因,具体包括:
当天气参数为降水,且Si>0时,确定异常变化的原因为上升异常,为降水天排污,排污倍数为Si
当天气参数为降水,且Si<0时,确定为正常,降水稀释倍数为|Si|;
当天气参数为非降水,且Si>0时,确定异常变化的原因为上升异常,为非降水天排污,排污倍数为Si
当天气参数为非降水,且Si<0时,确定异常变化的原因为下降异常,为非降水天排污,排污倍数为|Si|。
10.如权利要求8所述的水质异常识别方法,其特征在于,所述步骤E包括:
E1,持续对比xi与x(i+1)数值之间的偏斜度S(i+1),当偏斜度Si与S(i+1)保持一致时,则为持续异常;
E2,当偏斜度Si与S(i+1)不一致时,计算xi与x(i+1)之间的标准差σ(i+1),并计算标准差σ(i+1)值与初始标准差阈值σs的差σ(c+1),当σ(c+1)≥0时,判断x(i+1)正常,确定t(i+1)为异常变化结束点。
11.如权利要求10所述的水质异常识别方法,其特征在于,所述步骤E还包括:
E3,当σ(c+1)<0时,判断为持续异常,将x(i+1)标记为斜率相反,σ(i+1)计入标准差和σd
E4,重复步骤E2和E3,得到σd=σ(i+1)+…+σ(i+b),当σd≥σs时,则判断x(i+b)正常,确定t(i+1)为异常变化结束点。
12.如权利要求1至11任一项所述的水质异常识别方法,其特征在于,在所述步骤F之后,还包括:
G,当两个异常变化开始点的时间间隔超过预先设定的时间阈值时,重复步骤A和步骤B,重新获取新的原始水质数据并设置新的初始标准差阈值和移动法分组数值。
13.一种水质异常识别装置,其特征在于,所述装置包括:
原始水质数据获取单元,用于获取预先设定的时间段内的原始水质数据;
初始标准差阈值和移动法分组数值设置单元,与所述原始水质数据获取单元连接,用于将获取的原始水质数据按照时序进行排序,得到待测数据集,并从所述待测数据集中提取出非异常数据集,根据所述非异常数据集设置初始标准差阈值和移动法分组数值;
异常变化开始点确定单元,分别与所述原始水质数据获取单元和初始标准差阈值和移动法分组数值设置单元连接,用于计算所述待测数据集中相邻数值之间的标准差和分组数值的标准差和,并将计算结果与所述初始标准差阈值进行比较,根据比较结果确定异常变化开始点;
异常变化的程度确定单元,与所述异常变化开始点确定单元连接,用于从所述异常变化开始点开始,计算所述待测数据集中相邻数值之间的偏斜度,得到斜率值,并根据所述斜率值确定异常变化的程度;
异常变化结束点确定单元,与所述异常变化的程度确定单元连接,用于计算与所述异常变化开始点斜率相反的数值对应的标准差和,并将计算结果与所述初始标准差阈值进行比较,根据比较结果确定异常变化结束点;
上报和告警单元,分别与所述异常变化开始点确定单元、异常变化的程度确定单元和异常变化结束点确定单元连接,用于上报所述异常变化开始点、异常变化的程度和异常变化结束点,并根据所述异常变化的程度进行告警。
CN202111531199.7A 2021-12-14 2021-12-14 一种水质异常识别方法及装置 Pending CN114202209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111531199.7A CN114202209A (zh) 2021-12-14 2021-12-14 一种水质异常识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111531199.7A CN114202209A (zh) 2021-12-14 2021-12-14 一种水质异常识别方法及装置

Publications (1)

Publication Number Publication Date
CN114202209A true CN114202209A (zh) 2022-03-18

Family

ID=80653838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111531199.7A Pending CN114202209A (zh) 2021-12-14 2021-12-14 一种水质异常识别方法及装置

Country Status (1)

Country Link
CN (1) CN114202209A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116626766A (zh) * 2023-07-25 2023-08-22 芯视界(北京)科技有限公司 水质监测设备状态检测方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116626766A (zh) * 2023-07-25 2023-08-22 芯视界(北京)科技有限公司 水质监测设备状态检测方法、装置、电子设备和存储介质
CN116626766B (zh) * 2023-07-25 2023-09-15 芯视界(北京)科技有限公司 水质监测设备状态检测方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN116975378B (zh) 一种基于大数据的设备环境监测方法及系统
CN116340723B (zh) 基于大数据的乡村水污染快速溯源方法及系统
CN110399935A (zh) 基于孤立森林机器学习的机器人实时异常监测方法及系统
CN111275307A (zh) 一种水质自动在线站高频连续观测数据质量控制方法
CN111414571A (zh) 一种大气污染物监测方法
CN112288597A (zh) 一种基于层次聚类和直方图算法的能耗在线异常检测方法
CN118051863B (zh) 一种基于数字计量技术的健康数据采集系统及方法
CN116881749B (zh) 一种污染场地施工监测方法及系统
CN114202209A (zh) 一种水质异常识别方法及装置
CN113721000B (zh) 一种变压器油中溶解气体异常检测方法和系统
CN117235655B (zh) 基于联邦学习的智慧供热异常工况识别方法及系统
CN117439827B (zh) 一种网络流量大数据分析方法
CN116757898B (zh) 一种基于预测比对的汛期污染强度核算方法及系统
CN114935527B (zh) 一种基于油井天然气开采的传感器智能清洁方法及系统
CN116992391B (zh) 一种硬碳工艺环保监测数据采集处理方法
CN112612824A (zh) 基于大数据的供水管网异常数据检测方法
CN112949735A (zh) 一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法
CN112215307B (zh) 一种应用机器学习自动检测地震仪器信号异常的方法
JP5232560B2 (ja) 品質予測方法
CN112329868A (zh) 基于clara聚类的制造加工设备群能效状态评价方法
CN112037106A (zh) 一种基于特征互相关性和概率密度的数据异常分析方法
CN111915858B (zh) 一种融合模拟量与数字量相关信息的报警方法及系统
CN114577854A (zh) 一种基于电子鼻的柑橘黄龙病检测方法
CN117035230B (zh) 一种基于大数据分析的污水处理设备运行状态评估方法
CN118334830B (zh) 基于跨源可解释性深度学习模型的山洪预警方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 315000 No. 23, Zhenzhong Road, Qiu'ai Town, Yinzhou District, Ningbo City, Zhejiang Province

Applicant after: Ningbo Kewei Data Technology Co.,Ltd.

Address before: Room 1202-10, No.2, ningchuang technology center, Panhuo street, Yinzhou District, Ningbo City, Zhejiang Province, 315100

Applicant before: Ningbo Kewei Data Technology Co.,Ltd.

CB02 Change of applicant information