CN111191855A - 一种基于管网多元水质时序数据的水质异常事件识别预警方法 - Google Patents
一种基于管网多元水质时序数据的水质异常事件识别预警方法 Download PDFInfo
- Publication number
- CN111191855A CN111191855A CN202010029422.7A CN202010029422A CN111191855A CN 111191855 A CN111191855 A CN 111191855A CN 202010029422 A CN202010029422 A CN 202010029422A CN 111191855 A CN111191855 A CN 111191855A
- Authority
- CN
- China
- Prior art keywords
- water quality
- index
- model
- quality index
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 286
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012544 monitoring process Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000010354 integration Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 7
- 238000003911 water pollution Methods 0.000 description 7
- ZAMOUSCENKQFHK-UHFFFAOYSA-N Chlorine atom Chemical compound [Cl] ZAMOUSCENKQFHK-UHFFFAOYSA-N 0.000 description 5
- 229910052801 chlorine Inorganic materials 0.000 description 5
- 239000000460 chlorine Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
一种基于管网多元水质时序数据的水质异常事件识别预警方法,属于供水管网水处理技术领域。首先,对SCADA采集的监测点的水质数据进行预处理,模拟出模拟水质异常事件数据。其次,对正常运行状态下的多个水质指标建立预测回归模型,并选择每种水质指标的回归预测模型模型训练较好的模型进行集成,构建最终的回归预测模型。再次,确定各水质指标的预测值与真实值残差分布的标准差,并对回归预测模型进行评价,确定最优算数乘子。最后,利用时序贝叶斯原理进行水质异常事件的概率更新,并进行事件报警,给出最终模型的报警信号及水质异常事件的发生概率、异常水质指标。本发明具有运行成本低、操作简单、效果好等优点,能够大幅降低误报率与漏报率。
Description
技术领域
本发明涉及供水管网水处理技术领域,具体涉及到一种基于管网多元水质时序数据的异常事件识别预警方法。
背景技术
配水管网直接面向用户,是供水系统的一个重要环节,居民饮用水的清洁状况直接影响到人民的身体健康。管网内发生水质污染事件后,污染物会随着水质的运移快速的在管网中扩散,不仅会造成巨大的经济损失,影响供水安全,而且会造成环境破坏,影响社会秩序,甚至威胁到居民的生命安全。
供水管网红、黄水事故频发,使得居民的用水安全受到威胁,因此快速发现水质污染事故和提升水质状况成为各地水务集团的重点关注内容。然而,当前水质污染事故检测缺乏有效的科学方法,更多依赖用户报告,水务集团才能获知水质污染事故的发生,而此时水质污染事故往往已经造成了大量的受污染水量,影响了居民的正常用水,人工举报方法已经严重影响了水务集团的供水服务水平和社会受认可度。因此供水管网水质事故快速预警成为供水系统管理领域的重要研究方向。
针对管网内水质异常事件的识别与检测问题,国内外众多科研工作者已经展开了大量的工作。目前关于水质污染事件的研究,主要包括水质污染事故检测指标、基于统计分析的水质污染事故预警研究和基于神经网络数据驱动模型的水质污染事故预警研究三方面。现在的研究均存在一定的不足,不能很好的识别出不平稳水质事件序列的水质事件,在管网的实际应用中需要标定大量的参数,在不同地区的管网系统,在线水质监测平台测量的水质指标有不同,水质数据的测量精度也有不同,应用于不同地区管网时比较麻烦,正确预警的概率不高。同时,在管网实际的运行过程中,管网内的水质数据往往可能会因为传感器的影响或者泵运行工况的改变造成异常的波动,这种情况导致的水质数据的波动并不能成为水质的异常事件,大量的研究识别出水质异常点就进行水质的预警报告,漏报率和误报率较高。
发明内容
对上述不足,本发明要解决的问题是提供一种供水管网水质污染事件监测预警的模型方法,能适用于不同管网的多水质指标的水质事件识别,有较强的鲁棒性,能适应较强噪声点的影响,有较高的正确预警水质事件的概率,同时将误报率控制在较小的范围内。
为了达到上述的目的,本发明采用的技术方案为:
一种基于管网多元水质时序数据的水质异常事件识别预警方法,包括以下步骤:
(1)对SCADA采集的监测点的水质数据进行预处理,模拟出模拟水质异常事件数据;
(2)对预处理过的正常运行状态下的多个水质指标建立预测回归模型,每一种水质指标的预测均采用相同形式的输入输出格式,每一种水质数据的预测都采用多种机器学习方法进行下一时段水质指标值的预测(例如KNN、回归树、ANN、随机森林、不同核函数配置的SVM回归模型等),通过不同的机器学习回归方法得到不同指标的时段的预测值,利用水质指标的真实值与预测值的决定系数R2的值来评价回归预测模型的性能,保存每一种水质指标预测较好的机器学习回归预测模型,机器学习回归预测模型的输入输出关系可以用以下公式表示,
每一种水质指标回归预测模型的输入均为该指标上一时段的真实值和其他n-1个水质指标本时段真实值,输出为该水质指标本时段的预测值。
(3)选择步骤(2)中每种水质指标的回归预测模型模型训练较好的模型进行集成,构建集成学习Stacking模型,将优选的回归模型进行优选后stacking,作为最终的回归预测模型;
(4)将步骤(2)中各水质指标的预测值与真实值进行残差计算,得到残差分布,确定残差分布的标准差,残差计算可以用以下公式表示,
式中,ERi(t)是水质指标i在时间t的真实值与预测值的估计残差。
(5)对步骤(3)得到的回归预测模型进行评价,选择合适的算数乘子,将其与残差分布标准差相乘作为阈值,当残差的绝对值超出阈值后作为一初始的异常点识别,该关系可用以下公式表示,
γi=Sd(ERi)×muli (3)
式中,γi为水质指标i的残差阈值,Sd(ERi)是步骤(4)中所得到水质指标i的残差分布的标准差,muli是确定水质指标i残差阈值时需要确定的算数乘子,I[ERi(t)]为指示函数,I[ERi(t)]=1表示水质指标i在时间t时模型识别为水质异常点,I[ERi(t)]=0表示水质指标i在时间t时模型识别为水质正常点。
(6)步骤(5)中的算数乘子的确定需要进行循环寻优,在(0,20)的范围内选择最优的算数乘子,确定的原则是让是让TPR尽可能大,FPR尽可能小,
式中,TPRi表示为当水质事件发生时水质指标i识别为异常点的概率,FPRi表示为正常运行状态下水质指标i识别为异常点的概率。TPi是当发生真实水质事件时水质指标i的残差识别为异常的个数,FNi是当发生真实水质事件时水质指标i的残差识别为正常的个数,FPi是正常运行状态下水质指标i的残差识别为异常的个数,TNi是正常运行状态下水质指i的残差识别为正常的个数。
利用有污染事件的水质数据进行TPR与FPR的计算,通过统计每一种水质指标预测情况下的TP,FP,FN,TN的个数,利用式(5)和式(6)就可以计算出每一种水质的TPR和FPR。
(7)利用时序贝叶斯原理进行水质异常事件的概率更新,当概率超过某一阈值时则对该水质指标进行事件报警,具体可以用以下表达式表示:
P(Et)=α×P(Et)+(1-α)×P(Et-1) (10)
式中,Ot表示为t时刻残差检测为异常点情况;表示为t时刻残差检测为正常的情况;Et表示为t时刻真实发生水质事件的情况;P(Et)表示为在t时刻模型预测的真实会发生水质异常事件的概率;α为光滑系数,α∈[0.3,0.9];为防止快速收敛,给定P(Et)的上下界P1,P0,初始时刻给定事件发生的概率为P0,初始给定事件发生的概率很小,同时为了防止概率公式更新时收敛到0,取一个合适的概率下界P0∈[10-6,10-4],为防止概率最终收敛到1,给定一个较高的上界P1∈[0.90,0.98];根据概率的定义可以得到,P(O|E)=TPR, P(Et(i))为利用指标i识别为水质异常事件的概率,E't(i)为指标i发生水质异常事件报警的指示函数,当E't(i)=1时表示水质指标i在t时刻为报警项,E't(i)=0表示水质指标i在t时刻为正常值,P2为指标发生异常的一个概率阈值。
(8)同一时刻内统计多个指标的报警情况,设置一个指标报警数目的一个阈值m,当水质指标的报警数目n不小于m时,给出最终模型的报警信号,并给出水质异常事件的发生概率P'(Et)及异常水质指标,具体可用以下表达式表达:
Pmax=max{P(Et(i))>P2} (14)
Pmin=min{P(Et(i))>P2} (15)
P'(Et)=sigmoid(n-m)*Pmax+(1-sigmoid(n-m))*Pmin,E't=1 (18)
式中:n为时间t报警水质指标数;Pmax为所有报警水质指标中发生报警概率最大值;Pmin为所有报警水质指标中发生报警概率最小值;sigmoid(x)为水质异常事件识别激活函数,当x的值越小,sigmoid(x)的值越趋近于0,当x越大,sigmoid(x)的值越趋近于1,特别的,当x=0时,sigmoid(x)的值为0.5;E't为最终模型的报警指示函数,当E't=0时表示最终模型在时间t识别为正常状态不报警,当E't=1时表示最终模型在时间t识别为水质异常事件并进行报警,并给出水质异常事件发生的概率为P'(Et),特别的,当n=m时,P'(Et)为Pmax和Pmin的平均值,n越大,P'(Et)越趋向于Pmax,水质异常事件发生的概率也越大。
本发明的有益效果是:
(1)本发明采用传统的在线检测传感器即可完成供水管网水质异常数据检验的模型训练数据,无需添加额外的检测设备,无需大量的人力,全过程由计算机模型训练,具有运行成本低,操作简单,模型运行时间短,效果好等优点。
(2)本发明采用机器学习识别优化方法,发明中涉及的大量参数均利用模型本身的自动优化确定,无需工作人员预先掌握管网中水质的物理化学反应机制,操作起点低。
(3)本发明提出的供水管网的水质异常事件的识别方法能适应存在一定程度的噪声点和不平稳状态的水质数据情况,有较强的鲁棒性,同时对水质参数的个数,水质参数的种类没有严格的要求,大大提高了本发明的适用范围,同时能较好的进行水质异常事件的检测,大幅降低误报率与漏报率。
(4)相比于现有的管网水质污染预警的方法,本发明较好的利用了机器学习的优点,充分利用了不同水质指标的相互关系,无需人工分析,同时在预警上结合多指标关系,并不是传统上单指标报警方法,而是在报警时考虑多个参数的异常情况,最终确定是否发生水质异常事件,方法最终检测水质异常事件的精度也较高。
附图说明
图1为模型构建的流程图
图2是某城市供水管网水质监测站点部分时段的各指标正常运行下的水质数据以及添加水质异常事件后的数据变化情况;图(a)为水质指标余氯在正常运行下以及添加水质异常事件后的数据变化情况图,图(b)为水质指标pH在正常运行下以及添加水质异常事件后的数据变化情况图,图(c)为水质指标电导率正常运行下以及添加水质异常事件后的数据变化情况图,图(d)为水质指标温度在正常运行下以及添加水质异常事件后的数据变化情况图,图(e)为水质指标TOC在正常运行下以及添加水质异常事件后的数据变化情况图,图(f)为水质指标浊度在正常运行下的水质数据以及添加水质异常事件后的数据变化情况图;
图3是各个水质指标通过回归预测模型计算得到的残差以及残差阈值;图(a)为水质指标余氯通过回归预测模型计算得到的残差以及残差阈值图,图(b)为水质指标pH通过回归预测模型计算得到的残差以及残差阈值图,图(c)为水质指标电导率通过回归预测模型计算得到的残差以及残差阈值图,图(d)为水质指标温度通过回归预测模型计算得到的残差以及残差阈值图,图(e)为水质指标TOC通过回归预测模型计算得到的残差以及残差阈值图,图(f)为水质指标浊度通过回归预测模型计算得到的残差以及残差阈值图;
图4是某城市供水管网水质监测站点4个月监测数据的各个水质指标的预测事件发生的概率情况以及实际污染事件的分布情况;图(a)为模拟水质异常事件下水质指标余氯预测水质异常的概率图,图(b)为模拟水质异常事件下水质指标pH预测水质异常的概率图,图(c)为模拟水质异常事件下水质指标电导率预测水质异常的概率图,图(d)为模拟水质异常事件下水质指标温度预测水质异常的概率图,图(e)为模拟水质异常事件下水质指标TOC预测水质异常的概率图,图(f)为模拟水质异常事件下水质指标浊度预测水质异常的概率图;图5是融合了多个指标后,确定利用两个指标识别水质异常事件的最终水质异常事件识别和预警情况,为了便于观察,横坐标上部分表示为添加的水质异常事件,下部分为本发明提出模型的预警结果
具体实施方式
为了本发明的技术方案及优点呈现地更加清楚明白,以下结合附图和实施例对本发明进行详细说明,应当指出的是,实施例只是对本发明的具体阐释,但发明的实施方式不限于此。
实施例1。
参照附图1,本发明的具体实施步骤如下:
S1,数据准备与处理。模型通过对正常和异常数据的训练来实现模型各参数的优化确定,在本发明中涉及到水质指标的预测模型以及水质指标异常点阈值的训练与确定,需要的数据包括正常运行下的水质数据和有污染事件时的水质数据两种,具体的数据预处理步骤分为以下两步:
S11,正常水质数据。用来训练回归预测模型的参数并保存。输入一个检测点的正常运行状态下的多个水质指标的时序值,其中水质指标包括但不限于余氯、pH、温度、电导率、浊度、TOC(总有机碳)等。将数据分为两部分,70%的训练集和30%的测试集。
S12,含水质污染事件的数据。由于管网运行过程中水质异常事件记录较少,水质事件的发生较大依赖于管网的环境,在本发明中参考了相关研究中模拟事件发生的方法,通过模拟高斯形状分布的水质参数变化,随机模拟其事件发生的时间(4-6小时),发生方向(增加或减少),以及变化的幅值(0.3-2.5),添加事件后的水质数据的数据。
S2对预处理过的正常运行状态下的多个水质指标建立预测回归模型,通过不同的机器学习回归方法得到不同指标的时段的预测值,利用水质指标的真实值与预测值的决定系数R2的值来评价回归预测模型的性能,利用训练数据集,模型的输入为需要预测的水质指标前一时刻t-1时的值和剩余水质指标t时刻的值,模型的输出为需要预测的水质指标t时刻的预测值。模型首先挑选KNN、回归树、ANN、随机森林、不同核函数配置的SVM回归模型等多种回归模型对6种水质的正常分布数据的预测,利用决定系数R2为评价指标,当R2越趋于1时,则模型的训练效果越好。选择不同水质指标中在训练集和测试集中计算得到的R2均较高的模型,这类模型具有较高的预测精度,同时还能防止模型出现过拟合现象。最终综合6种水质指标情况,选择了KNN、回归树、ANN、LR、线性核函数配置的SVM回归模型,随机森林。
S3,通过S2最终选择的较优预测模型,利用SKlearn库进行stacking集成学习模型的搭建,模型的搭建分为两层,第一层为KNN、回归树、ANN、LR、线性核函数配置的SVM回归模型,最终的输出预测层为模型较简单的随机森林,防止最终数据出现过拟合情况,对于每一种水质指标均选择相同的模型框架,利用5折-交叉验证来获得不同模型的超参数,将6种水质指标的训练的预测模型参数进行保存。
S4,利用S3得到的集成stacking模型,计算每一种水质指标各个时段的预测值,将真实值与预测值进行比较,利用式(2)计算残差,得到6种水质指标残差分布的标准差。
S5,确定不同水质指标残差分布的正常值阈值范围,利用TPR和FPR优化异常识别模型。为了识别出水质异常点,需要设定一个合适的阈值,当实际计算的水质残差超过阈值范围时模型识别为水质异常点,当实际计算残差小于阈值范围时模型识别为正常点。
S6,在S5中提到的残差阈值的选择需要进行循环寻优,阈值的确定就是利用S5中计算的6种水质指标的残差分布标准差,找到合适的算数乘子,通过对有水质异常事件的数据进行预测模型的计算,得到真实值与预测值的残差,将算数乘子从小到大增加,,在阈值逐渐变大的过程中,TPR和FPR均是逐渐增加,最终迭代停止条件的终止应该使其TPR较大和FPR较小,最终得到各个指标的残差阈值γ以及TPR和FPR。
S7,水质异常事件识别报警模型。利用时序贝叶斯原理进行水质异常事件的概率更新,当概率超过某一阈值时则对该水质指标进行事件报警,给定一个较低的初始时刻发生水质异常事件的概率P0=10-5,水质异常事件发生概率的上界P1=0.95,水质指标发生异常的概率阈值为P2=70%,光滑系数α=0.6,利用贝叶斯公式进行不同水质指标的水质异常事件发生概率更新。
S8,同一时刻内统计多个指标的报警情况,设置一个指标报警数目的一个阈值取m=2,当t时刻发生报警的指标数n≥m时,进行最终模型的报警,并输出最终发生水质异常事件的概率以及发生报警的指标项。将本发明的方法应用于某地城市供水管网的某一检测站点,该站点有4个月时间间隔为5分钟的大约35000条水质数据记录,涉及的水质包括余氯、pH、温度、电导率、浊度、总有机碳,将正常的水质数据分为训练集和测试集,同时利用本发明提供的方法得到有水质异常事件的数据集,利用正常数据的训练集和测试集可以得到水质预测模型的训练参数并对其进行评价,通过对有水质异常事件的数据集进行训练可以得到各个水质指标的残差阈值和TPR和FPR。将这些训练模型的参数保存后应用于管网监测点的多元水质数据时序值,得到最终模型识别水质异常事件的结果。通过最终的预警图可以看到15次的水质污染事件均准确识别预警,仅有两次误报情况,查明原因后发现是该时段的传感器数据的波动幅度较大,比模拟水质事件的幅度还要大。通过该实例的应用发现本发明提出的方法具有较好的可行性,模型搭建后参数无需进行修改,并且有效报警率高,漏报率,错报率低,在实际的供水管网中取得了较好的应用效果。
以上所述实施例仅表达本发明的实施方式,但并不能因此而理解为对本发明专利的范围的限制,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。
Claims (5)
1.一种基于管网多元水质时序数据的水质异常事件识别预警方法,其特征在于,包括以下步骤:
(1)对SCADA采集的监测点的水质数据进行预处理,模拟出模拟水质异常事件数据;
(2)对预处理过的正常运行状态下的多个水质指标建立预测回归模型,每一种水质指标的预测均采用相同形式的输入输出格式,每一种水质数据的预测都采用多种机器学习方法进行下一时段水质指标值的预测;通过不同的机器学习回归方法得到不同指标的时段的预测值,利用水质指标的真实值与预测值的决定系数R2的值来评价回归预测模型的性能,保存每一种水质指标预测较好的机器学习回归预测模型,
(3)选择步骤(2)中每种水质指标的回归预测模型模型训练较好的模型进行集成,构建集成学习Stacking模型,将优选的回归模型进行优选后,stacking作为最终的回归预测模型;
(4)将步骤(2)中各水质指标的预测值与真实值进行残差计算,得到残差分布,确定残差分布的标准差;
(5)对步骤(3)得到的回归预测模型进行评价,选择合适的算数乘子,将其与残差分布标准差相乘作为阈值,当残差的绝对值超出阈值后作为一初始的异常点识别,该关系采用以下公式表示:
γi=Sd(ERi)×muli (3)
式中,γi为水质指标i的残差阈值;Sd(ERi)是步骤(4)中所得到水质指标i的残差分布的标准差;muli是确定水质指标i残差阈值时需要确定的算数乘子;I[ERi(t)]为指示函数,I[ERi(t)]=1表示水质指标i在时间t时模型识别为水质异常点,I[ERi(t)]=0表示水质指标i在时间t时模型识别为水质正常点;
(6)步骤(5)中的算数乘子的确定需要进行循环寻优,在(0,20)的范围内选择最优的算数乘子,确定的原则是让是让TPR尽可能大,FPR尽可能小,
式中,TPRi表示为当水质事件发生时水质指标i识别为异常点的概率,FPRi表示为正常运行状态下水质指标i识别为异常点的概率;TPi是当发生真实水质事件时水质指标i的残差识别为异常的个数,FNi是当发生真实水质事件时水质指标i的残差识别为正常的个数,FPi是正常运行状态下水质指标i的残差识别为异常的个数,TNi是正常运行状态下水质指i的残差识别为正常的个数;
利用有污染事件的水质数据进行TPR与FPR的计算,通过统计每一种水质指标预测情况下的TP,FP,FN,TN的个数,采用式(5)和式(6)计算得到每一种水质的TPR和FPR;
(7)利用时序贝叶斯原理进行水质异常事件的概率更新,当概率超过某一阈值时则对该水质指标进行事件报警,具体可以用以下表达式表示:
P(Et)=α×P(Et)+(1-α)×P(Et-1) (10)
式中,Ot表示为t时刻残差检测为异常点情况;表示为t时刻残差检测为正常的情况;Et表示为t时刻真实发生水质事件的情况;P(Et)表示为在t时刻模型预测的真实会发生水质异常事件的概率;α为光滑系数;为防止快速收敛,给定P(Et)的上下界P1,P0,初始时刻给定事件发生的概率为P0,取一个合适的概率下界P0∈[10-6,10-4],防止概率公式更新时收敛到0,给定一个较高的上界P1∈[0.90,0.98],防止概率最终收敛到1;根据概率的定义得到,P(O|E)=TPR,P(Et(i))为利用指标i识别为水质异常事件的概率,E't(i)为指标i发生水质异常事件报警的指示函数,当E't(i)=1时表示水质指标i在t时刻为报警项,E't(i)=0表示水质指标i在t时刻为正常值,P2为指标发生异常的一个概率阈值;
(8)同一时刻内统计多个指标的报警情况,设置一个指标报警数目的一个阈值m,当水质指标的报警数目n不小于m时,给出最终模型的报警信号,并给出水质异常事件的发生概率P'(Et)及异常水质指标,具体采用以下表达式表达:
Pmax=max{P(Et(i))>P2} (14)
Pmin=min{P(Et(i))>P2} (15)
P'(Et)=sigmoid(n-m)*Pmax+(1-sigmoid(n-m))*Pmin,E't=1 (18)
式中:n为时间t报警水质指标数;Pmax为所有报警水质指标中发生报警概率最大值;Pmin为所有报警水质指标中发生报警概率最小值;sigmoid(x)为水质异常事件识别激活函数,当x的值越小,sigmoid(x)的值越趋近于0,当x越大,sigmoid(x)的值越趋近于1;E't为最终模型的报警指示函数,当E't=0时表示最终模型在时间t识别为正常状态不报警,当E't=1时表示最终模型在时间t识别为水质异常事件并进行报警,并给出水质异常事件发生的概率为P'(Et),当n=m时,P'(Et)为Pmax和Pmin的平均值,n越大,P'(Et)越趋向于Pmax,水质异常事件发生的概率也越大。
4.根据权利要求1所述的一种基于管网多元水质时序数据的水质异常事件识别预警方法,其特征在于,步骤(7)中所述的光滑系数α∈[0.3,0.9]。
5.根据权利要求1所述的一种基于管网多元水质时序数据的水质异常事件识别预警方法,其特征在于,步骤(8)中,当x=0时,所述的sigmoid(x)的值为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010029422.7A CN111191855B (zh) | 2020-01-13 | 2020-01-13 | 一种基于管网多元水质时序数据的水质异常事件识别预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010029422.7A CN111191855B (zh) | 2020-01-13 | 2020-01-13 | 一种基于管网多元水质时序数据的水质异常事件识别预警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191855A true CN111191855A (zh) | 2020-05-22 |
CN111191855B CN111191855B (zh) | 2022-09-20 |
Family
ID=70710805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010029422.7A Active CN111191855B (zh) | 2020-01-13 | 2020-01-13 | 一种基于管网多元水质时序数据的水质异常事件识别预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191855B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148768A (zh) * | 2020-09-14 | 2020-12-29 | 北京基调网络股份有限公司 | 一种指标时间序列异常检测方法、系统及存储介质 |
CN113239957A (zh) * | 2021-04-08 | 2021-08-10 | 同济大学 | 一种突发水污染事件在线识别方法 |
CN113920725A (zh) * | 2021-09-30 | 2022-01-11 | 同济大学 | 一种基于中观层面的城郊主干道事故预测方法及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106872657A (zh) * | 2017-01-05 | 2017-06-20 | 河海大学 | 一种多变量水质参数时序数据异常事件检测方法 |
CN110231447A (zh) * | 2019-06-10 | 2019-09-13 | 精锐视觉智能科技(深圳)有限公司 | 水质异常检测的方法、装置及终端设备 |
-
2020
- 2020-01-13 CN CN202010029422.7A patent/CN111191855B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106872657A (zh) * | 2017-01-05 | 2017-06-20 | 河海大学 | 一种多变量水质参数时序数据异常事件检测方法 |
CN110231447A (zh) * | 2019-06-10 | 2019-09-13 | 精锐视觉智能科技(深圳)有限公司 | 水质异常检测的方法、装置及终端设备 |
Non-Patent Citations (2)
Title |
---|
史斌等: "基于高频在线水质数据异常的突发污染预警", 《中国环境科学》 * |
毛莺池等: "M-TAEDA:多变量水质参数时序数据异常事件检测算法", 《计算机应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148768A (zh) * | 2020-09-14 | 2020-12-29 | 北京基调网络股份有限公司 | 一种指标时间序列异常检测方法、系统及存储介质 |
CN113239957A (zh) * | 2021-04-08 | 2021-08-10 | 同济大学 | 一种突发水污染事件在线识别方法 |
CN113920725A (zh) * | 2021-09-30 | 2022-01-11 | 同济大学 | 一种基于中观层面的城郊主干道事故预测方法及存储介质 |
CN113920725B (zh) * | 2021-09-30 | 2022-12-16 | 同济大学 | 一种基于中观层面的城郊主干道事故预测方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111191855B (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106872657B (zh) | 一种多变量水质参数时序数据异常事件检测方法 | |
CN111191855B (zh) | 一种基于管网多元水质时序数据的水质异常事件识别预警方法 | |
CN112987675B (zh) | 一种异常检测的方法、装置、计算机设备和介质 | |
CN111813084B (zh) | 一种基于深度学习的机械装备故障诊断方法 | |
CN107949812A (zh) | 用于检测配水系统中的异常的组合方法 | |
CN108665119B (zh) | 一种供水管网异常工况预警方法 | |
CN102013148B (zh) | 多信息融合火灾探测方法 | |
CN108268893B (zh) | 一种基于机器学习的化工园区预警方法及装置 | |
CN112414694B (zh) | 基于多元状态估计技术的设备多级异常状态识别方法及装置 | |
CN110636066B (zh) | 基于无监督生成推理的网络安全威胁态势评估方法 | |
CN116881745B (zh) | 基于大数据的压力变送器异常监测方法 | |
CN112785091A (zh) | 一种对油田电潜泵进行故障预测与健康管理的方法 | |
CN109255201B (zh) | 一种基于som-mqe的滚珠丝杠副健康评估方法 | |
CN110703214A (zh) | 一种气象雷达状态评估和故障监测方法 | |
CN117195135B (zh) | 一种水污染异常溯源检测方法及系统 | |
CN114429308B (zh) | 一种基于大数据的企业安全风险评估方法及系统 | |
CN114049134A (zh) | 一种污染源在线监测数据造假识别方法 | |
CN114004331A (zh) | 一种基于关键指标和深度学习的故障分析方法 | |
CN116579768A (zh) | 一种发电厂在线仪表运维管理方法及系统 | |
CN117556347A (zh) | 一种基于工业大数据的电力设备故障预测与健康管理方法 | |
CN117115637A (zh) | 一种基于大数据技术的水质监测预警方法及系统 | |
CN114495438B (zh) | 基于多传感器的灾害预警方法、系统、设备及存储介质 | |
CN116302804A (zh) | 基于时间序列的监控指标异常检测方法、系统及介质 | |
CN116311739A (zh) | 一种基于长短时记忆网络及环境信息融合的多传感器火灾检测方法 | |
CN115240428B (zh) | 隧道运营异常的检测方法、装置、电子设备与存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |