CN110737874B - 一种基于空间关系的流域水质监测异常值检测方法 - Google Patents

一种基于空间关系的流域水质监测异常值检测方法 Download PDF

Info

Publication number
CN110737874B
CN110737874B CN201910830881.2A CN201910830881A CN110737874B CN 110737874 B CN110737874 B CN 110737874B CN 201910830881 A CN201910830881 A CN 201910830881A CN 110737874 B CN110737874 B CN 110737874B
Authority
CN
China
Prior art keywords
water quality
data
river
section
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910830881.2A
Other languages
English (en)
Other versions
CN110737874A (zh
Inventor
高锡章
翟德超
李宝林
袁烨城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Geographic Sciences and Natural Resources of CAS
Original Assignee
Institute of Geographic Sciences and Natural Resources of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Geographic Sciences and Natural Resources of CAS filed Critical Institute of Geographic Sciences and Natural Resources of CAS
Priority to CN201910830881.2A priority Critical patent/CN110737874B/zh
Publication of CN110737874A publication Critical patent/CN110737874A/zh
Application granted granted Critical
Publication of CN110737874B publication Critical patent/CN110737874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Abstract

本发明涉及一种基于空间关系的流域水质监测异常值检测方法。该方法包括对单一河道和非单一河道进行异常值检测,适用于检测水质监测数据中的点异常与集合异常值。对于单一河道:在河流段上生成等距且密集的数据点,通过提取等距密集点的高程值并结合其周边的地势判断河流的流向;利用最小二乘法对同一月份同一水质指标的数据进行线性模拟,根据模拟直线的斜率分离出集合异常值;通过计算均方误差并设置相应的阈值,对剩余数据进行点异常判定。对于非单一河道:利用一维水质模型计算干流和支流在干支流交汇处的水质指标值,通过对比将非单一河道的异常值检测转化成单一河道的异常值检测。该方法利用了水质断面的空间位置、地形和水系之间的关系进行水质异常值检测,既分离出了点异常与集合异常又提高了异常值检测的准确率。

Description

一种基于空间关系的流域水质监测异常值检测方法
技术领域
本发明为地理信息系统与水文水资源交叉的信息领域,特别涉及一种基于空间关系的流域水质监测异常值检测方法。
背景技术
随着世界人口的急剧增长与社会经济的不断发展,严重的水污染问题也随之出现。近年来,国家的相关部门在各大河流、湖泊、水库等处建设了大量的水质监测站点,每隔一定的周期监测每个断面的水质情况,因此获得了海量的水质监测数据。然而在对其进行加工的过程中,异常值会极大地干扰到水质数据的分析结果,因此如何有效的识别水质数据中的异常值成为了目前需要解决的重难点问题。
异常值检测是在大量的数据集中提取出小概率的异常数据点,目前主流的水质异常值检测方法有以下几类:(1)基于统计学的检测方法;(2)基于聚类的检测方法;(3)基于机器学习的检测方法。
统计学方法是最早应用于水质数据异常值检测之中的,对于正态分布、对数分布、指数分布、Weibull等都有较成熟的检测方法。其中基于正态分布的检测应用最为广泛,常见的检测方法有3σ原则、t检测法、Dixon法等。对于不服从正态分布的数据,一般需要将其转化为正态分布,如幂变换是常用的正态变化方法。对于那些转换后正态效果不明显的分布,可以采用非参数方法,如箱型图和Walsh检测法。
基于聚类的异常值检测方法的基本思想是将异常检测过程转换为聚类的过程,聚类的目的在于将数据集划分为若干簇,并且簇内实体间距离尽可能小,簇间实体间距离尽可能大,将聚类后那些不隶属与任何簇的实体识别为异常。聚类方法常见的有:K均值聚类(k-means clustering algorithm,K-Means)和K最近邻聚类(K-Nearest Neighbor,KNN)算法。通过聚类可以高效地从数据集中发现异常实体,但是聚类的主要目的在于发现簇,异常实体仅是一种副产物,使得异常检测精度不够高。
机器学习的检测方法应用较多的主要是人工神经网络(Artificial NeuralNetwork,ANN) 和支持向量机技术(Support vector machines,SVM)。基于人工神经网络的异常值检测方法可以根据自身特点挖掘数据中存在的异常,自动调节网络节点之间的权重。该方法的基本思想是将训练数据分为正常数据和异常数据两类,经过训练的神经网络能够对目标数据进行分类。基于支持向量机技术的异常检测算法是通过构造最优分类超平面来实现正常数据和异常数据的分类,为提高检测效率常采取一定的改进方法对特征参数进行优化。
上述所述的所有检测方法有一个共同的特征,即它们都是针对异常值的通用检测方法,只是将其应用于水质异常检测中,忽略了水质异常值的特性,使得水质异常值检测的精度较低。
发明内容
本发明的目的在于设计一种基于空间关系的流域水质监测异常值检测方法,通过对水质监测断面的空间位置、地形以及水系之间的关系进行综合分析,找出各监测断面水质指标数据分布的规律,进而检测出水质指标数据中存在的异常值,提高水质异常值的检测精度。
为实现本发明所述的水质异常值检测方法,设计如下步骤:
1、水流方向提取。水流方向提取包括以下两个步骤:
(1.1)提取所选河流段的中心线;在中心线上建立等距且密集的数据点;加载河流段对应的DEM数据;提取数据点的高程值;导出高程值并制作折线图。
(1.2)在河流段对应的DEM上随机生成密集的数据点;提取数据点的高程值;趋势面分析。
若折线图与高程趋势面显示的地势一致,则可以确定水流方向。
2、水质数据预处理。根据研究区的实际情况,选择合适的水质指标用于异常值检测。
预处理包括如下过程:
(2.1)根据水流方向依次提取每条河流段上断面的代码,然后根据断面代码提取涉及到该断面的所有水质数据,最后按照月份将提取到的水质数据分成n份,计算公式为:n=年数*12;
(2.2)剔除掉断面数过少的月份,因为大部分断面的月份数据都不可能做到n个月份都是完整的,所以如果某一月份多个断面同时缺失,这个月份的数据就需要剔除;
(2.3)剔除未选择的水质指标,因为根据实际情况选择的水质指标是所有水质指标的一部分,这时候就需要将未选择的水质指标剔除;
(2.4)剔除掉经过(2.1)-(2.3)步剩余数据中负值或空缺值较多的数据块;
(2.5)对经过(2.1)-(2.4)步剩余的数据中负值或空缺值较少的数据块进行填充,填充方法采用热卡填充。
3、非单一河道转换为单一河道。对于非单一河道的河流段,对干流河流段上断面水质进行检测时,根据一维稳态水质模型,分别计算干流和支流的水质指标在干支流交汇处的指标浓度,记为R和R。若R小于或约等于R,则异常值的检测方法按照单一河道的检测方法;若R远大于R,则根据河流段的流向和支流的位置,将断面从干支流交汇处分为两类分别按照单一河道的异常值检测方法进行检测。
(3.1)一维均匀河流的水质模型基本方程的通式可以写成:
Figure BDA0002188488160000034
其中,c表示水质指标的浓度,单位是kg/m3,需要经过MG/L换算;t表示水流动的时间,单位是s;u表示水流的平均速度,单位是m/s;x表示水流动的距离,单位是m; E表示弥散系数;k表示水质指标衰减系数,单位是s-1
(3.2)当满足以下三个条件时:a.河流为稳态河流(弥散作用很小,可以忽略不计);b.水流流经t时间(时间:0→t);c.从起始处开始计算(x(t)=0,c=c0),一维均匀河流的水质模型基本方程的通式可以写成:
Figure DEST_PATH_GDA0002301097590000032
(3.3)根据(3.2)中的公式,提取出水质指标衰减系数k,得到公式为:
Figure BDA0002188488160000032
Figure BDA0002188488160000033
(3.4)用ArcGIS中的Calculate Geometry工具计算两个断面之间的距离,即x(t)。
(3.5)对于干流,根据(3.3)中的公式,利用干流断面的水质数据以及断面之间距离数据计算某一水质指标的衰减系数k,再带入(3.2)中的方程,建立干流的一维稳态
水质模型。
(3.6)根据干流的一维稳态水质模型,利用干流断面的水质数据以及断面之间距离数据,计算干支流交汇处该水质指标的浓度R
(3.7)对于支流,重复步骤(3.5)和(3.6),可以得到该水质指标在干支流交汇处该水质指标的浓度R
(3.8)比较R和R的大小。根据《地表水环境质量标准基本项目标准限值》,R小于或约等于R指的是R所处的水质级别高于或等于R所处的水质级别;R远大于R指的是R所处的水质级别低于R所处的水质级别。
4、单一河道水质异常值检测。水质异常值分为两类:点异常和集合异常值。集合异常值的检测采用最小二乘法做线性拟合,根据拟合的直线的斜率进行判断,若拟合直线的斜率k>0或k=0,则认为整个数据块是一个集合异常;若拟合直线的斜率k<0,则认为该数据块中的数据是正常值或存在点异常,接着点异常的判定利用的是均方误差,通过比较每一个数据的方差和均方误差的大小关系并设置合适的阈值确定数据块中的点异常值。
(4.1)点异常(Point Anomalies),也称为全局异常值(Global Outliers),指的是数据点的值远远超出发现它的整个数据集;集合异常值(Collective Outliers),指的是如果作为集合的某些值明显偏离整个数据集,则数据集内的数据点的子集被认为是异常的,但是各个数据点的值本身在上下文或者全局都不被视为异常值。
(4.2)最小二乘法做线性拟合的公式如下:y=a0+a1x,其中a0和a1的计算公式如下:
Figure BDA0002188488160000041
Figure BDA0002188488160000042
其中
Figure BDA0002188488160000043
Figure BDA0002188488160000044
的计算公式如下:
Figure BDA0002188488160000045
(4.3)数据块中的数据点在用最小二乘法做线性拟合时,数据点对应的横坐标x为1, 2,3...
(4.4)最小二乘法线性拟合的直线斜率k=0的情况指的是:计算出的结果保留2位或3位小数时k四舍五入为0。
(4.5)均方误差的计算公式如下:
Figure BDA0002188488160000046
正常数据的方差和均方误差的大小相差不大,而点异常通常比均方误差高一个数量级及以上。
本发明中的一种基于空间关系的流域水质监测异常值检测系统中包含四个模块:数据读取与预处理模块、水流方向提取模块、河道统一模块、水质异常值检测模块。
数据读取与预处理模块实现水系数据与水质数据的读取以及水质数据的预处理。
水流方向提取模块是根据河流段上数据点的高程值并结合其周边地势,判断河流段水流的方向。
河道统一模块是结合一维稳态水质模型,将非单一河道的河流段转换为单一河道进行水质异常值检测(研究区为单一河道则跳过此模块)。
水质异常值检测模块是根据前三个模块的处理结果,利用最小二乘法进行线性拟合得到水质数据中的点异常以及集合异常值。
本发明与现有的水质异常值检测方法相比所具有的优点是:(1)现有的水质异常值检测方法大都是针对异常值的通用检测方法,只是将其应用于水质异常检测中,忽略了水质异常值的特性,使得水质异常值检测的精度较低;本发明是针对水质数据所设计的异常值检测方法,利用到了水质断面的空间位置、地形和水系之间的关系等条件,提高了水质数据检测的检出率与正确率;(2)现有的水质异常值检测方法大都只能检测出点异常值;本发明可以分辨并检测出点异常与集合异常值。
附图说明
图1为一种基于空间关系的流域水质监测异常值检测方法的流程图;
图2为本发明中的水质数据预处理流程图;
图3为本发明中的水流方向提取流程图;
图4为本发明中的非单一河道转换为单一河道的流程图;
图5为本发明中的非单一河道示意图;
图6为本发明中的水质异常值检测的流程图;
图7为具体实施例中河流段的高程值变化趋势图。
具体实施方式
结合本发明中的水质异常值检测方法,给出以下实施例:针对黄河流域某个具体河流段和其上断面的矢量数据以及水质指标数据,通过选择合适的水质指标并结合本发明中的方法检测水质数据中的异常值。
针对黄河流域某给定的河流段,本发明所提出的一种基于空间关系的流域水质监测异常值检测方法的技术流程图如附图1所示,包含如下步骤:
步骤101:针对给定的河流段的矢量数据,在河流段上生成等距且密集的数据点,接着提取数据点的高程值;在河流段周边生成随机且密集的数据点并提取数据点的高程值,接着进行趋势面分析。通过分析河流段上的高程值的变化趋势并结合高程趋势面得到地势的走向,进而获得水流的方向,具体步骤如下:
步骤201(如有必要):若给定的河流段较宽,即河流段是面状shapefile,需要先提取河流的中心线;若给定的河流段是线状shapefile,则省略该步骤;
步骤202:在ArcGIS 10.6平台上,打开ArcMap,使河流段shapefile(或其中心线)处于编辑状态,点击编辑器下拉列表中的Construct Points,输入Number of Points或Distance即可根据需求自动生成等距的数据点;
步骤203:下载覆盖河流段的所有DEM数据,在ArcMap上完成拼接,并在ArcToolbox中选择Spatial Analysis Tools-Extraction-Extract Values to Points,提取数据点处的高程值;
步骤204:将高程值导出至Excel中,生成折线图,便可以看出沿着河流段整个高程的走势;
为了避免给定的河流段过短,导致根据局部的高程趋势判断河流的走向出现错误,本发明将结合河流段周边的高程趋势面进行判断。
步骤205-206:加载DEM数据后,完成拼接,打开ArcToolbox,选择Data ManagementTools-Sampling-Create Random Points,即可根据需求在拼接后的DEM数据范围内生成一定数量的随机数据点;
步骤207:同步骤203,在ArcToolbox中选择Spatial Analysis Tools-Extraction-Extract Values to Points,提取数据点处的高程值;
步骤208:在ArcMap中的菜单栏选择Customize-Toolbars-GeostatisticalAnalyst 工具,然后下拉菜单,点击Geostatistical wizard工具,然后添加需要进行趋势面分析的文件,调节趋势面模型的幂,找到趋势面均方根的最小值,生成高程趋势面;然后根据实际情况调节分类的数量使得趋势更加明显;
步骤209:根据步骤204生成的高程值走势,结合步骤208生成的高程趋势面,
即可判断河流段的地势,进而判定河流的流向。
步骤102:根据给定的河流段选择合适的水质指标,例如:高锰酸盐指数、化学需氧量、五日生化需氧量、氨氮、总磷、总氮等;接着对水质数据进行预处理,具体实施步骤如下:
步骤302:基于所拥有的水质数据,利用Python语言设计程序实现如下功能:根据水流方向依次提取每条河流段上断面的代码,然后程序会根据输入的断面代码自动提取涉及到该断面的所有月份的水质数据,并按照月份将提取到的水质数据分成n 份,计算公式为:n=年数*12;
步骤303:将某些断面数过少的月份剔除;
步骤304:将未选择的水质指标剔除。步骤101所示的为选择的水质指标,若水质数据中含有铜、锌等指标可以将其剔除;
步骤305:经过步骤302,水质数据均分成了数据块(某一月份的某一水质指标的所有数据),经过步骤303和304,剩余数据中若存在某些数据块中负值或空缺值较多的情况,则将其剔除;
步骤306:经过步骤202-205,余下数据块中如存在负值或空缺值较少的情况,采用热卡填充方式进行数据填充。负值或空缺值较多与较少的边界一般界定为2个,即数据块若存在大于2个的负值或空缺值,则认为该数据块中负值或空缺值较多;反之,若含有1到2个负值或空缺值,则认为该数据块中负值或空取值较少。
步骤103:若给定的河流段存在支流(即非单一河道),则进入步骤104;若给定的河流段不存在支流(即单一河道),则进入步骤105;
步骤104:利用一维稳态水质模型将非单一河道河流段转换为单一河道,即根据支流的水质对干流产生的影响程度,判断是否需要将干流分成两部分分别进行水质异常值检测,具体步骤如下:
步骤401:在ArcGIS中利用Geometry Calculator计算支流段各断面之间的长度作为河流在两个断面之间流过的距离,如图5所示,计算ab和bo之间的距离;
步骤402:参照发明内容的步骤3中的一维稳态水质模型,根据支流a和b断面的水质数据及河长(步骤401中ab的长度)计算支流的某一水质指标衰减系数k,并带入水质模型的公式中,建立支流的一维稳态水质模型;
步骤403:利用步骤402建立的支流一维稳态水质模型,根据支流b的水质数据及河长(步骤401中b o的长度)计算支流在干支流交汇处(即o点)的该水质指标浓度R
步骤404-406:参照步骤401-403,计算得出干流在干支流交汇处的该水质指标浓度R
步骤407:根据《地表水环境质量标准基本项目标准限值》,R远大于R指的是R所处的水质级别低于R所处的水质级别,即支流的水质对干流的影响较大,则进入步骤408,将干流从干支流交汇处分成两部分分别按照单一河道进行水质异常值检测;R小于或约等于R指的是R所处的水质级别高于或等于R所处的水质级别,即支流的水质对干流的影响不大可以忽略不记,则进入步骤409,将非单一河道看成单一河道进行水质异常值检测。
步骤105:经过上述步骤101-104,得出了预处理后的水质数据、确定了水流的方向并且统一了河道,接下来则针对预处理后的每一个数据块利用最小二乘法进行线性拟合从而检测出集合异常值;然后利用均方误差检测出点异常值,具体步骤如下:
步骤601:针对给定的河流段中的水质数据,利用Python语言设计程序实现最小二乘法的线性拟合,批量处理数据块,得出每一个数据块拟合的直线斜率k;
步骤602:判断拟合直线的斜率k是否小于0,若k≥0,则数据块中的数据平稳波动或有上升的趋势,则将整个数据块看成一个集合作为集合异常值,进入步骤603;若k<0,则数据块中的数据有下降的趋势,则认为数据块中的数据为正常数据或者存在点异常,进入步骤604;
步骤605:根据发明内容的步骤4中所述的均方误差计算公式,计算进入步骤 603数据块的均方误差,并计算其中每一个数据的方差;然后将数据块中的所有数据与均方误差进行比较,正常数据的方差和均方误差的大小相差不大,而点异常通常比均方误差高一个数量级及以上,由此可以分理出正常数据与点异常值。
以上对本发明提出的一种基于空间关系的流域水质监测异常值检测方法进行了详细介绍。本文中应用了具体个例、具体的实现语言及具体的GIS平台对本发明的原理及实施方式进行了阐述,以上实施例只是用于帮助理解本发明的方法及核心思想,不应理解为对本发明的限制。
本发明未详细阐述部分属于本领域公知常识。应当指出,对于本技术领域的普通技术人员HOAB来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
补充实施例
为了更清楚地说明本发明中的方法是如何检测水质数据中的异常值的,现以某一典型的河流段为例,描述水质异常值检测的具体过程。附图5为黄河流域湟水段的示意图,其水质异常值检测的过程如下:
步骤1:(1)在河流段上建立等距且密集的数据点;(2)加载河流段对应的DEM数据;(3)提取数据点的高程值;(4)导出高程值并制作折线图,如图7所示。
考虑到河流长度等其他特殊因素可能会导致根据局部的高程趋势判断河流的走向出现错误,本发明将结合河流段周边的高程趋势面进行判断。需要分析其周围的地形作为辅助判断,辅助判断的步骤如下:(1)在河流段对应的DEM上随机生成密集的数据点;(2)提取数据点的高程值;(3)趋势面分析。
由高程值的变化趋势以及趋势面的分析结果(高程点是从西北向东南选取的),可以得出水流的方向为:由西北向东南。
步骤2:根据实际情况,选择如下水质指标:高锰酸盐指数、化学需氧量、五日生化需氧量、氨氮、总磷、总氮;根据河流段流向,自上而下提取其上断面的水质指标数据,并按照月份将其分成36份(因为所拥有的数据为2016年1月份至2018年12月份);剔除与填补数据:(1)剔除断面数过少的月份数据;(2)剔除未选择的水质指标;(3)剔除负值或空缺值较多的数据块;(4)对剩余的负值或空缺值较少的数据块进行填充,最终得到数据表1(由于数据量较大,表格仅展示部分):
表1
Figure BDA0002188488160000101
Figure BDA0002188488160000111
步骤3:由于黄河流域湟水段是非单一河流段,所以对干流河流段上断面水质进行检测时,根据一维稳态水质模型,分别计算干流和支流的水质指标在干支流交汇处的指标浓度,记为R和R。若R小于或约等于R,则异常值的检测方法按照单一河道的检测方法;若R远大于R,则根据河流段的流向和支流的位置,将断面从干支流交汇处分为两类分别按照单一河道的异常值检测方法进行检测。以2018年5月份湟水段为例进行说明,计算得结果如表2所示。查看《地表水环境质量标准基本项目标准限值》,支流和干流的水质指标在干支流交汇处的值满足II类水的要求,故二者出于同一类水质,所以对于湟水非单一河道的水质指标异常值的检测可以按照单一河道的水质指标异常值的检测方法。
表2
Figure BDA0002188488160000121
步骤4:集合异常值的检测采用最小二乘法做线性拟合,根据拟合的直线的斜率进行判断,若拟合直线的斜率k>0或k=0,则认为整个数据块是一个集合异常;若拟合直线的斜率k<0,则认为该数据块中的数据是正常值或存在点异常,接着点异常的判定利用的是均方误差,通过比较每一个数据的方差和均方误差的大小关系并设置合适的阈值确定数据块中的点异常值。计算得到结果如表3所示,可以看出2018年2月份湟水段的高锰酸盐指数的拟合斜率为0.0962,是一个集合异常值;接着通过计算每一个数据块的均方误差,发现2018年1月份扎马隆断面的氨氮指标含量为0.08MG/L是一个点异常值。
至此,针对黄河流域湟水段的水质数据(部分)异常值检测完成,检测结果与实际情况相符。
表3
Figure BDA0002188488160000122

Claims (6)

1.一种基于空间关系的流域水质监测异常值检测方法,其特征在于,所述方法包含如下步骤:
准备步骤:准备水系以及断面的矢量数据、每个断面的水质指标数据,在此基础上,根据实际情况,选择相应的河流段以及检测污染常用的水质指标用于异常值检测;
A、在河流段上生成等距且密集的数据点并提取其高程值,用河流段周边的高程趋势面作为辅助判断,确定河流段的流向;
B、根据河流段流向,自上而下提取其上断面的水质指标数据,该指标数据为准备步骤中所选取的水质指标,并按照月份将其分成年数*12份;
C、剔除与填补数据:(1)剔除断面数过少的月份数据;(2)剔除步骤A中未选择的水质指标;(3)剔除负值或空缺值较多的数据块,将同一月份同一水质指标的某一河流段上所有断面数据简称为一个数据块;(4)对剩余的负值或空缺值较少的数据块进行填充;比断面数最多的月份少3个断面及以上则为断面数过少的月份;数据块中负值或空缺值大于2个则为负值或空缺值较多的数据块;数据块中负值或空缺值为1或2个则为负值或空缺值较少的数据块;
D、判断河流段是单一河道还是非单一河道,若是单一河道跳过步骤E~F,进入步骤G~H;若是非单一河道进入步骤E~H;
E、根据一维稳态水质模型,分别计算干流和支流在干支流交汇处的水质指标数值,记为R和R
F、比较R和R的大小,若R小于或约等于R,则非单一河道的水质异常值检测按照单一河道进行,重复步骤A~E;若R远大于R,则从干支流交汇处开始将干流分成两部分分别按照单一河道进行检测,进入步骤G~H;根据《地表水环境质量标准基本项目标准限值》,R小于或约等于R指的是R所处的水质级别高于或等于R所处的水质级别;R远大于R指的是R所处的水质级别低于R所处的水质级别;
G、针对每一个数据块,利用最小二乘法进行线性拟合,确定直线的斜率k,若k≥0,则该数据块整体为集合异常数据;若k<0,则该数据块中的数据包含正常数据与点异常数据;
H、针对步骤G中k<0的数据块,计算数据块中每一个数据的方差以及均方误差,通过比较每一个数据的方差和均方误差的大小关系并采用多次实验取经验值的方法获取并设置阈值确定数据块中的点异常值。
2.如权利要求1所述的一种基于空间关系的流域水质监测异常值检测方法,其特征在于,所述步骤A进一步包括:
A’、若河流段较宽,即河流段为面状,需要提取河流段的中心线;
B’、在河流段或河流段中心线上生成等距且密集的数据点,并按照顺序提取数据点的高程值,然后生成高程值的折线图;
C’、在河流段周边生成随机且密集的数据点,并提取数据点的高程值,然后进行趋势面分析;
D’、若生成的高程值折线图波动上升,同时步骤C’中生成的高程趋势面反映的地势也是上升状态,则判断水流方向与数据点高程值提取方向相反;反之,则水流方向与数据点高程值提取方向相同。
3.如权利要求1所述的一种基于空间关系的流域水质监测异常值检测方法,其特征在于,所述步骤B中根据河流段流向,自上而下提取断面的水质指标数据为步骤G中判断数据中是否存在点异常与集合异常值做了铺垫;步骤B中将水质指标数据分成多少份取决于数据中包含的年份数以及月份数。
4.如权利要求1所述的一种基于空间关系的流域水质监测异常值检测方法,其特征在于,所述步骤C中,数据填充采用的是热卡填充。
5.如权利要求1所述的一种基于空间关系的流域水质监测异常值检测方法,其特征在于,所述步骤E中一维稳态水质模型的公式为:
Figure FDA0002957619690000031
其中,c(t)表示水质指标从初始断面经过时间t后剩余的浓度;c0表示水质指标在初始断面的浓度,单位是kg/m3,由mg/l换算而来,1kg/m3=1000mg/l;δ表示水质指标衰减系数,单位是s-1;x(t)表示水流从初始断面开始经过时间t流动的距离,单位是m;u表示水流的平均速度,单位是m/s。
6.如权利要求1所述的一种基于空间关系的流域水质监测异常值检测方法,其特征在于,所述步骤G的方法原理是:对于单一流向、单一河道的河流段,若沿程没有排污或者沿程均匀排污,对河流段上断面水质进行检测时,首先根据河流段水流的方向,确定河流段上断面的上下游关系;然后根据水质指标的化学性质,判断各个水质指标在上下游断面的浓度定性关系;接着利用最小二乘法做线性拟合;最后根据拟合的直线斜率判断水质数据中的异常值。
CN201910830881.2A 2019-09-02 2019-09-02 一种基于空间关系的流域水质监测异常值检测方法 Active CN110737874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910830881.2A CN110737874B (zh) 2019-09-02 2019-09-02 一种基于空间关系的流域水质监测异常值检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910830881.2A CN110737874B (zh) 2019-09-02 2019-09-02 一种基于空间关系的流域水质监测异常值检测方法

Publications (2)

Publication Number Publication Date
CN110737874A CN110737874A (zh) 2020-01-31
CN110737874B true CN110737874B (zh) 2021-04-20

Family

ID=69267556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910830881.2A Active CN110737874B (zh) 2019-09-02 2019-09-02 一种基于空间关系的流域水质监测异常值检测方法

Country Status (1)

Country Link
CN (1) CN110737874B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291937A (zh) * 2020-02-25 2020-06-16 合肥学院 基于支持向量分类与gru神经网络联合的处理污水水质预测方法
CN111650346B (zh) * 2020-07-14 2021-02-12 中科三清科技有限公司 大气污染监测数据的自动审核方法、装置及电子设备
CN111858712A (zh) * 2020-07-20 2020-10-30 上海仪电(集团)有限公司中央研究院 原位水质巡检数据时空分析与异常检测方法和系统
CN111898691B (zh) * 2020-08-05 2023-11-14 生态环境部华南环境科学研究所 一种河流突发水污染预警溯源方法、系统、终端及介质
CN112257351A (zh) * 2020-10-20 2021-01-22 中国科学院地理科学与资源研究所 一种考虑地形和风向的环境空气质量监测异常值检测方法
CN112381294B (zh) * 2020-11-13 2023-09-19 重庆数字城市科技有限公司 一种排污去向预测分析方法
CN112733904B (zh) * 2020-12-30 2022-03-25 佛山科学技术学院 一种水质异常检测方法及电子设备
CN113157684B (zh) * 2021-05-13 2021-12-10 中山大学 一种水利海量数据的查错方法
CN116304582B (zh) * 2023-05-16 2023-08-08 力高(山东)新能源技术股份有限公司 一种动力电池中单调数据的异常标记修正方法
CN117786281A (zh) * 2024-02-23 2024-03-29 中国海洋大学 一种沉积物柱状样沉积速率与误差的优化计算方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185988B1 (en) * 2000-04-14 2001-02-13 John Francis Baxter, Jr. Anti-fouling apparatus for marine applications
CN103473463A (zh) * 2013-09-17 2013-12-25 中国环境科学研究院 一种定量确定湖泊流域水体氮磷背景浓度的方法
CN108287950A (zh) * 2017-12-27 2018-07-17 环境保护部环境规划院 基于控制单元水环境质量目标管理的水质模拟方法
CN108984972A (zh) * 2018-08-24 2018-12-11 浪潮软件集团有限公司 一种基于大数据和并行计算的水质数学模型优化方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160203146A1 (en) * 2015-01-12 2016-07-14 Gary Allison Moll Ecosystem Services Index, Exchange and Marketplace and Methods of Using Same
CN108170951B (zh) * 2017-12-27 2021-11-19 河海大学 基于采样数据时空匹配示踪试验的纵向离散系数确定方法
CN108664647B (zh) * 2018-05-17 2021-07-06 生态环境部环境规划院 一种集成水环境模型的流域精细化管理系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185988B1 (en) * 2000-04-14 2001-02-13 John Francis Baxter, Jr. Anti-fouling apparatus for marine applications
CN103473463A (zh) * 2013-09-17 2013-12-25 中国环境科学研究院 一种定量确定湖泊流域水体氮磷背景浓度的方法
CN108287950A (zh) * 2017-12-27 2018-07-17 环境保护部环境规划院 基于控制单元水环境质量目标管理的水质模拟方法
CN108984972A (zh) * 2018-08-24 2018-12-11 浪潮软件集团有限公司 一种基于大数据和并行计算的水质数学模型优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GIS与投影寻踪模型在水质评价中的应用;罗畏;《中国优秀硕士学位论文全文数据库 工程科技I辑》;20120415(第04期);第1-72页 *
清潩河流域水质时空分异与评价研究;田智慧 等;《人民长江》;20170430;第48卷(第7期);第26-30页 *

Also Published As

Publication number Publication date
CN110737874A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN110737874B (zh) 一种基于空间关系的流域水质监测异常值检测方法
Schäfer et al. Detection of gravitational-wave signals from binary neutron star mergers using machine learning
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN109063734B (zh) 结合多级局部密度聚类的油浸式变压器故障状态评估方法
CN111950585A (zh) 一种基于XGBoost的地下综合管廊安全状况评估方法
CN110750524A (zh) 一种有源配电网故障特征的确定方法及系统
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN104807589B (zh) 一种集输-立管系统内气液两相流流型的在线识别方法
CN111401785A (zh) 一种基于模糊关联规则的电力系统设备故障预警方法
CN107992945B (zh) 基于深度学习和进化计算的特征基因选择方法
CN107577792A (zh) 一种企业数据自动聚类的方法及其系统
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN112257351A (zh) 一种考虑地形和风向的环境空气质量监测异常值检测方法
CN106528527A (zh) 未登录词的识别方法及识别系统
CN110348683A (zh) 电能质量扰动事件主成因分析方法、装置设备及存储介质
CN102945222A (zh) 一种基于灰色理论的乏信息测量数据粗大误差判别方法
CN111737993B (zh) 一种配电网设备的故障缺陷文本提取设备健康状态方法
CN112949735A (zh) 一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法
CN112149922A (zh) 高速公路隧道下行线出入口区域事故严重程度预测方法
CN116823047A (zh) 基于蒙特卡洛-可变模糊集的湖泊富营养化评价方法
CN115526407A (zh) 基于因果机器学习的电网大数据安全检测预警方法及系统
CN111654853B (zh) 一种基于用户信息的数据分析方法
CN108874974A (zh) 基于频繁词集的并行化话题跟踪方法
CN114782211A (zh) 一种海山分布范围信息的获取方法及系统
CN113191089A (zh) 一种基于滑动窗口的尾矿砂液化数据聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant