CN114817851A - 水质监测方法及设备 - Google Patents

水质监测方法及设备 Download PDF

Info

Publication number
CN114817851A
CN114817851A CN202110113745.9A CN202110113745A CN114817851A CN 114817851 A CN114817851 A CN 114817851A CN 202110113745 A CN202110113745 A CN 202110113745A CN 114817851 A CN114817851 A CN 114817851A
Authority
CN
China
Prior art keywords
water quality
quality monitoring
variable
correlation
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110113745.9A
Other languages
English (en)
Inventor
符岳辉
蒙良庆
胡石泉
胡勇
范小聚
张子秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lihero Technology Hunan Co ltd
Original Assignee
Lihero Technology Hunan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lihero Technology Hunan Co ltd filed Critical Lihero Technology Hunan Co ltd
Priority to CN202110113745.9A priority Critical patent/CN114817851A/zh
Publication of CN114817851A publication Critical patent/CN114817851A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01KMEASURING TEMPERATURE; MEASURING QUANTITY OF HEAT; THERMALLY-SENSITIVE ELEMENTS NOT OTHERWISE PROVIDED FOR
    • G01K13/00Thermometers specially adapted for specific purposes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/18Water

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Food Science & Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明实施例公开一种水质监测方法及水质检测设备,水质监测方法包括获取同一站点不同变量参数对应的水质监测数据;对水质监测数据中变量参数两两间的相关性进行分析,对相关性高于阈值的变量参数组进行线性回归分析;根据线性回归分析确定的误差向量、标准误差和参数估计值计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值;获取站点在更新时段内的水质监测数据;当更新时段未超过预设时间范围时,根据在先的线性回归分析所确定的变量参数的正交单位矩阵更新参数估计值,根据更新的参数估计值、误差向量和标准误差计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值。

Description

水质监测方法及设备
技术领域
本发明涉及水质监测技术领域,特别涉及一种水质监测方法及设备。
背景技术
水污染主要是由人类活动产生的污染物造成,往往是由有害化学物质造成水的使用价值降低或丧失,污水中含有酸、碱、氧化剂,以及铜、镉、汞、砷等化合物,苯、二氯乙烷、乙二醇等有机毒物,会毒死水生生物、影响饮用水源、破坏风景区景观。污水中的有机物被微生物分解时消耗水中的氧,影响水生生物的生命,水中溶解氧耗尽后,有机物进行厌氧分解,产生硫化氢、硫醇等难闻气体,使水质进一步恶化。因此,水污染已对人类的生存安全构成重大威胁,成为人类健康、经济和社会可持续发展的重大障碍。
目前,随着对水质进行在线监测的技术发展,当前已经做到可以大量获取水质监测数据。但是对数据的审核工作主要还是通过人工,随着在线采集数据量的增加,人工审核的工作量激增,这就为水质检测数据异常值识别的效率和后期现场排查提供了难度。而且由于人工审核是靠经验和感官,面对庞大的数据很容易发生错审、漏审,审核花费的时间长,在现场出现异常后很难在第一时间完成预判,容易造成排查的滞后性。
此外,在监测数据获取过程中,经常收录有异常数据,造成数据异常的源头有来着水质变化因素,也有部分来自监测仪器本身故障的因素,如何高效的识别造成异常数据的真正成因,是判别监测数据真实性的首要条件,也是后续成因分析,解决方案的基石所在。
发明内容
为了解决现有存在的技术问题,本发明实施例提供一种更加准确、高效和提升对水质污染问题响应及时性和针对性的水质监测方法及设备。
本发明实施例一方面提供一种水质监测方法,包括:
获取同一站点不同变量参数对应的水质监测数据;
对所述水质监测数据中变量参数两两间的相关性进行分析,对相关性高于阈值的变量参数组进行线性回归分析;
根据所述线性回归分析确定的误差向量、标准误差和参数估计值计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值;
获取所述站点在更新时段内的水质监测数据;
当所述更新时段未超过预设时间范围时,根据在先的所述线性回归分析所确定的变量参数的正交单位矩阵更新所述参数估计值,根据更新的所述参数估计值、误差向量和标准误差计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值;
当所述更新时段超过预设时间范围时,返回所述对所述水质监测数据中变量参数两两间的相关性进行分析,对相关性高于阈值的变量参数组进行线性回归分析的步骤。
本申请实施例另一方面提供一种水质监测设备,包括处理器及存储器,所述存储器内存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时本申请任一实施例所述的水质监测方法。
上述实施例提供的水质监测方法及设备,通过采集站点的不同变量参数对应的水质监测数据,对所述水质监测数据中变量参数两两间的相关性进行分析,对相关性高于阈值的变量参数组进行线性回归分析,通过计算不同变量参数样本点的库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值,如此,利用历史数据分析同一站点不同参数之间是否存在关联关系,结合一站一策的管理思路,当数据出现与数理关系差异时,系统将数据筛选出来。其次,获取所述站点在更新时段内的水质监测数据,对于更新时段未超过预设时间范围时,采用库克距离的近似更新方法对更新时段内的水质监测数据进行计算以识别异常点,对于更新时段超过预设时间范围时,则采用线性回归分析进行重新计算分析,可高效识别造成异常数据的真正成因,不仅确保分析准确性,而且可以大大减少计算量,提高分析效率。如此,通过对历史数据、实时数据等的合理性、逻辑性、相关性进行分析,创建异常数据捕获模型,对可疑数据自动筛选和预判,具备对异常数据的研判分析能力,不仅能对单个监测指标提供各种分析机制,还具有多个监测指标组合分析能力。
附图说明
图1为本发明一实施例中水质监测方法的流程图;
图2为本发明实施例水质监测方法中通过偏离回归线确定异常值的示意图;
图3为本发明实施例水质监测方法中在时间序列中标识异常值的示意图;
图4为本发明另一实施例中水质监测方法的流程图;
图5为本发明另一实施例中水质监测装置的结构示意图;
图6为本发明一实施例中水质监测设备的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明的保护范围。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
在以下的描述中,涉及到“一些实施例”的表述,其描述了所有可能实施例的子集,但是应当理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
请参阅图1,为本发明一实施例提供的一种水质监测方法,包括如下步骤:
S101,获取同一站点不同变量参数对应的水质监测数据。
其中,水质监测数据可以包括从各个站点人工采集到的对应的水质监测数据,也可以是指按照预设频率从各个站点自动采集到不同变量参数对应的水质监测数据。变量参数可以包括用于表征水质的不同参数,如水温、PH值、溶解氧、电导率、浊度、高锰酸盐指数(CODMn)、氨氮、总磷、总氮、叶绿素α及藻密度等。水质监测数据进行采集后可通过远程方式发送给水质监测的数据中心进行存储,水质监测审核人员可以在水质监测的数据中心对水质监测数据进行分析。
所述获取同一站点不同变量参数对应的水质监测数据可以是,获取同一站点在设定的历史时间段内采集到的不同变量参数对应的水质监测数据。
S102,对所述水质监测数据中变量参数两两间的相关性进行分析,对相关性高于阈值的变量参数组进行线性回归分析。
可以用相关系数来表征不同变量参数之间的关系。对所述水质监测数据中变量参数两两间的相关性进行分析,将两个变量参数分别用x、y表示,两个变量参数之间的相关系数ρ可以如下公式一所示。
Figure BDA0002919998190000031
将相关系数较大的两个变量参数作为相关性高于阈值的变量参数组,进行线性回归分析。
S103,根据所述线性回归分析确定的误差向量、标准误差和参数估计值计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值。
请结合参阅图2和图3,通过进行线性回归分析可以画出散点图以及回归直线,计算每个变量参数的库克(cook)距离,库克距离越大,则表示偏离回归直线越远,将库克距离大于阈值的异常点标记为异常值。可选的,库克距离阈值为所有变量参数的库克距离的平均值的5倍。库克距离的计算可以如下公式二所示:
Figure BDA0002919998190000032
hi是指第i个元素的参数估计值,
Figure BDA0002919998190000033
为误差向量的第i个分量,即
Figure BDA0002919998190000034
向量的第i个分量,MSE是指标准误差。
S104,获取所述站点在更新时段内的水质监测数据。
对于不断更新的水质监测数据进行实时分析,更新时段可以是按照预先设定的采集周期所确定的最近的一个采集周期,所述获取所述站点在更新时段内的水质监测数据是指,对前一采集周期内水质检测数据进行线性回归分析后获取最新采集周期内的水质监测数据,以持续监测水质变化。
S105,当所述更新时段未超过预设时间范围时,根据在先的所述线性回归分析所确定的变量参数的正交单位矩阵更新所述参数估计值,根据更新的所述参数估计值、误差向量和标准误差计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值。
预设时间范围可以根据数据量的大小确定。库克距离的计算需要将所有数据进行回归分析之后能计算出来,对于不断更新的数据,每新增一个数据都要重新做回归分析,会很消耗计算资源,也会减慢水质监测数据分析效率。当所述更新时段未超过预设时间范围时,采用库克距离的近似更新方法对更新时段内的水质监测数据进行计算,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值。通过对水质检测数据的历史数据、实时数据等的合理性、逻辑性、相关性进行分析识别并标记异常值,创建异常数据的捕获模型,对可疑数据自动筛选和预判,使得具备对异常数据的研判分析能力。
库克距离的近似更新方法的计算公式如下公式三所示:
Figure BDA0002919998190000041
其中,hi是指第i个元素的参数估计值,
Figure BDA0002919998190000042
为误差向量的第i个分量,即
Figure BDA0002919998190000043
向量的第i个分量,MSE是指标准误差,
Figure BDA0002919998190000044
MSE可以使用在先的所述线性回归分析所确定的值。hi可以根据在先的所述线性回归分析所确定的变量参数的正交单位矩阵进行更新。将更新时段内的水质监测数据的两个变量参数采用y0、x0表示,更新所述参数估计值的计算如下公式四所示:
Figure BDA0002919998190000045
其中,在先的所述线性回归分析所确定的变量参数的正交单位矩阵为(XTX)-1
当所述更新时段未超过预设时间范围时,采用库克距离的近似更新方法对更新时段内的水质监测数据进行计算。库克距离越大,则样本偏离正常的回归线越远,如可以将大于所有点的库克距离平均值5倍的点标出,作为该回归关系的异常点,同时在原本的时间序列中将异常点标记。通过库克距离进行异常点识别,即可以确保近似准确性,也可以减少计算量,提高数据分析效率。
S106,当所述更新时段超过预设时间范围时,返回所述对所述水质监测数据中变量参数两两间的相关性进行分析,对相关性高于阈值的变量参数组进行线性回归分析的步骤。
当所述更新时段超过预设时间范围时,则对新时段内的水质监测数据重新计算一次回归关系,以确保对数据分析的准确性。对新时段内的水质监测数据重新计算一次回归关系的方式与前述在先的线性回归分析的方式相同,在此不再赘述。预设时间范围可以根据数据量的大小确定,如利用一年的水质监测数据的线性回归分析,更新时段可以设定为一个月、一个季度等,对一个月或一个季度内的水质监测数据采用采用库克距离的近似更新方法进行处理,而对一个月或一个季度之后的水质监测数据则重新采用线性回归分析进行重新计算处理。
上述实施例中,通过采集站点的不同变量参数对应的水质监测数据,对所述水质监测数据中变量参数两两间的相关性进行分析,对相关性高于阈值的变量参数组进行线性回归分析,通过计算不同变量参数样本点的库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值,如此,利用历史数据分析同一站点不同参数之间是否存在关联关系,结合一站一策的管理思路,当数据出现与数理关系差异时,系统将数据筛选出来。其次,获取所述站点在更新时段内的水质监测数据,对于更新时段未超过预设时间范围时,采用库克距离的近似更新方法对更新时段内的水质监测数据进行计算以识别异常点,对于更新时段超过预设时间范围时,则采用线性回归分析进行重新计算分析,可高效识别造成异常数据的真正成因,判别监测数据的真实性,不仅确保分析准确性,而且可以大大减少计算量,提高分析效率。如此,通过对历史数据、实时数据等的合理性、逻辑性、相关性进行分析,创建异常数据捕获模型,对可疑数据自动筛选和预判,使得具备对异常数据的研判分析能力,从而不仅能对单个监测指标提供各种分析机制,还具有多个监测指标组合分析能力。
在一些实施例中,所述对所述水质监测数据中变量参数两两间的相关性进行分析之前,还包括:
根据不同变量参数对应的异常值上限值、异常值下限值,以及设定的变量参数关系对所述水质监测数据进行筛选,得到有效的水质监测数据。
可选的,变量参数可以包括用于表征水质的不同参数,如水温、PH值、溶解氧、电导率、浊度、高锰酸盐指数(CODMn)、氨氮、总磷、总氮、叶绿素α及藻密度等。所述变量参数对应的异常值上限值、异常值下限值可以如下表一所示:
Figure BDA0002919998190000051
Figure BDA0002919998190000061
设定的变量参数关系包括:a)、总氮大于氨氮;b)、化学需氧量大于高锰酸盐指数;c)、化学需氧量大于生化需氧量。
不同变量参数对应的异常值上限值、异常值下限值,以及设定的变量参数关系可以根据人工审核的经验值确定,通过根据不同变量参数对应的异常值上限值、异常值下限值及设定的变量参数关系对所述水质监测数据进行筛选,可以删除部分不参与数理分析的计算,达到减少噪音以提升数理分析的准确性的目的。
在一些实施例中,所述对相关性高于阈值的变量参数组进行线性回归分析,包括:
对相关性高于阈值的变量参数组进行线性回归分析建立一维模型;
根据所述变量参数组中一个变量参数的值形成n维向量y,根据另一变量参数的值形成n*p矩阵X,将所述一维模型的线性参数建立线性参数向量B,根据所述一维模型建立所述向量y、所述矩阵X和所述线性参数向量B之间的换算关系;
根据所述换算关系分别计算所述线性参数向量的参数估计值、误差向量和标准误差。
以相关性高于阈值的变量参数组包括两个变量参数x、y为例,对变量参数组x、y进行线性回归分析建立一维模型如下公式五所示:
yi=a+bxii; (公式五)
a,b分别为线性参数,将变量参数x、y各个时间序列对应的值为样本,其中一个指标记为n维向量y,另一个指标和全为1的向量组成n*p的矩阵X=(1,x),这里p=2,记为线性参数向量B(a,b),ε表示n维误差向量,则上式的矩阵形式为:y=XB+∈。
B的参数估计为:
Figure BDA0002919998190000062
y的参数估计为:
Figure BDA0002919998190000063
记H=X(X′X)-1X′,则上式可记为:
Figure BDA0002919998190000064
参数估计值为矩阵H的第i个对角线元素hi
误差向量ε的参数估计为:
Figure BDA0002919998190000065
其中I为单位矩阵。
标准误差为:
Figure BDA0002919998190000066
上述实施例中,根据上述计算可以画出相应的散点图以及回归直线,通过对相关性高于阈值的变量参数组进行线性回归分析建立一维模型,根据一维模型对获取到的更新时段内的水质监测数据进行实时监测,对可疑数据自动筛选和预判,捕获异常数据,从而实现对水质的智能监测。
在一些实施例中,所述水质监测方法还包括:
根据所述向量y的总方差以及所述误差向量计算可决系数,根据所述可决系数判断所述线性回归分析的回归效果。
可决系数用于判断回归效果,可决系数越大回归效果越好,可决系数用R2表示,可决系数的计算如下公式六所示:
Figure BDA0002919998190000071
向量y的总方差为sst,
Figure BDA0002919998190000072
为误差向量ε的参数估计。
在一些实施例中,所述当所述更新时段未超过预设时间范围时,根据在先的所述线性回归分析所确定的变量参数的正交单位矩阵更新所述参数估计值,根据更新的所述参数估计值、误差向量和标准误差计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值,包括:
当所述更新时段未超过预设时间范围时,根据在先的所述线性回归分析所确定的变量参数的正交单位矩阵(XTX)-1、以及所述更新时段内的变量参数所形成的参数向量计算更新的参数估计值;
根据更新的所述参数估计值、误差向量和标准误差计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值。
库克距离的计算需要将所有数据进行回归分析之后才能计算出来,对于不断更新的水质监测数据,每新增一个数据将需要重新做一个回归分析,这会很消耗计算资源。库克距离的计算需要
Figure BDA0002919998190000073
MSE,hi。原变量参数组的两个变量参数为y和X(向量形式),更新时段内获得的水质监测数据中变量参数分别用y0和x0(此处为行向量形式)表示,利用原数据已经得到了回归关系y=a+bx以及该回归的MSE,则可用原数据得到的回归关系计算
Figure BDA0002919998190000076
Figure BDA0002919998190000077
MSE则使用原回归关系的MSE,以上两个量是近似计算的,而hi可的计算公式可如下公式七所示:
Figure BDA0002919998190000074
只需要之前的回归保存了正交单位矩阵(XTX)-1,则可以大大减小更新的计算量。该库克距离近似方法在使用时要确保
Figure BDA0002919998190000075
和MSE的近似准确性,因此原回归关系使用的数据量越大则更新的准确性也越高,更新一部分样本之后再重新计算一次回归关系,比如之前利用一年的数据计算,更新一个月后再重新做一次回归,即可以减小计算量,又可以确保新数据对回归关系的影响较小,确保数据分析的准确性。
在一些实施例中,还包括:
获取上游站点的不同变量参数对应的水质监测数据;
对当前站点和上游站点间隔不同周期的所述水质监测数据中变量参数两两间的相关性进行分析;
根据所述相关性分析结果,确定上游站点污染发生时间。
上游站点的某一变量参数的时间序列为x=(x1,x2,…),下游站点的相同变量参数的时间序列为y=(y1,y2,…),对当前站点和上游站点间隔不同周期的所述水质监测数据中变量参数两两间的相关性进行分析,以间隔k期为例,可以把站点x的指标序列滞后k期得到x(k)=(na,na,…,x1,x2,…),该时间序列到k+1的位置才出现x1,然后再计算x(k)和y之间的相关系数,计算过程相当于删除掉最开始出现na的那几期样本,通过滞后k期的相关性可以更加精准地发现上游站点的相关污染经过一段时间对下游产生影响。
其中,所述对当前站点和上游站点间隔不同周期的所述水质监测数据中变量参数两两间的相关性进行分析,包括:
根据标记的当前站点的所述异常值的分布状况确定参考时间段,将当前站点的所述参考时间段的水质监测数据与上游站点间隔不同周期的所述水质监测数据进行相关性分析。
对当前站点和上游站点间隔不同周期的所述水质监测数据中变量参数两两间的相关性进行分析,根据所述相关性分析结果,确定上游站点污染发生时间的过程中,若使用全部数据效果不太明显,因此我们将考察时间段放在异常发生的时间段内,通过观察滞后k期的相关性,判断上、下游站点在异常发生时的影响。通过根据标记的异常值的分布状况,以异常值为桩点扩大时间窗,确定参考时间段,采用参考时间段内的数据来计算与其间隔k期的数据之间的相关性,可以提高分析准确性和效率。如,以天为单位,将每个异常时间点向距离最近的月底的时间点近似,这样处理之后,密集的异常时间点都变成了月底的时间,再通过在月底前后各取15天就可以覆盖所有近似到这个月底时间点所有的异常时间了,然后再在异常时间段内进行上述的前后站点相关性分析。
在一些实施例中,还包括:
对相关性低于阈值的变量参数,根据所述变量参数向量中时间序列间隔为n的两个参数的变化量,形成更新的变量参数;
对所述更新的变量参数两两间的相关性进行分析,并返回所述对相关性高于阈值的变量参数组进行线性回归分析的步骤。
在实际数据分析中,可能出现同一站点不同变量参数之间的相关系数较低的情况,然而从实际观感来说变化趋势有一定相关性。对相关性低于阈值的变量参数,根据所述变量参数向量中时间序列间隔为n的两个参数的变化量,形成更新的变量参数,再对更新的变量参数进行相关性分析。其中,根据所述变量参数向量中时间序列间隔为n的两个参数的变化量,形成更新的变量参数,可以是利用一次差分之后的数据进行相关系数的计算,如,两个变量参数分别为(x1,x2,…,xn)和(y1,y2,…,yn),一次差分是指原时间序列间隔为1的两个变量参数的变化量,计算时间序列间隔为1的两个参数的变化量形成的更新的变量参数为(x2-x1,…,xn-xn-1)和(y2-y1,…,yn-yn-1),然后再用新的数据进行后续相关系数的计算以及回归分析。
类似的,还可以利用原时间序列间隔为1的变化率来做后续分析,即新数据为
Figure BDA0002919998190000091
Figure BDA0002919998190000092
进一步的,可以使用原时间序列间隔为k的变化量,即新数据为(xk+1-x1,…,xn-xn-k)和(yk+1-y1,…,yn-yn-k)进行后续相关系数的计算以及回归分析,本实施例中,主要是使用原时间序列间隔为1的变化量来进行后续相关系数的计算以及回归分析。
在一些实施例中,所述水质监测方法还包括:
根据设定时间周期内的水质监测数据的线性回归分析结果,建立各变量参数组的模型,根据模型实时判断最新的水质监测数据是否符合模型特性;
将不符合所述模型特性的数据筛选出来提供给审核人员进行人工审核。
设定时间周期可以是一年、半年、一个季度、一个月、半个月等任意时长的时间周期。根据设定时间周期内的水质监测数据的线性回归分析结果,建立各变量参数组的模型,根据模型实时判断最新的水质监测数据是否符合模型特性,将不符合所述模型特性的数据筛选出来提供给审核人员进行人工审核,如此,通过建立模型各参数指标之间的关联关系,以模型为背景实时判断最新的监测数据是否符合模型的特性,如果不符合,将数据筛选出来并给数据审核人员做参考,可以大大提高监测效率以及准确性。
为了能够对水质监测方法实施例有进一步整体的理解,请参阅图4,为一可选的具体示例提供的水质检测方法,包括如下步骤:
S11,计算同一站点不同指标之间的相关性;其中不同指标是指用于表征水质的不同变量参数,计算相关系数公式为:
Figure BDA0002919998190000093
S12,对于相关性较高的指标,进行回归分析建立一维模型yi=a+bxii
如,一个指标的所有样本为n维向量y,另一个指标x与全为1的向量组成n*p的矩阵,ε表示n维误差向量,可以计算标准误差MSE,画出散点图和回归直线;
S13,通过可决系数R2来判断回归效果,R2越大回归效果越好;可决系数公式为:
Figure BDA0002919998190000094
记样本y的总方差为sst;
S14,计算每个样本点的cook距离,根据cook距离筛选异常点;cook距离公式为:
Figure BDA0002919998190000101
S15,Cook距离在线更新计算,对于更新时段不超出时间范围的数据,利用前次回归计算中得到的(XTX)-1
Figure BDA0002919998190000102
MSE,hi进行更新,对于更新时段超出时间范围内的数据,重新做一个回归分析;
S16,计算同一指标不同站点之间的相关性,以确定上游站点污染发生的时间;其中,根据当前站点标识的异常值确定异常发生的时间段,在异常时间段内进行前后站点相关性分析,提高分析效率和准确性;
S17,对于同一站点不同指标之间相关系数较低的情况,对两指标数据利用一次差分之后再进行相关系数的计算。
本申请实施例所提供的水质监测方法,通过利用历史数据分析同一站点不同参数之间是否存在关联关系,结合一站一策的管理思路,当数据出现与数理关系差异时,系统将数据筛选出来;利用历史数据分析同一站点同一参数是否在合理范围内,以及通过对历史数据、实时数据等的合理性、逻辑性、相关性进行分析,创建异常数据捕获模型,对可疑数据自动筛选和预判,利用历史数据分析上下游同一指标的关联性,如河流上游水质明显好于河流下游水质,可能是下游生产企业增多,污染加重,当数据出现异常违背关系时,系统将数据自动筛选出来,从而可以具备对异常数据的研判分析能力,不仅能对单个监测指标提供各种分析机制,还具有多个监测指标组合分析能力。
本申请实施例另一方面,还提供一种水质监测装置,包括第一获取模块11,用于获取同一站点不同变量参数对应的水质监测数据;分析模块12,用于对所述水质监测数据中变量参数两两间的相关性进行分析,对相关性高于阈值的变量参数组进行线性回归分析;标记模块13,用于根据所述线性回归分析确定的误差向量、标准误差和参数估计值计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值;第二获取模块14,用于获取所述站点在更新时段内的水质监测数据;更新模块15,用于当所述更新时段未超过预设时间范围时,根据在先的所述线性回归分析所确定的变量参数的正交单位矩阵更新所述参数估计值,根据更新的所述参数估计值、误差向量和标准误差计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值;循环模块16,用于当所述更新时段超过预设时间范围时,返回所述对所述水质监测数据中变量参数两两间的相关性进行分析,对相关性高于阈值的变量参数组进行线性回归分析的步骤。
其中,所述水质监测装置还包括筛选模块,用于根据不同变量参数对应的异常值上限值、异常值下限值,以及设定的变量参数关系对所述水质监测数据进行筛选,得到有效的水质监测数据。
其中,所述分析模块,具体用于对相关性高于阈值的变量参数组进行线性回归分析建立一维模型;根据所述变量参数组中一个变量参数的值形成n维向量y,根据另一变量参数的值形成n*p矩阵X,将所述一维模型的线性参数建立线性参数向量B,根据所述一维模型建立所述向量y、所述矩阵X和所述线性参数向量B之间的换算关系;根据所述换算关系分别计算所述线性参数向量的参数估计值、误差向量和标准误差。
其中,所述水质监测装置还包括判断模块,用于根据所述向量y的总方差以及所述误差向量计算可决系数,根据所述可决系数判断所述线性回归分析的回归效果。
其中,所述标记模块,还用于当所述更新时段未超过预设时间范围时,根据在先的所述线性回归分析所确定的变量参数的正交单位矩阵(XTX)-1、以及所述更新时段内的变量参数所形成的参数向量计算更新的参数估计值;根据更新的所述参数估计值、误差向量和标准误差计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值。
其中,所述水质监测装置还包括关联模块,用于获取上游站点的不同变量参数对应的水质监测数据;对当前站点和上游站点间隔不同周期的所述水质监测数据中变量参数两两间的相关性进行分析;根据所述相关性分析结果,确定上游站点污染发生时间。
其中,所述关联模块,具体用于根据标记的当前站点的所述异常值的分布状况确定参考时间段,将当前站点的所述参考时间段的水质监测数据与上游站点间隔不同周期的所述水质监测数据进行相关性分析。
其中,所述分析模块,还用于对相关性低于阈值的变量参数,根据所述变量参数向量中时间序列间隔为n的两个参数的变化量,形成更新的变量参数;对所述更新的变量参数两两间的相关性进行分析,并返回所述对相关性高于阈值的变量参数组进行线性回归分析的步骤。
其中,所述水质监测装置还包括发送模块,用于根据设定时间周期内的水质监测数据的线性回归分析结果,建立各变量参数组的模型,根据模型实时判断最新的水质监测数据是否符合模型特性;将不符合所述模型特性的数据筛选出来提供给审核人员进行人工审核。
需要说明的是:上述实施例提供的水质监测装置在水质监测过程中,仅以上述各程序模块的划分进行举例说明,在实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即可将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分方法步骤。另外,上述实施例提供的水质监测装置与水质监测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参阅图6,本申请实施例另一方面,还提供一种水质监测设备,包括处理器51及存储器52,所述存储器52内存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器51执行时实现本申请任一实施例提供的水质监测方法的步骤。
本领域普通技术人员可以理解的,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以所述权利要求的保护范围以准。

Claims (10)

1.一种水质监测方法,其特征在于,包括:
获取同一站点不同变量参数对应的水质监测数据;
对所述水质监测数据中变量参数两两间的相关性进行分析,对相关性高于阈值的变量参数组进行线性回归分析;
根据所述线性回归分析确定的误差向量、标准误差和参数估计值计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值;
获取所述站点在更新时段内的水质监测数据;
当所述更新时段未超过预设时间范围时,根据在先的所述线性回归分析所确定的变量参数的正交单位矩阵更新所述参数估计值,根据更新的所述参数估计值、误差向量和标准误差计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值;
当所述更新时段超过预设时间范围时,返回所述对所述水质监测数据中变量参数两两间的相关性进行分析,对相关性高于阈值的变量参数组进行线性回归分析的步骤。
2.如权利要求1所述的水质监测方法,其特征在于,所述对所述水质监测数据中变量参数两两间的相关性进行分析之前,还包括:
根据不同变量参数对应的异常值上限值、异常值下限值,以及设定的变量参数关系对所述水质监测数据进行筛选,得到有效的水质监测数据。
3.如权利要求1所述的水质监测方法,其特征在于,所述对相关性高于阈值的变量参数组进行线性回归分析,包括:
对相关性高于阈值的变量参数组进行线性回归分析建立一维模型;
根据所述变量参数组中一个变量参数的值形成n维向量y,根据另一变量参数的值形成n*p矩阵X,将所述一维模型的线性参数建立线性参数向量B,根据所述一维模型建立所述向量y、所述矩阵X和所述线性参数向量B之间的换算关系;
根据所述换算关系分别计算所述线性参数向量的参数估计值、误差向量和标准误差。
4.如权利要求3所述的水质监测方法,其特征在于,还包括:
根据所述向量y的总方差以及所述误差向量计算可决系数,根据所述可决系数判断所述线性回归分析的回归效果。
5.如权利要求3所述的水质监测方法,其特征在于,所述当所述更新时段未超过预设时间范围时,根据在先的所述线性回归分析所确定的变量参数的正交单位矩阵更新所述参数估计值,根据更新的所述参数估计值、误差向量和标准误差计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值,包括:
当所述更新时段未超过预设时间范围时,根据在先的所述线性回归分析所确定的变量参数的正交单位矩阵(XTX)-1、以及所述更新时段内的变量参数所形成的参数向量计算更新的参数估计值;
根据更新的所述参数估计值、误差向量和标准误差计算库克距离,通过库克距离进行异常点识别,将库克距离大于阈值的异常点标记为异常值。
6.如权利要求1所述的水质监测方法,其特征在于,还包括:
获取上游站点的不同变量参数对应的水质监测数据;
对当前站点和上游站点间隔不同周期的所述水质监测数据中变量参数两两间的相关性进行分析;
根据所述相关性分析结果,确定上游站点污染发生时间。
7.如权利要求6所述的水质监测方法,其特征在于,所述对当前站点和上游站点间隔不同周期的所述水质监测数据中变量参数两两间的相关性进行分析,包括:
根据标记的当前站点的所述异常值的分布状况确定参考时间段,将当前站点的所述参考时间段的水质监测数据与上游站点间隔不同周期的所述水质监测数据进行相关性分析。
8.如权利要求1所述的水质监测方法,其特征在于,还包括:
对相关性低于阈值的变量参数,根据所述变量参数向量中时间序列间隔为n的两个参数的变化量,形成更新的变量参数;
对所述更新的变量参数两两间的相关性进行分析,并返回所述对相关性高于阈值的变量参数组进行线性回归分析的步骤。
9.如权利要求1所述的水质监测方法,其特征在于,还包括:
根据设定时间周期内的水质监测数据的线性回归分析结果,建立各变量参数组的模型,根据模型实时判断最新的水质监测数据是否符合模型特性;
将不符合所述模型特性的数据筛选出来提供给审核人员进行人工审核。
10.一种水质监测设备,其特征在于,包括处理器及存储器,所述存储器内存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述水质监测方法。
CN202110113745.9A 2021-01-27 2021-01-27 水质监测方法及设备 Pending CN114817851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110113745.9A CN114817851A (zh) 2021-01-27 2021-01-27 水质监测方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110113745.9A CN114817851A (zh) 2021-01-27 2021-01-27 水质监测方法及设备

Publications (1)

Publication Number Publication Date
CN114817851A true CN114817851A (zh) 2022-07-29

Family

ID=82524645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110113745.9A Pending CN114817851A (zh) 2021-01-27 2021-01-27 水质监测方法及设备

Country Status (1)

Country Link
CN (1) CN114817851A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236902A (zh) * 2023-11-08 2023-12-15 北京英视睿达科技股份有限公司 一种基于边缘计算的水质监测的上报方法及系统
CN117309067A (zh) * 2023-11-30 2023-12-29 长春职业技术学院 水资源实时监控方法、系统和电子设备
CN117609792A (zh) * 2024-01-18 2024-02-27 北京英视睿达科技股份有限公司 一种水质预测模型训练方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236902A (zh) * 2023-11-08 2023-12-15 北京英视睿达科技股份有限公司 一种基于边缘计算的水质监测的上报方法及系统
CN117236902B (zh) * 2023-11-08 2024-04-12 北京英视睿达科技股份有限公司 一种基于边缘计算的水质监测的上报方法及系统
CN117309067A (zh) * 2023-11-30 2023-12-29 长春职业技术学院 水资源实时监控方法、系统和电子设备
CN117309067B (zh) * 2023-11-30 2024-02-09 长春职业技术学院 水资源实时监控方法、系统和电子设备
CN117609792A (zh) * 2024-01-18 2024-02-27 北京英视睿达科技股份有限公司 一种水质预测模型训练方法
CN117609792B (zh) * 2024-01-18 2024-06-11 北京英视睿达科技股份有限公司 一种水质预测模型训练方法

Similar Documents

Publication Publication Date Title
CN114818238A (zh) 水质监测数据分析方法及装置、设备、存储介质
CN114817851A (zh) 水质监测方法及设备
US10650914B2 (en) Fresh water acute criteria prediction method based on quantitative structure-activity relationship for metals
Li et al. Concentration estimation of dissolved oxygen in Pearl River Basin using input variable selection and machine learning techniques
CN112132333A (zh) 一种基于深度学习的短期水质水量预测方法及系统
Carboni et al. Measuring ecological specialization along a natural stress gradient using a set of complementary niche breadth indices
CN112529234A (zh) 基于深度学习的地表水质预测方法
CN111160776A (zh) 利用分块主成分分析的污水处理过程异常工况检测方法
CN115048475A (zh) 一种基于大数据的快速水污染溯源方法以及系统
Boyacioglu et al. Application of factor analysis in the assessment of surface water quality in Buyuk Menderes River Basin
CN106952077B (zh) 一种工单处理策略的生成方法及装置
CN116362394A (zh) 一种海洋藻类生长污染协整预测方法及系统
Gocheva-Ilieva et al. Assaying SARIMA and generalised regularised regression for particulate matter PM10 modelling and forecasting
CN108763673B (zh) 基于lasso回归的土地利用变化驱动力筛选方法和装置
CN112288309A (zh) 一种水质调控系统、方法、装置、计算机设备和存储介质
CN115936192A (zh) 一种土壤环境污染物风险预测方法及系统
Sengul et al. Prediction of optimal coagulant dosage in drinking water treatment by artificial neural network
CN114862249A (zh) 一种基于关键景观指标的流域面源污染防控方法及系统
Qian et al. A new nonlinear risk assessment model based on an improved projection pursuit
Kern et al. COD and NH 4-N estimation in the inflow of Wastewater Treatment Plants using Machine Learning Techniques
CN114741972A (zh) 一种空气污染物浓度季节性预测模型的构建方法
Jain et al. Training machine learning models to characterize temporal evolution of disadvantaged communities
Seshan et al. LSTM-based autoencoder models for real-time quality control of wastewater treatment sensor data
CN116307383B (zh) 一种基于生态平衡的土地精细化保育改良方法及系统
GIOVANARDI et al. Coastal waters monitoring data: frequency distributions of the principal water quality variables

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination