CN112733904B - 一种水质异常检测方法及电子设备 - Google Patents
一种水质异常检测方法及电子设备 Download PDFInfo
- Publication number
- CN112733904B CN112733904B CN202011626167.0A CN202011626167A CN112733904B CN 112733904 B CN112733904 B CN 112733904B CN 202011626167 A CN202011626167 A CN 202011626167A CN 112733904 B CN112733904 B CN 112733904B
- Authority
- CN
- China
- Prior art keywords
- water quality
- outlier
- data
- data set
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 175
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 238000003491 array Methods 0.000 claims abstract description 45
- 230000002159 abnormal effect Effects 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000013450 outlier detection Methods 0.000 claims abstract description 18
- 230000005856 abnormality Effects 0.000 claims description 10
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 10
- 229910052760 oxygen Inorganic materials 0.000 claims description 10
- 239000001301 oxygen Substances 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 5
- XKMRRTOUMJRJIA-UHFFFAOYSA-N ammonia nh3 Chemical compound N.N XKMRRTOUMJRJIA-UHFFFAOYSA-N 0.000 claims description 5
- 229910052698 phosphorus Inorganic materials 0.000 claims description 5
- 239000011574 phosphorus Substances 0.000 claims description 5
- 101100006960 Caenorhabditis elegans let-2 gene Proteins 0.000 claims description 3
- 238000003860 storage Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000010865 sewage Substances 0.000 description 2
- 230000003749 cleanliness Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 229910001385 heavy metal Inorganic materials 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01K—MEASURING TEMPERATURE; MEASURING QUANTITY OF HEAT; THERMALLY-SENSITIVE ELEMENTS NOT OTHERWISE PROVIDED FOR
- G01K13/00—Thermometers specially adapted for specific purposes
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/18—Water
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/18—Water
- G01N33/1806—Biological oxygen demand [BOD] or chemical oxygen demand [COD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Analytical Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Evolutionary Computation (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Emergency Medicine (AREA)
- Molecular Biology (AREA)
- Examining Or Testing Airtightness (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种水质异常检测方法及电子设备,所述方法包括:计算水质数据集中所有水质数组与基准点的距离值,将所有距离值构成一维数据集;求一维数据集的每个对象的k最近邻,确定预阈值,另外,将有序的水质数据集划分为多个数据块,将预阈值作为离群度阈值,依次对每个数据块进行离群检测,将离群度阈值更新为已检测的数据块的第N大的离群度,将更新的离群度阈值作为下一个数据块进行离群检测的判断标准。在不需要预先知道部分水质异常点,也无须计算全局离群度的情况下,提高了离群检测速度,并且保证水质异常检测结果与传统基于距离的离群检测算法一致。
Description
技术领域
本发明涉及水质检测技术领域,尤其涉及一种水质异常检测方法及电子设备。
背景技术
水对于水生生物、人类生活和工业生产至关重要。水体的洁净程度和各种化学成分含量,是确定水源用途和环保工作的重要依据。尤其是水体环保工作,环保资源的有限性决定了治理污水必须有的放矢,针对部分区域重点治理,而非广撒网。水质监测分析涉及化学需氧量COD、氨氮、总磷、溶解氧等及多种重金属含量指标,而不同的水质监测分析仪器囊括的指标并不完全相同。在通过仪器测定这些指标的数值之后,再分析和排序,根据排序靠前的水质样本,结合所在区域情况,确定重点治理水域。
在现有的水质异常检测方法中,广泛应用的是为水质监测分析仪器涉及的各项水质指标设定异常阈值,超过该阈值则视为该指标异常,下文称该方法为指标阈值法。在申请号为201910560024.5的发明专利“一种基于先验知识的异常水质检测方法及系统”中,应用了基于距离的离群检测算法,实现了对于不同监测分析仪器数据均能作水质的异常检测,且为加速离群检测过程,其利用了先验的水质异常点,提高离群度阈值,以提高检测速度,下文称该法为先验阈值法。
指标阈值法的缺陷在于需要领域专家知识,为之设定各个指标的异常阈值,且因同时使用多个水质指标,更难以判断哪些水质样本为异常,以及异常程度的排序。先验阈值法属于基于距离的离群检测算法,不需要领域专家知识,即可自动给出最异常的N个水质样本,但其加速效果依赖于预先知道的异常水质样本(先验样本),如果预先知道的异常样本数量过少,或者没有这些异常样本,检测的加速效果将大打折扣,甚至没能加速。此外,即使先验样本数量足够,为了获得先验阈值,仍然需要基于全局数据集检测其离群度。
发明内容
本发明提供一种水质异常检测方法及电子设备,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
第一方面,本发明实施例提供了一种水质异常检测方法,包括:
S101、获取多个水质数组,组成水质数据集,每个水质数组的维度相同,包括至少一个水质数据;
S102、在水质数据集中随机选择一个水质数组作为基准点;
S103、计算水质数据集中所有水质数组与基准点的距离值,将所有距离值构成一维数据集;
S104、对一维数据集的所有距离值进行降序排序得到有序的一维数据集,根据所述降序排序的顺序对水质数据集的所有水质数组进行排序得到有序的水质数据集,
S105、确定有序的一维数据集的每个对象的k最近邻,1≤k≤D*1%,其中D为水质数据集中水质数组的数量;
S106、计算有序的一维数据集的每个对象与其第k最近邻的距离值得到每个对象的离群度,一维数据集的所有对象的离群度构成一维离群度,根据一维离群度中每个离群度的大小,按从大到小的顺序选取最大N个离群度,并将第N大的离群度作为预阈值,其中第k最近邻为k最近邻中的第k个;
S107、将有序的水质数据集划分为多个数据块,将预阈值作为离群度阈值,依次对每个数据块进行离群检测,根据离群度阈值确定已检测的数据块的最大N个离群度,将离群度阈值更新为已检测的数据块的第N大的离群度,将更新的离群度阈值作为下一个数据块进行离群检测的判断标准,直至所有数据块检测完毕,所有数据块的最大N个离群度对应的水质数组作为异常的N个水质数组。
进一步,步骤S105中确定有序的一维数据集的每个对象的k最近邻包括:
假设有序的一维数据集的任一对象记为O,对象O的前面存在k1个对象,对象O的后面存在k2个对象,其中k1≥0,k2≥0;
当k1≥k,往前搜索k个对象,当k1<k时,往前搜索k1个对象;
当k2≥k,往后搜索k个对象,当k2<k时,往后搜索k2个对象;
计算对象O与所有搜索的对象的距离,根据距离的大小将搜索到的对象按从小到大排序,距离排名前k的对象为对象O的k最近邻。
进一步,步骤S107具体为:
S201、将有序的水质数据集划分为B个数据块,每个数据块包括M个水质数组,离群度阈值=预阈值;
S202、设t=1,t表示第t个数据块;
S203、判断t是否为1,若是,执行步骤S205,若否,执行步骤S204;
S204、判断是否d0+基准点的离群度<离群度阈值,其中d0为第t个数据块中的第1个水质数组与基准点的距离,若是,执行步骤S215,若否执行S205;
S205、从有序的水质数据集的第t个数据块的中位对象起,按螺旋顺序确定按螺旋顺序排序的水质数据集,xj表示按螺旋顺序排序的水质数据集的水质数据组,j=1;
S206、设m=1,m表示水质数组在初始第t个数据块中的位置编号,Xm表示编号为m的水质数组;
S207、判断Xm是否已被移除,若是,则执行步骤S211,若否,则执行步骤S208;
S208、计算Xm与xj的距离;
S209、判断是否j<k,若是,则执行步骤S211,若否,更新Xm的临时k最近邻,更新Xm的临时离群度为Xm与临时k最近邻中的第k最近邻的距离,执行步骤S210;
S210、判断Xm的临时离群度是否低于离群度阈值;若判断结果为是,则将Xm从第t个数据块中移除,执行步骤S211;若判断结果为否,执行步骤S211;
S211、判断m是否小于M,若是,m=m+1,执行步骤S207,若否,执行步骤S212;
S212、判断j是否小于D,若是,则j=j+1,执行步骤S206;若否,执行步骤S213;
S213、当t=1时,确定第t个数据块中的最大的N个离群度,取第N大的离群度作为离群度阈值,执行步骤S214;当t>1时,确定第1至(t-1)个数据块中的最大N个离群度,从第1至(t-1)个数据块中的最大N个离群度和第t个数据块中的最大N个离群度中确定第1至t个数据块中的最大N个离群度,离群度阈值=第1至t个数据块中的第N大离群度,执行步骤S214;
S214、判断t是否小于B,若是,t=t+1,执行步骤S204,若否,执行步骤S215;
S215、当前已检测的所有数据块的最大N个离群度对应的N个水质数组作为异常的N个水质数据组。
进一步,采用计算两个水质数组的距离的方法计算所有数组与基准点的距离,所述计算两个水质数组的距离的方法包括:
假设2个水质数组分别为x1与x2,分别用n维变量表示,x1=(x11,x12,…,x1n),x2=(x21,x22,…,x2n),则两个x1与x2的距离为:
其中,x11,x12,…,x1n表示水质数组x1的不同物理量作归一化处理后的数据,x21,x22,…,x2n表示水质数组x2的不同物理量作归一化处理后的数据,dist(x1,x2)表示水质数组x1与x2的距离。
进一步,n大于等于1,每个水质数组包括化学需氧量数据、氨氮数据、总磷数据、溶解氧数据中的至少一个。
第二方面,本发明实施例还提供了一种电子设备,包括:
处理器;
存储器,用于存储计算机可读程序;
当所述计算机可读程序被所述处理器执行时,使得所述处理器实现如权利要求1-5任一项所述的方法。
本发明实施例的一种,至少具有以下有益效果:计算水质数据集中所有水质数组与基准点的距离值,将所有距离值构成一维数据集;求一维数据集的每个对象的k最近邻,确定预阈值,另外,将有序的水质数据集划分为多个数据块,将预阈值作为离群度阈值,依次对每个数据块进行离群检测,将离群度阈值更新为已检测的数据块的第N大的离群度,将更新的离群度阈值作为下一个数据块进行离群检测的判断标准。在不需要预先知道部分水质异常点,也无须计算全局离群度的情况下,提高了离群检测速度,并且保证水质异常检测结果与传统基于距离的离群检测算法一致。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明实施例提供的一种水质异常检测方法的流程图。
图2是本发明实施例提供的一种对水质数据集进行水质异常检测的方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本实施例中的术语介绍:
数据块:离群检测的一个单位,由数据集中的若干对象组成,例如常用1000个对象作为一个数据块。
k最近邻:指对象A与数据集所有对象计算距离,距离值最小的k个对应的对象为A的最近邻。
临时k最近邻:指对象A与数据集的部分对象计算距离,距离值最小的k个对应的对象为A的临时k最近邻。
第k最近邻:指对象A与它的k最近邻的k个距离值中,距离值按从小到大排序,排名第k的距离值对应的对象为对象A的第k最近邻。
临时第k最近邻,指对象A与它的临时k最近邻的k个距离值中,距离值按从小到大排序,排名第k的距离值对应的对象为对象A的临时第k最近邻。
对象A的离群度:指对象A与它的第k最近邻的距离值。
对象A的临时离群度:指对象A与它的临时第k最近邻的距离值。
螺旋顺序:假如有一个索引序列1、2、3、4、5、6、7、8、9、10,如果以5为起点,它的螺旋顺序就是5、4、6、3、7、2、8……,或者5、6、4、7、3、8、2……,就是一前一后、依次类推的意思。
图1是本发明实施例提供的一种水质异常检测方法,包括:
S101、获取多个水质数组,组成水质数据集,每个水质数组的维度相同,包括至少一个水质数据;
每个水质数组为多维数据,包括至少一个水质数据,每个水质数组包括化学需氧量数据、氨氮数据、总磷数据、溶解氧数据、温度数据、浊度数据、PH值等中的至少一个。本领域技术人员可以根据实际需要选取不同物理量的水质数据。
S102、在水质数据集中随机选择一个水质数组作为基准点;
S103、计算水质数据集中所有水质数组与基准点的距离值,将所有距离值构成一维数据集;
具体地,采用欧式距离计算距离。计算两个水质数组的距离的方法为:
假设2个水质数组分别为x1与x2,分别用n维变量表示,x1=(x11,x12,…,x1n),x2=(x21,x22,…,x2n),则两个x1与x2的距离为:
其中,x11,x12,…,x1n表示水质数组x1的不同物理量作归一化处理后的数据,x21,x22,…,x2n表示水质数组x2的不同物理量作归一化处理后的数据,dist(x1,x2)表示水质数组x1与x2的距离。
n根据实际情况确定,例如,n=4,水质数组包括化学需氧量数据、氨氮数据、总磷数据、溶解氧数据。
S104、对一维数据集的所有距离值进行降序排序得到有序的一维数据集,根据所述降序排序的顺序对水质数据集的所有水质数组进行排序得到有序的水质数据集;
S105、确定有序的一维数据集的每个对象的k最近邻,1≤k≤D*1%,其中D为水质数据集中水质数组的数量;
D为水质数组的数量,D的值一般比较大,可以是几万以上。
确定数据集的每个对象的k最近邻包括:
假设有序的一维数据集的每个对象的有序的一维数据集的任一对象记为O,对象O的前面存在k1个对象,对象O的后面存在k2个对象,其中k1≥0,k2≥0;
当k1≥k,往前搜索k个对象,当k1<k时,往前搜索k1个对象;
当k2≥k,往后搜索k个对象,当k2<k时,往后搜索k2个对象;
计算对象O与所有搜索的对象的距离,根据距离的大小将搜索到的对象按从小到大排序,距离排名前k的对象为对象O的k最近邻。
由于有序的一维数据集是按照顺序排序的,因此在确定对象O的k最近邻时只需要计算对象O前后的k个对象的距离,不需要计算对象O与所有对象的距离,减少计算时间。
S106、计算有序的一维数据集的每个对象与其第k最近邻的距离值得到每个对象的离群度,一维数据集的所有对象的离群度构成一维离群度,根据一维离群度中每个离群度的大小,按从大到小的顺序选取最大N个离群度,并将第N大的离群度作为预阈值,其中第k最近邻为k最近邻中的第k个;
通过根据数据集来自行设置预阈值保证检测结果的准确性,原理如下:由于距离的三角不等性,数据集里每个对象与基准点计算距离,从而映射至一维空间之后,对象两两之间的距离(称为一维空间距离)小于或等于它们的实际距离(多维空间距离);进而,在一维空间为对象sa搜索k最近邻,那么这k个最近邻与sa的一维空间距离全都小于或等于多维空间距离,进一步可推导出sa的一维离群度小于或等于多维离群度,由sa的一般性可知所有对象的一维离群度都小于它们的多维离群度;取一维离群度最大的N个对象,其中最小的一维离群度(即第N大)作为预阈值Tb,同理可证Tb小于或等于多维离群度阈值;多维离群度阈值,即为拟检测的第N大水质异常点的离群度,小于或等于该值的预阈值Tb来排除非离群点,显然不会造成误排除,从而保证检测结果的正确性。
S107、将有序的水质数据集划分为多个数据块,将预阈值作为离群度阈值,依次对每个数据块进行离群检测,根据离群度阈值确定已检测的数据块的最大N个离群度,将离群度阈值更新为已检测的数据块的第N大的离群度,将更新的离群度阈值作为下一个数据块进行离群检测的判断标准,直至所有数据块检测完毕,所有数据块的最大N个离群度对应的水质数组作为异常的N个水质数组。
如图2所示,步骤S107具体为:
S201、将有序的水质数据集划分为B个数据块,每个数据块包括M个水质数组,离群度阈值=预阈值;
S202、设t=1,t表示第t个数据块;
S203、判断t是否为1,若是,执行步骤S205,若否,执行步骤S204;
S204、判断是否d0+基准点的离群度<离群度阈值,其中d0为第t个数据块中的第1个水质数组与基准点的距离,若是,执行步骤S215,若否执行S205;
具体第,第t个数据块中的第1个水质数组与基准点的距离、基准点的离群度由步骤S103计算并保存。
数据块中的水质数组是按顺序排列的,当t大于等于2时,只要数据块中的第一个水质数组满足终止规则,即满足d0+基准点的离群度<离群度阈值,则说明第一个水质数组不是离群点,这个数据块中的其他水质数组和其他数据块也不是离群点,整个数据集都不用检测。先通过第一个水质数组进行判断,当确定满足终止规则时,停止检测输出检测结果,大大缩短检测时间。
S205、从有序的水质数据集的第t个数据块的中位对象起,按螺旋顺序确定按螺旋顺序排序的水质数据集,xj表示按螺旋顺序排序的水质数据集的水质数据组,j=1;
有序的水质数据集是按顺序排列的,距离近的对象,排序的时候也排得近,所以以数据块中位的对象,例如数据块是1000个对象,则可取第500个或501个对象为中位对象开始,螺旋式(交替搜索其前面和后面)搜索k最近邻,则可以更快搜索到k最近邻,减少搜索时间。
S206、设m=1,m表示水质数组在初始第t个数据块中的位置编号,Xm表示编号为m的水质数组;
在此步骤中,当第一次确定了数据块中的水质数组的编号m后,保持其编号不变,即使后续删除了水质数组,其编号也保持不变。例如数据块为[X1,…,Xm-1,Xm,Xm+1,…,XM],在执行步骤210后删除了Xm,则数据块更新为[X1,…,Xm-1,Xm+1,…,XM],但位置编号依然为初始数据块中的编号。
S207、判断Xm是否已被移除,若是,则执行步骤S211,若否,则执行步骤S208;
在执行过程会对非离群点进行删除,由于m采用初始数据块的位置编号,因此,需要判断在位置编号m的水质是否被移除,当被移除时,对下一个位置的水质数组进行处理。
S208、计算Xm与xj的距离;
采用欧式距离计算两个水质数组的距离。
S209、判断是否j<k,若是,则执行步骤S211,若否,更新Xm的临时k最近邻,更新Xm的临时离群度为Xm与临时第k最近邻的距离,执行步骤S210;
当j<k时,说明距离值的数量还未达到k,则不进行临时离群度的计算。
S210、判断Xm的临时离群度是否低于离群度阈值;若判断结果为是,则将Xm从第t个数据块中移除,执行步骤S211;若判断结果为否,执行步骤S211;
因为Xm与数据集所有对象计算距离是逐个计算的,期间Xm与其临时的第k最近邻的距离值是逐渐变小或不变的(因为往后更新k最近邻也是取k个最小,不可能取更大的值),即临时离群度不可能变大,只可能不变或变小,而如果临时离群度小于离群度阈值,则确定不是离群点。因此一旦发现临时离群度小于离群度阈值,则可以直接作为非离群点排除,不需要继续搜索其k最近邻。不需要计算所有对象的距离再进行判断,加快了检测速度,减少检测时间,并且,由于数据块的水质数组被移除,因此,数据块的水质数组越来越少,减少计算量,加快检测速度。
S211、判断m是否小于M,若是,m=m+1,执行步骤S207,若否,执行步骤S212;
当数据块中的水质数组未检测完,则继续下一个水质数组进行处理。
S212、判断j是否小于D,若是,则j=j+1,执行步骤S206;若否,执行步骤S213;
S213、当t=1时,确定第t个数据块中的最大的N个离群度,取第N大的离群度作为离群度阈值,执行步骤S214;当t>1时,确定第1至(t-1)个数据块中的最大N个离群度,从第1至(t-1)个数据块中的最大N个离群度和第t个数据块中的最大N个离群度中确定第1至t个数据块中的最大N个离群度,离群度阈值=第1至t个数据块中的第N大离群度,执行步骤S214;
具体地,当t=1时,直接将第1个数据块中的第N大的离群度作为新的离群度阈值。当t>1时,则从第1至(t-1)个数据块中的最大N个离群度和第t个数据块中的最大N个离群度中取最大的N个离群度作为第1至t个数据块中的最大N个离群度,将第1至t个数据块中的第N大离群度作为新的离群度阈值。
S214、判断t是否小于B,若是,t=t+1,执行步骤S204,若否,执行步骤S215;
当还有数据块未检测时,继续检测下一个数据块。
S215、当前已检测的所有数据块的最大N个离群度对应的N个水质数组作为异常的N个水质数据组。
本发明还提供了一种电子设备,包括:
处理器;
存储器,用于存储计算机可读程序;
当所述计算机可读程序被所述处理器执行时,使得所述处理器实现如上述实施例的控制方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
Claims (6)
1.一种水质异常检测方法,其特征在于,包括:
S101、获取多个水质数组,组成水质数据集,每个水质数组的维度相同,包括至少一个水质数据;
S102、在水质数据集中随机选择一个水质数组作为基准点;
S103、计算水质数据集中所有水质数组与基准点的距离值,将所有距离值构成一维数据集;
S104、对一维数据集的所有距离值进行降序排序得到有序的一维数据集,根据所述降序排序的顺序对水质数据集的所有水质数组进行排序得到有序的水质数据集,
S105、确定有序的一维数据集的每个对象的k最近邻,1≤k≤D*1%,其中D为水质数据集中水质数组的数量;
S106、计算有序的一维数据集的每个对象与其第k最近邻的距离值得到每个对象的离群度,一维数据集的所有对象的离群度构成一维离群度,根据一维离群度中每个离群度的大小,按从大到小的顺序选取最大N个离群度,并将第N大的离群度作为预阈值,其中第k最近邻为k最近邻中的第k个;
S107、将有序的水质数据集划分为多个数据块,将预阈值作为离群度阈值,依次对每个数据块进行离群检测,根据离群度阈值确定已检测的数据块的最大N个离群度,将离群度阈值更新为已检测的数据块的第N大的离群度,将更新的离群度阈值作为下一个数据块进行离群检测的判断标准,直至所有数据块检测完毕,所有数据块的最大N个离群度对应的水质数组作为异常的N个水质数组。
2.根据权利要求1所述的水质异常检测方法,其特征在于,步骤S105中确定有序的一维数据集的每个对象的k最近邻包括:
假设有序的一维数据集的任一对象记为O,对象O的前面存在k1个对象,对象O的后面存在k2个对象,其中k1≥0,k2≥0;
当k1≥k,往前搜索k个对象,当k1<k时,往前搜索k1个对象;
当k2≥k,往后搜索k个对象,当k2<k时,往后搜索k2个对象;
计算对象O与所有搜索的对象的距离,根据距离的大小将搜索到的对象按从小到大排序,距离排名前k的对象为对象O的k最近邻。
3.根据权利要求1所述的水质异常检测方法,其特征在于,步骤S107具体为:
S201、将有序的水质数据集划分为B个数据块,每个数据块包括M个水质数组,离群度阈值=预阈值;
S202、设t=1,t表示第t个数据块;
S203、判断t是否为1,若是,执行步骤S205,若否,执行步骤S204;
S204、判断是否d0+基准点的离群度<离群度阈值,其中d0为第t个数据块中的第1个水质数组与基准点的距离,若是,执行步骤S215,若否执行S205;
S205、从有序的水质数据集的第t个数据块的中位对象起,按螺旋顺序确定按螺旋顺序排序的水质数据集,xj表示按螺旋顺序排序的水质数据集的水质数据组,j=1;
S206、设m=1,m表示水质数组在初始第t个数据块中的位置编号,Xm表示编号为m的水质数组;
S207、判断Xm是否已被移除,若是,则执行步骤S211,若否,则执行步骤S208;
S208、计算Xm与xj的距离;
S209、判断是否j<k,若是,则执行步骤S211,若否,更新Xm的临时k最近邻,更新Xm的临时离群度为Xm与临时k最近邻中的第k最近邻的距离,执行步骤S210;
S210、判断Xm的临时离群度是否低于离群度阈值;若判断结果为是,则将Xm从第t个数据块中移除,执行步骤S211;若判断结果为否,执行步骤S211;
S211、判断m是否小于M,若是,m=m+1,执行步骤S207,若否,执行步骤S212;
S212、判断j是否小于D,若是,则j=j+1,执行步骤S206;若否,执行步骤S213;
S213、当t=1时,确定第t个数据块中的最大的N个离群度,取第N大的离群度作为离群度阈值,执行步骤S214;当t>1时,确定第1至(t-1)个数据块中的最大N个离群度,从第1至(t-1)个数据块中的最大N个离群度和第t个数据块中的最大N个离群度中确定第1至t个数据块中的最大N个离群度,离群度阈值=第1至t个数据块中的第N大离群度,执行步骤S214;
S214、判断t是否小于B,若是,t=t+1,执行步骤S204,若否,执行步骤S215;
S215、当前已检测的所有数据块的最大N个离群度对应的N个水质数组作为异常的N个水质数据组。
5.根据权利要求4所述的水质异常检测方法,其特征在于,n大于等于1,每个水质数组包括化学需氧量数据、氨氮数据、总磷数据、溶解氧数据中的至少一个。
6.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储计算机可读程序;
当所述计算机可读程序被所述处理器执行时,使得所述处理器实现如权利要求1-5任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011626167.0A CN112733904B (zh) | 2020-12-30 | 2020-12-30 | 一种水质异常检测方法及电子设备 |
PCT/CN2021/075420 WO2022141746A1 (zh) | 2020-12-30 | 2021-02-05 | 一种水质异常检测方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011626167.0A CN112733904B (zh) | 2020-12-30 | 2020-12-30 | 一种水质异常检测方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733904A CN112733904A (zh) | 2021-04-30 |
CN112733904B true CN112733904B (zh) | 2022-03-25 |
Family
ID=75609827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011626167.0A Active CN112733904B (zh) | 2020-12-30 | 2020-12-30 | 一种水质异常检测方法及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112733904B (zh) |
WO (1) | WO2022141746A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114935697B (zh) * | 2022-07-25 | 2022-12-30 | 广东电网有限责任公司佛山供电局 | 一种三相负荷不平衡识别方法、系统、设备和介质 |
CN116308952B (zh) * | 2023-03-08 | 2023-09-22 | 浪潮智慧科技有限公司 | 一种基于无人船的水质监测方法及设备 |
CN117171685B (zh) * | 2023-09-01 | 2024-02-09 | 武汉中核仪表有限公司 | 一种浊度测量系统运行监测方法 |
CN117651256B (zh) * | 2023-11-28 | 2024-06-07 | 佛山科学技术学院 | 一种基于离群检测的节点能源消耗监测方法及系统 |
CN117650995B (zh) * | 2023-11-28 | 2024-06-14 | 佛山科学技术学院 | 一种基于离群检测的数据传输异常识别方法 |
CN117807550B (zh) * | 2024-02-29 | 2024-05-17 | 山东宙雨消防科技股份有限公司 | 一种建筑消防设施智能化定量检测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893213A (zh) * | 2016-06-22 | 2016-08-24 | 北京蓝海讯通科技股份有限公司 | 一种异常检测方法、应用和监控设备 |
CN105975519A (zh) * | 2016-04-28 | 2016-09-28 | 深圳大学 | 一种基于多支撑点索引的离群检测方法及其系统 |
WO2017185296A1 (zh) * | 2016-04-28 | 2017-11-02 | 深圳大学 | 一种基于多支撑点索引的离群检测方法及其系统 |
CN107480258A (zh) * | 2017-08-15 | 2017-12-15 | 佛山科学技术学院 | 一种基于多种支撑点的度量空间离群检测方法 |
CN110287238A (zh) * | 2019-06-26 | 2019-09-27 | 广东奥博信息产业股份有限公司 | 一种基于先验知识的异常水质检测方法及系统 |
CN110737874A (zh) * | 2019-09-02 | 2020-01-31 | 中国科学院地理科学与资源研究所 | 一种基于空间关系的流域水质监测异常值检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3832281B2 (ja) * | 2001-06-27 | 2006-10-11 | 日本電気株式会社 | 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム |
CN105138641A (zh) * | 2015-08-24 | 2015-12-09 | 河海大学 | 一种基于角度的高维数据离群检测方法 |
CN105426907A (zh) * | 2015-11-06 | 2016-03-23 | 河海大学 | 一种基于模糊距离的不确定离群点检测方法 |
CN110070100A (zh) * | 2019-03-01 | 2019-07-30 | 广东奥博信息产业股份有限公司 | 一种多因子集成的农业气象离群检测方法及装置 |
-
2020
- 2020-12-30 CN CN202011626167.0A patent/CN112733904B/zh active Active
-
2021
- 2021-02-05 WO PCT/CN2021/075420 patent/WO2022141746A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975519A (zh) * | 2016-04-28 | 2016-09-28 | 深圳大学 | 一种基于多支撑点索引的离群检测方法及其系统 |
WO2017185296A1 (zh) * | 2016-04-28 | 2017-11-02 | 深圳大学 | 一种基于多支撑点索引的离群检测方法及其系统 |
CN105893213A (zh) * | 2016-06-22 | 2016-08-24 | 北京蓝海讯通科技股份有限公司 | 一种异常检测方法、应用和监控设备 |
CN107480258A (zh) * | 2017-08-15 | 2017-12-15 | 佛山科学技术学院 | 一种基于多种支撑点的度量空间离群检测方法 |
CN110287238A (zh) * | 2019-06-26 | 2019-09-27 | 广东奥博信息产业股份有限公司 | 一种基于先验知识的异常水质检测方法及系统 |
CN110737874A (zh) * | 2019-09-02 | 2020-01-31 | 中国科学院地理科学与资源研究所 | 一种基于空间关系的流域水质监测异常值检测方法 |
Non-Patent Citations (1)
Title |
---|
基于多种支撑点的度量空间离群检测算法;许红龙等;《计算机学报》;20171231;第40卷(第12期);第2840-2853页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2022141746A1 (zh) | 2022-07-07 |
CN112733904A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112733904B (zh) | 一种水质异常检测方法及电子设备 | |
AU2021282469B2 (en) | Deep learning-based variant classifier | |
US10347365B2 (en) | Systems and methods for visualizing a pattern in a dataset | |
Killick et al. | changepoint: An R package for changepoint analysis | |
US11482305B2 (en) | Artificial intelligence analysis of RNA transcriptome for drug discovery | |
CN112911627B (zh) | 无线网络性能检测方法、装置以及存储介质 | |
WO2010059235A2 (en) | Algorithms for sequence determination | |
CN110288003B (zh) | 数据变化识别方法及设备 | |
CA3005791A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
US20150294052A1 (en) | Anomaly detection using tripoint arbitration | |
US20220093224A1 (en) | Machine-Learned Quality Control for Epigenetic Data | |
CN115372995A (zh) | 一种基于欧式聚类的激光雷达目标检测方法及系统 | |
CN118094417A (zh) | 一种ctd数据质量监测方法、装置、电子设备和介质 | |
CN117710403A (zh) | 目标跟踪检测方法、装置、设备和存储介质 | |
CN104951673B (zh) | 一种基因组酶切图谱拼接方法及系统 | |
Lowe et al. | Detecting commonality in multidimensional fish movement histories using sequence analysis | |
CN113920319A (zh) | 一种车道干扰噪声线的滤除方法及装置 | |
Wilcox | Robust correlation coefficients that deal with bad leverage points | |
CN117408581B (zh) | 潜浮标数据质量控制方法、系统、计算机及存储介质 | |
Gustafsson et al. | Clustering genomic signatures A new distance measure for variable length Markov chains | |
CN114495096A (zh) | 一种细胞分类模型的获取方法和装置 | |
Weitschek et al. | Classifying bacterial genomes with compact logic formulas on k-Mer frequencies | |
CN118152962A (zh) | 一种面向电力监控运行数据异常检测的方法及系统 | |
CN116152914A (zh) | 一种人体运动轨迹检测方法 | |
CN114492835A (zh) | 一种特征填充方法、装置、计算设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 528000 No. 18, Jiangwan Road, Chancheng District, Guangdong, Foshan Patentee after: Foshan University Country or region after: China Address before: 528000 No. 18, Jiangwan Road, Chancheng District, Guangdong, Foshan Patentee before: FOSHAN University Country or region before: China |