CN117009899A - 一种时序性海洋生态环境监测数据中的异常点检测方法 - Google Patents
一种时序性海洋生态环境监测数据中的异常点检测方法 Download PDFInfo
- Publication number
- CN117009899A CN117009899A CN202310735403.XA CN202310735403A CN117009899A CN 117009899 A CN117009899 A CN 117009899A CN 202310735403 A CN202310735403 A CN 202310735403A CN 117009899 A CN117009899 A CN 117009899A
- Authority
- CN
- China
- Prior art keywords
- data
- abnormal
- time
- model
- dsc model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 61
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000012544 monitoring process Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000008859 change Effects 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000009826 distribution Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 238000010606 normalization Methods 0.000 claims abstract description 6
- 238000012216 screening Methods 0.000 claims description 17
- 230000005856 abnormality Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 7
- 239000013535 sea water Substances 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000013450 outlier detection Methods 0.000 abstract description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003287 bathing Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000763 evoking effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000009364 mariculture Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明提供了一种时序性海洋生态环境监测数据中的异常点检测方法,海洋数据监测技术领域,包括如下步骤:步骤1、数据获取:对当前时间戳到来的含量数据进行标准化和归一化处理,得到预处理后的数据;步骤2、异常数据检测:对DSC模型进行训练,得到训练后的DSC模型;利用部分训练对不同时间戳到来的预处理后的数据进行线上相似度矩阵的生成,对当前数据进行三类异常的检测,得到当前数据中的三类异常数据;步骤3、change point检测机制:采用change point探测机制对当前数据的数据分布进行探测;步骤4、模型动态更新:基于步骤3探测的结果,进行DSC模型的选定或重新训练。本发明解决了现有异常点检测方法无法适应高维动态时序数据的问题。
Description
技术领域
本发明涉及海洋数据监测技术领域,具体而言,尤其涉及一种时序性海洋生态环境监测数据中的异常点检测方法。
背景技术
通过无线传感器网络对海洋的生态环境、水质等信息进行实时获取从而形成海洋数据流,是获取海洋遥感数据的重要手段之一。海洋生态环境检测主要是对海洋水体、沉积物、海洋生物体、海洋大气、气象、水文、海冰等生态健康环境的检测和调查活动。一般是对海水养殖环境、渔业环境、近海海域污染、海岸线生态、海水浴场生态环境等进行监测与调查。由海洋生态环境监测的内容可以看出海洋监测的数据覆盖了许多方面,其由无线传感网络送达的数据是由多种传感器收集的,因此相关数据多是高维的。另外海洋生态环境监测数据是时序化的,且海洋环境也是动态变化的,因此在当前时间戳无线传感网络送来的数据相较于先前到达的数据的分布很有可能会发生变化。
然而,水质探测的传感器和海洋环境监测站基本都是设在海水中和偏远海岛上等自然环境中,因此传感器网络很容易收到异常环境的影响。另外在数据传输的过程中由于网络波动有可能造成探测数据的丢失或掺入异常,甚至在最后数据的统计过程中,由于监测数据覆盖多种远测且数量较大也容易造成在数据中混入大量异常。考虑到以上因素,在海洋生态环境监测领域,对监测数据进行异常点检测监测对能否正确评估某个海域生态环境具有十分重要的意义。区别于传统的静态数据,海洋时序监测数据具有如下四个特点:1)数据通常以时间序列数据的形式连续到达,需要实时处理;2)数据是多变量的,即每个观察值都有多个随时间变化的变量;3)除了正常观察之外,数据中可能同时存在各种类型的异常观察,例如孤立异常和集合异常;4)数据分布即数据间相关关系均随时间动态变化。
目前,现有的异常数据检测方法处理海洋环境数时序数据时具有如下限制:1)高维(或多变量)数据通常具有更复杂的结构和属性之间的潜在相关性,这需要更强大的模型和计算成本。现有的高维数据解决方案大多是先对数据进行降维,然后在压缩后的数据空间中进行异常检测。然而,降维不可避免地会丢失某些信息,这可能会影响用于聚类的距离计算的准确性,从而降低异常检测的有效性;2)大多数现有的异常检测方法,例如PCA、LOF、OCSVM,都是为批处理而设计的,不适用于时间序列数据;3)由于各种诱发原因,异常可分为三类,即点异常、上下文异常和集合异常。异常的类型会影响所用方法的选择,因为大多数现有方法仅适用于某种类型的异常;4)对于海洋环境数时序数据,数据的统计分布和自相关性预计会随着时间的推移而演变,然而现有的方法对于会发生动态变化的数据是缺乏适应性的。
发明内容
有鉴于此,本发明的目的在于提出一种时序性海洋生态环境监测数据中的异常点检测方法,充分利用聚类算法在异常点检测中的优势,在考虑高维数据子空间特征的提取的同时,进一步考虑时序数据动态变化的特性,设计高维时序数据的异常点检测方法,实现对无线传感网络送达的海洋环境监测数据中的异常点检测,并为海洋环境应用分析分析提供良好的数据基础,解决了已有异常点检测方法无法适应高维时序数据的问题。
本发明采用的技术手段如下:
一种时序性海洋生态环境监测数据中的异常点检测方法,包括如下步骤:
步骤1、数据获取:获取传感器网络监测区域内中监测海水中n种物质的含量数据,所述含量数据根据统一的时间窗口经过网络送达数据处理;对当前时间戳到来的含量数据进行标准化和归一化处理,得到预处理后的数据;所述预处理后的数据包含正常数据和异常数据,所述异常数据包括上下文异常、集合异常和点异常数据;
步骤2、异常数据检测:对DSC模型进行训练,得到训练后的DSC模型;在训练后的DSC模型的基础上,利用部分训练对不同时间戳到来的预处理后的数据进行线上相似度矩阵的生成,根据生成的相似度矩阵,对当前数据进行三类异常的检测,得到当前数据中的三类异常数据;
步骤3、change point检测机制:采用change point探测机制对当前数据的数据分布进行探测,判断当前到来的数据的分布相较于前面时刻的数据是否发生较大变化;
步骤4、模型动态更新:基于步骤3探测的结果,进行DSC模型的选定或重新训练。
进一步地,步骤1具体包括:
步骤1-1:在时间戳t,由传感网络送来一批数据,数据规模为传感网络中设定的时间窗口的大小,数据的维数为各传感器统计的海水中物质的种类;数据中包含正常数据以及三类异常数据,其中部分时间戳到来的数据本身不包含上下文异常;
步骤1-2:对步骤1-1中的数据进行标准化和归一化操作,得到预处理后的数据。
进一步地,步骤2具体包括:
步骤2-1:在线下部分对DSC模型进行初始化,并确定相关参数;DSC模型包括堆叠编码器、自我表达层和堆叠解码器;采用不包含异常的正常数据来训练初始化后的DSC模型,得到训练后的DSC模型;
步骤2-2:以训练后的DSC模型为基础,对预处理后的数据在线上进行部分训练,只更新DSC模型中的自表达层,保留DSC模型中的编码层和解码层,得到高维的数据在潜在子空间中的特征映射;
步骤2-3:基于高维的数据在潜在子空间中的特征映射,最小化自表达层的参数C的范数,使C具有块对角线结构,在此基础上利用矩阵C构造数据的相似度矩阵,基于相似度矩阵得到数据之间的相似度;
步骤2-4:基于数据之间的相似度,采用SLC聚类算法对高维数据进行有效聚类;在聚类过程中,采用相似度阈值δs确定数据中的每条记录属于的簇,利用微簇阈值δc确定得到的簇属于大簇或微簇或孤立点数据;
步骤2-5:在步骤2-4得到的簇的基础上进行异常数据的检测;初筛:利用大簇阈值δd筛选处大簇中存在的上下文异常;
步骤2-6:粗筛:利用阈值δr从步骤2-4得到的微簇和孤立点数据中筛选出集合异常和孤立点异常,非异常的微簇和孤立点被划到正常数据中;
步骤2-7:经过初筛和粗筛后,从到来的高维数据中检测出三类异常数据。
进一步地,步骤2-3中,相似度矩阵如下所示:
所述相似度矩阵为对称矩阵,sij=sji,且sii=1,1≤i,j≤n;其中n表示每个时间戳到来的一批数据中包含的记录的数量,sij表示数据xi和数据xj的相似度。
进一步地,步骤3具体包括:
步骤3-1:设定阈值δcd,将新到来的数据经过当前DSC模型处理后产生的RMSE与阈值δcd进行对比以探测change point是否发生;
步骤3-2:如果探测出change point到来,则利用新的正常数据重新训练整个DSC模型,并根据新训练的模型更新阈值δr;
步骤3-3:对于以后的时间戳到来的数据,若没有change point数据的到来,都以步骤3-2确定的模型为基础,进行异常数据的检测。
本发明还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时,执行上述任一项时序性海洋生态环境监测数据中的异常点检测方法。
本发明还提供了一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器通过所述计算机程序运行执行上述任一项时序性海洋生态环境监测数据中的异常点检测方法。
较现有技术相比,本发明具有以下优点:
本发明提供的时序性海洋生态环境监测数据中的异常点检测方法,解决了现有的异常检测方法无法完全适用高维时序数据的问题;在利用深度学习方法提取高维数据在潜在子空间中的特征的同时,提出SLC聚类方法,有效应对不同类型的异常。在异常监测中运用初筛结合细筛的策略,极大提高了异常点监测的准确率。针对时序数据不是静态不变的特性,尤其对于某些时间戳,经过无线传感网络送达的数据的分布可能会发生较大变化的问题,本发明引入change point探测机制,并且在线上对到来的数据进行部分训练,将整个模型更新的操作放到线下进行。这样既保证了本发明提出的模型能够很好地适应动态变化的时序数据,又不至于使其缺乏实时性。
综上,应用本发明的技术方案在考虑高维数据空间中数据稀疏问题的同时,考虑了时序数据的动态变化特性,利用聚类算法的特点,提出了一种高效的高维时序数据异常点检测算法,完成海洋生态环境数据中的异常点检测,为上层的数据分析提供了良好的数据基础。因此,本发明的技术方案解决了已有数据异常检测方法无法适应高位时序数据的问题。
基于上述理由本发明可在海洋数据监测等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明流程示意图。
图2为本发明异常点检测结构示意图。
图3为本发明change point探测机制及本发明整体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供了一种时序性海洋生态环境监测数据中的异常点检测方法包括以下步骤:
步骤1:数据获取:给定传感器网络监测区域内中监测海水中n种物质含量的数据S={s1,s2,…,Sn},数据根据统一的时间窗口经过网络送达数据处理。对于当前时间戳到来的数据进行标准化和归一化处理,该数据包含正常数据和上下文异常、集合异常以及点异常三类异常。
步骤1-1:在时间戳t,由传感网络送来一批数据,数据规模为传感网络中设定的时间窗口的大小,数据的维数为各传感器统计的海水中物质的种类;
步骤1-2:到来的数据中包含正常数据以及(上下文异常、集合异常和孤立点异常)三类异常,其中某些时间戳到来的数据可能本身不包含上下文异常;
步骤1-3:对数据进行标准化和归一化的操作,把数据变成(0,1)之间的小数;是为了数据处理更加便捷快速,把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权;
步骤2:异常数据检测:在线下训练好的模型基础上,利用少量训练对不同时间戳到来的数据进行线上相似度矩阵的生成,根据生成的相似度矩阵,对当前数据进行三类异常的检测;
步骤2-1:在线下部分对DSC模型进行初始化,并确定相关参数。DSC网络由堆叠编码器、自我表达层和堆叠解码器组成。另外模型是用不包含异常的正常数据来训练的,该正常数据的分布是与后面一个或多个时间戳到来的数据中的正常数据分布是大致相似的。因为由传感网络收集的数据中异常终归是少数,由经验可以完成从以往的数据处理中提取相关正常数据的操作,这个工作并不难完成;
步骤2-2:以线下训练得到的DSC模型为基础,对步骤1处理后的数据在线上进行部分训练,如图3所示,在线上部分只更新DSC模型中的自表达层,而保留其编码层和解码层;
步骤2-3:如图1中所示,给定时序数据X在时间戳t的快照Xt,如表1所示,Xt为由多种传感器探测而组成的高维数据,整个Xt作为单个批次输入到DSC网络,每条记录通过堆叠编码器映射到潜在的低维向量/>然后,所有潜在向量都完全连接起来,通过自我表达来学习子空间上所有观察之间的亲和力;
表1异常点检测方法所测在某个时间戳到来的一批数据示例表
步骤2-4:经过步骤2-3,可以得到高维的数据在潜在子空间中的特征映射。对于自表达层的参数C,已有论文可以论证,在子空间独立的假设下,通过最小化C的某些范数,保证C具有块对角线结构,在此基础上可以利用矩阵C来构造数据的相似度矩阵(即图1中的Affinity mayrix)。
相似度矩阵如上所示。这里,相似度矩阵是一个对称矩阵,sij=sji,且sii=1(1≤i,j≤n)其中n表示每个时间戳到来的一批数据中包含的记录的数量,sij表示数据xi和数据xj的相似度。根据以上理论,经模型处理得到的Xt对应的具体的相似度矩阵如表2所示。
表2数据在某个时间戳到来的一批数据对应的相似度表
步骤2-5:根据得到的数据之间的相似度,提出高效的SLC(sequentialleaderclustering)聚类算法(图2中的②部分),对高维数据进行有效聚类。对于一个快照Xt,假设其聚类结果为对应的簇心为/>SLC的主要步骤如下:①首先对于Xt中的某条记录/>如果相似矩阵S中有则xo被认为是簇/>的簇心。经计算,在表2中的数据,/>是Xt中第一个簇/>的簇心;②对每个剩余的数据/>求/>与簇心/>的相似度s1j;③给定阈值δs=0.65,如表2所示,发现s12和s13均大于δs因此将/>和/>添加到簇/>中。然后,重复与步骤①类似的步骤,从Xt中剩余的未匹配数据中确认新的聚类中心/>④重复步骤②-③直到Xt中的所有数据都被处理。其中SLC的时间复杂度为O(mn),m是簇数。
步骤2-6:在步骤2-5得到的簇的基础上进行异常数据的检测。初筛(如图2中的Ⅰ过程):对于经过聚类运算得到的簇如果簇内数据量/>(δc是衡量簇的大小的阈值),则认为簇/>是微簇,其中数据量为1的簇被认为是孤立点数据。相应地,如果则/>是一个大簇。此外,如果簇/>中的数据/>与簇心/>的相似度sjk小于阈值δd,则认为/>是大簇/>的上下文异常。经过初筛操作,如图2所示筛选出了了Xt中上下文异常,并初步确定了集合异常和孤立点异常;
步骤2-7:细筛(如图2中的Ⅱ部分)对于微簇 是DSC-Net重建后集群中数据的均方根误差。如果/>则认为簇/>中的数据存在集合异常或异常值(即/>中的数据为集合异常或孤立点异常)。否则,簇/>被认为是正常数据,被排除在异常簇之外,归类为正常数据。其中阈值δr是以线下模型训练后输入和输出之间的RMSE以及数据检测经验为依据确定的。经过细筛部分,如图2所示,精确定位初筛结果中哪些数据是真正的集合异常或孤立点异常;
步骤2-8:经过上述步骤,可以从到来的高维数据中检测出三类异常数据,即上下文异常、集合异常和孤立点异常。
步骤3:change point检测机制:数据分布的动态变化是时间序列数据的一个重要特征。如果数据出现概念漂移,那么之前训练好的DSC模型很可能不适用于后面的数据,所以在模型中引入变点检测是很有必要的。当分布发生变化的数据到来时,由历史数据构建的DSC-Net模型重建的均方根误差势必发生较大变化。基于此,我们设置了相应的漂移阈值δcd。在步骤2的基础上,判断当前到来的数据的分布相较于前面时刻的数据是否发生了较大变化。如图3所示,根据探测的结果,如果探测到当前数据不是change point数据,进入线上进行部分训练,根据步骤2的操作进行异常点检测。如果检测到了change point的发生,重新在线下进行模型的训练及相关参数的更新。
步骤3-1:change point探测:根据数据处理的专家经验设定阈值δcd,将新到来的数据经过当前DSC模型处理后产生的RMSE与阈值δcd进行对比以探测change point是否发生;
步骤3-2:经过步骤3-1,如果探测出change point到来,则在线下利用新的正常数据重新训练整个DSC模型,并根据新训练的模型更新阈值δr;
步骤3-3:对于后面不断到来的数据,我们只需要重复上面的操作,判断ChangePoint是否到来,并进行相应的操作,就可以达到准确更新DSC-Net模型的要求,使其适应异常检测动态变化的数据流。
本发明还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时,执行时序性海洋生态环境监测数据中的异常点检测方法。
本发明还提供了一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器通过所述计算机程序运行执行时序性海洋生态环境监测数据中的异常点检测方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (7)
1.一种时序性海洋生态环境监测数据中的异常点检测方法,其特征在于,包括如下步骤:
步骤1、数据获取:获取传感器网络监测区域内中监测海水中n种物质的含量数据,所述含量数据根据统一的时间窗口经过网络送达数据处理;对当前时间戳到来的含量数据进行标准化和归一化处理,得到预处理后的数据;所述预处理后的数据包含正常数据和异常数据,所述异常数据包括上下文异常、集合异常和点异常数据;
步骤2、异常数据检测:对DSC模型进行训练,得到训练后的DSC模型;在训练后的DSC模型的基础上,利用部分训练对不同时间戳到来的预处理后的数据进行线上相似度矩阵的生成,根据生成的相似度矩阵,对当前数据进行三类异常的检测,得到当前数据中的三类异常数据;
步骤3、change point检测机制:采用change point探测机制对当前数据的数据分布进行探测,判断当前到来的数据的分布相较于前面时刻的数据是否发生较大变化;
步骤4、模型动态更新:基于步骤3探测的结果,进行DSC模型的选定或重新训练。
2.根据权利要求1所述的时序性海洋生态环境监测数据中的异常点检测方法,其特征在于,步骤1具体包括:
步骤1-1:在时间戳t,由传感网络送来一批数据,数据规模为传感网络中设定的时间窗口的大小,数据的维数为各传感器统计的海水中物质的种类;数据中包含正常数据以及三类异常数据,其中部分时间戳到来的数据本身不包含上下文异常;
步骤1-2:对步骤1-1中的数据进行标准化和归一化操作,得到预处理后的数据。
3.根据权利要求1所述的时序性海洋生态环境监测数据中的异常点检测方法,其特征在于,步骤2具体包括:
步骤2-1:在线下部分对DSC模型进行初始化,并确定相关参数;DSC模型包括堆叠编码器、自我表达层和堆叠解码器;采用不包含异常的正常数据来训练初始化后的DSC模型,得到训练后的DSC模型;
步骤2-2:以训练后的DSC模型为基础,对预处理后的数据在线上进行部分训练,只更新DSC模型中的自表达层,保留DSC模型中的编码层和解码层,得到高维的数据在潜在子空间中的特征映射;
步骤2-3:基于高维的数据在潜在子空间中的特征映射,最小化自表达层的参数C的范数,使C具有块对角线结构,在此基础上利用矩阵C构造数据的相似度矩阵,基于相似度矩阵得到数据之间的相似度;
步骤2-4:基于数据之间的相似度,采用SLC聚类算法对高维数据进行有效聚类;在聚类过程中,采用相似度阈值δs确定数据中的每条记录属于的簇,利用微簇阈值δc确定得到的簇属于大簇或微簇或孤立点数据;
步骤2-5:在步骤2-4得到的簇的基础上进行异常数据的检测;初筛:利用大簇阈值δd筛选处大簇中存在的上下文异常;
步骤2-6:粗筛:利用阈值δr从步骤2-4得到的微簇和孤立点数据中筛选出集合异常和孤立点异常,非异常的微簇和孤立点被划到正常数据中;
步骤2-7:经过初筛和粗筛后,从到来的高维数据中检测出三类异常数据。
4.根据权利要求3所述的时序性海洋生态环境监测数据中的异常点检测方法,其特征在于,步骤2-3中,相似度矩阵如下所示:
所述相似度矩阵为对称矩阵,sij=sji,且sii=1,1≤i,j≤n;其中n表示每个时间戳到来的一批数据中包含的记录的数量,sij表示数据xi和数据xj的相似度。
5.根据权利要求1所述的时序性海洋生态环境监测数据中的异常点检测方法,其特征在于,步骤3具体包括:
步骤3-1:设定阈值δcd,将新到来的数据经过当前DSC模型处理后产生的RMSE与阈值δcd进行对比以探测change point是否发生;
步骤3-2:如果探测出change point发生,则利用新的正常数据重新训练整个DSC模型,并根据新训练的模型更新阈值δr;
步骤3-3:对于以后的时间戳到来的数据,若没有change point数据的到来,都以步骤3-2确定的模型为基础,进行异常数据的检测。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时,执行所述权利要求1至5中任一项权利要求所述的时序性海洋生态环境监测数据中的异常点检测方法。
7.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序运行执行所述权利要求1至5中任一项权利要求所述的时序性海洋生态环境监测数据中的异常点检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310735403.XA CN117009899A (zh) | 2023-06-20 | 2023-06-20 | 一种时序性海洋生态环境监测数据中的异常点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310735403.XA CN117009899A (zh) | 2023-06-20 | 2023-06-20 | 一种时序性海洋生态环境监测数据中的异常点检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117009899A true CN117009899A (zh) | 2023-11-07 |
Family
ID=88568075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310735403.XA Pending CN117009899A (zh) | 2023-06-20 | 2023-06-20 | 一种时序性海洋生态环境监测数据中的异常点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117009899A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972397A (zh) * | 2024-03-28 | 2024-05-03 | 四川省地质矿产勘查开发局成都综合岩矿测试中心(国土资源部成都矿产资源监督检测中心) | 基于大数据的大气干湿沉降模型模拟优化监测方法和介质 |
-
2023
- 2023-06-20 CN CN202310735403.XA patent/CN117009899A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972397A (zh) * | 2024-03-28 | 2024-05-03 | 四川省地质矿产勘查开发局成都综合岩矿测试中心(国土资源部成都矿产资源监督检测中心) | 基于大数据的大气干湿沉降模型模拟优化监测方法和介质 |
CN117972397B (zh) * | 2024-03-28 | 2024-05-31 | 四川省地质矿产勘查开发局成都综合岩矿测试中心(国土资源部成都矿产资源监督检测中心) | 基于大数据的大气干湿沉降模型模拟优化监测方法和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111830408B (zh) | 一种基于边缘计算和深度学习的电机故障诊断系统及方法 | |
CN111460728B (zh) | 一种工业设备剩余寿命预测方法、装置、存储介质及设备 | |
CN109102005A (zh) | 基于浅层模型知识迁移的小样本深度学习方法 | |
CN115412455A (zh) | 一种基于时间序列的服务器多性能指标异常检测方法及装置 | |
Aguado et al. | Multivariate statistical monitoring of continuous wastewater treatment plants | |
CN110083860B (zh) | 一种基于相关变量选择的工业故障诊断方法 | |
CN117009899A (zh) | 一种时序性海洋生态环境监测数据中的异常点检测方法 | |
CN111397902A (zh) | 一种基于特征对齐卷积神经网络的滚动轴承故障诊断方法 | |
CN116451142A (zh) | 一种基于机器学习算法的水质传感器故障检测方法 | |
CN114354184A (zh) | 一种基于深度学习的大型回转装备主轴健康预警模型建立方法和装置 | |
CN112507479A (zh) | 一种基于流形学习和softmax的石油钻机健康状态评估方法 | |
CN115576981A (zh) | 一种基于有监督算法与无监督算法相结合的异常检测方法 | |
CN112949097B (zh) | 一种基于深度迁移学习的轴承剩余寿命预测模型和方法 | |
CN117782198B (zh) | 一种基于云边端架构的公路机电设备运行监测方法及系统 | |
CN113327008A (zh) | 一种基于时序自动编码器的窃电检测方法、系统及介质 | |
CN113984389A (zh) | 一种基于多感受野与改进胶囊图神经网络的滚动轴承故障诊断方法 | |
CN116821828A (zh) | 一种基于工业数据的多维时序预测方法 | |
CN117056678A (zh) | 一种基于小样本的机泵设备运行故障诊断方法及装置 | |
CN116933643A (zh) | 基于偏鲁棒m回归和多重插补的智能数据监测方法 | |
CN116522993A (zh) | 一种基于对抗自编码网络的化工过程故障检测方法 | |
CN115659551A (zh) | 一种基于图神经网络的水轮机组监测数据异常检测方法 | |
CN115563463A (zh) | 基于深度元学习算法的多工况旋转机械剩余寿命预测方法 | |
CN112069621B (zh) | 基于线性可靠度指标的滚动轴承剩余使用寿命的预测方法 | |
CN114819260A (zh) | 一种水文时间序列预测模型动态生成方法 | |
CN114298413A (zh) | 一种水电机组振摆趋势预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |