CN116933136A - 一种在线生态观测数据异常检测方法及系统 - Google Patents
一种在线生态观测数据异常检测方法及系统 Download PDFInfo
- Publication number
- CN116933136A CN116933136A CN202310914974.XA CN202310914974A CN116933136A CN 116933136 A CN116933136 A CN 116933136A CN 202310914974 A CN202310914974 A CN 202310914974A CN 116933136 A CN116933136 A CN 116933136A
- Authority
- CN
- China
- Prior art keywords
- data
- drift
- online
- historical
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 202
- 230000005856 abnormality Effects 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 46
- 230000011218 segmentation Effects 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims description 26
- 230000002159 abnormal effect Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 7
- 239000003550 marker Substances 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000002689 soil Substances 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000003673 groundwater Substances 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000002352 surface water Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明公开了一种在线生态观测数据异常检测方法及系统,包括如下检测流程:从历史生态观测数据进行数据漂移检测方法学习,建立数据漂移检测需要的历史数据异常检测模型及数据的漂移分段列表;以历史数据异常检测模型为基础,微调获取当前漂移分段的在线异常检测模型,由在线异常检测模型在线进行异常检测;当训练数据不足时,从历史生态观测数据的漂移分段列表匹配相似数据增强微调数据训练量。本发明利用历史数据学习的模型和历史数据增强训练样本,对在线观测数据进行漂移检测,并通过微调训练获取在线漂移在线数据异常检测模型,提高在线数据异常检测准确性。
Description
技术领域
本发明涉及一种数据异常检测方法及系统,尤其涉及一种在线生态观测数据异常检测方法及系统。
背景技术
国家生态数据中心所接收的生态观测数据,存在观测指标多、数据上报站台多的特点,因此不同生态观测指标都需要进行数据质量控制,以保障汇聚到数据中心的数据是可用的。数据异常检测(Outlier detectiom)是质量数据控制的重要内容,定义是从正常的时间序列中识别不正常的数据。
时间序列数据异常检测是一个经典问题,其方法很多,有基于统计(如3σ法则),基于预测(如ARIMA、指数平滑),基于机器学习方法(如LOF、孤立森林、One-class SVM等),基于深度学习的检测方法(如自编码器、GAN、变分自编码器)。按照算法运行时效性要求,可分为在线数据异常检测和离线数据异检测,其中,在线数据异常检测对算法的适应能力提出了更高的要求。
生态观测数据中,有些观测指标,如土壤水分、地表水质、大气污染物浓度等,受环境影响会发生变化,改变数据的分布模式,如降水、灌溉会改变土壤水分观测数据的分布,产生数据漂移。
虽然数据异常检测方法很多,但传统的异常检测算法一般假定数据分布模式稳定,应用到数据分布发生漂移的观测数据时,算法性能普遍存在下降,导致数据异常检测的准确性降低。因此,在数据分布发生变化时,需要对算法进行调整,一些精度高的异常检测算法,如深度学习算法,算法微调对训练数据往往存在要求,当在线数据量不充分时会影响模型收敛,容易造成算法微调失败,降低调整后模型检测的准确性。
再者,数据漂移(概念漂移)检测是用来检测输入数据分布变化的技术。数据漂移检测方法主要有三类:
1)基于错误率的检测算法,是数据分类中应用最多的一种算法,重点是追踪基础分类器的在线错误率的变化;
2)基于数据分布的漂移检测,这类算法使用一个距离函数/度量来量化历史数据的分布和新数据的分布之间的差异;
3)多重假设检验漂移检测算法,使用了多重假设测试来检测不同的概念漂移。
引用最多的概念漂移检测算法之一是漂移检测法(DDM)。但现有的数据漂移方法主要应用在数据分类场合,对于数据序列漂移数据检测存在困难,而生态观测数据又存在着随环境变化的情况,目前还缺乏稳定的在线检测生态观测数据漂移的方法。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种在线生态观测数据异常检测方法及系统。
为了解决以上技术问题,本发明采用的技术方案是:一种在线生态观测数据异常检测方法,检测方法包括如下检测流程:
从历史生态观测数据进行数据漂移检测方法学习,建立数据漂移检测需要的历史数据异常检测模型,并建立历史生态观测数据的漂移分段列表;
生态观测数据异常的在线检测:检测在线数据的漂移分段,以历史数据异常检测模型为基础,微调获取当前漂移分段的在线异常检测模型,由在线异常检测模型在线进行异常检测;
当前漂移分段训练数据不足时,从历史生态观测数据的漂移分段列表匹配相似数据增强微调数据训练量。
进一步地,进行历史数据异常检测模型的学习,以获取历史异常标记序列,具体过程为:
a)运用历史生态观测数据的时间序列H对LSTM-AE模型进行训练,获取检测需要的历史数据异常检测模型再通过模型/>对历史生态观测数据进行重建,获取原始序列与重建序列之间的差值序列R{r1,r2,...rn};
b)计算差值序列R的标准差,将3倍标准差作为异常检测阈值σ;
c)差值序列R中不超过阈值σ的观测值为正常观测,标记为0,超过阈值σ的观测值为异常观测,标记为1,这样差值序列R转化为异常标记序列U{u1,u2,...ui...un},其中ui∈{0,1}。
进一步地,历史生态观测数据漂移分段列表检测过程为:
运用获取的异常检测标记序列U,以DDM算法为基础,检测历史生态观测数据序列中的数据漂移,对原始序列数据进行数据漂移分段,将时间序列H转化为数据分段序列Hs{{Hs1},{Hs2},{Hsi},...,{Hsm},其中,{Hsi}为原始序列数据时间连续片段{hj,hj+1,...hj+k},设置漂移起始位置Dstart为0,进行漂移检测;
对数据分段序列Hs{{Hs1},{Hs2},{Hsi},...,{Hsm}的每个分段计算其特征向量,以特征向量为索引,建立历史数据漂移分段列表。
进一步地,漂移检测具体过程如下:
a)根据获取的历史异常标记序列U,依次取索引i位置异常值ui,根据DDM算法,计算变量pi和si;
pi计算方法如下:
i.初始化m=0;
ii.依次计算
iii.pi=m;
si计算方法如下:
b)如果pi和si满足公式1,则认为索引i位置发生了数据漂移,记Dend为i-1,从时间序列H按照索引区间(Dstart,Dend)取数据构成分段序列加入到分段序列Hs,并设置Dstart为i,重复上述步骤a)和b),直到时间序列H所有数据完成检测;
pi+si≥pmin+3*smin (1)
其中,pmin,smin分别为区间(j,i)之间pi和si的最小值。
进一步地,从数据分段序列Hs中提取分段{Hsi},建立分段{Hsi}的特征向量Vsi;通过组合分段数据和其特征向量,建立历史数据漂移分段列表DL{Vsi,{Hsi}},其中,si∈{s1,s2,...sm}。
进一步地,特征向量选用了均值、中值、最小值、最大值、标准差、偏度、峰度、一阶差分均值、一阶差分中位数。
进一步地,生态观测数据异常的在线检测包括以下步骤:
(2.1)获取历史数据的异常检测阈值σ,历史数据异常检测模型历史数据漂移分段列表DL{Vsi,{Hsi}};初始在线观测数据漂移点Dstart为0,算法参数为γ,Lmin;其中,参数γ为在线模型微调时的学习率,参数Lmin为在线模型微调时需要的训练数据最低数据量;
(2.2)在线数据漂移点的检测:创建在线数据缓冲窗口W,接收在线数据块{ht1,ht2,...,htk},按时间顺序加入到窗口W的尾部,采用历史数据异常检测模型进行异常计算,并生成与窗口W等宽的在线异常标识序列Uw,采用DDM方法中的公式(1),进行异常漂移点检测;如若在窗口W的Dend位置检测到数据漂移,则进入下一步(2.3);
(2.3)在线观测数据异常检测模型学习:以历史数据异常检测模型作为基本模型进行微调,以获取当前在线异常检测模型;
(2.4)在线观测数据异常的在线检测:运用在线异常检测模型和阈值σ,对数据序列HD进行异常检测,报告异常检测结果,并将数据序列HD从窗口W中移出,将Dstart置为Dend,重复步骤(2.2)-(2.4)持续进行数据异常的在线检测。
进一步地,模型微调具体过程如下:
a)按照(2.2)中的索引区间(Dstart,Dend)从窗口W中取出数据序列HD,加入到模型微调训练数据集合TD{HD}中,设置Dstart为Dend;如果数据序列HD的长度小于参数Lmin,则计算的HD特征向量VD,利用特征向量VD按照特征几何距离最小的方法从历史数据漂移分段列表DL中匹配分段Hsk,并将其加入到数据集合中,构成数据集合TD{HD,Hsk};
b)将数据集合TD中的数据划分为训练集和测试集,置学习率为参数γ,对历史数据异常检测模型进行训练微调,获取在线异常检测模型/>
一种数据异常检测系统,该异常检测系统应用于权利要求1所述的在线生态观测数据异常检测方法,包括如下模块:
历史数据漂移检测和漂移分段列表管理模块:用于漂移分段检测、漂移分段存储、增加、删除,并为在线数据异常监测提供漂移分段匹配服务;
数据异常在线检测模块:用于在线接收生态观测数据、对接收到的生态观测数据进行异常检测、对异常数据进行标记,并对在线异常检测结果进行报告。
本发明公开了一种在线生态观测数据异常检测方法及系统,具有如下技术优势:
1)解决了目前在线生态观测数据漂移检测缺乏稳定性的缺陷;本发明针对生态观测数据漂移检测困难的现状,通过从长时间历史观测数据中学习数据漂移检测方法,以该方法对在线数据漂移进行检测,从而让在线数据异常检测模型根据数据漂移进行微调,提高了在线生态观测数据漂移检测的一致性,提高异常检测准确性的同时,为后续数据增强进行在线异常检测模型学习创造了条件。
2)解决了在线观测数据训练的可靠性;针对深度学习模型微调时,样本数量不足会导致模型收敛困难,并降低模型精度的现状,本发明通过对长时间历史生态观测数据进行数据漂移分割,建立历史数据漂移分块列表,对在线数据分区进行模型微调训练时,从历史数据漂移分区列表中匹配最相似的数据分段,从而增强模型微调时的训练数据量,提高模型微调训练的可靠性,也提高了异常检测模型的准确性。
附图说明
图1为本发明技术方案的流程示意图。
图2为实施例中土壤水分数据部分区段数据分段的可视化结果图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明公开了一种在线生态观测数据异常检测方法,其检测方法总体分为两部分,第一部分是从历史生态观测数据进行数据漂移检测方法学习,建立数据漂移检测需要的历史数据异常检测模型,并建立历史生态观测数据的漂移分段列表;第二部分是在线进行生态观测数据的异常检测。
生态观测数据通过自动化观测指标仪器获取,包括地下水位、水质、大气污染物浓度等监测数据,时间序列记作H{h1,h2,...hn},具体检测方法如下:
一、历史生态观测数据漂移检测方法学习和数据漂移分段列表建立
(1.1)首先进行历史数据异常检测模型的学习,并获取历史异常标记序列;采用常用的LSTM-AE(Long Short-Term Memory Network-Autoencoder)深度学习模型,其基本过程如下:
a)运用历史生态观测数据的时间序列H对LSTM-AE模型进行训练,获取检测需要的历史数据异常检测模型再通过模型/>对历史生态观测数据进行重建,获取原始序列与重建序列之间的差值序列R{r1,r2,...rn};
b)计算差值序列R的标准差,将3倍标准差作为异常检测阈值σ;
c)差值序列R中不超过阈值σ的观测值为正常观测,标记为0,超过阈值σ的观测值为异常观测,标记为1,这样差值序列R转化为异常标记序列U{u1,u2,...ui...un},其中ui∈{0,1};
(1.2)历史生态观测数据漂移分段;
运用(1.1)中获取的异常检测标记序列U,参考DDM(Drift Detection Method)算法,检测历史生态观测数据序列中的数据漂移,对原始序列数据进行数据漂移分段,将时间序列H转化为数据分段序列Hs{{Hs1},{Hs2},{Hsi},...,{Hsm},其中,{Hsi}为原始序列数据时间连续片段{hj,hj+1,...hj+k},设置漂移起始位置Dstart为0,漂移检测过程如下:
a)根据(1.1)中获取的历史异常标记序列U,依次取索引i位置异常值ui,根据DDM算法,计算变量pi和si;
pi计算方法如下:
i.初始化m=0;
ii.依次计算
iii.pi=m;
si计算方法如下:
b)如果pi和si满足公式1,则认为索引i位置发生了数据漂移,记Dend为i-1,从时间序列H按照索引区间(Dstart,Dend)取数据构成分段序列加入到分段序列Hs,并设置Dstart为i,重复上述1.2中的步骤a)和b),直到时间序列H所有数据完成检测;
公式1如下所示:
pi+si≥pmin+3*smin (1)
其中,pmin,smin分别为区间(j,i)之间pi和si的最小值。
(1.3)历史数据漂移分段列表建立;对(1.2)中数据分段序列Hs{{Hs1},{Hs2},{Hsi},...,{Hsm}的每个分段计算其特征向量,以特征向量为索引,建立历史数据漂移分段列表,过程如下:
a)计算每个时间序列分段的特征:从数据分段序列Hs中提取分段{Hsi},计算该序列的多个特征,建立分段{Hsi}的特征向量Vsi,在发明实施中,特征向量选用了均值、中值、最小值、最大值、标准差、偏度、峰度、一阶差分均值、一阶差分中位数九个特征;
b)组合分段数据和其特征向量,建立历史数据漂移分段列表DL{Vsi,{Hsi}},其中,si∈{s1,s2,...sm}。
二、生态观测数据异常的在线检测
(2.1)获取历史数据的异常检测阈值σ,历史数据异常检测模型历史数据漂移分段列表DL{Vsi,{Hsi}};初始在线观测数据漂移点Dstart为0,算法参数为γ,Lmin;其中,参数γ为在线模型微调时的学习率,参数Lmin为在线模型微调时需要的训练数据最低数据量;
(2.2)在线数据漂移点的检测:创建在线数据缓冲窗口W,接收在线数据块{ht1,ht2,...,htk},按时间顺序加入到窗口W的尾部,采用历史数据异常检测模型进行异常计算,并生成与窗口W等宽的在线异常标识序列Uw,采用DDM方法中的公式(1),进行异常漂移点检测;如若在窗口W的Dend位置检测到数据漂移,则进入下一步(2.3);
(2.3)在线观测数据异常检测模型学习:以历史数据异常检测模型作为基本模型进行微调,以获取当前在线异常检测模型;
具体过程如下:
a)按照(2.2)中的索引区间(Dstart,Dend)从窗口W中取出数据序列HD,加入到模型微调训练数据集合TD{HD}中,设置Dstart为Dend;如果数据序列HD的长度小于参数Lmin,则计算的HD特征向量VD(均值、中值、最小值、最大值、标准差、偏度、峰度、一阶差分均值、一阶差分中位数),利用特征向量VD按照特征几何距离最小的方法从历史数据漂移分段列表DL中匹配分段Hsk,并将其加入到数据集合中,构成数据集合TD{HD,Hsk};
b)将数据集合TD中的数据划分为训练集和测试集,置学习率为参数γ,对历史数据异常检测模型进行训练微调,获取在线异常检测模型/>
(2.4)在线观测数据异常的在线检测:运用在线异常检测模型和阈值σ,对数据序列HD进行异常检测,报告异常检测结果,并将数据序列HD从窗口W中移出,将Dstart置为Dend,重复步骤(2.2)-(2.4)持续进行数据异常的在线检测。
本发明还公开了一种数据异常检测系统,该异常检测系统是本发明在线生态观测数据异常检测方法的一种实施系统,其包括如下模块:
(1)历史数据漂移检测和漂移分段列表管理模块:用于漂移分段检测、漂移分段存储、增加、删除,并为在线数据异常监测提供漂移分段匹配服务;
历史数据漂移检测和漂移分段列表管理模块,存储多个生态观测指标的历史生态观测数据漂移检测和分段列表管理,每个生态观测指标的数据漂移检测模型和漂移分段列表相互独立。
(2)数据异常在线检测模块:用于在线接收生态观测数据、对接收到的生态观测数据进行异常检测、对异常数据进行标记,并对在线异常检测结果进行报告。
数据异常在线检测模块,可以在线接收多个生态观测指标的数据,并对每个观测指标独立进行异常监测。该模块利用从历史数据获取的漂移检测方法对在线数据进行漂移检测;在对数据漂移块进行异常检测前,提取待检测数据块特征,然后通过数据特征同历史数据漂移分段列表管理模块交互,匹配数据漂移分段,从而增强训练数据,对历史异常检测模型进行微调;获取在线数据异常检测后,该模块可对在线异常检测结果进行报告。
由此可知,对于本发明所公开的在线生态观测数据异常检测方法及系统,通过对长时间历史生态观测数据进行数据漂移分割,获取数据漂移分段列表,对在线数据分区进行模型微调训练时,通过从历史数据漂移分区列表中匹配最相似的数据分段,从而增强模型微调时的训练数据量,提高模型微调训练的可靠性和模型的异常检测准确性。
下面结合附图及具体应用实例,对本发明的在线生态观测数据异常检测方法做进一步说明。
本实施例提供了一种结合历史数据学习模型的在线生态观测数据异常检测方法。如图1所示,第一部分是从历史生态观测数据中进行数据漂移检测方法学习,输出数据漂移检测需要的历史数据异常检测模型和历史数据漂移分段列表,具体步骤为:
S1、选取历史生态观测数据作为训练数据。作为具体实施案例,选用了某台站的土壤含水量长期观测数据,其观测时间频率为半小时,其历史观测数据构成时间数据序列H{h1,h2,...hn};
S2、历史观测数据重建模型学习。采用时间序列重建的方法为基础构建历史数据异常检测模型。
S201,选用常用的LSTM-AE模型,该模型是时间序列重建的代表性深度学习模型,将历史数据分为训练集和测试集,通过训练获取历史时间序列数据重建模型
S202,利用重建模型对数据序列H进行重建,得到重建后序列原始序列H与重建序列/>之间的差值构成差值序列R{r1,r2,...rn}。
S3、异常检测阈值和异常检测标记序列的获取;
S301、计算差值序列R的标准差,将3倍标准差作为异常检测阈值σ,观测值与重建值超过阈值σ的被认为是异常数据,重建模型和异常检测阈值σ共同构成历史时间观测数据异常检测模型;
S302、差值序列中不超过阈值σ的观测值为正常观测,标记为0,超过阈值σ的观测值为异常观测,标记为1,这样差值序列R转化为异常标记序列U{u1,u2,...ui...un},其中ui∈{0,1};
S4、历史观测数据序列数据漂移分段。本实施例中,数据漂移检测采用了具有代表性的DDM算法,通过异常标记序列U中标记值取得变化规律,分段将时间序列H转化为数据分段序列Hs{{Hs1},{Hs2},{Hsi},...,{Hsm},其中,{Hsi}为原始序列数据时间连续片段{hj,hj+1,...hj+k},设置漂移起始位置Dstart为0,漂移检测过程如S401和S402所示;
S401、采用异常标记序列U,依次取索引i位置异常值ui,根据DDM算法,计算变量pi和si;
其中,pi的计算方法如下:
i.初始化m=0;
ii.依次计算
iii.pi=m;
si的计算方法如下:
S402、如果pi和si满足公式1,则认为索引i位置发生了数据漂移;
公式1如下所示:
pi+si≥pmin+3*smin (1)
其中,pmin,smin分别为区间(j,i)之间pi和si的最小值;
记Dend为i-1,从时间序列H按照索引区间(Dstart,Dend)取数据构成分段序列加入到分段序列Hs,并设置Dstart为i,重复上述步骤S401和S402,直到时间序列H所有数据完成检测。如图2所示,为本实例中数据实例的土壤水分数据部分区段数据分段的可视化结果。
S5、历史数据漂移分段列表建立;对于S3获取的数据分段序列Hs{{Hs1},{Hs2},{Hsi},...,{Hsm},对每个分段计算其特征向量,以特征向量为索引,建立历史数据漂移分段列表;
S501、计算每个时间序列分段的特征:从数据分段序列Hs中提取分段{Hsi},计算该序列的多个特征,建立分段{Hsi}的特征向量Vsi,特征向量选用了均值、中值、最小值、最大值、标准差、偏度、峰度、一阶差分均值、一阶差分中位数九个特征;
S502、组合分段数据和其特征向量,建立历史数据漂移分段列表DL{Vsi,{Hsi}},其中,si∈{s1,s2,...sm}。
本实施例的数据异常检测方法的第二部分是以历史数据学习的序列重建模型、异常检测阈值和数据漂移分段列表为基础进行方法的实施,在线预测方法通过监测在线数据的漂移分段,以历史异常检测模型为基础,通过微调获取当前漂移分段的在线异常检测模型,当前漂移分段训练数据量不足时,通过从历史数据漂移分段列表匹配相似数据增强微调训练数据量。
在线检测方法首先获取历史数据的异常检测阈值σ,历史数据异常检测模型历史数据漂移分段列表DL{Vsi,{Hsi}};初始在线观测数据漂移点Dstart为0,算法参数为Y(在线模型微调时的学习率),Lmin(在线模型微调时需要的训练数据最低数据量);创建在线数据缓冲窗口W,具体过程如下:
S6、在线数据漂移点检测,过程如下:
S601、接收在线数据块{ht1,ht2,...,htk},按时间顺序加入到窗口W的尾部,采用历史数据异常检测模型进行异常计算,并生成与窗口W等宽的在线异常标识序列Uw,按照步骤S401和S402,进行异常漂移点检测;
S602、如若没有检测到异常,则接收新的数据块,重复步骤S401和S402进行漂移点检测;如若在窗口W的Dend位置检测到数据漂移,则进入步骤S7;
S7、在线异常检测模型微调数据集构建,过程如下:
S701、按照S6中检测获取的漂移索引区间(Dstart,Dend)从窗口W中取出数据序列HD,加入到模型微调训练数据集合TD{HD}中,设置Dstart为Dend;
S702、如果数据序列HD的长度小于参数Lmin,则计算HD的特征向量VD(均值、中值、最小值、最大值、标准差、偏度、峰度、一阶差分均值、一阶差分中位数),利用特征向量VD按照特征几何距离最小的方法从历史数据漂移分段列表DL中匹配分段Hsk,并将其加入到数据集合中,构成数据集合TD{HD,Hsk};
S8、在线观测数据异常检测模型学习,将模型微调训练数据集合TD中的数据划分为训练集和测试集,置学习率为参数γ,对历史数据异常检测模型进行训练微调,获取在线异常检测模型/>
S9、观测数据异常在线检测和检测结果报告,过程如下:
S901、运用在线异常检测模型和阈值σ,对数据序列HD进行异常检测,报告异常检测结果;
S902、将数据序列HD从窗口W中移出,将Dstart置为Dend,重复步骤S6-S9持续进行数据异常的在线检测。
由此可知,本发明在当前数据漂移和数据异常检测技术基础上,设计了一种在线生态观测数据异常检测方法。利用历史数据学习的模型和历史数据增强训练样本,对在线观测数据进行漂移检测,并通过微调训练获取在线漂移在线数据异常检测模型,提高在线数据异常检测准确性。
由于本发明的在线数据异常检测模型是以长时间序列历史数据深度学习为基础,通过深度学习方法,学习到了历史数据中更多的知识,从而让检测的结果具有更好的准确性和稳定性。
本发明通过从历史数据漂移分块列表中匹配醉相思的数据,增强在线模型微调时的训练数据量,更好的保证了在线模型微调的收敛和训练模型的可靠性。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。
Claims (9)
1.一种在线生态观测数据异常检测方法,其特征在于:检测方法包括如下检测流程:
从历史生态观测数据进行数据漂移检测方法学习,建立数据漂移检测需要的历史数据异常检测模型,并建立历史生态观测数据的漂移分段列表;
生态观测数据异常的在线检测:检测在线数据的漂移分段,以历史数据异常检测模型为基础,微调获取当前漂移分段的在线异常检测模型,由在线异常检测模型在线进行异常检测;
当前漂移分段训练数据不足时,从历史生态观测数据的漂移分段列表匹配相似数据增强微调数据训练量。
2.根据权利要求1所述的在线生态观测数据异常检测方法,其特征在于:进行历史数据异常检测模型的学习,以获取历史异常标记序列,具体过程为:
a)运用历史生态观测数据的时间序列H对LSTM-AE模型进行训练,获取检测需要的历史数据异常检测模型再通过模型/>对历史生态观测数据进行重建,获取原始序列与重建序列之间的差值序列R{r1,r2,…rn};
b)计算差值序列R的标准差,将3倍标准差作为异常检测阈值σ;
c)差值序列R中不超过阈值σ的观测值为正常观测,标记为0,超过阈值σ的观测值为异常观测,标记为1,这样差值序列R转化为异常标记序列U{u1,u2,…ui…un},其中ui∈{0,1}。
3.根据权利要求2所述的在线生态观测数据异常检测方法,其特征在于:历史生态观测数据漂移分段列表检测过程为:
运用获取的异常检测标记序列U,以DDM算法为基础,检测历史生态观测数据序列中的数据漂移,对原始序列数据进行数据漂移分段,将时间序列H转化为数据分段序列Hs{{Hs1},{Hs2},{Hsi},…,{Hsm},其中,{Hsi}为原始序列数据时间连续片段{hj,hj+1,…hj+k},设置漂移起始位置Dstart为0,进行漂移检测;
对数据分段序列Hs{{Hs1},{Hs2},{Hsi},…,{Hsm}的每个分段计算其特征向量,以特征向量为索引,建立历史数据漂移分段列表。
4.根据权利要求3所述的在线生态观测数据异常检测方法,其特征在于:漂移检测具体过程如下:
a)根据获取的历史异常标记序列U,依次取索引i位置异常值ui,根据DDM算法,计算变量pi和si;
pi计算方法如下:
ⅰ.初始化m=0;
ⅱ.依次计算
ⅲ.pi=m;
si计算方法如下:
b)如果pi和si满足公式1,则认为索引i位置发生了数据漂移,记Dend为i-1,从时间序列H按照索引区间(Dstart,Dend)取数据构成分段序列加入到分段序列Hs,并设置Dstart为i,重复上述步骤a)和b),直到时间序列H所有数据完成检测;
pi+si≥pmin+3*smin (1)
其中,pmin,smin分别为区间(j,i)之间pi和si的最小值。
5.根据权利要求3所述的在线生态观测数据异常检测方法,其特征在于:从数据分段序列Hs中提取分段{Hsi},建立分段{Hsi}的特征向量Vsi;通过组合分段数据和其特征向量,建立历史数据漂移分段列表DL{Vsi,{Hsi}},其中,si∈{s1,s2,…sm}。
6.根据权利要求5所述的在线生态观测数据异常检测方法,其特征在于:特征向量选用了均值、中值、最小值、最大值、标准差、偏度、峰度、一阶差分均值、一阶差分中位数。
7.根据权利要求1-6任一项所述的在线生态观测数据异常检测方法,其特征在于:生态观测数据异常的在线检测包括以下步骤:
(2.1)获取历史数据的异常检测阈值σ,历史数据异常检测模型历史数据漂移分段列表DL{Vsi,{Hsi}};初始在线观测数据漂移点Dstart为0,算法参数为γ,Lmin;其中,参数γ为在线模型微调时的学习率,参数Lmin为在线模型微调时需要的训练数据最低数据量;
(2.2)在线数据漂移点的检测:创建在线数据缓冲窗口W,接收在线数据块{ht1,ht2,…,htk},按时间顺序加入到窗口W的尾部,采用历史数据异常检测模型进行异常计算,并生成与窗口W等宽的在线异常标识序列Uw,采用DDM方法中的公式(1),进行异常漂移点检测;如若在窗口W的Dend位置检测到数据漂移,则进入下一步(2.3);
(2.3)在线观测数据异常检测模型学习:以历史数据异常检测模型作为基本模型进行微调,以获取当前在线异常检测模型;
(2.4)在线观测数据异常的在线检测:运用在线异常检测模型和阈值σ,对数据序列HD进行异常检测,报告异常检测结果,并将数据序列HD从窗口W中移出,将Dstart置为Dend,重复步骤(2.2)-(2.4)持续进行数据异常的在线检测。
8.根据权利要求7所述的在线生态观测数据异常检测方法,其特征在于:模型微调具体过程如下:
a)按照(2.2)中的索引区间(Dstart,Dend)从窗口W中取出数据序列HD,加入到模型微调训练数据集合TD{HD}中,设置Dstart为Dend;如果数据序列HD的长度小于参数Lmin,则计算的HD特征向量VD,利用特征向量VD按照特征几何距离最小的方法从历史数据漂移分段列表DL中匹配分段Hsk,并将其加入到数据集合中,构成数据集合TD{HD,Hsk};
b)将数据集合TD中的数据划分为训练集和测试集,置学习率为参数γ,对历史数据异常检测模型进行训练微调,获取在线异常检测模型/>
9.一种数据异常检测系统,其特征在:该异常检测系统应用于权利要求1所述的在线生态观测数据异常检测方法,包括如下模块:
历史数据漂移检测和漂移分段列表管理模块:用于漂移分段检测、漂移分段存储、增加、删除,并为在线数据异常监测提供漂移分段匹配服务;
数据异常在线检测模块:用于在线接收生态观测数据、对接收到的生态观测数据进行异常检测、对异常数据进行标记,并对在线异常检测结果进行报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310914974.XA CN116933136A (zh) | 2023-07-25 | 2023-07-25 | 一种在线生态观测数据异常检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310914974.XA CN116933136A (zh) | 2023-07-25 | 2023-07-25 | 一种在线生态观测数据异常检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116933136A true CN116933136A (zh) | 2023-10-24 |
Family
ID=88392086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310914974.XA Pending CN116933136A (zh) | 2023-07-25 | 2023-07-25 | 一种在线生态观测数据异常检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116933136A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114819173A (zh) * | 2021-01-19 | 2022-07-29 | 中强光电股份有限公司 | 异常侦测装置和异常侦测方法 |
-
2023
- 2023-07-25 CN CN202310914974.XA patent/CN116933136A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114819173A (zh) * | 2021-01-19 | 2022-07-29 | 中强光电股份有限公司 | 异常侦测装置和异常侦测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008253B (zh) | 一种工业数据关联规则挖掘及异常工况预测方法 | |
CN110018670B (zh) | 一种基于动态关联规则挖掘的工业过程异常工况预测方法 | |
CN116933136A (zh) | 一种在线生态观测数据异常检测方法及系统 | |
KR101908865B1 (ko) | 기온 측정 자료의 품질 분석방법 | |
CN111143413A (zh) | 基于数据流概念漂移的异常检测方法 | |
CN109002792B (zh) | 基于分层多模型度量学习的sar图像变化检测方法 | |
CN108268901B (zh) | 一种基于动态时间弯曲距离发现环境监测异常数据的方法 | |
CN111612050A (zh) | 遥测数据异常检测的方法 | |
CN113255590A (zh) | 一种缺陷检测模型训练方法、缺陷检测方法、装置及系统 | |
CN111626351B (zh) | 一种用于获取数据分布的概念漂移量的方法和系统 | |
CN114048546A (zh) | 一种基于图卷积网络和无监督域自适应的航空发动机剩余使用寿命预测方法 | |
CN116662861A (zh) | 基于数字孪生模型驱动的多域图迁移轴承寿命预测方法 | |
CN112163020A (zh) | 一种多维时间序列异常检测方法及检测系统 | |
CN116432032A (zh) | 基于多源数据和机器学习的气象数据异常事件识别方法 | |
CN115151942B (zh) | 基于卷积神经网络模型训练的带钢表面缺陷检测方法 | |
CN115063337A (zh) | 埋地管道智能维修决策方法及装置 | |
CN117350897A (zh) | 一种考虑空气湿度的转换功率预测的方法和系统 | |
CN110751201B (zh) | 基于纹理特征变换的sar装备任务失效成因推理方法 | |
CN112329868A (zh) | 基于clara聚类的制造加工设备群能效状态评价方法 | |
CN108182492B (zh) | 一种资料同化方法及装置 | |
CN111738259A (zh) | 一种杆塔状态检测方法及装置 | |
CN116317103A (zh) | 一种配电网电压数据处理方法 | |
CN116702064A (zh) | 电力工器具的作业行为估计方法、系统、存储介质及设备 | |
CN106355041B (zh) | 油浸式变压器在线监测数据与带电检测数据融合矫正的方法 | |
CN115496291A (zh) | 基于高精度残缺值的聚类型数据增广气象温度预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |