CN114547145B - 一种时序数据异常检测方法、系统、存储介质及设备 - Google Patents
一种时序数据异常检测方法、系统、存储介质及设备 Download PDFInfo
- Publication number
- CN114547145B CN114547145B CN202210157394.6A CN202210157394A CN114547145B CN 114547145 B CN114547145 B CN 114547145B CN 202210157394 A CN202210157394 A CN 202210157394A CN 114547145 B CN114547145 B CN 114547145B
- Authority
- CN
- China
- Prior art keywords
- data
- detection
- windows
- probability density
- density distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 169
- 238000012937 correction Methods 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 35
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 230000003044 adaptive effect Effects 0.000 claims description 23
- 230000005856 abnormality Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 206010033799 Paralysis Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Complex Calculations (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明提供了一种时序数据异常检测方法、系统、存储介质及设备,方法包括:将时序数据的主窗口平均划分为多个子窗口,得到若干历史数据窗口和检测窗口,检测窗口包含部分历史数据和最新被测数据;分别计算多个子窗口的概率密度分布模型;对检测窗口的概率密度分布模型进行第一自适应修正,以得到其新概率密度分布模型,并对检测窗口的数据进行第二自适应修正,以得到其新数据;基于若干历史数据窗口的数据和新数据得到新主窗口数据,对其进行采样,得到目标数据集;计算多个子窗口的特征向量,并基于相邻子窗口的特征向量的距离得到距离集合;基于距离集合以及预设检测规则对最新被测数据进行异常检测。本发明提高了时序数据异常检测的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种时序数据异常检测方法、系统、存储介质及设备。
背景技术
随着数据挖掘和人工智能领域技术的迅速发展和日渐成熟,智能运维技术被越来越多地应用在企业运维系统,不仅降低运维成本,而且提高运维效率,减少企业损失。时序数据异常检测是智能运维中的关键技术之一,快速准确的检测系统与服务中出现的异常,对后续的根因定位、智能决策等起着很大的作用,在实际中具有很高的应用价值和意义。
异常检测的方法主要分为两类:有监督学习和无监督学习。有监督学习因为需要大量的带标签的数据,限制了其在实际中的应用。无监督学习主要基于统计分析技术,分为参数估计和非参数估计两个方向。参数估计由于难以预知数据的先验知识及分布特征,而且假设的分布与真实的分布差异很大,往往很难得到准确的结果。非参数估计不加入任何先验知识,根据数据本身的特点和性质来拟合数据特征,与有参估计方法相比能得到更好的模型,可以更为准确地刻画当前窗口数据与历史数据的趋势差异,在实际中有很好的应用。在实际数据异常检测中,如何能够更加准确地检测异常,降低漏报率和告警延迟,避免因此导致的服务和系统停滞甚至瘫痪,减少企业损失,是异常检测领域一个亟待解决的热点问题。
第一类现有的技术方案是基于神经网络的异常检测方法,其属于监督学习领域,主要依据大量的带标签的数据来训练模型参数,优化损失值,实现对数据趋势的预测和异常数据的检测。但是由于获取大量带标签数据难度很大,且无法保证正确性,限制了其在实际中的使用。
第二类现有的技术方案是基于核密度估计的异常检测技术,其属于非参数估计,是时序数据异常检测较为常用的一种方法。它不需要预知时序数据的先验知识,通过分析检测窗口数据与历史数据的分布差异性,来确定当前时刻数据是否为异常数据。但是由于新的被检测数据占比很小,对检测窗口的数据分布影响甚微,与历史数据的趋势变化不明显,导致真实的异常数据出现漏检或者告警延迟。
发明内容
有鉴于此,本发明的目的在于提出一种时序数据异常检测方法、系统、存储介质及设备,用以解决现有技术中的时序数据异常检测方法的准确性和可靠性低的问题。
基于上述目的,本发明提供了一种时序数据异常检测方法,包括以下步骤:
获取时序数据,且时序数据包括历史数据和最新被测数据,并确定时序数据的主窗口,并将主窗口平均划分为多个子窗口,以得到若干历史数据窗口和检测窗口,且检测窗口包含部分历史数据和最新被测数据;
分别计算多个子窗口的概率密度分布模型;
对检测窗口的概率密度分布模型进行第一自适应修正,以得到其新概率密度分布模型,并对检测窗口的数据进行第二自适应修正,以得到其新数据;
基于若干历史数据窗口的数据和新数据得到新主窗口数据,并对新主窗口数据进行采样,以得到目标数据集;
基于目标数据集以及若干历史数据窗口的概率密度分布模型和新概率密度分布模型得到多个子窗口的特征向量,并基于相邻子窗口的特征向量的距离得到距离集合;
基于距离集合以及对应的预设检测规则对最新被测数据进行异常检测。
在一些实施例中,对检测窗口的概率密度分布模型进行第一自适应修正,以得到其新概率密度分布模型包括:
基于以下公式对检测窗口的概率密度分布模型进行第一自适应修正,以得到检测窗口的新概率密度分布模型:
其中,x表示检测窗口的数据;n表示检测窗口的数据的数量;参数α表示自适应修正强度,其取值范围为[0,1];参数λ表示自适应调节参数;参数ξ表示自适应修正偏移参数;σold表示检测窗口的数据的标准差;f(x)表示检测窗口的概率密度分布模型;fnew(x)表示检测窗口的新概率密度分布模型。
在一些实施例中,对检测窗口的数据进行第二自适应修正,以得到其新数据包括:
基于参数α和参数λ对检测窗口的数据进行第二自适应修正,以得到检测窗口的新数据。
在一些实施例中,对新主窗口数据进行采样,以得到目标数据集包括:
获取新主窗口数据中数值最大的最大数据和数值最小的最小数据,并将最大数据和最小数据组成的主区间平均划分为多个子区间;
获取每个子区间的中点处的数据作为目标数据,且将所有的目标数据组成目标数据集。
在一些实施例中,基于距离集合以及对应的预设检测规则对最新被测数据进行异常检测包括:
基于距离集合得到其平均距离和最大距离;
基于相邻子窗口的特征向量的距离、平均距离和最大距离观测检测窗口的新概率密度分布模型与其相邻子窗口的概率密度分布模型的分布趋势差异,以对最新被测数据进行异常检测。
在一些实施例中,分别计算多个子窗口的概率密度分布模型包括:
分别使用核密度估计算法计算多个子窗口的数据的概率密度分布模型。
在一些实施例中,方法还包括:
响应于检测到最新被测数据异常,发出关于最新被测数据异常的告警信息。
本发明的另一方面,还提供了一种时序数据异常检测系统,包括:
数据划分模块,配置用于获取时序数据,且时序数据包括历史数据和最新被测数据,并确定时序数据的主窗口,并将主窗口平均划分为多个子窗口,以得到若干历史数据窗口和检测窗口,且检测窗口包含部分历史数据和最新被测数据;
计算模块,配置用于分别计算多个子窗口的概率密度分布模型;
自适应修正模块,配置用于对检测窗口的概率密度分布模型进行第一自适应修正,以得到其新概率密度分布模型,并对检测窗口的数据进行第二自适应修正,以得到其新数据;
采样模块,配置用于基于若干历史数据窗口的数据和新数据得到新主窗口数据,并对新主窗口数据进行采样,以得到目标数据集;
距离模块,配置用于基于目标数据集以及若干历史数据窗口的概率密度分布模型和新概率密度分布模型得到多个子窗口的特征向量,并基于相邻子窗口的特征向量的距离得到距离集合;以及
异常检测模块,配置用于基于距离集合以及对应的预设检测规则对最新被测数据进行异常检测。
本发明的又一方面,还提供了一种计算机可读存储介质,存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述方法。
本发明的再一方面,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该计算机程序被处理器执行时执行上述方法。
本发明至少具有以下有益技术效果:
本发明通过对原概率密度分布模型进行第一自适应修正,并对检测窗口的数据进行第二自适应修正,提高了最新被测数据对检测窗口数据分布的影响,避免了由于最新被测数据在检测窗口中占比小而对概率密度分布进行分析时参考价值小的问题;通过对新主窗口数据进行采样得到新的目标数据集,可以对更少的数据进行计算,提高了计算效率;通过设置距离集合和检测规则,可以更加准确地描述检测数据与历史数据的趋势分布差异,提高了对最新被测数据的异常检测的精度和准确率,进而可以降低漏报率和告警延迟。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明实施例提供的时序数据异常检测方法的示意图;
图2为根据本发明实施例提供的时序数据异常检测方法的流程示意图;
图3为根据本发明实施例提供的时序数据异常检测系统的示意图;
图4为根据本发明实施例提供的实现时序数据异常检测方法的计算机可读存储介质的示意图;
图5为根据本发明实施例提供的执行时序数据异常检测方法的计算机设备的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称的非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备固有的其他步骤或单元。
基于上述目的,本发明实施例的第一个方面,提出了一种时序数据异常检测方法的实施例。图1示出的是本发明提供的时序数据异常检测方法的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
步骤S10、获取时序数据,且时序数据包括历史数据和最新被测数据,并确定时序数据的主窗口,并将主窗口平均划分为多个子窗口,以得到若干历史数据窗口和检测窗口,且检测窗口包含部分历史数据和最新被测数据;
步骤S20、分别计算多个子窗口的概率密度分布模型;
步骤S30、对检测窗口的概率密度分布模型进行第一自适应修正,以得到其新概率密度分布模型,并对检测窗口的数据进行第二自适应修正,以得到其新数据;
步骤S40、基于若干历史数据窗口的数据和新数据得到新主窗口数据,并对新主窗口数据进行采样,以得到目标数据集;
步骤S50、基于目标数据集以及若干历史数据窗口的概率密度分布模型和新概率密度分布模型得到多个子窗口的特征向量,并基于相邻子窗口的特征向量的距离得到距离集合;
步骤S60、基于距离集合以及对应的预设检测规则对最新被测数据进行异常检测。
本发明实施例通过对原概率密度分布模型进行第一自适应修正,并对检测窗口的数据进行第二自适应修正,提高了最新被测数据对检测窗口数据分布的影响,避免了由于最新被测数据在检测窗口中占比小而对概率密度分布进行分析时参考价值小的问题;通过对新主窗口数据进行采样得到新的目标数据集,可以对更少的数据进行计算,提高了计算效率;通过设置距离集合和检测规则,可以更加准确地描述检测数据与历史数据的趋势分布差异,提高了对最新被测数据的异常检测的精度和准确率,进而可以降低漏报率和告警延迟。
本发明实施例的时序数据异常检测方法可以应用在具有时间序列数据的异常分析领域,比如视频领域、信号处理领域以及自然语言处理等。
在一些实施例中,对检测窗口的概率密度分布模型进行第一自适应修正,以得到其新概率密度分布模型包括:基于以下公式对检测窗口的概率密度分布模型进行第一自适应修正,以得到检测窗口的新概率密度分布模型:
其中,x表示检测窗口的数据;n表示检测窗口的数据的数量;参数α表示自适应修正强度,其取值范围为[0,1];参数λ表示自适应调节参数;参数ξ表示自适应修正偏移参数;σold表示检测窗口的数据的标准差;f(x)表示检测窗口的概率密度分布模型;fnew(x)表示检测窗口的新概率密度分布模型。
在一些实施例中,对检测窗口的数据进行第二自适应修正,以得到其新数据包括:基于参数α和参数λ对检测窗口的数据进行第二自适应修正,以得到检测窗口的新数据。
在一些实施例中,对新主窗口数据进行采样,以得到目标数据集包括:获取新主窗口数据中数值最大的最大数据和数值最小的最小数据,并将最大数据和最小数据组成的主区间平均划分为多个子区间;获取每个子区间的中点处的数据作为目标数据,且将所有的目标数据组成目标数据集。
在一些实施例中,基于距离集合以及对应的预设检测规则对最新被测数据进行异常检测包括:基于距离集合得到其平均距离和最大距离;基于相邻子窗口的特征向量的距离、平均距离和最大距离观测检测窗口的新概率密度分布模型与其相邻子窗口的概率密度分布模型的分布趋势差异,以对最新被测数据进行异常检测。
在一些实施例中,分别计算多个子窗口的概率密度分布模型包括:分别使用核密度估计算法计算多个子窗口的数据的概率密度分布模型。
在一些实施例中,方法还包括:响应于检测到最新被测数据异常,发出关于最新被测数据异常的告警信息。
图2示出了本发明的时序数据检测方法的流程示意图。如图2所示,本发明的时序数据异常检测方法的具体实施例如下:
(1)时序数据即是随时间变化的数据,每一个时刻对应一个观测值。对于时序数据,首先确定主窗口W,其大小记为N,将其划分为多个大小相等且不重叠的子窗口{w1,w2,......,wm},每个子窗口大小记为n。其中子窗口wm是检测窗口,包含最新被测数据xt,记为Xm={x1,x2,......,xn},这里xn即为t时刻的检测数据xt。
(2)对于每个子窗口wi,使用核密度估计算法估计其对应数据的概率密度分布模型,记为fw|i,1≤i≤m。本实施例使用高斯核进行核密度估计,其中带宽参数(平滑参数)由经验法则来确定:
其中,n是每个子窗口的大小,σw|i是第i个子窗口的标准差。
(3)对于检测窗口的概率密度分布模型fw|m进行第一自适应修正的过程,即是寻找映射G的过程:其中G是自适应修正映射。在本发明中给出一种映射方法:
其中,n表示原检测窗口大小;参数α表示自适应修正强度,取值范围为[0,1],α取值越大则对概率密度分布修正的强度越大;λ表示自适应调节参数,ξ表示自适应修正偏移,σold表示原检测窗口数据Xm的标准差。
由此可以得到修正后的概率密度:
(4)确定函数中的参数。在给定的自适应强度参数α和自适应修正偏移参数ξ,求解最优的自适应调节参数λ。本实施例中将其规约为一个优化问题,优化的目标函数及约束条件为:
其中,即Ym是使用参数α,ξ对数据集Xm修正后的数据集。具体地,根据自适应强度参数α和自适应修正偏移参数ξ将Xm中相应偏移位置的数据替换为最新被测数据xt,由此将Xm经过第二自适应修正得到检测窗口的新数据。fkde(Ym)是针对Ym的原概率密度分布模型。在目标函数最小时,对应得到最优的自适应调节参数λ。
上述将数据分布模型自适应映射到新的数据分布模型,以及将求解相关自适应修正参数的过程规约为一个优化问题,用户也可以根据不同的需求,修改映射方式及参数,修改求解自适应修正参数。
(5)修正后的数据Ym及其余子窗口的所有数据构成新的主窗口数据构建目标数据集/>目标数据集的大小为p,其中p<n。目标数据集是从观测值的范围中均匀采样p个点,来衡量观测数据的分布趋势。采样流程如下:
获取新的主窗口时序数据的最大和最小观测值,记为Wmax和Wmin;
将区间[Wmin,Wmax]等距分割为p个子区间,取每个子区间的中点观测值作为对应子区间的目标点,即:
所有子区间的中点构成目标数据集
(6)在目标数据集上,基于每个子窗口的概率分布模型,计算其对应的特征向量vector。即:fw|i是窗口wi的概率分布模型,在目标数据集上的特征向量vectori=fw|i(Targets),维度为p,检测窗口使用修正后的概率密度分布函数/>
(7)定义子窗口特征向量的距离,作为分析子窗口的数据趋势差异的基础。
使用L1距离定义相邻两个子窗口对应特征向量vectork和vector(k+1)的距离。计算公式为:
构建特征向量距离集合其中不包括检测窗口和前一个相邻子窗口的距离d(vector(m-1),vectorm)。
基于特征向量距离集合D,计算其绝对差集其中len(D)表示集合D的长度。
计算扩展的最大距离Dmax=max(D)+min(C),来表示窗口数据趋势变化的最大值,即上限;当超过这个上限时,说明趋势变化异常,检测到异常数据。
计算集合D的平均距离:
其中,len(D)=(m-2)是集合D的长度。
(8)定义异常检测规则如下:
首先给出指示变量st的定义:
st的取值范围是{0,1},初始值为0。
①当检测窗口wm和相邻子窗口w(m-1)的描述子向量距离大于历史窗口的最大距离Dmax时,说明窗口wm和w(m-1)的数据趋势变化出现异常;
②当窗口w(m-1)与w(m-2)的描述子向量距离小于等于历史窗口的平均距离Davg时,说明窗口w(m-2)的数据分布异常的可能性很低;
③当①和②同时成立的时候,表明检测窗口wm与相邻子窗口w(m-1)数据正常的距离超过了数据分布趋势变化的上限,说明检测窗口的数据xt明显偏离历史数据分布,为异常数据;
④除此之外,指示变量取值为0,说明数据分布趋势没有出现异常。
接下来定义异常检测的标记变量lt:
其中s(t-1)和st分别是当前检测时刻和上一个检测时刻子窗口的指示变量,lt为当前时刻观测值xt的标记变量,取值范围是{0,1},当lt=1时进行异常告警,lt=0不告警。本实施例只对第一个检测到的异常数据进行告警,即当前时刻st为1时并且上一个时刻的指示变量s(t-1)为0时,进行告警。而对于告警之后出现的连续异常数据不告警,只将其标记为异常,即当前时刻st为1时并且上一时刻s(t-1)为1时不进行告警,这样就可以避免连续频繁地告警,从而实现告警信息的压缩。
以下为本发明的时序数据异常检测方法的一示例性实施例:
1)使用公开数据集(例如nyc_taxi)的数据进行测试。确定主窗口W,大小为N=900个时间点数据。将其划分为20个子窗口{w1,w2,......,w20},每个子窗口的大小为n=45。
2)对每个子窗口使用高斯核,进行核密度估计概率密度分布模型,{fw|1,fw|2,......,fw|20}。
3)设置自适应修正强度α=0.1,自适应修正偏移ξ=xt。对于概率密度分布模型fw|20进行修正得到同时检测窗口数据集由X20修正为Y20。
4)假设fkde(Y20)是使用核密度估计算法得到的概率密度分布。通过最小二乘法来优化目标函数:
由此确定最优的参数λ。经实验测试,最优值λ=0.001,对应最小的Loss=0.06。
5)构建目标数据集Targets,大小为p=20。
6)根据目标数据集和每个子窗口的概率密度分布模型得到子窗口对应的特征向量{vector1,vector2,......,vector20}。
7)计算相邻特征向量的L1距离,得到距离集合D={d1,d2,......,d18}。
8)基于特征向量距离集合D,计算其绝对差集
9)计算扩展的最大距离Dmax=max(D)+min(C)。
10)计算集合D的平均距离:
11)根据异常检测规则,判断数据xt是否异常。
本发明实施例的第二个方面,还提供了一种时序数据异常检测系统。图3示出的是本发明提供的时序数据异常检测系统的实施例的示意图。如图3所示,一种时序数据异常检测系统包括:数据划分模块10,配置用于获取时序数据,且时序数据包括历史数据和最新被测数据,并确定时序数据的主窗口,并将主窗口平均划分为多个子窗口,以得到若干历史数据窗口和检测窗口,且检测窗口包含部分历史数据和最新被测数据;计算模块20,配置用于分别计算多个子窗口的概率密度分布模型;自适应修正模块30,配置用于对检测窗口的概率密度分布模型进行第一自适应修正,以得到其新概率密度分布模型,并对检测窗口的数据进行第二自适应修正,以得到其新数据;采样模块40,配置用于基于若干历史数据窗口的数据和新数据得到新主窗口数据,并对新主窗口数据进行采样,以得到目标数据集;距离模块50,配置用于基于目标数据集以及若干历史数据窗口的概率密度分布模型和新概率密度分布模型得到多个子窗口的特征向量,并基于相邻子窗口的特征向量的距离得到距离集合;以及异常检测模块60,配置用于基于距离集合以及对应的预设检测规则对最新被测数据进行异常检测。
本发明实施例的第三个方面,还提供了一种计算机可读存储介质,图4示出了根据本发明实施例提供的实现时序数据异常检测方法的计算机可读存储介质的示意图。如图4所示,计算机可读存储介质3存储有计算机程序指令31。该计算机程序指令31被处理器执行时实现上述任意一项实施例的方法。
应当理解,在相互不冲突的情况下,以上针对根据本发明的时序数据异常检测方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的时序数据异常检测系统和存储介质。
本发明实施例的第四个方面,还提供了一种计算机设备,包括如图5所示的存储器402和处理器401,该存储器402中存储有计算机程序,该计算机程序被该处理器401执行时实现上述任意一项实施例的方法。
如图5所示,为本发明提供的执行时序数据异常检测方法的计算机设备的一个实施例的硬件结构示意图。以如图5所示的计算机设备为例,在该计算机设备中包括一个处理器401以及一个存储器402,并还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图5中以通过总线连接为例。输入装置403可接收输入的数字或字符信息,以及产生与时序数据异常检测系统的用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的时序数据异常检测方法对应的程序指令/模块。存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储时序数据异常检测方法的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的时序数据异常检测方法。
最后需要说明的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (8)
1.一种时序数据异常检测方法,其特征在于,包括以下步骤:
获取时序数据,且所述时序数据包括历史数据和最新被测数据,并确定所述时序数据的主窗口,并将所述主窗口平均划分为多个子窗口,以得到若干历史数据窗口和检测窗口,且所述检测窗口包含部分历史数据和所述最新被测数据;
分别计算所述多个子窗口的概率密度分布模型;
对所述检测窗口的概率密度分布模型进行第一自适应修正,以得到其新概率密度分布模型,并对所述检测窗口的数据进行第二自适应修正,以得到其新数据;
基于所述若干历史数据窗口的数据和所述新数据得到新主窗口数据,并对所述新主窗口数据进行采样,以得到目标数据集;
基于所述目标数据集以及所述若干历史数据窗口的概率密度分布模型和所述新概率密度分布模型得到所述多个子窗口的特征向量,并基于相邻子窗口的特征向量的距离得到距离集合;
基于所述距离集合以及对应的预设检测规则对所述最新被测数据进行异常检测;
对所述检测窗口的概率密度分布模型进行第一自适应修正,以得到其新概率密度分布模型包括:
基于以下公式对所述检测窗口的概率密度分布模型进行第一自适应修正,以得到所述检测窗口的新概率密度分布模型:
其中,表示所述检测窗口的数据;/>表示所述检测窗口的数据的数量;参数/>表示自适应修正强度,其取值范围为[0,1];参数/>表示自适应调节参数;参数/>表示自适应修正偏移参数;/>表示所述检测窗口的数据的标准差;/>表示所述检测窗口的概率密度分布模型;/>表示所述检测窗口的新概率密度分布模型;
对所述检测窗口的数据进行第二自适应修正,以得到其新数据包括:
基于所述参数和所述参数/>对所述检测窗口的数据进行第二自适应修正,以得到所述检测窗口的新数据。
2.根据权利要求1所述的方法,其特征在于,对所述新主窗口数据进行采样,以得到目标数据集包括:
获取所述新主窗口数据中数值最大的最大数据和数值最小的最小数据,并将所述最大数据和所述最小数据组成的主区间平均划分为多个子区间;
获取每个所述子区间的中点处的数据作为目标数据,且将所有的所述目标数据组成目标数据集。
3.根据权利要求1所述的方法,其特征在于,基于所述距离集合以及对应的预设检测规则对所述最新被测数据进行异常检测包括:
基于所述距离集合得到其平均距离和最大距离;
基于相邻子窗口的特征向量的距离、所述平均距离和所述最大距离观测所述检测窗口的所述新概率密度分布模型与其相邻子窗口的概率密度分布模型的分布趋势差异,以对所述最新被测数据进行异常检测。
4.根据权利要求1所述的方法,其特征在于,分别计算所述多个子窗口的概率密度分布模型包括:
分别使用核密度估计算法计算所述多个子窗口的数据的概率密度分布模型。
5.根据权利要求1所述的方法,其特征在于,还包括:
响应于检测到所述最新被测数据异常,发出关于所述最新被测数据异常的告警信息。
6.一种时序数据异常检测系统,其特征在于,包括:
数据划分模块,配置用于获取时序数据,且所述时序数据包括历史数据和最新被测数据,并确定所述时序数据的主窗口,并将所述主窗口平均划分为多个子窗口,以得到若干历史数据窗口和检测窗口,且所述检测窗口包含部分历史数据和所述最新被测数据;
计算模块,配置用于分别计算所述多个子窗口的概率密度分布模型;
自适应修正模块,配置用于对所述检测窗口的概率密度分布模型进行第一自适应修正,以得到其新概率密度分布模型,并对所述检测窗口的数据进行第二自适应修正,以得到其新数据;
采样模块,配置用于基于所述若干历史数据窗口的数据和所述新数据得到新主窗口数据,并对所述新主窗口数据进行采样,以得到目标数据集;
距离模块,配置用于基于所述目标数据集以及所述若干历史数据窗口的概率密度分布模型和所述新概率密度分布模型得到所述多个子窗口的特征向量,并基于相邻子窗口的特征向量的距离得到距离集合;以及
异常检测模块,配置用于基于所述距离集合以及对应的预设检测规则对所述最新被测数据进行异常检测;
对所述检测窗口的概率密度分布模型进行第一自适应修正,以得到其新概率密度分布模型包括:
基于以下公式对所述检测窗口的概率密度分布模型进行第一自适应修正,以得到所述检测窗口的新概率密度分布模型:
其中,表示所述检测窗口的数据;/>表示所述检测窗口的数据的数量;参数/>表示自适应修正强度,其取值范围为[0,1];参数/>表示自适应调节参数;参数/>表示自适应修正偏移参数;/>表示所述检测窗口的数据的标准差;/>表示所述检测窗口的概率密度分布模型;/>表示所述检测窗口的新概率密度分布模型;
对所述检测窗口的数据进行第二自适应修正,以得到其新数据包括:
基于所述参数和所述参数/>对所述检测窗口的数据进行第二自适应修正,以得到所述检测窗口的新数据。
7.一种计算机可读存储介质,其特征在于,存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的方法。
8.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时执行如权利要求1-5任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210157394.6A CN114547145B (zh) | 2022-02-21 | 2022-02-21 | 一种时序数据异常检测方法、系统、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210157394.6A CN114547145B (zh) | 2022-02-21 | 2022-02-21 | 一种时序数据异常检测方法、系统、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114547145A CN114547145A (zh) | 2022-05-27 |
CN114547145B true CN114547145B (zh) | 2024-01-26 |
Family
ID=81675659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210157394.6A Active CN114547145B (zh) | 2022-02-21 | 2022-02-21 | 一种时序数据异常检测方法、系统、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114547145B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115158399B (zh) * | 2022-06-14 | 2023-10-17 | 通号城市轨道交通技术有限公司 | 时序信号异常检测方法及系统 |
CN116881646B (zh) * | 2023-09-06 | 2023-11-21 | 山东奥晶生物科技有限公司 | 一种甜菊糖苷生产监测数据管理系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205112A (zh) * | 2015-09-01 | 2015-12-30 | 西安交通大学 | 一种时序数据异常特征的挖掘系统及方法 |
CN108234524A (zh) * | 2018-04-02 | 2018-06-29 | 广州广电研究院有限公司 | 网络数据异常检测的方法、装置、设备及存储介质 |
CN108965055A (zh) * | 2018-07-17 | 2018-12-07 | 成都力鸣信息技术有限公司 | 一种基于历史时间取点法的网络流量异常检测方法 |
CN109978379A (zh) * | 2019-03-28 | 2019-07-05 | 北京百度网讯科技有限公司 | 时序数据异常检测方法、装置、计算机设备和存储介质 |
WO2019237516A1 (zh) * | 2018-06-11 | 2019-12-19 | 平安科技(深圳)有限公司 | 目标跟踪方法、装置、计算机设备及存储介质 |
CN111767930A (zh) * | 2019-04-01 | 2020-10-13 | 北京百度网讯科技有限公司 | 物联网时序数据异常检测方法及其相关设备 |
CN112818066A (zh) * | 2019-11-15 | 2021-05-18 | 深信服科技股份有限公司 | 一种时序数据异常检测方法、装置及电子设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9075713B2 (en) * | 2012-05-24 | 2015-07-07 | Mitsubishi Electric Research Laboratories, Inc. | Method for detecting anomalies in multivariate time series data |
US9779361B2 (en) * | 2014-06-05 | 2017-10-03 | Mitsubishi Electric Research Laboratories, Inc. | Method for learning exemplars for anomaly detection |
-
2022
- 2022-02-21 CN CN202210157394.6A patent/CN114547145B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205112A (zh) * | 2015-09-01 | 2015-12-30 | 西安交通大学 | 一种时序数据异常特征的挖掘系统及方法 |
CN108234524A (zh) * | 2018-04-02 | 2018-06-29 | 广州广电研究院有限公司 | 网络数据异常检测的方法、装置、设备及存储介质 |
WO2019237516A1 (zh) * | 2018-06-11 | 2019-12-19 | 平安科技(深圳)有限公司 | 目标跟踪方法、装置、计算机设备及存储介质 |
CN108965055A (zh) * | 2018-07-17 | 2018-12-07 | 成都力鸣信息技术有限公司 | 一种基于历史时间取点法的网络流量异常检测方法 |
CN109978379A (zh) * | 2019-03-28 | 2019-07-05 | 北京百度网讯科技有限公司 | 时序数据异常检测方法、装置、计算机设备和存储介质 |
CN111767930A (zh) * | 2019-04-01 | 2020-10-13 | 北京百度网讯科技有限公司 | 物联网时序数据异常检测方法及其相关设备 |
CN112818066A (zh) * | 2019-11-15 | 2021-05-18 | 深信服科技股份有限公司 | 一种时序数据异常检测方法、装置及电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114547145A (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114547145B (zh) | 一种时序数据异常检测方法、系统、存储介质及设备 | |
Sarmadi et al. | Bridge health monitoring in environmental variability by new clustering and threshold estimation methods | |
CN110807024A (zh) | 动态阈值异常检测方法、系统、存储介质及智能设备 | |
CN113608566B (zh) | 一种纺织车间的环境监控调整方法及系统 | |
CN111667010A (zh) | 基于人工智能的样本评估方法、装置、设备及存储介质 | |
JP2015230727A (ja) | 時系列データ内の異常を検出する方法 | |
CN113518011A (zh) | 异常检测方法和装置、电子设备及计算机可读存储介质 | |
CN112699946B (zh) | 一种针对传感监测数据的异常检测方法、装置及相关设备 | |
CN117114213B (zh) | 一种村网共建便民网络服务方法及系统 | |
CN116684878B (zh) | 一种5g信息传输数据安全监测系统 | |
CN109814101B (zh) | 一种航空器位置预测的方法及装置 | |
CN115617606A (zh) | 设备监测方法和系统、电子设备、存储介质 | |
Xu et al. | A lof-based method for abnormal segment detection in machinery condition monitoring | |
KR20190008515A (ko) | 개선된 sax 기법 및 rtc 기법을 이용한 공정 모니터링 장치 및 방법 | |
CN112565187A (zh) | 基于逻辑回归的电网攻击检测方法、系统、设备及介质 | |
CN113723716A (zh) | 一种客流分级预警异常告警方法、设备及存储介质 | |
CN114285612B (zh) | 一种异常数据检测的方法、系统、装置、设备及介质 | |
CN117849302A (zh) | 一种多参数水质在线监测方法 | |
CN113111585A (zh) | 一种智能机柜故障预测方法、系统及智能机柜 | |
CN113110961A (zh) | 设备异常检测方法、装置、计算机设备及可读存储介质 | |
CN113158448A (zh) | 一种船舶系统设备阈值的自适应计算方法 | |
CN115221471B (zh) | 一种异常数据的识别方法、装置、存储介质及计算机设备 | |
US11283705B2 (en) | Anomaly detector, anomaly detection network, method for detecting an abnormal activity, model determination unit, system, and method for determining an anomaly detection model | |
CN113570070B (zh) | 流式数据采样与模型更新方法、装置、系统与存储介质 | |
CN113377630B (zh) | 一种通用的kpi异常检测框架实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |