CN114218009A

CN114218009A - 一种时间序列异常值检测方法、装置、设备及存储介质

Info

Publication number: CN114218009A
Application number: CN202111666924.1A
Authority: CN
Inventors: 陈静静; 吴睿振; 张永兴; 张旭; 王凛
Original assignee: Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Current assignee: Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-03-22

Abstract

本发明公开了一种时间序列异常值检测方法、装置、设备及存储介质，该方法包括：获取当前需实现异常值检测的时间序列为待检测序列，使用STL分解算法将所述待检测序列分解为趋势分量、周期分量和余项；使用Boxplot和sigma搭配对所述余项进行异常值检测得到所述余项中的异常值，并确定所述余项中的异常值为目标值；确定所述目标值对应所述待检测序列中的值为所述待检测序列中的异常值，以实现所述时间序列的异常值检测。可见，本申请无需使用分类算法或者预测算法，更不需对历史数据进行人工标注，从而使得时间序列异常值检测能够简单易于实现。

Description

一种时间序列异常值检测方法、装置、设备及存储介质

技术领域

本发明涉及异常检测技术领域，更具体地说，涉及一种时间序列异常值检测方法、装置、设备及存储介质。

背景技术

异常检测(Anomaly detection)是目前时序数据分析最常研究的方向之一，定义是从正常的时间序列中识别出不正常的事件或行为的过程。时间序列的异常检测问题通常表述为找到相对于某些标准或常规信号的异常数据点，这里通常有多种异常点类型，从业务的角度来看，通常只专注于最重要的，如：意外的峰值、意外的低谷与趋势突变等。一般而言，很多异常可以通过人工的方式来判断；然而当业务组合复杂、时序规模变大后，依靠传统的人工和简单的同比环比等绝对值算法来判断就显得捉襟见肘了。因此，在面对各种各样的工业级场景时，系统的了解时间序列异常检测方法尤为重要。

基本上异常检测算法分为两类，第一类使用分类算法，将每个时间点标记为异常/非异常，然后通过分类算法对每个时间点进行分类，缺点是需要对历史数据的异常/非异常进行人工标注，对人为的判断有明显的依赖；第二类使用预测算法，预测某个点的信号，然后测试该点实际值是否与预测值的差，然后观察其差是否足以将其视为异常，缺点是依赖于预算算法的准确度。

发明内容

本发明的目的是提供一种时间序列异常值检测方法、装置、设备及存储介质，无需使用分类算法或者预测算法，更不需对历史数据进行人工标注，从而使得时间序列异常值检测能够简单易于实现。

为了实现上述目的，本发明提供如下技术方案：

一种时间序列异常值检测方法，包括：

获取当前需实现异常值检测的时间序列为待检测序列，使用STL分解算法将所述待检测序列分解为趋势分量、周期分量和余项；

使用Boxplot和sigma搭配对所述余项进行异常值检测得到所述余项中的异常值，并确定所述余项中的异常值为目标值；

确定所述目标值对应所述待检测序列中的值为所述待检测序列中的异常值，以实现所述时间序列的异常值检测。

优选的，使用Boxplot和sigma搭配对所述余项进行异常值检测得到所述余项中的异常值，包括：

使用Boxplot对所述余项进行处理得到相应的最大观测值及最小观测值，使用sigma对所述余项进行处理得到相应的sigma值；

基于所述最大观测值、所述最小观测值及所述sigma值得到相应的数据范围，并确定所述余项中未在所述数据范围内的值为所述余项中的异常值。

优选的，基于所述最大观测值、所述最小观测值及所述sigma值得到相应的数据范围，包括：

按照下列公式得到所述数据范围：

low＝3σ*ratio+min*(1-ratio)，

hight＝3σ*ratio+max*(1-ratio)；

其中，σ为所述sigma值，min为所述最小观测值，max为所述最大观测值，ratio为权重系数，low为所述数据范围中的最小值，hight为所述数据范围中的最大值。

优选的，使用Boxplot和sigma搭配对所述余项进行异常值检测得到所述余项中的异常值之前，还包括：

如果当前时刻之前对预设个时间序列进行异常值检测时，检测出的异常值数量大于数量阈值，则采用4sigma作为当前时刻之后实现时间序列中异常值检测时所用的sigma，否则采用3sigma作为当前时刻之后实现时间序列中异常值检测时所用的sigma。

优选的，确定所述目标值对应所述待检测序列中的值为所述待检测序列中的异常值之后，还包括：

剔除所述待检测序列中的异常值，并利用缺失值填充方式得到剔除的所述异常值对应的正常值，并将得到的正常值加入至所述待检测序列中。

优选的，利用缺失值填充方式得到剔除的所述异常值对应的正常值，包括：

获取所述待检测序列中除异常值之外的其他值的平均值，作为剔除的所述异常值对应的正常值。

优选的，将得到的正常值加入至所述待检测序列中之后，还包括：

基于所述待检测序列预测当前时刻之后任意时刻指定区域内的人流数据，并将该任意时刻及预测得到的该任意时刻的人流数据输出；其中，所述时间序列为所述指定区域内不同时间的人流数据。

一种时间序列异常值检测装置，包括：

分解模块，用于：获取当前需实现异常值检测的时间序列为待检测序列，使用STL分解算法将所述待检测序列分解为趋势分量、周期分量和余项；

检测模块，用于：使用Boxplot和sigma搭配对所述余项进行异常值检测得到所述余项中的异常值，并确定所述余项中的异常值为目标值；

确定模块，用于：确定所述目标值对应所述待检测序列中的值为所述待检测序列中的异常值，以实现所述时间序列的异常值检测。

一种时间序列异常值检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一项所述时间序列异常值检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述时间序列异常值检测方法的步骤。

本发明提供了一种时间序列异常值检测方法、装置、设备及存储介质，该方法包括：获取当前需实现异常值检测的时间序列为待检测序列，使用STL分解算法将所述待检测序列分解为趋势分量、周期分量和余项；使用Boxplot和sigma搭配对所述余项进行异常值检测得到所述余项中的异常值，并确定所述余项中的异常值为目标值；确定所述目标值对应所述待检测序列中的值为所述待检测序列中的异常值，以实现所述时间序列的异常值检测。本申请使用STL分解算法将待检测的时间序列分解为趋势分量、周期分量和余项，然后利用Boxplot和sigma的搭配准则对余项进行异常值检测，检测出来的余项的异常值所对应的时间序列的值就是异常值，以实现时间序列中异常值的检测。可见，本申请无需使用分类算法或者预测算法，更不需对历史数据进行人工标注，从而使得时间序列异常值检测能够简单易于实现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种时间序列异常值检测方法的流程图；

图2为本发明实施例提供的一种时间序列异常值检测方法中STL内循环过程的示意图；

图3为本发明实施例提供的一种时间序列异常值检测方法中的Boxplot箱型图；

图4为本发明实施例提供的一种时间序列异常值检测方法中Boxplot箱型图应用于异常值检测时的示意图；

图5为本发明实施例提供的一种时间序列异常值检测方法中STL时间序列分解图；

图6为本发明实施例提供的一种时间序列异常值检测方法中利用Boxplot和3sigma搭配的准则对余项进行异常值检测的示意图；

图7为本发明实施例提供的一种时间序列异常值检测方法中项的异常值所对应的时间序列的值就是异常值的示意图；

图8为本发明实施例提供的时间序列异常值检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种时间序列异常值检测方法的流程图，具体可以包括：

S11：获取当前需实现异常值检测的时间序列为待检测序列，使用STL分解算法将待检测序列分解为趋势分量、周期分量和余项。

其中，时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列；时间序列分析的主要目的是根据已有的历史数据对未来进行预测；根据观察时间的不同，时间序列中的时间可以是年份、季度、月份或其他任何时间形式；尤其经济数据中的大多数数据是以时间序列的形式给出的。

S12：使用Boxplot和sigma搭配对余项进行异常值检测得到余项中的异常值，并确定余项中的异常值为目标值。

S13：确定目标值对应待检测序列中的值为待检测序列中的异常值，以实现时间序列的异常值检测。

对于任意需要实现异常值检测的时间序列，本申请实施例中可以称之为待检测序列；利用STL(Seasonal-Trend decomposition procedure based on Loess)分解算法先将待检测序列分解为趋势分量、周期分量和余项，然后使用Boxplot和sigma搭配对余项进行异常值检测，从而在检测到余项中的异常值后，则可以确定待检测序列中与余项的异常值对应的值为待检测序列中的异常值，从而实现时间序列中的异常值检测。其中，STL分解算法为时序分解中一种常见的算法，基于LOESS(locally weighted regression，局部加权回归，是一种非参数学习算法)将某时刻的数据分解为趋势分量(trend component)、周期分量(seasonal component)和余项(remainder component)；Boxplot为箱形图，又称为盒须图、盒式图或箱线图，是一种用作显示一组数据分散情况资料的统计图，因形状如箱子而得名；sigma用于对已知平均数和标准差的正态分布数据进行快速推算。

本申请使用STL分解算法将待检测的时间序列分解为趋势分量、周期分量和余项，然后利用Boxplot和sigma的搭配准则对余项进行异常值检测，检测出来的余项的异常值所对应的时间序列的值就是异常值，以实现时间序列中异常值的检测。可见，本申请无需使用分类算法或者预测算法，更不需对历史数据进行人工标注，从而使得时间序列异常值检测能够简单易于实现。

需要说明的是，STL分解算法为时序分解中的算法，基于LOESS将某时刻的数据分解为趋势分量(trend component)、周期分量(seasonal component)和余项(remaindercomponent)，表示为如下公式:

Y_v＝T_v+S_v+R_v v＝1,2,3,…,N

其中，Y_v,T_v,S_v,R_v分别代表数据、趋势分量、周期分量和余项。

STL由两个循环机制组成，一个内循环嵌套在一个外循环里；其中内循环主要做了趋势拟合与周期分量的计算。

参数含义如下：

为内循环中第k-1次pass结束时的趋势分量、周期分量，初始时

n_(i)为内层循环数；n_(o)为外层循环数；n_(p)为一个周期的样本数；n_(s)为Step 2中LOESS的季节平滑参数；随着n_(s)的增加，每个周期子序列变得平滑；通常设定n_(s)为奇数，同时希望其至少为7；n_(l)为Step3中LOESS的低通滤波平滑参数；n_(l)通常可以认定为大于或等于n_(p)的最小奇数；这种设定有助于实现防止趋势和季节项在数据中出现相同变化；n_(t)为Step 6中LOESS的趋势平滑参数；随着n_(t)的增加，趋势项T_v会从Y_v中提取到更少的变化，也会变得更平滑；通常设定n_(t)为奇数；d为局部加权回归函数LOESS的最高次幂；如果数据的潜在模式有缓慢的弯曲，那么d＝1是合理的；但是如果有大量的弯曲，例如有很多峰和谷，那么d＝2是个更好的选择；q为取与计算数据点相邻的q个数据点；每个周期相同位置的样本点组成一个子序列(subseries)，容易知道这样的子序列共有n_(p)个，称其为cycle-subseries。

如图2所示，内循环主要可以分为以下6个步骤：

Step 1:去趋势(Detrending)，减去上一轮结果的趋势分量，

Step 2:周期子序列平滑(Cycle-subseries smoothing)，用LOESS(q＝n_n(s),d)对每个子序列做平滑，并向前向后各延展一个周期；平滑结果组成临时性周期分量，记为

Step 3:平滑周期子序列的低通量过滤(Low-Pass Filtering)，对上一个步骤的结果序列

依次做长度为n_(p)、n_(p)、3的滑动平均(moving average)，然后做LOESS(q＝n_n(l),d)平滑，得到结果序列

相当于提取周期子序列的低通量；

Step 4:平滑周期子序列的去趋势(Detrending of Smoothed Cycle-subseries)，

目的是防止低通量影响周期分量；

Step 5:去周期性(Deseasonalizing)，减去周期分量，

Step 6:趋势平滑(Trend Smoothing)，对于去除周期之后的序列做LOESS(q＝n_n(t),d)回归，得到趋势分量

内循环中的第2,3,4步是季节平滑，第6步是趋势平滑。

外层循环主要用于调节鲁棒性权重，如果数据序列中有异常值，则余项会较大；假设执行初次内循环后得到的趋势分量T_v和周期分量S_v的估计值，那么余项等于：

R_v＝Y_v-T_v-S_v

为每个数据点Y_v定义一个鲁棒性权重，鲁棒性权重反应了R_v的极端性；数据中的异常值会有非常大的|R_v|，这种情况下应该降低权重或使其为0。

定义：

h＝6*median(|R_v|)

对于位置为v的数据点，其鲁棒性权重为

ρ_v＝B(|R_v|/h)

其中B函数为二次函数：

然后每一次迭代的内循环中，在Step 2与Step 6中做LOESS回归时，邻域权重需要乘以鲁棒性权重ρ_v，以减少异常值对回归的影响。

STL的具体流程可以如下：

外循环:

计算鲁棒性权重；

内循环:

Step 1去趋势；

Step 2周期子序列平滑；

Step 3周期子序列的低通量过滤；

Step 4去除平滑周期子序列趋势；

Step 5去周期；

Step 6趋势平滑；

为了使得算法具有足够的鲁棒性，所以设计了内循环与外循环；特别地，当n_(i)足够大时，内循环结束时趋势分量与周期分量已收敛；若时序数据中没有明显的异常值，可以将n_(o)设为0。

本发明实施例提供的一种时间序列异常值检测方法，使用Boxplot和sigma搭配对余项进行异常值检测得到余项中的异常值，可以包括：

使用Boxplot对余项进行处理得到相应的最大观测值及最小观测值，使用sigma对余项进行处理得到相应的sigma值；

基于最大观测值、最小观测值及sigma值得到相应的数据范围，并确定余项中未在数据范围内的值为余项中的异常值。

本发明实施例提供的一种时间序列异常值检测方法，基于最大观测值、最小观测值及sigma值得到相应的数据范围，可以包括：

按照下列公式得到数据范围：

low＝3σ*ratio+min*(1-ratio)，

hight＝3σ*ratio+max*(1-ratio)；

其中，σ为sigma值，min为最小观测值，max为最大观测值，ratio为权重系数，low为数据范围中的最小值，hight为数据范围中的最大值。

由于sigma用到异常值检测中容易受到个别异常值的影响，使得检测效果不好，因此，为了提高时间序列异常值检测的准确性，本申请实施例可以将Boxplot与3-sigma搭配实现最终数据范围的确定；并且，本申请实施例将sigma与Boxplot结合，通过权重系数ratio合理分配两者的重要程度，可有效检测时间序列中的异常值。其中，ratio的具体取值可以根据实际需要进行设定，本申请实施例中可以优选取值为0.3。

本发明实施例提供的一种时间序列异常值检测方法，使用Boxplot和sigma搭配对余项进行异常值检测得到余项中的异常值之前，还可以包括：

其中，预设个时间序列中的预设个及数量阈值均可以根据实际需要进行确定，如果当前时刻之前距离当前时刻最近检测的预设个时间序列中异常值数量均较多(大于数量阈值)，则说明可能实现时间序列异常值检测时的标准过于严格，因此采用4sigma作为当前时刻之后实现时间序列中异常值检测时所用的sigma，否则，采用3sigma作为当前时刻之后实现时间序列中异常值检测时所用的sigma，从而增加时间序列检测的灵活性及准确性。

另外，本申请实施例中优先采用3sigma作为当前时刻之后实现时间序列中异常值检测时所用的sigma，3sigma准则也称68-95-99.7原则，用于对已知平均数和标准差的正态分布数据进行快速推算，在统计学中经验法则是在正态分布中，距平均值小于一个标准差、二个标准差、三个标准差以内的百分比，更精确的数字是68.27％、95.45％及99.73％。3-sigma准则经常应用在异常检测中，将大于3-sigma的值认为是异常值。

Boxplot由五个数值点组成，分别为最小值(即最小观测值，min)，下四分位数(Q1)，中位数(median)，上四分位数(Q3)，最大值(即最大观测值，max)；也可以往盒图里面加入平均值(mean)。如图3所示，下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”，上四分位数到最大值之间建立一条延伸线，这个延伸线成为“胡须(whisker)”。由于现实数据中总是存在各式各样地“脏数据”，也成为“离群点”，于是为了不因这些少数的离群数据导致整体特征的偏移，需将这些离群点单独汇出，而盒图中的胡须的两级修改成最小观测值与最大观测值。其中，最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)，即IQR＝Q3-Q1，也即上四分位数与下四分位数之间的差，也就是盒子的长度；最小观测值为min＝Q1-1.5*IQR，如果存在离群点小于最小观测值，则胡须下限为最小观测值，离群点单独以点汇出，如果没有比最小观测值小的数，则胡须下限为最小值；最大观测值为max＝Q3+1.5*IQR，如果存在离群点大于最大观测值，则胡须上限为最大观测值，离群点单独以点汇出，如果没有比最大观测值大的数，则胡须上限为最大值。

如图4所示，通过盒图，在分析数据的时候，盒图能够有效地帮助识别数据的特征：直观地识别数据集中的异常值(查看离群点)；判断数据集的数据离散程度和偏向(观察盒子的长度，上下隔间的形状，以及胡须的长度)。

本发明实施例提供的一种时间序列异常值检测方法，确定目标值对应待检测序列中的值为待检测序列中的异常值之后，还可以包括：

剔除待检测序列中的异常值，并利用缺失值填充方式得到剔除的异常值对应的正常值，并将得到的正常值加入至待检测序列中。

利用缺失值填充方式得到剔除的异常值对应的正常值，可以包括：

获取待检测序列中除异常值之外的其他值的平均值，作为剔除的异常值对应的正常值。

本申请实施例为了便于后续对时间序列的分析，在确定出待检测序列中的异常值之后，可以将异常值从待检测序列中剔除，此时异常值被剔除前所在的位置则成为缺失值，进而采用平均值或者最大值或者最小值的方式从待检测序列中获取相应值实现缺失值填充；其中，本申请实施例中优先利用待检测序列中异常值之外其他值的平均值实现缺失值填充。

本发明实施例提供的一种时间序列异常值检测方法，将得到的正常值加入至待检测序列中之后，还可以包括：

基于待检测序列预测当前时刻之后任意时刻指定区域内的人流数据，并将该任意时刻及预测得到的该任意时刻的人流数据输出；其中，时间序列为指定区域内不同时间的人流数据。

需要说明的是，异常检测被广泛用于工业的很多领域，例如量化交易、网络安全检测、自动驾驶汽车和大型工业设备的日常维护。本申请实施例中将时间序列异常值检测方法应用于人流预测场景，进而对于某指定区域(如某地铁站、某路口等)进行监控以获取该指定区域内不同时间的人数作为相应人流数据，然后在获取到该指定区域内不同时间的人流数据后，利用时间序列异常值检测方法检测出人流数据中的异常值，进而实现相应异常值的剔除及填充等操作后，利用最终处理得到的人流数据对未来某时刻该指定区域内的人流数据(即人数)进行预测，从而能够有效提高人流预测的准确性。

本申请中对时间序列进行STL分解得到相应的结果可以如图5所示，图5中的第一项为数据项、第二项为趋势分量、第三项为周期分量、最后一项为余项；利用Boxplot和3sigma搭配的准则对余项进行异常值检测可以如图6所示，图6中纵坐标50到100之间的横线及-100到-50之间的横线为4sigma的阈值，纵坐标50及-50的横线为3sigma的阈值；余项的异常值所对应的时间序列的值就是异常值，如图7所示。

本发明实施例还提供了一种时间序列异常值检测装置，如图8所示，具体可以包括：

分解模块11，用于：获取当前需实现异常值检测的时间序列为待检测序列，使用STL分解算法将待检测序列分解为趋势分量、周期分量和余项；

检测模块12，用于：使用Boxplot和sigma搭配对余项进行异常值检测得到余项中的异常值，并确定余项中的异常值为目标值；

确定模块13，用于：确定目标值对应待检测序列中的值为待检测序列中的异常值，以实现时间序列的异常值检测。

本发明实施例还提供了一种时间序列异常值检测设备，可以包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上任一项时间序列异常值检测方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上时间序列异常值检测方法的步骤。

需要说明的是，本发明实施例提供的一种时间序列异常值检测装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种时间序列异常值检测方法中对应部分的详细说明，在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种时间序列异常值检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，使用Boxplot和sigma搭配对所述余项进行异常值检测得到所述余项中的异常值，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述最大观测值、所述最小观测值及所述sigma值得到相应的数据范围，包括：

按照下列公式得到所述数据范围：

low＝3σ*ratio+min*(1-ratio)，

hight＝3σ*ratio+max*(1-ratio)；

4.根据权利要求3所述的方法，其特征在于，使用Boxplot和sigma搭配对所述余项进行异常值检测得到所述余项中的异常值之前，还包括：

5.根据权利要求4所述的方法，其特征在于，确定所述目标值对应所述待检测序列中的值为所述待检测序列中的异常值之后，还包括：

6.根据权利要求5所述的方法，其特征在于，利用缺失值填充方式得到剔除的所述异常值对应的正常值，包括：

7.根据权利要求6所述的方法，其特征在于，将得到的正常值加入至所述待检测序列中之后，还包括：

8.一种时间序列异常值检测装置，其特征在于，包括：

9.一种时间序列异常值检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述时间序列异常值检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述时间序列异常值检测方法的步骤。