CN113342610B - 一种时序数据异常检测方法、装置、电子设备及存储介质 - Google Patents
一种时序数据异常检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113342610B CN113342610B CN202110655219.5A CN202110655219A CN113342610B CN 113342610 B CN113342610 B CN 113342610B CN 202110655219 A CN202110655219 A CN 202110655219A CN 113342610 B CN113342610 B CN 113342610B
- Authority
- CN
- China
- Prior art keywords
- time sequence
- sequence data
- detected
- time
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及一种时序数据异常检测方法、装置、电子设备及存储介质。本申请实施方案对于检测得到的异常数据,根据其对应的第一时序数据集合的序列特征来进行修正;在对下一个待检测时序数据进行异常检测时,将其对应的第二时序数据集合中的异常数据替换为修正时序数据,使用得到的第三时序数据集合来对该下一待检测时序数据进行异常检测。这样,保证异常检测数据基准的准确性,避免因数据基础不准确导致将异常数据判断为正常,或将正常数据判断为异常,进一步提高时序数据异常检测的准确度。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种时序数据异常检测方法、装置、电子设备及存储介质。
背景技术
目前,数据平台上每天要面对各种各样的报表数据,诸如折线图、柱状图、饼图等等,其中会存在数据异常的情况。
现有的异常数据检测方法一般基于选定范围的数据集合进行。但是,当选定范围的数据集合中存在异常数据时,使用该数据集合将无法准确地进行异常检测,有可能将异常数据判断为正常,也可能将正常数据判断为异常。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请实施方案提供了一种时序数据异常检测方法、装置、电子设备及存储介质。
根据本申请实施方案的一个方面,提供了一种时序数据异常检测方法,包括:
根据第一时序数据集合对第一待检测时序数据进行异常检测,第一时序数据集合包括第一待检测时序数据所处时间点对应的第一时间窗口内的时序数据;
当确定第一待检测时序数据为异常数据时,获取第一时序数据集合的序列特征;
根据序列特征对第一待检测时序数据进行修正,得到修正时序数据;
获取第二待检测时序数据对应的第二时序数据集合,第二时序数据集合包括第二待检测时序数据所处时间点对应的第二时间窗口内的时序数据;
当第二时间窗口包括第一待检测时序数据所处时间点时,用修正时序数据替换第二时序数据集合中的第一待检测时序数据,得到第三时序数据集合;
根据第三时序数据集合对第二待检测时序数据进行异常检测。
可选的,根据序列特征对第一待检测时序数据进行修正,得到修正时序数据,包括:
当根据序列特征确定第一时序数据集合为平稳序列时,获取第一时序数据集合中第一待检测时序数据的相邻时序数据;
采用第一预设平滑系数,对相邻时序数据及第一待检测时序数据进行计算,得到修正时序数据。
可选的,根据序列特征对第一待检测时序数据进行修正,得到修正时序数据,包括:
当根据序列特征确定第一时序数据集合为非平稳序列时,获取第一时序数据集合中时序数据的均值;
采用第二预设平滑系数,对均值及第一待检测时序数据进行计算,得到修正时序数据。
可选的,根据序列特征对第一待检测时序数据进行修正,得到修正时序数据,还包括:
获取第一时序数据集合的均值及方差;
计算第一待检测时序数据与均值的差值;
根据差值与方差之间的差异确定对待检测时序数据对应的平滑处理方式,其中,平滑处理方式对应的指数次幂随差值与方差之间差异增大而增加;
基于指数次幂对应的平滑处理方式,对第一待检测时序数据进行修正,得到修正时序数据。
可选的,获取第一时序数据集合的序列特征,包括:
对第一时序数据集合进行单位根检验;
将单位根检验的检验结果作为序列特征,检验结果用于标识第一时序数据集合是否存在单位根;
其中,当第一时序数据集合不存在单位根时,确定第一时序数据集合为平稳序列,当第一时序数据集合存在单位根时,确定第一时序数据集合为非平稳序列。
可选的,第一时序数据集合包括:第一待检测时序数据所处时间点之前的第一时间窗口内的第一时序数据子集,和/或第一待检测时序数据所处时间点之后的第三时间窗口内的第二时序数据子集;
当根据第一时序数据子集和第二时序数据子集对第一待检测时序数据进行异常检测时,确定第一待检测时序数据为异常数据,包括:
当根据第一时序数据子集和第二时序数据子集中任一子集检测得到第一待检测时序数据为异常时,确定第一待检测时序数据为异常。
可选的,方法还包括:
获取第一待检测时序数据对应的异常等级;
根据异常等级对第一待检测时序数据进行标识。
根据本申请实施方案的另一个方面,提供了一种时序数据异常检测装置,包括:
检测模块,用于根据第一时序数据集合对第一待检测时序数据进行异常检测,第一时序数据集合包括第一待检测时序数据所处时间点对应的第一时间窗口内的时序数据;
第一获取模块,用于当确定第一待检测时序数据为异常数据时,获取第一时序数据集合的序列特征;
修正模块,用于根据序列特征对第一待检测时序数据进行修正,得到修正时序数据;
第二获取模块,用于获取第二待检测时序数据对应的第二时序数据集合,第二时序数据集合包括第二待检测时序数据所处时间点对应的第二时间窗口内的时序数据;
替换模块,用于当第二时间窗口包括第一待检测时序数据所处时间点时,用修正时序数据替换第二时序数据集合中的第一待检测时序数据,得到第三时序数据集合;
检测模块,用于根据第三时序数据集合对第二待检测时序数据进行异常检测。
根据本申请实施方案的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
根据本申请实施方案的另一个方面,提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行计算机程序时,实现上述方法步骤。
根据本申请实施方案的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法步骤。
本申请实施方案提供的上述技术方案与现有技术相比具有如下优点:
对于检测得到的异常数据,根据其对应的第一时序数据集合的序列特征来进行修正;在对下一个待检测时序数据进行异常检测时,将其对应的第二时序数据集合中的异常数据替换为修正时序数据,使用得到的第三时序数据集合来对该下一待检测时序数据进行异常检测。这样,保证异常检测数据基准的准确性,避免因数据基础不准确导致将异常数据判断为正常,或将正常数据判断为异常,进一步提高时序数据异常检测的准确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施方案,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施方案或现有技术中的技术方案,下面将对实施方案或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施方案提供的一种时序数据异常检测方法的流程图;
图2为本申请另一实施方案提供的一种时序数据异常检测方法的流程图;
图3为本申请另一实施方案提供的一种时序数据异常检测方法的流程图;
图4为本申请另一实施方案提供的一种时序数据异常检测方法的流程图;
图5为本申请另一实施方案提供的一种时序数据异常检测方法的流程图;
图6为本申请实施方案提供的一种时序数据异常检测装置的框图;
图7为本申请实施方案提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施方案的目的、技术方案和优点更加清楚,下面将结合本申请实施方案中的附图,对本申请实施方案中的技术方案进行清楚、完整地描述,显然,所描述的实施方案是本申请的一部分实施方案,而不是全部的实施方案。基于本申请中的实施方案,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施方案,都属于本申请保护的范围。
下面首先对本发明实施方案所提供的一种时序数据异常检测方法进行介绍。
图1为本申请实施方案提供的一种时序数据异常检测方法的流程图。如图1所示,该方法包括以下步骤S100-S600。
步骤S100,根据第一时序数据集合对第一待检测时序数据进行异常检测,第一时序数据集合包括第一待检测时序数据所处时间点对应的第一时间窗口内的时序数据。
步骤S200,当确定第一待检测时序数据为异常数据时,获取第一时序数据集合的序列特征。
步骤S300,根据序列特征对第一待检测时序数据进行修正,得到修正时序数据。
步骤S400,获取第二待检测时序数据对应的第二时序数据集合,第二时序数据集合包括第二待检测时序数据所处时间点对应的第二时间窗口内的时序数据。
步骤S500,当第二时间窗口包括第一待检测时序数据所处时间点时,用修正时序数据替换第二时序数据集合中的第一待检测时序数据,得到第三时序数据集合。
步骤S600,根据第三时序数据集合对第二待检测时序数据进行异常检测。
可选的,本实施方案中的时序数据为采用统一指标,按时间顺序排列的数值。如,视频播放平台每小时的视频播放量,购物平台每天的交易量,等等。举例来说,第一待检测时序数据为,i=0,1,2,……n。待检测时序数据/>对应的第一时序数据集合为/>。第二待检测时序数据为/>,则第二时序数据集合可以为/>,使用修正时序数据替换待检测时序数据/>,得到第三时序数据集合/>。
在对时序数据进行异常检测过程中,若待检测时序数据对应的时序数据集合中存在异常数据,即异常检测的数据基础异常,则使用该数据基础将无法准确地进行异常检测。本实施方案中,对作为异常检测数据基础的数据集合中的异常数据进行修正,确保该数据集合中的时序数据均为正常数据,这样可以大大提高异常数据检测的准确度,避免将异常数据判断为正常或将正常数据判断为异常。
可选的,基于时序数据集合对待检测时序数据/>进行异常检测的过程如下:
A1.计算的平均值/>和方差/>;
A2.计算与/>的差值/>;
A3.当时,确定该时序数据/>为异常数据,t为预设阈值。
本申请实施方案中的异常检测方式并不限于上述基于均值和方差的检测方式,还可以采用基于邻近性的异常检测算法(如Index-Based的算法、Nested-Loop算法、Cell-Based算法、LOF算法、LSC算法等)、基于高斯分布的异常检测算法、基于聚类的异常检测算法等等,在此不再赘述。
在可选实施方案中,时序数据的序列特征包括但不限于以下至少一项:基础特征、转换特征和分类特征等。各特征具体内容如下:
一、基础特征包括但不限于以下特征:
(1)统计特征
简单特征,如均值、标准差、极值、分位数、尖峰个数、缺失个数、偏差等等;
高级特征,如自相关性、周期性、趋势(斜率)、频率、随机噪音等等。
(2)维度特征
连续型特征,如持续时间(比如:单页面浏览时长)、时间间隔(比如:上次购买、距离现在购买的时间)等等;
离散型特征,如小时级特征:哪个时间段(0-24);天级特征:一周中的星期几、工作日、周末、法定假日;星期级特征:一个月中的第几个星期、一年中哪个星期;月份级的特征:第几个月份;等等。
(3)窗口特征
如滑动窗口(根据指定的单位长度来框住时间序列,每次滑动一个单位),滚动窗口(根据指定的单位长度来框住时间序列,每次滑动窗口长度的多个单位)等等。
二、转换特征包括但不限于以下特征:
(1)统计转换特征
在不丢失信息的前提下,对时序数据进行变换,使得时序数据满足线性、独立性、方差齐次性和正态性。变换的目的是在一定程度上减小不可观测的误差和预测变量的相关性,以及使得因变量获得一些性质,比如在时间序列分析中的平稳性,或者使得因变量分布为正态分布。
(2)高维空间转换特征
将低维的时序数据转换为高维,使得时序数据的特征信息被放大,从而暴露更多的隐藏特征信息。
(3)降维转换特征
从高维的时序数据中提取降维特征,目的是更快捕捉复杂时间序列中的主要特征,提高分析效率与速度。
(4)基于神经网络的特征
通过神经网络的方式抽取特征表达,如训练好的网络中间层输出可作为特征。
三、分类特征包括但不限于以下特征:
(1)字典特征
将时序数据通过变换,找到划分的阈值,进而将每个时序实值划分开,对应到某个字母表中,通过滑动窗提取不同“单词”的出现频率,以作为分类依据。
(2)形态特征
即作为分类依据的时序数据中子序列形状。
时序数据的序列特征还有很多,在此不一一赘述。
在可选实施方案中,上述步骤S12,可采用多种数据挖掘技术从时序数据中提取序列特征,提取得到的序列特征可以包括上述至少一项特征。
在可选实施方案中,上述步骤S13,当为异常数据时,可根据序列特征对/>进行修正,得到修正时序数据/>。可选的,修正可以采用平滑处理方式、插值方式、邻近去最值均值滤波等等方式。
在可选实施方案中,可基于时序数据集合的序列稳定性来确定采用何种方式对异常数据进行修正,即判断时序数据集合是否为平稳序列。
平稳序列(Stationary sequence)是指联合概率分布函数不随时间改变的随机序列。如果一个随机序列是平稳的,则其随机变量的联合分布函数为:
,
其中,F表示为联合分布函数,t∈R,且t大于0,是中的任意k个随机变量。
在可选实施方案中,基于时序数据集合的统计特征、统计转换特征等等,可以确定时序数据集合是否为平稳序列。图2为本申请另一实施方案提供的一种时序数据异常检测方法的流程图。如图2所示,上述步骤S100包括步骤S111和步骤S112。
步骤S111,对第一时序数据集合进行单位根检验。
步骤S112,将单位根检验的检验结果作为序列特征,检验结果用于标识第一时序数据集合是否存在单位根;其中,当第一时序数据集合不存在单位根时,确定第一时序数据集合为平稳序列,当第一时序数据集合存在单位根时,确定第一时序数据集合为非平稳序列。
单位根检验是随机过程的问题,单位根检验可采用DF(Dickey and Fuller)、ADF(augmented Dickey-Fuller,增广的DF)、PP(Phillips and Perron)等检验方法。
举例如下:
定义随机序列,是一单位根过程,若,其中,/>,/>为一平稳序列(白噪音),且,/>,τ=1,2…。特别地,若ρ=1,/>是独立同分布的,且/>,则上式就变成一个随机游走序列,因此随机游走序列是一种最简单的单位根过程。将定义式改写为下列形式:/>,其中L为滞后算子,1-ρL为滞后算子多项式,其特征方程为1-ρz=0,有根z= 1/ρ。当ρ=1时,时间序列存在一个单位根,此时/>是一个单位根过程。当ρ<1时,/>为平稳序列。而当ρ<1时,/>为一类具有所谓爆炸根的非平稳过程,它经过差分后仍然为非平稳过程,因此不为单整过程。单整过程可以称作单位根过程。
上述仅是对单位根检验方式进行简单举例说明,关于单位根检验的其他实现方式,在此不做赘述。
图3为本申请另一实施方案提供的一种时序数据异常检测方法的流程图。如图3所示,在可选实施方案中,上述步骤S300包括步骤S311和S312。
步骤S311,当根据序列特征确定第一时序数据集合为平稳序列时,获取第一时序数据集合中第一待检测时序数据的相邻时序数据。
步骤S312,采用第一预设平滑系数,对相邻时序数据及第一待检测时序数据进行计算,得到修正时序数据。
举例来说,若第一时序数据集合为平稳序列,则可直接使用待检测时序数据/>的相邻时数据/>来对/>进行修正。上述步骤S312,可以采用指数平滑处理方式修正/>,如修正时序数据为/>,其中,/>表示第一预设平滑系数。
图4为本申请另一实施方案提供的一种时序数据异常检测方法的流程图。如图4所示,在可选实施方案中,上述步骤S300包括步骤S321和S322。
步骤S321,当根据序列特征确定第一时序数据集合为非平稳序列时,获取第一时序数据集合中时序数据的均值;
步骤S322,采用第二预设平滑系数,对均值及第一待检测时序数据进行计算,得到修正时序数据。
举例来说,若第一时序数据集合为非平稳序列,则计算第一时序数据集合的均值/>,基于/>来对/>进行修正。上述步骤S312,可以采用指数平滑处理方式修正/>,如修正时序数据为/>,其中,/>表示第二预设平滑系数。
在上述实施方案中,基于第一时序数据结合的平稳性确定对异常数据的修正方式,若第一时序数据集合为平稳序列,则可以直接使用异常数据的相邻数据进行修正,这样,可以保证修正后时序数据更接近真实正常数据值;若第一时序数据集合为非平稳序列,说明第一时序数据集合本身可能存在一定变化趋势,则可以使用第一时序数据集合的均值来进行修正,这样,可以使得修正后时序数据更接近第一时序数据集合整体数值范围且符合第一时序数据集合的变化趋势。
在另一可选实施方案中,可基于异常数据的异常程度,选择相应的平滑处理方式对异常数据进行修正。图5为本申请另一实施方案提供的一种时序数据异常检测方法的流程图。如图5所示,在可选实施方案中,上述步骤S300包括步骤S331-S334。
步骤S331,获取第一时序数据集合的均值及方差。
步骤S332,计算第一待检测时序数据与均值的差值。
步骤S333,根据差值与方差之间的差异确定对待检测时序数据对应的平滑处理方式,其中,平滑处理方式对应的指数次幂随差值与方差之间差异增大而增加。
步骤S334,基于指数次幂对应的平滑处理方式,对第一待检测时序数据进行修正,得到修正时序数据。
举例来说,平滑处理方式包括一次指数平滑法、二次指数平滑法或三次指数平滑法等等。根据差值与方差的商值选择需要使用的平滑处理方式。例如,,当/>时,选择一次指数平滑法,当/>时,选择二次指数平滑法;当/>时,选择三次指数平滑法。
又例如,可基于与/>之间差值的大小来确定采用指数平滑法的指数,差值越大,则指数越大。
以基于第一时序数据集合的均值对异常数据进行修正来举例,采用一次指数平滑法:,其中,/>表示修正时序数据,/>表示预设平滑系数,/>表示异常数据,/>表示第一平均值。
采用二次指数平滑法对待检测时序数据进行平滑处理:
。
采用三次指数平滑法对待检测时序数据进行平滑处理:
。
通过不同次幂的指数平滑法对不同异常程度的数据进行修正处理,使得修正后时序数据更接近实际正常范围,提高对后续数据异常检测的准确度。
在另一可选实施方案中,第一时序数据集合包括:第一待检测时序数据所处时间点之前的第一时间窗口内的第一时序数据子集,和/或第一待检测时序数据所处时间点之后的第三时间窗口内的第二时序数据子集;当根据第一时序数据子集和第二时序数据子集对第一待检测时序数据进行异常检测时,上述步骤S100包括:当根据第一时序数据子集和第二时序数据子集中任一子集检测得到第一待检测时序数据为异常时,确定第一待检测时序数据为异常。
第一时序数据集合可以包括待检测时序数据,采集其所处时间点之前第一时间窗口内的时序数据/>,也可以包括/>所处时间点之后第二预设长度的第三时间窗口内的时序数据,如/>。即可以按照时间正序获取数据集合以进行异常检测,也可以按照时间逆序获取数据结合进行异常检测,当然,还可以同时按照时间正序和时间逆序获取数据集合来进行异常检测。综合时间正序和时间逆序两次检测结果确定异常数据,例如,将两次检测均判定为异常的时序数据确定为异常数据,或者,只要有一次检测结果为异常,就将该时序数据确定为异常。
在上述实施方案中,通过按照时间正序和时间逆序两次检测,进一步提高对时序数据的异常判断的准确性。
在另一可选实施方案中,该方法还包括:获取第一待检测时序数据对应的异常等级;根据异常等级对第一待检测时序数据进行标识。
举例来说,对于异常的待检测时序数据,可以通过标记值进行区分,例正常时序数据标记为0,异常时序数据标记为1;也可通过特殊标记进行区分,如不同颜色或特殊形状标记,例如,数据标记为绿色,异常时序数据标记为红色,等等。
在可选实施方案中,还可以基于待检测时序数据与第一平均值之间的数值关系确定待检测时序数据对应的异常标记值;采用异常标记值对待检测时序数据进行标记。
该数值关系可以为大小关系,例如,如图2所示,当时,将/>标记为1,当时,将/>标记为-1。该数值关系也可以为倍数关系,例如,当/>时,将/>标记为/>,当/>时,将/>标记为/>。可选的,当/>为正常时,也可将其标记为0。
本实施方案中,基于异常时序数据与时间窗口内时序数据平均值之间的数据关系确定异常时序数据的标记值,这样,可以基于异常标记值发现异常上涨或异常下降情况,便于后续异常数据的分析和处理。
在另一可选实施方案中,还计算;根据h确定待检测时序数据对应的异常等级;根据异常等级对待检测时序数据进行标识。
例如,当时,可以确定待检测时序数据对应的异常等级为1,当/>时,可以确定待检测时序数据对应的异常等级为2;当/>时,可以确定待检测时序数据对应的异常等级为3;以此类推。
其中,可以直接使用异常等级对应的数值对待检测时序数据进行标记,如,对于异常等级为1的待检测时序数据,标记为1;对于异常等级为3的待检测时序数据,标记为3。
另外,也可以根据异常等级对待检测数据进行颜色区分或添加不同的特殊标识。例如,将异常等级为1的待检测时序数据标记为黄色,将异常等级为2的待检测时序数据标记为橙色,将异常等级为3的待检测时序数据标记为红色,等等。又例如,对于异常等级为3的待检测时序数据,添加星号标识,等等。
本实施方案中,基于异常时序数据与时间窗口内时序数据平均值的偏差与方差之间的数值关系,得到异常等级,不同异常等级采用不同的标记进行标识,使得后续可以快速准确地了解异常情况及异常严重程度,便于对异常数据的分析和处理。
在上述实施方案中,针对标记为异常的时序数据,可以生成相应的报警信息,如短消息、邮件等,推送到指定终端。
下述为本申请装置实施方案,可以用于执行本申请方法实施方案。
图6为本申请实施方案提供的一种时序数据异常检测装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图6所示,该时序数据异常检测装置包括:
检测模块71,用于根据第一时序数据集合对第一待检测时序数据进行异常检测,第一时序数据集合包括第一待检测时序数据所处时间点对应的第一时间窗口内的时序数据;
第一获取模块72,用于当确定第一待检测时序数据为异常数据时,获取第一时序数据集合的序列特征;
修正模块73,用于根据序列特征对第一待检测时序数据进行修正,得到修正时序数据;
第二获取模块74,用于获取第二待检测时序数据对应的第二时序数据集合,第二时序数据集合包括第二待检测时序数据所处时间点对应的第二时间窗口内的时序数据;
替换模块75,用于当第二时间窗口包括第一待检测时序数据所处时间点时,用修正时序数据替换第二时序数据集合中的第一待检测时序数据,得到第三时序数据集合;
检测模块71,用于根据第三时序数据集合对第二待检测时序数据进行异常检测。
本申请实施方案还提供一种电子设备,如图7所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的计算机程序时,实现以下上述方法实施方案的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect ,P C I) 总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下上述方法实施方案的步骤。
需要说明的是,对于上述装置、电子设备及计算机可读存储介质实施方案而言,由于其基本相似于方法实施方案,所以描述的比较简单,相关之处参见方法实施方案的部分说明即可。
进一步需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方案,使本领域技术人员能够理解或实现本发明。对这些实施方案的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施方案中实现。因此,本发明将不会被限制于本文所示的这些实施方案,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种时序数据异常检测方法,其特征在于,包括:
根据第一时序数据集合对第一待检测时序数据进行异常检测,所述第一时序数据集合包括所述第一待检测时序数据所处时间点对应的第一时间窗口内的时序数据;
当确定所述第一待检测时序数据为异常数据时,获取所述第一时序数据集合的序列特征;
根据所述序列特征对所述第一待检测时序数据进行修正,得到修正时序数据;
获取第二待检测时序数据对应的第二时序数据集合,所述第二时序数据集合包括所述第二待检测时序数据所处时间点对应的第二时间窗口内的时序数据;
当所述第二时间窗口包括所述第一待检测时序数据所处时间点时,用所述修正时序数据替换所述第二时序数据集合中的所述第一待检测时序数据,得到第三时序数据集合;
根据所述第三时序数据集合对所述第二待检测时序数据进行异常检测;
所述根据所述序列特征对所述第一待检测时序数据进行修正,得到修正时序数据,包括:
获取所述第一时序数据集合的均值及方差;
计算所述第一待检测时序数据与所述均值的差值;
根据所述差值与所述方差之间的差异确定对所述待检测时序数据对应的平滑处理方式,其中,所述平滑处理方式对应的指数次幂随所述差值与所述方差之间差异增大而增加;
基于所述指数次幂对应的平滑处理方式,对所述第一待检测时序数据进行修正,得到修正时序数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述序列特征对所述第一待检测时序数据进行修正,得到修正时序数据,还包括:
当根据所述序列特征确定所述第一时序数据集合为平稳序列时,获取所述第一时序数据集合中所述第一待检测时序数据的相邻时序数据;
采用第一预设平滑系数,对所述相邻时序数据及所述第一待检测时序数据进行计算,得到所述修正时序数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述序列特征对所述第一待检测时序数据进行修正,得到修正时序数据,还包括:
当根据所述序列特征确定所述第一时序数据集合为非平稳序列时,获取所述第一时序数据集合中时序数据的均值;
采用第二预设平滑系数,对所述均值及所述第一待检测时序数据进行计算,得到所述修正时序数据。
4.根据权利要求1所述的方法,其特征在于,所述获取所述第一时序数据集合的序列特征,包括:
对所述第一时序数据集合进行单位根检验;
将所述单位根检验的检验结果作为所述序列特征,所述检验结果用于标识所述第一时序数据集合是否存在单位根;
其中,当所述第一时序数据集合不存在单位根时,确定所述第一时序数据集合为平稳序列,当所述第一时序数据集合存在单位根时,确定所述第一时序数据集合为非平稳序列。
5.根据权利要求1所述的方法,其特征在于,所述第一时序数据集合包括:所述第一待检测时序数据所处时间点之前的第一时间窗口内的第一时序数据子集,和/或所述第一待检测时序数据所处时间点之后的第三时间窗口内的第二时序数据子集;
当根据所述第一时序数据子集和所述第二时序数据子集对所述第一待检测时序数据进行异常检测时,所述确定所述第一待检测时序数据为异常数据,包括:
当根据所述第一时序数据子集和所述第二时序数据子集中任一子集检测得到所述第一待检测时序数据为异常时,确定所述第一待检测时序数据为异常。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述第一待检测时序数据对应的异常等级;
根据所述异常等级对所述第一待检测时序数据进行标识。
7.一种时序数据异常检测装置,其特征在于,包括:
检测模块,用于根据第一时序数据集合对第一待检测时序数据进行异常检测,所述第一时序数据集合包括所述第一待检测时序数据所处时间点对应的第一时间窗口内的时序数据;
第一获取模块,用于当确定所述第一待检测时序数据为异常数据时,获取所述第一时序数据集合的序列特征;
修正模块,用于根据所述序列特征对所述第一待检测时序数据进行修正,得到修正时序数据;
第二获取模块,用于获取第二待检测时序数据对应的第二时序数据集合,所述第二时序数据集合包括所述第二待检测时序数据所处时间点对应的第二时间窗口内的时序数据;
替换模块,用于当所述第二时间窗口包括所述第一待检测时序数据所处时间点时,用所述修正时序数据替换所述第二时序数据集合中的所述第一待检测时序数据,得到第三时序数据集合;
所述检测模块,用于根据所述第三时序数据集合对所述第二待检测时序数据进行异常检测;
所述修正模块,用于获取所述第一时序数据集合的均值及方差;计算所述第一待检测时序数据与所述均值的差值;根据所述差值与所述方差之间的差异确定对所述待检测时序数据对应的平滑处理方式,其中,所述平滑处理方式对应的指数次幂随所述差值与所述方差之间差异增大而增加;基于所述指数次幂对应的平滑处理方式,对所述第一待检测时序数据进行修正,得到修正时序数据。
8.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现权利要求1-6任一项所述的方法步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110655219.5A CN113342610B (zh) | 2021-06-11 | 2021-06-11 | 一种时序数据异常检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110655219.5A CN113342610B (zh) | 2021-06-11 | 2021-06-11 | 一种时序数据异常检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113342610A CN113342610A (zh) | 2021-09-03 |
CN113342610B true CN113342610B (zh) | 2023-10-13 |
Family
ID=77477117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110655219.5A Active CN113342610B (zh) | 2021-06-11 | 2021-06-11 | 一种时序数据异常检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342610B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113691804A (zh) * | 2021-09-15 | 2021-11-23 | 昆山丘钛光电科技有限公司 | 一种检测功能验证方法、装置、设备和介质 |
CN116108008A (zh) * | 2023-04-13 | 2023-05-12 | 山东明远生物科技有限公司 | 一种装饰材料甲醛检测数据处理方法 |
CN117473242B (zh) * | 2023-12-28 | 2024-03-19 | 成都四方伟业软件股份有限公司 | 一种时序数据故障检测方法、系统、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9614742B1 (en) * | 2013-03-14 | 2017-04-04 | Google Inc. | Anomaly detection in time series data |
CN110008080A (zh) * | 2018-12-25 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 基于时间序列的业务指标异常检测方法、装置和电子设备 |
JP2019140194A (ja) * | 2018-02-08 | 2019-08-22 | 株式会社Screenホールディングス | データ処理方法、データ処理装置、および、データ処理プログラム |
CN111475526A (zh) * | 2020-03-10 | 2020-07-31 | 平安科技(深圳)有限公司 | 基于oracle数据的时序数据转换方法、及其相关设备 |
CN112084056A (zh) * | 2020-08-25 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 异常检测方法、装置、设备及存储介质 |
CN112445835A (zh) * | 2019-09-03 | 2021-03-05 | 中移(苏州)软件技术有限公司 | 一种业务数据处理方法及装置、网管服务器、存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140032506A1 (en) * | 2012-06-12 | 2014-01-30 | Quality Attributes Software, Inc. | System and methods for real-time detection, correction, and transformation of time series data |
US9652354B2 (en) * | 2014-03-18 | 2017-05-16 | Microsoft Technology Licensing, Llc. | Unsupervised anomaly detection for arbitrary time series |
-
2021
- 2021-06-11 CN CN202110655219.5A patent/CN113342610B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9614742B1 (en) * | 2013-03-14 | 2017-04-04 | Google Inc. | Anomaly detection in time series data |
JP2019140194A (ja) * | 2018-02-08 | 2019-08-22 | 株式会社Screenホールディングス | データ処理方法、データ処理装置、および、データ処理プログラム |
CN110008080A (zh) * | 2018-12-25 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 基于时间序列的业务指标异常检测方法、装置和电子设备 |
CN112445835A (zh) * | 2019-09-03 | 2021-03-05 | 中移(苏州)软件技术有限公司 | 一种业务数据处理方法及装置、网管服务器、存储介质 |
CN111475526A (zh) * | 2020-03-10 | 2020-07-31 | 平安科技(深圳)有限公司 | 基于oracle数据的时序数据转换方法、及其相关设备 |
CN112084056A (zh) * | 2020-08-25 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 异常检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113342610A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113342610B (zh) | 一种时序数据异常检测方法、装置、电子设备及存储介质 | |
US20160116892A1 (en) | Method and system of cause analysis and correction for manufacturing data | |
CN102944583B (zh) | 基于漂移补偿的金属氧化物气体传感器阵列浓度检测方法 | |
CN111811567B (zh) | 一种基于曲线拐点比对的设备检测方法及相关装置 | |
JP2019061577A (ja) | 異常判定方法及びプログラム | |
CN116910493B (zh) | 基于多源特征提取的设备故障诊断模型的构建方法及装置 | |
CN117167903B (zh) | 基于人工智能的暖通设备异物故障检测方法 | |
US20020143495A1 (en) | Method, computer program, and storage medium for estimating randomness of function of representative value of random variable by the use of gradient of same function | |
CN108038211A (zh) | 一种基于上下文的无监督关系数据异常检测方法 | |
CN117312769A (zh) | 一种基于BiLSTM的物联网时序数据异常检测方法 | |
CN114430361B (zh) | 一种异常带宽检测方法、装置、电子设备及存储介质 | |
CN113095579B (zh) | 一种耦合伯努利-伽马-高斯分布的日尺度降水预报校正方法 | |
CN117093947B (zh) | 一种发电柴油机运行异常监测方法及系统 | |
CN116401535B (zh) | 基于差分法的时序数据粗差识别方法及系统 | |
CN117092980B (zh) | 一种基于大数据的电气故障检测控制系统 | |
CN115858633B (zh) | 一种基于数据湖的时序数据分析方法及装置 | |
CN117272145A (zh) | 转辙机的健康状态评估方法、装置和电子设备 | |
CN115170304A (zh) | 风险特征描述的提取方法和装置 | |
CN114913118A (zh) | 工业视觉检测方法、装置、电子设备以及存储介质 | |
CN108733812B (zh) | 基于全局信息的时间序列数据中异常数据点的识别方法 | |
CN113554079A (zh) | 一种基于二次检测法的电力负荷异常数据检测方法及系统 | |
CN109284320B (zh) | 大数据平台上的自动回归诊断方法 | |
CN116108086B (zh) | 一种时序数据的评估方法、装置、电子设备及存储介质 | |
CN113435464A (zh) | 异常数据检测方法、装置、电子设备及计算机存储介质 | |
CN111460005B (zh) | 一种基于jsd的时序数据的离群点检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |