CN114328662A - 异常数据定位方法、装置、电子设备及存储介质 - Google Patents
异常数据定位方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114328662A CN114328662A CN202111613052.2A CN202111613052A CN114328662A CN 114328662 A CN114328662 A CN 114328662A CN 202111613052 A CN202111613052 A CN 202111613052A CN 114328662 A CN114328662 A CN 114328662A
- Authority
- CN
- China
- Prior art keywords
- data
- time sequence
- sequence data
- abnormal
- window time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本申请提供了一种异常数据定位方法、装置、电子设备及存储介质,所述方法包括:对目标时间序列数据进行周期性地划分,得到所述目标时间序列数据包含的窗口时间序列数据;对所述窗口时间序列数据进行显著性检测,得到所述窗口时间序列数据的显著性图;对所述显著性图进行异常点检测,并基于得到的异常点检测结果,定位所述目标时间序列数据中的异常数据。本申请实施例能够准确且高效地对目标时间序列数据进行异常数据检测。
Description
技术领域
本申请涉及数据分析领域,具体涉及一种异常数据定位方法、装置、电子设备及存储介质。
背景技术
在各类涉及到数据处理的领域中,数据分析以定位异常数据,进而在此基础上保障数据安全始终是一个重要的课题。其中,对安全日志进行分析以定位异常数据是本领域技术人员常用的技术手段。由于安全日志通常在时间上有序分布,因此现有技术中多采用处理时间序列数据的方式对安全日志进行异常定位。现有技术中多是采用时间序列模型ARIMA对时间序列数据进行处理分析。在这一过程中,检测数据集的每次改变都需要重新观察定阶、拟合模型,还需要较多人力参与,准确性以及效率均不尽如人意。
发明内容
本申请的一个目的在于提出一种异常数据定位方法、装置、电子设备及存储介质,能够准确且高效地对目标时间序列数据进行异常数据检测。
根据本申请实施例的一方面,公开了一种异常数据定位方法,所述方法包括:
对目标时间序列数据进行周期性地划分,得到所述目标时间序列数据包含的窗口时间序列数据;
对所述窗口时间序列数据进行显著性检测,得到所述窗口时间序列数据的显著性图;
对所述显著性图进行异常点检测,并基于得到的异常点检测结果,定位所述目标时间序列数据中的异常数据。
根据本申请实施例的一方面,公开了一种异常数据定位装置,所述装置包括:
划分模块,配置为对目标时间序列数据进行周期性地划分,得到所述目标时间序列数据包含的窗口时间序列数据;
显著性检测模块,配置为对所述窗口时间序列数据进行显著性检测,得到所述窗口时间序列数据的显著性图;
异常定位模块,配置为对所述显著性图进行异常点检测,并基于得到的异常点检测结果,定位所述目标时间序列数据中的异常数据。
在本申请的一示例性实施例中,所述装置配置为:
获取预设的时间周期节点;
在所述时间周期节点所在时刻对所述目标时间序列数据进行划分,将相邻时间周期节点之间的数据作为所述窗口时间序列数据。
在本申请的一示例性实施例中,所述装置配置为:
获取预设的周期长度,以及预设的步进长度;
以所述步进长度在所述目标时间序列数据上滑动所述周期长度的窗口,将所述窗口截取得到的数据作为所述窗口时间序列数据。
在本申请的一示例性实施例中,所述装置配置为:
检测所述窗口时间序列数据是否存在数据缺失;
针对存在数据缺失的窗口时间序列数据,采用线性插值的方式填充所述窗口时间序列数据的缺失值。
在本申请的一示例性实施例中,所述装置配置为:
基于傅里叶变换对所述窗口时间序列数据进行处理,得到所述窗口时间序列数据的对数振幅谱;
基于所述对数振幅谱,得到所述窗口时间序列数据的频谱残差;
基于傅里叶逆变换对所述频谱残差进行处理,得到所述显著性图。
在本申请的一示例性实施例中,所述装置配置为:
对所述显著性图进行k轮异常点检测,每轮异常点检测过程中,计算当前轮次中各点的检验统计量以及检验临界值,将最大检验统计量的点从所述显著性图中删除,并且,若所述最大检验统计量大于所述检验临界值,则将删除的点作为异常点,其中,k为大于0的自然数。
在本申请的一示例性实施例中,所述装置配置为:
从预设的超参中获取异常点比例;
基于所述窗口时间序列数据的数据总量与所述异常点比例之间的乘积,确定k。
根据本申请实施例的一方面,公开了一种电子设备,包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行以上实施例中的任一个所述的方法。
根据本申请实施例的一方面,公开了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行以上实施例中的任一个所述的方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
本申请实施例中,由于显著性图不仅包含有异常数据对应的点,而且相比于窗口时间序列数据的数据数量,显著性图的点数量已经得到缩减。因此,对显著性图进行异常点检测的效率,将会高于对窗口时间序列数据进行异常数据检测的效率。并且,周期性划分得到的窗口时间序列数据能够良好地适应目标时间序列数据的周期性特点,从而本申请实施例能够准确且高效地对目标时间序列数据进行异常数据检测。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
通过参考附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。
图1示出了根据本申请一个实施例的异常数据定位方法的流程图。
图2示出了根据本申请一个实施例的异常数据定位的详细流程示意图。
图3示出了根据本申请一个实施例的异常数据定位装置的框图。
图4示出了根据本申请一个实施例的电子设备的硬件图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本申请的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本申请的各方面变得模糊。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本申请提供了一种异常数据定位方法,主要用于定位时间序列数据中的异常数据。
图1示出了本申请一实施例的异常数据定位方法的流程图,该方法示例性的可以应用于服务器,该方法包括:
步骤S110、对目标时间序列数据进行周期性地划分,得到所述目标时间序列数据包含的窗口时间序列数据;
步骤S120、对所述窗口时间序列数据进行显著性检测,得到所述窗口时间序列数据的显著性图;
步骤S130、对所述显著性图进行异常点检测,并基于得到的异常点检测结果,定位所述目标时间序列数据中的异常数据。
本申请实施例中,考虑到时间序列数据通常是具有周期性的,因此针对待定位其中异常数据的目标时间序列数据,在对其进行周期性地划分后,得到作为其子组成部分的窗口时间序列数据,进而针对各个窗口时间序列数据进行异常数据检测。
具体的,针对窗口时间序列数据进行显著性检测,得到窗口时间序列数据的显著性图。其中,显著性检测的主要作用在于将突出程度高的数据进行保留,并将突出程度低的数据进行忽略。这一过程可以类比于保留图像的前景,并忽略图像的背景。
显著性检测完成后,得到对应的显著性图。显著性图中的各点,为对应的窗口时间序列数据中保留下来的突出程度高的数据。可以理解的,一般情况下,异常数据的比例较小,正常数据的比例较大,因此窗口时间序列数据中的异常数据无疑是属于突出程度高的数据。因此,窗口时间序列数据中的异常数据基本都会以点的形式被保留在显著性图中。
得到显著性图后,对显著性图进行异常点检测,检测出的异常点对应于窗口时间序列数据中的异常数据。从而能够根据各个窗口时间序列数据对应的异常点检测结果,定位目标时间序列数据中的异常数据。
由此可见,本申请实施例中,由于显著性图不仅包含有异常数据对应的点,而且相比于窗口时间序列数据的数据数量,显著性图的点数量已经得到缩减。因此,对显著性图进行异常点检测的效率,将会高于对窗口时间序列数据进行异常数据检测的效率。并且,周期性划分得到的窗口时间序列数据能够良好地适应目标时间序列数据的周期性特点,从而本申请实施例能够准确且高效地对目标时间序列数据进行异常数据检测。
在一实施例中,获取预设的时间周期节点。在所述时间周期节点所在时刻对所述目标时间序列数据进行划分,将相邻时间周期节点之间的数据作为所述窗口时间序列数据。
具体的,预先设置用于周期性划分的时间周期节点。该时间周期节点可以按照自然周期进行设置。例如:按照自然月进行设置时,可以将每个月的起点时刻以及终点时刻分别作为一个时间周期节点;按照自然周进行设置时,可以将每个周的起点时刻以及终点时刻分别作为一个时间周期节点。
得到预设的时间周期节点后,在时间周期节点所在时刻对目标时间序列数据进行划分,从而得到位于相邻时间周期节点之间的窗口时间序列数据。
在一实施例中,获取预设的周期长度,以及预设的步进长度。以所述步进长度在所述目标时间序列数据上滑动所述周期长度的窗口,将所述窗口截取得到的数据作为所述窗口时间序列数据。
具体的,在目标时间序列数据上滑动窗口,进而将该窗口截取得到的数据作为窗口时间序列数据。其中,该窗口的长度为预设的周期长度,该窗口的滑动步长为预设的步进长度。
在一实施例中,在对所述窗口时间序列数据进行显著性检测之前,检测所述窗口时间序列数据是否存在数据缺失,进而针对存在数据缺失的窗口时间序列数据,采用线性插值的方式填充所述窗口时间序列数据的缺失值。
具体的,划分得到窗口时间序列数据后,在对其进行显著性检测之前,还要检测其是否存在数据缺失。由于数据缺失将会导致显著性检测的准确性降低,因此针对存在数据缺失的窗口时间序列数据,该实施例采用线性插值的方式填充缺失值。
其中,窗口时间序列数据之所以会存在数据缺失,主要原因在于目标时间序列数据中的各个数据一般是离散的,因此一旦目标时间序列数据被在划分开来,在划分边界处便可能没有任何数据,从而导致窗口时间序列数据的两端存在数据缺失。
因此针对存在数据缺失的窗口时间序列数据,确定其发生数据缺失的所在端,进而结合与该所在端相邻的其他窗口时间序列数据,采用线性插值的方式,在该所在端与该其他窗口时间序列数据之间填充数据,从而填充该所在端的缺失值。
在一实施例中,基于傅里叶变换对所述窗口时间序列数据进行处理,得到所述窗口时间序列数据的对数振幅谱。基于所述对数振幅谱,得到所述窗口时间序列数据的频谱残差。基于傅里叶逆变换对所述频谱残差进行处理,得到所述显著性图。
具体的,采取剩余谱SR算法对窗口时间序列数据进行显著性检测,以得到显著性图。
这一过程主要包括三个部分:(1)基于傅里叶变换对窗口时间序列数据进行处理,得到对数振幅谱;(2)基于对数振幅谱,得到频谱残差;(3)基于傅里叶逆变换对频谱残差进行处理,得到显著性图。
这一过程可通过如下公式表示:
P(f)=Phrase((x))
L(f)=log(A(f))
AL(f)=hq(f)·L(f)
R(f)=L(f)-AL(f)
其中,x为窗口时间序列数据;A(f)为傅里叶变换之后得到的振幅谱,P(f)为傅里叶变换之后得到的相位谱;L(f)为对数振幅谱;AL(f)为对L(f)进行均值滤波之后的结果;R(f)为频谱残差;S(x)为傅里叶逆变换之后得到的显著性图。
在一实施例中,对所述显著性图进行k轮异常点检测,每轮异常点检测过程中,计算当前轮次中各点的检验统计量以及检验临界值,将最大检验统计量的点从所述显著性图中删除,并且,若所述最大检验统计量大于所述检验临界值,则将删除的点作为异常点,其中,k为大于0的自然数。
具体的,采用ESD异常检测算法对显著性图进行异常点检测。采用ESD异常检测算法对显著性图进行异常点检测时,是循环着对其进行k轮异常点检测的,每轮检测最多得到一个异常点,因此k是检测轮次的同时,也是异常点的数量上限。
每轮异常点检测过程中,均会计算当前轮次中各点的检验统计量以及检验临界值。进而将其中最大检验统计量作为候选异常点,候选异常点是在当前轮次检测结束后将被从下一轮次中删除的点,无论候选异常点是否会被判定为异常点;删除的点不参与下轮的异常点检测。选取出候选异常点后,将其检验统计量(即,当前轮次中的最大检验统计量)与检验临界值进行对比,若大于检验临界值,则将候选异常点判定为异常点;反之,若小于或等于检验临界值,则将候选异常点判定为非异常点。
每轮的异常点检测过程如下:
1、在当前轮次的所有点中,选取得到其中的中位数Xmed。
2、按照如下公式计算中位数绝对误差MAD:
MAD=median(|Xj-median(X)|)
3、依据中位数Xmed和中位数绝对误差MAD,按照如下公式计算当前轮次的各个点的检验统计量Gj:
其中,j为当前轮次的次序数;Gj为当前轮次的各个点。
4、将Gj值最大的点作为候选异常点,并将候选异常点从下一轮次中删除。
5、按照如下公式计算在显著性水平α下的T分布检验临界值λi;
其中,n为对应的窗口时间序列数据的数据总数;tp,n-j-1为显著度等于p,自由度等于n-j-1的T分布临界值。
6、将候选异常点的检验统计量,即最大的Gj值,与T分布检验临界值λi进行比较。若最大的Gj值大于λi,则将该候选异常点判定为异常点;反之,不判定为异常点。
在一实施例中,从预设的超参中获取异常点比例。基于所述窗口时间序列数据的数据总量与所述异常点比例之间的乘积,确定k。
具体的,在超参中预先设置针对窗口时间序列数据的异常点比例,进而将其用于确定异常点的数量上限k。例如:将数据总量与异常点比例之间的乘积向上取整,得到k。
在一实施例中,在超参中预设设置针对窗口时间序列数据的松弛参数,从而扩充了正常点的集合的范围,提供了结果的容忍度。
由于本申请所提出的技术方案,在进行异常数据检测时,对于超参(异常点比例,松弛参数)不是很敏感,调参较为容易,因此尤其适合缺少标注的数据的处理。
图2示出了本申请一实施例的异常数据定位的详细流程示意图。
该实施例中,获取得到待定位其中异常数据的目标时间序列数据后,对其进行周期性地划分,得到若干个窗口时间序列数据。
检测窗口时间序列数据是否存在数据缺失,若存在,则采用线性插值的方式填充缺失数据。
针对窗口时间序列数据设置异常点比例和松弛参数这些超参。
进而采用SR算法对窗口时间序列数据进行显著性检测,得到显著性图。进而采用ESD算法对显著性图进行异常点检测,检测出其中的异常点。进而根据各个窗口时间序列数据的显著性图中的异常点,定位目标时间序列数据中的异常数据。
图3示出了根据本申请一实施例的异常数据定位装置,所述装置包括:
划分模块210,配置为对目标时间序列数据进行周期性地划分,得到所述目标时间序列数据包含的窗口时间序列数据;
显著性检测模块220,配置为对所述窗口时间序列数据进行显著性检测,得到所述窗口时间序列数据的显著性图;
异常定位模块230,配置为对所述显著性图进行异常点检测,并基于得到的异常点检测结果,定位所述目标时间序列数据中的异常数据。
在本申请的一示例性实施例中,所述装置配置为:
获取预设的时间周期节点;
在所述时间周期节点所在时刻对所述目标时间序列数据进行划分,将相邻时间周期节点之间的数据作为所述窗口时间序列数据。
在本申请的一示例性实施例中,所述装置配置为:
获取预设的周期长度,以及预设的步进长度;
以所述步进长度在所述目标时间序列数据上滑动所述周期长度的窗口,将所述窗口截取得到的数据作为所述窗口时间序列数据。
在本申请的一示例性实施例中,所述装置配置为:
检测所述窗口时间序列数据是否存在数据缺失;
针对存在数据缺失的窗口时间序列数据,采用线性插值的方式填充所述窗口时间序列数据的缺失值。
在本申请的一示例性实施例中,所述装置配置为:
基于傅里叶变换对所述窗口时间序列数据进行处理,得到所述窗口时间序列数据的对数振幅谱;
基于所述对数振幅谱,得到所述窗口时间序列数据的频谱残差;
基于傅里叶逆变换对所述频谱残差进行处理,得到所述显著性图。
在本申请的一示例性实施例中,所述装置配置为:
对所述显著性图进行k轮异常点检测,每轮异常点检测过程中,计算当前轮次中各点的检验统计量以及检验临界值,将最大检验统计量的点从所述显著性图中删除,并且,若所述最大检验统计量大于所述检验临界值,则将删除的点作为异常点,其中,k为大于0的自然数。
在本申请的一示例性实施例中,所述装置配置为:
从预设的超参中获取异常点比例;
基于所述窗口时间序列数据的数据总量与所述异常点比例之间的乘积,确定k。
下面参考图4来描述根据本申请实施例的电子设备30。图4显示的电子设备30仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,电子设备30以通用计算设备的形式表现。电子设备30的组件可以包括但不限于:上述至少一个处理单元310、上述至少一个存储单元320、连接不同系统组件(包括存储单元320和处理单元310)的总线330。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元310执行,使得所述处理单元310执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元310可以执行如图1中所示的各个步骤。
存储单元320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)3201和/或高速缓存存储单元3202,还可以进一步包括只读存储单元(ROM)3203。
存储单元320还可以包括具有一组(至少一个)程序模块3205的程序/实用工具3204,这样的程序模块3205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备30也可以与一个或多个外部设备400(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备30交互的设备通信,和/或与使得该电子设备30能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口350进行。输入/输出(I/O)接口350与显示单元340相连。并且,电子设备30还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器360通过总线330与电子设备30的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
在本申请的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述方法实施例部分描述的方法。
根据本申请的一个实施例,还提供了一种用于实现上述方法实施例中的方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如JAVA、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由所附的权利要求指出。
Claims (10)
1.一种异常数据定位方法,其特征在于,所述方法包括:
对目标时间序列数据进行周期性地划分,得到所述目标时间序列数据包含的窗口时间序列数据;
对所述窗口时间序列数据进行显著性检测,得到所述窗口时间序列数据的显著性图;
对所述显著性图进行异常点检测,并基于得到的异常点检测结果,定位所述目标时间序列数据中的异常数据。
2.根据权利要求1所述的方法,其特征在于,对目标时间序列数据进行周期性地划分,得到所述目标时间序列数据包含的窗口时间序列数据,包括:
获取预设的时间周期节点;
在所述时间周期节点所在时刻对所述目标时间序列数据进行划分,将相邻时间周期节点之间的数据作为所述窗口时间序列数据。
3.根据权利要求1所述的方法,其特征在于,对目标时间序列数据进行周期性地划分,得到所述目标时间序列数据包含的窗口时间序列数据,包括:
获取预设的周期长度,以及预设的步进长度;
以所述步进长度在所述目标时间序列数据上滑动所述周期长度的窗口,将所述窗口截取得到的数据作为所述窗口时间序列数据。
4.根据权利要求1所述的方法,其特征在于,在对所述窗口时间序列数据进行显著性检测之前,所述方法还包括:
检测所述窗口时间序列数据是否存在数据缺失;
针对存在数据缺失的窗口时间序列数据,采用线性插值的方式填充所述窗口时间序列数据的缺失值。
5.根据权利要求1所述的方法,其特征在于,对所述窗口时间序列数据进行显著性检测,得到所述窗口时间序列数据的显著性图,包括:
基于傅里叶变换对所述窗口时间序列数据进行处理,得到所述窗口时间序列数据的对数振幅谱;
基于所述对数振幅谱,得到所述窗口时间序列数据的频谱残差;
基于傅里叶逆变换对所述频谱残差进行处理,得到所述显著性图。
6.根据权利要求1所述的方法,其特征在于,对所述显著性图进行异常点检测,包括:
对所述显著性图进行k轮异常点检测,每轮异常点检测过程中,计算当前轮次中各点的检验统计量以及检验临界值,将最大检验统计量的点从所述显著性图中删除,并且,若所述最大检验统计量大于所述检验临界值,则将删除的点作为异常点,其中,k为大于0的自然数。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
从预设的超参中获取异常点比例;
基于所述窗口时间序列数据的数据总量与所述异常点比例之间的乘积,确定k。
8.一种异常数据定位装置,其特征在于,所述装置包括:
划分模块,配置为对目标时间序列数据进行周期性地划分,得到所述目标时间序列数据包含的窗口时间序列数据;
显著性检测模块,配置为对所述窗口时间序列数据进行显著性检测,得到所述窗口时间序列数据的显著性图;
异常定位模块,配置为对所述显著性图进行异常点检测,并基于得到的异常点检测结果,定位所述目标时间序列数据中的异常数据。
9.一种电子设备,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-7中的任一个所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-7中的任一个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111613052.2A CN114328662A (zh) | 2021-12-27 | 2021-12-27 | 异常数据定位方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111613052.2A CN114328662A (zh) | 2021-12-27 | 2021-12-27 | 异常数据定位方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114328662A true CN114328662A (zh) | 2022-04-12 |
Family
ID=81013630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111613052.2A Pending CN114328662A (zh) | 2021-12-27 | 2021-12-27 | 异常数据定位方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114328662A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114944831A (zh) * | 2022-05-12 | 2022-08-26 | 中国科学技术大学先进技术研究院 | 多周期时间序列数据分解方法、装置、设备及存储介质 |
-
2021
- 2021-12-27 CN CN202111613052.2A patent/CN114328662A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114944831A (zh) * | 2022-05-12 | 2022-08-26 | 中国科学技术大学先进技术研究院 | 多周期时间序列数据分解方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9189318B2 (en) | Path-sensitive analysis framework for bug checking | |
US8850270B2 (en) | Test selection | |
CN107506300B (zh) | 一种用户界面测试方法、装置、服务器和存储介质 | |
US8949676B2 (en) | Real-time event storm detection in a cloud environment | |
US20150025872A1 (en) | System, method, and apparatus for modeling project reliability | |
US8661431B2 (en) | Accurately estimating install time | |
US8793673B2 (en) | Algorithm complexity identification | |
CN106598822B (zh) | 一种用于容量评估的异常数据检测方法及装置 | |
KR20190071812A (ko) | 고장 리스크 지표 추정 장치 및 고장 리스크 지표 추정 방법 | |
EP3806008A1 (en) | Model generation device for lifespan prediction, model generation method for lifespan prediction, and storage medium storing model generation program for lifespan prediction | |
CN111104335A (zh) | 一种基于多层次分析的c语言缺陷检测方法及装置 | |
CN110909306B (zh) | 业务异常检测方法、装置、电子设备和存储设备 | |
US8924797B2 (en) | Identifying a dimension associated with an abnormal condition | |
US20140366140A1 (en) | Estimating a quantity of exploitable security vulnerabilities in a release of an application | |
CN114328662A (zh) | 异常数据定位方法、装置、电子设备及存储介质 | |
US20100036981A1 (en) | Finding Hot Call Paths | |
US11438994B2 (en) | Filament current control method and apparatus | |
CN110659280B (zh) | 道路阻断异常检测方法、装置、计算机设备及存储介质 | |
KR20220061713A (ko) | 스마트 미터의 결측치 대체 방법 및 이를 이용하는 스마트 미터 제어 시스템 | |
US20090138237A1 (en) | Run-Time Characterization of On-Demand Analytical Model Accuracy | |
CN110175128B (zh) | 一种相似代码案例获取方法、装置、设备和存储介质 | |
CN110727602A (zh) | 覆盖率数据的处理方法、装置及存储介质 | |
KR102117905B1 (ko) | 신뢰성 테스트 결과 관리 데이터 자동 생성 방법 및 신뢰성 테스트 결과 관리 데이터 자동 생성 장치 | |
CN110716859A (zh) | 自动为修改的代码推送测试用例的方法及相关装置 | |
US20110239197A1 (en) | Instance-based field affinity optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |