CN113377568A - 一种异常检测方法、装置、电子设备及存储介质 - Google Patents

一种异常检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113377568A
CN113377568A CN202110728899.9A CN202110728899A CN113377568A CN 113377568 A CN113377568 A CN 113377568A CN 202110728899 A CN202110728899 A CN 202110728899A CN 113377568 A CN113377568 A CN 113377568A
Authority
CN
China
Prior art keywords
index
sequence
data
stationarity
index data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110728899.9A
Other languages
English (en)
Other versions
CN113377568B (zh
Inventor
朱柯
谢毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tongchuang Yongyi Technology Development Co ltd
Original Assignee
Beijing Tongchuang Yongyi Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tongchuang Yongyi Technology Development Co ltd filed Critical Beijing Tongchuang Yongyi Technology Development Co ltd
Priority to CN202110728899.9A priority Critical patent/CN113377568B/zh
Publication of CN113377568A publication Critical patent/CN113377568A/zh
Application granted granted Critical
Publication of CN113377568B publication Critical patent/CN113377568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请提供了一种异常检测方法、装置、电子设备及存储介质,该方法通过全自动方式检测指标数据是否存在异常,相比于人工方式,效率得到提高。并且,对指标数据进行分类,得到指标数据的类别,基于指标数据的类别,获取异常检测模型,实现不同类别指标数据使用与其匹配的异常检测模型,保证异常检测模型定位的准确性。在此基础上,在异常检测模型有多个的情况下,分别利用各个异常检测模型,对指标数据进行异常检测,保证检测的全面性,并基于多个异常检测结果,确定指标数据是否存在异常,能够提高检测的准确性。

Description

一种异常检测方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种异常检测方法、装置、电子设备及存储介质。
背景技术
随着互联网,特别是移动互联网的高速发展,web服务已经深入到社会的各个领域(如,搜索、购物、付款、娱乐等)。因此,保障web服务的稳定已经变的越来越重要。
目前,Web服务的稳定性主要靠运维来保障,具体由运维人员通过监控关键性能指标(KPI)是否异常,来判断Web服务是否稳定。
但是,人为监控KPI是否异常存在效率低及准确性低的问题。
发明内容
为解决上述技术问题,本申请实施例提供一种异常检测方法、装置、电子设备及存储介质,以达到提高检测效率及准确性的目的,技术方案如下:
一种异常检测方法,包括:
获取指标数据;
对所述指标数据进行分类,得到所述指标数据的类别;
基于所述指标数据的类别,获取异常检测模型;
在所述异常检测模型有多个的情况下,分别利用各个所述异常检测模型,对所述指标数据进行异常检测,得到异常检测结果;
基于多个所述异常检测结果,确定所述指标数据是否存在异常。
可选的,所述对所述指标数据进行分类,得到所述指标数据的类别,包括:
对所述指标数据进行预处理,得到目标指标数据;
对所述目标指标数据进行分类,得到所述目标指标数据的类别。
可选的,在所述指标数据有多个,且每个所述指标数据包括时间戳和指标值的情况下,所述对所述指标数据进行预处理,得到目标指标数据,包括:
按时间先后顺序对多个所述指标数据进行排序,得到第一指标序列;
确定所述第一指标序列的指标数据缺失情况,并基于所述指标数据缺失情况,对所述第一指标序列进行缺失处理,得到第二指标序列;
对所述第二指标序列进行平滑处理,得到第三指标序列,所述第三指标序列的噪声数据少于所述第二指标序列的噪声数据;
利用盖帽算法消除所述第三指标序列中的异常数据,得到目标指标序列。
可选的,所述对所述目标指标数据进行分类,得到所述目标指标数据的类别,包括:
判断所述目标指标序列的均值是否为常数;
若为常数,则判断所述目标指标序列的方差是否存在;
若存在,则判断所述目标指标序列的自协方差是否随时间波动;
若不随时间波动,则确定所述目标指标序列为平稳性指标序列。
可选的,基于所述指标数据的类别,获取异常检测模型,包括:
若所述目标指标序列为平稳性指标序列,则获取孤立森林异常检测算法模型、PCA算法模型、LOF算法模型和HBOS算法模型;
所述分别利用各个所述异常检测模型,对所述指标数据进行异常检测,得到异常检测结果,包括:
利用所述孤立森林异常检测算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第一概率和所述平稳性指标序列为正常序列的第二概率;
利用所述PCA算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第三概率和所述平稳性指标序列为正常序列的第四概率;
利用所述LOF算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第五概率和所述平稳性指标序列为正常序列的第六概率;
利用所述HBOS算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第七概率和所述平稳性指标序列为正常序列的第八概率;
所述基于多个所述异常检测结果,确定所述指标数据是否存在异常,包括:
对所述第一概率、所述第三概率、所述第五概率及所述第七概率进行平均运算,得到第一目标概率;
对所述第二概率、所述第四概率、所述第六概率及所述第八概率进行平均运算,得到第二目标概率;
判断所述第一目标概率是否大于所述第二目标概率。
可选的,所述方法还包括:
若所述目标指标序列的均值非常数,或,所述目标指标序列的方差不存在,或,所述目标指标序列的自协方差随时间波动,则确定所述目标指标序列为非平稳性指标序列;
将所述非平稳性指标序列分割为多个指标子序列;
计算多个所述指标子序列中第一个指标子序列,与多个所述指标子序列中除所述第一个指标子序列之外的各个指标子序列之间的相似度;
计算多个所述相似度的均值,并判断多个所述相似度的均值是否超过设定阈值;
若超过所述设定阈值,则确定所述非平稳性指标序列为周期性序列;
若未超过所述设定阈值,则确定所述非平稳性指标序列为非周期性序列。
可选的,基于所述指标数据的类别,获取异常检测模型,包括:
若所述非平稳性指标序列为周期性序列,则获取长短期记忆网络模型和Prophet算法模型;
所述分别利用各个所述异常检测模型,对所述指标数据进行异常检测,得到异常检测结果,包括:
将所述周期性序列输入到长短期记忆网络模型,获得所述长短期记忆网络模型得到的在设定时间段内的第一预测序列;
利用设定大小的矩形窗口,以设定步长在所述周期性序列中滑动,得到所述矩形窗口内的上四分位数和下四分位数;
利用所述上四分位数和所述下四分位数,得到偏离度;
将所述第一预测序列中每个指标数据与所述偏离度进行相加,得到上边界,并分别将所述第一预测序列中每个指标数据与所述偏离度进行相减,得到下边界,将多个所述上边界和多个所述下边界组成第一基准指标范围;
将所述周期性序列输入到所述Prophet算法模型,获得所述Prophet算法模型得到第二预测序列;
结合统计学的nsigma原理及历史矩形窗口中的数据计算nsigma,将所述第二预测序列与所述nsigma与n的乘积相加,得到上边界,将所述第二预测序列与所述,得到述nsigma与n的乘积相减,得到下边界,将所述下边界到所述上边界的范围作为第二基准指标范围,所述n为大于0的数;
所述基于多个所述异常检测结果,确定所述指标数据是否存在异常,包括:
对所述第一基准指标范围中的指标数据及所述第二基准指标范围中的指标数据进行加权平均运算,得到第三基准指标范围;
判断所述预测序列中指标数据是否在所述第三基准指标范围内。
可选的,基于所述指标数据的类别,获取异常检测模型,包括:
若所述非平稳性指标序列为非周期性序列,则获取多重小波分解算法模型;
所述方法还包括:
利用所述多重小波分解算法模型,从所述非周期性序列中提取噪声数据。
一种异常检测装置,包括:
第一获取模块,用于获取指标数据;
分类模块,用于对所述指标数据进行分类,得到所述指标数据的类别;
第二获取模块,用于基于所述指标数据的类别,获取异常检测模型;
检测模块,用于在所述异常检测模型有多个的情况下,分别利用各个所述异常检测模型,对所述指标数据进行异常检测,得到异常检测结果;
集成模块,用于基于多个所述异常检测结果,确定所述指标数据是否存在异常。
一种电子设备,包括:
存储器,用于至少存储一组指令集;
处理器,用于调用并执行所述存储器中的所述指令集,通过执行所述指令集执行如上述任意一项所述的异常检测方法的各步骤。
一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行,实现如上述任意一项所述的异常检测方法的各步骤。
与现有技术相比,本申请的有益效果为:
在本申请中,通过全自动方式检测指标数据是否存在异常,相比于人工方式,效率得到提高。并且,对指标数据进行分类,得到指标数据的类别,基于指标数据的类别,获取异常检测模型,实现不同类别指标数据使用与其匹配的异常检测模型,保证异常检测模型定位的准确性。在此基础上,在异常检测模型有多个的情况下,分别利用各个异常检测模型,对指标数据进行异常检测,保证检测的全面性,并基于多个异常检测结果,确定指标数据是否存在异常,能够提高检测的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种异常检测方法实施例1的流程图;
图2是本申请提供的一种异常检测方法实施例2的流程图;
图3是本申请提供的一种异常检测方法实施例3的流程图;
图4是本申请提供的PCA算法检测原理图;
图5是本申请提供的一种异常检测方法实施例4的流程图;
图6是本申请提供的LSTM模型的结构示意图;
图7是本申请提供的一种异常检测装置的逻辑结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,为本申请实施例1提供的一种异常检测方法的流程示意图,该方法可以应用于电子设备,本申请对电子设备的产品类型不做限定,如图1所示,该方法可以包括但并不局限于以下步骤:
步骤S11、获取指标数据。
本实施例中,获取指标数据,可以包括但不局限于:实时采集指标数据。
当然,获取指标数据,也可以包括:从时序数据库中获取指标数据。具体地,可以根据数据业务需要,根据不同数据id名称,从时序数据库中提取指标数据。其中,时序数据库中的指标数据可以为中间件在采集指标数据中,存储到时序数据库中的。
指标数据可以包括但不局限于:服务KPI和机器KPI。服务KPI可以理解为:能够反映Web服务的规模、质量的性能指标,例如,网页响应时间,网页访问量,连接错误数量等。机器KPI可以理解为:能够反映机器(服务器、路由器、交换机)健康状态的性能指标,例如,CPU使用率,内存使用率,磁盘IO,网卡吞吐率等。
本实施例中,指标数据可以包括时间戳和指标值。其中,时间戳可以反映指标值的采集时间。
步骤S12、对所述指标数据进行分类,得到所述指标数据的类别。
对所述指标数据进行分类,得到所述指标数据的类别,所述指标数据的类别可以作为获取异常检测模型的基础。
对所述指标数据进行分类,得到所述指标数据的类别,可以包括但不局限于:
S1201、对所述指标数据进行预处理,得到目标指标数据。
S1202、对所述目标指标数据进行分类,得到所述目标指标数据的类别。
本实施例中,对所述指标数据进行预处理,得到目标指标数据,对所述目标指标数据进行分类,得到所述目标指标数据的类别,可以保证分类的准确性及效率。
步骤S13、基于所述指标数据的类别,获取异常检测模型。
不同类别的指标数据对应有与其匹配的异常检测模型,与其匹配的异常检测模型对指标数据进行异常检测,准确性更高。
基于所述指标数据的类别,获取异常检测模型,可以理解为:获取与所述指标数据的类别对应的异常检测模型。
步骤S14、在所述异常检测模型有多个的情况下,分别利用各个所述异常检测模型,对所述指标数据进行异常检测,得到异常检测结果。
步骤S15、基于多个所述异常检测结果,确定所述指标数据是否存在异常。
基于多个所述异常检测结果,确定所述指标数据是否存在异常,相比于基于单个异常检测结果,确定所述指标数据是否存在异常,准确性更高。
在本申请中,通过全自动方式检测指标数据是否存在异常,相比于人工方式,效率得到提高。并且,对指标数据进行分类,得到指标数据的类别,基于指标数据的类别,获取异常检测模型,实现不同类别指标数据使用与其匹配的异常检测模型,保证异常检测模型定位的准确性。在此基础上,在异常检测模型有多个的情况下,分别利用各个异常检测模型,对指标数据进行异常检测,保证检测的全面性,并基于多个异常检测结果,确定指标数据是否存在异常,能够提高检测的准确性。
作为本申请另一可选实施例,如图2所示,为本申请提供的一种异常检测方法实施例2的流程示意图,本实施例主要是对上述实施例1描述的异常检测方法的细化方案,该方法可以包括但并不局限于以下步骤:
步骤S21、获取指标数据。
步骤S21的详细过程可以参见实施例1中步骤S11的相关介绍,在此不再赘述。
步骤S22、在所述指标数据有多个,且每个所述指标数据包括时间戳和指标值的情况下,按时间先后顺序对多个所述指标数据进行排序,得到第一指标序列。
由于每个所述指标数据分别包括时间戳,因此基于时间戳,可以按时间先后顺序对多个所述指标数据进行排序,得到第一指标序列。
步骤S23、确定所述第一指标序列的指标数据缺失情况,并基于所述指标数据缺失情况,对所述第一指标序列进行缺失处理,得到第二指标序列。
确定所述第一指标序列的指标数据缺失情况,可以包括:
S2301、将第一指标序列中第一个时间戳作为开始时间,将第一指标序列中最后一个时间戳作为结束时间;
S2032、根据时间的细粒度(如,小时、分或秒)和所述第一指标序列的开始时间和结束时间,得到完整指标序列长度。
例如,第一指标序列的开始时间为13:00,第一指标序列的结束时间为14:00,时间的细粒度为分,则可以确定13:00-14:00之间为60分钟,则完整指标序列长度为60。
S2033、将完整指标序列长度与所述第一指标序列的长度的差值,除以完整指标序列长度,得到指标数据缺失率。
第一指标序列的长度可以理解为:根据时间的细粒度和第一指标序列中时间戳确定的长度。确定第一指标序列的长度可以参见步骤S2032所介绍的过程。
对应步骤S2031-S2033,基于所述指标数据缺失情况,对所述第一指标序列进行缺失处理,得到第二指标序列,可以包括:
在所述指标数据缺失率小于缺失阈值的情况下,可以利用线性插值法对所述第一指标序列进行数据填充,得到第二指标序列。
确定所述第一指标序列的指标数据缺失情况,也可以包括:
S2034、对所述第一指标序列进行复制,得到第一待使用指标序列;
S2036、分别将所述第一待使用指标序列中每个时间戳与设定时间间隔相加,得到第二待使用指标序列;
S2037、将第二待使用指标序列中各个时间戳分别减去所述第一指标序列中对应时间戳,得到目标时间间隔,若目标时间间隔大于设定时间间隔,则确定存在多个数据连续缺失;
S2038、对连续缺失的数据进行删除。
在存在多个数据连续缺失的情况下,对连续缺失的数据进行删除,保证指标数据的连续性和可用性。
步骤S24、对所述第二指标序列进行平滑处理,得到第三指标序列,所述第三指标序列的噪声数据少于所述第二指标序列的噪声数据。
本实施例中,可以利用滑动窗口法对所述第二指标序列进行平滑处理。其中,滑动串口的大小为自适应参数,可以根据时间的细粒度进行自动设置。
对所述第二指标序列进行平滑处理,能够保证第三指标序列保留有第二指标序列的趋势走向,且消除了第二指标序列中的噪声数据。
步骤S25、利用盖帽算法消除所述第三指标序列中的异常数据,得到目标指标序列。
利用盖帽算法消除所述第三指标序列中的异常数据,可以理解为:利用盖帽算法对所述第三指标序列中的上99分位数和下99分位数进行异常数据的处理。
利用盖帽算法消除所述第三指标序列中的异常数据,实现对第三指标序列中难以消除的异常数据进行梳理,进一步保证目标指标序列的标准化。
步骤S22-S25为实施例1中步骤S12的一种具体实施方式。
步骤S26、对所述目标指标序列进行分类,得到所述目标指标序列的类别。
步骤S27、基于所述目标指标序列的类别,获取异常检测模型。
步骤S28、在所述异常检测模型有多个的情况下,分别利用各个所述异常检测模型,对所述目标指标序列进行异常检测,得到异常检测结果。
步骤S29、基于多个所述异常检测结果,确定所述目标指标序列是否存在异常。
步骤S26-S29为实施例1中步骤S13-S16的一种具体实施方式。
本实施例中,按时间先后顺序对多个所述指标数据进行排序,得到第一指标序列,确定所述第一指标序列的指标数据缺失情况,并基于所述指标数据缺失情况,对所述第一指标序列进行缺失处理,得到第二指标序列,对所述第二指标序列进行平滑处理,得到第三指标序列,所述第三指标序列的噪声数据少于所述第二指标序列的噪声数据,利用盖帽算法消除所述第三指标序列中的异常数据,得到目标指标序列,保证目标指标序列中的噪声数据大大减少,进一步提高异常检测的准确性。
作为本申请另一可选实施例,如图3所示,为本申请提供的一种异常检测方法实施例3的流程示意图,本实施例主要是对上述实施例2描述的异常检测方法的细化方案,该方法可以包括但并不局限于以下步骤:
步骤S31、获取指标数据。
步骤S32、在所述指标数据有多个,且每个所述指标数据包括时间戳和指标值的情况下,按时间先后顺序对多个所述指标数据进行排序,得到第一指标序列。
步骤S33、确定所述第一指标序列的指标数据缺失情况,并基于所述指标数据缺失情况,对所述第一指标序列进行缺失处理,得到第二指标序列。
步骤S34、对所述第二指标序列进行平滑处理,得到第三指标序列,所述第三指标序列的噪声数据少于所述第二指标序列的噪声数据。
步骤S35、利用盖帽算法消除所述第三指标序列中的异常数据,得到目标指标序列。
步骤S31-S35的详细过程可以参见实施例2中步骤S21-S25的相关介绍,在此不再赘述。
步骤S36、判断所述目标指标序列的均值是否为常数。
本实施例中,可以利用如下关系式,判断所述目标指标序列的均值是否为常数:
E(Xt)=μ
其中,E()表示用于计算均值的函数,Xt表示所述目标指标序列,μ表示常数。
若是,则执行步骤S37。
步骤S37、判断所述目标指标序列的方差是否存在;
若是,则执行步骤S38。
步骤S38、判断所述目标指标序列的自协方差是否随时间波动。
本实施例中,可以利用如下关系式,判断所述目标指标序列的自协方差是否随时间波动:
γl(Xt)=γl(Xt+h)
其中,γl()表示l阶自协方差计算函数,h表示任意整数,l表示任意阶数。
若否,则执行步骤S39。
步骤S39、确定所述目标指标序列为平稳性指标序列。
步骤S36-S39为实施例2中步骤S26的一种具体实施方式。
步骤S310、若所述目标指标序列为平稳性指标序列,则获取孤立森林异常检测算法模型、PCA算法模型、LOF算法模型和HBOS算法模型。
步骤S310为实施例2中步骤S27的一种具体实施方式。
步骤S311、利用孤立森林异常检测算法模型、PCA算法模型、LOF算法模型和HBOS算法模型,分别对平稳性指标序列进行异常检测,得到异常检测结果。
本实施例中,利用孤立森林异常检测算法模型、PCA算法模型、LOF算法模型和HBOS算法模型,分别对平稳性指标序列进行异常检测的过程,可以包括:
S3110、利用所述孤立森林异常检测算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第一概率和所述平稳性指标序列为正常序列的第二概率。
所述孤立森林异常检测算法模型的原理为:将异常点定义为“容易被孤立的离群点”(可以理解为:分布稀疏,且距离高密度群体较远的点)。从统计学来看,在数据空间里,若一个区域内只有分布稀疏的点,表示数据点落在此区域的概率很低,因此可以认为这些区域的点是异常的。如图4所示,越少次数被孤立的判定为异常。
基于上述原理,对所述平稳性指标序列进行异常检测的过程,可以理解为:
确定平稳性指标序列中分布稀疏,且距离高密度指标数据较远的指标数据。
S3111、利用所述PCA算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第三概率和所述平稳性指标序列为正常序列的第四概率。
PCA算法的原理可以理解为:将样本和协方差矩阵特征值分解以后,特征值即样本投影到这个轴上后对应的方差,特征值越小,说明投影以后在这个轴上样本点分布集中,而异常点在这种情况下更容易偏移,利用这一点可以作为衡量样本异常的一个指标在PCA算法做降维的时候,起作用的是大的特征值对应的特征向量,而在异常检测中,起作用的是特征值小的对应的特征向量。
根据以上原理,可以定义PCA中一个点的异常x的异常评分公式为:
Figure BDA0003138588640000121
其中,X表示多个样本的特征组成的特征矩阵,xT为特征矩阵的转置,ei为第i个特征向量,γi为沿特征向量的方向的方差(也是特征值)。
通过以上关系式可以看出,对异常得分的大部分贡献由γi值较小的主成分的提供。
利用所述PCA算法模型,对所述平稳性指标序列进行异常检测,可以理解为:
对平稳性指标序列进行特征分解,得到特征矩阵;
利用
Figure BDA0003138588640000131
计算特征矩阵的异常评分。
异常评分可以理解为:为异常的概率。
S3112、利用所述LOF算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第五概率和所述平稳性指标序列为正常序列的第六概率。
利用所述LOF算法模型,对所述平稳性指标序列进行异常检测,可以理解为:
计算所述平稳性指标序列中每个指标数据周围的指标数据所处位置的平均密度与该指标数据所在位置的密度的比值;
根据比值,确定该指标数据是否为异常数据。
比值大于1越多,说明该指标数据所在位置的密度越小于其周围指标数据所在位置的密度,该指标数据就越有可能是异常点。
步骤S3113、利用所述HBOS算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第七概率和所述平稳性指标序列为正常序列的第八概率。
HBOS算法的原理为:基于多维数据各个维度的独立性假设,对于单个数据维度,先做出数据直方图。对于categroy值,统计每个值出现的次数,并计算相对频率。按照上面的方法,每一个维度的数据都生成一个柱状图,每个桶的高度代表数据的密度,使用归一化操作保证桶最高的高度是1,这样可以保证每个特征的权重相同。最终每一个样本的HBOS值按照下面的公示计算,分数越高越异常。
Figure BDA0003138588640000132
基于上述HBOS算法模型的原理,利用所述HBOS算法模型,对所述平稳性指标序列进行异常检测,可以包括:
利用
Figure BDA0003138588640000133
计算平稳性指标序列中每个指标数据的分数;
若分数超过阈值,则确定指标数据为异常数据。
步骤S311-S314为实施例2中步骤S28的一种具体实施方式。
步骤S312、通过soft voting策略对多个异常检测结果进行处理,判断平稳性指标序列是否为异常序列。
本实施例中,通过soft voting策略对多个异常检测结果进行处理,判断平稳性指标序列是否为异常序列的过程,可以包括:
S3120、对所述第一概率、所述第三概率、所述第五概率及所述第七概率进行平均运算,得到第一目标概率。
S3121、对所述第二概率、所述第四概率、所述第六概率及所述第八概率进行平均运算,得到第二目标概率;
S3122、判断所述第一目标概率是否大于所述第二目标概率。
若是,则执行步骤S3123;若否,则执行步骤S3124。
S3123、确定平稳性指标序列存在异常;
S3124、确定平稳性指标序列不存在异常。
本实施例中,利用集成学习的方式,具体为获取孤立森林异常检测算法模型、PCA算法模型、LOF算法模型和HBOS算法模型,每个算法模型为一个个体学习器,利用各个个体学习器对平稳性指标序列进行异常检测,得到异常检测结果,并利用soft voting策略,判断平稳性指标序列是否为异常指标序列(即步骤S315-S319),以此提高平稳性指标序列异常检测的准确性。
作为本申请另一可选实施例,如图5所示,为本申请提供的一种异常检测方法实施例4的流程示意图,本实施例主要是对上述实施例3描述的异常检测方法的扩展方案,该方法可以包括但并不局限于以下步骤:
步骤S41、获取指标数据。
步骤S42、在所述指标数据有多个,且每个所述指标数据包括时间戳和指标值的情况下,按时间先后顺序对多个所述指标数据进行排序,得到第一指标序列。
步骤S43、确定所述第一指标序列的指标数据缺失情况,并基于所述指标数据缺失情况,对所述第一指标序列进行缺失处理,得到第二指标序列。
步骤S44、对所述第二指标序列进行平滑处理,得到第三指标序列,所述第三指标序列的噪声数据少于所述第二指标序列的噪声数据。
步骤S45、利用盖帽算法消除所述第三指标序列中的异常数据,得到目标指标序列。
步骤S41-S45的详细过程可以参见实施例2中步骤S21-S25的相关介绍,在此不再赘述。
步骤S46、判断所述目标指标序列的均值是否为常数。
若是,则执行步骤S47;若否,则执行步骤S413。
步骤S47、判断所述目标指标序列的方差是否存在;
若是,则执行步骤S48;若否,则执行步骤S413。
步骤S48、判断所述目标指标序列的自协方差是否随时间波动。
若否,则执行步骤S49;若是,则执行步骤S413。
步骤S49、确定所述目标指标序列为平稳性指标序列。
步骤S410、若所述目标指标序列为平稳性指标序列,则获取孤立森林异常检测算法模型、PCA算法模型、LOF算法模型和HBOS算法模型。
步骤S411、利用孤立森林异常检测算法模型、PCA算法模型、LOF算法模型和HBOS算法模型,分别对平稳性指标序列进行异常检测,得到异常检测结果。
步骤S412、通过soft voting策略对多个异常检测结果进行处理,判断平稳性指标序列是否为异常序列。
步骤S41-S412的详细过程可以参见实施例3中步骤S31-S312的相关介绍,在此不再赘述。
步骤S413、确定所述目标指标序列为非平稳性指标序列。
步骤S414、判断所述非平稳性指标序列是否为周期性序列。
判断所述非平稳性指标序列是否为周期性序列的过程,可以包括:
S4141、将所述非平稳性指标序列分割为多个指标子序列;
S4142、计算多个所述指标子序列中第一个指标子序列,与多个所述指标子序列中除所述第一个指标子序列之外的各个指标子序列之间的相似度。
计算多个所述指标子序列中第一个指标子序列,与多个所述指标子序列中除所述第一个指标子序列之外的各个指标子序列之间的相似度,可以包括但不局限于:
利用DWT算法计算多个所述指标子序列中第一个指标子序列,与多个所述指标子序列中除所述第一个指标子序列之外的各个指标子序列之间的相似度。
DWT算法的原理如下:
对于时间序列用一个n×m矩阵对比序列,序列中路径元素表示为wk=(i,j)k,有以下的约束条件:
①边界条件:w1=(1,1)和wk=(m,n),表示两条序列首尾匹配。
②连续性:如果wk=(a,b)且wk=(a′,b′),且必须满足a-a′≤1且b-b′≤1。
③单调性:如果wk-1=(a′,b′),且wk=(a,b),则必须满足a-a′≥0且b-b′≥0,表示随着时间维度单调递增,
④则最优路径表达式如式1-1:
Figure BDA0003138588640000161
S4143、计算多个所述相似度的均值,并判断多个所述相似度的均值是否超过设定阈值。
若是,则执行步骤S415;若否,则执行步骤S419。
步骤S415、获取长短期记忆网络模型和Prophet算法模型。
步骤S416、利用长短期记忆网络模型和Prophet算法模型,分别对周期性序列进行异常检测,得到异常检测结果。
本实施例中,利用长短期记忆网络模型和Prophet算法模型,分别对周期性序列进行异常检测,得到异常检测结果的过程,可以包括:
S4161、将所述周期性序列输入到长短期记忆网络模型,获得所述长短期记忆网络模型得到的在设定时间段内的第一预测序列。
本实施例中,长短期记忆网络(LSTM)模型的特点为在RNN结构以外添加了各层的阀门节点。阀门有3类:遗忘阀门(forget gate),输入阀门(input gate)和输出阀门(output gate)。这些阀门可以打开或关闭,用于将判断模型网络的记忆态(之前网络的状态)在该层输出的结果是否达到阈值从而加入到当前该层的计算中。LSTM模型针对历史数据对往后指标的变化情况进行预测,LSTM模型结构图如图6所示,网络结构是由多层LSTM层进行拼接,最后由一个全连接层(Dense)层整合上一层的输出,最终得到预测值,且需要在每层网络中使用dropout技术,减少模型过拟合,提高泛化能力,激活函数数用Relu:
Figure BDA0003138588640000171
S4162、利用设定大小的矩形窗口,以设定步长在所述周期性序列中滑动,得到所述矩形窗口内的上四分位数和下四分位数。
S4163、利用所述上四分位数和所述下四分位数,得到偏离度。
利用所述上四分位数和所述下四分位数,得到偏离度,可以包括但不局限于:
利用关系式偏离度=3/2*(Q3-Q1),计算得到偏离度。其中,Q3表示上四分位数,Q1表示下四分位数。
S4164、将所述第一预测序列中每个指标数据与所述偏离度进行相加,得到上边界,并分别将所述第一预测序列中每个指标数据与所述偏离度进行相减,得到下边界,将多个所述上边界和多个所述下边界组成第一基准指标范围。
S4165、将所述周期性序列输入到所述Prophet算法模型,获得所述Prophet算法模型得到的第二预测序列。
Prophet算法是基于时间序列模型的基础改进而来y(t)=g(t)+s(t)+h(t)+∈t,模型将时间序列分成3个部分的叠加,其中g(t)表示增长函数,s(t)用来拟合非周期性变化的,h(t)用来表示周期性变化,比如说每周,每年,季节等,表示假期,节日等特殊原因等造成的变化,最后∈t为噪声项,用他来表示随机无法预测的波动。Prophet算法原理如下,
a.趋势项,分为两种:
①饱和的趋势项,即有上界。
Figure BDA0003138588640000181
②线性的增长项。
g(t)=kt+m (1-6)
③C是容量上限,K是增长率,m是偏移量。随着t的不断的增加exp(-k(t-m))→0,所以g(t)→C。
④上面公式有局限性:1.C一般不是一个常数,比如人口增长C(t)是变化的。2.K也不是固定增长率,我们用δj表示变化,sj为该节点的时间。基础变化量为k,所以某时刻的增长率为前面所有的累计值如表达式1-7:
Figure BDA0003138588640000182
⑤由于引用了离散变化的δ,那么导致g(t)不连续,我们需要调整m的值,在每一个时间节点上都会调整,需要注意的是m的调整值是由δj唯一确定的,γ=(γ1,γ2...γs),γj对应第j时刻应该调整偏移的量,如表达式1-8:
Figure BDA0003138588640000183
⑥综合上面有:
Figure BDA0003138588640000191
⑦线性增长项同理:
g(t)=(k+a(t)Tδ)t+(m+a(t)Tγ) (1-10)
b.周期项使用傅里叶展开式逼近,其中P表示周期,N表示使用的逼近项的数目,N越大越精细,如表达式1-11:
Figure BDA0003138588640000192
c.节假日项为,加入有节假日I,Di表示节假日的集合,假设有L中不同节假日,对于任何时间,我们可以通过虚拟变量表示这个时间是否属于节假日,如表达式1-12:
Z(t)=[1(t∈D1),…,1(t∈DL)] (1-12)
基于上述原理,将所述周期性序列输入到所述Prophet算法模型,获得所述Prophet算法模型得到的第二基准指标范围,可以理解为:将所述周期性序列输入到所述Prophet算法模型,所述Prophet算法模型利用g(t)=(k+a(t)Tδ)t+(m+a(t)Tγ),计算得到第二预测序列。
S4166、结合统计学的nsigma原理及历史矩形窗口中的数据计算nsigma,将所述第二预测序列与所述nsigma与n的乘积相加,得到上边界,将所述第二预测序列与所述,得到述nsigma与n的乘积相减,得到下边界,将所述下边界到所述上边界的范围作为第二基准指标范围,所述n为大于0的数。
步骤S417、基于长短期记忆网络模型和Prophet算法模型的异常检测结果,判断周期性序列是否为异常序列。
基于长短期记忆网络模型和Prophet算法模型的异常检测结果,判断周期性序列是否为异常序列的过程,可以包括:
S4171、对所述第一基准指标范围中的指标数据及所述第二基准指标范围中的指标数据进行加权平均运算,得到第三基准指标范围;
S4172、判断所述预测序列中指标数据是否在所述第三基准指标范围内。
步骤S418、获取多重小波分解算法模型。
步骤S419、利用所述多重小波分解算法模型,从所述非周期性序列中提取噪声数据。
本实施例中,使用集成学习的Weighted Average策略框架,对周期性序列进行异常检测(即步骤S415-S417),可以极大的增强异常检测的鲁棒性,提高了准确率和减小了误报率。
接下来对本申请实施例提供的异常检测装置进行介绍,下文介绍的异常检测装置与上文介绍的异常检测方法可相互对应参照。
请参见图7,异常检测装置包括:第一获取模块100、分类模块200、第二获取模块300、检测模块400和集成模块500。
第一获取模块100,用于获取指标数据;
分类模块200,用于对所述指标数据进行分类,得到所述指标数据的类别;
第二获取模块300,用于基于所述指标数据的类别,获取异常检测模型;
检测模块400,用于在所述异常检测模型有多个的情况下,分别利用各个所述异常检测模型,对所述指标数据进行异常检测,得到异常检测结果;
集成模块500,用于基于多个所述异常检测结果,确定所述指标数据是否存在异常。
本实施例中,分类模块200,具体可以用于:
对所述指标数据进行预处理,得到目标指标数据;
对所述目标指标数据进行分类,得到所述目标指标数据的类别。
在所述指标数据有多个,且每个所述指标数据包括时间戳和指标值的情况下,所述对所述指标数据进行预处理,得到目标指标数据,可以包括:
按时间先后顺序对多个所述指标数据进行排序,得到第一指标序列;
确定所述第一指标序列的指标数据缺失情况,并基于所述指标数据缺失情况,对所述第一指标序列进行缺失处理,得到第二指标序列;
对所述第二指标序列进行平滑处理,得到第三指标序列,所述第三指标序列的噪声数据少于所述第二指标序列的噪声数据;
利用盖帽算法消除所述第三指标序列中的异常数据,得到目标指标序列。
本实施例中,所述对所述目标指标数据进行分类,得到所述目标指标数据的类别,可以包括:
判断所述目标指标序列的均值是否为常数;
若为常数,则判断所述目标指标序列的方差是否存在;
若存在,则判断所述目标指标序列的自协方差是否随时间波动;
若不随时间波动,则确定所述目标指标序列为平稳性指标序列。
本实施例中,第二获取模块300,具体可以用于:
若所述目标指标序列为平稳性指标序列,则获取孤立森林异常检测算法模型、PCA算法模型、LOF算法模型和HBOS算法模型;
所述检测模块400,具体可以用于:
利用所述孤立森林异常检测算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第一概率和所述平稳性指标序列为正常序列的第二概率;
利用所述PCA算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第三概率和所述平稳性指标序列为正常序列的第四概率;
利用所述LOF算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第五概率和所述平稳性指标序列为正常序列的第六概率;
利用所述HBOS算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第七概率和所述平稳性指标序列为正常序列的第八概率;
所述集成模块500,具体可以用于:
对所述第一概率、所述第三概率、所述第五概率及所述第七概率进行平均运算,得到第一目标概率;
对所述第二概率、所述第四概率、所述第六概率及所述第八概率进行平均运算,得到第二目标概率;
判断所述第一目标概率是否大于所述第二目标概率。
本实施例中,分类模块200,还可以用于:
若所述目标指标序列的均值非常数,或,所述目标指标序列的方差不存在,或,所述目标指标序列的自协方差随时间波动,则确定所述目标指标序列为非平稳性指标序列;
将所述非平稳性指标序列分割为多个指标子序列;
计算多个所述指标子序列中第一个指标子序列,与多个所述指标子序列中除所述第一个指标子序列之外的各个指标子序列之间的相似度;
计算多个所述相似度的均值,并判断多个所述相似度的均值是否超过设定阈值;
若超过所述设定阈值,则确定所述非平稳性指标序列为周期性序列;
若未超过所述设定阈值,则确定所述非平稳性指标序列为非周期性序列。
第二获取模块300,具体可以用于:
若所述非平稳性指标序列为周期性序列,则获取长短期记忆网络模型和Prophet算法模型;
检测模块400,具体可以用于:
将所述周期性序列输入到长短期记忆网络模型,获得所述长短期记忆网络模型得到的在设定时间段内的第一预测序列;
利用设定大小的矩形窗口,以设定步长在所述周期性序列中滑动,得到所述矩形窗口内的上四分位数和下四分位数;
利用所述上四分位数和所述下四分位数,得到偏离度;
将所述第一预测序列中每个指标数据与所述偏离度进行相加,得到上边界,并分别将所述第一预测序列中每个指标数据与所述偏离度进行相减,得到下边界,将多个所述上边界和多个所述下边界组成第一基准指标范围;
将所述周期性序列输入到所述Prophet算法模型,获得所述Prophet算法模型得到第二预测序列;
结合统计学的nsigma原理及历史矩形窗口中的数据计算nsigma上下边界范围,将所述nsigma上下边界范围作为第二基准指标范围;
所述集成模块500,具体可以用于:
对所述第一基准指标范围中的指标数据及所述第二基准指标范围中的指标数据进行加权平均运算,得到第三基准指标范围;
判断所述预测序列中指标数据是否在所述第三基准指标范围内。
第二获取模块300,具体可以用于:
若所述非平稳性指标序列为非周期性序列,则获取多重小波分解算法模型;
相应地,上述装置还可以包括:
提取模块,用于利用所述多重小波分解算法模型,从所述非周期性序列中提取噪声数据。
在本申请的另一个实施例中,提供一种电子设备,可以包括:存储器,用于至少存储一组指令集;
处理器,用于调用并执行存储器中的指令集,通过执行指令集执行如方法实施例1-4中任意一个方法实施例所介绍的异常检测方法的各步骤。
在本申请的另一个实施例中,提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行,实现如方法实施例1-4中任意一个方法实施例的异常检测方法的各步骤。
需要说明的是,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分步骤是可以通过软件加相关的硬件来完成。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种异常检测方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种异常检测方法,其特征在于,包括:
获取指标数据;
对所述指标数据进行分类,得到所述指标数据的类别;
基于所述指标数据的类别,获取异常检测模型;
在所述异常检测模型有多个的情况下,分别利用各个所述异常检测模型,对所述指标数据进行异常检测,得到异常检测结果;
基于多个所述异常检测结果,确定所述指标数据是否存在异常。
2.根据权利要求1所述的方法,其特征在于,所述对所述指标数据进行分类,得到所述指标数据的类别,包括:
对所述指标数据进行预处理,得到目标指标数据;
对所述目标指标数据进行分类,得到所述目标指标数据的类别。
3.根据权利要求2所述的方法,其特征在于,在所述指标数据有多个,且每个所述指标数据包括时间戳和指标值的情况下,所述对所述指标数据进行预处理,得到目标指标数据,包括:
按时间先后顺序对多个所述指标数据进行排序,得到第一指标序列;
确定所述第一指标序列的指标数据缺失情况,并基于所述指标数据缺失情况,对所述第一指标序列进行缺失处理,得到第二指标序列;
对所述第二指标序列进行平滑处理,得到第三指标序列,所述第三指标序列的噪声数据少于所述第二指标序列的噪声数据;
利用盖帽算法消除所述第三指标序列中的异常数据,得到目标指标序列。
4.根据权利要求3所述的方法,其特征在于,所述对所述目标指标数据进行分类,得到所述目标指标数据的类别,包括:
判断所述目标指标序列的均值是否为常数;
若为常数,则判断所述目标指标序列的方差是否存在;
若存在,则判断所述目标指标序列的自协方差是否随时间波动;
若不随时间波动,则确定所述目标指标序列为平稳性指标序列。
5.根据权利要求4所述的方法,其特征在于,基于所述指标数据的类别,获取异常检测模型,包括:
若所述目标指标序列为平稳性指标序列,则获取孤立森林异常检测算法模型、PCA算法模型、LOF算法模型和HBOS算法模型;
所述分别利用各个所述异常检测模型,对所述指标数据进行异常检测,得到异常检测结果,包括:
利用所述孤立森林异常检测算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第一概率和所述平稳性指标序列为正常序列的第二概率;
利用所述PCA算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第三概率和所述平稳性指标序列为正常序列的第四概率;
利用所述LOF算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第五概率和所述平稳性指标序列为正常序列的第六概率;
利用所述HBOS算法模型,对所述平稳性指标序列进行异常检测,得到所述平稳性指标序列为异常序列的第七概率和所述平稳性指标序列为正常序列的第八概率;
所述基于多个所述异常检测结果,确定所述指标数据是否存在异常,包括:
对所述第一概率、所述第三概率、所述第五概率及所述第七概率进行平均运算,得到第一目标概率;
对所述第二概率、所述第四概率、所述第六概率及所述第八概率进行平均运算,得到第二目标概率;
判断所述第一目标概率是否大于所述第二目标概率。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
若所述目标指标序列的均值非常数,或,所述目标指标序列的方差不存在,或,所述目标指标序列的自协方差随时间波动,则确定所述目标指标序列为非平稳性指标序列;
将所述非平稳性指标序列分割为多个指标子序列;
计算多个所述指标子序列中第一个指标子序列,与多个所述指标子序列中除所述第一个指标子序列之外的各个指标子序列之间的相似度;
计算多个所述相似度的均值,并判断多个所述相似度的均值是否超过设定阈值;
若超过所述设定阈值,则确定所述非平稳性指标序列为周期性序列;
若未超过所述设定阈值,则确定所述非平稳性指标序列为非周期性序列。
7.根据权利要求6所述的方法,其特征在于,基于所述指标数据的类别,获取异常检测模型,包括:
若所述非平稳性指标序列为周期性序列,则获取长短期记忆网络模型和Prophet算法模型;
所述分别利用各个所述异常检测模型,对所述指标数据进行异常检测,得到异常检测结果,包括:
将所述周期性序列输入到长短期记忆网络模型,获得所述长短期记忆网络模型得到的在设定时间段内的第一预测序列;
利用设定大小的矩形窗口,以设定步长在所述周期性序列中滑动,得到所述矩形窗口内的上四分位数和下四分位数;
利用所述上四分位数和所述下四分位数,得到偏离度;
将所述第一预测序列中每个指标数据与所述偏离度进行相加,得到上边界,并分别将所述第一预测序列中每个指标数据与所述偏离度进行相减,得到下边界,将多个所述上边界和多个所述下边界组成第一基准指标范围;
将所述周期性序列输入到所述Prophet算法模型,获得所述Prophet算法模型得到第二预测序列;
结合统计学的nsigma原理及历史矩形窗口中的数据计算nsigma,将所述第二预测序列与所述nsigma与n的乘积相加,得到上边界,将所述第二预测序列与所述,得到述nsigma与n的乘积相减,得到下边界,将所述下边界到所述上边界的范围作为第二基准指标范围,所述n为大于0的数;
所述基于多个所述异常检测结果,确定所述指标数据是否存在异常,包括:
对所述第一基准指标范围中的指标数据及所述第二基准指标范围中的指标数据进行加权平均运算,得到第三基准指标范围;
判断所述预测序列中指标数据是否在所述第三基准指标范围内。
8.根据权利要求5所述的方法,其特征在于,基于所述指标数据的类别,获取异常检测模型,包括:
若所述非平稳性指标序列为非周期性序列,则获取多重小波分解算法模型;
所述方法还包括:
利用所述多重小波分解算法模型,从所述非周期性序列中提取噪声数据。
9.一种异常检测装置,其特征在于,包括:
第一获取模块,用于获取指标数据;
分类模块,用于对所述指标数据进行分类,得到所述指标数据的类别;
第二获取模块,用于基于所述指标数据的类别,获取异常检测模型;
检测模块,用于在所述异常检测模型有多个的情况下,分别利用各个所述异常检测模型,对所述指标数据进行异常检测,得到异常检测结果;
集成模块,用于基于多个所述异常检测结果,确定所述指标数据是否存在异常。
10.一种电子设备,其特征在于,包括:
存储器,用于至少存储一组指令集;
处理器,用于调用并执行所述存储器中的所述指令集,通过执行所述指令集执行如权利要求1-8任意一项所述的异常检测方法的各步骤。
11.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行,实现如权利要求1-8任意一项所述的异常检测方法的各步骤。
CN202110728899.9A 2021-06-29 2021-06-29 一种异常检测方法、装置、电子设备及存储介质 Active CN113377568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110728899.9A CN113377568B (zh) 2021-06-29 2021-06-29 一种异常检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110728899.9A CN113377568B (zh) 2021-06-29 2021-06-29 一种异常检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113377568A true CN113377568A (zh) 2021-09-10
CN113377568B CN113377568B (zh) 2023-10-20

Family

ID=77579918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110728899.9A Active CN113377568B (zh) 2021-06-29 2021-06-29 一种异常检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113377568B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114185881A (zh) * 2021-12-14 2022-03-15 中国平安财产保险股份有限公司 异常数据自动修复方法、装置、设备及存储介质
CN114386535A (zh) * 2022-03-18 2022-04-22 三峡智控科技有限公司 一种设置用于扫描kpi曲线的滑动窗口宽度的方法
CN114528190A (zh) * 2022-04-21 2022-05-24 云账户技术(天津)有限公司 单指标异常的检测方法、装置、电子设备及可读存储介质
CN115495274A (zh) * 2022-11-15 2022-12-20 阿里云计算有限公司 基于时序数据的异常处理方法、网络设备和可读存储介质
CN117056171A (zh) * 2023-09-22 2023-11-14 北京博点智合科技有限公司 一种基于AI算法的Kafka异常监控方法及装置
CN117170995A (zh) * 2023-11-02 2023-12-05 中国科学院深圳先进技术研究院 基于性能指标的干扰异常检测方法、装置、设备及介质
CN114185881B (zh) * 2021-12-14 2024-06-04 中国平安财产保险股份有限公司 异常数据自动修复方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020019403A1 (zh) * 2018-07-26 2020-01-30 平安科技(深圳)有限公司 用电量异常检测方法、装置、设备及可读存储介质
CN111159508A (zh) * 2019-12-31 2020-05-15 上海观安信息技术股份有限公司 一种基于算法多样性的异常检测算法集成方法及系统
CN111459778A (zh) * 2020-03-12 2020-07-28 平安科技(深圳)有限公司 运维系统异常指标检测模型优化方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020019403A1 (zh) * 2018-07-26 2020-01-30 平安科技(深圳)有限公司 用电量异常检测方法、装置、设备及可读存储介质
CN111159508A (zh) * 2019-12-31 2020-05-15 上海观安信息技术股份有限公司 一种基于算法多样性的异常检测算法集成方法及系统
CN111459778A (zh) * 2020-03-12 2020-07-28 平安科技(深圳)有限公司 运维系统异常指标检测模型优化方法、装置及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114185881A (zh) * 2021-12-14 2022-03-15 中国平安财产保险股份有限公司 异常数据自动修复方法、装置、设备及存储介质
CN114185881B (zh) * 2021-12-14 2024-06-04 中国平安财产保险股份有限公司 异常数据自动修复方法、装置、设备及存储介质
CN114386535A (zh) * 2022-03-18 2022-04-22 三峡智控科技有限公司 一种设置用于扫描kpi曲线的滑动窗口宽度的方法
CN114386535B (zh) * 2022-03-18 2022-05-27 三峡智控科技有限公司 一种设置用于扫描kpi曲线的滑动窗口宽度的方法
CN114528190A (zh) * 2022-04-21 2022-05-24 云账户技术(天津)有限公司 单指标异常的检测方法、装置、电子设备及可读存储介质
CN114528190B (zh) * 2022-04-21 2022-07-01 云账户技术(天津)有限公司 单指标异常的检测方法、装置、电子设备及可读存储介质
CN115495274A (zh) * 2022-11-15 2022-12-20 阿里云计算有限公司 基于时序数据的异常处理方法、网络设备和可读存储介质
CN115495274B (zh) * 2022-11-15 2023-03-07 阿里云计算有限公司 基于时序数据的异常处理方法、网络设备和可读存储介质
CN117056171A (zh) * 2023-09-22 2023-11-14 北京博点智合科技有限公司 一种基于AI算法的Kafka异常监控方法及装置
CN117056171B (zh) * 2023-09-22 2024-01-09 北京博点智合科技有限公司 一种基于AI算法的Kafka异常监控方法及装置
CN117170995A (zh) * 2023-11-02 2023-12-05 中国科学院深圳先进技术研究院 基于性能指标的干扰异常检测方法、装置、设备及介质
CN117170995B (zh) * 2023-11-02 2024-05-17 中国科学院深圳先进技术研究院 基于性能指标的干扰异常检测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113377568B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN113377568A (zh) 一种异常检测方法、装置、电子设备及存储介质
CN109587713B (zh) 一种基于arima模型的网络指标预测方法、装置及存储介质
Yamanishi et al. A unifying framework for detecting outliers and change points from non-stationary time series data
CN110520874B (zh) 基于时间的全体机器学习模型
Wang et al. Data-driven mode identification and unsupervised fault detection for nonlinear multimode processes
Pal et al. Pattern recognition algorithms for data mining
US7430717B1 (en) Method for adapting a K-means text clustering to emerging data
US20050278613A1 (en) Topic analyzing method and apparatus and program therefor
EP1433118A1 (en) System and method of face recognition using portions of learned model
JP2001502831A (ja) 測定可能な時系列の統計的依存性の分類方法
CN112232604B (zh) 基于Prophet模型提取网络流量的预测方法
JP7481902B2 (ja) 管理計算機、管理プログラム、及び管理方法
CN117389824A (zh) 一种基于信号分解和混合模型的云服务器负载预测方法
Piger Turning points and classification
CN116823496A (zh) 基于人工智能的智能保险风险评估和定价系统
CN116028315A (zh) 作业运行预警方法、装置、介质及电子设备
Yu et al. Use of deep learning model with attention mechanism for software fault prediction
Hollmén et al. A self-organizing map for clustering probabilistic models
CN116703568A (zh) 信用卡异常交易识别方法及装置
Krasheninnikov et al. Models updating for technical objects state forecasting
CN114186646A (zh) 区块链异常交易识别方法及装置、存储介质及电子设备
Oswal et al. A Survey of Statistical, Machine Learning, and Deep Learning-Based Anomaly Detection Techniques for Time Series
Ricketts Understanding the Nature of Abrupt Decadal Shifts in a Changing Climate
Chen et al. Conflict or cooperation? predicting future tendency of international relations
CN115858606A (zh) 时序数据的异常检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant