CN110362612A - 由电子设备执行的异常数据检测方法、装置和电子设备 - Google Patents

由电子设备执行的异常数据检测方法、装置和电子设备 Download PDF

Info

Publication number
CN110362612A
CN110362612A CN201910658778.4A CN201910658778A CN110362612A CN 110362612 A CN110362612 A CN 110362612A CN 201910658778 A CN201910658778 A CN 201910658778A CN 110362612 A CN110362612 A CN 110362612A
Authority
CN
China
Prior art keywords
performance
time series
data record
doubtful
anomalous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910658778.4A
Other languages
English (en)
Other versions
CN110362612B (zh
Inventor
李卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201910658778.4A priority Critical patent/CN110362612B/zh
Publication of CN110362612A publication Critical patent/CN110362612A/zh
Application granted granted Critical
Publication of CN110362612B publication Critical patent/CN110362612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种由电子设备执行的异常数据检测方法,包括:获取待检测的目标性能时间序列数据集合,其中,目标性能时间序列数据集合包括多条性能数据记录,每条性能数据记录包括与被监控对象的多个性能指标分别对应的性能数据;确定目标性能时间序列数据集合中的一条或多条疑似异常性能数据记录;获取参考历史性能时间序列数据集合;根据参考历史性能时间序列数据集合中的历史性能数据记录对一条或多条疑似异常性能数据记录进行过滤,得到异常性能时间序列数据集合。本公开还提供了一种由电子设备执行的异常数据检测装置、一种电子设备和一种计算机可读存储介质。

Description

由电子设备执行的异常数据检测方法、装置和电子设备
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种由电子设备执 行的异常数据检测方法、一种由电子设备执行的异常数据检测装置、 一种电子设备和一种计算机可读存储介质。
背景技术
近年来,数据中心负责运维管理的范畴和对象呈现较大增长趋势。 上层业务的精细化服务需求驱动了底层精细化运维的发展,被控对象 的颗粒度越来越细,监控的抽样间隙越来越短,由此形成的指标的数 据具有海量、多样性、个性化、快速生成等特征。因此,实现性能异 常波动的有效检测,是业务运维稳定性的重要保障。
在实现本公开构思的过程中,发明人发现现有技术中至少存在如 下问题:采用相关技术从大量数据中检测异常数据会出现误判,导致 检测准确度较低。
发明内容
有鉴于此,本公开提供了一种由电子设备执行的异常数据检测方 法、一种由电子设备执行的异常数据检测装置、一种电子设备和一种 计算机可读存储介质。
本公开的一个方面提供了一种由电子设备执行的异常数据检测方 法,包括:获取待检测的目标性能时间序列数据集合,其中,上述目 标性能时间序列数据集合包括多条性能数据记录,上述多条性能序列 中的每条性能数据记录的采样时刻在第一时间段内,上述每条性能数 据记录包括与被监控对象的多个性能指标分别对应的性能数据;确定 上述目标性能时间序列数据集合中的一条或多条疑似异常性能数据记 录;获取参考历史性能时间序列数据集合,其中,上述参考历史性能 时间序列数据集合中的每条历史性能数据记录的采样时间在第二时间 段内,上述第二时间段早于上述第一时间段;以及根据上述参考历史 性能时间序列数据集合中的历史性能数据记录对上述一条或多条疑似 异常性能数据记录进行过滤,得到异常性能时间序列数据集合。
根据本公开的实施例,上述确定上述目标性能时间序列数据集合 中的一条或多条疑似异常性能数据记录包括:利用超空间划分的孤立 森林算法对上述目标性能时间序列数据集合中的性能数据记录进行处 理,生成一个或多个孤立树;以及利用上述一个或多个孤立树确定上 述目标性能时间序列数据集合中的一条或多条疑似异常性能数据记录。
根据本公开的实施例,上述根据上述参考历史性能时间序列数据 集合中的历史性能数据记录对上述一条或多条疑似异常性能数据记录 进行过滤包括:将上述参考历史性能时间序列数据集合中的每个性能 指标对应的一条历史性能序列作为离散时间序列信号,进行傅里叶变 换,得到与上述每一条历史性能序列对应的傅里叶变换结果;根据上 述每一条历史性能序列对应的傅里叶变换结果确定上述性能指标的基 波周期和P-1条关键谐波周期,其中P为大于0的整数;根据上述一 条或多条疑似异常性能数据记录中每条疑似异常性能数据记录对应的 采样时刻,从上述参考历史性能时间序列数据集合确定与上述性能指 标对应的P条历史性能序列,其中,每条历史性能序列的采样时间在 第三时间段内,上述第三时间段为从上述每条疑似异常性能数据记录 对应的采样时刻起,到其回溯k个上述基波周期或关键谐波周期后对 应的时间点之间的时间段,上述第三时间段在上述第二时间段内,其 中k为大于0的整数;以及根据上述与疑似异常性能数据记录每个性 能指标对应的P条历史性能时间序列,确定是否滤除该疑似异常性能 数据记录。
根据本公开的实施例,上述根据上述与疑似异常性能数据记录每 个性能指标对应的P条历史性能时间序列,确定是否滤除该疑似异常 性能数据记录包括:根据上述与疑似异常性能数据记录对应的P条历 史性能时间序列中的数据,计算每一个性能指标的历史参考值;将该 疑似异常性能数据记录中每个性能指标的性能数据与对应性能指标的 历史参考值进行比较,得到多个比较结果;以及根据上述多个比较结 果确定是否滤除该疑似异常性能数据记录。
根据本公开的实施例,上述每一个性能指标的历史参考值为上述 与疑似异常性能数据记录上述性能指标对应的P条历史性能时间序列 中k个周期所有对应时间点的性能数据的平均值。
本公开的另一个方面提供了一种由电子设备执行的异常数据检测 装置,包括:第一获取模块,用于获取待检测的目标性能时间序列数 据集合,其中,上述目标性能时间序列数据集合包括多条性能数据记 录,上述多条性能数据记录中的每条性能序列的采样时刻在第一时间 段内,上述每条性能序列包括与被监控对象的多个性能指标分别对应 的性能数据;确定模块,用于确定上述目标性能时间序列数据集合中 的一条或多条疑似异常性能数据记录;第二获取模块,用于获取参考 历史性能时间序列数据集合,其中,上述参考历史性能时间序列数据 集合中的每条历史性能数据记录的采样时间在第二时间段内,上述第 二时间段早于上述第一时间段;以及过滤模块,用于根据上述参考历 史性能时间序列数据集合中的历史性能数据记录对上述一条或多条疑 似异常性能数据记录进行过滤,得到异常性能时间序列数据集合。
根据本公开的实施例,上述确定模块用于利用超空间划分的孤立 森林算法对上述目标性能时间序列数据集合中的性能数据记录进行处 理,生成一个或多个孤立树;以及利用上述一个或多个孤立树确定上 述目标性能时间序列数据集合中的一条或多条疑似异常性能数据记录。
根据本公开的实施例,上述过滤模块用于将上述参考历史性能时 间序列数据集合中的每个性能指标对应的一条历史性能时间序列作为 离散时间序列信号,进行傅里叶变换,得到与上述每一条历史性能序 列对应的傅里叶变换结果;根据上述每一条历史性能序列对应的傅里 叶变换结果确定上述性能指标的基波周期和P-1条关键谐波周期,其 中P为大于0的整数;根据上述一条或多条疑似异常性能数据记录中 每条疑似异常性能数据记录对应的采样时刻,从上述参考历史性能时 间序列数据集合确定与上述性能指标对应的P条历史性能序列,其中, 每条历史性能时间序列的采样时间在第三时间段内,上述第三时间段 为从上述每条疑似异常性能数据记录对应的采样时刻起,到其回溯k 个上述基波周期或关键谐波周期后对应的时间点之间的时间段,上述 第三时间段在上述第二时间段内,其中k为大于0的整数;以及根据 上述与疑似异常性能数据记录上述每个性能指标对应的P条历史性能 时间序列,确定是否滤除该疑似异常性能数据记录。
本公开的另一个方面提供了一种电子设备,包括:一个或多个处 理器;存储器,用于存储一个或多个指令,其中,当上述一个或多个 指令被上述一个或多个处理器执行时,使得上述一个或多个处理器实 现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算 机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括 计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,先确定目标性能时间序列数据集合中的一 条或多条疑似异常性能数据记录,然后根据参考历史性能时间序列数 据集合中的历史性能数据记录对一条或多条疑似异常性能数据记录进 行过滤,得到最终的异常性能时间序列数据集合。基于历史数据对疑 似异常性能数据记录进行二次过滤,降低了异常性能数据记录的误判 概率,所以至少部分地克服了采用相关技术从大量数据中检测异常数 据会出现误判,导致检测准确率低的技术问题,进而达到了提高检测 准确度的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其 他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用由电子设备执行的 异常数据检测方法及装置的示例性系统架构;
图2示意性示出了根据本公开实施例的由电子设备执行的异常数据 检测方法的流程图;
图3示意性示出了根据本公开实施例的目标性能时间序列数据集合 的示意图;
图4示意性示出了根据本公开实施例的确定目标性能时间序列数据 集合中的一条或多条疑似异常性能数据记录的流程图;
图5示意性示出了根据本公开实施例的根据参考历史性能时间序列 数据集合中的历史性能数据记录对一条或多条疑似异常性能数据记录 进行过滤的流程图;
图6示意性示出了根据本公开实施例的异常数据检测方法的逻辑示 例图;
图7示意性示出了根据本公开实施例的由电子设备执行的异常数据 检测装置的框图;以及
图8示意性示出了根据本公开实施例的适于实现异常数据检测方法 的计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些 描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述 中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全 面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情 况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术 的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本 公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、 操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、 步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人 员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解 释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于 刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下, 一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释 (例如,“具有A、B和C中至少一个的系统”应包括但不限于单独 具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有 B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C 等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术 人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中 至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具 有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C 的系统等)。
发明人发现,根据数据是否有异常标签,可以将异常数据检测方 法分为有监督学习和无监督学习两类方法。在数据中心运维监控中, 原始的KPI性能数据具有海量性,无法通过人工方式对其进行异常标 注,因此一般采用无监督学习方法。
无监督学习异常检测方法包括统计方法、基于距离的方法、基于 密度的方法和基于空间划分的方法。基于统计的异常检测方法,核心 思想是假设给定的数据服从一定的随机分布,比如正态分布,采用不 一致性测试即可发现异常点,但是该类方法必须事先知道数据的分布 特征,且在实际应用中,性能数据不符合理想状态的数学分布。基于 距离的异常检测方法,主要通过寻找邻域内数据点较少的数据点(即 相对孤立的数据点)来确定异常数据,需要输入参数邻域数据比例p 和距离阈值D,如果给定数据集中超过p*100%的数据点与某个数据点 O之间的距离大于D,就将该数据点O判定为异常点。这类方法的运算 复杂度较高,且输入参数p和D较难确定,对于不同参数,算法敏感度 高,结果不稳定,需要投入人工进行调参,不适用于多样性、个性化 的磁盘KPI性能数据异常发现。基于密度的异常检测方法,基本思想 是异常点周围的密度与其邻域数据点的密度明显不同,采用平均距离来衡量局部密度,即可转化为求解每个数据点O与邻域数据点平均距 离的计算过程,如果平均距离较大,就被认为该数据点O在特征空间 中偏离度较大,判断为异常点。这种方法中,目标数据点的异常程度 取决于其邻域样本数及平均邻域密度两个因素,可以较好识别局部异 常点,但存在运算复杂度高、联合调参困难的问题。基于空间划分的 异常检测方法,其主要思路是在异常点搜索过程中,为了避免全局空 间的搜索,通过划分特征空间的方法,将数据的搜索区域划分为若干 个不重叠的子空间单元,可以采用并行计算方式,具有线性时间复杂 度,快速完成计算。同时,由于不需要输入参数,算法稳定性较好。 但此类方法虽然能快速发现全局异常,但是容易出现局部误判,例如, 将某些周期性的正常波动,如批量作业时段的正常波动,错误判别为 异常。
本公开的实施例提供了一种由电子设备执行的异常数据检测方法。 该方法包括获取待检测的目标性能时间序列数据集合,其中,目标性 能时间序列数据集合包括多条性能数据记录,多条性能数据记录中的 每条性能数据记录的采样时刻在第一时间段内,每条性能数据记录包 括与被监控对象的多个性能指标分别对应的性能数据;确定目标性能 时间序列数据集合中的一条或多条疑似异常性能数据记录;获取参考 历史性能时间序列数据集合,其中,参考历史性能时间序列数据集合 中的每条历史性能数据记录的采样时间在第二时间段内,第二时间段 早于第一时间段;根据参考历史性能时间序列数据集合中的历史性能数 据记录对一条或多条疑似异常性能数据记录进行过滤,得到异常性能时 间序列数据集合。
图1示意性示出了根据本公开实施例的可以应用由电子设备执行的 异常数据检测方法及装置的示例性系统架构。需要注意的是,图1所示 仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员 理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设 备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、 102、103,网络104和服务器105。网络104用以在终端设备101、102、 103和服务器105之间提供通信链路的介质。网络104可以包括各种连 接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105 交互,以接收或发送消息等。
终端设备101、102、103包括但不限于工控机、主机、单片机、智 能手机、平板电脑、膝上型便携计算机、数据中心等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设 备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。 后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将 处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反 馈给终端设备。
需要说明的是,本公开实施例所提供的异常数据检测方法一般可以 由服务器105执行。相应地,本公开实施例所提供的异常数据检测装置 一般可以设置于服务器105中。本公开实施例所提供的异常数据检测方 法也可以由不同于服务器105且能够与终端设备101、102、103和/或服 务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提 供的异常数据检测装置也可以设置于不同于服务器105且能够与终端设 备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目和类型仅仅是 示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务 器。
图2示意性示出了根据本公开实施例的由电子设备执行的异常数据 检测方法的流程图。
如图2所示,该方法包括操作S210~S240。
在操作S210,获取待检测的目标性能时间序列数据集合,其中, 目标性能时间序列数据集合包括多条性能数据记录,多条性能数据记 录中的每条性能数据记录的采样时刻在第一时间段内,每条性能数据 记录包括与被监控对象的多个性能指标分别对应的性能数据。
根据本公开的实施例,例如,从数据源获取某监控对象S的L项 指标(KPI1,KPI2,...,KPIL)的历史数据,基于此可以形成目标性能时间 序列数据集合KPISet={(ti,KPI1i,KPI2i,...,KPILi)|0<ti≤T,1≤i≤N}。其 中,ti为采样时刻,(ti,KPI1i,KPI2i,...,KPILi)表示一条性能数据记录,0 表征某一采样开始时的时刻,例如,凌晨零点零分零秒。第一时间段 可以是0到T之间。源数据生成周期为Ts,即每隔Ts时间采集L项指 标对应的数据,则采样频率为Fs=1/Ts,集合内数据点个数为N=T/Ts。 其子集XK={(ti,KPIKi))|0<ti≤T,1≤i≤N}表示第K个性能指标对应的 一条历史性能时间序列,且1≤K≤L。
在操作S220,确定目标性能时间序列数据集合中的一条或多条疑 似异常性能数据记录。
根据本公开的实施例,可以采用基于空间划分的孤立森林方法, 快速发现全局的一条或多条疑似异常性能数据记录,每条疑似异常性 能数据记录具有对应的采样时刻。
在操作S230,获取参考历史性能时间序列数据集合,其中,参考 历史性能时间序列数据集合中的每条历史性能数据记录的采样时间在 第二时间段内,第二时间段早于第一时间段。
在操作S240,根据参考历史性能时间序列数据集合中的历史性能 数据记录对一条或多条疑似异常性能数据记录进行过滤,得到异常性 能时间序列数据集合。
根据本公开的实施例,可以分析参考历史性能时间序列数据集合 中的多条历史性能数据记录,确定每一个性能指标的性能数据的特征。 根据每一个性能指标的性能数据的特征确定疑似异常性能数据记录中 相应性能指标的性能数据是否异常。
根据本公开的实施例,先确定目标性能时间序列数据集合中的一 条或多条疑似异常性能数据记录,然后根据参考历史性能时间序列数 据集合中的历史性能数据记录对一条或多条疑似异常性能数据记录进 行过滤,得到最终的异常性能时间序列数据集合。基于历史数据对疑 似异常性能数据记录进行二次过滤,降低了异常性能序列的误判概率,所以至少部分地克服了采用相关技术从大量数据中检测异常数据会出 现误判,导致检测准确率低的技术问题,进而达到了提高检测准确度 的技术效果。
图3示意性示出了根据本公开实施例的性能序列的示意图。
如图3所示,性能时间序列数据集合可以包括多个性能指标,其 中,每个性能指标可以是采集时刻信息、性能数据信息等。具体地, 例如,性能指标包括带宽速率、响应时间、交易成功率和CPU占有率 等等。
根据本公开的实施例,同一条性能数据记录中所有性能指标的性 能数据的采集时刻可以是相同的。
下面参考图4~图6,结合具体实施例对图2所示的方法做进一步说 明。
图4示意性示出了根据本公开实施例的确定目标性能时间序列数 据集合中的一条或多条疑似异常性能数据记录的流程图。
如图4所示,在操作S220确定目标性能时间序列数据集合中的一 条或多条疑似异常性能数据记录可以包括操作S221~S222。
在操作S221,利用超空间划分的孤立森林算法对目标性能时间序 列数据集合中的性能数据记录进行处理,生成一个或多个孤立树。
在操作S222,利用一个或多个孤立树确定目标性能时间序列数据 集合中的一条或多条疑似异常性能数据记录。
根据本公开的实施例,例如,针对目标性能时间序列数据集合 KPISet1={(ti,KPI1i,KPI2i,...,KPILi)|0<ti≤T1,1≤i≤N1},集合内数据个数 N1-T1/Ts,通过基于空间划分的孤立森林方法,快速发现全局的候选 异常时域数据。其中,孤立森林法可以通过以下操作生成:首先,生 成孤立树iTree。在生成孤立树iTree时,通过并行计算,获得m个iTree,共同组成一个孤立树的集合,即孤立森林iForest。
疑似异常性能序列可以通过以下操作来确定。首先,对于每条数 据记录(ti,KPI1i,KPI2i,...,KPILi),遍历其在每棵孤立树iTree中的高度。 然后,计算该数据记录在每棵iTree中的平均高度值APL。接着,如 果该数据记录的APL低于边界值,则判断其为全局的候选异常时域数 据。这样就可以将所有全局的疑似异常性能序列(如S个)形成疑似 异常性能时间序列数据集合KPISets={(ti,KPI1i,KPI2i,...,KPILi)|0<ti≤T1, 0<i≤S}。
根据本公开的实施例,孤立树可以通过操作a~d生成。
在操作a,从KPISet1中随机选择n条样本数据记录作为子集, 0<n≤N1,放入树的根节点。
在操作b,随机指定一个KPI维度,例如K1,在当前节点数据中, 随机产生一个切割点p,p的取值介于当前节点数据中选定KPI维度 (即K1)的最大值和最小值之间。
在操作c,以此切割点p生成一个超平面,将当前节点的数据空 间划分为两个子空间(子节点),把选定维度(即K1)里小于p的数 据记录放在当前节点的左子节点,把大于等于p的数据记录放在当前 节点的右子节点。
在操作d,在子节点中,递归操作b和操作c,不断构造新的子节 点,直到子节点中无法再继续切割(只有一条数据记录)或子节点已 到达限定高度。
图5示意性示出了根据本公开实施例的根据参考历史性能时间序 列数据集合中的历史性能数据记录对一条或多条疑似异常性能数据记 录进行过滤的流程图。
如图5所示,在操作S240根据参考历史性能时间序列数据集合中 的历史性能数据记录对一条或多条疑似异常性能数据记录进行过滤可 以包括操作S241~S244。
在操作S241,将参考历史性能时间序列数据集合中的每个性能指 标对应的一条历史性能时间序列作为离散时间序列信号,进行傅里叶 变换,得到与该条历史性能时间序列对应的傅里叶变换结果。
例如,参考历史性能时间序列数据集合中的数据的采样时刻可以 在0到T2内,参考历史性能时间序列数据集合KPISet2={(ti,KPI1i,KPI 2i,...,KPILi)|0<t≤T2,1≤i≤N2},集合内数据点个数N2=T2/Ts。为了便于 后续计算,T2取值可以为2的整数次幂,如果不是2的整数次幂,可 以在后面做补零处理。
根据本公开的实施例,例如,将每个性能指标对应的一条历史性 能序列作为离散时间序列信号进行傅里叶变换可以是进行快速傅里叶 变换。
根据本公开的实施例,每个性能指标对应的一条历史性能序列是 KPISet2的一个子集XK(t)={(ti,KPIKi)|0<ti≤T2,1≤i≤N2},1≤j≤L,数据 采集周期为Ts,则采样频率为Fs=1/Ts,集合内数据点个数N2=T2/Ts。 XK的离散傅立叶变换(Discrete FourierTransform,简称DFT)的函数 表达式如式(1)所示。
其中,实数部分可以表示为虚数部分 可以表示为
DFT的运算复杂度为O(N2),可以利用快速傅里叶变换(FFT), 以递归蝶形运算方式,简化运算复杂度,可以将运算复杂度降低为 O(N lg N)。N2个数据点经过FFT之后,可以得到N2个FFT结果。
在N2个FFT结果里,除了第一个点是直流分量之外,每个点对 应XK的一个频率分量,第n个点对应的频率分量Fn=Fs*(n-1)/N2
例如,在一个实际应用中,采样点时间间隔是5分钟, Ts=5min=300sec,Fs=1/300Hz。
周期发现的结果可以为基波周期、基波振幅、关键谐波周期和关 键谐波振幅等。
根据本公开的实施例,每个频率分量的模值对应该频率分量的幅 值,可以将幅值由大到小进行降序排列,并取前P个幅值,其对应的 频率分量就是基波及P-1条谐波(在此为关键谐波)的频率fp,由 Tp=1/fp计算得到对应的基波周期及P-1条关键谐波周期,其中P为大 于0的整数。
在操作S242,根据每一条历史性能时间序列对应的傅里叶变换结 果确定所述性能指标的基波周期或关键谐波周期。
在操作S243,根据一条或多条疑似异常数据记录中每条疑似异常 性能数据记录对应的采样时刻,从参考历史性能时间序列数据集合确 定与性能指标对应的P条历史性能时间序列,其中,每条历史性能时 间序列的采样时间在第三时间段内,第三时间段为从每条疑似异常性 能数据记录对应的采样时刻起,到其回溯k个基波周期或关键谐波周 期后对应的时间点之间的时间段,第三时间段在第二时间段内,其中 P、k为大于0的整数。
根据本公开的实施例,例如,某一疑似异常性能数据记录对应的 采样时刻为t0,其某个性能指标对应的一个波形(基波或者关键谐波) 的周期为Tp,它对应的前1个历史周期时间点t1=t0-Tp。以此类推,对 应的前k个历史周期时间点tk=t0-Tp*k。具体地,例如,一个疑似异常 性能数据记录的采样时间点t0为某年8月1日00:00:00,第二时间段 为该年7月29日00:00:00至该年7月31日23:55:00,周期Tp为24 小时,那么第二时间段内k等于3,t3=该年7月29日00:00:00,第三 时间段为该年7月29日00:00:00至该年8月1日00:00:00。
在操作S244,根据与疑似异常性能数据记录每个性能指标对应的 P条历史性能序列,确定是否滤除该疑似异常性能数据记录。
根据本公开的实施例,可以根据与疑似异常性能数据记录每个性 能指标对应的P条历史性能时间序列确定在k个周期内是否符合周期 规律。可以基于周期发现的规律结果对疑似异常性能时间序列数据集 合KPISets={(ti,KPI1i,KPI2i,...,KPILi)|0<ti≤T1,0<i≤S}中的疑似异常性 能数据记录进行过滤。对每个性能指标对应的一条历史性能序列XKS={(ti,KPIKi)|0<ti≤T1,0<i≤S},基于周期发现的结果,判断每个 KPIKi取值是否符合周期性,是否合理,从而滤除疑似异常性能数据记 录。
根据本公开的实施例,根据与疑似异常性能数据记录每个性能指 标对应的P条历史性能时间序列,确定是否滤除该疑似异常性能数据 记录包括:根据与疑似异常性能数据记录每个性能指标对应的P条历 史性能序列中的数据,计算每一个性能指标的历史参考值;将该疑似 异常性能数据记录中每个性能指标的性能数据与对应性能指标的历史 参考值进行比较,得到多个比较结果;根据多个比较结果确定是否滤 除该疑似异常性能数据记录。
根据本公开的实施例,例如,对于某一疑似异常性能数据记录中 的数据,将性能指标1对应的性能数据1与性能指标1历史参考值进 行比较,得到比较结果1。将性能指标2对应的性能数据2与性能指 标2历史参考值进行比较,得到比较结果2。将性能指标3对应的性 能数据3与性能指标3历史参考值进行比较,得到比较结果3。根据 比较结果1、比较结果2和比较结果3确定是否滤除该疑似异常性能 序列。
具体地,例如,比较结果1为性能数据1远大于对应的历史参考 值,则说明该性能数据1异常,比较结果2为性能数据1远小于对应 的历史参考值,则说明该性能数据2异常,比较结果3为性能数据3 与对应的历史参考值相差较小,则说明该性能数据3正常。在较多的 性能指标对应的性能数据异常的情况下,说明该疑似异常性能序列实 际上是异常的,则可以滤除该疑似异常性能序列。
根据本公开的实施例,每一个性能指标的历史参考值可以是与疑 似异常性能数据记录对应性能指标的P条历史性能时间序列中k个周 期所有对应时间点的性能数据的平均值。
根据本公开的实施例,例如,对于性能指标1,在P条历史性能 时间序列中都有对应的k个时间点的性能数据,可以得到k*P个性能 指标1的性能数据。然后计算k*P个性能指标1的性能数据的平均值, 作为性能指标1的历史参考值Mk
根据本公开的实施例,可以计算每一个性能指标的性能数据与历 史参考值Mk的偏差,判断是否超过2倍的历史参考标准差Sk,如果 未超出,则存在误判,将其从KPISets中滤除。
根据本公开的实施例,疑似异常性能数据记录的采集时刻为疑似 异常时间点ti,某个性能指标(基波或者关键谐波)周期Tp,可以从 疑似异常时间点ti,回溯k个周期,定位到对应的每个周期的时间点 tj=ti-j*Tp,0<j≤k,为避免业务运行偏差导致的相位噪声,将时间点tj扩展到其时间邻域(t1j,tuj),取所有周期邻域内的KPI取值xj,计算其历 史参考均值Mk与历史参考标准差Sk
图6示意性示出了根据本公开实施例的异常数据检测方法的逻辑 示例图。
如图6所示,从数据源采集性能数据,以生成目标性能时间序列 数据集合,目标性能时间序列数据集合中包括每个性能指标对应的性 能数据。可以使用kafka技术,以实时流方式传输到后续工作模块, 也可以采用ftp技术,以批量数据文件方式传输到后续工作模块。
然后,通过基于空间划分的孤立森林方法,快速发现全局的疑似 异常性能数据记录集合。
从数据库中获取参考历史性能时间序列数据集合,对参考历史性 能时间序列数据集合进行周期发现,用于后续的分析处理使用。通过 参考历史性能时间序列数据集合的周期规律,针对全局的疑似异常性 能数据记录集合进行二次模糊过滤,将某些周期性的正常的波动较大 的疑似异常性能数据记录,从中剔除,从而得到最终的异常性能时间 序列数据集合。
根据本公开的实施例,通过异常数据检测方法及装置,采用基于 例如超空间划分的孤立森林方法,作为异常发现的初筛方法,快速找 出全局疑似异常性能数据记录集合,具有时间复杂度低、人工调参依 赖性小、算法稳定性好等优点。在此基础上,引入基于周期的二次模 糊过滤,滤除周期性的、正常的、波动较大的疑似异常性能数据记录, 解决可能出现的局部误判问题,能够在实现精细筛选的同时,避免业 务运行偏差导致的相位噪声干扰。此外,利用周期参数的自动发现, 可以保证模型的实时更新,具备较好的自学习和自适应能力。
图7示意性示出了根据本公开实施例的由电子设备执行的异常数据 检测装置的框图。
如图7所示,由电子设备执行的异常数据检测装置700包括第一 获取模块710、确定模块720、第二获取模块730和过滤模块740。
第一获取模块710用于获取待检测的目标性能时间序列数据集合, 其中,目标性能时间序列数据集合包括多条性能数据记录,多条性能 数据记录中的每条性能数据记录的采样时刻在第一时间段内,每条性 能数据记录包括与被监控对象的多个性能指标分别对应的性能数据。
确定模块720用于确定目标性能时间序列数据集合中的一条或多 条疑似异常性能数据记录。
第二获取模块730用于获取参考历史性能时间序列数据集合,其 中,参考历史性能时间序列数据集合中的每条历史性能数据记录的采 样时间在第二时间段内,第二时间段在第一时间段之前。
过滤模块740用于根据参考历史性能时间序列数据集合中的历史 性能数据记录对一条或多条疑似异常性能数据记录进行过滤,得到异 常性能时间序列数据集合。
根据本公开的实施例,确定模块720用于利用超空间划分的孤立 森林算法对目标性能时间序列数据集合中的性能数据记录进行处理, 生成一个或多个孤立树;利用一个或多个孤立树确定目标性能时间序 列数据集合中的一条或多条疑似异常性能数据记录。
根据本公开的实施例,过滤模块740用于将参考历史性能时间序 列数据集合中的每个性能指标对应的一条历史性能序列作为离散时间 序列信号,进行傅里叶变换,得到与每一条历史性能序列对应的傅里 叶变换结果;根据每一条历史性能序列对应的傅里叶变换结果确定该 性能指标的基波周期和P-1条关键谐波周期,其中P为大于0的整数; 根据一条或多条疑似异常性能数据记录中每条疑似异常性能数据记录 对应的采样时刻,从参考历史性能时间序列数据集合确定与性能指标 对应的P条历史性能时间序列,其中,每条历史性能时间序列的采样 时间在第三时间段内,第三时间段为从每条疑似异常性能数据记录对 应的采样时刻起,到其回溯k个基波周期或关键谐波周期后对应的时 间点之间的时间段,第三时间段在第二时间段内,其中k为大于0的 整数;以及根据与疑似异常性能数据记录对应的P条历史性能时间序 列,确定是否滤除该疑似异常性能数据记录。
根据本公开的实施例,根据与疑似异常性能数据记录每个性能指 标对应的P条历史性能时间序列,确定是否滤除该疑似异常性能数据 记录包括:根据与疑似异常性能数据记录每个性能指标对应的P条历 史性能时间序列中的数据,计算每一个性能指标的历史参考值;将该 疑似异常性能数据记录中每个性能指标的性能数据与对应性能指标的 历史参考值进行比较,得到多个比较结果;以及根据多个比较结果确 定是否滤除该疑似异常性能数据记录。
根据本公开的实施例,每一个性能指标的历史参考值为与疑似异 常性能数据记录对应的P条历史性能时间序列中k个周期所有对应时 间点的性能数据的平均值。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、 或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实 施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成 多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中 的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程 门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、 封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或 封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及 固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或 者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个 可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行 时,可以执行相应的功能。
例如,第一获取模块710、确定模块720、第二获取模块730和过 滤模块740中的任意多个可以合并在一个模块/单元/子单元中实现,或 者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单 元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至 少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在 一个模块/单元/子单元中实现。根据本公开的实施例,第一获取模块710、 确定模块720、第二获取模块730和过滤模块740中的至少一个可以 至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编 程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用 集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合 理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中 任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块 710、确定模块720、第二获取模块730和过滤模块740中的至少一个 可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行 时,可以执行相应的功能。
需要说明的是,本公开的实施例中异常数据检测装置部分与本公开 的实施例中异常数据检测方法部分是相对应的,异常数据检测装置部分 的描述具体参考异常数据检测方法部分,在此不再赘述。
本公开的另一个方面提供了一种电子设备,包括:一个或多个处 理器;存储器,用于存储一个或多个指令,其中,当上述一个或多个 指令被上述一个或多个处理器执行时,使得上述一个或多个处理器实 现本公开所提供的异常数据检测方法。
以电子设备为计算机系统为例,图8示意性示出了根据本公开实施 例的适于实现上文描述的方法的计算机系统的框图。图8示出的计算机 系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何 限制。
如图8所示,根据本公开实施例的计算机系统800包括处理器801, 其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808 加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和 处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处 理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801 可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处 理单元或者是多个处理单元。
在RAM 803中,存储有系统800操作所需的各种程序和数据。处 理器801、ROM 802以及RAM 803通过总线804彼此相连。处理器801 通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的 方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802 和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行 存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方 法流程的各种操作。
根据本公开的实施例,系统800还可以包括输入/输出(I/O)接口 805,输入/输出(I/O)接口805也连接至总线804。系统800还可以包 括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等 的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等 以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括 诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分 809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接 至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存 储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机 程序根据需要被安装入存储部分808。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为 计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其 包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用 于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程 序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质 811被安装。在该计算机程序被处理器801执行时,执行本公开实施例 的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设 备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,其上存储有可执行指 令,该指令被处理器执行时使处理器实现本公开所述的异常数据检测 方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统 中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上 述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个 程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算 机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、 随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存 储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光 存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计 算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以 被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描 述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个 或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方 法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上, 流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部 分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定 的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两 个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相 反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图 中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的 功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计 算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施 例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样 的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神 和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以 进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了 说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各 实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。 本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围, 本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本 公开的范围之内。

Claims (10)

1.一种由电子设备执行的异常数据检测方法,包括:
获取待检测的目标性能时间序列数据集合,其中,所述目标性能时间序列数据集合包括多条性能数据记录,所述多条性能数据记录中的每条性能数据记录的采样时刻在第一时间段内,所述每条性能数据记录包括与被监控对象的多个性能指标分别对应的性能数据;
确定所述目标性能时间序列数据集合中的一条或多条疑似异常性能数据记录;
获取参考历史性能时间序列数据集合,其中,所述参考历史性能时间序列数据集合中的每条历史性能数据记录的采样时间在第二时间段内,所述第二时间段在所述第一时间段之前;以及
根据所述参考历史性能时间序列数据集合中的历史性能数据记录对所述一条或多条疑似异常性能数据记录进行过滤,得到异常性能时间序列数据集合。
2.根据权利要求1所述的方法,其中,所述确定所述目标性能时间序列数据集合中的一条或多条疑似异常性能数据记录包括:
利用超空间划分的孤立森林算法对所述目标性能时间序列数据集合中的性能数据记录进行处理,生成一个或多个孤立树;以及
利用所述一个或多个孤立树确定所述目标性能时间序列数据集合中的一条或多条疑似异常性能数据记录。
3.根据权利要求1所述的方法,其中,所述根据所述参考历史性能时间序列数据集合中的历史性能数据记录对所述一条或多条疑似异常性能数据记录进行过滤包括:
将所述参考历史性能时间序列数据集合中的每个性能指标对应的一条历史性能时间序列作为离散时间序列信号,进行傅里叶变换,得到与所述每一条历史性能时间序列对应的傅里叶变换结果;
根据所述每一条历史性能时间序列对应的傅里叶变换结果确定所述性能指标的基波周期和P-1条关键谐波周期,其中P为大于0的整数;
根据所述一条或多条疑似异常性能数据记录中每条疑似异常性能数据记录对应的采样时刻,从所述参考历史性能时间序列数据集合确定与所述性能指标对应的P条历史性能时间序列,其中,每条历史性能时间序列的采样时间在第三时间段内,所述第三时间段为从所述每条疑似异常性能数据记录对应的采样时刻起,到其回溯k个所述基波周期或关键谐波周期后对应的时间点之间的时间段,所述第三时间段在所述第二时间段内,其中k为大于0的整数;以及
根据所述与疑似异常性能数据记录所述每个性能指标对应的P条历史性能时间序列,确定是否滤除该疑似异常性能数据记录。
4.根据权利要求3所述的方法,其中,所述根据所述与疑似异常性能数据记录每个性能指标对应的P条历史性能时间序列,确定是否滤除该疑似异常性能数据记录包括:
根据所述与疑似异常性能数据记录每个性能指标对应的P条历史性能时间序列中的数据,计算每一个性能指标的历史参考值;
将该疑似异常性能数据记录中每个性能指标的性能数据与对应性能指标的历史参考值进行比较,得到多个比较结果;以及
根据所述多个比较结果确定是否滤除该疑似异常性能数据记录。
5.根据权利要求4所述的方法,其中,所述每一个性能指标对应的历史参考值为所述与疑似异常性能数据记录所述性能指标对应的P条历史性能时间序列k个周期所有对应时间点的性能数据的平均值。
6.一种由电子设备执行的异常数据检测装置,包括:
第一获取模块,用于获取待检测的目标性能时间序列数据集合,其中,所述目标性能时间序列数据集合包括多条性能数据记录,所述多条性能数据记录中的每条性能数据记录的采样时刻在第一时间段内,所述每条性能数据记录包括与被监控对象的多个性能指标分别对应的性能数据;
确定模块,用于确定所述目标性能时间序列数据集合中的一条或多条疑似异常性能数据记录;
第二获取模块,用于获取参考历史性能时间序列数据集合,其中,所述参考历史性能时间序列数据集合中的每条历史性能数据记录的采样时间在第二时间段内,所述第二时间段在所述第一时间段之前;以及
过滤模块,用于根据所述参考历史性能时间序列数据集合中的历史性能数据记录对所述一条或多条疑似异常性能数据记录进行过滤,得到异常性能时间序列数据集合。
7.根据权利要求6所述的装置,其中,所述确定模块用于:
利用超空间划分的孤立森林算法对所述目标性能时间序列数据集合中的性能数据记录进行处理,生成一个或多个孤立树;以及
利用所述一个或多个孤立树确定所述目标性能时间序列数据集合中的一条或多条疑似异常性能数据记录。
8.根据权利要求6所述的装置,其中,所述过滤模块用于:
将所述参考历史性能时间序列数据集合中的每个性能指标对应的一条历史性能时间序列作为离散时间序列信号,进行傅里叶变换,得到与所述每一条历史性能时间序列对应的傅里叶变换结果;
根据所述每一条历史性能时间序列对应的傅里叶变换结果确定所述性能指标的基波周期和P-1条关键谐波周期,其中P为大于0的整数;
根据所述一条或多条疑似异常性能数据记录中每条疑似异常性能数据记录对应的采样时刻,从所述参考历史性能时间序列数据集合确定与所述性能指标对应的P条历史性能时间序列,其中,每条历史性能时间序列的采样时间在第三时间段内,所述第三时间段为从所述每条疑似异常性能数据记录对应的采样时刻起,到其回溯k个所述基波周期或关键谐波周期后对应的时间点之间的时间段,所述第三时间段在所述第二时间段内,其中k为大于0的整数;以及根据所述与疑似异常性能数据记录所述每个性能指标对应的P条历史性能时间序列,确定是否滤除该疑似异常性能数据记录。
9.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个指令,
其中,当所述一个或多个指令被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至5中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至5中任一项所述的方法。
CN201910658778.4A 2019-07-19 2019-07-19 由电子设备执行的异常数据检测方法、装置和电子设备 Active CN110362612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910658778.4A CN110362612B (zh) 2019-07-19 2019-07-19 由电子设备执行的异常数据检测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910658778.4A CN110362612B (zh) 2019-07-19 2019-07-19 由电子设备执行的异常数据检测方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN110362612A true CN110362612A (zh) 2019-10-22
CN110362612B CN110362612B (zh) 2022-02-22

Family

ID=68221387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910658778.4A Active CN110362612B (zh) 2019-07-19 2019-07-19 由电子设备执行的异常数据检测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN110362612B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143169A (zh) * 2019-12-30 2020-05-12 杭州迪普科技股份有限公司 异常参数检测方法及装置、电子设备、存储介质
CN112070155A (zh) * 2020-09-07 2020-12-11 常州微亿智造科技有限公司 时间序列数据标注方法和装置
CN112148940A (zh) * 2020-09-08 2020-12-29 中国铁道科学研究院集团有限公司电子计算技术研究所 机车故障数据过滤方法及装置
CN112711577A (zh) * 2020-12-17 2021-04-27 航天信息股份有限公司 一种异常交易企业识别方法及装置
CN113076349A (zh) * 2020-01-06 2021-07-06 阿里巴巴集团控股有限公司 数据异常检测方法、装置、系统及电子设备
CN113448828A (zh) * 2020-03-26 2021-09-28 阿里巴巴集团控股有限公司 对象数据检测方法、装置、电子设备及计算机存储介质
CN113746688A (zh) * 2020-05-29 2021-12-03 华为技术有限公司 实现异常检测模型更新的方法、装置和计算设备
CN113836240A (zh) * 2021-09-07 2021-12-24 招商银行股份有限公司 时序数据分类方法、装置、终端设备及存储介质
CN114137587A (zh) * 2021-12-01 2022-03-04 西南交通大学 一种运动对象的位置估计与预测方法、装置、设备及介质
CN114579554A (zh) * 2022-03-08 2022-06-03 京东科技信息技术有限公司 运维时间序列数据处理方法及装置、存储介质及电子设备
CN114881167A (zh) * 2022-05-24 2022-08-09 北京百度网讯科技有限公司 异常检测方法、装置、电子设备和介质
CN116415958A (zh) * 2021-12-30 2023-07-11 本源量子计算科技(合肥)股份有限公司 基于量子技术的异常数据检测方法、装置及存储介质
CN117807547A (zh) * 2024-02-29 2024-04-02 国网山东省电力公司经济技术研究院 一种区域级综合能源大规模数据清洗方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4591930A (en) * 1983-09-23 1986-05-27 Eastman Kodak Company Signal processing for high resolution electronic still camera
CN104636999A (zh) * 2015-01-04 2015-05-20 江苏联宏自动化系统工程有限公司 一种建筑异常用能数据检测方法
CN104951763A (zh) * 2015-06-16 2015-09-30 北京四方继保自动化股份有限公司 基于录波大数据异常检测的发电机组次同步风险评估方法
CN105510687A (zh) * 2015-12-24 2016-04-20 合肥工业大学 一种基于经验模态分解的电压异常特征识别方法
CN105975504A (zh) * 2016-04-28 2016-09-28 中国科学院计算技术研究所 一种基于循环神经网络的社交网络消息爆发检测方法及系统
CN107203806A (zh) * 2017-05-15 2017-09-26 东软集团股份有限公司 数据异常检测方法、装置、可读存储介质及电子设备
CN107424410A (zh) * 2017-07-14 2017-12-01 中南大学 一种基于路径旅行时间计算的交通异常检测方法
CN107733737A (zh) * 2017-10-10 2018-02-23 国网天津市电力公司 一种监控网络流量异常的方法
CN108681542A (zh) * 2018-02-12 2018-10-19 阿里巴巴集团控股有限公司 一种异常检测的方法及装置
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN109213654A (zh) * 2018-07-05 2019-01-15 北京奇艺世纪科技有限公司 一种异常检测方法及装置
CN109542740A (zh) * 2017-09-22 2019-03-29 阿里巴巴集团控股有限公司 异常检测方法及装置
CN109784042A (zh) * 2018-12-29 2019-05-21 北京奇安信科技有限公司 时间序列中异常点的检测方法、装置、电子设备及存储介质
US10318964B2 (en) * 2015-08-27 2019-06-11 Lexisnexis Risk Solutions Fl Inc. Systems and methods for detecting entity migration
CN109948669A (zh) * 2019-03-04 2019-06-28 腾讯科技(深圳)有限公司 一种异常数据检测方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4591930A (en) * 1983-09-23 1986-05-27 Eastman Kodak Company Signal processing for high resolution electronic still camera
CN104636999A (zh) * 2015-01-04 2015-05-20 江苏联宏自动化系统工程有限公司 一种建筑异常用能数据检测方法
CN104951763A (zh) * 2015-06-16 2015-09-30 北京四方继保自动化股份有限公司 基于录波大数据异常检测的发电机组次同步风险评估方法
US10318964B2 (en) * 2015-08-27 2019-06-11 Lexisnexis Risk Solutions Fl Inc. Systems and methods for detecting entity migration
CN105510687A (zh) * 2015-12-24 2016-04-20 合肥工业大学 一种基于经验模态分解的电压异常特征识别方法
CN105975504A (zh) * 2016-04-28 2016-09-28 中国科学院计算技术研究所 一种基于循环神经网络的社交网络消息爆发检测方法及系统
CN107203806A (zh) * 2017-05-15 2017-09-26 东软集团股份有限公司 数据异常检测方法、装置、可读存储介质及电子设备
CN107424410A (zh) * 2017-07-14 2017-12-01 中南大学 一种基于路径旅行时间计算的交通异常检测方法
CN109542740A (zh) * 2017-09-22 2019-03-29 阿里巴巴集团控股有限公司 异常检测方法及装置
CN107733737A (zh) * 2017-10-10 2018-02-23 国网天津市电力公司 一种监控网络流量异常的方法
CN108681542A (zh) * 2018-02-12 2018-10-19 阿里巴巴集团控股有限公司 一种异常检测的方法及装置
CN109213654A (zh) * 2018-07-05 2019-01-15 北京奇艺世纪科技有限公司 一种异常检测方法及装置
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN109784042A (zh) * 2018-12-29 2019-05-21 北京奇安信科技有限公司 时间序列中异常点的检测方法、装置、电子设备及存储介质
CN109948669A (zh) * 2019-03-04 2019-06-28 腾讯科技(深圳)有限公司 一种异常数据检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HSUAN-LIN HER: "Using time-frequency features to recognize abnormal heart sounds", 《2016 COMPUTING IN CARDIOLOGY CONFERENCE (CINC)》 *
闫慧等: "利用GPS数据研究江西区域电离层对台风"潭美"的响应", 《科学技术与工程》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143169A (zh) * 2019-12-30 2020-05-12 杭州迪普科技股份有限公司 异常参数检测方法及装置、电子设备、存储介质
CN111143169B (zh) * 2019-12-30 2024-02-27 杭州迪普科技股份有限公司 异常参数检测方法及装置、电子设备、存储介质
CN113076349A (zh) * 2020-01-06 2021-07-06 阿里巴巴集团控股有限公司 数据异常检测方法、装置、系统及电子设备
CN113076349B (zh) * 2020-01-06 2024-06-11 阿里巴巴集团控股有限公司 数据异常检测方法、装置、系统及电子设备
CN113448828A (zh) * 2020-03-26 2021-09-28 阿里巴巴集团控股有限公司 对象数据检测方法、装置、电子设备及计算机存储介质
CN113746688A (zh) * 2020-05-29 2021-12-03 华为技术有限公司 实现异常检测模型更新的方法、装置和计算设备
CN113746688B (zh) * 2020-05-29 2023-02-28 华为技术有限公司 实现异常检测模型更新的方法、装置和计算设备
CN112070155A (zh) * 2020-09-07 2020-12-11 常州微亿智造科技有限公司 时间序列数据标注方法和装置
CN112148940A (zh) * 2020-09-08 2020-12-29 中国铁道科学研究院集团有限公司电子计算技术研究所 机车故障数据过滤方法及装置
CN112711577A (zh) * 2020-12-17 2021-04-27 航天信息股份有限公司 一种异常交易企业识别方法及装置
CN113836240B (zh) * 2021-09-07 2024-02-20 招商银行股份有限公司 时序数据分类方法、装置、终端设备及存储介质
CN113836240A (zh) * 2021-09-07 2021-12-24 招商银行股份有限公司 时序数据分类方法、装置、终端设备及存储介质
CN114137587A (zh) * 2021-12-01 2022-03-04 西南交通大学 一种运动对象的位置估计与预测方法、装置、设备及介质
CN116415958A (zh) * 2021-12-30 2023-07-11 本源量子计算科技(合肥)股份有限公司 基于量子技术的异常数据检测方法、装置及存储介质
CN116415958B (zh) * 2021-12-30 2024-07-16 本源量子计算科技(合肥)股份有限公司 基于量子技术的异常数据检测方法、装置及存储介质
CN114579554A (zh) * 2022-03-08 2022-06-03 京东科技信息技术有限公司 运维时间序列数据处理方法及装置、存储介质及电子设备
CN114881167A (zh) * 2022-05-24 2022-08-09 北京百度网讯科技有限公司 异常检测方法、装置、电子设备和介质
CN117807547A (zh) * 2024-02-29 2024-04-02 国网山东省电力公司经济技术研究院 一种区域级综合能源大规模数据清洗方法
CN117807547B (zh) * 2024-02-29 2024-05-10 国网山东省电力公司经济技术研究院 一种区域级综合能源大规模数据清洗方法

Also Published As

Publication number Publication date
CN110362612B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
CN110362612A (zh) 由电子设备执行的异常数据检测方法、装置和电子设备
US10176246B2 (en) Fast grouping of time series
US10346756B2 (en) Machine discovery and rapid agglomeration of similar states
US20200034730A1 (en) Machine Discovery of Aberrant Operating States
EP3292672A1 (en) Anomaly detection for context-dependent data
CN110659207A (zh) 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法
CN115641162A (zh) 一种基于建筑工程造价的预测数据分析系统和方法
US11055631B2 (en) Automated meta parameter search for invariant based anomaly detectors in log analytics
CN112800115B (zh) 数据处理方法及数据处理装置
CN107679089A (zh) 一种用于电力传感数据的清洗方法、装置和系统
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN112116205B (zh) 针对台区用电特征的画像方法、装置和存储介质
CN106033425A (zh) 数据处理设备和数据处理方法
CN109257383A (zh) 一种bgp异常检测方法及系统
CN115358481A (zh) 一种企业外迁预警识别的方法、系统及装置
CN110309948A (zh) 整车物流订单预测方法及装置、物流系统以及计算机可读介质
EP3928467A1 (en) Managing telecommunication network event data
CN110188793A (zh) 数据异常分析方法及装置
CN113824580B (zh) 一种网络指标预警方法及系统
CN109101531A (zh) 文件处理方法、装置及系统
CN116302835A (zh) 一种运维数据异常检测装置、方法及存储介质
CN108280224B (zh) 万级维度数据生成方法、装置、设备以及存储介质
CN115099332A (zh) 一种基于混合森林的雷达数据实时处理方法及系统
CN114139706A (zh) 储能资源的评价系统
CN114492994A (zh) 一种基于电力大数据的电力信息处理系统、方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant