CN106951353B - 作业数据异常检测方法及装置 - Google Patents

作业数据异常检测方法及装置 Download PDF

Info

Publication number
CN106951353B
CN106951353B CN201710165906.2A CN201710165906A CN106951353B CN 106951353 B CN106951353 B CN 106951353B CN 201710165906 A CN201710165906 A CN 201710165906A CN 106951353 B CN106951353 B CN 106951353B
Authority
CN
China
Prior art keywords
data
combination
dimensional
determining
space set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710165906.2A
Other languages
English (en)
Other versions
CN106951353A (zh
Inventor
王蕾
乔帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN201710165906.2A priority Critical patent/CN106951353B/zh
Publication of CN106951353A publication Critical patent/CN106951353A/zh
Application granted granted Critical
Publication of CN106951353B publication Critical patent/CN106951353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明实施例提供了一种作业数据异常检测方法及装置,可以获得多种作业数据;从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。本发明首先将异常作业数据视为某段时间内所有作业数据中的离群点。本发明将作业数据的分析从一维扩展到多维,使得异常作业数据的检测不再受单指标的局限。

Description

作业数据异常检测方法及装置
技术领域
本发明涉及作业数据异常检测技术领域,特别是涉及作业数据异常检测方法及装置。
背景技术
大数据平台中的监控模块,可以获取各类用户作业的作业数据,例如作业运行耗时等。这些作业数据十分重要,需要对它们进行检测,及时发现异常的作业数据并进行相应处理。
现有的作业数据异常检测技术常由技术人员为单一作业数据设定异常报警条件,当该种作业数据到达异常报警条件时,则进行异常报警。但这种方式过于依靠技术人员的经验和能力,同时,作业数据种类很多,作业数据量也巨大,因此大量作业数据之间具有何种关系无法被技术人员完全掌握,这种情况下,如何更好的发现异常的作业数据对本领域技术人员而言仍旧是一个亟待解决的技术难题。
发明内容
本发明实施例的目的在于提供一种作业数据异常检测方法及装置,以更好的发现异常的作业数据。具体技术方案如下:
一种作业数据异常检测方法,包括:
获得多种作业数据;
从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;
确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;
确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。
可选的,所述确定所述结果空间集合中的为离群点的多维组合,包括:
确定所述结果空间集合中的多维组合的近邻点;
确定所述结果空间集合中的多维组合的局部密度及近邻点的局部密度;
基于所述多维组合的局部密度及近邻点的局部密度确定所述结果空间集合中的多维组合的局部异常值因子LOF值;
将所述LOF值大于1的多维组合确定为离群点。
可选的,所述确定所述结果空间集合中的为离群点的多维组合,还包括:
按照所述LOF值对所述结果空间集合中的各多维组合进行排序。
可选的,所述冗余数据,包括以下多种数据中的一种或多种:
非数值型数据;
常量型数据;
方差为零的数据;
同一种作业数据中的最大值;
同一种作业数据中的最小值。
可选的,在确定所述待检测的多种作业数据中的作业数据种类数量大于第一预设阈值时,所述方法还包括:
将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将各种二维组合的二维数组放入候选空间集合中;
确定所述候选空间集合中每种二维组合的二维数组的皮尔逊相关系数P;
将所述P大于第二预设阈值的二维数组从所述候选空间集合中转移到所述结果空间集合中,将所述P不大于所述第二预设阈值的二维数组从所述候选空间集合中删除;
将N设为3;
将各种N维组合的N维数组放入候选空间集合中;
按照预设顺序依次选择一种N维组合作为当前处理组合,对当前处理组合的各N维数组:
将当前处理组合的各N维数组确定为第一数据集;对除当前处理组合外的其他N维组合的N维数组进行采样,将采样后得到的N维数组映射为当前处理组合的N维数组,将映射后得到的N维数组确定为第二数据集;通过Kolmogorov-Smirnov检验计算所述第一数据集和所述第二数据集的假设几率p-value平均值,将该p-value平均值确定为当前处理组合的p-value平均值;如果该平均值大于第三预设阈值,则将当前处理组合从所述候选空间集合中转移到所述结果空间集合中;如果该平均值不大于第三预设阈值,则将当前处理组合从所述候选空间集合中删除;
判断所述N是否小于所述待检测的多种作业数据的数据种类数量,如果是,则将所述N更新为N+1,返回执行所述将各种N维组合的N维数组放入候选空间集合中的步骤,否则,执行所述确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据的步骤。
一种作业数据异常检测装置,包括:数据获得单元、数据去除单元、数量判断单元、多维组合单元和离群确定单元,
所述数据获得单元,用于获得多种作业数据;
所述数据去除单元,用于从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;
所述数量判断单元,用于确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则触发所述多维组合单元;
所述多维组合单元,用于将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;
所述离群确定单元,用于确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。
可选的,所述离群确定单元,包括:近邻点确定子单元、局部密度确定子单元、LOF值确定子单元、离群点确定子单元和异常数据确定子单元,
所述近邻点确定子单元,用于确定所述结果空间集合中的多维组合的近邻点;
所述局部密度确定子单元,用于确定所述结果空间集合中的多维组合的局部密度及近邻点的局部密度;
所述LOF值确定子单元,用于基于所述多维组合的局部密度及近邻点的局部密度确定所述结果空间集合中的多维组合的局部异常值因子LOF值;
所述离群点确定子单元,用于将所述LOF值大于1的多维组合确定为离群点;
所述异常数据确定子单元,用于,将为离群点的多维组合确定为异常数据。
可选的,所述离群确定单元还包括:排序子单元,用于按照所述LOF值对所述结果空间集合中的各多维组合进行排序。
可选的,所述冗余数据,包括以下多种数据中的一种或多种:
非数值型数据;
常量型数据;
方差为零的数据;
同一种作业数据中的最大值;
同一种作业数据中的最小值。
可选的,所述装置还包括:组合确定单元,所述组合确定单元在所述数量判断单元确定所述待检测的多种作业数据中的作业数据种类数量大于第一预设阈值时被所述数量判断单元触发;
所述组合确定单元,包括:二维确定子单元和N维确定子单元,
所述二维确定子单元,用于将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将各种二维组合的二维数组放入候选空间集合中;确定所述候选空间集合中每种二维组合的二维数组的皮尔逊相关系数P;将所述P大于第二预设阈值的二维数组从所述候选空间集合中转移到所述结果空间集合中,将所述P不大于所述第二预设阈值的二维数组从所述候选空间集合中删除;
所述N维确定子单元,包括:N初始化子单元、数组放入子单元、组合选择子单元、当前处理子单元和数量判断子单元,
所述N初始化子单元,用于将N设为3;
所述数组放入子单元,用于将各种N维组合的N维数组放入候选空间集合中;
所述组合选择子单元,用于按照预设顺序依次选择一种N维组合作为当前处理组合;
所述当前处理子单元,用于对当前处理组合的各N维数组:
将当前处理组合的各N维数组确定为第一数据集;对除当前处理组合外的其他N维组合的N维数组进行采样,将采样后得到的N维数组映射为当前处理组合的N维数组,将映射后得到的N维数组确定为第二数据集;通过Kolmogorov-Smirnov检验计算所述第一数据集和所述第二数据集的假设几率p-value平均值,将该p-value平均值确定为当前处理组合的p-value平均值;如果该平均值大于第三预设阈值,则将当前处理组合从所述候选空间集合中转移到所述结果空间集合中;如果该平均值不大于第三预设阈值,则将当前处理组合从所述候选空间集合中删除;
所述数量判断子单元,用于判断所述N是否小于所述待检测的多种作业数据的数据种类数量,如果是,则将所述N更新为N+1,并触发所述数组放入子单元,否则,触发所述离群确定单元。
本发明实施例提供的作业数据异常检测方法及装置,可以获得多种作业数据;从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。本发明首先将异常作业数据视为某段时间内所有作业数据中的离群点。
本发明把作业表示为n维空间里的一个点,所有的作业都可以在n维空间中找到对应的点。摆脱一维指标分析缺乏考虑指标之间关联性后,异常作业即远离N维空间中大多数点的观测点,同时关联子空间的挑选,可以加速检测并适用于更高维度指标的分析。本发明将作业数据的分析从一维扩展到多维,使得异常作业数据的检测不再受单指标的局限。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种作业数据异常检测方法的流程图;
图2为本发明实施例提供的一种作业数据异常检测方法中作业数据种类数量大于第一预设阈值时的执行流程图;
图3为本发明实施例提供的一种作业数据异常检测方法中确定所述结果空间集合中的为离群点的多维组合的执行流程图;
图4为本发明实施例提供的一种作业数据异常检测方法中另一种确定所述结果空间集合中的为离群点的多维组合的执行流程图;
图5为本发明实施例提供的一种作业数据异常检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的一种作业数据异常检测方法,可以包括:
S100、获得多种作业数据;
其中,本发明可以从大数据平台的各类存储数据库中(如MySQL、HBase)获得多种作业数据。具体的,作业数据可以为作业的状态指标,本发明可以通过对作业的状态指标进行监控来获得作业的状态指标。其中,作业的状态指标可以为任务数目、持续时间、输出结果大小、映射任务数等。
步骤S100可以仅获得当前时刻之前预设时间段内的多种作业数据,预设时间段可以为一个月。通过这种方式,可以使得本发明获得的作业数据更能体现出作业的变化,同时减少了计算量。
S200、从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;
其中,所述冗余数据,可以包括以下多种数据中的一种或多种:
非数值型数据;
常量型数据;
方差为零的数据;
同一种作业数据中的最大值;
同一种作业数据中的最小值。
其中,非数值型数据常为一些不需要关注的数据,如任务名称、任务策略名称、队列名称等。同时,常量型数据、方差为零的数据、同一种作业数据中的最大值、同一种作业数据中的最小值的统计分析意义不大,可以去除。
S300、确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则执行步骤S400;
在确定所述待检测的多种作业数据中的作业数据种类数量大于第一预设阈值时,本发明可以去除其中的一些种类的作业数据。
在本发明其他实施例中,在确定所述待检测的多种作业数据中的作业数据种类数量大于第一预设阈值时,如图2所示,图1所示方法还可以包括:
S601、将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将各种二维组合的二维数组放入候选空间集合中。
S602、确定所述候选空间集合中每种二维组合的二维数组的皮尔逊相关系数P。
其中,皮尔森相关系数为:x和y的协方差/(x的标准差*y的标准差)。
皮尔森相关系数可以用于判断两组数据的线性关系程度,它首先要求两组数据都服从正态分布,利用相关的函数得出系数,在-1和1之间的范围,0代表不相关,-1和1代表严格的线性相关。正数代表当x增加,y也增加,即正相关;负数代表x增加,y减小,即负相关。
S603、将所述P大于第二预设阈值的二维数组从所述候选空间集合中转移到所述结果空间集合中,将所述P不大于所述第二预设阈值的二维数组从所述候选空间集合中删除。
S604、将N设为3。
S605、将各种N维组合的N维数组放入候选空间集合中。
S606、按照预设顺序依次选择一种N维组合作为当前处理组合,对当前处理组合的各N维数组:
将当前处理组合的各N维数组确定为第一数据集;对除当前处理组合外的其他N维组合的N维数组进行采样,将采样后得到的N维数组映射为当前处理组合的N维数组,将映射后得到的N维数组确定为第二数据集;通过Kolmogorov-Smirnov检验计算所述第一数据集和所述第二数据集的假设几率p-value平均值,将该p-value平均值确定为当前处理组合的p-value平均值;如果该平均值大于第三预设阈值,则将当前处理组合从所述候选空间集合中转移到所述结果空间集合中;如果该平均值不大于第三预设阈值,则将当前处理组合从所述候选空间集合中删除。
具体的,可以通过为除当前处理组合外的其他N维组合的N维数组初始化一个随机分片{S2:[left,right],S3:[..],…,Sn:[..]}来进行采样,其中,left、right范围为(0,1)。
Kolmogorov-Smirnov检验(简称KS检验)是检测两个样本数据是否来源与同一个连续分布集的方法,p-value是根据KS检验计算的另一个D statistic值转换而来,Dstatistic是两个数据集的最大距离,主要用于标识两个数据来源于同一个连续分布的假设是否成立,超过设置的p-value的阈值则成立,否则不成立;通常情况下如果p-value小于0.05那么来源于同一分布的假设就不成立。
S607、判断所述N是否小于所述待检测的多种作业数据的数据种类数量,如果是,则执行步骤S608;否则,执行所述步骤S500。
S608、将所述N更新为N+1,返回执行所述步骤S605。
为方便理解,下面对步骤S601至步骤S608进行举例说明,可以理解的是,下方举例说明过程各步骤的描述顺序并不一定与步骤S601至步骤S608的执行顺序完全一致。
方便起见,假设有4种作业数据,分别为种类A、种类B、种类C和种类D。每种作业数据对应的具体数据分别为:
A:A1、A2;
B:B1、B2;
C:C1、C2;
D:D1、D2。将每种作业数据作为多维组合的一个维度,则共有6种二维组合:AB、AC、AD、BC、BD、CD;每种二维组合的二维数组分别如下(共有24个二维数组):
AB:A1B1、A2B1、A1B2、A2B2;
AC:A1C1、A2C1、A1C2、A2C2;
AD:A1D1、A2D1、A1D2、A2D2;
BC:B1C1、B2C1、B1C2、B2C2;
BD:B1D1、B2D1、B1D2、B2D2;
CD:C1D1、C2D1、C1D2、C2D2。
将上述24个二维数组放入候选空间集合中,分别计算上述6种二维组合的二维数组的皮尔逊相关系数P。为方便起见,下面仅以AB这个二维数组为例对P的计算过程进行说明。
对于AB的各二维数组的P,按照预设顺序,分别计算AB的一个二维数组与AB的其他二维数组的P,将P大于第二预设阈值的二维数组从所述候选空间集合中转移到所述结果空间集合中。例如:首先计算A1B1与(A2B1、A1B2、A2B2)的P,如果P大于第二预设阈值,则将A1B1从所述候选空间集合中转移到所述结果空间集合中;其次,计算A2B1与(A1B2、A2B2)的P(由于A1B1已经从候选空间集合中转移到结果空间集合,因此候选空间集合中没有A1B1),如果P不大于第二预设阈值,则将A2B1从所述候选空间集合中删除。
设N为3。
按照与二维相似的方式,将三维组合的三维数组放入候选空间集合中。具体的,由于只有四种业务数据,因此三维组合也只有4种:ABC、ABD、ACD、BCD,其中ABC对应的三维数组分别为:A1B1C1、A2B1C1、A1B2C1、A1B1C2、A2B2C1、A2B1C2、A1B2C2、A2B2C2。
下面以ABC为当前处理组合进行举例说明:
第一数据集为:A1B1C1、A2B1C1、A1B2C1、A1B1C2、A2B2C1、A2B1C2、A1B2C2、A2B2C2。
除当前处理组合ABC外的其他三维组合为ABD、ACD、BCD,对其他三维组合的三维数组进行采样,假设得到三维数组为:A1B1D1、A1C1D1、B1C1D1、A1B2D1、B1C1D2,则映射后得到的三维数组为:A1B1C1、A1B2C1,A1B1C1、A1B2C1即构成第二数据集。通过Kolmogorov-Smirnov检验计算所述第一数据集和所述第二数据集的p-value平均值,将该p-value平均值确定为当前处理组合ABC的p-value平均值;如果该平均值大于第三预设阈值,则将当前处理组合ABC从所述候选空间集合中转移到所述结果空间集合中;如果该平均值不大于第三预设阈值,则将当前处理组合ABC从所述候选空间集合中删除。
之前的当前处理组合为ABC,处理完ABC后,本发明继续选择其他三维组合作为当前处理组合进行上述过程,直至将所有三维组合处理完毕。
由于N为3,小于业务数据种类数量4,因此将N更新为4,继续执行按照预设顺序依次选择一种N维组合作为当前处理组合及对当前处理组合进行处理的步骤,本发明不再举例说明。
S400、将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;
S500、确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。
其中,如图3所示,所述确定所述结果空间集合中的为离群点的多维组合,可以包括:
S510、确定所述结果空间集合中的多维组合的近邻点;
S520、确定所述结果空间集合中的多维组合的局部密度及近邻点的局部密度;
S530、基于所述多维组合的局部密度及近邻点的局部密度确定所述结果空间集合中的多维组合的局部异常值因子LOF值;
其中,局部异常值因子的英文全称为:Local Outlier Factor。
S540、将所述LOF值大于1的多维组合确定为离群点。
进一步,如图4所示,所述确定所述结果空间集合中的为离群点的多维组合,还可以包括:
S531、按照所述LOF值对所述结果空间集合中的各多维组合进行排序。
通过排序就可以使得用户根据排序确定各多维组合的异常情况,更加直观易懂。
本发明实施例提供了一种作业数据异常检测方法,可以获得多种作业数据;从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。本发明首先将异常作业数据视为某段时间内所有作业数据中的离群点。本发明将作业数据的分析从一维扩展到多维,使得异常作业数据的检测不再受单指标的局限。
与上述方法实施例相对应,本发明还提供了一种作业数据异常检测装置。
如图5所示,本发明实施例提供的一种作业数据异常检测装置,可以包括:数据获得单元100、数据去除单元200、数量判断单元300、多维组合单元400和离群确定单元500,
所述数据获得单元100,用于获得多种作业数据;
所述数据去除单元200,用于从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;
其中,所述冗余数据,包括以下多种数据中的一种或多种:
非数值型数据;
常量型数据;
方差为零的数据;
同一种作业数据中的最大值;
同一种作业数据中的最小值。
所述数量判断单元300,用于确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则触发所述多维组合单元400;
所述多维组合单元400,用于将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;
所述离群确定单元500,用于确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。
其中,所述离群确定单元500,可以包括:近邻点确定子单元、局部密度确定子单元、LOF值确定子单元、离群点确定子单元和异常数据确定子单元,
所述近邻点确定子单元,用于确定所述结果空间集合中的多维组合的近邻点;
所述局部密度确定子单元,用于确定所述结果空间集合中的多维组合的局部密度及近邻点的局部密度;
所述LOF值确定子单元,用于基于所述多维组合的局部密度及近邻点的局部密度确定所述结果空间集合中的多维组合的局部异常值因子LOF值;
所述离群点确定子单元,用于将所述LOF值大于1的多维组合确定为离群点;
所述异常数据确定子单元,用于,将为离群点的多维组合确定为异常数据。
进一步,所述离群确定单元500还可以包括:排序子单元,用于按照所述LOF值对所述结果空间集合中的各多维组合进行排序。
在本发明其他实施例中,图5所示装置还可以包括:组合确定单元,所述组合确定单元在所述数量判断单元300确定所述待检测的多种作业数据中的作业数据种类数量大于第一预设阈值时被所述数量判断300单元触发;
所述组合确定单元,包括:二维确定子单元和N维确定子单元,
所述二维确定子单元,用于将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将各种二维组合的二维数组放入候选空间集合中;确定所述候选空间集合中每种二维组合的二维数组的皮尔逊相关系数P;将所述P大于第二预设阈值的二维数组从所述候选空间集合中转移到所述结果空间集合中,将所述P不大于所述第二预设阈值的二维数组从所述候选空间集合中删除;
所述N维确定子单元,包括:N初始化子单元、数组放入子单元、组合选择子单元、当前处理子单元和数量判断子单元,
所述N初始化子单元,用于将N设为3;
所述数组放入子单元,用于将各种N维组合的N维数组放入候选空间集合中;
所述组合选择子单元,用于按照预设顺序依次选择一种N维组合作为当前处理组合;
所述当前处理子单元,用于对当前处理组合的各N维数组:
将当前处理组合的各N维数组确定为第一数据集;对除当前处理组合外的其他N维组合的N维数组进行采样,将采样后得到的N维数组映射为当前处理组合的N维数组,将映射后得到的N维数组确定为第二数据集;通过Kolmogorov-Smirnov检验计算所述第一数据集和所述第二数据集的假设几率p-value平均值,将该p-value平均值确定为当前处理组合的p-value平均值;如果该平均值大于第三预设阈值,则将当前处理组合从所述候选空间集合中转移到所述结果空间集合中;如果该平均值不大于第三预设阈值,则将当前处理组合从所述候选空间集合中删除;
所述数量判断子单元,用于判断所述N是否小于所述待检测的多种作业数据的数据种类数量,如果是,则将所述N更新为N+1,并触发所述数组放入子单元,否则,触发所述离群确定单元500。
本发明实施例提供了一种作业数据异常检测装置,可以获得多种作业数据;从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。本发明首先将异常作业数据视为某段时间内所有作业数据中的离群点。本发明将作业数据的分析从一维扩展到多维,使得异常作业数据的检测不再受单指标的局限。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种作业数据异常检测方法,其特征在于,包括:
获得多种作业数据;
从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;
确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;
确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据;
在确定所述待检测的多种作业数据中的作业数据种类数量 大于第一预设阈值时,将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将各种二维组合的二维数组放入候选空间集合中;
确定所述候选空间集合中每种二维组合的二维数组的皮尔逊相关系数P;
将所述P大于第二预设阈值的二维数组从所述候选空间集合中转移到所述结果空间集合中,将所述P不大于所述第二预设阈值的二维数组从所述候选空间集合中删除;
将N设为3;
将各种N维组合的N维数组放入候选空间集合中;
按照预设顺序依次选择一种N维组合作为当前处理组合,对当前处理组合的各N维数组:
将当前处理组合的各N维数组确定为第一数据集;对除当前处理组合外的其他N维组合的N维数组进行采样,将采样后得到的N维数组映射为当前处理组合的N维数组,将映射后得到的N维数组确定为第二数据集;通过Kolmogorov-Smirnov检验计算所述第一数据集和所述第二数据集的假设几率p-value平均值,将该p-value平均值确定为当前处理组合的p-value平均值;如果该平均值大于第三预设阈值,则将当前处理组合从所述候选空间集合中转移到所述结果空间集合中;如果该平均值不大于第三预设阈值,则将当前处理组合从所述候选空间集合中删除;
判断所述N是否小于所述待检测的多种作业数据的数据种类数量,如果是,则将所述N更新为N+1,返回执行所述将各种N维组合的N维数组放入候选空间集合中的步骤,否则,执行所述确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据的步骤。
2.根据权利要求1所述的方法,其特征在于,所述确定所述结果空间集合中的为离群点的多维组合,包括:
确定所述结果空间集合中的多维组合的近邻点;
确定所述结果空间集合中的多维组合的局部密度及近邻点的局部密度;
基于所述多维组合的局部密度及近邻点的局部密度确定所述结果空间集合中的多维组合的局部异常值因子LOF值;
将所述LOF值大于1的多维组合确定为离群点。
3.根据权利要求2所述的方法,其特征在于,所述确定所述结果空间集合中的为离群点的多维组合,还包括:
按照所述LOF值对所述结果空间集合中的各多维组合进行排序。
4.根据权利要求1所述的方法,其特征在于,所述冗余数据,包括以下多种数据中的一种或多种:
非数值型数据;
常量型数据;
方差为零的数据;
同一种作业数据中的最大值;
同一种作业数据中的最小值。
5.一种作业数据异常检测装置,其特征在于,包括:数据获得单元、数据去除单元、数量判断单元、多维组合单元和离群确定单元、组合确定单元,
所述数据获得单元,用于获得多种作业数据;
所述数据去除单元,用于从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;
所述数量判断单元,用于确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则触发所述多维组合单元;
所述多维组合单元,用于将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;
所述离群确定单元,用于确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据;
所述组合确定单元在所述数量判断单元确定所述待检测的多种作业数据中的作业数据种类数量大于第一预设阈值时被所述数量判断单元触发;
所述组合确定单元,包括:二维确定子单元和N维确定子单元,
所述二维确定子单元,用于将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将各种二维组合的二维数组放入候选空间集合中;确定所述候选空间集合中每种二维组合的二维数组的皮尔逊相关系数P;将所述P大于第二预设阈值的二维数组从所述候选空间集合中转移到所述结果空间集合中,将所述P不大于所述第二预设阈值的二维数组从所述候选空间集合中删除;
所述N维确定子单元,包括:N初始化子单元、数组放入子单元、组合选择子单元、当前处理子单元和数量判断子单元,
所述N初始化子单元,用于将N设为3;
所述数组放入子单元,用于将各种N维组合的N维数组放入候选空间集合中;
所述组合选择子单元,用于按照预设顺序依次选择一种N维组合作为当前处理组合;
所述当前处理子单元,用于对当前处理组合的各N维数组:
将当前处理组合的各N维数组确定为第一数据集;对除当前处理组合外的其他N维组合的N维数组进行采样,将采样后得到的N维数组映射为当前处理组合的N维数组,将映射后得到的N维数组确定为第二数据集;通过Kolmogorov-Smirnov检验计算所述第一数据集和所述第二数据集的假设几率p-value平均值,将该p-value平均值确定为当前处理组合的p-value平均值;如果该平均值大于第三预设阈值,则将当前处理组合从所述候选空间集合中转移到所述结果空间集合中;如果该平均值不大于第三预设阈值,则将当前处理组合从所述候选空间集合中删除;
所述数量判断子单元,用于判断所述N是否小于所述待检测的多种作业数据的数据种类数量,如果是,则将所述N更新为N+1,并触发所述数组放入子单元,否则,触发所述离群确定单元。
6.根据权利要求5所述的装置,其特征在于,所述离群确定单元,包括:近邻点确定子单元、局部密度确定子单元、LOF值确定子单元、离群点确定子单元和异常数据确定子单元,
所述近邻点确定子单元,用于确定所述结果空间集合中的多维组合的近邻点;
所述局部密度确定子单元,用于确定所述结果空间集合中的多维组合的局部密度及近邻点的局部密度;
所述LOF值确定子单元,用于基于所述多维组合的局部密度及近邻点的局部密度确定所述结果空间集合中的多维组合的局部异常值因子LOF值;
所述离群点确定子单元,用于将所述LOF值大于1的多维组合确定为离群点;
所述异常数据确定子单元,用于,将为离群点的多维组合确定为异常数据。
7.根据权利要求6所述的装置,其特征在于,所述离群确定单元还包括:排序子单元,用于按照所述LOF值对所述结果空间集合中的各多维组合进行排序。
8.根据权利要求5所述的装置,其特征在于,所述冗余数据,包括以下多种数据中的一种或多种:
非数值型数据;
常量型数据;
方差为零的数据;
同一种作业数据中的最大值;
同一种作业数据中的最小值。
CN201710165906.2A 2017-03-20 2017-03-20 作业数据异常检测方法及装置 Active CN106951353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710165906.2A CN106951353B (zh) 2017-03-20 2017-03-20 作业数据异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710165906.2A CN106951353B (zh) 2017-03-20 2017-03-20 作业数据异常检测方法及装置

Publications (2)

Publication Number Publication Date
CN106951353A CN106951353A (zh) 2017-07-14
CN106951353B true CN106951353B (zh) 2020-05-22

Family

ID=59472020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710165906.2A Active CN106951353B (zh) 2017-03-20 2017-03-20 作业数据异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN106951353B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508846A (zh) * 2017-09-15 2019-03-22 新奥(中国)燃气投资有限公司 一种机组数据异常波动的检测方法及装置
CN108133021A (zh) * 2017-12-26 2018-06-08 北京奇艺世纪科技有限公司 一种数据异常检测方法及装置
CN109144988B (zh) * 2018-08-07 2021-02-23 东软集团股份有限公司 一种异常数据的检测方法及装置
CN109190803B (zh) * 2018-08-14 2020-08-25 北京猿力未来科技有限公司 预测方法、装置、计算设备及存储介质
CN111782472B (zh) * 2020-06-30 2022-04-26 平安科技(深圳)有限公司 系统异常检测方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7395250B1 (en) * 2000-10-11 2008-07-01 International Business Machines Corporation Methods and apparatus for outlier detection for high dimensional data sets
CN104504901A (zh) * 2014-12-29 2015-04-08 浙江银江研究院有限公司 一种基于多维数据的交通异常点检测方法
CN104899507A (zh) * 2015-06-08 2015-09-09 桂林电子科技大学 一种网络高维大数据异常入侵的检测方法
CN105160347A (zh) * 2015-07-07 2015-12-16 河海大学 一种大规模高维数据中离群数据的检测方法
CN105975519A (zh) * 2016-04-28 2016-09-28 深圳大学 一种基于多支撑点索引的离群检测方法及其系统
CN106503086A (zh) * 2016-10-11 2017-03-15 成都云麒麟软件有限公司 分布式局部离群点的检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812274B2 (en) * 2009-04-24 2014-08-19 Hermant Virkar Methods for mapping data into lower dimensions

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7395250B1 (en) * 2000-10-11 2008-07-01 International Business Machines Corporation Methods and apparatus for outlier detection for high dimensional data sets
CN104504901A (zh) * 2014-12-29 2015-04-08 浙江银江研究院有限公司 一种基于多维数据的交通异常点检测方法
CN104899507A (zh) * 2015-06-08 2015-09-09 桂林电子科技大学 一种网络高维大数据异常入侵的检测方法
CN105160347A (zh) * 2015-07-07 2015-12-16 河海大学 一种大规模高维数据中离群数据的检测方法
CN105975519A (zh) * 2016-04-28 2016-09-28 深圳大学 一种基于多支撑点索引的离群检测方法及其系统
CN106503086A (zh) * 2016-10-11 2017-03-15 成都云麒麟软件有限公司 分布式局部离群点的检测方法

Also Published As

Publication number Publication date
CN106951353A (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
CN106951353B (zh) 作业数据异常检测方法及装置
Qu et al. A new dependency and correlation analysis for features
JP6362808B1 (ja) 情報処理装置および情報処理方法
JP2016004577A (ja) 実時系列内の異常を検出するための方法
US20200241518A1 (en) Systems and methods for determining relationships between defects
CN113092981B (zh) 晶圆数据检测方法及系统、存储介质及测试参数调整方法
CN104903866A (zh) 对事件根本原因的分析予以支援的管理系统以及方法
CN110083475B (zh) 一种异常数据的检测方法及装置
CN110008247B (zh) 异常来源确定方法、装置、设备及计算机可读存储介质
EP2916260A1 (en) Time series analytics
CN108399115B (zh) 一种运维操作检测方法、装置及电子设备
CN111400126A (zh) 网络服务异常数据检测方法、装置、设备和介质
CN111651340A (zh) 告警数据规则挖掘方法、装置及电子设备
Wu et al. Fuzzy nonlinear programming approach for evaluating and ranking process yields with imprecise data
CN113918438A (zh) 服务器异常的检测方法、装置、服务器及存储介质
CN112380073B (zh) 一种故障位置的检测方法、装置及可读存储介质
CN115932144B (zh) 色谱仪性能检测方法、装置、设备和计算机介质
CN117113247A (zh) 基于二分类和聚类算法的排水系统异常监测方法、设备及存储介质
CN109660512B (zh) 一种敏感信息流向向量化方法、异常流向识别方法及装置
Huang et al. Importance of data quality in virtual metrology
TWI639908B (zh) 製程偵錯與診斷方法
TW202013104A (zh) 資料處理、資料處理裝置以及電腦可讀取記錄媒體
JP2016157361A (ja) プラント診断装置
JP6508202B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
CN115424826B (zh) 换流变压器的冷却性能确定方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant