CN112905412A - 关键性能指标数据的异常检测方法及装置 - Google Patents
关键性能指标数据的异常检测方法及装置 Download PDFInfo
- Publication number
- CN112905412A CN112905412A CN202110129500.5A CN202110129500A CN112905412A CN 112905412 A CN112905412 A CN 112905412A CN 202110129500 A CN202110129500 A CN 202110129500A CN 112905412 A CN112905412 A CN 112905412A
- Authority
- CN
- China
- Prior art keywords
- key performance
- performance index
- index data
- category
- baseline
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 claims abstract description 124
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 230000005856 abnormality Effects 0.000 claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 238000010845 search algorithm Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000011524 similarity measure Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010033799 Paralysis Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000012489 doughnuts Nutrition 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3024—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3048—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the topology of the computing system or computing system component explicitly influences the monitoring activity, e.g. serial, hierarchical systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提出一种关键性能指标数据的异常检测方法及装置,其中,方法包括:对待检测的第一关键性能指标数据进行基线提取,得到第一基线;计算所述第一基线与预先确定的至少一个类别对应的聚类中心的距离,并根据所述距离确定所述第一基线所属的类别;获取所述第一基线所属的类别对应的异常检测模型;根据所述异常检测模型,对所述第一关键性能指标数据进行异常检测。可以在保障检测准确性的同时,显著缩减大规模关键性能指标数据的异常检测的成本,提高大规模异常检测效率。
Description
技术领域
本发明涉及数据处理与安全技术领域,尤其涉及一种关键性能指标数据的异常检测方法和装置。
背景技术
随着数据收集和存储技术的快速发展,金融、交通、互联网等领域积累了大量的时间序列数据,其中为了保证互联网中的各项服务不受干扰,需要密切监视各种关键性能指标(Key Performance Indicator,简称KPI)数据,如CPU使用量、网络吞吐量、网页浏览量、在线用户数量等,以防止未及时检测的异常造成的服务瘫痪等负面影响,从而保障服务质量与稳定性。
通常,互联网企业中需要监控大量的关键性能指标数据并及时检测其中的异常,然而,对大规模关键性能指标数据的异常检测,通常会带来高昂的模型选择、计算资源及人力开销,检测成本高,且难以兼顾检测效率与准确性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明提出一种关键性能指标数据的异常检测方法,以解决现有技术中对大规模关键性能指标数据进行异常检测时,检测成本高,且难以兼顾检测效率与准确性的技术问题。
本发明第一方面实施例提出了一种关键性能指标数据的异常检测方法,包括:对待检测的第一关键性能指标数据进行基线提取,得到第一基线;计算所述第一基线与预先确定的至少一个类别对应的聚类中心的距离,并根据所述距离确定所述第一基线所属的类别;获取所述第一基线所属的类别对应的异常检测模型;根据所述异常检测模型,对所述第一关键性能指标数据进行异常检测。
本发明第二方面实施例提出了一种关键性能指标数据的异常检测装置,包括:提取模块,用于对待检测的第一关键性能指标数据进行基线提取,得到第一基线;确定模块,用于计算所述第一基线与预先确定的至少一个类别对应的聚类中心的距离,并根据所述距离确定所述第一基线所属的类别;第一获取模块,用于获取所述第一基线所属的类别对应的异常检测模型;检测模块,用于根据所述异常检测模型,对所述第一关键性能指标数据进行异常检测。
本申请提供的技术方案,具有如下有益效果:
在获取待检测的第一关键性能指标数据后,对待检测的第一关键性能指标数据进行基线提取,得到第一基线,再计算第一基线与预先确定的至少一个类别对应的聚类中心的距离,并根据距离确定第一基线所属的类别,获取第一基线所属的类别对应的异常检测模型,进而根据异常检测模型,对第一关键性能指标数据进行异常检测,由此,可以在保障检测准确性的同时,显著缩减大规模关键性能指标数据的异常检测的成本,提高大规模异常检测效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种关键性能指标数据的异常检测方法的流程示意图;
图2为本发明实施例提供的聚类处理过程的流程示意图;
图3为本发明实施例提供的聚类处理过程及异常检测过程的流程示意图;
图4为本发明实施例提供的一种关键性能指标数据的异常检测装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
可以理解的是,互联网企业中需要监控大量的关键性能指标数据并及时检测其中的异常,然而,对大规模关键性能指标数据的异常检测,通常会带来高昂的模型选择、计算资源及人力开销,检测成本高,且难以兼顾检测效率与准确性。
本申请针对相关技术中的对大规模关键性能指标数据进行异常检测时,检测成本高,且难以兼顾检测效率与准确性的技术问题,提出一种关键性能指标数据的异常检测方法,该方法预先对多个关键性能指标数据进行聚类,得到至少一个类别,并确定每个类别的聚类中心以及对应的异常检测模型,从而在获取待检测的第一关键性能指标数据后,对待检测的第一关键性能指标数据进行基线提取,得到第一基线,再计算第一基线与预先确定的至少一个类别对应的聚类中心的距离,并根据距离确定第一基线所属的类别,获取第一基线所属的类别对应的异常检测模型,进而根据异常检测模型,对第一关键性能指标数据进行异常检测,由此,可以在保障检测准确性的同时,显著缩减大规模关键性能指标数据的异常检测的成本,提高大规模异常检测效率。
下面参考附图描述本发明实施例的关键性能指标数据的异常检测方法和装置。
图1为本发明实施例提供的一种关键性能指标数据的异常检测方法的流程示意图。
具体的,本申请提供的关键性能指标数据的异常检测方法,可以由关键性能指标数据的异常检测装置,以下简称异常检测装置执行,该异常检测装置可以为电子设备,也可以配置在电子设备中,以对关键性能指标数据进行异常检测,且在保障检测准确性的同时,显著缩减大规模关键性能指标数据的异常检测的成本,提高大规模异常检测效率。
需要说明的是,关键性能指标数据,具体可以为关键性能指标曲线,本申请实施例以关键性能指标数据为关键性能指标曲线为例进行说明。
如图1所示,该关键性能指标数据的异常检测方法包括以下步骤:
步骤101,对待检测的第一关键性能指标数据进行基线提取,得到第一基线。
步骤102,计算第一基线与预先确定的至少一个类别对应的聚类中心的距离,并根据距离确定第一基线所属的类别。
在本申请实施例中,可以预先利用多个第二关键性能指标数据进行聚类,确定至少一个类别,针对每个类别,根据类别对应的第二关键性能指标数据,获取类别对应的聚类中心,并根据聚类中心对应的第二关键性能指标数据,训练得到类别对应的异常检测模型。
其中,多个第二关键性能指标数据,可以为待检测的多个关键性能指标数据中的部分关键性能指标数据。
可以理解的是,关键性能指标曲线,作为一种特殊的时序数据,通常存在着多种形状变化,包括振幅差异、相位偏差、噪声和异常干扰等,这些形状变化会影响算法对于关键性能指标曲线之间的相似性判断,从而使现有算法不能得到准确的聚类簇。
为解决此问题,本申请可以对关键性能指标数据进行预处理及基线提取,得到基线,从而尽可能的去除关键性能指标数据中明显的异常和噪声,并保持关键性能指标数据的本质形状,进而利用基线进行后续的聚类及相似性计算等过程。
相应的,在对多个第二关键性能指标数据进行聚类处理,确定至少一个类别时,可以先对第二关键性能指标数据进行预处理,得到预处理后的多个第二关键性能指标数据,再对预处理后的多个第二关键性能指标数据分别进行基线提取,得到预处理后的各个第二关键性能指标数据分别对应的第二基线,进而利用多个第二基线进行聚类及相似性计算,确定至少一个类别。
在示例性实施例中,各个第二关键性能指标数据为关键性能指标曲线时,可以先使用标准化消除关键性能指标曲线间的振幅差异,使来自不同系统和应用的关键性能指标曲线在形状相似性上可比较。得到标准化后的关键性能指标曲线之后,对于各关键性能指标曲线,由于偏离曲线均值最远的部分最有可能是异常点,因此,可以设计曲线平滑策略去除偏离均值最远的部分,并根据其邻近的正常点线性插值填充。最后,为减弱噪声项的影响,对每条关键性能指标曲线,可以使用一个较小的滑动窗口做滑动平均处理,并得到每条关键性能指标曲线分别对应的第二基线与余项。由于第二基线尽可能的去除了数据中明显的异常和噪声,并保持了其本质形状,而余项则主要包含随机噪声,因而可以将余项舍弃,利用第二基线进行后续的聚类与相似性计算过程。
在示例性实施例中,可以通过如下公式(1)-(4)对预处理后的多个关键性能指标曲线分别进行基线提取。
T=(x1,x2,…,xm) (1)
其中,T为待进行基线提取的关键性能指标曲线对应的时序数据。xt *为滑动窗口数据。B为对关键性能指标曲线进行基线提取后,得到的基线,R为余项。
在通过上述方法,对多个第二关键性能指标数据进行预处理及基线提取,得到预处理后的各个第二关键性能指标数据分别对应的第二基线后,可以利用多个第二基线进行聚类及相似性计算,得到至少一个类别。
具体的,利用多个第二基线进行聚类及相似性计算时,可以获取预处理后的各个第二关键性能指标数据分别对应的第二基线之间的基于形状的距离,进而根据基于形状的距离,结合基于密度的聚类算法,对预处理后的各个第二关键性能指标数据分别对应的第二基线进行聚类处理,确定至少一个类别。
可以理解的是,关键性能指标曲线,通常存在着多种形状变化,包括振幅差异、相位偏差、噪声和异常干扰等,因此对关键性能指标曲线进行聚类时,所使用的相似性度量需要对噪声不敏感、能容忍曲线间的相位偏差,且为了保证异常检测的速度,需要所使用的相似性度量在高维数据上具有相对较快的计算速度,以保证聚类速度。由于相关技术中常用的Lp距离对噪声和相移较为敏感,DTW(Dynamic Time Warping,动态时间规整)距离,则在高维数据上具有极高的计算复杂度,而SBD距离(shape-based distance,基于形状的距离),则对噪声和相位偏差具有较强的鲁棒性,且可以使用快速傅立叶变换和逆快速傅立叶变换加速其在高维数据上的计算速度,因而适用于衡量关键性能指标曲线的形状相似性。因此,本申请实施例中,采用SBD距离来计算关键性能指标曲线之间的本质形状的相似性。
具体的,可以通过如下公式(5)和(6),计算第二关键性能指标数据分别对应的第二基线之间的SBD距离。
可以理解的是,SBD距离是一种逐点的相似性度量,而极端异常,比如异常的波峰波谷,可能会对相似性计算产生影响,本申请实施例中,通过先对第二关键性能指标数据进行预处理和基线提取,去除这些极端的异常值,可以使得利用SBD距离进行聚类时的准确性更高。
在获取预处理后的各个第二关键性能指标数据分别对应的第二基线之间的基于形状的距离后,即可结合基于密度的聚类算法,对预处理后的各个第二关键性能指标数据分别对应的第二基线进行聚类处理,确定至少一个类别。
可以理解的是,基于密度的聚类算法(Density-Based Spatial Clustering ofApplication with Noise,简称DBSCAN),核心思想是在给定距离空间(由相似性度量确定)中的稠密区域寻找一定的聚类核,并根据相似性的传递性来拓展这些核形成聚类簇。由于关键性能指标数据,通常采集自多种不同的系统和应用,难以预先获知聚类簇数量,而相比于其他聚类方法,基于密度的聚类算法,无需事先指定聚类簇个数,因此适合对关键性能指标数据进行聚类。此外,将基于密度的聚类算法与SBD距离相结合,可以自然的利用形状相似性的传递性来拓展密度聚类核并形成聚类簇。例如,由于SBD距离刻画了曲线间的本质形状相似性,对于同类应用的三条不同关键性能指标数据a,b,c,若a与b形状相似,b与c形状相似,则a与c也应在本质形状上相似,并应当被划分至同一聚类簇中。基于密度的聚类算法与SBD距离的结合,正遵循以上理念进行聚类,使得到的同一聚类簇中的曲线具有相似的本质形状,从而能够共享模型进行异常检测。
具体的,如图2所示,可以采用如下步骤201-205所示的方式,根据基于形状的距离,结合基于密度的聚类算法,对预处理后的各个第二关键性能指标数据分别对应的第二基线进行聚类处理,确定至少一个类别。
步骤201,针对每个第二基线,获取第二基线与该第二基线的第k邻近的第二基线之间的距离,以得到多个距离,其中,k为每个类别中包含的最少第二基线的数量。
其中,每个第二基线与其第k邻近的第二基线之间的距离,可以为SBD距离。k为每个类别中包含的最少第二基线的数量,其可以根据经验设置,本申请对此不作限制。
步骤202,对多个距离进行排序,得到距离曲线。
步骤203,根据距离曲线,采用启发式的二分搜索算法,获取至少一个候选密度半径。
步骤204,将至少一个候选密度半径中,不大于基于形状的距离的最大候选密度半径确定为目标密度半径。
步骤205,基于目标密度半径,对预处理后的各个第二关键性能指标数据分别对应的第二基线进行聚类处理。
密度半径,是基于密度聚类算法中的关键参数,用于确定初始的聚类核以及判断何时应拓展聚类簇。本申请实施例中,可以采用启发式方法自动选择合适的目标密度半径。
具体的,得到预处理后的各个第二关键性能指标数据对应的所有第二基线后,针对每个第二基线,可以先确定该第二基线的第k邻近的第二基线,再计算每个第二基线与其第k近邻的第二基线之间的距离,以得到多个距离,其中,距离的数量与各第二关键性能指标数据对应的所有第二基线的数量相同,再将得到的所有距离按降序排列形成距离曲线。距离曲线上的平坦部分表示一组第二基线的密度值相近,可构成稠密区域,而陡峭部分则表示剧烈的密度变化,对应稀疏区域。本申请实施例中,可以采用启发式的二分搜索算法,找出距离曲线上的平坦部分作为候选密度半径。
在示例性实施例中,可以依据某个点的邻域内左右曲线斜率相近且斜率绝对值较小,来找出距离曲线上的平坦部分。具体的,由于距离曲线的陡峭部分的点的邻域内左右曲线斜率比较大,为了避免在距离曲线的陡峭部分进行搜索,针对距离曲线上的每个点,可以先判断该点的邻域内左右曲线斜率的绝对值是否过大,若过大,则将该点排除。进一步的,针对距离曲线上的剩余点,可以计算每个点的邻域内左右曲线斜率的绝对值的差值,从而得到多个差值,并判断多个差值内最小的差值是否小于预设阈值,若小于,则确定最小的差值对应的点(假设为r点)附近为一个平坦区域,从而可以将该r点对应的密度半径值作为一个候选密度半径。其中,预设阈值,可以根据需要设置,通常为了提高确定的平坦区域的准确性,可以设置预设阈值为较小的值,比如可以设置为1e-3(即10-3)。
进一步的,可以以上述过程确定的r点为分界点,将距离曲线分为左右两部分,对于左部分曲线中的各点,可以按照上述过程进行搜索,计算每个点的邻域内左右曲线斜率的绝对值的差值,从而得到多个差值,并判断多个差值内最小的差值是否小于预设阈值,若小于,则确定最小的差值对应的点(假设为s点)附近为一个平坦区域,从而可以将该s1点对应的密度半径值作为一个候选密度半径。对于右部分曲线中的各点,可以按照与左部分曲线相同的处理过程,在右部分曲线的各点中搜索候选密度半径,其中假设将s2点对应的密度半径值确定为候选密度半径。
进一步的,可以以上述过程确定的s1点为分界点,将上述左部分距离曲线进一步分为左右两部分,以上述过程确定的s2点为分界点,将上述右部分曲线进一步分为左右两部分,对于这四部分曲线,重复执行与上述处理过程相似的处理,直至分解后的距离曲线的起始点与结束点之间的距离小于预设的长度阈值,搜索结束。其中,长度阈值可以根据需要设置,比如可以根据判定距离曲线的平坦区域需要的点的个数设置。
可以理解的是,对于SBD距离而言,SBD距离越小表示两条曲线在形状上越相似,反之则形状差别越大。本申请实施例中,为了保证初始的聚类核及其邻域的第二基线足够相似,从而能构成同一聚类簇,目标密度半径不能过大,同时,由于本申请的目的是依据聚类结果来共享模型,加速大规模异常检测,因此为了防止得到大量极细粒度的聚类簇和大量离群点,从而大大减弱共享模型的加速效果,密度半径不能过小。因此,本申请根据上述的SBD距离来约束最大密度半径,以保证簇内曲线相似性,选择不超过此约束的最大候选密度半径,作为最终的目标密度半径参数,即,将候选密度半径中,不大于SBD距离的最大候选密度半径,确定为目标密度半径。进而基于目标密度半径,对各第二基线进行聚类处理。
通过上述过程,即可根据多个第二关键性能指标数据,确定至少一个类别。在确定至少一个类别后,针对每个类别,可以根据类别对应的第二关键性能指标数据,计算聚类中心,聚类中心可以表征其对应的类别的本质形状,并且,根据每个类别的聚类中心,可以根据聚类中心对应的第二关键性能指标数据,训练得到类别对应的异常检测模型。
进而,对于待检测的第一关键性能指标数据,可以先对第一关键性能指标数据进行基线提取,获得第一基线,之后,再根据上述过程确定的至少一个类别对应的聚类中心,计算第一基线与各聚类中心之间的距离,进而根据第一基线与各聚类中心之间的距离,确定第一基线所属的类别。
其中,第一基线与各聚类中心之间的距离,可以为SBD距离。
在示例性实施例中,可以将第一基线与各类别对应的聚类中心之间的SBD距离中,最小SBD距离对应的类别确定为第一基线所属的类别。
需要说明的是,在对第一关键性能指标数据进行基线提取,得到第一基线之前,可以先对第一关键性能指标数据进行预处理,得到预处理后的第一关键性能指标数据,再对预处理后的第一关键性能指标数据进行滑动平均处理,得到第一基线。即在步骤101之前,还可以对第一关键性能指标数据进行预处理,得到预处理后的第一关键性能指标数据,相应的,步骤101具体可以包括:对预处理后的第一关键性能指标数据进行滑动平均处理,得到第一基线。
具体的预处理及基线提取过程,可以参考上述实施例中对第二关键性能指标数据进行预处理及基线提取的过程,此处不再赘述。
步骤103,获取第一基线所属的类别对应的异常检测模型。
步骤104,根据异常检测模型,对第一关键性能指标数据进行异常检测。
其中,异常检测模型,可以为利用深度学习方法,训练得到的深度神经网络模型,例如卷积神经网络模型、递归神经网络模型等,或者,也可以为其它类型的模型,本申请对此不作限制。
具体的,在确定第一基线所属的类别后,即可从预先确定的各类别分别对应的异常检测模型中,获取第一基线所属的类别对应的异常检测模型,进而根据异常检测模型,对第一关键性能指标数据进行异常检测。
参考图3,本申请实施例中,可以预先对多个第二关键性能指标数据进行预处理及基线提取(步骤301和302),得到每条关键性能指标曲线的第二基线,再利用多个第二基线进行聚类(步骤303),获取至少一个聚类簇,并获取每个聚类簇对应的聚类中心(步骤304),并根据每个聚类中心对应的关键性能指标数据,训练类别对应的异常检测模型。在获取到新的待检测的第一关键性能指标数据后,可以先对第一关键性能指标数据进行预处理及基线提取(步骤305和306),根据获取到的第一基线与已确定的各类别的聚类中心的距离,为第一基线分派类别(步骤307),由于各类别内共享异常检测模型,进而可以获取第一基线所属的类别对应的异常检测模型对第一关键性能指标数据进行异常检测(步骤308)。由此,对于大规模的关键性能指标数据的异常检测任务,可以利用每条待检测的关键性能指标数据按照其本质形状,划分到已确定的至少一个类别中,进而利用该类别对应的异常检测模型,对待检测的关键性能指标数据进行异常检测。
可以理解的是,由于同一类别的曲线具有相似的本质形状,异常检测模型,例如DONUT模型,能够学习到它们所共有的正常模式,因而能够共享模型进行检测,相比为每个关键性能指标数据单独训练一个独立的异常检测模型进行检测,这极大的节省了模型训练与参数优化的时间。并且,对于需要标注进行训练的有监督或半监督模型而言,只需要标注每个类别的聚类中心对应的关键性能指标数据即可,从而能够降低异常检测模型训练时的标注成本。另外,在异常检测模型为基于深度学习的复杂模型时,由于训练数据仅来自于类别的聚类中心对应的关键性能数据,因此在一定程度上降低了模型过拟合到每条关键性能指标数据的风险。
本申请实施例中,对于大规模的关键性能指标数据的异常检测任务,可以将每条待检测的关键性能指标数据按照其本质形状,划分到已确定的至少一个类别中,进而利用该类别对应的异常检测模型,对待检测的关键性能指标数据进行异常检测。相比为每个关键性能指标数据单独训练一个独立的异常检测模型进行检测,本发明的异常检测方法,在保证检测准确率基本不变的前提下,能够大大缩短模型的训练与参数选择时间,提高大规模异常检测效率,降低训练成本。通过对大规模的关键性能指标数据进行准确、快速的异常检测,有利于运维人员更好的了解各项指标间的潜在关联性,并及时发现异常,从而及时修复问题,降低可能的故障带来的损失,保障服务性能。
本发明实施例的关键性能指标数据的异常检测方法,在获取待检测的第一关键性能指标数据后,对待检测的第一关键性能指标数据进行基线提取,得到第一基线,再计算第一基线与预先确定的至少一个类别对应的聚类中心的距离,并根据距离确定第一基线所属的类别,获取第一基线所属的类别对应的异常检测模型,进而根据异常检测模型,对第一关键性能指标数据进行异常检测,由此,可以在保障检测准确性的同时,显著缩减大规模关键性能指标数据的异常检测的成本,提高大规模异常检测效率。
为了实现上述实施例,本发明实施例还提出一种关键性能指标数据的异常检测装置。
图4为本发明实施例提供的一种关键性能指标数据的异常检测装置的结构示意图。
如图4所示,该关键性能指标数据的异常检测装置400,可以包括:提取模块401、确定模块402、第一获取模块403以及检测模块404。
其中,提取模块401,用于对待检测的第一关键性能指标数据进行基线提取,得到第一基线;
确定模块402,用于计算第一基线与预先确定的至少一个类别对应的聚类中心的距离,并根据距离确定第一基线所属的类别;
第一获取模块403,用于获取第一基线所属的类别对应的异常检测模型;
检测模块404,用于根据异常检测模型,对第一关键性能指标数据进行异常检测。
具体的,本申请提供的关键性能指标数据的异常检测装置,以下简称异常检测装置,可以执行前述实施例中的关键性能指标数据的异常检测方法,该异常检测装置可以为电子设备,也可以配置在电子设备中,以对关键性能指标数据进行异常检测,且在保障检测准确性的同时,显著缩减大规模关键性能指标数据的异常检测的成本,提高大规模异常检测效率。
可选的,上述装置,还可以包括:
处理模块,用于对第一关键性能指标数据进行预处理,得到预处理后的第一关键性能指标数据;
相应的,上述提取模块401,具体用于:
对预处理后的第一关键性能指标数据进行滑动平均处理,得到第一基线。
可选的,上述装置,还可以包括:
聚类模块,用于对多个第二关键性能指标数据进行聚类处理,确定至少一个类别;
第二获取模块,用于针对每个类别,根据类别对应的第二关键性能指标数据,获取类别对应的聚类中心,并根据聚类中心对应的第二关键性能指标数据,训练得到类别对应的异常检测模型。
可选的,上述聚类模块,具体用于:
对多个第二关键性能指标数据进行预处理,得到预处理后的多个第二关键性能指标数据;
对预处理后的多个第二关键性能指标数据分别进行基线提取,得到预处理后的各个第二关键性能指标数据分别对应的第二基线;
获取预处理后的各个第二关键性能指标数据分别对应的第二基线之间的基于形状的距离;
根据基于形状的距离,结合基于密度的聚类算法,对预处理后的各个第二关键性能指标数据分别对应的第二基线进行聚类处理,确定至少一个类别。
可选的,上述聚类模块,还具体用于:
针对每个第二基线,获取第二基线与该第二基线的第k邻近的第二基线之间的距离,以得到多个距离,其中,k为每个类别中包含的最少第二基线的数量;
对多个距离进行排序,得到距离曲线;
根据距离曲线,采用启发式的二分搜索算法,获取第二基线对应的至少一个候选密度半径;
将至少一个候选密度半径中,不大于基于形状的距离的最大候选密度半径确定为目标密度半径;
基于目标密度半径,对预处理后的各个第二关键性能指标数据分别对应的第二基线进行聚类处理。
可选的,上述距离为基于形状的距离;
相应的,上述确定模块402,具体用于:
将第一基线与预先确定的至少一个类别对应的聚类中心的基于形状的距离中,最小距离对应的类别确定为第一基线所属的类别。
需要说明的是,前述对关键性能指标数据的异常检测方法实施例的解释说明也适用于该实施例的关键性能指标数据的异常检测装置,此处不再赘述。
本发明实施例的关键性能指标数据的异常检测装置,在获取待检测的第一关键性能指标数据后,对待检测的第一关键性能指标数据进行基线提取,得到第一基线,再计算第一基线与预先确定的至少一个类别对应的聚类中心的距离,并根据距离确定第一基线所属的类别,获取第一基线所属的类别对应的异常检测模型,进而根据异常检测模型,对第一关键性能指标数据进行异常检测,由此,可以在保障检测准确性的同时,显著缩减大规模关键性能指标数据的异常检测的成本,提高大规模异常检测效率。
在示例性实施例中,本申请还提供一种电子设备,包括至少一个处理器以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行前述实施例所述的关键性能指标数据的异常检测方法。
在示例性实施例中,本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行前述实施例所述的关键性能指标数据的异常检测方法。
在示例性实施例中,本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述实施例所述的关键性能指标数据的异常检测方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种关键性能指标数据的异常检测方法,其特征在于,所述方法包括:
对待检测的第一关键性能指标数据进行基线提取,得到第一基线;
计算所述第一基线与预先确定的至少一个类别对应的聚类中心的距离,并根据所述距离确定所述第一基线所属的类别;
获取所述第一基线所属的类别对应的异常检测模型;
根据所述异常检测模型,对所述第一关键性能指标数据进行异常检测。
2.根据权利要求1所述的关键性能指标数据的异常检测方法,其特征在于,所述对待检测的第一关键性能指标数据进行基线提取,得到第一基线之前,还包括:
对所述第一关键性能指标数据进行预处理,得到预处理后的第一关键性能指标数据;
所述对待检测的第一关键性能指标数据进行基线提取,得到第一基线,包括:
对所述预处理后的第一关键性能指标数据进行滑动平均处理,得到第一基线。
3.根据权利要求1所述的关键性能指标数据的异常检测方法,其特征在于,所述计算所述第一基线与预先确定的至少一个类别对应的聚类中心的距离之前,还包括:
对多个第二关键性能指标数据进行聚类处理,确定至少一个类别;
针对每个类别,根据所述类别对应的第二关键性能指标数据,获取所述类别对应的聚类中心,并根据所述聚类中心对应的第二关键性能指标数据,训练得到所述类别对应的异常检测模型。
4.根据权利要求3所述的关键性能指标数据的异常检测方法,其特征在于,所述对多个第二关键性能指标数据进行聚类处理,确定至少一个类别,包括:
对所述多个第二关键性能指标数据进行预处理,得到预处理后的多个第二关键性能指标数据;
对所述预处理后的多个第二关键性能指标数据分别进行基线提取,得到预处理后的各个第二关键性能指标数据分别对应的第二基线;
获取所述预处理后的各个第二关键性能指标数据分别对应的第二基线之间的基于形状的距离;
根据所述基于形状的距离,结合基于密度的聚类算法,对所述预处理后的各个第二关键性能指标数据分别对应的第二基线进行聚类处理,确定至少一个类别。
5.根据权利要求4所述的关键性能指标数据的异常检测方法,其特征在于,所述根据所述基于形状的距离,结合基于密度的聚类算法,对所述预处理后的各个第二关键性能指标数据分别对应的第二基线进行聚类处理,确定至少一个类别,包括:
针对每个第二基线,获取所述第二基线与所述第二基线的第k邻近的第二基线之间的距离,以得到多个距离,其中,k为每个类别中包含的最少第二基线的数量;
对所述多个距离进行排序,得到距离曲线;
根据所述距离曲线,采用启发式的二分搜索算法,获取至少一个候选密度半径;
将所述至少一个候选密度半径中,不大于所述基于形状的距离的最大候选密度半径确定为目标密度半径;
基于所述目标密度半径,对所述预处理后的各个第二关键性能指标数据分别对应的第二基线进行聚类处理。
6.根据权利要求1所述的关键性能指标数据的异常检测方法,其特征在于,所述距离为基于形状的距离;
所述根据所述距离确定所述第一基线所属的类别,包括:
将所述第一基线与预先确定的至少一个类别对应的聚类中心的基于形状的距离中,最小距离对应的类别确定为所述第一基线所属的类别。
7.一种关键性能指标数据的异常检测装置,其特征在于,所述装置包括:
提取模块,用于对待检测的第一关键性能指标数据进行基线提取,得到第一基线;
确定模块,用于计算所述第一基线与预先确定的至少一个类别对应的聚类中心的距离,并根据所述距离确定所述第一基线所属的类别;
第一获取模块,用于获取所述第一基线所属的类别对应的异常检测模型;
检测模块,用于根据所述异常检测模型,对所述第一关键性能指标数据进行异常检测。
8.根据权利要求7所述的装置,其特征在于,还包括:
处理模块,用于对所述第一关键性能指标数据进行预处理,得到预处理后的第一关键性能指标数据;
所述提取模块,具体用于:
对所述预处理后的第一关键性能指标数据进行滑动平均处理,得到第一基线。
9.根据权利要求7所述的装置,其特征在于,所述装置,还包括:
聚类模块,用于对多个第二关键性能指标数据进行聚类处理,确定至少一个类别;
第二获取模块,用于针对每个类别,根据所述类别对应的第二关键性能指标数据,获取所述类别对应的聚类中心,并根据所述聚类中心对应的第二关键性能指标数据,训练得到所述类别对应的异常检测模型。
10.根据权利要求9所述的装置,其特征在于,所述聚类模块,具体用于:
对所述多个第二关键性能指标数据进行预处理,得到预处理后的多个第二关键性能指标数据;
对所述预处理后的多个第二关键性能指标数据分别进行基线提取,得到预处理后的各个第二关键性能指标数据分别对应的第二基线;
获取所述预处理后的各个第二关键性能指标数据分别对应的第二基线之间的基于形状的距离;
根据所述基于形状的距离,结合基于密度的聚类算法,对所述预处理后的各个第二关键性能指标数据分别对应的第二基线进行聚类处理,确定至少一个类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110129500.5A CN112905412A (zh) | 2021-01-29 | 2021-01-29 | 关键性能指标数据的异常检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110129500.5A CN112905412A (zh) | 2021-01-29 | 2021-01-29 | 关键性能指标数据的异常检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112905412A true CN112905412A (zh) | 2021-06-04 |
Family
ID=76121481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110129500.5A Pending CN112905412A (zh) | 2021-01-29 | 2021-01-29 | 关键性能指标数据的异常检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905412A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723452A (zh) * | 2021-07-19 | 2021-11-30 | 山西三友和智慧信息技术股份有限公司 | 一种基于kpi聚类的大规模异常检测系统 |
CN113820333A (zh) * | 2021-09-16 | 2021-12-21 | 无锡先导智能装备股份有限公司 | 电池极片异常检测方法、装置、上位机及检测系统 |
CN113852603A (zh) * | 2021-08-13 | 2021-12-28 | 京东科技信息技术有限公司 | 网络流量的异常检测方法、装置、电子设备和可读介质 |
CN114118201A (zh) * | 2021-09-27 | 2022-03-01 | 南开大学 | 基于主动学习的医疗设备性能指标检测方法和装置 |
CN114298147A (zh) * | 2021-11-23 | 2022-04-08 | 深圳无域科技技术有限公司 | 异常样本的检测方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107528832A (zh) * | 2017-08-04 | 2017-12-29 | 北京中晟信达科技有限公司 | 一种面向系统日志的基线构建与未知异常行为检测方法 |
CN111177505A (zh) * | 2019-12-31 | 2020-05-19 | 中国移动通信集团江苏有限公司 | 指标异常检测模型的训练方法、推荐的方法及装置 |
CN111562996A (zh) * | 2020-04-11 | 2020-08-21 | 北京交通大学 | 一种关键性能指标数据的时序异常检测方法及系统 |
US20200382536A1 (en) * | 2019-05-31 | 2020-12-03 | Gurucul Solutions, Llc | Anomaly detection in cybersecurity and fraud applications |
US20200379868A1 (en) * | 2019-05-31 | 2020-12-03 | Gurucul Solutions, Llc | Anomaly detection using deep learning models |
-
2021
- 2021-01-29 CN CN202110129500.5A patent/CN112905412A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107528832A (zh) * | 2017-08-04 | 2017-12-29 | 北京中晟信达科技有限公司 | 一种面向系统日志的基线构建与未知异常行为检测方法 |
US20200382536A1 (en) * | 2019-05-31 | 2020-12-03 | Gurucul Solutions, Llc | Anomaly detection in cybersecurity and fraud applications |
US20200379868A1 (en) * | 2019-05-31 | 2020-12-03 | Gurucul Solutions, Llc | Anomaly detection using deep learning models |
CN111177505A (zh) * | 2019-12-31 | 2020-05-19 | 中国移动通信集团江苏有限公司 | 指标异常检测模型的训练方法、推荐的方法及装置 |
CN111562996A (zh) * | 2020-04-11 | 2020-08-21 | 北京交通大学 | 一种关键性能指标数据的时序异常检测方法及系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723452A (zh) * | 2021-07-19 | 2021-11-30 | 山西三友和智慧信息技术股份有限公司 | 一种基于kpi聚类的大规模异常检测系统 |
CN113723452B (zh) * | 2021-07-19 | 2024-05-28 | 山西三友和智慧信息技术股份有限公司 | 一种基于kpi聚类的大规模异常检测系统 |
CN113852603A (zh) * | 2021-08-13 | 2021-12-28 | 京东科技信息技术有限公司 | 网络流量的异常检测方法、装置、电子设备和可读介质 |
CN113852603B (zh) * | 2021-08-13 | 2023-11-07 | 京东科技信息技术有限公司 | 网络流量的异常检测方法、装置、电子设备和可读介质 |
CN113820333A (zh) * | 2021-09-16 | 2021-12-21 | 无锡先导智能装备股份有限公司 | 电池极片异常检测方法、装置、上位机及检测系统 |
CN113820333B (zh) * | 2021-09-16 | 2024-06-07 | 无锡先导智能装备股份有限公司 | 电池极片异常检测方法、装置、上位机及检测系统 |
CN114118201A (zh) * | 2021-09-27 | 2022-03-01 | 南开大学 | 基于主动学习的医疗设备性能指标检测方法和装置 |
CN114298147A (zh) * | 2021-11-23 | 2022-04-08 | 深圳无域科技技术有限公司 | 异常样本的检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112905412A (zh) | 关键性能指标数据的异常检测方法及装置 | |
CN111931868B (zh) | 时间序列数据异常检测方法和装置 | |
CN110427996B (zh) | 基于模糊匹配的时间序列异常模式识别方法及装置 | |
CN111709465B (zh) | 大坝安全监测数据粗差智能识别方法 | |
CA2865761C (en) | Time series analytics | |
CN110444011B (zh) | 交通流高峰识别方法、装置、电子设备及存储介质 | |
CN111898443B (zh) | 一种fdm型3d打印机送丝机构流量监测方法 | |
EP1958034B1 (en) | Use of sequential clustering for instance selection in machine condition monitoring | |
CN116485020B (zh) | 一种基于大数据的供应链风险识别预警方法、系统及介质 | |
CN113807396A (zh) | 一种物联网高维数据异常检测方法、系统、装置及介质 | |
CN112926636A (zh) | 牵引变流器柜体温度异常检测方法和装置 | |
CN115378000A (zh) | 基于区间二型模糊聚类分析的配电网运行状态评估方法 | |
CN116610938A (zh) | 曲线模式分段的半导体制造无监督异常检测方法及设备 | |
CN116047164A (zh) | 一种电动汽车绝缘电阻异常的检测方法和检测装置 | |
CN115130343A (zh) | 一种基于ga深度优化机器学习的管道缺陷类型识别方法 | |
Sharma et al. | A semi-supervised generalized vae framework for abnormality detection using one-class classification | |
CN114597886A (zh) | 基于区间二型模糊聚类分析的配电网运行状态评估方法 | |
Jiang et al. | A SVDD and K‐Means Based Early Warning Method for Dual‐Rotor Equipment under Time‐Varying Operating Conditions | |
CN117237911A (zh) | 一种基于图像的动态障碍物快速检测方法及系统 | |
CN117093944A (zh) | 一种时序数据模板自适应的异常模式识别方法与系统 | |
CN114530163B (zh) | 基于密度聚类的采用声音识别设备生命周期的方法及系统 | |
CN110348005B (zh) | 配网设备状态数据处理方法、装置、计算机设备及介质 | |
CN112148605B (zh) | 一种基于谱聚类的半监督学习的软件缺陷预测方法 | |
CN118399715B (zh) | 一种高频数字直流电源的驱动方法 | |
CN115511106B (zh) | 基于时序数据生成训练数据的方法、设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210604 |