CN110083507B - 关键性能指标分类方法及装置 - Google Patents
关键性能指标分类方法及装置 Download PDFInfo
- Publication number
- CN110083507B CN110083507B CN201910316760.6A CN201910316760A CN110083507B CN 110083507 B CN110083507 B CN 110083507B CN 201910316760 A CN201910316760 A CN 201910316760A CN 110083507 B CN110083507 B CN 110083507B
- Authority
- CN
- China
- Prior art keywords
- key performance
- classified
- performance index
- periodic
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 155
- 230000000737 periodic effect Effects 0.000 claims abstract description 141
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000010606 normalization Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 abstract description 17
- 238000004364 calculation method Methods 0.000 abstract description 10
- 230000002159 abnormal effect Effects 0.000 abstract description 8
- 238000004422 calculation algorithm Methods 0.000 description 12
- 239000006185 dispersion Substances 0.000 description 12
- 238000012423 maintenance Methods 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种关键性能指标分类方法及装置。其中,方法包括:根据待分类关键性能指标的数据,获取待分类关键性能指标的周期性特征和离散性特征,将待分类关键性能指标规范化后的周期性特征和离散性特征组成待分类关键性能指标的特征向量;根据预先获取的训练样本集和待分类关键性能指标的特征向量,获取待分类关键性能指标的类型;其中,类型包括周期型、平稳型和混合型。本发明实施例提供的关键性能指标分类方法及装置,根据待分类关键性能指标的周期性特征和离散性特征,将待分类关键性能指标确定为周期型、平稳型或混合型,能更高效地获得更准确的分类结果且能降低进行关键性能指标异常检测时的计算开销。
Description
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种关键性能指标分类方法及装置。
背景技术
智能运维(Artificial Intelligence for IT Operations,AIOps)通过将人工智能技术应用于运维领域,结合大数据分析系统以及机器学习算法从海量的运维数据(系统日志、监控信息、应用信息等)中不断的挖掘学习、提炼和总结规则,为当前一些复杂多样的大型软硬件系统运维提供了新的解决方案。其中关键性能指标(Key PerformanceIndicator,KPI)异常检测是智能运维的一个底层核心技术。当系统的某个关键性能指标呈现出异常(如突增、突降、抖动)时,往往意味着与其相关的应用发生了一些潜在的故障,比如网络故障、服务器故障、配置错误等。
关键性能指标异常检测的目标是监控反映一个实际的大型软硬件系统运行状态的所有的关键性能指标。然而一个实际的大型软硬件系统通常包含众多子模块,每个子模块都有多种不同类型的关键性能指标反映其运行状态,系统的关键性能指标量级可达到百万级。因此,对于一个实际的系统,针对于每个关键性能指标设计异常检测算法,并完成算法的调优和评估的几乎是不可能完成的,关键性能指标异常检测面临着非常大的挑战。尤其是将机器学习与深度学习应用于异常检测时,涉及到的数据集标记、模型选择、参数调优、模型训练的计算开销太大。
为了解决百万级关键性能指标异常检测计算开销过大的问题,现有技术是先将关键性能指标进行分类,即根据关键性能指标的特征,将关键性能指标分成多种不同的类型,针对每类关键性能指标设计异常检测算法,在一定程度上提升了关键性能指标异常检测的效率,缓解了大型软硬件系统关键性能指标异常检测计算开销过大的问题。
对于关键性能指标分类,第一种现有方法是将主体轮廓相似的关键性能指标归为一类,具体通过提取出关键性能指标曲线的主体轮廓,采用基于密度的聚类方法(DBSCAN)完成关键性能指标聚类,聚类后的每一个簇视为一类关键性能指标;第二种现有方法将关键性能指标分成周期型、全局远大于局部波动型及全局近似等于局部波动型三类,通过设计决策树算法,为每一类关键性能指标选择合适的异常检测模型。
上述第一种方法仅根据关键性能指标的主体轮廓的特征进行聚类,可能会得到很多关键性能指标簇,此时对每一个簇设计异常检测算法,尤其采用机器学习或者深度学习的算法时,仍会面临计算开销过大的问题。上述第二种方法在实际判断关键性能指标的过程需要把所有的关键性能指标均通过预先设计的决策树算法进行分类,但该决策树算法中每类关键性能指标的判断标准是基于人工预先设定的,存在着准确性不足的问题。
发明内容
本发明实施例提供一种关键性能指标分类方法及装置,用以解决或者至少部分地解决现有技术中难以兼顾高准确性和减少关键性能指标异常检测时的计算开销的缺陷。
第一方面,本发明实施例提供一种关键性能指标分类方法,包括:
根据待分类关键性能指标的数据,获取所述待分类关键性能指标的周期性特征和离散性特征,将所述待分类关键性能指标规范化后的周期性特征和离散性特征组成所述待分类关键性能指标的特征向量;
根据预先获取的训练样本集和所述待分类关键性能指标的特征向量,获取所述待分类关键性能指标的类型;
其中,类型包括周期型、平稳型和混合型。
第二方面,本发明实施例提供一种关键性能指标分类装置,包括:
特征提取模块,用于根据待分类关键性能指标的数据,获取所述待分类关键性能指标的周期性特征和离散性特征,将所述待分类关键性能指标规范化后的周期性特征和离散性特征组成所述待分类关键性能指标的特征向量;
特征分类模块,用于根据预先获取的训练样本集和所述待分类关键性能指标的特征向量,获取所述待分类关键性能指标的类型;
其中,类型包括周期型、平稳型和混合型。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,执行所述程序时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的关键性能指标分类方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的关键性能指标分类方法的步骤。
本发明实施例提供的关键性能指标分类方法及装置,根据待分类关键性能指标的周期性特征和离散性特征,将待分类关键性能指标确定为周期型、平稳型或混合型,无需人工设定判断标准,能更高效地获得更准确的分类结果且能降低进行关键性能指标异常检测时的计算开销。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例提供的关键性能指标分类方法的流程示意图;
图2为根据本发明实施例提供的关键性能指标分类装置的结构示意图;
图3为根据本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了克服现有技术的上述问题,本发明实施例提供一种关键性能指标分类方法及装置,其发明构思是,结合周期性特征和离散性特征,将关键性能指标的类型限定为三种类型,可以避免得到较多关键性能指标簇,从而能降低关键性能指标异常检测时的计算开销,并且根据待分类关键性能指标的周期性特征和离散性特征确定待分类关键性能指标的类型,能获得更准确的关键性能指标分类。
图1为根据本发明实施例提供的关键性能指标分类方法的流程示意图。如图1所示,方法包括:步骤S101、根据待分类关键性能指标的数据,获取待分类关键性能指标的周期性特征和离散性特征,将待分类关键性能指标规范化后的周期性特征和离散性特征组成待分类关键性能指标的特征向量。
具体地,待分类关键性能指标的数据,是在一定时长内的多个时间点分别采集获得的。可以理解的是,待分类关键性能指标的数据,包括该待分类关键性能指标的多个数值。
待分类关键性能指标的周期性特征,用于反映待分类关键性能指标时间序列中的重复模式。例如,通过对关键性能指标曲线的观察,发现多个关键性能指标的数据所呈现出的周期均为1天。
待分类关键性能指标的离散性特征,用于反映待分类关键性能指标的数据的离散程度。
根据待分类关键性能指标的数据,可以提取出待分类关键性能指标的周期性特征和离散性特征。
由于待分类关键性能指标的周期性特征和离散性特征的量纲及取值范围不同,可能严重影响分类结果的准确性,因此,可以对待分类关键性能指标的周期性特征和离散性特征进行规范化以去除量纲,将待分类关键性能指标规范化后的周期性特征和离散性特征组成待分类关键性能指标的特征向量。
可以根据任一种规范化方法,分别对待分类关键性能指标的周期性特征和待分类关键性能指标的离散性特征进行规范化,将待分类关键性能指标规范化后的周期性特征和离散性特征组成待分类关键性能指标的特征向量。
可以采用的规范化方法包括最小-最大规范化(即离散标准化)、零-均值规范化(z-score标准化)和小数定标规范化。
可以理解的是,待分类关键性能指标的特征向量中,规范化后的周期性特征和离散性特征分别是关键性能指标特征向量中的周期性维度值和离散性维度值。
步骤S102、根据预先获取的训练样本集和待分类关键性能指标的特征向量,获取待分类关键性能指标的类型。
其中,类型包括周期型、平稳型和混合型。
具体地,训练样本集包括多个训练样本,且包括周期型、平稳型和混合型等三种类型的训练样本。对于每一训练样本,该训练样本的类型是预先确定的。
可以根据任一种分类算法,基于训练样本集中各训练样本的特征向量和待分类关键性能指标的特征向量,获取待分类关键性能指标的特征向量对应的关键性能指标的类型,作为待分类关键性能指标的类型。
可以理解的是,对于每一训练样本,该训练样本的特征向量由该训练样本规范化后的周期性特征和离散性特征组成。
可以采用的分类算法包括决策树、人工神经网络、k近邻算法和支持向量机等。
例如,可以基于训练样本集中各训练样本的特征向量和类型,对任一种网络进行训练,获得训练好的分类模型;将待分类关键性能指标的特征向量输入至该训练好的分类模型,输出待分类关键性能指标的类型。
周期型,为表现出强周期性的类型;平稳型,为表现出弱周期性和强离散性的类型;混合型,为表现出弱周期性和弱离散性的类型。
本发明实施例根据待分类关键性能指标的周期性特征和离散性特征,将待分类关键性能指标确定为周期型、平稳型或混合型,无需人工设定判断标准,能更高效地获得更准确的分类结果且能降低进行关键性能指标异常检测时的计算开销。
基于上述各实施例的内容,根据待分类关键性能指标的数据,获取待分类关键性能指标的周期性特征的具体步骤包括:根据预设的周期,从按时序排列的待分类关键性能指标的数据中获取多个数据序列。获取多个数据序列中相邻两个数据序列的Pearson相关系数的均值,作为待分类关键性能指标的周期性特征。
其中,待分类关键性能指标的数据是根据预设的时间间隔采集获得的。
需要说明的是,由于要获得待分类关键性能指标的周期性特征,可以在一定时长内,以预设的时间间隔多次采集待分类关键性能指标的数值,获得待分类关键性能指标的数据。
该预设的时间间隔,可以是若干秒、若干分钟、若干小时或若干天。可以理解的是,该预设的时间间隔远小于上述一定时长。
待分类关键性能指标的数据包括m个数值,按照时序,将待分类关键性能指标的数据表示为序列Y1,...,Yp,...,Yq,...,Ym。可以将预设的时间间隔w(例如1天)作为时间窗口,从序列Y1,...,Yp,...,Yq,...,Ym中不间断地截取出多段数据。将截取出的每一段数据作为一个数据序列,可以得到多个数据序列。多个数据序列表示为X1,X2,...,Xn,其中n表示截取出的数据的总段数,X1,X2,...,Xn分别表示截取出的第1、第2、.......、第n段数据,即分别表示第1、第2、.......、第n个数据序列。若X1=(Yt+1,Yt+2,…,Yt+w),则有X2=(Yt+w+1,Yt+w+2,…,Yt+2w)。其中,1≤t≤m-2w。为了截取到更多数据序列,t取较小的正整数,例如1。
其中,cov表示协方差;σ表示标准差。
如果某个关键性能指标是周期型的,该关键性能指标两个最小周期的数据之间的Pearson相关系数会比较大;反之若关键性能指标是非周期型的或者周期特性不明显,两个相同时长的数据之间的Pearson相关系数会比较小。因此,可以根据Pearson相关系数判断关键性能指标的周期性,Pearson相关系数的均值可以用于表征待分类关键性能指标的周期性。
需要说明的是,周期性特征可以不限于Pearson相关系数的均值,还可以是至少一种其他可以用于描述关键性能指标数据随时间的重复模式的指标。
本发明实施例通过获取多个数据序列中相邻两个数据序列的Pearson相关系数的均值,作为待分类关键性能指标的周期性特征,能更好地表征待分类关键性能指标的周期性,能获得更准确的分类结果。
基于上述各实施例的内容,根据待分类关键性能指标的数据,获取待分类关键性能指标的离散性特征的具体步骤包括:获取待分类关键性能指标的数据的离散系数,作为待分类关键性能指标的离散性特征。
具体地,对于待分类关键性能指标的数据Y1,...,Yp,...,Yq,...,Ym,可以获得待分类关键性能指标的数据的均值μ和标准差σ(μ)。
待分类关键性能指标的数据的均值μ和标准差σ(μ)的计算公式分别为
其中,1≤i≤m,1≤j≤m。
待分类关键性能指标的离散系数cv,为待分类关键性能指标的数据的标准差σ(μ)与均值μ之比。
获取待分类关键性能指标的数据的均值μ和标准差σ(μ)之后,可以根据待分类关键性能指标的数据的均值μ和标准差σ(μ),获取待分类关键性能指标的离散系数cv,作为待分类关键性能指标的离散性特征。
如果某个关键性能指标是周期型的,该关键性能指标的离散系数会比较小;若关键性能指标是平稳型的,该关键性能指标的离散系数会比较大。因此,可以根据离散系数判断关键性能指标的离散性,离散系数可以用于表征关键性能指标的离散性。
需要说明的是,离散性特征可以不限于离散系数,还可以是至少一种其他可以用于描述关键性能指标的数据离散性的指标。
本发明实施例通过获取待分类关键性能指标的数据的离散系数,作为待分类关键性能指标的离散性特征,能更好地表征待分类关键性能指标的离散性,能获得更准确的分类结果。
基于上述各实施例的内容,对待分类关键性能指标的周期性特征和离散性特征进行规范化的具体步骤包括:根据零-均值规范化方法和训练样本集,分别对待分类关键性能指标的周期性特征和离散性特征进行规范化,获取待分类关键性能指标规范化后的周期性特征和离散性特征。
具体地,由于待分类关键性能指标的周期性特征和离散性特征的量纲及取值范围不同,可能严重影响分类结果的准确性。
例如,Pearson相关系数的均值的取值范围位于(0,1),而离散系数的取值范围位于(0,+∞),采用基于向量距离的分类方法时,如果离散系数是一个远大于1的值,则会导致周期性特征几乎不起作用,这将严重影响分类准确性。
对待分类关键性能指标的周期性特征和离散性特征进行规范化,可以采用零-均值规范化方法。
可以理解的是,还需要根据训练样本集中各训练样本的周期性特征的均值和标准差,对每一训练样本的周期性特征进行零-均值规范化;根据训练样本集中各训练样本的离散性特征的均值和标准差,对每一训练样本的离散性特征进行零-均值规范化。
训练样本集中每一训练样本的周期性特征的规范化方法。与上述任一训练样本的离散系数的规范化方法类似,此处不再赘述。
可以根据训练样本集中各训练样本的离散性特征的均值和标准差,对待分类关键性能指标的离散性特征进行零-均值规范化。
对于待分类关键性能指标的离散性特征cv(以离散系数cv为例),待分类关键性能指标规范化后的离散性特征c′v的计算公式为
可以根据训练样本集中各训练样本的周期性特征的均值和标准差,对待分类关键性能指标的周期性特征进行零-均值规范化。
对待分类关键性能指标的周期性特征进行规范化的方法,与上述对待分类关键性能指标的离散性特征进行规范化的方法类似,此处不再赘述。
本发明实施例通过零-均值规范化方法和训练样本集,分别对待分类关键性能指标的周期性特征和离散性特征进行规范化,使得规范化后的周期性特征和离散性特征能更好地表征待分类关键性能指标的周期性和离散性,能获得更准确的分类结果。
基于上述各实施例的内容,获取训练样本集的具体步骤包括:根据关键性能指标的周期性特征和离散性特征,获取若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本;将若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本,组成训练样本集。
具体地,可以根据关键性能指标的周期性特征和离散性特征,采用阈值法预先选择若干个周期型的关键性能指标作为类型为周期型的训练样本、若干个平稳型的关键性能指标作为类型为平稳型的训练样本和若干个混合型的关键性能指标作为类型为混合型的训练样本。
周期型关键性能指标具有强周期性,而典型周期型关键性能指标的周期性特征的值非常大,因此本发明实施例可以选择较大周期性特征的阈值来获得典型周期型关键性能指标,作为类型为周期型的训练样本。
平稳型关键性能指标具有弱周期性和强离散性,典型平稳型关键性能指标的周期性特征的值非常小而离散性特征的值非常大,因此本发明实施例可以通过较大离散性特征的阈值和较小周期性特征的阈值来获取典型平稳型关键性能指标,作为类型为平稳型的训练样本。
对于混合型关键性能指标而言,虽然它具有弱离散性和弱周期性,但其周期性要比平稳型关键性能指标的周期性强一点,本发明实施例可以通过比平稳型关键性能指标大一点的较小周期性特征的阈值和较小离散性特征的阈值来获取典型混合型关键性能指标,作为类型为混合型的训练样本。
获得若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本之后,将上述若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本,组成训练样本集。
本发明实施例通过关键性能指标的周期性特征和离散性特征,可以选择出多个训练样本构成训练样本集,使得基于训练样本集获得的待分类关键性能指标的分类结果更准确。
基于上述各实施例的内容,根据关键性能指标的周期性特征和离散性特征,获取若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本的具体步骤包括:对于任一关键性能指标,若判断获知关键性能指标的周期性特征满足预设的第一条件,则将关键性能指标作为类型为周期型的训练样本;若判断获知关键性能指标的周期性特征和离散性特征满足预设的第二条件,则将关键性能指标作为类型为平稳型的训练样本;若判断获知关键性能指标的周期性特征和离散性特征满足预设的第三条件,则将关键性能指标作为类型为混合型的训练样本;获得若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本。
具体地,第一条件为周期性特征大于周期性特征的第一阈值;第二条件周期性特征为小于周期性特征的第二阈值,且离散性特征大于离散性特征的第一阈值;第三条件为周期性特征大于周期性特征的第二阈值小于周期性特征的第三阈值,且离散性特征小于离散性特征的第一阈值。
其中,周期性特征的第二阈值小于周期性特征的第三阈值,周期性特征的第三阈值小于周期性特征的第一阈值。
例如,分别采用Pearson系数的均值和离散系数cv作为周期性特征和离散性特征,则三种类型关键性能指标的判断条件分别为则该关键性能指标为典型周期型关键性能指标;若则该关键性能指标为典型平稳型关键性能指标;若则该关键性能指标为典型混合型关键性能指标。
判断的步骤如下:对于任一关键性能指标,首先判断该关键性能指标的Pearson系数的均值是否满足若满足,则将该关键性能指标作为类型为周期型的训练样本;若不满足,则继续判断该关键性能指标的Pearson系数的均值和离散系数cv是否满足
若满足,则将该关键性能指标作为类型为混合型的训练样本;若不满足,则可以将该关键性能指标作为待分类的关键性能指标,并可以通过本发明任一实施例提供的方法获取该关键性能指标的分类结果。
对每一关键性能指标进行上面的判断过程之后,即可选择出若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本。
对于内容分发网络(Content Delivery Network,CDN),以该系统的10个关键性能指标为例,其10个关键性能指标的周期性特征和离散性特征如表1所示。
表1
从表1可以看出,用户访问量、平均出速率和出流量为典型周期型关键性能指标,可以作为类型为周期型的训练样本;未命中时首包响应时间、命中异常状态码占比和未命中异常状态码占比为典型平稳型关键性能指标,可以作为类型为平稳型的训练样本;平均入速率、字节命中率和命中时首包响应时间为典型混合型关键性能指标,可以作为类型为混合型的训练样本;入流量不属于上述三种典型的关键性能指标,其类型为待定,可以通过本发明任一实施例提供的方法获取。
本发明实施例根据通过关键性能指标的周期性特征和离散性特征,以及合适的周期性特征的阈值和离散性特征的阈值,选择多个训练样本构成训练样本集,使得基于训练样本集获得的待分类关键性能指标的分类结果更准确。
基于上述各实施例的内容,根据预先获取的训练样本集和待分类关键性能指标的特征向量,获取待分类关键性能指标的类型的具体步骤包括:获取待分类关键性能指标的特征向量与训练样本集中每一训练样本的特征向量之间的距离,确定训练样本集中特征向量与待分类关键性能指标的特征向量距离最近的k个训练样本;获取k个训练样本中每一类型的训练样本的数量,将训练样本的数量最多的类型确定为待分类关键性能指标的类型。
具体地,可以采用k近邻(k-Nearest Neighbor,kNN)算法,根据训练样本集和待分类关键性能指标的特征向量,确定待分类关键性能指标的类型,作为分类结果。k为正整数。
在特征空间中,待分类关键性能指标和各训练样本均可对应二维坐标系中确定的点,其坐标分别为规范化后的周期性特征和离散性特征。
对于训练样本集中的每一训练样本,计算该训练样本的特征向量与待分类关键性能指标的特征向量之间的距离。上述两个向量之间的距离,可以采用欧氏距离,但不限于此,本发明实施例对此不作具体限制。
将每一训练样本的特征向量与待分类关键性能指标的特征向量之间的距离,作为特征空间中各训练样本对应的点与待分类关键性能指标对应的点之间的距离,从而可以确定特征空间中与待分类关键性能指标对应的点最接近的k个训练样本对应的点。
根据上述最接近的k个训练样本对应的点中,可以确定k个训练样本,统计所确定的k个训练样本中各类型出现的次数(或频率),将所确定的k个训练样本中出现的次数最多(或频率最高)的类型,确定为待分类关键性能指标的类型。
例如,k=4,与待分类关键性能指标对应的点最接近的4个点中,类型为周期型的训练样本对应的点有2个,另两种类型的训练样本对应的点均为1个,周期型出现的次数最多,则将分类关键性能指标确定为周期型;k=9,与待分类关键性能指标对应的点最接近的9个点中,类型为平稳型、周期型、混合型的训练样本对应的点分别为4、3、2个,则将分类关键性能指标确定为平稳型。
本发明实施例根据k近邻算法、预先获取的训练样本集和待分类关键性能指标的特征向量,获取待分类关键性能指标的类型,不需要进行训练,能更高效、快速、准确地获得待分类关键性能指标的分类结果。
图2为根据本发明实施例提供的关键性能指标分类装置的结构示意图。基于上述各实施例的内容,如图2所示,该装置包括特征提取模块201和特征分类模块202,其中:
特征提取模块201,用于根据待分类关键性能指标的数据,获取待分类关键性能指标的周期性特征和离散性特征,将待分类关键性能指标规范化后的周期性特征和离散性特征组成待分类关键性能指标的特征向量;
特征分类模块202,用于根据预先获取的训练样本集和待分类关键性能指标的特征向量,获取待分类关键性能指标的类型;
其中,类型包括周期型、平稳型和混合型。
具体地,特征提取模块201根据待分类关键性能指标的数据,可以提取出待分类关键性能指标的周期性特征和离散性特征;可以根据任一种规范化方法,分别对待分类关键性能指标的周期性特征和待分类关键性能指标的离散性特征进行规范化;将待分类关键性能指标规范化后的周期性特征和离散性特征组成待分类关键性能指标的特征向量。
特征分类模块202可以根据任一种分类算法,基于训练样本集中各训练样本的特征向量和待分类关键性能指标的特征向量,获取待分类关键性能指标的特征向量对应的关键性能指标的类型,作为待分类关键性能指标的类型。
本发明实施例提供的关键性能指标分类装置,用于执行本发明上述各实施例提供的关键性能指标分类方法,该关键性能指标分类装置包括的各模块实现相应功能的具体方法和流程详见上述关键性能指标分类方法的实施例,此处不再赘述。
该关键性能指标分类装置用于前述各实施例的关键性能指标分类方法。因此,在前述各实施例中的关键性能指标分类方法中的描述和定义,可以用于本发明实施例中各执行模块的理解。
本发明实施例根据待分类关键性能指标的周期性特征和离散性特征,将待分类关键性能指标确定为周期型、平稳型或混合型,无需人工设定判断标准,能更高效地获得更准确的分类结果且能降低进行关键性能指标异常检测时的计算开销。
图3为根据本发明实施例提供的电子设备的结构框图。基于上述实施例的内容,如图3所示,该电子设备可以包括:处理器(processor)301、存储器(memory)302和总线303;其中,处理器301和存储器302通过总线303完成相互间的通信;处理器301用于调用存储在存储器302中并可在处理器301上运行的计算机程序指令,以执行上述各方法实施例所提供的关键性能指标分类方法,例如包括:根据待分类关键性能指标的数据,获取待分类关键性能指标的周期性特征和离散性特征,将待分类关键性能指标规范化后的周期性特征和离散性特征组成待分类关键性能指标的特征向量;根据预先获取的训练样本集和待分类关键性能指标的特征向量,获取待分类关键性能指标的类型;其中,类型包括周期型、平稳型和混合型。
本发明另一实施例公开一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的关键性能指标分类方法,例如包括:根据待分类关键性能指标的数据,获取待分类关键性能指标的周期性特征和离散性特征,将待分类关键性能指标规范化后的周期性特征和离散性特征组成待分类关键性能指标的特征向量;根据预先获取的训练样本集和待分类关键性能指标的特征向量,获取待分类关键性能指标的类型;其中,类型包括周期型、平稳型和混合型。
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明另一实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的关键性能指标分类方法,例如包括:根据待分类关键性能指标的数据,获取待分类关键性能指标的周期性特征和离散性特征,将待分类关键性能指标规范化后的周期性特征和离散性特征组成待分类关键性能指标的特征向量;根据预先获取的训练样本集和待分类关键性能指标的特征向量,获取待分类关键性能指标的类型;其中,类型包括周期型、平稳型和混合型。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行上述各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种关键性能指标分类方法,其特征在于,包括:
根据待分类关键性能指标的数据,获取所述待分类关键性能指标的周期性特征和离散性特征,将所述待分类关键性能指标规范化后的周期性特征和离散性特征组成所述待分类关键性能指标的特征向量;
根据预先获取的训练样本集和所述待分类关键性能指标的特征向量,获取所述待分类关键性能指标的类型;
其中,类型包括周期型、平稳型和混合型;
获取所述训练样本集的具体步骤包括:
根据关键性能指标的周期性特征和离散性特征,获取若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本;
将所述若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本,组成所述训练样本集;
根据关键性能指标的周期性特征和离散性特征,获取若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本的具体步骤包括:
对于任一关键性能指标,若判断获知所述关键性能指标的周期性特征满足预设的第一条件,则将所述关键性能指标作为类型为周期型的训练样本;若判断获知所述关键性能指标的周期性特征和离散性特征满足预设的第二条件,则将所述关键性能指标作为类型为平稳型的训练样本;若判断获知所述关键性能指标的周期性特征和离散性特征满足预设的第三条件,则将所述关键性能指标作为类型为混合型的训练样本;获得所述若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本;
根据待分类关键性能指标的数据,获取所述待分类关键性能指标的周期性特征的具体步骤包括:
根据预设的周期,从按时序排列的所述待分类关键性能指标的数据中获取多个数据序列;
获取所述多个数据序列中相邻两个数据序列的Pearson相关系数的均值,作为所述待分类关键性能指标的周期性特征;
根据待分类关键性能指标的数据,获取所述待分类关键性能指标的离散性特征的具体步骤包括:
获取所述待分类关键性能指标的数据的离散系数,作为所述待分类关键性能指标的离散性特征。
2.根据权利要求1所述的关键性能指标分类方法,其特征在于,对所述待分类关键性能指标的周期性特征和离散性特征进行规范化的具体步骤包括:
根据零-均值规范化方法和所述训练样本集,分别对所述待分类关键性能指标的周期性特征和离散性特征进行规范化,获取所述待分类关键性能指标规范化后的周期性特征和离散性特征。
3.根据权利要求1至2任一所述的关键性能指标分类方法,其特征在于,所述根据预先获取的训练样本集和所述待分类关键性能指标的特征向量,获取所述待分类关键性能指标的类型的具体步骤包括:
获取所述待分类关键性能指标的特征向量与所述训练样本集中每一训练样本的特征向量之间的距离,确定所述训练样本集中特征向量与所述待分类关键性能指标的特征向量距离最近的k个训练样本;
获取所述k个训练样本中每一类型的训练样本的数量,将训练样本的数量最多的类型确定为所述待分类关键性能指标的类型。
4.一种关键性能指标分类装置,其特征在于,包括:
特征提取模块,用于根据待分类关键性能指标的数据,获取所述待分类关键性能指标的周期性特征和离散性特征,将所述待分类关键性能指标规范化后的周期性特征和离散性特征组成所述待分类关键性能指标的特征向量;
特征分类模块,用于根据预先获取的训练样本集和所述待分类关键性能指标的特征向量,获取所述待分类关键性能指标的类型;
样本获取模块,用于根据关键性能指标的周期性特征和离散性特征,获取若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本;将所述若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本,组成所述训练样本集;
其中,类型包括周期型、平稳型和混合型;
根据关键性能指标的周期性特征和离散性特征,获取若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本的具体步骤包括:
对于任一关键性能指标,若判断获知所述关键性能指标的周期性特征满足预设的第一条件,则将所述关键性能指标作为类型为周期型的训练样本;若判断获知所述关键性能指标的周期性特征和离散性特征满足预设的第二条件,则将所述关键性能指标作为类型为平稳型的训练样本;若判断获知所述关键性能指标的周期性特征和离散性特征满足预设的第三条件,则将所述关键性能指标作为类型为混合型的训练样本;获得所述若干个类型为周期型的训练样本、若干个类型为平稳型的训练样本和若干个类型为混合型的训练样本;
根据待分类关键性能指标的数据,获取所述待分类关键性能指标的周期性特征的具体步骤包括:
根据预设的周期,从按时序排列的所述待分类关键性能指标的数据中获取多个数据序列;
获取所述多个数据序列中相邻两个数据序列的Pearson相关系数的均值,作为所述待分类关键性能指标的周期性特征;
根据待分类关键性能指标的数据,获取所述待分类关键性能指标的离散性特征的具体步骤包括:
获取所述待分类关键性能指标的数据的离散系数,作为所述待分类关键性能指标的离散性特征。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述的关键性能指标分类方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至3任一项所述的关键性能指标分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910316760.6A CN110083507B (zh) | 2019-04-19 | 2019-04-19 | 关键性能指标分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910316760.6A CN110083507B (zh) | 2019-04-19 | 2019-04-19 | 关键性能指标分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110083507A CN110083507A (zh) | 2019-08-02 |
CN110083507B true CN110083507B (zh) | 2020-11-24 |
Family
ID=67415732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910316760.6A Expired - Fee Related CN110083507B (zh) | 2019-04-19 | 2019-04-19 | 关键性能指标分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110083507B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110750429A (zh) * | 2019-09-06 | 2020-02-04 | 平安科技(深圳)有限公司 | 运维管理系统的异常检测方法、装置、设备及存储介质 |
CN110995508B (zh) * | 2019-12-23 | 2022-11-11 | 中国人民解放军国防科技大学 | 基于kpi突变的自适应无监督在线网络异常检测方法 |
CN112526905B (zh) * | 2020-11-27 | 2022-09-27 | 杭州萤石软件有限公司 | 一种针对指标异常的处理方法及系统 |
CN113450000B (zh) * | 2021-07-01 | 2024-06-14 | 中国工商银行股份有限公司 | 一种指标数据异常检测方法和装置 |
CN114528190B (zh) * | 2022-04-21 | 2022-07-01 | 云账户技术(天津)有限公司 | 单指标异常的检测方法、装置、电子设备及可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9665460B2 (en) * | 2015-05-26 | 2017-05-30 | Microsoft Technology Licensing, Llc | Detection of abnormal resource usage in a data center |
CN105323111B (zh) * | 2015-11-17 | 2018-08-10 | 南京南瑞集团公司 | 一种运维自动化系统及方法 |
CN106126391A (zh) * | 2016-06-28 | 2016-11-16 | 北京百度网讯科技有限公司 | 系统监控方法和装置 |
CN106600115A (zh) * | 2016-11-28 | 2017-04-26 | 湖北华中电力科技开发有限责任公司 | 一种企业信息系统运维智能分析方法 |
CN106533809A (zh) * | 2016-12-28 | 2017-03-22 | 北京奇艺世纪科技有限公司 | 一种服务器的运维方法及运维客户端 |
CN108197011B (zh) * | 2018-01-29 | 2021-06-01 | 上海洞识信息科技有限公司 | 一种基于人工智能大数据平台的单指标预测和预警方法 |
-
2019
- 2019-04-19 CN CN201910316760.6A patent/CN110083507B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN110083507A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083507B (zh) | 关键性能指标分类方法及装置 | |
CN109902721B (zh) | 异常点检测模型验证方法、装置、计算机设备及存储介质 | |
CN111262722B (zh) | 一种用于工业控制系统网络的安全监测方法 | |
CN112258093B (zh) | 风险等级的数据处理方法及装置、存储介质、电子设备 | |
CN111614690B (zh) | 一种异常行为检测方法及装置 | |
CN111309565B (zh) | 告警处理方法、装置、电子设备以及计算机可读存储介质 | |
CN111310139B (zh) | 行为数据识别方法、装置及存储介质 | |
EP1958034B1 (en) | Use of sequential clustering for instance selection in machine condition monitoring | |
CN111444060A (zh) | 异常检测模型训练方法、异常检测方法及相关装置 | |
CN113125903A (zh) | 线损异常检测方法、装置、设备及计算机可读存储介质 | |
CN117407880A (zh) | 基于合成生物安全数据库的风险评估平台 | |
CN110097120B (zh) | 网络流量数据分类方法、设备及计算机存储介质 | |
CN115222303A (zh) | 基于大数据的行业风险数据分析方法、系统及存储介质 | |
CN110598959A (zh) | 一种资产风险评估方法、装置、电子设备及存储介质 | |
CN112994960A (zh) | 业务数据异常检测方法、装置及计算设备 | |
CN112508316A (zh) | 实时异常检测系统中的自适应异常判定方法和装置 | |
CN113705714A (zh) | 基于行为序列的配电物联网设备异常行为检测方法及装置 | |
CN115705413A (zh) | 异常日志的确定方法及装置 | |
CN115514581B (zh) | 一种用于工业互联网数据安全平台的数据分析方法及设备 | |
CN116545867A (zh) | 一种监控通信网络网元性能指标异常的方法及装置 | |
CN113791897B (zh) | 一种农信系统的服务器基线检测报告的展现方法及系统 | |
CN110855650B (zh) | 一种非法文件上传检测方法 | |
CN114708117A (zh) | 融合先验知识的用电安全检查评级方法、装置及设备 | |
CN114024912A (zh) | 一种基于改造chameleon算法的网络流量应用识别分析方法及系统 | |
CN112308294A (zh) | 违约概率预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201124 |