CN113723452B

CN113723452B - 一种基于kpi聚类的大规模异常检测系统

Info

Publication number: CN113723452B
Application number: CN202110821875.8A
Authority: CN
Inventors: 王小华; 潘晓光; 焦璐璐; 张娜; 宋晓晨
Original assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Current assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2024-05-28
Anticipated expiration: 2041-07-19
Also published as: CN113723452A

Abstract

本发明属于KPI异常检测技术领域，具体涉及一种基于KPI聚类的大规模异常检测系统，包括如下模块：预处理模块、基线提取模块、聚类模块、分类模块、日志模块，所述预处理模块使用线性插值的方法，来根据KPI相邻的数据点来填充KPI缺失的百分比；所述基线提取模块移除可能是异常的极端值；所述聚类模块使用基于密度的聚类方法在基于形状相似性的抽样KPI基线上执行基于密度的聚类；所述分类模块计算新数据与之前每一个质心的距离，进行距离的排序，将最小的那一类确定为所分类别，且将最小距离大于某个阈值时这条新的时间序列曲线确定为不属于之前的任何一个类别；所述日志模块记录不属于任何一个类别的曲线。

Description

一种基于KPI聚类的大规模异常检测系统

技术领域

本发明属于KPI异常检测技术领域，具体涉及一种基于KPI聚类的大规模异常检测系统。

背景技术

目前基于互联网的服务公司监控其应用程序和系统的数千到数百万个KPI，以保持其服务的可靠性。KPI上的异常通常表明相关应用程序的潜在故障，如服务器故障、网络过载、外部攻击等。因此，异常检测技术被广泛应用于及时检测异常事件，以减小异常事件造成的损失。

存在问题或缺陷的原因：大多数异常检测算法假设每个KPI都需要一个单独的模型。因此，由于模型选择、参数调整、模型训练或异常标记的巨大开销，在数千到数百万KPI上进行大规模异常检测非常具有挑战性。此外，在做时间序列聚类的时候，有着不少的挑战。例如节假日效应，业务的变化将会随着时间的推移而造成时间序列形状的变化；数据采集处理时的噪声；系统或人为原因产生的左右偏移；振幅、基线的变化等等。

发明内容

针对上述方法每个KPI都需要一个单独的模型、节假日效应等问题，本发明提供了一种显著降低建模成本且高效率的系统。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于KPI聚类的大规模异常检测系统，包括下列模块：预处理模块、基线提取模块、聚类模块、分类模块、日志模块，各模块之间通过数据传输连接，所述预处理模块使用线性插值的方法，来根据KPI相邻的数据点来填充KPI缺失的百分比；所述基线提取模块移除可能是异常的极端值；所述聚类模块使用基于密度的聚类方法在基于形状相似性的抽样KPI基线上执行基于密度的聚类；所述分类模块计算新数据与之前每一个质心的距离，进行距离的排序，将最小的那一类确定为所分类别，且将最小距离大于某个阈值时这条新的时间序列曲线确定为不属于之前的任何一个类别；所述日志模块记录不属于任何一个类别的曲线。

所述预处理模块中，首先进行标准化，将每个KPI归一化为均值和单位方差为零，删除与均值偏差最大的前5％数据，然后使用线性插值来填充它们，移除极端异常值，并用它们的临近正常观测值替代。

所述基线提取模块中，将曲线分为基线和残差两部分，对于一个KPI，设置时间为T，维持一个长度为W的滑动窗口，步长设置为1，对于每个点xt，对应的基线上的点记为xt*，求出xt和xt*之间的差异，得到残差，确定基线B和残差R计算为：基线提取后再次标准化，获得标准化基线，再将此基线作为聚类算法的输入。

所述聚类模块中，选取DBSCAN聚类算法，在密集区域找到一些核，然后通过相似性的传递性拓展核以形成团簇。

所述聚类模块中，考虑两条时间序列X＝[x1,x2,…,xm]和Y＝[y1,y2,…,ym]的偏移量s，计算它们之间的内积：

通过偏移量s计算出X和Y的最大相似度，然后通过内积计算出两条时间序列X和Y之间的距离然后将计算出的距离用作DBSCAN聚类方法，聚类得到多个聚类簇，对应不同类别。

所述分类模块中，将一条新的KPI数据放入预处理模块和基线提取模块，通过线性插值，基线提取，基线标准化，变成可计算的数据形式。

所述分类模块中，将处理好的新数据放入分类模块，在分类模块中设置一个阈值，分类模块计算聚类簇中的每个质心与新数据之间的距离，然后按照从小到大的顺序进行排序，分类模块认为最小的距离所属的簇就是新数据应该被归为的类别，且将如最小距离大于分类模块中设置的阈值的数据存入日志模块，不认为其属于任何一个类别。

本发明与现有技术相比，具有的有益效果是：

本方案通过聚类KPI来解决异常检测问题，尽管存在噪音、振幅的变化，但是这些KPI的基本形状相似。这种聚类在KPI分析和大规模异常检测中，可以分析每个集群的KPI，为每个集群创建异常检测模型，显著降低建模成本，提高效率。

附图说明

图1本发明的系统流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于KPI聚类的大规模异常检测系统，如图1所示，包括下列模块：预处理模块、基线提取模块、聚类模块、分类模块、日志模块，各模块之间通过数据传输连接，所述预处理模块使用线性插值的方法，来根据KPI相邻的数据点来填充KPI缺失的百分比；所述基线提取模块移除可能是异常的极端值；所述聚类模块使用基于密度的聚类方法在基于形状相似性的抽样KPI基线上执行基于密度的聚类；所述分类模块计算新数据与之前每一个质心的距离，进行距离的排序，将最小的那一类确定为所分类别，且将最小距离大于某个阈值时这条新的时间序列曲线确定为不属于之前的任何一个类别；所述日志模块记录不属于任何一个类别的曲线。

进一步，预处理模块中，首先数据集进入预处理模块，预处理模块通过线性插值来根据它们相邻的数据点填充它们。首先进行标准化，将每个KPI归一化为均值和单位方差为零，删除与均值偏差最大的前5％数据，然后使用线性插值来填充它们，移除极端异常值，并用它们的临近正常观测值替代。

进一步，基线提取模块中，预处理好的数据进入基线提取模块，由于噪声和异常会显著改变KPI曲线的形状，因此需要一种简单但有效的方法来移除哪些可能是异常的极端值，这样便可以提取一个粗略的极限来表示KPI的底层结构。KPI曲线可以被视为带有许多随机噪声的平滑基线。基线提取的方法是，将曲线分为基线和残差两部分，对于一个KPI，设置时间为T，维持一个长度为W的滑动窗口，步长设置为1，对于每个点xt，对应的基线上的点记为xt*，求出xt和xt*之间的差异，得到残差，确定基线B和残差R计算为：基线提取后再次标准化，获得标准化基线，再将此基线作为聚类算法的输入。

进一步，聚类模块中，由于KPI是从各个应用程序和系统中收集的，因此难以确定集群的数量。选取DBSCAN聚类算法，在密集区域找到一些核，然后通过相似性的传递性拓展核以形成团簇。

进一步，聚类模块中，聚类计算方法为：由于存在左右平移问题，考虑两条时间序列X＝[x1,x2,…,xm]和Y＝[y1,y2,…,ym]的偏移量s，计算它们之间的内积：通过偏移量s计算出X和Y的最大相似度，然后通过内积计算出两条时间序列X和Y之间的距离然后将计算出的距离用作DBSCAN聚类方法，聚类得到多个聚类簇，对应不同类别。

进一步，分类模块中，将一条新的KPI数据放入预处理模块和基线提取模块，通过线性插值，基线提取，基线标准化，变成可计算的数据形式。

进一步，分类模块中，将处理好的新数据放入分类模块，在分类模块中设置一个阈值，分类模块计算聚类簇中的每个质心与新数据之间的距离，然后按照从小到大的顺序进行排序，分类模块认为最小的距离所属的簇就是新数据应该被归为的类别，且将如最小距离大于分类模块中设置的阈值的数据存入日志模块，不认为其属于任何一个类别。

进一步，日志模块中，日志模块存入的数据不被分类到任何一个类别中，可人为查看日志模块中的数据决定其属于哪种类别，是否为异常。日志模块中的数据可扩充时序数据集，便于更新模型。

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.一种基于KPI聚类的大规模异常检测系统，其特征在于：包括下列模块：预处理模块、基线提取模块、聚类模块、分类模块、日志模块，各模块之间通过数据传输连接，所述预处理模块使用线性插值的方法，来根据KPI相邻的数据点来填充KPI缺失的百分比；所述基线提取模块移除可能是异常的极端值；所述聚类模块使用基于密度的聚类方法在基于形状相似性的抽样KPI基线上执行基于密度的聚类；所述分类模块计算新数据与之前每一个质心的距离，进行距离的排序，将最小的那一类确定为所分类别，且将最小距离大于某个阈值时这条新的时间序列曲线确定为不属于之前的任何一个类别；所述日志模块记录不属于任何一个类别的曲线；

所述预处理模块中，首先进行标准化，将每个KPI归一化为均值和单位方差为零，删除与均值偏差最大的前5％数据，然后使用线性插值来填充它们，移除极端异常值，并用它们的临近正常观测值替代；

所述基线提取模块中，将曲线分为基线和残差两部分，对于一个KPI，设置时间为T，维持一个长度为W的滑动窗口，步长设置为1，对于每个点xt，对应的基线上的点记为xt*，求出xt和xt*之间的差异，得到残差，确定基线B和残差R计算为：基线提取后再次标准化，获得标准化基线，再将此基线作为聚类算法的输入；

所述聚类模块中，选取DBSCAN聚类算法，在密集区域找到一些核，然后通过相似性的传递性拓展核以形成团簇；

所述聚类模块中，考虑两条时间序列X＝[x1,x2,…,xm]和Y＝[y1,y2,…,ym]的偏移量s，计算它们之间的内积：通过偏移量s计算出X和Y的最大相似度，然后通过内积计算出两条时间序列X和Y之间的距离然后将计算出的距离用作DBSCAN聚类方法，聚类得到多个聚类簇，对应不同类别；

所述分类模块中，将一条新的KPI数据放入预处理模块和基线提取模块，通过线性插值，基线提取，基线标准化，变成可计算的数据形式；