CN110391936B

CN110391936B - 一种基于时序性告警的聚类方法

Info

Publication number: CN110391936B
Application number: CN201910677470.4A
Authority: CN
Inventors: 熊荫乔; 陈岸; 邓甜甜; 何贤浩
Original assignee: Changsha University
Current assignee: Changsha University
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2022-03-01
Anticipated expiration: 2039-07-25
Also published as: CN110391936A

Abstract

本发明公开了一种基于时序性告警的聚类方法，主要解决现有技术中云环境下大规模集群设备所产生海量时序性告警数据的聚类问题。本发明利用设定时间窗口内两两告警之间时间差的关系，构造告警之间新的关系矩阵，再利用K‑means算法对关系矩阵中的列向量进行聚类，得到告警的聚类结果。通过上述方案，本发明达到了运维人员通常利用这些告警数据的聚类结果来准确定位、排查、修复故障和错误，维持系统的正常运行的目的，在云服务提供商运维领域具有很高的实用价值和推广价值。

Description

一种基于时序性告警的聚类方法

技术领域

本发明涉及云计算技术领域，尤其是一种基于时序性告警的聚类方法。

背景技术

随着云计算的快速发展，使得云环境中的设备越来越多，设备之间的拓扑结构也越来越复杂，对设备的故障诊断和排查工作的难度也随之提高。例如：一个告警的发生往往导致一系列告警的出现，不断迭代导致系统出现海量告警，且不同原因产生的告警交织在一起，这些告警表面看来杂乱无章，使得维护人员在分析某一告警时，会受到其它大量与之无关的告警信息影响，从而无法准确地进行故障的定位、排查与修复。

在大型网站在恢复故障过程中，故障的定位和排查大约占据了总时间的93％。由此可见，维护人员必须对网络设备产生的告警信息进行分析并对告警进行有效的聚类，才能实现高效的运维服务。云规模的扩大以及用户需求的增加，致使告警排查工作需要满足时效性，处理得不及时与不恰当，会直接影响用户体验并给企业带来无法估量的损失。

目前，现有技术中已经有许多方式对告警数据进行挖掘。在1993年ACM SIGMOD会议上提出了一种基于关联规则挖掘的Apriori算法，该算法在给定置信度的条件下，找到满足支持度限制下的所有关联规则。Han J,Pei J,YinY提出了一种频繁模式挖掘，基于FP-Tree的数据结构使得数据能够压缩成树形结构并减少访问数据库的次数。HatonenK.Knowledge采用的是基于WINEPI算法的序列模式挖掘，该算法利用滑动窗口，挖掘告警模式，计算频繁情节，最后从情节中找到关联规则。Ning Ping，CuiYun负责分析入侵警报的技术和工具则抽象语义关联关系，聚合相似的告警，进而判断多个告警是否由同一原因产生。上述方法都是采用了基于关联规则、频繁模式的挖掘，这些挖掘算法依赖于高支持度、高置信度条件，并未考虑到在时间窗口内，各类告警发生的时间上存在新的关系。而Ning Ping，CuiYun负责分析入侵警报的技术和工具的方法需要预先定义好语义关系库，不具备时效性。

因此，急需要提出一种简化运维过程的复杂性、以缩小真实故障的排查范围的新型的聚类挖掘方法。

发明内容

针对上述问题，本发明的目的在于提供一种基于时序性告警的聚类方法，本发明采用的技术方案如下：

一种基于时序性告警的聚类方法，包括以下步骤：

步骤S1，采集原始时序告警数据，解析后存储在告警数据库内；

步骤S2，对告警数据库内的告警数据依据不同的站点进行分类；

步骤S3，利用key-value的映射关系获取对应的告警数据集；

步骤S4，预设定义告警信息和告警聚类；

步骤S5，定义告警间的关系，求得告警数据集内i类的告警与其自身为中心的时间窗口内j类告警时间差的绝对值之和，并标记为Δ_ij；所述i、j均为大于等于1的自然数；

步骤S6，利用Δ_ij构建构成告警种类m的Δ_m×m矩阵；所述m为大于等于1的自然数；

步骤S7，求得Δ_m×m矩阵的列向量间的协方差，并形成协方差矩阵；

步骤S8，预设定义i类的告警与j类告警之间的距离；

步骤S9，建立聚类分析模型，并获得告警聚类输出结果。

进一步地，所述步骤S1中，采集和存储原始时序告警数据，解析后存储在告警数据库内，包括以下步骤：

步骤S11，利用EMS设备探测任一云服务的设备和线路的故障，并产生告警信息；

步骤S12，EMS设备采用Syslog或SNMP方式发送告警信息到故障管理FM平台探针，并解析获得告警信息对应的告警名、告警发生时间、告警发生地点和告警摘要；

步骤S13，将所述告警信息集中存储在告警数据库中。

进一步地，所述步骤S2中，对告警数据库内的告警数据依据不同的站点进行分类，包括以下步骤：

步骤S21，以每个站点的名称site作为key，获取不同站点内所有的告警信息，并组成一个告警数据集＜D₁,D₂,...,D_n＞；

步骤S22，根据告警数据集＜D₁,D₂,...,D_n＞形成key-value的映射关系，其表达式为：

H_site＝＜D₁,D₂,...,D_n＞ (1)。

进一步地，所述步骤S4中，预设定义告警信息和告警聚类，包括：预设定义的告警信息包括定义告警数据、告警数据D、告警聚类Ω、时间窗口W；

预设定义告警数据D为＜alarm,site,T＞；所述alarm表示告警类型，所述site表示告警的站点；所述T表示发生告警的时间；

预设定义的告警聚类Ω＝{Ω₁,Ω₂，...Ω_k}；所述k为大于等于1的自然数；所述Ω_k表示告警聚类Ω内的第k簇告警数据；所述告警聚类Ω内第i告警的告警数据为{alarm_i1,alarm_i2....alarm_ik}；

预设定义的告警数据＜alarm,site,T＞的时间窗口W的表达式为：

W＝＜T_win,＜alarm',site,T＞＞

所述alarm'表示发生告警的时间T的中心，T_win表示时间跨度的时间区间；

所述告警数据＜alarm,site,T＞的告警起始的时间点为T_start；所述告警数据＜alarm,site,T＞的告警结束时间点为T_end；所述告警数据＜alarm,site,T＞的时间窗为α；告警数据＜alarm,site,T＞对应的大小为n。

进一步地，所述步骤S6中，利用Δ_ij构建构成告警种类m的Δ_m×m矩阵，其表达式为：

进一步地，所述步骤S7中，求得Δ_m×m矩阵的列向量间的协方差，并形成协方差矩阵，包括以下步骤：

步骤S71，根据公式(2)求得Δ_m×m矩阵的列向量间的协方差，并形成协方差矩阵σ，其表达式为：

其中，c₁,...c_m表示Δ_m×m矩阵中的m列向量；

步骤S72，任一协方差的表达式为：

其中，X_i表示列向量X中第i维度的值，

表示X列向量内所有维度值的平均值，Y_i表示列向量Y中第i维度的值，

表示Y列向量内所有维度值的平均值。

进一步地，所述步骤S8中，预设定义i类的告警与j类告警之间的距离，包括以下步骤：

根据公式(3)求得Δ_m×m矩阵中第i个列向量与第j个列向量的相关程度σ_ij；并利用相关程度σ_ij求得距离d；其表达式为：

d＝|σ_i1-σ_j1|+...+|σ_im-σ_jm|

所述σ_i1表示协方差矩阵σ中的第i行第1列的元素，σ_j1表示协方差矩阵σ中的第j行第1列的元素，σ_im表示协方差矩阵σ中的第i行第m列的元素，σ_jm表示协方差矩阵σ中的第j行第m列的元素。

进一步地，所述步骤S9中，建立聚类分析模型，包括以下步骤：

步骤S91，将协方差矩阵σ中m'个非零列向量划分为样本点，并将任一零的向量划分为一簇；由所述m'个非零列向量组成一个给定样本集D＝{x₁,...,x_m'}；

步骤S92，采用K-Means算法对所述给定样本集D进行聚类，以获得聚类结果C＝{C₁,,...,C_K}，所述K为小于等于m'的自然数；

步骤S93，求得C＝{C₁,,...,C_K}的最小化平方误差，其表达式为：

其中，所述x表示C_i中的一个向量，所述μ_i表示簇C_i的均值向量。

更进一步地，所述步骤S92中，还包括求得最佳的聚类数K

步骤S921，建立构造的代价函数，其表达式为：

其中，所述μ_i'表示第i簇的中心，μ表示所有样本点的中心，p表示簇中的点；

步骤S922，根据公式(7)求得最佳的聚类数K，其表达式为：

进一步地，所述步骤S9中，获得告警聚类输出结果，包括以下步骤：

利用R(site,k)＝{C₁,C₂,...,C_k}记录站点site所划分的k个簇集合，查询F(site,k)最小的k以及对应的R(site,k)便可获得站点最佳的聚类数以及聚类结果。

与现有技术相比，本发明具有以下有益效果：

(1)本发明通过对告警数据库内的告警数据依据不同的站点进行分类，只考虑站点内告警之间的关系，不需要考虑站点之间的关系，当收集到告警后，需要进行依据不同的站点进行分类，为输出直观告警聚类提供基础。另外，本发明利用key-value的映射关系获取对应的告警数据集，以便于快速的获取某一站点下的所有告警信息。

(2)本发明预设定义告警信息和告警聚类，其作为算法输入所设计的数据结构，主要为及后续构造告警之间的关系和矩阵提供帮助。根据工程经验和K-means算法的使用，首先定义好聚类结果数据结构，以便算法的完成。

(3)本发明通过定义告警间的关系，并求得Δ_ij，该矩阵是依据时间窗口的定义计算得来，在时序上可以看出不同类型告警之间的直接时差关系。另外，本发明利用Δ_ij构建构成告警种类m的Δ_m×m矩阵，求得Δ_m×m矩阵的列向量间的协方差，并形成协方差矩阵，Δ_m×m矩阵中的每一列都描述了该列所对应的告警类型和其他所以告警类型之间的时差关系，因此，体现出了该类告警和其他类告警之间的总体关系，而协方差则可体现出Δ_m×m矩阵中列之间的关系，如果某类告警和其他所有类告警之间的时差关系和另某类告警与其他所有类告警之间的关系相似，则可在协方差矩阵中体现出来，而这两类告警则不然存在关系。

(4)本发明通过预设定义i类的告警与j类告警之间的距离，为协方差矩阵内列向量之间的欧几里得距离，我们可以利用该距离判断两个告警类之间的关联程度，并用在后续的K-means算法中。

(5)本发明建立聚类分析模型，并获得告警聚类输出结果，云计算环境下，设备种类繁多，数量较大，因此产生的告警类型多，数量大，往往有些告警体现的仅仅是整体系统深层次故障的一种表象，因此在时序上将告警类做一个聚类划分，聚合在一起的告警类则可作为同一种故障现象对待，这将使得运维人员分析故障定位故障根源的效率大大提高。

综上所述，本发明具有逻辑简便、故障查找效率高等优点，在云计算技术领域具有很高的实用价值和推广价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需使用的附图作简单介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对保护范围的限定，对于本领域技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的框架图。

图2为本发明的时间差绝对值之和Δ_ij的计算示意图。

图3为本发明的告警数据示例图。

图4为本发明的站点分类流程图。

图5为本发明的数据预处理流程图。

图6为本发明的聚类分析流程图。

图7为本发明的原始时序告警数据量与站点种类数关系图。

图8为本发明的时间窗口系数与聚类率关系图。

具体实施方式

为使本申请的目的、技术方案和优点更为清楚，下面结合附图和实施例对本发明作进一步说明，本发明的实施方式包括但不限于下列实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1至图8所示，本实施例提供了一种基于时序性告警的聚类方法，具体包括以下步骤：

第一步，采集原始时序告警数据，解析后存储在告警数据库内；具体来说，云服务提供商网络中的设备，如基站、核心网服务器、传输网线路等等，都通过设备厂商的EMS设备管理。EMS探测到设备或线路故障后，会产生相应告警。所有EMS设备通过Syslog或者SNMP方式发送告警到FM(Fault Managem-ent)平台探针，FM探针统一采集告警，并解析告警内容，对告警名、告警发生时间、告警发生地点、告警摘要等信息进行标准化处理。之后，探针将告警送到集中的告警数据库存储。

第二步，对告警数据库内的告警数据依据不同的站点进行分类，具体包括以下步骤：

包括以下步骤：

(21)以每个站点的名称site作为key，获取不同站点内所有的告警信息，并组成一个告警数据集＜D₁,D₂,...,D_n＞；

(22)根据告警数据集＜D₁,D₂,...,D_n＞形成key-value的映射关系，其表达式为：

H_site＝＜D₁,D₂,...,D_n＞ (1)。

采用key-value的映射关系，在对不同站点内的告警数据进行聚类时，可以直接通过站点的名称取得该站点对应的告警数据集，避免多次访问数据库时的开销。

第三步，利用key-value的映射关系获取对应的告警数据集；针对需要研究的站点，利用key-value的映射关系获取对应的告警数据集。利用需要研究的数据集，求出它的大小n及告警种类数m，并估算出时间窗口T_win。

第四步，预设定义告警信息和告警聚类，具体如下：

预设定义告警数据D为＜alarm,site,T＞；所述alarm表示告警类型，所述site表示告警的站点；所述T表示发生告警的时间；以图1为例，时间轴t上有四个告警信息:

＜A,site₁,t₁＞表示在时间t₁时，站点site₁发生了告警A；

＜B,site₂,t₂＞表示在时间t₂时，站点site₂发生了告警B；

＜A,site₁,t₃＞表示在时间t₃时，站点site₁再次发生了告警A；

＜C,site₃,t₄＞表示在时间t₄时，站点site₃发生了告警C。

预设定义的告警聚类Ω＝{Ω₁,Ω₂，...Ω_k}；所述k为大于等于1的自然数；所述Ω_k表示告警聚类Ω内的第k簇告警数据所述告警聚类Ω内第i告警的告警数据为{alarm_i1,alarm_i2....alarm_ik}；

预设定义的告警数据＜alarm,site,T＞的时间窗口W的表达式为：

W＝＜T_win,＜alarm',site,T＞＞

第五步，定义告警间的关系，求得告警数据集内i类的告警与其自身为中心的时间窗口内j类告警时间差的绝对值之和，并标记为Δ_ij；

第六步，利用Δ_ij构建构成告警种类m的Δ_m×m矩阵；其表达式为：

第七步，求得Δ_m×m矩阵的列向量间的协方差，并形成协方差矩阵，具体包括以下步骤：

(71)根据公式(2)求得Δ_m×m矩阵的列向量间的协方差，并形成协方差矩阵σ，其表达式为：

其中，c₁,...c_m表示Δ_m×m矩阵中的m列向量；

(72)任一协方差的表达式为：

第八步，预设定义i类的告警与j类告警之间的距离，包括以下步骤：

(81)根据公式(3)求得Δ_m×m矩阵中第i个列向量与第j个列向量的相关程度σ_ij；并利用相关程度σ_ij求得距离d；其表达式为：

d＝|σ_i1-σ_j1|+...+|σ_im-σ_jm|。

第九步，建立聚类分析模型，并获得告警聚类输出结果。

(91)将协方差矩阵σ中m'个非零列向量划分为样本点，并将任一零的向量划分为一簇；由所述m'个非零列向量组成一个给定样本集D＝{x₁,...,x_m'}；

(92)采用K-Means算法对所述给定样本集D进行聚类，以获得C＝{C₁,,...,C_K}，所述K为小于等于m'的自然数；

求得最佳的聚类数K

(921)建立构造的代价函数，其表达式为：

(922)根据公式(7)求得最佳的聚类数K，其表达式为：

(93)求得C＝{C₁,,...,C_K}的最小化平方误差，其表达式为：

(94)利用R(site,k)＝{C₁,C₂,...,C_k}记录站点site所划分的k个簇集合，查询F(site,k)最小的k以及对应的R(site,k)便可获得站点最佳的聚类数以及聚类结果。

为了验证本方法的可行性和优异效果，申请人特将本方法运用在香港移动通讯有限公司("CSL")的无线传输网和无线核心网中，通过EMS检测到设备或线路故障，产生告警(包括基站、微波、核心网元设备告警等)

利用IBM Netcool FM软件通过Probe探针采集告警并存储到oracle数据库。本实验数据采用了oracle数据库中2013/3/10:00-2013/3/1215:27时间段内的100万条、544种告警数据信息，实验语言为Python3，实验平台为内存8GB，CPU为Core i5-2.3GHz，操作系统为Windows10的个人计算机。

从数据库中获取不同数量的时序告警数据，分析数据量与站点种类数关系和数据量与“BMI”站点告警种类数关系，得到了如图7、图8所示的结果。随着时序告警数据量的增加，站点种类数和站点内告警种类数都有明显地上升趋势。这一规律表明，数据量越大，产生告警的原因涵盖得越广，算法的准确度能得到提高。

本发明在时间窗口内，利用告警之间时间差的关系，构造出告警之间新的关系矩阵，并对关系矩阵中的列向量进行聚类分析，将不同原因产生的告警划分在一起。与现有技术相比，本发明具有突出的实质性特点和显著的进步，在云计算技术领域具有很高的实用价值和推广价值。

上述实施例仅为本发明的优选实施例，并非对本发明保护范围的限制，但凡采用本发明的设计原理，以及在此基础上进行非创造性劳动而作出的变化，均应属于本发明的保护范围之内。