CN112118141A

CN112118141A - 面向通信网络的告警事件关联压缩方法及装置

Info

Publication number: CN112118141A
Application number: CN202010995288.6A
Authority: CN
Inventors: 陈鹏飞; 杨梦媛; 郑子彬
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2020-12-22
Anticipated expiration: 2040-09-21
Also published as: CN112118141B

Abstract

本发明提供了面向通信网络的告警事件关联压缩方法及装置，其中方法包括：基于历史告警数据进行告警事件分析和基于实时告警数据进行告警事件根因推断；其中，基于历史告警数据进行告警事件分析包括：获取告警事件序列集合，对告警事件进行预处理，挖掘告警事件之间的时间依赖和内容依赖，得到告警事件对的依赖关系并压缩分组；基于实时告警数据进行告警事件根因推断包括：收集实时告警事件并映射得到实时告警事件分组，对实时告警事件分组进行根因推断，得到根源告警事件并确定相应的根源性故障。本发明提供的面向通信网络的告警事件关联压缩方法及装置，能够帮助运维人员更好更快地识别出关键性的告警，能快速定位并修复通信网络的根源性故障。

Description

面向通信网络的告警事件关联压缩方法及装置

技术领域

本发明涉及数据分析技术领域，尤其是涉及面向通信网络的告警事件关联压缩方法及装置。

背景技术

随着信息化、智能化时代的到来，大规模通信系统应用越来越多，这些大规模通信系统由于其自身的复杂性，发生告警、异常事件的概率已显著增加。面对大规模通信网络中海量增加、且依赖关系越来越复杂的告警事件，现有技术很难深入地挖掘出这些通信告警事件之间的依赖关系，仅靠去重处理是无法在海量告警事件中及时判定哪些告警事件是由根源性故障触发的，需要专业的运维人员来处理大批量的告警事件，加重了工作负担，也增加了网络崩溃的可能性。

运维人员面对海量告警时，无法短时间内快速处理大批量的告警事件，也很难快速找出影响力较大、较为关键的告警事件，进而导致故障处理耗时长，故障处理效率低。

因此，急需设计面向通信网络的告警事件关联压缩方法及装置，以解决海量告警事件中难以快速找出根源性故障的技术问题。

发明内容

本发明的目的是提供面向通信网络的告警事件关联压缩方法、装置、设备及介质，以解决从海量告警事件中难以快速找出根源性故障的技术问题。

本发明的目的，可以通过如下技术方案实现：

面向通信网络的告警事件关联压缩方法，包括：

基于历史告警数据进行告警事件分析和基于实时告警数据进行告警事件根因推断；

其中，所述基于历史告警数据进行告警事件分析具体包括：

获取历史告警数据中的告警事件序列集合，对所述告警事件进行预处理，分别挖掘告警事件之间的时间依赖关系和内容依赖关系，根据所述时间依赖关系和内容依赖关系得到告警事件对的依赖关系，对告警事件进行压缩分组；

所述基于实时告警数据进行告警事件根因推断具体包括：

收集实时告警事件并进行映射得到实时告警事件分组，对所述实时告警事件分组进行根因推断，得到所述实时告警事件分组中的根源告警事件，并根据所述根源告警事件确定相应的根源性故障。

可选地，对所述告警事件进行预处理具体包括：对所述告警事件进行数据清洗，并分析所述告警事件的告警属性，得到告警事件的发生时间、设备类型、设备机房、告警标题和告警对象。

可选地，挖掘告警事件之间的时间依赖关系具体包括：根据分割时间阈值对告警事件序列进行分段得到多个告警事件序列片段，根据任意两个告警事件的时间序列确定所述两个告警事件之间的最小时间模式，根据所述最小时间模式计算两个告警事件之间的共现概率，得到两个告警事件之间的时间依赖关系。

可选地，挖掘告警事件之间的内容依赖关系具体包括：建立并训练模型得到告警事件的设备类型、设备机房、告警标题的实体映射，根据所述实体映射和预设的分组数K对告警事件进行分组，得到K个具有内容依赖关系的告警事件集合。

可选地，对告警事件进行压缩分组具体包括：通过带权重的概率有向图可视化告警事件之间的依赖关系，采用深度优先搜索的方式对告警节点进行搜索，将所述概率有向图划分为多个概率子图，所述概率子图为告警事件压缩分组的结果；其中，概率有向图中的节点表示告警事件，有向边表示告警事件对之间的依赖关系。

可选地，对所述实时告警事件分组进行根因推断，得到所述实时告警事件分组中的根源告警事件具体包括：计算每个告警事件的PR值，利用PageRank算法根据所述PR值对告警事件进行排名，得到每个告警事件分组中PR值最大的第一告警事件；定义影响因子并根据所述影响因子对所述概率子图进行降序排列，得到每个告警事件分组中影响因子最大的第二告警事件；若所述第一告警事件和所述第二告警事件相同，则所述第一告警事件和所述第二告警事件为根源告警事件。

可选地，定义影响因子具体为：利用下式计算影响因子

其中，F₁(Ei)表示影响因子，Ni表示告警事件分组中告警事件的个数，Ei表示第i个(1≤i≤Ni)告警事件，P(Ei)表示告警事件Ei出现的概率，P(Ei(n)|Ei)表示与Ei节点相连的节点与Ei共现的概率值；Ei(n)表示在概率有向图中，以节点Ei为起点的所有有向边边指向的节点集合，用来计算累加的概率值，n为节点Ei的出度。

本发明还提供了面向通信网络的告警事件关联压缩装置，包括：

历史告警分析模块，用于基于历史告警数据进行告警事件分析；

实时告警推断模块，用于基于实时告警数据进行告警事件根因推断；

其中，所述历史告警分析模块具体用于：

所述实时告警推断模块具体用于：

本发明还提供了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现所述的面向通信网络的告警事件关联压缩方法。

本发明还提供了一种计算机存储介质，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现所述的面向通信网络的告警事件关联压缩方法。

本发明提供了面向通信网络的告警事件关联压缩方法、装置、设备及介质，其中，方法包括：基于历史告警数据进行告警事件分析和基于实时告警数据进行告警事件根因推断；其中，所述基于历史告警数据进行告警事件分析具体包括：获取历史告警数据中的告警事件序列集合，对所述告警事件进行预处理，分别挖掘告警事件之间的时间依赖关系和内容依赖关系，根据所述时间依赖关系和内容依赖关系得到告警事件对的依赖关系，对告警事件进行压缩分组；所述基于实时告警数据进行告警事件根因推断具体包括：收集实时告警事件并进行映射得到实时告警事件分组，对所述实时告警事件分组进行根因推断，得到所述实时告警事件分组中的根源告警事件，并根据所述根源告警事件确定相应的根源性故障。

本发明从告警事件的时间依赖关系与内容依赖关系去挖掘告警事件之间的依赖关系，无需借助难以获得的通信网络底层拓扑或规则，大大增加了告警自动化分析的可行性与合理性；考虑了非频繁发生或不活跃的告警事件，不会丢失一些非频繁告警事件的重要关联性；除了能挖掘出告警事件之间的关联关系，还能够对告警事件分组进行排序，对实时发生的告警事件进行根因推断，能够帮助运维人员更好更快地识别出关键性的告警，能快速定位并修复通信网络的根源性故障。

附图说明

图1为本发明面向通信网络的告警事件关联方法及装置的方法示意图；

图2为本发明面向通信网络的告警事件关联方法及装置的告警属性抽象层次示意图；

图3为本发明面向通信网络的告警事件关联方法及装置的告警间隔统计示意图；

图4为本发明面向通信网络的告警事件关联方法及装置的告警序列对示意图；

图5为本发明面向通信网络的告警事件关联方法及装置的获取embedding的模型示意图；

图6为本发明面向通信网络的告警事件关联方法及装置的告警事件分组的概率有向图。

具体实施方式

本发明实施例提供了面向通信网络的告警事件关联压缩方法、装置、设备及介质，以解决从海量告警事件中难以快速找出根源性故障的技术问题。

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

告警事件分析是智能运维领域中非常重要的一个部分，通过数据技术、数据算法对告警事件数据进行分析以及历史数据与实时数据的融合，不仅能够高效地处理系统内部的大批量告警，从繁多且复杂的告警和异常事件中将运维人员解脱出来，还能够帮助运维人员快速地跟踪、定位故障，识别到引起一系列故障的根因事件。这些管理工作都能够极大地减轻运维人员的工作负担，减少企业人力与财力的消耗，使通信系统能够更加快速地从异常状态中恢复，大大提高了通信系统的可用性与可维护性。告警事件分析也是很多服务运维管理过程和行为的入口，因此，检测、分析这些告警事件对管理通信系统、评估异常对各类服务造成的影响以及运维人员的工作都具有非常重要的意义。

目前，在告警事件管理领域的目标是开发用于估计系统动态性能常态、其异常检测和控制，包括系统行为不当时的根因确定、瓶颈识别、变点检测和其他分析能力的模型、方法和装置。在现有的方法中，根据时间序列对整个系统的IT网络和数据收集进行定量监控，并应用告警事件关联技术是被广泛用于通信系统管理的常见做法，在复杂的动态环境中通常使用一些统计推断模型，如贝叶斯网络来统计出告警之间的概率关系，以概率值来建模告警之间的关联；或是基于告警事件发生的频繁模式，如FP-growth来关联告警，主要通过算法在告警序列中搜索频繁出现的告警模式来关联频繁共现的告警。除此之外，深度神经网络和基于张量的方法已用于创建事件表示，在此基础上还考虑了告警的空间依赖性并提出了一种新的时空事件数据模型，这类模型将通信网络的拓扑网络与基于时间的点过程模型相结合，从时空两个角度来挖掘告警的关联关系。在捕获告警的时间依赖性方面，比较常见的方法有使用定长的滑动窗口的方式，以滑动窗口为单位来捕获在同一窗口中告警的时间关联性，或是使用最大似然估计(EM)算法，通过迭代收敛的方式对不同的告警事件捕获不同的时间模式，并以时间模式为单位来捕获共现告警的关联。

在告警事件分析领域，目前已有的方法中主要有以下问题：

(1)难以抵御系统噪声的干扰，难以挖掘出非频繁发生告警之间的关联关系：

在现有的时间序列关联性分析方法中，比较常见的方法之一是使用如贝叶斯网络、概率统计等统计推断模型来统计出告警事件序列之间的关联关系，但这类方法由于完全基于事件的统计特性，很大程度上统计结果会受到系统中产生的噪声影响，但这些噪声也是实际的通信网络中很难去避免的。另外一种较为常见的方法是基于事件的频繁模式挖掘出事件之间的关联关系，比较代表性的有FP-growth算法，这个方法能够较好地挖掘出告警序列中频繁出现的告警模式，但是在实际的通信网络中，由于系统噪声的影响得到的告警事件序列可能会出现部分偏差，影响到频繁模式的搜集；另一方面，告警序列中也会存在很多非频繁但关联关系极强的告警事件，通过设置定值的参数将会直接丢失这类非频繁发生告警的关联关系。

(2)仅从活跃的告警事件中进行分析，完全忽略了非频繁发生但是影响范围极大的告警事件：

现有的一些排序算法，如EventRank算法使用基于统计分析的思想分类告警事件，具体方法是根据告警事件在“协作事件”中的参与程度对社交网络或图中的影响进行排名。因此，EventRank算法主要考虑最近活动中的告警，而不考虑过去的影响。而在实际的通信网络中，不活跃或非频繁发生的告警可能非常致命，比如系统中发生次数极少的“黑天鹅事件”，虽然发生的频率非常低，但每一次发生都会对系统带来致命性的影响，因此直接忽略一些不活跃或非频繁发生的告警事件是非常不合理的。

(3)在实际通信网络中，很难获得具体的通信网络底层的拓扑结构：

在现有的一些基于深度学习的方法中，除了考虑了告警的时间影响外，还考虑了告警的空间影响，这类方法通常将通信网络的拓扑网络结构与基于时间的过程模型相结合，从时空两个角度来挖掘告警的关联关系。但类似这样的方法都依赖于应用程序、系统规则或网络拓扑的使用，在一定程度上限制了其在大规模复杂环境中的适用性，因为在当前复杂的通信环境中，通常难以穷尽所有的规则，也很难实时得到系统底层的拓扑结构。

(4)在捕获时间依赖性方面，定长时间窗口与最大似然估计算法的局限性：

在以前的工作中，当按时间序列捕获某个事件对的关联关系时，大多数工作是使用固定的长时窗滑动方法实现的。这种基于滑动时间窗口的方法在很大程度上依赖于时间窗口阈值的选择。如果阈值太大，则将捕获大量无关事件的依赖关系；如果阈值太小，则将丢失重要的关系。选择适用于序列中所有事件的阈值也是非常困难的，因此这种类型的方法有更大的局限性。由于告警事件具有其特定的告警场景，因此任何告警对之间的时间模式通常不一致。例如，同一场景中告警事件对的时间模式通常小于告警事件对中的时间模式，因此固定长度的滑动时间窗口很难应用于大量告警数据，需要分析特定的告警事件对。比较常见的还有最大似然估计(EM)算法。它是一种优化算法，通过迭代执行最大似然估计。但是在实际情况下，告警事件序列并不总是服从正态分布。在大多数情况下，EM算法不能直接应用于告警序列。

请参阅图1，以下为本发明面向通信网络的告警事件关联压缩方法的实施例，包括：

其中，所述基于历史告警数据进行告警事件分析具体包括：

所述基于实时告警数据进行告警事件根因推断具体包括：

本实施例中，主要包括历史模式与实时模式两个部分，在历史模式中主要是对历史告警数据进行分析处理，基于一定的告警事件粒度抽象告警事件、获取告警事件之间的时间依赖、获取告警事件之间的内容依赖、得到告警事件对之间的关联关系、对告警事件进行关联压缩分组；在实时模式中主要是收集实时告警并映射、对实时告警分组进行根因推断。

具体的，详细的技术方案如下：

1、基于历史告警数据进行告警事件分析

(1)告警事件的预处理及抽象

在大部分通过监控收集到的原始的告警数据集中，每一个告警事件都会有很多属性，如专业、一级网络类型、工单号、派单状态、工单状态、告警指纹FP0、城市、地区名称、设备机房、设备类型等，但在进行告警事件的关联分析中，并不是所有属性都是有参考价值的，因此需要对初始数据集进行一些预处理操作。

除了基本的数据清洗操作外，还对告警事件进行了抽象。抽象的主要原因在于，原始告警数据集中的告警属性是对告警不同粒度的刻画，如“设备类型”属性指示的是告警事件发生的设备是哪一种类型，“设备名称”属性指示的是告警事件发生的具体设备，“网元名称”属性指示的是告警事件发生具体设备的具体网元。

从粒度上来说，“设备类型”是粗粒度的属性，“设备名称”是中等粒度的属性，而“网元名称”是细粒度的属性。在告警事件的关联分析中，若选取的粒度过于粗糙，那么得到的关联关系会对告警分析没有实际意义；若选取的粒度过于细致，也会导致捕获关联关系非常困难。

基于以上情况，本实施例首先分析了在绝大多数情况下都能被收集到，且对关联分析有指导意义的告警属性有哪些，然后基于这些告警属性构建了一个告警属性抽象层次图，具体如图2所示。

请参阅图2，图2中所列出的属性主要包括三个方面，即告警时间、告警设备以及告警内容，这三类属性能够较好地描述一个告警事件，且在众多告警事件分析方法中这三类属性都是非常常见的，在绝大多数情况下都能获取到。因此，本实施例提出的告警事件处理方法，也从告警时间、告警设备及告警内容这些方面进行分析。但利用告警时间、告警设备及告警内容这些告警属性进行告警分析时，粒度较粗，因此对这三个告警属性分别做了一定的细化，得到如图2中第三层所示的中等粒度的告警属性，本实施例提供的面向通信网络的告警事件关联压缩方法也是基于这五个属性来进行的。

(2)告警事件的时间依赖

在告警事件的时间依赖部分，主要是基于告警的发生时间戳来进行分析，主要包括告警序列分段、获取告警事件的最小时间模式以及计算告警事件之间的共现概率三个部分来实现：

(2.1)告警序列的分段

根据文献研究和专家经验，在告警序列中，同一告警场景中发生的告警事件通常具有较短的时间间隔，当某两个告警事件之间的时间间隔超过一定的阈值时，可以认为前一个告警场景已结束，并且新的告警场景将很快开始。因此，本实施例第一步需要对按照发生时间戳排序的告警序列进行时间间隔统计。

本实施例中，分割事件阈值是通过对历史告警数据集中告警事件之间的时间间隔进行统计分析后得到的。请参阅图3，如图3所示，超过95％的告警时间间隔小于3分钟，基于此统计信息，将用于划分告警序列场景的分割时间阈值设置为3分钟，当告警序列中某两个告警的时间间隔超过3分钟时，认为此处的告警场景已断开连接并将告警序列切断，从而得到告警序列的多个分段。

(2.2)告警事件的最小时间模式

由于定长时间窗口与最大似然估计的方法都存在一定的局限性，不能够很好地去捕获通信网络告警事件之间的依赖，因此，主要参考EM算法的迭代收敛思想。

请参阅图4，图4显示了这两个告警时间序列。首先，从告警数据集中提取两个告警事件的时间序列，然后计算时间序列中每个告警事件与另一个序列中最近邻的告警事件之间的时间间隔，实线指向的是为与该告警关联的最近邻居；最后，将获得的时间间隔的平均值作为两个告警事件之间的最小时间模式。

值得说明的是，这里需要计算任意两个告警事件之间的最小时间模式，选取的告警序列为历史告警数据集中发生的所有告警事件中任意两告警事件的序列。选取的最近邻告警就是另一个告警序列中与该告警事件序列中某一事件时间间隔最短的告警，最近邻告警是对告警序列中每一个告警事件进行计算的，得到告警序列中每一个告警事件与其最近邻告警的时间间隔，再对这些时间间隔取平均值得到最小时间模式。

当两个告警事件对之间的最小时间模式太大时，值得说明的是，最小时间太大的标准主要是来自于专家经验，通过调研文献或是对通信网络中告警数据的观察可以看出绝大部分有关联的告警不可能超过某个最大限度。例如，如果两个告警事件之间的最小时间模式超过对告警序列场景进行分段的时间阈值时，则这两个告警事件在告警序列分段的步骤中就会被划分开。

值得说明的是，告警序列的分段过程中通过统计分析得到一个划分告警场景的阈值，在提取告警时间序列计算最小时间模式的时候，当两个告警事件的最小时间模式大于告警分段阈值时，可以认为这两个告警不处于一个告警场景中。

当在此最小时间模式下无法捕获两个告警事件的同时发生，可以认为该告警事件对没有时间依赖性。与固定长度滑动时间窗口方法相比，本实施例可以获得任意两个告警事件之间的最小时间模式，更加灵活和通用。

(2.3)告警之间的共现概率

在完成分割并获得两个告警事件之间的最小时间模式后，以捕获到的最小时间模式为单位，对于在某一告警事件对最小时间模式内共现的告警事件对，使用以下公式计算告警事件对之间的共现概率。通常，告警事件对(E_i，E_j)的条件概率，可以通过将两个告警事件在其最小时间模式内共同发生的次数除以告警事件E_i发生的次数来计算：

其中，Δt是告警事件E_i和E_j之间的最小时间模式；Coun(E_j,E_i|△t)是在告警事件E_i在Δt的时间范围内发生的情况下，告警事件E_j发生的次数。Count(E_i)是告警数据集中告警事件E_i发生的总数。在P(E_j|E_i,△t)中，如果值不为0，则节点E_i的有向边指向节点E_j。

通过以上三个步骤，可以得到告警事件对之间的时间依赖性，共现概率的大小表示其依赖关系的强弱。

(3)告警事件的内容依赖

在告警事件的内容依赖部分，主要是基于告警事件的设备类型、设备名称、告警标题、告警对象四个属性来进行分析，包括建立模型获取告警属性实体embedding、谱聚类分组两个部分。

(3.1)告警属性实体embedding

为了克服告警属性之间缺乏内在的距离度量，我们将每一个告警属性当做是一个实体，定义一个告警事件为：E_i＝(a_i1,a_i2……a_in)，然后将告警属性实体embbedding到可以保留其语义的公共潜在空间中，每个实体都表示为d维向量，并将自动从数据中学习。获取告警属性实体embbedding的模型框架如图5所示，主要是基于python的深度学习库keras来实现，loss函数与word2vec的保持一致，通过训练模型来得到告警属性实体的embedding。

具体的，Embedding是一个将离散变量转为连续向量表示的一个方式，是指某个对象X被嵌入到另外一个对象Y中，映射f:X→Y。在神经网络中embedding是非常有用的，它不光可以减少离散变量的空间维数，同时还可以有意义的表示该变量。

为了从内容属性方面来挖掘告警事件之间的关联关系，将每一个告警属性当做是一个实体，定义一个告警事件为：E_i＝(a_i1,a_i2……a_in)，其中E_i为告警事件，ai1为告警事件E_i的某个属性。

本实施例，首先基于告警的设备、设备类型、告警名称三个属性构造词汇表，再基于词汇表得到每一个告警事件的向量表示。如图5所示，将告警事件的向量作为输入，经过图5的模型得到输出为告警事件的embedding，是一个d维向量，其中d由自己指定。该模型主要是基于基于python的深度学习库keras来实现，loss函数与word2vec的保持一致，通过训练模型来得到告警属性实体的embedding。

(3.2)谱聚类分组

在获得告警属性实体的embbedding之后，首先通过t-SNE对embbedding进行可视化来观察告警事件的聚集情况。根据embbedding可视化的情况，本实施例人工选取一个分组数k，再使用谱聚类的方式对告警进行分组。通过谱聚类的分组后，就能够得到k个告警事件集合，每个告警事件集合的告警事件具有内容依赖关系。

(4)告警事件的关联及压缩分组

在得到告警事件的时间依赖以及内容依赖后，本实施例将两类依赖关系进行合并，主要使用取两者交集的方法。基于告警事件内容依赖后得到的告警事件分组，将不在一个告警事件分组中的告警事件对之间的时间共现概率设置为0。在取交集操作之后保留下来的依赖关系中，两个告警事件不仅在时间上有共现，同时在内容上的关联性也很强，通常具有较强的依赖关系。

然后，通过带权重的概率有向图来可视化告警事件对之间的依赖关系，节点表示告警事件，有向边指示告警事件对之间的依赖关系，并在告警依赖图中消除没有任何关联关系(没有出度和入度)的节点，再通过深度优先搜索的方式对告警节点进行搜索，将初始的概率有向图划分为多个概率子图，每个概率子图为告警事件压缩分组后的结果。如图6所示，图6为一个告警事件分组的概率有向图，其中节点指示的是告警事件，有向边表示告警事件之间的关联关系，有向边的权重为两个告警之间的共现概率，即关联的强弱程度。

2、基于实时告警数据进行告警事件根因推断

(1)实时告警的收集与映射

对于实时告警事件序列，本实施例设置收集实时告警的时间间隔，如每5分钟收集一次。在此处设置5分钟的原因是，收集时间需要比告警序列分段是的时间阈值稍大一些，以确保不会尽可能地切断告警场景。

然后映射并匹配历史告警组中收集的实时告警事件，可以映射到同一组的实时告警事件被压缩为一组，无法映射到组的实时告警事件可以视为相对独立的告警事件。

(2)对实时告警进行根因推断

由于分布式系统的复杂性，收集的告警事件的发生时间不一定准确，并且大多数都有时间延迟。因此，即使根本原因类型的告警总是在另一部分告警之前发生，实际的依赖图中也可能有其他告警指向根本原因告警。

在这种情况下，通过告警依赖图中的有向边直接追溯到根本原因告警的方法不再适用。本实施例中，由于在告警分组中发现影响力大、重要性高的根本原因告警与在PageRank算法中找到重要节点的想法相似，因此，使用PageRank算法对网络节点进行排名。

类似于计算网页PR值的方法，定义每个告警事件节点的PR值，如下所示：

其中，

是链接到节点E_i的所有节点的集合，而L(E_j)是节点E_j的外部链接数。获得每个组中每个告警事件的PR值后，算法继续通过投票进行迭代，直到达到稳定的分布，最后在每个组中将具有最大PR值的告警节点标识为该告警组中最重要和最有影响力的根本原因。

为了验证通过PageRank算法获得的潜在根本原因节点，本实施例还引入了影响因子的概念，并根据影响因子的大小降序排列了压缩的概率子图。本实施例着重研究了告警事件之间的直接相关性，量化了影响因子的一阶效应，F₁(Ei)不包括来自告警事件Ei的远程图形连接。值得说明的是，直接相关性指的是在有向图中存在有向边直接相连的点之间的相关性，就是直接相关性。远程图形连接指的就是在概率有向图中没有与该告警事件直接相连的边，但是可以通过其他节点以及边连接到该告警事件的其余告警事件。

一阶影响因子定义如下：

其中，F₁(Ei)表示影响因子，Ei表示告警事件分组中告警事件的个数，Ei表示第i个(1≤i≤Ni)告警事件，P(Ei)表示告警事件Ei出现的概率，P(Ei(n)|Ei)表示与Ei节点相连的节点与Ei共现的概率值；Ei(n)表示在概率有向图中，以节点Ei为起点的所有有向边边指向的节点集合，用来计算累加的概率值，n为节点Ei的出度。

本实施例根据上述公式确定每个告警组中影响因子最大的节点，并将其与通过PageRank算法获得的潜在根本原因告警事件节点(根源性告警事件)进行比较。如果它们一致，则表示根本原因告警在告警事件分组中的重要性最高。如果获得的告警事件节点不一致，则意味着该告警事件分组中的根本原因可能会偏离。

本实施例提供的面向通信网络的告警事件关联压缩方法，能够对告警事件分析领域现有的一些基于系统规则和网络拓扑、专家知识、物理环境的告警事件分析方法进行改进，采用全数据驱动、统计学习结合深度学习的方法提供了一种无监督学习的分析框架，在本实施例中，不需要事先给定系统规则或底层拓扑，能够处理大规模的告警事件。本实施例主要基于历史告警数据进行学习，将挖掘到的关联关系应用到实时发生的告警事件中，能够提升运维人员的工作效率以及运维工作的自动化程度。

本实施例提供的面向通信网络的告警事件关联压缩方法，基于机器学习与数据分析方面的知识，提出了基于无监督学习的告警事件分析框架，能够从海量的历史告警数据中挖掘出告警事件之间的时间依赖关系与内容依赖关系，基于历史告警之间的依赖关系对告警事件进行分组；再将收集到的实时发生的告警事件在得到的历史告警分组中进行匹配与映射，实现实时告警数据的压缩，并在压缩后的事件集中推断出可能的根因告警。

本实施例从告警事件的时间依赖关系与内容依赖关系去挖掘告警事件之间的依赖关系，无需借助难以获得的通信网络底层拓扑或规则，大大增加了告警自动化分析的可行性与合理性；考虑了非频繁发生或不活跃的告警事件，不会丢失一些非频繁告警事件的重要关联性；除了能挖掘出告警事件之间的关联关系，还能够对告警事件分组进行排序，对实时发生的告警事件进行根因推断，能够帮助运维人员更好更快地识别出关键性的告警，能快速定位并修复通信网络的根源性故障。

本发明还提供了一种面向通信网络的告警事件关联压缩装置的实施例，包括：

其中，所述历史告警分析模块具体用于：

所述实时告警推断模块具体用于：

本实施例提供的面向通信网络的告警事件关联压缩装置，基于告警之间的依赖关系将海量告警从以事件为单位转换为以事件分组为单位，从而减少运维人员需要处理的告警数量，解决了运维人员无法短时间内快速处理大批量告警事件时候的困难；通过告警事件的影响因子对告警分组进行排序，帮助运维人员快速定位到最关键的告警事件并统一解决，解决了运维人员面对海量告警时难以快速找出影响力较大且较为关键的告警事件；通过算法快速推断告警分组中的根源告警，通常解决了根源告警就能够同时解决因根源告警而发生的告警事件，从而简化了运维工作，解决了运维人员在面对一个告警事件分组时无法快速识别根源告警的问题。

本发明还提供了一种电子设备，包括：

存储器，用于保存计算机程序；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.面向通信网络的告警事件关联压缩方法，其特征在于，包括：

其中，所述基于历史告警数据进行告警事件分析具体包括：

所述基于实时告警数据进行告警事件根因推断具体包括：

2.根据权利要求1所述的面向通信网络的告警事件关联压缩方法，其特征在于，对所述告警事件进行预处理具体包括：对所述告警事件进行数据清洗，并分析所述告警事件的告警属性，得到告警事件的发生时间、设备类型、设备机房、告警标题和告警对象。

3.根据权利要求2所述的面向通信网络的告警事件关联压缩方法，其特征在于，挖掘告警事件之间的时间依赖关系具体包括：根据分割时间阈值对告警事件序列进行分段得到多个告警事件序列片段，根据任意两个告警事件的时间序列确定所述两个告警事件之间的最小时间模式，根据所述最小时间模式计算两个告警事件之间的共现概率，得到两个告警事件之间的时间依赖关系。

4.根据权利要求3所述的面向通信网络的告警事件关联压缩方法，其特征在于，挖掘告警事件之间的内容依赖关系具体包括：建立并训练模型得到告警事件的设备类型、设备机房、告警标题的实体映射，根据所述实体映射和预设的分组数K对告警事件进行分组，得到K个具有内容依赖关系的告警事件集合。

5.根据权利要求4所述的面向通信网络的告警事件关联压缩方法，其特征在于，对告警事件进行压缩分组具体包括：通过带权重的概率有向图可视化告警事件之间的依赖关系，采用深度优先搜索的方式对告警节点进行搜索，将所述概率有向图划分为多个概率子图，所述概率子图为告警事件压缩分组的结果；其中，概率有向图中的节点表示告警事件，有向边表示告警事件对之间的依赖关系。

6.根据权利要求5所述的面向通信网络的告警事件关联压缩方法，其特征在于，对所述实时告警事件分组进行根因推断，得到所述实时告警事件分组中的根源告警事件具体包括：计算每个告警事件的PR值，利用PageRank算法根据所述PR值对告警事件进行排名，得到每个告警事件分组中PR值最大的第一告警事件；定义影响因子并根据所述影响因子对所述概率子图进行降序排列，得到每个告警事件分组中影响因子最大的第二告警事件；若所述第一告警事件和所述第二告警事件相同，则所述第一告警事件和所述第二告警事件为根源告警事件。

7.根据权利要求6所述的面向通信网络的告警事件关联压缩方法，其特征在于，定义影响因子具体为：利用下式计算影响因子

8.面向通信网络的告警事件关联压缩装置，其特征在于，包括：

其中，所述历史告警分析模块具体用于：

所述实时告警推断模块具体用于：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1-7任意一项所述的面向通信网络的告警事件关联压缩方法。

10.一种计算机存储介质，其特征在于，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的面向通信网络的告警事件关联压缩方法。