CN114090393B

CN114090393B - 一种告警级别的确定方法、装置及设备

Info

Publication number: CN114090393B
Application number: CN202210039676.6A
Authority: CN
Inventors: 卢鑫源; 郑铁樵; 张博
Original assignee: Cloudwise Beijing Technology Co Ltd
Current assignee: Cloudwise Beijing Technology Co Ltd
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-06-03
Anticipated expiration: 2042-01-14
Also published as: CN114090393A

Abstract

本发明的实施例提供一种告警级别的确定方法、装置及设备，告警级别的确定方法包括：获得待定级告警；根据历史告警库，获得与所述待定级告警属于同一故障的同故障告警；根据所述同故障告警，确定同问题告警；获取所述待定级告警所属的第一警报与所述同问题告警所属的第二警报之间的拓扑距离；根据所述拓扑距离，计算影响范围量化指数；根据待定级告警的关联指标和所述同故障告警，计算严重程度量化指数；根据所述影响范围量化指数和所述严重程度量化指数，确定所述待定级告警的级别。本发明的实施例实现了告警级别的动态判定，解决了大批量告警的处理优先级难以确定的问题。

Description

一种告警级别的确定方法、装置及设备

技术领域

本发明涉及运维技术领域，特别是指一种告警级别的确定方法、装置及设备。

背景技术

告警是运维领域一种常见的信息来源，当系统中出现故障时，监控中心会发出描述该故障的告警，告警中包含故障的发生时间，故障的主机，故障现象的描述，故障级别，检查项等故障相关信息。这些告警是运维人员了解系统健康状况的信息载体，通过阅读告警，运维人员能够确定故障排查的基本方向，从而快速修复故障，保证系统正常运转。

然而随着公司业务的不断发展，大型的业务系统往往需要上千台设备进行支撑，这些设备之间存在调用关系，即某一台设备的正常运行需要该设备调用的其他设备也能够正常运行，因此当其中任意一台设备发生故障时，这种故障会沿着设备之间的调用关系不断传播，从而产生大量的故障及告警。如何确定这些告警的处理优先级便成为了一个亟待解决的问题。

发明内容

本发明提供了一种告警级别的确定方法、装置及设备。解决了大批量告警的处理优先级难以确定的问题。

为解决上述技术问题，本发明的实施例提供以下方案：

一种告警级别的确定方法，包括：

获得待定级告警；

根据历史告警库中，获得与所述待定级告警属于同一故障的同故障告警；

根据所述同故障告警，确定同问题告警；

获取所述待定级告警所属的第一警报与所述同问题告警所属的第二警报之间的拓扑距离；

根据所述拓扑距离和第一警报与第二警报之间的相关度，计算影响范围量化指数；

根据待定级告警的关联指标和所述同故障告警，计算严重程度量化指数；

根据所述影响范围量化指数和所述严重程度量化指数，确定所述待定级告警的级别。

可选的，根据历史告警库中，获得与所述待定级告警属于同一故障的同故障告警，包括：

将待定级告警输入训练好的决策树进行处理，确定待定级告警所属的第一警报；

将待定级告警的描述与同样属于决策树的叶子节点的目标历史告警的描述，输入长短记忆网络模型LSTM中进行处理，若待定级告警与目标历史告警属于同一警报，则将该目标历史告警所属的警报的警报编码作为待定级告警的第一警报的警报编码，否则，根据该待定级告警生成一个新的第一警报；

将属于所述第一警报的目标历史告警确定为与所述待定级告警的同故障告警。

可选的，根据所述同故障告警，确定同问题告警，包括：

将第一警报中的所有告警按照发生时间进行聚合，得到按时间长度聚合的第一警报；

将其它历史警报内的告警进行文本属性向量化处理，得到历史警报的文本属性向量；

计算第一警报与所述历史警报的相关度；

若所述相关度大于预设的相关度阈值，确定该历史警报与第一警报描述相同问题，将该历史警报中的告警确定为与待定级告警描述相同问题的同问题告警。

可选的，获取所述待定级告警所属的第一警报与所述同问题告警所属的第二警报之间的拓扑距离，包括：

根据待定级告警所属的第一警报在拓扑图中对应的第一节点与所述同问题告警所属的第二警报在所述拓扑图中对应的第二节点之间的调用关系，获得所述拓扑距离。

可选的，根据所述拓扑距离和第一警报与第二警报之间的相关度，计算影响范围量化指数，包括：

根据公式：

计算影响范围量化指数；

其中，

表示待定级告警所属的第一警报与第i个所述同问题告警所属的第二警报之间的相关度，

表示待定级告警第一警报与第i个所述同问题告警所属的第二警报之间的拓扑距离。

可选的，根据待定级告警的关联指标和所述同故障告警，计算严重程度量化指数，包括：

基于预设时间滑动窗口对所述待定级告警关联的指标数据进行切分；

将待定级告警所属的第一警报中的所有告警按告警时间映射到所述指标数据中；

统计各预设时间滑动窗口内警报内告警的频次信息以及各预设时间滑动窗口内指示数据的平均值及方差；

根据告警频次阈值对各预设时间滑动窗口内警报内告警的频次信息进行筛选，得到各预设时间滑动窗口的告警个数；

计算各预设时间滑动窗口中告警的异常程度；

根据待定级告警的告警时间前第i个窗口的窗口内异常程度以及待定级告警的告警时间前第i个窗口的窗口内的告警个数，计算严重程度量化指数。

可选的，根据所述影响范围量化指数和所述严重程度量化指数，确定所述待定级告警的级别，包括：

根据所述影响范围量化指数、影响范围权重、所述严重程度量化指数以及严重等级权重，计算告警优先级评分；

根据所述告警优先级评分以及对应的评分范围，确定所述待定级告警的级别。

本发明的实施例还提供一种告警级别的确定装置，所述装置包括：

获取模块，用于获得待定级告警；

处理模块，用于从历史告警库中，获得与所述待定级告警属于同一故障的同故障告警；根据所述同故障告警，确定同问题告警；获取所述待定级告警所属的第一警报与所述同问题告警所属的第二警报之间的拓扑距离；根据所述拓扑距离，计算影响范围量化指数；根据待定级告警的关联指标和所述同故障告警，计算严重程度量化指数；根据所述影响范围量化指数和所述严重程度量化指数，确定所述待定级告警的级别。

本发明的实施例还提供一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上所述的方法对应的操作。

本发明的实施例还提供一种计算机可读存储介质，存储有指令，所述指令在计算机上运行时，使得计算机执行如上所述的方法。

本发明的上述方案至少包括以下有益效果：

本发明的上述方案，通过获得待定级告警；从历史告警库中，获得与所述待定级告警属于同一故障的同故障告警；根据所述同故障告警，确定同问题告警；获取所述待定级告警所属的第一警报与所述同问题告警所属的第二警报之间的拓扑距离；根据所述拓扑距离，计算影响范围量化指数；根据待定级告警的关联指标和所述同故障告警，计算严重程度量化指数；根据所述影响范围量化指数和所述严重程度量化指数，确定所述待定级告警的级别。从而实现了对告警影响范围的挖掘与量化，解决了大批量告警的处理优先级难以确定的问题。

附图说明

图1为本发明实施例的告警级别的确定方法的流程示意图；

图2为本发明实施例的基于长短期记忆神经网络(LSTM)的改进决策树模型的示意图；

图3为本发明实施例的确定同问题告警的示意图；

图4为本发明实施例的拓扑图节点之间的距离示意图；

图5为本发明实施例的严重程度量化指数的计算流程示意图；

图6为本发明实施例的优先级程度判定流程示意图；

图7为本发明实施例的同故障告警的模型训练阶段的具体实施例示意图；

图8为本发明实施例的同故障告警的模型推断阶段的具体实施例示意图；

图9为本发明实施例的告警级别的确定方法装置的模块示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明的以下实施例中，故障是系统不能执行某要求功能的一种特征状态。

告警是在特定故障发生时，被管对象发出的通报构成的一种事件报告。

警报是描述同一故障的告警组成的集合。每个警报对应系统中一个特定的故障，所有描述该故障的告警都被包含在这一警报中。

事件是包含某一故障对应的警报和该故障在系统中引发的其他故障对应的警报。

拓扑图节点是运维系统中实现单一功能的实体模块或抽象模块，比如微服务，中间件等。

本发明的以下实施例中所需要的数据来源包括运维领域的三种常见数据源，即告警数据，指标数据和拓扑关系数据；

其中，告警数据是系统中特定故障发生时，监控系统为描述该故障的相关信息所发出的一种记录消息，他包含有故障发生的时间，主机，故障现象，故障等级等信息。

指标数据包含系统中某个特定观测量在不同时间点时的数值，比如CPU利用率是一种常见的指标数据，在不同的时间，CPU利用率根据系统的运行状况呈现不同的数值，这些时间点与对应数值组合而成的时间序列数据即是指标数据。

拓扑图记录了系统中不同设备之间的调用关系，这种关系数据由基本的节点和边组成，其中的节点为系统中的实现单一功能的实体模块或抽象模块，例如微服务、服务器、中间件、业务应用、业务模块等。其中的边为系统中两个节点之间的调用关系，是一种有向边。因此，拓扑图通常以有向无环图的形式呈现。

如图1所示，本发明提供一种告警级别的确定方法，包括：

步骤11，获得待定级告警；这里的待定级告警是指需要确定处理优先级的告警；

步骤12，根据历史告警库中，获得与所述待定级告警属于同一故障的同故障告警；

步骤13，根据所述同故障告警，确定同问题告警；

步骤14，获取所述待定级告警所属的第一警报与所述同问题告警所属的第二警报之间的拓扑距离；

步骤15，根据所述拓扑距离和第一警报与第二警报之间的相关度，计算影响范围量化指数；

步骤16，根据待定级告警的关联指标和所述同故障告警，计算严重程度量化指数；

步骤17，根据所述影响范围量化指数和所述严重程度量化指数，确定所述待定级告警的级别。

该实施例中，通过对待定级告警进行处理，确定影响范围量化指数和严重程度量化指数，根据影响范围量化指数和严重程度量化指数确定所述待定级告警的级别，实现了对告警影响范围的挖掘与量化，解决了大批量告警的处理优先级难以确定的问题。

本发明的一可选的实施例中，步骤12可以包括：

步骤121，将待定级告警输入训练好的决策树进行处理，确定待定级告警所属的第一警报；

步骤122，将待定级告警的描述与同样属于决策树的叶子节点的目标历史告警的描述，输入长短记忆网络模型LSTM中进行处理，若待定级告警与目标历史告警属于同一警报，则将该目标历史告警所属的警报的警报编码作为待定级告警的第一警报的警报编码，否则，根据该待定级告警生成一个新的第一警报；

步骤123，将属于所述第一警报的目标历史告警确定为与所述待定级告警的同故障告警。

该实施例中，具体实现时，如图2所示，为挖掘同一故障的告警，基于长短期记忆神经网络（LSTM）的改进决策树模型，实现待定级告警与故障映射关系的自动划分。

在模型的训练阶段，首先标注出历史告警中描述同一故障的告警，并标记出告警属于哪个警报，并给出警报编码，如果不存在警报编码，则随机生成一个编码，不同警报编码不同。

接着采用传统决策树模型根据告警属性对告警进行划分，使每个最底层的叶子节点内的告警都对应一个故障，决策树中分支节点的计算方法为信息增益法，决策树分支节点上的属性为告警本身带有的属性，比如告警所属部门，告警所属主机等。

为了实现每个子节点只包含同一警报内的告警，在最底层的叶子节点中加入了LSTM提取告警描述中的文本信息，并通过文本预处理，分词，词向量编码的方式将告警描述转化为词向量信息，然后将两条历史告警的词向量信息输入到神经网络中，并给出两条历史告警是否属于同一故障，以实现对神经网络的训练。

在推断阶段，首先需要输入待定级的告警，并采用预先训练好的决策树根据待定级告警的告警属性实现告警到警报的自动划分，划分到特定的叶子节点后，将待定级告警的描述与同样属于该叶子节点的历史告警的描述输入到LSTM中，如果与任一历史告警的计算结果显示他们属于同一警报，则返回将这一历史告警的警报编码作为待定级告警的警报编码，如果都不满足，则将当前告警生成一个新的警报，同时触发基于长短期记忆神经网络(LSTM)的改进决策树模型的重新训练，由此即可找出与待定级告警描述同一故障的告警。

这里，决策树是一种树形结构模型，该树由根节点、内部节点、叶子节点和有向边构成，使用决策树决策的过程即从根节点开始，选择一个特征作为当前节点的分裂标准，自上而下的生成子节点，直到到达叶子节点得出分类决策的结果。

上述决策树中分支节点的计算方法，即信息增益法是根据信息熵进行的，熵的计算公式如下：

其中，假设数据源有所有可能发生的情况，有n种取值：

，则

代表n个状态中的第i个状态，P(

)代表出现第i个状态的概率，H(D)代表用于消除系统不确定性所需的信息量。

决策点的选取方法，实际应用中，决策点的选取可以通过计算信息增益实现，公式如下：

；

其中，Gain(D,A)代表原始数据在某个属性中是否为A作为分类标准的信息增益，H(D)代表原始数据的熵值，而H(D|A)则为采用了该划分标准后数据集D的熵值，这一差值即为信息增益，通过该方法能够判断一个新的数据是否属于某一类别。

长短期记忆人工神经网络LSTM是一种特殊的时间循环神经网络，向量将按照出现的时间先后顺序输入到神经网络中，将词编码后的向量按照词在句子中出现的先后顺序输入其中，可以学习到语句所包含的语义信息。

词向量编码是一种将词以向量的形式表示的方法，常用的词向量训练方法有CBOW和skip-gram两种，其中CBOW是通过一句话中某个词的上下文通过神经网络实现对该词的预测，并在经过训练后，将神经网络的权重组合为向量代表该词。

本发明的一可选的实施例中，步骤13可以包括：

步骤131，将第一警报中的所有告警按照发生时间进行聚合，得到按时间长度聚合的第一警报；

步骤132，将其它历史警报内的告警进行文本属性向量化处理，得到历史警报的文本属性向量；

步骤133，计算第一警报与所述历史警报的相关度；

步骤134，若所述相关度大于预设的相关度阈值，确定该历史警报与第一警报描述相同问题，将该历史警报中的告警确定为与待定级告警描述相同问题的同问题告警。

该实施例中，具体实现时，如图3所示，该过程的输入主要分两部分，第一部分为待定级告警及其同警报告警，第二部分为其他历史警报及其所含告警；

第一个部分为按时间进行抽象：即将同警报内的告警按照发生时间进行聚合，比如以5分钟为聚合时间，统计从第一个告警发出时间开始到该时间点延后5分钟的这段时间范围内属于该警报的告警个数，接着，移动至下一个5分钟，继续统计时间段内属于该警报的告警个数，最终给出警报在不同时间段内出现的频次信息，并以向量的形式表示，比如[10，20，30]表示从警报内第一个告警发出开始，第一个五分钟内属于该警报内的告警有10个，第5-10分钟有20个，第10-15分钟有30个。

第二部分为文本属性向量化编码，将告警的文本类属性以向量化的形式表示，这一过程也可通过分词+词向量编码的形式实现，获得文本中词语的词向量信息后，采用加权平均的方式将多个词的词向量做加和，并除以文本中词个数，以生成句向量，最终的句向量即是文本属性向量。

向量化时间属性及其他告警文本属性后，将计算不同告警对应属性的相关度，相关度计算主要通过关联系数实现，具体公式如下：

其中，

表示向量X和Y的关联系数，Cov(X，Y)为X，Y的协方差，D(X)，D(Y)分别为X,Y的方差。

计算完各个属性独立的关联系数后，采用如下公式计算两警报之间的综合相关程度，即两警报描述同一问题的可能性：

（N表示告警的个数）

其中，

表示警报A与警报B之间的关联系数，用于量化不同警报描述同一问题的可能性，

表示两个警报第i个属性的相关系数，

表示第i个属性的相关权重，｜表示并列关系，即对关联系数的计算方法有以上三种，三种之间采用一种即可，max（）表示取所有属性关联系数的最大值，min（）表示取所有属性关联系数的最小值。

基于这些信息，量化的评价警报之间的关联程度，此时，用户需要给定一个相关度阈值，相关系数低于此阈值的警报被认为与待定级告警所属警报描述不同问题。

筛选完成后，将输出待定级告警所属警报与其他警报的关联系数，并记录关联系数对应的警报编号，由此即可找出与待定级告警描述同一运维问题的告警。

本发明的一可选的实施例中，步骤14可以包括：

步骤141，根据待定级告警所属的第一警报在拓扑图中对应的第一节点与所述同问题告警所属的第二警报在所述拓扑图中对应的第二节点之间的调用关系，获得所述拓扑距离。

该实施例中，具体实现时，如图4所示，记录以上信息后，通过告警的主机属性，能够找出告警与拓扑图节点的对应关系，显然由于警报是描述同一个故障的，因此警报内所有的告警主机应当是完全一致的，即警报只能对应拓扑图中的一个节点。明确了警报与拓扑图节点的对应关系后，可以计算警报之间的拓扑距离，即对应拓扑节点之间为直接调用关系，间接调用关系还是无调用关系，如果存在调用关系，则从拓扑节点A到拓扑节点B一共经过了多少节点，如图4所示，调用关系为A->C->B，拓扑节点A和拓扑节点B之间的调用关系经过了拓扑节点C后到达B，则拓扑距离为2。如果调用关系为A->B, 则拓扑距离为1，如果都在一个拓扑节点上，则拓扑距离为0。这种调用关系不区分方向，即拓扑距离始终为正整数。

本发明的一可选的实施例中，步骤15可以包括：

根据公式：

计算影响范围量化指数；

其中，

该实施例中，具体实现时，可以通过以下公式量化故障影响范围，Affect=A(

,

)；其中，Affect表示影响范围量化指数，A表示计算影响范围量化指数的函数，

表示待定级告警对应的警报与第i个描述同一问题的警报之间的相关程度，

表示待定级告警对应的警报与第i个描述同一问题的警报之间的拓扑距离；一个简单示例为：

；

其中，

用于防止拓扑距离为0导致计算出现问题，分析公式易得，最终影响范围量化指数越大即可说明当前告警的影响范围越大，N表示警报的个数。

本发明的一可选的实施例中，步骤16可以包括：

步骤161，基于预设时间滑动窗口对所述待定级告警关联的指标数据进行切分；

步骤162，将待定级告警所属的第一警报中的所有告警按告警时间映射到所述指标数据中；

步骤163，统计各预设时间滑动窗口内警报内告警的频次信息以及各预设时间滑动窗口内指示数据的平均值及方差；

步骤164，根据告警频次阈值对各预设时间滑动窗口内警报内告警的频次信息进行筛选，得到各预设时间滑动窗口的告警个数；

步骤165，计算各预设时间滑动窗口中告警的异常程度；

步骤166，根据待定级告警的告警时间前第i个窗口的窗口内异常程度以及待定级告警的告警时间前第i个窗口的窗口内的告警个数，计算严重程度量化指数。

该实施例中，具体实现时，如图5所示，严重程度量化指数计算中，将根据告警关联指标的数值及特定时间范围内的告警个数计算严重程度量化指数，具体说明如下：

当系统中部分指标出现异常值时，便会触发告警，比如CPU利用率，磁盘容量等指标，因此，部分告警存在对应的关联指标，这种关联关系通常被作为告警的一个属性记录在告警中。

该子阶段的输入数据为待定级告警，与待定级告警属于同一警报的其他告警，待定级告警的关联指标数据。

输入参数为时间窗口的大小，以及告警的频次阈值。

首先，将基于时间窗口对指标数据进行切分，假设时间窗口为5分钟，则从待定级告警的告警时间开始，向前0-5分钟为第一个时间窗口，向前5-10分钟为第二个时间窗口，以此类推。

实现数据切分后，可以将所有输入数据中的告警根据告警时间映射到指标数据中，获取这些告警对应的指标数值以及采样时间。

并统计在各时间窗口的时间段内的告警个数并记录，同时根据参数告警的频次阈值对告警个数进行筛选，如果时间窗口内的告警个数低于此阈值，则认为该时间窗口内告警个数为0，这主要是防止少量的正常值被错误的判断为异常值并发出告警。

统计各时间窗口内的告警个数的同时，需要计算时间窗口内的指标数据的平均值及方差，并计算每个时间窗口内多个产生告警的异常点的平均值，最终通过如下公式计算单个窗口内的异常程度

：

其中，

代表发出告警的异常点的平均值，

代表时间窗口内所有指标数据的平均值，s代表时间窗口内所有指标数据的方差。

得到以上信息后，将通过公式，

计算待定级告警严重程度的量化指数Critial；

其中，C表示严重程度量化指数的计算方法，

表示据待定级告警的告警时间前第i个窗口的窗口内异常程度，

表示待定级告警的告警时间前第i个窗口的窗口内的告警个数；

一个简单示例，

，这里，M表示窗口的个数；

即第i个时间窗口内的异常程度将于该时间窗口内的告警个数相乘，所有时间窗口内的异常程度进行加和后，除以参与计算的告警总个数，最终结果即是严重程度量化指数。

本发明的一可选的实施例中，步骤16可以包括：

步骤161，根据所述影响范围量化指数、影响范围权重、所述严重程度量化指数以及严重等级权重，计算告警优先级评分；

步骤162，根据所述告警优先级评分以及对应的评分范围，确定所述待定级告警的级别。

该实施例中，具体实现时，如图6所示，在优先级判定部分，用户可以为影响范围指数和严重程度指数分别赋予一个权重，比如0.5和0.5，两个指数将分别与权重相乘后进行加和，所得结果为优先级评分，即

，其中

表示严重等级权重，

表示影响范围权重，接着将计算系统中现有的所有告警的优先级评分的平均值

和方差s，并设立如下的映射规则：

根据映射规则，将告警的优先级评分映射为对应的告警处理优先级。

进一步地，用户在使用过程中，可对效果进行反馈，如果觉得效果不佳，可从影响范围和严重程度两个角度进行评价，比如用户认为当前告警的处理优先级过高，实际的影响范围并没有达到心中预期，可评价影响范围指数过高，则将提高影响范围量化计算中的警报关联度阈值，同理可对严重程度量化指数计算中的告警频次阈值进行调控，已实现对告警处理优先级的调整。

下面结合具体实施例说明上述方法的实现过程：

如图7所示，挖掘与待定级告警同一故障的其他告警训练阶段：

假设存在多条历史告警，分别属于不同的警报，其中告警a属于警报A，告警z属于警报Z，均具备运维部门，host，告警描述，告警等级属性，其中运维部门和host完全一致，则训练决策树模型后，可得决策树，二者属于同一叶子节点，但属于不同警报，因此，需要采用长短期记忆神经网络进行进一步划分，首先对告警a与告警z的描述进行预处理，预处理过程可以采用正则表达式的方式完成，比如通过正则表达式“

”可以识别告警信息“2020-10-10 10:10:20 CPU占用率94%”中的“2020-10-10 10:10:20”，并将其用<time>表示，并去除如“%”的符号，接着将分词后的词语向量化，向量化的过程采用预先训练好的开源词向量，不在词典中的词应去除，词向量化结果传入神经网络中，最终的softmax层目标为2分类，即输出是否为同一故障告警。

如图8所示，挖掘与待定级告警同一故障的其它告警推断阶段：

将待定级告警将被输入到决策树中，并被划分到特定的叶子节点中，然后，待定级告警的描述将与其他同属于该节点的告警的描述分别送至神经网络中，如果输出结果中存在属于同一故障这一结果，则将该告警归入这一故障对应的警报中。如果输出结果均为不是同一故障，则新创建一个警报，并将告警归入到新创建的警报中，同时重新训练基于长短期记忆神经网络的改进决策树模型。

警报关联系数计算：将被分为警报时间向量化，警报文本向量化和关联系数计算三部分分别讲解，示例如下，假设只有三条告警，6号告警为待定级告警，第1-5号告警为历史告警，以告警中的告警时间，所属警报和告警部门三个属性为例，其余文本属性的处理方法与告警部门属性的处理方法相同。

由于3，4，5号告警属于警报F，因此不参与警报Z的属性向量化过程。警报Z的属性向量化过程如下：

首先演示时间向量化的方法，假设时间窗口为5min（用户输入的参数），由于待定级告警的告警时间为2020-10-10 10:18:00，则2020-10-10 10:13:00-2020-10-10 10:18:00为第一个时间窗口，2020-10-10 10:08:00-2020-10-10 10:13:00为第二个时间窗口，在第一个时间窗口内，警报Z共有一条告警，即5号告警，在第二个时间窗口内，警报Z共有两条告警，即1，2号告警，由于不存在其他告警因此警报Z的时间向量化结果为[1，2]。警报F的时间向量化过程与警报Z相同，时间窗口的划分与待定级告警所属警报的时间窗口划分方法一致，且时间窗口的开始及结束时间完全相同。由此可知警报F的时间向量化结果为[1，2]。

计算两警报之间的关联系数，计算方法如下：

则两个警报时间属性的相关系数为1，接着查看文本属性，比如示例中的告警部门即是一种典型的文本属性，向量化方法以基础业务为例，分词结果为基础/业务，“/”代表分割符，从网络中获取已经训练好的词向量；

查询词向量字典中基础和业务对应的词向量，假设“基础”对应的词向量结果为[1，2，3，3]，“业务”对应的为[3，2，1，3]，则“基础业务”的向量化结果为

，即[2，2，2，3]，除以2的原因为基础业务由“基础”和“业务”两个词组成。假设“网络应用”的向量化结果为[0，1，1，1]，则相关系数计算结果为0.333，计算方法与上文时间属性相关系数计算方法相同。假设两警报之间的关联系数取最小的属性关联系数，则最终两个警报之间的关联系数计算结果为0.333，方程如下：

拓扑距离计算：假设存在三个告警，其分别属于警报A，B，C，其告警内的节点属性的值分别为“拓扑节点A”，“拓扑节点B”，“拓扑节点C”（实际过程中，可能为ip信息，或主机名称等信息），三个告警对应的拓扑图如图4，则A->A的拓扑距离为0，A->C的拓扑距离为1，A->B的拓扑距离为2，在本发明中对拓扑距离的计算忽略了拓扑图的方向性，即B->A和A->B的拓扑距离均为2，因此可知警报A与警报B的拓扑距离为2，警报A与警报C的拓扑距离为1。

影响范围量化指数计算：假设待定级告警所属警报的编号为Z，采用上文的警报关联系数计算警报Z与其他历史告警中的警报之间的相关系数与拓扑距离结果如下表：

假设警报关联系数阈值被设定为0.3，则警报C不被认为是警报Z的关联警报，不参与影响范围量化指数的计算过程，因此，影响范围量化指数的计算过程如下，分别将相关系数和拓扑距离带入到方程中，结果为0.58，则警报Z的影响范围量化指数为0.58：

告警频次筛选：将包含告警频次筛选的具体方法，其中告警频次筛选的前置步骤统计时间窗口内的警报的告警频次信息的具体方法在上文中警报的时间向量化中已经作出了演示，假设结果与上文一致，即待定级告警所属警报告警频次信息统计后的结果为[1，2]，加入告警频次阈值为2，由于第一个时间窗口中只出现了1次告警，小于频次阈值，所以将1修改为0，最终频次信息结果修正为[0，2]。

窗口异常程度指数计算：将包含窗口异常程度指数的计算方法窗口异常程度指数的计算方法如下，假设对于如下的指标数据，他们属于同一个时间窗口范围内，且时间窗口内只有以下三个采样点：

由表可知，其中只有一个采样时间产生了告警，因此故障指标平均值为

=70，全部指标平均值为

，全部指标的方差为

，因此窗口异常程度指数的计算方程为

；

严重程度量化指数的计算方法：假设待定级告警所属警报的时间窗口编号，时间窗口内的告警频次及窗口异常程度指数如下表所示：

则待定级告警的严重程度量化指数的计算方程如下，带入时间窗口对应的告警频次和异常程度指数，则待定级告警的异常程度量化指数为6：

告警优先级判定及反馈：假设存在一条待定级告警及2条历史告警，它们的影响范围量化指数和异常程度量化指数如下表所示：

为了判定当前待定级告警的处理优先级，需要先计算三条告警的综合优先级评分，假设影响范围量化指数和异常程度量化指数的权重均为0.5，则三条告警的综合优先级评分分别为：

1号待定级告警：

2号历史告警：

3号历史告警：

由以上优先级评分可求得告警优先级评分均值

=7.25和方差s=10.06，则根据如下标准，由于

-s=-2.81，可知待定级告警的处理优先级为中，假设实际使用中发现该警报影响范围较大，处理优先级过低，则可以评价影响范围量化效果不佳，此时会提高影响范围量化指数计算中的关联度阈值，比如假设原本的关联度阈值为0.5，则调整为0.6，以优化效果。

本发明的上述实施例实现了对告警影响范围和严重程度的量化计算，解决了无法量化故障影响范围及严重程度的问题，并进一步解决了大批量告警的处理优先级难以确定的问题将运维经验融入到对告警的优先级判定中，从而提高运维系统告警处理效率。

如图9所示，本发明的实施例还提供一种告警级别的确定装置90，所述装置包括：

获取模块91，用于获得待定级告警；

处理模块92，用于根据历史告警库中，获得与所述待定级告警属于同一故障的同故障告警；根据所述同故障告警，确定同问题告警；获取所述待定级告警所属的第一警报与所述同问题告警所属的第二警报之间的拓扑距离；根据所述拓扑距离和第一警报与第二警报之间的相关度，计算影响范围量化指数；根据待定级告警的关联指标和所述同故障告警，计算严重程度量化指数；根据所述影响范围量化指数和所述严重程度量化指数，确定所述待定级告警的级别。

可选的，根据所述同故障告警，确定同问题告警，包括：

计算第一警报与所述历史警报的相关度；

根据公式：

计算影响范围量化指数；

其中，

计算各预设时间滑动窗口中告警的异常程度；

需要说明的是，该装置是与上述方法对应的装置，上述方法实施例中的所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本发明的实施例还提供一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上所述的方法对应的操作。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

此外，需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行，某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种告警级别的确定方法，其特征在于，包括：

获得待定级告警；

根据所述同故障告警，确定同问题告警；

获取所述待定级告警所属的第一警报与所述同问题告警所属的第二警报之间的拓扑距离；获取第一警报与第二警报之间的相关度；

根据所述拓扑距离和所述相关度，计算影响范围量化指数；

根据所述影响范围量化指数和所述严重程度量化指数，确定所述待定级告警的级别；

其中，根据所述同故障告警，确定同问题告警，包括：

将第一警报中的所有告警按照发生时间进行聚合，得到按时间长度聚合的第一警报，包括以向量形式表示的警报在不同时间段内出现的频次信息；

计算第一警报与所述历史警报的相关度；

2.根据权利要求1所述的告警级别的确定方法，其特征在于，根据历史告警库中，获得与所述待定级告警属于同一故障的同故障告警，包括：

3.根据权利要求2所述的告警级别的确定方法，其特征在于，所述决策树中分支节点的计算方法，即信息增益法是根据信息熵进行的，熵的计算公式如下：

其中，假设数据源有所有可能发生的情况，有n种取值：

，则

代表n个状态中的第i个状态，

代表出现第i个状态的概率，H(D)代表用于消除系统不确定性所需的信息量。

4.根据权利要求2所述的告警级别的确定方法，其特征在于，决策点的选取通过计算信息增益实现，公式如下：

；

其中，Gain(D,A)代表原始数据在某个属性中是否为A作为分类标准的信息增益，H(D)代表原始数据的熵值，而H(D|A)则为采用了划分标准后数据集D的熵值，这一差值即为信息增益，通过该方法能够判断一个新的数据是否属于某一类别。

5.根据权利要求1所述的告警级别的确定方法，其特征在于，相关度计算主要通过关联系数实现，具体公式如下：

其中，

6.根据权利要求5所述的告警级别的确定方法，其特征在于，计算完各个属性独立的关联系数后，采用如下公式计算两警报之间的综合相关程度，即两警报描述同一问题的可能性：

其中，N表示告警的个数，

表示两个警报第i个属性的相关系数，

7.根据权利要求1所述的告警级别的确定方法，其特征在于，获取所述待定级告警所属的第一警报与所述同问题告警所属的第二警报之间的拓扑距离，包括：

8.根据权利要求7所述的告警级别的确定方法，其特征在于，根据所述拓扑距离和所述相关度，计算影响范围量化指数，包括：

根据公式：

计算影响范围量化指数；

其中，

9.根据权利要求1所述的告警级别的确定方法，其特征在于，根据待定级告警的关联指标和所述同故障告警，计算严重程度量化指数，包括：

计算各预设时间滑动窗口中告警的异常程度；

10.根据权利要求9所述的告警级别的确定方法，其特征在于，通过如下公式计算单个窗口内的异常程度

：

其中，

代表发出告警的异常点的平均值，

11.根据权利要求10所述的告警级别的确定方法，其特征在于，通过公式，

计算待定级告警严重程度的量化指数Critial；

其中，C表示严重程度量化指数的计算方法，

表示待定级告警的告警时间前第i个窗口的窗口内的告警个数。

12.根据权利要求11所述的告警级别的确定方法，其特征在于，通过公式，

，计算待定级告警严重程度量化指数Critial；这里，M表示窗口的个数；即第i个时间窗口内的异常程度将于该时间窗口内的告警个数相乘，所有时间窗口内的异常程度进行加和后，除以参与计算的告警总个数，最终结果即是严重程度量化指数。

13.根据权利要求1所述的告警级别的确定方法，其特征在于，根据所述影响范围量化指数和所述严重程度量化指数，确定所述待定级告警的级别，包括：

14.根据权利要求13所述的告警级别的确定方法，其特征在于，按下式计算告警优先级评分Priority score，

，其中

表示严重等级权重，

表示影响范围权重，Critial表示告警严重程度量化指数，Affect表示影响范围量化指数。

15.根据权利要求13所述的告警级别的确定方法，其特征在于，用户在使用过程中，通过调整告警严重程度量化指数和/或影响范围量化指数，实现对告警处理优先级的调整。

16.一种告警级别的确定装置，其特征在于，所述装置包括：

获取模块，用于获得待定级告警；

处理模块，用于根据历史告警库中，获得与所述待定级告警属于同一故障的同故障告警；根据所述同故障告警，确定同问题告警；获取所述待定级告警所属的第一警报与所述同问题告警所属的第二警报之间的拓扑距离；获取第一警报与第二警报之间的相关度；根据所述拓扑距离和所述相关度，计算影响范围量化指数；根据待定级告警的关联指标和所述同故障告警，计算严重程度量化指数；根据所述影响范围量化指数和所述严重程度量化指数，确定所述待定级告警的级别；其中，根据所述同故障告警，确定同问题告警，包括：将第一警报中的所有告警按照发生时间进行聚合，得到按时间长度聚合的第一警报，包括以向量形式表示的警报在不同时间段内出现的频次信息；将其它历史警报内的告警进行文本属性向量化处理，得到历史警报的文本属性向量；计算第一警报与所述历史警报的相关度；若所述相关度大于预设的相关度阈值，确定该历史警报与第一警报描述相同问题，将该历史警报中的告警确定为与待定级告警描述相同问题的同问题告警。

17.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-15中任一项所述的方法对应的操作。

18.一种计算机可读存储介质，其特征在于，存储有指令，所述指令在计算机上运行时，使得计算机执行如权利要求1至15任一项所述的方法。