CN115118580A

CN115118580A - 告警分析方法以及装置

Info

Publication number: CN115118580A
Application number: CN202210550509.8A
Authority: CN
Inventors: 詹挺华
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-09-27
Anticipated expiration: 2042-05-20
Also published as: CN115118580B

Abstract

本说明书实施例提供告警分析方法以及装置，其中所述告警分析方法包括：获取待分析异常数据，其中，待分析异常数据包括多个异常时序数据和多个异常事件数据；对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件，其中，异常事件包括异常事件来源信息和异常事件时间信息；利用异常事件来源信息挖掘多个异常事件之间的相关性；基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果。利用异常时序数据和异常事件数据进行告警分析，扩大了告警分析的数据范围，基于异常事件来源信息和异常事件时间信息推断异常事件之间的因果关系，定位出异常的根本原因，提高了告警分析的准确性。

Description

告警分析方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种告警分析方法，同时涉及一种告警分析装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序。

背景技术

随着计算机技术的发展，信息系统的链路越来越复杂，频繁的项目更新或者参数变更会伴随大量网络告警事件的发生。告警是在特定事件发生时发出的通报构成的一种事件报告，用于传递告警信息，故障被定义为产生功能异常的原因，是产生告警事件的原因。

目前，通常对当前的告警信息进行分析，获得告警的根本原因，由于告警信息通常只是故障的表象，只对当前告警信息进行分析无法深入故障的根因，导致告警分析结果准确性差，因此，因此，亟需一种准确的告警分析方案。

发明内容

有鉴于此，本说明书实施例提供了一种告警分析方法。本说明书一个或者多个实施例同时涉及一种告警分析装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种告警分析方法，包括：

获取待分析异常数据，其中，待分析异常数据包括多个异常时序数据和多个异常事件数据；

对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件，其中，异常事件包括异常事件来源信息和异常事件时间信息；

利用异常事件来源信息挖掘多个异常事件之间的相关性；

基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果。

可选地，获取待分析异常数据的步骤，包括：

获取待分析数据，其中，待分析数据包括时序数据和事件数据；

对时序数据进行异常检验，获得时序数据中的异常时序数据；

对事件数据进行异常检验，获得事件数据中的异常事件数据。

可选地，对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件的步骤，包括：

分别将多个异常时序数据的数据周期划分为正常时间段和告警时间段；

对比正常时间段的数据特征以及告警时间段的数据特征，获得多个异常时序数据中与告警相关的异常事件；

计算多个异常事件数据之间的关联度，获得多个异常事件数据中与告警相关的异常事件。

可选地，计算多个异常事件数据之间的关联度，获得多个异常事件数据中与告警相关的异常事件的步骤，包括：

基于多个异常事件数据的异常事件来源信息，获取历史异常事件数据；

从多个异常事件数据中提取第一异常事件数据和第二异常事件数据，其中，第一异常事件数据和第二异常事件数据是多个异常事件数据中任意两个不同的事件数据；

基于历史异常事件数据、第一异常事件数据以及第二异常事件数据，计算第一异常事件数据和第二异常事件数据之间的关联度；

根据关联度，获得多个异常事件数据中与告警相关的异常事件。

可选地，利用异常事件来源信息挖掘多个异常事件之间的相关性的步骤，包括：

从多个异常事件中提取第一异常事件和第二异常事件，其中，第一异常事件和第二异常事件是多个异常事件中任意两个不同的事件；

基于异常事件来源信息，计算第一异常事件和第二异常事件之间的条件熵；

基于异常事件来源信息，计算第一异常事件和第二异常事件之间的信息熵；

根据条件熵和信息熵生成第一异常事件和第二异常事件的不确定性率；

比较不确定性率和预设阈值，获得第一异常事件和第二异常事件之间的相关性。

可选地，基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果的步骤，包括：

基于相关性和异常事件时间信息对多个异常事件进行排序，生成多个异常事件之间的因果关系；

基于因果关系构建多个异常事件对应的事件因果关系图；

利用事件因果关系图，获得待分析异常数据的分析结果。

可选地，在基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果的步骤之后，还包括：

获取异常事件的标注信息；

基于标注信息对异常事件进行标注，调整异常事件的因果图。

根据本说明书实施例的第二方面，提供了一种告警分析装置，包括：

获取模块，被配置为获取待分析异常数据，其中，待分析异常数据包括多个异常时序数据和多个异常事件数据；

筛选模块，被配置为对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件，其中，异常事件包括异常事件来源信息和异常事件时间信息；

挖掘模块，被配置为利用异常事件来源信息挖掘多个异常事件之间的相关性；

确定模块，被配置为基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果。

可选地，获取模块，进一步被配置为获取待分析数据，其中，待分析数据包括时序数据和事件数据；对时序数据进行异常检验，获得时序数据中的异常时序数据；对事件数据进行异常检验，获得事件数据中的异常事件数据。

可选地，筛选模块，进一步被配置为分别将多个异常时序数据的数据周期划分为正常时间段和告警时间段；对比正常时间段的数据特征以及告警时间段的数据特征，获得多个异常时序数据中与告警相关的异常事件；计算多个异常事件数据之间的关联度，获得多个异常事件数据中与告警相关的异常事件。

可选地，筛选模块，进一步被配置为基于多个异常事件数据的异常事件来源信息，获取历史异常事件数据；从多个异常事件数据中提取第一异常事件数据和第二异常事件数据，其中，第一异常事件数据和第二异常事件数据是多个异常事件数据中任意两个不同的事件数据；基于历史异常事件数据、第一异常事件数据以及第二异常事件数据，计算第一异常事件数据和第二异常事件数据之间的关联度；根据关联度，获得多个异常事件数据中与告警相关的异常事件。

可选地，挖掘模块，进一步被配置为从多个异常事件中提取第一异常事件和第二异常事件，其中，第一异常事件和第二异常事件是多个异常事件中任意两个不同的事件；基于异常事件来源信息，计算第一异常事件和第二异常事件之间的条件熵；基于异常事件来源信息，计算第一异常事件和第二异常事件之间的信息熵；根据条件熵和信息熵生成第一异常事件和第二异常事件的不确定性率；比较不确定性率和预设阈值，获得第一异常事件和第二异常事件之间的相关性。

可选地，确定模块，进一步被配置为基于相关性和异常事件时间信息对多个异常事件进行排序，生成多个异常事件之间的因果关系；基于因果关系构建多个异常事件对应的事件因果关系图；利用事件因果关系图，获得待分析异常数据的分析结果。

可选地，该装置还包括：调整模块，被配置为获取异常事件的标注信息；基于标注信息对异常事件进行标注，调整异常事件的因果图。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行：

利用异常事件来源信息挖掘多个异常事件之间的相关性；

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述告警分析方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述告警分析方法的步骤。

本说明书一个实施例提供的告警分析方法，获取待分析异常数据，其中，待分析异常数据包括多个异常时序数据和多个异常事件数据；对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件，其中，异常事件包括异常事件来源信息和异常事件时间信息；利用异常事件来源信息挖掘多个异常事件之间的相关性；基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果。通过利用多个异常时序数据和多个异常事件数据进行告警分析，扩大了告警分析的数据范围，基于异常事件来源信息和异常事件时间信息推断异常事件之间的因果关系，定位出异常的根本原因，提高了告警分析的准确性，减轻工作人员的运维压力，提高了存储系统的线上稳定性。

附图说明

图1是本说明书一个实施例提供的一种告警分析方法的流程图；

图2是本说明书一个实施例提供的一种告警分析方法中告警周期的示意图；

图3是本说明书一个实施例提供的一种告警分析方法的处理过程流程图；

图4是本说明书一个实施例提供的一种告警分析装置的结构示意图；

图5是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

告警项：预先设置的告警规则。

检查项：对一个告警项，可以逐步排查可能的原因，也就是说，逐一核对检查项是否通过，比如CS下线、慢盘、网络故障、交换机故障、内核日志、tcp重传高等。

信息熵：对事件不确定程度的一种度量。

频繁项集：如果有两个事件经常同时出现，则称这两个事件为频繁项集。

告警周期：从故障发生开始告警到故障消失告警消失的整个时间段。

格兰杰因果：格兰杰因果认为如果两个变量存在因果性，那么需要满足两个条件，首先两个变量存在时间先后性，其次父辈节点能够提高子节点的预测精度。

API：应用程序接口(API，Application Programming Interface)，又称为应用编程接口，就是软件系统不同组成部分衔接的约定。

日志数据：网络设备、系统及服务程序等，在运作时产生的事件记录；每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。

变更信息：应用系统变更通常是由需求或故障驱动的变更，比如：新的信息系统上线，对现有系统的程序投产、配置变更、项目参数调整、数据维护、补丁升级、账户迁移、系统切换、版本回滚等。

在本说明书中，提供了一种告警分析方法，本说明书同时涉及一种告警分析装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

目前，存储系统每天都会接收到很多告警，目前的告警分析系统会对大量的数据源进行检查，得到大量的异常事件，如何在这些异常事件中得到告警发生的根因成了目前告警自动分析的难点之一。通常对当前的告警信息进行分析，获得告警的根本原因，由于告警信息通常只是故障的表象，只对当前告警信息进行分析无法深入故障的根因，导致告警分析结果准确性差，因此，因此，亟需一种准确的告警分析方案。

为了提高告警分析的准确性，本说明书一个或多个实施例提供了一种告警分析方案，该告警分析方案基于事件数据的因果推断方法对发现的异常事件之间的因果关系进行推断，定位出异常的根因，提高告警自动分析的准确性，减轻工作人员的运维压力，提高存储系统在线上的稳定性。

具体地，通过获取待分析异常数据，其中，待分析异常数据包括多个异常时序数据和多个异常事件数据；对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件，其中，异常事件包括异常事件来源信息和异常事件时间信息；利用异常事件来源信息挖掘多个异常事件之间的相关性；基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果。通过利用多个异常时序数据和多个异常事件数据进行告警分析，扩大了告警分析的数据范围，基于异常事件来源信息和异常事件时间信息推断异常事件之间的因果关系，定位出异常的根本原因，提高了告警分析的准确性，减轻工作人员的运维压力，提高了存储系统的线上稳定性。

参见图1，图1示出了本说明书一个实施例提供的一种告警分析方法的流程图，具体包括以下步骤：

步骤102：获取待分析异常数据，其中，待分析异常数据包括多个异常时序数据和多个异常事件数据。

本说明书一个或多个实施例中，扩大告警分析的数据范围，可以在告警分析开始时，获取包括多个异常时序数据和多个异常事件数据，基于多个异常时序数据和多个异常事件数据进行告警分析。

具体地，待分析异常数据是指需要进行告警分析的异常数据，异常数据包括运行数据、参数数据等等，具体根据实际情况进行选择，本说明书实施例对此不做任何限定。时序数据是指时间序列数据，时间序列数据是同一个统一指标按时间顺序记录的数据列。事件，是追踪或记录的用户行为或项目过程，事件数据是指追踪或记录的用户行为或项目过程产生的数据。事件数据可以包括日志数据、变更信息、外部API等，变更信息包括但不限于服务的变更升级、机器的升级，具体根据实际情况进行选择，本说明书实施例对此不做任何限定。

实际应用中，可以先获取待分析数据，对待分析数据进行异常检验，获得待分析数据中的异常数据，也即，上述获取待分析异常数据的步骤，可以包括以下步骤：

本说明书一个或多个实施例中，日志数据包括系统日志、内核日志以及服务的运行日志，并且很多故障都是由变更引起的，因此，可以获取包括时序数据、日志数据、变更信息、外部API等数据的带分析数据，对待分析数据进行异常检验，其中，时序数据可以从云服务器中获取，云服务器中有大量的机器指标以及服务状态指标，如果机器或者服务出现了异常，指标就会展现出异常。

具体地，待分析数据是指需要进行告警分析的数据，待分析数据中包括时序数据和事件数据，具体根据实际情况进行选择，本说明书实施例对此不做任何限定。

实际应用中，对待分析数据进行异常检验的方式有多种，具体根据实际情况进行选择，本说明书实施例对此不做任何限定。

一种可能的实现方式中，获取预先设置的异常事件记录表，将待分析数据和预先设置的异常事件记录表进行匹配，获得待分析异常数据中的异常数据。进一步地，异常事件记录表可以划分为两个区，这两个区分别为异常时序数据记录区和异常事件数据记录区，将待分析数据与异常时序数据记录区进行匹配，获得待分析数据中的异常时序数据，将待分析数据与异常事件数据记录区进行匹配，获得待分析数据中的异常事件数据。

另一种可能的实现方式中，可以将待分析数据划分为时序数据和事件数据，其中，对待分析数据的方式包括但不限于根据数据标识进行划分，具体根据实际情况进行选择，本说明书实施例对此不做任何限定。将待分析数据划分为时序数据和事件数据之后，分别对时序数据和事件数据进行异常检验，获得时序数据中的异常时序数据以及事件数据中的异常事件数据。

具体地，可以利用预设阈值或者预先设置的统计模型判断时序数据中的指标是否异常，获得时序数据中的异常时序数据。还可以获取预先设置的范式，其中，预先设置的范式基于专家经验收集，这些范式可能会对服务运行状态产生影响，利用预先设置的范式匹配获得异常日志。对于变更信息而言，任何一个微小的变更都可能导致故障的引入，因此，可以对变更信息进行分类，例如将变更信息分为配置升级、代码更新、机器缩容扩容等常见的变更，对分类后的变更信息进行异常检验，若在变更之后产生报警，那么该变更就可能是导致告警的原因。外部API也可以理解为诊断性API，由于这些诊断性API通常不是通用的API，比如只是对网络问题进行诊断或者对硬件问题进行诊断，因此，获得诊断性异常之后，还可以进一步对诊断的异常进行分析，判断根因。示例性地，给定异常机器以及异常的时间点，那么诊断性API同样会关联异常事件并进行输出，而这些异常事件则是诊断的一个输入，因此，对诊断的异常进行分析，就可以获得根因。

应用本说明书实施例的方案，通过获取待分析数据，其中，待分析数据包括时序数据和事件数据；对时序数据进行异常检验，获得时序数据中的异常时序数据；对事件数据进行异常检验，获得事件数据中的异常事件数据，扩大了告警分析的数据范围，提高了告警分析的准确性。

步骤104：对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件，其中，异常事件包括异常事件来源信息和异常事件时间信息。

本说明书一个或多个实施例中，在获得待分析异常数据之后，进一步地，由于存在大量数据源，因此，会检测出大量的异常，但实际上，存在一定数量的异常数据与告警无关，这些与告警无关的异常数据，可能会对告警分析产生影响，因此，可以对待分析数据进行筛选，获得待分析数据与告警相关的多个异常事件。

具体地，异常事件来源信息是指异常事件的异常数据来源，异常事件时间信息是指异常事件发生的时间。

实际应用中，对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件的方式有多种，具体根据实际情况进行选择，本说明书实施例对此不做任何限定。

一种可能的实现方式中，可以将根据先验知识，预先设置告警事件数据表，其中，告警事件数据表中包括与告警相关的多个异常数据，将待分析异常数据与预先设置的告警时间数据表进行匹配，筛选出待分析异常数据中与告警相关的多个异常事件。

另一种可能的实现方式中，针对待分析数据中的异常时序数据，可以对异常时序数据的数据周期进行划分，进一步获得多个异常时序数据与告警相关的异常事件，针对待分析数据中的异常事件数据，可以计算多个异常事件数据之间的关联度，获得多个异常事件数据中与告警相关的异常事件，也即，上述对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件的步骤，可以包括以下步骤：

本说明书一个或多个实施例中，在获得多个异常时序数据和多个异常事件数据之后，可以分别将多个异常时序数据的数据周期划分为正常时间段和告警时间段。

具体地，如图2所示，图2示出了本说明书一个实施例提供的一种告警分析方法中告警周期的示意图，由于线上的告警是通过一个告警脚本去定期的执行，如果检测出异常之后则会产生告警，则可以根据告警脚本的执行周期，在时间轴上画出一系列的时间点，将异常时序数据的数据周期划分为正常时间段和告警时间段，进一步地，数据周期中还可以包括恢复时间段，其中，数据周期也可以理解为告警周期，正常时间段也可以理解为正常期，告警时间段也可以理解为异常期或告警期，恢复时间段也可以理解为恢复期。

需要说明的是，告警时间段的数据特征也可以理解为异常特征，异常特征是指异常事件在正常期和异常期的表现，正常时间段的数据特征也可以理解为正常特征，以时序数据来说，正常时间段的数据特征是告警之前的数字特征；以事件数据来说，正常时间段的数据特征是该事件在这个告警没有发生的时候的发生次数。

示例性地，脚本每5分钟执行一次，在12:00，12:05，12:10，12:15，12:20，12:25，12:30都执行了一次，然后在12点14分产生了异常。那么异常应该是发生在12点10分到12点14分之间的，那么在12点10分之前是正常时间段，12点10分之后就是告警时间段，然后在12点25分之后没有产生告警，那么说明这时告警恢复了，那么12点25分之后就是恢复时间段。

本说明书一个或多个实施例中，针对异常时序数据，在将多个异常时序数据的数据周期划分为正常时间段和告警时间段之后，可以对比正常时间段的数据特征以及告警时间段的数据特征，用预先设置的检验方法获得多个异常时序数据中与告警相关的异常事件，其中，预先设置的检验方法具体根据实际情况进行选择，本说明书实施例对此不做任何限定。

实际应用中，预先设置的检验方法可以是Mann-Kendall检验法，Mann-kendall检验就是把正常时间段以及告警时间段的数据混合在一起，按照数值从小到大排列。如果两个时间段的数据没有大的差别，那么正常时间段的数据和告警时间段的数据应该是均匀分布的，但是如果告警时间段有下降的趋势，那么告警时间段应该大多排在前面，如果告警时间段有上升的趋势，那么告警时间段应该大多排在后面。

具体地，针对时序数据，可以先找到“变点”，其中，变点是指时序数据的统计学特征发生变化的时候，也就是该时序指标发生异常的时候。对于变点的检测，可以采用的是预先设置的变点检测方法，累积计算指标的变化，当超过1.5sigma的时候认为该点为变点。进一步地，在mann-kendall检验中就可以知道数据在前后的一个趋势变化，可以通过以下方式确定趋势是从什么时候开始变化的：

假设目前的数据为s1，s2，…，sn，一共是n个数，通过前面的mann-kendall检验了可以知道数据是增大的，那么定义变点检测的检验量为g，g0为0，(如果趋势往下此时为min)

g1＝max(0,g0+x–u0+e)

g2＝max(0,g1+x2–u1+e)

…

gn＝ma(0,g(n-1)+xn–u(n-1)+e)

其中u(n-1)代表前n-1个数的均值，e为随机数，代表正常波动，如果整体的趋势为增加的话，那么gn会越来越大，当大于1.5倍的sigma的时候，即1.5倍方差的时候认为这时候是变点，将该变点作为时序序列的一个异常时间点。

应用本说明书实施例的方案，分别将多个异常时序数据的数据周期划分为正常时间段和告警时间段，对比正常时间段的数据特征以及告警时间段的数据特征，获得多个异常时序数据中与告警相关的异常事件，计算多个异常事件数据之间的关联度，获得多个异常事件数据中与告警相关的异常事件，提高了告警分析的准确性，并且，通过Mann-Kendall检验法不仅可以检验出前后的数据是否一致，同时还可以检验出前后数据的趋势，进一步提高了告警分析的准确性。

本说明书一个或多个实施例中，针对异常事件数据，可以获得大量的未标注的历史数据，通过历史数据可以计算两个事件之间的关联度，也可以理解为提升度，通过支持度可以衡量异常事件和告警事件的关联性，也即，上述计算多个异常事件数据之间的关联度，获得多个异常事件数据中与告警相关的异常事件的步骤，可以包括以下步骤：

本说明书一个或多个实施例中，基于历史异常事件数据、第一异常事件数据以及第二异常事件数据，计算第一异常事件数据和第二异常事件数据之间的关联度的方式具体如下：

记第一异常事件数据为A和第二异常事件数据为B，记D为历史异常事件数据，也可以理解为总体告警事件集。

第一个计算的指标是第二异常事件数据B在总体中出现的比例，所谓总体就是所有的历史异常事件数据，具体计算时，可以利用以下公式(1)：

第二个计算的指标是第二异常事件数据B在第一异常事件数据A中出现的比例，具体计算时，可以利用以下公式(2)：

在获得P(B)和P(B|A)之后，可以利用以下公式(3)计算第一异常事件数据和第二异常事件数据之间的关联度，其中，公式(3)具体如下：

需要说明的是，关联度反应当A出现的时候能够提升多少B事件发生的概率，当关联度大于1的时候说明两个事件具有一定的相关性。

示例性地，假设数据库中当前一共收录了1000条告警信息，其中有200条是A告警，在每次告警的时候都会排查异常事件B是否发生。在1000条总体的告警中，异常事件B发生了100次，在200条告警A中，异常事件B发生了50次。那么关联度：

lift(B|A＝(50/200)/(100/1000)＝4

其中，关联度的含义为当告警A发生的时候，异常事件B出现的概率是总体的4倍。

应用本说明书实施例的方案，通过基于多个异常事件数据的异常事件来源信息，获取历史异常事件数据；从多个异常事件数据中提取第一异常事件数据和第二异常事件数据，其中，第一异常事件数据和第二异常事件数据是多个异常事件数据中任意两个不同的事件数据；基于历史异常事件数据、第一异常事件数据以及第二异常事件数据，计算第一异常事件数据和第二异常事件数据之间的关联度；根据关联度，获得多个异常事件数据中与告警相关的异常事件，提高了异常事件的准确性，进一步提高了告警分析的准确性。

步骤106：利用异常事件来源信息挖掘多个异常事件之间的相关性。

本说明书一个或多个实施例中，在获取待分析异常数据，对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件之后，可以利用异常事件来源信息挖掘多个异常事件之间的相关性。

需要说明的是，筛选获得多个异常事件之后，由于多个异常事件中部分异常事件具有一定的传播性，例如在日志中我们检测出了blk，同时又检测出了diskerror，那么diskerror其实是由于blk引起的，此时blk为该告警的根因。

实际应用中，可以根据格兰杰因果提炼出以下假设：

如果事件A和事件B之间存在因果关系，事件A是事件B的因，那么事件A和事件B之间应该满足以下两个条件：

第一个条件，时间先后：因为未来不能改变过去，未来是由过去导致的，因此，事件A的发生应该早于事件B。

第二个条件，相关性：事件A发生之后事件B发生的概率会增加，即两个事件之间存在着相关性。

因此，根据上述两个假设，可以分析异常筛选留下的异常事件之间的根因关系。

值得说明的是，根据时间先后筛选后的异常可以以一个三元组的形式保存，该三元组可以为(异常，异常来源，异常时间)，因此，对比异常时间我们可以知道异常事件之间的时间顺序，就可以知道异常事件之间的先后顺序。

本说明书一个或多个实施例中，因为存在着大量的历史异常事件数据，因此我们可以利用历史异常事件数据两个异常事件之间的相关性。具体地，可以通过信息熵和条件熵的方式判断两个异常事件是否具有相关性，也即，上述利用异常事件来源信息挖掘多个异常事件之间的相关性的步骤，可以包括以下步骤：

具体地，信息熵是指一个事件的不确定性，条件熵是指一件事情在另外一件事发生的情况下的不确定性。

实际应用在，假如第一异常事件A发生的概率为p，可以利用以下公式(4)计算信息熵：

H(A)＝-plog(p) (4)

假如第一异常事件A在第二异常事件B发生的情况下，可以利用以下公式(5)计算条件熵：

H(A|B)＝-p(A|B)log(p(A|B)) (5)

在计算获得信息熵和条件熵之后，可以根据条件熵和信息熵计算第一异常事件和第二异常事件的不确定性率，具体将不确定性率记为UR，则可以利用以下公式(6)计算不确定性率：

在获得不确定性率之后，可以将不确定性率与预设阈值threshold进行比较，当UR大于预设阈值时，认为第一异常事件A在第二异常事件B具有相关性。

示例性地，在一次告警之后得到了A，B，C，D，E五个异常事件。通过上面指标的计算获得A，B具有相关性，B，C具有相关性，B，D具有相关性，C，D具有相关性，E则没有能与之匹配的，因此，可以看到A，B，C，D这四个异常是具有相关性的。

应用本说明书实施例的方案，通过从多个异常事件中提取第一异常事件和第二异常事件，基于异常事件来源信息，计算第一异常事件和第二异常事件之间的条件熵，基于异常事件来源信息，计算第一异常事件和第二异常事件之间的信息熵，根据条件熵和信息熵生成第一异常事件和第二异常事件的不确定性率，比较不确定性率和预设阈值，获得第一异常事件和第二异常事件之间的相关性，准确获得多个异常事件之间的相关性，使得告警分析过程更加准确，进一步获得正确的告警根因。

步骤108：基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果。

本说明书一个或多个实施例中，由于熵表示一个随机变量的不确定性，如果A是B的因，那么在事件A发生之后，因为B大概率会发生，那么此时不确定性就会大幅减少，但是B发生的时候A作为B的因同样会发生，只能识别出两个事件之间的相关性，不能识别出两个事件的因果，因此，在获取待分析异常数据，对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件，利用异常事件来源信息挖掘多个异常事件之间的相关性之后，进一步地，可以基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果。

应用本说明书实施例的方案，获取待分析异常数据，其中，待分析异常数据包括多个异常时序数据和多个异常事件数据；对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件，其中，异常事件包括异常事件来源信息和异常事件时间信息；利用异常事件来源信息挖掘多个异常事件之间的相关性；基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果。通过利用多个异常时序数据和多个异常事件数据进行告警分析，扩大了告警分析的数据范围，基于异常事件来源信息和异常事件时间信息推断异常事件之间的因果关系，定位出异常的根本原因，提高了告警分析的准确性，减轻工作人员的运维压力，提高了存储系统的线上稳定性。

实际应用中，可以根据相关性和异常事件时间信息，对多个异常事件进行排序。确定多个异常事件之间的因果关系，基于因果关系，获得待分析异常数据的分析结果，也即，上述基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果的步骤，可以包括以下步骤：

基于因果关系构建多个异常事件对应的事件因果关系图；

利用事件因果关系图，获得待分析异常数据的分析结果。

具体地，事件因果关系图是基于事件之间的因果关系构建的关系图，例如A与B相关，且A发生的时间早于B发生的时间，因此，构建的事件因果关系图是单向箭头由A指向B，也即“A→B”。

本说明书一个或多个实施例中，在获得事件因果关系图之后，可以获取故障的传播路径，根据传播路径就可以确定故障的根因以及故障的发展结果。

示例性地，比针对一个9点15分的告警，可能会检测到如下异常：

异常A：21:05 Medium Error异常日志(代表硬盘损坏)；

异常B：21:06 Diskutil增加(代表硬盘目前比较繁忙)；

异常C：21:10 Diskerror(该磁盘被系统标为了error)；

异常D：21:11网络交换机产生告警，网络问题。

利用之前计算相关性的方法，可以得到前面的异常A，B，C是相关的，根据时间顺序得到了异常A→异常B→异常C，异常D是不相关的。此时检出的异常，ABC是一条传播链，D则是一个单独的异常，那么认为ABC就是根因所在的传播链，因此，认为异常A就是根因，而异常C则是异常A的传播结果，该故障盘在系统中已经被标坏了。这种情况是没有产生工单的，实际应用中，也可以检出一个异常E，即周期21:12分的时候，在这台机器上产生了一个硬盘的故障工单，此时说明这个故障工单就是异常A的传播结果。

应用本说明书实施例的方案，基于相关性和异常事件时间信息对多个异常事件进行排序，生成多个异常事件之间的因果关系，基于因果关系构建多个异常事件对应的事件因果关系图，利用事件因果关系图，获得待分析异常数据的分析结果，定位出异常的根本原因，提高了告警分析的准确性，减轻工作人员的运维压力，提高了存储系统的线上稳定性。

值得说明的是，在整个告警周期中，本说明书实施例提供的告警分析方法，不仅会关注告警如何产生的，同时还会关注告警是如何恢复的。当告警消失，检测到告警恢复之后，可以查找工作人员采取了什么样的运维操作。

本说明书一种可选的实施例中提供的告警分析是一个闭环的设计，结合工单系统可以有打标功能，让工作人员选择本次告警相关的根因，接收工作人员选择的根因，对异常事件进行标注，调整异常事件因果图，逐渐迭代提升告警分析的准确性。也即，上述在基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果的步骤之后，还可以包括以下步骤：

获取异常事件的标注信息；

具体地，标注信息是指工作人员基于异常事件的因果图确定的信息，工作人员往往会选择和告警相关的根因，基于标注信息对异常事件进行标注，调整异常事件的因果图，之后，利用调整后的异常事件的因果图实现告警分析。

应用本说明书实施例的方案，由于工作人员选择的根因之间本身就是高度相关的，这为异常筛选以及构建因果图提供了经验，进一步提高了告警分析的准确性。

下述结合附图3，对所述告警分析方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种告警分析方法的处理过程流程图，具体包括：

异常检测：获取时序数据、日志数据、变更信息和其他API；对时序数据进行异常检验，获得时序数据中的异常时序数据；对日志数据、变更信息和其他API进行异常检验，获得异常事件数据；分别将多个异常时序数据的数据周期划分为正常时间段和告警时间段，对比正常时间段的数据特征以及告警时间段的数据特征，获得多个异常时序数据中与告警相关的异常事件；基于多个异常事件数据的异常事件来源信息，获取历史异常事件数据；从多个异常事件数据中提取第一异常事件数据和第二异常事件数据，其中，第一异常事件数据和第二异常事件数据是多个异常事件数据中任意两个不同的事件数据；基于历史异常事件数据、第一异常事件数据以及第二异常事件数据，计算第一异常事件数据和第二异常事件数据之间的关联度；根据关联度，获得多个异常事件数据中与告警相关的异常事件；监测系统对异常事件产生告警。

异常筛选：从多个异常事件中提取第一异常事件和第二异常事件，其中，第一异常事件和第二异常事件是多个异常事件中任意两个不同的事件；基于异常事件来源信息，计算第一异常事件和第二异常事件之间的条件熵；基于异常事件来源信息，计算第一异常事件和第二异常事件之间的信息熵；根据条件熵和信息熵生成第一异常事件和第二异常事件的不确定性率；比较不确定性率和预设阈值，获得第一异常事件和第二异常事件之间的相关性；获得相关异常事件；

事件因果关系图构建：基于相关性和异常事件时间信息对多个异常事件进行排序，生成多个异常事件之间的因果关系；基于因果关系构建多个异常事件对应的事件因果关系图；利用事件因果关系图，获得待分析异常数据的根因。

进一步地，工作人员可以基于事件因果关系图，确定打标数据，基于打标数据对异常事件进行筛选，删除与告警无关的异常事件，打标数据还可以作为异常筛选以及因果图的构建的输入，逐渐迭代，提高告警分析的准确性。

与上述方法实施例相对应，本说明书还提供了告警分析装置实施例，图4示出了本说明书一个实施例提供的一种告警分析装置的结构示意图。如图4所示，该装置包括：

获取模块402，被配置为获取待分析异常数据，其中，待分析异常数据包括多个异常时序数据和多个异常事件数据；

筛选模块404，被配置为对待分析异常数据进行筛选，获得待分析异常数据中与告警相关的多个异常事件，其中，异常事件包括异常事件来源信息和异常事件时间信息；

挖掘模块406，被配置为利用异常事件来源信息挖掘多个异常事件之间的相关性；

确定模块408，被配置为基于相关性和异常事件时间信息，确定多个异常事件之间的因果关系，获得待分析异常数据的分析结果。

可选地，获取模块402，进一步被配置为获取待分析数据，其中，待分析数据包括时序数据和事件数据；对时序数据进行异常检验，获得时序数据中的异常时序数据；对事件数据进行异常检验，获得事件数据中的异常事件数据。

可选地，筛选模块404，进一步被配置为分别将多个异常时序数据的数据周期划分为正常时间段和告警时间段；对比正常时间段的数据特征以及告警时间段的数据特征，获得多个异常时序数据中与告警相关的异常事件；计算多个异常事件数据之间的关联度，获得多个异常事件数据中与告警相关的异常事件。

可选地，筛选模块404，进一步被配置为基于多个异常事件数据的异常事件来源信息，获取历史异常事件数据；从多个异常事件数据中提取第一异常事件数据和第二异常事件数据，其中，第一异常事件数据和第二异常事件数据是多个异常事件数据中任意两个不同的事件数据；基于历史异常事件数据、第一异常事件数据以及第二异常事件数据，计算第一异常事件数据和第二异常事件数据之间的关联度；根据关联度，获得多个异常事件数据中与告警相关的异常事件。

可选地，挖掘模块406，进一步被配置为从多个异常事件中提取第一异常事件和第二异常事件，其中，第一异常事件和第二异常事件是多个异常事件中任意两个不同的事件；基于异常事件来源信息，计算第一异常事件和第二异常事件之间的条件熵；基于异常事件来源信息，计算第一异常事件和第二异常事件之间的信息熵；根据条件熵和信息熵生成第一异常事件和第二异常事件的不确定性率；比较不确定性率和预设阈值，获得第一异常事件和第二异常事件之间的相关性。

可选地，确定模块408，进一步被配置为基于相关性和异常事件时间信息对多个异常事件进行排序，生成多个异常事件之间的因果关系；基于因果关系构建多个异常事件对应的事件因果关系图；利用事件因果关系图，获得待分析异常数据的分析结果。

上述为本实施例的一种告警分析装置的示意性方案。需要说明的是，该告警分析装置的技术方案与上述的告警分析方法的技术方案属于同一构思，告警分析装置的技术方案未详细描述的细节内容，均可以参见上述告警分析方法的技术方案的描述。

图5示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，NetworkInterface Card))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，Wireless LocalArea Networks)无线接口、全球微波互联接入(Wi-MAX，World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near Field Communication)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，处理器520用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述告警分析方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的告警分析方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述告警分析方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述告警分析方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的告警分析方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述告警分析方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述告警分析方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的告警分析方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述告警分析方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种告警分析方法，包括：

获取待分析异常数据，其中，所述待分析异常数据包括多个异常时序数据和多个异常事件数据；

对所述待分析异常数据进行筛选，获得所述待分析异常数据中与告警相关的多个异常事件，其中，所述异常事件包括异常事件来源信息和异常事件时间信息；

利用所述异常事件来源信息挖掘所述多个异常事件之间的相关性；

基于所述相关性和所述异常事件时间信息，确定所述多个异常事件之间的因果关系，获得所述待分析异常数据的分析结果。

2.根据权利要求1所述的方法，所述获取待分析异常数据的步骤，包括：

获取待分析数据，其中，所述待分析数据包括时序数据和事件数据；

对所述时序数据进行异常检验，获得所述时序数据中的异常时序数据；

对所述事件数据进行异常检验，获得所述事件数据中的异常事件数据。

3.根据权利要求1所述的方法，所述对所述待分析异常数据进行筛选，获得所述待分析异常数据中与告警相关的多个异常事件的步骤，包括：

分别将所述多个异常时序数据的数据周期划分为正常时间段和告警时间段；

对比所述正常时间段的数据特征以及所述告警时间段的数据特征，获得所述多个异常时序数据中与告警相关的异常事件；

计算所述多个异常事件数据之间的关联度，获得所述多个异常事件数据中与告警相关的异常事件。

4.根据权利要求3所述的方法，所述计算所述多个异常事件数据之间的关联度，获得所述多个异常事件数据中与告警相关的异常事件的步骤，包括：

基于所述多个异常事件数据的异常事件来源信息，获取历史异常事件数据；

从所述多个异常事件数据中提取第一异常事件数据和第二异常事件数据，其中，所述第一异常事件数据和所述第二异常事件数据是所述多个异常事件数据中任意两个不同的事件数据；

基于所述历史异常事件数据、所述第一异常事件数据以及所述第二异常事件数据，计算所述第一异常事件数据和所述第二异常事件数据之间的关联度；

根据所述关联度，获得所述多个异常事件数据中与告警相关的异常事件。

5.根据权利要求1所述的方法，所述利用所述异常事件来源信息挖掘所述多个异常事件之间的相关性的步骤，包括：

从所述多个异常事件中提取第一异常事件和第二异常事件，其中，所述第一异常事件和所述第二异常事件是所述多个异常事件中任意两个不同的事件；

基于所述异常事件来源信息，计算所述第一异常事件和所述第二异常事件之间的条件熵；

基于所述异常事件来源信息，计算所述第一异常事件和所述第二异常事件之间的信息熵；

根据所述条件熵和所述信息熵生成所述第一异常事件和所述第二异常事件的不确定性率；

比较所述不确定性率和预设阈值，获得所述第一异常事件和第二异常事件之间的相关性。

6.根据权利要求1所述的方法，所述基于所述相关性和所述异常事件时间信息，确定所述多个异常事件之间的因果关系，获得所述待分析异常数据的分析结果的步骤，包括：

基于所述相关性和所述异常事件时间信息对所述多个异常事件进行排序，生成所述多个异常事件之间的因果关系；

基于所述因果关系构建所述多个异常事件对应的事件因果关系图；

利用所述事件因果关系图，获得所述待分析异常数据的分析结果。

7.根据权利要求1所述的方法，在所述基于所述相关性和所述异常事件时间信息，确定所述多个异常事件之间的因果关系，获得所述待分析异常数据的分析结果的步骤之后，还包括：

获取所述异常事件的标注信息；

基于所述标注信息对所述异常事件进行标注，调整所述异常事件的因果图。

8.一种告警分析装置，包括：

获取模块，被配置为获取待分析异常数据，其中，所述待分析异常数据包括多个异常时序数据和多个异常事件数据；

筛选模块，被配置为对所述待分析异常数据进行筛选，获得所述待分析异常数据中与告警相关的多个异常事件，其中，所述异常事件包括异常事件来源信息和异常事件时间信息；

挖掘模块，被配置为利用所述异常事件来源信息挖掘所述多个异常事件之间的相关性；

确定模块，被配置为基于所述相关性和所述异常事件时间信息，确定所述多个异常事件之间的因果关系，获得所述待分析异常数据的分析结果。

9.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述告警分析方法的步骤。

10.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述告警分析方法的步骤。