CN111162950B

CN111162950B - 故障事件处理方法、装置及系统

Info

Publication number: CN111162950B
Application number: CN201911416039.0A
Authority: CN
Inventors: 王君; 李世宁; 张明; 金星; 韩广乐
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2022-09-20
Anticipated expiration: 2039-12-31
Also published as: CN111162950A

Abstract

本发明提供了一种故障事件处理方法、装置及系统，该方法包括：依据关键字确定故障事件的告警级别，经过预设的第一时长后，若内存队列中存在与故障事件对应的故障恢复事件，则依据关联规则对故障事件和故障恢复事件进行关联处理，得到第一告警消息和该第一告警消息的告警级别，并当存在与第一告警消息中包含的关键字相匹配的聚合规则时，经过预设的第二时长后，若内存队列中存在与第一告警消息对应的表象故障事件，则依据聚合规则对第一告警消息和表象故障事件进行聚合处理得到第二告警消息和第二告警消息的告警级别，依据第二告警消息和第二告警消息的告警级别进行告警，可见，本技术方案可实现对告警消息数量的压缩，从而提高网络故障处理效率。

Description

故障事件处理方法、装置及系统

技术领域

本发明涉及网络通信技术领域，尤其涉及一种故障事件处理方法、装置及系统。

背景技术

随着通信与网络技术的飞速发展和广泛应用，网络规模日益庞大，结构复杂程度不断增加，产生的网络故障问题也越来越多，使得网络的运营维护变得越来越复杂。

现有技术中，当发生网络故障，即存在故障事件时，直接生成故障事件对应的告警消息进行告警，然后由网络运维人员对告警消息进行分析查找故障原因。由于网络规模的庞大，若直接对故障事件进行告警，将会产生大量的告警消息，从而需要大量的人力和时间进行甄别、排查，以确定故障原因，导致确定故障原因所花费的时间较长，网络故障处理效率较低。

发明内容

本发明提供了一种故障事件处理方法、装置及系统，目的在于解决直接对故障事件进行告警，导致确定故障原因花费时间较长，网络故障处理效率较低的问题。

为了实现上述目的，本发明提供了以下技术方案：

一种故障事件处理方法，包括：

当监测到内存队列中存在故障事件时，解析所述故障事件，得到所述故障事件中包含的关键字；

依据所述关键字，确定所述故障事件的告警级别，并判断是否存在与所述关键字相匹配的关联规则；

若存在，则经过预设的第一时长后，判断所述内存队列中是否存在与所述故障事件对应的故障恢复事件，若所述内存队列中存在与所述故障事件对应的故障恢复事件，则依据所述关联规则，对所述故障事件和所述故障恢复事件进行关联处理，得到第一告警消息和所述第一告警消息的告警级别；

判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则；

若存在与所述第一告警消息中包含的关键字相匹配的聚合规则，则经过预设的第二时长后，若所述内存队列中存在与所述第一告警消息对应的表象故障事件，则依据所述聚合规则，对所述第一告警消息和所述表象故障事件进行聚合处理，得到第二告警消息和所述第二告警消息的告警级别；

依据所述第二告警消息和所述第二告警消息的告警级别进行告警。

上述的方法，可选的，还包括：

若不存在与所述关键字相匹配的关联规则，则将所述故障事件作为第一告警消息，并将所述故障事件的告警级别作为所述第一告警消息的告警级别；

上述的方法，可选的，还包括：

若不存在与所述第一告警消息中包含的关键字相匹配的聚合规则，则依据所述第一告警消息和所述第一告警消息的告警级别进行告警。

上述的方法，可选的，还包括：

采集系统日志和多个故障日志字段，依据预设的拼接规则，对各个所述故障日志字段进行拼接，得到故障日志；

将所述故障日志和所述系统日志作为故障事件，并将所述故障事件写入所述内存队列中。

一种故障事件处理装置，包括：

解析单元，用于当监测到内存队列中存在故障事件时，解析所述故障事件，得到所述故障事件中包含的关键字；

第一判断单元，用于依据所述关键字，确定所述故障事件的告警级别，并判断是否存在与所述关键字相匹配的关联规则；

关联单元，用于若存在，则经过预设的第一时长后，判断所述内存队列中是否存在与所述故障事件对应的故障恢复事件，若所述内存队列中存在与所述故障事件对应的故障恢复事件，则依据所述关联规则，对所述故障事件和所述故障恢复事件进行关联处理，得到第一告警消息和所述第一告警消息的告警级别；

第二判断单元，用于判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则；

第一聚合单元，用于若存在与所述第一告警消息中包含的关键字相匹配的聚合规则，则经过预设的第二时长后，若所述内存队列中存在与所述第一告警消息对应的表象故障事件，则依据所述聚合规则，对所述第一告警消息和所述表象故障事件进行聚合处理，得到第二告警消息和所述第二告警消息的告警级别；

第一告警单元，依据所述第二告警消息和所述第二告警消息的告警级别进行告警。

上述的装置，可选的，还包括：

确定单元，用于若不存在与所述关键字相匹配的关联规则，则将所述故障事件作为第一告警消息，并将所述故障事件的告警级别作为所述第一告警消息的告警级别；

第三判断单元，用于判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则；

第二聚合单元，用于若存在与所述第一告警消息中包含的关键字相匹配的聚合规则，则经过预设的第二时长后，若所述内存队列中存在与所述第一告警消息对应的表象故障事件，则依据所述聚合规则，对所述第一告警消息和所述表象故障事件进行聚合处理，得到第二告警消息和所述第二告警消息的告警级别；

第二告警单元，用于依据所述第二告警消息和所述第二告警消息的告警级别进行告警。

上述的装置，可选的，还包括：

第三告警单元，用于若不存在与所述第一告警消息中包含的关键字相匹配的聚合规则，则依据所述第一告警消息和所述第一告警消息的告警级别进行告警。

上述的装置，可选的，还包括：

采集单元，用于采集系统日志和多个故障日志字段，依据预设的拼接规则，对各个所述故障日志字段进行拼接，得到故障日志；

写入单元，用于将所述故障日志和所述系统日志作为故障事件，并将所述故障事件写入所述内存队列中。

一种故障事件处理系统，包括：

采集器、存储器、事件解析器、消息总线和事件平台；

所述采集器，用于采集系统日志和故障日志，并所述系统日志和所述故障日志作为故障事件发送至所述存储器；

所述存储器，用于将所述故障事件写入内存队列中；

所述事件解析器，用于检测内存队列中是否存在故障事件，若存在，则解析所述故障事件，得到所述故障事件中包含的关键字，并依据所述关键字，确定所述故障事件的告警级别，判断是否存在与所述关键字相匹配的关联规则，若存在与所述关键字相匹配的关联规则，则经过预设的第一时长后，判断所述内存队列中是否存在与所述故障事件对应的故障恢复事件，若所述内存队列中存在与所述故障事件对应的故障恢复事件，则依据所述关联规则，对所述故障事件和所述故障恢复事件进行关联处理，得到第一告警消息和所述第一告警消息的告警级别，当存在与所述第一告警消息中包含的关键字相匹配的聚合规则时，经过预设的第二时长后，若所述内存队列中存在与所述第一告警消息对应的表象故障事件，则依据所述聚合规则，对所述第一告警消息和所述表象故障事件进行聚合处理，得到第二告警消息和所述第二告警消息的告警级别，将所述第二告警消息和所述第二告警消息的告警级别通过所述消息总线发送至所述事件平台；

所述事件平台，用于依据所述第二告警消息和所述第二告警消息的告警级别进行告警。

上述的系统，可选的，所述采集器，包括：

第一采集模块、第一传输模块和第二采集模块；

所述第一采集模块，用于采集系统日志，并将所述系统日志发送至所述第一传输模块；

所述第一传输模块，用于将所述系统日志作为故障事件，并将所述故障事件传输至所述存储器；

所述第二采集模块，用于采集多个故障日志字段，并依据预设的拼接规则，对各个所述故障日志字段进行拼接，得到故障日志，将所述故障日志作为故障事件，并将所述故障事件传输至所述存储器。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的故障事件处理方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行上述的故障事件处理方法。

与现有技术相比，本发明包括以下优点：

本发明提供了一种故障事件方法、装置及系统，该方法包括：当监测到内存队列中存在故障事件时，解析故障事件，得到故障事件中包含的关键字，依据关键字，确定故障事件的告警级别，并判断是否存在与关键字相匹配的关联规则，若存在，则经过预设的第一时长后，判断内存队列中是否存在与故障事件对应的故障恢复事件，若内存队列中存在与故障事件对应的故障恢复事件，则依据关联规则，对故障事件和故障恢复事件进行关联处理，得到第一告警消息和该第一告警消息的告警级别，并当存在与第一告警消息中包含的关键字相匹配的聚合规则时，经过预设的第二时长后，若内存队列中存在与第一告警消息对应的表象故障事件，则依据聚合规则，对第一告警消息和表象故障事件进行聚合处理得到第二告警消息和该第二告警消息的告警级别，依据第二告警消息和第二告警消息的告警级别进行告警。本发明所提供的技术方案，经过预设的第一时长后，判断内存队列中是否存在与故障事件对应的故障恢复事件，即对故障事件进行延时处理，以减少自愈网络故障的告警，从而减少运维人员的工作量，并基于关联规则对故障事件进行关联处理，即实现将一个根源故障事件和由该根源故障事件所导致的多个表象故障事件进行聚合处理，以减少其他告警干扰，压缩告警消息的数量，从而帮助运维人员快速定位告警根源，提高网络故障处理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种故障事件处理方法的方法流程图；

图2为本发明提供的一种故障事件处理方法的又一方法流程图；

图3为本发明提供的一种故障事件处理装置的结构示意图；

图4为本发明提供的一种故障事件处理系统的结构示意图；

图5为本发明提供的一种故障事件处理系统的又一结构示意图；

图6为本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种故障事件处理方法，该方法可以应用在多种系统平台，其执行主体可以运行在计算机终端或各种移动设备的事件解析器，所述方法的方法流程图如图1所示，具体包括：

S101、当监测到内存队列中存在故障事件时，解析故障事件，得到故障事件中包含的关键字。

实时监测内存队列中是否存在故障事件，其中，内存队列为存储器中的队列，当检测到内存队列中存在故障事件时，获取故障事件，并解析故障事件，得到故障事件中包含的关键字。

S102、依据关键字，确定故障事件的告警级别。

基于关键字，确定故障事件的告警级别，具体可以包括：基于关键字，查找预先构建的关键字告警级别映射表，获得关键字对应的告警级别，将所获得的告警级别作为故障事件的告警级别。可选的，关键字告警级别映射表的构建可以在前端进行构建，也就是在事件平台上进行构建，事件解析器接收前端发送的关键字告警级别映射表，并同步到运行环境中，即将关键字告警级别映射表存储到内存中，以便于后续对该关键字告警级别映射表的调用。

需要说明的是，关键字告警级别映射表中的内容可以人为进行定义和修改，即可人为定义和修改关键字和告警级别的对应关系，例如，可以定义关键字key为ERROR的告警级别severity为5，后期可以根据需求对已定义的关键和告警级别的对应关系进行修改。

可选的，关键字告警级别映射表如表1所示：

key	severity
		ERROR	5

表1关键字告警级别映射表

S103、判断是否存在与关键字相匹配的关联规则。

判断是否存在与关键字相匹配的关键规则，具体可以包括：基于故障事件的关键字，在预先构建的事件关联延时映射表中查找与关键字相匹配的关联规则，若在事件关联延时映射表中查找到与关键字相匹配的关联规则，则执行步骤S104，若在事件关联延时映射表中未查找到与关键字相匹配的关联规则，则执行步骤S105，其中，事件关联延时映射表的构建过程同关键字告警级别映射表的构建过程类似，可以在前端进行构建，也就是在事件平台上进行构建，事件解析器接收前端发送的事件关联延时映射表，并同步到运行环境中，即将事件关联延时映射表存储到内存中，以便于后续对该事件关联延时映射表的调用。

需要说明的是，事件关联延时映射表中的内容可以人为进行定义和修改。可选的，事件关联延时映射表中包含的属性可以包括但不限于key1、key2、wait_time、wait_proc和description，key1和key2为关键字，wait_time用于标识需要延时的时长，可选的，延时时长的单位可以是以秒为单位，wait_proc用于标识延时后需要经过的处理规则，即关联规则，需要说明的是，本发明实施例所提及的关联规则为自定义的规则，可以根据实际需求进行规则的定义，description用于为故障事件设置标识信息，可选的，一对故障事件的标识信息是相同的，其中，故障事件和与故障事件对应的恢复故障事件称之为一对故障事件，例如，满足关键字为ospf和down的故障事件，与满足关键字为ospf和up的故障事件，称为一对故障事件，并为以关联规则comp_main对该对故障事件进行关联处理，以及为该对故障事件设置OSPF标识信息。

可选的，事件关联延时映射表如表2所示：

key1	key2	wait_time	wait_proc	description
					ospf	down	60	comp_main	OSPF
ospf	up			OSPF

表2事件关联延时映射表

需要说明的是，属性wait_time和wait_proc对应的信息可以是空字段，即对于部分故障事件，可以不用延时处理，也需要设置与其对应的关联规则，因为该故障事件本身可能属于某一故障事件的故障恢复事件。

S104、经过预设的第一时长后，判断内存队列中是否存在与故障事件对应的故障恢复事件。

若在事件关联延时映射表中查找到与关键字相匹配的关联规则，则经过预设的第一时长后，判断内存队列中是否存在与故障事件对应的故障恢复事件，其中，预设的第一时长为事件关联延时映射表中与关联规则对应的延时时长，即事件关联延时映射表中关键字对应的wait_time中的延时时间。

判断内存队列中是否存在与故障事件对应的故障恢复事件具体可以为，确定故障事件的端口标识，基于该故障事件的端口标识，判断内存队列中是否存在与该端口标识相同的故障事件，若存在，在将与该端口标识相同的故障事件确定为故障恢复事件，其中确定故障事件端口标识可以通过解析该故障事件，获得故障事件中包含的表征端口标识的字段，基于所获得的字段，确定该故障事件的端口标识。

经过预设的第一时长后，若内存队列中存在与故障事件对应的故障恢复事件，则说明该故障为能够自愈的故障，并执行步骤S106，若内存队列中不存在与故障事件对应的故障恢复事件，则说明该故障为不能自愈的故障，并执行步骤S105。

S105、将故障事件作为第一告警消息，并将故障事件的告警级别作为第一告警消息的告警级别。

若在事件关联延时映射表中未查找到与关键字相匹配的关联规则，或在时间关联延时映射表中查找到与关键字相匹配的关联规则，但经过预设的第一时长后，内存队列中不存在与故障事件对应的恢复故障事件，则将故障事件作为第一告警消息，并将故障事件的告警级别作为第一告警消息的告警级别。

S106、依据关联规则，对故障事件和故障恢复事件进行关联处理，得到第一告警消息和第一告警消息的告警级别。

若内存队列中存在与故障事件对应的故障恢复事件，则依据关联规则，对故障事件和故障恢复事件进行关联处理，获得第一告警消息和第一告警消息的告警级别，所述依据关联规则，对故障事件和故障恢复事件进行关联处理，获得第一告警消息和第一告警消息的告警级别，具体可以包括以下步骤：

确定关联规则中包含的告警消息模板，并确定告警消息模板中包含的各个数据项；

从故障事件和故障恢复事件中提取与每个数据项对应的信息；

并所提取的每个数据项对应的信息对应写入告警消息模板中，得到第一告警消息，并将关联规则中包含的预设告警级别确定第一告警消息的告警级别。

或

确定关联规则中包含的数据提取规则；

依据该数据提取规则，从故障事件和故障恢复事件中提取多个数据项；

依据关联规则中包含的数据项拼接规则，对多个数据项进行拼接，得到第一告警消息，并将关联规则中包含的预设告警级别确定第一告警消息的告警级别。

本发明实施例提供的方法中，关联规则为人为设定的规则，包括但不限于上述所提及的预设告警消息模板、预设数据提取规则和预设数据项拼接规则，本发明还可以设定其他关联规则对故障事件和故障恢复事件进行关联处理，基于关联规则，将故障事件和故障事件的故障恢复事件进行关联处理，以及对故障事件的告警级别进行更新，将更新后的告警级别作为第一告警消息的告警级别。

对上述本发明提及的依据关联规则，对故障事件和故障恢复事件进行关联处理，得到第一告警消息和第一告警消息的告警级别进行举例说明如下：

对于相同端口的up/down相关故障事件，当监测到一条ospf down故障事件，延时60秒后处理，若内存队列中存在ospf up故障事件，且ospf up故障事件和ospf down故障事件均为来自同一端口的故障事件，则将ospf up故障事件作为ospf down故障事件的故障恢复事件，并基于关联规则，将ospf up故障事件和ospf down故障事件处理成一条低级别的告警消息，即将ospf up故障事件和ospf down故障事件进行关联处理，得到第一告警消息，以声明该端口发生一次闪断，无业务影响。

S107、判断是否存在与第一告警消息中包含的关键字相匹配的聚合规则。

判断是否存在与第一告警消息中包含的关键字相匹配的聚合规则，具体可以包括：基于第一告警消息中包含的关键字，在预先构建的事件聚合映射表中查找与第一告警消息中包含的关键字相匹配的聚合规则，若在预先构建的事件聚合映射表中查找到与第一告警消息中包含的关键字相匹配的聚合规则，则执行步骤S108，若在预先构建的事件聚合映射表中未查找到与第一告警消息中包含的关键字相匹配的聚合规则，则执行步骤S109。

其中，事件聚合映射表的构建可以在前端进行构建，并在构建完成后发送至事件解析器，事件解析器接收前端发送的事件聚合映射表，并将该事件聚合映射表存储至内存中。

需要说明的是，事件聚合映射表中的内容可以人为进行定义和修改。可选的，事件聚合映射表中包含的属性可以包括但不限于key3、wait_time、wait_proc和description，key3为关键字，wait_time用于标识需要延时的时长，可选的，延时时长的单位可以是以秒为单位，wait_proc用于标识延时后需要经过的处理规则，即聚合规则，description用于为故障事件设置标识信息，可选的，根源故障事件，和根源故障事件对应的表象故障事件的标识信息是相同的。其中，关键字与聚合规则相匹配的故障事件即为根源故障事件，需要说明的是，一个根源故障事件可能会导致多种表象故障事件的产生。

可选的，事件聚合映射表如表3所示：

表3事件聚合映射表

S108、经过预设的第二时长后，判断内存队列中是否存在与第一告警消息对应的表象故障事件；

若在事件聚合映射表中查找到与第一告警消息中包含的关键字相匹配的聚合规则，则经过预设的第二时长后，判断内存队列中是否存在第一告警消息对应的表象故障事件，其中，预设的第二时长即为事件聚合映射表中延时时长wait_time，判断内存队列中是否存在与第一告警消息对应的表象告警消息，具体可以是将第一告警消息作为根源故障事件，基于聚合规则中对根源故障事件对应的表象故障事件的定义，查找内存队列中与第一告警消息对应的表象故障事件，若内存队列中存在与第一告警消息对应的表象故障事件，则执行步骤S110，若内存队列中不存在与第一告警消息对应的表象故障事件，则执行步骤S109。

S109、依据第一告警消息和第一告警消息的告警级别进行告警。

若在预先构建的事件聚合映射表中未查找到与第一告警消息中包含的关键字相匹配的聚合规则，或在预先构建的事件聚合映射表中查找到与第一告警消息中包含的关键字相匹配的聚合规则，但在经过预设的第二时长后，内存队列中不存在与第一告警消息对应的表象故障事件，则依据第一告警消息和第一告警消息的告警级别进行告警，可选的，可以是将第一告警消息和第一告警消息的告警级别写入预设的告警消息协议中，得到目标告警消息，依据目标告警消息进行告警，即实现将第一告警消息和第一告警消息的告警级别转换为约定格式的消息，将约定格式的消息进行上报，依据目标告警消息进行告警可以是，通过消息总线将目标告警消息传输至事件平台，事件平台展示目标告警消息或基于目标告警消息通知运维人员进行故障处理。

S110、依据聚合规则，对第一告警消息和表象故障事件进行聚合处理，得到第二告警消息和第二告警消息的告警级别。

若内存队列中存在与第一告警消息对应的表象故障事件，则依据聚合规则，对第一告警消息和表象故障事件进行聚合处理，可选的，可以是将第一告警消息和表象故障事件聚合成一个告警消息，得到第二告警消息和第二告警消息的告警级别，即实现对第一告警消息的告警级别进行更新，第二告警消息用于说明告警根源、导致的影响等。例如一台设备某端口发生物理down的故障事件，随后会接连引发各种协议down的相关故障事件，单根源是端口的物理down，可以根据聚合规则，将物理down作为根源故障事件，其他的故障事件作为表象故障事件，设定15秒为第二时长，在15秒后，将根源故障事件和其他表象故障事件聚合成一条告警消息，该告警消息用于说明根源，导致的影响等。

S111、依据第二告警消息和第二告警消息的告警级别进行告警。

若在经过预设的第二时长后，内存队列中存在与第一告警消息对应的表象故障事件，则依据第二告警消息和第二告警消息的告警级别进行告警，可选的，可以是将第二告警消息和第二告警消息的告警级别写入预设的告警消息协议中，得到目标告警消息，依据目标告警消息进行告警，即实现将第二告警消息和第二告警消息的告警级别转换为约定格式的消息，将约定格式的消息进行上报，依据目标告警消息进行告警可以是，通过消息总线将目标告警消息传输至事件平台，事件平台展示目标告警消息或基于目标告警消息通知运维人员进行故障处理。

需要说明的是，若不存在与故障事件的关键字相匹配的关联规则和聚合规则，则直接基于故障事件和故障事件的告警级别进行告警。

本发明实施例提供的故障事件处理方法，当监测到内存队列中存在故障事件时，解析故障事件，得到故障事件中包含的关键字，依据关键字，确定故障事件的告警级别，并判断是否存在与关键字相匹配的关联规则，若存在，则经过预设的第一时长后，判断内存队列中是否存在与故障事件对应的故障恢复事件，若内存队列中存在与故障事件对应的故障恢复事件，则依据关联规则，对故障事件和故障恢复事件进行关联处理，得到第一告警消息和该第一告警消息的告警级别，并当存在与第一告警消息中包含的关键字相匹配的聚合规则时，经过预设的第二时长后，若内存队列中存在与第一告警消息对应的表象故障事件，则依据聚合规则，对第一告警消息和表象故障事件进行聚合处理得到第二告警消息和该第二告警消息的告警级别，依据第二告警消息和第二告警消息的告警级别进行告警。应用本发明实施例提供故障事件处理方法，经过预设的第一时长后，判断内存队列中是否存在与故障事件对应的故障恢复事件，即对故障事件进行延时处理，以减少自愈网络故障的告警，从而减少运维人员的工作量，并基于关联规则对故障事件进行关联处理，即实现将一个根源故障事件和由该根源故障事件所导致的多个表象故障事件进行聚合处理，以减少其他告警干扰，压缩告警消息的数量，从而帮助运维人员快速定位告警根源，提高网络故障处理效率，并将复杂的规则设置抽象成简单的映射表设置，从而提高运维人员实时根据运维经验的需求实施规则变更的效率。

上述本发明实施例图1公开的各个步骤，流程图如图2所示，还可以包括以下步骤：

S201、采集系统日志和多个故障日志字段，依据预设的拼接规则，对各个故障日志字段进行拼接，得到故障日志。

在事件解析器对故障事件进行处理过程，可以实时采集系统日志和多个故障日志字段，其中，采集系统日志可以通过开源组件rsyslogd进行采集，可选的，本发明实施例提供的方法，可以使用两个rsyslogd组件进行采集，也可以通过一个rsyslogd组件进行采集，若使用两个rsyslogd组件进行采集，则将一个rsyslogd组件作为系统日志的守护进程syslog daemon，即实时采集系统日志，另一个rsyslogd组件可以是改造的rsyslogd，将经过改造的rsyslogd组件确定为Gppsyslogd组件，Gppsyslogd组件是在开源rsyslogd组件的基础上增加或改造了系统日志的守护进程syslog daemon，即Gppsyslogd组件用于将rsyslogd组件采集到的系统日志写入内存队列中，可选的，可以以root身份启动rsyslogd组件，即以管理员身份启动rsyslogd组件，可以以普通用户身份启动Gpprsyslogd组件。

采集故障日志字段可以通过Trapload组件进行采集，并依据预设的拼接规则，对各个故障日志字段进行拼接，得到故障日志，即实现对多个故障日志段进行格式化并序列化，得到故障日志。

S202、将故障日志和系统日志作为故障事件，并将故障事件写入内存队列中。

将故障日志和系统日志作为故障事件，并故障事件写入内存队列中，可选的，内存队列为存储器中的队列。

本发明实施例提供的故障事件处理方法中，在事件解析器对故障事件进行处理的过程中，实时采集系统日志和故障日志，并将所采集的系统日志和故障日志作为故障事件写入内存队列中，以实现对故障事件的及时处理，从而减小网络故障带来的损失。

与图1所述的方法相对应，本发明实施例还提供了一种故障事件处理装置，用于对图1中方法的具体实现，其结构示意图如图3所示，具体包括：

解析单元301，用于当监测到内存队列中存在故障事件时，解析所述故障事件，得到所述故障事件中包含的关键字；

第一判断单元302，用于依据所述关键字，确定所述故障事件的告警级别，并判断是否存在与所述关键字相匹配的关联规则；

关联单元303，用于若存在，则经过预设的第一时长后，判断所述内存队列中是否存在与所述故障事件对应的故障恢复事件，若所述内存队列中存在与所述故障事件对应的故障恢复事件，则依据所述关联规则，对所述故障事件和所述故障恢复事件进行关联处理，得到第一告警消息和所述第一告警消息的告警级别；

第二判断单元304，用于判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则；

第一聚合单元305，用于若存在与所述第一告警消息中包含的关键字相匹配的聚合规则，则经过预设的第二时长后，若所述内存队列中存在与所述第一告警消息对应的表象故障事件，则依据所述聚合规则，对所述第一告警消息和所述表象故障事件进行聚合处理，得到第二告警消息和所述第二告警消息的告警级别；

第一告警单元306，依据所述第二告警消息和所述第二告警消息的告警级别进行告警。

本发明实施例提供的故障事件处理装置，当监测到内存队列中存在故障事件时，解析故障事件，得到故障事件中包含的关键字，依据关键字，确定故障事件的告警级别，并判断是否存在与关键字相匹配的关联规则，若存在，则经过预设的第一时长后，判断内存队列中是否存在与故障事件对应的故障恢复事件，若内存队列中存在与故障事件对应的故障恢复事件，则依据关联规则，对故障事件和故障恢复事件进行关联处理，得到第一告警消息和该第一告警消息的告警级别，并当存在与第一告警消息中包含的关键字相匹配的聚合规则时，经过预设的第二时长后，若内存队列中存在与第一告警消息对应的表象故障事件，则依据聚合规则，对第一告警消息和表象故障事件进行聚合处理得到第二告警消息和该第二告警消息的告警级别，依据第二告警消息和第二告警消息的告警级别进行告警。应用本发明实施例提供故障事件处理装置，经过预设的第一时长后，判断内存队列中是否存在与故障事件对应的故障恢复事件，即对故障事件进行延时处理，以减少自愈网络故障的告警，从而减少运维人员的工作量，并基于关联规则对故障事件进行关联处理，即实现将一个根源故障事件和由该根源故障事件所导致的多个表象故障事件进行聚合处理，以减少其他告警干扰，压缩告警消息的数量，从而帮助运维人员快速定位告警根源，提高网络故障处理效率。

在本发明的一个实施例中，基于前述方案，还可以配置为：

本发明实施例在上述故障事件处理方法及装置的基础上，还提供了一种故障事件处理装置，其结构示意图如图4所示，所述故障事件处理系统具体包括：

采集器401、存储器402、事件解析器403、消息总线404和事件平台405。

采集器401，用于采集系统日志和故障日志，并系统日志和故障日志作为故障事件发送至存储器402。

存储器402，用于将故障事件写入内存队列中。

事件解析器403，用于检测内存队列中是否存在故障事件，若存在，则解析故障事件，得到故障事件中包含的关键字，并依据关键字，确定故障事件的告警级别，判断是否存在与关键字相匹配的关联规则，若存在与关键字相匹配的关联规则，则经过预设的第一时长后，判断内存队列中是否存在与故障事件对应的故障恢复事件，若内存队列中存在与故障事件对应的故障恢复事件，则依据关联规则，对故障事件和故障恢复事件进行关联处理，得到第一告警消息和第一告警消息的告警级别，当存在与第一告警消息中包含的关键字相匹配的聚合规则时，经过预设的第二时长后，若内存队列中存在与第一告警消息对应的表象故障事件，则依据聚合规则，对第一告警消息和表象故障事件进行聚合处理，得到第二告警消息和第二告警消息的告警级别，将第二告警消息和第二告警消息的告警级别通过消息总线404发送至事件平台405。

事件平台405，用于依据第二告警消息和第二告警消息的告警级别进行告警。

可选的，消息总线作为消息中间件，用于传输前后台配置同步消息，即实现将告警消息传输至事件平台，以及将配置信息，各个映射表传输至事件解析器。

需要说明的是，本发明实施例所提供的事件解析器可以用于实现上述提及的故障事件处理方法。

参考图5，本发明实施例提供的采集器具体可以包括：

第一采集模块4011、第一传输模块4012和第二采集模块4013。

第一采集模块4011，用于采集系统日志，并将系统日志发送至第一传输模块4012；

第一传输模块4012，用于将系统日志作为故障事件，并将故障事件传输至存储器402；

第二采集模块4013，用于采集多个故障日志字段，并依据预设的拼接规则，对各个故障日志字段进行拼接，得到故障日志，将故障日志作为故障事件，并将故障事件传输至存储器402。

可选的，第一采集模块可以是rsyslogd组件，用于采集系统日志，第一传输模块可以是Gppsyslogd组件，用于将系统日志传输至存储器，第二采集模块可以是Trapload组件，用于采集故障日志，并将故障日志传输至存储器。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述故障事件处理方法。

本发明实施例还提供了一种电子设备，其结构示意图如图6所示，具体包括存储器601，以及一个或者一个以上的指令602，其中一个或者一个以上指令602存储于存储器601中，且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作：

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种故障事件处理方法、装置及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种故障事件处理方法，其特征在于，包括：

依据所述第二告警消息和所述第二告警消息的告警级别进行告警；

所述依据关联规则，对故障事件和故障恢复事件进行关联处理，获得第一告警消息和第一告警消息的告警级别，具体可以包括以下步骤：

并所提取的每个数据项对应的信息对应写入告警消息模板中，得到第一告警消息，并将关联规则中包含的预设告警级别确定第一告警消息的告警级别；

或，

确定关联规则中包含的数据提取规则；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1或2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.一种故障事件处理装置，其特征在于，包括：

第一告警单元，依据所述第二告警消息和所述第二告警消息的告警级别进行告警；

所述关联单元，具体用于：

或

确定关联规则中包含的数据提取规则；

6.根据权利要求5所述的装置，其特征在于，还包括：

7.根据权利要求5或6所述的装置，其特征在于，还包括：

8.根据权利要求5所述的装置，其特征在于，还包括：

9.一种故障事件处理系统，其特征在于，包括：

采集器、存储器、事件解析器、消息总线和事件平台；

所述存储器，用于将所述故障事件写入内存队列中；

所述事件平台，用于依据所述第二告警消息和所述第二告警消息的告警级别进行告警；

所述事件解析器，具体用于：确定关联规则中包含的告警消息模板，并确定告警消息模板中包含的各个数据项；

或

确定关联规则中包含的数据提取规则；

10.根据权利要求9所述的系统，其特征在于，所述采集器，包括：

第一采集模块、第一传输模块和第二采集模块；