CN111176879A

CN111176879A - 设备的故障修复方法及装置

Info

Publication number: CN111176879A
Application number: CN201911418628.2A
Authority: CN
Inventors: 刘士建
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-19

Abstract

本发明提供了一种设备的故障修复方法及装置，该方法包括：当接收到机器资源监控数据时，确定机器资源监控数据对应的设备节点；获取设备节点对应的监控指标类型以及监控指标类型对应的指标阈值规则；在所述机器资源监控数据中获取与监控指标类型匹配的目标监控数据；将目标监控数据与阈值规则进行比对，以判断设备节点是否处于异常状态；若设备节点处于异常状态，则生成异常状态对应的告警事件，并判断告警事件是否满足预先设置的告警规则，若满足，则确定与告警事件对应的目标修复脚本；依据目标修复脚本生成作业指令，并将作业指令发送至所述设备节点，以触发设备节点依据所述作业指令执行修复操作。应用本发明的方法，能够快速修复设备的故障。

Description

设备的故障修复方法及装置

技术领域

本发明涉及计算机运维领域，特别涉及一种设备的故障修复方法及装置。

背景技术

随着科学技术的发展，计算机设备的应用已经覆盖了我们生活的方方面面，计算机设备的出现是20世纪最卓越的成就之一，它的应用领域从最初的军事科研应用扩展到社会的各个领域，已形成了规模巨大的计算机产业，带动了全球范围的技术进步，到了今天，在我们生活的方方面面，都离不开了计算机设备以及相关的网络设备。

计算机设备以及其关联的网络设备在运行过程中，总会出现故障，当出现故障时，需要快速排查故障以修复故障，避免故障时间过长而导致各种各样的损失。然而，由于设备系统的复杂性较高，往往难以快速找到故障的解决方案。

发明内容

本发明所要解决的技术问题是提供一种设备的故障修复方法，能够快速的修复设备的故障。

本发明还提供了一种设备的故障修复装置，用以保证上述方法在实际中的实现及应用。

一种设备的故障修复方法，包括：

当接收到机器资源监控数据时，确定所述机器资源监控数据对应的设备节点；

获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则；

在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据；

将所述目标监控数据与所述指标阈值规则进行比对，以判断所述设备节点是否处于异常状态；

若所述设备节点处于异常状态，则生成所述异常状态对应的告警事件，并判断所述告警事件是否满足预先设置的告警规则；

若满足，则确定与所述告警事件对应的目标修复脚本；

依据所述目标修复脚本生成作业指令，并将所述作业指令发送至所述设备节点，以触发所述设备节点依据所述作业指令执行修复操作。

上述的方法，可选的，所述获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则，包括：

依据所述设备节点的设备节点标识遍历预先设置的配置文件，获得与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则。

上述的方法，可选的，判断所述告警事件是否满足预先设置的告警规则包括：

依据预先设置的告警白名单判断所述告警事件当前是否处于抑制状态；

若所述告警事件未处于所述抑制状态，则获取所述设备节点在预设时段内对应的告警记录；

判断所述告警记录中是否存在与所述告警事件相关联的历史告警事件；

若存在，则判断所述告警事件与所述历史告警事件是否满足预先设置的聚合规则，若满足，则确定所述告警事件满足预先设置的告警规则；

若不存在，则确定所述告警事件满足预先设置的告警规则。

上述的方法，可选的，若所述告警事件与所述历史告警事件是否满足预先设置的聚合规则，则所述确定与所述告警事件对应的目标修复脚本，包括：

将所述告警事件以及所述历史告警事件进行聚合操作，得到目标告警事件；

依据所述目标告警事件在预先建立的脚本文件库中确定目标修复脚本。

上述的方法，可选的，确定所述告警事件满足所述告警规则之后，还包括：

判断所述告警事件是否满足预先设置的告警通知规则，若满足，则生成与所述告警事件对应的告警通知消息；

确定与所述设备节点对应的告警接收组，将所述告警通知消息发送至所述告警接收组中的各个对象。

上述的方法，可选的，所述依据所述目标修复脚本生成作业指令，包括：

获取所述设备节点的IP地址信息以及所述设备节点所处的区域信息；

调用预先设置的作业模板，对所述IP地址信息、所述区域信息以及所述目标修复脚本进行编排，得到所述设备节点对应的作业指令。

一种设备的故障修复装置，包括：

接收单元，用于当接收到机器资源监控数据时，确定所述机器资源监控数据对应的设备节点；

第一获取单元，用于获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则；

第二获取单元，用于在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据；

比对单元，用于将所述目标监控数据与所述指标阈值规则进行比对，以判断所述设备节点是否处于异常状态；

生成单元，用于若所述设备节点处于异常状态，则生成所述异常状态对应的告警事件，并判断所述告警事件是否满足预先设置的告警规则；

确定单元，用于当所述告警事件满足所述告警规则时，确定与所述告警事件对应的目标修复脚本；

修复单元，用于依据所述目标修复脚本生成作业指令，并将所述作业指令发送至所述设备节点，以触发所述设备节点依据所述作业指令执行修复操作。

上述的装置，可选的，所述第一获取单元，包括：

查询子单元，用于依据所述设备节点的设备节点标识遍历预先设置的配置文件，获得与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则。

上述的装置，可选的，判断所述告警事件是否满足预先设置的告警规则的所述生成单元，包括：

第一判断子单元，用于依据预先设置的告警白名单判断所述告警事件当前是否处于抑制状态；

第一获取子单元，用于当所述告警事件未处于所述抑制状态时，获取所述设备节点在预设时段内对应的告警记录；

第二判断子单元，用于判断所述告警记录中是否存在与所述告警事件相关联的历史告警事件；

第一执行子单元，用于存在与所述告警事件关联的历史告警事件的情况下，则判断所述告警事件与所述历史告警事件是否满足预先设置的聚合规则，若满足，则确定所述告警事件满足所述告警规则；

第二执行子单元，用于当不存在与所述告警事件相关联的历史告警事件时，确定所述告警事件满足所述告警规则。

上述的装置，可选的，所述依据所述目标修复脚本生成作业指令的所述修复单元，包括：

第二获取子单元，用于获取所述设备节点的IP地址信息以及所述设备节点所处的区域信息；

生成子单元，用于调用预先设置的作业模板，对所述IP地址信息、所述区域信息以及所述目标修复脚本进行编排，得到所述设备节点对应的作业指令。

与现有技术相比，本发明包括以下优点：

本发明提供了一种设备的故障修复方法和装置，当接收到机器资源监控数据时，确定所述机器资源监控数据对应的设备节点；获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则；在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据；将所述目标监控数据与所述指标阈值规则进行比对，以判断所述设备节点是否处于异常状态；若所述设备节点处于异常状态，则生成所述异常状态对应的告警事件，并判断所述告警事件是否满足预先设置的告警规则；若满足，则确定与所述告警事件对应的目标修复脚本；依据所述目标修复脚本生成作业指令，并将所述作业指令发送至所述设备节点，以触发所述设备节点依据所述作业指令执行修复操作。应用本发明提供的设备的故障修复方法，能够确定告警事件对应的目标修复脚本，应用该修复脚本修复设备的故障，能够快速的修复设备的故障。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种设备的故障修复方法的方法流程图；

图2为本发明提供的一种设备的故障修复方法的又一方法流程图；

图3为本发明提供的一种实施场景示例图；

图4为本发明提供的一种设备的故障修复系统的一结构示例图；

图5为本发明提供的一种监控模块的结构示例图；

图6为本发明提供的一种告警模块的结构示例图；

图7为本发明提供的故障自愈模块的结构示例图；

图8为本发明提供的一种设备的故障修复装置的结构示意图；

图9为本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种设备的故障修复方法，该方法可以应用在多种系统平台，其执行主体可以为计算机终端或各种移动设备的处理器，所述方法的方法流程图如图1所示，具体包括：

S101：当接收到机器资源监控数据时，确定所述机器资源监控数据对应的设备节点。

本发明实施例提供的方法中，该机器资源监控数据为安装在设备节点上的代理agent程序对该设备节点进行数据采集得到的，该agent程序可以实时将其采集到的数据进行上传，也可以周期性的将其采集到的数据进行上传。当接收到任意一个agent程序上传的机器资源监控数据时，依据机器资源监控数据中的节点标识，确定该机器资源监控数据对应的设备节点。

其中，设备节点可以为服务器、网络设备以及消息中间件等。

S102：获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则。

本发明实施例提供的方法中，每个设备节点对应的监控指标类型可以为一个或多个。

若该设备节点为服务器，则该机器资源监控数据可以为该服务器当前的计算资源占用状况，例如：线程状态、会话数以及堆内存等，该资源监控数据还可以包含CPU运行状态参数、内存运行状态参数、磁盘运行状态参数、设备运行温度、电源状态参数、工作电压、工作电流、风扇转速等。

若该设备节点为网络设备，则该资源监控数据可以为该网络设备的总流量状况参数、该网络设备对应的各个计算机设备的流量状况参数等。

若该设备节点为消息中间件，则该资源监控数据可以为消息的传递状况参数等。

具体的，每个监控指标类型均对应一个指标阈值规则，在该设备节点的监控指标类型为多个的情况下，分别获取每个监控指标类型对应的指标阈值规则。

S103：在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据。

本发明实施例提供的方法中，对该机器资源监控数据进行筛选，得到与监控指标类型匹配的监控数据，即目标监控数据。

其中，例如该监控指标类型为CPU运行状态类型，则在该机器资源监控数据中获取到CPU运行状态参数。

在该监控指标类型为多个的情况下，可以在该机器监控资源数据中获取每个监控指标类型各自对应的目标监控数据。

S104：将所述目标监控数据与所述指标阈值规则进行比对，以判断所述设备节点是否处于异常状态。

本发明实施例提供的方法中，每个目标监控数据对应的指标阈值规则可以为一个或多个。

本发明实施例提供的方法中，将目标监控数据与该指标阈值规则进行比对的方式，可以为将目标监控数据与该目标监控数据对应的监控数据阈值进行比对；也可以将该目标监控数据以及过去一段时间或过去的预设的次数内该设备节点相同类型的历史目标监控数据进行聚合处理，得到第一最大值、第一平均值以及第一最小值；将该第一最大值与第一最大值阈值进行比对、第一平均值与第一平均值阈值比对，将第一最小值与最小值阈值比对；若当前的目标监控数据为多个，还可以将多个目标监控数据进行聚合处理，得到第二最大值、第二最小值以及第二平均值，将第二最大值与第二最大值阈值进行比对、第二最小值与第二最小值阈值比对以及将第二平均值与第三平均值阈值进行比对；相应的，当上述任一比对结果表征与该指标阈值规则不匹配时，确定该设备节点处于异常状态。

具体的，每一监控指标类型的指标阈值规则对应的一个异常状态评判规则表，将目标监控数据与该指标阈值规则进行比对，得到比对结果，将该比对结果与该异常异常状态评判规则表进行比较，即可确定该设备节点是否处于异常状态，若为异常状态，还可以获取该异常状态的具体描述信息，例如故障类型、故障严重程度等。

本发明实施例提供的方法中，若目标监控数据的数量为多个，当任一目标监控数据和其对应的指标阈值规则的比对结果表征该监控数据不处于预先设置的合理区间时，确定该设备节点处于异常状态。

S105：若所述设备节点处于异常状态，则生成所述异常状态对应的告警事件，并判断所述告警事件是否满足预先设置的告警规则。

本发明实施例提供的方法中，可以依据获取该机器资源监控数据的时间、该设备节点的节点信息、异常状态的故障类型、以及故障严重程度值等生成该告警事件，该节点信息可以为该节点的IP地址信息、端口号以及该设备节点所处的地域等。

本发明实施例提供的方法中，可以通过该告警事件的类型、故障的严重程度、故障的发生时间、当前的时间、以及该告警事件是否为重复的事件等以上一种或多种因素判断该告警事件是否满足告警规则。

S106：若所述告警事件满足所述告警规则，则确定与所述告警事件对应的目标修复脚本。

本发明实施例提供的方法中，确定与所述告警事件对应的目标修复脚本的一种方式可以为：对该告警事件进行分析，获得该告警事件对应的故障原因，依据该故障原因在预先建立的脚本文件库中确定目标修复脚本。

S107：依据所述目标修复脚本生成作业指令，并将所述作业指令发送至所述设备节点，以触发所述设备节点依据所述作业指令执行修复操作。

本发明实施例提供的方法中，可以依据该设备节点对应的IP地址以及端口号，将该作业指令发送至该设备节点。

本发明提供了一种设备的故障修复方法，包括：当接收到机器资源监控数据时，确定所述机器资源监控数据对应的设备节点；获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则；在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据；将所述目标监控数据与所述指标阈值规则进行比对，以判断所述设备节点是否处于异常状态；若所述设备节点处于异常状态，则生成所述异常状态对应的告警事件，并判断所述告警事件是否满足预先设置的告警规则；若满足，则确定与所述告警事件对应的目标修复脚本；依据所述目标修复脚本生成作业指令，并将所述作业指令发送至所述设备节点，以触发所述设备节点依据所述作业指令执行修复操作。应用本发明提供的设备的故障修复方法，能够确定告警事件对应的目标修复脚本，应用该修复脚本修复设备的故障，能够快速的修复设备的故障。

本发明实施例提供的方法中，基于上述的实施过程，具体的，所述获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则，包括：

具体的，该配置文件中记录有各个设备节点标识、各个监控指标类型、以及各个指标阈值规则之间的关联关系，每一设备节点标识对应一个或多个监控指标类型，每一监控指标类型对应一个或多个指标阈值规则，依据该设备节点标识遍历该配置文件，即可得到该设备节点对应的监控指标类型、该监控指标类型对应的指标阈值规则。

本发明实施例提供的方法中，基于上述的实施过程，具体的，判断所述告警事件是否满足预先设置的告警规则的过程，如图2所示，可以包括：

S201：依据预先设置的告警白名单判断所述告警事件当前是否处于抑制状态，若否，则执行S202；若是，则执行S206。

本发明实施例提供的方法中，判断告警事件是否处于抑制状态的一种方法可以为：判断该告警白名单中是否包含该告警事件对应的事件标识，若存在，则判断该告警事件是否满足指定的条件，若满足，则确定该告警事件当前处于抑制状态，该指定的条件可以为指定的时间，例如，确定该告警事件对应的发生时间，若发生时间为02：00，该指定的时间为00：00-06：00，则确定该告警事件处于抑制状态，即暂不处理该告警事件，该指定的条件也可以为故障严重程度值等，具体可以由技术人员依据实际需求进行设定。

S202：获取所述设备节点在预设时段内对应的告警记录。

本发明实施例提供的方法中，可以在预先设置的告警记录存储表中确定该设备节点在预设时间段内的告警记录，该预设时间段可以为当前时刻对应的前一个时间段，例如，可以获取过去的5分钟内、过去的30分钟内、过去的2个小时内的告警记录。

S203：判断所述告警记录中是否存在与所述告警事件相关联的历史告警事件，若否，则执行S204，若是，则执行S205。

本发明实施例提供的方法中，依据预先设置的关联事件配置文件中，确定与该告警事件关联的各个关联告警事件，将该告警记录与该关联事件配置文件进行匹配，以判断该告警记录中是否存在与该告警事件相关联的历史告警事件。

本发明实施例提供的方法中，若存在与该告警事件相关联的历史告警事件，则说明该告警事件为重复无效的告警事件或可聚合的告警事件，若为重复的告警事件，则可以不对该告警事件进行处理，若为可聚合的告警事件，则可以将该告警事件以及与其关联的历史告警事件进行聚合操作，得到目标告警事件；若不存在该告警事件相关联的历史告警事件，则说明该告警事件为新的告警事件。

本发明实施例提供的方法中，通过该关联配置文件确定该告警事件与各个历史告警事件的关联关系，该告警事件与历史告警事件可以为父子关联关系，也可以拓扑聚合关联关系等等。

S204：判断所述告警事件与所述历史告警事件是否满足预先设置的聚合规则，若是，则执行S205，若否，则执行S206。

S205：确定所述告警事件满足所述告警规则。

S206：确定所述告警事件不满足所述告警事件。

本发明实施例提供的方法，通过判断告警事件是否满足告警规则，有效地抵御告警风暴，大大降低无效告警的干扰，从而提升运维协作处理的效率。

本发明实施例提供的方法中，基于上述的实施过程，具体的，若所述告警事件与所述历史告警事件是否满足预先设置的聚合规则，则所述确定与所述告警事件对应的目标修复脚本，包括：

本发明实施例提供的方法中，依据告警事件以及历史告警事件之间的关联关系，确定聚合方式，依据该聚合方式将该目标告警事件以及历史告警事件进行聚合，得到目标告警事件，确定该目标告警事件对应的异常原因，依据该异常原因确定目标修复脚本。

本发明实施例提供的方法中，基于上述的实施过程，具体的，确定所述告警事件满足所述告警规则之后，还包括：

本发明实施例提供的方法中，可以确定该告警事件对应的故障原因，依据目标监控数据、故障原因、节点设备的节点信息等生成该告警事件对应的告警通知消息。

其中，对于符合压缩规则的各个告警事件，可以合成统一个告警通知消息，例如具有父子关联关系的两个告警事件，可以合并为父告警事件。

具体的，获取告警接收组中各个对象的通讯地址，可以将该告警通知信息通过相应的通讯地址以短消息、邮件、语音等以上一种或多种形式发送至各个对象。

本发明实施例提供的方法中，基于上述的实施过程，具体的，所述依据所述目标修复脚本生成作业指令，包括：

本发明实施例提供的方法中，该区域信息可以为地域信息，例如某个省份、某个市县等。

本发明实施例提供的方法中，可以依据该作业模板确定IP地址信息、地域信息、目标修复脚本等信息的编排位置，依据该编排位置对该IP地址信息、地域信息以及目标修复脚本进行编排，得到作业指令。

应用本发明实施例提供的方法，通过下发自动化脚本进行故障修复，实现告警故障处理一体化，节省人为手动处理故障的成本。

本发明实施例提供的方法中，基于上述的实施过程，具体的，在所述告警事件满足预先告警规则的情况下，可以获取该设备节点的在过去一段时间内的历史告警事件，依据当前的告警事件以及过去一段时间内的历史告警事件进行综合分析，以确定该告警事件对应的最大概率的故障原因；基于该故障原因在预先建立的脚本文件库中确定该告警事件对应的目标修复脚本。

具体的，可以提取当前的告警事件的故障特征以及各个历史告警事件的故障特征；并依据各个故障特征各自对应的权重值对各个故障特征进行计算，以确定该告警事件与各个预先设置的故障原因对应的概率值，将概率值最大的故障原因确定为该告警事件的故障原因。

本发明实施例提供的方法中，该脚本文件库中预先存储有多个修复脚本，不同的故障原因对应不同的故障脚本。

参见图3，为本发明提供的一实施场景示例图，本发明实施例提供的实施场景包括了监控服务器301、各个节点设备302以及告警接收组303。

实施时，图3所示的监控服务器301可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。监控服务器301与各个节点设备302通过网络建立通信连接，监控服务器301与告警接收组303通过网络建立通信连接，该告警接收组303中包含有多个对象，各对象可以是诸如手机、平板电脑、个人计算机等电子设备等。

本发明实施例涉及的网络为提供通信链路的介质，该网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

节点设备上安装有Agent程序，响应于Agent程序中的指令，采集自身的机器资源监控数据，并将该机器资源监控数据传输至监控服务器。

当监控服务器接收到机器资源监控数据时，确定机器资源监控数据对应的设备节点；获取与设备节点对应的监控指标类型以及监控指标类型对应的指标阈值规则；在机器资源监控数据中获取与监控指标类型匹配的目标监控数据；将目标监控数据与指标阈值规则进行比对，以判断设备节点是否处于异常状态；若设备节点处于异常状态，则生成该异常状态对应的告警事件，并判断告警事件是否满足预先设置的告警规则；若满足，则确定与告警事件对应的目标修复脚本；依据目标修复脚本生成作业指令，并将作业指令发送至设备节点，以触述设备节点依据作业指令执行修复操作；还可以生成与告警事件对应的告警通知消息；确定与设备节点对应的告警接收组，将告警通知消息发送至告警接收组中的各个对象。

应该理解，图3中示出的监控服务器、节点设备以及告警接收组以及告警接收组中的对象的数量仅是示意性的，可以由技术人员依据实际需求进行设定。

在具体实现过程中，监控服务器的实现功能可以划分为多个功能模块，如图4所示，为本发明实施例提供的一种设备异常的修复系统的结构示例图，该系统包括有采控模块、监控模块、监控器、告警模块、分析引擎、通知中心以及故障自愈模块；

该采集模块可以用于采集安装有agent程序的数据库、服务器、网络设备以及中间件等设备节点的机器资源监控信息，并应用http协议传输至监控模块；监控模块依据预先设置的指标模块和阈值模板，针对需要监控的设备节点，实例化相关指标和阈值模板进行实时异常监测，对于监测到的异常信息，生成相应的告警事件，将该告警事件发送至告警模块，告警模块接收到告警事件时，通过分析引擎，对该告警事件进行处理。

应用本发明实施例提供的方法，能够实现配置告警的通知、屏蔽、压缩、过滤、去重等功能。

本发明实施例提供的方法，支持设计相应的规则动作脚本，将脚本添加到规则引擎库，关联相应的告警事件，例如添加白名单告警规则，对于在白名单中的告警事件，自动处理关闭，无需进行通知；或者对于指定时间段的告警事件全部关闭处理等。故障自愈模块，可以对该告警事件进行分析，得到该设备节点的IP地址信息以及告警内容，生成相应的作业脚本，将该作业脚本通过采控模块的命令通道发送至设备节点，以触发设备节点进行自动化修复。

参见图5，为本发明实施例提供的一种监控模块的结构示例图，包括监测器和数据分析引擎，agent程序将产生的监控指标数据上报采集结果到kafka集群中，数据分析引擎中的实时数据处理系统storm拉取kafka队列的监控数据进行处理，与监测器中设置的监测套餐进行指标、阈值规则的分析计算，对于符合规则的监控数据，产生的相应的告警事件，发送到告警平台，并将结果存储到mysql中。

参见图6，为本发明实施例提供的一种告警模块的结构示例图，包含Flume、Redis队列、告警处理模块、告警规则引擎、告警通知模块。

告警事件信息源的接入采用Flume。Flume是一个分布式、可靠地、可用的服务，用于收集、聚合、传输日志数据；Flunme具有健壮性、容错机制、故障转移、恢复机制，同时Flume提供对数据的简单处理，并写到各种数据方的能力。

目标监控数据接入后进入到redis队列中，对目标监控数据进行处理需要关联相关的告警引擎库，获取目标监控数据对应的压缩、抑制、屏蔽规则等算子，以对该目标监控数据进行处理，得到告警事件。将目标监控数据和处理后的告警事件存储到数据库中，告警引擎可以设置相应的告警通知规则，将对应的告警事件发送给相应告警接收组，进行短信、邮件进行通知，同时将告警信息发送到故障自愈模块进行故障自愈。

参见图7，为本发明实施例提供的一种故障自愈模块的结构示例图，包括告警事件解析模块、脚本文件库、故障修复模块、作业编排模块、自愈作业库。

告警事件解析模块对告警事件进行清洗解析，该告警事件解析模块中包含有多种数据ETL清洗算子，例如正则表达式、数据转换、求和计算等，利用预先编排的操作算子对该告警事件进行处理，以提取出相应的告警内容、故障IP、告警地域等关键字段信息。

故障修复模块根据解析的内容从自愈脚本库中拉取目标修复脚本，应用作业编排模块对该目标修复脚本进行编排，该自愈作业库依据作业编排模块中的编排模板以及目标修复脚本生成作业指令，将作业指令下发到采控模块的命令通道进行自动化作业的执行，解决故障问题。

若脚本文件库没有对应的目标修复脚本，则可以向运维人员发送提示信息，提示运维人员补充应急预案，添加相关处理脚本，用于以后进行告警处理。

与图1所述的方法相对应，本发明实施例还提供了一种设备的故障修复装置，用于对图1中方法的具体实现，本发明实施例提供的设备的故障修复装置可以应用于计算机终端或各种移动设备中，其结构示意图如图8所示，具体包括：

接收单元401，用于当接收到机器资源监控数据时，确定所述机器资源监控数据对应的设备节点；

第一获取单元402，用于获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则；

第二获取单元403，用于在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据；

比对单元404，用于将所述目标监控数据与所述指标阈值规则进行比对，以判断所述设备节点是否处于异常状态；

生成单元405，用于若所述设备节点处于异常状态，则生成所述异常状态对应的告警事件，并判断所述告警事件是否满足预先设置的告警规则；

确定单元406，用于当所述告警事件满足所述告警规则时，确定与所述告警事件对应的目标修复脚本；

修复单元407，用于依据所述目标修复脚本生成作业指令，并将所述作业指令发送至所述设备节点，以触发所述设备节点依据所述作业指令执行修复操作。

在本发明提供的一个实施例中，基于上述的方案，可选的，所述第一获取单元402，包括：

在本发明提供的一个实施例中，基于上述的方案，可选的，判断所述告警事件是否满足预先设置的告警规则的所述生成单元405，包括：

第一执行子单元，用于在与所述告警事件关联的历史告警事件的情况下，则判断所述告警事件与所述历史告警事件是否满足预先设置的聚合规则，若满足，则确定所述告警事件满足预先设置的告警规则；

在本发明提供的一个实施例中，基于上述的方案，可选的，所述依据所述目标修复脚本生成作业指令的所述修复单元407，包括：

上述本发明实施例公开的设备的故障修复装置中的各个单元和模块具体的原理和执行过程，与上述本发明实施例公开的设备的故障修复方法相同，可参见上述本发明实施例提供的设备的故障修复方法中相应的部分，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述设备的故障修复方法。

本发明实施例还提供了一种电子设备，其结构示意图如图9所示，具体包括存储器501，以及一个或者一个以上的指令502，其中一个或者一个以上指令502存储于存储器501中，且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作：

若满足，则确定与所述告警事件对应的目标修复脚本；

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种设备的故障修复方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种设备的故障修复方法，其特征在于，包括：

若满足，则确定与所述告警事件对应的目标修复脚本；

2.根据权利要求1所述的方法，其特征在于，所述获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则，包括：

3.根据权利要求1所述的方法，其特征在于，判断所述告警事件是否满足预先设置的告警规则包括：

若存在，则判断所述告警事件与所述历史告警事件是否满足预先设置的聚合规则，若满足，则确定所述告警事件满足所述告警规则；

若不存在，则确定所述告警事件满足所述告警规则。

4.根据权利要求3所述的方法，其特征在于，若所述告警事件与所述历史告警事件是否满足预先设置的聚合规则，则所述确定与所述告警事件对应的目标修复脚本，包括：

5.根据权利要求1所述的方法，其特征在于，确定所述告警事件满足所述告警规则之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述依据所述目标修复脚本生成作业指令，包括：

7.一种设备的故障修复装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第一获取单元，包括：

9.根据权利要求7所述的装置，其特征在于，判断所述告警事件是否满足预先设置的告警规则的所述生成单元，包括：

第一执行子单元，用于存在与所述告警事件关联的历史告警事件的情况下，则判断所述告警事件与所述历史告警事件是否满足预先设置的聚合规则，若满足，则确定所述告警事件满足预先设置的告警规则；

10.根据权利要求7所述的装置，其特征在于，所述依据所述目标修复脚本生成作业指令的所述修复单元，包括：