CN114978860A

CN114978860A - 故障监控方法、装置、电子设备及存储介质

Info

Publication number: CN114978860A
Application number: CN202210355094.9A
Authority: CN
Inventors: 周健; 何明; 柯细兴; 罗洪滨
Original assignee: Yima Innovation Network Tianjin Co ltd
Current assignee: Yima Innovation Network Tianjin Co ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-08-30

Abstract

本发明提供了一种故障监控方法、装置、电子设备及存储介质，所述监控方法首先根据预设规则对Prometheus监控系统中的告警信息进行状态标记；其中，所述状态标记包括Firing；然后获取所述Prometheus监控系统中处于Firing标记状态的告警信息存入日志文件中；最后为所述日志文件中的告警信息创建监控项和对应的触发器。本发明可以避免分散管理的同时避免告警事件不能及时处理或者遗漏的情况；可以实现多个监控系统的统一管理及统一告警、快速便捷获取告警信息、告警信息有效聚合、告警分级和提升运维工作效率。

Description

故障监控方法、装置、电子设备及存储介质

技术领域

本发明涉及监控系统技术领域，尤其涉及一种故障监控方法、装置、电子设备及存储介质。

背景技术

当前主流的开源监控系统有Zabbix和Prometheus，不过这两个监控系统侧重点不一样，Prometheus主要是为容器而生的，对容器和k8s监控的天然集成，而Zabbix则是实现网络服务以及服务器、网络设备的监控。

现有技术的缺点：

Prometheus自带UI简单，虽然把Grafana作为Prometheus前端UI，但是在告警可视化方面不及Zabbix，报警功能也不如Zabbix那么灵活；

多套监控系统分散管理，降低了运维工作效率。

发明内容

本发明提供了一种故障监控方法、装置、电子设备及存储介质，可以避免分散管理的同时避免告警事件不能及时处理或者遗漏的情况；可以实现多个监控系统的统一管理及统一告警、快速便捷获取告警信息、告警信息有效聚合、告警分级和提升运维工作效率。

第一方面，本发明实施例提供了一种故障监控方法，所述监控方法包括：

根据预设规则对Prometheus监控系统中的告警信息进行状态标记；其中，所述状态标记包括Firing；

获取所述Prometheus监控系统中处于Firing标记状态的告警信息存入日志文件中；

为所述日志文件中的告警信息创建监控项和对应的触发器。

可选地，所述监控方法还包括：

当触发告警条件时，在Zabbix监控系统的前端页面展示告警信息，并按所述Zabbix监控系统的告警流程将所述告警信息通知到负责人。

可选地，所述监控方法还包括：

访问Prometheus webui的"Alerts"选项卡查看所述Prometheus监控系统中的告警信息的当前标记状态。

可选地，所述根据预设规则对Prometheus监控系统中的告警信息进行状态标记包括：将所述告警信息的状态标记为Inactive、Pending或Firing；

若server_load<＝20,则将所述告警信息的状态标记为Inactive；

若server_load>20，且持续时间小于5分钟，则将所述告警信息的状态标记为Pending；

若server_load>20，且持续时间大于5分钟，则将所述告警信息的状态标记为Firing。

可选地于，所述根据预设规则对Prometheus监控系统中的告警信息进行状态标记还包括：

若server_load>100，所述告警信息的标记状态直接从Inactive标记状态转入Firing标记状态。

可选地，所述获取所述Prometheus监控系统中处于Firing标记状态的告警信息存入日志文件中包括:

根据预先编写的python脚本获取所述Prometheus监控系统中处于Firing标记状态的告警信息；

将所述告警信息以json格式存入到所述日志文件中。

第二方面，本发明的实施例提供了一种故障监控装置，所述监控装置包括：

状态标记模块，根据预设规则对Prometheus监控系统中的告警信息进行状态标记；其中，所述状态标记包括Firing；

数据获取模块，获取所述Prometheus监控系统中处于Firing标记状态的告警信息存入日志文件中；

监控模块，为所述日志文件中的告警信息创建监控项和对应的触发器。

可选地，所述监控装置还包括：

展示及通知模块，当触发告警条件时，在Zabbix监控系统的前端页面展示告警信息，并按所述Zabbix监控系统的告警流程将所述告警信息通知到负责人。

第三方面，本发明的实施例提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如第一方面任一项所述的方法。

第四方面，本发明的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。

有益效果

应当理解，发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本发明各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素。

图1示出了本发明的实施例的一种故障监控方法的流程图；

图2示出了本发明的另一实施例的一种故障监控方法的流程图；

图3示出了本发明实施例的一种故障监控装置的结构示意图；

图4示出了本发明另一实施例的一种故障监控装置的结构示意图；

图5示出了本发明实施例的一种电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

需要说明的是，本发明实施例描述的仅仅是为了更加清楚的说明本发明实施例的技术方案，并不构成对本发明实施例提供的技术方案的限定。

图1示出了本发明的实施例的一种故障监控方法的流程图；参见图1，所述监控方法包括：

S20、根据预设规则对Prometheus监控系统中的告警信息进行状态标记；其中，所述状态标记包括Firing；

具体地，Prometheus监控系统进行预警时，首先把产生的告警发给Alertmanager进行处理时，同时需要在Prometheus的配置文件中添加关联Alertmanager组件的配置信息；Prometheus会根据设置的警告规则Ruels以及配置间隔时间进行周期性计算，当满足触发条件规则触发告警；浏览器访问Prometheus webui的"Alerts"选项卡，例如:http://127.0.0.1/alerts，在这里显示每个定义的告警当前处于活动状态的确切标签集；

这些警报存储在Alertmanager中，报警对象在生命周期有三种状态，它们将处于Inactive、Pending、Firing中的任何状态，其中Inactive：正常状态，未激活警报；Pending：表示已满足触发条件，但没有满足发送时间条件；Firing：满足告警触发条件，警报解除后，转换到Inactive标记状态；

告警的三种状态根据不同报警规则触发，对警报的生命周期进行评估：

当收集到的server_load<＝20,告警状态为Inactive，表明没有触发阈值，状态正常；

当收集到的server_load>20，且持续时间小于5分钟，告警状态为Pending，表明已触发阈值但未满足告警持续时间，不会触发告警；

收集到的server_load>20，且持续时间大于5分钟，告警状态为Firing，表明已触发告警；

在线上环境中，某些程序由于突出状况导致服务器负载临时升高且可能持续3-4分钟，虽然负载值大于20但未影响服务器性能，如果不设置持续时间，不设置Pending状态，而是直接触发Firing标记状态，这将会导致无意义告警，消耗用户处理告警时间，加重用户无效工作量；通过设置告警信息的状态以及触发规则可以很好的避免上述问题；

同时，定义当收集到的负载值大于100时，表示此时服务器负载很高，已经影响到了服务可用性，告警状态直接是从Inactive标记状态转入Firing标记状态，直接触发告警，形成告警事件快速通知用户处理。

通过上述步骤可以避免分散管理，避免告警事件不能及时处理或者遗漏，实现多个监控系统统一管理、统一告警，快速便捷获取告警信息，告警信息有效聚合，告警分级、提升用户工作效率。

S40、获取所述Prometheus监控系统中处于Firing标记状态的告警信息存入日志文件中；

具体地，将Prometheus监控系统定义的告警同步至Zabbix监控系统，使Prometheus和Zabbix的告警信息集中管理，具体步骤如下：

编写python脚本，通过requests.get('http://127.0.0.1/alerts')获取到Prometheus监控系统中处于Firing标记状态的告警信息(其中每个告警数据以json格式返回，包含了state、labels、level、cluster、instance、value、time等字段)，并输出到一日志文件(取名为：prometheus_alerts.log)中保存，供后续处理流程使用。

通过上述步骤可以对多监控源数据问题，能够满足动态监控以及动态预警的实时性需求；实现运维监控告警数据展示过程中不受数据源类型的影响，能够适应跨平台监控需求，可以将用户关注的告警数据在统一平台上进行多样化展示。

S60、为所述日志文件中的告警信息创建监控项和对应的触发器。

具体地，通过Zabbix监控系统自动发现规则对prometheus_alerts.log中每项告警创建监控项并创建对应触发器，其中触发器级别有critical、emergency，critical对应Zabbix监控系统的一般严重级别、emergency对应Zabbix监控系统的严重级别。

图2示出了本发明的另一实施例的一种故障监控方法的流程图；如图2所示：

所述监控方法还包括：

S80、当触发告警条件时，在Zabbix监控系统的前端页面展示告警信息，并按所述Zabbix监控系统的告警流程将所述告警信息通知到负责人；

具体地，当触发告警条件时，告警信息在Zabbix监控系统前端页面展示，并按照Zabbix监控系统的告警流程，将告警消息以邮件、电话、短信、即时通讯等媒介方式通知到负责人。

S50、访问Prometheus webui的"Alerts"选项卡查看所述Prometheus监控系统中的告警信息的当前标记状态。

通过上述步骤可以节省用户查看资源监控结果的时间，同时方便用户检索、分析资源监控结果。

本发明提供了一种故障监控方法、装置、电子设备及存储介质，所述监控方法首先根据预设规则对Prometheus监控系统中的告警信息进行状态标记；其中，所述状态标记包括Firing；然后获取所述Prometheus监控系统中处于Firing标记状态的告警信息存入日志文件中；最后为所述日志文件中的告警信息创建监控项和对应的触发器。本发明可以避免分散管理的同时避免告警事件不能及时处理或者遗漏的情况。上述方法可以对多监控源数据问题，能够满足动态监控以及动态预警的实时性需求、实现运维监控告警数据展示过程中不受数据源类型的影响，能够适应跨平台监控需求，可以将用户关注的告警数据在统一平台上进行多样化展示、节省用户查看资源监控结果的时间，同时方便用户检索、分析资源监控结果、避免分散管理，避免告警事件不能及时处理或者遗漏，实现多个监控系统统一管理、统一告警，快速便捷获取告警信息，告警信息有效聚合，告警分级，提升用户工作效率。

基于同一发明构思，本发明实施例还提供了一种故障监控装置，可以用于实现上述实施例中所描述的一种故障监控方法，如下面实施例所述：由于该一种故障监控装置解决问题的原理与一种故障监控方法相似，因此一种故障监控装置的实施可以参见一种故障监控方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3示出了本发明的实施例的一种故障监控装置的结构框图。如图3所示，所述监控装置包括：

状态标记模块20，状态标记模块，根据预设规则对Prometheus监控系统中的告警信息进行状态标记；其中，所述状态标记包括Firing；

数据获取模块40，数据获取模块，获取所述Prometheus监控系统中处于Firing标记状态的告警信息存入日志文件中；

监控模块60，监控模块，为所述日志文件中的告警信息创建监控项和对应的触发器。

本发明实施例提供了一种故障监控装置，所述监控装置首先通过状态标记模块20，根据预设规则对Prometheus监控系统中的告警信息进行状态标记；其中，所述状态标记包括Firing；然后通过数据获取模块40，获取所述Prometheus监控系统中处于Firing标记状态的告警信息存入日志文件中；最后通过监控模块60，为所述日志文件中的告警信息创建监控项和对应的触发器。可以避免分散管理的同时避免告警事件不能及时处理或者遗漏的情况；可以实现多个监控系统的统一管理及统一告警、快速便捷获取告警信息、告警信息有效聚合、告警分级和提升运维工作效率。

图4示出了本发明另一实施例的一种故障监控装置的结构示意图；如图所示：

所述监控装置还包括：

展示及通知模块80，当触发告警条件时，在Zabbix监控系统的前端页面展示告警信息，并按所述Zabbix监控系统的告警流程将所述告警信息通知到负责人。

通过所述展示及通知模块可以实现运维监控告警数据展示过程中不受数据源类型的影响，能够适应跨平台监控需求，可以将用户关注的告警数据在统一平台上进行多样化展示。

本发明实施例还提供了一种计算机电子设备，图5示出了可以应用本发明实施例的电子设备的结构示意图，如图5所示，该计算机电子设备包括，中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括状态标记模块20、数据获取模块40和监控模块60，其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，状态标记模块20还可以被描述为“根据预设规则对Prometheus监控系统中的告警信息进行状态标记的状态标记模块20”。

作为另一方面，本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述一种故障监控装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入电子设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本发明的一种故障监控方法。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种故障监控方法，其特征在于，所述监控方法包括：

为所述日志文件中的告警信息创建监控项和对应的触发器。

2.根据权利要求1所述的监控方法，其特征在于，所述监控方法还包括：

3.根据权利要求1所述的监控方法，其特征在于，所述监控方法还包括：

4.根据权利要求1所述的监控方法，其特征在于，所述根据预设规则对Prometheus监控系统中的告警信息进行状态标记包括：将所述告警信息的状态标记为Inactive、Pending或Firing；

若server_load<＝20,则将所述告警信息的状态标记为Inacti ve；

5.根据权利要求3所述的监控方法，其特征在于，所述根据预设规则对Prometheus监控系统中的告警信息进行状态标记还包括：

6.根据权利要求1所述的监控方法，其特征在于，所述获取所述Prometheus监控系统中处于Firing标记状态的告警信息存入日志文件中包括:

将所述告警信息以json格式存入到所述日志文件中。

7.一种故障监控装置，其特征在于，所述监控装置包括：

8.根据权利要求7所述的监控装置，其特征在于，所述监控装置还包括：

展示及通知模块，当触发告警条件时，在Zabbix监控系统的前端页面展示告警信息，并按所述Zabbi x监控系统的告警流程将所述告警信息通知到负责人。

9.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。