CN107911230A

CN107911230A - 基于metaq集群的自动监控恢复方法

Info

Publication number: CN107911230A
Application number: CN201711000405.5A
Authority: CN
Inventors: 周龙波
Original assignee: Chengdu Danlu Network Technology Co Ltd
Current assignee: Chengdu Danlu Network Technology Co Ltd
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2018-04-13
Anticipated expiration: 2037-10-24
Also published as: CN107911230B

Abstract

本发明公开了基于metaq集群的自动监控恢复方法，包括(1)进行前期准备；(2)利用python语言编写一个能够实现metaq发送消息的客户端；(3)将该客户端连接上该集群所注册的zookeeper集群；(4)客户端从zookeeper集群中获取所有的监控topic以及每个监控topic所在的服务器的IP；(5)客户端定时向每个监控topic发送一条空消息，若空消息全部发送成功则重复步骤(5)，若有空消息发送失败则进行步骤(6)等步骤。本发明提供基于metaq集群的自动监控恢复方法，可以很好的完成对运维的监控，可以在发生线程等更底层的故障时及时的发现并进行重启恢复的操作，大大提高了监控的效果，保证了系统的正常运行。

Description

基于metaq集群的自动监控恢复方法

技术领域

本发明属于电子信息技术领域，具体是指基于metaq集群的自动监控恢复方法。

背景技术

目前的metaq集群着重用于解决持久化以及负载方面更上层或者更底层等应用方面的问题，但在运维里的线程级别的监控却暂时没有人采用该方法进行。

如今用于运维的监控方法只能做到进程级别的监控，而当发生线程等更底层的故障时便无法及时发现，更无法在故障时及时的进行重启恢复的操作，大大降低了对运维监控的效果，不利于行业的发展。

发明内容

本发明的目的在于克服上述问题，提供基于metaq集群的自动监控恢复方法，可以很好的完成对运维的监控，可以在发生线程等更底层的故障时及时的发现并进行重启恢复的操作，大大提高了监控的效果，保证了系统的正常运行。

本发明的目的通过下述技术方案实现：

基于metaq集群的自动监控恢复方法，包括以下步骤：

(1)进行前期准备；

(11)准备若干台部署有metaq的服务器并在该服务器上创建相应的业务topic，将部署有metaq的服务器组成一个集群；

(12)在每台metaq服务器上创建一个监控topic，且保证同一集群中的每台服务器上创建的监控topic均不相同；

(13)将集群中的所有业务topic都至少在两台metaq服务器上进行创建；

(14)将同一集群中的所有的metaq均注册到同一个zookeeper集群中；

(2)利用python语言编写一个能够实现metaq发送消息的客户端；

(3)将该客户端连接上该集群所注册的zookeeper集群；

(4)客户端从zookeeper集群中获取所有的监控topic以及每个监控topic所在的服务器的IP；

(5)客户端定时向每个监控topic发送一条空消息，若空消息全部发送成功则重复步骤(5)，若有空消息发送失败则进行步骤(6)；

(6)客户端统计发送空消息失败的监控topic，并在该监控topic所在的统计变量上将失败次数+1，若该监控topic的失败次数未到3次，则返回步骤(5)，若该监控topic的失败次数到达3次或3次以上，则进行步骤(7)；

(7)客户端检查失败3次或3次以上的监控topic所在服务器的上次重启时间，若重启时间与当前时间间隔未超过预设值则返回步骤(5)，若重启时间与当前时间间隔超过预设值则进入步骤(8)；

(8)客户端检查当前时间是否在维护时间段，若当前时间在维护时间段则返回步骤(5)，若当前时间不在维护时间段则进行步骤(9)；

(9)客户端调用失败3次或3次以上的监控topic所在服务器的系统命令以重启相应的metaq，并调用微信和邮件接口向预设的微信和邮箱发送告警信息，接着将该topic的失败次数信息和重启时间信息清零，最后再次返回步骤(5)。

步骤(5)中客户端发送空消息的频率默认为10秒一次，且具体时间频率能根据需求进行更改。

步骤(7)中的预设值为10分钟，且该预设置的时间长短需要根据实际需求进行调整，设置预设值时需要保证服务器在预设值中可以完成重启。

步骤(8)中的维护时间段是根据实际的维护需求进行确定的，优选的维护时间段应选择在业务量较少的夜间或凌晨。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明的集群中的业务topic均在至少两台metaq服务器上进行创建，可以很好的避免数据的丢失，同时还能大大减少metaq服务器重启时对整个集群造成的影响，确保了系统的正常与稳定运行。

(2)本发明中选用的metaq的设计场景是在大型分布式服务解耦中使用，其设计时的压力都是每秒千万级的，而本方法中每十秒只会产生一条空消息，不会影响到metaq的正常使用，从而确保了本方法的稳定性。

(3)本发明可以很好的完成对运维的监控，可以在发生线程等更底层的故障时及时的发现并进行重启恢复的操作，大大提高了监控的效果，保证了系统的正常运行。

具体实施方式

下面结合实施例对本发明作进一步的详细说明，但本发明的实施方式不限于此。

实施例

基于metaq集群的自动监控恢复方法，包括以下步骤：

(1)进行前期准备；

(2)利用python语言编写一个能够实现metaq发送消息的客户端；

此处的客户端是指能够实现发送metaq消息的程序，在整个集群的监控中只需要设置一个客户端即可，该客户端可以部署在集群中的任意一台服务器上，为了方便管理也可以将该客户端单独部署在一台服务器上。

(3)将该客户端连接上该集群所注册的zookeeper集群；

客户端发送空消息的频率默认为10秒一次，且具体时间频率能根据需求进行更改。

预设值为10分钟，且该预设置的时间长短需要根据实际需求进行调整，设置预设值时需要保证服务器在预设值中可以完成重启。设置预设值的目的是防止服务器在重启的过程中被再次重启，进而使得服务器进入一个重启的死循环，以确保服务器可以正常的完成重启的过程。

维护时间段是根据实际的维护需求进行确定的，优选的维护时间段应选择在业务量较少的夜间或凌晨。具体的判断时间以业务所在地的实际时间为准，若业务所在地在美国则需要根据美国的具体时间来调整服务器所在地的实际维护时间段。

其中，微信和邮件接口为客户端所在服务器的预设接口，其设置与调用方式均为本领域的惯用技术手段，在此便不进行赘述。

如上所述，便可很好的实现本发明。

Claims

1.基于metaq集群的自动监控恢复方法，其特征在于：包括以下步骤：

(1)进行前期准备；

(2)利用python语言编写一个能够实现metaq发送消息的客户端；

(3)将该客户端连接上该集群所注册的zookeeper集群；

(9)客户端调用失败3次或3次以上的监控topic所在服务器的系统命令以重启相应的metaq，并调用微信和邮件接口向预设的微信和邮箱发送告警信息，接着将该topic的失败次数信息清零并记录重启时间信息，最后再次返回步骤(5)。

2.根据权利要求1所述的基于metaq集群的自动监控恢复方法，其特征在于：所述步骤(5)中客户端发送空消息的频率默认为10秒一次，且具体时间频率能根据需求进行更改。

3.根据权利要求2所述的基于metaq集群的自动监控恢复方法，其特征在于：所述步骤(7)中的预设值为10分钟，且该预设置的时间长短需要根据实际需求进行调整，设置预设值时需要保证服务器在预设值中可以完成重启。

4.根据权利要求2所述的基于metaq集群的自动监控恢复方法，其特征在于：所述步骤(8)中的维护时间段是根据实际的维护需求进行确定的，优选的维护时间段应选择在业务量较少的夜间或凌晨。