CN107276839B

CN107276839B - 一种云平台的自监控方法和系统

Info

Publication number: CN107276839B
Application number: CN201710732167.0A
Authority: CN
Inventors: 杨燕伟
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-08-24
Filing date: 2017-08-24
Publication date: 2020-09-08
Anticipated expiration: 2037-08-24
Also published as: CN107276839A

Abstract

本发明实施例公开了一种云平台的自监控方法和系统，所述方法包括：每个哨兵Sentinel节点采用定期的心跳检测对被监控的监控服务中的监控节点进行监控；当所述监控节点中的主节点发生故障时，对发生故障的主节点进行故障转移。本发明实施例能够对云平台自身进行监控，以使服务正常运行，从而提供稳定且可靠的服务，提高了云平台智能监控相关的服务性能。

Description

一种云平台的自监控方法和系统

技术领域

本发明涉及云计算技术，尤指一种云平台的自监控方法和系统。

背景技术

在云数据中心管理平台中，智能监控相关的服务，由于监控服务本身的性能问题，会导致监控服务异常挂起甚至宕机。为了提高云海智能监控相关的服务性能，需要对其自身进行监控，以使服务正常运行，提供稳定且可靠的服务。现有的监控管理平台，均没有较好的对自己的监控服务本身进行监控的服务或系统。

发明内容

为了解决上述技术问题，本发明实施例提供了一种云平台的自监控方法和系统，可以通过对云平台自身进行监控，以使服务正常运行，从而提供稳定且可靠的服务。

为了达到本发明目的，一方面，本发明实施例提供了一种云平台的自监控方法，包括：

每个哨兵Sentinel节点采用定期的心跳检测对被监控的监控服务中的监控节点进行监控；

当所述监控节点中的主节点发生故障时，对发生故障的主节点进行故障转移。

进一步地，所述每个Sentinel节点采用定期的心跳检测对被监控的监控服务中的监控节点进行监控包括：

每隔预设时间向主节点、从节点和除当前Sentinel节点以外的其它Sentinel节点发送ping命令做心跳检测，以确认所述主节点、所述从节点和所述其它Sentinel节点当前是否可达。

进一步地，所述方法还包括：

当所述主节点、所述从节点和所述其它Sentinel节点中的任意节点在预设的时间阈值内没有对发出所述ping命令的第一Sentinel节点进行有效回复时，所述第一Sentinel节点对该节点进行主观下线；

当所述第一Sentinel节点主观下线的节点是主节点时，所述第一Sentinel节点向除所述第一Sentinel节点以外的其他Sentinel节点询问对进行主观下线的该主节点的判断，当超过预设个数的Sentinel节点认为该主节点故障时，所述第一Sentinel节点对该主节点进行客观下线。

进一步地，所述对发生故障的监控节点进行故障转移包括：

确认所述监控节点中的领导者节点；

所述领导者节点选举出的Sentinel节点负责所述故障转移。

进一步地，所述方法还包括：

当确定所述监控节点中没有所述领导者节点时，从每个在线的Sentinel节点中选出所述领导者节点；

从每个在线的Sentinel节点中选出所述领导者节点包括：

所述每个在线的Sentinel节点中任意的第二Sentinel节点向除所述第二Sentinel节点以外的其它在线的Sentinel节点发出将自身设置为所述领导者节点的请求；

收到所述请求的所述其它在线的Sentinel节点，如果未同意过除所述第二Sentinel节点以外的其它在线的Sentinel节点发出的请求，则同意所述第二Sentinel节点发出的请求，如果已经同意过除所述第二Sentinel节点以外的其它在线的Sentinel节点发出的请求，则拒绝所述第二Sentinel节点发出的请求；

如果所述第二Sentinel节点确认自身收到的同意的票数大于或等于sentinel节点总数/2+1，则将自身设置为所述领导者节点；如果所述第二Sentinel节点确认自身收到的同意的票数小于sentinel节点总数/2+1，则进入下一次选举。

进一步地，所述领导者节点选举出的Sentinel节点负责所述故障转移包括：

所述领导者节点从所述监控节点中选出一个新的主节点；

所述领导者节点命令除所述新的主节点以外的节点作为所述新的主节点的从节点；

所述领导者节点将被客观下线的所述主节点更新为从节点；并在更新后的从节点恢复正常时与所述新的主节点建立主从分布式连接。

进一步地，所述方法还包括：

每个Sentinel节点获取从节点的信息，并在确认有新的监控节点加入，存在监控节点不可达或者发生故障转移后，通过info命令更新节点拓扑信息。

另一方面，本发明实施例还提供了一种云平台的自监控系统，包括：

监控模块，用于每个哨兵Sentinel节点采用定期的心跳检测对被监控的监控服务中的监控节点进行监控；

故障转移模块，用于当所述监控节点中的主节点发生故障时，对发生故障的主节点进行故障转移。

进一步地，所述监控模块还用于：

进一步地，所述系统还包括判断模块，用于：

与现有技术相比，本发明通过每个哨兵Sentinel节点采用定期的心跳检测对被监控的监控服务中的监控节点进行监控；当所述监控节点中的主节点发生故障时，对发生故障的主节点进行故障转移。本发明实施例能够对云平台自身进行监控，以使服务正常运行，从而提供稳定且可靠的服务，提高了云平台智能监控相关的服务性能。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例云平台的自监控方法的流程图；

图2为本发明实施例云平台的自监控方法中哨兵节点对主从节点进行的心跳检测图；

图3为本发明实施例云平台的自监控系统的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例云平台的自监控方法的流程图，如图1所示，本发明实施例的方法包括以下步骤：

步骤100：每个哨兵Sentinel节点采用定期的心跳检测对被监控的监控服务中的监控节点进行监控；

例如，每隔1秒，每个Sentinel节点会向主节点(master)、从节点(slave)、其余Sentinel节点发送一条ping命令做一次心跳检测，来确认这些节点当前是否可达；

步骤101：当所述监控节点中的主节点发生故障时，对发生故障的主节点进行故障转移。

当哨兵节点监测到某个主节点客观下线之后，就会开始故障转移流程。

只有主节点故障才进行故障转移，其它节点整个系统容忍2个节点的失效，处理这种失败就是简单的通过无限的重试。

进一步地，所述方法还包括：

具体地，每个Sentinel节点会每隔1秒对主节点、从节点、其他Sentinel节点发送ping命令做心跳检测，当超过设置的最大时间阈值没有进行有效回复，Sentinel节点就会对该节点做失败判定，即主观下线；

具体地，当Sentinel节点主观下线的节点是主节点时，该Sentinel节点会向其他节点询问对主节点的判断，当超过“法定人数”个数，Sentinel节点认为主节点确实有问题，这时该Sentinel节点会做出客观下线的决定。

进一步地，所述对发生故障的监控节点进行故障转移包括：

确认所述监控节点中的领导者节点；

所述领导者节点选举出的Sentinel节点负责所述故障转移。

进一步地，所述方法还包括：

从每个在线的Sentinel节点中选出所述领导者节点包括：

所述领导者节点从所述监控节点中选出一个新的主节点；

进一步地，所述方法还包括：

本发明通过每个哨兵Sentinel节点采用定期的心跳检测对被监控的监控服务中的监控节点进行监控；当所述监控节点中的主节点发生故障时，对发生故障的主节点进行故障转移。本发明实施例能够对云平台自身进行监控，以使服务正常运行，从而提供稳定且可靠的服务，提高了云平台智能监控相关的服务性能。

下面从原理上对本发明实施例的方法进行详细说明：

本发明实施例采用raft算法实现选举领导人策略，实现的哨兵(Sentinel)节点采用心跳检测机制对主从式节点进行的监控，对新主节点的选举，以及故障转移，使得云平台环境的稳定性极大地提高。

采用raft算法实现的选举领导人策略，可以提高云海监控服务的可靠性、稳定性。当云海服务自身异常挂起导致无法提供正常的服务的时候，Sentinel节点可以选出新的主节点，继续提供稳定的服务。

本发明实施例作为一种基于云海的主从式心跳检测的自监控系统，通过采用主从式部署的方式，进行定期的心跳检测，然后以发送信号量的方式，使服务稳定且可靠的运行。在消耗极少资源的情况下，使监控管理平台能够稳定可靠地提供服务。

本发明实施例面向云海分布式平台的自监控方法采用JAVA高级语言进行raft算法的描述，通过Sentinel实现领导者选举。Sentinel服务通过远程过程调用(RemoteProcedure Call，RPC)来通信，候选人在选举过程中触发RequestVote PRC，心跳(heartbeat)机制是由领导人触发的AppendEntries RPC。

使用哨兵Sentinel节点的三个定时任务、主观下线和客观下线、Sentinel节点领导者选举、故障转移，来提高监控服务本身的高可用性。

其中，主观下线(Subjectively Down，简称SDOWN)指的是单个Sentinel实例对服务器做出的下线判断。

客观下线(Objectively Down，简称ODOWN)指的是多个Sentinel实例在对同一个服务器做出的下线判断，并且通过命令互相交流之后，得出的服务器下线判断。

图2为本发明实施例云平台的自监控方法中哨兵节点对主从节点进行的心跳检测图，如图2所示，本发明实施例中基于云海的主从式心跳检测的自监控系统具体实施过程如下：

首先，一套合理的监控机制是哨兵Sentinel节点判定节点不可达的重要保证，Sentinel通过三个定时监控任务完成对各个节点发现和监控，用来获取从节点的信息，当有新的节点加入时都可以立刻感知出来，节点不可达或者故障转移后，可以通过info命令实时更新节点拓扑信息：

三个定时任务实现时主要包括以下几个步骤：

每隔10秒，每个Sentinel节点会向主节点和从节点发送info命令获取最新的拓扑结构；

每隔2秒，每个Sentinel节点会向主从节点发送该Sentinel节点对于主节点的判断及当前Sentinel节点的信息，用来发现新的Sentinel节点，Sentinel节点之间交换主节点的状态，作为客观下线及领导者选举的依据；

每隔1秒，每个Sentinel节点会向主节点(master)、从节点(slave)、其余Sentinel节点发送一条ping命令做一次心跳检测，来确认这些节点当前是否可达；例如，图2中，Sentinel-1节点向master、slave-1、slave-2、Sentinel-2、Sentinel-3节点发送ping命令。

其次，主观下线和客观下线是用来判定故障的节点：

每个Sentinel节点会每隔1秒对主节点、从节点、其他Sentinel节点发送ping命令做心跳检测，当超过设置的最大时间阈值没有进行有效回复，Sentinel节点就会对该节点做失败判定，即主观下线；

当Sentinel节点主观下线的节点是主节点时，该Sentinel节点会向其他节点询问对主节点的判断，当超过“法定人数”个数，Sentinel节点认为主节点确实有问题，这时该Sentinel节点会做出客观下线的决定；

然后，需要对故障节点进行故障转移操作，此时需要选举出新的领导者：

每个在线的Sentinel节点都有资格成为领导者，当它判定主节点主观下线时候，会向其他Sentinel节点发送请求，要求将自己设置为领导者。

收到请求的Sentinel节点，如果没有同意过其他Sentinel节点，将同意该请求，否则拒绝。

如果该Sentinel节点发现自己的票数大于等于sentinels/2+1节点，那么它将成为领导者。

如果此过程没有选举出领导者，将进入下一次选举。

故障转移，领导者选举出的Sentinel节点负责故障转移：

在从节点列表中选出一个节点作为新的主节点，过滤掉主观下线、断线，5秒内没有回复过的Sentinel节点ping响应、与主节点失联超过10秒。选择从节点优先级最高的从节点列表。

Sentinel领导者节点会对第一步选出来的从节点，让其成为主节点。

Sentinel领导者节点会向剩余的从节点发送命令，让它们成为新主节点的从节点。

Sentinel节点集合会将原来的主节点更新为从节点，并保持着对其关注，当其恢复后命令它去与新的主节点建立主从分布式连接。

本发明采用raft算法实现的Sentinel服务，可以实现Sentinel节点对主从式节点的监控，对新主节点的选举，以及故障转移，使得环境的稳定性极大的提高，当云海监控服务自身异常挂起导致无法提供正常的监控服务的时候，Sentinel节点可以选出新的主节点，继续提供稳定的监控服务。

其中，通过定时监控任务完成对各个节点发现和监控，用来获取从节点的信息，包括感知是否有新的节点加入，节点不可达或者监控服务异常。

领导人触发的心跳(heartbeat)机制进行的新主节点的选举，主要包括如下几个步骤：

S11：如果一个追随者在一个周期内没有收到心跳信息，此时选举超时；

S12：然后它就会假定没有可用的领导人，并且开始一次选举来选出一个新的领导人；

S13：如果该Sentinel节点的选举票数(voteNum)＞＝(总sentinel节点数)/2+1，此时选举自己为领导者；

S14：如果此过程没有选举出领导者，进入下一次选举。

选举出的领导人进行的故障转移，主要包括如下几个步骤：

S21：Sentinel领导者在从节点中选出一个新的主节点；

S22：Sentinel领导者向剩余的从节点发送命令，让它们成为新主节点的从节点；

S23：Sentine领导者将原来的主节点更新为从节点，当其恢复正常时，与新的主节点建立主从分布式连接。

图3为本发明实施例云平台的自监控系统的结构图，如图3所示，本发明实施例另一方面提供的一种云平台的自监控系统，包括：

监控模块301，用于每个哨兵Sentinel节点采用定期的心跳检测对被监控的监控服务中的监控节点进行监控；

故障转移模块302，用于当所述监控节点中的主节点发生故障时，对发生故障的主节点进行故障转移。

进一步地，所述监控模块301还用于：

进一步地，所述系统还包括判断模块，用于：

本发明实施例使用raft算法实现的Sentinel服务，可以实现对主从节点的监控，以及对新主节点的选举，及故障转移步骤。能够提升云海服务自身的稳定性及可靠性，提高云海服务平台的竞争力。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种云平台的自监控方法，其特征在于，包括：

当所述监控节点中的主节点发生故障时，对发生故障的主节点进行故障转移；

其中，所述每个Sentinel节点采用定期的心跳检测对被监控的监控服务中的监控节点进行监控包括：

每隔预设时间向主节点、从节点和除当前Sentinel节点以外的其它Sentinel节点发送ping命令做心跳检测，以确认所述主节点、所述从节点和所述其它Sentinel节点当前是否可达；

当所述第一Sentinel节点主观下线的节点是主节点时，所述第一Sentinel节点向除所述第一Sentinel节点以外的其他Sentinel节点询问对进行主观下线的该主节点的判断，当超过预设个数的Sentinel节点认为该主节点故障时，所述第一Sentinel节点对该主节点进行客观下线；

所述对发生故障的主节点进行故障转移包括：

确认所述监控节点中的领导者节点；

所述领导者节点选举出的Sentinel节点负责所述故障转移。

2.根据权利要求1所述的云平台的自监控方法，其特征在于，还包括：

从每个在线的Sentinel节点中选出所述领导者节点包括：

3.根据权利要求2所述的云平台的自监控方法，其特征在于，所述领导者节点选举出的Sentinel节点负责所述故障转移包括：

所述领导者节点从所述监控节点中选出一个新的主节点；

4.根据权利要求1所述的云平台的自监控方法，其特征在于，还包括：

5.一种云平台的自监控系统，其特征在于，包括：

监控模块，用于每个哨兵Sentinel节点采用定期的心跳检测对被监控的监控服务中的监控节点进行监控；还用于：

判断模块，用于：

当所述第一Sentinel节点主观下线的节点是主节点时，所述第一Sentinel节点向除所述第一Sentinel节点以外的其他Sentinel节点询问对进行主观下线的该主节点的判断，当超过预设个数的Sentinel节点认为该主节点故障时，所述第一Sentinel节点对该主节点进行客观下线

故障转移模块，用于当所述监控节点中的主节点发生故障时，对发生故障的主节点进行故障转移；

其中，所述对发生故障的主节点进行故障转移包括：

确认所述监控节点中的领导者节点；

所述领导者节点选举出的Sentinel节点负责所述故障转移。