CN105897499A

CN105897499A - 分布式存储系统节点状态监控方法、中心节点及系统

Info

Publication number: CN105897499A
Application number: CN201510888065.9A
Authority: CN
Inventors: 陈积
Original assignee: LeTV Cloud Computing Co Ltd
Current assignee: LeTV Cloud Computing Co Ltd
Priority date: 2015-12-07
Filing date: 2015-12-07
Publication date: 2016-08-24

Abstract

本发明实施例提供一种分布式存储系统节点状态监控方法。所述方法包括以下步骤：中心节点为工作节点配置心跳包发送的第一时间间隔；所述中心节点接收所述工作节点发送的心跳包，获取所述工作节点的工作状态参数；所述中心节点将所述工作状态参数与预定阈值比较，当所述工作状态参数大于或等于预定阈值时，为所述工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔。此外，提供了相应的中心节点和系统，通过所述方法、中心节点和系统，解决了在业务负载过重和网络情况不佳等情况下心跳异常的问题，实现了根据实际的负载情况和网络不佳情况时自动调整心跳间隔，大幅提升了分布式存储集群可靠性和可用性。

Description

分布式存储系统节点状态监控方法、中心节点及系统

技术领域

本发明实施例涉及计算机网络存储领域，尤其涉及一种分布式存储系统节点状态监控方法、中心节点及系统。

背景技术

分布式存储系统，是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

分布式存储的系统架构需要心跳机制的支持，以确认各节点的状态，并对异常的状态及时处理。心跳间隔设定的过大，则工作正常的节点无法对处于异常状态的节点及时做出处理，例如判定离线，启动数据恢复或者数据迁移等。相反心跳间隔设定的过小，则对于网络的异常抖动，对于业务负载过重，无法及时响应心跳消息的场景而做出错误的判断。降低存储系统的可靠性。

目前业内的分布式存储系统对于心跳的设置都是设定一个固定值，无法根据复杂的网络环境进行自动的动态配置，例如不能根据存储系统的整体负载变化以及节点的工作状态等实际情况，自动地调整心跳间隔。心跳间隔的过长或过短都会使得判断的错误，导致监控结果的不真实准确，造成系统资源浪费或吃紧，从而使得节点工作状态不稳定，影响分布式存储系统整体的可靠性和可用性。

发明内容

为了解决现有技术中心跳间隔的值固定，不能应付现实操作中的复杂情况，导致监控不准确的问题，本发明实施例提供一种分布式存储系统节点状态监控方法、中心节点及系统。

本发明实施例一方面提供一种分布式存储系统节点状态监控方法，所述分布式存储系统包括中心节点和多个工作节点，所述方法包括以下步骤：

所述中心节点为所述多个工作节点配置心跳包发送的第一时间间隔；

所述中心节点接收所述多个工作节点发送的心跳包，获取所述多个工作节点的工作状态参数；

所述中心节点将所述工作状态参数与预定阈值比较:

当所述工作状态参数大于或等于预定阈值时，为所述多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔。

本发明实施例另一方面提供一种用于分布式存储系统的中心节点，包括:用于配置心跳包发送时间间隔的时间间隔配置单元、工作状态参数解析单元、比较单元，

其中，所述时间间隔配置单元用于为所述分布式存储系统中的多个工作节点配置心跳包发送的第一时间间隔；

所述工作状态参数解析单元用于接收所述多个工作节点发送的心跳包，获取所述多个工作节点的工作状态参数；

所述比较单元用于将所述工作状态参数与预定阈值比较，将比较结果发送给所述时间间隔配置单元；

所述时间间隔配置单元用于接收所述比较结果，当所述工作状态参数大于或等于预定阈值时，为所述多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔。

本发明实施例另一方面提供一种分布式存储系统，包括：中心节点和多个工作节点，其特征在于，所述中心节点为根据本发明实施例提供的用于分布式存储系统的中心节点。

本发明实施例提供的一种可以广泛适用于各种分布式存储系统的自动调整心跳间隔的方法，解决了在业务负载过重和网络情况不佳等情况下心跳异常的问题，实现了根据实际的负载情况和网络不佳情况时自动调整心跳间隔，大幅提升了分布式存储集群可靠性和可用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明分布式存储系统节点状态监控方法实施例流程图；

图2为当外部负载过大时，本发明分布式存储系统节点状态监控方法实施例应用场景图；

图3为当节点出现故障时，本发明分布式存储系统节点状态监控方法实施例应用场景图；

图4为当节点磁盘容量出现偏差时，本发明分布式存储系统节点状态监控方法实施例应用场景图；

图5为本发明用于分布式存储系统的中心节点实施例结构示意图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

分布式存储系统中一般包括两类节点，一类为工作节点，工作节点为多个，另一类为中心节点，也即总控节点。

中心节点，该节点是系统的中心控制节点，主要用于维护数据分布信息，执行工作机管理，数据定位，故障检测和恢复，负载均衡等全局调度工作。

系统中的所有资源都存储在工作节点上。工作节点通过心跳(Heartbeat，定时发送)机制将节点负载相关的信息，如CPU，内存，磁盘，网络等资源使用率，读写次数及读写数据量等发送给中心节点，并接受中心节点统一管理。所谓心跳机制，是收发心跳数据包(简称心跳包)的机制，心跳包是遵循心跳数据包协议定义的、周期性、循环发送的数据包，用于判断网络节点是否“存活”，即是否还在连接。实际运用时，首先需设计各网络节点都支持心跳数据包协议，各网络节点按照一定心跳机制向其它网络节点发送心跳包，用于判断对方(设备、进程或其它网元)是否正常运行，如果在指定时间段内未收到对方响应，即没有收到对方发回的心跳包，则认为与对方的连接已经中断，这样可检测TCP的异常断开，如突然断电、网络中断。虽然我们知道TCP是面向连接的，但是如果遇见拔网线，断电等物理层的一些特殊情况，TCP还是没有办法快速的知道异常，所以心跳包的使用可以帮我们解决这些问题。

目前业内分布式存储系统对于心跳的设置都是设定为一个固定值，心跳间隔设定的过大，则工作正常的节点无法对处于异常状态的节点及时做出处理，例如判定离线，启动数据恢复或者数据迁移等。相反心跳间隔设定的过小，则对于网络的异常抖动，对于业务负载过重，无法及时响应心跳消息的场景而做出错误的判断。

为此，本发明实施例提供了一种分布式存储系统节点状态监控方法。如图1所示，本发明实施例提供的一种分布式存储系统节点状态监控方法的流程图，所述方法包括以下步骤：

S101:中心节点为多个工作节点配置心跳包发送的第一时间间隔；

其中第一时间间隔为心跳包的初始心跳时间间隔，各节点以该时间间隔定期发送心跳包。

S102:中心节点接收多个工作节点发送的心跳包，获取多个工作节点的工作状态参数；

其中中心节点通过系统配置好的固定的时间间隔周期性获取多个工作节点的工作状态参数。其周期设置可根据历史统计数据，比如业务负载突然增大或突然变小发生的时间周期，节点出现故障的时间规律性等综合因素进行考虑，以免设置过大或过小。

S103:中心节点将所述工作状态参数与预定阈值比较:

系统中的预定阈值可以以配置文件形式存储在系统中，方便中心节点获取。

S104:当所述工作状态参数大于或等于预定阈值时，为多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔。

其中，中心节点为多个工作节点配置心跳包发送的第二时间间隔的同时，还会向各节点发送的消息，所述消息基于TCP的消息，消息包括消息头和消息体，例如消息体内容为“延长心跳间隔”其可根据本领域技术人员已知的开发语言来实现。

需要注意的是，中心节点的数量可以根据集群的需要设置，可以为一个或多个，当设置多个时就构成了一个监控集群。

这样通过适时延长心跳包发送间隔，防止在业务负载过重、网络的异常抖动等情境下因无法及时响应心跳消息而做出错误的判断。有效的提升了分布式集群系统的可靠性和可用性。

如图2，表示了当出现负载变化时应用本发明的本发明分布式存储系统节点状态监控方法的实施例。在此实施例中，步骤S102中所述工作状态参数为多个工作节点组成的集群的业务负载参数，所述预定阈值为业务负载阈值；所述方法步骤如下：

-中心节点为多个工作节点配置心跳包发送的第一时间间隔；

各工作节点根据心跳包发送的第一时间间隔定期向中心节点发送心跳包。

-中心节点接收多个工作节点发送的心跳包，获取多个工作节点组成的集群的业务负载参数；

中心节点会周期性的获取各工作节点组成的集群的业务负载参数。

-中心节点将所述业务负载参数与业务负载阈值比较:

当中心节点获取的所述业务负载参数大于或等于业务负载阈值时，中心节点向多个工作节点发送“延长心跳间隔”的消息，并为多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔；

当所述业务负载参数小于业务负载阈值时，中心节点向多个工作节点发送“缩短心跳间隔”的消息，为所述多个工作节点配置心跳包发送的第三时间间隔，所述第三时间间隔小于第一时间间隔。

这样，当出现负载的过大或过小时，中心节点及时响应并重新配置心跳包的发送时间间隔，各工作节点接收到中心节点的消息，根据调整后的心跳时间间隔向中心节点发送心跳包。一方面防止了负载过大时心跑间隔设定的过小，系统无法及时响应心跳包消息而做出错误判断，另一方面防止负载过小时心跳间隔设定的过大，无法对出现异常的节点做出及时响应和处理。有效提高了分布式存储系统的可靠性和可用性。

如图3，表示了当出现网络节点异常情况时应用本发明的本发明的本发明分布式存储系统节点状态监控方法的实施例。在此实施例中，步骤S102中所述工作状态参数为多个工作节点中停发心跳包的工作节点的故障数量，所述预定阈值为节点故障数量阈值；所述方法步骤如下：

-中心节点为多个工作节点配置心跳包发送的第一时间间隔；

-中心节点接收多个工作节点发送的心跳包，获取多个工作节点中停发心跳包的工作节点的故障数量；

中心节点接收各工作节点发送的心跳包，并回发“ACK”消息进行响应。当其中某个节点心跳包超时时，就认定此节点发生故障。

单台服务器故障的概率是不高的，然而，只要集群的规模足够大，每天都可能有机器故障发生，系统需要能够自动处理。容错是分布式存储系统设计的重要目标，只有实现了自动化容错，才能减少人工运维成本，实现分布式存储的规模效应。节点故障会影响系统服务，在故障检测以及故障恢复的过程中，不能提供写服务及强一致性读服务。

其中节点故障的判断，可依据节点向中心节点报告的系统消息来判断，如果在指定时间内，中心节点没有收到节点报告的系统消息，则认为节点故障。在本实施例中，采用节点向中心节点定期发送心跳包的方法来实现，当然也可以采用本领域技术人员已知的其它方法进行判断。-中心节点将所述故障数量与节点故障数量阈值比较:

当所述故障数量大于或等于节点故障数量阈值时，在中心节点启动数据恢复和/或数据重分布之前，中心节点向其它未出现故障的节点发送“延长心跳间隔”的消息，并为多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔；当中心节点完成数据恢复和/或数据重分布后，中心节点获取到故障数量小于节点故障数量阈值的信息时，中心节点向多个工作节点发送“恢复正常心跳间隔”的消息，例如维持所述多个工作节点发送心跳包的第一时间间隔。

这里，需要注意的是，对于节点故障时是否启动异常处理机制，如启动数据恢复/或数据重分布等会引起集群进入高负载状态的程序，有时系统会设置一个开关程序，即打开时默认进行心跳相应调整的操作，反之关闭时，对其不进行心跳的相应调整操作。

本发明实施例中，可根据存储数据的重要性预设节点故障数量阈R，当存储数据副本数量设定为N时(N≥2时数据副本才具有冗余性，一般设定为3或者更高)，其中，1≤R≤(N-1)，当R＝1时即为有一个数据节点故障即开始执行数据副本恢复操作，而当R>(N-1)时可能出现数据副本丢失的风险。具体实施时，分布式存储系统还可以根据系统的运行状态或者设置的数据副本的数量，调整节点故障数量阈R。

优选地，节点故障数量阈值设为1，即认为只要分布式存储系统中出现节点故障就启动数据恢复等操作。这样，当分布式存储系统中出现一定数据量的节点故障时，中心节点及时响应并重新配置心跳包的发送时间间隔，各工作节点接收到中心节点的消息，根据调整后的心跳时间间隔向中心节点发送心跳包。通过调整心跳包发送时间间隔，当节点故障时，防止心跳间隔设定的过小，系统无法及时响应心跳包消息而做出错误判断，例如判定离线，启动数据恢复或者数据迁移等。有效提高了分布式存储系统的可靠性和可用性。

如图4，表示了当出现网络节点磁盘容量出现偏差时应用本发明分布式存储系统节点状态监控方法的实施例。在此实施例中，步骤S102中所述工作状态参数为多个工作节点组成的集群的集群平均剩余容量百分比和多个工作节点的磁盘剩余容量百分比，所述预定阈值为磁盘容量偏差阈值；所述方法步骤如下：

-中心节点为多个工作节点配置心跳包发送的第一时间间隔；

-中心节点接收多个工作节点发送的心跳包，获取集群平均剩余容量百分比以及多个工作节点的磁盘剩余容量百分比；

中心节点接收各工作节点发送的心跳包，并回发“ACK”消息进行响应。

-中心节点将所述磁盘剩余容量百分比与所述集群平均剩余容量百分比相比获得偏差，所述偏差例如等于所述磁盘剩余容量百分比减去所述集群平均剩余容量百分比:

当所述偏差大于或等于磁盘容量偏差阈值时，在中心节点启动数据均衡之前，中心节点向其它节点发送“延长心跳间隔”的消息，并为多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔；

当中心节点完成数据均衡后，中心节点获取磁盘剩余容量百分比，并与集群平均剩余容量百分比相比，当其偏差小于磁盘容量偏差阈值时，中心节点向多个工作节点发送“恢复正常心跳间隔”的消息，例如维持所述多个工作节点发送心跳包的第一时间间隔。

这样，当分布式存储系统中工作节点出现磁盘剩余容量百分比与集群平均剩余容量百分比的偏差大于系统预设的磁盘容量偏差阈值时，为了更有效的利用磁盘剩余空间，而启动数据均衡，中心节点及时响应并重新配置心跳包的发送时间间隔，各工作节点接收到中心节点的消息，根据调整后的心跳时间间隔向中心节点发送心跳包。这样防止心跳间隔设定的过小，系统无法及时响应心跳包消息而做出错误判断。在保证分布式存储系统资源有效利用的前提下，有效提高了分布式存储系统的可靠性和可用性。进一步地，参照图5本发明提供了一种用于分布式存储系统的中心节点，包括:用于配置心跳包发送时间间隔的时间间隔配置单元、工作状态参数解析单元、比较单元，

其中，时间间隔配置单元用于为分布式存储系统中的多个工作节点配置心跳包发送的第一时间间隔；

工作状态参数解析单元用于接收多个工作节点发送的心跳包，获取多个工作节点的工作状态参数；

比较单元用于将工作状态参数与预定阈值比较，将比较结果发送给时间间隔配置单元；

时间间隔配置单元用于接收所述比较结果，当工作状态参数大于或等于预定阈值时，为多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔。

更进一步地，中心节点中工作状态参数包括多个工作节点组成的集群的业务负载参数，预定阈值包括业务负载阈值；

比较单元用于将业务负载参数与业务负载阈值比较，将比较结果发送给时间间隔配置单元；

时间间隔配置单元用于接收比较结果，当业务负载参数大于或等于业务负载阈值时，为多个工作节点配置心跳包发送的第二时间间隔，第二时间间隔大于第一时间间隔；

当业务负载参数小于业务负载阈值时，多个工作节点配置心跳包发送的第三时间间隔，所述第三时间间隔小于第一时间间隔。

更进一步地，中心节点中工作状态参数包括多个工作节点中停发心跳包的工作节点的故障数量，预定阈值包括节点故障数量阈值；

比较单元用于将故障数量与节点故障数量阈值比较，将比较结果发送给时间间隔配置单元；

时间间隔配置单元用于接收所述比较结果，当故障数量大于或等于节点故障数量阈值时，为多个工作节点配置心跳包发送的第二时间间隔，第二时间间隔大于第一时间间隔；

当故障数量小于节点故障数量阈值时，维持所述多个工作节点发送心跳包的第一时间间隔。

更进一步地，中心节点中工作状态参数包括多个工作节点组成的集群的集群平均剩余容量百分比和多个工作节点的磁盘剩余容量百分比，预定阈值包括磁盘容量偏差阈值；

比较单元用于将集群平均剩余容量百分比和磁盘剩余容量百分比之间的偏差与磁盘容量偏差阈值相比较，将比较结果发送给时间间隔配置单元；

时间间隔配置单元用于接收比较结果，当偏差大于或等于磁盘容量偏差阈值时，为多个工作节点配置心跳包发送的第二时间间隔，第二时间间隔大于第一时间间隔；

当偏差小于磁盘容量偏差阈值时，维持多个工作节点发送心跳包的第一时间间隔。

此外，本发明还提供了一种分布式存储系统，包括：根据本发明实施例提供的任一项所述的中心节点和多个工作节点。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种分布式存储系统节点状态监控方法，所述分布式存储系统包括中心节点和多个工作节点，所述方法包括以下步骤：

所述中心节点接收所述多个工作节点发送的心跳包，获取所述多个工作节点的工作状态参数；所述中心节点将所述工作状态参数与预定阈值比较:

2.根据权利要求1所述的方法，其特征在于，所述工作状态参数包括所述多个工作节点组成的集群的业务负载参数，所述预定阈值包括业务负载阈值；

所述中心节点将所述业务负载参数与业务负载阈值比较:

当所述业务负载参数大于或等于业务负载阈值时，为所述多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔；

当所述业务负载参数小于业务负载阈值时，为所述多个工作节点配置心跳包发送的第三时间间隔，所述第三时间间隔小于第一时间间隔。

3.根据权利要求1所述的方法，其特征在于，所述工作状态参数包括所述多个工作节点中停发心跳包的工作节点的故障数量，所述预定阈值包括节点故障数量阈值；

所述中心节点将所述故障数量与节点故障数量阈值比较:

当所述故障数量大于或等于节点故障数量阈值时，为所述多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔；

当所述故障数量小于节点故障数量阈值时，维持所述多个工作节点发送心跳包的第一时间间隔。

4.根据权利要求1所述的方法，其特征在于，所述工作状态参数包括所述多个工作节点组成的集群的集群平均剩余容量百分比和所述多个工作节点的磁盘剩余容量百分比，所述预定阈值包括磁盘容量偏差阈值；

所述中心节点将所述磁盘剩余容量百分比与所述集群平均剩余容量百分比相比获得偏差:

当所述偏差大于或等于磁盘容量偏差阈值时，为所述多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔；

当所述偏差小于磁盘容量偏差阈值时，维持所述多个工作节点发送心跳包的第一时间间隔。

5.一种用于分布式存储系统的中心节点，包括:用于配置心跳包发送时间间隔的时间间隔配置单元、工作状态参数解析单元、比较单元，

6.根据权利要求5所述的中心节点，所述工作状态参数包括所述多个工作节点组成的集群的业务负载参数，所述预定阈值包括业务负载阈值；

所述比较单元用于将所述业务负载参数与业务负载阈值比较，将比较结果发送给所述时间间隔配置单元；

所述时间间隔配置单元用于接收所述比较结果，当所述业务负载参数大于或等于业务负载阈值时，为所述多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔；

7.根据权利要求5所述的中心节点，所述工作状态参数包括所述多个工作节点中停发心跳包的工作节点的故障数量，所述预定阈值包括节点故障数量阈值；

所述比较单元用于将所述故障数量与节点故障数量阈值比较，将比较结果发送给所述时间间隔配置单元；

所述时间间隔配置单元用于接收所述比较结果，当所述故障数量大于或等于节点故障数量阈值时，为所述多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔；

8.根据权利要求5所述的中心节点，所述工作状态参数包括所述多个工作节点组成的集群的集群平均剩余容量百分比和所述多个工作节点的磁盘剩余容量百分比，所述预定阈值包括磁盘容量偏差阈值；

所述比较单元用于将所述集群平均剩余容量百分比和磁盘剩余容量百分比之间的偏差与所述磁盘容量偏差阈值相比较，将比较结果发送给所述时间间隔配置单元；

所述时间间隔配置单元用于接收所述比较结果，当所述偏差大于或等于磁盘容量偏差阈值时，为所述多个工作节点配置心跳包发送的第二时间间隔，所述第二时间间隔大于第一时间间隔；

9.一种分布式存储系统，包括：中心节点和多个工作节点，其特征在于，所述中心节点为根据权利要求5-8中任一项所述的中心节点。