CN115473802B

CN115473802B - 节点管理方法、系统、设备及存储介质

Info

Publication number: CN115473802B
Application number: CN202211119054.0A
Authority: CN
Inventors: 刘东海
Original assignee: Chongqing Unisinsight Technology Co Ltd
Current assignee: Chongqing Unisinsight Technology Co Ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2024-02-23
Anticipated expiration: 2042-09-13
Also published as: CN115473802A

Abstract

本申请提供一种节点管理方法、系统、设备及存储介质，该方法通过分布式集群的管理节点获取分布式集群的实际工作节点数量、预设工作节点数量和各工作节点的工作节点更新时间，当实际工作节点数量与预设工作节点数量不相等时，将至少部分空闲节点的工作状态调整为工作，或将至少部分工作节点的工作状态调整为空闲，若存在工作节点的时间差值大于预设差值阈值，以空闲节点替换该工作节点，能够监控、维护多个高可用服务管理节点的运行状态，统一进行调度管理，完成“发布”功能，当分布式存储集群因需要改动时，管理节点能够自动进行相应变动和调整，提升了分布式存储集群的高可用性，降低了人力运维负担。

Description

节点管理方法、系统、设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种节点管理方法、系统、设备及存储介质。

背景技术

安防领域自研的分布式存储集群很多场景下对服务的高可用性有较高要求，连续宕机即使超出冗余，剩余一个节点也能对外提供服务，保证数据能够正常写入。因此需要保证重要服务(主要涉及元数据服务程序MetaServer、分布式缓存服务程序RedisServer、数据库服务程序PostgresSQL等)的高可用性。

实现一套高可用性集群，相关技术的做法是在选定的节点设备上部署运行特定的服务程序，并实现一主多从机制，配合keepalived-VIP(虚拟IP)保活机制，当某一个高可用服务的主节点异常时，就会在部署选定的其他从节点中重新选举新的主节点并对外提供服务。一般部署高可用服务的节点称为高可用服务管理节点。

如果分布式存储集群因需要改动，如扩容或者迁移、节点替换等时，元数据服务管理节点无法自动进行相应变动和调整，会导致分布式存储集群的高可用变低，当出现上述情况时候就需要现场技术人员人为介入，增加了人力运维负担。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种节点管理方法、系统、设备及存储介质，用于解决对于相关技术中分布式存储集群因需要改动，元数据服务管理节点不能自动进行相应变动和调整的状态下，分布式存储集群的高可用性会变差、人力维护负担大的技术问题。

针对于上述问题，本发明提供了一种节点管理方法，该方法包括：

分布式集群的管理节点获取所述分布式集群的节点状态信息，所述节点状态信息包括实际工作节点数量、预设工作节点数量以及各工作节点的工作节点更新时间，所述工作节点的工作状态为工作；

若所述实际工作节点数量与所述预设工作节点数量不相等，所述管理节点将至少部分所述工作节点的工作状态调整为空闲，或所述管理节点将所述分布式集群中的至少部分空闲节点的工作状态调整为工作，所述空闲节点的工作状态为空闲；

若一工作节点的工作节点更新时间与当前系统时间的时间差值大于预设差值阈值，所述管理节点将所述分布式集群中的一空闲节点替换一工作节点。

于本发明一实施例中，若所述实际工作节点数量与预设工作节点数量不相等，所述管理节点将至少部分所述工作节点的工作状态调整为空闲，或所述管理节点将所述分布式集群中的至少部分空闲节点的工作状态调整为工作包括：

若所述实际工作节点数量小于预设工作节点数量，获取所述分布式集群中的所述空闲节点的空闲节点数量，若所述空闲节点数量大于零，所述管理节点将至少部分所述空闲节点的工作状态调整为工作；

若所述实际工作节点数量大于预设工作节点数量，所述管理节点将至少部分所述工作节点的工作状态调整为空闲。

于本发明一实施例中，若所述实际工作节点数量小于预设工作节点数量，且所述空闲节点数量大于零，所述管理节点将至少部分所述空闲节点的工作状态调整为工作包括：

获取所述分布式集群中各所述空闲节点的优质值，以及需求节点数量，所述需求节点数量根据所述实际工作节点数量和所述预设工作节点数量确定，所述优质值根据内存使用率、处理器使用率、接口使用率中至少之一确定；

将各所述空闲节点按照所述优质值从优到劣进行排序，所述管理节点将排序前所述需求节点数量的所述空闲节点的工作状态调整为工作。

于本发明一实施例中，将各所述空闲节点按照所述优质值从优到劣进行排序包括：

若存在至少两个所述空闲节点的所述优质值相同；

获取优质值相同的各所述空闲节点的互联网协议地址，按照所述互联网协议地址从小到大进行排序。

于本发明一实施例中，所述管理节点将至少部分所述工作节点的工作状态调整为空闲包括：

获取各所述工作节点的优质值，所述优质值根据内存使用率、处理器使用率、接口使用率中至少之一确定；

根据所述实际工作节点数量和所述预设工作节点数量确定减少节点数量；

将各所述工作节点按照所述优质值从劣到优进行排序，所述管理节点将排序前所述减少节点数量的所述工作节点的工作状态调整为空闲。

于本发明一实施例中，所述管理节点将所述分布式集群中的一空闲节点替换一工作节点包括：

获取所述分布式集群中各所述空闲节点的优质值，所述优质值根据内存使用率、处理器使用率、接口使用率中至少之一确定；

将各所述空闲节点按照所述优质值从优到劣进行排序；

当一工作节点的时间差值大于预设差值阈值，所述管理节点将排序第一的所述空闲节点的工作状态调整为工作，将一工作节点的工作状态调整为空闲。

于本发明一实施例中，分布式集群的管理节点获取所述分布式集群的节点状态信息之前，所述方法还包括以下至少之一：

所述分布式集群的各节点分别检测自身的节点运行状态，所述节点运行状态包括节点更新时间、互联网协议地址和工作状态，所述工作状态包括工作和空闲；

所述分布式集群的各节点分别获取自身的内存使用率、处理器使用率、接口使用率中至少之一，并根据所述内存使用率、所述处理器使用率、所述接口使用率中至少之一确定所述节点的优质值。

于本发明一实施例中，所述方法还包括预先设置节点管理数据库表，所述节点管理数据库表包括以下至少之一：

节点个数表，用于记录服务程序的预设的占用节点个数，所述实际工作节点数量通过读取所述节点个数表中的所述占用节点个数得到；

节点工作表，用于记录所述服务程序的运行名称、所在工作节点的互联网协议地址、节点更新时间和优质值中至少之一，所述工作节点更新时间通过统计所述节点工作表中所述节点更新时间得到；

节点空闲表，用于记录未运行服务程序的空闲节点的服务名称、互联网协议地址、节点更新时间和优质值中至少之一；

节点禁止表，用于记录预先设定的不能添加服务程序的禁用节点的服务名称和互联网协议地址。

于本发明一实施例中，所述分布式集群的各节点分别检测自身的节点运行状态，以及根据所述内存使用率、所述处理器使用率、所述接口使用率中至少之一确定所述节点的优质值之后，所述方法还包括：

将所述节点运行状态和所述优质值更新至所述节点工作表和所述节点空闲表。

于本发明一实施例中，预先设置节点管理数据库表之后，所述方法还包括：

获取所述节点工作表中一所述工作节点的运行工作程序，以确定一所述工作节点的理论未运行工作程序；

检测一所述工作节点的理论未运行工作程序的运行状态，若所述运行状态为运行，则停止一所述工作节点对所述理论未运行工作程序的运行。

本发明还提供了一种节点管理系统，所述节点管理系统包括：

获取模块，用于分布式集群的管理节点获取所述分布式集群的节点状态信息，所述节点状态信息包括实际工作节点数量、预设工作节点数量以及各工作节点的工作节点更新时间，所述工作节点的工作状态为工作；

调整模块，用于若所述实际工作节点数量与所述预设工作节点数量不相等，所述管理节点将至少部分所述工作节点的工作状态调整为空闲，或所述管理节点将所述分布式集群中的至少部分空闲节点的工作状态调整为工作，所述空闲节点的工作状态为空闲；

替换模块，用于若一工作节点的工作节点更新时间与当前系统时间的时间差值大于预设差值阈值，所述管理节点将所述分布式集群中的一空闲节点替换一工作节点。

本发明实施例还提供了一种电子设备，包括处理器、存储器和通信总线；

所述通信总线用于将所述处理器和存储器连接；

所述处理器用于执行所述存储器中存储的计算机程序，以实现如上述实施例中任一项所述的方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于使所述计算机执行如上述实施例中任一项所述的方法。

如上所述，本发明提供的一种节点管理方法、系统、设备及存储介质，具有以下有益效果：

该方法通过分布式集群的管理节点获取分布式集群的实际工作节点数量、预设工作节点数量和各工作节点的工作节点更新时间，当实际工作节点数量与预设工作节点数量不相等时，将至少部分空闲节点的工作状态调整为工作，或将至少部分工作节点的工作状态调整为空闲，若存在工作节点的时间差值大于预设差值阈值，以空闲节点替换该工作节点，能够监控、维护多个高可用服务管理节点的运行状态，统一进行调度管理，完成“发布”功能，当分布式存储集群因需要改动时，管理节点能够自动进行相应变动和调整，提升了分布式存储集群的高可用性，降低了人力运维负担。

附图说明

图1是本申请的一示例性实施例示出的节点管理方法的流程图。

图2是本申请的一示例性实施例示出的Hal-Manage服务运行的流程示意图。

图3是本申请的一示例性实施例示出的Hal-check服务运行的流程示意图。

图4是本申请的一示例性实施例示出的节点管理系统的框图。

图5为一实施例提供的电子设备的一种结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

一般的安防分布式存储产品在部署高可用服务程序时选择节点数通常是固定不变的(个数一般固定为3个或者5个)，固定方式会存在一些弊端：当分布式存储集群规模较大，远远大于高可用服务部署节点数时，如果连续异常的节点属于高可用服务管理节点，并且异常的高可用服务无法迁移到其他的存储节点上时，会导致分布式存储集群的高可用性会变差。另外，如果分布式存储集群因需要改动(扩容或者迁移、节点替换等)时，元数据服务管理节点无法自动进行相应变动和调整，也会导致分布式存储集群的高可用变低，当出现上述情况时候就需要现场技服人为介入，增加了人力运维负担。相关技术的方案中，删除(或者添加)异常节点服务是由主节点跨网络执行的，和原节点的执行脚本存在耦合性。需要另外加一个表，维护异常节点信息，并不断尝试对异常节点的重新操作，流程复杂。添加节点服务和删除节点服务操作可能存在失败的可能，会涉及到回退流程，较为复杂。不支持用户在线配置高可用服务的节点个数。

针对于上述问题，本申请实施例提供了一种节点管理方法、一种节点管理系统、一种电子设备和一种计算机可读存储介质，请参阅图1，图1是本申请的一示例性实施例示出的节点管理方法的流程图。如图1所示，在一示例性的实施例中，该方法可以应用于分布式集群中的各服务的管理节点，该方法至少包括步骤S101至步骤S103，详细介绍如下：

步骤S101，分布式集群的管理节点获取分布式集群的节点状态信息。

其中，节点状态信息包括实际工作节点数量、预设工作节点数量以及各工作节点的工作节点更新时间，工作节点的工作状态为工作。

分布式集群中存在多个节点，可以部署一个或多个高可用服务程序，高可用服务程序包括但不限于元数据服务程序MetaServer、分布式缓存服务程序Redis-Server、数据库服务程序PostgresSQL等。针对每一个高可用服务程序，均对应有一个管理节点，各高可用服务程序的管理节点可以是相同的，也可以是不同的。各高可用服务程序的工作节点可以是相同的，也可以是不同的。

在本实施例中，对于节点状态信息是以单个高可用服务程序的维度来进行比较的。可以理解，当分布式集群中部署有两个或两个以上的高可用服务程序，则节点状态信息为每一个高可用服务程序的节点状态信息。

分布式集群中各节点在不同的高可用服务程序中可以具有相同的工作状态，也可以具有不相同的工作状态，如节点X在MetaServer为工作，在PostgresSQL为空闲。工作状态包括工作和空闲，工作状态还包括禁止。空闲的节点可以在一定条件下转化为工作，但禁止的节点除非禁止限令解除，否则禁止的工作状态不会改变。

在一实施例中，该方法还包括预先设置节点管理数据库表，该节点管理数据库表包括以下至少之一：

节点个数表(HighAvailability-Number，HAN)，用于记录服务程序(高可用服务程序)的预设的占用节点个数，实际工作节点数量通过读取节点个数表中的占用节点个数得到，其中该节点个数表是可以用本领域技术人员根据需要进行配置，可以进行占用占用节点个数的扩增或缩减，而相关技术中不能够支持该占用节点个数的修改；

节点工作表(HighAvailability-Number-Work，HAW)，用于记录服务程序的运行名称、所在工作节点的互联网协议地址、节点更新时间和优质值中至少之一，工作节点更新时间通过统计节点工作表中节点更新时间得到，其中优质值可以根据内存使用率、CPU使用率、IO使用率等性能参数的加权得出，该工作表的更新可以通过分布式集群中各节点执行高可用服务巡检程序(以下记为Hal-check)，定时检测自身的节点运行状态，并进行数据库的更新得到；

节点空闲表(HighAvailability-Free，HAF)，用于记录未运行服务程序的空闲节点的服务名称、互联网协议地址、节点更新时间和优质值中至少之一，需要说明的是，该空闲节点虽没有运行服务程序，但有服务可执行文件；

节点禁止表(HighAvailability-NotAllowed，HANA)，用于记录预先设定的不能添加服务程序的禁用节点的服务名称和互联网协议地址。

当分布式集群中的节点的工作状态发生变化时，将通过高可用服务巡检程序及时发现，并更新节点工作表、节点空闲表和节点禁止表中至少之一。

参见表1，表1是本申请的一示例性实施例示出的节点个数表的一种示例，如表1所示，服务程序Server_Name包括有MetaServer、Redis-Server、PostgreSQL三种，各服务程序的占用节点个数Node_number均为3，后续本领域技术人员可以根据需要直接调整该表中的占用节点个数，实现服务程序的节点数的扩增或缩减。

表1

Server_Name	Node_number
		MetaServer	3
Redis-Server	3
		PostgreSQL	3

参见表2，表2是本申请的一示例性实施例示出的节点工作表的表头的一种示例，如表2所示，该表中记录了运行有服务程序的工作节点的运行名称Process_Name、互联网协议地址Node_IP、节点更新时间update_time、优质值Perfer_value。可以通过高可用服务巡检程序定时获取节点运行状态，以更新该表。

表2

参见表3，表3是本申请的一示例性实施例示出的节点空闲表的表头的一种示例，如表2所示，该表中记录了运行有服务程序的工作节点的服务名称Server_Name、互联网协议地址Node_IP、节点更新时间update_time、优质值Perfer_value。可以通过高可用服务巡检程序定时获取节点运行状态，以更新该表。

表3

Server_Name

Node_IP

update_time

Perfer_value

参见表4，表4是本申请的一示例性实施例示出的节点禁止表的表头的一种示例，如表4所示，该表中记录了能添加服务程序的禁用节点的服务名称Server_Name和互联网协议地址Node_IP。可以通过高可用服务巡检程序定时获取节点运行状态，以更新该表。也可以通过人工进行手动设置来更新该表格。

表4

Server_Name

Node_IP

通过分布式集群的管理节点上运行的高可用服务巡检程序(以下记为Hal-Manage)，来获取监测、维护分布式存储集群中各个高可用服务管理节点上高可用服务程序的工作状态以及负责高可用服务管理节点的动态迁移工作。

Hal-Manage服务程序负责定时巡检查询HAW分表，来得到工作节点工作时间和实际工作节点数量，同时Hal-Manage服务程序也会去检测HAN表信息，将各服务程序的占用节点个数作为该应用程序的预设工作节点数量。HAW分表中的节点的工作状态均为工作。

步骤S102，若实际工作节点数量与预设工作节点数量不相等，管理节点将至少部分工作节点的工作状态调整为空闲，或管理节点将分布式集群中的至少部分空闲节点的工作状态调整为工作。

其中，空闲节点的工作状态为空闲。空闲节点可以通过上述的节点空闲表得到。换句话说，记录在节点空闲表中的节点均为空闲节点。

在一实施例中，当进行空闲节点调整为工作节点时，可以将该节点从节点空闲表中转移至节点工作表中，相应的，当进行工作节点调整为空闲时，可以将该节点从节点工作表中转移至节点空闲表中。

在一实施例中，若实际工作节点数量与预设工作节点数量不相等，管理节点将至少部分工作节点的工作状态调整为空闲，或管理节点将分布式集群中的至少部分空闲节点的工作状态调整为工作包括：

若实际工作节点数量小于预设工作节点数量，获取分布式集群中的空闲节点的空闲节点数量，若空闲节点数量大于零，管理节点将至少部分空闲节点的工作状态调整为工作；

若实际工作节点数量大于预设工作节点数量，管理节点将至少部分工作节点的工作状态调整为空闲。

例如，若实际工作节点数量小于预设工作节点数量，且空闲节点数量大于零，管理节点将至少部分空闲节点的工作状态调整为工作包括：

获取分布式集群中各空闲节点的优质值，以及需求节点数量，需求节点数量根据实际工作节点数量和预设工作节点数量确定，优质值根据内存使用率、处理器使用率、接口使用率中至少之一确定；

将各空闲节点按照优质值从优到劣进行排序，管理节点将排序前需求节点数量的空闲节点的工作状态调整为工作。

其中，将各空闲节点按照优质值从优到劣进行排序包括：

若存在至少两个空闲节点的优质值相同；

获取优质值相同的各空闲节点的互联网协议地址，按照互联网协议地址从小到大进行排序。

其中，管理节点将至少部分工作节点的工作状态调整为空闲包括：

获取各工作节点的优质值，优质值根据内存使用率、处理器使用率、接口使用率中至少之一确定；

根据实际工作节点数量和预设工作节点数量确定减少节点数量；

将各工作节点按照优质值从劣到优进行排序，管理节点将排序前减少节点数量的工作节点的工作状态调整为空闲。

上述过程可以通过Hal-Manage服务程序实现，通过Hal-Manage服务程序去检测HAN表信息，当查询发现HAN表中(比如MetaServer)记录部署的节点数(占用节点个数)大于HAW中实际记录运行的个数(实际工作节点数量)时，就会从HAF表中根据服务名称选取Perfer_value较高的节点信息并更新至HAW表中，当集群异常，HAF表中无多余可用节点时，则无需添加操作。反之，当查询发现HAN表中(比如MetaServer)记录部署的节点数(占用节点个数)小于HAW中实际记录运行的个数(实际工作节点数量)时，则从HAW中删除多余的该服务所对应的节点信息，删除时优先选择Perfer_value较低的节点信息。

这里需要说明，为了保证Hal-Manage只有在一台节点上执行才能保证一致性。本实施例通过组建一个数据库服务集群(使用一主多从的postgreSQL集群并配合keepalived-VIP机制进行保活来实现)保证了只有一个主节点(占用VIP)，并规定Hal-Manage只在主节点上运行并生效。当数据库主节点发生切换的时候，新提升为主节点上的HA-Manage取代原主节点的高可用服务管理调度职责。

HA-Manage在选择高可用服务空闲节点的时，会选择优质值Perfer_value较高的节点，当优质值一样时，会选择Node_IP较小的节点。

步骤S103，若一工作节点的工作节点更新时间与当前系统时间的时间差值大于预设差值阈值，管理节点将分布式集群中的一空闲节点替换一工作节点。

需要说明的是，步骤S102和步骤S103之间的执行步序在此不做限定。

预设差值阈值可以由本领域技术人员根据需要进行设定。可以根据Hal-Manage服务程序的运行频率来决定。

当时间差值大于预设差值阈值，说明该工作节点可能存在异常，则需要将该工作节点的工作状态修改为空闲，并从当前空闲的空闲节点中选择一个来替换该工作节点。

在一实施例中，管理节点将分布式集群中的一空闲节点替换一工作节点包括：

获取分布式集群中各空闲节点的优质值，其中，优质值根据内存使用率、处理器使用率、接口使用率中至少之一确定；

将各空闲节点按照优质值从优到劣进行排序；

当一工作节点的时间差值大于预设差值阈值，管理节点将排序第一的空闲节点的工作状态调整为工作，将一工作节点的工作状态调整为空闲。

例如，Hal-Manage服务程序负责定时巡检查询HAW分表，一旦发现表中某个高可用服务程序的更新时间与当前系统时间相差1分钟及以上时间，主要由高可用服务巡检程序Hal-check检测所在节点的高可用服务程序(见下述说明)运行状态进行数据库更新操作，表明当前高可用服务管理节点可能出现了异常，会将此服务以及对应的节点信息从HAW表中剔除，并从HAF表中根据服务名称选取Perfer_value值较高的节点信息并更新至HAW表中，从而实现的“发布”功能。

以上过程仅为管理节点在运行高可用服务调度管理程序同时监控、维护分布式集群中的一个或多个高可用服务管理节点的运行状态，统一进行调度管理，完成“发布”功能，为保证上述过程中节点状态信息的准确，及时，本申请实施例还提供了存储节点上的高可用服务巡检程序定时进行“订阅”方式，保证异常的高可用服务管理节点可自动迁移到其他空闲的存储节点上，从而保障分布式存储集群的高可用性稳定不变。

请参阅图2，图2是本申请的一示例性实施例示出的Hal-Manage服务运行的流程示意图。如图2所示，在一示例性的实施例中，该方法可以应用于分布式集群中的各服务的管理节点，详细介绍如下：

以RedisServer为例，当一轮巡检开始后，查询HAW表中的RedisServer的分布信息，判断是否存在更新超时(时间差值大于预设差值阈值)的异常节点，将正常运行节点数记为N(实际工作节点数量)，查询HAN表上RedisServer部署节点数M(预设工作节点数量)，判断实际工作节点数量N是否与预设工作节点数量M相等，若N＞M，则需要删除节点，HAW表中删除多余的节点信息，以Perfer_value值低的先删除。若N＜M，则需要增加节点，HAW表中删除多余的异常节点信息，HAF表中选取空闲节点移至HAW表中，此处也可以以Perfer_value值高的空闲节点的先移入HAW表。完成后结束流程。

在一实施例中，分布式集群的管理节点获取分布式集群的节点状态信息之前，该方法还包括以下至少之一：

分布式集群的各节点分别检测自身的节点运行状态，节点运行状态包括节点更新时间、互联网协议地址和工作状态，工作状态包括工作和空闲，工作状态还可以包括禁用；

分布式集群的各节点分别获取自身的内存使用率、处理器使用率、接口使用率中至少之一，并根据内存使用率、处理器使用率、接口使用率中至少之一确定节点的优质值。

其中，优质值的优劣可以由本领域技术人员根据需要进行设定，比如优质值越大，越劣等。

上述对节点运行状态进行检测的过程可以通过高可用服务巡检程序(以下记为Hal-check)，在分布式存储集群中的各个节点上都会部署运行。用于查询各个高可用服务程序的分布信息，并负责拉起其所在节点的高可用服务，并更新服务的状态和节点信息。

每分钟(或者是本领域技术人员所设定的时间间隔)定时查询HAW表获取各个高可用服务程序的分布节点信息，并拉起对应的高可用服务程序，以分布式存储集群有三种高可用服务程序为例，Hal-check所在节点可能并未同时运行三种高可用服务程序，因此若查询到HAW中未配置的高可用服务程序会去检测其服务是否运行，如果运行则将其kill掉，Hal-check担任了daemon守护进程的角色。

定时检测本节点环境的高可用服务程序的运行状况(巡检时间为每分钟或本领域技术人员所设定的时间间隔)，将正常运行的高可用服务程序名称(服务名称)、所在节点IP信息(互联网协议地址)、上报时间(节点更新时间)更新至HAW表中，将未运行的高可用服务程序更新至HAF表中。同时在更新HAF、HAW表时，Hal-check也会去计算所在节点的优质值(主要根据内存使用率、CPU使用率、IO使用率等性能参数的加权得出)。HA-Manage在选择高可用服务空闲节点的时，会选择优质值较高的节点，当优质值一样时，会选择IP较小的节点。

在一实施例中，分布式集群的各节点分别检测自身的节点运行状态，以及根据内存使用率、处理器使用率、接口使用率中至少之一确定节点的优质值之后，该方法还包括：

将节点运行状态和优质值更新至节点工作表和节点空闲表。

在一实施例中，预先设置节点管理数据库表之后，该方法还包括：

获取节点工作表中一工作节点X的运行工作程序，以确定一工作节点X的理论未运行工作程序；

检测一工作节点X的理论未运行工作程序的运行状态，若运行状态为运行，则停止一工作节点X对理论未运行工作程序的运行。

例如，Hal-check所在节点可能并未同时运行三种高可用服务程序，因此若查询到HAW中未配置的高可用服务程序会去检测其服务是否运行，如果运行则将其kill掉，Hal-check担任了daemon守护进程的角色。

请参阅图3，图3是本申请的一示例性实施例示出的Hal-check服务运行的流程示意图。如图3所示，在一示例性的实施例中，该方法可以应用于分布式集群中的各节点，详细介绍如下：

一轮巡检开始后，查询HANA表，获取需要禁止运行的高可用服务程序(此处可以通过查询节点禁用表实现)，判断该节点是否需要禁止部分服务，若是则停止需要禁止的服务，若否，则查询HAW表，获取该节点需要运行的高可用服务程序，检查对应服务的运行状态，拉起对应的服务，并更新HAW表中服务的相关信息，查询HAN表，与HAN表中的信息进行比较，得知该节点未部署运行的服务名称，将该服务相关信息更新至HAF表中。结束流程。

上述实施例提供的节点管理方法，通过分布式集群的管理节点获取分布式集群的实际工作节点数量、预设工作节点数量和各工作节点的工作节点更新时间，当实际工作节点数量与预设工作节点数量不相等时，将至少部分空闲节点的工作状态调整为工作，或将至少部分工作节点的工作状态调整为空闲，若存在工作节点的时间差值大于预设差值阈值，以空闲节点替换该工作节点，能够监控、维护多个高可用服务管理节点的运行状态，统一进行调度管理，完成“发布”功能，当分布式存储集群因需要改动时，管理节点能够自动进行相应变动和调整，提升了分布式存储集群的高可用性，降低了人力运维负担。

上述实施例提供的节点管理方法，实现了低耦合性的高可用服务管理节点动态迁移管理，通过高可用服务表由管理节点发布和一般节点订阅实现的思路实现，方案主要有一个表和两个进程组成，通过高可用服务调度管理程序同时监控、维护多个高可用服务管理节点的运行状态，统一进行调度管理，完成“发布”功能，其他各个存储节点上的高可用服务巡检程序定时进行“订阅”方式，保证异常的高可用服务管理节点可自动迁移到其他空闲的存储节点上，从而保障分布式存储集群的高可用性稳定不变。引入优质值概念，在进行迁移功能时选择更优质空闲的节点作为高可用服务管理节点，避免资源紧张的节点被使用，导致性能有所影响。

将上述实施例的方法应用于高可用分布式集群使用场景中，通过管理节点的“发布”和一般节点的“订阅”的方法保障了高可用服务管理节点在异常情况(如节点宕机、网络异常等)下，能动态迁移调整到新的空闲节点上，从而保障集群高可用的状态。通过单个主管理节点的“发布”功能和一般节点的订阅功能，保证了在整个流程中服务间的耦合性为0，避免了跨节点的操作，另外支持部署节点数在线修改，大大提升了集群的高可用性和配置灵活性。

上述实施例提供了一种实现了低耦合性的高可用元数据管理节点动态迁移管理方法，有效减少异常处理并提高分布式存储集群的高可用性，还具有以下优点：

通过高可用服务节点管理表(也即上述实施例提到的节点个数表、节点工作表、节点空闲表和节点禁止表)由管理节点发布和一般节点订阅实现的思路，方案避免了管理进程和一般节点巡检进程在流程上的耦合性。同时在节点更替操作失败的情况下，避免了操作失败中的回退流程。避免了需要申请表格来保存执行失败节点信息和不断执行重试操作的机制。支持用户在线配置修改高可用服务管理节点数目的需求，可以通过修改节点个数表来实现高可用服务管理节点数目的修改。

下面通过一个示例性的实施例对上述实施例提供的节点管理方法进行示例性的说明。以6节点集群为例简述高可用服务管理节点的迁移过程：

现在分布式存储集群上(6节点环境，192.168.1.101-192.168.1.106)部署Redis-Server、Meta-Server、PostgreSQL高可用服务程序，部署节点个数都为3，初始部署分布状况见数据库下表HAN、HAW中的记录。

参见表5，表5是本申请的一示例性实施例示出的高可用服务节点个数表HAN另一种示例，服务程序Server_Name包括有MetaServer、Redis-Server、PostgreSQL三种，各服务程序的占用节点个数Node_number均为3。

表5

Server_Name	Node_number
		Redis-Server	3
Meta-Server	3
		PostgreSQL	3

参见表6，表6是本申请的一示例性实施例示出的高可用服务节点工作表HAW另一种示例。

表6

参见表7，表7是本申请的一示例性实施例示出的高可用服务节点空闲表HAF另一种示例。

表7

参见表8，表8是本申请的一示例性实施例示出的高可用服务节点禁止表HANA另一种示例。

表8

Process_Name	Node_IP
		Redis-Server	192.168.1.106
Meta-Server	192.168.1.106
		PostgreSQL	192.168.1.106

主管理节点上的Hal-Manage每分钟定时巡检查询HAW表中的配置信息，查询Redis-Server、Meta-Server、PostgreSQL服务的分布节点的update_time信息，并判断其值是否存在未及时更新情况。

如果所有服务的update_time与系统当前时间相差小于1min，表明所有服务节点均运行正常，然后Hal-Manage再查询HAN表获取Redis-Server服务的部署节点数，所有服务正常运行节点数与部署节点数一致无需进行任何变动操作。

如果103节点上的Redis-Server服务的update_time落后系统当前时间超过1min，表明其服务或者节点存在异常情况，此时正常运行节点数小于部署节点数3个，Hal-Manage服务程序会根据服务名称从上面HAF表中选择Perfer_value较高的节点(105节点)作为新的服务管理节点并将其移入到上述的HAW表中，然后再将Redis-Server服务的103节点信息从上述的HAW表中剔除(Meta-Server、PostgreSQL异常迁移流程与此相似)。

如果用户通过运维工具将HAN表中Redis-Server的部署节点数改为5个，Hal-Manage服务程序会根据服务名称从上面HAF表中选取104、105节点信息并将其移入到HAW表中。

分布存储集群中的每个节点上的Hal-Check每分钟都会定时查询HAN、HAW、HANA表、及时了解集群中高可用服务的分布信息以及部署状况。以102节点为例，根据上面的表中记录的信息，102节点上的Hal-Check查询HANA表得知106节点禁止三种服务运行，则没有需要停止的服务信息。然后查询HAW表得知该节点只有Redis-Server、Meta-Server高可用服务程序，会去检查对应服务的运行状态。若服务正常运行，则每分钟会定时数据库中HAW记录的服务名称，所在节点的IP信息、update_time以及Perfer_value。如服务不在，则会拉起所述的服务程序并进行前述HAW表的更新操作。同时Hal-Check根据HAN表中记录的高可用服务的分布信息，知道PostgreSQL并不部署在该102节点上，因此会将PostgreSQL的服务名、所在节点的IP信息、update_time以及Perfer_value更新至HAF表中。

请参阅图4，图4是本申请的一示例性实施例示出的节点管理系统的框图，如图4所示，本实施例提供了一种节点管理系统400，包括：

获取模块401，用于分布式集群的管理节点获取分布式集群的节点状态信息，节点状态信息包括实际工作节点数量、预设工作节点数量以及各工作节点的工作节点更新时间，工作节点的工作状态为工作；

调整模块402，用于若实际工作节点数量与预设工作节点数量不相等，管理节点将至少部分工作节点的工作状态调整为空闲，或管理节点将分布式集群中的至少部分空闲节点的工作状态调整为工作，空闲节点的工作状态为空闲；

替换模块403，用于若一工作节点的工作节点更新时间与当前系统时间的时间差值大于预设差值阈值，管理节点将分布式集群中的一空闲节点替换一工作节点。

在本实施例中，该系统实质上是设置了多个模块用以执行上述任一实施例中的方法，具体功能和技术效果参照上述实施例即可，此处不再赘述。

参见图5，本发明实施例还提供了一种电子设备500，包括处理器501、存储器502和通信总线503；

通信总线503用于将处理器501和存储器连接502；

处理器501用于执行存储器502中存储的计算机程序，以实现如上述实施例中的一个或多个所述的方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，

计算机程序用于使计算机执行如上述实施例一中的任一项所述的方法。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例的实施例一所包含步骤的指令(instructions)。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种节点管理方法，其特征在于，所述方法包括：

若所述实际工作节点数量与所述预设工作节点数量不相等，所述管理节点将至少部分所述工作节点的工作状态调整为空闲，或所述管理节点将所述分布式集群中的至少部分空闲节点的工作状态调整为工作，包括，若所述实际工作节点数量小于预设工作节点数量，获取所述分布式集群中的所述空闲节点的空闲节点数量，若所述空闲节点数量大于零，所述管理节点将至少部分所述空闲节点的工作状态调整为工作；若所述实际工作节点数量大于预设工作节点数量，所述管理节点将至少部分所述工作节点的工作状态调整为空闲；所述空闲节点的工作状态为空闲；

若一工作节点的工作节点更新时间与当前系统时间的时间差值大于预设差值阈值，所述管理节点将所述分布式集群中的一空闲节点替换一工作节点；

其中，所述方法还包括预先设置节点管理数据库表，所述节点管理数据库表包括节点个数表、节点工作表、节点空闲表和节点禁止表中至少之一，通过高可用服务调度管理程序同时监控、维护多个高可用服务管理节点的运行状态，统一进行调度管理，完成发布功能，其他各个存储节点上的高可用服务巡检程序定时进行订阅，以通过所述节点管理数据库表实现所述管理节点发布和一般节点订阅，进而对节点进行管理。

2.如权利要求1所述的节点管理方法，其特征在于，若所述实际工作节点数量小于预设工作节点数量，且所述空闲节点数量大于零，所述管理节点将至少部分所述空闲节点的工作状态调整为工作包括：

3.如权利要求2所述的节点管理方法，其特征在于，将各所述空闲节点按照所述优质值从优到劣进行排序包括：

若存在至少两个所述空闲节点的所述优质值相同；

4.如权利要求1所述的节点管理方法，其特征在于，所述管理节点将至少部分所述工作节点的工作状态调整为空闲包括：

5.如权利要求1所述的节点管理方法，其特征在于，所述管理节点将所述分布式集群中的一空闲节点替换一工作节点包括：

将各所述空闲节点按照所述优质值从优到劣进行排序；

6.如权利要求1-5任一项所述的节点管理方法，其特征在于，分布式集群的管理节点获取所述分布式集群的节点状态信息之前，所述方法还包括以下至少之一：

7.如权利要求6所述的节点管理方法，其特征在于，所述方法还包括预先设置节点管理数据库表，所述节点管理数据库表包括以下至少之一：

8.如权利要求7所述的节点管理方法，其特征在于，所述分布式集群的各节点分别检测自身的节点运行状态，以及根据所述内存使用率、所述处理器使用率、所述接口使用率中至少之一确定所述节点的优质值之后，所述方法还包括：

9.如权利要求7所述的节点管理方法，其特征在于，预先设置节点管理数据库表之后，所述方法还包括：

10.一种节点管理系统，其特征在于，所述节点管理系统包括：

调整模块，用于若所述实际工作节点数量与所述预设工作节点数量不相等，所述管理节点将至少部分所述工作节点的工作状态调整为空闲，或所述管理节点将所述分布式集群中的至少部分空闲节点的工作状态调整为工作，包括，若所述实际工作节点数量小于预设工作节点数量，获取所述分布式集群中的所述空闲节点的空闲节点数量，若所述空闲节点数量大于零，所述管理节点将至少部分所述空闲节点的工作状态调整为工作；若所述实际工作节点数量大于预设工作节点数量，所述管理节点将至少部分所述工作节点的工作状态调整为空闲；所述空闲节点的工作状态为空闲；

替换模块，用于若一工作节点的工作节点更新时间与当前系统时间的时间差值大于预设差值阈值，所述管理节点将所述分布式集群中的一空闲节点替换一工作节点；

其中，所述节点管理系统还包括预先设置节点管理数据库表，所述节点管理数据库表包括节点个数表、节点工作表、节点空闲表和节点禁止表中至少之一，通过高可用服务调度管理程序同时监控、维护多个高可用服务管理节点的运行状态，统一进行调度管理，完成发布功能，其他各个存储节点上的高可用服务巡检程序定时进行订阅，以通过所述节点管理数据库表实现所述管理节点发布和一般节点订阅，进而对节点进行管理。

11.一种电子设备，其特征在于，包括处理器、存储器和通信总线；

所述通信总线用于将所述处理器和存储器连接；

所述处理器用于执行所述存储器中存储的计算机程序，以实现如权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，

所述计算机程序用于使所述计算机执行如权利要求1-9中任一项所述的方法。