CN112269693A

CN112269693A - 一种节点自协调方法、装置和计算机可读存储介质

Info

Publication number: CN112269693A
Application number: CN202011147091.3A
Authority: CN
Inventors: 刘传起
Original assignee: Beijing Inspur Data Technology Co Ltd
Current assignee: Beijing Inspur Data Technology Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-26
Anticipated expiration: 2040-10-23
Also published as: CN112269693B

Abstract

本发明实施例公开了一种节点自协调方法、装置和介质，监控开源分布式数据库中各节点的服务状态；当主节点的服务状态异常并且备节点的服务状态正常时，激活备节点作为新主节点。判断开源分布式数据库中是否存在未被调用的服务器节点；当开源分布式数据库中存在未被调用的服务器节点时，则选取未被调用的一个服务器节点作为所述新主节点的新备节点，并向新备节点部署Greenplum服务和环境参数；当开源分布式数据库中不存在未被调用的服务器节点时，则从所有数据节点中选取出资源利用率满足预设要求的一个目标数据节点作为新主节点的新备节点，从而有效提升集群的稳定性和健壮性，使得集群能够可持续运行。

Description

一种节点自协调方法、装置和计算机可读存储介质

技术领域

本发明涉及分布式系统技术领域，特别是涉及一种节点自协调方法、装置和计算机可读存储介质。

背景技术

在互联网高速发展的时代，现在分布式系统架构中必须要考虑的因素有系统的高可用性和稳定性。在大规模并行处理(Massively Parallel Processing，MPP)架构中，开源分布式数据库(Greenplum，GP)提供Master节点的Primary/Standby的容错机制来保证其高可用。但是，当主节点(Primary Master)出现故障后，需要在备份节点(Standby Master)上手动激活其成为集群的新主节点。

而在激活备节点之前，集群系统处于宕机状态，无法继续提供服务，严重影响用户的体验度。而且现有方案需要人为干预，手动操作人工成本较为昂贵且容易出错。在激活备节点之后，原主节点会被移除集群之外，导致当前集群的主节点只有一个，即激活的备节点作为当前新主节点，如果此时新主节点也出现故障，将会导致集群系统彻底瘫痪。

可见，如何提高系统服务不中断的高可用度，提升集群的稳定性和健壮性，是本领域技术人员需要解决的问题。

发明内容

本发明实施例的目的是提供一种节点自协调方法、装置和计算机可读存储介质，可以提高系统服务不中断的高可用度，提升集群的稳定性和健壮性。

为解决上述技术问题，本发明实施例提供一种节点自协调方法，包括：

监控开源分布式数据库中主节点及其对应的备节点的服务状态；

当所述主节点的服务状态异常并且所述备节点的服务状态正常时，激活所述备节点作为新主节点；

判断所述开源分布式数据库中是否存在未被调用的服务器节点；

当所述开源分布式数据库中存在未被调用的服务器节点时，则选取未被调用的一个服务器节点作为所述新主节点的新备节点，并向所述新备节点部署Greenplum服务和环境参数；

当所述开源分布式数据库中不存在未被调用的服务器节点时，则从所有所述数据节点中选取出资源利用率满足预设要求的一个目标数据节点作为所述新主节点的新备节点。

可选地，在所述判断所述开源分布式数据库中是否存在未被调用的服务器节点之前还包括：

判断服务状态异常的主节点是否在预设时间段内恢复正常状态；

若是，则将所述恢复正常状态的主节点作为所述新主节点的新备节点；

若否，则执行所述判断所述开源分布式数据库中是否存在未被调用的服务器节点的步骤。

可选地，在所述将所述恢复正常状态的主节点作为所述新主节点的新备节点之后还包括：

将所述恢复正常状态的主节点切换为主节点工作模式，将所述新主节点切换为备节点工作模式。

可选地，还包括：

若所述服务状态异常的主节点未在预设时间段内恢复正常状态，则当检测到所述服务状态异常的主节点恢复至正常状态之后，则将所述主节点作为新的服务器节点添加至所述开源分布式数据库中。

本发明实施例还提供了一种节点自协调装置，包括监控单元、激活单元、判断单元、第一选取单元和第二选取单元；

所述监控单元，用于监控开源分布式数据库中主节点及其对应的备节点的服务状态；

所述激活单元，用于当所述主节点的服务状态异常并且所述备节点的服务状态正常时，激活所述备节点作为新主节点；

所述判断单元，用于判断所述开源分布式数据库中是否存在未被调用的服务器节点；

所述第一选取单元，用于当所述开源分布式数据库中存在未被调用的服务器节点时，则选取未被调用的一个服务器节点作为所述新主节点的新备节点，并向所述新备节点部署Greenplum服务和环境参数；

所述第二选取单元，用于当所述开源分布式数据库中不存在未被调用的服务器节点时，则从所有所述数据节点中选取出资源利用率满足预设要求的一个目标数据节点作为所述新主节点的新备节点。

可选地，还包括第二判断单元和作为单元；

所述第二判断单元，用于判断服务状态异常的主节点是否在预设时间段内恢复正常状态；若是，则触发所述作为单元；若否，则触发所述判断单元；

所述作为单元，用于将所述恢复正常状态的主节点作为所述新主节点的新备节点。

可选地，还包括切换单元；

所述切换单元，用于在所述将所述恢复正常状态的主节点作为所述新主节点的新备节点之后，将所述恢复正常状态的主节点切换为主节点工作模式，将所述新主节点切换为备节点工作模式。

可选地，还包括检测单元；

所述检测单元，用于若所述服务状态异常的主节点未在预设时间段内恢复正常状态，则当检测到所述服务状态异常的主节点恢复至正常状态之后，则将所述主节点作为新的服务器节点添加至所述开源分布式数据库中。

本发明实施例还提供了一种节点自协调装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上述任意一项所述节点自协调方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述节点自协调方法的步骤。

由上述技术方案可以看出，监控开源分布式数据库中主节点及其对应的备节点的服务状态；当主节点的服务状态异常并且备节点的服务状态正常时，激活备节点作为新主节点。通过自动监控主备节点的服务状态，在主节点服务异常时自动激活备节点，可达到秒级别的备节点快速激活，有效的减少了人为误操作带来的损失，减少系统服务的停工时间，提高了系统服务不中断的高可用度。为了提升集群的稳定性和健壮性，降低当前集群中单节点模式下，单个主节点故障后导致集群系统瘫痪的风险，可以判断开源分布式数据库中是否存在未被调用的服务器节点；当开源分布式数据库中存在未被调用的服务器节点时，则选取未被调用的一个服务器节点作为所述新主节点的新备节点，并向新备节点部署Greenplum服务和环境参数；当开源分布式数据库中不存在未被调用的服务器节点时，则从所有数据节点中选取出资源利用率满足预设要求的一个目标数据节点作为新主节点的新备节点，从而有效提升集群的稳定性和健壮性，使得集群能够可持续运行。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种节点自协调方法的流程图；

图2为本发明实施例提供的一种按照高可用策略优先级的方式为新主节点添加新备节点的方法的流程图；

图3为本发明实施例提供的一种节点自协调装置的结构示意图；

图4为本发明实施例提供的一种节点自协调装置的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

接下来，详细介绍本发明实施例所提供的一种节点自协调方法。图1为本发明实施例提供的一种节点自协调方法的流程图，该方法包括：

S101：监控开源分布式数据库中主节点及其对应的备节点的服务状态。

开源分布式数据库中包含有多个节点，按照不同节点所负责的工作任务不同，可以将开源分布式数据库中的节点划分为管理节点和数据节点；其中，一组管理节点包含一个主节点和一个备节点；主节点及其对应的备节点之间可以实现数据的同步。在本发明实施例中，均以一组管理节点中的主节点和备节点为例展开介绍。

初始状态下，主节点处于工作状态，备节点处于待机状态。通过监控主节点及其对应的备节点的服务状态，可以及时发现主节点或备节点状态异常的情况。监控主节点和备节点服务状态的技术较为常规，在此不再展开介绍。

S102：当主节点的服务状态异常并且备节点的服务状态正常时，激活备节点作为新主节点。

当主节点服务状态异常且备节点的服务状态正常时，则可以激活备节点，此时备节点代替主节点执行工作，服务状态异常的主节点会被移除开源分布式数据库。

S103：判断开源分布式数据库中是否存在未被调用的服务器节点。

当备节点激活作为新主节点之后，新主节点并没有对应的备节点，一旦新主节点出现异常时，则会造成业务的中断。为了提升集群的稳定性和健壮性，降低当前集群中单节点模式下，单个主节点故障后导致集群系统瘫痪的风险，在本发明实施例中，可以为新主节点添加新备节点。

未被调用的服务器节点可以是临时新增的服务器节点；也可以是已经在开源分布式数据库中存在的节点，但是该节点并未完成配置，也即并没有执行实际业务的节点。

当开源分布式数据库中存在未被调用的服务器节点时，则可以直接将未被调用的服务器节点作为新备节点即执行S104。当开源分布式数据库中不存在未被调用的服务器节点时，则需要重新选取新备节点，此时可以执行S105。

S104：选取未被调用的一个服务器节点作为新主节点的新备节点，并向新备节点部署Greenplum服务和环境参数。

由于未被调用的一个服务器节点并未完成配置，为了保证新备节点可以实现正常工作，需要向新备节点部署Greenplum服务和环境参数。

S105：从所有数据节点中选取出资源利用率满足预设要求的一个目标数据节点作为新主节点的新备节点。

资源利用率越低，说明数据节点的负载越小。在实际应用中，可以从所有数据节点中选取资源利用率最小的一个目标数据节点作为新主节点的新备节点。当资源利用率最小的数据节点有多个时，则可以从资源利用率最小的多个数据节点中随机选取一个数据节点作为新备节点。为了便于和其它数据节点进行区分，在本发明实施例中，可以将选取出作为新备节点的数据节点称作目标数据节点。

在本发明实施例中，也可以将选取新备节点的方式以高可用策略的方式呈现。在具体实现中，可以通过设备提供的用户界面展示预先设定的多个高可用策略；其中，高可用策略可以包括新增服务器节点策略、选取数据节点策略和恢复原主节点策略。

通过展示多个高可用策略，可以便于管理人员自行选择。当接收到用户输入的策略确认指令时，依据策略确认指令中携带的目标高可用策略，为新主节点设置新备节点。

新增服务器节点策略指的是在开源分布式数据库中新增加服务器节点，将新增加的服务器节点作为新备节点。其中，新增加服务器节点可以是临时新增的服务器节点；也可以是已经在开源分布式数据库中存在的节点，但是该节点并未完成配置，也即并没有执行实际业务的节点。

选取数据节点策略指的是从开源分布式数据库的数据节点中选取一个资源利用率较低即负载较小的数据节点作为新备节点。

恢复原主节点策略指的是服务状态异常的原主节点可以在短时间内恢复至正常状态时，则可以将恢复至正常状态的原主节点作为新备节点。

在本发明实施例中，除了选取服务节点或数据节点作为新备节点之外，在本发明实施例中，也可以检测主节点的恢复状态，从而将恢复正常状态的主节点作为新备节点。在本发明实施例中，可以将多个选取新备节点的方式设置优先级，一种选取新备节点的方式可以看作一个高可用策略，按照优先级的方式选取出合适的新备节点。

图2为本发明实施例提供的一种按照高可用策略优先级的方式为新主节点添加新备节点的方法的流程图，方法包括：

S201：判断服务状态异常的主节点是否在预设时间段内恢复正常状态。

预设时间段的取值可以根据实际需求设置，为了提升选取新备节点的效率，可以将预设时间段的取值设置的小一些。

考虑到在实际应用中，主节点异常的原因有多种，如果主节点异常是由硬件故障造成，则需要花费较长的时间恢复；如果主节点异常是由软件故障造成，主节点极有可能在极短的时间内恢复至正常状态。

因此，当服务状态异常的主节点在预设时间段内恢复正常状态时，则说明主节点在较短的时间内便恢复至正常状态，此时可以执行S202。当服务状态异常的主节点在预设时间段内未恢复正常状态时，则说明主节点在较短的时间内无法恢复至正常状态，为了保证及时为新主节点设置新备节点，此时可以执行S203。

S202：将恢复正常状态的主节点作为新主节点的新备节点。

S203：判断开源分布式数据库中是否存在未被调用的服务器节点。

S204：选取未被调用的一个服务器节点作为新主节点的新备节点，并向新备节点部署Greenplum服务和环境参数。

S205：从所有数据节点中选取出资源利用率满足预设要求的一个目标数据节点作为新主节点的新备节点。

S203-S205的实现方式可以参见S103-S105的介绍，在此不再赘述。

需要说明的是，图2中是按照恢复原主节点策略、新增服务器节点策略和选取数据节点策略的优先级顺序选取新备节点，图2中参照的优先级顺序仅为举例说明，在本发明实施例中，对于恢复原主节点策略、新增服务器节点策略和选取数据节点策略这3种策略的优先级顺序不做限定。

在本发明实施例中，当主节点可以在短时间内恢复至正常状态时，可以将恢复正常状态的主节点作为新主节点的新备节点。对于管理人员而言，往往无法实时的了解集群中节点的切换，为了避免管理人员对节点的工作模式产生混乱，可以将恢复正常状态的主节点切换为主节点工作模式，将新主节点切换为备节点工作模式。这样主节点和备节点仍按照原本的工作模式运行，对于管理人员而言仍可以按照原本的节点工作模式调用节点。

考虑到服务状态异常的主节点未在预设时间段内恢复正常状态时，此时该主节点会被移除开源分布式数据库，为了避免主节点恢复正常状态之后处于闲置状态，可以当检测到服务状态异常的主节点恢复至正常状态之后，将主节点作为新的服务器节点添加至开源分布式数据库中。

图3为本发明实施例提供的一种节点自协调装置的结构示意图，包括监控单元31、激活单元32、判断单元33、第一选取单元34和第二选取单元35；

监控单元31，用于监控开源分布式数据库中主节点及其对应的备节点的服务状态；

激活单元32，用于当主节点的服务状态异常并且备节点的服务状态正常时，激活备节点作为新主节点；

判断单元33，用于判断开源分布式数据库中是否存在未被调用的服务器节点；

第一选取单元34，用于当开源分布式数据库中存在未被调用的服务器节点时，则选取未被调用的一个服务器节点作为新主节点的新备节点，并向新备节点部署Greenplum服务和环境参数；

第二选取单元35，用于当开源分布式数据库中不存在未被调用的服务器节点时，则从所有数据节点中选取出资源利用率满足预设要求的一个目标数据节点作为新主节点的新备节点。。

可选地，还包括第二判断单元和作为单元；

第二判断单元，用于判断服务状态异常的主节点是否在预设时间段内恢复正常状态；若是，则触发作为单元；若否，则触发判断单元；

作为单元，用于将恢复正常状态的主节点作为新主节点的新备节点。

可选地，还包括切换单元；

切换单元，用于在将恢复正常状态的主节点作为新主节点的新备节点之后，将恢复正常状态的主节点切换为主节点工作模式，将新主节点切换为备节点工作模式。

可选地，还包括检测单元；

检测单元，用于若服务状态异常的主节点未在预设时间段内恢复正常状态，则当检测到服务状态异常的主节点恢复至正常状态之后，则将主节点作为新的服务器节点添加至开源分布式数据库中。

图3所对应实施例中特征的说明可以参见图1和图2所对应实施例的相关说明，这里不再一一赘述。

图4为本发明实施例提供的一种节点自协调装置40的硬件结构示意图，包括：

存储器41，用于存储计算机程序；

处理器42，用于执行计算机程序以实现如上述任意一项节点自协调方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述任意一项节点自协调方法的步骤。

以上对本发明实施例所提供的一种节点自协调方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

1.一种节点自协调方法，其特征在于，包括：

2.根据权利要求1所述的节点自协调方法，其特征在于，所述判断所述开源分布式数据库中是否存在未被调用的服务器节点之前还包括：

3.根据权利要求2所述的节点自协调方法，其特征在于，在所述将所述恢复正常状态的主节点作为所述新主节点的新备节点之后还包括：

4.根据权利要求2所述的节点自协调方法，其特征在于，还包括：

5.一种节点自协调装置，其特征在于，包括监控单元、激活单元、判断单元、第一选取单元和第二选取单元；

6.根据权利要求5所述的节点自协调装置，其特征在于，还包括第二判断单元和作为单元；

7.根据权利要求6所述的节点自协调装置，其特征在于，还包括切换单元；

8.根据权利要求6所述的节点自协调装置，其特征在于，还包括检测单元；

9.一种节点自协调装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至4任意一项所述节点自协调方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任意一项所述节点自协调方法的步骤。