CN110912729B

CN110912729B - 一种nas集群的节点恢复方法、装置及设备

Info

Publication number: CN110912729B
Application number: CN201910996142.0A
Authority: CN
Inventors: 戚勇
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2023-03-24
Anticipated expiration: 2039-10-18
Also published as: CN110912729A

Abstract

本申请公开了一种NAS集群的节点恢复方法，该方案在节点上设置了守护进程，该守护进程能够分别检测本节点和对端节点是否为重装节点或救援节点，并在本节点为正常节点且对端节点为重装节点或救援节点的情况下，自动恢复对端节点的节点配置和资源，可见，该方案通过自动化检测和恢复操作，显著提升了节点恢复效率，保证了集群服务的连续性。此外，本申请还提供了一种NAS集群的节点恢复装置、设备及可读存储介质，其作用与上述方法的技术效果相对应。

Description

一种NAS集群的节点恢复方法、装置及设备

技术领域

本申请涉及存储技术领域，特别涉及一种NAS集群的节点恢复方法、装置、设备及可读存储介质。

背景技术

集群是由多个节点构成的一种松散耦合的计算节点集合，协同起来对外提供服务。在存储系统技术领域，带有NAS功能的统一存储系统又称NAS集群。NAS集群一般包括两个节点，这两个节点互为主备保证服务的连续性和稳定性。当NAS集群某个节点被重装了或者由于故障被救援了，这时就需要利用对节点进行恢复。目前，对节点的恢复方案主要通过人工实现，存在效率低下的问题。

发明内容

本申请的目的是提供一种NAS集群的节点恢复方法、装置、设备及可读存储介质，用以解决传统的节点恢复方案效率低下的问题。

为解决上述技术问题，本申请提供了一种NAS集群的节点恢复方法，基于本节点的守护进程实现，包括：

判断所述本节点是否为重装节点或救援节点；

若判定所述本节点不为重装节点或救援节点，则通过对端节点的心跳IP判断所述对端节点是否为重装节点或救援节点；

若判定所述对端节点为重装节点或救援节点，则恢复所述对端节点的节点配置和资源。

优选的，所述判断所述本节点是否为重装节点或救援节点，包括：

每隔预设时间间隔判断所述本节点是否为重装节点或救援节点。

判断所述本节点是否处于激活状态；

若是，则通过检查所述本节点是否存在标志文件，以判断所述本节点是否为重装节点或救援节点，其中所述标志文件为/etc/corosync/corosync.conf。

优选的，所述若判定所述本节点不为重装节点或救援节点，则通过对端节点的心跳IP判断所述对端节点是否为重装节点或救援节点，包括：

若判定所述本节点不为重装节点或救援节点，则利用packmaker命令判断本节点是否加入当前NAS集群；

若是，则通过对端节点的心跳IP判断所述对端节点是否为重装节点或救援节点。

优选的，在所述恢复所述对端节点的节点配置和资源之前，还包括：

通过所述对端节点的心跳IP登录所述对端节点的虚拟机；

根据所述对端节点的宿主机和所述对端节点的虚拟机的连接IP，在所述对端节点的宿主机执行chkvm addmacvtap命令恢复桥接网卡。

优选的，所述恢复所述对端节点的节点配置和资源，包括：

利用所述对端节点的心跳IP在所述对端节点调用do_ccu接口执行集群恢复操作。

优选的，所述集群恢复操作包括：

获取所述本节点的心跳IP和所述对端节点的心跳IP，保存hostname；

将所述对端节点的glusterfs配置文件恢复到所述本节点，并在所述本节点启动glusterd；

将所述对端节点的目标文件复制到所述本节点。

本申请还提供了一种NAS集群的节点恢复装置，基于本节点的守护进程实现，包括：

本地判断模块：用于判断所述本节点是否为重装节点或救援节点；

对端判断模块：用于若判定所述本节点不为重装节点或救援节点，则通过对端节点的心跳IP判断所述对端节点是否为重装节点或救援节点；

恢复模块：用于若判定所述对端节点为重装节点或救援节点，则恢复所述对端节点的节点配置和资源。

此外，本申请还提供了一种NAS集群的节点恢复设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如上所述的一种NAS集群的节点恢复方法的步骤。

最后，本申请还提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的一种NAS集群的节点恢复方法的步骤。

本申请所提供的一种NAS集群的节点恢复方法，基于本节点的守护进程实现，方案包括：判断本节点是否为重装节点或救援节点；若判定本节点不为重装节点或救援节点，则通过对端节点的心跳IP判断对端节点是否为重装节点或救援节点；若判定对端节点为重装节点或救援节点，则恢复对端节点的节点配置和资源。可见，该方案在节点上设置了守护进程，该守护进程能够分别检测本节点和对端节点是否为重装节点或救援节点，并在本节点为正常节点且对端节点为重装节点或救援节点的情况下，自动恢复对端节点的节点配置和资源，通过自动化检测和恢复，显著提升了节点恢复效率，保证了集群服务的连续性。

此外，本申请还提供了一种NAS集群的节点恢复装置、设备及可读存储介质，其作用与上述方法的技术效果相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的一种NAS集群的节点恢复方法实施例一的实现流程图；

图2为本申请所提供的一种NAS集群的节点恢复方法实施例二的实现流程图；

图3为本申请所提供的一种NAS集群的节点恢复装置实施例的功能框图；

图4为本申请所提供的一种NAS集群的节点恢复设备实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，NAS集群中的节点被重装或救援之后，若想重新进入集群提供服务，需要人工对节点进行恢复，效率非常低。针对该问题，本申请提供一种NAS集群的节点恢复方法、装置、设备及可读存储介质，显著提升了节点恢复效率，保证了集群服务的连续性。

下面对本申请提供的一种NAS集群的节点恢复方法实施例一进行介绍，参见图1，实施例一基于本节点的守护进程实现，包括：

S101、判断所述本节点是否为重装节点或救援节点；

S102、若判定所述本节点不为重装节点或救援节点，则通过对端节点的心跳IP判断所述对端节点是否为重装节点或救援节点；

S103、若判定所述对端节点为重装节点或救援节点，则恢复所述对端节点的节点配置和资源。

本实施例所提及的NAS集群是一种linux宿主机上基于虚拟机KVM的NAS集群，虚拟机KVM上的pacemaker管理软件负责业务IP及其业务漂移管理，pacemaker底层使用corosync管理节点通信实现fence节点功能。以两个控制器上分别建立虚拟机组成双节点的NAS集群，两个节点互为主备保证服务的连续性和稳定性。

本实施例中重装节点具体指宿主机重装OS之后的节点，救援节点主要指宿主机因故障被救援之后的节点。本实施例在NAS集群的宿主机中加入守护进程，守护进程轮询检查是否要恢复宿主机上虚拟机中NAS集群节点配置和资源，通过此守护进程就可以在节点宿主机被重装或被救援时恢复NAS节点。

可以理解的是，恢复集群要在配置节点进行，即非重装节点非救援节点的正常节点上执行，通过正常节点上的守护进程将重装节点或救援节点加入NAS集群并恢复其配置和资源。因此，本实施例中，NAS集群的全部节点可以均设置有守护进程，这种情况下，守护进程首先检测自身所在的节点是否为重装节点或救援节点；当守护进程检测到自身所在的节点为重装节点或救援节点时，退出守护进程；否则，确认自身所在的节点为正常节点，进而判断对端节点是否为救援节点或重装节点；判断对端节点为重装节点或对端节点，则对其进行节点配置和资源的恢复操作。

本实施例所提供一种NAS集群的节点恢复方法，基于本节点的守护进程实现，方案包括：判断本节点是否为重装节点或救援节点；若判定本节点不为重装节点或救援节点，则通过对端节点的心跳IP判断对端节点是否为重装节点或救援节点；若判定对端节点为重装节点或救援节点，则恢复对端节点的节点配置和资源。可见，该方案在节点上设置了守护进程，该守护进程能够分别检测本节点和对端节点是否为重装节点或救援节点，并在本节点为正常节点且对端节点为重装节点或救援节点的情况下，自动恢复对端节点的节点配置和资源，通过自动化检测和恢复，显著提升了节点恢复效率，保证了集群服务的连续性。

下面开始详细介绍本申请提供的一种NAS集群的节点恢复方法实施例二，实施例二基于前述实施例一实现，并在实施例一的基础上进行了一定程度上的拓展。具体的，由于重装节点与救援节点的状态相同，因此，实施例二以重装节点为例描述整体节点恢复过程，救援节点的恢复过程可以参照该过程。

参见图2，实施例二基于本节点的守护进程实现，包括：

S201、每隔预设时间间隔判断所述本节点是否处于激活状态；若是，则等待本节点恢复到宿主机集群，并进入S202；否则退出；

具体的，本实施例中守护进程设置在本节点的宿主机的/etc/init/compass.sh。S201的目的在于判断节点是否处于激活状态，就是重装后是否回归到集群的正常状态。判断过程可以用宿主机命令行可以查询到节点是否处于激活状态，节点处于激活状态后会加入集群。

S202、检查所述本节点是否存在标志文件，以判断所述本节点是否为重装节点；若是，则退出；否则进入S203；

其中所述标志文件为/etc/corosync/corosync.conf，重装节点中不存在该文件。

S203、利用packmaker命令判断本节点是否加入当前NAS集群；若是，则进入S204，否则退出；

本实施例的NAS集群中每个节点都有守护进程，用于判断自身所在节点NAS集群是否建立过，建立过说明此节点不是救援节点或重装节点，就在此节点继续执行集群节点恢复动作，没建立过就退出守护进程。判断过程包括：输入开源的pacemaker集群管理软件的命令行命令pcs cluster status，根据命令行输出判断标志位“PCSD status”中显示的节点是否有本节点，如果没有则此节点未加入集群，即集群未建立过。如果此节点是重装节点或救援节点，则集群中没有此节点，因为重装后nas节点并未恢复，不会加入集群。

S204、通过对端节点的心跳IP判断所述对端节点是否为重装节点；若是，则进入S205；

心跳IP是两个虚拟机上各有的一个Ip，pacemaker通过这两个IP进行通信，判断对方虚拟机是否在线且是否正常，如果不正常就通过心跳IP重启对方虚拟机，使其恢复。此外，还可以通过此IP登陆对方节点进行判断是否重装节点。

S205、通过所述对端节点的心跳IP登录所述对端节点的虚拟机；根据所述对端节点的宿主机和所述对端节点的虚拟机的连接IP，在所述对端节点的宿主机执行chkvmaddmacvtap命令恢复桥接网卡；

具体的，通过对端节点的心跳IP登陆对端虚拟机，然后在虚拟机内通过宿主机和虚拟机连接IP 192.168.122.1到宿主机执行chkvm addmacvtap命令恢复桥接网卡，以备NAS业务port IP恢复使用。

S206、利用所述对端节点的心跳IP在所述对端节点调用do_ccu接口执行集群恢复操作。

其中，所述集群恢复操作包括：获取所述本节点的心跳IP和所述对端节点的心跳IP，保存hostname；将所述对端节点的glusterfs配置文件恢复到所述本节点，并在所述本节点启动glusterd；将所述对端节点的目标文件复制到所述本节点。其中glusterd是glusgerfs的进程，NAS集群中的CIFS资源锁需要用到此进程，目标文件主要包括：/etc/ctdb/nodes、/var/lib/pacemaker/cib/cib.xml、/etc/corosync/corosync.conf。最终，将hosts从非重装节点虚拟机中复制到重装节点宿主机的/data/kvm_nas/中用于将来集群恢复使用。

可见，本实施例提供的一种NAS集群的节点恢复方法，该方案在节点上设置了守护进程，该守护进程能够分别检测本节点和对端节点是否为重装节点或救援节点，并在本节点为正常节点且对端节点为重装节点或救援节点的情况下，自动恢复对端节点的节点配置和资源，通过自动化检测和恢复，显著提升了节点恢复效率，保证了集群服务的连续性。

下面对本申请实施例提供的一种NAS集群的节点恢复装置进行介绍，下文描述的一种NAS集群的节点恢复装置与上文描述的一种NAS集群的节点恢复方法可相互对应参照。

参见图3，本实施例的NAS集群的节点恢复装置，基于本节点的守护进程实现，包括：

本地判断模块301：用于判断所述本节点是否为重装节点或救援节点；

对端判断模块302：用于若判定所述本节点不为重装节点或救援节点，则通过对端节点的心跳IP判断所述对端节点是否为重装节点或救援节点；

恢复模块303：用于若判定所述对端节点为重装节点或救援节点，则恢复所述对端节点的节点配置和资源。

在一些具体的实施例中，所述本地判断模块具体用于：

判断所述本节点是否处于激活状态；若是，则通过检查所述本节点是否存在标志文件，以判断所述本节点是否为重装节点或救援节点，其中所述标志文件为/etc/corosync/corosync.conf。

在一些具体的实施例中，所述对端判断模块具体用于：

若判定所述本节点不为重装节点或救援节点，则利用packmaker命令判断本节点是否加入当前NAS集群；若是，则通过对端节点的心跳IP判断所述对端节点是否为重装节点或救援节点。

在一些具体的实施例中，还包括：

网卡恢复模块：用于通过所述对端节点的心跳IP登录所述对端节点的虚拟机；根据所述对端节点的宿主机和所述对端节点的虚拟机的连接IP，在所述对端节点的宿主机执行chkvm addmacvtap命令恢复桥接网卡。

在一些具体的实施例中，所述恢复模块具体用于：

在一些具体的实施例中，所述集群恢复操作包括：

获取所述本节点的心跳IP和所述对端节点的心跳IP，保存hostname；将所述对端节点的glusterfs配置文件恢复到所述本节点，并在所述本节点启动glusterd；将所述对端节点的目标文件复制到所述本节点。

本实施例的一种NAS集群的节点恢复装置用于实现前述的一种NAS集群的节点恢复方法，因此该装置中的具体实施方式可见前文中的一种NAS集群的节点恢复方法的实施例部分，例如，本地判断模块301、对端判断模块302、恢复模块303，分别用于实现上述一种NAS集群的节点恢复方法中步骤S101，S102，S103。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的一种NAS集群的节点恢复装置用于实现前述的一种NAS集群的节点恢复方法，因此其作用与上述方法的作用相对应，这里不再赘述。

此外，本申请还提供了一种NAS集群的节点恢复设备，如图4所示，包括：

存储器100：用于存储计算机程序；

处理器200：用于执行所述计算机程序，以实现如前文所述的一种NAS集群的节点恢复方法的步骤。

最后，本申请提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如前文所述的一种NAS集群的节点恢复方法的步骤。

本实施例的一种NAS集群的节点恢复设备、可读存储介质用于实现前述的一种NAS集群的节点恢复方法，因此该设备、可读存储介质的具体实施方式可见前文中的一种NAS集群的节点恢复方法的实施例部分，在此不再展开介绍。另外，由于本实施例的一种NAS集群的节点恢复设备、可读存储介质用于实现前述的一种NAS集群的节点恢复方法，因此其作用与上述方法的技术效果相对应，这里不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种NAS集群的节点恢复方法，其特征在于，基于本节点的守护进程实现，包括：

判断所述本节点是否为重装节点或救援节点；其中，输入开源的pacemaker集群管理软件的命令行命令pcs cluster status，根据命令行输出，判断标志位PCSD status中显示的节点是否有该节点；如果没有，则该节点是重装节点或救援节点；否则，该节点不是救援节点或重装节点；

若判定所述对端节点为重装节点或救援节点，则恢复所述对端节点的节点配置和资源；

其中，在所述恢复所述对端节点的节点配置和资源之前，还包括：

通过所述对端节点的心跳IP登录所述对端节点的虚拟机；

根据所述对端节点的宿主机和所述对端节点的虚拟机的连接IP，在所述对端节点的宿主机执行chkvm addmacvtap命令恢复桥接网卡；

其中，所述恢复所述对端节点的节点配置和资源，包括：

利用所述对端节点的心跳IP在所述对端节点调用do_ccu接口执行集群恢复操作；

其中，所述集群恢复操作包括：

将所述对端节点的目标文件复制到所述本节点。

2.如权利要求1所述的方法，其特征在于，所述判断所述本节点是否为重装节点或救援节点，包括：

3.如权利要求2所述的方法，其特征在于，所述判断所述本节点是否为重装节点或救援节点，包括：

判断所述本节点是否处于激活状态；

4.一种NAS集群的节点恢复装置，其特征在于，基于本节点的守护进程实现，包括：

本地判断模块：用于判断所述本节点是否为重装节点或救援节点；其中，输入开源的pacemaker集群管理软件的命令行命令pcs cluster status，根据命令行输出，判断标志位PCSD status中显示的节点是否有该节点；如果没有，则该节点是重装节点或救援节点；否则，该节点不是救援节点或重装节点；

恢复模块：用于若判定所述对端节点为重装节点或救援节点，则恢复所述对端节点的节点配置和资源；

其中，还包括：

网卡恢复模块：用于通过所述对端节点的心跳IP登录所述对端节点的虚拟机；根据所述对端节点的宿主机和所述对端节点的虚拟机的连接IP，在所述对端节点的宿主机执行chkvm addmacvtap命令恢复桥接网卡；

其中，所述恢复模块具体用于：

其中，所述集群恢复操作包括：

将所述对端节点的目标文件复制到所述本节点。

5.一种NAS集群的节点恢复设备，其特征在于，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如权利要求1-3任意一项所述的一种NAS集群的节点恢复方法的步骤。

6.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1-3任意一项所述的一种NAS集群的节点恢复方法的步骤。