CN108153606A

CN108153606A - 一种无冗余保护集群实现前端业务连续性方法

Info

Publication number: CN108153606A
Application number: CN201810079291.6A
Authority: CN
Inventors: 苏显新; 万磊; 王怡清; 冷波
Original assignee: Shanghai Storage Information Technology Co Ltd
Current assignee: Shanghai Storage Information Technology Co Ltd
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2018-06-12

Abstract

本发明公开了一种无冗余保护集群实现前端业务连续性方法，包括如下步骤：S1、集群管理程序通过心跳信息检测原集群中各节点是否能正常通讯；S2、设定时间（Δt，可设置）之内若集群管理程序检测到有节点无心跳信息，则判定该节点宕机，将该节点记为A；S3、集群管理程序重新设置集群拓扑，把A节点从集群中移出；S4、集群管理程序通过心跳信息检测新集群中各节点是否能正常通讯；S5、重复S1‑S4。本发明提供的方法解决了无副本模式保护的分布式存储集群的前端业务连续性的问题。

Description

一种无冗余保护集群实现前端业务连续性方法

技术领域

本发明涉及分布式存储领域，尤其涉及在无副本模式下如何保证前端业务连续的方法。

背景技术

随着大数据时代的到来，数据存储量呈爆炸式增长，传统的控制器架构存储已经不堪重负，软件定义存储（SDS，Software Defined Storage）也应运而生。SDS在通用的服务器上安装分布式存储集群管理软件，将集群中服务器的本地硬盘组织成一个大规模，具有容错性的虚拟化存储资源池，对上层应用提供标准的访问接口，如NAS、IPSAN、对象接口等等。

通常来讲，分布式存储对集群中的各种资源尤其是存储介质会提供各种容错保护机制，常见的集群数据保护措施有副本和纠删码两种。副本就是根据一定的算法将数据在磁盘中写多份，几副本就写几份；纠删码（Erasure Coding）是一种编码传输技术，它把数据分成多个部分，然后通过一定的数学方法计算出数据的冗余编码，然后把原始数据和冗余编码都保存下来。例如，一个数据片段可以把它拆分为N份，然后计算出M个校验码片段，N+M份数据分别存放在不同的地方，可支持M个数据片段损坏，然后通过数学方法计算出原始数据。不管是副本还是纠删码，都能容忍一定数量的硬盘和节点损坏而保证前端业务不中断。

对于没有副本和纠删码配置，只采用底层RAID算法保护的分布式集群，磁盘损坏可以通过RAID算法保护数据，但在节点宕机的情况下，前端业务必然中断。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种无冗余保护集群实现前端业务连续性方法，其能够在无副本或纠删码保护的分布式集群内中节点宕机的情况下，保护前端业务不中断，待宕机节点重新恢复之后又可自动加入集群。

为实现上述目的，本发明提供了一种无冗余保护集群实现前端业务连续性方法，包括如下步骤：

S1、集群管理程序通过心跳信息检测原集群中各节点是否能正常通讯；

S2、设定时间（Δt，可设置）之内若集群管理程序检测到有节点无心跳信息，则判定该节点宕机，将该节点记为A；

S3、集群管理程序重新设置集群拓扑，把A节点从集群中移出；

S4、集群管理程序通过心跳信息检测新集群中各节点是否能正常通讯；

S5、重复S1-S4。

优选地，还包括如下步骤：S6、集群管理程序通过心跳信息检测原集群中各节点，包括已被S3所移出的节点A是否能正常通讯；如果有不同于A节点的其它节点无心跳信息，将该节点记为B，同时把B节点从新集群中移出；如果A节点心跳信息复活，则再次把A节点加入新集群。

优选地，还包括如下步骤：S7、所有涉及到集群内节点的移出和加入操作之后，都需要根据新集群的总节点数，磁盘数以及用户路径，重新设置HASH映射算法，将后续上层应用下发的数据重映射至新集群中健康节点的具体磁盘中，保证数据在健康节点上落盘。

本发明的有益效果是：本发明提供的方法解决了无冗余保护的分布式存储集群的前端业务连续性的问题。

附图说明

图1是本发明实施例中的集群自动收缩和扩容的主程序流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明：

参见图1，本实施例针对一个具体的6节点4U24盘位服务器组成的无冗余保护的分布式文件存储集群，具体步骤如下：

1、初始时刻集群处于正常读写状态，分布式集群管理程序周期性检测集群内节点之间的通讯状态；

2、在t1时刻集群中节点A宕机，此时集群管理程序检测到A节点通讯异常，且原本应该写入节点A的数据无法正常写入。集群管理程序将节点A从集群中移出，并重新组织集群拓扑，此时新集群节点数为5。根据新集群节点数及总磁盘数，设置HASH算法，根据新的HASH算法将本应写入节点A的数据写入新集群的5个正常节点中；

3、在t2时刻节点A排除故障之后正常开机，此时集群管理程序检测到A节点恢复正常，于是将节点A重新加入集群，并重新组织集群拓扑，再次设置HASH算法，之后的前端业务数据有一部分会写入新加入的节点。

4、在上述过程中如发现其它节点发生宕机的，则重复步骤1-3。

本发明未详述之处，均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种无冗余保护集群实现前端业务连续性方法，其特征在于，包括如下步骤：

S2、在设定时间Δt之内若集群管理程序检测到有节点无心跳信息，则判定该节点宕机，将该节点记为A；

S5、重复S1-S4。

2.如权利要求1所述的无冗余保护集群实现前端业务连续性方法，其特征在于，还包括如下步骤：

S6、集群管理程序通过心跳信息检测原集群中各节点，包括已被S3所移出的节点A是否能正常通讯；如果有不同于A节点的其它节点无心跳信息，将该节点记为B，同时把B节点从新集群中移出；如果A节点心跳信息复活，则再次把A节点加入新集群。

3.如权利要求1所述的无冗余保护集群实现前端业务连续性方法，其特征在于，还包括如下步骤：

S7、所有涉及到集群内节点的移出和加入操作之后，都需要根据新集群的总节点数，磁盘数以及用户路径，重新设置HASH映射算法，将后续上层应用下发的数据重映射至新集群中健康节点的具体磁盘中，保证数据在健康节点上落盘。