CN112612652A

CN112612652A - 分布式存储系统异常节点重启方法及系统

Info

Publication number: CN112612652A
Application number: CN202110014811.7A
Authority: CN
Inventors: 张承冰; 李洪新; 欧阳京; 杨恒; 宣旭迎; 杨宏兵; 周石开; 周天睿; 袁鹏飞; 文中领; 周泽湘
Original assignee: Hunan Tongyou Feiji Technology Co ltd
Current assignee: Hunan Tongyou Feiji Technology Co ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-04-06

Abstract

本发明提供了一种分布式存储系统异常节点重启方法及系统。该方法包括：由存储集群中的各个节点共同组成监控环；在监控环中，各个节点启动对一个相邻节点的监控；当检测到被监控节点出现故障时，对被监控节点进行重启。本发明提供的分布式存储系统异常节点重启方法及系统能够在第一时间处理分布式存储系统中出现的故障。

Description

分布式存储系统异常节点重启方法及系统

技术领域

本发明涉及分布式存储系统技术领域，特别是涉及一种分布式存储系统异常节点重启方法及系统。

背景技术

随着互联网技术的发展，对于存储的的要求也逐渐增加，现阶段一些关键技术的发展都是以大数据基础发展出来的。这也使得拥有易扩展，大容量的分布式存储系统得到市场的青睐。但分布式存储因为是将数据存储到不同机器节点上原因，导致会出现许多不确定性，其中有些状态只能通过重启节点来恢复节点的状态，从而恢复集群的状态。

现有技术方案都是通过人工干预的方式，去修复、重启节点从而达到恢复集群的目的，各个分布式存储管理平台也仅能提示使用者集群状态、节点状态。管理平台自身无法自动去重启节点。

发明内容

本发明要解决的技术问题是提供一种分布式存储系统异常节点重启方法及系统，能够在第一时间处理分布式存储系统中出现的故障。

为解决上述技术问题，本发明提供了一种分布式存储系统异常节点重启方法，所述方法包括：由存储集群中的各个节点共同组成监控环；在监控环中，各个节点启动对一个相邻节点的监控；当检测到被监控节点出现故障时，对被监控节点进行重启。

在一些实施方式中，还包括：在各个节点启动对一个相邻节点的监控之前，设置被监控节点的地址。

在一些实施方式中，还包括：在各个节点启动对一个相邻节点的监控之前，设置被监控节点的用户名和密码。

在一些实施方式中，当检测到被监控节点出现故障时，对被监控节点进行重启，包括：当检测到被监控节点出现故障时，通过IPMI接口对被监控节点进行重启。

在一些实施方式中，由管理平台对被监控节点进行重启。

在一些实施方式中，存储集群中的各个节点共同组成管理平台。

此外，本发明还提供了一种分布式存储系统异常节点重启系统，所述系统包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据前文所述的分布式存储系统异常节点重启方法。

采用这样的设计后，本发明至少具有以下优点：

通过将分布式存储系统中各个存储节点组成存储环，并且在存储环向每个存储节点监控与之相邻的一个存储节点，当监控到故障出现时，通过IPMI接口对监控节点进行重启，使得存储系统能够在第一时间对系统内出现的故障进行处理。

附图说明

上述仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，以下结合附图与具体实施方式对本发明作进一步的详细说明。

图1是本发明实施例提供的分布式存储系统异常节点重启系统的系统架构示意图；

图2是本发明实施例提供的分布式存储系统异常节点重启方法的流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1示出了分布式存储系统的整体网络架构。参见图1，分布式存储系统包括若干个独立的存储节点12。并且，这些存储节点12共同组成了存储环11。

可以理解的是，在存储环11上，每个存储节点12都有两个与之相邻的存储节点12。在进行相邻节点监控时，每个存储节点12都监控两个相邻节点中的一个。并且，在存储环11上，每个存储节点12均监控一个相邻的存储节点12，并且，每个存储节点12均被一个相邻的存储节点12监控。也就是说，不会出现一个节点12同时被两个节点12进行重复监控的现象。

在存储环11中，所有的存储节点12共同组成了对存储系统进行管理的管理平台。更为具体的，在每个存储节点12内部会安装一个管理组件，通过不同节点上管理组件的相互配合，实现对整个存储系统的管理功能。这些管理功能可以包括：由现有的存储环11上删除节点，向存储环11上添加节点，在所有的存储节点12之间进行存储空间分配，对外部的访问流量进行负载均衡等等。

对相邻节点12进行监控时，存储节点12通过自身的IPMI接口对相邻节点进行监控。一旦发现被监控的相邻节点出现故障，监控节点会将出现故障的被监控节点重新启动。经过上述的重启操作之后，存储环11上就不会再有故障节点，存储系统仍然在正常工作。

更进一步的，上述的监控过程还包括参数设置的操作。参见图2，在存储环上的各个节点相互之间进行相邻节点监控之前，用户还可以通过管理系统设置各个节点的IPMI地址、IPMI专用用户名和密码。设置的上述操作之后，被监控节点可以通过上述的设置参数辨别发送重启指令的节点是否是目标节点，提高了系统操作的安全性。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

Claims

1.一种分布式存储系统异常节点重启方法，其特征在于，包括：

由存储集群中的各个节点共同组成监控环；

在监控环中，各个节点启动对一个相邻节点的监控；

当检测到被监控节点出现故障时，对被监控节点进行重启。

2.根据权利要求1所述的分布式存储系统异常节点重启方法，其特征在于，还包括：

在各个节点启动对一个相邻节点的监控之前，设置被监控节点的地址。

3.根据权利要求1所述的分布式存储系统异常节点重启方法，其特征在于，还包括：

在各个节点启动对一个相邻节点的监控之前，设置被监控节点的用户名和密码。

4.根据权利要求1所述的分布式存储系统异常节点重启方法，其特征在于，当检测到被监控节点出现故障时，对被监控节点进行重启，包括：

当检测到被监控节点出现故障时，通过IPMI接口对被监控节点进行重启。

5.根据权利要求4所述的分布式存储系统异常节点重启方法，其特征在于，由管理平台对被监控节点进行重启。

6.根据权利要求5所述的分布式存储系统异常节点重启方法，其特征在于，存储集群中的各个节点共同组成管理平台。

7.一种分布式存储系统异常节点重启系统，其特征在于，包括：

多个存储节点，所述存储节点用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至9任意一项所述的分布式存储系统异常节点重启方法。