CN112612652A - 分布式存储系统异常节点重启方法及系统 - Google Patents
分布式存储系统异常节点重启方法及系统 Download PDFInfo
- Publication number
- CN112612652A CN112612652A CN202110014811.7A CN202110014811A CN112612652A CN 112612652 A CN112612652 A CN 112612652A CN 202110014811 A CN202110014811 A CN 202110014811A CN 112612652 A CN112612652 A CN 112612652A
- Authority
- CN
- China
- Prior art keywords
- node
- storage system
- distributed storage
- restarting
- monitored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3034—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
Abstract
本发明提供了一种分布式存储系统异常节点重启方法及系统。该方法包括:由存储集群中的各个节点共同组成监控环;在监控环中,各个节点启动对一个相邻节点的监控;当检测到被监控节点出现故障时,对被监控节点进行重启。本发明提供的分布式存储系统异常节点重启方法及系统能够在第一时间处理分布式存储系统中出现的故障。
Description
技术领域
本发明涉及分布式存储系统技术领域,特别是涉及一种分布式存储系统异常节点重启方法及系统。
背景技术
随着互联网技术的发展,对于存储的的要求也逐渐增加,现阶段一些关键技术的发展都是以大数据基础发展出来的。这也使得拥有易扩展,大容量的分布式存储系统得到市场的青睐。但分布式存储因为是将数据存储到不同机器节点上原因,导致会出现许多不确定性,其中有些状态只能通过重启节点来恢复节点的状态,从而恢复集群的状态。
现有技术方案都是通过人工干预的方式,去修复、重启节点从而达到恢复集群的目的,各个分布式存储管理平台也仅能提示使用者集群状态、节点状态。管理平台自身无法自动去重启节点。
发明内容
本发明要解决的技术问题是提供一种分布式存储系统异常节点重启方法及系统,能够在第一时间处理分布式存储系统中出现的故障。
为解决上述技术问题,本发明提供了一种分布式存储系统异常节点重启方法,所述方法包括:由存储集群中的各个节点共同组成监控环;在监控环中,各个节点启动对一个相邻节点的监控;当检测到被监控节点出现故障时,对被监控节点进行重启。
在一些实施方式中,还包括:在各个节点启动对一个相邻节点的监控之前,设置被监控节点的地址。
在一些实施方式中,还包括:在各个节点启动对一个相邻节点的监控之前,设置被监控节点的用户名和密码。
在一些实施方式中,当检测到被监控节点出现故障时,对被监控节点进行重启,包括:当检测到被监控节点出现故障时,通过IPMI接口对被监控节点进行重启。
在一些实施方式中,由管理平台对被监控节点进行重启。
在一些实施方式中,存储集群中的各个节点共同组成管理平台。
此外,本发明还提供了一种分布式存储系统异常节点重启系统,所述系统包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据前文所述的分布式存储系统异常节点重启方法。
采用这样的设计后,本发明至少具有以下优点:
通过将分布式存储系统中各个存储节点组成存储环,并且在存储环向每个存储节点监控与之相邻的一个存储节点,当监控到故障出现时,通过IPMI接口对监控节点进行重启,使得存储系统能够在第一时间对系统内出现的故障进行处理。
附图说明
上述仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,以下结合附图与具体实施方式对本发明作进一步的详细说明。
图1是本发明实施例提供的分布式存储系统异常节点重启系统的系统架构示意图;
图2是本发明实施例提供的分布式存储系统异常节点重启方法的流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1示出了分布式存储系统的整体网络架构。参见图1,分布式存储系统包括若干个独立的存储节点12。并且,这些存储节点12共同组成了存储环11。
可以理解的是,在存储环11上,每个存储节点12都有两个与之相邻的存储节点12。在进行相邻节点监控时,每个存储节点12都监控两个相邻节点中的一个。并且,在存储环11上,每个存储节点12均监控一个相邻的存储节点12,并且,每个存储节点12均被一个相邻的存储节点12监控。也就是说,不会出现一个节点12同时被两个节点12进行重复监控的现象。
在存储环11中,所有的存储节点12共同组成了对存储系统进行管理的管理平台。更为具体的,在每个存储节点12内部会安装一个管理组件,通过不同节点上管理组件的相互配合,实现对整个存储系统的管理功能。这些管理功能可以包括:由现有的存储环11上删除节点,向存储环11上添加节点,在所有的存储节点12之间进行存储空间分配,对外部的访问流量进行负载均衡等等。
对相邻节点12进行监控时,存储节点12通过自身的IPMI接口对相邻节点进行监控。一旦发现被监控的相邻节点出现故障,监控节点会将出现故障的被监控节点重新启动。经过上述的重启操作之后,存储环11上就不会再有故障节点,存储系统仍然在正常工作。
更进一步的,上述的监控过程还包括参数设置的操作。参见图2,在存储环上的各个节点相互之间进行相邻节点监控之前,用户还可以通过管理系统设置各个节点的IPMI地址、IPMI专用用户名和密码。设置的上述操作之后,被监控节点可以通过上述的设置参数辨别发送重启指令的节点是否是目标节点,提高了系统操作的安全性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰,均落在本发明的保护范围内。
Claims (7)
1.一种分布式存储系统异常节点重启方法,其特征在于,包括:
由存储集群中的各个节点共同组成监控环;
在监控环中,各个节点启动对一个相邻节点的监控;
当检测到被监控节点出现故障时,对被监控节点进行重启。
2.根据权利要求1所述的分布式存储系统异常节点重启方法,其特征在于,还包括:
在各个节点启动对一个相邻节点的监控之前,设置被监控节点的地址。
3.根据权利要求1所述的分布式存储系统异常节点重启方法,其特征在于,还包括:
在各个节点启动对一个相邻节点的监控之前,设置被监控节点的用户名和密码。
4.根据权利要求1所述的分布式存储系统异常节点重启方法,其特征在于,当检测到被监控节点出现故障时,对被监控节点进行重启,包括:
当检测到被监控节点出现故障时,通过IPMI接口对被监控节点进行重启。
5.根据权利要求4所述的分布式存储系统异常节点重启方法,其特征在于,由管理平台对被监控节点进行重启。
6.根据权利要求5所述的分布式存储系统异常节点重启方法,其特征在于,存储集群中的各个节点共同组成管理平台。
7.一种分布式存储系统异常节点重启系统,其特征在于,包括:
多个存储节点,所述存储节点用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至9任意一项所述的分布式存储系统异常节点重启方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110014811.7A CN112612652A (zh) | 2021-01-06 | 2021-01-06 | 分布式存储系统异常节点重启方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110014811.7A CN112612652A (zh) | 2021-01-06 | 2021-01-06 | 分布式存储系统异常节点重启方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112612652A true CN112612652A (zh) | 2021-04-06 |
Family
ID=75253347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110014811.7A Pending CN112612652A (zh) | 2021-01-06 | 2021-01-06 | 分布式存储系统异常节点重启方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112612652A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115551077A (zh) * | 2022-09-14 | 2022-12-30 | 西北工业大学 | 基于LabVIEW的水声网络节点自定位方法 |
-
2021
- 2021-01-06 CN CN202110014811.7A patent/CN112612652A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115551077A (zh) * | 2022-09-14 | 2022-12-30 | 西北工业大学 | 基于LabVIEW的水声网络节点自定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2751551C1 (ru) | Способ и устройство для восстановления нарушенной работоспособности узла, электронное устройство и носитель данных | |
CN105933407B (zh) | 一种实现Redis集群高可用的方法及系统 | |
CN105790980B (zh) | 一种故障修复方法及装置 | |
CN112463448B (zh) | 分布式集群数据库同步方法、装置、设备及存储介质 | |
US8984108B2 (en) | Dynamic CLI mapping for clustered software entities | |
CN102394914A (zh) | 集群脑裂处理方法和装置 | |
CN108984349B (zh) | 主节点选举方法及装置、介质和计算设备 | |
CN102360324B (zh) | 故障恢复方法和用于故障恢复的设备 | |
CN107508694B (zh) | 一种集群内的节点管理方法及节点设备 | |
JP2009265805A (ja) | フェイルオーバ方法、プログラム、フェイルオーバ装置およびフェイルオーバシステム | |
CN107453932B (zh) | 一种分布式存储系统管理方法及其装置 | |
CN111176888B (zh) | 云存储的容灾方法、装置及系统 | |
CN107360025B (zh) | 一种分布式存储系统集群监控方法及设备 | |
CN112558997A (zh) | 一种部署应用的方法及装置 | |
CN109697078B (zh) | 非高可用性组件的修复方法、大数据集群和容器服务平台 | |
US7886181B2 (en) | Failure recovery method in cluster system | |
CN112612545A (zh) | 一种服务器集群的配置热加载系统、方法、设备及介质 | |
CN108600284B (zh) | 一种基于Ceph的虚拟机高可用实现方法及系统 | |
JP2007520003A (ja) | コンピュータ障害発生時に複数のコンピュータの配列を操作する方法 | |
CN111342986B (zh) | 分布式节点管理方法及装置、分布式系统、存储介质 | |
CN110858168B (zh) | 集群节点故障处理方法、装置及集群节点 | |
CN108509296B (zh) | 一种处理设备故障的方法和系统 | |
CN112612652A (zh) | 分布式存储系统异常节点重启方法及系统 | |
CN107943615B (zh) | 基于分布式集群的数据处理方法与系统 | |
CN105959145A (zh) | 一种适用高可用性集群的并行管理服务器的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |