CN108153606A - 一种无冗余保护集群实现前端业务连续性方法 - Google Patents

一种无冗余保护集群实现前端业务连续性方法 Download PDF

Info

Publication number
CN108153606A
CN108153606A CN201810079291.6A CN201810079291A CN108153606A CN 108153606 A CN108153606 A CN 108153606A CN 201810079291 A CN201810079291 A CN 201810079291A CN 108153606 A CN108153606 A CN 108153606A
Authority
CN
China
Prior art keywords
cluster
node
management program
nodes
irredundant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810079291.6A
Other languages
English (en)
Inventor
苏显新
万磊
王怡清
冷波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Storage Information Technology Co Ltd
Original Assignee
Shanghai Storage Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Storage Information Technology Co Ltd filed Critical Shanghai Storage Information Technology Co Ltd
Priority to CN201810079291.6A priority Critical patent/CN108153606A/zh
Publication of CN108153606A publication Critical patent/CN108153606A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种无冗余保护集群实现前端业务连续性方法,包括如下步骤:S1、集群管理程序通过心跳信息检测原集群中各节点是否能正常通讯;S2、设定时间(Δt,可设置)之内若集群管理程序检测到有节点无心跳信息,则判定该节点宕机,将该节点记为A;S3、集群管理程序重新设置集群拓扑,把A节点从集群中移出;S4、集群管理程序通过心跳信息检测新集群中各节点是否能正常通讯;S5、重复S1‑S4。本发明提供的方法解决了无副本模式保护的分布式存储集群的前端业务连续性的问题。

Description

一种无冗余保护集群实现前端业务连续性方法
技术领域
本发明涉及分布式存储领域,尤其涉及在无副本模式下如何保证前端业务连续的方法。
背景技术
随着大数据时代的到来,数据存储量呈爆炸式增长,传统的控制器架构存储已经不堪重负,软件定义存储(SDS,Software Defined Storage)也应运而生。SDS在通用的服务器上安装分布式存储集群管理软件,将集群中服务器的本地硬盘组织成一个大规模,具有容错性的虚拟化存储资源池,对上层应用提供标准的访问接口,如NAS、IPSAN、对象接口等等。
通常来讲,分布式存储对集群中的各种资源尤其是存储介质会提供各种容错保护机制,常见的集群数据保护措施有副本和纠删码两种。副本就是根据一定的算法将数据在磁盘中写多份,几副本就写几份;纠删码(Erasure Coding)是一种编码传输技术,它把数据分成多个部分,然后通过一定的数学方法计算出数据的冗余编码,然后把原始数据和冗余编码都保存下来。例如,一个数据片段可以把它拆分为N份,然后计算出M个校验码片段,N+M份数据分别存放在不同的地方,可支持M个数据片段损坏,然后通过数学方法计算出原始数据。不管是副本还是纠删码,都能容忍一定数量的硬盘和节点损坏而保证前端业务不中断。
对于没有副本和纠删码配置,只采用底层RAID算法保护的分布式集群,磁盘损坏可以通过RAID算法保护数据,但在节点宕机的情况下,前端业务必然中断。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种无冗余保护集群实现前端业务连续性方法,其能够在无副本或纠删码保护的分布式集群内中节点宕机的情况下,保护前端业务不中断,待宕机节点重新恢复之后又可自动加入集群。
为实现上述目的,本发明提供了一种无冗余保护集群实现前端业务连续性方法,包括如下步骤:
S1、集群管理程序通过心跳信息检测原集群中各节点是否能正常通讯;
S2、设定时间(Δt,可设置)之内若集群管理程序检测到有节点无心跳信息,则判定该节点宕机,将该节点记为A;
S3、集群管理程序重新设置集群拓扑,把A节点从集群中移出;
S4、集群管理程序通过心跳信息检测新集群中各节点是否能正常通讯;
S5、重复S1-S4。
优选地,还包括如下步骤:S6、集群管理程序通过心跳信息检测原集群中各节点,包括已被S3所移出的节点A是否能正常通讯;如果有不同于A节点的其它节点无心跳信息,将该节点记为B,同时把B节点从新集群中移出;如果A节点心跳信息复活,则再次把A节点加入新集群。
优选地,还包括如下步骤:S7、所有涉及到集群内节点的移出和加入操作之后,都需要根据新集群的总节点数,磁盘数以及用户路径,重新设置HASH映射算法,将后续上层应用下发的数据重映射至新集群中健康节点的具体磁盘中,保证数据在健康节点上落盘。
本发明的有益效果是:本发明提供的方法解决了无冗余保护的分布式存储集群的前端业务连续性的问题。
附图说明
图1是本发明实施例中的集群自动收缩和扩容的主程序流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明:
参见图1,本实施例针对一个具体的6节点4U24盘位服务器组成的无冗余保护的分布式文件存储集群,具体步骤如下:
1、初始时刻集群处于正常读写状态,分布式集群管理程序周期性检测集群内节点之间的通讯状态;
2、在t1时刻集群中节点A宕机,此时集群管理程序检测到A节点通讯异常,且原本应该写入节点A的数据无法正常写入。集群管理程序将节点A从集群中移出,并重新组织集群拓扑,此时新集群节点数为5。根据新集群节点数及总磁盘数,设置HASH算法,根据新的HASH算法将本应写入节点A的数据写入新集群的5个正常节点中;
3、在t2时刻节点A排除故障之后正常开机,此时集群管理程序检测到A节点恢复正常,于是将节点A重新加入集群,并重新组织集群拓扑,再次设置HASH算法,之后的前端业务数据有一部分会写入新加入的节点。
4、在上述过程中如发现其它节点发生宕机的,则重复步骤1-3。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (3)

1.一种无冗余保护集群实现前端业务连续性方法,其特征在于,包括如下步骤:
S1、集群管理程序通过心跳信息检测原集群中各节点是否能正常通讯;
S2、在设定时间Δt之内若集群管理程序检测到有节点无心跳信息,则判定该节点宕机,将该节点记为A;
S3、集群管理程序重新设置集群拓扑,把A节点从集群中移出;
S4、集群管理程序通过心跳信息检测新集群中各节点是否能正常通讯;
S5、重复S1-S4。
2.如权利要求1所述的无冗余保护集群实现前端业务连续性方法,其特征在于,还包括如下步骤:
S6、集群管理程序通过心跳信息检测原集群中各节点,包括已被S3所移出的节点A是否能正常通讯;如果有不同于A节点的其它节点无心跳信息,将该节点记为B,同时把B节点从新集群中移出;如果A节点心跳信息复活,则再次把A节点加入新集群。
3.如权利要求1所述的无冗余保护集群实现前端业务连续性方法,其特征在于,还包括如下步骤:
S7、所有涉及到集群内节点的移出和加入操作之后,都需要根据新集群的总节点数,磁盘数以及用户路径,重新设置HASH映射算法,将后续上层应用下发的数据重映射至新集群中健康节点的具体磁盘中,保证数据在健康节点上落盘。
CN201810079291.6A 2018-01-26 2018-01-26 一种无冗余保护集群实现前端业务连续性方法 Pending CN108153606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810079291.6A CN108153606A (zh) 2018-01-26 2018-01-26 一种无冗余保护集群实现前端业务连续性方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810079291.6A CN108153606A (zh) 2018-01-26 2018-01-26 一种无冗余保护集群实现前端业务连续性方法

Publications (1)

Publication Number Publication Date
CN108153606A true CN108153606A (zh) 2018-06-12

Family

ID=62459006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810079291.6A Pending CN108153606A (zh) 2018-01-26 2018-01-26 一种无冗余保护集群实现前端业务连续性方法

Country Status (1)

Country Link
CN (1) CN108153606A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117317A (zh) * 2018-11-01 2019-01-01 郑州云海信息技术有限公司 一种集群故障恢复方法和相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512729A (zh) * 2002-12-31 2004-07-14 联想(北京)有限公司 网络设备自适应负载均衡的方法
US20120203898A1 (en) * 2010-12-03 2012-08-09 International Business Machines Corporation Dynamic rate heartbeating for inter-node status updating
CN102891881A (zh) * 2012-07-09 2013-01-23 北京中创信测科技股份有限公司 一种实现云环境下节点对等均衡的方法
CN103019853A (zh) * 2012-11-19 2013-04-03 北京亿赞普网络技术有限公司 一种作业任务的调度方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512729A (zh) * 2002-12-31 2004-07-14 联想(北京)有限公司 网络设备自适应负载均衡的方法
US20120203898A1 (en) * 2010-12-03 2012-08-09 International Business Machines Corporation Dynamic rate heartbeating for inter-node status updating
CN102891881A (zh) * 2012-07-09 2013-01-23 北京中创信测科技股份有限公司 一种实现云环境下节点对等均衡的方法
CN103019853A (zh) * 2012-11-19 2013-04-03 北京亿赞普网络技术有限公司 一种作业任务的调度方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117317A (zh) * 2018-11-01 2019-01-01 郑州云海信息技术有限公司 一种集群故障恢复方法和相关装置

Similar Documents

Publication Publication Date Title
US11132256B2 (en) RAID storage system with logical data group rebuild
US9740560B2 (en) Failure resilient distributed replicated data storage system
US8171379B2 (en) Methods, systems and media for data recovery using global parity for multiple independent RAID levels
US9588856B2 (en) Restoring redundancy in a storage group when a storage device in the storage group fails
US7231493B2 (en) System and method for updating firmware of a storage drive in a storage network
JP3753259B2 (ja) 記憶空間を提供する方法およびデータ記憶システム
CN101154174B (zh) 在raid数据重建和转移中使用文件系统信息的方法及设备
CN102834811B (zh) 多级联备份过程
US8429369B2 (en) Storage management program, storage management method, and storage management apparatus
US8639878B1 (en) Providing redundancy in a storage system
US20150286531A1 (en) Raid storage processing
CN103942112B (zh) 磁盘容错方法、装置及系统
CN109725831B (zh) 管理存储系统的方法、系统和计算机可读介质
GB2414592A (en) Decreasing failed disk reconstruction time in a RAID data storage system
CN103946846A (zh) 使用虚拟驱动作为用于raid组的热备用
US9558206B2 (en) Asymmetric distributed data storage system
JP6212934B2 (ja) ストレージシステム、情報処理装置の制御プログラム、およびストレージシステムの制御方法
CN103699457A (zh) 基于条带化的磁盘阵列修复方法及装置
US8020032B2 (en) Method for providing deferred maintenance on storage subsystems
CN102799533A (zh) 一种磁盘损坏扇区屏蔽方法及装置
CN111124263A (zh) 用于管理多个盘的方法、电子设备以及计算机程序产品
CN106569751A (zh) 一种多控制器缓存镜像方法及系统
US20050033933A1 (en) Systems and methods for modifying disk drive firmware in a raid storage system
US20050193273A1 (en) Method, apparatus and program storage device that provide virtual space to handle storage device failures in a storage system
US20070234107A1 (en) Dynamic storage data protection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180612

RJ01 Rejection of invention patent application after publication