CN105302498A - 一种存储冗余系统与方法 - Google Patents

一种存储冗余系统与方法 Download PDF

Info

Publication number
CN105302498A
CN105302498A CN201510822319.7A CN201510822319A CN105302498A CN 105302498 A CN105302498 A CN 105302498A CN 201510822319 A CN201510822319 A CN 201510822319A CN 105302498 A CN105302498 A CN 105302498A
Authority
CN
China
Prior art keywords
data
controller
storage medium
source controller
shared storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510822319.7A
Other languages
English (en)
Inventor
樊云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510822319.7A priority Critical patent/CN105302498A/zh
Publication of CN105302498A publication Critical patent/CN105302498A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明公开了一种存储冗余系统与方法,系统包括:位于存储系统内部的共享存储介质和位于存储系统外部的电池备份单元,共享存储介质与源控制器和镜像控制器共享数据,当内部电池发生故障或所述源控制器和所述镜像控制器均发生故障丢失数据后,电池备份单元继续为所述共享存储介质供电,所述源控制器与所述镜像控制器从所述共享存储介质获取有效脏数据,进行数据的恢复。原有的对称冗余设计的基础上增加了一层冗余,通过设置共享存储介质与独立于内部电源的电池备份单元,可以实现共享存储介质独立于存储系统的供电模式,避免了存储系统电源掉电故障造成的数据丢失的后果,实现了存储系统的高可靠性。

Description

一种存储冗余系统与方法
技术领域
本发明涉及存储系统架构设计领域,特别是涉及一种存储冗余系统与方法。
背景技术
在存储系统体系中,冗余设计是软件和硬件实现可靠性设计的基础。对于一般的中高端存储设备,除了在硬盘层面采用RAID机制提供数据的冗余恢复处理外,在系统硬件和软件的架构设计中也多采用对称式冗余架构设计,使得其具备在一个控制器发生不可预知的故障后,对应的镜像设备能够迅速平滑的接管故障设备业务的能力,同时依靠软件的架构设计最终实现上层业务对底层设备故障及其处理过程毫无感知的功能。
上述采用镜像设备提供冗余机制的架构设计的确能够保证上层业务的稳定性,但对于存储控制器和其镜像设备同时发生故障的场景,该方案具有一定的局限性。例如:一个控制器发生故障,当其镜像设备在接管该设备业务的过程中出现控制器断电与电池备份单元BBU故障并发的场景、短暂时间内源控制器与镜像设备交替故障的场景。对于这两种场景以及类似场景,都会引起内存中的数据不能及时下刷至后端存储,导致源控制器与镜像设备内存中脏数据丢失,造成控制器故障恢复或者再次系统重启上电后数据不一致的情况。
发明内容
有鉴于此,本发明的主要目的在于提供一种存储冗余系统与方法,可以实现存储系统的高可靠性。
为实现上述目的,本发明提供了一种存储冗余系统,包括:
位于存储系统内部的共享存储介质和位于存储系统外部的电池备份单元;
所述共享存储介质与存储系统内部的源控制器、源控制器的镜像控制器以及为所述源控制器和所述镜像控制器供电的内部电池均相连接,用于与所述源控制器和所述镜像控制器共享并存储数据,判断脏数据有效性,为所述源控制器与所述镜像控制器提供有效脏数据以进行数据的恢复;
所述电池备份单元与所述共享存储介质相连接,用于独立于所述内部电池为所述共享存储介质供电。
本发明还提供了一种存储冗余方法包括:
共享存储介质与源控制器和镜像控制器共享数据,当内部电池发生故障或所述源控制器和所述镜像控制器均发生故障丢失数据后,电池备份单元继续为所述共享存储介质供电,所述源控制器与所述镜像控制器从所述共享存储介质获取有效脏数据,进行数据的恢复。
优选地,共享存储介质与源控制器和镜像控制器共享数据包括:
当目标数据流到达源控制器时,数据并行写入所述源控制器、所述镜像控制器和所述共享存储介质中,并均对当前数据的有效性信息进行保存。
优选地,所述存储冗余方法还包括:
当所述内部电池正常工作且所述源控制器发生故障后,所述源控制器从镜像控制器中获取有效脏数据,进行数据的恢复。
优选地,所述存储冗余方法还包括:
根据预设周期,周期性同步所述源控制器、所述镜像控制器和所述共享存储介质中的有效数据。
应用本发明提供的一种存储冗余系统与方法,系统包括:位于存储系统内部的共享存储介质和位于存储系统外部的电池备份单元,共享存储介质与源控制器和镜像控制器共享数据,当内部电池发生故障或所述源控制器和所述镜像控制器均发生故障丢失数据后,电池备份单元继续为所述共享存储介质供电,所述源控制器与所述镜像控制器从所述共享存储介质获取有效脏数据,进行数据的恢复。原有的对称冗余设计的基础上增加了一层冗余,通过设置共享存储介质与独立于内部电源的电池备份单元,可以实现共享存储介质独立于存储系统的供电模式,避免了存储系统电源掉电故障造成的数据丢失的后果,实现了存储系统的高可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一种存储冗余系统实施例的结构示意图;
图2为现有存储冗余系统的结构示意图;
图3为本发明一种存储冗余系统实施例的详细结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种存储冗余系统,图1示出了本发明存储冗余系统实施例的结构示意图,包括:
位于存储系统内部的共享存储介质101和位于存储系统外部的电池备份单元102;
所述共享存储介质101与存储系统内部的源控制器、源控制器的镜像控制器以及为所述源控制器和所述镜像控制器供电的内部电池均相连接,用于与所述源控制器和所述镜像控制器共享并存储数据,判断脏数据有效性,为所述源控制器与所述镜像控制器提供有效脏数据以进行数据的恢复;
所述电池备份单元102与所述共享存储介质相连接,用于独立于所述内部电池为所述共享存储介质供电。
图2为现有的存储系统,有镜像控制器的冗余存储设计,控制器0A与控制器0B互为镜像控制器,控制器0C与控制器0D互为镜像控制器。
图3为本发明实施例的一种结构示意图,对应于现有存储系统图2,还包括:共享存储介质和独立隔离的BBU电池备份单元模块,其中共享存储介质与各控制器之间直接互联,各控制器使用统一内存地址访问共享介质。共享存储介质中包含标记脏数据有效性位图的信息以及具备数据冗余算法,内部电源采用存储系统的电源,外部BBU模块采用独立于存储系统的供电方式,可以实现一定范围内的故障域隔离。
当控制器0A发生故障后,其镜像控制器0B接管0A业务,此时0A脏数据有效性位图被标记为无效。若在控制器0A故障恢复过程中,控制器0B发生故障,如控制器0B在下刷脏数据的过程中存储系统外部电源发生调掉电故障,同时存储系统内置BBU也发生供电故障,最终导致控制器0B脏数据下刷失败,此时脏数据有效性位图被标记为无效。供电系统恢复,控制器0A和0B恢复上电,但在本端和镜像端查询不到有效脏数据,此时可以向共享存储介质查询并经过一定的数据一致性冗余算法获取有效的脏数据信息,并以此恢复内存对象,从而保证了存储系统的数据一致性。
应用本实施例提供的一种存储冗余系统,包括:位于存储系统内部的共享存储介质和位于存储系统外部的电池备份单元,共享存储介质与源控制器和镜像控制器共享数据,当内部电池发生故障或所述源控制器和所述镜像控制器均发生故障丢失数据后,电池备份单元继续为所述共享存储介质供电,所述源控制器与所述镜像控制器从所述共享存储介质获取有效脏数据,进行数据的恢复。采用共享介质方式的存储冗余设计,能够在原有的对称冗余设计的基础上增加了一层冗余,实现更高级别的数据一致性和业务稳定性;借助于高性能的共享存储介质以及内部硬件互联设计,为控制器之间的数据共享,快速访问,容错处理等提供了可能;共享存储介质采用内部供电加外部独立BBU模块备份方式,可以实现独立于存储系统的供电模式,避免了存储系统电源及其BBU掉电故障造成的数据丢失的后果。对高可靠性存储系统的设计提供一定的参考价值。
本实施例系统提供存储系统内各个控制器之间的共享访问,保证各内存对象的数据在控制器本地内存和共享介质中均有保存,本实施例系统对应一种存储冗余方法,包括:
共享存储介质与源控制器和镜像控制器共享数据,当内部电池发生故障或所述源控制器和所述镜像控制器均发生故障丢失数据后,电池备份单元继续为所述共享存储介质供电,所述源控制器与所述镜像控制器从所述共享存储介质获取有效脏数据,进行数据的恢复。
具体执行过程为:上层业务对象的数据流到达存储控制器后,数据并行写入本地内存和共享存储介质中;本地内存和共享存储介质中均保存一份脏数据有效性位图,用来标记当前数据的有效性信息;并且该位图信息中记录时间戳信息。当控制器处在恢复或者重启上电阶段,各控制器首先从本地和镜像控制器获取脏数据位图信息,若存在有效脏数据则以脏数据有效的控制器内存信息恢复内存对象;否则,向共享式介质查询脏数据有效信息,通过一定的数据一致性算法保证最终获取到有效脏数据,然后根据该信息恢复内存对象。正常生产运行中源控制器、镜像控制器和共享介质存储之间定期同步内存数据,并对数据做冗余处理,时刻保证三者的一致性。
应用本实施例提供的一种存储冗余方法,共享存储介质与源控制器和镜像控制器共享数据,当内部电池发生故障或所述源控制器和所述镜像控制器均发生故障丢失数据后,电池备份单元继续为所述共享存储介质供电,所述源控制器与所述镜像控制器从所述共享存储介质获取有效脏数据,进行数据的恢复。原有的对称冗余设计的基础上增加了一层冗余,通过设置共享存储介质与独立于内部电源的电池备份单元,可以实现共享存储介质独立于存储系统的供电模式,避免了存储系统电源掉电故障造成的数据丢失的后果,实现了存储系统的高可靠性。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (5)

1.一种存储冗余系统,其特征在于,包括:
位于存储系统内部的共享存储介质和位于存储系统外部的电池备份单元;
所述共享存储介质与存储系统内部的源控制器、源控制器的镜像控制器以及为所述源控制器和所述镜像控制器供电的内部电池均相连接,用于与所述源控制器和所述镜像控制器共享并存储数据,判断脏数据有效性,为所述源控制器与所述镜像控制器提供有效脏数据以进行数据的恢复;
所述电池备份单元与所述共享存储介质相连接,用于独立于所述内部电池为所述共享存储介质供电。
2.一种存储冗余方法,其特征在于,包括:
共享存储介质与源控制器和镜像控制器共享数据,当内部电池发生故障或所述源控制器和所述镜像控制器均发生故障丢失数据后,电池备份单元继续为所述共享存储介质供电,所述源控制器与所述镜像控制器从所述共享存储介质获取有效脏数据,进行数据的恢复。
3.根据权利要求2所述的存储冗余方法,其特征在于,共享存储介质与源控制器和镜像控制器共享数据包括:
当目标数据流到达源控制器时,数据并行写入所述源控制器、所述镜像控制器和所述共享存储介质中,并均对当前数据的有效性信息进行保存。
4.根据权利要求2所述的存储冗余方法,其特征在于,还包括:
当所述内部电池正常工作且所述源控制器发生故障后,所述源控制器从镜像控制器中获取有效脏数据,进行数据的恢复。
5.根据权利要求2所述的存储冗余方法,其特征在于,还包括:
根据预设周期,周期性同步所述源控制器、所述镜像控制器和所述共享存储介质中的有效数据。
CN201510822319.7A 2015-11-24 2015-11-24 一种存储冗余系统与方法 Pending CN105302498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510822319.7A CN105302498A (zh) 2015-11-24 2015-11-24 一种存储冗余系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510822319.7A CN105302498A (zh) 2015-11-24 2015-11-24 一种存储冗余系统与方法

Publications (1)

Publication Number Publication Date
CN105302498A true CN105302498A (zh) 2016-02-03

Family

ID=55199811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510822319.7A Pending CN105302498A (zh) 2015-11-24 2015-11-24 一种存储冗余系统与方法

Country Status (1)

Country Link
CN (1) CN105302498A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930238A (zh) * 2016-05-11 2016-09-07 浪潮电子信息产业股份有限公司 一种供电系统、供电方法及存储系统
CN106557054A (zh) * 2017-01-05 2017-04-05 上海泽鑫电力科技股份有限公司 变压器冷却器智能控制装置的故障自动修复的系统及方法
CN110941397A (zh) * 2019-11-22 2020-03-31 苏州浪潮智能科技有限公司 存储集群bbu故障时的节点模式调整方法及相关组件
CN111338456A (zh) * 2020-03-04 2020-06-26 苏州浪潮智能科技有限公司 一种bbu掉电保护实现方法及系统
CN112506710A (zh) * 2020-12-16 2021-03-16 深信服科技股份有限公司 分布式文件系统数据修复方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1504902A (zh) * 2002-12-05 2004-06-16 国际商业机器公司 在存储器部件之间保持数据一致性的方法和系统
CN1749968A (zh) * 2004-09-13 2006-03-22 日本电气英富醍株式会社 电源故障后双数据系统的恢复
CN101131862A (zh) * 2007-09-29 2008-02-27 航天东方红卫星有限公司 一种空间非易失存储器
US20110213993A1 (en) * 2010-03-01 2011-09-01 Peter Richard Greenhalgh Data processing apparatus and method for transferring workload between source and destination processing circuitry
US20130067259A1 (en) * 2011-09-08 2013-03-14 Infineon Technologies Ag Standby operation with additional micro-controller
CN103049407A (zh) * 2012-12-27 2013-04-17 华为技术有限公司 数据存储方法、装置及系统
CN103516667A (zh) * 2012-06-20 2014-01-15 中国银联股份有限公司 用于安全性信息数据的容灾备份的系统、方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1504902A (zh) * 2002-12-05 2004-06-16 国际商业机器公司 在存储器部件之间保持数据一致性的方法和系统
CN1749968A (zh) * 2004-09-13 2006-03-22 日本电气英富醍株式会社 电源故障后双数据系统的恢复
CN101131862A (zh) * 2007-09-29 2008-02-27 航天东方红卫星有限公司 一种空间非易失存储器
US20110213993A1 (en) * 2010-03-01 2011-09-01 Peter Richard Greenhalgh Data processing apparatus and method for transferring workload between source and destination processing circuitry
US20130067259A1 (en) * 2011-09-08 2013-03-14 Infineon Technologies Ag Standby operation with additional micro-controller
CN103516667A (zh) * 2012-06-20 2014-01-15 中国银联股份有限公司 用于安全性信息数据的容灾备份的系统、方法及设备
CN103049407A (zh) * 2012-12-27 2013-04-17 华为技术有限公司 数据存储方法、装置及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930238A (zh) * 2016-05-11 2016-09-07 浪潮电子信息产业股份有限公司 一种供电系统、供电方法及存储系统
CN106557054A (zh) * 2017-01-05 2017-04-05 上海泽鑫电力科技股份有限公司 变压器冷却器智能控制装置的故障自动修复的系统及方法
CN106557054B (zh) * 2017-01-05 2019-01-25 上海泽鑫电力科技股份有限公司 变压器冷却器智能控制装置的故障自动修复的系统及方法
CN110941397A (zh) * 2019-11-22 2020-03-31 苏州浪潮智能科技有限公司 存储集群bbu故障时的节点模式调整方法及相关组件
WO2021098041A1 (zh) * 2019-11-22 2021-05-27 苏州浪潮智能科技有限公司 存储集群bbu故障时的节点模式调整方法及相关组件
US11809295B2 (en) 2019-11-22 2023-11-07 Inspur Suzhou Intelligent Technology Co., Ltd. Node mode adjustment method for when storage cluster BBU fails and related component
CN111338456A (zh) * 2020-03-04 2020-06-26 苏州浪潮智能科技有限公司 一种bbu掉电保护实现方法及系统
CN112506710A (zh) * 2020-12-16 2021-03-16 深信服科技股份有限公司 分布式文件系统数据修复方法、装置、设备及存储介质
CN112506710B (zh) * 2020-12-16 2024-02-23 深信服科技股份有限公司 分布式文件系统数据修复方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN105302498A (zh) 一种存储冗余系统与方法
US9280430B2 (en) Deferred replication of recovery information at site switchover
US9940206B2 (en) Handling failed cluster members when replicating a database between clusters
Li et al. Erasure coding for cloud storage systems: A survey
CN102035862B (zh) Svc集群中配置节点的故障移交方法和系统
CN204859222U (zh) 同城数据中心双活高可用系统
CN105554106A (zh) 一种memcache分布式缓存系统
US10402104B2 (en) Devices and methods for a data storage device
US10565062B1 (en) Systems and methods for managing replication of data to a remote storage device
CN102521083A (zh) 一种云计算系统中虚拟机备份方法和系统
CN103457775B (zh) 一种基于角色的高可用虚拟机池化管理系统
Zhou et al. FTCloudSim: a simulation tool for cloud service reliability enhancement mechanisms
CN103840961A (zh) 双机热备份系统
CN103593266A (zh) 一种基于仲裁盘机制的双机热备方法
EP3537687A1 (en) Access method for distributed storage system, related device and related system
CN104331254A (zh) 一种基于双活逻辑卷的存储双活系统设计方法
WO2016095372A1 (zh) 实现事务日志镜像备份的方法及装置
US10223223B2 (en) Preventing non-detectable data loss during site switchover
CN102890716A (zh) 分布式文件系统和分布式文件系统的数据备份方法
CN102662803A (zh) 一种双控双活冗余设备
US20150317223A1 (en) Method and system for handling failures by tracking status of switchover or switchback
CN104063262A (zh) 一种基于虚拟机的异地容灾系统及其容灾方法
US8639968B2 (en) Computing system reliability
US9367413B2 (en) Detecting data loss during site switchover
CN103544081B (zh) 双元数据服务器的管理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160203

RJ01 Rejection of invention patent application after publication