CN104268038A - 磁盘阵列的高可用系统 - Google Patents

磁盘阵列的高可用系统 Download PDF

Info

Publication number
CN104268038A
CN104268038A CN201410528003.2A CN201410528003A CN104268038A CN 104268038 A CN104268038 A CN 104268038A CN 201410528003 A CN201410528003 A CN 201410528003A CN 104268038 A CN104268038 A CN 104268038A
Authority
CN
China
Prior art keywords
fault
disk array
data
hardware
controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410528003.2A
Other languages
English (en)
Other versions
CN104268038B (zh
Inventor
周耀辉
赵静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410528003.2A priority Critical patent/CN104268038B/zh
Publication of CN104268038A publication Critical patent/CN104268038A/zh
Application granted granted Critical
Publication of CN104268038B publication Critical patent/CN104268038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Memory System Of A Hierarchy Structure (AREA)

Abstract

本发明提供了一种磁盘阵列的高可用系统,包括磁盘阵列的硬件系统,该硬件系统中的硬件包括主设备和备份的从设备,如果发生故障,触发故障处理流程替换故障的硬件;运行在磁盘阵列的硬件系统上的软件系统,该软件系统支持故障检测和恢复、数据镜像、缓存冗余和磁盘阵列RAID容错。本发明一方面,硬件进行备份,提高系统的可靠性;另一方面,软件支持数据镜像,缓存冗余和RAID容错,确保了磁盘阵列的稳定可靠运行,数据的一致性完整,提高了整个存储系统的高可用性。

Description

磁盘阵列的高可用系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种磁盘阵列(RAID,Redundant Arrays of independent Disks)的高可用系统。
背景技术
高可用性(HA,High Availability)通常来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。
在现代信息迅速发展的时代,数据的价值远远超出预想,数据的安全和数据存储系统的高可用性就尤为重要。存储系统的意外故障或数据损坏都会给企业或者国家带来巨大的经济损失。因而,提高存储系统磁盘阵列的高可用性势在必行。
发明内容
为了解决上述技术问题,本发明提供了一种磁盘阵列的高可用系统,能够提高整个存储系统的高可用性。
为了达到本发明目的,本发明提供了一种磁盘阵列的高可用系统,包括:磁盘阵列的硬件系统,该硬件系统中的硬件包括主设备和备份的从设备,如果发生故障,触发故障处理流程替换故障的硬件;运行在磁盘阵列的硬件系统上的软件系统,该软件系统支持故障检测和恢复、数据镜像、缓存冗余和磁盘阵列RAID容错。
进一步地,硬件系统还包括:相互冗余的至少两个高速网络交换模块连接磁盘阵列中的每个控制器,每个控制器使用双端口的高速交换子卡连接高速网络交换模块。
进一步地,硬件系统还包括:存储设备,该存储设备是磁盘簇JBOD。
进一步地,磁盘阵列包括控制器检测模块、故障检测模块、故障定位模块和故障恢复模块;软件系统支持故障检测和恢复,具体为:控制器检测模块周期性发送和接收各个控制器的心跳消息,并将心跳信号传递给故障检测模块;当故障检测模块检测不到周期性心跳信号时,向故障定位模块报告异常事件,故障定位模块根据异常信息定位故障原因;启动冗余切换策略,切换服务;当故障恢复模块检测到控制器上线信号时,获取故障恢复策略进行故障恢复。
进一步地,软件系统支持数据镜像,具体为:在对块设备的操作中进行远程备份,以并行的操作方式写数据到两个相同的逻辑卷;读数据时,读取最先相应服务的逻辑卷;若其中的一个逻辑卷出现故障时,切换到另一逻辑卷上。
进一步地,软件系统支持缓存冗余,具体为:当进行缓存冗余时,缓存管理可以通过远程直接数据存取RDMA进行数据的缓存镜像;数据在控制器之间存在副本,如果一控制器故障后,其他控制器上的缓存数据写入存储设备中。
进一步地,软件系统支持RAID容错,具体为:对磁盘阵列进行RAID容错;增加热备盘,在RAID降级时替换故障的磁盘。
与现有技术相比,本发明包括:磁盘阵列的硬件系统,该硬件系统中的硬件包括主设备和备份的从设备,如果发生故障,触发故障处理流程替换故障的硬件;运行在磁盘阵列的硬件系统上的软件系统,该软件系统支持故障检测和恢复、数据镜像、缓存冗余和磁盘阵列RAID容错。本发明一方面,硬件进行备份,如果发生故障,可以触发故障处理流程替换故障的硬件,从而提高系统的可靠性;另一方面,软件支持数据镜像,缓存冗余和RAID容错,确保了磁盘阵列的稳定可靠运行,数据的一致性完整,提高了整个存储系统的高可用性。
附图说明
图1是本发明磁盘阵列的硬件架构示意图。
图2是本发明磁盘阵列的软件架构示意图。
图3是本发明磁盘阵列缓存冗余的架构示意图。
具体实施方式
下面结合附图对本发明进行进一步的详细说明。通过足够详细的描述这些实施示例,使得本领域技术人员能够实践本发明。在不脱离本发明的主旨和范围的情况下,可以对实施做出逻辑的、实现的和其他的改变。
图1是本发明磁盘阵列的硬件架构示意图。
用户设备可以通过存储区网络(SAN,Storage Area Network)和磁盘阵列通信。磁盘阵列中包括多个硬件部件,如电源、风扇、控制器、主机适配器、控制器管理模块等,磁盘阵列的硬件系统中包含有主设备和备份的从设备,利用冗余的资源防止或消除故障。如果发生故障,可以触发故障处理流程,自动替换故障的硬件,继续维持系统正常工作,从而提高系统的可靠性。
相互冗余的至少两个高速网络交换模块连接磁盘阵列中的每个控制器,每个控制器使用双端口的高速交换子卡连接高速网络交换模块,从而可保证了多控制器之间数据信息交换备份,多控制器之间的远程访问,多控制器间的冗余作用。
磁盘阵列的存储设备可以是磁盘簇(JBOD,Just a Bunch Of Disks)。
图2是本发明磁盘阵列的软件架构示意图。
磁盘阵列包括控制器检测模块、故障检测模块、故障定位模块和故障恢复模块。磁盘阵列中控制器故障检测和故障恢复具体为:控制器检测模块周期性发送和接收各个控制器的心跳消息,并将心跳信号传递给故障检测模块;当故障检测模块检测不到周期性心跳信号时,就向故障定位模块报告异常事件,故障定位模块根据异常信息定位故障原因;启动冗余切换策略,切换服务;当故障恢复模块检测到控制器上线信号,获取故障恢复策略及相关信息进行故障恢复,从而保证了阵列的可靠性服务。
在处理数据读写请求时,提供多协议支持,此外数据层还提供了数据镜像、缓存冗余和RAID容错等数据恢复措施,在进行缓存冗余时,采用多重路径I/O(MPIO,Multi-Path Input/Output),其中:
数据镜像具体为:在对块设备的操作中进行远程备份,以并行的操作方式写数据到两个相同的逻辑卷;读数据时,读取最先相应服务的逻辑卷;若其中的一个逻辑卷出现故障时,切换到另一逻辑卷上,从而动态地保证系统工作的可靠性,和数据的完整性;
缓存冗余具体为:可参考图3,缓存冗余是在至少两台存储控制器之间实时进行缓存镜像;当进行缓存冗余时,缓存管理可以通过远程直接数据存取(RDMA,Remote Direct Memory Access)进行数据的缓存镜像;由于数据在两台控制器之间存在副本,使得单台控制器故障后,另一台控制器上的缓存数据会立即写入后端存储设备中,从而实现了缓存数据的高可用性;
RAID容错具体为:为了确保磁盘的故障处理可靠性,磁盘阵列采用RAID容错技术,防止单个磁盘故障导致的数据丢失。此外,还可以增加热备盘,在RAID降级时自动替换出错磁盘,使RAID进入修复状态。可通过发送邮件、短信等报警方式通知用户及时取出故障磁盘并加入新的热备盘。
本发明一方面,硬件进行备份,如果发生故障,可以触发故障处理流程替换故障的硬件,从而提高系统的可靠性;另一方面,软件支持数据镜像,缓存冗余和RAID容错,确保了阵列的稳定可靠运行,数据的一致性完整,提高了整个存储系统的高可用性。
应当理解,虽然本说明书根据实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用于限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (7)

1.一种磁盘阵列的高可用系统,其特征在于,包括:
磁盘阵列的硬件系统,所述硬件系统中的硬件包括主设备和备份的从设备,如果发生故障,触发故障处理流程替换故障的硬件;
运行在磁盘阵列的硬件系统上的软件系统,所述软件系统支持故障检测和恢复、数据镜像、缓存冗余和磁盘阵列RAID容错。
2.根据权利要求1所述的磁盘阵列的高可用系统,其特征在于,所述硬件系统,还包括:相互冗余的至少两个高速网络交换模块连接磁盘阵列中的每个控制器,每个控制器使用双端口的高速交换子卡连接高速网络交换模块。
3.根据权利要求1或2所述的磁盘阵列的高可用系统,其特征在于,所述硬件系统,还包括:存储设备,所述存储设备是磁盘簇JBOD。
4.根据权利要求1所述的磁盘阵列的高可用系统,其特征在于,所述磁盘阵列包括控制器检测模块、故障检测模块、故障定位模块和故障恢复模块;
所述软件系统支持故障检测和恢复,具体为:所述控制器检测模块周期性发送和接收各个控制器的心跳消息,并将心跳信号传递给所述故障检测模块;当所述故障检测模块检测不到周期性心跳信号时,向所述故障定位模块报告异常事件,所述故障定位模块根据异常信息定位故障原因;启动冗余切换策略,切换服务;当所述故障恢复模块检测到控制器上线信号时,获取故障恢复策略进行故障恢复。
5.根据权利要求1所述的磁盘阵列的高可用系统,其特征在于,所述软件系统支持数据镜像,具体为:在对块设备的操作中进行远程备份,以并行的操作方式写数据到两个相同的逻辑卷;读数据时,读取最先相应服务的逻辑卷;若其中的一个逻辑卷出现故障时,切换到另一逻辑卷上。
6.根据权利要求3所述的磁盘阵列的高可用系统,其特征在于,所述软件系统支持缓存冗余,具体为:当进行缓存冗余时,缓存管理可以通过远程直接数据存取RDMA进行数据的缓存镜像;数据在控制器之间存在副本,如果一控制器故障后,其他控制器上的缓存数据写入存储设备中。
7.根据权利要求1所述的磁盘阵列的高可用系统,其特征在于,所述软件系统支持RAID容错,具体为:对磁盘阵列进行RAID容错;增加热备盘,在RAID降级时替换故障的磁盘。
CN201410528003.2A 2014-10-09 2014-10-09 磁盘阵列的高可用系统 Active CN104268038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410528003.2A CN104268038B (zh) 2014-10-09 2014-10-09 磁盘阵列的高可用系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410528003.2A CN104268038B (zh) 2014-10-09 2014-10-09 磁盘阵列的高可用系统

Publications (2)

Publication Number Publication Date
CN104268038A true CN104268038A (zh) 2015-01-07
CN104268038B CN104268038B (zh) 2017-03-08

Family

ID=52159561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410528003.2A Active CN104268038B (zh) 2014-10-09 2014-10-09 磁盘阵列的高可用系统

Country Status (1)

Country Link
CN (1) CN104268038B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018014567A1 (zh) * 2016-07-22 2018-01-25 平安科技(深圳)有限公司 一种提高虚拟机性能的方法、终端、设备及计算机可读存储介质
US10474551B2 (en) 2017-06-30 2019-11-12 Wipro Limited Method and system for recovering data from storage systems
CN110837444A (zh) * 2019-09-30 2020-02-25 华为技术有限公司 一种存储器故障处理方法及装置
CN111538613A (zh) * 2020-04-28 2020-08-14 浙江大华技术股份有限公司 一种集群系统异常恢复处理方法及装置
CN111857555A (zh) * 2019-04-30 2020-10-30 伊姆西Ip控股有限责任公司 避免磁盘阵列的故障事件的方法、设备和程序产品
CN116055752A (zh) * 2022-12-23 2023-05-02 联通(广东)产业互联网有限公司 视频联网共享平台、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210742A1 (en) * 2008-02-18 2009-08-20 Dell Products L.P. Methods, systems and media for data recovery using global parity for multiple independent RAID levels
CN101523353A (zh) * 2006-09-19 2009-09-02 Lsi罗吉克 在存在全局热备用磁盘的情况下用于故障驱动器的优化重建和向回复制的方法
CN103136075A (zh) * 2011-12-05 2013-06-05 巴法络股份有限公司 磁盘系统、数据保存装置以及磁盘设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101523353A (zh) * 2006-09-19 2009-09-02 Lsi罗吉克 在存在全局热备用磁盘的情况下用于故障驱动器的优化重建和向回复制的方法
US20090210742A1 (en) * 2008-02-18 2009-08-20 Dell Products L.P. Methods, systems and media for data recovery using global parity for multiple independent RAID levels
CN103136075A (zh) * 2011-12-05 2013-06-05 巴法络股份有限公司 磁盘系统、数据保存装置以及磁盘设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
颜军: "磁盘阵列高可靠应用技巧", 《微电脑世界》, 10 May 2004 (2004-05-10), pages 91 - 92 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018014567A1 (zh) * 2016-07-22 2018-01-25 平安科技(深圳)有限公司 一种提高虚拟机性能的方法、终端、设备及计算机可读存储介质
US10509710B2 (en) 2016-07-22 2019-12-17 Ping An Technology (Shenzhen) Co., Ltd. Method, terminal, device and computer readable storage medium for improving the performance of virtual machine
US10474551B2 (en) 2017-06-30 2019-11-12 Wipro Limited Method and system for recovering data from storage systems
CN111857555A (zh) * 2019-04-30 2020-10-30 伊姆西Ip控股有限责任公司 避免磁盘阵列的故障事件的方法、设备和程序产品
CN110837444A (zh) * 2019-09-30 2020-02-25 华为技术有限公司 一种存储器故障处理方法及装置
CN110837444B (zh) * 2019-09-30 2022-10-18 超聚变数字技术有限公司 一种存储器故障处理方法及装置
CN111538613A (zh) * 2020-04-28 2020-08-14 浙江大华技术股份有限公司 一种集群系统异常恢复处理方法及装置
CN111538613B (zh) * 2020-04-28 2023-06-13 浙江大华技术股份有限公司 一种集群系统异常恢复处理方法及装置
CN116055752A (zh) * 2022-12-23 2023-05-02 联通(广东)产业互联网有限公司 视频联网共享平台、设备及存储介质

Also Published As

Publication number Publication date
CN104268038B (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN108696569B (zh) 在NVMe-oF以太网SSD中提供数据复制的系统和方法
CN104268038A (zh) 磁盘阵列的高可用系统
US8086895B2 (en) Management method and system for managing replication by taking into account cluster storage accessibility a host computer
US9477565B2 (en) Data access with tolerance of disk fault
WO2012075845A1 (zh) 分布式文件系统
WO2018103533A1 (zh) 一种故障处理的方法、装置和设备
CN101635638A (zh) 一种容灾系统及其容灾方法
KR20180020877A (ko) 솔리드 스테이트 드라이브 및 그것을 포함하는 스토리지 시스템
US11409471B2 (en) Method and apparatus for performing data access management of all flash array server
US9342418B2 (en) Storage system, storage control device and data transfer method
JP4144549B2 (ja) データ保存システムおよび該システムの制御方法
JPH09269871A (ja) ディスクアレイ装置におけるデータ再冗長化方式
WO2021088367A1 (zh) 数据恢复方法及相关设备
CN110674539B (zh) 一种硬盘保护设备、方法及系统
EP3167372B1 (en) Methods for facilitating high availability storage services and corresponding devices
JP6335336B2 (ja) ストレージシステムおよびその制御方法
US9542273B2 (en) Storage control apparatus, storage control system, and storage control method for failure detection and configuration of cascaded storage cabinets
JP2006114064A (ja) 記憶サブシステム
JP2016212506A (ja) 情報処理システム、制御装置および制御プログラム
US11675673B2 (en) System and method for promoting fractured volumes
JP2005122763A (ja) 記憶装置
US20140149787A1 (en) Method and system for copyback completion with a failed drive
CN114089923A (zh) 一种双活存储系统及其数据处理方法
US10248511B2 (en) Storage system having multiple local and remote volumes and multiple journal volumes using dummy journals for sequence control
JP2016143248A (ja) ストレージ制御装置及びストレージ制御プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant