CN107590032A - 存储集群故障转移的方法及存储集群系统 - Google Patents

存储集群故障转移的方法及存储集群系统 Download PDF

Info

Publication number
CN107590032A
CN107590032A CN201710796347.5A CN201710796347A CN107590032A CN 107590032 A CN107590032 A CN 107590032A CN 201710796347 A CN201710796347 A CN 201710796347A CN 107590032 A CN107590032 A CN 107590032A
Authority
CN
China
Prior art keywords
storage device
memory
storage
connectivity port
port
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710796347.5A
Other languages
English (en)
Inventor
刘兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710796347.5A priority Critical patent/CN107590032A/zh
Publication of CN107590032A publication Critical patent/CN107590032A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种存储集群故障转移的方法及存储集群系统,包括:检测第一存储设备是否故障;若是,则利用所述第一存储设备的连接端口的标识,激活第二存储设备的连接端口,以便业务服务器通过所述第二存储设备所在的存储链路对所述第二存储设备的业务数据进行访问,所述第二存储设备的连接端口与所述业务服务器发送I/O请求的端口唯一对应,所述第二存储设备的业务数据是在所述第一存储设备运行时,将所述第一存储设备的业务数据实时同步至所述第二存储设备的。本发明所提供的方法及系统,有效缩短了存储集群实现故障转移所需要的时间。

Description

存储集群故障转移的方法及存储集群系统
技术领域
本发明涉及计算机电子领域,特别是涉及一种存储集群故障转移的方法及存储集群系统。
背景技术
随着计算机电子领域的不断发展,人们对存储系统的要求不断提高。数据对于任何公司来说,都是最重要的资产之一,因此存储系统在所有企业的信息技术基础设施中发挥着至关重要的作用。信息技术管理员需要确保可连续访问关键任务数据,从而确保即使发生任何系统或站点故障以及意外或计划性断电时的全天候业务连续性。
业务连续性是指企业有应对风险、自动调整和快速反应的能力,以保证企业业务的连续运转。业务连续性计划是一套基于业务运行规律的管理要求和规章流程,使一个组织在突发事件面前能够迅速做出反应,以确保关键业务功能可以持续,而不造成业务中断或业务流程本质的改变。
业务连续性计划基于业务连续性计划基于3R基本目标:RLO(恢复水平目标)、RTO(恢复时间目标)和RPO(恢复点目标)。RLO(恢复水平目标)为恢复数据的粒度水平;RTO(恢复时间目标)为从数据丢失事件中恢复服务所需的时间的指标;RPO(恢复点目标)为恢复期间存在丢失风险的数据量指标。恢复水平目标RLO根据业务应用的优先级进行定义—定义了必须启用恢复数据使用的粒度—即,是否需要恢复整个数据库、网络应用程序、站点集合、站点、列表或文档库,还是仅恢复一个项目。基于RLO,定义恢复点目标RPO和恢复时间目标RTO的可接受值。
在现有技术中,当存储系统的某个节点发生故障时,系统会重新选择一个完好的节点连接,使系统重新运行,但是,在实际应用中,在重新选择完好的节点进行连接占用较多时间,严重的情况下,可能导致业务不连续,系统运行不稳定不安全。
综上所述可以看出,如何减少存储故障转移时间是目前有待解决的问题。
发明内容
本发明的目的是提供一种存储集群故障转移的方法及存储集群系统,以解决现有技术中存储故障转移时间过长的问题。
为解决上述技术问题,本发明提供一种存储集群故障转移的方法,包括:检测第一存储设备是否故障;若是,则利用所述第一存储设备的连接端口的标识,激活第二存储设备的连接端口,以便业务服务器通过所述第二存储设备所在的存储链路对所述第二存储设备的业务数据进行访问,所述第二存储设备的连接端口与所述业务服务器发送I/O请求的端口唯一对应,所述第二存储设备的业务数据是在所述第一存储设备运行时,将所述第一存储设备的业务数据实时同步至所述第二存储设备的。
优选地,所述第一存储设备的连接端口与所述业务服务器发送I/O请求的端口唯一对应。
优选地,所述存储控制器检测第一存储设备是否故障具体包括:所述业务服务器向所述第一存储设备发送I/O请求,所述第一存储设备的连接端口无响应,则所述第一存储设备故障。。
优选地,将所述第一存储设备的业务数据实时同步至所述第二存储设备具体包括:存储控制器通过镜像同步复制所述第一存储设备的业务数据至所述第二存储设备。。
优选地,所述存储控制器检测到所述第一存储设备故障时,发送故障信息至管理服务器,以便所述管理服务器挂起远程镜像会话,将所述第二存储设备的镜像业务数据成为实际业务数据后,执行后续所述存储控制器利用所述第一存储设备的连接端口的标识激活第二存储设备的连接端口的操作。
本发明还提供了一种存储集群系统,包括:第一存储器,第二存储器;
业务服务器,用于向所述第一存储器或所述第二存储器发送I/O请求,所述第二存储器的连接端口与所述业务服务器发送I/O请求的端口唯一对应;
存储控制器,用于检测所述第一存储器是否故障,在所述第一存储器故障时,利用所述第一存储器的连接端口的标识激活所述第二存储器的连接端口,所述第一存储器运行时,将所述第一存储器的业务数据实时同步至所述第二存储器。
优选地,所述第一存储器的连接端口与所述业务服务器发送I/O请求的端口唯一对应。
优选地,所述业务服务器向所述第一存储器发送I/O请求,所述第一存储器的连接端口无响应,则所述第一存储器故障。
优选地,所述存储控制器以镜像同步复制的方式将所述第一存储器的业务数据实时同步至所述第二存储器。
优选地,还包括:管理服务器,用于接收所述存储控制器发送的故障信息后,挂起远程镜像会话,将所述第二存储设备的镜像业务数据成为实际业务数据。
本发明所提供的存储集群故障转移的方法及存储集群系统,在检测到第一存储器故障时,利用所述第一存储设备的连接端口的标识,激活第二存储设备的连接端口,以便业务服务器通过所述第二存储设备所在的存储链路对所述第二存储设备的业务数据进行访问。
在上述方法及系统中,所述第二存储设备的连接端口与所述业务服务器发送I/O请求的端口唯一对应,所以在进行存储故障转移时,业务服务器不需要对第二存储设备的连接端口进行查找,节省了时间,进而缩短了存储集群实现故障转移所需要的时间。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的存储集群故障转移的方法的第一种具体实施例的流程图;
图2为第一存储设备运行时存储集群具体结构示意图;
图3为第一存储设备故障时存储集群具体结构示意图;
图4为本发明所提供的存储集群故障转移的方法的第二具体实施例的流程图;
图5为本发明实施例提供的存储集群系统的结构框图。
具体实施方式
本发明的核心是提供一种存储集群故障转移的方法及存储集群系统,有效缩短了存储集群实现故障转移所需要的时间。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1、图2和图3,图1为本发明所提供的存储集群故障转移的方法的第一种具体实施例的流程图;图2为第一存储设备运行时存储集群具体结构示意图;图3为第一存储设备故障时存储集群具体结构示意图;第一种具体实施例包括以下步骤:
步骤S101:检测第一存储设备是否故障;
步骤S102:若是,则利用所述第一存储设备的连接端口的标识,激活第二存储设备的连接端口,以便业务服务器通过所述第二存储设备所在的存储链路对所述第二存储设备的业务数据进行访问,所述第二存储设备的连接端口与所述业务服务器发送I/O请求的端口唯一对应,所述第二存储设备的业务数据是在所述第一存储设备运行时,将所述第一存储设备的业务数据实时同步至所述第二存储设备的。
所述业务数据可以为LUN(数据卷)、ID/WWN(使用设备的ID)等。
如图2所示,当第一存储设备运行时,业务数据会通过同步传输到第二存储设备,存储控制器不断检查第一存储设备的运行状态。如图3所示,当存储控制器检测到第一存储设备故障时,可以利用所述第一存储设备的连接端口的标识,激活第二存储设备的连接端口,以便业务服务器通过所述第二存储设备所在的存储链路对所述第二存储设备的业务数据进行访问。
在本具体实施例中,在第一存储设备故障时,系统可以自动切换至第二存储设备所在的链路,无需查找与业务服务器发送I/O请求的端口相对应的存储器的连接端口,节省了故障转移的时间,确保了业务的连续性。除此之外,业务数据一致性由存储系统管理,无需专门的数据卷管理软件,因此释放服务器资源,并且以一致的数据集安全地同步至第二存储设备。在本具体实施例中,第一存储设备的连接端口的标识共享至第二存储设备的连接端口,因此对于业务服务器来讲,后台只有一台存储设备,故障转移过程透明,集群管理简单。故障转移后的访问路径、驱动器字母或安装点信息无变化。仍可从业务应用程序继续透明地访问数据卷。无需或者不会产生有关数据卷重新分配或重新安装的工作负荷。
请参考图4,图4为本发明所提供的存储集群故障转移的方法的第二具体实施例的流程图;
在第一实施例的基础上,本具体实施例中,将第一存储设备作为主存储器,主存储器的连接端口为主CA端口,将主存储器所在的链路作为主链路,将第二存储设备作为备用存储器,备用存储器的连接端口为备用CA端口,将备用存储器所在的链路作为备用链路;存储控制器以镜像同步复制的方式将主存储器的业务数据实时同步至备用存储器。
在上述第一实施例的基础上,还增加了管理服务器,存储控制器检测到主存储器故障时,发送故障信息至管理服务器,以便所述管理服务器挂起远程镜像会话,将所述备用存储器的镜像业务数据成为实际业务数据后,执行后续所述存储控制器利用所述主存储器的连接端口的标识激活备用存储器的连接端口的操作。
第二种具体实施例包括以下步骤:
步骤S401:业务服务器向主存储器发送I/O请求;
所述主存储器的连接端口与所述业务服务器发送I/O请求的端口唯一对应。
步骤S402:主CA端口无响应,存储控制器检测到主存储器故障,并将故障信息发送至管理服务器;
步骤S403:在超出预设时间后,业务服务器重新发送I/O请求;
所述预设时间为业务服务器发送一次I/O请求后,设置的等待存储设备响应的时间。
步骤S404:管理服务器挂起远程镜像会话,将备用存储器上的镜像业务数据更新为实际业务数据;
步骤S405:存储控制器采用主CA端口的标识,激活备用链路上的备用CA端口,所述备用CA端口与所述业务服务器发送I/O请求的端口唯一对应;
步骤S406:在超出业务服务器重新发送I/O请求的预设时间前,业务服务器发送的I/O请求经备用链路进行处理。
在本具体实施例中,存储集群可以自动完成故障转移,整个故障转移的时间在10秒之内,足以确保大多数系统运行顺畅。
实际应用中,存储集群可部署到建筑物、大学和地铁环境中。对于区域性或全球业务连续性和灾难恢复场景,可采用异步远程镜像功能部署存储,从而增加RPO和RTO,并且不采用自动、透明的故障转移。对于手动故障转移、故障转移测试或故障转移后恢复,还可从用户界面触发故障转移操作,简单且安全。
下面对本发明实施例提供的存储集群系统进行介绍,下文描述的存储集群系统与上文描述的存储集群故障转移的方法可相互对应参照。
图5为本发明实施例提供的存储集群系统的结构框图,参照图5所示,存储集群系统可以包括:
第一存储器100,第二存储器200;
业务服务器300,用于向所述第一存储器或所述第二存储器发送I/O请求,所述第二存储器的连接端口与所述业务服务器发送I/O请求的端口唯一对应;
存储控制器400,用于检测所述第一存储器是否故障,在所述第一存储器故障时,利用所述第一存储器的连接端口的标识激活所述第二存储器的连接端口,所述第一存储器运行时,将所述第一存储器的业务数据实时同步至所述第二存储器。
本系统具体实施例,还可以包括:
管理服务器500,用于接收所述存储控制器发送的故障信息后,挂起远程镜像会话,将所述第二存储设备的镜像业务数据成为实际业务数据。
所述第一存储器的连接端口与所述业务服务器发送I/O请求的端口唯一对应。所述存储控制器以镜像同步复制的方式将所述第一存储器的业务数据实时同步至所述第二存储器。
本发明所提供的存储集群系统可以为所有应用提供零停机、零数据丢失的连续可用性,消除了辅助存储虚拟化设备或实例等传统解决方案的成本或复杂性,消除因存储或站点故障导致的昂贵停机或数据丢失、意外和计划性停机时复制;不论操作系统如何,均为应用提供连续服务;通过直观的管理界面提供简单的设置。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的存储集群故障转移的方法以及存储集群系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种存储集群故障转移的方法,其特征在于,包括:
检测第一存储设备是否故障;
若是,则利用所述第一存储设备的连接端口的标识,激活第二存储设备的连接端口,以便业务服务器通过所述第二存储设备所在的存储链路对所述第二存储设备的业务数据进行访问,所述第二存储设备的连接端口与所述业务服务器发送I/O请求的端口唯一对应,所述第二存储设备的业务数据是在所述第一存储设备运行时,将所述第一存储设备的业务数据实时同步至所述第二存储设备的。
2.如权利要求1所述的方法,其特征在于,还包括所述第一存储设备的连接端口与所述业务服务器发送I/O请求的端口唯一对应。
3.如权利要求2所述的方法,其特征在于,所述检测第一存储设备是否故障包括:所述业务服务器向所述第一存储设备发送I/O请求,所述第一存储设备的连接端口无响应,则判定所述第一存储设备故障。
4.如权利要求1所述的方法,其特征在于,将所述第一存储设备的业务数据实时同步至所述第二存储设备包括:存储控制器通过镜像同步复制所述第一存储设备的业务数据至所述第二存储设备。
5.如权利要求1至4任一项所述的方法,其特征在于,存储控制器检测到所述第一存储器故障时,进一步包括发送故障信息至管理服务器,以便所述管理服务器挂起远程镜像会话,将所述第二存储设备的镜像业务数据成为实际业务数据后,执行后续所述存储控制器利用所述第一存储设备的连接端口的标识激活第二存储设备的连接端口的操作。
6.一种存储集群系统,其特征在于,包括:
第一存储器,第二存储器;
业务服务器,用于向所述第一存储器或所述第二存储器发送I/O请求,所述第二存储器的连接端口与所述业务服务器发送I/O请求的端口唯一对应;
存储控制器,用于检测所述第一存储器是否故障,在所述第一存储器故障时,利用所述第一存储器的连接端口的标识激活所述第二存储器的连接端口,所述第一存储器运行时,将所述第一存储器的业务数据实时同步至所述第二存储器。
7.如权利要求6所述的系统,其特征在于,所述第一存储器的连接端口与所述业务服务器发送I/O请求的端口唯一对应。
8.如权利要求7所述的系统,其特征在于,所述业务服务器用于:向所述第一存储器发送I/O请求,所述第一存储器的连接端口无响应,则所述第一存储器故障。
9.如权利要求6所述的系统,其特征在于,所述存储控制器以镜像同步复制的方式将所述第一存储器的业务数据实时同步至所述第二存储器。
10.如权利要求6至9任一项所述的系统,其特征在于,进一步包括:管理服务器,用于接收所述存储控制器发送的故障信息后,挂起远程镜像会话,将所述第二存储设备的镜像业务数据成为实际业务数据。
CN201710796347.5A 2017-09-06 2017-09-06 存储集群故障转移的方法及存储集群系统 Pending CN107590032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710796347.5A CN107590032A (zh) 2017-09-06 2017-09-06 存储集群故障转移的方法及存储集群系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710796347.5A CN107590032A (zh) 2017-09-06 2017-09-06 存储集群故障转移的方法及存储集群系统

Publications (1)

Publication Number Publication Date
CN107590032A true CN107590032A (zh) 2018-01-16

Family

ID=61051214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710796347.5A Pending CN107590032A (zh) 2017-09-06 2017-09-06 存储集群故障转移的方法及存储集群系统

Country Status (1)

Country Link
CN (1) CN107590032A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737613A (zh) * 2019-10-18 2020-01-31 苏州浪潮智能科技有限公司 一种存储控制器节点通信方法、装置、设备及存储介质
CN117472297A (zh) * 2023-12-28 2024-01-30 深圳万物安全科技有限公司 录像文件的保存时间延长方法、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629906A (zh) * 2012-03-30 2012-08-08 浪潮电子信息产业股份有限公司 一种将集群管理节点做双机实现提高集群业务可用性的设计办法
CN102810111A (zh) * 2012-05-07 2012-12-05 互动在线(北京)科技有限公司 一种保持Oracle数据库服务高可用的实现方法和系统
US20140122816A1 (en) * 2012-10-29 2014-05-01 International Business Machines Corporation Switching between mirrored volumes
CN104679604A (zh) * 2015-02-12 2015-06-03 大唐移动通信设备有限公司 一种主节点和备节点切换的方法和装置
CN104798349A (zh) * 2013-01-30 2015-07-22 惠普发展公司,有限责任合伙企业 响应于端口故障的故障转移
CN105554130A (zh) * 2015-12-18 2016-05-04 深圳中兴网信科技有限公司 基于分布式存储系统的NameNode切换方法和切换装置
CN106357787A (zh) * 2016-09-30 2017-01-25 郑州云海信息技术有限公司 一种存储容灾控制系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629906A (zh) * 2012-03-30 2012-08-08 浪潮电子信息产业股份有限公司 一种将集群管理节点做双机实现提高集群业务可用性的设计办法
CN102810111A (zh) * 2012-05-07 2012-12-05 互动在线(北京)科技有限公司 一种保持Oracle数据库服务高可用的实现方法和系统
US20140122816A1 (en) * 2012-10-29 2014-05-01 International Business Machines Corporation Switching between mirrored volumes
CN104798349A (zh) * 2013-01-30 2015-07-22 惠普发展公司,有限责任合伙企业 响应于端口故障的故障转移
CN104679604A (zh) * 2015-02-12 2015-06-03 大唐移动通信设备有限公司 一种主节点和备节点切换的方法和装置
CN105554130A (zh) * 2015-12-18 2016-05-04 深圳中兴网信科技有限公司 基于分布式存储系统的NameNode切换方法和切换装置
CN106357787A (zh) * 2016-09-30 2017-01-25 郑州云海信息技术有限公司 一种存储容灾控制系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737613A (zh) * 2019-10-18 2020-01-31 苏州浪潮智能科技有限公司 一种存储控制器节点通信方法、装置、设备及存储介质
CN117472297A (zh) * 2023-12-28 2024-01-30 深圳万物安全科技有限公司 录像文件的保存时间延长方法、设备及存储介质
CN117472297B (zh) * 2023-12-28 2024-04-16 深圳万物安全科技有限公司 录像文件的保存时间延长方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107391294B (zh) 一种ipsan容灾系统的建立方法及装置
EP2281240B1 (en) Maintaining data integrity in data servers across data centers
US9842033B2 (en) Storage cluster failure detection
CN103199972B (zh) 基于soa、rs485总线实现的双机热备份切换方法及热备份系统
US9753954B2 (en) Data node fencing in a distributed file system
CN103077242B (zh) 一种实现数据库服务器双机热备的方法
CN106357787A (zh) 一种存储容灾控制系统
CN104158693B (zh) 数据服务的容灾备份方法和系统
CN109101364B (zh) 双中心双活数据处理系统和方法
CN103840961A (zh) 双机热备份系统
CN102394914A (zh) 集群脑裂处理方法和装置
CN104023246B (zh) 一种视频数据私有云存储系统和视频数据私有云存储方法
CN111327467A (zh) 一种服务器系统及其容灾备份方法和相关设备
CN106919473A (zh) 一种数据灾备系统及业务处理方法
WO2016177231A1 (zh) 基于双主控的主备倒换方法及装置
CN105812161B (zh) 一种控制器故障备份方法和系统
CN105389231A (zh) 一种数据库双机备份方法及系统
CN109117310A (zh) 实现数据备份的容灾系统、方法及装置
CN112583648A (zh) 一种基于dns的智能服务故障处理方法
CN110209526A (zh) 一种存储层同步系统、及存储介质
CN110348826A (zh) 异地多活容灾方法、系统、设备及可读存储介质
CN102457400B (zh) 一种防止磁盘镜像资源发生脑裂的方法
CN111966467A (zh) 基于kubernetes容器平台灾备的方法及装置
CN107357800A (zh) 一种数据库高可用零丢失解决方法
CN106612314A (zh) 基于虚拟机实现软件定义存储的系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180116

RJ01 Rejection of invention patent application after publication