CN105426275A

CN105426275A - 双活集群系统中容灾的方法及装置

Info

Publication number: CN105426275A
Application number: CN201510727389.4A
Authority: CN
Inventors: 陈怡佳; 刘辉
Original assignee: Chengdu Huawei Technology Co Ltd
Current assignee: Chengdu Huawei Technology Co Ltd
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2016-03-23
Anticipated expiration: 2035-10-30
Also published as: US10671498B2; US20180165168A1; EP3285168A4; CN105426275B; EP3285168A1; US11194679B2; US20200233762A1; EP3285168B1; US20220075698A1; US11809291B2; WO2017071274A1

Abstract

本发明实施例公开了一种双活集群系统中容灾的方法及装置，涉及通信技术领域，能够解决现有技术中存储阵列在运行时存在不可控因数，导致存储阵列B无法及时停止业务，从而导致I/O隔离问题。本发明用于主机集群和至少一对存储阵列组成的系统，主机集群包括仲裁主机，仲裁主机中包括仲裁单元，仲裁主机为具有仲裁功能的应用主机，一对存储阵列包括第一存储阵列和第二存储阵列，仲裁主机接收仲裁请求；暂停向第一存储阵列和第二存储阵列下发业务；根据逻辑判断确定第一存储阵列和第二存储阵列中仲裁获胜存储阵列和仲裁失败存储阵列；停止与仲裁失败存储阵列的业务；向仲裁获胜存储阵列发送仲裁获胜信息；恢复与仲裁获胜存储阵列的下发业务。

Description

双活集群系统中容灾的方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种双活集群系统中容灾的方法及装置。

背景技术

AA(Active-Active，双活)主要应用于双活集群系统中数据的容灾备份，双活集群系统包括主机集群、若干个存储阵列和仲裁服务器。以若干个存储阵列包括存储阵列A、存储阵列B为例，在双活集群系统正常运行时，主机集群可同时对存储阵列A、存储阵列B下发读写业务，当主机集群需要对存储阵列A下发写业务时，首先集群系统中主机向存储阵列A下发写数据，然后存储阵列A将下发数据同时写到存储阵列A和存储阵列B，在存储阵列A和存储阵列B的写数据均完成后，存储阵列A返回主机数据写完成，主机集群对存储阵列B的写数据过程与上述基本流程类似。当存储阵列A和存储阵列B脑裂，即存储阵列A和存储阵列B之间发生通信故障时，双活集群系统中的一个存储阵列可以自动接管业务，避免出现业务宕机时间和数据丢失的情况，例如，主机对存储阵列A下发数据，存储阵列A和存储阵列B之间通信故障，存储阵列A、存储阵列B会分别在检测到故障后向仲裁服务器发起仲裁请求，仲裁服务器根据逻辑判断确定由存储阵列A来接管业务，并响应存储阵列A和存储阵列B仲裁结果。虽然确定存储阵列A接管业务，但是主机对存储阵列A下发数据会由于存储阵列A和存储阵列B之间故障没有同步到存储阵列B，若存储阵列B在存储阵列A接管业务时尚未与主机断开连接，那么主机向存储阵列B读取到的数据将为错误的数据，这就会造成I/O(Input/Output，输入/输出)隔离fencing。现有技术中为保证存储阵列A和存储阵列B数据一致性，通过软件对存储阵列A和存储阵列B进行协定，要求存储阵列A在单边提供服务之前存储阵列B必须停止业务，例如，协定存储阵列A检测到存储阵列B无法通信时，需要10秒后才能接收业务，从而保证存储阵列A在单边提供服务之前存储阵列B已经停止业务。

现有技术中至少存在如下问题：现有技术中的方法对存储阵列A和存储阵列B有严格的时序要求，而存储阵列在实际运行时，会存在一些不可控的因数，例如，系统CPU过高、网络延迟等导致存储阵列B无法及时停止业务，从而导致时序混乱、存储阵列之间数据不一致，造成I/O隔离。

发明内容

本发明的实施例提供一种双活集群系统中容灾的方法及装置，能够解决现有技术中由于存储阵列在实际运行时存在的不可控因数，导致存储阵列B无法及时停止业务，从而导致时序混乱、存储阵列之间数据不一致，造成I/O隔离问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供一种双活集群系统中容灾的方法，用于主机集群和至少一对存储阵列组成的系统，所述主机集群包括仲裁主机，所述仲裁主机中包括仲裁单元，所述仲裁主机为具有仲裁功能的应用主机，所述至少一对存储阵列包括第一存储阵列和第二存储阵列，包括：

所述仲裁主机接收仲裁请求，所述仲裁请求为所述第一存储阵列或所述第二存储阵列检测到对端存储阵列故障时发送的；

所述仲裁主机暂停向所述第一存储阵列和所述第二存储阵列下发业务；

所述仲裁主机根据逻辑判断确定所述第一存储阵列和所述第二存储阵列中仲裁获胜存储阵列和仲裁失败存储阵列；

所述仲裁主机停止与所述仲裁失败存储阵列的业务；

所述仲裁主机向所述仲裁获胜存储阵列发送仲裁获胜信息，以便于所述仲裁获胜存储阵列将接收写数据方式由同步写本地和远端存储阵列方式变更为只写本地方式；

所述仲裁主机恢复与所述仲裁获胜存储阵列的下发业务。

结合第一方面，在第一方面的第一种实施方式中，所述主机集群还包括至少一个应用主机；所述仲裁主机接收到仲裁请求包括：

所述仲裁主机接收所述至少一个应用主机发送的仲裁请求，所述至少一个应用主机发送的仲裁请求为所述至少一个应用主机接收所述第一存储阵列或所述第二存储阵列发送的仲裁请求后转发的。

结合第一方面的第一种实施方式，在第一方面的第二种实施方式中，在所述仲裁主机向所述仲裁获胜存储阵列发送通知之前，所述方法还包括：

所述仲裁主机向所述至少一个应用主机发送第一指示，所述第一指示用于指示所述至少一个应用主机暂停向所述第一存储阵列和所述第二存储阵列下发业务；

所述仲裁主机接收所述至少一个应用主机响应信息，所述响应信息用于表示所述至少一个应用主机已经停止与所述仲裁失败存储阵列的业务；

在所述仲裁主机恢复与所述仲裁获胜存储阵列的下发业务之后，所述方法还包括：

所述仲裁主机向所述至少一个应用主机发送第二指示，所述第二指示用于指示所述至少一个应用主机与所述仲裁获胜存储阵列的下发业务。

结合第一方面，在第一方面的第三种实施方式中，在所述仲裁主机恢复所述主机集群与仲裁获胜存储阵列的下发业务之后，所述方法还包括：

接收所述仲裁失败存储阵列的业务恢复请求；

所述仲裁主机恢复所述仲裁失败存储阵列的下发业务。

结合第一方面的第三种实施方式，在第一方面的第四种实施方式中，所述主机集群还包括至少一个应用主机；所述接收所述仲裁失败存储阵列的业务恢复请求包括：

接收所述至少一个应用主机发送的业务恢复请求，所述至少一个应用主机发送的业务恢复请求为所述至少一个应用主机接收所述仲裁失败存储阵列发送的业务恢复请求后发送的。

结合第一方面的第五种实施方式，在第一方面的第六种实施方式中，在所述仲裁主机恢复所述仲裁失败存储阵列的下发业务之后，所述方法还包括：

所述仲裁主机向所述至少一个应用主机发送第三指示，所述第三指示用于指示所述至少一个应用主机恢复所述仲裁失败存储阵列的下发业务。

第二方面，本发明的实施例提供一种双活集群系统中容灾的装置，所述装置包括主机集群和至少一对存储阵列，所述主机集群包括仲裁主机，所述仲裁主机中包括仲裁单元，所述仲裁主机为具有仲裁功能的应用主机，所述至少一对存储阵列包括第一存储阵列和第二存储阵列，所述仲裁主机还包括：接收单元、暂停单元、确定单元、停止单元、发送单元和恢复单元；

所述接收单元用于接收仲裁请求，所述仲裁请求为所述第一存储阵列或所述第二存储阵列检测到对端存储阵列故障时发送的；

所述暂停单元用于暂停向所述第一存储阵列和所述第二存储阵列下发业务；

所述确定单元用于根据逻辑判断确定所述第一存储阵列和所述第二存储阵列中仲裁获胜存储阵列和仲裁失败存储阵列；

所述停止单元用于停止与所述仲裁失败存储阵列的业务；

所述发送单元用于向所述仲裁获胜存储阵列发送仲裁获胜信息，以便于所述仲裁获胜存储阵列将接收写数据方式由同步写本地和远端存储阵列方式变更为只写本地方式；

所述恢复单元用于恢复与所述仲裁获胜存储阵列的下发业务。

结合第二方面，在第二方面的第一种实施方式中，所述主机集群还包括至少一个应用主机；

所述接收单元具体用于接收所述至少一个应用主机发送的仲裁请求，所述至少一个应用主机发送的仲裁请求为所述至少一个应用主机接收所述第一存储阵列或所述第二存储阵列发送的仲裁请求后转发的。

结合第二方面的第一种实施方式，在第二方面的第二种实施方式中，所述发送单元还用于向所述至少一个应用主机发送第一指示，所述第一指示用于指示所述至少一个应用主机暂停向所述第一存储阵列和所述第二存储阵列下发业务；

所述接收单元还用于接收所述至少一个应用主机响应信息，所述响应信息用于表示所述至少一个应用主机已经停止向所述第二阵下发业务；

所述发送单元还用于向所述至少一个应用主机发送第二指示，所述第二指示用于指示所述至少一个应用主机与所述仲裁获胜存储阵列的下发业务。

结合第二方面，在第二方面的第三种实施方式中，所述接收单元还用于接收所述仲裁失败存储阵列的业务恢复请求；

所述恢复单元还用于恢复所述仲裁失败存储阵列的下发业务。

结合第二方面的第三种实施方式，在第二方面的第四种实施方式中，所述主机集群还包括至少一个应用主机；

所述接收单元具体用于接收所述至少一个应用主机发送的业务恢复请求，所述至少一个应用主机发送的业务恢复请求为所述至少一个应用主机接收所述仲裁失败存储阵列发送的业务恢复请求后发送的。

结合第二方面的第四种实施方式，在第二方面的第五种实施方式中，所述发送单元还用于向所述至少一个应用主机发送第三指示，所述第三指示用于指示所述至少一个应用主机恢复所述仲裁失败存储阵列的下发业务。

本发明实施例提供的一种双活集群系统中容灾的方法及装置，本发明实施例中，仲裁主机为具有仲裁功能的应用主机，仲裁主机中设置仲裁单元单元，可以完成现有技术中仲裁功能服务器的仲裁功能，当第一存储阵列和第二存储阵列检测到对端存储阵列故障时发送的时，会分别向仲裁主机发送仲裁请求，仲裁主机在接到仲裁请求后暂停向所述第一存储阵列和所述第二存储阵列下发业务，在仲裁主机确定仲裁结果后，停止与所述仲裁失败存储阵列的业务，并恢复与所述仲裁获胜存储阵列的下发业务，避免了仲裁或应用主机在第一存储阵列与第二存储阵列间发生通信故障没有确定仲裁结果前，向第一存储阵列或第二存储阵列下发业务数据确不能同步导致的数据不一致，避免了造成I/O隔离，同时本发明实施例执行过程对存储阵列A和存储阵列B有严格的时序要求，避免了存储阵列在实际运行时由于不可控的因数导致时序混乱、存储阵列之间数据不一致，造成I/O隔离。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明一实施例提供的架构示意图；

图2为本发明一实施例提供的方法流程图；

图3为本发明又一实施例提供的方法流程图；

图4为本发明又一实施例提供的装置结构示意图；

图5为本发明又一实施例提供的网络设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为使本发明技术方案的优点更加清楚，下面结合附图和实施例对本发明作详细说明。

本发明实施例适用于双活集群系统，系统包括主机集群和至少一对存储阵列，主机集群包括仲裁主机，仲裁主机为具有仲裁功能的应用主机，因仲裁主机中包括仲裁单元所以具有仲裁功能，例如，如图1所示，主机集群包括仲裁主机和至少一个应用主机，一对存储阵列包括第一存储阵列和第二存储阵列，主机集群中各主机(包括仲裁主机和应用主机)彼此之间可以进行通信，各主机分别可以与第一存储阵列和第二存储阵列连接，第一存储阵列和第二存储阵列连接，可以进行数据通信。主机集群还可以只包括仲裁主机，其通信方式与图1中的通信方式相同。

本发明一实施例提供一种双活集群系统中容灾的方法，如图2所示，所述方法包括：

101、仲裁主机接收仲裁请求。

其中，仲裁请求为所述第一存储阵列或所述第二存储阵列检测到对端存储阵列故障时发送的。

102、仲裁主机暂停向所述第一存储阵列和所述第二存储阵列下发业务。

103、仲裁主机根据逻辑判断确定所述第一存储阵列和所述第二存储阵列中仲裁获胜存储阵列和仲裁失败存储阵列。

104、仲裁主机停止与所述仲裁失败存储阵列的业务。

105、仲裁主机向所述仲裁获胜存储阵列发送仲裁获胜信息。

其中，仲裁主机向所述仲裁获胜存储阵列发送仲裁获胜信息，以便于仲裁获胜存储阵列将接收写数据方式由同步写本地和远端存储阵列方式变更为只写本地方式。写数据方式为同步写本地和远端存储阵列方式表示主机下发的写业务需要同步至第二存储阵列，写数据方式为只写本地状态表示主机下发的写业务只需要写入本地即可。

106、仲裁主机恢复与所述仲裁获胜存储阵列的下发业务。

需要说明的是，本发明实施例中仲裁主机可以在主机集群中选取一个应用主机作为仲裁主机，还可以在主机集群中添加一个仲裁主机。本发明实施例中仲裁主机还可以有两个或多个，一个作为正常运行时的仲裁主机，其他作为备用仲裁主机，当正常运行时的仲裁主机故障时，可以选取备用仲裁主机进行相应的操作。在主机集群中选取应用主机作为仲裁主机的方式可以为任意方式，在此不做限定。

需要说明的是，本发明实施例中可直接使用应用主机集群中的应用主机作为仲裁主机，不用额外配置仲裁服务器降低成本，部署更简单，减少故障域，避免现有技术中仲裁服务器单点故障的情况，提升系统可靠性，并且仲裁功能和主机合二为一，降低系统复杂度和维护成本，还可以避免现有技术中仲裁服务器和主机业务不在同一网络而导致的仲裁误判问题，组网更灵活。本发明实施例能够解决双活集群系统中第一、第二存储阵列由于阵列间的链路中断，导致两个存储阵列脑裂为两个独立运作的系统，而导致的两个独立的存储阵列可能短时间同时提供业务而引发的数据不一致问题。

本发明实施例中仲裁主机中设置仲裁单元单元，仲裁主机为具有仲裁功能的应用主机，可以完成现有技术中仲裁功能服务器的仲裁功能，当第一存储阵列和第二存储阵列检测到对端存储阵列故障时发送的时，会分别向仲裁主机发送仲裁请求，仲裁主机在接到仲裁请求后暂停向所述第一存储阵列和所述第二存储阵列下发业务，在仲裁主机确定仲裁结果后，停止与所述仲裁失败存储阵列的业务，并恢复与所述仲裁获胜存储阵列的下发业务，避免了仲裁或应用主机在第一存储阵列与第二存储阵列间发生通信故障没有确定仲裁结果前，向第一存储阵列或第二存储阵列下发业务数据确不能同步导致的数据不一致，避免了造成I/O隔离，同时本发明实施例执行过程对存储阵列A和存储阵列B有严格的时序要求，避免了存储阵列在实际运行时由于不可控的因数导致时序混乱、存储阵列之间数据不一致，造成I/O隔离。

本发明又一实施例提供一种双活集群系统中容灾的方法，如图3所示，所述方法包括：

201、第二存储阵列或第二存储阵列检测到对端存储阵列故障时，向仲裁主机发送仲裁请求。

其中，第二存储阵列或第二存储阵列发送的仲裁请求可以向主机集群中的仲裁主机发送，也可以向与其连接通信的其他主机发送，其他主机在接收到第一存储阵列发现和第二存储阵列发送的仲裁请求后，会将仲裁请求转发给仲裁主机。

202、仲裁主机暂停向第一存储阵列和第二存储阵列的下发业务，并指示其他应用主机暂停向第一存储阵列和第二存储阵列的下发业务。

其中，当主机集群只有仲裁主机时，仲裁主机同时会执行应用主机的功能，则不需要指示其他应用主机暂停向第一存储阵列和第二存储阵列的下发业务。

需要说明的是，本步骤可以避免主机集群中的具有应用主机功能的主机在此期间向第一存储阵列和第二存储阵列的下发业务导致的数据不一致问题。

203、仲裁主机根据逻辑判断确定第一存储阵列为仲裁获胜存储阵列，第二存储阵列中为仲裁失败存储阵列。

其中，仲裁主机根据逻辑判断确定第一存储阵列和第二存储阵列中仲裁获胜存储阵列和仲裁失败存储阵列，本发明实施例以第一存储阵列为仲裁获胜存储阵列，第二存储阵列中为仲裁失败存储阵列为例。仲裁主机进行逻辑判断的方法在此不做限定。

204、仲裁主机停止与第二存储阵列的业务，并指示其他应用主机停止与第二存储阵列的业务。

其中，本步骤中停止与第二存储阵列的业务可以为软件上停止和第二存储阵列业务，从而防止第二存储阵列在其与第一存储阵列之间故障时和具有应用主机功能的主机获得联系。当主机集群只有仲裁主机时，则不需要指示其他应用主机停止与第二存储阵列的业务。

205、仲裁主机接收其他应用主机的响应信息。

其中，响应信息用于表示其他应用主机已经停止与第二存储阵列的业务。

206、仲裁主机向第一存储阵列发送仲裁获胜信息。

其中，仲裁获胜信息表示第一存储阵列在第一存储阵列与第二存储阵列之间故障时接管与主机集群的业务。

207、第一存储阵列将接收写数据方式由同步写本地和远端存储阵列方式变更为只写本地方式。

其中，写数据方式为同步写本地和远端存储阵列方式表示主机下发的写业务需要同步至第二存储阵列，写数据方式为只写本地状态表示主机下发的写业务只需要写入本地即可。

208、仲裁主机恢复与第一存储阵列的下发业务，并指示其他应用主机恢复与第一存储阵列的下发业务。

其中，当主机集群只有仲裁主机时，则不需要指示其他应用主机恢复与第一存储阵列的下发业务。

需要说明的是，上述步骤完成了在第一存储阵列在第一存储阵列与第二存储阵列之间故障时的仲裁过程，以及仲裁后数据处理的方式。当第一存储阵列与第二存储阵列之间恢复通信后，第一存储阵列需要先将故障期间差异的数据同步到第二存储阵列，并将接收写数据方式由只写本地方式变更为同步写本地和远端存储阵列方式，在完成后回复第二存储阵列已完成操作，第二存储阵列接收待第一存储阵列的回复后，向仲裁主机发起业务恢复请求。

209、仲裁主机接收业务恢复请求。

其中，第二存储阵列发送的业务恢复请求可以向主机集群中的仲裁主机发送，也可以向与其连接通信的其他应用主机发送，其他应用主机在接收到第二存储阵列发送的业务恢复请求后，会将业务恢复请求转发给仲裁主机。

210、仲裁主机恢复第二存储阵列的下发业务，并指示其他应用主机恢复第二存储阵列的下发业务。

其中，当主机集群只有仲裁主机时，则不需要指示其他应用主机恢复第二存储阵列的下发业务。

211、仲裁主机回复第二存储阵列业务恢复请求已处理完成。

本步骤之后，第一存储阵列与第二存储阵列恢复为正常数据处理的过程。

本发明又一实施例提供一种双活集群系统中容灾的装置30，如图4所示，所述装置30包括主机集群和至少一对存储阵列，所述主机集群包括仲裁主机，所述仲裁主机中包括仲裁单元，所述仲裁主机为具有仲裁功能的应用主机，所述至少一对存储阵列包括第一存储阵列和第二存储阵列，所述仲裁主机还包括：接收单元31、暂停单元32、确定单元33、停止单元34、发送单元35和恢复单元36；

所述接收单元31用于接收仲裁请求，所述仲裁请求为所述第一存储阵列或所述第二存储阵列检测到对端存储阵列故障时发送的；

所述暂停单元32用于暂停向所述第一存储阵列和所述第二存储阵列下发业务；

所述确定单元33用于根据逻辑判断确定所述第一存储阵列和所述第二存储阵列中仲裁获胜存储阵列和仲裁失败存储阵列；

所述停止单元34用于停止与所述仲裁失败存储阵列的业务；

所述发送单元35用于向所述仲裁获胜存储阵列发送仲裁获胜信息，以便于所述仲裁获胜存储阵列将接收写数据方式由同步写本地和远端存储阵列方式变更为只写本地方式；

所述恢复单元36用于恢复与所述仲裁获胜存储阵列的下发业务。

其中，所述主机集群还包括至少一个应用主机。

进一步的，所述接收单元31具体用于接收所述第一存储阵列或所述第二存储阵列发送的仲裁请求。

进一步的，所述主机集群还包括至少一个应用主机；所述接收单元31具体用于接收所述至少一个应用主机发送的仲裁请求，所述至少一个应用主机发送的仲裁请求为所述至少一个应用主机接收所述第一存储阵列或所述第二存储阵列发送的仲裁请求后转发的。

进一步的，所述主机集群还包括至少一个应用主机；所述发送单元35还用于向所述至少一个应用主机发送第一指示，所述第一指示用于指示所述至少一个应用主机暂停向所述第一存储阵列和所述第二存储阵列下发业务；

所述接收单元31还用于接收所述至少一个应用主机响应信息，所述响应信息用于表示所述至少一个应用主机已经停止向所述第二存储阵列下发业务；

所述发送单元35还用于向所述至少一个应用主机发送第二指示，所述第二指示用于指示所述至少一个应用主机与所述仲裁获胜存储阵列的下发业务。

进一步的，所述接收单元31还用于接收所述仲裁失败存储阵列的业务恢复请求；

所述恢复单元36还用于恢复所述仲裁失败存储阵列的下发业务。

进一步的，所述接收单元31具体用于接收所述仲裁失败存储阵列发送的业务恢复请求。

进一步的，所述主机集群还包括至少一个应用主机；所述接收单元31具体用于接收所述至少一个应用主机发送的业务恢复请求，所述至少一个应用主机发送的业务恢复请求为所述至少一个应用主机接收所述仲裁失败存储阵列发送的业务恢复请求后发送的。

进一步的，所述发送单元35还用于向所述至少一个应用主机发送第三指示，所述第三指示用于指示所述至少一个应用主机恢复所述仲裁失败存储阵列的下发业务。

本发明又一实施例提供一种双活集群系统中容灾的网络设备40，用于主机集群和至少一对存储阵列组成的系统，所述主机集群包括仲裁主机，所述仲裁主机中包括仲裁单元，所述至少一对存储阵列包括第一存储阵列和第二存储阵列，本发明实施例中所述网络设备40作为仲裁主机，如图5所示，所述网络设备40包括处理器41和接口电路42，图5中还示出了存储器43和总线44，该处理器41、接口电路42和存储器43通过总线44连接并完成相互间的通信。

需要说明的是，这里的处理器41可以是一个处理元件，也可以是多个处理元件的统称。例如，该处理元件可以是中央处理器(CentralProcessingUnit，CPU)，也可以是特定集成电路(ApplicationSpecificIntegratedCircuit，ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路，例如：一个或多个微处理器(digitalsingnalprocessor，DSP)，或，一个或者多个现场可编程门阵列(FieldProgrammableGateArray，FPGA)。

存储器43可以是一个存储装置，也可以是多个存储元件的统称，且用于存储可执行程序代码或接入网管理设备运行所需要参数、数据等。且存储器43可以包括随机存储器(RAM)，也可以包括非易失性存储器(non-volatilememory)，例如磁盘存储器，闪存(Flash)等。

总线44可以是工业标准体系结构(IndustryStandardArchitecture，ISA)总线、外部设备互连(PeripheralComponent，PCI)总线或扩展工业标准体系结构(ExtendedIndustryStandardArchitecture，EISA)总线等。该总线44可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

网络设备40还可以包括输入输出装置，连接于总线44，以通过总线44与处理器41等其它部分连接。

其中，处理器41调用存储器43中的程序代码，用于执行以上方法实施例中网络设备40执行的操作。

具体的，所述处理器41用于通过接口电路42接收仲裁请求，所述仲裁请求为所述第一存储阵列或所述第二存储阵列检测到对端存储阵列故障时发送的；以及，用于暂停向所述第一存储阵列和所述第二存储阵列下发业务；以及，用于根据逻辑判断确定所述第一存储阵列和所述第二存储阵列中仲裁获胜存储阵列和仲裁失败存储阵列；以及，用于停止与所述仲裁失败存储阵列的业务；以及，用于通过接口电路42向所述仲裁获胜存储阵列发送仲裁获胜信息，以便于所述仲裁获胜存储阵列将接收写数据方式由同步写本地和远端存储阵列方式变更为只写本地方式；以及，用于恢复与所述仲裁获胜存储阵列的下发业务。

本发明实施例的一种实施方式中，所述处理器41还用于通过接口电路42接收所述第一存储阵列或所述第二存储阵列发送的仲裁请求。

其中，所述主机集群还包括至少一个应用主机。

本发明实施例的又一种实施方式中，所述主机集群还包括至少一个应用主机；所述处理器41还用于通过接口电路42接收所述至少一个应用主机发送的仲裁请求，所述至少一个应用主机发送的仲裁请求为所述至少一个应用主机接收所述第一存储阵列或所述第二存储阵列发送的仲裁请求后转发的。

本发明实施例的又一种实施方式中，所述主机集群还包括至少一个应用主机；所述处理器41还用于通过接口电路42向所述至少一个应用主机发送第一指示，所述第一指示用于指示所述至少一个应用主机暂停向所述第一存储阵列和所述第二存储阵列下发业务；以及，用于通过接口电路42接收所述至少一个应用主机响应信息，所述响应信息用于表示所述至少一个应用主机已经停止向所述第二存储阵列下发业务；以及，用于通过接口电路42向所述至少一个应用主机发送第二指示，所述第二指示用于指示所述至少一个应用主机与所述仲裁获胜存储阵列的下发业务。

本发明实施例的又一种实施方式中，所述处理器41还用于通过接口电路42接收所述仲裁失败存储阵列的业务恢复请求；以及，用于恢复所述仲裁失败存储阵列的下发业务。

本发明实施例的又一种实施方式中，所述处理器41还用于通过接口电路42接收所述仲裁失败存储阵列发送的业务恢复请求。

本发明实施例的又一种实施方式中，所述主机集群还包括至少一个应用主机；所述处理器41还用于通过接口电路42接收所述至少一个应用主机发送的业务恢复请求，所述至少一个应用主机发送的业务恢复请求为所述至少一个应用主机接收所述仲裁失败存储阵列发送的业务恢复请求后发送的。

本发明实施例的又一种实施方式中，所述处理器41还用于通过接口电路42向所述至少一个应用主机发送第三指示，所述第三指示用于指示所述至少一个应用主机恢复所述仲裁失败存储阵列的下发业务。

本发明实施例中，网络设备40中设置仲裁单元单元，网络设备40为具有仲裁功能的应用主机，可以完成现有技术中仲裁功能服务器的仲裁功能，当第一存储阵列和第二存储阵列检测到对端存储阵列故障时发送的时，会分别向仲裁主机发送仲裁请求，网络设备40在接到仲裁请求后暂停向所述第一存储阵列和所述第二存储阵列下发业务，在网络设备40确定仲裁结果后，停止与所述仲裁失败存储阵列的业务，并恢复与所述仲裁获胜存储阵列的下发业务，避免了仲裁或应用主机在第一存储阵列与第二存储阵列间发生通信故障没有确定仲裁结果前，向第一存储阵列或第二存储阵列下发业务数据确不能同步导致的数据不一致，避免了造成I/O隔离，同时本发明实施例执行过程对存储阵列A和存储阵列B有严格的时序要求，避免了存储阵列在实际运行时由于不可控的因数导致时序混乱、存储阵列之间数据不一致，造成I/O隔离。

本发明实施例提供的双活集群系统中容灾的装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。本发明实施例提供的双活集群系统中容灾的方法及装置可以适用于主机集群和至少一对存储阵列组成的系统，但不仅限于此。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种双活集群系统中容灾的方法，其特征在于，用于主机集群和至少一对存储阵列组成的系统，所述主机集群包括仲裁主机，所述仲裁主机中包括仲裁单元，所述仲裁主机为具有仲裁功能的应用主机，所述至少一对存储阵列包括第一存储阵列和第二存储阵列，包括：

所述仲裁主机停止与所述仲裁失败存储阵列的业务；

所述仲裁主机恢复与所述仲裁获胜存储阵列的下发业务。

2.根据权利要求1所述的方法，其特征在于，所述主机集群还包括至少一个应用主机；所述仲裁主机接收到仲裁请求包括：

3.根据权利要求2所述的方法，其特征在于，在所述仲裁主机向所述仲裁获胜存储阵列发送通知之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在所述仲裁主机恢复所述主机集群与仲裁获胜存储阵列的下发业务之后，所述方法还包括：

接收所述仲裁失败存储阵列的业务恢复请求；

所述仲裁主机恢复所述仲裁失败存储阵列的下发业务。

5.根据权利要求4所述的方法，其特征在于，所述主机集群还包括至少一个应用主机；所述接收所述仲裁失败存储阵列的业务恢复请求包括：

6.根据权利要求5所述的方法，其特征在于，在所述仲裁主机恢复所述仲裁失败存储阵列的下发业务之后，所述方法还包括：

7.一种双活集群系统中容灾的装置，其特征在于，所述装置包括主机集群和至少一对存储阵列，所述主机集群包括仲裁主机，所述仲裁主机中包括仲裁单元，所述仲裁主机为具有仲裁功能的应用主机，所述至少一对存储阵列包括第一存储阵列和第二存储阵列，所述仲裁主机还包括：接收单元、暂停单元、确定单元、停止单元、发送单元和恢复单元；

所述停止单元用于停止与所述仲裁失败存储阵列的业务；

8.根据权利要求7所述的装置，其特征在于，所述主机集群还包括至少一个应用主机；

9.根据权利要求8所述的装置，其特征在于，所述发送单元还用于向所述至少一个应用主机发送第一指示，所述第一指示用于指示所述至少一个应用主机暂停向所述第一存储阵列和所述第二存储阵列下发业务；

所述接收单元还用于接收所述至少一个应用主机响应信息，所述响应信息用于表示所述至少一个应用主机已经停止向所述第二存储阵列下发业务；

10.根据权利要求7所述的装置，其特征在于，所述接收单元还用于接收所述仲裁失败存储阵列的业务恢复请求；

11.根据权利要求10所述的装置，其特征在于，所述主机集群还包括至少一个应用主机；

12.根据权利要求11所述的装置，其特征在于，所述发送单元还用于向所述至少一个应用主机发送第三指示，所述第三指示用于指示所述至少一个应用主机恢复所述仲裁失败存储阵列的下发业务。