CN107885622A

CN107885622A - 处理虚拟数据移动器（vdm）故障备援情况

Info

Publication number: CN107885622A
Application number: CN201610875867.0A
Authority: CN
Inventors: 张明辉; 熊天放; 邬源杨; 陆逸峰; 许红儒
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2018-04-06
Anticipated expiration: 2036-09-30
Also published as: US10146649B2; CN107885622B; US20180095851A1

Abstract

一种技术处理虚拟数据移动器(VDM)故障备援情况。该技术涉及调整第一平台上的配置文件来指示由在该平台上的VDM管理的数据是否正在被复制到第二平台。该技术进一步涉及，在VDM故障备援事件之后，在第一平台上创建替换VDM来替换初始VDM。该技术进一步包括，在替换VDM被创建之后，执行控制由替换VDM提供的接口的操作。当操作确定在上述事件的时候由在第一平台上的初始VDM管理的数据未曾被复制到第二平台时，操作启用接口，以及当操作确定在上述事件的时候由在第一平台上的初始VDM管理的数据曾被复制到第二平台时，操作禁用接口。

Description

处理虚拟数据移动器（VDM）故障备援情况

技术领域

本公开的实施例总体上涉及故障处理，并且更具体地，涉及通过执行控制由VDM提供的网络接口的可用性的网络接口控制操作来处理VDM故障备援情况。

背景技术

数据存储系统存储代表一台或多台主机计算机的主机数据。例如，一些常规的数据存储系统使用虚拟数据移动器或称VDM，也即，支持将通用互联网文件系统(CIFS)和/或网络文件系统(NFS)环境和服务器分组到虚拟容器中的软件特征。

常规VDM类型数据存储系统可以包括两个数据存储阵列，即，第一阵列和第二阵列。此外，每个阵列可以操作多个VDM。

对于第一阵列上的VDM，由这些VDM处理的数据的拷贝(或版本)可以经由同步复制会话从第一阵列被复制到第二阵列。对于这些会话，因为第一阵列维持数据的生产(production)拷贝，所以它被认为生产(或活动)侧，以及因为第二阵列维持数据的复制拷贝，所以它被认为复制(或备用)侧。在复制会话期间，生产侧的数据的生产拷贝的改变被转发到备用侧。

同样地，对于第二阵列上的VDM，由这些VDM处理的数据的拷贝可以经由同步复制会话从第二阵列被复制到第一阵列。对于这些会话，第二阵列被认为生产侧，并且第二阵列被认为复制侧。再一次，在复制会话期间，生产侧的数据的生产拷贝的改变被转发到备用侧。

发明内容

不幸地，上文描述的简单地从生产侧复制改变到复制侧的常规的VDM类型数据存储系统存在缺陷。例如，假设灾难(disaster)出现在第一阵列上(例如，VDM恐慌情况，供电故障等等)，引起第一阵列上原始VDM故障(fail)。在这样的情况下，新的VDM被创建在第二阵列上，使得一直访问第一阵列上的主机数据的生产拷贝的主机计算机现在可以访问第二阵列上的主机数据的复制拷贝。特别地，新的VDM使用与生产阵列上的原始VDM相同的互联网协议(IP)地址，使得数据服务是持续的并且转换切换对主机计算机是透明的。在这样的情况下，原始VDM不能够被重引导来使用相同的IP地址，因为这将在第一阵列和第二阵列之间创建重复的IP地址，从而潜在地导致数据不可用或数据丢失。

不同于上文描述的简单地复制第一阵列上主机数据的生产拷贝上的改变到第二阵列上主机数据的复制拷贝的常规VDM类型数据存储系统，改进的技术涉及执行控制由VDM提供的网络接口的可用性的网络接口控制操作。特别地，当VDM启动(例如，在VDM故障以后、在供电恢复以后，等等)，VDM的配置文件被访问来确定由VDM提供的网络接口是否曾在同步复制中被使用。如果由VDM提供的网络接口在同步复制中未曾被使用，这些网络接口被启用(例如，置于“上(UP)”状态)。然而，如果由VDM提供的网络接口在同步复制中曾被使用，这些网络接口被禁用(例如，被置于“下(DOWN)”状态)来防止否则可能引起数据不可用甚至数据丢失的重复IP地址。如果网络接口被禁用，其他条件可以继而被评估来确定网络接口是否应当持久地被禁用或接着能够启用(例如，VDM是否在活动侧)。

一个实施例涉及处理VDM故障备援情况的方法。该方法包括电子地调整第一物理数据移动器平台上的配置文件，以指示由第一物理数据移动器平台上的初始VDM管理的数据是否被从第一物理数据移动器平台复制到第二物理数据移动器平台。该方法进一步包括，在其中第一物理数据移动器平台上的初始VDM故障以及次VDM被创建在第二物理数据移动器平台上的VDM故障备援事件之后，在第一物理数据移动器平台上电子地创建替换VDM来替换初始VDM。该方法进一步包括，在替换VDM被创建之后，执行控制由替换VDM提供的网络接口可用性的网络接口控制操作，网络接口控制操作(i)当网络接口控制操作从配置文件确定在VDM故障备援时由第一物理数据移动器平台上的初始VDM管理的数据未曾从第一物理数据移动器平台被复制到第二物理数据移动器平台时，启用替换VDM的网络接口组，以及(ii)当网络接口控制操作从配置文件确定在VDM故障备援时由第一物理数据移动器平台上的初始VDM管理的数据曾经从第一物理数据移动器平台被复制到第二物理数据移动器平台时，，禁用替换VDM的网络接口组。

如果替换VDM的网络接口被禁用，应当理解的是，后续检查可以被执行来确定其他条件证明是否满足启用替换VDM的网络接口。例如，如果后续检查确定替换VDM在准备侧(即，已经存在第二物理数据移动器平台的VDM故障备援)，网络接口可以持久地被禁用。然而，如果后续检查确定替换VDM在活动侧，网络接口可以被启用，使得替换VDM可以服务主机计算机。

在一些布置中，数据的第一拷贝驻留在耦合到第一物理数据移动器平台的第一存储阵列上。在这些布置中，初始VDM初始地将数据的第一拷贝作为生产版本来管理。此外，该方法进一步包括，在所述故障备援事件之前，启用初始VDM的网络接口组，以提供对驻留在所述第一存储阵列上的所述数据的所述第一拷贝的主机计算机访问。。

在一些布置中，存储。数据的第二拷贝驻留在耦合到第二物理数据移动器平台的第二存储阵列上。数据的第二拷贝初始地形成次(或备用)版本。在这些布置中，该方法进一步包括，在故障备援之前，提供第一物理数据移动器平台和第二物理数据移动器平台之间的复制服务，复制服务将驻留在第一存储阵列上的数据的第一拷贝的改变复制到驻留在第二存储阵列上的数据的第二拷贝。

在一些布置中，数据的第一拷贝包括存储的产生逻辑单元(LUN)。数据的第二拷贝包括次LUN。此外，提供复制服务包括创建将产生LUN的信息同步复制到次LUN的同步复制会话。

在一些布置中，VDM故障备援事件包括遇到初始VDM的故障。在一些布置中，在第一物理数据移动器平台上创建替换VDM包括响应于遇到初始VDM的故障，引导第一物理数据移动器平台上的替换VDM以替换初始VDM。

在一些布置中，遇到初始VDM的故障包括失去对第一物理数据移动器平台的供电。在这些布置中，启动替换VDM包括响应于第一物理数据移动器平台的供电恢复，自动地实例化第一物理数据移动器平台上的替换VDM。

在一些布置中，VDM故障备援事件引起第二物理数据移动器平台上的次VDM的创建，该次VDM管理主机计算机访问驻留在第二存储阵列上的数据的第二拷贝。在这些布置中，执行网络接口控制操作包括从配置文件访问配置数据，基于配置数据，禁用替换VDM的网络接口组来防止与次VDM的网络接口组冲突。

在一些布置中，从配置文件访问配置数据包括从配置文件读取一组标志。一组标志指示替换VDM的网络接口组不应当被启用，一组标志已经响应于复制会话的创建而被设置，该复制会话将驻留在第一存储阵列上的数据的第一拷贝的改变复制到驻留在第二存储阵列上的数据的第二拷贝。

在一些布置中，禁用替换VDM的网络接口组包括创建替换VDM的网络接口组，以及在次VDM的网络接口组的每一个网络接口在启用第一VDM的网络接口组的网络接口的“上”状态的同时，将替换VDM的网络接口组的每一个网络接口置于禁用替换VDM的网络接口组的网络接口的“下”状态。

在一些布置中，每一个网络接口被各自的互联网协议(IP)地址定义，外部主机计算机通过其访问计算机化网络上的数据的至少一部分。

在一些布置中，该方法进一步包括，在执行控制由替换VDM提供的网络接口的可用性的网络接口控制操作之后，(i)执行确定替换VDM在备用侧还是在活动侧的检查，(ii)当检查操作指示替换VDM 在备用侧时，将替换VDM的网络接口组持久地设置为禁用状态，以及(iii)当检查操作指示替换VDM在活动侧时，将替换VDM的网络接口设置为启用状态。如果网络接口组被设置到启用状态，替换VDM继而能够向主机计算机服务数据。

另一个实施例涉及包括存储器以及耦合到存储器的控制电路的数据存储设备。存储器存储指令，当指令被控制电路实现时，引起控制电路：

(A)电子地调整第一物理数据移动器平台上的配置文件来指示由第一物理数据移动器平台上的初始VDM管理的数据是否正被从第一物理数据移动器平台复制到第二物理数据移动器平台，

(B)在VDM故障备援事件之后，其中第一物理数据移动器平台上的初始VDM故障，电子地在第一物理数据移动器平台上创建替换VDM来替换初始VDM，以及

(C)在替换VDM被创建之后，执行控制由替换VDM提供的网络接口的可用性的网络接口控制操作，网络接口控制操作(i)当网络接口控制操作从配置文件确定在VDM故障备援事件时，由第一物理数据移动器平台上的初始VDM管理的数据没有从第一物理数据移动器平台被复制到第二物理数据移动器平台时，启用替换VDM的网络接口组，以及(ii)当网络接口控制操作从配置文件确定在VDM故障备援事件时，由第一物理数据移动器平台上的初始VDM管理的数据从第一物理数据移动器平台被复制到第二物理数据移动器平台时，禁用替换VDM的网络接口组。

另一个实施例还涉及具有存储处理VDM故障备援情况的指令的非暂态计算机可读介质的计算机程序产品。当指令集被计算机化电路执行时，引起计算机化电路执行方法：

(C)在替换VDM被创建之后，执行控制由替换VDM提供的网络接口的可用性的网络接口控制操作，网络接口控制操作(i)当网络接口控制操作从配置文件确定在VDM故障备援时，由第一物理数据移动器平台上的初始VDM管理的数据没有从第一物理数据移动器平台被复制到第二物理数据移动器平台时，启用替换VDM的网络接口组，以及(ii)当网络接口控制操作从配置文件确定在VDM故障备援时，由第一物理数据移动器平台上的初始VDM管理的数据从第一物理数据移动器平台被复制到第二物理数据移动器平台时，禁用替换VDM的网络接口组。

应当被理解的是，在云环境中，电子电路的至少一些由分配在网络上的远程计算机资源形成。这样的电子环境能够提供某些优点，诸如高可用性和数据保护、透明的操作和提高的安全性、大数据分析，等等。

其他的实施例涉及电子系统和装置、处理电路、计算机程序产品等等。一些实施例涉及各种的涉及通过执行控制由VDM提供的网络接口的可用性的网络接口控制操作处理VDM故障备援情况的方法、电子部件和电路。

附图说明

如附图中图示，其中相同标记指代贯穿不同视图中的相同部分，前述和其他的目的、特征和优点从下文本公开的特定的实施例的描述中将是明显的。附图不必按比例，相反重点在于图示本公开的各种实施例的原理。

图1是适于通过执行控制由VDM提供的网络接口的操作处理VDM故障备援的数据存储环境的框图。

图2是图1的数据存储环境的电子装置的框图。

图3是在第一时刻数据存储环境的特定部分的框图。

图4是在第二时刻数据存储环境的特定部分的框图。

图5是在第三时刻数据存储环境的特定部分的框图。

图6是由图2的电子装置执行的过程的流程图。

具体实施方式

一种改进的技术针对执行控制由虚拟数据移动器(VDM)提供的网络接口的可用性的操作。特别地，当VDM启动(例如，在VDM故障之后、供电恢复之后等等)，VDM的配置文件被访问来确定由VDM提供的网络接口是否曾在复制中被使用。如果由VDM提供的网络接口未曾在复制中被使用，网络接口被启用(例如，置于“上”状态)。然而。如果由VDM提供的网络接口曾在复制中被使用，网络接口被禁用(例如，置于“下”状态)，以防止否则可能引起数据不可用或甚至数据丢失的重复IP地址。

如果VDM的网络接口被禁用，则执行后续检查以确定是否其他条件证明满足启用网络接口。由此，如果后续检查确定VDM在备用侧(即，已经存在VDM故障备援以及另一VDM正在服务数据)，网络接口可以持久地被禁用。然而，如果后续检查确定VDM在活动侧，网络接口可以被启用，以使得VDM可以向主机计算机服务数据。

图1示出了适于通过执行控制由VDM提供的网络接口的操作处理VDM故障备援的数据存储环境20。数据存储环境20包括主机计算机22(1)、22(2)......(总体上称为“主机计算机22”)、数据存储系统24和通信介质26。

每一个主机计算机22被构造和布置来访问被数据存储系统24维持的主机数据。由此，主机计算机22可以操作为独立的设备，一个或多个群，或者它们的组合来执行有用的工作(例如，访问数据库、作为网页服务器、作为内容服务器、作为邮件服务器、它们的组合等等)。

数据存储系统24被构造和布置来存储代表主机计算机22的主机数据。主机数据可以驻留在文件系统的文件中，作为存储的逻辑单元(LUN)或卷(volume)内的基于分块的数据、文件内的卷、卷内的文件系统、它们的组合等等。所使用的特定存储技术(例如，基于文件、基于分块等等)可以是应用相关的，并且可以被数据存储系统24的运营商配置。

数据存储系统24包括数据存储设备30(1)、数据存储设备30(2)......(总体上称为“数据存储设备30”)。这样的数据存储设备30可以本地驻留(例如，在相同的房间内、在相同的楼层、在相同的设施内等等)或彼此远程(例如，在不同的建筑物、穿过校园等等)。

数据存储设备30(1)包括物理数据移动电路32(1)以及存储设备34(1)的阵列。物理数据移动电路32(1)被构造和布置来把数据写入存储设备34(1)的阵列，并且从存储设备34(1)的阵列读取数据。

类似地，数据存储设备30(2)包括物理数据移动电路32(2)以及存储设备34(2)的阵列。此外，物理数据移动电路32(2)被构造和布置来把数据写入存储设备34(2)的阵列，并且从存储设备34(2)的阵列读取数据。

连同每一个数据存储设备30，故障容忍和冗余的各种形式可以被提供。示例包括冗余存储处理器/刀片/引导器(director)等等的使用、冗余电源馈电、冗余电源供应、备份电源、冗余网络馈电、数据镜像、用于错误检测和改正的奇偶性和校验和的使用、RAID组配置来抵挡存储设备故障、热备用存储设备、它们的组合等等。

在一些布置中，数据存储系统24也可以包括其他装置36。这样的装置36的一个示例是文件自动恢复管理器(FARM)服务器，其监控和管理某些数据存储系统服务，诸如数据存储设备30间的复制、VDM移动性、阵列34之间的数据恢复，等等。

通信介质(或构造)26被构造和布置来把数据存储环境20的各种部件连接在一起来使这些部件能够交换电子信号40(例如，参见双箭头40)。通信介质26的至少部分被图示为云来指示通信介质26 能够具有各种不同的拓扑结构，包括主干网、轴辐式、环状、不规则、它们的结合等等。由此，通信介质26可以包括铜基数据通信设备和布线、光线设备和布线、无线设备、它们的组合等等。此外，通信介质26能够支持基于LAN的通信、基于SAN的通信、小区通信、基于WAN的通信、分布式基础设施通信、其他拓扑结构、它们的组合等等。

在操作期间，主机计算机22通过通信介质26向数据存储系统24发送主机I/O请求42(例如，文件访问命令、SCSI命令等等)。这样的主机I/O请求42把数据写入数据存储系统24以及从数据存储系统24读取数据。

例如，假设运行在数据存储设备30(1)的物理数据移动电路上的VDM被配置来处理用于驻留在阵列34(1)中的特定LUN的主机I/O请求42。为此，VDM将其网络接口转换为“上”状态以启用网络接口。由此，主机计算机22能够与VDM通信并且鲁棒地以及可靠地存储主机数据到数据存储设备30(1)并且从数据存储设备30(1)加载主机数据。

进一步假设：数据存储系统24提供对于主机计算机22透明的复制服务来复制由VDM处理的数据。为此，数据存储设备30(1)建立与数据存储设备30(2)的复制会话44，它将数据存储设备30(1)的阵列32(1)的所有改变同步地复制到数据存储设备30(2)的阵列34(2)。对于这一VDM情况，数据存储设备30(1)被认为活动(或生产)侧，并且数据存储设备30(2)被认为备用(或复制)侧。

应当进一步被理解的是，如果在数据存储设备30(1)存在灾难，次VDM可以被创建在数据存储设备30(2)的物理数据移动电路32(2)上，并且被配置为经由驻留在阵列34(2)上的复制数据处理主机I/O请求。结果，主机计算机现在与数据存储设备30(2)通信作为活动侧。这样的操作可以被FARM服务器调整(同样参见图1中的其他设备36)。为此，次VDM将其网络接口转换为“上”状态(即，使用特定的IP地址)。结果，主机计算机22能够与次VDM通信，并且鲁棒地以及可靠地存储主机数据到数据存储设备30(2)并且从数据存储设备30(2)加载主机数据。VDM故障备援的过程可以按照不减少来自主机计算机22的透视图的主机数据的高可用性的透明的方式发生。

此时，应当理解的是，数据存储设备30(1)上灾难的原因实际上可以被镜像。例如，运行在数据存储设备30(1)上的VDM可能已经恐慌，数据存储设备30(1)可能已经暂时地失去供电，等等。这里，如果新的VDM被创建在数据存储设备30(1)上，则该新的VDM不应当将其网络接口转换为“上”状态。相反地，这样的配置情况将使用重复的IP地址(即，相同的IP地址将被在数据存储设备30(1)的次VDM和在数据存储30(2)的新的VDM使用)，并且因此潜在地引起数据不可用性或者甚至数据丢失。

为了防止重复的IP地址的使用，当新的VDM被创建在数据存储设备30(1)上来替换数据存储设备30(1)上的初始VDM时，新的VDM的网络接口被转换为“下”状态，由此禁用网络接口。因此，仅有数据存储设备30(2)上的次VDM使用IP地址。结果，数据存储设备30(1)上新的VDM和数据存储设备30(2)上次VDM之间不存在IP地址冲突。

应当理解的是，数据存储系统24可以在一段延长的时间段内或者甚至无限期地继续作为活动侧与数据存储设备30(2)操作。实际上，新的复制会话可以被创建，其中数据现在以相反的方向(从数据存储设备30(2)到数据存储设备30(1))被复制，即以图1中箭头11的相反方向。在这种情况下，数据存储设备30(2)可以被看作活动或生产侧，以及数据存储设备30(1)可以被看作备用或复制侧。

然而，在某些时候，数据存储系统24的运营方可以决定把数据存储设备30返回到原始的VDM配置，这里，运营方可以执行数据存储设备30(1)、30(2)之间的同步数据的仔细的、有秩序的过程，删除数据存储设备30(1)上的VDM以及运行清除过程，以及故障备援数据存储设备30(2)上的VDM到数据存储设备30(1)。针对VDM，这样的操作使得数据存储设备30(1)成为活动侧并且数据存储设备30(2)成为备用侧。在一些布置中，所有这些过程的某些可以由FRAM服务器控制(同样参见图1中的装置36)。

如马上将要详述的，VDM是否转换它的网络接口到“上”状态用于使用或“下”状态来避免可能的重复IP地址情况的控制，可以基于包括特定VDM操作参数和其他检查的配置文件的内容。由此，在配置文件内，每个网络接口存在一个标志。标志被初始地清除，但是如果同步复制会话开始复制经由网络接口可接入的数据，标志随后被设置。因此，当VDM引导时，配置文件内用于VDM的标志被检查以及如果标志被清除，VDM将其网络接口转换为“上”状态用于使用。然而，如果标志被设置，VDM将其网络接口转换为“下”状态用于不使用。在“下”状态中网络接口的这样的替换可以是暂时的(即，延迟“下”状态)，或基于其他条件成为持久的。参照图2，进一步的细节现在将被提供。

图2示出适于形成数据存储设备30(1)或数据存储设备30(2)等等(同样参见图1)的所有或部分的数据存储组件60。数据存储组件60包括通信接口62、存储器64、处理电路66以及其他电路68。

通信接口62被构造和布置来把数据存储组件60连接到通信介质26(同样参见图1)来支持与数据存储环境20的其他设备(例如，主机计算机22、其他数据存储设备30、其他装置36等等)的通信。这样的通信可以是基于IP、基于SAN、基于小于、基于电缆、基于光纤、无线、基于云、它们的组合等等。因此，通信接口62使数据存储组件60能够鲁棒地以及可靠地与其他外部装置通信。

存储器64旨在表示易失性存储(例如，DRAM、SRAM等等)和非易失性存储(例如，闪存、磁性存储器等等)。存储器64存储各种软件构建70包括操作系统72、专门的VDM代码和数据74，以及其他代码和数据76。操作系统72旨在涉及控制指令诸如管理计算机化资源的内核(例如，处理器循环、存储器空间等等)、驱动器(例如，I/O栈)等等。专门的VDM代码和数据74包括指令和数据，当其运行并且由处理电路66处理时，引起处理电路66创建具有网络接口82智能地转换到“上”状态用于使用或“下”状态来避免创建重复IP地址情况的VDM 80。其他的代码和数据76包括执行、应用、程序等等来提供其他的特征，诸如背景服务(例如，复制服务、快照、删除重复等等)、用户级别应用、管理工具、实用、其他的计算机化资源等等。

处理电路66被构造和布置来基于存储在存储器64中的各种软件构建70操作。如马上将要详述的，处理电路66执行专门的代码和数据74来形成控制VDM 80的专门的电路。特别地，这样的专门的电路实例化VDM 80、配置VDM 80、操作VDM 80等等。一旦VDM 80被创建，VDM 80处理来自主机计算机22的主机I/O请求42(例如，读取和写入命令)。

这样的处理电路66可以按照包括经由一个或多个处理器(或核)运行专门的软件、专用IC(ASIC)、场可编程门阵列(FPGA)和关联的程序、离散的部件、模拟电路、其他硬件电路、它们的组合等等的方式被实现。在一个或多个处理器执行软件的环境中，计算机程序产品90能够向数据存储组件60递送软件构建70的所有或部分软件构建。特别地，计算机程序产品90具有存储控制数据存储组件60的一个或多个操作的指令集的非暂态(或非易失性)计算机可读介质。合适的计算机可读存储介质的示例包括以非易失性方式(诸如，CD-ROM、DVD、闪存、磁盘存储器、磁带存储器等等)存储指令的装置和产品的有形物品。

其他电路68表示数据存储组件60的其他专门的硬件。这样的专门的硬件可以包括存储设备接口(例如，SATA、SAS、PCIe扥等)、存储设备本身(例如，闪存盘、磁盘驱动器等)等等。参照图3到图5，以及涉及在VDM配置文件内使用标志的特定的布置的说明，进一步的细节现在将被提供。

图3到图5示出数据存储环境20的特定部分，其中主机计算机22提供主机I/O请求42来访问由数据存储系统24(同样参见图1)管理的主机数据。特别地，存在VDM转换切换事件和经由网络接口控制操作重复IP地址情况的避免。图3示出在第一时刻T1的特定的部分。图4示出在第一时刻T1之后的第二时刻T2的特定的部分。图5示出在第二时刻T2之后的第三时刻T3的特定的部分。

在提供进一步的VDM转换切换细节之前，应当理解的是，当创建VDM 80时，数据存储系统24维持被访问的配置文件100。特别地，当引导VDM 80时，存在关联的配置文件100，其被访问以便得到各种操作参数，诸如VDM网络接口82的信息，也即，被VDM使用的IP地址和路径。有利地，根据某些布置，数据存储系统24使用包括标志102的专门的配置文件100，该标志102指示正在被VDM 80处理的数据当前是否正被复制的。在转换网络接口82到“上”状态之前，网络接口控制操作被执行在这些标志102上来确定数据是否曾被复制。由VDM 80处理的数据没有重复的情况下，配置文件标志102被清除或解断言(un-asserted)(例如，设置到“0”)，并且VDM80可以安全地将网络接口82置于“上”状态用于使用。然而，如果曾存在由VDM处理的数据的重复，配置文件标志102被设置或断言(例如，设置到“1”)，并且VDM 80将网络接口82置于“下”状态，以便至少暂时地防止重复IP地址，也即，VDM转换切换可能已经发生以及相同的IP地址可能被另一个VDM 80使用。这样的重复IP地址的避免防止无意识的数据不可用性和数据丢失。

应当被理解的是，关于图3到图5的以下描述为了简单论述了相对于仅一个VDM的数据存储设备30(1)、30(2)的操作。然而，数据存储设备30(1)可以具有在其上运行的多个VDM 80，以及，相似地，在任何特定的时刻，数据存储设备30(2)可以具有在其上运行的多个VDM 80。

在时刻T1并且如图3中示出，VDM 80(1)操作在数据存储设备30(1)的物理数据移动电路32(1)上。因此，VDM 80(1)的网络接口82(1)被置于“上”状态因此使网络接口82(1)可用，即，VDM 80(1)向主机计算机22呈现网络接口82(1)(例如，IP地址)来促进数据访问。结果，主机I/O请求42使用VDM 80(1)和数据存储阵列34(1)而被处理。

在时刻T1期间，假设数据存储系统24的运营方希望通过复制数据到数据存储设备30(2)进一步保护数据。为此，运营方指导数据存储系统24经由同步复制服务110(1)、110(2)建立复制会话44。为此，运营方可以向完成操作的(例如，同样参见图1中的FARM服务器，以及图2中的工具/实用的代码)图解用户接口输入命令。

当复制会话44被建立，被VDM 80(1)使用的配置文件100(1)被更新以便指示：使用该配置文件100(1)的随后引导的任何新VDM80不应或者至少延迟将网络接口82置于“上”状态用于使用。特别地，标志102(1)被设置来标识使用配置文件100(1)的任何新的VDM 80应该至少暂时地将其网络接口82置于“下”状态。这里，数据存储设备30(1)被认为活动(或生产)侧，以及由于数据存储设备30(2)由复制会话44更新，其被认为备用(或复制)侧。对于同步复制，仅在数据被适当地写入数据存储设备30(1)和数据存储设备30(2)之后，每个主机写入操作才被认为完成。

接着，在时刻T2(在时刻T1之后)并且如图4中示出，VDM 80(1)故障并且次VDM 80(2)被创建在数据存储设备30(2)的物理数据移动电路32(2)之上来透明地接收服务数据到主机计算机22。相应地，VDM 80(2)的网络接口82(2)被置于“上”状态，也即，VDM 80(2)向主机计算机22呈现网络接口82(2)来促进数据接入。结果，数据存储设备30(2)现在是活动侧，并且主机I/O请求42现在使用VDM 80(2)和数据存储设备30(2)被处理。优选地，该VDM转换切换对于主机计算机22是透明的并且高数据可用性被数据存储系统24维持。

应当理解的是，VDM 80(2)将其网络接口80(2)置于“上”状态，因为用于VDM 80(2)的配置文件100(2)中的标志102(2) 没有被设置，即，标志102(2)被清除。此外，VDM 80(2)的网络接口80(2)使用与VDM 80(2)的网络接口80(1)相同的网络参数(例如，IP地址)，使得VDM转换切换对主机计算机22尽可能地透明。

应当进一步理解的是，VDM转换切换可能响应于在数据存储设备30(1)的灾难而已经被初始化。由此，VDM 80(1)可能已经恐慌(例如，归因于软件错误或配置问题)，可能由于供电丢失而已经停机，可能已经被不小心重置，等等。在这样的情况下，数据存储设备30(1)可以创建新的VDM 80来替换初始的VDM 80(1)(图3)。

在时刻T3(时刻T2之后)以及如图5中示出，新的VDM 80(3)被创建在数据存储设备30(1)的物理数据移动电路80(1)之上。这样的VDM创建可能响应于供电恢复、重置等而已经自动地出现。此外，如果不曾存在复制和VDM转换切换，这样的VDM创建可以是期望的。然而，由于曾存在复制和VDM转换切换，新的VDM 80(3)没有将其分配的网络接口80(1)置于“上”状态。相反地，被VDM 80(3)使用的配置文件100(1)(其是实质上VDM 80(1)的重引导)包括响应于复制会话44的创建(同样参见图3)被设置的标志102(1)。因此，新的VDM 80(3)将其分配的网络接口80(1)置于“下”状态以禁用网络接口，由此避免重复IP地址。

在时刻T3期间，复制会话120可以被创建执行反向的复制，即，存储阵列34(2)上的数据的复制到存储阵列34(1)。在这样的情况下，数据存储设备30(2)现在被认为活动侧，以及存储阵列34(1)上的数据被认为备用侧。

应当被理解的是，在图5中示出的情况中存在冗余和故障容忍。特别地，如果数据存储设备30(2)故障，存在数据存储设备30(2)上的数据的完整拷贝。此外，配置数据处理设备30(1)来处理从数据存储设备30(2)到数据存储设备30(1)的后续VDM转换切换是可能的。因此，保持图5的情况支持延长的时间段或者至少无限期地是可能的。

尽管如此，可以在图5的情况下(例如，VDM清除等等)执行其他管理操作，以便将数据存储系统24恢复到图3的情况。在这样的操作期间，VDM转换切换优选地对于主机计算机22而言是透明的，其具有最小的停机时间甚至没有。

应当进一步被理解的是，如果已经确定数据存储设备30(1)仍是VDM 100(3)的活动侧(即，不存在VDM 100(2)运行在数据存储设备30(2)上)，网络接口82(1)可以被转换到“上”状态来使VDM 100(3)能够服务主机计算机22。这里，由于不存在VDM100(2)运行在数据存储设备30(2)上，因此不存在重复IP地址的可能性。因此，网络接口82(1)在随后被设置到“上”状态之前响应于配置文件标志102(1)，仅暂时地被转换到“下”状态(即，延迟的“下”状态)。参照图6，进一步的细节现在将被提供。

图6是当处理VDM故障备援情况时，由数据存储系统24的电路执行的过程200的流程图。在202，电路电子地调整第一物理数据移动器平台上的配置文件来指示由第一物理数据移动器平台上的初始VDM管理的数据是否从第一物理数据移动器平台被复制到第二物理数据移动器平台(同样参见图4)。

在204，在第一物理数据移动器平台上的初始VDM故障的VDM故障备援事件之后，电路电子地在第一物理数据移动器平台上创建替换VDM来替换初始VDM。这里，另一个VDM可能在第二物理数据移动器平台上已经被创建来服务由初始VDM处理的数据。关于图5的回想，替换VDM可以在供电恢复之后、重置之后等待被自动地创建。

在206，在替换VDM被创建之后，电路执行控制由替换VDM提供的网络接口的可用性的网络接口控制操作。网络接口控制操作(i)当网络接口控制操作从配置文件确定在VDM故障备援事件时，由第一物理数据移动器平台上的初始VDM管理的数据没有从第一物理数据移动器平台被复制到第二物理数据移动器平台时，启用替换VDM的网络接口组，以及(ii)当网络接口控制操作从配置文件确定在VDM 故障备援事件时，由第一物理数据移动器平台上的初始VDM管理的数据从第一物理数据移动器平台被复制到第二物理数据移动器平台时，禁用替换VDM的网络接口组。

这样的网络接口的禁用基于其他条件可以是暂时的或持久的。由此，如果确定第一物理数据移动器平台是替换VDM的活动侧，网络接口继而可以被启用使得替换VDM可以服务主机计算机。

如上文描述，改进的技术涉及这行控制由VDM 80提供的网络接口82的可用性的网络接口控制操作。特别地，当VDM 800引导时(例如，在VDM故障之后、在供电恢复之后等等)，VDM 800的配置文件100被访问以确定由VDM 800提供的网络接口82是否曾被使用在同步复制中。如果由VDM 80提供的网络接口82未曾在同步复制中被使用，这些网络接口82是能够使用的(例如，置于“上”状态)。然而，如果由VDM提供的网络接口82曾在同步复制中被使用，这些网络接口82至少暂时地被禁用(例如，置于“下”状态)来防止可以引起数据不可用性或者甚至数据丢失的重复IP地址。

应当理解的是上文描述的技术不仅仅控制VDM 80的操作。相反地，公开的技术涉及一种接着VDM转换切换事件的通过防止重复IP地址的使用的改进技术的特定的方式。通过这些技术，其他的优点也是可获得的，诸如不必要的数据不可用性的避免、数据丢失的防止、对于主机计算机22透明的VDM操作等等。

当本公开的各种实施例已经被特别地示出和描述时，本领域一般技术人员应当理解的是在不脱离由附加的权利要求定义的本公开的精神和范围的条件下，在其中可以进行形式和细节的各种改变。

例如，应当理解的是数据存储环境20的各种部件(诸如，FARM服务器)能够被实现在或者“移动到”云，即，分布在网络上的远程计算机资源。这里，各种计算机资源可以被紧凑地分布(例如，在单个设施中的服务器FARM)或者相当远距离地分布(例如，穿过校园、在不同的城市、海岸到海岸等等)。在这些情况下，连接资源的网络能够具有各种不同的拓扑结构，包括主干网、轴辐式、环状、不规则、它们的结合等等。此外，网络可以包括铜基数据通信设备和布线、光纤设备和布线、无线设备、它们的组合等等。进一步，网络能够支持基于LAN的通信、基于SAN的通信、它们的组合等等。

本文件内公开的各种实施例、示例以及实现的单独的特征可以按照任何需要的有技术意义的方式结合。此外，单独的特征据此按照该方式被组合来形成所有可能的组合、排列和变化，除了这样的组合、排列和/或变化已经被明确地排除或不可实践的范围。这样的组合、排列和变化的支持被认为存在于本文件之内。

在一些布置中，数据存储系统24包括被称为阵列A和阵列B的两组阵列。此外，在阵列A和阵列B上创建很多VDM 80是可能的。

用于阵列A上的VDM 80，从阵列A向阵列B发送数据改变的同步复制会话44可以被创建。对于这些复制会话44，阵列A是活动(或生产)侧以及阵列B是备用(或复制)侧。

应当理解的是，向阵列A发送数据改变的同步复制会话44可以被创建用于阵列B上的VDM 80。从这一点，阵列B是活动侧以及阵列A是备用侧。

如果存在从阵列A到阵列B的VDM故障备援，当同步复制被执行的时候，阵列B变成新的活动侧以及阵列A变成新的备用侧。

在至少一些布置中，在故障备援期间，阵列B通过向阵列A发送命令组将设法禁用接口和其他资源(例如，非输出CIFS/NFS分享、卸载文件系统和检查点等等)。然而，应当理解的是，因为阵列A可能已经遇到一个或多个故障，不能保证命令组将被执行。但是，如果在故障备援期间阵列A是运行的，尝试禁用操作可以成功。

在至少一些布置中，尽管在故障备援之后VDM被创建在阵列B之上，通过阵列B尝试关闭网络接口将失败。在这样的情况下，配置文件一组标志来防止阵列A上的任意替换VDM使用重复IP地址。由此，当阵列A从供电断电中恢复或当阵列A的物理数据移动从重引导中恢复，物理数据移动检查配置文件并且执行以下动作：

(i)如果配置文件一组标志没有被设置，物理数据移动使VDM的网络接口可用，但是

(ii)如果配置文件一组标志被设置，物理数据移动禁用VDM的网络接口(即，维持网络接口在“下”状态)。

在这一点，出现多个检查是可能的。例如，阵列A可以要求用于指导的控制站(参见图1中FARM服务器)。由此：

(i)如果阵列A是VDM的备用侧(即，如果会话被故障备援到阵列B)，则网络接口可以持久地被禁用(例如，控制站使网络接口留在“下”状态)或者

(ii)如果阵列A是VDM的活动侧，则网络接口可以被启用使得替换VDM可以继续服务主机计算机。

因此，仅有在活动侧的网络接口被允许启用。

此外，应当被理解的是阵列A上的替换VDM可以被完全地删除(例如，响应于VDM清理命令)。由此，数据处理器系统24的运营方可以决定在清理操作之后从阵列B故障备援VDM回到阵列A。这样的操作可以是会话故障备援和故障恢复的生命循环的部分。这样的修改和增强旨在属于本公开的各种实施例。

Claims

1.一种处理虚拟数据移动器(VDM)故障备援情况的方法，所述方法包括：

电子地调整第一物理数据移动器平台上的配置文件，以指示由所述第一物理数据移动平台上的初始VDM管理的数据是否正在从所述第一物理数据移动器平台被复制到第二物理数据移动器平台；

在VDM故障备援事件之后，电子地在所述第一物理数据移动器平台上创建替换所述初始VDM的替换VDM，在所述VDM故障备援事件中，所述第一物理数据移动器平台上的所述初始VDM发生故障；以及

在所述替换VDM被创建之后，执行控制由所述替换VDM提供的网络接口的可用性的网络接口控制操作，所述网络接口控制操作：(i)当所述网络接口控制操作从所述配置文件确定在所述VDM故障备援事件时由所述第一物理数据移动器平台上的所述初始VDM管理的所述数据未曾从所述第一物理数据移动器平台被复制到所述第二物理数据移动器平台时，启用所述替换VDM的网络接口组，以及(ii)当所述网络接口控制操作从所述配置文件确定在所述VDM故障备援事件时由所述第一物理数据移动器平台上的所述初始VDM管理的所述数据曾经从所述第一物理数据移动器平台被复制到所述第二物理数据移动器平台时，禁用所述替换VDM的所述网络接口组。

2.根据权利要求1所述的方法，其中所述数据的第一拷贝驻留在耦合到所述第一物理数据移动器平台的第一存储阵列上；其中所述初始VDM初始地将所述数据的所述第一拷贝作为生产版本来管理；并且其中所述方法进一步包括：

在所述故障备援事件之前，启用所述初始VDM的网络接口组，以提供对驻留在所述第一存储阵列上的所述数据的所述第一拷贝的主机计算机访问。

3.根据权利要求2所述的方法，其中所述数据的第二拷贝驻留在耦合到所述第二物理数据移动器平台的第二存储阵列上，所述数据的所述第二拷贝初始地形成次版本；并且其中所述方法进一步包括：

在所述故障备援事件之前，提供所述第一物理数据移动器平台和所述第二物理数据移动器平台之间的复制服务，所述复制服务将驻留在所述第一存储阵列上的所述数据的所述第一拷贝的改变复制到驻留在所述第二存储阵列上的所述数据的所述第二拷贝。

4.根据权利要求3所述的方法，其中所述数据的所述第一拷贝包括存储的产生逻辑单元(LUN)；其中所述数据的所述第二拷贝包括次LUN；并且其中提供所述复制服务包括：

创建同步复制会话，所述同步复制会话将来自所述产生LUN的信息同步复制到所述次LUN。

5.根据权利要求4所述的方法，其中所述VDM故障备援事件包括遇到所述初始VDM的故障；并且其中在所述第一物理数据移动器平台上创建所述替换VDM包括：

响应于遇到所述初始VDM的所述故障，引导所述第一物理数据移动器平台上的所述替换VDM以替换所述初始VDM。

6.根据权利要求5所述的方法，其中遇到所述初始VDM的所述故障包括失去对所述第一物理数据移动器平台的供电；并且其中启动所述替换VDM包括：

响应于对所述第一物理数据移动器平台的供电恢复，自动地实例化所述第一物理数据移动器平台上的所述替换VDM。

7.根据权利要求3所述的方法，其中所述VDM故障备援事件导致所述第二物理数据移动器平台上的次VDM的创建，所述次VDM管理对驻留在所述第二存储阵列上的所述数据的所述第二拷贝的主机计算机访问；并且其中执行所述网络接口控制操作包括：

从所述配置文件访问配置数据，以及

基于所述配置数据，禁用所述替换VDM的所述网络接口组，以防止与所述次VDM的网络接口组的冲突。

8.根据权利要求7所述的方法，其中从所述配置文件访问所述配置数据包括：

从所述配置文件读取一组标志，所述一组标注指示所述替换VDM的所述网络接口组不应被启用，所述一组标志已经响应于复制会话的创建而被设置，所述复制会话将驻留在所述第一存储阵列上的所述数据的所述第一拷贝的改变复制到驻留在所述第二存储阵列上的所述数据的所述第二拷贝。

9.根据权利要求8所述的方法，其中禁用所述替换VDM的所述网络接口组包括：

创建所述替换VDM的所述网络接口组，以及

将所述替换VDM的所述网络接口组的每个网络接口置于禁用所述替换VDM的所述网络接口组中的该网络接口的“下”状态，而将所述次VDM的所述网络接口组的每个网络接口置于启用所述次VDM的所述网络接口组中的该网络接口的“上”状态。

10.根据权利要求3所述的方法，其中每个网络接口被相应的互联网协议(IP)地址定义，外部主机计算机通过所述IP地址在计算机化网络上访问所述数据的至少一部分。

11.根据权利要求1所述的方法，进一步包括：

在执行控制由所述替换VDM提供的所述网络接口的所述可用性的所述网络接口控制操作之后，(i)执行检查操作，所述检查操作确定所述替换VDM是在备用侧还是在活动侧，(ii)当所述检查操作指示所述替换VDM在所述备用侧时，将所述替换VDM的所述网络接口组持久地设置为禁用状态，以及(iii)当所述检查操作指示所述替换VDM在所述活动侧时，将所述替换VDM的所述网络接口设置为启用状态。

12.一种数据存储设备，包括：

存储器；以及

耦合到所述存储器的控制电路，所述存储器存储有指令，当所述指令由所述控制电路实现时使所述控制电路：

电子地调整第一物理数据移动器平台上的配置文件，以指示由所述第一物理数据移动平台上的初始虚拟数据移动器(VDM)管理的数据是否正在从所述第一物理数据移动器平台被复制到第二物理数据移动器平台；

13.根据权利要求12所述的数据存储设备，其中所述数据的第一拷贝驻留在耦合到所述第一物理数据移动器平台的第一存储阵列上；其中所述初始VDM初始地将所述数据的所述第一拷贝作为生产版本来管理；并且其中所述控制电路进一步被构造和布置为：

14.根据权利要求13所述的数据存储设备，其中所述数据的第二拷贝驻留在耦合到所述第二物理数据移动器平台的第二存储阵列上，所述数据的所述第二拷贝初始地形成次版本；并且其中所述控制电路进一步被构造和布置为：

15.根据权利要求14所述的方法，其中每个网络接口被相应的互联网协议(IP)地址定义，外部主机计算机通过所述IP地址在计算机化网络上访问所述数据的至少一部分。

16.一种计算机程序产品，具有存储指令集来处理虚拟数据移动器(VDM)故障备援情况的非暂态计算机可读介质，当所述指令集被计算机化电路实现时，引起所述计算机电路执行方法：

17.根据权利要求16所述的计算机程序产品，其中每个网络接口被相应的互联网协议(IP)地址定义，外部主机计算机通过所述IP地址在计算机化网络上访问所述数据的至少一部分。

18.根据权利要求17所述的计算机程序产品，其中所述数据的第一拷贝驻留在耦合到所述第一物理数据移动器平台的第一存储阵列上；其中所述初始VDM初始地将所述数据的所述第一拷贝作为生产版本来管理；并且其中所述方法进一步包括：

19.根据权利要求18所述的计算机程序产品，其中所述数据的第二拷贝驻留在耦合到所述第二物理数据移动器平台的第二存储阵列上，所述数据的所述第二拷贝初始地形成次版本；并且其中所述方法进一步包括：

20.根据权利要求19所述的计算机程序产品，其中所述VDM故障备援事件导致所述第二物理数据移动器平台上的次VDM的创建，所述次VDM管理对驻留在所述第二存储阵列上的所述数据的所述第二拷贝的主机计算机访问；并且其中执行所述网络接口控制操作包括：

从所述配置文件访问配置数据，以及