CN100412810C - 用于自动管理计算环境的复制数据的状态的方法和系统 - Google Patents

用于自动管理计算环境的复制数据的状态的方法和系统 Download PDF

Info

Publication number
CN100412810C
CN100412810C CNB2005101149828A CN200510114982A CN100412810C CN 100412810 C CN100412810 C CN 100412810C CN B2005101149828 A CNB2005101149828 A CN B2005101149828A CN 200510114982 A CN200510114982 A CN 200510114982A CN 100412810 C CN100412810 C CN 100412810C
Authority
CN
China
Prior art keywords
state
data
communication environment
ercmf
automatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005101149828A
Other languages
English (en)
Other versions
CN1779650A (zh
Inventor
P·A·布阿
T·V·韦弗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1779650A publication Critical patent/CN1779650A/zh
Application granted granted Critical
Publication of CN100412810C publication Critical patent/CN100412810C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2069Management of state, configuration or failover
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2071Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using a plurality of controllers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

自动管理通信环境的数据的状态。经由一种工具提供了所述自动管理,所述工具自动获得数据的当前状态并使用该信息将数据安置于适当状态,以便处理所选择的事件。例如,在复制存储介质上维护数据。

Description

用于自动管理计算环境的复制数据的状态的方法和系统
技术领域
本发明一般地涉及数据管理,并且具体地涉及自动管理通信环境的数据的状态。
背景技术
数据管理是计算环境的全面管理的重要方面。在支持复制数据的那些环境中这是尤其真实的。
复制数据使环境能被配置用于灾难恢复。在这种配置中,将主站点上的数据复制到辅助站点,并在万一主站点变为不可用时,该数据可以使用。
为能够使用辅助站点,该站点上的数据必须适合于应用访问。当前,存在用于管理复制站点的数据的各种工具,包括由纽约Armonk的国际商业机器公司所提供的对等远程复制(PPRC)和企业远程复制管理工具(eRCMF)。不过,这些工具需要大量的人工干预。因此,它们无法满足许多现代商业企业严格的恢复时间的目标。
根据前述讨论,存在对于自动化的数据管理工具的需求。在一个特定示例中,存在对于能够自动管理复制存储介质的数据管理工具的需求。
发明内容
通过提供支持复制数据的管理通信环境的数据的方法,克服了现有技术的缺点并提供了额外的优点。该方法包括例如自动获得通信环境的数据的当前状态;以及至少基于所述数据的所获得的当前状态而自动将所述的数据安置于使能执行所选择的操作的适当状态,其中所述自动获得步骤和所述自动安置步骤由所述通信环境的一自动化管理接口工具执行,该自动化管理接口工具连接于所述通信环境的资源管理器以及所述通信环境的复制管理工具。
在本发明的再一方面中,提供了管理通信环境的复制存储介质的方法。该方法包括例如由通信环境的一自动化管理接口工具获得控制权,以确定复制存储介质的一个或多个存储介质是否处于允许应用访问和数据复制中的至少一个的适当状态;由该自动化管理接口工具自动获得一个或多个存储介质的当前状态;以及由该自动化管理接口工具自动将该一个或多个存储介质安置于适当状态,以便允许应用访问和数据复制中的至少一个,所述自动安置步骤至少使用了所述自动获得的一个或多个存储介质的当前状态。
此处也描述并要求了对应于以上概述的方法的系统和计算机程序产品。
通过本发明的技术实现了额外的特征和优点。此处详细描述了本发明的其他实施例和方面,并且它们被认为是所要求的发明的一部分。
附图说明
位于本说明书结尾处的权利要求具体指出并明确要求了被认为是本发明的主题。通过以下的详细描述并结合附图,本发明的前述的和其他的目的、特征和优点将变得明显,在附图中:
图1描述了结合及使用本发明的一个或多个方面的通信环境的一个实施例;
图2描述了根据本发明的一个方面的图1的生产力中心机器(Productivity Center Machine)的进一步细节的一个示例;
图3描述了根据本发明的一个或多个方面与自动管理数据状态相关联的逻辑的一个实施例;
图4描述了根据本发明的一个方面在广域群集基础设施中的自动化管理接口的体系结构概观的一个示例;
图5描述了根据本发明的一个方面用于使资源组变为联机或脱机的各实体的交互的概观;
图6描述了根据本发明的一个方面与资源组联机处理相关联的逻辑的一个实施例;
图7描述了根据本发明的一个方面的同步卷集状态图的一个示例;
图8描述了根据本发明的一个方面的扩展距离卷集状态图的一个示例;
图9描述了根据本发明的一个方面与资源组脱机处理相关联的逻辑的一个实施例;
图10描述了根据本发明的一个方面与用于同步卷集的故障转移(failover)处理相关联的逻辑的一个实施例;
图11描述了根据本发明的一个方面的卷集的无闪速复制(flash copy)故障转移/退回循环的一个示例;
图12描述了根据本发明的一个方面与用于同步卷集的故障回复(failback)处理相关联的逻辑的一个实施例;
图13描述了根据本发明的一个方面与用于非同步卷集的故障转移处理相关联的逻辑的一个实施例;
图14描述了根据本发明的一个方面的卷集的闪速复制故障转移/故障回复循环的一个示例;以及
图15描述了根据本发明的一个方面与用于非同步卷集的故障回复处理相关联的逻辑的一个实施例。
具体实施方式
根据本发明的一个方面,提供了用于自动管理数据状态的能力。作为一个特定示例,提供了用于自动管理在例如镜像盘卷的复制存储介质上维护的镜像数据的状态的能力。
能够在包括例如广域群集环境的许多通信环境中使用本发明的一个或多个方面的管理能力。尽管此处描述了广域群集环境,但本发明的一个或多个方面并非局限于这样的环境,而是能够被结合并使用于包括非群集环境的许多类型的环境中。
通过参考图1描述了结合和使用本发明的一个或多个方面的通信环境的一个实施例。在此示例中,通信环境是广域群集环境100,其通过具有例如经由广域网(WAN)106连接的生产站点102和恢复站点104而提供灾难恢复。在一个实施例中,生产站点102包括经由WAN 106连接于恢复站点的路由器108b的路由器108a。路由器108a还连接于便利例如服务器A和服务器B的多个服务器112a的连接的局域网110a。服务器11 2a是高可用的服务器,并可包括基于Intel的服务器、基于UNIX的服务器和/或由纽约Armonk的国际商业机器公司所提供的zSeries和iSeries服务器,等等。这些服务器可以是彼此同类的和/或异类的,并且可在生产站点中包括多于或少于两个服务器。
服务器112a经由例如光纤通道或SCSI(小型计算机系统接口)连接的连接116a与存储子系统114a连接(如直接连接)。在此特定实施例中,服务器(如本地节点)与本地存储子系统连接,并且无法访问地理上分离的远程存储子系统。
存储子系统114a的一个示例是由纽约Armonk的国际商业机器公司提供的企业存储服务器(Enterprise Storage Server,ESS),在2004年7月的IBM出版号为SG24-5757-04的“在开放环境中实现ESS复制服务的IBM TotalStorage企业存储服务器”(IBM TotalStorage EnterpriseStorage Server Implementing ESS Copy Services In Open Environments)中描述了所述ESS的实施例,在此将该文献整体并入本文作为参考。由于此存储子系统在环境的生产站点内,它被认为是主存储子系统。(IBM、zSeries、iSeries和Enterprise Storage Server是纽约Armonk的国际商业机器公司的注册商标或商标。此处所用的其他名字是国际商业机器公司或其他实体的注册商标或商标。)
类似地,恢复站点104包括与路由器108b和例如服务器C和服务器D的多个服务器112b连接的局域网110b。再次地,在此示例中,服务器112b是高可用的同类的和/或异类的服务器,并且恢复站点可包括多于或少于两个服务器。这些服务器经由连接116b(如光纤通道或SCSI连接)连接于存储子系统114b(如企业存储服务器)。由于此存储子系统位于恢复站点,它被认为是辅助存储子系统。
每一存储子系统分别包括一个或多个存储介质120a、120b。在此特定示例中,每一存储子系统包括多个盘卷,并且将来自存储子系统114a的盘卷与来自存储子系统114b的盘卷逻辑地结合,以提供一个或多个卷集。卷集是将以单一方式管理的一组卷,并且每一卷集包括来自主存储子系统的一个或多个卷和来自辅助存储子系统的一个或多个卷。卷集中的每一卷属于同一类型,包括例如:无闪速复制(NOFCPY),表示在每一站点上存在主卷(host volume)(应用能够直接访问的卷),但不存在影子卷(shadowvolume)(应用无法访问的卷-它是数据的备份副本);闪速复制(ALLPCPY),表示在每一站点上存在主卷和影子卷;无闪速复制的扩展距离(XDNOFCPY),表示卷能够支持长距离操作,但不支持闪速复制;具有闪速复制的扩展距离(XDALLFCPY),表示卷能够支持长距离操作并且支持闪速复制;在任何站点上无闪速复制的级联卷(CASNOFCPY),表示卷能够在一个关系中用作辅助卷而在另一关系中用作主卷,但不支持闪速复制;或者在指定站点上具有闪速复制的级联卷(CASSITE{sitex...sitey}FCPY),表示卷能够在一种关系中用作辅助卷而在另一关系中用作主卷,而且支持闪速复制。在此示例中,两个卷集122支持闪速复制,而一个卷集124不支持闪速复制。
在每一存储子系统内执行的是对等远程复制(PPRC)功能128a、128b,其是允许将来自一个地理站点的盘卷的数据镜像到第二地理站点的盘卷的硬件镜像功能。由应用服务器写到一个站点的卷(源卷)的数据经由链路126(例如,作为示例的ESCON或光纤通道链路)被镜像到另一站点的卷(目标卷)。在正常运行期间,目标卷对于该站点的服务器是不可访问的,以防止无意的数据破坏。在生产站点发生故障的情况下,PPRC中止镜像并使目标卷可用于读/写访问。当中止镜像时,PPRC跟踪新的写入,并当能够安全地重新建立镜像时重新同步已改变的数据。在以下美国专利中进一步描述了PPRC:West等人的美国专利No.6,131,148,其标题为“PPRC对的辅助卷的快照复制”(Snapshot Copy Of A Secondary Volume Of APPRC Pair),颁布日为2000年10月10日;Micka等人的美国专利No.6,189,079 B1,其标题为“对等控制器之间的数据复制”(Data CopyBetween Peer-To-Peer Controllers),颁布日为2001年2月13日;以及Burton等人的美国专利No.6,526,419 B1,其标题为“用于开放系统环境中的远程复制的方法、系统和程序”(Method,System And Program ForRemote Copy In An Open Systems Environment),颁布日为2003年2月25日,在此将以上每一专利整体并入本文作为参考。
在一个实施例中,为在开放系统环境中管理和控制PPRC,企业存储服务器提供ESS复制服务web用户接口和ESS命令行接口。以下进一步描述复制服务。
存储子系统114a也连接于专用服务器118a,在此处将其称为生产力中心机器(PCM)。同样地,存储子系统114b连接于专用服务器118b,将其称为生产力中心机器(PCM)。(此处将服务器118a、118b普遍指示为118。)参考图2描述服务器118的一个实施例。
例如,服务器118是专用物理服务器(或逻辑分区的服务器-LPAR),例如由纽约Armonk的国际商业机器公司提供的RS/6000或pSeries服务器。服务器118运行操作系统200(图2)(如AIX),以及在一示例中运行被用于运行在复制数据时所使用的各种工具的WebSphere软件平台202。这些工具包括由纽约Armonk的国际商业机器公司提供的企业远程复制管理工具(eRMCF)204和复制服务功能206。在可连同WebSphere得到的2002年的“IBM WebSphere应用服务器,版本5,服务器”(IBMWebSphere Application Server,Version 5,Servers)中描述了WebSphere的一个示例,在此将其整体并入本文作为参考。此外,在Thomas Luther的2003年1月14日的“eRCMF V2用户指南”(eRCMF V2 User Guide)的版本0.1和Thomas Luther的2004年1月13日的“eRCMF V2实现指南(eRCMF V2 Implementation Guide)”的版本0.6中描述了eRCMF的一个示例,二者均可连同eRCMF得到,而在2004年7月的IBM出版号为SG24-5757-04的“在开放环境中实现ESS复制服务的IBMTotalStorage企业存储服务器”(IBM TotalStorage Enterprise StorageServer Implementing ESS Copy Services In Open Environments)中描述了复制服务的一个示例,在此将以上每一文档整体并入本文作为参考。
作为一个示例,企业远程复制管理工具包括与复制服务服务器206进行通信以管理复制服务(如复制或镜像数据)的软件。eRCMF被设置为例如用于开放系统的多站点的灾难恢复解决方案,并提供用于修复不一致的PPRC对(例如不一致的卷对)的自动化。它是可伸缩的、灵活的开放系统ESS解决方案,其保护业务(数据)并能被用于计划停机(硬件和软件更新)以及非计划停机(灾难恢复、测试灾难)。它简化了灾难恢复的实现和概念。一旦在客户环境中配置了eRCMF,它就监视所指定卷的PPRC状态。eRCMF运行于两个专用生产力中心机器(PCM)上,而每一PCM在每一站点运行eRCMF的一实例。在主PPRC复制服务服务器处的机器上运行的实例是活动eRCMF,而在备份复制服务服务器处的PCM机器上运行的实例是备份eRCMF。在活动PCM上运行的主进程是到eRCMF的接口,用于处理来自命令行或套接字(来自本地进程)接口的命令和查询。它也处理来自备份eRCMF进程(从属进程)的命令和查询。备份eRCMF的目的是记录和保存来自主进程的状态信息,以便它能够接管主进程。如果活动PCM发生故障,则将主进程切换到备份PCM。
通过使执行PPRC任务和监视卷对的状态成为可能从而排除了从ESSweb接口定义PPRC状态的手动PPRC过程,企业远程复制管理工具便利了配置。不过,其操作需要大量的人工参与。当与PPRC一起使用时,企业远程复制管理工具构成层4和层6的灾难恢复解决方案。然而,它无法满足例如金融、贸易、库存管理等等的大多数现代企业的日益严格的恢复时间的目标。这样的商业环境需要提供了层7解决方案-应用可用性-的完全自动化的恢复能力。出现了企业远程复制管理工具的局限性,因为尽管eRCMF维护卷对的状态,但它不知道在服务器级别发生了什么。
为了克服eRCMF的缺陷,提供了此处称为自动化管理接口(AMI)的工具,其使能管理数据状态,包括获得数据状态(例如当前状态)和基于所获得的状态信息将数据安置于适当状态的自动化。自动化管理接口包括被用于确保数据状态(例如镜像的盘卷)匹配想要使用该数据的应用的状态的多个应用编程接口(API)。即,AMI确保当运行于任一站点的应用需要访问数据时该数据是可用的。
参考图3描述了与自动化管理接口相关联的逻辑的一个实施例。首先,在步骤300,自动化管理接口从通信环境的另一实体获得控制。响应于接收到控制,在步骤302,自动化管理接口获得所选择数据的状态。在一个示例中,这是通过执行查询命令完成的。在步骤304,基于所获得的数据状态,自动化管理接口将数据安置于适当状态(即,例如,使能使用该数据执行例如访问或镜像的操作的状态)。例如,运行AMI状态机以基于所获得的状态调用一个或多个适当的命令以将数据安置于适当状态。对于给定条件的适当状态存储于AMI的逻辑中。在调用一个或多个命令之后以及在返回控制之前,AMI确定数据目前是否处于适当状态。如果否,它调用一个或多个额外的命令以确保数据被安置于适当状态。此后,在步骤306,自动化管理接口将控制返回它从中获得控制的实体。
自动化管理接口可被用于许多环境,包括但不限于此处所述的广域网群集环境中。在此环境中,自动化管理接口是群集软件和eRCMF之间的层。例如,如图4中所描述的,自动化管理接口的实例400a是群集资源管理器402a和企业远程复制管理工具404a的实例之间的层。在此特定示例中,群集资源管理器和自动化管理接口执行于例如生产站点的服务器A和/或服务器B(图1)的服务器中,而eRCMF执行于生产力中心机器118a(图1)中。
群集资源管理器402a还经由广域网406连接于恢复站点的另一群集资源管理器402b。群集资源管理器402b也连接于自动化管理接口的实例400b,二者均运行于恢复站点的服务器上。此外,自动化管理接口400b连接于企业远程复制管理工具的实例404b,该实例运行于连接到服务器的PCM中。
图4中也示出了在图1的主存储服务器114a中维护的盘控制部件408a以及在图1的辅助存储服务器114b中维护的盘控制部件408b。作为一个示例,盘控制部件408a和408b经由一个或多个链路410相互连接,以使能对数据的镜像。
在此群集环境中,AMI进程对群集软件是完全透明的,并运行于卷管理层之下。作为一个示例,当在恢复站点上重新启动应用之前,由群集软件调用AMI来确保备份盘卷处于适当状态以允许应用访问,在此语境中所述应用不仅包括最终用户与其交互的应用,也包括从属的数据库软件或其他中间件。此外,AMI使用eRCMF来识别主站点的存储服务器的状态,并指引备份站点的PPRC的实例或者当主存储服务器不可用时跟踪改变,或者当主存储服务器可用时将所述改变反映回去。
自动化管理接口的一个职责是将底层的eRCMF盘存储管理部件呈现给上层的群集层作为复制资源。复制资源是这样一种资源类型,其具有对应于跨两个位置复制的数据副本的源和目标的主实例和辅助实例。此类的资源包括IBM GeoRM或ESS PPRC数据复制技术。通常将由群集软件管理的资源例如文件系统、IP地址或应用服务器分组到所称的资源组中。为使能由群集对复制资源的管理,也将复制资源包括于资源组中。当将eRCMF卷对包括于群集资源组定义中时,资源组成员被认为是从属资源。
群集软件将把资源组的状态呈现为主或辅助,以指示所述资源组当前在其上是激活的站点。eRCMF复制资源在包括该资源的资源组当前为联机的站点上是激活的。群集软件的资源组策略处理部件或资源管理器管理关于启动、停止或移动资源组的资源策略。即,它做出关于在哪里特定资源组将被激活或去激活的决策。此上层群集事件管理器向群集eRCMF接口(即AMI)提供具有被定义为资源组的成员的复制资源的资源组的列表,以对其进行操作。对于每一复制资源定义,资源组策略应用指定的站点间策略以确定哪一节点或站点将使指定的从属资源联机。AMI的决策层状态机使用此信息来决定在底层的eRCMF所保护的盘卷上采取什么操作。在处理eRCMF复制资源之后,接着将结果传送回群集软件,接着群集软件采取适当的操作。由自动化管理接口代表群集软件所采取的操作取决于例如eRCMF呈现给所述接口的盘卷的状态。
eRCMF所保护的盘卷的状态定义每一卷集的当前状况,并由生产站点的位置和PPRC对的状态定义。(卷集包括一对或多对卷,而卷对典型地包括来自生产站点的一个卷和来自备份站点的另一个卷。)卷集可以处于的内部状态的示例包括以下状态:
InSync                  PPRC对是InSync。这是可处于的优选状态;
SplitSite               PPRC对在它们本身之中一致,但不一定相互一致。
                        在站点拆分之后达到此状态;
OutOfSync               各站点相互不一致。备份站点在其内部不一致。可
                        能正在进行重新同步各站点的操作;
OutOfSync-Freeze        当尝试冻结时出现错误。eRCMF不能确定拆分是
                        否已成功。实际的状态可以是OutOfSync或
                        SplitSite;
RecoverySiteActive      各站点相互不一致。已调用恢复。尚未做出重新同
                        步各站点的尝试;
Swapping                这是当服务器停机时用于交换来自InSync状态的
                        生产和备份站点的瞬时状态;
XDMode                  正使用扩展距离复制(PPRC-XD);
Splitting               PPRC-XD已被转换为Full Sync,一旦同步,PPRC
                        对将中止。这在XD类型的卷集中有效;
ForceRecover            当服务器发生故障时被设置用于不同步向回复制的
                        特殊PPRC模式。对于类型为NOFCPY、
                        XDNOFCPY或CASNOFCPY的卷集有效;
RecoverSite-ForceSwap   当服务器发生故障时被设置用于不同步向回复制
                        的特殊PPRC模式。对于类型为NOFCPY、
                        XDNOFCPY或CASNOFCPY的卷集有效;
XDMode-OutOfSync XDMode,不过至少一个PPRC对被中止或未配对。
响应于AMI查询,由eRCMF向AMI提供上述状态,但群集软件不了解这些状态。
一般而言,包括了一个或多个卷对的群集资源组在任何时间在群集节点(例如服务器)上可以处于两种状态之一。这两种状态包括指定了在该节点上资源组是激活的联机状态,以及指明了在该节点上资源组以备份地位发挥作用的脱机状态。在图5中描述了用于资源组的联机和脱机处理的概观。当要使资源组联机500时,群集软件(例如群集资源管理器)调用自动化管理接口502(此处也被称为群集eRCMF接口),该接口联系eRCMF 504以确定数据506的状态,并使用此信息将数据安置于适当状态(例如,调用适当的命令)。在此步骤完成后,AMI将控制返回到群集软件,接着群集软件可确保hdisk/vapath是可用的508,启用(vary on)卷组510(例如,操作系统将其作为连续的、可寻址的盘区域的一组物理卷,其中一物理卷是单个物理盘),安装文件系统512,并启动一个或多个应用514。
类似地,当资源组要被改为脱机520时,群集软件调用自动化管理接口522,该接口联系eRCMF 524以确定数据526的状态。基于数据的状态,AMI将数据安置于适当状态,并接着将控制返回到群集。接着群集能够停止一个或多个应用528,卸下文件系统530,停用(vary off)卷组532,并使盘成为不可用534。
参考图6描述了关于联机处理的进一步细节。在此特定示例中,参考节点加入群集描述了联机处理。在节点加入群集时,将获得资源组的所有权的群集中的节点运行联机处理。不过,无论何时要将资源组变为联机,也都调用联机处理。
参考图6,首先,在询问600处,做出关于是否在此节点上使所选的资源组联机的确定。如果在此节点上将不使所述资源组联机,则在询问602处,做出关于是否存在将处理的更多资源组的进一步确定。如果否,则在步骤604,完成处理。然而,如果存在将处理的更多资源组,则处理继续到查询600。如果要使所选的资源组联机,则在询问606处,做出关于资源组是否包括eRCMF管理的盘卷的进一步确定。在一个示例中,通过查询资源组的定义做出此确定。如果资源组包括eRCMF管理的盘卷,则在步骤608,群集资源管理器调用自动化管理接口以便利管理数据(例如盘)的状态。如一个特定示例,调用被称为clgetERCMFdisks的、自动化管理接口的应用编程接口(API)。
使用clgetERCMFdisks API确定与此资源组相关联的一个或多个卷集的状态,并将一个或多个卷集安置于适当状态以便使资源组联机。clgetERCMFdisks API的语法的一个实施例如下:
clgetERCMFdisks<卷集列表><本地群集站点><远程群集的状态>
卷集列表-          将由AMI处理的卷集的列表;
本地群集站点-      在其处资源组即将联机的群集站点的名;
远程群集的状态-    指明远程群集是正常或停机。
通过clgetERCMFdisks API,提供了卷集名,并且获得了镜像的优选方向,以便通知eRCMF当群集节点联机时使哪些盘对该群集可访问。AMI确保所镜像的盘卷处于适当状态,以便群集软件开始在盘上启用卷组。此过程对于群集软件是透明的,并在卷组之下进行。
自动化管理接口运行一状态机以将盘安置于适当状态。以下提供了由自动化管理接口在clgetERCMFdisks API中执行的状态机的伪码的一个示例:
{
将查询提交到在eRCMF服务器机器上运行的eRCMF守护程序。
从所述守护程序请求的信息为  1)卷集的状态;
                            2)生产站点(卷集的源);
                            3)恢复站点(卷集的目标)。
if(ProductionSite=LOCALSITENAME){
switch(VolumeSet State){
      case InSync:        如果VolumeSet属于扩展距离类型,则运
                           行async命令,否则不做任何事
      case OutOfSync:     运行resync命令
        case XDMode:            不做任何事
        case SplitSite:         运行resync VolumeSet命令
        case RecoverySiteActive:如果远程群集正常则运行sync命令,否则
                                 不做任何事
        case Swapping:          运行resync VolumeSet命令
        …
        Default:                带着错误退出
    }
{
else
{
switch(VolumeSet State){
        case InSync:            如果远程站点服务器停机,则执行
                                 forceSwap,否则执行交换
        case OutOfSync:         恢复VolumeSet
        case XDMode:            恢复VolumeSet
        case SplitSite:         恢复Volu meSet
        case RecoverySiteActive:带着错误退出
        …
        Default:                带着错误退出
}
    }
使用以上伪码,AMI提交查询到eRCMF,以确定卷集的状态以及卷集的源和目标。接着,基于所提供的状态调用各种处理。例如,如果生产站点是本地站点名(即,使资源组联机之处)而卷集状态是InSync,则不做任何事,除非卷集属于扩展距离类型。如果卷集属于扩展距离类型,则执行async命令。这包括AMI指令eRCMF运行eRCMF理解的async命令。在Thomas Luther的2003年1月14日的“eRCMF V2用户指南”(eRCMF V2 User Guide)的版本0.1和Thomas Luther的2004年1月13日的“eRCMF V2实现指南”(eRCMF V2 Implementation Guide)的版本0.6中描述了由eRCMF运行的各种命令的示例,以上二者均连同eRCMF提供,在此将以上每一文档整体并入本文作为参考。
为便利将卷集安置于适当状态,在由AMI调用后,eRCMF使用如图7或图8中所描述的状态图的逻辑。作为示例,图7描述了用于同步卷集的状态图,而图8描述了对于扩展距离卷集的状态图。在这些图的每一个中,“*”指示eRCMF状态;“+”指示eRCMF命令;圆括号中的词语指示条件;并且带有指向其的箭头的圆指示生产变化。
当AMI调用命令时,由eRCMF在内部使用状态图的逻辑。例如,如果AMI接收了对卷集的当前状态为SplitSite的指示,则它指令eRCMF运行resync。当eRCMF运行resync时,在某一时刻,状态由SplitSite转变到XDMode(参见图7),然后从XDMode转变到OutOfSync,并最终到Insync。
在eRCMF结束执行resync命令时和/或在执行该命令期间,AMI确保卷集的状态是适当状态,在此示例中该状态为Insync。如果卷集的状态是适当状态,则将控制返回群集软件。
回到图6,在运行AMI API并将数据安置于适当状态之后,或者如果资源组不包括eRCMF管理的盘卷,则在步骤610将卷组改变为联机,在步骤612安装文件系统,在步骤614启动一个或多个应用。此后,处理继续到询问602。
除了联机处理之外,在脱机处理中也可涉及资源组。用于联机处理的状态图也被用于脱机处理和其他处理。
当当前具有资源组的所有权的节点脱离群集时,此节点运行脱机处理。此外,每当一资源组要被改变为脱机时,均运行脱机处理。根据本发明的一方面,在定义于eRCMF管理的卷盘之上的卷组被改变为脱机之后,调用自动化管理接口。这确保了在能够在远程站点上启用资源组之前数据处于适当状态。
参考图9描述了与脱机处理相关联的逻辑的一个实施例。首先,在询问900处,做出关于是否应在该节点上使资源组脱机的确定。如果在该节点上将不使资源组脱机,则在询问902处,做出关于是否存在要被考虑的更多资源组的进一步确定。如果不存在要被考虑的更多资源组,则在步骤904完成处理。然而,如果存在要被处理的更多资源组,则处理继续到询问900。
如果要使资源组脱机,则在步骤906停止一个或多个应用。进一步地,在步骤908卸下文件系统,并在步骤910停用卷组。此后,在询问912处,做出关于资源组是否包括eRCMF管理的盘卷的确定。如果资源组的确包括这种盘卷,则在询问914处,做出关于资源组是否跨站点移动的进一步确定。如果资源组不跨站点移动或资源组不包括eRCMF管理的盘卷,则处理继续到询问902。然而,如果资源组包括跨站点移动的、eRCMF管理的盘卷,则在步骤916,调用被称为clreleaseERCMFdisks的eRCMF AMIAPI。
使用clreleaseERCMFdisks API确定与将被移动的资源组关联的一个或多个卷集的状态,并将所述一个或多个卷集安置于适当状态以便移动。此外,clreleaseERCMFdisks API指引eRCMF停止镜像或转变对盘卷进行镜像的方向。以下是clreleaseERCMFdisks API的语法的一个实施例:clreleaseERCMFdisks<卷集列表><本地群集站点><远程群集的状态>
卷集列表-        将由AMI处理的卷集的列表;
本地群集站点-    在其处资源组即将联机的群集站点的名;
远程群集的状态-  指明远程群集是正常或停机。
以下是由自动化管理接口在clreleaseERCMFdisks API中执行的状态机的伪码的一个实施例:
{
将查询提交到在eRCMF服务器机器上运行的eRCMF守护程序。
从所述守护程序请求的信息为  1)卷集的状态;
                            2)生产站点(卷集的源);
                            3)恢复站点(卷集的目标)。
if(Volume setProductionSite=TARGETSITENAME){
switch(VolumeSetState){
      case InSync:            如果LocalSet=EventSite则不做任何事,
                               否则交换VolumeSet
      case OutOfSync:         同步VolumeSet
      case XDMode:            如果EventSite=LocalSet则同步
                               VolumeSet,否则交换VolumeSet
      case SplitSite:         不做任何事
      case RecoverySiteActive:不做任何事
      …
      Default:                带着错误退出
      }
   {
   else
   {
      不做任何事
   }
}
在执行AMI API并将数据安置于适当状态之后,处理继续到询问902。
其他处理也可调用AMI API。例如,当在远程群集停机期间已运行forceSwap命令之后远程节点加入群集时,调用被称为cljoinERCMFcleanup的API。具体地,如果远程群集节点脱离群集而并未停用卷组,则当该节点停机时在盘上留下持久保留。在备份站点获得该资源组的节点启动PPRC故障转移操作(即,由PPRC执行的故障转移),以便具有对备份盘的写访问。在执行PPRC故障转移操作之后,卷集的状态转变为RecoverySite-ForceSwap。当原始节点重新加入群集时,启动PPRC故障回复过程以重新同步盘对。此故障回复过程调用此API。
以下是与cljoinERCMFcleanup API关联的语法的一个实施例。
cljoinERCMFcleanup<卷集列表><加入节点的群集站点>
卷集列表-            将由AMI处理的卷集的列表
加入节点的群集站点-  在其处资源组即将联机的群集站点的名
以下是由自动化管理接口在cljoinERCMFcleanup中执行的状态机的伪码的一个实施例:
cljoinERCMFcleanup
{
如果远程节点加入群集
(
      本地节点查询它所拥有的VolumeSet的状态
      如果VolumeSet的状态是RecoverySite-ForceSwap,则检查是否存
      在由远程节点保持的持久盘保留。如果存在,则AMI通过发送命令
      到远程节点而中断此盘保留。
      AMI向ercmf提交resync命令)
}
如以上伪码所指明的,如果远程节点加入群集,则本地节点(如AMI)查询它所拥有的卷集的状态。如果卷集的状态是RecoverySite-ForceSwap,则AMI指令eRCMF执行resync命令。
除上述之外,还存在使用本发明的一个或多个方面的自动化管理接口的各种广域群集事件。以下描述各种的这些事件。这些事件是相对于所使用的操作的类型描述的,因为对于不同类型的操作,处理是不同的。一类操作是同步操作(NOFCPY),其中在应用站点主卷上执行的更新被同步投影于恢复站点的辅助卷上。因为这是同步操作,只有在两个副本中都确保了写更新之后,才会认为写对于应用已完成。将描述的用于同步卷集的一类事件是群集故障转移事件。参考图10描述了与此事件相关联的逻辑的一个实施例。
在正常生产模式中,即步骤1000,同步卷集处于PPRC全双工模式,并且在eRCMF中应该提供自动站点拆分(即,指明将在某些情况下调用freeze命令)。eRCMF管理的PPRC关系处于默认的InSync状态。在步骤1002,应用输入/输出(I/O)在服务器A上进行。进一步地,在步骤1004,eRCMF管理的PPRC从主卷Hi镜像到Hj。在图11中的标号1100图示说明了此镜像。
回到图10,如果在询问1106处存在生产站点故障,则在步骤1108,eRCMF调用冻结过程。例如,主eRCMF服务器和备份eRCMF服务器均调用冻结处理。此后,在步骤1010,自动化管理接口执行各种操作。这些操作包括例如使备份站点上的eRCMF服务器成为活动eRCMF服务器;发出提供自动站点拆分以及接着的freeze命令;以及向eRCMF发出恢复站点(主站点名)命令。这使得eRCMF查询卷集以确定状态,并恢复在主站点上具有生产的卷集。这将数据和/或其他部件安置于系统能够启动和恢复的状态。
返回询问1006,如果不存在生产站点故障,则在查询1012处做出关于服务器A是否发生故障的进一步确定。在此示例中,服务器A是执行应用I/O的主服务器。如果服务器A没有发生故障,则处理在正常生产模式中继续。然而,如果服务器A已发生故障,则在步骤1014,由服务器A拥有的资源转移到服务器B。在此示例中,不需要eRCMF操作,因为资源没有跨站点移动。应用I/O进行到服务器B上。
如果在询问1016处服务器B没有发生故障,则在步骤1017,处理在服务器B上继续,除非采取了其他某种操作将所述处理从服务器B移开。然而,如果做出了服务器B已发生故障的确定,则在询问1018处,做出关于服务器A是否已重新加入群集的进一步确定。如果服务器A已重新加入群集,则在步骤1020,由服务器B拥有的资源转移回到服务器A。再次地,不需要eRCMF操作,因为资源没有跨站点移动。接着处理在正常生产模式中继续。
然而,如果服务器B已发生故障,并且服务器A没有重新加入群集,则在步骤1022,由群集启动资源到备份站点的站点转移。例如,在步骤1024,群集发送控制到AMI,而AMI启动eRCMF操作以代表群集来交换站点。这涉及例如查询生产站点上的一个或多个资源组中的卷集的状态,并接着基于卷集的状态提交适当的命令以将卷集安置于InSync状态,以及提交swap命令到eRCMF以交换卷集镜像方向。
响应于接收到swap命令,在步骤1026,eRCMF交换生产站点和备份站点。接着在步骤1028,群集在服务器C或D上重新启动到Hj的I/O。在步骤1030,eRCMF管理的PPRC现在从主卷Hj到主机Hi进行镜像。在图11中的1102描述了镜像方向的图示说明。这完成了群集故障转移事件的处理。
用于同步卷集的另一广域群集事件是群集故障回复事件。在此事件中,资源组退回生产站点上的服务器。参考图12描述了与此处理相关联的逻辑的一个实施例。在步骤1200,群集启动资源组退回事件。这包括例如停止一个或多个应用的I/O,卸下文件系统,使卷组变为脱机,以及通知AMI交换站点。响应于接收此指示,在步骤1202,AMI启动交换过程。这包括例如检查在一个或多个资源组中的卷集的状态,并向eRCMF提交返回初始站点的resync命令。
当eRCMF接收到resync命令时,在步骤1204,eRCMF执行换回过程。换回过程包括执行resync操作,其中建立逻辑路径并执行PPRC完全复制。在执行此操作之后,AMI再次接收控制并查询状态。一旦状态指示为InSync,则在步骤1206,AMI提交swap命令到eRCMF,以将卷集的生产站点交换回初始站点。
响应于接收到swap命令,在步骤1208,eRCMF执行交换。这包括例如终止PPRC对,并在初始的方向上以无复制重新建立PPRC对。
此后,当再次为如AMI所确定的InSync时,在步骤1210,群集在初始站点上重新启动应用I/O。这完成故障回复处理。
另一类操作是PPRC扩展距离类型的操作。在PPRC扩展距离(XDALLFCPY)的操作中,当应用运行时,PPRC以非同步方式将主卷的更新镜像到辅助卷上。这样,当在PPRC扩展距离中时,应用的写操作没有典型的象同步那样的开销。尽管在此操作中可能产生各种事件。一种这样的事件是用于非同步卷集的群集故障转移事件。
参考图13描述了与处理用于非同步卷集的群集故障转移事件相关联的逻辑的一个实施例。在正常生产模式中,即步骤1300,扩展距离卷集处于PPRC XD模式,并且将在eRCMF中提供自动站点拆分。eRCMF管理的PPRC关系处于默认的XD-Mode状态。在步骤1302,应用I/O在服务器A上进行,并且在步骤1304,eRCMF管理的PPRC从主卷Hi镜像到Sj。图14中的标号1400描述了此镜像的图示说明。
回到图13,如果在询问1306处生产站点不存在灾难,则处理以正常生产模式继续,即步骤1300。另一方面,如果在询问1306处生产站点存在灾难,则群集启动站点故障转移。例如,在步骤1307,eRCMF通过中止PPRC卷对而拆分站点。处于XD-Mode中的卷集转到XD-ModeOutOfSync。进一步地,在步骤1308,由服务器A拥有的资源转移到备份站点的服务器(例如服务器C或服务器D)。资源转移到其中的特定服务器取决于用户定义的群集策略。
此后,eRCMF执行站点灾难(冻结)处理,其中,例如,在步骤1310,群集停顿(quiesce)应用(数据库)以避免在主站点上的更新。
随后,在询问1314处,做出关于在Hj上可用的PIT(时间点)副本是否一致的确定。如果在Hj上的PIT副本是一致的,则AMI通过执行以下操作而调整eRCMF状态机(步骤1316):
1.执行forestate<RecoverySiteActive>命令,以迫使VolumeSet
  的状态为RecoverySiteActive
2.执行forcesite<site2>命令,以将该VolumeSet的生产站点改
  变为该备份站点
进一步地,在询问1318处,做出关于是否将使用Sj上的可疑数据的确定。如果将使用可疑数据,则在步骤1320,AMI启动卷集的恢复(例如,恢复VolumeSet)。eRCMF通过将可疑数据从Sj闪速复制到Hj而恢复数据。在Hj上的任何现有PIT将被盖写。接着在步骤1322,由群集基于群集故障转移策略在备份站点的服务器上重新启动应用。
回到询问1318处,如果将不使用Sj上的数据,则AMI建议群集不使资源组联机,并从而不在恢复站点重新启动应用。
返回询问1314,另一方面,如果PIT副本是不一致的,则出于潜在数据损失的原因而提供一错误。这完成了群集故障转移事件的处理。
将对非同步卷集处理的另一事件是故障回复事件处理。参考图15描述了与此处理相关联的逻辑的一个实施例。当资源组要退回生产站点时,在步骤1500,群集启动资源组退回事件。这包括例如停止应用I/O,卸下文件系统,使卷组变为脱机,以及向AMI提供控制。响应于接收到控制,在步骤1502,AMI启动eRCMF站点交换处理。作为此交换处理的一部分,AMI确定卷集的状态,并调用eRCMF以在步骤1504执行换回过程。
在换回过程中,AMI再次接收到控制,确定状态,并且在步骤1506启动回到初始站点的eRCMF同步。响应于从AMI接收到此命令,在步骤1508,eRCMF建立逻辑路径并执行Hj到Si的PPRC完全复制。此后,在步骤1510,AMI发出另一查询,并启动使生产回到初始站点的交换。特别地,当再次处于InSync状态时,AMI启动使生产回到初始站点的eRCMF交换。当eRCMF接收到此命令时,在步骤1512,发生交换。在一个示例中,这包括:终止PPRC对,如果路径为单向则使其反转;执行从Hj到Sj的闪速复制1402(图14)以及从Si到Hi的闪速复制1404;在初始方向(Hi到Sj)上以无复制重新建立PPRC对;以及一旦再次处于InSync则由eRCMF将生产交换回初始站点。
此后,在步骤1514,AMI启动async VolumeSet,以使扩展的卷集回到默认模式,并响应于此启动操作,在步骤1516,eRCMF执行async。随后,在步骤1518,群集在初始站点上重新启动应用I/O。这完成了用于非同步卷集的退回事件处理。
根据本发明的一个方面,为了便能群集软件和AMI之间的通信,修改群集软件以使用AMI API。例如,在软件栈的盘处理部分中包括了clgetERCMFdisks、clfreleaseERCMFdisks和cljoinERCMFcleanup API。这允许群集软件调用AMI。
此外,为了使能自动化管理接口和eRCMF软件之间的通信,提供了被称为clrunERCMFcmd的包装。此包装通过eRCMF命令行接口提交调用到eRCMF服务器。clrunERCMFcmd采取eRCMF操作并调用eRCMF客户端执行。在一个示例中,它是用于eRCMF RepMgrCommand CLI的包装。
以下是clrunERCMFcmd的语法的一个示例:
clrunERCMFcmd<命令><VolumeSet名>
   <命令>    可以是以下任一个,包括了由eRCMF状态机基于状态响
             应于命令而采取的操作。
        check      检查卷集的一致性。
        display    显示卷集的当前状况和卷。
        getstate   显示卷集的状态。
        sync       重新同步站点,Force Sync模式PPRC。
        resync     重新同步站点。
        recover    在备份站点进行恢复。
        swap       交换生产站点和备份站点。
        split      拆分站点。
    flash      用于利用FlashCopy的实用程序。
    forceswap  为群集故障交换站点。
<VolumnSet名>针对其执行命令的VolumeSet的名。
此包装便利了AMI对将由eRCMF执行的命令的调用。例如,作为一个示例,AMI执行clrunERCMFcmd,其执行以下操作:
它调用clgetERCMFpcminfo(在下面描述)以确定活动的eRCMF服
务器;
它建立与执行活动的eRCMF服务器的PCM的TCP/IP连接;
它利用存储于操作系统的注册表中的eRCMF信息而确定eRCMF
RepMgrCommand CLI所需的参数。作为一个示例,使用提供给
clrunERCMFcmd的卷集名来从注册表获得参数;
它使用这些参数和与clrunERCMFcmd一起提供的命令来运行
eRCMF RepMgrCommand。
以下是RepMgrCommand的语法的一个示例:
RepMgrCommand<参数>Command;
    -?,-h[elp]     打印此消息。
    -host host name  指定eRCMF运行于其上的主机的名,默认为本
                     地主机。
    -p[assword]pswd  指定对于用户id的口令。
    -port port number指定所连接的端口。
    -s[ession]VSname 指定将针对其执行该命令的VolumeSet。
    -u[ser]userid    指定执行该命令的用户id。
    -v on|off|text   设定开启详细显示(显示所返回值而没有文本转
                     换),
    off              (什么都不显示。)
    text             (将消息转换为文本),默认为开启。
  Command是将被执行的eRCMF命令。
如上所述,自动化管理接口使用被称为clgetERCMFpcminfo的实用程序查询eRCMF生产力中心机器,以确定eRCMF守护程序是否为活动的。不向此实用程序提供参数。此实用程序查询主PCM的IP地址。如果此IP地址存在,则它执行eRCMF查询命令。成功运行该查询命令会返回主PCM的IP地址作为活动IP地址。如果命令失败,则它查询辅助PCM的IP地址。如果此运行成功,它返回辅助PCM的IP地址作为活动IP地址;否则,它失败。接着可由需要该活动IP地址的任何逻辑使用该IP地址。
在执行了eRCMF操作之后,AMI也可使用clwait4ERMCFstate以等待所期望的eRCMF状态到达。以下是与clwait4ERMCFstate相关联的语法的一个示例:
clwait4ERMCFstate<VolumnSet><状态>
其中所述状态是在执行eRCMF命令之后所期望的eRCMFVolumeSet状态。
此实用程序查询卷集的状态,将所获得的状态与作为所期望状态并作为命令的参数提供的状态进行比较,并且如果两状态相等,则它返回指示成功的代码。如果两状态不等,则它继续查询直到例如两状态相等为止。
在本发明的另一方面,在具有由纽约Armonk的国际商业机器公司提供的HACMP群集软件的AIX环境中使用自动化管理接口。在这样的环境中,使用群集验证和同步。例如,使用群集验证工具clverifyERCMFconfig来处理对群集配置中的eRCMF配置信息的验证。通过发出clverifyERCMFconfig(不提供参数),验证在此处被称为AIXODM注册表的AIX注册表中存储的eRCMF定义。
除了上述之外,也提供一组命令,用于将用于AIX环境中的群集管理的eRCMF配置定义到ODM中。以下是这些命令的示例:
1.claddercmf
将eRCMF管理的PPRC复制资源添加到HACMP,并在例如HACMPercmf的数据集中存储数据。以下是claddercmf的语法的一个示例:
claddercmf -n <name>-t<volume_type>-p<production_site>
      name             卷集名(最多20个字符)。
      volume_type      模式:NOFCPY(两站点上均没有闪速复制)或
                       ALLFCPY(两站点均具有已定义的闪速复制
                       卷)、XDNOFCPY、XDALLFCPY。
      production_site  此卷集的初始生产站点。
2.clchercmf
改变eRCMF PPRC复制资源的定义。以下是clchercmf的语法的一个示例:
clchercmf -n <name>-N<new_name>-t<volume_type>-p
<production_site>
      name            卷集名(最多20个字符)。
      new_name        卷集的新ercmf复制资源名(最多20个字符)。
      volume_type     卷集模式:NOFCPY(两站点上均没有闪速复制)
                      或ALLFCPY(两站点均具有已定义的闪速复制
                      卷)、XDNOFCPY、XDALLFCPY。
      production_site 此卷集的初始生产站点。
3.cllsercmf
列出被称为HACMPercmf的数据集中已定义的eRCMF管理的卷集。以下是cllsercmf的语法的一个示例:
cllsercmf[-n <name>][-c][-a][-h]
       如果未指定VolumeSet名,则将列出所定义的所有eRCMF管理的
       PPRC VolumeSet的名。如果提供了-a标志,则显示关于所有
    VolumeSet的完整信息。如果通过-n标志提供了特定的VolumeSet,
    则将仅显示关于此VolumeSet的信息。-c标志以冒号分隔的格式显
    示信息。-h标志关掉对列的头部的显示。
4.clrmercmf
从HACMP配置中删除已定义的eRCMF管理的卷集。以下是clrmercmf的语法的一个示例:
clrmercmf -n <name>
      name    提供将被删除的资源的名。
5.cldefercmfglobals
定义eRCMF全局属性到HACMF。以下是cldefercmfglobals的语法的一个示例:
cldefercmfglobals -a <split_policy>-l<link_type>-f<pri_css>-s<sec_css>
-u<ercmf_user>-p<ercmf_password>
     split_policy    当发生站点拆分时由eRCMF采取的操作。
     link_type       指明PPRC是以单向还是以双向进行镜像。它具
                     有如下值:
                          One Way:PPRC仅以单向进行镜像。
                          Two Way:PPRC以双向进行镜像。
     pri_css         输入主复制服务服务器的名。
     sec_css         输入辅助复制服务服务器的名。
     ercmf_user      在eRCMF服务器上输入用户认证id。此id应
                     该已被配置于eRCMF复制服务服务器上。
     ercmf_password  在eRCMF服务器上输入用户认证口令。此口令
                     应该已被配置于eRCMF复制服务服务器上。
6.clchercmfglobals
对定义到HACMP的eRCMF全局属性做出改变。以下是clchercmfglobals的语法的一个示例。
clchercmfglobals -a <split_policy>-l<link_type>-f<pri_css>-s<sec_css>
-u<ercmf_user>-p<ercmf_password>
        能够修改以上任何条目。
7.cllsercmfglobals
列出到HACMF的eRCMF全局属性。
不提供参数。
8.clrmercmfglobals
从HACMF配置中删除ercmf全局属性定义。
不提供参数。
上述命令便利了在AIX环境中定义和维护eRCMF配置。它们被用于在操作系统注册表中存储eRCMF信息以便由AMI访问。
以上详细描述的是用于自动确定数据状态和自动将数据安置于适当状态的能力。在一个特定示例中,此能力使能控制eRCMF以支持层7的灾难恢复解决方案。例如,当出现整个站点故障时,在远程站点的备份服务器上重新启动应用。在重新启动该应用(在本语境中所述应用包括最终用户与其交互的应用,以及从属数据库软件或其他中间件)之前,由群集软件调用本发明的一个或多个方面的自动化管理接口,以确保备份盘卷处于适当状态中以允许应用访问。AMI使用eRCMF识别主站点的ESS的状态,并指引备份站点的PPRC实例跟踪改变(如果主ESS不可用)或者将所述改变反映回去(如果主ESS可用)。在后一种情况下,主站点和辅助站点的角色实际上已被颠倒。如果在后来的某时间主站点返回服务,并在主站点上重新启动应用,则再次调用AMI。如果如上所述颠倒了主站点和辅助站点的角色,则恢复它们。如果主ESS曾经不可用,则当它成为可用时向它写入增量改变。在任一情况下,一旦AMI将控制返回到群集管理软件,则数据的最新副本可用于应用访问。可通过使用AMI使这种恢复过程完全自动化-无需手动干预或延迟,如当使用eRCMF时的通常情况那样。
可在包括各种群集和非群集环境的许多环境中包括本发明的能力。在一个实施例中,AMI被包括于假定存在例如IBM eRCMF、用于AIX的IBM HACMP或Veritas Cluster Server软件解决方案的高可用性的群集软件的环境中。期望群集软件提供通过允许在一主机服务器上运行的工作负荷被另一主机服务器接管而使应用服务的快速恢复自动化的方法。在单站点群集环境中,共享卷组的群集节点具有到相同的一组盘的物理连接。在广域环境中,群集节点访问相同的共享卷组,但每一站点上的节点从不同的物理卷访问它们。使用数据复制技术来维护在两个分离的盘子系统上的、应用数据的分离的相同本地副本。当应用在主服务器上为活动的时,对应用数据的更新被自动复制到备份盘子系统。当出现故障以及将应用移动到备份服务器时,它使用驻留于备份盘系统上的镜像数据继续其操作。如果主服务器返回服务,则可反转数据复制的方向,从而在以当主服务器不可用时可能发生的任何数据改变来将主服务器保持为最新的初始重新同步过程之后,将备份盘上的数据更新复制到主站点的盘。
有利地,能够将本发明的一个或多个方面的自动化管理接口集成到群集解决方案中,并将其设计和开发为用于自动化用于盘卷(例如,ESS盘卷)的复制处理的管理的对eRCMF的控制;协调群集工作负荷管理与存储远程镜像事件;使本地群集能够容易地被扩展到地理上分离的位置;使群集软件能够基于企业存储服务器或者其他存储子系统支持层7的灾难恢复解决方案;自动化站点内的节点之间的PPRC保护的卷对的故障转移;管理eRCMF以便自动化站点之间的PPRC保护的卷对的故障转移;自动化附连于站点内和站点之间的PPRC保护的盘卷对的服务器节点的故障转移/重新集成;提供一组命令行接口,用于当此接口用于例如AIX的特定环境中时定义eRCMF信息到例如AIX ODM注册表的注册表中;当与例如IBM AIX HACMP群集软件一起使用时提供群集验证和同步;消除对于管理eRCMF的用户参与的需要;以及将eRCMF的直接管理与群集管理相分离。
尽管此处描述了各种实施例和示例,但许多其他实施例和示例也可以包含和/或使用本发明的一个或多个方面。例如,可在非群集环境中使用本发明的一个或多个方面。在进一步的示例中,此处描述的群集环境仅是一个示例。其配置和/或其配置的部件可以不同。可与其他的群集环境一起使用本发明的一个或多个方面。此外,ESS、eRCMF和PPRC仅仅是示例。可以使用其他类似技术。此外,根据本发明的一个或多个方面,可确定或管理不是盘或卷集上的数据的数据的状态。存在许多其他变化,并且所述变化均包括在本发明的范围之中。
可以软件、固件、硬件或它们的某种组合的形式实现本发明的一个或多个方面的能力。
本发明的一个或多个方面可被包括在具有例如计算机可用介质的制造物品(例如,一个或多个计算机程序产品)中。所述介质在其中具有例如计算机可读程序代码手段或逻辑(例如,指令、代码、命令等等),以提供和便利本发明的能力。可将所述制造物品包括作为计算机系统的一部分或单独出售。
此外,可提供可由机器读的至少一个程序存储设备,其包含可由该机器执行以执行本发明的能力的至少一个指令程序。
此处描述的流程图仅是示例。可存在对此处描述的这些图或步骤(或操作)的许多变化而无需背离本发明的精神。例如,可以用不同的顺序执行这些步骤,或者可以添加、删除或修改步骤。所有这些变化均被认为是所要求的发明的一部分。
尽管此处已详细描写和描述了优选的实施例,但对于相关领域的技术人员来说,很显然能够不背离本发明的精神而做出各种修改、添加、替换等等,并因此认为以上所述情况均处于如以下权利要求所定义的本发明的范围之内。

Claims (35)

1. 一种管理支持复制数据的通信环境的数据的方法,所述方法包括:
自动获得所述通信环境的数据的当前状态;以及
至少基于所述数据的所获得的当前状态而自动将所述数据安置于使能执行所选择的操作的适当状态;
其中,所述自动获得步骤和所述自动安置步骤由所述通信环境的一自动化管理接口工具执行,该自动化管理接口工具连接于所述通信环境的资源管理器以及所述通信环境的复制管理工具。
2. 权利要求1的方法,其中所述数据包括复制数据。
3. 权利要求1的方法,其中在复制存储介质上维护所述复制数据。
4. 权利要求1的方法,其中所述自动化管理接口工具和所述资源管理器运行于所述通信环境的服务器之上,并且所述复制管理工具运行于该通信环境的另一服务器之上,并且其中所述服务器和所述另一服务器经由存储子系统相互连接,所述存储子系统维护所述数据。
5. 权利要求4的方法,其中所述自动化管理接口工具从所述资源管理器获得控制权。
6. 权利要求1的方法,其中所述自动获得步骤包括查询所述通信环境的一管理工具以获得所述数据的当前状态。
7. 权利要求6的方法,其中所述一管理工具包括复制管理工具。
8. 权利要求1的方法,其中所述自动安置步骤包括:
调用用于将所述数据安置于所述适当状态的至少一个命令,所述调用步骤基于所获得的当前状态;以及
确保所述数据已被安置于所述适当状态。
9. 权利要求8的方法,其中所述确保步骤包括:
响应于所述至少一个命令中的一个或多个命令的执行,查询以确定响应于执行的状态;以及
如果所述查询步骤指示所查询的状态不是所述适当状态,则执行用于确保数据被安置于所述适当状态的一个或多个命令。
10. 权利要求8的方法,还包括使用状态机来执行所述至少一个命令。
11. 权利要求8的方法,其中所述调用和确保步骤由所述通信环境的一自动化管理接口工具执行,并且所述至少一个命令将由与所述自动化管理接口工具连接的复制管理工具执行。
12. 一种管理通信环境的复制存储介质的方法,所述方法包括:
由通信环境的一自动化管理接口工具获得控制权,以确定所述复制存储介质的一个或多个存储介质是否处于允许应用访问和数据复制中的至少一个的适当状态;
由所述自动化管理接口工具自动获得所述一个或多个存储介质的当前状态;以及
由所述自动化管理接口工具自动将所述一个或多个存储介质安置于所述适当状态,以允许应用访问和数据复制中的所述至少一个,所述自动安置步骤至少使用所述自动获得的所述一个或多个存储介质的当前状态。
13. 权利要求12的方法,其中所述自动获得当前状态的步骤包括在一管理工具中查询所述一个或多个存储介质的当前状态。
14. 权利要求13的方法,其中所述自动安置步骤包括:
调用用于将所述一个或多个存储介质安置于所述适当状态的至少一个命令,所述调用步骤基于所获得的状态;以及
确保所述一个或多个存储介质已被安置于所述适当状态。
15. 权利要求14的方法,其中所述确保步骤包括:
响应于所述至少一个命令中的一个或多个命令的执行,查询以确定响应于执行的状态;以及
如果所述查询步骤指示所查询的状态不是所述适当状态,则执行用于确保数据被安置于所述适当状态的一个或多个命令。
16. 权利要求15的方法,其中所述自动化管理接口工具包括接口,而所述一管理工具包括与所述接口连接的复制管理工具。
17. 权利要求16的方法,其中所述接口从与该接口连接的资源管理器获得控制权。
18. 权利要求17的方法,其中所述接口响应于所述通信环境中的故障而获得控制权。
19. 权利要求18的方法,其中所述通信环境包括广域群集环境。
20. 一种管理支持复制数据的通信环境的数据的系统,所述系统包括:
用于自动获得所述通信环境的数据的当前状态的装置;以及
用于至少基于所述数据的所获得的当前状态而自动将所述数据安置于使能执行所选择的操作的适当状态的装置,
其中,所述用于自动获得的装置和所述用于自动安置的装置包括在所述通信环境的一自动化管理接口工具中,该自动化管理接口工具连接于所述通信环境的资源管理器以及所述通信环境的复制管理工具。
21. 权利要求20的系统,其中所述自动化管理接口工具和资源管理器运行于所述通信环境的服务器之上,而所述复制管理工具运行于所述通信环境的另一服务器之上,并且其中所述服务器和所述另一服务器经由存储子系统相互连接,所述存储子系统维护所述数据。
22. 权利要求21的系统,其中所述自动化管理接口工具从所述资源管理器获得控制权。
23. 权利要求20的系统,其中所述用于自动获得的装置包括用于查询所述通信环境的一管理工具以获得所述数据的当前状态的装置。
24. 权利要求20的系统,其中所述用于自动安置的装置包括:
用于调用用于将所述数据安置于所述适当状态的至少一个命令的装置,所述调用操作基于所获得的当前状态;以及
用于确保所述数据已被安置于所述适当状态的装置。
25. 权利要求24的系统,其中所述用于确保的装置包括:
用于响应于所述至少一个命令中的一个或多个命令的执行而查询以确定响应于执行的状态的装置;以及
用于如果所述查询指示所查询的状态不是所述适当状态则执行用于确保数据被安置于所述适当状态的一个或多个命令的装置。
26. 权利要求24的系统,还包括执行所述至少一个命令的状态机。
27. 权利要求24的系统,其中所述用于调用的装置和所述用于确保的装置包括在所述通信环境的所述自动化管理接口工具中,并且所述至少一个命令将由与所述自动化管理接口工具连接的复制管理工具执行。
28. 一种管理通信环境的复制存储介质的系统,所述系统包括:
用于由所述通信环境的一自动化管理接口工具获得控制权以确定所述复制存储介质的一个或多个存储介质是否处于允许应用访问和数据复制中的至少一个的适当状态的装置;
用于由所述自动化管理接口工具自动获得所述一个或多个存储介质的当前状态的装置;以及
用于由所述自动化管理接口工具自动将所述一个或多个存储介质安置于所述适当状态以允许应用访问和数据复制中的所述至少一个的装置,所述用于自动安置的装置至少使用所述自动获得的所述一个或多个存储介质的当前状态。
29. 权利要求28的系统,其中所述用于自动获得状态的装置包括用于在一管理工具中查询所述一个或多个存储介质的当前状态的装置。
30. 权利要求29的系统,其中所述用于自动安置的装置包括:
用于调用用于将所述一个或多个存储介质安置于所述适当状态的至少一个命令的装置,所述调用操作基于所获得的当前状态;以及
用于确保所述一个或多个存储介质已被安置于所述适当状态的装置。
31. 权利要求30的系统,其中所述用于确保的装置包括:
用于响应于所述至少一个命令中的一个或多个命令的执行而查询以确定响应于执行的状态的装置;以及
用于如果所述查询指示所查询的状态不是所述适当状态则执行用于确保数据被安置于所述适当状态的一个或多个命令的装置。
32. 权利要求31的系统,其中所述自动化管理接口工具包括接口,而所述一管理工具包括与所述接口连接的复制管理工具。
33. 权利要求32的系统,其中所述接口从与该接口连接的资源管理器获得控制权。
34. 权利要求33的系统,其中所述接口响应于所述通信环境中的故障而获得控制权。
35. 权利要求34的系统,其中所述通信环境包括广域群集环境。
CNB2005101149828A 2004-11-24 2005-11-16 用于自动管理计算环境的复制数据的状态的方法和系统 Expired - Fee Related CN100412810C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/997,743 2004-11-24
US10/997,743 US7475204B2 (en) 2004-11-24 2004-11-24 Automatically managing the state of replicated data of a computing environment

Publications (2)

Publication Number Publication Date
CN1779650A CN1779650A (zh) 2006-05-31
CN100412810C true CN100412810C (zh) 2008-08-20

Family

ID=36462226

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101149828A Expired - Fee Related CN100412810C (zh) 2004-11-24 2005-11-16 用于自动管理计算环境的复制数据的状态的方法和系统

Country Status (2)

Country Link
US (2) US7475204B2 (zh)
CN (1) CN100412810C (zh)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8918366B2 (en) 2005-02-07 2014-12-23 Mimosa Systems, Inc. Synthetic full copies of data and dynamic bulk-to-brick transformation
US7870416B2 (en) * 2005-02-07 2011-01-11 Mimosa Systems, Inc. Enterprise service availability through identity preservation
US8799206B2 (en) 2005-02-07 2014-08-05 Mimosa Systems, Inc. Dynamic bulk-to-brick transformation of data
US8275749B2 (en) * 2005-02-07 2012-09-25 Mimosa Systems, Inc. Enterprise server version migration through identity preservation
US8812433B2 (en) 2005-02-07 2014-08-19 Mimosa Systems, Inc. Dynamic bulk-to-brick transformation of data
JP2006285919A (ja) * 2005-04-05 2006-10-19 Hitachi Ltd 計算機システム、計算機及びリモートコピー処理方法
US7447940B2 (en) * 2005-11-15 2008-11-04 Bea Systems, Inc. System and method for providing singleton services in a cluster
US7702947B2 (en) * 2005-11-29 2010-04-20 Bea Systems, Inc. System and method for enabling site failover in an application server environment
US7743023B2 (en) * 2006-02-01 2010-06-22 Microsoft Corporation Scalable file replication and web-based access
US20070250626A1 (en) * 2006-04-21 2007-10-25 Electronic Data Systems Corporation System and method for uniform disaster recovery system access
US7797566B2 (en) * 2006-07-11 2010-09-14 Check Point Software Technologies Ltd. Application cluster in security gateway for high availability and load sharing
US20090049456A1 (en) * 2007-08-13 2009-02-19 Ibm Corporation Limiting receipt of unsolicited events by a logical partition in a data storage system
US7937619B2 (en) * 2008-05-30 2011-05-03 Red Hat, Inc. Fine grained failure detection in distributed computing
US8370679B1 (en) * 2008-06-30 2013-02-05 Symantec Corporation Method, apparatus and system for improving failover within a high availability disaster recovery environment
CN102187317B (zh) 2008-10-30 2013-09-18 国际商业机器公司 闪速拷贝管理
US8706959B1 (en) * 2009-06-30 2014-04-22 Emc Corporation Virtual storage machine
US7992031B2 (en) * 2009-07-24 2011-08-02 International Business Machines Corporation Automated disaster recovery planning
US8483071B2 (en) * 2009-09-16 2013-07-09 International Business Machines Corporation Self-healing fibre channel link
WO2011036015A1 (en) 2009-09-24 2011-03-31 International Business Machines Corporation Data storage using bitmaps
GB2485696B (en) 2009-09-25 2016-10-19 Ibm Data storage
US8161142B2 (en) * 2009-10-26 2012-04-17 International Business Machines Corporation Addressing node failure during a hyperswap operation
US8533411B2 (en) * 2010-03-11 2013-09-10 International Business Machines Corporation Multiple backup processes
US8285679B2 (en) 2010-03-11 2012-10-09 International Business Machines Corporation Creating a buffer point-in-time copy relationship for a point-in-time copy function executed to create a point-in-time copy relationship
US20110270802A1 (en) * 2010-04-30 2011-11-03 International Business Machines Corporation Method for controlling changes of replication directions in a multi-site disaster recovery environment for high available application
US8788770B2 (en) 2010-05-25 2014-07-22 International Business Machines Corporation Multiple cascaded backup process
GB2495079A (en) * 2011-09-23 2013-04-03 Hybrid Logic Ltd Live migration of applications and file systems in a distributed system
US10311027B2 (en) 2011-09-23 2019-06-04 Open Invention Network, Llc System for live-migration and automated recovery of applications in a distributed system
US8868860B2 (en) 2011-09-23 2014-10-21 International Business Machines Corporation Restore in cascaded copy environment
US10331801B2 (en) 2011-09-23 2019-06-25 Open Invention Network, Llc System for live-migration and automated recovery of applications in a distributed system
US8806268B2 (en) 2011-09-29 2014-08-12 International Business Machines Corporation Communication of conditions at a primary storage controller to a host
US8719523B2 (en) 2011-10-03 2014-05-06 International Business Machines Corporation Maintaining multiple target copies
US8996828B2 (en) 2012-04-20 2015-03-31 International Business Machines Corporation Systems and methods for migrating data
US9251018B2 (en) 2012-12-19 2016-02-02 International Business Machines Corporation Enhanced recovery of highly available computing systems
US9436407B1 (en) 2013-04-10 2016-09-06 Amazon Technologies, Inc. Cursor remirroring
US9923762B1 (en) * 2013-08-13 2018-03-20 Ca, Inc. Upgrading an engine when a scenario is running
US11474874B2 (en) * 2014-08-14 2022-10-18 Qubole, Inc. Systems and methods for auto-scaling a big data system
WO2016040393A1 (en) * 2014-09-08 2016-03-17 Microsoft Technology Licensing, Llc Application transparent continuous availability using synchronous replication across data stores in a failover cluster
US10270707B1 (en) * 2015-04-06 2019-04-23 EMC IP Holding Company LLC Distributed catalog service for multi-cluster data processing platform
US10706970B1 (en) 2015-04-06 2020-07-07 EMC IP Holding Company LLC Distributed data analytics
US11436667B2 (en) 2015-06-08 2022-09-06 Qubole, Inc. Pure-spot and dynamically rebalanced auto-scaling clusters
CN105184647B (zh) * 2015-08-25 2018-12-21 王子瑜 交易流程的还原方法及系统
US10841148B2 (en) 2015-12-13 2020-11-17 Microsoft Technology Licensing, Llc. Disaster recovery of cloud resources
US11080207B2 (en) 2016-06-07 2021-08-03 Qubole, Inc. Caching framework for big-data engines in the cloud
US10606664B2 (en) 2016-09-07 2020-03-31 Qubole Inc. Heterogeneous auto-scaling big-data clusters in the cloud
US10733024B2 (en) 2017-05-24 2020-08-04 Qubole Inc. Task packing scheduling process for long running applications
US11228489B2 (en) 2018-01-23 2022-01-18 Qubole, Inc. System and methods for auto-tuning big data workloads on cloud platforms
US11704316B2 (en) 2019-05-31 2023-07-18 Qubole, Inc. Systems and methods for determining peak memory requirements in SQL processing engines with concurrent subtasks
US11144360B2 (en) 2019-05-31 2021-10-12 Qubole, Inc. System and method for scheduling and running interactive database queries with service level agreements in a multi-tenant processing system
US11853585B2 (en) * 2020-01-27 2023-12-26 International Business Machines Corporation Performing a point-in-time snapshot copy operation within a data consistency application
US11775395B2 (en) * 2020-01-27 2023-10-03 International Business Machines Corporation Withdrawing a point-in-time snapshot copy operation within a data consistency application
US11934670B2 (en) 2021-03-31 2024-03-19 Netapp, Inc. Performing various operations at the granularity of a consistency group within a cross-site storage solution
US11893261B2 (en) 2021-05-05 2024-02-06 Netapp, Inc. Usage of OP logs to synchronize across primary and secondary storage clusters of a cross-site distributed storage system and lightweight OP logging
US11537314B1 (en) 2021-10-07 2022-12-27 Netapp, Inc. Resynchronization of individual volumes of a consistency group (CG) within a cross-site storage solution while maintaining synchronization of other volumes of the CG
US11892982B2 (en) 2021-10-20 2024-02-06 Netapp, Inc. Facilitating immediate performance of volume resynchronization with the use of passive cache entries
US11907562B2 (en) 2022-07-11 2024-02-20 Netapp, Inc. Methods and storage nodes to decrease delay in resuming input output (I/O) operations after a non-disruptive event for a storage object of a distributed storage system by utilizing asynchronous inflight replay of the I/O operations

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6131148A (en) * 1998-01-26 2000-10-10 International Business Machines Corporation Snapshot copy of a secondary volume of a PPRC pair
US6189079B1 (en) * 1998-05-22 2001-02-13 International Business Machines Corporation Data copy between peer-to-peer controllers
US6526419B1 (en) * 2000-06-09 2003-02-25 International Business Machines Corporation Method, system, and program for remote copy in an open systems environment

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6202085B1 (en) 1996-12-06 2001-03-13 Microsoft Corportion System and method for incremental change synchronization between multiple copies of data
US6393485B1 (en) 1998-10-27 2002-05-21 International Business Machines Corporation Method and apparatus for managing clustered computer systems
US6438705B1 (en) 1999-01-29 2002-08-20 International Business Machines Corporation Method and apparatus for building and managing multi-clustered computer systems
US6609213B1 (en) 2000-08-10 2003-08-19 Dell Products, L.P. Cluster-based system and method of recovery from server failures
JP2002251384A (ja) * 2001-02-23 2002-09-06 Mitsubishi Electric Corp 広域クラスタ制御方式
US20030018701A1 (en) 2001-05-04 2003-01-23 Gregory Kaestle Peer to peer collaboration for supply chain execution and management
US7139885B2 (en) * 2001-12-27 2006-11-21 Hitachi, Ltd. Method and apparatus for managing storage based replication
US7181489B2 (en) 2002-01-10 2007-02-20 International Business Machines Corporation Method, apparatus, and program for distributing a document object model in a web server cluster
US7389300B1 (en) * 2005-05-27 2008-06-17 Symantec Operating Corporation System and method for multi-staged in-memory checkpoint replication with relaxed consistency

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6131148A (en) * 1998-01-26 2000-10-10 International Business Machines Corporation Snapshot copy of a secondary volume of a PPRC pair
US6189079B1 (en) * 1998-05-22 2001-02-13 International Business Machines Corporation Data copy between peer-to-peer controllers
US6526419B1 (en) * 2000-06-09 2003-02-25 International Business Machines Corporation Method, system, and program for remote copy in an open systems environment

Also Published As

Publication number Publication date
US20070294493A1 (en) 2007-12-20
CN1779650A (zh) 2006-05-31
US7475204B2 (en) 2009-01-06
US20060112244A1 (en) 2006-05-25
US7680994B2 (en) 2010-03-16

Similar Documents

Publication Publication Date Title
CN100412810C (zh) 用于自动管理计算环境的复制数据的状态的方法和系统
CN101578586B (zh) 在故障转移和故障回复环境中使用虚拟拷贝
US7334101B2 (en) Point in time remote copy for multiple sites
US9459804B1 (en) Active replication switch
US7032089B1 (en) Replica synchronization using copy-on-read technique
US9182918B2 (en) Network storage systems having clustered raids for improved redundancy and load balancing
US8676760B2 (en) Maintaining data integrity in data servers across data centers
US7260625B2 (en) Data center system and method for controlling the same
US20070220059A1 (en) Data processing node
US8850144B1 (en) Active replication switch
US7577867B2 (en) Cross tagging to data for consistent recovery
US7549079B2 (en) System and method of configuring a database system with replicated data and automatic failover and recovery
US9672117B1 (en) Method and system for star replication using multiple replication technologies
JP5352115B2 (ja) ストレージシステム及びその監視条件変更方法
US7836162B2 (en) Transaction processing system and transaction processing method
CN1983153A (zh) 数据处理系统中执行远程复制的方法和存储数据的方法
US20170235652A1 (en) Method and system for star replication using multiple replication technologies
US9367409B2 (en) Method and system for handling failures by tracking status of switchover or switchback
US7437445B1 (en) System and methods for host naming in a managed information environment
US9582384B2 (en) Method and system for data replication
JP2004272318A (ja) 系切り替えシステムおよびその処理方法並びにその処理プログラム
KR20180034901A (ko) 고 가용성을 위한 실시간 데이터 복제 시스템 및 방법
Bartkowski et al. High availability and disaster recovery options for DB2 for Linux, UNIX, and Windows
JPH04299435A (ja) データベース等価方式
CN201571075U (zh) 智能容灾系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080820

Termination date: 20181116