CN101042662B - 用于管理分布式应用环境中的数据备份的系统和方法 - Google Patents

用于管理分布式应用环境中的数据备份的系统和方法 Download PDF

Info

Publication number
CN101042662B
CN101042662B CN2007100860351A CN200710086035A CN101042662B CN 101042662 B CN101042662 B CN 101042662B CN 2007100860351 A CN2007100860351 A CN 2007100860351A CN 200710086035 A CN200710086035 A CN 200710086035A CN 101042662 B CN101042662 B CN 101042662B
Authority
CN
China
Prior art keywords
backup
host
worker
node
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007100860351A
Other languages
English (en)
Other versions
CN101042662A (zh
Inventor
N·加里梅拉
J·P·史密斯
C·扎里姆巴
A·霍克伯格
N·G·拉斯马森
K·达塔
C·P·帕克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101042662A publication Critical patent/CN101042662A/zh
Application granted granted Critical
Publication of CN101042662B publication Critical patent/CN101042662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了用于提供包括多个主机之间的备份和恢复操作的协调和同步的联合备份以确保数据一致性的系统和方法。主节点(备份主机)用作启动器、协调器、控制器、以及可能的话用作用于整个备份和恢复操作的主控制台。所有其它工作者应用主机和/或工作者备份操作为工作者节点,并且执行如由主节点所指示的各种备份和恢复步骤。在任何一个节点上发生失败的情况下,集中错误处理中止或者恢复整个备份操作。另外,提供数据的逻辑视图,使得当备份每个节点的数据时备份可以被作为一个整体来管理。还可以将备份工作负荷分布到任何其它专用的工作者备份主机(节点),以便最小化对生产环境的影响。

Description

用于管理分布式应用环境中的数据备份的系统和方法
技术领域
本发明涉及用于计算机存储的系统和方法。特别地,本发明涉及用于管理分布式应用环境中的数据备份的系统和方法。
背景技术
这些年来,对于计算机软件应用(例如大型数据库)的需求已经不断地要求改进响应时间、可升级性以及快速数据增长。为了适应这些需求,应用部署模型已经从在使用直接附带存储器的单个主机上运行应用发展到分布式环境,其中在该分布式环境中将应用工作负荷分布在使用集中式存储模型的多个主机上。在这种较新的应用环境中,每个节点通常自动地利用执行某种级别的应用协调的较高逻辑实体来操作。在IBM DB2企业服务器版本(ESE)中可找到这种应用的一个例子。在该应用中,DB2 ESE中的每个节点基本上操作为单独的数据库并且不知道其它节点的存在。然后,目录节点在该分布式环境中用作协调实体。
将DB2通用数据库(UDB)企业服务器版本(ESE)设计为满足中型到大型商业的关系数据库服务器需要。可以将该应用部署在从一个CPU到几百个CPU的任意规模的Linux、UNIX、或者Windows服务器上。DB2 ESE可以操作为用于建立按需(on demand)企业级解决方案(例如几千兆规模的大数据仓库或者高性能24×7可获得的高容量交易处理商业解决方案)或基于Web的解决方案的基础。该应用可以操作为用于建立企业解决方案的ISV的数据库后端,例如,商业智能、内容管理、电子商务、ERP、CRM、或者SCM。另外,DB2 ESE可以提供与其它企业DB2和Informix数据源的连接性、兼容性和集成。
利用分布式应用节点计算环境进行操作,现有的数据保护解决方案备份操作为独立备份应用的每个应用节点的数据。这样,备份数据的联合被局限于仅仅一个节点。基本上,它不能被使用在分布式应用环境中用于联合备份,因为没有更高级别的分布式数据的知识。卸载数据移动能力可以存在,但是它不灵活;可以将整个数据移动委派给仅仅单个系统。已经开发了多种多样的备份系统和方法,但都没有完全解决这个问题。
2005年1月27日公开的Aultman等人的美国专利申请20050021869公开了一种包括备份和恢复(EBR)管理网络系统的数据备份和恢复系统。EBR管理网络系统包括用于针对商业企业执行信息存储、备份和恢复操作的基础架构,它是完全可升级的并且可共享的。EBR管理网络系统包括下列模块化的备份和恢复模型:(1)用于要求<200GB的应用的基于LAN网络的备份和恢复模型;(2)用于要求>500GB并且<1.5TB的应用的基于LAN网络的GigE备份和恢复模型;LAN-Free专用磁带驱动备份和恢复模型;(3)LAN-Free共享磁带驱动备份和恢复模型;(4)无服务器(Server-Free)备份和恢复模型;以及(5)应用存储管理器(ASM)备份和恢复模型。
2004年8月5日公开的Guzman等人的美国专利申请20040153698公开了一种对被损坏的或者被毁坏的电信网元的服务进行灾难预防和恢复的系统和方法。用于网元的灾难备份的计算机实现方法包括建立到多个网元的连接性。主计算机可以将一个或者更多命令传输到网元,用于调用计算机程序来创建多个计算机可读服务连续数据到网元的本地存储器。用于网元的灾难恢复的计算机可执行组件的自动化系统包括计算机可执行的控制器组件,其被配置为选择被指定给灾难备份动作的多个网元。计算机可执行的引擎组件被配置为建立到多个网元的连接性,并且被配置为传输一个或者多个命令到网元,使得为所述网元中的每一个复制服务连续数据。
2002年7月23日公开的Arnon等人的美国专利申请6,424,999公开了一种包括大容量存储子系统的系统,作为主设备和备份子系统,作为从设备,该从设备在恢复操作期间将数据项传送到主设备。通过数据项标识符标识待恢复的每个数据项。起初,主设备向从设备提供数据项标识符的列表,并且从设备接收来自主设备的数据项标识符列表,并且以优选的顺序对其上的数据项标识符进行排序,用以传送到主设备,该排序基于存储介质上的数据项的排序,其中数据项存储在该存储介质上。在多个迭代的每一个中,主设备从从设备接收标识在先前迭代期间所传送的数据项和在当前迭代期间待传送的数据项的数据项标识符,并且请求从设备传送待传送的数据项。主设备使用其从从设备接收的标识在先前迭代期间所传送的数据项的数据项标识符来确认该数据项对应于在先前迭代期间已经被传送的数据项。在每个迭代中,从设备向主设备提供标识在先前迭代期间所传送的数据项和在当前迭代期间待传送的数据项的数据项标识符,并且当被主设备请求时,将在迭代期间将待传送的数据项传送到主设备。
2005年8月4日公开的Manmohan的美国专利申请20050172093公开了一种用于备份和恢复信息的系统,包括:至少一个包括待备份和待恢复的信息的计算机系统;以及用于接收待备份的信息的至少一部分并且用于存储和备份该信息的存储设备。控制器包括:调度系统,用于允许用户将主作业输入进作业队列中,其中主作业表示所述至少一个计算机系统的待备份或者待恢复的信息的一个或者多个部分;以及作业控制系统,用于将主作业分解成多个较小作业,并且将多个较小作业输入到作业队列中。
2005年3月31日公开的Spear等人的美国专利申请20050071588公开了一种用于形成一致性数据组的方法、系统和程序。提供关于表示多个从控制器的一致性组关系以及针对每个表示的从控制器的由该从控制器管理的从存储单元的信息。将命令传输到一致性组关系中的每个从控制器,促使每个从控制器将从存储单元中的数据传输到远程存储器,使得形成一致性组。确定所有从控制器是否成功地将在从存储单元中作为一致性组的一部分的数据传输到远程存储器。
但是,在本领域中仍然需要用于对在多个互连主机上操作的分布式存储应用提供最佳的备份解决方案的系统和方法。在本领域中需要用于支持在多于一个的主计算机上分布的备份应用的备份系统和方法。在本领域中需要用于向一个或者更多主机卸载备份操作的这种系统和方法。另外,在本领域中需要向一个或者多个主机提供分布式应用数据和卸载备份操作两者的这种系统和方法。如下文详述,本发明的实施方式将满足这些和其它需要。
发明内容
本发明的实施方式提供一种联合备份系统和方法,用于协调和同步多个节点(一个或者多个工作者应用主机和/或一个或者多个工作者备份主机)之间的备份和恢复操作以确保数据一致性。在任何一个节点上发生失败的情况下,集中式误差处理中止或者恢复整个备份操作。另外,提供数据的逻辑视图,使得当备份每个节点的数据时备份能够作为一个实体被管理。本发明的实施方式可以将备份工作负荷分布到其它专用的工作者备份主机(工作者节点的一种类型),以便将对生产环境的影响最小化。
本发明的一个典型的实施方式包括包含在在计算机可读介质上的计算机程序,包括:用于通过打开从包括备份主机的主节点到多个工作者节点中的每一个的通信信道来启动备份操作的程序指令;用于在所述备份主机上通过所述通信信道从多个工作者节点中的一个或者多个收集关于分布在所述多个工作者节点中的一个或者多个上的数据对象的数据布局的信息的程序指令;以及用于利用所述备份主机将创建所述数据对象的时间点备份的备份创建工作负荷分布到所述多个工作者节点的程序指令。数据布局可以包括多个应用主机上的数据对象的逻辑到物理映射。在一个示例性实施方式中,多个应用主机共同驻留多个数据库分区,并且数据对象包括数据库数据。分布备份创建工作负荷可以基于待创建的数据对象的时间点备份的类型以及和多个工作者节点的能力。
在一个例子中,可以将工作者节点的原理应用于应用主机。这样,多个工作者节点可以包括一个或者多个驻留使用数据对象的软件应用的工作者应用主机。本发明的实施方式可以包括:用于在分布创建备份的工作负荷之前利用备份主机指示所述一个或者多个工作者应用主机以准备创建所述数据对象的所述时间点备份的程序指令;以及用于在分布创建所述时间点备份的工作负荷之后利用所述备份主机协调通过所述一个或者多个工作者应用主机的正常生产的恢复的程序指令。另外的实施方式可以包括用于利用所述备份主机确定备份确认工作负荷并且将所述备份确认工作负荷分布到所述一个或者多个工作者应用主机以确认所述时间点备份的程序指令。另外,所述备份主机通过在利用所述一个或者多个工作者应用主机启动下一个分布式操作之前一直等候直到从所述一个或者多个工作者应用主机中的每一个接收到对于当前分布式操作的完成状态,来同步所述一个或者多个工作者应用主机的工作。另外,响应于报告给所述备份主机的所述一个或者多个工作者应用主机的任何失败,所述备份主机可以中止当前分布式操作。响应于报告给所述备份主机的所述一个或者多个工作者应用主机的任何失败,所述备份主机还可以启动并且协调所述当前分布式操作的错误恢复。
在另一个例子中,除了主节点之外,工作者节点的原理还可以应用于其它备份主机。这样,多个工作者节点可以包括由备份主机(主节点)指示来支持创建数据对象的时间点备份的一个或者多个工作者备份主机。本发明的实施方式可以包括用于利用所述备份主机创建所述时间点备份的组结构并且将数据传送工作负荷分布到所述多个工作者节点中的一个或者多个工作者备份主机以将所述时间点备份传送到存储服务器的程序指令。
类似于该程序实施方式,本发明的典型方法实施方式可以包括:通过打开从包括备份主机的主节点到多个工作者节点中的每一个的通信信道,来启动备份操作;在所述备份主机上,通过所述通信信道,从多个工作者节点中的一个或者多个收集关于数据对象的数据布局的信息;以及利用所述备份主机,将用于创建所述数据对象的时间点备份的备份创建工作负荷分布到所述多个工作者节点。本发明的方法实施方式还可以被修改为与在此所描述的程序和系统实施方式一致。
附图说明
现在参考附图,其中在全部附图中,相同的参考标号表示相应的部分:
图1A是本发明的示例性备份系统实施方式的框图;
图1B示出了用于本发明的示例性实施方式的从应用主机的数据布局到备份主机上的组结构以及到存储服务器上的备份传送;
图2A示出了可以用于实现本发明的实施方式的示例性计算机系统;
图2B示出了可以使用在本发明的典型实施方式中的典型分布式计算机系统;以及
图3是本发明的示例性方法的流程图。
具体实施方式
1.分布式应用环境的协调的联合备份
本发明的实施方式介绍了运行分布式备份应用的互连主机之间的主节点和工作者节点的操作。主节点用作启动器、协调器、控制器以及可能的话用作用于整个备份和恢复操作的主控制台。所有其它工作者应用主机和工作者备份主机用作工作者节点,并且执行如由主节点所指示的各种备份和恢复步骤。
主节点通过在捕获应用数据布局信息的备份服务器上创建组结构来联合备份应用。所有其它主机只是将他们各自的数据备份到如主机节点所指示的组中。备份对象可以是文件、影像、API对象或者由例如IBM Tivoli存储管理器的存储管理服务器所支持的任何其它对象。另外,主机节点通常收集关于所有应用工作者节点上的应用配置和数据布局的信息。因此,主节点能够做出关于在所有工作者节点之间分布工作负荷的智能决定。如果在工作节点上发生失败,则将所述失败报告回给主节点。基于错误类型和操作中的环境,主节点可以启动或者协调操作的恢复,或者中止在所有参与节点上的操作。
图1A是本发明的示例性备份系统100实施方式的功能框图。备份系统100在计算机设备的网络102上操作。多个工作者应用主机106A-106C互连到网络102,并且操作为运行一个或者更多软件应用的分布式计算机系统。例如,多个工作者应用主机106A-106C可以是用于以分布方式驻留各种数据库分区的数据库应用(例如IBMDB2)的生产主机。工作者应用主机106A-106C可以使用由存储管理器112(例如通过IBM Tivoli存储管理器控制的企业SAN)监视的存储区域网络(SAN)108上的存储器。通常,网络102上的所有设备通过以太网链路114A-114C(包括SAN 108)互连,以实现所有生产、备份和存储操作。
通过备份主机104实现本发明的实施方式,其中备份主机104相对于备份系统100中的所有其它工作者节点(应用工作者主机和可能的话备份工作者主机)用作主节点。在主节点的协调指示下,多个工作者应用主机106A-106C用作多个应用工作者节点,以在应用主机106A-106C上执行数据对象的备份。另外,备份主机104主节点的所有操作可以由操作为备份工作者节点的一个或者多个附加的工作者备份主机110支持。同样地,在全部申请中,对备份主机104的参考可以表示单个主机或者由一个或者多个备份工作者节点所支持的主机。
图1B示出了用于本发明的示例性实施方式的从应用主机122的数据布局到备份主机124上的组结构以及到存储服务器126上的备份传送。基本上,在来自作为主节点的备份主机124(例如图1A的主备份主机104)的指示下,操作为应用工作节点的应用主机122(例如图1的工作者应用主机106A-106C)参与创建到备份主机124上的组结构130(其可选地包括一个或者多个支持备份工作者节点,例如图1A的工作者备份主机110)的它们各自本地数据128A-128C的时间点(快照)备份。然后,可以由(再次地,通过一个或者多个附加的备份工作者所支持的)备份主机124确认组结构130中的本地备份128A-128C的时间点备份。最后,例如通过诸如在SAN 108上操作的IBM Tivoli存储管理器的存储管理器112,再将确认的组结构130备份传送到存储服务器126。存储服务器126可以实现基于策略的分级存储系统132,以协调备份存储。本发明的联合备份实施方式的特征和优势将如下所述。
主节点是单个控制点,并且应用工作者节点彼此不会意识到对方。这允许备份应用部署体系结构被反映在备份组结构范例中。另外,在联合备份处理的每个操作期间,在启动下一个单元之前,主节点一直等候,直到它已经从执行一个工作单元的所有节点接收到完成状态,这在如此复杂的环境中实现了协调较大量工作(例如备份和恢复处理)所要求的同步,具有较容易的可管理性和错误处理。而且,因为主节点知道整个应用部署体系结构,所以它能够基于工作负荷类型和其它相关标准做出关于工作负荷分布的智能决定。可以通过分布式工作负荷支持的处理的一些例子是快照创建、快照影像的确认和备份数据移动。一些用于工作负荷分布的标准是应用类型、操作系统、快照提供者、关于逻辑布局的数据物理布局、用于卸载的可用系统的数目、数据大小、可以分布的最小工作单元。而且,正如本领域技术人员将理解的,本发明的实施方式可以应用于具有分布式应用主机或者卸载备份的任何应用,诸如DB2企业服务器版、Oracle、Exchange、SQL Server、或者mySAP。
由主节点控制的多个工作者节点可以是工作者应用主机和/或工作者备份主机。一个或者多个工作者应用主机可以支持软件应用,例如,如上文所述的数据库应用。本发明的一个典型的实施方式可以包括多个工作者应用主机,但是,本发明的实施方式还包含没有分布在多个工作者应用主机(即,单个工作者应用主机)但是其中备份需要工作负荷分布、协调和同步的应用,例如因为数据量太大而无法由一个工作者节点(备份工作者节点)有效地处理,诸如一些大文件系统,例如GPFS、SANFS。在这种情况下,多个工作者节点将包括一个或者多个工作者备份主机,以支持单个工作者应用主机的备份。在任何情况下,本领域技术人员将意识到,本发明的实施方式包含多个工作者节点的使用,其中取决于特定应用,多个工作者节点可以结合一个或者多个工作者主机和/或一个或者多个工作者备份主机。
2.硬件环境
图2A示出了可以用于实现本发明的实施方式的示例性计算机系统200。计算机202包括处理器204和诸如随机存取存储器(RAM)的存储器206。计算机202可操作地耦合到显示器222,显示器222在图形用户接口218上将诸如视窗的图像呈现给用户。可以将计算机202耦合到其它设备,例如键盘214、鼠标设备216、打印机等。当然,本领域技术人员将意识到,上述组件的任意组合、或者任意多个不同组件、外围设备或者其它设备都可以与计算机202一起使用。
通常,计算机202在存储于存储器206中的操作系统208(例如z/OS、OS/2、LINUX、UNIX、WINDOWS、MAC OS)的控制下进行操作,并且通过接口与用户连接,以例如通过图形用户接口(GUI)模块232接受输入和命令以及呈现结果。尽管将GUI模块232描述为独立的模块,但是执行GUI功能的指令可以驻留或者分布在操作系统208、计算机程序210中,或者利用专用存储器和处理器来实现。
计算机202还实现编译器212,编译器212允许将以编程语言编写的一个或者多个应用程序210转换成处理器204可读的代码,其中编程语言例如是COBOL、PL/1、C、C++、JAVA、ADA、BASIC、VISUAL BASIC或者任何其它编程语言。完成之后,计算机程序210使用关系和逻辑来访问并且操纵存储在计算机202的存储器206中的数据,其中所述逻辑是使用编译器212生成的。可选地,计算机202还包括外部数据通信设备230,例如调制解调器、卫星链路、以太网卡、无线链路或用于例如经由因特网或者其它网络与其它计算机通信的其它设备。
在一个实施方式中,实现操作系统208、计算机程序210和编译器212的指令有形地包含在计算机可读介质中,例如数据存储设备220,其中数据存储设备220可以包括一个或者多个固定的或者可移动的数据存储设备,例如zip驱动器、软盘224、硬盘驱动器、DVD/CD-rom、数字磁带等,它们一般被表示为软盘224。而且,操作系统208和计算机程序210包括指令,其中当由计算机202读取并执行所述指令时,使得计算机202执行实现和/或使用本发明所必须的步骤。计算机程序210和/或操作系统208指令还可以有形地包含在存储器206中,和/或通过数据通信设备230来传输或者访问。同样地,如在此可以使用的术语“制造物品”、“程序存储设备”和“计算机程序产品”旨在包含从任何计算机可读设备或者介质可访问和/或可操作的计算机程序。
本发明的实施方式通常被导向为管理在网络上进行数据备份的任何软件应用程序210。特别地,本发明的实施方式可以采用快照备份,其中快照备份在操作上稍微不同于仅仅进行特定数据的完全复制。通过对数据的特定处理,已知的快照备份包括在特定时间点的数据的实际完美复制,其中数据的“影像”在特定时刻获得,通常不考虑所备份的数据量。有效地,快照备份通过仅仅备份已经发生的改变来操作。另外,在备份连接上只传送数据中的差别,与传统的备份相比,极大地减少操作快照备份所需要的开销。本发明的实施方式可以采用快照技术提供者作为存储堆栈中的任何层,例如文件系统、卷管理器或者存储子系统。
程序210可以操作为包括计算机设备的网络的分布式计算机系统的一部分。而且,该网络包括一个或者多个经由局域网和/或因特网连接(其可以是公共的或者是安全的,例如通过VPN连接)而连接的计算机。
图2B示出了可以使用在本发明的典型实施方式中的典型分布式计算机系统250。这样的系统250包括通过网络252中的各个通信设备互连的多个计算机202。网络252可以是完全专用的(例如商业设施里的局域网),或者网络252的部分或者全部可以是公共的(例如通过在因特网上操作的虚拟专用网(VPN)。而且,计算机202中的一个或者多个可以被专门设计为用作服务器或者主机254,服务器或主机254支持提供给其余客户端计算机256的各种服务。在一个例子中,一个或者多个主机可以是大型计算机258,其中可以执行用于用户端计算机256的重要处理。大型计算机258可以包括耦合到库服务器262的数据库260,数据库260实现用于其它联网的计算机202(服务器254和/或用户端256)的多个数据库程序。库服务器262还耦合到通过存储/备份子系统266指示数据访问的资源管理器264,该存储/备份子系统266支持对包括SAN(例如图1所示的SAN)的联网的存储设备268的访问。SAN包括诸如被表示为不同物理存储设备268A-268C的直接访问存储设备(DASD)光存储和/或磁带存储的设备。各种已知的访问方法(例如VSAM、BSAM、QSAM)可以作为存储/备份子系统266的一部分。
正如本领域所周知的那样,逻辑单元号(LUN)可以被使用在设备的网络中,例如通过小型计算机标准接口(SCSI),以访问和管理联网的计算机设备,例如存储设备。通常,LUN是使用在SCSI总线上以在共享公共总线的设备之间进行区分的唯一标识符。在相互可见的所有设备之间,LUN必须是唯一的。请求I/O处理的设备可以被称为源。目标是执行源所请求的操作的设备。每个目标可以容纳每个被分配有一个LUN的其它设备。
本领域技术人员将意识到,在不偏离本发明的范围的情况下,可以对硬件环境做出许多修改。例如,本领域技术人员将意识到,上述组件的任何组合,或者任意数目的不同组件、外围设备、和其它设备可以与满足功能要求的本发明一起使用,以支持和实现在此所描述的本发明的各种实施方式。
3.协调的联合备份处理
如先前图1中所描述的,主节点作为启动器、协调器、控制器和可能的话用作用于整个备份和恢复操作的主控制台。所有其它工作者应用主机(以及可能的话,附加的工作者备份主机)用作工作者节点,并且执行如通过主节点所指示的各种备份和恢复步骤。主节点通过在捕获应用的数据布局信息的备份服务器上创建组结构来联合备份。所有其它主机将它们的数据备份到如由主节点所指示的组中。如果在工作者节点处发生失败,则它被报告回给主节点。基于错误类型和操作中的环境,主节点可以启动和协调恢复或者中止在所有参与节点上的所有操作。可以通过操作序列示出本发明的实施方式,其中该操作序列可以通过图1的示例性备份系统来执行。
图3是描述在该环境中的协调的联合备份的本发明的示例性方法300的流程图。在操作302中,备份主机通过打开到多个工作者节点中的每一个的通信信道来启动备份操作。通常,备份主机包括主节点,并且多个应用主机是互连到主节点的多个应用工作者节点。在操作304中,备份主机(主节点)通过通信信道,从多个工作者节点中的一个或者多个收集关于分布在多个工作者节点上的数据对象的数据布局的信息。数据布局可以包括在每个应用主机上的逻辑(例如数据库表空间容器、文件、逻辑卷)到物理映射(用于存储子系统上的LUN)。但是,数据布局可以根据创建快照的位置而变化。例如,前述布局描述对于基于硬件的快照是有效的。对于本领域技术人员已知的其它布局形式将应用于基于软件的快照。布局的数据对象可以是文件、影像、API对象或者任何其它由可应用存储系统(例如Tivoli存储管理器)所支持的对象。这样,备份主机收集关于分布在多个应用主机上的数据对象的数据布局的信息。
接下来,在操作306中,备份主机(主节点)指示多个工作者节点中的一个或者多个工作者应用主机,以准备创建数据对象的时间点备份。这可能必须停止应用,强制所有用户退出数据库应用,以创建一致的数据集。例如,在IBM DB2企业服务器版本中,需要特定的序列,其中必须暂停对所有数据库分区的写操作。如本领域技术人员将理解的,指示应用主机以准备备份的要求和/或需要可以根据特定的应用而变化。
在这点上,在操作308中,备份主机(例如主节点)将用于创建数据对象的时间点备份(例如快照备份的数据的时间点复制)的备份创建工作负荷分布到多个工作者节点(例如工作者应用主机)。分布备份创建工作负荷还可以包括调用操作为备份工作者节点的一个或者多个附加的工作者备份主机,以支持备份主机主节点的功能。可以按照许多方式来创建该时间点复制,例如本地地通过每个应用主机,只通过主节点,或者分布在所有工作者备份主机之间。工作负荷的分布可以基于各种参数,例如LUN的数目、在子系统上的LUN配置、在主机系统上的快照软件的可用性、以及如本领域技术人员将理解的其它参数。在一个例子中,使用基于硬件的快照,并且可以基于存储子系统/阵列配置来将快照创建任务分布在备份系统之间,或者可以基于LUN的数目来在备份系统之间简单地划分快照创建任务。
在操作310中,备份主机(主节点)协调通过多个工作者节点中的一个或者多个工作者应用主机的正常生产的恢复。例如,IBMDB2企业服务器版本要求用于恢复数据库分区的特定顺序。类似于备份准备操作306,如本领域技术人员将理解的,协调正常生产的恢复的要求和/或需要可以根据特定的应用而变化。
接下来,在操作312中,备份主机(主节点)可以确定备份确认工作负荷,并且将备份确认工作负荷分布到多个工作节点中的一个或者多个工作者应用主机,用以确认时间点备份。非常希望备份的确认,但不作为要求。另外,还可以将备份确认工作负荷分布到备份主机工作者节点(如果被使用的话)以支持确认处理。确认时间点备份的例子是将文件系统安装在LUN上,LUN是瞬间复制(FlashCopy)的目标。瞬间复制是IBM企业存储子系统(ESS)的已知功能。当源卷和目标卷被包含在相同ESS逻辑子系统(LSS)中时,可以调用瞬间复制。当执行时,“快速数据复制”允许几乎立即使用源数据和目标数据。“快速数据复制”发生在两个阶段中,即逻辑完成和物理完成,其中在逻辑完成中,构造位图以描述源卷,以及物理完成将取决于目标卷的目的。如本领域技术人员将理解的,还可以执行其它附加的和可选的备份确认处理。
在操作314中,在确认之后,备份主机(主节点)创建时间点备份的组结构,并且将数据传送工作负荷分布到多个工作者节点中的一个或者多个工作者备份主机,以将时间点备份传送到存储服务器。这样,一旦工作者节点已经确认了备份数据的一致性,则主节点在备份服务器上创建组结构。然后,它分布用于执行在可用的备份工作者节点之间的数据传送的数据传送工作负荷。而且在此,如果一个或者多个工作者备份主机(备份工作者节点)被使用来支持主节点,则由所述工作者备份主机支持数据传送工作负荷。主节点为每个工作者节点提供关于备份哪些数据和将数据放置在存储服务器(例如IBM Tivoli存储管理器)上的哪个位置的指令。然后,在标记备份完成之前,备份主机(主节点)等待在所有工作者节点上完成数据传送。
这结束了包括本发明的优选实施方式的描述。已经为了描述和说明的目的而提供了包括本发明的优选实施方式的前述描述。没有企图是穷尽性的或者将本发明限制于公开的精确形式。许多修改和变化可以在前述教示的范围内。在不偏离正如以下权利要求书所阐述的本发明概念的情况下,可以设计出本发明的附加的改变。

Claims (16)

1.一种用于管理分布式应用环境中的数据备份的计算机系统,包括:
用于通过打开从包括备份主机的主节点到多个工作者节点中的每一个的通信信道来启动备份操作的装置;
用于在所述备份主机上通过所述通信信道从多个工作者节点中的一个或者多个收集关于分布在所述多个工作者节点中的一个或者多个上的数据对象的数据布局的信息的装置;以及
用于利用所述备份主机将创建所述数据对象的时间点备份的备份创建工作负荷分布到所述多个工作者节点的装置;
其中所述多个工作者节点包括通过所述备份主机指示来支持创建所述数据对象的所述时间点备份的一个或者多个工作者备份主机;以及
用于利用所述主节点包括的所述备份主机创建所述时间点备份的组结构并且将数据传送工作负荷分布到所述多个工作者节点中的所述一个或者多个工作者备份主机以将所述时间点备份传送到存储服务器的装置。
2.根据权利要求1所述的计算机系统,其中所述用于利用所述备份主机将创建所述数据对象的时间点备份的备份创建工作负荷分布到所述多个工作者节点的装置是基于所述数据对象的所述时间点备份的类型和所述多个工作者节点的能力的。
3.根据权利要求1所述的计算机系统,其中所述多个工作者节点包括驻留使用所述数据对象的软件应用的一个或者多个工作者应用主机。
4.根据权利要求3所述的计算机系统,还包括用于在分布所述备份创建工作负荷之前利用主节点包括的所述备份主机指示所述一个或者多个工作者应用主机以准备创建所述数据对象的所述时间点备份的装置;以及
用于在分布所述备份创建工作负荷之后利用所述主节点包括的所述备份主机协调通过所述一个或者多个工作者应用主机的正常生产的恢复的装置。
5.根据权利要求3所述的计算机系统,还包括用于利用所述主节点包括的所述备份主机确定备份确认工作负荷并且将所述备份确认工作负荷分布到所述一个或者多个工作者应用主机以确认所述时间点备份的装置。
6.根据权利要求3所述的计算机系统,其中所述主节点包括的所述备份主机通过在利用所述一个或者多个工作者应用主机启动下一个分布式操作之前一直等候到从所述一个或者多个工作者应用主机中的每一个接收到对于当前分布式操作的完成状态,来同步所述一个或者多个工作者应用主机的工作。
7.根据权利要求3所述的计算机系统,其中响应于报告给所述主节点包括的所述备份主机的所述一个或者多个工作者应用主机的任何失败,所述主节点包括的所述备份主机中止当前分布式操作。
8.根据权利要求7所述的计算机系统,其中响应于报告给所述主节点包括的所述备份主机的所述一个或者多个工作者应用主机的任何失败,所述主节点包括的所述备份主机还启动并且协调所述当前分布式操作的错误恢复。
9.一种用于管理分布式应用环境中的数据备份的方法,包括:
通过打开从包括备份主机的主节点到多个工作者节点中的每一个的通信信道,启动备份操作;
在所述备份主机上,通过所述通信信道,从多个工作者节点中的一个或者多个收集关于分布在所述多个工作者节点中的一个或者多个上的数据对象的数据布局的信息;以及
利用所述备份主机,将用于创建所述数据对象的时间点备份的备份创建工作负荷分布到所述多个工作者节点;
其中所述多个工作者节点包括通过所述备份主机指示来支持创建所述数据对象的所述时间点备份的一个或者多个工作者备份主机;以及
利用所述主节点包括的所述备份主机创建所述时间点备份的组结构,并且将数据传送工作负荷分布到所述多个工作者节点中的所述一个或者多个工作者备份主机,以将所述时间点备份传送到存储服务器。
10.根据权利要求9所述的方法,其中所述利用所述备份主机将用于创建所述数据对象的时间点备份的备份创建工作负荷分布到所述多个工作者节点是基于所述数据对象的所述时间点备份的类型和所述多个工作者节点的能力的。
11.根据权利要求9所述的方法,其中所述多个工作者节点包括驻留使用所述数据对象的软件应用的一个或者多个工作者应用主机。
12.根据权利要求11所述的方法,还包括在分布所述备份创建工作负荷之前,利用所述主节点包括的所述备份主机指示所述一个或者多个工作者应用主机,以准备创建所述数据对象的所述时间点备份;以及
在分布所述备份创建工作负荷之后,利用所述主节点包括的所述备份主机协调通过所述一个或者多个工作者应用主机的正常生产的恢复。
13.根据权利要求11所述的方法,还包括利用所述主节点包括的所述备份主机确定备份确认工作负荷,并且将所述备份确认工作负荷分布到所述一个或者多个工作者应用主机,用以确认所述时间点备份。
14.根据权利要求11所述的方法,其中所述主节点包括的所述备份主机通过在利用所述一个或者多个工作者应用主机启动下一个分布式操作之前一直等候到从所述一个或者多个工作者应用主机中的每一个接收到对于当前分布式操作的完成状态,来同步所述一个或者多个工作者应用主机的工作。
15.根据权利要求11所述的方法,其中响应于报告给所述主节点包括的所述备份主机的所述一个或者多个工作者应用主机的任何失败,所述主节点包括的所述备份主机中止当前分布式操作。
16.根据权利要求15所述的方法,其中响应于报告给所述主节点包括的所述备份主机的所述一个或者多个工作者应用主机的任何失败,所述主节点包括的所述备份主机还启动并且协调所述当前分布式操作的错误恢复。
CN2007100860351A 2006-03-08 2007-03-07 用于管理分布式应用环境中的数据备份的系统和方法 Active CN101042662B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/371,986 US7941404B2 (en) 2006-03-08 2006-03-08 Coordinated federated backup of a distributed application environment
US11/371,986 2006-03-08

Publications (2)

Publication Number Publication Date
CN101042662A CN101042662A (zh) 2007-09-26
CN101042662B true CN101042662B (zh) 2010-05-26

Family

ID=38480194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100860351A Active CN101042662B (zh) 2006-03-08 2007-03-07 用于管理分布式应用环境中的数据备份的系统和方法

Country Status (2)

Country Link
US (1) US7941404B2 (zh)
CN (1) CN101042662B (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613749B2 (en) * 2006-04-12 2009-11-03 International Business Machines Corporation System and method for application fault tolerance and recovery using topologically remotely located computing devices
US7594138B2 (en) * 2007-01-31 2009-09-22 International Business Machines Corporation System and method of error recovery for backup applications
US8156174B2 (en) * 2007-04-13 2012-04-10 Platform Computing Corporation Method and system for information exchange utilizing an asynchronous persistent store protocol
JP5137476B2 (ja) * 2007-06-21 2013-02-06 株式会社日立製作所 連携して動作する複数のアプリケーションが使用するデータのバックアップ環境の設定を行う計算機及び方法
US9189250B2 (en) * 2008-01-16 2015-11-17 Honeywell International Inc. Method and system for re-invoking displays
US9021071B2 (en) * 2008-06-09 2015-04-28 International Business Machines Corporation Methods of federating applications providing modular data
US9639427B1 (en) * 2008-11-25 2017-05-02 Teradata Us, Inc. Backing up data stored in a distributed database system
US8108575B2 (en) * 2009-02-03 2012-01-31 International Business Machines Corporation Methods of multi-server application synchronization without stopping I/O
US8380938B2 (en) * 2010-02-24 2013-02-19 International Business Machines Corporation Providing shared access to data storage resources across cluster computing environment boundaries
CN102244669B (zh) * 2010-05-12 2014-02-26 杭州华三通信技术有限公司 一种堆叠设备中软件升级的方法和堆叠设备
WO2012085297A1 (es) * 2010-12-20 2012-06-28 Rathod Paresh Manhar Resguardo paralelo para entornos de sistemas de bases de datos distribuidas
CN102073739A (zh) * 2011-01-25 2011-05-25 中国科学院计算技术研究所 带有快照功能的分布式文件系统中的数据读与数据写方法
US8478726B2 (en) * 2011-03-03 2013-07-02 Microsoft Corporation Parallel database backup and restore
CN102693168B (zh) * 2011-03-22 2014-12-31 中兴通讯股份有限公司 一种数据备份恢复的方法、系统和服务节点
CN102141975B (zh) * 2011-04-01 2013-10-09 华为技术有限公司 计算机系统
US9507841B2 (en) * 2011-06-16 2016-11-29 Sap Se Consistent backup of a distributed database system
US8924792B2 (en) 2012-05-29 2014-12-30 International Business Machines Corporation Resource planning for data protection validation
US9141685B2 (en) 2012-06-22 2015-09-22 Microsoft Technology Licensing, Llc Front end and backend replicated storage
JP5342055B1 (ja) * 2012-10-30 2013-11-13 株式会社東芝 記憶装置およびデータバックアップ方法
US20140122433A1 (en) * 2012-10-30 2014-05-01 Kabushiki Kaisha Toshiba Storage device and data backup method
US9621412B2 (en) 2012-12-27 2017-04-11 Telecom Italia S.P.A. Method for guaranteeing service continuity in a telecommunication network and system thereof
CN103973470A (zh) * 2013-01-31 2014-08-06 国际商业机器公司 用于无共享集群的集群管理方法和设备
US20140229695A1 (en) * 2013-02-13 2014-08-14 Dell Products L.P. Systems and methods for backup in scale-out storage clusters
US9110601B2 (en) 2013-06-24 2015-08-18 Sap Se Backup lifecycle management
US9110847B2 (en) * 2013-06-24 2015-08-18 Sap Se N to M host system copy
WO2015000105A1 (en) * 2013-07-01 2015-01-08 Empire Technology Development Llc Data migration in a storage network
US10614047B1 (en) 2013-09-24 2020-04-07 EMC IP Holding Company LLC Proxy-based backup and restore of hyper-V cluster shared volumes (CSV)
CN103577546B (zh) * 2013-10-12 2017-06-09 北京奇虎科技有限公司 一种数据备份的方法、设备及分布式集群文件系统
US11294771B1 (en) * 2014-03-24 2022-04-05 EMC IP Holding Company LLC Storage of discovered data object to storage layouts
US9400724B2 (en) 2014-05-29 2016-07-26 Dell Products, Lp Federating and protecting multiple big data sources combined with enterprise data sources for BI
CN106462612A (zh) * 2014-07-01 2017-02-22 萨思学会有限公司 用于容错通信的系统和方法
CN105354108B (zh) * 2014-08-22 2020-01-07 中兴通讯股份有限公司 一种数据备份方法及节点
CN105843702B (zh) 2015-01-14 2019-04-12 阿里巴巴集团控股有限公司 一种用于数据备份的方法以及装置
CN104899116B (zh) * 2015-06-11 2019-06-04 北京京东尚科信息技术有限公司 数据备份的方法、源服务器、目标服务器及系统
US9990367B2 (en) 2015-07-27 2018-06-05 Sas Institute Inc. Distributed data set encryption and decryption
US9811524B2 (en) 2015-07-27 2017-11-07 Sas Institute Inc. Distributed data set storage and retrieval
CN105141666B (zh) * 2015-07-29 2018-12-14 江苏天联信息科技发展有限公司 信息数据存储方法及装置
US10474539B1 (en) * 2015-12-18 2019-11-12 EMC IP Holding Company LLC Browsing federated backups
US10191817B2 (en) * 2015-12-28 2019-01-29 Veritas Technologies Llc Systems and methods for backing up large distributed scale-out data systems
US10579295B2 (en) 2016-10-14 2020-03-03 International Business Machines Corporation Tape backup in large scale distributed systems
US20180166763A1 (en) 2016-11-14 2018-06-14 Skyworks Solutions, Inc. Integrated microstrip and substrate integrated waveguide circulators/isolators formed with co-fired magnetic-dielectric composites
US11301332B2 (en) * 2017-07-31 2022-04-12 Honeywell International Inc. Automatic firmware upgrade of an embedded node
US11081770B2 (en) 2017-09-08 2021-08-03 Skyworks Solutions, Inc. Low temperature co-fireable dielectric materials
US10802920B2 (en) * 2018-04-18 2020-10-13 Pivotal Software, Inc. Backup and restore validation
US11603333B2 (en) 2018-04-23 2023-03-14 Skyworks Solutions, Inc. Modified barium tungstate for co-firing
US11565976B2 (en) 2018-06-18 2023-01-31 Skyworks Solutions, Inc. Modified scheelite material for co-firing
US11003557B2 (en) 2018-12-10 2021-05-11 International Business Machines Corporation Dynamic data restoration from multiple recovery sites implementing synchronous remote mirroring
CN113297318B (zh) * 2020-07-10 2023-05-02 阿里云计算有限公司 数据处理方法、装置、电子设备及存储介质
US11899539B2 (en) * 2020-10-19 2024-02-13 EMC IP Holding Company LLC Synchronized generation of backup copy for federated application in an information processing system
US20220237084A1 (en) * 2021-01-22 2022-07-28 Commvault Systems, Inc. Concurrent transmission of multiple extents during backup of extent-eligible files
CN113194121B (zh) * 2021-04-15 2023-04-18 许家源 电子设备间的文件备份方法
US11775396B1 (en) * 2021-08-24 2023-10-03 Veritas Technologies Llc Methods and systems for improved backup performance

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5440726A (en) * 1994-06-22 1995-08-08 At&T Corp. Progressive retry method and apparatus having reusable software modules for software failure recovery in multi-process message-passing applications
US6424999B1 (en) * 1999-03-11 2002-07-23 Emc Corporation System and method for restoring previously backed-up data in a mass storage subsystem
US6529921B1 (en) * 1999-06-29 2003-03-04 Microsoft Corporation Dynamic synchronization of tables
US6266679B1 (en) * 1999-10-12 2001-07-24 Amd. Inc. Method and apparatus for hierarchical storage of data for efficient archiving and retrieval of data
JP2001350707A (ja) 2000-06-06 2001-12-21 Hitachi Ltd 情報処理システム、記憶装置の割り当て方法
US6665812B1 (en) * 2000-12-22 2003-12-16 Emc Corporation Storage array network backup configuration
US20040139125A1 (en) * 2001-06-05 2004-07-15 Roger Strassburg Snapshot copy of data volume during data access
WO2003005247A2 (en) * 2001-07-06 2003-01-16 Computer Associates Think, Inc. Systems and methods of information backup
US7231461B2 (en) * 2001-09-14 2007-06-12 International Business Machines Corporation Synchronization of group state data when rejoining a member to a primary-backup group in a clustered computer system
US7290017B1 (en) * 2001-09-20 2007-10-30 Emc Corporation System and method for management of data replication
US6857053B2 (en) * 2002-04-10 2005-02-15 International Business Machines Corporation Method, system, and program for backing up objects by creating groups of objects
JP2003316635A (ja) 2002-04-26 2003-11-07 Hitachi Ltd データのバックアップ方法及びそのプログラム
US20030217077A1 (en) * 2002-05-16 2003-11-20 Schwartz Jeffrey D. Methods and apparatus for storing updatable user data using a cluster of application servers
JP3800527B2 (ja) 2002-05-30 2006-07-26 インターナショナル・ビジネス・マシーンズ・コーポレーション ネットワークを利用したデータのバックアップ技術
US6829688B2 (en) * 2002-06-20 2004-12-07 International Business Machines Corporation File system backup in a logical volume management data storage environment
US7185236B1 (en) * 2002-08-30 2007-02-27 Eternal Systems, Inc. Consistent group membership for semi-active and passive replication
AU2003282795A1 (en) * 2002-09-10 2004-04-30 Exagrid Systems, Inc. Method and apparatus for managing data integrity of backup and disaster recovery data
US20040153698A1 (en) * 2002-12-30 2004-08-05 At&T Corporation Concept of zero -dense wave division multiplex disaster recovery process
JP4345334B2 (ja) * 2003-03-28 2009-10-14 日本電気株式会社 耐障害計算機システム、プログラム並列実行方法およびプログラム
US7467168B2 (en) * 2003-06-18 2008-12-16 International Business Machines Corporation Method for mirroring data at storage locations
US7899885B2 (en) * 2003-06-27 2011-03-01 At&T Intellectual Property I, Lp Business enterprise backup and recovery system and method
US7249281B2 (en) * 2003-07-28 2007-07-24 Microsoft Corporation Method and system for backing up and restoring data of a node in a distributed system
US7133986B2 (en) * 2003-09-29 2006-11-07 International Business Machines Corporation Method, system, and program for forming a consistency group
US7240171B2 (en) * 2004-01-23 2007-07-03 International Business Machines Corporation Method and system for ensuring consistency of a group
US7120769B2 (en) * 2004-03-08 2006-10-10 Hitachi, Ltd. Point in time remote copy for multiple sites
US7461100B2 (en) * 2004-05-27 2008-12-02 International Business Machines Corporation Method for fast reverse restore
US8055745B2 (en) * 2004-06-01 2011-11-08 Inmage Systems, Inc. Methods and apparatus for accessing data from a primary data storage system for secondary storage
US7284019B2 (en) * 2004-08-18 2007-10-16 International Business Machines Corporation Apparatus, system, and method for differential backup using snapshot on-write data
US7765187B2 (en) * 2005-11-29 2010-07-27 Emc Corporation Replication of a consistency group of data storage objects from servers in a data network
US7546484B2 (en) * 2006-02-08 2009-06-09 Microsoft Corporation Managing backup solutions with light-weight storage nodes

Also Published As

Publication number Publication date
CN101042662A (zh) 2007-09-26
US7941404B2 (en) 2011-05-10
US20070214196A1 (en) 2007-09-13

Similar Documents

Publication Publication Date Title
CN101042662B (zh) 用于管理分布式应用环境中的数据备份的系统和方法
US9870291B2 (en) Snapshotting shared disk resources for checkpointing a virtual machine cluster
US8676762B2 (en) Efficient backup and restore of a cluster aware virtual input/output server (VIOS) within a VIOS cluster
EP2939154B1 (en) Method and system for implementing consistency groups with virtual machines
EP2521037B1 (en) Geographically distributed clusters
EP2795476B1 (en) Application consistent snapshots of a shared volume
US8392378B2 (en) Efficient backup and restore of virtual input/output server (VIOS) cluster
JP5008991B2 (ja) データのリカバリを制御する装置及び方法
US8788772B2 (en) Maintaining mirror and storage system copies of volumes at multiple remote sites
US7974943B2 (en) Building a synchronized target database
CN100461121C (zh) 把存储单元和相关元数据复制到存储器的方法和系统
US10216588B2 (en) Database system recovery using preliminary and final slave node replay positions
CN101334797A (zh) 一种分布式文件系统及其数据块一致性管理的方法
CN109643310B (zh) 用于数据库中数据重分布的系统和方法
CN103345470A (zh) 一种数据库容灾方法、系统及服务器
US20140279912A1 (en) Client object replication between a first backup server and a second backup server
WO2008092912A1 (en) System and method of error recovery for backup applications
US9398092B1 (en) Federated restore of cluster shared volumes
US10613947B2 (en) Saving and restoring storage devices using application-consistent snapshots
EP3811227B1 (en) Methods, devices and systems for non-disruptive upgrades to a distributed coordination engine in a distributed computing environment
EP4095709A1 (en) Scalable transaction manager for distributed databases
Fujiyama et al. Database transaction management for high-availability cluster system
CN117742887A (zh) 一种基于kubernetes数据卷完成云平台虚拟机克隆的方法
Shivadeep et al. Object Level Orientation During Backup using Data Pump
Tomic et al. Continuous database availability

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant