CN107111533A - 虚拟机集群备份 - Google Patents

虚拟机集群备份 Download PDF

Info

Publication number
CN107111533A
CN107111533A CN201580061651.4A CN201580061651A CN107111533A CN 107111533 A CN107111533 A CN 107111533A CN 201580061651 A CN201580061651 A CN 201580061651A CN 107111533 A CN107111533 A CN 107111533A
Authority
CN
China
Prior art keywords
virtual machine
cluster
node
storage resource
shared storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580061651.4A
Other languages
English (en)
Other versions
CN107111533B (zh
Inventor
A.贝兹巴鲁亚
L.鲁瑟
T.O.布朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN202010833034.4A priority Critical patent/CN112035293A/zh
Publication of CN107111533A publication Critical patent/CN107111533A/zh
Application granted granted Critical
Publication of CN107111533B publication Critical patent/CN107111533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/065Replication mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45583Memory management, e.g. access or allocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/82Solving problems relating to consistency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/84Using snapshots, i.e. a logical point-in-time copy of the data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Hardware Redundancy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

实施例涉及备份虚拟机集群和在备份虚拟机集群之前确定虚拟机节点所有权。在一种场景中,一种计算机系统确定哪些虚拟机节点是所述虚拟机集群的部分,确定哪些共享存储资源是所述虚拟机集群的部分,以及确定哪些虚拟机节点拥有所述共享存储资源。所述计算机系统然后向所述虚拟机节点拥有者指示将在所述虚拟机集群的节点上使至少一个指定的应用停顿,以使得可以创建一致的集群范围检查点。所述计算机系统进一步创建包括针对所述虚拟机集群中的每个虚拟机的检查点的集群范围检查点。

Description

虚拟机集群备份
背景技术
计算系统已变成泛在的,其范围从小型嵌入式设备到电话和平板型设备到PC和后端服务器。这些计算系统中的每个计算系统被设计为对软件代码进行处理。软件允许用户执行功能,与由计算系统提供的硬件交互。在一些情况下,这些计算系统允许用户建立和运行虚拟机。这些虚拟机可以提供未被主机操作系统提供的功能,或者可以包括完全不同的操作系统。这样,虚拟机可以被用于扩展计算系统的功能。
发明内容
本文中描述的实施例涉及备份虚拟机集群和在备份虚拟机集群之前确定虚拟机节点所有权。在一个实施例中,一种计算机系统确定哪些虚拟机节点是所述虚拟机集群的部分,确定哪些共享存储资源是所述虚拟机集群的部分,以及确定哪些虚拟机节点拥有所述共享存储资源。计算机系统然后向虚拟机节点拥有者指示将在所述虚拟机集群的节点上使至少一个指定的应用停顿(quiesce),以使得可以创建一致的集群范围检查点。计算机系统进一步创建包括针对虚拟机集群中的每个虚拟机的检查点的集群范围检查点。创建一致的集群范围检查点降低该系统内的存储要求,因为其避免单独地备份每个虚拟机。此外,由于每个虚拟机不是被单独地备份的,所以节省了用于那些备份中的每个备份的处理资源,允许这些资源被用在其它地方,并且提高其它项目的处理速度。
在另一个实施例中,一种计算机系统执行用于在备份虚拟机集群之前确定虚拟机节点所有权的方法。计算机系统确定对于虚拟机集群内的至少一个共享存储资源而言所有权已变更,并且标识共享存储资源的至少一个潜在的新拥有者。计算机系统确定哪些虚拟机节点拥有共享存储资源,并且向虚拟机节点拥有者指示将在所述虚拟机集群的节点上使至少一个指定的应用停顿,以使得可以创建一致的集群范围检查点。计算机系统然后创建包括针对虚拟机集群中的每个共享存储设备的检查点的集群范围虚拟机检查点。
提供本概要以便以简化形式介绍下面在详细说明中进一步描述的概念的选择。本概要不旨在标识所要求保护的主题的关键特征或者必要特征,其也不旨在被用作在确定所要求保护的主题的范围时的辅助。
附加特征和优点将在随后的说明中被阐明,并且部分上将是对于本领域的技术人员而言从说明中显而易见的,或者可以通过实践本文中的教导被习得。本文中描述的实施例的特征和优点可以通过在所附权利要求中具体指出的仪器和组合来实现和获得。从下面的说明和所附的权利要求中,本文中描述的实施例的特征将变得显而易见。
附图说明
为进一步澄清本文中描述的实施例的以上和其它的特征,将参考附图给予更具体的说明。应当认识到,这些图仅描绘了本文中描述的实施例的示例,并且因此将不被看作对其范围的限制。将通过使用附图在具有附加特异性和细节的情况下描述和解释实施例,其中:
图1图示了包括备份虚拟机集群的本文中描述的实施例可以在其中运行的计算机架构。
图2图示了用于备份虚拟机集群的示例方法的流程图。
图3图示了用于在备份虚拟机集群之前确定虚拟机节点所有权的示例方法的流程图。
图4图示了其中虚拟机集群内的虚拟机节点停机并且所有权变更节点的实施例。
图5图示了其中在虚拟机节点中被实例化的代理创建针对多个共享存储资源的检查点的实施例。
具体实施方式
本文中描述的实施例涉及备份虚拟机集群和在备份虚拟机集群之前确定虚拟机节点所有权。在一个实施例中,计算机系统确定哪些虚拟机节点是虚拟机集群的部分,确定哪些共享存储资源是虚拟机集群的部分,以及确定哪些虚拟机节点拥有共享存储资源。计算机系统然后向虚拟机节点拥有者指示将在虚拟机集群的节点上使至少一个指定的应用停顿,以使得可以创建一致的集群范围检查点。计算机系统进一步创建包括针对虚拟机集群中的每个虚拟机的检查点的集群范围检查点。
在另一个实施例中,计算机系统执行用于在备份虚拟机集群之前确定虚拟机节点所有权的方法。计算机系统确定对于虚拟机集群内的至少一个共享存储资源而言所有权已变更,并且标识共享存储资源的至少一个潜在的新拥有者。计算机系统确定哪些虚拟机节点拥有共享存储资源,并且向虚拟机节点拥有者指示将在虚拟机集群的节点上使至少一个指定的应用停顿,以使得可以创建一致的集群范围检查点。计算机系统然后创建包括针对虚拟机集群中的每个共享存储设备的检查点的集群范围虚拟机检查点。
下面的讨论现在涉及可以被执行的一些方法和方法动作。应当指出,尽管方法动作可以按照特定的次序被讨论或者在流程图中被图示为按照具体的次序发生,但除非专门指出或者由于一个动作在该动作被执行之前取决于另一个动作被完成而是必需的,否则没有任何具体的次序是必需的。
本文中描述的实施例可以实现各种类型的计算系统。这些计算系统现在日益采用多种多样的形式。计算系统例如可以是诸如是智能电话或者特征电话之类的手持型设备、家电、膝上型计算机、可穿戴设备、台式计算机、大型机、分布式计算系统或者甚至常规上还未被看作计算系统的设备。在本说明和权利要求中,术语“计算系统”被宽泛地定义为包括包括至少一个物理的且有形的处理器和能够在其上具有可以被处理器执行的计算机可执行指令的物理的且有形的存储器的任何设备或者系统(或者其组合)。计算系统可以被分布在网络环境上,并且可以包括多个成员计算系统。
如在图1中图示的,计算系统101通常包括至少一个处理单元102和存储器103。存储器103可以是物理系统存储器,物理系统存储器可以是易失性的、非易失性的或者这两者的某种组合。术语“存储器”在本文中可以还被用于指诸如是物理存储介质之类的非易失性大容量存储装置。如果计算系统是分布式的,则处理、存储器和/或存储能力可以也是分布式的。
如本文中使用的,术语“可执行模块”或者“可执行组件”可以指可以在计算系统上被执行的软件对象、例程或者方法。本文中描述的不同的组件、模块、引擎和服务可以被实现为在计算系统上执行(例如,作为单独的线程)的对象或者进程。
在随后的说明中,参考被一个或多个计算系统执行的动作描述了实施例。如果这样的动作用软件来实现,则执行动作的关联的计算系统的一个或多个处理器响应于具有被执行的计算机可执行指令指引计算系统的操作。例如,这样的计算机可执行指令可以被体现在形成计算机程序产品的一个或多个计算机可读介质上。这样的操作的示例涉及对数据的操纵。可以将计算机可执行指令(和被操纵的数据)存储在计算系统101的存储器103中。计算系统101还可以包含允许计算系统101通过有线或者无线网络与其它消息处理器通信的通信信道。
本文中描述的实施例可以包括或者使用包括例如诸如是如下面详细讨论的一个或多个处理器和系统存储器之类的计算机硬件的专用或者通用计算机系统。可以将系统存储器包括在总体存储器103内。系统存储器也可以被称为“主存储器”,并且包括可由至少一个处理单元102通过存储器总线寻址的存储器位置,在这种情况下,在存储器总线自身上断言地址位置。系统存储器传统上是易失性的,但本文中描述的原理也适用于系统存储器是部分上或者甚至完全非易失性的情况。
本发明的范围内的实施例还包括用于携带或者存储计算机可执行指令和/或数据结构的物理的和其它的计算机可读介质。这样的计算机可读介质可以是可以被通用或者专用计算机系统访问的任何可用介质。存储计算机可执行指令和/或数据结构的计算机可读介质是计算机存储介质。携带计算机可执行指令和/或数据结构的计算机可读介质是传输介质。因此,通过示例而非限制,本发明的实施例可以包括至少两种完全不同种类的计算机可读介质:计算机存储介质和传输介质。
计算机存储介质是存储计算机可执行指令和/或数据结构的物理硬件存储介质。物理硬件存储介质包括计算机硬件,所述计算机硬件诸如是RAM、ROM、EEPROM、固态驱动器(“SSD”)、闪存、相变存储器(“PCM”)、光盘存储装置、磁盘存储装置或者其它(一个或者多个)磁性存储设备、或者可以被用于存储采用计算机可执行指令或者数据结构的形式的程序代码的任何其它(一个或者多个)硬件存储设备,所述计算机可执行指令或者数据结构可以被通用或者专用计算机系统访问和执行以实现本发明的所公开的功能。
传输介质可以包括可以被用于携带采用计算机可执行指令或者数据结构的形式的程序代码并且可以被通用或者专用计算机系统访问的网络和/或数据链路。“网络”被定义为使得能进行计算机系统和/或模块和/或其它电子设备之间的电子数据传输的一个或多个数据链路。在通过网络或者另一种通信连接(硬连线、无线或者硬连线或者无线的组合)向计算机系统传输或者提供信息时,计算机系统可以将连接看作传输介质。以上各项的组合也应当被包括在计算机可读介质的范围内。
进一步地,在到达各种计算机系统部件时,采用计算机可执行指令或者数据结构的形式的程序代码可以自动地从传输介质被传输到计算机存储介质(或者反之亦然)。例如,通过网络或者数据链路接收的计算机可执行指令或者数据结构可以被缓冲在网络接口模块(例如,“NIC”)内的RAM中,并且然后最终被传输到计算机系统RAM和/或计算机系统处的较非易失性的计算机存储介质。因此,应当理解,可以将计算机存储介质包括在也(或者甚至主要地)使用传输介质的计算机系统部件中。
计算机可执行指令例如包括当在一个或多个处理器处被执行时导致通用计算机系统、专用计算机系统或者专用处理设备执行特定的功能或者功能组的指令和数据。计算机可执行指令可以例如是二进制文件、诸如是汇编语言之类的中间格式指令或者甚至源代码。
本领域的技术人员将认识到,本文中描述的原理可以在具有许多类型的计算机系统配置的网络计算环境中被实践,所述计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持型设备、多处理器系统、基于微处理器的或者可编程的消费电子、网络PC、微型计算机、大型计算机、移动电话、PDA、平板型设备、寻呼机、路由器、交换机等。本发明还可以在通过网络被链接(通过硬连线数据链路、无线数据链路或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者执行任务的分布式系统环境中被实践。因此,在分布式系统环境中,一个计算机系统可以包括多个成员计算机系统。在分布式系统环境中,可以将程序模块放置在本地和远程存储器存储设备两者中。
本领域的技术人员还将认识到,本发明可以在云计算环境中被实践。云计算环境可以是分布式的,尽管这不是必需的。在是分布式的时,云计算环境可以被国际化地分布在组织内和/或具有跨多个组织地拥有的部件。在本说明和下面的权利要求中,“云计算”被定义为用于使得能进行对可配置计算资源(例如,网络、服务器、存储装置、应用和服务)的共享池的按需网络访问的模型。“云计算”的定义不限于在被正确地部署时可以从这样的模型获得的其它许多优点中的任何优点。
仍然进一步地,本文中描述的系统架构可以包括多个独立的部件,其每个为作为整体的系统的功能做贡献。该模块化在处理平台可伸缩性的问题时允许增加的灵活性,并且为此提供多种优点。可以通过使用具有有限的功能范围的较小规模的部分更容易地管理系统复杂度和增长。通过使用这些松耦合的模块增强了平台故障容忍度。可以随着业务需求指示而递增地使单个部件增长。模块化开发还转化成减少的新功能上市时间。可以在不影响核心系统的情况下添加或者减除新功能。
图1图示了可以在其中使用至少一个实施例的计算机架构100。计算机架构100包括计算机系统101。计算机系统101可以是包括云计算系统的任何类型的本地或者分布式计算机系统。计算机系统101包括用于执行多种不同的功能的模块。例如,通信模块104可以被配置为与其它计算系统通信。通信模块104可以包括可向或者从其它计算系统接收和/或发射数据的任何有线或者无线通信装置。通信模块104可以被配置为与数据库、移动计算设备(诸如是移动电话或者平板型设备)、嵌入式或者其它类型的计算系统交互。
计算机系统101可以包括检查点生成模块106。检查点生成模块106可以被配置为生成检查点或者快照。这些检查点或者快照是计算系统的状态的时间点表示。这些检查点可以形成用于将计算系统恢复到时间上的之前的状态的参考点。检查点可以包括操作系统、被安装在该操作系统内的应用、数据文件、设置和配置变更、媒体文件和与物理或者虚拟机节点相关的其它数据。在一些情况下,检查点可以是适用于虚拟机集群内的多个不同的虚拟机节点和/或共享存储资源的集群范围检查点。
例如,如图1中所示,虚拟机集群116包括两个虚拟机(VM)节点113A和113B。尽管在图1中示出了两个节点,但将理解,给定的VM集群中可以存在基本上任意数量的VM节点。类似地,尽管在图1中示出了仅一个共享存储资源117,但将理解,可以在给定的VM集群或者物理机的集群中实现基本上任意数量的共享存储资源。每个虚拟机节点可以具有诸如是应用114之类的被安装在其上的应用。如图1中所示,VM节点可以具有相同的被安装的应用(例如,114),并且可以具有未被示出的其它的被安装的应用。实际上,每个VM节点可以具有在其上被安装或者运行的基本上任意数量的应用或者服务。虚拟机节点可以进一步具有被安装在其上的虚拟化代理(或者在本文中被简单地称为“代理”)。这些代理(例如,115)可以执行多个任务,所述任务包括把VM节点准备好以生成集群范围检查点。
例如,指示生成模块105可以生成被发送到虚拟机集群116的一个或多个节点的指示112。在图1中,指示112被发送到VM节点113A,所述VM节点113A是在VM节点113A与113B之间被共享的共享存储资源117的拥有者。该指示可以向拥有VM节点指示将在集群的VM节点上和在共享存储装置117上使应用(例如,114)停顿。如本文中使用的术语“停顿”指把应用安置好或者把应用准备好以使得可以针对应用创建一致的、稳定的检查点。因此,停顿可以包括向共享存储装置写数据、将数据从临时存储器清除(flush)、完成事务或者采取为获得针对该应用或者应用集合的稳定状态而需要的任何其它步骤。一旦在共享存储装置上使应用停顿,则可以生成适用于VM集群内的多个VM节点以及潜在地适用于VM集群内的多个共享存储资源的稳定的、一致的检查点。
经常使用在客人操作系统内运行的高可用性软件使虚拟机形成集群。这些客人操作系统可以使用包括共享虚拟硬盘的各种形式的共享存储装置。传统的虚拟机备份一次仅对单个VM起作用,而不提供用于以一致的方式备份整个VM集群的装置。因此,一次备份单个VM不提供整体集群的一致图像。此外,单独地备份每个虚拟机可以导致共享存储装置的多个副本被备份,导致产生被浪费的存储资源。
VM集群(在本文中也被称为客人集群)116可以包括跨多个物理服务器散布的多个VM节点,所述多个物理服务器自身可以是主机集群的部分。如上面提到的,可以在每个VM中实例化虚拟化代理。虚拟化代理可以包括被安装在虚拟机内的集成组件。虚拟化代理可以查询客人操作系统中的集群化框架,以确定共享存储资源和共享存储资源的拥有节点。通常,在VM集群中,共享磁盘或者其它的共享存储资源被一个VM节点(例如,图1中的节点113A)专有地拥有。在一些实施例中,这可以通过使用小型计算机系统接口(SCSI)预留来达到。只有拥有节点可以对共享磁盘执行I/O。假设出现故障转移,则所有权移到另一个VM节点(如图4中一般地所示)。
在主机集群范围,可以作为整体在VM集群上发起快照操作。在主机集群层,将查询共享存储信息的消息发送给VM(其是VM集群的成员)内的虚拟化代理。每个VM的虚拟化代理查询客人中的集群化框架(例如,高可用性软件)以获得集群中的共享磁盘资源的列表和它们中的每个共享磁盘资源的拥有节点。然后将该信息发送回主机集群。与虚拟化代理的通信可以通过安全的、私有的客人-主机通信信道(例如,通过VM总线)或者通过其它的通信装置发生。
主机集群可以使用从虚拟化代理获得的信息来确保仅共享磁盘的拥有VM负责获取该共享虚拟磁盘(例如,117)的快照。主机集群发起针对客人集群中的每个VM的VM快照操作。额外地,主机集群为每个VM提供它负责进行快照的共享虚拟磁盘的列表。至少在一些实施例中,拥有VM还负责在执行对存储装置的快照之前使在共享虚拟磁盘上运行的应用到达一致的状态(即,使应用停顿)。每个VM还可以负责获取它的私有/非共享的存储装置的快照。结果是产生包括每个VM的快照的整个客人/VM集群的快照,但是快照中存在每个共享虚拟磁盘的单个实例(如在图5中一般地示出的)。
相应地,本文中描述的实施例包括在每个VM中实例化提供关于共享存储资源的信息的代理。此外,实施例在主机集群范围分析关于共享存储资源的该信息,以跨不同的VM分布对共享存储设备进行快照的责任。将在下面分别关于图2和3的方法200和300进一步解释这些概念。
鉴于上面描述的系统和架构,参考图2和3的流程图将更好地认识可以根据所公开的主题被实现的方法。出于简化解释的目的,所述方法被显示和描述为一系列方框。然而,应当理解和认识到,所要求保护的主题不受方框的次序的限制,因为一些方框可以按照与本文中所描绘和描述的次序不同的次序和/或与其它方框并发地发生。此外,并非全部所图示的方框可以是实现下文中描述的方法所必需的。
图2图示了用于备份虚拟机集群的方法200的流程图。现在将频繁参考环境100的部件和数据描述方法200。
方法200包括确定哪些虚拟机节点是虚拟机集群的部分(210)。例如,计算机系统101的确定模块110可以确定虚拟机节点113A和113B是VM集群116的部分。确定模块110还可以确定哪些共享存储资源是虚拟机集群的部分(220)和哪些虚拟机节点拥有共享存储资源(230)。因此,在图1中,确定模块可以查询VM节点或者在那些节点上被实例化的代理,以确定共享存储资源117是VM集群116的部分,以及进一步确定VM节点113A是共享存储资源117的拥有者。因此,VM节点113A在VM节点中具有写入共享存储资源117的专有能力。通过仅允许集群中的一个VM节点是拥有者,可以在正在访问共享存储资源的多个不同的VM节点之间确保数据一致性。在一些情况下,多个VM节点可以同时从共享存储资源读数据,而在其它情况下,一次仅一个节点可以读共享存储资源或者写入共享存储资源。仍然进一步地,应用可以在每个共享存储资源上运行以及在资源拥有者节点上运行。
方法200进一步包括:向作为存储设备拥有者的一个或多个虚拟机节点指示将在虚拟机集群的节点上使至少一个指定的应用停顿,以使得可以创建一致的集群范围检查点(240)。例如,指示生成模块105可以生成指示112,以及通信模块104可以将指示传送给作为各种VM集群的存储设备拥有者的VM节点。在计算机系统101是一个或多个VM节点的主机机器的情况下,通信可以通过VM总线、通过模拟的本地网络连接或者经由其它的通信装置发生。如果VM节点被托管在与计算机系统101不同的物理计算系统上,则可以经由任何有线或者无线通信装置发射指示消息112。所述指示指示了:将对于操作系统、对于应用、对于服务或者对于其某种组合的数据停顿。
例如,如果将针对正在VM节点113A和113B两者上运行的应用114创建集群范围检查点,则指示112将指示用于应用114的数据要被停顿,以使得可以针对该应用生成一致的、稳定的检查点。应当指出,在另一个实施例中,检查点生成模块106可以发出如下这样的指示,即:用于应用114的数据要被停顿。检查点生成模块106可以要求每个VM节点停顿和生成检查点。响应于该消息/指示,每个VM节点使应用停顿,并且创建存储装置(包括它拥有的共享存储装置)的检查点。产生的集群范围检查点107将包括针对VM节点113A的检查点108和针对VM节点113B的检查点109。
一旦对于应用的数据已停顿,则检查点生成模块106可以生成包括针对虚拟机集群中的每个虚拟机的检查点的集群范围检查点(250)。集群范围检查点107因此可以包括虚拟机集群中的每个共享存储资源的单个实例。相应地,如果虚拟机集群包括多个不同的共享存储资源,则集群范围检查点将包括针对该集群中的每个共享存储资源的检查点。
例如,如图5中所图示的,虚拟机集群501包括两个虚拟机节点502和503和三个共享存储资源(例如,虚拟或者物理硬盘或者其它类型的存储介质)505、506和507。在检查点生成模块106生成针对VM集群501的集群范围检查点时,集群范围检查点508包括针对每个共享资源的单独的检查点,其包括针对资源505的检查点、针对资源506的检查点和针对资源507的检查点。VM节点502可以是共享存储资源505、506和507中的一个、两个或者全部三个共享存储资源的拥有者。因此,VM节点502可以负责在生成集群范围检查点508之前在共享存储资源上使数据停顿。可以在VM节点上实现虚拟化代理,以帮助促进对一致的、稳定的集群范围检查点的创建。
每个VM节点可以具有在其上被实例化的虚拟化代理504A/504B,其执行各种功能。例如,虚拟化代理可以被配置为确定虚拟机集群内的共享存储资源的当前的所有权。图1的虚拟化代理115可以采取步骤以确定它当前在其中被实例化的节点是否是拥有者,并且如果是,那么它“拥有”哪些共享存储资源。虚拟化代理115还可以与集群116中的其它VM节点通信以确定它们是否是拥有者以及它们拥有哪些共享存储资源。替换地,代理可以被用于向集群中的其它VM节点广播消息,该消息向那些节点通知集群内的每个节点的当前的所有权状态。在其它实施例中,推送和拉取技术的组合可以被用于确定VM集群内的共享存储装置所有权。
在一些实施例中,虚拟化代理115可以与主机操作系统通信以作出包括VM集群成员关系和集群内的所有权的各种确定。可以使用安全的、私有的客人-主机通信信道作出这样的通信。在一些情况下,主机可以向代理指示将创建检查点,并且可以指定针对该检查点的参数或者设置。例如,主机可以指示将立即停止运转(spin down)正在运行的进程,以及将立即使全部数据停顿以便尽可能早地获取快照。替换地,主机可以指示将缓慢地并且随着进程自然地结束逐渐地停止运转正在运行的进程,以及将在应用和关联的进程完全关闭时使数据停顿。相应地,管理员或者其他用户可以控制如何生成检查点。
在具有多个VM节点和多个共享存储资源的VM集群(例如,图5)中,每个拥有VM节点可以创建针对它拥有的共享存储资源的检查点。因此,如果VM节点502拥有共享资源505和506,则它可以发起针对那些资源的检查点,而如果VM节点503拥有共享资源507,则它可以发起针对该资源的检查点。集群范围检查点508在那种情况下将包括针对每个共享资源(505、506和507)的单独的检查点,其中,每个共享存储资源的检查点由该资源的拥有者发起。这可以在允许拥有节点使在那些节点上的应用停顿的主动-被动集群上发生。
为维持跨应用和/或VM节点的一致的状态,共享存储资源拥有者可以实现硬盘预留以维持共享硬盘上的一致的状态。例如,共享存储资源拥有者可以实现SCSI控制器预留以维持共享SCSI磁盘上的一致的状态。如果不拥有指定的共享存储资源的非拥有虚拟机节点希望使对于给定应用的数据停顿,则该非拥有VM节点(例如,图1的VM节点113B)可以与共享存储资源的拥有者(VM节点113A)通信以使给定的应用停顿。拥有节点可以在完成时再与非拥有节点通信,以指示已使应用的数据停顿。在一些情况下,虚拟机节点的客人操作系统可以是发起对针对该虚拟机节点的检查点的创建的实体。在这些情况下,客人OS可以与VM节点上的代理通信以发起对检查点的创建。
在一些情况下,虚拟机节点可以具有其自己的私有的、非共享的存储资源。在这样的情况下,具有其自己的私有的、非共享的存储资源的虚拟机节点可以创建针对其私有的、非共享的存储装置的检查点。该私有的检查点可以随集群范围检查点508的其它共享资源检查点一起被存储,或者可以被单独地存储。
代理可以进一步被用于分析虚拟机集群中的其它虚拟机节点以确定那些虚拟机节点是否已经历故障。以及,在确定虚拟机节点已出故障时,代理可以发起分析,以确定该虚拟机节点的故障是否已影响虚拟机集群内的共享存储节点所有权。例如,如图4中所示,虚拟机集群401可以包括四个虚拟机节点:402、403、404和405。每个VM节点可以分别包括其自己的代理:407A、407B、407C和407D。集群401的VM节点中的每个VM节点可以访问单个共享存储资源406。如果如图4中所示,VM节点402是共享存储资源406的拥有者,并且如果该节点由于某个原因(例如,由于硬件或者软件故障)而故障,则所有权可以被移动到虚拟机集群401内的另一个虚拟机节点。新的拥有者可以是集群中的任何其它的VM节点,并且可以基于策略或者简单地基于“下一个可用的”方法被确定。通过假设拥有者角色,VM 403现在是共享存储资源406的拥有者,并且是写入该存储资源的数据的唯一控制者。
现在转向图3,图示出了用于在备份虚拟机集群之前确定虚拟机节点所有权的方法300的流程图。现在将频繁参考图1的环境100的部件和数据描述方法300。
方法300包括确定对于虚拟机集群内的至少一个共享存储资源而言所有权已变更(310)。例如,如上面关于图4提到的,共享存储资源的所有权可以随时间变更。例如,拥有特定资源的VM节点可能由于硬件或者软件故障、由于例程维护、由于恶意攻击或者因为某个其它的原因而故障。然而,在一些情况下,所有权可以基于策略或者基于由用户作出的手动变更而不由于VM节点上的任何类型的故障而变更。例如,管理员或者其他用户可能希望在图4中将所有权从VM节点402变更到VM节点403。管理员可能具有这样做的各种原因。实际上,管理员可能知道给定的节点将被停机以用于在接下来的二十四小时内进行维护。因此,管理员可以将所有权转移到集群内的另一个VM节点。
在一些情况下,故障转移策略可以在集群中的VM节点之间就位。例如,图4的VM集群401可以具有已设立的故障转移策略,该故障转移策略指示,在给定的节点出故障时,所有权角色以及可能一些应用的应用处理可以自动地故障转移到指定的VM节点。因此,在VM集群401中,故障转移策略可以指示,如果VM节点402停机,则拥有者角色将被转移到VM节点403。故障转移策略可以进一步指示,如果VM节点403停机,则拥有者角色将被转移到VM节点404,等等。
方法300接下来包括标识共享存储资源的至少一个潜在的新拥有者(320)。图1的计算机系统101的标识模块111可以标识共享存储资源的潜在的新拥有者。在根据故障转移策略转移所有权角色的上面的示例中,标识模块111或者被安装在VM节点上的虚拟化代理中的任一个虚拟化代理可以确定哪些VM节点可以是给定的共享存储资源的潜在的新拥有者。由于VM集群内可以存在许多共享存储资源,所以可以存在许多拥有者和许多潜在的拥有者。例如,策略可以指示,如果节点由于某个原因而出故障时随后的拥有者将是谁。因此,代理可以与彼此通信以维护对于每个存储资源的所有权的当前状态,所述当前状态标识当前拥有者是谁以及基于策略标识潜在的新拥有者。
方法300进一步包括确定哪一个或多个虚拟机节点拥有共享存储资源(330)。例如,确定模块110可以确定图1的VM节点113A当前拥有共享存储资源117。指示生成模块105然后可以生成指示112,指示112向作为共享存储资源的拥有者的一个或多个虚拟机节点指示将在虚拟机集群的节点上使至少一个指定的应用停顿,以使得可以创建一致的集群范围检查点(340)。集群范围检查点生成模块106然后可以生成集群范围虚拟机检查点107(350),集群范围虚拟机检查点107包括针对虚拟机集群中的每个共享存储设备的检查点(包括针对VM节点113A(检查点108)和针对VM节点113B(检查点109)的检查点)。集群范围检查点生成模块106可以至少在一些实施例中生成在单个步骤中使指定的应用停顿并且创建检查点的指示112。
如上面提到的,所有权的变更可以导致产生许多不同的场景,所述场景包括从出故障的VM节点进行的故障转移或者由管理员作出的对所有权的手动变更。因为拥有者角色确保仅一个VM节点可以写入共享存储设备,所以如果该拥有者角色出故障并且不进行故障转移,则没有VM节点将能够写该共享存储设备。因此,所有权角色根据需要从节点转移到节点以确保每个共享存储资源具有拥有者。共享存储资源拥有者具有对共享存储资源的专有的写访问,或者可以具有对共享存储资源的共享的写访问,其中,根据访问策略对访问进行调控。例如,如果两个不同的VM节点正在写入共享数据存储库上的不同的文件,则这两者节点可以具有所有权并且同时写入共享存储设备。
在一些实施例中,共享存储资源是主机计算节点(诸如是图1的计算机系统101)的部分,或者可以通过主机计算节点来访问。可以使用被安装在VM节点上的虚拟化代理访问共享存储资源。可以在每个虚拟机节点上实例化虚拟化代理,并且虚拟化代理可以被配置为,确定共享存储资源所有权,以及确保检查点之间的一致性。可以通过在创建检查点之前使对于磁盘的应用数据停顿来确保一致性。作为拥有者的VM节点可以在被指令时或者在被需要时自动地使应用数据停顿。额外地,非拥有虚拟机节点可以确定给定的共享存储资源的当前拥有者,并且允许当前拥有者使在非拥有虚拟机节点上运行的应用停顿。
权利要求支持:一种包括执行用于备份虚拟机集群的计算机实现的方法的至少一个处理器的计算机系统,所述方法包括:确定哪些虚拟机节点113A是虚拟机集群116的部分,确定哪些共享存储资源117是虚拟机集群的部分,确定哪一个或多个虚拟机节点拥有共享存储资源,向一个或多个虚拟机节点拥有者113A指示将在虚拟机集群的节点上使至少一个指定的应用114停顿,以使得可以创建一致的集群范围检查点107,以及创建包括针对虚拟机集群中的每个虚拟机的检查点的集群范围检查点107。
在一些实施例中,集群范围检查点包括虚拟机集群中的每个共享存储资源的单个实例。在每个虚拟机上实例化虚拟化代理,并且虚拟化代理确定虚拟机集群内的共享存储资源的当前,所有权。虚拟化代理还使用安全的、私有的客人-主机通信信道与主机操作系统通信。
提供了一种包括至少一个处理器的计算机系统。所述计算机系统执行用于在备份虚拟机集群之前确定虚拟机节点所有权的计算机实现的方法,所述方法包括:确定对于虚拟机集群401内的至少一个共享存储资源406而言所有权已变更,标识共享存储资源的至少一个潜在的新拥有者403,确定哪一个或多个虚拟机节点403拥有共享存储资源,向一个或多个虚拟机节点拥有者指示将在虚拟机集群401的节点上使至少一个指定的应用114停顿,以使得可以创建一致的集群范围检查点107,以及创建包括针对虚拟机集群中的每个共享存储设备406的检查点的集群范围虚拟机检查点107。
在一些实施例中,共享存储资源拥有者具有对共享存储资源的专有的访问,或者具有对共享存储资源的共享的访问,其中,根据访问策略对访问进行调控。在一些情况下,在每个虚拟机上实例化虚拟化代理,其中,虚拟化代理被配置为,确定共享存储资源所有权,以及确保检查点之间的一致性。非拥有虚拟机节点确定给定的共享存储资源的当前拥有者,并且允许当前拥有者使在非拥有虚拟机节点上运行的一个或多个应用停顿。
提供了一种包括以下项的计算机系统:一个或多个处理器;确定模块110,其用于确定哪些虚拟机节点113A是虚拟机集群116的部分,确定哪些共享存储资源是虚拟机集群的部分,以及确定哪一个或多个虚拟机节点拥有共享存储资源;指示模块105,其用于向一个或多个虚拟机节点拥有者指示将在虚拟机集群116的节点上使至少一个指定的应用114停顿,以使得可以创建一致的集群范围检查点107;以及集群范围检查点创建模块106,其用于创建包括针对虚拟机集群116中的每个虚拟机的检查点的集群范围检查点107。
所述计算机系统进一步包括:分析模块,其用于分析虚拟机集群中的一个或多个虚拟机节点以确定虚拟机节点是否已经历故障,以及在确定至少一个虚拟机节点已出故障时,发起用于确定虚拟机节点的故障是否已影响虚拟机集群内的共享存储节点所有权的分析。在由于节点故障而进行的故障转移时,将共享存储资源的所有权移动到虚拟机集群内的另一个虚拟机节点。共享存储资源的拥有虚拟机节点使在共享存储资源上运行的一个或多个应用停顿,并且创建针对该共享存储资源的检查点。
在一些实施例中,拥有虚拟机节点拥有多个共享存储资源,并且创建针对它拥有的多个共享存储资源中的每个共享存储资源的检查点。在一些情况下,虚拟机节点中的至少一个虚拟机节点具有其自己的私有的、非共享的存储资源,并且进一步地,具有其自己的私有的、非共享的存储资源的至少一个虚拟机节点创建针对其私有的、非共享的存储装置的检查点。不拥有指定的共享存储资源的非拥有虚拟机节点与共享存储资源的拥有者通信,以使给定的应用停顿。
相应地,提供了备份虚拟机集群的方法、系统和计算机程序产品。此外,提供了在备份虚拟机集群之前确定虚拟机节点所有权的方法、系统和计算机程序产品。
本文中描述的概念和特征可以以其它具体的形式被体现,而不脱离它们的精神或者描述性特性。所描述的实施例将在所有方面都被看作仅说明性的而非限制性的。因此,本公开内容的范围由所附权利要求而非由前述说明指示。落在权利要求的等价项的意义和范围内的全部变更将被包括在它们的范围内。

Claims (10)

1.一种用于备份虚拟机集群的计算机实现的方法,所述计算机实现的方法被执行用于所述计算机实现的方法的计算机可执行指令的一个或多个处理器执行,并且所述计算机实现的方法包括:
确定哪些虚拟机节点是所述虚拟机集群的部分;
确定哪些共享存储资源是所述虚拟机集群的部分;
确定哪一个或多个虚拟机节点拥有所述共享存储资源;
向所述一个或多个虚拟机节点拥有者指示将在所述虚拟机集群的节点上使至少一个指定的应用停顿,以使得可以创建一致的集群范围检查点;以及
创建包括针对所述虚拟机集群中的每个虚拟机的检查点的集群范围检查点。
2.根据权利要求1所述的计算机实现的方法,其中,所述集群范围检查点包括所述虚拟机集群中的每个共享存储资源的单个实例。
3.根据权利要求1所述的计算机实现的方法,其中,在每个虚拟机上实例化虚拟化代理,并且其中,所述虚拟化代理确定所述虚拟机集群内的共享存储资源的当前所有权。
4.根据权利要求3所述的计算机实现的方法,其中,所述虚拟化代理使用安全的、私有的客人-主机通信信道与主机操作系统通信。
5.一种用于在备份虚拟机集群之前确定虚拟机节点所有权的计算机实现的方法,所述计算机实现的方法被执行用于所述计算机实现的方法的计算机可执行指令的一个或多个处理器执行,并且所述计算机实现的方法包括:
确定对于虚拟机集群内的至少一个共享存储资源而言所有权已变更;
标识所述共享存储资源的至少一个潜在的新拥有者;
确定哪一个或多个虚拟机节点拥有所述共享存储资源;
向一个或多个虚拟机节点拥有者指示将在所述虚拟机集群的节点上使至少一个指定的应用停顿,以使得可以创建一致的集群范围检查点;以及
创建包括针对所述虚拟机集群中的每个共享存储设备的检查点的所述集群范围虚拟机检查点。
6.根据权利要求5所述的计算机实现的方法,其中,所述共享存储资源拥有者具有对所述共享存储资源的专有的访问,或者具有对所述共享存储资源的共享的访问,其中,根据访问策略对访问进行调控。
7.根据权利要求5所述的计算机实现的方法,其中,在每个虚拟机上实例化虚拟化代理,所述虚拟化代理被配置为,确定共享存储资源所有权,以及确定检查点之间的一致性。
8.根据权利要求5所述的计算机实现的方法,其中,非拥有虚拟节点确定给定的共享存储资源的当前拥有者,并且允许所述当前拥有者使在所述非拥有虚拟机节点上运行的一个或多个应用停顿。
9.一种计算机系统,包括:
计算机可读介质,其包含计算机可执行指令;
一个或多个处理器,所述一个或多个处理器在执行所述计算机可执行指令时,导致所述计算机系统被配置为,具有用于执行用于在备份虚拟机集群前确定虚拟机节点所有权的计算机实现的方法的架构,并且在被配置为具有所述架构时,所述计算机系统包括:
确定模块,其用于确定哪些虚拟机节点是所述虚拟机集群的部分、确定哪些共享存储资源是所述虚拟机集群的部分和确定哪一个或多个虚拟机节点拥有所述共享存储资源;
指示模块,其用于向所述一个或多个虚拟机节点拥有者指示将在所述虚拟机集群的所述节点上使至少一个指定的应用停顿,以使得可以创建一致的集群范围检查点;以及
集群范围检查点创建模块,其用于创建包括针对所述虚拟机集群中的每个虚拟机的检查点的所述集群范围检查点。
10.根据权利要求9所述的计算机系统,其中,在被配置为具有所述架构时,所述计算机系统进一步包括分析模块,所述分析模块用于:分析所述虚拟机集群中的一个或多个虚拟机节点以确定所述虚拟机节点是否已经历故障,以及在确定至少一个虚拟机节点已出故障时,发起用于确定所述虚拟机节点的故障是否已影响所述虚拟机集群内的共享存储节点所有权的分析。
CN201580061651.4A 2014-11-13 2015-11-10 虚拟机集群备份 Active CN107111533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010833034.4A CN112035293A (zh) 2014-11-13 2015-11-10 虚拟机集群备份

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/540640 2014-11-13
US14/540,640 US9411628B2 (en) 2014-11-13 2014-11-13 Virtual machine cluster backup in a multi-node environment
PCT/US2015/059819 WO2016077267A1 (en) 2014-11-13 2015-11-10 Virtual machine cluster backup

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010833034.4A Division CN112035293A (zh) 2014-11-13 2015-11-10 虚拟机集群备份

Publications (2)

Publication Number Publication Date
CN107111533A true CN107111533A (zh) 2017-08-29
CN107111533B CN107111533B (zh) 2020-09-11

Family

ID=54754749

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201580061651.4A Active CN107111533B (zh) 2014-11-13 2015-11-10 虚拟机集群备份
CN202010833034.4A Pending CN112035293A (zh) 2014-11-13 2015-11-10 虚拟机集群备份

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202010833034.4A Pending CN112035293A (zh) 2014-11-13 2015-11-10 虚拟机集群备份

Country Status (4)

Country Link
US (2) US9411628B2 (zh)
EP (1) EP3218810B1 (zh)
CN (2) CN107111533B (zh)
WO (1) WO2016077267A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885576A (zh) * 2017-10-16 2018-04-06 北京易讯通信息技术股份有限公司 一种基于OpenStack的私有云中虚拟机HA的方法
CN110096472A (zh) * 2018-01-29 2019-08-06 慧与发展有限责任合伙企业 节点集群中管理节点的选择
CN110650181A (zh) * 2019-08-30 2020-01-03 苏州浪潮智能科技有限公司 一种基于分布式存储架构的集群
CN111008095A (zh) * 2019-12-17 2020-04-14 山东超越数控电子股份有限公司 一种面向边缘云的状态快照生成和恢复方法
CN111352696A (zh) * 2018-12-21 2020-06-30 Emc知识产权控股有限公司 基于消耗的资源标记系统和方法
CN112470127A (zh) * 2018-07-23 2021-03-09 威睿公司 用于高效资源管理的自动集群合并
CN113424149A (zh) * 2019-01-09 2021-09-21 微软技术许可有限责任公司 跨虚拟机边界的低时延事件
CN114222968A (zh) * 2019-08-23 2022-03-22 威睿公司 在超融合基础架构中为数据重新同步/重构确保足够的可用存储容量

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015172107A1 (en) 2014-05-09 2015-11-12 Nutanix, Inc. Mechanism for providing external access to a secured networked virtualization environment
GB2533342A (en) * 2014-12-17 2016-06-22 Ibm Checkpointing module and method for storing checkpoints
US20160285957A1 (en) * 2015-03-26 2016-09-29 Avaya Inc. Server cluster profile definition in a distributed processing network
US9836327B1 (en) * 2015-06-12 2017-12-05 Amazon Technologies, Inc. Network-based storage access control for migrating live storage clients
US9727421B2 (en) * 2015-06-24 2017-08-08 Intel Corporation Technologies for data center environment checkpointing
US20170052866A1 (en) * 2015-08-21 2017-02-23 International Business Machines Corporation Managing a shared pool of configurable computing resources which uses a set of dynamically-assigned resources
WO2017052548A1 (en) * 2015-09-24 2017-03-30 Hewlett Packard Enterprise Development Lp Failure indication in shared memory
US9940154B2 (en) * 2015-10-15 2018-04-10 Netapp, Inc. Storage virtual machine relocation
US10031817B2 (en) * 2015-11-05 2018-07-24 International Business Machines Corporation Checkpoint mechanism in a compute embedded object storage infrastructure
WO2017117583A1 (en) * 2015-12-30 2017-07-06 Icloudpatent.Com Limited Direct network connections using cloud instance for multipoint meeting service
US10809998B2 (en) 2016-02-12 2020-10-20 Nutanix, Inc. Virtualized file server splitting and merging
US11218418B2 (en) 2016-05-20 2022-01-04 Nutanix, Inc. Scalable leadership election in a multi-processing computing environment
US10176061B2 (en) * 2016-11-14 2019-01-08 Nutanix, Inc. Handling migration in a virtualization environment
US11562034B2 (en) 2016-12-02 2023-01-24 Nutanix, Inc. Transparent referrals for distributed file servers
US11568073B2 (en) 2016-12-02 2023-01-31 Nutanix, Inc. Handling permissions for virtualized file servers
US10824455B2 (en) 2016-12-02 2020-11-03 Nutanix, Inc. Virtualized server systems and methods including load balancing for virtualized file servers
US11294777B2 (en) 2016-12-05 2022-04-05 Nutanix, Inc. Disaster recovery for distributed file servers, including metadata fixers
US11288239B2 (en) 2016-12-06 2022-03-29 Nutanix, Inc. Cloning virtualized file servers
US11281484B2 (en) * 2016-12-06 2022-03-22 Nutanix, Inc. Virtualized server systems and methods including scaling of file system virtual machines
US10296216B2 (en) 2017-05-17 2019-05-21 International Business Machines Corporation Prioritizing dedicated host ports when N-port ID virtualization is enabled in a storage controller
CN107423111B (zh) * 2017-06-23 2020-06-26 浪潮云信息技术有限公司 一种Openstack环境计算节点后端存储管理方法
US11086826B2 (en) 2018-04-30 2021-08-10 Nutanix, Inc. Virtualized server systems and methods including domain joining techniques
US10776208B2 (en) * 2018-07-18 2020-09-15 EMC IP Holding Company LLC Distributed memory checkpointing using storage class memory systems
US11194680B2 (en) 2018-07-20 2021-12-07 Nutanix, Inc. Two node clusters recovery on a failure
US11811674B2 (en) 2018-10-20 2023-11-07 Netapp, Inc. Lock reservations for shared storage
US11770447B2 (en) 2018-10-31 2023-09-26 Nutanix, Inc. Managing high-availability file servers
US11822949B2 (en) * 2020-04-02 2023-11-21 Vmware, Inc. Guest cluster deployed as virtual extension of management cluster in a virtualized computing system
US11768809B2 (en) 2020-05-08 2023-09-26 Nutanix, Inc. Managing incremental snapshots for fast leader node bring-up
CN111966469B (zh) * 2020-09-04 2022-07-19 苏州浪潮智能科技有限公司 一种集群虚拟机高可用方法及系统
CN112084069A (zh) * 2020-09-21 2020-12-15 西安超越申泰信息科技有限公司 一种基于飞腾平台的虚拟热备系统
CN114035905A (zh) * 2021-11-19 2022-02-11 江苏安超云软件有限公司 基于虚拟机的故障迁移方法及装置、电子设备和存储介质
CN115576732B (zh) * 2022-11-15 2023-03-10 阿里云计算有限公司 根因定位方法以及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100011178A1 (en) * 2008-07-14 2010-01-14 Vizioncore, Inc. Systems and methods for performing backup operations of virtual machine files
US7890689B2 (en) * 2003-12-08 2011-02-15 The Board Of Trustees Of The Leland Stanford Junior University Virtual appliance management
US8219769B1 (en) * 2010-05-04 2012-07-10 Symantec Corporation Discovering cluster resources to efficiently perform cluster backups and restores
US8296419B1 (en) * 2009-03-31 2012-10-23 Amazon Technologies, Inc. Dynamically modifying a cluster of computing nodes used for distributed execution of a program
US8326803B1 (en) * 2010-05-06 2012-12-04 Symantec Corporation Change tracking of individual virtual disk files
CN103136073A (zh) * 2011-12-21 2013-06-05 微软公司 共享卷的应用一致的快照

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715468A (en) 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
US7213246B1 (en) * 2002-03-28 2007-05-01 Veritas Operating Corporation Failing over a virtual machine
US9020801B2 (en) * 2003-08-11 2015-04-28 Scalemp Inc. Cluster-based operating system-agnostic virtual computing system
US7577959B2 (en) * 2004-06-24 2009-08-18 International Business Machines Corporation Providing on-demand capabilities using virtual machines and clustering processes
US7680758B2 (en) * 2004-09-30 2010-03-16 Citrix Systems, Inc. Method and apparatus for isolating execution of software applications
CN100485630C (zh) * 2005-11-21 2009-05-06 国际商业机器公司 具有中央控制的数据备份的方法和系统
US7694101B2 (en) * 2005-12-30 2010-04-06 Vmware, Inc. Implementing virtual disk reservations on a storage media for multiple distributed applications
US8707323B2 (en) * 2005-12-30 2014-04-22 Sap Ag Load balancing algorithm for servicing client requests
US8387048B1 (en) * 2006-04-25 2013-02-26 Parallels IP Holdings GmbH Seamless integration, migration and installation of non-native application into native operating system
CN101460921B (zh) 2006-05-16 2013-05-22 甲骨文国际公司 下一代群集
US8949826B2 (en) * 2006-10-17 2015-02-03 Managelq, Inc. Control and management of virtual systems
US9038062B2 (en) * 2006-10-17 2015-05-19 Manageiq, Inc. Registering and accessing virtual systems for use in a managed system
US8554981B2 (en) * 2007-02-02 2013-10-08 Vmware, Inc. High availability virtual machine cluster
US7827350B1 (en) 2007-04-27 2010-11-02 Netapp, Inc. Method and system for promoting a snapshot in a distributed file system
US8122132B2 (en) * 2008-12-16 2012-02-21 International Business Machines Corporation Techniques for dynamically assigning jobs to processors in a cluster based on broadcast information
US8856783B2 (en) * 2010-10-12 2014-10-07 Citrix Systems, Inc. Allocating virtual machines according to user-specific virtual machine metrics
CN101989212B (zh) * 2009-07-31 2015-01-07 国际商业机器公司 提供用于启动刀片服务器的虚拟机管理程序的方法和装置
US8631403B2 (en) * 2010-01-04 2014-01-14 Vmware, Inc. Method and system for managing tasks by dynamically scaling centralized virtual center in virtual infrastructure
WO2012031112A2 (en) * 2010-09-03 2012-03-08 Time Warner Cable, Inc. Methods and systems for managing a virtual data center with embedded roles based access control
US8959511B2 (en) * 2010-12-14 2015-02-17 Microsoft Corporation Template virtual machines
JP5767480B2 (ja) * 2011-01-31 2015-08-19 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理システム、配置構成決定方法、プログラムおよび記録媒体
CN102110071B (zh) * 2011-03-04 2013-04-17 浪潮(北京)电子信息产业有限公司 一种虚拟机集群系统及其实现方法
US8924967B2 (en) * 2011-04-28 2014-12-30 Vmware, Inc. Maintaining high availability of a group of virtual machines using heartbeat messages
US8843933B1 (en) * 2011-05-25 2014-09-23 Vmware, Inc. System and method for managing a virtualized computing environment
US8984508B2 (en) * 2011-06-02 2015-03-17 Vmware, Inc. System and method for restarting a workload based on global load balancing
US8601473B1 (en) * 2011-08-10 2013-12-03 Nutanix, Inc. Architecture for managing I/O and storage for a virtualization environment
US8881146B2 (en) * 2011-10-24 2014-11-04 Infosys Limited System for configuring a virtual image instance including receiving a configuration file specifying software information corresponding to a desired instance of a networked node or cluster
CN103218266B (zh) * 2012-01-18 2016-03-23 国际商业机器公司 虚拟机与外部机器通信时使用的方法、设备及虚拟机系统
US9172608B2 (en) 2012-02-07 2015-10-27 Cloudera, Inc. Centralized configuration and monitoring of a distributed computing cluster
CN102629941B (zh) * 2012-03-20 2014-12-31 武汉邮电科学研究院 云计算系统中虚拟机镜像缓存的方法
US8972983B2 (en) * 2012-04-26 2015-03-03 International Business Machines Corporation Efficient execution of jobs in a shared pool of resources
US8924969B2 (en) * 2012-06-07 2014-12-30 Microsoft Corporation Virtual machine image write leasing
US20140040889A1 (en) * 2012-08-03 2014-02-06 International Business Machines Corporation Facilitating Customer-Initiated Virtual Machine Migration and Swapping
US9015716B2 (en) * 2013-04-30 2015-04-21 Splunk Inc. Proactive monitoring tree with node pinning for concurrent node comparisons
CN103440160B (zh) * 2013-08-15 2016-12-28 华为技术有限公司 虚拟机恢复方法和虚拟机迁移方法以及装置与系统
US9727355B2 (en) * 2013-08-23 2017-08-08 Vmware, Inc. Virtual Hadoop manager
US9639428B1 (en) * 2014-03-28 2017-05-02 EMC IP Holding Company LLC Optimized backup of clusters with multiple proxy servers

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7890689B2 (en) * 2003-12-08 2011-02-15 The Board Of Trustees Of The Leland Stanford Junior University Virtual appliance management
US20100011178A1 (en) * 2008-07-14 2010-01-14 Vizioncore, Inc. Systems and methods for performing backup operations of virtual machine files
US8296419B1 (en) * 2009-03-31 2012-10-23 Amazon Technologies, Inc. Dynamically modifying a cluster of computing nodes used for distributed execution of a program
US8219769B1 (en) * 2010-05-04 2012-07-10 Symantec Corporation Discovering cluster resources to efficiently perform cluster backups and restores
US8326803B1 (en) * 2010-05-06 2012-12-04 Symantec Corporation Change tracking of individual virtual disk files
CN103136073A (zh) * 2011-12-21 2013-06-05 微软公司 共享卷的应用一致的快照

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885576A (zh) * 2017-10-16 2018-04-06 北京易讯通信息技术股份有限公司 一种基于OpenStack的私有云中虚拟机HA的方法
CN110096472A (zh) * 2018-01-29 2019-08-06 慧与发展有限责任合伙企业 节点集群中管理节点的选择
CN110096472B (zh) * 2018-01-29 2023-06-30 慧与发展有限责任合伙企业 节点集群中管理节点的选择
CN112470127A (zh) * 2018-07-23 2021-03-09 威睿公司 用于高效资源管理的自动集群合并
CN111352696A (zh) * 2018-12-21 2020-06-30 Emc知识产权控股有限公司 基于消耗的资源标记系统和方法
CN111352696B (zh) * 2018-12-21 2024-04-02 Emc知识产权控股有限公司 基于消耗的资源标记系统和方法
CN113424149A (zh) * 2019-01-09 2021-09-21 微软技术许可有限责任公司 跨虚拟机边界的低时延事件
CN114222968A (zh) * 2019-08-23 2022-03-22 威睿公司 在超融合基础架构中为数据重新同步/重构确保足够的可用存储容量
CN114222968B (zh) * 2019-08-23 2023-10-03 威睿公司 在超融合基础架构中为数据重新同步/重构确保足够的可用存储容量
CN110650181A (zh) * 2019-08-30 2020-01-03 苏州浪潮智能科技有限公司 一种基于分布式存储架构的集群
CN111008095A (zh) * 2019-12-17 2020-04-14 山东超越数控电子股份有限公司 一种面向边缘云的状态快照生成和恢复方法

Also Published As

Publication number Publication date
US9870291B2 (en) 2018-01-16
US20170052852A1 (en) 2017-02-23
US20160139943A1 (en) 2016-05-19
EP3218810A1 (en) 2017-09-20
CN107111533B (zh) 2020-09-11
WO2016077267A1 (en) 2016-05-19
EP3218810B1 (en) 2018-12-26
US9411628B2 (en) 2016-08-09
CN112035293A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN107111533A (zh) 虚拟机集群备份
US10713120B2 (en) Unique identifiers for data replication, migration, failover operations and failback operations
DE112019000841T5 (de) Handhaben von E/A-Operationen in einem cloudbasierten Speichersystem
DE112020003420T5 (de) Datenwiederherstellung in einem virtuellen Speichersystem
DE112020003423T5 (de) Architektur von virtuellem speichersystem
DE102021113808A1 (de) Handhabung von Replikationen zwischen verschiedenen Netzwerken
US8700946B2 (en) Dynamic resource allocation in recover to cloud sandbox
US8191063B2 (en) Method for migrating a plurality of virtual machines by associating files and state information with a single logical container
EP4058919A1 (en) Creating a replica of a storage system
CN107209705A (zh) 用于计算环境的活动回滚
US10372555B1 (en) Reversion operations for data store components
CN108038201B (zh) 一种数据整合系统及其分布式数据整合系统
CN104133690B (zh) 从一个操作系统级到已更新操作系统级的动态应用迁移
US20220261170A1 (en) Data migration for zoned drives
CN107783816A (zh) 虚拟机的创建方法及装置、大数据集群创建的方法及装置
US11360844B1 (en) Recovery of a container storage provider
CN106775946A (zh) 一种虚拟机快速创建方法
US11816356B2 (en) Container orchestrator-aware storage system
CN108021378A (zh) 升级系统、基于虚拟机的升级方法及装置
Srinivasa et al. Guide to high performance distributed computing
CN107329806A (zh) 一种开发环境构建方法及装置
Menon Cloudera administration handbook
US20190373021A1 (en) Policy aggregation
CN107528871A (zh) 存储系统中的数据分析
WO2023076354A1 (en) Storage operation routing in a container system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant