CN105229613A

CN105229613A - 协调分布式系统中的故障恢复

Info

Publication number: CN105229613A
Application number: CN201480014523.XA
Authority: CN
Inventors: P·T·内格沙拉奥; M·里兹维; S·P·里瓦斯卡; C·P·阿尔米达; A·M·H·哈萨恩; A·玛尼; W·拉菲克
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-03-14
Filing date: 2014-03-13
Publication date: 2016-01-06
Anticipated expiration: 2034-03-13
Also published as: US9740546B2; US20160342450A1; TW201502774A; EP2972870A1; CN105229613B; US20140281700A1; EP2972870B1; US9218246B2; WO2014160367A1; WO2014160367A9

Abstract

在各实施例中，提供了用于在主机和租户之间协调分布式系统中的租户基础结构的故障恢复的方法和系统。为分布式系统中的租户基础结构确定故障发生。故障发生可以是支持租户的服务应用的租户基础结构的软件故障或硬件故障。故障恢复计划被传达给租户以通知租户故障发生以及所采取的还原租户基础结构的动作。确定是否从租户收到故障恢复计划响应；故障恢复计划响应是来自租户的对故障恢复计划的确收。在接收故障恢复计划响应之际或者在预定时限期满时执行故障恢复计划以还原租户基础结构。

Description

协调分布式系统中的故障恢复

背景

一般而言，分布式系统服务应用被主存在云计算系统中(跨各种节点)，且主要旨在共享资源以在共享服务的融合的基础结构中实现高效率。分布式系统基础结构与租户相关联。租户指消费者/公司(例如，服务应用的所有者)和/或与消费者/公司相关联的服务应用组件(例如，租户基础结构或承租者)。服务应用常常被分成包括一组包括一个或多个数据中心的诸节点(例如，物理机器和虚拟机器)的服务应用组件的诸部分。不可避免地，服务应用的一个或多个实例的服务应用组件故障且需要故障恢复动作来还原服务应用组件。通常，主机—服务应用分布式系统的提供者－采取影响租户的故障恢复动作。对租户的影响可以包括对服务应用的不期望的中断等，因为没有在主机和租户之间智能地传达或协调故障及后续的主机故障恢复动作。

发明内容

提供本发明内容以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。该发明内容不旨在标识所要求保护的主题的关键特征或本质特征，也不旨在独立地用于帮助确定所要求保护的主题的范围。

本发明的各实施例提供了一种用于协调分布式系统中的租户基础结构的故障恢复的方法。为分布式系统中的租户基础结构确定故障发生。故障发生可以是支持租户的服务应用的租户基础结构的软件故障或硬件故障。故障恢复计划被传达给租户以通知租户故障发生以及所采取的还原租户基础结构的动作。确定是否从租户收到故障恢复计划响应。故障恢复计划响应是来自租户的对故障恢复计划的确收。在接收故障恢复计划响应之际或者在预定时限期满时执行故障恢复计划以还原租户基础结构。

附图简述

下面参考附图详细描述本发明，其中：

图1是适用于在实现本发明的各实施例中使用的示例性计算环境的框图；

图2是其中可以采用本发明各实施例的示例性网络环境的框图；

图3是根据本发明的各实施例的示出用于协调分布式系统中的租户基础结构的故障恢复的方法的示意图；

图4是根据本发明的各实施例的示出用于协调分布式系统中的租户基础结构的故障恢复的方法的流程图；以及

图5是根据本发明的各实施例的示出用于协调分布式系统中的租户基础结构的故障恢复的方法的流程图。

详细描述

本文中用细节来描述本发明各实施例的主题以满足法定要求。然而，该描述本身并非旨在限制本专利的范围。相反，发明人已设想所要求保护的主题还可结合其它当前或未来技术以其它方式来实施，以包括不同的步骤或类似于本文中所述步骤的步骤组合。此外，尽管术语“步骤“和/或“框”可在此处用于指示所采用的方法的不同元素，但除非而且仅当明确描述了各个步骤的顺序时，该术语不应被解释为意味着此处公开的各个步骤之中或之间的任何特定顺序。

出于本公开的目的，单词“包括”(including)具有与单词“包含”(comprising)一样广义的含义。另外，诸如“一(a)”和“一(an)”包括复数以及单数，除非另外相反地指明。由此，例如，“一特征”满足存在一个或多个特征的情况。同样，术语“或”(or)包括合取、析取及这两者(a或b由此包括a或b任一，以及a和b)。

为了以下详细讨论的目的，参考具有在服务应用组件上运行的服务应用的云计算分布式系统来描述本发明的各实施例。此外，尽管本发明的各实施例一般涉及本文中所述的各组件，但是应当理解所述技术的实现可以扩展到执行本文中所述各步骤的其他组件。

通常，分布式系统(例如，云计算分布式系统)用于以分布式的方式来存储数据或运行服务应用。例如，云计算分布式系统的服务应用组件(例如租户基础结构或承租者)可包括被分配用以运行租户服务应用的一个或多个部分的节点(例如，计算设备、处理单元或服务器机架中的刀片)。在支持每个服务应用特有的资源和/或操作系统的个别化的计算环境中，当多于一个的分开的服务应用被节点支持时，节点可被划分成各自并发运行所述分开的服务应用的虚拟机或物理机。此外，每个服务应用可被划分成功能部分，以使得每个功能部分能够在分开的虚拟机上运行。一般地，“角色”提供服务应用的功能部分的模板描述。角色通过指示以下内容来描述：执行该角色的计算机代码、主控环境内该角色所需的条件、被应用到该角色的配置设置，以及角色的用于与其它角色进行通信的端点组、元素等。在一个实例中，角色的配置设置可包括由该角色的所有实例共享的集体设置或为该角色的每一实例所特有的个别设置。

在各实施例中，服务模型被用于确定哪些属性或哪组属性要被从服务应用的角色的实例中传达。如此处所使用的，短语“服务模型”不旨在限制，其一般指包括与建立和管理数据中心内的服务应用的实例有关的信息的任何通信。一般而言，服务模型是提供用于管理服务应用的组件程序的指令的接口蓝图。在部署到遍及分布式系统的各分布位置之际，服务模型用于在协调所部署的服务应用和服务应用组件之间的活动中引导结构控制器。结构控制器一般负责围绕以下的各种职责：监视、维护和管理计算机资源、网络设备、串行设备和支持结构的底层功能性的功率单元的健康。服务模型包括对要建立服务应用的哪些角色以及如何在数据中心内安装和启动每个角色的实例的描述。即，服务模型用作对可为服务应用运行哪些角色的阐述，以及可通过云计算分布式系统在何处安装角色实例的条件。虽然已经描述了各种不同的类型的云配置，但是本领域的普通技术人员应当理解和了解的是，可使用云计算分布式系统的其它合适的结构，并且本发明的各实施例不受限于本文中所述的跨虚拟机的那些分布式服务应用。

云计算分布式系统提供以供在可接入因特网的数据中心内的机器上运行服务应用和存储数据。遍历主机(例如，云计算系统)的云计算分布式系统(例如，WINDOWSAZURE云计算分布式系统)可以提供用于在云中运行和存储数据的平台。针对租户(例如，消费者或公司)的服务应用的实现可以是模型环境或配置为服务模型的定制环境。无论是实现为模型环境还是实现为定制环境，云计算分布式系统都包括一个或多个角色，从而一般运行每个角色的多个实例，使用跨各角色实例的负载平衡。服务应用的服务应用组件(例如，租户基础结构)可以被不时地升级，这可以基于与更新策略的服务水平协议或者主机和租户之间达成的更新策略来执行。例如，更新可以跨数个角色被逐片段地执行以维持服务应用的高可用性。与计划的活动(诸如更新)相反，云计算分布式系统中的故障是意外且不可预测的，因此需要故障恢复动作来还原服务应用。例如，故障可以是必须要修复服务应用节点的硬件故障或者必须要重新引导虚拟机的软件故障。

一般而言，本发明的各实施例将分布式系统中的技术引入分布式系统中的自动协调故障恢复。分布式系统不旨在受限于服务应用组件的任何特定配置，而是泛指设备的任何汇编(例如，网络设备、计算设备以及可以集成在结构中的电源设备)。例如，分布式系统可以被置位于由主机管理的数据中心内，在此实现故障恢复过程允许使用分布式系统来还原租户的服务应用。在另一个实例中，跨公共云网络和私有云网络配置分布式系统，并且统跨公共云网络和私有云网络协调故障恢复动作。在又一个实现中，分布式系统可以被置位于由支持企业网络的内部消费者的分布式系统的管理者管理的专用企业网络内，在此实现故障恢复过程允许在管理者和内部消费者之间协调故障恢复动作。故障恢复过程的故障恢复动作的协调计及故障恢复中的租户考虑。例如，由于故障恢复动作和该动作的影响可以被传达给租户，故而租户不经历不期望的服务应用中断。与此相关，租户可以知晓服务中的任何损失并以合适的租户恢复动作作出响应。

可以由管理协议来促成用于租户基础结构的故障恢复的通信，该管理协议列出用于在结构控制器(例如，结构控制器——管理角色控制协议——MRCP)和租户(例如，服务应用——管理角色——MR)之间传递消息的规则和格式。用于故障恢复的通信包括主机和租户之间的通信。租户可以指消费者或与消费者相关联的服务应用组件。与此相关，与租户通信可以指传达给租户可访问的服务应用组件(例如，管理角色、租户恢复服务器、租户控制台)。类似地，自租户通信可以指来自租户的服务应用组件的任何通信。由此，租户的服务应用组件可以在服务应用的云计算分布式系统的内部或外部。与此相关，租户还可以经由连接至租户基础结构的租户控制台(例如，在租户场所内(on-tenant-premises)的计算系统)来接收通信。

在操作中，MRCP在检测到在租户基础结构(例如，服务应用组件)中存在故障之际与MR通信。结构控制器可以向租户传达指示故障发生影响(例如，受影响的角色实例)的故障恢复计划。故障恢复计划还可以指示对受影响的服务应用组件所采取的动作(例如，重新引导、OS重新映像、数据重新映像)。结构控制器可随后或者等待来自租户的默认恢复计划响应以开始故障恢复动作，或者在预定时限之后开始故障恢复动作以还原租户基础结构。例如，结构控制器可以确定在具有两个虚拟机VM-1和VM-2的节点上的故障发生。MRCP向MR传达VM-1和VM-2将被重新引导，并且由此租户经由MR可以采取措施(例如，租户恢复动作)以适应服务的损失。MR可以被安装在一个或多个节点上作为角色的多个实例。在各实施例中，受故障影响的服务应用组件可以属于利用相同服务应用组件(例如，节点)的两个不同租户，由此结构控制器响应计划计及租户以及与每个租户相关联的MR通信的结构控制器两者。

因此，在本发明的第一方面，存储计算机可使用指令的一个或多个计算机可读介质，当这些指令由一个或多个计算设备使用时，使该一个或多个计算设备执行一种用于协调分布式系统中的租户基础结构的故障恢复的方法。该方法包括确定分布式系统中的租户基础结构的故障发生。该方法还包括传达故障恢复计划以通知租户。该方法进一步包括确定故障恢复计划响应是否被收到。故障恢复计划响应是来自租户的对故障恢复计划的确收。该方法包括执行故障恢复计划以还原租户基础结构。

在本发明的第二方面，存储计算机可使用指令的一个或多个计算机可读介质，当这些指令由一个或多个计算设备使用时，使该一个或多个计算设备执行一种用于协调分布式系统中的租户基础结构的故障恢复的方法。该方法包括接收针对故障发生的故障恢复计划。该方法还包括确定与该故障恢复计划相关联的租户基础结构影响。租户基础结构影响触发一个或多个租户恢复动作。该方法包括执行一个或多个租户恢复动作。

在本发明的第三方面，提供了一种用于协调分布式系统中的租户基础结构的故障恢复的系统。该系统包括控制器组件，该控制器组件被配置成确定分布式系统中基础结构的故障发生，其中故障发生与多个租户相关联。控制器组件还被配置成用于传达故障恢复计划以通知多个租户中的每个租户。控制器组件进一步被配置成用于确定是否从多个租户中的每个租户收到故障恢复计划响应。故障恢复计划响应是来自多个租户中的每个租户对故障恢复计划的确收。控制器组件被配置成执行故障恢复计划以还原基础结构。系统还包括租户组件，该租户组件被配置用于接收针对故障发生的故障恢复计划。该租户组件被配置用于确定与该故障恢复计划相关联的租户基础结构影响。租户基础结构影响触发一个或多个租户恢复动作。租户组件还被配置用于传达故障恢复计划响应。租户组件进一步被配置用于执行一个或多个租户恢复动作。

在简要描述了本发明各实施方式的概览之后，以下描述其中可实现本发明的各实施方式的示例性操作环境，以便为本发明各方面提供通用上下文。首先具体参考图1，示出了用于实现本发明的各实施方式的示例性操作环境，并将其概括地指定为计算设备100。计算设备100只是合适的计算环境的一个示例，并且不旨在对本发明的使用范围或功能提出任何限制。也不应该将计算设备100解释为对所示出的任一组件或其组合有任何依赖性或要求。

本发明可以在由计算机或诸如个人数据助理或其他手持式设备之类的其他机器执行的计算机代码或机器可使用指令(包括诸如程序模块之类的计算机可执行指令)的一般上下文中描述。一般而言，包括例程、程序、对象、组件、数据结构等的程序模块指的是执行特定任务或实现特定抽象数据类型的代码。本发明可以在各种系统配置中实施，这些系统配置包括手持式设备、消费电子产品、通用计算机、专用计算设备等等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实施。

参考图1，计算设备100包括直接或间接耦合以下设备的总线110：存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出端口118、输入/输出组件120和说明性电源122。总线110表示可以是一条或多条总线(诸如地址总线、数据总线或其组合)。虽然为了清楚起见利用线条示出了图1的各框，但是实际上，各组件的轮廓并不是那样清楚，并且比喻性地来说，线条更精确地将是灰色的和模糊的。例如，可以将诸如显示设备等呈现组件认为是I/O组件。而且，处理器也具有存储器。可以认识到，这是本领域的特性，并且重申，图1的图示只是例示可结合本发明的一个或多个实施方式来使用的示例性计算设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等分类之间没有区别，因此它们全部都被认为是在图1的范围之内的并且被称为“计算设备”。

计算设备100通常包括各种计算机可读介质。计算机可读介质可以是可由计算设备100访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。

计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性与非易失性、可移动与不可移动介质。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储技术、磁带盒、磁带、磁盘存储或其它磁性存储设备，或可用于存储所需信息并且可由计算设备800访问的任何其它介质。计算机存储介质将信号本身排除在外。

通信介质通常以诸如载波或其他传输机制之类的已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传送介质。术语“已调制数据信号”是指使得以在信号中编码信息的方式来设置或改变其一个或多个特性的信号。作为示例而非限制，通信介质包括诸如有线网络或直接线连接之类的有线介质，以及诸如声学、RF、红外及其他无线介质之类的无线介质。上述的任意组合也应包含在计算机可读介质的范围内。

存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移动的，不可移动的，或两者的组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括从诸如存储器112或I/O组件120之类的各种实体读取数据的一个或多个处理器。呈现组件116向用户或其他设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等等。

I/O端口118允许计算设备100逻辑上耦合至包括I/O组件120的其他设备，其中某些设备可以是内置的。说明性组件包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪、打印机、无线设备等等。

另外参考图2，描述了描绘适于在本发明的各实施例中使用的示例性分布式系统200的框图。一般而言，分布式系统200示出其中启用对故障恢复过程的协调的环境。具体而言，本发明的各实施例提供用于使用管理协议在主机和一个或多个租户之间协调服务应用组件的故障恢复的系统和方法。除了未示出的其他组件以外，分布式系统200一般包括云计算分布式系统202、具有管理角色控制协议——MRCP206的结构控制器204、具有代理210的节点208、管理角色MR212、虚拟机VM-A214和VM-B216、租户恢复服务器218、租户控制台220以及租户用户222，其全部经由网络224相互通信。网络224可以包括，但不仅限于，一个或多个局域网(LAN)和/或广域网(WAN)。此类联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。因此，此处不对网络224进行进一步的描述。

可以在处于本发明各实施例的范畴内的分布式系统200中采用任意数目个结构控制器、节点、虚拟机、管理角色、租户控制台和租户用户。一些组件可以包括单个设备/接口或在分布式环境中协作的多个设备/接口。例如，结构控制器204可以包括安排在分布式环境中的多个设备和/或模块，所述多个设备和/或模块共同提供本文中所述的结构控制器204的功能。另外，在分布式系统200内还可以包括未示出的其他组件/模块。

应当理解，此处所描述的这一和其他安排仅作为示例来阐明。作为所示的安排和元素的补充或替换，可使用其他安排和元素(例如机器、接口、功能、次序、以及功能聚集等)，并且可完全省略某些元素。此外，本文所描述的许多元素是可以实现为分立或分布式组件或结合其他组件的、以及以任何合适的组合和在任何合适的位置的功能实体。此处被描述为由一个或多个实体执行的各种功能可由硬件、固件和/或软件来执行。例如，各种功能可由执行存储在存储器中的指令的处理器来执行。

继续参考图2，云计算分布式系统202是用于以分布式的方式来存储数据或运行服务应用的分布式系统的部分。例如，结构控制器204和云计算分布式系统202的服务应用组件用于运行租户服务应用的一个或多个部分。特别地，结构控制器204被配置为部署、管理、监视和维护服务应用。结构控制器204可以执行与服务应用组件(例如，节点208)的故障发生相关联的服务应用的维护。例如，结构控制器204可以处理节点208的软件故障和硬件故障。一般而言，结构控制器204管理云计算分布式系统202中的所有资源。结构控制器204的分配器(未示出)可以决定应当在哪里运行新服务应用和所还原的服务应用，从而选择物理服务器以优化硬件利用。结构控制器204可以取决于每个服务应用的配置信息对服务应用的部署作出确定。配置信息可以包括与可以部署的角色实例的类型及数目有关的信息。配置信息还可以包括服务水平协议(例如，主机和租户之间有关可用性、可服务性、性能、操作或服务应用的其他属性的契约式协议)。

一般而言，可以由代理210来促成来自结构控制器204的通信。结构控制器可以与节点208上的代理210通信以保持知晓服务应用的健康状况。服务应用的健康状况可指已经导致或可能导致软件或硬件故障的关于服务应用性能、此外、更新、修复和注册的问题。结构控制器可以或者作为结构控制器204中的功能或者经由代理210通过MR212来监视服务应用的运行。将故障发生检测作为结构控制器204中的功能可以由结构控制器204中的故障处理器(未示出)来促成。故障处理器可以用来自结构控制器的服务应用来检测故障，例如，结构控制器可能不能联系节点208上的代理210从而标识可能必需要重新引导节点208的故障发生。替换地，结构控制器204的故障处理器可以周期性地轮询代理210以接收服务应用的最新更新的健康状况报告(例如，租户基础结构健康状况报告)，由此故障处理器检测由节点208上运行的MR212所标识的故障。另外，出于示例性目的，服务应用利用五个角色实例且其中一个角色实例故障，结构控制器可以将这个角色实例标识为故障发生并开始故障恢复动作以还原该角色实例。类似地，如果其上运行VM的机器故障，结构控制器可以在另一个机器上开始新的实例，从而按需重新设置负载平衡器指向新VM。

结构控制器204还可以被配置生成传达给租户的故障恢复计划。结构控制器204和MR212之间的通信可以由MRCP206来促成。结构控制器204可以通过MRCP206起作用以基于一次一个租户故障恢复计划来还原服务。与此相关，故障恢复过程保证租户的服务应用的高可用性。例如，租户可以具有影响服务应用的所有可用角色实例的第一故障发生和第二故障发生。故障恢复计划一次解决每个故障发生从而使租户服务应用保持可用性。在各实施例中，如本文中进一步描述的故障恢复计划经由租户恢复服务器218传达给MR212。另外，租户控制台220可以可任选地实现为云计算分布式系统202外部的租户场所内的计算设备，但是能够接收从结构控制器204到计算设备上运行的MR实例的通信。例如，租户控制台220可以具有端点代理，该端点代理配置成使用IPsec连接至云计算分布式系统以与特定的服务应用组件交互。

故障恢复计划可以指示对租户的影响(例如，受影响的角色实例)以及对受影响的角色实例所采取的动作(例如，重新引导、OS重新映像、数据重新映像)。故障恢复计划可以做主机和租户之间服务水平协议(例如，有关可用性、可服务性、性能、操作或服务应用的其他属性的契约式协议)的代理。结构控制器204可随后或者等待来自租户的默认恢复计划响应以开始故障恢复动作，或者在预定时限之后开始故障恢复动作以还原服务。

机构控制器204进一步配置成执行故障恢复计划。故障恢复计划可以包括被执行以还原服务应用的故障恢复动作。故障恢复动作可以包括原位恢复动作。原位恢复动作可以指执行动作而不改变节点的位置。原位恢复动作可以包括重新引导节点或虚拟机，重新映像节点或虚拟机上的操作系统，或者对节点或虚拟机的修复(数据重新映像)。应当理解，原位恢复动作的其他变体或组合被考虑在本发明各实施例的范围内。在完成故障恢复动作之际，结构控制器204可以发送事后通知，该事后通知包括MR212对服务应用和/或服务组件的健康状况报告的请求。在各实施例中，结构控制器304可以接收触发一个或多个事后恢复动作的健康状况报告。例如，健康状况报告可以触发结构控制器204开始为恢复服务的角色实例重新设置负载平衡器或者开始针对另一故障发生的不同的故障恢复计划。

云计算分布式系统202中的节点208主存服务应用组件(例如，代理210、MR212、VM-A214、VM-B216以及租户恢复服务器218)。一般而言，当节点支持一个或多个服务应用时，节点可以被分区成具有并行运行一个或多个服务应用的多个角色实例的虚拟机(例如，VM-A214和VM-B216)。代理210可以被配置成充当服务应用组件和结构控制器204之间通信的中介。代理210可以与结构控制器204通信服务应用(例如，虚拟机)的健康状况以及与故障恢复过程相关联的通知(例如，预先通知和事后通知)。当MR212评估服务应用的健康状况时代理210可以与MR212通信，该服务应用的健康状况随后被传达给结构控制器204。代理210可以向租户恢复服务器218传达从结构控制器传达来的通知，并且随后可以将对通知的响应从租户传达给结构控制器204。

节点208还可以包括运行一个或多个角色实例(未示出)的虚拟机VM-A214和VM-B216。每个角色可以具有指定的功能，例如网页角色或工作者角色。VM-A214和VM-B216可以运行以支持相同或不同的服务应用。类似地，VM-A214和VM-B216可以运行以支持相同或不同的租户。VM-A214和VM-B216可以与MR212相关联以支持故障恢复过程。具体而言，MR212被配置成使用管理协议传达消息来与结构控制器204的MRCP206协调故障恢复过程。MR212可以被配置成一类租户角色。有利地，MR212可以被实现为跨多个节点分布的多个实例以提供冗余性。MR212的任何一个实例可以与结构控制器通信，并且结构控制器可以被配置成接受来自MR实例的第一所传达响应作为决定性响应。多个MR实现可以蕴含各MR实例之间的通信以提供经协调的故障恢复计划响应和一致的故障恢复动作被构想在本发明的各实施例的范围内。例如，如果MR实例响应故障恢复计划，其可以自动地向其他实例传达它已经执行了该动作。

MR212还可以被配置成评估服务应用的健康状况并将该健康状况传达给结构控制器214。每个服务应用可以与MR212相关联。可以构想，在节点208内虚拟机和角色实例可以与一个租户或不同租户的服务应用相关联。与此相关，在节点208上执行的故障恢复动作当仅一个租户与该节点相关联时可以仅影响一个租户，或者当多个租户与该节点相关联时可以影响多个租户。与租户的服务应用相关联的MR212负载将可能对服务应用组件采取的故障恢复动作传达给租户。MR212还可以与租户恢复服务器通信以从结构控制器204接收关于故障发生的故障恢复动作的通知。在各实施例中，MR212与租户控制台220通信以传达服务应用组件上的相关信息。

MR212可以接收在云计算分布式系统中发起的故障恢复计划的通信，其中发起故障恢复计划以还原租户的服务应用。故障恢复计划通信可以包括基于故障发生而生成的故障恢复动作(例如，软件故障或硬件故障)。故障恢复计划还可以包括预定的时限，在此期间内MR212可以响应故障恢复计划从而使故障恢复动作可以开始。MR212可以接收故障恢复计划通信，并作出故障恢复计划对租户用户222的影响的决定。租户用户222可以是访问云计算分布式系统202上服务应用的企业或消费者。故障恢复计划的影响可以包括服务的中断、可用资源的过载、拒绝服务以及数据损失。

MR212可以进一步配置成触发租户恢复动作以适应故障恢复计划的影响(例如，租户基础结构影响)。租户恢复动作可以是作为确定故障恢复计划影响的结果而采取的自动恢复动作或手动恢复动作。租户恢复动作可以基于包括与租户用户222的服务水平协议的租户操作策略。租户操作策略可以包括所开发的适应故障恢复影响(例如，传达租户用户222的服务损失的通知)的任何规则或指南，或者可以告知租户的恢复动作的服务水平协议(例如，有关可用性、可服务性、性能、操作或服务应用的其他属性的契约式协议)。在云计算分布式系统202处执行故障恢复计划之前和/或之后可以发生租户恢复动作。MR212还可以被配置成在故障恢复计划的预定时限内向云计算分布式系统202传达响应(例如，故障恢复计划响应)。

节点208可以进一步包括租户恢复服务器218，该租户恢复服务器被配置成促成结构控制器204和与服务应用相关联的MR212之间的通信。在各实施例中，租户恢复服务器218还可以经由租户控制台220与服务应用租户通信。租户恢复服务器218可以接收通知并存储来自结构控制器204的关于针对故障发生的故障恢复动作的通知。租户恢复服务器218可以经由节点208上的代理210与结构控制器204通信。通知可以包括针对故障恢复过程的预先通知和事后通知。预先通知(例如，针对故障发生的故障恢复计划)向租户恢复服务器218传达将要采取的用以恢复服务的故障恢复动作，而事后通知向租户恢复服务器218传达已经采取了的故障恢复动作。租户恢复服务器218可以在MR212针对新通知而轮询租户恢复服务器218时向服务应用的MR212传达所存储的通知。事后通知可以从MR212请求服务应用的健康状况。在各实施例中，租户恢复服务器218可以在故障恢复过程期间与租户控制台220通信。租户故障服务器218可以向租户控制台220传达故障恢复动作，并且租户控制台220可以传达对故障恢复动作的响应。

租户控制台220可以包括任何类型的计算设备，诸如例如参考图1所描述的计算设备100。一般而言，租户控制台220与节点208上运行的服务应用相关联。租户控制台220可以是在云计算分布式系统202外部但能够接收通信的租户场所内的计算设备。在各实施例中，租户控制台可以包括MR实例的冗余实现。与此相关，租户控制台220可以接收在云计算分布式系统中发起的故障恢复计划的通信，其中发起故障恢复计划以还原租户的服务应用。无论实现为云计算分布式系统202外部的MR实例还是实现为用于接收通信的监视设备，租户控制台220都可以被配置为设计成在检测到故障发生以及生成故障恢复计划之际采取动作的自动机、自主操作的计算设备。租户控制台220还可以支持由MR响应于故障恢复计划而生成的手动恢复动作。例如，租户控制台可以被租户的系统管理员监视并由此执行与故障发生相关联的任何所定义的手动恢复动作。

本发明的实施例的示例性实现可以包括对接收租户服务应用的虚拟机的重新引导的预先通知的MR212。重新引导需要约15分钟的停机时间。MR212可以确定这15分钟可以导致有效运行的虚拟机的过载不受预先通知的故障恢复动作的影响。影响确定可以触发在采取故障恢复动作以及收到健康的服务应用的事后通知(即，服务应用执行正常)之前对新租户用户拒绝服务应用的使用动作。MR212可以在预定时限期间向结构控制器204传达响应以告知结构控制器204开始故障恢复动作。

现在转至图3，流程图描绘了用于在主机和租户之间协调分布式系统中的租户基础结构的故障恢复的方法300。一开始，图3中所示的组件包括结构控制器302和管理角色304。结构控制器302可以包括分配器、故障处理器和配置成执行上述各功能的管理角色控制协议被构想在本发明的各实施例的范围内。此外，各实施例还可以包括具有代理、租户恢复服务器和也执行上述各功能的租户控制台的节点。由此，提供参考图3所述的本实施例作为实现本发明的云计算系统的许多可能安排中的一种。应当理解，阐述这一安排作为示例。

结构控制器302可以检测310故障发生312。结构控制器302可以经由结构控制器处的故障处理器(例如，故障处理器标识代理崩溃或代理无响应)或者经由节点的代理(例如，代理从与服务应用相关联的管理角色接收不健康的基础结构报告)来检测310故障发生312。故障发生312可以是节点处的硬件故障或软件故障，从而使用以还原服务的故障恢复动作可能是必要的。结构控制器302可以向管理角色304传达314预先通知316。预先通知316可以包括针对受故障发生影响的服务应用组件的故障恢复计划(例如，节点或运行一个或多个角色实例的虚拟机)以及所采取的用以还原服务应用组件的故障恢复动作。故障恢复计划可以包括用以从租户控制台306接收响应的预定时限。预定时限可以基于主机和租户之间协定的时限，从而使租户可以有足够时间为服务中的损失做准备。故障恢复动作还可以包括原位恢复动作，其中执行动作而不改变节点的位置。原位恢复动作可以包括重新引导节点或节点上的虚拟机，重新映像节点或虚拟机上的操作系统，或者修复节点或虚拟机上的数据。故障恢复计划可以计及主机和租户之间的服务水平协议。例如，如果一个动作与服务水平协议的条款更加一致，故障恢复计划可以推迟故障恢复动作或从重新映像故障恢复动作改变成重新引导故障恢复动作。

管理角色304接收预先通知316。管理角色314可以如上所述经由代理和租户恢复服务器来接收预先通知316被构想在本发明的各实施例的范围内。管理角色314基于管理协议与结构控制器302通信，该管理协议提供用于为故障恢复过程发送消息的规则和指南。管理角色304可以评估320故障恢复计划的影响并触发协助经受故障恢复计划的租户恢复动作322。租户恢复动作322可以是至少部分被预定义成响应故障发生的自动动作或手动动作。自动任务可以包括被调度成取决于故障发生的类型而运行的服务，而手动任务可以蕴含来自租户实体(例如，系统管理员)的有意动作。租户恢复动作322可以计及租户控制台306和其用户或消费者之间的服务水平协议。预先通知316通信可以包括租户控制台306可以响应于预先通知316的预定时限。管理角色304可以在预定时限内用故障恢复计划响应326对预先通知316作出响应324。进一步考虑可以经由一系列中间服务应用组件(例如，代理、租户恢复服务器)接收故障恢复计划响应326。

结构控制器302可以作出响应332是否被收到的确定330。在各实施例中，故障发生可以是在与多个租户相关联的节点上，与此相关，结构控制器302在从每个租户接收到故障恢复计划响应之前或在预定时限期满以开始执行故障恢复计划之前可以等待。在通过执行故障恢复动作342而执行340故障恢复计划之际，结构控制器302可以将事后通知346(例如，事后故障恢复通知)传达344给管理角色304。事后通知346可以包括故障恢复动作342的详情，并且还可以包括对管理角色304的与故障恢复动作342相关联的服务应用和/或服务应用组件的健康状况报告的请求。管理角色304被配置成评估350服务应用及其相关联的服务应用组件(例如，虚拟机及在该虚拟机上运行的角色实例)的健康状况并生成健康报告352(例如，租户基础结构健康状况报告)。管理角色304可以将服务应用的健康状况传达354给结构控制器302。结构控制器302可以基于接收健康状况报告352来执行360结构控制器事后恢复动作354。管理角色304还可以基于生成健康状况报告352来执行370租户事后恢复动作372。例如，管理角色304可以关闭当故障发生的预先通知被传达给租户时被触发的对服务应用的用户和消费者的服务通知的拒绝。

现在转至图4，提供了示出用于协调分布式系统中的租户基础结构的故障恢复的方法400的流程图。在框410，确定分布式系统中的租户基础结构的故障发生。可以基于监视租户基础结构来确定该故障发生。可以构想，还可以基于来自租户角色(例如，管理角色)的通信来确定故障发生。在框420，传达故障恢复计划以通知租户故障发生。故障恢复计划包括受故障发生影响的一个或多个服务应用组件以及与一个或多个服务应用组件中的每一个相关联的故障恢复动作。在框430，确定故障恢复计划响应是否被收到。故障恢复计划响应是来自租户的对故障恢复计划的确收。还可以在故障恢复计划中的预定时限期满之际执行故障恢复计划。

现在转至图5，提供了示出用于在主机和租户之间协调分布式系统中的租户基础结构的故障恢复的方法500的流程图。在框510，接收针对故障发生的故障恢复计划。故障恢复计划可以包括租户对故障恢复计划作出响应的预定时限。在框520，确定与故障恢复计划相关联的租户基础结构影响。租户基础结构影响触发一个或多个租户恢复动作。一个或多个租户恢复动作可以是与租户基础结构相关联的自动恢复动作。租户恢复动作可以基于在受故障发生影响的服务应用的租户和用户之间的服务水平协议。在框530，执行一个或多个租户恢复动作。在各实施例中，租户可以传达故障恢复计划响应并且还可以接收包括租户基础结构健康状况报告的事后故障恢复通知。

参考各具体实施例描述了本发明的各实施例，各具体实施例在所有方面都旨在是说明性的而非限制性的。不偏离本发明范围的情况下，各替换实施例对于本发明所属领域的技术人员将变得显而易见。

从前面的描述可以看出，本发明很好地适用于实现上文所阐述的所有目的和目标，并且具有对于该结构是显而易见且固有的其他优点。

可以理解，某些特征和子组合是有用的，并且可以在不参考其他特征或子组合的情况下使用。这由权利要求所构想的，并在权利要求的范围内。

Claims

1.存储计算机可使用指令的一个或多个计算机可读介质，所述指令在由一个或多个计算设备执行时致使所述一个或多个计算设备执行一种用于协调分布式系统中的租户基础结构的故障恢复的方法，所述方法包括：

确定所述分布式系统中的租户基础结构的故障发生；

传达故障恢复计划以通知租户；

确定所述故障恢复计划响应是否被收到，其中所述故障恢复计划响应是来自所述租户的对所述故障恢复计划的确收；以及

执行所述故障恢复计划以还原所述租户基础结构。

2.如权利要求1所述的介质，其特征在于，基于从租户角色接收到故障发生的通信来确定所述故障发生，所述租户是与多个租户服务应用组件相关联的管理角色。

3.如权利要求1所述的介质，其特征在于，所述故障恢复计划包括受影响的一个或多个服务应用组件以及与所述一个或多个服务应用组件中的每一个服务应用组件相关联的故障恢复动作。

4.如权利要求3所述的介质，其特征在于，所述故障恢复计划至少部分地基于主机和所述租户之间的服务水平协议。

5.如权利要求1所述的介质，其特征在于，当在预定时限内没有收到所述故障恢复计划响应时执行所述故障恢复计划。

6.如权利要求1所述的介质，其特征在于，执行所述故障恢复计划包括执行原位故障恢复动作。

7.如权利要求6所述的介质，其特征在于，所述原位故障恢复动作包括选自以下的至少一个故障恢复动作：

重新引导、OS重新映像以及数据重新映像。

8.如权利要求1所述的介质，其特征在于，所述故障发生与多个租户相关联从而使所述故障恢复计划计及针对所述多个租户中的每个租户的服务水平协议。

9.如权利要求1所述的介质，其特征在于，还包括：

传达事后故障恢复通知；以及

接收租户基础结构健康状况报告，其中所述租户基础结构健康状况报告与一个或多个事后故障恢复动作相关联。

10.一种用于协调分布式系统中的租户基础结构的故障恢复的方法，所述方法包括：

接收针对故障发生的故障恢复计划；

确定与所述故障恢复计划相关联的租户基础结构影响，其中所述租户基础结构影响触发一个或多个租户恢复动作；以及

执行所述一个或多个租户恢复动作。

11.如权利要求10所述的方法，其特征在于，所述故障恢复计划包括响应所述故障恢复计划的预定时限。

12.如权利要求10所述的方法，进一步包括：

传达故障恢复计划响应；

接收事后故障恢复通知，其中所述事后故障恢复通知包括租户基础结构健康状况报告；以及

至少部分地基于所述租户基础结构健康状况报告来执行一个或多个事后故障恢复动作。

13.一种用于协调分布式系统中的租户基础结构的故障恢复的系统，所述系统包括：

控制器组件，被配置用于：

确定所述分布式系统中的基础结构的故障发生，其中所述故障发生与多个租户相关联；

传达故障恢复计划以通知所述多个租户中的每个租户；

确定是否从所述多个租户中的每个租户接收到故障恢复计划响应，其中所述故障恢复计划响应是来自所述多个租户中的每个租户的对所述故障恢复计划的确收；以及

执行所述故障恢复计划以还原所述基础结构；

租户管理角色，被配置用于：

接收针对所述故障发生的所述故障恢复计划；

确定与所述故障恢复计划相关联的租户基础结构影响，其中所述租户基础结构影响触发一个或多个租户恢复动作；

传达所述故障恢复计划响应；以及

执行所述一个或多个租户恢复动作。

14.如权利要求13所述的系统，其特征在于，所述控制器组件进一步被配置用于：

将事后故障恢复通知传达给所述多个租户中的每个租户；以及

接收租户基础结构健康状况报告，其中所述租户基础结构健康状况报告与所述多个租户中的每个租户的一个或多个服务应用相关联。

15.如权利要求13所述的系统，其特征在于，所述租户管理角色进一步被配置用于：

接收事后故障恢复通知，其中所述事后故障恢复通知触发生成租户基础结构健康状况报告；以及