CN108369548A

CN108369548A - 云资源的灾难恢复

Info

Publication number: CN108369548A
Application number: CN201680072697.0A
Authority: CN
Inventors: V·波格雷宾斯凯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-12-13
Filing date: 2016-12-06
Publication date: 2018-08-03
Anticipated expiration: 2036-12-06
Also published as: US20210067402A1; US10841148B2; US20170171016A1; EP3387533B1; CN108369548B; EP3387533A1; CN115048245A; US11290318B2; WO2017105898A1

Abstract

本发明的实施例涉及用于在发生灾难的情况下向云基础设施注册的不同服务可以恢复的方法。还涉及用于资源提供器可以通过扫描实际可用资源来恢复并且重新构建其云资源信息的过程。资源提供器将与中央服务同步资源以获取已更新的消费者和订阅信息。在其中中央服务发生故障并且从备份进行恢复的情况下，中央服务应当与资源提供器同步以更新其资源信息。

Description

云资源的灾难恢复

背景技术

云计算提供对广泛的服务的访问。这些服务的范围包括处理、服务器、存储、网络、应用以及在线服务。这些服务允许云消费者根据需要快速地配置、管理和释放资源，只需要很少的管理工作并且不需要服务提供者交互。提供者宣传一组服务作为一个捆绑包(通常称为“计划”或“优惠”)。云消费者订阅这些捆绑包以获取被称为订阅的系统范围实体，订阅向消费者提供对所有宣传的服务的访问。一旦获取订阅，消费者就可以使用这些不同的服务来创建资源。

云基础设施包括由服务提供者在初始设置期间注册的一组服务。随着时间的推移，这组服务会被更新(例如，被添加并且被移除)。这些云基础设施服务具有不同的类型，从监控、运行和管理云基础设施所需要的服务(通常称为“系统服务”)到由云消费者直接用于创建自己的资源的服务(通常称为“资源提供器”)。存在管理所有这些注册的服务的中央服务。这种中央服务就像一个主服务，它提供云基础设施和资源访问的集中管理。所有云基础设施服务向中央服务注册，并且中央服务决定云消费者请求到相关的资源提供器服务的路由。

可能存在其中由于软件、硬件或网络故障而导致一个或多个服务停机的情况。如果中央服务出现故障，则整个系统无法响应于云消费者请求并且变得不可用。如果资源提供器之一停机，则云消费者和服务提供者将无法在该失败的云服务上管理和创建资源。如果系统服务发生故障，则云系统功能会受到影响，并且云系统可能无法使用。

发明内容

提供本发明内容是为了以简化的形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或基本特征，也非旨在用于限制所要求保护的主题的范围。

本发明的实施例涉及用于在发生灾难的情况下向云基础设施注册的不同服务可以恢复的方法。还涉及用于资源提供器可以通过扫描实际可用资源来恢复并且重新构建其云资源信息的过程。资源提供器将资源与中央服务同步以获取更新的消费者和订阅信息。在其中中央服务发生故障并且从备份恢复的情况下，中央服务应当与资源提供器同步以更新其资源信息。

附图说明

为了进一步阐明本发明的实施例的上述和其他优点和特征，将参考附图来呈现本发明的实施例的更具体描述。应当理解，这些附图仅描绘本发明的典型实施例，并且因此不被认为是对其范围的限制。将通过使用附图以更多的特征和细节来描述和解释本发明，在附图中：

图1是为企业用户提供对本地预置资源以及远程或公共资源的访问的系统的高级框图。

图2是根据一个实施例的提供云计算服务或分布式计算服务的数据中心的框图。

图3示出了中央服务与资源提供器之间的通信连接。

图4示出了负责跟踪和管理资源信息的资源提供器域。

图5示出了用于资源提供器的灾难恢复的一系列步骤。

图6示出了用于中央系统的灾难恢复的一系列步骤。

图7是示出用于从云计算基础设施内的灾难或故障进行恢复的示例方法的流程图。

图8是示出用于从分布式计算机网络内的故障进行恢复的示例方法的流程图。

具体实施方式

图1是向企业用户提供对本地预置资源以及远程或公共资源的访问的系统的高级框图。本地企业终端101允许用户经由预置网络103直接访问本地数据中心(私有云)102。位于企业100外部的用户可以使用远程终端104来访问预置数据中心102。例如，终端101和104可以是台式机、膝上型电脑、笔记本电脑或平板电脑。诸如专用终端、智能电话、个人数字助理(PDA)等其他设备也可以用作终端101和104。

防火墙105为企业100提供网络安全系统并且控制传入和传出网络业务。外部终端104可以经由因特网106或者任何公共或专用网络连接到企业预置网络103。如果终端104提供适当的凭证和认证，则防火墙105允许终端104访问预置数据中心102。终端101和104处的企业用户也可以经由因特网106访问公共数据中心(公共云)107。

预置数据中心102和公共数据中心107可以向企业100和其他用户提供“云计算”服务。通过将企业用户从管理信息技术(IT)基础设施中进行解放，云计算以低成本提供实质上无限的计算、存储和网络资源，同时允许服务按需扩展。

图2是根据一个实施例的提供云计算服务或分布式计算服务的分布式计算网络或数据中心200的框图。多个服务器201由数据中心管理控制器202管理。负载均衡器203在服务器201上分发请求和工作负载，以避免其中单个服务器201变得不堪重负并且使数据中心200中的资源的可用容量和性能最大化的情况。路由器/交换机204经由外部网络205支持服务器201之间以及数据中心200与外部资源和用户之间的数据通信，外部网络205可以是在企业预置数据中心102的情况下的局域网(LAN)或者在公共数据中心(107)的情况下的因特网。

服务器201可以是传统的独立计算设备，和/或它们可以被配置为很多服务器设备的机架中的单个刀片。服务器201具有管理与其他数据库实体的通信的输入/输出(I/O)连接器。每个服务器201上的一个或多个主机处理器运行支持多个虚拟机(VM)的主机操作系统(O/S)。每个VM可以运行自己的O/S，使得服务器上的每个VM O/S不同，或者相同，或者两者兼有。例如，VM O/S可以是相同O/S的不同版本(例如，运行操作系统的不同的当前版本和旧版本的不同VM)。另外地或替代地，VM O/S可以由不同制造商提供(例如，一些VM运行操作系统，而其他VM运行操作系统)。每个VM因此可以运行一个或多个应用(App)。每个服务器还包括可以由主机处理器和VM访问和使用的存储装置(例如，硬盘驱动器(HDD))和存储器(例如，RAM)。

云计算是计算能力作为服务的递送，使得对诸如计算能力、联网和存储等IT资源的访问像来自龙头的水一样可用。与任何公共设施一样，您通常只需要支付您使用云计算的费用。通过接进云服务，用户可以利用海量数据中心的力量，而无需构建、管理或维护高成本复杂的IT构建块。借助于云计算，IT的复杂性大部分都被抽象出来，让您专注于对您的业务真正重要的基础设施、数据和应用开发。

数据中心200提供池式资源，客户或租户可以根据需要在池式资源上动态地提供和缩放应用，而不必增加更多的服务器或附加联网。这使得租户可以获取他们所需要的计算资源，而无需在每个应用的临时基础上采购、提供和管理基础设施。云计算数据中心200允许租户动态扩展或缩减资源以满足其当前业务需求。此外，数据中心操作者可以向租户提供基于使用情况的服务，以便在他们需要使用资源时仅支付他们使用的资源。例如，租户最初可以使用服务器201-1上的一个VM来运行他们的应用。当需求增加时，数据中心可以根据需要激活相同服务器上和/或新的服务器201-N上的附加VM。如果稍后需求下降，则可以去激活这些附加VM。

数据中心200可以提供有保证的可用性、灾难恢复和备份服务。例如，数据中心可以指定服务器201-1上的一个VM作为用于租户应用的主要位置，并且如果第一VM或服务器201-1发生故障，则可以激活与备用或备份服务器相同或不同的服务器上的第二VM。数据库管理器202自动地将传入的用户请求从主VM转移到备份VM，而不需要租户介入。虽然数据中心200被示出为单个位置，但是应当理解，服务器201可以被分布到全球的多个位置以提供附加的冗余和灾难恢复能力。

数据中心操作者可以向租户提供不同级别的云计算服务。借助于基础设施即服务(IaaS)供应，IT栈的较低级别作为服务被递送，这使得开发人员免于提供物理机器和配置网络的复杂性。借助于IaaS，租户可以在高度可扩展的可用云环境、开发和测试解决方案中轻松提供虚拟机，然后将应用部署到生产。借助于平台即服务(PaaS)供应，提供了从网络连接到运行时的所有功能。PaaS通过提供对应用服务和操作系统管理(包括更新)的附加支持来使得开发变得轻松。借助于PaaS，租户可以专注于应用的业务逻辑并且快速将应用从概念移动到启动。借助于软件即服务(SaaS)供应，可以通过网络浏览器将单个完成的应用或应用套件递送给客户，从而消除他们管理IT栈的底层组件(包括应用代码)的需求。

再次参考图1，企业可以使用公共数据中心或公共云计算服务来利用成本节约、管理要求降低或提供的特定服务。另一方面，例如，企业也可以使用预置数据中心或私有云服务来确保数据安全或使用专有应用。可以理解，企业不必使用预置数据中心来利用私有云服务。相反，可以由限制对企业的访问的数据中心来提供私有云服务。企业对公共云服务和私有云服务二者的使用通常称为混合云。

图3示出了中央服务301与资源提供器302之间的通信连接。中央服务301用作主体并且管理资源提供器302、消费者订阅及其资源303的列表。中央服务301跟踪资源提供器注册和订阅管理。中央服务301是订阅的主体。每个资源提供器302向中央服务301注册并且使得消费者能够创建某种类型的资源303。资源提供器302代表消费者创建实际资源303并且维护关于资源303的元数据。资源提供器302用作资源303的主体。资源303表示消费者在云基础设施上创建的实际资源(诸如网站、数据库、存储装置等)。

图4示出了其中资源提供器401负责跟踪和管理资源信息的资源提供器域。资源提供器401跟踪消费者订阅。资源提供器401还代表消费者创建和维护实际资源403。资源提供器401以订阅402的形式保存关于消费者访问的信息。资源消耗限制也以配额的形式在订阅中定义。资源提供器401还跟踪实际资源403和资源元数据。资源提供器401以使得实际资源的元数据记录可以从该信息被重新创建的方式标记实际资源403或命名资源403。因此，在恢复过程中，资源提供器401将通过扫描现有资源403来重新生成元数据。

图5示出了用于资源提供器的灾难恢复的一系列步骤。恢复方案可以取决于实际资源和中央服务的位置。在步骤501中，资源提供器已经发生故障。造成云服务发生故障的原因有很多，诸如硬件、网络、通信链接或软件故障。在步骤502中，一旦资源提供器从备份中恢复。此时，资源提供器将需要重新构建其元数据存储库。在步骤503中，服务提供者重新配置资源提供器以执行恢复过程并且与中央服务同步。

在步骤504中，资源提供器将开始扫描实际资源以构建资源元数据。资源元数据将使用消费者订阅来创建，以便其能够向消费者提供对它们的访问。如果元数据发现和恢复导致任何业务规则违规，则这些元数据记录将被正确标记，以便服务提供者可以采取手动操作进行恢复。

在步骤505中，资源提供器与中央服务同步以更新消费者订阅信息。它将更新元数据存储库中的订阅信息。似乎与业务规则冲突的任何记录都将被标记为无法恢复。

图6示出了用于中央服务的灾难恢复的一系列步骤。恢复过程取决于底层的资源提供器。在步骤601中，检测到中央服务发生故障。在步骤602中，中央系统从备份中恢复。在步骤603中，服务提供者使用最新设置重新配置中央服务以确保应用所有最新配置。服务提供者重新注册所有资源提供器，使得它们能够指向最新的端点并且验证中央服务能够与资源提供器通信。

中央系统然后将需要更新其消费者订阅信息。在步骤604中，中央服务与资源提供器同步，并且每个资源提供器提供他们已知的消费者订阅的列表。基于可用信息，中央系统需要更新订阅或创建新供应(即，计划和优惠)，并且将发现的订阅与供应相关联。以服务提供者稍后可以审核它们并且采取手动动作的方式来标记这些订阅和供应。

中央系统需要跟踪消费者拥有的资源。在步骤605中，中央系统与每个注册的资源提供器同步以更新其资源元数据信息。如果在元数据恢复期间存在任何冲突，则该记录将被标记以用于由服务提供者审核。

在一个实施例中，一个或多个计算机存储介质上包含有计算机可执行指令，这些计算机可执行指令在被执行时执行用于从云计算基础设施内的灾难进行恢复的方法。在该方法中，租户从服务提供者获取订阅。租户使用订阅在资源提供器上创建资源。资源提供器将创建资源并且使用特定信息对其进行标记，该特定信息有助于唯一标识资源并且使资源提供器能够确定谁拥有这个资源。在灾难恢复期间，资源提供器将使用该信息，以通过扫描实际资源和从这些资源标记的信息来重新创建其资源元数据记录。当需要恢复资源提供器的资源注册时，这个标记对于成功的灾难恢复是必需的。

资源提供器可以维护由消费者创建的消费者订阅和资源列表。每个资源提供器都将揭露具有对该资源提供器的访问的消费者订阅列表。资源提供器还将提供每个消费者订阅拥有的资源列表。中央服务将在恢复期间使用订阅和资源信息来重新构建其订阅和资源元数据信息。恢复的资源和订阅可以被标记以用于后续审核。

中央服务将与资源提供器同步以更新其资源和订阅信息。一旦中央服务从故障中恢复，则服务提供者可以重新配置中央服务并且确保资源提供器信息是最新版本。中央服务寻找所有注册的资源提供器以同步租户订阅和资源。资源提供器揭露资源和订阅信息。中央服务可以以使得服务提供者和租户能够审核它们的方式来标记恢复的资源。

有两种方式可能导致系统不同步：

(1)集中式服务具有资源提供器不具有的信息。集中式服务会创建缺失的订阅并且对其进行同步，这将导致删除(或标记用于删除)关于资源提供器中缺少的资源的任何额外信息。

(2)资源提供器具有关于集中式服务不具有的订阅的信息。集中式服务重新创建关于这个订阅的记录，以进一步促进故障排除或干净删除。

如果资源提供器和集中式服务都没有关于订阅的信息，则其踪迹可能丢失。在辅助服务中仍然有可能存在关于这样的订阅的信息(诸如监测、记录、计费等)，并且需要执行类似的同步。

中央服务可能需要与位于其“上方”的其他服务同步，诸如批准订阅创建的计费系统。这样的同步的过程与上面描述的相似。不在计费系统中的订阅被暂停或标记以用于审核/删除。在集中式服务中但是不在计费系统中的订阅也被暂停，并且需要手动信息来修复它们。

当关于订阅的关键信息缺失并且不可能自动恢复(例如，当所有者或提供者信息丢失时)，可能需要手动恢复：

对于订阅恢复——可能需要创建新的订阅。

对于资源恢复——来自恢复的订阅的资源可能需要在资源所有权的验证时被移动到新重新创建的订阅。

图7是示出用于从云计算基础设施内的灾难或故障进行恢复的示例方法的流程图。在步骤701中，由资源提供器在分布式计算网络上创建资源。资源各自具有元数据记录。在步骤702中，由资源提供器用特定信息来标记资源，特定信息用于唯一地标识资源并且用于标识拥有该资源的租户。在步骤703中，分布式计算网络确定诸如在发生软件、硬件或网络故障时其需要进入灾难恢复模式。

在步骤704中，由资源提供器使用标记的信息来重新创建资源元数据记录。在步骤705中，在灾难恢复期间，由中央服务使用订阅和特定信息来重新构建其订阅和资源元数据信息。

资源提供器可以维护由消费者创建的消费者订阅和资源列表。资源提供器可以揭露具有对资源提供器的访问的消费者订阅列表。资源提供器可以提供每个消费者订阅拥有的资源列表。

图8是示出用于从分布式计算机网络内的故障进行恢复的示例方法的流程图。在步骤801中，中央服务与资源提供器同步以更新中央服务的资源和订阅信息。在步骤802中，一旦中央服务从故障中恢复，中央服务就被重新配置以确保其具有最新的资源提供器信息。在步骤803中，由中央服务联系所有注册的资源提供器以同步租户订阅和资源。

在步骤804中，资源提供器揭露资源和订阅信息。在步骤805中，中央服务标签恢复资源已用于由服务提供者或租户查看。

在灾难恢复期间，中央服务可以与其他服务同步，诸如批准订阅创建的计费系统。不在计费系统中的订阅可以在恢复的系统中被暂停。当关于订阅的信息缺失并且信息不可能自动恢复时，可以联系或请求服务提供者启动手动恢复。手动恢复可能需要创建新的订阅。在资源所有权的验证时，手动恢复可能需要从恢复的订阅向新重新创建的订阅移动资源。

一种用于从云计算基础设施内的灾难进行恢复的示例计算机实现的方法包括：由资源提供器在分布式计算网络上创建资源，资源各自具有元数据记录；由资源提供器使用特定信息标记资源，特定信息用于唯一地标识资源并且用于标识拥有该资源的租户；确定分布式计算网络何时处于灾难恢复模式；以及由资源提供器使用标记的信息重新创建资源元数据记录。

该方法的附加实施例还包括由资源提供器维护由消费者创建的消费者订阅和资源列表。

该方法的附加实施例还包括由资源提供器揭露具有对资源提供器的访问的消费者订阅列表。

该方法的附加实施例还包括由资源提供器提供每个消费者订阅所拥有的资源列表。

该方法的附加实施例还包括在灾难恢复期间由中央服务使用订阅和特定信息来重新构建其订阅和资源元数据信息。

一种用于从分布式计算机网络内的故障进行恢复的另一示例性计算机实现的方法包括：将中央服务与资源提供器同步以更新中央服务的资源和订阅信息；一旦中央服务从故障中恢复，就重新配置中央服务并且确保其具有最新的资源提供器信息；通过中央服务联系所有注册的资源提供器以同步租户订阅和资源；由资源提供器揭露资源和订阅信息；并且由中央服务标记恢复的资源以用于由服务提供者或租户审核。

该方法的附加实施例还包括将中央服务与其他服务同步。

在该方法的其他实施例中，其他服务包括批准订阅创建的计费系统。

该方法的附加实施例还包括暂停不在计费系统中的订阅。

在该方法的其他实施例中，当关于订阅的信息缺失并且信息不可能被自动恢复时，请求服务提供者发起手动恢复。

在该方法的其他实施例中，手动恢复要求创建新的订阅。

在该方法的其他实施例中，在资源所有权的验证时，手动恢复要求从恢复的订阅向新重新创建的订阅移动资源。

一种示例系统包括：执行管理用户订阅和资源提供器的中央服务的分布式计算网络；多个资源提供器，每个资源提供器被配置为按照用户订阅的要求来创建资源，资源各自具有元数据记录；资源，资源由资源提供器使用特定信息来标记，特定信息唯一地标识资源并且标识拥有该资源的用户，其中在从分布式计算网络的故障中的恢复期间，资源使用标记的信息来重新创建元数据记录。

在系统的附加实施例中，中央服务与资源提供器同步以更新中央服务上的资源和订阅信息。

在该系统的附加实施例中，一旦中央服务从故障恢复，中央服务就联系所有注册的资源提供器以同步租户订阅和资源。

在该系统的另外的实施例中，资源提供器揭露资源和订阅信息。

在该系统的附加实施例中，中央服务标签恢复资源以用于由服务提供者或租户审核。

在该系统的附加实施例中，在故障恢复期间，中央服务与批准订阅创建的计费系统同步。

该系统的附加实施例包括数据存储库，其包括用户订阅和资源信息。

虽然已经用对结构特征和/或方法动作特定的语言描述了主题，但是应当理解，在所附权利要求中限定的主题不一定限于上面描述的特定特征或动作。相反，上述具体特征和行为被公开作为实现权利要求的示例形式。

Claims

1.一种用于从云计算基础设施内的灾难进行恢复的计算机实现的方法，所述方法包括：

由资源提供器在分布式计算网络上创建资源，所述资源各自具有元数据记录；

由所述资源提供器使用特定信息来标记所述资源，所述特定信息用于唯一地标识所述资源并且用于标识拥有所述资源的租户；

确定所述分布式计算网络何时处于灾难恢复模式；以及

由所述资源提供器使用标记的所述信息来重新创建所述资源元数据记录。

2.根据权利要求1所述的计算机实现的方法，还包括：

由所述资源提供器维护消费者订阅和由消费者创建的资源的列表。

3.根据权利要求2所述的计算机实现的方法，还包括：

由所述资源提供器揭露具有对所述资源提供器的访问的消费者订阅的列表。

4.根据权利要求2所述的计算机实现的方法，还包括：

由所述资源提供器提供由每个消费者订阅拥有的资源的列表。

5.根据权利要求4所述的计算机实现的方法，还包括：

在灾难恢复期间由中央服务使用所述订阅和所述特定信息来重新构建所述中央服务的订阅和资源元数据信息。

6.一种用于从分布式计算机网络内的故障进行恢复的计算机实现的方法，所述方法包括：

将中央服务与资源提供器同步以更新所述中央服务的资源和订阅信息；

一旦所述中央服务从所述故障恢复，就重新配置所述中央服务并且确保所述中央服务具有最新的资源提供器信息；

由所述中央服务联系所有注册的资源提供器，以同步租户订阅和资源；

由所述资源提供器揭露资源和订阅信息；以及

由所述中央服务标记恢复的资源以用于由服务提供者或租户审核。

7.根据权利要求6所述的计算机实现的方法，还包括：

将所述中央服务与其他服务同步。

8.根据权利要求7所述的计算机实现的方法，其中所述其他服务包括批准订阅创建的计费系统。

9.根据权利要求8所述的计算机实现的方法，还包括：

暂停不在所述计费系统中的订阅。

10.根据权利要求6所述的计算机实现的方法，其中当关于订阅的信息缺失并且所述信息不可能被自动恢复时，请求服务提供者发起手动恢复。

11.根据权利要求6所述的计算机实现的方法，其中所述手动恢复要求创建新的订阅。

12.根据权利要求6所述的计算机实现的方法，其中在资源所有权的验证时，所述手动恢复要求从恢复的订阅向新重新创建的订阅移动资源。

13.一种系统，包括：

分布式计算网络，其执行管理用户订阅和资源提供器的中央服务；

多个资源提供器，每个资源提供器被配置为按照所述用户订阅的要求来创建资源，所述资源各自具有元数据记录；

所述资源，所述资源由所述资源提供器使用特定信息来标记，所述特定信息用于唯一地标识所述资源并且用于标识拥有所述资源的用户，其中在从所述分布式计算网络的故障的恢复期间，所述资源使用标记的所述信息来重新创建所述元数据记录。

14.根据权利要求13所述的系统，其中所述中央服务与所述资源提供器同步以更新所述中央服务上的资源和订阅信息。

15.根据权利要求13所述的系统，其中一旦所述中央服务从所述故障恢复，所述中央服务就联系所有注册的资源提供器以同步租户订阅和资源。