CN102999587A

CN102999587A - 用于故障转移的跨不同服务器的镜像数据库的布置

Info

Publication number: CN102999587A
Application number: CN2012104616920A
Authority: CN
Inventors: D·R·沙特; S·M·A·A·贾弗里; C·绍林; D·洛伦茨; W·P·穆恩斯; M·贝德罗西安; C·阿基拉巨; 孙浩
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-11-16
Filing date: 2012-11-15
Publication date: 2013-03-27
Also published as: US20130124916A1

Abstract

本发明公开了用于故障转移的跨不同服务器的镜像数据库的布置。多个数据中心各自具有多个服务器。当一数据中心存在故障时，基于该故障的大小来将对应于该数据中心的故障部分的负载本地地或远程地分布到所有其余服务器。

Description

用于故障转移的跨不同服务器的镜像数据库的布置

技术领域

本发明涉及数据恢复，尤其涉及用于故障转移的跨不同服务器的镜像数据库的布置。

背景技术

数据库系统当前被广泛应用。一般而言，数据库系统包括服务器，该服务器与数据存储组件交互以便以受控且有序的方式存储数据（并提供对数据的访问）。

数据库服务器通常试图实现两个目标。第一个目标是具有高可用性，以使得各种不同的用户都能够快速且容易地访问数据存储中的数据。第二个目标是具有使得能够在数据库系统的一部分发生灾难性故障的情况下进行数据恢复的系统。

一些系统已经尝试通过在本地或远程服务器上提供数据库镜像来实现这些目标。即，在第二数据库上精确地制作给定数据库上的数据的镜像，该第二数据库是相对于第一数据库本地地存储的，或者是远离第一数据库存储的。如果第一数据库发生故障，则在修复第一数据库的同时操作简单地转移至镜像。

当然，这种解决方案是高度冗余的。对于要存储的给定量的数据，这种系统实质上需要使存储器和处理的量翻倍。因此，该系统是低效的系统。

提供以上讨论仅用作一般的背景信息，并不旨在帮助确定所要求保护的主题的范围。

发明内容

多个数据中心各自具有多个服务器。当一数据中心存在故障时，基于该故障的大小来将对应于该数据中心的故障部分的负载本地地或远程地分布到所有其余服务器。

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决在背景中提及的任何或所有缺点的实现。

附图说明

图1是一组数据中心的一个说明性实施例的框图。

图2是示出图1所示的系统在一个数据存储组件的故障转移期间的操作的一个实施例的流程图。

图3A-3I示出了根据一个实施例的跨多个不同数据中心中的服务器的数据库可用性组的布置。

图4是一个说明性计算环境的框图。

具体实施方式

图1是一个说明性数据存储系统100的各种组件的框图。数据存储系统100说明性地包括多个数据中心102、104和106。当然，将会注意到可使用两个或更多数据中心并且图1所示的三个数据中心仅仅是为了示例而示出的。图1还示出每一个数据中心说明性地包括一组数据存储服务器和数据存储。例如，数据中心102包括数据存储服务器108、110和112，这些服务器各自分别具有对应的数据存储114、116和118。当然，还应当注意到在给定数据中心中可使用附加数据存储服务器和数据存储，但数据中心102中示出的三个数据存储服务器和三个数据存储仅仅是为了示例而示出的。

图1还示出数据中心104具有数据存储服务器120、122和124、这些服务器各自分别具有相关联的数据存储126、128和130。另外，图1还示出数据中心106具有数据存储服务器132、134和136，这些服务器各自具有相关联的数据存储138、140和142。同样，数据存储服务器和数据存储的数量可以不同于图1所示的数量，并且图1所示的实施例仅仅是出于说明的目的而示出的。

图1还示出数据中心102、104和106中的每一个都说明性地通过网络150来彼此通信。网络150可以是局域网或广域网。在一个实施例中，每一个数据存储服务器都包括数据库服务器，该数据库服务器使用计算机处理器来执行用于以有序方式将数据存储在其对应的数据存储上以及从其对应的数据存储中检索数据的数据库服务器功能。用户可使用设备152，该设备可以直接或也可通过网络150来连接到一个数据存储。以此方式，用户可方式数据中心中的数据。由此，通过用户设备152访问数据存储102-106中的一个的用户可通过数据中心的对应数据库服务器来获得对存储在一个数据中心上的一个数据存储上的数据的访问。

图2是示出图1所示的系统100在一个或多个数据存储服务器或数据中心发生故障的情况下的操作的一个实施例的流程图。图3A-3I示出了跨一实施例的每一个数据库的布置，在该实施例中，每一个数据中心有三个数据存储服务器并且只有两个数据中心。因此，虽然图1示出一实施例可包括不止两个数据中心，其中每一个数据中心具有三个或更多数据存储服务器，但参考图2和3A-3I描述的实施例是其中每一个数据中心只有三个数据存储服务器且只有两个数据中心的实施例。当然，参考图2-3I讨论的特征也同等地适用于具有不止两个数据中心的实施例和/或其中每一个数据中心具有不止三个数据存储服务器的实施例。图2-3I的描述仅仅是为了示例而提供的。

同样，图2-3I的讨论将涉及可用性组。可用性组指的是共享共同的工作者线程和存储器中存储（in-memory storage）的一组数据库。该组数据库共享功能。可用性组用于定义如何将数据库配置成一起进行故障转移。因此，可用性组是用于在多个数据库服务器之间分布数据库服务负载的最小度量单位。

图2描述了图1所示的系统100（同样只有两个数据中心，各自其上具有三个数据存储服务器）在故障转移操作期间的总体操作的一个实施例，该故障转移操作在一个数据库服务器或数据中心发生故障时进行。最初，在数据中心内布置数据库以使得存在数据库的主要和次要本地镜像以及各数据库的远程、异步副本。这由图2的框200指示。

为了更详细地对其进行描述，图3A是示出一实施例中的数据库的一个说明性布置的图表，在该实施例中使用两个数据中心（图1的数据中心102和数据中心104）并且每一个数据中心具有三个数据存储服务器（数据中心102上的服务器108、110和112以及数据中心104上的服务器120、122和124）。因此图3A示出了跨两个数据中心102和104中的六个服务器的数据库布置。

图3A的水平轴具有术语“DCxSy”。“DC”指的是数据中心，而“S”指的是服务器。因此，“DC102S108”指的是数据中心102中的服务器108。类似地，术语“DC104S120”指的是数据中心104中的数据存储服务器120。

图3A中的垂直轴指的是可用性组号。在此处讨论的实施例中，存在12个可用性组。这些组被标记为AG1-AG12。每一个可用性组都说明性地包括不止一个数据库，但每一个可用性组中的数据库是出于故障恢复的目的而一起管理的。

因此，如图3A所示，存在定义矩阵的多个单元格。矩阵中的每一个单元格指示什么被存储在给定数据中心处的给定服务器上。单元格中的字母“P”指示可用性组的主要副本被存储在该位置。例如，在图3A的第一行中，可以看到可用性组1的主要副本被存储在图1中的数据中心102和数据存储服务器108处。还可以从图3A中的第一行中看到，可用性组1的异步副本分别在数据中心104处的数据存储服务器120和122处维护。由此，图3A示出了跨数据中心102和104和所有六个数据存储服务器108、110、112、120、122和124的可用性组的初始布置的一个实施例。图3A示出了在哪里维护每一个可用性组的每一个主要和次要副本，以及也在哪里维护该可用性组的第一和第二异步副本。布置每一个可用性组的主要和次要本地镜像以及远程异步副本由图2的框200指示。

一旦如图3A所示的那样布置数据库，数据存储服务器就简单地执行常规数据库操作。这包括例如存储和读取数据并且由图2的框202来指示。

在某一时刻，数据存储服务器、数据存储或数据中心中的一个或多个发生故障。这由图2的框204指示。如果发生故障，则用于实现每一个数据存储服务器的处理器中的一个或多个确定故障的大小，诸如发生故障的数据存储服务器的数量，以及数据是否能够本地地进行故障转移或数据是否更期望远程地进行故障转移。这由图2的框206指示。

例如，假定数据中心102中的数据存储服务器108发生故障。在这种情况下，其余数据存储服务器110和112中的每一个都将接管数据存储服务器108的操作，并且来自数据存储108的负载将跨本地服务器110和112两者同等地进行平衡。这由图2的框208指示。如果例如给定数据中心上的不止一个数据存储服务器发生故障，则该给定数据中心上的可用性组的主要和次要副本中的全部都将被转移至另一数据中心，并且均等地散布在该数据中心上的有效数据存储服务器上。这由图2的框210指示。当然，可以本地地容纳或将被远程地处理的故障的大小（例如，发生故障的服务器或数据存储的数量）可基于应用、每一个数据中心的服务器数量或按需的其他因素来变化。对于当前示例，一个服务器的故障可以在数据中心处本地地处理，而给定数据中心上的两个或更多服务器的故障将导致到远程数据中心的故障转移。这些数字仅仅出于示例性目的而使用。

作为示例，假定数据中心102上的数据存储服务器108和110两者都发生故障。在这种情况下，数据中心102上的可用性组的主要和次要副本中的全部都将被迁移至数据中心104，并且与那些可用性组相关联的负载将被同等地散布在数据中心104上的各个服务器上。运行数据中心102中的数据存储服务器108、110和112的处理器确定数据中心102上是否有足以批准远程故障转移的组件发生故障或者本地故障转移是否是足够的。

这些操作可以参考图3B-3I来更好地理解。除了图3B中的多个单元格被突出显示之外，图3B具有与图3A所示的相同的矩阵。这指示数据中心102上的足够服务器发生故障以使得将远程地向数据中心104完成故障转移。突出显示的单元格是将需要从数据中心102故障转移至数据中心104的那些单元格。由此，可以看到数据中心102上的所有三个服务器（S108、S110和S112）都受到影响，并且在数据中心102中的任一个服务器上具有主要或次要副本的所有可用性组（AG1-AG6）也将受到影响。

图3C示出在故障转移操作期间发生了什么。基本上，故障转移操作导致在数据中心102上的服务器上具有主要和次要副本的所有可用性组进行故障转移，并且同等地分布在数据中心104上的服务器上。例如，假定数据中心102上的服务器108-112中的两个或更多服务器发生故障，则数据中心102上的所有可用性组的负载都将被转移至数据中心104上的服务器并分布在这些服务器上。

图3C示出将所有受影响的服务器和可用性组示为加阴影或被突出显示。可以从图3C的第一行中看到，可用性组1的主要副本（先前驻留在数据中心102中的服务器108上）将被转移至数据中心104和服务器120。可用性组1的次要副本将从数据中心102、服务器100转移至数据中心104、服务器122。一旦被修复，可用性组1的主要和次要副本先前驻留的地方将用于服务和维护可用性组1的第一和第二异步副本。对于先前在数据中心102上具有其主要和次要副本的所有其他可用性组A2-A6而言亦如此。主要和次要副本现在将被传送到数据中心104上的数据存储服务器120-124，并且同等地分布在这些服务器上。因此，数据中心102现在将只负责在其上维护异步副本以使其能够被安全地修复或修补。同时，用于可用性组1-6的所有主要和次要副本的服务将从数据中心104中的适当服务器来服务。以此方式服务所有可用性组被称为以故障转移状态操作。系统100在正在修复数据中心102的各个组件的同时以故障转移状态操作（其中操作从数据中心104服务）。这由图2的框212和214指示。图3D示出了在所有可用性组都以远程故障转移状态从数据中心104服务时的各数据库的布置。

一旦数据中心102被修复，它将发出故障恢复命令。即，实现服务器108-112的处理器中的一个将确定数据中心102的各组件已被充分修复以使得数据中心102能够再次开始服务可用性组1-6的主要和次要副本。处理器将经由网络150将该消息传送到数据中心104。对应于服务器120-124（现在正在执行用于可用性组1-6的主要和次要服务）的处理器然后将这些可用性组的负载传送回它们最初驻留的数据中心102。基本上，故障恢复命令使得可用性组1-6转回到它们的默认状态并且该命令还原最初使用的副本关系。这可以在图3E中看到，该附图示出了受到故障恢复命令影响的所有单元格。故障恢复到原始状态由图2的框216指示。

图3F-3I类似于上文的图3A-3E，不同之处在于它们示出了用于本地故障转移的数据库布置。例如，假定数据中心102中的数据存储服务器110发生故障，但数据中心102中的其他服务器108或112未发生故障。在这种情况下，执行本地故障转移，其中数据存储服务器110携带的负载被同等地散布在数据中心102上的服务器108和110上，而不涉及任何其他数据中心。图3F示出了与图3A-3I所示的矩阵相似的矩阵，不同之处在于图3F突出显示了对应于将在数据存储服务器110发生故障的情况下受影响的可用性组3和4的单元格。

图3G示出了在进行本地故障转移之后的数据库布置。可以从图3G中看到，可用性组3的主要位置转移至其次要副本最初所在的数据中心102上的服务器112。类似地，可用性组4的主要位置转移至其次要位置所在的数据中心102上的服务器108。由此可见，一个可用性组的主要位置已经转移至服务器112，而另一可用性组的主要位置已经转移至服务器108。由此，来自服务器110的主要负载被同等地分布在服务器108和112上。因此，在执行本地故障转移操作之后，发生故障的服务器110只保留可用性组的次要副本。这允许该服务器在需要时离线并被修复，并且在需要时所有可用性组在数据中心102上的主要服务器将由服务器108和112来提供。

一旦服务器110被修复并回归在线，该服务器的状态在图3H中示出。该服务器仍然只具有可用性组的次要位置，但它准备好可用性组被还原至它们的默认状态，以使得该服务器能够恢复执行用于可用性组3和4的主要服务。因此，该服务器发出故障恢复命令。图3I示出该命令。可以在图3I中看到，可用性组3的主要位置从服务器112转移回服务器110，服务器112现在只维护可用性组3的次要位置。类似地，可用性组4的主要位置从服务器108转移回服务器110，且服务器108同样只维护可用性组4的次要位置。由此，数据中心102返回到它的如图3A所示的默认布置。

由此可见，如果每一个数据中心都具有N个服务器，则每一个服务器最初承载本地可用性组的负载中的1/N。如果这些服务器中的一个发生故障，则在其余活动服务器之间重新分布负载以使得每一个服务器只承载总负载的1/(N-1)。由此，在数据中心具有三个服务器并且六个可用性组的主要位置分布在这三个服务器上的情况下，每一个服务器最初承载为这六个可用性组中的1/3（即两个可用性组）提供主要位置的负载。如果一个服务器发生故障，则每一个其余服务器为这六个可用性组中的1/(3-1)=1/2提供主要位置（即，两个其余服务器中的每一个为三个可用性组提供主要位置）。由此，如果每一个数据中心有三个服务器和六个可用性组，则每一个服务器能够以其能力中的百分之66.6运行，同时仍旧提供高水平的数据可用性和灾难恢复。随着每一个数据中心的服务器数量的增加，每一个服务器能够以其能力中的甚至更高的比例运行。

类似地，在存在M个数据中心的情况下，每一个数据中心中的每一个服务器承载可用性组的主要位置中的1/(N×M)的负载。如果一个数据中心发生故障，则每一个其余服务器承载负载中的1/(N×M-1)。由此，随着服务器或数据中心的数量的增加，各个服务器中的每一个能够以相对较高水平的能力运行，同时仍旧维持足够的冗余来提供灾难恢复，且同时仍旧提供高数据可用率。

图4是可用于部署图1所示的数据存储系统的计算环境的一个实施例。参考图4，用于实现用户设备152或服务器和存储的一些实施例的示例性系统包括计算机810形式的通用计算设备。计算机810的组件可包括，但不限于，处理单元820、系统存储器830、以及将包括系统存储器的各种系统组件耦合到处理单元820的系统总线821。系统总线821可以是若干类型的总线结构中的任一种，包括使用各种总线体系结构中的任一种的存储器总线或存储器控制器、外围总线、以及局部总线。作为示例而非限制，这样的体系结构包括工业标准体系结构（ISA）总线、微通道体系结构（MCA）总线、增强型ISA（EISA）总线、视频电子标准协会（VESA）局部总线，以及也称为夹层（Mezzanine）总线的外围部件互连（PCI）总线。参考图1描述的存储器和程序可被部署在图4的相应部分中。

计算机810通常包括各种计算机可读介质。计算机可读介质可以是能被计算机810访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质不同于且不包括已调制数据信号或载波。计算机存储介质包括硬件存储介质，该硬件存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法和技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘（DVD）或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机810访问的任何其它介质。通信介质通常具体化计算机可读指令、数据结构、程序模块或传输机制中的其他数据，并包括任何信息递送介质。术语“已调制数据信号”是指具有以在信号中编码信息的方式被设定或改变其一个或多个特征的信号。作为示例而非限制，通信介质包括诸如有线网络或直接线连接之类的有线介质，以及诸如声学、RF、红外及其他无线介质之类的无线介质。以上的任何组合也应包括在计算机可读介质的范围内。

系统存储器830包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器（ROM）831和随机存取存储器（RAM）832。包含诸如在启动期间帮助在计算机810内的元件之间传输信息的基本例程的基本输入/输出系统833（BIOS）通常储存储在ROM 831中。RAM 832通常包含处理单元820可立即访问和/或当前正在操作的数据和/或程序模块。作为示例而非限制，图4示出了操作系统834、应用程序835、其他程序模块836和程序数据837。

计算机810还可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图4示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器841，从可移动、非易失性磁盘852中读取或向其写入的磁盘驱动器851，以及从诸如CD ROM或其他光学介质等可移动、非易失性光盘856中读取或向其写入的光盘驱动器855。可在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器841通常通过诸如接口840之类的不可移动存储器接口连接到系统总线821，并且磁盘驱动器851和光盘驱动器855通常通过诸如接口850之类的可移动存储器接口连接到系统总线821。

以上讨论并在图4中示出的驱动器及其相关联的计算机存储介质为计算机810提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。在图4中，例如，硬盘驱动器841被示为存储操作系统844、应用程序845、其他程序模块846和程序数据847。注意，这些组件可与操作系统834、应用程序835、其他程序模块836和程序数据837相同，也可与它们不同。在此操作系统844、应用程序845、其他程序模块846以及程序数据847被给予了不同的编号，以说明至少它们是不同的副本。这些组件还可包括搜索组件802和804。

用户可以通过诸如键盘862、话筒863以及诸如鼠标、跟踪球或触摸垫等定点设备861等输入设备来将命令和信息输入至计算机810中。其它输入设备（未示出）可以包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些以及其他输入设备通常通过耦合到系统总线的用户输入接口860连接到处理单元820，但也可通过诸如并行端口、游戏端口或通用串行总线（USB）之类的其他接口和总线结构来连接。监视器891或其他类型的显示设备也通过诸如视频接口890之类的接口连接至系统总线821。除了监视器以外，计算机还可包括诸如扬声器897和打印机896之类的其他外围输出设备，它们可通过输出外围接口895来连接。

计算机810使用到诸如远程计算机880等一个或多个远程计算机的逻辑连接在网络化环境中操作。远程计算机880可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其它常见的网络节点，且一般包括以上关于计算机810描述的多个或所有的元件。图4中所描绘的逻辑连接包括局域网（LAN）871和广域网（WAN）873，但还可包括其他网络。此类联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机810通过网络接口或适配器870连接到LAN 871。当在WAN联网环境中使用时，计算机810通常包括调制解调器872或用于通过诸如因特网等WAN 873建立通信的其他手段。调制解调器872可以是内置的或外置的，可经由用户输入接口860或其他适当的机制连接到系统总线821。在联网环境中，相对于计算机810所示的程序模块或其部分可被存储在远程存储器存储设备中。作为示例，而非限制，图4示出了远程应用程序885驻留在远程计算机880上。应当理解，所示的网络连接是示例性的，并且可使用在计算机之间建立通信链路的其他手段。

尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。更确切而言，上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种操作数据存储系统的计算机实现的方法，所述方法由具有处理器的计算机来实现，所述方法包括：

使用至少第一数据存储服务器、第二数据存储服务器和第三数据存储服务器来服务至少六个不同的可用性组的主要和次要副本；

检测所述第一数据存储服务器的故障；以及

根据故障转移操作，通过在至少所述第二数据存储服务器和所述第三数据存储服务器之间平衡服务使用所述第一数据存储服务器来服务的可用性组的主要副本的负载，来进行操作。

2.如权利要求1所述的计算机实现的方法，其特征在于，还包括：

根据初始配置，通过跨所述至少第一、第二和第三数据存储服务器对所述至少六个不同的可用性组的主要和次要副本的服务进行负载平衡，将所述至少六个不同的可用性组的主要和次要副本分配给所述至少第一、第二和第三数据存储服务器。

3.如权利要求2所述的计算机实现的方法，其特征在于，所述负载平衡包括：

在所述初始配置中将两个不同的可用性组的主要副本和另外两个不同的可用性组的次要副本的服务分配给每一个数据存储服务器。

4.如权利要求2所述的计算机实现的方法，其特征在于，还包括：

检测对所述第一数据存储服务器的故障的补救；以及

根据所述初始配置，将所述至少六个不同的可用性组的主要和次要副本的服务还原至所述至少第一、第二和第三数据存储服务器。

5.如权利要求1所述的计算机实现的方法，其特征在于，每一个可用性组都包括迁移在一起以用于故障转移操作的多个不同的数据库。

6.如权利要求5所述的计算机实现的方法，其特征在于，所述数据存储系统包括至少第一和第二数据中心，并且其中检测故障包括：

检测所述第一数据中心上的故障；

在检测到所述第一数据中心上的故障后，确定所述故障是否具有满足远程故障转移阈值的大小；以及

如果是，则根据所述故障转移操作来进行操作，包括：根据远程故障转移操作，通过将所述可用性组的主要和次要副本的负载分布在所述数据存储系统中的至少所述第二数据中心上的数据存储服务器上以便对至少所述第二数据中心上的数据存储服务器进行负载平衡，来进行操作。

7.如权利要求6所述的计算机实现的方法，其特征在于，所述数据存储系统包括至少所述第二数据中心和第三数据中心，并且其中将所述可用性组的主要和次要副本的负载分布在所述数据存储系统中的至少第二数据中心上的数据存储服务器上包括：

将所述可用性组的主要和次要副本的负载分布在所述数据存储系统中的至少所述第二和第三数据中心上的数据存储服务器上。

8.如权利要求6所述的计算机实现的方法，其特征在于，还包括：

根据初始配置来将所述至少六个不同的可用性组的主要和次要副本以及所述至少六个不同的可用性组的第一和第二异步副本分配给所述至少第一和第二数据中心上的数据存储服务器，并且根据所述远程故障转移操作来进行操作包括：

只将所述至少六个不同的可用性组的第一和第二异步副本分配给所述第一数据中心上的数据存储服务器。

9.如权利要求8所述的计算机实现的方法，其特征在于，还包括：

检测对所述第一数据中心的故障的补救；以及

根据所述初始配置，将所述至少六个不同的可用性组的主要和次要副本的服务还原至所述至少第一和第二数据中心上的数据存储服务器。

10.一种数据存储系统，包括：

第一数据中心，包括：

至少第一数据存储服务器、第二数据存储服务器和第三数据存储服务器，根据初始的负载平衡的配置，这些数据存储服务器各自服务至少六个不同的可用性组的主要和次要副本；

第二数据中心，包括：

至少第四数据存储服务器、第五数据存储服务器和第六数据存储服务器，根据初始的负载平衡的配置，这些数据存储服务器各自服务至少六个附加可用性组的主要和次要副本；以及

至少一个计算机处理器，所述计算机处理器检测所述数据存储系统中的至少一个数据存储服务器的故障并且将所述至少一个数据存储服务器标识为发生故障的数据存储服务器，并且通过以下操作来开始故障转移操作：以负载平衡的方式将分配给所述发生故障的数据存储服务器的可用性组的至少主要副本的服务转移至与所述发生故障的数据存储服务器相同的数据中心上的其余数据存储服务器或至少所述第二数据中心上的一组数据存储服务器。