CN107769943B

CN107769943B - 一种主备集群切换的方法和设备

Info

Publication number: CN107769943B
Application number: CN201610681860.5A
Authority: CN
Inventors: 韩坤鹏
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-08-17
Filing date: 2016-08-17
Publication date: 2021-01-08
Anticipated expiration: 2036-08-17
Also published as: CN107769943A

Abstract

本申请的目的是提供了一种主备集群切换的方法和设备，通过周期性地基于数据请求响应状态，判断所述主集群的状态；并同时周期性地基于数据复制请求响应状态，判断所述备集群的状态；当所述主集群处于不可用状态，且所述备集群处于可用状态时，则进行主备集群的切换，将备集群替换为主集群，以达到快速精确地进行主备集群切换的目的，从而有效地提高系统的可用性。

Description

一种主备集群切换的方法和设备

技术领域

本申请涉及计算机领域，尤其涉及一种主备集群切换的技术。

背景技术

现有技术中，基于超文本传输协议(HyperText Transfer Protocol，HTTP)架构的系统，通常采用两层架构：前端网络服务(Web服务)接收和分发数据读写请求，后端存储引擎处理请求和读写数据。在系类系统中，常用主备集群来保证网络服务的可用性和数据安全性，故快速准确地检测集群的状态成为业界主要研究课题。

例如，该系统下的表格存储服务是一种非关系型数据库(NoSQL)分布式数据存储服务，提供在线多租户的云服务。服务端采用两层架构：前端网络服务器(Web服务器)负责接收和处理数据读写请求，由于各网络服务器之间的数据读写请求之间无依赖关系，故所有网络服务器都是无状态的；后端是存储引擎，采用典型的主节点/工作节点(Master/Worker)结构，主节点(Master)用于存储元数据，工作节点(Worker)执行数据读写和业务逻辑，如图1所示。

为了提供更高的服务可用性和数据安全性，表格存储服务提供了主备集群热备功能。即在两个机房部署两个集群，分别称为主集群和备集群，主集群处理用户设备发送的数据写入请求并存储数据，后台通过异步复制的方式传输写入的数据到备集群。当主集群发送故障时，需要进行切换至备集群，以待备集群进行数据的写入和存储，但由于在主备集群切换的过程中，现有技术没有考虑到主集群中部分服务器不可用的情况及主集群的用户请求的响应信息导致误切集群，同时没有考虑到备集群的状态是否可用及相关应用程序的运行状态，导致误切至备集群，进而导致大量数据的丢失，因此快速精确地检测集群的状态以达到精确主备集群切换成为业界主要研究课题。

发明内容

本申请的目的是提供一种主备集群切换的方法和设备，以解决现有技术中无法快速精确切换主备集群的问题。

根据本申请的一个方面，提供了一种主备集群切换的方法，包括：

基于数据请求响应状态，判断所述主集群的状态；

基于数据复制请求响应状态，判断所述备集群的状态；

当所述主集群处于不可用状态，且所述备集群处于可用状态时，将备集群替换为主集群。

进一步地，所述基于数据请求响应状态，判断所述主集群的状态，包括：

根据所述数据请求响应状态，并基于预置的统计时间范围内的汇报时间间隔，确定数据请求总数和错误请求总数；

基于所述数据请求总数和所述错误请求总数，确定异常请求比例信息；

基于所述数据请求总数和所述异常请求比例信息，判断所述主集群的状态。

进一步地，所述基于所述数据请求总数和所述异常请求比例信息，判断所述主集群的状态，包括：

若所述数据请求总数大于等于预置的最小有效请求数，且所述异常请求比例信息大于等于预置的异常请求比例阈值，则所述主集群处于不可用状态。

进一步地，所述基于数据请求响应状态，判断所述主集群的状态包括：

基于数据请求响应状态和主集群节点状态，判断所述主集群的状态。

进一步地，所述基于主集群节点状态，判断所述主集群的状态，包括：

根据所述主集群节点状态，并基于预置的统计时间范围内的汇报时间间隔，确定主集群工作节点总数和主集群异常工作节点总数；

基于所述主集群工作节点总数和所述主集群异常工作节点总数，确定主集群异常工作节点比例信息；

基于所述主集群异常工作节点比例信息，判断所述主集群的状态。

进一步地，所述基于所述主集群异常工作节点比例信息，判断所述主集群的状态，包括：

若所述主集群异常工作节点比例信息大于等于预置的异常工作节点比例阈值，则所述主集群处于不可用状态。

进一步地，所述基于数据复制请求响应状态，判断所述备集群的状态，包括：

根据数据复制请求响应状态，并基于预置的统计时间范围内的汇报时间间隔，确定数据复制请求总数和异常复制请求总数；

基于所述数据复制请求总数和所述异常复制请求总数，确定异常复制请求比例信息；

基于所述数据复制请求总数和所述异常复制请求比例信息，判断所述备集群的状态。

进一步地，所述基于所述数据复制请求总数和所述异常复制请求比例信息，判断所述备集群的状态，包括：

若所述数据复制请求总数大于等于预置的最小有效请求数，且所述异常复制请求比例信息大于等于预置的异常请求比例阈值，则所述备集群处于不可用状态。

基于数据复制请求响应状态和备集群节点状态，判断所述备集群的状态。

进一步地，所述基于备集群节点状态，判断所述备集群的状态，包括：

根据备集群节点状态，并基于预置的统计时间范围内的汇报时间间隔，确定备集群工作节点总数和备集群异常工作节点总数；

基于所述备集群工作节点总数和所述备集群异常工作节点总数，确定备集群异常工作节点比例信息；

基于备集群异常工作节点比例信息，判断所述备集群的状态。

进一步地，所述基于备集群异常工作节点比例信息，判断所述备集群的状态，包括：

若所述备集群异常工作节点比例信息大于等于预置的异常工作节点比例阈值，则所述备集群处于不可用状态。

根据本申请的另一方面，还提供了一种用于主备集群切换的设备，包括：

判断装置，用于基于数据请求响应状态，判断所述主集群的状态，基于数据复制请求响应状态，判断所述备集群的状态；

切换装置，用于当所述主集群处于不可用状态，且所述备集群处于可用状态时，将备集群替换为主集群。

进一步地，所述判断装置，用于：根据所述数据请求响应状态，并基于预置的统计时间范围内的汇报时间间隔，确定数据请求总数和错误请求总数；基于所述数据请求总数和所述错误请求总数，确定异常请求比例信息；及基于所述数据请求总数和所述异常请求比例信息，判断所述主集群的状态。

进一步地，所述判断装置，用于：

进一步地，所述判断装置，用于：根据所述主集群节点状态，并基于预置的统计时间范围内的汇报时间间隔，确定主集群工作节点总数和主集群异常工作节点总数；基于所述主集群工作节点总数和所述主集群异常工作节点总数，确定主集群异常工作节点比例信息；及基于所述主集群异常工作节点比例信息，判断所述主集群的状态。

进一步地，所述判断装置，用于：

进一步地，所述判断装置用于：根据数据复制请求响应状态，并基于预置的统计时间范围内的汇报时间间隔，确定数据复制请求总数和异常复制请求总数；基于所述数据复制请求总数和所述异常复制请求总数，确定异常复制请求比例信息；及基于所述数据复制请求总数和所述异常复制请求比例信息，判断所述备集群的状态。

进一步地，所述判断装置，用于：

进一步地，所述判断装置，用于：根据备集群节点状态，并基于预置的统计时间范围内的汇报时间间隔，确定备集群工作节点总数和备集群异常工作节点总数；基于所述备集群工作节点总数和所述备集群异常工作节点总数，确定备集群异常工作节点比例信息；及基于备集群异常工作节点比例信息，判断所述备集群的状态。

进一步地，所述判断装置，用于：

根据本申请的另一个方面，还提供了一种包括一个或多个计算机可读存储介质的计算机程序产品，所述计算机可读存储介质上具有计算机可执行指令，所述计算机可执行指令构造成在被中间计算系统的一个或多个处理器执行时，使所述中间计算系统执行一种主备集群切换方法，所述方法包括：

基于数据请求响应状态，判断所述主集群的状态；

基于数据复制请求响应状态，判断所述备集群的状态；

与现有技术相比，本申请提供了一种主备集群切换的方法和设备，通过周期性地基于数据请求响应状态，判断所述主集群的状态；并同时周期性地基于数据复制请求响应状态，判断所述备集群的状态；当所述主集群处于不可用状态，且所述备集群处于可用状态时，则进行主备集群的切换，将备集群替换为主集群，以达到快速精确地进行主备集群切换的目的，从而提高系统的可用性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出现有技术中的表格存储系统中的表格存储服务的架构示意图；

图2示出根据本申请一个方面的一个优选实施例中的一种主备集群切换的架构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

根据本申请一个方面的一种主备集群切换的方法，该方法实现于系统控制设备，具体包括步骤S11和步骤S12，其中，所述步骤S11，基于数据请求响应状态，判断所述主集群的状态；基于数据复制请求响应状态，判断所述备集群的状态；所述步骤S12，当所述主集群处于不可用状态，且所述备集群处于可用状态时，将备集群替换为主集群。

在本申请的下述实施例中，以表格存储服务中的主备集群架构为例，如图2所示，通过系统控制设备对主集群与备集群进行状态的判断，以达到快速精确地进行主备集群的切换的目的，从而提高系统的可用性。

在图2的主备集群架构中，其中主备集群公用前端网络服务器(Web服务器)，后端主备集群的存储引擎分别部署在两个机房，其中，所述前端网络服务器用于接收和处理用户设备发送的相应的数据请求，所述主备集群的存储引擎主要用于基于前端网络服务器转发过来的数据请求在相应的工作节点(Worker)执行数据读写和业务逻辑，所述备集群中部署接收复制数据的备份服务器(Replication Server)。例如，前端Web服务器接收用户设备发送的数据写入请求，从系统控制设备中获取处于可用状态中的主集群的存储引擎所在机房，然后将数据写入请求转发至所述主集群的存储引擎上的主节点(Master)中，并从所述主节点(Master)的节点列表中获取基于所述数据写入请求确定的相应的工作节点(worker)，然后基于数据写入请求将待写入的数据写入主集群的存储引擎中相应的工作节点(worker)中，待数据写入完成后，将将立即返回所述数据写入请求响应信息；优选地，若在所述步骤S11中分别判断主集群和备集群的状态，若判断得到所述主集群处于可用状态且所述备集群亦处于可用状态，同时所述主集群后台将基于数据写入请求而写入的数据发送至所述备集群的Replication Server，然后将发送过来的所述写入的数据写入所述备集群存储引擎中相应的工作节点中，以实现对待写入的数据的备份。

需要说明的是，所述步骤S11中的所述数据请求响应状态可以是包括但不限于是数据读取请求的响应状态，亦可以是数据写入请求的响应状态。当然，其他现有的或今后可能出现的所述数据请求响应状态如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

进一步地，所述步骤S11中的基于数据请求响应状态，判断所述主集群的状态，包括：

在本申请的实施例中，所述步骤S11中基于数据请求响应状态并基于预置的统计时间范围T_range内的汇报时间间隔T_interval确定的数据请求总数和错误请求总数，其中，所述数据请求总数和错误请求总数是由图2中的前端的每台Web服务器在预置的统计时间范围T_range内统计的，并以汇报时间间隔T_interval周期性地将数据请求数和错误请求数发送给所述系统控制设备，以得到每台Web服务器在所述统计时间范围内发送过来的数据请求总数N_{user_request_total}和错误请求总数N_{user_request_error}，其中所述错误请求总数是基于所述数据请求响应状态中的结果状态码大于500而确定的。其中，所述结果状态码是超文本传输协议状态码，当该结果状态码大于500时则表示Web服务器在处理数据请求的过程中有错误或者异常状态发生，或者表示有可能是Web服务器以当前的软硬件资源无法完成对所述数据请求的相应处理。接着所述步骤S11在所述统计时间范围T_range内基于所有的所述Web服务器以所述汇报时间间隔T_interval汇报过来的数据请求总数和错误请求总数累加求和，以确定异常请求比例信息R_{user_request}，其中，所述异常请求比例信息R_{user_request}的计算方式如下：

R_{user_request}＝Sum(N_{user_request_error})/Sum(N_{user_request_total})，

最后，基于所有的所述Web服务器的所述数据请求总数累加之和Sum(N_{user_request_error})和所述异常请求比例信息R_{user_request}来判断所述主集群的状态。

需要说明的是，将所述统计时间范围T_range优选为60s，将汇报时间间隔T_interval优选为15s，本领域的技术人员应能理解，60s仅为所述统计时间范围T_range的一个优选的典型实施例，15s仅为所述汇报时间间隔T_interval的一个优选的典型实施例，当然，其他现有的或今后可能出现的所述统计时间范围T_range和所述汇报时间间隔T_interval的取值如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

例如，取典型的统计时间范围T_range＝60s，汇报时间间隔T_interval＝15s，前端网络服务器(Web服务器)A在第一个15秒内处理的数据请求数为60个和错误请求数为40个，第二个15秒内处理的数据请求数为80个和错误请求数为60个，第三个15秒内处理的数据请求数为100个和错误请求数为70个，第四个15秒内处理的数据请求数为60个和错误请求数为50个，则所述Web服务器A在所述统计时间范围T_range为60s内处理的数据请求总数N_{user_request_total}为(60+80+100+60)＝300个和错误请求总数为N_{user_request_error}为(40+60+70+50)＝220个；在所述所述统计时间范围T_range为60s内，所述Web服务器B统计处理的数据请求总数N_{user_request_total}为400个和错误请求总数为N_{user_request_error}为380个；所述Web服务器C统计处理的数据请求总数N_{user_request_total}为320个和错误请求总数为N_{user_request_error}为280个；所述Web服务器D统计处理的数据请求总数N_{user_request_total}为420个和错误请求总数为N_{user_request_error}为400个，则在所述统计时间范围T_range内，所有的所述Web服务器的所述数据请求总数累加之和Sum(N_{user_request_error})＝1440个，所述异常请求比例信息R_{user_request}的计算方式如下：

R_{user_request}＝Sum(N_{user_request_error})/Sum(N_{user_request_total})

＝(220+380+320+420)/(300+400+320+420)＝88.89％。

进一步地，所述步骤S11中的基于所述数据请求总数和所述异常请求比例信息，判断所述主集群的状态，包括：

接着本申请的上述实施例，所述步骤S11在判断所述主集群的状态之前要设定最小有效请求数N_{request_min}和异常请求比例阈值R_{request_error}，接着所述步骤S11判断得出：若所述数据请求总数大于等于预置的最小有效请求数，且所述异常请求比例信息大于等于预置的异常请求比例阈值，即Sum(N_{user_request_total})>＝N_{request_min}且R_{user_request}>＝R_{request_error}，则所述主集群处于不可用状态，否则所述主集群处于可用状态，通过所述步骤S11中的数据请求响应状态来判断所述主集群的状态，能够检测出即使主集群服务正常但由于应用程序中的代码出错及服务内部异常等导致的用户设备发送的数据请求出错的情况，进而能够精确地确定所述主集群处于不可用状态，则执行主备集群切换操作，以提高系统服务的可用性。

例如，所述步骤S11在判断所述主集群的状态之前要设定最小有效请求数N_{request_min}为1000，预置此处预置R_{request_error}为0.8，其中，预置的所述最小有效请求数N_{request_min}为所有所述Web服务器的所述数据请求总数累加之后的最小有效请求数，此处将主集群的数据请求总数列入对主集群的可用性判断中，主要为了防止数据请求总数的抖动及在一定时间段内请求少导致的误判；由于Sum(N_{user_request_total})＝1440大于N_{request_min}＝1000且R_{user_request}＝88.89％大于R_{request_error}＝0.8，则所述主集群处于不可用状态。进一步地，所述步骤S11中的基于数据请求响应状态，判断所述主集群的状态包括：

在此，所述主集群节点状态为主集群中的所有工作节点(Worker)的节点状态。

进一步地，所述步骤S11中的基于主集群节点状态，判断所述主集群的状态，包括：

在本申请的实施例中，所述步骤S11周期性地以汇报时间间隔T_interval采集主集群存储引擎中的所有工作节点(Worker)的状态，并基于预置的统计时间范围T_range内的汇报时间间隔T_interval以确定主集群工作节点总数和主集群异常工作节点总数。具体地，步骤S11从所述主集群的主节点(Master)中获取所有工作节点(Worker)的列表信息来确定所述主集群工作节点总数为N_{primary_worker_total}；接着对所有工作节点(Worker)调用状态检查接口以确定异常状态下的所述主集群异常工作节点总数为N_{primary_worker_error}，接着所述步骤S11在所述统计时间范围T_range内对所有采集的所述主集群工作节点总数和所述主集群异常工作节点总数累加求和，以确定主集群异常工作节点比例信息R_{primary_worker}，其中，所述主集群异常工作节点比例信息R_{primary_worker}的计算方式如下：

R_{primary_worker}＝Sum(N_{primary_worker_error})/Sum(N_{primary_worker_total})，

最后，基于基于所述主集群异常工作节点比例信息R_{primary_worker}来判断所述主集群的状态。

进一步地，所述步骤S11中的基于所述主集群异常工作节点比例信息，判断所述主集群的状态，包括：

接着本申请的上述实施例，所述步骤S11在判断所述主集群的状态之前要设定所述主集群的工作节点中的异常工作节点比例阈值R_{worker_error}，接着所述步骤S11判断得出：若所述主集群异常工作节点比例信息大于等于预置的异常工作节点比例阈值，即R_{primary_worker}>＝R_{worker_error}，则所述主集群处于不可用状态，否则所述主集群处于可用状态，通过所述步骤S11中的所述主集群节点状态来判断所述主集群的状态，能够快速检测出所述主集群中的部分服务不可用情况，进而能够精确地确定所述主集群处于不可用的状态，则执行主备集群切换操作，以提高系统服务的可用性。

在所述步骤S11中，所述数据复制请求响应状态可以是包括但不限于是主集群处于可用状态且备集群处于可用状态时，所述备集群中的备份服务器(Replication Server)基于主集群发送的数据复制请求之后，进行数据写入后而作出的相应的数据复制请求响应状态。当然，其他现有的或今后可能出现的所述数据复制请求响应状态如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

进一步地，所述步骤S11中的基于数据复制请求响应状态，判断所述备集群的状态，包括：

在本申请的实施例中，所述步骤S11中根据数据复制请求响应状态并基于预置的统计时间范围T_range内的汇报时间间隔T_interval确定的数据复制请求总数和异常复制请求总数，其中，所述数据复制请求总数和异常复制请求总数是有图2中的备集群存储引擎中的每台备份服务器(Replication Server)在预置的统计时间范围T_range内自行统计的，并以汇报时间间隔T_interval周期性地将所述数据复制请求数和异常复制请求数发送给所述系统控制设备，以得到每台备份服务器(Replication Server)在所述统计时间范围内发送过来的数据复制请求总数N_{replication_request_total}和异常复制请求总数N_{replication_request_error}，其中所述异常复制请求总数是基于所述数据复制请求响应状态中的结果状态码大于500而确定的。其中，所述结果状态码是超文本传输协议状态码，当该结果状态码大于500时则表示备份服务器在处理数据复制请求的过程中有错误或者异常状态发生，或者表示有可能是备份服务器(Replication Server)以当前的软硬件资源无法完成对所述数据请求的相应处理。接着所述步骤S11在所述统计时间范围T_range内基于所有的所述备份服务器(ReplicationServer)以所述汇报时间间隔T_interval汇报过来的数据复制请求总数和异常复制请求总数累加求和，以确定异常复制请求比例信息R_{replication_request}，其中，所述异常复制请求比例信息R_{replication_request}的计算方式如下：

R_{replication_request}＝Sum(N_{replication_request_error})/Sum(N_{replication_request_total})，

最后，基于所有的所述备份服务器(Replication Server)的所述数据复制请求总数累加之和Sum(N_{replication_request_error})和所述异常复制请求比例信息R_{replication_request}来判断所述备集群的状态。

进一步地，所述步骤S11中的基于所述数据复制请求总数和所述异常复制请求比例信息，判断所述备集群的状态，包括：

接着本申请的上述实施例，所述步骤S11在判断所述备集群的状态之前要设定最小有效请求数N_{request_min}和异常请求比例阈值R_{request_error}，其中，预置的所述最小有效请求数N_{request_min}为所有所述备份服务器(Replication Server)的所述数据复制请求总数累加之后的最小有效请求数，此处将备集群的备份服务器(Replication Server)中的数据复制请求总数列入对备集群的可用性判断中，主要为了防止数据复制请求总数的抖动及在一定时间段内请求少导致的误判；接着所述步骤S11判断得出：若所述数据复制请求总数大于等于预置的最小有效请求数，且所述异常复制请求比例信息大于等于预置的异常请求比例阈值，即Sum(N_{replication_request_total})>＝N_{request_min}且R_{replication_request}>＝R_{request_error}，则所述备集群处于不可用状态，否则所述备集群处于可用状态，通过所述步骤S11中的数据复制请求响应状态来判断所述备集群的状态，能够检测出备集群无法处理数据复制请求时对应的数据复制异常情况，进而能够精确地确定所述备集群处于不可用状态，则不执行主备集群切换操作，以避免故障范围在处于不可用状态下的备集群中扩散。

进一步地，所述步骤S11中的基于数据复制请求响应状态，判断所述备集群的状态包括：

在此，所述备集群节点状态为备集群中的所有工作节点(Worker)的节点状态。

进一步地，所述步骤S11中的基于备集群节点状态，判断所述备集群的状态，包括：

在本申请的实施例中，所述步骤S11周期性地以汇报时间间隔T_interval采集备集群存储引擎中的所有工作节点(Worker)的状态，并基于预置的统计时间范围T_range内的汇报时间间隔T_interval以确定备集群工作节点总数和备集群异常工作节点总数。具体地，所述步骤S11从所述备集群的主节点(Master)中获取所有工作节点(Worker)的列表信息来确定所述备集群工作节点总数为N_{secondary_worker_total}；接着对所有工作节点(Worker)调用状态检查接口以确定异常状态下的所述备集群异常工作节点总数为N_{secondary_worker_error}，接着所述步骤S11在所述统计时间范围T_range内对所有采集的所述备集群工作节点总数和所述备集群异常工作节点总数累加求和，以确定备集群异常工作节点比例信息R_{secondary_worker}，其中，所述备集群异常工作节点比例信息R_{secondary_worker}的计算方式如下：

R_{secondary_worker}＝Sum(N_{secondary_worker_error})/Sum(N_{secondary_worker_total})，

最后，基于所述备集群异常工作节点比例信息R_{secondary_worker}来判断所述备集群的状态。

进一步地，所述步骤S11中的基于备集群异常工作节点比例信息，判断所述备集群的状态，包括：

接着本申请的上述实施例，所述步骤S11在判断所述备集群的状态之前要设定所述主集群的工作节点中的异常工作节点比例阈值R_{worker_error}，接着所述步骤S11判断得出：若所述备集群异常工作节点比例信息大于等于预置的异常工作节点比例阈值，即R_{secondary_worker}>＝R_{worker_error}，则所述备集群处于不可用状态，否则所述备集群处于可用状态，通过所述步骤S11中的所述备集群节点状态来判断所述备集群的状态，能够快速检测出所述备集群中的部分服务不可用情况，进而能够精确地确定所述备集群处于不可用的状态，则不执行主备集群切换操作，以避免更多待复制的数据在处于不可用状态下的备集群中丢失。

根据本申请一个方面的一种主备集群切换的设备，该设备包括判断装置11和切换装置12，其中，所述判断装置11用于：基于数据请求响应状态，判断所述主集群的状态；基于数据复制请求响应状态，判断所述备集群的状态；所述切换装置12用于：当所述主集群处于不可用状态，且所述备集群处于可用状态时，将备集群替换为主集群。

在此，所述设备包括但不限于客户设备、网络设备以及客户设备与网络设备通过网络相集成所构成的设备。所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地，所述设备还可以是运行于所述用户设备与网络设备通过网络相集成所构成的设备上的脚本程序。在本申请的一个优选实施例中，将所述设备优选为系统控制设备，当然，本领域技术人员应能理解上述系统控制设备仅为本申请所述设备的一个优选实施例，其他现有的或今后可能出现的所述设备如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

上述各装置之间是持续不断工作的，在此，本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求。

在图2的主备集群架构中，其中主备集群公用前端网络服务器(Web服务器)，后端主备集群的存储引擎分别部署在两个机房，其中，所述前端网络服务器用于接收和处理用户设备发送的相应的数据请求，所述主备集群的存储引擎主要用于基于前端网络服务器转发过来的数据请求在相应的工作节点(Worker)执行数据读写和业务逻辑，所述备集群中部署接收复制数据的备份服务器(Replication Server)。例如，前端Web服务器接收用户设备发送的数据写入请求，从系统控制设备中获取处于可用状态中的主集群的存储引擎所在机房，然后将数据写入请求转发至所述主集群的存储引擎上主节点(Master)中，并从所述主节点(Master)的节点列表中获取基于所述数据写入请求确定的相应的工作节点(worker)，然后基于数据写入请求将待写入的数据写入主集群的存储引擎中相应的工作节点(worker)中，待数据写入完成后，将将立即返回所述数据写入请求响应信息；优选地，若在所述步骤S11中分别判断主集群和备集群的状态，若判断得到所述主集群处于可用状态且所述备集群亦处于可用状态，同时所述主集群后台将基于数据写入请求而写入的数据发送至所述备集群的Replication Server，然后将发送过来的所述写入的数据写入所述备集群存储引擎中相应的工作节点中，以实现对待写入的数据的备份。

需要说明的是，所述判断装置11中的所述数据请求响应状态可以是包括但不限于是数据读取请求的响应状态，亦可以是数据写入请求的响应状态。当然，其他现有的或今后可能出现的所述数据请求响应状态如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

进一步地，所述判断装置11，用于：

在本申请的实施例中，所述判断装置11基于数据请求响应状态并基于预置的统计时间范围T_range内的汇报时间间隔T_interval确定的数据请求总数和错误请求总数，其中，所述数据请求总数和错误请求总数是由图2中的前端的每台Web服务器在预置的统计时间范围T_range内统计的，并以汇报时间间隔T_interval周期性地将数据请求数和错误请求数发送给所述系统控制设备，以得到每台Web服务器在所述统计时间范围内发送过来的数据请求总数N_{user_request_total}和错误请求总数N_{user_request_error}，其中所述错误请求总数是基于所述数据请求响应状态中的结果状态码大于500而确定的。其中，所述结果状态码是超文本传输协议状态码，当该结果状态码大于500时则表示Web服务器在处理数据请求的过程中有错误或者异常状态发生，或者表示有可能是Web服务器以当前的软硬件资源无法完成对所述数据请求的相应处理。接着所述判断装置11在所述统计时间范围T_range内基于所有的所述Web服务器以所述汇报时间间隔T_interval汇报过来的数据请求总数和错误请求总数累加求和，以确定异常请求比例信息R_{user_request}，其中，所述异常请求比例信息R_{user_request}的计算方式如下：

R_{user_request}＝Sum(N_{user_request_error})/Sum(N_{user_request_total})，

最后，所述判断装置11基于所有的所述Web服务器的所述数据请求总数累加之和Sum(N_{user_request_error})和所述异常请求比例信息R_{user_request}来判断所述主集群的状态。

R_{user_request}＝Sum(N_{user_request_error})/Sum(N_{user_request_total})

＝(220+380+320+420)/(300+400+320+420)＝88.89％。

进一步地，所述判断装置11，用于：

接着本申请的上述实施例，所述判断装置11在判断所述主集群的状态之前要设定最小有效请求数Nrequest_min和异常请求比例阈值Rrequest_error，接着所述判断装置11判断得出：若所述数据请求总数大于等于预置的最小有效请求数，且所述异常请求比例信息大于等于预置的异常请求比例阈值，即Sum(N_{user_request_total})>＝N_{request_min}且R_{user_request}>＝R_{request_error}，则所述主集群处于不可用状态，否则所述主集群处于可用状态，通过所述判断装置11中的数据请求响应状态来判断所述主集群的状态，能够检测出即使主集群服务正常但由于应用程序中的代码出错及服务内部异常等导致的用户设备发送的数据请求出错的情况，进而能够精确地确定所述主集群处于不可用状态，则执行主备集群切换操作，以提高系统服务的可用性。

例如，所述判断装置11在判断所述主集群的状态之前要设定最小有效请求数N_{request_min}为1000，预置此处预置R_{request_error}为0.8，其中，预置的所述最小有效请求数N_{request_min}为所有所述Web服务器的所述数据请求总数累加之后的最小有效请求数，此处将主集群的数据请求总数列入对主集群的可用性判断中，主要为了防止数据请求总数的抖动及在一定时间段内请求少导致的误判；由于Sum(N_{user_request_total})＝1440大于N_{request_min}＝1000且R_{user_request}＝88.89％大于R_{request_error}＝0.8，则所述主集群处于不可用状态。

进一步地，所述判断装置11，用于：

基于数据请求响应状态和集群节点状态，判断所述主集群的状态。

进一步地，所述判断装置11，用于：

在本申请的实施例中，所述判断装置11周期性地以汇报时间间隔T_interval采集主集群存储引擎中的所有工作节点(Worker)的状态，并基于预置的统计时间范围T_range内的汇报时间间隔T_interval以确定主集群工作节点总数和主集群异常工作节点总数。具体地，所述判断装置11从所述主集群的主节点(Master)中获取所有工作节点(Worker)的列表信息来确定所述主集群工作节点总数为N_{primary_worker_total}；接着对所有工作节点(Worker)调用状态检查接口以确定异常状态下的所述主集群异常工作节点总数为N_{primary_worker_error}，接着所述判断装置11在所述统计时间范围T_range内对所有采集的所述主集群工作节点总数和所述主集群异常工作节点总数累加求和，以确定主集群异常工作节点比例信息R_{primary_worker}，其中，所述主集群异常工作节点比例信息R_{primary_worker}的计算方式如下：

最后，所述判断装置11基于所述主集群异常工作节点比例信息R_{primary_worker}来判断所述主集群的状态。

进一步地，所述判断装置11，用于：

接着本申请的上述实施例，所述判断装置11在判断所述主集群的状态之前要设定所述主集群的工作节点中的异常工作节点比例阈值R_{worker_error}，接着所述判断装置11判断得出：若所述主集群异常工作节点比例信息大于等于预置的异常工作节点比例阈值，即R_{primary_worker}>＝R_{worker_error}，则所述主集群处于不可用状态，否则所述主集群处于可用状态，通过所述判断装置11中的所述主集群节点状态来判断所述主集群的状态，能够快速检测出所述主集群中的部分服务不可用情况，进而能够精确地确定所述主集群处于不可用的状态，则执行主备集群切换操作，以提高系统服务的可用性。

在所述判断装置11中，所述数据复制请求响应状态可以是包括但不限于是主集群处于可用状态且备集群处于可用状态时，所述备集群中的备份服务器(ReplicationServer)基于主集群发送的数据复制请求之后，进行数据写入后而作出的相应的数据复制请求响应状态。当然，其他现有的或今后可能出现的所述数据复制请求响应状态如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

进一步地，所述判断装置11，用于：

在本申请的实施例中，所述判断装置11中根据数据复制请求响应状态并基于预置的统计时间范围T_range内的汇报时间间隔T_interval确定的数据复制请求总数和异常复制请求总数，其中，所述数据复制请求总数和异常复制请求总数是有图2中的备集群存储引擎中的每台备份服务器(Replication Server)在预置的统计时间范围T_range内自行统计的，并以汇报时间间隔T_interval周期性地将所述数据复制请求数和异常复制请求数发送给所述系统控制设备，以得到每台备份服务器(Replication Server)在所述统计时间范围内发送过来的数据复制请求总数N_{replication_request_total}和异常复制请求总数N_{replication_request_error}，其中所述异常复制请求总数是基于所述数据复制请求响应状态中的结果状态码大于500而确定的。其中，所述结果状态码是超文本传输协议状态码，当该结果状态码大于500时则表示备份服务器在处理数据复制请求的过程中有错误或者异常状态发生，或者表示有可能是备份服务器(Replication Server)以当前的软硬件资源无法完成对所述数据请求的相应处理。接着所述判断装置11在所述统计时间范围T_range内基于所有的所述备份服务器(Replication Server)以所述汇报时间间隔T_interval汇报过来的数据复制请求总数和异常复制请求总数累加求和，以确定异常复制请求比例信息R_{replication_request}，其中，所述异常复制请求比例信息R_{replication_request}的计算方式如下：

最后，所述判断装置11基于所有的所述备份服务器(Replication Server)的所述数据复制请求总数累加之和Sum(N_{replication_request_error})和所述异常复制请求比例信息R_{replication_request}来判断所述备集群的状态。

进一步地，所述判断装置11，用于：

接着本申请的上述实施例，所述判断装置11在判断所述备集群的状态之前要设定最小有效请求数N_{request_min}和异常请求比例阈值R_{request_error}，接着所述判断装置11判断得出：若所述数据复制请求总数大于等于预置的最小有效请求数，且所述异常复制请求比例信息大于等于预置的异常请求比例阈值，即Sum(N_{replication_request_total})>＝N_{request_min}且R_{replication_request}>＝R_{request_error}，则所述备集群处于不可用状态，否则所述备集群处于可用状态，通过所述判断装置11中的数据复制请求响应状态来判断所述备集群的状态，能够检测出备集群无法处理数据复制请求时对应的数据复制异常情况，进而能够精确地确定所述备集群处于不可用状态，则不执行主备集群切换操作，以避免故障范围在处于不可用状态下的备集群中扩散。

进一步地，所述判断装置11，用于：

在本申请的实施例中，所述判断装置11周期性地以汇报时间间隔T_interval采集备集群存储引擎中的所有工作节点(Worker)的状态，并基于预置的统计时间范围T_range内的汇报时间间隔T_interval以确定备集群工作节点总数和备集群异常工作节点总数。具体地，步骤S11从所述备集群的主节点(Master)中获取所有工作节点(Worker)的列表信息来确定所述备集群工作节点总数为N_{secondary_worker_total}；接着对所有工作节点(Worker)调用状态检查接口以确定异常状态下的所述备集群异常工作节点总数为N_{secondary_worker_error}，接着所述判断装置11在所述统计时间范围T_range内对所有采集的所述备集群工作节点总数和所述备集群异常工作节点总数累加求和，以确定备集群异常工作节点比例信息R_{secondary_worker}，其中，所述备集群异常工作节点比例信息R_{secondary_worker}的计算方式如下：

最后，所述判断装置11基于所述备集群异常工作节点比例信息R_{secondary_worker}来判断所述备集群的状态。

进一步地，所述判断装置11，用于：

接着本申请的上述实施例，所述判断装置11在判断所述备集群的状态之前要设定所述主集群的工作节点中的异常工作节点比例阈值R_{worker_error}，接着所述判断装置11判断得出：若所述备集群异常工作节点比例信息大于等于预置的异常工作节点比例阈值，即R_{secondary_worker}>＝R_{worker_error}，则所述备集群处于不可用状态，否则所述备集群处于可用状态，通过所述判断装置11中的所述备集群节点状态来判断所述备集群的状态，能够快速检测出所述备集群中的部分服务不可用情况，进而能够精确地确定所述备集群处于不可用的状态，则不执行主备集群切换操作，以避免更多待复制的数据在处于不可用状态下的备集群中丢失。

基于数据请求响应状态，判断所述主集群的状态；

基于数据复制请求响应状态，判断所述备集群的状态；

需要说明的是，本申请主要适用于大型分布式系统中的主集群与备集群的容灾，例如，存储系统或NoSQL(非关系型数据库)系统等。在本申请的一个优选的实际应用场景中，以存储系统为例，对本申请进行进一步解释说明。其中，主备集群是公用前端网络服务器(Web服务器)，后端主备集群的存储引擎分别部署在两个机房，其中，所述前端网络服务器用于接收和处理用户设备发送的相应的数据写入请求，所述主备集群的存储引擎主要用于基于前端网络服务器转发过来的数据写入请求在相应的工作节点(Worker)执行数据读写和业务逻辑，所述备集群中部署接收复制数据的备份服务器(Replication Server)。例如，前端Web服务器接收用户设备发送的数据写入请求，从系统控制设备中获取处于可用状态中的主集群的存储引擎所在机房，然后将数据写入请求转发至所述主集群的存储引擎上的主节点(Master)中，并从所述主节点(Master)的节点列表中获取基于所述数据写入请求确定的相应的工作节点(worker)，然后基于数据写入请求将待写入的数据写入主集群的存储引擎中相应的工作节点(worker)中，待数据写入完成后，将立即返回所述数据写入请求响应信息；若基于数据复制请求响应状态和备集群节点状态判断得知备集群亦处于可用状态，则同时在所述主集群后台将基于数据写入请求而写入的数据发送至所述备集群的Replication Server(备份服务器)，然后将发送过来的所述写入的数据写入所述备集群存储引擎中相应的工作节点中，以实现对待写入的数据的备份。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种主备集群切换方法，其中，所述方法包括：

基于数据请求响应状态，判断主集群的状态，所述数据请求为用户设备发送的、用于在主集群的相应的工作节点执行数据读写和业务逻辑的请求，所述数据请求总数大于等于预置的最小有效请求数、且异常请求比例信息大于等于预置的异常请求比例阈值的主集群为处于不可用状态的主集群；

基于数据复制请求响应状态，判断所述备集群的状态；

2.根据权利要求1所述的方法，其中，所述基于数据请求响应状态，判断所述主集群的状态，包括：

3.根据权利要求1所述的方法，其中，基于数据请求响应状态，判断所述主集群的状态包括：

4.根据权利要求3所述的方法，其中，所述基于主集群节点状态，判断所述主集群的状态，包括：

5.根据权利要求4所述的方法，其中，基于所述主集群异常工作节点比例信息，判断所述主集群的状态，包括：

6.根据权利要求1所述的方法，其中，所述基于数据复制请求响应状态，判断所述备集群的状态，包括：

7.根据权利要求6所述的方法，其中，所述基于所述数据复制请求总数和所述异常复制请求比例信息，判断所述备集群的状态，包括：

8.根据权利要求1所述的方法，其中，基于数据复制请求响应状态，判断所述备集群的状态，包括：

9.根据权利要求8所述的方法，其中，所述基于备集群节点状态，判断所述备集群的状态，包括：

10.根据权利要求9所述的方法，其中，所述基于备集群异常工作节点比例信息，判断所述备集群的状态，包括：

11.一种用于主备集群切换的设备，其中，所述设备包括：

判断装置，用于基于数据请求响应状态，判断主集群的状态，基于数据复制请求响应状态，判断所述备集群的状态，所述数据请求为用户设备发送的、用于在主集群的相应的工作节点执行数据读写和业务逻辑的请求，所述数据请求总数大于等于预置的最小有效请求数、且异常请求比例信息大于等于预置的异常请求比例阈值的主集群为处于不可用状态的主集群；

12.根据权利要求11所述的设备，其中，所述判断装置，用于：

根据所述数据请求响应状态，并基于预置的统计时间范围内的汇报时间间隔，确定数据请求总数和错误请求总数；基于所述数据请求总数和所述错误请求总数，确定异常请求比例信息；及基于所述数据请求总数和所述异常请求比例信息，判断所述主集群的状态。

13.根据权利要求11所述的设备，其中，所述判断装置，用于基于数据请求响应状态和主集群节点状态，判断所述主集群的状态。

14.根据权利要求13所述的设备，其中，所述判断装置用于：根据所述主集群节点状态，并基于预置的统计时间范围内的汇报时间间隔，确定主集群工作节点总数和主集群异常工作节点总数；基于所述主集群工作节点总数和所述主集群异常工作节点总数，确定主集群异常工作节点比例信息；及基于所述主集群异常工作节点比例信息，判断所述主集群的状态。

15.根据权利要求14所述的设备，其中，所述判断装置，若所述主集群异常工作节点比例信息大于等于预置的异常工作节点比例阈值，则所述主集群处于不可用状态。

16.根据权利要求11所述的设备，其中，所述判断装置，用于根据数据复制请求响应状态，并基于预置的统计时间范围内的汇报时间间隔，确定数据复制请求总数和异常复制请求总数；基于所述数据复制请求总数和所述异常复制请求总数，确定异常复制请求比例信息；及基于所述数据复制请求总数和所述异常复制请求比例信息，判断所述备集群的状态。

17.根据权利要求16所述的设备，其中，所述判断装置，用于若所述数据复制请求总数大于等于预置的最小有效请求数，且所述异常复制请求比例信息大于等于预置的异常请求比例阈值，则所述备集群处于不可用状态。

18.根据权利要求11所述的设备，其中，所述判断装置，用于基于数据复制请求响应状态和备集群节点状态，判断所述备集群的状态。

19.根据权利要求18所述的设备，其中，所述判断装置，用于根据备集群节点状态，并基于预置的统计时间范围内的汇报时间间隔，确定备集群工作节点总数和备集群异常工作节点总数；基于所述备集群工作节点总数和所述备集群异常工作节点总数，确定备集群异常工作节点比例信息；及基于备集群异常工作节点比例信息，判断所述备集群的状态。

20.根据权利要求19所述的设备，其中，所述判断装置，用于若所述备集群异常工作节点比例信息大于等于预置的异常工作节点比例阈值，则所述备集群处于不可用状态。

21.一种计算机可读存储介质，所述计算机可读存储介质上具有计算机可执行指令，所述计算机可执行指令可被处理器执行以实现一种主备集群切换方法，所述方法包括：

基于数据复制请求响应状态，判断所述备集群的状态；