CN115484267A

CN115484267A - 多集群部署处理方法、装置、电子设备和存储介质

Info

Publication number: CN115484267A
Application number: CN202211123922.2A
Authority: CN
Inventors: 高雪; 周文卿
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-16

Abstract

本申请提供一种多集群部署处理方法、装置、电子设备和存储介质，涉及计算机技术领域。该方法包括：接收数字化系统的报错消息，所述报错消息中包含发生故障的第一集群的集群标识以及故障描述信息；根据所述故障描述信息确定所述第一集群的故障程度是否超过了预设阈值；若所述第一集群的故障程度超过了预设阈值，则将所述第一集群的任务请求切换至所述第一集群对应的备份集群。本申请的方法提高了数字化系统的稳定性。

Description

多集群部署处理方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种多集群部署处理方法、装置、电子设备和存储介质。

背景技术

随着企业数字化转型的不断推进，企业的核心数字化系统承载的数据量越来越大。数字化系统的稳定运行对于保障企业的正常运转至关重要。因此，需要合理部署数字化系统，使得即使系统内出现故障，能够缩小影响范围，同时还能够使系统业务服务快速恢复，以保障数字化系统的稳定运行。

如图1所示，数字化系统通常由多个集群组成，每个集群中分别包括汇聚设备、计算机、交换机等物理设备，且各集群内分别部署有应用软件和/或数据等部署资源，以使各集群均能够独立运行。为了防止某一集群中某台计算机和/或交换机设备发生故障时，影响该集群的运行，通常需要对计算机和交换机上的部署资源进行备份，将各计算机设备的部署资源分别在该集群中其余计算机设备上备份，将交换机设备上的部署资源在该集群中其余交换机设备上备份。因此，即使该集群内某台计算机和/或交换机发生故障，也能够调用相应备份的计算机或交换机进行响应，从而使该集群能够更稳定的运行。

然而，现有的数字化系统，在某集群中物理设备故障时，该集群仍存在无法正常运行的情况，导致影响整个数字化系统的稳定运行。

发明内容

本申请提供了一种多集群部署处理方法、装置、电子设备和存储介质，已解决现有技术中数字化系统稳定性较差的问题。

第一方面，本申请提供一种多集群部署处理方法，所述方法应用于数字化系统，所述数字化系统包括至少两个集群，每个集群包括至少两台物理设备，所述数字化系统中的每个集群在所述数字化系统中具有至少一个备份集群，所述方法包括：

接收数字化系统的报错消息，所述报错消息中包含发生故障的第一集群的集群标识以及故障描述信息；

根据所述故障描述信息确定所述第一集群的故障程度是否超过了预设阈值；

若所述第一集群的故障程度超过了预设阈值，则将所述第一集群的任务请求切换至所述第一集群对应的备份集群。

第二方面，本申请提供一种多集群部署处理装置，所述装置应用于数字化系统，所述数字化系统包括至少两个集群，每个集群包括至少两台物理设备，所述数字化系统中的每个集群在所述数字化系统中具有至少一个备份集群，所述装置包括：

接收模块，用于接收数字化系统的报错消息，所述报错消息中包含发生故障的第一集群的集群标识以及故障描述信息；

确定模块，用于根据所述故障描述信息确定所述第一集群的故障程度是否超过了预设阈值；

切换模块，用于若所述第一集群的故障程度超过了预设阈值，则将所述第一集群的任务请求切换至所述第一集群对应的备份集群。

第三方面，本申请提供一种多集群部署处理装置设备，包括：

至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面所述的多集群部署处理方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面所述的多集群部署处理方法。

本申请提供一种多集群部署处理方法、装置、电子设备和存储介质，若数字化系统内发生故障，则根据报错信息中包含的集群标识确定发生故障的集群，同时根据报错信息中包含的故障描述信息进行阈值判断，若发生故障的集群的故障程度较高，超过相应的预设阈值，则将该故障集群接收的任务请求切换至该故障集群的备份集群中。使得当故障集群无法正常运行时，该故障集群的备份集群能够响应故障集群接收的任务请求，从而不影响数字化系统的正常运行，提高了数字化系统的稳定性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的数字化系统的多集群部署架构示意图一；

图2为本申请实施例提供的多集群部署处理方法的应用场景示意图；

图3为本申请实施例提供的多集群部署处理方法的流程示意图一；

图4为本申请实施例提供的多集群部署处理方法的流程示意图二；

图5为本申请实施例提供的多集群部署处理方法的过程示意图一；

图6为本申请实施例提供的多集群部署处理方法的过程示意图二；

图7为本申请实施例提供的多集群部署处理方法的过程示意图三；

图8为本申请实施例提供的多集群部署处理方法的过程示意图四；

图9为本申请实施例提供的数字化系统的多集群部署架构示意图二；

图10为本申请实施例提供的多集群部署处理装置的结构示意图；

图11为本申请实施例提供的多集群部署处理设备的硬件结构图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图2为本申请实施例提供的多集群部署处理方法的应用场景示意图。如图2所示，数字化系统通常由多个集群组成，例如，第一集群、第二集群等等。数字化系统可以为用于处理大量数据的任意数据处理系统，例如，售票系统中用于处理数据的系统、电商行业中用于处理销售额的系统等。数字化系统的正常稳定运行对于企业正常运转，保护客户数据信息安全至关重要。

如图1所示，为了提高数字化系统的数据处理能力，便于横向扩展数字化系统，其通常采用多集群模式部署。每个集群可以包括多台汇聚设备、计算机、服务器、交换机等物理设备。并且，为了减少设备故障对于整个数字化系统的影响，通常对数字化系统中的多个集群按照独占资源的方式进行部署，即划分部分资源，例如一个机房的主机用于进行系统应用的部署，系统应用服务容器在指定的主机上进行部署，该机房可以称为一个集群，用于该数字化系统部分任务请求的处理。采用该种部署方式，使得当某集群发生故障时，不会影响其余集群处理任务请求。任务请求可以为集群接收的客户发送的数据查询等请求，例如对于售票系统，任务请求可以为客户发送的查询从北京到上海的火车票票数信息。

为了进一步提高各集群的稳定性以及高可用性，通常对集群内的计算机、交换机等设备进行备份，以使得即使该集群内的某台计算机或者交换机发生故障，也存在相应的备份的计算机或交换机进行响应，从而使得该集群能够稳定运行。进而提高数字化系统的稳定性。

然而，当某集群中的汇聚设备、接入设备发生故障，或者主干网络故障将导致整个集群无法正常运行，从而影响数字化系统的稳定运行，使得部分任务请求无法及时响应。并且即使集群中部分设备故障，但是当某设备及其备份的设备同时故障时，仍会影响该集群的正常运行。因此，如何进一步提高数字化系统的稳定运行仍是亟待解决的问题。

如果要进一步提高数字化系统的稳定性，需要在数字化系统各集群之间进行备份，使得即使当某集群发生故障，无法正常响应其接收的任务请求时，也能够通过该集群的备份集群进行响应，从而保证数字化系统的正常运行。如图2所示，当第一集群发生故障，无法正常运行时，可以将第一集群接收的任务请求切换至第一集群的备份集群中，第一集群的备份集群可以是第二集群和/或第N集群。

需要说明的是，图2只是以示例的形式示意一种应用场景，在本申请中不对数字化系统中所包含的集群的个数做具体限制，同时不对集群中的物理设备做具体显示。

下面，通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再重复说明。

图3为本申请实施例提供的多集群部署处理方法的流程示意图一。多集群部署处理方法应用于数字化系统，数字化系统包括至少两个集群，每个集群包括至少两台物理设备，数字化系统中的每个集群在数字化系统中具有至少一个备份集群，如图3所示，该方法包括：

S301、接收数字化系统的报错消息，报错消息中包含发生故障的第一集群的集群标识以及故障描述信息。

报错消息可以为对数字化系统的监控装置发送的数字化系统中存在设备和/或网络等故障的消息。第一集群可以为数字化系统中任何一个集群。第一集群中包括至少两台物理设备，物理设备可以为计算机、交换机、汇聚设备等。集群标识指用于记录区分数字化系统中各集群的标识。示例性的，集群标识可以为101、102、103等，其中101标识第一集群；102标识第二集群；103标识第三集群。故障描述信息指报错消息中包含的有关数字化系统中的设备和/或网络等故障的信息数据。示例性的，故障描述信息可以为：“102中3故障，”其中“102”可以指第二集群，“3”可以指第二集群中的第三主机。则上述的故障描述信息是指：第二集群中的第三主机故障。

数字化系统中集群划分可以采用不同的方式，例如，可以一个机房中的物理设备称为一个集群，则根据数字化系统中的物理设备分别部署于多少个机房确定该数字化系统包含的集群个数。在一种可能的实施方式中，可以记录数字化系统的网络拓扑链路，并对数字化系统的网络拓扑链路进行分析拓扑最短路径，从而得出最优集群资源组，并且对得出的不同的集群分别标记不同的集群标识，以区别不同的集群。

在另一种可能的实施方式中，可以对数字化系统中不同的物理设备分别记录不同的设备编号，同时记录各集群内的可用资源空间。便于监控各集群的物理设备使用情况。

S302、根据故障描述信息确定第一集群的故障程度是否超过了预设阈值。

故障程度可以为第一集群中发生故障的程度，例如可以为第一集群中网络异常时间等等。预设阈值可以为发生故障的设备数量、报错次数、持续时间等等。随着网络故障类型不同，相应的预设阈值可以不同。

S303、若第一集群的故障程度超过了预设阈值，则将第一集群的任务请求切换至第一集群对应的备份集群。

任务请求可以第一集群接收的任何数据处理请求。备份集群指可以用于处理第一集群中接收的任务请求的集群，其可以部署有第一集群中部署的所有的应用软件。同时备份集群也可以为没有处于闲置状态的集群，也可以没有部署任何应用软件或者数据库的集群。当备份集群为没有部署任何应用软件或者数据库的集群时，可以在该备份集群中部署与第一集群中相同的应用软件以及数据库，进而再将第一集群中的任务请求切换至该备份集群。备份集群的个数可以为一个，也可以为多个。

若第一集群的故障程度超过了预设阈值，则说明在第一集群中难以响应并处理部分甚至全部任务请求，此时需要将第一集群难以响应并处理的任务请求切换至第一集群的备份集群中，使备份集群响应并处理该部分任务请求。

在一种可能的实施方式中，若第一集群的故障程度未超过预设阈值，则将无法响应其接收的任务请求的物理设备接收的所有任务请求切换至该物理设备在第一集群内的备份设备，或，使无法响应其接收的任务请求的物理设备接收处于等待响应状态。

本申请实施例提供的多集群部署处理方法，采用多集群的方式部署数字化系统，同时在集群之间进行备份，当某集群故障时，通过相应的阈值判断，确定是否将该故障集群的任务请求切换至其备份集群中，使得即使数字化系统中某集群故障，有相应的备份集群对故障集群的任务请求进行响应并处理，从而不影响整个数字化系统的稳定运行，提高了数字化系统的稳定性和可靠性。

图4为本申请实施例提供的多集群部署处理方法的流程示意图二。如图4所示，该方法包括：

S401、接收数字化系统的报错消息，报错消息中包含发生故障的第一集群的集群标识以及故障描述信息。

应理解，S401与图3中的S301具体的实施过程类似，在此不再赘述。

S402、根据故障描述信息确定第一集群的故障类型。

若为设备故障类型，则执行S403和/或S406；

若为网络故障类型，则执行S409。

故障描述信息中包含有关第一集群内发生故障的设备和/或网络信息，通过故障描述信息可以确定第一集群内故障类型。例如，如果故障描述信息包含的内容涉及物理设备的异常重启等信息时，则可以通过该物理设备在一定的时间段内异常重启的次数，确定该物理设备是否故障。示例性的，预设的异常重启次数可以为3次，即设备异常重启3次后确定该设备故障。若故障描述信息中包含有如下信息：第一交换机异常重启5次，由于5次大于3次，因此，通过上述的故障描述信息可以确定第一集群内的网络故障类型为设备故障。

示例性的，预设的网络故障时长为15分钟，即若网络断开时长超过15分钟，则确定该网络故障。若故障描述信息包含有如下内容：第一分支网络网络断开时长为20分钟。由于20分钟超过15分钟，因此可以通过上述的故障描述信息确定第一集群的网络故障类型为网络故障。

S403、确定设备故障数量是否大于第一预设阈值；

若大于，则执行S404；

若小于，则将发送至故障设备的任务请求切换至该故障设备在第一集群中的备份设备。

第一预设阈值为预设的需要确定故障设备的备份设备是都故障的上限的数量。例如，第一预设阈值可以为1，则当故障设备的数量大于1时，则需要确定而该故障设备的备份设备是否发生故障；若故障设备的数量为1，则只需将发送至该故障设备的任务请求切换至其在第一集群中的备份设备即可。若故障设备的数量小于第一预设阈值，则需要该故障设备在第一集群中的备份设备代替故障设备响应并处理故障设备接收的任务请求。

S404、确定故障设备在第一集群中对应的备份设备是否也发生故障；

若是，则执行S405；

若否，则将发送至故障设备的任务请求切换至该故障设备在第一集群中的备份设备。

当故障设备的数量大于第一预设阈值时，需要确定故障设备在第一集群内的备份设备是否故障。应理解，当集群内发生设备故障时，优选的是将该故障设备所需响应的任务请求切换至其在该集群的备份设备，若该故障设备在该集群内的备份设备也发生故障，即无法实现在该集群内响应该故障设备需要响应的任务请求，此时需要将故障设备需要响应的任务请求切换至该集群的备份集群中。

S405、将发送至故障设备的任务请求切换至第一集群对应的备份集群。

当故障设备的数量大于第一预设阈值时，确定故障设备的备份设备是否故障，若故障设备的备份设备也发生故障，则需要将故障设备接收的任务请求切换至备份集群，反之则需要将故障设备接收的任务请求切换至其在第一集群的备份设备即可，通过上述技术方案，在同集群能够处理故障设备任务请求时，优先采用同集群内设备进行响应，其次再进行跨集群迁移，使得有助于提高任务请求切换效率，进而提高发生故障的集群以及数字化系统的恢复效率，提高数字化系统的稳定性及高可用性。

S406、根据所述故障描述信息确定故障设备中的关键故障设备。

关键故障设备可以为发生故障的设备的类型，可以为计算机、主机、服务器、交换机、汇聚设备、接入设备等。当发生故障的设备的数量大于1个时，关键故障设备可以为多个。例如，当故障设备的数量为两个时，关键故障设备可以为主机、交换机，则一个主机和一个交换机均发生故障。

在一种可能的实施方式中，将数字化系统中各集群内的物理设备分别进行标记，并对标记的物理设备编号进行存储。例如，第一集群的三个交换机的编号可以为001-1-01、001-1-02；001-1-03。其中，001可以指第一集群，即该设备所处的集群；1可以指交换机，即指该设备的设备类型；01、02、03分别指该设备在该集群内的编号，01可以指第一交换机；02可以指第二交换机；03可以指第三交换机。相应的，故障描述信息中包含关键故障设备的物理设备编号，根据该物理设备编号能够快速确定该关键故障设备所处集群、设备类型，以及该集群中的该设备类型中的哪一个具体设备。示例性的，当故障描述信息中包含有如下信息：002-2-03异常重启5次。通过上述的信息可以确定故障设备所处的集群为002，即第二集群；设备类型为2，即主机；故障设备为03主机，即第三主机。则进一步可以确定故障设备为第三集群中的第三主机。

S407、确定关键故障设备的数量是否大于第二预设阈值；

若大于，则执行S408；

若小于，则将发送至关键故障设备的任务请求切换至该关键故障设备在第一集群中的备份设备。

第二预设阈值为预设的故障设备的上限数量，即故障设备的数量超过该值时，第一集群中的全部任务请求需要切换至第一集群的备份集群。第二预设阈值可以根据关键故障设备的类型的不同而相同或者不同。示例性的，计算机对应的第二预设阈值可以为5；汇聚设备的第二预设阈值可以为0；则若关键故障设备为汇聚设备，且数量为1，则需要将第一集群的全部任务请求切换至第一集群的备份集群。

在一种可能的实施方式中，第二预设阈值根据第一集群内的设备的负载率确定。物理设备的负载率越高，相应的第二预设阈值越低。示例性的，若第一集群内主机的负载率为70％，则第二预设阈值可以为3；若第一集群内的主机的负载率为30％，则第二预设阈值可以为8。即如果将故障设备的任务请求切换至其所在的第一集群内的备份集群时，需要考量第一集群内物理设备的负载率，当第一集群内设备的负载率过大时，同时又将故障设备的任务请求切换至其在第一集群的备份设备，将进一步增大第一集群的设备的负载率，容易使第一集群发生故障，影响整个集群的正常运行。

S408、将第一集群内的全部任务请求切换至第一集群对应的备份集群。

首先确定故障设备的数量是否大于第二预设阈值，若大于，则将第一集群内全部任务请求切换至第一集群的备份集群；若小于，则将关键故障设备的任务请求切换至其在第一集群的备份集群。使得在故障设备数量较少时，在同集群内进行任务请求切换，便于提高任务请求的切换速率，进一步提高第一集群的恢复效率。当关键故障设备的数量较多时，说明第一集群难以承载全部任务请求，此时将全部的任务请求进行切换，减少第一集群内其余正常运行的设备崩溃的现象，便于数字化系统的正常运行。

S409、根据故障描述信息确定网络故障类型属于分支网络故障还是主干网络故障；

分支网络故障即第一集群内部分设备受网络故障的影响；主干网络故障即第一集群内全部设备受网络故障的影响。

若网络故障类型属于分支网络故障，则执行S410；

若网络故障类型属于主干网络故障，则执行S412。

S410、确定网络故障时长是否大于第二预设时长；

若大于，则执行S411；

若小于，则使第一集群分支网络覆盖的物理设备处于等待响应状态。

S411、将故障分支网络覆盖的物理设备接收的任务请求切换至第一集群的备份集群。

第二预设时长为预设的分支网络故障的时长的上限值，可以为任意大于0的值。分支网络的网络故障时长大于第二预设时长时，则认为该分支网络覆盖的物理设备无法及时响应任务请求，需要将该分支网络覆盖的物理设备接收的任务请求切换至第一集群的备份集群，从而使得该部分物理设备接收的任务请求能够及时得到响应，有助于数字化系统的稳定运行。

S412、确定网络故障时长是否大于第三预设时长；

若大于，则执行S413；

若小于，则使第一集群中的物理设备处于等待响应状态。

S413、将第一集群的全部任务请求切换至第一集群对应的备份集群。

第三预设时长为预设的主干网络故障的时长的上限值，其可以为任意大于0的值。当主干网络故障时长大于第三预设时长时，则认为第一集群内全部设备均无法响应第一集群接收的任务请求，需要将第一集群全部的任务请求切换至第一集群的备份集群中，从而保证数字化系统的稳定运行，提高其高可用性。

应理解，第三预设时长和第二预设时长可以相同，也可以不同。

在一种可能的实施方式中，将第一集群的任务请求切换至所述第一集群对应的备份集群后，多集群部署处理方法还包括：确定所述第一集群中是否部署有数据库；

若是，则将其余集群访问数据源地址切换至备份数据库所在集群。

数字化系统中可以含有数据库，数据库中存储有数字化系统的所需处理和/或已经处理的数据，数据库可以存储于数字化系统中的任一集群中。并且为了提高数字化系统的稳定性，可以将数据库、备份数据库分别存储于不同的集群中，且备份数据库可以有一个或者多个，当备份数据库有多个时，备份数据库可以存储于相同的或者不同的集群中。若发生故障的第一集群中存储有数据库，则当其余集群需要访问数据库中的数据时，第一集群可能无法接收并响应相应的数据读取请求，此时需要将其余集群访问数据库的地址进行切换，使其余集群后续优先访问备份的数据库。示例性的，若第一集群中存储有数据库，第二集群中存储有备份数据库，则当第一集群故障时，将数字化系统中其余集群访问数据的地址切换至第二集群，使其余集群优先访问备份数据库。有助于进一步提高数字化系统的稳定性。

在另一种可能的实施方式中，将所述第一集群的任务请求切换至所述第一集群对应的备份集群，具体包括：

确定第一集群的备份集群的数量；

若备份集群的数量为一个，则将第一集群的任务请切换至第一集群对应的备份集群；

若备份集群的数量大于一个，则将第一集群的任务请求均匀分配并切换至所述第一集群的每个备份集群；或，根据所述第一集群对应的多个备份集群中每个备份集群的负载情况确定切换至该每个备份集群的任务请求量，并将相应任务请求量的任务请求对应切换至各备份集群。

第一集群的备份集群可以有一个或者多个。当第一集群的备份集群为一个时，则当需要将第一集群接收的任务请求进行切换时，将需切换的所有任务请求均切换至第一集群的备份集群。

若第一集群的备份集群的数量为多个，则可以以不同的方式将第一集群的任务请求切换至其备份集群中。例如，可以将第一集群中的任务请求平均分配，即每个备份集群接收的第一集群的任务请求的量相同，且每个备份可以随机接收第一集群的任务请求。此外，可以根据备份集群的负载情况进行分配，若某备份集群的负载较高，则相应的可以接收更少的第一集群的任务请求；若备份集群的额负载较低，则相应的可以接收更多的第一集群的任务请求，以使各集群均不会负载过高，导致该集群崩溃，有助于进一步提高数字化系统的稳定性。

在有一种可能的实施方式中，将第一集群的任务请求切换至第一集群对应的备份集群前，多集群部署处理方法还包括：

将第一集群、第一集群的备份集群中部署的应用软件数量进行对比；

若备份集群中的应用软件数量小于第一集群中的应用软件数量，则确定备份集群中缺失的应用软件；

在备份集群中部署缺失的应用软件。

应用软件为部署于各集群中物理设备上的应用程序，例如可以为计算引擎等。备份集群需要能够完全处理第一集群所接收的所有任务请求，因此，备份集群中需要包含第一集群中的全部的应用软件。通过对备份集群和第一集群中的应用软件数量进行监控，若备份集群中应用软件数量少于第一集群中的应用软件数量，则说明备份集群缺失某应用软件，需要后续进行补齐。通过上述的技术方案，使得当第一集群的任务请求切换至备份集群后，备份集群能够处理该任务请求，减少备份集群因缺少应用软件而导致无法处理第一集群中任务请求的情况，以使数字化系统稳定运行。

图5为本申请实施例提供的多集群部署处理方法的过程示意图一。如图5所示，多集群部署处理方法共包括三个具体过程：过程1、过程2、过程3。

过程1中首先获取得到报错消息，通过报错消息确定发生故障的集群为第一集群。过程2中通过报错消息中的故障描述信息确定发生第一集群中的故障类型为设备故障，且发生故障的设备为计算机1、计算机2，通过阈值判断，大于第一预设阈值。进一步确定计算机1的备份设备为计算机2，计算机2的备份设备为计算机3。则在过程3中将计算机1接收的任务请求切换至第一集群的备份集群，将计算机2接收的任务请求切换至计算机3。

图6为本申请实施例提供的多集群部署处理方法的过程示意图二。如图6所示，多集群部署处理方法共包括三个具体过程：过程1、过程2、过程3。

过程1中首先获取得到报错消息，通过报错消息确定发生故障的集群为第一集群。过程2中通过报错消息中的故障描述信息确定发生第一集群中的故障类型为设备故障，且发生故障的设备为交换机1和交换机2，通过阈值判断，关键故障设备的数量2大于第二预设阈值。因此，在过程3中，将第一集群全部的任务请求切换至第一集群的备份集群。

图7为本申请实施例提供的多集群部署处理方法的过程示意图三。如图7所示，多集群部署处理方法共包括三个具体过程：过程1、过程2、过程3。

过程1中首先获取得到报错消息，通过报错消息确定发生故障的集群为第一集群。过程2中通过报错消息中的故障描述信息确定发生第一集群中的故障类型为网络故障，且进一步确定为第一集群中的第二分支网络故障，通过阈值判断，第二分支网络的故障时长大于第一预设时长。因此，在过程3中将第一集群中第二分支网络覆盖设备接收的任务请求切换至第一集群的备份集群。

图8为本申请实施例提供的多集群部署处理方法的过程示意图四。如图8所示，多集群部署处理方法共包括三个具体过程：过程1、过程2、过程3。

过程1中首先获取得到报错消息，通过报错消息确定发生故障的集群为第一集群。过程2中通过报错消息中的故障描述信息确定发生第一集群中的故障类型为网络故障，进一步确定为第一集群中的主干网络发生故障，通过阈值判断，主干网络的故障时长大于第二预设时长。因此，在过程3中将第一集群中的全部任务请求切换至第一集群的备份集群。

图9为本申请实施例提供的数字化系统的多集群部署架构示意图二。如图9所示，数字化系统由多个集群组成，每个集群均部署有应用软件和/或数据等部署资源，且各集群分别接收不同的任务请求，并对其接收的任务请求进行响应。

物理资源探测模块对数字化系统内的资源进行管理，识别物理设备的类别，并对各物理设备类别进行存储记录；数字化系统内各主机分别安装有探测软件，用于检测各主机之间的网络连通情况，并通过对记录的网络拓扑链路进行分析，分析拓扑最短路径，得到最优物理隔离集群；对各物理隔离集群进行编号，记为集群标识，同时记录各物理隔离集群内的物理设备类别以及资源空间；物理资源探测模块还提供对外接口，用于数字化系统内其余模块获取各物理隔离集群内的物理设备、资源空间等信息；此外，还提供资源打标接口，用于对各主机上部署的应用软件以及数据库进行标记。

隔离系统部署模块能够通过物理资源探测模块中的对外接口获取各物理隔离集群内的物理设备、资源空间等信息，并根据上述信息将应用软件、数据库等部署资源部署于各物理隔离集群中；还用于监控各物理隔离集群内部署的应用软件数量，若某物理隔离集群内应用软件部署错误或者应用软件缺失，则会进行告警，提示自动补齐缺失的应用软件。

设备异常感知模块用于获取数字化系统各物理设备的监控数据信息，并将物理资源探测模块检测的网络拓扑链路信息进行汇总；若数字化系统内发生故障，则获取数字化系统的报错消息，并根据报错消息中包含集群标识以及故障描述信息进行阈值判断。

网关代理切流模块用于根据设备异常感知模块的阈值判断结构进行任务请求的切换。

数据源切换模块用于管理各物理隔离集群访问数据库的地址；设备异常感知模块根据阈值判断结果以及通过物理资源探测模块中的对外接口获取的该发生故障的物理隔离集群内是否部署有数据库的信息，向数据源切换模块发送是否进行数据源地址切换的指令，数据源切换模块接收该指令，若需要进行切换，则相应的将其余集群访问数据库的地址切换至部署有备份集群的数据库；此外，对数据库、备份数据库的部署信息，以及各物理隔离集群访问数据库的数据源地址进行更新。

图10为本申请实施例提供的多集群部署处理装置的结构示意图。如图10所示，多集群部署处理装置100包括：接收模块1001、确定模块1002、切换模块1003。其中，

接收模块1001，用于接收数字化系统的报错消息，报错消息中包含发生故障的第一集群的集群标识以及故障描述信息；

确定模块1002，用于根据故障描述信息确定第一集群的故障程度是否超过了预设阈值；

切换模块1003，用于若第一集群的故障程度超过了预设阈值，则将第一集群的任务请求切换至第一集群对应的备份集群。

可选的，确定模块1002具体用于，根据故障描述信息确定第一集群的故障类型是否为设备故障类型；

若是，则确定设备故障数量是否大于第一预设阈值；

相应的，切换模块1003具体用于，若第一集群的设备故障数量大于第一预设阈值，则确定故障设备在第一集群中对应的备份设备是否也发生故障；

若该故障设备在第一集群中对应的备份设备也发生故障，则将发送至故障设备的任务请求切换至第一集群对应的备份集群。

若是，则根据故障描述信息确定故障设备中的关键故障设备；

相应的，切换模块1003具体用于，若关键故障设备的数量大于第二预设阈值，则将第一集群内的全部任务请求切换至第一集群对应的备份集群。

可选的，确定模块1002具体用于，根据故障描述信息确定第一集群的故障类型是否为网络故障类型；

若是，根据故障描述信息确定网络故障类型是否属于分支网络故障；

相应的，切换模块1003具体用于，若网络故障类型属于分支网络故障，则确定网络故障时长是否大于第一预设时长；

若大于，则将故障分支网络覆盖的物理设备接收的任务请求切换至第一集群的备份集群。

若是，根据故障描述信息确定网络故障类型是否属于主干网络故障；

相应的，切换模块1003具体用于，若网络故障类型属于主干网络故障，则确定网络故障时长是否大于第二预设时长；

若大于，则将第一集群的全部任务请求切换至第一集群对应的备份集群。

可选的，多集群部署处理装置100还包括：数据源切换模块，用于确定第一集群中是否部署有数据库；

可选的，切换模块1003具体用于，确定第一集群的备份集群的数量；

若备份集群的数量大于一个，则将第一集群的任务请求均匀分配并切换至第一集群的每个备份集群；或，根据第一集群对应的多个备份集群中每个备份集群的负载情况确定切换至该每个备份集群的任务请求量，并将相应任务请求量的任务请求对应切换至各备份集群。

可选的，多集群部署处理装置100还包括对比模块，用于将第一集群、第一集群的备份集群中部署的应用软件数量进行对比；

在备份集群中部署缺失的应用软件。

本申请实施例提供的一种多集群部署处理装置，适用于上述方法实施例，在此不再赘述。

图11为本申请实施例提供的多集群部署处理设备的硬件结构图。如图11所示，该多集群处理设备110包括：

至少一个处理器1101和存储器1102；

存储器1102存储计算机执行指令；

至少一个处理器1101执行存储器1102存储的计算机执行指令，使得至少一个处理器1101执行如上的多集群部署处理方法。

处理器1101的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

其中，处理器1101、存储器1102通过总线1103连接。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上所述的多集群部署处理方法。

在上述的实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述的方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种多集群部署处理方法，其特征在于，所述方法应用于数字化系统，所述数字化系统包括至少两个集群，每个集群包括至少两台物理设备，所述数字化系统中的每个集群在所述数字化系统中具有至少一个备份集群，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述故障描述信息确定所述第一集群的故障程度是否超过了预设阈值，具体包括：

根据所述故障描述信息确定所述第一集群的故障类型是否为设备故障类型；

若是，则确定设备故障数量是否大于第一预设阈值；

相应的，所述若所述第一集群的故障程度超过了预设阈值，则将所述第一集群的任务请求切换至所述第一集群对应的备份集群，具体包括：

若所述第一集群的设备故障数量大于所述第一预设阈值，则将发送至故障设备的任务请求切换至所述第一集群对应的备份集群。

3.根据权利要求2所述的方法，其特征在于，所述若所述第一集群的设备故障数量大于第一预设阈值，则将发送至故障设备的任务请求切换至第一集群对应的备份集群，具体包括：

若所述第一集群的设备故障数量大于第一预设阈值，则确定故障设备在所述第一集群中对应的备份设备是否也发生故障；

若该故障设备在所述第一集群中对应的备份设备也发生故障，则将发送至所述故障设备的任务请求切换至所述第一集群对应的备份集群。

4.根据权利要求1所述的方法，其特征在于，所述根据所述故障描述信息确定所述第一集群的故障程度是否超过了预设阈值，具体包括：

若是，则根据所述故障描述信息确定故障设备中的关键故障设备；

若所述关键故障设备的数量大于第二预设阈值，则将所述第一集群内的全部任务请求切换至所述第一集群对应的备份集群。

5.根据权利要求1所述的方法，其特征在于，所述根据所述故障描述信息确定所述第一集群的故障程度是否超过了预设阈值，具体包括：

根据所述故障描述信息确定所述第一集群的故障类型是否为网络故障类型；

若是，则确定网络故障时长是否大于第一预设时长；

若所述网络故障时长大于所述第一预设时长，则将所述第一集群的任务请求切换至所述第一集群对应的备份集群。

6.根据权利要求5所述的方法，其特征在于，所述确定网络故障时长是否大于第一预设时长，具体包括：

根据所述故障描述信息确定所述网络故障类型是否属于分支网络故障；

若是，则确定所述网络故障时长是否大于第二预设时长；

相应的，所述若所述网络故障时长大于所述第一预设时长，则将所述第一集群的任务请求切换至所述第一集群对应的备份集群，具体包括：

若所述网络故障时长大于第二预设时长，则将故障分支网络覆盖的物理设备接收的任务请求切换至所述第一集群的备份集群。

7.根据权利要求5所述的方法，其特征在于，所述确定网络故障时长是否大于第一预设时长，具体包括：

根据所述故障描述信息确定所述网络故障类型是否属于主干网络故障；

若是，则确定所述网络故障时长是否大于第三预设时长；

若所述网络故障时长大于第三预设时长，则将所述第一集群的全部任务请求切换至所述第一集群对应的备份集群。

8.根据权利要求1-7任一所述的方法，其特征在于，所述将所述第一集群的任务请求切换至所述第一集群对应的备份集群后，还包括：

确定所述第一集群中是否部署有数据库；

9.根据权利要求1-7任一所述的方法，其特征在于，所述将所述第一集群的任务请求切换至所述第一集群对应的备份集群，具体包括：

确定所述第一集群的备份集群的数量；

若所述备份集群的数量为一个，则将所述第一集群的任务请切换至所述第一集群对应的备份集群；

若所述备份集群的数量大于一个，则将所述第一集群的任务请求均匀分配并切换至所述第一集群的每个备份集群；或，根据所述第一集群对应的多个备份集群中每个备份集群的负载情况确定切换至该每个备份集群的任务请求量，并将相应任务请求量的任务请求对应切换至各备份集群。

10.根据权利要求1-7任一所述的方法，其特征在于，所述将所述第一集群的任务请求切换至所述第一集群对应的备份集群前，还包括：

将所述第一集群、所述第一集群的备份集群中部署的应用软件数量进行对比；

若所述备份集群中的应用软件数量小于所述第一集群中的应用软件数量，则确定所述备份集群中缺失的应用软件；

在所述备份集群中部署所述缺失的应用软件。

11.一种多集群部署处理装置，其特征在于，所述装置应用于数字化系统，所述数字化系统包括至少两个集群，每个集群包括至少两台物理设备，所述数字化系统中的每个集群在所述数字化系统中具有至少一个备份集群，所述装置包括：

12.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-10任一项所述的多集群部署处理方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-10任一项所述的多集群部署处理方法。