CN114218050A

CN114218050A - 一种云平台故障处理方法及装置

Info

Publication number: CN114218050A
Application number: CN202111548079.8A
Authority: CN
Inventors: 何颖鹏
Original assignee: Vipshop Guangzhou Software Co Ltd
Current assignee: Vipshop Guangzhou Software Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-22

Abstract

本申请公开一种云平台故障处理方法及装置，本申请通过获取宿主机发送的告警信息，根据预设规则确定告警信息的告警类型，告警类型包括容器故障类型和宿主机故障类型，当告警信息为容器故障类型时，则执行容器故障处理机制，当告警信息为宿主机故障类型时，则执行宿主机故障处理机制，将执行容器故障处理机制或执行宿主机故障处理机制的处理结果填入告警单。本申请方案通过确定宿主机发送的告警信息的故障类型，来确定对故障宿主机的处理机制，并将处理结果填入到告警单中，相比于现有技术需要人工处理不同的故障情况，本方案减少了处理故障的人力成本，减少了人员反应时间进一步减少了时间成本，提高了宿主机故障处理效率。

Description

一种云平台故障处理方法及装置

技术领域

本申请涉及云平台领域，特别是一种云平台故障处理方法及装置。

背景技术

随着互联网技术的发展，为了实现更多的数据处理能力，作为发展方向的云平台技术使得有限的资源能够实现更多的作用，一个云平台可以控制多台宿主机运行不同特性的在线业务，提高在线业务的处理能力。

然而现在市场上的云平台技术在出现宿主机故障时，可能是物理机的硬件故障或者是业务容器在运行时发生的故障，对于故障的处理则需要运维人员快速响应以减少故障的影响，不同的故障处理时间也不同，因此需要大量的人力和时间成本，以保证故障能得到及时的处理，如何提高故障处理效率是人们关注的问题。

发明内容

有鉴于此，本申请提供了一种云平台故障处理方法及装置，用于提高宿主机的故障处理效率。

为了实现上述目的，现提出的方案如下：

一种云平台故障处理方法，包括：

获取宿主机发送的告警信息；

根据预设规则确定所述告警信息的告警类型，所述告警类型包括容器故障类型和宿主机故障类型；

当所述告警信息为容器故障类型时，则执行容器故障处理机制；

当所述告警信息为宿主机故障类型时，则执行宿主机故障处理机制；

将所述执行容器故障处理机制或所述执行宿主机故障处理机制的处理结果填入告警单。

可选地，所述当所述告警信息为容器故障类型时，则执行容器故障处理机制，包括：

确定所述告警信息中包含的故障容器数量；

若所述故障容器数量为预设阈值内，则逐个对所述故障容器进行替换新容器的操作；

若所述故障容器数量超过预设阈值，则对所有容器进行滚动重启容器的操作。

可选地，所述逐个对所述故障容器进行替换新容器的操作，包括：

在所述故障容器对应的前置网关切断业务流量；

生成一个同业务的新容器并连接所述前置网关的业务流量。

可选地，所述逐个对所述故障容器进行替换新容器的操作，还包括：

获取所述故障容器的信息数据，所述信息数据包括进程堆栈、内存使用、日志、指标信息。

可选地，所述对所有容器进行滚动重启容器的操作，包括：

根据需求将总的容器按数量分成若干容器组；

当一容器组重启完毕再开始下一容器组重启操作，依次不重复重启容器组直至所有容器组重启完毕。

可选地，所述执行宿主机故障处理机制，包括：

调用所述告警信息对应的故障宿主机下线接口，将所述故障宿主机标记为下线状态；

关闭所述故障宿主机中处于运行状态的容器，并在所述处于运行状态的容器对应的前置网关切断业务流量；

利用后台任务关闭所述故障宿主机。

可选地，在利用后台任务关闭所述故障宿主机之前，还包括：

若所述故障宿主机中的容器无法在设定时间段内关闭，则利用后台任务强制删除所述故障宿主机中的容器，同时回收对应容器的ip及清理对应前置网关中的容器ip记录。

一种云平台故障处理装置，包括：

信息获取单元，获取宿主机发送的告警信息；

类型确定单元，用于根据预设规则确定所述告警信息的告警类型，所述告警类型包括容器故障类型和宿主机故障类型；

容器故障单元，用于当所述告警信息为容器故障类型时，则执行容器故障处理机制；

宿主机故障单元，用于当所述告警信息为宿主机故障类型时，则执行宿主机故障处理机制；

告警单填入单元，用于将所述执行容器故障处理机制或所述执行宿主机故障处理机制的处理结果填入告警单。

可选地，所述容器故障单元，包括：

数量确定单元，用于确定所述告警信息中包含的故障容器数量；

容器替换单元，用于当所述故障容器数量为预设阈值内时，则逐个对所述故障容器进行替换新容器的操作；

滚动重启单元，用于当所述故障容器数量超过预设阈值时，则对所有容器进行滚动重启容器的操作。

可选地，所述容器替换单元，包括：

流量切断单元，用于在所述故障容器对应的前置网关切断业务流量；

新容器生成单元，用于生成一个同业务的新容器并连接所述前置网关的业务流量。

从上述的技术方案可以看出，本申请实施例提供的一种云平台故障处理方案，通过获取宿主机发送的告警信息，根据预设规则确定告警信息的告警类型，告警类型包括容器故障类型和宿主机故障类型，当告警信息为容器故障类型时，则执行容器故障处理机制，当告警信息为宿主机故障类型时，则执行宿主机故障处理机制，将执行容器故障处理机制或执行宿主机故障处理机制的处理结果填入告警单。本申请方案通过确定宿主机发送的告警信息的故障类型，来确定对故障宿主机的处理机制，并将处理结果填入到告警单中，相比于现有技术需要人工处理不同的故障情况，本方案减少了处理故障的人力成本，减少了人员反应时间进一步减少了时间成本，提高了宿主机故障处理效率。

附图说明

图1为本申请实施例提供的一种云平台故障处理系统架构图；

图2为本申请实施例提供的一种云平台故障处理方法流程图；

图3为本申请实施例提供的另一种云平台故障处理方法流程图；

图4为本申请实施例提供的又一种云平台故障处理方法流程图；

图5为本申请实施例提供的一种云平台故障处理装置的结构示意图；

图6为本申请实施例提供的一种云平台故障处理设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使本申请的技术方案更加清楚明白，图1示出了本申请实施例提供的实现云平台故障处理的一种系统架构图，如图1所示该系统架构可以包括服务端10、宿主机20。其中，服务端10可以是设置于网络侧的服务设备，服务端20与宿主机20通过网络进行数据交互，服务端10可以是单台服务器实现，也可以是多台服务器组成的服务器集群实现。在本申请实施例中，服务端10能够获取宿主机20发送的告警信息，并基于该告警信息执行合适的故障处理机制，处理宿主机20的故障问题。

宿主机20可以是具有数据处理功能的服务器或终端，能够支持故障处理机制的操作。

本申请实施例可以通过服务端10接收宿主机20发送的告警信息，并基于该告警信息选取合适的故障处理机制，并对故障宿主机进行故障处理机制，之后将处理结果填入告警单中，减少了处理故障宿主机的人力成本和时间成本，提高了宿主机故障处理效率。

基于图1所示系统架构，图2示出了本申请实施例提供的一种云平台故障处理方法的流程图，下面是以服务端10的视角介绍本方案的一种云平台故障处理，参照图2，该流程可以包括：

步骤S100、获取宿主机发送的告警信息。

具体的，可以预先在宿主机内部设置告警规则，当宿主机的容器或物理机符合告警规则时，则触发符合告警规则即发送告警信息的告警机制，使得服务端10获取宿主机20发送的告警信息。示例如容器或宿主机的CPU处理器/内存使用率到达指定阈值，则触发告警机制发送告警信息，或者是宿主机的监控日志出现硬件错误的日志，则触发告警机制发送告警信息。或者设置持续性条件，示例如宿主机连续5分钟出现CPU使用率超过指定阈值时，才触发告警机制发送告警信息，或者当用以应用的半数容器出现内存使用率过高时，触发告警机制发送告警信息。

步骤S110、根据预设规则确定所述告警信息的告警类型。

其中，所述告警类型包括容器故障类型和宿主机故障类型。

具体的，可以根据预先设定故障分类规则，将告警信息中包含的故障信息分成两类，分别是容器故障类型和宿主机故障类型。示例如容器使用率达到指定阈值触发的告警信息就可以归类为容器故障类型，CPU/内存使用率达到指定阈值触发的告警信息就可以归类为宿主机故障类型。

步骤S120、当所述告警信息为容器故障类型时，则执行容器故障处理机制。

具体的，可以根据不同的故障类型选择执行对应的故障处理机制，当告警信息确定为容器故障类型时，则可以对应执行容器故障处理机制。

步骤S130、当所述告警信息为宿主机故障类型时，则执行宿主机故障处理机制。

具体的，可以根据不同的故障类型选择执行对应的故障处理机制，当告警信息确定为宿主机故障类型时，则可以对应执行宿主机故障处理机制。

步骤S140、将所述执行容器故障处理机制或所述执行宿主机故障处理机制的处理结果填入告警单。

具体的，当故障处理完毕之后，可以将处理结果填入告警单中以供技术人员查阅，处理结果可以根据需求进行设置，可以包括故障发生的原因，时间，对应处理机制等相关信息。

在本申请实施例提供的云平台故障处理方案中，服务端10通过确定宿主机20发送的告警信息的故障类型，来确定对故障宿主机的处理机制，并将处理结果填入到告警单中，相比于现有技术需要人工处理不同的故障情况，本方案减少了处理故障的人力成本，减少了人员反应时间进一步减少了时间成本，提高了宿主机故障处理效率。

在本申请的一些实施例中，为了进一步了解不同的故障类型的故障处理机制，下面对上述步骤S120、当所述告警信息为容器故障类型时，则执行容器故障处理机制的过程进行介绍，该过程可以参照图3，具体步骤如下：

步骤S121、确定所述告警信息中包含的故障容器数量。

具体的，可以通过确定告警信息中包含的故障容器的数量，来选择执行不同的处理方案，用以提高故障处理的效率。

步骤S122、若所述故障容器数量为预设阈值内，则逐个对所述故障容器进行替换新容器的操作。

具体的，可以通过设定阈值来确定故障容器的处理方案，对于处于阈值数量以内的故障容器可以将故障容器替换为新容器的操作，示例如只有个别少数容器发送故障，则可以通过替换故障容器为新容器的方式来解决故障问题。

步骤S123、若所述故障容器数量超过预设阈值，则对所有容器进行滚动重启容器的操作。

具体的，由于各容器的业务处理进度是不同的，不会在同一时刻同时出现大量故障容器，当个别故障容器数量累计达到或超过设定阈值时，说明故障前期的替换个别容器的操作已不能解决故障问题，此时可以利用重启操作让系统的代码从头运行解决部分故障问题，且为了保证云平台的实时业务处理能力，防止出现更多的故障容器，可以对所有容器执行滚动重启容器的操作，示例如故障容器数量有30个，达到总容器数量的1/4，则可以执行滚动重启的操作。

在本申请实施例中，通过故障容器的数量的不同来选择执行不同的容器故障处理方案，提高了容器故障处理的效率。

进一步的，在本申请的一些实施例中，对上述步骤S122、若所述故障容器数量为预设阈值内，则逐个对所述故障容器进行替换新容器的操作的过程进行介绍，具体可以包括：

步骤S1221、在所述故障容器对应的前置网关切断业务流量。

具体的，服务端10可以在故障容器对应的前置网关切断业务流量，防止容器数量减少导致其他容器的负载增加。

步骤S1222、生成一个同业务的新容器并连接所述前置网关的业务流量。

具体的，服务端10可以生成一个同业务的新容器，新容器连接上切断故障容器之后的前置网关的业务流量就可以继续工作。

进一步的，为了对故障容器的故障问题具体分析，上述实施例还可以包括：

步骤S1223、获取所述故障容器的信息数据，所述信息数据包括进程堆栈、内存使用、日志、指标信息。

具体的，可以通过获取故障容器的信息数据以供技术人员对故障容器进行诊断，获取的信息数据可以是进程堆栈、内存使用、日志、指标信息。

在本申请的一些实施例中，当故障容器数量较多时，可以进行容器滚动重启的操作，下面对步骤S123、若所述故障容器数量超过预设阈值，则对所有容器进行滚动重启容器的操作的过程进行介绍，具体过程如下：

步骤S1231、根据需求将总的容器按数量分成若干容器组。

具体的，为了保证云平台对业务的处理能力，服务端10可以根据需要将总的容器按数量进行分组得到若干容器组，示例如总共有100个容器，需重启的一组容器数量可以根据需要设置为不得超过总容器数量的1/4，可以20个容器一组分成5容器组。

步骤S1232、当一容器组重启完毕再开始下一容器组重启操作，依次不重复重启容器组直至所有容器组重启完毕。

具体的，为了保证所有容器都重启的同时不会降低云平台的业务处理能力，服务端10可以依次重启容器组直至所有容器组重启完成。为了保证重启能够平滑快速的完成，可以当一容器组重启完毕后再开始下一容器组重启的操作。

在本申请的一些实施例中，为了解决宿主机本身物理机出现故障的情况，下面对步骤S130、当所述告警信息为宿主机故障类型时，则执行宿主机故障处理机制的过程进行介绍，该过程可以参照图4，具体步骤如下：

步骤S131、调用所述告警信息对应的故障宿主机下线接口，将所述故障宿主机标记为下线状态。

具体的，为了使故障宿主机不在接受新的容器调度，服务端10可以调用告警信息对应的故障宿主机下线接口，将所述故障宿主机标记为下线状态。

步骤S132、关闭所述故障宿主机中处于运行状态的容器，并在所述处于运行状态的容器对应的前置网关切断业务流量。

具体的，为了防止宿主机故障导致容器自身无法正常反注册的操作，可以关闭故障宿主机中处于运行状态的容器，并在处于运行状态的容器对应的前置网关切断业务流量。

步骤S133、利用后台任务关闭所述故障宿主机。

具体的，为了确保没有异常的容器进程存活和防止浪费资源，服务端10可以利用后台任务调用中控机API将故障宿主机关机。

进一步的，当步骤S132中的故障宿主机的容器无法正常关闭时，本申请实施例还可以包括如下步骤：

步骤S134、若所述故障宿主机中的容器无法在设定时间段内关闭，则利用后台任务强制删除所述故障宿主机中的容器，同时回收对应容器的ip及清理对应前置网关中的容器ip记录。

具体的，由于云平台的容器IP是有限的，容器关闭后需要回收IP以便分配给后来启动的新的容器，服务端可以在当故障宿主机的容器无法在设定时间段内关闭时，利用后台任务强制删除所述故障宿主机中的容器，同时回收对应容器的ip及清理对应前置网关中的容器ip记录。

下面对本申请实施例提供的云平台故障处理装置进行描述，下文描述的云平台故障处理装置与上文描述的云平台故障处理方法可相互对应参照。

图5所示，其公开了一种云平台故障处理装置的结构示意图，该云平台故障处理装置可以包括：

信息获取单元11，获取宿主机发送的告警信息；

类型确定单元12，用于根据预设规则确定所述告警信息的告警类型，所述告警类型包括容器故障类型和宿主机故障类型；

容器故障单元13，用于当所述告警信息为容器故障类型时，则执行容器故障处理机制；

宿主机故障单元14，用于当所述告警信息为宿主机故障类型时，则执行宿主机故障处理机制；

告警单填入单元15，用于将所述执行容器故障处理机制或所述执行宿主机故障处理机制的处理结果填入告警单。

可选的，所述容器故障单元13可以包括：

可选的，所述容器替换单元可以包括：

可选的，所述容器替换单元还包括：

故障信息获取单元，用于获取所述故障容器的信息数据，所述信息数据包括进程堆栈、内存使用、日志、指标信息。

可选的，所述滚动重启单元可以包括：

容器分组单元，用于根据需求将总的容器按数量分成若干容器组；

容器重启单元，用于当一容器组重启完毕再开始下一容器组重启操作，依次不重复重启容器组直至所有容器组重启完毕。

可选的，所述宿主机故障单元14可以包括：

宿主机下线单元，用于调用所述告警信息对应的故障宿主机下线接口，将所述故障宿主机标记为下线状态；

容器关闭单元，用于关闭所述故障宿主机中处于运行状态的容器，并在所述处于运行状态的容器对应的前置网关切断业务流量；

宿主机关机单元，用于利用后台任务关闭所述故障宿主机。

可选的，所述宿主机故障单元14还包括：

容器异常关闭单元，用于在执行宿主机关机单元之前，若所述故障宿主机中的容器无法在设定时间段内关闭，则利用后台任务强制删除所述故障宿主机中的容器，同时回收对应容器的ip及清理对应前置网关中的容器ip记录。

本申请实施例提供的云平台故障处理装置可应用于云平台故障处理设备。云平台故障处理设备可以是服务端10。图6示出了云平台故障处理设备的硬件结构框图，参照图6，云平台故障处理设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取宿主机发送的告警信息；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

获取宿主机发送的告警信息；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以相互组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种云平台故障处理方法，其特征在于，包括：

获取宿主机发送的告警信息；

2.根据权利要求1所述的方法，其特征在于，所述当所述告警信息为容器故障类型时，则执行容器故障处理机制，包括：

确定所述告警信息中包含的故障容器数量；

3.根据权利要求2所述的方法，其特征在于，所述逐个对所述故障容器进行替换新容器的操作，包括：

在所述故障容器对应的前置网关切断业务流量；

生成一个同业务的新容器并连接所述前置网关的业务流量。

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求2所述的方法，其特征在于，所述对对所有容器进行滚动重启容器的操作，包括：

根据需求将总的容器按数量分成若干容器组；

6.根据权利要求1所述的方法，其特征在于，所述执行宿主机故障处理机制，包括：

利用后台任务关闭所述故障宿主机。

7.根据权利要求6所述的方法，其特征在于，在利用后台任务关闭所述故障宿主机之前，还包括：

8.一种云平台故障处理装置，其特征在于，包括：

信息获取单元，获取宿主机发送的告警信息；

9.根据权利要求8所述的装置，其特征在于，所述容器故障单元，包括：

10.根据权利要求9所述的装置，其特征在于，所述容器替换单元，包括：