CN111478796A

CN111478796A - 一种ai平台的集群扩容异常处理方法

Info

Publication number: CN111478796A
Application number: CN202010154804.2A
Authority: CN
Inventors: 刘晓健
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-03-08
Filing date: 2020-03-08
Publication date: 2020-07-31
Anticipated expiration: 2040-03-08
Also published as: CN111478796B

Abstract

本发明提供一种AI平台的集群扩容异常处理方法，包括如下步骤：S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本；S2.AI平台接收到集群扩容请求后，执行适配测试脚本；S3.配置适配测试脚本检查待扩容节点是否符合集群节点要求，并在符合集群节点要求时，保存集群扩容前配置，启动扩容脚本进行集群扩容；S4.当集群扩容失败时，配置异常处理脚本判断AI平台的集群服务是否可以正常运行，并在AI平台的集群服务不能正常运行时，根据集群扩容前配置恢复原有AI平台集群配置。本发明对AI平台集群扩容时的待扩容节点进行检测，根据反馈结果降低扩容失败率，并在扩容失败后引入异常回滚策略，保持AI平台可用性。

Description

一种AI平台的集群扩容异常处理方法

技术领域

本发明属于集群扩容技术领域，具体涉及一种AI平台的集群扩容异常处理方法。

背景技术

当集群资源不足时，需要对集群进行水平扩展，随着技术的发展，目前各个网站平台发展规模增长之后集群扩容在所难免。安装AI平台后也同样存在用户扩容需求，新扩展节点的配置默认与已有节点一致才会扩容成功，尽管需要用户对集群信息进行确认，但由于集群设备规模和运维实施人员失误等因素，还是会出现管理节点、计算节点基本信息不一致或者其他未知异常问题导致扩容失败。

扩容失败会导致扩容进集群后机器无法正常使用，甚至影响集群中原有节点的正常工作；扩容过程中出现问题，虽然扩容进度列表记录异常日志，但需要运维人员定位扩容失败原因及手动解决问题，这个过程中AI平台无法正常提供服务。目前还缺少降低AI平台集群扩容失败率的有效手段。

此为现有技术的不足，因此，针对现有技术中的上述缺陷，提供一种AI平台的集群扩容异常处理方法，是非常有必要的。

发明内容

针对现有技术的上述缺少降低AI平台集群扩容失败率的有效手段的缺陷，本发明提供一种AI平台的集群扩容异常处理方法，以解决上述技术问题。

第一方面，本发明提供一种AI平台的集群扩容异常处理方法，包括如下步骤：

S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本；

S2.AI平台接收到集群扩容请求后，执行适配测试脚本；

S3.配置适配测试脚本检查待扩容节点是否符合集群节点要求，并在符合集群节点要求时，保存集群扩容前配置，启动扩容脚本进行集群扩容；

S4.当集群扩容失败时，配置异常处理脚本判断AI平台的集群服务是否可以正常运行，并在AI平台的集群服务不能正常运行时，根据集群扩容前配置恢复原有AI平台集群配置。

进一步地，所述适配测试脚本、扩容脚本和异常处理脚本均采用ansible脚本。ansible脚本是基于phython的自动化运维工具。

进一步地，步骤S3具体步骤如下：

S31.配置适配测试脚本获取待扩容节点列表，并从待扩容节点列表中获取所有待扩容节点的IP信息，生成待扩容节点IP列表；

S32.配置适配测试脚本遍历待扩容节点IP列表，获取每个待扩容节点的信息，并与集群中现有节点信息进行比较判断是否符合AI平台安装的适配要求；

若否，适配检测失败，定位待扩容节点的问题；

若是，保存集群扩容前配置，启动扩容脚本进行集群扩容，进入步骤S33；

S33.判断集群扩容是否成功；

若否，进入步骤S4；

若是，进入步骤S34；

S34.AI平台集群提供正常集群服务。通过适配测试脚本在扩容之前对待扩容进AI平台集群的节点进行检测，及时发现待扩容节点的问题，降低扩容失败率。

进一步地，步骤S32中，启动扩容脚本进行集群扩容通过如下步骤实现：

配置扩容脚本依次在待扩容节点安装网络时钟互信、网络文件系统挂载、GPU驱动、集群环境、数据采集工具组件以及GPU标签打入操作。网络时钟互信保证两个节点之间时钟的同步，kubernetes集群通过标签来控制集群服务单元pod的位置，GPU标签打入即集群服务单元pod需要运行在配置了GPU的节点上。

进一步地，所述待扩容节点信息包括密码、系统版本号、GPU类型、卡数、CPU核数以及内存信息。待扩容节点信息包括但不限于上述内容，上述内容不一致，会导致AI平台集群扩容失败。

进一步地，步骤S4具体步骤如下：

S41.集群扩容失败，启动异常处理脚本；

S42.异常处理脚本判断AI平台集群的各服务单元pod是否正常；

若是，进入步骤S43；

若否，进入步骤S44；

S43.配置异常处理脚本判断是否需要恢复原有AI平台集群配置；

若是，进入步骤S44；

若否，返回步骤S34；

S44.配置异常处理脚本根据集群扩容前配置恢复原有AI平台集群配置。扩容失败，且AI平台集群的各服务单元pod中存在异常时，必须要启动AI平台集群配置恢复；而扩容失败，但AI平台集群的各服务单元pod正常时，可以恢复原有集群配置，也可以不恢复。

进一步地，步骤S43中，配置异常处理脚本获取测试人员的设置，根据测试人员的设置判断是否需要恢复原有AI平台集群配置。扩容失败，但AI平台集群的各服务单元pod正常时，不启动自动回滚，而又测试人员手动开启回滚操作。

进一步地，步骤S44具体步骤如下：

S441.AI平台集群存在异常的服务单元pod，且异常时长达到设定阈值，配置异常处理脚本进行异常回滚；

S442.配置异常处理脚本将扩容节点列表中对应节点安装的数据采集工具组件、网络文件系统挂载以及集群环境进行卸载；

S443.配置异常处理脚本获取集群扩容前配置，并更新到AI平台集群配置文件；

S444.配置异常处理脚本重启容器组件，重启网络插件恢复节点通信，重启异常服务单元pod，直至AI平台的集群服务恢复正常。通过异常回滚即使扩容失败，也可保证AI平台可以正常运行。

进一步地，步骤S444中，配置异常处理脚本定位一个异常服务单元pod进行重启，并判断AI平台集群服务是否恢复正常；

若是，配置异常处理脚本停止异常回滚，返回步骤S34；

若否，配置异常处理脚本定位到下一个异常服务单元pod进行重启。回滚操作的界限就是AI平台可以正常回滚操作为止，无需完全恢复原有的AI平台集群配置。

进一步地，所述集群采用kubernetes集群，所述数据采集工具组件采用telegraf数据采集工具，所述网络插件采用calico网络插件；

步骤S441中通过计时器计算服务单元pod的异常时长。

本发明的有益效果在于，

本发明提供的AI平台的集群扩容异常处理方法，对AI平台集群扩容时的待扩容节点进行检测，根据反馈结果降低扩容失败率，并在扩容失败后引入异常回滚策略，保持AI平台可用性。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的方法流程示意图一；

图2是本发明的方法流程示意图二；

图3为本发明的方法流程示意图三。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例1：

如图1所示，本发明提供一种AI平台的集群扩容异常处理方法，包括如下步骤：

S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本；所述适配测试脚本、扩容脚本和异常处理脚本均采用ansible脚本；

S2.AI平台接收到集群扩容请求后，执行适配测试脚本；

实施例2：

如图1、图2及图3所示，本发明提供一种AI平台的集群扩容异常处理方法，包括如下步骤：

S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本；

S2.AI平台接收到集群扩容请求后，执行适配测试脚本；集群采用kubernetes集群；

S3.配置适配测试脚本检查待扩容节点是否符合集群节点要求，并在符合集群节点要求时，保存集群扩容前配置，启动扩容脚本进行集群扩容；具体步骤如下：

S32.配置适配测试脚本遍历待扩容节点IP列表，获取每个待扩容节点的信息，并与集群中现有节点信息进行比较判断是否符合AI平台安装的适配要求；所述待扩容节点信息包括密码、系统版本号、GPU类型、卡数、CPU核数以及内存信息；

若否，适配检测失败，定位待扩容节点的问题；

S33.判断集群扩容是否成功；

若否，进入步骤S4；

若是，进入步骤S34；

S34.AI平台集群提供正常集群服务；

S4.当集群扩容失败时，配置异常处理脚本判断AI平台的集群服务是否可以正常运行，并在AI平台的集群服务不能正常运行时，根据集群扩容前配置恢复原有AI平台集群配置；具体步骤如下：

S41.集群扩容失败，启动异常处理脚本；

S42.异常处理脚本判断AI平台集群的各服务单元pod是否正常；

若是，进入步骤S43；

若否，进入步骤S44；

若是，进入步骤S44；

若否，返回步骤S34；

S44.配置异常处理脚本根据集群扩容前配置恢复原有AI平台集群配置；具体步骤如下：

S441.AI平台集群存在异常的服务单元pod，且异常时长达到设定阈值，配置异常处理脚本进行异常回滚；通过计时器计算服务单元pod的异常时长；通过如下代码获取AI平台集群的服务单元pod的状态：

kubectl get pods–A

S442.配置异常处理脚本将扩容节点列表中对应节点安装的数据采集工具组件、网络文件系统挂载以及集群环境进行卸载；数据采集工具组件采用telegraf数据采集工具，网络插件采用calico网络插件；

S444.配置异常处理脚本重启容器组件，重启网络插件恢复节点通信，重启异常服务单元pod，直至AI平台的集群服务恢复正常；通过如下代码对异常服务单元pod进行重启：

kubectl delete pod-n kube-system$podname。

上述实施例2中，步骤S32中，启动扩容脚本进行集群扩容通过如下步骤实现：

配置扩容脚本依次在待扩容节点安装网络时钟互信、网络文件系统挂载、GPU驱动、集群环境、数据采集工具组件以及GPU标签打入操作。

上述实施例2中，步骤S444中，配置异常处理脚本定位一个异常服务单元pod进行重启，并判断AI平台集群服务是否恢复正常；

若是，配置异常处理脚本停止异常回滚，返回步骤S34；

若否，配置异常处理脚本定位到下一个异常服务单元pod进行重启。

上述实施例2中，步骤S32中，配置适配测试脚本依次选取IP列表中的各待扩容节点IP信息取出后创建一个通道，自动获取集群用户密码登录到各个集群服务器，以此检查集群用户名密码是否一致，若一致，则获取各个待扩容节点的系统版本号、GPU类型和卡数、CPU核数、内存，返回的信息保存一个待扩容节点信息列表中；配置适配测试脚本获取各个检测项的检测通过标准，保存标准信息到生成的标准信息列表中；配置适配测试脚本通过断言的方式遍历比较待扩容节点信息列表和标准信息列表中的数据，若所有数据比对一致，返回测试通过，返回该项适配结果为True；列表中某个数据不一致或比对不通过，输出不一致的数据在列表中的位置下标，并在该项中反馈适配结果为False。

ansible脚本，是新出现的自动化运维工具，基于Python开发，集合了众多运维工具(puppet、cfengine、chef、func、fabric)的优点，实现了批量系统配置、批量程序部署、批量运行命令的功能。

kubernetes，简称K8s，是用8代替8个字符“ubernete”而成的缩写。是一个开源的，用于管理云平台中多个主机上的容器化的应用。

pod，是kubernetes集群的最小工作单元。每个pod包含一个或者多个容器。

Calico，是一个纯三层的方案，为虚机及容器提供多主机间通信，没有使用重叠网络(如flannel)驱动，采用虚拟路由代替虚拟交换，每一台虚拟路由器通过BGP协议传播可达信息(路由)到其他虚拟或物理路由器。

Telegraf是一个用Go编写的代理程序，可收集系统和服务的统计数据，并写入到InfluxDB数据库。内存占用小，通过插件系统可轻松添加支持其他服务的扩展。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种AI平台的集群扩容异常处理方法，其特征在于，包括如下步骤：

S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本；

S2.AI平台接收到集群扩容请求后，执行适配测试脚本；

2.如权利要求1所述的AI平台的集群扩容异常处理方法，其特征在于，所述适配测试脚本、扩容脚本和异常处理脚本均采用ansible脚本。

3.如权利要求1所述的AI平台的集群扩容异常处理方法，其特征在于，步骤S3具体步骤如下：

若否，适配检测失败，定位待扩容节点的问题；

S33.判断集群扩容是否成功；

若否，进入步骤S4；

若是，进入步骤S34；

S34.AI平台集群提供正常集群服务。

4.如权利要求3所述的AI平台的集群扩容异常处理方法，其特征在于，步骤S32中，启动扩容脚本进行集群扩容通过如下步骤实现：

5.如权利要求3所述的AI平台的集群扩容异常处理方法，其特征在于，所待扩容节点信息包括密码、系统版本号、GPU类型、卡数、CPU核数以及内存信息。

6.如权利要求3所述的AI平台的集群扩容异常处理方法，其特征在于，步骤S4具体步骤如下：

S41.集群扩容失败，启动异常处理脚本；

S42.异常处理脚本判断AI平台集群的各服务单元pod是否正常；

若是，进入步骤S43；

若否，进入步骤S44；

若是，进入步骤S44；

若否，返回步骤S34；

S44.配置异常处理脚本根据集群扩容前配置恢复原有AI平台集群配置。

7.如权利要求6所述的AI平台的集群扩容异常处理方法，其特征在于，步骤S43中，配置异常处理脚本获取测试人员的设置，根据测试人员的设置判断是否需要恢复原有AI平台集群配置。

8.如权利要求6所述的AI平台的集群扩容异常处理方法，其特征在于，步骤S44具体步骤如下：

S444.配置异常处理脚本重启容器组件，重启网络插件恢复节点通信，重启异常服务单元pod，直至AI平台的集群服务恢复正常。

9.如权利要求8所述的AI平台的集群扩容异常处理方法，其特征在于，步骤S444中，配置异常处理脚本定位一个异常服务单元pod进行重启，并判断AI平台集群服务是否恢复正常；

若是，配置异常处理脚本停止异常回滚，返回步骤S34；

10.如权利要求8所述的AI平台的集群扩容异常处理方法，其特征在于，所述集群采用kubernetes集群，所述数据采集工具组件采用telegraf数据采集工具，所述网络插件采用calico网络插件；

步骤S441中通过计时器计算服务单元pod的异常时长。