CN115756833A

CN115756833A - 一种面向多重异构环境下ai推理任务调度的方法及系统

Info

Publication number: CN115756833A
Application number: CN202211386537.7A
Authority: CN
Inventors: 李建华; 梁懿; 苏江文; 王秋琳; 宋立华; 吴佩颖
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-03-07

Abstract

本发明公开了一种面向多重异构环境下AI推理任务调度的方法与系统，采用容器化技术、边缘计算框架，完成与多种国产化边缘硬件的兼容适配，支持节点容器化、模块化配置模式，同时允许用户自定义功能模块镜像以打造独有的边缘计算，支持边缘硬件灵活配置。基于云原生为底座，通过监控技术计算算力的占用率，对AI算法任务进行评估，结合调度策略实现推理任务的合理调度。

Description

一种面向多重异构环境下AI推理任务调度的方法及系统

技术领域

本发明涉及边缘计算操作系统技术领域，尤其涉及一种面向多重异构环境下AI推理任务调度的方法及系统。

背景技术

随着AI+IoT(物联网)技术加速融合，应用场景在不断细化，对AI芯片及硬件产品的个性化需求也在增加，丰富的硬件满足了用户的多样化需求的同时，给硬件适配增加了一定的难度。目前的边缘计算尚没有一套成熟的技术体系，其中边缘设备异构严重，缺乏统一的标准和规范，面对多元化的芯片和硬件市场，如何完成国产化边缘硬件的适配成为应用落地的重点及难点。

在CN113687913A《一种面向边缘计算异构环境的轻量级应用适配方法》中提供了“一种面向边缘计算异构环境的轻量级应用适配方法。该面向边缘计算异构环境的轻量级应用适配方法，结合交叉编译技术和虚拟化技术构建自动化流水线驱动的集成开发环境，封装不同硬件环境的编译器，使用容器化交叉编译环境将编译过程中的不同步骤和任务自动串联起来，为异构环境提供统一的工作流框架，将需编译的代码与编译工具使用容器持久化的手段结合到一起，容器自动运行编译流水线最终生成各异构环境的可执行程序”，该面向边缘计算异构环境的轻量级应用适配方法，能够方便的构建跨异构环境的边缘计算应用，适配各种边缘计算操作系统环境，并支持异构CPU环境。解决了在异构环境下需要重复编译应用的问题，但所述系统为容器自动运行编译流水线最终生成各异构环境的可执行程序，流水线是将源代码转换为可发布产品的多个不同的任务和作业，通常串联成一个软件“管道”，一个自动流程成功完成后会启动管道中的下一个流程。就是运行在一个的工作流框架，将原来独立运行于单个或者多个节点的任务连接起来，虽然实现了单个任务难以完成的复杂流程编排和可视化的工作，但不同任务消耗资源的波峰和波谷分布时间段差异较大，且无明显规律，若无法根据实际业务需求变化及时响应资源的调度，将导致资源的浪费。

发明内容

本发明提供了一种面向多重异构环境下AI推理任务调度的方法，具体包括以下步骤：

通过交叉编译技术构建多重异构边缘节点的容器化服务运行环境；

通过基于Kubernetes的插件方式及云原生流程化编排构建云边融合的边缘计算服务，检测边缘节点并获得边缘节点的运行指标；

对边缘节点正在运行的AI推理任务进行评估，依据所述运行指标计算边缘节点的算力占用率，当边缘节点的算力占用率超过预设阈值时，标记此AI推理任务为需调度状态，通过调度策略将处于需调度状态的AI推理任务调度到相应的算力资源。

优选的，所述构建多重异构边缘节点的容器化服务运行环境具体步骤为：

针对边缘设备的多操作系统、多CPU架构及多芯片类型，梳理相应的构建基础依赖包、异构环境依赖字典库，通过定制适配各服务器的硬件驱动程序，结合CPU架构类型整合对应的交叉编译工具链，构建对应环境的交叉编译环境，生成不同信创环境下的构建机；

针对边缘设备对应的操作系统、CPU架构、芯片类型、编译工具及相关版本信息，选择对应的信创环境构建机构建docker环境部署包及Kubernetes运行环境部署包；

以docker和Kubernetes为底座，通过“系列型号产品+处理器架构+国产操作系统+Kubernetes”模式构建容器化运行环境。

优选的，所述构建云边融合的边缘计算服务具体步骤包括：

基于Kubernetes设备插件机制，定制边缘设备硬件插件，结合配置项目信息，对服务进行打包生成运行程序包，其中，生成模式可为kube模式或进程模式，kube模式为通过容器镜像的模式生成，进程模式通过二进制程序包的方式提供；

基于云原生架构实现云中心管理服务，结合定制边缘设备类型，选择对应的边缘节点服务运行环境及运行程序包，分发对应的边缘设备并安装对应的环境部署包，在云中心管理服务完成边缘节点的创建；

云中心管理服务通过Kubernetes完成对所有资源的管理，通过基于Kubernetes设备插件化模式实现边缘设备的基础能力，构建边缘应用，在边缘节点实现除基础能力外的特定功能，实现边缘管理和边缘应用编排，完成云边融合的边缘计算服务的构建。

优选的，所述计算边缘节点的算力占用率具体公式为：

算力占用率＝权重1ⅹCPU使用率+权重2ⅹ内存使用率+权重3ⅹGPU使用率+权重4ⅹ磁盘使用率。

优选的，所述通过调度策略将处于需调度状态的AI推理任务调度到相应的算力资源具体为：

通过云边融合的边缘计算服务，获得边缘节点的运行指标，对算力占用率较低的边缘节点的运行指标根据调度策略配置优先级，其中，调度策略包括Deployment或RC全自动调度方式、NodeSelector定向调度、NodeAffinity Node亲和性调度、PodAffinity Pod亲和与互斥调度，根据需调度的AI推理任务所在节点的运行指标进行预选，排除运行指标不相同的节点，在剩余节点中选择优先级最高的节点自动调度需调度的AI推理任务，其中，若这类节点多于1个时，则进行随机选择。

本申请还提供了一种面向多重异构环境下AI推理任务调度的系统，所述系统以docker和Kubernetes为底座，通过“系列型号产品+处理器架构+国产操作系统+Kubernetes”模式构建容器化运行环境，为云中心和边缘设备之间的网络、应用程序部署和元数据同步提供基础架构支持，具体包括云端服务模块及边缘服务模块，其中：

所述云端服务模块通过Kubernetes实现所有资源的管理功能，可对边缘设备进行资源监控，根据调度策略对需调度AI推理任务进行调度；

所述边缘服务模块通过数据采集检测边缘节点并获得边缘节点的运行指标，依据所述运行指标对AI推理任务进行评估，计算边缘节点的算力占用率，当边缘节点的算力占用率超过预设阈值时，标记此AI推理任务为需调度状态，并将通过边缘计算服务将数据上报至云端服务模块。

优选的，构建容器化运行环境具体步骤为：

优选的，所述计算边缘节点的算力占用率具体公式为：

优选的，所述根据调度策略对需调度AI推理任务进行调度具体为：

优选的，所述边缘计算服务通过边缘设备与创建于云端服务模块的边缘节点实现边缘管理与边缘应用编排，其中，创建边缘节点具体步骤为：

结合定制边缘设备类型，选择对应的边缘节点服务运行环境及运行程序包，分发对应的边缘设备并安装对应的环境部署包，在云端服务模块完成边缘节点的创建。

与现有技术相比，本发明的有益效果是：

1、本发明为一种面向多重异构环境下AI推理任务调度的方法与系统，适应信创环境下产品多样化、复杂化、统一集成的发展要求，满足不同行业在不同场景的云边融合的需求。基于容器化、模块化的配置模式，允许用户自定义功能模块镜像以打造独有的边缘计算，结合业务场景的个性化需求灵活配置边缘硬件。通过模块配置化与专业定制相结合的方式，针对云边融合环境下的普遍性和具体性，为各行业的客户实行定制产品和定制服务。

2、本发明为一种面向多重异构环境下AI推理任务调度的方法与系统，提供算力资源监控，合理利用算力资源运行推理任务。基于定制化边缘设备硬件插件，对边缘节点的运行指标进行监控，结合监控的实时数据，对算法推理任务进行评估，计算各节点算力的占用率，针对AI推理任务提供灵活的调度策略，为AI推理服务实现合理化的调度。

附图说明

图1是本发明实施例运行环境构建框图；

图2是本发明实施例中总体框架图；

图3是本发明实施例中算力资源监控及调度总体框架；

图4是本发明实施例中算法资源调度过程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供以下技术方案：一种面向多重异构环境下AI推理任务调度的方法，在本实施例中，具体包括以下步骤：

1、通过交叉编译技术构建多重异构边缘节点的容器化服务运行环境：

针对边缘设备的多操作系统(UOS/KYLIN/Euler)、多CPU架构(ARM32/ARM64/AMD64)及多芯片类型(飞腾/Ncidia/Atlas/Bitmain)，梳理相应的构建基础依赖包、异构环境依赖字典库，通过定制适配各服务器的硬件驱动程序，结合CPU架构类型整合对应的交叉编译工具链，构建对应环境的交叉编译环境，生成不同信创环境下的构建机；

以docker和Kubernetes为底座，通过“系列型号产品+处理器架构+国产操作系统+Kubernetes”模式构建容器化运行环境，例如想要实现在在国产统信服务器操作系统V20+海光5000、7000系列处理器平台上稳定运行，可以“华为Atlas系列+国产统信服务器操作系统+ARM版本+Kubernetes”模式构建容器化运行环境，软件不与硬件强绑定，通过适配更多的边缘硬件，让用户基于实际场景选择最有性价比的硬件。

2、通过基于Kubernetes的插件方式及云原生流程化编排构建云边融合的边缘计算服务，检测边缘节点并获得边缘节点的运行指标：

为了实现边缘设备基础能力，增加边缘设备的动态发现、设备分配、设备健康状态上报功能等拓展能力，基于Kubernetes设备插件机制，定制适用的边缘设备硬件插件，结合配置文件、证书、函数脚本等配置项目信息，对服务进行打包生成运行程序包，其中，生成模式可为kube模式或进程模式，kube模式为通过容器镜像的模式生成，进程模式通过二进制程序包的方式提供；

采用云端管理、边缘运行的方案，通过云原生架构实现云中心管理服务，结合定制边缘设备类型，选择对应的边缘节点服务运行环境及运行程序包，分发对应的边缘设备并安装对应的环境部署包，在云中心管理服务完成边缘节点的创建；

其中，在创建节点时选择AI加速卡，进入节点AI加速卡界面选择配置资源分配，安装资源分配应用，这一步会将指定加速卡的设备插件安装到边缘侧，应用安装完毕后，用户需在创建docker应用时，选择相应的资源限制，即可指定docker所需要的芯片类型和个数。

云中心管理服务通过Kubernetes完成对所有资源的管理，包括节点、应用、配置、部署等。通过基于Kubernetes设备插件化模式实现边缘设备的基础能力，构建边缘应用，在边缘设备的基础能力上，在边缘节点实现特定功能，如消息路由服务、函数计算、流式计算服务、AI推理服务、数据采集、数据上传等服务，实现边缘管理和边缘应用编排，完成云边融合的边缘计算服务的构建。

在云边融合的边缘计算服务下，云端可检测边缘节点并获得边缘节点的运行指标，其中，运行指标包括CPU、GPU算力、内存、磁盘、温度、板卡等信息。

3、对边缘节点正在运行的AI推理任务进行评估，依据所述运行指标计算边缘节点的算力占用率，具体公式为：

算力占用率＝权重1ⅹCPU使用率+权重2ⅹ内存使用率+权重3ⅹGPU使用率+权重4ⅹ磁盘使用率

当边缘节点的算力占用率超过预设阈值时，标记此AI推理任务为需调度状态，云中心可以通过资源管理功能动态调度资源，其中，调度主要基于kubernetes调度框架与插件实现调度分配，通过Deployment、DaemonSet、RC、Job、Cronjob等对象来完成一组pod的调度与自动控制功能，pod为kubernetes的最小计算单元。一般情况下，一个pod被调度到哪个节点是由scheduler组件采用相应的算法计算出来的，这个过程是不受人工控制的，但是在实际使用中，这并不能满足我们的要求，而Kubernetes支持四种pod的调度策略，Deployment或RC全自动调度方式、NodeSelector定向调度、NodeAffinity Node亲和性调度、PodAffinity Pod亲和与互斥调度，以NodeSelector定向调度为例，当需要将Pod调度到指定的Node时，可以通过Node的标签(Label)和Pod的NodeSelector属性相匹配，在这四种调度策略下，可根据实际要求进行选择。在本实施例中，我们通过云边融合的边缘计算服务，获得边缘节点的运行指标，对算力占用率较低的边缘节点的运行指标根据调度策略配置优先级，以便选出最合适运行Pod对象的节点，根据需调度的AI推理任务所在节点的运行指标进行预选，排除运行指标不相同的节点，如内存大小，CPU使用率等条件不满足，在剩余节点中选择优先级最高的节点自动调度需调度的AI推理任务，其中，若这类节点多于1个时，则进行随机选择。

本申请还包括一种面向多重异构环境下AI推理任务调度的系统，所述系统以docker和Kubernetes为底座，通过“系列型号产品+处理器架构+国产操作系统+Kubernetes”模式构建容器化运行环境，为云中心和边缘设备之间的网络、应用程序部署和元数据同步提供基础架构支持，具体包括云端服务模块及边缘服务模块，其中：

优选的，构建容器化运行环境具体步骤为：

优选的，所述计算边缘节点的算力占用率具体公式为：

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种面向多重异构环境下AI推理任务调度的方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种面向多重异构环境下AI推理任务调度的方法，其特征在于，所述构建多重异构边缘节点的容器化服务运行环境具体步骤为：

3.根据权利要求1所述的一种面向多重异构环境下AI推理任务调度的方法，其特征在于，所述构建云边融合的边缘计算服务具体步骤包括：

4.根据权利要求1所述一种面向多重异构环境下AI推理任务调度的方法，其特征在于，所述计算边缘节点的算力占用率具体公式为：

5.根据权利要求1所述一种面向多重异构环境下AI推理任务调度的方法，其特征在于，所述通过调度策略将处于需调度状态的AI推理任务调度到相应的算力资源具体为：

6.一种面向多重异构环境下AI推理任务调度的系统，其特征在于，所述系统以docker和Kubernetes为底座，通过“系列型号产品+处理器架构+国产操作系统+Kubernetes”模式构建容器化运行环境，为云中心和边缘设备之间的网络、应用程序部署和元数据同步提供基础架构支持，具体包括云端服务模块及边缘服务模块，其中：

7.根据权利要求6所述一种面向多重异构环境下AI推理任务调度的系统，其特征在于，构建容器化运行环境具体步骤为：

8.根据权利要求6所述一种面向多重异构环境下AI推理任务调度的系统，其特征在于，所述计算边缘节点的算力占用率具体公式为：

9.根据权利要求6所述一种面向多重异构环境下AI推理任务调度的系统，其特征在于，所述根据调度策略对需调度AI推理任务进行调度具体为：

10.根据权利要求6所述一种面向多重异构环境下AI推理任务调度的系统，其特征在于，所述边缘计算服务通过边缘设备与创建于云端服务模块的边缘节点实现边缘管理与边缘应用编排，其中，创建边缘节点具体步骤为：