CN116048734B

CN116048734B - 一种ai即服务的实现方法、装置、介质及设备

Info

Publication number: CN116048734B
Application number: CN202310316401.7A
Authority: CN
Inventors: 苗辉; 李少波; 王阳; 李健富; 黄子宸; 张星星; 张金琥
Original assignee: Guizhou University; Guizhou Baishancloud Technology Co Ltd
Current assignee: Guizhou University; Guizhou Baishancloud Technology Co Ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-06-02
Anticipated expiration: 2043-03-29
Also published as: CN116048734A

Abstract

本申请是关于一种AI即服务的实现方法、装置、介质及设备，应用于边缘云技术领域。所述方法应用于设置在服务器集群上的服务平台，包括：接收上传的AI模型，创建包含AI模型及对应的运行环境的容器镜像文件；接收针对AI模型的配置信息，配置信息包括容量调整参数，容量调整参数包括最大容器副本数量；根据最大容器副本数量和容器镜像文件，在集群中的一个或多个节点内创建对应数量的容器副本；接收针对AI模型的调用请求，根据预设规则确定处理调用请求的一个或多个目标节点及各个目标节点的容器副本开启量，将调用请求发送至目标节点，启动一共N个容器副本。可以实现合理的资源调度和分配，提高资源利用率。

Description

一种AI即服务的实现方法、装置、介质及设备

技术领域

本申请涉及边缘云技术领域，尤其涉及一种AI即服务的实现方法、装置、介质及设备。

背景技术

人工智能(Artificial Intelligence，简称AI)技术在计算机视觉与感知智能、机器学习与计算智能、认知计算与类脑智能、无人系统与群体智能、人机共融与智能控制、以及包括智慧医疗、智慧交通等领域有了越来越广泛的应用。

AI技术一般基于深度学习模型实现，深度学习模型在训练好后，导出AI模型文件，模型研究人员需要根据部署的平台不同，配置不同的依赖项。例如在x86架构-Linux服务器平台下，部署AI模型需要开发者手动配置CUDA（显卡厂商NVIDIA推出的运算平台，ComputeUnified Device Architecture，简写为CUDA），BLAS（基础线性代数子程序库，BasicLinear Algebra Subprograms，简写为BLAS），Boost（为C++语言标准库提供扩展的一些C++程序库的总称）等依赖项；在RK3399-Android-8.1 移动平台下，部署AI模型需要对Android.mk文件进行配置。配置好依赖项后开发者需要根据AI模型的输入输出格式以及业务需求编写业务代码，业务代码的主要逻辑主要为三个部分，第一为数据预处理，第二为核心网络模型推断（inference），最后为后处理。有关研究表明，64%的企业需要一个月甚至更长的时间来部署一个深度学习模型，38%的企业的模型部署过程会花费该公司的数据科学家一半以上的时间，即这些高薪开发人员花费了大量时间在冗杂的部署工作中。因此许多公司都不愿意将人工智能用于他们的实际业务。过长的部署时间和过高的运维成本是因为传统的AI模型部署方案使用K8s（全称kubernetes，k8s是为容器服务而生的一个可移植容器的编排管理工具）技术，K8s是一种复杂的系统，需要掌握许多概念和技术，如容器化、Pod（数据结构,plainolddata的缩写）、Service（服务）、Ingress（基于域名的网络转发资源）、ConfigMap（一种 API 对象，用来将非机密性的数据保存到键值对中）、Secret（保密）、DaemonSet（守护进程集）等等。对于没有经验的用户来说，很难理解和使用这些概念和技术。因此k8s的学习曲线非常陡峭，要花费大量的时间和精力来学习和理解。用户同时需要掌握其他许多概念和技术，如YAML(YAML Ain't a Markup Language,另一种标记语言)、API（应用程序接口，Application Programming Interface，简称：API）对象、kubectl（命令行工具）等等。此外，K8s的运维成本也很高，因为k8s需要进行大量的配置和管理工作，如部署、扩展、缩小、升级、故障排除等等。这些工作需要进行手动操作，并且容易出错，需要进行反复测试和调整。由于k8s的复杂性和学习曲线陡峭，维护K8s系统需要投入大量的时间、精力和资源。由于K8s的配置和管理工作非常复杂，因此容易出现错误和故障。这些故障可能会导致应用程序出现问题，从而影响到业务的正常运行。K8s的这些缺点使得企业利用k8s进行AI模型部署的成本大幅增加。

AI即服务是一个新的概念，指的是用户在一次性付款或订阅费用后得到提供先进的人工智能能力。使用AI即服务，企业则可以利用提供商的API使用专业的人工智能服务，减少运维成本。但相关技术中，AI模型的部署方法仍然存在依赖项配置复杂、可扩展性不足，运维成本高，项目迁移困难等问题。

发明内容

为克服相关技术中存在的问题，本申请提供一种AI即服务的实现方法、装置、介质及设备。

根据本申请的第一方面，提供一种AI即服务的实现方法，应用于服务平台，所述服务平台设置在服务器集群上，包括：

接收AI模型，创建包含所述AI模型及对应的运行环境的容器镜像文件；

接收针对所述AI模型的配置信息，所述配置信息包括容量调整参数，所述容量调整参数包括最大容器副本数量；

根据所述最大容器副本数量和容器镜像文件，在集群中的一个或多个节点内创建对应数量的容器副本；

接收针对所述AI模型的调用请求，根据预设规则确定处理所述AI模型的调用请求的一个或多个目标节点及各个所述目标节点的容器副本开启量，其中，所述预设规则是基于以下一种或多种因素的组合：调用请求数、节点的负载情况、节点的地理位置、网络带宽、节点的处理能力、容器副本的负载情况、负载均衡策略；将所述调用请求发送至所述一个或多个目标节点，指示所述一个或多个目标节点启动一共为第一容器副本数量的副本，其中所述第一容器副本数量为N，N小于等于所述最大容器副本数量。

在本申请的一些实施例中，基于前述方案，所述配置信息还包括容量调整模式，所述容量调整模式包括以下模式中的一种：

容量模式，基于执行中的请求数或连接数调整第一容器副本数量；

策略梯度模式，基于策略梯度的正反馈值调整第一容器副本数量，策略梯度的正反馈值是根据CPU使用率C、GPU使用率G、内存使用率M和外部访问请求情况P求得策略梯度的正反馈值为Y：Y=(1-α)(W ₁ C+W ₂ G+W ₃ M)+αW ₄ P，其中，α为手动设置的超参数，W ₁、W ₂、W ₃ 、W ₄为权重系数。

在本申请的一些实施例中，基于前述方案，所述接收AI模型，并创建包含所述AI模型及对应的运行环境的容器镜像文件包括：

通过API网关接收AI模型，所述API网关与各个节点连接；

获取所述AI模型的文件格式，根据所述文件格式，调用对应的运行环境，创建包含所述AI模型及对应的运行环境的容器镜像文件。

在本申请的一些实施例中，基于前述方案，AI即服务的实现方法还包括：生成容器文本文件，所述容器文本文件，包括容器镜像下载地址；所述根据所述最大容器副本数量，在集群中的一个或多个节点内创建对应数量的容器副本包括：

通过API网关分发所述容器文本文件，到所述一个或多个节点，并指示所述一个或多个节点基于所述容器文本文件，下载所述容器镜像文件，并在本节点中创建对应数量的容器副本。

在本申请的一些实施例中，基于前述方案，所述容量调整参数还包括最小容器副本数量，当第一容器副本数量为N时，N大于等于所述最小容器副本数量，小于等于所述最大容器副本数量。

根据本申请的另一方面，提供一种AI即服务的实现装置，应用于服务平台，所述服务平台设置在服务器集群上，包括：

AI模型接收模块，用于接收AI模型，创建包含所述AI模型及对应的运行环境的容器镜像文件；

配置信息接收模块，用于接收针对所述AI模型的配置信息，所述配置信息包括容量调整参数，所述容量调整参数包括最大容器副本数量；

容器副本创建模块，用于根据所述最大容器副本数量和容器镜像文件，在集群中的一个或多个节点内创建对应数量的容器副本；

容器副本启动模块，用于接收针对所述AI模型的调用请求，根据预设规则确定处理所述AI模型的调用请求的一个或多个目标节点及各个所述目标节点的容器副本开启量，其中，所述预设规则是基于以下一种或多种因素的组合：调用请求数、节点的负载情况、节点的地理位置、网络带宽、节点的处理能力、容器副本的负载情况、负载均衡策略；将所述调用请求发送至所述一个或多个目标节点，启动一共为第一容器副本数量的副本，其中第一容器副本数量为N其中N小于等于所述最大容器副本数量。

在本申请的一些实施例中，基于前述方案，所述AI模型接收模块还用于通过API网关接收AI模型，所述API网关与各个节点连接；

在本申请的一些实施例中，基于前述方案，AI模型接收模块还用于，生成容器文本文件，所述容器文本文件，包括容器镜像下载地址。

根据本申请的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现AI即服务的实现方法的步骤。

根据本申请的另一方面，提供一种计算机设备，包括处理器、存储器和存储于所述存储器上的计算机程序，所述处理器执行所述计算机程序时实现AI即服务的实现方法的步骤。

本申请通过AI即服务的实现方法，在一种或多种服务集群上建立服务平台，接收模型研究人员上传的AI模型，创建包含AI模型及对应的运行环境的容器镜像文件；接收模型研究人员针对所述AI模型的配置信息，配置信息包括容量调整参数，容量调整参数包括最大容器副本数量；根据最大容器副本数量，在集群中的一个或多个节点内创建对应数量的容器副本；接收针对AI模型的调用请求，根据预设规则确定处理所述AI模型的调用请求的一个或多个目标节点及各个所述目标节点的容器副本开启量，将所述调用请求发送至所述一个或多个目标节点，指示所述一个或多个目标节点启动一共为第一容器副本数量的副本。可以实现AI即服务的同时，由服务平台完成AI模型的自动部署，不需AI模型研究人员配置模型依赖项，降低模型研究人员的工作量，降低企业运维成本，且容易实现跨云平台的项目迁移，实现合理的资源调度和分配，以及自动扩容或缩容，提高资源利用率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据一示例性实施例示出的一种AI即服务的实现方法的流程图。

图2是根据一示例性实施例示出的一种AI即服务的实现装置的框图。

图3是根据一示例性实施例示出的一种计算机设备的框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

为解决现有技术中存在的问题，本申请提供一种AI即服务的实现方法，AI即服务的实现方法应用于服务平台，服务平台设置在服务器集群上。服务集群可以为包括一个或多个运营商或服务商的服务器集群，也可以是包括多个地区的服务器集群。

图1是根据一示例性实施例示出的一种AI即服务的实现方法的流程图。参考图1，AI即服务的实现方法包括：

步骤S11,接收AI模型，创建包含AI模型及对应的运行环境的容器镜像文件。

服务平台可以预先设置好针对多种AI模型文件类型的容器运行环境。

服务平台接收AI模型研究人员上传的AI模型，模型研究人员可以是模型开发商或者企业内的研究人员。AI模型可以以文件的形式上传。使用容器镜像文件可以提高应用程序的隔离性，防止因为模型运行时的不安全操作而导致的安全问题。根据所述文件格式，调用对应的运行环境，可以更好地支持不同类型的AI模型和运行环境，从而实现更灵活的部署方案。

服务平台为各种AI模型文件格式（.pb，.tflite，.hdf5，.onnx）提供了对应的解释器，并以容器的形式准备了模型和硬件匹配的运行环境。服务平台可以接收各种不同的AI模型的文件输入，由平台自适应处理不同格式的识别以及相应的环境部署，可以显著减少模型研究人员的工作量，模型研究人员无需为处理不同格式的模型文件而进行繁杂的环境部署以及调试工作。

步骤S12，接收针对AI模型的配置信息，配置信息包括容量调整参数，容量调整参数包括最大容器副本数量。

AI模型研究人员，向服务平台上传AI模型后，还需要上传针对AI模型的配置信息，配置信息可以为容量调整参数。容量是指AI模型提供AI服务的负载容量，通常情况下，单一容器副本对提供的服务连接数量具有一定上限限制，因此，本申请中的容量可以表现为容器副本的数量。例如，单个容器副本可以同时为5个用户提供AI服务，而企业要求服务平台同时为50个用户提供AI服务，AI模型研究人员在上传配置信息时，可以配置容量调整参数，最大容器副本数量为10。相较于传统的k8s方式部署AI模型，由服务平台部署的方式大大减少了AI模型研究人员的工作量，AI模型研究人员仅需填写上传少量配置信息即可完成配置，后续硬件基础设施管理、操作系统和环境配置等工作将由平台自动完成。

步骤S13,根据最大容器副本数量和容器镜像文件，在集群中的一个或多个节点内创建对应数量的容器副本。

服务平台根据最大容器副本数量，可以根据预设规则，确定在集群中的一个或多个节点中创建容器副本，以及各个节点中创建容器副本的数量。服务平台可以将容器镜像文件发送给对应的节点，并指示该节点创建容器副本的数量，一个或多个节点根据服务平台的指示，在本节点中创建对应数量的容器副本。

步骤S14,接收针对AI模型的调用请求，根据预设规则确定处理AI模型的调用请求的一个或多个目标节点及各个目标节点的容器副本开启量，将调用请求发送至一个或多个目标节点，指示一个或多个节点启动一共N个容器副本，其中N小于等于最大容器副本数量。

预设规则是基于以下一种或多种因素的组合：调用请求数、节点的负载情况、节点的地理位置、网络带宽、节点的处理能力、容器副本的负载情况、负载均衡策略。

在集群中部署好容器副本后，即可为用户提供AI服务。用户可以向服务平台发送AI模型的调用请求，服务平台根据接收到的调用请求的数量，将调用请求发送至创建了容器副本的节点中的一个或多个目标节点，指示一个或多个目标节点一共启动N个容器副本。

在创建了容器之后，根据接收到的请求来动态地调度节点和容器，可以提高系统的资源利用率和性能表现。具体来说，根据调用请求数和节点的负载情况，可以选择将请求分配到负载较低的节点上，避免负载不均衡，同时还可以根据节点的地理位置、网络带宽等因素进行调度，以提高服务质量和用户体验。在考虑选择目标节点时，在本发明的实施例中，可以考虑以下因素：

节点的负载情况：选择负载较低的节点，避免过度负载导致性能下降或宕机。

节点的性能指标：选择具备足够性能的节点，以确保能够满足请求的处理需求。

节点的地理位置和网络带宽：选择离用户较近的节点，可以缩短请求的响应时间，提高用户体验。

节点的安全性和可靠性：选择安全性和可靠性较高的节点，可以避免服务中断和数据泄露等风险。

同时，还可以考虑如何分配容器副本的开启量。具体可以需要考虑以下因素：

节点的处理能力：根据目标节点的性能指标和负载情况，确定每个节点可以处理的容器数量。

容器副本的负载情况：确定每个容器副本的负载情况，以避免过度负载导致性能下降。

负载均衡策略：采用合适的负载均衡策略，如轮询、最少连接等，将容器分配到各个节点上。

以上因素都需要根据具体情况进行权衡和调整，以实现高效的容器调度和负载均衡。同时，还需要考虑容器的启动时间、资源占用和回收等问题，以确保系统的稳定性和可靠性。

在一个具体的实施例中，当集群接收到针对某个AI模型的调用请求时，集群会根据预先设定的策略选择一组合适的节点以及节点的容器副本开启量来处理这些请求。选择节点的过程综合考虑节点网络延迟、硬件资源等因素，为每个节点分配一个权重值。权重值越高，表示节点越适合处理新的请求。一旦确定了需要冷启动的节点，集群会向这些节点发送启动指令，通知它们启动相应的容器副本。这些容器副本会按照请求所需的AI模型进行处理，并将处理结果返回给请求发起者。通过这种方式，集群在首次接受调用请求时，发现没有已启动的容器副本时，可以快速地冷启动一些节点，从而确保调用请求得到及时响应。当下一次接收到请求时，检查集群中是否有已经启动并可用的容器副本，直接利用这些容器提供服务。可以理解的是，启动的N个容器副本的数量，可以和调用请求的数量对应，只要N个容器副本的处理能力能够满足调用请求的数量，随着调用请求数量的增加或减少，服务平台可以指示节点启动或关闭部分容器副本，来提供AI服务。

或者，在接收到调用请求后，启动第一数量的容器副本，如果调用请求的数量在预设时段内都比较少时，适当关闭部分已经启动的容器副本，以节约资源；在调用请求数量接近或超过已经启动的容量副本的处理能力后，启动更多容器副本，实现服务容量的动态调整，保证AI模型的调用请求得到及时处理。容器副本的最大数量和客户购买的服务相关，服务平台可以在最大容器副本数量的限制内启动对应数量的容器副本，为用户提供服务。客户可以根据自身业务的发展情况，随时调整最大容器副本数量。

由服务平台为上传的AI模型配置对应运行环境的容器镜像文件，然后在集群中创建容器副本提供AI服务，不再需要模型研究人员根据部署的平台不同，配置不同的模型依赖项，有效减少模型研究人员的工作量。同时，服务平台提供的第一容器副本数量，可以动态调整，实现弹性扩缩容，根据配置信息中的最大容器副本数量，动态地创建和销毁容器副本，以适应服务负载变化。而且，由于服务平台可以设置在多种集群之上，不仅容易实现容器的迁移，还有利于实现AI即服务的高可用性和负载均衡，同时自动化容量调整可以保证服务始终处于最佳状态，减少了因服务故障导致的业务中断。

在一示例性实施例中，配置信息还包括容量调整模式，容量调整模式用于调整第一容器副本数量，容量调整模式包括以下模式中的一种：

容量模式，基于执行中的请求数或连接数调整第一容器副本数量；其中，容量模式适用于长时间运行的函数或一次只能处理有限数量请求的函数。通过在服务平台上设置“最大并发请求数量”环境变量，可以实施一个硬性限制，使得达到限制时，将会把新的请求转发给其他节点或拒绝该请求。

策略梯度模式，基于策略梯度的正反馈值调整第一容器副本数量，所述策略梯度的正反馈值是根据CPU使用率C、GPU使用率G、内存使用率M和外部访问请求情况P，求得的正反馈值Y：Y=(1-α)(W ₁ C+W ₂ G+W ₃ M)+αW ₄ P，其中，α为手动设置的超参数，W ₁、W ₂、W ₃ 、W ₄为权重系数。

AI模型研究人员，可以根据AI模型的具体特点，确定容量调整模式。容量调整模式可以为容量模式，即基于请求数调整启动的容器副本数量；也可以是策略梯度模式，即基于CPU使用率C、GPU使用率G、内存使用率M和外部访问请求情况P，通过正反馈函数Y=(1-α)(W ₁ C+W ₂ G+W ₃ M)+αW ₄ P求得策略梯度的正反馈值Y，根据策略梯度的正反馈值Y进行调整。策略梯度的正反馈值可以表征预测结果。正反馈值的绝对值越大，说明预测结果越准确。实际应用中，可以通过深度学习算法，来确定W ₁、 W ₂、 W ₃、 W ₄的数值。

设置策略梯度模型，通过策略梯度模型计算出策略梯度的正反馈值，根据策略梯度的正反馈值调整启动的容器副本数量。策略梯度的正反馈值是根据CPU使用率C、GPU使用率G、内存使用率M和外部访问请求情况P求得，策略梯度的正反馈值为Y：Y=(1-α)(W ₁ C+W ₂ G+ W ₃ M)+αW ₄ P，其中，α为手动设置的超参数，W ₁、W ₂、W ₃ 、W ₄为权重系数。

策略梯度模型，充分考虑了容器副本的CPU使用率、GPU使用率、内存使用率、外部访问请求的多种因素，根据获得的正反馈值，对启动的容器副本数量进行调整。策略梯度模型是一种神经网络模型，收集集群各节点的 CPU、GPU 、内存使用率和外部访问情况数据，生成一个状态向量 S，作为神经网络模型的输入，生成动作向量A，根据动作向量A，将任务分配给相应的节点，实现集群资源的高效利用。使用过程中，还可以不断对神经网络模型进行迭代优化，使得神经网络模型的输出更加准确。

AI模型上传者，需要将容量调整模式提供给服务平台，以便服务平台根据容量调整模式，及时进行容量调整，提供更符合AI模型特点的服务。

根据容量调整模式的不同，可以根据请求量或正反馈值进行弹性扩缩容，可以实现资源的动态分配，提高了资源利用率，同时可以更好地满足不同业务场景的需求。

在一示例性实施例中，AI即服务的实现方法还包括：定期收集容量调整模式对应的容器副本的负载值，根据负载值，调整启动的容器副本的数量，以使启动的容器副本的数量满足负载值的需求，容量模式对应的容器副本的负载值为当前调用请求的数量。策略梯度模式对应的容器副本的负载值为 CPU 使用率、GPU 使用率、内存使用率、外部访问请求情况组成的状态向量。

当模型研究人员指定了容量调整模式后，服务平台可以定期收集各个已经启动的容器副本的与容量调整模式对应的负载值，根据负载值调整启动的容器副本的数量。例如，如果模型研究人员指定的容量调整模式为容量模式，服务平台定期收集各个启动的容器副本的请求连接数，如果连接数低于已经启动的容器副本的服务容量，服务平台可以适当关闭部分已经启动的容器副本，减少资源的消耗；如果连接数接近或高于已经启动的容器副本的服务容量，说明需要更多的容器副本提供服务，服务平台指示一个或多个节点启动更多容器副本，来满足逐渐增加的请求数量。

由服务平台根据实时的请求数量，调整启动的容器副本数量，在请求数增加时，可以启动更多的容器副本提供服务，保证服务质量。在请求数减少时，关闭部分容器副本，在不影响服务质量的同时，降低资源消耗，降低客户成本。因此，通过定期收集容器副本的负载值，并根据负载值来调整启动的容器副本的数量，以保证服务能够始终处于最佳状态，可以更好地满足不同业务场景的需求，同时提高服务性能和稳定性，实现自动化容量调整，提高资源利用率，减少人工干预，具有较高的实用价值。

在一示例性实施例中，AI即服务的实现方法还包括：

监测各个容器副本的负载值是否达到预设阈值，当负载值达到预设阈值时，根据负载值，调整启动的容器副本的数量，以使启动的容器副本的数量满足负载值的需求。

如果请求数量增加较快，当容器副本的负载值达到容器副本的负载极限，再进行扩容，需要在节点中启动容器副本，有可能导致部分请求得不到及时响应。因此，设置负载值的预设阈值，可以更加精准地适应服务负载变化，如果容器副本的负载值达到预设值，即调整启动的容器副本的数量，提前启动或关闭容器副本。例如，在请求数量增加时，如果容器副本的负载值达到80%，说明请求数量在增加，为保证请求得到及时处理，及时启动更多的容器副本。如果请求数量在减少，容器副本的负载值低于50%，此时就可以关闭部分容器副本，使用少量容器副本即可满足请求数量的要求，优化资源利用，节省成本，减少资源的浪费。因此，通过监测容器副本的负载值是否达到预设阈值，可以及时发现服务负载过高或过低的情况，实现自动化容量调整，提高服务的性能和稳定性，并且，通过监测和调整容器副本数量，可以实现自动化容量调整，减少人工干预，提高服务的运维效率。以上所示预设阈值只是举例说明，并不是对本申请的限制，预设阈值的数值，可以根据实际运行环境进行适当调整。

在一示例性实施例中，调整启动的容器副本的数量包括：

获取已启动的N个容器副本的总负载值，根据总负载值、容量调整参数、容量调整模式，确定容器副本数量的目标值，将启动的容器副本的数量调整为目标值。

为了对启动的容器副本进行精确的缩容或扩容，可以获取已经启动的N个容器副本的总负载值，根据容量调整模式，以及当前请求需求的负载值，确定容器副本数量的目标值，将容器副本的数量调整为该目标值。使启动的容器副本提供给的总负载值和当前请求所需要的负载值匹配。如果该目标值大于等于容量调整参数中最大容器副本数量，则以最大容器副本数量为目标值。

在一示例性实施例中，步骤S11中，接收AI模型，并创建包含AI模型及对应的运行环境的容器镜像文件包括：

通过API网关接收AI模型，API网关与各个节点连接；

获取AI模型的文件格式，根据文件格式，调用对应的运行环境，创建包含AI模型及对应的运行环境的容器镜像文件。

服务平台通过API网关接收模型研究人员上传的AI模型，API网关作为统一接口，可以供模型研究人员统一调用。

API网关与各个节点连接，服务平台可以通过API网关与各个节点通信，向各个节点容器创建指令和相关数据，同时收集各个节点上报的容器副本的运行情况，以及各个容器副本的载荷情况，实现对容器副本的实时管理以及自动化的部署流程，从而提高部署效率。根据所述文件格式，调用对应的运行环境，创建容器镜像文件，可以更快速、更简便地部署AI模型。另一方面，模型研究人员可以通过就近节点连接API网关，向服务平台上传AI模型及配置信息，能够实现更高的并发处理能力，提高上传速度及上传成功率，容器化技术可以实现快速、动态的容器启动和停止，从而实现更灵活的扩展能力，而且，通过API网关接收AI模型，还可以实现对请求的访问控制和认证，从而增强安全性。

在一示例性实施例中，AI即服务的实现方法还包括：生成容器文本文件，容器文本文件包括容器镜像下载地址；根据最大容器副本数量，在集群中的一个或多个节点内创建对应数量的容器副本包括：

通过API网关分发容器文本文件，到一个或多个节点，并指示该一个或多个节点基于容器文本文件，下载容器镜像文件，并在本节点中创建指定数量的容器副本。通过API网关进行容器文本文件分发，可以更好地保护应用程序免受潜在的网络攻击和恶意行为的威胁，而且，容器镜像是根据容器文本文件下载的，这意味着与该API网关连接的所有节点都可以从相同的镜像版本中创建容器副本，从而保持应用程序的一致性和可靠性。

具体向哪些节点发送容器文本文件，可以根据实际情况确定。如果服务对象（用户）是确定的，来自确定的某个区域，可以根据最大容器副本数量选择该区域最近的一个或多个节点，在最近的一个或多个节点中创建容器副本；如果服务对象是不确定的，可能来自不同区域，则选择尽可能多的节点，在这些节点中创建容器副本，以便就近为用户提供服务。

当节点确定后，服务平台通过API网关向确定的节点发送容器文本文件，指示确定的节点根据容器文本文件，下载容器镜像文件，并根据指示在本节点中创建指定数量的容器副本。服务平台不向确定的节点推送整个容器镜像文件，而是由节点根据容器文本文件，下载容器镜像文件，容器镜像文件可以部署在指定的服务器中，可以有效减少服务平台的负载量。

在一示例性实施例中，容量调整参数还包括最小容器副本数量，当启动了第一容器副本数量为N时，在N个容器副本中，N大于等于最小容器副本数量，小于等于最大容器副本数量。

AI模型研究人员除了在容量调整参数中指定最大容器副本数量，还可以指定最小容器副本数量。在服务平台接收到AI模型的调用请求后，可以在集群中启动不少于最小容器副本数量的容器副本，防止在AI即服务的初期，如果接收到的调用请求的数量比较大，服务平台来不及扩容，影响调用请求的响应，因此通过设置最小容器副本数量，可以确保有足够的副本可以同时响应读取请求，从而提高读取性能，同时，也能够避免某些容器副本不可用或某些节点不可用带来的影响，以提高容器副本的可靠性及分布式系统的可用性。

下面通过具体实施例进行详细说明。

具体实施例

某企业的AI模型研究人员在完成对AI模型的训练后，生成AI模型文件。通过就近的节点连接服务平台的API网关，将AI模型通过API网关上传到服务平台。AI模型研究人员不再关注服务平台具体的运行环境，也不需要像传统的k8s部署方式一样对AI模型的依赖项进行配置。

AI模型研究人员根据企业规模，确定当前AI即服务的最大请求数量为50，每个容器副本可以同时处理5个AI服务请求，确定容量调整参数为10，将容量调整参数以配置信息的形式上传给服务平台。在服务平台工作负载达到AI模型研究人员预计的最大请求数量（当前实施例中为50）前，这是AI模型研究人员所需的全部配置工作。

服务平台接收到AI模型文件后，根据模型文件的格式，选择服务平台预设好的与该模型文件格式对应的运行环境，创建包含AI模型及对应的运行环境的容器镜像文件，将容器镜像文件存储在指定服务器中，并生成容器文本文件。

服务平台选择2个服务器节点，用于提供AI即服务。向两个节点发送容器文本文件，并指示节点1创建6个容器副本、节点2创建4个容器副本。

节点1或节点2接收到容器文本文件后，根据容器文本文件的指示，到指定服务器下载容器镜像文件，并在本节点内创建对应数量的容器副本。

服务平台接收针对AI模型的调用请求，假设初期的调用请求数量为4，服务平台根据预设规则确定出需要同时发送给两个节点，并且需要这两个节点各自启动2个容器副本，服务平台将4个调用请求分别发送给两个节点，向每个节点发送2个调用请求，并指示每个节点启动2个容器副本。

经过一段时间后，针对AI模型的调用请求逐渐增多，假设达到16个，服务平台将16个调用请求均衡发送给两个节点，再由每个节点均衡发送给每个已经启动的容器副本。

服务平台判断调用请求数量呈上升趋势，预计未来时段的调用数量还会进一步增加，服务平台指示两个节点，再分别启动1个容器副本，及时对AI即服务进行扩容。

又经过一段时间后，针对AI模型的调用请求逐渐减少，减少为15个。服务平台判断调用请求数量呈下降趋势，为了节约资源，服务平台将10个调用请求发送给节点1，将5个调用请求发送个节点2，并指示节点1关闭一个容器副本，指示节点2关闭2个容器副本。实现对AI即服务的缩容，达到节省资源开销的效果。

随着企业业务的增长，AI即服务的最大请求数量有可能超过50，此时模型研究人员可以向服务平台申请开通更多容器副本，调整服务容量。

由以上实施例可以看出，采用本申请提供的AI即服务的实现方法，模型研究人员在训练好AI模型后，只需将AI模型文件上传到服务平台，由服务平台完成AI模型的部署，模型研究人员不需要配置AI模型的依赖项，也不需要对运行中的AI模型继续维护，避免了AI模型研究人员花费过多的精力和时间用于AI模型的部署，导致的AI模型推广困难的问题。另外，由服务平台完成对运行中的AI模型的维护工作，根据调用请求的数量，对AI服务进行扩容或缩容，扩展性强，运维成本低。且于由服务平台可以将容器副本部署在不同地区，不同运行商的多种服务器集群中，易于实现服务的迁移。

图2是根据一示例性实施例示出的一种AI即服务的实现装置的框图。参考图2，AI即服务的实现装置包括：AI模型接收模块201，配置信息接收模块202，容器副本创建模块203，容器副本启动模块204。

该AI模型接收模块201被配置为，用于接收AI模型，创建包含所述AI模型及对应的运行环境的容器镜像文件；

该配置信息接收模块202被配置为，用于接收针对所述AI模型的配置信息，所述配置信息包括容量调整参数，所述容量调整参数包括最大容器副本数量；

该容器副本创建模块203被配置为，用于根据所述最大容器副本数量和容器镜像文件，在集群中的一个或多个节点内创建对应数量的容器副本；

该容器副本启动模块204被配置为，用于接收针对所述AI模型的调用请求，根据预设规则确定处理所述AI模型的调用请求的一个或多个目标节点及各个所述目标节点的容器副本开启量，其中，所述预设规则是基于以下一种或多种因素的组合：调用请求数、节点的负载情况、节点的地理位置、网络带宽、节点的处理能力、容器副本的负载情况、负载均衡策略；将调用请求发送至集群一个或多个目标节点，启动为第一容器副本数量的副本，其中第一容器副本数量为N，其中N小于等于所述最大容器副本数量。

在一示例性实施例中，该AI模型接收模块201还被配置为，通过API网关接收AI模型，所述API网关与各个节点连接；

在一示例性实施例中，该AI模型接收模块201还被配置为，生成容器文本文件，所述容器文本文件，包括容器镜像下载地址。

该容器副本创建模块203还被配置为通过API网关分发所述容器文本文件，到所述一个或多个节点，并指示所述一个或多个节点基于所述容器文本文件，下载所述容器镜像文件，并在本节点中创建指定数量的容器副本。

图3是根据一示例性实施例示出的一种用于AI即服务的计算机设备300的框图。例如，计算机设备300可以被提供为一服务器。参照图3，计算机设备300包括处理器301，处理器的个数可以根据需要设置为一个或者多个。计算机设备300还包括存储器302，用于存储可由处理器301的执行的指令，例如应用程序。存储器的个数可以根据需要设置一个或者多个。其存储的应用程序可以为一个或者多个。处理器301被配置为执行指令，以执行上述AI即服务的实现方法。

本领域技术人员应明白，本申请的实施例可提供为方法、装置（设备）、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。计算机存储介质包括在用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质,包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质等。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本申请是参照根据本申请实施例的方法、装置（设备）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请的意图也包含这些改动和变型在内。

Claims

1.一种AI即服务的实现方法，其特征在于，应用于服务平台，所述服务平台设置在服务器集群上，包括：

接收针对所述AI模型的调用请求，根据预设规则确定处理所述AI模型的调用请求的一个或多个目标节点及各个所述目标节点的容器副本开启量，其中，所述预设规则是基于以下一种或多种因素的组合：调用请求数、节点的负载情况、节点的地理位置、网络带宽、节点的处理能力、容器副本的负载情况、负载均衡策略；将所述调用请求发送至所述一个或多个目标节点，指示所述一个或多个目标节点启动一共为第一容器副本数量的副本，其中所述第一容器副本数量为N，N小于等于所述最大容器副本数量；

所述配置信息还包括容量调整模式，所述容量调整模式用于调整容器副本数量，包括以下模式中的一种：

策略梯度模式，基于策略梯度的正反馈值调整第一容器副本数量，所述策略梯度的正反馈值是根据CPU使用率C、GPU使用率G、内存使用率M和外部访问请求情况P求得，策略梯度的正反馈值为Y：Y=(1-α)(W ₁ C+W ₂ G+W ₃ M)+αW ₄ P，其中，α为手动设置的超参数，W ₁、W ₂、W ₃ 、W ₄为权重系数。

2.如权利要求1所述的AI即服务的实现方法，其特征在于，所述接收AI模型，并创建包含所述AI模型及对应的运行环境的容器镜像文件包括：

通过API网关接收AI模型，所述API网关与各个节点连接；

3.如权利要求2所述的AI即服务的实现方法，其特征在于，还包括：生成容器文本文件，所述容器文本文件，包括容器镜像下载地址；所述根据所述最大容器副本数量，在集群中的一个或多个节点内创建对应数量的容器副本包括：

4.如权利要求1所述的AI即服务的实现方法，其特征在于，所述容量调整参数还包括最小容器副本数量，当所述第一容器副本数量为N时，N大于等于所述最小容器副本数量，小于等于所述最大容器副本数量。

5.一种AI即服务的实现装置，其特征在于，应用于服务平台，所述服务平台设置在服务器集群上，包括：

容器副本启动模块，用于接收针对所述AI模型的调用请求，根据预设规则确定处理所述AI模型的调用请求的一个或多个目标节点及各个所述目标节点的容器副本开启量，其中，所述预设规则是基于以下一种或多种因素的组合：调用请求数、节点的负载情况、节点的地理位置、网络带宽、节点的处理能力、容器副本的负载情况、负载均衡策略；将所述调用请求发送至所述一个或多个节点，启动一共为第一容器副本数量的副本，其中第一容器副本数量为N，其中N小于等于所述最大容器副本数量；

6.如权利要求5所述的AI即服务的实现装置，其特征在于，所述AI模型接收模块还用于通过API网关接收AI模型，所述API网关与各个节点连接；

7.如权利要求5所述的AI即服务的实现装置，其特征在于，AI模型接收模块还用于，生成容器文本文件，所述容器文本文件，包括容器镜像下载地址。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1－4中任意一项所述方法的步骤。

9.一种计算机设备，包括处理器、存储器和存储于所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1－4中任意一项所述方法的步骤。