CN116701126A

CN116701126A - pod容量控制方法及装置

Info

Publication number: CN116701126A
Application number: CN202310957231.0A
Authority: CN
Inventors: 张超; 程昊; 张晓�; 杨嘉屹; 李方遒; 苏清博; 张晓慧; 密晓光; 张晴; 张月
Original assignee: CNOOC Gas and Power Group Co Ltd
Current assignee: CNOOC Gas and Power Group Co Ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-09-05
Anticipated expiration: 2043-08-01
Also published as: CN116701126B

Abstract

本说明书提供一种pod容量控制方法及装置，涉及云计算平台技术领域，其中pod容量控制方法包括：监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求，以确定相应的服务请求队列集；针对各个AI模型，确定AI模型的实时TPS、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标；根据实时TPS、TPS标准值和阻塞队列指标，控制扩大或缩减针对AI模型所对应的pod副本数量。由此，保障不同AI模型的容器资源能够被合理调控，满足并行运行的多个AI模型的实时数据处理的性能需求，同时保障各个AI预测服务能够实现较高的服务响应效率。

Description

pod容量控制方法及装置

技术领域

本说明书涉及云计算平台技术领域，尤其涉及一种pod容量控制方法及装置。

背景技术

随着AI（Artificial Intelligence, 人工智能）技术的不断发展，各行各业正在相继结合AI技术，利用AI技术提升产品竞争力，为企业创造更大的价值。

AI模型是AI技术落地的核心组成部分，其能够为不同的实际推理预测业务赋能，例如人脸识别、指纹识别和文本识别等等，而AI模型推理预测服务（Inference Service）是将AI模型应用到实际业务的最后环节，通过将多个AI模型封装成一个在线或离线的Service，使用者通过API或SDK调用的方式获取模型的能力，使得AI模型的价值得以充分利用。

随着云计算平台技术的不断更新，众多厂商选择通过在云计算平台上部署多个AI模型以支持多样化的推理预测业务。基于K8s（Kubernetes）的管理系统较广泛地应用于各类云计算平台，以高效运行、配置及管理云计算平台中的容器化应用程序，即Kubernetes使用一个pod（容器组）来相应管理一个容器化应用，pod也是K8s编排的最小粒度。目前，K8s管理系统依据pod内CPU或内存的使用量，对相应被管理的容器化应用的副本数进行调整，例如自动增加或减少容器化应用的副本数。

然而，针对AI模型推理预测服务，影响其服务性能的关键指标是服务访问请求的并发数量、AI服务的差异化类型等其他因素，例如图像识别服务一般相比于文本识别服务需求更多的处理资源，而目前以pod的CPU和内存作为扩缩容指标的K8s管理系统，已难以满足AI服务预测平台均衡管理多样化AI模型的容器资源的需求，也无法保障AI服务预测平台的各项AI模型推理预测服务的服务性能。

针对上述难题，目前业界暂未提出较佳的技术解决方案。

发明内容

本说明书提供一种pod容量控制方法及装置，用以克服现有技术中的AI服务预测平台无法较佳地平衡多个AI预测服务的高服务性能需求与有限的容器资源之间的缺陷。

本说明书提供一种pod容量控制方法，所述方法包括：监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求，以确定相应的服务请求队列集；其中，每一所述AI模型分别配置有相应的服务请求队列；针对各个所述AI模型，确定所述AI模型的实时TPS（Transactions Per Second, 每秒处理的事务数）、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标；所述实时TPS为所述AI模型当前实际承载的每秒处理事务数，以及所述单副本TPS为所述AI模型所对应的单个pod副本所能够最大承载的每秒处理事务数；从所述各个AI模型中，确定待扩容AI模型和/或待缩容AI模型；其中，所述待扩容AI模型定义了等待进行pod扩容的AI模型，所述待缩容AI模型定义了等待进行pod缩容的AI模型；所述待扩容AI模型的实时TPS超过相应的TPS标准值，或者对应的阻塞队列指标指示存在队列阻塞；所述待缩容AI模型的实时TPS未超过相应的TPS标准值，且对应的阻塞队列指标指示不存在队列阻塞；根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量，和/或，根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量。

本说明书还提供一种pod容量控制装置，所述装置包括：队列确定单元，被配置成监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求，以确定相应的服务请求队列集；其中，每一所述AI模型分别配置有相应的服务请求队列；参数确定单元，被配置成针对各个所述AI模型，确定所述AI模型的实时TPS、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标；所述实时TPS为所述AI模型当前实际承载的每秒处理事务数，以及所述单副本TPS为所述AI模型所对应的单个pod副本所能够最大承载的每秒处理事务数；扩缩容模型确定单元，被配置成从所述各个AI模型中，确定待扩容AI模型和/或待缩容AI模型；其中，所述待扩容AI模型定义了等待进行pod扩容的AI模型，所述待缩容AI模型定义了等待进行pod缩容的AI模型；所述待扩容AI模型的实时TPS超过相应的TPS标准值，或者对应的阻塞队列指标指示存在队列阻塞；所述待缩容AI模型的实时TPS未超过相应的TPS标准值，且对应的阻塞队列指标指示不存在队列阻塞；扩缩容操作单元，被配置成根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量，和/或，根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量。

本说明书提供的pod容量控制方法及装置，AI服务预测平台通过监测访问各个AI模型的预测服务请求，分类成针对各个AI模型的服务请求队列，综合分析各个AI模型的服务请求队列的阻塞情况和实时TPS，以对各个AI模型的pod容量进行动态缩扩容操作。由此，保障不同AI模型的容器资源能够被合理调控，满足并行运行的多个AI模型的实时数据处理的性能需求，同时保障各个AI预测服务能够实现较高的服务响应效率，优化了AI服务预测平台所提供的并行的多样化预测服务的服务质量。

附图说明

为了更清楚地说明本说明书或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了适于应用本说明书实施例的pod容量控制方法的环境的一示例的架构示意图；

图2示出了根据本说明书实施例的一种pod容量控制方法的一示例的流程图；

图3示出了根据适于应用本说明书实施例的pod容量控制方法的AI服务预测平台的一示例的架构示意图；

图4示出了根据本说明书实施例的各个AI模型和相应服务请求队列的配置示意图；

图5示出了根据本说明书实施例的AI模型设置页面的一示例的界面示意图；

图6示出了根据图2中的步骤S240的一示例的操作流程图；

图7示出了根据图6中的步骤S620的一示例的操作流程图；

图8示出了根据图7中的步骤S743的一示例的操作流程图；

图9示出了根据图6中的步骤S620的另一示例的操作流程图；

图10示出了根据本说明书实施例的AI预测服务的伸缩状态监控页面的一示例的界面示意图；

图11示出了根据本说明书实施例的人脸识别服务的伸缩详情页面的一示例的界面示意图；

图12示出了根据本说明书实施例的pod容量控制装置的一示例的结构框图；

图13是本说明书提供的电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书中的附图，对本说明书中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

首先，针对本说明书实施例涉及的业务应用场景进行描述，本说明书实施例提供的pod容量控制方法可应用于云计算平台的软硬件产品中，例如云计算服务器集群，尤其是用于支持AI预测服务的云计算平台（下文中简称为AI服务预测平台）、AI服务前端管理应用程序或其他产品。

其中，AI服务预测平台可以通过运行多个AI模型以分别支持相应的AI预测服务，AI预测服务的业务类型可以是多样化的，例如，人脸识别服务、语音识别服务、指纹识别服务和文本识别服务，等等。此外，AI服务预测平台的管理用户可以通过云计算平台管理应用软件产品，对各个AI模型或预测服务的配置进行调整，例如向特定的AI模型补充样本数据等等。目前，AI服务预测平台的容器资源管理功能单一，虽然能够基于K8s管理系统完成pod扩缩容操作，但其使用CPU指标和内存指标作为关键的扩缩容指标，无法满足针对不同AI模型的容器资源进行动态均衡的需求。

基于此，本说明书实施例提供了一种pod容量控制方法，通过监测各个AI模型的服务请求队列的阻塞情况和实时TPS，并据此对各个AI模型所对应的pod资源容量进行动态缩扩容操作，实现了对AI服务预测平台中不同AI模型的容器资源的合理调控，满足各个AI模型的实时服务处理的性能需求，同时AI模型预测服务也能够达到较高的服务响应效率，优化了AI服务预测平台所支持的各个AI预测服务的质量。

图1示出了适于应用本说明书实施例的pod容量控制方法的环境的一示例的架构示意图。

如图1所示，该实施环境包括客户端101和平台服务端102。

其中，客户端101可以为车载设备、智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种。

在一些实施例中，客户端101具有通信功能，能够接入有线网络或无线网络。客户端101可以泛指多个设备中的一个，本说明书实施例仅以客户端101来举例说明。本领域技术人员可以知晓，上述客户端的数量可以更多或更少。

在一些实施例中，客户端101上运行有云计算平台管理应用软件产品，以向管理用户提供针对AI服务预测平台中的各个AI模型进行管理或设置的应用服务。示例地，客户端101可以采集管理用户的AI模型部署数据和相应的服务配置数据，并可以通过网络向平台服务端102发送平台管理请求，以请求平台服务端102来提供诸如部署AI模型和调整AI服务配置之类的平台管理服务。

在一些实施例中，平台服务端102用于对一个或多个AI模型进行管理和维护，除了能够向客户端101提供对一个或多个AI模型的相关管理服务的基础上，还能够给实现其他的附加操作，例如各类AI预测服务的应用用户通过发送预测服务请求至平台服务端102，使得平台服务端102调用与该预测服务请求相匹配的AI模型，以向应用用户提供相应类型的AI预测服务，能够满足多样化AI预测业务的并行服务需求。

下面基于图1所示实施环境，对本说明书实施例提供的方法进行介绍。

图2示出了根据本说明书实施例的一种pod容量控制方法的一示例的流程图，该pod容量控制方法由服务端执行，例如图1中的平台服务端102。图3示出了根据适于应用本说明书实施例的pod容量控制方法的AI服务预测平台的一示例的架构示意图。如图3所示，AI服务预测平台用于支持多样化AI预测服务，包含AI模型推理预测服务31、32...3n，每一AI模型推理预测服务分别是由相应的AI模型来完成预测的，即相应的AI模型301、302...30n，以及每一AI模型和相应的AI模型推理预测服务分别是由相应的pod来提供容器环境的，即相应的pod 3001、3002...300n。示例性地，通过人脸识别AI模型支持人脸识别AI服务，通过语音识别AI模型支持语音识别AI服务，各个AI模型分别是由相应的pod来提供支持。此外，通过增大或缩减pod中的副本数量，以相应实现对pod的扩缩容操作。在一些实施方式中，副本调度池311用于维护管理至少一个pod副本，并能够向各个pod增添pod副本，以实现扩容操作，另外，在各个pod进行缩容操作时，副本调度池311还可以接收从各个pod所释放的pod副本。

进一步地，结合如图2所示的操作流程，在步骤210中，监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求，以确定相应的服务请求队列集。

这里，每一AI模型分别配置有相应的服务请求队列。如图4所示，针对语音识别模型410、人脸识别模型420和文本识别模型430分别配置有相应的服务请求队列，即441、443和445。应理解的是，由于AI服务预测平台中各个预测服务的服务热度的不同，导致各个服务请求队列的长度也是多样化的，因此将访问AI服务预测平台的预测服务请求根据预测服务类型（例如，语音识别或人脸识别等）归类至相应的服务请求队列，例如服务请求队列441、443和445的长度互异。

在一些实施方式中，AI服务预测平台中设置有拦截器和监视器，通过拦截器获取系统内提交的HTTP请求，并向监视器报告待处理的HTTP请求队列指标，同时将请求转发给目标预测服务（Service），如果目标预测服务所对应的用于支持服务的pod副本数量不足，则拦截器将保留请求直到应用程序将副本数进行扩展。通过监视器，持续与拦截器通信以获取服务实时TPS和阻塞的HTTP队列指标。

在步骤220中，针对各个AI模型，确定AI模型的实时TPS、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标，实时TPS为AI模型当前实际承载的每秒处理事务数，以及单副本TPS为AI模型所对应的单个pod副本所能够最大承载的每秒处理事务数。

具体地，在AI服务预测平台中设置有SHPA（Super Horizontal Pod Autoscaling,超级pod水平自动伸缩），在原生K8s的HPA（Horizontal Pod Autoscaling, pod水平自动伸缩）基础上，支持以服务承载的实时TPS作为pod副本数缩放指标。在一些实施方式中，通过设定的观察窗口，周期性地监测采集并更新相应的服务请求队列集，例如30秒、5分钟或30分钟等等。

需说明的是，由于不同预测业务的服务请求所需求的处理计算量的差异，导致面向不同预测服务的AI模型所对应的TPS标准值（或，目标TPS，表示用于触发扩容操作或缩容操作的TPS值或TPS区间）和单副本TPS是存在差异的，例如人脸识别模型420所对应的TPS标准值和单副本TPS应分别小于文本识别模型430所对应的TPS标准值和单副本TPS。因此，针对各个AI模型预设相应的TPS标准值和单副本TPS，能够较佳地完成针对不同AI模型的差异化配置。

此外，阻塞队列指标可以表示针对服务请求队列的阻塞评价结果，例如“存在队列阻塞”或“不存在队列阻塞”，并可以通过各类用于对服务请求队列的阻塞情况进行评价的指标而确定，例如响应延时等。

在步骤S230中，从各个AI模型中，确定待扩容AI模型和/或待缩容AI模型，待扩容AI模型定义了等待进行pod扩容的AI模型，待缩容AI模型定义了等待进行pod缩容的AI模型。

在步骤S240中，根据待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大待扩容AI模型所对应的pod副本数量，和/或，根据待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减待缩容AI模型所对应的pod副本数量。

示例性地，在进行扩缩容操作时，分析实时TPS与TPS标准值之间的差距，并利用相应的单副本TPS计算得到所需要为待扩容AI模型扩充的pod副本数量，例如差距越大相应的待扩大的pod副本数量也就越大。

一方面，待扩容AI模型的实时TPS超过相应的TPS标准值，或者对应的阻塞队列指标指示存在队列阻塞。示例性地，在待扩容AI模型所对应的预测服务的访问热度较高时，可能会导致待扩容AI模型的实时TPS超标或者队列阻塞的情况，此时需要针对待扩容AI模型进行pod扩容操作，以令实时TPS低于TPS标准值或者解除队列阻塞，保障相应AI预测服务的运行稳定性。

另一方面，待缩容AI模型的实时TPS未超过相应的TPS标准值，且对应的阻塞队列指标指示不存在队列阻塞。示例性地，在待缩容AI模型所对应的预测服务的热度偏低时，待缩容AI模型的实时TPS未达标且队列无阻塞的情况，此时可以对待缩容AI模型进行pod缩容操作，以释放多余的pod副本数量，在保障相应预测服务的运行稳定性的同时实现资源收缩，并为向其他具有高热度的预测服务的资源调度提供了基础。

在一些实施方式中，在确定待缩容AI模型的实时TPS为零，且阻塞队列指标指示待缩容AI模型相应的服务请求队列超过预设时间段未新增服务请求的情况下，清空待缩容AI模型所对应的pod副本数量。

在本说明书实施例中，在确定待缩容AI模型的实时TPS未达标，且相应的请求队列未阻塞的情况下，如果继续检测到待缩容AI模型的实时TPS为0，且相应的请求队列较长时间没有新增服务请求的情况下，清空待缩容AI模型所对应的容器资源。由此，当服务长时间没有被调用时，可以自动将副本数调整为0，实现了动态零缩放目标，构建了AI预测服务的事件触发机制，将占用的硬件资源按需实时分配，极大地降低了硬件成本和预测服务的运维效率。

通过本说明书实施例，结合AI模型推理预测服务的特性，依托云原生K8s技术，设计出一套能够根据模型推理预测服务承载的压力，实时自动调整服务所占用资源的系统，自动感知各个预测服务当前承载的HTTP请求的TPS，以此为指标，确定是否需要对相应Pod副本数进行扩容或缩容。由此，针对各个AI模型的实时TPS和阻塞队列指标分别进行独立分析，并对存在队列阻塞或实时TPS超标的AI模型进行pod扩容操作，对不存在队列阻塞且实时TPS超标未超标的AI模型进行pod缩容操作，实现对AI服务预测平台中各个AI预测服务的动态扩缩容管理。

需说明的是，AI服务预测平台还可以同时采用除TPS和阻塞队列指标之外的其他类型的监控项指标，例如“CPU平均使用率”、“加速卡算力平均使用率”等等，由此实现指标更全面的pod扩缩容操作。

关于上述步骤S220中针对TPS标准值和单副本TPS的预设置方式，在本说明书实施例的一些示例中，TPS标准值和单副本TPS是通过以下操作而预设置的：获取用户设置指令，用户设置指令包括模型标识信息、单副本TPS设置信息和TPS标准设置信息。根据单副本TPS设置信息和TPS标准设置信息，分别确定与模型标识信息对应的AI模型的单副本TPS和TPS标准值。参照如图5所示的AI模型设置页面500，管理用户可以通过选项“AI预测服务名称”、“目标TPS”、“单副本TPS”输入信息，实现针对不同模型的个性化设置相应的TPS标准值和单副本TPS，以完成针对不同AI模型的差异化配置。

图6示出了根据图2中的步骤S240的一示例的操作流程图。

如图6所示，在步骤S610中，获取历史扩缩容记录，历史扩缩容记录包括至少一个历史扩缩容操作和相应的历史操作时间，历史扩缩容操作包括历史扩容操作和历史缩容操作。

示例性地，通过查询AI服务预测平台的操作日志，以采集相应的历史扩缩容记录，历史扩缩容操作包含针对AI服务预测平台中发生扩容操作或缩容操作的AI模型的操作记录。

在步骤S620中，计算各个历史操作时间与当前时间之间的时间间隔。

在步骤S630中，在确定各个时间间隔中的最小值大于预设的冷却时间的情况下，根据待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大待扩容AI模型所对应的pod副本数量，和/或，根据待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减待缩容AI模型所对应的pod副本数量。

在一些实施方式中，待扩容AI模型或待缩容AI模型所对应的冷却时间可以是通过管理用户在如图5所示的AI模型设置页面中针对选项“冷却时间”的输入信息而预设的。需说明的是，在冷却时间锁对应的时间间隔内将不再触发扩容操作或缩容操作。

此外，在确定当前时间相对于各个历史操作时间的时间间隔中的最小值小于冷却时间的情况下，可以等待再冷却时间届满时再进行扩容操作。由此，通过冷却时间的设置，将当前时间与历史扩缩容的操作时间进行比较，如果与最近一次扩缩容的操作时间之间的时间间隔大于冷却时间，才响应执行本次的扩容操作，否则继续等待冷却时间，实现在等待伸缩动作完成后在系统稳定且集群正常的情况下才进行下一次的扩缩容，保障了平台的系统扩缩容操作的可靠性。

图7示出了根据图6中的步骤S620的一示例的操作流程图。

如图7所示，在步骤S710中，根据待扩容AI模型的实时TPS、TPS标准值和单副本TPS，确定待扩容AI模型所对应的待扩充的需求pod副本数量。

具体地，计算实时TPS与TPS标准值之间的TPS差值，通过TPS差值和单副本TPS得到待扩充的需求pod副本数量。

在步骤S721中，在确定预设的副本调度池中的pod副本的数量大于或等于需求pod副本数量的情况下，根据副本调度池中的pod副本控制扩大待扩容AI模型所对应的pod副本数量。这里，副本调度池用于供调度以向各个AI模型所对应的pod扩充相应的pod副本，以及收集从各个AI模型所对应的pod中已缩减的pod副本。

在本说明书实施例中，针对AI服务预测平台设置供进行pod副本资源调度的副本调度池，在需要针对待扩容AI模型进行扩容操作时，首先判断副本调度池中的pod样本数量是否能够满足待扩容AI模型正常完成实时TPS所需要的数量，如果能够满足，则直接利用副本调度池中的副本补充待扩容AI模型所对应的pod副本。由此，通过预设的副本调度池中的pod副本，实现对各个AI模型的容器资源的扩缩管理。这里，副本调度池可以向所有AI模型或特定的一个或多个AI模型提供扩缩容功能，在此暂不作限制。

在步骤S723中，在确定预设的副本调度池中的pod副本的数量小于需求pod副本数量的情况下，根据待缩容AI模型的实时TPS、单副本TPS和TPS标准值，确定待缩容AI模型所对应的待缩减的pod副本的数量。

在步骤S730中，将待缩减的pod副本的数量与副本调度池中pod副本的数量进行求和，以确定相应的pod副本数量求和值。

在步骤S741中，在确定pod副本数量求和值大于或等于需求pod副本数量的情况下，根据副本调度池中的pod副本以及待缩减的pod副本，控制扩大待扩容AI模型所对应的pod副本数量。

由此，在副本调度池中的pod副本数量不足以满足待扩容AI模型的扩容需求时，综合待缩容的待缩容AI模型中待缩减副本的数量判断是否能满足条件，如果能满足条件，则利用副本调度池和待缩容AI模型中的副本来对待扩容AI模型进行扩容，能有效解决平台容器资源紧缺的情况。此外，无需将待缩容AI模型中的副本放入调度池后再分配给待扩容AI模型，提高了pod副本的调度效率，实现了高效的pod容量控制过程。

在步骤S743中，在确定pod副本数量求和值小于需求pod副本数量的情况下，对比待扩容AI模型与无扩缩容AI模型的服务优先级，在确定待扩容AI模型的服务优先级高于无扩缩容AI模型的服务优先级的情况下，基于无扩缩容AI模型所对应的pod副本，控制扩大待扩容AI模型所对应的pod副本数量。这里，无扩缩容AI模型定义了无需对相应pod进行扩容或缩容的AI模型，且无扩缩容AI模型为AI模型集中除待扩容AI模型和待缩容AI模型之外的其他AI模型。

在本说明书实施例的一个示例中，副本调度池收集从无扩缩容AI模型所对应的pod中收集的pod副本，增大副本调度池中pod副本的数量，进而向待扩容AI模型进行扩容。在本说明书实施例的另一示例中，副本调度池利用已有的各个pod副本向待扩容AI模型进行扩容的同时，利用无扩缩容AI模型中的pod副本直接向待扩容AI模型进行扩容，以优先保障对应高服务优先级的AI模型的容器资源。

在一些实施方式中，各个AI模型所对应的服务优先级可以是通过管理用户在如图5所示的AI模型设置页面中针对选项“服务优先级”的输入信息而预设的，使得服务优先级越高的服务请求能够更优先得到响应。

由此，在利用副本调度池中的pod副本数量和待缩容AI模型中待缩减副本的数量仍无法满足条件时，识别AI模型集中是否存在无pod扩缩容需求且服务优先级低于待扩容AI模型的无扩缩容AI模型，当存在时，利用无扩缩容AI模型的pod副本数量继续为待扩容AI模型进行样本补充，保障高优先级的待扩容AI模型的预测服务的正常运行，满足对AI服务预测平台中不同预测服务进行分级流量管控的需求。

图8示出了根据图7中的步骤S743的一示例的操作流程图。

如图8所示，在步骤S810中，检测针对无扩缩容AI模型存在预设的最低需求TPS。

具体地，针对当前无扩缩容需求的无扩缩容AI模型，在准备利用无扩缩容AI模型所对应的pod副本为待扩容AI模型进行扩容时，采集针对无扩缩容AI模型的模型设置信息。

在步骤S820中，在确定针对无扩缩容AI模型存在预设的最低需求TPS的情况下，根据无扩缩容AI模型的最低需求TPS和单副本TPS，确定无扩缩容AI模型所对应的最小pod副本数量。

在一些实施方式中，各个AI模型所对应的最低需求TPS可以是通过管理用户在如图5所示的AI模型设置页面中针对选项“最低需求TPS”的输入信息而预设的，最低需求TPS应低于目标TPS，使得进行平台扩缩容操作中AI模型能够具有最低保障的容器资源。

在步骤S830中，根据最小pod副本数量，确定无扩缩容AI模型所对应的供缩减的pod副本。

在步骤S840中，根据无扩缩容AI模型所对应的供缩减的pod副本，扩大待扩容AI模型所对应的pod副本数量。

通过本说明书实施例，在利用无扩缩容AI模型中的样本向待扩容AI模型进行扩容时，如果识别到针对无扩缩容AI模型设置最低需求TPS，则应保留无扩缩容AI模型所对应的最低pod副本量，并可以利用其剩余的供缩减的副本向待扩容AI模型进行扩容，保障低优先级的无扩缩容AI模型也能在一定程度上提供稳定的预测服务。

图9示出了根据图6中的步骤S620的另一示例的操作流程图。

如图9所示，在步骤S910中，根据待扩容AI模型的实时TPS、TPS标准值和单副本TPS，确定待扩容AI模型所对应的待扩充的需求pod副本数量。

在步骤S921中，在确定预设的副本调度池中的pod副本的数量大于或等于需求pod副本数量的情况下，根据副本调度池中的pod副本控制扩大待扩容AI模型所对应的pod副本数量。

在步骤S923中，在确定预设的副本调度池中的pod副本的数量小于需求pod副本数量的情况下，根据待缩容AI模型的实时TPS、单副本TPS和TPS标准值，确定待缩容AI模型所对应的待缩减的pod副本的数量。

在步骤S930中，将待缩减的pod副本的数量与副本调度池中pod副本的数量进行求和，以确定相应的pod副本数量求和值。

在步骤S940中，在确定pod副本数量求和值小于需求pod副本数量的情况下，针对各个AI模型所对应的服务请求队列，解析服务请求队列中各个服务请求的用户等级信息，并将用户等级信息低于预设的用户等级阈值的服务请求进行滤除。

具体地，用户等级信息可以是普通用户等级、会员用户等级或尊贵用户等级，等等。示例性地，将各个服务请求队列中对应普通用户等级的服务请求进行滤除，以在平台容器资源紧缺时，优先保障具有更高用户等级信息的服务请求能够得到响应。

在步骤S950中，更新各个AI模型的实时TPS和相应服务请求队列的阻塞队列指标。

应理解的是，将对应用户等级信息较低的服务请求进行滤除，能有效降低实时TPS，并相应地改善阻塞队列指标。

在步骤S960中，基于更新后的实时TPS和阻塞队列指标，执行针对各个AI模型的pod容量控制操作。

在本说明书实施例的一个示例中，在将对应待扩容AI模型的服务请求队列中对应用户等级信息较低的服务请求滤除之后，针对待扩容AI模型的更新后的实时TPS和阻塞队列指标指示不再需要进行扩容操作。在本说明书实施例的另一示例中，在AI模型更新后的实时TPS低于相应的TPS标准值，且更新后的阻塞队列指标为不存在队列阻塞的情况下，可以对该AI模型进行缩容操作，以释放更多的pod副本至副本调度池，以向待扩容AI模型提供更多供调度的pod副本。

通过本说明书实施例，在确定副本调度池中的pod副本数量不足以满足待扩容AI模型的扩容需求时，对各个AI模型的服务请求队列中服务请求的用户等级信息进行解析，滤除低用户等级的服务请求，由此在容器资源短缺的情况下，优先保障高用户等级的服务请求能够得到有效响应处理。

在本说明书实施例中，提供了AI服务预测平台针对不同AI模型的资源伸缩策略，基于对各个AI模型的实时TPS和阻塞队列指标的监控，实现对多容器组的资源动态伸缩管理。在一些实施方式中，针对各个AI模型，可以分别配置关于的资源伸缩策略的开关选项，并以控制是否启用相应AI模型的资源伸缩策略。

参照如图10所示的AI预测服务的伸缩状态监控页面1000，其记录了各个预测服务的任务名称、服务描述信息、任务状态和任务创建时间，管理用户能够通过此页面直观地找到各个AI预测服务对资源伸缩策略的启停状态，此外管理用户还可以通过对选项“启动”或“停止”进行操作，以实现对特定AI模型的资源伸缩策略的停用或启动。此外，管理用户还可以对各个预测服务的历史扩缩容操作进行查询，例如管理用户点击与“人脸识别服务”所对应的选项“详情”。参照如图11所示人脸识别服务的伸缩详情页面1100，其显示了人脸识别服务的历史扩缩容记录。具体地，针对人脸识别服务的伸缩策略的监控项是实时TPS，当监控项的实际值大于目标值2时会触发扩容操作。

通过本说明书实施例，根据模型预测服务承载的压力，实时自动调整服务所占用资源的系统，可以较佳地感知推理预测服务承载压力从而自动调整硬件资源，具有较佳的灵活性，能有效缓解AI模型推理服务在推理过程中常常出现的容器资源紧张的情况。

下面对本说明书提供的pod容量控制装置进行描述，下文描述的pod容量控制装置与上文描述的pod容量控制方法可相互对应参照。

图12示出了根据本说明书实施例的pod容量控制装置的一示例的结构框图。

如图12所示，pod容量控制装置1200包括队列确定单元1210、参数确定单元1220、扩缩容模型确定单元1230和扩缩容操作单元1240。

队列确定单元1210被配置成监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求，以确定相应的服务请求队列集；其中，每一所述AI模型分别配置有相应的服务请求队列。

参数确定单元1220被配置成针对各个所述AI模型，确定所述AI模型的实时TPS、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标；所述实时TPS为所述AI模型当前实际承载的每秒处理事务数，以及所述单副本TPS为所述AI模型所对应的单个pod副本所能够最大承载的每秒处理事务数。

扩缩容模型确定单元1230，被配置成从所述各个AI模型中，确定待扩容AI模型和/或待缩容AI模型；其中，所述待扩容AI模型定义了等待进行pod扩容的AI模型，所述待缩容AI模型定义了等待进行pod缩容的AI模型；所述待扩容AI模型的实时TPS超过相应的TPS标准值，或者对应的阻塞队列指标指示存在队列阻塞；所述待缩容AI模型的实时TPS未超过相应的TPS标准值，且对应的阻塞队列指标指示不存在队列阻塞。

扩缩容操作单元1240，被配置成根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量，和/或，根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量。

图13示例了一种电子设备的实体结构示意图，如图13所示，该电子设备可以包括：处理器(processor)1310、通信接口(Communications Interface)1320、存储器(memory)1330和通信总线1340，其中，处理器1310，通信接口1320，存储器1330通过通信总线1340完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令，以执行pod容量控制方法，该方法包括：监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求，以确定相应的服务请求队列集；其中，每一所述AI模型分别配置有相应的服务请求队列；针对各个所述AI模型，确定所述AI模型的实时TPS、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标；所述实时TPS为所述AI模型当前实际承载的每秒处理事务数，以及所述单副本TPS为所述AI模型所对应的单个pod副本所能够最大承载的每秒处理事务数；从所述各个AI模型中，确定待扩容AI模型和/或待缩容AI模型；其中，所述待扩容AI模型定义了等待进行pod扩容的AI模型，所述待缩容AI模型定义了等待进行pod缩容的AI模型；所述待扩容AI模型的实时TPS超过相应的TPS标准值，或者对应的阻塞队列指标指示存在队列阻塞；所述待缩容AI模型的实时TPS未超过相应的TPS标准值，且对应的阻塞队列指标指示不存在队列阻塞；根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量，和/或，根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量。

此外，上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本说明书各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本说明书还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的pod容量控制方法，该方法包括：监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求，以确定相应的服务请求队列集；其中，每一所述AI模型分别配置有相应的服务请求队列；针对各个所述AI模型，确定所述AI模型的实时TPS、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标；所述实时TPS为所述AI模型当前实际承载的每秒处理事务数，以及所述单副本TPS为所述AI模型所对应的单个pod副本所能够最大承载的每秒处理事务数；从所述各个AI模型中，确定待扩容AI模型和/或待缩容AI模型；其中，所述待扩容AI模型定义了等待进行pod扩容的AI模型，所述待缩容AI模型定义了等待进行pod缩容的AI模型；所述待扩容AI模型的实时TPS超过相应的TPS标准值，或者对应的阻塞队列指标指示存在队列阻塞；所述待缩容AI模型的实时TPS未超过相应的TPS标准值，且对应的阻塞队列指标指示不存在队列阻塞；根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量，和/或，根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本说明书的技术方案，而非对其限制；尽管参照前述实施例对本说明书进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本说明书各实施例技术方案的精神和范围。

Claims

1.一种pod容量控制方法，其特征在于，所述方法包括：

监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求，以确定相应的服务请求队列集；其中，每一所述AI模型分别配置有相应的服务请求队列；

针对各个所述AI模型，确定所述AI模型的实时TPS、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标；所述实时TPS为所述AI模型当前实际承载的每秒处理事务数，以及所述单副本TPS为所述AI模型所对应的单个pod副本所能够最大承载的每秒处理事务数；

从各个所述AI模型中，确定待扩容AI模型和/或待缩容AI模型；其中，所述待扩容AI模型定义了等待进行pod扩容的AI模型，所述待缩容AI模型定义了等待进行pod缩容的AI模型；所述待扩容AI模型的实时TPS超过相应的TPS标准值，或者对应的阻塞队列指标指示存在队列阻塞；所述待缩容AI模型的实时TPS未超过相应的TPS标准值，且对应的阻塞队列指标指示不存在队列阻塞；

根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量，和/或，根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量。

2.根据权利要求1所述的pod容量控制方法，其特征在于，所述TPS标准值和所述单副本TPS是通过以下操作而预设置的：

获取用户设置指令，所述用户设置指令包括模型标识信息、单副本TPS设置信息和TPS标准设置信息；

根据所述单副本TPS设置信息和所述TPS标准设置信息，分别确定与所述模型标识信息对应的AI模型的单副本TPS和TPS标准值。

3.根据权利要求1所述pod容量控制方法，其特征在于，根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量，包括：

在确定所述待缩容AI模型的实时TPS为零，且阻塞队列指标指示所述待缩容AI模型相应的服务请求队列超过预设时间段未新增服务请求的情况下，清空所述待缩容AI模型所对应的pod副本数量。

4.根据权利要求1所述pod容量控制方法，其特征在于，所述根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量，和/或，根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量，包括：

获取历史扩缩容记录；所述历史扩缩容记录包括至少一个历史扩缩容操作和相应的历史操作时间，所述历史扩缩容操作包括历史扩容操作和历史缩容操作；

计算各个所述历史操作时间与当前时间之间的时间间隔；

在确定各个所述时间间隔中的最小值大于预设的冷却时间的情况下，根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量，和/或，根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量。

5.根据权利要求1所述pod容量控制方法，其特征在于，所述根据所述待扩容AI模型的实时TPS、所述TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量，包括：

根据所述待扩容AI模型的实时TPS、所述TPS标准值和单副本TPS，确定所述待扩容AI模型所对应的待扩充的需求pod副本数量；

在确定预设的副本调度池中的pod副本的数量大于或等于所述需求pod副本数量的情况下，根据所述副本调度池中的pod副本控制扩大所述待扩容AI模型所对应的pod副本数量；所述副本调度池用于供调度以向所述各个AI模型扩充相应的pod副本，以及收集从所述各个AI模型所对应的已缩减的pod副本。

6.根据权利要求5所述pod容量控制方法，其特征在于，在确定副本调度池中的pod副本的数量小于所述需求pod副本数量的情况下，所述方法还包括：

根据所述待缩容AI模型的实时TPS、单副本TPS和TPS标准值，确定所述待缩容AI模型所对应的待缩减的pod副本的数量；

将所述待缩减的pod副本的数量与所述副本调度池中pod副本的数量进行求和，以确定相应的pod副本数量求和值；

在确定所述pod副本数量求和值大于或等于所述需求pod副本数量的情况下，根据所述副本调度池中的pod副本以及所述待缩减的pod副本，控制扩大所述待扩容AI模型所对应的pod副本数量。

7.根据权利要求6所述pod容量控制方法，其特征在于，在确定所述pod副本数量求和值小于所述需求pod副本数量的情况下，所述方法还包括：

在确定所述待扩容AI模型的服务优先级高于无扩缩容AI模型的服务优先级的情况下，基于所述无扩缩容AI模型所对应的pod副本，控制扩大所述待扩容AI模型所对应的pod副本数量；其中，所述无扩缩容AI模型定义了无需对相应pod进行扩容或缩容的AI模型；所述无扩缩容AI模型为所述AI模型集中除所述待扩容AI模型和所述待缩容AI模型之外的其他AI模型。

8.根据权利要求7所述pod容量控制方法，其特征在于，所述基于所述无扩缩容AI模型所对应的pod副本，控制扩大所述待扩容AI模型所对应的pod副本数量，包括：

在确定针对所述无扩缩容AI模型存在预设的最低需求TPS的情况下，根据所述无扩缩容AI模型的最低需求TPS和单副本TPS，确定所述无扩缩容AI模型所对应的最小pod副本数量；所述最低需求TPS小于所述无扩缩容AI模型所对应的TPS标准值；

根据所述最小pod副本数量，确定所述无扩缩容AI模型所对应的供缩减的pod副本；

根据所述无扩缩容AI模型所对应的供缩减的pod副本，扩大所述待扩容AI模型所对应的pod副本数量。

9.根据权利要求6所述pod容量控制方法，其特征在于，在确定所述pod副本数量求和值小于所述需求pod副本数量的情况下，所述方法还包括：

针对所述各个AI模型所对应的服务请求队列，解析所述服务请求队列中各个服务请求的用户等级信息，并将所述用户等级信息低于预设的用户等级阈值的服务请求进行滤除；

更新所述各个AI模型的实时TPS和相应服务请求队列的阻塞队列指标；

基于更新后的实时TPS和阻塞队列指标，执行针对所述各个AI模型的pod容量控制操作。

10.一种pod容量控制装置，其特征在于，所述装置包括：

队列确定单元，被配置成监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求，以确定相应的服务请求队列集；其中，每一所述AI模型分别配置有相应的服务请求队列；

参数确定单元，被配置成针对各个所述AI模型，确定所述AI模型的实时TPS、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标；所述实时TPS为所述AI模型当前实际承载的每秒处理事务数，以及所述单副本TPS为所述AI模型所对应的单个pod副本所能够最大承载的每秒处理事务数；

扩缩容模型确定单元，被配置成从所述各个AI模型中，确定待扩容AI模型和/或待缩容AI模型；其中，所述待扩容AI模型定义了等待进行pod扩容的AI模型，所述待缩容AI模型定义了等待进行pod缩容的AI模型；所述待扩容AI模型的实时TPS超过相应的TPS标准值，或者对应的阻塞队列指标指示存在队列阻塞；所述待缩容AI模型的实时TPS未超过相应的TPS标准值，且对应的阻塞队列指标指示不存在队列阻塞；

扩缩容操作单元，被配置成根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量，和/或，根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量。