CN117971502B

CN117971502B - 一种针对ai推理集群进行在线优化调度的方法与装置

Info

Publication number: CN117971502B
Application number: CN202410370829.4A
Authority: CN
Inventors: 李国志; 刘鹤辉; 黄晓晖; 滕华; 厉凌飞
Original assignee: Nanjing Cognitive Internet Of Things Research Institute Co ltd
Current assignee: Nanjing Cognitive Internet Of Things Research Institute Co ltd
Priority date: 2024-03-29
Filing date: 2024-03-29
Publication date: 2024-06-21
Anticipated expiration: 2044-03-29
Also published as: CN117971502A

Abstract

本发明公开了一种针对AI推理集群进行在线优化调度的方法与装置。该方法包括对预先构建的推理集群和共享算力池进行信息配置，实时采集所述推理集群中各个GPU服务器当前的状态信息，接收外部的客户端发送的推理资源申请信息，并分配状态为可提供推理服务的GPU服务器，实时采集各个GPU服务器当前的负载信息，若推理集群当前的负载达到其算力容量的上限阈值，则向共享算力池申请新的GPU服务器，若当前的负载达到其算力容量的下限阈值，且推理集群中存在从共享算力池申请的GPU服务器时，则进行释放操作。本发明实现不同集群间的算力资源共享和分配，提高资源利用率，节省项目实际建设费用，降低资源管理难度和管理成本和能耗。

Description

一种针对AI推理集群进行在线优化调度的方法与装置

技术领域

本发明涉及AI推理集群调度技术领域，具体涉及一种针对AI推理集群进行在线优化调度的方法与装置。

背景技术

当前，随着人工智能和边缘计算技术的发展与普及应用，越来越多的工厂园区已经或者正在部署大量的AI推理算力，与传统的CPU算力相比，以GPU算力为代表的AI算力往往比较昂贵，因此，从工程应用的角度，需要对这些算力建立集约化的资源池动态共享使用，使得对于来自不同客户端的相同作业请求，可以共享相同的计算资源，从而使得在保证高可靠的同时，能够降低算力成本。

在实际工厂/园区的算力需求中，往往具有这样的特点：

1、每类AI推理需求(作业)需要的算力、应用环境和软件模型往往不同；

2、每类AI推理的计算请求与生产安排相关动态变化。没有生产时，不会产生AI推理需求；有生产时，会持续产生AI推理需求，并要求在确定时间内响应；

3、AI推理作业具备连续的实时微批作业特点。作业启动后需要分配高可靠专用算力资源，确保实时响应速度；作业结束后，算力资源可以释放。（不同于后台批量作业 - 类似超算，也不同于分散的单次推理作业 - 类似云计算）。

由于作业的多样性和实际推理时对实时性的高度需求，在当前的工程实际中，往往会使用两种方式：

1、在每个机台旁边放置一台软硬一体的一体机，做到专机专用，这种方式能够解决在推理过程的实时性需求，但是不同机台之间的设备计算资源无法共享，实施成本比较昂贵；

2、为相同的AI推理需求建设一个专用的推理集群，使得具有相同推理需求的不同机台可以共享同一个GPU计算集群；不同的AI推理需求建设不同的推理集群。这种方式下，由于具有相同AI推理需求的机台都共享了同一个推理集群，一定程度上可以实现AI计算资源的集约共享，节省了项目实施成本。但是在实际工程中，对一个较大的工厂、园区或者企业，其生产的产品是多样化的，从而导致其AI推理需求所需要的算力、应用软件环境以及模型也是变化的，这样往往就需要建设多个不同的计算集群来适应不同的推理需求。而为了保持可靠性，每个计算集群的资源也会存在一定程度的冗余并且按照峰值进行计算，从工厂、园区或者企业的整体来看，仍然存在如何在不同集群间对资源进行集约利用的问题。

实际上，在某一个具体的时刻，并不是每一个推理集群都会满负荷运转的，如果能够实现在不同集群间的计算资源调配和共享，就可以实现从工厂、园区或者企业层面的资源集约利用。

发明内容

本发明的目的是针对现有技术存在的不足，提供一种针对AI推理集群进行在线优化调度的方法与装置。

为实现上述目的，在第一方面，本发明提供了一种针对AI推理集群进行在线优化调度的方法，包括：

对预先构建的推理集群和共享算力池进行信息配置，所述推理集群和共享算力池分别包括若干GPU服务器，并获取用于计算每一GPU服务器针对不同推理作业的算力容量所需的基础信息，以计算出每一GPU服务器针对不同推理作业的算力容量，每一推理集群中的GPU服务器中安装有完成相应推理作业所需的软件和模型；

实时采集所述推理集群中各个GPU服务器当前的状态信息，所述GPU服务器当前的状态信息包括可提供推理服务和不可提供推理服务；

接收外部的客户端发送的推理资源申请信息，并根据所述资源申请信息向所述客户端分配状态为可提供推理服务的GPU服务器，以使所述客户端向分配的GPU服务器发送推理作业；

实时采集所述推理集群中的各个GPU服务器当前的负载信息，并根据所述各个GPU服务器的负载信息计算推理集群当前的负载，若所述推理集群当前的负载达到其算力容量的上限阈值，则向共享算力池申请新的GPU服务器，并向申请的新的GPU服务器中安装相应的软件和模型；若所述推理集群当前的负载达到其算力容量的下限阈值，且所述推理集群中存在从共享算力池申请的GPU服务器时，则将若干从共享算力池申请的GPU服务器释放至共享算力池中。

进一步的，所述上限阈值为推理集群的算力容量的80%，所述下限阈值为推理集群的算力容量的70%。

进一步的，所述推理集群中的各个GPU服务器当前的负载信息由设置在所述GPU服务器上监控代理通过心跳的方式上报。

进一步的，还包括：

采集GPU服务器当前的监控信息，并对GPU服务器当前的监控信息进行分析，以在监控信息出现异常时生成相应的告警信息。

进一步的，还包括：

实时计算所述共享算力池中处于开机状态且未被申请GPU服务器的算力容量，若处于开机状态且未被申请GPU服务器的算力容量在设定的算力容量上限阈值之上，则控制若干处于开机状态且未被申请GPU服务器关机，若处于开机状态且未被申请GPU服务器的算力容量小于设定的算力容量下限阈值，则控制若干处于关机状态的GPU服务器关机。

在第二方面，本发明提供了一种针对AI推理集群进行在线优化调度的装置，包括：

GPU服务器信息管理及配置模块，用以对预先构建的推理集群和共享算力池进行信息配置，所述推理集群和共享算力池分别包括若干GPU服务器，并获取用于计算每一GPU服务器针对不同推理作业的算力容量所需的基础信息，以计算出每一GPU服务器针对不同推理作业的算力容量，每一推理集群中的GPU服务器中安装有完成相应推理作业所需的软件和模型；

算力资源连接及管控模块，用以实时采集所述推理集群中各个GPU服务器当前的状态信息，所述GPU服务器当前的状态信息包括可提供推理服务和不可提供推理服务；

算力分配模块，用以接收外部的客户端发送的推理资源申请信息，并根据所述资源申请信息向所述客户端分配状态为可提供推理服务的GPU服务器，以使所述客户端向分配的GPU服务器发送推理作业；

所述算力资源连接及管控模块还用以实时采集所述推理集群中的各个GPU服务器当前的负载信息，并根据所述各个GPU服务器的负载信息计算推理集群当前的负载；

算力调度模块，用以在所述推理集群当前的负载达到其算力容量的上限阈值时，生成资源申请指令，并在所述推理集群当前的负载达到其算力容量的下限阈值，且所述推理集群中存在从共享算力池申请的GPU服务器时，生成资源释放指令；

所述算力资源连接及管控模块还用以根据资源申请指令向共享算力池申请新的GPU服务器，并控制向申请的新的GPU服务器中安装相应的软件和模型，且根据资源释放指令，将若干从共享算力池申请的GPU服务器释放至共享算力池中。

进一步的，还包括监测告警模块，所述算力资源连接及管控模块还用以采集GPU服务器当前的监控信息，所述监测告警模块用以对GPU服务器当前的监控信息进行分析，以在监控信息出现异常时生成相应的告警信息。

进一步的，所述算力资源连接及管控模块还用以实时计算共享算力池中处于开机状态且未被申请GPU服务器的算力容量，若处于开机状态且未被申请GPU服务器的算力容量在设定的算力容量上限阈值之上，则控制若干处于开机状态且未被申请GPU服务器关机，若处于开机状态且未被申请GPU服务器的算力容量小于设定的算力容量下限阈值，则控制若干处于关机状态的GPU服务器关机。

有益效果：本发明通过构建推理集群和共享算力池，基于推理集群的实时算力容量计算分析实现了共享算力池中的资源共享和调度，并具有以下优点：

1、基于共享算力池的算力资源的动态分配和调度，实现不同集群间的算力资源共享和分配，提高资源利用率，节省项目实际建设费用；

2、基于监控代理的实时监控和上报的负载信息，实现对共享算力池的算力资源的动态分配和释放，提高资源管理的自动化程度，降低资源管理难度和管理成本；

3、根据共享算力池的空闲算力容量对GPU服务器的开机和关机进行控制，在满足有相应的算力资源提供的前提下，降低能耗。

附图说明

图1是本发明实施例的一种针对AI推理集群进行在线优化调度的装置的原理框图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，本实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

本发明实施例提供了一种针对AI推理集群进行在线优化调度的方法，包括：

对预先构建的推理集群和共享算力池进行信息配置，推理集群和共享算力池分别包括若干GPU服务器，并获取用于计算每一GPU服务器针对不同推理作业的算力容量所需的基础信息，以计算出每一GPU服务器针对不同推理作业的算力容量，每一推理集群中的GPU服务器中安装有完成相应推理作业所需的软件和模型。具体的，配置的推理集群信息包括推理集群编码、支持的作业类型id、包含的GPU服务器列表等。而配置的共享算力池的信息包括包含的GPU服务器列表。上述基础信息包括GPU卡型号、作业类型id、每张GPU卡针对各个推理作业所能支持的并发作业数量（每个客户端同一时刻只有一个作业），该部分基础信息可以预先进行参数设置。基础信息还包括GPU服务器id、GPU卡型号和包含的GPU卡数量，该部分基础信息可以直接通过GPU服务器上传，也可以根据GPU服务器的实际情况预先进行参数设置。通过该GPU服务器包含的GPU卡数量*该类型的GPU卡针对特定的推理作业所能支持的并发作业数量，即可得到GPU服务器针对不同推理作业的算力容量。上述推理集群中包含的GPU服务器的数量为1个以上，具体数量可根据实际情况而定，可为相应的推理作业提供最基本的算力资源需求即可。而共享算力池中包含的GPU服务器优选为多个，以满足动态分配所需。另外需要说明的是，在构建好推理集群后，其支持的作业类型id就已确定，后续所述的算力容量即为针对于该作业类型id的，而共享算力池的作业类型暂时未被确定，其算力容量需根据申请执行的推理作业进行确定。

实时采集推理集群中各个GPU服务器当前的状态信息，上述GPU服务器当前的状态信息包括可提供推理服务和不可提供推理服务。上述不可提供推理服务的原因包括该GPU服务器未部署推理服务或处于异常状态或算力容量已满。

接收外部的客户端发送的推理资源申请信息，并根据资源申请信息向客户端分配状态为可提供推理服务的GPU服务器，以使客户端向分配的GPU服务器发送推理作业。具体的，资源申请信息中包含所要进行推理任务的作业类型id，可以根据作业类型id获取相应推理集群中的GPU服务器列表。在获取到相应推理集群中的GPU服务器列表后，即可根据配置的分配策略进行分配，可以随机分配一个状态为可提供推理服务的GPU服务器，也可以通过获取每一GPU服务器当前的负载信息，然后根据GPU服务器当前的负载信息分配相应的GPU服务器。如采用集中原则（集中分配在少量的GPU服务器上）或均衡原则（均匀的分配在各个GPU服务器上）。上述GPU服务器当前的负载信息即为GPU服务器当前进行的推理作业数量，也就是当前连接的客户端的数量。

实时采集推理集群中的各个GPU服务器当前的负载信息，并根据各个GPU服务器的负载信息计算推理集群当前的负载，若推理集群当前的负载达到其算力容量的上限阈值，则向共享算力池申请新的GPU服务器，并向申请的新的GPU服务器中安装相应的软件和模型；若推理集群当前的负载达到其算力容量的下限阈值，且推理集群中存在从共享算力池申请的GPU服务器时，则将若干从共享算力池申请的GPU服务器释放至共享算力池中。通过上述方式，即可实现算力资源在不同推理集群间的动态调配和共享。上述推理集群当前的负载即为各个GPU服务器当前的负载之和。上述上限阈值为推理集群的算力容量的80%，上述下限阈值为推理集群的算力容量的70%。需要说明的是，推理集群中GPU服务器的分配优先权是大于共享算力池中的GPU服务器的，所以保证空闲下来的GPU服务器中的一部分是从共享算力池申请的，当推理集群当前的负载达到其算力容量的下限阈值时，才能将从共享算力池申请的GPU服务器释放至共享算力池中。另外，在GPU服务器释放时，会将申请时安装的软件和模型卸载。

为了采集上述推理集群中的各个GPU服务器当前的负载信息和状态信息，在每一GPU服务器上均设有监控代理，推理集群中的各个GPU服务器当前的负载信息和状态信息均由各个监控代理通过心跳的方式上报。

本发明实施例还包括采集GPU服务器当前的监控信息，并对GPU服务器当前的监控信息进行分析，以在监控信息出现异常时生成相应的告警信息，以通知相关管理人员。上述监控信息包括每一GPU卡的温度、利用率和冷却风扇速度。上述监控信息也可通过GPU服务器上的监控代理通过心跳的方式上报。

本发明实施例还包括实时计算共享算力池中处于开机状态且未被申请GPU服务器的算力容量（空闲算力容量），若处于开机状态且未被申请GPU服务器的算力容量在设定的算力容量上限阈值之上，则控制若干处于开机状态且未被申请GPU服务器关机，以降低能耗。若处于开机状态且未被申请GPU服务器的算力容量小于设定的算力容量下限阈值，则控制若干处于关机状态的GPU服务器关机，从而保持共享算力池在某一个推理集群需要资源时，有相应的资源提供。用来控制GPU服务器关机和开机的指令可通过BMC协议发送。控制开机和关机的空闲的GPU服务器可以是随机选择，也可以根据开机和关机的时间进行选择，如关机时间最早的先开机，开机时间最早的先关机。

参见图1，基于以上实施例，本领域技术人员可以轻易理解，本发明还提供了一种针对AI推理集群进行在线优化调度的装置，包括GPU服务器信息管理及配置模块1、算力资源连接及管控模块2、算力分配模块3和算力调度模块4。

GPU服务器信息管理及配置模块1用以对预先构建的推理集群和共享算力池进行信息配置，并获取用于计算每一GPU服务器针对不同推理作业的算力容量所需的基础信息，以计算出每一GPU服务器针对不同推理作业的算力容量，每一推理集群中的GPU服务器中安装有完成相应推理作业所需的软件和模型。具体的，配置的推理集群信息包括推理集群编码、支持的作业类型id、包含的GPU服务器列表等。而配置的共享算力池的信息包括包含的GPU服务器列表。上述基础信息包括GPU卡型号、作业类型id、每张GPU卡针对各个推理作业所能支持的并发作业数量（每个客户端同一时刻只有一个作业），该部分基础信息可以预先进行参数设置。基础信息还包括GPU服务器id、GPU卡型号和包含的GPU卡数量，该部分基础信息可以直接通过GPU服务器上传，也可以根据GPU服务器的实际情况预先进行参数设置。通过该GPU服务器包含的GPU卡数量*该类型的GPU卡针对特定的推理作业所能支持的并发作业数量，即可得到GPU服务器针对不同推理作业的算力容量。上述推理集群中包含的GPU服务器的数量为1个以上，具体数量可根据实际情况而定，可为相应的推理作业提供最基本的算力资源需求即可。而共享算力池中包含的GPU服务器优选为多个，以满足动态分配所需。另外需要说明的是，在构建好推理集群后，其支持的作业类型id就已确定，后续所述的算力容量即为针对于该作业类型id的，而共享算力池的作业类型暂时未被确定，其算力容量需根据申请执行的推理作业进行确定。

算力资源连接及管控模块2用以实时采集推理集群中各个GPU服务器当前的状态信息，GPU服务器当前的状态信息包括可提供推理服务和不可提供推理服务。上述不可提供推理服务的原因包括该GPU服务器未部署推理服务或处于异常状态或算力容量已满。

算力分配模块3用以接收外部的客户端发送的推理资源申请信息，并根据资源申请信息向所述客户端分配状态为可提供推理服务的GPU服务器，以使客户端向分配的GPU服务器发送推理作业。具体的，资源申请信息中包含所要进行推理任务的作业类型id，可以根据作业类型id获取相应推理集群中的GPU服务器列表。在获取到相应推理集群中的GPU服务器列表后，即可根据配置的分配策略进行分配，可以随机分配一个状态为可提供推理服务的GPU服务器，也可以通过获取每一GPU服务器当前的负载信息，然后根据GPU服务器当前的负载信息分配相应的GPU服务器。如采用集中原则（集中分配在少量的GPU服务器上）或均衡原则（均匀的分配在各个GPU服务器上）。上述GPU服务器当前的负载信息即为GPU服务器当前进行的推理作业数量，也就是当前连接的客户端的数量。参见图1，图中示意出了两个推理集群和三个客户端，其中左侧的推理集群用于作业A的推理，右侧的推理集群用于作业B的推理，三个客户端分别为一号客户端、二号客户端和三号客户端，一号客户端、二号客户端和三号客户端发出的推理资源申请信息分别用以进行作业A、作业B和作业A的推理，在收到推理资源申请信息时，即可将左侧的推理集群中的GPU服务器分配给一号客户端、和三号客户端使用，右侧的推理集群即可分配给二号客户端使用。

上述算力资源连接及管控模块2还用以实时采集推理集群中的各个GPU服务器当前的负载信息，并根据所述各个GPU服务器的负载信息计算推理集群当前的负载。上述推理集群当前的负载即为各个GPU服务器当前的负载之和。

算力调度模块4用以在推理集群当前的负载达到其算力容量的上限阈值时，生成资源申请指令，并在推理集群当前的负载达到其算力容量的下限阈值，且所述推理集群中存在从共享算力池申请的GPU服务器时，生成资源释放指令。上述上限阈值为推理集群的算力容量的80%，上述下限阈值为推理集群的算力容量的70%。

算力资源连接及管控模块2还用以根据资源申请指令向共享算力池申请新的GPU服务器，并控制向申请的新的GPU服务器中安装相应的软件和模型，且根据资源释放指令，将若干从共享算力池申请的GPU服务器释放至共享算力池中。通过上述方式，即可实现算力资源在不同推理集群间的动态调配和共享。需要说明的是，推理集群中GPU服务器的分配优先权是大于共享算力池中的GPU服务器的，所以保证空闲下来的GPU服务器中的一部分是从共享算力池申请的，当推理集群当前的负载达到其算力容量的下限阈值时，才能将从共享算力池申请的GPU服务器释放至共享算力池中。另外，在GPU服务器释放时，会将申请时安装的软件和模型卸载。

本发明实施例还包括监测告警模块5，算力资源连接及管控模块2还用以采集GPU服务器当前的监控信息，监测告警模块5用以对GPU服务器当前的监控信息进行分析，以在监控信息出现异常时生成相应的告警信息，以通知相关管理人员。上述监控信息包括每一GPU卡的温度、利用率和冷却风扇速度。上述监控信息也可通过GPU服务器上的监控代理通过心跳的方式上报。

本发明实施例的算力资源连接及管控模块2还用以实时计算共享算力池中处于开机状态且未被申请GPU服务器的算力容量（空闲算力容量），若处于开机状态且未被申请GPU服务器的算力容量在设定的算力容量上限阈值之上，则控制若干处于开机状态且未被申请GPU服务器关机，以降低能耗。若处于开机状态且未被申请GPU服务器的算力容量小于设定的算力容量下限阈值，则控制若干处于关机状态的GPU服务器关机，从而保持共享算力池在某一个推理集群需要资源时，有相应的资源提供。用来控制GPU服务器关机和开机的指令可通过BMC协议发送。控制开机和关机的空闲的GPU服务器可以是随机选择，也可以根据开机和关机的时间进行选择，如关机时间最早的先开机，开机时间最早的先关机。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，其它未具体描述的部分，属于现有技术或公知常识。在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种针对AI推理集群进行在线优化调度的方法，其特征在于，包括：

2.根据权利要求1所述的一种针对AI推理集群进行在线优化调度的方法，其特征在于，所述上限阈值为推理集群的算力容量的80%，所述下限阈值为推理集群的算力容量的70%。

3.根据权利要求1所述的一种针对AI推理集群进行在线优化调度的方法，其特征在于，所述推理集群中的各个GPU服务器当前的负载信息由设置在所述GPU服务器上监控代理通过心跳的方式上报。

4.根据权利要求1所述的一种针对AI推理集群进行在线优化调度的方法，其特征在于，还包括：

5.根据权利要求1所述的一种针对AI推理集群进行在线优化调度的方法，其特征在于，还包括：

实时计算所述共享算力池中处于开机状态且未被申请GPU服务器的算力容量，若处于开机状态且未被申请GPU服务器的算力容量在设定的算力容量上限阈值之上，则控制若干处于开机状态且未被申请GPU服务器关机，若处于开机状态且未被申请GPU服务器的算力容量小于设定的算力容量下限阈值，则控制若干处于关机状态的GPU服务器开机。

6.一种针对AI推理集群进行在线优化调度的装置，其特征在于，包括：

7.根据权利要求6所述的一种针对AI推理集群进行在线优化调度的装置，其特征在于，所述上限阈值为推理集群的算力容量的80%，所述下限阈值为推理集群的算力容量的70%。

8.根据权利要求6所述的一种针对AI推理集群进行在线优化调度的装置，其特征在于，所述推理集群中的各个GPU服务器当前的负载信息由设置在所述GPU服务器上监控代理通过心跳的方式上报。

9.根据权利要求6所述的一种针对AI推理集群进行在线优化调度的装置，其特征在于，还包括监测告警模块，所述算力资源连接及管控模块还用以采集GPU服务器当前的监控信息，所述监测告警模块用以对GPU服务器当前的监控信息进行分析，以在监控信息出现异常时生成相应的告警信息。

10.根据权利要求6所述的一种针对AI推理集群进行在线优化调度的装置，其特征在于，所述算力资源连接及管控模块还用以实时计算共享算力池中处于开机状态且未被申请GPU服务器的算力容量，若处于开机状态且未被申请GPU服务器的算力容量在设定的算力容量上限阈值之上，则控制若干处于开机状态且未被申请GPU服务器关机，若处于开机状态且未被申请GPU服务器的算力容量小于设定的算力容量下限阈值，则控制若干处于关机状态的GPU服务器开机。