CN117971502B - 一种针对ai推理集群进行在线优化调度的方法与装置 - Google Patents

一种针对ai推理集群进行在线优化调度的方法与装置 Download PDF

Info

Publication number
CN117971502B
CN117971502B CN202410370829.4A CN202410370829A CN117971502B CN 117971502 B CN117971502 B CN 117971502B CN 202410370829 A CN202410370829 A CN 202410370829A CN 117971502 B CN117971502 B CN 117971502B
Authority
CN
China
Prior art keywords
reasoning
power
gpu
cluster
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410370829.4A
Other languages
English (en)
Other versions
CN117971502A (zh
Inventor
李国志
刘鹤辉
黄晓晖
滕华
厉凌飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Cognitive Internet Of Things Research Institute Co ltd
Original Assignee
Nanjing Cognitive Internet Of Things Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Cognitive Internet Of Things Research Institute Co ltd filed Critical Nanjing Cognitive Internet Of Things Research Institute Co ltd
Priority to CN202410370829.4A priority Critical patent/CN117971502B/zh
Publication of CN117971502A publication Critical patent/CN117971502A/zh
Application granted granted Critical
Publication of CN117971502B publication Critical patent/CN117971502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Power Sources (AREA)

Abstract

本发明公开了一种针对AI推理集群进行在线优化调度的方法与装置。该方法包括对预先构建的推理集群和共享算力池进行信息配置,实时采集所述推理集群中各个GPU服务器当前的状态信息,接收外部的客户端发送的推理资源申请信息,并分配状态为可提供推理服务的GPU服务器,实时采集各个GPU服务器当前的负载信息,若推理集群当前的负载达到其算力容量的上限阈值,则向共享算力池申请新的GPU服务器,若当前的负载达到其算力容量的下限阈值,且推理集群中存在从共享算力池申请的GPU服务器时,则进行释放操作。本发明实现不同集群间的算力资源共享和分配,提高资源利用率,节省项目实际建设费用,降低资源管理难度和管理成本和能耗。

Description

一种针对AI推理集群进行在线优化调度的方法与装置
技术领域
本发明涉及AI推理集群调度技术领域,具体涉及一种针对AI推理集群进行在线优化调度的方法与装置。
背景技术
当前,随着人工智能和边缘计算技术的发展与普及应用,越来越多的工厂园区已经或者正在部署大量的AI推理算力,与传统的CPU算力相比,以GPU算力为代表的AI算力往往比较昂贵,因此,从工程应用的角度,需要对这些算力建立集约化的资源池动态共享使用,使得对于来自不同客户端的相同作业请求,可以共享相同的计算资源,从而使得在保证高可靠的同时,能够降低算力成本。
在实际工厂/园区的算力需求中,往往具有这样的特点:
1、每类AI推理需求(作业)需要的算力、应用环境和软件模型往往不同;
2、每类AI推理的计算请求与生产安排相关动态变化。没有生产时,不会产生AI推理需求;有生产时,会持续产生AI推理需求,并要求在确定时间内响应;
3、AI推理作业具备连续的实时微批作业特点。作业启动后需要分配高可靠专用算力资源,确保实时响应速度;作业结束后,算力资源可以释放。(不同于后台批量作业 - 类似超算,也不同于分散的单次推理作业 - 类似云计算)。
由于作业的多样性和实际推理时对实时性的高度需求,在当前的工程实际中,往往会使用两种方式:
1、在每个机台旁边放置一台软硬一体的一体机,做到专机专用,这种方式能够解决在推理过程的实时性需求,但是不同机台之间的设备计算资源无法共享,实施成本比较昂贵;
2、为相同的AI推理需求建设一个专用的推理集群,使得具有相同推理需求的不同机台可以共享同一个GPU计算集群;不同的AI推理需求建设不同的推理集群。这种方式下,由于具有相同AI推理需求的机台都共享了同一个推理集群,一定程度上可以实现AI计算资源的集约共享,节省了项目实施成本。但是在实际工程中,对一个较大的工厂、园区或者企业,其生产的产品是多样化的,从而导致其AI推理需求所需要的算力、应用软件环境以及模型也是变化的,这样往往就需要建设多个不同的计算集群来适应不同的推理需求。而为了保持可靠性,每个计算集群的资源也会存在一定程度的冗余并且按照峰值进行计算,从工厂、园区或者企业的整体来看,仍然存在如何在不同集群间对资源进行集约利用的问题。
实际上,在某一个具体的时刻,并不是每一个推理集群都会满负荷运转的,如果能够实现在不同集群间的计算资源调配和共享,就可以实现从工厂、园区或者企业层面的资源集约利用。
发明内容
本发明的目的是针对现有技术存在的不足,提供一种针对AI推理集群进行在线优化调度的方法与装置。
为实现上述目的,在第一方面,本发明提供了一种针对AI推理集群进行在线优化调度的方法,包括:
对预先构建的推理集群和共享算力池进行信息配置,所述推理集群和共享算力池分别包括若干GPU服务器,并获取用于计算每一GPU服务器针对不同推理作业的算力容量所需的基础信息,以计算出每一GPU服务器针对不同推理作业的算力容量,每一推理集群中的GPU服务器中安装有完成相应推理作业所需的软件和模型;
实时采集所述推理集群中各个GPU服务器当前的状态信息,所述GPU服务器当前的状态信息包括可提供推理服务和不可提供推理服务;
接收外部的客户端发送的推理资源申请信息,并根据所述资源申请信息向所述客户端分配状态为可提供推理服务的GPU服务器,以使所述客户端向分配的GPU服务器发送推理作业;
实时采集所述推理集群中的各个GPU服务器当前的负载信息,并根据所述各个GPU服务器的负载信息计算推理集群当前的负载,若所述推理集群当前的负载达到其算力容量的上限阈值,则向共享算力池申请新的GPU服务器,并向申请的新的GPU服务器中安装相应的软件和模型;若所述推理集群当前的负载达到其算力容量的下限阈值,且所述推理集群中存在从共享算力池申请的GPU服务器时,则将若干从共享算力池申请的GPU服务器释放至共享算力池中。
进一步的,所述上限阈值为推理集群的算力容量的80%,所述下限阈值为推理集群的算力容量的70%。
进一步的,所述推理集群中的各个GPU服务器当前的负载信息由设置在所述GPU服务器上监控代理通过心跳的方式上报。
进一步的,还包括:
采集GPU服务器当前的监控信息,并对GPU服务器当前的监控信息进行分析,以在监控信息出现异常时生成相应的告警信息。
进一步的,还包括:
实时计算所述共享算力池中处于开机状态且未被申请GPU服务器的算力容量,若处于开机状态且未被申请GPU服务器的算力容量在设定的算力容量上限阈值之上,则控制若干处于开机状态且未被申请GPU服务器关机,若处于开机状态且未被申请GPU服务器的算力容量小于设定的算力容量下限阈值,则控制若干处于关机状态的GPU服务器关机。
在第二方面,本发明提供了一种针对AI推理集群进行在线优化调度的装置,包括:
GPU服务器信息管理及配置模块,用以对预先构建的推理集群和共享算力池进行信息配置,所述推理集群和共享算力池分别包括若干GPU服务器,并获取用于计算每一GPU服务器针对不同推理作业的算力容量所需的基础信息,以计算出每一GPU服务器针对不同推理作业的算力容量,每一推理集群中的GPU服务器中安装有完成相应推理作业所需的软件和模型;
算力资源连接及管控模块,用以实时采集所述推理集群中各个GPU服务器当前的状态信息,所述GPU服务器当前的状态信息包括可提供推理服务和不可提供推理服务;
算力分配模块,用以接收外部的客户端发送的推理资源申请信息,并根据所述资源申请信息向所述客户端分配状态为可提供推理服务的GPU服务器,以使所述客户端向分配的GPU服务器发送推理作业;
所述算力资源连接及管控模块还用以实时采集所述推理集群中的各个GPU服务器当前的负载信息,并根据所述各个GPU服务器的负载信息计算推理集群当前的负载;
算力调度模块,用以在所述推理集群当前的负载达到其算力容量的上限阈值时,生成资源申请指令,并在所述推理集群当前的负载达到其算力容量的下限阈值,且所述推理集群中存在从共享算力池申请的GPU服务器时,生成资源释放指令;
所述算力资源连接及管控模块还用以根据资源申请指令向共享算力池申请新的GPU服务器,并控制向申请的新的GPU服务器中安装相应的软件和模型,且根据资源释放指令,将若干从共享算力池申请的GPU服务器释放至共享算力池中。
进一步的,所述上限阈值为推理集群的算力容量的80%,所述下限阈值为推理集群的算力容量的70%。
进一步的,所述推理集群中的各个GPU服务器当前的负载信息由设置在所述GPU服务器上监控代理通过心跳的方式上报。
进一步的,还包括监测告警模块,所述算力资源连接及管控模块还用以采集GPU服务器当前的监控信息,所述监测告警模块用以对GPU服务器当前的监控信息进行分析,以在监控信息出现异常时生成相应的告警信息。
进一步的,所述算力资源连接及管控模块还用以实时计算共享算力池中处于开机状态且未被申请GPU服务器的算力容量,若处于开机状态且未被申请GPU服务器的算力容量在设定的算力容量上限阈值之上,则控制若干处于开机状态且未被申请GPU服务器关机,若处于开机状态且未被申请GPU服务器的算力容量小于设定的算力容量下限阈值,则控制若干处于关机状态的GPU服务器关机。
有益效果:本发明通过构建推理集群和共享算力池,基于推理集群的实时算力容量计算分析实现了共享算力池中的资源共享和调度,并具有以下优点:
1、基于共享算力池的算力资源的动态分配和调度,实现不同集群间的算力资源共享和分配,提高资源利用率,节省项目实际建设费用;
2、基于监控代理的实时监控和上报的负载信息,实现对共享算力池的算力资源的动态分配和释放,提高资源管理的自动化程度,降低资源管理难度和管理成本;
3、根据共享算力池的空闲算力容量对GPU服务器的开机和关机进行控制,在满足有相应的算力资源提供的前提下,降低能耗。
附图说明
图1是本发明实施例的一种针对AI推理集群进行在线优化调度的装置的原理框图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,本实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
本发明实施例提供了一种针对AI推理集群进行在线优化调度的方法,包括:
对预先构建的推理集群和共享算力池进行信息配置,推理集群和共享算力池分别包括若干GPU服务器,并获取用于计算每一GPU服务器针对不同推理作业的算力容量所需的基础信息,以计算出每一GPU服务器针对不同推理作业的算力容量,每一推理集群中的GPU服务器中安装有完成相应推理作业所需的软件和模型。具体的,配置的推理集群信息包括推理集群编码、支持的作业类型id、包含的GPU服务器列表等。而配置的共享算力池的信息包括包含的GPU服务器列表。上述基础信息包括GPU卡型号、作业类型id、每张GPU卡针对各个推理作业所能支持的并发作业数量(每个客户端同一时刻只有一个作业),该部分基础信息可以预先进行参数设置。基础信息还包括GPU服务器id、GPU卡型号和包含的GPU卡数量,该部分基础信息可以直接通过GPU服务器上传,也可以根据GPU服务器的实际情况预先进行参数设置。通过该GPU服务器包含的GPU卡数量*该类型的GPU卡针对特定的推理作业所能支持的并发作业数量,即可得到GPU服务器针对不同推理作业的算力容量。上述推理集群中包含的GPU服务器的数量为1个以上,具体数量可根据实际情况而定,可为相应的推理作业提供最基本的算力资源需求即可。而共享算力池中包含的GPU服务器优选为多个,以满足动态分配所需。另外需要说明的是,在构建好推理集群后,其支持的作业类型id就已确定,后续所述的算力容量即为针对于该作业类型id的,而共享算力池的作业类型暂时未被确定,其算力容量需根据申请执行的推理作业进行确定。
实时采集推理集群中各个GPU服务器当前的状态信息,上述GPU服务器当前的状态信息包括可提供推理服务和不可提供推理服务。上述不可提供推理服务的原因包括该GPU服务器未部署推理服务或处于异常状态或算力容量已满。
接收外部的客户端发送的推理资源申请信息,并根据资源申请信息向客户端分配状态为可提供推理服务的GPU服务器,以使客户端向分配的GPU服务器发送推理作业。具体的,资源申请信息中包含所要进行推理任务的作业类型id,可以根据作业类型id获取相应推理集群中的GPU服务器列表。在获取到相应推理集群中的GPU服务器列表后,即可根据配置的分配策略进行分配,可以随机分配一个状态为可提供推理服务的GPU服务器,也可以通过获取每一GPU服务器当前的负载信息,然后根据GPU服务器当前的负载信息分配相应的GPU服务器。如采用集中原则(集中分配在少量的GPU服务器上)或均衡原则(均匀的分配在各个GPU服务器上)。上述GPU服务器当前的负载信息即为GPU服务器当前进行的推理作业数量,也就是当前连接的客户端的数量。
实时采集推理集群中的各个GPU服务器当前的负载信息,并根据各个GPU服务器的负载信息计算推理集群当前的负载,若推理集群当前的负载达到其算力容量的上限阈值,则向共享算力池申请新的GPU服务器,并向申请的新的GPU服务器中安装相应的软件和模型;若推理集群当前的负载达到其算力容量的下限阈值,且推理集群中存在从共享算力池申请的GPU服务器时,则将若干从共享算力池申请的GPU服务器释放至共享算力池中。通过上述方式,即可实现算力资源在不同推理集群间的动态调配和共享。上述推理集群当前的负载即为各个GPU服务器当前的负载之和。上述上限阈值为推理集群的算力容量的80%,上述下限阈值为推理集群的算力容量的70%。需要说明的是,推理集群中GPU服务器的分配优先权是大于共享算力池中的GPU服务器的,所以保证空闲下来的GPU服务器中的一部分是从共享算力池申请的,当推理集群当前的负载达到其算力容量的下限阈值时,才能将从共享算力池申请的GPU服务器释放至共享算力池中。另外,在GPU服务器释放时,会将申请时安装的软件和模型卸载。
为了采集上述推理集群中的各个GPU服务器当前的负载信息和状态信息,在每一GPU服务器上均设有监控代理,推理集群中的各个GPU服务器当前的负载信息和状态信息均由各个监控代理通过心跳的方式上报。
本发明实施例还包括采集GPU服务器当前的监控信息,并对GPU服务器当前的监控信息进行分析,以在监控信息出现异常时生成相应的告警信息,以通知相关管理人员。上述监控信息包括每一GPU卡的温度、利用率和冷却风扇速度。上述监控信息也可通过GPU服务器上的监控代理通过心跳的方式上报。
本发明实施例还包括实时计算共享算力池中处于开机状态且未被申请GPU服务器的算力容量(空闲算力容量),若处于开机状态且未被申请GPU服务器的算力容量在设定的算力容量上限阈值之上,则控制若干处于开机状态且未被申请GPU服务器关机,以降低能耗。若处于开机状态且未被申请GPU服务器的算力容量小于设定的算力容量下限阈值,则控制若干处于关机状态的GPU服务器关机,从而保持共享算力池在某一个推理集群需要资源时,有相应的资源提供。用来控制GPU服务器关机和开机的指令可通过BMC协议发送。控制开机和关机的空闲的GPU服务器可以是随机选择,也可以根据开机和关机的时间进行选择,如关机时间最早的先开机,开机时间最早的先关机。
参见图1,基于以上实施例,本领域技术人员可以轻易理解,本发明还提供了一种针对AI推理集群进行在线优化调度的装置,包括GPU服务器信息管理及配置模块1、算力资源连接及管控模块2、算力分配模块3和算力调度模块4。
GPU服务器信息管理及配置模块1用以对预先构建的推理集群和共享算力池进行信息配置,并获取用于计算每一GPU服务器针对不同推理作业的算力容量所需的基础信息,以计算出每一GPU服务器针对不同推理作业的算力容量,每一推理集群中的GPU服务器中安装有完成相应推理作业所需的软件和模型。具体的,配置的推理集群信息包括推理集群编码、支持的作业类型id、包含的GPU服务器列表等。而配置的共享算力池的信息包括包含的GPU服务器列表。上述基础信息包括GPU卡型号、作业类型id、每张GPU卡针对各个推理作业所能支持的并发作业数量(每个客户端同一时刻只有一个作业),该部分基础信息可以预先进行参数设置。基础信息还包括GPU服务器id、GPU卡型号和包含的GPU卡数量,该部分基础信息可以直接通过GPU服务器上传,也可以根据GPU服务器的实际情况预先进行参数设置。通过该GPU服务器包含的GPU卡数量*该类型的GPU卡针对特定的推理作业所能支持的并发作业数量,即可得到GPU服务器针对不同推理作业的算力容量。上述推理集群中包含的GPU服务器的数量为1个以上,具体数量可根据实际情况而定,可为相应的推理作业提供最基本的算力资源需求即可。而共享算力池中包含的GPU服务器优选为多个,以满足动态分配所需。另外需要说明的是,在构建好推理集群后,其支持的作业类型id就已确定,后续所述的算力容量即为针对于该作业类型id的,而共享算力池的作业类型暂时未被确定,其算力容量需根据申请执行的推理作业进行确定。
算力资源连接及管控模块2用以实时采集推理集群中各个GPU服务器当前的状态信息,GPU服务器当前的状态信息包括可提供推理服务和不可提供推理服务。上述不可提供推理服务的原因包括该GPU服务器未部署推理服务或处于异常状态或算力容量已满。
算力分配模块3用以接收外部的客户端发送的推理资源申请信息,并根据资源申请信息向所述客户端分配状态为可提供推理服务的GPU服务器,以使客户端向分配的GPU服务器发送推理作业。具体的,资源申请信息中包含所要进行推理任务的作业类型id,可以根据作业类型id获取相应推理集群中的GPU服务器列表。在获取到相应推理集群中的GPU服务器列表后,即可根据配置的分配策略进行分配,可以随机分配一个状态为可提供推理服务的GPU服务器,也可以通过获取每一GPU服务器当前的负载信息,然后根据GPU服务器当前的负载信息分配相应的GPU服务器。如采用集中原则(集中分配在少量的GPU服务器上)或均衡原则(均匀的分配在各个GPU服务器上)。上述GPU服务器当前的负载信息即为GPU服务器当前进行的推理作业数量,也就是当前连接的客户端的数量。参见图1,图中示意出了两个推理集群和三个客户端,其中左侧的推理集群用于作业A的推理,右侧的推理集群用于作业B的推理,三个客户端分别为一号客户端、二号客户端和三号客户端,一号客户端、二号客户端和三号客户端发出的推理资源申请信息分别用以进行作业A、作业B和作业A的推理,在收到推理资源申请信息时,即可将左侧的推理集群中的GPU服务器分配给一号客户端、和三号客户端使用,右侧的推理集群即可分配给二号客户端使用。
上述算力资源连接及管控模块2还用以实时采集推理集群中的各个GPU服务器当前的负载信息,并根据所述各个GPU服务器的负载信息计算推理集群当前的负载。上述推理集群当前的负载即为各个GPU服务器当前的负载之和。
算力调度模块4用以在推理集群当前的负载达到其算力容量的上限阈值时,生成资源申请指令,并在推理集群当前的负载达到其算力容量的下限阈值,且所述推理集群中存在从共享算力池申请的GPU服务器时,生成资源释放指令。上述上限阈值为推理集群的算力容量的80%,上述下限阈值为推理集群的算力容量的70%。
算力资源连接及管控模块2还用以根据资源申请指令向共享算力池申请新的GPU服务器,并控制向申请的新的GPU服务器中安装相应的软件和模型,且根据资源释放指令,将若干从共享算力池申请的GPU服务器释放至共享算力池中。通过上述方式,即可实现算力资源在不同推理集群间的动态调配和共享。需要说明的是,推理集群中GPU服务器的分配优先权是大于共享算力池中的GPU服务器的,所以保证空闲下来的GPU服务器中的一部分是从共享算力池申请的,当推理集群当前的负载达到其算力容量的下限阈值时,才能将从共享算力池申请的GPU服务器释放至共享算力池中。另外,在GPU服务器释放时,会将申请时安装的软件和模型卸载。
为了采集上述推理集群中的各个GPU服务器当前的负载信息和状态信息,在每一GPU服务器上均设有监控代理,推理集群中的各个GPU服务器当前的负载信息和状态信息均由各个监控代理通过心跳的方式上报。
本发明实施例还包括监测告警模块5,算力资源连接及管控模块2还用以采集GPU服务器当前的监控信息,监测告警模块5用以对GPU服务器当前的监控信息进行分析,以在监控信息出现异常时生成相应的告警信息,以通知相关管理人员。上述监控信息包括每一GPU卡的温度、利用率和冷却风扇速度。上述监控信息也可通过GPU服务器上的监控代理通过心跳的方式上报。
本发明实施例的算力资源连接及管控模块2还用以实时计算共享算力池中处于开机状态且未被申请GPU服务器的算力容量(空闲算力容量),若处于开机状态且未被申请GPU服务器的算力容量在设定的算力容量上限阈值之上,则控制若干处于开机状态且未被申请GPU服务器关机,以降低能耗。若处于开机状态且未被申请GPU服务器的算力容量小于设定的算力容量下限阈值,则控制若干处于关机状态的GPU服务器关机,从而保持共享算力池在某一个推理集群需要资源时,有相应的资源提供。用来控制GPU服务器关机和开机的指令可通过BMC协议发送。控制开机和关机的空闲的GPU服务器可以是随机选择,也可以根据开机和关机的时间进行选择,如关机时间最早的先开机,开机时间最早的先关机。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,其它未具体描述的部分,属于现有技术或公知常识。在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种针对AI推理集群进行在线优化调度的方法,其特征在于,包括:
对预先构建的推理集群和共享算力池进行信息配置,所述推理集群和共享算力池分别包括若干GPU服务器,并获取用于计算每一GPU服务器针对不同推理作业的算力容量所需的基础信息,以计算出每一GPU服务器针对不同推理作业的算力容量,每一推理集群中的GPU服务器中安装有完成相应推理作业所需的软件和模型;
实时采集所述推理集群中各个GPU服务器当前的状态信息,所述GPU服务器当前的状态信息包括可提供推理服务和不可提供推理服务;
接收外部的客户端发送的推理资源申请信息,并根据所述资源申请信息向所述客户端分配状态为可提供推理服务的GPU服务器,以使所述客户端向分配的GPU服务器发送推理作业;
实时采集所述推理集群中的各个GPU服务器当前的负载信息,并根据所述各个GPU服务器的负载信息计算推理集群当前的负载,若所述推理集群当前的负载达到其算力容量的上限阈值,则向共享算力池申请新的GPU服务器,并向申请的新的GPU服务器中安装相应的软件和模型;若所述推理集群当前的负载达到其算力容量的下限阈值,且所述推理集群中存在从共享算力池申请的GPU服务器时,则将若干从共享算力池申请的GPU服务器释放至共享算力池中。
2.根据权利要求1所述的一种针对AI推理集群进行在线优化调度的方法,其特征在于,所述上限阈值为推理集群的算力容量的80%,所述下限阈值为推理集群的算力容量的70%。
3.根据权利要求1所述的一种针对AI推理集群进行在线优化调度的方法,其特征在于,所述推理集群中的各个GPU服务器当前的负载信息由设置在所述GPU服务器上监控代理通过心跳的方式上报。
4.根据权利要求1所述的一种针对AI推理集群进行在线优化调度的方法,其特征在于,还包括:
采集GPU服务器当前的监控信息,并对GPU服务器当前的监控信息进行分析,以在监控信息出现异常时生成相应的告警信息。
5.根据权利要求1所述的一种针对AI推理集群进行在线优化调度的方法,其特征在于,还包括:
实时计算所述共享算力池中处于开机状态且未被申请GPU服务器的算力容量,若处于开机状态且未被申请GPU服务器的算力容量在设定的算力容量上限阈值之上,则控制若干处于开机状态且未被申请GPU服务器关机,若处于开机状态且未被申请GPU服务器的算力容量小于设定的算力容量下限阈值,则控制若干处于关机状态的GPU服务器开机。
6.一种针对AI推理集群进行在线优化调度的装置,其特征在于,包括:
GPU服务器信息管理及配置模块,用以对预先构建的推理集群和共享算力池进行信息配置,所述推理集群和共享算力池分别包括若干GPU服务器,并获取用于计算每一GPU服务器针对不同推理作业的算力容量所需的基础信息,以计算出每一GPU服务器针对不同推理作业的算力容量,每一推理集群中的GPU服务器中安装有完成相应推理作业所需的软件和模型;
算力资源连接及管控模块,用以实时采集所述推理集群中各个GPU服务器当前的状态信息,所述GPU服务器当前的状态信息包括可提供推理服务和不可提供推理服务;
算力分配模块,用以接收外部的客户端发送的推理资源申请信息,并根据所述资源申请信息向所述客户端分配状态为可提供推理服务的GPU服务器,以使所述客户端向分配的GPU服务器发送推理作业;
所述算力资源连接及管控模块还用以实时采集所述推理集群中的各个GPU服务器当前的负载信息,并根据所述各个GPU服务器的负载信息计算推理集群当前的负载;
算力调度模块,用以在所述推理集群当前的负载达到其算力容量的上限阈值时,生成资源申请指令,并在所述推理集群当前的负载达到其算力容量的下限阈值,且所述推理集群中存在从共享算力池申请的GPU服务器时,生成资源释放指令;
所述算力资源连接及管控模块还用以根据资源申请指令向共享算力池申请新的GPU服务器,并控制向申请的新的GPU服务器中安装相应的软件和模型,且根据资源释放指令,将若干从共享算力池申请的GPU服务器释放至共享算力池中。
7.根据权利要求6所述的一种针对AI推理集群进行在线优化调度的装置,其特征在于,所述上限阈值为推理集群的算力容量的80%,所述下限阈值为推理集群的算力容量的70%。
8.根据权利要求6所述的一种针对AI推理集群进行在线优化调度的装置,其特征在于,所述推理集群中的各个GPU服务器当前的负载信息由设置在所述GPU服务器上监控代理通过心跳的方式上报。
9.根据权利要求6所述的一种针对AI推理集群进行在线优化调度的装置,其特征在于,还包括监测告警模块,所述算力资源连接及管控模块还用以采集GPU服务器当前的监控信息,所述监测告警模块用以对GPU服务器当前的监控信息进行分析,以在监控信息出现异常时生成相应的告警信息。
10.根据权利要求6所述的一种针对AI推理集群进行在线优化调度的装置,其特征在于,所述算力资源连接及管控模块还用以实时计算共享算力池中处于开机状态且未被申请GPU服务器的算力容量,若处于开机状态且未被申请GPU服务器的算力容量在设定的算力容量上限阈值之上,则控制若干处于开机状态且未被申请GPU服务器关机,若处于开机状态且未被申请GPU服务器的算力容量小于设定的算力容量下限阈值,则控制若干处于关机状态的GPU服务器开机。
CN202410370829.4A 2024-03-29 2024-03-29 一种针对ai推理集群进行在线优化调度的方法与装置 Active CN117971502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410370829.4A CN117971502B (zh) 2024-03-29 2024-03-29 一种针对ai推理集群进行在线优化调度的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410370829.4A CN117971502B (zh) 2024-03-29 2024-03-29 一种针对ai推理集群进行在线优化调度的方法与装置

Publications (2)

Publication Number Publication Date
CN117971502A CN117971502A (zh) 2024-05-03
CN117971502B true CN117971502B (zh) 2024-06-21

Family

ID=90863005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410370829.4A Active CN117971502B (zh) 2024-03-29 2024-03-29 一种针对ai推理集群进行在线优化调度的方法与装置

Country Status (1)

Country Link
CN (1) CN117971502B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118153649A (zh) * 2024-05-13 2024-06-07 北京晟世天安科技有限公司 集成大模型训练与推理的软硬一体机和大模型训练方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461740A (zh) * 2014-12-12 2015-03-25 国家电网公司 一种跨域集群计算资源聚合和分配的方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572306B2 (en) * 2016-09-14 2020-02-25 Cloudera, Inc. Utilization-aware resource scheduling in a distributed computing cluster
CN111538586A (zh) * 2020-01-23 2020-08-14 中国银联股份有限公司 集群gpu资源管理调度系统、方法以及计算机可读存储介质
CN115759252A (zh) * 2020-06-12 2023-03-07 北京百度网讯科技有限公司 深度学习推理引擎的调度方法、装置、设备和介质
CN112231054B (zh) * 2020-10-10 2022-07-08 苏州浪潮智能科技有限公司 基于k8s集群的多模型推理服务部署方法及装置
CN114911604A (zh) * 2021-02-10 2022-08-16 华为技术有限公司 资源调度方法、装置和管理设备
CN113504966B (zh) * 2021-06-22 2023-10-31 中国科学院计算技术研究所 Gpu集群调度策略模拟方法及gpu集群模拟器
CN113485801B (zh) * 2021-06-25 2023-07-28 中国科学技术大学苏州高等研究院 基于神经网络相似度建模的实时dnn调度系统及方法
CN113674133B (zh) * 2021-07-27 2023-09-05 阿里巴巴新加坡控股有限公司 Gpu集群共享显存系统、方法、装置及设备
CN116166370A (zh) * 2021-11-23 2023-05-26 中国电子科技集团公司电子科学研究院 一种基于容器平台的智能推理服务集群化调度方法及系统
CN116360972A (zh) * 2021-12-27 2023-06-30 华为技术有限公司 资源管理方法、装置及资源管理平台
CN114510319A (zh) * 2021-12-29 2022-05-17 中国科学院信息工程研究所 一种基于Kubernetes集群GPU空间共享的方法
CN114546609A (zh) * 2022-01-13 2022-05-27 中国科学技术大学苏州高等研究院 一种面向异构集群的dnn推理任务批调度方法
CN114443249A (zh) * 2022-01-17 2022-05-06 中山大学 一种基于深度强化学习的容器集群资源调度方法及系统
CN114356587B (zh) * 2022-03-17 2022-07-05 梯度云科技(北京)有限公司 算力任务跨区域调度方法、系统及设备
CN117555669A (zh) * 2022-08-04 2024-02-13 华为云计算技术有限公司 资源调度方法、装置、计算设备集群、介质及程序产品
CN116048802A (zh) * 2023-01-16 2023-05-02 浙江大学 训练推理一体深度学习的gpu集群调度方法
CN117215764A (zh) * 2023-06-09 2023-12-12 腾讯科技(深圳)有限公司 算力资源处理方法、装置、设备及存储介质
CN116708454B (zh) * 2023-08-02 2023-12-05 之江实验室 多集群云计算系统及多集群作业分发方法
CN117076110A (zh) * 2023-08-08 2023-11-17 中国联合网络通信集团有限公司 一种资源调度方法、装置及存储介质
CN116820784B (zh) * 2023-08-30 2023-11-07 杭州谐云科技有限公司 一种面向推理任务QoS的GPU实时调度方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461740A (zh) * 2014-12-12 2015-03-25 国家电网公司 一种跨域集群计算资源聚合和分配的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
企业私有云环境下面向高性能计算的资源弹性分配算法;刘晓东;赵晓芳;金岩;罗刚;陈雅静;赵曙光;;高技术通讯;20180815(第08期);全文 *

Also Published As

Publication number Publication date
CN117971502A (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN117971502B (zh) 一种针对ai推理集群进行在线优化调度的方法与装置
US8583945B2 (en) Minimizing power consumption in computers
US7783907B2 (en) Power management of multi-processor servers
US8473768B2 (en) Power control apparatus and method for cluster system
EP1672498B1 (en) Control interfaces for distributed system applications
CN100521628C (zh) 一种可扩展动态网络监控系统及其监控方法
CN104991830A (zh) 基于服务等级协议的yarn资源分配和节能调度方法及系统
EP2524277A2 (en) Methods and apparatus for coordinated energy management in virtualized data centers
CN101346681A (zh) 企业的功率和热量管理
CN106020934A (zh) 一种基于虚拟集群在线迁移的优化部署方法
CN104252390A (zh) 资源调度方法、装置和系统
CN103701889A (zh) 一种基于云计算的数据中心节能方法
US20070124684A1 (en) Automatic power saving in a grid environment
US20130185717A1 (en) Method and system for managing power consumption due to virtual machines on host servers
JP2689836B2 (ja) 監視制御方法及び監視制御システム
CN109391038B (zh) 一种智能变电站间隔测控功能的部署方法
CN111064672A (zh) 云平台通信系统、选举方法及资源调度管理方法
CN111324460B (zh) 一种基于云计算平台的电力监测控制系统及方法
CN115277692B (zh) 边缘网络计算终端设备自动运维方法、装置和系统
CN102043676B (zh) 虚拟化数据中心调度方法及系统
Binder et al. Green computing: Energy consumption optimized service hosting
CN116028193B (zh) 一种混部集群的大数据任务动态高能效调度方法和系统
CN117251044A (zh) 一种基于arima技术的云服务器动态能耗管理方法和系统
Housseyni et al. Real-time scheduling of sporadic tasks in energy harvesting distributed reconfigurable embedded systems
CN112148462B (zh) 基于Jenkins的CICD流程的处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant