CN114860536A - 一种gpu卡的监控方法、监控系统及相关装置 - Google Patents

一种gpu卡的监控方法、监控系统及相关装置 Download PDF

Info

Publication number
CN114860536A
CN114860536A CN202210428502.9A CN202210428502A CN114860536A CN 114860536 A CN114860536 A CN 114860536A CN 202210428502 A CN202210428502 A CN 202210428502A CN 114860536 A CN114860536 A CN 114860536A
Authority
CN
China
Prior art keywords
gpu
information
service
target
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210428502.9A
Other languages
English (en)
Inventor
宋小妹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN202210428502.9A priority Critical patent/CN114860536A/zh
Publication of CN114860536A publication Critical patent/CN114860536A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种GPU卡的监控方法,包括:接收监控请求;利用普罗米修斯监控系统获取当前运行的最小资源服务单元;确定所述监控请求对应服务所应用的目标最小资源服务单元,并获取所述目标最小资源服务单元所在目标GPU卡的UUID信息;根据所述UUID信息获取所述目标GPU卡的GPU运行资源信息;所述GPU运行资源信息包括GPU利用率、显存使用量和核心占比中的至少一项。本申请可以监控非整卡的资源消耗情况,从而填补了对于非整卡资源服务监控的空缺,便于用户实时掌控GPU运行状态。本申请还提供一种GPU卡的监控系统、计算机可读存储介质和电子设备,具有上述有益效果。

Description

一种GPU卡的监控方法、监控系统及相关装置
技术领域
本申请涉及服务器信息监控领域,特别涉及一种GPU卡的监控方法、系统及相关装置。
背景技术
在集群中,GPU资源非常可贵。如果仅能部署整卡服务的话那么可以部署的服务个数将会非常有限,比如只有一张GPU卡,那么将只能部署一个整卡服务。这样会使GPU得不到充分的利用,为解决此难题,当前已经可以在k8s集群中利用非整卡资源部署的细粒度服务,即多个GPU服务运行在一张卡上,那么此时,GPU资源将得到最大限度的利用。
但同样的,由于采用非整卡部署服务,当前仅能获得硬件信息,没有对应到服务。对于要部署非整卡资源服务的集群,无法实时确认服务的运行信息,而这部分信息对用户非常重要,以便根据服务的运行信息实时调控。
发明内容
本申请的目的是提供一种GPU卡的监控方法、监控系统、计算机可读存储介质和电子设备,能够监控非整卡上的服务运行信息。
为解决上述技术问题,本申请提供一种GPU卡的监控方法,具体技术方案如下:
接收监控请求;
利用普罗米修斯监控系统获取当前运行的最小资源服务单元;
确定所述监控请求对应服务所应用的目标最小资源服务单元,并获取所述目标最小资源服务单元所在目标GPU卡的UUID信息;
根据所述UUID信息获取所述目标GPU卡的GPU运行资源信息;所述GPU运行资源信息包括GPU利用率、显存使用量和核心占比中的至少一项。
可选的,还包括:
获取所述服务的CPU资源信息和存储资源信息;
则在根据所述UUID信息获取所述目标GPU卡的运行资源信息之后,还包括:
输出包含所述CPU资源信息、所述存储资源信息和所述GPU运行资源信息的服务运行状态信息。
可选的,利用普罗米修斯监控系统获取当前运行的最小资源服务单元包括:
在普罗米修斯监控系统输入预设查询语句,获取当前运行的最小资源服务单元。
可选的,确定所述监控请求对应服务所应用的目标最小资源服务单元包括:
解析非整卡资源服务列表,确定所述监控请求对应服务包含的服务名和场景;
根据所述服务名和所述场景确定所述服务对应的所有目标最小资源服务单元。
可选的,获取所述目标最小资源服务单元所在目标GPU卡的UUID信息包括:
利用CoreV1接口确定所述目标最小资源服务单元的单元信息;
根据所述单元信息分析所述目标最小资源服务单元的环境变量确定所述目标GPU卡的UUID信息。
可选的,根据所述UUID信息获取所述目标GPU卡的GPU运行资源信息包括:
输入所述UUID信息并执行nvidia-smi-L命令,以确定UUID信息与GPU卡编号的对应关系;
根据所述GPU卡编号确定所述目标GPU卡;
利用nvidia-smi命令采集所述目标GPU卡的GPU运行资源信息。
本申请一种GPU卡的监控系统,包括:
请求接收模块,用于接收监控请求;
服务单元获取模块,用于利用普罗米修斯监控系统获取当前运行的最小资源服务单元;
UUID确定模块,用于确定所述监控请求对应服务所应用的目标最小资源服务单元,并获取所述目标最小资源服务单元所在目标GPU卡的UUID信息;
信息采集模块,用于根据所述UUID信息获取所述目标GPU卡的GPU运行资源信息;所述GPU运行资源信息包括GPU利用率、显存使用量和核心占比中的至少一项。
可选的,还包括:
服务资源信息采集模块,用于获取所述服务的CPU资源信息和存储资源信息;
运行信息输出模块,用于输出包含所述CPU资源信息、所述存储资源信息和所述GPU运行资源信息的服务运行状态信息。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本申请还提供一种电子设备,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。
本申请提供一种GPU卡的监控方法,包括:接收监控请求;利用普罗米修斯监控系统获取当前运行的最小资源服务单元;确定所述监控请求对应服务所应用的目标最小资源服务单元,并获取所述目标最小资源服务单元所在目标GPU卡的UUID信息;根据所述UUID信息获取所述目标GPU卡的GPU运行资源信息;所述GPU运行资源信息包括GPU利用率、显存使用量和核心占比中的至少一项。
本申请可以监控非整卡的资源消耗情况,能够在接收到监控请求后,获取目标最小资源服务单元所在目标GPU卡的UUID信息,进而获取相应的GPU运行资源信息,且本申请不仅可以针对非整卡,也可以针对整卡资源监控,从而填补了对于非整卡资源服务监控的空缺,便于用户实时掌控GPU运行状态。
本申请还提供一种GPU卡的监控系统、计算机可读存储介质和电子设备,具有上述有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种GPU卡的监控方法的流程图;
图2为本申请实施例所提供的一种GPU卡的监控系统结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种GPU卡的监控方法的流程图,该方法包括:
S101:接收监控请求;
本步骤接收监控请求,而对于如何接收该监控请求不作限定。该监控请求中可以包含针对某个服务的资源监控请求。对于一个服务而言,其可以包含一个或者多个最小资源服务单元(也称为“pod”),非整卡资源服务的创建实现了GPU卡的共享,也即允许多个服务运行在同一张GPU卡上,也即同一GPU卡上可能运行不同的服务,非整卡资源服务在创建的时候会对比所有还有剩余资源的GPU卡进行随机调度。
S102:利用普罗米修斯监控系统获取当前运行的最小资源服务单元;
本步骤旨在获取当前运行的最小资源服务单元,要求环境中已经部署kube-state-metrics监控组件,如此便可在普罗米修斯监控系统输入预设查询语句,获取当前运行的最小资源服务单元。一种可行方式,可以通过普罗米修斯监控系统获取到kube-state-metrics组件的kube_pod_labels的metric,并且利用它获得非整卡资源服务的最小资源服务单元。在获取最小资源服务单元的过程中,可以直接拉出当前环境中的所有最小资源服务单元。
S103:确定所述监控请求对应服务所应用的目标最小资源服务单元,并获取所述目标最小资源服务单元所在目标GPU卡的UUID信息;
本步骤旨在确定监控请求中服务所应用的目标最小资源服务单元,并确定目标最小资源服务单元所在目标GPU卡的UUID(Universally Unique Identifier,通用唯一识别码)信息。该UUID信息为GPU卡的唯一识别码,在此对于GPU卡采用何种UUID信息并不作限定,只要能作为GPU卡的唯一识别码均可。
本步骤中所确定的服务应用的目标最小资源服务单元通常至少为一个,若未查询到,表明该服务可能存在异常。若服务未出现异常,则本步骤应可以查询到服务所应用的全部目标最小资源服务单元。本步骤中目标最小资源服务单元表明为所要查询服务所应用的最小资源服务单元。
在确定目标最小资源服务单元时,一种可行的执行方式,可以解析非整卡资源服务列表,确定监控请求对应服务包含的服务名和场景,然后根据服务名和场景确定所述服务对应的所有目标最小资源服务单元。即监控请求中可以包含所需要确定的场景和服务名,由于不同场景可能存在相同的服务名,因此可以借助场景和服务名唯一确定需要监控的服务。在该执行方式中,可以事先整理得到非整卡资源服务列表,从而在接收到监控请求后,可以直接根据非整卡资源服务列表查找到服务,并确定服务所对应的目标最小资源服务单元,如此减少了查询服务对应目标最小资源服务单元的时长,提高了查询效率。
在确定目标GPU卡的UUID信息时,可以先利用CoreV1接口确定所述目标最小资源服务单元的单元信息,再根据单元信息分析目标最小资源服务单元的环境变量确定目标GPU卡的UUID信息。具体的,可以通过k8s集群的CoreV1接口read_namespaced_pod来获取最小资源服务单元的具体信息,可以通过分析最小资源服务单元的环境变量”NVIDIA_VISIBLE_DEVICES”来获取最小资源服务单元所在的卡UUID,如果获取不到此字段,那么此服务的状态可能是异常。
S104:根据所述UUID信息获取所述目标GPU卡的GPU运行资源信息;
在确定UUID信息后,相当于GPU信息被唯一确定,可以直接获取所述目标GPU卡的GPU运行资源信息,该GPU运行资源信息可以包括GPU利用率、显存使用量和核心占比中的至少一项,也就可以为其中任意几项的组合。
本步骤可以在容器中执行nvidia-smi-L命令来获取到卡UUID与卡编号的对应关系(例卡编号为0,UUID为GPU-001234-89090-c67677格式),通过nvidia-smi命令以及卡编号解析到最小资源服务单元所在卡的资源使用信息,包括GPU编号、GPU型号、温度、功率、GPU使用率、GPU显存使用量、GPU显存总量等。其中对于GPU编号、GPU型号、温度、功率、非整卡资源服务与整卡数据一致。已知非整卡资源服务的GPU卡分配上限以及GPU卡分配下限,例如一个服务的GPU卡分配下限为0.1,上限为0.2,那么规定通过上限分配比例乘上GPU显存总量就能获得此服务的GPU显存分配量,也即此服务的显存总量。对于GPU使用率,需要获取此卡上所有已经运行的最小资源服务单元,计算出每个最小资源服务单元所占的GPU占比,比如此卡上已经运行两个最小资源服务单元,第一个最小资源服务单元比例为0.1-0.2,第二个最小资源服务单元比例为0.3-0.4,那么以上限计算,第一个最小资源服务单元的使用比例占就是0.2/(0.2+0.4)=1/3,第二个所占比例为2/3,通过nvidia-smi获取到目前所运行的进程信息,若两个最小资源服务单元在同时占用GPU,可以按照比例进行计算,若只有其中一个最小资源服务单元进行GPU的占用,则卡的GPU使用率即为最小资源服务单元的GPU使用率。同理,GPU的显存使用情况也将按此方法计算。
对于用户,需要直观的获取到卡的核心占比以及显存占比,即每个服务占卡的比例是多少,显存比例是多少,通过上述操作已获得了GPU上运行的最小资源服务单元信息,将在同一张卡上的同一服务的最小资源服务单元GPU占比相加,即可获得服务在卡上的核心占比。比如服务1创建两个最小资源服务单元,分配上限为0.2,若两个最小资源服务单元均运行在GPU卡1上,那么服务1的核心占比即为0.2+0.2=0.4,若两个最小资源服务单元运行在不同的GPU卡上,那么服务1在两个GPU卡上的核心占比分别为0.2。
一种可行的执行方式中,在本步骤或者本实施例执行的同时,还可以获取服务的CPU资源信息和存储资源信息,则在执行本步骤后,可以输出包含CPU资源信息、存储资源信息和GPU运行资源信息的服务运行状态信息,从而使得用户能够清楚知晓当前服务的所有运行信息,而不局限于GPU卡的运行信息。
本申请可以监控非整卡的资源消耗情况,能够在接收到监控请求后,获取目标最小资源服务单元所在目标GPU卡的UUID信息,进而获取相应的GPU运行资源信息,且本申请不仅可以针对非整卡,也可以针对整卡资源监控,从而填补了对于非整卡资源服务监控的空缺,便于用户实时掌控GPU运行状态
下面对本申请实施例提供的一种GPU卡的监控系统进行介绍,下文描述的GPU卡的监控系统与上文描述的GPU卡的监控方法可相互对应参照。
参见图2,图2为本申请实施例所提供的一种GPU卡的监控系统结构示意图,本申请一种GPU卡的监控系统,包括:
请求接收模块,用于接收监控请求;
服务单元获取模块,用于利用普罗米修斯监控系统获取当前运行的最小资源服务单元;
UUID确定模块,用于确定所述监控请求对应服务所应用的目标最小资源服务单元,并获取所述目标最小资源服务单元所在目标GPU卡的UUID信息;
信息采集模块,用于根据所述UUID信息获取所述目标GPU卡的GPU运行资源信息;所述GPU运行资源信息包括GPU利用率、显存使用量和核心占比中的至少一项。
基于上述实施例,作为优选的实施例,还包括:
服务资源信息采集模块,用于获取所述服务的CPU资源信息和存储资源信息;
运行信息输出模块,用于输出包含所述CPU资源信息、所述存储资源信息和所述GPU运行资源信息的服务运行状态信息。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种GPU卡的监控方法,其特征在于,包括:
接收监控请求;
利用普罗米修斯监控系统获取当前运行的最小资源服务单元;
确定所述监控请求对应服务所应用的目标最小资源服务单元,并获取所述目标最小资源服务单元所在目标GPU卡的UUID信息;
根据所述UUID信息获取所述目标GPU卡的GPU运行资源信息;所述GPU运行资源信息包括GPU利用率、显存使用量和核心占比中的至少一项。
2.根据权利要求1所述的监控方法,其特征在于,还包括:
获取所述服务的CPU资源信息和存储资源信息;
则在根据所述UUID信息获取所述目标GPU卡的运行资源信息之后,还包括:
输出包含所述CPU资源信息、所述存储资源信息和所述GPU运行资源信息的服务运行状态信息。
3.根据权利要求1所述的监控方法,其特征在于,利用普罗米修斯监控系统获取当前运行的最小资源服务单元包括:
在普罗米修斯监控系统输入预设查询语句,获取当前运行的最小资源服务单元。
4.根据权利要求1或3所述的监控方法,其特征在于,确定所述监控请求对应服务所应用的目标最小资源服务单元包括:
解析非整卡资源服务列表,确定所述监控请求对应服务包含的服务名和场景;
根据所述服务名和所述场景确定所述服务对应的所有目标最小资源服务单元。
5.根据权利要求4所述的监控方法,其特征在于,获取所述目标最小资源服务单元所在目标GPU卡的UUID信息包括:
利用CoreV1接口确定所述目标最小资源服务单元的单元信息;
根据所述单元信息分析所述目标最小资源服务单元的环境变量确定所述目标GPU卡的UUID信息。
6.根据权利要求5所述的监控方法,其特征在于,根据所述UUID信息获取所述目标GPU卡的GPU运行资源信息包括:
输入所述UUID信息并执行nvidia-smi-L命令,以确定UUID信息与GPU卡编号的对应关系;
根据所述GPU卡编号确定所述目标GPU卡;
利用nvidia-smi命令采集所述目标GPU卡的GPU运行资源信息。
7.一种GPU卡的监控系统,其特征在于,包括:
请求接收模块,用于接收监控请求;
服务单元获取模块,用于利用普罗米修斯监控系统获取当前运行的最小资源服务单元;
UUID确定模块,用于确定所述监控请求对应服务所应用的目标最小资源服务单元,并获取所述目标最小资源服务单元所在目标GPU卡的UUID信息;
信息采集模块,用于根据所述UUID信息获取所述目标GPU卡的GPU运行资源信息;所述GPU运行资源信息包括GPU利用率、显存使用量和核心占比中的至少一项。
8.根据权利要求7所述的监控系统,其特征在于,还包括:
服务资源信息采集模块,用于获取所述服务的CPU资源信息和存储资源信息;
运行信息输出模块,用于输出包含所述CPU资源信息、所述存储资源信息和所述GPU运行资源信息的服务运行状态信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的GPU卡的监控方法的步骤。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1-6任一项所述的GPU卡的监控方法的步骤。
CN202210428502.9A 2022-04-22 2022-04-22 一种gpu卡的监控方法、监控系统及相关装置 Pending CN114860536A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210428502.9A CN114860536A (zh) 2022-04-22 2022-04-22 一种gpu卡的监控方法、监控系统及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210428502.9A CN114860536A (zh) 2022-04-22 2022-04-22 一种gpu卡的监控方法、监控系统及相关装置

Publications (1)

Publication Number Publication Date
CN114860536A true CN114860536A (zh) 2022-08-05

Family

ID=82632816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210428502.9A Pending CN114860536A (zh) 2022-04-22 2022-04-22 一种gpu卡的监控方法、监控系统及相关装置

Country Status (1)

Country Link
CN (1) CN114860536A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009091A (zh) * 2023-10-07 2023-11-07 浪潮(山东)计算机科技有限公司 一种资源调整方法、装置、设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009091A (zh) * 2023-10-07 2023-11-07 浪潮(山东)计算机科技有限公司 一种资源调整方法、装置、设备及可读存储介质
CN117009091B (zh) * 2023-10-07 2023-12-19 浪潮(山东)计算机科技有限公司 一种资源调整方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN108370341B (zh) 资源配置方法、虚拟网络功能管理器和网元管理系统
CN108282514B (zh) 一种分布式业务建立方法及装置
EP2996366A1 (en) Application recommendation method, system and server
CN111399764B (zh) 数据存储方法、读取方法、装置、设备及存储介质
CN109213493B (zh) 容器部署方法、特殊资源管理终端及可读存储介质
CN112463375A (zh) 一种数据处理的方法和装置
CN111309440B (zh) 一种多类型gpu的管理调度的方法和设备
CN112698952A (zh) 计算资源统一管理方法、装置、计算机设备及存储介质
CN113672500B (zh) 深度学习算法的测试方法、装置、电子装置和存储介质
CN110933178A (zh) 调整集群系统内的节点配置的方法及服务器
CN108446171A (zh) 电子装置、分布式系统执行任务分配方法及存储介质
CN108959046B (zh) 一种信息处理方法、设备及装置
CN112631780A (zh) 资源调度方法和装置、存储介质及电子设备
CN114860536A (zh) 一种gpu卡的监控方法、监控系统及相关装置
CN112152874A (zh) 分布式系统中应用监控数据的采集与分析系统及方法
CN109586970B (zh) 资源分配方法、装置及系统
CN114816753A (zh) 一种数据集群计算节点扩缩方法、装置、设备及介质
CN113422808A (zh) 物联网平台http信息推送方法、系统、装置及介质
CN112463305A (zh) 一种云端虚拟化gpu的管理方法、系统及相关装置
CN110347546B (zh) 监控任务动态调整方法、装置、介质及电子设备
CN111625344B (zh) 应用系统中的资源调度系统、方法及装置
CN111444074A (zh) 一种数据监控方法、装置、电子设备及可读存储介质
CN115858007A (zh) 扩展组件的加载方法和装置、存储介质及电子装置
CN115379019A (zh) 一种服务调度方法、装置、设备及存储介质
CN114090201A (zh) 资源调度方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination