CN115373860A

CN115373860A - Gpu任务的调度方法、装置、设备和存储介质

Info

Publication number: CN115373860A
Application number: CN202211316748.3A
Authority: CN
Inventors: 刘国明
Original assignee: Xiaomi Automobile Technology Co Ltd
Current assignee: Xiaomi Automobile Technology Co Ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2022-11-22
Anticipated expiration: 2042-10-26
Also published as: CN115373860B

Abstract

本公开提供了一种GPU任务的调度方法、装置、设备和存储介质，涉及计算机技术领域。具体实现方案为：响应于接收到待处理任务，确定当前GPU集群中各个GPU节点中空闲GPU卡的数量；确定每个所述空闲GPU卡的第一功耗值；根据所述各个GPU节点中空闲GPU卡的数量及每个所述空闲GPU卡的第一功耗值，从所述各个GPU节点中获取目标GPU节点；将所述待处理任务下发给所述目标GPU节点。由此，考虑到任务在不同的GPU卡中处理时功耗可能不同的特点，对任务进行调度，从而使得整个GPU集群的功耗有效降低，达到了低碳和节省运营成本的效果。

Description

GPU任务的调度方法、装置、设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及GPU任务的调度方法、装置、设备和存储介质。

背景技术

随着人工智能产业的蓬勃发展，各大企业都会建立自己的图形处理器（GraphicsProcessing Unit，GPU）集群并运营。由于GPU生产商每年都会推出新产品并投放到市面上，各大企业也会逐步补充到自家的GPU集群。因此，现在的GPU集群往往包含多种GPU类型的节点。

相关技术中，通常是根据GPU集群中GPU节点计算资源的多少对任务进行分配，没有考虑到GPU类型对集群功耗的影响，使得整个GPU集群的功耗非常高。

发明内容

本公开提供了一种GPU任务的调度方法和装置。

根据本公开的第一方面，提供了一种GPU任务的调度方法，包括：

响应于接收到待处理任务，确定当前GPU集群中各个GPU节点中空闲GPU卡的数量；

确定每个所述空闲GPU卡的第一功耗值；

根据所述各个GPU节点中空闲GPU卡的数量及每个所述空闲GPU卡的第一功耗值，从所述各个GPU节点中获取目标GPU节点；

将所述待处理任务下发给所述目标GPU节点。

根据本公开的第二方面，提供了一种GPU任务的调度装置，包括：

第一确定模块，用于响应于接收到待处理任务，确定当前GPU集群中各个GPU节点中空闲GPU卡的数量；

第二确定模块，用于确定每个所述空闲GPU卡的第一功耗值；

获取模块，用于根据所述各个GPU节点中空闲GPU卡的数量及每个所述空闲GPU卡的第一功耗值，从所述各个GPU节点中获取目标GPU节点；

下发模块，用于将所述待处理任务下发给所述目标GPU节点。

本公开第三方面实施例提出的电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本公开第一方面实施例提出的GPU任务的调度方法。

本公开第四方面实施例提出的非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开第一方面实施例提出的GPU任务的调度方法。

本公开第五方面实施例提出的计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本公开第一方面实施例提出的GPU任务的调度方法。

通过本公开可以实现以下有益效果：

本公开实施例中，服务器首先响应于接收到待处理任务，确定当前GPU集群中各个GPU节点中空闲GPU卡的数量，然后确定每个空闲GPU卡的第一功耗值，之后根据各个GPU节点中空闲GPU卡的数量及每个空闲GPU卡的第一功耗值，从各个GPU节点中获取目标GPU节点，最后将待处理任务下发给目标GPU节点。由此，考虑到任务在不同的GPU卡中处理时功耗可能不同的特点，对任务进行调度，从而使得整个GPU集群的功耗有效降低，达到了低碳和节省运营成本的效果，由于考虑了每个GPU节点中各个空闲GPU卡的数量，因而在选择目标GPU节点时，可以首先利用空闲GPU卡比较少的GPU节点作为目标GPU节点，也即可以使得任务分配后，仅目标GPU节点的计算密度较高，从而可以降低整个GPU集群的GPU节点的计算密度，从而便于之后的任务调度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种GPU任务的调度方法的流程图；

图2是根据本公开实施例提供的又一种GPU任务的调度方法的流程图；

图3是根据本公开实施例提供的一种GPU任务的调度装置的结构框图；

图4是用来实现本公开实施例的GPU任务的调度方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面结合参考附图描述本公开实施例的GPU任务的调度方法、装置、电子设备和存储介质。

其中，需要说明的是，本实施例的GPU任务的调度方法可以由GPU任务的调度装置执行，GPU任务的调度装置包括但不限于独立的服务器、分布式服务器、服务器集群、云服务器、智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assistant，PDA)、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)等，在此不做限定，下面以“服务器”作为执行主体，来对本公开提出的GPU任务的调度方法进行说明。

图1是本公开一实施例提出的GPU任务的调度方法的流程示意图。

如图1所示，本公开提供了一种GPU任务的调度方法，其中，所述方法包括：

步骤101，响应于接收到待处理任务，确定当前GPU集群中各个GPU节点中空闲GPU卡的数量。

其中，待处理任务可以为当前待分配给GPU节点以进行处理的任务。

其中，GPU集群可以为多个物理计算机组成的集群，其中，每台物理计算机中包含了多张GPU卡。

其中，GPU节点可以为GPU集群中任一可分配任务的物理计算机，每个GPU节点中带有多张GPU卡。

其中，空闲GPU卡可以为GPU节点中未使用的GPU卡。

具体来说，当某个应用程序或者某项服务需要利用GPU资源时，会发起需要调度GPU资源的任务请求，服务器接收到任务请求中的待处理任务，从而之后可以对GPU集群中每个GPU节点中各个GPU卡的使用情况进行监测，从而确定每个GPU节点中包含的空闲GPU卡的数量。

可选的，服务器在接收到待处理任务之后，可以首先在GPU集群中所有的GPU节点中过滤掉不符合要求的GPU节点，比如被各个GPU卡均正在使用的GPU节点，也即说明此时该GPU节点被任务占满，无法处理新的任务。之后，服务器可以各个可用的GPU节点中空闲GPU卡的数量进行监测。

可选的，服务器也可将GPU节点中空闲的GPU卡的数量大于或等于待处理任务所需的GPU资源（GPU卡）数量的GPU节点标记为可用的GPU节点。由此，只有被标记为可用的GPU节点才可进入后续的分配流程，进而提升了后续GPU资源分配的速度以及准确性。

举例来说，若服务器在接收到待处理任务的任务请求中携带的完成该待处理任务需要的GPU资源（GPU卡）的数量为3，因而，服务器在确定当前GPU集群中各个GPU节点中空闲GPU卡的数量之后，可以将空闲GPU卡的数量小于3的GPU节点过滤掉，并将空闲GPU卡的数量大于或者等于3的GPU节点进行保留，从而用于之后待处理任务的GPU任务调度，在此不做限定。

步骤102，确定每个空闲GPU卡的第一功耗值。

其中，第一功耗值可以为GPU卡在处理待处理任务时可能产生的最大功耗值。

可选的，服务器可以基于预设的映射关系，根据每个空闲GPU卡的GPU类型，确定与GPU类型对应的第一功耗值。

需要说明的是，随着GPU产品的不断更新和推出，GPU集群也不断地加入新类型的GPU，从而使得GPU集群中往往包含多种GPU类型的节点，而同一个任务，在不同类型的GPU节点中的功耗是不同的。比如，任务x在GPU节点A中的功耗是a，在GPU节点B中的功耗则可能是b（a≠b），因而，对任务不同的调度方法，对导致GPU集群的功耗也完全不同。

本公开中，可以预先对任务在不同类型的GPU卡中功耗进行记录，从而可以得到一个GPU类型与第一功耗值的映射关系表，用于记录不同类型的GPU与第一功耗值的对应关系。从而，服务器在确定了GPU节点中各个空闲GPU卡之后，可以确定GPU集群中每个空闲GPU卡的第一功耗值。

步骤103，根据各个GPU节点中空闲GPU卡的数量及每个空闲GPU卡的第一功耗值，从各个GPU节点中获取目标GPU节点。

其中，目标GPU节点可以为待接收待处理任务以进行处理的GPU节点。

本公开实施例中，可以首先根据各个GPU节点中空闲GPU卡的数量及每个空闲GPU卡的第一功耗值，确定GPU集群中各个GPU节点的排序，之后根据各个GPU节点的优先级，从各个GPU节点中获取目标GPU节点。

可选的，服务器可以首先确定各个GPU节点中空闲GPU卡的数量，之后可以按照各个GPU节点中空闲GPU卡的数量从小到大的顺序，对各个GPU节点进行初始排序，然后服务器可以根据每个GPU节点中各个空闲GPU卡的第一功耗值，计算每个GPU节点对应的第一功耗值之和，然后根据各个GPU节点对应的第一功耗值之和从小到大的顺序，对初始排序进行调整，从而可以确定各个GPU节点的最终排序，最后可以根据该最终排序，从各个GPU节点中获取目标GPU节点，比如，可以把排在第一位的GPU节点作为目标GPU节点，在此不做限定。

举例来说，若GPU集群中各个GPU节点a、b、c、d、e对应的空闲GPU卡的数量分别为8、6、4、9、3，则可以确定各个GPU节点的初始排序为e、c、b、a、d，若a、b、c、d、e分别对应的各个空闲GPU卡的第一功耗值之和为14、14、14、10、8，则可以对初始排序e、c、b、a、d进行调整，从而可以得到最终排序为d、a、e、c、b，进而可以将GPU节点d作为目标GPU节点。

需要说明的是，该举例仅为一种示意性说明，对本公开不作为限定。

步骤104，将待处理任务下发给目标GPU节点。

具体的，服务器可以在确定了目标GPU节点之后，即可将待处理任务下发给目标GPU节点，以使目标GPU节点中的空闲GPU卡对待处理任务进行处理。

可选的，服务器可以控制未接收待处理任务的GPU节点的空闲GPU卡进入低功耗状态。

可以理解的是，若未接收待处理任务的任一GPU节点的各个GPU卡均处于空闲状态，则服务器可以调整配置该任一GPU节点，以使其进入低功耗待机状态，若任一GPU节点的各个GPU卡均处于空闲状态，则服务器可以调整配置该任一GPU节点，以使其进入低功耗待机状态。若未接收待处理任务的任一GPU节点的部分GPU卡均处于空闲状态，则服务器则可以调整配置该任一GPU节点的空闲GPU卡，以使空闲GPU卡进入低功耗待机状态，从而可以降低整个GPU集群的能耗。

图2是本公开又一实施例提出的GPU任务的调度方法的流程示意图。

如图2所示，本公开提供了一种GPU任务的调度方法，其中，所述方法包括：

步骤201，响应于接收到待处理任务，确定当前GPU集群中各个GPU节点中空闲GPU卡的数量。

步骤202，确定每个所述空闲GPU卡的第一功耗值。

需要说明的是，步骤201、202的具体实现方式可以参照上述实施例，在此不进行赘述。

步骤203，基于各个GPU节点中空闲GPU卡的数量，确定各个GPU组的第一排序，其中，每个GPU组中包含的各GPU节点中包含的空闲GPU卡的数量相同。

需要说明的是，在GPU集群中，可以将具有相同数量空闲GPU卡的GPU节点视为一组，也即GPU组。比如，在GPU集群中，GPU节点u1和u2都包含了6张空闲GPU卡，则可以将u1和u2视为同一组GPU，在此不做限定。

其中，第一排序可以为GPU组的排序。

具体的，可以按照每个GPU组中GPU节点中所包含空闲GPU卡的数量，对GPU组进行排序。

比如，若GPU组X1中各个GPU节点包含的空闲GPU卡的数量相同，均为T1，GPU组X2中各个GPU节点包含的空闲GPU卡的数量相同，均为T2，且T1<T2，因而可以确定GPU组X1和GPU组X2的第一排序为X1、X2。

举例来说，在GPU集群中，GPU节点W1包含1个空闲GPU卡、GPU节点W2包含5个空闲GPU卡、GPU节点W3包含5个空闲GPU卡、GPU节点W4包含5个空闲GPU卡、GPU节点W5包含5个空闲GPU卡、GPU节点W6包含8个空闲GPU卡、GPU节点W7包含8个空闲GPU卡。

其中，由于GPU节点W2、W3、W4、W5均包含5个空闲GPU卡，则可以将GPU节点W2、W3、W4、W5视为同一组GPU节点，GPU节点W6、W7均包含8个空闲GPU卡，因而可以视为同一组GPU节点，其中，GPU节点W1也可以视为单独的一组。

因而可以确定3个GPU组，分别记为GPU组Y1、GPU组Y2、GPU组Y3，其中，GPU组Y1中包含W1，GPU组Y2中包含W2、W3、W4、W5，GPU组Y3中包含W6、W7，也即可以按照GPU组中GPU节点中包含的空闲GPU卡的数量的顺序，也即1、5、8，确定3个GPU组的第一排序，也即Y1、Y2、Y3。

需要说明的是，上述示例仅为一种示意性说明，对本公开不构成限定。

步骤204，基于每个GPU节点中包含的各空闲GPU卡的第一功耗值，对每个GPU组中包含的各GPU节点进行排序，以确定每个GPU组各GPU节点的组内排序。

其中，组内排序可以为对同一组GPU中各个GPU节点的排序，其中，若任一GPU组中只包含了一个GPU节点，则无需对该任一GPU组进行组内排序。

具体的，服务器可以首先计算GPU组中包含的每个GPU节点中包含的各空闲GPU卡的第一功耗值之和，然后根据该第一功耗值之和，对各个GPU节点进行排序。

可选的，服务器可以首先将每个GPU节点的空闲GPU卡的第一功耗值之和，确定为每个GPU节点对应的第二功耗值，之后根据所述第二功耗值从小到大的顺序，对所述每个GPU组中包含的GPU节点进行排序，以确定所述每个GPU组对应的组内排序。

其中，第二功耗值可以为任一GPU节点中包含的各个空闲GPU卡的第一功耗值之和。

举例来说，若GPU节点A中包含了4张空闲GPU卡，4张空闲GPU卡对应的第一功耗值分别为2、7、9、12，由于2+7+9+12=30，则可以将30作为GPU节点A对应的第二功耗值。

若在当前GPU组中包含的各GPU节点分别为A、B、C、D，其中，A、B、C、D对应的第二功耗值分别为18、20、5、7，由于5<7<18<20，则可以确定当前GPU组对应的组内排序为C、D、A、B。

需要说明的是，上述举例仅为一种示意性说明，对本公开不构成限定。

步骤205，根据每个GPU组对应的组内排序，以及各个GPU组的第一排序，确定GPU集群中各个GPU节点的第二排序。

其中，第二排序可以为GPU集群中各个GPU节点的综合排序，也即各个GPU组中各个GPU节点的排序。

具体的，在得到了GPU组中各个GPU节点的组内排序，以及各个GPU组的第一排序之后，服务器即可确定各个GPU组中各个GPU节点在一起的综合排序，也即第二排序。

举例来说，当前GPU集群中各个GPU组的第一排序为S1、S2、S3、S4，其中，GPU组S1中各个GPU节点的组内排序为R1、R2、R3，GPU组S2中各个GPU节点的组内排序为R4、R5、R6，GPU组S3中各个GPU节点的组内排序为R7、R8、R9，GPU组S4中各个GPU节点的组内排序为R10、R11、R12，因而可以确定当前GPU集群中各个GPU节点的第二排序为R1、R2、R3、R4、R5、R6、R7、R8、R9、R10、R11、R12。

可选的，服务器还可以响应于任一GPU节点中包含的GPU卡均为空闲GPU卡，然后将任一GPU节点对应的CPU待机功率，与任一GPU节点对应的第二功耗值相加，以得到任一GPU节点的第三功耗值，之后基于任一GPU节点的第三功耗值，对GPU集群中各个GPU节点的第二排序进行调整。

需要说明的是，若任一GPU节点中包含的GPU卡均为空闲GPU卡，则说明此时该任一GPU节点处于完全空闲的状态，且该GPU节点所对应的物理计算机的CPU也处于待机状态，此时服务器可以将该任一GPU节点对应的CPU待机功率和第二功耗值相加，从而得到该任一GPU节点的第三功耗值。

举例来说，若GPU节点X对应的第二功耗值为36，CPU待机功率为25，此时则可以计算该GPU节点X对应的第三功耗值为61，在此不做限定。进一步地，可以根据该GPU节点X对应的第三功耗值对第二排序进行调整，比如当前的第二排序为GPU节点1、GPU节点2、GPU节点3、GPU节点4，其中，GPU节点1、GPU节点2、GPU节点3、GPU节点4对应的第二功耗值分别为15、20、30、50，由于GPU节点3包含的GPU卡均为空闲GPU卡，且对应的第三功耗值为61，则可以调整当前各个GPU节点的排序为GPU节点1、GPU节点2、GPU节点4、GPU节点3。

步骤206，基于第二排序，从各个GPU节点中获取目标GPU节点。

可选的，服务器可以按照第二排序从前至后的顺序，从各个GPU节点中获取与待处理任务数量相同的GPU节点作为目标GPU节点。

举例来说，若第二排序为GPU节点1、GPU节点2、GPU节点3、GPU节点4，且当前的待处理任务只有一个，则可以将GPU节点1作为目标GPU节点。若待处理任务的数量为2个，则可以把GPU节点1和GPU节点2均作为目标GPU节点，在此不做限定。

步骤207，将待处理任务下发给目标GPU节点。

需要说明的是，步骤207的具体实现方式可以参照上述实施例，在此不进行赘述。

本公开实施例中，首先基于各个GPU节点中空闲GPU卡的数量，确定各个GPU组的第一排序，对拟分配节点的空闲GPU数进行了考量，从而实现了任务占满优先，通过将任务集中在容易占满的GPU节点中，从而可以让GPU集群中其他没有被分配到任务的节点进入低功耗状态。然后服务器基于每个GPU节点中包含的各空闲GPU卡的第一功耗值，对每个GPU组中包含的各GPU节点进行排序，并根据所述每个GPU组对应的组内排序，以及所述各个GPU组的第一排序，确定所述GPU集群中各个GPU节点的第二排序，并基于第二排序进行任务调度，从而对拟分配GPU节点的整体功耗值进行了考量，考虑到不同的空闲GPU卡功耗值可能是不同的，从而可以让未被分配到任务的GPU节点为主要包含高功耗GPU卡的节点处于低功耗待机状态，使得包含低功耗GPU卡的GPU节点优先被使用。任务分配非常精细、高效、在满足了任务被正常处理的情况下，使得整个GPU集群的功耗有效降低，还节省了企业运营成本，提升了企业的竞争力。

图3是本公开一实施例提出的GPU任务的调度装置的结构示意图。

如图3所示，该GPU任务的调度装置300，包括：

第一确定模块310，用于响应于接收到待处理任务，确定当前GPU集群中各个GPU节点中空闲GPU卡的数量；

第二确定模块320，用于确定每个所述空闲GPU卡的第一功耗值；

获取模块330，用于根据所述各个GPU节点中空闲GPU卡的数量及每个所述空闲GPU卡的第一功耗值，从所述各个GPU节点中获取目标GPU节点；

下发模块340，用于将所述待处理任务下发给所述目标GPU节点。

可选的，所述第二确定模块，具体用于：

基于预设的映射关系，根据每个所述空闲GPU卡的GPU类型，确定与所述GPU类型对应的第一功耗值。

可选的，所述获取模块，包括：

第一确定单元，用于基于所述各个GPU节点中空闲GPU卡的数量，确定各个GPU组的第一排序，其中，每个所述GPU组中包含的各GPU节点中包含的空闲GPU卡的数量相同；

排序单元，用于基于每个GPU节点中包含的各空闲GPU卡的第一功耗值，对每个GPU组中包含的各GPU节点进行排序，以确定每个GPU组各GPU节点的组内排序；

第二确定单元，用于根据所述每个GPU组对应的组内排序，以及所述各个GPU组的第一排序，确定所述GPU集群中各个GPU节点的第二排序；

获取单元，用于基于所述第二排序，从所述各个GPU节点中获取目标GPU节点。

可选的，所述排序单元，具体用于：

将每个所述GPU节点的所述空闲GPU卡的第一功耗值之和，确定为每个所述GPU节点对应的第二功耗值；

根据所述第二功耗值从小到大的顺序，对所述每个GPU组中包含的GPU节点进行排序，以确定所述每个GPU组对应的组内排序。

可选的，所述获取单元，具体用于：

按照所述第二排序从前至后的顺序，从所述各个GPU节点中获取与所述待处理任务数量相同的GPU节点作为目标GPU节点。

可选的，所述第二确定单元，还用于：

响应于任一GPU节点中包含的GPU卡均为空闲GPU卡，

将所述任一GPU节点对应的CPU待机功率，与所述任一GPU节点对应的第二功耗值相加，以得到所述任一GPU节点的第三功耗值；

基于所述任一GPU节点的第三功耗值，对所述GPU集群中各个GPU节点的第二排序进行调整。

可选的，该装置还包括：

控制模块，用于控制未接收所述待处理任务的GPU节点的空闲GPU卡进入低功耗状态。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，设备400包括计算单元401，其可以根据存储在只读存储器（ROM）402中的计算机程序或者从存储单元408加载到随机访问存储器（RAM）403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出（I/O）接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如所述GPU任务的调度方法。例如，在一些实施例中，所述GPU任务的调度方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的所述GPU任务的调度方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行所述GPU任务的调度方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种GPU任务的调度方法，其特征在于，包括：

确定每个所述空闲GPU卡的第一功耗值；

将所述待处理任务下发给所述目标GPU节点。

2.根据权利要求1所述的方法，其特征在于，所述确定每个所述空闲GPU卡的第一功耗值，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述各个GPU节点中空闲GPU卡的数量及每个所述空闲GPU卡的第一功耗值，从所述各个GPU节点中获取目标GPU节点，包括：

基于所述各个GPU节点中空闲GPU卡的数量，确定各个GPU组的第一排序，其中，每个所述GPU组中包含的各GPU节点中包含的空闲GPU卡的数量相同；

基于每个GPU节点中包含的各空闲GPU卡的第一功耗值，对每个GPU组中包含的各GPU节点进行排序，以确定每个GPU组各GPU节点的组内排序；

根据所述每个GPU组对应的组内排序，以及所述各个GPU组的第一排序，确定所述GPU集群中各个GPU节点的第二排序；

基于所述第二排序，从所述各个GPU节点中获取目标GPU节点。

4.根据权利要求3所述的方法，其特征在于，所述基于每个GPU节点中包含的各空闲GPU卡的第一功耗值，对每个GPU组中包含的各GPU节点进行排序，以确定每个GPU组各GPU节点的组内排序，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述第二排序，从所述各个GPU节点中获取目标GPU节点，包括：

6.根据权利要求3所述的方法，其特征在于，在所述根据所述每个GPU组对应的组内排序，以及所述各个GPU组的第一排序，确定所述GPU集群中各个GPU节点的第二排序之后，还包括：

响应于任一GPU节点中包含的GPU卡均为空闲GPU卡，

7.根据权利要求1所述的方法，其特征在于，还包括：

控制未接收所述待处理任务的GPU节点的空闲GPU卡进入低功耗状态。

8.一种GPU任务的调度装置，其特征在于，包括：

第二确定模块，用于确定每个所述空闲GPU卡的第一功耗值；

下发模块，用于将所述待处理任务下发给所述目标GPU节点。

9.根据权利要求8所述的装置，其特征在于，所述第二确定模块，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述获取模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述排序单元，具体用于：

12.根据权利要求10所述的装置，其特征在于，所述获取单元，具体用于：

13.根据权利要求10所述的装置，其特征在于，所述第二确定单元，还用于：

响应于任一GPU节点中包含的GPU卡均为空闲GPU卡，

14.根据权利要求8所述的装置，其特征在于，还包括：

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，其中，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。