CN110688218A

CN110688218A - 资源调度方法及装置

Info

Publication number: CN110688218A
Application number: CN201910837021.1A
Authority: CN
Inventors: 房体盈
Original assignee: Guangdong Inspur Big Data Research Co Ltd
Current assignee: Guangdong Inspur Smart Computing Technology Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-01-14
Anticipated expiration: 2039-09-05
Also published as: CN110688218B

Abstract

本发明涉及计算机技术领域，特别是涉及一种资源调度方法及装置。该方法包括：当接收到资源调度请求时，确定调度请求条件，调度请求条件包括目标GPU个数，及每个GPU资源的目标显存大小；获取集群资源缓存装置中缓存的节点信息，并依据各个节点信息，选取满足调度请求条件的目标计算节点；在目标计算节点中创建docker，将目标计算节点与docker绑定，并将各个空闲GPU资源挂载至docker中，以使docker在目标计算节点中调用各个空闲GPU资源，完成资源调度任务。应用该方法，可以合理地利用各个空闲GPU资源中的显存，提高每个空闲GPU资源的利用率，防止空闲GPU资源中剩余显存的浪费。

Description

资源调度方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种资源调度方法及装置。

背景技术

在人工智能时代，当算法工程师需要对各种机器模型进行大量的深度学习时，通常需要docker容器作为训练环境，以使机器模型依据该训练环境进行学习和训练。在一定训练条件下，也可使用图形处理器GPU资源结合docker进行处理计算，以提高机器模型的训练速度。

当使用GPU资源提高训练速度时，在执行训练任务的过程中，GPU资源的使用率不会太高，一个训练任务可能会占用分别占用多个GPU资源，但每个训练任务并不能100％占用每个GPU资源的显存，例如在很长的训练时间内，该训练任务只占了每个GPU资源的30％或50％的显存大小，而每个GPU资源剩余的显存通常处于闲置状态。因此，现有的各个GPU资源的使用方式，并不能充分且合理地利用整个GPU资源的所有显存，导致各个GPU资源的利用率较低，造成GPU资源的浪费。

发明内容

有鉴于此，本发明提供了一种资源调度方法，通过该方法，合理地利用各个GPU资源中的所有显存，提高每个GPU资源的利用率，防止GPU资源的浪费。

本发明还提供了一种资源调度装置，用以保证上述方法在实际中的实现及应用。

一种资源调度方法，包括：

当接收到用户发送的资源调度请求时，确定与所述资源调度请求对应的调度请求条件，所述调度请求条件包括图形处理器GPU资源的目标GPU个数，及每个所述GPU资源对应的目标显存大小；

获取预先设置的集群资源缓存装置中预先缓存的每个计算节点的节点信息，并依据各个所述节点信息，选取满足所述调度请求条件的目标计算节点；

在所述目标计算节点中创建与所述资源调度请求对应的容器docker，将所述目标计算节点与所述docker进行绑定，并将所述目标计算节点中的各个空闲GPU资源挂载至所述docker中，以使所述docker在所述目标计算节点中调用各个所述空闲GPU资源，完成与所述资源调度请求对应的资源调度任务。

上述的方法，可选的，所述集群资源缓存装置缓存每个计算节点的节点信息的过程，包括：

设置与各个所述计算节点对应的监控周期，并调用预先设置的各个资源上报装置依据所述监控周期分别监控各个所述计算节点，获得每个所述资源上报装置反馈的每个所述计算节点的节点信息；

将各个所述节点信息发送至所述集群资源缓存装置，触发所述集群资源缓存装置缓存每个所述计算节点的节点信息。

上述的方法，可选的，所述依据各个所述节点信息，选取满足所述调度请求条件的目标计算节点，包括：

获取每个所述节点信息中的GPU信息，每个所述GPU信息包括与其对应的计算节点中各个空闲GPU资源的空闲GPU个数，及每个所述空闲GPU资源对应的剩余显存大小；

依据每个所述GPU信息中每个所述空闲GPU资源的剩余显存大小，确定每个所述计算节点中的总剩余显存大小，并依据所述调度请求条件计算与所述资源调度请求对应的总目标显存大小；

依据每个所述计算节点对应的空闲GPU个数及总剩余显存大小，从各个所述计算节点中，确定空闲GPU个数不小于所述目标GPU个数，且总剩余显存大小不小于所述总目标显存大小第一候选计算节点；

将每个所述第一候选计算节点按照与其对应的空闲GPU个数，及总剩余显存大小由小至大进行排序，并依次选取每个所述第一候选计算节点，判断每个所述第一候选计算节点中每个所述空闲GPU资源对应的剩余显存大小，是否满足所述调度请求条件中每个所述GPU资源对应的目标显存大小；

若当前选取的第一候选计算节点中每个所述空闲GPU资源对应的剩余显存大小，满足所述调度请求条件中每个所述GPU资源对应的目标显存大小，则确定所述当前选取的第一候选计算节点为目标计算节点。

上述的方法，可选的，从各个所述计算节点中，确定空闲GPU个数不小于所述目标GPU个数，且总剩余显存大小不小于所述总目标显存大小第一候选计算节点后，还包括：

获取每个所述第一候选计算节点的节点信息中包含的各个空闲GPU资源的绑定信息；

依据每个所述第一候选计算节点对应的绑定信息，从各个所述第一候选计算节点中，选取各个所述空闲GPU资源未绑定在同一物理卡上的第二候选计算节点；

将每个所述第二候选计算节点按照与其对应的空闲GPU个数，及总剩余显存大小由小至大进行排序，并依次选取每个所述第二候选计算节点，判断每个所述第二候选计算节点中每个所述空闲GPU资源对应的剩余显存大小，是否满足所述调度请求条件中每个所述GPU资源对应的目标显存大小；

若当前选取的第二候选计算节点中每个所述空闲GPU资源对应的剩余显存大小，满足所述调度请求条件中每个所述GPU资源对应的目标显存大小，则确定所述当前选取的第二候选计算节点为目标计算节点。

上述的方法，可选的，将所述目标计算节点与所述docker进行绑定后，还包括：

获取所述目标计算节点对应的学习训练模型，并将所述目标计算节点中的docker及各个所述空闲GPU资源输入所述学习训练模型，以使所述学习训练模型依据所述docker及各个所述空闲GPU资源进行学习训练。

一种资源调度装置，包括：

确定单元，用于当接收到用户发送的资源调度请求时，确定与所述资源调度请求对应的调度请求条件，所述调度请求条件包括图形处理器GPU资源的目标GPU个数，及每个所述GPU资源对应的目标显存大小；

选取单元，用于获取预先设置的集群资源缓存装置中预先缓存的每个计算节点的节点信息，并依据各个所述节点信息，选取满足所述调度请求条件的目标计算节点；

创建单元，用于在所述目标计算节点中创建与所述资源调度请求对应的容器docker，将所述目标计算节点与所述docker进行绑定，并将所述目标计算节点中的各个空闲GPU资源挂载至所述docker中，以使所述docker在所述目标计算节点中调用各个所述空闲GPU资源，完成与所述资源调度请求对应的资源调度任务。

上述的装置，可选的，还包括：

缓存单元，用于设置与各个所述计算节点对应的监控周期，并调用预先设置的各个资源上报装置依据所述监控周期分别监控各个所述计算节点，获得每个所述资源上报装置反馈的每个所述计算节点的节点信息；将各个所述节点信息发送至所述集群资源缓存装置，触发所述集群资源缓存装置缓存每个所述计算节点的节点信息。

上述的装置，可选的，所述选取单元，包括：

第一获取子单元，用于获取每个所述节点信息中的GPU信息，每个所述GPU信息包括与其对应的计算节点中各个空闲GPU资源的空闲GPU个数，及每个所述空闲GPU资源对应的剩余显存大小；

计算子单元，用于依据每个所述GPU信息中每个所述空闲GPU资源的剩余显存大小，确定每个所述计算节点中的总剩余显存大小，并依据所述调度请求条件计算与所述资源调度请求对应的总目标显存大小；

第一确定子单元，用于依据每个所述计算节点对应的空闲GPU个数及总剩余显存大小，从各个所述计算节点中，确定空闲GPU个数不小于所述目标GPU个数，且总剩余显存大小不小于所述总目标显存大小第一候选计算节点；

第一排序子单元，用于将每个所述第一候选计算节点按照与其对应的空闲GPU个数，及总剩余显存大小由小至大进行排序，并依次选取每个所述第一候选计算节点，判断每个所述第一候选计算节点中每个所述空闲GPU资源对应的剩余显存大小，是否满足所述调度请求条件中每个所述GPU资源对应的目标显存大小；

第二确定子单元，用于若当前选取的第一候选计算节点中每个所述空闲GPU资源对应的剩余显存大小，满足所述调度请求条件中每个所述GPU资源对应的目标显存大小，则确定所述当前选取的第一候选计算节点为目标计算节点。

上述的装置，可选的，还包括：

第二获取子单元，用于获取每个所述第一候选计算节点的节点信息中包含的各个空闲GPU资源的绑定信息；

选取子单元，用于依据每个所述第一候选计算节点对应的绑定信息，从各个所述第一候选计算节点中，选取各个所述空闲GPU资源未绑定在同一物理卡上的第二候选计算节点；

第二排序子单元，用于将每个所述第二候选计算节点按照与其对应的空闲GPU个数，及总剩余显存大小由小至大进行排序，并依次选取每个所述第二候选计算节点，判断每个所述第二候选计算节点中每个所述空闲GPU资源对应的剩余显存大小，是否满足所述调度请求条件中每个所述GPU资源对应的目标显存大小；

第三确定子单元，用于若当前选取的第二候选计算节点中每个所述空闲GPU资源对应的剩余显存大小，满足所述调度请求条件中每个所述GPU资源对应的目标显存大小，则确定所述当前选取的第二候选计算节点为目标计算节点。

上述的装置，可选的，还包括：

训练单元，用于获取所述目标计算节点对应的学习训练模型，并将所述目标计算节点中的docker及各个所述空闲GPU资源输入所述学习训练模型，以使所述学习训练模型依据所述docker及各个所述空闲GPU资源进行学习训练。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的资源调度方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行上述的资源调度方法。

与现有技术相比，本发明包括以下优点：

本发明提供了一种资源调度方法，包括：当接收到用户发送的资源调度请求时，确定与所述资源调度请求对应的调度请求条件，所述调度请求条件包括图形处理器GPU资源的目标GPU个数，及每个所述GPU资源对应的目标显存大小；获取预先设置的集群资源缓存装置中预先缓存的每个计算节点的节点信息，并依据各个所述节点信息，选取满足所述调度请求条件的目标计算节点；在所述目标计算节点中创建与所述资源调度请求对应的容器docker，将所述目标计算节点与所述docker进行绑定，并将所述目标计算节点中的各个空闲GPU资源挂载至所述docker中，以使所述docker在所述目标计算节点中调用各个所述空闲GPU资源，完成与所述资源调度请求对应的资源调度任务。应用该方法，可以合理地利用各个空闲GPU资源中的显存，提高每个空闲GPU资源的利用率，防止空闲GPU资源中剩余显存的浪费。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种资源调度方法的方法流程图；

图2为本发明实施例提供的一种资源调度方法的方法示例图；

图3为本发明实施例提供的一种资源调度方法的又一方法示例图；

图4为本发明实施例提供的一种资源调度装置的装置结构图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种资源调度方法，该方法可以应用在多种系统平台，其执行主体可以为计算机终端或各种移动设备的处理器，该处理器具体可以是对各个GPU资源进行调度的资源调度装置。所述方法的方法流程图如图1所示，具体包括：

S101：当接收到用户发送的资源调度请求时，确定与所述资源调度请求对应的调度请求条件，所述调度请求条件包括图形处理器GPU资源的目标GPU个数，及每个所述GPU资源对应的目标显存大小；

本发明实施例提供的方法中，可以预先设置资源调度装置，当资源调度装置接收到用户发送的资源调度请求时，确定与该资源调度请求对应的调度请求条件，其中，该资源调度请求可以是用户需要利用机器模型进行深度学习任务时，需要调度各个GPU资源进行学习训练的资源调度请求。该调度请求条件可以为该用户利用该机器模型进行深度学习任务时，所需要的GPU资源个数及每个GPU资源对应的显存大小。

需要说明的是，该调度请求中包含的每个GPU资源对应的显存大小可以相同，也可以不同。

S102：获取预先设置的集群资源缓存装置中预先缓存的每个计算节点的节点信息，并依据各个所述节点信息，选取满足所述调度请求条件的目标计算节点；

本发明实施例提供的方法中，当确定进行资源调度所需的GPU个数及每个GPU资源对应的显存大小后，从预先设置的集群资源缓存装置中获取预先换存储的每个计算节点的节点信息。其中，每个计算节点中包含多个GPU资源，并根据各个计算节点的节点信息，从各个计算节点中选取满足该调度请求条件的目标计算节点。

需要说明的是，所述依据各个所述节点信息，选取满足所述调度请求条件的目标计算节点表征该目标计算节点中的空闲GPU资源的个数及每个空闲GPU资源对应的显存大小均能满足该调度请求条件中的目标GPU个数及各个目标显存大小。

S103：在所述目标计算节点中创建与所述资源调度请求对应的容器docker，将所述目标计算节点与所述docker进行绑定，并将所述目标计算节点中的各个空闲GPU资源挂载至所述docker中，以使所述docker在所述目标计算节点中调用各个所述空闲GPU资源，完成与所述资源调度请求对应的资源调度任务。

本发明实施例提供的方法中，在选取需要进行资源调度的目标计算节点后，在该目标计算节点中创建与该资源调度请求对应的容器docker，将目标计算节点与docker进行绑定。由于目标计算节点与docker已绑定，则该目标计算节点中的各个空闲GPU资源将挂载在docker中，当目标计算节点中的docker在执行资源调度任务时，将调用各个空闲GPU资源配合该docker执行该资源调度任务。

需要说明的是，该资源调度任务具体可以是AI模型进行学习训练的过程中，调用各个GPU资源，以提高AI模型的开发效率。目标计算节点中的各个空闲GPU资源中的显存剩余量并不一定是100％。空闲GPU资源中可能已经有部分显存被占用。

本发明实施例提供的资源调度方法中，当接收到资源调度请求时，确定与该资源调度请求对应的调度请求条件。其中，该资源调度请求用于调用GPU资源对机器模型进行学习训练。该调度请求条件中包含了要调用的GPU资源的目标GPU个数，以及每个GPU对应的目标显存大小。在确定调度请求条件后，资源调度装置可以从预先设置的集群资源缓存装置中获取预先缓存各个计算节点的节点信息，并根据每个节点信息，选取满足该调度请求条件的目标计算节点。并在该目标计算节点当中创建docker，该docker用于对机器模型进行学习训练。在目标计算节点中创建的docker与该目标计算节点进行绑定，该目标计算节点中的各个空闲GPU资源将挂载在该docker下。

需要说明的是，资源调度装置在接收到资源调度请求后，可以向集群资源缓存装置发送资源查询请求，以查询该集群资源缓存装置中预先缓存各个计算节点的空闲GPU资源的信息。当集群资源缓存装置接收到该资源查询请求时，向资源调度装置反馈各个计算节点的节点信息，该节点信息中包含了每个计算节点中空闲GPU资源的信息。

可选的，由于每个计算节点中的各个GPU资源并不是一直空闲的，若当前无法选取到满足调度请求条件的目标计算节点，则该资源调度装置将定时轮询该集群资源缓存装置，直至选取到满足该调度请求条件的目标计算节点为止。

应用本发明实施例提供的方法，当接收到资源调度请求时，根据该资源调度请求的调度请求条件，选取满足该调度请求条件的目标计算节点，利用该目标计算节点中的各个空闲GPU资源挂载在容器docker下，合理地利用各个空闲GPU资源中的显存，提高每个空闲GPU资源的利用率，防止空闲GPU资源中剩余显存的浪费。

本发明实施例提供的方法中，在上述步骤S102中，该集群资源缓存装置中已预先缓存了各个计算节点的节点信息，其中对各个计算节点的节点信息进行缓存过程，具体包括：

本发明实施例提供的资源调度方法中，由于每个计算节点中的各个GPU资源不一定一直处于空闲状态，为了能够确定每个计算节点中每个GPU资源的当前状态，为各个计算节点设置监控周期，可以按照该监控周期对各个计算节点进行监控和扫描。该监控周期具体可以是5s一周期或是10s、1min等。调用预先设置的资源上报装置根据该监控周期监控各个计算节点。其中，该资源上报装置可以是设置在每个计算节点之上的。资源上报装置依据该监控周期，实时上报与每个资源上报装置对应的计算节点的节点信息。资源调度装置可以将各个节点信息发送到集群资源缓存装置当中，由集群资源缓存装置对各个节点信息进行缓存。

需要说明的是，由于资源上报装置是按照监控周期上报各个计算节点的节点信息，因此，集群资源缓存装置根据每次资源上报装置上报的节点信息进行保存，会更新每个计算节点的节点信息。将当前节点信息覆盖上一次节点信息。

可选的，当资源调度需要获取各个计算节点的节点信息时，也可以直接从资源上报装置中获取，无需经过集群资源缓存装置。

应用本发明实施例提供的方法，设置监控周期实时通过资源上报装置上报各个计算节点的节点信息，以实时确定每个计算节点中各个GPU资源的空闲状态，保证需要调用各个空闲GPU资源时，合理地利用各个空闲GPU资源中的显存，提高每个空闲GPU资源的利用率，防止空闲GPU资源中剩余显存的浪费。

本发明实施例提供的方法中，所述依据各个所述节点信息，选取满足所述调度请求条件的目标计算节点的过程如图2所示，具体包括：

S201：获取每个所述节点信息中的GPU信息，每个所述GPU信息包括与其对应的计算节点中各个空闲GPU资源的空闲GPU个数，及每个所述空闲GPU资源对应的剩余显存大小；

本发明实施例提供的方法中，当需要从各个节点信息中选取满足该资源请求条件的目标计算节点时，获取每个节点信息中的GPU信息。每个GPU信息中包含了计算节点中当前各个空闲GPU资源的空闲GPU个数，以及每个空闲GPU资源对应的剩余显存大小。

S202：依据每个所述GPU信息中每个所述空闲GPU资源的剩余显存大小，确定每个所述计算节点中的总剩余显存大小，并依据所述调度请求条件计算与所述资源调度请求对应的总目标显存大小；

本发明实施例提供的方法中，在获取到每个节点信息中的GPU信息后，根据该每个GPU信息中的各个空闲GPU资源对应的剩余显存大小，确定每个计算节点的总剩余显存大小，即，把计算节点中的所有空闲GPU资源对应的剩余显存大小进行求和获得总剩余显存大小。同样，也计算调度请求条件中所需要的总目标显存大小。

S203：依据每个所述计算节点对应的空闲GPU个数及总剩余显存大小，从各个所述计算节点中，确定空闲GPU个数不小于所述目标GPU个数，且总剩余显存大小不小于所述总目标显存大小第一候选计算节点；

本发明实施例提供的方法中，根据计算节点对应的空闲GPU个数及总剩余显存大小，确定各个计算节点中的各个第一候选计算节点。其中每个第一候选计算节点的空闲GPU个数大于或等于目标GPU个数，且总剩余显存大小大于或等于目标显存大小。例如目标GPU个数为2，总目标显存大小为16GiB，计算节点1的空闲GPU个数为2，总剩余显存大小为16GiB、计算节点2的空闲GPU个数为1，总剩余显存大小为16GiB、计算节点3的空闲GPU个数为3，总剩余显存大小为32GiB，则第一候选计算节点则为计算节点1和计算节点3。

S204：将每个所述第一候选计算节点按照与其对应的空闲GPU个数，及总剩余显存大小由小至大进行排序，并依次选取每个所述第一候选计算节点，判断每个所述第一候选计算节点中每个所述空闲GPU资源对应的剩余显存大小，是否满足所述调度请求条件中每个所述GPU资源对应的目标显存大小；

本发明提供的实施例中，为使计算节点中的各个空闲GPU资源能够合理被利用，将获得的每个第一候选计算节点按照空闲GPU个数由小至大进行排序，对于相同空闲GPU个数的第一候选计算节点，再根据总剩余显存大小由小至大进行排序。将各个第一候选计算节点排序好后，依次选取每个第一候选计算节点进行判断，确定各个第一候选计算节点中，每个空闲GPU资源对应的剩余显存大小是否满足调度请求条件中的每个GPU资源对应的目标显存大小。

S205：若当前选取的第一候选计算节点中每个所述空闲GPU资源对应的剩余显存大小，满足所述调度请求条件中每个所述GPU资源对应的目标显存大小，则确定所述当前选取的第一候选计算节点为目标计算节点。

本发明实施例提供的方法中，如果当前选取的第一候选计算节点中，每个空闲GPU资源对应的剩余显存大小满足调度请求条件中的每个GPU资源对应的目标显存大小，则该当前选取的第一候选计算节点则为目标计算节点。如上述步骤S203中的例子，若调度请求条件中所需的两个GPU资源分别为8GiB和8GiB，而计算节点1中的两个空闲GPU资源分别对应的显存大小为4GiB和12GiB、计算节点3中的三个空闲GPU资源分别对应的显存大小为4GiB、12GiB和18GiB，则计算节点3满足调度请求条件，该计算节点3则为目标计算节点。

本发明实施例提供的资源调度方法中，根据节点信息中的GPU信息，确定每个计算节点对应的总剩余显存大小，并计算调度请求条件对应的总目标显存大小。从各个计算节点中，确定第一候选计算节点，每个第一候选计算节点的空闲GPU个数以及总剩余显存大小均不小于调度请求条件的目标GPU个数和总目标显存大小。将各个第一候选计算节点按照预先设置的排序顺序进行排序，即根据空闲GPU个数以及总剩余显存大小由小至大进行排序，并从各个第一候选计算节点中确定目标计算节点。

基于上述实施例提供的方法，对上述确定目标计算节点的过程有以下实施例：

若调度请求条件中需要两个目标GPU资源，每个目标GPU资源的目标显存大小都为8GiB，则总目标显存大小为16GiB。现有：计算节点1的空闲GPU个数为2，两个空闲GPU资源分别对应的显存大小为4GiB和12GiB，总剩余显存大小为16GiB、计算节点2的空闲GPU个数为1，空闲GPU资源对应的显存大小为16GiB，总剩余显存大小为16GiB、计算节点3的空闲GPU个数为3，三个空闲GPU资源分别对应的显存大小为4GiB、12GiB和18GiB，总剩余显存大小为32GiB，计算节点4的空闲GPU个数为2，两个空闲GPU资源分别对应的显存大小为8GiB和16GiB，总剩余显存大小为24GiB。因此，第一候选计算节点分别为计算节点1、计算节点3和计算节点4。将计算节点1、3、4进行排序后得到如下表1：

表1

如上述表1可知，只有计算节点3和计算节点4满足调度请求条件，但为了使各个空闲GPU更加合理的利用，因此选择计算节点4为目标计算节点。即，选择计算节点4，则计算节点4中的GPU1将被完全利用，只剩下GPU2剩余8GiB显存大小，而如果选择计算节点3，则计算节点3中的GPU1、GPU2和GPU3都会剩余显存大小，相对计算节点4来说还是比较浪费。

应用本发明实施例提供的方法，可以更加合理地利用各个空闲GPU资源中的显存，提高每个空闲GPU资源的利用率，防止空闲GPU资源中剩余显存的浪费。

本发明实施例提供的方法中，基于上述步骤S202中，确定各个第一候选计算节点后，选取满足所述调度请求条件的目标计算节点的过程如图3所示，具体还包括：

S301：获取每个所述第一候选计算节点的节点信息中包含的各个空闲GPU资源的绑定信息；

本发明实施例提供的方法中，在确定各个第一候选计算节点后，从各个第一候选计算节点的节点信息中获取绑定信息，该绑定信息为各个空闲GPU资源是否绑定在计算节点的物理卡上的信息。

S302：依据每个所述第一候选计算节点对应的绑定信息，从各个所述第一候选计算节点中，选取各个所述空闲GPU资源未绑定在同一物理卡上的第二候选计算节点；

本发明实施例提供的方法中，依据每个第一候选计算节点的绑定信息，从各个第一候选计算节点中选取第二候选计算节点。其中，每个第二候选计算节点中的各个空闲GPU资源都未绑定在同一个物理卡上。

S303：将每个所述第二候选计算节点按照与其对应的空闲GPU个数，及总剩余显存大小由小至大进行排序，并依次选取每个所述第二候选计算节点，判断每个所述第二候选计算节点中每个所述空闲GPU资源对应的剩余显存大小，是否满足所述调度请求条件中每个所述GPU资源对应的目标显存大小；

本发明实施例提供的方法中，将各个第二候选计算节点按照与上述步骤S204中各个第一候选计算节点的排序方式进行排序，并依次选取每个第二候选计算节点进行判断，确定各个第二候选计算节点中，每个空闲GPU资源对应的剩余显存大小是否满足调度请求条件中的每个GPU资源对应的目标显存大小。

S304：若当前选取的第二候选计算节点中每个所述空闲GPU资源对应的剩余显存大小，满足所述调度请求条件中每个所述GPU资源对应的目标显存大小，则确定所述当前选取的第二候选计算节点为目标计算节点。

本发明实施例提供的方法中，如果当前选取的第二候选计算节点中，每个空闲GPU资源对应的剩余显存大小满足调度请求条件中的每个GPU资源对应的目标显存大小，则该当前选取的第二候选计算节点则为目标计算节点。

本发明实施例提供的方法中，为了保证在创建docker后，各个空闲GPU资源能够在docker中全都显示出来，从第一候选计算节点中选取出第二候选计算节点，以保证各个第二候选计算节点中的各个空闲GPU资源都没有绑定在同一个物理卡上。并从各个第二候选计算节点中确定目标计算节点。

应用本发明实施例提供的方法，如果存在多个GPU资源绑定在同一物理卡上，则在docker容器中则只会显示一个GPU资源，为保证各个GPU资源能够都被显示，从各个第一候选计算节点中选取第二候选计算节点，并从各个第二候选计算节点中合理选择目标计算节点，更加合理地利用各个空闲GPU资源中的显存，提高每个空闲GPU资源的利用率，防止空闲GPU资源中剩余显存的浪费。

基于上述各个实施例，可选的，所述目标计算节点与所述docker进行绑定后，还包括：

本发明实施例提供的方法可以应用在AI模型的学习训练任务当中，即学习训练模型，也可以是上述实施例提及的机器模型。通过在目标计算节点中创建docker，并合理利用该目标计算节点中各个空闲GPU资源，不仅能实现通过调用各个空闲GPU资源对AI模型进行训练，也能更加合理地利用计算节点中的剩余显存大小，减少资源利用的碎片化。

上述各个实施例的具体实施过程及其衍生方式，均在本发明的保护范围之内。

与图1所述的方法相对应，本发明实施例还提供了一种资源调度装置，用于对图1中方法的具体实现，本发明实施例提供的资源调度装置可以应用计算机终端或各种移动设备中，其结构示意图如图4所示，具体包括：

确定单元401，用于当接收到用户发送的资源调度请求时，确定与所述资源调度请求对应的调度请求条件，所述调度请求条件包括图形处理器GPU资源的目标GPU个数，及每个所述GPU资源对应的目标显存大小；

选取单元402，用于获取预先设置的集群资源缓存装置中预先缓存的每个计算节点的节点信息，并依据各个所述节点信息，选取满足所述调度请求条件的目标计算节点；

创建单元403，用于在所述目标计算节点中创建与所述资源调度请求对应的容器docker，将所述目标计算节点与所述docker进行绑定，并将所述目标计算节点中的各个空闲GPU资源挂载至所述docker中，以使所述docker在所述目标计算节点中调用各个所述空闲GPU资源，完成与所述资源调度请求对应的资源调度任务。

本发明实施例提供的装置中，还包括：

本发明实施例提供的装置中，包括：

本发明实施例提供的装置中，还包括：

以上本发明实施例公开的资源调度装置中的确定单元401、选取单元402及创建单元403的具体工作过程，可参见本发明上述实施例公开的资源调度方法中的对应内容，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述资源调度方法。

本发明实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器501，以及一个或者一个以上的指令502，其中一个或者一个以上指令502存储于存储器501中，且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现。

为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种资源调度方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述集群资源缓存装置缓存每个计算节点的节点信息的过程，包括：

3.根据权利要求1所述的方法，其特征在于，所述依据各个所述节点信息，选取满足所述调度请求条件的目标计算节点，包括：

4.根据权利要求3所述的方法，其特征在于，从各个所述计算节点中，确定空闲GPU个数不小于所述目标GPU个数，且总剩余显存大小不小于所述总目标显存大小第一候选计算节点后，还包括：

5.根据权利要求1所述的方法，其特征在于，将所述目标计算节点与所述docker进行绑定后，还包括：

6.一种资源调度装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求6所述的装置，其特征在于，所述选取单元，包括：

9.根据权利要求8所述的装置，其特征在于，还包括：

10.根据权利要求6所述的装置，其特征在于，还包括：