CN109033001B

CN109033001B - 用于分配gpu的方法和装置

Info

Publication number: CN109033001B
Application number: CN201810786406.5A
Authority: CN
Inventors: 叶子超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2021-08-27
Anticipated expiration: 2038-07-17
Also published as: CN109033001A

Abstract

本申请实施例公开了用于分配GPU的方法和装置。该方法的一具体实施方式包括：接收GPU分配请求，其中，GPU分配请求包括请求分配GPU的数目N，N为正整数；确定空闲的GPU和空闲的GPU之间的第一链路，其中，第一链路用于提供两个GPU之间的数据通信，且第一链路的带宽大于预设阈值；基于空闲的GPU和所确定的第一链路，生成连接拓扑关系图，其中，连接拓扑关系图包括与空闲的GPU对应的顶点和与第一链路对应的连接线；基于所生成的连接拓扑关系图，从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU。该实施方式提高了GPU的利用率。

Description

用于分配GPU的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及用于分配GPU的方法和装置。

背景技术

在大数据时代，海量数据的处理对计算机的性能要求较高。GPU(GraphicsProcessing Unit，图形处理器)相对于CPU(Central Processing Unit，中央处理器)在计算性能上有着极大的提升，在浮点计算、通用计算、图像处理等训练任务中得到了广泛的应用。但是，现有技术在为训练任务分配GPU时，通常不会考虑GPU之间的连接亲和性，仅仅保证分配的GPU位于同一节点上。

发明内容

本申请实施例提出了用于分配GPU的方法和装置。

第一方面，本申请实施例提供了一种用于分配GPU的方法，该方法包括：接收GPU分配请求，其中，GPU分配请求包括请求分配GPU的数目N，N为正整数；确定空闲的GPU和空闲的GPU之间的第一链路，其中，第一链路用于提供两个GPU之间的数据通信，且第一链路的带宽大于预设阈值；基于空闲的GPU和所确定的第一链路，生成连接拓扑关系图，其中，连接拓扑关系图包括与空闲的GPU对应的顶点和与第一链路对应的连接线；基于所生成的连接拓扑关系图，从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU。

在一些实施例中，在基于所生成的连接拓扑关系图，从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU之后，方法还包括：将空闲的GPU中除所选取的N个GPU之外的其他GPU重新确定为空闲的GPU。

在一些实施例中，基于所生成的连接拓扑关系图，从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU，包括：获取连接拓扑关系图的至少一个完全子图，其中，完全子图包括N个顶点；从至少一个完全子图中选取第一完全子图；将第一完全子图中所包括的顶点对应的GPU确定为GPU分配请求中请求分配的GPU。

在一些实施例中，基于所生成的连接拓扑关系图，从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU，包括：获取连接拓扑关系图的至少一个完全子图，其中，完全子图包括P个顶点，且连接拓扑关系图不存在由P+1个顶点组成的完全子图，P为小于N的正整数；从至少一个完全子图中选取第一完全子图，确定第一完全子图中的P个顶点对应的GPU；从剩余的空闲的GPU中选取N-P个GPU作为第一GPU，其中，第一GPU与所确定的第一完全子图所包括的至少一个顶点对应的GPU通过第一链路连接；将第一完全子图中P个顶点对应的GPU和所选取的N-P个第一GPU确定为GPU分配请求中请求分配的GPU。

在一些实施例中，至少一个完全子图中还包括至少一个第二完全子图；第一完全子图中的顶点对应的GPU的总带宽大于或等于任一第二完全子图中的顶点对应的GPU的总带宽。

在一些实施例中，与第一完全子图对应的第三完全子图中的顶点的数目大于或等于与第二完全子图对应的第四完全子图中的顶点的数目，其中，第三完全子图为连接拓扑关系图中去除第一完全子图后得到的包含顶点数目最多的完全子图，第四完全子图为连接拓扑关系图中去除第二完全子图后得到的包含顶点数目最多的完全子图。

在一些实施例中，第三完全子图中的顶点对应的GPU的总带宽大于或等于第四完全子图中的顶点对应的GPU的总带宽。

在一些实施例中，方法还包括：基于第一完全子图和所选取的第一GPU，构成目标子图，其中，目标子图为连接拓扑关系图的N阶子图，目标子图中所包含的连接线的数目大于或等于连接拓扑关系图的其余N阶子图所包含的连接线的数目。

在一些实施例中，目标子图中的顶点对应的GPU的总带宽大于或等于连接拓扑关系图的其余N阶子图中顶点对应的GPU的总带宽。

第二方面，本申请实施例提供了一种用于分配GPU的装置，装置包括：接收单元，被配置成接收GPU分配请求，其中，GPU分配请求包括请求分配GPU的数目N，N为正整数；确定单元，被配置成确定空闲的GPU和空闲的GPU之间的第一链路，其中，第一链路用于提供两个GPU之间的数据通信，且第一链路的带宽大于预设阈值；生成单元，被配置成基于空闲的GPU和所确定的第一链路，生成连接拓扑关系图，其中，连接拓扑关系图包括与空闲的GPU对应的顶点和与第一链路对应的连接线；选取单元，被配置成基于所生成的连接拓扑关系图，从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU。

在一些实施例中，装置还包括：重新确定单元，被配置成将空闲的GPU中除所选取的N个GPU之外的其他GPU重新确定为空闲的GPU。

在一些实施例中，选取单元进一步被配置成：获取连接拓扑关系图的至少一个完全子图，其中，完全子图包括N个顶点；从至少一个完全子图中选取第一完全子图；将第一完全子图中所包括的顶点对应的GPU确定为GPU分配请求中请求分配的GPU。

在一些实施例中，选取单元进一步被配置成：获取连接拓扑关系图的至少一个完全子图，其中，完全子图包括P个顶点，且连接拓扑关系图不存在由P+1个顶点组成的完全子图，P为小于N的正整数；从至少一个完全子图中选取第一完全子图，确定第一完全子图中的P个顶点对应的GPU；从剩余的空闲的GPU中选取N-P个GPU作为第一GPU，其中，第一GPU与所确定的第一完全子图所包括的至少一个顶点对应的GPU通过第一链路连接；将第一完全子图中P个顶点对应的GPU和所选取的N-P个第一GPU确定为GPU分配请求中请求分配的GPU。

在一些实施例中，装置还包括：构成单元，被配置成基于第一完全子图和所选取的第一GPU，构成目标子图，其中，目标子图为连接拓扑关系图的N阶子图，目标子图中所包含的连接线的数目大于或等于连接拓扑关系图的其余N阶子图所包含的连接线的数目。

本申请实施例提供的用于分配GPU的方法和装置，接收GPU分配请求，之后确定出空闲的GPU和空闲的GPU之间的第一链路，而后基于空闲的GPU和所确定的第一链路生成连接拓扑关系图，最后基于所生成的连接拓扑关系图从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU，从而提高了GPU的利用率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于分配GPU的方法的一个实施例的流程图；

图3是根据本实施例的用于分配GPU的方法中的空闲GPU及第一链路的连接关系示意图；

图4是图3中的由空闲GPU及第一链路生成的连接拓扑关系图；

图5是根据本实施例的用于分配GPU的方法的一实现方式的流程图；

图6是根据本实施例的用于分配GPU的方法的另一实现方式的流程图；

图7是根据本申请的用于分配GPU的装置的一个实施例的结构示意图；

图8是适于用来实现本申请实施例电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于分配GPU的方法或用于分配GPU的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是用于生成GPU分配请求的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103的GPU分配请求提供支持的后台服务器。后台服务器可以对接收到的GPU分配请求等数据进行分析等处理，并将处理结果(例如对GPU分配请求中分配的GPU)反馈给终端设备，以便于终端设备可以将训练任务部署在已分配的GPU上。

需要说明的是，本申请实施例所提供的用于分配GPU的方法一般由服务器105执行，相应地，用于分配GPU的装置一般设置于服务器105中。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

还需要指出的是，上述GPU分配请求还可以是由服务器生成的，此时，该用于生成GPU分配请求的服务器可以与上述终端设备101、102、103的作用相同。系统架构100可以包括用于生成GPU分配请求的服务器、网络104和服务器105组成，网络104用以在用于生成GPU分配请求的服务器和服务器105之间提供通信链路的介质。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的用于分配GPU的方法的一个实施例的流程200。该用于分配GPU的方法，包括以下步骤：

步骤201，接收GPU分配请求。

在本实施例中，用于分配GPU的方法执行主体(例如图1中的服务器105)可以通过有线连接方式或者无线连接方式从生成GPU分配请求的电子设备接收GPU分配请求。其中，该GPU分配请求可以包括请求分配的GPU的数目N，这里的N为正整数。上述GPU分配请求可以用于请求上述执行主体分配N个GPU，作为示例，所分配的N个GPU可以用于大规模机器学习任务的训练。其中，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤202，确定空闲的GPU和空闲的GPU之间的第一链路。

在本实施例中，上述执行主体(例如图1中的服务器105)可以在其中的所有GPU中确定出空闲的GPU。这里，空闲的GPU可以为在预设时间段内没有执行任务的GPU。在确定出空闲的GPU之后，上述执行主体可以继续确定所确定出的空闲的GPU之间的第一链路。这里，第一链路可以用于提供两个GPU之间的数据通信，且第一链路的带宽大于预设阈值。在上述执行主体内，两两GPU之间可以通过链路进行数据通信。可以理解的是，现有的GPU之间可以通过NVlink、PCIe等链路方式进行数据通信，并且不同的链路方式的数据传输性能不同，因此为了提高所选取的GPU之间的数据通信性能，这里可以选取数据通信性能好的链路方式作为第一链路，即确定出的第一链路的带宽可以大于预设阈值。这里的第一链路可以为目前数据通信性能最好的NVlink链路，或者还可以为现在已知或将来开发的、数据通信性能较高的其他链路方式。

在本实施例的一些可选的实现方式中，为了确定出空闲的GPU之间的第一链路，上述执行主体可以借助现有的工具(例如nvidia-smi命令，该命令为一种二进制工具)确定其中所有的GPU之间的连接拓扑关系，从而可以得到当前空闲的GPU之间的第一链路。

步骤203，基于空闲的GPU和所确定的第一链路，生成连接拓扑关系图。

在本实施例中，基于步骤202确定的空闲的GPU和空闲的GPU之间的第一链路，上述执行主体可以生成一连接拓扑关系图。该连接拓扑关系图可以包括与各空闲的GPU对应的顶点和与第一链路对应的连接线。

作为示例，上述执行主体中可以包括8个空闲的GPU(GPU0、GPU1、GPU2、GPU3、GPU4、GPU5、GPU6、GUP7)，如图3所示，其示出了空闲GPU及第一链路的连接关系，各空闲的GPU之间的第一链路可以为NVlink链路，图3中用双向箭头表示通过NVlink链路连接的GPU。因此，上述执行主体中的各空闲的GPU和空闲的GPU之间的NVlink链路可以转化为一个由NVlink链路连接的有向无权图，如图4所示，其为图3中的由空闲GPU及第一链路生成的连接拓扑关系图。进一步地，为了直观地表示两个GPU之间的数据传输的性能，这里可以用连接性能分数标识GPU之间的连接性能。例如，两个GPU之间的一个双向箭头的连接分数可以为4，可以理解的是这里的连接分数仅是示例性的。

步骤204，基于所生成的连接拓扑关系图，从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU。

在本实施例中，基于步骤203生成的连接拓扑关系图，上述执行主体可以对空闲的GPU及空闲的GPU之间的第一链路进行分析，以便从中选取出N个空闲的GPU作为GPU分配请求中请求分配的GPU。

作为示例，通过生成的连接拓扑关系图可以得到通过第一链路连接的两个GPU之间的带宽，从而可以实现从各空闲的GPU中选取的N个GPU之间的带宽最大。可以理解的是，在连接拓扑关系图中的各空闲的GPU之间选取N个GPU时，可不仅考虑带宽的问题，还可以考虑带宽在N个GPU之间的分配是否均为的问题，此时可以避免所选取的N个GPU中仅存在两个GPU之间的带宽极大，而其他GPU之间的带宽太小造成的GPU资源浪费的问题。

在本实施例的一些可选的实现方式中，上述执行主体在从空闲的GPU中选取出N个空闲的GPU作为GPU分配请求中请求分配的GPU之后，可以将原来空闲的GPU中除所选取的N个GPU之外的其他GPU重新确定为空闲的GPU。因此，上述执行主体在接收到新的GPU分配请求后，可以从重新确定的GPU中选取所需要的GPU。

在本实施例的一些可选的实现方式中，上述执行主体可以在空闲的GPU中选取出N个GPU作为GPU分配请求中请求分配的GPU，可想而知，此时空闲的GPU的数目大于N。可以理解的是，如果执行主体中空闲的GPU的数目等于N，上述执行主体可以直接将所有的空闲GPU作为GPU分配请求中请求分配的GPU；如果执行主体中空闲的GPU的数目小于N，上述执行主体可以返回提示空闲的GPU数目不足的提示信息。

通常，机器学习训练任务可以部署在多个GPU中进行同时运算，从而加速机器学习的速度。在训练任务的过程中，各GPU之间存在大量且频繁的数据交换，相应地，GPU需要等待这些数据就绪之后才能进行下一步运算操作。本实施例所提供的用于分配GPU的方法可以为训练任务分配合适的GPU，提升机器学习任务下属的GPU之间的数据交换带宽，降低数据交换延迟，极大的减小机器内部的空闲GPU等待的时间，从而提高了GPU的使用效率。

在一些可选的方案中，如图5所示，步骤204的基于所生成的连接拓扑关系图，从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU可以通过如下步骤实现：

步骤501，获取连接拓扑关系图的至少一个完全子图。

在本实现方式中，对于生成的连接拓扑关系图，上述执行主体可以获取该连接拓扑关系图的至少一个完全子图。其中，所获取的完全子图可以包括N个GPU。例如，上述执行主体可以获取连接拓扑关系图的所有N阶完全子图。

作为示例，上述连接拓扑关系图可以如图4所示，上述执行主体获取该连接拓扑关系图的包括N个顶点的所有完全子图。例如，N＝2。在图4中，任一相连的两个GPU都可以构成一个2阶完全子图。由于图4中的连接拓扑关系图存在对称性，这里我们可以仅考虑其中的一半的2阶完全子图。例如，仅考虑由(GPU0、GPU1)、(GPU0、GPU2)、(GPU0、GPU3)、(GPU0、GPU4)、(GPU1、GPU2)、(GPU1、GPU3)、(GPU1、GPU5)对应的顶点构成的各2阶完全子图。

步骤502，从至少一个完全子图中选取第一完全子图。

在本实现方式中，上述执行主体在获取至少一个完全子图之后，可以通过各种方法从中确定出需要的完全子图，该确定出的完全子图为第一完全子图。例如，上述执行主体可以从中确定出连接分数之和最高的完全子图为第一完全子图。

在一些可选的实现方式中，上述连接拓扑关系图中可以包括多个由N个GPU构成的完全子图。即，上述至少一个完全子图中除了选取出的第一完全子图之外，还包括至少一个未被选取到的第二完全子图。这里，第一完全子图中的顶点对应的GPU的总带宽可以大于或等于任一第二完全子图中的顶点对应的GPU的总带宽。即，第一完全子图的连接分数之和可以大于或等于任一第二完全子图的连接分数之和。

作为示例，图4中的连接拓扑关系图的第一完全子图可以为(GPU0、GPU1)、(GPU0、GPU2)、(GPU0、GPU3)、(GPU0、GPU4)、(GPU1、GPU2)、(GPU1、GPU3)、(GPU1、GPU5)对应的顶点构成的2阶完全子图中的一个。经计算可以确定(GPU0、GPU1)、(GPU0、GPU2)和(GPU1、GPU5)对应的顶点构成的2阶完全子图的连接分数之和为8，其余2阶完全子图的连接分数之和为4。因此，上述第一完全子图为(GPU0、GPU1)、(GPU0、GPU2)和(GPU1、GPU5)对应的顶点构成的2阶完全子图中的一个。

在一些可选的实现方式中，若存在第二完全子图的总带宽等于第一完全子图的总带宽，即若至少一个完全子图中存在至少两个总带宽最大的完全子图，上述执行主体可以对比与第一完全子图对应的第三完全子图和与第二完全子图对应的第四完全子图中的顶点数目。此时，上述第三完全子图中的顶点的数目可以大于或等于第四完全子图的顶点的数目。这里，第三完全子图可以为连接拓扑关系图中去除第一完全子图后得到的包含顶点数目最多的完全子图，即第三完全子图为第一完全子图的补图的最大完全子图。第四完全子图为连接拓扑关系图中去除第二完全子图后得到的包含顶点数目最多的完全子图，即第四完全子图为第二完全子图的补图的最大完全子图。

作为示例，对于图4中的连接拓扑关系图的(GPU0、GPU1)、(GPU0、GPU2)和(GPU1、GPU5)对应的顶点构成的2阶完全子图，上述执行主体可以计算(GPU0、GPU1)、(GPU0、GPU2)和(GPU1、GPU5)对应的顶点构成的2阶完全子图的补图的最大完全子图。其中，(GPU0、GPU1)、(GPU0、GPU2)对应的顶点构成的2阶完全子图的补图的最大完全子图均包括4个顶点，(GPU1、GPU5)对应的顶点构成的2阶完全子图的补图的最大完全子图包括3个顶点。因此，上述第一完全子图可以为(GPU0、GPU1)、(GPU0、GPU2)对应的顶点构成的2阶完全子图中的一个。

在一些可选的实现方式中，在确定出存在第四完全子图的顶点数目等于第三完全子图的顶点数目的情况下，上述执行主体可以计算第三完全子图中的顶点对应的GPU的总带宽和第四完全子图中的顶点对应的GPU的总带宽。此时，第三完全子图中的顶点对应的GPU的总带宽可以大于或等于第四完全子图中的顶点对应的GPU的总带宽。即，第三完全子图的连接分数之和可以大于或等于任一第四完全子图的连接分数之和。

作为示例，对于图4中的连接拓扑关系图的(GPU0、GPU1)、(GPU0、GPU2)对应的顶点构成的2阶完全子图，上述执行主体可以计算(GPU0、GPU1)、(GPU0、GPU2)对应的顶点构成的2阶完全子图的补图的最大完全子图的连接分数之和。上述执行主体计算的结果为(GPU0、GPU1)、(GPU0、GPU2)对应的顶点构成的2阶完全子图的补图的最大完全子图的连接分数之和均为36，因此，上述第一完全子图可以为(GPU0、GPU1)、(GPU0、GPU2)对应的顶点构成的2阶完全子图中的任意一个。

步骤503，将第一完全子图中所包括的顶点对应的GPU确定为GPU分配请求中请求分配的GPU。

在本实施例中，基于步骤502确定的第一完全子图，上述执行主体可以将该第一完全子图中所包括的顶点对应的GPU确定为GPU分配请求中请求分配的GPU。

作为示例，对于图4中的连接拓扑关系图，在N＝2的情况下，可以将(GPU0、GPU1)或(GPU0、GPU2)作为GPU分配请求中请求分配的GPU。

本实现方式中提供的基于所生成的连接拓扑关系图从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU的方法，可以在保证所选取出的N个GPU的性能最佳(N个GPU的带宽最大且带宽在不同的GPU之间分布较均匀)的同时，使得剩余的空闲的GPU的利用率较高。进一步地，所选取出的N个GPU的传输性能较高可以减小GPU数据传输带来的性能损失，提高训练任务的效率。

在一些可选的方案中，空闲的GPU的数目大于N，但是上述连接拓扑关系图的最大完全子图中的顶点的数目小于N。此时，如图5所示的方法并不能适用于选取GPU分配请求中的GPU。此种情况下，步骤204的基于所生成的连接拓扑关系图，从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU可以通过如下步骤实现，如图6所示：

步骤601，获取连接拓扑关系图的至少一个完全子图。

在本实现方式中，上述执行主体可以获取连接拓扑关系图的至少一个包括P个顶点的完全子图。需要说明的是，至少一个包括P个顶点的完全子图可以为连接拓扑关系图的最大完全子图。即，上述连接拓扑关系图不存在包括P+1个顶点的完全子图。这里，P为小于N的正整数。

作为示例，对于图4所示的连接拓扑关系图，该连接拓扑关系图的最大完全子图为4阶完全子图。因此，在N＝5的情况下，上述执行主体无法获取包括5个顶点的完全子图。此时，上述执行主体可以获取上述连接拓扑关系图的至少一个4阶完全子图。

步骤602，从至少一个完全子图中选取第一完全子图，确定第一完全子图中的P个顶点对应的GPU。

在本实现方式中，上述执行主体可以利用图4中的所提供的方法选取第一完全子图，而后确定出该第一完全子图中的P个顶点所对应的GPU。

作为示例，对于图4所示的连接拓扑关系图，上述执行主体可以选取出GPU0、GPU1、GPU2、GPU3构成的完全子图为第一完全子图。

步骤603，从剩余的空闲的GPU中选取N-P个GPU作为第一GPU。

在本实现方式中，上述执行主体在连接拓扑关系图中的各顶点中去除第一完全子图中的各顶点，得到剩余的空闲的GPU。而后，从剩余的空闲的GPU中选取出N-P个第一GPU。这里，第一GPU可以与所确定出的第一完全子图所包括的至少一个顶点对应的GPU通过第一链路连接。

作为示例，对于图4所示的连接拓扑关系图，上述执行主体可以从剩余的GPU4、GPU5、GPU6、GPU7中选取一个GPU作为第一GPU。

在一些可选的实现方式中，上述执行主体可以将第一完全子图中的所包括的顶点和所选取的第一GPU对应的顶点构成目标子图。该目标子图为上述连接拓扑关系图的N阶子图，且目标子图中所包含的连接线的数目可以大于或等于上述连接拓扑关系图的其余N阶子图所包含的连接线的数目。

作为示例，对于4所示的连接拓扑关系图，目标子图可以为由(GPU0、GPU1、GPU2、GPU3、GPU4)或(GPU0、GPU1、GPU2、GPU3、GPU5)或(GPU0、GPU1、GPU2、GPU3、GPU6)或(GPU0、GPU1、GPU2、GPU3、GPU7)构成的5阶子图。这里，各5阶子图包含的连接线的数目均相等。

在一些可选的实现方式中，在确定出上述连接拓扑关系图的其余N阶子图中存在至少一个N阶子图的连接线的数目等于上述目标子图的连接线的数目时，上述执行主体还可以计算目标子图中的顶点对应的GPU的总带宽与上述连接拓扑关系图的其余N阶子图中顶点对应的GPU的总带宽，即计算目标子图和其余的N阶子图的连接分数之和。此时，目标子图中的顶点对应的GPU的总带宽可以大于或等于连接拓扑关系图的其余N阶子图中顶点对应的GPU的总带宽。即目标子图的连接分数之和可以大于或等于其余N阶子图的连接分数之和。

作为示例，对于4所示的连接拓扑关系图，(GPU0、GPU1、GPU2、GPU3、GPU4)和(GPU0、GPU1、GPU2、GPU3、GPU6)构成的5阶子图的连接分数之和小于(GPU0、GPU1、GPU2、GPU3、GPU5)和(GPU0、GPU1、GPU2、GPU3、GPU7)构成的5阶子图的连接分数之和，因此，上述目标子图可以为(GPU0、GPU1、GPU2、GPU3、GPU5)和(GPU0、GPU1、GPU2、GPU3、GPU7)构成的5阶子图中的一个。

在一些可选的实现方式中，在确定出上述连接拓扑关系图的其余N阶子图中存在至少一个N阶子图的连接分数之和等于上述目标子图的连接分数之和，上述执行主体可以计算上述目标子图和其余各N阶子图的补图的最大完全子图所包含的顶点的数目。需要说明的是，上述目标子图的最大完全子图所包含的顶点的数目可以大于或等于其余各N阶子图的补图的最大完全子图所包含的顶点的数目。

作为示例，对于4所示的连接拓扑关系图，(GPU0、GPU1、GPU2、GPU3、GPU5)和(GPU0、GPU1、GPU2、GPU3、GPU7)构成的5阶子图的补图的最大完全子图所包含的顶点的数目均为3。因此，上述目标子图可以为(GPU0、GPU1、GPU2、GPU3、GPU5)和(GPU0、GPU1、GPU2、GPU3、GPU7)构成的5阶子图中的一个。

在一些可选的实现方式中，在确定出其余N阶子图中存在至少一个N阶子图的补图的最大完全子图中的顶点的数目等于上述目标子图的补图的最大完全子图中的顶点的数目，上述执行主体可以继续计算目标子图和其余各N阶子图的补图的最大完全子图的带宽，即计算目标子图和其余各N阶子图的补图的最大完全子图的连接分数之和。需要说明的是，上述目标子图的补图的最大完全子图的连接分数之和可以最大。

作为示例，对于4所示的连接拓扑关系图，(GPU0、GPU1、GPU2、GPU3、GPU5)和(GPU0、GPU1、GPU2、GPU3、GPU7)构成的5阶子图的补图的最大完全子图的连接分数之和均为20，因此，上述目标子图可以为(GPU0、GPU1、GPU2、GPU3、GPU5)和(GPU0、GPU1、GPU2、GPU3、GPU7)构成的5阶子图中的一个。

步骤604，将第一完全子图中P个顶点对应的GPU和所选取的N-P个第一GPU确定为GPU分配请求中请求分配的GPU。

在本实施例中，基于步骤603确定出的第一完全子图中P个顶点对应的GPU和所选取的N-P个第一GPU，上述执行主体可以确定出这N个空闲的GPU即为GPU分配请求中请求分配的GPU。

作为示例，对于图4中的连接拓扑关系图，在N＝5的情况下，可以将(GPU0、GPU1、GPU2、GPU3、GPU5)或(GPU0、GPU1、GPU2、GPU3、GPU7)作为GPU分配请求中请求分配的GPU。

本申请的上述实施例提供的用于分配GPU的方法，接收GPU分配请求，之后确定出空闲的GPU和空闲的GPU之间的第一链路，而后基于空闲的GPU和所确定的第一链路生成连接拓扑关系图，最后基于所生成的连接拓扑关系图从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU，从而提高了GPU的利用率。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种用于分配GPU的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的用于分配GPU的装置700包括：接收单元701、确定单元702、生成单元703和选取单元704。其中，接收单元701，被配置成接收GPU分配请求，其中，GPU分配请求包括请求分配GPU的数目N，N为正整数；确定单元702，被配置成确定空闲的GPU和空闲的GPU之间的第一链路，其中，第一链路用于提供两个GPU之间的数据通信，且第一链路的带宽大于预设阈值；生成单元703，被配置成基于空闲的GPU和所确定的第一链路，生成连接拓扑关系图，其中，连接拓扑关系图包括与空闲的GPU对应的顶点和与第一链路对应的连接线；选取单元704，被配置成基于所生成的连接拓扑关系图，从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU。

在本实施例中，上述接收单元701可以接收GPU分配请求，之后确定单元702可以确定空闲的GPU和空闲的GPU之间的第一链路，而后生成单元703可以基于空闲的GPU和所确定的第一链路生成连接拓扑关系图，最后选取模块可以基于所生成的连接拓扑关系图从空闲的GPU中选取出N个GPU作为GPU分配请求中请求分配的GPU，从而提高了GPU的利用率。

在本实施例的一些可选的实现方式中，装置700还包括：重新确定单元，被配置成将空闲的GPU中除所选取的N个GPU之外的其他GPU重新确定为空闲的GPU。

在本实施例的一些可选的实现方式中，选取单元704进一步被配置成：获取连接拓扑关系图的至少一个完全子图，其中，完全子图包括N个顶点；从至少一个完全子图中选取第一完全子图；将第一完全子图中所包括的顶点对应的GPU确定为GPU分配请求中请求分配的GPU。

在本实施例的一些可选的实现方式中，选取单元704进一步被配置成：获取连接拓扑关系图的至少一个完全子图，其中，完全子图包括P个顶点，且连接拓扑关系图不存在由P+1个顶点组成的完全子图，P为小于N的正整数；从至少一个完全子图中选取第一完全子图，确定第一完全子图中的P个顶点对应的GPU；从剩余的空闲的GPU中选取N-P个GPU作为第一GPU，其中，第一GPU与所确定的第一完全子图所包括的至少一个顶点对应的GPU通过第一链路连接；将第一完全子图中P个顶点对应的GPU和所选取的N-P个第一GPU确定为GPU分配请求中请求分配的GPU。

在本实施例的一些可选的实现方式中，至少一个完全子图中还包括至少一个第二完全子图；第一完全子图中的顶点对应的GPU的总带宽大于或等于任一第二完全子图中的顶点对应的GPU的总带宽。

在本实施例的一些可选的实现方式中，与第一完全子图对应的第三完全子图中的顶点的数目大于或等于与第二完全子图对应的第四完全子图中的顶点的数目，其中，第三完全子图为连接拓扑关系图中去除第一完全子图后得到的包含顶点数目最多的完全子图，第四完全子图为连接拓扑关系图中去除第二完全子图后得到的包含顶点数目最多的完全子图。

在本实施例的一些可选的实现方式中，第三完全子图中的顶点对应的GPU的总带宽大于或等于第四完全子图中的顶点对应的GPU的总带宽。

在本实施例的一些可选的实现方式中，装置700还包括：构成单元，被配置成基于第一完全子图和所选取的第一GPU，构成目标子图，其中，目标子图为连接拓扑关系图的N阶子图，目标子图中所包含的连接线的数目大于或等于连接拓扑关系图的其余N阶子图所包含的连接线的数目。

在本实施例的一些可选的实现方式中，目标子图中的顶点对应的GPU的总带宽大于或等于连接拓扑关系图的其余N阶子图中顶点对应的GPU的总带宽。

装置700中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置700及其中包含的单元，在此不再赘述。

下面参考图8，其示出了适于用来实现本申请实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括接收单元、确定单元、生成单元和选取单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，接收单元还可以被描述为“接收GPU分配请求的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：接收GPU分配请求，其中，GPU分配请求包括请求分配GPU的数目N，N为正整数；确定空闲的GPU和空闲的GPU之间的第一链路，其中，第一链路用于提供两个GPU之间的数据通信，且第一链路的带宽大于预设阈值；基于空闲的GPU和所确定的第一链路，生成连接拓扑关系图，其中，连接拓扑关系图包括与空闲的GPU对应的顶点和与第一链路对应的连接线；基于所生成的连接拓扑关系图，从空闲的GPU中选取N个GPU作为GPU分配请求中请求分配的GPU。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于分配GPU的方法，包括：

接收GPU分配请求，其中，所述GPU分配请求包括请求分配GPU的数目N，N为正整数；

确定空闲的GPU和所述空闲的GPU之间的第一链路，其中，所述第一链路用于提供两个GPU之间的数据通信，且所述第一链路的带宽大于预设阈值；

基于所述空闲的GPU和所确定的第一链路，生成连接拓扑关系图，其中，所述连接拓扑关系图包括与所述空闲的GPU对应的顶点和与所述第一链路对应的连接线；

基于所生成的连接拓扑关系图，从所述空闲的GPU中选取N个GPU作为所述GPU分配请求中请求分配的GPU。

2.根据权利要求1所述的方法，其中，在所述基于所生成的连接拓扑关系图，从所述空闲的GPU中选取N个GPU作为所述GPU分配请求中请求分配的GPU之后，所述方法还包括：

将所述空闲的GPU中除所选取的N个GPU之外的其他GPU重新确定为空闲的GPU。

3.根据权利要求1所述的方法，其中，所述基于所生成的连接拓扑关系图，从所述空闲的GPU中选取N个GPU作为所述GPU分配请求中请求分配的GPU，包括：

获取所述连接拓扑关系图的至少一个完全子图，其中，完全子图包括N个顶点；

从所述至少一个完全子图中选取第一完全子图；

将所述第一完全子图中所包括的顶点对应的GPU确定为所述GPU分配请求中请求分配的GPU。

4.根据权利要求1所述的方法，其中，所述基于所生成的连接拓扑关系图，从所述空闲的GPU中选取N个GPU作为所述GPU分配请求中请求分配的GPU，包括：

获取所述连接拓扑关系图的至少一个完全子图，其中，完全子图包括P个顶点，且所述连接拓扑关系图不存在由P+1个顶点组成的完全子图，P为小于N的正整数；

从所述至少一个完全子图中选取第一完全子图，确定所述第一完全子图中的P个顶点对应的GPU；

从剩余的空闲的GPU中选取N-P个GPU作为第一GPU，其中，所述第一GPU与所确定的第一完全子图所包括的至少一个顶点对应的GPU通过所述第一链路连接；

将所述第一完全子图中P个顶点对应的GPU和所选取的N-P个第一GPU确定为所述GPU分配请求中请求分配的GPU。

5.根据权利要求3或4所述的方法，其中，所述至少一个完全子图中还包括至少一个第二完全子图；

所述第一完全子图中的顶点对应的GPU的总带宽大于或等于任一所述第二完全子图中的顶点对应的GPU的总带宽。

6.根据权利要求5所述的方法，其中，与所述第一完全子图对应的第三完全子图中的顶点的数目大于或等于与所述第二完全子图对应的第四完全子图中的顶点的数目，其中，所述第三完全子图为所述连接拓扑关系图中去除所述第一完全子图后得到的包含顶点数目最多的完全子图，所述第四完全子图为所述连接拓扑关系图中去除所述第二完全子图后得到的包含顶点数目最多的完全子图。

7.根据权利要求6所述的方法，其中，所述第三完全子图中的顶点对应的GPU的总带宽大于或等于所述第四完全子图中的顶点对应的GPU的总带宽。

8.根据权利要求4所述的方法，其中，所述方法还包括：

基于所述第一完全子图和所选取的第一GPU，构成目标子图，其中，所述目标子图为所述连接拓扑关系图的N阶子图，所述目标子图中所包含的连接线的数目大于或等于所述连接拓扑关系图的其余N阶子图所包含的连接线的数目。

9.根据权利要求8所述的方法，其中，所述目标子图中的顶点对应的GPU的总带宽大于或等于所述连接拓扑关系图的其余N阶子图中顶点对应的GPU的总带宽。

10.一种用于分配GPU的装置，包括：

接收单元，被配置成接收GPU分配请求，其中，所述GPU分配请求包括请求分配GPU的数目N，N为正整数；

确定单元，被配置成确定空闲的GPU和所述空闲的GPU之间的第一链路，其中，所述第一链路用于提供两个GPU之间的数据通信，且所述第一链路的带宽大于预设阈值；

生成单元，被配置成基于所述空闲的GPU和所确定的第一链路，生成连接拓扑关系图，其中，所述连接拓扑关系图包括与所述空闲的GPU对应的顶点和与所述第一链路对应的连接线；

选取单元，被配置成基于所生成的连接拓扑关系图，从所述空闲的GPU中选取N个GPU作为所述GPU分配请求中请求分配的GPU。

11.根据权利要求10所述的装置，其中，所述装置还包括：

重新确定单元，被配置成将所述空闲的GPU中除所选取的N个GPU之外的其他GPU重新确定为空闲的GPU。

12.根据权利要求10所述的装置，其中，所述选取单元进一步被配置成：

从所述至少一个完全子图中选取第一完全子图；

13.根据权利要求10所述的装置，其中，所述选取单元进一步被配置成：

14.根据权利要求12或13所述的装置，其中，所述至少一个完全子图中还包括至少一个第二完全子图；

15.根据权利要求14所述的装置，其中，与所述第一完全子图对应的第三完全子图中的顶点的数目大于或等于与所述第二完全子图对应的第四完全子图中的顶点的数目，其中，所述第三完全子图为所述连接拓扑关系图中去除所述第一完全子图后得到的包含顶点数目最多的完全子图，所述第四完全子图为所述连接拓扑关系图中去除所述第二完全子图后得到的包含顶点数目最多的完全子图。

16.根据权利要求15所述的装置，其中，所述第三完全子图中的顶点对应的GPU的总带宽大于或等于所述第四完全子图中的顶点对应的GPU的总带宽。

17.根据权利要求13所述的装置，其中，所述装置还包括：

构成单元，被配置成基于所述第一完全子图和所选取的第一GPU，构成目标子图，其中，所述目标子图为所述连接拓扑关系图的N阶子图，所述目标子图中所包含的连接线的数目大于或等于所述连接拓扑关系图的其余N阶子图所包含的连接线的数目。

18.根据权利要求17所述的装置，其中，所述目标子图中的顶点对应的GPU的总带宽大于或等于所述连接拓扑关系图的其余N阶子图中顶点对应的GPU的总带宽。

19.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。