CN114968567A

CN114968567A - 用于分配计算节点的计算资源的方法、装置和介质

Info

Publication number: CN114968567A
Application number: CN202210538068.XA
Authority: CN
Inventors: 孟洋; 周倜; 沙燕霖; 于佃海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-30

Abstract

本公开提供了一种用于分配计算节点的计算资源的方法、装置、电子设备和计算机可读存储介质，涉及计算机技术领域，尤其涉及深度学习技术领域。实现方案为：响应于在执行第一机器学习任务的过程中产生的第一张量请求内存资源，确定计算资源中的可用GPU内存；以及基于第一张量所请求的内存资源的大小，确定是否从可用GPU内存中为第一张量分配内存资源。计算资源包括计算节点所包括的至少一个GPU的总GPU内存。

Description

用于分配计算节点的计算资源的方法、装置和介质

技术领域

本公开涉及计算机技术领域，尤其涉及深度学习技术领域，具体涉及一种用于分配计算节点的计算资源的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

与人工智能相关的神经网络模型的训练通常需要消耗大量的计算资源。在现有技术中，图像处理单元(Graphic Processing Unit)经常被用于训练模型。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种用于分配计算节点的计算资源的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种用于分配计算节点的计算资源的方法，其中，所述计算节点包括至少一个图像处理单元GPU并且所述计算节点被配置用于执行至少第一机器学习任务，所述计算资源包括所述至少一个GPU的总GPU内存。所述方法包括：响应于在执行所述第一机器学习任务的过程中产生的第一张量请求内存资源，确定所述计算资源中的可用GPU内存；以及基于所述第一张量所请求的内存资源的大小，确定是否从所述可用GPU内存中为所述第一张量分配所述内存资源。

根据本公开的一方面，提供了一种用于分配计算节点的计算资源的装置，其中，所述计算节点包括至少一个图像处理单元GPU并且所述计算节点被配置用于执行至少第一机器学习任务，所述计算资源包括所述至少一个GPU的总GPU内存。所述装置包括：内存确定单元，用于响应于在执行所述第一机器学习任务的过程中产生的第一张量请求内存资源，确定所述计算资源中的可用GPU内存；以及分配单元，用于基于所述第一张量所请求的内存资源的大小，确定是否从所述可用GPU内存中为所述第一张量分配所述内存资源。

根据本公开的一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据本公开的方法。

根据本公开的一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开的方法。

根据本公开的一方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据本公开的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图；

图2示出了根据本公开的实施例的用于分配计算节点的计算资源的方法的流程图；

图3示出了根据本公开的实施例的统一内存池的示意图；

图4示出了根据本公开的实施例的动态调整GPU内存空间的一个示意图；

图5示出了根据本公开的实施例的动态调整GPU内存空间的另一个示意图；

图6示出了根据本公开的实施例的作业算子管理的示意图；

图7示出了根据本公开的实施例的用于分配计算节点的计算资源的装置的结构框图；以及

图8示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个要素与另一要素区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1，该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。

在本公开的实施例中，服务器120可以运行使得能够执行用于分配计算节点的计算资源的方法的一个或多个服务或软件应用。

在某些实施例中，服务器120还可以提供其他服务或软件应用，这些服务或软件应用可以包括非虚拟环境和虚拟环境。在某些实施例中，这些服务可以作为基于web的服务或云服务提供，例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。

在图1所示的配置中，服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解，各种不同的系统配置是可能的，其可以与系统100不同。因此，图1是用于实施本文所描述的各种方法的系统的一个示例，并且不旨在进行限制。

用户可以使用客户端设备101、102、103、104、105和/或106和服务器120进行交互。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备，但是本领域技术人员将能够理解，本公开可以支持任何数量的客户端设备。

客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备，例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、智能屏设备、自助服务终端设备、服务机器人、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作系统，例如MICROSOFT Windows、APPLE iOS、类UNIX操作系统、Linux或类Linux操作系统(例如GOOGLE Chrome OS)；或包括各种移动操作系统，例如MICROSOFT WindowsMobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器(诸如智能眼镜)和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序，例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序，并且可以使用各种通信协议。

网络110可以是本领域技术人员熟知的任何类型的网络，其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例，一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、区块链网络、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。

服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机，或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中，服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。

服务器120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个，包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。

在一些实施方式中，服务器120可以包括一个或多个应用程序，以分析和合并从客户端设备101、102、103、104、105和/或106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序，以经由客户端设备101、102、103、104、105和/或106的一个或多个显示设备来显示数据馈送和/或实时事件。

在一些实施方式中，服务器120可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器120也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大、业务扩展性弱的缺陷。

系统100还可以包括一个或多个数据库130。在某些实施例中，这些数据库可以用于存储数据和其他信息。例如，数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据库130可以驻留在各种位置。例如，由服务器120使用的数据库可以在服务器120本地，或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据库130可以是不同的类型。在某些实施例中，由服务器120使用的数据库例如可以是关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

在某些实施例中，数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库，例如键值存储库，对象存储库或由文件系统支持的常规存储库。

图1的系统100可以以各种方式配置和操作，以使得能够应用根据本公开所描述的各种方法和装置。

在进行大规模GPU集群训练(例如，深度学习训练)时，借助GPU虚拟化技术，在每个计算节点上可以并行地运行多个模型训练任务。为保证每个训练任务正常运行，相关技术中通常预先为每个任务预先申请足够的计算资源。然而，考虑到在模型训练过程中对计算资源的需求是动态变化的，这种固定的资源分配方式会造成一定程度的资源浪费。

至少针对上述问题，根据本公开的一个方面，提出了一种用于分配计算节点的计算资源的方法，其中，在计算节点中安装有一个或多个GPU，并且该计算节点被配置用于执行至少第一机器学习任务，计算资源包括安装在该计算节点中的全部GPU的内存(即显存)的总和。如图2所示，根据本公开的一种实施方式的计算资源分配方法包括：

步骤S201，响应于在执行所述第一机器学习任务的过程中产生的第一张量请求内存资源，确定所述计算资源中的可用GPU内存；以及

步骤S203，基于所述第一张量所请求的内存资源的大小，确定是否从所述可用GPU内存中为所述第一张量分配所述内存资源。

机器学习任务包括GPU集群训练、深度学习训练等需要依赖大量GPU计算资源得以完成的作业。在本公开中，机器学习任务不仅限于训练任务，也可以包括应用任务。以深度学习为例，其模型训练过程会产生大量的张量(Tensor)和算子(Operator)，每个张量包含训练过程中生成的相应的中间结果，而算子则包括要对相应的张量进行何种运算的信息。对于在训练过程中生成的张量，需要从内存资源中请求相应的存储空间，以待后续的运算。

当一个张量请求内存资源时，将该张量所请求的内存资源的大小和当前可用GPU内存进行比较，以此确定是否能够从当前可用GPU内存中为该第一张量分配所需的内存资源。例如，如果当前可用的GPU内存大于所请求的内存资源的大小，则可以从当前可用GPU内存中分配所述内存资源。

通过在张量的粒度上进行内存资源的分配，根据本公开的方法能够在完成机器学习任务的过程中对昂贵的GPU内存资源进行动态的精准管理，从而提高GPU内存资源的利用率；此外，还可以有效避免由于不可预测的显存超硬件限制而导致的任务失败。

除包括一个或多个GPU外，计算节点还包括中央处理单元CPU。因此，根据一些实施方式，计算资源还可以包括所述CPU的预设的锁页内存(Pinned Memory)。基于所述第一张量所请求的内存资源的大小，确定是否从所述可用GPU内存中为所述第一张量分配所述内存资源可以包括：响应于确定所述可用GPU内存不小于所述内存资源的大小，从所述可用GPU内存中为所述第一张量分配所述内存资源；以及响应于确定所述可用GPU内存小于所述内存资源的大小，从所述锁页内存中为所述第一张量分配所述内存资源。

锁页内存的实现方式可以类似于现代操作系统内存管理中的分页机制(Paging)。当发现物理内存耗尽时，操作系统使用磁盘作为内存的补充，将部分内存中的页暂存到磁盘中，以释放部分内存。待下次使用时，若发生缺页中断，操作系统会通过特定的换页算法将缺失的页置换进内存。根据本公开的GPU内存管理采用类似的思路。作为一种实施方式，可以将CPU锁页内存的内存地址转换成GPU可以识别的地址。然而，与上述分页机制中以内存页为粒度进行管理不同，根据本公开的方案以张量为粒度进行管理。

通过设置锁页内存，能够在总GPU内存的基础上进一步扩展内存资源。将总GPU内存301和CPU锁页内存302共同组成统一内存池300，如图3所示。一方面，当GPU内存有余量时，为请求内存资源的张量303、304、305直接分配相应的GPU内存，以保证训练任务的高效进行；而另一方面，当GPU内存余量不足时，为请求内存资源的张量303、304、305分配相应的锁页内存，仍然可以保证任务的正常运行。

根据一些实施方式，还可以为所述第一机器学习任务设置第一分配阈值。所述第一分配阈值指示能够从所述总GPU内存的当前未被使用的部分中分配到的GPU内存占所述当前未被使用的部分的比例，可以被理解为对应于可分配的显存上限。所述确定所述计算资源中的可用GPU内存包括：确定所述总GPU内存的所述当前未被使用的部分；以及基于所述部分以及所述第一分配阈值，确定所述可用GPU内存。

在运行第一机器学习任务的过程中，也可能存在如下情况，即，虽然总GPU内存中未被使用的部分大于张量所请求的内存资源的大小，但仍不能从中为该张量分配相应的GPU内存资源。这种情况包括但不限于当前未被使用的GPU内存需要为并行的其他机器学习任务预留一部分内存资源。

通过设置分配阈值，限定了每个任务可用的GPU内存只可能分配到当前未使用的GPU内存资源的一部分，这尤其对协调多任务的执行是有利的，避免了某一任务抢占过多内存资源，影响其他任务的正常运行。作为一种实施方式，第一分配阈值可以采用百分比的形式。例如，假设第一机器学习任务对应的第一分配阈值为50％，则每当与该任务相关的张量申请内存资源时，其对应的可用GPU内存为总GPU内存的当前未被使用的部分的一半。应当理解，考虑到作业过程的动态变化，同一机器学习任务的不同的张量可能对应不同的可用GPU内存。

根据一些实施方式，第一分配阈值可以与执行对应的任务所需的内存资源正相关。在执行任务前，可以根据任务的复杂程度预先确定第一分配阈值。例如，可以为内存需求较大的任务设置较高的第一分配阈值，以保证大计算量任务可以顺利执行。

根据一些实施方式，第一分配阈值可以与对应的任务的优先级相正关。例如，可以为优先级较高的任务设置较高的第一分配阈值，以保证高优先级任务的执行效率。

根据一些实施方式，第一机器学习任务可以包括被依次执行的多个批次任务。所述为所述第一机器学习任务设置第一分配阈值可以包括：在执行所述多个批次任务中的待执行批次任务之前，为所述待执行批次任务设置所述第一分配阈值。

机器学习任务通常涉及大量的样本数据，因此将样本数据分为多个批次任务(mini-batches)是有利的。考虑到每个批次所需的内存资源可能发生变化，以每个批次作为一个内存管理周期设置相应的第一分配阈值，能够进一步优化整个任务过程中GPU内存的分配。

根据一些实施方式，根据本公开的方法还可以包括：响应于确定所述可用GPU内存小于所述内存资源的大小，并且响应于确定所述对应的任务的优先级为高优先级，提高所述第一分配阈值，以使得经重新确定后的可用GPU内存不小于所述内存资源的大小。

基于预先设置的第一分配阈值确定的可用GPU内存，仍有可能不足以应对显存需求突增的情况。在这种情况下，可以考虑将待创建的张量申明到CPU锁页内存中以保证任务的顺利执行。然而对于高优先级的任务而言，执行效率也是一个不能忽略的要求，因此，可以考虑提高预设的第一分配阈值，使得高优先级任务可以从当前为使用的GPU内存中分配到更多的内存资源。

作为一种实施方式，可以考虑设置高优先级和低优先级两个级别。可以理解，高优先级任务额外获得的GPU内存需要从原定分配给低优先级任务的GPU内存中获得。

图4示出了高优先级任务的GPU内存(显存)动态调整的示意图。如图4所示，在显存扩容前，张量401由于可用的GPU内存不足，本应被申明到CPU锁页内存空间中。然而，通过调整GPU内存使用上限而使显存扩容后，该张量401被迁移回GPU显存空间。

另一方面，图5示出了低优先级任务的显存动态调整的示意图。如图5所示，对于低优先级任务而言，其可以分配的可用GPU内存将被压缩。在显存压缩前原本可以分配到GPU内存的张量501，在显存压缩后被迁移到CPU锁页内存空间中。

通过基于优先级顺序进行内存的动态管理，可以在确保高优先级任务的显存分配的同时，尽可能地为低优先级任务分配剩余的GPU显存，并且在本地任务队列发生变更时，使分配的内存适应深度学习训练作业的动态变化的内存需求，并在GPU显存和CPU主机锁页内存(Pinned Memory)之间进行动态置换。在运行时中，能够将张量在GPU的显存空间和CPU的锁页内存空间构成的统一地址空间中进行透明迁移，由此达到了动态控制任务所能分配的GPU内存上限的目标。

根据一些实施方式，可以将经提高的第一分配阈值作为下一个批次任务的第一分配阈值。通过按批次渐进地调整分配阈值，可以避免在后续批次中频繁调整分配阈值，保证高优先级作业的执行效率。

根据一些实施方式，所述计算节点可以被配置用于并行执行所述第一机器学习任务和第二机器学习任务。应当理解，本公开的方案对并行运行的机器学习任务的数目并不做限制。在执行第二机器学习任务的过程中，会相应地产生需要请求内存资源的第二张量，其内存管理过程与第一机器学习任务类似。此外，第一和第二机器学习任务可以对应相同的优先级，也可以对应不同的优先级，在此不做赘述。

根据一些实施方式，所述计算资源还可以包括所述至少一个GPU的总GPU算力。所述方法还可以包括：响应于确定对应于所述第一机器学习任务的第一算子和对应于所述第二机器学习任务的第二算子在同一时间请求GPU算力，延长所述第二算子的等待执行时间，其中，所述第二机器学习任务具有比所述第一机器学习任务较低的优先级。

现代操作系统(例如，Linux)支持cgroups，来对CPU进程的资源进行限制与隔离。根据本公开的方法实现了类似的机制，可在运行时对例如深度学习训练作业进行动态的GPU计算资源隔离。当例如多个深度学习作业在同一个GPU上启动时，作业之间的干扰主要来自于GPU内核队列延迟和PCIe总线竞争，上述干扰会可能导致这批作业的性能持续下降。归其原因，这些干扰主要来自于缺少对GPU内核操作触发频率的控制。

为了解决上述问题，本公开实现了针对GPU内核操作的算子管理。在相关技术中，深度学习框架处理GPU内核操作时直接触发相应的GPU算子。与此不同，本公开对算子进行如下控制：接管所有GPU内核算子的执行流程，待执行算子依序进入执行队列，并分配延迟执行时间；不断监控算子执行时间和GPU算力利用率并打点；并根据预定策略动态调整后续算子延迟执行时间。例如，当高优先级作业算子的算力被抢占时，则延长低优先级作业算子的等待执行时间，插入空闲时间片(idle slot)。

如图6所示，当高优先级作业算子(OP)601和低优先级作业算子604在时间上发生冲突时，即，当高优先级作业算子601和低优先级作业算子604都希望在同一时间片请求GPU算力进行运算时，在低优先级作业算子队列中插入空闲时间片603，使得算子604等待直至在高优先级作业算子队列中出现空闲时间片602时，进入GPU算子队列。可以理解，对应于高优先级作业算子队列中算子的数量，需要在低优先级作业算子队列中插入相应数量的空闲时间片605、606、607。

对算子的上述调度尤其在训练集群中不同型号的GPU混布的情况下是有利的。由于各种类型的GPU显存大小和算力不一致且并不成正比，可能存在一部分GPU显存不足但算力空闲的情况，通过将算子分配和内存分配相互配合，可以进一步保证高优先级作业的执行效率，协同提高了GPU利用率。

下文描述根据本公开的计算资源分配方法的一个示例性流程。应当理解，其中描述的步骤流程(尤其时执行顺序)仅出于说明的目的，并不对本公开的方案造成限定。以深度学习应用训练为例，训练过程以mini-batch为一个迭代周期。在一个迭代周期内，可能发生成千上万次的张量(Tensor)内存空间的分配或销毁，其中，Tensor的内存管理流程可以如下所示：

1.作业启动后，系统框架(例如深度学习平台)根据模型申请的显存资源，设置一个适当的显存上限(对应于分配阈值)；

2.当某个mini-batch显存需求突增且设备显存不足时，则将待创建的张量申明到CPU的锁页内存中，保证作业能够正常运行；

3.将同GPU设备上低优先级作业的显存上限下调，出让显存给高优先级作业，保证高优作业的执行效率；

4.将高优先级作业的显存上限上调，使得下个mini-batch的张量又可以申明在GPU显存中；以及

5.系统框架持续对作业显存使用情况打点，以便动态调整显存上限。

作为一种实施方式，运行时，可以基于作业数目和优先级用调度算法，产生一个配置文件，通过定时读取该配置文件，增减GPU内存的可用比例。

此外，作为一种实施方式，可以通过如下方式对显存进行调整：

1.系统框架获取/更新当前计算节点的所有深度学习应用列表；

2.将所有应用按照优先级顺序进行排序，高优先级位于低优先级之前；

3.对高优先级应用进行显存分配/调整，其GPU显存上限为该应用向系统提交时的请求(request)值；

4.计算当前计算节点剩余的GPU显存值gpu_mem_left，对所有的低优先级应用进行显存分配/调整，若gpu_mem_left>0，则按各低优先级应用可使用的GPU显存按照上述request值占所有低优先级内存需求和的比例进行分配/调整；

5.重复上述过程；

需要说明，根据本公开的方案已在现有的深度学习平台(例如，PaddlePaddle)上进行了小范围测试验证，测试方案如下：

1.在分布式深度学习平台所有GPU计算节点中，随机选取部分计算节点部署根据本公开的方案；

2.深度学习平台日常例行的应用分为训练应用(低优先级)和推理应用(高优先级)，部分应用会因调度算法分配到部署该方案的计算节点，大部分会分配到未部署的计算节点；

3.对不同节点上的应用的平均JCT(Job complete time，作业完成时间)、平均计算资源(显存、算力)使用进行统计计算；以及

4.比较部署装置与未部署的节点的资源使用情况与运行作业的平均JCT情况；

在单GPU卡多任务背景下，在同一张GPU卡上同时运行多个深度学习训练和推理应用测试实验，其中训练为低优先级应用，而推理为高优先级任务。测试表明，根据本公开的方案具有以下优势：

1.资源利用率提高；GPU共享后，总利用率接近所有资源的95％，减少了资源浪费；

2.增强公平性，多个任务可以同时开始享受资源；也可以单独保证某一个应用的QoS(Quality of Service，服务质量)；以及

3.减少任务排队时间，所有应用的平均结束时间JCT有所下降；

根据本公开的一个方面，提供了一种用于分配计算节点的计算资源的装置700。所述计算节点包括至少一个图像处理单元GPU并且被配置用于执行至少第一机器学习任务，所述计算资源包括所述至少一个GPU的总GPU内存。所述装置包括：内存确定单元701，用于响应于在执行所述第一机器学习任务的过程中产生的第一张量请求内存资源，确定所述计算资源中的可用GPU内存；以及分配单元703，用于基于所述第一张量所请求的内存资源的大小，确定是否从所述可用GPU内存中为所述第一张量分配所述内存资源。

根据一些实施方式，所述计算节点还包括中央处理单元CPU，所述计算资源还包括所述CPU的预设的锁页内存，并且其中，所述分配单元还被配置用于：响应于确定所述可用GPU内存不小于所述内存资源的大小，从所述可用GPU内存中为所述第一张量分配所述内存资源；以及响应于确定所述可用GPU内存小于所述内存资源的大小，从所述锁页内存中为所述第一张量分配所述内存资源。

根据一些实施方式，所述装置还可以包括阈值设置单元，用于为所述第一机器学习任务设置第一分配阈值，所述第一分配阈值指示能够从所述总GPU内存的当前未被使用的部分中分配到的GPU内存占所述当前未被使用的部分的比例，并且其中，所述内存确定单元还被配置用于：确定所述总GPU内存的所述当前未被使用的部分；以及基于所述部分以及所述第一分配阈值，确定所述可用GPU内存。

根据一些实施方式，所述第一机器学习任务包括被依次执行的多个批次任务，并且其中，所述阈值设置单元还被配置用于：在执行所述多个批次任务中的待执行批次任务之前，为所述待执行批次任务设置所述第一分配阈值。

根据一些实施方式，所述第一分配阈值可以与执行对应的任务所需的内存资源正相关。

根据一些实施方式，所述第一分配阈值可以与对应的任务的优先级正相关。

根据一些实施方式，所述装置还可以包括：阈值调整单元，用于响应于确定所述可用GPU内存小于所述内存资源的大小，并且响应于确定所述对应的任务的优先级为高优先级，提高所述第一分配阈值，以使得经重新确定后的可用GPU内存不小于所述内存资源的大小。

根据一些实施方式，所述阈值设置单元还可以被配置用于将经提高的第一分配阈值作为下一个批次任务的第一分配阈值。

根据一些实施方式，所述计算节点可以被配置用于并行执行所述第一机器学习任务和第二机器学习任务。

根据一些实施方式，所述计算资源还可以包括所述至少一个GPU的总GPU算力，并且其中，所述装置还包括：算子管理单元，用于响应于确定对应于所述第一机器学习任务的第一算子和对应于所述第二机器学习任务的第二算子在同一时间请求GPU算力，延长所述第二算子的等待执行时间，其中，所述第二机器学习任务具有比所述第一机器学习任务较低的优先级。

根据本公开的一个方面，还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

参考图8，现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备，输入单元806可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元807可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元808可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙^TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如方法200。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的方法200的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种用于分配计算节点的计算资源的方法，其中，所述计算节点包括至少一个图像处理单元GPU并且被配置用于执行至少第一机器学习任务，所述计算资源包括所述至少一个GPU的总GPU内存，所述方法包括：

响应于在执行所述第一机器学习任务的过程中产生的第一张量请求内存资源，确定所述计算资源中的可用GPU内存；以及

基于所述第一张量所请求的内存资源的大小，确定是否从所述可用GPU内存中为所述第一张量分配所述内存资源。

2.根据权利要求1所述的方法，其中，所述计算节点还包括中央处理单元CPU，所述计算资源还包括所述CPU的预设的锁页内存，并且其中，

所述基于所述第一张量所请求的内存资源的大小，确定是否从所述可用GPU内存中为所述第一张量分配所述内存资源包括：

响应于确定所述可用GPU内存不小于所述内存资源的大小，从所述可用GPU内存中为所述第一张量分配所述内存资源；以及

响应于确定所述可用GPU内存小于所述内存资源的大小，从所述锁页内存中为所述第一张量分配所述内存资源。

3.根据权利要求1或2所述的方法，还包括：

为所述第一机器学习任务设置第一分配阈值，所述第一分配阈值指示能够从所述总GPU内存的当前未被使用的部分中分配到的GPU内存的比例，并且其中，

所述确定所述计算资源中的可用GPU内存包括：

确定所述总GPU内存的所述当前未被使用的部分；以及

基于所述部分以及所述第一分配阈值，确定所述可用GPU内存。

4.根据权利要求3所述的方法，其中，所述第一机器学习任务包括被依次执行的多个批次任务，并且其中，

所述为所述第一机器学习任务设置第一分配阈值包括：

在执行所述多个批次任务中的待执行批次任务之前，为所述待执行批次任务设置所述第一分配阈值。

5.根据权利要求3或4所述的方法，其中，所述第一分配阈值与执行对应的任务所需的内存资源正相关。

6.根据权利要求4所述的方法，其中，所述第一分配阈值与对应的任务的优先级正相关。

7.根据权利要求6所述的方法，还包括：

响应于确定所述可用GPU内存小于所述内存资源的大小并且确定所述对应的任务的优先级为高优先级，提高所述第一分配阈值，以使得经重新确定后的可用GPU内存不小于所述内存资源的大小。

8.根据权利要求7所述的方法，其中，所述为所述待执行批次任务设置所述第一分配阈值包括：

将经提高的第一分配阈值作为下一个批次任务的第一分配阈值。

9.根据权利要求1至8中任一项所述的方法，其中，所述计算节点被配置用于并行执行所述第一机器学习任务和第二机器学习任务。

10.根据权利要求9所述的方法，其中，所述计算资源还包括所述至少一个GPU的总GPU算力，并且其中，所述方法还包括：

响应于确定对应于所述第一机器学习任务的第一算子和对应于所述第二机器学习任务的第二算子在同一时间请求GPU算力，延长所述第二算子的等待执行时间，其中，所述第二机器学习任务具有比所述第一机器学习任务较低的优先级。

11.一种用于分配计算节点的计算资源的装置，其中，所述计算节点包括至少一个图像处理单元GPU并且被配置用于执行至少第一机器学习任务，所述计算资源包括所述至少一个GPU的总GPU内存，所述装置包括：

内存确定单元，用于响应于在执行所述第一机器学习任务的过程中产生的第一张量请求内存资源，确定所述计算资源中的可用GPU内存；以及

分配单元，用于基于所述第一张量所请求的内存资源的大小，确定是否从所述可用GPU内存中为所述第一张量分配所述内存资源。

12.根据权利要求11所述的装置，其中，所述计算节点还包括中央处理单元CPU，所述计算资源还包括所述CPU的预设的锁页内存，并且其中，所述分配单元还被配置用于：

13.根据权利要求11或12所述的装置，还包括：

阈值设置单元，用于为所述第一机器学习任务设置第一分配阈值，所述第一分配阈值指示能够从所述总GPU内存的当前未被使用的部分中分配到的GPU内存的比例，并且其中，

所述内存确定单元还被配置用于：

确定所述总GPU内存的所述当前未被使用的部分；以及

14.根据权利要求13所述的装置，其中，所述第一机器学习任务包括被依次执行的多个批次任务，并且其中，

所述阈值设置单元还被配置用于：

15.根据权利要求13或14所述的装置，其中，所述第一分配阈值与执行对应的任务所需的内存资源正相关。

16.根据权利要求14所述的装置，其中，所述第一分配阈值与对应的任务的优先级正相关。

17.根据权利要求16所述的装置，还包括：

阈值调整单元，用于响应于确定所述可用GPU内存小于所述内存资源的大小并且确定所述对应的任务的优先级为高优先级，提高所述第一分配阈值，以使得经重新确定后的可用GPU内存不小于所述内存资源的大小。

18.根据权利要求17所述的装置，其中，所述阈值设置单元还被配置用于：

19.根据权利要求11至18中任一项所述的装置，其中，所述计算节点被配置用于并行执行所述第一机器学习任务和第二机器学习任务。

20.根据权利要求19所述的装置，其中，所述计算资源还包括所述至少一个GPU的总GPU算力，并且其中，所述装置还包括：

算子管理单元，用于响应于确定对应于所述第一机器学习任务的第一算子和对应于所述第二机器学习任务的第二算子在同一时间请求GPU算力，延长所述第二算子的等待执行时间，其中，所述第二机器学习任务具有比所述第一机器学习任务较低的优先级。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-10中任一项所述的方法。