CN111459650B

CN111459650B - 管理专用处理资源的存储器的方法、设备和介质

Info

Publication number: CN111459650B
Application number: CN201910053486.8A
Authority: CN
Inventors: 赵军平; 王鲲
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2023-08-18
Anticipated expiration: 2039-01-21
Also published as: CN111459650A; US20200233593A1; US11281384B2

Abstract

本公开的实施例涉及用于管理专用处理资源的存储器的方法、设备和计算机程序产品。该方法包括：在向专用处理资源集合中的第一专用处理资源存储用于第一专用处理资源的计算任务的数据的过程中，确定第一专用处理资源的存储器的可用空间的大小；响应于第一专用处理资源的存储器的可用空间的大小低于预定阈值，从专用处理资源集合确定第二专用处理资源，第二专用处理资源的存储器的可用空间的大小大于预定阈值；以及使得数据中未被存储到第一专用处理资源的存储器的至少一部分被存储到第二专用处理资源的存储器上。由此，可以实现跨多个专用处理资源来灵活管理其存储资源，从而能够执行大规模的深度学习等计算任务。

Description

管理专用处理资源的存储器的方法、设备和介质

技术领域

本公开的实施例总体涉及包括专用处理资源的计算系统，并且更具体地涉及用于管理专用处理资源的存储器的方法、设备以及介质。

背景技术

随着计算机技术的发展，专用处理资源的种类越来越丰富，并且已经不再局限于传统的诸如中央处理单元的通用处理资源。例如，目前图形处理单元(Graphic ProcessingUnit，GPU)的计算能力越来越强。由于GPU特有性质，GPU特别适合于处理多种类型的计算任务。这些计算任务例如可以是机器学习(Machine Learning)、深度学习(Deep Learning)、数据挖掘(Data Mining)、高性能计算(High Performance Computing)等任务。

目前多GPU服务器根据客户需求被广泛部署。然而。一个特定的GPU设备仅能够使用其自身的存储器，这限制了灵活的GPU存储资源管理。此外，由于单个GPU设备上存储器的有限空间，也使得无法进行大规模的机器学习模型训练。

发明内容

本公开的实施例提供了用于管理专用处理资源的存储器的方法、设备和计算机程序产品。

根据本公开的第一方面，提供了一种用于管理专用处理资源的存储器的方法。该方法包括：在向专用处理资源集合中的第一专用处理资源存储用于第一专用处理资源的计算任务的数据的过程中，确定第一专用处理资源的存储器的可用空间的大小；响应于第一专用处理资源的存储器的可用空间的大小低于预定阈值，从专用处理资源集合确定第二专用处理资源，第二专用处理资源的存储器的可用空间的大小大于预定阈值；以及使得数据中未被存储到第一专用处理资源的存储器的至少一部分被存储到第二专用处理资源的存储器上。

根据本公开的第二方面，提供了一种用于管理专用处理资源的存储器的设备，包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。该指令当由至少一个处理单元执行时使得设备执行动作，该动作包括：在向专用处理资源集合中的第一专用处理资源存储用于第一专用处理资源的计算任务的数据的过程中，确定第一专用处理资源的存储器的可用空间的大小；响应于第一专用处理资源的存储器的可用空间的大小低于预定阈值，从专用处理资源集合确定第二专用处理资源，第二专用处理资源的存储器的可用空间的大小大于预定阈值；以及使得数据中未被存储到第一专用处理资源的存储器的至少一部分被存储到第二专用处理资源的存储器上。

根据本公开的第三方面，提供了一种计算机程序产品。计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，机器可执行指令在被执行时使机器实现根据本公开的第一方面所描述的方法的任意步骤。

提供发明内容部分是为了以简化的形式来介绍所选择的概念，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中在各个附图中，相同或对应的标号表示相同或对应的部件。

图1示意性示出了适于实现本公开的实施例的示例性计算系统的框图；

图2示出了根据本公开的实施例的方法的流程图；

图3A示意性示出了根据本公开的一些实施例的多个专用处理资源的拓扑结构的框图；

图3B示意性示出了根据本公开的一些实施例的多个专用处理资源的另一拓扑结构的框图；

图4A示出了根据本公开的实施例的另一方法的流程图；

图4B示出了根据本公开的实施例的又一方法的流程图；以及

图5示出了可以用来实施本公开内容的实施例的示例设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一些实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

专用处理资源可以在客户端本地或者可以由远程机器或系统提供。在一些示例中，可以部署基于云的计算系统，其中包括具有一个或多个专用处理资源的多个服务器。该计算系统的专用处理资源可以由不同客户端根据需要来使用，以将相应的应用调度到可用的专用处理资源上运行。

图1示出了本公开的实施例可以在其中被实现的示例计算系统100的示意图。在该计算系统100中部署了用于应用运行的多个服务器，包括服务器110-1、服务器110-2、服务器110-3...、服务器110-U(以下统称为或单独称为服务器110，其中U为大于1的自然数)。计算系统100还包括专用处理资源160-1、专用处理资源160-2、专用处理资源160-3、专用处理资源160-4、专用处理资源160-5、...、专用处理资源160-V(以下统称为或单独称为专用处理资源160，其中V为大于1的自然数)。每个服务器110上可以具有一个或多个专用处理资源160。

在图1的示例中，服务器110-1具有专用处理资源160-1和160-2，服务器110-2具有专用处理资源160-3，并且服务器110-U具有专用处理资源160-V。将会理解，在此并不限制每个服务器仅具有一个或两个专用处理资源，而是一个服务器可以具有一个或多个专用处理资源。因而，在此U和V的数值可以是不相等的。专用处理资源160的示例可以包括但不限于图形专用处理资源(GPU)、现场可编程门阵列(FPGA)等。为便于讨论，某些实现将以GPU作为专用处理资源的示例进行描述。除了专用处理资源160之外，服务器110还可以包括诸如中央处理单元(CPU)的一个或多个通用处理资源(未示出)。

图1还示出了多个客户端120-1、120-2……、120-P等(以下统称或单独称为客户端120，其中P为大于1的自然数)，分别具有要运行的应用150-1、150-2、……、150-Q(以下统称为或单独称为应用150，其中Q为大于1的自然数)。应用150可以是机器上可运行的任何应用，该应用可以被设计为执行相应数据处理或分析等任务。作为示例，应用150可以执行与高性能计算(HPC)、机器学习(ML)或深度学习(DL)以及人工智能(AI)等相关的数据处理或分析任务。将会理解，在此并不限制每个客户端仅具有一个应用，而是一个客户端可以具有一个或多个应用。因而，在此P和Q的数值可以是不相等的。

为了能够快速高效运行这些应用和/或为了保留本地专用处理资源，客户端120可以请求服务器110的专用处理资源160来运行这些应用150。在这样的实现中，客户端120可以通过互连网络130连接到一个或多个服务器110，并且将应用150交由服务器110的一个或多个专用处理资源160运行。取决于客户端120、服务器110和/或专用处理资源160所支持的接口，互连网络130可以支持基于诸如远程直接内存访问(RDMA)和传输控制协议(TCP)等各种网络传输技术的不同类型的有线或者无线连接。

应当理解，图1示出的设备和/或布置仅是一个示例。在其他示例中，该计算系统100可以包括任意适当数目的服务器110和客户端120。每个服务器110可以安装有任意适当数目的专用处理资源160，并且每个客户端120可以具有待运行的多个应用150。此外，尽管被单独示出，调度器140在实际应用中可以由独立于服务器110的其他设备实现，或者可以被部分或全部实现在一个或多个服务器110上。

为了描述清楚和简洁，在下文中将以GPU核为例来详细描述本公开的示例实现。如已知的，GPU作为一种专用处理器，其强大的计算能力源自其大量的核和高带宽的内存。在GPU硬件架构中，一个GPU通常具有大量的GPU核，例如5120或者接近10000个核。GPU核作为一种专用处理资源，是最基本的处理单元，也被称为流处理器(SP)。指令和任务最终都在GPU核上被处理。多个GPU核同时执行指令，从而实现了GPU的并行计算。多个SP加上一些其他资源，例如寄存器、共享内存，可以组成一个流多处理器(SM)。

但是，应当理解，GPU仅仅是一种示例性的专用处理资源，并非用于限制本公开的范围。在此描述的精神和原理可以应用于其他专用处理资源，例如诸如现场可编程门阵列(FPGA)之类的加速器中的专用处理资源，不论是目前已知的还是将来开发的，而并不仅仅限于GPU核。

在当前的计算系统中，存在尚未解决的一些挑战。针对大型的深度学习或推断模型，单个专用处理资源可能会遭受存储溢出(OOM)恐慌。用户为避免模型训练失败可能需要减少训练批次大小、调整模型结构或将模型转换为并行。在这种情况下，用户还可能需要升级硬件，这将导致更高的成本。

另外，服务器110可以具有多个专用处理资源160，然而当前每个专用处理资源以彼此分离的方式使用，目前还没有有效的方案来聚合多个专用处理资源的存储资源，或者跨多个专用处理资源来平衡存储负载。

基于现有技术中的不足，本公开提出了一种用于管理专用处理资源的存储器的方法。在该方法中，可以跨多个专用处理资源的存储器来为计算任务分配存储空间。这通过对现有应用或模型的影响最小的方式来实现，并且充分考虑专用处理资源的拓扑结构，以优化访问远程专用处理资源的存储器的性能。

根据本公开的一些实施例，提供了一种用于管理专用处理资源160的存储器的方法。图2示意性示出了根据本公开的一些实施例的用于管理专用处理资源160的存储器的方法200的流程图。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，并且本公开的范围在此方面不受限制。

以下结合图1来描述方法200中所涉及的动作。例如，方法200可以由如图1所示的服务器110来执行，例如以服务器110-1作为示例。应当理解，方法200也可以由图1所示的其他服务器110-2、110-3、……、110-U来执行。更具体地，服务器110-1可以在专用处理资源160的驱动程序之上来提供管理组件来执行方法200。

如图2所示，在框210处，服务器110-1在向其所包括的专用处理资源集合中的第一专用处理资源160-1存储用于第一专用处理资源的计算任务的数据的过程中，确定第一专用处理资源160-1的存储器的可用空间的大小。

在一些实施例中，服务器110-1可以包括监视器，用于跟踪每个GPU的存储器的可用空间的大小，诸如存储在键值表<GPU#：freeGPUMemSize>中。监视器在一些实施例中是长时间运行的组件。

在框220处，服务器110-1确定第一专用处理资源160-1的存储器的可用空间的大小(例如，freeGPUMemSize的值)是否低于预定阈值。如果第一专用处理资源160-1的存储器的可用空间的大小低于预定阈值，则方法200继续到框230，服务器110-1从专用处理资源集合确定第二专用处理资源160-2，第二专用处理资源的存储器的可用空间的大小大于预定阈值。这里，第二专用处理资源可以包括CPU等通用处理资源。

在一些实施例中，服务器110-1确定与第一专用处理资源160-1和专用处理资源集合中的其他专用处理资源之间的连接相对应的数据传输速率。然后，服务器110-1从专用处理资源集合中确定一组候选专用处理资源，一组候选专用处理资源中的候选专用处理资源所对应的数据传输速率高于预定阈值速率。为此目的，服务器110-1可以包括拓扑感知分配器。通过拓扑感知的方式，在跨专用处理资源来共享存储器时，可以选择与最快的数据传输速率相对应的专用处理资源，在此基础上，进一步选择距离最短的专用处理资源，从而获得优化的性能。

在下文中，将参考图3A和图3B示意性示出两种典型的拓扑结构。图3A示意性示出了根据本公开的一些实施例的多个专用处理资源160的拓扑结构的框图300A。如图3A所示，专用处理资源160-1和160-2之间基于PCIe交换机310A建立PCIe连接，专用处理资源160-3和160-4之间基于PCIe交换机320A建立PCIe连接。PCIe交换机310A和320A之间基于SOCKET312A和322A来建立快速通道互连(Quick Path Interconnection，QPI)连接。

图3B示意性示出了根据本公开的一些实施例的多个专用处理资源的拓扑结构的框图300B。如图3B所示，以NVIDIA的GPU为示例，专用处理资源160-1、160-2、160-3、160-4之间可以具有如实线所示的NVlink连接，该连接支持较快的数据传输速率，例如72GB/s，并且具有良好的可扩展性。进一步，在多个专用处理资源160之间还具有经由PCIe交换机310B建立的基于PCIe的如虚线所示的连接。

在图3B中，专用处理资源160-1、160-2、160-3和160-4之间实现了对等(peer-to-peer)连接。在本公开的实施例中，在针对第一专用处理资源确定第二专用处理资源时，优选地期望第二专用处理资源与第一专用处理资源之间至少具有对等连接。

在此实现中，可以从如图3A和3B所示的拓扑结构中采集相关的拓扑信息。将会理解，在图3A和图3B中仅示意性示出了两个示例性拓扑结构。在其他的应用环境中，可以包括更多或者更少的专用处理资源160，并且各个专用处理资源160之间还可以存在其他的连接方式。

由于连接方式的不同，导致连接两个专用处理资源160之间的数据传输速率存在差异。图3示意性示出了与不同连接相关联的带宽，可以基于表1中的带宽来确定两个专用处理资源160之间的数据传输速率。

表1连接类型的示例

在一些实施例中，服务器110-1可以基于各个专用处理资源160之间的拓扑结构，并按照表1所示的连接类型，确定各个专用处理资源160之间的连接相对应的数据传输速率。为了获得更好的性能，服务器110-1可以先尝试寻找与第一专用处理资源160-1的连接的数据传输速率高于阈值速率的专用处理资源，并进一步寻找与第一专用处理资源160-1距离最短的邻近专用处理资源。

在一些实施例中，服务器110-1可以基于查询到的拓扑结构，将各个专用处理资源160基于其连接分组为层次树。在确定第二专用处理资源时，服务器110-1首先从最低层来搜索这样的层次树，并且可以继续向上搜索，直到满足预定的停止标准(例如，不跨越QPI进行存储资源分配)。

继续参考图2，在框240处，服务器110-1可以使得数据中未被存储到第一专用处理资源160-1的存储器的至少一部分被存储到第二专用处理资源160-2的存储器上。在一些实施例中，服务器110-1可以获取第二专用处理资源的存储器的预分配空间的物理地址，并且使得基于物理地址来存储数据中的至少一部分。

为了优化性能，例如为了降低元数据的占用空间，避免频繁的存储器分配和驱动程序调用，服务器110-1可以从各GPU的存储器中预先分配存储空间，并将这些存储空间拆分为块。块的大小例如为1MB、8MB、64MB、512MB或1GB，等等。预先分配的存储空间被组织为存储资源池形式的虚拟存储，由此，应用可以获取“虚拟”GPU存储器指针(VGPtr)，VGPtr可以被映射到基础的物理GPU存储器指针(PGPtr)，PGPtr可以从单个或多个GPU设备配置。

在一些实现中，可以使用表2所示的自维护的映射表，来将VGPtr地址(包括偏移和大小)映射至底层的PGPtr(包括GPU索引和地址)。该映射表可以实时或定期更新，可以实现为树结构以进行快速查询，还可以通过特殊硬件(例如TLB)来进行加速。此外，虚拟存储器指针的实现还可以基于现有的GPU存储器应用程序接口，诸如Nvidia UVA或Linux HMM。

表2虚拟地址和物理地址之间的映射表

VGPtr信息	大小	GPU索引	GPU物理地址	……
					0x100000	1048576	GPU0	0xF00000	……
0x200000	2097152	GPU1	0xE00000	……
					……	……	……	……	……

当应用请求GPU存储器分配时，服务器110-1通常向应用返回虚拟GPU存储器指针(VGPtr)，其中整个或部分底层存储器可能来自本地或邻居GPU。备选地，底层存储器的配置可以随时间改变，例如用于重新平衡。提供虚拟存储器指针可以使得应用层保持不变，即使底层存储器的配置发生了改变，从而最小化底层存储资源对应用层的影响。

从以上描述可以看出，根据本公开的技术方案可以对多个专用处理资源的存储器进行灵活管理。该技术方案有效聚合了多个专用处理资源的存储资源，以使得可以顺利进行大型模型的训练。该技术方案充分考虑了各个专用处理资源的拓扑结构和相对应的数据传输速率，以减少等待时间，从而实现较优的性能。此外，该技术方案通过提供单个虚拟存储器指针，来最小化底层存储器对应用层的影响。

此外，可以存在确定第二专用处理资源的多种实施方式。图4A和图4B各自示出了根据本公开的实施例的方法400A和400B的流程图。应当理解，方法400A和400B还可以包括未示出的附加动作和/或可以省略所示出的动作，并且本公开的范围在此方面不受限制。

对于方法400A，在框410处，服务器110-1基于拓扑结构确定了一组候选专用处理资源，如先前所描述的。接着，服务器110-1基于一组候选专用处理资源中的候选专用处理资源的存储器的可用空间的大小，从一组候选专用处理资源中确定第二专用处理资源。由此，可以跨多个专用处理资源来实现全面的存储器管理。

基于存储器的可用空间的大小来确定第二专用处理资源的策略可以包括资源紧凑型和负载平衡型，该策略可以由用户通过配置参数来设置。在资源紧凑型情况下，期望数据在尽可能少的专用处理资源之间共享，以实现较高的数据访问速度。方法400A进行到框420，服务器110-1将一组候选专用处理资源中具有最大可用空间的存储器的候选专用处理资源确定为第二专用处理资源。

针对负载平衡型的情况可以使用方法400B，其中期望各个专用处理资源的存储器的使用率相近，以使得整体性能较优。在框430处，服务器110-1将一组候选专用处理资源中的一个候选专用处理资源确定为第二专用处理资源。可以在框410之后执行框430。

方法400B进行到框440，服务器110-1确定数据中未被存储到第一专用处理资源的存储器的部分的大小。然后方法400B进行到框450，服务器110-1基于该部分的大小和一组候选专用处理资源中的候选专用处理资源的存储器的可用空间的大小，确定将要向第二专用处理资源存储的数据的大小。

换言之，在负载平衡型的情况下，数据中未被存储到第一专用处理资源的存储器的部分被存储到多个候选专用处理资源中。为了使多个候选专用处理资源的存储器的负载平衡，被存储到候选专用处理资源的数据的大小与该候选专用处理资源的存储器的可用空间的大小成正比。

附加地或备选地，在确定候选专用处理资源后，服务器110-1可以基于历史选择来从一组候选专用处理资源中确定第二专用处理资源，即将之前所选择的第二专用处理资源作为当前数据要被存储到的专用处理资源，以实现更好的局部性。

在一些实施例中，服务器110-1可以包括用于提供可配置参数的策略组件，以对专用处理资源的存储器进行更灵活的管理。例如，用户可以选择启用/禁用自动的专用处理资源分配，或者可以基于条件来启用/禁用自动的专用处理资源分配。该条件可以是：仅在当前设备不具有可用存储器的情况下启用远程存储器。用户还可以设置如何搜索专用处理资源的层次树结构，特别是停止标准。

又例如，用户可以选择存储器的预分配空间的大小和增长策略。预分配空间的大小可以是存储器的50％，如果存储资源池的大小仅剩余25％可用，则预分配空间的大小增长10％。应当理解，以上数值仅作为示例而非限制。

图5示出了可以用来实施本公开内容的实施例的示例设备500的示意性框图。如图所示，设备500包括中央处理单元(CPU)510，其可以根据存储在只读存储器(ROM)520中的计算机程序指令或者从存储单元580加载到随机访问存储器(RAM)530中的计算机程序指令，来执行各种适当的动作和处理。在RAM 530中，还可以存储设备500操作所需的各种程序和数据。CPU 510、ROM 520以及RAM 530通过总线540彼此相连。输入/输出(I/O)接口550也连接至总线540。

设备500中的多个部件连接至I/O接口550，包括：输入单元560，例如键盘、鼠标等；输出单元570，例如各种类型的显示器、扬声器等；存储单元580，例如磁盘、光盘等；以及通信单元590，例如网卡、调制解调器、无线通信收发机等。通信单元590允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200以及方法400A和400B，可由处理单元510执行。例如，在一些实施例中，方法200以及方法400A和400B可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元580。在一些实施例中，计算机程序的部分或者全部可以经由ROM 520和/或通信单元590而被载入和/或安装到设备500上。当计算机程序被加载到RAM 530并由CPU 510执行时，可以执行上文描述的方法200以及方法400A和400B的一个或多个动作。

本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络，例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Java、Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于管理专用处理资源的存储器的方法，包括：

在向专用处理资源集合中的第一专用处理资源存储用于所述第一专用处理资源的学习模型计算任务的数据的过程中，确定所述第一专用处理资源的存储器的可用空间的大小；

响应于所述第一专用处理资源的存储器的可用空间的大小低于预定阈值，从所述专用处理资源集合确定第二专用处理资源，所述第二专用处理资源的存储器的可用空间的大小大于所述预定阈值；以及

使得所述数据中未被存储到所述第一专用处理资源的存储器的至少一部分被存储到所述第二专用处理资源的存储器上；

其中确定所述专用处理资源集合中的所述第二专用处理资源至少部分地基于所述专用处理资源集合的拓扑结构和关联的数据传输能力；

其中被利用以存储所述数据的相应部分的所述第一专用处理资源和所述第二专用处理资源的所述存储器中的至少部分存储器利用虚拟存储器指针到相应物理存储器指针的映射而被组织为存储资源池，所述虚拟存储器指针由一个或多个应用利用，所述相应物理存储器指针到所述第一专用处理资源和所述第二专用处理资源的所述存储器中；

其中所述专用处理资源集合的所述拓扑结构包括对等网络；

其中所述第一专用处理资源和所述第二专用处理资源通过所述对等网络的第一对等连接而被耦合，作为所述第二专用处理资源的所述确定的一部分，所述对等网络的所述第一对等连接被确定以具有相对于包括所述对等网络的所述拓扑结构中的一个或多个附加对等连接的相应数据传输速率更大的数据传输速率；

其中确定所述第二专用处理资源包括标识一个或多个附加专用处理资源；

其中未被存储在所述第一专用处理资源的所述存储器上的所述数据的一个或多个附加部分被存储在所述一个或多个附加专用处理资源的一个或多个存储器上；并且

其中所述第二专用处理资源和所述一个或多个附加专用处理资源还基于以下各项而被确定：

所述第二专用处理资源和所述一个或多个附加专用处理资源的一个或多个历史选择；以及

所述第二专用处理资源和所述一个或多个附加专用处理资源的所述存储器的所述可用空间的大小。

2.根据权利要求1所述的方法，其中确定所述第二专用处理资源包括：

确定与所述第一专用处理资源和所述专用处理资源集合中的其他专用处理资源之间的连接相对应的数据传输速率；

从所述专用处理资源集合中确定一组候选专用处理资源，所述一组候选专用处理资源中的候选专用处理资源所对应的所述数据传输速率高于预定阈值速率；以及

基于所述一组候选专用处理资源中的候选专用处理资源的存储器的可用空间的大小，从所述一组候选专用处理资源中确定所述第二专用处理资源。

3.根据权利要求2所述的方法，其中从所述一组候选专用处理资源中确定所述第二专用处理资源包括：

将所述一组候选专用处理资源中具有最大可用空间的存储器的候选专用处理资源确定为所述第二专用处理资源。

4.根据权利要求2所述的方法，其中所述第二专用处理资源是一组候选专用处理资源中的一个候选专用处理资源，所述方法还包括：

确定所述数据中未被存储到所述第一专用处理资源的存储器的部分的大小；以及

基于所述部分的大小和所述一组候选专用处理资源中的候选专用处理资源的存储器的可用空间的大小，确定将要向所述第二专用处理资源存储的数据的大小。

5.根据权利要求1所述的方法，其中使得所述数据中的所述至少一部分被存储到所述第二专用处理资源的存储器上包括：

获取所述第二专用处理资源的存储器的预分配空间的物理地址；以及

使得基于所述物理地址来存储所述数据中的所述至少一部分。

6.根据权利要求1所述的方法，其中所述第一专用处理资源包括：第一类型的专用处理单元，并且所述第二专用处理资源包括第二类型的专用处理单元，所述第二类型不同于所述第一类型。

7.根据权利要求6所述的方法，其中所述第一类型的专用处理单元包括图形处理单元GPU。

8.根据权利要求7所述的方法，其中所述第二类型的专用处理单元包括中央处理单元CPU。

9.一种用于管理专用处理资源的存储器的设备，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行步骤，所述步骤包括：

在向专用处理资源集合中的第一专用处理资源存储用于所述第一专用处理资源的计算任务的数据的过程中，确定所述第一专用处理资源的存储器的可用空间的大小；

其中所述专用处理资源集合的所述拓扑结构包括对等网络；

10.根据权利要求9所述的设备，其中确定所述第二专用处理资源包括：

11.根据权利要求10所述的设备，其中从所述一组候选专用处理资源中确定所述第二专用处理资源包括：

12.根据权利要求10所述的设备，其中所述第二专用处理资源是一组候选专用处理资源中的一个候选专用处理资源，所述步骤还包括：

13.根据权利要求9所述的设备，其中使得所述数据中的所述至少一部分被存储到所述第二专用处理资源的存储器上包括：

14.根据权利要求9所述的设备，其中所述第一专用处理资源包括第一类型的专用处理单元，并且所述第二专用处理资源包括第二类型的专用处理单元，所述第二类型不同于所述第一类型。

15.一种非瞬态计算机可读介质，所述非瞬态计算机可读介质存储机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1至8中任一项所述的方法的步骤。