CN110392025B

CN110392025B - 管理分布式系统的方法、设备和计算机可读介质

Info

Publication number: CN110392025B
Application number: CN201810360134.2A
Authority: CN
Inventors: 崔嵬; 王鲲; 赵军平
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2022-03-25
Anticipated expiration: 2038-04-20
Also published as: CN110392025A; US20190324901A1; US11003579B2

Abstract

本公开的实现涉及管理分布式系统的方法、设备和计算机程序产品。一种管理分布式系统的方法包括：响应于接收到客户端的第一存储器区域中发生变化的数据，基于第一存储器区域与服务器的第二存储器区域之间的映射关系，利用接收的数据来更新第二存储器区域中的数据；响应于从客户端接收到针对服务器中的计算节点的调用请求，使得计算节点基于第二存储器区域中的经更新的数据进行处理；确定第二存储器区域中的、在处理后发生变化的数据；以及将在处理后发生变化的数据发送到客户端，以使得客户端基于映射关系来更新第一存储器区域中的数据。根据本公开的示例性实现，能够有效降低网络负荷，并提高了对分布式系统中的存储器的利用效率。

Description

管理分布式系统的方法、设备和计算机可读介质

技术领域

本公开的实现一般地涉及分布式系统，并且更具体地，涉及用于在分布式系统中管理分布式系统的方法、设备以及计算机程序产品。

背景技术

客户端上的应用可以被设计用于利用处理和存储资源等计算资源来完成各种处理或分析任务。随着诸如深度学习(Deep Learning)、高性能计算(High PerformanceComputing)、以及机器学习(Machine Learning)、数据挖掘(Data Mining)等方面的计算任务等任务的需求和复杂度不断增加，需要大量和/或可变的计算节点来满足相应应用的运行。这可以通过具有多个计算节点的机器或系统来实现，例如，已经开发了基于云的分布式系统，该分布式系统包括具有一个或多个计算节点的主机。不同客户端可以根据需要来租赁该系统的计算节点，用以运行各自的应用。

并且，随着计算机技术的发展，计算节点的种类越来越丰富，并且已经不再局限于传统的诸如中央处理单元的计算节点。例如，目前图形处理单元(Graphic ProcessingUnit，GPU)的计算能力越来越强。由于GPU特有属性，GPU特别适合于执行有关深度学习、机器学习等方面的大规模数据计算。然而，对于普通的客户端设备而言，这些设备的GPU的性能通常较为有限，并不具有高性能的处理能力。同时，高性能的GPU通常价格昂贵。因而，此时如何更为有效地利用其他远程设备所具有的高性能GPU的计算能力来处理本地计算任务成为一个研究焦点。

发明内容

本公开的实现提供了用于在分布式系统中管理分布式系统的方法、设备以及计算机程序产品。

根据本公开的第一方面，提供了一种管理分布式系统的方法。该方法包括：响应于接收到分布式系统的客户端的第一存储器区域中发生变化的数据，基于第一存储器区域与分布式系统的服务器的第二存储器区域之间的映射关系，利用接收的数据来更新第二存储器区域中的数据；响应于从客户端接收到针对服务器中的计算节点的调用请求，使得计算节点基于第二存储器区域中的经更新的数据进行处理；确定第二存储器区域中的、在处理后发生变化的数据；以及将在处理后发生变化的数据发送到客户端，以使得客户端基于映射关系来更新第一存储器区域中的数据。

根据本公开的第二方面，提供了一种管理分布式系统的方法。该方法包括：响应于确定分布式系统中的客户端的第一存储器区域中的数据发生变化，将发生变化的数据发送到分布式系统中的服务器，以使得服务器基于第一存储器区域与服务器的第二存储器区域之间的映射关系、利用发生变化的数据来更新第二存储器区域中的数据；向服务器发送针对服务器中的计算节点的调用请求，使得计算节点基于第二存储器区域中的经更新的数据进行处理；以及响应于从服务器接收到第二存储器区域中的、在处理后发生变化的数据，基于映射关系来更新第一存储器区域中的数据。。

根据本公开内容的第三方面，提供了一种管理分布式系统的设备。该设备包括：一个或者多个处理器；耦合至一个或者多个处理器中的至少一个处理器的存储器；在存储器中存储的计算机程序指令，当计算机指令由至少一个处理器执行时，使得设备执行以下动作，动作包括：响应于接收到分布式系统的客户端的第一存储器区域中发生变化的数据，基于第一存储器区域与分布式系统的服务器的第二存储器区域之间的映射关系，利用接收的数据来更新第二存储器区域中的数据；响应于从客户端接收到针对服务器中的计算节点的调用请求，使得计算节点基于第二存储器区域中的经更新的数据进行处理；确定第二存储器区域中的、在处理后发生变化的数据；以及将在处理后发生变化的数据发送到客户端，以使得客户端基于映射关系来更新第一存储器区域中的数据。

根据本公开的第四方面，提供了一种管理分布式系统的设备，包括：一个或者多个处理器；耦合至一个或者多个处理器中的至少一个处理器的存储器；在存储器中存储的计算机程序指令，当计算机指令由至少一个处理器执行时，使得设备执行以下动作，动作包括：响应于确定分布式系统中的客户端的第一存储器区域中的数据发生变化，将发生变化的数据发送到分布式系统中的服务器，以使得服务器基于第一存储器区域与服务器的第二存储器区域之间的映射关系、利用发生变化的数据来更新第二存储器区域中的数据；向服务器发送针对服务器中的计算节点的调用请求，使得计算节点基于第二存储器区域中的经更新的数据进行处理；以及响应于从服务器接收到第二存储器区域中的、在处理后发生变化的数据，基于映射关系来更新第一存储器区域中的数据。

根据本公开的第五方面，提供了一种计算机程序产品。该计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，该机器可执行指令在被执行时使机器执行根据本公开第一方面的方法。

根据本公开的第六方面，提供了一种计算机程序产品。该计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，该机器可执行指令在被执行时使机器执行根据本公开第二方面的方法。

提供发明内容部分是为了简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实现进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实现中，相同的参考标号通常代表相同部件。

图1示出了适于实现本公开的实现的示例性分布式系统100的框图；

图2示意性示出了根据一个技术方案的在分布式系统中的应用所执行的操作的示意图；

图3示出了根据本公开的一些实施例的用于在分布式系统中的客户端和主机之间的交互的示意图；

图4示出了根据本公开的一些实施例的基于细粒度内存映射实现正向脏页同步的示意图；

图5示出了根据本公开的一些实施例的基于细粒度内存映射实现反向脏页同步的示意图；

图6示出了根据本公开的一些实施例的用于在分布式系统中的服务器中管理分布式系统的方法的流程图；

图7示出了根据本公开的一些实施例的用于在分布式系统中的客户端中管理分布式系统的方法的流程图；

图8示出了根据本公开的一些实施例的用于在分布式系统中管理分布式系统的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反，提供这些实现是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其它明确的和隐含的定义。

如上，计算节点可以在客户端本地或者可以由远程机器或系统提供。在一些示例中，可以部署基于云的分布式系统，其中包括具有一个或多个计算节点的多个机器。该分布式系统的计算节点可以由不同客户端根据需要来使用。

图1示出了适于实现本公开内容的实现方式的示例性分布式系统 100的框图。该分布式系统100可以包括一个或多个主机，包括主机 110-1、主机110-2、...、主机110-M(以下统称为或单独称为主机 110，其中M为自然数)。每个主机110具有相应的存储器140-1、140-2、…、140-M((以下统称为或单独称为存储器140)。分布式系统100中，还相应包括一个或多个计算节点160-1、计算节点 160-2、...、计算节点160-N(以下统称为或单独称为计算节点160，其中N为自然数)。每个计算节点160具有相应的显存190-1、190-2、…、 190-N(以下统称或单独称为显存190)。

在图1的示例中，主机110-1具有计算节点160-1，主机110-2 具有计算节点160-2，并且主机110-M具有计算节点160-N。将会理解，本公开并不限制每个主机仅具有一个计算节点，而是一个主机可以具有一个或多个计算节点。因而，在此M和N的数值可以是不相等的。

在本公开的上下文中，计算节点160的示例可以包括但不限于图形计算节点(GPU)、现场可编程门阵列(FPGA)等。为便于讨论，某些实现将以GPU作为计算节点160的示例进行描述。除了计算节点160之外，主机110还可以包括诸如中央处理单元(CPU)的一个或多个通用处理单元(未示出)。

图1还示出了多个客户端120-1、120-2……、120-P等(以下统称或单独称为客户端120，其中P为大于1的自然数)，其各自具有存储器170-1、170-2、……、170-P(以下统称为或单独称为存储器 170)，以及要运行的应用150-1、150-2、……、150-R(以下统称为或单独称为应用150，其中R为大于1的自然数)。应用150可以是在客户端120上可运行的任何应用，该应用可以被设计为执行相应数据处理或分析等任务。作为示例，应用150可以执行与机器学习或深度学习相关的数据处理或分析任务。将会理解，在此并不限制每个客户端120仅具有一个应用150，而是一个客户端120可以具有一个或多个应用150。因而，在此P和R的数值可以是不相等的。

由于GPU的价格较为昂贵，如果用户仅以静态方式使用本地 GPU资源来进行计算，通常无法达到对GPU资源的高效利用。在这种情况下，GPU即服务(GPU as a service，简称为GPUaaS)应运而生。GPUaaS是指通过构建客户端-服务器模型，将GPU功能作为位于远端的一种服务提供给本地的应用，由此改善上述GPU资源的总体利用率并降低成本。

在这样的实现中，客户端120可以通过网络130连接到一个或多个主机110，并且将应用150的数据交由主机110的一个或多个计算节点160运行。具体而言，客户端120可以不具有GPU，而是向用户呈现一个虚拟的GPU接口180，其在图1中分别用180-1、180-2、……、180-P表示。应用150对该GPU的所有本地调用均被拦截，并且被发送到服务器侧的真实GPU进行处理。服务器侧的GPU将在该真实 GPU硬件上调用真实的GPU函数来进行处理，并将结果通过网络130 以及接口180返回至客户端120。

为了描述清楚和简洁，将主要以GPU为例来详细描述本公开的示例实现。但是，应当理解，GPU仅仅是一种示例性的计算节点，并非用于限制本公开的范围。在此描述的精神和原理可以应用于其他计算节点，例如诸如现场可编程门阵列(FPGA)之类的加速器中的计算节点，不论是目前已知的还是将来开发的，而并不仅仅限于GPU 内核。并且，在下文中，为便于描述，“服务器”和“主机”可以互换使用。

如前面提及的，GPUaaS通过构建客户端-服务器模型的方式将 GPU功能作为一种服务提供。如图1所示，分布式系统100中的一个或多个客户端120-1、120-2和120-P可以不包含诸如为GPU的计算节点，而仅具有与远程GPU通信的GPU接口180。分布式系统中还包含一个或多个作为GPUaaS的服务器存在的主机110，其内部具有真实的计算节点160，例如为GPU。客户端120与主机110通过网络 130连接，并由主机向客户端120提供GPUaaS服务，即，处理由客户端120发送至主机110的GPU任务，例如执行GPU计算。网络130 可以是本领域已知或未来开发的任意计算机网络，例如互联网、局域网、城域网、内联网等等。在分布式系统100中，客户端120可以通过网络130向主机110发送处理GPU任务的请求，并从主机110接收GPU任务的处理结果。

在分布式系统100中，客户端120作为GPUaaS的客户端，主机 110可以被视为服务器。在本公开的实施例中，该客户端-服务器模型可借助于远程过程调用(RPC)协议或类似协议来执行上述交互过程。在客户端和服务器之间需要建立RPC信道，以用于传送处理GPU任务的请求或GPU任务的处理结果，例如以GPU命令列表的形式。其中每个命令代表相应的GPU功能，例如统一计算设备架构(CUDA) 的应用程序编程接口(API)调用，具体包括命令memcpyH2D、 runGPUfunction、memcpyD2H等等。在一个典型的GPUaaS实现中，客户端的应用执行一个三步式处理，参见图2所示。

图2示出了根据一个技术方案的在分布式系统中的应用所执行的操作的示意图。如图2所示，在传统的基于GPUaaS的分布式系统200 中，具有客户端210和服务器240。其中，客户端210具有存储器230，而服务器240具有存储器250和GPU260，并且GPU260还具有显存270。客户端210中的应用220将希望由GPU执行的操作的命令和数据注入到位于客户端210本地的存储器230中。该客户端210并不具有GPU，而是基于远程过程调用协议，将GPU命令和数据通过网络 280发送到服务器240，并调用服务器240中的中的真实GPU260进行处理。随后，服务器240所获得的处理结果仍然基于远程过程调用协议通过网络280返回客户端210，存储到本地存储器230中，并提供给应用220。

基于如上所描述的典型GPUaaS实现，我们能够获得成本较低且利用率较高的GPU使用。但是，随着GPUaaS技术的快速发展，存在的一个主要问题是，当前GPU操作所处理的数据量变得越来越大。例如，用于神经网络的训练数据的数量变得更加巨大，深度学习模型的层次也变得越来越深。并且，GPU处理性能的增长速度要快于CPU 性能的增长以及外部连接的传输速度的增长，与此同时，GPU显存的大小却没有随之发生大幅增长。这样，整个分布式系统的性能表现将随着网络传输能力和存储器容量逐渐饱和而受到影响。

鉴于现有技术中的上述不足，期望开发出一种能够有效降低基于 GPUaaS的分布式系统的运行开销、并有效提升其内部的存储器管理水平的技术方案。根据本公开的一些实施例，提供了一种用于在分布式系统100中的管理分布式系统的方法。在下文中将继续参照图1详细描述示例性分布式系统所执行的管理分布式系统的方法的更多细节。

为了简化描述，下文将以客户端侧仅具有一个客户端120、并且服务器侧仅具有一个服务器110的示例进行说明，但本公开也可以具有多于一个客户端120和多于一个服务器110。

容易理解，GPU内部的显存通常具有较高的访问速率，能够为 GPU提供当前计算所需的数据的高速存储访问。但是，与GPU160 外部的主机的存储器140相比较，显存的容量通常相对较小。例如，常见的显存通常具有8G～32G的容量，而主机本身的存储器通常更大，可以达到几百G乃至更多。随着机器学习、深度学习等技术的发展，目前GPU所需处理的数据量大幅增长，而GPU的有限的显存容量有时会带来问题，例如存储器不足或溢出。

针对包含GPU计算节点的主机，已经具有基于统一存储器访问技术(UMA)的方案。在这一传统的UMA方案中，主机自身的存储器与显存被统一管理，其共享相同的存储器地址空间。对于主机自身的CPU或GPU，通过页表中的虚拟地址与真实地址的映射，来访问显存或主机存储器中的数据，而用户不必关心主机内部的存储器空间是如何管理的。此时对于主机内部的GPU而言，其所能利用的存储空间将不限于显存自身，而是被大大扩充，从而有效地降低了存储器容量限制带来的风险。

传统的UMA方案通常适于单个主机内执行的GPU计算。而针对基于GPUaaS的分布式系统，其需要采取与本地的UMA方案不同的特殊的机制来实现客户端和服务器端的存储器管理和数据传输管理。针对上述场景，本公开的实施例提供了一种优化的存储器管理方法，该方法支持GPUaaS中的UMA。

根据本公开的实施例所提供的方法，首先响应于接收到分布式系统的客户端的第一存储器区域中发生变化的数据，基于第一存储器区域与分布式系统的服务器的第二存储器区域之间的映射关系，利用接收的数据来更新第二存储器区域中的数据。随后，响应于从客户端接收到针对服务器中的计算节点的调用请求，使得计算节点基于第二存储器区域中的经更新的数据进行处理。然后，确定第二存储器区域中的、在处理后发生变化的数据。以及，将在处理后发生变化的数据发送到客户端，以使得客户端基于映射关系来更新第一存储器区域中的数据。

基于本公开的实施例所提供的上述方案，能够更为有效地支持 GPUaaS工作模式中的UMA内存管理，并且改善系统的性能表现。

根据本公开的一些实施例，一旦客户端120的应用150(例如， UMA应用)在其内部的存储器170中分配了存储器空间(例如，第一存储器区域)，在GPUaaS的UMA工作模式下，应用将劫持该UMA 存储器分配，并且触发建立客户端120的第一存储器区域和服务器 110的第二存储器区域之间的双重映射关系，从而构建客户端120和服务器110中互为镜像的两个存储器区域。客户端120的第一存储器区域完全位于其本地存储器170中，而服务器端110中的第二存储器区域采用UMA方案，分别包括其内部的存储器140以及GPU内部的显存190。

根据本公开的一些实施例，第一存储器区域和第二存储器区域分别划分为多个存储条目(entry)，而每个存储条目又可以进一步划分为多个存储块。其中，第一存储器区域中的每个存储条目和第二存储器区域中的每个相应存储条目一一对应，并且第一存储器区域中的每个存储条目中的每个存储块也与第二存储器区域中的每个存储条目中的每个存储块一一对应，从而建立起第一存储器区域和第二存储器区域之间的基于存储块的细粒度映射关系。应当理解，第一存储器区域中的存储块和第二存储器区域中的存储块具有相同的大小，并且所划分的存储块的大小可以灵活设置，例如，每个存储块可以具有 1M～8M的大小。在下文中，将参照图3详细描述分布式系统中进行存储器管理和数据管理的更多细节。

图3示出了根据本公开的一些实施例的用于在分布式系统100中的客户端120和主机110之间的交互的示意图。应理解，术语“主机”在本文中可以与“服务器”互换使用。

首先，客户端120确定302其内部的存储器170中的第一存储器区域中的数据发生变化。这种变化可以例如在客户端120中的应用 150将待GPU 160处理的数据注入到客户端120本地的存储器170时产生。在本公开的一个实施例中，客户端120执行基于存储条目的比较，来判断存储条目中的一个或多个的数据是否发生了改变。在另一些实施例中，客户端120执行基于存储块的比较，来判断存储块中的一个或多个是否发生了改变。

根据本公开的一些实施例，可以基于安全哈希算法(SHA)来判断存储块中的数据是否发生改变。例如，可以针对客户端120内部的第一存储器区域维护一个哈希表，其中存储了第一存储器区域中的每个块各自的当前哈希值。如果一个或多个存储块中的数据发生了改变，其相应的哈希值也将随之发生改变。通过对比该存储块的先前哈希值与当前哈希值，可以确定该存储块中的数据是否已经被改变。

根据本公开的一些实施例，可以基于软件方式来维护哈希表，并判断存储块中的数据是否发生改变。根据本公开的另一些实施例，可以不通过维护哈希表的方式来判断存储块中的数据是否发生改变，而是基于操作系统内核层跟踪对存储器中的存储块的操作，直接获得有关对哪些存储块进行了访问操作的信息，这种方式潜在地比SHA方案更有效率。

随后，客户端120响应于确定其内部的数据发生变化，将发生变化的数据经由网络130发送304到服务器110，用于在后续由GPU进行处理。根据本公开的一些实施例，以存储块为单位将发生变化的数据从客户端120发送到服务器110。

附加地或备选地，服务器110在接收到从客户端120发送的数据后，获取306第一存储器区域和第二存储器区域之间的映射关系。基于上文可知，这种映射关系是细粒度的、基于每个存储块的对应关系的映射关系。

随后，基于第一存储器区域和第二存储器区域之间的映射关系，服务器110基于所接收到的发生改变的存储块中的数据，来更新308 第二存储器区域中的相应存储块中的数据。基于上述操作，实现了从客户端120到服务器110的数据同步，在下文中也称为“脏页同步”。易于理解，“脏页”是指其中数据发生了改变的存储块。

基于映射关系的脏页同步过程是以存储块为单位进行的。在本公开的一些示例中，首先可以确定与从客户端120接收的数据相关联的、在第一存储器区域中的至少一个存储块。随后，基于映射关系，从第二存储器区域中确定与该至少一个存储块相应的存储块。最后，针对从第二存储器区域中确定的相应的存储块，利用从客户端120接收的数据来逐个存储块地更新每个存储块中的数据。

在脏页同步完成之后，客户端120将向服务器110发送310针对服务器110中的计算节点160的调用请求。这种请求例如可以通过上文所描述的远程过程调用而实现。服务器110响应于从客户端120接收到针对服务器110中的计算节点160的调用请求，使得312其内部的计算节点基于第二存储器区域中的经更新的数据进行处理。容易理解，此时待处理的数据以UMA方式被存储在服务器110自身的存储器140以及计算节点160内部的显存190中，并以统一的方式被计算节点160所调用。

计算节点160将调用各种GPU核函数来对待处理数据进行处理。常见的处理可以包括：涉及机器学习、深度学习、神经网络训练、高性能计算中的一种或多种，本公开在此不做限制。计算节点160的处理结果仍然将保存在服务器110的第二存储器区域中。

随后，服务器110确定314第二存储器区域中的、在处理后发生变化的数据。确定发生变化的数据的具体方式可以类似于先前在客户端120处执行的确定发生变化数据的方式。容易理解，可以在服务器 110端执行基于存储块的比较，来判断第二存储器区域中的存储块中的一个或多个是否发生了改变。并且，可以同样地基于可以基于安全哈希算法来判断第二存储器区域中的存储块中的数据是否发生改变。在一个示例中，可以通过对比哈希表中的一个或多个存储块在处理之前的哈希值与处理之后的哈希值，来确定哪些存储块中的数据已经被改变。

随后，服务器110将在处理之后发生变化的数据经由网络130发送316到客户端120，用于将计算节点160的计算结果返回客户端120。根据本公开的一些实施例，以存储块为单位将第二存储器区域中发生变化的存储块中的数据从服务器110发送到客户端120。

客户端120在接收到从服务器110传送的处理后发生变化的数据后，将利用这些数据完成反向脏页同步过程(即，从服务器110到客户端120的同步)，该过程与前述的脏页同步过程(即，从客户端120 到服务器110的同步，以下也称为“正向脏页同步过程”)是相反的。这将在下文中参照图4A、图4B、图5A及图5B更加详细地描述。附加地或备选地，服务器110在接收到从客户端120发送的数据后，可以获取318第一存储器区域和第二存储器区域之间的映射关系。

最后，客户端120基于第一存储器区域和第二存储器区域之间的映射关系，利用从服务器110传送来的发生改变的存储块的数据来更新320第一存储器区域中的对应存储块的数据，从而完成反向脏页同步过程。更新之后的客户端120中的数据将保存在客户端120本地的存储器170中，并提供给客户端120中的应用150。

可见，本公开的一些实施例，提供了一种三步式的GPU调用方法以及相应的分布式系统管理方法。其中，在第一步，在客户端注入待处理数据，并将客户端的脏页正向同步到服务器端；在第二步，在服务器端利用GPU进行处理；在第三步，将服务器端的脏页反向同步到客户端。容易理解，这样的三步处理方法可以在客户端和服务器之间循环执行。

由于当前常见的由GPU实现的各种计算处理中往往存在大量的循环迭代过程，因此本公开所描述的三步处理过程非常适合于基于 GPU执行的计算处理。容易理解，由于每次调用GPU进行处理时，仅将发生变化的存储块中的数据进行同步，这相对于传统的GPUaaS的GPU调用而言，大大降低了数据传输量，有效减轻了对数据传输网络的性能影响。并且，由于在服务器和客户端之间存在两个互为镜像的存储器区域，并存在细粒度的存储器区域的映射关系，因此在一次循环之后，客户端处的数据可以很快被更新，并且当客户端的应用判断需要进行下一次循环的处理过程时，客户端处的数据可以迅速地被同步到服务器端，并由GPU进行处理，从而有效提升了分布式系统的性能表现。

上文参照图3描述了本公开的一些实施例的分布式系统中服务器 110与客户端120之间的交互过程。下文将参照图4A、图4B、图5A 和图5B详细描述本公开的一些实施例的细粒度内存映射的示意图。

图4A和图4B示出了根据本公开的一些实施例的基于细粒度内存映射实现正向脏页同步的示意图。如图4A所示，客户端120内部的第一存储器区域内部具有多个存储条目410至440，其中每个条目分别具有一个或多个存储块。由图4A中可见，条目410至少具有存储块410-1，条目420至少具有存储块420-1，条目430至少具有存储块 430-1。同时在服务器110，具有与该第一存储器区域互为镜像的第二存储器区域，其同样具有多个存储条目450至480，并且其中每个条目同样分别具有一个或多个存储块。由图4A中可见，条目450至少具有存储块450-1，条目460至少具有存储块460-1，条目470至少具有存储块470-1。第一存储器区域和第二存储器区域中的所有存储块均具有相同的大小。基于前文的描述可知，第一存储器区域和第二存储器区域建立了基于存储块的细粒度映射关系。响应于客户端120的应用150向其内部存储器170中的第一存储器区域注入计算数据，第一存储器区域中的一些条目中的一些存储块(例如，410-1等)将会发生变化。通过比较每个存储块变化前后的哈希值，可以很容易地获知哪个存储块中的数据发生了改变。

参照图4B，客户端120将确认发生了改变的存储块中的数据发送至服务器110，并更新服务器110的第二存储器区域中的相应存储块。具体而言，服务器110将首先确定与从客户端120接收的数据相关联的第一存储器区域中的至少一个存储块(例如，410-1等)，并基于上述细粒度映射关系，从第二存储器区域中确定与该第一存储器区域的至少一个存储块相对应的存储块(例如，450-1等)。之后，利用从客户端120接收的各个发生了变化的存储块的数据来更新从第二存储器区域中确定的存储块中的数据。从而，实现了正向脏页同步的过程。

图5A和图5B示出了根据本公开的一些实施例的基于细粒度内存映射实现反向脏页同步的示意图。反向脏页同步的处理与正向脏页同步过程类似。参见图5A，在服务器110中的计算节点160针对第二存储器区域中的更新后的数据进行计算处理后，所得到的结果将保存到第二存储器区域中，从而，第二存储器区域中的一些条目中的一些存储块(例如，470-2、480-2等)将会发生变化。通过比较每个存储块在处理前后的哈希值，可以很容易地获知哪个存储块中的数据发生了改变。

参见图5B，服务器110将确认发生了改变的存储块中的数据发送至客户端120，并更新客户端120的第一存储器区域中的相应存储块。具体而言，客户端120将确定与从服务器110接收的发生变化的数据相关联的第二存储器区域中的至少一个存储块(例如，470-2、480-2等)，并基于上述细粒度映射关系，从第一存储器区域中确定与第二存储器区域中的至少一个存储块相对应的存储块(例如，430-2、 440-2等)。之后，利用从服务器110接收的各个发生了变化的存储块的数据来更新从第一存储器区域中确定的各个存储块中的数据。从而，实现了反向脏页同步的过程。

基于本公开所提出的正向脏页同步以及反向脏页同步的过程，可以每次仅将发生了改变的数据在客户端120与服务器110之间进行同步，从而可以以较小的传输代价实现GPUaaS的方案，有效节约了网络传输带宽，从而改善了系统性能。

根据本公开的一些实施例，提供了一种用于在分布式系统100中的服务器110中实现的管理分布式系统的方法。在下文中将参照图6 详细描述示例性管理分布式系统的方法的更多细节。

图6示出了根据本公开的一些实施例的用于在分布式系统100中的服务器110中管理分布式系统的方法600的流程图。参照图6，并结合图1和图3对服务器110中管理分布式系统的方法进行说明。由图6可知，在框610，服务器110判断是否接收到来自客户端120的第一存储器区域中发生变化的数据。基于上文的描述可知，所接收到的数据是来自客户端120的、将要由服务器110中的计算节点160进行处理的数据。如果判断接收到客户端120的第一存储器区域中发生变化的数据，进入框620。

在框620，基于第一存储器区域与服务器110的第二存储器区域之间的映射关系，利用所接收到的数据来更新第二存储器区域中的数据，从而完成正向脏页同步。应当理解，该第二存储器区域是在服务器110中基于UMA方式管理的存储器区域，其即包括服务器110自身的存储器140中的区域，也包括服务器110中的计算节点160的显存190中的区域。

附加地或备选地，在更新第二存储器区域中的数据之前，还具有获取第一存储器区域与第二存储器区域之间的映射关系的步骤。在一些实施例中，这样的映射关系可以被预先存储在服务器110。在另一些实施例中，这样的映射关系可以被预先存储在客户端120中，并随着从客户端120所发送的数据一起被发送到服务器110。

容易理解，第一存储器区域与所述第二存储器区域之间的映射关系通常在客户端120中的第一存储器区域被创建时就已经建立。根据本公开的一些实施例，可以采用如下方式获取第一存储器区域与第二存储器区域之间的映射关系：将第一存储器区域分别划分为第一多个存储块，并将第二存储器区域分别划分为与第一多个存储块相对应的第二多个存储块，其中第二多个存储块与第一多个存储块分别具有相同大小。随后，建立第一多个存储块与第二多个存储块之间的映射关系。

在获取了映射关系之后，服务器110可以方便地执行对第二存储器区域中的数据的更新。根据本公开的一些实施例，首先确定与从客户端120接收的数据相关联的第一存储器区域中的至少一个存储块。随后基于映射关系，从第二存储器区域中确定与客户端120的至少一个存储块相对应的存储块。然后，可以利用从客户端120接收的数据来更新从第二存储器区域中确定的各个存储块中的数据。

基于如上所描述的正向脏页同步的处理，客户端120处发生改变的数据可以被高效地发送到服务器110。这在客户端120处发生改变的数据比例不大时尤其有用，从而显著降低了对网络带宽的占用。

随后，在框630，服务器110判断是否从客户端120处接收到针对服务器110中的计算节点160的调用请求。该调用请求通常紧接着正向脏页同步完成而在服务器110被接收。如果接收到对计算节点 160的调用请求，前进到框640。

在框640，服务器110基于第二存储器区域中的经更新的数据，使用计算节点160进行处理。所执行的处理可以是适于由GPU操作的任意计算过程，本公开在此不做限制。处理的结果同样将保存在第二存储器区域中。

在框650，服务器110确定第二存储器区域中的那些存储块在处理后发生了变化。该变化例如可以基于SHA算法来确定。例如，服务器110可以通过比较在处理前和处理后哪些存储块的哈希值发生了变化，来确定第二存储器区域中发生变化的存储块。

根据本公开的一些实施例，可以通过如下方式来确定第二存储器区域中的哪些存储块发生了变化：首先，获取第二存储器区域中的至少一个存储块在所述处理前的第一哈希值和在所述处理后的第二哈希值。然后，如果判断第一哈希值不同于第二哈希值，则确定至少一个存储块中的数据发生了变化。基于比较哈希值的方式，能够高效地获得哪些存储块已经发生改变的信息。

在框660，服务器110将在处理后发生变化的数据发送到客户端 120，以使得客户端120基于映射关系来更新第一存储器区域中的数据，从而实现反向脏页同步。这样，由服务器110的计算节点160所执行的GPU计算的处理结果可以返回给客户端120中的应用150。

容易理解，在上文所描述的实施例中，服务器110中的第二存储器区域包括计算节点160内部的第三存储器区域以及计算节点160外部的第四存储器区域(即，服务器110的存储器)，该第三存储器区域和第四存储器区域基于UMA方式被统一管理。

上文已经描述了分布式系统100中的服务器110中实现的管理分布式系统的方法。根据上文所描述的在服务器110中实现的方法，能够有效地支持GPUaaS工作模式中的UMA内存管理，并且能够有效地改善整个分布式系统的网络传输能力和存储器容量瓶颈问题，从而提升整个系统的性能表现。

根据本公开的另一些实施例，提供了一种用于在分布式系统100 中的客户端120中实现的管理分布式系统的方法。在下文中将参照图 7详细描述示例性管理分布式系统的方法的更多细节。

图7示出了根据本公开的一些实施例的用于在分布式系统100中的客户端120中管理分布式系统的方法700的流程图。参照图7，并结合图1和图3对客户端120中管理分布式系统的方法进行说明。由图7可知，在框710，客户端120判断其第一存储器区域中的数据是否发生变化。基于上文的描述可知，这种变化可以例如在客户端120 中的应用150将待GPU160处理的数据注入到客户端120本地的存储器170时产生。根据本公开的一些实施例，如果判断第一存储器区域中的至少一个存储块的哈希值发生变化，则确定至少一个存储块中的数据发生变化。容易理解，基于比较哈希值的方式，能够高效地获得哪些存储块已经发生改变的信息。如果确定第一存储器区域中的数据发生了变化，前进到框720。

在框720，客户端120响应于确定其第一存储器区域中的数据发生了变化，将发生变化的数据发送到服务器110，以基于第一存储器区域与服务器110的第二存储器区域之间的映射关系，由服务器110 利用所接收到的数据来更新第二存储器区域中的数据，从而完成正向脏页同步。

随后，在框730，客户端120在脏页同步完成后，向服务器110 发送针对服务器110中的计算节点160的调用请求。该调用请求通常具有远程过程调用的形式，将使得计算节点160基于第二存储器区域中的经更新的数据来进行处理。处理的结果同样将保存在第二存储器区域中。

在框740，客户端120判断是否从服务器110接收到在第二存储器区域中的、在处理后发生变化的数据。该变化例如可以基于SHA 算法来确定。例如，服务器110可以通过比较在处理前和处理后哪些存储块的哈希值发生了变化，来确定第二存储器区域中发生变化的存储块。

在框750，响应于接收到发生变化的数据，客户端120基于映射关系来更新第一存储器区域中的数据，从而实现反向脏页同步。这样，由服务器110的计算节点160所执行的GPU计算的处理结果可以返回给客户端120中的应用150。

根据本公开的一些实施例，在更新第一存储器区域中的数据之前，还具有获取第一存储器区域与第二存储器区域之间的映射关系的步骤。在一些实施例中，这样的映射关系可以被预先存储在客户端120。在另一些实施例中，这样的映射关系可以被预先存储在服务器110中，并随着从服务器110所发送的数据一起被发送到客户端120。

在获取了映射关系之后，客户端120可以方便地执行对第一存储器区域中的数据的更新。根据本公开的一些实施例，可以根据如下方式来更新第一存储器区域中的数据：首先确定与从服务器接收的发生变化的数据相关联的第二存储器区域中的至少一个存储块。随后，基于所获取的映射关系，从第一存储器区域中确定与至少一个存储块相对应的存储块。随后，利用从服务器110接收的发生变化的数据，来更新从第一存储器区域中确定的各个存储块中的数据。

基于如上所描述的反向脏页同步的处理，服务器110处发生改变的数据可以被高效地发送到客户端120。这在服务器110处发生改变的数据比例不大时尤其有用，从而显著降低了对网络带宽的占用。

以上基于图6和图7，分别从服务器和客户端的角度描述了各自所执行的管理分布式系统的方法。基于本公开所提出的管理分布式系统的方法，能够更为有效地支持GPUaaS工作模式中的UMA内存管理，并且能够有效地改善整个分布式系统的网络传输能力和存储器容量瓶颈问题，从而有效提升整个系统的性能表现。

图8示意性示出了根据本公开的一些实施例的用于在分布式系统中管理分布式系统的设备800的框图。如图所示，设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802 中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O) 接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/ 数据。

上文所描述的各个过程和处理，例如方法600或700，可由处理单元501执行。例如，在一些实施例中，方法600或700可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/ 或通信单元809而被载入和/或安装到设备800上。当计算机程序被加载到RAM 803并由CPU 801执行时，可以执行上文描述的方法600 或700的一个或多个步骤。备选地，在其他实施例中，CPU 801也可以以其他任何适当的方式被配置以实现上述过程/方法

本公开可以是方法、设备、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM 或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、 C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列 (FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各实施例。

Claims

1.一种管理分布式系统的方法，包括：

响应于接收到所述分布式系统的客户端的第一存储器区域中发生变化的数据，基于所述第一存储器区域与所述分布式系统的服务器的第二存储器区域之间的双重映射关系，利用接收的所述数据来更新所述第二存储器区域中的数据，其中所述服务器被配置有为所述客户端提供处理能力的一组图形处理单元，其中所述双重映射关系由被配置为在所述客户端中分配用于所述第一存储器区域的存储器空间和在所述服务器中分配用于所述第二存储器区域的存储器空间的应用来建立，并且其中所述第一存储器区域和所述第二存储器区域互为镜像；

响应于从所述客户端接收到针对所述服务器中的计算节点的调用请求，使得所述计算节点基于所述第二存储器区域中的经更新的所述数据进行处理，其中所述计算节点是所述一组图形处理单元中的至少一个图形处理单元；

确定所述第二存储器区域中的、在所述处理后发生变化的数据；以及

将在所述处理后发生变化的所述数据发送到所述客户端，以使得所述客户端基于所述双重映射关系来更新所述第一存储器区域中的数据。

2.根据权利要求1所述的方法，还包括：

获取所述第一存储器区域与所述第二存储器区域之间的双重映射关系。

3.根据权利要求2所述的方法，其中获取所述第一存储器区域与所述第二存储器区域之间的双重映射关系包括：

将所述第一存储器区域划分为第一多个子区域；

将所述第二存储器区域划分为与所述第一多个子区域相对应的第二多个子区域，所述第二多个子区域中的子区域与所述第一多个子区域中的对应子区域具有相同大小；以及

建立所述第一多个子区域与所述第二多个子区域之间的映射。

4.根据权利要求1所述的方法，其中更新所述第二存储器区域中的所述数据包括：

确定与从所述客户端接收的所述数据相关联的所述第一存储器区域中的至少一个子区域；

基于所述双重映射关系，从第二存储器区域中确定与所述至少一个子区域相对应的子区域；以及

利用从所述客户端接收的所述数据来更新从第二存储器区域中确定的所述子区域中的数据。

5.根据权利要求1所述的方法，其中确定所述第二存储器区域中的、在所述处理后发生变化的数据包括：

获取所述第二存储器区域中的至少一个子区域在所述处理前的第一哈希值和在所述处理后的第二哈希值；以及

响应于第一哈希值不同于所述第二哈希值，确定所述至少一个子区域中的数据发生变化。

6.根据权利要求1所述的方法，其中所述服务器的所述第二存储器区域包括所述计算节点内部的第三存储器区域以及所述计算节点外部的第四存储器区域。

7.一种管理分布式系统的方法，包括：

响应于确定所述分布式系统中的客户端的第一存储器区域中的数据发生变化，将发生变化的数据发送到所述分布式系统中的服务器，以使得所述服务器基于所述第一存储器区域与所述服务器的第二存储器区域之间的双重映射关系、利用所述发生变化的数据来更新所述第二存储器区域中的数据，其中所述服务器被配置有为所述客户端提供处理能力的一组图形处理单元，其中所述双重映射关系由被配置为在所述客户端中分配用于所述第一存储器区域的存储器空间和在所述服务器中分配用于所述第二存储器区域的存储器空间的应用来建立，并且其中所述第一存储器区域和所述第二存储器区域互为镜像；

向所述服务器发送针对所述服务器中的计算节点的调用请求，使得所述计算节点基于所述第二存储器区域中的经更新的所述数据进行处理，其中所述计算节点是所述一组图形处理单元中的至少一个图形处理单元；以及

响应于从所述服务器接收到所述第二存储器区域中的、在所述处理后发生变化的数据，基于所述双重映射关系来更新所述第一存储器区域中的数据。

8.根据权利要求7所述的方法，还包括：

9.根据权利要求8所述的方法，其中获取所述第一存储器区域与所述第二存储器区域之间的双重映射关系包括：

将所述第一存储器区域划分为第一多个子区域；

10.根据权利要求7所述的方法，其中更新所述第一存储器区域中的所述数据包括：

确定与从服务器接收的发生变化的数据相关联的所述第二存储器区域中的至少一个子区域；

基于所述双重映射关系，从第一存储器区域中确定与所述至少一个子区域相对应的子区域；以及

利用从服务器接收的所述发生变化的数据，来更新从第一存储器区域中确定的所述子区域中的数据。

11.根据权利要求10所述的方法，其中确定所述客户端的第一存储器区域中的数据发生变化包括：

响应于所述第一存储器区域中的至少一个子区域的哈希值发生变化，确定所述至少一个子区域中的数据发生变化。

12.一种管理分布式系统的设备，包括：

一个或者多个处理器；

耦合至所述一个或者多个处理器中的至少一个处理器的存储器；

在所述存储器中存储的计算机程序指令，当所述计算机程序指令由所述至少一个处理器执行时，使得所述设备执行以下动作，所述动作包括：

13.根据权利要求12所述的设备，其中所述动作还包括：

14.根据权利要求13所述的设备，其中获取所述第一存储器区域与所述第二存储器区域之间的双重映射关系包括：

将所述第一存储器区域划分为第一多个子区域；

15.根据权利要求12所述的设备，其中更新所述第二存储器区域中的所述数据包括：

16.根据权利要求12所述的设备，其中确定所述第二存储器区域中的、在所述处理后发生变化的数据包括：

17.根据权利要求12所述的设备，其中所述服务器的所述第二存储器区域包括所述计算节点内部的第三存储器区域以及所述计算节点外部的第四存储器区域。

18.一种管理分布式系统的设备，包括：

一个或者多个处理器；

19.根据权利要求18所述的设备，其中所述动作还包括：

20.根据权利要求19所述的设备，其中获取所述第一存储器区域与所述第二存储器区域之间的双重映射关系包括：

将所述第一存储器区域划分为第一多个子区域；

21.根据权利要求18所述的设备，其中更新所述第一存储器区域中的所述数据包括：

22.根据权利要求21所述的设备，其中确定所述客户端的第一存储器区域中的数据发生变化包括：

响应于所述第一存储器区域中的至少一个子区域哈希值发生变化，确定所述至少一个子区域中的数据发生变化。

23.一种计算机可读介质，包括机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1至6中任一项所述的方法。

24.一种计算机可读介质，包括机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求7至11中任一项所述的方法。