CN111124658B

CN111124658B - 用于处理目标数据的方法、设备和计算机程序产品

Info

Publication number: CN111124658B
Application number: CN201811290955.XA
Authority: CN
Inventors: 赵军平; 王鲲
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2023-09-29
Anticipated expiration: 2038-10-31
Also published as: US10897514B2; US20200137184A1; CN111124658A

Abstract

本公开的实施例涉及用于处理目标数据的方法、设备和计算机程序产品。该方法包括：响应于从客户端接收到用于处理目标数据的请求，在服务器处从存储设备获取目标数据，目标数据是预定将由客户端从存储设备获取并且执行第一操作集合的；以及在服务器处，通过对目标数据执行第一操作集合，来处理目标数据，以用于由服务器的至少一个专用处理资源对经处理的目标数据执行与第一操作集合相关联的第二操作集合。使用本公开的技术方案，可以明显地缩短数据移动路径，不仅可以明显减少网络流量压力，也可以及时地向服务器中的专用处理资源提供经处理的原始数据，以使得目标数据处理系统的效率得以提高，还有益于容易地扩展服务器中的专用处理资源的数目。

Description

用于处理目标数据的方法、设备和计算机程序产品

技术领域

本公开的实施例总体上涉及数据处理领域，具体地涉及用于处理目标数据的方法、设备和计算机程序产品。

背景技术

人工智能(例如，机器学习和深度学习)已经得到了广泛的发展，并且大量的人工智能和深度学习应用已经被部署。在实践中，深度学习通常需要对大量数据执行预处理操作。传统的深度学习系统架构可以包括多个客户端和多个服务器。客户端又可以被称为客户端节点，每个客户端可以包括中央处理单元(CPU)从而具有计算能力。服务器又可以被称为服务器节点，每个服务器可以包括中央处理单元(CPU)和专用处理资源，例如，图形处理单元(GPU)。客户端和服务器可以通过网络而被连接，从而可以向客户端提供通过网络的远程专用处理资源接入，细粒度的专用处理资源共享等，进而可以提高专用处理资源的利用率、减少总拥有成本并且使得专用处理资源易于扩展。

在传统的深度学习系统架构中，需要由客户端从存储设备读取原始数据集，并且由客户端中的中央处理单元对这些原始数据集进行处理(也可以被称为预处理)。而后，经处理的原始数据集通过网络被提供给服务器中的专用处理资源以用于训练。然而，随着深度学习技术的发展，传统的深度学习系统架构需要处理越来越多的数据。由于在客户端和服务器之间需要传输大量的数据，因此可能导致训练的延迟，并且客户端由于需要对数据进行大量的处理而趋向于称为深度学习训练中的瓶颈。因此，限制了处理数据的效率，从而导致传统的深度学习架构能力的不足。

发明内容

本公开的实施例提供了用于处理目标数据的方法、设备和计算机程序产品。

在本公开的第一方面中，提供了一种用于处理目标数据的方法。该方法包括：响应于从客户端接收到用于处理目标数据的请求，在服务器处从存储设备获取所述目标数据，所述目标数据是预定将由所述客户端从所述存储设备获取并且执行第一操作集合的；以及在所述服务器处，通过对所述目标数据执行所述第一操作集合，来处理所述目标数据，以用于由所述服务器的至少一个专用处理资源对经处理的所述目标数据执行与所述第一操作集合相关联的第二操作集合。

在本公开的第二方面中，提供了一种用于处理数据的方法。该方法包括：在客户端处确定是否要对目标数据进行处理，所述目标数据是预定将由所述客户端从存储设备获取并且执行第一操作集合的；以及响应于确定不对目标数据进行处理，从所述客户端向服务器发送用于处理目标数据的请求，以使得所述服务器从所述存储设备获取所述目标数据并且对所述目标数据执行所述第一操作集合。

在本公开的第三方面中，提供了一种用于处理数据的设备。该设备包括：至少一个处理单元；至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行动作，所述动作包括：响应于从客户端接收到用于处理目标数据的请求，从存储设备获取所述目标数据，所述目标数据是预定将由所述客户端从所述存储设备获取并且执行第一操作集合的；以及通过对所述目标数据执行所述第一操作集合，来处理所述目标数据，以用于由所述服务器的至少一个专用处理资源对经处理的所述目标数据执行与所述第一操作集合相关联的第二操作集合。

在本公开的第四方面中，提供了一种用于处理数据的设备。该设备包括：至少一个处理单元；至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行动作，所述动作包括：确定是否要对目标数据进行处理，所述目标数据是预定将由客户端从存储设备获取并且执行第一操作集合的；以及响应于确定不对目标数据进行处理，从向服务器发送用于处理目标数据的请求，以使得所述服务器从所述存储设备获取所述目标数据并且对所述目标数据执行所述第一操作集合。

在本公开的第五方面中，提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行使得机器执行根据本公开的第一方面所描述的方法的任意步骤。

在本公开的第六方面中，提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行使得机器执行根据本公开的第二方面所描述的方法的任意步骤。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同的部件。

图1示出了传统方案中的用于目标数据处理的客户端-服务器架构100的示意图；

图2示出了传统方案中的目标数据处理系统200的示意图；

图3示出了根据本公开的实施例的用于处理目标数据的方法300的流程图；

图4示出了根据本公开的实施例的用于处理目标数据的方法400的流程图；

图5示出了根据本公开的实施例的目标数据处理系统500的示意图；

图6A至图6C示出了本公开的实施例可适用的不同类型的目标数据处理系统的示意图；以及

图7示出了可以用来实施本公开内容的实施例的示例设备700的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以按照各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上在背景技术中所描述的，传统的深度学习系统架构需要处理越来越多的数据。由于在客户端和服务器之间需要传输大量的数据，因此可能导致训练的延迟，并且客户端由于需要对数据进行大量的处理而趋向于称为深度学习训练中的瓶颈。因此，限制了处理数据的效率，从而导致传统的深度学习架构能力的不足。具体而言，专用处理资源(例如，图形处理单元)作为一种用于深度学习的重要组成部分，能够支持强大的计算能力，特别是用于浮动数据集以及并行数据处理。然而，当前的专用处理资源无论是在限定的数据中心还是云环境中都存在一些限制。

首先，专用处理资源的成本很高但利用率并不高，因此会导致更高的总拥有成本，这是因为传统方案中的专用处理资源难以被共享使用。同时，传统方案中的专用处理资源也难以被扩展，因此将会需要额外地配置才可能实现。此外，在传统方案中，专用处理资源由于涉及群集中的监视和作业调度，因此在管理上非常复杂。最后，在传统方案中，专用处理资源也并不具有诸如迁移、检查点等高级企业级特征。

图1示出了传统方案中的用于目标数据处理的客户端-服务器架构100的示意图。如图1中所示，用于目标数据处理的客户端-服务器架构100可以是分布式客户端-服务器架构，其中包括：两个客户端110-1和110-2(被统称为客户端110)；网络120；三个服务器130-1、130-2和130-3(被统称为服务器130)；以及调度器140。服务器130-1包括两个图形处理单元131-1和131-2，服务器130-2包括两个图形处理单元131-3和131-4，服务器130-3包括两个图形处理单元131-5和131-5，这六个图形处理单元可以被统称为图形处理单元131，它们同时构成客户端-服务器架构100中的图形处理单元池。

客户端-服务器架构100中的客户端110和服务器130通过网络120连接，并且调度器140也连接到网络120以用于对客户端110针对服务器130中的图形处理单元131的使用请求以及其他数据和通信进行调度。因此，网络120可以通过各种技术来实现上述调调和通信，这些技术例如可以包括传输控制协议(TCP)以及远程直接存储器接入(RMDA)等。

传统方案中的用于目标数据处理的客户端-服务器架构100主要用于优化针对服务器130中的图形处理单元131的使用，其使得服务器130中的各种资源对于客户端110而言是透明的，从而使得客户端110可以通过网络120来访问和共享服务器130中的图形处理单元131。此外，客户端-服务器架构100还可以提供细粒度的图形处理单元资源管理，跨服务器130的图形处理单元聚合以及对图形处理单元的智能调度。

应当理解，尽管在图1中并未示出，但是客户端110和服务器130中均可以包括中央处理单元，其可用于处理数据。还应当理解，图1中所示的客户端-服务器架构100中的各个元件的数目仅为示例，本公开的范围在此方面不受限制。

图2示出了传统方案中的目标数据处理系统200的示意图。如图2中所示，目标数据处理系统200包括同样在图1中被示出的客户端110-1、网络120、服务器130-1和130-2以及未在图1中被示出的存储设备210。存储设备210中包括四个存储装置211-1、211-2、211-3和211-4(被统称为存储装置211)。

在图2中所示的目标数据处理系统200中，存储设备210(以及其中的存储装置211)用于需要进行处理(例如，由客户端110-1中的中央处理单元进行处理以用于由服务器130-1和130-2中的图形处理单元131-1、131-2、131-3和131-4出于训练的目的而使用)的原始数据集。原始数据集的内容可以例如是图像并且由客户端110-1从存储设备210读取(如由从存储设备210引向客户端110-1的箭头所示)。

当目标数据处理系统200被用于典型的(分布式)深度学习训练时，在每次训练迭代(针对待训练数据中的每个小批量)中，客户端110-1将从存储设备210读取原始数据集，并且由客户端110-1中的中央处理单元对读取的原始数据集执行各种ETL(提取、转换和加载)操作，例如，改组(shuffling)，解码，重调整大小等，并且可以对读取的原始数据集执行数据增强操作。经过前述处理的原始数据集通过网络120被馈送(例如，按照张量(tensor)或N-dim阵列的形式)到服务器130-1和130-2以用于由图形处理单元131-1、131-2、131-3和131-4用于训练。

应当理解，尽管在图2中并未示出，但是客户端110-1和服务器130-1与130-2中均可以包括中央处理单元，其可用于处理数据。还应当理解，图2中所示的目标数据处理系统200中仅示出了一个客户端110-1以及两个服务器130-1和130-2的目的仅在于使附图简化，因此图2中的目标数据处理系统200中的各个元件的数目仅为示例，本公开的范围在此方面不受限制。

对于典型的(分布式)深度学习训练，用于训练的原始数据集中的每个图像的大小可以在数百KB以上。当使用服务器130-1和130-2中的四个图形处理单元131-1、131-2、131-3和131-4以用于训练时，每个训练迭代批次中可以包括16个图像，并且通常可以执行一万次以上的训练迭代。此时，需要通过网络120从客户端110-1向服务器130-1和130-2传输的经处理的原始数据集中可能包括数百GB的数据，并且仅在客户端110-1中对这些原始数据集进行处理就需要使用二十个以上的中央处理单元核心。

由此可见，对于分布式深度学习训练而言，其不仅是计算密集型的，也是通信密集型的。同时，由客户端110-1中的中央处理单元对读取的原始数据集执行的各种ETL(提取、转换和加载)操作对于目标数据处理系统100而言非常重要，例如，某些图形处理单元131可能只接受特定的图像形状作为输入。同时，增强操作对于图形处理单元131进行训练操作同样至关重要至关重要，否则某些图形处理单元131可能只对其训练过的样本完美地工作，但对于从未见过的新数据则糟糕得多。

以上结合图1和图2描述了传统方案中的用于目标数据处理的客户端-服务器架构100和目标数据处理系统200，尽管传统方案可以适用于数据处理，但是其同样存在很多不足。

如图2中所示，原始数据集首先要由客户端110-1从存储设备210读取，并且而后通过网络120从客户端110-1向服务器130-1和130-2传输，因此具有很长的数据移动路径。此时，会由于需要移动数据而带来很大的网络流量压力。同时，由于网络流量压力可能会造成数据传输的延迟，因此可能使得服务器130-1和130-2处的图形处理单元131-1、131-2、131-3和131-4无法被及时提供经处理的原始数据集，从而会造成目标数据处理系统200处理数据方面的延迟。此外，由于客户端110-1的中央处理单元的可用资源的限制，即使在服务器130-1和130-2中具有更多的图形处理单元或者客户端110-1通过连接到更多的服务器130来获得对更多的图形处理单元的使用权，这些更多的图形处理单元也无法充分用于利用经处理的原始数据集进行训练，因为客户端110-1的中央处理单元无法及时提供足够的经处理的原始数据集，从而使得客户端110-1成为了目标数据处理系统200处理数据方面的瓶颈。

以上参照图1和图2对传统方案中的用于目标数据处理的客户端-服务器架构100和目标数据处理系统200进行了描述。

为了至少部分地克服传统方案中存在的上述问题，本公开的实施例提出了一种用于处理目标数据的方法。根据本公开的实施例，提供了一种具有并发数据加载和处理能力的智能流水线，其能够适用于客户端-服务器架构，从而使得用于训练的原始数据集能够被快速地由至少一个服务器从本地或者共享存储设备读取，并且在这些服务器处被处理(预处理)以用于由服务器中的图形处理单元用于进行训练操作。在上述过程中，客户端不再用于读取和处理原始数据集，而是主要用于针对给定的训练作业(以及训练数据)进行协调。

以下参照图3和图4来详细描述根据本公开的实施例的用于处理目标数据的方法300和400的具体流程和操作。

在本公开的实施例中，主要关注于在进行深度学习时由服务器中的如中央处理单元之类的处理单元对数据的处理(预处理)，而并不特别关注预处理的具体步骤以及由服务器中的专用处理资源利用经处理的数据来进行训练，因此，本公开中的深度学习系统也可以被认为是一种数据处理系统。本公开中所提及的数据处理系统可以包括人工智能系统、机器学习系统和深度学习系统等需要对数据进行处理的系统。

此外，如前所述，专用处理资源可以具有多种实现形式，其中图形处理单元是专用处理资源的典型示例。在本公开中，为了详细地说明具体的示例，以图形处理单元为例来介绍本公开的技术方案。然而，这样的说明方式仅仅用于示例，本公开的技术方案可以适用于使用任何专用处理资源，而不限于图形处理单元。

图3示出了根据本公开的实施例的用于处理目标数据的方法300的流程图。根据本公开的实施例，用于处理目标数据的方法300从在图5中所示出的根据本公开的实施例的目标数据处理系统500中的服务器130-1’的角度而被描述，其具体而言可以由服务器130-1’或者其他适当的设备来执行。应当理解的是，方法300还可以包括未示出的附加步骤和/或可以省略所示出的步骤，本公开的范围在此方面不受限制。

在框302，服务器130-1’确定是否从在图5中所示出的根据本公开的实施例的目标数据处理系统500中的客户端110-1’接收到用于处理目标数据的请求。根据本公开的实施例，前述目标数据是预定将由客户端110-1’从在图5中所示出的根据本公开的实施例的目标数据处理系统500中的存储设备210’获取并且执行第一操作集合的，其中，第一操作集合可以包括各种ET操作，例如，改组，解码，重调整大小等，并且可以包括数据增强操作，其可以包括例如样本方面的标准化、特征方面的标准化，白化(whiting)、随机旋转、移位、修剪、翻转以及尺寸重新排序等。通过框302的操作可以得知，用于处理目标数据的方法300是由客户端110-1’通过启动新的数据处理(训练)作业而开始的。当在框302处服务器130-1’确定从客户端110-1’接收到用于处理目标数据的请求时，方法300前进到框304

在框304，在服务器130-1’处从存储设备210’获取目标数据。根据本公开的实施例，存储设备210’可以位于服务器130-1’的本地或者可以是相对于服务器130-1’的远程分布式存储器，本公开的范围在此方面不受限制。

根据本公开的实施例，由客户端110-1’向服务器130-1’发送的请求不仅可以指示服务器130-1’处理目标数据，而且还可以包括各种其他信息，例如，目标数据(原始数据集)的存储位置(例如，数据URI)，对要用来处理目标数据的服务器以及服务器中的图形处理单元的指定，关于分批处理目标数据的信息(例如，对目标数据的分批处理方案)以及关于对目标数据执行的操作的信息等。具体而言，由客户端110-1’向服务器130-1’发送的请求可以具体地指定第一操作集合中所包括的操作的项目，要用来处理目标数据的图形处理单元以及对目标数据的分批处理方案。

在框306，服务器130-1’在服务器130-1’处通过对目标数据执行第一操作集合来处理目标数据。当服务器130-1’对目标数据执行了第一操作集合之后，经处理的目标数据可以由在图5中所示出的根据本公开的实施例的目标数据处理系统500中的服务器130-1’中的图形处理单元131-1’和131-2’中的至少一个图形处理单元使用，即，由图形处理单元131-1’和131-2’中的至少一个图形处理单元对经处理的目标数据执行与第一操作集合相关联的第二操作集合，例如，训练。需要指出的是，由于将对经处理的目标数据进行的训练会对目标数据的格式等参数具有要求，因此对目标数据执行的第一操作集合需要与之后的训练(即，第二操作集合)配合。因此，第一操作集合与第二操作集合相关联。

如上所述，由客户端110-1’向服务器130-1’发送的请求可以具体地指定第一操作集合中所包括的操作的项目，因此服务器130-1’可以从该请求来具体地确定第一操作集合。此外，根据本公开的实施例，服务器130-1’也可以例如从目标数据处理系统500获取例如在构建目标数据处理系统500时创建的针对目标数据的预定义的操作集合，以作为第一操作集合，此时由客户端110-1’向服务器130-1’发送的请求可以不指定第一操作集合中所包括的操作的项目。

同样，如上所述，由客户端110-1’向服务器130-1’发送的请求可以具体地指定要用来处理目标数据的图形处理单元，因此服务器130-1’可以从该请求来具体地确定至少一个图形处理单元。此外，根据本公开的实施例，服务器130-1’也可以例如从目标数据处理系统500获取例如在构建目标数据处理系统500时创建的针对目标数据的预先指定的至少一个图形处理单元，以用于要使用经处理的目标数据的图形处理单元，此时由客户端110-1’向服务器130-1’发送的请求可以不指定要用来处理目标数据的图形处理单元。

再次，如上所述，由客户端110-1’向服务器130-1’发送的请求可以具体地指定关于分批处理目标数据的信息。根据本公开的实施例，关于分批处理目标数据的信息可以被称为协调消息，其可以指示对目标数据的分批处理方案。此时，服务器130-1’基于前述分批处理信息，来分批地(按批次)接收并且处理目标数据。在分批处理了目标数据之后，服务器130-1’基于前述分批处理信息来合成经分批处的目标数据，从而得到前述经处理的目标数据。根据本公开的实施例，分批处理目标数据也可以包括在不同的服务器中对不同批次的目标数据分别进行处理。在这种情况下，各个服务器同样可以根据在由客户端110-1’向这些服务器发送的用于处理目标数据的请求中包括的协调消息来协调对目标数据的前述不同批次的处理以及经分批处理的目标数据。

用于处理目标数据的方法300还包括由图3中所示的虚线框308、310、312和314所示的可选步骤。

在框308，服务器130-1’将经处理的目标数据存储到服务器130-1’中的第一专用处理资源(第一图形处理单元)中。根据本公开的实施例，服务器130-1’在对目标数据执行了第一操作集合以得到了经处理的目标数据之后，可以将经处理的目标数据存储到服务器130-1’中的随机选择的或者预先制定的图形处理单元中。

在框310，服务器130-1’从客户端110-1’接收指定用于对经处理的目标数据执行第二操作集合的专用处理资源(图形处理单元)的消息。根据本公开的实施例，框310中的步骤是针对在框302和304中服务器130-1’从客户端110-1’接收到的用于处理目标数据的请求中并未包括对用于对经处理的目标数据执行第二操作集合的专用处理资源的指定的情况，否则在框308处可以直接将经处理的目标数据存储到指定的图形处理单元中。

在框312，服务器130-1’确定在框308中提及的第一专用处理资源是否不同于在框310中提及的指定的专用处理资源，当它们不相同时，方法300前进到框314。

在框314，服务器130-1’将被存储在第一专用处理资源中的经处理的目标数据转移到在框310中提及的指定的专用处理资源中以用于被该指定的专用处理资源指定第二操作集合。

采用了框308至框314的可选步骤，由于经处理的目标数据被存储到某个专用处理资源中，此时服务器130-1’可以继续从存储设备210’读取下一批次的目标数据以用于处理，从而提高了目标数据处理系统500的数据处理效率。特别地，在服务器130-1’中从一个专用处理资源向另一专用处理资源转移数据的速度可以高达500-700GB/秒，因此几乎不会带来任何数据转移延迟。

图4示出了根据本公开的实施例的用于处理目标数据的方法400的流程图。根据本公开的实施例，用于处理目标数据的方法300从在图5中所示出的根据本公开的实施例的目标数据处理系统500中的服务器客户端110-1’的角度而被描述，其具体而言可以由客户端110-1’或者其他适当的设备来执行。应当理解的是，方法400还可以包括未示出的附加步骤和/或可以省略所示出的步骤，本公开的范围在此方面不受限制。

在框402，在客户端110-1’处确定是否要对目标数据进行处理。根据本公开的实施例，目标数据是预定将由客户端110-1’从存储设备210’获取并且执行第一操作集合的，并且在客户端110-1’处确定是否要对目标数据进行处理可以包括在客户端110-1’发起新的深度学习任务，从而确定要进行处理的目标数据。框402中所涉及的目标数据以及第一操作集合等概念与以上关于用于处理目标数据的方法300所描述的对应，在此不再赘述。当在框402处在客户端110-1’处确定不对目标数据进行处理时，方法400前进到框404。

在框404，客户端110-1’从客户端110-1’向服务器130-1’发送用于处理目标数据的请求。根据本公开的实施例，上述请求可以使得服务器130-1’从存储设备210’获取目标数据并且对目标数据执行第一操作集合。框404中所涉及的操作与以上关于用于处理目标数据的方法300所描述的相应的操作对应，在此不再赘述。

除此之外，用于处理目标数据的方法400还可以包括一些附加的步骤，比如从客户端110-1’向服务器130-1’发送指示对目标数据的分批处理的协调消息以及从客户端110-1’向服务器130-1’发送制定用于对经处理的目标数据执行于第一操作集合相关联的第二操作集合的专用处理资源的消息。这些步骤的操作与以上关于用于处理目标数据的方法300所描述的相应的操作对应，在此不再赘述。

图5示出了根据本公开的实施例的目标数据处理系统500的示意图。根据本公开的实施例，以上参照图3和图4而被描述根据本公开的实施例的用于处理目标数据的方法300和400的具体流程和操作可以由目标数据处理系统500中的客户端110-1’、服务器130-1’或者其他适当的设备来执行。

如图5中所示，目标数据处理系统500包括客户端110-1’、网络120’、服务器130-1’和存储设备210’。网络120’和存储设备210’的功能与参照图1和图2所描述的网络120的功能类似，在此不再赘述。客户端110-1’包括协调模块111和通信模块112。协调模块111用于实现如以上参照图3和图4而被描述根据本公开的实施例的用于处理目标数据的方法300和400中的涉及协调的操作，并且可以控制和管理针对从客户端110-1’发起的训练作业而与服务器130-1’以及存储设备120’进行任何诸如协商和沟通等协调操作。通信模块112用于经由网络120’与服务器130-1’通信。服务器130-1’包括图形处理单元131-1’和131-2’、通信模块132，数据记载模块133、处理模块134、原始数据/标签模块135以及内部存储器136。通信模块132用于经由网络120’与客户端110-1’(具体地为客户端110-1’的通信模块112)通信。数据加载模块133用于从存储设备210’加载目标数据(原始数据集)以及从服务器130-1’内的原始数据/标签模块135获得原始数据/标签，并且向处理模块134加载目标数据。处理模块134用于对由数据加载模块133从存储设备210’加载的目标数据执行第一操作集合。原始数据/标签模块135用于存储原始数据/标签以确定经处理的目标数据是否满足预定要求。内部存储器136用来存储由处理模块134处理后的经处理的目标数据以及来自通信模块132的其他需要存储的数据。

利用图5中所示的各个组件，可以实现以上参照图3和图4而被描述根据本公开的实施例的用于处理目标数据的方法300和400的具体流程和操作。

以上参考图3至图5描述了用于处理目标数据的方法300和400的流程以及目标数据处理系统500的各个模块。应当理解，上述描述是为了更好地展示本公开中所记载的内容，而不是以任何方式进行限制。

图6A至图6C(被统称为图6)示出了本公开的实施例可适用的目标数据处理系统的不同类型。

图6A中所示的目标数据处理系统610包括客户端110-1”、服务器130-1”(其中包括图形处理单元131-1”)以及存储设备210”(其中包括存储装置211-1”、211-2”、211-3”和211-4”)。在图6A中，客户端110-1”和服务器130-1”分别用不同的虚线框包围是指它们相互远程地位于不同的地理位置。存储设备210”则可以是分布式存储设备。图6A中所示的目标数据处理系统610是本公开的实施例典型地可适用的类型，可以明显改善由于网络传输而导致的目标数据处理系统610处理效率的降低。

图6B中所示的目标数据处理系统620包括客户端110-1”、服务器130-1”(其中包括图形处理单元131-1”)以及存储装置211-1”。在图6A中，客户端110-1”、服务器130-1”以及存储装置211-1”由单个虚线框包围是指它们位于相同的地理位置。在这种情况下，由于并不存在网络传输，因此尽管仍然可以适用本公开的实施例，但目标数据处理系统610处理效率的提升并不非常明显。

图6C中所示的目标数据处理系统630包括客户端110-1”、服务器130-1”(其中包括图形处理单元131-1”)、服务器130-2”(其中包括图形处理单元131-3”)、服务器130-3”(其中包括图形处理单元131-5”)以及处理装置211-1”、211-2”和211-3”。在图6A中，不同的虚线框表示不同的地理位置，由此可知，客户端110-1”、服务器130-1”以及处理装置211-1”位于同一的地理位置(与图6B中所示出的相同)，服务器130-2”与存储装置211-2”位于同一的地理位置，并且服务器130-3”与存储装置211-3”位于同一的地理位置。在这种情况下，由于同样涉及网络传输，因此采用本公开的实施例同样可以明显改善由于网络传输而导致的目标数据处理系统630处理效率的降低。

通过实验发现，采用本公开的实施例，可以将原本需要在客户端以及服务器之间传输的数据从多达数个GB以上降低为若干KB。具体而言，采用本公开的实施例，针对单个图形处理单元，对于客户端与服务器之间的较慢的1GB的联网速度，可以将每秒处理的图像的数目提升22％-84％甚至最多可以达到三倍(针对不同类型的数据处理系统)；对于客户端与服务器之间的典型的10GB的联网速度，可以将每秒处理的图像的数目提升6％-10％(针对不同类型的数据处理系统)。此外，对于多个图形处理单元(例如，四个)并且从本地存储设备加载目标数据的场景，对于客户端与服务器之间的典型的10GB的联网速度，可以将每秒处理的图像的数目提升30％-34％(针对不同类型的数据处理系统)；对于多个图形处理单元(例如，四个)并且从以10GB的速度从NFS共享存储设备加载目标数据的场景，对于客户端与服务器之间的典型的10GB的联网速度，可以将每秒处理的图像的数目提升30％-32％(针对不同类型的数据处理系统)。即使是对于客户端与服务器之间的较高的100GB的联网速度，对于多个图形处理单元(例如，四个)并且从本地存储设备加载目标数据的场景，也可以将每秒处理的图像的数目提升18％-21％(针对不同类型的数据处理系统)。

通过以上参考图1至图6的描述并且结合上述数据，可以看出，根据本公开的实施例的技术方案相对于传统方案具有诸多优点。首先，采取根据本公开的实施例的技术方案，可以明显地缩短数据移动路径，并且可以明显减少网络流量压力。同时，由于网络流量压力被明显减少，因此可以及时地向服务器中的专用处理资源提供经处理的原始数据，从而可以避免原始处理系统在处理数据方面的延迟，并且使得目标数据处理系统的效率得以提高。此外，由于不再受到客户端中的处理能力的限制，因此可以容易地扩展服务器中的专用处理资源的数目。另外，根据本公开的实施例的技术方案计算并不复杂，并且易于实现。最后，根据本公开的实施例的技术方案不会影响数据处理系统上的其他服务。

图7图示出了可以用来实施本公开内容的实施例的示例设备700的示意性框图。如图所示，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理(例如，方法300和400)，可由处理单元701执行。例如，在一些实施例中，方法300和400可以被实现为计算机软件程序，其被有形地包含于机器可读介质(例如，存储单元708)中。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到RAM703并由CPU 701执行时，可以执行上文描述的方法方法300和400的一个或多个动作。

本公开可以是方法、设备、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是、但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于由包括第一处理设备和与所述第一处理设备不同的多个专用处理设备的服务器处理目标数据的方法，所述方法包括：

从客户端设备获得用于处理用于在机器学习操作中使用的目标数据的请求，所述请求包括要对所述目标数据执行的至少一个预处理过程的指示；

至少部分地基于用于处理所述目标数据的获得的所述请求，从存储设备获得所述目标数据，所述存储设备包括用于在机器学习操作中使用的数据的存储库；

使用所述服务器的所述第一处理设备对所述目标数据执行所述至少一个预处理过程以生成预处理数据；

将所述预处理数据存储在所述多个专用处理设备中的第一专用处理设备中；

确定所述多个专用处理设备中的给定专用处理设备被指定用于对所述预处理数据执行至少一个机器学习操作；

至少部分地基于所述多个专用处理设备中的所述给定专用处理设备被指定用于对所述预处理数据执行所述至少一个机器学习操作的所述确定，将所述预处理数据从所述第一专用处理设备移动到所述给定专用处理设备；

使用所述服务器的所述给定专用处理设备对所述预处理数据执行至少一个机器学习操作以生成机器学习输出数据；以及

向所述客户端设备提供所生成的所述机器学习输出数据。

2.根据权利要求1所述的方法，其中：

要对所述目标数据执行的所述至少一个预处理过程的所述指示包括协调消息，所述协调消息指示要对所述目标数据执行的分批处理方案；并且

使用所述服务器的所述第一处理设备对所述目标数据执行所述至少一个预处理过程以生成预处理数据包括至少部分地基于所述分批处理方案来分批处理所述目标数据以及基于所述分批处理方案来合成经分批处理的所述目标数据。

3.根据权利要求1所述的方法，其中所述方法还包括：

从所述客户端设备接收指定所述多个专用处理设备中的所述给定专用处理设备以用于对所述预处理数据执行所述至少一个机器学习操作的消息，其中确定所述多个专用处理设备中的所述给定专用处理设备被指定用于对所述预处理数据执行所述至少一个机器学习操作至少部分地基于接收到的所述消息；以及

确定所述第一专用处理设备不同于所述给定专用处理设备，其中所述预处理数据从所述第一专用处理设备到所述给定专用处理设备的所述移动至少部分地基于所述第一专用处理设备不同于所述给定专用处理设备的所述确定。

4.根据权利要求1所述的方法，其中所述第一处理设备包括所述服务器的中央处理单元，并且所述多个专用处理设备包括所述服务器的至少一个图形处理单元。

5.根据权利要求1所述的方法，其中：

被存储在所述存储设备中的数据的所述存储库包括训练数据的存储库；并且

所述至少一个机器学习操作包括训练操作。

6.一种非瞬态计算机可读介质，存储机器可执行指令，所述机器可执行指令在被执行时，使得机器执行根据权利要求1所述的方法的步骤。

7.一种用于处理目标数据的设备，包括：

第一处理设备；

与所述第一处理设备不同的多个专用处理设备；

至少一个存储器，所述至少一个存储器被耦合到所述第一处理设备和所述专用处理设备并且存储将由所述第一处理设备和所述专用处理设备中的至少一项执行的指令，所述指令当由所述第一处理设备和所述专用处理设备中的所述至少一项执行时，使得所述设备执行动作，所述动作包括：

使用服务器的所述第一处理设备对所述目标数据执行所述至少一个预处理过程以生成预处理数据；

至少部分地基于所述多个专用处理设备中的所述给定专用处理设备被指定用于对所述预处理数据执行所述至少一个机器学习操作的所述确定，将所述预处理数据从所述第一专用处理设备移动到所述给定专用处理设备；以及

使用所述服务器的所述给定专用处理设备对所述预处理数据执行至少一个机器学习操作以生成机器学习输出数据。

8.根据权利要求7所述的设备，其中：

9.根据权利要求7所述的设备，其中所述动作还包括：

10.根据权利要求7所述的设备，其中所述第一处理设备包括所述服务器的中央处理单元，并且所述多个专用处理设备包括所述服务器的至少一个图形处理单元。

11.根据权利要求7所述的设备，其中：

所述至少一个机器学习操作包括训练操作。

12.一种用于处理目标数据的方法，包括：

在客户端设备处确定目标数据是否要由所述客户端设备处理，所述目标数据被预先确定为要由所述客户端设备从包括用于在机器学习操作中使用的数据的存储库的存储设备获得；以及

响应于确定所述目标数据不要由所述客户端设备处理，从所述客户端设备向服务器发送用于处理所述目标数据的请求，所述请求包括要由所述服务器对所述目标数据执行的至少一个预处理过程的指示，其中所述服务器至少部分地基于所述请求而可配置以：

从所述存储设备获得所述目标数据；

使用所述服务器的第一处理设备对所述目标数据执行所述至少一个预处理过程以生成预处理数据；

将所述预处理数据存储在所述服务器的与所述第一处理设备不同的多个专用处理设备中的第一专用处理设备中；

从所述服务器获得生成的所述机器学习输出数据；

其中所述方法由包括被耦合到存储器的至少一个处理器的所述客户端设备的至少一个处理设备执行。

13.根据权利要求12所述的方法，其中：

14.根据权利要求12所述的方法，其中所述方法还包括：

向所述服务器发送指定所述多个专用处理设备中的所述给定专用处理设备以用于对所述预处理数据执行所述至少一个机器学习操作的消息，其中确定所述多个专用处理设备中的所述给定专用处理设备被指定用于对所述预处理数据执行所述至少一个机器学习操作至少部分地基于接收到的所述消息，所述服务器还可配置以：

15.根据权利要求12所述的方法，其中所述第一处理设备包括所述服务器的中央处理单元，并且所述多个专用处理设备包括所述服务器的至少一个图形处理单元。

16.根据权利要求12所述的方法，其中：

所述至少一个机器学习操作包括训练操作。

17.一种非瞬态计算机可读介质，存储机器可执行指令，所述机器可执行指令在被执行时，使得机器执行根据权利要求12所述的方法的步骤。

18.一种用于处理目标数据的设备，包括至少一个处理单元，以及被耦合到所述至少一个处理单元并且存储要由所述至少一个处理单元执行的指令的至少一个存储器，所述指令在被所述至少一个处理单元执行时，使得所述设备执行根据权利要求12所述的方法的步骤。