CN111858017A

CN111858017A - 用于处理任务的方法、设备和计算机程序产品

Info

Publication number: CN111858017A
Application number: CN201910362877.8A
Authority: CN
Inventors: 胡晨曦; 王鲲; 李三平; 赵军平
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2020-10-30
Also published as: US20200348965A1; US11048550B2

Abstract

本公开的实施例提供了用于处理任务的方法、设备和计算机程序产品。一种用于处理任务的方法包括：在网络设备处，从一组计算设备接收由一组计算设备处理任务而得到的一组处理结果；响应于接收到一组处理结果，对一组处理结果执行规约操作；以及向一组计算设备发送规约操作的结果。以此方式，本公开的实施例能够在并行处理任务时显著地减少在多个设备间交换的数据量，从而降低由于数据交换而导致的网络延迟。

Description

用于处理任务的方法、设备和计算机程序产品

技术领域

本公开的实施例涉及数据处理领域，更具体地，涉及用于处理任务的方法、设备和计算机程序产品。

背景技术

随着计算机技术的发展，计算资源的种类越来越丰富，其计算能力也越来越强。由于计算资源特有性质，计算资源特别适合于处理多种类型的计算任务。这些计算任务例如可以是深度学习、机器学习、数据挖掘、高性能计算等任务。

以深度学习为例，加速深度学习模型的训练过程对于研究和开发至关重要。深度学习模型通常利用大量参数来构建。利用分布式计算资源(例如，图形处理单元，GPU)进行并行计算是减少训练时间的重要手段。通过扩大分布式计算资源的集群规模，能够实现更高的训练速度。然而，在共同完成训练任务的过程中，多个计算资源之间需要频繁交换数据来同步训练过程所得到的参数。这将导致大量网络资源被占用，同时使得深度学习模型的训练过程被延迟。

发明内容

本公开的实施例提供了一种用于处理任务的方法、电子设备和计算机程序产品。

在本公开的第一方面，提供了一种用于处理任务的方法。该方法包括：在网络设备处，从一组计算设备接收由一组计算设备处理任务而得到的一组处理结果；响应于接收到一组处理结果，对一组处理结果执行规约操作；以及向一组计算设备发送规约操作的结果。

在本公开的第二方面，提供了一种用于处理任务的方法。该方法包括：在计算设备处，通过处理任务来得到处理结果，该任务由包括该计算设备的一组计算设备处理，一组计算设备通过处理该任务而得到包括该处理结果的一组处理结果；向网络设备发送该处理结果，以使得网络设备对一组处理结果执行规约操作；以及从网络设备接收规约操作的结果。

在本公开的第三方面，提供了一种网络设备。该网络设备包括：处理器；以及存储器，存储有计算机程序指令，处理器运行存储器中的计算机程序指令控制网络设备执行动作，动作包括：在网络设备处，从一组计算设备接收由一组计算设备处理任务而得到的一组处理结果；响应于接收到一组处理结果，对一组处理结果执行规约操作；以及向一组计算设备发送规约操作的结果。

在本公开的第四方面，提供了一种计算设备。该计算设备包括：处理器；以及存储器，存储有计算机程序指令，处理器运行存储器中的计算机程序指令控制计算设备执行动作，动作包括：通过处理任务来得到处理结果，该任务由包括该计算设备的一组计算设备处理，一组计算设备通过处理该任务而得到包括该处理结果的一组处理结果；向网络设备发送该处理结果，以使得网络设备对一组处理结果执行规约操作；以及从网络设备接收规约操作的结果。

在本公开的第五方面，提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令。该机器可执行指令在由设备执行时使该设备执行动作，动作包括：在网络设备处，从一组计算设备接收由一组计算设备处理任务而得到的一组处理结果；响应于接收到一组处理结果，对一组处理结果执行规约操作；以及向一组计算设备发送规约操作的结果。

在本公开的第六方面，提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令。该机器可执行指令在由设备执行时使该设备执行动作，动作包括：在计算设备处，通过处理任务来得到处理结果，该任务由包括该计算设备的一组计算设备处理，一组计算设备通过处理该任务而得到包括该处理结果的一组处理结果；向网络设备发送该处理结果，以使得网络设备对一组处理结果执行规约操作；以及从网络设备接收规约操作的结果。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过参照附图的以下详细描述，本公开实施例的上述和其他目的、特征和优点将变得更容易理解。在附图中，将以示例以及非限制性的方式对本公开的多个实施例进行说明，其中：

图1示出了根据本公开的实施例的用于处理任务的示例环境的示意图；

图2A和图2B示出了根据本公开的实施例的任务处理的示意图；

图3示出了根据本公开的实施例的用于实现计算设备与网络设备之间的数据交换的示例数据包结构的示意图；

图4A和图4B示出了根据本公开的实施例的初始化过程的示意图；

图5A-5C示出了根据本公开的实施例的处理结果和规约结果的传输过程的示意图；

图6示出了根据本公开的实施例的用于处理任务的示例方法的流程图；

图7示出了根据本公开的实施例的用于处理任务的示例装置的框图；

图8A示出了根据本公开的实施例的用于解析数据包的示例方法的流程图；

图8B示出了根据本公开的实施例的用于处理输入数据包的示例方法的流程图；

图8C示出了根据本公开的实施例的用于处理输出数据包的示例方法的流程图；

图8D示出了根据本公开的实施例的用于封装输出数据包的示例方法的流程图；

图9示出了根据本公开的实施例的用于处理任务的示例方法的流程图；

图10示出了根据本公开的实施例的用于处理任务的示例方法的流程图；以及

图11示出了可以用来实施本公开的实施例的设备的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

现在将参照附图中所示的各种示例性实施例对本公开的构思进行说明。应当理解，这些实施例的描述仅仅为了使得本领域的技术人员能够更好地理解并进一步实现本公开，而并不旨在以任何方式限制本公开的范围。应当注意的是，在可行情况下可以在图中使用类似或相同的附图标记，并且类似或相同的附图标记可以表示类似或相同的元素。本领域的技术人员将理解，从下面的描述中，本文中所说明的结构和/或方法的替代实施例可以被采用而不脱离所描述的本公开的原理和构思。

在本公开的语境中，术语“包括”及其各种变体可以被理解为开放式术语，其意味着“包括但不限于”；术语“基于”可以被理解为“至少部分地基于”；术语“一个实施例”可以被理解为“至少一个实施例”；术语“另一实施例”可以被理解为“至少一个其它实施例”。其他可能出现但在此处未提及的术语，除非明确说明，否则不应以与本公开的实施例所基于的构思相悖的方式做出解释或限定。

如上所述，随着计算机技术的发展，处理资源的种类越来越丰富，其计算能力也越来越强。由于处理资源特有性质，处理资源特别适合于处理多种类型的计算任务。这些计算任务例如可以是深度学习、机器学习、数据挖掘、高性能计算等任务。例如，以深度学习为例，通常需要利用大量参数来建立深度学习模型，通过对大量参数进行计算可以实现对模型的训练。然而，深度学习需要的计算量往往非常庞大，这就需要将计算任务分配到多个计算资源中来并行地完成计算，并且将计算结果进行整合。归约(AllReduce)操作可以将从每个计算资源获得的结果进行整合，整合后的结果可以被提供给每个计算资源，以便于后续计算或获得最终计算结果。也就是说，不同的处理资源之间常常需要进行大量的数据交换，特别是当大量的处理资源分别位于彼此远离的计算设备中时，这样的数据交换将会占用大量的网络资源，并且降低任务处理的总体效率。

为了解决上述问题和/或其他潜在的问题，本公开的实施例提出了一种用于处理任务的方案。该方案能够在网络设备处，从一组计算设备接收由一组计算设备处理任务而得到的一组处理结果；响应于接收到一组处理结果，对一组处理结果执行规约操作；以及向一组计算设备发送规约操作的结果。以此方式，该方案能够在并行处理任务时显著地减少在多个设备间交换的数据量，从而降低由于数据交换而导致的网络延迟。

以下参考附图来说明本公开的基本原理和实现方式。应当理解，给出的示例性实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开的实施例，而并非以任何方式限制本公开的范围。

图1示出了根据本公开的实施例的用于处理任务的示例环境100的示意图。如图1所述，环境100包括计算设备110-1、110-2……110-N(统称为“计算设备110”，其中N≥1)和网络设备120。计算设备110可以经由任何有线和/或无线链接与网络设备120进行通信。

计算设备110可以是能够处理计算任务的任何设备，包括但不限于物理主机、服务器、虚拟机等等。网络设备120可以是能够实现数据包转发功能的任何设备，包括但不限于交换机、路由器等等。在一些实施例中，网络设备120可以是可编程交换机。例如，计算设备110与网络设备120可以经由用户数据报协议(UDP)进行通信。

每个计算设备110可以包括一个或多个计算资源，例如通用计算资源和/或专用计算资源。通用计算资源的示例可以包括但不限于中央处理器(CPU)，专用计算资源的示例可以包括但不限于图形处理单元(GPU)、现场可编辑门阵列(FPGA)和人工智能处理器(AI处理器)等。多个计算设备110可以被分配有计算任务，诸如训练深度学习模型。每个计算设备110可以利用其所包括的一个或多个计算资源来执行一个或多个计算过程，以处理所分配的计算任务。

出于简化的目的，在图1中，每个计算设备110被示出为仅包括一个计算过程。例如，计算设备110-1包括计算过程111-1，该计算过程111-1通过处理所分配的计算任务而得到处理结果112-1；计算设备110-2包括计算过程111-2，该计算过程111-2通过处理所分配的计算任务而得到处理结果112-2……计算设备110-N包括计算过程111-N，该计算过程111-N通过处理所分配的计算任务而得到处理结果112-N。计算过程111-1、111-2……111-N统称为“计算过程111”，并且处理结果112-1、112-2……112-N统称为“处理结果112”。应当理解，这仅仅出于示例的目的，而不旨在限制本公开的范围。在一些实施例中，每个计算设备110可以执行多个计算过程，从而得到多个处理结果。

多个计算设备110可以将多个处理结果112发送给网络设备120。网络设备120可以对接收到的多个处理结果112执行规约操作。网络设备120可以将规约操作的结果发送给多个计算设备110。

图2A和图2B示出了根据本公开的实施例的任务处理的示意图。在图2A和图2B，示出4个计算过程。应当理解，这仅仅出于示例的目的，而不旨在限制本公开的范围。如图2A所示，计算过程111-1、111-2、111-3和111-4通过处理所分配的计算任务而得到各自的处理结果112-1、112-2、112-3和112-4。计算过程111-1、111-2、111-3和111-4可以将处理结果112-1、112-2、112-3和112-4发送给网络设备120(例如，交换机)。网络设备120对接收到的处理结果112-1、112-2、112-3和112-4执行规约操作(例如，求和、求均值等)，以得到规约操作的结果210(以下也称为“规约结果210”)。如图2B所示，网络设备120可以将规约结果210发送到各个计算过程111-1、111-2、111-3和111-4。

在一些实施例中，网络设备120可以被实现为可编程交换机。网络设备120可以将规约结果210广播到各个计算过程111-1、111-2、111-3和111-4。通过利用交换机的广播机制，深度学习训练中的参数交换过程能够更简单且更快速。从图2A和图2B中能够看出，如果计算过程的数目为N，每个处理结果所包括的数据量为P，则每个计算过程要发送和接收的数据量为N*P。

然而，许多现代可编程交换机通常不支持编程中的循环过程。与此同时，可编程交换机通常无法执行浮点计算，这是因为芯片中没有可用于浮点计算的浮点协处理器。此外，交换机的片上存储器通常较小，这限制了在可编程交换机上保持大量数值和执行快速处理的能力。

在一些实施例中，为了克服可编程交换机的上述种种限制，计算过程111在将处理结果112发送给网络设备120之前，可以对处理结果112执行预处理，以使得经预处理的处理结果适合于由网络设备120执行规约操作。

在一些实施例中，由计算过程111执行的预处理可以包括以下一项或多项：将处理结果转换到预定取值范围内；将处理结果转换到预定取值范围内；以及将处理结果从浮点数转换为整数。例如，假设某个计算过程111在时刻t处得到的处理结果(例如，梯度)被表示为

其中r表示该计算过程的索引(r∈[1,N])。在一些实施例中，计算过程111可以将处理结果

转到到预定取值范围[-K,K]。例如，如果

则

如果

则

附加地或者备选地，在一些实施例中，计算过程111可以通过向处理结果

添加偏置bias来将该处理结果从负数转换为正数：

附加地或备选地，在一些实施例中，计算过程111可以通过将上述处理结果

与某个较大数值E相乘，来将该处理结果从浮点数转换为整数：

然后，计算过程可以将经预处理的处理结果

发送给网络设备120。

在一些实施例中，网络设备120可以对接收到的经预处理的处理结果执行规约操作。规约操作例如可以包括求和、求均值等等。在一些实施例中，以求和操作为例，网络设备120可以将从各个计算过程111接收到的处理结果相加，以得到规约操作的结果：

网络设备120可以将规约操作的结果广播给各个计算过程111。

在一些实施例中，响应于接收到规约操作的结果，计算过程111可以对规约操作的结果执行与上述预处理过程相反的后处理。例如，计算过程111可以首先从接收到的规约结果g^(t)中减去bias*N*E，并且然后将所得值从整数转换为浮点数：

然后，计算过程111可以将

除以E，以得到

计算过程111可以基于所得到的梯度

来执行后续计算任务(例如，计算新的模型参数等)。

在一些实施例中，计算过程111与网络设备120之间的通信可以例如基于UDP协议进行。图3示出了根据本公开的实施例的用于实现计算设备与网络设备之间的数据交换的示例数据包结构300的示意图。如图3所示，数据包300可以包括以太网包头310、IP包头320、UDP包头330和UDP载荷340。UDP载荷340可以包括任务标识符341、任务中涉及的计算过程的最大数目342、过程标识符343、由该过程发送的数据包的序列号344和处理结果345。处理结果345例如可以包括用于交换的一个或多个数值345-1、345-2……345-M(其中，M≥1)。

在一些实施例中，在没有传输故障的情况下，计算设备与网络设备之间的通信通常包括如下几种过程：初始化过程、处理结果传输过程和规约结果传输过程。由于UDP协议是不可靠的传输协议，因此需要引入一些机制来保证传输的可靠性。

图4A和图4B示出了根据本公开的实施例的初始化过程的示意图。在图4A和图4B所示的示例中，出于简化和便于说明的目的，假设计算设备(计算过程)的数目N等于2。

图4A示出了没有传输故障的情况。如图4A所示，在一些实施例中，在初始情况下，计算设备110-1可以向网络设备120发送401初始化请求。同样，计算设备110-2可以向网络设备120发送402初始化请求。网络设备120可以维护指示与计算设备110中的每个计算过程111有关的状态的一组标志(例如位图，其中每一位对应于一个计算过程，并且指示是否接收到来自该计算过程的处理结果)。当网络设备120从所有计算设备110接收到初始化请求时，网络设备120可以对一组标志进行初始化(例如，将一组标志中的每个标志清零，以指示尚未从任何计算过程111接收到处理结果)。附加地，网络设备120还可以从所接收到的初始化请求中提取与各个计算过程有关的网络信息，诸如MAC地址、IP地址、端口号等等。网络设备120之后可以基于所提取的网络信息来接收来自各个计算过程的处理结果。如图4A所示，当网络设备120接收到来自所有计算设备110的初始化请求时，网络设备120可以向各个计算设备110广播(如403和404所示)针对初始化请求的响应，例如该响应可以指示网络设备120已经准备好接收来自各个计算设备110的处理结果。

图4B示出了存在传输故障的情况。如图4B所示，在初始情况下，计算设备110-1向网络设备120发送405初始化请求并且计算设备110-2向网络设备120发送406初始化请求。如果由计算设备110-1发送的初始化请求发生丢包故障，则在预设的超时时间(本文也称为“第二阈值时间段”)到期时，计算设备110-1将重新发送407初始化请求。当网络设备120接收到来自计算设备110-1和110-2的初始化请求时，网络设备120可以向计算设备110-1和110-2广播针对初始化请求的响应(如408和409所示)。如果向计算设备110-1发送的响应发生丢包故障，则在预设的超时时间到期时，计算设备110-1将重新发送410初始化请求。当再次接收到来自计算设备110-1的初始化请求时，网络设备120将向计算设备110-1重新发送(例如，单播)411针对初始化请求的响应。以此方式，初始化过程的传输可靠性可以得到保证。

图5A-5C示出了根据本公开的实施例的处理结果和规约结果的传输过程的示意图。在图5A-5C所示的示例中，出于简化和便于说明的目的，假设计算设备(计算过程)的数目N等于2。

图5A示出了没有传输故障的情况。如图5A所示，在一些实施例中，在初始情况下，计算设备110-1可以向网络设备120发送501处理结果。同样，计算设备110-2可以向网络设备120发送502处理结果。当网络设备120接收到来自所有计算设备110的处理结果时，网络设备120可以向各个计算设备110广播(如503和504所示)规约操作的结果。

图5B示出了存在传输故障的情况。如图5B所示，在初始情况下，计算设备110-1向网络设备120发送505处理结果并且计算设备110-2向网络设备120发送506处理结果。如果由计算设备110-1发送的处理结果发生丢包故障，则在预设的超时时间(本文中也称为“第一阈值时间段”)到期时，计算设备110-1将重新发送507处理结果。由于网络设备120在预定时间内未接收到来自所有计算设备的处理结果，因此不会广播规约结果。因此，虽然由计算设备110-2发送的处理结果未发生丢包故障，计算设备110-2可能在预设的超时时间内也无法接收到来自网络设备120的规约结果。因此，在预设的超时时间到期时，计算设备110-2将重新发送508处理结果。当网络设备120接收到来自所有计算设备110的处理结果时，网络设备120可以向各个计算设备110广播(如509和510所示)规约操作的结果。

图5C示出了存在传输故障的另一种情况。如图5C所示，在初始情况下，计算设备110-1可以向网络设备120发送511处理结果；同样，计算设备110-2可以向网络设备120发送512处理结果。当网络设备120接收到来自所有计算设备110的处理结果时，网络设备120可以向各个计算设备110广播(如513和514所示)规约操作的结果。如果向计算设备110-1发送的规约操作的结果发生丢包故障，则在预设的超时时间到期时，计算设备110-1将重新发送515处理结果。当再次接收到来自计算设备110-1的处理结果时，网络设备120将向计算设备110-1重新发送(例如，单播)516规约操作的结果。如果向计算设备110-1发送的规约操作的结果再次发生丢包故障，则在预设的超时时间到期时，计算设备110-1将重新发送517处理结果。当再次接收到来自计算设备110-1的处理结果时，网络设备120将向计算设备110-1重新发送(例如，单播)518规约操作的结果。以此方式，处理结果和规约结果的传输可靠性可以得到保证。

图6示出了根据本公开的实施例的用于处理任务的示例方法600的流程图。例如，方法600可以在如图1所示的网络设备120处被实现。应当理解，方法600还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

如图6所示，在框610处，网络设备120从一组计算设备110接收由一组计算设备110处理任务而得到的一组处理结果。

在框620处，网络设备120响应于接收到一组处理结果，对一组处理结果执行规约操作。

在框630处，网络设备120向一组计算设备110发送规约操作的结果。

在一些实施例中，网络设备120可以被实现为可编程交换机。

在一些实施例中，一组计算设备110包括第一计算设备(例如，如图5C所示的计算设备110-1)，一组处理结果包括由第一计算设备发送的第一处理结果。在一些实施例中，网络设备120在向一组计算设备110发送规约操作的结果之后，响应于从第一计算设备再次接收到第一处理结果(例如，如图5C中的517所示)，网络设备120可以向第一计算设备重新发送规约操作的结果(例如，如图5C中的518所示)。

在一些实施例中，在接收一组处理结果之前，网络设备120可以从一组计算设备110接收执行规约操作的一组请求(例如，以上结合图4A和4B所述的初始化请求)。

在一些实施例中，网络设备120可以基于接收到的一组请求，确定一组计算设备110的相应网络信息。网络设备120可以基于一组计算设备110的相应网络信息，从该组计算设备接收一组处理结果。

在一些实施例中，响应于接收到一组请求，网络设备120可以向一组计算设备发送针对一组请求的响应。

在一些实施例中，一组计算设备110可以包括第二计算设备(例如，如图4B所示的计算设备110-1)，一组请求包括由第二计算设备发送的第二请求。网络设备120在向一组计算设备110发送针对一组请求的响应之后，响应于从第二计算设备再次接收到第二请求(如图4B中的410所示)，网络设备120可以向第二计算设备重新发送该响应(如图4B中的411所示)。

图7示出了根据本公开的实施例的用于处理任务的示例装置700的框图。例如，网络设备120可以由装置700实现。如图7所示，装置700可以包括数据包解析模块710、校验和验证模块720、输入处理模块730、输出处理模块740、校验和计算模块750和数据包封装模块760。应当理解，装置700的各个模块可以是硬件模块，也可以是软件模块。例如，在某些实施例中，装置700可以部分或者全部利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，装置700可以部分或者全部基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本公开的范围在此方面不受限制。

在一些实施例中，数据包解析模块710被配置为对接收到的数据包(例如，如图3所示的数据包300)进行解析，以得到其中包含的处理结果。在此方面，图8A示出了根据本公开的实施例的用于解析数据包的示例方法810的流程图。方法810例如可以由如图7所示的数据包解析模块710执行。如图8A所示，在框811处，数据包解析模块710提取数据包中的以太网包头(例如，如图3所示的以太网包头310)。在框812处，数据包解析模块710提取数据包中的IP包头(例如，如图3所示的IP包头320)。在框813处，数据包解析模块710提取数据包中的UDP包头(例如，如图3所示的UDP包头330)。在框814处，数据包解析模块710从UDP载荷中提取处理结果(例如，如图3所示的处理结果345)。

在一些实施例中，校验和验证模块720被配置为对各种包头(例如，以太网包头、IP包头和UDP包头)中的校验和进行验证，以确保接收数据的完整性和准确性。

在一些实施例中，输入处理模块730被配置为对接收到的数据包进行处理。在此方面，图8B示出了根据本公开的实施例的用于处理输入数据包的示例方法820的流程图。方法820例如可以由如图7所示的输入处理模块730执行。如图8B所示，在框821处，输入处理模块730验证IP包是否有效。在框822处，输入处理模块730验证UDP包是否有效。在框823处，输入处理模块730通过验证UDP端口来确定其是否为待处理的目标数据包(例如，初始化请求数据包或者处理结果数据包)。如果数据包为初始化请求数据包，则在框824处，输入处理模块730对初始化请求进行处理。例如，如上文中结合图4A所描述的，初始化接收标志、提取并存储网络信息等等。如果数据包为包括处理结果的数据包，则在框825处，输入处理模块730对处理结果进行处理。例如，对处理结果执行相应的规约操作等等。然后，在框826处，输入处理模块730对规约结果进行处理。例如，输入处理模块730可以确定是否来自所有计算过程的处理结果都被接收并被规约。如果是，则将广播标志设置为启用；如果否，则将广播标志设置为停用。

在一些实施例中，输出处理模块740被配置为准备规约结果的广播。在此方面，图8C示出了根据本公开的实施例的用于处理输出数据包的示例方法830的流程图。方法830例如可以由如图7所示的输出处理模块740执行。如图8C所示，在框831处，输出处理模块740确定广播标志是否被启用。如果启用，则在框832处，输出处理模块740准备用于广播的数据包。特别地，如果规约结果已经被广播，则广播标志仍为启用状态，此时在框823处，输出处理模块740将根据再次接收到其处理结果的计算设备的网络信息来准备用于单播的数据包。

在一些实施例中，校验和计算模块750被配置为针对待发送的数据包括计算各种包头所需要的校验和。

在一些实施例中，数据包封装模块760被配置为向待发送的数据包添加各种包头。在此方面，图8D示出了根据本公开的实施例的用于封装输出数据包的示例方法840的流程图。方法840例如可以由如图7所示的数据包封装模块760执行。如图8D所示，在框841处，数据包封装模块760向待发送的规约结果数据包添加UDP包头。在框842处，数据包封装模块760向待发送的规约结果数据包添加IP包头。在框843处，数据包封装模块760向待发送的规约结果数据包添加以太网包头，以用于发送。

应当理解，如图7所示的各个模块710-760和如图8A-8D所示的示例方法仅是示例性的，而无意于限制本公开的范围。在一些实施例中，装置700可以包括图7中未示出的模块或者省略图7中所示的某些模块。在此情况下，装置700中的各模块所执行的过程或方法可以与如图8A-8D所示的那些不同。

图9示出了根据本公开的实施例的用于处理任务的示例方法900的流程图。例如，方法900可以在如图1所示的计算设备110处被实现。应当理解，方法900还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

如图9所示，在框910处，计算设备110通过处理任务而得到处理结果。该任务可以由包括该计算设备在内的一组计算设备处理，一组计算设备通过处理该任务而得到包括该处理结果的一组处理结果。

在框920处，计算设备110向网络设备120发送该处理结果。网络设备120可以对从一组计算设备接收到的一组处理结果执行规约操作。

在框930处，计算设备110从网络设备120接收规约操作的结果。

在一些实施例中，网络设备120可以被实现为可编程交换机。

在一些实施例中，计算设备110可以通过如下操作向网络设备120发送处理结果：对处理结果执行预处理，以使得经预处理的处理结果适合于由网络设备120执行规约操作；以及向网络设备120发送经预处理的处理结果。

在一些实施例中，预处理包括以下至少一项：将处理结果转换到预定取值范围内；将处理结果从负数转换为正数；以及将处理结果从浮点数转换为整数。

在一些实施例中，计算设备110响应于接收到规约操作的结果，对规约操作的结果执行与预处理相反的后处理。

在一些实施例中，计算设备110响应于在发送处理结果之后的第一阈值时间段内未接收到规约操作的结果，向网络设备120重新发送处理结果(如图5B中的507或508，以及图5C中的515或517所示)。

在一些实施例中，计算设备110在发送处理结果之前，向网络设备120发送执行规约操作的请求。计算设备110响应于从网络设备120接收到针对该请求的响应，向网络设备120发送处理结果。

在一些实施例中，计算设备110响应于在发送该请求之后的第二阈值时间段内未接收到针对该请求的响应，向网络设备120重新发送该请求(如图4B中的407或410所示)。

图10示出了根据本公开的实施例的用于处理任务的示例方法1000的流程图。例如，方法1000可以在如图1所示的计算设备110处被实现。方法1000可以被示为方法900的一种示例实现。应当理解，方法1000还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框1002处，计算设备110对环境参数和网络进行初始化。在一些实施例中，计算设备110可以使用特定接口来获取一个或多个环境参数，诸如与任务有关的信息，例如任务标识符、任务中涉及的计算过程的最大数目、计算过程标识符等。此外，计算设备110可以初始化UDP套接字连接并且设置UDP接收超时时间。

在框1004处，计算设备110可以向网络设备120发送初始化请求。

在框1006处，如果计算设备110在阈值时间段内未接收到针对该请求的响应，则方法1000进行至框1004，其中计算设备110可以向网络设备重新发送初始化请求。

在框1008处，计算设备110可以从网络设备120接收针对初始化请求的响应。

在框1010处，计算设备110确定通过处理任务而得到的所有处理结果是否已被发送。在一些实施例中，当处理结果的数据量超过由网络的最大传输单元(MTU)和整数的比特宽度两者所指示的最大数据量时，计算设备110可以对处理结果进行分块，并且每次仅对其中的一块进行处理。如果处理结果的所有块都被发送，则方法1000结束。

否则，方法1000进行至框1012，其中计算设备110针对处理结果的一块执行预处理，以使得经预处理的处理结果适合于由网络设备120执行规约操作。在一些实施例中，预处理包括以下至少一项：将处理结果转换到预定取值范围内；将处理结果从负数转换为正数；以及将处理结果从浮点数转换为整数。

在框1014处，计算设备110基于经预处理的处理结果，生成待发送的数据包。例如，计算设备110可以基于在框1002处获取的任务标识符(例如，作为如图3所示的任务标识符341)、任务中涉及的计算过程的最大数目(例如，作为如图3所示的计算过程的最大数目342)、计算过程标识符(例如，作为如图3所示的过程标识符343)、正在处理的处理结果的当前分块索引(例如，作为如图3所示的数据包的序列号344)以及处理结果的一个或多个数值(例如，作为如图3所示的处理结果345)来构建处理结果数据包。

在框1016处，计算设备110向网络设备120发送包括处理结果的数据包。

在框1018处，如果计算设备110在阈值时间段内未接收到规约结果，则方法1000进行至框1016，其中计算设备110可以向网络设备120重新发送该数据包。

在框1020处，计算设备110从网络设备120接收包括规约结果的数据包。

在框1022处，计算设备110对接收到的数据包执行与预处理相对的后处理。

然后，在框1024处，计算设备110可以存储经后处理的规约结果，以供后续使用。

通过以上描述能够看出，本公开的实施例能够在并行处理任务时显著地减少在多个设备间交换的数据量，从而降低由于数据交换而导致的网络延迟。

图11示出了可以用来实施本公开的实施例的设备1100的示意性框图。设备1100可以用于实现以上参考图1所描述的计算设备110或网络设备120。如图所示，设备1100包括中央处理单元(CPU)1101和GPU等专用处理资源(未示出)，其可以根据存储在只读存储器(ROM)1102中的计算机程序指令或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个方法或过程可由处理单元1101执行。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序被加载到RAM 1103并由CPU 1101执行时，可以执行上文描述的方法或过程中的一个或多个步骤或动作。

在一些实施例中，以上所描述的方法和过程可以被实现为计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言，以及常规的过程式编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个单个软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于处理任务的方法，包括：

在网络设备处，从一组计算设备接收由所述一组计算设备处理所述任务而得到的一组处理结果；

响应于接收到所述一组处理结果，对所述一组处理结果执行规约操作；以及

向所述一组计算设备发送所述规约操作的结果。

2.根据权利要求1所述的方法，其中所述网络设备是可编程交换机。

3.根据权利要求1所述的方法，其中所述一组计算设备包括第一计算设备，所述一组处理结果包括由所述第一计算设备发送的第一处理结果，并且所述方法还包括：

在向所述一组计算设备发送所述规约操作的所述结果之后，

响应于从所述第一计算设备再次接收到所述第一处理结果，向所述第一计算设备重新发送所述规约操作的所述结果。

4.根据权利要求1所述的方法，还包括：

在接收所述一组处理结果之前，

从所述一组计算设备接收执行所述规约操作的一组请求；以及

响应于接收到所述一组请求，向所述一组计算设备发送针对所述一组请求的响应。

5.根据权利要求4所述的方法，其中接收所述一组处理结果包括：

基于接收到的所述一组请求，确定所述一组计算设备的相应网络信息；以及

基于所述一组计算设备的所述相应网络信息，从所述一组计算设备接收所述一组处理结果。

6.根据权利要求4所述的方法，其中所述一组计算设备包括第二计算设备，所述一组请求包括由所述第二计算设备发送的第二请求，并且所述方法还包括：

在向所述一组计算设备发送针对所述一组请求的所述响应之后，

响应于从所述第二计算设备再次接收到所述第二请求，向所述第二计算设备重新发送所述响应。

7.一种用于处理任务的方法，包括：

在计算设备处，通过处理所述任务来得到处理结果，所述任务由包括所述计算设备的一组计算设备处理，所述一组计算设备通过处理所述任务而得到包括所述处理结果的一组处理结果；

向网络设备发送所述处理结果，以使得所述网络设备对所述一组处理结果执行规约操作；以及

从所述网络设备接收所述规约操作的结果。

8.根据权利要求7所述的方法，其中所述网络设备是可编程交换机。

9.根据权利要求7所述的方法，其中向所述网络设备发送所述处理结果包括：

对所述处理结果执行预处理，以使得经预处理的所述处理结果适合于由所述网络设备执行所述规约操作；以及

向所述网络设备发送经预处理的所述处理结果。

10.根据权利要求9所述的方法，其中执行所述预处理包括以下至少一项：

将所述处理结果转换到预定取值范围内；

将所述处理结果从负数转换为正数；以及

将所述处理结果从浮点数转换为整数。

11.根据权利要求9所述的方法，还包括：

响应于接收到所述规约操作的所述结果，对所述规约操作的所述结果执行与所述预处理相反的后处理。

12.根据权利要求7所述的方法，还包括：

响应于在发送所述处理结果之后的第一阈值时间段内未接收到所述规约操作的所述结果，向所述网络设备重新发送所述处理结果。

13.根据权利要求7所述的方法，其中向所述网络设备发送所述处理结果包括：

在发送所述处理结果之前，向所述网络设备发送执行所述规约操作的请求；以及

响应于从所述网络设备接收到针对所述请求的响应，向所述网络设备发送所述处理结果。

14.根据权利要求13所述的方法，还包括：

响应于在发送所述请求之后的第二阈值时间段内未接收到针对所述请求的所述响应，向所述网络设备重新发送所述请求。

15.一种网络设备，包括：

处理器；以及

存储器，存储有计算机程序指令，所述处理器运行所述存储器中的所述计算机程序指令控制所述网络设备执行动作，所述动作包括：

从一组计算设备接收由所述一组计算设备处理所述任务而得到的一组处理结果；

向所述一组计算设备发送所述规约操作的结果。

16.根据权利要求15所述的网络设备，其中所述网络设备是可编程交换机。

17.根据权利要求15所述的网络设备，其中所述一组计算设备包括第一计算设备，所述一组处理结果包括由所述第一计算设备发送的第一处理结果，并且所述动作还包括：

在向所述一组计算设备发送所述规约操作的所述结果之后，

18.根据权利要求15所述的网络设备，其中所述动作还包括：

在接收所述一组处理结果之前，

19.根据权利要求18所述的网络设备，其中接收所述一组处理结果包括：

20.根据权利要求18所述的网络设备，其中所述一组计算设备包括第二计算设备，所述一组请求包括由所述第二计算设备发送的第二请求，并且所述动作还包括：

21.一种计算设备，包括：

处理器；以及

通过处理所述任务来得到处理结果，所述任务由包括所述计算设备的一组计算设备处理，所述一组计算设备通过处理所述任务而得到包括所述处理结果的一组处理结果；

从所述网络设备接收所述规约操作的结果。

22.根据权利要求21所述的计算设备，其中所述网络设备是可编程交换机。

23.根据权利要求21所述的计算设备，其中向所述网络设备发送所述处理结果包括：

向所述网络设备发送经预处理的所述处理结果。

24.根据权利要求23所述的计算设备，其中执行所述预处理包括以下至少一项：

将所述处理结果转换到预定取值范围内；

将所述处理结果从负数转换为正数；以及

将所述处理结果从浮点数转换为整数。

25.根据权利要求23所述的计算设备，其中所述动作还包括：

26.根据权利要求21所述的计算设备，其中所述动作还包括：

27.根据权利要求21所述的计算设备，其中向所述网络设备发送所述处理结果包括：

28.根据权利要求27所述的计算设备，其中所述动作还包括：

29.一种计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1-6中的任一项所述的方法。

30.一种计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行根据权利要求7-14中的任一项所述的方法。