CN111723932A

CN111723932A - 神经网络模型的训练方法和相关产品

Info

Publication number: CN111723932A
Application number: CN202010496342.2A
Authority: CN
Inventors: 王迎瑞; 李周洋; 王元波; 张行程
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-29

Abstract

本申请实施例公开了一种神经网络模型训练的通信方法和相关产品，该方法包括：第一工作节点对神经网络模型进行多次内层迭代，得到多组本地梯度信息；其中，每组本地梯度信息包含对应的内层迭代中得到的所述神经网络模型的至少一个网络层的本地梯度信息；所述第一工作节点基于所述多组本地梯度信息，得到所述至少一个网络层中的第一网络层的目标融合梯度信息；所述第一工作节点与至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输。本申请实施例中，第一工作节点至少一个第二工作节点传输网络层的目标融合梯度信息；可以减少梯度信息的传输次数和总通信量。

Description

神经网络模型的训练方法和相关产品

技术领域

本申请涉及模型训练领域，尤其涉及一种神经网络模型的训练方法和相关产品。

背景技术

深度学习正在为众多社会领域带来巨大的发展进步，模型训练是其关键环节。模型训练过程中会读取大量的样本数据，进行大量的数学运算，非常耗时。尽管业界在ImageNet数据集上的基准(benchmark)测试中不断取得突破。然而，回归到通用的训练平台中，高效的分布式模型训练方案依旧是一个棘手的实际问题。因此，需要研究更高效的分布式模型训练方案。

发明内容

本申请实施例公开了一种模型训练方法和相关产品。

第一方面，本申请实施例提供了一种神经网络模型的训练方法，该方法包括：第一工作节点对神经网络模型进行多次内层迭代，得到多组本地梯度信息；其中，每组本地梯度信息包含对应的内层迭代中得到的所述神经网络模型的至少一个网络层的本地梯度信息；所述第一工作节点基于所述多组本地梯度信息，得到所述至少一个网络层中的第一网络层的目标融合梯度信息；所述第一工作节点与至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输。

所述第一工作节点对所述神经网络模型进行至少一次内层迭代，可得到一组本地梯度信息。一组本地梯度信息可以理解为第一工作节点完成神经网络模型中各网络层的前向计算和反向计算得到的多个网络层的本地梯度信息，可以包括神经网络模型的部分或所有网络层的梯度。

神经网络模型中的一个网络层的目标融合梯度信息可以是通过对多次内层迭代得到的该网络层的多组本地梯度信息融合得到的梯度信息。

本申请实施例中，第一工作节点至少一个第二工作节点传输网络层的目标融合梯度信息；可以减少梯度信息的传输次数和总通信量。

在一个可能的实现方式中，所述第一工作节点基于所述多组本地梯度信息，得到所述至少一个网络层中的第一网络层的目标融合梯度信息包括：所述第一工作节点对所述多组本地梯度信息中分别包括的所述第一网络层的本地梯度信息进行累加处理，得到所述第一网络层的目标融合梯度信息。

在该实现方式中，对多次内层迭代得到的第一网络层的本地梯度信息进行累加处理，得到第一网络层的目标融合梯度信息；可以减少梯度信息的传输次数，提高训练效率。

在一个可能的实现方式中，所述多次内层迭代包括第一内层迭代和在所述第一内层迭代之前进行的至少一次第二内层迭代；所述第一工作节点基于所述多组本地梯度信息，得到所述至少一个网络层中的第一网络层的目标融合梯度信息，包括：所述第一工作节点在进行所述第一内层迭代的过程中，基于所述多组本地梯度信息中分别包含的所述第一网络层的本地梯度信息，得到所述第一网络层的目标融合梯度信息；或者，响应于所述第一工作节点在所述第一内层迭代的过程中得到所述第一网络层的本地梯度信息，基于所述多组本地梯度信息中分别包括的所述第一网络层的本地梯度信息，得到所述第一网络层的目标融合梯度信息。

在该实现方式中，第一工作节点可以并行地执行第一内层迭代和得到第一网络层的目标融合梯度信息的操作，可以提高训练效率。

在一个可能的实现方式中，所述基于所述多组本地梯度信息中分别包含的所述第一网络层的本地梯度信息，得到所述第一网络层的目标融合梯度信息，包括：获取所述第一网络层的初始融合梯度信息，其中，所述第一网络层的初始融合梯度信息是基于所述至少一次第二内层迭代中得到的至少一组本地梯度信息中包含的所述第一网络层的本地梯度信息得到的；对所述初始融合梯度信息和所述第一内层迭代中得到的所述第一网络层的本地梯度信息进行处理，得到所述第一网络层的目标融合梯度信息。

在该实现方式中，可准确、快速地得到第一网络层的目标融合梯度信息。

在一个可能的实现方式中，在所述至少一次第二内层迭代为至少两次第二内层迭代的情况下，所述第一网络层的初始融合梯度信息是通过对所述至少两次第二内层迭代中得到的至少两组本地梯度信息中包含的所述第一网络层的本地梯度信息进行逐次迭代融合得到的。

在该实现方式中，通过对至少两次第二内层迭代中得到的至少两组本地梯度信息中包含的第一网络层的本地梯度信息进行逐次迭代融合以得到第一网络层的初始融合梯度信息；计算速度快。

在一个可能的实现方式中，所述获取所述第一网络层的初始融合梯度信息，包括：从目标存储空间获取所述第一网络层的初始融合梯度信息；其中，所述目标存储空间用于存储所述神经网络模型的多个网络层的本地梯度信息；在得到所述第一网络层的目标融合梯度信息之后，所述方法还包括：将所述目标存储空间存储的所述第一网络层的本地梯度信息由所述初始融合梯度信息更新为所述目标融合梯度信息。

在该实现方式中，一方面从目标存储空间获取第一网络层的初始融合梯度信息，可以减少内存拷贝；另一方面更新目标存储空间存储的初始融合梯度信息，可以减少内存的开销以及及时更新第一网络层的梯度信息。

在一个可能的实现方式中，所述至少一个网络层包括至少两个网络层，所述至少两个网络层的目标融合梯度信息按照各自对应的偏移量存储于目标存储空间；所述方法还包括：在进行所述第一网络层的目标融合梯度信息的传输之前，所述第一工作节点基于所述第一网络层对应的偏移量，从所述目标存储空间读取所述第一网络层的目标融合梯度信息；或者，在进行所述第一网络层的目标融合梯度信息的传输之后，所述第一工作节点基于接收到的来自于所述至少一个第二工作节点的所述第一网络层的目标融合梯度信息，更新所述目标存储空间存储的所述第一网络层的本地梯度信息。

在一个可能的实现方式中，所述第一工作节点与至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输包括：所述第一工作节点在计算所述神经网络模型的第二网络层的本地梯度信息的过程中，与所述至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输，其中，所述第二网络层的网络深度小于所述第一网络层的网络深度。

在该实现方式中，第一工作节点通过将计算和通信的重叠，提高训练效率。

在一个可能的实现方式中，所述第一工作节点与至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输包括：所述第一工作节点在更新所述神经网络模型的第三网络层的参数的过程中，与所述至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输，其中，所述第三网络层的网络深度大于所述第一网络层的网络深度。

在该实现方式中，第一工作节点通过将参数更新和通信的重叠，提高训练效率。

在一个可能的实现方式中，所述第一工作节点与至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输之前，所述方法还包括：所述第一工作节点将所述第一网络层的目标融合梯度信息中的各个数值均放大M倍，并将放大后的各个数值转换为半精度；所述M为大于1的实数。

在该实现方式中，通过对本地梯度信息中的各个数值采用低精度存储，可以减少本地梯度信息的数据量。

在一个可能的实现方式中，所述方法还包括：所述第一工作节点将接收到的来自于所述至少一个第二工作节点的目标融合梯度信息中的各个数值转换为单精度，并将得到的各数值缩小M倍以得到参考梯度信息，所述M为大于1的实数；所述第一工作节点利用所述参考梯度信息更新所述神经网络模型中至少一个网络层的参数。

第二方面，本申请实施例提供了一种图像预测方法，该方法包括：获取待处理图像；利用上述第一方面以及任一项可能的实现方式中训练得到的神经网络模型对所述待处理图像进行预测处理，得到预测结果。

第三方面，本申请实施例提供了一种数据处理装置，包括：处理模块，用于对神经网络模型进行多次内层迭代，得到多组本地梯度信息；其中，每组本地梯度信息包含对应的内层迭代中得到的所述神经网络模型的至少一个网络层的本地梯度信息；所述处理模块，还用于基于所述多组本地梯度信息，得到所述至少一个网络层中的第一网络层的目标融合梯度信息；收发模块，用于与至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输。

在一个可能的实现方式中，所述处理模块，具体用于对所述多组本地梯度信息中分别包括的所述第一网络层的本地梯度信息进行累加处理，得到所述第一网络层的目标融合梯度信息。

在一个可能的实现方式中，所述多次内层迭代包括第一内层迭代和在所述第一内层迭代之前进行的至少一次第二内层迭代；所述处理单元，具体用于在进行所述第一内层迭代的过程中，基于所述多组本地梯度信息中分别包含的所述第一网络层的本地梯度信息，得到所述第一网络层的目标融合梯度信息；或者所述处理单元，具体用于响应于所述第一工作节点在所述第一内层迭代的过程中得到所述第一网络层的本地梯度信息，基于所述多组本地梯度信息中分别包括的所述第一网络层的本地梯度信息，得到所述第一网络层的目标融合梯度信息。

在一个可能的实现方式中，所述处理单元，具体用于获取所述第一网络层的初始融合梯度信息，其中，所述第一网络层的初始融合梯度信息是基于所述至少一次第二内层迭代中得到的至少一组本地梯度信息中包含的所述第一网络层的本地梯度信息得到的；对所述初始融合梯度信息和所述第一内层迭代中得到的所述第一网络层的本地梯度信息进行处理，得到所述第一网络层的目标融合梯度信息。

在一个可能的实现方式中，所述处理模块，具体用于从目标存储空间获取所述第一网络层的初始融合梯度信息；其中，所述目标存储空间用于存储所述神经网络模型的多个网络层的本地梯度信息；所述处理模块，还用于将所述目标存储空间存储的所述第一网络层的本地梯度信息由所述初始融合梯度信息更新为所述目标融合梯度信息。

在一个可能的实现方式中，所述至少一个网络层包括至少两个网络层；所述处理模块，还用于在进行所述第一网络层的目标融合梯度信息的传输之前，所述第一工作节点基于所述第一网络层对应的偏移量，从所述目标存储空间读取所述第一网络层的目标融合梯度信息；或者，在进行所述第一网络层的目标融合梯度信息的传输之后，所述第一工作节点基于接收到的来自于所述至少一个第二工作节点的所述第一网络层的目标融合梯度信息，更新所述目标存储空间存储的所述第一网络层的本地梯度信息。

在一个可能的实现方式中，所述处理模块，具体用于在计算所述神经网络模型的第二网络层的本地梯度信息的过程中，与所述至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输，其中，所述第二网络层的网络深度小于所述第一网络层的网络深度。

在一个可能的实现方式中，所述处理模块，具体用于在更新所述神经网络模型的第三网络层的参数的过程中，与所述至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输，其中，所述第三网络层的网络深度大于所述第一网络层的网络深度。

在一个可能的实现方式中，所述处理模块，还用于将所述第一网络层的目标融合梯度信息中的各个数值均放大M倍，并将放大后的各个数值转换为半精度；所述M为大于1的实数。

在一个可能的实现方式中，所述处理模块，还用于将接收到的来自于所述至少一个第二工作节点的目标融合梯度信息中的各个数值转换为单精度，并将得到的各数值缩小M倍以得到参考梯度信息，所述M为大于1的实数；利用所述参考梯度信息更新所述神经网络模型中至少一个网络层的参数。

关于第三方面或各种可能的实施方式所带来的技术效果，可参考对于第一方面或相应的实现方式的技术效果的介绍。

第四方面，本申请实施例提供了一种数据处理装置，包括：获取模块，用于获取待处理图像；处理模块，用于利用上述第一方面以及任一项可能的实现方式训练得到的神经网络模型对所述待处理图像进行预测处理，得到预测结果。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括：处理器和存储器，其中，所述存储器用于存储指令，所述处理器用于执行所述存储器存储的指令，使得所述处理器执行如上述第一方面以及任一种可能的实现方式的方法。

第六方面，本申请实施例提供了一种电子设备，该电子设备包括：处理器和存储器，其中，所述存储器用于存储指令，所述处理器用于执行所述存储器存储的指令，使得所述处理器执行如上述第二方面以及任一种可能的实现方式的方法。

第七方面，本申请实施例提供了一种芯片，该芯片包括数据接口和处理器，其中，所述处理器用于执行第一方面或第一方面的任意可能实现方式中的方法。

第八方面，本申请实施例提供了一种芯片，该芯片包括数据接口和处理器，其中，所述处理器用于执行第二方面或第二方面的任意可能实现方式中的方法。

第九方面，本申请实施例提供了一种计算机可读存储介质，该计算机存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面以及任一种可能的实现方式的方法。

第十方面，本申请实施例提供了一种计算机可读存储介质，该计算机存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第二方面以及任一种可能的实现方式的方法。

第十一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面以及任一种可能的实现方式的方法。

第十二方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第二方面以及任一种可能的实现方式的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例提供的一种分布式训练流程图的示例；

图2为本申请实施例提供的一种神经网络模型的训练方法流程图；

图3为本申请实施例提供的一种计算神经网络模型中的各网络层的目标融合梯度信息的一个示例的示意图；

图4为本申请实施例提供的另一种传输神经网络模型中的各网络层的目标融合梯度信息的一个示例的示意图；

图5为本申请实施例提供的一种参数更新与通信重叠的示例的示意图；

图6为本申请实施例提供的一种计算第一网络层的目标融合梯度信息的方法流程图；

图7为本申请实施例提供的另一种神经网络模型的训练方法流程图；

图8为本申请实施例提供的一种通信融合策略的一个示例的示意图；

图9为本申请实施例提供的一种图像预测方法流程图；

图10为本申请实施例提供的一种数据处理装置的结构示意图；

图11为本申请实施例提供的另一种数据处理装置的结构示意图；

图12为本申请实施例提供的一种服务器的结构示意图；

图13为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

本申请的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”、和“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

高效的分布式模型训练方案一直是棘手的实际问题。本申请提供了适用于分布式模型训练场景的神经网络模型的训练方法，能够提高模型训练效率。下面分别对本申请实施例提供的神经网络模型的训练方法适用的场景进行简单的介绍。

分布式模型训练场景：分布式训练系统包括多个工作节点，每个工作节点的功能基本相同，各个工作节点通过对神经网络模型进行多次迭代训练，得到训练好的神经网络模型。在一次迭代中，每个工作节点使用各自的训练样本对神经网络模型进行训练，得到各自的本地梯度信息；然后，多个工作节点之间进行数据同步，以使得多个工作节点中的每个工作节点获得所有工作节点的本地梯度信息，然后将得到的所有工作节点的本地梯度信息进行融合，得到全局梯度信息，或者，多个工作节点中的每个工作节点得到通过对所有其他工作节点的本地梯度信息进行融合得到的融合梯度信息，然后将自身的本地梯度信息与融合梯度信息进行融合，得到全局梯度信息。作为一个例子，每个工作节点将自身计算得到的本地梯度信息和/或来自其他工作节点的本地梯度信息发送给其他工作节点，或者发送自身得到的本地梯度信息与接收到的来自于至少一个其他工作节点的本地梯度信息进行融合得到的融合梯度信息，例如，发送给自己的左侧或右侧的工作节点，直到每个工作节点均得到所有工作节点计算得到的本地梯度信息、融合梯度信息或者全局梯度信息；然后，每个工作节点利用由全部的工作节点计算得到的本地梯度信息融合得到的全局梯度信息，更新神经网络模型。这样的迭代进行多次，每个工作节点在每次迭代中重复执行之前的操作，直到达到训练截止条件，例如，神经网络模型收敛或者训练次数得到预设次数等。在该分布式模型训练场景中，在一些实施例中，每个工作节点采用的神经网络模型相同，并且各工作节点同步更新神经网络模型，不同工作节点训练神经网络模型使用的训练样本不同。也就是说，各工作节点采用的神经网络模型一直是相同的。在一些实施例中，多个工作节点可以是同一个终端设备或者服务器上的多个处理器。举例来说，某个服务器上的8个GPU作为8个工作节点，即一个GPU对应一个工作节点。在一些实施例中，一个工作节点或至少两个工作节点对应一个硬件实体，例如终端设备或者服务器。举例来说，8个笔记本电脑作为8个工作节点，即一个笔记本电脑作为一个工作节点。又举例来说，32台服务器上的256块GPU作为256个工作节点。又举例来说，分布式训练系统包括多个工作节点为一个或多个设备(例如服务器)中运行的多个虚拟机。

下面结合一个分布式训练流程图的示例来描述本申请实施例提供的神经网络模型的训练方法。

图1为本申请实施例提供的一种分布式训练流程图的示例。如图1所示，GPU 0、GPU1、GPU 2以及GPU 3分别为分布式训练系统中的一个工作节点，神经网络模型包括若干个层(Layer)，GPU 0、GPU 1、GPU 2以及GPU 3的并行训练过程可以包括：各个层的前向计算(Forward Pass)，反向传播(Backward Pass)，梯度数据同步(如梯度规约通信(AllreduceGradients))以及参数更新(Update Parameters)。其中，在前向计算中，神经网络模型的各个层依次对输入到神经网络模型的图像进行处理，得到对该图像的处理结果。然后，可以基于处理结果和特定计算规则，得到神经网络模型的最后一层的梯度，在反向传播中，可以将最后一层的梯度反向传播，依次计算神经网络模型的各个层的梯度。在梯度数据同步中，多个工作节点之间可以进行梯度数据的同步。本申请实施例中，梯度数据同步的目的是使得每个工作节点均获得由全部的工作节点计算得到的本地梯度信息融合得到的全局梯度信息，本申请对实现这一目的的方式不作限定。在参数更新中，各工作节点利用梯度数据同步得到的全局梯度信息，进行神经网络模型的网络参数的更新，例如权重等。

在图1所示的例子中，不同工作节点将不同的训练样本输入至神经网络模型进行前向运算和反向运算，得到各自的本地梯度信息。各工作节点完成一次全局的梯度数据同步之后，均能获得由全部的工作节点计算得到的本地梯度信息融合得到的全局梯度信息或者全部的工作节点计算得到的本地梯度信息；各工作节点利用由全部的工作节点计算得到的本地梯度信息融合得到的全局梯度信息对各自的神经网络模型进行参数更新。其中，各工作节点可以采用相同的方式对神经网络模型进行更新。

在一些实施例中，梯度数据同步主要占用网络带宽资源，为了节约网络带宽资源，在多次迭代中进行一次梯度数据同步，具体地，在一次梯度数据同步中传输多次内层迭代得到的本地梯度信息，其中，可以传输多次内层迭代中每次内层迭代得到的本地梯度信息，或者，传输多次内层迭代得到的本次梯度信息的融合结果，等等。下面结合附图来介绍本申请实施例提供的神经网络模型的训练方法。

图2为本申请实施例提供的一种神经网络模型的训练方法流程图。如图2所示，该方法包括：

201、第一工作节点对神经网络模型进行多次内层迭代，得到多组本地梯度信息。

每组本地梯度信息包含对应的内层迭代中得到的上述神经网络模型的至少一个网络层的本地梯度信息。在一些实施例中，第一工作节点每次执行内层迭代得到一组本地梯度信息。一组本地梯度信息可以理解为第一工作节点完成神经网络模型中各网络层的前向计算和反向计算得到的全部本地梯度信息，即包括各网络层的参数向量的梯度。神经网络模型中的一个网络层的目标融合梯度信息可以理解为由多次内层迭代得到的该网络层的多组本地梯度信息融合得到的梯度信息。

上述第一工作节点可以是笔记本电脑、台式电脑、平板电脑、手机等终端设备；也可以是服务器；还可以是服务器或者终端设备上运行的虚拟机；还可以是终端设备或者服务器上的处理器，例如图形处理器(GraphicsProcessingUnit，GPU)、中央处理器(CentralProcessingUnit，CPU)、网络处理器(Neural-networkProcessingUnit，NPU)等。如图1所示，每个GPU通过反向计算可得到各网络层的本地梯度信息。在一些实施例中，反向计算为逆序逐层操作，第一工作节点可逆序逐层计算神经网络模型中各网络层的本地梯度信息，参阅图1。

202、第一工作节点基于上述多组本地梯度信息，得到上述至少一个网络层中的第一网络层的目标融合梯度信息。

上述第一网络层的目标融合梯度信息可以包括上述第一网络层中各参数向量的梯度。

在一些实施例中，步骤202的实现方式如下：第一工作节点对上述多组本地梯度信息中分别包括的上述第一网络层的本地梯度信息进行累加处理，得到上述第一网络层的目标融合梯度信息。应理解，在一些实施例中，第一工作节点对上述多组本地梯度信息中分别包括的任一网络层的本地梯度信息进行累加处理，得到上述任一网络层的目标融合梯度信息。在该实施例中，第一工作节点可采用与计算第一网络层的目标融合梯度信息的方式类似的方式计算得到神经网络模型中各网络层的目标融合梯度信息。

在一些实施例中，上述多次内层迭代包括第一内层迭代和在上述第一内层迭代之前进行的至少一次第二内层迭代；步骤202的实现方式如下：第一工作节点在进行上述第一内层迭代的过程中，基于上述多组本地梯度信息中分别包含的上述第一网络层的本地梯度信息，得到上述第一网络层的目标融合梯度信息；或者响应于上述第一工作节点在上述第一内层迭代的过程中得到上述第一网络层的本地梯度信息，基于上述多组本地梯度信息中分别包括的上述第一网络层的本地梯度信息，得到上述第一网络层的目标融合梯度信息。在该实施例中，第一内层迭代可以为多次内层迭代中的最后一次内层迭代；第一工作节点进行第一内层迭代(即最后一次内层迭代)可以是；按照顺序(例如逆序或正序)逐层计算神经网络模型的各网络层的本地梯度信息。由于第一工作节点逐层计算神经网络模型的各网络层的本地梯度信息，第一工作节点在进行第一内层迭代的过程中，在已计算得到第一网络层的本地梯度信息，基于上述多组本地梯度信息中分别包含的上述第一网络层的本地梯度信息，得到上述第一网络层的目标融合梯度信息。举例来说，第一工作节点以逆序的方式逐层计算神经网络模型的各网络层的本地梯度信息，该第一工作节点在计算第四网络层的本地梯度信息的过程中，基于多组本地梯度信息中分别包含的第五网络层的本地梯度信息，得到该第五网络层的目标融合梯度信息。

图3为本申请实施例提供的一种计算神经网络模型中的各网络层的目标融合梯度信息的一个示例的示意图。如图3所示，301表示以逆序的方式逐层计算神经网络模型中各网络层的本地梯度信息的数据流1(stream)，302表示以逆序的方式逐层计算该神经网络模型中各网络层的目标融合梯度信息，数据流1和数据流2并行；301中每个矩形框表示第一工作节点通过反向计算计算一个网络层的本地梯度信息的操作，例如第n网络层表示第一工作节点计算第n网络层的本地梯度信息的操作；302中每个矩形框表示第一工作节点计算一个网络层的目标融合梯度信息的操作，例如第n网络层表示第一工作节点计算第n网络层的目标融合梯度信息的操作；箭头方向表示时间轴的方向。n为大于1的整数。图3中，第一工作节点按照先后顺序依次计算第n网络层的本地梯度信息、第(n-1)网络层的本地梯度信息、…、第1网络层的本地梯度信息；第一工作节点按照先后顺序依次计算第n网络层的目标融合梯度信息、第(n-1)网络层的目标融合梯度信息、…、第1网络层的目标融合梯度信息；第一工作节点计算第(n-i)网络层的本地梯度信息的过程中，并行的计算第(n-i+1)网络层的目标融合梯度信息。其中，i为小于n的整数。由于第一工作节点以逆序的方式逐层计算神经网络模型中各网络层的本地梯度信息，且同样以逆序的方式逐层计算各网络层的目标融合梯度信息，因此第一工作节点可以在第一内存迭代的过程中，并行地利用已获得的网络层的本地梯度信息来计算一部分网络层的目标融合梯度信息。参阅图3，由于第一工作节点在计算第(n-1)网络层的本地梯度信息的操作之前，已计算得到第n网络层的本地梯度信息，因此该第一工作节点在计算第(n-1)网络层的本地梯度信息的操作的过程中，可并行地计算第n网络层的目标融合梯度信息。

在一些实施例中，步骤201和步骤203可替换为：第一工作节点对神经网络模型进行多次内层迭代，得到神经网络模型中每个参数的本地累计梯度信息。第一网络层包括的各参数的本地累计梯度信息为上述第一网络层的目标融合梯度信息。以神经网络模型的第一网络层为例，第一工作节点对神经网络模型进行第一次内层迭代，得到神经网络模型中的第一网络层的本地梯度信息，并存储；第一工作节点将对神经网络模型进行第二次内层迭代得到的第一网络层的本地梯度信息与当前存储的第一网络层的本地梯度信息(即第一次迭代得到的第一网络层的本地梯度信息)进行累计，得到第一网络层的新的本地梯度信息(对应于当前的第一网络层的本地梯度信息)；以此类推，得到第一网络层的本地累计梯度信息。对于神经网络模型中的任一参数向量来说，第一工作节点对神经网络模型进行第一次内层迭代，得到该任一参数向量的一个梯度并存储；第一工作节点将对神经网络模型进行第二次内层迭代得到的该任一参数向量的梯度与当前存储的该任一参数向量的梯度进行累加，并将当前存储的该任一参数向量的梯度更新为累加得到的梯度；以此类推，第一工作节点进行多次内层迭代，得到该任一参数向量的本地累计梯度(对应于本地累计梯度信息)。在一些可选实施例中，上述第一网络层的目标融合梯度信息可以是对多次内层迭代得到的上述第一网络层的多个梯度进行累计得到的累计梯度信息。

203、第一工作节点与至少一个第二工作节点进行上述第一网络层的目标融合梯度信息的传输。

在一些实施例中，上述至少一个第二工作节点中每个第二工作节点与第一工作节点执行的操作类似。上述第一工作节点可以是笔记本电脑、台式电脑、平板电脑、手机等终端设备；也可以是服务器；还可以是服务器或者终端设备上运行的虚拟机；还可以是终端设备或者服务器上的处理器。

在一个实施例中，步骤203的实现方式如下：第一工作节点在计算上述神经网络模型的第二网络层的本地梯度信息的过程中，与上述至少一个第二工作节点进行上述第一网络层的目标融合梯度信息的传输，其中，上述第二网络层的网络深度小于上述第一网络层的网络深度。第一工作节点计算上述神经网络模型的第二网络层的本地梯度信息可以是：第一工作节点在第一内层迭代(即最后一次内层迭代)中计算上述神经网络模型的第二网络层的本地梯度信息。图4为本申请实施例提供的另一种传输神经网络模型中的各网络层的目标融合梯度信息的一个示例的示意图。如图4所示，401表示以逆序的方式逐层计算(对应于第一内层迭代)神经网络模型中各网络层的本地梯度信息或者目标融合梯度信息的数据流3(stream)，402表示与至少一个第二工作节点以逆序的方式逐层进行各网络层的目标融合梯度信息传输的数据流4，数据流3和数据流4并行；401中每个矩形框表示第一工作节点通过反向计算计算一个网络层的本地梯度信息的操作，例如第n网络层表示第一工作节点计算第n网络层的本地梯度信息的操作；402中每个矩形框表示第一工作节点传输一个网络层的目标融合梯度信息的操作，例如第n网络层表示第一工作节点传输第n网络层的目标融合梯度信息的操作；箭头方向表示时间轴的方向。n为大于1的整数。由于第一工作节点以逆序的方式逐层计算神经网络模型中各网络层的本地梯度信息(即第一内层迭代)，且同样以逆序的方式逐层与至少一个第二工作节点进行各网络层的目标融合梯度信息的传输，因此第一工作节点可以在第一内存迭代的过程中，并行地传输已计算得到的部分网络层的目标融合梯度信息。参阅图4，由于第一工作节点在传输第(n-1)网络层的本地梯度信息或者目标融合梯度信息的操作之前，已计算得到第n网络层的本地梯度信息或者目标融合梯度信息，因此该第一工作节点在计算第(n-1)网络层的本地梯度信息或目标融合梯度信息的操作的过程中，可并行地传输第n网络层的目标融合梯度信息。在该实施例中，第一工作节点在计算神经网络模型的第二网络层的本地梯度信息的过程中，与至少一个第二工作节点进行第一网络层的目标融合梯度信息的传输；可以隐藏通信开销，提高训练效率。

在一些实施例中，步骤203的实现方式如下：第一工作节点在更新上述神经网络模型的第三网络层的参数的过程中，与上述至少一个第二工作节点进行上述第一网络层的目标融合梯度信息的传输，其中，上述第三网络层的网络深度大于上述第一网络层的网络深度。图5为本申请实施例提供的一种参数更新与通信重叠的示例的示意图。如图5所示，501表示逆序逐层操作实现梯度数据同步(allreduce)的数据流5(stream)，502表示逆序逐层操作实现参数更新的数据流(stream)6，数据流5和数据流6并行；501中每个矩形框表示第一工作节点传输一个网络层的目标融合梯度信息的操作，例如第n网络层表示第一工作节点传输第n网络层的本地梯度信息的操作；502中每个矩形框表示第一工作节点更新一个网络层的参数的操作，例如第n网络层表示第一工作节点更新第n网络层的参数的操作；箭头方向表示时间轴的方向。n为大于1的整数。图5中，第一工作节点按照先后顺序依次与至少一个第二工作节点进行第n网络层的目标融合梯度信息、第(n-1)网络层的目标融合梯度信息、…、第1网络层的目标融合梯度信息的传输；第一工作节点按照先后顺序依次更新第n网络层的参数、第(n-1)网络层的参数、…、第1网络层的参数；第一工作节点与至少一个第二工作节点传输第(n-i)网络层的目标融合梯度信息的过程中，并行的更新第(n-i+1)网络层的参数。其中，i为小于n的整数。由于第一工作节点实现梯度数据同步的方式为逆序逐层操作，且实现参数更新的方式为逆序逐层操作，因此第一工作节点可以在梯度数据同步的过程中，并行的利用已获得的网络层的目标融合梯度信息来实现一部分参数更新的操作。

由于前述实施例未详述如何基于多组本地梯度信息中分别包含的第一网络层的本地梯度信息，得到第一网络层的目标融合梯度信息的实现方式。下面介绍第一工作节点基于多组本地梯度信息中分别包含的第一网络层的本地梯度信息，得到第一网络层的目标融合梯度信息的实现方式。

图6为本申请实施例提供的一种计算第一网络层的目标融合梯度信息的方法流程图。

如图6所示，该方法包括：

601、第一工作节点对神经网络模型进行多次内层迭代，得到多组本地梯度信息。

每组本地梯度信息包含对应的内层迭代中得到的上述神经网络模型的至少一个网络层的本地梯度信息。应理解，第一工作节点执行步骤601可得到第一网络层的多组本地梯度信息，即每次内层迭代得到第一网络层的一组本地梯度信息。

602、第一工作节点获取上述第一网络层的初始融合梯度信息。

上述多次内层迭代包括第一内层迭代和在上述第一内层迭代之前进行的至少一次第二内层迭代；上述第一网络层的初始融合梯度信息是基于上述至少一次第二内层迭代中得到的至少一组本地梯度信息中包含的上述第一网络层的本地梯度信息得到的。在上述至少一次第二内层迭代为至少两次第二内层迭代的情况下，上述第一网络层的初始融合梯度信息是通过对上述至少两次第二内层迭代中得到的至少两组本地梯度信息中包含的上述第一网络层的本地梯度信息进行逐次迭代融合得到的。在一些可选的实施例中，上述第一网络层的初始融合梯度信息可以是：第一工作节点对神经网络模型进行至少一次第二内层迭代，得到的上述第一网络层包括的每个参数的本地累计梯度信息。在一些实施例中，第一工作节点在执行步骤602之前，可执行如下操作：第一工作节点基于第一网络层对应的偏移量将第一次进行第二内层迭代得到的第一网络层的本地梯度信息存储至目标存储空间；第一工作节点将后续每次进行第二内层迭代得到的第一网络层的本地梯度信息逐次与目标存储空间中的第一网络层的本地梯度信息进行迭代融合，得到初始融合梯度信息。举例来说，第一工作节点每次进行第二内层迭代可得到第一网络层的一个参数梯度向量(即第一网络层的一组本地梯度信息)，包括100个分量，每个分量是一个实数，该第一工作节点可将第一次进行第二内层迭代得到的100个数值存储至目标存储空间，将第二次进行第二内层迭代得到的100个数值分别与目标存储空间中相应的参数梯度进行累加，以此类推，直到将最后一次进行第二内层迭代得到的100个数值与目标存储空间中相应的参数梯度进行累加，得到初始融合梯度信息。例如，目标存储空间中当前存储的第一网络层的参数梯度向量的某个分量为p(一个实数)，第一工作节点将某次进行第二内层迭代得到的该分量q(一个实数)与其在目标存储空间中相应的参数梯度分量(即p)进行累加，得到(p+q)。

603、对初始融合梯度信息和第一内层迭代中得到的上述第一网络层的本地梯度信息进行处理，得到上述第一网络层的目标融合梯度信息。

在一些实施例中，上述第一内层迭代可以是上述多次内层迭代中最后一次内层迭代。应理解，第一工作节点可采用与图6中的方法流程类似的方法流程，计算得到神经网络模型中各网络层的目标融合梯度信息。步骤603的实现方式可以是：对初始融合梯度信息和第一内层迭代中得到的上述第一网络层的本地梯度信息进行累加处理，得到上述第一网络层的目标融合梯度信息。

在一些实施例中，第一工作节点在执行步骤603之后，还可以执行如下操作：将上述目标存储空间存储的上述第一网络层的本地梯度信息由上述初始融合梯度信息更新为上述目标融合梯度信息。

本申请实施例中，第一工作节点将多次进行内层迭代得到的第一网络层的多组本地梯度信息进行融合，得到第一网络层的目标融合梯度信息；可充分利用每次内层迭代的梯度信息，以便于减少通信开销。

图1介绍了本申请实施例提供的神经网络模型的训练方法的主要流程。下面介绍相比于图1的方法流程更加细化和完善的方法流程。

图7为本申请实施例提供的另一种神经网络模型的训练方法流程图。如图7所示，该方法包括：

701、第一工作节点将训练样本输入至神经网络模型进行前向计算，得到处理结果。

702、第一工作节点利用上述处理结果和上述神经网络模型进行反向计算，得到神经网络模型的至少一个网络层的本地梯度信息。

步骤702和步骤701可以理解为上述第一工作节点对上述神经网络模型进行一次内层迭代，得到上述神经网络模型的至少一个网络层的本地梯度信息的实现方式。在一些实施例中，步骤702可替换为：第一工作节点利用上述处理结果和上述神经网络模型进行反向计算，得到神经网络模型的各网络层的本地梯度信息。举例来说，第一工作节点以逆序方式逐层实现反向计算，得到神经网络模型的各网络层的本地梯度信息。

703、第一工作节点基于中间融合梯度信息和当前迭代(即本次内层迭代)对应的本地梯度信息，得到上述神经网络模型的至少一个网络层的新的中间融合梯度信息。

在一些实施例中，上述中间融合梯度信息可以是第一工作节点对上述神经网络模型进行至少一次内层迭代，得到的上述至少一次内层迭代对应的中间融合梯度信息。示例性的，上述中间融合梯度信息可以是第一工作节点进行一次内层迭代得到的神经网络模型的各网络层的本地梯度信息；还可以是由第一工作节点进行至少两次内层迭代得到的至少两组本地梯度信息进行逐次迭代融合得到。应理解，第一工作节点第一次执行步骤703时，上述中间融合梯度信息不存在，步骤703的实现方式可以是将步骤702得到的神经网络模型的至少一个网络层的本地梯度信息作为中间融合梯度信息，并存储；第一工作节点第二次执行步骤703时，步骤703的实现方式可以是基于当前的中间融合梯度信息和本次内层迭代对应的本地梯度信息(即第二次执行步骤702得到的梯度信息)，得到新的中间融合梯度信息(对应于更新中间融合梯度)；以此类推，第一工作节点第K次(即最后一次)执行步骤703之后，得到神经网络模型的至少一个网络层的目标融合梯度信息。其中，K为大于1的整数。可以理解，第一工作节点第一次执行步骤703可得到初始的中间融合梯度(对应于第一次执行步骤702得到的梯度信息)，后面每执行一次步骤703(除最后一次执行步骤703)就是利用当前的中间融合梯度信息和当前迭代(即本次内层迭代)对应的本地梯度信息，得到新的中间融合梯度信息。第一工作节点最后一次执行步骤703可以是：利用当前的中间融合梯度信息和当前迭代(即本次内层迭代)对应的本地梯度信息，得到目标融合梯度信息。

在一些实施例中，第一工作节点进行一次内层迭代，得到一组本地梯度参数，每组本地梯度参数包括神经网络模型的各网络层的本地梯度信息；第一工作节点对其进行至少两次内层迭代得到的至少两组本地梯度信息进行逐次迭代融合可以是：对上述至少两组本地梯度信息中分别包括的各网络层的本地梯度信息逐次迭代融合，得到各网络层的中间融合梯度。举例来说，第一工作节点对至少两组本地梯度信息中分别包括的第一网络层的本地梯度信息进行逐次迭代融合，得到第一网络层的中间融合梯度。示例性的，第一工作节点对至少两组本地梯度信息中分别包括的第一网络层的本地梯度信息进行逐次迭代融合可以是逐次融合两组本地梯度信息中分别包括的第一网络层中的相应参数。例如，第一组本地梯度信息中包括的第一网络层的某个参数的值为a，第二组本地梯度信息中包括的该参数的值为b，第三组本地梯度信息中包括的该参数的值为c；以该参数为例，第一工作节点对这3组本地梯度信息中分别包括的第一网络层的本地梯度信息进行逐次迭代融合可以是：先计算(a+b)，在计算((a+b)+c)。在该例子中，该参数在第一网络层的中间融合梯度信息中对应的值为((a+b)+c)。

在一些实施例中，步骤703的实现方式可以是：上述第一工作节点对上述中间融合梯度信息和上述当前迭代得到的本地梯度信息进行累加处理，得到上述神经网络模型的至少一个网络层的目标融合梯度信息。上述中间融合梯度信息中的梯度和上述当前迭代得到的本地梯度信息中的梯度一一对应；上述第一工作节点对上述中间融合梯度信息和上述当前迭代得到的本地梯度信息进行累加处理，得到上述神经网络模型的至少一个网络层的目标融合梯度信息可以是：对上述中间融合梯度信息和上述当前迭代得到的本地梯度信息中一一对应的参数进行累加处理。举例来说，中间融合梯度信息中某个参数的值为d，该参数在当前迭代得到的本地梯度信息中对应的值为e，对d和e进行累加处理得到(d+e)。上述神经网络模型的任一网络层的目标融合梯度信息可以由第一工作节点多次内层迭代得到的多组该任一网络层的本地梯度信息融合得到。

704、第一工作节点判断是否达到内层迭代阈值。

若是，执行步骤705；若否，执行步骤701。上述内层迭代阈值可以是3、5、10、20等，本申请不作限定。在实际应用中，第一工作节点可根据实际需求来相应的设置内层迭代阈值。内层迭代阈值越大，第一工作节点执行全局通信的次数越少。

步骤701至步骤704对应于图2中的步骤201和步骤202。应理解，图1中的步骤201和步骤202可替换为步骤701至步骤704。

705、第一工作节点执行全局通信操作，得到全局梯度信息。

在一些实施例中，上述全局梯度信息可以是由全部的工作节点计算得到的本地梯度信息融合得到的梯度信息。示例性的，上述全局梯度信息可以是由全部的工作节点计算得到的本地梯度信息中相应的梯度累加得到的梯度信息。举例来说，每个工作节点计算得到的本地梯度信息对应一个向量，由全部的工作节点计算得到的本地梯度信息融合得到的全局梯度信息对应的向量可以是由各工作节点计算得到的本地梯度信息对应的向量中相同位置的元素累加得到。在一些实施例中，第一工作节点得到全局梯度信息之后，分布式训练系统中各工作节点均得到全局梯度信息。步骤705对应于图2中的步骤203。可以理解，步骤203为步骤705中的一部分。

706、第一工作节点利用全局梯度信息更新神经网络模型。

应理解，分布式训练系统中各工作节点均全局梯度信息更新神经网络模型，这样每个工作节点均会得到一个相同的更新后的神经网络模型。步骤701至步骤706描述第一工作节点实现一次参数更新操作的过程，在实际应用中，第一工作节点可多次执行图7中的方法流程以得到收敛的神经网络模型。

在一些实施例中，第一工作节点还可以执行如下操作：上述第一工作节点在基于上述中间融合梯度信息和上述当前迭代对应的本地梯度信息，得到上述神经网络模型的第三网络层的目标融合梯度信息的过程中，与上述至少一个第二工作节点进行上述神经网络模型的第四网络层的目标融合梯度信息的传输。可选的，上述第四网络层的网络深度大于上述第三网络层的网络深度。第一工作节点可以按照逆序逐层操作进行最后一次内层迭代，即先后迭代得到最后一次网络层的本地梯度信息至第一网络层的本地梯度信息，因此第一工作节点可先后得到最后一层网络层的目标融合梯度信息至第一网络层的目标融合梯度信息。应理解，第一工作节点在计算某一网络层的目标融合梯度信息的过程中，可将已计算得到的一些网络层的目标融合梯度信息传输给其他工作节点。也就是说，全局通信操作可以与最后一次内层迭代的反向计算互相重叠。在该实施例中，将计算神经网络模型中的网络层的目标融合梯度信息的过程和传输网络层的目标融合梯度信息的过程重叠(即计算和通信重叠)，可以提高模型训练效率。

为进一步提升通信效率，本申请实施例还提供了通信融合策略，即将若干个网络层的梯度合并到一块较大的数组，再发起一次全局通信。通信融合策略可应用于前述实施例中，来提升通信效率。

对于常见神经网络模型中的大部分算子，其梯度参数的数量是相当小的，通常是特征图数量的小常数倍，通信量为KBytes甚至Byte的量级。根据底层通信的相关研究，传输数据量偏小时传输延迟开销扮演了主要角色，小块通信无法充分利用网络带宽。为了获得较大的通信量，以提升通信效率，我们引入了对通信融合的策略。

在该策略中，有几点需要注意的地方。一方面，我们需要合理配置通信融合(也称梯度融合)的规模。融合规模太小，则通信效率不高；融合规模太大，又会耽搁通信操作的启动时机。因此，我们在实现通信融合策略时，让融合大小可以配置，例如通过空运行(dry-run)为每个神经网络模型和平台(例如分布式训练系统)调试出最合适的融合规模。另一方面，在通信融合的原始方案下，通信前要将多个离散存放的小数组合并为一块连续存放的大数组，通信后又要拆解回去，这就引入了两拨内存拷贝，会产生额外的开销。

在一些实施例中，上述至少一个网络层包括至少两个网络层，上述至少两个网络层的目标融合梯度信息按照各自对应的偏移量存储于目标存储空间；第一工作节点在执行步骤203之前，可执行如下操作：上述第一工作节点基于上述第一网络层对应的偏移量，从上述目标存储空间读取上述第一网络层的目标融合梯度信息；或者，在进行上述第一网络层的目标融合梯度信息的传输之后，上述第一工作节点基于接收到的来自于上述至少一个第二工作节点的上述第一网络层的目标融合梯度信息，更新上述目标存储空间存储的上述第一网络层的本地梯度信息。上述目标存储空间可以是第一工作节点预先开辟的一块连续的内存空间。在该实施例中，每个网络层对应一个偏移量，第一工作节点可以按照各网络层各自对应的偏移量将各网络层的目标融合梯度信息存储于目标存储空间。也就是说，目标存储空间能够存储各网络层的目标融合梯度信息，这样减少拷贝内存产生的额外开销。另外，第一工作节点基于接收到的来自于上述至少一个第二工作节点的上述第一网络层的目标融合梯度信息，更新上述目标存储空间存储的上述第一网络层的本地梯度信息；既能及时更新第一网络层的本地梯度信息，又能减少内存开销。

第一工作节点在执行步骤201之后，第一工作节点可执行如下操作：上述第一工作节点基于上述第一网络层对应的偏移量，将计算得到的上述第一网络层的本地梯度信息存储至预先分配的目标存储空间，其中，上述目标存储空间用于存储上述神经网络模型的多个网络层的本地梯度信息；其中，上述第一工作节点发送的上述第一网络层的目标融合梯度信息是基于上述第一网络层对应的偏移量从上述目标存储空间中获取的，和/或，上述第一工作节点基于接收到的来自于上述至少一个第二工作节点的上述第一网络层的目标融合梯度信息，更新上述目标存储空间存储的上述第一网络层的本地梯度信息。在该实施例中，第一工作节点预先给神经网络模型的所有参数梯度(对应于梯度信息)开辟统一的连续内存空间(对应于目标存储空间)，然后通过内存管理器将每个网络层的参数梯度指向对应的偏移量(offset)，从而避免了通信时额外的内存拷贝。

图8为本申请实施例提供的一种通信融合策略的一个示例的示意图。如图8所示，801表示神经网络模型的各网络层，其中，L1表示第一网络层，Ln表示第n网络层；802表示各网络层的目标融合梯度信息，其中，梯度m、梯度(m-1)、…梯度1均表示一个梯度或一个网络层的梯度；803表示合并后的各网络层的目标融合梯度信息，其中，梯度组k、梯度组(k-1)…梯度组1均包括至少两个梯度或至少两个网络层的梯度。本申请实施例中，神经网络模型中的网络层和梯度不是一一对应，有些网络层可以有多个梯度，有些网络层可以无梯度。在一些实施例中，802的每个矩形框(例如梯度m)表示一个网络层的目标融合梯度信息，则第一工作节点每次向其他工作节点传输一个网络层的目标融合梯度信息需要传输m次，第一工作节点每次向其他工作节点传输一个梯度组(例如梯度组k)需要传输k次，k小于m。在一些实施例中，802的每个矩形框(例如梯度m)表示一个参数向量的梯度，则第一工作节点每次向其他工作节点传输一个梯度组(例如梯度组k)需要传输k次。应理解，第一工作节点可将若干个网络层的目标融合梯度信息合并到一块较大的数组，再发起一次全局通信；这样可以减少全局通信信息。

图2和图7中的方法流程可视为一种通信削减策略，通过传输由多次内层迭代得到的本地梯度信息融合得到的目标融合梯度信息，来减少梯度信息的传输次数和总通信量。为进一步提升通信效率，本申请实施例还提供了另一种通信削减策略(即半精度通信)，其原理是，在对参数梯度(即目标融合梯度信息)发起规约通信(allreduce)前，先将其转换为半精度浮点(halffloat)数据，这样其占用的存储空间会比单精度浮点(float)数据减少一半；通信结束后，将规约得到的半精度梯度先转换回单精度，再进行参数更新。下面介绍这种通信削减策略在图2的方法流程中的应用。

在一些实施例中，第一工作节点在执行步骤203之前，可执行如下操作：第一工作节点将上述第一网络层的目标融合梯度信息中的各个数值均放大M倍，并将放大后的各个数值转换为半精度；上述M为大于1的实数。由于半精度浮点数据格式的表示范围远小于单精度浮点数据，所能表示的正数范围为6.1*e-5到65504，而模型的参数梯度往往是很小的值，因此我们在通信前先对梯度进行放大，通信结束后再缩放回来，以减少梯度传递过程中的精度损失。相应的，在该实施例中，第一工作节点还可执行如下操作：第一工作节点将接收到的来自于上述至少一个第二工作节点的目标融合梯度信息中的各个数值转换为单精度，并将得到的各数值缩小M倍以得到参考梯度信息，上述M为大于1的实数；第一工作节点利用上述参考梯度信息更新上述神经网络模型中至少一个网络层的参数。

应理解，通过上述通信削减策略(即半精度通信)可将传输的数据量减少一半，提高通信效率。

前述实施例描述了训练神经网络模型的方法流程。下面介绍应用训练得到的神经网络模型实现预测任务的举例。

图9为本申请实施例提供的一种图像预测方法流程图。如图9所示，该方法包括：

901、图像处理装置获取待处理图像。

上述图像处理装置可以是上述第一工作节点，也可以是其他工作节点，还可以是未参与神经网络模型训练的装置，例如终端设备或服务器。

在一些实施例中，图像处理装置为服务器，图像处理装置获取待处理图像可以是服务器接收到来自终端设备的待处理图像或者按照用户输入的指令从其他设备获取待处理图像。

在一些实施例中，图像处理装置为服务器，图像处理装置获取待处理图像可以是获取用户上传的待处理图像或者按照用户输入的指令从其他设备获取待处理图像。

902、利用训练得到的神经网络模型对上述待处理图像进行预测处理，得到预测结果。

上述神经网络模型可以是采用前述实施例中的方法训练得到的。应理解，图7为应用神经网络模型的一个示例。采用前述实施例中的训练方法训练得到的神经网络模型可处理不同的预测任务，例如文本识别、图像识别、图像分类等。

在一些实施例中，图像处理装置为服务器，图像处理装置在执行步骤902之后，还可以将预测结果发送给终端设备，例如手机、个人电脑等。

在一些实施例中，图像处理装置为终端设备，图像处理装置在执行步骤902之后，还可以输出预测结果，例如通过显示屏显示预测结果。

本申请实施例中，利用训练得到的神经网络模型对待处理图像进行预测处理，得到预测结果；可高效的实现不同的图像预测任务。

前述实施例描述了第一工作节点实现的神经网络模型的训练方法。下面结合附图介绍第一工作节点的各模块的功能。

图10为本申请实施例提供的一种数据处理装置的结构示意图。图10中的数据处理装置可以为前述实施例中的第一工作节点。如图10所示，数据处理装置可包括：

处理模块1001，用于对神经网络模型进行多次内层迭代，得到多组本地梯度信息；其中，每组本地梯度信息包含对应的内层迭代中得到的上述神经网络模型的至少一个网络层的本地梯度信息；

处理模块1001，还用于基于上述多组本地梯度信息，得到上述至少一个网络层中的第一网络层的目标融合梯度信息；

收发模块1002，用于与至少一个第二工作节点进行上述第一网络层的目标融合梯度信息的传输。

在一些实施例中，处理模块1001可以是CPU、GPU、NPU等处理器，收发模块802可以具体数据收发功能的收发器。

在一个可能的实现方式中，处理模块1001，具体用于对上述多组本地梯度信息中分别包括的上述第一网络层的本地梯度信息进行累加处理，得到上述第一网络层的目标融合梯度信息。

在一个可能的实现方式中，上述多次内层迭代包括第一内层迭代和在上述第一内层迭代之前进行的至少一次第二内层迭代；

处理单元1001，具体用于在进行上述第一内层迭代的过程中，基于上述多组本地梯度信息中分别包含的上述第一网络层的本地梯度信息，得到上述第一网络层的目标融合梯度信息；或者

处理单元1001，具体用于响应于上述第一工作节点在上述第一内层迭代的过程中得到上述第一网络层的本地梯度信息，基于上述多组本地梯度信息中分别包括的上述第一网络层的本地梯度信息，得到上述第一网络层的目标融合梯度信息。

在一个可能的实现方式中，处理单元1001，具体用于获取上述第一网络层的初始融合梯度信息，其中，上述第一网络层的初始融合梯度信息是基于上述至少一次第二内层迭代中得到的至少一组本地梯度信息中包含的上述第一网络层的本地梯度信息得到的；

对上述初始融合梯度信息和上述第一内层迭代中得到的上述第一网络层的本地梯度信息进行处理，得到上述第一网络层的目标融合梯度信息。

在一个可能的实现方式中，在上述至少一次第二内层迭代为至少两次第二内层迭代的情况下，上述第一网络层的初始融合梯度信息是通过对上述至少两次第二内层迭代中得到的至少两组本地梯度信息中包含的上述第一网络层的本地梯度信息进行逐次迭代融合得到的。

在一个可能的实现方式中，处理模块1001，具体用于从目标存储空间获取上述第一网络层的初始融合梯度信息；其中，上述目标存储空间用于存储上述神经网络模型的多个网络层的本地梯度信息；

处理模块1001，还用于将上述目标存储空间存储的上述第一网络层的本地梯度信息由上述初始融合梯度信息更新为上述目标融合梯度信息。

在一个可能的实现方式中，上述至少一个网络层包括至少两个网络层；

处理模块1001，还用于在进行上述第一网络层的目标融合梯度信息的传输之前，上述第一工作节点基于上述第一网络层对应的偏移量，从上述目标存储空间读取上述第一网络层的目标融合梯度信息；或者，在进行上述第一网络层的目标融合梯度信息的传输之后，上述第一工作节点基于接收到的来自于上述至少一个第二工作节点的上述第一网络层的目标融合梯度信息，更新上述目标存储空间存储的上述第一网络层的本地梯度信息。

在一个可能的实现方式中，处理模块1001，具体用于在计算上述神经网络模型的第二网络层的本地梯度信息的过程中，与上述至少一个第二工作节点进行上述第一网络层的目标融合梯度信息的传输，其中，上述第二网络层的网络深度小于上述第一网络层的网络深度。

在一个可能的实现方式中，处理模块1001，具体用于在更新上述神经网络模型的第三网络层的参数的过程中，与上述至少一个第二工作节点进行上述第一网络层的目标融合梯度信息的传输，其中，上述第三网络层的网络深度大于上述第一网络层的网络深度。

在一个可能的实现方式中，处理模块1001，还用于将上述第一网络层的目标融合梯度信息中的各个数值均放大M倍，并将放大后的各个数值转换为半精度；上述M为大于1的实数。

在一个可能的实现方式中，处理模块1001，还用于将接收到的来自于上述至少一个第二工作节点的目标融合梯度信息中的各个数值转换为单精度，并将得到的各数值缩小M倍以得到参考梯度信息，上述M为大于1的实数；利用上述参考梯度信息更新上述神经网络模型中至少一个网络层的参数。

图11为本申请实施例提供的另一种数据处理装置的结构示意图。如图11所示，该数据处理装置，包括：

获取模块1101，用于获取待处理图像；

处理模块1102，用于利用训练得到的神经网络模型对上述待处理图像进行预测处理，得到预测结果。

应理解以上数据处理装置的各个单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。例如，以上各个单元可以为单独设立的处理元件，也可以集成同一个芯片中实现，此外，也可以以程序代码的形式存储于控制器的存储元件中，由处理器的某一个处理元件调用并执行以上各个单元的功能。此外各个单元可以集成在一起，也可以独立实现。这里的处理元件可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。该处理元件可以是通用处理器，例如CPU，还可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(英文：application-specific integrated circuit，简称：ASIC)，或，一个或多个微处理器(英文：digital signal processor，简称：DSP)，或，一个或者多个现场可编程门阵列(英文：field-programmable gate array，简称：FPGA)等。

图12是本申请实施例提供的一种服务器的结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)，一个或一个以上加速设备(例如GPU或NPU)1224。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。加速设备1224可执行中央处理器1222分配的任务，例如图像处理任务。服务器1200可以为本申请实施例提供的数据处理装置。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由数据处理装置所执行的步骤可以基于该图12所示的服务器结构。具体的，加速设备1224可实现图10中处理模块1001的功能，有线或无线网络接口1250可实现图10中收发模块1002的功能。具体的，加速设备1224可实现图11中处理模块1102的功能，有线或无线网络接口1250或者输入输出接口1258可实现图11中获取模块1101的功能。

图13为本申请实施例提供的一种终端设备的结构示意图。如图13所示，该终端设备130包括处理器1301、存储器1302和通信接口1303；该处理器1301、存储器1302和通信接口1303通过总线相互连接。图13中的终端设备可以为前述实施例中的数据处理装置。

存储器1302包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmablereadonly memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CDROM)，该存储器1302用于相关指令及数据。通信接口1303用于接收和发送数据。

处理器1301可以包括一个或多个CPU以及一个或多个GPU，在处理器1301包括一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。上述实施例中由数据处理装置所执行的步骤可以基于该图13所示的终端设备的结构。具体的，处理器1301可实现图10中处理模块1001的功能，通信接口1303可实现图10中收发模块1002的功能。具体的，处理器1301可实现图11中处理模块1102的功能，通信接口1303可实现图11中获取模块1101的功能。

在本申请的实施例中提供一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现前述实施例所提供的神经网络模型的训练方法。

在本申请的实施例中提供一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现前述实施例所提供的图像预测方法。

本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述实施例所提供的神经网络模型的训练方法。

本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述实施例所提供的图像预测方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种神经网络模型的训练方法，其特征在于，包括：

第一工作节点对神经网络模型进行多次内层迭代，得到多组本地梯度信息；其中，每组本地梯度信息包含对应的内层迭代中得到的所述神经网络模型的至少一个网络层的本地梯度信息；

所述第一工作节点基于所述多组本地梯度信息，得到所述至少一个网络层中的第一网络层的目标融合梯度信息；

所述第一工作节点与至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输。

2.根据权利要求1所述的方法，其特征在于，所述第一工作节点基于所述多组本地梯度信息，得到所述至少一个网络层中的第一网络层的目标融合梯度信息包括：

所述第一工作节点对所述多组本地梯度信息中分别包括的所述第一网络层的本地梯度信息进行累加处理，得到所述第一网络层的目标融合梯度信息。

3.根据权利要求1或2所述的方法，其特征在于，所述多次内层迭代包括第一内层迭代和在所述第一内层迭代之前进行的至少一次第二内层迭代；

所述第一工作节点基于所述多组本地梯度信息，得到所述至少一个网络层中的第一网络层的目标融合梯度信息，包括：

所述第一工作节点在进行所述第一内层迭代的过程中，基于所述多组本地梯度信息中分别包含的所述第一网络层的本地梯度信息，得到所述第一网络层的目标融合梯度信息；或者

响应于所述第一工作节点在所述第一内层迭代的过程中得到所述第一网络层的本地梯度信息，基于所述多组本地梯度信息中分别包括的所述第一网络层的本地梯度信息，得到所述第一网络层的目标融合梯度信息。

4.根据权利要求3所述的方法，其特征在于，所述基于所述多组本地梯度信息中分别包含的所述第一网络层的本地梯度信息，得到所述第一网络层的目标融合梯度信息，包括：

获取所述第一网络层的初始融合梯度信息，其中，所述第一网络层的初始融合梯度信息是基于所述至少一次第二内层迭代中得到的至少一组本地梯度信息中包含的所述第一网络层的本地梯度信息得到的；

对所述初始融合梯度信息和所述第一内层迭代中得到的所述第一网络层的本地梯度信息进行处理，得到所述第一网络层的目标融合梯度信息。

5.根据权利要求4所述的方法，其特征在于，

在所述至少一次第一内层迭代为至少两次第一内层迭代的情况下，所述第一网络层的初始融合梯度信息是通过对所述至少两次第一内层迭代中得到的至少两组本地梯度信息中包含的所述第一网络层的本地梯度信息进行逐次迭代融合得到的。

6.根据权利要求4或5所述的方法，其特征在于，所述获取所述第一网络层的初始融合梯度信息，包括：

从目标存储空间获取所述第一网络层的初始融合梯度信息；其中，所述目标存储空间用于存储所述神经网络模型的多个网络层的本地梯度信息；

在得到所述第一网络层的目标融合梯度信息之后，所述方法还包括：

将所述目标存储空间存储的所述第一网络层的本地梯度信息由所述初始融合梯度信息更新为所述目标融合梯度信息。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述至少一个网络层包括至少两个网络层，所述至少两个网络层的目标融合梯度信息按照各自对应的偏移量存储于目标存储空间；

所述方法还包括：在进行所述第一网络层的目标融合梯度信息的传输之前，所述第一工作节点基于所述第一网络层对应的偏移量，从所述目标存储空间读取所述第一网络层的目标融合梯度信息；或者，在进行所述第一网络层的目标融合梯度信息的传输之后，所述第一工作节点基于接收到的来自于所述至少一个第二工作节点的所述第一网络层的目标融合梯度信息，更新所述目标存储空间存储的所述第一网络层的本地梯度信息。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述第一工作节点与至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输包括：

所述第一工作节点在计算所述神经网络模型的第二网络层的本地梯度信息的过程中，与所述至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输，其中，所述第二网络层的网络深度小于所述第一网络层的网络深度。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述第一工作节点与至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输包括：

所述第一工作节点在更新所述神经网络模型的第三网络层的参数的过程中，与所述至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输，其中，所述第三网络层的网络深度大于所述第一网络层的网络深度。

10.根据权利要求1至9任一项所述的方法，其特征在于，所述第一工作节点与至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输之前，所述方法还包括：

所述第一工作节点将所述第一网络层的目标融合梯度信息中的各个数值均放大M倍，并将放大后的各个数值转换为半精度；所述M为大于1的实数。

11.根据权利要求1至10任一项所述的方法，其特征在于，所述方法还包括：

所述第一工作节点将接收到的来自于所述至少一个第二工作节点的目标融合梯度信息中的各个数值转换为单精度，并将得到的各数值缩小M倍以得到参考梯度信息，所述M为大于1的实数；

所述第一工作节点利用所述参考梯度信息更新所述神经网络模型中至少一个网络层的参数。

12.一种图像预测方法，其特征在于，包括：

获取待处理图像；

利用权利要求1至11任一项训练得到的神经网络模型对所述待处理图像进行预测处理，得到预测结果。

13.一种数据处理装置，其特征在于，包括：

处理模块，用于对神经网络模型进行多次内层迭代，得到多组本地梯度信息；其中，每组本地梯度信息包含对应的内层迭代中得到的所述神经网络模型的至少一个网络层的本地梯度信息；

所述处理模块，还用于基于所述多组本地梯度信息，得到所述至少一个网络层中的第一网络层的目标融合梯度信息；

收发模块，用于与至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输。

14.根据权利要求13所述的数据处理装置，其特征在于，

所述处理模块，具体用于对所述多组本地梯度信息中分别包括的所述第一网络层的本地梯度信息进行累加处理，得到所述第一网络层的目标融合梯度信息。

15.根据权利要求13或14所述的数据处理装置，其特征在于，所述多次内层迭代包括第一内层迭代和在所述第一内层迭代之前进行的至少一次第二内层迭代；

所述处理单元，具体用于在进行所述第一内层迭代的过程中，基于所述多组本地梯度信息中分别包含的所述第一网络层的本地梯度信息，得到所述第一网络层的目标融合梯度信息；或者

所述处理单元，具体用于响应于所述第一工作节点在所述第一内层迭代的过程中得到所述第一网络层的本地梯度信息，基于所述多组本地梯度信息中分别包括的所述第一网络层的本地梯度信息，得到所述第一网络层的目标融合梯度信息。

16.根据权利要求15所述的数据处理装置，其特征在于，

所述处理单元，具体用于获取所述第一网络层的初始融合梯度信息，其中，所述第一网络层的初始融合梯度信息是基于所述至少一次第二内层迭代中得到的至少一组本地梯度信息中包含的所述第一网络层的本地梯度信息得到的；

17.根据权利要求16所述的数据处理装置，其特征在于，在所述至少一次第二内层迭代为至少两次第二内层迭代的情况下，所述第一网络层的初始融合梯度信息是通过对所述至少两次第二内层迭代中得到的至少两组本地梯度信息中包含的所述第一网络层的本地梯度信息进行逐次迭代融合得到的。

18.根据权利要求16或17所述的数据处理装置，其特征在于，

所述处理模块，具体用于从目标存储空间获取所述第一网络层的初始融合梯度信息；其中，所述目标存储空间用于存储所述神经网络模型的多个网络层的本地梯度信息；

所述处理模块，还用于将所述目标存储空间存储的所述第一网络层的本地梯度信息由所述初始融合梯度信息更新为所述目标融合梯度信息。

19.根据权利要求13至18任一项所述的数据处理装置，其特征在于，所述至少一个网络层包括至少两个网络层；

所述处理模块，还用于在进行所述第一网络层的目标融合梯度信息的传输之前，所述第一工作节点基于所述第一网络层对应的偏移量，从所述目标存储空间读取所述第一网络层的目标融合梯度信息；或者，在进行所述第一网络层的目标融合梯度信息的传输之后，所述第一工作节点基于接收到的来自于所述至少一个第二工作节点的所述第一网络层的目标融合梯度信息，更新所述目标存储空间存储的所述第一网络层的本地梯度信息。

20.根据权利要求13至19任一项所述的数据处理装置，其特征在于，

所述处理模块，具体用于在计算所述神经网络模型的第二网络层的本地梯度信息的过程中，与所述至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输，其中，所述第二网络层的网络深度小于所述第一网络层的网络深度。

21.根据权利要求13至20任一项所述的数据处理装置，其特征在于，

所述处理模块，具体用于在更新所述神经网络模型的第三网络层的参数的过程中，与所述至少一个第二工作节点进行所述第一网络层的目标融合梯度信息的传输，其中，所述第三网络层的网络深度大于所述第一网络层的网络深度。

22.根据权利要求13至21任一项所述的数据处理装置，其特征在于，

所述处理模块，还用于将所述第一网络层的目标融合梯度信息中的各个数值均放大M倍，并将放大后的各个数值转换为半精度；所述M为大于1的实数。

23.根据权利要求13至22任一项所述的数据处理装置，其特征在于，

所述处理模块，还用于将接收到的来自于所述至少一个第二工作节点的目标融合梯度信息中的各个数值转换为单精度，并将得到的各数值缩小M倍以得到参考梯度信息，所述M为大于1的实数；利用所述参考梯度信息更新所述神经网络模型中至少一个网络层的参数。

24.一种数据处理装置，其特征在于，包括：

获取模块，用于获取待处理图像；

处理模块，用于利用权利要求1至11任一项训练得到的神经网络模型对所述待处理图像进行预测处理，得到预测结果。

25.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被移动设备的处理器执行时，使所述处理器执行权利要求1至12任意一项所述的方法。

26.一种电子设备，其特征在于，包括存储器和处理器，其中，所述存储器用于存储指令，所述处理器用于执行所述存储器存储的指令，使得所述处理器执行如权利要求1至12任一项所述的方法。