CN114912587B

CN114912587B - 神经网络分布式训练系统、方法、装置、计算单元及介质

Info

Publication number: CN114912587B
Application number: CN202210652215.6A
Authority: CN
Inventors: 吴长平; 李华毅; 张亚林
Original assignee: Shanghai Enflame Technology Co ltd
Current assignee: Shanghai Suiyuan Technology Co ltd
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2023-05-26
Anticipated expiration: 2042-06-09
Also published as: CN114912587A

Abstract

本发明公开了神经网络分布式训练系统、方法、装置、计算单元及介质。该系统包括：神经网络芯片和主机；神经网络芯片包括多个计算单元，各计算单元上分别设置有内存屏障；各计算单元，用于根据数据分片进行前向传播计算，得到单机代价函数；根据单机代价函数计算与单机代价函数匹配的梯度分区；在满足内存屏障释放时机时，将梯度分区发送至主机；主机，用于对接收到的全部计算单元的梯度分区进行全局梯度规约，并将得到的全局梯度反馈至各计算单元；各计算单元，还用于根据接收的全局梯度，更新单机计算参数。通过本发明的技术方案，能够减小神经网络芯片和主机之间的梯度状态同步时间，提高了分布式训练的效率。

Description

神经网络分布式训练系统、方法、装置、计算单元及介质

技术领域

本发明涉及分布式训练技术领域，尤其涉及神经网络分布式训练系统、方法、装置、计算单元及介质。

背景技术

由于神经网络的分布式训练使得训练复杂的神经网络，以及利用大规模训练数据集训练神经网络成为可能，因此，神经网络分布式训练在神经网络领域十分重要。

然而，由于现有的神经网络分布式训练在神经网络芯片和主机之间会存在梯度状态同步时间，该梯度状态同步时间的存在会影响分布式训练的整体性能。因此，如何减小神经网络芯片和主机之间的梯度状态同步时间，提高分布式训练的效率，是目前亟待解决的问题。

发明内容

本发明提供了一种神经网络分布式训练系统、方法、装置、计算单元及介质，可以减小神经网络芯片和主机之间的梯度状态同步时间，提高分布式训练的效率。

根据本发明的一方面，提供了一种神经网络分布式训练系统，包括：神经网络芯片和主机；神经网络芯片包括多个计算单元，各计算单元上分别设置有内存屏障；

各计算单元，用于根据数据分片进行前向传播计算，得到单机代价函数；根据单机代价函数计算与单机代价函数匹配的梯度分区；在满足内存屏障释放时机时，将梯度分区发送至主机；

主机，用于对接收到的全部计算单元的梯度分区进行全局梯度规约，得到全局梯度，并将全局梯度反馈至各计算单元；

各计算单元，还用于根据接收的全局梯度，对单机计算参数进行更新；

其中，内存屏障释放时机用于控制各计算单元在全部计算单元均完成梯度分区的计算后，向主机发送梯度分区。

根据本发明的另一方面，提供了一种神经网络分布式训练方法，由如本发明任一实施例所述的神经网络分布式训练系统中的计算单元执行，该方法包括：

根据数据分片进行前向传播计算，得到单机代价函数；

根据单机代价函数计算与单机代价函数匹配的梯度分区；

在满足内存屏障释放时机时，将梯度分区发送至主机；

接收主机反馈的全局梯度，根据全局梯度对单机计算参数进行更新；

根据本发明的另一方面，提供了一种神经网络分布式训练装置，该装置包括：

前向计算模块，用于根据数据分片进行前向传播计算，得到单机代价函数；

反向计算模块，用于根据单机代价函数计算与单机代价函数匹配的梯度分区；

数据发送模块，用于在满足内存屏障释放时机时，将梯度分区发送至主机；

参数更新模块，用于接收主机反馈的全局梯度，根据全局梯度对单机计算参数进行更新；

根据本发明的另一方面，提供了一种计算单元，所述计算单元包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的神经网络分布式训练方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的神经网络分布式训练方法。

本发明实施例的技术方案，通过各计算单元，根据数据分片进行前向传播计算，得到单机代价函数；并根据单机代价函数计算与单机代价函数匹配的梯度分区；在满足内存屏障释放时机时，将梯度分区发送至主机；通过主机，对接收到的全部计算单元的梯度分区进行全局梯度规约，得到全局梯度，并将全局梯度反馈至各计算单元；再通过各计算单元，根据接收的全局梯度，对单机计算参数进行更新，解决了现有技术中分布式训练的效率较低的问题，可以减小神经网络芯片和主机之间的梯度状态同步时间，提高分布式训练的效率。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是现有技术提供的一种神经网络分布式训练过程的示意图；

图1b是现有技术提供的一种神经网络分布式训练过程的流程示意图；

图1c是现有技术提供的一种梯度状态同步过程的流程示意图；

图2是本发明实施例一提供的一种神经网络分布式训练系统的结构示意图；

图3a是本发明实施例二提供的一种神经网络分布式训练方法的流程图；

图3b是本发明实施例二提供的一种神经网络分布式训练方法的流程示意图；

图4是本发明实施例三提供的一种神经网络分布式训练装置的结构示意图；

图5是实现本发明实施例的神经网络分布式训练方法的计算单元的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“首次”、“当前”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1a所示为现有技术中的神经网络分布式训练过程的示意图；其中，主要分为分片数据加载阶段、前向传播计算阶段、反向传播计算阶段、梯度状态同步阶段、全局梯度规约阶段以及参数更新阶段。如图1b所示为现有技术中的神经网络分布式训练过程的流程示意图；具体的，在分片数据加载阶段，将数据进行分片并分别加载至各计算单元1～N；在前向传播计算阶段，各计算单元1～N进行前向传播计算得到各自对应的损失值；在反向传播计算阶段，各计算单元1～N进行反向传播计算得到各自对应的梯度分区；在梯度状态同步阶段，进行训练加速卡与主机之间的梯度分区状态同步，确保让主机知道该梯度分区确实是生成的；在全局梯度规约阶段，主机收到梯度分区已生成的状态信息，发起全局梯度规约操作，合并所有训练加速卡上的梯度分区，生成全局梯度；在参数更新阶段，将全局梯度参数更新到各计算单元1～N上，同时结合新输入的数据分片，重新开始新一轮的分布式神经网络训练。

由此可知，现有技术中的神经网络分布式训练，在各计算单元通过反向传播计算梯度分区后，不是马上进入全局梯度规约阶段的，如果结束反向传播计算阶段后直接进入全局梯度规约阶段，此时某些计算单元内的梯度状态可能不是已生成的，将会影响最终训练结果的准确性。如图1c所示为现有技术中的梯度状态同步过程的流程示意图；具体的，先将梯度状态以事件的形式从训练加速卡的内存里读取到主机内存，之后，主机会发起查询这个梯度状态的操作，如果这个梯度状态被确定是生成的，那么这个梯度就可以参与全局梯度规约操作；如果查询发现这个梯度状态没有生成，那么继续执行将梯度状态以事件的形式从训练加速卡的内存里读取到主机内存的操作，直至该梯度状态是生成的为止。

然而，现有的以事件轮询机制为中心的梯度状态同步过程，每个梯度状态都需要执行一次或多次的设备到主机的事件数据复制操作，使得分布式训练的效率降低。因此，为减小神经网络芯片和主机之间的梯度状态同步时间，提高分布式训练的效率，本发明实施例提出了一种神经网络分布式训练系统。

实施例一

图2为本发明实施例一提供的一种神经网络分布式训练系统的结构示意图。如图2所示，该系统包括：神经网络芯片110和主机120；神经网络芯片包括多个计算单元130，各计算单元130上分别设置有内存屏障；

各计算单元130，用于根据数据分片进行前向传播计算，得到单机代价函数；根据单机代价函数计算与单机代价函数匹配的梯度分区；在满足内存屏障释放时机时，将梯度分区发送至主机120；

主机120，用于对接收到的全部计算单元130的梯度分区进行全局梯度规约，得到全局梯度，并将全局梯度反馈至各计算单元130；

各计算单元130，还用于根据接收的全局梯度，对单机计算参数进行更新；

其中，内存屏障释放时机用于控制各计算单元130在全部计算单元均完成梯度分区的计算后，向主机发送梯度分区。

在本发明实施例中，神经网络芯片110可以指包含多个计算单元的神经网络架构芯片，示例性的，可以为专用领域架构(Domain Specific Architecture，DSA)芯片。

计算单元130，可以指参与神经网络计算的单元，示例性的，若在数据并行模式下的分布式神经网络训练场景中，计算单元130可以参与数据加载、前向传播计算、反向传播计算、全局梯度规约以及参数更新。

单机代价函数可以指单一计算单元130根据数据分片前向传播计算后得到的代价函数。

内存屏障可以指预先设置在各计算单元130中，用于将各计算单元130与主机120之间进行隔离的全局屏障机制。示例性的，可以在反向传播计算与全局梯度规约操作之间加入内存屏障；通过内存屏障可以在各计算单元130均完成反向传播计算后，无需执行梯度状态同步的操作，直接将梯度分区发送至主机。

内存屏障释放时机可以指设置在各计算单元中的内存屏障结束屏障机制的时机，示例性的，可以为各计算单元130均完成梯度分区的计算后，向主机发送梯度分区的时机。

全局梯度规约可以指将全部梯度分区进行合并处理的规约。全局梯度可以指将全部梯度分区合并后生成的梯度。

本发明实施例的技术方案，通过各计算单元130，根据数据分片进行前向传播计算，得到单机代价函数；并根据单机代价函数计算与单机代价函数匹配的梯度分区；在满足内存屏障释放时机时，将梯度分区发送至主机120；通过主机120，对接收到的全部计算单元130的梯度分区进行全局梯度规约，得到全局梯度，并将全局梯度反馈至各计算单元130；再通过各计算单元130，根据接收的全局梯度，对单机计算参数进行更新，解决了现有技术中分布式训练的效率较低的问题，可以减小神经网络芯片和主机之间的梯度状态同步时间，提高分布式训练的效率。

可选的，神经网络分布式训练系统为数据并行模式。

可选的，各计算单元130在每轮训练计算得到梯度分区之前，预先将本计算单元130的梯度状态设置为未处理状态；各计算单元130在每轮训练计算得到梯度分区之后，将本计算单元130的梯度状态修改为完成状态。

在本发明实施例中，本计算单元可以指当前正要进行梯度分区计算的计算单元。梯度状态可以指对梯度分区计算程度进行评估的状态，示例性的，可以分为完成状态或未处理状态。未处理状态可以指当前计算单元130未进行梯度分区计算的状态。完成状态可以指当前计算单元130已完成梯度分区计算的状态。由此，通过在计算得到梯度分区之前，将各计算单元130的梯度状态设置为未处理状态，可以避免其余轮次梯度状态结果对当前轮次梯度分区计算的影响；在计算得到梯度分区之后，将本计算单元130的梯度状态修改为完成状态，避免了事件轮询机制所带来的事件数据从各计算单元复制到主机内存的时间，从而极大的提高了分布式神经网络训练的效率。

可选的，预先获取神经网络芯片中各计算单元130的个数；其中，神经网络芯片中各计算单元的个数用于设定目标计数器。

在本发明实施例中，目标计数器可以指用于对处于完成状态的计算单元130的个数进行计数操作的计数器。由此，可以清晰地对处于完成状态的计算单元130的个数进行了解，为内存屏障释放时机提供了有效的基础，保证了内存屏障释放时机的准确性。

实施例二

图3a为本发明实施例二提供了一种神经网络分布式训练方法的流程图，本实施例可适用于对神经网络进行分布式训练的情况，该方法可以由神经网络分布式训练装置来执行，该神经网络分布式训练装置可以采用硬件和/或软件的形式实现，该神经网络分布式训练装置可配置于神经网络分布式训练系统中的计算单元中。如图3a所示，该方法包括：

S210、根据数据分片进行前向传播计算，得到单机代价函数。

具体的，各计算单元分别利用加载的数据分片进行前向传播计算，并得到各计算单元对应的代价函数，作为单机代价函数。

S220、根据单机代价函数计算与单机代价函数匹配的梯度分区。

在一个可选的实施方式中，在根据单机代价函数计算与单机代价函数匹配的梯度分区之后，还包括：将本计算单元的梯度状态由未处理状态修改为完成状态。

具体的，在每轮训练计算得到梯度分区之后，各计算单元可以将本计算单元的梯度状态由未处理状态修改为完成状态，为后续对完成状态的计算单元个数进行统计提供了有效的基础。

S230、在满足内存屏障释放时机时，将梯度分区发送至主机。

在一个可选的实施方式中，在满足内存屏障释放时机时，将梯度分区发送至主机，包括：根据获取神经网络芯片中各计算单元的个数，设定目标计数器；在检测到本计算单元的梯度状态为完成状态时，将目标计数器的数目减一；待目标计数器的数目清零时，将梯度分区发送至主机。

具体的，根据神经网络芯片中计算单元的个数设定同等计数大小的计数器，并对处于完成状态的计算单元的个数进行检测，同时，根据处于完成状态的计算单元的个数对目标计数器的数目进行减一处理，直至目标计数器的数目清零，则证明所有的计算单元的梯度状态均为完成状态，即各计算单元均完成了梯度分区的计算，可以将所有的梯度分区直接发送至主机，进行后续的操作。减少了事件轮询机制带来的事件数据在计算单元与主机之间复制的时间，提高了神经网络分布式训练的效率。

值得注意的是，在本计算单元的梯度状态为完成状态，而其余计算单元的梯度状态为未处理状态时，本计算单元处于等待内存屏障释放的状态，直至所有的计算单元均完成梯度分区计算之后，统一将所有的梯度分区直接发送至主机。

S240、接收主机反馈的全局梯度，根据全局梯度对单机计算参数进行更新；其中，内存屏障释放时机用于控制各计算单元在全部计算单元均完成梯度分区的计算后，向主机发送梯度分区。

本发明实施例的技术方案，通过数据分片进行前向传播计算得到单机代价函数；之后，根据单机代价函数计算与单机代价函数匹配的梯度分区；在满足内存屏障释放时机时，将梯度分区发送至主机；最后，根据主机反馈的全局梯度对单机计算参数进行更新，解决了现有技术中分布式训练的效率较低的问题，可以减小神经网络芯片和主机之间的梯度状态同步时间，提高分布式训练的效率。

图3b所示为本发明实施例提供的一种神经网络分布式训练方法的流程示意图；具体的，在神经网络芯片内，在反向传播计算与全局梯度规约操作之间，为各个计算单元打下一个全局的内存屏障。在发起全局规约之前，通过内存屏障机制确保神经网络芯片内所有的计算单元的反向传播计算是完成的，如果没有完成，则基于内存屏障机制等待至完成为止。当所有计算单元的反向传播计算都完成后，神经网络芯片内各计算单元的梯度状态即均为完成状态；直接可以将梯度分区发送至主机，并根据主机反馈的全局梯度对单机计算参数进行更新。

实施例三

图4为本发明实施例三提供的一种神经网络分布式训练装置的结构示意图。如图4所示，该装置包括：前向计算模块310、反向计算模块320、数据发送模块330以及参数更新模块340；

其中，前向计算模块310，用于根据数据分片进行前向传播计算，得到单机代价函数；

反向计算模块320，用于根据单机代价函数计算与单机代价函数匹配的梯度分区；

数据发送模块330，用于在满足内存屏障释放时机时，将梯度分区发送至主机；

参数更新模块340，用于接收主机反馈的全局梯度，根据全局梯度对单机计算参数进行更新；

可选的，神经网络分布式训练装置还可以包括状态修改模块，用于在根据单机代价函数计算与单机代价函数匹配的梯度分区之后，将本计算单元的梯度状态由未处理状态修改为完成状态。

可选的，数据发送模块330，具体可以用于：根据获取神经网络芯片中各计算单元的个数，设定目标计数器；在检测到本计算单元的梯度状态为完成状态时，将目标计数器的数目减一；待目标计数器的数目清零时，将梯度分区发送至主机。

本发明实施例所提供的神经网络分布式训练装置可执行本发明任意实施例所提供的神经网络分布式训练方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5为本发明实施例四提供的一种计算单元的结构示意图，如图5所示，该计算单元包括处理器410、存储器420、输入装置430和输出装置440；计算单元中处理器410的数量可以是一个或多个，图5中以一个处理器410为例；计算单元中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的神经网络分布式训练方法对应的程序指令/模块(例如，神经网络分布式训练装置中的前向计算模块310、反向计算模块320、数据发送模块330以及参数更新模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行计算单元的各种功能应用以及数据处理，即实现上述的神经网络分布式训练方法。

该方法包括：

根据数据分片进行前向传播计算，得到单机代价函数；

根据单机代价函数计算与单机代价函数匹配的梯度分区；

在满足内存屏障释放时机时，将梯度分区发送至主机；

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至计算单元。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与计算单元的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种神经网络分布式训练方法，该方法包括：

根据数据分片进行前向传播计算，得到单机代价函数；

根据单机代价函数计算与单机代价函数匹配的梯度分区；

在满足内存屏障释放时机时，将梯度分区发送至主机；

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的神经网络分布式训练方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述神经网络分布式训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种神经网络分布式训练系统，其特征在于，包括：神经网络芯片和主机；神经网络芯片包括多个计算单元，各计算单元上分别设置有内存屏障；

其中，内存屏障释放时机用于控制各计算单元在全部计算单元均完成梯度分区的计算后，向主机发送梯度分区；

其中，预先获取神经网络芯片中各计算单元的个数；神经网络芯片中各计算单元的个数用于设定目标计数器；目标计数器指用于对处于完成状态的计算单元的个数进行计数操作的计数器。

2.根据权利要求1所述的系统，其特征在于，神经网络分布式训练系统为数据并行模式。

3.根据权利要求1所述的系统，其特征在于，各计算单元在每轮训练计算得到梯度分区之前，预先将本计算单元的梯度状态设置为未处理状态；各计算单元在每轮训练计算得到梯度分区之后，将本计算单元的梯度状态修改为完成状态。

4.一种神经网络分布式训练方法，由如权利要求1-3任一项所述的神经网络分布式训练系统中的计算单元执行，其特征在于，包括：

根据数据分片进行前向传播计算，得到单机代价函数；

根据单机代价函数计算与单机代价函数匹配的梯度分区；

在满足内存屏障释放时机时，将梯度分区发送至主机；

其中，在满足内存屏障释放时机时，将梯度分区发送至主机，包括：

根据获取神经网络芯片中各计算单元的个数，设定目标计数器；

在检测到本计算单元的梯度状态为完成状态时，将目标计数器的数目减一；

待目标计数器的数目清零时，将梯度分区发送至主机。

5.根据权利要求4所述的方法，其特征在于，在根据单机代价函数计算与单机代价函数匹配的梯度分区之后，还包括：

将本计算单元的梯度状态由未处理状态修改为完成状态。

6.一种神经网络分布式训练装置，其特征在于，包括：

其中，数据发送模块具体用于：根据获取神经网络芯片中各计算单元的个数，设定目标计数器；在检测到本计算单元的梯度状态为完成状态时，将目标计数器的数目减一；待目标计数器的数目清零时，将梯度分区发送至主机。

7.一种计算单元，其特征在于，所述计算单元包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求4-5中任一项所述的神经网络分布式训练方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求4-5中任一项所述的神经网络分布式训练方法。