CN110135581A

CN110135581A - 用于执行人工神经网络反向运算的装置和方法

Info

Publication number: CN110135581A
Application number: CN201910374850.0A
Authority: CN
Inventors: 刘少礼; 郭崎; 陈云霁; 陈天石
Original assignee: Beijing Zhongke Cambrian Technology Co Ltd
Current assignee: Cambricon Technologies Corp Ltd; Beijing Zhongke Cambrian Technology Co Ltd
Priority date: 2016-01-20
Filing date: 2016-01-20
Publication date: 2019-08-16
Anticipated expiration: 2036-01-20
Also published as: CN110135581B; KR20180102058A; CN111353588B; US20180322392A1; EP3940606A1; CN106991478B; US20190294971A1; US10713567B2; WO2017124641A1; EP3407268A4; CN106991478A; CN111353588A; EP3407268A1; US10713568B2; KR102175044B1

Abstract

本申请涉及一种用于执行人工神经网络反向运算的装置，所述装置包括控制器单元、主运算模块、数据通路模块以及从运算模块，使用该装置可以实现多层人工神经网络的反向训练。对于每一层来说，首先对输入梯度向量进行加权求和计算出本层的输出梯度向量，然后该输出梯度向量乘以下一层在正向运算时的激活函数的导数值可以得到下一层的输入梯度向量，之后将输入梯度向量与正向运算时的输入神经元对位相乘得到本层权值的梯度，然后可以根据所得到的本层权值的梯度来更新本层的权值。

Description

用于执行人工神经网络反向运算的装置和方法

本申请是针对申请号为：201610039032.1(发明创造名称：用于执行人工神经网络反向训练的装置和方法，申请日：2016年1月20日)提出的分案申请。

技术领域

本申请涉及人工神经网络技术领域，特别是涉及一种用于执行人工神经网络反向运算的装置和方法、用于执行人工神经网络反向训练的装置和方法。

背景技术

多层人工神经网络被广泛应用于模式识别，图像处理，函数逼近和优化计算等领域，多层人工网络在近年来由于其较高的识别准确度和较好的可并行性，受到学术界和工业界越来越广泛的关注。

一种支持多层人工神经网络正向运算的已知方法是使用通用处理器。该方法通过使用通用寄存器堆和通用功能部件执行通用指令来支持上述算法。该方法的缺点之一是单个通用处理器的运算性能较低，无法满足通常的多层人工神经网络运算的性能需求。而多个通用处理器并行执行时，通用处理器之间相互通信又成为了性能瓶颈。另外，通用处理器需要把多层人工神经网络正向运算译码成一长列运算及访存指令序列，处理器前端译码带来了较大的功耗开销。

另一种支持多层人工神经网络反向训练的已知方法是使用图形处理器(GPU)。该方法通过使用通用寄存器堆和通用流处理单元执行通用SIMD指令来支持上述算法。由于GPU是专门用来执行图形图像运算以及科学计算的设备，没有对多层人工神经网络运算的专门支持，仍然需要大量的前端译码工作才能执行多层人工神经网络运算，带来了大量的额外开销。另外GPU只有较小的片上缓存，多层人工神经网络的模型数据(权值)需要反复从片外搬运，片外带宽成为了主要性能瓶颈。另外，GPU只有较小的片上缓存，多层人工神经网络的模型数据(权值)需要反复从片外搬运，片外带宽成为了主要性能瓶颈，同时带来了巨大的功耗开销。

发明内容

本发明的一个方面提供了一种用于执行人工神经网络反向运算的装置，所述装置包括控制器单元、主运算模块、数据通路模块以及从运算模块；所述控制器单元，用于读取指令，并对所述指令进行译码，得到微指令；其中，所述微指令用于对所述主运算模块、所述数据通路模块或所述从运算模块的行为进行控制；所述主运算模块，用于将下一层神经网络的输入梯度向量传输至所述数据通路模块；所述数据通路模块，用于将所述下一层神经网络的输入梯度向量传输至所述从运算模块，以及获取所述从运算模块发送的输出梯度向量部分和；所述主运算模块，还用于根据所述上一层神经网络的输出梯度向量进行后续处理；其中，所述输出梯度向量由所述输出梯度向量部分和得到。

本发明的另一个方面提供了一种使用上述装置执行单层人工神经网络反向运算的方法。

本发明的另一方面提供了一种使用上述装置执行多层人工神经网络反向运算的方法。

附图说明

图1示出了根据本发明实施例的用于执行人工神经网络反向运算的装置的整体结构的示例框图；

图2示意性示出了根据本发明实施例的用于执行人工神经网络反向运算的装置中H树模块数据通路模块的结构；

图3示出了根据本发明实施例的用于执行人工神经网络反向运算的装置中主运算模块结构的示例框图；

图4示出了根据本发明实施例的用于执行人工神经网络反向运算的装置中从运算模块结构的示例框图；

图5示出了根据本发明实施例的神经网络反向运算过程的示例框图；

图6示出了根据本发明实施例的单层人工神经网络运算的流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

根据本发明实施例的多层人工神经网络的反向训练，包括两层或者两层以上的多个神经元。对于每一层来说，首先对输入梯度向量进行加权求和计算出本层的输出梯度向量。该输出梯度向量乘以下一层在正向运算时的激活函数的导数值可以得到下一层的输入梯度向量。将输入梯度向量与正向运算时的输入神经元对位相乘得到本层权值的梯度，然后可以根据所得到的本层权值的梯度来更新本层的权值。

图1示出了根据本发明实施例的用于执行人工神经网络反向训练的装置的整体结构的示例框图。如图1所示，该装置包括指令缓存单元1、控制器单元2、直接内存访问单元3、H树模块4、主运算模块5和多个从运算模块6。指令缓存单元1、控制器单元2、直接内存访问单元3、H树模块4、主运算模块5和从运算模块6均可以通过硬件电路(例如专用集成电路ASIC)实现。

指令缓存单元1通过直接内存访问单元3读入指令并缓存读入的指令。

控制器单元2从指令缓存单元1中读取指令，将指令译成控制其他模块行为的微指令，所述其他模块例如直接内存访问单元3、主运算模块5和从运算模块6等。

直接内存访问单元3能够访存外部地址空间，直接向装置内部的各个缓存单元读写数据，完成数据的加载和存储。

图2示意性示出了H树模块4的结构。H树模块4构成主运算模块5和多个从运算模块6之间的数据通路，并具有H树型的结构。H树是由多个节点构成的二叉树通路，每个节点将上游的数据同样地发给下游的两个节点，将下游的两个节点返回的数据进行合并，并返回给上游的节点。例如，在神经网络反向运算过程中，下游两个节点返回的向量会在当前节点相加成一个向量并返回给上游节点。在每层人工神经网络开始计算的阶段，主运算模块5内的输入梯度通过H树模块4发送给各个从运算模块6；当从运算模块6的计算过程完成后，每个从运算模块6输出的输出梯度向量部分和会在H树模块4中逐级两两相加，即对所有输出梯度向量部分和求和，作为最终的输出梯度向量。

图3示出了根据本发明实施例的用于执行人工神经网络反向训练的装置中主运算模块5的结构的示例框图。如图3所示，主运算模块5包括运算单元51、数据依赖关系判断单元52和神经元缓存单元53。

神经元缓存单元53用于缓存主运算模块5在计算过程中用到的输入数据和输出数据。运算单元51完成主运算模块的各种运算功能。数据依赖关系判断单元52是运算单元51读写神经元缓存单元53的端口，同时能够保证对神经元缓存单元53中数据的读写不存在一致性冲突。具体地，数据依赖关系判断单元52判断尚未执行的微指令与正在执行过程中的微指令的数据之间是否存在依赖关系，如果不存在，允许该条微指令立即发射，否则需要等到该条微指令所依赖的所有微指令全部执行完成后该条微指令才允许被发射。例如，所有发往数据依赖关系单元52的微指令都会被存入数据依赖关系单元52内部的指令队列里，在该队列中，读指令的读取数据的范围如果与队列位置靠前的写指令写数据的范围发生冲突，则该指令必须等到所依赖的写指令被执行后才能够执行。同时，数据依赖关系判断单元52也负责从神经元缓存单元53读取输入梯度向量通过H树模块4发送给从运算模块6，而从运算模块6的输出数据通过H树模块4直接发送给运算单元51。控制器单元2输出的指令发送给运算单元51和依赖关系判断单元52，来控制其行为。

图4示出了根据本发明实施例的用于执行人工神经网络反向训练的装置中从运算模块6的结构的示例框图。如图4所示，每个从运算模块6包括运算单元61、数据依赖关系判定单元62、神经元缓存单元63、权值缓存单元64和权值梯度缓存单元65。

运算单元61接收控制器单元2发出的微指令并进行算数逻辑运算。

数据依赖关系判断单元62负责计算过程中对缓存单元的读写操作。数据依赖关系判断单元62保证对缓存单元的读写不存在一致性冲突。具体地，数据依赖关系判断单元62判断尚未执行的微指令与正在执行过程中的微指令的数据之间是否存在依赖关系，如果不存在，允许该条微指令立即发射，否则需要等到该条微指令所依赖的所有微指令全部执行完成后该条微指令才允许被发射。例如，所有发往数据依赖关系单元62的微指令都会被存入数据依赖关系单元62内部的指令队列里，在该队列中，读指令的读取数据的范围如果与队列位置靠前的写指令写数据的范围发生冲突，则该指令必须等到所依赖的写指令被执行后才能够执行。

神经元缓存单元63缓存输入梯度向量数据以及该从运算模块6计算得到的输出梯度向量部分和。

权值缓存单元64缓存该从运算模块6在计算过程中需要的权值向量。对于每一个从运算模块，都只会存储权值矩阵中与该从运算模块6相对应的列。

权值梯度缓存单元65缓存相应从运算模块在更新权值过程中需要的权值梯度数据。每一个从运算模块6存储的权值梯度数据与其存储的权值向量相对应。

从运算模块6实现每层人工神经网络反向训练计算输出梯度向量的过程中可以并行的前半部分以及权值的更新。以人工神经网络全连接层(MLP)为例，过程为out_gradient＝w*in_gradient，其中权值矩阵w和输入梯度向量in_gradient的乘法可以划分为不相关的并行计算子任务，out_gradient与in_gradient是列向量，每个从运算模块只计算in_gradient中相应的部分标量元素与权值矩阵w对应的列的乘积，得到的每个输出向量都是最终结果的一个待累加的部分和，这些部分和在H树中逐级两两相加得到最后的结果。所以计算过程变成了并行的计算部分和的过程和后面的累加的过程。每个从运算模块6计算出输出梯度向量的部分和，所有的部分和在H树模块4中完成求和运算得到最后的输出梯度向量。每个从运算模块6同时将输入梯度向量和正向运算时每层的输出值相乘，计算出权值的梯度，以更新本从运算模块6存储的权值。正向运算和反向训练是神经网络算法的两个主要过程，神经网络要训练(更新)网络中的权值，首先需要计算输入向量在当前权值构成的网络中的正向输出，这是正向过程，然后根据输出值与输入向量本身的标注值之间的差值，反向逐层训练(更新)每层的权值。在正向计算过程中会保存每一层的输出向量以及激活函数的导数值，这些数据是反向训练过程所需要的，所以在反向训练开始时，这些数据已经保证存在。正向运算中每层的输出值是反向运算开始时已有的数据，可以通过直接内存访存单元缓存在主运算模块中并通过H树发送给从运算模块。主运算模块5基于输出梯度向量进行后续计算，例如将输出梯度向量乘以正向运算时的激活函数的导数得到下一层的输入梯度值。正向运算时的激活函数的导数是在反向运算开始时已有的数据，可以通过直接内存访存单元缓存在主运算模块中。

根据本发明实施例，还提供了在前述装置上执行人工神经网络正向运算的指令集。指令集中包括CONFIG指令、COMPUTE指令、IO指令、NOP指令、JUMP指令和MOVE指令，其中：

CONFIG指令在每层人工神经网络计算开始前配置当前层计算需要的各种常数；

COMPUTE指令完成每层人工神经网络的算术逻辑计算；

IO指令实现从外部地址空间读入计算需要的输入数据以及在计算完成后将数据存回至外部空间；

NOP指令负责清空当前装至内部所有微指令缓存队列中的微指令，保证NOP指令之前的所有指令全部指令完毕。NOP指令本身不包含任何操作；

JUMP指令负责控制器将要从指令缓存单元读取的下一条指令地址的跳转，用来实现控制流的跳转；

MOVE指令负责将装置内部地址空间某一地址的数据搬运至装置内部地址空间的另一地址，该过程独立于运算单元，在执行过程中不占用运算单元的资源。

图5示出了根据本发明实施例的神经网络反向训练过程的示例框图。计算输出梯度向量的过程为out_gradient＝w*in_gradient，其中权值矩阵w和输入梯度向量in_gradient的矩阵向量乘法可以划分为不相关的并行计算子任务，每个从运算模块6计算出输出梯度向量的部分和，所有的部分和在H树模块4中完成求和运算得到最后的输出梯度向量。图5中上一层的输出梯度向量input gradient乘以对应的激活函数导数得到本层的输入数据，再与权值矩阵相乘得到输出梯度向量。计算权值更新梯度的过程为dw＝x*in_gradient，其中每个从运算模块6计算本模块对应部分的权值的更新梯度。从运算模块6将输入梯度和正向运算时的输入神经元相乘计算出权值更新梯度dw，然后使用w、dw和上一次更新权值时使用的权值更新梯度dw’根据指令设置的学习率更新权值w。

参考图5所示，input gradient(图5中的[input gradient0,…,inputgradient3])是第n+1层的输出梯度向量，该向量首先要与正向运算过程中第n层的导数值(图5中的[f’(out0),…,f’(out3)])相乘，得到第n层的输入梯度向量，该过程在主运算模块5中完成，由H树模块4发往从运算模块6，暂存在从运算模块6的神经元缓存单元63中。然后，输入梯度向量与权值矩阵相乘得到第n层的输出梯度向量。在这个过程中，第i个从运算模块计算输入梯度向量中第i个标量和权值矩阵中列向量[w_i0,…,w_iN]的乘积，得到的输出向量在H树模块4中逐级两两相加得到最后的输出梯度向量output gradient(图5中的[output gradient0,…,output gradient3])。

同时，从运算模块6还需要更新本模块中存储的权值，计算权值更新梯度的过程为dw_ij＝x_j*in_gradient_i，其中x_j是正向运算时第n层的输入(即第n-1层的输出)向量的第j个元素，in_gradient_i是反向运算第n层的输入梯度向量(即图5中input gradient与导数f’的乘积)的第i个元素。正向运算时第n层的输入是在反向训练开始时就存在的数据，通过H树模块4送往从运算模块6并暂存在神经元缓存单元63中。则，在从运算模块6中，在完成输出梯度向量部分和的计算后，将输入梯度向量第i个标量和正向运算第n层的输入向量相乘，得到更新权值的梯度向量dw并据此更新权值。

图6是示出根据一个实施例的单层人工神经网络反向训练流程图。该流程图描述利用本发明的装置和指令集实现图5所示的一种单层神经网络反向训练的过程。

在步骤S1，在指令缓存单元1的首地址处预先存入一条IO指令。

在步骤S2，运算开始，控制器单元2从指令缓存单元1的首地址读取该条IO指令，根据译出的微指令，直接内存访问单元3从外部地址空间读取与该单层人工神经网络反向训练有关的所有指令，并将其缓存在指令缓存单元1中。

在步骤S3，控制器单元2接着从指令缓存单元读入下一条IO指令，根据译出的微指令，直接内存访问单元3从外部地址空间读取主运算模块5需要的所有数据至主运算模块5的神经元缓存单元53，所述数据包括之前正向运算时的输入神经元和激活函数导数值以及输入梯度向量。

在步骤S4，控制器单元2接着从指令缓存单元读入下一条IO指令，根据译出的微指令，直接内存访问单元3从外部地址空间读取从运算模块6需要的所有权值数据和权值梯度数据，并分别存储到相应的从运算模块6的权值缓存单元64和权值梯度缓存单元65。

在步骤S5，控制器单元2接着从指令缓存单元读入下一条CONFIG指令，运算单元根据译出的微指令里的参数配置运算单元内部寄存器的值，包括该层神经网络计算需要的各种常数，本层计算的精度设置、更新权值时的学习率等。

在步骤S6，控制器单元2接着从指令缓存单元读入下一条COMPUTE指令，根据译出的微指令，主运算模块5通过H树模块4将输入梯度向量和正向运算时的输入神经元发给各从运算模块6，所述输入梯度向量和正向运算时的输入神经元存至从运算模块6的神经元缓存单元63。

在步骤S7，根据COMPUTE指令译出的微指令，从运算模块6的运算单元61从权值缓存单元64读取权值向量(即该从运算模块存储的权值矩阵的部分列),完成权值向量和输入梯度向量的向量乘标量运算，将输出向量部分和通过H树返回；同时从运算模块6将输入梯度向量与输入神经元相乘，得到权值梯度存至权值梯度缓存单元65。

在步骤S8，在H树模块4中，各从运算模块6返回的输出梯度部分和被逐级两两相加得到完整的输出梯度向量。

在步骤S9，主运算模块5得到H树模块4的返回值，根据COMPUTE指令译出的微指令，从神经元缓存单元53读取正向运算时的激活函数导数值，将导数值乘以返回的输出向量，得到下一层反向训练的输入梯度向量，将其写回至神经元缓存单元53。

在步骤S10，控制器单元2接着从指令缓存单元读入下一条COMPUTE指令，根据译出的微指令，从运算模块6从权值缓存单元64读取权值w，从权值梯度缓存单元读取本次的权值梯度dw和上一次更新权值使用的权值梯度dw’，更新权值w。

在步骤S11，控制器单元接着从指令缓存单元读入下一条IO指令，根据译出的微指令，直接内存访问单元3将神经元缓存单元53中的输出梯度向量存至外部地址空间指定地址，运算结束。

对于多层人工神经网络，其实现过程与单层神经网络类似，当上一层人工神经网络执行完毕后，下一层的运算指令会将主运算模块中计算出的输出梯度向量作为下一层训练的输入梯度向量进行如上的计算过程，指令中的权值地址和权值梯度地址也会变更至本层对应的地址。

通过采用用于执行人工神经网络反向训练的装置和指令集，解决了CPU和GPU运算性能不足，前端译码开销大的问题。有效提高了对多层人工神经网络正向运算的支持。

通过采用针对多层人工神经网络反向训练的专用片上缓存，充分挖掘了输入神经元和权值数据的重用性，避免了反复向内存读取这些数据，降低了内存访问带宽，避免了内存带宽成为多层人工神经网络正向运算性能瓶颈的问题。以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种用于执行人工神经网络反向运算的装置，其特征在于，所述装置包括控制器单元、主运算模块、数据通路模块以及从运算模块；

所述控制器单元，用于读取指令，并对所述指令进行译码，得到微指令；其中，所述微指令用于对所述主运算模块、所述数据通路模块或所述从运算模块的行为进行控制；

所述主运算模块，用于将下一层神经网络的输入梯度向量传输至所述数据通路模块；

所述数据通路模块，用于将所述下一层神经网络的输入梯度向量传输至所述从运算模块，以及获取所述从运算模块发送的输出梯度向量部分和；

所述主运算模块，还用于根据上一层神经网络的输出梯度向量进行后续处理；其中，所述输出梯度向量由所述输出梯度向量部分和得到。

2.根据权利要求1所述的装置，其特征在于，所述从运算模块的数量为多个；

多个所述从运算模块，用于根据相同的所述下一层神经网络的输入梯度向量和各所述从运算模块对应的权值数据，并行地计算出各所述从运算模块对应的输出梯度向量部分和；

多个所述从运算模块，还用于根据所述下一层神经网络的输入梯度向量，并行地计算出各所述从运算模块的权值的梯度，并根据所述各从运算模块的权值的梯度来更新各所述从运算模块的权值。

3.根据权利要求2所述的装置，其特征在于，所述数据通路模块包括多个节点构成的二叉树通路，每个节点将上游节点的数据发送至下游的两个节点，以及将所述下游的两个节点返回的数据进行相加，并将相加结果返回至所述上游节点；

所述数据通路模块还用于逐级将各所述从运算模块的输出梯度向量部分和两两相加，得到所述上一层神经网络的输出梯度向量。

4.根据权利要求1所述的装置，其特征在于，所述主运算模块还用于将上一层神经网络的输出梯度向量与上一层神经网络的激活函数求导值对位相乘，作为所述上一层神经网络的输出梯度向量。

5.根据权利要求1所述的装置，其特征在于，所述装置还包括指令缓存单元，所述指令缓存单元用于缓存所述指令。

6.根据权利要求1所述的装置，其特征在于，所述主运算模块包括第一神经元缓存单元、第一运算单元以及第一数据依赖关系判断单元；

所述第一神经元缓存单元，用于缓存所述主运算模块在计算过程中用到的输入数据和输出数据；

所述第一运算单元，用于完成所述主运算模块的各种运算功能；

所述第一数据依赖关系判断单元包括所述第一运算单元读写所述第一神经元缓存单元的端口，用于保证对所述第一神经元缓存单元中数据读写不存在一致性冲突；

所述从运算模块包括第二神经元缓存单元、权值缓存单元、权值梯度缓存单元、第二运算单元以及第二数据依赖关系判断单元；

所述第二神经元缓存单元，用于缓存所述输入梯度向量以及所述从运算模块计算得到的输出梯度向量部分和；

所述权值缓存单元，用于缓存所述从运算模块在计算过程中需要的权值向量，对于每一个所述从运算模块，所述权值向量是权值矩阵中与所述从运算模块相对应的列；

所述权值梯度缓存单元，用于缓存相应的所述从运算模块在更新权值过程中需要的权值梯度数据，每个从运算模块存储的权值梯度数据与所述每个从运算模块存储的权值向量相对应；

所述第二运算单元，用于接收所述控制器单元发送的所述微指令，并根据所述微指令进行算数逻辑运算；

所述第二数据依赖关系判断单元，用于对所述第二神经元缓存单元、所述权值缓存单元和所述权值梯度缓存单元的读写操作，保证对所述第二神经元缓存单元、所述权值缓存单元和所述权值梯度缓存单元的读写不存在一致性冲突；

所述第一数据依赖关系判断单元用于保证对所述第一神经元缓存单元中数据读写不存在一致性冲突，包括：

判断未执行的微指令对应的第一数据与正在执行过程中的微指令对应的第二数据之间是否存在依赖关系；若所述第一数据与所述第二数据之间不存在依赖关系，则允许所述未执行的微指令立即执行；若所述第一数据与所述第二数据之间存在依赖关系，则在与所述未执行的微指令存在依赖关系的所有微指令全部执行完成后，允许所述未执行的微指令执行；

和/或，所述第二数据依赖关系判断单元用于保证对所述第二神经元缓存单元、所述权值缓存单元和所述权值梯度缓存单元的读写不存在一致性冲突，包括：

判断未执行的微指令对应的第一数据与正在执行过程中的微指令对应的第二数据之间是否存在依赖关系；若所述第一数据与所述第二数据之间不存在依赖关系，则允许所述未执行的微指令立即执行；若所述第一数据与所述第二数据之间存在依赖关系，则在与所述未执行的微指令存在依赖关系的所有微指令全部执行完成后，允许所述未执行的微指令执行。

7.一种用于执行人工神经网络反向运算的方法，其特征在于，所述方法应用于执行人工神经网络反向运算的装置，所述装置包括控制器单元、主运算模块、数据通路模块以及从运算模块；

所述方法包括：

所述控制器单元读取指令，并对所述指令进行译码，得到微指令；所述微指令用于对所述主运算模块、所述数据通路模块或所述从运算模块的行为进行控制；

所述主运算模块将下一层神经网络的输入梯度向量传输至所述数据通路模块；

所述数据通路模块将所述下一层神经网络的输入梯度向量传输至所述从运算模块，以及获取所述从运算模块发送的输出梯度向量部分和；

所述主运算模块根据上一层神经网络的输出梯度向量进行后续处理；所述输出梯度向量由所述输出梯度向量部分和得到。

8.根据权利要求7所述的方法，其特征在于，所述从运算模块的数量为多个；

所述方法还包括：

多个所述从运算模块根据相同的所述下一层神经网络的输入梯度向量和各所述从运算模块对应的权值数据，并行地计算出各所述从运算模块对应的输出梯度向量部分和；

多个所述从运算模块根据所述下一层神经网络的输入梯度向量，并行地计算出各所述从运算模块的权值的梯度，并根据所述各从运算模块的权值的梯度来更新各所述从运算模块的权值。

9.根据权利要求8所述的方法，其特征在于，所述数据通路模块包括多个节点构成的二叉树通路，每个节点将上游节点的数据发送至下游的两个节点，以及将所述下游的两个节点返回的数据进行相加，并将相加结果返回至所述上游节点；

所述方法还包括：

所述数据通路模块逐级将各所述从运算模块的输出梯度向量部分和两两相加，得到所述上一层神经网络的输出梯度向量。

10.根据权利要求7所述的方法，其特征在于，所述主运算模块根据所述上一层神经网络的输出梯度向量进行后续处理，包括：

所述主运算模块将所述上一层神经网络的输出梯度向量与上一层神经网络的激活函数求导值对位相乘，作为所述下一层神经网络的输入梯度向量。