CN110689126A

CN110689126A - 一种用于执行神经网络运算的装置

Info

Publication number: CN110689126A
Application number: CN201911058910.4A
Authority: CN
Inventors: 陈天石; 刘少礼; 王在; 胡帅
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2017-10-30
Filing date: 2018-09-13
Publication date: 2020-01-14
Anticipated expiration: 2037-10-30
Also published as: WO2019085655A1; CN107832845A; US20210192245A1; CN109086075A; CN109117183B; US11922132B2; CN108984211B; CN109062606B; CN108958801B; CN108986022A; CN109062606A; CN109034382A; CN109117948A; US20210150685A1; CN110084361A; CN108898554A; CN109062607B; US20210158484A1; CN107832843A; CN107833176A

Abstract

本申请提供了一种用于执行神经网络运算的装置，装置包括片上互联模块和与该片上互联单元通信连接的多个神经网络处理模块。

Description

一种用于执行神经网络运算的装置

技术领域

本申请属于神经网络运算领域，尤其涉及一种用于执行神经网络运算的装置。

背景技术

随着信息技术的不断发展和人们日益增长的需求，人们对信息的及时性要求也越来越高了。目前，终端设备对信息的获取均是基于通用处理器获得的，例如在通用处理器运行设定应用程序以获知物体当前的位置，或者在通用处理器上运行设定应用程序获知用户当前场景(如室内或室外)等等。但是，这种基于通用处理器运行软件程序来获知信息的方式，受限于通用处理器的运行速率，特别是在通用处理器负荷较大的情况下，信息获取效率较低、时延较长。

申请内容

有鉴于此，本申请提供一种用于执行神经网络运算的装置，能以低开销的方式实现一层或多层多核多层人工神经网络的运算，并且运算性能高效。

本申请提供一种用于执行神经网络运算的装置，包括片上互联模块和与该片上互联单元通信连接的多个神经网络处理模块，其中：

所述神经网络处理模块能够通过所述片上互联模块从其它神经网络处理模块中读写数据；

所述神经网络处理模块包括：存储单元、寄存器单元和向量运算单元；

所述存储单元，用于存储向量；

所述寄存器单元，用于存储向量地址；

矩阵运算单元，用于获取向量运算指令，根据向量运算指令在所述寄存器单元中获取向量地址，根据该向量地址在存储单元中获取相应的向量，根据获取的向量进行向量运算，得到向量运算结果。

附图说明

图1-1是本披露实施例提供的计算装置的结构示意图。

图1-2是本披露实施例提供的矩阵计算单元的结构示意图。

图1-3是本披露实施例提供的流水级的结构示意图。

图1-4是本披露实施例披露的一种矩阵计算方法的流程示意图。

图1-5是本披露实施例提供的正向和反向运算示意图。

图1-6是本披露实施例提供的指令集的格式示意图。

图1-7是本披露实施例提供的另一种计算装置的结构示意图。

图1-8是本披露实施例提供的计算装置执行矩阵乘向量指令的流程图。

图2-1是本披露提供的用于执行神经网络运算的装置的结构示意图；

图2-2是本披露中神经网络处理模块的结构示意图；

图2-3是本披露中外部存储模块的结构示意图；

图2-4是本披露中神经网络处理单元的结构示意图；

图2-5是本披露中片上互联单元的结构示意图；

图2-6是本披露执行一层全连接层运算实施例的流程图；

图3-1是本披露的指令集的格式示意图；

图3-2是本披露的神经网络运算指令的格式示意图；

图3-3是本披露的矩阵运算指令的格式示意图；

图3-4是本披露的向量运算指令的格式示意图；

图3-5是本披露的矩阵-向量运算指令的格式示意图；

图4-1是本披露提供的一种运算单元的结构示意图。

具体实施方式

本披露具体实施方式提供一种矩阵计算方法，该矩阵计算方法在如图1-1所示的计算装置内完成，如图1-1所示，该计算装置包括：

存储器201、用于存储矩阵。优选的该存储器可以是高速暂存存储器，能够支持不同长度的矩阵数据；本披露将必要的计算数据暂存在高速暂存存储器上(ScratchpadMemory)，使本计算装置在进行矩阵运算过程中可以更加灵活有效地支持不同长度的数据。上述存储器还可以为片外数据库、数据库或其他的能够存储的介质等等。

寄存器单元202，用于存储标量数据，其中，该标量数据包括但不限于：矩阵数据在存储介质201的地址以及矩阵与标量运算时的标量。在一种实施方式中，寄存器单元可以是标量寄存器，提供运算过程中所需的标量寄存器，标量寄存器不只存放矩阵地址，还存放有标量数据。当涉及到矩阵与标量的运算时，运算单元不仅要从寄存器单元中获取矩阵地址，还要从寄存器单元中获取相应的标量。

运算单元203，用于获取并执行第一运算指令。如图1-2所示，该运算单元包括多个运算器，该运算器包括但不限于：矩阵加法运算器231、矩阵乘法运算器232、大小比较运算器233、非线性运算器234和矩阵标量乘法运算器235。

该矩阵计算方法如图1-4所示，包括如下步骤：

步骤S301、运算单元203获取第一运算指令，所述第一运算指令包括：执行该指令所需的矩阵读取指示。

在步骤S301中，上述执行该指令所需的矩阵读取指示具体可以为多种，例如，在本披露一个可选的技术方案中，上述执行该指令所需的矩阵读取指示可以为所需矩阵的存储地址。又如，在本披露另一个可选的技术方案中，上述执行该指令所需的矩阵读取指示可以为所需矩阵的标识，该标识的表现形式可以为多种，例如，矩阵的名称，又如，矩阵的识别号，再如该矩阵在寄存器单元的寄存器号或地址。

下面通过一个实际的例子来说明上述第一运算指令包含的执行该指令所需的矩阵读取指示，这里假设该矩阵运算公式为f(x)＝A+B，其中，A、B均为矩阵。那么在第一运算指令中除了携带该矩阵运算公式外，还可以携带该矩阵运算公式所需矩阵的存储地址，具体的，例如A的存储地址为0000-0FFF，B的存储地址为1000-1FFF。又如，可以携带A以及B的标识，例如A的标识为0101，B的标识为1010。

步骤S302、运算单元203依据该矩阵读取指示向所述存储器201发送读取命令。

上述步骤S302的实现方法具体可以为：

如该矩阵读取指示可以为所需矩阵的存储地址，运算单元203向该存储器201发送该读取该存储地址的读取命令并采用批量读取方式获取对应的矩阵。

又如该矩阵读取指示可以为所需矩阵的标识时，运算单元203依据该标识从寄存器单元处采用单位读取方式读取该标识对应的存储地址，然后运算单元203向该存储器201发送该读取该存储地址的读取命令并采用批量读取方式获取对应的矩阵。

上述单个读取方式具体可以为，每次读取均为单位的数据，即1bit数据。此时设置单位读取方式即1位读取方式的原因为，对于标量数据来说，其占用的容量非常小，如果采用批量数据读取方式，那么读取的数据量容易大于所需的数据的容量，这样会导致带宽的浪费，所以对于标量的数据这里采用单位读取方式来读取以减少带宽的浪费。

步骤S303、运算单元203采用批量读取方式读取该指示对应的矩阵，对该矩阵执行所述第一运算指令。

上述步骤S303中批量读取方式具体可以为，每次读取均为多位的数据，例如每次读取的数据位数为16bit、32bit或64bit，即无论其所需的数据量是多少，其每次读取的均为固定多位数的数据，此批量读取的数据方式非常适合大数据的读取，对于矩阵来说，由于其所占用的容量大，如果采用单个读取方式，其读取的速度会非常慢，所以这里采用批量读取方式来获取多位的数据从而快速读取矩阵数据，避免因为读取矩阵数据过慢影响矩阵计算速度的问题。

本披露提供的技术方案的计算装置设置有寄存器单元了存储器，其分别存储标量数据以及矩阵数据，并且本披露为两种存储器分配了单位读取方式以及批量读取方式，通过对矩阵数据的特点分配匹配其特征的数据读取方式，能够很好的利用带宽，避免因为带宽的瓶颈对矩阵计算速度的影响，另外，对于标量数据存储单元来说，由于其存储的为标量数据，设置了标量数据的读取方式，提高了带宽的利用率，所以本披露提供的技术方案能够很好的利用带宽，避免带宽对计算速度的影响，所以其具有计算速度快，效率高的优点。

可选的，上述对该矩阵执行所述第一运算指令具体可以为：

对该矩阵执行n级流水级计算，具体的，对该矩阵执行第一流水级的计算得到第一结果，将第一结果输入到第二流水级执行第二流水级的计算得到第二结果，将第二结果输入到第三流水级执行第三流水级计算得到第三结果，一级一级向下执行后，将所述第n-1结果输入到第n流水级执行第n流水级的计算得到第n结果，将所述第n结果输入到所述存储器。n可以为大于等于2的整数。如n＝3为例，上述流水级的操作流程图如图1-3所示。

上述第一流水级包括但不限于：矩阵乘法计算器等等。

上述第二流水级包括但不限于：矩阵加法计算器、大小比较计算器等等。

上述第三流水级包括但不限于：非线性运算器、矩阵标量乘法器等等。

上述三种流水级根据不同的运算指令可以进行调整，例如，在仅仅执行向量运算或矩阵运算时，由于没有比较运算以及非线性运算，所以只需要执行第一流水级即可，当然在实际应用中，也可以仅仅保留第一流水级以及第二流水级，本披露的三个流水级并不表示所有的运算指令均需要，厂家或用户可以根据实际的运算自行调整。将矩阵分三个流水级运算主要是为了提高运算的速度，对于矩阵的计算来说，例如采用现有的通用处理器在计算时，其运算的步骤具体可以为，处理器对矩阵进行计算得到第一结果，然后将第一结果存储在内存中，处理器从内存读取第一结果执行第二次计算得到第二结果，然后将第二结果存储在内存中，处理器从内从读取第二结果执行第三次计算得到第三结果，然后将第三结果存储在内存中。从上述计算的步骤可以看出，在通用处理器进行矩阵计算时，其并没有分流水级进行计算，那么每次计算完毕后均需要将计算完的数据进行保存，下次计算时需要再次读取，所以此方案需要重复存储读取多次数据，对于本披露的技术方案来说，第一流水级计算的第一结果直接进入第二流水级进行计算，第二流水级计算的第二结果直接进入到第三流水级进行计算，第一流水级与第二流水级计算的第一结果和第二结果无需存储，首先其减少了内存的占用空间，其次，其避免了结果的多次存储以及读取，提高了带宽的利用率，进一步提高了计算效率。

在本披露另一实施例中，可以自由组合各流水部件或者采取一级流水级。例如将第二个流水级和第三个流水级合并，或者将第一和第二以及第三个流水线都合并或者各个流水级负责不同的运算可以排列组合。例如，第一级流水负责比较运算，部分乘法运算，第二级流水负责非线性运算和矩阵标量乘法等组合。

可选的，上述计算装置还可以包括：缓存单元204，用于缓存第一运算指令。指令在执行过程中，同时也被缓存在缓存单元中，当一条指令执行完之后，如果该指令同时也是指令缓存单元中未被提交指令中最早的一条指令，该指令将被提交，一旦提交，该条指令进行的操作对装置状态的改变将无法撤销。在一种实施方式中，指令缓存单元可以是重排序缓存。

可选的，上述方法在步骤S301之前还可以包括：

确定该第一运算指令与第一运算指令之前的第二运算指令是否存在关联关系，如第一运算指令与第一运算指令之前的第二运算指令存在关联关系，则在第二运算指令执行完毕以后，从缓存单元中提取出该第一运算指令传递至运算单元203。如第一运算指令与该第一运算指令之前的指令无关联关系，则直接将第一运算指令传递至运算单元。

上述确定该第一运算指令与第一运算指令之前的第二运算指令是否存在关联关系的具体实现方法可以为：

依据该第一运算指令提取该第一运算指令中所需矩阵的第一存储地址区间，依据该第二运算指令提取该第二运算指令中所需矩阵的第二存储地址区间，如第一存储地址区间与第二存储地址区间具有重叠的区域，则确定第一运算指令与第二运算指令具有关联关系。如第一存储地址区间与第二存储地址区间无重叠的区域，则确定第一运算指令与第二运算指令不具有关联关系。

此存储地区区间中有重叠区域出现说明第一运算指令与第二运算指令访问了相同的矩阵，对于矩阵来说，由于其存储的空间比较大，比如采用相同的存储区域作为判断是否为关联关系的条件，可能出现的情况是，第二运算指令访问的存储区域包含了第一运算指令访问的存储区域，例如，第二运算指令访问A矩阵存储区域、B矩阵存储区域和C矩阵存储区域，如果A、B存储区域相邻或A、C存储区域相邻，则第二运算指令访问的存储区域为，A、B存储区域以及C存储区域，或A、C存储区域以及B存储区域。这种情况下，如果第一运算指令访问的为A矩阵与D矩阵的存储区域，那么第一运算指令访问的矩阵的存储区域无法与第二运算指令范文的矩阵的存储区域相同，如果采用相同的判断条件，则确定第一运算指令与第二运算指令不关联，但是实践证明，此时第一运算指令与第二运算指令属于关联关系，所以本披露通过是否有重叠区域来判断是否为关联关系的条件，能够避免上述情况的误判。

下面以一个实际的例子来说明何种情况属于关联关系，何种情况属于非关联关系。这里假设第一运算指令所需的矩阵为A矩阵和D矩阵，其中A矩阵的存储区域为【0001，0FFF】，D矩阵的存储区域为【A000，AFFF】，对于第二运算指令所需的矩阵为A矩阵、B矩阵和C矩阵，其分别对应的存储区域为【0001，0FFF】、【1000，1FFF】、【B000，BFFF】，对于第一运算指令来说，其对应的存储区域为：【0001，0FFF】、【A000，AFFF】，对于第二运算指令来说，其对应的存储区域为：【0001，1FFF】、【B000，BFFF】，所以第二运算指令的存储区域与第一运算指令的存储区域具有重叠区域【0001，0FFF】，所以第一运算指令与第二运算指令具有关联关系。

这里假设第一运算指令所需的矩阵为E矩阵和D矩阵，其中A矩阵的存储区域为【C000，CFFF】，D矩阵的存储区域为【A000，AFFF】，对于第二运算指令所需的矩阵为A矩阵、B矩阵和C矩阵，其分别对应的存储区域为【0001，0FFF】、【1000，1FFF】、【B000，BFFF】，对于第一运算指令来说，其对应的存储区域为：【C000，CFFF】、【A000，AFFF】，对于第二运算指令来说，其对应的存储区域为：【0001，1FFF】、【B000，BFFF】，所以第二运算指令的存储区域与第一运算指令的存储区域不具有重叠区域，所以第一运算指令与第二运算指令无关联关系。

使用人工神经网络运算装置(即如图1-3所示计算装置、如图1-7所示的计算装置，如图1-1所示的计算装置中的任意一种)实现神经网络训练的方法；具体来说，包括以下主要内容：

神经网络训练的步骤：是对一个(多层)神经网络中的各层依次执行正向运算，然后按照相反的层的顺序依次执行反向运算，最后用计算得到的权值的梯度去更新权值；这就是神经网络的训练的依次迭代，整个训练过程需要重复执行这个过程多次；

层的反向运算：每一层的反向运算需要执行两部分运算：一部分是使用输出神经元梯度和输入神经元计算出权值的梯度(用于在“权值更新”步骤更新本层的权值)，另一部分是使用输出神经元梯度和权值，计算出输入神经元梯度(用于作为反向运算中下一层的输出神经元梯度以供其进行反向运算)；

权值更新：在执行完神经网络的反向运算之后，就计算出了各层的权值的梯度，在这个步骤中，所述装置的第一输入缓存和第二输入缓存分别用于存储本层的权值和权值的梯度，然后在运算单元中使用权值梯度对权值进行更新；

人工神经网络运算装置具体为稀疏神经网络运算装置的时候，即装置中多一个映射单元，处理的神经网络为稀疏神经网络：

使用稀疏神经网络运算装置实现神经网络训练的方法；具体来说，包括以下三个主要内容：

神经网络训练的步骤是对一个(多层)神经网络中的各层依次执行正向运算，然后按照相反的层的顺序依次执行反向运算，最后用计算得到的权值的梯度去更新权值；这就是神经网络的训练的依次迭代，整个训练过程需要重复执行这个过程多次；

层的反向运算每一层的反向运算需要执行两部分运算：一部分是使用可能是稀疏表示的输出神经元梯度和可能是稀疏表示的输入神经元计算出权值的梯度(用于在“权值更新”步骤更新本层的权值)，另一部分是使用可能是稀疏表示的输出神经元梯度和可能是稀疏表示的权值，计算出输入神经元梯度(用于作为反向运算中下一层的输出神经元梯度以供其进行反向运算)；

权值更新在执行完神经网络的反向运算之后，就计算出了各层的权值的梯度，在这个步骤中，所述装置的第一输入缓存和第二输入缓存分别用于存储本层的权值和权值的梯度，然后在运算单元中使用权值梯度对权值进行更新。本披露中提到的输入神经元和输出神经元并非是指整个神经网络的输入层中神经元和输出层中神经元，而是对于网络中任意相邻的两层，处于网络前馈运算下层中的神经元即为输入神经元，处于网络前馈运算上层中的神经元即为输出神经元。以卷积神经网络为例，设一个卷积神经网络有L层，K＝1,2,...,L-1，对于第K层和第K+1层来说，我们将第K层称为输入层，其中的神经元为所述输入神经元，第K+1层称为输出层，其中的神经元为所述输出神经元。即除最顶层外，每一层都可以作为输入层，其下一层为对应的输出层。

上文中提到的运算都是神经网络中的一层的运算，对于多层神经网络，其实现过程是，在正向运算中，当上一层人工神经网络执行完成之后，下一层的运算指令会将运算单元中计算出的输出神经元作为下一层的输入神经元进行运算(或者是对该输出神经元进行某些操作再作为下一层的输入神经元)，同时，将权值也替换为下一层的权值；在反向运算中，当上一层人工神经网络的反向运算执行完成后，下一层运算指令会将运算单元中计算出的输入神经元梯度作为下一层的输出神经元梯度进行运算(或者是对该输入神经元梯度进行某些操作再作为下一层的输出神经元梯度)，同时将权值替换为下一层的权值。具体如图1-5所示，图1-5中虚线的箭头表示反向运算，实现的箭头表示正向运算。

本披露中，如图1-6是本披露提供的矩阵操作指令的指令集的格式示意图，如图1-6所示，运算指令包括一操作码和至少一操作域，其中，操作码用于指示该运算指令的功能，运算单元通过识别该操作码可进行不同的矩阵运算，操作域用于指示该运算指令的数据信息，其中，数据信息可以是立即数或寄存器号，例如，要获取一个矩阵时，根据寄存器号可以在相应的寄存器中获取矩阵起始地址和矩阵长度，再根据矩阵起始地址和矩阵长度在存储介质中获取相应地址存放的矩阵。

指令集包含有不同功能的运算指令：

矩阵乘向量指令(MMV)，根据该指令，装置从存储器(优选的高速暂存存储器或者标量寄存器)的指定地址取出设定长度的矩阵数据和向量数据，在运算单元中进行矩阵乘向量的乘法运算，并将结果写回。优选的，并将计算结果写回至存储器(优选的高速暂存存储器或者标量寄存器)的指定地址；值得说明的是，向量可以作为特殊形式的矩阵(只有一行元素的矩阵)存储于存储器(优选的高速暂存存储器或者标量寄存器)中。

向量乘矩阵指令(VMM)，根据该指令，装置从存储器(优选的高速暂存存储器或者标量寄存器)的指定地址取出设定长度的向量数据和矩阵数据，在运算单元中进行向量乘矩阵的乘法运算，并将结果写回。优选的，并将计算结果写回至存储器(优选的高速暂存存储器或者标量寄存器)的指定地址；值得说明的是，向量可以作为特殊形式的矩阵(只有一行元素的矩阵)存储于存储器(优选的高速暂存存储器或者标量寄存器)中。

矩阵乘标量指令(VMS)，根据该指令，装置存储器(优选的高速暂存存储器或者标量寄存器)的指定地址取出设定长度的矩阵数据，从标量寄存器的指定地址中取出指定大小的矩阵数据，在运算单元中进行标量乘矩阵的乘法运算，并将计算结果写回。优选的，并将计算结果写回至存储器(优选的高速暂存存储器或者标量寄存器)的指定地址，需要说明的是，标量寄存器不仅存储有矩阵的地址，还存储有标量数据。

张量运算指令(TENS)，根据该指令，装置从存储器(优选的高速暂存存储器或者标量寄存器)的两个指定地址取出分别取出设定长度的两块矩阵数据，在运算单元中对两矩阵数据进行张量运算，并将计算结果写回。优选的，并将计算结果写回至存储器(优选的高速暂存存储器或者标量寄存器)的指定地址。

矩阵加法指令(MA)，根据该指令，装置从存储器(优选的高速暂存存储器或者标量寄存器)的两个指定地址取出分别取出设定长度的两块矩阵数据，在运算单元中对两矩阵进行加法运算，并将计算结果写回。优选的，并将计算结果写回至存储器(优选的高速暂存存储器或者标量寄存器)的指定地址。

矩阵减法指令(MS)，根据该指令，装置从存储器(优选的高速暂存存储器或者标量寄存器)的两个指定地址取出分别取出设定长度的两块矩阵数据，在运算单元中对两矩阵进行减法运算，并将计算结果写回。优选的，并将计算结果写回至存储器(优选的高速暂存存储器或者标量寄存器)的指定地址。

矩阵检索指令(MR)，根据该指令，装置从存储器(优选的高速暂存存储器或者标量寄存器)的指定地址取出设定长度的向量数据，从存储器(优选的高速暂存存储器或者标量寄存器)的指定地址取出指定大小的矩阵数据，在运算单元中，该向量是索引向量，输出的向量中的第i个元素是以索引向量的第i个元素作为索引，在矩阵的第i列中找到的数，该输出向量写回至存储器(优选的高速暂存存储器或者标量寄存器)的指定地址。

矩阵加载指令(ML)，根据该指令，装置从指定外部源地址载入设定长度的数据至存储器(优选的高速暂存存储器或者标量寄存器)的指定地址。

矩阵存储指令(MS)，根据该指令，装置将存储器(优选的高速暂存存储器或者标量寄存器)的指定地址的设定长度的矩阵数据存至外部目的地址处。

矩阵搬运指令(MMOVE)，根据该指令，装置将存储器(优选的高速暂存存储器或者标量寄存器)的指定地址的设定长度的矩阵数据存至存储器(优选的高速暂存存储器或者标量寄存器)的另一指定地址处。

上述指令中的设定长度可以由用户自行设定，在一个可选的实施方案中，用户可以将该设置长度设置为一个值，当然在实际应用中，用户也可以将该设置长度设置为多个值。本披露具体实施方式并不限定该设定长度的具体值以及个数。为使本披露的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本披露进一步详细说明。

参阅图1-7，图1-7为本披露具体实施方式提供的另一种计算装置50。图1-7所示，计算装置50包括：存储器501、标量数据存储单元502(优选的为标量寄存器单元)、矩阵计算单元503和控制单元504；

存储器501，用于存储矩阵；

标量数据存储单元502，用于存储标量数据，所述标量数据至少包括：所述矩阵在所述存储器内的存储地址；

控制单元504，用于控制所述矩阵计算单元获取第一运算指令，所述第一运算指令包括执行所述指令所需的矩阵读取指示；

运算单元503，用于依据所述矩阵读取指示向所述存储器发送读取命令；依据采用批量读取方式读取所述矩阵读取指示对应的矩阵，对该矩阵执行所述第一运算指令。

可选的，上述矩阵读取指示包括：所述指令所需的矩阵的存储地址或所述指令所需矩阵的标识。

可选的如所述矩阵读取指示为所述指令所需矩阵的标识时，

控制单元504，用于控制所述运算单元依据所述标识从所述寄存器单元出采用单位读取方式读取所述标识对应的存储地址，控制所述运算单元向所述存储器发送读取所述存储地址的读取命令并采用批量读取方式获取所述矩阵。

可选的，运算单元503，具体用于对该矩阵执行第一流水级的计算得到第一结果，将第一结果输入到第二流水级执行第二流水级得到第二结果，将所述第二结果输入到第三流水级执行第三流水级得到第三结果，一级一级向下执行后，将所述第n-1结果输入到第n流水级执行第n流水级的计算得到第n结果，将所述第n结果输入到所述存储器。n可以为大于等于2的整数。

可选的，所述计算装置还包括：

缓存单元505，用于缓存待执行的运算指令；

所述控制单元504，用于将待执行的运算指令缓存于所述缓存单元504内。

可选的，控制单元504，用于确定所述第一运算指令与所述第一运算指令之前的第二运算指令是否存在关联关系，如所述第一运算指令与所述第二运算指令存在关联关系，则将所述第一运算指令缓存与所述缓存单元内，在所述第二运算指令执行完毕后，从所述缓存单元提取所述第一运算指令传输至所述运算单元；

所述确定该第一运算指令与第一运算指令之前的第二运算指令是否存在关联关系包括：

依据所述第一运算指令提取所述第一运算指令中所需矩阵的第一存储地址区间，依据所述第二运算指令提取所述第二运算指令中所需矩阵的第二存储地址区间，如所述第一存储地址区间与所述第二存储地址区间具有重叠的区域，则确定所述第一运算指令与所述第二运算指令具有关联关系，如所述第一存储地址区间与所述第二存储地址区间不具有重叠的区域，则确定所述第一运算指令与所述第二运算指令不具有关联关系。

可选的，上述控制单元503，可以用于从指令缓存单元获取运算指令，并对该运算指令进行处理后，提供给所述运算单元。其中，控制单元503可以划分为三个模块，分别为：取指模块5031、译码模块5032和指令队列模块5033，

取指模5031，用于从指令缓存单元中获取运算指令；

译码模块5032，用于对获取的运算指令进行译码；

指令队列5033，用于对译码后的运算指令进行顺序存储，考虑到不同指令在包含的寄存器上有可能存在依赖关系，用于缓存译码后的指令，当依赖关系被满足之后发射指令。

参阅图1-5，图1-5是本披露实施例提供的计算装置执行矩阵乘向量指令的流程图，如图1-5所示，该计算装置的硬件结构参阅图1-4所示的结构，如图1-4所示的存储器以高速暂存存储器为例，执行矩阵乘向量指令的过程包括：

步骤S601，计算装置控制取指模块取出矩阵乘向量指令，并将该矩阵乘向量指令送往译码模块。

步骤S602，译码模块对该矩阵乘向量指令译码，并将该矩阵乘向量指令送往指令队列。

步骤S603，在指令队列中，该矩阵乘向量指令需要从标量寄存器中获取指令中五个操作域所对应的标量寄存器里的数据，该数据包括输入向量地址、输入向量长度、输入矩阵地址、输出向量地址和输出向量长度。

步骤S604，控制单元确定所述矩阵乘向量指令与矩阵乘向量指令之前的运算指令是否存在关联关系，如存在关联关系，将矩阵乘向量指令存入到缓存单元，如不存在关联管理，将该矩阵乘向量指令传输至运算单元。

步骤S605，运算单元根据五个操作域所对应的标量寄存器里的数据从高速暂存器中取出需要的矩阵和向量数据，然后在运算单元中完成乘法运算。

步骤S606，运算单元运算完成后，将结果写入存储器(优选的高速暂存存储器或者标量寄存器)的指定地址，重排序缓存中的该矩阵乘向量指令被提交。

上述图1-4中的矩阵计算指令以矩阵乘向量指令为例，在实际应用中，如图1-4所示实施例中的矩阵乘向量指令可以用向量乘矩阵指令、矩阵乘标量指令、张量运算指令、矩阵加法指令、矩阵减法指令、矩阵检索指令、矩阵加载指令、矩阵存储指令或矩阵搬运指令替换，这里不一一赘述。

图2-1是本披露提供的用于执行神经网络运算的装置的结构示意图，如图2-1所示，装置包括多个神经网络处理模块10及一个片上互联模块20，多个神经网络处理模块10与该片上互联单元20通信连接，上述神经网络处理单元具体可以为如图1-1所示的运算单元，当然在实际应用中，也可以为如图1-2所示的运算单元或如图1-3或能支持不同位宽运算数据的运算单元，当然在实际应用中，用于执行神经网络运算的装置还可以设置在人工神经网络正向运算的装置或用于稀疏连接的人工神经网络计算装置或其他的神经网络领域的计算装置、芯片或处理器内，其中：

神经网络处理模块10能够通过片上互联模块30从其它神经网络处理模块10中读写数据，还可从本地读写数据。当要执行神经网络运算时，每个神经网络处理模块10作为一个核执行相应的运算，其运算所需的数据可直接从本地直接获取，也可通过片上互联模块20与其他神经网络处理模块10通信，以从其他神经网络处理模块10处读取运算所需的数据。各个神经网络处理模块10读取运算所需的数据后，执行相应的运算，得到各自的运算结果数据，在单层神经网络运算中，各个神经网络处理模块10可将各自的运算结果数据汇总至一个神经网络处理模块10中进行累加，以得到最终结果数据。在多层神经网络运算中，当层各个神经网络处理模块10计算得到运算结果数据，可能在下一层作为运算所需的数据被其他神经网络处理模块10使用，这样在当层神经网络运算完毕后，各个神经网络处理模块10会进行数据交互，以准备进行下一层神经网络运算。

图2-2是本披露中神经网络处理模块的结构示意图，神经网络处理模块10包括神经网络处理单元11和存储单元12(具体的可以为高速存储单元，例如高速暂存存储器)；神经网络处理模块10在进行神经网络运算时，神经网络处理单元11直接从与其对应的高速储存单元12中读取数据，和/或通过片上互联单元20从其它神经网络处理模块10中的神经网络处理单元11中读取数据，和/或通过片上互联单元20从其它神经网络处理模块10中的高速存储单元12中读取数据；每个神经网络处理模块10中的神经网络处理单元11根据读取的数据进行神经网络运算，得到各自的运算结果数据；在完成运算后，神经网络处理单元11将运算结果数据直接写入至与其对应的高速储存单元12中，和/或通过片上互联单元20将运算结果数据写入至其它神经网络处理模块10中的神经网络处理单元11中，和/或通过片上互联单元20将运算结果数据写入至其它神经网络处理模块10中的高速存储单元12中。总之，神经网络处理单元11可直接从其对应的高速储存单元获取数据，也可以通过片上互联模块20获取其它位置的数据，这样避免了反复向内存读取数据，降低了内存访问带宽。

如图2-3所示，本披露提供的用于执行神经网络运算的装置还包括外部存储模块30，其与片上互联单元20通信连接，神经网络处理模块10还能够通过片上互联单元从外部存储模块中读写数据，利用外部存储模块30，可以从外界向装置中导入新的数据，装置执行的最终执行结果数据也可以写入至外部存储模块30，以供外部导出。其中，外部存储模块30可以通过硬件来实现(包括但不限于FPGA、CGRA、专用集成电路ASIC、模拟电路或忆阻器等)。

图2-4是本披露中神经网络处理单元11的结构示意图，如图2-4所示，神经网络处理单元11包括指令队列111、神经网络运算单元112、IO读取单元113、高速缓存单元114和同步关系单元115。指令队列111存储有多种类型的指令，神经网络处理单元11根据不同的指令执行不同的操作。

下表为各类指令的描述：

指令包括指令名称以及多个操作码：

数据送达指令，指令名称为ACK，其中各个操作码分别表示是否向该神经网络处理单元11发送数据送达信号(ACK信号)，神经网络处理单元11向其他神经网络处理单元11写入数据后，执行数据送达指令以发送数据送达信号给对应的神经网络处理单元11，以表明数据已经传输到位；

数据依赖指令，指令名称为FENCE，其中各个操作码表示是否检查来自该神经网络处理单元11的ACK信号；神经网络处理单元11执行数据依赖指令以检测其所有依赖的数据是否已经到达本神经网络处理单元。

数据同步指令，指令名称为SYNC，其中各个操作码表示该神经网络处理单元是否参与同步操作，神经网络处理单元11执行数据同步指令用以强制多个神经网络处理单元11做同步操作，即当多个神经网络都执行到当前指令后，这些神经网络处理单元才可以执行之后的指令；

COMPUTE(运算指令)，其中第一个操作码表示具体的计算任务，如MLP，CONV，POOL等，其余操作码用来表示输入输出数据的地址和大小，以及神经网络计算指令的配置信息。该COMPUTE指令也可以包括其他的运算指令，进行非线性激活和线性激活操作。当然在实际应用中，也可以是其他的神经网络的指令，例如，向量指令或矩阵指令，本申请并不限制上述COMPUTE指令具体包含的指令的具体表现形式。

输入输出指令，指令名称为IO，其中的操作码分别表示搬运数据的起始地址，结束地址以及数据大小的信息，神经网络处理单元11执行输入输出指令以与其余模块之间进行通信数据。

IO读取单元根据113根据指令队列111中的运算指令从该神经网络处理单元11的外部(如高速存储单元12、其他神经网络处理单元11等)读取数据，并将读取的数据缓存至高速缓存单元114中，神经网络运算单元112根据该运算指令从高速缓存单元114中读取所缓存的数据，并执行神经网络运算，得到相应的运算结果数据；

神经网络运算单元112将运算结果数据写入至高速缓存单元114中，当需要将运算结果数据发送中外部(其他神经网络处理单元11等)时，IO读取单元113从高速缓存单元114中读取运算结果数据，并将运算结果数据写入到该神经网络处理单元11的外部。

图2-5是本披露中片上互联单元的结构示意图。其中，所述片上互联单元包括相互级联的N级互联模块组成，且每一级互联模块的个数并不做限定。具体的，如图2-5仅示出由一个一级互联模块和多个二级互联模块互联的片上互联模块。如图2-5所示，片上互联模块20包括一级互联模块21和与该一级互联模块通信连接的多个二级互联模块22，一级互联模块21还与外部存储模块30通信连接，多个二级互联模块22与多个神经网络处理模块10一一对应，其中，每个二级互联模块22分别与相应神经网络处理模块中的神经网络处理单元11和高速存储单元12通信连接。具体的，二级的互联模块22一个端口连接神经网络处理单元11，一个端口连接该神经网络处理单元对应的高速存储单元12，另一个端口连接一级互联模块21，一级互联模块21将多个二级互联模块22和外部存储模块30连接，用以保证这些模块之间的数据通路。这样，可以在保证各个神经网络处理单元11以及高速存储单元12和外部存储模块30之间相互通信，并且占用较小的面积开销。

采用本披露以上所描述的装置，可执行单层神经网络运算，包括：

S1，每个神经网络处理模块10根据其自身指令队列11中存储的计算指令，根据指令中操作码所指示的地址，直接从本地读取数据，和/或通过片上互联模块20从其它神经网络处理模块10中读取数据；

S2，每个神经网络处理模块10根据读取的数据进行单层神经网络的部分运算，得到各自的运算结果数据；

S3，每个神经网络处理模块10将各自的运算结果数据进行本地存储和/或通过片上互联模块20将各自的运算结果数据写入至其他神经网络处理模块10中。

对于多层神经网络运算，其实现过程与单层神经网络类似，当上一层人工神经网络执行完毕后，在下一层运算时，每个神经网络处理模块10根据新的运算指令从新的地址读取新的数据进行计算，并且依据新的指令在多核(即多个神经网络处理模块10)之间分配计算任务。对于每一层神经网络运算，执行上述步骤S1-S3，并将该层各神经网络处理模块10得到的运算结果数据用于下一层神经网络运算。

为使本披露的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本披露进一步详细说明。

图2-6是本披露执行一层全连接层运算实施例的流程图，其执行过程如图2-6所示：

步骤1：依据全连接运算指令，每个神经网络处理单元11从对应的高速存储单元12中读取数据，分别计算得到全连接层的部分运算结果数据。

在每个神经网络处理单元11中，指令队列111将运算指令COMPUTE发送至神经网络运算单元112和IO读取单元113，神经网络运算单元112根据全连接运算指令的第一操作码确定全连接运算操作，确定将要执行一层全连接层运算，具体的，IO读取单元113根据运算指令COMPUTE中的地址从其对应的高速存储单元12中读取运算所需数据，并将读取的数据存储于高速缓存单元114中，神经网络运算单元112从高速缓存单元114中读取相应的数据，然后根据读取的数据全连接运算操作，以进行全连接层的部分运算，得到全连接层的部分运算结果数据作为输出数据。

步骤2：依据输入输出指令IO，每个神经网络处理单元11将自己计算的到的部分运算结果数据通过片上互联模块20发送给相应的神经网络处理单元11。由于每个神经网络处理单元11只计算出部分运算结果数据，因此其需要将该部分输出数据发送给相应的神经网络处理单元11进行加和运算。

具体的，步骤1中神经网络运算单元112将计算得到的部分运算结果数据存储于高速缓存单元114中，指令队列111将输入输出指令IO发送给IO读取单元113后，IO读取单元113执行输出指令IO，以将存储于高速缓存单元114中的部分运算结果数据读取，并发送至外部的相应的神经网络处理单元11。这里需要说明的是，每个神经网络处理单元11可能会将部分运算结果数据发送至一个对应的神经网络处理单元11中，也可能发送至多个对应的神经网络处理单元11中，也就是说，每个神经网络处理单元11也可能收到一个神经网络处理单元11发送的部分运算结果数据，也可能收到多个神经网络处理单元11发送的部分运算结果数据。

步骤3：每个神经网络处理单元11将自己计算的到的部分运算结果数据发送给相应的神经网络处理单元11后，需要执行数据送达指令ACK，以向对应的神经网络处理单元11发送数据送达信号。每个神经网络处理单元11需要向接受其发送数据的神经网络处理单元11发送数据送达信号，用以表明其数据依赖关系。

步骤4：依据数据依赖指令FENCE，每个神经网络处理单元11检测其发送数据送达信号是否到达相应的神经网络处理单元11，如果没有到达，则等待对应的数据送达信号到达相应的神经网络处理单元11。对于每个将要进行加和运算神经网络处理单元11，只有其收到所有其他神经网络处理单元11所发送的数据送达信号时，才表明其所需要的输入数据全部到达，从而执行加和运算。

步骤5：依据运算指令COMPUTE，每个的神经网络处理单元11汇集其他神经网络处理单元11的部分运算结果数据后，联合上自身运算所得的部分运算结果数据进行加和运算，得到最终的运算结果数据。

步骤6：依据输入输出指令IO，每个神经网络处理单元11将计算得到的最终的运算结果数据作为输出数据写入外部存储模块30中。在每个神经网络处理单元11中，将最终的运算结果数据写入外部存储模块30中的执行过程与步骤2类似，在此就不再赘述。

综上所述，本披露提供的装置和指令集，解决了CPU和GPU运算性能不足、前端译码开销大的问题，能有效支持多层人工神经网络运算，同时，针对多核多层人工神经网络运算采用专用片上存储，充分挖掘了神经元和权值数据的重用性，避免了反复向内存读取这些数据，降低了内存访问带宽，避免了内存带宽成为多层人工神经网络全连接层正向运算性能瓶颈的问题。

向量内积指令(VP)。根据该指令，装置分别从存储器(优选的高速暂存存储器或者标量寄存器)的指定地址取出指定大小的向量数据，在向量计算单元中将两向量进行内积(张量)运算，并将结果写回。优选的，结果写会至存储器(优选的高速暂存存储器或者标量寄存器)得指定地址。

向量外积指令(TENS)。根据该指令，装置分别从存储器(优选的高速暂存存储器或者标量寄存器)的指定地址取出指定大小的向量数据，在向量计算单元中将两向量进行外积运算，并将结果写回。优选的，并将结果写回至存储器(优选的高速暂存存储器或者标量寄存器)的指定地址；

向量四则运算，包括：向量加标量指令(VAS)，根据该指令，装置从存储器(优选的高速暂存存储器或者标量寄存器)的指定地址取出指定大小的向量数据，从存储器标量寄存器的指定地址取出标量数据，在标量运算单元中将向量的每一个元素加上该标量值，并将结果写回并将结果写回。优选的，并将结果写回至存储器(优选的高速暂存存储器或者标量寄存器)的指定地址；

标量减向量指令(SSV)。根据该指令，装置从存储器(优选的高速暂存存储器或者标量寄存器)标量寄存器的指定地址取出标量数据，从存储器(优选的高速暂存存储器或者标量寄存器)的指定地址取出向量数据，在向量计算单元中用该标量减去向量中的相应元素，并将结果写回并将结果写回。优选的，并将结果写回存储器(优选的高速暂存存储器或者标量寄存器)的指定地址；

向量除法指令(VD)。根据该指令，装置从存储器(优选的高速暂存存储器或者标量寄存器)的指定地址取出分别取出指定大小的向量数据，在向量运算单元中将两向量对位相除，并将结果写回并将结果写回。优选的，并将结果写回至存储器(优选的高速暂存存储器或者标量寄存器)的指定地址；

标量除向量指令(SDV)。根据该指令，装置从存储器(优选的高速暂存存储器或者标量寄存器)标量寄存器的指定位置取出标量数据，从存储器(优选的高速暂存存储器)的指定位置取出指定大小的向量数据，在向量计算单元中用标量分别除以向量中的相应元素，并将结果写回并将结果写回。优选的，并将结果写回至存储器(优选的高速暂存存储器或者标量寄存器)的指定位置；

向量逻辑指令，包括：

向量间与指令(VAV)。根据该指令，装置从存储器(优选的高速暂存存储器或者标量寄存器)的指定地址取出分别取出指定大小的向量数据，在向量运算单元中将两向量对位相与，并将结果写回并将结果写回。优选的，并将结果写回至存储器(优选的高速暂存存储器或者标量寄存器)的指定地址；

向量内与指令(VAND)。根据该指令，装置从存储器(优选的高速暂存存储器或者标量寄存器)的指定地址取出指定大小的向量数据，在向量运算单元中向量中每一位相与，并将结果写回并将结果写回。优选的，并将结果写回至存储器(优选的高速暂存存储器或者标量寄存器)标量寄存器的指定地址；

向量间或指令(VOV)。根据该指令，装置从存储器(优选的，高速暂存存储器)的指定地址取出分别取出指定大小的向量数据，在向量运算单元中将两向量对位相或，并将结果写回并将结果写回。优选的，并将结果写回至存储器(优选的，高速暂存存储器或者标量寄存器)的指定地址；

向量内或指令(VOR)。根据该指令，装置从存储器(优选的，高速暂存存储器或者标量寄存器)的指定地址取出指定大小的向量数据，在向量运算单元中向量中每一位相或，并将结果写回并将结果写回。优选的，并将结果写回至存储器(优选的，高速暂存存储器或者标量寄存器)标量寄存器的指定地址；

超越函数指令，根据该指令，装置从存储器(优选的，高速暂存存储器或者标量寄存器)的指定地址取出指定大小的向量数据，在运算单元中对向量数据做超越函数运算，并将结果写回并将结果写回。优选的，并将结果写回至存储器(优选的高速暂存存储器或者标量寄存器)存储单元的指定地址。优选的，将结果写回至存储器(优选的，高速暂存存储器或者标量寄存器)的指定地址。

向量比较运算指令，包括

大于等于运算指令(GE)，根据该指令，装置可以直接从指令中或者通过访问指令提供的寄存器存储器(优选的，高速暂存存储器或者标量寄存器)的编号号来获得指令的参数，包括向量的长度、两向量的起始地址以及输出向量的存储地址，然后读取两向量数据，在向量比较运算单元中对向量中所有位置上的元素进行比较，若某位置行前一向量的值大于等于后一向量的值，则将比较结果向量在该位置上的值置为1，否则置为0。最后将比较结果写回至存储器(优选的，高速暂存存储器或者标量寄存器)的指定存储地址。

小于等于运算指令(LE)，根据该指令，装置可以直接从指令中或者通过访问指令提供的存储器(优选的，高速暂存存储器或者标量寄存器)的编号寄存器号来获得指令的参数，包括向量的长度、两向量的起始地址以及输出向量的存储地址，然后读取两向量数据，在向量比较运算单元中对向量中所有位置上的元素进行比较，若某位置行前一向量的值小于等于后一向量的值，则将比较结果向量在该位置上的值置为1，否则置为0。最后将比较结果写回到存储器(优选的，高速暂存存储器或者标量寄存器)值的指定存储地址。

大于运算指令(GT)，根据该指令，装置可以直接从指令中或者通过访问指令提供的存储器(优选的，高速暂存存储器或者标量寄存器)的编号寄存器号来获得指令的参数，包括向量的长度、两向量的起始地址以及输出向量的存储地址，然后读取两向量数据，在向量比较运算单元中对向量中所有位置上的元素进行比较，若某位置行前一向量的值大于后一向量的值，则将比较结果向量在该位置上的值置为1，否则置为0。最后将比较结果写回值到存储器(优选的高速暂存存储器或者标量寄存器)的指定存储地址。

小于运算指令(LT)，根据该指令，装置可以直接从指令中或者通过访问指令提供的存储器(优选的，高速暂存存储器或者标量寄存器)的编号寄存器号来获得指令的参数，包括向量的长度、两向量的起始地址以及输出向量的存储地址，然后读取两向量数据，在向量比较运算单元中对向量中所有位置上的元素进行比较，若某位置行前一向量的值小于后一向量的值，则将比较结果向量在该位置上的值置为1，否则置为0。最后将比较结果写回到存储器(优选的，高速暂存存储器或者标量寄存器)值的指定存储地址。

等于运算指令(EQ)，根据该指令，装置可以直接从指令中或者通过访问指令提供的存储器(优选的高速暂存存储器或者标量寄存器)的编号寄存器号来获得指令的参数，包括向量的长度、两向量的起始地址以及输出向量的存储地址，然后读取两向量数据，在向量比较运算单元中对向量中所有位置上的元素进行比较，若某位置行前一向量的值等于后一向量的值，则将比较结果向量在该位置上的值置为1，否则置为0。最后将比较结果写回值到存储器(优选的，高速暂存存储器或者标量寄存器)的编号的指定存储地址。

不等于运算指令(UEQ)，根据该指令，装置可以直接从指令中或者通过访问指令提供的存储器(优选的，高速暂存存储器或者标量寄存器)的编号寄存器号来获得指令的参数，包括向量的长度、两向量的起始地址以及输出向量的存储地址，然后读取两向量数据，在向量比较运算单元中对向量中所有位置上的元素进行比较，若某位置行前一向量的值不等于后一向量的值，则将比较结果向量在该位置上的值置为1，否则置为0。最后将比较结果写回值到存储器(优选的，高速暂存存储器或者标量寄存器)的指定存储地址。

向量最大值指令(VMAX)。根据该指令，装置从存储器(优选的，高速暂存存储器或者标量寄存器)高速暂存存储器的指定地址取出指定大小的向量数据，从中选出最大的元素作为结果，并将结果写回并将结果写回。优选的，并将结果写回至存储器(优选的，高速暂存存储器或者标量寄存器)标量寄存器的指定地址；

向量最小值指令(VMIN)。根据该指令，装置从存储器(优选的，高速暂存存储器或者标量寄存器)高速暂存存储器的指定地址取出指定大小的向量数据，从中选出最小的元素作为结果，并将结果写回并将结果写回。优选的，并将结果写回至存储器(优选的，高速暂存存储器或者标量寄存器)标量寄存器的指定地址；

循环移位运算指令：根据该指令，装置可以直接从指令中或者通过访问指令提供的存储器(优选的，高速暂存存储器或者标量寄存器)的编寄存器号来获得指令的参数，然后在向量移位单元(可以是独立的向量移位单元也可以是使用计算单元)中进行循环移位移位，并将移位后的结果写回至存储器(优选的，高速暂存存储器或者标量寄存器)高速暂存存储器的指定存储地址。循环移位运算指令，包含四个操作域，向量的起始地址和长度，移位步长，以及输出向量的存储地址，

随机向量生成指令，根据该指令，装置从指令或从存储器(优选的，高速暂存存储器或者标量寄存器)寄存器中读取一个或多个随机分布参数，以及要生成的随机向量的大小和存储地址，然后在随机向量生成单元中生成服从随机分布的随机向量，并将生成的随机向量结果写回至指定的存储器(优选的，高速暂存存储器或者标量寄存器)的存储地址。

随机向量生成指令具体可以为：

均匀分布指令(UNIF)，根据该指令，装置从指令或从存储器(优选的，高速暂存存储器或者标量寄存器)寄存器中读取均匀分布的上界参数和下界参数，以及要生成的随机向量的大小和存储地址，然后在随机向量生成单元中生成服从该均匀分布的随机向量，并将生成的随机向量结果写回至指定的存储器(优选的，高速暂存存储器或者标量寄存器)的存储地址。

高斯分布指令(GAUS)，根据该指令，装置从指令或从寄存器存储器(优选的，高速暂存存储器或者标量寄存器)堆中读取高斯分布的均值参数和方差参数，以及要生成的随机向量的大小和存储地址，然后在随机向量生成单元中生成服从该高斯分布的随机向量，并将生成的随机向量结果写回至指定的存储器(优选的，高速暂存存储器或者标量寄存器)的存储地址。

上述指令的格式示意图如图3-1所示，神经网络运算指令的格式示意图如图3-2所示，矩阵运算指令的格式示意图如图3-3所示；向量运算指令的格式示意图如图3-4所示；矩阵-向量运算指令的格式示意图如图3-5所示。需要说明的是，上述指令的格式示意图仅仅只是一种可能存在的实施例，本披露对上述指令的格式并不限定在上述图示中的表现形式。

在另一可选的实施例中，所述运算单元可以包括一个主处理电路以及多个从处理电路。

所述主处理电路，用于将将一个输入数据分配成多个数据块，将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述从处理电路；

所述多个从处理电路，用于依据该运算指令对接收到的数据块执行运算得到中间结果，并将运算结果传输给所述主处理电路；

所述主处理电路，用于将多个从处理电路发送的中间结果进行处理得到该运算指令的结果，将该运算指令的结果发送给所述数据控制单元。

在一种可选实施例中，运算单元如图4-1所示，可以包括分支处理电路；其中，

主处理电路与分支处理电路连接，分支处理电路与多个从处理电路连接；

分支处理电路，用于执行转发主处理电路与从处理电路之间的数据或指令。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施例而已，并不用于限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于执行神经网络运算的装置，其特征在于，包括片上互联模块和与该片上互联单元通信连接的多个神经网络处理模块，其中：

所述存储单元，用于存储向量；

所述寄存器单元，用于存储向量地址；

运算单元，用于获取向量运算指令，根据向量运算指令在所述寄存器单元中获取向量地址，根据该向量地址在存储单元中获取相应的向量，根据获取的向量进行向量运算，得到向量运算结果。

2.根据权利要求1所述的方法，其特征在于，所述装置还包括：外部存储模块；所述外部存储模块与所述片上互联单元通信连接，所述神经网络处理模块通过所述片上互联单元从所述外部存储模块中读写数据。

3.根据权利要求1-2任意一项所述的方法，其特征在于，所述向量运算指令包括：

向量内积指令，根据该指令，装置分别从存储器的指定地址取出指定大小的向量数据，在向量计算单元中将两向量进行内积运算，并将结果写回；

向量外积指令，根据该指令，装置分别从存储器的指定地址取出指定大小的向量数据，在向量计算单元中将两向量进行外积运算，并将结果写回；

向量四则运算包括：向量加标量指令，根据该指令，装置从存储器的指定地址取出指定大小的向量数据，从存储器标量寄存器的指定地址取出标量数据，在标量运算单元中将向量的每一个元素加上该标量值，并将结果写回并将结果写回；

标量减向量指令，根据该指令，装置从存储器标量寄存器的指定地址取出标量数据，从存储器的指定地址取出向量数据，在向量计算单元中用该标量减去向量中的相应元素，并将结果写回并将结果写回；

向量除法指令，根据该指令，装置从存储器的指定地址取出分别取出指定大小的向量数据，在向量运算单元中将两向量对位相除，并将结果写回并将结果写回；

标量除向量指令，根据该指令，装置从存储器标量寄存器的指定位置取出标量数据，从存储器的指定位置取出指定大小的向量数据，在向量计算单元中用标量分别除以向量中的相应元素，并将结果写回并将结果写回；

向量逻辑指令，包括：

向量间与指令，根据该指令，装置从存储器的指定地址取出分别取出指定大小的向量数据，在向量运算单元中将两向量对位相与，并将结果写回并将结果写回；

向量内与指令，根据该指令，装置从存储器的指定地址取出指定大小的向量数据，在向量运算单元中向量中每一位相与，并将结果写回并将结果写回；

向量间或指令，根据该指令，装置从存储器的指定地址取出分别取出指定大小的向量数据，在向量运算单元中将两向量对位相或，并将结果写回并将结果写回；

向量内或指令，根据该指令，装置从存储器的指定地址取出指定大小的向量数据，在向量运算单元中向量中每一位相或，并将结果写回并将结果写回；

超越函数指令，根据该指令，装置从存储器的指定地址取出指定大小的向量数据，在运算单元中对向量数据做超越函数运算，并将结果写回并将结果写回；

向量比较运算指令，包括

大于等于运算指令，根据该指令，装置可以直接从指令中或者通过访问指令提供的寄存器存储器的编号来获得指令的参数，包括向量的长度、两向量的起始地址以及输出向量的存储地址，然后读取两向量数据，在向量比较运算单元中对向量中所有位置上的元素进行比较，若某位置行前一向量的值大于等于后一向量的值，则将比较结果向量在该位置上的值置为1，否则置为0，最后将比较结果写回至存储器的指定存储地址；

小于等于运算指令，根据该指令，装置可以直接从指令中或者通过访问指令提供的存储器的编号寄存器号来获得指令的参数，包括向量的长度、两向量的起始地址以及输出向量的存储地址，然后读取两向量数据，在向量比较运算单元中对向量中所有位置上的元素进行比较，若某位置行前一向量的值小于等于后一向量的值，则将比较结果向量在该位置上的值置为1，否则置为0，最后将比较结果写回到存储器值的指定存储地址；

大于运算指令，根据该指令，装置可以直接从指令中或者通过访问指令提供的存储器的编号寄存器号来获得指令的参数，包括向量的长度、两向量的起始地址以及输出向量的存储地址，然后读取两向量数据，在向量比较运算单元中对向量中所有位置上的元素进行比较，若某位置行前一向量的值大于后一向量的值，则将比较结果向量在该位置上的值置为1，否则置为0，最后将比较结果写回值到存储器的指定存储地址；

小于运算指令，根据该指令，装置可以直接从指令中或者通过访问指令提供的存储器的编号寄存器号来获得指令的参数，包括向量的长度、两向量的起始地址以及输出向量的存储地址，然后读取两向量数据，在向量比较运算单元中对向量中所有位置上的元素进行比较，若某位置行前一向量的值小于后一向量的值，则将比较结果向量在该位置上的值置为1，否则置为0，最后将比较结果写回到存储器值的指定存储地址；

等于运算指令，根据该指令，装置可以直接从指令中或者通过访问指令提供的存储器的编号寄存器号来获得指令的参数，包括向量的长度、两向量的起始地址以及输出向量的存储地址，然后读取两向量数据，在向量比较运算单元中对向量中所有位置上的元素进行比较，若某位置行前一向量的值等于后一向量的值，则将比较结果向量在该位置上的值置为1，否则置为0，最后将比较结果写回值到存储器的编号的指定存储地址；

不等于运算指令，根据该指令，装置可以直接从指令中或者通过访问指令提供的存储器的编号寄存器号来获得指令的参数，包括向量的长度、两向量的起始地址以及输出向量的存储地址，然后读取两向量数据，在向量比较运算单元中对向量中所有位置上的元素进行比较，若某位置行前一向量的值不等于后一向量的值，则将比较结果向量在该位置上的值置为1，否则置为0，最后将比较结果写回值到存储器的指定存储地址；

向量最大值指令，根据该指令，装置从存储器高速暂存存储器的指定地址取出指定大小的向量数据，从中选出最大的元素作为结果，并将结果写回并将结果写回；

向量最小值指令，根据该指令，装置从存储器高速暂存存储器的指定地址取出指定大小的向量数据，从中选出最小的元素作为结果，并将结果写回并将结果写回；

循环移位运算指令：根据该指令，装置可以直接从指令中或者通过访问指令提供的存储器的编寄存器号来获得指令的参数，然后在向量移位单元中进行循环移位移位，并将移位后的结果写回至存储器(优选的，高速暂存存储器或者标量寄存器)高速暂存存储器的指定存储地址；

随机向量生成指令，根据该指令，装置从指令或从存储器寄存器中读取一个或多个随机分布参数，以及要生成的随机向量的大小和存储地址，然后在随机向量生成单元中生成服从随机分布的随机向量，并将生成的随机向量结果写回至指定的存储器的存储地址。

4.根据权利要求1-2任意一项所述的用于执行神经网络运算的装置，其特征在于，所述神经网络处理模块还包括：存储单元、寄存器单元和矩阵运算单元；

所述存储单元，用于存储矩阵；

所述寄存器单元，用于存储矩阵地址；

矩阵运算单元，用于获取矩阵运算指令，根据矩阵运算指令在所述寄存器单元中获取矩阵地址，根据该矩阵地址在存储单元中获取相应的矩阵，根据获取的矩阵进行矩阵运算，得到矩阵运算结果。

5.根据权利要求1-2任意一项所述的用于执行神经网络运算的装置，其特征在于，所述神经网络处理模块用于依据所述寄存器单元的矩阵地址从所述存储单元读写数据；

所述存储单元为高速存储单元。

6.根据权利要求1-2任意一项所述的用于执行神经网络运算的装置，其特征在于，所述的所述神经网络处理模块还包括：

依赖关系处理单元，用于在所述矩阵运算单元获取矩阵运算指令前，判断该矩阵运算指令与前一矩阵运算指令是否访问相同的矩阵，若是，则等待前一矩阵运算指令执行完毕后，将该矩阵运算指令提供给所述矩阵运算单元；否则，直接将该矩阵运算指令提供给所述矩阵运算单元。

7.根据权利要求5所述的用于执行神经网络运算的装置，其特征在于，所述神经网络处理单元包括指令队列、高速缓存单元、IO读取单元和神经网络运算单元，其中：

所述指令队列存储有运算指令，所述IO读取单元根据所述运算指令从该神经网络处理单元的外部读取数据，并将读取的数据缓存至所述高速缓存单元中，所述神经网络运算单元根据该运算指令从所述高速缓存单元中读取所缓存的数据，并执行神经网络运算，得到运算结果数据；

所述神经网络运算单元将所述运算结果数据写入至所述高速缓存单元中，所述IO读取单元从所述高速缓存单元中读取所述运算结果数据，并将所述运算结果数据写入到该神经网络处理单元的外部。

8.根据权利要求1所述的用于执行神经网络运算的装置，其特征在于，

所述运算单元包括：一个主运算单元和多个从运算单元，

所述主运算单元，用于将将一个输入数据分配成多个数据块，将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述多个从运算单元；

所述多个从处理单元，用于依据该运算指令对接收到的数据块执行运算得到中间结果，并将运算结果传输给所述主处理单元；

所述主处理单元，用于将多个从处理单元发送的中间结果进行处理得到该运算指令的结果，将该运算指令的结果发送给所述控制单元。

9.根据权利要求8所述的用于执行神经网络运算的装置，其特征在于，所述运算单元还包括：分支处理电路；其中，

主处理单元与分支处理电路连接，分支处理电路与多个从处理单元连接；

分支处理电路，用于执行转发主处理单元与从处理单元之间的数据或指令。

10.一种执行神经网络运算的方法，其特征在于，所述方法用于执行神经网络运算的装置，所述装置包括片上互联模块和与该片上互联单元通信连接的多个神经网络处理模块，所述神经网络处理模块包括：存储单元、寄存器单元和向量运算单元；所述方法包括：

所述神经网络处理模块通过所述片上互联模块从其它神经网络处理模块中读写数据；

所述存储单元存储向量；

所述寄存器单元存储向量地址；

运算单元获取向量运算指令，根据向量运算指令在所述寄存器单元中获取向量地址，根据该向量地址在存储单元中获取相应的向量，根据获取的向量进行向量运算，得到向量运算结果。

11.根据权利要求10所述的方法，其特征在于，所述向量运算指令包括：

向量逻辑指令，包括：

向量比较运算指令，包括

12.根据权利要求10或11所述的方法，其特征在于，所述运算单元包括：一个主运算单元和多个从运算单元，所述方法具体包括：

所述主运算单元将一个输入数据分配成多个数据块，将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述多个从运算单元；

所述多个从处理单元依据该运算指令对接收到的数据块执行运算得到中间结果，并将运算结果传输给所述主处理单元；

所述主处理单元将多个从处理单元发送的中间结果进行处理得到该运算指令的结果，将该运算指令的结果发送给所述控制单元。