CN110688159B

CN110688159B - 神经网络任务处理系统

Info

Publication number: CN110688159B
Application number: CN201911058837.0A
Authority: CN
Inventors: 陈天石; 刘少礼; 王在; 胡帅
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2017-07-20
Filing date: 2018-07-13
Publication date: 2021-12-14
Anticipated expiration: 2038-07-13
Also published as: CN110688158B; CN109284822A; CN107844322A; CN110597559B; CN107832082A; CN107844322B; CN107729990A; CN107729989B; CN107832082B; CN110688157B; CN110688158A; CN110688157A; CN109284822B; CN110036369B; CN110597558B; CN110688159A; CN107807819A; US20210224069A1; CN107729989A; EP3686734A1

Abstract

本申请提供了一种神经网络任务处理系统，所述神经网络任务处理系统包括：n个计算装置，m个反向计算模块、控制模块和互联装置。

Description

神经网络任务处理系统

技术领域

本申请属于神经网络运算领域，尤其涉及一种神经网络任务处理系统。

背景技术

数据处理是大部分算法需要经过的步骤或阶段，在计算机引入数据处理领域后，越来越多的数据处理通过计算机来实现，现有的算法中有计算设备在进行神经网络的数据计算时速度慢，效率低。

申请内容

有鉴于此，本申请提供一种神经网络任务处理系统，能够提高计算速度，并且运算性能高效。

本申请提供一种神经网络任务处理系统，其特征在于，所述系统包括：n个计算装置，m个反向计算模块、控制模块和互联装置；

所述控制模块通过所述互联装置与所述n个计算装置和m个反向计算模块连接和通信；

所述计算装置，用于在执行神经网络正向计算；

所述反向计算模块，用于执行神经网络反向计算。

附图说明

图1-1是本申请实施例提供的计算装置的另一种结构示意图。

图1-2是本申请实施例提供的卷积计算指令的流程示意图。

图2-1示意性示出了根据本申请实施例的多处理器的一种实施例示意图。

图2-2示意性示出了根据本申请实施例的多处理器的另一种实施例示意图。

图2-3示出了根据本申请实施例的用于训练和推理的神经网络计算系统结构示意图。

图2-4示出了根据本申请实施例的计算处理器共享存储单元的计算系统结构示意图。

图2-5示出了根据本申请实施例的计算处理器，控制处理器共享存储单元的神经网络计算系统的结构示意图。

图2-6示出了根据本申请实施例的用于复杂神经网络任务的系统的示例框图；

图3-1示出了根据本申请实施例的用于执行支持离散数据表示的人工神经网络正向运算的装置中主运算模块结构的示例框图；

图3-2示出了根据本申请实施例的用于执行支持离散数据表示的人工神经网络正向运算的装置中从运算模块结构的示例框图；

图3-3示出了根据本申请实施例的运算单元示例结构；

图3-4示出了根据本申请实施例的连续数据和离散数据转化的连续离散转化模块的示例结构；

图4-1为依据本公开的神经网络运算装置的结构示意图；

图4-2为依据本公开的神经网络运算装置的结构示意图；

图4-3为依据本公开的神经网络运算方法流程图；

图4-3.1为依据本公开的编码表的示意图；

图4-3.2为依据本公开的编码表的另一示意图；

图4-3.3为依据本公开的编码表的另一示意图；

图4-3.4为依据本公开的编码表的另一示意图；

图4-3.5为依据本公开的幂次数据的表示方法示意图；

图4-3.6为依据本公开的神经元与幂次权值的乘法操作示意图；

图4-3.7为依据本公开的神经元与幂次权值的乘法操作示意图。

具体实施方式

参阅图1-1，图1-1提供了一种计算装置，该计算装置包括：存储器611(可选的)、寄存器单元612、互联模块613、运算单元614、控制单元615和数据访问单元616；

其中，运算单元614包括：加法计算器、乘法计算器、比较器、激活运算器中至少二种。

互联模块613，用于控制运算单元614中计算器的连接关系使得该至少二种计算器组成不同的计算拓扑结构。

指令存储单元(可以是寄存器单元，指令缓存，高速暂存存储器)612，用于存储该运算指令、数据块的在存储介质的地址、运算指令对应的计算拓扑结构。

该运算指令可以包括：操作域以及操作码，以卷积计算指令为例，如下表所示，其中，寄存器0、寄存器1、寄存器堆2、寄存器3、寄存器4可以为操作域。其中，每个寄存器0、寄存器1、寄存器2、寄存器3、寄存器4可以是一个或者多个寄存器。

存储器611可以为片外存储器，当然在实际应用中，当为片内存储器时，该片内存储器可以为缓存，具体的，可以为高速暂存缓存，用于存储数据块，该数据块具体可以为n维数据，n为大于等于1的整数，例如，n＝1时，为1维数据，即向量，如n＝2时，为2维数据，即矩阵，如n＝3或3以上时，为多维数据。

控制单元615，用于从寄存器单元612内提取运算指令、该运算指令对应的操作域以及该运算指令对应的第一计算拓扑结构，将该运算指令译码成执行指令，该执行指令用于控制运算单元执行运算操作，将该操作域传输至数据访问单元616，。

数据访问单元616，用于从存储器611中提取该操作域对应的数据块，并将该数据块传输至互联模块613。

互联模块613、用于接收数据块，将该数据块发送至运算单元614。

运算单元614，用于该执行指令调用运算单元614的计算器对该数据块执行运算操作得到运算结果，将该运算结果传输至数据访问单元存储在存储器内。一个实施例里，运算单元614，用于按第一计算拓扑结构以及该执行指令调用计算器对数据块执行运算操作得到运算结果，将该运算结果传输至数据访问单元存储在存储器内。

在一种可选的实施例中，上述第一计算拓扑结构可以为：乘法运算器-加法运算器-加法运算器-激活运算器。

下面通过不同的运算指令来说明如图1-1所示的计算装置的具体计算方法，这里的运算指令以卷积计算指令为例，该卷积计算指令可以应用在神经网络中，所以该卷积计算指令也可以称为卷积神经网络。对于卷积计算指令来说，其实际需要执行的公式可以为:s＝s(∑wx_i+b),其中，即将卷积核w乘以输入数据x_i，进行求和，然后加上偏置b后做激活运算，得到最终的输出结果s。依据该公式即可以得到该计算拓扑结构为，乘法运算器-加法运算器-(可选的)激活运算器。

上述运算指令可以包括指令集，该指令集包括：卷积神经网络指令，有不同功能的卷积神经网络COMPUTE指令以及CONFIG指令、IO指令、NOP指令、JUMP指令和MOVE指令。在一种实施例中，COMPUTE指令包括：

卷积神经网络指令，根据该指令，装置分别从存储器(优选的高速暂存存储器或者标量寄存器堆)的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积运算直接得到输出结果。即该指令不执行后续的操作，直接做卷积运算得到输出结果。

卷积神经网络sigmoid指令，根据该指令，装置分别从存储器(优选的高速暂存存储器或者标量寄存器堆)的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积操作，优选的，然后将输出结果做sigmoid激活；

卷积神经网络TanH指令，根据该指令，装置分别从存储器(优选的高速暂存存储器)的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积操作，优选的，然后将输出结果做TanH激活；

卷积神经网络ReLU指令，根据该指令，装置分别从存储器(优选的高速暂存存储器)的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积操作，优选的，然后将输出结果做ReLU激活；以及

卷积神经网络group指令，根据该指令，装置分别从存储器(优选的高速暂存存储器)的指定地址取出指定大小的输入数据和卷积核，划分group之后，在卷积运算部件中做卷积操作，优选的，然后将输出结果做激活。

CONFIG指令在每层人工神经网络计算开始前配置当前层计算需要的各种常数。

IO指令实现从外部存储空间读入计算需要的输入数据以及在计算完成后将数据存回至外部空间。

NOP指令负责清空当前装置内部所有控制信号缓存队列中的控制信号，保证NOP指令之前的所有指令全部指令完毕。NOP指令本身不包含任何计算操作；

JUMP指令负责控制将要从指令存储单元读取的下一条指令地址的跳转，用来实现控制流的跳转；

MOVE指令负责将装置内部地址空间某一地址的数据搬运至装置内部地址空间的另一地址，该过程独立于运算单元，在执行过程中不占用运算单元的资源。

如图1-1所示的计算装置执行卷积计算指令的方法具体可以为：

控制单元615从寄存器单元612内提取卷积计算指令、卷积计算指令对应的操作域，控制单元将该操作域传输至数据访问单元。

数据访问单元从存储器内提取该操作域对应的卷积核w和偏置b(当b为0时，不需要提取偏置b)，将卷积核w和偏置b传输至运算单元。

运算单元的乘法运算器将卷积核w与输入数据Xi执行乘法运算以后得到第一结果，将第一结果输入到加法运算器执行加法运算得到第二结果，将第二结果和偏置b执行加法运算得到第三结果，将第三结果输到激活运算器执行激活运算得到输出结果s，将输出结果s传输至数据访问单元存储至存储器内。其中，每个步骤后都可以直接输出结果传输到数据访问存储至存储器内。另外，将第二结果和偏置b执行加法运算得到第三结果这一步骤为可选步骤，即当b为0时，不需要这个步骤。

本申请提供的技术方案通过一个指令即卷积计算指令即实现了卷积的计算，在卷积计算的中间数据(例如第一结果、第二结果、第三结果)均无需存储或提取，减少了中间数据的存储以及提取操作，所以其具有减少对应的操作步骤，提高卷积的计算效果的优点。

图1-2是本申请实施例提供的卷积神经网络运算装置执行卷积神经网络的流程图，如图1-2所示，执行卷积神经网络指令的过程包括：

在步骤S6B1，在指令存储单元的首地址处预先存入一条IO指令。

在步骤S6B2，控制器单元从指令存储单元的首地址读取该条IO指令，根据译出的控制信号，数据访问单元从存储器读取相应的所有卷积神经网络运算指令，并将其缓存在指令存储单元中。

在步骤S6B3，控制器单元接着从指令存储单元读入下一条IO指令，根据译出的控制信号，数据访问单元从存储器读取运算单元需要的所有数据块(例如，包括输入数据、用于作快速的激活函数运算的插值表、用于配置运算器件参数的常数表、偏置数据等)。

在步骤S6B4，控制器单元接着从指令存储单元读入下一条CONFIG指令，根据译出的控制信号，装置配置该层神经网络计算需要的各种常数。例如，运算单元根据控制信号里的参数配置单元内部寄存器的值，所述参数包括例如激活函数需要的数据。

在步骤S6B5，控制器单元接着从指令存储单元读入下一条COMPUTE指令，根据译出的控制信号，互连模块将卷积窗口内的输入数据发给计算单元内的各计算器。

在步骤S6B6，根据COMPUTE指令译出的控制信号，互联模块将乘法计算器、加法计算器和激活计算器连接形成第一计算拓扑结构。

在步骤S6B7，乘法运算器将卷积核w与输入数据Xi执行乘法运算以后得到第一结果，将第一结果输入到加法运算器执行加法运算得到第二结果，将第二结果和偏置b执行加法运算得到第三结果，将第三结果输入到激活运算器执行激活运算得到输出结果s，将输出结果s传输至数据访问单元存储至存储介质内。其中，将第二结果和偏置b执行加法运算得到第三结果这一步骤可选，即当b为0时，不需要这个步骤。

人工神经网络正向运算装置作为一种计算型处理器，可以和其他类型的处理器(如GPU，CPU)结合在一起组成一种新的神经网络任务处理系统。

图2-1、图2-2显示了一种可能的实施方案。图2-1中，包含三个模块：控制模块，包含了如CPU的控制处理器，用于进行逻辑控制，生成指令，以及调用其他的处理器；其次，正向处理模块，包含n个(n大于等于1)正向计算模块(人工神经网络专用正向计算装置)，用于神经网络正向的计算；以及，m个(n大于等于1)个反向计算模块(使用通用处理器，比如GPU/DSP/FPGA等)用于进行神经网络的反向计算。控制模块和计算模块之间通过互联装置1进行连接和通信，正向处理模块和反向处理模块之间通过互联装置2进行连接和通信。

或者正向计算模块和反向计算模块使用人工神经网络专业处理器，权值更新使用通用处理器，比如GPU、DSP或FPGA。

图2-2中展示了一种当n＝1，m＝1时的多处理器协同装置，其中包括了CPU，神经网络处理器，以及GPU三个处理器。该装置可以用于进行神经网络的推理和训练。

图2-3为一种更具体的，用于神经网络的训练和推理的多处理器协同装置。其中，1为控制模块，即用于控制整个执行过程的控制，包含控制处理器，常见情况下是CPU；3为正向处理模块，其中包含了n个用于进行正向计算的正向处理模块，用于进行训练和推理过程中的正向神经元的计算，常见情况下为人工神经网络正向运算装置；2为反向处理模块，包含m个反向计算模块，包括了反向处理器，常见情况下为GPU/FPGA/DSP，用于进行训练过程中的反向梯度传递，和权值更新的操作；5为存储器，正向处理模块从存储单元1中获取数据，包括神经元，权值等，控制处理器从存储单元3中获得数据，包括指令，网路模型等，反向处理器从存储单元2中获得数据，包括目标标签，权值，梯度等。

正向计算模块之间通过互联模块1进行连接，反向计算模块之间通过互连模块2进行连接。控制模块则通过互联模块3连接正向处理模块和反向处理模块进行通信。

图2-4是图2-3装置的变换。由于神经网络算法中，反向计算中需要用到的神经元，突触，偏置数据是正向过程计算出来的，如果将正向数据和反向数据分开存储会导致额外的数据传输开销，即反向计算开始之前，数据要从正向处理模块传输到反向处理模块可以访问的存储单元中，导致整体处理速度下降，功率增加。因此，我们设计一种正向处理模块和反向处理模块共享同一存储单元的装置。其中，正向处理模块和反向处理模块在运算过程中所需要的数据(包括输入原始数据，神经元，突触，梯度，标签等)都存放在存储单元1中。存储单元1的介质可以是之前所述的类型。

图2-5是另一种存储器组织结构。其中，控制模块，正向处理模块和反向处理模块共享同一个存储单元1。这样的好处是，省去了从控制处理器(CPU)存储器移动数据到其他处理器存储器的过程。

图2-5示出本公开中提出的人工神经网络正向处理模块的整体结构的示例框图。

如图2-5所示，该装置包括指令缓存单元1、控制器单元2、直接内存访问单元3、树型模块4、主运算模块5和多个从运算模块6。指令缓存单元1、控制器单元2、直接内存访问单元3、树型模块4、主运算模块5和从运算模块6均可以通过硬件电路(例如专用集成电路ASIC)实现。

指令缓存单元1通过直接内存访问单元3读入指令并缓存读入的指令。

控制器单元2从指令缓存单元1中读取指令，将指令译成控制其他模块行为的微指令，所述其他模块例如直接内存访问单元3、主运算模块5和从运算模块6等。

直接内存访问单元3能够访存外部地址空间，直接向装置内部的各个缓存单元读写数据，完成数据的加载和存储。

如图2-6所示的系统可以包括：控制模块1，存储单元模块2，互联模块3，神经网络计算模块4。控制模块一般为CPU，存储单元1是其内存；神经网络计算模块为若干神经网络处理器组成的计算模块，用于处理任务中的神经网络算法的计算，如卷积，pooling或上述神经网络专用指令中的一种或多种等。控制处理器和神经网络计算模块的连接和通信通过互连模块2实现；神经网路计算模块中各处理器之间通过互连模块1进行连接和通信；神经网络计算模块从存储单元2中读取计算所需要的数据(权值，输入数据等)

本申请通过将设置多种类，多个处理器，保证神经网络处理装置的灵活性，高效性，以及可扩展性。即可以高效完成朴素的神经网络算法，通过多处理器的写作，也可以完成复杂的如目标识别这类任务。通过将不同特点的计算任务划分给不同的处理器，可以在让神经网络处理器发挥出其最大效率的同时，保证装置的可扩展性，兼容性，以及保证计算精度，和计算效率。上述图2-1、图2-2、图2-3、图2-4、图2-5、图2-6的结构可以应用到任何的神经网络计算指令的计算中或神经网络应用中。本申请并不限制该图2-1、图2-2、图2-3、图2-4、图2-5结构的应用场景，另外，对于不同的神经网络计算指令的执行可能需要添加或扩展其他的功能模块，本申请也不限于添加或扩展的其他的功能模块的具体形式，例如，扩展的功能模块可以为如图1-1中的模块或单元。

本申请一些实施例中，公开了一种加速装置，包括：存储器：存储有可执行指令；处理器：用于执行存储单元中的可执行指令，在执行指令时依照上述处理方法进行操作。

其中，处理器可以是单个处理单元，但也可以包括两个或更多个处理单元。另外，处理器还可以包括通用处理器(CPU)或者图形处理器(GPU)；还可以包括在现场可编程逻辑门阵列(FPGA)或者专用集成电路(ASIC)，以对神经网络进行设置和运算。处理器还可以包括用于缓存用途的片上存储器(即包括处理装置中的存储器)。

如图1-1所示的计算装置还包括：可以添加连续离散转换模块，用于将连续数据与离散数据的互换，其与数据访问单元连接实现数据互通。

连续离散转换模块均可以通过硬件电路(例如包括但不限于FPGA、CGRA、专用集成电路ASIC、模拟电路和忆阻器等)实现。特别的，本装置可以对离散数据提供存储和运算支持。

图3-1示出了根据本申请实施例的用于执行人工神经网络正向运算的装置中主运算模块5的结构的示例框图。如图3-1所示，主运算模块5包括运算单元51、数据依赖关系判断单元52和支持离散数据表示的神经元缓存单元53。

支持离散数据表示的神经元缓存单元53用于缓存主运算模块5在计算过程中用到的输入数据和输出数据。

运算单元51完成主运算模块5的各种运算功能。对于运算因子全是离散数据的情况，可以通过查表实现离散数据与离散数据的加减乘除运算。例如2位的离散数据，可以表示4个连续数据值。对于4个连续数据共有4*4＝16种组合。对于每种加减乘除运算的操作，可以制作并维护该4*4的索引表，通过索引表找到对应的计算值。4种运算共需要4张4*4的索引表。

对于运算因子包含离散数据和连续数据的情况，可以针对不同离散数据，为加、减、乘、除运算预先设定相应的位操作。例如，可以采取按位异或后乘2的相应位次幂之后累加求和的方式代替离散数据与连续数据的点积运算。例如，对于乘法操作，乘法因子数据如果存在离散表示的，可以通过离散数据索引相应的操作(例如，对相应数据的按位异或、取非、移位等操作)代替和该离散数据表示的连续数据的乘法操作，从而减少了乘法器部件数量。例如对于连续数据与离散数据的乘法操作，-1/2乘以16。传统的乘法器部件会将-1/2与16直接做乘法。在运算单元51中，由于离散数据的可能性较少，可以通过查找索引这样一种开关判断的方法代替了运算单元的功能。例如，可以规定-1/2的离散数据表示方法为01。如果一个运算因子是-1/2，则运算单元51接收到的离散数据为01。运算单元51便采用离散数据01对应的操作。通过对于16的8位定点数表示00010000符号位取反，向右移1位得到10001000，十进制表示为-8。对于除法操作，16除以-2。其中16是连续数据，-2是离散数据。如果规定离散数据-2二进制表示为10。运算单元便采用离散数据10对应的除法操作。通过对16的8位定点数表示0001000右移1位之后符号位取反得到10001000，十进制表示为-8得到结果。加法和减法操作与上述过程类似。根据离散数据的二进制作为一个索引，索引到按位左移、右移、异或等操作。经过该操作后实现了与离散数据表示的真实数据的相加或者相减操作。

依赖关系判断单元52是运算单元51读写神经元缓存单元53的端口，同时能够保证神经元缓存单元中数据的读写一致性。同时，数据依赖关系判断单元52也负责将读取数据通过互联模块4发送给从运算模块，而从运算模块6的输出数据通过互联模块4直接发送给运算单元51。控制器单元2输出的指令发送给计算单元51和数据依赖关系判断单元52，来控制其行为。

图3-2示出了根据本申请实施例的用于执行支持离散数据表示的人工神经网络正向运算的装置中从运算模块6的结构的示例框图。如图3-2所示，每个从运算模块6包括运算单元61、数据依赖关系判定单元62、支持离散数据表示的神经元缓存单元63和支持离散数据表示的权值缓存单元64。

运算单元61接收控制器单元2发出的微指令并进行算数逻辑运算。对于运算因子全是离散数据的情况，可以通过查表实现离散数据与离散数据的加减乘除运算。例如2位的离散数据，可以表示4个连续数据值。对于4个连续数据共有4*4＝16种组合。对于每种加减乘除运算的操作，可以制作并维护该4*4的索引表，通过索引表找到对应的计算值。4种运算共需要4张4*4的索引表。

数据依赖关系判断单元62负责计算过程中对神经元缓存单元的读写操作。数据依赖关系判断单元62执行读写操作之前会首先保证指令之间所用的数据不存在读写一致性冲突。例如，所有发往数据依赖关系单元62的微指令都会被存入数据依赖关系单元62内部的指令队列里，在该队列中，读指令的读取数据的范围如果与队列位置靠前的写指令写数据的范围发生冲突，则该指令必须等到所依赖的写指令被执行后才能够执行。

支持离散数据表示的神经元缓存单元63缓存该从运算模块6的输入神经元向量数据和输出神经元值数据。该数据可以以离散数据的形式存储和传输。

支持离散数据表示的权值缓存单元64缓存该从运算模块6在计算过程中需要的权值数据。该数据根据用户定义可以是离散表示的或不是。对于每一个从运算模块6，都只会存储全部输入神经元与部分输出神经元之间的权值。以全连接层为例，输出神经元按照从运算单元的个数N进行分段，每段的第n个输出神经元对应的权值存放在第n个从运算单元中。

从运算模块6实现每层人工神经网络正向运算过程中可以并行的前半部分。该模块中的数据存储以及运算都支持离散数据表示。以人工神经网络全连接层(MLP)为例，过程为y＝f(wx+b)，其中权值矩阵w和输入神经元向量x的乘法可以划分为不相关的并行计算子任务，out与in是列向量，每个从运算模块6只计算in中相应的部分标量元素与权值矩阵w对应的列的乘积，得到的每个输出向量都是最终结果的一个待累加的部分和，这些部分和在互联模块4中逐级两两相加得到最后的结果。这个结果可以是离散数据表示的。所以计算过程变成了并行的计算部分和的过程和后面的累加的过程。每个从运算模块6计算出输出神经元值，所有的输出神经元值在互联模块4中拼成得到中间结果向量。每个从运算模块6只需要计算出中间结果向量y中与本模块对应的输出神经元值即可。互联模块4对所有从运算模块6输出的神经元值求和，得到最终的中间结果向量y。主运算模块5基于中间结果向量y进行后续计算，比如加偏置、池化(例如最大值池化(MAXPOOLING)或平均值池化(AVGPOOLING)等)、做激活和做采样等。

图3-3示出了运算单元的结构框图，其可用于主运算模块中的运算单元51或从运算模块中的运算单元61。运算过程中输入数据可以是离散数据或连续数据。数据类型判断单元71判断输入数据全是连续数据、全是离散数据或是既包含连续数据又包含离散数据的混合数据。当输入数据全是连续数据时，连续数据运算单元72执行相应运算。

当输入数据全是离散数据时，离散数据运算单元73执行相应运算。对于运算因子全是离散数据的情况，可以通过查表实现离散数据与离散数据的加减乘除运算。例如2位的离散数据，可以表示4个连续数据值。对于4个连续数据共有4*4＝16种组合。对于每种加减乘除运算的操作，我们制作并维护该4*4的索引表，通过索引表找到对应的计算值。4种运算共需要4张4*4的索引表。

当输入数据是混合数据时，运算决定单元74根据其中的离散数据决定应对其执行何种操作。可以针对不同的离散数据分别预先设置相应操作。然后，混合数据运算单元75根据运算决定单元74的决定结果，执行相应操作。对于运算因子包含离散数据和连续数据的情况，可以针对不同离散数据，为加、减、乘、除运算预先设定相应的位操作。例如，可以采取按位异或后乘2的相应位次幂之后累加求和的方式代替离散数据与连续数据的点积运算。例如，对于乘法操作，乘法因子数据如果存在离散表示的，可以通过离散数据索引相应的操作(例如，对相应数据的按位异或、取非、移位等操作)代替和该离散数据表示的连续数据的乘法操作，从而减少了乘法器部件数量。例如对于连续数据与离散数据的乘法操作，-1/2乘以16。传统的乘法器部件会将-1/2与16直接做乘法。在运算单元51中，由于离散数据的可能性较少，可以通过查找索引这样一种开关判断的方法代替了运算单元的功能。例如，可以规定-1/2的离散数据表示方法为01。如果一个运算因子是-1/2，则运算单元51接收到的离散数据为01。运算单元51便采用离散数据01对应的操作。通过对于16的8位定点数表示00010000符号位取反，向右移1位得到10001000，十进制表示为-8。对于除法操作，16除以-2。其中16是连续数据，-2是离散数据。如果规定离散数据-2二进制表示为10。运算单元便采用离散数据10对应的除法操作。通过对16的8位定点数表示0001000右移1位之后符号位取反得到10001000，十进制表示为-8得到结果。加法和减法操作与上述过程类似。根据离散数据的二进制作为一个索引，索引到按位左移、右移、异或等操作。经过该操作后实现了与离散数据表示的真实数据的相加或者相减操作。

图3-4示出了连续离散转换单元。用户可以定义采用该模块将连续数据转换为离散数据或不采用。输入连续数据，输出离散数据。该单元包括随机数产生模块、判断模块、运算模块。对于输入的连续数据通过运算模块得到运算后的结果，经由判断模块用随机数与运算后的结果比较，判断随机数落在哪一个区间，从而决定出输出的离散数据的具体值。例如用户定义产生二元离散数据。对于输入的任意连续数据x。经由运算模块计算出结果y＝abs(clip(-1,1))。之后通过判断模块，如果随机数大于y，则输出的离散数据是1，反之输出的离散数据是0。离散数据1和0分别代表了连续数据的-1和+1。将得到的离散数据存储回内存中。等待主从运算模块中的运算单元使用，产生相应的操作。

正向过程中的权值数据、输出输入数据可以采用离散数据表示或不采用。对于连续数据的乘法操作，可以通过基于离散数据的异或、取非、位移等方式代替连续数据的乘法操作。例如权值用1比特离散数据表示，0代表+1,1代表-1，通过对与权值相乘数据的符号位异或，实现了对权值的乘法运算。

根据本申请实施例，还提供了在前述装置上执行人工神经网络正向运算的指令集。指令集中包括CONFIG指令、COMPUTE指令、IO指令、NOP指令、JUMP指令和MOVE指令等，其中：

CONFIG指令在每层人工神经网络计算开始前配置当前层计算需要的各种常数；

COMPUTE指令完成每层人工神经网络的算术逻辑计算；

IO指令实现从外部地址空间读入计算需要的输入数据以及在计算完成后将数据存回至外部空间，该数据支持离散化表示；

NOP指令负责清空当前装置内部所有微指令缓存队列中的微指令，保证NOP指令之前的所有指令全部指令完毕。NOP指令本身不包含任何计算操作；

JUMP指令负责控制器将要从指令缓存单元读取的下一条指令地址的跳转，用来实现控制流的跳转；

在如图1-1所示的计算装置内，可以添加在幂次转换单元，该幂次转换单元与存储介质(片上存储介质)连接，用于将神经网络输入数据中非幂次权值数据转换为幂次权值数据。

可选的，上述计算装置还可以包括：控制单元以及运算单元等等，控制单元以及运算单元的具体描述可以参见如图1-1所示实施例的描述，这里不再赘述，另外，上述如图1-1所示的计算装置还可以增加或扩展如图4-1所示的神经网络运算装置。另一种可选实施例中，神经网络运算装置的结构如图4-1，包括：

存储单元1，用于存储数据和运算指令；

控制单元，与所述存储单元连接，用于控制数据和运算指令的交互，其接收该存储单元发送的数据和运算指令，并将运算指令译码成运算微指令；

运算单元7，与所述控制单元连接，接收该控制单元发送的数据和运算微指令，并根据运算微指令对其接收的神经元数据及权值数据执行神经网络运算；

幂次转换单元9，其与所述存储单元连接，用于将神经网络运算的输入神经元数据和/或输出神经元数据转换为幂次神经元数据。

具体的，所述控制单元包括：

数据控制模块2，与所述存储单元连接，用于存储单元和各缓存模块之间的数据和运算指令交互；

指令缓存模块3，与所述数据控制模块连接，用于接收数据控制模块发送的运算指令；

译码模块4，与所述指令缓存模块连接，用于从指令缓存模块中读取运算指令，并将其译码成各运算微指令；

输入神经元缓存模块5，与所述数据控制模块连接，用于接收数据控制模块发送的神经元数据；

权值缓存模块6，与所述数据控制模块连接，用于接收从数据控制模块发送的权值数据。

进一步的，所述运算单元7，分别与所述译码模块、输入神经元缓存模块及权值缓存模块连接，接收运算微指令、神经元数据及权值数据，用于根据运算微指令对其接收的神经元数据和权值数据执行相应的运算。所述输出神经元缓存单元8，与所述运算单元连接，用于接收运算单元输出的神经元数据；并将其发送至所述控制单元的数据控制模块2。由此可作为下一层神经网络运算的输入数据。

其中，存储单元从外部地址空间接收数据和指令，该数据包括神经网络权值数据、神经网络输入数据等。

进一步的，幂次转换操作有多种可选方式。下面列举本实施例所采用的三种幂次转换操作：

第一种幂次转换方法：

s_out＝s_in

其中，d_in为幂次转换单元的输入数据，d_out为幂次转换单元的输出数据，s_in为输入数据的符号，s_out为输出数据的符号，d_in+为输入数据的正数部分，d_in+＝d_in×s_in，d_out+为输出数据的正数部分，d_out+＝d_out×s_out，

表示对数据x做取下整操作。

第二种幂次转换方法：

s_out＝s_in

其中，

s_out＝s_in

表示对数据x做取上整操作。

第三种幂次转换方法：

S_out＝S_in

d_out+＝[log₂(d_in+)]

其中，

s_out＝s_in

其中，d_in为幂次转换单元的输入数据，d_out为幂次转换单元的输出数据；s_in为输入数据的符号，s_out为输出数据的符号；d_in+为输入数据的正数部分，d_in+＝d_in×s_in，d_out+为输出数据的正数部分，d_out+＝d_out×s_out；[x]表示对数据x做四舍五入操作。

本公开还提供了另一种神经网络运算装置。图4-2为依据本实施例神经网络运算装置的示意图。请参照图4-2，本实施例神经网络运算装置，包括：

存储单元101，用于存储数据和运算指令；该存储单元从外部地址空间接收数据和运算指令，该数据包括神经网络权值数据、神经网络输入数据等。

控制单元，与所述存储单元连接，用于控制数据和运算指令的交互，其接收该存储单元发送的数据和指令，并将运算指令译码成运算微指令；

运算单元107，与所述控制单元连接，接收该控制单元发送的数据和运算微指令，并根据运算微指令对其接收的权值数据和神经元数据执行神经网络运算；

输出神经元缓存单元108，与所述运算单元连接，用于接收运算单元输出的神经元数据，并将其发送至所述控制单元；

幂次转换单元109，其与所述存储单元连接，用于将神经网络运算的输入神经元数据和/或输出神经元数据转换为幂次神经元数据；以及

幂次转换单元110，其与所述输出神经元缓存单元108连接，用于将神经网络运算后的神经元数据转换为幂次神经元数据，并发送至所述控制单元。

进一步的，所述控制单元包括：

数据控制模块102，与所述存储单元连接，用于存储单元和各缓存模块之间的数据和运算指令交互；

指令缓存模块103，与所述数据控制模块连接，用于接收数据控制模块发送的运算指令；

译码模块104，与所述指令缓存模块连接，用于从指令缓存模块中读取运算指令，并将其译码成各运算微指令；

输入神经元缓存模块105，与所述数据控制模块连接，用于接收数据控制模块发送的神经元数据；

权值缓存模块106，与所述数据控制模块连接，用于接收从数据控制模块发送的权值数据。

具体的，所述运算单元107，分别与所述译码模块、输入神经元缓存模块及权值缓存模块连接，接收各运算微指令、神经元数据及权值数据，用于根据各运算微指令对其接收的神经元数据和权值数据执行相应的运算。

所述幂次转换单元110，与所述数据控制模块连接，用于将神经网络运算后的神经元数据转换为幂次神经元数据，并发送至所述控制单元的数据控制模块102。通过幂次转换单元110获得的幂次神经元数据可作为神经网络运算下一层的输入神经元。

另外，所述幂次转换的具体操作方法与前述实施例相同，此处不再赘述。

另外，本公开实施例还提供了一种神经网络运算方法，图4-3为本实施例神经网络运算方法的流程图。具体而言，本公开实施例的神经网络为多层神经网络，对于每层神经网络可按图4-3所示的运算方法进行运算，其中，神经网络第一层输入幂次权值数据可通过存储单元从外部地址读入，若外部地址读入的权值数据已经为幂次权值数据则直接传入存储单元，否则先通过幂次转换单元转换为幂次权值数据。请参照图4-3，本实施例单层神经网络运算方法，包括：

步骤S1，获取指令、神经元数据及幂次权值数据。

其中，所述步骤S1包括以下子步骤：

S11，将运算指令、神经元数据及权值数据输入存储单元；其中，对幂次权值数据直接输入存储单元，对非幂次权值数据经过幂次转换单元转换后输入存储单元；

S12，数据控制模块接收该存储单元发送的指令、神经元数据及幂次权值数据；

S13，指令缓存模块、输入神经元缓存模块及权值缓存模块分别接收所述数据控制模块发送的运算指令、神经元数据及幂次权值数据并分发给译码模块或运算单元。

所述幂次权值数据表示权值数据的数值采用其幂指数值形式表示，具体为，幂次权值数据包括符号位和幂次位，符号位用一位或多位比特位表示权值数据的符号，幂次位用m位比特位表示权值数据的幂次位数据，m为大于1的正整数。存储单元预存有编码表，提供幂次权值数据的每个幂次位数据对应的指数数值。编码表设置一个或者多个幂次位数据(即置零幂次位数据)为指定对应的幂次权值数据为0。也就是说，当幂次权值数据的幂次位数据是编码表里的置零幂次位数据时候，表示该幂次权值数据为0。其中，所述编码表可以有灵活的存储方式，既可以是表格形式进行存储，还可以是通过函数关系进行的映射。

编码表的对应关系可以是任意的。

例如，编码表的对应关系可以是乱序的。如图4-3.1所示一种m为5的编码表的部分内容，幂次位数据为00000的时候对应指数数值为0。幂次位数据为00001的时候对应指数数值为3。幂次位数据为00010的时候对应指数数值为4。幂次位数据为00011的时候对应指数数值为1。幂次位数据为00100的时候对应幂次权值数据为0。

编码表的对应关系也可以是正相关的，存储单元预存一个整数值x和一个正整数值y，最小的幂次位数据对应指数数值为x，其他任意一个或多个幂次位数据对应幂次权值数据为0。x表示偏置值，y表示步长。在一种实施例情况下，最小的幂次位数据对应指数数值为x，最大的幂次位数据对应幂次权值数据为0，最小和最大的幂次位数据之外的其他的幂次位数据对应指数数值为(幂次位数据+x)*y。通过预设定不同的x和y以及通过改变x和y的数值，幂次的表示范围变得可配，可以适用于需要不同数值范围的不同的应用场景。因此，本神经网络运算装置的应用范围更加广泛，使用更加灵活可变，可根据用户需求来做调整。

在一种实施方式中，y为1，x的数值等于-2^m-1。由此幂次权值数据所表示的数值的指数范围为-2^m-1～2^m-1-1。

在一种实施方式中，如图4-3.2所示，一种m为5，x为0，y为1的编码表的部分内容，幂次位数据为00000的时候对应指数数值为0。幂次位数据为00001的时候对应指数数值为1。幂次位数据为00010的时候对应指数数值为2。幂次位数据为00011的时候对应指数数值为3。幂次位数据为11111的时候对应幂次权值数据为0。如图4-3.3所示，另一种m为5，x为0，y为2的编码表的部分内容，幂次位数据为00000的时候对应指数数值为0。幂次位数据为00001的时候对应指数数值为2。幂次位数据为00010的时候对应指数数值为4。幂次位数据为00011的时候对应指数数值为6。幂次位数据为11111的时候对应幂次权值数据为0。

编码表的对应关系可以是负相关的，存储单元预存一个整数值x和一个正整数值y，最大的幂次位数据对应指数数值为x，其他任意一个或多个幂次位数据对应幂次权值数据为0。x表示偏置值，y表示步长。在一种实施例情况下，最大的幂次位数据对应指数数值为x，最小的幂次位数据对应幂次权值数据为0，最小和最大的幂次位数据之外的其他的幂次位数据对应指数数值为(幂次位数据-x)*y。通过预设定不同的x和y以及通过改变x和y的数值，幂次的表示范围变得可配，可以适用于需要不同数值范围的不同的应用场景。因此，本神经网络运算装置的应用范围更加广泛，使用更加灵活可变，可根据用户需求来做调整。

在一种实施方式中，y为1，x的数值等于2^m-1。由此幂次权值数据所表示的数值的指数范围为-2^m-1-1～2^m-1。

如图4-3.4所示，一种m为5的编码表的部分内容，幂次位数据为11111的时候对应数数值为0。幂次位数据为11110的时候对应指数数值为1。幂次位数据为11101的时候对应指数数值为2。幂次位数据为11100的时候对应指数数值为3。幂次位数据为00000的时候对应幂次权值数据为0。

编码表的对应关系可以是幂次位数据最高位代表置零位，幂次位数据其他m-1位对应指数数值。当幂次位数据最高位为0时，对应幂次权值数据为0；当幂次位数据最高位为1时，对应幂次权值数据不为0。反之亦可，即当幂次位数据最高位为1时，对应幂次权值数据为0；当幂次位数据最高位为0时，对应幂次权值数据不为0。用另一种语言来描述，即幂次权值数据的幂次位被分出一个比特来指示幂次权值数据是否为0。

在一个具体实例图4-3.5所示，符号位为1位，幂次位数据位为7位，即m为7。编码表为幂次位数据为11111111的时候对应幂次权值数据为0，幂次位数据为其他数值的时候幂次权值数据对应相应的二进制补码。当幂次权值数据符号位为0，幂次位为0001001，则其表示具体数值为2⁹，即512；幂次权值数据符号位为1，幂次位为1111101，则其表示具体数值为-2^-3，即-0.125。相对于浮点数据，幂次数据只保留数据的幂次位，极大减小了存储数据所需的存储空间。

通过幂次数据表示方法，可以减小存储权值数据所需的存储空间。在本实施例所提供示例中，幂次数据为8位数据，应当认识到，该数据长度不是固定不变的，在不同场合下，根据数据权值的数据范围采用不同的数据长度。

步骤S2，根据运算指令对神经元数据及幂次权值数据进行神经网络运算。其中，所述步骤S2包括以下子步骤：

S21，译码模块从指令缓存模块中读取指令，并将其译码成各运算指令；

S22，运算单元分别接收所述译码模块、输入神经元缓存模块及权值缓存模块发送的运算指令、幂次权值数据以及神经元数据，并根据运算指令对神经元数据及幂次表示的权值数据进行神经网络运算。

所述神经元与幂次权值乘法操作具体为，神经元数据符号位与幂次权值数据符号位做异或操作；编码表的对应关系为乱序的情况下查找编码表找出幂次权值数据幂次位对应的指数数值，编码表的对应关系为正相关的情况下记录编码表的指数数值最小值并做加法找出幂次权值数据幂次位对应的指数数值，编码表的对应关系为负相关的情况下记录编码表的最大值并做减法找出幂次权值数据幂次位对应的指数数值；将指数数值与神经元数据幂次位做加法操作，神经元数据有效位保持不变。

具体实例一如图4-3.6所示，神经元数据为16位浮点数据，符号位为0，幂次位为10101，有效位为0110100000，则其表示的实际数值为1.40625*2⁶。幂次权值数据符号位为1位，幂次位数据位为5位，即m为5。编码表为幂次位数据为11111的时候对应幂次权值数据为0，幂次位数据为其他数值的时候幂次位数据对应相应的二进制补码。幂次权值为000110，则其表示的实际数值为64，即2⁶。幂次权值的幂次位加上神经元的幂次位结果为11011，则结果的实际数值为1.40625*2¹²，即为神经元与幂次权值的乘积结果。通过该运算操作，使得乘法操作变为加法操作，减小计算所需的运算量。

具体实例二如图4-3.7所示，神经元数据为32位浮点数据，符号位为1，幂次位为10000011，有效位为10010010000000000000000，则其表示的实际数值为-1.5703125*2⁴。幂次权值数据符号位为1位，幂次位数据位为5位，即m为5。编码表为幂次位数据为11111的时候对应幂次权值数据为0，幂次位数据为其他数值的时候幂次位数据对应相应的二进制补码。幂次神经元为111100，则其表示的实际数值为-2^-4。(神经元的幂次位加上幂次权值的幂次位结果为01111111，则结果的实际数值为1.5703125*2⁰，即为神经元与幂次权值的乘积结果。

可选的，还包括步骤S3，将神经网络运算后的神经元数据输出并作为下一层神经网络运算的输入数据。

其中，所述步骤S3可包括以下子步骤：

S31，输出神经元缓存单元接收所述计算单元发送的神经网络运算后得到的神经元数据。

S32，将输出神经元缓存单元接收的神经元数据传输给数据控制模块，通过输出神经元缓存单元获得的神经元数据可作为神经网络运算下一层的输入神经元，再重复步骤S1至步骤S3直到神经网络最后一层运算结束。

另外，通过幂次转换单元获得的幂次神经元数据可作为神经网络运算下一层的输入幂次神经元，再重复步骤1至步骤3直到神经网络最后一层运算结束。通过改变存储单元预存的整数值x和正整数值y，可以调整神经网络运算装置所能表示的幂次神经元数据范围。

在一些实施例里，公开了一种芯片，其包括了上述神经网络处理器。

在一些实施例里，公开了一种芯片封装结构，其包括了上述芯片。

在一些实施例里，公开了一种板卡，其包括了上述芯片封装结构。

在一些实施例里，公开了一种电子装置，其包括了上述板卡。

电子装置包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备交通工具、家用电器、和/或医疗设备。

所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施例而已，并不用于限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种神经网络任务处理系统，其特征在于，所述系统包括：n个计算装置，m个反向计算模块、控制模块和互联装置；

所述计算装置，用于执行神经网络正向计算；

所述反向计算模块，用于执行神经网络反向计算；

所述计算装置包括：寄存器单元、互联模块、运算单元、控制单元和数据访问单元；其中，

寄存器单元，用于存储运算指令、数据块在存储介质的地址和运算指令对应的计算拓扑结构；

控制单元，用于从寄存器单元内提取运算指令，该运算指令对应的操作域以及该运算指令对应的第一计算拓扑结构，将该运算指令译码成执行指令，该执行指令用于控制运算单元执行运算操作，将该操作域传输至数据访问单元；

数据访问单元，用于提取该操作域对应的数据块，并将该数据块传输至互联模块；

互联模块，用于接收数据块，将该数据块发送至运算单元；

运算单元，用于该执行指令调用运算单元的计算器对该数据块执行运算操作得到运算结果；

所述运算单元包括：一个主运算单元和多个从运算单元，所述互联模块连接所述主运算单元和多个从运算单元，所述互联模块为：树状结构、环状结构、网格状结构、分级互连或总线结构；

所述计算装置还包括：连续离散转换模块，用于将连续数据与离散数据的互换

所述主运算单元包括：运算模块、数据依赖关系判断单元和支持离散数据表示的神经元缓存单元；

所述运算模块，用于完成所述主运算单元的各种运算功能；具体包括：对于运算因子全是离散数据的情况，通过查表实现离散数据与离散数据的加减乘除运算；对于运算因子包含离散数据和连续数据的情况，针对不同离散数据，为加、减、乘、除运算预先设定相应的位操作；

所述数据依赖关系判断单元，用于将接收的微指令存入所述数据依赖关系判断单元内部的指令队列里，在该队列中，读指令的读取数据的范围如果与队列位置靠前的写指令写数据的范围发生冲突，则该指令必须等到所依赖的写指令被执行后才能够执行；

支持离散数据表示的神经元缓存单元，用于缓存从运算模块的输入神经元向量数据和输出神经元值数据。

2.根据权利要求1所述的神经网络任务处理系统，其特征在于，

所述反向计算模块为通用处理器，所述通用处理器为：GPU、DSP或FPGA；

所述反向计算模块与存储器连接，所述反向计算模块与所述计算装置共享所述存储器。

3.根据权利要求1所述的神经网络任务处理系统，其特征在于，

所述运算单元包括：加法计算器、乘法计算器、比较器、激活运算器中的至少二种。

4.根据权利要求3所述的神经网络任务处理系统，其特征在于，

所述运算指令为卷积计算指令，所述计算指令包括：操作域和操作码；

所述卷积计算指令包括：卷积神经网络COMPUTE指令以及CONFIG指令；所述卷积神经网络COMPUTE指令包括：

卷积神经网络sigmoid指令，根据该指令，装置分别从存储器的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积操作，然后将输出结果做sigmoid激活；

卷积神经网络TanH指令，根据该指令，装置分别从存储器的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积操作，然后将输出结果做TanH激活；

卷积神经网络ReLU指令，根据该指令，装置分别从存储器的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积操作，然后将输出结果做ReLU激活；以及

卷积神经网络group指令，根据该指令，装置分别从存储器的指定地址取出指定大小的输入数据和卷积核，划分group之后，在卷积运算部件中做卷积操作，然后将输出结果做激活。

5.根据权利要求4所述的神经网络任务处理系统，其特征在于，所述运算指令还包括：

IO指令实现从外部存储空间读入计算需要的输入数据以及在计算完成后将数据存回至外部空间；

NOP指令负责清空当前装置内部所有控制信号缓存队列中的控制信号，保证NOP指令之前的所有指令全部指令完毕；

MOVE指令负责将装置内部地址空间某一地址的数据搬运至装置内部地址空间的另一地址，MOVE指令过程独立于运算单元，在执行过程中不占用运算单元的资源。

6.根据权利要求1所述的神经网络任务处理系统，其特征在于，所述计算装置还包括：幂次转换单元，

所述幂次转换单元与存储器连接，用于将神经网络输入数据中非幂次权值数据转换为幂次权值数据；

所述运算单元，具体用于将神经元数据符号位与幂次权值数据符号位做异或操作；编码表的对应关系为乱序的情况下查找编码表找出幂次权值数据幂次位对应的指数数值，编码表的对应关系为正相关的情况下记录编码表的指数数值最小值并做加法找出幂次权值数据幂次位对应的指数数值，编码表的对应关系为负相关的情况下记录编码表的最大值并做减法找出幂次权值数据幂次位对应的指数数值；将指数数值与神经元数据幂次位做加法操作，神经元数据有效位保持不变。

7.一种神经网络任务处理方法，其特征在于，所述方法应用于神经网络任务处理系统，所述系统包括：n个计算装置，m个反向计算模块、控制模块和互联装置；所述方法包括如下步骤：

所述计算装置执行神经网络正向计算；所述反向计算模块执行神经网络反向计算；

寄存器单元存储运算指令、数据块在存储介质的地址和运算指令对应的计算拓扑结构；

控制单元从寄存器单元内提取运算指令，该运算指令对应的操作域以及该运算指令对应的第一计算拓扑结构，将该运算指令译码成执行指令，该执行指令用于控制运算单元执行运算操作，将该操作域传输至数据访问单元；

数据访问单元提取该操作域对应的数据块，并将该数据块传输至互联模块；

互联模块接收数据块，将该数据块发送至运算单元；

运算单元该执行指令调用运算单元的计算器对该数据块执行运算操作得到运算结果；

所述运算模块完成所述主运算单元的各种运算功能；具体包括：对于运算因子全是离散数据的情况，通过查表实现离散数据与离散数据的加减乘除运算；对于运算因子包含离散数据和连续数据的情况，针对不同离散数据，为加、减、乘、除运算预先设定相应的位操作；

数据依赖关系判断单元将接收的微指令存入所述数据依赖关系判断单元内部的指令队列里，在该队列中，读指令的读取数据的范围如果与队列位置靠前的写指令写数据的范围发生冲突，则该指令必须等到所依赖的写指令被执行后才能够执行；

支持离散数据表示的神经元缓存单元缓存从运算模块的输入神经元向量数据和输出神经元值数据。

8.根据权利要求7所述的方法，其特征在于，

9.根据权利要求7或8所述的方法，

所述卷积计算指令包括：卷积神经网络COMPUTE指令以及CONFIG指令；

所述卷积神经网络COMPUTE指令包括：

卷积神经网络group指令，根据该指令，装置分别从存储器的指定地址取出指定大小的输入数据和卷积核，划分group之后，在卷积运算部件中做卷积操作，然后将输出结果做激活；

所述运算指令还包括：