CN107807819B

CN107807819B - 一种支持离散数据表示的用于执行人工神经网络正向运算的装置及方法

Info

Publication number: CN107807819B
Application number: CN201710928125.4A
Authority: CN
Inventors: 陈天石; 刘少礼; 王在; 胡帅
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2021-06-25
Anticipated expiration: 2037-07-20
Also published as: CN111176727B; CN111221578B; EP3686734A4; CN107832082B; CN107729990A; CN107729989A; CN110036369B; CN110688158B; US11983534B2; CN107608715A; CN107608715B; CN110597558A; CN111176727A; CN111221578A; CN110597558B; CN109284822B; US20230024840A1; CN107992329A; US11481215B2; CN110825434B

Abstract

本披露提供了一种支持离散数据表示的用于执行人工神经网络正向运算的装置，包括控制器单元、数据访问单元、互联模块、主运算模块、多个从运算模块。本披露提供的技术方案具有计算速度快，效率高的优点。

Description

一种支持离散数据表示的用于执行人工神经网络正向运算的装置及方法

技术领域

本披露涉及一种支持离散数据表示的用于执行人工神经网络正向运算的装置及方法。

背景技术

数据处理是大部分算法需要经过的步骤或阶段，在计算机引入数据处理领域后，越来越多的数据处理通过计算机来实现，现有的算法中有计算设备在进行神经网络的数据计算时速度慢，效率低。

发明内容

本披露实施例提供了一种计算方法及相关产品，可提升计算装置的处理速度，提高效率。

第一方面，提供一种支持离散数据表示的用于执行人工神经网络正向运算的装置，包括控制器单元、数据访问单元、互联模块、主运算模块、多个从运算模块，其中：所述指令为卷积神经网络运算指令，包括：至少1个操作码和至少1个操作域，其中，所述操作码用于指示所述卷积神经网络运算指令的功能，所述操作域用于指示所述卷积神经网络运算指令的数据信息；所述数据信息包括：立即数或寄存器号，具体包括：输入数据的起始地址和数据长度，卷积核的起始地址和数据长度，以及激活函数的类型；控制器单元用于读取指令，并将该指令译码成控制互联模块、主运算模块、以及从运算模块行为的微指令；数据访问单元用于从外部地址空间向主运算模块和各从运算模块的相应数据缓存单元中写入离散数据或连续数据或从所述数据缓存单元向外部地址空间读离散数据或连续数据；每层神经网络开始正向计算的阶段，主运算模块通过互联模块向所有的从运算模块传输本层的离散或连续的输入神经元向量，在从运算模块的计算过程完成后，互联模块逐级将各从运算模块的离散或连续化的输出神经元值拼成中间结果向量，其中，当输入数据是离散数据与连续数据的混合数据时，从运算模块针对不同离散数据采取预先设置的相应计算方式；主运算模块用于利用中间结果向量完成后续计算，当输入数据是离散数据与连续数据的混合数据时，主运算模块针对不同离散数据采取预先设置的相应计算方式。

可选的，所述装置还包括：指令缓存单元；用于通过数据访问单元读入指令并缓存读入的指令。

可选的，离散数据表示指用特定的离散数字代替真实的连续数据的表示方式。

可选的，其中，多个从运算模块利用相同的离散或连续的输入神经元向量和各自不同的离散或连续的权值向量，并行地计算出各自的离散或连续输出神经元值。

可选的，其中，主运算模块对中间结果向量执行以下任一项操作：

加偏置操作，在中间结果向量上加上偏置；

对中间结果向量进行激活，激活函数active是非线性函数sigmoid，tanh，relu，softmax中的任一个或线性函数；

采样操作，将中间结果向量与随机数比较，大于随机数则输出1，小于随机数则输出0；或者

池化操作，包括最大值池化或平均值池化。

可选的，其中，从运算模块包括输入神经元缓存单元，用于缓存离散或者连续的输入神经元向量。

可选的，其中，互联模块构成主运算模块和所述多个从运算模块之间的连续或离散化数据的数据通路。

可选的，其中，主运算模块包括运算单元、数据依赖关系判断单元和神经元缓存单元，其中：

神经元缓存单元用于缓存主运算模块在计算过程中用到的离散或连续表示的输入数据和输出数据；

运算单元完成主运算模块的各种运算功能，当输入数据是离散数据与连续数据的混合数据时，针对不同离散数据采取预先设置的相应计算方式；

数据依赖关系判断单元是运算单元读写神经元缓存单元的端口，保证对神经元缓存单元中连续数据或离散数据读写不存在一致性冲突，并且负责从神经元缓存单元读取输入离散或连续的神经元向量，并通过互联模块发送给从运算模块；以及

来自互联模块的中间结果向量被发送到运算单元。

可选的，其中，每个从运算模块包括运算单元、数据依赖关系判定单元、神经元缓存单元和权值缓存单元，其中：

运算单元接收控制器单元发出的微指令并进行算数逻辑运算，当输入数据是离散数据与连续数据的混合数据时，针对不同离散数据采取预先设置的相应计算方式；

数据依赖关系判断单元负责计算过程中对支持离散数据表示的神经元缓存单元和支持离散数据表示的权值缓存单元的读写操作，保证对支持离散数据表示的神经元缓存单元和支持离散数据表示的权值缓存单元的读写不存在一致性冲突；

神经元缓存单元缓存输入神经元向量的数据以及该从运算模块计算得到的输出神经元值；以及

权值缓存单元缓存该从运算模块在计算过程中需要的离散或连续表示的权值向量。

可选的，其中，数据依赖关系判断单元通过以下方式保证读写不存在一致性冲突：判断尚未执行的微指令与正在执行过程中的微指令的数据之间是否存在依赖关系，如果不存在，允许该条微指令立即发射，否则需要等到该条微指令所依赖的所有微指令全部执行完成后该条微指令才允许被发射。

可选的，其中主运算模块或从运算模块中的运算单元包括运算决定单元和混合数据运算单元，当输入数据是混合数据时，运算决定单元根据其中的离散数据决定应对该混合数据执行何种操作，然后，混合数据运算单元根据运算决定单元的决定结果，执行相应操作。

可选的，其中主运算模块或从运算模块中的所述运算单元还包括离散数据运算单元和连续数据运算单元中的至少一个，以及数据类型判断单元，当输入数据全是离散数据时，由离散数据运算单元根据输入的离散数据通过查表执行相应操作，当输入数据全是连续数据时，由连续数据运算单元执行相应操作。

可选的，还包括连续离散转换单元，连续离散转换单元包括预处理模块、距离计算模块、和判断模块，假设使用M个离散数据，M＝2m，m≥1，令这些离散数据分别对应于预定区间[-zone,zone]内的M个数值，其中：

预处理模块对于输入的连续数据x使用clip(-zone,zone)运算进行预处理，得到区间[-zone,zone]内的预处理数据y，其中，如果x≤-zone则y＝-zone，如果x≥zone则y＝zone，如果-zone<x<zone，则预处理数据y＝x；

距离计算模块计算预处理数据y与上述各数值之间的距离；以及

判断模块基于该距离计算并输出离散数据。

可选的，以下任意一项或多项：

预定区间[-zone,zone]是[-1,1]或[-2,2]；

M个数值的绝对值是2的幂的倒数；或者

判断模块执行：

输出与该预处理数据y距离最近的数值所对应的离散数据，如果有两个数值与该预处理数据距离相等，则输出二者中任一个所对应的离散数据；或者

计算预处理数据y分别到距离最近的两个数值中任一个的归一化概率，将这两个数值中任一个所对应的归一化概率与随机数生成模块生成的(0,1)之间的随机数z比较，如果该z小于该概率则输出该离散数据，否则输出另一离散数据。

可选的，所述卷积神经网络运算指令包括：卷积计算指令，用于将卷积核w乘以输入数据Xi，进行求和，然后加上偏置b后做激活运算s(h)，得到最终的输出结果。

可选的，所述卷积神经网络运算指令包括：COMPUTE指令、CONFIG指令、IO指令、NOP指令、JUMP指令或MOVE指令；

所述COMPUTE指令包括：卷积神经网络sigmoid指令、卷积神经网络TanH指令、卷积神经网络ReLU指令以及卷积神经网络group指令；

所述卷积神经网络sigmoid指令，用于在装置分别从存储器的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积操作，然后根据所述sigmoid指令将输出结果做sigmoid激活；

所述卷积神经网络TanH指令，用于在装置分别从存储器的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积操作，然后根据所述TanH指令将输出结果做TanH激活；

所述卷积神经网络ReLU指令，用于在装置分别从存储器的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积操作，然后根据所述ReLU指令将输出结果做ReLU激活；

所述卷积神经网络group指令，用于装置分别从存储器的指定地址取出指定大小的输入数据和卷积核，划分group之后，在卷积运算部件中做卷积操作，然后根据所述group指令将输出结果做激活。

可选的，所述CONFIG指令，用于指引装置在每层人工神经网络计算开始前配置当前层计算需要的各种常数；

或所述IO指令，用于指引装置实现从外部存储空间读入计算需要的输入数据以及在计算完成后将数据存回至外部存储空间；

或所述NOP指令，用于指引装置清空当前装置内部所有控制信号缓存队列中的控制信号；

或所述JUMP指令，用于指引装置实现控制流的跳转；

或所述MOVE指令，用于指引装置内部地址空间中某一地址的数据搬运至内部地址空间的另一地址。

第二方面，提供一种使用根据第一方面装置执行单层人工神经网络正向运算的方法，包括：

数据访问单元从外部地址空间读取与该层人工神经网络正向运算有关的所有人工神经网络运算指令，并将其缓存在指令缓存单元中；

连续离散转换模块从外部地址空间读取该层神经网络需要转换的连续数据转换为离散数据后存储回外部地址空间；

数据访问单元从外部地址空间读取主运算模块需要的与该层人工神经网络正向运算有关的所有离散或连续数据至主运算模块的神经元缓存单元；

数据访问单元从外部地址空间读取从运算模块需要的离散表示或连续表示的权值矩阵数据；

配置该层神经网络正向运算需要的各种离散或连续表示的常数；

主运算模块首先通过互联模块将输入神经元向量发给各从运算模块，保存至从运算模块的支持离散数据表示的神经元缓存单元；

从运算模块的运算单元从权值缓存单元读取权值向量,从从运算模块的神经元缓存单元读取输入神经元向量，对于向量中没有离散数据表示的完成权值向量和输入神经元向量的点积运算，对于向量中有离散数据表示的，通过离散数据运算模块，根据离散数据的值判断相应的位操作代替点积运算，将得到的神经元值通过互联模块返回；

在互联模块中，各从运算模块返回的神经元值被逐级拼成完整的中间结果向量；

主运算模块从主运算模块的神经元缓存单元读取离散表示或连续表示的偏置向量，与互联模块返回的中间结果向量相加，然后再对相加结果做激活，得到输出神经元向量写回至主运算模块的神经元缓存单元；以及

数据访问单元将主运算模块的神经元缓存单元中的输出神经元向量存至外部地址空间指定地址。

第三方面，提供一种使用根据第一方面的装置执行批归一化运算的方法：

数据访问单元从外部地址空间读取与该批归一化正向运算有关的所有人工神经网络运算指令，并将其缓存在指令缓存单元中；

连续离散转换模块从外部地址空间读取该层神经网络需要转换的连续数据转换为离散数据后存储回外部地址空间。

数据访问单元从外部地址空间读取主运算模块需要的与该层批归一化正向运算有关的所有离散或连续数据至主运算模块的神经元缓存单元；

配置该层批归一化正向运算需要的各种离散或连续表示的常数；

从运算模块的运算单元从权值缓存单元读取权值向量,从从运算模块的神经元缓存单元读取输入神经元向量，对于输入向量计算在每一个批的尺度下的均值和标准差，将得到的神经元值通过互联模块返回；

主运算模块从主运算模块的神经元缓存单元读取离散表示或连续表示输入神经元向量，与互联模块返回的均值结果向量相减，然后再对减结果和标准差结果相除，得到输出神经元向量写回至主运算模块的神经元缓存单元；

第四方面，提供一种执行多层人工神经网络正向运算的方法，包括：针对每一层，执行第二方面、第三方面所述的方法，其中：当针对上一层人工神经网络执行完毕后，将主运算模块中存储的上一层的输出神经元地址作为本层的输入神经元地址，针对所述本层再次执行根据第二方面或第三方面所述的方法。

可以看出，通过本披露实施例，计算装置设置有寄存器单元了存储介质，其分别存储标量数据以及矩阵数据，并且本披露为两种存储器分配了单位读取方式以及批量读取方式，通过对矩阵数据的特点分配匹配其特征的数据读取方式，能够很好的利用带宽，避免因为带宽的瓶颈对矩阵计算速度的影响，另外，对于寄存器单元来说，由于其存储的为标量数据，设置了标量数据的读取方式，提高了带宽的利用率，所以本披露提供的技术方案能够很好的利用带宽，避免带宽对计算速度的影响，所以其具有计算速度快，效率高的优点。

附图说明

图1A是一种计算装置结构示意图。

图1B是另一种计算装置结构示意图。

图2A是本披露实施例提供的计算装置的另一种结构示意图。

图2B是本披露实施例提供的卷积计算指令的流程示意图。

图3示出了根据本披露实施例的用于执行支持离散数据表示的人工神经网络正向运算的装置的整体结构的示例框图。

图4示意性示出了根据本披露实施例的用于执行支持离散数据表示的人工神经网络正向运算的装置中H树模块(互联模块的一种实施方式)的结构。

图5示出了根据本披露实施例的用于执行支持离散数据表示的人工神经网络正向运算的装置中主运算模块结构的示例框图。

图6示出了根据本披露实施例的用于执行支持离散数据表示的人工神经网络正向运算的装置中从运算模块结构的示例框图。

图7示出了根据本披露实施例的神经网络正向运算过程的示例框图。

图8示出了根据本披露实施例的支持离散数据表示的神经网络反向训练过程的示例框图。

图9示出了根据本披露实施例的单层人工神经网络运算的流程图。

图10示出了根据本披露实施例的运算单元示例结构。

图11示出了根据本披露实施例的连续数据和离散数据转化的连续离散转化模块的示例结构。

具体实施方式

本披露提供一种矩阵计算装置，包括存储单元、寄存器单元和矩阵运算单元，存储单元中存储有矩阵，寄存器单元中存储有矩阵存储的地址矩阵运算单元根据矩阵运算指令在寄存器单元中获取矩阵地址，然后，根据该矩阵地址在存储单元中获取相应的矩阵，接着，根据获取的矩阵进行矩阵运算，得到矩阵运算结果。本披露将参与计算的矩阵数据暂存在高速暂存存储器上，使得矩阵运算过程中可以更加灵活有效地支持不同宽度的数据，提升包含大量矩阵计算任务的执行性能。

需要说明的是，本披露具体实施方式中的矩阵具体可以为m*n矩阵、1*n矩阵或m*1矩阵，其中m、n为大于等于2的整数。当矩阵为1*n矩阵或m*1矩阵时，也可以称为向量，下述矩阵均可以为上述三种类型矩阵中的任意一种，下面不在赘述。以人工神经网络算法为例，多种神经网络算法中都含有大量的矩阵运算。在神经网络中，输出神经元的运算表达式为y＝f(wx+b)，其中w是第一矩阵，x是第二矩阵、b是第三矩阵，计算输出矩阵y的过程为矩阵w与矩阵x相乘，加上矩阵b。因此，矩阵运算成为目前各种计算装置在设计时需要考虑的问题，现有的矩阵的计算速度慢，无法满足用户对计算装置的要求，效率低。

参阅图1A，图1A为一种计算装置，在如图1A所示的矩阵的计算装置中，其包含多个通用处理器101(CPU)，每个CPU均包含自身的内存，其处理的方法可以为，多个CPU并行处理矩阵的计算，此方案虽在在矩阵的计算中采用并行处理的方式，但是其并不能有效的提高效率，因为对于矩阵运算中，第二矩阵运算的结果可能需要使用第一矩阵运算的结果，具体的，第一矩阵运算为f(1)＝A+B，第二矩阵运算为：f(2)＝f(1)+C，对于第二矩阵运算来说，其需要提取第一矩阵运算的结果f(1)才能够进行实际的矩阵计算处理，此种情况在神经网络计算中尤为突出，由于多个CPU并行处理矩阵运算，那么在矩阵计算的分配时，很有可能CPU1执行第一矩阵运算，CPU2执行第二矩阵运算，那么对于CPU2来说，其需要从CPU1提取第一矩阵运算的结果f(1)，所以对于多CPU并行处理矩阵来说，多个CPU之间的通讯成为矩阵运算的瓶颈，影响矩阵计算的速度。

参阅图1B，图1B为另一种计算装置，在如图1B所示的计算装置中，其包含有图形处理器(GPU)102，通过GPU102来执行矩阵的运算，对于GPU来说，其本身也包含内存1021，GPU102在处理矩阵运算时，GPU102需要从内存1021中提取矩阵运算所需的矩阵，矩阵由于其数据量大，单个矩阵所占用的存储空间比标量要大很多，对于GPU102来说，虽然其运算能够非常强，但是GPU102的内存的容量不够，无法存储大量的矩阵，为了解决这个问题，图1B配置了片外数据库103，GPU102可以从片外数据库103中读取矩阵，具体的读取方式为，GPU102从片外数据库103中提取待计算的矩阵，将该矩阵存储在内存1021中，在执行矩阵运算时，进行矩阵指令的译码处理，然后从内存1021中提取该矩阵进行计算。此技术方案在执行矩阵计算中，GPU102进行矩阵指令的译码会占用GPU很大部分的计算能力，，影响矩阵的计算速度，效率低。

本披露中提到的输入神经元和输出神经元并非是指整个神经网络的输入层中神经元和输出层中神经元，而是对于网络中任意相邻的两层，处于网络前馈运算下层中的神经元即为输入神经元，处于网络前馈运算上层中的神经元即为输出神经元。以卷积神经网络为例，设一个卷积神经网络有L层，K＝1,2,...,L-1，对于第k层和第k+1层来说，我们将第k层称为输入层，其中的神经元为所述输入神经元，第k+1层称为输出层，其中的神经元为所述输出神经元。即除最顶层外，每一层都可以作为输入层，其下一层为对应的输出层。

参阅图2A，图2A提供了一种计算装置，该计算装置包括：存储介质611(可选的)、寄存器单元612、互联模块613、运算单元614、控制单元615和数据访问单元616；

其中，运算单元614包括：加法计算器、乘法计算器、比较器、激活运算器中至少二种。

互联模块613，用于控制运算单元614中计算器的连接关系使得该至少二种计算器组成不同的计算拓扑结构。

指令存储单元(可以是寄存器单元，指令缓存，高速暂存存储器)612，用于存储该运算指令、数据块的在存储介质的地址、运算指令对应的计算拓扑结构。

该运算指令可以包括：操作域以及操作码，以卷积计算指令为例，如表1所示，其中，寄存器0、寄存器1、寄存器堆2、寄存器3、寄存器4可以为操作域。其中，每个寄存器0、寄存器1、寄存器2、寄存器3、寄存器4可以是一个或者多个寄存器。

存储介质611可以为片外存储器，当然在实际应用中，也可以为片内存储器，用于存储数据块，该数据块具体可以为n维数据，n为大于等于1的整数，例如，n＝1时，为1维数据，即向量，如n＝2时，为2维数据，即矩阵，如n＝3或3以上时，为多维数据。

控制单元615，用于从寄存器单元612内提取运算指令、该运算指令对应的操作域以及该运算指令对应的第一计算拓扑结构，将该运算指令译码成执行指令，该执行指令用于控制运算单元执行运算操作，将该操作域传输至数据访问单元616，将该计算拓扑结构传输至互联模块613。

数据访问单元616，用于从存储介质611中提取该操作域对应的数据块，并将该数据块传输至互联模块613。

互联模块613、用于接收第一计算拓扑结构和数据块。一个实施例里，互联模块613还根据第一计算拓扑结构对数据块重新摆放。

运算单元614，用于该执行指令调用运算单元614的计算器对该数据块执行运算操作得到运算结果，将该运算结果传输至数据访问单元存储在存储介质内。一个实施例里，运算单元614，用于按第一计算拓扑结构以及该执行指令调用计算器对重新摆放的数据块执行运算操作得到运算结果，将该运算结果传输至数据访问单元存储在存储介质内。

另一个实施例里，互联模块613、用于依据控制运算单元614中计算器的连接关系形成第一计算拓扑结构。

本披露提供的计算装置设置了互联模块，此互联模块能够根据运算指令的需要将运算单元内的计算器组合连接得到与该运算指令对应的计算拓扑结构，进而在后续的运算单元运算时无需对计算的中间数据执行存储或提取操作，此结构实现单一指令即能实现一次输入即能够进行多次计算器的运算得到计算结果的优点，提高了计算效率。

下面通过不同的运算指令来说明如图2A所示的计算装置的具体计算方法，这里的运算指令以卷积计算指令为例，该卷积计算指令可以应用在神经网络中，所以该卷积计算指令也可以称为卷积神经网络。对于卷积计算指令来说，其实际需要执行的公式可以为:s＝s(∑wx_i+b),其中，即将卷积核w乘以输入数据Xi，进行求和，然后加上偏置b后做激活运算s(h)，得到最终的输出结果s。依据该公式即可以得到该计算拓扑结构为，乘法运算器-加法运算器-(可选的)激活运算器。

上述卷积计算指令可以包括指令集，该指令集包含有不同功能的卷积神经网络COMPUTE指令以及CONFIG指令、IO指令、NOP指令、JUMP指令和MOVE指令。在一种实施例中，COMPUTE指令包括：

卷积神经网络sigmoid指令，根据该指令，装置分别从存储器(优选的高速暂存存储器或者标量寄存器堆)的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积操作，优选的，然后将输出结果做sigmoid激活；

卷积神经网络TanH指令，根据该指令，装置分别从存储器(优选的高速暂存存储器)的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积操作，优选的，然后将输出结果做TanH激活；

卷积神经网络ReLU指令，根据该指令，装置分别从存储器(优选的高速暂存存储器)的指定地址取出指定大小的输入数据和卷积核，在卷积运算部件中做卷积操作，优选的，然后将输出结果做ReLU激活；以及

卷积神经网络group指令，根据该指令，装置分别从存储器(优选的高速暂存存储器)的指定地址取出指定大小的输入数据和卷积核，划分group之后，在卷积运算部件中做卷积操作，优选的，然后将输出结果做激活。

CONFIG指令在每层人工神经网络计算开始前配置当前层计算需要的各种常数。

IO指令实现从外部存储空间读入计算需要的输入数据以及在计算完成后将数据存回至外部空间。

NOP指令负责清空当前装置内部所有控制信号缓存队列中的控制信号，保证NOP指令之前的所有指令全部指令完毕。NOP指令本身不包含任何操作；

JUMP指令负责控制将要从指令存储单元读取的下一条指令地址的跳转，用来实现控制流的跳转；

MOVE指令负责将装置内部地址空间某一地址的数据搬运至装置内部地址空间的另一地址，该过程独立于运算单元，在执行过程中不占用运算单元的资源。

如图2A所示的计算装置执行卷积计算指令的方法具体可以为：

控制单元615从寄存器单元612内提取卷积计算指令、卷积计算指令对应的操作域以及卷积计算指令对应的第一计算拓扑结构(乘法运算器-加法运算器-加法运算器-激活运算器)，控制单元将该操作域传输至数据访问单元，将该第一计算拓扑结构传输至互联模块。

数据访问单元存储介质内提取该操作域对应的卷积核w和偏置b(当b为0时，不需要提取偏置b)，将卷积核w和偏置b传输至计算单元。

计算单元的乘法运算器将卷积核w与输入数据Xi执行乘法运算以后得到第一结果，将第一结果输入到加法运算器执行加法运算得到第二结果，将第二结果和偏置b执行加法运算得到第三结果，将第三结果输到激活运算器执行激活运算得到输出结果s，将输出结果s传输至数据访问单元存储至存储介质内。其中，每个步骤后都可以直接输出结果传输到数据访问存储至存储介质内，无需下面的步骤。另外，将第二结果和偏置b执行加法运算得到第三结果这一步骤可选，即当b为0时，不需要这个步骤。

另外，加法运算和乘法运算的顺序可以调换。

本披露提供的技术方案通过一个指令即卷积计算指令即实现了卷积的计算，在卷积计算的中间数据(例如第一结果、第二结果、第三结果)均无需存储或提取，减少了中间数据的存储以及提取操作，所以其具有减少对应的操作步骤，提高卷积的计算效果的优点。

图2B是本披露实施例提供的卷积神经网络运算装置执行卷积神经网络的流程图，如图2B所示，执行卷积神经网络指令的过程包括：

在步骤S6B1，在指令存储单元的首地址处预先存入一条IO指令。

在步骤S6B2，控制器单元从指令存储单元的首地址读取该条IO指令，根据译出的控制信号，数据访问单元从存储介质读取相应的所有卷积神经网络运算指令，并将其缓存在指令存储单元中。

在步骤S6B3，控制器单元接着从指令存储单元读入下一条IO指令，根据译出的控制信号，数据访问单元从存储介质读取运算单元需要的所有数据块(例如，包括输入数据、用于作快速的激活函数运算的插值表、用于配置运算器件参数的常数表、偏置数据等)。

在步骤S6B4，控制器单元接着从指令存储单元读入下一条CONFIG指令，根据译出的控制信号，装置配置该层神经网络计算需要的各种常数。例如，运算单元根据控制信号里的参数配置单元内部寄存器的值，所述参数包括例如激活函数需要的数据。

在步骤S6B5，控制器单元接着从指令存储单元读入下一条COMPUTE指令，根据译出的控制信号，互连模块将卷积窗口内的输入数据发给计算单元内的各计算器。

在步骤S6B6，根据COMPUTE指令译出的控制信号，互联模块将乘法计算器、加法计算器和激活计算器连接形成第一计算拓扑结构。

在步骤S6B7，乘法运算器将卷积核w与输入数据Xi执行乘法运算以后得到第一结果，将第一结果输入到加法运算器执行加法运算得到第二结果，将第二结果和偏置b执行加法运算得到第三结果，将第三结果输入到激活运算器执行激活运算得到输出结果s，将输出结果s传输至数据访问单元存储至存储介质内。其中，将第二结果和偏置b执行加法运算得到第三结果这一步骤可选，即当b为0时，不需要这个步骤。

根据本披露实施例的支持离散数据表示的多层人工神经网络的正向运算，包括两层或者两层以上的多个神经元。对于每一层来说，输入神经元向量首先和权值向量进行点积运算，结果经过激活函数得到输出神经元。其中激活函数可以是sigmoid函数，tanh、relu、softmax函数等，支持将激活后的输出神经元离散化表示或连续化表示。

对于离散数据表示的输入神经元向量或离散数据表示的权值向量的点积运算，本装置支持将点积运算转换为数据的移位、取非、异或等位运算。对于数据的表示方式，本装置支持数据离散表示或非离散表示，用户可以自定义哪一个层的哪些数据采用离散表示形式或非离散表示，并且可以根据具体需要自定义离散数据的位数，从而代替表示的真实数据的个数，例如设定为1比特、2比特、3比特等位数的离散数据，分别可以表示2个、4个、8个真实数据。

图3示出了根据本披露实施例的用于执行支持离散数据表示的人工神经网络正向运算的装置的整体结构的示例框图。如图3所示，该装置在一种可选实施例中，可以为如图2A所示的计算装置，可选的，在如图2A所示的计算装置内还可以添加连续离散转换模块，用于将连续数据与离散数据的互换，其与数据访问单元连接实现数据互通，在一种可选实施例中，如图2A所示的计算装置还可以扩展或增加如图3所示的装置的模块或单元。在另一种可选实施例中，该装置包括指令缓存单元1、控制器单元2、数据访问单元3、互联模块4、主运算模块5和多个从运算模块6，可选地还包括连续离散转换模块7。指令缓存单元1、控制器单元2、数据访问单元3、互联模块4、主运算模块5和从运算模块6、连续离散转换模块7均可以通过硬件电路(例如包括但不限于FPGA、CGRA、专用集成电路ASIC、模拟电路和忆阻器等)实现。特别的，本装置可以对离散数据提供存储和运算支持。

指令缓存单元1通过数据访问单元3读入指令并缓存读入的指令。

控制器单元2从指令缓存单元1中读取指令，将指令译成控制其他模块行为的微指令，所述其他模块例如数据访问单元3、主运算模块5和从运算模块6等。

数据访问单元3能够访存外部地址空间，直接向装置内部的各个缓存单元读写数据，完成数据的加载和存储。该数据是离散表示的或非离散表示的。该单元用来设计可以读取离散表示的数据。

互联模块4用于连接主运算模块和从运算模块，可以实现成不同的互连拓扑(如树状结构、环状结构、网格状结构、分级互连、总线结构等)

图4示意性示出了互联模块4的一种实施方式：H树模块。H树模块4构成主运算模块5和多个从运算模块6之间的数据通路，并具有H树的结构。H树是由多个节点构成的二叉树通路，每个节点将上游的数据同样地发给下游的两个节点，将下游的两个节点返回的数据进行合并，并返回给上游的节点。例如，在每层人工神经网络开始计算阶段，主运算模块5内的神经元数据该数据可以是离散表示或非离散表示的通过H树模块4发送给各个从运算模块6；当从运算模块6的计算过程完成后，每个从运算模块输出的神经元的值会在H树中逐级拼成一个完整的由神经元组成的向量，作为中间结果向量。针对于离散数据表示的运算，我们特别提到了在主从运算模块内部的专用于离散数据运算的运算模块见图9。以神经网络全连接层进行说明，假设装置中共有N个从运算模块，则中间结果向量按N分段，每段有N个元素，第i个从运算模块计算每段中的第i个元素。N个元素经过H树模块拼成长度为N的向量并返回给主运算模块。所以如果网络只有N个输出神经元，则每个从运算单元只需输出单个神经元的值，若网络有m*N个输出神经元，则每个从运算单元需输出m个神经元值。H树模块在存储和传输数据的过程中均支持离散数据表示。

图5示出了根据本披露实施例的用于执行人工神经网络正向运算的装置中主运算模块5的结构的示例框图。如图5所示，主运算模块5包括运算单元51、数据依赖关系判断单元52和支持离散数据表示的神经元缓存单元53。

支持离散数据表示的神经元缓存单元53用于缓存主运算模块5在计算过程中用到的输入数据和输出数据。

运算单元51完成主运算模块5的各种运算功能。对于运算因子全是离散数据的情况，可以通过查表实现离散数据与离散数据的加减乘除运算。例如2位的离散数据，可以表示4个连续数据值。对于4个连续数据共有4*4＝16种组合。对于每种加减乘除运算的操作，可以制作并维护该4*4的索引表，通过索引表找到对应的计算值。4种运算共需要4张4*4的索引表。

对于运算因子包含离散数据和连续数据的情况，可以针对不同离散数据，为加、减、乘、除运算预先设定相应的位操作。例如，可以采取按位异或后乘2的相应位次幂之后累加求和的方式代替离散数据与连续数据的点积运算。例如，对于乘法操作，乘法因子数据如果存在离散表示的，可以通过离散数据索引相应的操作(例如，对相应数据的按位异或、取非、移位等操作)代替和该离散数据表示的连续数据的乘法操作，从而减少了乘法器部件数量。例如对于连续数据与离散数据的乘法操作，-1/2乘以16。传统的乘法器部件会将-1/2与16直接做乘法。在运算单元51中，由于离散数据的可能性较少，可以通过查找索引这样一种开关判断的方法代替了运算单元的功能。例如，可以规定-1/2的离散数据表示方法为01。如果一个运算因子是-1/2，则运算单元51接收到的离散数据为01。运算单元51便采用离散数据01对应的操作。通过对于16的8位定点数表示00010000符号位取反，向右移1位得到10001000，十进制表示为-8。对于除法操作，16除以-2。其中16是连续数据，-2是离散数据。如果规定离散数据-2二进制表示为10。运算单元便采用离散数据10对应的除法操作。通过对16的8位定点数表示0001000右移1位之后符号位取反得到10001000，十进制表示为-8得到结果。加法和减法操作与上述过程类似。根据离散数据的二进制作为一个索引，索引到按位左移、右移、异或等操作。经过该操作后实现了与离散数据表示的真实数据的相加或者相减操作。

依赖关系判断单元52是运算单元51读写神经元缓存单元53的端口，同时能够保证神经元缓存单元中数据的读写一致性。同时，数据依赖关系判断单元52也负责将读取数据通过互联模块4发送给从运算模块，而从运算模块6的输出数据通过互联模块4直接发送给运算单元51。控制器单元2输出的指令发送给计算单元51和数据依赖关系判断单元52，来控制其行为。

图6示出了根据本披露实施例的用于执行支持离散数据表示的人工神经网络正向运算的装置中从运算模块6的结构的示例框图。如图6所示，每个从运算模块6包括运算单元61、数据依赖关系判定单元62、支持离散数据表示的神经元缓存单元63和支持离散数据表示的权值缓存单元64。

运算单元61接收控制器单元2发出的微指令并进行算数逻辑运算。对于运算因子全是离散数据的情况，可以通过查表实现离散数据与离散数据的加减乘除运算。例如2位的离散数据，可以表示4个连续数据值。对于4个连续数据共有4*4＝16种组合。对于每种加减乘除运算的操作，可以制作并维护该4*4的索引表，通过索引表找到对应的计算值。4种运算共需要4张4*4的索引表。

数据依赖关系判断单元62负责计算过程中对神经元缓存单元的读写操作。数据依赖关系判断单元62执行读写操作之前会首先保证指令之间所用的数据不存在读写一致性冲突。例如，所有发往数据依赖关系单元62的微指令都会被存入数据依赖关系单元62内部的指令队列里，在该队列中，读指令的读取数据的范围如果与队列位置靠前的写指令写数据的范围发生冲突，则该指令必须等到所依赖的写指令被执行后才能够执行。

支持离散数据表示的神经元缓存单元63缓存该从运算模块6的输入神经元向量数据和输出神经元值数据。该数据可以以离散数据的形式存储和传输。

支持离散数据表示的权值缓存单元64缓存该从运算模块6在计算过程中需要的权值数据。该数据根据用户定义可以是离散表示的或不是。对于每一个从运算模块6，都只会存储全部输入神经元与部分输出神经元之间的权值。以全连接层为例，输出神经元按照从运算单元的个数N进行分段，每段的第n个输出神经元对应的权值存放在第n个从运算单元中。

从运算模块6实现每层人工神经网络正向运算过程中可以并行的前半部分。该模块中的数据存储以及运算都支持离散数据表示。以人工神经网络全连接层(MLP)为例，过程为y＝f(wx+b)，其中权值矩阵w和输入神经元向量x的乘法可以划分为不相关的并行计算子任务，out与in是列向量，每个从运算模块6只计算in中相应的部分标量元素与权值矩阵w对应的列的乘积，得到的每个输出向量都是最终结果的一个待累加的部分和，这些部分和在互联模块4中逐级两两相加得到最后的结果。这个结果可以是离散数据表示的。所以计算过程变成了并行的计算部分和的过程和后面的累加的过程。每个从运算模块6计算出输出神经元值，所有的输出神经元值在互联模块4中拼成得到中间结果向量。每个从运算模块6只需要计算出中间结果向量y中与本模块对应的输出神经元值即可。互联模块4对所有从运算模块6输出的神经元值求和，得到最终的中间结果向量y。主运算模块5基于中间结果向量y进行后续计算，比如加偏置、池化(例如最大值池化(MAXPOOLING)或平均值池化(AVGPOOLING)等)、做激活和做采样等。

图10示出了运算单元的结构框图，其可用于主运算模块中的运算单元51或从运算模块中的运算单元61。运算过程中输入数据可以是离散数据或连续数据。数据类型判断单元71判断输入数据全是连续数据、全是离散数据或是既包含连续数据又包含离散数据的混合数据。当输入数据全是连续数据时，连续数据运算单元72执行相应运算。

当输入数据全是离散数据时，离散数据运算单元73执行相应运算。对于运算因子全是离散数据的情况，可以通过查表实现离散数据与离散数据的加减乘除运算。例如2位的离散数据，可以表示4个连续数据值。对于4个连续数据共有4*4＝16种组合。对于每种加减乘除运算的操作，我们制作并维护该4*4的索引表，通过索引表找到对应的计算值。4种运算共需要4张4*4的索引表。

当输入数据是混合数据时，运算决定单元74根据其中的离散数据决定应对其执行何种操作。可以针对不同的离散数据分别预先设置相应操作。然后，混合数据运算单元75根据运算决定单元74的决定结果，执行相应操作。对于运算因子包含离散数据和连续数据的情况，可以针对不同离散数据，为加、减、乘、除运算预先设定相应的位操作。例如，可以采取按位异或后乘2的相应位次幂之后累加求和的方式代替离散数据与连续数据的点积运算。例如，对于乘法操作，乘法因子数据如果存在离散表示的，可以通过离散数据索引相应的操作(例如，对相应数据的按位异或、取非、移位等操作)代替和该离散数据表示的连续数据的乘法操作，从而减少了乘法器部件数量。例如对于连续数据与离散数据的乘法操作，-1/2乘以16。传统的乘法器部件会将-1/2与16直接做乘法。在运算单元51中，由于离散数据的可能性较少，可以通过查找索引这样一种开关判断的方法代替了运算单元的功能。例如，可以规定-1/2的离散数据表示方法为01。如果一个运算因子是-1/2，则运算单元51接收到的离散数据为01。运算单元51便采用离散数据01对应的操作。通过对于16的8位定点数表示00010000符号位取反，向右移1位得到10001000，十进制表示为-8。对于除法操作，16除以-2。其中16是连续数据，-2是离散数据。如果规定离散数据-2二进制表示为10。运算单元便采用离散数据10对应的除法操作。通过对16的8位定点数表示0001000右移1位之后符号位取反得到10001000，十进制表示为-8得到结果。加法和减法操作与上述过程类似。根据离散数据的二进制作为一个索引，索引到按位左移、右移、异或等操作。经过该操作后实现了与离散数据表示的真实数据的相加或者相减操作。

图11示出了连续离散转换单元。用户可以定义采用该模块将连续数据转换为离散数据或不采用。输入连续数据，输出离散数据。该单元包括随机数产生模块、判断模块、运算模块。对于输入的连续数据通过运算模块得到运算后的结果，经由判断模块用随机数与运算后的结果比较，判断随机数落在哪一个区间，从而决定出输出的离散数据的具体值。例如用户定义产生二元离散数据。对于输入的任意连续数据x。经由运算模块计算出结果y＝abs(clip(-1,1))。之后通过判断模块，如果随机数大于y，则输出的离散数据是1，反之输出的离散数据是0。离散数据1和0分别代表了连续数据的-1和+1。将得到的离散数据存储回内存中。等待主从运算模块中的运算单元使用，产生相应的操作。

正向过程中的权值数据、输出输入数据可以采用离散数据表示或不采用。对于连续数据的乘法操作，可以通过基于离散数据的异或、取非、位移等方式代替连续数据的乘法操作。例如权值用1比特离散数据表示，0代表+1,1代表-1，通过对与权值相乘数据的符号位异或，实现了对权值的乘法运算。

根据本披露实施例，还提供了在前述装置上执行人工神经网络正向运算的指令集。指令集中包括CONFIG指令、COMPUTE指令、IO指令、NOP指令、JUMP指令和MOVE指令等，其中：

CONFIG指令在每层人工神经网络计算开始前配置当前层计算需要的各种常数；

COMPUTE指令完成每层人工神经网络的算术逻辑计算；

IO指令实现从外部地址空间读入计算需要的输入数据以及在计算完成后将数据存回至外部空间，该数据支持离散化表示；

NOP指令负责清空当前装置内部所有微指令缓存队列中的微指令，保证NOP指令之前的所有指令全部指令完毕。NOP指令本身不包含任何操作；

JUMP指令负责控制器将要从指令缓存单元读取的下一条指令地址的跳转，用来实现控制流的跳转；

图7示出了根据本披露实施例的神经网络正向运算过程的示例框图。在不同从运算模块6中，输入神经元向量分别与该从运算模块6的权值向量进行点积运算，得到对应的输出神经元值，所有这些输出神经元值组成中间结果向量，该中间结果向量经过加偏置向量以及激活运算得到该层神经网络的最终输出神经元向量，公式描述为out＝f(w*in+b)，其中out输出神经元向量、in是输入神经元向量、b是偏置向量，w是权值矩阵，f是激活函数。每个从运算模块6的权值向量是权值矩阵中与该从运算模块6相对应的列向量。互联模块将输入神经元向量[in0,…,inN]发送给所有的从运算单元，暂存在神经元缓存单元中。对于第i个从运算单元，计算其相应的权值向量[w_i0,…,w_iN]与输入神经元向量的点积。从运算单元输出的结果经过互联模块拼成完整的输出向量并返回给主运算单元，在主运算单元中进行激活运算，得到最后的输出神经元向量[out0,out1,out2,…,outN]。

图8是示出根据一个实施例的单层支持离散数据表示的人工神经网络正向计算的一种实施方法。该流程图描述利用本披露的装置和指令集实现图5所示的一种单层离散数据表示的人工神经网络正向运算过程。该计算方法在如图2、图5或图2A所示的计算装置中实现。

步骤S1.1，将初始指令存放到指令存储单元1中；

步骤S1.2，从指令存储单元1中读取一条指令；

步骤S1.3，对上述指令进行译码；

步骤S1.4，根据译码得到的控制信号，进行相应操作；

步骤S1.5，将操作结果写回到相应存储中。

在步骤S1.1中，可以存入初始化IO指令，用于搬运后续指令。

在步骤S1.2中，可读取的指令包括但不限于CONFIG指令、COMPUTE指令、IO指令、NOP指令、JUMP指令和MOVE指令等。

在步骤S1.3中，根据指令的操作类型(CONFIG，COMPUTE，IO，NOP，JUMP，MOVE等)译码得到相应模块的控制信号。对于CONFIG指令，译码得到配置其余模块的配置信息。对于COMPUTE指令，译码得到主从运算模块的控制信号，控制不同离散数据采取的对应操作。对于IO指令，译码得到数据访问模块的控制信号。对于NOP指令，不产生实际控制信号，只用于清空当前装置内部所有控制信号缓存队列中的控制信号，保证NOP指令之前的所有指令全部执行完毕。对于JUMP指令，得到跳转指令流的控制信号。对于MOVE指令，得到在装置内部搬运数据的控制信号。

在步骤S1.4中，上述模块2-6根据控制信号执行相应操作。以执行支持离散数据表示的神经网络正向的COMPUTE指令为例，互连模块将输入神经元向量[in0,…,inN]发送给所有的从运算模块，暂存在神经元缓存单元中。对于第i个从运算模块，计算其相应的权值向量[w_i0,…,w_iN]与输入神经元向量的点积。从运算模块输出的结果经过互连模块拼成完整的输出向量并返回给主运算模块，在主运算模块中进行激活运算，得到最后的输出神经元向量[out0,out1,out2,…,outN]。

在步骤S1.5中，各个模块将操作结果写回到相应缓存中。以执行离散数据表示的神经网络正向的运算为例，主运算模块得到的输出神经元向量被写回到存储单元。

图9是示出根据一个实施例的单层人工神经网络正向运算的另一种更详细的实施方法。该流程图描述利用本披露的装置和指令集实现图4所示的一种单层神经网络正向运算的过程。

在步骤S1，在指令缓存单元1的首地址处预先存入一条IO指令。

在步骤S2，运算开始，控制器单元2从指令缓存单元1的首地址读取该条IO指令，根据译出的微指令，数据访问单元3从外部地址空间读取相应的所有人工神经网络运算指令，并将其缓存在指令缓存单元1中。

在步骤S3，控制器单元2接着从指令缓存单元读入下一条IO指令，根据译出的微指令，数据访问单元3从外部地址空间读取主运算模块5需要的所有数据(例如，包括输入神经元向量、插值表、常数表和偏置等)至主运算模块5的神经元缓存单元53，该数据支持离散表示，可以是全部离散或部分离散。

在步骤S4，控制器单元2接着从指令缓存单元读入下一条IO指令，根据译出的微指令，数据访问单元3从外部地址空间读取从运算模块6需要的权值矩阵数据，该数据支持离散表示，可以是全部离散或部分离散。

在步骤S5，控制器单元2接着从指令缓存单元读入下一条CONFIG指令，根据译出的微指令，装置配置该层神经网络计算需要的各种常数。例如，运算单元51、61根据微指令里的参数配置单元内部寄存器的值，所述参数例如包括本层计算的精度设置、激活函数的数据(例如本层计算的精度位，Lrn层算法的rang参数，AveragePooling层算法窗口大小的倒数等)。

在步骤S6，控制器单元2接着从指令缓存单元读入下一条COMPUTE指令，根据译出的微指令，主运算模块5首先通过互联模块4将输入神经元向量发给各从运算模块6，保存至从运算模块6的神经元缓存单元63。

在步骤S7，根据COMPUTE指令译出的微指令，从运算模块6的运算单元61从权值缓存单元64读取权值向量(权值矩阵中对应于该从运算模块6的列向量)，从神经元缓存单元读取输入神经元向量，完成权值向量和输入神经元向量的点积运算，将中间结果通过互联返回，对于离散数据，自定义采用异或等位运算代替点积运算或不采用。例如对于1比特的离散数据表示，0代表+1,1代表-1，通过对与权值相乘数据的符号位异或，实现了对权值的乘法运算。。

在步骤S8，在互联模块4中，各从运算模块6返回的中间结果被逐级拼成完整的中间结果向量。

在步骤S9，主运算模块5得到互联模块4的返回值，根据COMPUTE指令译出的微指令，从神经元缓存单元53读取偏置向量，与互联模块4返回的向量相加，然后再对相加结果做激活，该装置支持用户自定义是否将激活后的结果离散化表示。并将最后的输出神经元向量写回至神经元缓存单元53。

在步骤S10，控制器单元接着从指令缓存单元读入下一条IO指令，根据译出的微指令，数据访问单元3将神经元缓存单元53中的输出神经元向量存至外部地址空间指定地址，运算结束。

对于人工神经网络批归一化运算(Batch Normalization)运算步骤与上述过程相仿。通过提供的指令集，控制器完成以下过程。控制器控制数据访问单元读入输入的数据，之后控制主从运算模块根据batch大小求出各自位置的均值以及方差或使用设定好的均值方差。之后控制器控制对应位置的输入数据减去均值除以方差。最后控制器控制用处理后的数据与学习参数相乘后加上另一个学习参数。

对于多层人工神经网络，其实现过程与单层神经网络类似，当上一层人工神经网络执行完毕后，下一层的运算指令会将主运算单元中存储的上一层的输出神经元地址作为本层的输入神经元地址。同样地，指令中的权值地址和偏置地址也会变更至本层对应的地址。

通过采用用于执行人工神经网络正向运算的装置和指令集，解决了CPU和GPU运算性能不足，前端译码开销大的问题。有效提高了对多层人工神经网络正向运算的支持。

通过采用针对多层人工神经网络正向运算的专用片上缓存，充分挖掘了输入神经元和权值数据的重用性，避免了反复向内存读取这些数据，降低了内存访问带宽，避免了内存带宽成为多层人工神经网络正向运算性能瓶颈的问题。

通过采用离散数据表示的方法，相较于浮点数、定点数等表示方法，大大较少了装置的存储能耗等开销。可以再有限的面积上优化结构布局，提高运算速度或性能能耗比等指标。

以上所述的具体实施例，对本披露的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本披露的具体实施例而已，并不用于限制本披露，凡在本披露的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本披露的保护范围之内。

Claims

1.一种支持离散数据表示的用于执行人工神经网络正向运算的装置，包括控制器单元、数据访问单元、互联模块、主运算模块、多个从运算模块，其中：

控制器单元用于读取指令，并将该指令译码成控制互联模块、主运算模块、以及从运算模块行为的微指令；

所述指令为卷积神经网络运算指令，包括：至少1个操作码和至少1个操作域，其中，

所述操作码用于指示所述卷积神经网络运算指令的功能，所述操作域用于指示所述卷积神经网络运算指令的数据信息；

所述数据信息包括：立即数或寄存器号，具体包括：输入数据的起始地址和数据长度，卷积核的起始地址和数据长度，以及激活函数的类型；

数据访问单元用于从外部地址空间向主运算模块和各从运算模块的相应数据缓存单元中写入离散数据或连续数据或从所述数据缓存单元向外部地址空间读离散数据或连续数据；

每层神经网络开始正向计算的阶段，主运算模块通过互联模块向所有的从运算模块传输本层的离散或连续的输入神经元向量，在从运算模块的计算过程完成后，互联模块逐级将各从运算模块的离散或连续化的输出神经元值拼成中间结果向量，其中，当输入数据是离散数据与连续数据的混合数据时，从运算模块针对不同离散数据采取预先设置的相应计算方式；

主运算模块用于利用中间结果向量完成后续计算，当输入数据是离散数据与连续数据的混合数据时，主运算模块针对不同离散数据采取预先设置的相应计算方式。

2.根据权利要求1所述的装置，其特征在于，所述装置还包括：指令缓存单元；用于通过数据访问单元读入指令并缓存读入的指令。

3.根据权利要求1所述的装置，其中，离散数据表示指用特定的离散数字代替真实的连续数据的表示方式。

4.根据权利要求1所述的装置，其中，多个从运算模块利用相同的离散或连续的输入神经元向量和各自不同的离散或连续的权值向量，并行地计算出各自的离散或连续输出神经元值。

5.根据权利要求1所述的装置，其中，主运算模块对中间结果向量执行以下任一项操作：

加偏置操作，在中间结果向量上加上偏置；

池化操作，包括最大值池化或平均值池化。

6.根据权利要求1所述的装置，其中，从运算模块包括输入神经元缓存单元，用于缓存离散或者连续的输入神经元向量。

7.根据权利要求1所述的装置，其中，互联模块构成主运算模块和所述多个从运算模块之间的连续或离散化数据的数据通路。

8.根据权利要求1所述的装置，其中，主运算模块包括运算单元、数据依赖关系判断单元和神经元缓存单元，其中：

来自互联模块的中间结果向量被发送到运算单元。

9.根据权利要求1所述的装置，其中，每个从运算模块包括运算单元、数据依赖关系判定单元、神经元缓存单元和权值缓存单元，其中：

10.根据权利要求8或9所述的装置，其中，数据依赖关系判断单元通过以下方式保证读写不存在一致性冲突：判断尚未执行的微指令与正在执行过程中的微指令的数据之间是否存在依赖关系，如果不存在，允许该尚未执行的微指令立即发射，否则需要等到该条微指令所依赖的所有微指令全部执行完成后该条微指令才允许被发射。

11.根据权利要求8或9所述的装置，其中主运算模块或从运算模块中的运算单元包括运算决定单元和混合数据运算单元，当输入数据是混合数据时，运算决定单元根据其中的离散数据决定应对该混合数据执行何种操作，然后，混合数据运算单元根据运算决定单元的决定结果，执行相应操作。

12.根据权利要求10所述的装置，其中主运算模块或从运算模块中的所述运算单元还包括离散数据运算单元和连续数据运算单元中的至少一个，以及数据类型判断单元，当输入数据全是离散数据时，由离散数据运算单元根据输入的离散数据通过查表执行相应操作，当输入数据全是连续数据时，由连续数据运算单元执行相应操作。

13.根据权利要求1所述的装置，还包括连续离散转换单元，连续离散转换单元包括预处理模块、距离计算模块和判断模块，假设使用M个离散数据，M＝2m，m≥1，令这些离散数据分别对应于预定区间[-zone,zone]内的M个数值，其中：

判断模块基于该距离计算并输出离散数据。

14.根据权利要求13所述的装置，其特征在于以下任意一项或多项：

预定区间[-zone,zone]是[-1,1]或[-2,2]；

M个数值的绝对值是2的幂的倒数；或者

判断模块执行：

15.根据权利要求1所述的装置，其特征在于，

所述卷积神经网络运算指令包括：卷积计算指令，用于将卷积核w乘以输入数据xi，进行求和，然后加上偏置b后做激活运算s(h)，得到最终的输出结果。

16.根据权利要求1或15所述的装置，其特征在于，

所述卷积神经网络运算指令包括：COMPUTE指令、CONFIG指令、IO指令、NOP指令、JUMP指令或MOVE指令；

17.根据权利要求16所述的装置，其特征在于，

所述CONFIG指令，用于指引装置在每层人工神经网络计算开始前配置当前层计算需要的各种常数；

或所述JUMP指令，用于指引装置实现控制流的跳转；

18.一种使用根据权利要求1-9、13-15中的任一项的装置执行单层人工神经网络正向运算的方法，包括：

19.一种使用根据权利要求1-9、13-15中的任一项的装置执行批归一化运算的方法：

20.一种执行多层人工神经网络正向运算的方法，包括：

针对每一层，执行根据权利要求18、19所述的方法，其中：

当针对上一层人工神经网络执行完毕后，将主运算模块中存储的上一层的输出神经元地址作为本层的输入神经元地址，针对所述本层再次执行根据权利要求18或19所述的方法。