CN107688854A

CN107688854A - 一种能支持不同位宽运算数据的运算单元、方法及装置

Info

Publication number: CN107688854A
Application number: CN201610640111.8A
Authority: CN
Inventors: 陈天石; 郭崎; 杜子东
Original assignee: Beijing Zhongke Cambrian Technology Co Ltd
Current assignee: Cambricon Technologies Corp Ltd; Beijing Zhongke Cambrian Technology Co Ltd
Priority date: 2016-08-05
Filing date: 2016-08-05
Publication date: 2018-02-13
Anticipated expiration: 2036-08-05
Also published as: KR20190029515A; TWI789358B; EP3496006A1; EP3496006A4; WO2018024093A1; KR102486029B1; TW201805835A; EP3496006B1; CN114004349A; US10489704B2; CN107688854B; US20190236442A1

Abstract

本发明提供了一种运算单元、运算方法及运算装置，通过配置指令中的位宽域来配置参与运算的运算数据位宽，在根据指令执行运算时，首先判断是否存在与指令中操作数所指示的运算数据位宽相同的运算器，如果是，将该操作数直接传给相应的运算器，否则，生成运算器合并策略，并根据运算器合并策略将多个运算器合并成一个新的运算器，以使该新的运算器的位宽符合该操作数的位宽，并将该操作数传给该新的运算器；再令获得该操作数的运算器执行神经网络运算/矩阵运算/向量运算。本发明能够支持不同位宽运算数据的运算，以实现高效的神经网络运算、矩阵运算及向量运算，同时，节省运算器的数量，减少硬件面积。

Description

一种能支持不同位宽运算数据的运算单元、方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种运算单元、运算方法及运算装置，支持不同位宽运算数据的运算。

背景技术

人工神经网络(ANNs)，简称神经网络(NNs)，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。目前，神经网络在智能控制、机器学习等很多领域均获得长足发展。由于神经网络属于算法数学模型，其涉及大量的数学运算，因此如何快速、准确地执行神经网络运算是当前迫切需要解决的问题。其中，神经网络运算中各个参数在不同的层次中进行表示和运算时所需的位宽不同，使用不同位宽的运算器，可以减少实际的运算量，降低功耗；通过将低位宽的运算器合并成高位宽的运算器可以重复利用低位宽的运算器，减少运算器的数量，减少装置的面积。

发明内容

有鉴于此，本发明的目的在于提供一种运算单元、运算方法及运算装置，支持不同位宽运算数据的运算，以实现高效的神经网络运算、矩阵运算及向量运算。

本发明提供的运算单元、运算方法及运算装置，首先判断是否存在与运算数据位宽相同的运算器，如果是，将该运算数据直接传给相应的运算器，否则，生成运算器合并策略，并根据运算器合并策略将多个运算器合并成一个新的运算器，以使该新的运算器的位宽符合该运算数据的位宽，并将该运算数据传给该新的运算器；再令获得该运算数据的运算器执行神经网络运算/矩阵运算/向量运算。

另外，本发明根据指令执行不同位宽运算数据的运算，指令采用了两种方式进行实现：一种为直接采用一条指令的方式，该指令中同时包括操作数和位宽域，运算单元能够直接根据该指令获取操作数和相应位宽的运算器，以执行相应的运算；另一种为采用两条指令的方式，运算单元先根据位宽配置指令获取或构造相应位宽的运算器，再根据运算指令获取操作数以执行相应的运算。

本发明具有以下有益效果：

1、本发明通过指令中的位宽域来指定运算数据的位宽，使得运算数据的位宽能够根据需要任意配置，针对某一位宽的运算数据，如果存在与该位宽符合的运算器，可直接调用该运算器执行运算，如果该运算数据的位宽过大，没有符合该位宽的运算器，可对多个较低位宽的运算器进行合并，以构造新的运算器，并利用新的运算器执行运算，能够支持不同位宽运算数据的运算，以实现高效的神经网络运算、矩阵运算及向量运算，同时，节省运算器的数量，减少硬件面积。

2、本发明采用高速暂存存储器，其能够实现对不同长度和不同位宽的运算数据(如：神经元、向量、矩阵)的存储。

附图说明

图1是本发明提供的运算装置的结构示意图。

图2是本发明提供的运算单元的结构示意图。

图3为本发明采用一条指令的方式执行运算的指令格式示意图。

图4是本发明的神经网络运算指令的格式示意图。

图5是本发明的矩阵-矩阵运算指令的格式示意图。

图6是本发明的向量-向量运算指令的格式示意图。

图7是本发明的矩阵-向量运算指令的格式示意图。

图8是本发明实施例的运算装置的结构示意图。

图9是本发明实施例中译码模块的结构示意图。

图10是本发明实施例的运算装置采用一条指令的方式执行运算的流程图。

图11是本发明采用两条指令的方式执行运算中位宽配置指令的格式示意图。

图12是本发明采用两条指令的方式执行运算中运算指令的格式示意图。

图13是本发明的神经网络位宽配置指令的格式示意图。

图14是本发明的神经网络运算指令的格式示意图。

图15是本发明的矩阵-矩阵位宽配置指令的格式示意图。

图16是本发明的矩阵-矩阵运算指令的格式示意图。

图17是本发明的向量-向量位宽配置指令的格式示意图。

图18是本发明的向量-向量运算指令的格式示意图。

图19是本发明的矩阵-向量位宽配置指令的格式示意图。

图20是本发明的矩阵-向量运算指令的格式示意图。

图21是本发明实施例的运算装置采用两条指令的方式执行运算的流程图。

具体实施方式

本发明公开了一种能支持不同位宽运算数据的运算单元、运算方法及运算装置，通过配置指令中的位宽域来配置参与运算的运算数据位宽，在根据指令执行运算时，首先判断是否存在与运算数据位宽相同的运算器，如果是，将该运算数据直接传给相应的运算器，否则，生成运算器合并策略，并根据运算器合并策略将多个运算器合并成一个新的运算器，以使该新的运算器的位宽符合该运算数据的位宽，并将该运算数据传给该新的运算器；再令获得该运算数据的运算器执行神经网络运算/矩阵运算/向量运算。本发明能够支持不同位宽运算数据的运算，以实现高效的神经网络运算、矩阵运算及向量运算，同时，节省运算器的数量，减少硬件面积。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1是本发明提供的运算装置的结构示意图，如图1所示，该运算装置包括：

存储单元，用于存储神经元/矩阵/向量，在一实施方式中，该存储单元可以是高速暂存存储器(Scratchpad Memory)，能够支持不同长度和不同位宽的神经元/矩阵/向量数据，将必要的运算数据暂存在高速暂存存储器上，使本运算装置在进行神经网络运算以及矩阵/向量运算过程中可以更加灵活有效地支持不同长度和不同位宽的数据。高速暂存存储器可以通过各种不同存储器件(SRAM、eDRAM、DRAM、忆阻器、3D-DRAM或非易失存储等)实现。

寄存器单元，用于存储神经元/矩阵/向量地址，其中：神经元地址为神经元在存储单元中存储的地址、矩阵地址为矩阵在存储单元中存储的地址、向量地址为向量在存储单元中存储的地址；在一种实施方式中，寄存器单元可以是标量寄存器堆，提供运算过程中所需的标量寄存器，标量寄存器不只存放神经元/矩阵/向量地址，还存放有标量数据。当涉及到矩阵/向量与标量的运算时，运算单元不仅要从寄存器单元中获取矩阵/向量地址，还要从寄存器单元中获取相应的标量。

控制单元，用于控制装置中各个模块的行为。在一实施方式中，控制单元读取准备好的指令，进行译码生成多条微指令，发送给装置中的其他模块，其他模块根据得到的微指令执行相应的操作。

运算单元，用于获取指令，根据指令在寄存器单元中获取神经元/矩阵/向量地址，然后，根据该神经元/矩阵/向量地址在存储单元中获取相应的神经元/矩阵/向量，从而对该运算数据(神经元/矩阵/向量)执行运算。运算单元执行的运算包括但不限于：卷积神经网络正向运算操作、卷积神经网络训练操作、神经网络Pooling运算操作、full connection神经网络正向运算操作、full connection神经网络训练操作、batch normalization运算操作、RBM神经网络运算操作、矩阵-向量乘运算操作、矩阵-矩阵加/减运算操作、向量外积(张量)运算操作、向量内积运算操作、向量四则运算操作、向量逻辑运算操作、向量超越函数运算操作、向量比较运算操作、求向量最大/最小值运算操作、向量循环移位运算操作、生成服从一定分布的随机向量运算操作。

运算单元在执行运算的过程中，根据指令中操作数所指示的运算数据的位宽，选择相应的一个或多个运算器以执行运算，其中，一个或多个运算器具有不同的位宽，例如，有的运算器支持16位的数据运算，有的运算器支持32位的数据运算，运算器实质上可以是向量乘法部件、累加部件和标量乘法部件等。如图2所示，运算单元包括判断子模块、运算器合并子模块和运算子模块；

判断子模块用于判断是否存在与该操作数所指示的运算数据位宽相同的运算器，如果是，将该操作数传给相应的运算器，否则，将运算器合并策略及该操作数传递给运算器合并子模块；

运算器合并子模块用于根据运算器合并策略将多个运算器合并成一个新的运算器，以使该新的运算器的位宽符合该操作数的位宽，并将该操作数传给该新的运算器。具体的，运算器合并策略是指优先选用较大位宽的运算器进行组合。当存在与所需位宽相同的运算器时，直接使用对应的运算器；若不存在，则选用比所需运算器位宽小且最为接近的可用的运算器进行组合。例如，可用的用于组合的运算器位宽分别为8位、16位、32位时，当所需的运算器的位宽为32位时，直接使用32位运算器；当所需的运算器的位宽为64位时，使用两个32位运算器进行合并；当所需的运算器的位宽为48位时，使用一个32位运算器和一个16位运算器进行合并；当所需的运算器的位宽为40位时，则选用一个32位运算器和一个8位运算器进行合并。

运算子模块用于令获得该操作数的运算器执行运算。

本发明的指令采用了两种方式进行实现：一种为直接采用一条指令的方式，该指令中同时包括操作数和位宽域，运算单元能够直接根据该指令获取操作数和相应位宽的运算器，以执行相应的运算；另一种为采用两条指令的方式，运算单元先根据位宽配置指令获取或构造相应位宽的运算器，再根据运算指令获取操作数以执行相应的运算。

需要说明的是，本发明指令集采用Load/Store结构，运算单元不会对内存中的数据进行操作。本指令集采用超长指令字架构，通过对指令进行不同的配置可以完成复杂的神经网络运算，也可以完成简单的矩阵/向量运算。另外，本指令集同时采用定长指令，使得本发明的神经网络运算以及矩阵/向量运算装置在上一条指令的译码阶段对下一条指令进行取指。

图3示出了本发明采用一条指令的方式执行运算的指令格式示意图，如图3所示，指令包括至少一操作码和至少3个操作数和至少2个位宽域，其中，位宽域与在运算器中运算时操作数的种类数量相同；其中，操作码用于指示该运算指令的功能，运算单元通过识别一个或多个操作码可进行不同的运算，操作数用于指示该运算指令的数据信息，位宽域用于指明对应操作数的位宽；其中，数据信息可以是立即数或寄存器号，例如，要获取一个矩阵时，根据寄存器号可以在相应的寄存器中获取矩阵起始地址和矩阵长度，再根据矩阵起始地址和矩阵长度在存储单元中获取相应地址存放的矩阵。

图4是本发明的神经网络运算指令的格式示意图，其为图3指令的实例化指令，如图4所示，神经网络运算指令包括至少一操作码和16个操作数和4个位宽域，其中，操作码用于指示该神经网络运算指令的功能，运算单元通过识别一个或多个操作码可进行不同的神经网络运算，操作数用于指示该神经网络运算指令的数据信息，其中，数据信息可以是立即数或寄存器号，位宽域用于指明操作数在运算中所对应的位宽，同时，位宽域用于指明运算过程中所对应的运算器的位宽以及是否需要将低位宽运算器合并为高位宽运算器。

图5是本发明的矩阵-矩阵运算指令的格式示意图，其为图3指令的实例化指令，如图5所示，矩阵-矩阵运算指令包括至少一操作码和至少4个操作数和2个位宽域，其中，操作码用于指示该矩阵-矩阵运算指令的功能，运算单元通过识别一个或多个操作码可进行不同的矩阵运算，操作数用于指示该矩阵-矩阵运算指令的数据信息，其中，数据信息可以是立即数或寄存器号，位宽域用于指明操作数在运算中所对应的位宽，同时，位宽域用于指明运算过程中所对应的运算器的位宽以及是否需要将低位宽运算器合并为高位宽运算器。

图6是本发明的向量-向量运算指令的格式示意图，其为图3指令的实例化指令，如图6所示，向量-向量运算指令包括至少一操作码和至少3个操作数和至少2个位宽域，其中，操作码用于指示该向量-向量运算指令的功能，运算单元通过识别一个或多个操作码可进行不同的向量运算，操作数用于指示该向量-向量运算指令的数据信息，其中，数据信息可以是立即数或寄存器号，位宽域用于指明操作数在运算中所对应的位宽，同时，位宽域用于指明运算过程中所对应的运算器的位宽以及是否需要将低位宽运算器合并为高位宽运算器。

图7是本发明的矩阵-向量运算指令的格式示意图，其为图3指令的实例化指令，如图7所示，矩阵-向量运算指令包括至少一操作码和至少6个操作数和至少3个位宽域，其中，操作码用于指示该矩阵-向量运算指令的功能，运算单元通过识别一个或多个操作码可进行不同的矩阵和向量运算，操作数用于指示该矩阵-向量运算指令的数据信息，其中，数据信息可以是立即数或寄存器号，位宽域用于指明操作数在运算中所对应的位宽，同时，位宽域用于指明运算过程中所对应的运算器的位宽以及是否需要将低位宽运算器合并为高位宽运算器。

图8是本发明一优选实施例的运算装置的结构示意图，如图8所示，该装置包括取指模块、译码模块、指令队列、标量寄存器堆、依赖关系处理单元、存储队列、重排序缓存、运算单元、高速暂存器、IO内存存取模块；

取指模块，该模块负责从指令序列中取出下一条将要执行的指令，并将该指令传给译码模块；

译码模块，该模块负责对指令进行译码，并将译码后指令传给指令队列；如图9所示，该译码模块包括：指令接受模块、微指令生成模块、微指令队列、微指令发射模块；其中，指令接受模块负责接受从取指模块取得的指令；微指令译码模块将指令接受模块获得的指令译码成控制各个功能部件的微指令；微指令队列用于存放从微指令译码模块发送的微指令；微指令发射模块负责将微指令发射到各个功能部件；

指令队列，用于顺序缓存译码后的指令，送往依赖关系处理单元；

标量寄存器堆，提供装置在运算过程中所需的标量寄存器；

依赖关系处理单元，该模块处理指令与前一条指令可能存在的存储依赖关系。矩阵运算指令会访问高速暂存存储器，前后指令可能会访问同一块存储空间。为了保证指令执行结果的正确性，当前指令如果被检测到与之前的指令的数据存在依赖关系，该指令必须在存储队列内等待至依赖关系被消除。

存储队列，该模块是一个有序队列，与之前指令在数据上有依赖关系的指令被存储在该队列内，直至依赖关系消除之后，提交指令。

重排序缓存，指令在执行过程中，同时也被缓存在该模块中，当一条指令执行完之后，如果该指令同时也是重排序缓存中未被提交指令中最早的一条指令，该指令将被提交。一旦提交，该条指令进行的操作对装置状态的改变将无法撤销；该重排序缓存里的指令起到占位的作用，当它包含的第一条指令存在数据依赖时，那么该指令就不会提交(释放)；尽管后面会有很多指令不断进入，但是只能接受部分指令(受重排序缓存大小控制)，直到第一条指令被提交，整个运算过程才会顺利进行。

运算单元，该模块负责装置的所有的神经网络运算和矩阵/向量运算操作，包括但不限于：卷积神经网络正向运算操作、卷积神经网络训练操作、神经网络Pooling运算操作、full connection神经网络正向运算操作、full connection神经网络训练操作、batchnormalization运算操作、RBM神经网络运算操作、矩阵-向量乘运算操作、矩阵-矩阵加/减运算操作、向量外积(张量)运算操作、向量内积运算操作、向量四则运算操作、向量逻辑运算操作、向量超越函数运算操作、向量比较运算操作、求向量最大/最小值运算操作、向量循环移位运算操作、生成服从一定分布的随机向量运算操作。运算指令被送往该运算单元执行，首先，运算单元判断是否有与指令中操作数对应的位宽域长度相同的运算器，如果有，选用对应的运算器，如果没有，通过多个低位宽的运算器合并的方式构成所需位宽的运算器，然后，根据指令中操作码对运算数用选择的运算器进行对应的运算，得出相应的结果；

高速暂存存储器，该模块是数据专用的暂存存储装置，能够支持不同长度和不同位宽的数据；

IO内存存取模块，该模块用于直接访问高速暂存存储器，负责从高速暂存存储器中读取数据或写入数据。

图10是本发明实施例的运算装置采用一条指令的方式执行运算的流程图。如图10所示，过程包括：

S1，取指模块取出指令，并将该指令送往译码模块。

S2，译码模块对指令译码，并将指令送往指令队列。

S3，在译码模块中，指令被送往指令接受模块。

S4，指令接受模块将指令发送到微指令生成模块，进行微指令生成。

S5，微指令生成模块从标量寄存器堆里获取指令的神经网络运算操作码和神经网络运算操作数，同时将指令译码成控制各个功能部件的微指令，送往微指令发射队列。

S6，在取得需要的数据后，该指令被送往依赖关系处理单元。依赖关系处理单元分析该指令与前面的尚未执行结束的指令在数据上是否存在依赖关系。该条指令需要在存储队列中等待至其与前面的未执行结束的指令在数据上不再存在依赖关系为止。

S7，依赖关系不存在后，该条神经网络运算以及矩阵/向量指令对应的微指令被送往运算单元等功能部件。

S8，运算单元根据所需数据的地址和大小从高速暂存存储器中取出需要的数据，然后判断是否有与指令中位宽域相同的运算器，如果有，则选用匹配的运算器完成指令对应的运算，如果没有，则通过将低位宽的运算器合并的方式组成一个所需位宽的运算器来完成指令对应的运算。

S9，运算完成后，将输出数据写回至高速暂存存储器的指定地址，同时重排序缓存中的该指令被提交。

图11和图12示出了本发明采用两条指令的方式执行运算的指令格式示意图，其中，图11是位宽配置指令的格式示意图，位宽配置指令包括至少一操作码至少2个位宽域，用于指明下条运算指令所使用的运算器的位宽。图12是运算指令的格式示意图，运算指令包括至少一操作码至少3个操作数，其中，操作码用于指示该运算指令的功能，运算单元通过识别一个或多个操作码可进行不同的运算，操作数用于指示该运算指令的数据信息，其中，数据信息可以是立即数或寄存器号，例如，要获取一个矩阵时，根据寄存器号可以在相应的寄存器中获取矩阵起始地址和矩阵长度，再根据矩阵起始地址和矩阵长度在存储单元中获取相应地址存放的矩阵。

图13～14是图11～12的实例化，其分别为神经网络位宽配置指令和神经网络运算指令的格式示意图，如图13～14所示，位宽配置指令包括至少一操作码至少4个位宽域，用于指明下条神经网络运算指令所使用的运算器的位宽。配置指令包括至少一操作码和16个操作数，其中，操作码用于指示该神经网络运算指令的功能，运算单元通过识别一个或多个操作码可进行不同的神经网络运算，操作数用于指示该神经网络运算指令的数据信息，其中，数据信息可以是立即数或寄存器号。

图15～16是图11～12的实例化，其分别为矩阵-矩阵位宽配置指令和矩阵-矩阵运算指令的格式示意图，如图15～16所示，位宽配置指令包括至少一操作码至少2个位宽域，用于指明下条矩阵-矩阵运算指令所使用的运算器的位宽。矩阵-矩阵运算指令包括至少一操作码和至少4个操作数。其中，操作码用于指示该矩阵-矩阵运算指令的功能，运算单元通过识别一个或多个操作码可进行不同的矩阵运算，操作数用于指示该矩阵-矩阵运算指令的数据信息，其中，数据信息可以是立即数或寄存器号。

图17～18是图11～12的实例化，其分别为向量-向量位宽配置指令和向量-向量运算指令的格式示意图，如图17～18所示，位宽配置指令包括至少一操作码至少2个位宽域，用于指明下条向量-向量运算指令所使用的运算器的位宽。向量-向量运算指令包括至少一操作码和至少3个操作数，其中，操作码用于指示该向量-向量运算指令的功能，运算单元通过识别一个或多个操作码可进行不同的向量运算，操作数用于指示该向量-向量运算指令的数据信息，其中，数据信息可以是立即数或寄存器号。

图19～20是图11～12的实例化，其分别为矩阵-向量位宽配置指令和矩阵-向量运算指令的格式示意图，如图19～20所示，位宽配置指令包括至少一操作码至少3个位宽域，用于指明下条向量-向量运算指令所使用的运算器的位宽。矩阵-向量运算指令包括至少一操作码和至少6个操作数，其中，操作码用于指示该矩阵-向量运算指令的功能，运算单元通过识别一个或多个操作码可进行不同的矩阵和向量运算，操作数用于指示该矩阵-向量运算指令的数据信息，其中，数据信息可以是立即数或寄存器号。

图21是本发明实施例的运算装置采用两条指令的方式执行运算的流程图。如图21所示，过程包括：

步骤S1，取指模块取出一条位宽配置指令，并将指令送往译码模块；

步骤S2，译码模块对所述指令译码，并将所述指令送往指令队列；

步骤S3，在译码模块，所述指令被送往指令接受模块；

步骤S4，指令接收模块将所述指令发送到微指令译码模块，进行微指令译码；

步骤S5，微指令译码模块将指令译码成控制运算单元选定指定位宽的运算器的微指令，发送到微指令发射队列；

步骤S6，取指模块取出一条神经网络运算以及矩阵/向量指令，并将所述指令送往译码模块；

步骤S7，译码模块对所述指令译码，并将所述指令送往指令队列；

步骤S8，在译码模块中，所述指令被送往指令接受模块；

步骤S9，指令接受模块将所述指令发送到微指令译码模块，进行微指令译码；

步骤S10，微指令译码模块从标量寄存器堆里获取所述指令的神经网络运算操作码和神经网络运算操作数，同时将所述指令译码成控制各个功能部件的微指令，送往微指令发射队列；

步骤S11，在取得需要的数据后，所述指令被送往依赖关系处理单元；依赖关系处理单元分析所述指令与之前尚未执行完的指令在数据上是否存在依赖关系，如果存在，则所述指令需要在存储队列中等待至其与之前未执行完的指令在数据上不再存在依赖关系为止；

步骤S12，将所述指令对应的微指令以及之前的指定运算器位宽的微指令送往运算单元；

步骤S13，运算单元根据所需数据的地址和大小从高速暂存存储器中取出需要的数据；然后判断是否有与位宽指定指令中位宽域相同的运算器，如果有，则选用匹配的运算器完成所述指令对应的神经网络运算和/或矩阵/向量运算，如果没有，则通过将低位宽的运算器合并的方式组成一个所需位宽的运算器来完成所述指令对应的神经网络运算和/或矩阵/向量运算；

S14，运算完成后，将输出数据写回至高速暂存存储器的指定地址，同时重排序缓存中的该指令被提交。

综上所述，本发明公开了一种运算器位宽可配置的用于执行神经网络运算以及矩阵/向量运算的装置和方法，配合相应的指令，能够很好地解决当前计算机领域神经网络算法和大量矩阵/向量运算的问题，相比于已有的传统解决方案，本发明可以具有指令可配置、使用方便、运算器的位宽可以选择，多个运算器可以合并，并通过专用位宽配置指令和在运算指令上指定位宽域两种方式来实现运算器位宽的配置，支持的神经网络规模和矩阵/向量位宽和规模灵活、片上缓存充足，运算器可合并等优点。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种运算单元，用于根据运算数据的位宽，选择相应的一个或多个运算器以执行运算，其中，所述一个或多个运算器具有不同的位宽，其特征在于，运算单元包括判断子模块、运算器合并子模块和运算子模块；

判断子模块用于判断是否存在与该运算数据位宽相同的运算器，如果是，将该运算数据传给相应的运算器，否则，将运算器合并策略及该运算数据传递给运算器合并子模块；

运算器合并子模块用于根据运算器合并策略将多个运算器合并成一个新的运算器，以使该新的运算器的位宽符合运算数据的位宽，并将该运算数据传给该新的运算器；

运算子模块用于令获得该运算数据的运算器执行运算。

2.根据权利要求1所述的运算单元，其特征在于，所述运算单元根据一指令执行运算，其中，所述指令包括：

操作码，用于指示该指令的运算类型；

操作数，用于作为运算数据或用于指示运算数据的存储地址；

位宽域，用于指示运算数据的位宽；

所述运算单元执行该指令，根据指令中的位宽域确定运算数据的位宽，并选择相应的运算器，然后将指令中的操作数传给相应的运算器，运算器根据操作数获取运算数据，并执行操作码所指示的运算。

3.根据权利要求1所述的运算单元，其特征在于，所述运算单元根据位宽配置指令和运算指令执行运算，所述位宽配置指令包括操作码和位宽域，所述运算指令包括操作码和操作数，其中，

所述操作码用于指示该指令的运算类型；

所述操作数用于作为运算数据或用于指示运算数据的存储地址；

所述位宽域用于指示指令中各个操作数的位宽；

所述运算单元依次执行位宽配置指令和运算指令，根据位宽配置指令中的位宽域确定运算指令中操作数的位宽，并选择相应的运算器，然后将运算指令中的操作数传给相应的运算器，运算器根据操作数获取运算数据，并执行操作码所指示的运算。

4.根据权利要求1所述的运算单元，其特征在于，所述运算器合并策略为，合并一个或多个最接近运算数据位宽的运算器。

5.根据权利要求1所述的运算单元，其特征在于，所述操作数为运算数据或运算数据存储位置，所述运算器根据该操作数获得相应的运算数据后，执行运算。

6.根据权利要求1所述的运算单元，其特征在于，所述运算数据为向量、矩阵和神经元中的一种。

7.一种运算方法，用于根据运算数据的位宽，选择相应的一个或多个运算器以执行运算，其中，所述一个或多个运算器具有不同的位宽，其特征在于，方法包括：

S1，判断是否存在与该运算数据位宽相同的运算器，如果是，将该运算数据传给相应的运算器，然后执行步骤S3，否则，生成运算器合并策略并执行步骤S2；

S2，根据运算器合并策略将多个运算器合并成一个新的运算器，以使该新的运算器的位宽符合该运算数据的位宽，并将该运算数据传给该新的运算器；

S3，令获得该运算数据的运算器执行运算。

8.根据权利要求7所述的运算单元，其特征在于，所述运算单元根据一指令执行运算，其中，所述指令包括：

操作码，用于指示该指令的运算类型；

位宽域，用于指示运算数据的位宽；

9.根据权利要求7所述的运算单元，其特征在于，所述运算单元根据位宽配置指令和运算指令执行运算，所述位宽配置指令包括操作码和位宽域，所述运算指令包括操作码和操作数，其中，

所述操作码用于指示该指令的运算类型；

所述位宽域用于指示指令中各个操作数的位宽；

10.根据权利要求7所述的运算单元，其特征在于，所述运算器合并策略为，合并一个或多个最接近运算数据位宽的运算器。

11.根据权利要求7所述的运算方法，其特征在于，所述操作数为运算数据或运算数据存储位置，所述运算器根据该操作数获得相应的运算数据后，执行运算。

12.根据权利要求7所述的运算方法，其特征在于，所述运算数据为向量、矩阵和神经元中的一种。

13.一种运算装置，其特征在于，包括：

权利要求1-5任意一项所述的运算单元；

存储单元，用于存储所述运算数据；

寄存器单元，用于存储所述运算数据的地址；

控制单元，用于对运算单元、存储单元及寄存器单元进行控制，以使运算单元根据指令中的操作数访问寄存器单元，以获取运算数据的地址，并根据该运算数据的地址访问存储单元，以获取该运算数据，从而对该运算数据执行运算。

14.根据权利要求13所述的运算装置，其特征在于，所述存储单元为高速暂存存储器。