CN111626413A

CN111626413A - 一种计算装置及方法

Info

Publication number: CN111626413A
Application number: CN202010422453.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2020-09-04
Also published as: CN110276447A

Abstract

本申请提供了一种计算装置，该计算装置用于执行网络模型的计算，该网络模型包括神经网络模型和/或非神经网络模型；计算装置包括：用于获取至少一个输入数据、网络模型以及计算指令的存储单元；用于从存储单元提取计算指令，对该计算指令进行译码以得到一个或多个运算指令和将一个或多个运算指令以及至少一个输入数据发送给运算单元的控制器单元；和用于根据一个或多个运算指令对至少一个输入数据执行计算得到计算指令的结果的运算单元。本发明实施例对参与网络模型计算的数据采用定点数据进行表示，可提升训练运算的处理速度和处理效率。

Description

一种计算装置及方法

技术领域

本申请涉及信息处理技术领域，具体涉及一种计算装置及方法。

背景技术

随着信息技术的不断发展和人们日益增长的需求，人们对信息及时性的要求越来越高了。目前，终端对信息的获取以及处理均是基于通用处理器获得的。

在实践中发现，这种基于通用处理器运行软件程序来处理信息的方式，受限于通用处理器的运行速率，特别是在通用处理器负荷较大的情况下，信息处理效率较低、时延较大，对于信息处理的计算模型例如训练模型来说，训练运算的计算量更大，通用的处理器完成训练运算的时间长，效率低。

申请内容

本申请实施例提供了一种计算装置及方法，可提升运算的处理速度，提高效率。

第一方面，本发明实施例提供了在一种计算装置，所述计算装置用于执行网络模型的计算，所述网络模型包括：神经网络模型和/或非神经网络模型；所述计算装置包括：运算单元、控制器单元以及存储单元，所述存储单元包括：数据输入输出单元；

所述数据输入输出单元，用于获取至少一个输入数据、网络模型以及计算指令，所述至少一个输入数据为定点数据；

所述控制器单元，用于从所述存储单元提取所述计算指令，对该计算指令进行译码以得到一个或多个运算指令；将所述一个或多个运算指令以及所述至少一个输入数据发送给所述运算单元；

所述运算单元，用于根据所述一个或多个运算指令对所述至少一个输入数据执行计算得到计算指令的结果，所述计算指令的结果为浮点数据。

在一种可行的实施例中，所述存储单元还包括：

存储介质，用于存储所述网络模型和所述至少一个输入数据；

标量数据存储单元，用于存储标量数据。

在一种可行的实施例中，所述控制器单元包括：

指令缓存单元，用于存储与所述网络模型关联的计算指令；

指令处理单元，用于对所述计算指令对进行译码，以得到所述一个或多个运算指令；

存储队列单元，用于存储指令队列，该指令队列包括按该队列的前后顺序待执行的一个或多个运算指令或计算指令。

在一种可行的实施例中，所述数据输入输出单元还获取数据转换指令，所述数据转换指令包括操作域和操作码，该操作码用于指示所述数据转换指令的功能，所述数据转换指令的操作域包括输入数据的小数点位置和数据类型的转换方式标识；

所述控制器单元还包括：

所述指令处理单元，还用于当所述至少一个输入数据为浮点数据时，对所述数据转换指令进行解析，以得到所述输入数据的小数点位置和所述数据类型的转换方式标识；

数据转换单元，用于根据所述输入数据的小数点位置和所述数据类型的转换方式标识将所述至少一个输入数据转换为定点数据。

在一种可行的实施例中，所述运算单元包括：

依赖关系处理单元，用于确定第一运算指令与所述第一运算指令之前的第零运算指令是否存在关联关系，如所述第一运算指令与所述第零运算指令存在关联关系，将所述第一运算指令缓存在所述指令存储单元内，在所述第零运算指令执行完毕后，从所述指令存储单元提取所述第一运算指令传输至所述运算单元；

所述确定该第一运算指令与第一运算指令之前的第零运算指令是否存在关联关系包括：

依据所述第一运算指令提取所述第一运算指令中所需数据的第一存储地址区间，依据所述第零运算指令提取所述第零运算指令中所需数据的第零存储地址区间，如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域，确定所述第一运算指令与所述第零运算指令具有关联关系，如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域，确定所述第一运算指令与所述第零运算指令不具有关联关系；

其中，所述第一运算指令和所述第零运算指令为所述多个运算指令中的任意两个。

在一种可行的实施例中，所述运算单元包括：多个运算模块，所述多个运算模块包用于执行n个流水级的计算；

所述运算单元，具体用于对所述至少一个输入数据执行第一流水级的计算得到第一中间结果，将所述第一中间结果输入到第二流水级执行第二流水级的计算得到第二中间结果，…，将第n-1中间结果输入到第n流水级执行第n流水级的计算得到第n中间结果，将所述第n中间结果输入到所述存储单元，所述n为大于或等于3的整数。

在一种可行的实施例中，所述控制器单元将所述至少一个输入数据的小数点位置发送至所述运算单元，所述运算单元还包括：

推导单元，根据所述至少一个输入数据的小数点位置推导得到一个或者多个中间结果的小数点位置。

在一种可行的实施例中，所述运算单元还包括：

数据缓存单元，用于缓存所述一个或者多个中间结果。

在一种可行的实施例中，所述运算单元包括一个主处理电路、分支处理电路以及多个从处理电路，

所述主处理电路，用于将输入数据A分配成多个数据块，将所述多个数据块中的至少一个数据块以及所述输入数据A参与运算的运算指令发送给所述分支处理电路，所述输入数据A为所述至少一个输入数据中的任意一个；

所述分支处理电路，用于转发所述主处理电路与所述多个从处理电路之间的数据；

所述多个从处理电路，用于依据该运算指令对接收到的数据块执行运算得到至少一个中间结果，并将所述至少一个中间结果传输给所述分支处理电路；

所述主处理电路，用于将分支处理电路发送的至少一个中间结果进行处理得到该计算指令的结果，将该计算指令的结果发送给所述控制器单元；

其中，所述至少一个中间结果为浮点数据。

在一种可行的实施例中，所述运算单元包括一个主处理电路以及多个从处理电路；

所述多个从处理电路呈阵列分布；每个从处理电路与相邻的其他从处理电路连接，所述主处理电路连接所述多个从处理电路中的K个从处理电路，所述K个从处理电路为：第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路；

所述K个从处理电路，用于在所述主处理电路以及多个从处理电路之间的数据以及指令的转发；

所述主处理电路，用于将输入数据A分配成多个数据块，将所述多个数据块中的至少一个数据块以及所述输入数据A参与运算的运算指令发送给所述K个从处理电路，所述输入数据A为所述至少一个输入数据中的任意一个；

所述K个从处理电路，用于转换所述主处理电路与所述多个从处理电路之间的数据；

所述多个从处理电路，用于依据该运算指令对接收到的数据块执行运算得到至少一个中间结果，并将所述至少一个中间结果传输给所述K个从处理电路；

所述主处理电路，用于将所述K个从处理电路发送的至少一个中间结果进行处理得到该计算指令的结果，将该计算指令的结果发送给所述控制器单元；

其中，所述至少一个中间结果为浮点数据。

在一种可行的实施例中，所述主处理电路，具体用于将多个处理电路发送的中间结果进行组合排序得到该计算指令的结果；

或所述主处理电路，具体用于将多个处理电路的发送的中间结果进行组合排序以及激活处理后得到该计算指令的结果。

在一种可行的实施例中，所述主处理电路包括：转换处理电路、激活处理电路、加法处理电路中的一种或任意组合；

所述转换处理电路，用于将主处理电路接收的数据块或中间结果执行第一数据结构与第二数据结构之间的互换；或将主处理电路接收的数据块或中间结果执行第一数据类型与第二数据类型之间的互换；

所述激活处理电路，用于执行主处理电路内数据的激活运算；

所述加法处理电路，用于执行加法运算或累加运算。

在一种可行的实施例中，所述从处理电路包括：乘法处理电路；

所述乘法处理电路，用于对接收到的数据块执行乘积运算得到乘积结果。

在一种可行的实施例中，所述从处理电路还包括：累加处理电路，所述累加处理电路，用于对该乘积结果执行累加运算得到该中间结果。

第二方面，本发明实施例提供了一种计算方法，所述方法用于执行网络模型的计算，所述网络模型包括：神经网络模型和/或非神经网络模型，所述方法包括：

获取至少一个输入数据、所述网络模型和计算指令，所述至少一个输入数据为定点数据；

对所述计算指令进行译码，以得到一个或者多个运算指令；

根据所述一个或多个运算指令对所述至少一个输入数据执行计算得到计算指令的结果，所述计算指令的结果为浮点数据。

在一种可行的实施例中，当所述至少一个输入数据为浮点数据时，所述方法还包括：

获取数据转换指令，所述数据转换指令包括操作码和操作域，所述操作码用于指示所述数据转换指令的功能，所述操作域包括输入数据的小数点位置和数据类型的转换方式标识；

解析所述数据转换指令，以得到输入数据的小数点位置和数据类型的转换方式标识；

根据所述输入数据的小数点位置和数据类型的转换方式标识将所述至少一个输入数据转换为定点数据。

在一种可行的实施例中，所述根据所述一个或多个运算指令对所述至少一个输入数据执行计算得到计算指令的结果包括：

所述根据所述一个或多个运算指令对所述第二输入数据进行运算，以得到一个或多个中间结果，所述一个或多个中间结果中的最后一个中间结果为所述计算指令的结果；

当所述最后一个中间结果为定点数据时，根据所述最后一个中间结果的小数点位置将所述最后一个中间结果转换为浮点数据。

在一种可行的实施例中，所述方法还包括：

根据所述至少一个输入数据的小数点位置推导得到所述一个或者多个中间结果的小数点位置。

第三方面，本发明实施例提供了一种神经网络运算装置，该神经网络运算装置包括一个或者多个第一方面所述的计算装置。该神经网络运算装置用于从其他处理装置中获取待运算数据和控制信息，并执行指定的神经网络运算，将执行结果通过输入输出(input/output，I/O)接口传递给其他处理装置；

当所述神经网络运算装置包含多个所述计算装置时，所述多个所述计算装置间可以通过特定的结构进行链接并传输数据；

其中，多个所述计算装置通过高速串行计算机扩展总线标准(peripheralcomponent interconnect express，PCIE)总线进行互联并传输数据，以支持更大规模的神经网络的运算；多个所述计算装置共享同一控制系统或拥有各自的控制系统；多个所述计算装置共享内存或者拥有各自的内存；多个所述计算装置的互联方式是任意互联拓扑。

第四方面，本发明实施例提供了一种组合处理装置，该组合处理装置包括如第三方面所述的神经网络处理装置、通用互联接口，和其他处理装置。该神经网络运算装置与上述其他处理装置进行交互，共同完成用户指定的操作。该组合处理装置还可以包括存储装置，该存储装置分别与所述神经网络运算装置和所述其他处理装置连接，用于保存所述神经网络运算装置和所述其他处理装置的数据。

第五方面，本发明实施例提供了一种神经网络芯片，该神经网络芯片包括上述第一方面所述的计算装置、上述第三方面所述的神经网络运算装置或者上述第四方面所述的组合处理装置。

第六方面，本发明实施例提供了一种神经网络芯片封装结构，该神经网络芯片封装结构包括上述第五方面所述的神经网络芯片；

第七方面，本发明实施例提供了一种板卡，该板卡包括上述第六方面所述的神经网络芯片封装结构。

第八方面，本发明实施例提供了一种电子装置，该电子装置包括上述第六方面所述的神经网络芯片或者上述第七方面所述的板卡。

在一些实施例中，所述电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

在一些实施例中，所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

可以看出，在本申请实施例的方案中，该计算装置包括：存储单元包括：数据输入输出单元，该数据输入输出单元获取至少一个输入数据、网络模型以及计算指令，该至少一个输入数据为定点数据；控制器单元从存储单元提取计算指令，解析该计算指令得到一个或多个运算指令，将多个运算指令以及至少一个输入数据发送给运算单元；根据一个或多个运算指令对至少一个输入数据执行计算以得到计算指令的结果，该结果为浮点数据。本发明实施例对参与网络模型计算的数据采用定点数据进行表示，然后进行定点运算，最后得到以浮点数据表示的计算指令的结果，提升训练运算的处理速度，节省了数据传输的带宽。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供一种定点数据的数据结构示意图；

图2为本申请实施例提供另一种定点数据的数据结构示意图；

图3A是本申请实施例提供的一种计算装置的结构示意图；

图3B是本申请一个实施例提供的计算装置的结构示意图；

图3C是本申请另一个实施例提供的计算装置的结构示意图；

图3D是本申请实施例提供的主处理电路的结构示意图；

图3E是本申请实施例提供的主处理电路的结构示意图；

图3F是本申请实施例提供的主处理电路的结构示意图；

图4为本申请实施例提供的一种单层人工神经网络正向运算流程图；

图5为本申请实施例提供的一种神经网络正向运算和反向训练流程图；

图6是本申请实施例提供的一种组合处理装置的结构图；

图7是本申请实施例提供的另一种组合处理装置的结构图；

图8为本申请实施例提供的一种计算方法的流程示意图；

图9为本申请实施例提供的一种数据的小数点位置确定和调整流程示意图；

图10为本申请实施例提供的另一种定点数据的结构示意图；

图11为本申请实施例提供的另一种定点数据的结构示意图；

图12为本申请实施例提供的一种分布式系统的结构示意图；

图13为本申请实施例提供的另一种分布式系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

首先介绍定点数据的结构，参加图1，图1为本申请实施例提供一种定点数据的数据结构示意图。如图1所示有符号的定点数据，该定点数据占X比特位，该定点数据又可称为X位定点数据。其中，该X位定点数据包括占1比特的符号位、M比特的整数位和N比特的小数位，X-1＝M+N。对于无符号的定点数据，只包括M比特的整数位和N比特的小数位，即X＝M+N。

相比于32位浮点数据表示形式，本发明采用的短位定点数据表示形式除了占用比特位数更少外，对于网路模型中同一层、同一类型的数据，如第一个卷积层的所有卷积核、输入神经元或者偏置数据，还另外设置了一个标志位记录定点数据的小数点位置，该标志位即为Point Location。这样可以根据输入数据的分布来调整上述标志位的大小，从而达到调整定点数据的精度与定点数据可表示范围。

参阅图3A，图3A为本申请实施提供了一种计算装置的结构示意图，该计算装置包括：存储单元10、控制器单元11和运算单元12，其中，控制器单元11与存储单元10以及运算单元12相连接；

该存储单元10可以包括：数据I/O单元203，

该数据I/O单元203，用于获取至少一个输入数据、网络模型以及计算指令。

可选的，存储单元10还可以包括：存储介质201和标量数据存储单元202

存储介质201可以为片外存储器，当然在实际应用中，也可以为片内存储器，用于存储数据块，该数据块具体可以为n维数据，n为大于等于1的整数，例如，n＝1时，为1维数据，即向量，如n＝2时，为2维数据，即矩阵，如n＝3或3以上时，为多维张量。

标量数据存储单元202，用于存储标量数据。

控制器单元11，用于从所述存储单元10提取上述计算指令，解析该计算指令以得到一个或者多个运算指令。

其中，上述控制器单元11包括：

指令缓存单元，用于存储与上述网络模型相关的计算指令；

指令处理单元，用于对上述计算指令进行译码，以得到一个或者多个运算指令；

需要说明的是，上述运算指令可以看成微指令，即上述控制器单元对上述计算指令进行译码，以得到一个或者多个微指令。

在一种可行的实施例中，本申请实施例还包括一种数据类型，该数据类型包括调整因子，该调整因子用于指示该数据类型的取值范围及精度。

其中，上述调整因子包括第一缩放因子和第二缩放因子(可选地)，该第一缩放因子用于指示上述数据类型的精度；上述第二缩放因子用于调整上述数据类型的取值范围。

可选地，上述第一缩放因子可为2^-m、8^-m、10^-m、2、3、6、9、10、2^m、8^m、10^m或者其他值。

具体地，上述第一缩放因子可为小数点位置。比如以二进制表示的输入数据INA1的小数点位置向右移动m位后得到的输入数据INB1＝INA1*2^m，即输入数据INB1相对于输入数据INA1放大了2^m倍；再比如，以十进制表示的输入数据INA2的小数点位置左移动n位后得到的输入数据INB2＝INA2/10ⁿ，即输入数据INA2相对于输入数据INB2缩小了10ⁿ倍，m和n均为整数。

可选地，上述第二缩放因子可为2、8、10、16或其他值。

举例说明，上述输入数据对应的数据类型的取值范围为8^-15-8¹⁶，在进行运算过程中，得到的运算结果大于输入数据对应的数据类型的取值范围对应的最大值时，将该数据类型的取值范围乘以该数据类型的第二缩放因子(即8)，得到新的取值范围8^-14-8¹⁷；当上述运算结果小于上述输入数据对应的数据类型的取值范围对应的最小值时，将该数据类型的取值范围除以该数据类型的第二缩放因子(8)，得到新的取值范围8^-16-8¹⁵。

需要说明的是，本申请说明书下文提到的小数点位置都可以是上述第一缩放因子，在此不再叙述。

在一种可行的实施例中，上述至少一个输入数据包括第一输入数据和第二输入数据，该第一输入数据为数据类型与参与运算的运算指令所指示的运算类型不一致的数据，第二输入数据为数据类型与参与运算的运算指令所指示的运算类型一致的数据，上述数据输入输出单元还获取数据转换指令，该数据转换指令包括操作码和操作域，该操作码用于指示该数据转换指令的功能，操作域包括小数点位置和数据类型的转换方式标识。上述数据转换单元根据上述小数点位置和数据类型的转换方式标识将上述第一输入数据转换为第二输入数据。

在一种可行的实施例中，上述控制器单元还包括数据统计单元，上述网络模型包括不同的层，比如全连接层、卷积层和池化层。前一层的运算结果为下一层的输入数据。上述至少一个数据可以分为不同类型的数据或不同层的数据，上述控制器单元的数据统计单元对同一类型的数据或者同一层的数据进行统计，根据上述同一类型的数据或者同一层的数据的绝对值最大值确定该同一类型的数据或同一层的数据的位宽和小数点位置。

可选地，上述控制器单元的数据统计单元可根据上述同一类型的数据或者同一层数据的中位值确定该同一类型的数据或者同一层数据的位宽和小数点位置，或者根据上述同一类型的数据或者同一层数据的平均值确定该同一类型的数据或者同一层数据的位宽和小数点位置。

可选地，上述运算单元根据对上述同一类型的数据或者同一层数据进行运算得到的中间结果超过该同一层类型的数据或者同一层数据的小数点位置和位宽所对应的取值范围时，该运算单元不对该中间结果进行截断处理，并将该中间结果缓存到该运算单元的数据缓存单元中，以供后续的运算使用。

具体地，上述操作域包括输入数据的小数点位置和数据类型的转换方式标识。上述指令处理单元对该数据转换指令解析以得到上述输入数据的小数点位置和数据类型的转换方式标识。上述控制器单元还包括数据转换单元，该数据转换单元根据上述输入数据的小数点位置和数据类型的转换方式标识将上述第一输入数据转换为第二输入数据。

需要说明的是，上述网络模型包括多层，比如全连接层、卷积层、池化层和输入层。上述至少一个输入数据中，属于同一层的输入数据具有同样的小数点位置，即同一层的输入数据共用或者共享同一个小数点位置。

上述至少一个输入数据包括不同类型的数据，比如包括输入神经元、权值和偏置数据。上述至少一个输入数据中属于同一类型的输入数据具有同样的小数点位置，即上述同一类型的输入数据共用或共享同一个小数点位置。

比如运算指令所指示的运算类型为定点运算，而参与该运算指令所指示的运算的输入数据为浮点数据，故而在进行定点运算之前，上述数转换单元将该输入数据从浮点数据转换为定点数据；再比如运算指令所指示的运算类型为浮点运算，而参与该运算指令所指示的运算的输入数据为定点数据，则在进行浮点运算之前，上述数据转换单元将上述运算指令对应的输入数据从定点数据转换为浮点数据。

对于本申请所涉及的宏指令(比如计算指令和数据转换指令)，上述控制器单元可对宏指令进行解析，以得到该宏指令的操作域和操作码；根据该操作域和操作码生成该宏指令对应的微指令；或者，上述控制器单元对宏指令进行译码，得到该宏指令对应的微指令。

具体地，上述数据类型的转换方式标识与上述数据类型的转换方式一一对应。参见下表1，表1为一种可行的数据类型的转换方式标识与数据类型的转换方式的对应关系表。

数据类型的转换方式标识	数据类型的转换方式
		0000	64位定点数据转换为64位浮点数据
0001	32位定点数据转换为64位浮点数据
		0010	16位定点数据转换为64位浮点数据
0011	32位定点数据转换为32位浮点数据
		0100	16位定点数据转换为32位浮点数据
0101	16位定点数据转换为16位浮点数据
		0110	64位浮点数据转换为64位定点数据
0111	32位浮点数据转换为64位定点数据
		1000	16位浮点数据转换为64位定点数据
1001	32位浮点数据转换为32位定点数据
		1010	16位浮点数据转换为32位定点数据
1011	16位浮点数据转换为16位定点数据

表1

如表1所示，当上述数据类型的转换方式标识为0000时，上述数据类型的转换方式为64位定点数据转换为64位浮点数据；当上述数据类型的转换方式标识为0001时，上述数据类型的转换方式为32位定点数据转换为64位浮点数据；当上述数据类型的转换方式标识为0010时，上述数据类型的转换方式为16位定点数据转换为64位浮点数据；当上述数据类型的转换方式标识为0011时，上述数据类型的转换方式为32位定点数据转换为32位浮点数据；当上述数据类型的转换方式标识为0100时，上述数据类型的转换方式为16位定点数据转换为32位浮点数据；当上述数据类型的转换方式标识为0101时，上述数据类型的转换方式为16位定点数据转换为16位浮点数据；当上述数据类型的转换方式标识为0110时，上述数据类型的转换方式为64位浮点数据转换为64位定点数据；当上述数据类型的转换方式标识为0111时，上述数据类型的转换方式为32位浮点数据转换为64位定点数据；当上述数据类型的转换方式标识为1000时，上述数据类型的转换方式为16位浮点数据转换为64位定点数据；当上述数据类型的转换方式标识为1001时，上述数据类型的转换方式为32位浮点数据转换为32位定点数据；当上述数据类型的转换方式标识为1010时，上述数据类型的转换方式为16位浮点数据转换为32位定点数据；当上述数据类型的转换方式标识为1011时，上述数据类型的转换方式为16位浮点数据转换为16位定点数据。

具体地，上述数据转换单元根据上述数据类型的转换方式标识确定数据类型的转换方式，然后根据该数据类型的转换方式和输入数据的小数点位置将上述第一输入数据转换为第二输入数据，即从定点数据转换为浮点数据或者从浮点数据转换为定点数据。

举例说明，将浮点数68.6875转换为小数点位置为5的有符号16位定点数据。其中，对于小数点位置为5的有符号16位定点数据，其整数部分占10比特，小数部分占5比特，符号位占1比特。上述数据转换单元将上述浮点数68.6875转换成有符号16位定点数据为0000010010010110，如图2所示。

上述控制器单元11将上述一个或多个运算指令及参与该运算指令所指示运算的输入数据和在根据该一个或多个运算指令进行运算过程中得到的一个或者多个中间结果的小数点位置发送至上述运算单元12。

在一种可行的实施例中，上述控制器单元11将上述一个或多个运算指令和对应的输入数据及其小数点位置发送至上述运算单元12。

上述运算单元12根据上述一个或者多个运算指令对其对应的输入数据进行运算，以得到计算指令的结果。

其中，上述运算单元12包括：

运算子单元，用于根据一个或多个运算指令对其对应的输入数据进行运算，以得到一个或多个中间运算结果；

数据缓存单元，用于缓存上述一个或多个中间结果。

其中，该多个中间结果中的最后一个中间结果为上述计算指令的结果，且该结果为浮点数据。

上述运算单元还包括舍入单元。在进行神经网络运算过程中，由于对上述第二输入数据进行加法运算、乘法运算和/或其他运算得到的中间结果的精度会超出当前定点数据的精度范围，上述舍入单元对超出定点数据精度范围的中间结果进行舍入操作，得到舍入后的中间结果。

具体地，上述舍入单元对上述一个或多个中间运算结果进行舍入操作。

可选地，该舍入操作可为随机舍入操作、四舍五入操作、向上舍入操作、向下舍入操作、截断舍入操作、向零取整操作、向奇数取整操作、向偶数取整操或其他操作。

优选地，上述舍入操作为随机舍入操作、四舍五入操作或向零取整操作。

当上述舍入单元执行随机舍入操作时，该舍入单元具体执行如下操作：

其中，y表示对舍入前的中间结果x进行随机舍入得到的数据，即上述舍入后的中间结果，ε为当前定点数据表示格式所能表示的最小正数，即2^{-Point Location}，

表示对上述舍入前的中间结果x直接截得定点数据所得的数(类似于对小数做向下取整操作)，w.p.表示概率，上述公式表示对上述舍入前的中间结果x进行随机舍入获得的数据为

的概率为

对上述中间结果x进行随机舍入获得的数据为

的概率为

当上述舍入单元进行四舍五入操作时，该舍入单元具体执行如下操作：

其中，y表示对上述舍入前的中间结果x进行四舍五入后得到的数据，即上述舍入后的中间结果，ε为当前定点数据表示格式所能表示的最小正整数，即2^{-Point Location}，

为ε的整数倍，其值为小于或等于x的最大数。上述公式表示当上述舍入前的中间结果x满足条件

时，上述舍入后的中间结果为

当上述舍入前的中间结果满足条件

时，上述舍入后的中间结果为

当上述舍入单元进行向上舍入操作时，该舍入单元具体执行如下操作：

其中，y表示对上述舍入前的中间结果x进行向上舍入后得到的数据，即上述舍入后的中间结果，

为ε的整数倍，其值为大于或等于x的最小数，ε为当前定点数据表示格式所能表示的最小正整数，即2^{-Point Location}。

当上述舍入单元进行向下舍入操作时，该舍入单元具体执行如下操作：

其中，y表示对上述舍入前的中间结果x进行向下舍入后得到的数据，即上述舍入后的中间结果，

为ε的整数倍，其值为小于或等于x的最大数，ε为当前定点数据表示格式所能表示的最小正整数，即2^{-Point Location}。

当上述舍入单元进行截断舍入操作时，该舍入单元具体执行如下操作：

其中，y表示对上述舍入前的中间结果x进行截断舍入后得到的数据，即上述舍入后的中间结果，

表示对上述中间结果x直接截得定点数据所得的数据。

在一种可行的实施例中，上述运算单元对上述一个或者多个中间结果中的数据类型为浮点数据的中间结果不做截断处理。

由于在本申请运算过程中产生的中间结果不用存储在存储器中，因此不用对超出存储器存储范围的中间结果进行截断，极大减少了中间结果的精度损失，提高了计算结果的精度。

在一种可行的实施例中，上述运算单元12还包括推导单元，当该运算单元12接收到参与定点运算的输入数据的小数点位置，该推导单元根据该参与定点运算的输入数据的小数点位置推导得到进行定点运算过程中得到一个或者多个中间结果的小数点位置。上述运算子单元进行运算得到的中间结果超过其对应的小数点位置所指示的范围时，上述推导单元将该中间结果的小数点位置左移M位，以使该中间结果的精度位于该中间结果的小数点位置所指示的精度范围之内，该M为大于0的整数。

举例说明，上述至少一个输入数据包括输入数据I1和输入数据I2，分别对应的小数点位置分别为P1和P2，且P1>P2，当上述运算指令所指示的运算类型为加法运算或者减法运算，即上述运算子单元进行I1+I2或者I1-I2操作时，上述推导单元推导得到进行上述运算指令所指示的运算过程的中间结果的小数点位置为P1；当上述运算指令所指示的运算类型为乘法运算，即上述运算子单元进行I1*I2操作时，上述推导单元推导得到进行上述运算指令所指示的运算过程的中间结果的小数点位置为P1*P2。

在一种可行的实施例中，上述运算单元还包括：

数据缓存单元，用于缓存上述一个或多个中间结果。

具体地，上述运算单元12根据上述一个或者多个运算指令和对应的输入数据进行运算的过程包括n次运算，n为大于或者等于1的整数。相应地，该n次运算产生n个中间结果。该n次运算中包括m次定点运算。其中m为小于或者等于n的整数。上述运算单元12对上述m次定点运算得到的m个中间结果中的x个中间结果不做截断处理，x为小于或者等于m的整数。

上述一个或多个中间结果的小数点位置为上述n个中间结果中任意一个或多个中间结果的小数点位置。

可选地，上述一个中间结果的小数点位置为上述n个中间结果中最后一个中间结果的小数点位置。

可选地，运算包括乘法运算，上述一个或多个中间结果的小数点位置为执行乘法运算指令得到的中间结果的小数点位置。

在一种可行实施例中，上述运算单元还用于当上述多个中间结果中的最后一个中间结果为定点数据时，根据最后一个中间结果的小数点位置将该最后一个中间结果转换为浮点数据，以浮点数据表示的最后一个中间结果即为上述计算指令的结果。

在一种具体的应用场景中，对上述网络模型的全连接层，比如上述运算单元进行如下运算：

f(a,b)＝a*b+z

其中，上述运算过程包括乘法和加法两次运算，产生两个中间结果：c1＝a*b，c2＝c1+z。在进行上述运算过程中，对中间结果c1和c2不进行截断处理。当中间结果c2为定点数据时，上述运算单元中的数据转换单元将该c2转换为浮点数据。

再比如上述运算单元进行如下运算：

f(a,b)＝c'

其中，上述运算单元进行一次运算得到中间结果c’，不对该中间结果c’进行截断处理，当c’为定点数据时，将c’转换为浮点数据。

其中，上述计算指令可以包括：一个或多个操作域以及一个操作码。该计算指令可以包括神经网络运算指令。以神经网络运算指令为例，如表2所示，其中，寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以为操作域。其中，每个寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以是一个或者多个寄存器的号码。具体参见下表2：

表2

可选的，该控制器单元11还可以包括：

所述依赖关系处理单元，用于在具有多个运算指令时，确定第一运算指令与所述第一运算指令之前的第零运算指令是否存在关联关系，如所述第一运算指令与所述第零运算指令存在关联关系，则将所述第一运算指令缓存在所述指令存储单元内，在所述第零运算指令执行完毕后，从所述指令存储单元提取所述第一运算指令传输至所述运算单元；

依据所述第一运算指令提取所述第一运算指令中所需数据(例如矩阵)的第一存储地址区间，依据所述第零运算指令提取所述第零运算指令中所需矩阵的第零存储地址区间，如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域，则确定所述第一运算指令与所述第零运算指令具有关联关系，如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域，则确定所述第一运算指令与所述第零运算指令不具有关联关系；

在一个实施例里，该运算单元12可以包括多个运算模块，所述多个运算模块用于执行n个流水级的计算，n大于或者等于2；

该运算单元12具体用于对所述至少一个输入数据执行第一流水级的计算得到第一中间结果，将所述第一中间结果输入到第二流水级执行第二流水级的计算得到第二中间结果，…，将第n-1中间结果输入到第n流水级执行第n流水级的计算得到第n中间结果，将所述第n中间结果输入到所述存储单元。n可以为大于或等于3的整数。

举例说明，假设上述运算单元的运算模块包括加法运算模块，乘法运算模块和激活模块。该运算单元进行如下运算：

f(a,b)＝F(a*b+z)

其中，上述运算单元进行三次运算(包括乘法运算、加法运算和激活运算)，有两个中间结果(包括c1和c2)。该运算单元进行三级流水的计算，乘法模块执行第一流水级的计算，加法模块执行第二流水级的计算，激活模块执行第三流水级的计算。上述运算单元的乘法模块执行乘法运算c1＝a*b，得到第一结果c1；将第一结果c1输入到上述加法模块，该加法模块执行加法运算c2＝c1+z，得到第二结果c2；将第二结果c2输入到上述激活模块，该激活模块执行激活运算。在一个实施例里，运算单元12包括但不仅限于：第一部分的第一个或多个乘法器；第二部分的一个或者多个加法器(更具体的，第二个部分的加法器也可以组成加法树)；第三部分的激活函数单元；和/或第四部分的向量处理单元。更具体的，向量处理单元可以处理向量运算和/或池化运算。第一部分将输入数据1(in1)和输入数据2(in2)相乘得到相乘之后的输出(out)，过程为：out＝in1*in2；第二部分将输入数据in1通过加法器相加得到输出数据(out)。更具体的，第二部分为加法树时，将输入数据in1通过加法树逐级相加得到输出数据(out)，其中in1是一个长度为N的向量，N大于1，过程为：out＝in1[1]+in1[2]+…+in1[N]，和/或将输入数据(in1)通过加法数累加之后和输入数据(in2)相加得到输出数据(out)，过程为：out＝in1[1]+in1[2]+…+in1[N]+in2,或者将输入数据(in1)和输入数据(in2)相加得到输出数据(out)，过程为：out＝in1+in2；第三部分将输入数据(in)通过激活函数(active)运算得到激活输出数据(out)，过程为：out＝active(in)，激活函数active可以是sigmoid、tanh、relu、softmax等，除了做激活操作，第三部分可以实现其他的非线性函数，可将输入数据(in)通过运算(f)得到输出数据(out)，过程为：out＝f(in)。向量处理单元将输入数据(in)通过池化运算得到池化操作之后的输出数据(out)，过程为out＝pool(in)，其中pool为池化操作，池化操作包括但不限于：平均值池化，最大值池化，中值池化，输入数据in是和输出out相关的一个池化核中的数据。

所述运算单元执行运算包括第一部分是将所述输入数据1和输入数据2相乘，得到相乘之后的数据；和/或第二部分执行加法运算(更具体的，为加法树运算，用于将输入数据1通过加法树逐级相加)，或者将所述输入数据1通过和输入数据2相加得到输出数据；和/或第三部分执行激活函数运算，对输入数据通过激活函数(active)运算得到输出数据；和/或第四部分执行池化运算，out＝pool(in)，其中pool为池化操作，池化操作包括但不限于：平均值池化，最大值池化，中值池化，输入数据in是和输出out相关的一个池化核中的数据。以上几个部分的运算可以自由选择一个多个部分进行不同顺序的组合，从而实现各种不同功能的运算。计算单元相应的即组成了二级，三级，或者四级流水级架构。

在另一个可选的实施例里，该运算单元12可以包括一个主处理电路101、分支处理电路103以及多个从处理电路102。

所述主处理电路101，用于将输入数据A分配成多个数据块，将所述多个数据块中的至少一个数据块以及输入数据A参与运算的运算指令发送给所述分支处理电路103，该输入数据A为上述至少一个输入数据中的任意一个；该分支处理电路103用于转发上述主处理电路101和从处理电路102之间的数据。上述分支处理电路103将上述多个数据块中的至少一个数据块和多个运算指令中上述输入数据对应的运算指令转发至上述从处理电路102。

所述多个从处理电路102，用于依据该运算指令对接收到的数据块执行运算得到至少一个中间结果，并将该至少一个中间结果传输给所述主处理电路101；

所述主处理电路101，用于将多个从处理电路102发送的至少一个中间结果进行处理得到该计算指令的结果，将该计算指令的结果发送给所述控制器单元11；

其中，上述至少一个中间结果为浮点数据。

在另一种可选实施例中，如图3B所示，运算单元12可以包括分支处理电路103(可选地)；其具体的连接结构如图3B所示，其中，主处理电路101与分支处理电路103连接，分支处理电路103与多个从处理电路102连接；

分支处理电路103，用于执行转发主处理电路101与从处理电路102之间的数据或运算指令。

具体地，主处理电路101可以包括寄存器和/或片上缓存电路，该主处理电路101还可以包括：控制电路、向量运算器电路、算数逻辑单元(arithmetic and logic unit，ALU)电路、累加器电路、直接内存存取(Direct Memory Access，DMA)电路等电路，当然在实际应用中，上述主处理电路101还可以添加，转换电路(例如矩阵转置电路)、数据重排电路或激活电路等等其他的电路；

可选的，主处理电路101可以包括：数据类型转换电路，数据类型转换电路可以用于将接收或发送的数据从浮点数据转换成定点数据，当然在实际应用中，也可以将定点数据转换成浮点数据。本发明并不限制上述数据类型转换电路的具体形式。

主处理电路101还包括数据发送电路、数据接收电路或接口，该数据发送电路可以集成数据分发电路以及数据广播电路，当然在实际应用中，数据分发电路以及数据广播电路也可以分别设置；在实际应用中上述数据发送电路以及数据接收电路也可以集成在一起形成数据收发电路。对于广播数据，即需要发送给每个从处理电路102的数据。对于分发数据，即需要有选择的发送给部分从处理电路102的数据，具体的选择方式可以由主处理电路101依据负载以及计算方式进行具体的确定。对于广播发送方式，即将广播数据以广播形式发送至每个从处理电路102。(在实际应用中，通过一次广播的方式将广播数据发送至每个从处理电路102，也可以通过多次广播的方式将广播数据发送至每个从处理电路102，本申请具体实施方式并不限制上述广播的次数)，对于分发发送方式，即将分发数据有选择的发送给部分从处理电路102。

需要说明的是，上述广播数据包括上述数据块和运算指令、上述分发数据包括上述数据块和运算指令。

在实现分发数据时，主处理电路101的控制电路向部分或者全部从处理电路102传输数据(该数据可以相同，也可以不同，具体的，如果采用分发的方式发送数据，各个接收数据的从处理电路102收到的数据可以不同，当然也可以有部分从处理电路102收到的数据相同；

具体地，广播数据时，主处理电路101的控制电路向部分或者全部从处理电路102传输数据，各个接收数据的从处理电路102可以收到相同的数据。

可选的，上述主处理电路101的向量运算器电路可以执行向量运算，包括但不限于：两个向量加减乘除，向量与常数加、减、乘、除运算，或者对向量中的每个元素执行任意运算。其中，连续的运算具体可以为，向量与常数加、减、乘、除运算、激活运算、累加运算等等。

每个从处理电路102可以包括基础寄存器和/或基础片上缓存电路；每个从处理电路102还可以包括：内积运算器电路、向量运算器电路、累加器电路等中一个或任意组合。上述内积运算器电路、向量运算器电路、累加器电路都可以是集成电路，上述内积运算器电路、向量运算器电路、累加器电路也可以为单独设置的电路。

可选的，该运算单元12还可以包括一个或多个分支处理电路103，如具有分支处理电路103时，其中主处理电路101与分支处理电路103连接，该分支处理电路103与从处理电路102连接，该从处理电路102的内积运算器电路用于执行数据块之间的内积运算，该主处理电路101的控制电路控制数据接收电路或数据发送电路收发外部数据，以及通过控制电路控制数据发送电路将外部数据分发至分支处理电路103，该分支处理电路103用于收发主处理电路101或从处理电路102的数据(包括数据块、运算指令和根据该运算指令对数据块进行运算得到的结果)。如图3B所示的结构适合复杂数据的计算，因为对于主处理电路101来说，其连接的单元的数量有限，所以需要在主处理电路101与从处理电路102之间添加分支处理电路103以实现更多的从处理电路102的接入，从而实现对复杂数据块的计算。分支处理电路103和从处理电路102的连接结构可以是任意的，不局限在图3B的H型结构。

可选的，主处理电路101到从处理电路102是广播或分发的结构，从处理电路102到主处理电路101是收集(gather)的结构。广播，分发和收集的定义如下，对于分发或广播结构，此时的从处理电路102的数量大于主处理电路101，即1个主处理电路101对应多个从处理电路102，即从主处理电路101到多个从处理电路102为广播或分发的结构，反之，从多个从处理电路102到主处理电路101可以为收集结构。

从处理电路102，接收主处理电路101分发或者广播的数据(包括数据块和运算指令)，并保存到从处理电路102的片上缓存中，可以进行运算产生结果，可以向主处理电路101发送根据运算指令对数据块进行计算得到的结果。

从处理电路102中所涉及到的数据可以是任意数据类型的数据，可以是任意位宽的浮点数表示的数据，也可以是任意位宽的定点数表示的数据；涉及到的所有运算电路和存储电路都可以是能够处理的任意数据类型的运算电路和存储电路，可以是任意位宽的浮点数的运算电路和存储电路也可以是任意位宽的定点数的运算电路和存储电路。

可选的，每个从处理电路102均可以包括数据类型转换电路，也可以在部分从处理电路102配置数据类型转换电路；数据类型转换电路可以用于将接收或发送的数据从浮点数据转换成定点数据，也可以将定点数据转换成浮点数据。本发明并不限制上述数据类型转换电路的具体形式。

另一种可选实施例中，运算单元12如图3C所示，可以包括一个主处理电路101和多个从处理电路102。在一个实施例里，如图3C所示，多个从处理电路102呈阵列分布；每个从处理电路102与相邻的其他从处理电路102连接，主处理电路101连接所述多个从处理电路102中的K个从处理电路102，所述K个从处理电路102为：第1行的n个从处理电路102、第m行的n个从处理电路102以及第1列的m个从处理电路102。

K个从处理电路102，用于在所述主处理电路101以及多个从处理电路102之间的数据以及指令的转发。

所述主处理电路101，用于将输入数据A分配成多个数据块，将所述多个数据块中的至少一个数据块以及输入数据A参与运算的运算指令发送给所述K个从处理电路102，该输入数据A为上述至少一个输入数据中的任意一个；

所述K个从处理电路102，用于转换所述主处理电路101与所述多个从处理电路102之间的数据；

所述多个从处理电路102，用于依据上述输入数据A参与运算的运算指令对接收到的数据块执行运算得到至少一个中间结果，并将该至少一个中间结果传输给所述K个从处理电路102；

所述主处理电路101，用于将所述K个从处理电路102发送的至少一个中间结果进行处理得到该计算指令的结果，将该计算指令的结果发送给所述控制器单元11。

具体地，上述多个从处理电路102呈阵列排布(m*n阵列)，其中，m、n的取值范围为大于等于1的整数且m、n中至少有一个值大于等于2。对于m*n阵列分布的多个从处理电路，每个从处理电路102与相邻的从处理电路102连接，所述主处理电路102连接多个从处理电路102中的k个从处理电路102，所述k个从处理电路102可以为：第1行的n个从处理电路102、第m行的n个从处理电路102以及第1列的m个从处理电路102。如图3C所示的运算单元12，主处理电路101和/或多个从处理电路102可以包括数据类型转换电路，具体的多个从处理电路102中可以有部分从处理电路102包括数据类型转换电路。

例如，在一个可选的技术方案中，可以将k个从处理电路102配置数据类型转换电路，这样n个从处理电路102可以分别负责对本列的m个从处理电路102的数据进行数据类型转换步骤。此设置能够提高运算效率，降低功耗，因为对于第1行的n个从处理电路102来说，由于其最先接收到主处理电路101发送的数据，那么将该接收到的数据转换成定点类型的数据可以减少后续从处理电路102的计算量以及与后续从处理电路102的数据传输的量，同理，对于第一列的m个从处理电路102配置数据类型转换电路也具有计算量小和功耗低的优点。另外，依据该结构，主处理电路101可以采用动态的数据发送策略，例如，主处理电路101向第1列的m个从处理电路102广播数据，主处理电路101向第1行的n个从处理电路102发送分发数据，此优点是，通过不同的数据输入口传递不同的数据到从处理电路102内，这样从处理电路102可以不区分该接收到的数据是何种数据，只需要确定该数据从哪个接收端口接收即可以获知其属于何种数据。

所述主处理电路，用于执行神经网络运算中的各个连续的运算以及和与其相连的所述从处理电路102传输数据；上述连续的运算但不限于：累加运算、算数逻辑单元(arithmetic and logic unit，ALU)运算、激活运算等等运算。

所述多个从处理电路102，用于依据传输的数据以并行方式执行神经网络中的运算，并将运算结果通过与所述主处理电路连接的从处理电路102传输给所述主处理电路。上述并行方式执行神经网络中的运算包括但不限于：内积运算、矩阵或向量乘法运算等等。

上述主处理电路101可以包括：数据发送电路、数据接收电路或接口，该数据发送电路可以集成数据分发电路以及数据广播电路，当然在实际应用中，数据分发电路以及数据广播电路也可以分别设置。对于广播数据，即需要发送给每个从处理电路102的数据。对于分发数据，即需要有选择的发送给部分从处理电路102的数据，具体的，如卷积运算，卷积运算的卷积输入数据需要发送给所有的从处理电路102，所有其为广播数据，卷积核需要有选择的发送给部分基础数据块，所以卷积核为分发数据。分发数据具体的选择发送给那个从处理电路102的方式可以由主处理电路依据负载以及其他分配方式进行具体的确定。对于广播发送方式，即将广播数据以广播形式发送至每个从处理电路102。(在实际应用中，通过一次广播的方式将广播数据发送至每个从处理电路102，也可以通过多次广播的方式将广播数据发送至每个从处理电路102，本披露具体实施方式并不限制上述广播的次数)，对于分发发送方式，即将分发数据有选择的发送给部分从处理电路102。

上述主处理电路101(如图3E所示)可以包括寄存器和/或片上缓存电路，该主处理电路101还可以包括:控制电路、向量运算器电路、ALU、累加器电路、DMA电路等电路，当然在实际应用中，上述主处理电路101还可以添加，转换电路(例如矩阵转置电路)、数据重排电路或激活电路等等其他的电路。

在一个具体的应用场景中，上述运算单元包括一个主处理电路(也可以称为主单元)和多个从处理电路(也可以称为基础单元)；实施例的结构如图3D所示；其中，虚线框中是所述神经网络运算装置的内部结构；灰色填充的箭头表示主处理电路和从处理电路阵列之间的数据传输通路，空心箭头表示从处理电路阵列中各个从处理电路(相邻从处理电路)之间的数据传输通路。其中，从处理电路阵列的长宽长度可以不同，即m、n的取值可以不同，当然也可以相同，本披露并不限制上述取值的具体值。

从处理电路的电路结构如图3D所示；图中虚线框表示从处理电路的边界，与虚线框交叉的粗箭头表示数据输入输出通道(指向虚线框内是输入通道，指出虚线框是输出通道)；虚线框中的矩形框表示存储单元电路(寄存器和/或片上缓存)，包括输入数据1，输入数据2，乘法或内积结果，累加数据；菱形框表示运算器电路，包括乘法或内积运算器，加法器。

本实施例中，运算单元包括一个主处理电路和16个从处理电路(16个从处理电路仅仅为了举例说明，在实际应用中，可以采用其他的数值)；

本实施例中，从处理电路有两个数据输入接口，两个数据输出接口；在本例的后续描述中，将横向的输入接口(图3D中指向本单元的横向箭头)称作输入0，竖向的输入接口(图3D中指向本单元的竖向箭头)称作输入1；将每一个横向的数据输出接口(图3D中从本单元指出的横向箭头)称作输出0，竖向的数据输出接口(图3D中从本单元指出的竖向箭头)称作输出1。

每一个从处理电路的数据输入接口和数据输出接口可以分别连接不同的单元，包括主处理电路与其他从处理电路；

本例中，从处理电路0,4,8,12(编号见图3D)这四个从处理电路的输入0与主处理电路的数据输出接口连接；

本例中，从处理电路0,1,2,3这四个从处理电路的输入1与主处理电路的数据输出接口连接；

本例中，从处理电路12,13,14,15这四个从处理电路的输出1与主处理电路的数据输入接口相连；

本例中，从处理电路输出接口与其他从处理电路输入接口相连接的情况见图3D所示，不再一一列举；

本实施例包含一个主处理电路，主处理电路与外部装置相连接(即由输入接口也有输出接口)，主处理电路的一部分数据输出接口与一部分从处理电路的数据输入接口相连接；主处理电路的一部分数据输入接口与一部分从处理电路的数据输出接口相连。

其中，本申请所说的定点数据可为有符号的定点数据或者无符号的定点数据

其中，上述小数点位置Point Location用于表示定点数据中小数部分的所占的比特位数，或者上述小数点位置用于表征定点数据的精度，即2^{-Point Location}。该小数点位置的值越大，则该定点数据的精度越高。

需要说明的是，上述第一输入数据为长位数非定点数据，例如32位浮点数据，也可以是针对标准的64位或者16位浮点数等，这里只是以32位为具体实施例进行说明；上述第二输入数据为短位数定点数据，又称为较少位数定点数据，表示相对于长位数非定点数据的第一输入数据来说，采用更少的位数来表示的定点数据。

具体地，对于不同的网络模型的不同的层，上述第一输入数据包括不同类型的数据。该不同类型的数据的小数点位置不相同，即对应的定点数据的精度不同。对于全连接层，上述第一输入数据包括输入神经元、权值和偏置数据等数据；对于卷积层时，上述第一输入数据包括卷积核、输入神经元和偏置数据等数据。

比如对于全连接层，上述小数点位置包括输入神经元的小数点位置、权值的小数点位置和偏置数据的小数点位置。其中，上述输入神经元的小数点位置、权值的小数点位置和偏置数据的小数点位置可以全部相同或者部分相同或者互不相同。

可选的，如图3F所示，该主处理电路包括：转换处理电路110、激活处理电路111、加法处理电路112中的一种或任意组合；

转换处理电路110，用于将主处理电路接收的数据块或中间结果执行第一数据结构与第二数据结构之间的互换(例如连续数据与离散数据的转换)；或将主处理电路接收的数据块或中间结果执行第一数据类型与第二数据类型之间的互换(例如定点类型与浮点类型的转换)；

激活处理电路111，用于执行主处理电路内数据的激活运算；

加法处理电路112，用于执行加法运算或累加运算。

所述主处理电路，用于将一个输入数据分配成多个数据块，将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述从处理电路；

所述多个从处理电路，用于依据该运算指令对接收到的数据块执行运算得到中间结果，并将运算结果传输给所述主处理电路；

所述主处理电路，用于将多个从处理电路发送的中间结果进行处理得到该计算指令的结果，将该计算指令的结果发送给所述控制器单元。

所述从处理电路包括：乘法处理电路；

所述乘法处理电路，用于对接收到的数据块执行乘积运算得到乘积结果；

转发处理电路(可选的)，用于将接收到的数据块或乘积结果转发。

累加处理电路，所述累加处理电路，用于对该乘积结果执行累加运算得到该中间结果。

在一种可行的实施例中，上述运算单元在根据上述一个或多个运算指令对上述至少一个输入数据进行运算过程中，得到一个或多个运算结果。上述运算单元对上述至少一个输入数据中的浮点数据和上述一个或多个中间结果中的浮点数据进行备份保存；在上述运算单元对上述网络模型进行反向训练时，该运算单元采用上述备份的浮点数据对该网络模型进行反向训练，以提高对网络模型训练的精度。

在一个具体的应用场景中，上述数据输入输出单元获取至少一个输入数据、网络模型和计算指令，且该至少一个输入数据为定点数据。上述控制器单元的指令处理单元对上述计算指令进行译码，以得到一个或多个运算指令。上述控制器单元将上述至少一个输入数据和上述一个或多个运算指令发送至上述运算单元。该运算单元根据该一个或多个运算指令对上述至少一个输入数据进行运算，得到计算指令的结果，该计算指令的结果为浮点数据。

具体地，上述运算单元根据上述一个或者多个运算指令对上述至少一个输入数据进行运算，得到一个或多个中间结果，该一个或多个中间结果中的最后一个中间结果为上述计算指令的结果。当上述最后一个中间结果为定点数据时，上述运算单元根据该最后一个中间结果的小数点位置将该最后一个中间结果转换浮点数据，以进行后续参与的运算。

其中，上述数据输入输出单元还获取数据转换指令，该数据转换指令包括操作域和操作码，该操作码用于指示所述数据转换指令的功能，所述数据转换指令的操作域包括输入数据的小数点位置和数据类型的转换方式标识。当上述至少一个输入数据为浮点数据时，上述控制器单元的指令处理单元对上述数据转换指令进行解析，以得到输入数据的小数点位置和数据类型的转换方式标识，上述数据转换单元将根据数据类型的转换方式标识和数据类型的转换方式标识与数据类型的转换方式的对应关系表确定数据类型的转换方式，然后该数据转换单元根据上述输入数据的小数点位置和上述数据类型的转换方式将上述至少一个输入数据转换为定点数据。

在一种可行的实施例中，上述控制器单元将上述至少一个输入数据的小数点位置发送至上述运算单元，该运算单元的推导单元根据上述至少一个输入数据的小数点位置推导得到一个或者多个中间结果的小数点位置。

图4为本发明实施例提供的一种单层神经网络正向运算流程图。该流程图描述利用本发明实施的神经网络运算装置和指令集实现的一种单层神经网络正向运算的过程。对于每一层来说，首先对输入神经元向量进行加权求和计算出本层的中间结果向量。该中间结果向量加偏置并激活得到输出神经元向量。将输出神经元向量作为下一层的输入神经元向量。

在一个具体的应用场景中，上述运算装置可以是一个训练装置。在进行神经网络模型训练之前，该训练装置获取参与神经网络模型训练的训练数据，该训练数据为非定点数据，并按照上述方法获取上述训练数据的小数点位置。上述训练装置根据上述训练数据的小数点位置将该训练数据转换为以定点数据表示的训练数据。上述训练装置根据该以定点数据表示的训练数据进行正向神经网络运算，得到神经网络运算结果。上述训练装置对超出训练数据的小数点位置所能表示数据精度范围的神经网络运算结果进行随机舍入操作，以得到舍入后的神经网络运算结果，该神经网络运算结果位于上述训练数据的小数点位置所能表示数据精度范围内。按照上述方法，上述训练装置获取多层神经网络每层的神经网络运算结果，即输出神经元。上述训练装置根据每层输出神经元得到输出神经元的梯度，并根据该输出神经元的梯度进行反向运算，得到权值梯度，从而根据该权值梯度更新神经网络模型的权值。

上述训练装置重复执行上述过程，以达到训练神经网络模型的目的。

其中，上述正向运算包括上述多层神经网络运算，该多层神经网络运算包括卷积等运算，该卷积运算是由卷积运算指令实现的。

上述卷积运算指令为Cambricon指令集中的一种指令，该Cambricon指令集的特征在于，指令由操作码和操作数组成，指令集包含四种类型的指令，分别是控制指令(controlinstructions),数据传输指令(data transfer instructions),运算指令(computationalinstructions),逻辑指令(logical instructions)。

优选的，指令集中每一条指令长度为定长。例如，指令集中每一条指令长度可以为64bit。

进一步的，控制指令用于控制执行过程。控制指令包括跳转(jump)指令和条件分支(conditional branch)指令。

进一步的，数据传输指令用于完成不同存储介质之间的数据传输。数据传输指令包括加载(load)指令,存储(store)指令,搬运(move)指令。load指令用于将数据从主存加载到缓存，store指令用于将数据从缓存存储到主存，move指令用于在缓存与缓存或者缓存与寄存器或者寄存器与寄存器之间搬运数据。数据传输指令支持三种不同的数据组织方式，包括矩阵，向量和标量。

进一步的，运算指令用于完成神经网络算术运算。运算指令包括矩阵运算指令，向量运算指令和标量运算指令。

更进一步的，矩阵运算指令完成神经网络中的矩阵运算，包括矩阵乘向量(matrixmultiply vector)，向量乘矩阵(vector multiply matrix)，矩阵乘标量(matrixmultiply scalar)，外积(outer product)，矩阵加矩阵(matrix add matrix)，矩阵减矩阵(matrix subtract matrix)。

更进一步的，向量运算指令完成神经网络中的向量运算，包括向量基本运算(vector elementary arithmetics)，向量超越函数运算(vector transcendentalfunctions)，内积(dot product)，向量随机生成(random vector generator)，向量中最大/最小值(maximum/minimum of a vector)。其中向量基本运算包括向量加，减，乘，除(add,subtract,multiply,divide)，向量超越函数是指那些不满足任何以多项式作系数的多项式方程的函数，包括但不仅限于指数函数，对数函数，三角函数，反三角函数。

更进一步的，标量运算指令完成神经网络中的标量运算，包括标量基本运算(scalar elementary arithmetics)和标量超越函数运算(scalar transcendentalfunctions)。其中标量基本运算包括标量加，减，乘，除(add,subtract,multiply,divide)，标量超越函数是指那些不满足任何以多项式作系数的多项式方程的函数，包括但不仅限于指数函数，对数函数，三角函数，反三角函数。

进一步的，逻辑指令用于神经网络的逻辑运算。逻辑运算包括向量逻辑运算指令和标量逻辑运算指令。

更进一步的，向量逻辑运算指令包括向量比较(vector compare)，向量逻辑运算(vector logical operations)和向量大于合并(vector greater than merge)。其中向量比较包括但大于，小于，等于，大于等于，小于等于和不等于。向量逻辑运算包括与，或，非。

更进一步的，标量逻辑运算包括标量比较(scalar compare)，标量逻辑运算(scalar logical operations)。其中标量比较包括但大于，小于，等于，大于等于，小于等于和不等于。标量逻辑运算包括与，或，非。

对于多层神经网络，其实现过程是，在正向运算中，当上一层人工神经网络执行完成之后，下一层的运算指令会将运算单元中计算出的输出神经元作为下一层的输入神经元进行运算(或者是对该输出神经元进行某些操作再作为下一层的输入神经元)，同时，将权值也替换为下一层的权值；在反向运算中，当上一层人工神经网络的反向运算执行完成后，下一层运算指令会将运算单元中计算出的输入神经元梯度作为下一层的输出神经元梯度进行运算(或者是对该输入神经元梯度进行某些操作再作为下一层的输出神经元梯度)，同时将权值替换为下一层的权值。如图5所示，图5中虚线的箭头表示反向运算，实现的箭头表示正向运算。

另一个实施例里，该运算指令为矩阵乘以矩阵的指令、累加指令、激活指令等等计算指令，包括正向运算指令和方向训练指令。

下面通过神经网络运算指令来说明如图3A所示的计算装置的具体计算方法。对于神经网络运算指令来说，其实际需要执行的公式可以为:s＝s(Σwx_i+b)，其中，即将权值w乘以输入数据x_i，进行求和，然后加上偏置b后做激活运算s(h)，得到最终的输出结果s。

如图3A所示的计算装置执行神经网络正向运算指令的方法具体可以为：

控制器单元从指令存储单元内提取神经网络正向运算指令、神经网络运算指令对应的操作域以及至少一个操作码，控制器单元将该操作域传输至数据访问单元，将该至少一个操作码发送至运算单元。

控制器单元从存储介质内提取该操作域对应的权值w和偏置b(当b为0时，不需要提取偏置b)，将权值w和偏置b传输至运算单元的主处理电路，控制器单元从存储介质内提取输入数据Xi，将该输入数据Xi发送至主处理电路。

主处理电路将输入数据Xi拆分成n个数据块。

控制器单元的指令处理单元依据该至少一个操作码确定乘法指令、偏置指令和累加指令，将乘法指令、偏置指令和累加指令发送至主处理电路，主处理电路将该乘法指令、权值w以广播的方式发送给多个从处理电路，将该n个数据块分发给该多个从处理电路(例如具有n个从处理电路，那么每个从处理电路发送一个数据块)；多个从处理电路，用于依据该乘法指令将该权值w与接收到的数据块执行乘法运算得到中间结果，将该中间结果发送至主处理电路，该主处理电路依据该累加指令将多个从处理电路发送的中间结果执行累加运算得到累加结果，依据该偏执指令将该累加结果执行加偏执b得到最终结果，将该最终结果发送至该控制器单元。

另外，加法运算和乘法运算的顺序可以调换。

需要说明的是，上述计算装置执行神经网络反向训练指令的方法类似于上述计算装置执行神经网络执行正向运算指令的过程，具体可参见上述反向训练的相关描述，在此不再叙述。

本申请提供的技术方案通过一个指令即神经网络运算指令即实现了神经网络的乘法运算以及偏置运算，在神经网络计算的中间结果均无需存储或提取，减少了中间数据的存储以及提取操作，所以其具有减少对应的操作步骤，提高神经网络的计算效果的优点。

本申请还揭露了一个神经网络运算装置，其包括一个或多个在本申请中提到的计算装置，用于从其他处理装置中获取待运算数据和控制信息，执行指定的神经网络运算，执行结果通过I/O接口传递给外围设备。外围设备譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口，服务器。当包含一个以上计算装置时，计算装置间可以通过特定的结构进行链接并传输数据，譬如，通过PCIE总线进行互联并传输数据，以支持更大规模的神经网络的运算。此时，可以共享同一控制系统，也可以有各自独立的控制系统；可以共享内存，也可以每个加速器有各自的内存。此外，其互联方式可以是任意互联拓扑。

该神经网络运算装置具有较高的兼容性，可通过PCIE接口与各种类型的服务器相连接。

本申请还揭露了一个组合处理装置，其包括上述的神经网络运算装置，通用互联接口，和其他处理装置。神经网络运算装置与其他处理装置进行交互，共同完成用户指定的操作。图6为组合处理装置的示意图。

其他处理装置，包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为神经网络运算装置与外部数据和控制的接口，包括数据搬运，完成对本神经网络运算装置的开启、停止等基本控制；其他处理装置也可以和神经网络运算装置协作共同完成运算任务。

通用互联接口，用于在所述神经网络运算装置与其他处理装置间传输数据和控制指令。该神经网络运算装置从其他处理装置中获取所需的输入数据，写入神经网络运算装置片上的存储装置；可以从其他处理装置中获取控制指令，写入神经网络运算装置片上的控制缓存；也可以读取神经网络运算装置的存储模块中的数据并传输给其他处理装置。

可选的，该结构如图7所示，还可以包括存储装置，存储装置分别与所述神经网络运算装置和所述其他处理装置连接。存储装置用于保存在所述神经网络运算装置和所述其他处理装置的数据，尤其适用于所需要运算的数据在本神经网络运算装置或其他处理装置的内部存储中无法全部保存的数据。

该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上系统，有效降低控制部分的核心面积，提高处理速度，降低整体功耗。此情况时，该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口。

在一个可行的实施例中，还申请了一种分布式系统，该系统包括n1个主处理器和n2个协处理器，n1是大于或等于0的整数，n2是大于或等于1的整数。该系统可以是各种类型的拓扑结构，包括但不限于如图3B所示的拓扑结果、图3C所示的拓扑结构、图12所示的拓扑结构和图13所示的拓扑结构。

该主处理器将输入数据及其小数点位置和计算指令分别发送至上述多个协处理器；或者上述主处理器将上述输入数据及其小数点位置和计算指令发送至上述多个从处理器中的部分从处理器，该部分从处理器再将上述输入数据及其小数点位置和计算指令发送至其他从处理器。上述该协处理器包括上述计算装置，该计算装置根据上述方法和计算指令对上述输入数据进行运算，得到运算结果；

其中，上述输入数据包括但不限定于输入神经元、权值和偏置数据等等。

上述协处理器将运算结果直接发送至上述主处理器，或者与主处理器没有连接关系的协处理器将运算结果先发送至与主处理器有连接关系的协处理器，然后该协处理器将接收到的运算结果发送至上述主处理器。

在一些实施例里，还申请了一种芯片，其包括了上述神经网络运算装置或组合处理装置。

在一些实施例里，申请了一种芯片封装结构，其包括了上述芯片。

在一些实施例里，申请了一种板卡，其包括了上述芯片封装结构。

在一些实施例里，申请了一种电子设备，其包括了上述板卡。

上述电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

参见图8，图8为本发明实施例提供的一种计算方法，所述方法用于执行网络模型的计算，所述网络模型包括：神经网络模型和/或非神经网络模型，所述方法包括：

S801、计算装置获取至少一个输入数据、所述网络模型和计算指令，所述至少一个输入数据为定点数据。

S802、计算装置对所述计算指令进行译码，以得到一个或多个运算指令。

S803、计算装置根据所述一个或多个运算指令对所述至少一个输入数据执行计算得到计算指令的结果，所述计算指令的结果为浮点数据。

其中，所述根据所述一个或多个运算指令对所述至少一个输入数据执行计算得到计算指令的结果包括：

在一种可行的实施例中，所述方法还包括：

其中，上述运算指令包括正向运算指令和反向训练指令，即上述计算装置在执行正向运算指令和或反向训练指令(即该计算装置进行正向运算和/或反向训练)过程中，上述计算装置可根据上述图8所示实施例将参与运算的数据转换为定点数据，进行定点运算。

需要说明的是，上述步骤S801-S803具体描述可参见图1、图2、图3A-图3F、图4-图7所示实施例的相关描述，在此不再叙述。

在一个具体的应用场景中，上述计算装置将参与运算的数据转换为定点数据，并对定点数据的小数点位置进行调整，具体过程参见图9，如图9所示，该方法包括：

S901、计算装置获取第一输入数据。

其中，上述第一输入数据为参与多层网络模型的第m层运算的数据，该第一输入数据为任意类型的数据。比如该第一输入数据为定点数据、浮点数据、整型数据或离散数据，m为大于0的整数。

其中，上述多层网络模型的第m层为线性层，该线性层包括但不限定于卷积层和全连接层。上述第一输入数据包括输入神经元、权值、输出神经元、输入神经元导数、权值导数和输出神经元导数。

S902、计算装置确定第一输入数据的小数点位置和定点数据的位宽。

其中，上述第一输入数据的定点数据的位宽为以定点数据表示的第一输入数据所占的比特位，上述小数点位置为以定点数据表示的第一数据的小数部分所占的比特位。该小数点位置用于表征定点数据的精度。

参见图10，图10为定点数据的格式示意图。如图10所示，该定点数据所占的比特位数为bitnum，小数点位置为s，该定点数据的精度为2^s。第一位为符号位，用于指示该定数据是正数还是负数。比如当符号位为0时，表示该定点数据为正数；当符号位为1时，表示该定点数据为负数。该定点数据表示的范围为[neg,pos]，其中，pos＝(2^bitnum-1-1)*2^s，neg＝-(2^bitnum-1-1)*2^s。

其中，上述bitnum可以去任意正整数。上述s可为任意不小于s_min的整数

可选地，上述bitnum可为8、16、24、32、64或者其他值。

优选地，上述s_min为-64。

可选地，上述bitnum为8,16,24,32或者其他值。s可以取任意不小于s_min的整数，优选地，s_min取-64。

具体地，第一输入数据可以为任意类型的额数据，该第一输入数据a根据上述小数点位置和定点数据的位宽转换为第二输入数据

具体如下：

其中，当上述第一输入数据a满足条件neg≤a≤pos时，上述第二输入数据

为

当上述第一输入数据a大于pos时，上述第二输入数据

为pos；当上述第一输入数据a小于neg时，上述第二输入数据

为neg。

在一种实施例中，对于卷积层和全连接层的输入神经元、权值、输出神经元、输入神经元导数、输出神经元导数和权值导数均采用定点数据进行表示。

可选地，上述输入神经元采用的定点数据的位宽可为8、16、32、64或者其他值。优选地，上述输入神经元采用的定点数据的位宽为8。

可选地，上述权值采用的定点数据的位宽可为8、16、32、64或者其他值。优选地，上述权值采用的定点数据的位宽为8。

可选地，上述输入神经元导数采用的定点数据的位宽可为8、16、32、64或者其他值。优选地，上述输入神经元导数采用的定点数据的位宽为16。

可选地，上述输出神经元导数采用的定点数据的位宽可为8、16、32、64或者其他值。优选地，上述输出神经元导数采用的定点数据的位宽为24。

可选地，上述权值导数采用的定点数据的位宽可为8、16、32、64或者其他值。优选地，上述权值导数采用的定点数据的位宽为24。

在一种实施例中，对于参与上述多层网络模型运算的数据中数值较大的数据a可采用多种定点表示方法，具体参见图11：

如图11所示，对上述数据a(即上述第一输入数据)采用3种定点数据组合表示，即该数据a由定点数据1、定点数据2和定点数据3组成。其中，定点数据1的位宽为bitnum1，小数点位置为s1，定点数据2的位宽为bitnum2，小数点位置为s2；定点数据3的位宽为bitnum3，小数点位置为s2，且bitnum2-2＝s1-1，bitnum3-2＝s2-1。采用3种定点数据表示的范围为[neg,pos],其中，pos＝(2^bitnum-1-1)*2^s，neg＝-(2^bitnum-1-1)*2^s。

具体如下：

为

且

当上述第一输入数据a大于pos时，上述第二输入数据

为pos；当上述第一输入数据a小于neg时，上述第二输入数据

为neg。

S903、计算装置初始化第一输入数据的小数点位置和调整第一输入数据的小数点位置。

其中，上述小数点位置s需要根据不同类别的数据、不同神经网络层的数据，处于不同迭代轮次的数据进行初始化和动态调整。

下面具体介绍第一输入数据的小数点位置s的初始化过程，即确定进行第一次将第一输入数据转换时定点数据所采用的小数点位置s。

其中，上述计算装置第一输入数据的小数点位置s的初始化包括：根据第一输入数据绝对值最大值初始化第一输入数据的小数点位置s；根据第一输入数据绝对值的最小值初始化第一输入数据的小数点位置s；根据第一输入数据中不同数据类型间关系初始化第一输入数据的小数点位置s；根据经验值常量初始化第一输入数据的小数点位置s。

具体地，下面分别具体介绍上述初始化过程。

a)、根据第一输入数据绝对值的最大值初始化第一输入数据的小数点位置s：

具体通过以下公式第一输入数据的小数点位置s：。

其中，上述a_max为上述第一输入数据绝对值的最大值，上述bitnum为上述第一输入数据转换为定点数据的位宽，上述s_a为上述第一输入数据的小数点位置。

其中，参与运算的数据按类别与网络层次可分为：第l层的输入神经元X^(l)、输出神经元Y^(l)、权值W^(l)、输入神经元导数

输出神经元导数

和权值导数

寻找绝对值最大值时，可以按数据类别寻找；可以分层、分类别寻找；可以分层、分类别、分组寻找。第一输入数据绝对值的最大值的确定方法包括：

a.1)、按数据类别寻找绝对值最大值

具体地，第一输入数据包括向量/矩阵中的每个元素为a_i ^(l)，其中，该a^(l)可为输入神经元X^(l)或输出神经元Y^(l)或权值W^(l)或输入神经元导数

或输出神经元导数

或权值导数

换言之，上述第一输入数据包括输入神经元、权值、输出神经元、输入神经元导数、权值导数和输出神经元导数，上述第一输入数据的小数点位置包括输入神经元的小数点位置、权值的小数点位置、输出神经元的小数点位置、输入神经元导数的小数点位置、权值导数的小数点位置和输出神经元导数的小数点位置。该输入神经元、权值、输出神经元、输入神经元导数、权值导数和输出神经元导数均以矩阵或者向量形式表示的。通过遍历上述多层网络模型。的每一层的向量/矩阵中所有元素，获取每种类别数据的绝对值最大值，即

通过公式

确定每种类别数据a转换为定点数据的小数点位置s_a。

a.2)、分层分类别寻找绝对值最大值

具体地，第一输入数据向量/矩阵中的每个元素为a_i ^(l)，其中，该a^(l)可为输入神经元X^(l)或输出神经元Y^(l)或权值W^(l)或输入神经元导数

或输出神经元导数

或权值导数

换言之，上述多层网络模型的每层均包括输入神经元、权值、输出神经元、输入神经元导数、权值导数和输出神经元导数。上述第一输入数据的小数点位置包括输入神经元的小数点位置、权值的小数点位置、输出神经元的小数点位置、输入神经元导数的小数点位置、权值导数的小数点位置和输出神经元导数的小数点位置。该输入神经元、权值、输出神经元、输入神经元导数、权值导数和输出神经元导数均以矩阵/向量表示。通过遍历多层网络模型的每层的每种数据的向量/矩阵中的所有元素，获取每种类别数据的绝对值的最大值，即

通过公式：

确定在第l层每种类别数据a的小数点位置

a.3)、分层分类别分组进寻找绝对值最大值

具体地，第一输入数据向量/矩阵中的每个元素为a_i ^(l)，其中a^(l)可为输入神经元X^(l)或输出神经元Y^(l)或权值W^(l)或输入神经元导数

或输出神经元导数

或权值导数

换言之，上述多层网络模型的每层的数据类别包括输入神经元、权值、输出神经元、输入神经元导数、权值导数和输出神经元导数。将上述多层网络模型的每层的每种类型数据分为g组，或者通过其他任意分组规则进行分组。然后遍历上述多层网络模型中每层每种类型数据对应的g组数据中每组数据的每个元素，获取该组数据中绝对值最大的元素，即

通过公式

确定每层中每种数据类别对应的g组数据每组的小数点位置

其中，上述任意分组规则包括但不限定于根据数据范围进行分组、根据数据训练批次进行分组等规则。

b)根据第一输入数据的绝对值最小值初始化该第一输入数据的小数点位置s：

具体地，找到待量化数据的绝对值最小值a_min，通过以下公式确定定点化精度s。

其中，上述a_min为上述第一输入数据的绝对值最小值。获取a_min的过程具体可参见上述步骤a.1)、a.2)、a.3)。

c)根据第一输入数据中不同数据类型间关系初始化定点精度s：

具体地，多层网络模型中的任一层(比如第l层)的数据类型a^(l)的小数点位置

可以由第l层的数据类型b^(l)的小数点位置

根据公式

确定。

其中，a^(l)和b^(l)可为输入神经元X^(l)或输出神经元Y^(l)或权值W^(l)或输入神经元导数

或输出神经元导数

或权值导数

其中，a^(l)和b^(l)为整数常数。

d)根据经验值常量初始化第一输入数据的小数点为孩子s：

具体地，上述多层网络模型的任一层(比如第l层)的数据类型a^(l)的小数点位置s_a ^(l)可人为设定s_a ^(l)＝c，其中c为整数常数，上述a^(l)可为输入神经元X^(l)或输出神经元Y^(l)或权值W^(l)或输入神经元导数

或输出神经元导数

或权值导数

优选地，上述输入神经元的小数点位置初始化值和输出神经元的小数点位置初始化值均可在[-8,8]范围内选取；权值的小数点位置初始化值可在[-17,8]范围内选取，输入神经元导数的小数点位置初始化值和输出神经元导数的小数点位置初始化值均可在[-40,-20]范围内选取。权值导数的小数点位置初始化值可在[-48,-12]范围内选取。

下面具体介绍动态调整数据上述小数点位置s的方法。

动态调整小数点位置s的方法包括向上调整s(s变大)，和向下调整s(s变小)。具体包括根据第一输入数据绝对值最大值单步向上调整；根据第一输入数据绝对值最大值逐步向上调整；根据第一输入数据分布单步向上调整；根据第一输入数据分布逐步向上调整；根据第一输入数据绝对值最大值向下调整。

a)、根据第一输入数据中数据绝对值的最大值单步向上调整：

假设上述小数点位置调整之前为s_old，该小数点位置s_old对应的定点数据可表示数据范围是[neg,pos]。其中，pos＝(2^bitnum-1-1)*2^s_old，neg＝-(2^bitnum-1-1)*2^s_old。当上述第一输入数据中数据绝对值的最大值a_max≥pos时，则调整之后的小数点位置为

否则不调整上述小数点位置，即s_new＝s_old。

b)、根据第一输入数据中数据绝对值的最大值逐步向上调整：

假设上述小数点位置调整之前为s_old，该小数点位置s_old对应的定点数据可表示数据范围是[neg,pos]，其中pos＝(2^bitnum-1-1)*2^s_old，neg＝-(2^bitnum-1-1)*2^s_old。当上述第一输入数据中数据绝对值的最大值a_max≥pos时，则调整之后的小数点位置为s_new＝s_old+1；否则不调整上述小数点位置，即s_new＝s_old。

c)、根据第一输入数据分布单步向上调整：

假设上述小数点位置调整之前为s_old，该小数点位置s_old对应的定点数据可表示数据范围是[neg,pos]，其中pos＝(2^bitnum-1-1)*2^s_old，neg＝-(2^bitnum-1-1)*2^s_old。计算第一输入数据的绝对值的统计量，如绝对值的均值a_mean和绝对值的标准差a_std。设置数据的最大范围a_max＝a_mean+na_std。当a_max≥pos时，

否则不调整上述小数点位置，即s_new＝s_old。

优选地，上述n可取2或者3

d)、根据第一输入数据分布逐步向上调整：

假设上述小数点位置调整之前为s_old，该小数点位置s_old对应的定点数据可表示数据范围是[neg,pos]，其中pos＝(2^bitnum-1-1)*2^s_old，neg＝-(2^bitnum-1-1)*2^s_old。计算第一输入数据的绝对值的统计量，如绝对值的均值a_mean和绝对值的标准差a_std。设置数据的最大范围a_max＝a_mean+na_std，n可取3。当a_max≥pos时，s_new＝s_old+1，否则不调整上述小数点位置，即s_new＝s_old。

e)、根据待量化数据绝对值最大值向下调整：

假设上述小数点位置调整之前为s_old，该小数点位置s_old对应的定点数据可表示数据范围是[neg,pos]，其中pos＝(2^bitnum-1-1)*2^s_old，neg＝-(2^bitnum-1-1)*2^s_old。当第一输入数据的绝对值最大值a_max<2^{s_old+(bitnum-n)}且s_old≥s_min时，s_new＝s_old-1，其中n为整数常数，s_min可以是整数，也可以是负无穷。

优选地，上述n为3，上述s_min为-64。

可选地，对于调整上述小数点位置的频率，可以是永远不调整第一输入数据的小数点位置；或者是每隔n个第一训练周期(即iteration)调整一次，n为常量；或者每隔n个第二训练周期(即epoch)调整一次，n为常量；或者是每隔n个第一训练周期或n个第二训练周期调整一次第一输入数据的小数点位置，每隔n个第一训练周期或第二训练周期调整一次第一输入数据的小数点位置，然后调整n＝αn，其中α大于1；或者是每隔n个第一训练周期或第二训练周期调整一次第一输入数据的小数点位置，随着训练轮数递增，逐渐减小n。

优选地，每隔100个第一训练周期调整一次输入神经元的小数点位置、权值的小数点位置和输出神经元的小数点位置。每隔20个第一训练周期调整一次输入神经元导数的小数点位置和输出神经元导数的小数点位置。

需要说明的是，上述第一训练周期为训练一批次样本所需的时间，第二训练周期为对所有训练样本进行一次训练所需的时间。

需要指出的是，上述计算装置与上述运算装置是同一个装置，两种称呼相互通用。

需要说明的是，上述通过上述数据绝对值的平均值或者中间值初始化和调整上述数据的小数点位置，具体可参见上述通过数据的绝对值的最大值初始化和调整上述数据的小数点位置的相关描述，在此不再叙述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种计算装置，其特征在于，所述计算装置用于执行网络模型的计算，所述网络模型包括：神经网络模型和/或非神经网络模型；所述计算装置包括：运算单元、控制器单元以及存储单元，所述存储单元包括：数据输入输出单元；

所述运算单元，用于根据所述一个或多个运算指令对所述至少一个输入数据执行计算得到计算指令的结果；

所述运算单元，还用于对根据所述一个或多个运算指令对所述至少一个输入数据执行计算过程中得到的一个或多个中间结果不做截断处理。

2.根据权利要求1所述的装置，其特征在于，所述对根据所述一个或多个运算指令对所述至少一个输入数据执行计算过程中得到的一个或多个中间结果不做截断处理的方面，所述运算单元具体用于：

对所述一个或多个中间结果中的定点数据不做截断处理；或者，

对所述一个或多个中间结果中的浮点数据不做截断处理。

3.根据权利要求2所述的装置，其特征在于，所述根据一个或多个运算指令对所述至少一个输入数据执行运算的过程包括n次运算，得到n个中间结果，所述n次运算中包括m次定点运算，所述运算单元对所述一个或多个中间结果中的定点数据不做截断处理，包括：

所述运算单元对所述m次定点运算得到的m个中间结果中的x个中间结果不做截断处理，n为大于0的整数，m为大于0且小于n的整数，x为大于0且小于m的整数。

4.根据权利要求1-3任一项所述的装置，其特征在于，所述一个或多个中间结果的小数点位置为所述一个或多个中间结果中任一个或多个中间结果的小数点位置；

或者，

所述一个或多个中间结果的小数点位置为所述一个或多个中间结果中最后计算得到的中间结果的小数点位置，

或者，

所述运算包括乘法运算，所述一个或多个中间结果的小数点位置为执行所述乘法运算得到的中间结果的小数点位置。

5.根据权利要求1-4任一项所述的装置，其特征在于，所述一个或多个中间结果中的最后一个中间结果为所述计算指令的结果；

当所述最后一个中间结果为定点数据时，所述运算单元根据所述最后一个中间结果的小数点位置将所述最后一个中间结果转换为浮点数据。

6.根据权利要求1-5任一项所述的装置，其特征在于，所述存储单元还包括：

标量数据存储单元，用于存储标量数据；

所述控制器单元包括：

指令缓存单元，用于存储与所述网络模型关联的计算指令；

7.根据权利要求6所述的装置，其特征在于，所述数据输入输出单元还获取数据转换指令，所述数据转换指令包括操作域和操作码，该操作码用于指示所述数据转换指令的功能，所述数据转换指令的操作域包括输入数据的小数点位置和数据类型的转换方式标识；

所述控制器单元还包括：

8.根据权利要求6或7所述的装置，其特征在于，所述运算单元包括：

9.根据权利要求1-8任一项所述的装置，其特征在于，所述运算单元包括：多个运算模块，所述多个运算模块用于执行n个流水级的计算；

10.根据权利要求9所述的装置，其特征在于，所述控制器单元将所述至少一个输入数据的小数点位置发送至所述运算单元，所述运算单元还包括：

11.根据权利要求10所述的装置，其特征在于，所述运算单元还包括：

数据缓存单元，用于缓存所述一个或者多个中间结果。

12.根据权利要求1-8任一项所述的装置，其特征在于，所述运算单元包括一个主处理电路、分支处理电路以及多个从处理电路，

其中，所述至少一个中间结果为浮点数据。

13.根据权利要求1-8任一项所述的装置，其特征在于，所述运算单元包括一个主处理电路以及多个从处理电路；

其中，所述至少一个中间结果为浮点数据。

14.根据权利要求12或13所述的装置，其特征在于，

所述主处理电路，具体用于将多个处理电路发送的中间结果进行组合排序得到该计算指令的结果；

或所述主处理电路，具体用于将多个处理电路的发送的中间结果进行组合排序以及激活处理后得到该计算指令的结果；

其中，所述主处理电路包括：转换处理电路、激活处理电路、加法处理电路中的一种或任意组合；

所述加法处理电路，用于执行加法运算或累加运算。

15.根据权利要求12或13所述的装置，其特征在于，所述从处理电路包括：乘法处理电路和累加处理电路；

所述累加处理电路，用于对该乘积结果执行累加运算得到该中间结果。

16.一种神经网络运算装置，其特征在于，所述神经网络运算装置包括一个或多个如权利要求1-15任一项所述的计算装置，用于从其他处理装置中获取待运算数据和控制信息，并执行指定的神经网络运算，将执行结果通过I/O接口传递给其他处理装置；

当所述神经网络运算装置包含多个所述计算装置时，所述多个所述计算装置间可以通过特定的结构进行连接并传输数据；

其中，多个所述计算装置通过快速外部设备互连总线PCIE总线进行互联并传输数据，以支持更大规模的神经网络的运算；多个所述计算装置共享同一控制系统或拥有各自的控制系统；多个所述计算装置共享内存或者拥有各自的内存；多个所述计算装置的互联方式是任意互联拓扑。

17.一种组合处理装置，其特征在于，所述组合处理装置包括如权利要求16所述的神经网络运算装置，通用互联接口，存储装置和其他处理装置；

所述神经网络运算装置与所述其他处理装置进行交互，共同完成用户指定的计算操作；

存储装置，该存储装置分别与所述神经网络运算装置和所述其他处理装置连接，用于保存所述神经网络运算装置和所述其他处理装置的数据。

18.一种神经网络芯片，其特征在于，所述神经网络芯片包括如权利要求16所述的神经网络运算装置或如权利要求17所述的组合处理装置。

19.一种电子设备，其特征在于，所述电子设备包括如所述权利要求18所述的芯片。

20.一种计算方法，其特征在于，所述方法用于执行网络模型的计算，所述网络模型包括：神经网络模型和/或非神经网络模型，所述方法包括：

对所述计算指令进行译码，以得到一个或者多个运算指令；

根据所述一个或多个运算指令对所述至少一个输入数据执行计算得到一个或多个中间结果，所述一个或多个中间结果中的最后一个中间结果为所述计算指令的结果；

对所述一个或多个中间结果不做截断处理。

21.根据权利要求20所述的方法，其特征在于，所述对所述一个或多个中间结果不做截断处理，包括：

对所述一个或多个中间结果中的浮点数据不做截断处理，或者；

对所述一个或多个中间结果中的定点数据不做截断处理。

22.根据权利要求21所述的方法，其特征在于，所述根据一个或多个运算指令对所述至少一个输入数据执行运算的过程包括n次运算，得到n个中间结果，所述n次运算中包括m次定点运算，所述对所述一个或多个中间结果中的定点数据不做截断处理，包括：

对所述m次定点运算得到的m个中间结果中的x个中间结果不做截断处理，n为大于0的整数，m为大于0且小于n的整数，x为大于0且小于m的整数。

23.根据权利要求20-22任一项所述的装置，其特征在于，所述一个或多个中间结果的小数点位置为所述一个或多个中间结果中任一个或多个中间结果的小数点位置；

或者，

所述运算包括乘法运算，所述一个或多个中间结果的小数点位置为执行所述乘法运算得到的中间结果的小数点位置；或者，

所述方法还包括：

24.根据权利要求20-23任一项所述的方法，其特征在于，

25.根据权利要求20-24任一项所述的方法，其特征在于，当所述至少一个输入数据为浮点数据时，所述方法还包括：