CN110858150A

CN110858150A - 一种具有局部实时可重构流水级的运算装置

Info

Publication number: CN110858150A
Application number: CN201810960854.2A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2020-03-03

Abstract

本申请提供了一种具有局部实时可重构流水级的运算装置，涉及芯片技术领域，本申请的具有局部实时可重构流水级的运算装置，通过控制单元解析运算指令得到计算指令，并确定计算指令间的逻辑关系，由运算单元内部的运算路由单元根据逻辑关系构建运算流水级，实现适用于深度学习的局部实时运算流水级重构，再由运算单元根据构建的运算流水级对运算数据进行运算。通过本申请的技术方案，提高了深度学习中数学运算的运算速度，降低了运算系统的访存消耗和时延开销，减小了运算系统对于硬件性能的需求，有利于降低运算系统的制造成本。

Description

一种具有局部实时可重构流水级的运算装置

技术领域

本申请涉及芯片技术领域，具体而言，涉及一种具有局部实时可重构流水级的运算装置。

背景技术

人工智能处理器中，为了提高运算效率，采用流水级的方式进行运算，每一级对应于一种运算方式，如加法运算、乘法运算以及非线性运算。而现有技术中，这种流水级的运算方式是不可重构的，也就是说流水级之间的运算顺序是固定的。对于逻辑关系复杂的运算公式，需要多条计算指令，如在计算(x+y)²时，需要两条计算指令，一条计算x+y，另一条计算x+y和值的平方。运算时每执行一条计算指令都需要访问运算系统内存，导致运算系统访存消耗、时延开销以及运算系统对于硬件性能的需求都比较高，使得运算系统的制造成本较高，不利于人工智能的普及。

发明内容

本申请旨在至少解决现有技术中或相关技术中存在的技术问题之一。

针对上述问题，本申请提出了一种运算装置，有利于减少深度学习中运算指令的数量，降低了运算系统的访存消耗和时延开销，减小了运算系统对于硬件性能的需求。

为了实现上述目的，本发明的第一方面技术方案提供了一种运算装置，包括：运算路由单元和运算模块；运算路由单元用于根据运算指令，构建运算流水级；运算模块用于根据运算指令、运算流水级和预设运算逻辑，计算运算数据。

在上述任一项技术方案中，进一步地，还包括：控制单元；控制单元用于解析运算指令，获取运算指令中的计算指令，并确定计算指令之间的逻辑关系；运算路由单元还用于根据逻辑关系，构建运算流水级。

在上述任一项技术方案中，进一步地，控制单元包括：逻辑关系处理单元；逻辑关系处理单元用于根据运算数据的存储地址，判断基于运算数据的计算指令之间是否存在逻辑关系。

在上述任一项技术方案中，进一步地，控制单元包括：指令缓存单元、指令处理单元和存储队列单元；指令处理单元用于根据运算指令，获取计算指令；指令缓存单元用于存储运算指令；存储队列单元用于当判定计算指令之间存在逻辑关系时，存储运算指令；逻辑关系处理单元还用于根据逻辑关系，调取存储队列单元中的相关计算指令，其中，相关运算指令为存在逻辑关系的计算指令。

在上述任一项技术方案中，进一步地，运算路由单元为交叉开关矩阵。

在上述任一项技术方案中，进一步地，还包括：存储单元；存储单元设置于运算装置的内部，存储单元用于存储运算指令和运算数据。

在上述任一项技术方案中，进一步地，还包括：直接内存访问单元；直接内存访问单元设置于存储单元和运算单元之间，直接内存访问单元用于发送运算数据至运算单元。

在上述任一项技术方案中，进一步地，存储单元具体包括：数据I/O接口，缓存单元以及寄存器；数据I/O接口设置于存储单元的输入端，数据I/O接口用于接收运算指令和运算数据；缓存单元的输入端连接于数据I/O接口的第一输出端，缓存单元的输出端连接于存储单元的第一输出端，缓存单元用于存储运算指令；寄存器的输入端连接于数据I/O接口的第二输出端，寄存器的输出端连接于存储单元的第二输出端，寄存器用于存储运算数据。

在上述任一项技术方案中，进一步地，数据I/O接口可以为I/O引脚。

本发明的第二方面技术方案提供了一种运算服务器，包括本发明第一方面技术方案中的运算装置。

有益效果：

本申请中的技术方案，通过设置控制单元，解析运算指令得到计算指令，并确定计算指令之间的逻辑关系，由运算单元根据逻辑关系构建运算流水级，并对运算数据进行运算，提高了深度学习中数学运算的运算速度，通过在运算单元中设置运算路由单元，对运算流水级进行重构，有利于运算数据在运算单元中进行路由传输，降低了运算系统的访存消耗和时延开销，减小了运算系统对于硬件性能的需求，有利于降低运算系统的制造成本。

在本申请中，通过在控制单元中设置逻辑关系处理单元，由逻辑关系处理单元确定计算指令之间的逻辑关系，将存在逻辑关系的计算指令存储于存储队列单元，根据逻辑关系存储、调取存储队列单元中的相关计算指令，有利于提高局部实时可重构流水级运算装置运算的准确性和可靠性，降低了计算过程中的访存消耗和吞吐量，提高了运算装置的响应速率。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的运算装置的示意框图；

图2是根据本申请的一个实施例的运算单元的示意框图；

图3是根据本申请的另一个实施例的运算单元的示意框图；

图4是根据本申请的一个实施例的运算服务器的示意框图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

如图1所示，根据本申请一个实施例的运算装置100，包括：控制单元10以及运算单元20；

进一步地，运算装置100还包括：存储单元30；存储单元30设置于运算装置100的内部，存储单元30用于存储运算指令和运算数据。

进一步地，存储单元30具体包括：数据I/O接口31，缓存单元32以及寄存器33；数据I/O接口31设置于存储单元30的输入端，数据I/O接口31用于接收运算指令和运算数据；缓存单元32的输入端连接于数据I/O接口31的第一输出端，缓存单元32的输出端连接于存储单元30的第一输出端，缓存单元32用于存储运算指令；寄存器33的输入端连接于数据I/O接口31的第二输出端，寄存器33的输出端连接于存储单元30的第二输出端，寄存器33用于存储运算数据。

具体地，外部设备通过数据I/O接口31向存储单元30发送运算数据、运算指令和网络模型，运算指令传输至缓存单元32，网络模型、运算数据传输至寄存器33。存储单元30再将接收到的运算指令发送至控制单元21，由控制单元21解析运算指令。

其中，运算指令可以为正向运算指令或反向训练指令，或其他神经网络运算指令等，例如卷积运算指令，运算数据包括输入神经元和权值，数据I/O接口31的个数可以为一个或多个。

进一步地，数据I/O接口31也可以为I/O引脚。

在本申请中，进一步地，缓存单元32为高速暂存缓存，寄存器33可以为片外存储器也可以为片内存储器，运算数据为n维数据，n＝0，1，2，3，…，当n＝0时，运算数据为0维张量，即标量，当n＝1时，运算数据为一维向量，当n＝2时，运算数据为矩阵，当n≥3时，运算数据为多维张量。

具体地，运算指令的结构可以如表1所示。

表1

操作码

寄存器或立即数

......

表1中的省略号表示可以包括多个寄存器或立即数。

运算指令的结构还可以如表2所示。

表2

运算指令包括一个或多个操作域以及一个操作码。该运算指令可以包括神经网络运算指令。以神经网络运算指令为例，如表2所示，其中，寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以为操作域。其中，每个寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以是一个或者多个寄存器的号码。

在本实施例中，控制单元10用于解析运算指令，获取运算指令中的计算指令，并确定计算指令之间的逻辑关系；

进一步地，控制单元10包括：逻辑关系处理单元13；逻辑关系处理单元13用于根据运算数据的存储地址，判断基于运算数据的计算指令之间是否存在逻辑关系。

进一步地，控制单元10包括：指令缓存单元11、指令处理单元12和存储队列单元14；指令处理单元12用于根据运算指令，获取计算指令；指令缓存单元11用于存储运算指令；存储队列单元14用于当判定计算指令之间存在逻辑关系时，存储计算指令；逻辑关系处理单元13还用于根据逻辑关系，调取存储队列单元14中的相关计算指令，其中，相关计算指令为存在逻辑关系的计算指令。

具体地，控制单元10将与网络模型关联的运算指令传输至指令处理单元12，指令处理单元12获取运算指令中包含的多个计算指令，并将多个计算指令发送至逻辑关系处理单元13，由逻辑关系处理单元13判断多个计算指令之间是否存在逻辑关系。

在本实施例中，设定第一计算指令所需的运算数据为A矩阵和D矩阵，A矩阵的存储地址为[0001，0FFF]，D矩阵的存储地址为[A000，AFFF]。设定第二计算指令所需的运算数据为A矩阵、B矩阵和C矩阵，对应的存储地址分别为[0001，0FFF]、[1000，1FFF]、[B000，BFFF]。经逻辑关系处理单元13判断，第二计算指令所需运算数据的存储地址与第一计算指令所需运算数据的存储地址具有重叠区域[0001，0FFF]，则判定第一计算指令与第二计算指令之间具有逻辑关系。

相对应地，设定第三计算指令所需运算数据为E矩阵和D矩阵，E矩阵的存储地址为[C000，CFFF]，D矩阵的存储地址为[A000，AFFF]，第三计算指令对于第二计算指令和第一计算指令，其对应的运算数据的存储地址并没有重叠区域，因此，可以判定第三计算指令与第二计算指令和/或第一计算指令之间并不存在逻辑关系。

执行第一计算指令时，经过逻辑关系处理单元13判定第二计算指令与第一计算指令存在逻辑关系，而第三计算指令与第一计算指令不存在逻辑关系，为了不妨碍第三计算指令的发射，则将第二计算指令存储于存储队列单元14中，将第三计算指令存储于指令缓存单元11中，在执行第一计算指令时，可以发射第三计算指令，进而降低了第三计算指令的发射时延，当执行完第一计算指令时，逻辑关系处理单元13从存储队列单元14中调取第一计算指令的相关计算指令，即第二计算指令。

其中，当控制单元10从存储单元30中获取运算指令时，运算指令可以先进入指令缓存单元11、指令处理单元12、逻辑关系处理单元13和存储队列单元14中的任一一个单元，当进入指令缓存单元11、逻辑关系处理单元13或存储队列单元14时，再由进入的单元将运算指令传输至指令处理单元12中。

在本实施例中，运算单元20包括运算路由单元21和运算模块；运算路由单元21用于根据运算指令，构建运算流水级；运算模块用于根据运算指令、运算流水级和预设运算逻辑，计算运算数据，其中，运算指令中包含至少两条计算指令。

进一步地，运算路由单元21还用于根据计算指令之间的逻辑关系，构建运算流水级。

其中，运算流水级是指运算数据在运算电路中的运算顺序，例如在执行(x+y)²的运算指令时，对应于两级运算流水级，一级运算流水级为在加法电路中计算x+y的和值，二级运算流水级为在乘法电路中计算x+y和值对应的乘积。

具体地，如图2所示，设定运算单元20中运算模块的个数为三个，分别为加法电路22、乘法电路23以及激活电路24，运算路由单元21连接于加法电路22、乘法电路23以及激活电路24，当逻辑关系处理单元13判定第一计算指令(加法指令)和第二计算指令(乘法指令)之间存在逻辑关系时，控制单元10将逻辑关系输送至运算路由单元21，运算路由单元21按照计算指令对应的逻辑关系构建流水级，即先执行加法指令再执行乘法指令，则加法电路22先执行完加法指令之后，乘法电路23根据加法电路22的运算结果再执行乘法指令。

以计算(x+y)²为例，现有技术中，需要执行两条计算指令，一条为加法指令，一条为乘法指令，具体地计算过程为：根据接收到的加法指令的操作域获取x，y对应的运算数据，并在加法电路22中执行x+y运算，将中间运算结果缓存至指定的寄存器，再根据接收到的乘法指令在指定的寄存器中读取x+y的中间运算结果，乘法电路32计算中间结果的乘积。

而对于本申请中的可重构流水级，由逻辑关系处理单元13判定x+y的加法指令与(x+y)的乘法指令之间存在逻辑关系，运算路由单元21根据逻辑关系构建先加后乘的流水级，当接收到计算(x+y)²的运算指令之后，由加法电路22执行x+y指令，将中间运算结果传输至乘法电路23，完成(x+y)²的计算。

进一步地，运算路由单元21为交叉开关矩阵302。

具体地，如图3所示，数据输入端301作为交叉开关矩阵302的第一输入端，控制单元10中的计算指令通过数据输入端301传输至交叉开关矩阵302，交叉开关矩阵302的第一输出端通过加法输入端309、乘法输入端310和激活输入端311分别连接于加法器303、乘法器304和激活计算器305，加法器303、乘法器304和激活计算器305的运算结果，分别通过加法输出端306、乘法输出端307和激活输出端308返回至交叉开关矩阵302的第二输入端，交叉开关矩阵302再根据相关计算指令将运算数据(运算结果)发送至加法器303、乘法器304或者激活计算器305，当执行完相关计算指令后，交叉开关矩阵302将计算结果通过与第二输出端相连的数据输出端312输出。

其中，交叉开关矩阵302为4x4交叉开关矩阵。

进一步地，运算装置100还包括：直接内存访问单元40；直接内存访问单元40设置于存储单元30和运算单元20之间，直接内存访问单元40用于发送运算数据至运算单元20。

具体地，通过直接内存访问单元40将运算数据发送至运算单元20，以便运算单元20根据运算数据进行运算，降低运算系统的访存消耗和时延开销。

图4示出了根据本申请的一个实施例的运算服务器的示意框图。

如图4所示，根据本申请的一个实施例的运算服务器500，包括运算装置100。

具体地，设定在执行a*(sigmod(x)+y)操作时，在传统的运算规则下，需要三条指令分别为：sigmod(x)运算、加法运算和乘法运算，平均三拍以上才可以完成，并且其输入/输出数据要多在数据通路中读写两次。当采用本实施例中的可重构流水级的运算装置后，就可以依据指令，重构成激活函数到加法，再到乘法的流水级，从而可以将原本需要三条指令合成一条指令，降低多条指令带来的访存功耗，以及时间开销。

以上结合附图详细说明了本申请的技术方案，本申请提出了一种具有局部实时可重构流水级的运算装置，通过控制单元解析运算指令得到计算指令，并确定计算指令间的逻辑关系，由运算单元内部的运算路由单元根据逻辑关系构建运算流水级，实现适用于深度学习的局部实时运算流水级重构，再由运算单元根据构建的运算流水级对运算数据进行运算。通过本申请的技术方案，有利于降低深度学习中计算指令的发射时延，提高了深度学习中数学运算的运算速度，降低了运算系统的访存消耗和时延开销，减小了运算系统对于硬件性能的需求，有利于降低运算系统的制造成本。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所有的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种运算装置，其特征在于，包括：运算路由单元(21)和运算模块；

所述运算路由单元(21)用于根据运算指令，构建运算流水级；

所述运算模块用于根据所述运算指令、所述运算流水级和预设运算逻辑，计算运算数据。

2.根据权利要求1所述的运算装置，其特征在于，还包括：控制单元(10)；

所述控制单元(10)用于解析所述运算指令，获取所述运算指令中的计算指令，并确定所述计算指令之间的逻辑关系；

所述运算路由单元(21)还用于根据所述逻辑关系，构建所述运算流水级。

3.根据权利要求2所述的运算装置，其特征在于，所述控制单元(10)包括：逻辑关系处理单元(13)；

所述逻辑关系处理单元(13)用于根据所述运算数据的存储地址，判断基于所述运算数据的所述计算指令之间是否存在所述逻辑关系。

4.根据权利要求3所述的运算装置，其特征在于，所述控制单元(10)包括：指令缓存单元(11)、指令处理单元(12)和存储队列单元(14)；

所述指令处理单元(12)用于根据所述运算指令，获取所述计算指令；

所述指令缓存单元(11)用于存储所述运算指令；

所述存储队列单元(14)用于当判定所述计算指令之间存在所述逻辑关系时，存储所述运算指令；

所述逻辑关系处理单元(13)还用于根据所述逻辑关系，调取所述存储队列单元(14)中的相关计算指令，

其中，所述相关运算指令为存在所述逻辑关系的所述计算指令。

5.根据权利要求1所述的运算装置，其特征在于，

所述运算路由单元(21)为交叉开关矩阵(302)。

6.根据权利要求1所述的运算装置，其特征在于，还包括：存储单元(30)；

所述存储单元(30)设置于所述运算装置的内部，所述存储单元(30)用于存储所述运算指令和所述运算数据。

7.根据权利要求6所述的运算装置，其特征在于，还包括：直接内存访问单元(40)；

所述直接内存访问单元(40)设置于所述存储单元(30)和所述运算单元(20)之间，所述直接内存访问单元(40)用于发送所述运算数据至所述运算单元(20)。

8.根据权利要求6所述的运算装置，其特征在于，所述存储单元(30)具体包括：数据I/O接口(31)，缓存单元(32)以及寄存器(33)；

所述数据I/O接口(31)设置于所述存储单元(30)的输入端，所述数据I/O接口(31)用于接收所述运算指令和所述运算数据；

所述缓存单元(32)的输入端连接于所述数据I/O接口(31)的第一输出端，所述缓存单元(32)的输出端连接于所述存储单元(30)的第一输出端，所述缓存单元(32)用于存储所述运算指令；

所述寄存器(33)的输入端连接于所述数据I/O接口(31)的第二输出端，所述寄存器(33)的输出端连接于所述存储单元(30)的第二输出端，所述寄存器(33)用于存储所述运算数据。

9.根据权利要求8所述的运算装置，其特征在于，

所述数据I/O接口(31)可以为I/O引脚。

10.一种运算服务器，其特征在于，所述运算服务器包括如权利要求1至9中任一项所述的运算装置。