CN115437689A

CN115437689A - 一种深度学习加速核及基于其的深度学习片上系统

Info

Publication number: CN115437689A
Application number: CN202211085151.2A
Authority: CN
Inventors: 林广栋; 陆俊峰; 黄光红; 刘小明
Original assignee: Anhui Core Century Technology Co ltd
Current assignee: Anhui Core Century Technology Co ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-12-06

Abstract

本发明公开了一种深度学习加速核及基于其的深度学习片上系统，深度学习加速核主要由运算管理单元、指令控制单元、存储器构成；运算管理单元内设数据传输仲裁选择逻辑单元以及各种运算单元；存储器将输入数据或权重数据经过数据传输仲裁选择逻辑单元传输至对应运算单元，各个运算单元将运算结果经过数据传输仲裁选择逻辑单元写入存储器；指令控制单元用于读取指令并完成指令分发，存储器和运算管理单元根据前一指令的执行时长以及该指令与其他指令间的依赖关系确定当前指令的执行时间。深度学习加速核内设各种运算单元，可以根据特定计算模式的特点，利用数据的复用性，设计内部电路，减少数据反复导入、导出的次数，减少不必要的能量消耗。

Description

一种深度学习加速核及基于其的深度学习片上系统

技术领域

本发明涉及深度学习技术领域，尤其是一种深度学习加速核及基于其的深度学习片上系统。

背景技术

深度学习是近年来新兴的人工智能技术，也是目前研究和创新的热点。现如今，深度学习技术在计算机视觉、语音识别、自然语言处理等领域均获得巨大成功，其性能远超这些领域的传统方法。然而，深度学习的参数量及计算量极大，通常参数量能够可达上百兆字节的量级，计算量可达几十到几百GFLOPS的量级，如此之大的参数量及计算量，在传统CPU上是无法实现实时处理的(实时处理要求至少25FPS以上，即每秒推理25次以上)。

边缘侧应用不但对处理器的深度学习模型处理速度提出很高要求，而且对处理器的能耗有很强的限制；因此，研发新型人工智能处理器成为必需。这种新型人工智能处理器一方面需要提高算力，满足深度学习模型推理的实时需求；另一方面需要提高能效，满足边缘侧设备对芯片的功耗要求。

传统处理器，如CPU、DSP，一般采用冯诺依曼或哈弗结构，处理器中设置寄存器，由指令控制数据传输到寄存器，再由指令控制运算部件读取寄存器中的数据执行运算。此类架构的特点是比较灵活，每个指令完成一种非常基本的操作(如加法、减法、乘法、搬运一个或若干个数据)，各种指令组合起来可以实现各种各样的功能，从而使得处理器可以实现丰富的软件，并在软件控制下完成各种丰富的功能。

但此类架构不太适用于对算力要求很高的人工智能芯片领域，原因有两个：

第一，大算力的人工智能芯片，其运算器件必然很多，因为算力是由具体的运算器件(如乘法器、乘累加器等)实现的。大量的运算器件全部工作时，必然需要大量的数据；这些数据需要在每一个工作周期由存储数据的硬件位置(寄存器或存储器)搬运到运算器件；而传统CPU、DSP使用指令驱动数据，使用指令控制需要的数据从寄存器(或存储器)传输到运算器件；显然，当处理器算力提升到很高时，需要大量数据由存储位置搬运到运算单位，这种处理方式是非常低效的。

第二，人工智能计算领域，存在一种现象，即一份数据会在一次计算中多次使用，例如，在多输入通道、多输出通道的二维卷积计算中，卷积核的权重会被反复使用，输入特征图在计算不同输出通道的卷积结果时也会被反复使用；如果不考虑这种数据的复用性，会导致数据反复从存储数据的位置(寄存器或存储器)导入到运算单元，造成不必要的能量消耗；而CPU、DSP是为通用计算设计的，其指令和运算单元都设计为执行基本的计算操作(如加法、减法、乘法、搬运一个或若干个数据)，并未考虑深度学习模型训练这种特定领域的数据复用性，因而，利用传统CPU、DSP进行深度学习模型训练会造成数据反复搬移，造成能量的不必要消耗。

发明内容

针对传统CPU、DSP为代表的指令流处理器不太适用于对算力、能效要求非常高的深度学习应用场景的问题，本发明提出一种深度学习加速核及基于其的深度学习片上系统。

本发明保护一种深度学习加速核，主要由运算管理单元、指令控制单元、存储器构成；

所述运算管理单元内设数据传输仲裁选择逻辑单元以及各种运算单元，各种运算单元包括不限于矩阵运算单元、最大池化运算单元、softmax运算单元、激活函数运算单元、向量运算单元、稀疏运算单元、二值神经网络运算单元；

所述存储器与所述数据传输仲裁选择逻辑单元双向连接，所述数据传输仲裁选择逻辑单元与各个运算单元双向连接，所述存储器将输入数据或权重数据经过所述数据传输仲裁选择逻辑单元传输至对应运算单元，各个运算单元将运算结果经过所述数据传输仲裁选择逻辑单元写入所述存储器；

所述指令控制单元用于读取指令并完成指令分发，所述存储器和所述运算管理单元根据前一指令的执行时长以及该指令与其他指令间的依赖关系确定当前指令的执行时间，该指令与其他指令间的依赖关系符合指令执行的顺序要求。

进一步的，所述存储器采用ping-pang结构，即包含存储器ping和存储器pang；所述存储器ping和所述存储器pang均包含三个存储阵列；在执行矩阵乘法时，三个存储阵列分别用于存储左矩阵数据、右矩阵数据和结果矩阵数据；在执行二维卷积计算时，三个存储阵列分别用于存储输入特征图数据、卷积核权重数据和输出特征图数据。

进一步的，该指令与其他指令间的依赖关系通过指令中的依赖关系标志位及其之间的逻辑关系实现，标志位包括依赖标志位和通知标志位，依赖标志位包括依赖存储器ping标志、依赖存储器pang标志、依赖计算单元标志，通知标志位包括通知存储器ping标志、通知存储器pang标志、通知计算单元标志；若一条指令不需要依赖任何指令便可以执行，则该指令的依赖标志位均配置为0；若一条指令何时执行完毕不会影响到其他任何指令，则该指令的通知标志位均配置为0。

进一步的，若运算管理单元收到的指令中依赖存储器ping标志＝1，则该指令必须接收到存储器ping发来的通知后才执行，而存储器ping只有在正在执行的执行中通知计算单元标志＝1并已经执行完毕时，才会向运算管理单元发送通知；

若运算管理单元收到的指令中依赖存储器pang标志＝1，则该指令必须接收到存储器pang发来的通知后才执行，而存储器pang只有在正在执行的执行中通知计算单元标志＝1并已经执行完毕时，才会向运算管理单元发送通知；

若存储器ping收到的指令中依赖计算单元标志＝1，则该指令必须接收到运算管理单元发来的通知后才执行，而运算管理单元只有在正在执行的执行中通知存储器ping标志＝1并已经执行完毕时，才会向存储器ping发送通知；

若存储器pang收到的指令中依赖计算单元标志＝1，则该指令必须接收到运算管理单元发来的通知后才执行，而运算管理单元只有在正在执行的执行中通知存储器pang标志＝1并已经执行完毕时，才会向存储器pang发送通知。

进一步的，所述运算管理单元、所述存储器ping、所述存储器pang均设置指令队列和指令解析逻辑单元；所述指令队列用于接收所述指令控制单元传输来的指令并传输至所述指令解析逻辑单元，所述指令解析逻辑单元用于指令解析并对该指令与其他指令间的依赖关系进行逻辑判断和控制。

本发明还保护一种深度学习片上系统，包括CPU、存储系统和上述深度学习加速核；CPU解析深度学习模型结构和权重参数文件，并将输入数据及权重存放在深度学习加速核可以访问到的位置，再根据硬件特点及深度学习模型结构生成指令，并发送至深度学习加速核，然后等待指令执行结束后，深度学习加速核反馈的中断，再进行后续处理。

本发明的有益效果：

1、深度学习加速核内设各种运算单元，每个运算单元负责一种深度学习模型推理领域的常用计算，可以根据特定计算模式的特点，利用数据的复用性，设计内部电路，减少数据反复导入、导出的次数，减少不必要的能量消耗，提高能效；

2、通过指令间依赖机制，使得各指令的执行按照数据依赖关系顺序执行，当数据未准备好时，或数据存储位置暂时被占用时，暂缓指令的执行；

3、数据由存储器直接传输到计算单元，满足大算力人工智能芯片对数据的需求；

4、存储器采用ping-pang结构，提高了数据传输与计算的并行性。

附图说明

图1为实施例1公开的深度学习加速核的结构框图；

图2为实施例2公开的深度学习片上系统的结构框图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

实施例1

一种深度学习加速核，主要由运算管理单元、指令控制单元、存储器ping、存储器pang构成，如图1所示，其中虚线表示控制信息传递线路，实线表示数据信息传递线路。

所述运算管理单元内设数据传输仲裁选择逻辑单元以及各种运算单元，各种运算单元包括不限于矩阵运算单元、最大池化运算单元、softmax运算单元、激活函数运算单元、向量运算单元、稀疏运算单元、二值神经网络运算单元，即每个运算单元负责一种深度学习模型推理领域的常用计算。如此设置的优点是，每个运算单元可以根据特定计算模式的特点，利用数据的复用性，设计内部电路，减少数据反复导入、导出的次数，减少不必要的能量消耗，提高能效。具体每种运算单元的内部电路构造，属于现有技术，不是本发明讨论的核心问题，此处不予赘述。

所述存储器ping和所述存储器pang与所述数据传输仲裁选择逻辑单元双向连接，所述数据传输仲裁选择逻辑单元与各个运算单元双向连接，所述存储器ping和所述存储器pang将输入数据经过所述数据传输仲裁选择逻辑单元传输至对应运算单元，各个运算单元将运算结果经过所述数据传输仲裁选择逻辑单元写入所述存储器ping和所述存储器pang。

存储器采用ping-pang结构的主要目的在于，提高数据传输与计算的并行性。当存储器ping用于向运算管理单元提供数据并接收运算管理单元的运算结果时，存储器pang可以从深度学习加速外部某位置加载新数据或将计算结果写入到外部存储器；同样，当存储器pang用于向运算管理单元提供数据并接收计算单元管理单元的运算结果时，存储器ping可以从深度学习加速外部某位置加载新数据或将运算结果写入到外部存储器。

所述指令控制单元用于读取指令并完成指令分发，所述存储器ping、所述存储器pang和所述运算管理单元根据前一指令的执行时长以及该指令与其他指令间的依赖关系确定当前指令的执行时间，该指令与其他指令间的依赖关系符合指令执行的顺序要求。

设置这种指令间的依赖关系的必要性在于，指令的执行是有一定顺序要求的，例如，一条计算指令需要读取存储器ping中的数据，则该指令必须等到向存储器ping加载数据指令完成后才可以执行，而向存储器ping加载数据指令的执行时间长度是不固定的(由加载数据的大小确定)；又如，一条计算指令需要读取存储器ping中的数据，则在该指令的执行过程中，存储器ping不应该执行新的加载数据指令，以避免覆盖存储器ping中计算单元正在使用的数据，而该计算指令的执行时间长度是不固定的(由计算的模式、数据的长度确定)。因此，通过这种指令间依赖机制，才能保证指令的正常执行。

在本实施例中，该指令与其他指令间的依赖关系通过指令中的依赖关系标志位及其之间的逻辑关系实现，标志位包括依赖标志位和通知标志位。

若一条指令不需要依赖任何指令便可以执行，则该指令的依赖标志位均配置为0；若一条指令何时执行完毕不会影响到其他任何指令，则该指令的通知标志位均配置为0。

具体的，在本实施例中，依赖标志位包括依赖存储器ping标志、依赖存储器pang标志、依赖计算单元标志，通知标志位包括通知存储器ping标志、通知存储器pang标志、通知计算单元标志，并进一步限定标志位及其之间的逻辑关系如下：

1、若运算管理单元收到的指令中依赖存储器ping标志＝1，则该指令必须接收到存储器ping发来的通知后才执行，而存储器ping只有在正在执行的指令中通知计算单元标志＝1并已经执行完毕时，才会向运算管理单元发送通知；

2、若运算管理单元收到的指令中依赖存储器pang标志＝1，则该指令必须接收到存储器pang发来的通知后才执行，而存储器pang只有在正在执行的指令中通知计算单元标志＝1并已经执行完毕时，才会向运算管理单元发送通知；

3、若存储器ping收到的指令中依赖计算单元标志＝1，则该指令必须接收到运算管理单元发来的通知后才执行，而运算管理单元只有在正在执行的指令中通知存储器ping标志＝1并已经执行完毕时，才会向存储器ping发送通知；

4、若存储器pang收到的指令中依赖计算单元标志＝1，则该指令必须接收到运算管理单元发来的通知后才执行，而运算管理单元只有在正在执行的指令中通知存储器pang标志＝1并已经执行完毕时，才会向存储器pang发送通知。

基于上述深度学习加速核构架，深度学习加速核指令与传统CPU、DSP指令不同之处在于以下两点：

1、本发明提出的深度学习加速核内不包含通用寄存器，因此指令中不会指定对具体寄存器进行操作，只会指定数据在存储器中的存储位置。

2、指令的执行时机与执行顺序并不是固定的，指令控制单元读取指令后，分发给其他模块，即运算管理单元、存储器ping、存储器pang；这些模块何时执行指令无法直接确定，而是由前一指令的执行时长、该指令与其他指令间的依赖关系确定。

每条指令的执行时间长度也不是固定的，而是由该指令的操作复杂度决定。例如，若该指令是矩阵乘法指令，则该指令的执行时间长度与矩阵尺寸成正比例关系；若该指令是二维卷积指令，则指令的执行时间长度与卷积层输入通道数、输出通道数、输入特征图高度、输入特征图宽度都成正比例关系，可能是100个周期，也可能是10万个周期。

针对深度学习涉及到的各种运算主要有矩阵乘法和二维卷积两种，因此，在本实施例中，所述存储器ping和所述存储器pang均包含三个存储阵列(物理上的划分)。

在执行矩阵乘法时，三个存储阵列分别用于存储左矩阵数据、右矩阵数据和结果矩阵数据；在执行二维卷积计算时，三个存储阵列分别用于存储输入特征图数据、卷积核权重数据和输出特征图数据。

具体的，在本实施例中，所述运算管理单元、所述存储器ping、所述存储器pang均设置指令队列和指令解析逻辑单元(存储器ping、存储器pang结构框图中未示出)。

所述指令队列用于接收所述指令控制单元传输来的指令并传输至所述指令解析逻辑单元，所述指令解析逻辑单元用于指令解析并对该指令与其他指令间的依赖关系进行逻辑判断和控制，并传输至所述所述数据传输仲裁选择逻辑单元。

所述数据传输仲裁选择逻辑单元接收存储器ping与存储器pang传输来的数据，根据当前正在执行的指令，仲裁后选择将数据传输至对应的运算单元，完成相应运算。

运算单元完成相应运算后，再将运算结果传输至所述数据传输仲裁选择逻辑单元，所述数据传输仲裁选择逻辑单元将运算结果传输至当前指令指定的存储器块(即存储位置)。

此外，图1中的DMAC(英文全称Direct MemoryAccess Controller)，是指存储器直接传输控制器，通常用于完成数据传输功能；AXI Master、AHB Slave为总线协议，但实际应用中并不局限于此类片上总线协议，也可以使用其他协议。

实施例2

一种深度学习片上系统，如图2所示，包括CPU、存储系统和实施例1公开的深度学习加速核。

实施例1公开的深度学习加速核无法独立工作，需要与CPU配合才能完成深度学习模型的推理。

CPU解析深度学习模型结构和权重参数文件，并将输入数据及权重存放在深度学习加速核可以访问到的位置，再根据硬件特点及深度学习模型结构生成指令并发送至深度学习加速核，然后等待指令执行结束后，深度学习加速核反馈的中断，再进行后续处理。

由于指令可以完成一个完整的深度学习模型的推理，也可以完成部分层的推理。当完成部分层的推理时，深度学习加速核产生中断后，由CPU根据深度学习模型结构再生成执行后续层的指令，发送给深度学习加速核，完成后续层的推理。

深度学习加速核根据指令中指定的位置，到存储器中获取输入数据及权重，执行运算，生成运算结果，再写回到存储器。

CPU和深度学习加速核都可以访问到的存储系统，可以是芯片外的DDR，也可以是片上存储器。存储系统是CPU与深度学习加速核之间传输数据的中间介质，数据不会由CPU直接传输给深度学习加速核。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

Claims

1.一种深度学习加速核，其特征在于，主要由运算管理单元、指令控制单元、存储器构成；

2.根据权利要求1所述的深度学习加速核，其特征在于，所述存储器采用ping-pang结构，即包含存储器ping和存储器pang。

3.根据权利要求2所述的深度学习加速核，其特征在于，所述存储器ping和所述存储器pang均包含三个存储阵列；

在执行矩阵乘法时，三个存储阵列分别用于存储左矩阵数据、右矩阵数据和结果矩阵数据；

在执行二维卷积计算时，三个存储阵列分别用于存储输入特征图数据、卷积核权重数据和输出特征图数据。

4.根据权利要求2所述的深度学习加速核，其特征在于，该指令与其他指令间的依赖关系通过指令中的依赖关系标志位及其之间的逻辑关系实现，标志位包括依赖标志位和通知标志位，依赖标志位包括依赖存储器ping标志、依赖存储器pang标志、依赖计算单元标志，通知标志位包括通知存储器ping标志、通知存储器pang标志、通知计算单元标志；

5.根据权利要求4所述的深度学习加速核，其特征在于，

若运算管理单元收到的指令中依赖存储器ping标志＝1，则该指令必须接收到存储器ping发来的通知后才执行，而存储器ping只有在其正在执行的指令中通知计算单元标志＝1并已经执行完毕时，才会向运算管理单元发送通知；

若运算管理单元收到的指令中依赖存储器pang标志＝1，则该指令必须接收到存储器pang发来的通知后才执行，而存储器pang只有在其正在执行的指令中通知计算单元标志＝1并已经执行完毕时，才会向运算管理单元发送通知；

若存储器ping收到的指令中依赖计算单元标志＝1，则该指令必须接收到运算管理单元发来的通知后才执行，而运算管理单元只有在其正在执行的指令中通知存储器ping标志＝1并已经执行完毕时，才会向存储器ping发送通知；

若存储器pang收到的指令中依赖计算单元标志＝1，则该指令必须接收到运算管理单元发来的通知后才执行，而运算管理单元只有在其正在执行的指令中通知存储器pang标志＝1并已经执行完毕时，才会向存储器pang发送通知。

6.根据权利要求5所述的深度学习加速核，其特征在于，所述运算管理单元、所述存储器ping、所述存储器pang均设置指令队列和指令解析逻辑单元；

所述指令队列用于接收所述指令控制单元传输来的指令并传输至所述指令解析逻辑单元，所述指令解析逻辑单元用于指令解析并对该指令与其他指令间的依赖关系进行逻辑判断和控制。

7.一种深度学习片上系统，其特征在于，包括CPU、存储系统和权利要求1-5任意一项所述的深度学习加速核；

CPU解析深度学习模型结构和权重参数文件，并将输入数据及权重存放在深度学习加速核可以访问到的位置，再根据硬件特点及深度学习模型结构生成指令，并发送至深度学习加速核，然后等待指令执行结束后深度学习加速核反馈的中断，再进行后续处理。