CN109086875A

CN109086875A - 一种基于宏指令集的卷积网络加速方法及装置

Info

Publication number: CN109086875A
Application number: CN201810934301.XA
Authority: CN
Inventors: 方兴; 杨宏斌; 刘栩辰
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2018-12-25

Abstract

本发明公开了一种基于宏指令集的卷积网络加速方法，基于卷积网络加速器，所述方法包括：接收主机发送的宏指令集；宏指令集中的每个宏指令中均包括执行不同操作的宏指令参数；通过解析宏指令集中的每个宏指令，实现卷积网络至卷积网络加速器的映射和调度。可见，本发明公开了卷积网络加速器的宏指令集，该宏指令集将卷积网络计算中的各个部分组成一条宏指令，从而实现了不同规格和不同类型的卷积网络到卷积网络加速器硬件的高效映射和调度，简化深度神经网络中卷积网络的映射过程，具有广泛的应用场景。本发明还公开了一种基于宏指令集的卷积网络加速装置，同样能实现上述技术效果。

Description

一种基于宏指令集的卷积网络加速方法及装置

技术领域

本发明涉及卷积网络加速技术领域，更具体地说，涉及一种基于宏指令集的卷积网络加速方法及装置。

背景技术

目前的神经网络加速器设计中，将卷积、池化、归一化等过程作为独立的部件对待，分别设计了独立的指令，多个部件的同时运行和乱序执行会导致调度复杂的问题，并增加了深度神经网络编译和映射的难度。

因此，如何如何简化神经网络中卷积网络的映射及调度过程，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种基于宏指令集的卷积网络加速方法及装置，以简化神经网络中卷积网络的映射及调度过程。

为实现上述目的，本发明实施例提供了如下技术方案：

一种基于宏指令集的卷积网络加速方法，基于卷积网络加速器，所述方法包括：

接收主机发送的宏指令集；所述宏指令集中的每个宏指令中均包括执行不同操作的宏指令参数；

通过解析所述宏指令集中的每个宏指令，实现卷积网络至卷积网络加速器的映射和调度。

其中，所述通过解析所述宏指令集中的每个宏指令，实现卷积网络至卷积网络加速器的映射和调度，包括：

根据宏指令的指令编码，确定宏指令的操作类型；

利用宏指令的操作类型以及宏指令的宏指令参数，实现卷积网络至卷积网络加速器的映射和调度。

其中，所述利用宏指令的操作类型以及宏指令的宏指令参数，实现卷积网络至卷积网络加速器的映射和调度，包括：

若所述操作类型为卷积计算宏指令，则控制卷积网络加速器的卷积网络加速器核，按照宏指令参数执行卷积操作、激活操作、池化操作、量化操作、归一化操作中的至少一者。

若所述操作类型为数据操作指令，则利用DMA部件对宏指令参数中指定的地址空间执行数据操作；所述数据操作包括数据切分操作、数据连接操作、数据整形操作中的至少一者。

若所述操作类型为主机交互指令，则利用卷积网络加速器的自身执行状态与主机执行交互操作。

一种基于宏指令集的卷积网络加速装置，基于卷积网络加速器，所述装置包括：

宏指令集接收模块，用于接收主机发送的宏指令集；所述宏指令集中的每个宏指令中均包括执行不同操作的宏指令参数；

执行模块，用于通过解析所述宏指令集中的每个宏指令，实现卷积网络至卷积网络加速器的映射和调度。

其中，所述执行模块，包括：

操作类型确定单元，用于根据宏指令的指令编码确定宏指令的操作类型；

执行单元，用于利用宏指令的操作类型以及宏指令的宏指令参数，实现卷积网络至卷积网络加速器的映射和调度。

其中，所述执行单元，包括：

第一操作执行子单元，用于所述操作类型为卷积计算宏指令时，控制卷积网络加速器的卷积网络加速器核，按照宏指令参数执行卷积操作、激活操作、池化操作、量化操作、归一化操作中的至少一者。

其中，所述执行单元，包括：

第二操作执行子单元，用于所述操作类型为数据操作指令时，利用DMA部件对宏指令参数中指定的地址空间执行数据操作；所述数据操作包括数据切分操作、数据连接操作、数据整形操作中的至少一者。

其中，所述执行单元，包括：

第三操作执行子单元，用于所述操作类型为主机交互指令时，利用卷积网络加速器的自身执行状态与主机执行交互操作。

通过以上方案可知，本发明实施例提供的一种基于宏指令集的卷积网络加速方法，基于卷积网络加速器，所述方法包括：接收主机发送的宏指令集；宏指令集中的每个宏指令中均包括执行不同操作的宏指令参数；通过解析宏指令集中的每个宏指令，实现卷积网络至卷积网络加速器的映射和调度。

可见，本发明公开了卷积网络加速器的宏指令集，该宏指令集将卷积网络计算中的各个部分组成一条宏指令，从而实现了不同规格和不同类型的卷积网络到卷积网络加速器硬件的高效映射和调度，简化深度神经网络中卷积网络的映射过程，具有广泛的应用场景。

本发明还公开了一种基于宏指令集的卷积网络加速装置，同样能实现上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种基于宏指令集的卷积网络加速方法流程示意图；

图2为本发明实施例公开的卷积网络加速器的宏指令集的目标运行平台示意图；

图3为本发明实施例公开的种基于宏指令集的卷积网络加速装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于宏指令集的卷积网络加速方法及装置，以简化神经网络中卷积网络的映射及调度过程。

参见图1，本发明实施例提供的一种基于宏指令集的卷积网络加速方法，基于卷积网络加速器，所述方法包括：

S101、接收主机发送的宏指令集；所述宏指令集中的每个宏指令中均包括执行不同操作的宏指令参数；

具体的，本实施例提出了卷积网络加速器的宏指令集，该宏指令集最显著的特点是将卷积网络计算中的各个部分组合成一条宏指令。每条宏指令根据自身编码的不同，执行不同类型的操作。

参见图2，为本方案提出的卷积网络加速器的宏指令集的目标运行平台示意图，在进行卷积网络加速时，主机将由宏指令集构成的指令序列写入加速器的主存中，加速器中的控制器从指定位置加载指令序列，根据指令序列控制卷积网络加速器核的运行、数据分布与重组，以及向主机返回执行状态等操作。可以理解的是，本方案中的S101中的接收主机发送的宏指令集，具体是指将主机发送的宏指令集存入内存中，在执行宏指令时，通过从内存中的指定位置加载与宏指令对应的指令序列，从而实现通过一条宏指令来执行不同操作。

S102、通过解析所述宏指令集中的每个宏指令，实现卷积网络至卷积网络加速器的映射和调度。

根据宏指令的指令编码，确定宏指令的操作类型；

具体的，每个宏指令会有各自的指令编码，不同指令编码对应不同的宏指令；因此在本实施例中，通过宏指令中的指令编码确定宏指令的操作类型，根据该操作类型来执行该宏指令，从而实现了卷积网络至卷积网络加速器的映射和调度。

可以看出，现有技术中将卷积、池化、归一化等过程作为独立的部件对待，分别设计独立的指令，这样会存在成千上万的指令，多个部件的同时运行和乱序执行会导致调度复杂的问题，并且增加了深度神经网络编译和映射的难度。而在本申请中，提出了卷积网络加速器的宏指令集，该宏指令集可以支持不同规格和不同类型的卷积网络到网络加速器硬件的高效映射和调度，是一种高效的软硬件接口，简化卷积网络的映射过程。并且可以支持深度学习应用的快速自适应部署。

基于上述实施例，在本实施例中，将宏指令分为三类：第一类是卷积计算宏指令，第二类是数据操作指令，第三类是主机交互指令；因此本方案利用宏指令的操作类型以及宏指令的宏指令参数，实现卷积网络至卷积网络加速器的映射和调度时，具体包括以下三种情况：

情况一：若所述操作类型为卷积计算宏指令，则控制卷积网络加速器的卷积网络加速器核，按照宏指令参数执行卷积操作、激活操作、池化操作、量化操作、归一化操作中的至少一者。

情况二：若所述操作类型为数据操作指令，则利用DMA部件对宏指令参数中指定的地址空间执行数据操作；所述数据操作包括数据切分操作、数据连接操作、数据整形操作中的至少一者。

情况三：若所述操作类型为主机交互指令，则利用卷积网络加速器的自身执行状态与主机执行交互操作。

具体的，参见表1，为本方案提供的宏指令参数定义表；参见表2，为本方案提供的宏指令集编码表，通过表2可以看出，卷积计算宏指令、数据操作指令、主机交互指令中均包括不同的指令编码，例如：卷积计算宏指令的指令编码为：0x00、0x01、0x02、0x03、0x04、0x05、0x06、0x07、0x08、0x09、0x0A、0x0B、0x0C、0x0D、0x0E、0x0F，因此如果解析到宏指令的编码为在上述指令编码中的任意一个，则确定该宏指令为卷积计算宏指令。

通过表2中宏指令的指令功能可以看出，卷积计算宏指令主要是根据指令编码控制卷积网络加速器执行不同类型的卷积、激活、池化、量化、归一化操作，以满足不同类型卷积网络的运算需求，因此卷积网络加速器中的控制器根据宏指令的指令编码对宏指令进行解析时，如果宏指令是卷积计算宏指令，那么控制器控制卷积网络加速器核按给定的参数执行相应的命令。

通过表2可以看出，如果解析到宏指令的编码为：0x13、0x14、0x15、0x16中的任意一个，则确定该宏指令为数据操作指令，那么控制器利用DMA(直接内存访问部件，DirectMemory Access)部件对指定的地址空间进行操作，例如执行数据的切分、连接、数据整形等操作，从而为进行卷积网络运算的数据做准备。

通过表2可以看出，如果解析到宏指令的编码为：0x10、0x11、0x12中的任意一个，则确定该宏指令为主机交互指令，那么控制器根据加速器自身的执行状态与主机进行交互，接受主机命令或通知主机执行结束。

表1参数定义表

宏指令集的完整定义如表2所示：

表2宏指令集编码

具体来说，本方案中的指令编码形式如表3所示。当指令的参数长度不超过基本指令长度时，采用一个指令行来存储指令。如果指令的参数长度超过基本指令长度时，另外采用一个指令行来保存补充参数，该行以保留的“0x3F”开头，以与正常的指令进行分开。

表3指令编码

综上可以看出，本发明提出的卷积网络加速器的宏指令集，可以作为深度神经网络加速器的软硬件接口定义，向上提供了良好的硬件抽象，向下可以指导硬件加速器的高效设计和实现，具有广泛的应用前景。

下面对本发明实施例提供的卷积网络加速装置进行介绍，下文描述的卷积网络加速装置与上文描述的卷积网络加速方法可以相互参照。

参见图3，本发明实施例提供的一种基于宏指令集的卷积网络加速装置，基于卷积网络加速器，所述装置包括：

宏指令集接收模块100，用于接收主机发送的宏指令集；所述宏指令集中的每个宏指令中均包括执行不同操作的宏指令参数；

执行模块200，用于通过解析所述宏指令集中的每个宏指令，实现卷积网络至卷积网络加速器的映射和调度。

其中，所述执行模块，包括：

其中，所述执行单元，包括：

本发明还公开了一种基于宏指令集的卷积网络加速设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述实施例中基于宏指令集的卷积网络加速方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中基于宏指令集的卷积网络加速方法的步骤。

其中，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

综上可以看出，本发明提出的卷积网络加速器的宏指令集，作为深度神经网络加速器的软硬件接口定义时，支持ASIC和FPGA上卷积网络加速器的软硬件划分，配合深度神经网络加速器硬件和深度神经网络编译器，可以实现用于预训练的深度学习网络到深度神经网络加速器硬件上的快速部署，简化用户的部署环节和时间成本。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于宏指令集的卷积网络加速方法，其特征在于，基于卷积网络加速器，所述方法包括：

2.根据权利要求1所述的卷积网络加速方法，其特征在于，所述通过解析所述宏指令集中的每个宏指令，实现卷积网络至卷积网络加速器的映射和调度，包括：

根据宏指令的指令编码，确定宏指令的操作类型；

3.根据权利要求2所述的卷积网络加速方法，其特征在于，所述利用宏指令的操作类型以及宏指令的宏指令参数，实现卷积网络至卷积网络加速器的映射和调度，包括：

4.根据权利要求2所述的卷积网络加速方法，其特征在于，所述利用宏指令的操作类型以及宏指令的宏指令参数，实现卷积网络至卷积网络加速器的映射和调度，包括：

5.根据权利要求2所述的卷积网络加速方法，其特征在于，所述利用宏指令的操作类型以及宏指令的宏指令参数，实现卷积网络至卷积网络加速器的映射和调度，包括：

6.一种基于宏指令集的卷积网络加速装置，其特征在于，基于卷积网络加速器，所述装置包括：

7.根据权利要求6所述的卷积网络加速装置，其特征在于，所述执行模块，包括：

8.根据权利要求7所述的卷积网络加速装置，其特征在于，所述执行单元，包括：

9.根据权利要求7所述的卷积网络加速装置，其特征在于，所述执行单元，包括：

10.根据权利要求7所述的卷积网络加速装置，其特征在于，所述执行单元，包括：