CN112418417B

CN112418417B - 基于simd技术的卷积神经网络加速装置及方法

Info

Publication number: CN112418417B
Application number: CN202011015325.9A
Authority: CN
Inventors: 杨林; 蒋文婷; 王浩枫; 刘洪宇; 李易聪
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2024-02-27
Anticipated expiration: 2040-09-24
Also published as: CN112418417A

Abstract

本发明涉及一种基于SIMD技术的卷积神经网络加速装置及方法，属于嵌入式卷积神经网络加速硬件技术领域。本发明针对当前神经网络应用中的突出矛盾，提出一种基于SIMD技术的神经网络推理加速装置。本发明首先设计一个运算流程，以满足神经网络算法中的全部算子功能，然后面向该计算流程，进行硬件功能单元设计，以软件定义硬件的方式实现系统设计，同时提供较高的性能功耗比和综合运算能力。

Description

基于SIMD技术的卷积神经网络加速装置及方法

技术领域

本发明属于嵌入式卷积神经网络加速硬件技术领域，具体涉及一种基于SIMD技术的卷积神经网络加速装置及方法。

背景技术

卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。

对卷积神经网络的研究始于二十世纪80至90年代，时间延迟网络和LeNet-5是最早出现的卷积神经网络；在二十一世纪后，随着深度学习理论的提出和数值计算设备的改进，卷积神经网络得到了快速发展，并被应用于计算机视觉、自然语言处理等领域。

目前，卷积神经网络在应用中面临的主要问题是神经网络推理需要较大的算力和能源消耗，这一问题在嵌入式神经网络推理应用中，显得尤为突出。

单指令多数据(Single instruction,multiple data，SIMD)是并行计算技术的一类。它描述了具有多个处理元素(multiple processing elements)的计算机，可以在多个数据点(data points)上同时(simultaneously)完成相同的操作。这种机器利用数据级并行(data level parallelism)(不是并发,concurrency):在某一时刻，只有一个指令，但有多个同时发生的(simultaneous)计算(computations)，也即并行计算。SIMD特别适用于一些常见的图像处理类任务，例如：调整数字图像的对比度，图像滤波以及卷积神经网络计算。

一个利用SIMD的应用程序(application)可以在大量数据点上加上或减去相同的值，这是许多多媒体应用的常见操作。例如，修改一个图像的亮度。图像的每个像素由三个值组成，分别表示颜色的红色(R)、绿色(G)和蓝色(B)部分的亮度。为了改变亮度，从内存中(memory)读取R,G和B值，然后从R,G,B中减去或加上一个值(a value)，最后得到的结果值(values)被写回内存。

使用SIMD processor，这个过程会有两个改进。首先，数据是按块理解的，一次可以加载多个值。和普通的一系列指令“取回这个像素，现在再取回下一个像素”不同，SIMDprocessor会发出单个指令“取回n个像素”(此处n是一个数值，由SIMD处理器的设计决定)。由于各种因素，SIMD这种一个指令取回多个像素的方式比传统CPU设计中一个一个地取回像素需要的时间少很多。

另外一个优点时，这个指令会在单个操作中(a single operation)操作(operate)所有加载的数据。换句话说，假如一个SIMD系统一次加载8个数据点，则一个add操作(比如，使值增加1)，会同时作用在8个数上，即这8个数同时加1。

基于SIMD处理技术的神经网络加速方法可以较好的平衡功耗性能以及成本之间的关系，是当前较为实用的一种神经网络加速方法。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何针对当前神经网络应用中的突出矛盾，提出一种基于SIMD技术的神经网络推理加速装置。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于SIMD技术的卷积神经网络加速装置及方法，包括卷积阵列、可编程向量处理单元、数据缓冲区、权重缓冲区、任务分发单元、卷积控制器以及外部存储器；

其中，所述卷积阵列负责根据卷积控制器的硬件微操作指令，实现卷积运算加速，同时兼顾批量规范化BN和ReLU激活功能；

可编程向量处理单元用于通过编程，处理当前神经网络算法中的多种操作；

卷积控制器是所述卷积阵列的控制机构，负责将一个完整的图像卷积运算，自动分解为硬件微操作指令，从而控制卷积阵列实现卷积运算加速；

数据缓冲区用于存储神经网络特征图、卷积阵列的卷积结果和可编程向量处理单元的运算结果参数；

权重缓冲区用于存储卷积权重和其他参数；

任务分发单元用于从外部存储器中读取神经网络算法的可执行代码，并根据当前算子类型调用卷积控制器或可编程向量处理单元实现运算；

若当前算子为卷积，则任务分发模块将该可执行代码中的卷积的相关信息发送给卷积控制器，使得卷积阵列根据卷积控制器的硬件微操作指令，实现卷积运算加速；卷积的相关信息包括神经网络特征图大小、滤波器大小、通道数、神经网络特征图和卷积权重的内存地址；

若当前算子为pooling计算，任务分发单元将pooling任务的可执行代码传送至可编程向量处理单元进行处理；若当前算子为eltwise计算，则任务分发单元将eltwise任务的可执行代码传送至可编程向量处理单元进行处理。

外部存储器用于神经网络算法的可执行代码。

优选地，所述卷积阵列包括若干个SIMD乘累加器、若干个横向求和单元、一个BN单元、一个ReLU单元、一个数据广播单元，若为3x3卷积运算，卷积阵列具体用于根据卷积控制器的硬件微操作指令，首先通过异步DMA将外部存储器中的神经网络特征图和卷积权重分别加载到数据缓冲区和权重缓冲区；然后从数据缓冲区，按照直接卷积方式，读取m个通道的神经网络特征图，神经网络特征图经过数据广播单元，复制成n份，同时从权重缓冲区读取相应的权重数据，进行乘累加运算，每9次乘累加即完成一个二维3*3卷积，若设该层网络输入M个通道，输出N个通道，则M/m*9次乘累加结果在横向求和单元进行横向求和，合并为一个通道的输出，再经过BN单元和ReLU单元，完成一个点位置的三维卷积，卷积结果写回数据缓冲区，再经由异步DMA写回外部存储器，卷积阵列可同时输出n个通道的三维卷积结果，以上过程重复N/n次，则完成一个点位置的全部N个通道卷积计算，对特征图的全部位置执行以上流程，完成一个卷积层的计算。

优选地，若当前算子为pooling计算，可编程向量单元具体用于根据来自任务分发单元的代码指令，依次读取m个通道，k*k个点位的特征图，进行取max运算，结果输出至数据缓冲区，待全部点位的pool运算结束后，再通过异步DMA搬运至外部存储器。

优选地，若当前算子为eltwise计算，则可编程向量单元具体用于根据代码指令，读取m个通道，1个点位的特征图，进行相加运算，结果输出至数据缓冲区，待全部点位的eltwise运算结束后，再通过异步DMA搬运至外部存储器。

优选地，所述可编程向量处理单元是一个SIMD处理器。

优选地，所述外部存储器为高速DRAM存储器。

优选地，所述外部存储器为DDR。

优选地，所述可编程向量处理单元可通过编程，支持当前神经网络算法中的操作包括channel shuffle，pool，eltwise。

本发明还提供了一种利用所述的装置实现的卷积神经网络加速方法，包括以下步骤：

步骤一、任务获取：任务分发单元从外部存储器中读取神经网络算法的可执行代码，并根据当前算子类型调用相应的处理模块进行运算；

步骤二、卷积计算：若当前算子为卷积，则任务分发模块将该卷积的相关信息发送给卷积控制器，卷积控制器根据这些信息，自动生成完整卷积运算所需要的硬件微操作指令，若为3x3卷积运算，卷积阵列根据卷积控制器的硬件微操作指令，首先通过异步DMA将外部存储器中的神经网络特征图和卷积权重分别加载到数据缓冲区和权重缓冲区；然后从数据缓冲区，按照直接卷积方式，读取m个通道的神经网络特征图，神经网络特征图经过数据广播单元，复制成n份，同时从权重缓冲区读取相应的权重数据，进行乘累加运算，每9次乘累加即完成一个二维3*3卷积，若设该层网络输入M个通道，输出N个通道，则M/m*9次乘累加结果在横向求和单元进行横向求和，合并为一个通道的输出，再经过BN和ReLU单元，完成一个点位置的三维卷积，卷积结果写回数据缓冲区，再经由异步DMA写回外部存储器。卷积阵列可同时输出n个通道的三维卷积结果，以上过程重复N/n次，则完成一个点位置的全部N个通道卷积计算，对特征图的全部位置执行以上流程，完成一个卷积层的计算；

Pooling计算：若当前算子为pooling计算，任务分发单元将pooling任务的可执行代码传送至可编程向量处理单元，可编程向量单元根据代码指令，依次读取m个通道，k*k个点位的特征图，进行取max运算，结果输出至数据缓冲区，待全部点位的pool运算结束后，再通过异步DMA搬运至外部存储器；

Eltwise计算：若当前算子为Eltwise计算，Eltwise计算由可编程向量处理单元完成。任务分发单元将Eltwise任务的可执行代码传送至可编程向量处理单元，可编程向量处理单元根据代码指令，读取m个通道，1个点位的特征图，进行相加运算，结果输出至数据缓冲区，待全部点位的eltwise运算结束后，再通过异步DMA搬运至外部存储器。

(三)有益效果

本发明首先设计一个运算流程，以满足神经网络算法中的全部算子功能，然后面向该计算流程，进行硬件功能单元设计，以软件定义硬件的方式实现系统设计，同时提供较高的性能功耗比和综合运算能力。

附图说明

图1为本发明的神经网络加速装置组成框图；

图2为本发明中卷积阵列、数据缓冲区、权重缓冲区框图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提供的一种基于SIMD技术的卷积神经网络加速装置，由卷积阵列、可编程向量处理单元、数据缓冲区、权重缓冲区、任务分发单元、卷积控制器以及外部存储器7个模块组成。

其中，所述卷积阵列包括若干个SIMD乘累加器、若干个横向求和单元、一个BN单元、一个ReLU单元、一个数据广播单元，负责根据卷积控制器的硬件微操作指令，实现卷积运算加速，同时兼顾批量规范化(batchnorm，BN)和ReLU激活功能；以最常见的3x3卷积为例，卷积阵列(图2)根据卷积控制器的硬件微操作指令，首先通过异步DMA将外部存储器中的神经网络特征图和卷积权重分别加载到数据缓冲区和权重缓冲区；然后从数据缓冲区，按照直接卷积方式，读取m个通道的神经网络特征图，神经网络特征图经过数据广播单元，复制成n份，同时从权重缓冲区读取相应的权重数据，进行乘累加运算。每9次乘累加即完成一个二维3*3卷积。若设该层网络输入M个通道，输出N个通道，则M/m*9次乘累加结果在横向求和单元进行横向求和，合并为一个通道的输出，再经过BN单元和ReLU单元，完成一个点位置的三维卷积，卷积结果写回数据缓冲区，再经由异步DMA写回外部存储器。卷积阵列可同时输出n个通道的三维卷积结果。以上过程重复N/n次，则完成一个点位置的全部N个通道卷积计算。对特征图的全部位置执行以上流程，完成一个卷积层的计算。

可编程向量处理单元是一个SIMD处理器，可以通过编程，灵活支持当前神经网络算法中的多种特殊操作，如channel shuffle，pool，eltwise等；若当前算子为pooling计算，可编程向量单元具体用于根据来自任务分发单元的代码指令，依次读取m个通道，k*k个点位的特征图，进行取max运算，结果输出至数据缓冲区，待全部点位的pool运算结束后，再通过异步DMA搬运至外部存储器；若当前算子为eltwise计算，则可编程向量单元具体用于根据代码指令，读取m个通道，1个点位的特征图，进行相加运算，结果输出至数据缓冲区，待全部点位的eltwise运算结束后，再通过异步DMA搬运至外部存储器；

权重缓冲区用于存储卷积权重和其他参数。

若当前算子为卷积，则任务分发模块将该可执行代码中的卷积的相关信息(包括神经网络特征图大小、滤波器大小、通道数、神经网络特征图和卷积权重的内存地址等)发送给卷积控制器，使得卷积阵列根据卷积控制器的硬件微操作指令，实现卷积运算加速；

若当前算子为pooling计算，任务分发单元将pooling任务的可执行代码传送至可编程向量处理单元；若当前算子为eltwise计算，则任务分发单元将eltwise任务的可执行代码传送至可编程向量处理单元。

外部存储器用于神经网络算法的可执行代码，为DDR或其他类型高速DRAM存储器。

基于SIMD技术的卷积神经网络加速装置的工作方式如下:

步骤二、卷积计算：若当前算子为卷积，则任务分发模块将该卷积的相关信息(包括特征图大小，滤波器大小，通道数，特征图和卷积权重的内存地址等)发送给卷积控制器，卷积控制器根据这些信息，自动生成完整卷积运算所需要的硬件微操作指令。以最常见的3x3卷积为例，卷积阵列(图2)根据卷积控制器的硬件微操作指令，首先通过异步DMA将外部存储器中的神经网络特征图和卷积权重分别加载到数据缓冲区和权重缓冲区；然后从数据缓冲区，按照直接卷积方式，读取m个通道的神经网络特征图，神经网络特征图经过数据广播单元，复制成n份，同时从权重缓冲区读取相应的权重数据，进行乘累加运算。每9次乘累加即完成一个二维3*3卷积。若设该层网络输入M个通道，输出N个通道，则M/m*9次乘累加结果在横向求和单元进行横向求和，合并为一个通道的输出，再经过BN和ReLU单元，完成一个点位置的三维卷积，卷积结果写回数据缓冲区，再经由异步DMA写回外部存储器。卷积阵列可同时输出n个通道的三维卷积结果。以上过程重复N/n次，则完成一个点位置的全部N个通道卷积计算。对特征图的全部位置执行以上流程，完成一个卷积层的计算；

Pooling计算：以maxpool为例，pooling计算由可编程向量处理单元完成。任务分发单元将pooling任务的可执行代码传送至可编程向量处理单元，可编程向量单元根据代码指令，依次读取m个通道，k*k个点位的特征图，进行取max运算，结果输出至数据缓冲区，待全部点位的pool运算结束后，再通过异步DMA搬运至外部存储器。

Eltwise计算：以eltwise add为例，eltwise计算由可编程向量处理单元完成。任务分发单元将eltwise任务的可执行代码传送至可编程向量处理单元，可编程向量处理单元根据代码指令，读取m个通道，1个点位的特征图，进行相加运算，结果输出至数据缓冲区，待全部点位的eltwise运算结束后，再通过异步DMA搬运至外部存储器。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于SIMD技术的卷积神经网络加速装置，其特征在于，包括卷积阵列、可编程向量处理单元、数据缓冲区、权重缓冲区、任务分发单元、卷积控制器以及外部存储器；

权重缓冲区用于存储卷积权重和其他参数；

若当前算子为pooling计算，任务分发单元将pooling任务的可执行代码传送至可编程向量处理单元进行处理；若当前算子为eltwise计算，则任务分发单元将eltwise任务的可执行代码传送至可编程向量处理单元进行处理；

外部存储器用于神经网络算法的可执行代码；

所述卷积阵列包括若干个SIMD乘累加器、若干个横向求和单元、一个BN单元、一个ReLU单元、一个数据广播单元，若为3x3卷积运算，卷积阵列具体用于根据卷积控制器的硬件微操作指令，首先通过异步DMA将外部存储器中的神经网络特征图和卷积权重分别加载到数据缓冲区和权重缓冲区；然后从数据缓冲区，按照直接卷积方式，读取m个通道的神经网络特征图，神经网络特征图经过数据广播单元，复制成n份，同时从权重缓冲区读取相应的权重数据，进行乘累加运算，每9次乘累加即完成一个二维3*3卷积，若设该卷积阵列输入M个通道，输出N个通道，则M/m*9次乘累加结果在横向求和单元进行横向求和，合并为一个通道的输出，再经过BN单元和ReLU单元，完成一个点位置的三维卷积，卷积结果写回数据缓冲区，再经由异步DMA写回外部存储器，卷积阵列同时输出n个通道的三维卷积结果，卷积计算过程重复N/n次，则完成一个点位置的全部N个通道卷积计算，对特征图的全部位置执行卷积计算流程，完成一个卷积层的计算。

2.如权利要求1所述的装置，其特征在于，若当前算子为pooling计算，可编程向量单元具体用于根据来自任务分发单元的代码指令，依次读取m个通道，k*k个点位的特征图，进行取max运算，结果输出至数据缓冲区，待全部点位的pool运算结束后，再通过异步DMA搬运至外部存储器。

3.如权利要求1所述的装置，其特征在于，若当前算子为eltwise计算，则可编程向量单元具体用于根据代码指令，读取m个通道，1个点位的特征图，进行相加运算，结果输出至数据缓冲区，待全部点位的eltwise运算结束后，再通过异步DMA搬运至外部存储器。

4.如权利要求1所述的装置，其特征在于，所述可编程向量处理单元是一个SIMD处理器。

5.如权利要求1所述的装置，其特征在于，所述外部存储器为高速DRAM存储器。

6.如权利要求1所述的装置，其特征在于，所述外部存储器为DDR。

7.如权利要求1所述的装置，其特征在于，所述可编程向量处理单元通过编程，支持当前神经网络算法中的操作包括channel shuffle，pool，eltwise。

8.一种利用权利要求1至7中任一项所述的装置实现的卷积神经网络加速方法，其特征在于，包括以下步骤：

步骤二、卷积计算：若当前算子为卷积，则任务分发模块将该卷积的相关信息发送给卷积控制器，卷积控制器根据这些信息，自动生成完整卷积运算所需要的硬件微操作指令，若为3x3卷积运算，卷积阵列根据卷积控制器的硬件微操作指令，首先通过异步DMA将外部存储器中的神经网络特征图和卷积权重分别加载到数据缓冲区和权重缓冲区；然后从数据缓冲区，按照直接卷积方式，读取m个通道的神经网络特征图，神经网络特征图经过数据广播单元，复制成n份，同时从权重缓冲区读取相应的权重数据，进行乘累加运算，每9次乘累加即完成一个二维3*3卷积，若设卷积阵列网络输入M个通道，输出N个通道，则M/m*9次乘累加结果在横向求和单元进行横向求和，合并为一个通道的输出，再经过BN和ReLU单元，完成一个点位置的三维卷积，卷积结果写回数据缓冲区，再经由异步DMA写回外部存储器；卷积阵列同时输出n个通道的三维卷积结果，卷积计算过程重复N/n次，则完成一个点位置的全部N个通道卷积计算，对特征图的全部位置执行卷积计算流程，完成一个卷积层的计算；

Eltwise计算：若当前算子为Eltwise计算，Eltwise计算由可编程向量处理单元完成；任务分发单元将Eltwise任务的可执行代码传送至可编程向量处理单元，可编程向量处理单元根据代码指令，读取m个通道，1个点位的特征图，进行相加运算，结果输出至数据缓冲区，待全部点位的eltwise运算结束后，再通过异步DMA搬运至外部存储器。