CN108595379A

CN108595379A - 一种基于多级缓存的并行化卷积运算方法及系统

Info

Publication number: CN108595379A
Application number: CN201810432242.6A
Authority: CN
Inventors: 周玉山; 段成德; 于治楼
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-09-28

Abstract

本发明公开了一种基于多级缓存的并行化卷积运算方法及系统，属于神经网络技术领域。本发明的基于多级缓存的并行化卷积运算方法，所述并行化卷积运算方法在进行卷积运算时，首先进行数据缓存，当卷积计算阵列的数据准备完成时送入并行卷积核完成卷积运算。该发明的基于多级缓存的并行化卷积运算方法针对卷积运算中不同规模的卷积核来设计不同级的缓存FIFO，在时序上严格对准输入数据量满足卷积运算的时间点，具有很好的推广应用价值。

Description

一种基于多级缓存的并行化卷积运算方法及系统

技术领域

本发明涉及神经网络技术领域，具体提供一种基于多级缓存的并行化卷积运算方法及系统。

背景技术

深度学习模型是构建在海量的数据和强有力超算能力基础之上的，传统计算架构已经无法支撑深度学习大规模并行计算需求，因此，通过底层应用加速计算过程结合深度学习算法上的优化，是推动人工智能整个产业链发展的重要环节。

目前针对深度学习的分布式加速主要有三种形式：GPU、FPGA和NPU。GPU是最先被引入深度学习领域的，我们熟知的阿尔法狗就是由1920个CPU加280个GPU搭建的超算平台。作为最早看好深度学习应用加速的公司，英伟达是该领域当仁不让的领导者，通过打造CUDA平台，GPU在SIMD单指令多数据流架构中的优势被全面激发，结合高并行计算和高计算吞吐的特点，GPU可以大规模适用于具备计算密集、高并行、SIMD应用等特点的深度学习训练模型领域。GPU虽火，但是从技术上将，也有一定的局限性。首先运行能效比不佳。相比较而言，运行深度学习算法实现同样的性能，GPU所需功耗远远大于FPGA，通常情况下，GPU只能达到FPGA能效比的一半或更低。其次，应用过程中无法充分发挥并行计算优势。深度学习包含两个计算缓解，即训练（Off-line）和推理（On-line）环节。GPU在深度学习算法模型训练上非常高效，但在推理时一次性只能对于一个输入项进行处理，并行计算的优势不能发挥出来。第三，硬件结构固定不具备可编程性。目前来看，深度学习算法还未完全成熟，算法还在迭代衍化过程中，若深度学习算法发生大的变化，GPU无法像FPGA一样可以灵活的配置硬件结构，快速切入市场。

卷积神经网络一般用于图像分类等应用中，在基于FPGA的加速器设计中，输入像素点数据是以串行数据流的形式传输到计算单元的，而卷积运算的过程是取一个N*N的方框来进行计算，以卷积核为3*3为例，示意图如附图1所示。数据流是传输完一行再传输下一行，所以对于在传输前两行数据时是无法进行卷积运算的。

发明内容

本发明的技术任务是针对上述存在的问题，提供一种针对卷积运算中不同规模的卷积核来设计不同级的缓存FIFO，在时序上严格对准输入数据量满足卷积运算的时间点的基于多级缓存的并行化卷积运算方法。

本发明进一步的技术任务是提供一种基于多级缓存的并行化卷积运算系统。

为实现上述目的，本发明提供了如下技术方案：

一种基于多级缓存的并行化卷积运算方法，所述并行化卷积运算方法在进行卷积运算时，首先进行数据缓存，当卷积计算阵列的数据准备完成时送入并行卷积核完成卷积运算。

所述基于多级缓存的并行化卷积运算方法针对卷积运算中不同规模的卷积核来设计不同级的缓存FIFO（First Input First Output即先入先出队列），在时序上严格对准输入数据量满足卷积运算的时间点，并通过并行卷积运算在一个时钟周期内完成一次卷积运算，实现最快的运算效率。

作为优选，所述卷积计算阵列采用N行乘N列个卷积计算单元，其中N不小于3。

作为优选，进行数据缓存时需要N-1级FIFO来缓存前N-1行的数据，第N行需N个寄存器来锁存N个数据。

作为优选，第N行的数据量足够N个后，与卷积核进行卷积运算。

作为优选，所述卷积运算设计为一个时钟，计算时钟与数据时钟同步。

作为优选，在一个时钟周期内N-1级FIFO输出数据存入N-2级FIFO，寄存器REG1数据存入N-1级FIFO，寄存器REG2数据赋值给寄存器REG1，寄存器REGN数据赋值给寄存器REGN-1。

一种基于多级缓存的并行化卷积运算系统，该并行化卷积运算系统包括N-1级FIFO和N个寄存器REG，所述N-1级FIFO分别用来缓存前N-1行的数据，N个寄存器REG用来锁存N个数据，其中N不小于3。

与现有技术相比，本发明的基于多级缓存的并行化卷积运算方法具有以下突出的有益效果：所述基于多级缓存的并行化卷积运算方法针对卷积运算中不同规模的卷积核来设计不同级的缓存FIFO（First Input First Output即先入先出队列），在时序上严格对准输入数据量满足卷积运算的时间点，并通过并行卷积运算在一个时钟周期内完成一次卷积运算，实现最快的运算效率，具有良好的推广应用价值。

附图说明

图1是现有技术中卷积运算的流程图；

图2是本发明所述基于多级缓存的并行化卷积运算方法的流程图。

具体实施方式

下面将结合附图和实施例，对本发明的基于多级缓存的并行化卷积运算方法及系统作进一步详细说明。

实施例

本发明的基于多级缓存的并行化卷积运算方法在进行卷积运算时，首先进行数据缓存，当卷积计算阵列的数据准备完成时送入并行卷积核完成卷积运算，以实现最快的运算效率。卷积计算阵列采用N行乘N列个卷积计算单元。本发明中以3*3的卷积核为例，具体过程如图2所示：

1、首先在第二行输入数据存入FIFOB，存满一行数据存入第一行FIFOA。

2、第三行的数据首先依次赋值给三个寄存器REG1、REG2和REG3，在后续计算完成一次卷积运算后存入FIFOB。

3、利用FIFO先入先出的特性，每次进行卷积运算时FIFOB输出一个数据用于卷积运算，并存入FIFOA，而FIFOA的数据只需要进行卷积运算。

4、卷积运算采用并行化的电流设计，一个时钟内即可完成3*3的卷积运算。该二级缓存的设计方法针对3*3的卷积核，对于其他N*N的卷积核运算情况，需要设计N-1级的缓存。

本发明的基于多级缓存的并行化卷积运算系统包括两级FIFO和3个寄存器REG。两级FIFO分别用来缓存两行的数据，3个寄存器REG用来锁存三个数据。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于多级缓存的并行化卷积运算方法，其特征在于：所述并行化卷积运算方法在进行卷积运算时，首先进行数据缓存，当卷积计算阵列的数据准备完成时送入并行卷积核完成卷积运算。

2.根据权利要求1所述的基于多级缓存的并行化卷积运算方法，其特征在于：所述卷积计算阵列采用N行乘N列个卷积计算单元，其中N不小于3。

3.根据权利要求1或2所述的基于多级缓存的并行化卷积运算方法，其特征在于：进行数据缓存时需要N-1级FIFO来缓存前N-1行的数据，第N行需N个寄存器来锁存N个数据。

4.根据权利要求3所述的基于多级缓存的并行化卷积运算方法，其特征在于：第N行的数据量足够N个后，与卷积核进行卷积运算。

5.根据权利要求4所述的基于多级缓存的并行化卷积运算方法，其特征在于：所述卷积运算设计为一个时钟，计算时钟与数据时钟同步。

6.根据权利要求5所述的基于多级缓存的并行化卷积运算方法，其特征在于：在一个时钟周期内N-1级FIFO输出数据存入N-2级FIFO，寄存器REG1数据存入N-1级FIFO，寄存器REG2数据赋值给寄存器REG1，寄存器REGN数据赋值给寄存器REGN-1。

7.一种基于多级缓存的并行化卷积运算系统，其特征在于：该并行化卷积运算系统包括N-1级FIFO和N个寄存器REG，所述N-1级FIFO分别用来缓存前N-1行的数据，N个寄存器REG用来锁存N个数据，其中N不小于3。