CN111667053B

CN111667053B - 一种卷积神经网络加速器的前向传播计算加速方法

Info

Publication number: CN111667053B
Application number: CN202010484509.3A
Authority: CN
Inventors: 侯维刚; 何香玉; 巩小雪; 郭磊
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shenzhen Hongyue Information Technology Co ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2023-05-09
Anticipated expiration: 2040-06-01
Also published as: CN111667053A

Abstract

本发明涉及通信技术，特别涉及一种卷积神经网络加速器的前向传播计算加速方法，所述加速器包括上位机和FPGA模块，其中FPGA模块设置有两个端口，这两个端口分别按照奇数行、偶数行的规则读取上位机训练得到的M×M个权重、以及图片大小为M×M像素的像素信息；本发明与现有技术相比抛开数据上传云端的限制，减轻计算压力，并且本发明采用的FPGA模块作为可编程逻辑器件，拥有丰富计算逻辑、高灵活性和可扩展性、开发周期短、低能耗以及易修改等优势。

Description

一种卷积神经网络加速器的前向传播计算加速方法

技术领域

本发明涉及通信技术，特别涉及一种卷积神经网络加速器的前向传播计算加速方法。

背景技术

作为人工智能(Artificial Intelligence, AI)代表算法，卷积神经网络(Convolutional Neural Network, CNN)在图像识别、语音处理、机器翻译等领域中起到关键作用。但数据量的爆炸式增长，使CNN出现了计算速度慢、识别率低等问题，有必要设计CNN加速器。

CNN加速器可采用CPU(Central Processing Unit)串行计算，但执行过程中涉及取指令以及复杂译码，导致加速不明显，采用内部搭建复杂电路的GPU(GraphicsProcessing Unit)方式运行功耗过高，而采用ASIC(Application Specific IntegratedCircuit)方法，开发周期较长，不易对算法进行调整。

FPGA(Field Programmable Gate Array)作为可编程逻辑器件，拥有丰富计算逻辑、高灵活性和可扩展性、开发周期短、低能耗以及易修改等优势。因此，亟需设计新型的、基于FPGA的CNN加速器，从而抛开数据上传云端的限制，减轻计算压力，对AI发展具有重要意义。

发明内容

为了加速CNN前向传播阶段的计算，本发明提出一种卷积神经网络加速器的前向传播计算加速方法，所述加速器包括上位机和FPGA模块，其中FPGA模块设置有两个端口，这两个端口分别按照奇数行、偶数行的规则读取上位机训练得到的M×M个权重、以及图片的像素信息大小为M×M。

本发明还提出一种卷积神经网络加速器的前向传播计算加速方法，该加速方法在一种卷积神经网络加速器的FPGA模块运行，具体包括以下步骤：

S1、将FPGA模块的两个端口输入，并利用L个N1×N1卷积核同时对奇数行和偶数行输入像素按照不同区域进行扫描；对扫描区域内像素与对应卷积核权重进行乘积，每逢乘积结果数为N1×N1时，输出一个累加结果，立即与偏置进行相加，并进入激活函数Sigmoid，将其输出值作为最终的累加结果；最后将所有(M-N1+1)×(M-N1+1)个累加结果平均到RAM的A和B端口，当每个端口的累加结果计数为(M-N1+1)×(M-N1+1)÷2时，完成并行卷积；

S2、对A端口的(M-N1+1)×(M-N1+1)÷2个卷积结果两两比较，依照卷积结果降序排列，同时对B端口的(M-N1+1)×(M-N1+1)÷2个卷积结果两两比较，依照卷积结果降序排列，之后将A和B端口位于同一排列位置的卷积结果进行比较，输出较大值，当输出(M-N1+1)÷2×(M-N1+1)÷2个卷积结果时，最大池化处理结束；

S3、对(M-N1+1)÷2×(M-N1+1)÷2个像素执行步骤S1的并行卷积过程，当A和B端口的累加结果计数均为((M-N1+1)÷2-N1+1)×((M-N1+1)÷2-N1+1)÷2时，并行卷积处理结束，A和B端口的输出卷积结果；

S4、对A和B端口各自拥有的((M-N1+1)÷2-N1+1)×((M-N1+1)÷2-N1+1)÷2个卷积结果执行步骤S2的最大池化处理过程，当较大者计数为((M-N1+1)÷2-N1+1)÷2×((M-N1+1)÷2-N1+1)÷2时，最大池化处理结束；

S5、将((M-N1+1)÷2-N1+1)÷2×((M-N1+1)÷2-N1+1)÷2个像素分成((M-N1+1)÷2-N1+1)÷2个像素矩阵，每个像素矩阵列数为((M-N1+1)÷2-N1+1)÷2，行数为1，将A和B端口分别读取的奇数行和偶数行权重下采样成两个列数为1，行数为((M-N1+1)÷2-N1+1)÷2的权重矩阵，将((M-N1+1)÷2-N1+1)÷2个像素矩阵同时与两个权重矩阵相乘，从而得到((M-N1+1)÷2-N1+1)个分类，至此，完成对一幅图像的识别。

本发明与现有技术相比抛开数据上传云端的限制，减轻计算压力，并且本发明采用的FPGA模块作为可编程逻辑器件，拥有丰富计算逻辑、高灵活性和可扩展性、开发周期短、低能耗以及易修改等优势。

附图说明

图1为本发明一种卷积神经网络加速器整体逻辑外观示意图；

图2为本发明一种卷积神经网络加速器结构示意图；

图3为本发明实施例提供的CNN加速器前向传播计算加速流程示意图；

图4为本发明实施例方法与CPU方案的计算时间对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种卷积神经网络加速器的前向传播计算加速方法，该加速方法在一种卷积神经网络加速器的FPGA模块运行，如图2，具体包括以下步骤：

实施例1

本发明提出一种卷积神经网络加速器，如图1，包括上位机和FPGA模块，其中FPGA模块设置有两个端口，这两个端口分别按照奇数行、偶数行的规则读取上位机训练得到的M×M个权重、以及大小为M×M的图片的像素信息，其中每个像素信息对应一个权重。

在本发明FPGA模块中运行前述的一种卷积神经网络加速器的前向传播计算加速方法，本实施例使用的FPGA是Xilinx公司的XC6VLX550T开发板，工作频率为100MHz。图4列出了该频率下FPGA的前向传播计算速度，一般来说，对于单幅图像来说，仅统计实际计算速度，忽略图像传播时间。一幅图像需要进行的乘累加次数为16.8万次，使用CPU的时间为0.506毫秒，而本实施例只使用了0.126毫秒，加速了3.63倍以上。将实施例扩展使用MNIST数据集进行测试，CPU耗时5.158秒，而扩展使用后的实施例只使用1.4624秒，加速比为3.19。

实施例2

如图3所示，本实施例从FPGA模块的两个端口RAM的A和B端口分别读取的奇数行和偶数行权重以及32×32(M=32)个像素首输入并行卷积层C1，该层的L=6个5×5(N1=5)卷积核同时对奇数行和偶数行输入像素按照不同区域进行扫描，并对扫描区域内像素与对应卷积核权重进行乘积，每逢乘积结果数为5×5=25时，输出一个累加结果，立即与偏置进行相加，并进入激活函数Sigmoid，将其输出值作为最终的累加结果。最后将所有28×28=784个累加结果平均到RAM的A和B端口。每个端口的累加结果计数为28×28÷2=392时，并行卷积处理结束，A和B端口的卷积结果同时输入最大池化层S2，该层对A端口的392个卷积结果两两比较，依次标记较大者位置为1, 2, ...14×14，同时对B端口的392个卷积结果两两比较，依次标记较大者位置为1, 2, ...,1, 2, ...,14×14，之后将A和B端口位于等值标记位置的两个较大者进行比较，输出较大者。当较大者计数为14×14=196时，最大池化处理结束，再输入并行卷积层C3，该层对14×14个像素执行并行卷积操作，当A和B端口的累加结果计数均为(10×10)÷2=50时，并行卷积处理结束，A和B端口的卷积结果同时进行最大池化层S4，该层对A和B端口各自拥有的50个卷积结果执行最大池化操作，当较大者计数为5×5=25时，最大池化处理结束，进入全连接层F5，该层首先将5×5个像素分成5个像素矩阵，每个像素矩阵列数为5，行数为1，将A和B端口分别读取的奇数行和偶数行权重下采样成两个列数为1，行数为5的权重矩阵，将5个像素矩阵同时与两个权重矩阵相乘，从而得到10个分类，至此，完成对一幅图像的识别。

本发明中涉及的权重和偏置的值均是在上位机中神经网络算法迭代训练过程后经过下采样获得。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种卷积神经网络加速器的前向传播计算加速方法，其特征在于，加速器包括上位机和FPGA模块，其中FPGA模块设置有两个端口，这两个端口分别按照奇数行、偶数行的规则读取上位机训练得到的M×M个权重、以及图片大小为M×M像素的像素信息，加速器的前向传播计算的加速方法具体包括以下步骤：

2.根据权利要求1所述的一种卷积神经网络加速器的前向传播计算加速方法，其特征在于，1<N1<(M+2)÷2。