CN107491809A

CN107491809A - 一种fpga实现残差网络中激活函数的方法

Info

Publication number: CN107491809A
Application number: CN201710718554.9A
Authority: CN
Inventors: 丁良奎
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2017-08-21
Filing date: 2017-08-21
Publication date: 2017-12-19
Anticipated expiration: 2037-08-21
Also published as: CN107491809B

Abstract

本发明公开了一种FPGA实现残差网络中激活函数的方法，该方法包括：每次进入残差网络的一个新的卷积层时，从FGPA芯片的缓存DDR中读取激活函数所需的参数；将经过FGPA芯片的卷积模块处理后的数据，通过内存通道channel读入激活函数处理模块中；在激活函数处理模块中将数据依次经过代入批归一化函数、缩放函数和线性激活函数进行处理，将处理后的数据通过内存通道channel写回到缓存DDR中。该方法实现减少不同激活函数间的数据传输I/O损耗。

Description

一种FPGA实现残差网络中激活函数的方法

技术领域

本发明涉及深度学习加速技术领域，特别是涉及一种FPGA实现残差网络中激活函数的方法。

背景技术

目前，大数据技术的快速发展极大的推动了深度学习技术发展的进程，而FPGA则是加速深度学习的有效手段之一。在通常的由CPU实现的卷积神经网络结构中，不同种类的激活函数均处于单独的模块中，以实现搭建不同网络结构的复用与重载。涉及到FPGA实现残差网络中激活函数的使用，但在FPGA中各激活函数的模块没有可复用性，各模块之间数据通过内存通道(channel)进行通信，因此反复的读写芯片缓存(DDR)必然会带来输入与输出上的效率损耗，即不同激活函数间的数据传输I/O损耗较多。

因此如何减少不同激活函数间的数据传输I/O损耗是亟待解决的问题。

发明内容

本发明的目的是提供一种FPGA实现残差网络中激活函数的方法，以实现减少不同激活函数间的数据传输I/O损耗。

为解决上述技术问题，本发明提供一种FPGA实现残差网络中激活函数的方法，包括：

每次进入残差网络的一个新的卷积层时，从FGPA芯片的缓存DDR中读取激活函数所需的参数；

将经过FGPA芯片的卷积模块处理后的数据，通过内存通道channel读入激活函数处理模块中；

在激活函数处理模块中将数据依次经过代入批归一化函数、缩放函数和线性激活函数进行处理，将处理后的数据通过内存通道channel写回到缓存DDR中。

优选的，所述将经过FGPA芯片的卷积模块处理后的数据，通过内存通道channel读入激活函数处理模块中，包括：

将经过FGPA芯片的卷积模块处理后的数据，通过内存通道channel以一个节拍传入多个浮点数，读入激活函数处理模块中。

优选的，所述批归一化函数、缩放函数和线性激活函数均为由OpenCL语言描述的函数。

优选的，所述残差网络以每一个新的卷积层记数一层。

优选的，所述通过内存通道channel读入激活函数处理模块中之后，还包括：

将数据对应的纬度信息读入激活函数处理模块中。

优选的，所述一个节拍为一个时钟节拍。

优选的，所述浮点数的个数为8个。

本发明所提供的一种FPGA实现残差网络中激活函数的方法，每次进入残差网络的一个新的卷积层时，从FGPA芯片的缓存DDR中读取激活函数所需的参数；将经过FGPA芯片的卷积模块处理后的数据，通过内存通道channel读入激活函数处理模块中；在激活函数处理模块中将数据依次经过代入批归一化函数、缩放函数和线性激活函数进行处理，将处理后的数据通过内存通道channel写回到缓存DDR中。可见，将激活函数置于同一模块中，利用FPGA的异构并行性，使所有激活函数能够在一个时钟节拍中完成数据激活的操作，加速了数据处理效率。与通用的CPU实现方式相比，本发明采用OpenCL语言进行FPGA硬件比特流的生成，能够有效改善算法实现效率，将残差网络所需要的激活函数置于同一模块中，减少不同激活函数间的数据传输I/O损耗，使得可以映射生成高效的FPGA硬件电路结构，进而达到FPGA对激活函数的硬件加速效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明所提供的一种FPGA实现残差网络中激活函数的方法的流程图。

具体实施方式

本发明的核心是提供一种FPGA实现残差网络中激活函数的方法，以实现减少不同激活函数间的数据传输I/O损耗。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

术语描述如下：

ResNet(Deep Residual Learning for Image)：残差网络；

Recognition OpenCL(Open Computing Language)：开放式计算语言；

FPGA(Field-Programmable Gate Array)：现场可编程门阵列。

请参考图1，图1为本发明所提供的一种FPGA实现残差网络中激活函数的方法的流程图，该方法包括：

S11：每次进入残差网络的一个新的卷积层时，从FGPA芯片的缓存DDR中读取激活函数所需的参数；

S12：将经过FGPA芯片的卷积模块处理后的数据，通过内存通道channel读入激活函数处理模块中；

S13：在激活函数处理模块中将数据依次经过代入批归一化函数、缩放函数和线性激活函数进行处理，将处理后的数据通过内存通道channel写回到缓存DDR中。

可见，将激活函数置于同一模块中，利用FPGA的异构并行性，使所有激活函数能够在一个时钟节拍中完成数据激活的操作，加速了数据处理效率。与通用的CPU实现方式相比，本发明采用OpenCL语言进行FPGA硬件比特流的生成，能够有效改善算法实现效率，将残差网络所需要的激活函数置于同一模块中，减少不同激活函数间的数据传输I/O损耗，使得可以映射生成高效的FPGA硬件电路结构，进而达到FPGA对激活函数的硬件加速效果。

基于上述方法，具体的，基于步骤S12，将经过FGPA芯片的卷积模块处理后的数据，通过内存通道channel读入激活函数处理模块中的过程具体包括：将经过FGPA芯片的卷积模块处理后的数据，通过内存通道channel以一个节拍传入多个浮点数，读入激活函数处理模块中。

其中，所述一个节拍为一个时钟节拍。所述浮点数的个数为8个。具体的，将经过FPGA芯片的卷积模块处理后的数据，通过内存通道channel以一个节拍传入8个浮点数读入激活函数处理模块中。

其中，所述批归一化函数、缩放函数和线性激活函数均为由OpenCL语言描述的函数。批归一化函数、缩放函数和线性激活函数都是激活函数，可以采用OpenCL语言描述激活函数，也可以采用FPGA语言描述激活函数。

其中，所述残差网络以每一个新的卷积层记数一层。激活函数紧跟卷积层后。

进一步的，步骤S12中，通过内存通道channel读入激活函数处理模块中之后，还包括：将数据对应的纬度信息读入激活函数处理模块中。

本发明采用OpenCL语言完成激活函数在FPGA在残差网络结构中的实现，将激活函数置于同一模块中，利用FPGA的异构并行性，使所有激活函数能够在一个时钟节拍中完成数据激活的操作，加速了数据处理效率。

基于本方法，具体实施过程主要包括以下步骤：

(1)残差网络以每一个新的卷积层记数一层，激活函数紧跟卷积层后；在每进入一个新的层时，从FPGA芯片缓存DDR中读取激活参数需要的参数；

(2)将经过FPGA卷积模块处理后的数据，通过内存通道channel以一个节拍(cycle)传入8个浮点数读入激活函数处理模块中，同时读入的还包括数据对应的维度信息；

(3)数据依次经过由FPGA语言描述的批归一化(batch_norm)函数、缩放(scale)函数、线性激活(relu)函数；

其中，在每进入一个函数之前，在头文件中都有对应的开关来表示是否需要该函数进行处理；

(4)将处理后的数据通过channel写回DDR中。

本发明采用FPGA硬件平台执行激活函数核心模块，能够通过并行流水的优化方式提高算法的并行度，从而改善算法执行时的吞吐率性能。与通用的CPU实现方式相比，本发明采用OpenCL语言进行FPGA硬件比特流的生成，能够有效改善算法实现效率。其中，通过设计合理的OpenCL描述的激活函数，将残差网络所需要的激活函数置于同一模块中，减少不同激活函数间的数据传输I/O损耗，使得可以映射生成高效的FPGA硬件电路结构，进而达到FPGA对激活函数的硬件加速效果。

具体的，本发明通过OpenCL高级描述语言进行激活函数的描述，采用AlteraSDKfor OpenCL高层次综合工具进行面向FPGA的硬件比特流生成，在FPGA实现残差网络中激活函的硬件加速，可以有效的提高FPGA中残差网络的执行性能。其中，将残差网络所需要的激活函数置于同一模块中，减少不同激活函数间的数据传输I/O损耗，符合FPGA的异构加速性能。

综上，本发明所提供的一种FPGA实现残差网络中激活函数的方法，每次进入残差网络的一个新的卷积层时，从FGPA芯片的缓存DDR中读取激活函数所需的参数；将经过FGPA芯片的卷积模块处理后的数据，通过内存通道channel读入激活函数处理模块中；在激活函数处理模块中将数据依次经过代入批归一化函数、缩放函数和线性激活函数进行处理，将处理后的数据通过内存通道channel写回到缓存DDR中。可见，将激活函数置于同一模块中，利用FPGA的异构并行性，使所有激活函数能够在一个时钟节拍中完成数据激活的操作，加速了数据处理效率。与通用的CPU实现方式相比，本发明采用OpenCL语言进行FPGA硬件比特流的生成，能够有效改善算法实现效率，将残差网络所需要的激活函数置于同一模块中，减少不同激活函数间的数据传输I/O损耗，使得可以映射生成高效的FPGA硬件电路结构，进而达到FPGA对激活函数的硬件加速效果。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种FPGA实现残差网络中激活函数的方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种FPGA实现残差网络中激活函数的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述将经过FGPA芯片的卷积模块处理后的数据，通过内存通道channel读入激活函数处理模块中，包括：

3.如权利要求1所述的方法，其特征在于，所述批归一化函数、缩放函数和线性激活函数均为由OpenCL语言描述的函数。

4.如权利要求1所述的方法，其特征在于，所述残差网络以每一个新的卷积层记数一层。

5.如权利要求1所述的方法，其特征在于，所述通过内存通道channel读入激活函数处理模块中之后，还包括：

将数据对应的纬度信息读入激活函数处理模块中。

6.如权利要求2所述的方法，其特征在于，所述一个节拍为一个时钟节拍。

7.如权利要求2所述的方法，其特征在于，所述浮点数的个数为8个。