CN107341127A

CN107341127A - 基于OpenCL标准的卷积神经网络加速方法

Info

Publication number: CN107341127A
Application number: CN201710543986.0A
Authority: CN
Inventors: 王树龙; 殷伟; 刘而云; 刘红侠; 杜守刚
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2017-11-10
Anticipated expiration: 2037-07-05
Also published as: CN107341127B

Abstract

本发明提出了一种基于OpenCL标准的卷积神经网络加速方法，主要解决现有CPU处理卷积神经网络效率低的问题。其实现步骤为：1.读入原始的三维图像数据，将其传递到GPU的全局内存中；2.读取权重和偏置数据到GPU的全局内存中；3.将GPU的全局内存原始图像数据读取到GPU的局部内存中；4.初始化参数，构造线性激活函数Leaky‑ReLU；5.计算卷积神经网络第十二层的图片数据；6.计算卷积神经网络第十五层的图片数据；7.计算卷积神经网络第十八层的图片数据，并将该将图片数据存入GPU，再传回到主机内存中，给出运算时间。本发明提高了卷积神经网络运算速度，可用于计算机视觉的物体检测。

Description

基于OpenCL标准的卷积神经网络加速方法

技术领域

本发明属于无人驾驶感知技术领域，特别涉及一种卷积神经网络加速方法，可用于计算机视觉的物体检测。

背景技术

随着神经网络研究的深入，研究人员发现对图片输入做卷积操作和生物视觉中的神经元接受局部内的输入有相似性，在神经网络中加上卷积操作成为主流趋势。由于卷积神经网络CNN在神经网络的结构上针对视觉输入本身特点做的特定设计，所以卷积神经网络成为计算机视觉领域的必然选择。无人驾驶的感知部分作为计算机视觉的领域范围，不可避免地成为CNN发挥作用的舞台。

传统的深度学习算法主要计算工具是CPU，因为CPU的通用性好，硬件架构已经成熟。然而，当深度学习算法对运算能力需求越来越大时，特别是卷积神经网络算法，CPU执行的效率不能满足需求。此时GPU进入了深度学习的研究者视野，GPU提供大量的并行运算单元，可以同时对图像像素进行并行处理，这个架构正好可以运用到深度学习算法上。

深度学习卷积神经网络模型中的参数是通过从大数据中学习获得的，能够应对车辆行驶过程中复杂的情形，且精确度高。但是对数据的质量和数量要求高，对计算能力也有很高的要求，所以用GPU做计算载体更具有优势。而且在GPU上编程技术门槛较低，算法开发周期较短。

发明内容

本发明的目的在于针对上述现有技术的不足，提供一种基于OpenCL标准的卷积神经网络加速方法，以在应对复杂的交通环境时，满足高的精确度要求和实时性要求。

本发明的技术方案完成如下：

一、技术原理

OpenCL(Open Computing Language)是第一个面向异构系统通用目的并行编程的标准，也是一个统一的编程环境，在异构架构下，主机CPU完成任务的调度与分配，而加速设备完成数据密集型的计算任务。利用OpenCL标准对图像算法进行加速的过程中，并行粒度的选择和数据的访存策略将直接影响到算法的加速效果。因此，利用OpenCL语言对图像算法进行加速时需要对并行粒度进行合理选择，以及对数据访存策略进行优化。主流的异构架构为CPU+GPU异构架构，与传统单一架构相比，异构架构能够更好的实现高性能并行计算，在深度学习、大数据和科学计算等领域有广阔的前景。此外，GPU相比于CPU有更大的数据吞吐量和更强的浮点计算能力，特别适合并行计算。卷积神经网络算法具有高度的并行性和较大的数据吞吐量，可以利用CPU+GPU的异构架构加速算法的执行速度。

本发明是在OpenCL标准下，通过对卷积神经网络的数据访存策略进行优化和对粒度进行合适选择，完成了卷积神经网络在异构架构下的并行加速。

二、技术方案

根据上述原理，本发明的实现方案包括如下：

1)将原始的三维图像数据读入到主机内存中，经过边缘扩展处理后，再将图像数据传递到GPU的全局内存中；

2)将训练得到的用于和图片数据卷积的权重和偏置数据从文本文件读入到主机内存中，再将权重和偏置数据传递到GPU的全局内存中；

3)将GPU的全局内存原始图片数据分块读入到GPU的局部内存中；

4)初始化卷积核尺寸为k＝3*3，卷积层步长s＝1，降采样层尺寸p＝2*2，降采样层步长d＝2，图片边缘扩展尺寸z＝1；

5)构造含有阈值L的线性激活函数Leaky-ReLU模型：

其中，L为线性激活函数Leaky-ReLU模型的阈值，取值为L＝0.1，x为大小1*1的图片数据；

6)计算卷积神经网络第十二层的图片数据：

将经过步骤1)和步骤3)得到的GPU局部内存中的原始图片数据与步骤2)得到的卷积神经网络第一层的权重数据进行卷积运算，并加上偏置数据进行激活函数Leaky-ReLU运算，再进行降采样处理，得到卷积神经网络第一层的图片数据，再依次进行卷积运算、激活函数Leaky-ReLU运算和降采样运算共六次，得到卷积神经网络第十二层的图片数据；

7)计算卷积神经网络第十五层的图片数据：

将由步骤6)得到的卷积神经网络第十二层的图片数据与卷积神经网络第十三层的权重数据进行卷积运算，得到卷积神经网络第十三层的图片数据，再依次经过两次卷积运算和激活函数Leaky-ReLU运算共二次，得到卷积神经网络第十五层的图片数据；

8)计算卷积神经网络第十八层的图片数据：

8a)将卷积神经网络第十五层的图片数据全部展成大小为1*1的一维数据，并将展开的一维数据与卷积神经网络第十六层的权重数据相乘相加，再加上偏置数据，得出卷积神经网络第十六层的图片数据；

8b)将卷积神经网络第十六层的图片数据与卷积神经网络第十七层的权重数据进行相乘相加，并加上偏置数据，再经过激活函数Leaky-ReLU运算后输出卷积神经网络第十七层的图片数据；

8c)将卷积神经网络第十七层的图片数据与卷积神经网络第十八层的权重数据进行相乘相加，并加上偏置数据，得出卷积神经网络第十八层的图片数据，即最终的计算结果，将该计算结果传回GPU全局内存；

9)将GPU的全局内存中的计算结果再传回到主机内存中，得出识别结果和运算时间。

本发明与现有技术相比的有益效果在于：

本发明由于对卷积神经网络算法进行了GPU并行加速计算，与现有技术中对卷积神经网络算法在单一架构CPU下串行计算相比，CPU+GPU异构架构，能够更好的实现高性能并行计算，同时由于GPU具有很大的数据吞吐量，对浮点的计算能力要远远高于CPU对浮点的计算能力，更适合数据密集型计算任务，因而本发明在保持卷积神经网络算法精确度能力不变的情况下，大幅提高了卷积神经网络算法的计算速度。

附图说明

图1是本发明的实现流程图；

图2是本发明使用的卷积神经网络结构图。

具体实施方式

以下结合附图对本发明的技术方案和效果做进一步详细描述。

参照图1，本发明的实现步骤包括如下：

步骤1，读入原始的三维图像数据，并将其传递到GPU的全局内存中。

1.1)输入大小为448*448的三维彩色道路图片，该原始图片数据读入到主机内存中；

1.2)选择但不限于AMD R9 200的GPU做为加速设备，将主机内存中的原始图片数据四个边界各扩展一位后传递到GPU的全局内存中。

步骤2，读取权重数据和偏置数据到GPU的全局内存中。

2.1)将由卷积神经网络训练得到的权重数据和偏置数据先存于文本文件中，再将文本文件读入到主机内存中；

2.2)将主机内存中的权重数据和偏置数据传递到GPU的全局内存。

步骤3，将GPU的全局内存原始图像数据读取到GPU的局部内存中。

考虑到所选GPU的单个工作的处理能力，将GPU全局内存中的原始图像数据分成若干个大小为10*10*4的浮点类型的数据块，并读入到GPU局部内存中。

步骤4，初始化参数。

初始化卷积核尺寸为k＝3*3，卷积层步长s＝1，降采样层尺寸p＝2*2，降采样层步长d＝2，图片边缘扩展尺寸z＝1。

步骤5，构造含有阈值L的线性激活函数Leaky-ReLU模型：

其中，L为线性激活函数Leaky-ReLU模型的阈值，本发明取L＝0.1，x为大小1*1的图片数据，当x小于0时，f(x)为线性激活函数Leaky-ReLU的阈值L和图片数据x乘积的结果，当x大于等于0时，图片数据直接赋值给f(x)。

步骤6，计算卷积神经网络第十二层的图片数据：

参照图2，本步骤的具体实现如下：

6.1)将经过步骤1)和步骤3)得到的GPU局部内存中的原始图片数据与步骤2)得到的卷积神经网络第一层的权重数据进行卷积运算，并加上偏置数据进行激活函数Leaky-ReLU运算，再进行降采样处理，得到卷积神经网络第一层的图片数据；

6.2)对卷积神经网络第一层的图片数据进行降采样处理，求出2*2窗口中四个数据的最大值，其中窗口移动步长为2；再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第二层的图片数据；

6.3)将卷积神经网络第二层的图片数据与卷积神经网络第三层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第三层的图片数据；

6.4)对卷积神经网络第三层的图片数据进行降采样处理，求出2*2窗口中四个数据的最大值，其中窗口移动步长为2；再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第四层的图片数据；

6.5)将卷积神经网络第四层的图片数据与卷积神经网络第五层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第五层的图片数据；

6.6)对卷积神经网络第五层的图片数据进行降采样处理，求出2*2窗口中四个数据的最大值，其中窗口移动步长为2；再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第六层的图片数据；

6.7)将卷积神经网络第六层的图片数据与卷积神经网络第七层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第七层的图片数据；

6.8)对卷积神经网络第七层的图片数据进行降采样处理，求出2*2窗口中四个数据的最大值，其中窗口移动步长为2；再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第八层的图片数据；

6.9)将卷积神经网络第八层的图片数据与卷积神经网络第九层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第九层的图片数据；

6.10)对卷积神经网络第九层的图片数据进行降采样处理，求出2*2窗口中四个数据的最大值，其中窗口移动步长为2；再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第十层的图片数据；

6.12)将卷积神经网络第十层的图片数据与卷积神经网络第十一层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第十一层的图片数据；

6.13)对卷积神经网络第十一层的图片数据进行降采样处理，求出2*2窗口中四个数据的最大值，其中窗口移动步长为2；再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第十二层的图片数据。

所述权重包含在卷积核中，卷积核可以理解为含有权重数据的滑动窗口，以步长为一在图片上滑动，将对应的权重数据和图片数据相乘相加，并加上偏置数据进行激活函数计算后输出到GPU全局内存中。

步骤7，计算卷积神经网络第十五层的图片数据：

参照图2，本步骤的具体实现如下：

7.1)将由步骤6)得到的卷积神经网络第十二层的图片数据与GPU全局内存中卷积神经网络第十三层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第十三层的图片数据；

7.2)将卷积神经网络第十三层的图片数据与卷积神经网络第十四层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第十四层的图片数据；

7.3)将卷积神经网络第十四层的图片数据与卷积神经网络第十五层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第十五层的图片数据。

步骤8，计算卷积神经网络第十八层的图片数据：

参照图2，本步骤的具体实现如下：

8.1)将卷积神经网络第十五层的图片数据全部展成大小为1*1的一维数据，并将展开的一维数据与卷积神经网络第十六层的权重数据相乘相加，再加上偏置数据，得出卷积神经网络第十六层的图片数据；

8.2)将卷积神经网络第十六层的图片数据与卷积神经网络第十七层的权重数据进行相乘相加，并加上偏置数据，再经过激活函数运算后输出卷积神经网络第十七层的图片数据；

8.3)将卷积神经网络第十七层的图片数据与卷积神经网络第十八层的权重数据进行相乘相加，并加上偏置数据，得出卷积神经网络第十八层的图片数据，即最终的计算结果，将该计算结果传回GPU全局内存。

步骤9，将GPU的全局内存中的结果数据传回到主机内存中，得出识别结果和运算时间。完成基于OpenCL标准的卷积神经网络方法的加速实现。

对本发明的技术效果可通过以下实验进一步详细描述：

1.实验环境：

异构平台为AMD异构开发平台，其中主机端通用CPU为Intel Xeon E5410 CPU，加速设备GPU为AMD R9 200 GPU，软件环境为Visual Studio 2013和AMD APP SDKv2.9，操作系统为Windows 7。

2.实验内容：

对输入的原始图像分别在CPU和GPU下做处理，对CPU和GPU运行环境下计算速度分别进行评定，结果如表1。

表1给出了卷积神经网络算法不同层的计算时间，并给出最终加速比，加速设备GPU采用AMD R9 200，选取原始图像为448*488的RGB彩色道路图像；

表1 本发明方法在GPU和CPU上运算性能对比

网络层	浮点32位数据	Intel Xeon E5410 CPU	AMD R9 200 GPU
					输入图片数据—输出图片数据	2.33GHZ(ms)	1150MHZ(ms)
第一层	4504503—44844816	323580.34375	630.963013
				第二层	44844816—22422416	17502.148438	186.222000
第三层	22622616—22422432	212142.828125	1560.00000
				第四层	22422432—11211232	8797.269531	79.406990
第五层	11411432—11211264	116569.539063	1561.482056
				第六层	11211264—565664	4443.950195	32.889000
第七层	585864—5656128	71017.406250	1611.555054
				第八层	5656128—2828128	1941.066040	20.296000
第九层	3030128—2828256	52848.726563	1688.592041
				第十层	2828256—1414256	728.559998	12.740000
第十一层	1616256—1414512	49577.253903	2278.666992
				第十二层	1414512—77512	216.897003	9.777000
第十三层	99512—771024	45594.367188	2291.852051
				第十四层	991024—771024	89797.179688	4928.741211
第十五层	991024—771024	89950.273438	4591.556152
				第十六层	49*1024—256	21828.632813	27521.332031
第十七层	256—4096	1111.756958	3239.852051
				第十八层	4096—1470	5921.74707	9695.850586
总时间		922669.947014	61941.774228
				加速比		1.00x	14.89x

由表1可以看出，本发明所提出的基于OpenCL标准的卷积神经网络方法在GPU上的处理速度较比在CPU上获得了14.89的加速比，处理速度有了显著的提高,。

综上所述，基于OpenCL标准的卷积神经网络方法在GPU上获得了14.89倍加速的效果，有效的解决了传统卷积神经网络在CPU上运算效率低的问题，可以满足卷积神经网络算法对计算能力的需求。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明的原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于OpenCL标准的卷积神经网络加速方法，包括：

5)构造含有阈值L的线性激活函数Leaky-ReLU模型：

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>L</mi> <mo>*</mo> <mi>x</mi> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>x</mi> <mo><</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>x</mi> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>x</mi> <mo>&GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

6)计算卷积神经网络第十二层的图片数据：

7)计算卷积神经网络第十五层的图片数据：

8)计算卷积神经网络第十八层的图片数据：

2.根据权利要求1所述的方法，其特征在于：步骤6)中卷积神经网络第十二层的图片数据，按如下步骤计算获得：

6a)对卷积神经网络第一层的图片数据进行降采样处理，求出2*2窗口中四个数据的最大值，其中窗口移动步长为2；再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第二层的图片数据；

6b)将卷积神经网络第二层的图片数据与卷积神经网络第三层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第三层的图片数据；

6c)对卷积神经网络第三层的图片数据进行降采样处理，求出2*2窗口中四个数据的最大值，其中窗口移动步长为2；再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第四层的图片数据；

6d)将卷积神经网络第四层的图片数据与卷积神经网络第五层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第五层的图片数据；

6e)对卷积神经网络第五层的图片数据进行降采样处理，求出2*2窗口中四个数据的最大值，其中窗口移动步长为2；再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第六层的图片数据；

6f)将卷积神经网络第六层的图片数据与卷积神经网络第七层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第七层的图片数据；

6g)对卷积神经网络第七层的图片数据进行降采样处理，求出2*2窗口中四个数据的最大值，其中窗口移动步长为2；再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第八层的图片数据；

6h)将卷积神经网络第八层的图片数据与卷积神经网络第九层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第九层的图片数据；

6i)对卷积神经网络第九层的图片数据进行降采样处理，求出2*2窗口中四个数据的最大值，其中窗口移动步长为2；再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第十层的图片数据；

6j)将卷积神经网络第十层的图片数据与卷积神经网络第十一层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第十一层的图片数据；

6k)对卷积神经网络第十一层的图片数据进行降采样处理，求出2*2窗口中四个数据的最大值，其中窗口移动步长为2；再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第十二层的图片数据。

3.根据权利要求1所述的方法，其特征在于：步骤7)中卷积神经网络第十五层的图片数据，按如下步骤计算获得：

7a)将卷积神经网络第十三层的图片数据与卷积神经网络第十四层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第十四层的图片数据；

7b)将卷积神经网络第十四层的图片数据与卷积神经网络第十五层的权重数据进行相乘相加，并加上偏置数据进行激活函数Leaky-ReLU运算，再对图片四个边缘做扩展一位处理后输出卷积神经网络第十五层的图片数据。