CN107341127A - 基于OpenCL标准的卷积神经网络加速方法 - Google Patents

基于OpenCL标准的卷积神经网络加速方法 Download PDF

Info

Publication number
CN107341127A
CN107341127A CN201710543986.0A CN201710543986A CN107341127A CN 107341127 A CN107341127 A CN 107341127A CN 201710543986 A CN201710543986 A CN 201710543986A CN 107341127 A CN107341127 A CN 107341127A
Authority
CN
China
Prior art keywords
convolutional neural
neural networks
layer
image data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710543986.0A
Other languages
English (en)
Other versions
CN107341127B (zh
Inventor
王树龙
殷伟
刘而云
刘红侠
杜守刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201710543986.0A priority Critical patent/CN107341127B/zh
Publication of CN107341127A publication Critical patent/CN107341127A/zh
Application granted granted Critical
Publication of CN107341127B publication Critical patent/CN107341127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/161Computing infrastructure, e.g. computer clusters, blade chassis or hardware partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于OpenCL标准的卷积神经网络加速方法,主要解决现有CPU处理卷积神经网络效率低的问题。其实现步骤为:1.读入原始的三维图像数据,将其传递到GPU的全局内存中;2.读取权重和偏置数据到GPU的全局内存中;3.将GPU的全局内存原始图像数据读取到GPU的局部内存中;4.初始化参数,构造线性激活函数Leaky‑ReLU;5.计算卷积神经网络第十二层的图片数据;6.计算卷积神经网络第十五层的图片数据;7.计算卷积神经网络第十八层的图片数据,并将该将图片数据存入GPU,再传回到主机内存中,给出运算时间。本发明提高了卷积神经网络运算速度,可用于计算机视觉的物体检测。

Description

基于OpenCL标准的卷积神经网络加速方法
技术领域
本发明属于无人驾驶感知技术领域,特别涉及一种卷积神经网络加速方法,可用于计算机视觉的物体检测。
背景技术
随着神经网络研究的深入,研究人员发现对图片输入做卷积操作和生物视觉中的神经元接受局部内的输入有相似性,在神经网络中加上卷积操作成为主流趋势。由于卷积神经网络CNN在神经网络的结构上针对视觉输入本身特点做的特定设计,所以卷积神经网络成为计算机视觉领域的必然选择。无人驾驶的感知部分作为计算机视觉的领域范围,不可避免地成为CNN发挥作用的舞台。
传统的深度学习算法主要计算工具是CPU,因为CPU的通用性好,硬件架构已经成熟。然而,当深度学习算法对运算能力需求越来越大时,特别是卷积神经网络算法,CPU执行的效率不能满足需求。此时GPU进入了深度学习的研究者视野,GPU提供大量的并行运算单元,可以同时对图像像素进行并行处理,这个架构正好可以运用到深度学习算法上。
深度学习卷积神经网络模型中的参数是通过从大数据中学习获得的,能够应对车辆行驶过程中复杂的情形,且精确度高。但是对数据的质量和数量要求高,对计算能力也有很高的要求,所以用GPU做计算载体更具有优势。而且在GPU上编程技术门槛较低,算法开发周期较短。
发明内容
本发明的目的在于针对上述现有技术的不足,提供一种基于OpenCL标准的卷积神经网络加速方法,以在应对复杂的交通环境时,满足高的精确度要求和实时性要求。
本发明的技术方案完成如下:
一、技术原理
OpenCL(Open Computing Language)是第一个面向异构系统通用目的并行编程的标准,也是一个统一的编程环境,在异构架构下,主机CPU完成任务的调度与分配,而加速设备完成数据密集型的计算任务。利用OpenCL标准对图像算法进行加速的过程中,并行粒度的选择和数据的访存策略将直接影响到算法的加速效果。因此,利用OpenCL语言对图像算法进行加速时需要对并行粒度进行合理选择,以及对数据访存策略进行优化。主流的异构架构为CPU+GPU异构架构,与传统单一架构相比,异构架构能够更好的实现高性能并行计算,在深度学习、大数据和科学计算等领域有广阔的前景。此外,GPU相比于CPU有更大的数据吞吐量和更强的浮点计算能力,特别适合并行计算。卷积神经网络算法具有高度的并行性和较大的数据吞吐量,可以利用CPU+GPU的异构架构加速算法的执行速度。
本发明是在OpenCL标准下,通过对卷积神经网络的数据访存策略进行优化和对粒度进行合适选择,完成了卷积神经网络在异构架构下的并行加速。
二、技术方案
根据上述原理,本发明的实现方案包括如下:
1)将原始的三维图像数据读入到主机内存中,经过边缘扩展处理后,再将图像数据传递到GPU的全局内存中;
2)将训练得到的用于和图片数据卷积的权重和偏置数据从文本文件读入到主机内存中,再将权重和偏置数据传递到GPU的全局内存中;
3)将GPU的全局内存原始图片数据分块读入到GPU的局部内存中;
4)初始化卷积核尺寸为k=3*3,卷积层步长s=1,降采样层尺寸p=2*2,降采样层步长d=2,图片边缘扩展尺寸z=1;
5)构造含有阈值L的线性激活函数Leaky-ReLU模型:
其中,L为线性激活函数Leaky-ReLU模型的阈值,取值为L=0.1,x为大小1*1的图片数据;
6)计算卷积神经网络第十二层的图片数据:
将经过步骤1)和步骤3)得到的GPU局部内存中的原始图片数据与步骤2)得到的卷积神经网络第一层的权重数据进行卷积运算,并加上偏置数据进行激活函数Leaky-ReLU运算,再进行降采样处理,得到卷积神经网络第一层的图片数据,再依次进行卷积运算、激活函数Leaky-ReLU运算和降采样运算共六次,得到卷积神经网络第十二层的图片数据;
7)计算卷积神经网络第十五层的图片数据:
将由步骤6)得到的卷积神经网络第十二层的图片数据与卷积神经网络第十三层的权重数据进行卷积运算,得到卷积神经网络第十三层的图片数据,再依次经过两次卷积运算和激活函数Leaky-ReLU运算共二次,得到卷积神经网络第十五层的图片数据;
8)计算卷积神经网络第十八层的图片数据:
8a)将卷积神经网络第十五层的图片数据全部展成大小为1*1的一维数据,并将展开的一维数据与卷积神经网络第十六层的权重数据相乘相加,再加上偏置数据,得出卷积神经网络第十六层的图片数据;
8b)将卷积神经网络第十六层的图片数据与卷积神经网络第十七层的权重数据进行相乘相加,并加上偏置数据,再经过激活函数Leaky-ReLU运算后输出卷积神经网络第十七层的图片数据;
8c)将卷积神经网络第十七层的图片数据与卷积神经网络第十八层的权重数据进行相乘相加,并加上偏置数据,得出卷积神经网络第十八层的图片数据,即最终的计算结果,将该计算结果传回GPU全局内存;
9)将GPU的全局内存中的计算结果再传回到主机内存中,得出识别结果和运算时间。
本发明与现有技术相比的有益效果在于:
本发明由于对卷积神经网络算法进行了GPU并行加速计算,与现有技术中对卷积神经网络算法在单一架构CPU下串行计算相比,CPU+GPU异构架构,能够更好的实现高性能并行计算,同时由于GPU具有很大的数据吞吐量,对浮点的计算能力要远远高于CPU对浮点的计算能力,更适合数据密集型计算任务,因而本发明在保持卷积神经网络算法精确度能力不变的情况下,大幅提高了卷积神经网络算法的计算速度。
附图说明
图1是本发明的实现流程图;
图2是本发明使用的卷积神经网络结构图。
具体实施方式
以下结合附图对本发明的技术方案和效果做进一步详细描述。
参照图1,本发明的实现步骤包括如下:
步骤1,读入原始的三维图像数据,并将其传递到GPU的全局内存中。
1.1)输入大小为448*448的三维彩色道路图片,该原始图片数据读入到主机内存中;
1.2)选择但不限于AMD R9 200的GPU做为加速设备,将主机内存中的原始图片数据四个边界各扩展一位后传递到GPU的全局内存中。
步骤2,读取权重数据和偏置数据到GPU的全局内存中。
2.1)将由卷积神经网络训练得到的权重数据和偏置数据先存于文本文件中,再将文本文件读入到主机内存中;
2.2)将主机内存中的权重数据和偏置数据传递到GPU的全局内存。
步骤3,将GPU的全局内存原始图像数据读取到GPU的局部内存中。
考虑到所选GPU的单个工作的处理能力,将GPU全局内存中的原始图像数据分成若干个大小为10*10*4的浮点类型的数据块,并读入到GPU局部内存中。
步骤4,初始化参数。
初始化卷积核尺寸为k=3*3,卷积层步长s=1,降采样层尺寸p=2*2,降采样层步长d=2,图片边缘扩展尺寸z=1。
步骤5,构造含有阈值L的线性激活函数Leaky-ReLU模型:
其中,L为线性激活函数Leaky-ReLU模型的阈值,本发明取L=0.1,x为大小1*1的图片数据,当x小于0时,f(x)为线性激活函数Leaky-ReLU的阈值L和图片数据x乘积的结果,当x大于等于0时,图片数据直接赋值给f(x)。
步骤6,计算卷积神经网络第十二层的图片数据:
参照图2,本步骤的具体实现如下:
6.1)将经过步骤1)和步骤3)得到的GPU局部内存中的原始图片数据与步骤2)得到的卷积神经网络第一层的权重数据进行卷积运算,并加上偏置数据进行激活函数Leaky-ReLU运算,再进行降采样处理,得到卷积神经网络第一层的图片数据;
6.2)对卷积神经网络第一层的图片数据进行降采样处理,求出2*2窗口中四个数据的最大值,其中窗口移动步长为2;再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第二层的图片数据;
6.3)将卷积神经网络第二层的图片数据与卷积神经网络第三层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第三层的图片数据;
6.4)对卷积神经网络第三层的图片数据进行降采样处理,求出2*2窗口中四个数据的最大值,其中窗口移动步长为2;再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第四层的图片数据;
6.5)将卷积神经网络第四层的图片数据与卷积神经网络第五层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第五层的图片数据;
6.6)对卷积神经网络第五层的图片数据进行降采样处理,求出2*2窗口中四个数据的最大值,其中窗口移动步长为2;再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第六层的图片数据;
6.7)将卷积神经网络第六层的图片数据与卷积神经网络第七层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第七层的图片数据;
6.8)对卷积神经网络第七层的图片数据进行降采样处理,求出2*2窗口中四个数据的最大值,其中窗口移动步长为2;再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第八层的图片数据;
6.9)将卷积神经网络第八层的图片数据与卷积神经网络第九层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第九层的图片数据;
6.10)对卷积神经网络第九层的图片数据进行降采样处理,求出2*2窗口中四个数据的最大值,其中窗口移动步长为2;再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第十层的图片数据;
6.12)将卷积神经网络第十层的图片数据与卷积神经网络第十一层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第十一层的图片数据;
6.13)对卷积神经网络第十一层的图片数据进行降采样处理,求出2*2窗口中四个数据的最大值,其中窗口移动步长为2;再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第十二层的图片数据。
所述权重包含在卷积核中,卷积核可以理解为含有权重数据的滑动窗口,以步长为一在图片上滑动,将对应的权重数据和图片数据相乘相加,并加上偏置数据进行激活函数计算后输出到GPU全局内存中。
步骤7,计算卷积神经网络第十五层的图片数据:
参照图2,本步骤的具体实现如下:
7.1)将由步骤6)得到的卷积神经网络第十二层的图片数据与GPU全局内存中卷积神经网络第十三层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第十三层的图片数据;
7.2)将卷积神经网络第十三层的图片数据与卷积神经网络第十四层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第十四层的图片数据;
7.3)将卷积神经网络第十四层的图片数据与卷积神经网络第十五层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第十五层的图片数据。
步骤8,计算卷积神经网络第十八层的图片数据:
参照图2,本步骤的具体实现如下:
8.1)将卷积神经网络第十五层的图片数据全部展成大小为1*1的一维数据,并将展开的一维数据与卷积神经网络第十六层的权重数据相乘相加,再加上偏置数据,得出卷积神经网络第十六层的图片数据;
8.2)将卷积神经网络第十六层的图片数据与卷积神经网络第十七层的权重数据进行相乘相加,并加上偏置数据,再经过激活函数运算后输出卷积神经网络第十七层的图片数据;
8.3)将卷积神经网络第十七层的图片数据与卷积神经网络第十八层的权重数据进行相乘相加,并加上偏置数据,得出卷积神经网络第十八层的图片数据,即最终的计算结果,将该计算结果传回GPU全局内存。
步骤9,将GPU的全局内存中的结果数据传回到主机内存中,得出识别结果和运算时间。完成基于OpenCL标准的卷积神经网络方法的加速实现。
对本发明的技术效果可通过以下实验进一步详细描述:
1.实验环境:
异构平台为AMD异构开发平台,其中主机端通用CPU为Intel Xeon E5410 CPU,加速设备GPU为AMD R9 200 GPU,软件环境为Visual Studio 2013和AMD APP SDKv2.9,操作系统为Windows 7。
2.实验内容:
对输入的原始图像分别在CPU和GPU下做处理,对CPU和GPU运行环境下计算速度分别进行评定,结果如表1。
表1给出了卷积神经网络算法不同层的计算时间,并给出最终加速比,加速设备GPU采用AMD R9 200,选取原始图像为448*488的RGB彩色道路图像;
表1 本发明方法在GPU和CPU上运算性能对比
网络层 浮点32位数据 Intel Xeon E5410 CPU AMD R9 200 GPU
输入图片数据—输出图片数据 2.33GHZ(ms) 1150MHZ(ms)
第一层 450*450*3—448*448*16 323580.34375 630.963013
第二层 448*448*16—224*224*16 17502.148438 186.222000
第三层 226*226*16—224*224*32 212142.828125 1560.00000
第四层 224*224*32—112*112*32 8797.269531 79.406990
第五层 114*114*32—112*112*64 116569.539063 1561.482056
第六层 112*112*64—56*56*64 4443.950195 32.889000
第七层 58*58*64—56*56*128 71017.406250 1611.555054
第八层 56*56*128—28*28*128 1941.066040 20.296000
第九层 30*30*128—28*28*256 52848.726563 1688.592041
第十层 28*28*256—14*14*256 728.559998 12.740000
第十一层 16*16*256—14*14*512 49577.253903 2278.666992
第十二层 14*14*512—7*7*512 216.897003 9.777000
第十三层 9*9*512—7*7*1024 45594.367188 2291.852051
第十四层 9*9*1024—7*7*1024 89797.179688 4928.741211
第十五层 9*9*1024—7*7*1024 89950.273438 4591.556152
第十六层 49*1024—256 21828.632813 27521.332031
第十七层 256—4096 1111.756958 3239.852051
第十八层 4096—1470 5921.74707 9695.850586
总时间 922669.947014 61941.774228
加速比 1.00x 14.89x
由表1可以看出,本发明所提出的基于OpenCL标准的卷积神经网络方法在GPU上的处理速度较比在CPU上获得了14.89的加速比,处理速度有了显著的提高,。
综上所述,基于OpenCL标准的卷积神经网络方法在GPU上获得了14.89倍加速的效果,有效的解决了传统卷积神经网络在CPU上运算效率低的问题,可以满足卷积神经网络算法对计算能力的需求。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制。显然对于本领域的专业人员来说,在了解本发明内容和原理后,都可能在不背离本发明的原理、结构的情况下,进行形式和细节上的各种修正和改变,但是这些基于发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (3)

1.一种基于OpenCL标准的卷积神经网络加速方法,包括:
1)将原始的三维图像数据读入到主机内存中,经过边缘扩展处理后,再将图像数据传递到GPU的全局内存中;
2)将训练得到的用于和图片数据卷积的权重和偏置数据从文本文件读入到主机内存中,再将权重和偏置数据传递到GPU的全局内存中;
3)将GPU的全局内存原始图片数据分块读入到GPU的局部内存中;
4)初始化卷积核尺寸为k=3*3,卷积层步长s=1,降采样层尺寸p=2*2,降采样层步长d=2,图片边缘扩展尺寸z=1;
5)构造含有阈值L的线性激活函数Leaky-ReLU模型:
<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>L</mi> <mo>*</mo> <mi>x</mi> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>x</mi> <mo>&lt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>x</mi> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>x</mi> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>
其中,L为线性激活函数Leaky-ReLU模型的阈值,取值为L=0.1,x为大小1*1的图片数据;
6)计算卷积神经网络第十二层的图片数据:
将经过步骤1)和步骤3)得到的GPU局部内存中的原始图片数据与步骤2)得到的卷积神经网络第一层的权重数据进行卷积运算,并加上偏置数据进行激活函数Leaky-ReLU运算,再进行降采样处理,得到卷积神经网络第一层的图片数据,再依次进行卷积运算、激活函数Leaky-ReLU运算和降采样运算共六次,得到卷积神经网络第十二层的图片数据;
7)计算卷积神经网络第十五层的图片数据:
将由步骤6)得到的卷积神经网络第十二层的图片数据与卷积神经网络第十三层的权重数据进行卷积运算,得到卷积神经网络第十三层的图片数据,再依次经过两次卷积运算和激活函数Leaky-ReLU运算共二次,得到卷积神经网络第十五层的图片数据;
8)计算卷积神经网络第十八层的图片数据:
8a)将卷积神经网络第十五层的图片数据全部展成大小为1*1的一维数据,并将展开的一维数据与卷积神经网络第十六层的权重数据相乘相加,再加上偏置数据,得出卷积神经网络第十六层的图片数据;
8b)将卷积神经网络第十六层的图片数据与卷积神经网络第十七层的权重数据进行相乘相加,并加上偏置数据,再经过激活函数Leaky-ReLU运算后输出卷积神经网络第十七层的图片数据;
8c)将卷积神经网络第十七层的图片数据与卷积神经网络第十八层的权重数据进行相乘相加,并加上偏置数据,得出卷积神经网络第十八层的图片数据,即最终的计算结果,将该计算结果传回GPU全局内存;
9)将GPU的全局内存中的计算结果再传回到主机内存中,得出识别结果和运算时间。
2.根据权利要求1所述的方法,其特征在于:步骤6)中卷积神经网络第十二层的图片数据,按如下步骤计算获得:
6a)对卷积神经网络第一层的图片数据进行降采样处理,求出2*2窗口中四个数据的最大值,其中窗口移动步长为2;再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第二层的图片数据;
6b)将卷积神经网络第二层的图片数据与卷积神经网络第三层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第三层的图片数据;
6c)对卷积神经网络第三层的图片数据进行降采样处理,求出2*2窗口中四个数据的最大值,其中窗口移动步长为2;再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第四层的图片数据;
6d)将卷积神经网络第四层的图片数据与卷积神经网络第五层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第五层的图片数据;
6e)对卷积神经网络第五层的图片数据进行降采样处理,求出2*2窗口中四个数据的最大值,其中窗口移动步长为2;再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第六层的图片数据;
6f)将卷积神经网络第六层的图片数据与卷积神经网络第七层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第七层的图片数据;
6g)对卷积神经网络第七层的图片数据进行降采样处理,求出2*2窗口中四个数据的最大值,其中窗口移动步长为2;再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第八层的图片数据;
6h)将卷积神经网络第八层的图片数据与卷积神经网络第九层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第九层的图片数据;
6i)对卷积神经网络第九层的图片数据进行降采样处理,求出2*2窗口中四个数据的最大值,其中窗口移动步长为2;再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第十层的图片数据;
6j)将卷积神经网络第十层的图片数据与卷积神经网络第十一层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第十一层的图片数据;
6k)对卷积神经网络第十一层的图片数据进行降采样处理,求出2*2窗口中四个数据的最大值,其中窗口移动步长为2;再将每张输出图片的四个边缘扩展一位后输出卷积神经网络第十二层的图片数据。
3.根据权利要求1所述的方法,其特征在于:步骤7)中卷积神经网络第十五层的图片数据,按如下步骤计算获得:
7a)将卷积神经网络第十三层的图片数据与卷积神经网络第十四层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第十四层的图片数据;
7b)将卷积神经网络第十四层的图片数据与卷积神经网络第十五层的权重数据进行相乘相加,并加上偏置数据进行激活函数Leaky-ReLU运算,再对图片四个边缘做扩展一位处理后输出卷积神经网络第十五层的图片数据。
CN201710543986.0A 2017-07-05 2017-07-05 基于OpenCL标准的卷积神经网络加速方法 Active CN107341127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710543986.0A CN107341127B (zh) 2017-07-05 2017-07-05 基于OpenCL标准的卷积神经网络加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710543986.0A CN107341127B (zh) 2017-07-05 2017-07-05 基于OpenCL标准的卷积神经网络加速方法

Publications (2)

Publication Number Publication Date
CN107341127A true CN107341127A (zh) 2017-11-10
CN107341127B CN107341127B (zh) 2020-04-14

Family

ID=60219494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710543986.0A Active CN107341127B (zh) 2017-07-05 2017-07-05 基于OpenCL标准的卷积神经网络加速方法

Country Status (1)

Country Link
CN (1) CN107341127B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171117A (zh) * 2017-12-05 2018-06-15 南京南瑞信息通信科技有限公司 基于多核异构并行计算的电力人工智能视觉分析系统
CN108470211A (zh) * 2018-04-09 2018-08-31 郑州云海信息技术有限公司 一种卷积计算的实现方法、设备和计算机存储介质
CN108537334A (zh) * 2018-04-26 2018-09-14 济南浪潮高新科技投资发展有限公司 一种针对cnn卷积层运算的加速阵列设计方法
CN108572593A (zh) * 2018-04-27 2018-09-25 北京源码矩阵科技有限公司 跨平台卷积神经网络控制系统及方法、信息数据处理终端
CN109086867A (zh) * 2018-07-02 2018-12-25 武汉魅瞳科技有限公司 一种基于fpga的卷积神经网络加速系统
CN109684143A (zh) * 2018-12-26 2019-04-26 郑州云海信息技术有限公司 一种基于深度学习的测试gpu性能的方法及装置
CN110097180A (zh) * 2018-01-29 2019-08-06 上海寒武纪信息科技有限公司 计算机设备、数据处理方法及存储介质
CN110097179A (zh) * 2018-01-29 2019-08-06 上海寒武纪信息科技有限公司 计算机设备、数据处理方法及存储介质
CN110147252A (zh) * 2019-04-28 2019-08-20 深兰科技(上海)有限公司 一种卷积神经网络的并行计算方法及装置
CN110490300A (zh) * 2019-07-26 2019-11-22 苏州浪潮智能科技有限公司 一种基于深度学习的运算加速方法、装置及系统
CN110597555A (zh) * 2019-08-02 2019-12-20 北京航空航天大学 非易失性存内计算芯片及其运算控制方法
CN110929627A (zh) * 2019-11-18 2020-03-27 北京大学 基于宽模型稀疏数据集的高效gpu训练模型的图像识别方法
WO2020095155A1 (en) * 2018-11-05 2020-05-14 International Business Machines Corporation Large model support in deep learning
CN112748998A (zh) * 2021-01-21 2021-05-04 中南大学 一种移动端的卷积神经网络任务调度方法及系统
CN112819149A (zh) * 2021-01-16 2021-05-18 西安交通大学 一种卷积神经网络图像处理系统及方法
CN112819140A (zh) * 2021-02-02 2021-05-18 电子科技大学 基于OpenCL的FPGA一维信号识别神经网络加速方法
US11113103B2 (en) 2017-11-20 2021-09-07 Shanghai Cambricon Information Technology Co., Ltd Task parallel processing method, apparatus and system, storage medium and computer device
CN113487018A (zh) * 2021-07-28 2021-10-08 辽宁工程技术大学 一种基于会话推荐的全局上下文增强图神经网络方法
CN114066005A (zh) * 2021-10-08 2022-02-18 西安电子科技大学 一种基于cnn网络的碳化硅二极管击穿电压的预测方法
CN114066005B (zh) * 2021-10-08 2024-06-04 西安电子科技大学 一种基于cnn网络的碳化硅二极管击穿电压的预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463324A (zh) * 2014-11-21 2015-03-25 长沙马沙电子科技有限公司 一种基于大规模高性能集群的卷积神经网络并行处理方法
CN105869117A (zh) * 2016-03-28 2016-08-17 上海交通大学 一种针对深度学习超分辨率技术的gpu加速方法
US20160307071A1 (en) * 2015-04-20 2016-10-20 Xerox Corporation Fisher vectors meet neural networks: a hybrid visual classification architecture
CN106056529A (zh) * 2015-04-03 2016-10-26 阿里巴巴集团控股有限公司 一种对用于图片识别的卷积神经网络训练的方法与设备
CN106651748A (zh) * 2015-10-30 2017-05-10 华为技术有限公司 一种图像处理方法与图像处理装置
US20170132514A1 (en) * 2012-12-24 2017-05-11 Google Inc. System and method for parallelizing convolutional neural networks
CN106780360A (zh) * 2016-11-10 2017-05-31 西安电子科技大学 基于OpenCL标准的快速全变分图像去噪方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132514A1 (en) * 2012-12-24 2017-05-11 Google Inc. System and method for parallelizing convolutional neural networks
CN104463324A (zh) * 2014-11-21 2015-03-25 长沙马沙电子科技有限公司 一种基于大规模高性能集群的卷积神经网络并行处理方法
CN106056529A (zh) * 2015-04-03 2016-10-26 阿里巴巴集团控股有限公司 一种对用于图片识别的卷积神经网络训练的方法与设备
US20160307071A1 (en) * 2015-04-20 2016-10-20 Xerox Corporation Fisher vectors meet neural networks: a hybrid visual classification architecture
CN106651748A (zh) * 2015-10-30 2017-05-10 华为技术有限公司 一种图像处理方法与图像处理装置
CN105869117A (zh) * 2016-03-28 2016-08-17 上海交通大学 一种针对深度学习超分辨率技术的gpu加速方法
CN106780360A (zh) * 2016-11-10 2017-05-31 西安电子科技大学 基于OpenCL标准的快速全变分图像去噪方法

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11113103B2 (en) 2017-11-20 2021-09-07 Shanghai Cambricon Information Technology Co., Ltd Task parallel processing method, apparatus and system, storage medium and computer device
US11113104B2 (en) 2017-11-20 2021-09-07 Shanghai Cambricon Information Technology Co., Ltd Task parallel processing method, apparatus and system, storage medium and computer device
US11221877B2 (en) 2017-11-20 2022-01-11 Shanghai Cambricon Information Technology Co., Ltd Task parallel processing method, apparatus and system, storage medium and computer device
US11360811B2 (en) 2017-11-20 2022-06-14 Shanghai Cambricon Information Technology Co., Ltd Task parallel processing method, apparatus and system, storage medium and computer device
WO2019109771A1 (zh) * 2017-12-05 2019-06-13 南京南瑞信息通信科技有限公司 基于多核异构并行计算的电力人工智能视觉分析系统
CN108171117A (zh) * 2017-12-05 2018-06-15 南京南瑞信息通信科技有限公司 基于多核异构并行计算的电力人工智能视觉分析系统
CN108171117B (zh) * 2017-12-05 2019-05-21 南京南瑞信息通信科技有限公司 基于多核异构并行计算的电力人工智能视觉分析系统
CN110097179A (zh) * 2018-01-29 2019-08-06 上海寒武纪信息科技有限公司 计算机设备、数据处理方法及存储介质
CN110097180A (zh) * 2018-01-29 2019-08-06 上海寒武纪信息科技有限公司 计算机设备、数据处理方法及存储介质
CN110097179B (zh) * 2018-01-29 2020-03-10 上海寒武纪信息科技有限公司 计算机设备、数据处理方法及存储介质
CN108470211A (zh) * 2018-04-09 2018-08-31 郑州云海信息技术有限公司 一种卷积计算的实现方法、设备和计算机存储介质
CN108537334A (zh) * 2018-04-26 2018-09-14 济南浪潮高新科技投资发展有限公司 一种针对cnn卷积层运算的加速阵列设计方法
CN108572593B (zh) * 2018-04-27 2020-12-18 北京源码矩阵科技有限公司 跨平台卷积神经网络控制系统及方法、信息数据处理终端
CN108572593A (zh) * 2018-04-27 2018-09-25 北京源码矩阵科技有限公司 跨平台卷积神经网络控制系统及方法、信息数据处理终端
CN109086867A (zh) * 2018-07-02 2018-12-25 武汉魅瞳科技有限公司 一种基于fpga的卷积神经网络加速系统
CN113168396A (zh) * 2018-11-05 2021-07-23 国际商业机器公司 深度学习中的大模型支持
US11915147B2 (en) 2018-11-05 2024-02-27 International Business Machines Corporation Large model support in deep learning
US11526759B2 (en) 2018-11-05 2022-12-13 International Business Machines Corporation Large model support in deep learning
GB2591028A (en) * 2018-11-05 2021-07-14 Ibm Large model support in deep learning
WO2020095155A1 (en) * 2018-11-05 2020-05-14 International Business Machines Corporation Large model support in deep learning
GB2591028B (en) * 2018-11-05 2022-09-14 Ibm Large model support in deep learning
CN109684143A (zh) * 2018-12-26 2019-04-26 郑州云海信息技术有限公司 一种基于深度学习的测试gpu性能的方法及装置
CN110147252A (zh) * 2019-04-28 2019-08-20 深兰科技(上海)有限公司 一种卷积神经网络的并行计算方法及装置
CN110490300B (zh) * 2019-07-26 2022-03-15 苏州浪潮智能科技有限公司 一种基于深度学习的运算加速方法、装置及系统
CN110490300A (zh) * 2019-07-26 2019-11-22 苏州浪潮智能科技有限公司 一种基于深度学习的运算加速方法、装置及系统
CN110597555A (zh) * 2019-08-02 2019-12-20 北京航空航天大学 非易失性存内计算芯片及其运算控制方法
CN110597555B (zh) * 2019-08-02 2022-03-04 北京航空航天大学 非易失性存内计算芯片及其运算控制方法
CN110929627B (zh) * 2019-11-18 2021-12-28 北京大学 基于宽模型稀疏数据集的高效gpu训练模型的图像识别方法
CN110929627A (zh) * 2019-11-18 2020-03-27 北京大学 基于宽模型稀疏数据集的高效gpu训练模型的图像识别方法
CN112819149A (zh) * 2021-01-16 2021-05-18 西安交通大学 一种卷积神经网络图像处理系统及方法
CN112819149B (zh) * 2021-01-16 2022-12-09 西安交通大学 一种卷积神经网络图像处理系统及方法
CN112748998B (zh) * 2021-01-21 2023-10-03 中南大学 一种移动端的卷积神经网络任务调度方法及系统
CN112748998A (zh) * 2021-01-21 2021-05-04 中南大学 一种移动端的卷积神经网络任务调度方法及系统
CN112819140B (zh) * 2021-02-02 2022-06-24 电子科技大学 基于OpenCL的FPGA一维信号识别神经网络加速方法
CN112819140A (zh) * 2021-02-02 2021-05-18 电子科技大学 基于OpenCL的FPGA一维信号识别神经网络加速方法
CN113487018A (zh) * 2021-07-28 2021-10-08 辽宁工程技术大学 一种基于会话推荐的全局上下文增强图神经网络方法
CN114066005A (zh) * 2021-10-08 2022-02-18 西安电子科技大学 一种基于cnn网络的碳化硅二极管击穿电压的预测方法
CN114066005B (zh) * 2021-10-08 2024-06-04 西安电子科技大学 一种基于cnn网络的碳化硅二极管击穿电压的预测方法

Also Published As

Publication number Publication date
CN107341127B (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN107341127A (zh) 基于OpenCL标准的卷积神经网络加速方法
CN108765247A (zh) 图像处理方法、装置、存储介质及设备
CN106529668A (zh) 加速深度神经网络算法的加速芯片的运算装置及方法
CN107862374A (zh) 基于流水线的神经网络处理系统和处理方法
US20190244329A1 (en) Photorealistic Image Stylization Using a Neural Network Model
CN106951395A (zh) 面向压缩卷积神经网络的并行卷积运算方法及装置
CN111967468A (zh) 一种基于fpga的轻量级目标检测神经网络的实现方法
CN108665059A (zh) 基于现场可编程门阵列的卷积神经网络加速系统
CN107341544A (zh) 一种基于可分割阵列的可重构加速器及其实现方法
RU2008107746A (ru) Обучение сверточных нейронных сетей на графических процессорах
CN107145939A (zh) 一种神经网络优化方法及装置
US11797855B2 (en) System and method of accelerating execution of a neural network
CN107066239A (zh) 一种实现卷积神经网络前向计算的硬件结构
CN108205703B (zh) 多输入多输出矩阵平均值池化向量化实现方法
CN108665063A (zh) 用于bnn硬件加速器的双向并行处理卷积加速系统
CN107766292A (zh) 一种神经网络处理方法及处理系统
CN106023091A (zh) 基于图形处理器的图像实时去雾方法
WO2022007867A1 (zh) 神经网络的构建方法和装置
CN110147252A (zh) 一种卷积神经网络的并行计算方法及装置
CN107886166A (zh) 一种执行人工神经网络运算的装置和方法
CN108171328A (zh) 一种卷积运算方法和基于该方法的神经网络处理器
Yoo et al. Fast depthwise separable convolution for embedded systems
CN113792621A (zh) 一种基于fpga的目标检测加速器设计方法
US20220044104A1 (en) Method and apparatus for forward computation of neural network, and computer-readable storage medium
CN110009644B (zh) 一种特征图行像素分段的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant