CN110458280B

CN110458280B - 一种适用于移动端的卷积神经网络加速方法及系统

Info

Publication number: CN110458280B
Application number: CN201910637446.8A
Authority: CN
Inventors: 李开; 邹复好; 李全
Original assignee: Wuhan Meitong Technology Co ltd
Current assignee: Wuhan Meitong Technology Co ltd
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2022-08-30
Anticipated expiration: 2039-07-15
Also published as: CN110458280A

Abstract

本发明公开了一种适用于移动端的卷积神经网络加速方法及系统，其通过获取待检测图像的参数，利用预设的神经网络模型得到第一线程索引数据和第二线程索引数据，第一滑动窗口位置坐标作为第一线程索引标识，调用第一线程索引数据获取第一卷积输入数据，与第一滑动窗口位置坐标对应的第一卷积核数据进行内积计算；利用多线程并行计算得到当前通道的第一特征图数据；第二滑动窗口位置坐标作为第二线程索引标识，调用第二线程索引数据获得第二卷积输入数据，利用多线程并行计算得到第二输出特征图的所有输出数据，从而实现深度可分离卷积和逐点卷积的并行计算，提高待检测图像的检测速度。

Description

一种适用于移动端的卷积神经网络加速方法及系统

技术领域

本发明属于图像处理领域，具体涉及一种适用于移动端的卷积神经网络加速方法及系统。

背景技术

自20世纪80年代以来，人工智能领域逐渐兴起，早期的人工神经网络(ANN，Artificial Neural Network)结构简单，只能完成一些简单的人工智能任务。随着数据学科和并行计算学科和并行计算学科发展，数据量持续增长，计算机的计算能力不断提高，使得更深、更复杂的神经网络也能有很好的学习能力，从此深度学习在人工智能领域开始暂露头角，

卷积神经网络(CNN，Convolutional Neural Network)作为深度学习发展最重要的分支之一，它的发展是最为成熟的，并广泛应用于各种图形图像视频处理的任务中。卷积神经网络发展如此迅速，除训练数据规模增长和计算能力提升外，还得益于各种卷积神经网络框架。现有的卷积神经网络应用大多是部署在服务器或桌面机平台上，而移动端才是应用最广泛、用户量最多的应用平台，将卷积神经网络应用移动化才能最大限度推动深度学习应用的发展。

自2016年来，移动端的卷积神经网络不断发展，很多轻量化的网络结构被提出，包含深度可分离卷积结构的MobileNets卷积神经网络就是其中应用最广泛的网络之一。从网络结构设计的角度出发，已经将网络模型的参数量和计算量降低，但在现有的一些移动端卷积神经网络框架中，一些网络层数较深的卷积神经网络前向仍然比较缓慢，尤其在实时性要求较高的应用中，如实时视频流处理，这些现有的移动端卷积神经网络框架的计算速度不能满足应用需求。因此，进一步提升卷积神经网络在移动端的计算速度，才能解决移动端卷积神经网络在实时性应用中的速度问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种适用于移动端的卷积神经网络加速方法及系统，其通过多线程索引分别实现多线程并行获取多个通道的特征图数据，同时利用多线程并行计算得到待检测图像多通道的输出特征图数据，实现深度可分离卷积和逐点卷积的并行计算，以提高待检测图像的检测速度。

为实现上述目的，按照本发明的一个方面，提供了一种适用于移动端的卷积神经网络加速方法，该移动端包括多个深度可分离卷积计算单元和多个逐点卷积计算单元，包括如下步骤：

获取待检测图像的参数，利用预设的神经网络模型得到与多个深度可分离卷积计算单元一一对应的多个第一线程索引数据，与多个逐点卷积计算单元一一对应的多个第二线程索引数据，第一线程索引数据包括第一滑动窗口位置坐标、对应通道编号、第一滑动窗口尺寸和与第一滑动窗口位置坐标一一对应的第一卷积核数据，第二线程索引数据包括第二滑动窗口位置坐标、对应通道编号、第二滑动窗口尺寸和与第二滑动窗口位置坐标一一对应的第二卷积核数据；

第一滑动窗口位置坐标作为第一线程索引标识进行第一线程索引数据存储，第二滑动窗口位置坐标作为第二线程索引标识进行第二线程索引数据存储；

获取待检测图像的三维数据，利用当前通道的第一线程索引标识调用第一线程索引数据，依据第一滑动窗口内的待检测图像的三维数据作为第一卷积输入数据，该第一卷积输入数据与第一滑动窗口位置坐标对应的第一卷积核数据进行内积计算；利用移动端的多个深度可分离卷积计算单元进行多线程并行计算，遍历当前通道的第一线程索引标识，得到当前通道的第一特征图数据；

利用当前通道的第二线程索引标识调用第二线程索引数据，依据第二滑动窗口内的当前通道的第一特征图数据作为第二卷积输入数据，该第二卷积输入数据与第二滑动窗口位置坐标对应的第二卷积核数据进行内积计算，得到当前通道的第二特征图数据；

利用移动端的多个逐点卷积计算单元多线程并行计算，遍历所有通道的线程索引，得到第二输出特征图的所有输出数据，以提高对待检测图像的检测速度。

作为本发明的进一步改进，第一线程索引数据和/或第二线程索引数据采用向量化存储方式。

作为本发明的进一步改进，通过加载指令将第一线程索引数据和/或第二线程索引数据加载为float16类型向量，调用向量内积指令实现内积计算。

为实现上述目的，按照本发明的另一个方面，提供了一种适用于移动端的卷积神经网络加速系统，其包括依次连接的卷积核神经网络模块、深度可分离卷积计算模块、逐点卷积计算模块和数据存储模块，其中，数据存储模块还连接卷积核神经网络模块和深度可分离卷积计算模块，深度可分离卷积计算模块包括多个深度可分离卷积计算单元，逐点卷积计算模块包括多个逐点卷积计算单元，

卷积核神经网络模块用于获取待检测图像的参数，利用预设的神经网络模型利用预设的神经网络模型得到与多个深度可分离卷积计算单元一一对应的多个第一线程索引数据，与多个逐点卷积计算单元一一对应的多个第二线程索引数据，第一线程索引数据包括第一滑动窗口位置坐标、对应通道编号、第一滑动窗口尺寸和与第一滑动窗口位置坐标一一对应的第一卷积核数据，第二线程索引数据包括第二滑动窗口位置坐标、对应通道编号、第二滑动窗口尺寸和与第二滑动窗口位置坐标一一对应的第二卷积核数据；

数据存储模块用于存储卷积核神经网络模块发送的第一线程索引数据和第二线程索引数据，其中，第一线程索引数据和第二线程索引数据的存储过程为：

深度可分离卷积计算模块用于获取待检测图像的三维数据，利用当前通道的第一线程索引标识调用第一线程索引数据，依据第一滑动窗口内的待检测图像的三维数据作为第一卷积输入数据，该第一卷积输入数据与第一滑动窗口位置坐标对应的第一卷积核数据进行内积计算；利用移动端的多个深度可分离卷积计算单元进行多线程并行计算，遍历当前通道的第一线程索引标识，从而得到当前通道的第一特征图数据；

逐点卷积计算模块用于接收当前通道的第一特征图数据，利用当前通道的第二线程索引标识调用第二线程索引数据，依据第二滑动窗口内的当前通道的第一特征图数据作为第二卷积输入数据，该第二卷积输入数据与第二滑动窗口位置坐标对应的第二卷积核数据进行内积计算，得到当前通道的第二特征图数据；利用移动端的多个逐点卷积计算单元进行多线程并行计算，遍历所有通道的线程索引，得到第二输出特征图的所有输出数据，以提高对待检测图像的检测速度。

作为本发明的进一步改进，数据存储模块包括float向量模块，该模块用于以float向量类型存储第一线程索引数据和/或第二线程索引数据。

作为本发明的进一步改进，数据存储模块通过加载指令将第一线程索引数据和/或第二线程索引数据加载为float16类型向量，深度可分离卷积计算模块和/或逐点卷积计算模块调用向量内积指令实现内积计算。

作为本发明的进一步改进，用于搭建的卷积核神经网络模块的模型框架包括：Caffe、tensorflow、MXNet和Pytorch。

作为本发明的进一步改进，该系统可利用基于Mali GPU的移动设备实现，具体过程为：

获取用于计算的Mali GPU设备，依据第一索引数据和第二索引数据分布情况，通过操作命令入队的方式在调用设备上的计算资源，操作命令包括全局内存向主存传输命令、主存向全局内存传输命令和内核函数执行命令；在.cl文件中创建内核函数以实现深度可分离卷积计算模块和/或逐点卷积计算模块的内核函数的构建。

作为本发明的进一步改进，卷积核神经网络模块还用于依据各通道的深度可分离卷积和逐点卷积所占的内存空间大小，创建对应的缓冲区。

作为本发明的进一步改进，深度可分离卷积计算模块和/或逐点卷积计算模块执行操作命令并调用内核函数实现卷积计算。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明的一种适用于移动端的卷积神经网络加速方法及系统，其通过多线程索引分别实现多线程并行获取多个通道的特征图数据，同时利用多线程并行计算得到待检测图像多通道的输出特征图数据，从而实现深度可分离卷积和逐点卷积的并行计算，以提高待检测图像的检测速度。

本发明的一种适用于移动端的卷积神经网络加速方法及系统，其利用向量化存储第一线程索引数据和/或第二线程索引数据，通过调用内积指令实现内积的向量化计算，从而进一步提高待检测图像的检测速度。

本发明的一种适用于移动端的卷积神经网络加速方法及系统，其通过建立适应移动端设备的深度可分离卷积结构为网络主干，轻量化网络结构，降低网络参数量和计算量，减小网络的存储开销和计算开销，降低网络计算过程中的设备负载。

附图说明

图1是本发明实施例的一种适用于移动端的卷积神经网络加速系统的结构示意图；

图2是本发明实施例的深度可分离卷积并行计算的示意图；

图3是本发明实施例的逐点卷积计算的示意图。

图4是本发明实施例的卷积神经网络加速系统的网络示意图；

图5是本发明实施例的卷积神经网络加速系统基于Mali GPU实现的网络示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合具体实施方式对本发明进一步详细说明。

Mali GPU：一款高端GPU，用于将图形IP视觉娱乐变为现实，市场上安卓智能手机该部件的配置比例不到30％，可与PowerVR SGX系列GPU对比。

OpenCL：Mali GPU的开发平台。

一种适用于移动端的卷积神经网络加速方法，该移动端包括多个深度可分离卷积计算单元和多个逐点卷积计算单元，其特征在于，包括如下步骤：

作为一个优选的实施例，滑动窗口与卷积核的内积计算可采用向量化计算以提高计算速度。进一步地，数据存储模块设置有float16类型向量模块，float16是长度为16的float类型的向量，该向量模块用于存储多线程索引数据，数据存储模块通过加载指令将多线程索引数据加载为float16类型向量，深度可分离卷积计算模块和/或逐点卷积计算模块调用向量内积指令实现内积计算。

图1是本发明实施例的一种适用于移动端的卷积神经网络加速系统的结构示意图。如图1所示，其包括依次连接的卷积核神经网络模块、深度可分离卷积计算模块、逐点卷积计算模块和数据存储模块，其中，数据存储模块还连接卷积核神经网络模块和深度可分离卷积计算模块，深度可分离卷积计算模块包括多个深度可分离卷积计算单元，逐点卷积计算模块包括多个逐点卷积计算单元，

图2是本发明实施例的深度可分离卷积并行计算的示意图。如图2所示，其中，以各个通道调用对应的多个第一线程索引标识进行相应的深度可分离卷积计算，依据第一滑动窗口内的待检测图像的三维数据作为第一卷积输入数据，该第一卷积输入数据与第一滑动窗口位置坐标对应的第一卷积核数据进行内积计算；利用移动端的多个深度可分离卷积计算单元进行多线程并行计算，遍历当前通道的第一线程索引标识，从而得到当前通道的第一特征图数据；作为一个优选的实施例，滑动窗口与卷积核的内积计算可采用向量化计算以提高计算速度。进一步地，数据存储模块设置有float16类型向量模块，float16是长度为16的float类型的向量，该向量模块用于存储第一线程索引数据和第二线程索引数据，数据存储模块通过加载指令将多线程索引数据加载为float16类型向量，深度可分离卷积计算模块和/或逐点卷积计算模块调用向量内积指令实现内积计算；

以滑动窗口位置坐标形成线程索引的线程规划，当前通道的线程索引的线程计算对应位置的卷积输出，通过多通道的数据并行的方式并行加速卷积计算，单个通道的线程计算滑动窗口与卷积核数据的内积，通过向量内积计算，遍历当前通道的所有索引，进而可以完成当前通道的深度可分离卷积计算；

逐点卷积计算模块用于接收当前通道的第一特征图数据，利用当前通道的第二线程索引标识调用第二线程索引数据，依据第二滑动窗口内的当前通道的第一特征图数据作为第二卷积输入数据，该第二卷积输入数据与第二滑动窗口位置坐标对应的第二卷积核数据进行内积计算，得到当前通道的第二特征图数据；利用移动端的多个逐点卷积计算单元多线程并行计算，遍历所有通道的线程索引，得到第二输出特征图的所有输出数据，以提高对待检测图像的检测速度。

图3是本发明实施例的逐点卷积计算的示意图。如图3所示，其中，以各个通道调用对应的多个第二线程索引标识进行相应的逐点卷积计算，依据第二滑动窗口内的当前通道的第一特征图数据作为第二卷积输入数据，该第二卷积输入数据与第二滑动窗口位置坐标对应的第二卷积核数据进行内积计算，得到当前通道的第二特征图数据；利用移动端的多个逐点卷积计算单元多线程并行计算，遍历所有通道的线程索引，得到第二输出特征图的所有输出数据；作为一个优选的实施例，滑动窗口与卷积核的内积计算可采用向量化计算以提高计算速度。进一步地，数据存储模块设置有float16类型向量模块，float16是长度为16的float类型的向量，该向量模块用于存储第一线程索引数据和第二线程索引数据，数据存储模块通过加载指令将多线程索引数据加载为float16类型向量，深度可分离卷积计算模块和/或逐点卷积计算模块调用向量内积指令实现内积计算；

图4是本发明实施例的卷积神经网络加速系统的网络示意图。如图4所示，作为一个示例，用于训练的卷积神经网络模型的框架有Caffe、tensorflow、MXNet和Pytorch，作为一个优选，以Caffe为示例，以训练好卷积神经网络的网络结构文件和网络参数文件创建网络对象，遍历网络的每一层，将网络结构文件中的层类型、输入帧规格和输出帧规格写到新的网络结构文件中，若遍历到卷积层还需将多线程索引、padding、stride、group等参数写到新的网络结构文件中，再将量化后的网络模型参数写到新的模型参数文件中，到此便完成了离线预处理阶段的网络模型转换。将转换后的网络结构文件和网络模型参数加载到model对象和layer对象中，根据网络结构文件中层类型指定每一层的forward函数，模型加载成功后，再加载输入图像到卷积神经网络的数据层，执行网络前向预测得到计算结果。

在Mali GPU中，将多个着色器处理核心映射成OpenCL平台模型中的处理核心，每一个着色器处理核心中的多个线程映射成多个工作项，在Mali GPU的OpenCL标准中调用工作空间的工作项，底层通过调用Mali GPU中的多线程完成计算任务。由于Mali GPU的架构与高通的移动GPU以及桌面端GPU不同，Mali GPU对OpenCL内存模型的支持与其他的GPU有一定差异，Mali GPU中没有独立的显存，与Arm CPU共用机器上的主存。在OpenCL内存模型中，全局内存和局部内存本质是在机器的主存中，全局内存和局部内存的访问速度相同，将数据从全局内存加载到局部内存后再进行处理的优化方式在Mali GPU的OpenCL程序设计中不会有效果。因此，Mali GPU中的OpenCL中，将工作空间中的工作项划分成工作组不能起到优化作用。在Mali GPU的OpenCL异构并行计算框架中，可用的加速技术有基于多线程的数据并行、向量化和循环展开。数据并行需要编程人员将内核函数中的输入缓冲区提前规划成均匀的排列，在内核函数中利用Mali GPU中的多线程独立地访问数据。向量化是在内核函数中利用OpenCL提供的向量数据结构，将计算数据加载到向量中，并在单线程中利用SIMD指令加速计算。循环展开是在内核函数中的循环头部声明循环展开，并可指定循环展开的层数，编译器会自动展开程序优化代码执行效率。

图5是本发明实施例的卷积神经网络加速系统基于Mali GPU实现的网络示意图。如图5所示，基于Mali GPU实现上述计算的具体过程为：

获取用于计算的Mali GPU设备，依据第一索引数据和第二索引数据分布情况，通过操作命令入队的方式在调用设备上的计算资源，操作命令包括全局内存向主存传输命令、主存向全局内存传输命令和内核函数执行命令。在.cl文件中创建内核函数，并在编译成功的内核函数程序中对象中获取各个内核函数对象，即完成深度可分离卷积计算模块和/或逐点卷积计算模块的内核函数的构建；

卷积核神经网络模块还用于依据各通道的深度可分离卷积和逐点卷积所占的内存空间大小，创建对应的缓冲区。

卷积计算模块读取输入图像数据，执行操作命令并调用内核函数实现卷积计算。

本发明提出的加速系统在Firefly RK3399开发板和Huawei P8手机上实现了MobileNetSSD对象检测网络前向过程，MobileNetSSD的网络结构如图5所示，其主干网主要由深度可分离卷积计算单元(dw)和逐点卷积计算单元(pw)构成，网络包含13个带Relu激活函数的dw卷积、13个带Relu激活函数的pw卷积、5带Relu激活函数的3*3普通卷积和16个带Relu激活函数的1*1普通卷积，总共47个带Relu激活函数的卷积层。使用尺寸大小为300*300*3的图片数据进行性能测试，实验数据表明Firefly RK3399上Mali T860GPU的处理速度为350ms/image，Huawei P8手机上Mali T624GPU的处理速度为500ms/image。使用深度可分离卷积核逐点卷积替换原始的卷积，卷积计算量和参数量都有大幅度降低，尤其当原始卷积中的卷积核的数量和卷积核规格较大时，计算量和参数量压缩比更大，可获得更好的减少计算开销和存储开销的效果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种适用于移动端的卷积神经网络加速方法，该移动端包括多个深度可分离卷积计算单元和多个逐点卷积计算单元，其特征在于，包括如下步骤：

获取待检测图像的参数，利用预设的神经网络模型得到与多个深度可分离卷积计算单元一一对应的多个第一线程索引数据，与多个逐点卷积计算单元一一对应的多个第二线程索引数据，所述第一线程索引数据包括第一滑动窗口位置坐标、对应通道编号、第一滑动窗口尺寸和与第一滑动窗口位置坐标一一对应的第一卷积核数据，所述第二线程索引数据包括第二滑动窗口位置坐标、对应通道编号、第二滑动窗口尺寸和与第二滑动窗口位置坐标一一对应的第二卷积核数据；

所述第一滑动窗口位置坐标作为第一线程索引标识进行第一线程索引数据存储，所述第二滑动窗口位置坐标作为第二线程索引标识进行第二线程索引数据存储；

获取待检测图像数据，利用当前通道的第一线程索引标识调用第一线程索引数据，依据第一滑动窗口内的待检测图像数据作为第一卷积输入数据，该第一卷积输入数据与第一滑动窗口位置坐标对应的第一卷积核数据进行内积计算；利用移动端的多个深度可分离卷积计算单元进行多线程并行计算，遍历当前通道的第一线程索引标识，得到当前通道的第一特征图数据；

利用移动端的多个逐点卷积计算单元进行多线程并行计算，遍历所有通道的线程索引，得到第二输出特征图的所有输出数据，以提高对待检测图像的检测速度。

2.根据权利要求1所述的一种适用于移动端的卷积神经网络加速方法，其特征在于，所述第一线程索引数据和/或第二线程索引数据采用向量化存储方式。

3.根据权利要求2所述的一种适用于移动端的卷积神经网络加速方法，其特征在于，通过加载指令将所述第一线程索引数据和/或第二线程索引数据加载为float16类型向量，调用向量内积指令实现内积计算。

4.一种适用于移动端的卷积神经网络加速系统，其包括依次连接的卷积核神经网络模块、深度可分离卷积计算模块、逐点卷积计算模块和数据存储模块，其中，数据存储模块还连接卷积核神经网络模块和深度可分离卷积计算模块，所述深度可分离卷积计算模块包括多个深度可分离卷积计算单元，所述逐点卷积计算模块包括多个逐点卷积计算单元，其特征在于，

所述卷积核神经网络模块用于获取待检测图像的参数，利用预设的神经网络模型利用预设的神经网络模型得到与多个深度可分离卷积计算单元一一对应的多个第一线程索引数据，与多个逐点卷积计算单元一一对应的多个第二线程索引数据，所述第一线程索引数据包括第一滑动窗口位置坐标、对应通道编号、第一滑动窗口尺寸和与第一滑动窗口位置坐标一一对应的第一卷积核数据，所述第二线程索引数据包括第二滑动窗口位置坐标、对应通道编号、第二滑动窗口尺寸和与第二滑动窗口位置坐标一一对应的第二卷积核数据；

所述数据存储模块用于存储卷积核神经网络模块发送的第一线程索引数据和第二线程索引数据，其中，第一线程索引数据和第二线程索引数据的存储过程为：

所述深度可分离卷积计算模块用于获取待检测图像数据，利用当前通道的第一线程索引标识调用第一线程索引数据，依据第一滑动窗口内的待检测图像数据作为第一卷积输入数据，该第一卷积输入数据与第一滑动窗口位置坐标对应的第一卷积核数据进行内积计算；利用移动端的多个深度可分离卷积计算单元进行多线程并行计算，遍历当前通道的第一线程索引标识，从而得到当前通道的第一特征图数据；

所述逐点卷积计算模块用于接收当前通道的第一特征图数据，利用当前通道的第二线程索引标识调用第二线程索引数据，依据第二滑动窗口内的当前通道的第一特征图数据作为第二卷积输入数据，该第二卷积输入数据与第二滑动窗口位置坐标对应的第二卷积核数据进行内积计算，得到当前通道的第二特征图数据；利用移动端的多个逐点卷积计算单元进行多线程并行计算，遍历所有通道的线程索引，得到第二输出特征图的所有输出数据，以提高对待检测图像的检测速度。

5.根据权利要求4所述的一种适用于移动端的卷积神经网络加速系统，其特征在于，所述数据存储模块包括float向量模块，该模块用于以float向量类型存储第一线程索引数据和/或第二线程索引数据。

6.根据权利要求5所述的一种适用于移动端的卷积神经网络加速系统，其特征在于，所述数据存储模块通过加载指令将所述第一线程索引数据和/或第二线程索引数据加载为float16类型向量，所述深度可分离卷积计算模块和/或逐点卷积计算模块调用向量内积指令实现内积计算。

7.根据权利要求4-6中任一项所述的一种适用于移动端的卷积神经网络加速系统，其特征在于，用于搭建的卷积核神经网络模块的模型框架包括：Caffe、tensorflow、MXNet和Pytorch。

8.根据权利要求4-6中任一项所述的一种适用于移动端的卷积神经网络加速系统，其特征在于，该系统利用基于Mali GPU的移动设备实现，具体过程为：

9.根据权利要求8所述的一种适用于移动端的卷积神经网络加速系统，其特征在于，所述卷积核神经网络模块还用于依据各通道的深度可分离卷积和逐点卷积所占的内存空间大小，创建对应的缓冲区。

10.根据权利要求8所述的一种适用于移动端的卷积神经网络加速系统，其特征在于，所述深度可分离卷积计算模块和/或逐点卷积计算模块执行操作命令并调用内核函数实现卷积计算。