CN107515736A

CN107515736A - 一种在嵌入式设备上加速深度卷积网络计算速度的方法

Info

Publication number: CN107515736A
Application number: CN201710528733.6A
Authority: CN
Inventors: 林倞; 王可泽; 郑会钿
Original assignee: Guangzhou Deep Domain Mdt Infotech Ltd
Current assignee: Guangzhou wisdom Technology (Guangzhou) Co.,Ltd.
Priority date: 2017-07-01
Filing date: 2017-07-01
Publication date: 2017-12-26
Anticipated expiration: 2037-07-01
Also published as: CN107515736B

Abstract

本发明提供了一种在嵌入式设备上加速深度卷积网络计算速度的方法，包括：根据嵌入式设备的CPU和GPU的浮点运算速度，分辨出高性能浮点运算设备和低性能浮点运算设备；在进行深度卷积网络计算时，高性能浮点运算设备逐帧获取图像数据进行处理；CPU创建一监控线程，用于持续监控低性能浮点运算设备的负载状态；当监控线程发现低性能浮点运算设备处于低负载或空载状态时，向高性能浮点运算设备发送信号，使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务，并开始进行下一帧图像数据的深度卷积网络计算任务；同时，将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理。本发明能够更好地发挥嵌入式设备的计算能力，减少深度卷积网络的计算时间。

Description

一种在嵌入式设备上加速深度卷积网络计算速度的方法

技术领域

本发明涉及基于嵌入式设备的高性能计算及深度学习领域，具体涉及一种在嵌入式设备上加速深度卷积网络计算速度的方法。

背景技术

最近，深度学习(Deep Learning)在图像(视频)理解以及语音(文本)识别等各个领域得到了广泛应用。深度学习常常被看作是通向真正人工智能的重要一步，因而很多公司对深度学习的应用带有比较浓厚的兴趣。在很多学术领域，深度学习与非深度学习算法相比，往往有20-30％成绩的提高。很多大公司也逐渐开始出手投资这种算法，并成立自己的深度学习团队。

深度卷积网络(CNN)是一种多层神经网络，擅长处理图像特别是大图像的相关深度学习问题，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。深度卷积网络是深度学习技术中极具代表的网络结构之一，在图像处理领域取得了很大的成功。CNN相较于传统的图像处理算法的优点之一在于，避免了对图像复杂的前期预处理过程(提取人工特征等)，可以直接输入原始图像。

然而深度学习真正应用于实际的工程应用中缺很少，主要的原因是深度学习需要的计算量很大，硬件设备特别是嵌入式硬件设备计算能力不足。深度神经网络中神经元多，神经元间连接数量也相当惊人。从数学的角度看，每个神经元都要包含数学计算(如Sigmoid、ReLU或者Softmax函数)，需要估计的参数量也极大。语音识别和图像识别应用中，神经元达数万个，参数数千万，模型复杂导致计算量大。

目前深度学习在实际应用中遇到的问题在于：能满足上述计算能力的设备往往价格昂贵，不能用于实际的工业生产应用，而成本低的嵌入式设备往往计算能力不足。

因此，如何在有限性能的嵌入式设备上充分利用设备资源，提高设备的计算能力，从而使得低成本的嵌入式设备能够满足深度卷积网络的计算需求，进而使得深度学习能应用到实际应用中，成为了急待攻克的重要课题。

发明内容

本发明的目的在于，针对现有技术中存在的问题，提供一种在嵌入式设备上加速深度卷积网络计算速度的方法，充分利用嵌入式设备上的CPU和GPU进行动态负载均衡，加快深度卷积网络处理图像视频数据的速度，以解决嵌入式设备上深度卷积网络计算量大、耗时长的问题。

为实现上述目的，本发明采用以下技术方案：

一种在嵌入式设备上加速深度卷积网络计算速度的方法，所述嵌入式设备包括至少一个CPU和至少一个GPU，所述方法包括：

根据嵌入式设备的CPU和GPU的浮点运算速度，分辨出高性能浮点运算设备和低性能浮点运算设备；

在进行深度卷积网络计算时，高性能浮点运算设备逐帧获取图像数据进行处理；CPU创建一监控线程，用于持续监控低性能浮点运算设备的负载状态；

当监控线程发现低性能浮点运算设备处于低负载或空载状态时，向高性能浮点运算设备发送信号，使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务，并开始进行下一帧图像数据的深度卷积网络计算任务；同时，将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理。

进一步地，根据嵌入式设备的CPU和GPU的浮点运算速度，分辨出高性能浮点运算设备和低性能浮点运算设备的方法为：

嵌入式设备的CPU和GPU分别单独获取一帧图像并进行处理，其中，先处理完的定义为高性能浮点运算设备，后处理完的定义为低性能浮点运算设备。

进一步地，所述CPU包括浮点运算单元和监控单元；其中，浮点运算单元用于作为高性能浮点运算设备或低性能浮点运算设备进行深度卷积网络计算；监控单元用于建立监控线程，监控低性能浮点运算设备的负载状态。

进一步地，所述CPU的浮点运算单元利用单指令多数据(Single InstructionMultiple Data)并行处理深度卷积网络的浮点运算。

进一步地，所述CPU的不同核间使用OpenMP进行数据共享，使用Neon指令集做浮点运算。

进一步地，所述GPU利用OpenCL做数据并行处理，提升深度卷积网络处理图像数据的速度。

进一步地，当高性能浮点运算设备接收到来自监控线程的强制处理下一帧图像数据的信号时，高性能浮点运算设备对当前帧图像数据的深度卷积网络计算任务在当前网络层停止，并将该层输出的中间处理结果输入到低性能浮点运算设备；若接收到信号时，高性能浮点运算设备正在处理当前网络层，则等待当前网络层处理完毕，再将该层输出的中间处理结果输入到低性能浮点运算设备。

进一步地，高性能浮点运算设备和低性能浮点运算设备之间的通信，通过监控线程调控完成，高性能浮点运算设备对于当前帧的中间处理结果通过OpenCL机制传输到低性能浮点运算设备。

进一步地，当监控线程发现低性能浮点运算设备处于低负载或空载状态，且高性能浮点运算设备完成当前帧的剩余计算任务所需的时间低于一阈值时，高性能浮点运算设备继续完成当前帧的剩余计算任务而不交由低性能浮点运算设备继续处理；同时，低性能浮点运算设备开始进行下一帧图像数据的深度卷积网络计算任务；

所述阈值为高性能浮点运算设备将当前帧图像数据的剩余计算任务交给低性能浮点运算设备所需的时间。

进一步地，所述嵌入式设备为移动终端设备，包括：移动手机、游戏盒子、平板电脑和卡片式电脑计算机。

与现有技术相比，本发明充分利用了嵌入式设备上有限的CPU和GPU资源，使用单指令多数据和Neon指令集充分发挥CPU的浮点运算能力，使用OpenCL充分发挥了GPU的浮点运算能力，并通过动态负载均衡地加速深度卷积网络计算，能够更好地发挥嵌入式设备的计算能力，减少深度卷积网络的计算时间。

附图说明

图1是本发明实施例的原理示意图。

图2是本发明实施例的深度卷积网络计算任务分配示意图。

具体实施方式

下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。

如图1所示，本发明提供了一种在嵌入式设备上加速深度卷积网络计算速度的方法，该方法主要应用于嵌入式设备上，所述嵌入式设备应包括至少一个CPU和至少一个GPU。通过在处理图像视频数据的过程中，对CPU和GPU进行动态负载均衡，来加速深度卷积神经网络的计算速度，以解决嵌入式设备上深度卷积网络计算量大，耗时长的问题。

所述嵌入式设备包括：移动手机、游戏盒子、平板电脑、卡片式电脑计算机等移动终端设备。

本发明的核心思想是根据CPU和GPU的性能差异分配不同的任务。具体地，所述方法包括：

首先，根据嵌入式设备的CPU和GPU的浮点运算速度，分辨出高性能浮点运算设备和低性能浮点运算设备；

接着，在进行深度卷积网络计算时，高性能浮点运算设备(图1所示的设备1)逐帧获取图像数据进行处理；CPU创建一监控线程，用于持续监控低性能浮点运算设备的负载状态；

当监控线程发现低性能浮点运算设备(图1所示的设备2)处于低负载或空载状态时，向高性能浮点运算设备发送信号，使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务，并开始进行下一帧图像数据的深度卷积网络计算任务；同时，将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理。

需要说明的是，本发明中所定义的高性能浮点运算设备和低性能浮点运算设备，主要是为了将CPU和GPU的性能差异进行比较和区分，以便于进行计算任务的动态分配。所谓的“高性能”和“低性能”也只是针对两者相比较而言，并非指代特殊的性能指标。在实际应用中，所述高性能浮点运算设备可以是CPU也可以是GPU，具体需要对CPU和GPU进行性能比对得出。

具体地，在本实施例中，分辨高性能浮点运算设备和低性能浮点运算设备的方法为：嵌入式设备的CPU和GPU分别单独获取一帧图像并进行处理，其中，先处理完的定义为高性能浮点运算设备，后处理完的定义为低性能浮点运算设备。简单而言，所述高性能浮点运算设备是CPU或GPU中单独处理一张图片较快的设备，所述低性能浮点运算设备是CPU或GPU中单独处理一张图片较慢的设备。

在本发明中，所述CPU主要分为两个模块：浮点运算单元和监控单元。其中，浮点运算单元用于作为高性能浮点运算设备或低性能浮点运算设备参与深度卷积网络计算；监控单元用于建立监控线程，监控低性能浮点运算设备的负载状态。

进一步地，所述CPU的浮点运算单元利用单指令多数据(Single InstructionMultiple Data)并行处理深度卷积网络的浮点运算。所述CPU的不同核间使用OpenMP进行数据共享，使用Neon指令集做浮点运算。所述GPU利用OpenCL做数据并行处理，提升深度卷积网络处理图像数据的速度。

本发明在利用嵌入式设备进行深度卷积网络计算的过程中，对高性能浮点运算设备和低性能浮点运算设备的计算任务进行动态分配。具体的任务分配取决于低性能浮点运算设备何时处于低负载或者空载状态，以此使高性能浮点运算设备和低性能浮点运算设备协同计算，实现负载均衡。

高性能浮点运算设备和低性能浮点运算设备之间的通信，通过监控线程调控完成，高性能浮点运算设备对于当前帧的中间处理结果通过OpenCL机制传输到低性能浮点运算设备。

具体地，在进行深度卷积网络计算的过程中，所述监控线程在没有接收到所述低性能浮点运算设备处于低负载或者空载状态的信号时，即低性能浮点运算设备持续处于高负载状态时，所述高性能浮点运算设备按设定的任务逐帧获取图像数据并按照深度卷积网络的层次依次进行计算处理，直至处理完所有的视频数据。

一旦所述低性能浮点运算设备进入低负载或者空载状态，则广播告知监控线程，并准备接收来自高性能浮点运算设备的数据和处理任务。

监控线程在收到低性能浮点运算设备的广播信息后，向高性能浮点运算设备发送一个强制结束当前帧处理并开始下一帧处理的信号；然后继续监控低性能浮点运算设备的状态。

如图2所示，当高性能浮点运算设备(图2所示的设备1)接收到来自监控线程的强制处理下一帧图像数据的信号时，高性能浮点运算设备对当前帧图像数据的深度卷积网络计算任务在当前网络层停止，并将该层输出的中间处理结果输入到低性能浮点运算设备(图2所示的设备2)；若接收到信号时，高性能浮点运算设备正在处理当前网络层，则等待当前网络层处理完毕，再将该层输出的中间处理结果输入到低性能浮点运算设备。

以上方法中，本发明将整个卷积神经网络的所有层动态划分为两个部分，所述高性能浮点运算设备接收输入数据开始进行深度卷积网络的处理，所述低性能浮点运算设备的输入来自所述高性能浮点运算设备输出的中间处理结果，由监控线程协调分配。

进一步地，在分辨高性能浮点运算设备和低性能浮点运算设备时，根据高性能浮点运算设备处理一张图片的时间可以知道高性能浮点运算设备对整个深度卷积网络每个层的大致处理时间。因此可以对本发明做出如下改进：

如图2所示，当监控线程发现低性能浮点运算设备处于低负载或空载状态，且高性能浮点运算设备完成当前帧的剩余计算任务所需的时间低于一阈值时，高性能浮点运算设备继续完成当前帧的剩余计算任务而不交由低性能浮点运算设备继续处理；同时，低性能浮点运算设备开始进行下一帧图像数据的深度卷积网络计算任务。其中，所述阈值为高性能浮点运算设备将当前帧图像数据的剩余计算任务交给低性能浮点运算设备所需的时间。

按照本发明的方法，高性能浮点运算设备一直处于高负载状态，而低性能浮点运算设备一旦处于低负载或者空载状态，监控线程会立刻将高性能浮点运算设备对当前帧图像数据的剩余计算任务交付给低性能浮点运算设备处理，因此，低性能浮点运算设备也几乎一直处于高负载状态。

按照本发明的方法，嵌入式设备上可用于计算的资源可以被充分利用，CPU和GPU针对处理任务实现负载均衡，从而减少深度卷积网络处理所需的时间，使得嵌入式设备能更好地将深度学习应用于实际应用中。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种在嵌入式设备上加速深度卷积网络计算速度的方法，所述嵌入式设备包括至少一个CPU和至少一个GPU，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据嵌入式设备的CPU和GPU的浮点运算速度，分辨出高性能浮点运算设备和低性能浮点运算设备的方法为：

3.根据权利要求1所述的方法，其特征在于，所述CPU包括浮点运算单元和监控单元；其中，浮点运算单元用于作为高性能浮点运算设备或低性能浮点运算设备进行深度卷积网络计算；监控单元用于建立监控线程，监控低性能浮点运算设备的负载状态。

4.根据权利要求3所述的方法，其特征在于，所述CPU的浮点运算单元利用单指令多数据(Single Instruction Multiple Data)并行处理深度卷积网络的浮点运算。

5.根据权利要求4所述的方法，其特征在于，所述CPU的不同核间使用OpenMP进行数据共享，使用Neon指令集做浮点运算。

6.根据权利要求1所述的方法，其特征在于，所述GPU利用OpenCL做数据并行处理，提升深度卷积网络处理图像数据的速度。

7.根据权利要求1所述的方法，其特征在于，当高性能浮点运算设备接收到来自监控线程的强制处理下一帧图像数据的信号时，高性能浮点运算设备对当前帧图像数据的深度卷积网络计算任务在当前网络层停止，并将该层输出的中间处理结果输入到低性能浮点运算设备；若接收到信号时，高性能浮点运算设备正在处理当前网络层，则等待当前网络层处理完毕，再将该层输出的中间处理结果输入到低性能浮点运算设备。

8.根据权利要求7所述的方法，其特征在于，高性能浮点运算设备和低性能浮点运算设备之间的通信，通过监控线程调控完成，高性能浮点运算设备对于当前帧的中间处理结果通过OpenCL机制传输到低性能浮点运算设备。

9.根据权利要求7所述的方法，其特征在于，当监控线程发现低性能浮点运算设备处于低负载或空载状态，且高性能浮点运算设备完成当前帧的剩余计算任务所需的时间低于一阈值时，高性能浮点运算设备继续完成当前帧的剩余计算任务而不交由低性能浮点运算设备继续处理；同时，低性能浮点运算设备开始进行下一帧图像数据的深度卷积网络计算任务；

10.根据权利要求1所述的方法，其特征在于，所述嵌入式设备为移动终端设备，包括：移动手机、游戏盒子、平板电脑和卡片式电脑计算机。