CN108062532A

CN108062532A - 深度学习人脸识别网络优化方法、装置及存储介质

Info

Publication number: CN108062532A
Application number: CN201711455889.2A
Authority: CN
Inventors: 张凤春; 杨东; 王栋
Original assignee: Athena Eyes Science & Technology Co Ltd
Current assignee: Athena Eyes Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-05-22
Anticipated expiration: 2037-12-28
Also published as: CN108062532B

Abstract

本发明公开了一种深度学习人脸识别网络优化方法、装置及存储介质，该方法包括以下步骤：图像数据由CPU内存传递至GPU显存，且仅传递unsigned char类型图像数据；对接收到的数据在GPU下由unsigned char类型图像数据转换为float类型图像数据；对GPU下float类型图像数据进行减均值操作；加载深度学习人脸识别模型文件和减均值操作后的图像数据，传入深度学习框架中，在GPU下进行并行计算；将计算结果由GPU显存回传至CPU内存中。本发明在GPU下并行计算，与现有对深度学习框架CPU下串行计算方式相比，本发明整体运算速度的得以很大提升，节约了运行时间，使得运行速度得到提升。

Description

深度学习人脸识别网络优化方法、装置及存储介质

技术领域

本发明涉及人脸识别领域，特别地，涉及一种深度学习人脸识别网络优化方法、装置及存储介质。

背景技术

深度学习(Deep Learning)是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习典型应用为图像识别和语音识别。

人脸识别技术是目前被广泛研究的热门课题。人脸识别技术就是利用计算机分析人脸图像，通过检测对比人脸数据库中的所有已知原型人脸图像来达到"辨认"身份的目的。随着科学技术的发展及各种技术手段的综合应用，人脸识别技术将在视频监控、访问控制等领域有着广阔的应用前景。

深度学习采用了与传统神经网络相似的分层结构，系统由包括输入层、隐层(多层)、输出层组成的多层网络，只有相邻层节点之间有连接，同一层以及跨层节点之间相互无连接，每一层可以看作是一个logistic regression模型；这种分层结构，比较接近人类大脑结构。

深度学习由于计算量大，计算复杂，所以基于深度学习的人脸识别速度上与传统方法比较起来，具有一定劣势，针对速度优化方面，许多研究人员提出各种针对的改进方法。

针对深度学习框架有很多，目前主要以TensorFlow、Caffe、MXNet这三款流行的Deep Learning框架为主。TensorFlow、Caffe、MXNet这三款流行的Deep Learning框架，虽然在性能上比CPU有很大的提升，但是这三款框架在GPU上，性能还没有完全达到最优，还有优化的空间。

发明内容

本发明提供了一种深度学习人脸识别网络优化方法、装置及存储介质，以解决深度学习人脸识别网络由于计算量大、计算复杂导致速度性能不佳的技术问题。

本发明采用的技术方案如下：

一种深度学习人脸识别网络优化方法，包括以下步骤：

图像数据由中央处理器CPU内存传递至图形处理器GPU显存，且仅传递unsignedchar类型图像数据；

对接收到的数据在GPU下由unsigned char类型图像数据转换为float类型图像数据；

对GPU下float类型图像数据进行减均值操作；

加载深度学习人脸识别模型文件和减均值操作后的图像数据，传入深度学习框架中，在GPU下进行并行计算；

将计算结果由GPU显存回传至CPU内存中。

进一步地，图像数据由中央处理器CPU内存传递至图形处理器GPU显存的步骤中，将unsigned char类型图像数据对应的图像内存进行锁定，待完全传递至GPU显存下时，再将unsigned char类型图像数据对应的图像内存进行解锁。

进一步地，对接收到的数据在GPU下由unsigned char类型图像数据转换为float类型图像数据的步骤基于通用并行计算架构CUDA进行。

进一步地，对GPU下float类型图像数据进行减均值操作的步骤中，将减均值操作划分为多个互不相关且顺序任意的任务并行执行。

根据本发明的另一方面，还提供了一种基于GPU的深度学习人脸识别网络优化装置，包括处理器，处理器用于运行程序，处理器运行时执行上述的深度学习人脸识别网络优化方法。

根据本发明的另一方面，还提供了一种存储介质，存储介质存储程序，程序运行时控制存储介质所在的设备执行上述的深度学习人脸识别网络优化方法。

本发明由于对深度学习人脸识别网络在GPU下并行计算，与现有技术中对深度学习框架CPU下串行计算相比，本发明的整体运算速度的得以很大提升，节约了运行时间，且本发明在传递图像数据至GPU时仅传递unsigned char类型图像数据，节约了传递时间，使得运行速度得到提升。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的深度学习人脸识别网络优化方法的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明主要对根据深度学习训练得到的人脸识别网络结构，针对性地进行优化。

参照图1，本发明的优选实施例提供了一种深度学习人脸识别网络优化方法，包括以下步骤：

步骤S100，图像数据由中央处理器CPU内存传递至图形处理器GPU显存，且仅传递unsigned char类型图像数据。

由于CPU和GPU带宽的影响，传递数据大小越少越好，所以本发明图像数据由CPU内存传递至GPU显存的传递过程仅仅传递8位图像对应的unsigned char类型图像数据，取消32位图像对应的float类型图像数据的传递，这样传递的数据量是原来的四分之一，传递速度快。例如224*224的大小图像，float类型图像数据传递大概需要15毫秒，而unsignedchar类型图像数据传递大概需要1至2毫秒，速度得到很大的提升。

进一步地，步骤S100中，在数据传递过程中，将unsigned char类型图像数据对应的图像内存进行锁定，待完全传递至GPU显存下时，再将unsigned char类型图像数据对应的图像内存进行解锁。此种方式，可避免unsigned char内存多次访问，减少运行时间。

步骤S200，对接收到的数据在GPU下由unsigned char类型图像数据转换为float类型图像数据。

由于深度学习网络采用的是float类型数据，所以需要对接收到的GPU显存数据由unsigned char类型转换到float类型下。

进一步地，本发明的优选实施例中，在GPU下基于通用并行计算架构CUDA进行数据转换的步骤S200，可以方便快捷的进行加速。所以在GPU下，224*224大小的图像，由unsigned char类型转换到float类型，仅仅需要0.5个毫秒就能完成。

步骤S300，对GPU下float类型图像数据进行减均值操作。

进一步地，对GPU下float类型图像数据进行减均值操作的步骤中，将减均值操作划分为多个互不相关且顺序任意的任务并行执行，从而使GPU超强并行计算能力得到最大的发挥，进一步提升减少运行时间以提升运行速度。

步骤S400，加载深度学习人脸识别模型文件和减均值操作后的图像数据，传入深度学习框架中，在GPU下进行并行计算。由于本发明将需要的数据都已加载至GPU显存下，降低了I/O内存反复传递，加速了计算过程，从而加快了整个执行过程。

步骤S500，将计算结果由GPU显存回传至CPU内存中。到此，整个计算过程结束。

以上就是本发明的优选实施例提供的一种深度学习人脸识别网络优化方法的整个过程，经过此过程，速度得到了很大提升，例如224*224大小的图像在caffe框架TitanX下速度在8ms左右，而采用本发明的方法在同样显卡下运行速度在3.7ms左右，速度提升约1倍左右，是很可观的。

本发明由于对深度学习人脸识别网络在GPU下并行计算，与现有技术中对深度学习框架CPU下串行计算相比，本发明的整体运算速度的得以很大提升，节约了运行时间；同时一台服务器可以加载更多运行路数；在项目上，减少了服务器个数，从而节约了运行成本。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种深度学习人脸识别网络优化方法，其特征在于，包括以下步骤：

图像数据由中央处理器CPU内存传递至图形处理器GPU显存，且仅传递unsigned char类型图像数据；

对GPU下float类型图像数据进行减均值操作；

将计算结果由GPU显存回传至CPU内存中。

2.根据权利要求1所述的深度学习人脸识别网络优化方法，其特征在于，所述图像数据由中央处理器CPU内存传递至图形处理器GPU显存的步骤中，将unsigned char类型图像数据对应的图像内存进行锁定，待完全传递至GPU显存下时，再将unsigned char类型图像数据对应的图像内存进行解锁。

3.根据权利要求1所述的深度学习人脸识别网络优化方法，其特征在于，所述对接收到的数据在GPU下由unsigned char类型图像数据转换为float类型图像数据的步骤基于通用并行计算架构CUDA进行。

4.根据权利要求1所述的深度学习人脸识别网络优化方法，其特征在于，所述对GPU下float类型图像数据进行减均值操作的步骤中，将减均值操作划分为多个互不相关且顺序任意的任务并行执行。

5.一种基于GPU的深度学习人脸识别网络优化装置，包括处理器，所述处理器用于运行程序，其特征在于，所述处理器运行时执行如权利要求1至4任一所述的深度学习人脸识别网络优化方法。

6.一种存储介质，所述存储介质存储程序，其特征在于，所述程序运行时控制所述存储介质所在的设备执行如权利要求1至4任一所述的深度学习人脸识别网络优化方法。