CN110222558A

CN110222558A - 基于深度学习的手部关键点检测方法

Info

Publication number: CN110222558A
Application number: CN201910325729.9A
Authority: CN
Inventors: 强保华; 张世豪; 赵天; 陶林; 谢武
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2019-09-10

Abstract

本发明公开了一种基于深度学习的手部关键点检测方法，所述方法包括了CPMs卷积神经网络和GoogLeNet神经网络模型。所述CPMs卷积神经网络中，保留stage1中的数据层和最后七个卷积层，将stage1中的其他层剔除掉。所述GoogLeNet神经网络模型中，选用其前13网络层，并删除其中的数据层和inception(3b)后面的max pool层。将所述CPMs卷积神经网络和所述GoogLeNet神经网络模型结合起来，修改每一层的bottom属性、top属性的名称，使得层与层之间能够链接起来。本发明改进了网络模型结构，提高了关键点检测的准确度和减小了模型训练的代价（训练时间等），减少了模型参数得以加快检测速度。

Description

基于深度学习的手部关键点检测方法

技术领域

本发明涉及手部关键点检测领域，具体涉及一种基于深度学习的手部关键点检测方法。

背景技术

人体骨骼关键点检测是计算机视觉的基础性算法之一，在其他相关领域的研究中都起到了基础性作用，如行为识别、人物跟踪、步态识别等相关领域；具体应用主要集中在智能视频监控，病人监护系统，人机交互，虚拟现实，人体动画，智能家居，运动员辅助训练等等，其中手部关键点检测是人体骨骼关键点检测的重要拓展部分，也是人体骨骼关键点检测的具体应用领域。

2015年的Flowing Convnet将人体骨骼关键点检测看作是检测问题，输出结果是heatmap，该模型只能检测出人体上半身的人体骨骼关键点，检测范围有限。2016年的DeepCut和之后改进的DeeperCut两个模型，检测范围为全身的人体骨骼关键点，而且检测准确率和检测速度都有所提升。之后的Convolutional Pose Machines (CPMs)具有很强的鲁棒性，在MPII，LSP等人体姿态估计的标准数据集上的检测准确率也非常高，但是检测速度无法做到实时，训练的时间也比较长；同时期的Stacked Hourglass在人体骨骼关键点检测的标准数据集上也取得了非常不错的检测效果。2017年的Multi-context、SelfAdversarial Training、Learning Feature等模型以及2018年的优秀模型基本上是基于Stacked Hourglass改进设计的新模型，准确率方面得到了进一步提升。然而上述这些模型共同的不足之处是模型参数比较多，模型训练的时间比较长，模型检测的准确率还有上升的空间。

发明内容

为克服上述现有模型的不足，本发明提供一种基于深度学习的手部关键点检测方法，本发明主要包括改进网络模型结构以提高关键点检测的准确度和减小模型训练的代价（训练时间等），减少模型参数以加快检测速度，并将其应用于手部关键点检测这几个方面。

本发明以CPMs卷积神经网络为基础，结合GoogLeNet神经网络模型，构建了一种全新的手部关键点检测模型。所述CPMs卷积神经网络中保留stage1中的数据层、最后七个卷积层以及stage2~stage6中的所有层，将stage1中的其他层剔除掉；所述GoogLeNet神经网络模型中选用其前13网络层，并删除其中的数据层和inception(3b)后面的max pool层；将所述CPMs卷积神经网络和所述GoogLeNet神经网络模型结合起来，修改每一层的bottom属性和top属性的名称使得层与层之间能够链接起来。最后通过在每一个stage的输出位置定义一个loss函数，即添加一个EuclideanLoss层，使得每一个手部关键点的预测响应图与它的真实标注响应图之间的距离达到最小，并应用微调的策略对网络进行训练从而引导网络模型达到一个预期的效果。

附图说明

图1为本发明的流程图；

图2为本发明中手部关键点特征提取以及手部关键点检测的过程图；

图3为本发明中GoogLeNet13-CPM-Stage6网络的网络结构图。

图4为本发明中GoogLeNet13-CPM-Stage6网络的原理图。

具体实施方式

通过将Convolutional Pose Machines (CPMs)和GoogLeNet相结合，设计一种新的手部关键点检测模型。具体来说，CPMs的stage1是直接从图片中生成关键点的响应图，而本发明在CPMs的stage1中引入了GoogLeNet的一些层。一方面，本发明的模型使用了更深的网络层，更复杂的网络结构从而增强了CPMs的stage1对于低维图像特征的提取能力；另一方面本发明的模型应用了微调策略，从而可以增加模型的检测准确率；此外，本发明的模型中还引入了Incepiton结构，因此可以有效地降低模型的参数量，从而极大地降低了模型的训练代价，同时提高单张图片的手部关键点检测速度。最后将模型在手部关键点检测训练数据集上进行训练，之后在相应的验证集上进行验证，从而评估新模型的泛化能力以及检测的准确度。

为了提高手部关键点检测的效率，本发明给出了一个新的改进的CPMs卷积神经网络：保留CPMs的stage1中的数据层、最后七个卷积层以及stage2 ~ stage6的所有层，将stage1 中的其他层剔除掉；然后选用GoogLeNet的前13网络层，并删除其中的数据层和inception(3b)后面的max pool层；再将修改后的GoogLeNet前13层与CPMs结合起来，修改每一层的bottom属性和top属性的名称，使得层与层之间能够链接起来，设计出一个GoogLeNet13-CPM-Stage6网络；最后通过在每一个stage的输出位置定义一个loss函数(添加一个EuclideanLoss层)，从而使每一个手部关键点的预测响应图与它的真实标注响应图之间的距离达到最小，并应用微调的策略对网络进行训练从而引导网络模型达到一个预期的效果。

参照图1，本发明给出的实施例包括了如下步骤：

（1）给定手部关键点检测数据集。

（2）搭建基于深度学习Caffe框架的软件环境，为后续网络模型的训练做准备。

（3）将手部关键点训练数据集借助Caffe框架平台进行处理，将其转化为LMDB文件。

（4）改进CPMs卷积神经网络，将它和GoogLeNet神经网络模型相结合，设计一种新的人体骨骼关键点检测模型。具体来说，CPMs的stage1直接从图片中生成关键点的响应图，而本发明在CPMs的stage1中引入并改进了GoogLeNet的一些层。一方面，模型使用了更深的网络层，更复杂的网络结构从而增强了CPMs的stage1对于低维图像特征的提取能力；另一方面模型应用了微调策略从而可以增加模型的检测准确率。

（5）将手部关键点训练数据集(LMDB文件)载入GoogLeNet13-CPM-Stage6网络进行训练，并生成相应的caffemodel文件。

（6）调用该模型（caffemodel）在手部关键点检测验证数据集上进行手部关键点检测，评估该模型的泛化能力及检测准确度。

参照图2，其中手部关键点特征生成过程以及在验证数据集上进行验证的具体步骤如下：

（1）将用于手部关键点检测训练数据集输入到GoogLeNet13-CPM-Stage6网络中进行预训练，经过卷积层、池化层等网络层，训练得到一个高效的手部关键点检测网络模型。

（2）调用训练好的模型(caffemodel)，在验证数据集上进行手部关键点检测验证，使每一个手部关键点的预测响应图与它的真实标注响应图之间的距离达到最小，引导网络模型达到一个预期的效果。大量的实验结果表明，本发明的模型训练175000次，在验证数据集上能够达到最高的验证准确率92.6%。

参照图3和图4，构建的GoogLeNet13-CPM-Stage6网络结构主要包括如下步骤：

（1）保留CPMs的stage1中的数据层、最后七个卷积层以及stage2~stage6的所有层，将stage1 中的其他层剔除掉。

（2）选用GoogLeNet的前13网络层，并删除其中的数据层和inception(3b)后面的max pool层。

（3）将修改后的GoogLeNet前13层与CPMs结合起来，修改每一层的bottom属性和top属性的名称使得层与层之间能够链接起来，构建出GoogLeNet13-CPM-Stage6网络。

（4）通过在每一个stage的输出位置定义一个loss函数(添加一个EuclideanLoss层)，从而使每一个手部关键点的预测响应图与它的真实标注响应图之间的距离达到最小，并应用微调的策略对网络进行训练从而引导网络模型达到一个预期的效果。

Claims

1.一种基于深度学习的手部关键点检测方法，包括CPMs卷积神经网络和GoogLeNet神经网络模型，其特征在于：

所述CPMs卷积神经网络中，保留stage1中的数据层和最后七个卷积层，将stage1中的其他层剔除掉；

所述GoogLeNet神经网络模型中，选用其前13网络层，并删除其中的数据层和inception(3b)后面的max pool层；

将所述CPMs卷积神经网络和所述GoogLeNet神经网络模型结合起来，修改每一层的bottom属性、top属性的名称，使得层与层之间能够链接起来。

2.根据权利要求1所述的方法，所述方法还包括：通过在每一个stage的输出位置定义一个loss函数，即添加一个EuclideanLoss层，使得每一个手部关键点的预测响应图与它的真实标注响应图之间的距离达到最小，并应用微调的策略对网络进行训练从而引导网络模型达到一个预期的效果。