CN110222558A - 基于深度学习的手部关键点检测方法 - Google Patents
基于深度学习的手部关键点检测方法 Download PDFInfo
- Publication number
- CN110222558A CN110222558A CN201910325729.9A CN201910325729A CN110222558A CN 110222558 A CN110222558 A CN 110222558A CN 201910325729 A CN201910325729 A CN 201910325729A CN 110222558 A CN110222558 A CN 110222558A
- Authority
- CN
- China
- Prior art keywords
- layers
- cpms
- layer
- model
- googlenet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的手部关键点检测方法,所述方法包括了CPMs卷积神经网络和GoogLeNet神经网络模型。所述CPMs卷积神经网络中,保留stage1中的数据层和最后七个卷积层,将stage1中的其他层剔除掉。所述GoogLeNet神经网络模型中,选用其前13网络层,并删除其中的数据层和inception(3b)后面的max pool层。将所述CPMs卷积神经网络和所述GoogLeNet神经网络模型结合起来,修改每一层的bottom属性、top属性的名称,使得层与层之间能够链接起来。本发明改进了网络模型结构,提高了关键点检测的准确度和减小了模型训练的代价(训练时间等),减少了模型参数得以加快检测速度。
Description
技术领域
本发明涉及手部关键点检测领域,具体涉及一种基于深度学习的手部关键点检测方法。
背景技术
人体骨骼关键点检测是计算机视觉的基础性算法之一,在其他相关领域的研究中都起到了基础性作用,如行为识别、人物跟踪、步态识别等相关领域;具体应用主要集中在智能视频监控,病人监护系统,人机交互,虚拟现实,人体动画,智能家居,运动员辅助训练等等,其中手部关键点检测是人体骨骼关键点检测的重要拓展部分,也是人体骨骼关键点检测的具体应用领域。
2015年的Flowing Convnet将人体骨骼关键点检测看作是检测问题,输出结果是heatmap,该模型只能检测出人体上半身的人体骨骼关键点,检测范围有限。2016年的DeepCut和之后改进的DeeperCut两个模型,检测范围为全身的人体骨骼关键点,而且检测准确率和检测速度都有所提升。之后的Convolutional Pose Machines (CPMs)具有很强的鲁棒性,在MPII,LSP等人体姿态估计的标准数据集上的检测准确率也非常高,但是检测速度无法做到实时,训练的时间也比较长;同时期的Stacked Hourglass在人体骨骼关键点检测的标准数据集上也取得了非常不错的检测效果。2017年的Multi-context、SelfAdversarial Training、Learning Feature等模型以及2018年的优秀模型基本上是基于Stacked Hourglass改进设计的新模型,准确率方面得到了进一步提升。然而上述这些模型共同的不足之处是模型参数比较多,模型训练的时间比较长,模型检测的准确率还有上升的空间。
发明内容
为克服上述现有模型的不足,本发明提供一种基于深度学习的手部关键点检测方法,本发明主要包括改进网络模型结构以提高关键点检测的准确度和减小模型训练的代价(训练时间等),减少模型参数以加快检测速度,并将其应用于手部关键点检测这几个方面。
本发明以CPMs卷积神经网络为基础,结合GoogLeNet神经网络模型,构建了一种全新的手部关键点检测模型。所述CPMs卷积神经网络中保留stage1中的数据层、最后七个卷积层以及stage2~stage6中的所有层,将stage1中的其他层剔除掉;所述GoogLeNet神经网络模型中选用其前13网络层,并删除其中的数据层和inception(3b)后面的max pool层;将所述CPMs卷积神经网络和所述GoogLeNet神经网络模型结合起来,修改每一层的bottom属性和top属性的名称使得层与层之间能够链接起来。最后通过在每一个stage的输出位置定义一个loss函数,即添加一个EuclideanLoss层,使得每一个手部关键点的预测响应图与它的真实标注响应图之间的距离达到最小,并应用微调的策略对网络进行训练从而引导网络模型达到一个预期的效果。
附图说明
图1为本发明的流程图;
图2为本发明中手部关键点特征提取以及手部关键点检测的过程图;
图3为本发明中GoogLeNet13-CPM-Stage6网络的网络结构图。
图4为本发明中GoogLeNet13-CPM-Stage6网络的原理图。
具体实施方式
通过将Convolutional Pose Machines (CPMs)和GoogLeNet相结合,设计一种新的手部关键点检测模型。具体来说,CPMs的stage1是直接从图片中生成关键点的响应图,而本发明在CPMs的stage1中引入了GoogLeNet的一些层。一方面,本发明的模型使用了更深的网络层,更复杂的网络结构从而增强了CPMs的stage1对于低维图像特征的提取能力;另一方面本发明的模型应用了微调策略,从而可以增加模型的检测准确率;此外,本发明的模型中还引入了Incepiton结构,因此可以有效地降低模型的参数量,从而极大地降低了模型的训练代价,同时提高单张图片的手部关键点检测速度。最后将模型在手部关键点检测训练数据集上进行训练,之后在相应的验证集上进行验证,从而评估新模型的泛化能力以及检测的准确度。
为了提高手部关键点检测的效率,本发明给出了一个新的改进的CPMs卷积神经网络:保留CPMs的stage1中的数据层、最后七个卷积层以及stage2 ~ stage6的所有层,将stage1 中的其他层剔除掉;然后选用GoogLeNet的前13网络层,并删除其中的数据层和inception(3b)后面的max pool层;再将修改后的GoogLeNet前13层与CPMs结合起来,修改每一层的bottom属性和top属性的名称,使得层与层之间能够链接起来,设计出一个GoogLeNet13-CPM-Stage6网络;最后通过在每一个stage的输出位置定义一个loss函数(添加一个EuclideanLoss层),从而使每一个手部关键点的预测响应图与它的真实标注响应图之间的距离达到最小,并应用微调的策略对网络进行训练从而引导网络模型达到一个预期的效果。
参照图1,本发明给出的实施例包括了如下步骤:
(1)给定手部关键点检测数据集。
(2)搭建基于深度学习Caffe框架的软件环境,为后续网络模型的训练做准备。
(3)将手部关键点训练数据集借助Caffe框架平台进行处理,将其转化为LMDB文件。
(4)改进CPMs卷积神经网络,将它和GoogLeNet神经网络模型相结合,设计一种新的人体骨骼关键点检测模型。具体来说,CPMs的stage1直接从图片中生成关键点的响应图,而本发明在CPMs的stage1中引入并改进了GoogLeNet的一些层。一方面,模型使用了更深的网络层,更复杂的网络结构从而增强了CPMs的stage1对于低维图像特征的提取能力;另一方面模型应用了微调策略从而可以增加模型的检测准确率。
(5)将手部关键点训练数据集(LMDB文件)载入GoogLeNet13-CPM-Stage6网络进行训练,并生成相应的caffemodel文件。
(6)调用该模型(caffemodel)在手部关键点检测验证数据集上进行手部关键点检测,评估该模型的泛化能力及检测准确度。
参照图2,其中手部关键点特征生成过程以及在验证数据集上进行验证的具体步骤如下:
(1) 将用于手部关键点检测训练数据集输入到GoogLeNet13-CPM-Stage6网络中进行预训练,经过卷积层、池化层等网络层,训练得到一个高效的手部关键点检测网络模型。
(2)调用训练好的模型(caffemodel),在验证数据集上进行手部关键点检测验证,使每一个手部关键点的预测响应图与它的真实标注响应图之间的距离达到最小,引导网络模型达到一个预期的效果。大量的实验结果表明,本发明的模型训练175000次,在验证数据集上能够达到最高的验证准确率92.6%。
参照图3和图4,构建的GoogLeNet13-CPM-Stage6网络结构主要包括如下步骤:
(1)保留CPMs的stage1中的数据层、最后七个卷积层以及stage2~stage6的所有层,将stage1 中的其他层剔除掉。
(2)选用GoogLeNet的前13网络层,并删除其中的数据层和inception(3b)后面的max pool层。
(3)将修改后的GoogLeNet前13层与CPMs结合起来,修改每一层的bottom属性和top属性的名称使得层与层之间能够链接起来,构建出GoogLeNet13-CPM-Stage6网络。
(4)通过在每一个stage的输出位置定义一个loss函数(添加一个EuclideanLoss层),从而使每一个手部关键点的预测响应图与它的真实标注响应图之间的距离达到最小,并应用微调的策略对网络进行训练从而引导网络模型达到一个预期的效果。
Claims (2)
1.一种基于深度学习的手部关键点检测方法,包括CPMs卷积神经网络和GoogLeNet神经网络模型,其特征在于:
所述CPMs卷积神经网络中,保留stage1中的数据层和最后七个卷积层,将stage1中的其他层剔除掉;
所述GoogLeNet神经网络模型中,选用其前13网络层,并删除其中的数据层和inception(3b)后面的max pool层;
将所述CPMs卷积神经网络和所述GoogLeNet神经网络模型结合起来,修改每一层的bottom属性、top属性的名称,使得层与层之间能够链接起来。
2.根据权利要求1所述的方法,所述方法还包括:通过在每一个stage的输出位置定义一个loss函数,即添加一个EuclideanLoss层,使得每一个手部关键点的预测响应图与它的真实标注响应图之间的距离达到最小,并应用微调的策略对网络进行训练从而引导网络模型达到一个预期的效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910325729.9A CN110222558A (zh) | 2019-04-22 | 2019-04-22 | 基于深度学习的手部关键点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910325729.9A CN110222558A (zh) | 2019-04-22 | 2019-04-22 | 基于深度学习的手部关键点检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110222558A true CN110222558A (zh) | 2019-09-10 |
Family
ID=67820101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910325729.9A Pending CN110222558A (zh) | 2019-04-22 | 2019-04-22 | 基于深度学习的手部关键点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222558A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078008A (zh) * | 2019-12-04 | 2020-04-28 | 东北大学 | 一种早教机器人的控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247949A (zh) * | 2017-08-02 | 2017-10-13 | 北京智慧眼科技股份有限公司 | 基于深度学习的人脸识别方法、装置和电子设备 |
CN108197575A (zh) * | 2018-01-05 | 2018-06-22 | 中国电子科技集团公司电子科学研究院 | 一种基于目标检测和骨点检测的异常行为识别方法及装置 |
US20180315329A1 (en) * | 2017-04-19 | 2018-11-01 | Vidoni, Inc. | Augmented reality learning system and method using motion captured virtual hands |
CN108764065A (zh) * | 2018-05-04 | 2018-11-06 | 华中科技大学 | 一种行人重识别特征融合辅助学习的方法 |
CN109299659A (zh) * | 2018-08-21 | 2019-02-01 | 中国农业大学 | 一种基于rgb相机和深度学习的人体姿态识别方法与系统 |
CN109376681A (zh) * | 2018-11-06 | 2019-02-22 | 广东工业大学 | 一种多人姿态估计方法及系统 |
-
2019
- 2019-04-22 CN CN201910325729.9A patent/CN110222558A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180315329A1 (en) * | 2017-04-19 | 2018-11-01 | Vidoni, Inc. | Augmented reality learning system and method using motion captured virtual hands |
CN107247949A (zh) * | 2017-08-02 | 2017-10-13 | 北京智慧眼科技股份有限公司 | 基于深度学习的人脸识别方法、装置和电子设备 |
CN108197575A (zh) * | 2018-01-05 | 2018-06-22 | 中国电子科技集团公司电子科学研究院 | 一种基于目标检测和骨点检测的异常行为识别方法及装置 |
CN108764065A (zh) * | 2018-05-04 | 2018-11-06 | 华中科技大学 | 一种行人重识别特征融合辅助学习的方法 |
CN109299659A (zh) * | 2018-08-21 | 2019-02-01 | 中国农业大学 | 一种基于rgb相机和深度学习的人体姿态识别方法与系统 |
CN109376681A (zh) * | 2018-11-06 | 2019-02-22 | 广东工业大学 | 一种多人姿态估计方法及系统 |
Non-Patent Citations (2)
Title |
---|
BAOHUA QIANG等: "Improved Convolutional Pose Machines for Human Pose Estimation Using Image Sensor Data", 《SENSORS》 * |
唐晖: "基于深度学习的体感交互方法", 《计算机与现代化》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078008A (zh) * | 2019-12-04 | 2020-04-28 | 东北大学 | 一种早教机器人的控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hui et al. | Linguistic structure guided context modeling for referring image segmentation | |
Wang et al. | Temporal segment networks for action recognition in videos | |
Gao et al. | Tall: Temporal activity localization via language query | |
US20190122385A1 (en) | Object learning and recognition method and system | |
CN103226388B (zh) | 一种基于Kinect的手写方法 | |
CN104679863A (zh) | 一种基于深度学习的以图搜图方法和系统 | |
CN105740773A (zh) | 基于深度学习和多尺度信息的行为识别方法 | |
Hao et al. | Integrating both visual and audio cues for enhanced video caption | |
CN111862274A (zh) | 生成对抗网络训练方法、图像风格迁移方法及装置 | |
CN109543112A (zh) | 一种基于循环卷积神经网络的序列推荐方法及装置 | |
CN109117742A (zh) | 手势检测模型处理方法、装置、设备及存储介质 | |
CN109597998A (zh) | 一种视觉特征和语义表征联合嵌入的图像特征构建方法 | |
Lin et al. | Structured attention network for referring image segmentation | |
CN105095857A (zh) | 基于关键点扰动技术的人脸数据增强方法 | |
CN110222558A (zh) | 基于深度学习的手部关键点检测方法 | |
CN112819012B (zh) | 一种基于多源协同特征的图像描述生成方法 | |
CN110347853A (zh) | 一种基于循环神经网络的图像哈希码生成方法 | |
CN113657272A (zh) | 一种基于缺失数据补全的微视频分类方法及系统 | |
CN116091524B (zh) | 一种针对复杂背景中目标的检测与分割方法 | |
CN108764233A (zh) | 一种基于连续卷积激活的场景字符识别方法 | |
Zhang et al. | Deep spatiotemporal relation learning with 3D multi-level dense fusion for video action recognition | |
CN108960024A (zh) | 一种基于个人用户的情绪识别方法 | |
CN117112814A (zh) | 虚假媒体内容挖掘及识别系统及其识别方法 | |
CN115331126A (zh) | 一种基于Yolov5的小目标检测模型的构建及检测方法 | |
CN107622201A (zh) | 一种抗加固的Android平台克隆应用程序快速检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190910 |
|
WD01 | Invention patent application deemed withdrawn after publication |