CN108334880A - 一种搭建针对手势检测的深度学习网络结构的方法及系统 - Google Patents

一种搭建针对手势检测的深度学习网络结构的方法及系统 Download PDF

Info

Publication number
CN108334880A
CN108334880A CN201810030295.5A CN201810030295A CN108334880A CN 108334880 A CN108334880 A CN 108334880A CN 201810030295 A CN201810030295 A CN 201810030295A CN 108334880 A CN108334880 A CN 108334880A
Authority
CN
China
Prior art keywords
neural networks
convolutional neural
convolutional
gestures
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810030295.5A
Other languages
English (en)
Other versions
CN108334880B (zh
Inventor
王雁刚
赵诗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810030295.5A priority Critical patent/CN108334880B/zh
Publication of CN108334880A publication Critical patent/CN108334880A/zh
Application granted granted Critical
Publication of CN108334880B publication Critical patent/CN108334880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/117Biometrics derived from hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种搭建针对手势检测的深度学习网络结构的方法及系统,方法包括:针对已有的手势图像数据集及手势的骨架信息标签搭建第一卷积神经网络;针对同样的数据集及手势的语义分割标签搭建第二卷积神经网络;将两个卷积神经网络的数据层和损失层合并,用并联的方式对两个网络进行连接;将两个网络的全卷积层输出结果分别反馈到对方网络的前端作为输入的一部分;利用改进后的网络结构进行训练、得到模型。系统包括:骨架检测单元,语义分割单元,全卷积层输出交叉反馈单元。本发明能够只通过一个深度学习网络对手势的骨架信息和语义分割信息进行并行检测,可以同时输出骨架检测和语义分割结果,且更为准确。

Description

一种搭建针对手势检测的深度学习网络结构的方法及系统
技术领域
本发明属于计算机视觉及图形学技术领域,具体涉及一种搭建针对手势检测的深度学习网络结构的方法及系统。
背景技术
手势检测是研究人员一直关心的问题,因为在人与人之间的信息交流中,手势通常扮演着很重要的作用。在虚拟现实中,手是用户模型中十分重要的动作与感知关系模型,人的行为特征是人机交互的重要研究内容。在人机交互过程中,通过手势动作直接与计算机系统进行交互,相比传统的交互方式更加直观、清晰,同时也使用户具备更好的体验。
到目前为止,手势的检测已经取得了很多的研究成果。概括起来可以分为二大类:1)传统方法,如基于肤色提取的手势检测方法,在YCrCb颜色空间中利用肤色椭圆模型进行手势检测;2)深度学习方法,如在卷积神经网络中使用数据集和人为标定好标签的进行语义分割的训练等。这些方法经过多年的发展,均能取得不错的效果。但是目前尚存在以下问题:1)传统方法检测速度较慢且基于肤色的手势检测具有一定的局限性;2)深度学习算法的准确率存在瓶颈。
发明内容
为解决上述问题,本发明公开了一种搭建针对手势检测的深度学习网络结构的方法及系统,相对于常见方法,本发明针对图像的手势检测能够提供更高的准确率。
为了达到上述目的,本发明提供如下技术方案:
一种搭建针对手势检测的深度学习网络结构的方法,包括如下步骤:
步骤1,针对已有的手势图像数据集及手势的骨架信息标签搭建第一卷积神经网络,用于通过训练实现对图像中手势的骨架检测;
步骤2,针对同样的手势图像数据集及手势的语义分割标签搭建第二卷积神经网络,用于通过训练实现对图像中手势的语义分割;
步骤3,将两个卷积神经网络的数据层和损失层合并,用并联的方式对两个网络进行连接;
步骤4,将两个网络的全卷积层输出结果分别反馈到对方网络的前端作为输入的一部分;
步骤5,利用步骤4改进后的网络结构进行训练、得到模型,从而实现对图像中手势的骨架信息和语义分割信息的并行检测。
进一步的,所述步骤4中反馈位置为对方网络某一卷积层的输入处。
进一步的,所述步骤4中将第一卷积神经网络全卷积层输出的骨架检测结果反馈到第二卷积神经网络的第二个卷积层的输入处,与原本的输入合并作为第一卷积神经网络的第二个卷积层新的输入,将第一卷积神经网络的全卷积层输出的语义分割结果反馈到第一卷积神经网络的第二个卷积层的输入处,与原本的输入合并作为第一卷积神经网络的第二个卷积层新的输入。
搭建针对手势检测的深度学习网络结构的系统,包括:
骨架检测单元,用于搭建一个能够对采集的手势图像进行骨架检测的卷积神经网络;
语义分割单元,用于搭建一个能够对采集的手势图像进行语义分割的卷积神经网络;
全卷积层输出交叉反馈单元,用于将两个卷积神经网络的全卷积层输出交叉反馈到对方网络第二个卷积层的输出处,与原有输入合并作为第二个卷积层新的输入。
进一步的,两个卷积神经网络的数据层和损失层合并,两个网络通过并联方式连接。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明能够只通过一个深度学习网络对手势的骨架信息和语义分割信息进行并行检测,可以同时输出骨架检测和语义分割结果,获得的手势的相关信息较单一的骨架检测和语义分割更加全面。
2.由于本发明将两个单一功能的卷积神经网络结合,利用反馈结构使得取得的检测效果比单一网络的效果更加准确,其语义分割结果相比于单独使用网络2的分割结果更加精确。
3.本发明方法能够在具有多个卷积层的网络上应用,适用范围广。
附图说明
图1为本发明提供的搭建针对手势检测的深度学习网络结构的方法流程图;
图2为本发明中针对手势检测的深度学习网络结构的示意图;
图3是本发明实施例采集的手势图像示意图;
图4是本发明实施例采集的手势图像的骨架检测结果示意图;
图5是本发明实施例采集的手势图像的语义分割结果示意图;
图6是本发明实施例对采集的手势图像的检测结果示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明方法流程如图1所示,包括如下步骤:
步骤S110,搭建一个可用于手势的骨架检测的卷积神经网络。
针对已有的手势图像数据集及手势的骨架信息标签搭建一个卷积神经网络(为了叙述方便,在下文中用网络1指代该卷积神经网络),使其可以通过训练实现针对手势(手势图像如图3所示)的骨架检测,即能够检测手的骨架节点以及将骨架节点按照人体结构连接成骨架,并对不同手指的骨架用不同的颜色进行标注,得到的标注后图像如图4所示。
步骤S120,搭建一个可用于手势的语义分割的卷积神经网络。
针对同样的手势图像数据集及手势的语义分割标签搭建另一个卷积神经网络(为了叙述方便,在下文中用网络2指代该卷积神经网络),使其可以通过训练实现针对手势的语义分割。
本发明中卷积神经网络采用附图中作为示例使用的VGG16,但实际上对使用的卷积神经网络的具体结构并无特别的限制,只要是具有多个卷积层的网络均可以利用该方法进行改进。
步骤S130,将两个卷积神经网络的数据层和损失层合并,用并联的方式将两个网络进行连接。
因为两个网络使用的数据集相同,因此将其数据层进行合并。同时将其损失层也进行合并。
运用并联结构使得在仅使用一个网络的情况下就能够同时得到骨架检测结果以及语义分割结果的同时,训练以及测试的用时并没有明显增长。
步骤S140,将两个网络的全卷积层输出结果分别反馈到对方网络的前端作为输入的一部分。
将网络1全卷积层输出的骨架检测结果反馈到网络2第二个卷积层的输入处,与原本的输入合并作为网络2第二个卷积层新的输入,即限定手势的语义分割区域应该将所有的骨架节点包含在内,利用骨架检测结果来改善语义分割的效果。
将网络2的全卷积层输出的语义分割结果反馈到网络1第二个卷积层的输入处,与原本的输入合并作为网络1第二个卷积层新的输入,即限定手势的骨架节点应该完全处于手势的语义分割范围内,利用语义分割结果来改善骨架检测的效果。
需要说明的是,两个网络的全卷积层输出的反馈位置包括但不限于第二个卷积层的输入处,根据实际操作中的需求和测试效果可以调整至其他卷积层的输入处。
步骤S150,利用改进后的网络结构进行训练,从而实现对图像中手势的骨架信息和语义分割信息的并行检测。
利用该网络结构进行训练,可以同时得到图像中手势的骨架信息和语义分割信息,如图6所示,且其骨架检测结果相比于单独使用网络1的检测结果更加精确,其语义分割结果相比于单独使用网络2的分割结果更加精确。
基于上述步骤,本发明还提供了搭建针对手势检测的深度学习网络结构的系统,包括:
骨架检测单元,其搭建了一个能够对采集的手势图像进行骨架检测的卷积神经网络;
语义分割单元,其搭建了一个能够对采集的手势图像进行语义分割的卷积神经网络;
全卷积层输出交叉反馈单元,其将两个卷积神经网络的全卷积层输出交叉反馈到对方网络第二个卷积层的输出处,与原有输入合并作为第二个卷积层新的输入。两个卷积神经网络的数据层和损失层合并,用并联的方式将两个网络进行连接。
本领域的技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (5)

1.一种搭建针对手势检测的深度学习网络结构的方法,其特征在于,包括如下步骤:
步骤1,针对已有的手势图像数据集及手势的骨架信息标签搭建第一卷积神经网络,用于通过训练实现对图像中手势的骨架检测;
步骤2,针对同样的手势图像数据集及手势的语义分割标签搭建第二卷积神经网络,用于通过训练实现对图像中手势的语义分割;
步骤3,将两个卷积神经网络的数据层和损失层合并,用并联的方式对两个网络进行连接;
步骤4,将两个网络的全卷积层输出结果分别反馈到对方网络的前端作为输入的一部分;
步骤5,利用步骤4改进后的网络结构进行训练、得到模型,从而实现对图像中手势的骨架信息和语义分割信息的并行检测。
2.根据权利要求1所述的搭建针对手势检测的深度学习网络结构的方法,其特征在于:所述步骤4中反馈位置为对方网络某一卷积层的输入处。
3.根据权利要求3所述的搭建针对手势检测的深度学习网络结构的方法,其特征在于:所述步骤4中将第一卷积神经网络全卷积层输出的骨架检测结果反馈到第二卷积神经网络的第二个卷积层的输入处,与原本的输入合并作为第一卷积神经网络的第二个卷积层新的输入,将第一卷积神经网络的全卷积层输出的语义分割结果反馈到第一卷积神经网络的第二个卷积层的输入处,与原本的输入合并作为第一卷积神经网络的第二个卷积层新的输入。
4.搭建针对手势检测的深度学习网络结构的系统,其特征在于,包括:
骨架检测单元,用于搭建一个能够对采集的手势图像进行骨架检测的卷积神经网络;
语义分割单元,用于搭建一个能够对采集的手势图像进行语义分割的卷积神经网络;
全卷积层输出交叉反馈单元,用于将两个卷积神经网络的全卷积层输出交叉反馈到对方网络第二个卷积层的输出处,与原有输入合并作为第二个卷积层新的输入。
5.根据权利要求4所述的搭建针对手势检测的深度学习网络结构的系统,其特征在于,两个卷积神经网络的数据层和损失层合并,两个网络通过并联方式连接。
CN201810030295.5A 2018-01-12 2018-01-12 一种搭建针对手势检测的深度学习网络结构的方法及系统 Active CN108334880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810030295.5A CN108334880B (zh) 2018-01-12 2018-01-12 一种搭建针对手势检测的深度学习网络结构的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810030295.5A CN108334880B (zh) 2018-01-12 2018-01-12 一种搭建针对手势检测的深度学习网络结构的方法及系统

Publications (2)

Publication Number Publication Date
CN108334880A true CN108334880A (zh) 2018-07-27
CN108334880B CN108334880B (zh) 2021-11-26

Family

ID=62924154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810030295.5A Active CN108334880B (zh) 2018-01-12 2018-01-12 一种搭建针对手势检测的深度学习网络结构的方法及系统

Country Status (1)

Country Link
CN (1) CN108334880B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178272A (zh) * 2019-12-30 2020-05-19 东软集团(北京)有限公司 一种识别驾驶员行为的方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122350A (zh) * 2011-02-24 2011-07-13 浙江工业大学 基于骨架化和模板匹配的交警手势识别方法
US20130182902A1 (en) * 2012-01-17 2013-07-18 David Holz Systems and methods for capturing motion in three-dimensional space
CN107481313A (zh) * 2017-08-18 2017-12-15 深圳市唯特视科技有限公司 一种基于学习有效点云生成的密集三维物体重建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122350A (zh) * 2011-02-24 2011-07-13 浙江工业大学 基于骨架化和模板匹配的交警手势识别方法
US20130182902A1 (en) * 2012-01-17 2013-07-18 David Holz Systems and methods for capturing motion in three-dimensional space
CN107481313A (zh) * 2017-08-18 2017-12-15 深圳市唯特视科技有限公司 一种基于学习有效点云生成的密集三维物体重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YOUNGWOOK KIM等: "《Hand Gesture Recognition Using Micro-Doppler Signatures With Convolutional Neural Network》", 《IEEE ACCESS》 *
王命延 等: "《机器人跟踪手势姿态图像运动准确性仿真》", 《计算机仿真》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178272A (zh) * 2019-12-30 2020-05-19 东软集团(北京)有限公司 一种识别驾驶员行为的方法、装置及设备
CN111178272B (zh) * 2019-12-30 2023-04-18 东软集团(北京)有限公司 一种识别驾驶员行为的方法、装置及设备

Also Published As

Publication number Publication date
CN108334880B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN103440101B (zh) 一种手写原笔迹数据的处理方法、系统及手机
CN108335313A (zh) 图像分割方法及装置
CN110427799B (zh) 基于生成对抗网络的人手深度图像数据增强方法
EP3398035B1 (en) Detection of hand gestures using gesture language discrete values
CN106650687A (zh) 一种基于深度信息和骨骼信息的姿势矫正方法
CN108133220A (zh) 模型训练、关键点定位及图像处理方法、系统及电子设备
CN108197547A (zh) 人脸姿态估计方法、装置、终端及存储介质
CN107741781A (zh) 无人机的飞行控制方法、装置、无人机及存储介质
CN106886986B (zh) 基于自适应组结构稀疏字典学习的图像融合方法
CN105760834A (zh) 一种人脸特征点定位方法
CN109117760A (zh) 图像处理方法、装置、电子设备和计算机可读介质
CN107798717A (zh) 电子毛笔书写方法、装置、计算机设备和存储介质
CN106022294A (zh) 一种面向智能机器人的人机交互方法及装置
CN110188667B (zh) 一种基于三方对抗生成网络的人脸摆正方法
CN109815452A (zh) 文本比较方法、装置、存储介质及电子设备
CN110008961A (zh) 文字实时识别方法、装置、计算机设备及存储介质
US20240005211A1 (en) Data processing method and apparatus
DE102016119991B4 (de) Emulation von Taktjittern
CN109064434A (zh) 图像增强的方法、装置、存储介质及计算机设备
CN106778851A (zh) 基于手机取证数据的社交关系预测系统及其方法
Maher et al. Realtime human-UAV interaction using deep learning
CN110222712A (zh) 一种基于深度学习的多专项目标检测算法
CN111862031A (zh) 一种人脸合成图检测方法、装置、电子设备及存储介质
CN108334880A (zh) 一种搭建针对手势检测的深度学习网络结构的方法及系统
CN110390307A (zh) 表情识别方法、表情识别模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant