CN110490165B - 一种基于卷积神经网络的动态手势跟踪方法 - Google Patents

一种基于卷积神经网络的动态手势跟踪方法 Download PDF

Info

Publication number
CN110490165B
CN110490165B CN201910792280.7A CN201910792280A CN110490165B CN 110490165 B CN110490165 B CN 110490165B CN 201910792280 A CN201910792280 A CN 201910792280A CN 110490165 B CN110490165 B CN 110490165B
Authority
CN
China
Prior art keywords
gesture
tracking
frame
dynamic
yolov
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910792280.7A
Other languages
English (en)
Other versions
CN110490165A (zh
Inventor
李东洁
李东阁
杨柳
徐东昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201910792280.7A priority Critical patent/CN110490165B/zh
Publication of CN110490165A publication Critical patent/CN110490165A/zh
Application granted granted Critical
Publication of CN110490165B publication Critical patent/CN110490165B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于卷积神经网络的动态手势跟踪方法,涉及计算机视觉技术领域,为了应对在复杂场景中手势跟踪过程中遇到的肤色干扰导致跟踪效果差和跟踪的实时性不足等问题,包括以下步骤:步骤一:将复杂背景下的动态手势跟踪作为视觉任务;步骤二:选择手势图像样本进行滤波处理,然后制作手势训练集;步骤三:确定YOLOv3‑gesture手势检测网络结构;步骤四:利用规划区域检测框架完成动态手势跟踪;步骤五:对YOLOv3‑gesture模型进行训练,得到动态手势跟踪模型;步骤六:利用得到的模型完成动态手势跟踪。本发明在复杂场景中手势跟踪过程中遇到的肤色干扰时,跟踪效果强,跟踪的实时性足。

Description

一种基于卷积神经网络的动态手势跟踪方法
技术领域
本发明涉及计算机视觉技术领域,具体为一种基于卷积神经网络的动态手势跟踪方法。
背景技术
基于手势的人机交互是人类最自然的人机交互方式,近几年来受到越来越研究人员的关注。在动态手势交互方式中,手的轨迹是手势指令的重要组成部分之一,所以对手势的跟踪是一个重要环节。手势跟踪的算法虽然在虚拟现实系统和HCI系统中得到了广泛的应用,由于在应用中对手势跟踪的鲁棒性和实时性要求逐渐提高,所以在基于视觉的研究领域中手势跟踪仍然是一个具有挑战性的问题。
发明内容
本发明的目的是:为了应对在复杂场景中手势跟踪过程中遇到的肤色干扰导致跟踪效果差和跟踪的实时性不足等问题,提出一种基于卷积神经网络的动态手势跟踪方法。
本发明为了解决上述技术问题采取的技术方案是:一种基于卷积神经网络的动态手势跟踪方法,包括以下步骤:
步骤一:将复杂背景下的动态手势跟踪作为视觉任务;
步骤二:选择手势图像样本进行滤波处理,然后制作手势训练集;
步骤三:确定YOLOv3-gesture手势检测网络结构;
步骤四:利用规划区域检测框架完成动态手势跟踪;
步骤五:对YOLOv3-gesture模型进行训练,得到动态手势跟踪模型;
步骤六:利用得到的模型完成动态手势跟踪。
进一步的,所述步骤三的详细步骤为:首先保持Darknet-53的残差模块,在每个残差模块后面增加一个1×1卷积核,同时在第一个卷积层中使用线性激活函数,然后在残差模块中,调整每个模块中的残差网络层数。
进一步的,所述步骤四利用规划区域检测框架完成动态手势跟踪的具体步骤为:首先假设在第t帧图像中检测到有手势目标Object1,则经过YOLOv3-gesture网络预测输出预测框X1的中心坐标(bx,by)、预测框宽度bw和高度bh;进入第t+1帧后,在第t帧中心点的附近区域生成规划区域进行检测,即在第t+1帧时,输入YOLOv3-gesture网络的大小为规划区域S*,其中规划区域S*的宽度Sw和高度Sh,则以第t帧中心点为原点,第t+1帧规划区,域的左上角顶点(Sx,Sy)公式如下:
Figure BDA0002179872490000021
Figure BDA0002179872490000022
其中n为变换尺度,Sw=3bw,Sh=3bh,若在规划区域中未检测到对象则n+1,规划区域最大为输入完整图像的大小,如果存在多个手势目标,则分别对每个手势目标Objectn规划区域进行检测完成跟踪,bw和bh为上一帧预测边框的宽度和高度。
进一步的,所述步骤五中对YOLOv3-gesture模型进行训练的具体步骤为:首先设置每批训练样本batch为64,一次性送入训练器样本数量subdivisions为16,动量参数设置为0.9,权重衰减正则项为0.0005,初始学习率设置为0.001,采用小批量随机梯度下降的方式进行优化,同时进行多尺度训练。
本发明的有益效果是:本发明能够快速地完成手势检测跟踪,优化了检测主体网络结构,使得训练YOLOv3-gesture网络的速度大幅度的提升,节省了大量的时间成本。本发明中采用卷积神经网络模型进行手势检测,并利用规划区域检测框架对手势进行跟踪,不仅提高了测试的准确率,而且在不同的环境下的数据集中展现了良好的泛化能力。而且本发明在复杂场景中手势跟踪过程中遇到的肤色干扰时,跟踪效果强,跟踪的实时性足。
附图说明
图1为本发明动态手势检测流程图。
图2为本发明规划区域检测流程图。
具体实施方式
具体实施方式一:参照图1和图2具体说明本实施方式,本实施方式所述的一种基于卷积神经网络的动态手势跟踪方法,包括以下步骤:
步骤一:将复杂背景下的动态手势跟踪作为视觉任务;
步骤二:选择手势图像样本进行滤波处理,然后制作手势训练集;
步骤三:确定YOLOv3-gesture手势检测网络结构;
步骤四:利用规划区域检测框架完成动态手势跟踪;
步骤五:对YOLOv3-gesture模型进行训练,得到动态手势跟踪模型;
步骤六:利用得到的模型完成动态手势跟踪。
根据得到的动态手势跟踪模型利用新样本对动态手势跟踪模型测试,得到新样本的检测结果。
为了应对在复杂场景中手势跟踪过程中遇到的肤色干扰导致跟踪效果差和跟踪的实时性不足等问题,本发明在基于卷积神经网络的YOLOv3检测算法基础上,提高算法跟踪鲁棒性的同时满足实时性的要求,提高手势跟踪的综合性能。
任何的场景目标发现问题,都可以看作是一个和该目标相关的视觉任务。提出一种不依赖手工特征,在复杂场景中进行动态手势跟踪的方法。本发明的视觉任务是:在复杂背景下对动态手势进行跟踪。通过对视觉任务学习得到一种稳定的,与任务强相关的目标检测模型。将新的样本图像输入目标检测模型便可以得到检测结果。本发明将利用深度学习的思想解决视觉任务的训练过程,利用YOLOv3-gesture网络解决手势检测问题。相对于传统Darknet-53网络对于单类物体检测费时的推断,在每个残差模块后面增加了一个卷积核进一步降低输出维度,从而使网络性能进一步提升。
本发明首先确定模型要执行的任务,任务是复杂背景下的手势跟踪。然后对现有的Darknet-53网络进行改进。Darknet-53网络是这个模型的主体网络结构,利用该模型进行特征提取。该模型,是识别不出来手势的,因为没对它进行针对于手势图像的训练,没有认识手的特征。因此对它进行训练,得到相应的权重值,手的特征被记住。该模型就能检测出来手势,然后对它进行跟踪。训练模型时,选一些带有手的图像,进行预处理让它的特征更明显,然后输入到这个模型中让它学习特征(也就是所说的训练)。训练可以得到针对于识别手势的权重值。有了权重值,该模型对新输入来的图片,就可以识别出来手了。
识别出来手之后,模型只能识别图片,动态就是视频,处理视频就要用到规划区域检测框架,视频每帧都是图像,规划区域检测将视频前后两帧图像联系在一起,从而完成跟踪。
具体实施方式二:本实施方式是对具体实施方式一所述的作进一步说明,本实施方式与具体实施方式一的区别是所述步骤三的详细步骤为:首先保持Darknet-53的残差模块,在每个残差模块后面增加一个1×1卷积核,同时在第一个卷积层中使用线性激活函数,然后在残差模块中,调整每个模块中的残差网络层数。
本实施方式在结构上改善传统Darknet-53网络对于手势这样的单类物体检测的结构参数过于复杂和冗余的缺点,具体实施时步骤如下:
1、保持Darknet-53的残差模块,在每个残差模块后面增加一个1×1的卷积核进一步降低输出维度,同时在第一个卷积层中使用线性激活函数来避免低维度卷积层特征图像丢失的问题。
2、在残差模块中,调整每个模块中的残差网络层数,使得残差模块间的连接得到增强,增强特征图的复用性,减少模块间特征的传递损失。
具体实施方式三:本实施方式是对具体实施方式一所述的作进一步说明,本实施方式与具体实施方式一的区别是所述步骤四利用规划区域检测框架完成动态手势跟踪的具体步骤为:首先假设在第t帧图像中检测到有手势目标Object1,则经过YOLOv3-gesture网络预测输出预测框X1的中心坐标(bx,by)、预测框宽度bw和高度bh;进入第t+1帧后,在第t帧中心点的附近区域生成规划区域进行检测,即在第t+1帧时,输入YOLOv3-gesture网络的大小为规划区域S*,其中规划区域S*的宽度Sw和高度Sh取值由预测边框的宽度bw和bh决定,则以第t帧中心点为原点,第t+1帧规划区域的左上角顶点(Sx,Sy)公式如下:
Figure BDA0002179872490000041
Figure BDA0002179872490000042
其中n为变换尺度,Sw=3bw,Sh=3bh,若在规划区域中未检测到对象则n+1,规划区域最大为输入完整图像的大小,如果存在多个手势目标,则分别对每个手势目标Objectn规划区域进行检测完成跟踪,bw和bh为上一帧预测边框的宽度和高度。
具体实施方式四:本实施方式是对具体实施方式一所述的作进一步说明,本实施方式与具体实施方式一的区别是所述步骤五中对YOLOv3-gesture模型进行训练的具体步骤为:首先设置每批训练样本batch为64,一次性送入训练器样本数量subdivisions为16,动量参数设置为0.9,权重衰减正则项为0.0005,初始学习率设置为0.001,采用小批量随机梯度下降的方式进行优化,同时采用多尺度训练的方式来增强算法对不同大小图像检测的鲁棒性。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (3)

1.一种基于卷积神经网络的动态手势跟踪方法,其特征在于包括以下步骤:
步骤一:将复杂背景下的动态手势跟踪作为视觉任务;
步骤二:选择手势图像样本进行滤波处理,然后制作手势训练集;
步骤三:确定YOLOv3-gesture手势检测网络结构;
步骤四:利用规划区域检测框架完成动态手势跟踪;
步骤五:对YOLOv3-gesture模型进行训练,得到动态手势跟踪模型;
步骤六:利用得到的模型完成动态手势跟踪;
所述步骤四利用规划区域检测框架完成动态手势跟踪的具体步骤为:首先假设在第t帧图像中检测到有手势目标Object1,则经过YOLOv3-gesture网络预测输出预测框X1的中心坐标(bx,by)、预测框宽度bw和高度bh;进入第t+1帧后,在第t帧中心点的附近区域生成规划区域进行检测,即在第t+1帧时,输入YOLOv3-gesture网络的大小为规划区域S*,其中规划区域S*的宽度Sw和高度Sh,则以第t帧中心点为原点,第t+1帧规划区域的左上角顶点(Sx,Sy)公式如下:
Figure FDA0002749097770000011
Figure FDA0002749097770000012
其中n为变换尺度,Sw=3bw,Sh=3bh,若在规划区域中未检测到对象则n+1,规划区域最大为输入完整图像的大小,如果存在多个手势目标,则分别对每个手势目标Object1规划区域进行检测完成跟踪,bw和bh为上一帧预测边框的宽度和高度。
2.根据权利要求1所述的一种基于卷积神经网络的动态手势跟踪方法,其特征在于所述步骤三的详细步骤为:首先保持Darknet-53的残差模块,在每个残差模块后面增加一个1×1卷积核,同时在第一个卷积层中使用线性激活函数,然后在残差模块中,调整每个模块中的残差网络层数。
3.根据权利要求1所述的一种基于卷积神经网络的动态手势跟踪方法,其特征在于所述步骤五中对YOLOv3-gesture模型进行训练的具体步骤为:首先设置每批训练样本batch为64,一次性送入训练器样本数量subdivisions为16,动量参数设置为0.9,权重衰减正则项为0.0005,初始学习率设置为0.001,采用小批量随机梯度下降的方式进行优化,同时进行多尺度训练。
CN201910792280.7A 2019-08-26 2019-08-26 一种基于卷积神经网络的动态手势跟踪方法 Expired - Fee Related CN110490165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910792280.7A CN110490165B (zh) 2019-08-26 2019-08-26 一种基于卷积神经网络的动态手势跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910792280.7A CN110490165B (zh) 2019-08-26 2019-08-26 一种基于卷积神经网络的动态手势跟踪方法

Publications (2)

Publication Number Publication Date
CN110490165A CN110490165A (zh) 2019-11-22
CN110490165B true CN110490165B (zh) 2021-05-25

Family

ID=68553436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910792280.7A Expired - Fee Related CN110490165B (zh) 2019-08-26 2019-08-26 一种基于卷积神经网络的动态手势跟踪方法

Country Status (1)

Country Link
CN (1) CN110490165B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062312B (zh) * 2019-12-13 2023-10-27 RealMe重庆移动通信有限公司 手势识别方法、手势控制方法、装置、介质与终端设备
CN112506342B (zh) * 2020-12-04 2022-01-28 郑州中业科技股份有限公司 基于动态手势识别的人机交互方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180226A (zh) * 2017-04-28 2017-09-19 华南理工大学 一种基于组合神经网络的动态手势识别方法
CN109325454A (zh) * 2018-09-28 2019-02-12 合肥工业大学 一种基于YOLOv3的静态手势实时识别方法
CN109344701A (zh) * 2018-08-23 2019-02-15 武汉嫦娥医学抗衰机器人股份有限公司 一种基于Kinect的动态手势识别方法
CN109948498A (zh) * 2019-03-13 2019-06-28 中南大学 一种基于3d卷积神经网络算法的动态手势识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180226A (zh) * 2017-04-28 2017-09-19 华南理工大学 一种基于组合神经网络的动态手势识别方法
CN109344701A (zh) * 2018-08-23 2019-02-15 武汉嫦娥医学抗衰机器人股份有限公司 一种基于Kinect的动态手势识别方法
CN109325454A (zh) * 2018-09-28 2019-02-12 合肥工业大学 一种基于YOLOv3的静态手势实时识别方法
CN109948498A (zh) * 2019-03-13 2019-06-28 中南大学 一种基于3d卷积神经网络算法的动态手势识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Light YOLO for High-Speed Gesture Recognition;Zihan Ni et al;《 2018 25th IEEE International Conference on Image Processing (ICIP)》;20180906;第3099-3103页 *

Also Published As

Publication number Publication date
CN110490165A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
US11170210B2 (en) Gesture identification, control, and neural network training methods and apparatuses, and electronic devices
CN108121986B (zh) 目标检测方法及装置、计算机装置和计算机可读存储介质
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN107103613B (zh) 一种三维手势姿态估计方法
CN108256431B (zh) 一种手部位置标识方法及装置
CN108734194B (zh) 一种面向虚拟现实的基于单深度图的人体关节点识别方法
CN102426480A (zh) 一种人机交互系统及其实时手势跟踪处理方法
CN104299245B (zh) 基于神经网络的增强现实跟踪方法
CN111553282A (zh) 用于检测车辆的方法和装置
US10990170B2 (en) Eye tracking method, electronic device, and non-transitory computer readable storage medium
CN107808129A (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN110246181A (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
CN110503686A (zh) 基于深度学习的物体位姿估计方法及电子设备
US10803604B1 (en) Layered motion representation and extraction in monocular still camera videos
CN111209811B (zh) 一种实时检测眼球注意力位置的方法及系统
US10401947B2 (en) Method for simulating and controlling virtual sphere in a mobile device
CN110490165B (zh) 一种基于卷积神经网络的动态手势跟踪方法
CN108898612A (zh) 基于多智能体深度增强学习的多目标跟踪方法
CN112657176A (zh) 一种结合人像行为信息的双目投影人机交互方法
CN112507918A (zh) 一种手势识别方法
CN116030305A (zh) 一种目标检测的轻量级算法
CN118154603A (zh) 基于级联多层特征融合网络的显示屏缺陷检测方法及系统
CN104751487A (zh) 一种基于彩色rgb三平面色变帧差的运动目标检测方法
CN105139433B (zh) 基于均值模型的红外弱小目标图像序列仿真方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210525