CN106960175A - 基于深度卷积神经网络的第一视角动态手势检测方法 - Google Patents

基于深度卷积神经网络的第一视角动态手势检测方法 Download PDF

Info

Publication number
CN106960175A
CN106960175A CN201710093766.2A CN201710093766A CN106960175A CN 106960175 A CN106960175 A CN 106960175A CN 201710093766 A CN201710093766 A CN 201710093766A CN 106960175 A CN106960175 A CN 106960175A
Authority
CN
China
Prior art keywords
gesture
neural networks
convolutional neural
picture
depth convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710093766.2A
Other languages
English (en)
Other versions
CN106960175B (zh
Inventor
金连文
程卓
张鑫
黄毅超
李晨阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710093766.2A priority Critical patent/CN106960175B/zh
Publication of CN106960175A publication Critical patent/CN106960175A/zh
Application granted granted Critical
Publication of CN106960175B publication Critical patent/CN106960175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了本发明公开了基于深度卷积神经网络的第一视角动态手势检测方法,包括步骤:采集不同环境下的具有复杂背景的数字手势图片,人工标记出手势在所述数字手势图片中的外接矩形;设计一个深度卷积神经网络,利用卷积计算进行特征提取,在特征图上预测和滑窗操作得到不同尺寸的候选框,将候选框和真实值进行损失计算并误差反传;利用已标记外接矩形的手指手势图片训练所述深度卷积神经网络,使得深度卷积神经网络收敛且参数稳定;输入第一视角的动态手势视频,将视频拆分成一帧帧图片,检测出图片中手势外接矩形位置的坐标点。与现有技术相比,本发明能准确地检测复杂背景、不同光线下的视频中动态手势。

Description

基于深度卷积神经网络的第一视角动态手势检测方法
技术领域
本发明涉及计算机视觉及机器学习领域,尤其涉及基于深度卷积神经网络的第一视角动态手势检测方法。
背景技术
经过几次计算机革命之后,如今的生活变得更加智能及简单,从而人机交互在生活中体现出越来越重要的地位,成为这个正在改变的世界中绝不可缺少的角色。如今可穿戴设备越来越受到人们的广泛关注,而手势可作为一个自然的交互连接通道,使得计算机和人的沟通更加容易,所以第一视角下的手势交互在人机交互中具有重要的意义。手势交互的技术主要涉及手势的检测,在一个自然场景下,检测出手势所在的区域外接矩形。目标物体检测大致分为传统算法和机器学习算法。传统算法检测复杂场景,不同肤色,不同光线,低像素下的动态手势,不能得到满意的结果。而近十多年机器学习掀起热潮,在目标检测方面能够得到惊人的效果。基于深度卷积神经网络算法能够在复杂背景,不同肤色,不同光线,模糊图像,复杂手势等等无法约束的条件下提取图片的特征信息。
发明内容
为克服现有技术的不足,通过输入手势视频流,进入深度卷积神经框架进行目标手势检测,本发明提出基于深度卷积神经网络的第一视角动态手势检测方法。
本发明的技术方案是这样实现的,基于深度卷积神经网络的第一视角动态手势检测方法,包括步骤
S1:采集不同环境下的具有复杂背景的数字手势图片,利用标记工具,人工标记出手势在所述数字手势图片中的外接矩形,保存所述外接矩形的左下角和右上角的坐标点;
S2:设计一个深度卷积神经网络,其输入为三通道的手势图片,利用卷积计算提取每张手势图片的特征信息,得到多张特征图片,在特征图片上进行滑窗操作,提取多个不同长宽比的候选框,同时在特征图片上预测手势外接矩形的坐标,并用特征图存储预测的候选框位置信息,将提出的候选框和预测的候选框于真实值进行阈值计算,去除重叠率低的候选框,将剩下的候选框与真实值进行匹配得到匹配到手存在的候选框,然后将匹配到手存在的候选框与真实值进行损失计算,利用随机梯度下降,得到反向传播残差;
S3:利用已标记外接矩形的数字手势图片训练所述深度卷积神经网络,使得深度卷积神经网络收敛且参数稳定;
S4:在训练完成的深度卷积神经网络的模型中输入第一视角的动态手势视频,将视频拆分成一帧帧图片,检测出图片中手势外接矩形位置的坐标点。
进一步地,步骤S1包括步骤
S11:将摄像头置于眼睛附近,采集不同场景、不同光照、不同手势、不同肤色下的动态手势视频;
S12:将所述动态手势视频拆分为一帧帧的图片,每十秒采集一帧图片作为图片数据样本;
S13:使用标记工具,人工对采集到的图片进行外接矩形标注,记录手势所在外接矩形的左上角和右下角坐标;
S14:对坐标点进行归一化处理。
进一步地,步骤S2中特征图片上进行滑窗操作提取的候选框的长宽比包括但不限于1:1、1:2和2:1。
进一步地,步骤S2中所述去除重叠率低的候选框是去除重叠率小于0.3的候选框。
进一步地,步骤S2中将匹配到手存在的候选框与真实值进行损失计算包括步骤:通过欧氏距离公式计算提取到候选框的四维坐标向量与真实值的四维坐标向量的坐标偏移量。
进一步地,步骤S3包括步骤
S31:反向传播残差;
S32:利用已标记外接矩形的数字手势图片通过迭代更新深度卷积神经网络的参数,对深度卷积神经网络进行优化,使得深度卷积神经网络收敛;
S33:深度卷积神经网络稳定后,得到并记录每一层深度卷积神经网络的权值参数。
更进一步地,步骤S4包括步骤
S41:将摄像头放置于眼睛周围,拍摄不同的手势视频;
S42:将手势视频拆分成一帧帧图片,将图片作为深度卷积神经网络前向操作的输入,在深度卷积神经网络的输入层进行可视化处理;
S43:将可视化处理得到的四维坐标向量进行反归一化处理,得到手势区域的外接矩形坐标,并在图片上描画出手势区域的外接矩形;
S43:将拆分并描画了外接矩形的图片合成视频,检测出手势所在位置的外接矩形。
本发明的有益效果在于,与现有技术相比,本发明采用人工标注手势外接矩形左上角,右下角坐标,并且对坐标进行归一化处理,能够使后续的训练有较为准确的训练样本以及任意尺寸的原图;本发明采用在特征图上滑窗的方式,提取不同长宽比的候选框,达到提取特征图上每个位置的候选框目的;本发明采用候选框与真实值进行匹配的方法,达到了区分候选框中是否存在手势的目的;本发明采用深度卷积神经网络算法检测手势,达到了复杂背景,不同光线下准确检测视频中动态手势的目的。
附图说明
图1是本发明基于深度卷积神经网络的第一视角动态手势检测方法流程图;
图2a是本发明中人工标注外接矩形的一个实施例示意图;
图2b是本发明中人工标注外接矩形的另一个实施例示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明主要用于解决复杂场景下第一视角的动态手势实时检测的问题,利用深度卷积神经网络提取数据高维和低维的特征信息,通过在这些特征信息中提取和预测多个候选框,阈值处理后将这些候选框与真实值进行位置损失计算,将计算得到的残差进行网络的反向传播。
请参见图1,本发明基于深度卷积神经网络的第一视角动态手势检测方法,包括步骤
S1:采集不同环境下的具有复杂背景的数字手势图片,利用标记工具,人工标记出手势在所述数字手势图片中的外接矩形,保存所述外接矩形的左下角和右上角的坐标点;
S2:设计一个深度卷积神经网络,其输入为三通道的手势图片,利用卷积计算提取每张手势图片的特征信息,得到多张特征图片,在特征图片上进行滑窗操作,提取多个不同长宽比的候选框,同时在特征图片上预测手势外接矩形的坐标,并用特征图存储预测的候选框位置信息,将提出的候选框和预测的候选框于真实值进行阈值计算,去除重叠率低的候选框,将剩下的候选框与真实值进行匹配得到匹配到手存在的候选框,然后将匹配到手存在的候选框与真实值进行损失计算,利用随机梯度下降,得到反向传播残差;
S3:利用已标记外接矩形的数字手势图片训练所述深度卷积神经网络,使得深度卷积神经网络收敛且参数稳定;
S4:在训练完成的深度卷积神经网络的模型中输入第一视角的动态手势视频,检测出图片中手势外接矩形位置的坐标点。
其中步骤S1包括步骤
S11:将摄像头置于眼睛附近采集动态手势视频。在不同场景,不同的光照,不同的手势,不同的肤色下大量采集;
S12:处理数据,将所有视频拆分为一帧帧图片,十秒间隔采集一帧图片作为数据样本;
S13:人工对每一帧图片进行标注,找到手势所在图片中的外接矩形并记录手势所在区域的左上角(xmin,ymin)和右下角(xmax,ymax)的坐标,如图2所示;
S14:坐标点进行归一化处理后,任意改变原图的尺寸,手势外接矩形相对图片的位置任不会改变。方法为:根据图片的尺寸大小(h*w),将两个坐标点进行归一化处理,用坐标x除以图片的长,坐标y除以图片的宽,归一化后的坐标为(x/h,y/w),将此归一化后的坐标作为真实值与图片名字配对并存储。
步骤S2包括步骤
S21:设计一个深度卷积神经网络,输入为三通道(RGB通道)的手势图片,利用卷积计算去提取每张图片的特征信息,得到多张特征图片,
卷积计算公式为:
其中xi是神经元的输入,Wi是与每个神经元相乘的权值,b是偏置,y是下一层神经元的输出;
S22:其一在若干的特征图上进行滑窗操作,提取多个不同长宽比(1:1,1:2,2:1)的候选框;
S23:其二在若干特征图上预测手势外接矩形的坐标,并且用特征图来存储预测出的候选框位置信息;
S24:将提取的和预测的候选框与真实值进行阈值计算,去除重叠率小于0.3的候选框:
阈值计算公式:
其中当y=1的时,表示候选框与真实值的重叠率大于0.3,保存此候选框,而y=0时,将此候选框丢弃;
S25:提取和预测的候选框与真实值进行匹配,若候选框匹配到手存在,则将框标为正样本(表示框中有手存在),其余视为负样本;
S26:位置的损失计算:通过欧氏距离公式计算提取和预测候选框(输出的四维坐标向量)与真实值(输入的四维坐标向量)的坐标偏移量。欧式距离公式:
S27:损失计算后利用随机梯度下降,得到反向传播的残差为:
步骤S3包括步骤
S31:反向传播每次得到的残差;
S32:通过大量的数据并且多次迭代更新网络参数,对网络进行优化,网络收敛;
S33:网络参数趋于稳定,得到每一层网络的权值参数。
步骤S4包括步骤
S41:将摄像头放置在眼睛周围,模拟眼睛去拍摄不同的手势视频作为测试集样本。视频拆分成一帧帧图片(frame),进入网络进行前向操作,在网络的输出层进行可视化,记为函数G,
G(frame)=(xmin,ymin,xmax,ymax)
S42:将得到的四维坐标向量进行反归一化操作后,(xmin,ymin)为外接矩形左上角的坐标,(xmax,ymax)为外接矩形右上角的坐标,描画到原图上,能够得到手势区域的外接矩形;
S43:将一帧帧图像合成视频,能够动态的检测出手势所在位置,并且标注出手势外接矩形(检测出手势所在位置)。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.基于深度卷积神经网络的第一视角动态手势检测方法,其特征在于,包括步骤
S1:采集不同环境下的具有复杂背景的数字手势图片,利用标记工具,人工标记出手势在所述数字手势图片中的外接矩形,保存所述外接矩形的左下角和右上角的坐标点;
S2:设计一个深度卷积神经网络,其输入为三通道的手势图片,利用卷积计算提取每张手势图片的特征信息,得到多张特征图片,在特征图片上进行滑窗操作,提取多个不同长宽比的候选框,同时在特征图片上预测手势外接矩形的坐标,并用特征图存储预测的候选框位置信息,将提出的候选框和预测的候选框于真实值进行阈值计算,去除重叠率低的候选框,将剩下的候选框与真实值进行匹配得到匹配到手存在的候选框,然后将匹配到手存在的候选框与真实值进行损失计算,利用随机梯度下降,得到反向传播残差;
S3:利用已标记外接矩形的数字手势图片训练所述深度卷积神经网络,使得深度卷积神经网络收敛且参数稳定;
S4:在训练完成的深度卷积神经网络的模型中输入第一视角的动态手势视频,将视频拆分成一帧帧图片,检测出图片中手势外接矩形位置的坐标点。
2.如权利要求1所述的基于深度卷积神经网络的第一视角动态手势检测方法,其特征在于,步骤S1包括步骤
S11:将摄像头置于眼睛附近,采集不同场景、不同光照、不同手势、不同肤色下的动态手势视频;
S12:将所述动态手势视频拆分为一帧帧的图片,每十秒采集一帧图片作为图片数据样本;
S13:使用标记工具,人工对采集到的图片进行外接矩形标注,记录手势所在外接矩形的左上角和右下角坐标;
S14:对坐标点进行归一化处理。
3.如权利要求1所述的基于深度卷积神经网络的第一视角动态手势检测方法,其特征在于,步骤S2中特征图片上进行滑窗操作提取的候选框的长宽比包括但不限于1:1、1:2和2:1。
4.如权利要求1所述的基于深度卷积神经网络的第一视角动态手势检测方法,其特征在于,步骤S2中所述去除重叠率低的候选框是去除重叠率小于0.3的候选框。
5.如权利要求1所述的基于深度卷积神经网络的第一视角动态手势检测方法,其特征在于,步骤S2中将匹配到手存在的候选框与真实值进行损失计算包括步骤:通过欧氏距离公式计算提取到候选框的四维坐标向量与真实值的四维坐标向量的坐标偏移量。
6.如权利要求2所述的基于深度卷积神经网络的第一视角动态手势检测方法,其特征在于,步骤S3包括步骤
S31:反向传播残差;
S32:利用已标记外接矩形的手指手势图片通过迭代更新深度卷积神经网络的参数,对深度卷积神经网络进行优化,使得深度卷积神经网络收敛;
S33:深度卷积神经网络稳定后,得到并记录每一层深度卷积神经网络的权值参数。
7.如权利要求1所述的基于深度卷积神经网络的第一视角动态手势检测方法,其特征在于,步骤S4包括步骤
S41:将摄像头放置于眼睛周围,拍摄不同的手势视频;
S42:将手势视频拆分成一帧帧图片,并将图片作为深度卷积神经网络前向操作的输入,在深度卷积神经网络的输入层进行可视化处理;
S43:将可视化处理得到的四维坐标向量进行反归一化处理,得到手势区域的外接矩形坐标,并在图片上描画出手势区域的外接矩形;
S43:将拆分并描画了外接矩形的图片合成视频,检测出手势所在位置的外接矩形。
CN201710093766.2A 2017-02-21 2017-02-21 基于深度卷积神经网络的第一视角动态手势检测方法 Active CN106960175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710093766.2A CN106960175B (zh) 2017-02-21 2017-02-21 基于深度卷积神经网络的第一视角动态手势检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710093766.2A CN106960175B (zh) 2017-02-21 2017-02-21 基于深度卷积神经网络的第一视角动态手势检测方法

Publications (2)

Publication Number Publication Date
CN106960175A true CN106960175A (zh) 2017-07-18
CN106960175B CN106960175B (zh) 2020-01-31

Family

ID=59481566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710093766.2A Active CN106960175B (zh) 2017-02-21 2017-02-21 基于深度卷积神经网络的第一视角动态手势检测方法

Country Status (1)

Country Link
CN (1) CN106960175B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121968A (zh) * 2017-12-20 2018-06-05 佛山市洛克威特科技有限公司 一种鱼群监测方法
CN108182396A (zh) * 2017-12-25 2018-06-19 中国电子科技集团公司电子科学研究院 一种自动识别拍照行为的方法及装置
CN109300351A (zh) * 2017-07-25 2019-02-01 西门子保健有限责任公司 将工具与拾取手势相关联
CN109934184A (zh) * 2019-03-19 2019-06-25 网易(杭州)网络有限公司 手势识别方法及装置、存储介质、处理器
WO2020215565A1 (zh) * 2019-04-26 2020-10-29 平安科技(深圳)有限公司 手部图像的分割方法、装置及计算机设备
CN111931799A (zh) * 2019-05-13 2020-11-13 百度在线网络技术(北京)有限公司 图像识别方法及装置
EP3757730A3 (en) * 2019-06-27 2021-02-24 Google LLC Intent detection with a computing device
CN113221953A (zh) * 2021-04-14 2021-08-06 上海交通大学宁波人工智能研究院 基于实例分割和双目深度估计的目标姿态识别系统与方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205475B (zh) * 2015-10-20 2019-02-05 北京工业大学 一种动态手势识别方法
CN105718878B (zh) * 2016-01-19 2019-08-09 华南理工大学 基于级联卷积神经网络的第一视角空中手写和空中交互方法
CN105718879A (zh) * 2016-01-19 2016-06-29 华南理工大学 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109300351A (zh) * 2017-07-25 2019-02-01 西门子保健有限责任公司 将工具与拾取手势相关联
US10802597B2 (en) 2017-07-25 2020-10-13 Siemens Healthcare Gmbh Assigning a tool to a pick-up gesture
CN108121968A (zh) * 2017-12-20 2018-06-05 佛山市洛克威特科技有限公司 一种鱼群监测方法
CN108182396A (zh) * 2017-12-25 2018-06-19 中国电子科技集团公司电子科学研究院 一种自动识别拍照行为的方法及装置
CN108182396B (zh) * 2017-12-25 2022-06-28 中国电子科技集团公司电子科学研究院 一种自动识别拍照行为的方法及装置
CN109934184A (zh) * 2019-03-19 2019-06-25 网易(杭州)网络有限公司 手势识别方法及装置、存储介质、处理器
WO2020215565A1 (zh) * 2019-04-26 2020-10-29 平安科技(深圳)有限公司 手部图像的分割方法、装置及计算机设备
CN111931799A (zh) * 2019-05-13 2020-11-13 百度在线网络技术(北京)有限公司 图像识别方法及装置
EP3757730A3 (en) * 2019-06-27 2021-02-24 Google LLC Intent detection with a computing device
US11543888B2 (en) 2019-06-27 2023-01-03 Google Llc Intent detection with a computing device
US11960793B2 (en) 2019-06-27 2024-04-16 Google Llc Intent detection with a computing device
CN113221953A (zh) * 2021-04-14 2021-08-06 上海交通大学宁波人工智能研究院 基于实例分割和双目深度估计的目标姿态识别系统与方法

Also Published As

Publication number Publication date
CN106960175B (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN106960175A (zh) 基于深度卷积神经网络的第一视角动态手势检测方法
CN110738101B (zh) 行为识别方法、装置及计算机可读存储介质
CN105718878B (zh) 基于级联卷积神经网络的第一视角空中手写和空中交互方法
CN103927016B (zh) 一种基于双目视觉的实时三维双手手势识别方法及其系统
CN104601964B (zh) 非重叠视域跨摄像机室内行人目标跟踪方法及系统
CN106980365A (zh) 基于深度卷积神经网络框架的第一视角动态手势识别方法
CN107133969B (zh) 一种基于背景反投影的移动平台运动目标检测方法
CN108256421A (zh) 一种动态手势序列实时识别方法、系统及装置
CN105279769B (zh) 一种联合多特征的层次粒子滤波跟踪方法
CN108171196A (zh) 一种人脸检测方法及装置
CN109409366A (zh) 基于角点检测的畸变图像校正方法及装置
CN107679503A (zh) 一种基于深度学习的人群计数算法
CN103714345B (zh) 一种双目立体视觉检测手指指尖空间位置的方法与系统
CN107103613A (zh) 一种三维手势姿态估计方法
CN109670430A (zh) 一种基于深度学习的多分类器融合的人脸活体识别方法
CN106709453A (zh) 一种基于深度学习的体育视频关键姿态提取方法
CN106355147A (zh) 一种活体人脸检测头部姿态回归器的获取方法及检测方法
CN110135500A (zh) 一种基于自适应深度特征滤波器的多场景下目标跟踪方法
CN110458895A (zh) 图像坐标系的转换方法、装置、设备及存储介质
CN104751466B (zh) 一种基于显著性的形变物体跟踪方法及其系统
CN106599028A (zh) 一种基于视频图像处理的书本内容搜索匹配方法
CN106709938B (zh) 基于改进tld的多目标追踪方法
CN107633226A (zh) 一种人体动作跟踪识别方法及系统
CN107944459A (zh) 一种rgb‑d物体识别方法
CN108428249A (zh) 一种基于光流跟踪和双几何模型的初始位姿估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant