CN110135237A - 一种手势识别方法 - Google Patents

一种手势识别方法 Download PDF

Info

Publication number
CN110135237A
CN110135237A CN201910224820.1A CN201910224820A CN110135237A CN 110135237 A CN110135237 A CN 110135237A CN 201910224820 A CN201910224820 A CN 201910224820A CN 110135237 A CN110135237 A CN 110135237A
Authority
CN
China
Prior art keywords
gesture
network
feature
input
gesture identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910224820.1A
Other languages
English (en)
Other versions
CN110135237B (zh
Inventor
曹政才
李清林
许潇文
谢红玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN201910224820.1A priority Critical patent/CN110135237B/zh
Publication of CN110135237A publication Critical patent/CN110135237A/zh
Application granted granted Critical
Publication of CN110135237B publication Critical patent/CN110135237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm

Abstract

本发明公开了一种手势识别方法,首先,对手势图像做预处理,得到固定尺寸的手势图像。其次,分别使用针对全局和针对局部地特征提取网络获取手势图像的不同特征。其中用于提取局部特征的网络完全由卷积层组成,残差网络结构被用于融合低层与高层信息,输出大尺寸特征图;用于提取全局特征的网络由卷积和池化组成,其池化层输出与局部特征提取网络相应输出相融合作为下层卷积输入,最终输出小尺寸、大感受野的特征图。最终,检测网络1和2分别在大尺寸和小尺寸特征图上检测手势目标,二者检测结果经非极大值抑制处理后输出分类结果。本发明有效减轻了梯度消失和神经元死亡的程度。

Description

一种手势识别方法
技术领域
本发明涉及人机交互研究领域,具体是指一种手势识别方法。
背景技术
近年来随着科技水平的日益提高,人与机器人的交互场景更加丰富多样,传统基于鼠标和键盘的交互方式已经难以满足人与机器人交互的需求。基于手势的交互具有任务间切换时间短,交互方式自然友好的优点,可满足人们对人机交互的需求,而手势识别技术是其核心内容。
目前手势识方法主要分基于传感器和基于视觉两种,其中基于传感器的手势识别需要昂贵的辅助设备,交互方式不够友好自然,难以满足实际人机交互中的需求,而基于视觉的手势识别方法在复杂背景、不同光照下识别能力不稳定。中国专利201810542738.9公开了一种手势识别方法及装置,用以提高手势识别的准确率,减少误操作。所述方法包括:当检测到触摸操作时,检测触点的运动轨迹;触点的运动轨迹用于表示控制终端设备的手势;检测触点的当前移动速率;根据当前移动速率与运动轨迹识别手势。中国专利201510552869.1公开了一种3D手势识别方法,包括以下步骤:S1、物理硬件对用户手势的3D坐标数据进行实时采集;S2、物理硬件对采集到的3D坐标数据进行预处理,形成反馈数据;S3、数据处理软件对反馈数据进行识别处理;S4、系统输出数据识别处理结果。本发明可以有效解决视频手势识别需处理大量的数据,过程复杂,软件处理效率低的问题,直接根据三维空间坐标进行有效的动作判断过程,使处理更为高效。在手势动作产生时,首先在物理硬件中对其进行预判断,然后再把动作可能的结果交给软件进行处理,最后将软件处理的结果与硬件预判断的手势结果进行印证,进一步提高了手势动作的识别率。中国专利201510563293.9提供了一种手势识别方法,该手势识别方法包括:获取含有深度信息的使用者手部的待测图像序列;根据图像深度信息和图像颜色信息,在待测图像序列的每帧图像中检测出使用者的手部轮廓;针对使用者的每只手,利用预设的手部结构模板,在待测图像序列的每帧图像中确定该只手的待测特征点序列;针对使用者的每只手,在多个预设特征点序列中确定该只手的待测特征点序列的匹配序列,以根据匹配序列确定该只手的动作名称和位置;在预设手势表中选择与使用者双手的动作名称和位置相匹配的手势,作为待测图像序列的手势识别结果。
目前的技术研究多是应用于实际人机交互的手势识别方面,但实际的技术需求既需要具备识别速度快,又需要在不同场景下具备识别能力稳定。然而,经过相关技术检索发现,目前尚无充分满足以上要求的手势识别技术。
发明内容
针对以上问题,本发明的目的在于提供了一种可用于人机交互的手势识别方法,解决现有手势识别方法存在的缺陷。在本识别方法中,用户无需佩戴任何附加装置或标记物;将手势识别看作一个回归问题,避免重复计算;使用新型激活函数加速收敛;在不同尺度融合特征信息并在不同尺度识别手势类别。本方法在不同交互场景下具有很好的识别鲁棒性和实时性。
本发明提供一种手势识别方法,该方法主要包括:设计并制作针对人机交互场景的手势数据集;构建深度卷积网络并训练数据集以获取参数权重,摄像头将手势图像输入网络与参数权重做相应运算获得手势识别结果;同时,针对图1,将本发明详细的流程描述下。
本发明根据实际人机交互场景选择手势数据集的背景、手势与摄像头距离。
在选定背景下使用摄像机捕捉手势图像,剔除手势图像中过度模糊、存在歧义的手势。
使用LabelImage标注手势位置和手势类别,完成手势数据集的制作。
其后本发明设计一个深度卷积网络,其核心为:①针对局部特征提取的卷积网络;②针对全局特征提取的卷积网络;③激活函数Lrelu。
图2中所示“特征提取网络1”全部由卷积层组成以最大程度保留局部相关信息,直接融合低层特征图与高层特征图以使低层特征图具备参数更新能力,“特征提取网络1”实现了对较远距离手势特征的提取。
图2中所示“特征提取网络2”使用卷积层提取手势特征,使用池化操作降低特征图维度加速训练,借助参数复用的方法将“特征提取网络1”获取的部分细节特征信息作为输入,以较小的计算代价有效实现了远距离手势的特征提取。
对于每层卷积的输入做正则化处理,把上层非线性函数映射后趋向于极限饱和区的输入转换为正态分布,输出落入非线性激活函数的敏感区间。
每层卷积中加入所设计的新型激活函数,减小伴随深度加深,神经网络会出现神经元死亡、梯度消失或爆炸,导致其失去学习能力的问题。
本发明设计了激活函数Lrelu,如公式(1):
其中x是非线性激活函数的输入;e是自然常数;
f(x)是输入经过非线性函数映射后的结果;Lrelu具有可微性、非线性、单调性,有效缓解了伴随深度加深出现的问题,提高了手势识别精度。
图2中两个“检测网络”分别以局部特征提取网络和全局特征提取网络的输出作为主要输入,使用卷积与池化操作进一步融合提取手势特征,使用logistic分类器对识别特征图上的每一个特征点判断手势类别。
使用非极大值抑制获取最终的手势识别结果。
以标定值与预测值的差作为损失函数,使用链式求导更新权重参数,反复迭代直至损失值降到设定值以下,保存权重参数。
将摄像机获取的实时手势图像与权重参数共同输入本发明所设计的深度卷积网络并做相应运算,使用与训练相同的方法识别目标手势,输出手势类别与位置。
附图说明
图1是本发明手势识别算法的流程图。
图2是本发明的双通道深度卷积神经网络示意图。
图3是本发明在公开数据集上手势识别示意图。
图4是本发明在真实场景下的实时手势识别示意图。
具体实施方式
一种手势识别新方法步骤如图1所示:
步骤1:手势数据集制作
手势样本获取:利用摄像机作为输入设备,在不同光照、背景下采集需要识别的手势图像,筛选所获取的手势数据。
将所获取的手势数据打上相应的标签,作为卷积网络反向传播更新参数的依据。
步骤2:训练深度卷积网络,获取权重参数
使用K-means聚类算法获取6个用于标定手势位置的候选框尺寸。
对手势数据集做数据增广处理以增强其多样性。
使用ImageNet上获取的权重初始化网络参数。
分别将手势数据集输入特征提取网络1和特征提取网络2,并以设定值分批进入训练网络。
特征提取网络使用当前参数提取手势图像的特征,并在不同尺寸融合特征图信息。
检测网络进一步提取输入特征信息,并预测手势位置与类别。
根据预测值与损失值得出Loss值,当Loss值小于设定值时根据链式求导反向更新参数,当Loss低于设定值或者达到指定训练代数时停止训练更新,保存权重参数。
步骤3:手势识别
深度卷积网络从权重读取参数,与输入图像做相应运算,提取手势特征信息,并对输入检测层的每个特征点在不同候选框上做手势类别判定,根据非极大值抑制原则选取最终输出结果。
在公开数据集上,本发明成功识别了全部397张手势图片,真实场景下识别结果如图4,识别速度31.2帧/秒,最远识别距离达到365cm。
本发明的优点在于可以自主学习手势特征,避开了复杂的特征设计过程,有效降低了添加新手势类别的难度;可实现不同场景、不同距离下手势的实时准确识别。

Claims (9)

1.一种手势识别方法,其特征在于:该方法包括:设计并制作针对人机交互场景的手势数据集;构建深度卷积网络并训练数据集以获取参数权重,摄像头将手势图像输入网络与参数权重做相应运算获得手势识别结果;
根据实际人机交互场景选择手势数据集的背景、手势与摄像头距离;
在选定背景下使用摄像机捕捉手势图像,剔除手势图像中过度模糊、存在歧义的手势;
使用LabelImage标注手势位置和手势类别,完成手势数据集的制作;
一个深度卷积网络,其核心为:针对局部特征提取的卷积网络;针对全局特征提取的卷积网络;激活函数Lrelu。
2.根据权利要求1所述的一种手势识别方法,其特征在于:“特征提取网络1”全部由卷积层组成以最大程度保留局部相关信息,直接融合低层特征图与高层特征图以使低层特征图具备参数更新能力,“特征提取网络1”实现了对较远距离手势特征的提取;
“特征提取网络2”使用卷积层提取手势特征,使用池化操作降低特征图维度加速训练,借助参数复用的方法将“特征提取网络1”获取的部分细节特征信息作为输入,以较小的计算代价有效实现了远距离手势的特征提取。
3.根据权利要求1所述的一种手势识别方法,其特征在于:对于每层卷积的输入做正则化处理,把上层非线性函数映射后趋向于极限饱和区的输入转换为正态分布,输出落入非线性激活函数的敏感区间。
4.根据权利要求1所述的一种手势识别方法,其特征在于:每层卷积中加入所设计的新型激活函数。
5.根据权利要求1所述的一种手势识别方法,其特征在于:设计了激活函数Lrelu,如公式(1):
其中x是非线性激活函数的输入;e是自然常数;
f(x)是输入经过非线性函数映射后的结果;Lrelu具有可微性、非线性、单调性,有效缓解了伴随深度加深出现的问题,提高了手势识别精度。
6.根据权利要求1所述的一种手势识别方法,其特征在于:两个“检测网络”分别以局部特征提取网络和全局特征提取网络的输出作为主要输入,使用卷积与池化操作进一步融合提取手势特征,使用logistic分类器对识别特征图上的每一个特征点判断手势类别。
7.根据权利要求1所述的一种手势识别方法,其特征在于:使用非极大值抑制获取最终的手势识别结果。
8.根据权利要求1所述的一种手势识别方法,其特征在于:以标定值与预测值的差作为损失函数,使用链式求导更新权重参数,反复迭代直至损失值降到设定值以下,保存权重参数。
9.根据权利要求1所述的一种手势识别方法,其特征在于:一种手势识别方法,步骤1:手势数据集制作
手势样本获取:利用摄像机作为输入设备,在不同光照、背景下采集需要识别的手势图像,筛选所获取的手势数据;
将所获取的手势数据打上相应的标签,作为卷积网络反向传播更新参数的依据;
步骤2:训练深度卷积网络,获取权重参数
使用K-means聚类算法获取6个用于标定手势位置的候选框尺寸;
对手势数据集做数据增广处理以增强其多样性;
使用ImageNet上获取的权重初始化网络参数;
分别将手势数据集输入特征提取网络1和特征提取网络2,并以设定值分批进入训练网络;
特征提取网络使用当前参数提取手势图像的特征,并在不同尺寸融合特征图信息;
检测网络进一步提取输入特征信息,并预测手势位置与类别;
根据预测值与损失值得出Loss值,当Loss值小于设定值时根据链式求导反向更新参数,当Loss低于设定值或者达到指定训练代数时停止训练更新,保存权重参数;
步骤3:手势识别
深度卷积网络从权重读取参数,与输入图像做相应运算,提取手势特征信息,并对输入检测层的每个特征点在不同候选框上做手势类别判定,根据非极大值抑制原则选取最终输出结果。
CN201910224820.1A 2019-03-24 2019-03-24 一种手势识别方法 Active CN110135237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910224820.1A CN110135237B (zh) 2019-03-24 2019-03-24 一种手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910224820.1A CN110135237B (zh) 2019-03-24 2019-03-24 一种手势识别方法

Publications (2)

Publication Number Publication Date
CN110135237A true CN110135237A (zh) 2019-08-16
CN110135237B CN110135237B (zh) 2021-11-26

Family

ID=67568578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910224820.1A Active CN110135237B (zh) 2019-03-24 2019-03-24 一种手势识别方法

Country Status (1)

Country Link
CN (1) CN110135237B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674741A (zh) * 2019-09-24 2020-01-10 广西师范大学 一种基于双通道特征融合的机器视觉中手势识别方法
CN111160114A (zh) * 2019-12-10 2020-05-15 深圳数联天下智能科技有限公司 手势识别方法、装置、设备及计算机可读存储介质
CN111783791A (zh) * 2020-01-22 2020-10-16 北京沃东天骏信息技术有限公司 图像分类方法、装置和计算机可读存储介质
WO2023174098A1 (zh) * 2022-03-14 2023-09-21 百果园技术(新加坡)有限公司 一种实时手势检测方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110221974A1 (en) * 2010-03-11 2011-09-15 Deutsche Telekom Ag System and method for hand gesture recognition for remote control of an internet protocol tv
CN104134061A (zh) * 2014-08-15 2014-11-05 上海理工大学 一种基于特征融合的支持向量机的数字手势识别方法
KR101836742B1 (ko) * 2016-12-05 2018-03-08 연세대학교 산학협력단 제스쳐를 판단하는 장치 및 방법
CN107808143A (zh) * 2017-11-10 2018-03-16 西安电子科技大学 基于计算机视觉的动态手势识别方法
CN108073851A (zh) * 2016-11-08 2018-05-25 株式会社理光 一种抓取手势识别的方法、装置及电子设备
CN108388882A (zh) * 2018-03-16 2018-08-10 中山大学 基于全局-局部rgb-d多模态的手势识别方法
CN108491835A (zh) * 2018-06-12 2018-09-04 常州大学 面向面部表情识别的双通道卷积神经网络
CN108960140A (zh) * 2018-07-04 2018-12-07 国家新闻出版广电总局广播科学研究院 基于多区域特征提取和融合的行人再识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110221974A1 (en) * 2010-03-11 2011-09-15 Deutsche Telekom Ag System and method for hand gesture recognition for remote control of an internet protocol tv
CN104134061A (zh) * 2014-08-15 2014-11-05 上海理工大学 一种基于特征融合的支持向量机的数字手势识别方法
CN108073851A (zh) * 2016-11-08 2018-05-25 株式会社理光 一种抓取手势识别的方法、装置及电子设备
KR101836742B1 (ko) * 2016-12-05 2018-03-08 연세대학교 산학협력단 제스쳐를 판단하는 장치 및 방법
CN107808143A (zh) * 2017-11-10 2018-03-16 西安电子科技大学 基于计算机视觉的动态手势识别方法
CN108388882A (zh) * 2018-03-16 2018-08-10 中山大学 基于全局-局部rgb-d多模态的手势识别方法
CN108491835A (zh) * 2018-06-12 2018-09-04 常州大学 面向面部表情识别的双通道卷积神经网络
CN108960140A (zh) * 2018-07-04 2018-12-07 国家新闻出版广电总局广播科学研究院 基于多区域特征提取和融合的行人再识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PRIYANKA MEKALA等: "《Gesture Recognition Using Neural Networks Based on HW/SW Cosimulation Platform》", 《ADVANCES IN SOFTWARE ENGINEERING》 *
QINGLIN LI等: "《Gesture Recognition Network Design Based on Deep Convolutional Networks and Spatial Enhancement Block》", 《2018 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND BIOMIMETICS (ROBIO)》 *
冯家文 等: "《双通道卷积神经网络在静态手势识别中的应用》", 《HTTP://KNS.CNKI.NET/KCMS/DETAIL/11.2127.TP.20170824.1020.050.HTML》 *
姚娟: "《基于深度学习的金刚石锯片裂纹识别分类方法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674741A (zh) * 2019-09-24 2020-01-10 广西师范大学 一种基于双通道特征融合的机器视觉中手势识别方法
CN110674741B (zh) * 2019-09-24 2023-06-09 青岛海之晨工业装备有限公司 一种基于双通道特征融合的机器视觉中手势识别方法
CN111160114A (zh) * 2019-12-10 2020-05-15 深圳数联天下智能科技有限公司 手势识别方法、装置、设备及计算机可读存储介质
CN111160114B (zh) * 2019-12-10 2024-03-19 深圳数联天下智能科技有限公司 手势识别方法、装置、设备及计算机可读存储介质
CN111783791A (zh) * 2020-01-22 2020-10-16 北京沃东天骏信息技术有限公司 图像分类方法、装置和计算机可读存储介质
WO2023174098A1 (zh) * 2022-03-14 2023-09-21 百果园技术(新加坡)有限公司 一种实时手势检测方法及装置

Also Published As

Publication number Publication date
CN110135237B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN106897670B (zh) 一种基于计算机视觉的快递暴力分拣识别方法
CN107808143B (zh) 基于计算机视觉的动态手势识别方法
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
CN105528794B (zh) 基于混合高斯模型与超像素分割的运动目标检测方法
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN110135237A (zh) 一种手势识别方法
CN104217214B (zh) 基于可配置卷积神经网络的rgb‑d人物行为识别方法
CN111709310B (zh) 一种基于深度学习的手势跟踪与识别方法
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN110472627A (zh) 一种端到端的sar图像识别方法、装置及存储介质
CN106529499A (zh) 基于傅里叶描述子和步态能量图融合特征的步态识别方法
CN109800689A (zh) 一种基于时空特征融合学习的目标跟踪方法
CN108564049A (zh) 一种基于深度学习的快速人脸检测识别方法
CN108389220B (zh) 遥感视频图像运动目标实时智能感知方法及其装置
CN107180226A (zh) 一种基于组合神经网络的动态手势识别方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN107463919A (zh) 一种基于深度3d卷积神经网络进行面部表情识别的方法
CN108961675A (zh) 基于卷积神经网络的跌倒检测方法
CN109598234A (zh) 关键点检测方法和装置
CN108647625A (zh) 一种表情识别方法及装置
CN107133569A (zh) 基于泛化多标记学习的监控视频多粒度标注方法
CN108304820A (zh) 一种人脸检测方法、装置及终端设备
CN110490252A (zh) 一种基于深度学习的室内人数检测方法及系统
CN106909887A (zh) 一种基于cnn和svm的动作识别方法
CN106557740B (zh) 一种遥感图像中油库目标的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant