CN112163447A - 基于Attention和SqueezeNet的多任务实时手势检测和识别方法 - Google Patents

基于Attention和SqueezeNet的多任务实时手势检测和识别方法 Download PDF

Info

Publication number
CN112163447A
CN112163447A CN202010833267.4A CN202010833267A CN112163447A CN 112163447 A CN112163447 A CN 112163447A CN 202010833267 A CN202010833267 A CN 202010833267A CN 112163447 A CN112163447 A CN 112163447A
Authority
CN
China
Prior art keywords
attention
gesture
model
recognition
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010833267.4A
Other languages
English (en)
Other versions
CN112163447B (zh
Inventor
强保华
翟艺杰
王玉峰
彭博
李宝莲
陈锐东
庞远超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
CETC 54 Research Institute
Original Assignee
Guilin University of Electronic Technology
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology, CETC 54 Research Institute filed Critical Guilin University of Electronic Technology
Priority to CN202010833267.4A priority Critical patent/CN112163447B/zh
Publication of CN112163447A publication Critical patent/CN112163447A/zh
Application granted granted Critical
Publication of CN112163447B publication Critical patent/CN112163447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Attention和SqueezeNet的多任务实时手势检测和识别方法。所述方法采用数据增强技术扩增数据集以达到较好的识别效果,并通过人工标注制作新的手势数据集;将Attention融合到全卷积网络BlitzNet的ResSkip残差结构和分割分支中,使模型更关注目标手势,降低背景的干扰,识别效果更好,并用SqueezeNet网络中的前15层代替BlitzNet的ResNet‑50作为手势特征提取器,设计出新的手势检测和识别模型。新模型将多个视觉任务(如手势识别和手势分割)联合训练,并通过两个不同的子网络分别进行手势识别与手势分割,使得通过单一网络就可以同时解决手势识别和分割两个问题,检测速度较快且准确率较高。本发明的模型是一种参数少、准确率高、检测速度快等综合性能突出的手势检测和识别模型。

Description

基于Attention和SqueezeNet的多任务实时手势检测和识别 方法
技术领域
本发明涉及深度学习TensorFlow框架技术领域和手势识别领域,具体涉及一种基于Attention(注意力机制)和SqueezeNet(卷积神经网络模型)的多任务实时手势检测和识别方法。
背景技术
手势是人类之间交流和沟通必不可少的一部分,可以让我们的观点更好地被其他人理解。随着科技的进步,手势识别逐渐在各行各业发挥重要作用,例如临床医学、人机交互、安全驾驶和手语认知,在这些行业中,手势识别的准确性和实时性显得尤为重要。
手势识别的一般流程分为图像采集、手势检测与分割、手势识别,其中手势检测与分割是关键的技术,手势分割的效果直接影响后续的手势识别。BlitzNet (目标检测模型)利用单一的网络同时解决检测和分割两个任务,且检测效果较好,速度也可以达到实时,不足之处就是模型参数较多。其它的模型也是多多少少存在一些不足,目前还缺乏一种模型参数少、准确率高、检测速度快等综合性能突出的手势检测和识别模型。
发明内容
基于上述背景,本发明提供一种基于Attention和SqueezeNet的多任务实时手势检测和识别方法。在模型训练时,Attention可以模仿人类的注意力机制,对目标有更多“关注”,快速找出有用的信息,赋予更高的权重,在残差网络中加入Attention可以让模型的性能得到提升;而SqueezeNet则是一种轻量级的网络模型,具有识别精度高且模型参数少的优势。本发明通过将手势数据集应用到目标检测模型BlitzNet当中,并将Attention和SqueezeNet融合到模型中,设计一种新的手势检测和识别模型,进一步提高手势检测和识别的准确率和检测速度,获得一种模型参数少、准确率高、检测速度快等综合性能突出的手势检测和识别模型。
具体内容为:首先采用数据增强技术扩增数据集以达到较好的识别效果,并通过人工标注制作新的手势数据集;然后将Attention融合到全卷积网络 BlitzNet的ResSkip残差结构和分割分支中,使模型更关注目标手势,降低背景的干扰,识别效果更好,并用SqueezeNet网络中的前15层代替BlitzNet的 ResNet-50作为手势特征提取器,设计出新的手势检测和识别模型。新模型将多个视觉任务(如手势识别和手势分割)联合训练,并通过两个不同的子网络分别进行手势识别与手势分割,使得通过单一网络就可以同时解决手势识别和分割两个问题,检测速度较快且准确率较高。最后,添加摄像头监控设备,实时检测或识别视频中出现的手势类型,将手势检测和识别模型在OxfordHandDataSet 和NUS-I+NUS-II手势数据集上进行训练和验证,从而评估模型的准确率和检测速度。
为了获得较好的检测效果,本发明将数据集进行了数据增强,利用卷积神经网络从NUS-I+NUS-II数据集中提取手势纹理特征,将纹理特征与其它图像相叠加产生新的手势图像,共得到14950张图片作为数据集。
为了提高手势识别的准确率和检测速度,设计的手势检测和识别模型具体如下,首先设计Attention,在Attention中将Channel attention与Spatial attention并联起来,将两者生成的通道注意力特征图和空间注意力特征图做矩阵乘法,得到共同关注手势和位置信息的注意力特征图作为Attention的输出。
接着将BlitzNet中所有ResSkip块内最后一层卷积层替换为Attention, ResSkip中第二层卷积层的输出作为Attention的输入,Attention的输出与上采样输入的求和又作为下一个上采样的输入。
然后在BlitzNet分割分支的最后一层添加Channel attention和Maxpool,使用Channel attention生成对应的通道注意力特征图,使用最大池化操作提高手势边缘关键点特征的显著程度,Maxpool层的输出作为最终的手势分割图。
最后把BlitzNet网络提取特征的ResNet-50删去,用SqueezeNet网络中的前15层代替作为手势特征提取器,SqueezeNet网络中的前15层包括一个Conv (卷积层)和7个FireModule(SqueezeNet模型的核心构件)以及2个Maxpool (最大池化),把最后一个FireModule的输出作为第一个下采样层的输入,将整个网络模型连接起来。
新模型中ResSkip内的Attention在整个ResSkip残差结构中被视为恒等映射的一部分,在提高模型性能的基础上不会给模型带来内部特征消减,而在分割分支中加入Channel attention,会让分割任务更容易关注目标手势。用 SqueezeNet代替ResNet-50,可以使模型在保证识别精度的情况下大大减少模型参数,检测速度更容易达到实时,改进后的新模型会有更高的准确率,检测速度也会提高。
为了实现实时手势检测和识别功能,本发明添加了摄像头实时监控设备,利用训练好的模型在监控视频中直接进行手势检测或识别,并将检测或识别结果实时显示在视频中。
附图说明
图1为本发明的整体流程图;
图2为本发明的模型训练原理图。
具体实施方式
基于Attention和SqueezeNet的多任务实时手势检测和识别方法的网络模型结构设计如下:
(1)保留BlitzNet网络中下采样和上采样层以及检测和分割部分,将 ResNet-50结构删去。
(2)设计Attention,将Channel attention与Spatial attention并联起来,将两者生成的通道注意力特征图和空间注意力特征图做矩阵乘法,得到共同关注手势和位置信息的注意力特征图作为Attention的输出。
(3)将网络中所有ResSkip块内最后一层卷积替换为Attention,ResSkip 中第二层卷积的输出作为Attention的输入,Attention的输出与上采样输入的求和又作为下一个上采样的输入。
(4)在网络的分割分支后添加Channel attention和Maxpool,将分割分支的卷积层输出作为Channel attention的输入,再经过Maxpool后的输出作为最终手势分割图。
(5)将SqueezeNet网络中的前15层(1个conv、7个Fire Module、2个Maxpool) 作为网络开始部分的手势特征提取器,把最后一个Fire Module的输出作为第一个下采样的输入,将整个手势检测和识别网络连接起来。
参照图1,基于Attention和SqueezeNet的多任务实时手势检测和识别方法的整体实施流程如下:
(1)手势数据扩增:选择公共手势数据集Oxford Hand DataSet和NUS-I、 NUS-II,将NUS-I、NUS-II进行数据扩增,利用卷积神经网络从NUS-I+NUS-II 数据集中提取手势纹理特征,将纹理特征与其它手势图片相叠加产生新的手势图片.
(2)数据集标注:利用LabelImg和Labelme标注工具对Oxford Hand DataSet 和扩增后的NUS-I+NUS-II训练集手势进行分类和分割标注,得到标注好的分类和分割数据。
(3)模型训练和评估:
①搭建基于深度学习TensorFlow框架的软件环境为后续模型训练做准备;
②将Oxford Hand DataSet和NUS-I+NUS-II分类和分割训练集数据编码后生成相应的可训练的protobuf文件;
③将Attention和SqueezeNet融合到BlitzNet模型中,设计一种手势检测和识别模型;
④将编码后生成的protobuf文件加载到手势检测和识别网络模型中进行训练,并生成相应的模型权重文件;
⑤调用训练好的模型权重文件在Oxford Hand DataSet和NUS-I+NUS-II验证集上进行验证并计算mAP、mIoU和FPS评价指标验证模型性能;
⑥可视化显示,利用训练好的模型进行手势检测、手势识别和手势分割。
(4)实时手势检测和识别:利用摄像头监控设备和训练好的手势检测和识别模型进行实时手势检测、手势识别和手势分割,并将检测到的手或手势类型实时显示在监控视频中,实验显示随机挑选一个人在监控前摆出手势,均可以快速检测出来,且准确率达到97%以上。
参照图2,基于Attention和SqueezeNet的多任务实时手势检测和识别方法的模型训练原理如下:
手势检测和识别网络模型的训练是利用Adam优化算法,最小化损失函数从而引导模型达到一个较好的检测效果。模型使用上采样中每一层的激活函数回归校正预测框坐标和预测类概率,将两个任务(手势识别和手势分割)的损失函数相加作为总的损失函数,手势识别的损失函数为
Figure RE-GDA0002791800470000051
其中Lconf(x,c)为分类loss,是预测手势类别和真实手势类别误差的加权和平均值,Lloc(x,l,g)为位置loss,是手势类别预测框位置坐标和手势类别标注框位置坐标误差的加权和平均值, N为匹配到的手势预测框数量。对于分割,采用预测类分布与目标类分布之间的交叉熵L(θ;X,C)作为损失函数,其中
Figure RE-GDA0002791800470000052
手势检测和识别模型总的损失函数为Lloss=L(x,c,l,g)+L(θ;X,C)。最后利用Adam优化损失函数,引导模型达到一个预期的检测效果。

Claims (1)

1.基于Attention和SqueezeNet的多任务实时手势检测和识别方法,所述方法包括:
(1)保留BlitzNet网络中下采样和上采样层以及检测和分割部分,将ResNet-50结构删去;
(2)设计Attention,将Channel attention与Spatial attention并联起来,将两者生成的通道注意力特征图和空间注意力特征图做矩阵乘法,得到共同关注手势和位置信息的注意力特征图;
(3)将BlitzNet中所有ResSkip块内最后一层卷积替换为Attention,ResSkip中第二层卷积的输出作为Attention的输入,而Attention的输出与上采样输入的求和又作为下一个上采样的输入;
(4)在BlitzNet的分割分支后面添加Channel attention和Maxpool,将分割分支的卷积层输出作为Channel attention的输入,再经过Maxpool后的输出作为最终手势分割图;
(5)将SqueezeNet网络中的前15层包括1个Conv、7个Fire Module、2个Maxpool作为网络开始部分的手势特征提取器,把最后一个Fire Module的输出作为第一个下采样层的输入,将整个手势检测和识别网络连接起来;
其中:Attention表示注意力机制;SqueezeNet表示卷积神经网络模型;BlitzNet表示目标检测模型;Channel attention表示通道注意力;Spatial attention表示空间注意力;ResSkip表示BlitzNet的模型构件;Conv表示卷积层;Maxpool表示最大池化;Fire Module表示SqueezeNet模型的核心构件,由一系列卷积层和激活函数组成。
CN202010833267.4A 2020-08-18 2020-08-18 基于Attention和SqueezeNet的多任务实时手势检测和识别方法 Active CN112163447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010833267.4A CN112163447B (zh) 2020-08-18 2020-08-18 基于Attention和SqueezeNet的多任务实时手势检测和识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010833267.4A CN112163447B (zh) 2020-08-18 2020-08-18 基于Attention和SqueezeNet的多任务实时手势检测和识别方法

Publications (2)

Publication Number Publication Date
CN112163447A true CN112163447A (zh) 2021-01-01
CN112163447B CN112163447B (zh) 2022-04-08

Family

ID=73859597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010833267.4A Active CN112163447B (zh) 2020-08-18 2020-08-18 基于Attention和SqueezeNet的多任务实时手势检测和识别方法

Country Status (1)

Country Link
CN (1) CN112163447B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818897A (zh) * 2021-02-19 2021-05-18 宁波毅诺智慧健康科技有限公司 基于视觉手势识别的智能医疗床控制方法及相关设备
CN112966644A (zh) * 2021-03-24 2021-06-15 中国科学院计算技术研究所 用于手势检测和手势识别的多模态多任务模型及其训练方法
CN115620397A (zh) * 2022-11-07 2023-01-17 江苏北斗星通汽车电子有限公司 一种基于Leapmotion传感器的车载手势识别系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509839A (zh) * 2018-02-02 2018-09-07 东华大学 一种基于区域卷积神经网络高效的手势检测识别方法
WO2019080203A1 (zh) * 2017-10-25 2019-05-02 南京阿凡达机器人科技有限公司 一种机器人的手势识别方法、系统及机器人
CN109902577A (zh) * 2019-01-25 2019-06-18 华中科技大学 一种轻量级手势检测卷积神经网络模型的构建方法及应用
US20190385073A1 (en) * 2018-06-19 2019-12-19 Microsoft Technology Licensing, Llc Visual recognition via light weight neural network
CN110991362A (zh) * 2019-12-06 2020-04-10 西安电子科技大学 一种基于注意力机制的行人检测模型
CN111401201A (zh) * 2020-03-10 2020-07-10 南京信息工程大学 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019080203A1 (zh) * 2017-10-25 2019-05-02 南京阿凡达机器人科技有限公司 一种机器人的手势识别方法、系统及机器人
CN108509839A (zh) * 2018-02-02 2018-09-07 东华大学 一种基于区域卷积神经网络高效的手势检测识别方法
US20190385073A1 (en) * 2018-06-19 2019-12-19 Microsoft Technology Licensing, Llc Visual recognition via light weight neural network
CN109902577A (zh) * 2019-01-25 2019-06-18 华中科技大学 一种轻量级手势检测卷积神经网络模型的构建方法及应用
CN110991362A (zh) * 2019-12-06 2020-04-10 西安电子科技大学 一种基于注意力机制的行人检测模型
CN111401201A (zh) * 2020-03-10 2020-07-10 南京信息工程大学 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
F. N. IANDOLA 等: "SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and < 0.5MB model size", 《ARXIV:1602.07360V4》 *
NIKITA DVORNIK 等: "BlitzNet: A Real-Time Deep Network for Scene Understanding", 《ARXIV:1708.02813V1》 *
廖毅雄: "基于深度学习的手势识别及人体行为识别算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
强保华 等: "基于改进CPMs和SqueezeNet的轻量级人体骨骼关键点检测模型", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818897A (zh) * 2021-02-19 2021-05-18 宁波毅诺智慧健康科技有限公司 基于视觉手势识别的智能医疗床控制方法及相关设备
CN112966644A (zh) * 2021-03-24 2021-06-15 中国科学院计算技术研究所 用于手势检测和手势识别的多模态多任务模型及其训练方法
CN115620397A (zh) * 2022-11-07 2023-01-17 江苏北斗星通汽车电子有限公司 一种基于Leapmotion传感器的车载手势识别系统

Also Published As

Publication number Publication date
CN112163447B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN112163447B (zh) 基于Attention和SqueezeNet的多任务实时手势检测和识别方法
CN111598860B (zh) 基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法
CN110795990B (zh) 一种面向水下设备的手势识别方法
CN111695457B (zh) 一种基于弱监督机制的人体姿态估计方法
CN110852256B (zh) 时序动作提名的生成方法、装置、设备及存储介质
CN111210446A (zh) 一种视频目标分割方法、装置和设备
CN113297956B (zh) 一种基于视觉的手势识别方法及系统
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN113283336A (zh) 一种文本识别方法与系统
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN113902007A (zh) 模型训练方法及装置、图像识别方法及装置、设备和介质
CN113850136A (zh) 基于yolov5与BCNN的车辆朝向识别方法及系统
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN115797808A (zh) 一种无人机巡检缺陷图像的识别方法、系统、装置及介质
Wu et al. Single shot multibox detector for vehicles and pedestrians detection and classification
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN114913342A (zh) 融合事件和图像的运动模糊图像线段检测方法及系统
CN116778346B (zh) 一种基于改进自注意力机制的管线识别方法及系统
CN109543716B (zh) 一种基于深度学习的k线形态图像识别方法
CN116152747A (zh) 一种基于外观辨识和动作建模的人类行为意图识别方法
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
CN112818832B (zh) 一种基于部件感知的弱监督物体定位装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant