CN112163447A

CN112163447A - 基于Attention和SqueezeNet的多任务实时手势检测和识别方法

Info

Publication number: CN112163447A
Application number: CN202010833267.4A
Authority: CN
Inventors: 强保华; 翟艺杰; 王玉峰; 彭博; 李宝莲; 陈锐东; 庞远超
Original assignee: Guilin University of Electronic Technology; CETC 54 Research Institute
Current assignee: Guilin University of Electronic Technology; CETC 54 Research Institute
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2021-01-01
Anticipated expiration: 2040-08-18
Also published as: CN112163447B

Abstract

本发明公开了一种基于Attention和SqueezeNet的多任务实时手势检测和识别方法。所述方法采用数据增强技术扩增数据集以达到较好的识别效果，并通过人工标注制作新的手势数据集；将Attention融合到全卷积网络BlitzNet的ResSkip残差结构和分割分支中，使模型更关注目标手势，降低背景的干扰，识别效果更好，并用SqueezeNet网络中的前15层代替BlitzNet的ResNet‑50作为手势特征提取器，设计出新的手势检测和识别模型。新模型将多个视觉任务（如手势识别和手势分割）联合训练，并通过两个不同的子网络分别进行手势识别与手势分割，使得通过单一网络就可以同时解决手势识别和分割两个问题，检测速度较快且准确率较高。本发明的模型是一种参数少、准确率高、检测速度快等综合性能突出的手势检测和识别模型。

Description

基于Attention和SqueezeNet的多任务实时手势检测和识别方法

技术领域

本发明涉及深度学习TensorFlow框架技术领域和手势识别领域，具体涉及一种基于Attention(注意力机制)和SqueezeNet(卷积神经网络模型)的多任务实时手势检测和识别方法。

背景技术

手势是人类之间交流和沟通必不可少的一部分，可以让我们的观点更好地被其他人理解。随着科技的进步，手势识别逐渐在各行各业发挥重要作用，例如临床医学、人机交互、安全驾驶和手语认知，在这些行业中，手势识别的准确性和实时性显得尤为重要。

手势识别的一般流程分为图像采集、手势检测与分割、手势识别，其中手势检测与分割是关键的技术，手势分割的效果直接影响后续的手势识别。BlitzNet (目标检测模型)利用单一的网络同时解决检测和分割两个任务，且检测效果较好，速度也可以达到实时，不足之处就是模型参数较多。其它的模型也是多多少少存在一些不足，目前还缺乏一种模型参数少、准确率高、检测速度快等综合性能突出的手势检测和识别模型。

发明内容

基于上述背景，本发明提供一种基于Attention和SqueezeNet的多任务实时手势检测和识别方法。在模型训练时，Attention可以模仿人类的注意力机制，对目标有更多“关注”，快速找出有用的信息，赋予更高的权重，在残差网络中加入Attention可以让模型的性能得到提升；而SqueezeNet则是一种轻量级的网络模型，具有识别精度高且模型参数少的优势。本发明通过将手势数据集应用到目标检测模型BlitzNet当中，并将Attention和SqueezeNet融合到模型中，设计一种新的手势检测和识别模型，进一步提高手势检测和识别的准确率和检测速度，获得一种模型参数少、准确率高、检测速度快等综合性能突出的手势检测和识别模型。

具体内容为：首先采用数据增强技术扩增数据集以达到较好的识别效果，并通过人工标注制作新的手势数据集；然后将Attention融合到全卷积网络 BlitzNet的ResSkip残差结构和分割分支中，使模型更关注目标手势，降低背景的干扰，识别效果更好，并用SqueezeNet网络中的前15层代替BlitzNet的 ResNet-50作为手势特征提取器，设计出新的手势检测和识别模型。新模型将多个视觉任务(如手势识别和手势分割)联合训练，并通过两个不同的子网络分别进行手势识别与手势分割，使得通过单一网络就可以同时解决手势识别和分割两个问题，检测速度较快且准确率较高。最后，添加摄像头监控设备，实时检测或识别视频中出现的手势类型，将手势检测和识别模型在OxfordHandDataSet 和NUS-I+NUS-II手势数据集上进行训练和验证，从而评估模型的准确率和检测速度。

为了获得较好的检测效果，本发明将数据集进行了数据增强，利用卷积神经网络从NUS-I+NUS-II数据集中提取手势纹理特征，将纹理特征与其它图像相叠加产生新的手势图像，共得到14950张图片作为数据集。

为了提高手势识别的准确率和检测速度，设计的手势检测和识别模型具体如下，首先设计Attention，在Attention中将Channel attention与Spatial attention并联起来，将两者生成的通道注意力特征图和空间注意力特征图做矩阵乘法，得到共同关注手势和位置信息的注意力特征图作为Attention的输出。

接着将BlitzNet中所有ResSkip块内最后一层卷积层替换为Attention， ResSkip中第二层卷积层的输出作为Attention的输入，Attention的输出与上采样输入的求和又作为下一个上采样的输入。

然后在BlitzNet分割分支的最后一层添加Channel attention和Maxpool，使用Channel attention生成对应的通道注意力特征图，使用最大池化操作提高手势边缘关键点特征的显著程度，Maxpool层的输出作为最终的手势分割图。

最后把BlitzNet网络提取特征的ResNet-50删去，用SqueezeNet网络中的前15层代替作为手势特征提取器，SqueezeNet网络中的前15层包括一个Conv (卷积层)和7个FireModule(SqueezeNet模型的核心构件)以及2个Maxpool (最大池化)，把最后一个FireModule的输出作为第一个下采样层的输入，将整个网络模型连接起来。

新模型中ResSkip内的Attention在整个ResSkip残差结构中被视为恒等映射的一部分，在提高模型性能的基础上不会给模型带来内部特征消减，而在分割分支中加入Channel attention，会让分割任务更容易关注目标手势。用 SqueezeNet代替ResNet-50，可以使模型在保证识别精度的情况下大大减少模型参数，检测速度更容易达到实时，改进后的新模型会有更高的准确率，检测速度也会提高。

为了实现实时手势检测和识别功能，本发明添加了摄像头实时监控设备，利用训练好的模型在监控视频中直接进行手势检测或识别，并将检测或识别结果实时显示在视频中。

附图说明

图1为本发明的整体流程图；

图2为本发明的模型训练原理图。

具体实施方式

基于Attention和SqueezeNet的多任务实时手势检测和识别方法的网络模型结构设计如下：

(1)保留BlitzNet网络中下采样和上采样层以及检测和分割部分，将 ResNet-50结构删去。

(2)设计Attention，将Channel attention与Spatial attention并联起来，将两者生成的通道注意力特征图和空间注意力特征图做矩阵乘法，得到共同关注手势和位置信息的注意力特征图作为Attention的输出。

(3)将网络中所有ResSkip块内最后一层卷积替换为Attention，ResSkip 中第二层卷积的输出作为Attention的输入，Attention的输出与上采样输入的求和又作为下一个上采样的输入。

(4)在网络的分割分支后添加Channel attention和Maxpool，将分割分支的卷积层输出作为Channel attention的输入，再经过Maxpool后的输出作为最终手势分割图。

(5)将SqueezeNet网络中的前15层(1个conv、7个Fire Module、2个Maxpool) 作为网络开始部分的手势特征提取器，把最后一个Fire Module的输出作为第一个下采样的输入，将整个手势检测和识别网络连接起来。

参照图1，基于Attention和SqueezeNet的多任务实时手势检测和识别方法的整体实施流程如下：

(1)手势数据扩增：选择公共手势数据集Oxford Hand DataSet和NUS-I、 NUS-II，将NUS-I、NUS-II进行数据扩增，利用卷积神经网络从NUS-I+NUS-II 数据集中提取手势纹理特征，将纹理特征与其它手势图片相叠加产生新的手势图片.

(2)数据集标注：利用LabelImg和Labelme标注工具对Oxford Hand DataSet 和扩增后的NUS-I+NUS-II训练集手势进行分类和分割标注，得到标注好的分类和分割数据。

(3)模型训练和评估：

①搭建基于深度学习TensorFlow框架的软件环境为后续模型训练做准备；

②将Oxford Hand DataSet和NUS-I+NUS-II分类和分割训练集数据编码后生成相应的可训练的protobuf文件；

③将Attention和SqueezeNet融合到BlitzNet模型中，设计一种手势检测和识别模型；

④将编码后生成的protobuf文件加载到手势检测和识别网络模型中进行训练，并生成相应的模型权重文件；

⑤调用训练好的模型权重文件在Oxford Hand DataSet和NUS-I+NUS-II验证集上进行验证并计算mAP、mIoU和FPS评价指标验证模型性能；

⑥可视化显示，利用训练好的模型进行手势检测、手势识别和手势分割。

(4)实时手势检测和识别：利用摄像头监控设备和训练好的手势检测和识别模型进行实时手势检测、手势识别和手势分割，并将检测到的手或手势类型实时显示在监控视频中，实验显示随机挑选一个人在监控前摆出手势，均可以快速检测出来，且准确率达到97％以上。

参照图2，基于Attention和SqueezeNet的多任务实时手势检测和识别方法的模型训练原理如下：

手势检测和识别网络模型的训练是利用Adam优化算法，最小化损失函数从而引导模型达到一个较好的检测效果。模型使用上采样中每一层的激活函数回归校正预测框坐标和预测类概率，将两个任务(手势识别和手势分割)的损失函数相加作为总的损失函数，手势识别的损失函数为

其中L_conf(x,c)为分类loss，是预测手势类别和真实手势类别误差的加权和平均值，L_loc(x,l,g)为位置loss，是手势类别预测框位置坐标和手势类别标注框位置坐标误差的加权和平均值， N为匹配到的手势预测框数量。对于分割，采用预测类分布与目标类分布之间的交叉熵L(θ；X,C)作为损失函数，其中

手势检测和识别模型总的损失函数为L_loss＝L(x,c,l,g)+L(θ；X,C)。最后利用Adam优化损失函数，引导模型达到一个预期的检测效果。

Claims

1.基于Attention和SqueezeNet的多任务实时手势检测和识别方法，所述方法包括：

(1)保留BlitzNet网络中下采样和上采样层以及检测和分割部分，将ResNet-50结构删去；

(2)设计Attention，将Channel attention与Spatial attention并联起来，将两者生成的通道注意力特征图和空间注意力特征图做矩阵乘法，得到共同关注手势和位置信息的注意力特征图；

(3)将BlitzNet中所有ResSkip块内最后一层卷积替换为Attention，ResSkip中第二层卷积的输出作为Attention的输入，而Attention的输出与上采样输入的求和又作为下一个上采样的输入；

(4)在BlitzNet的分割分支后面添加Channel attention和Maxpool，将分割分支的卷积层输出作为Channel attention的输入，再经过Maxpool后的输出作为最终手势分割图；

(5)将SqueezeNet网络中的前15层包括1个Conv、7个Fire Module、2个Maxpool作为网络开始部分的手势特征提取器，把最后一个Fire Module的输出作为第一个下采样层的输入，将整个手势检测和识别网络连接起来；

其中：Attention表示注意力机制；SqueezeNet表示卷积神经网络模型；BlitzNet表示目标检测模型；Channel attention表示通道注意力；Spatial attention表示空间注意力；ResSkip表示BlitzNet的模型构件；Conv表示卷积层；Maxpool表示最大池化；Fire Module表示SqueezeNet模型的核心构件，由一系列卷积层和激活函数组成。