CN107590449A

CN107590449A - 一种基于加权特征谱融合的手势检测方法

Info

Publication number: CN107590449A
Application number: CN201710767612.7A
Authority: CN
Inventors: 李宏亮; 杨燕平; 姚晓宇; 方清; 陈雅丽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2018-01-16

Abstract

本发明公开了一种基于加权特征谱融合的手势检测方法,属于图像处理及识别领域。本发明设计了小网络，对小网络进行了速度和精度上面的优化，保证网络满足手势检测的特征提取的要求，也保证了网络运行的速度。由于底层特征包含了丰富的颜色和形状特征信息，对于手势检测精度有这很大的影响，本发明提出使用加权特征融合的方法，低层特征依次通过降采样模块和加权模块再与高层特征进行级联，使用加权模块让网络自动学习高层特征和低层特征的重要性，避免不同层特征简单级联带来尺度不一致带来的问题，影响原始网络的特征提取。

Description

一种基于加权特征谱融合的手势检测方法

技术领域

本发明属于图像处理及识别领域，是一种用于手势识别的卷积神经网络的新型应用技术。

背景技术

手势交互是一种通过识别人类的肢体语言并转化为操作设备指令的计算机图像技术。手势交互是继鼠标键盘和触摸屏之后的一种新型的人机交互技术。由于人类在开始能进行语言交流之前都是使用了肢体语言进行交流，因此手势交互对于人类来说是一种很便捷的人机交互。由于手势交互的便捷和灵活性，越来越多的人机交互系统使用了手势作为输入法或者作为控制软件和游戏的方法。

手势交互的性能主要取决于对于手势识别的准确性，同时手势识别的准确性又依赖于对手势检测的准确性。近年来，随着深度学习在计算机视觉领域的飞速发展，使得在大部分的计算机视觉领域比如分类、目标分割和目标检测等方面，深度学习都取得了性能和速度上最佳的效果。深度学习成为了手势检测首选的方法。并且越来越多的通用目标检测的方法应用于手势检测，比如Single Shot MultiBox Detector(SSD)，You Only LookOnce(YOLO)v1和v2，Faster-Region Convolution neural network(Faster-Rcnn)等方法。SSD方法在多尺度的特征谱上得到不同方向比和尺度的先验框，并且回归这些先验框的置信度和位置偏移。YOLOv1和v2都是直接在最高层的特征谱上面直接回归置信度和位置的偏移。Faster-Rcnn是通过RPN网络先得到目标的proposal，然后根据这些proposal对特征谱进行ROI-Pooling操作，然后进行置信度和位置偏移的回归。尽管这些通用框架可以在手势检测中取得不错的效果，但是针对于手势检测，通用网络就过于冗余，由于底层的特征谱通常包含丰富的边缘和颜色特征，将底层特征融合进中高层特征，改善置信度和位置的回归。在我们的工作中，我们使用加权底层特征谱和高层特征谱进行融合，然后再进行目标的置信度和位置偏移的回归，通常手势交互的设备具有有限的计算资源，因此我们提出使用小网络结合加权特征谱的方式进行手势的检测。

本发明提出了一种基于加权特征谱融合的手势检测方法，是一种用于手势识别的卷积神经网络的新型应用技术。在我们建立的数据库上，我们进行了大量的测试，并取得了很高的检测精度。

发明内容

本发明解决的问题的技术问题包括：现在公开的数据库满足不了进行复杂手势检测，通用网络过于冗余，参数过多，训练样本不足导致的过拟合问题。

本发明技术方案为一种基于加权特征谱融合的手势检测方法，该方法包括：

步骤1:获取用户手势图像,对进行灰度处理；

步骤2:采用特征提取网络提取步骤1处理后图像的全局特征；

步骤3：步骤2的到的全局特征采用识别器进行识别；

其特征在于所述步骤2的特征提取网络包括依次级联的：第1卷积模块、第1池化模块、第2卷积模块、第2池化模块、第3-1卷积模块、第3-2卷积模块、第3-3卷积模块、第3池化模块、第4-1卷积模块、第4-2卷积模块、第4-3卷积模块、第4池化模块、第5-1卷积模块、第5-2卷积模块、第5-3卷积模块、第5池化模块、第6卷积模块；额外的还包括一条加权支路，该加权支路包括依次级联的下采样模块和加权模块；加权支路的输入为第3-3卷积模块的输出，加权支路的输出与第4-3卷积模块的输出级联作为特征提取网络的一个输出，特征提取网络的另外两个输出为第5-3卷积模块的输出和第6卷积模块的输出。

采用连续三个卷积模块是为了增加网络的深度，增加网络的深度使得网络的非线性表达能力大大增加，保证网络的表达能力。同时，将第一卷积模块减少为一个卷积模块是为了降低网络的运算量，这是由于网络的输入阶段的尺度较大，较少卷积层的个数和卷积核的个数可以达到降低计算量的目的。

进一步的，所述特征提取网络中第1卷积模块的卷积核个数为32、卷积核大小为5×5、卷积步长为2/1，第1池化模块的卷积核大小为2×2、卷积步长为2/0，第2卷积模块的卷积核个数为64、卷积核大小为5×5、卷积步长为1/1，第2池化模块的卷积核大小为2×2、卷积步长为2/0，第3-1卷积模块的卷积核个数为128、卷积核大小为3×3、卷积步长为1/1，第3-2卷积模块、第3-3卷积模块的参数与第3-1卷积模块的参数相同，第3池化模块的卷积核大小为2×2、卷积步长为2/0，第4-1卷积模块的卷积核个数为256、卷积核大小为3×3、卷积步长为1/1，第4-2卷积模块、第4-3卷积模块的参数与第4-1卷积模块的参数相同，第4池化模块的卷积核大小为2×2、卷积步长为2/0，第5-1卷积模块的卷积核个数为256、卷积核大小为3×3、卷积步长为1/1，第5-2卷积模块的的参数与第5-1卷积模块的参数相同，第5-3卷积模块的卷积核个数为1024、卷积核大小为3×3、卷积步长为1/1，第5池化模块的卷积核大小为3×3、卷积步长为1/1，第6卷积模块的卷积核个数为1024、卷积核大小为3×3、卷积步长为2/1。

进一步的，所述加权支路中的下采样的采样率为2；加权模块的参数为0.5。

本发明设计了小网络，对小网络进行了速度和精度上面的优化，保证网络满足手势检测的特征提取的要求，也保证了网络运行的速度。由于底层特征包含了丰富的颜色和形状特征信息，对于手势检测精度有这很大的影响，本发明提出使用加权特征融合的方法，低层特征依次通过降采样模块和加权模块再与高层特征进行级联，使用加权模块让网络自动学习高层特征和低层特征的重要性，避免不同层特征简单级联带来尺度不一致带来的问题，影响原始网络的特征提取。

附图说明

图1为手势检测网络结构图；

图2为低层特征和高层特征融合流程图。

具体实施方式

本发明主要可以分为手势检测网络的训练和测试两部分，全部工作可以分为以下五个步骤：

步骤1、训练小网络，在imagenet这个10000类的分类数据库上面，根据上面表格所示的网络，在表格二的网络后面添加两个全连连接层，第一个连接层输出的个数是1024，第二个输出层的个数是1000，之后添加softmax损失层计算损失，使用随机梯度下降进行学习，学习率设置为0.1，使用L2正则化，在imagenet上面训练5epoch，得到预训练模型。

步骤2、预处理手势检测数据库，对手势数据图像统一归一化为320x320，同时在训练过程中，对图像进行随机的采样进行样本增广，之后对图像进行减均值的操作。

步骤3、编写特征融合的层，该层的操作分为三个部分，第一部分是对尺度较大的层进行降采样，使得与尺度较小的层输入的大小是一致。第二部分，将降采样的结果乘以一个可学习参数。第三部分是将两个特征谱进行级联作为输出。

步骤4、将小网络后面部分的全连接层去掉，截取的网络为输入层到第6卷积模块之间，选择第4-3卷积模块和第5-3卷积模块和第6卷积模块三个特征谱，每一个特征谱添加两个卷积层和先验框层，。之后将输出的结果和图像标注的结果进行比较，位置的偏移使用L1损失，置信度回归使用交叉熵损失，之后进行误差的后向传播，利用随机梯度下降更新参数。这里先验框的设置有如下的几个要点：首先，先验框需要设置目标框的方向比，我们设置的方向比(宽高的比率)为1：2，2：1，3：1，1：3和1：1这五种。其次设置不同的尺度，设置的尺度根据特征谱的大小和图像大小的比例来设置的，在我们发明中，最大尺度为(图像大小*(n+1)/4)，最小尺度为(图像大小*n/4)，其中，第4-3卷积模块的n为1，第5-3卷积模块的n为2，第6卷积模块的n为3。最后，根据方向比和尺度来定先验框的大小。

步骤5、在我们收集的数据库进行训练，我们使用的学习率为0.01，并将小网络学习的参数作为初始化参数，训练次数为10000，每1000次进行一次测试，每5000次学习率乘以0.1.

本发明在收集的数据库上面得到的结果mAp(平均准确度)指标为0.88。在同样的网络中，我们实验中，去除掉加权特征级联模块，在我们的数据库上面，手势检测的mAp指标为0.8。

Claims

1.一种基于加权特征谱融合的手势检测方法，该方法包括：

步骤1:获取用户手势图像,对进行灰度处理；

步骤2:采用特征提取网络提取步骤1处理后图像的全局特征；

步骤3：步骤2的到的全局特征采用识别器进行识别；

2.如权利要求1所述的一种基于加权特征谱融合的手势检测方法,其特征在于所述特征提取网络中第1卷积模块的卷积核个数为32、卷积核大小为5×5、卷积步长为2/1，第1池化模块的卷积核大小为2×2、卷积步长为2/0，第2卷积模块的卷积核个数为64、卷积核大小为5×5、卷积步长为1/1，第2池化模块的卷积核大小为2×2、卷积步长为2/0，第3-1卷积模块的卷积核个数为128、卷积核大小为3×3、卷积步长为1/1，第3-2卷积模块、第3-3卷积模块的参数与第3-1卷积模块的参数相同，第3池化模块的卷积核大小为2×2、卷积步长为2/0，第4-1卷积模块的卷积核个数为256、卷积核大小为3×3、卷积步长为1/1，第4-2卷积模块、第4-3卷积模块的参数与第4-1卷积模块的参数相同，第4池化模块的卷积核大小为2×2、卷积步长为2/0，第5-1卷积模块的卷积核个数为256、卷积核大小为3×3、卷积步长为1/1，第5-2卷积模块的的参数与第5-1卷积模块的参数相同，第5-3卷积模块的卷积核个数为1024、卷积核大小为3×3、卷积步长为1/1，第5池化模块的卷积核大小为3×3、卷积步长为1/1，第6卷积模块的卷积核个数为1024、卷积核大小为3×3、卷积步长为2/1。

3.如权利要求2所述的一种基于加权特征谱融合的手势检测方法,其特征在于所述加权支路中的下采样的采样率为2；加权模块的参数为0.5。