CN107239731A

CN107239731A - 一种基于Faster R‑CNN的手势检测和识别方法

Info

Publication number: CN107239731A
Application number: CN201710249178.3A
Authority: CN
Inventors: 张江鑫; 吴晓凤; 徐欣晨
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-04-17
Filing date: 2017-04-17
Publication date: 2017-10-10
Anticipated expiration: 2037-04-17
Also published as: CN107239731B

Abstract

一种基于Faster R‑CNN的手势检测和识别方法，包括以下步骤：S1，采用Faster R‑CNN网络，面向手势识别应用设置网络中的参数；S2，给手势样本制作标签，并将标签样本作为Faster R‑CNN网络的输入，从其共享卷积层中输出有效的非线性特征并输入到区域提取RPN网络和Fast R‑CNN网络；由具有扰动交叠率算法的RPN网络获得手势目标的区域建议，并反馈给Fast R‑CNN网络；S3，由Fast R‑CNN网络通过分类层和边框回归层，输出手势位置和手势类别。本发明提供了一种增强鲁棒性、提高准确率的基于Faster R‑CNN的手势检测和识别方法。

Description

一种基于Faster R-CNN的手势检测和识别方法

技术领域

本发明涉及基于计算机模式识别技术，具体涉及基于卷积神经网络的手势检测和识别技术，尤其涉及一种基于Faster Region-based Convolutional Neural Networks(简称Faster R-CNN)的手势检测和识别方法。

背景技术

21世纪以来，学者们已经提出了很多手势检测和识别方法，主要是利用图像分割方法，将手势图像从背景中分离出来，然后进行模板匹配识别手势。早期的研究主要集中于基于数据手套的手势识别，但使用起来不方便，器件成本较高，不利于在实际环境中的人机交互。另一种是基于计算机视觉的方法，较常用的方法有方向梯度直方图(Histogram ofOriented Gradient,简称HOG)特征与支持向量机(Support Vector Machine，简称SVM)，基于Kinect深度图像的手势检测和基于肤色检测技术的手势分割。但是这些方法都需要在特定的场合下才能使用，不利于推广。后来有学者提出了基于不同颜色空间的手势检测算法，这些基于肤色的检测方法在背景单一的情况下可以取得不错的效果，但在背景较为复杂时，效果一般。

卷积神经网络(Convolutional Neural Networks，简称CNN)是一种为了处理二维图像而设计的人工神经网络，对翻转、平移和比例缩放等具有扭曲不变性，因此已经有学者将卷积神经网络应用在在手势识别领域。但他们没有进行手势检测，所以只适用于小图片或简单背景下的手势识别。Deep CNN成功地提高了目标检测和图像分类的精度。

发明内容

为了克服已有手势识别方式的鲁棒性较差、准确率较低的不足,本发明提供了一种增强鲁棒性、提高准确率的基于Faster R-CNN的手势检测和识别方法。

本发明解决其技术问题所采用的技术方案是：

一种基于Faster R-CNN的手势检测和识别方法，所述方法包括以下步骤：

S1，采用Faster R-CNN网络，面向手势识别应用设置网络中的参数；

S2，给手势样本制作标签，并将标签样本作为Faster R-CNN网络的输入，从其共享卷积层中输出有效的非线性特征并输入到区域提取网络(Region Proposal Network，简称RPN)和Fast Region-based Convolutional Neural Networks(简称Fast R-CNN)；

由具有扰动交叠率算法的RPN网络获得手势目标的区域建议，并反馈给Fast R-CNN网络；

S3，由Fast R-CNN网络通过分类层和边框回归层，输出手势位置和手势类别。

进一步，所述步骤S1中，根据所述采用Faster R-CNN网络，面向手势识别应用设置网络中的参数，包括：

Faster R-CNN网络的输入参数：将图片输入大小设置为640*480；将NTU数据集分类的类别数目设置为11类(包括背景)；使用VGG_CNN_M_1024网络模型。

anchors的参数：本专利anchors的基准面积大小设为8*8，使用三种宽高比2:1，1:1和1:2，采用的尺度为[8,12,16]。

再进一步，所述步骤S2中，根据所述从使用扰动交叠率算法的RPN中获得手势目标的区域建议，包括：

通过扰动交叠率算法产生扰动标签，扰动交叠率算法采用的策略就是在每1000次迭代中按概率10％随机选取一部分迭代的IoU设为0.5，其余的IoU都设为0.7；

更进一步，所述步骤S3中，由Fast R-CNN网络通过分类层和边框回归层，输出手势位置和手势类别，包括：

通过Region of Interest(简称RoI)池化层和全连接层得到手势区域的1024维特征向量，再将此特征向量输入到分类层和边框回归层；

分类层输出1×11维手势类别数据；

边框回归层输出1×44维边框坐标数据。

本发明的有益效果主要表现在：增强手势识别的鲁棒性、提高手势识别的准确率。

附图说明

图1为基于Faster R-CNN的手势检测和识别方法的网络结构示意图。

图2为基于Faster R-CNN的手势检测和识别方法的流程示意图

图3为给样本制作标签的流程示意图。

图4为anchor框的大小、比例示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于Faster R-CNN的手势检测和识别方法，用于手势的检测与识别。本申请实施例所述的手势检测和识别方法，主要是指使用Faster R-CNN网络和扰动交叠率算法。

本申请实施例中使用的网络整体结构如附图1所示。将手势标签数据输入到Faster R-CNN网络中，将共享卷积层中输出的非线性特征输入到区域提取网络RPN和FastR-CNN网络；然后将RPN网络得到的手势目标的区域建议反馈给Fast R-CNN网络；最终由Fast R-CNN网络通过分类层和边框回归层，输出手势位置和手势类别。

本申请实施例使用的数据为NTU-Microsoft-Kinect-Hand posture Dataset(简称NTU)数据集中的手势图片。

如附图2所示，本申请实施例的基于Faster R-CNN的手势检测和识别方法，主要包括如下步骤：

步骤S1，采用Faster R-CNN网络，面向手势识别应用设置网络中的参数；

步骤S2，给手势样本制作标签，并将标签样本作为Faster R-CNN网络的输入，从中提取出有效的非线性特征并输入到RPN网络和Fast R-CNN网络；

步骤S3，由具有扰动交叠率算法的RPN网络获得手势目标的区域建议，并反馈给Fast R-CNN网络；

步骤S4，由Fast R-CNN网络通过分类层和边框回归层，输出手势位置和手势类别。

本申请实施例中，根据所述采用Faster R-CNN网络，面向手势识别应用设置网络中的参数，包括：

Faster R-CNN网络的输入参数：将图片输入大小设置为640*480；将NTU数据集分类的类别数目设置为11类(包括10种手势和背景)；使用VGG_CNN_M_1024网络模型。

anchors的参数：anchors的基准面积大小设为8*8，使用三种宽高比2:1，1:1和1:2，采用的尺度为[8,12,16]。

本申请实施例中，根据所述给训练样本制作标签。图3给出了主要步骤。

步骤S210，将样本图片使用MATLAB批量重命名为“00001.jpg”的形式。

步骤S220，使用Python的画图像标注工具，将图片中的手势部位信息保存到TXT文件夹中，如：00001.jpg hand_0 44 28 132 121。前面是图片名，中间是手势类别，最后是手势的包围框坐标。

步骤S230，使用MATLAB将步骤S220中的每个TXT文件批量生成相应XML 文件，XML文件的名字就是图片的编号，如“00001.xml”。

步骤S240，新建一个文件夹，名字为Annotations，将xml文件全部放到该文件夹里。新建一个文件夹，名字为JPEGImages，将所有的训练图片放到该文件夹里。新建文件夹，命名为ImageSets，在ImageSets里再新建文件夹，命名为Main。通过xml名字(或图片名)，生成两个txt文件，即：train.txt，test.txt，文件里面是训练和测试图片的索引。新建VOC2007文件夹，将Annotations、ImageSets和JPEGImages都保存到此文件夹中。

本申请实施例中，由具有扰动交叠率算法的RPN网络获得手势目标的区域建议，并反馈给Fast R-CNN网络，包括：

将RPN网络的滑动窗口大小设为3*3。anchor基准面积大小都设为8*8，使用三种宽高比2:1，1:1和1:2，采用的尺度为[8,12,16]，这样在每个滑动窗口位置就产生了9个anchors，如附图4所示。

借鉴扰动标签算法的思想来加强损失层的正则化，避免训练模型的过拟合问题。扰动标签的算法就是在每次迭代过程中，随机选择一些样本，使用错误的标记值进行训练，本发明迭代时每次就取10张图片，若采用一样的策略显然不合适，由于正负样本不是在制作数据集时规定的，而是在训练时根据IoU值和目标真实框的标签共同确定。所以本发明采用的策略就是在每1000次迭代中按概率(本专利)随机选取一部分迭代的IoU设为0.5，其余的IoU都设为0.7。其本质是将IoU设低后，原先应标记为正标签的可能变为负标签，同时负标签也可能变成正标签，这样也就产生了扰动标签，通过扰动标签在损失层上添加噪声，在RPN反向传播阶段会传播此噪声梯度。本发明将此方法命名为DisturbIoU，其实现的算法如下：

从RPN训练阶段开始阐述，送入RPN的标签数据为其中C表示类别数，这里0表示背景，1,2…,C表示需要识别的C个目标种类标记。数据标签是四维向量分别表示目标的在原图上的中心坐标和目标标记边框的宽、高。这里的L表示RPN网络每次训练使用的图像张数，本申请L＝10。目的是训练一个RPN模型θ表示模型参数。θ通常使用白噪声θ₀初始化，然后使用随机梯度下降(SGD)算法更新。第m次迭代时SGD更新θ_m的公式如式(1)所示，

L({p_i},{t_i})表示损失函数如式(2)，的值用来反向传播梯度，γ_m表示学习率，D_m是从总数据集中随机抽取的图片(本申请为10张)。在训练(测试)阶段，RPN先输出12K(6K)个区域建议的类别、位置和概率得分，最终输出这12K(6K)个区域建议中选择概率得分为前2K(300)的区域建议，然后将信息传入到Fast R-CNN网络。

DisturbIoU算法产生扰动的IoU后主要影响的是12K个区域建议的类别标记，对每个区域建议通过DisturbIoU后产生的扰动标记表示为p＝[p₀,p₁]。p是由输入数据根据正负样本标定规则生成的(p₀表示anchor框为背景的概率，p₁表示anchor框为目标的概率)，其中IoU的大小起决定作用。

IoU的计算公式如式(5)所示，

其中N为每次迭代的次数，本申请N＝1000，服从伯努利分布：

式(6)中α是噪声率。DisturbIoU在每1000次迭代中是独立工作的，即每1000次迭代中被选中IoU设为0.5的次数索引是不同的。

如附图1所示，将上述DisturbIoU算法产生的扰动标签输入到RPN数据层，RPN数据层将卷积特征映射到一个低维向量，最后将这个低维向量送入到两个全连接层，即边框回归层和边框分类层。分类层输出每个位置上9个anchors属于前景和背景的概率；边框回归层输出每个位置上9个anchors对应的窗口应该平移缩放的参数。对于每个位置来说，分类层从低维特征中输出属于前景和背景的概率；回归层从低维特征中输出4个平移缩放参数。

本申请实施例中，根据所述通过Fast R-CNN网络的分类层和边框回归层，对手势进行定位和识别，包括：

将共享卷积层输出的非线性特征和RPN网络反馈回来的区域建议通过RoI池化层和全连接层得到手势区域的特征向量，再将此特征向量输入到分类层和边框回归层。分类层和边框回归层分别输出手势的类别和位置。

本发明提出了一种基于Faster R-CNN的手势检测和识别方法，实验表明本发明能有效增强手势识别的鲁棒性，提高手势识别精度。

Claims

1.一种基于Faster R-CNN的手势检测和识别方法，其特征在于：所述方法包括以下步骤：

S2，给手势样本制作标签，并将标签样本作为Faster R-CNN网络的输入，从其共享卷积层中输出有效的非线性特征并输入到区域提取RPN网络和Fast R-CNN网络；

2.如权利要求1所述的一种基于Faster R-CNN的手势检测和识别方法，其特征在于：所述步骤S1中，根据所述采用Faster R-CNN网络，面向手势识别应用设置网络中的参数，包括：

Faster R-CNN网络的输入参数：将图片输入大小设置为640*480；将NTU数据集分类的类别数目设置为11类；使用VGG_CNN_M_1024网络模型；

3.如权利要求1或2所述的一种基于Faster R-CNN的手势检测和识别方法，其特征在于：所述步骤S2中，根据所述从使用扰动交叠率算法的RPN中获得手势目标的区域建议，包括：

通过扰动交叠率算法产生扰动标签，扰动交叠率算法采用的策略就是在每1000次迭代中按概率10％随机选取一部分迭代的IoU设为0.5，其余的IoU都设为0.7。

4.如权利要求1或2所述的一种基于Faster R-CNN的手势检测和识别方法，其特征在于：所述步骤S3中，由Fast R-CNN网络通过分类层和边框回归层，输出手势位置和手势类别，包括：

通过Region of Interest池化层和全连接层得到手势区域的1024维特征向量，再将此特征向量输入到分类层和边框回归层；

分类层输出1×11维手势类别数据；

边框回归层输出1×44维边框坐标数据。