CN108062525A

CN108062525A - 一种基于手部区域预测的深度学习手部检测方法

Info

Publication number: CN108062525A
Application number: CN201711335731.1A
Authority: CN
Inventors: 叶中付; 王瑾薇; 黄世亮
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2017-12-14
Filing date: 2017-12-14
Publication date: 2018-05-22
Anticipated expiration: 2037-12-14
Also published as: CN108062525B

Abstract

本发明公开了一种基于手部区域预测的深度学习手部检测方法，手部分为左手、右手以及交叠双手，该检测方法首先训练一个深度卷积网络，使用训练好的该网络检测复杂背景下视频流第一帧中的手部类别及区域；然后根据由手部运动惯性所产生的手部在时间和空间上的相关性，采用跟踪算法预测第二帧中手部区域，并结合相邻帧差法获取手部遮挡区域以及新出现的手部区域，利用跟踪算法和相邻帧差法所获得的区域构造掩膜，增强图像中感兴趣的部分，形成加入了注意力的帧图片；将此图片输入至训练好的深度卷积网络中检测，得到精准的手部类别及区域；直至最后一帧都采取同第二帧同样的检测方法，实现复杂背景下视频流手部检测。

Description

一种基于手部区域预测的深度学习手部检测方法

技术领域

本发明涉及一种检测复杂背景下视频序列中手部的方法，手部分为左手、右手以及交叠双手三种类别，属于视频物体检测领域。

背景技术

在现有的基于视觉的人手检测领域中，主要有特征检测法、模板匹配法、图像差分法等。在手部检测方法中大多数采用手部皮肤颜色[1,2,3,4]、手掌纹理[5,6]以及手部形状[2,4,5,6]等作为检测特征。由于背景复杂(图片含有大量的类肤色区域)、光照变换、人手形状复杂多变以及遮挡干扰多等因素的影响，对于手部一直没有特别稳定且成熟的检测方法。随着深度摄像头(Kinect传感器，华硕提供的Xtion传感器等)的发展，深度信息被大量用于手部检测中[7,8]，深度信息的应用提高了人手检测系统的手部检测率，但依然存在难以很好区分手掌手臂以及手部类别等问题。在手部发生遮挡、手部快速运动以及手与手、手与脸相互接触相互遮挡等情况下，人手检测系统依然存在很多不足。近几年深度学习被广泛应用于物体检测领域，手部检测系统中利用深度卷积网络[9,10,11]提高了手部检测的准确率和鲁棒性。然而对于视频流中手部检测的研究重点主要是图像检测，手部在时间和空间上的相关性没有得到充分的利用，无法很好解决由于人手快速运动、遮挡以及新手部出现所产生的检测困难问题。

[1]Li C,Kitani K M.Pixel-level hand detection in ego-centric videos[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2013:3570-3577.

[2]Mittal A,Zisserman A,Torr P H S.Hand detection using multipleproposals[C]//BMVC.2011:1-11.

[3]Bilal S,Akmeliawati R,Salami M J E,et al.Dynamic approach forreal-time skin detection[J].Journal of Real-Time Image Processing,2015,10(2):371-385.

[4]Aziz M A A,Niu J,Zhao X,et al.Using novel shape,color and texturedescriptors for human hand detection[C]//Applied Sciences and Technology(IBCAST),2014 11th International Bhurban Conference on.IEEE,2014:150-157.

[5]Kumar A,Zhang D.Personal recognition using hand shape and texture[J].IEEE Transactions on image processing,2006,15(8):2454-2461.

[6]Bhuyan M K,MacDorman K F,Kar M K,et al.Hand pose recognition frommonocular images by geometrical and texture analysis[J].Journal of VisualLanguages&Computing,2015,28:39-55.

[7]Rogez G,Supancic III J S,Khademi M,et al.3d hand pose detection inegocentric RGB-D images[J].arXiv preprint arXiv:1412.0065,2014.

[8]Supancic J S,Rogez G,Yang Y,et al.Depth-based hand poseestimation:data,methods,and challenges[C]//Proceedings of the IEEEinternational conference on computer vision.2015:1868-1876.

[9]N.Das,E.Ohn-Bar,and M.Trivedi.On performance evaluationof driverhand detection algorithms:Challenges,dataset,and metrics.In In IEEEConf.Intelligent Transportation Systems,pages 2953–2958,2015.1,5,6,7

[10]T.H.N.Le,Y.Zheng,C.Zhu,K.Luu,and M.Savvides.Multiple scalefaster-rcnn approach to drivers cell-phone usageand hands on steering wheeldetection.In CVPRW 2016,pages 46–53,June 2016.1,2[9]Darabi S,Shechtman E,Barnes C,et al.Image melding:Combining inconsistent images using patch-basedsynthesis[J].ACM Trans.Graph.,2012,31(4):82:1-82:10.

[11]Hoang Ngan Le T,Gia Quach K,Zhu C,et al.Robust Hand Detection andClassification in Vehicles and in the Wild[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition Workshops.2017:39-46.

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种复杂背景下视频序列中手部检测的方法，手部分为左手、右手以及交叠双手三种类别。本发明克服了单图像手部检测中时间上下文信息的缺失问题，缓解了人手由运动模糊、遮挡及新手部出现所产生的检测困难问题，增强了人手检测系统的精准度和鲁棒性。

为了实现上述目的，本发明提供了一种基于手部区域预测的深度学习手部检测方法，手部分为左手(包括出现物体遮挡时的左手)、右手(包括出现物体遮挡时的右手)以及交叠双手(包含双手交叠部分的双手区域，包括出现物体遮挡时的交叠双手)三种类别，该检测方法包括以下步骤：

步骤S101：训练深度卷积网络，使用训练好的深度卷积网络检测复杂背景下视频流第一帧中的手部(左手、右手以及交叠双手)；

步骤S102：根据第一帧中手部检测结果，结合手部运动惯性(视频流中产生手部在时间和空间上的相关性)，采用跟踪算法预测第二帧中手部区域，并结合相邻帧差法获取手部遮挡以及新出现的手部区域，利用跟踪算法和相邻帧差法所获得的区域构造掩膜，增强图像中感兴趣的区域，形成加入了注意力的帧图片；

步骤S103：将加入了注意力的帧图片输入至训练好的深度卷积网络中检测，得到精准的手部类别及区域；

步骤S104：视频流之后的每一帧沿用对第二帧采用的手部检测方法，实现复杂背景下的视频流手部(左手、右手以及交叠双手)检测。

进一步地，上述基于手部区域预测的深度学习手部检测方法中，所述步骤S101中：训练深度卷积网络，使用训练好的该网络检测复杂背景下视频流第一帧中的手部(左手、右手以及交叠双手)，包括以下步骤：

(11)获取包含多种不同复杂背景下的手部视频流数据集，人工标定数据集中的标签，标签包括手部的外接矩阵左上角坐标和右下角坐标以及人工标定的手部类别。并对数据集进行扩充数据处理，扩充数据处理包括旋转、缩放、裁剪等；

(12)视频流数据集分为独立的三部分：训练集、验证集和测试集；训练集占视频流总数的50％，验证集和测试集分别占25％，三部分都是从视频流数据集中按视频序列随机抽取；

(13)采用HyperNet网络作为深度卷积网络来实现手部检测，用训练集训练该HyperNet网络的参数模型，验证集控制该HyperNet网络的复杂度。对于训练好的该HyperNet网络，输入为三通道RGB图像，输出为手部类别以及手部外接矩形的左上角坐标和右下角坐标；

(14)使用训练完成的该HyperNet网络，检测测试集中的视频流中第一帧的手部。

HyperNet网络结构如下：

HyperNet网络在物体检测深度卷积网络Faster R-CNN的基础上增加了多尺度特征的提取模块，从而提高了网络对小物体目标的检测能力。HyperNet网络主要由三部分构成，分别是多尺度特征提取模块、区域生成模块和物体检测模块。多尺度特征提取模块通过卷积网络提取图像特征，并通过Max pooling下采样和Deconv上采样把不同卷积层提取的特征归一到同一尺度，然后采用局部响应归一化处理并连接在一起构成多尺度特征(Hyper特征)；

区域生成模块由ROI pooling层、卷积层、全连接层以及两个输出层(得分层和包围框回归层)组成。将Hyper特征输入此模块中分别由得分层计算候选区域物体存在的概率和包围框回归层计算物体包围框的坐标偏移值，同时采用非最大值抑制的方法减少候选区域的高度重叠；

物体检测模块对每一个输入的候选区域进行分类和调整。该模块输入为Hyper特征和候选区域中物体存在概率及其包围框坐标偏移值，输出为候选区域物体分别对应N+1个类别的概率得数(N+1是物体类别数和背景)和4×N个框的偏移值(每个框的偏移值分别对应中心坐标和长宽)。

进一步地，上述基于手部区域预测的深度学习手部检测方法中，所述步骤S102中：根据第一帧中手部检测结果，结合手部运动惯性，采用跟踪算法预测第二帧中手部区域，并结合相邻帧差法获取手部遮挡区域以及新出现的手部区域，利用跟踪算法和相邻帧差法所获得的区域构造掩膜，增强图像中感兴趣的区域，从而形成加入了注意力的帧图片，包括以下步骤：

(21)利用上一帧中检测的手部区域作为跟踪目标，基于一种光流的多目标跟踪算法多目标中值流跟踪对跟踪目标在下一帧中出现位置进行预测，将预测目标区域在像素平面扩展到富裕倍数；同时结合相邻帧差法获取手部遮挡以及新出现的手部区域；所述预设目标区域由像素平面手部区域中心坐标及长宽来确定，所述富裕倍数是指能够富裕获取手部区域的倍数；

(22)利用跟踪算法和相邻帧差法所获得的区域构造掩膜，增强图像中感兴趣的区域，形成加入了注意力的帧图片。

进一步地，上述基于手部区域预测的深度学习手部检测方法中，所述步骤S103：将加入了注意力的帧图片输入至训练好的深度卷积网络中检测，得到精准的手部类别及区域。

进一步地，上述基于手部区域预测的深度学习手部检测方法中，所述步骤(12)中，训练集和验证集中每一组视频序列包含原视频序列以及标签和处理后获得的加入了注意力的视频序列以及标签两部分。处理过程：先将原视频序列标签中的手部区域在像素平面扩展到富裕倍数，并结合相邻帧差法获取手部遮挡以及新出现的手部区域；利用利用由标签扩展以及相邻帧差法所获得的区域构造掩膜，增强相应图片中感兴趣的区域，从而形成加入了注意力的帧图片，并保存帧图片的标签。所述步骤(21)中，多目标中值流跟踪结合相邻帧差法具体过程如下：

(211)多目标中值流跟踪算法使用金字塔Lucas-Kanade光流法跟踪，并用正反向误差作为对跟踪的结果反馈。根据正反向连续性可知正反向误差小的跟踪结果好，因此舍弃50％预测效果不好的跟踪点；

(212)如果HyperNet网络出现漏检，则使用多目标中值流跟踪算法对漏检帧的预测结果作为此图片的手部检测结果；

(213)相邻帧差法通过对相邻的两帧图像做差分运算以及阈值处理获得运动物体轮廓二值图，将该图进行膨胀并提取轮廓最大外接矩形，从而获取两帧中发生运动变化的区域；

(214)在多目标中值流跟踪与相邻帧差法的结合过程中，去除了相邻帧差法获得的区域矩形中与多目标中值流跟踪结果重叠的区域矩形。由于人眼在观察手部运动时对不同区域的注意力程度不同，因此人眼对图片中多目标中值流跟踪的预测手部区域感兴趣程度最高，其次是相邻帧差法中与多目标中值流跟踪结果不重叠的矩形区域(可能包含新出现的手部区域)，以此构造掩膜为图像中各区域感兴趣程度的不同而分配不同的亮度值，从而形成加入了注意力的帧图片。如此能够避免多目标中值流跟踪算法由剧烈移动或者遮挡所造成的跟踪失败，并且提高了整个检测算法对新出现手部区域的敏感度。

本发明与现有技术相比的优点在于：本发明利用深度卷积网络检测图像中手部，手部分为左手、右手以及交叠双手三种类别。相比于传统的手部特征提取匹配，较好的解决了复杂背景中大量类肤色区域的干扰问题，并能在手与手、手和脸交叠的情况下很好的检测出手部。深度卷积网络中大量训练样本的存在，克服了手部检测中手形复杂多变以及光照强度变换等问题。同时根据视频流中手部在时间和空间上的相关性，采用跟踪算法预测下一帧中的手部区域，并结合相邻帧差法获取手部遮挡以及新出现手部区域，利用跟踪算法和相邻帧差法所获得的区域构造掩膜，增强了图像中感兴趣的区域，排除了复杂背景对手部检测的干扰。相比于单图像的手部检测，网络更细致地学习了左手、右手以及交叠双手的手部特征，提升了手部分类的准确率。基于手部区域预测的深度学习手部检测方法缓解了人手由运动模糊、遮挡以及新手部出现所产生的检测困难问题，并且当深度卷积网络出现漏检时，使用跟踪结果作为手部的检测结果，提高了手部检测的平均精度均值mAP，具有很好的鲁棒性。通过评估，上述策略使本发明公开的检测方法在复杂背景下视频序列中手部(左手、右手以及交叠双手)的检测问题上表现出良好的性能。

附图说明

图1示出了本发明一个实施例公开的一种复杂背景下视频序列中手部检测方法的基本流程；

图2示出了本发明的公开方法的一种形象化的过程表示；

图3示出了本发明在车辆中人手实施例的实施结果；

图4示出了本发明在手语视频中人手实施例的实施结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

1、如图1所示，训练深度卷积网络，使用训练好的深度卷积网络检测复杂背景下视频流第一帧中的手部(左手、右手以及交叠双手)，包括；

获取包含多种不同场景中复杂背景下的手部视频流数据集，人工标定数据集中的标签，标签包括手部的外接矩阵左上角坐标和右下角坐标以及人工标定的手部类别；并对数据集进行扩充数据处理，扩充数据处理包括旋转、缩放、裁剪等。

视频流数据集分为独立的三部分：训练集、验证集和测试集；训练集占视频流总数的50％，验证集和测试集分别占25％，三部分都是从视频流数据集中按视频序列随机抽取；

采用HyperNet网络作为深度卷积网络来实现手部检测，用训练集训练该HyperNet网络的参数模型，验证集控制该HyperNet网络的复杂度。对于训练好的该HyperNet网络，输入为三通道RGB图像，输出为手部类别以及手部外接矩形的左上角坐标和右下角坐标；

使用训练完成的该HyperNet网络，检测测试集中的视频流中第一帧的手部。

2、根据第一帧中手部检测结果，结合手部运动惯性，采用跟踪算法预测第二帧中手部区域，并结合相邻帧差法获取手部遮挡区域以及新出现的手部区域。利用跟踪算法和相邻帧差法所获得的区域构造掩膜，增强图像中感兴趣的区域，从而形成加入了注意力的帧图片，包括：

利用上一帧中检测的手部作为跟踪目标，基于一种光流的多目标跟踪算法多目标中值流跟踪对跟踪目标在下一帧中出现位置进行预测，将预测目标区域在像素平面扩展到富裕倍数；同时结合相邻帧差法获取手部遮挡以及新出现的手部区域；；所述预设目标区域由像素平面手部区域中心坐标及长宽来确定，所述富裕倍数是指能够富裕获取手部区域的倍数。。

利用跟踪算法和相邻帧差法所获得的区域构造掩膜，增强图像中感兴趣的区域，形成加入了注意力的帧图片。

3、将加入了注意力的帧图片输入至训练好的深度卷积网络中检测，得到对应于原图中复杂背景下的精准手部类别及区域。

4、视频流之后的每一帧沿用对第二帧采用的手部检测方法，实现不同场景中复杂背景下的视频流手部(左手、右手以及交叠双手)检测。

本发明是一个实施例公开的一种基于手部区域预测的深度学习手部(检测方法，手部分为左手、右手以及交叠双手三种类别。

由图1可知，该方法包括步骤S101、S102、S103、S104：

S101：训练深度卷积网络，使用训练好的深度卷积网络检测复杂背景下视频流第一帧中的手部(左手、右手以及交叠双手)。

S102：根据第一帧中手部检测结果，结合手部运动惯性，采用跟踪算法预测第二帧中手部区域，并结合相邻帧差法获取手部遮挡以及新出现的手部区域，利用跟踪算法和相邻帧差法所获得的区域构造掩膜，增强图像中感兴趣的区域，形成加入了注意力的帧图片。

本发明提出了基于手部区域预测的深度学习手部检测方法来进行手部检测，手部分为左手、右手以及交叠双手三种类别，检测过程如图2所示。深度卷积网络采用HyperNet网络，该网络在物体检测深度卷积网络Faster R-CNN的基础上增加了多尺度特征的提取模块，从而提高了网络对小物体目标的检测能力。同时根据视频流中手部在时间和空间上的相关性，进而采用多目标中值流跟踪算法预测手部的位置，并结合相邻帧差法获取手部遮挡以及新出现手部区域，利用跟踪算法和相邻帧差法所获得的区域构造掩膜，增强了图像中感兴趣的区域，排除了复杂背景对手部检测的干扰。该算法缓解了人手由运动模糊、遮挡以及新手部出现所产生的检测困难问题，并且当深度卷积网络出现漏检时，使用跟踪结果作为手部的检测结果，提高了手部检测的平均精度均值，具有很好的鲁棒性。

(1)HyperNet网络

HyperNet网络在物体检测深度卷积网络Faster R-CNN的基础上增加了多尺度特征的提取，从而提高了网络对小物体目标的检测能力。HyperNet网络主要由三部分构成，分别是多尺度特征提取模块、区域生成模块和物体检测模块。

多尺度特征提取模块通过卷积网络提取图像特征，并通过Max pooling下采样和Deconv上采样把不同卷积层提取的特征归一到同一尺度，然后采用局部响应归一化处理并连接在一起构成多尺度特征(Hyper特征)。

区域生成模块由ROI pooling层、卷积层、全连接层以及两个输出层(得分层和包围框回归层)组成。将Hyper特征输入此模块中分别由得分层计算候选区域物体存在的概率和包围框回归层计算物体包围框的坐标偏移值，同时采用非最大值抑制的方法减少候选区域的高度重叠。

HyperNet网络采用了联合训练的方法。多任务损失函数定义如下：

L(k,k^*,t,t^*)＝L_cls(k,k^*)+L_reg(t,t^*)

对于每个矩形框被分配了一个二进制类别标签(判断是否是待检测物体)，L_cls是关于两种类别(是目标和不是目标)的对数损失函数，L_reg是针对于正标签的矩形框回归损失函数，定义如下：

k和k^*分别表示预测类别标签和真实类别标签，若是待检测的物体则真实类别标签k^*为1，若不是待检测的物体则为0。为了便于矩形框坐标的回归，采用坐标的参数化表示，其中t＝(t_x,t_y,t_w,t_h)是代表预测区域矩形框坐标位置的偏移，代表k^*为1的真实区域矩形框坐标位置的偏移，表示如下：

t_x＝(G_x-P_x)/P_w,t_y＝(G_y-P_y)/P_h,t_w＝log(G_w/P_w),t_h＝log(G_h/P_h)

其中P＝(P_x,P_y,P_w,P_h)表示候选区域的中心坐标和长宽，G＝(G_x,G_y,G_w,G_h)和分别表示预测目标区域和真实目标区域的中心坐标和长宽。

(2)手部区域预测

多目标中值流跟踪算法使用金字塔Lucas-Kanade光流法跟踪，并用正反向误差作为对跟踪的结果反馈。从时间t的初始位置x_t正向追踪产生时间t+n的位置x_t+n，再从时间t+n位置x_t+n反向追踪产生时间t的预测位置x_t和之间的欧氏距离即为追踪器在t时刻的正反向误差。多目标中值流跟踪算法假设一个优秀的追踪算法应该具有正反向连续性，即正向追踪和反向追踪产生的轨迹应该是相同的。根据正反向连续性可知正反向误差小的跟踪结果好，因此舍弃50％预测效果不好的跟踪点。

如果HyperNet网络出现漏检，则使用多目标中值流跟踪算法对漏检帧的预测结果作为此图片的手部检测结果。

相邻帧差法通过对相邻的两帧图像做差分运算以及阈值处理获得运动物体轮廓二值图。将该图进行膨胀并提取轮廓最大外接矩形，从而获取两帧中发生运动变化的区域，当出现新的手部目标时，可以获取新出现的手部区域。

在多目标中值流跟踪与相邻帧差法的结合过程中，去除了相邻帧差法获得的区域矩形中与多目标中值流跟踪结果重叠的区域矩形。同时多目标中值流跟踪与相邻帧差法的结合使用能够避免多目标中值流跟踪算法由剧烈移动或者遮挡所造成的跟踪失败问题，并且提高了整个检测算法对新出现手部的敏感度。

(3)深度学习与手部区域预测结合模型

使用训练好的HyperNet网络检测复杂背景下视频流中各帧图像的手部标签(手部类别及区域)，其中第一帧输入图片为视频流原始图片，之后输入图片为加入了注意力的帧图片。在上一帧t的物体包围框G_t＝(G_x,G_y,G_w,G_h)内均匀地产生一些点，然后用金字塔Lucas-Kanade光流法正向追踪这些点到t+1帧，再反向追踪到t帧，计算t时刻的正反向误差，从中筛选出正反向误差结果中最小的一半点作为追踪结果点。然后根据追踪结果点坐标距离的变换，计算出t+1帧中手部包围框的中心C_t+1＝(C_x,C_y)。由于手部纹理特征较少并且手型复杂多变，跟踪结果点较为分散，所以多目标中值流跟踪预测的包围框的长宽偏大。基于相邻帧手部的形状变动范围较小，所以采用上一帧检测得到的包围框长宽作为下一帧中包围框的长宽。同时为富裕的提取检测手部构造掩膜，将预测的手部区域在像素平面内扩展d倍得到手部预测区域F_t+1＝(F_x,F_y,F_w,F_h)，其中F_x,F_y表示预测区域矩形中心坐标，F_w,F_h表示预测区域矩形长宽。图像像素平面坐标变换表示如下：

F_x＝C_x,F_y＝C_y,F_w＝d×G_w,F_h＝d×G_h

在多目标中值流跟踪与相邻帧差法的结合过程中，去除了相邻帧差法中与多目标中值流跟踪重叠的矩形，不重叠的矩形表示为N_t+1＝(N_x,N_y,N_w,N_h)。然后由于人眼在观察手部运动时对不同区域的注意力程度不同，因此人眼对图片中多目标中值流跟踪中预测的手部区域F_t+1＝(F_x,F_y,F_w,F_h)感兴趣程度最高，其次相邻帧差法中与多目标中值流跟踪预测结果中不重叠的矩形N_t+1＝(N_x,N_y,N_w,N_h)(可能包含新出现的手部区域)，以此构造掩膜为图像中各区域感兴趣程度的不同而分配不同的亮度值，从而形成加入了注意力的帧图片。如此能够避免多目标中值流跟踪算法由剧烈移动或者遮挡所造成的跟踪失败，并且提高了整个检测算法对新出现手部区域的敏感度。并且当HyperNet网络出现漏检时，使用多目标中值流跟踪算法对漏检帧的预测结果作为该图像的手部检测结果，提高了手部检测的平均精度均值。

S103：将加入了注意力的帧图片输入至训练好的深度卷积网络中检测，进而得到精准的手部类别及区域。

S104：视频流之后的每一帧沿用对第二帧采用的手部检测方法，实现复杂背景下的视频流手部检测。

图3和图4分别显示出了以上过程对车辆中人手和手语视频中人手的实施结果。图3车辆中人手实施例中，绿色方框中为人手检测区域，检测区域外为手部检测类别(左手lefthand、右手righthand以及双手重合bothhand)。基本实施流程：先采用HyperNet网络检测视频流第一帧中的手部(左手、右手以及交叠双手)；再用本发明提出的基于手部区域预测的深度学习手部检测方法，对加入了注意力的帧图片输入至训练好的深度卷积网络中进行检测，从而得到对应于原图中复杂背景下精准的手部检测结果；视频流之后的每一帧沿用对第二帧采用的手部检测方法，最终实现复杂背景下的视频流手部(左手、右手以及交叠双手)检测。图4手语视频中人手实施例的基本流程与上述类似，其目标是鲁棒地检测出手语实施者手部，从而有助于手语视频的识别及合成研究。该实施例运用本发明的方法实现了复杂背景下对复杂多变的手部检测，克服了光照变化、人手、人脸相互遮挡以及人手与手臂难以区分的问题。

总之，本发明利用深度卷积网络检测图像中手部，手部分为左手、右手以及交叠双手三种类别。相比于传统的手部特征提取匹配，较好的解决了复杂背景中大量类肤色区域的干扰问题，并能在手与手、手和脸交叠的情况下很好的检测出手部(左手、右手以及交叠双手)。深度卷积网络中大量训练样本的存在，克服了手部检测中手形复杂多变以及光照强度变换等问题。同时根据手部运动惯性在视频流中产生手部在时间和空间上的相关性，采用跟踪算法预测手部的位置，并结合相邻帧差法获取手部遮挡以及新出现手部区域，利用跟踪算法和相邻帧差法所获得的区域构造掩膜，增强了图像中感兴趣的区域，排除了复杂背景对手部检测的干扰。相比于单图像的手部检测，网络更细致的学习了左手、右手以及双手重合的手部特征，提升了手部分类的准确率。基于手部区域预测的深度学习手部检测方法缓解了人手由运动模糊、遮挡以及新手部出现所产生的检测困难问题，并且当深度卷积网络出现漏检时，使用跟踪结果作为手部的检测结果，提高了手部检测的平均精度均值，具有很好的鲁棒性。通过评估，上述策略使本发明公开的检测方法在复杂背景下视频序列中手部(左手、右手以及交叠双手)的检测问题上表现出良好的性能。

最后，还需要说明的是，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于手部区域预测的深度学习手部检测方法，手部包括左手、右手以及交叠双手，其中左手包括出现物体遮挡时的左手，右手包含出现物体遮挡时的右手，交叠双手是包含双手交叠部分的双手区域同时包括出现物体遮挡时的交叠双手；其特征在于：该检测方法包括：

步骤S101：训练深度卷积网络，使用训练好的深度卷积网络检测复杂背景下视频流第一帧中的手部；

步骤S102：根据第一帧中手部检测结果，结合手部运动惯性，采用跟踪算法预测第二帧中手部区域，并结合相邻帧差法获取手部遮挡以及新出现的手部区域，利用跟踪算法和相邻帧差法所获得的区域构造掩膜，增强图像中感兴趣的区域，形成加入了注意力的帧图片；

步骤S104：视频流之后的每一帧沿用对第二帧采用的手部检测方法，实现复杂背景下的视频流手部检测。

2.根据权利要求1所述的方法，其特征在于：步骤S101，训练深度卷积网络，使用训练好的该网络检测复杂背景下视频流第一帧中的手部类别及区域，包括以下步骤：

(11)获取包含多种不同场景中复杂背景下的手部视频流数据集，人工标定数据集中的标签，标签包括手部的外接矩阵左上角坐标和右下角坐标以及人工标定的手部类别；并对数据集进行扩充数据处理，扩充数据处理包括旋转、缩放、裁剪；

(13)采用HyperNet网络作为深度卷积网络来实现手部检测，用训练集训练该HyperNet网络的参数模型，验证集控制该HyperNet网络的复杂度；对于训练好的该HyperNet网络，输入为三通道RGB图像，输出为手部类别以及手部外接矩形的左上角坐标和右下角坐标；

3.根据权利要求1所述的方法，其特征在于：步骤S102，根据第一帧中手部检测结果，结合手部运动惯性，采用跟踪算法预测第二帧中手部区域，并结合相邻帧差法获取手部遮挡区域以及新出现的手部区域，利用跟踪算法和相邻帧差法所获得的区域构造掩膜，增强图像中感兴趣的区域，形成加入了注意力的帧图片，包括以下步骤：

4.根据权利要求1所述的方法，其特征在于：步骤S103中，将加入了注意力的帧图片输入至训练好的深度卷积网络中检测，得到对应于原图中复杂背景下的精准手部类别及区域。

5.根据权利要求2所述的方法，其特征在于：所述步骤(12)中，训练集和验证集中每一组视频序列包含原视频序列以及标签和处理后获得的加入了注意力的视频序列以及标签两部分。

6.根据权利要求3所述的方法，其特征在于：所述步骤(21)中，多目标中值流跟踪结合相邻帧差法的具体过程如下：

(211)多目标中值流跟踪算法使用金字塔Lucas-Kanade光流法跟踪，并用正反向误差作为对跟踪的结果反馈；

(214)在多目标中值流跟踪与相邻帧差法的结合过程中，去除了相邻帧差法获得的区域矩形中与多目标中值流跟踪结果重叠的区域矩形。