CN110490165B

CN110490165B - 一种基于卷积神经网络的动态手势跟踪方法

Info

Publication number: CN110490165B
Application number: CN201910792280.7A
Authority: CN
Inventors: 李东洁; 李东阁; 杨柳; 徐东昊
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2021-05-25
Anticipated expiration: 2039-08-26
Also published as: CN110490165A

Abstract

一种基于卷积神经网络的动态手势跟踪方法,涉及计算机视觉技术领域,为了应对在复杂场景中手势跟踪过程中遇到的肤色干扰导致跟踪效果差和跟踪的实时性不足等问题，包括以下步骤：步骤一：将复杂背景下的动态手势跟踪作为视觉任务；步骤二：选择手势图像样本进行滤波处理，然后制作手势训练集；步骤三：确定YOLOv3‑gesture手势检测网络结构；步骤四：利用规划区域检测框架完成动态手势跟踪；步骤五：对YOLOv3‑gesture模型进行训练，得到动态手势跟踪模型；步骤六：利用得到的模型完成动态手势跟踪。本发明在复杂场景中手势跟踪过程中遇到的肤色干扰时，跟踪效果强，跟踪的实时性足。

Description

一种基于卷积神经网络的动态手势跟踪方法

技术领域

本发明涉及计算机视觉技术领域，具体为一种基于卷积神经网络的动态手势跟踪方法。

背景技术

基于手势的人机交互是人类最自然的人机交互方式，近几年来受到越来越研究人员的关注。在动态手势交互方式中，手的轨迹是手势指令的重要组成部分之一，所以对手势的跟踪是一个重要环节。手势跟踪的算法虽然在虚拟现实系统和HCI系统中得到了广泛的应用，由于在应用中对手势跟踪的鲁棒性和实时性要求逐渐提高，所以在基于视觉的研究领域中手势跟踪仍然是一个具有挑战性的问题。

发明内容

本发明的目的是：为了应对在复杂场景中手势跟踪过程中遇到的肤色干扰导致跟踪效果差和跟踪的实时性不足等问题，提出一种基于卷积神经网络的动态手势跟踪方法。

本发明为了解决上述技术问题采取的技术方案是：一种基于卷积神经网络的动态手势跟踪方法，包括以下步骤：

步骤一：将复杂背景下的动态手势跟踪作为视觉任务；

步骤二：选择手势图像样本进行滤波处理，然后制作手势训练集；

步骤三：确定YOLOv3-gesture手势检测网络结构；

步骤四：利用规划区域检测框架完成动态手势跟踪；

步骤五：对YOLOv3-gesture模型进行训练，得到动态手势跟踪模型；

步骤六：利用得到的模型完成动态手势跟踪。

进一步的，所述步骤三的详细步骤为：首先保持Darknet-53的残差模块，在每个残差模块后面增加一个1×1卷积核，同时在第一个卷积层中使用线性激活函数，然后在残差模块中，调整每个模块中的残差网络层数。

进一步的，所述步骤四利用规划区域检测框架完成动态手势跟踪的具体步骤为：首先假设在第t帧图像中检测到有手势目标Object₁，则经过YOLOv3-gesture网络预测输出预测框X₁的中心坐标(b_x,b_y)、预测框宽度b_w和高度b_h；进入第t+1帧后，在第t帧中心点的附近区域生成规划区域进行检测，即在第t+1帧时，输入YOLOv3-gesture网络的大小为规划区域S^*，其中规划区域S^*的宽度S_w和高度S_h，则以第t帧中心点为原点，第t+1帧规划区，域的左上角顶点(S_x,S_y)公式如下：

其中n为变换尺度，S_w＝3b_w，S_h＝3b_h，若在规划区域中未检测到对象则n+1，规划区域最大为输入完整图像的大小，如果存在多个手势目标，则分别对每个手势目标Object_n规划区域进行检测完成跟踪，b_w和b_h为上一帧预测边框的宽度和高度。

进一步的，所述步骤五中对YOLOv3-gesture模型进行训练的具体步骤为：首先设置每批训练样本batch为64，一次性送入训练器样本数量subdivisions为16，动量参数设置为0.9，权重衰减正则项为0.0005，初始学习率设置为0.001，采用小批量随机梯度下降的方式进行优化，同时进行多尺度训练。

本发明的有益效果是：本发明能够快速地完成手势检测跟踪，优化了检测主体网络结构，使得训练YOLOv3-gesture网络的速度大幅度的提升，节省了大量的时间成本。本发明中采用卷积神经网络模型进行手势检测，并利用规划区域检测框架对手势进行跟踪，不仅提高了测试的准确率，而且在不同的环境下的数据集中展现了良好的泛化能力。而且本发明在复杂场景中手势跟踪过程中遇到的肤色干扰时，跟踪效果强，跟踪的实时性足。

附图说明

图1为本发明动态手势检测流程图。

图2为本发明规划区域检测流程图。

具体实施方式

具体实施方式一：参照图1和图2具体说明本实施方式，本实施方式所述的一种基于卷积神经网络的动态手势跟踪方法，包括以下步骤：

步骤一：将复杂背景下的动态手势跟踪作为视觉任务；

步骤三：确定YOLOv3-gesture手势检测网络结构；

步骤四：利用规划区域检测框架完成动态手势跟踪；

步骤六：利用得到的模型完成动态手势跟踪。

根据得到的动态手势跟踪模型利用新样本对动态手势跟踪模型测试，得到新样本的检测结果。

为了应对在复杂场景中手势跟踪过程中遇到的肤色干扰导致跟踪效果差和跟踪的实时性不足等问题，本发明在基于卷积神经网络的YOLOv3检测算法基础上，提高算法跟踪鲁棒性的同时满足实时性的要求，提高手势跟踪的综合性能。

任何的场景目标发现问题，都可以看作是一个和该目标相关的视觉任务。提出一种不依赖手工特征，在复杂场景中进行动态手势跟踪的方法。本发明的视觉任务是：在复杂背景下对动态手势进行跟踪。通过对视觉任务学习得到一种稳定的，与任务强相关的目标检测模型。将新的样本图像输入目标检测模型便可以得到检测结果。本发明将利用深度学习的思想解决视觉任务的训练过程，利用YOLOv3-gesture网络解决手势检测问题。相对于传统Darknet-53网络对于单类物体检测费时的推断，在每个残差模块后面增加了一个卷积核进一步降低输出维度，从而使网络性能进一步提升。

本发明首先确定模型要执行的任务，任务是复杂背景下的手势跟踪。然后对现有的Darknet-53网络进行改进。Darknet-53网络是这个模型的主体网络结构，利用该模型进行特征提取。该模型，是识别不出来手势的，因为没对它进行针对于手势图像的训练，没有认识手的特征。因此对它进行训练，得到相应的权重值，手的特征被记住。该模型就能检测出来手势，然后对它进行跟踪。训练模型时，选一些带有手的图像，进行预处理让它的特征更明显，然后输入到这个模型中让它学习特征(也就是所说的训练)。训练可以得到针对于识别手势的权重值。有了权重值，该模型对新输入来的图片，就可以识别出来手了。

识别出来手之后，模型只能识别图片，动态就是视频，处理视频就要用到规划区域检测框架，视频每帧都是图像，规划区域检测将视频前后两帧图像联系在一起，从而完成跟踪。

具体实施方式二：本实施方式是对具体实施方式一所述的作进一步说明，本实施方式与具体实施方式一的区别是所述步骤三的详细步骤为：首先保持Darknet-53的残差模块，在每个残差模块后面增加一个1×1卷积核，同时在第一个卷积层中使用线性激活函数，然后在残差模块中，调整每个模块中的残差网络层数。

本实施方式在结构上改善传统Darknet-53网络对于手势这样的单类物体检测的结构参数过于复杂和冗余的缺点，具体实施时步骤如下：

1、保持Darknet-53的残差模块，在每个残差模块后面增加一个1×1的卷积核进一步降低输出维度，同时在第一个卷积层中使用线性激活函数来避免低维度卷积层特征图像丢失的问题。

2、在残差模块中，调整每个模块中的残差网络层数，使得残差模块间的连接得到增强，增强特征图的复用性，减少模块间特征的传递损失。

具体实施方式三：本实施方式是对具体实施方式一所述的作进一步说明，本实施方式与具体实施方式一的区别是所述步骤四利用规划区域检测框架完成动态手势跟踪的具体步骤为：首先假设在第t帧图像中检测到有手势目标Object₁，则经过YOLOv3-gesture网络预测输出预测框X₁的中心坐标(b_x,b_y)、预测框宽度b_w和高度b_h；进入第t+1帧后，在第t帧中心点的附近区域生成规划区域进行检测，即在第t+1帧时，输入YOLOv3-gesture网络的大小为规划区域S^*，其中规划区域S^*的宽度S_w和高度S_h取值由预测边框的宽度b_w和b_h决定，则以第t帧中心点为原点，第t+1帧规划区域的左上角顶点(S_x,S_y)公式如下：

具体实施方式四：本实施方式是对具体实施方式一所述的作进一步说明，本实施方式与具体实施方式一的区别是所述步骤五中对YOLOv3-gesture模型进行训练的具体步骤为：首先设置每批训练样本batch为64，一次性送入训练器样本数量subdivisions为16，动量参数设置为0.9，权重衰减正则项为0.0005，初始学习率设置为0.001，采用小批量随机梯度下降的方式进行优化，同时采用多尺度训练的方式来增强算法对不同大小图像检测的鲁棒性。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.一种基于卷积神经网络的动态手势跟踪方法，其特征在于包括以下步骤：

步骤一：将复杂背景下的动态手势跟踪作为视觉任务；

步骤三：确定YOLOv3-gesture手势检测网络结构；

步骤四：利用规划区域检测框架完成动态手势跟踪；

步骤六：利用得到的模型完成动态手势跟踪；

所述步骤四利用规划区域检测框架完成动态手势跟踪的具体步骤为：首先假设在第t帧图像中检测到有手势目标Object₁，则经过YOLOv3-gesture网络预测输出预测框X₁的中心坐标(b_x,b_y)、预测框宽度b_w和高度b_h；进入第t+1帧后，在第t帧中心点的附近区域生成规划区域进行检测，即在第t+1帧时，输入YOLOv3-gesture网络的大小为规划区域S^*，其中规划区域S^*的宽度S_w和高度S_h，则以第t帧中心点为原点，第t+1帧规划区域的左上角顶点(S_x,S_y)公式如下：

其中n为变换尺度，S_w＝3b_w，S_h＝3b_h，若在规划区域中未检测到对象则n+1，规划区域最大为输入完整图像的大小，如果存在多个手势目标，则分别对每个手势目标Object₁规划区域进行检测完成跟踪，b_w和b_h为上一帧预测边框的宽度和高度。

2.根据权利要求1所述的一种基于卷积神经网络的动态手势跟踪方法，其特征在于所述步骤三的详细步骤为：首先保持Darknet-53的残差模块，在每个残差模块后面增加一个1×1卷积核，同时在第一个卷积层中使用线性激活函数，然后在残差模块中，调整每个模块中的残差网络层数。

3.根据权利要求1所述的一种基于卷积神经网络的动态手势跟踪方法，其特征在于所述步骤五中对YOLOv3-gesture模型进行训练的具体步骤为：首先设置每批训练样本batch为64，一次性送入训练器样本数量subdivisions为16，动量参数设置为0.9，权重衰减正则项为0.0005，初始学习率设置为0.001，采用小批量随机梯度下降的方式进行优化，同时进行多尺度训练。