CN106960175A

CN106960175A - 基于深度卷积神经网络的第一视角动态手势检测方法

Info

Publication number: CN106960175A
Application number: CN201710093766.2A
Authority: CN
Inventors: 金连文; 程卓; 张鑫; 黄毅超; 李晨阳
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-02-21
Filing date: 2017-02-21
Publication date: 2017-07-18
Anticipated expiration: 2037-02-21
Also published as: CN106960175B

Abstract

本发明公开了本发明公开了基于深度卷积神经网络的第一视角动态手势检测方法，包括步骤：采集不同环境下的具有复杂背景的数字手势图片，人工标记出手势在所述数字手势图片中的外接矩形；设计一个深度卷积神经网络，利用卷积计算进行特征提取，在特征图上预测和滑窗操作得到不同尺寸的候选框，将候选框和真实值进行损失计算并误差反传；利用已标记外接矩形的手指手势图片训练所述深度卷积神经网络，使得深度卷积神经网络收敛且参数稳定；输入第一视角的动态手势视频，将视频拆分成一帧帧图片，检测出图片中手势外接矩形位置的坐标点。与现有技术相比，本发明能准确地检测复杂背景、不同光线下的视频中动态手势。

Description

基于深度卷积神经网络的第一视角动态手势检测方法

技术领域

本发明涉及计算机视觉及机器学习领域，尤其涉及基于深度卷积神经网络的第一视角动态手势检测方法。

背景技术

经过几次计算机革命之后，如今的生活变得更加智能及简单，从而人机交互在生活中体现出越来越重要的地位，成为这个正在改变的世界中绝不可缺少的角色。如今可穿戴设备越来越受到人们的广泛关注，而手势可作为一个自然的交互连接通道，使得计算机和人的沟通更加容易，所以第一视角下的手势交互在人机交互中具有重要的意义。手势交互的技术主要涉及手势的检测，在一个自然场景下，检测出手势所在的区域外接矩形。目标物体检测大致分为传统算法和机器学习算法。传统算法检测复杂场景，不同肤色，不同光线，低像素下的动态手势，不能得到满意的结果。而近十多年机器学习掀起热潮，在目标检测方面能够得到惊人的效果。基于深度卷积神经网络算法能够在复杂背景，不同肤色，不同光线，模糊图像，复杂手势等等无法约束的条件下提取图片的特征信息。

发明内容

为克服现有技术的不足，通过输入手势视频流，进入深度卷积神经框架进行目标手势检测，本发明提出基于深度卷积神经网络的第一视角动态手势检测方法。

本发明的技术方案是这样实现的，基于深度卷积神经网络的第一视角动态手势检测方法，包括步骤

S1：采集不同环境下的具有复杂背景的数字手势图片，利用标记工具，人工标记出手势在所述数字手势图片中的外接矩形，保存所述外接矩形的左下角和右上角的坐标点；

S2：设计一个深度卷积神经网络，其输入为三通道的手势图片，利用卷积计算提取每张手势图片的特征信息，得到多张特征图片，在特征图片上进行滑窗操作，提取多个不同长宽比的候选框，同时在特征图片上预测手势外接矩形的坐标，并用特征图存储预测的候选框位置信息，将提出的候选框和预测的候选框于真实值进行阈值计算，去除重叠率低的候选框，将剩下的候选框与真实值进行匹配得到匹配到手存在的候选框，然后将匹配到手存在的候选框与真实值进行损失计算，利用随机梯度下降，得到反向传播残差；

S3：利用已标记外接矩形的数字手势图片训练所述深度卷积神经网络，使得深度卷积神经网络收敛且参数稳定；

S4：在训练完成的深度卷积神经网络的模型中输入第一视角的动态手势视频，将视频拆分成一帧帧图片，检测出图片中手势外接矩形位置的坐标点。

进一步地，步骤S1包括步骤

S11：将摄像头置于眼睛附近，采集不同场景、不同光照、不同手势、不同肤色下的动态手势视频；

S12：将所述动态手势视频拆分为一帧帧的图片，每十秒采集一帧图片作为图片数据样本；

S13：使用标记工具，人工对采集到的图片进行外接矩形标注，记录手势所在外接矩形的左上角和右下角坐标；

S14：对坐标点进行归一化处理。

进一步地，步骤S2中特征图片上进行滑窗操作提取的候选框的长宽比包括但不限于1:1、1:2和2:1。

进一步地，步骤S2中所述去除重叠率低的候选框是去除重叠率小于0.3的候选框。

进一步地，步骤S2中将匹配到手存在的候选框与真实值进行损失计算包括步骤：通过欧氏距离公式计算提取到候选框的四维坐标向量与真实值的四维坐标向量的坐标偏移量。

进一步地，步骤S3包括步骤

S31：反向传播残差；

S32：利用已标记外接矩形的数字手势图片通过迭代更新深度卷积神经网络的参数，对深度卷积神经网络进行优化，使得深度卷积神经网络收敛；

S33：深度卷积神经网络稳定后，得到并记录每一层深度卷积神经网络的权值参数。

更进一步地，步骤S4包括步骤

S41：将摄像头放置于眼睛周围，拍摄不同的手势视频；

S42：将手势视频拆分成一帧帧图片，将图片作为深度卷积神经网络前向操作的输入，在深度卷积神经网络的输入层进行可视化处理；

S43：将可视化处理得到的四维坐标向量进行反归一化处理，得到手势区域的外接矩形坐标，并在图片上描画出手势区域的外接矩形；

S43：将拆分并描画了外接矩形的图片合成视频，检测出手势所在位置的外接矩形。

本发明的有益效果在于，与现有技术相比，本发明采用人工标注手势外接矩形左上角，右下角坐标，并且对坐标进行归一化处理，能够使后续的训练有较为准确的训练样本以及任意尺寸的原图；本发明采用在特征图上滑窗的方式，提取不同长宽比的候选框，达到提取特征图上每个位置的候选框目的；本发明采用候选框与真实值进行匹配的方法，达到了区分候选框中是否存在手势的目的；本发明采用深度卷积神经网络算法检测手势，达到了复杂背景，不同光线下准确检测视频中动态手势的目的。

附图说明

图1是本发明基于深度卷积神经网络的第一视角动态手势检测方法流程图；

图2a是本发明中人工标注外接矩形的一个实施例示意图；

图2b是本发明中人工标注外接矩形的另一个实施例示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明主要用于解决复杂场景下第一视角的动态手势实时检测的问题，利用深度卷积神经网络提取数据高维和低维的特征信息，通过在这些特征信息中提取和预测多个候选框，阈值处理后将这些候选框与真实值进行位置损失计算，将计算得到的残差进行网络的反向传播。

请参见图1，本发明基于深度卷积神经网络的第一视角动态手势检测方法，包括步骤

S4：在训练完成的深度卷积神经网络的模型中输入第一视角的动态手势视频，检测出图片中手势外接矩形位置的坐标点。

其中步骤S1包括步骤

S11：将摄像头置于眼睛附近采集动态手势视频。在不同场景，不同的光照，不同的手势，不同的肤色下大量采集；

S12：处理数据，将所有视频拆分为一帧帧图片，十秒间隔采集一帧图片作为数据样本；

S13：人工对每一帧图片进行标注，找到手势所在图片中的外接矩形并记录手势所在区域的左上角(x_min,y_min)和右下角(x_max,y_max)的坐标，如图2所示；

S14：坐标点进行归一化处理后，任意改变原图的尺寸，手势外接矩形相对图片的位置任不会改变。方法为：根据图片的尺寸大小(h*w)，将两个坐标点进行归一化处理，用坐标x除以图片的长，坐标y除以图片的宽，归一化后的坐标为(x/h,y/w)，将此归一化后的坐标作为真实值与图片名字配对并存储。

步骤S2包括步骤

S21：设计一个深度卷积神经网络，输入为三通道(RGB通道)的手势图片，利用卷积计算去提取每张图片的特征信息，得到多张特征图片，

卷积计算公式为：

其中x_i是神经元的输入，W_i是与每个神经元相乘的权值，b是偏置，y是下一层神经元的输出；

S22：其一在若干的特征图上进行滑窗操作，提取多个不同长宽比(1:1,1:2,2:1)的候选框；

S23：其二在若干特征图上预测手势外接矩形的坐标，并且用特征图来存储预测出的候选框位置信息；

S24：将提取的和预测的候选框与真实值进行阈值计算，去除重叠率小于0.3的候选框：

阈值计算公式：

其中当y＝1的时，表示候选框与真实值的重叠率大于0.3,保存此候选框，而y＝0时，将此候选框丢弃；

S25：提取和预测的候选框与真实值进行匹配，若候选框匹配到手存在，则将框标为正样本(表示框中有手存在)，其余视为负样本；

S26：位置的损失计算：通过欧氏距离公式计算提取和预测候选框(输出的四维坐标向量)与真实值(输入的四维坐标向量)的坐标偏移量。欧式距离公式：

S27：损失计算后利用随机梯度下降，得到反向传播的残差为:

步骤S3包括步骤

S31：反向传播每次得到的残差；

S32：通过大量的数据并且多次迭代更新网络参数，对网络进行优化，网络收敛；

S33：网络参数趋于稳定，得到每一层网络的权值参数。

步骤S4包括步骤

S41：将摄像头放置在眼睛周围，模拟眼睛去拍摄不同的手势视频作为测试集样本。视频拆分成一帧帧图片(frame)，进入网络进行前向操作，在网络的输出层进行可视化，记为函数G,

G(frame)＝(x_min,y_min,x_max,y_max)

S42：将得到的四维坐标向量进行反归一化操作后，(x_min,y_min)为外接矩形左上角的坐标，(x_max,y_max)为外接矩形右上角的坐标，描画到原图上，能够得到手势区域的外接矩形；

S43：将一帧帧图像合成视频，能够动态的检测出手势所在位置，并且标注出手势外接矩形(检测出手势所在位置)。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.基于深度卷积神经网络的第一视角动态手势检测方法，其特征在于，包括步骤

2.如权利要求1所述的基于深度卷积神经网络的第一视角动态手势检测方法，其特征在于，步骤S1包括步骤

S14：对坐标点进行归一化处理。

3.如权利要求1所述的基于深度卷积神经网络的第一视角动态手势检测方法，其特征在于，步骤S2中特征图片上进行滑窗操作提取的候选框的长宽比包括但不限于1:1、1:2和2:1。

4.如权利要求1所述的基于深度卷积神经网络的第一视角动态手势检测方法，其特征在于，步骤S2中所述去除重叠率低的候选框是去除重叠率小于0.3的候选框。

5.如权利要求1所述的基于深度卷积神经网络的第一视角动态手势检测方法，其特征在于，步骤S2中将匹配到手存在的候选框与真实值进行损失计算包括步骤：通过欧氏距离公式计算提取到候选框的四维坐标向量与真实值的四维坐标向量的坐标偏移量。

6.如权利要求2所述的基于深度卷积神经网络的第一视角动态手势检测方法，其特征在于，步骤S3包括步骤

S31：反向传播残差；

S32：利用已标记外接矩形的手指手势图片通过迭代更新深度卷积神经网络的参数，对深度卷积神经网络进行优化，使得深度卷积神经网络收敛；

7.如权利要求1所述的基于深度卷积神经网络的第一视角动态手势检测方法，其特征在于，步骤S4包括步骤

S41：将摄像头放置于眼睛周围，拍摄不同的手势视频；

S42：将手势视频拆分成一帧帧图片，并将图片作为深度卷积神经网络前向操作的输入，在深度卷积神经网络的输入层进行可视化处理；