CN113191421A

CN113191421A - 一种基于Faster-RCNN的手势识别系统及方法

Info

Publication number: CN113191421A
Application number: CN202110463348.4A
Authority: CN
Inventors: 高天寒; 杨镇豪
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-07-30

Abstract

本发明公开了一种基于Faster‑RCNN的手势识别系统及方法，属于计算机视觉技术领域。系统包括：单目摄像机，用于采集实时手势图像并将其发送给客户端；客户端，用于对每一手势图像进行处理以捕捉手部轮廓，累积一定数量的经过所述处理并且标注了手势类别的手势图像形成手势图像数据集，并将该手势图像数据集发送给服务器端；得到所述手势图像数据集以后，将经过所述处理的实时手势图像发送给服务器端；服务器端，用于使用手势图像数据集对Faster‑RCNN进行训练得到手势识别模型；通过训练好的手势识别模型从所接收的实时手势图像中对用户的实时手势进行识别。仅需使用单目摄像机采集用户手势，即可实现高准确度的手势识别，同时解决了单台计算机运算资源消耗大的问题。

Description

一种基于Faster-RCNN的手势识别系统及方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于Faster-RCNN的手势识别系统及方法。

背景技术

手势识别技术是用户与虚拟现实场景交互的重要方法，手势可定义为手部的动作姿势，可以被计算机跟踪并获得其所包含的信息，转换为有意义的指令。手势识别技术常用于基于体感交互的虚拟现实应用，在用户与虚拟现实场景进行交互时，计算机需要获得并识别用户的手势，并将用户手部的位姿信息同步到虚拟现实场景中，与场景中的对象产生交互。

现有的手势识别方法大多数采用数据手套、深度摄像机或单目摄像机来获取用户手势。数据手套是通过内置在手套中的传感器来采集手势数据的设备，主要使用惯性传感器、光纤传感器、光学传感器来获取用户手势，但使用惯性传感器的数据手套容易受到磁场干扰，且容易出现零点漂移问题；使用光纤传感器的数据手套由于光纤传感器在手指上的布置过于复杂，当用户手型差距过大时表现效果较差；使用光学传感器的数据手套存在红外定位点易丢失的问题。深度摄像机使用双目立体视觉成像原理，使用双目摄像头来捕捉用户手势，建立手部的立体模型，由于需要使用双目摄像头，所以深度摄像机比单目摄像机的成本要高。使用单目摄像机获取用户手势的成本较低，但面临手势识别效果受复杂背景影响导致准确率较低、对单台计算机运算资源消耗较大的问题。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种基于Faster-RCNN的手势识别系统及方法，仅需使用单目摄像机捕捉用户手势，即可实现高准确度的手势识别，使用户可以通过手势与虚拟场景进行交互，同时解决单台计算机运算资源消耗较大的问题。

为解决上述技术问题，本发明第一方面提供一种基于Faster-RCNN的手势识别系统，该系统包括：

单目摄像机，用于采集实时的手势图像，并将实时手势图像发送给客户端；

客户端，用于对接收的每一手势图像进行处理以捕捉手部轮廓，并且累积一定数量的经过所述处理并且标注了手势类别的手势图像形成手势图像数据集，并将该手势图像数据集发送给服务器端；得到所述手势图像数据集以后，将经过所述处理的实时手势图像直接发送给服务器端；

服务器端，用于使用手势图像数据集对Faster-RCNN进行训练得到手势识别模型；通过训练好的手势识别模型从所接收的实时手势图像中对用户的实时手势进行识别。

本发明另一方面提供一种基于Faster-RCNN的手势识别方法，包括如下步骤：

步骤S1：开启单目摄像机采集手势图像的视频流；

步骤S2：客户端开始读取获得的视频流，并对视频流的画面进行裁剪得到手势图像，保存到本地；

步骤S3：在客户端对每一手势图像进行处理以捕捉手部轮廓，并且累积一定数量的经过所述处理并且标注了手势类别的手势图像形成手势图像数据集，并将该手势图像数据集发送给服务器端；得到所述手势图像数据集以后，将经过所述处理的实时手势图像直接发送给服务器端；

步骤S4：在服务器端，使用步骤S3得到的手势图像数据集对Faster-RCNN进行训练得到手势识别模型；

步骤S5：在服务器端，使用步骤S4得到的手势识别模型从步骤S3得到的用户实时手势图像中对用户的实时手势进行识别，识别出手势类别和手势位置。

进一步地，根据所述的基于Faster-RCNN的手势识别方法，所述步骤S3中所述的在客户端对每一手势图像进行处理，包括如下步骤：

步骤S31：使用双边滤波的方法对图像进行处理；

步骤S32：使用背景差分法进行运动区域检测，对获取的当前图像帧和背景图像帧进行差分运算，即对前景图像和背景图像进行点对点相减，将手势与背景区分开；

步骤S33：对无背景的手势图像进行图像腐蚀处理，再使用经过腐蚀处理后得到的蒙版与原始图像进行“与”操作，使手部图像边缘更加清晰；

步骤S34：使用高斯滤波方法对步骤S33得到的图像进行滤波处理，以抑制噪声和平滑图像；

步骤S35：使用自适应阈值分割方法将运动区域与背景区域分割开。

进一步地，根据所述的基于Faster-RCNN的手势识别方法，所述步骤S4进一步包括如下步骤：

步骤S41：在卷积层提取特征图，使用一组卷积层、激活层以及池化层提取输入图像的特征图，该特征图用于后续的RPN层和全连接层；

步骤S42：使用RPN生成手势检测框，对生成的边框进行裁剪滤波，通过softmax函数进行二分类，判断其是否属于手势，若是，则使用边框回归对边框进行修正，形成候选区域，若否则返回步骤S41；

步骤S43：使用感兴趣区域池化来收集候选区域，计算出候选区域的特征图；

步骤S44：使用分类器将感兴趣区域池化层形成固定大小的特征图进行全连接操作，利用softmax函数进行具体手势类别的分类，同时，利用L1损失函数完成边框回归操作，获得手势的位置。

进一步地，根据所述的基于Faster-RCNN的手势识别方法，所述步骤S41中卷积层为13层，激活层为13层，池化层为4层。

本发明提出的基于Faster-RCNN的手势识别系统及方法，与现有技术相比较具有如下有益效果：

1)可以获得无复杂背景的手势数据。在提取用户手势图片的部分，使用双边滤波、基于背景差分法、使用边缘检测、自适应阈值分割、腐蚀等图像处理方法对单目相机捕捉的手部图像进行处理，更好地消除手势图像复杂的背景，从而得到无复杂背景的手势数据。

2)提高了手势识别的准确率和模型的适用性。使用Faster-RCNN模型训练集进行训练，在训练RPN时使用扰动交叠率算法来避免过拟合，并在获取手势数据集和识别手势时均对手势图片进行去除背景的图像处理操作，提高了对手势图片进行分类的准确率和适用性。

3)降低了系统对单台计算机的计算性能要求。整个手势识别系统被拆分为客户端和服务器端，部署于两台计算机，由服务器端负责运算功能，客户端负责显示和交互功能，减少了对单台计算机性能的需求，提高了运算的效率，使用Socket通讯技术对客户端和服务器端之间传递手势分类信息以及位置信息，有效地实现了用户与虚拟场景进行高效准确的人机交互。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实例提供的基于Faster-RCNN的手势识别系统的结构示意图；

图2为本发明实例提供的基于Faster-RCNN的手势识别方法流程图；

图3为本发明方法中对图像进行背景差分处理的流程图；

图4为本发明方法中对Faster-RCNN进行训练的训练过程示意图；

图5为本发明实例提供的使用用户手势信息控制对象与虚拟场景交互的示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

由于用户通过手势与虚拟场景进行交互的过程对单台计算机的性能要求较高，所以本发明提供的基于Faster-RCNN(Faster Region Based Convolutional NeuralNetworks，敏捷区域卷积神经网络)的手势识别方法及系统中，包括了客户端和服务器端，以降低对单台计算机的性能要求。在客户端进行手势图片的处理，使用双边滤波以及基于背景差分法的运动目标跟踪方法对手部图像进行预处理，捕捉手部区域并剔除复杂的背景，制作数据集；使用边缘检测、自适应阈值分割方法提取手部轮廓，使用腐蚀方法进行图像处理使得手部轮廓细节更加丰富。并通过Socket通信的方式将手势图片传输给服务器端，在服务器端进行手势识别模型的训练以及通过手势识别模型对实时手势的识别、分类，并将分类的结果传输给客户端的虚拟现实场景中，触发对应的事件，实现用户与虚拟场景的交互。

图1是本实施方式的基于Faster-RCNN的手势识别系统的结构示意图，所述基于Faster-RCNN的手势识别系统包括：

客户端，用于搭建和运行虚拟现实场景；对接收的手势图像进行处理以捕捉手部轮廓；在前期，累积一定数量的经过所述处理并且标注了手势类别的手势图像形成手势图像数据集，并将该手势图像数据集发送给服务器端；得到所需的手势图像数据集后的后期，将经过所述处理的实时手势图像直接发送给服务器端；接收服务器端发送的手势识别结果信息，并根据手势识别结果信息对虚拟场景中的对象以及虚拟场景的运行逻辑进行控制，包括根据手势识别结果信息中给出的手势类别在虚拟现实场景中触发对应的事件，以及根据手势识别结果信息中给出的手势位置信息控制虚拟场景中对象的运动朝向；

服务器端，用于使用手势图像数据集对Faster-RCNN进行训练得到手势识别模型；通过训练好的手势识别模型从所接收的实时手势图像中对用户的实时手势进行识别，并将手势识别结果信息发送给客户端。所述手势识别结果信息，包括所识别出的实时手势的手势类别和手势位置信息。

图2是本实施方式的基于Faster-RCNN的手势识别方法，所述基于Faster-RCNN的手势识别方法包括以下步骤：

步骤1：在客户端使用Unity搭建虚拟场景：使用UGUI制作交互界面，使用Q-MAZE生成地形，为虚拟场景中的模型添加所需的碰撞体，并使用环境图像素材制作虚拟场景的自然背景；

步骤2：开启单目摄像机采集手势图像的视频流；

步骤3：客户端开始读取获得的视频流，并对视频流的画面进行裁剪得到手势图像，保存到本地，间隔设置为5帧；

步骤4：在客户端对每一手势图像进行处理以捕捉手部轮廓，并且累积一定数量的经过所述处理并且标注了手势类别的手势图像形成手势图像数据集，并将该手势图像数据集发送给服务器端；得到所述手势图像数据集以后，将经过所述处理的实时手势图像直接发送给服务器端；

可选地，在录制手势图像数据集时尽可能选择手指重合度低、特征明显、有辨识度的手势，并在录制的过程中尽可能变换不同的角度和位置。

可选地，在录制手势图像数据集时每种手势的收集数量不宜太少，例如超过200张。

所述在客户端对每一手势图像进行处理以捕捉手部轮廓中的所述处理，包括如下步骤：

步骤4.1：使用双边滤波的方法对图像进行处理，平衡图像的空间邻近度和像素值相似度，同时考虑空域信息和灰度相似性，可以达到保持边缘、降噪平滑的效果，双边滤波的公式如下：

其中，g(i,j)代表输出点；S(i,j)是以(i，j)为中心的奇数*奇数(例如5*5)大小的范围；f(k，l)代表输入点；w(i,j,k，l)代表经过两个高斯函数计算出的值；(i，j)、(k，l)分别指两个像素点的坐标。

步骤4.2：使用式(2)所示的背景差分法进行运动区域检测，对获取的当前图像帧和背景图像帧进行差分运算，即对前景图像和背景图像进行点对点相减，将手势与复杂的背景区分开，背景差分法的步骤如图3所示，首先获得帧序列，然后依次对每帧图像进行边缘提取、差分二值化，并对相邻帧图像进行与运算，再对当前帧图像进行背景的更新，获得背景图像并对其进行差分二值化，把当前帧图像的二值化的结果和背景图像的二值化的结果进行或运算和形态学处理得到前景图像，即得到无复杂背景的手势图像。

R(i,j)＝F(i,j)-G(i,j) (2)

其中，(i,j)代表像素点的坐标；R(i,j)是经过背景差分法处理得到的图像；F(i,j)是当前图像帧；G(i，j)是背景图像帧。

步骤4.3：对无复杂背景的手势图像进行图像腐蚀处理，再使用经过腐蚀处理后得到的蒙版与原始图像进行“与”操作，使手部图像边缘更加清晰，手部图像细节更容易辨别。

步骤4.4：使用高斯滤波方法对步骤4.3得到的图像进行滤波处理，达到抑制噪声和平滑图像的作用。

高斯函数如公式(2)所示,其中σ为标准差，由于高斯滤波器使用高斯函数的模板系数随着距离模板中心的大小成反比，所以使用高斯滤波能尽小地减少图像的模糊程度。

步骤4.5：最后使用自适应阈值分割方法将运动区域与背景区域分割开；

对步骤4.4得到的滤波处理后的图像进行二值化处理得到手部运动区域的灰度图，对灰度图进行自适应阈值化操作提取运动区域，根据图像的光线变化改变阈值，灰度阈值对应的计算方法如公式(3)、公式(4)所示：

其中，T为某个灰度阈值；ΔT为动态阈值，λ为根据具体环境情况设置的常数系数，ΔT的数值随光线变化幅度成正比，从而可降低光线变化产生的影响；F(i，j)和g(i，j)分别为前景图像和背景图像。

步骤5：在服务器端，使用步骤4得到的手势图像数据集对Faster-RCNN进行训练得到手势识别模型，对Faster-RCNN进行训练的训练过程如图4所示，包括：首先训练VGG模型；在已经训练好的VGG模型的基础上，训练RPN网络；利用训练好的RPN网络收集候选区域框；对Fast-RCNN网络进行第一次训练；对RPN网络进行第二次训练；使用第二次训练好的RPN网络进行候选区域框的收集；再次训练Fast-RCNN网络。

由于使用的数据集图像数量较少，在训练时容易发生过拟合，所以在对RPN网络进行训练时，使用扰动交叠率的方法产生扰动标签，使损失层产生噪声，在RPN网络反向传播的阶段可以传播损失层产生的噪声梯度，交叠率(IoU)的大小的判别公式为：

其中N为迭代的次数，I服从伯努利分布,计算的公式如下：

其中，

α是噪声率，α＝10％时可以达到较高的准确率。

步骤6：在服务器端，使用步骤5得到的手势识别模型从步骤4得到的用户实时手势图像中对用户的实时手势进行识别，识别出手势类别和手势位置。

步骤6.1：在卷积层(Conv layers)提取特征图，使用一组卷积层、激活层以及池化层提取输入图像的特征图,该特征图用于后续的RPN层和全连接层。在本实施方式中，卷积层为13层，激活层为13层，池化层为4层。设卷积公式为：

其中，kernel_size为1D卷积窗口的长度，设置为3；pad为填充“0”的圈数，设置为1；stride为步长，设置为1；input_size与output_size为输入输出图像的大小。

步骤6.2：使用RPN生成手势检测框，对生成的边框(Anchor box)进行裁剪滤波，通过归一化指数函数(softmax)进行二分类，判断其是否属于手势，若是，则使用边框回归(bounding box regression)对边框(Anchor box)进行修正，形成较为准确的候选区域(proposal)，若否则返回步骤6.1；

步骤6.3使用感兴趣区域池化(ROI Pooling)来收集候选区域(proposal)，计算出候选区域的特征图(proposal feature maps)。根据输入的图像，将感兴趣区域(ROI)映射到特征图(feature map)对应位置，将映射后的区域划分为相同大小的部分，对每个部分进行最大池化(max pooling)操作。

步骤6.4：使用分类器(Classifier)将感兴趣区域池化层(ROI Pooling Layer)形成固定大小的特征图进行全连接操作，利用softmax函数进行具体手势类别的分类，同时，利用L1损失函数(L1 Loss)完成边框回归(bounding box regression)操作，获得手势的精确位置。

步骤7：在客户端对手势的类别和位置进行实时显示，且实现人机交互：根据手势类别在虚拟现实场景中触发对应的事件，如图5所示，以及根据手势位置信息控制虚拟场景中对象的运动朝向。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于Faster-RCNN的手势识别系统，其特征在于，该系统包括：

2.采用权利要求1所述的基于Faster-RCNN的手势识别系统的基于Faster-RCNN的手势识别方法，其特征在于，包括：

步骤S1：开启单目摄像机采集手势图像的视频流；

3.根据权利要求2所述的基于Faster-RCNN的手势识别方法，其特征在于，步骤S3中所述的在客户端对每一手势图像进行处理，包括如下步骤：

步骤S31：使用双边滤波的方法对图像进行处理；

4.根据权利要求2所述的基于Faster-RCNN的手势识别方法，其特征在于，所述步骤S4进一步包括如下步骤：

5.根据权利要求4所述的基于Faster-RCNN的手势识别方法，其特征在于，所述步骤S41中卷积层为13层，激活层为13层，池化层为4层。