CN109684959B

CN109684959B - 基于肤色检测和深度学习的视频手势的识别方法及装置

Info

Publication number: CN109684959B
Application number: CN201811534444.8A
Authority: CN
Inventors: 种衍文; 黄瀚文; 潘少明; 李红
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2021-08-03
Anticipated expiration: 2038-12-14
Also published as: CN109684959A

Abstract

本发明提供了一种基于肤色检测和深度学习的视频手势的识别方法及装置，其中的方法获取视频数据后，通过预设皮肤色彩特征分割模型进行肤色判别后，分割出皮肤区域，并得到二值化图像，然后对二值化图像进行轮廓提取，提取出手部轮廓，再利用预设手势识别模型对提取出的手部轮廓进行识别。实现了提高手势识别的效率以及精度的技术效果。

Description

基于肤色检测和深度学习的视频手势的识别方法及装置

技术领域

本发明涉及手势识别技术领域，具体涉及一种基于肤色检测和深度学习的视频手势的识别方法及装置。

背景技术

视频是一种常见的数据类型，而手势则是一种人类常用的肢体语言。近年来，随着计算机视觉和机器学习等相关学科的发展，人机交互技术在人们日常生活中扮演着越来越重要的角色。而人机交互作为计算机科学研究领域中的一个重要组成部分，其发展历程己历经了半个多世纪，并且取得了很多成果。相比于传统的计算机鼠标键盘交互方式，人机交互可以给用户更加方便、快捷、舒适的交互体验。

由于人机交互具有多方面的优点，各种交互技术近年来不断出现，包括表情、手势、动作等交互技术。在这些交互方式中，手势具有方便、直接的特点，因而手势识别也成为了研究的热点领域。手势作为一种符合人类日常交流习惯的表达方式，人们在日常生活中通常会辅以手势来传达一些信息或表达某种的意图。而手势则包括静态手势和动态手势两种类型。起初数据手套成为了研究的热点，用户只需要带上手套并完成手势，计算机就可以根据手指的位置、角度等信息来判断用户的手势，这种方法虽然精度较高，但是用户在使用过程中十分不便，严重影响了手势的自然性，同时数据手套的成本也较高，而且可以识别的手势数量也较少，这导致了其难以被大范围推广。基于数据手套的这些限制，光学标记法诞生了。该方法也可提供良好的识别效果，但仍需较为复杂的设备。使用设备直接检测用户手势的方式虽然使得手势识别的准确度和稳定性得到了提高，但却限制了手势的自然表达方式，而这本身就是手势识别的一大优点，因此这种方法也未能取得令人满意的效果。

而近代才出现的基于视觉的手势识别系统，相比于穿戴设备或光学标记手势识别系统，其能够使操作者不需要佩戴任何设备、以更加自然的方式进行人机交互，同时也能获得较高的精度。这种方法将视频采集设备拍摄到的用户图像信息传输给计算机，然后通过计算机视觉技术进行处理，进而对手势进行识别。这种方法的优势在于：设备成本相对低，而且用户在操作时基本不会受到限制和束缚，给予了用户方便且舒适的交互方式。因此这就成为了手势识别未来的发展趋势，即在自然场景下基于视觉来进行手势识别。

本发明申请人在实施本发明的过程中，发现现有基于视觉的手势识别方法，至少存在如下技术问题：很少采用经验信息，且手势识别效率低、识别精度不高。

发明内容

有鉴于此，本发明提供了一种基于肤色检测和深度学习的视频手势的识别方法及装置，用以解决或者至少部分解决现有技术的方法存在的手势识别效率低、识别精度不高的技术问题。

本发明第一方面提供了一种基于肤色检测和深度学习的视频手势的识别方法，包括：

步骤S1：获取视频数据，所述视频数据由RGB图像构成；

步骤S2：基于预设皮肤色彩特征分割模型，对视频数据进行逐帧处理，分割出皮肤区域，并对皮肤区域对应的图像进行二值化，获得二值化图像；

步骤S3：从二值化图像中提取出手部轮廓；

步骤S4：基于预设手势识别模型对提取出的手部轮廓进行识别，其中，预设手势识别模型由已有的训练数据，采用金字塔池化模块搭配注意力机制训练得到，其中，已有的训练数据包含所需要判别的所有手势类型，金字塔池化模块搭配注意力机制通过增加感受野对手势类型进行细节分类。

在一种实施方式中，步骤S2具体包括：

步骤S2.1：通过预设肤色皮肤色彩特征分割模型，将符合预设条件的区域作为皮肤区域，其中，预设条件为RGB图像的R值大于85、R-B值大于10且R-G值大于10；

步骤S2.2：对皮肤区域对应的图像进行二值化处理，获得二值化图像。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：从二值化图像中检索出所有轮廓；

步骤S3.2：从所有轮廓中选取出面积最大的两个轮廓；

步骤S4.3：从面积最大的两个轮廓中提取出手部轮廓。

在一种实施方式中，步骤S4.3具体包括：

根据选取出的面积最大的两个轮廓的形状和/或高度，提取出手部轮廓。

在一种实施方式中，根据选取出的面积最大的两个轮廓的形状和/或高度，提取出手部轮廓，具体包括：

从选取出的面积最大的两个轮廓中，选取出轮廓高度低于另一个轮廓，且点到重心的最大距离与所有点到重心的平均距离的比值为阈值的轮廓，作为手部轮廓。

在一种实施方式中，预设手势识别模型包括卷积层、最大池化层、瓶颈块、全连接层和分类层，步骤S4具体包括：

步骤S4.1：通过卷积层和最大池化层，将提取出的手部轮廓对应的原始图像转化为第一特征图，其中，第一特征图的图像大小为原始图像的大小的1/2；

步骤S4.2：通过对应的瓶颈块分别对第一特征图进行处理，得到大小分别为原始图像大小的1/4，1/8，1/16，1/32的四个不同尺度的特征图；

步骤S4.3：采用注意力机制逐层将上一尺度大小的特征图通过池化层进行下采样，再经过一层激活函数为sigmoid的卷积层，将其作为下一尺度特征图的权重；

步骤S4.4：将4×4的特征图展开为一维向量，并通过包全连接层和分类层，得到手势识别结果。

基于同样的发明构思，本发明第二方面提供了一种基于肤色检测和深度学习的视频手势的识别装置，包括：

视频数据获取模块，用于获取视频数据，所述视频数据由RGB图像构成；

皮肤区域分割模块，用于基于预设皮肤色彩特征分割模型，对视频数据进行逐帧处理，分割出皮肤区域，并对皮肤区域对应的图像进行二值化，获得二值化图像；

手部轮廓提取模块，用于从二值化图像中提取出手部轮廓；

手部识别模块，用于基于预设手势识别模型对提取出的手部轮廓进行识别，其中，预设手势识别模型由已有的训练数据，采用金字塔池化模块搭配注意力机制训练得到，其中，已有的训练数据包含所需要判别的所有手势类型，金字塔池化模块搭配注意力机制通过增加感受野对手势类型进行细节分类。

在一种实施方式中，皮肤区域分割模块具体用于执行下述步骤：

在一种实施方式中，手部轮廓提取模块具体用于执行下述步骤：

步骤S3.1：从二值化图像中检索出所有轮廓；

步骤S3.2：从所有轮廓中选取出面积最大的两个轮廓；

步骤S4.3：从面积最大的两个轮廓中提取出手部轮廓。

基于同样的发明构思，本发明第三方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

在本发明提供的方法，通过基于预设皮肤色彩特征分割模型，对视频数据进行逐帧处理，分割出皮肤区域后进行二值化，并从二值化图像中提取出手部轮廓；再基于预设手势识别模型对提取出的手部轮廓进行识别，获得手势识别结果。首先，本发明采用了预设皮肤色彩特征分割模型来分割皮肤区域，考虑了人体皮肤的色彩特性，可以准确分割出皮肤区域，为手势识别奠定了基础；并且基于二值化图像的轮廓进行手部区域的提取和分析，缩短了计算时间；进而采用预设手势识别模型对提取出的手部轮廓进行识别，该手势识别模型是采用金字塔池化模块搭配注意力机制训练得到的，可以通过金字塔池化模块搭配注意力机制通过增加感受野对手势类型进行细节分类，从而达到提高手势效率以及手势识别精度的技术效果。

进一步地，通过预设肤色皮肤色彩特征分割模型，将符合预设条件的区域作为皮肤区域，即通过对人类皮肤肤色进行研究，找出了一种可以分离出人类皮肤的标准，缩短了获取皮肤区域所需的时间，进一步提高了识别效果。

进一步地，并利用人体手和脸形状及位置特征剔除脸部的干扰，达到了较高的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于肤色检测和深度学习的视频手势的识别方法的流程图；

图2为一种实施方式中预设手势识别模型进行手势识别的网络结构图；

图3为一种实施方式中预设手势识别模型中瓶颈块Bottleneck block结构图；

图4为一种实施方式中预设手势识别模型准确率图；

图5为一种实施方式中手势识别网络损失图；

图6为本发明实施例中的识别结果示意图；

图7为本发明实施例中基于肤色检测和深度学习的视频手势的识别装置的结构框图；

图8为本发明实施例中计算机设备的结构图。

具体实施方式

本发明的目的在于针对现有的基于视觉的手势识别方法在识别效率和识别精度上的不足，提供了一种基于肤色检测和深度学习的视频手势的识别方法。该方法将获取的视频数据通过肤色判别后得到二值化图像，然后对二值化图像进行轮廓提取，再利用预设手势识别模型对手部轮廓进行分类，得到手势识别的结果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于肤色检测和深度学习的视频手势的识别方法，请参见图1，该方法包括：

首先执行步骤S1：获取视频数据，所述视频数据由RGB图像构成。

具体来说，可以利用摄像头等设备获取视频数据，识别数据的分辨率根据设备的配置而变化，例如可以为1280*720。RGB图像是数码图像中最重要的一个模式，RGB模式是相加的模式，当R、G、B的值都达到最大值时，三色合成为白色。

然后执行步骤S2：基于预设皮肤色彩特征分割模型，对视频数据进行逐帧处理，分割出皮肤区域，并对皮肤区域对应的图像进行二值化，获得二值化图像。

具体来说，预设皮肤色彩特征分割模型，预先对已获取的数据经过大量实验后得到，用于区分皮肤颜色和背景颜色。

在一种实施方式中，步骤S2具体包括：

具体来说，在充分考虑人体皮肤的色彩特性，通过对人类皮肤肤色进行研究后，本发明找出了一种可以分离出人类皮肤的标准，即RGB图像的各个值处于预设范围内的即为人体肤色。在RGB空间内进行肤色识别相比于YCbCr等空间，不需要再进行额外的色彩空间转换，速度快，运算量少。作为优选，判别皮肤区域的标准如下：

R>85

R-B>10

R-G>10

符合预设条件的区域即为皮肤区域，其余部分则为背景区域。然后基于此标准对图像进行二值化。从而可以缩短获取人体区域所需的时间，为逐帧手势识别打下了基础。

接下来执行步骤S3：从二值化图像中提取出手部轮廓。

具体来说，可以根据手部轮廓的特征从二值化图像中提取出手部轮廓。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：从二值化图像中检索出所有轮廓；

步骤S3.2：从所有轮廓中选取出面积最大的两个轮廓；

步骤S4.3：从面积最大的两个轮廓中提取出手部轮廓。

具体来说，分割出的肤色区域中一般包含两块面积较大的区域，分别为头部和手部，即轮廓大小可以成为辨别区域类型的因素。同时，通过比较大小也可以去除噪音以及其他干扰区域。

在具体的实施过程中，可以利用OpenCV(Open Source Computer Vision Library一个基于BSD许可(开源)发行的跨平台计算机视觉库)内置的cvFindContours函数，从二值图像中检索出轮廓。并通过OpenCV的contourArea函数计算轮廓的面积，再从中选出两个面积最大的轮廓。

具体地，cvFindContours函数从二值图像中检索轮廓，并返回检测到的轮廓的个数。first_contour的值由函数填充返回，它的值将为第一个外轮廓的指针，当没有轮廓被检测到时为NULL。其它轮廓可以使用h_next和v_next连接，从first_contour到达。

其中，函数原型为findContours(InputOutputArray image,OutputArrayOfArrays contours,OutputArray hierarchy,int mode,int method,Pointoffset＝Point())。

findContours函数包括六个参数：

第一个参数：image，单通道图像矩阵，可以是灰度图，但更常用的是二值图像，一般是经过Canny、拉普拉斯等边缘检测算子处理过的二值图像；

第二个参数：contours，定义为“vector<vector<Point>>contours”，是一个向量，并且是一个双重向量，向量内每个元素保存了一组由连续的Point点构成的点的集合的向量，每一组Point点集就是一个轮廓。有多少轮廓，向量contours就有多少元素。

第三个参数：hierarchy，定义为“vector<Vec4i>hierarchy”，其中，Vec4i的定义如下：

typedef Vec<int,4>Vec4i；

Vec4i是Vec<int,4>的别名，定义了一个“向量内每一个元素包含了4个int型变量”的向量。所以从定义上看，hierarchy也是一个向量，向量内每个元素保存了一个包含4个int整型的数组。向量hiararchy内的元素和轮廓向量contours内的元素是一一对应的，向量的容量相同。

hierarchy向量内每一个元素的4个int型变量——hierarchy[i][0]～hierarchy[i][3]，分别表示第i个轮廓的后一个轮廓、前一个轮廓、父轮廓、内嵌轮廓的索引编号。如果当前轮廓没有对应的后一个轮廓、前一个轮廓、父轮廓或内嵌轮廓的话，则hierarchy[i][0]～hierarchy[i][3]的相应位被设置为默认值-1。

第四个参数：int型的mode，定义轮廓的检索模式：

取值一：CV_RETR_EXTERNAL只检测最外围轮廓，包含在外围轮廓内的内围轮廓被忽略

取值二：CV_RETR_LIST检测所有的轮廓，包括内围、外围轮廓，但是检测到的轮廓不建立等级关系，彼此之间独立，没有等级关系，这就意味着这个检索模式下不存在父轮廓或内嵌轮廓，所以hierarchy向量内所有元素的第3、第4个分量都会被置为-1。

取值三：CV_RETR_CCOMP检测所有的轮廓，但所有轮廓只建立两个等级关系，外围为顶层，若外围内的内围轮廓还包含了其他的轮廓信息，则内围内的所有轮廓均归属于顶层

取值四：CV_RETR_TREE，检测所有轮廓，所有轮廓建立一个等级树结构。外层轮廓包含内层轮廓，内层轮廓还可以继续包含内嵌轮廓。

第五个参数：int型的method，定义轮廓的近似方法：

取值一：CV_CHAIN_APPROX_NONE保存物体边界上所有连续的轮廓点到contours向量内

取值二：CV_CHAIN_APPROX_SIMPLE仅保存轮廓的拐点信息，把所有轮廓拐点处的点保存入contours向量内，拐点与拐点之间直线段上的信息点不予保留

取值三和四：CV_CHAIN_APPROX_TC89_L1，

CV_CHAIN_APPROX_TC89_KCOS使用teh-Chinl chain近似算法

第六个参数：Point偏移量，所有的轮廓信息相对于原始图像对应点的偏移量，相当于在每一个检测出的轮廓点上加上该偏移量，并且Point还可以是负值。

步骤S4.3具体包括：

具体地，根据选取出的面积最大的两个轮廓的形状和/或高度，提取出手部轮廓。

具体来说，由于用户在使用程序的时候，手部的高度是会低于头部的，利用这个特点可以很好的区分手部和头部两个轮廓。最后手部和脸部的区域形状也可以用作区分手部和头部的依据，由于脸部形状一般为椭圆形，而手势的形状则会较为不规则，因而可以通过点到重心的最大距离与所有点到重心的平均距离的比值来判别。其中，点为待判定轮廓对应的所有点，重心为该轮廓的重心。

在具体的实施过程中，阈值可以根据实际经验来设置，例如为1.3、1.2等等。综上，可以总结出区手部轮廓的特点：

(1)大小一般是最大或次大(另一轮廓一般为头部)

(2)高度一般低于头部

(3)所有点到轮廓重心的最大距离除以轮廓所有点到重心的平均距离的值大于1.3。

再执行步骤S4：基于预设手势识别模型对提取出的手部轮廓进行识别，其中，预设手势识别模型由已有的训练数据，采用金字塔池化模块搭配注意力机制训练得到，其中，已有的训练数据包含所需要判别的所有手势类型，金字塔池化模块搭配注意力机制通过增加感受野对手势类型进行细节分类。

具体来说，已有的训练数据为人工选择勾画得到的一定数量的已知样本，这些样本包含所需要判别的所有手势类型。由于目前的基于视觉的手势识别方法，在细节方面的处理效果不好，识别精度不够高，从而本发明提供了一种金字塔池化模块搭配注意力机制的卷积神经网络，通过有在手工标注的数据上的监督训练，可以自动从宏观和细节上捕捉提取多尺度特征，通过引入自注意力机制，可以通过全局平均池化得到的全局感受野获取不同通道的权重信息，以此来增强有效特征并抑制无用特征，进而达到提高识别效率和识别精度的技术效果。

具体来说，请参图2，为通过手势识别模型进行手势识别的网络结构图，其中，原始图像的大小为128×128，1/2代表为原始图像的1/2大小，即64×64，也就是第一特征图，同理，图中1/4，1/8，1/16，1/32图像大小分别为32×32，16×16，8×8和4×4的四个不同尺度的特征图，乘号表示对特征图矩阵对应元素进行的乘法运算。

接下来，介绍瓶颈块Bottleneck block的结构图，请参见图3，“H，W，C”分别表示特征图的高度、宽度和通道。F1、F2、F3表示卷积核的个数。加号表示对特征图矩阵对应元素进行的加法运算。通过Bottleneck block的处理，可以得到不同尺度的特征图。

一张128×128的原始图像经过一个7×7的卷积层和最大池化层得到64×64的第一特征图；然后经过Bottleneck block之后得到分别32×32、16×16、8×8和4×4四个不同尺度的特征图；进而采用注意力机制逐层将上一尺度大小的特征图通过池化层下采样，并经过一层激活函数为sigmoid的卷积层，进而将其作为下一尺度特征图的权重。最后，将4×4的特征图展开为一维向量经过一个包含512个神经元的全连接层和9个神经元的分类层得到最终识别结果。请参见图6，为本实施例的手势识别结果示意图。

本发明实施方式还对本发明的预设手势识别模型的准确性进行了测试，预先获取已有的训练数据，并将其按照比例划分为训练集和测试集，请参见图4，为预设手势识别模型准确率图，其中acc为模型在训练集的准确率，val_acc为模型在测试集的准确率，可以看出本发明的模型在训练集上可以达到90％以上的准确率。图5为手势识别网络损失图，其中loss为模型在训练集的损失，val_loss为模型在测试集的损失。

总体来说，本发明中采用的预设手势识别模型，不仅可以快速得到不同感受野的特征图，同时将高分辨率的特征图进行全局平均池化，进而通过1*1卷积进行通道降维，将其作为邻近低分辨率特征通道的权重，能够有效指导抽象特征的形成。经过在我们手势数据上的大量实验表明，该结构能够在加速网络收敛的同时提高识别的准确率。

基于同一发明构思，本申请还提供了与实施例一中基于肤色检测和深度学习的视频手势的识别方法对应的装置，详见实施例二。

实施例二

本实施例提供了一种基于肤色检测和深度学习的视频手势的识别装置，请参见图7，该装置包括：

视频数据获取模块201，用于获取视频数据，所述视频数据由RGB图像构成；

皮肤区域分割模块202，用于基于预设皮肤色彩特征分割模型，对视频数据进行逐帧处理，分割出皮肤区域，并对皮肤区域对应的图像进行二值化，获得二值化图像；

手部轮廓提取模块203，用于从二值化图像中提取出手部轮廓；

手部识别模块204，用于基于预设手势识别模型对提取出的手部轮廓进行识别，其中，预设手势识别模型由已有的训练数据，采用金字塔池化模块搭配注意力机制训练得到，其中，已有的训练数据包含所需要判别的所有手势类型，金字塔池化模块搭配注意力机制通过增加感受野对手势类型进行细节分类。

步骤S3.1：从二值化图像中检索出所有轮廓；

步骤S3.2：从所有轮廓中选取出面积最大的两个轮廓；

步骤S4.3：从面积最大的两个轮廓中提取出手部轮廓。

在一种实施方式中，手部轮廓提取模块还用于：

在一种实施方式中，预设手势识别模型包括卷积层、最大池化层、瓶颈块、全连接层和分类层，手部识别模块204具体用于执行下述步骤：

由于本发明实施例二所介绍的装置，为实施本发明实施例一中基于肤色检测和深度学习的视频手势的识别方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本申请还提供了一种计算机设备，请参见图8，包括存储601、处理器602及存储在存储器上并可在处理器上运行的计算机程序603，处理器602执行上述程序时实现实施例一中的方法。

举例来说，该计算机设备可以是PC机、平板电脑、手机等智能设备，该计算机设备具有图像识别装置即可，例如摄像头、图像传感器等。

由于本发明实施例三所介绍的计算机设备为实施本发明实施例一中基于肤色检测和深度学习的视频手势的识别方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于肤色检测和深度学习的视频手势的识别方法，其特征在于，包括：

步骤S1：获取视频数据，所述视频数据由RGB图像构成；

步骤S3：从二值化图像中提取出手部轮廓；

步骤S4：基于预设手势识别模型对提取出的手部轮廓进行识别，其中，预设手势识别模型由已有的训练数据，采用金字塔池化模块搭配注意力机制训练得到，其中，已有的训练数据包含所需要判别的所有手势类型，金字塔池化模块搭配注意力机制通过增加感受野对手势类型进行细节分类；

其中，步骤S3具体包括：

步骤S3.1：从二值化图像中检索出所有轮廓；

步骤S3.2：从所有轮廓中选取出面积最大的两个轮廓；

步骤S3.3：从面积最大的两个轮廓中提取出手部轮廓；

预设手势识别模型包括卷积层、最大池化层、瓶颈块、全连接层和分类层，步骤S4具体包括：

步骤S4.4：将4×4的特征图展开为一维向量，并通过包全连接层和分类层，得到手势识别结果；

具体地，一张128×128的原始图像经过一个7×7的卷积层和最大池化层得到64×64的第一特征图；然后经过Bottleneck block之后得到分别32×32、16×16、8×8和4×4四个不同尺度的特征图；进而采用注意力机制逐层将上一尺度大小的特征图通过池化层下采样，并经过一层激活函数为sigmoid的卷积层，进而将其作为下一尺度特征图的权重，最后，将4×4的特征图展开为一维向量经过一个包含512个神经元的全连接层和9个神经元的分类层得到最终识别结果；

其中，步骤S3.3具体包括：

根据选取出的面积最大的两个轮廓的形状和/或高度，提取出手部轮廓；

根据选取出的面积最大的两个轮廓的形状和/或高度，提取出手部轮廓，具体包括：

2.如权利要求1所述的方法，其特征在于，步骤S2具体包括：

3.基于肤色检测和深度学习的视频手势的识别装置，其特征在于，包括：

手部轮廓提取模块，用于从二值化图像中提取出手部轮廓；

手部识别模块，用于基于预设手势识别模型对提取出的手部轮廓进行识别，其中，预设手势识别模型由已有的训练数据，采用金字塔池化模块搭配注意力机制训练得到，其中，已有的训练数据包含所需要判别的所有手势类型，金字塔池化模块搭配注意力机制通过增加感受野对手势类型进行细节分类；

其中，手部轮廓提取模块具体用于执行下述步骤：

步骤S3.1：从二值化图像中检索出所有轮廓；

步骤S3.2：从所有轮廓中选取出面积最大的两个轮廓；

步骤S3.3：从面积最大的两个轮廓中提取出手部轮廓；

预设手势识别模型包括卷积层、最大池化层、瓶颈块、全连接层和分类层，手部识别模块具体用于执行下述步骤：

其中，步骤S3.3具体包括：

4.如权利要求3所述的装置，其特征在于，皮肤区域分割模块具体用于执行下述步骤：

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至2中任一项权利要求所述的方法。