CN114821777A

CN114821777A - 一种手势检测方法、装置、设备及存储介质

Info

Publication number: CN114821777A
Application number: CN202210428524.5A
Authority: CN
Inventors: 李京兵; 李忠磊; 刘励; 毕睿; 吕佳茵; 曹雨; 包宇涵; 徐娇娆; 蔡金芮
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-29

Abstract

本申请涉及计算机视觉技术领域，公开了一种手势检测方法、装置、设备及存储介质，包括：获取待检测图像，并利用基于改进后的神经网络构建的第一检测模型对所述待检测图像中的手部特征进行提取，以得到表征手部位置的手部检测框；其中，所述改进后的神经网络为添加了注意力机制的神经网络；利用第二检测模型对包含手部信息的所述手部检测框中的手部关键节点进行检测，并根据检测结果确定出所述待检测图像中的手势信息。添加注意力机制的第一检测模型较大程度上提高模型手部定位精度，实现在复杂环境下对手部小目标检测的要求。同时，第二检测模型的直接处理对象必定包含手部信息，在此基础上检测手部的关键节点能够降低误检率以提高检测效率。

Description

一种手势检测方法、装置、设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种手势检测方法、装置、设备及存储介质。

背景技术

目前，基于计算机视觉的手势识别被广泛研究，主要方法有熵分析法、基于结构特征的手势识别算法、基于视觉的组合特征进行手势识别、利用AdaBoost分类器进行手势识别、基于表观的手势识别、基于AdaBoost算法和光流匹配的实时手势识别等。

其中，熵分析法从背景复杂的视频流中分割出手势区域并进行手势识别，再使用链码的方法检测手势区域的轮廊，最后计算出从手势区域的质心到轮廓边界的距离。该系统可识别6种手势，平均识别率超过95％，6个人分别做每个手势的识别率平均达到90％-100％。基于结构特征的手势识别算法，通过背景去除、方向检测、拇指检测和手指数量检测，来最终识别手势。基于视觉的组合特征进行手势识别，将手的面积、周长、重心面积比和长宽比等特征结合，使得识别率得以提高。但现有的方法进行识别捕捉手势时通常会遇到以下两种问题：第一是由于人手目标大小不一，无法有效检测不同尺度的目标手势；第二是由于不同手势的相似性，导致部分手势漏检以及误检的问题，识别率不高。

因此，如何提高手势检测的精确度和检测效率是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种手势检测方法、装置、设备及存储介质，能够提高手势检测的精确度和检测效率。其具体方案如下：

本申请的第一方面提供了一种手势检测方法，包括：

获取待检测图像，并利用基于改进后的神经网络构建的第一检测模型对所述待检测图像中的手部特征进行提取，以得到表征手部位置的手部检测框；其中，所述改进后的神经网络为添加了注意力机制的神经网络；

利用第二检测模型对包含手部信息的所述手部检测框中的手部关键节点进行检测，并根据检测结果确定出所述待检测图像中的手势信息。

可选的，所述手势检测方法，还包括：

通过在传统YOLOV5检测网络的特征提取C3模块之后添加卷积注意力模块，以得到所述改进后的神经网络。

可选的，所述卷积注意力模块包括通道注意力子模块和空间注意力子模块；

相应的，所述利用基于改进后的神经网络构建的第一检测模型对所述待检测图像中的手部特征进行提取，以得到表征手部位置的手部检测框，包括：

利用所述第一检测模型中的所述特征提取C3模块对所述待检测图像进行特征提取，以得到第一特征；

将所述第一特征分别输入至所述通道注意力子模块和所述空间注意力子模块进行特征提取，以得到对应的第二特征和第三特征；

将所述第二特征和所述第三特征进行特征融合后与所述第一特征进行点乘运算得到第四特征，并根据所述第四特征得到表征手部位置的所述手部检测框。

可选的，所述手势检测方法，还包括：

获取原始手势图像并对原始手势图像中的手势进行标注，以得到包含所述原始手势图像和相应的样本标签的训练集；

利用所述训练集对基于所述改进后的神经网络构建的空白模型进行训练，以得到所述第一检测模型。

可选的，所述获取原始手势图像之后，还包括：

通过数据增强的方法对获取到的所述原始手势图像进行几何变换，以得到与所述原始手势图像对应的变换手势图像；

对所述变换手势图像中的手势进行标注，以得到包含所述原始图像、所述变换手势图像及相应的样本标签的扩充后训练集。

可选的，所述利用第二检测模型对包含手部信息的所述手部检测框中的手部关键节点进行检测，包括：

将所述手部检测框输入至openpose模型，并利用所述openpose模型中的VggNet网络对所述手部检测框进行特征提取，以得到第五特征；

分别利用所述openpose模型中的置信网络和亲和度网络对所述第五特征进行并行处理；其中，所述置信网络和所述亲和度网络均为多阶段网络，所述置信网络用于检测所述手部关键节点的置信度，所述亲和度网络用于检测所述手部关键节点是否属于同一个手部。

可选的，所述利用第二检测模型对包含手部信息的所述手部检测框中的手部关键节点进行检测之后，还包括：

利用所述第二检测模型输出所述手部关键节点的节点坐标，并根据所述节点坐标确定不同所述手部关键节点之间的距离以根据所述距离对所述手部关键节点进行动态追踪。

本申请的第二方面提供了一种手势检测装置，包括：

定位模块，用于获取待检测图像，并利用基于改进后的神经网络构建的第一检测模型对所述待检测图像中的手部特征进行提取，以得到表征手部位置的手部检测框；其中，所述改进后的神经网络为添加了注意力机制的神经网络；

关键节点检测模块，用于利用第二检测模型对包含手部信息的所述手部检测框中的手部关键节点进行检测，并根据检测结果确定出所述待检测图像中的手势信息。

本申请的第三方面提供了一种电子设备，所述电子设备包括处理器和存储器；其中所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现前述手势检测方法。

本申请的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述手势检测方法。

本申请中，先获取待检测图像，并利用基于改进后的神经网络构建的第一检测模型对所述待检测图像中的手部特征进行提取，以得到表征手部位置的手部检测框；其中，所述改进后的神经网络为添加了注意力机制的神经网络；然后利用第二检测模型对包含手部信息的所述手部检测框中的手部关键节点进行检测，并根据检测结果确定出所述待检测图像中的手势信息。可见，本申请添加了注意力机制的第一检测模型较大程度上提高了模型手部定位精度，实现了在复杂环境下对手部小目标检测的要求。同时，第二检测模型的直接处理对象必定包含手部信息，在此基础上检测手部的关键节点能够降低误检率以提高检测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种手势检测方法流程图；

图2为本申请提供的一种卷积注意力模块结构图；

图3为本申请提供的一种具体的数据增强效果图；

图4为本申请提供的一种第一检测模型改进效果对比图；

图5为本申请提供的一种openpose模型结构图；

图6为本申请提供的一种手势检测装置结构示意图；

图7为本申请提供的一种手势检测电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有手势检测方案在识别捕捉手势时通常会由于人手目标大小不一，无法有效检测不同尺度的目标手势，且由于不同手势的相似性，导致部分手势漏检以及误检的问题，识别率不高。针对上述技术缺陷，本申请提供一种手势检测方案，能够在较大程度上提高了模型手部定位精度，实现在复杂环境下对手部小目标检测的要求，在此基础上检测手部的关键节点能够降低误检率以提高检测效率。

图1为本申请实施例提供的一种手势检测方法流程图。参见图1所示，该手势检测方法包括：

S11：获取待检测图像，并利用基于改进后的神经网络构建的第一检测模型对所述待检测图像中的手部特征进行提取，以得到表征手部位置的手部检测框；其中，所述改进后的神经网络为添加了注意力机制的神经网络。

本实施例中，先获取待检测图像，然后利用基于改进后的神经网络构建的第一检测模型对所述待检测图像中的手部特征进行提取，以得到表征手部位置的手部检测框。其中，所述改进后的神经网络为添加了注意力机制的神经网络。

本实施例中的神经网络采用传统YOLOV5检测网络，通过在传统YOLOV5检测网络的特征提取C3模块之后添加卷积注意力模块，以得到所述改进后的神经网络。所述卷积注意力模块(CBAM，convolutional block attention module)是一种用于前馈卷积神经网络的简单且有效的注意力模块，包括通道注意力子模块(CAM，channel attention module)和空间注意力子模块(SAM，spatial attention module)。它能将给定的特征图依次沿着通道注意力子模块和空间注意力子模块推断出注意力图，然后将输入特征图与注意力图相乘进行自适应特征优化，突出主要特征、抑制无关特征，从而使网络更加关注需要检测目标的内容信息和位置信息，以提高网络的检测精度。提高了目标特征在通道和空间上的联系，更有利于完整地提取目标的有效特征，进而有效解决目标手势的识别问题。

在YOLOV5检测网络的C3模块后引入通道注意力子模块和空间注意力子模块后的网络结构如图2所示。在检测时，先利用所述第一检测模型中的所述特征提取C3模块对所述待检测图像进行特征提取，以得到第一特征；然后将所述第一特征分别输入至所述通道注意力子模块和所述空间注意力子模块进行特征提取，以得到对应的第二特征和第三特征；最后将所述第二特征和所述第三特征进行特征融合后与所述第一特征进行点乘运算得到第四特征，并根据所述第四特征得到表征手部位置的所述手部检测框。如图2所示，Mc表示CBAM模块中的通道注意力，Ms表示空间注意力。给定特征图F，CBAM模块首先将F送入通道注意力模块，通过平均池化和最大池化得到每个通道的信息，并将得到的参数通过多层感知器进行叠加，再经过Sigmoid函数激活，从而得到通道注意力特征Mc(F)，YOLOV5在提取特征过程中无注意力偏好，对不同重要程度的特征采用相同的加权方式。本实施例通过在3个C3模块后分别引入CBAM模块来解决原网络无注意力偏好问题，使网络在检测过程中能够更多的关注兴趣目标。

关于所述第一检测模型，本实施例先获取原始手势图像并对原始手势图像中的手势进行标注，以得到包含所述原始手势图像和相应的样本标签的训练集。采集所需的手势图像，通过自行拍摄以及网络爬取相结合的方式制作数据集，并进行手部节点标注。

一般的，训练图像都属于比较理想的状态，如果碰到一些特殊情况，如遮挡、亮度、模糊等情况容易识别错误。因此，为了避免由于数据集小、识别目标过于简单而导致模型训练时的过拟合问题，提升模型鲁棒性，降低模型对图像的敏感度，还可以对训练数据加上噪声，掩码等方法增加训练数据来提升模型鲁棒性和泛化能力。本实施例具体通过数据增强的方法对获取到的所述原始手势图像进行几何变换，以得到与所述原始手势图像对应的变换手势图像。几何变换类即对图像进行几何变换，包括翻转、旋转、裁剪、变形、缩放等各类操作。除了几何变换类还可以通过颜色变换类进行数据增强，颜色变化类即改变图像的像素分布，包括加椒盐噪声、高斯噪声、进行高斯模糊、调整HSV对比度、调节亮度、饱和度、直方图均衡化、调整白平衡等操作。图3所示为对一张手势图像进行数据增强效果图，在使用数据增强算法后，有效解决了不同尺度手势目标的检测问题，提高了模型的泛化能力。然后对所述变换手势图像中的手势进行标注，以得到包含所述原始图像、所述变换手势图像及相应的样本标签的扩充后训练集。

在此基础上，利用所述训练集对基于所述改进后的神经网络构建的空白模型进行训练，以得到所述第一检测模型。使用上述训练集对改进的YOLOV5检测网络进行训练，得到“YOLOV5-CBAM”网络模型也即所述第一检测模型，训练结果如图4所示。所述第一检测模型其平均精度mAP从53.25％提升至72.89％。相比于未改进之前的网络结构，平均精度提高了19.64％，实现了在复杂环境下对小目标检测的要求。

S12：利用第二检测模型对包含手部信息的所述手部检测框中的手部关键节点进行检测，并根据检测结果确定出所述待检测图像中的手势信息。

本实施例中，利用第二检测模型对包含手部信息的所述手部检测框中的手部关键节点进行检测，并根据检测结果确定出所述待检测图像中的手势信息。所述第二检测模型为openpose模型，openpose模型是自下而上的手部关键点检测算法，其主体网络结构采用VggNet网络作为骨架，之后采用两个分支分别回归关节点的位置S(通过置信网络)以及节点在骨架中的走向L(通过亲和力网络)。

对所述手部检测框中的手部关键节点进行检测的具体过程为：先将所述手部检测框输入至openpose模型，并利用所述openpose模型中的VggNet网络对所述手部检测框进行特征提取，以得到第五特征。然后分别利用所述openpose模型中的置信网络和亲和度网络对所述第五特征进行并行处理。其中，所述置信网络和所述亲和度网络均为多阶段网络，所述置信网络用于检测所述手部关键节点的置信度，所述亲和度网络用于检测所述手部关键节点是否属于同一个手部。也即两分支网络结构是多阶段迭代的，每一个阶段计算一次损失函数，之后把L和S以及通过VggNet网络提取的图像特征连接后继续下一个阶段的训练。其网络结构如图5所示，F是通过VggNet网络提取出的图像的特征，下标1和2分别表示多阶段迭代中的第一阶段和第二阶段。对于整个网络阶段，其过程如下:

其中，ρ^t和φ^t分别表示在阶段t时L和S的卷积神经网络。

如果直接利用openpose模型对所述待检测图像进行手势检测，由于openpose模型是自下而上的，就会带来了一个问题，即openpose模型会在没有手存在的地方检测出关节点，进而出现误检的情况，这样便降低了其检测准确率。因此在openpose模型前先通过改进的YOLOV5检测网络检测所述待检测图像中的手部所在位置，再将此定位信息传入到openpose模型，使得openpose模型处理的图像势必包含手部信息的图像，从而解决现有手部关键节点检测方法识别效率低、检测过程实时性有待提高的问题。

进一步的，本实施例利用所述第二检测模型输出所述手部关键节点的节点坐标，并根据所述节点坐标确定不同所述手部关键节点之间的距离以根据所述距离对所述手部关键节点进行动态追踪。也即首先利用改进的YOLOV5网络模型检测出手部的包围框，将YOLOV5的输出作为轻量级openpose模型的输入实时得到手部关键点坐标，根据不同手部关键点坐标的位置关系，从而识别出不同的手势来对应不同的功能。例如，通过返回手部关键节点坐标以利用不同节点之间的距离来进行动态追踪、在此基础上实现绘画等更多功能。

可见，本申请实施例先获取待检测图像，并利用基于改进后的神经网络构建的第一检测模型对所述待检测图像中的手部特征进行提取，以得到表征手部位置的手部检测框；其中，所述改进后的神经网络为添加了注意力机制的神经网络；然后利用第二检测模型对包含手部信息的所述手部检测框中的手部关键节点进行检测，并根据检测结果确定出所述待检测图像中的手势信息。本申请实施例添加了注意力机制的第一检测模型较大程度上提高了模型手部定位精度，实现了在复杂环境下对手部小目标检测的要求。同时，第二检测模型的直接处理对象必定包含手部信息，在此基础上检测手部的关键节点能够降低误检率以提高检测效率。

参见图6所示，本申请实施例还相应公开了一种手势检测装置，包括：

定位模块11，用于获取待检测图像，并利用基于改进后的神经网络构建的第一检测模型对所述待检测图像中的手部特征进行提取，以得到表征手部位置的手部检测框；其中，所述改进后的神经网络为添加了注意力机制的神经网络；

关键节点检测模块12，用于利用第二检测模型对包含手部信息的所述手部检测框中的手部关键节点进行检测，并根据检测结果确定出所述待检测图像中的手势信息。

在一些具体实施例中，所述手势检测装置还包括：

网络进模块，用于通过在传统YOLOV5检测网络的特征提取C3模块之后添加卷积注意力模块，以得到所述改进后的神经网络；

第一构建模块，用于获取原始手势图像并对原始手势图像中的手势进行标注，以得到包含所述原始手势图像和相应的样本标签的训练集；

第二构建模块，用于通过数据增强的方法对获取到的所述原始手势图像进行几何变换，以得到与所述原始手势图像对应的变换手势图像，并对所述变换手势图像中的手势进行标注，以得到包含所述原始图像、所述变换手势图像及相应的样本标签的扩充后训练集；

模型训练模块，用于利用所述训练集对基于所述改进后的神经网络构建的空白模型进行训练，以得到所述第一检测模型。

在一些具体实施例中，当所述卷积注意力模块包括通道注意力子模块和空间注意力子模块，所述定位模块11，具体包括：

第一提取单元，用于利用所述第一检测模型中的所述特征提取C3模块对所述待检测图像进行特征提取，以得到第一特征；

第二提取单元，用于将所述第一特征分别输入至所述通道注意力子模块和所述空间注意力子模块进行特征提取，以得到对应的第二特征和第三特征；

融合运算单元，用于将所述第二特征和所述第三特征进行特征融合后与所述第一特征进行点乘运算得到第四特征，并根据所述第四特征得到表征手部位置的所述手部检测框。

在一些具体实施例中，所述关键节点检测模块12，具体包括：

第三提取单元，用于将所述手部检测框输入至openpose模型，并利用所述openpose模型中的VggNet网络对所述手部检测框进行特征提取，以得到第五特征；

并行处理单元，用于分别利用所述openpose模型中的置信网络和亲和度网络对所述第五特征进行并行处理；其中，所述置信网络和所述亲和度网络均为多阶段网络，所述置信网络用于检测所述手部关键节点的置信度，所述亲和度网络用于检测所述手部关键节点是否属于同一个手部。

在一些具体实施例中，所述手势检测装置还包括：

坐标输出模块，用于利用所述第二检测模型输出所述手部关键节点的节点坐标，并根据所述节点坐标确定不同所述手部关键节点之间的距离以根据所述距离对所述手部关键节点进行动态追踪。

进一步的，本申请实施例还提供了一种电子设备。图7是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图7为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的手势检测方法中的相关步骤。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的手势检测方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的图像信息等。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的手势检测方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的手势检测方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种手势检测方法，其特征在于，包括：

2.根据权利要求1所述的手势检测方法，其特征在于，还包括：

3.根据权利要求2所述的手势检测方法，其特征在于，所述卷积注意力模块包括通道注意力子模块和空间注意力子模块；

4.根据权利要求1所述的手势检测方法，其特征在于，还包括：

5.根据权利要求4所述的手势检测方法，其特征在于，所述获取原始手势图像之后，还包括：

6.根据权利要求1所述的手势检测方法，其特征在于，所述利用第二检测模型对包含手部信息的所述手部检测框中的手部关键节点进行检测，包括：

7.根据权利要求1至6任一项所述的手势检测方法，其特征在于，所述利用第二检测模型对包含手部信息的所述手部检测框中的手部关键节点进行检测之后，还包括：

8.一种手势识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；其中所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的手势检测方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至7任一项所述的手势检测方法。