CN114153308B

CN114153308B - 手势控制方法、装置、电子设备及计算机可读介质

Info

Publication number: CN114153308B
Application number: CN202010936008.4A
Authority: CN
Inventors: 刘宝龙; 古鉴; 邵柏韬
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2023-11-21
Anticipated expiration: 2040-09-08
Also published as: CN114153308A

Abstract

本申请实施例提供了一种手势控制方法、装置、电子设备及计算机可读介质，涉及人工智能领域。其中,所述方法包括：对采集的视频帧图像进行基础特征提取，以获得视频帧图像的基础特征信息，其中，视频帧图像包括手部图像和手部连接部位的图像；基于视频帧图像的基础特征信息，获取手部连接部位的图像中的手部连接部位的特征信息；基于视频帧图像的基础特征信息和手部连接部位的特征信息，识别手部图像中的手部所对应的手势类别；基于手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。通过本申请实施例，能够利用手部连接部位的特征信息识别手部所对应的手势，在节省手势识别的计算量和存储空间的同时保证手势识别的准确度。

Description

手势控制方法、装置、电子设备及计算机可读介质

技术领域

本申请实施例涉及人工智能领域，尤其涉及一种手势控制方法、装置、电子设备及计算机可读介质。

背景技术

随着计算机技术的发展，人机交互技术也得到了迅猛发展。目前较为成熟的人机交互方式具体包括：语音交互方式、手势交互方式、触控交互方式等。这些人机交互方式被应用于实现日常的功能，如音量、亮度、饱和度、温度、风速等参数的调节功能。目前，手势交互方式由于比较自然方便，在很多应用场景中具有很大的需求。在手势交互方式中需要进行手势识别。当前主流方案一般都是多阶段方法，例如，会包含人手检测模型、人手分类模型、人手跟踪模型等，这种方案的缺陷在于，计算量过大，占用存储空间太大，从而不适用于存储空间较少、计算能力非常受限的设备。由此可见，如何有效节省手势交互方式中手势识别的计算量和存储空间成为当前亟待解决的技术问题。

发明内容

本申请的目的在于提出一种手势控制方法、装置、电子设备及计算机可读介质，用于解决现有技术中存在的如何有效节省手势交互方式中手势识别的计算量和存储空间的技术问题。

根据本申请实施例的第一方面，提供了一种手势控制方法。所述方法包括：对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括手部图像和手部连接部位的图像；基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。

根据本申请实施例的第二方面，提供了一种控制方法，所述方法包括：对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括脚部图像和脚部连接部位的图像；基于所述视频帧图像的基础特征信息，获取所述脚部连接部位的图像中的脚部连接部位的特征信息；基于所述视频帧图像的基础特征信息和所述脚部连接部位的特征信息，识别所述脚部图像中的脚部所对应的类别；基于所述脚部所对应的类别，输出对应的设备控制信号对设备进行控制操作。

根据本申请实施例的第三方面，提供了一种手势控制方法。所述方法包括：将采集的视频帧图像输入至手势识别模型中，所述手势识别模型包括卷积模块、视觉注意力模块和手势类别识别模块，其中，所述视频帧图像包括手部图像和手部连接部位的图像；其中，所述卷积模块用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息；所述视觉注意力模块用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；所述手势类别识别模块用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；获取所述手势识别模型输出的所述手部图像中的手部所对应的手势类别；基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。

根据本申请实施例的第四方面，提供了一种手势控制装置。所述装置包括：第一提取模块，用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括手部图像和手部连接部位的图像；第一获取模块，用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；第一识别模块，用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；第一输出模块，用于基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。

根据本申请实施例的第五方面，提供了一种手势控制装置。所述装置包括：输入模块，用于将采集的视频帧图像输入至手势识别模型中，所述手势识别模型包括卷积模块、视觉注意力模块和手势类别识别模块，其中，所述视频帧图像包括手部图像和手部连接部位的图像；其中，所述卷积模块用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息；所述视觉注意力模块用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；所述手势类别识别模块用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；第二获取模块，用于获取所述手势识别模型输出的所述手部图像中的手部所对应的手势类别；第二输出模块，用于基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。

根据本申请实施例的第六方面，提供了一种控制装置，所述装置包括：第二提取模块，用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括脚部图像和脚部连接部位的图像；第四获取模块，用于基于所述视频帧图像的基础特征信息，获取所述脚部连接部位的图像中的脚部连接部位的特征信息；第二识别模块，用于基于所述视频帧图像的基础特征信息和所述脚部连接部位的特征信息，识别所述脚部图像中的脚部所对应的类别；第三输出模块，用于基于所述脚部所对应的类别，输出对应的设备控制信号对设备进行控制操作。

根据本申请实施例的第七方面，提供了一种电子设备，包括：一个或多个处理器；计算机可读介质，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例的第一方面或者第三方面所述的手势控制方法，或者实现如上述实施例的第二方面所述的控制方法。

根据本申请实施例的第八方面，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例的第一方面或者第三方面所述的手势控制方法，或者实现如上述实施例的第二方面所述的控制方法。

根据本申请实施例提供的手势控制方案，对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括手部图像和手部连接部位的图像；基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作，与现有的其它方式相比，能够利用手部连接部位的特征信息识别手部所对应的手势，在节省手势交互方式中手势识别的计算量和存储空间的同时能有效保证手势交互方式中手势识别的准确度，从而使得本申请实施例提供的手势控制方案适用于存储空间较少、计算能力非常受限的设备。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1A为本申请实施例一中手势控制方法的步骤流程图；

图1B为根据本申请实施例一提供的手势的示意图；

图1C为根据本申请实施例一提供的手势的示意图；

图1D为根据本申请实施例一提供的手势控制流程的示意图；

图1E为根据本申请实施例一提供的手势控制方法的应用场景的示意图；

图2为本申请实施例二中控制方法的步骤流程图；

图3A为本申请实施例三中手势控制方法的步骤流程图；

图3B为根据本申请实施例三提供的手势识别模型的结构示意图；

图4为本申请实施例四中手势控制装置的结构示意图；

图5为本申请实施例五中手势控制装置的结构示意图；

图6为本申请实施例六中手势控制装置的结构示意图；

图7为本申请实施例七中控制装置的结构示意图；

图8为本申请实施例八中电子设备的结构示意图；

图9为本申请实施例九中电子设备的硬件结构。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅配置为解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参照图1A，示出了本申请实施例一的手势控制方法的步骤流程图。

具体地，本实施例提供的手势控制方法包括以下步骤：

在步骤S101中，对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息。

在本实施例中，所述视频帧图像包括手部图像和手部连接部位的图像。其中，手部是人或者动物的肢体部分。手部图像是包括手部，且手部区域占图像区域占比高的图像。所述手部连接部位可理解为距离人体手部较近，且与所述人体手部具有相似特征的人体部位，例如，手腕、胳膊、人脸等，这些人体部位往往较人体手部要更大，为手部对应的手势的识别提供了额外的线索，利用这些线索可以更好地对手部对应的手势进行识别。相应地，所述手部连接部位的图像可包括手腕图像、胳膊图像、人脸图像等。可选地，所述手部图像和所述手部连接部位的图像位于所述视频帧图像中的手势标记区域。其中，所述手势标记区域可理解为预先配置的用于手势识别的标记区域。当用户的手部图像和手部连接部位的图像位于手势标记区域时，便可进行手势识别。具体地，当终端设备的视频应用程序调用所述终端设备的图像采集装置采集视频帧图像时，所述终端设备的显示装置显示所述图像采集装置采集的所述视频帧图像，并在所述手部图像和所述手部连接部位的图像位于所述视频帧图像中的手势标记区域时，对采集的所述视频帧图像进行基础特征提取。籍此，不仅能够使得后续的手势识别更准确，而且还能够使得后续的手势识别的计算量更低。所述基础特征提取可理解为高维的且抽象的视觉特征提取。所述视频帧图像的基础特征信息可包括所述视频帧图像的基础特征向量或者特征图等。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，所述基础特征信息包括特征图。在对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息时，对所述视频帧图像进行不同尺度的基础特征提取，以获得所述视频帧图像的多个不同尺度的特征图；所述对采集的视频帧图像进行基础特征提取之后，所述方法还包括：对所述视频帧图像的多个不同尺度的特征图进行特征融合，以获得所述视频帧图像的融合后的特征图。籍此，通过对所述视频帧图像的多个不同尺度的特征图进行特征融合，能够获得精确并且鲁棒的图像特征。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，在对所述视频帧图像进行不同尺度的基础特征提取时，可通过不同特征提取尺度的卷积层，对所述视频帧图像进行不同尺度的基础特征提取，以获得所述视频帧图像的多个不同尺度的特征图。在对所述视频帧图像的多个不同尺度的特征图进行特征融合，以获得所述视频帧图像的融合后的特征图时，通过特征金字塔的方式，对所述视频帧图像的多个不同尺度的特征图进行特征融合，以获得所述视频帧图像的融合后的特征图。籍此，通过特征金字塔的方式，对所述视频帧图像的多个不同尺度的特征图进行特征融合，能够获得更精确并且更鲁棒的图像特征。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在步骤S102中，基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息。

在本实施例中，所述基础特征信息包括特征图，且所述手部连接部位的特征信息包括所述手部连接部位的关键点的特征信息。例如，手腕的关键点的特征信息、胳膊的关键点的特征信息、人脸的关键点的特征信息等。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，在基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息时，对所述视频帧图像的特征图进行感兴趣区域的池化操作，以将所述感兴趣区域映射到所述特征图中得到所述手部连接部位的关键点的特征信息；基于所述手部连接部位的关键点的特征信息，确定所述手部连接部位的关键点的权重；基于所述手部连接部位的关键点的特征信息和权重，确定所述手部连接部位的关键点的加权后的特征信息。籍此，通过手部连接部位的关键点的特征信息，对手部连接部位的关键点进行加权处理，进而能够弱化图像中的非显著性关键点，并突出图像中的显著性关键点，有效提高了手部连接部位的关键点的特征信息的准确性和合理性，从而有利于提升手势识别的效果。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，在基于所述手部连接部位的关键点的特征信息，确定所述手部连接部位的关键点的权重时，对所述手部连接部位的关键点的特征向量进行降维处理，以获得所述手部连接部位的关键点对应的特征标量；对所述手部连接部位的关键点对应的特征标量进行归一化处理，以获得所述手部连接部位的关键点对应的特征标量的权重。在对所述手部连接部位的关键点的特征向量进行降维处理，以获得所述手部连接部位的关键点对应的特征标量时，将所述手部连接部位的关键点的特征向量输入至输出维度为1维的全连接层，根据所述全连接层的输出确定所述手部连接部位的关键点对应的特征标量。其中，所述特征标量是用于表征特征大小的物理量。在对所述手部连接部位的关键点对应的特征标量进行归一化处理，以获得所述手部连接部位的关键点对应的特征标量的权重时，可以对所述手部连接部位的关键点对应的特征标量进行L1范数、L2范数或softmax(称为归一化指数函数)函数的归一化处理。在基于所述手部连接部位的关键点的特征信息和权重，确定所述手部连接部位的关键点的加权后的特征信息时，可以将所述手部连接部位的关键点的特征信息和权重进行点乘(即计算出数量积)，以获得所述手部连接部位的关键点的加权后的特征信息。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在步骤S103中，基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别。

在本实施例中，所述手势是由用户通过手部做出的，在被采集后用于在设备上触发相应指令的动作形态。手势类型是采集的视频帧图像中的手部所对应的手势的形状。由于用户可通过手部的五个手指灵活地做出各种不同的手势，因此，设备可对不同的手势进行区分，识别出图像中的手势的手势类别。如图1B所示，图像中的手势的手势类别为“单个食指指向”。如图1C所示，图像中的手势的手势类别为“竖直的手掌”。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，所述基础特征信息包括特征图，且所述手部连接部位的特征信息包括所述手部连接部位的关键点的特征信息。在基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别时，将所述视频帧图像的特征图与所述手部连接部位的关键点的特征向量进行拼接，以获得所述视频帧图像的拼接后的特征图；基于所述视频帧图像的拼接后的特征图，识别所述手部图像中的手部所对应的手势类别。籍此，通过所述视频帧图像的特征图与所述手部连接部位的关键点的特征向量拼接后的特征图，能够有效识别所述手部图像中的手部所对应的手势类别。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，在基于所述视频帧图像的拼接后的特征图，识别所述手部图像中的手部所对应的手势类别时，可通过手势识别模型中的手势类别识别模块，基于所述视频帧图像的拼接后的特征图，识别所述手部图像中的手部所对应的手势类别。其中，所述手势识别模型可以是任意适当的可实现特征提取的神经网络模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等等。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，所述方法还包括：基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势的位置。籍此，通过所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，能够有效识别所述手部图像中的手部所对应的手势的位置。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，所述手部图像中的手部所对应的手势的位置可为所述手部图像中的手部所对应的手势所在的矩形区域。该矩形区域可以是包括整个手势的最小矩形区域，该矩形区域还可以是包围手势的轮廓的区域。例如，以图像左下角像素为原点构建直角坐标系来说明，得到包围框四元坐标组为(10，15，60，95)。假定包围框坐标的前二维元素表示手势位置的左下方端点像素相对于原点的X方向像素偏移和Y方向像素偏移，那么就可以确定包围框四个端点像素的坐标分别(10，15)、(70，15)、(70，110)和(10、110)，根据这四个端点像素的坐标就可以确定手势位置。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，所述基础特征信息包括特征图，且所述手部连接部位的特征信息包括所述手部连接部位的关键点的特征信息。在基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势的位置时，将所述视频帧图像的特征图与所述手部连接部位的关键点的特征向量进行拼接，以获得所述视频帧图像的拼接后的特征图；基于所述视频帧图像的拼接后的特征图，识别所述手部图像中的手部所对应的手势的位置。籍此，通过所述视频帧图像的特征图与所述手部连接部位的关键点的特征向量拼接后的特征图，能够有效识别所述手部图像中的手部所对应的手势的位置。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，在基于所述视频帧图像的拼接后的特征图，识别所述手部图像中的手部所对应的手势的位置时，可通过手势识别模型中的手势位置识别模块，基于所述视频帧图像的拼接后的特征图，识别所述手部图像中的手部所对应的手势的位置。其中，所述手势识别模型可以是任意适当的可实现特征提取的神经网络模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等等。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在步骤S104中，基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。

在一些可选实施例中，在基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作时，基于预先配置的手势类别与设备控制信号的对应关系，确定与所述手势类别对应的设备控制信号，并输出对应的设备控制信号对设备进行控制操作。籍此，通过预先配置的手势类别与设备控制信号的对应关系，能够确定与手势类别对应的设备控制信号，并输出对应的设备控制信号对设备进行控制操作。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，可预先配置“OK”手势与视频播放控制信号对应，“手掌”手势与视频暂停控制信号对应。当所述手部所对应的手势类别为“OK”手势时，确定与所述手势类别对应的设备控制信号为视频播放控制信号。当所述手部所对应的手势类别为“手掌”手势时，确定与所述手势类别对应的设备控制信号为视频暂停控制信号。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，如图1D所示，手势控制流程包括：1、系统初始化。具体地，对设备的相机角度、分辨率、位置进行设定，并预先配置设备控制信号和手势类别的对应关系。例如，“OK”手势代表“播放”，“手掌”手势代表“暂停”等。2、视频流获取。通过系统初始化，确保能通过设备拿到当前相机设置下的视频流，作为本方案手势控制的输入。3、基础特征提取。基础特征提取通过手势识别模型的卷积模块完成。该模块的作用在于对输入图像进行高维、抽象视觉特征提取。通过特征金字塔的形式将不同输出尺度的特征图进行融合，从而获得更精确更鲁棒的卷积特征。此处需要采用经过设计的超轻量网络结构，并且需要进行必要的结构调整及压缩、剪枝及低比特量化，以使其适用于存储空间少，且计算能力受限的设备。4、手部连接部位的特征信息的获取。手部连接部位是指，手一般长“人”身上，而且距离人体特定的部位(如手腕、胳膊、人脸)较近，同时与这些部位可能会有相近的颜色。这些人体或人体部位往往较手要更大，为手势的识别提供了额外的线索，利用这些线索，可以更好的对手势进行识别。在具体实现上，可以利用人体上半身的姿势关键点作为该模块的一个监督信号，该模块可以作为一个视觉注意力(attention)模块，把这些手部连接部位的特征信息内嵌进整个网络，从而，在不增加组件个数(整个方案是只有一个模型)的情况下，指导模型获取手部区域以外的手部连接部位的特征信息，增强识别能力。5、人手位置与类别。利用前述步骤3和步骤4获取的信息，通过两个神经网络分支，同时得到手势的位置和类别信息。6、设备控制信号。如果当前识别的手势类别和预先配置的设备控制信号匹配，则作为一个设备控制信号进行输出。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，如图1E所示，终端设备开启摄像头采集包括手部图像的视频帧图像。然后，对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，并基于所述视频帧图像的基础特征信息，获取所述视频帧图像中的手部连接部位的图像中的手部连接部位的特征信息，再基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别，最后基于所述手部所对应的手势类别，输出对应的绘画指令在设备的绘画应用程序中绘制“心形”。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在实际应用中，本实施例提供的手势控制方案可应用于存储空间较少，且计算能力受限的设备，例如，物联网(The Internet of Things，简称IOT)设备。这样，物联网设备在不使用遥控器、激光笔及触摸屏幕的情况下，通过手势控制方案实现在一定距离下使用特定的手势动作进行电视、智能音箱等智能设备操作控制(如视频播放的快进、暂停，上一页、下一页，音量大小调节等)。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

通过本申请实施例提供的手势控制方法，对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括手部图像和手部连接部位的图像；基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作，与现有的其它方式相比，能够利用手部连接部位的特征信息识别手部所对应的手势，在节省手势交互方式中手势识别的计算量和存储空间的同时能有效保证手势交互方式中手势识别的准确度，从而使得本申请实施例提供的手势控制方案适用于存储空间较少、计算能力非常受限的设备。

本实施例提供的手势控制方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、眼镜、手表、可穿戴设备、虚拟显示设备或显示增强设备等。

参照图2，示出了本申请实施例二的控制方法的步骤流程图。

具体地，本实施例提供的控制方法包括以下步骤：

在步骤S201中，对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息。

在本实施例中，所述视频帧图像包括脚部图像和脚部连接部位的图像。脚部是人或者动物的肢体部分。脚部图像是包括脚部，且脚部区域占图像区域占比高的图像。所述脚部连接部位可理解为距离人体脚部较近，且与所述人体脚部具有相似特征的人体部位，例如，脚背、脚踝、脚趾等，这些人体部位往往较人体脚部要更细，为脚部对应的类别的识别提供了额外的线索，利用这些线索可以更好地对脚部对应的类别进行识别。相应地，所述脚部连接部位的图像可包括脚背图像、脚踝图像、脚趾图像等。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

由于该步骤S201的具体实施方式与上述步骤S101的具体实施方式类似，在此不再赘述。

在步骤S202中，基于所述视频帧图像的基础特征信息，获取所述脚部连接部位的图像中的脚部连接部位的特征信息。

在本实施例中，所述基础特征信息包括特征图，且所述脚部连接部位的特征信息包括所述脚部连接部位的关键点的特征信息。例如，脚背的关键点的特征信息、脚踝的关键点的特征信息、脚趾的关键点的特征信息等。所述脚部连接部位为距离人体脚部较近，且与所述人体脚部具有相似特征的人体部位。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

由于该步骤S202的具体实施方式与上述步骤S102的具体实施方式类似，在此不再赘述。

在步骤S203中，基于所述视频帧图像的基础特征信息和所述脚部连接部位的特征信息，识别所述脚部图像中的脚部所对应的类别。

在本实施例中，所述脚部对应的脚势是由用户通过脚部做出的，在被采集后用于在设备上触发相应指令的动作形态。脚势是采集的视频帧图像中的脚部所对应的形状。由于用户可通过脚部的五个脚趾灵活地做出各种不同的脚势，因此，设备可对不同的类别进行区分，识别出图像中的脚势的类别。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

由于该步骤S203的具体实施方式与上述步骤S103的具体实施方式类似，在此不再赘述。

在步骤S204中，基于所述脚部所对应的类别，输出对应的设备控制信号对设备进行控制操作。

在本实施例中，可预先配置踢出脚势与视频播放控制信号对应，收回脚势与视频暂停控制信号对应。当所述手部所对应的脚势类别为踢出手势时，确定与所述脚势类别对应的设备控制信号为视频播放控制信号。当所述脚部所对应的脚势类别为收回手势时，确定与所述脚势类别对应的设备控制信号为视频暂停控制信号。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

由于该步骤S204的具体实施方式与上述步骤S104的具体实施方式类似，在此不再赘述。

通过本申请实施例提供的控制方法，对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括脚部图像和脚部连接部位的图像，并基于所述视频帧图像的基础特征信息，获取所述脚部连接部位的图像中的脚部连接部位的特征信息；基于所述视频帧图像的基础特征信息和所述脚部连接部位的特征信息，识别所述脚部图像中的脚部所对应的手势类别；基于所述脚部所对应的类别，输出对应的设备控制信号对设备进行控制操作，与现有的其它方式相比，能够利用脚部连接部位的特征信息识别脚部所对应的类别，在节省脚部交互方式中脚部识别的计算量和存储空间的同时能有效保证脚部交互方式中脚部识别的准确度，从而使得本申请实施例提供的控制方案适用于存储空间较少、计算能力非常受限的设备。

本实施例提供的控制方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、眼镜、手表、可穿戴设备、虚拟显示设备或显示增强设备等。

参照图3A，示出了本申请实施例三的手势控制方法的步骤流程图。

具体地，本实施例提供的手势控制方法包括以下步骤：

在步骤S301中，将采集的视频帧图像输入至手势识别模型中。

在本实施例中，所述视频帧图像包括手部图像和手部连接部位的图像。所述手势识别模型包括卷积模块、视觉注意力模块和手势类别识别模块，其中，所述卷积模块用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息；所述视觉注意力模块用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；所述手势类别识别模块用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别。其中，所述卷积模块有多种可候选的可供参考的网络结构，例如，MobileNet系列、Hourglass等。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，所述视觉注意力模块，具体用于对所述视频帧图像的特征图进行感兴趣区域的池化操作，以将所述感兴趣区域映射到所述特征图中得到所述手部连接部位的关键点的特征信息；基于所述手部连接部位的关键点的特征信息，确定所述手部连接部位的关键点的权重；基于所述手部连接部位的关键点的特征信息和权重，确定所述手部连接部位的关键点的加权后的特征信息。籍此，通过手部连接部位的关键点的特征信息，对手部连接部位的关键点进行加权处理，进而能够弱化图像中的非显著性关键点，并突出图像中的显著性关键点，有效提高了手部连接部位的关键点的特征信息的准确性和合理性，从而有利于提升手势识别的效果。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，所述视觉注意力模块基于所述手部连接部位的关键点的特征信息，确定所述手部连接部位的关键点的权重的具体实施方式与上述实施例一中基于所述手部连接部位的关键点的特征信息，确定所述手部连接部位的关键点的权重的具体实施方式类似，在此不再赘述。所述视觉注意力模块基于所述手部连接部位的关键点的特征信息和权重，确定所述手部连接部位的关键点的加权后的特征信息的具体实施方式与上述实施例一中基于所述手部连接部位的关键点的特征信息和权重，确定所述手部连接部位的关键点的加权后的特征信息的具体实施方式类似，在此不再赘述。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，所述手势类别识别模块，具体用于将所述视频帧图像的特征图与所述手部连接部位的关键点的特征向量进行拼接，以获得所述视频帧图像的拼接后的特征图；基于所述视频帧图像的拼接后的特征图，识别所述手部图像中的手部所对应的手势类别。籍此，通过所述视频帧图像的特征图与所述手部连接部位的关键点的特征向量拼接后的特征图，能够有效识别所述手部图像中的手部所对应的手势类别。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在步骤S302中，获取所述手势识别模型输出的所述手部图像中的手部所对应的手势类别。

在本实施例中，所述手势是由用户通过手部做出的，在被采集后用于在设备上触发相应指令的动作形态。手势类型是采集的视频帧图像中的手部所对应的手势的形状。由于用户可通过手部的五个手指灵活地做出各种不同的手势，因此，设备可对不同的手势进行区分，识别出图像中的手势的手势类别。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在步骤S303中，基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。

由于该步骤S303的具体实施方式与上述实施例一中步骤S104的具体实施方式类似，在此不再赘述。

在一些可选实施例中，在将采集的视频帧图像输入至手势识别模型中之前，所述方法还包括：基于视频帧图像样本中手部的手势类别标注信息和所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型进行训练。籍此，通过视频帧图像样本中手部的手势类别标注信息和所述视频帧图像样本中手部连接部位的特征标注信息，能够训练得到所述手势识别模型。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，在基于视频帧图像样本中手部的手势类别标注信息和所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型进行训练时，基于所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型中的视觉注意力模块进行训练；基于所述视频帧图像样本中手部的手势类别标注信息，对待训练的所述手势识别模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，在基于所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型中的视觉注意力模块进行训练时，通过待训练的所述手势识别模型中的视觉注意力模块，基于所述视频帧图像样本的基础特征信息，获得所述视频帧图像样本中的手部连接部位的特征预测信息；基于所述视频帧图像样本中手部连接部位的特征标注信息和特征预测信息，训练所述手势识别模型中的视觉注意力模块。其中，所述特征标注信息可为特征标注向量，所述特征预测信息可为特征预测向量。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，在基于所述视频帧图像样本中手部连接部位的特征标注信息和特征预测信息，训练所述手势识别模型中的视觉注意力模块时，通过目标损失函数，确定所述视频帧图像样本中手部连接部位的特征标注信息和特征预测信息的差异；基于所述差异，调整所述手势识别模型中的视觉注意力模块的参数。其中，所述目标损失函数可为交叉熵损失函数、softmax损失函数、L1损失函数、L2损失函数等任意损失函数。在调整所述手势识别模型中的视觉注意力模块的参数时，可采用反向传播算法，或者随机梯度下降算法来调整所述手势识别模型中的视觉注意力模块的参数。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，通过确定所述视频帧图像样本中手部连接部位的特征标注信息和特征预测信息的差异，对当前获得的特征预测信息进行评估，以作为后续训练所述手势识别模型中的视觉注意力模块的依据。具体地，可将所述差异反向传输给所述手势识别模型中的视觉注意力模块，从而迭代地训练所述手势识别模型中的视觉注意力模块。所述手势识别模型中的视觉注意力模块的训练是一个迭代地过程，本申请实施例仅对其中的一次训练过程进行了说明，但本领域技术人员应当明了，对所述手势识别模型中的视觉注意力模块的每次训练都可采用该训练方式，直至完成所述手势识别模型中的视觉注意力模块的训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，所述基于所述视频帧图像样本中手部的手势类别标注信息，对待训练的所述手势识别模型进行训练的过程与所述基于所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型中的视觉注意力模块进行训练的过程类似，在此不再赘述。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，所述手势识别模型还包括手势位置识别模块，所述手势位置识别模块用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势的位置，所述方法还包括：获取所述手势识别模型输出的所述手部图像中的手部对应的手势的位置。籍此，通过所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，能够有效获取所述手部图像中的手部所对应的手势的位置。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，所述手势位置识别模块具体用于将所述视频帧图像的特征图与所述手部连接部位的关键点的特征向量进行拼接，以获得所述视频帧图像的拼接后的特征图；基于所述视频帧图像的拼接后的特征图，识别所述手部图像中的手部所对应的手势的位置。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，所述将采集的视频帧图像输入至手势识别模型中之前，所述方法还包括：基于视频帧图像样本中手部的手势类别标注信息和手势位置标注信息以及所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型进行训练。籍此，通过视频帧图像样本中手部的手势类别标注信息和手势位置标注信息以及所述视频帧图像样本中手部连接部位的特征标注信息，能够训练得到所述手势识别模型。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，在基于视频帧图像样本中手部的手势类别标注信息和手势位置标注信息以及所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型进行训练时，基于所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型中的视觉注意力模块进行训练；基于所述视频帧图像样本中手部的手势类别标注信息和手势位置标注信息，对待训练的所述手势识别模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，所述基于所述视频帧图像样本中手部的手势类别标注信息和手势位置标注信息，对待训练的所述手势识别模型进行训练的过程与所述基于所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型中的视觉注意力模块进行训练的过程类似，在此不再赘述。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一个具体的例子中，如图3B所示，所述手势识别模型包括卷积模块S304、视觉注意力模块S306和手势类别识别模块S308，其中，所述卷积模块S304用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息S305；所述视觉注意力模块S306用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息，其中，视觉注意力模块S306可以包括ROI Pooling层、全连接层、归一化层和点乘模块；所述手势类别识别模块S308用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别S309。所述手势识别模型还包括手势位置识别模块S310，所述手势位置识别模块S310用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势的位置S311。所述手势识别模型还包括拼接模块S307，所述拼接模块S307用于将所述视频帧图像的基础特征信息与所述手部连接部位的特征信息进行拼接，以获得所述视频帧图像的拼接后的基础特征信息。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在实际应用中，为了在物联网设备快速手势隔空操作控制，克服一般方案多阶段、多组件的缺点，本方案在算法网络结构设计上是一个单阶段结构。也就是说，本方案本身仅包括一个模型，仅用一个模型就能实现手势识别及隔空操作，在算法方案上是端对端的。另外，手部连接部位的特征信息的内嵌，在不增加模型个数、节省计算量的同时保证准确度。以上两点，可以确保该方案设计在技术效果上：可以节省更多的存储空间，并且极大节省了计算量、加快了计算效率，同时保证了准确率。从而在结果上更适合边缘端的物联网设备。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

通过本申请实施例提供的手势控制方法，将采集的视频帧图像输入至手势识别模型中，所述手势识别模型包括卷积模块、视觉注意力模块和手势类别识别模块，其中，所述视频帧图像包括手部图像和手部连接部位的图像；其中，所述卷积模块用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息；所述视觉注意力模块用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；所述手势类别识别模块用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；获取所述手势识别模型输出的所述手部图像中的手部所对应的手势类别；基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作，与现有的其它方式相比，手势识别模型不仅能够获取手部连接部位的特征信息，而且还能够利用手部连接部位的特征信息识别手部所对应的手势，在节省手势交互方式中手势识别的计算量和存储空间的同时能有效保证手势交互方式中手势识别的准确度，从而使得本申请实施例提供的手势控制方案适用于存储空间较少、计算能力非常受限的设备。

参照图4，示出了本申请实施例四中手势控制装置的结构示意图。

本实施例提供的手势控制装置包括：第一提取模块401，用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括手部图像和手部连接部位的图像；第一获取模块402，用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；第一识别模块403，用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；第一输出模块404，用于基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。

本实施例提供的手势控制装置用于实现前述多个方法实施例中相应的手势控制方法，并具有相应的方法实施例的有益效果，在此不再赘述。

参照图5，示出了本申请实施例五中手势控制装置的结构示意图。

本实施例提供的手势控制装置包括：第一提取模块501，用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括手部图像和手部连接部位的图像；第一获取模块503，用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；第一识别模块504，用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；第一输出模块505，用于基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。

可选地，所述基础特征信息包括特征图，所述第一提取模块501，具体用于：对所述视频帧图像进行不同尺度的基础特征提取，以获得所述视频帧图像的多个不同尺度的特征图；所述特征提取模块501之后，所述装置还包括：特征融合模块502，用于对所述视频帧图像的多个不同尺度的特征图进行特征融合，以获得所述视频帧图像的融合后的特征图。

可选地，所述特征融合模块502，具体用于：通过特征金字塔的方式，对所述视频帧图像的多个不同尺度的特征图进行特征融合，以获得所述视频帧图像的融合后的特征图。

可选地，所述基础特征信息包括特征图，且所述手部连接部位的特征信息包括所述手部连接部位的关键点的特征信息，所述第一获取模块503，包括：池化子模块5031，用于对所述视频帧图像的特征图进行感兴趣区域的池化操作，以将所述感兴趣区域映射到所述特征图中得到所述手部连接部位的关键点的特征信息；第一确定子模块5032，用于基于所述手部连接部位的关键点的特征信息，确定所述手部连接部位的关键点的权重；第二确定子模块5035，用于基于所述手部连接部位的关键点的特征信息和权重，确定所述手部连接部位的关键点的加权后的特征信息。

可选地，所述第一确定子模块5032，包括：第一处理单元5033，用于对所述手部连接部位的关键点的特征向量进行降维处理，以获得所述手部连接部位的关键点对应的特征标量；第二处理单元5034，用于对所述手部连接部位的关键点对应的特征标量进行归一化处理，以获得所述手部连接部位的关键点对应的特征标量的权重。

可选地，所述第一处理单元5033，具体用于：将所述手部连接部位的关键点的特征向量输入至输出维度为1维的全连接层，根据所述全连接层的输出确定所述手部连接部位的关键点对应的特征标量。

可选地，所述基础特征信息包括特征图，且所述手部连接部位的特征信息包括所述手部连接部位的关键点的特征信息，所述第一识别模块504，具体用于：将所述视频帧图像的特征图与所述手部连接部位的关键点的特征向量进行拼接，以获得所述视频帧图像的拼接后的特征图；基于所述视频帧图像的拼接后的特征图，识别所述手部图像中的手部所对应的手势类别。

可选地，所述装置还包括：第二识别模块506，用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势的位置。

可选地，所述基础特征信息包括特征图，且所述手部连接部位的特征信息包括所述手部连接部位的关键点的特征信息，所述第二识别模块506，具体用于：将所述视频帧图像的特征图与所述手部连接部位的关键点的特征向量进行拼接，以获得所述视频帧图像的拼接后的特征图；基于所述视频帧图像的拼接后的特征图，识别所述手部图像中的手部所对应的手势的位置。

可选地，所述第一输出模块505，具体用于：基于预先配置的手势类别与设备控制信号的对应关系，确定与所述手势类别对应的设备控制信号，并输出对应的设备控制信号对设备进行控制操作。

参照图6，示出了本申请实施例六中手势控制装置的结构示意图。

本实施例提供的手势控制装置包括：输入模块601，用于将采集的视频帧图像输入至手势识别模型中，所述手势识别模型包括卷积模块、视觉注意力模块和手势类别识别模块，其中，所述视频帧图像包括手部图像和手部连接部位的图像；其中，所述卷积模块用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息；所述视觉注意力模块用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；所述手势类别识别模块用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；第二获取模块602，用于获取所述手势识别模型输出的所述手部图像中的手部所对应的手势类别；第二输出模块603，用于基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。

可选地，所述手势识别模型还包括手势位置识别模块，所述手势位置识别模块用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势的位置，所述装置还包括：第三获取模块605，用于获取所述手势识别模型输出的所述手部图像中的手部对应的手势的位置。

可选地，所述输入模块601之前，所述装置还包括：第一训练模块604，用于基于视频帧图像样本中手部的手势类别标注信息和所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型进行训练。

可选地，所述输入模块601之前，所述装置还包括：第二训练模块606，用于基于视频帧图像样本中手部的手势类别标注信息和手势位置标注信息以及所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型进行训练。

参照图7，示出了本申请实施例七中控制装置的结构示意图。

本实施例提供的控制装置包括：第二提取模块701，用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括脚部图像和脚部连接部位的图像；第四获取模块702，用于基于所述视频帧图像的基础特征信息，获取所述脚部连接部位的图像中的脚部连接部位的特征信息；第二识别模块703，用于基于所述视频帧图像的基础特征信息和所述脚部连接部位的特征信息，识别所述脚部图像中的脚部所对应的类别；第三输出模块704，用于基于所述脚部所对应的类别，输出对应的设备控制信号对设备进行控制操作。

本实施例提供的控制装置用于实现前述多个方法实施例中相应的控制方法，并具有相应的方法实施例的有益效果，在此不再赘述。

图8为本申请实施例八中电子设备的结构示意图；该电子设备可以包括：

一个或多个处理器801；

计算机可读介质802，可以配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例一或实施例三所述的手势控制方法，或者实现如上述实施例二所述的控制方法。

图9为本申请实施例九中电子设备的硬件结构；如图9所示，该电子设备的硬件结构可以包括：处理器901，通信接口902，计算机可读介质903和通信总线904；

其中处理器901、通信接口902、计算机可读介质903通过通信总线904完成相互间的通信；

可选地，通信接口902可以为通信模块的接口，如GSM模块的接口；

其中，处理器901具体可以配置为：对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括手部图像和手部连接部位的图像；基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。此外，处理器901还可以配置为：将采集的视频帧图像输入至手势识别模型中，所述手势识别模型包括卷积模块、视觉注意力模块和手势类别识别模块，其中，所述视频帧图像包括手部图像和手部连接部位的图像；其中，所述卷积模块用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息；所述视觉注意力模块用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；所述手势类别识别模块用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；获取所述手势识别模型输出的所述手部图像中的手部所对应的手势类别；基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。此外，处理器901还可以配置为：对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括脚部图像和脚部连接部位的图像；基于所述视频帧图像的基础特征信息，获取所述脚部连接部位的图像中的脚部连接部位的特征信息；基于所述视频帧图像的基础特征信息和所述脚部连接部位的特征信息，识别所述脚部图像中的脚部所对应的类别；基于所述脚部所对应的类别，输出对应的设备控制信号对设备进行控制操作。

处理器901可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

计算机可读介质903可以是，但不限于，随机存取存储介质(Random AccessMemory，RAM)，只读存储介质(Read Only Memory，ROM)，可编程只读存储介质(Programmable Read-Only Memory，PROM)，可擦除只读存储介质(Erasable ProgrammableRead-Only Memory，EPROM)，电可擦除只读存储介质(Electric Erasable ProgrammableRead-Only Memory，EEPROM)等。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一提取模块、第一获取模块、第一识别模块和第一输出模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一提取模块还可以被描述为“对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息的模块”。

作为另一方面，本申请还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一或实施例三所描述的手势控制方法，或者实现如上述实施例二所描述的控制方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括手部图像和手部连接部位的图像；基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。此外，还使得该装置：将采集的视频帧图像输入至手势识别模型中，所述手势识别模型包括卷积模块、视觉注意力模块和手势类别识别模块，其中，所述视频帧图像包括手部图像和手部连接部位的图像；其中，所述卷积模块用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息；所述视觉注意力模块用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；所述手势类别识别模块用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；获取所述手势识别模型输出的所述手部图像中的手部所对应的手势类别；基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。此外，还使得该装置：对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括脚部图像和脚部连接部位的图像；基于所述视频帧图像的基础特征信息，获取所述脚部连接部位的图像中的脚部连接部位的特征信息；基于所述视频帧图像的基础特征信息和所述脚部连接部位的特征信息，识别所述脚部图像中的脚部所对应的类别；基于所述脚部所对应的类别，输出对应的设备控制信号对设备进行控制操作。

在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如，第一用户设备和第二用户设备表示不同的用户设备，虽然两者均是用户设备。例如，在不背离本公开的范围的前提下，第一元件可称作第二元件，类似地，第二元件可称作第一元件。

当一个元件(例如，第一元件)称为与另一元件(例如，第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如，第二元件)或“连接至”另一元件(例如，第二元件)时，应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如，第三元件)间接连接至该另一个元件。相反，可理解，当元件(例如，第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时，则没有元件(例如，第三元件)插入在这两者之间。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种手势控制方法，所述方法包括：

对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括手部图像和手部连接部位的图像，所述基础特征信息包括特征图；

基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息，其中，所述手部连接部位的特征信息包括所述手部连接部位的关键点的特征信息，所述基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息，包括：对所述视频帧图像的特征图进行感兴趣区域的池化操作，以将所述感兴趣区域映射到所述特征图中得到所述手部连接部位的关键点的特征信息；基于所述手部连接部位的关键点的特征信息，确定所述手部连接部位的关键点的权重；基于所述手部连接部位的关键点的特征信息和权重，确定所述手部连接部位的关键点的加权后的特征信息；

基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；

基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。

2.根据权利要求1所述的方法，其中，所述对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，包括：

对所述视频帧图像进行不同尺度的基础特征提取，以获得所述视频帧图像的多个不同尺度的特征图；

所述对采集的视频帧图像进行基础特征提取之后，所述方法还包括：

对所述视频帧图像的多个不同尺度的特征图进行特征融合，以获得所述视频帧图像的融合后的特征图。

3.根据权利要求2所述的方法，其中，所述对所述视频帧图像的多个不同尺度的特征图进行特征融合，以获得所述视频帧图像的融合后的特征图，包括：

通过特征金字塔的方式，对所述视频帧图像的多个不同尺度的特征图进行特征融合，以获得所述视频帧图像的融合后的特征图。

4.根据权利要求1所述的方法，其中，所述基于所述手部连接部位的关键点的特征信息，确定所述手部连接部位的关键点的权重，包括：

对所述手部连接部位的关键点的特征向量进行降维处理，以获得所述手部连接部位的关键点对应的特征标量；

对所述手部连接部位的关键点对应的特征标量进行归一化处理，以获得所述手部连接部位的关键点对应的特征标量的权重。

5.根据权利要求4所述的方法，其中，所述对所述手部连接部位的关键点的特征向量进行降维处理，以获得所述手部连接部位的关键点对应的特征标量，包括：

将所述手部连接部位的关键点的特征向量输入至输出维度为1维的全连接层，根据所述全连接层的输出确定所述手部连接部位的关键点对应的特征标量。

6.根据权利要求1所述的方法，其中，所述基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别，包括：

将所述视频帧图像的特征图与所述手部连接部位的关键点的特征向量进行拼接，以获得所述视频帧图像的拼接后的特征图；

基于所述视频帧图像的拼接后的特征图，识别所述手部图像中的手部所对应的手势类别。

7.根据权利要求1所述的方法，其中，所述方法还包括：

基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势的位置。

8.根据权利要求7所述的方法，其中，所述基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势的位置，包括：

基于所述视频帧图像的拼接后的特征图，识别所述手部图像中的手部所对应的手势的位置。

9.根据权利要求1所述的方法，其中，所述基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作，包括：

基于预先配置的手势类别与设备控制信号的对应关系，确定与所述手势类别对应的设备控制信号，并输出对应的设备控制信号对设备进行控制操作。

10.根据权利要求1所述的方法，其中，所述手部图像和所述手部连接部位的图像位于所述视频帧图像中的手势标记区域。

11.一种控制方法，所述方法包括：

对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括脚部图像和脚部连接部位的图像，所述基础特征信息包括特征图；

基于所述视频帧图像的基础特征信息，获取所述脚部连接部位的图像中的脚部连接部位的特征信息，其中，所述脚部连接部位的特征信息包括所述脚部连接部位的关键点的特征信息，所述基于所述视频帧图像的基础特征信息，获取所述脚部连接部位的图像中的脚部连接部位的特征信息，包括：对所述视频帧图像的特征图进行感兴趣区域的池化操作，以将所述感兴趣区域映射到所述特征图中得到所述脚部连接部位的关键点的特征信息；基于所述脚部连接部位的关键点的特征信息，确定所述脚部连接部位的关键点的权重；基于所述脚部连接部位的关键点的特征信息和权重，确定所述脚部连接部位的关键点的加权后的特征信息；

基于所述视频帧图像的基础特征信息和所述脚部连接部位的特征信息，识别所述脚部图像中的脚部所对应的类别；

基于所述脚部所对应的类别，输出对应的设备控制信号对设备进行控制操作。

12.一种手势控制方法，所述方法包括：

将采集的视频帧图像输入至手势识别模型中，所述手势识别模型包括卷积模块、视觉注意力模块和手势类别识别模块，其中，所述视频帧图像包括手部图像和手部连接部位的图像；

其中，所述卷积模块用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息；所述视觉注意力模块用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息；所述手势类别识别模块用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；

获取所述手势识别模型输出的所述手部图像中的手部所对应的手势类别；

13.根据权利要求12所述的手势控制方法，其中，所述手势识别模型还包括手势位置识别模块，所述手势位置识别模块用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势的位置，所述方法还包括：

获取所述手势识别模型输出的所述手部图像中的手部对应的手势的位置。

14.根据权利要求12所述的手势控制方法，其中，所述将采集的视频帧图像输入至手势识别模型中之前，所述方法还包括：

基于视频帧图像样本中手部的手势类别标注信息和所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型进行训练。

15.根据权利要求13所述的手势控制方法，其中，所述将采集的视频帧图像输入至手势识别模型中之前，所述方法还包括：

基于视频帧图像样本中手部的手势类别标注信息和手势位置标注信息以及所述视频帧图像样本中手部连接部位的特征标注信息，对待训练的所述手势识别模型进行训练。

16.一种手势控制装置，所述装置包括：

第一提取模块，用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括手部图像和手部连接部位的图像，所述基础特征信息包括特征图；

第一获取模块，用于基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息，其中，所述手部连接部位的特征信息包括所述手部连接部位的关键点的特征信息，所述基于所述视频帧图像的基础特征信息，获取所述手部连接部位的图像中的手部连接部位的特征信息，包括：对所述视频帧图像的特征图进行感兴趣区域的池化操作，以将所述感兴趣区域映射到所述特征图中得到所述手部连接部位的关键点的特征信息；基于所述手部连接部位的关键点的特征信息，确定所述手部连接部位的关键点的权重；基于所述手部连接部位的关键点的特征信息和权重，确定所述手部连接部位的关键点的加权后的特征信息；

第一识别模块，用于基于所述视频帧图像的基础特征信息和所述手部连接部位的特征信息，识别所述手部图像中的手部所对应的手势类别；

第一输出模块，用于基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。

17.一种手势控制装置，所述装置包括：

输入模块，用于将采集的视频帧图像输入至手势识别模型中，所述手势识别模型包括卷积模块、视觉注意力模块和手势类别识别模块，其中，所述视频帧图像包括手部图像和手部连接部位的图像；

第二获取模块，用于获取所述手势识别模型输出的所述手部图像中的手部所对应的手势类别；

第二输出模块，用于基于所述手部所对应的手势类别，输出对应的设备控制信号对设备进行控制操作。

18.一种控制装置，所述装置包括：

第二提取模块，用于对采集的视频帧图像进行基础特征提取，以获得所述视频帧图像的基础特征信息，其中，所述视频帧图像包括脚部图像和脚部连接部位的图像，所述基础特征信息包括特征图；

第四获取模块，用于基于所述视频帧图像的基础特征信息，获取所述脚部连接部位的图像中的脚部连接部位的特征信息，其中，所述脚部连接部位的特征信息包括所述脚部连接部位的关键点的特征信息，所述基于所述视频帧图像的基础特征信息，获取所述脚部连接部位的图像中的脚部连接部位的特征信息，包括：对所述视频帧图像的特征图进行感兴趣区域的池化操作，以将所述感兴趣区域映射到所述特征图中得到所述脚部连接部位的关键点的特征信息；基于所述脚部连接部位的关键点的特征信息，确定所述脚部连接部位的关键点的权重；基于所述脚部连接部位的关键点的特征信息和权重，确定所述脚部连接部位的关键点的加权后的特征信息；

第二识别模块，用于基于所述视频帧图像的基础特征信息和所述脚部连接部位的特征信息，识别所述脚部图像中的脚部所对应的类别；

第三输出模块，用于基于所述脚部所对应的类别，输出对应的设备控制信号对设备进行控制操作。

19.一种电子设备，所述设备包括：

一个或多个处理器；

计算机可读介质，配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任意一项权利要求所述的手势控制方法，或者实现如权利要求11所述的控制方法，或者实现如权利要求12-15中任意一项权利要求所述的手势控制方法。

20.一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-10中任意一项权利要求所述的手势控制方法，或者实现如权利要求11所述的控制方法，或者实现如权利要求12-15中任意一项权利要求所述的手势控制方法。