CN112446291A

CN112446291A - 手势识别的方法、装置、电子装置和存储介质

Info

Publication number: CN112446291A
Application number: CN202011153924.7A
Authority: CN
Inventors: 朱铭德; 周志敏; 丛林
Original assignee: Hangzhou Yixian Advanced Technology Co ltd
Current assignee: Hangzhou Yixian Advanced Technology Co ltd
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-03-05

Abstract

本申请涉及一种手势识别的方法、装置、电子装置和存储介质，其中，该手势识别的方法包括：获取视频流中的单目待识别图像；基于训练完备的检测网络对当前帧的该单目待识别图像进行识别，得到该单目待识别图像的人手包围盒；基于训练完备的分类网络，根据该人手包围盒获取当前静态手势结果，并将该当前静态手势结果存储在第一结果集合中；根据该第一结果集合，获取该单目待识别图像中的连续帧的第二结果集合，并根据该第二结果集合获取包括类别信息的稳定静态手势结果，以及获取动态手势结果。通过本申请，解决了手势识别的准确性低的问题，实现了高速、精确的手势识别。

Description

手势识别的方法、装置、电子装置和存储介质

技术领域

本申请涉及人机交互技术领域，特别是涉及手势识别的方法、装置、电子装置和存储介质。

背景技术

随着计算机技术的迅速发展，人机交互技术逐渐成为当前最热门研究课题之一。而人手的重要性决定了其在人机交互领域的重大研究价值。人手作为一种最自然、直观而又易于学习的人机交互手段，被人们广泛研究应用，而基于视觉的手势识别则成为人们广泛研究的内容之一。根据手势的运动特点，可将手势分为静态手势和动态手势。静态手势依靠手的形状和轮廓传递信息，动态手势则随着时间的变化，手的位置和形状也发生变化，从而可以传递更多准确详细的信息。

在相关技术中，较早的手势识别基本传统方法，在移动端达到了实时的效果；但即便是基于较容易的深度图进行实现，也存在较严重的误检情况，效果达不到手势交互所需的高精度；例如应用在融合深度摄像头和单目摄像头上的手势识别方法，可以较容易分割出手的前景，但识别结果不能涵盖大多数角度和手势姿态，不能保证鲁棒性。此外，相关技术中的手势识别，通常只关注于手的运动方向，导致准确性较低，不能满足增强现实(Augmented Reality，简称为AR)、虚拟现实(Virtual Reality，简称为VR)等终端中动态手势的需求，且达不到“又快又好”的效果。

目前针对相关技术中手势识别的准确性和效率无法兼顾的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种手势识别的方法、装置、电子装置和存储介质，以至少解决相关技术中手势识别的准确性低的问题。

第一方面，本申请实施例提供了一种手势识别的方法，所述方法包括：

获取视频流中的单目待识别图像；

基于训练完备的检测网络对当前帧的所述单目待识别图像进行识别，得到所述单目待识别图像的人手包围盒；

基于训练完备的分类网络，根据所述人手包围盒获取当前静态手势结果，并将所述当前静态手势结果存储在第一结果集合中；

根据所述第一结果集合，获取所述单目待识别图像中的连续帧的第二结果集合，并根据所述第二结果集合获取包括类别信息的稳定静态手势结果，以及获取动态手势结果。

在其中一些实施例中，所述获取视频流中的单目待识别图像之前，所述方法还包括：

采集多个第一预设人手图像；将所述第一预设人手图像作为第一样本数据输入神经网络进行训练，以得到所述检测网络；其中，所述检测网络用于识别并获取所述人手包围盒；

采集包含特定类别的手势图像；对所述手势图像进行标注，以分类获取多个第二预设人手图像；将所述第二预设人手图像输入所述神经网络进行训练，以得到所述分类网络；其中，所述分类网络用于分类并获取所述当前静态手势结果。

在其中一些实施例中，所述基于训练完备的检测网络对当前帧的所述单目待识别图像进行识别，得到所述单目待识别图像的人手包围盒包括：

根据预设策略对所述单目待识别图像进行填充，将所述填充后的单目待识别图像输入所述神经网络模型；

提取所述单目待识别图像的特征并获取特征图；

遍历所述特征图，解析得到每个所述特征图中得分大于第一预设阈值的人手包围盒；

计算得到所述人手包围盒的交并比(Intersection over Union，简称为IOU)值，在所述IOU值大于第二预设阈值的情况下，保留所述得分最大的人手包围盒作为结果。

在其中一些实施例中，所述基于训练完备的分类网络，根据所述人手包围盒获取当前静态手势结果，并将所述当前静态手势结果存储在第一结果集合中包括：

在所述第一结果集合中包括第一人手检测结果的情况下，将扩充后的所述人手包围盒内的图像输入至所述分类网络进行识别，并获取到所述当前静态手势结果；

将所述当前静态手势结果和得分存储至所述第一结果集合。

在其中一些实施例中，所述获取所述单目待识别图像中的连续帧的第二结果集合之后，所述根据所述第二结果集合获取包括类别信息的稳定静态手势结果，以及获取动态手势结果之前，所述方法还包括：

根据所述第一结果集合中的第一人手检测结果，以及所述第二结果集合中的多个第二人手检测结果计算IOU值；

根据所述IOU值获取，获取与所述第一人手检测结果相匹配的所述第二人手检测结果，将所述第一人手检测结果的人手信息存储到所述第二结果集合的序列中；

在所述序列的长度大于预设长度的情况下，删除最早存储至所述序列中的人手信息。

在其中一些实施例中，所述根据所述第二结果集合获取包括类别信息的稳定静态手势结果，以及获取动态手势结果包括：

根据所述序列中存储的人手信息，判断所述连续帧的稳定静态手势结果的第二类别信息；

在所述第二类别信息一致，且最高类得分大于第三预设阈值的情况下，将当前帧的稳定静态手势结果的第一类别信息更新为所述第二类别信息；

根据所述第一类别信息和所述第二类别信息进行动态手势判断，进而获取到所述动态手势结果。

在其中一些实施例中，所述获取动态手势结果之后，所述方法还包括：

获取所述人手边框的位置映射；

根据所述位置映射将所述动态手势结果发送至显示装置；其中，所述显示装置根据所述动态手势结果显示交互信息。

第二方面，本申请实施例提供了一种手势识别的装置，所述装置包括：获取模块、检测模块、分类模块和结果模块；

所述获取模块，用于获取视频流中的单目待识别图像；

所述检测模块，用于基于训练完备的检测网络对当前帧的所述单目待识别图像进行识别，得到所述单目待识别图像的人手包围盒；

所述分类模块，用于基于训练完备的分类网络，根据所述人手包围盒获取当前静态手势结果；

所述结果模块，用于根据所述第一结果集合，获取所述单目待识别图像中的连续帧的第二结果集合，并根据所述第二结果集合获取包括类别信息的稳定静态手势结果，以及获取动态手势结果。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的手势识别的方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的手势识别的方法。

相比于相关技术，本申请实施例提供的手势识别的方法、装置、电子装置和存储介质，通过获取视频流中的单目待识别图像；基于训练完备的检测网络对当前帧的该单目待识别图像进行识别，得到该单目待识别图像的人手包围盒；基于训练完备的分类网络，根据该人手包围盒获取当前静态手势结果，并将该当前静态手势结果存储在第一结果集合中；根据该第一结果集合，获取该单目待识别图像中的连续帧的第二结果集合，并根据该第二结果集合获取包括类别信息的稳定静态手势结果，以及获取动态手势结果，从而解决了手势识别的准确性和效率无法兼顾的问题，实现了高速、精确的手势识别。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例的一种手势识别方法的终端的硬件结构框图；

图2为根据本申请实施例的一种手势识别方法的流程图；

图3为根据本申请实施例的一种训练图像的示意图；

图4为根据本申请实施例的另一种手势识别方法的流程图；

图5为根据本申请实施例的又一种手势识别方法的流程图；

图6为根据本申请实施例的再一种手势识别方法的流程图；

图7为根据本申请实施例的一种手势识别装置的结构框图；

图8为根据本申请实施例的一种执行手势识别方法的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例，图1为本申请实施例的一种手势识别方法的终端的硬件结构框图。如图1所示，终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限定。例如，终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的手势识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中，提供了一种手势识别的方法，图2为根据本申请实施例的一种手势识别方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取视频流中的单目待识别图像。其中，终端12上设置有单目摄像头，该终端12上的单目摄像头可以通过一定频率采集图像序列，进而获取该图像序列中的一帧当前的单目待识别图像；该单目待识别图像可以为彩色图像，也可以为灰度图像。

步骤S204，基于训练完备的检测网络对当前帧的该单目待识别图像进行识别，得到该单目待识别图像的人手包围盒；基于训练完备的分类网络，根据该人手包围盒获取当前静态手势结果，并将该当前静态手势结果存储在第一结果集合中。

其中，将一帧单目待识别图像输入该检测网络，定位出单手或双手的人手包围盒(bounding box，简称为bbox)；可以理解的是，本申请中的人手包围盒可以表现为图像中人手的最小矩形框，从而简化针对该人手的识别算法。并且对该检测网络的输出进行解析，解析的结果即为第一结果集合。然后可以将该人手包围盒输入到该分类网络，并识别出当前静态手势结果。该当前静态手势结果是指针对当前帧的单目待识别图像识别出来的静态手势结果，且该当前静态手势结果包括每个人手包围盒的类别和得分；推理识别到的每个人手包围盒内图像的当前静态手势结果，存储到该第一结果集合里。

步骤S206，根据该第一结果集合，获取该单目待识别图像中的连续帧的第二结果集合，并根据该第二结果集合获取包括类别信息的稳定静态手势结果，以及获取动态手势结果。

其中，该第二结果集合，为该第一结果集合所在当前帧之前的连续帧图像的解析结果集合；根据该第二结果集合，可以利用多帧信息判断当前帧的静态手势，并获取当前帧的静态手势结果的类别信息，例如松开、捏合、握拳等。稳定静态手势结果是指根据综合分析上述连续帧图像的静态手势确定的静态手势结果，根据当前帧的稳定静态手势类别可以高速得到一定时间内运动的动态手势结果。

在相关技术中，应用在单目单目摄像头的手势识别结果通常不能涵盖大多数角度和手势姿态，导致手势识别的准确性较低；而本申请实施例通过上述步骤S202至步骤S206，分别利用检测网络、分类网络对单目待识别图像进行识别得到静态手势结果，根据该静态手势结果的类别信息获取动态手势结果，从而利用多帧信息判断静态手势，并利用静态手势的切换完成动态手势的判断，由于本申请实施例将用于手势识别的网络拆分成了检测网络和分类网络者两个部分，使得每个网络更聚焦，可以用小的计算量完成整个流程，因此本申请中的手势识别方法保证了在高准确性的基础上提高了识别效率，实现了能够面向AR眼镜的高速、精确动态手势识别，解决了手势识别的准确性和效率无法兼顾的问题。并且，由于本申请中手势识别方法只需要一个单目摄像头，因此无需定制即可适配各型号的带有传感器的AR眼镜，进而满足基于手势识别的交互需求，提高用户体验。

在其中一些实施例中，上述检测网络和分类网络分别通过如下步骤训练完成：

步骤S302，采集多个第一预设人手图像；将该第一预设人手图像作为第一样本数据输入神经网络进行训练，以得到该检测网络；其中，该检测网络用于识别并获取该人手包围盒。

其中，在不同的背景，不同的视角，不同的人，不限定手势的情况下采集包含人手的、分辨率足够的第一预设人手图像，并标注出手的包围盒。如果采集单目摄像头和分辨率与最终部署的基本一致，无需额外处理数据，否则以包围盒为中心，上下左右扩大N倍，作为训练的第一样本数据，N一般取值为5。

第一预设人手图像的尺寸可以预先进行设置，常用的尺寸取值可以为256×192，或128×96等。以256×192为例，经过神经网络提取特征得到特征图，例如降采样32倍得到8×6×M的特征图；最后通过1×1的卷积得到最终的稠密的结果预测图，且该结果预测图的尺寸为8×6×(anchor_num×5)。anchor_num为anchor的数量，anchor可以理解为一些预先设定好的框；由于手的尺度和比例变化幅度相对较小，这里anchor不需要太多个，3至5个即可满足需求，anchor可以在数据集中聚类得到，也可以根据先验直接指定，结果区别不大。在一些替代方案中，也可以采用无anchor的方案。

Backbone可以使用精简过的Pelee或MobileNetV3等，也可以是一些基础神经网络结构和block的排布和堆叠，确保无全连接层，在此不对Backbone进行限制。配合剪枝和蒸馏等手段，模型的大小可以压缩到500KB以内，由于任务得到了简化，即无需分类，使得结果的鲁棒性有保障。在3个anchor的情况下，检测网络输出结果的维度为8×6×(3×5)。3×5中的3代表的anchor的数量，5代表一维得分和四维包围盒位置，不妨设为s、tx、ty、tw、th，最终该anchor在该位置的得分如公式1所示：

假设8×6的维度上为第i行第j列，则包围盒的中心为：

包围盒的长、宽分别为e^tw×anchor_w，e^th×anchor_h。

在训练模型时还需要进行线上增强，主要增强手段包括缩、平移、翻转、对比度调整和亮度调整等等，利用固定数值的填充(padding)保证尺寸的一致性，手超过一半不在视野范围内的情况剔除标签，作为纯负样本加入训练，缩放的范围需考虑实际所用单目摄像头的视野。训练损失(loss)采用基于IOU的loss(如GIOU或DIOU loss)配合上得分交的叉熵即可完成训练过程，标签只有正中心落入的特征图的得分为1，其他为0。

需要说明的是，检测网络也可以用全卷积单级目标检测(Fully ConvolutionalOne-Stage Object Detection，简称为FCOS)的方案替代，使得最终输出的bbox表示为该点距离bbox左右上下的距离，而非上文提及的中心点偏移+长宽缩放，得分的处理手段可以是落在bbox内的均置为1，另外加入一个维度预测中心点的偏移系数和得分相乘作为最终得分，最终训练出来效果无明显差异。

步骤S304，采集包含特定类别的手势图像；对该手势图像进行标注，以分类获取多个第二预设人手图像；将该第二预设人手图像输入该神经网络进行训练，以得到该分类网络；其中，该分类网络用于分类并获取该当前静态手势结果。需要说明的是，上述标注指的是在该手势图像中标注出bbox，以便截取手部区域的小图送入分类网络进行训练。

例如，针对AR眼镜场景，采集构成动态手势所需的一些“中间状态”的静态手势；其中，完成pinch/grasp/back这三个动作可以分解为几种手势：握拳/捏合/摊掌/OK/手枪/松开等，每种手势都有一定的自由度，例如OK松开的手指可以一定程度蜷曲，松开的手势也可以不同程度的开合，手腕也都可以转动等等。

其中，按类别采集数据，可以用检测网络进行标注，也可以人工标注bbox，并且这两个检测网络、分类网络的数据采集可以在一起也可以分开。在标注好bbox的图像上获取分类网络所需数据；图3为根据本申请实施例的一种训练图像的示意图，由于旋转会打破bbox的平直性，通过图3可以获取到旋转图像的相对紧致的bbox。如图3所示，在一定角度范围内，例如在[-45°，45°]范围内随机旋转图像；旋转后的bbox标签如图3所示，黑色填充的第一矩形框为原始bbox的标签，斜放的黑色边缘的第二矩形框为随着图像一起旋转的bbox，最大第三矩形框的为第二矩形框四个顶点的bbox，将第三矩形框的bbox沿中心等比例缩小到和第一矩形框面积一致，并得到最终的具有斜线边缘的第四矩形框bbox，这种方法可以保证旋转后的图像的bbox贴合仍然很好。将bbox按中心外扩成方形区域，截取对应图像，如果超出图像范围，按定值补齐(该定值一般取值为128或0)，缩放成网络所需的预设输入尺寸进行存储，该预设输入尺寸一般较小，如取值为64或32等，以保证分类网络的耗时足够小，和检测网络不同，手势分类网络比较适合方形图像的输入，而检测网络可以随意。这一步的主要作用是极力避免拉伸，即便是多引入了一些背景信息，本质上任务的难度还是下降的。然后打包存储截取好的图像和对应标签即构成了最终所需的训练数据集。

在神经网络输入上述预设输入尺寸的图像，经过Backbone得到特征图后，pooling配合1×1的卷积，或直接利用全连接层得到最终所需的维度为预设参数的多维结果，该预设参数为最终手势类别的数量，利用常见的softmax交叉熵训练分类器即可。这里的Backbone可以参考检测网络里的进行设计，不予赘述。训练时也需要配合一定量的数据增强，例如50％概率随机进行图像的缩放(如0.8至1.3倍数缩放)、拉伸(如±10％)和上下左右平移(如±30％)，利用thre5定值补齐，主要为了应对检测网络里bbox不准确的情况，增加了识别的鲁棒性，同时可以处理人手处于边界的情况。

通过上述步骤S302至步骤S304，分别对检测网络和分类网络进行训练，实现了针对AR眼镜的手势识别场景，利用AR眼镜场景至多只有两个手的先验知识，将静态手势识别任务拆分成了检测和分类两个网络模型；由于如果只用一个网络模型同时来检测手势并分类，则需要非常大的Backbone，而将较难的更为细节的如旋转、截断或拉伸等情况放到更聚焦的分类网络里处理，极大缓解了检测网络的压力，因此Backbone可以做得非常小；同时分类网络的输入较小，继而耗时相对也较小，例如在中端手机芯片上可以达到超过100FPS的帧率(耗时小于10ms)，如果部署在数字信号处理(Digital Signal Process，简称为DSP)或神经网络处理器(Neural-network Processing Unit，简称为NPU)等专用处理单元上会更快，从而使得手势识别的速度更快，且准确性更高。

在其中一些实施例中，提供了一种手势识别的方法，图4为根据本申请实施例的另一种手势识别方法的流程图，如图4所示，该流程包括如下步骤：

步骤S402，根据预设策略对该单目待识别图像进行填充，将该填充后的单目待识别图像输入该检测网络；其中，按策略padding图像到检测网络输入相同的长宽比，padding的策略为上方padding及左右padding，padding的数值为上文中提及的thre5，由于AR眼镜的交互都在靠下的位置，所以在上方padding更为合理。接着等比例缩放到网络的输入尺寸，这一步是为了保证图像无拉伸，减轻网络的负担。

步骤S404，提取该单目待识别图像的特征并获取特征图；遍历该特征图，解析得到该特征图中得分大于第一预设阈值的人手包围盒；其中，该第一预设阈值一般取值为0.5。

步骤S406，计算得到该人手包围盒之间的IOU值，在该IOU值大于第二预设阈值的情况下，保留该得分最大的人手包围盒作为结果。其中，遍历上述特征图，根据得分解析出所有得分大于第一预设阈值的包围盒。包围盒之间互相计算IOU值表征重叠度，剔除低分重叠较大的包围盒，并且最终保留至多两个包围盒。

具体地，按步骤S302中检测网络设计提及的方法计算出各自的bbox，根据两个bbox的交集除以并集的百分比互相计算IOU，以通过IOU值来判断手指尖是否重叠。如果IOU大于大于第二预设阈值，保留得分更高的，其中该第二预设阈值一般取值为0.5；由于步骤S404得到的锚点候选项非常少，这步基本无耗时；保留得分最高的两个bbox作为结果，AR眼镜场景下一个人最多只有两只手。如果单手操作或无手时候，结果也可能只有一个bbox或没有bbox，从而实现了解析神经网络的输出，得到最终的第一结果集合。

通过上述步骤S402至步骤S406，通过遍历特征图解析得到该特征图中的人手包围盒，并计算得到该人手包围盒之间的IOU值，若IOU值大于第二预设阈值则保留该得分最大的人手包围盒作为结果，因此实现了利用非极大值抑制(Non-Maximum Suppression，简称为NMS)剔除冗余的重叠过大的候选项，减少了计算耗时，有效提高了手势识别的效率。

在其中一些实施例中，提供了一种手势识别的方法，图5为根据本申请实施例的又一种手势识别方法的流程图，如图5所示，该流程包括如下步骤：

步骤S502，在该第一结果集合中包括第一人手检测结果的情况下，将扩充后的该人手包围盒内的图像输入至该分类网络进行识别，并获取到该当前静态手势结果；其中，按步骤S304中分类网络设计根据bbox位置扩充成方形bbox，并缩放成上述预设输入尺寸，送入网络识别出当前静态手势结果，同时记录softmax每类的得分。如果有两只手可以将两张图一起送入网络进行前向推理，提高并行度，可以降低一些耗时。存储每个bbox的类别和得分到第一结果集合。

步骤S504，根据该第一结果集合中的第一人手检测结果，以及该第二结果集合中的多个第二人手检测结果计算IOU值；根据该IOU值获取，获取与该第一人手检测结果相匹配的该第二人手检测结果，将该第一人手检测结果的人手信息存储到该第二结果集合的序列中；在该序列的长度大于预设长度的情况下，删除最早存储至该序列中的人手信息。

其中，假设之前连续帧的第二结果集合已维护了N个手的信息(N为小于3的自然数)，每个手的信息里包含ID、上一个稳定的静态手势类别、动态手势信息、连续k帧的类别信息、连续k帧各类的得分、连续k帧的bbox信息，k一般取值为10，不满k按存在最大帧数记录。对于第一结果集合里每个手按下述步骤进行信息更新：

对bbox结果和第二集合结果里的每个手计算IOU值，找出IOU值最大的手，如果IOU值大于预设的定值，该定值一般取0.3，则认为这两只手是同一个手，将人手信息，包括：类别信息、各类得分和bbox信息等存储到序列里，如果序列长度大于k，剔除最早加入序列的信息。

需要说明的是，如果第二结果集合里找不到配对的手，当前帧检测到的手作为一个新的对象加入到第二结果集合，稳定静态和动态手势类别置为unknown，各种序列信息里加入该帧信息，此时各个序列的长度均为1。如果第二结果集合里的手在当前帧找不到配对的手，剔除该手的所有信息，接着给新增的手分配ID，如果当前第二结果集合里无其他已分配ID的手，将手的ID设置为0，如果存在，将ID改成1，表示已存在的ID，由于至多只有两只手，可以这么操作，简化流程。

通过上述步骤S502至步骤S504，通过对第二结果集合中的人手信息的IOU值检测结果，进行多手ID追踪和状态管理，从而实现了检测结果无显著耗时增加地完成双手的ID追踪，避免多手导致的动态手势错乱，有效提高了手势识别的准确性。

在其中一些实施例中，提供了一种手势识别的方法，图6为根据本申请实施例的再一种手势识别方法的流程图，如图6所示，该流程包括如下步骤：

步骤S602，根据该序列中存储的人手信息，判断该连续帧的当前静态手势结果的第二类别信息；在该第二类别信息一致，且最高类得分大于第三预设阈值的情况下，将当前帧的静态手势结果的第一类别信息更新为该第二类别信息。

其中，如果最近的连续多帧识别类别结果一致，且最高类得分达到一定值，则认为该手势类别鲁棒，当前帧的静态手势类别将改为该类。需要说明的是，此处连续多帧的帧数，以及上述的一定值均不是一个固定数值，和当前手势类别、上一个稳定静态手势均相关，可以引入很多先验知识使得过程更鲁棒。例如，pinch操作很高频，动作也很快，需要在保证鲁棒性的同时保证响应速度，在上一个静态手势为“松开”，且当前为“捏合”时，连续三帧最高得分为“捏合”且得分分别达到0.5、0.7、0.8即可，由于从松开到捏合的过程中存在不少歧义情况，降低过程中的得分阈值可以提高响应速度；或者，在比较低频但需要保证保证鲁棒性的返回动态手势中，假定为从“手枪”切换到“握拳”，可以将手枪的阈值调高，例如需要连续六帧每帧都大于0.8才可以判定为静态手势“手枪”，同时切换到“握拳”所需的帧数和分数也提高。为保证动态手势过程不互相干扰，可以加大各动态手势起始静态手势之间的切换难度；例如用户执行抓取的动作时，整个动作耗时比捏合要久一些，最终收敛的握拳的帧数可以适当加长等等。通过调整每个静态手势在不同条件下的判定条件，达到鲁棒的动态手势判定效果。

步骤S604，根据该第一类别信息和该第二类别信息进行动态手势判断，进而获取到该动态手势结果。

其中，进行动态手势判断，如果当前帧的稳定静态手势类别发生了改变，且完成了预先设定的动态手势序列，则将动态手势结果进行记录。例如稳定静态手势从palm变成了OK手势，或从松开变为了捏合，则认为用户完成了pinch的动作；如果从palm变成了fist则认为用户完成了grasp的动作；如果从手枪变成了fist则完成了返回的动作等等。

通过上述步骤S602至步骤S606，判断当前静态手势结果的类别，进而实现了利用多帧信息判断静态手势，利用静态手势的切换完成动态手势的判断，例如针对pinch/grasp等动作考虑到实际手的开合情况，设置不同的第三预设阈值和帧数，以便实现更精确的检测结果，从而进一步提高了手势识别的准确性。

在其中一些实施例中，在获取动态手势结果之后，该手势识别的方法还包括如下步骤：

步骤S702，获取该人手边框的位置映射。

步骤S704，根据该位置映射将该动态手势结果发送至终端12；其中，该终端12根据该动态手势结果显示交互信息。

需要说明的是，在步骤S702至步骤S704中，上层可以直接利用手势bbox的位置映射到二维空间，构建一个类似于鼠标的交互方式，不同的动态手势触发不同的效果，例如点击、返回等等；也可以配合惯性测量单元(Inertial measurement unit，简称为IMU)信息完成交互过程，上层利用IMU信息计算出用户头部的姿态，从视野中心发射一条射线作为选择的工具，手势在这里作为触发器使用，同时手的相对位移可以映射到选中物体的位移上，继而可以完成物体的选中、移动、缩放等操作。

通过上述步骤S702至步骤S704，将动态手势结果发送至终端12，使得该终端12通过位置映射构建类似于鼠标的交互方式，或者结合IMU信息完成交互过程，除了输出的动态手势结果的信息，也用到了作为中间状态的静态手势结果的信息，从而实现了通过配合IMU信息或直接利用包围盒的相对位置，完成诸如选中、拖拽、移动、缩放和返回等人机交互指令，进一步提高了手势识别准确性以及用户体验。

应该理解的是，虽然图2、图4至图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图4至图6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在本实施例中提供了一种手势识别的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图7为根据本申请实施例的一种手势识别装置的结构框图，如图7所示，该装置包括：获取模块72、检测模块74、分类模块76和结果模块78。

该获取模块72，用于获取视频流中的单目待识别图像；该检测模块74，用于基于训练完备的检测网络对当前帧的该单目待识别图像进行识别，得到该单目待识别图像的人手包围盒；该分类模块76，用于基于训练完备的分类网络，根据该人手包围盒获取当前静态手势结果，并将该当前静态手势结果存储在第一结果集合中；；该结果模块78，用于根据该第一结果集合，获取该单目待识别图像中的连续帧的第二结果集合，并根据该第二结果集合获取包括类别信息的稳定静态手势结果，以及获取动态手势结果。

通过上述实施例，通过识别模块74和分类模块76对单目待识别图像进行识别，得到当前静态手势结果，结果模块78根据该当前静态手势结果的类别信息获取动态手势结果，从而利用多帧信息判断静态手势，并利用静态手势的切换完成动态手势的判断，实现了能够面向AR眼镜的高速、精确动态手势识别，解决了手势识别的准确性和效率无法兼顾的问题。并且由于本申请中手势识别方法只需要一个单目摄像头，因此无需定制即可适配各型号的带有传感器的AR眼镜，进而满足基于手势识别的交互需求，提高用户体验。

在其中一些实施例中，该装置还包括训练模块；该训练模块，用于采集多个第一预设人手图像；该训练模块将第一预设人手图像作为第一样本数据输入神经网络进行训练，以得到该检测网络；其中，该检测网络用于识别并获取该人手包围盒；该训练模块采集包含特定类别的手势图像，并对该手势图像进行标注，以分类获取多个第二预设人手图像；该训练模块将该第二预设人手图像输入该神经网络进行训练，以得到分类网络；其中，该分类网络用于分类并获取该当前静态手势结果。

在其中一些实施例中，该检测模块74还用于根据预设策略对该单目待识别图像进行填充，将该填充后的单目待识别图像输入该检测网络；该检测模块74提取该单目待识别图像的特征并获取特征图；该识别模块74遍历该特征图，解析得到该特征图中该得分大于第一预设阈值的人手包围盒；该检测模块74计算得到该人手包围盒之间的IOU值，在该IOU值大于第二预设阈值的情况下，保留该得分最大的人手包围盒作为结果。

在其中一些实施例中，该分类模块76还用于在该第一结果集合中包括第一人手检测结果的情况下，将扩充后的该人手包围盒内的图像输入至该分类网络进行识别，并获取到该当前静态手势结果；该分类模块76将该当前静态手势结果和得分存储至该第一结果集合。

在其中一些实施例中，该装置还包括存储模块；该存储模块，用于根据该第一结果集合中的第一人手检测结果，以及该第二结果集合中的多个第二人手检测结果计算IOU值；该存储模块根据该IOU值，获取与该第一人手检测结果相匹配的该第二人手检测结果，将该第一人手检测结果的人手信息存储到该第二结果集合的序列中；该存储模块在该序列的长度大于预设长度的情况下，删除最早存储至该序列中的人手信息。

在其中一些实施例中，该结果模块78还用于根据该序列中存储的人手信息，判断该连续帧的静态手势结果的第二类别信息；该结果模块78在该第二类别信息一致，且最高类得分大于第三预设阈值的情况下，将当前帧的静态手势结果的第一类别信息更新为该第二类别信息；该结果模块78根据该第一类别信息和该第二类别信息进行动态手势判断，进而获取到该动态手势结果。

在其中一些实施例中，该装置还包括映射模块；该映射模块，用于获取该人手边框的位置映射；该映射模块根据该位置映射将该动态手势结果发送至显示装置；其中，该显示装置根据该动态手势结果显示交互信息。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

下面结合实际应用场景对本申请的实施例进行详细说明，图8为根据本申请实施例的一种执行手势识别方法的示意图，如图8所示，具体为：获取视频单目图像数据；通过轻量神经网络定位手的位置(bbox)；这一轻量神经网络可以为轻量级检测网络，通过轻量级检测网络的设计和训练，以及数据采集、标注、增强、训练后，可以将该轻量级检测网络用于定位bbox。通过轻量神经网络进行静态手势识别；这一轻量神经网络可以为轻量级分类网络，通过轻量级分类网络的设计和训练，以及数据处理、增强、训练后，可以将该轻量级分类网络用于静态手势识别。进行多手ID追踪和状态管理，更新信息；然后是通过动态手势判断模型判断动态手势，并发送信息到上完成交互过程。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取视频流中的单目待识别图像。

S2，基于训练完备的检测网络对当前帧的该单目待识别图像进行识别，得到该单目待识别图像的人手包围盒；基于训练完备的分类网络，根据该人手包围盒获取当前静态手势结果，并将该当前静态手势结果存储在第一结果集合中。

S3，根据该第一结果集合，获取该单目待识别图像中的连续帧的第二结果集合，并根据该第二结果集合获取包括类别信息的稳定静态手势结果，以及获取动态手势结果。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的手势识别的方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种手势识别的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种手势识别的方法，其特征在于，所述方法包括：

获取视频流中的单目待识别图像；

2.根据权利要求1所述的方法，其特征在于，所述获取视频流中的单目待识别图像之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述基于训练完备的检测网络对当前帧的所述单目待识别图像进行识别，得到所述单目待识别图像的人手包围盒包括：

根据预设策略对所述单目待识别图像进行填充，将所述填充后的单目待识别图像输入所述检测网络；

提取所述单目待识别图像的特征并获取特征图；

遍历所述特征图，解析得到所述特征图中得分大于第一预设阈值的人手包围盒；

计算得到所述人手包围盒之间的IOU值，在所述IOU值大于第二预设阈值的情况下，保留所述得分最大的人手包围盒作为结果。

4.根据权利要求1所述的方法，其特征在于，所述基于训练完备的分类网络，根据所述人手包围盒获取当前静态手势结果，并将所述当前静态手势结果存储在第一结果集合中包括：

将所述当前静态手势结果和得分存储至所述第一结果集合。

5.根据权利要求4所述的方法，其特征在于，所述获取所述单目待识别图像中的连续帧的第二结果集合之后，所述根据所述第二结果集合获取包括类别信息的稳定静态手势结果，以及获取动态手势结果之前，所述方法还包括：

根据所述IOU值，获取与所述第一人手检测结果相匹配的所述第二人手检测结果，将所述第一人手检测结果的人手信息存储到所述第二结果集合的序列中；

6.根据权利要求5所述的方法，其特征在于，所述根据所述第二结果集合获取包括类别信息的稳定静态手势结果，以及获取动态手势结果包括：

根据所述序列中存储的人手信息，判断所述连续帧的静态手势结果的第二类别信息；

在所述第二类别信息一致，且最高类得分大于第三预设阈值的情况下，将当前帧的静态手势结果的第一类别信息更新为所述第二类别信息；

7.根据权利要求1所述的方法，其特征在于，所述获取动态手势结果之后，所述方法还包括：

获取所述人手边框的位置映射；

根据所述位置映射，将所述动态手势结果发送至显示装置；其中，所述显示装置根据所述动态手势结果显示交互信息。

8.一种手势识别的装置，其特征在于，所述装置包括：获取模块、检测模块、分类模块和结果模块；

所述获取模块，用于获取视频流中的单目待识别图像；

所述分类模块，用于基于训练完备的分类网络，根据所述人手包围盒获取当前静态手势结果，并将所述当前静态手势结果存储在第一结果集合中；

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的手势识别的方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的手势识别的方法。