CN113553877B

CN113553877B - 深度手势识别方法及其系统和电子设备

Info

Publication number: CN113553877B
Application number: CN202010262805.9A
Authority: CN
Inventors: 倪志刚; 王城特; 张本好; 胡增新
Original assignee: Sunny Optical Zhejiang Research Institute Co Ltd
Current assignee: Zhejiang Shunwei Technology Co ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2023-05-30
Anticipated expiration: 2040-04-07
Also published as: CN113553877A

Abstract

一种深度手势识别方法及其系统和电子设备。该深度手势识别方法包括步骤：对获取的手势深度图像进行下采样，以得到采样后的缩小图像；通过预训练好的分类器对该采样后的缩小图像进行逐像素分类，以得到局部分类结果，其中该局部分类结果包括该采样后的缩小图像中每一像素所属的手势部位标签；对该局部分类结果进行上采样，以得到整体分类结果，其中该整体分类结果包括该手势深度图像中每一像素所述的手势部位标签；以及对该整体分类结果进行后处理，以获得最终的手势识别结果。

Description

深度手势识别方法及其系统和电子设备

技术领域

本发明涉及手势识别技术领域，尤其是涉及深度手势识别方法及其系统和电子设备。

背景技术

随着各类消费电子产品的蓬勃发展，人们对于建立人与网络世界联系的人机交互技术的需求和要求也越来越高。手势识别作为新一代的交互技术，通常利用传感器获取人的手部形状，并转化为命令来操作设备等。因手势的天然属性，手势识别作为交互方式具有学习成本低、交互自然、脱离实体接触实现远距离控制等优点，所以手势识别在增强现实(AR)或虚拟现实(VR)等场景具有巨大的应用潜力。与此同时，手势识别也可以用于手语识别领域，对聋哑人之间或聋哑人与正常人之间的交流有着极其重大的意义。

目前，在诸如AR眼镜的开发项目中，因AR眼镜需要穿戴到头部的特殊性，诸如触摸交互和手柄交互等等之类的普通交互方式显然无法实现舒适的用户体验；因此非接触的手势识别交互是目前最符合AR眼镜需求的交互技术。例如，通过AR眼镜上搭载的深度传感器来获取用户的手势深度图像，进而开发出对应的手势识别算法，以识别单帧手势和连续手势动作，并匹配系统预设手势，进而实现操作AR眼镜的功能。然而，现有的基于深度图的手势识别通常采用逐像素分类的方法来确定手势中不同手指部位对应的输入像素集合，但对输入图像的每一个像素继续分类运算，需要较大的计算量，而较大的计算量在硬件平台上必然需要更大的计算耗时，导致单帧手势图像的识别实时性变差，造成现有的手势识别算法的可用性也极差，影响手势识别技术的应用和推广。

发明内容

本发明的一优势在于提供一深度手势识别方法及其系统和电子设备，其能够减少手势识别过程中的计算量，以便减速手势识别过程。

本发明的另一优势在于提供一深度手势识别方法及其系统和电子设备，其中，在本发明的一实施例中，所述深度手势识别方法能够通过增加下采样和上采样的环节，以达到减少手势识别计算量的效果。

本发明的另一优势在于提供一深度手势识别方法及其系统和电子设备，其中，在本发明的一实施例中，所述深度手势识别方法能够利用输入中相邻像素的空间相似性，采用下采样以有效地减少输入分类器的分类像素点数量，以便大幅地缩减手势识别的耗时，提高实时性。

本发明的另一优势在于提供一深度手势识别方法及其系统和电子设备，其中，在本发明的一实施例中，所述深度手势识别方法能够将分类完成后的数据进行上采样以对未分类像素赋值，以得到完整的分类结果，从而在保证了手势识别准确率的同时，大幅地缩减手势识别的耗时。

本发明的另一优势在于提供一深度手势识别方法及其系统和电子设备，其中，在本发明的一实施例中，所述深度手势识别方法能够在下采样之前先对手势深度图像进行预处理，有助于后续采用直接抽取的方法来进行下采样，以实现简单有效地大幅降低手势识别的计算量。

本发明的另一优势在于提供一深度手势识别方法及其系统和电子设备，其中为了达到上述优势，在本发明中不需要采用复杂的结构和庞大的计算量，对软硬件要求低。因此，本发明成功和有效地提供一解决方案，不只提供一深度手势识别方法及其系统和电子设备，同时还增加了所述深度手势识别方法及其系统和电子设备的实用性和可靠性。

为了实现上述至少一优势或其他优势和目的，本发明提供了深度手势识别方法，包括步骤：

对获取的手势深度图像进行下采样，以得到采样后的缩小图像；

通过预训练好的分类器对该采样后的缩小图像进行逐像素分类，以得到局部分类结果，其中该局部分类结果包括该采样后的缩小图像中每一像素所属的手势部位标签；

对该局部分类结果进行上采样，以得到整体分类结果，其中该整体分类结果包括该手势深度图像中每一像素所述的手势部位标签；以及

对该整体分类结果进行后处理，以获得最终的手势识别结果。

根据本发明的一实施例，在所述对获取的手势深度图像进行下采样，以得到采样后的缩小图像的步骤中：通过直接抽取法，根据预定下采样率从该手势深度图像的x和y方向进行下采样。

根据本发明的一实施例，在所述对该局部分类结果进行上采样，以得到整体分类结果，其中该整体分类结果包括该手势深度图像中每一像素所述的手势部位标签的步骤中：通过最邻近元法，根据预定上采样率对该局部分类结果从图像的 x和y方向进行上采样赋值。

根据本发明的一实施例，该预定上采样率为该预定下采样率的倒数。

根据本发明的一实施例，该预定下采样率根据该手势深度图像中手势区域的面积进行自适应调整，以使该预定下采样率与该手势区域的面积呈正相关。

根据本发明的一实施例，所述对该整体分类结果进行后处理，以获得最终的手势识别结果的步骤，包括步骤：

对该完整分类结果进行超像素划分，以得到纠正后的分类结果；

根据该纠正后的分类结果中不同手部标签的像素集合，计算出像素集合的空间中心点作为手部的关键点；以及

将计算出的该手部的关键点与预设关键点进行模板匹配，以得到该最终的手势识别结果。

根据本发明的另一方面，本发明进一步提供了深度手势识别方法，包括步骤：

对获取的手势深度图像进行预处理，以得到预处理后的手势深度图像，其中该预处理后的手势深度图像仅包括手势区域图像；

对该预处理后的手势深度图像进行下采样，以得到采样后的缩小图像；

对该局部分类结果进行上采样，以得到整体分类结果，其中该整体分类结果包括该预处理后的手势深度图像中每一像素所述的手势部位标签；以及

根据本发明的一实施例，所述对获取的手势深度图像进行预处理，以得到预处理后的手势深度图像，其中该预处理后的手势深度图像仅包括手势区域图像的步骤，包括步骤：

对该手势深度图像进行图像分割处理，以获得手势区域的掩膜；和

根据该手势区域的掩膜，从该手势深度图像中提取手势区域图像，以得到该预处理后的手势深度图像。

根据本发明的一实施例，所述对获取的手势深度图像进行预处理，以得到预处理后的手势深度图像，其中该预处理后的手势深度图像仅包括手势区域图像的步骤，进一步包括步骤：

统计与该手势区域的掩膜对应的像素数量，以得到手势区域的面积。

根据本发明的一实施例，所述对该预处理后的手势深度图像进行下采样，以得到采样后的缩小图像的步骤，包括步骤：

根据该手势区域的面积，自适应调整下采样率，以使该下采样率与该手势区域的面积呈正相关；和

基于调整后的下采样率，对该预处理后的手势深度图像进行下采样，以得到该采样后的缩小图像。

根据本发明的另一方面，本发明进一步提供了深度手势识别系统，包括相互可通信地连接的：

一下采样模块，用于对获取的手势深度图像进行下采样，以得到采样后的缩小图像；

一像素分类模块，用于通过预训练好的分类器对该采样后的缩小图像进行逐像素分类，以得到局部分类结果，其中该局部分类结果包括该采样后的缩小图像中每一像素所属的手势部位标签；

一上采样模块，用于对该局部分类结果进行上采样，以得到整体分类结果，其中该整体分类结果包括该手势深度图像中每一像素所述的手势部位标签；以及

一后处理模块，用于对该整体分类结果进行后处理，以获得最终的手势识别结果。

根据本发明的一实施例，所述后处理模块包括相互可通信地连接的一像素划分模块、一像素计算模块以及一模板匹配模块，其中所述像素划分模块用于对该完整分类结果进行超像素划分，以得到纠正后的分类结果，其中所述像素计算模块用于根据该纠正后的分类结果中不同手部标签的像素集合，计算出像素集合的空间中心点作为手部的关键点，其中所述模板匹配模块用于将计算出的该手部的关键点与预设关键点进行模板匹配，以得到该最终的手势识别结果。

根据本发明的一实施例，所述的深度手势识别系统，进一步包括一预处理模块，其中所述预处理模块与所述下采样模块可通信地连接，并且所述预处理模块用于对获取的手势深度图像进行预处理，以得到预处理后的手势深度图像，其中该预处理后的手势深度图像仅包括手势区域图像，以使所述下采样模块对该预处理后的手势深度图像进行下采样，以得到该采样后的缩小图像。

根据本发明的一实施例，所述预处理模块包括相互可通信地连接的一图像分割模块和一图像提取模块，其中所述图像分割模块用于对该手势深度图像进行图像分割处理，以获得手势区域的掩膜，其中所述图像提取模块用于根据该手势区域的掩膜，从该手势深度图像中提取手势区域图像，以得到该预处理后的手势深度图像。

根据本发明的一实施例，所述预处理模块进一步包括一像素统计模块，用于统计与该手势区域的掩膜对应的像素数量，以得到手势区域的面积。

根据本发明的一实施例，所述的深度手势识别系统，进一步包括一自适应调整模块，其中所述自适应调整模块用于根据该手势区域的面积，自适应调整下采样率，其中该下采样率与该手势区域的面积呈正相关，使得所述下采样模块用于基于调整后的下采样率，对该预处理后的手势深度图像进行下采样，以得到该采样后的缩小图像。

根据本发明的另一方面，本发明进一步提供了一电子设备，包括：

至少一处理器，用于执行指令；和

与所述至少一处理器可通信地连接的存储器，其中，所述存储器具有至少一指令，其中，所述指令被所述至少一处理器执行，以使得所述至少一处理器执行深度手势识别方法中的部分或全部步骤，其中所述深度手势识别方法包括步骤：

一电子设备本体；和

至少一深度手势识别系统，其中所述深度手势识别系统被配置于所述电子设备本体，并且所述深度手势识别系统包括相互可通信地连接的：

通过对随后的描述和附图的理解，本发明进一步的目的和优势将得以充分体现。

本发明的这些和其它目的、特点和优势，通过下述的详细说明，附图和权利要求得以充分体现。

附图说明

图1是根据本发明的一第一实施例的深度手势识别方法的流程示意图。

图2示出了根据本发明的上述第一实施例的所述深度手势识别方法的步骤之一的流程示意图。

图3是根据本发明的一第二实施例的深度手势识别方法的流程示意图。

图4A示出了根据本发明的上述第二实施例的所述深度手势识别方法的步骤之一的流程示意图。

图4B示出了根据本发明的上述第二实施例的所述深度手势识别方法的步骤之二的流程示意图。

图5示出了根据本发明的一实施例的深度手势识别系统的框图示意图。

图6示出了根据本发明的一实施例的一电子设备的框图示意图。

图7示出了根据本发明的一实施例的另一电子设备的结构示意图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

在本发明中，权利要求和说明书中术语“一”应理解为“一个或多个”，即在一个实施例，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个。除非在本发明的揭露中明确示意该元件的数量只有一个，否则术语“一”并不能理解为唯一或单一，术语“一”不能理解为对数量的限制。

在本发明的描述中，需要理解的是，属于“第一”、“第二”等仅用于描述目的，而不能理解为指示或者暗示相对重要性。本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接或者一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以是通过媒介间接连结。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

随着各类消费电子产品的蓬勃发展，人们对于建立人与网络世界联系的惹急交互技术的需求也越来越高。手势识别作为新一代的交互技术，主要利用传感器获取人的手部形状，并转化为命令来操作设备，对诸如AR或VR等场景具有巨大的应用潜力。目前，现有的基于深度图的手势识别方法虽然可以采用逐像素分类的方法来确定手势中不同手指部位对应的输入像素集合，但对输入图像的每一像素进行分类运算，需要较大的计算量。而计算量大在硬件平台上必然需要更大的计算耗时，这导致单帧手势图像的识别实时性变差，并且手势识别算法的可用性也不佳。

换言之，现有的基于深度图的手势识别方法因原理限制需要对每帧输入图像中的每一像素进行分类而需要较大的计算量和较长的耗时，使得逐像素分类环节耗时是整个算法的主要耗时部分。然而，实时性不好以及计算量大引起的设备功耗发热问题都将限制该现有的基于深度图的手势识别方法在各种终端设备和实际场景中的搭载使用。因此，为了减少手势识别中的计算量，本发明提供了一种深度手势识别方法，其能够利用输入图像中相邻像素的空间相似性，使用下采样有效减少送入分类器的分类像素点数量，接着在分类完成后使用上采样对未分类像素赋值，从而得到完整的分类结果，在保证了识别准确率的同时，大幅缩减了手势识别的耗时，提高实时性。

示意性方法

参考说明书附图之图1和图2所示，根据本发明的一实施例的一种深度手势识别方法被阐明。具体地，如图1所示，所述深度手势识别方法，可以包括步骤：

S110：对获取的手势深度图像进行下采样，以得到采样后的缩小图像；

S120：通过预训练好的分类器对所述采样后的缩小图像进行逐像素分类，以得到局部分类结果，其中所述局部分类结果包括所述采样后的缩小图像中每一像素所属的手势部位标签；

S130：对所述局部分类结果进行上采样，以得到整体分类结果，其中所述整体分类结果包括所述手势深度图像中每一像素所属的手势部位标签；以及

S140：对所述整体分类结果进行后处理，以获得最终的手势识别结果。

值得注意的是，本发明的所述深度手势识别方法先对所述手势深度图像进行下采样，以减少用于进行逐像素分类处理的图像中的像素数量，也就是说，本发明的所述深度手势识别方法利用了图像中相邻像素的空间相似性，采用下采样来有效地减少送入分类器的分类像素点数量，以便大幅地减少逐像素分类过程中的计算量，从而大幅地缩减手势识别的耗时，提高手势识别的实时性。与此同时，本发明的所述深度手势识别方法进一步利用上采样对未分类的像素赋值，以得到完整的分类结果，有助于保证手势识别的准确率。

可以理解的是，所述手势深度图像可以但不限于由诸如TOF等深度传感器拍摄守护的手势而获得的，并且所述手势深度图像可以是单帧手势图像，也可以是手势视频流中的某一帧图像。

更具体地，在本发明的上述第一实施例中，所述深度手势识别方法的所述步骤S110优选地通过直接抽取法，根据预定下采样率从所述手势深度图像的x和y方向进行下采样，而不需要插值计算。例如，所述预定下采样率可以但不限于被实施为3/4,1/2或1/3等值。

在所述深度手势识别方法的所述步骤S120中，使用所述预训练好的分类器对输入的所述采样后的缩小图像中的每一像素进行分类，以确定每一像素所属的手势部位标签(即通过分类将每个像素划分到对应的手部关节)，进而统计获得手势不同关节的关键点三维坐标及层级结构，以便后续与预设的标准模板进行对比以得到手势结果。换言之，尽管本发明仍需对所述采样后的缩小图像中所有像素进行逐像素分类，并且逐像素分类环节的耗时是整个手势识别方法的主要耗时部分，但由于所述采样后的缩小图像中的像素数量小于所述手势深度图像中的像素数量，因此本发明的所述深度手势识别方法的计算量得以降低，耗时得以减少，有助于提高所述深度手势识别方法的实时性，以便在诸如AR/VR等终端设备和实际场景中搭载使用。例如，当所述手势深度图像为240*180图像，并采用1/4 的采样率进行下采样，就可以将逐像素分类的计算次数从43200次减少到10800 次，从而能够有效地降低该环节的计算量，使得所述深度手势识别方法能够在各类应用场景中具备可用性。

可以理解的是，本发明的所述分类器可以通过采样后的缩小图像和事先标记的局部分类结果进行训练，以便提高所述分类器的逐像素分类准度，进而提高所述深度手势识别方法的识别准确度。

接着，所述深度手势识别方法的所述步骤S130优选地通过最邻近元法，根据预定上采样率对所述局部分类结果从图像的x和y方向进行上采样赋值，以得到完整的整体分类结果。特别地，本发明的所述预定上采样率被实施为所述预定下采样率的倒数，以确保所述深度手势识别方法能够得到对应于所述手势深度图像的完整分类结果。可以理解的是，本发明的所述最邻近元法的原则是最邻近像素较大概率属于同一手部分类区域。

值得一提的是，在通过所述步骤S130得到的所述完整分类结果中通常会存在局部误分类像素的标签，这会影响后续的模板匹配精度。因此，为了提高手势识别的精确度，如图2所示，本发明的所述深度手势识别方法的所述步骤S140，可以包括步骤：

S141：对所述完整分类结果进行超像素划分，以得到纠正后的分类结果；

S142：根据所述纠正后的分类结果中不同手部标签的像素集合，计算出像素集合的空间中心点作为手部的关键点；以及

S143：将计算出的所述手部的关键点与预设关键点进行模板匹配，以得到所述最终的手势识别结果。

值得注意的是，在本发明的所述深度手势识别方法的所述步骤S141中，所述深度手势识别方法通过对上采样后的分类结果(即所述完整分类结果)进行超像素划分，以通过超像素再分类来纠正分类结果中存在的局部误分类像素的标签，有助于进一步提高所述最终的手势识别结果的精准度。

值得一提的是，通过诸如TOF等深度传感器拍摄用户手势获得的所述手势深度图像中除了包括手势区域之外，还会包括一些背景区域，而所述手势深度图像中与背景区域对应的像素通常对最终的手势识别结果不仅没有帮助，而且还会因处理这部分像素而花费较多的时间。因此，为了进一步缩短深度手势识别的耗时，如图3所示，本发明的一第二实施例提供了一种深度手势识别方法，包括步骤如下：

S210：对获取的手势深度图像进行预处理，以得到预处理后的手势深度图像，其中所述预处理后的手势深度图像仅包括手势区域图像；

S220：对所述预处理后的手势深度图像进行下采样，以得到采样后的缩小图像；

S230：通过预训练好的分类器对所述采样后的缩小图像进行逐像素分类，以得到局部分类结果，其中所述局部分类结果包括所述采样后的缩小图像中每一像素所属的手势部位标签；

S240：对所述局部分类结果进行上采样，以得到整体分类结果，其中所述整体分类结果包括所述预处理后的手势深度图像中每一像素所属的手势部位标签；以及

S250：对所述整体分类结果进行后处理，以获得最终的手势识别结果。

更具体地，在本发明的上述第二实施例中，如图4A所示，所述深度手势识别方法的所述步骤S210，可以包括步骤：

S211：对所述手势深度图像进行图像分割处理，以获得手势区域的掩膜；和

S212：根据所述手势区域的掩膜，从所述手势深度图像中提取手势区域图像，以得到所述预处理后的手势深度图像。

值得注意的是，正是由于所述手势深度图像在经过预处理后(即所述预处理后的手势深度图像)仅包括了手势区域图像，而不包括背景区域图像，即所述预处理后的手势深度图像中的像素数量小于原始的所述手势深度图像中的像素数量，因此在后续对所述预处理后的手势深度图像进行下采样、逐像素分类、上采样以及后处理的过程中均不需要处理所述背景区域图像中的像素，使得本发明的所述深度手势识别方法的耗时得以进一步缩短，进一步提高所述深度手势识别方法的实时性。

示例性地，在本发明的所述深度手势识别方法的所述步骤S211中，可以通过深度阈值进行滤波，并结合连通域的方式寻找分割出手势部分区域，以获得手势区域的掩膜二值图像，接着再根据所述手势区域的掩膜从所述手势深度图像中提取手势区域图像，以过滤掉手势区域之外的其他像素，从而获得仅包括所述手势区域图像的所述预处理后的手势深度图像。

优选地，本发明的所述深度手势识别方法的所述步骤S211采用深度阈值进行中值滤波，以便滤除所述手势深度图像中的噪点，提高所述预处理后的手势深度图像中像素的有效性，进而提升所述深度手势识别方法对手势识别的精准度。

值得一提的是，对于同一深度传感器拍摄用户的手势获得的手势深度图像，当用户的手势与所述深度传感器之间的距离不同时，所述手势深度图像中的所述手势区域图像的大小也将不同，即所述手势深度图像中手势区域的面积会随着户的手势与所述深度传感器之间的距离变化而变化。当然，由于不同用户(如大人和小孩)的手部大小本身也存在差异，因此当采用统一深度传感器拍摄不同用户的手势而获得的手势深度图像中手势区域的面积也会不同。这样，如果对具有不同大小的所述手势区域图像(即所述预处理后的手势深度图像)均采用同样的采样率进行下采样，具有较大面积手势区域的所述预处理后的手势深度图像将保留较多的信息，造成计算量偏大；而具有较小面积手势区域的所述预处理后的手势深度图像将损失较多的信息，导致手势识别精度下降，甚至无法完成手势识别。

因此，为了解决上述问题，如图4B所示，本发明的上述第二实施例的所述深度手势识别方法的所述步骤S220，可以包括步骤：

S221：根据手势区域的面积，自适应调整下采样率，以使所述下采样率与所述手势区域的面积呈正相关；和

S222：基于调整后的下采样率，对所述预处理后的手势深度图像进行下采样，以得到所述采样后的缩小图像。

示例性地，假设所述原始本发明的所述深度手势识别方法所采用的自适应调整模型可以但不限于被实施为：

R＝R_i，其中(i-1)B≤S＜iB，1≤i≤n

其中：R为下采样率；n和R_i为预设参数；S为手势区域的面积；B为基准手势的像素数量。可以理解的是，假设所述预处理后的手势深度图像的像素数量为 N，则N＝n*B。特别地，{R₁,R₂···R_n}为递减序列，也就是说，所述手势区域的面积越小，则所述下采样率就越大，以减少因下采样而造成的信息损失。

当然，本发明的所述预设参数可以根据具体应用需求，综合考量耗时和准确率的要求来进行调整，这是因为下采样的过程中会不可避免地噪声信息丢失。此外，R_i＝R_H*R_V，其中R_H和R_V分别为x和y方向上的采样率，并且R_H和R_V可以等于a/b，其中a和b属于自然数，并且b小于等于a。例如，R_H和R_V可以选择1,3/4，1/2或1/3等值。

值得注意的是，如图4A所示，本发明的上述第二实施例的所述深度手势识别方法的所述步骤S210，可以进一步包括步骤：

S213：统计与所述手势区域的掩膜对应的像素数量，以得到所述手势区域的面积。

这样，在本发明的上述第二实施例中，假设获取的所述手势深度图像为 240*180图像，其中手势区域的面积占10000个像素。此时采用1/4采样率进行下采样，就可以将逐像素分类的运行次数从43200次减少到2500次，从而大幅地降低该环节的计算量，大幅地提高所述深度手势识别方法的识别效率，使得所述深度手势识别方法的实时性能够满足各种应用场景的需求。当然，在本发明的其他示例中，所述下采样率还可以由用户根据自己的手部大小和操作习惯来事先设定，以便适应不同用户的特定/特殊需求。

示意性系统

参考说明书附图之图5所示，根据本发明的一实施例的一深度手势识别系统被阐明。具体地，如图5所示，所述深度手势识别系统400包括相互可通信地连接的一下采样模块410、一像素分类模块420、一上采样模块430以及一后处理模块440。所述下采样模块410用于对获取的手势深度图像进行下采样，以得到采样后的缩小图像。所述像素分类模块420用于通过预训练好的分类器对该采样后的缩小图像进行逐像素分类，以得到局部分类结果，其中该局部分类结果包括该采样后的缩小图像中每一像素所属的手势部位标签。所述上采样模块430用于对该局部分类结果进行上采样，以得到整体分类结果，其中该整体分类结果包括该手势深度图像中每一像素所述的手势部位标签。所述后处理模块440用于对该整体分类结果进行后处理，以获得最终的手势识别结果。

更具体地，如图5所示，所述后处理模块440包括相互可通信地连接的一像素划分模块441、一像素计算模块442以及一模板匹配模块443，其中所述像素划分模块441用于对该完整分类结果进行超像素划分，以得到纠正后的分类结果，其中所述像素计算模块442用于根据该纠正后的分类结果中不同手部标签的像素集合，计算出像素集合的空间中心点作为手部的关键点，其中所述模板匹配模块443用于将计算出的该手部的关键点与预设关键点进行模板匹配，以得到该最终的手势识别结果。

在本发明的上述实施例中，如图5所示，所述深度手势识别系统400可以进一步包括一预处理模块450，其中所述预处理模块450与所述下采样模块410可通信地连接，并且所述预处理模块450用于对获取的手势深度图像进行预处理，以得到预处理后的手势深度图像，其中该预处理后的手势深度图像仅包括手势区域图像，以使所述下采样模块410对该预处理后的手势深度图像进行下采样，以得到该采样后的缩小图像。

值得注意的是，在本发明的一示例中，如图5所示，所述预处理模块450 可以包括相互可通信地连接的一图像分割模451块和一图像提取模块452，其中所述图像分割模块451用于对该手势深度图像进行图像分割处理，以获得手势区域的掩膜，其中所述图像提取模块452用于根据该手势区域的掩膜，从该手势深度图像中提取手势区域图像，以得到该预处理后的手势深度图像。

进一步地，如图5所示，所述预处理模块450还可以包括一像素统计模块453，用于统计与该手势区域的掩膜对应的像素数量，以得到手势区域的面积。

值得一提的是，在本发明的上述实施例中，如图5所示，所述深度手势识别系统400可以进一步包括一自适应调整模块460，其中所述自适应调整模块460 用于根据该手势区域的面积，自适应调整下采样率，其中该下采样率与该手势区域的面积呈正相关，使得所述下采样模块410用于基于调整后的下采样率，对该预处理后的手势深度图像进行下采样，以得到该采样后的缩小图像。

示意性电子设备

下面，参考图6来描述根据本发明的一实施例的电子设备。如图6所示，电子设备90包括一个或多个处理器91和存储器92。

所述处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备90中的其他组件以执行期望的功能。换言之，所述处理器91包括被配置成执行指令的一个或多个物理设备。例如，所述处理器91可被配置成执行作为以下各项的一部分的指令：一个或多个应用、服务、程序、例程、库、对象、组件、数据结构、或其他逻辑构造。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其他方式得到期望结果。

所述处理器91可包括被配置成执行软件指令的一个或多个处理器。作为补充或替换，所述处理器91可包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。所述处理器91的处理器可以是单核或多核，且在其上执行的指令可被配置为串行、并行和/或分布式处理。所述处理器91的各个组件可任选地分布在两个或更多单独设备上，这些设备可以位于远程和/或被配置成进行协同处理。所述处理器91的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。

所述存储器92可以包括一个或多个计算程序产品，所述计算程序产品可以包括各种形式的计算可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器 (cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算可读存储介质上可以存储一个或多个计算程序指令，所述处理器11可以运行所述程序指令，以实现上文所述的本发明的上述示意性方法中的部分或全部步骤，以及/或者其他期望的功能。

换言之，所述存储器92包括被配置成保存可由所述处理器91执行以实现此处所述的方法和过程的机器可读指令的一个或多个物理设备。在实现这些方法和过程时，可以变换所述存储器92的状态(例如，保存不同的数据)。所述存储器 92可以包括可移动和/或内置设备。所述存储器92可包括光学存储器(例如，CD、 DVD、HD-DVD、蓝光盘等)、半导体存储器(例如，RAM、EPROM、EEPROM等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)等等。所述存储器92可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。

可以理解，所述存储器92包括一个或多个物理设备。然而，本文描述的指令的各方面可另选地通过不由物理设备在有限时长内持有的通信介质(例如，电磁信号、光信号等)来传播。所述处理器91和所述存储器92的各方面可被一起集成到一个或多个硬件逻辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂可编程逻辑器件(CPLD)。

在一个示例中，如图6所示，所述电子设备90还可以包括输入装置93和输出装置94，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。例如，该输入装置93可以是例如用于采集图像数据或视频数据的摄像模组等等。又如，所述输入装置93可以包括诸如键盘、鼠标、触摸屏或游戏控制器之类的一个或多个用户输入设备或者与其对接。在一些实施例中，所述输入装置93可以包括所选择的自然用户输入(NUI)部件或与其对接。这种元件部分可以是集成的或外围的，并且输入动作的转导和/或处理可以在板上或板外被处理。示例 NUI部件可包括用于语言和/或语音识别的话筒；用于机器视觉和/或姿势识别的红外、色彩、立体显示和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪；以及用于评估脑部活动和/或身体运动的电场感测部件；和/或任何其他合适的传感器。

该输出装置94可以向外部输出各种信息，包括分类结果等。该输出装置94 可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，所述电子设备90还可以进一步包括所述通信装置，其中所述通信装置可被配置成将所述电子设备90与一个或多个其他计算机设备通信地耦合。所述通信装置可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可被配置成用于经由无线电话网络或者有线或无线局域网或广域网来进行通信。在一些实施例中，所述通信装置可允许所述电子设备90经由诸如因特网这样的网络将消息发送至其他设备以及/或者从其它设备接收消息。

将会理解，此处描述的配置和/或方法本质是示例性的，这些具体实施例或示例不应被视为限制性的，因为许多变体是可能的。此处描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此，所示和/或所述的各种动作可以以所示和/或所述顺序、以其他顺序、并行地执行，或者被省略。同样，上述过程的次序可以改变。

当然，为了简化，图6中仅示出了该电子设备90中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备90还可以包括任何其他适当的组件。

根据本发明的另一方面，本发明的一实施例进一步提供了另一电子设备。示例性地，如图7所示，所述电子设备包括一电子设备本体800和至少一深度手势识别系统400，其中所述深度手势识别系统400被配置于所述电子设备本体800，并且所述深度手势识别系统400包括相互可通信地连接的：一下采样模块，用于对获取的手势深度图像进行下采样，以得到采样后的缩小图像；一像素分类模块，用于通过预训练好的分类器对该采样后的缩小图像进行逐像素分类，以得到局部分类结果，其中该局部分类结果包括该采样后的缩小图像中每一像素所属的手势部位标签；一上采样模块，用于对该局部分类结果进行上采样，以得到整体分类结果，其中该整体分类结果包括该手势深度图像中每一像素所述的手势部位标签；以及一后处理模块，用于对该整体分类结果进行后处理，以获得最终的手势识别结果。

值得注意的是，所述电子设备本体800可以是眼镜、头戴式显示设备、增强现实设备、虚拟现实设备、智能手机或混合现实设备等任何能够被配置所述深度手势识别系统400的设备或系统。本领域的技术人员可以理解的是，尽管附图7 中以所述电子设备本体800被实施为AR眼镜为例，但其并不构成对本发明的内容和范围的限制。

还需要指出的是，在本发明的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

Claims

1.深度手势识别方法，其特征在于，包括步骤：

2.如权利要求1所述的深度手势识别方法，其中，在所述对获取的手势深度图像进行下采样，以得到采样后的缩小图像的步骤中：通过直接抽取法，根据预定下采样率从该手势深度图像的x和y方向进行下采样。

3.如权利要求2所述的深度手势识别方法，其中，在所述对该局部分类结果进行上采样，以得到整体分类结果，其中该整体分类结果包括该手势深度图像中每一像素所述的手势部位标签的步骤中：通过最邻近元法，根据预定上采样率对该局部分类结果从图像的x和y方向进行上采样赋值。

4.如权利要求3所述的深度手势识别方法，其中，该预定上采样率为该预定下采样率的倒数。

5.如权利要求2所述的深度手势识别方法，其中，该预定下采样率根据该手势深度图像中手势区域的面积进行自适应调整，以使该预定下采样率与该手势区域的面积呈正相关。

6.如权利要求1至5中任一所述的深度手势识别方法，其中，所述对该整体分类结果进行后处理，以获得最终的手势识别结果的步骤，包括步骤：

对该整体分类结果进行超像素划分，以得到纠正后的分类结果；

7.深度手势识别方法，其特征在于，包括步骤：

8.如权利要求7所述的深度手势识别方法，其中，所述对获取的手势深度图像进行预处理，以得到预处理后的手势深度图像，其中该预处理后的手势深度图像仅包括手势区域图像的步骤，包括步骤：

9.如权利要求8所述的深度手势识别方法，其中，所述对获取的手势深度图像进行预处理，以得到预处理后的手势深度图像，其中该预处理后的手势深度图像仅包括手势区域图像的步骤，进一步包括步骤：

10.如权利要求9所述的深度手势识别方法，其中，所述对该预处理后的手势深度图像进行下采样，以得到采样后的缩小图像的步骤，包括步骤：

11.深度手势识别系统，其特征在于，包括相互可通信地连接的：

12.如权利要求11所述的深度手势识别系统，其中，所述后处理模块包括相互可通信地连接的一像素划分模块、一像素计算模块以及一模板匹配模块，其中所述像素划分模块用于对该整体分类结果进行超像素划分，以得到纠正后的分类结果，其中所述像素计算模块用于根据该纠正后的分类结果中不同手部标签的像素集合，计算出像素集合的空间中心点作为手部的关键点，其中所述模板匹配模块用于将计算出的该手部的关键点与预设关键点进行模板匹配，以得到该最终的手势识别结果。

13.如权利要求11或12所述的深度手势识别系统，进一步包括一预处理模块，其中所述预处理模块与所述下采样模块可通信地连接，并且所述预处理模块用于对获取的手势深度图像进行预处理，以得到预处理后的手势深度图像，其中该预处理后的手势深度图像仅包括手势区域图像，以使所述下采样模块对该预处理后的手势深度图像进行下采样，以得到该采样后的缩小图像。

14.如权利要求13所述的深度手势识别系统，其中，所述预处理模块包括相互可通信地连接的一图像分割模块和一图像提取模块，其中所述图像分割模块用于对该手势深度图像进行图像分割处理，以获得手势区域的掩膜，其中所述图像提取模块用于根据该手势区域的掩膜，从该手势深度图像中提取手势区域图像，以得到该预处理后的手势深度图像。

15.如权利要求14所述的深度手势识别系统，其中，所述预处理模块进一步包括一像素统计模块，用于统计与该手势区域的掩膜对应的像素数量，以得到手势区域的面积。

16.如权利要求15所述的深度手势识别系统，进一步包括一自适应调整模块，其中所述自适应调整模块用于根据该手势区域的面积，自适应调整下采样率，其中该下采样率与该手势区域的面积呈正相关，使得所述下采样模块用于基于调整后的下采样率，对该预处理后的手势深度图像进行下采样，以得到该采样后的缩小图像。

17.电子设备，其特征在于，包括：

至少一处理器，用于执行指令；和

18.电子设备，其特征在于，包括：

一电子设备本体；和