CN114489341A

CN114489341A - 手势的确定方法和装置、电子设备和存储介质

Info

Publication number: CN114489341A
Application number: CN202210110252.4A
Authority: CN
Inventors: 彭博文; 武锐; 徐亮; 闫祥; 牛建伟
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-13
Anticipated expiration: 2042-01-28
Also published as: CN114489341B

Abstract

本公开实施例公开了一种手势的确定方法和装置、电子设备和存储介质，其中，方法包括：获取环境图像数据；根据所述环境图像数据，确定用户的手部信息；根据所述用户的手部信息，确定所述用户的手势所属的目标手势类型及目标投影方向；按照所述目标投影方向，将所述目标手势类型对应的手势标志投影到目标对象上。本公开实施例可以为用户提供交互对象的视觉上的信息反馈，使得用户能够及时准确地获知自己手势是否准确地指向了想要的交互对象，有效提高用户体验。

Description

手势的确定方法和装置、电子设备和存储介质

技术领域

本公开涉及计算机视觉技术，尤其是一种手势的确定方法和装置、电子设备和存储介质。

背景技术

随着科学技术的飞速发展，智能座舱逐渐成为车辆、飞机等交通工具的标配，在智能座舱中，手势交互功能是必不可少的功能，现有技术中，通过手势动作控制音量、空调等，但是，用户在完成手势后，无法及时有效地确定自己手势是否准确指向了想要的交互对象，只能根据手势交互后对象的变化来确定，导致用户体验较差。

发明内容

为了解决上述用户无法及时有效地确定自己手势是否准确指向了想要的交互对象的技术问题，提出了本公开。本公开的实施例提供了一种手势的确定方法和装置、电子设备和存储介质。

根据本公开实施例的一个方面，提供了一种手势的确定方法，包括：获取环境图像数据；根据所述环境图像数据，确定用户的手部信息；根据所述用户的手部信息，确定所述用户的手势所属的目标手势类型及目标投影方向；按照所述目标投影方向，将所述目标手势类型对应的手势标志投影到目标对象上。

根据本公开实施例的另一个方面，提供了一种手势的确定装置，包括：第一获取模块，用于获取环境图像数据；第一处理模块，用于根据所述环境图像数据，确定用户的手部信息；第二处理模块，用于根据所述用户的手部信息，确定所述用户的手势所属的目标手势类型及目标投影方向；第三处理模块，用于按照所述目标投影方向，将所述目标手势类型对应的手势标志投影到目标对象上。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开上述任一实施例所述的手势的确定方法。

根据本公开实施例的又一方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本公开上述任一实施例所述的手势的确定方法。

基于本公开上述实施例提供的手势的确定方法和装置、电子设备和存储介质，通过基于用户的手部信息确定投影方向，从而按照投影方向将用户的手势类型对应的手势标志投影到相应的目标对象上，为用户提供交互对象的视觉上的信息反馈，使得用户能够及时准确地获知自己手势是否准确地指向了想要的交互对象，有效提高用户体验。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开提供的手势的确定方法的一个示例性的应用场景；

图2是本公开一示例性实施例提供的手势的确定方法的流程示意图；

图3是本公开另一个示例性实施例提供的手势的确定方法的流程示意图；

图4是本公开再一个示例性实施例提供的手势的确定方法的流程示意图；

图5是本公开一个示例性实施例提供的步骤20321的流程示意图；

图6是本公开一示例性实施例提供的体素值变化示意图；

图7是本公开一个示例性实施例提供的步骤202的流程示意图；

图8是本公开一示例性实施例提供的手部指向的示意图；

图9是本公开一个示例性实施例提供的步骤203的目标手势类型的确定流程示意图；

图10是本公开一示例性实施例提供的特征提取模型和手势分类模型的训练过程的示意框图；

图11是本公开又一示例性实施例提供的手势的确定方法的流程示意图；

图12是本公开一示例性实施例提供的手势的确定装置的结构示意图；

图13是本公开一示例性实施例提供的第二处理模块503的结构示意图；

图14是本公开一示例性实施例提供的第二处理单元5032的结构示意图；

图15是本公开一示例性实施例提供的第一处理模块502的结构示意图；

图16是本公开另一示例性实施例提供的第二处理模块503的结构示意图；

图17是本公开电子设备一个应用实施例的结构示意图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，在智能座舱等空间场景中，可以通过手势动作控制音量、空调等的功能，但是，用户在完成手势后，无法及时有效地确定自己手势是否准确指向了想要的交互对象，只能根据手势交互后对象的变化来确定，导致用户体验较差。

示例性概述

图1是本公开提供的手势的确定方法的一个示例性的应用场景。

在车辆的智能座舱的空间场景中，座舱中的用户可以通过手势动作控制空调、车窗、天窗等，利用本公开提供的手势的确定方法，在用户做出相应的手势时，可以通过视觉传感器采集包括用户手势动作的环境图像数据，视觉传感器可以包括单目摄像头、双目或多目摄像头、深度摄像头等摄像头中的一种或多种，具体摄像头类型及安装位置可以根据实际需求设置，根据该环境图像数据可以确定出用户的手部信息，进而根据用户手部信息确定用户手势所属的目标手势类型及目标投影方向，从而可以按照目标投影方向将目标手势类型对应的手势标志投影到相应的目标对象上，给用户提供视觉上的反馈，使用户能够及时看到自己当前手势交互对应的对象，以便于用户确定目标对象是否是自己想要指向的对象，有效提升用户体验。其中，手势标志的投影可以通过任意可实施的投影装置实现，比如可以在座舱内设置360度可旋转的投影仪，来实现手势标志的投影。

示例性方法

图2是本公开一示例性实施例提供的手势的确定方法的流程示意图。本实施例可应用在电子设备上，该电子设备可以为任意的计算机设备，包括终端设备及服务器，具体比如应用在车辆的车载计算平台上、游戏室等其他空间场景的终端设备或服务器上，具体可以根据实际需求设置，如图2所示，本公开的方法包括如下步骤：

步骤201，获取环境图像数据。

其中，环境图像数据是包括用户手势动作的图像数据，可以通过在一定位置安装相应的摄像头来拍摄环境图像数据，摄像头类型和数量可以根据实际需求设置，比如摄像头可以是单目摄像头、双目摄像头、多目摄像头、深度摄像头，等等。

可选地，用户所处的环境可以是任意可能的空间场景，比如车辆、飞机等的智能座舱，游戏室及其他任意可以为用户提供基于手势交互控制相应设备功能等等场景。

步骤202，根据环境图像数据，确定用户的手部信息。

其中，用户的手部信息可以包括手部位置信息、手部关节点坐标、手部指向的三维射线信息及其他相关信息中的至少一种。基于环境图像数据确定用户的手部信息可以采用任意可实施的方法，本实施例不做限定。比如基于训练获得的手部检测模型进行手部检测、基于一定的跟踪算法跟踪手部位置、基于训练获得的手部关键点检测模型检测手部关键点，等等。

步骤203，根据用户的手部信息，确定用户的手势所属的目标手势类型及目标投影方向。

具体的，可以预先设置各种对象分别对应的手势类型，当获取到用户的手部信息后，可以采用任意可实施的方式对用户的手部信息进行分类，来确定用户的手势所属的目标手势类型。目标投影方向是根据用户手部信息确定的手势标志需要的投影方向。

步骤204，按照目标投影方向，将目标手势类型对应的手势标志投影到目标对象上。

其中，可以为不同的手势类型分别设置不同的手势标志，手势标志的投影可以采用任意可实施的方式实现，比如采用投影装置进行投影，则可以根据用户手部或手指的指向确定投影装置需要的目标投影方向，投影装置则可以沿目标投影方向将手势标志进行投影。投影装置可以是可任意旋转的，从而根据目标投影方向控制旋转，旋转到目标投影方向上，将相应的手势标志进行投影。投影装置也可以是包括多个投影方向的设备，比如在每个投影方向设置一个投影仪，每个投影方向对应一个对象，确定目标投影方向后，控制投影装置相应方向的投影仪进行投影即可，具体可以根据实际需求设置，本公开不做限定。目标对象即为按照目标投影方向进行投影时，手势标志所在的对象，比如车辆或飞机等的车窗、天窗、空调、音量开关等，再比如游戏室内游戏设备、空调、灯及其他可能的对象，等等。

本实施例提供的手势的确定方法，通过基于用户的手部信息确定投影方向，从而按照投影方向将用户的手势类型对应的手势标志投影到相应的目标对象上，为用户提供交互对象的视觉上的信息反馈，使得用户能够及时准确地获知自己手势是否准确地指向了想要的交互对象，有效提高用户体验。

在一个可选示例中，图3是本公开另一个示例性实施例提供的手势的确定方法的流程示意图，在本示例中，步骤203具体可以包括以下步骤：

步骤2031，根据用户的手部信息及预先训练获得的手势分类模型，确定目标手势类型。

其中，手势分类模型可以采用任意可实施的分类模型，本实施例不做限定。比如基于MLP(Multilayer Perceptron，多层感知机)的分类模型、基于GCN(Graph ConvolutionalNetwork，图卷积神经网络)的分类模型，等等。

步骤2032，根据用户的手部信息及预先建立的用户所在的目标空间的模型，确定目标投影方向。

其中，目标空间的模型是预先建立的模拟目标空间的三维模型，可以采用任意可实施的模型，只要能够确定用户手部指向对应的目标投影方向即可。

示例性的，目标空间的模型可以采用TSDF(Truncated Signed DistanceFunction，基于截断的带符号距离函数)模型，基于用户手部指向与目标空间的模型表面的交点来确定目标投影方向。

需要说明的是，步骤2031与步骤2032不分先后顺序。

本公开通过预先训练获得的手势分类模型，确定用户的目标手势类型，并基于目标空间的模型来确定目标投影方向，有效提高手势标志投影的准确性。

在一个可选示例中，图4是本公开再一个示例性实施例提供的手势的确定方法的流程示意图，在本示例中，用户的手部信息包括手部指向的三维射线信息；步骤2032具体包括：

步骤20321，根据三维射线信息及目标空间的模型，确定三维射线信息对应的射线与目标空间的模型的表面相交的目标坐标点。

其中，手部指向可以是手掌指向或手指指向，具体可以根据实际需求设置，三维射线信息则是表示沿用户手部指向方向的射线的三维信息。目标空间模型的表面是指模型中与目标空间内表面对应的部分，比如若目标空间的模型为TSDF模型，该TSDF模型则为目标空间内表面模型。

步骤20322，根据目标坐标点确定目标投影方向。

当确定了用户手部指向的三维射线与目标空间模型表面相交的目标坐标点，即确定了用户指向的对象在模型中的位置，基于该目标坐标点确定的目标投影方向可以使手势标志投影到目标空间中该目标坐标点对应的位置。目标投影方向的确定，可以基于目标坐标点与投影装置的位置来确定，投影装置的位置可以用一具体坐标表示，比如投影装置中心的坐标，具体可以根据实际需求设置。

可以理解地，可以建立目标空间的模型的坐标系与摄像头坐标系的映射关系，以及建立投影方向与模型上坐标点的对应关系，从而能够根据模型上的目标坐标点，确定出目标投影方向，将手势标志投影到目标空间内对应的真实对象上。比如目标空间的模型可以是基于摄像头坐标系建立，具体可以根据实际需求设置。

相应的，步骤204具体包括：

步骤2041，根据目标投影方向，控制投影装置将目标手势类型对应的手势标志投影到目标空间的内表面上与目标坐标点对应的目标对象上。

其中，投影装置的类型和安装位置可以根据实际需求设置，只要能实现需要的投影方向的投影即可。手势标志可以是预先设置在投影装置中，并建立手势类型与手势标志的对应关系，在控制投影装置时，将目标手势类型和目标投影方向的相关参数一起发送给投影装置，投影装置根据手势类型与手势标志的对应关系确定出目标手势类型对应的手势标志，进而根据目标投影方向的相关参数控制自身的投影方向变更为目标投影方向。在实际应用中，还可以采用其他可实施的方式控制投影装置，不限于上述方式，具体不再赘述。

本公开通过用户手部指向射线与目标空间模型内表面的交点坐标来确定投影装置的目标投影方向，从而可以使投影装置将手势标志准确地投影到用户手部指向的对象上。

在一个可选示例中，图5是本公开一个示例性实施例提供的步骤20321的流程示意图，在本示例中，三维射线信息包括射线起点坐标和射线方向；步骤20321的根据三维射线信息及目标空间的模型，确定三维射线信息对应的射线与目标空间的模型的表面相交的目标坐标点，具体包括：

步骤203211，根据目标空间的模型的体素网格尺寸确定射线采样间隔。

具体的，可以根据目标空间的模型的体素网格尺寸按照一定的预设规则来确定射线采样间隔，预设规则可以根据实际需求设置，比如可以将体素边长作为射线采样间隔。体素是构成三维模型的最小单位，是小立方块，比如TSDF，是一种利用结构化点云数据并以参数表达表面的表面重建算法。核心是将点云数据映射到一个预先定义的三维立体空间中，并用截断符号距离函数表示真实场景表面附近的区域，建立表面模型，TSDF的具体原理不再赘述。

步骤203212，根据射线起点坐标和射线方向，按照射线采样间隔进行均匀采样，获得多个三维采样点。

其中，射线起点坐标可以根据实际需求设置为手指根部的坐标或手掌中心的坐标，或其他可能的部位的坐标，具体不做限定。射线方向即表示了用户手部指向的具体方向，按照射线采样间隔进行均匀采样是为了后续确定射线与模型表面的交点。

步骤203213，根据目标空间的模型，获取各三维采样点分别对应的体素值。

其中，三维采样点是采样的三维坐标点，三维采样点对应的体素值是表示该三维采样点所属体素与模型表面的距离。在目标空间的模型中，包括了各体素对应的体素值，每个体素与三维空间的三维坐标具有相应的映射关系，因此，可以基于三维采样点的三维坐标及各体素对应的三维坐标，来确定各三维采样点所属的体素，进而可以获取各三维采样点分别对应的体素值。

示例性的，可以从采样起点开始，沿采样方向遍历各三维采样点，并搜索其在模型中的体素值。

步骤203214，根据各三维采样点及各三维采样点分别对应的体素值，确定目标坐标点。

由于三维采样点是沿射线方向进行采样的，随着采样的不断进行，采样点逐渐靠近模型表面进而跨越表面，而模型表面内外的体素值是相反的，基于此原理，可以确定跨越模型表面的两个相邻三维采样点，进而可以基于该两个相邻三维采样点的三维坐标来确定射线与模型表面相交点的坐标，即获得目标坐标点。

本公开通过沿用户指向方向的射线进行采样，结合采样点对应体素值变化来确定与模型表面相交的目标坐标点，进一步提高了目标坐标点的准确性。

在一个可选示例中，步骤203214的根据各三维采样点及各三维采样点分别对应的体素值，确定目标坐标点，具体包括：根据各三维采样点及各三维采样点分别对应的体素值，确定体素值从正直变为负值的变化前采样点和变化后采样点；基于变化前采样点和变化后采样点、及分别对应的体素值，采用三线性插值方式确定目标坐标点。

具体的，体素值从正值变为负值表示跨越了目标空间的模型的表面，可以记录跨越前和跨越后的两点坐标，即变化前采样点和变化后采样点，并可以记录该两采样点所在体素的网格索引，该网格索引用于后续的三线性插值，三线性插值是在三维离散采样数据的张量积网格上进行线性插值的方法。这个张量积网格可能在每一维度上都有任意不重叠的网格点，但并不是三角化的有限元分析网格。这种方法通过网格上数据点在局部的矩形棱柱上线性地近似计算点(x,y,z)的值，这里的张量积网格即为本公开的目标空间的模型的体素网格。具体三线性插值原理不再赘述。

示例性的，图6是本公开一示例性实施例提供的体素值变化示意图，图中，虚曲线表示模型的表面，数字表示体素值。

本公开通过确定沿用户指向方向的射线上跨越模型表面的两个三维采样点，进而基于三线性插值方式来确定目标坐标点，进一步提高了目标坐标点的准确性。

在一个可选示例中，步骤20322的根据目标坐标点确定目标投影方向，具体包括：根据目标坐标点，确定投影装置中心到目标坐标点的坐标向量；根据坐标向量确定目标投影方向。

其中，投影装置的中心可以根据实际需求设置，其应该是在投影装置的投影方向射线所在的直线上，可以预先获得并存储，比如对于可旋转的投影装置，其可以是在不同投影方向所在直线的交点上，以便准确地确定投影装置的目标投影方向。投影装置的投影控制原理具体不再赘述。

在一个可选示例中，图7是本公开一个示例性实施例提供的步骤202的流程示意图，在本示例中，用户的手部信息包括手部位置信息、手部关节点坐标及手部指向的三维射线信息中的至少一种；步骤202的根据环境图像数据，确定用户的手部信息，包括：

步骤2021，基于预先训练获得的手部检测模型，对环境图像数据进行手部检测，获得各帧图像分别对应的手部检测结果，手部检测结果至少包括检测到的手部区域框。

其中，手部检测模型可以是任意可实施的检测模型，比如FastRCNN(Fast Region-CNN)模型、SSD(Single Shot MultiBox Detector，单镜头多盒检测器)模型、YOLO(YouOnly Look Once)模型等，以及各种模型的系列变体，具体可以根据实际需求设置。

FastRCNN模型是在R-CNN的基础上改进获得的，R-CNN是第一个成功将深度学习应用到目标检测上的算法，R-CNN基于卷积神经网络(CNN)、线性回归、和支持向量机(SVM)等算法，实现目标检测，具体原理不再赘述。

SSD是一种目标检测算法，SSD的一个核心之处在于：预测一系列相对于DefaultBounding Box的Category Scores和Box Offsets。而不是通过一个RPN(Region ProposalNetwork)的结果生成ROI然后计算Bounding Box，具体原理不再赘述。

YOLO是一种基于深度神经网络的对象识别和定位算法，将对象检测重新定义为一个回归问题。将单个卷积神经网络(CNN)应用于整个图像，将图像分成网格，并预测每个网格的类概率和边界框，具体原理不再赘述。

环境图像数据包括至少一帧的图像数据，通常包括多帧的图像数据，基于手部检测模型对环境图像数据进行手部检测，需要对每帧图像进行检测，或者根据实际需求跳帧进行检测，比如每隔一定帧数提取一帧进行检测，具体可以根据实际需求设置，本实施例不做限定。对于一帧图像，可能包括一个或多个用户的手部图像区域，该步骤的检测即是检测出图像中所有的手部区域框，具体检测原理不再赘述。

步骤2022，根据手部检测结果及预设跟踪算法，对用户的手部位置进行跟踪，获得用户的手部位置信息。

具体的，由于需要确定用户的手势动作，而一帧图像中可能包括多个用户的手部内容，因此，在多帧图像中需要对各用户的手部位置进行跟踪，以准确确定每个用户的手势动作。其中，预设跟踪算法可以采用任意可实施的算法，本公开不做限定，比如DFF(DeepFeature Flow)算法、STARK(是一种SOTA跟踪模型)、ByteTrack(是一种多目标跟踪SOTA算法)等。

DFF算法把一个正向反馈的深度卷积网络拆分成两个连续子网络，第一个子网络被称为特征网络(feature network)，是一个全卷积网络且输出大量中间特征图。第二个子网络被称为任务网络(task network)，有着处理任务的特殊结构，可以在特征图上执行识别任务，具体原理不再赘述。

ByteTrack是基于tracking-by-detection范式的跟踪算法，其利用检测框和跟踪轨迹之间的相似性，在保留高分检测结果的同时，从低分检测结果中去除背景，挖掘出真正的物体(遮挡、模糊等困难样本)，从而降低漏检并提高轨迹的连贯性，具体原理不再赘述。

步骤2023，根据手部检测结果及预先训练获得的手部关键点检测模型，确定用户的手部关键点坐标。

其中，手部关键点检测模型可以采用任意可实施的模型，比如Heatmap(热力图)模型、joints-regression(关节回归)模型，等等。具体原理不再赘述。

具体来说，对于每帧图像中检测到的各手部区域框，可以从图像中提取出各手部区域框对应的区域图像，基于手部关键点检测模型对各手部区域框对应的区域图像进行手部关键点检测，确定各手部区域框对应的手部关键点坐标，可以结合跟踪的手部位置信息，确定各用户的手部关键点坐标。也即用户可以是一个或多个，最终能够确定出各用户对应的手部关键点坐标。

可选地，手部关键点坐标可以是2.5D关键点坐标或3D关键点坐标，具体根据实际需求设置，比如对于无法获取绝对Z坐标的情况，设置一个相对的Z0＝0的参考原点，其他所有点的Z坐标均以参考原点为原点，这种情况获得的手部关键点坐标称为2.5D关键点坐标。

步骤2024，基于手部关键点坐标及预先获得的人手骨骼模型，确定用户的手部关节点坐标。

其中，人手骨骼模型可以采用任意可实施的模型，用于实现手部的3D重建，比如采用MANO人手模型或其他可通过自由度驱动的3D人手骨架模型。MANO人手模型是具有关节和非刚性变形的手模型，有很合理的结构以及定义好的前向动力学树，MANO作为一个3D参数化模型，其参数包括：778个vertices(顶点)、1538个faces(面)，并根据16个关键点、及从顶点中获取5个手指指尖的点，构成完整的手部链条，或者叫做前向动力学树(forwardkinematic tree)。进而可以基于完整的手部链条确定出手部的关节点坐标，具体确定手部关节点坐标原理不再赘述。

步骤2025，基于手部关节点坐标，确定用户手部指向的三维射线信息。

在确定了手部关节点坐标后，即可根据手部关节点坐标确定用户手部指向的三维射线信息。用户手部指向可以指手掌朝向或手指指向，具体可以根据实际需求设置。比如，可以设置手掌心或手指根部作为射线起点、基于手部关节点坐标进行线性拟合，来确定用户手部指向的线性方向作为射线方向，从而获得用户手部指向的三维射线信息。

示例性的，图8是本公开一示例性实施例提供的手部指向的示意图，用户手部指向可以指图中的手掌朝向，也可以指手指指向。

本公开通过对用户手部位置进行实时跟踪，保证场景中存在多只人手时可以准确地确定人手与用户的对应关系，避免因用户与人手对应错误导致交互失败，进一步提高用户体验，还通过基于人手骨骼模型实现手部3D重建，从而可以获取更准确更稳定的3D手部关节点坐标。

在一个可选示例中，图9是本公开一个示例性实施例提供的步骤203的目标手势类型的确定流程示意图，在本示例中，用户的手部信息包括多帧的手部信息；步骤203的根据用户的手部信息，确定用户的手势所属的目标手势类型，具体包括：

20311，分别对多帧的手部关键点坐标进行特征提取，获得多帧的手部特征数据。

其中，手部关键点坐标的特征提取可以采用任意可实施的特征提取方式，比如采用训练好的特征提取网络模型进行提取，具体比如采用基于MLP或者GCN等网络的特征提取模型进行特征提取，具体不再赘述。

步骤20312，将多帧的手部特征数据合并，获得多维特征数据，其中，N为大于1的正整数。

其中，N可以根据实际需求设置，本公开不做限定，由于手势分类属于用户连续动作的分类，需要结合多帧图像中用户的手部特征来进行分类，因此，将多帧的手部特征数据合并，形成多维特征数据，用于后续的手势分类。

在实际应用中，图像处理是一帧一帧进行的，相应的特征提取是一帧一帧进行提取的，每提取一帧可以进行存储，当提取完N帧的特征后，将最后提取的第N帧与前N-1帧进行合并，获得N帧的手部特征数据。

步骤20313，基于手势分类模型对多维特征数据进行手势分类，获得目标手势类型。

其中，手势分类模型可以采用任意可实施的分类模型，本实施例不做限定。比如基于MLP的分类模型、基于GCN的分类模型，等等，具体原理在此不再赘述。

可以理解地，手势分类模型在训练过程中同样需要基于多维特征数据进行训练。

可选地，上述特征提取模型和手势分类模型可以通过联合训练获得，有效提高训练效率。

示例性的，图10是本公开一示例性实施例提供的特征提取模型和手势分类模型的训练过程的示意框图。在训练时，基于训练图像数据进行训练，分别将每帧图像作为当前帧，获取当前帧的手部关键点坐标，进行存储，将当前帧的手部关键点坐标输入预先建立的特征提取模型对应的特征提取网络，获得当前帧的手部特征数据，将当前帧的手部特征数据与前N-1帧的手部特征数据进行合并，获得N帧手部特征数据，输入预先建立的手势分类模型对应的手势分类网络，获得预测的手势类型，基于预测的手势类型及对应的标签数据确定当前损失，基于当前损失判断训练是否结束，若是则结束训练获得特征提取模型和手势分类模型，若否，则基于当前损失更新特征提取网络和手势分类网络的网络参数，继续训练。在训练过程中，随着处理帧数的推移，需要将最新一帧的手部特征数据加入前N-1帧手部特征数据中，将原来的前N-1帧手部特征数据中的最早的一帧舍弃，以保证特征合并结果始终是N帧，具体训练过程不再赘述。

本公开通过将多帧图像提取的手部特征数据合并形成多维特征数据用于手势分类，有效保证手势分类结果的准确性。

在一个可选示例中，图11是本公开又一示例性实施例提供的手势的确定方法的流程示意图。在本示例中，以车辆或飞机等的座舱为例，该方法具体包括：

1、图像采集，获得环境图像数据。

2、基于预先训练获得的手部检测模型，对环境图像数据进行手部检测，获得各帧图像分别对应的手部检测结果，手部检测结果至少包括检测到的手部区域框。

3、根据手部检测结果及预设跟踪算法，对用户的手部位置进行跟踪，获得用户的手部位置信息。

4、根据手部检测结果及预先训练获得的手部关键点检测模型，确定用户的手部关键点坐标。

5、基于手部关键点坐标及预先获得的人手骨骼模型，确定用户的手部关节点坐标。

6、基于手部关节点坐标，确定用户手部指向的三维射线信息。

7、分别对多帧的手部关键点坐标进行特征提取，获得多帧的手部特征数据。

8、将多帧的手部特征数据合并，获得多维特征数据，其中，N为大于1的正整数。

9、基于手势分类模型对多维特征数据进行手势分类，获得目标手势类型。

10、根据座舱的TSDF模型的体素网格尺寸确定射线采样间隔。

11、根据三维射线信息包括的射线起点坐标和射线方向，按照射线采样间隔进行均匀采样，获得多个三维采样点。

12、根据TSDF模型，获取各三维采样点分别对应的体素值。

13、根据各三维采样点及各三维采样点分别对应的体素值，确定体素值从正直变为负值的变化前采样点和变化后采样点。

14、基于变化前采样点和变化后采样点、及分别对应的体素值，采用三线性插值方式确定目标坐标点。

15、根据目标坐标点，确定投影装置中心到目标坐标点的坐标向量。

16、根据坐标向量确定投影装置的目标投影方向。

17、根据目标投影方向，控制投影装置将目标手势类型对应的手势标志投影到座舱的内表面上与目标坐标点对应的目标对象上。

在一个可选示例中，在确定了用户的目标手势类型后，本公开的方法还包括：

根据用户的目标手势类型，对目标对象进行对应的控制，以使目标对象的状态转变到符合用户需求的状态。

示例性的，比如用户手势指向的目标对象为窗户开关，用户的手势动作为画圈，对应的目标手势类型为调节窗户开关，则可以根据用户手势调节窗户开关。再比如，用户可以指向空调捏合拖拽调节空调温度、风量大小等。再比如，用户可以指向前挡风玻璃挥手，控制雨刷开关，等等。具体用户通过手势交互可实现的功能可以根据实际需求设置，本公开不做限定。

本公开实施例提供的任一种手势的确定方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种手势的确定方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种手势的确定方法。下文不再赘述。

示例性装置

图12是本公开一示例性实施例提供的手势的确定装置的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例，如图12所示的装置包括：第一获取模块501、第一处理模块502、第二处理模块503和第三处理模块504。

第一获取模块501，用于获取环境图像数据；第一处理模块502，用于根据第一获取模块501获取的环境图像数据，确定用户的手部信息；第二处理模块503，用于根据第一处理模块502获得的用户的手部信息，确定用户的手势所属的目标手势类型及目标投影方向；第三处理模块504，用于按照第二处理模块503确定的目标投影方向，将目标手势类型对应的手势标志投影到目标对象上。

在一个可选示例中，图13是本公开一示例性实施例提供的第二处理模块503的结构示意图。本示例中，第二处理模块503包括：第一处理单元5031和第二处理单元5032。第一处理单元5031，用于根据第一处理模块502获得的用户的手部信息及预先训练获得的手势分类模型，确定目标手势类型；第二处理单元5032，用于根据第一处理模块502获得的用户的手部信息及预先建立的用户所在的目标空间的模型，确定目标投影方向。

在一个可选示例中，图14是本公开一示例性实施例提供的第二处理单元5032的结构示意图。在本示例中，用户的手部信息包括手部指向的三维射线信息；相应的第二处理单元5032包括：第一确定子单元50321和第二确定子单元50322。第一确定子单元50321，用于根据三维射线信息及目标空间的模型，确定三维射线信息对应的射线与目标空间的模型的表面相交的目标坐标点；第二确定子单元50322，用于根据目标坐标点确定目标投影方向；相应的，第三处理模块504，具体用于根据第二确定子单元50322确定的目标投影方向，控制投影装置将目标手势类型对应的手势标志投影到目标空间的内表面上与目标坐标点对应的目标对象上。

在一个可选示例中，三维射线信息包括射线起点坐标和射线方向；第一确定子单元50321，具体可以用于：根据目标空间的模型的体素网格尺寸确定射线采样间隔；根据射线起点坐标和射线方向，按照射线采样间隔进行均匀采样，获得多个三维采样点；根据目标空间的模型，获取各三维采样点分别对应的体素值；根据各三维采样点及各三维采样点分别对应的体素值，确定目标坐标点。

可选地，第一确定子单元50321还可以根据具体功能进行更细粒度的单元划分，具体可以根据实际需求设置。

在一个可选示例中，第一确定子单元50321，具体可以用于：根据各三维采样点及各三维采样点分别对应的体素值，确定体素值从正直变为负值的变化前采样点和变化后采样点；基于变化前采样点和变化后采样点、及分别对应的体素值，采用三线性插值方式确定目标坐标点。

在一个可选示例中，第二确定子单元50322具体用于：根据目标坐标点，确定投影装置中心到目标坐标点的坐标向量；根据坐标向量确定目标投影方向。

可选地，第二确定子单元50322还可以根据具体功能进行更细粒度的单元划分，具体可以根据实际需求设置。

在一个可选示例中，图15是本公开一示例性实施例提供的第一处理模块502的结构示意图。在本示例中，用户的手部信息包括手部位置信息、手部关节点坐标及手部指向的三维射线信息中的至少一种；第一处理模块502具体可以包括：第一检测单元5021、第一跟踪单元5022、第二检测单元5023、第一确定单元5024和第二确定单元5025。第一检测单元5021，用于基于预先训练获得的手部检测模型，对第一获取模块501获取的环境图像数据进行手部检测，获得各帧图像分别对应的手部检测结果，手部检测结果至少包括检测到的手部区域框；第一跟踪单元5022，用于根据第一检测单元5021获得的手部检测结果及预设跟踪算法，对用户的手部位置进行跟踪，获得用户的手部位置信息；第二检测单元5023，用于根据第一检测单元5021获得的手部检测结果及预先训练获得的手部关键点检测模型，确定用户的手部关键点坐标；第一确定单元5024，用于基于第二检测单元5023获得的手部关键点坐标及预先获得的人手骨骼模型，确定用户的手部关节点坐标；第二确定单元5025，用于基于第一确定单元5024获得的手部关节点坐标，确定用户手部指向的三维射线信息。

在一个可选示例中，图16是本公开另一示例性实施例提供的第二处理模块503的结构示意图。本示例中，用户的手部信息包括多帧的手部信息；第二处理模块503，包括：特征提取单元50311、合并单元50312、手势分类单元50313和第二处理单元5032。特征提取单元50311，用于分别对多帧的手部关键点坐标进行特征提取，获得多帧的手部特征数据；合并单元50312，用于将特征提取单元50311提取的多帧的手部特征数据合并，获得多维特征数据，其中，N为大于1的正整数；手势分类单元50313，用于基于手势分类模型对合并单元50312获得的多维特征数据进行手势分类，获得目标手势类型。第二处理单元5032，用于根据第一处理模块502获得的用户的手部信息及预先建立的用户所在的目标空间的模型，确定目标投影方向。

示例性电子设备

本公开实施例还提供了一种电子设备，包括：存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述任一实施例所述的手势的确定方法。

图17是本公开电子设备一个应用实施例的结构示意图。本实施例中，该电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的手势的确定方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。

此外，该输入装置13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图17中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的手势的确定方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种手势的确定方法，包括：

获取环境图像数据；

根据所述环境图像数据，确定用户的手部信息；

根据所述用户的手部信息，确定所述用户的手势所属的目标手势类型及目标投影方向；

按照所述目标投影方向，将所述目标手势类型对应的手势标志投影到目标对象上。

2.根据权利要求1所述的方法，其中，所述根据所述用户的手部信息，确定所述用户的手势所属的目标手势类型及目标投影方向，包括：

根据所述用户的手部信息及预先训练获得的手势分类模型，确定所述目标手势类型；

根据所述用户的手部信息及预先建立的所述用户所在的目标空间的模型，确定所述目标投影方向。

3.根据权利要求2所述的方法，其中，所述用户的手部信息包括手部指向的三维射线信息；

所述根据所述用户的手部信息及预先建立的所述用户所在的目标空间的模型，确定所述目标投影方向，包括：

根据所述三维射线信息及所述目标空间的模型，确定所述三维射线信息对应的射线与所述目标空间的模型的表面相交的目标坐标点；

根据所述目标坐标点确定所述目标投影方向；

所述按照所述目标投影方向，将所述目标手势类型对应的手势标志投影到目标对象上，包括：

根据所述目标投影方向，控制投影装置将所述目标手势类型对应的手势标志投影到所述目标空间的内表面上与所述目标坐标点对应的目标对象上。

4.根据权利要求3所述的方法，其中，所述三维射线信息包括射线起点坐标和射线方向；

所述据所述三维射线信息及所述目标空间的模型，确定所述三维射线信息对应的射线与所述座舱模型的表面相交的目标坐标点，包括：

根据所述目标空间的模型的体素网格尺寸确定射线采样间隔；

根据所述射线起点坐标和所述射线方向，按照所述射线采样间隔进行均匀采样，获得多个三维采样点；

根据所述目标空间的模型，获取各所述三维采样点分别对应的体素值；

根据各所述三维采样点及各所述三维采样点分别对应的体素值，确定所述目标坐标点。

5.根据权利要求4所述的方法，其中，所述根据各所述三维采样点及各所述三维采样点分别对应的体素值，确定所述目标坐标点，包括：

根据各所述三维采样点及各所述三维采样点分别对应的体素值，确定体素值从正直变为负值的变化前采样点和变化后采样点；

基于所述变化前采样点和所述变化后采样点、及分别对应的体素值，采用三线性插值方式确定所述目标坐标点。

6.根据权利要求3所述的方法，其中，所述根据所述目标坐标点确定所述目标投影方向，包括：

根据所述目标坐标点，确定投影装置中心到所述目标坐标点的坐标向量；

根据所述坐标向量确定所述目标投影方向。

7.根据权利要求1-6任一所述的方法，其中，所述用户的手部信息包括手部位置信息、手部关节点坐标及手部指向的三维射线信息中的至少一种；

所述根据所述环境图像数据，确定用户的手部信息，包括：

基于预先训练获得的手部检测模型，对所述环境图像数据进行手部检测，获得各帧图像分别对应的手部检测结果，所述手部检测结果至少包括检测到的手部区域框；

根据所述手部检测结果及预设跟踪算法，对所述用户的手部位置进行跟踪，获得所述用户的手部位置信息；

根据所述手部检测结果及预先训练获得的手部关键点检测模型，确定所述用户的手部关键点坐标；

基于所述手部关键点坐标及预先获得的人手骨骼模型，确定所述用户的所述手部关节点坐标；

基于所述手部关节点坐标，确定所述用户手部指向的所述三维射线信息。

8.根据权利要求7所述的方法，其中，所述用户的手部信息包括多帧的手部信息；

所述根据所述用户的手部信息，确定所述用户的手势所属的目标手势类型，包括：

分别对多帧的手部关键点坐标进行特征提取，获得多帧的手部特征数据；

将多帧的所述手部特征数据合并，获得多维特征数据，其中，N为大于1的正整数；

基于所述手势分类模型对所述多维特征数据进行手势分类，获得所述目标手势类型。

9.一种手势的确定装置，包括：

第一获取模块，用于获取环境图像数据；

第一处理模块，用于根据所述环境图像数据，确定用户的手部信息；

第二处理模块，用于根据所述用户的手部信息，确定所述用户的手势所属的目标手势类型及目标投影方向；

第三处理模块，用于按照所述目标投影方向，将所述目标手势类型对应的手势标志投影到目标对象上。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8任一所述的手势的确定方法。

11.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8任一所述的手势的确定方法。