CN115719507A

CN115719507A - 一种图像识别方法、装置及电子设备

Info

Publication number: CN115719507A
Application number: CN202110967419.4A
Authority: CN
Inventors: 秦威; 祝晓旦; 胡勍; 石闻天; 庄子龙; 孙衍宁; 黄豪哲
Original assignee: Shanghai Jiaotong University; China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd
Current assignee: Shanghai Jiaotong University; China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2023-02-28

Abstract

本申请提供一种图像识别方法、装置及电子设备，所述方法包括：获取深度图像的手部点云；将所述手部点云输入到预设神经网络模型中，以得到所述预设神经网络模型输出的手部关节位置；基于所述手部关节位置确定所述深度图像的手部网格；确定与所述手部关节位置匹配的目标手势；基于所述手部网格和所述目标手势，确定所述深度图像的手部识别结果。本申请可以提高手部识别结果的准确度。

Description

一种图像识别方法、装置及电子设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像识别方法、装置及电子设备。

背景技术

越来越多的交互式系统需要精确识别三维手姿态和三维手形状，但手势识别时存在手分辨率低、背景杂乱、手与其它对象交互、手存在遮挡、不同手势相似、多自由度等情况，导致手部识别结果的准确度较低。

发明内容

本申请提供一种图像识别方法、装置及电子设备，以解决手部识别结果的准确度较低的问题。

第一方面，本申请实施例提供了一种图像识别方法，包括：

获取深度图像的手部点云；

将所述手部点云输入到预设神经网络模型中，以得到所述预设神经网络模型输出的手部关节位置；

基于所述手部关节位置确定所述深度图像的手部网格；

确定与所述手部关节位置匹配的目标手势；

基于所述手部网格和所述目标手势，确定所述深度图像的手部识别结果。

第二方面，本申请实施例还提供一种图像识别装置，包括：

第一获取模块，用于获取深度图像的手部点云；

输入模块，用于将所述手部点云输入到预设神经网络模型中，以得到所述预设神经网络模型输出的手部关节位置；

第一确定模块，用于基于所述手部关节位置确定所述深度图像的手部网格；

第二确定模块，用于确定与所述手部关节位置匹配的目标手势；

第三确定模块，用于基于所述手部网格和所述目标手势，确定所述深度图像的手部识别结果。

第三方面，本申请实施例还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如前述第一方面所述方法中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，用于存储程序，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前述第一方面所述方法中的步骤。

本申请实施例中，基于所述预设神经网络模型输出的手部关节位置，确定所述深度图像的手部网格以及匹配的目标手势，基于所述手部网格和所述目标手势，确定所述深度图像的手部识别结果，通过手部关节位置的定位，可以有效识别存在遮挡的手部深度图，从而提高图像识别结果的准确率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像识别方法的流程示意图；

图2是本申请实施例提供的手势识别网络的结构示意图；

图3是本申请实施例提供的手部关节提取网络的结构示意图；

图4是本申请实施例提供的手部网格恢复网络的结构示意图；

图5是本申请实施例提供的手势识别网络输出结果的示意图之一；

图6是本申请实施例提供的手势识别网络输出结果的示意图之二；

图7是本申请实施例提供的手势识别网络输出结果的示意图之三；

图8是本申请实施例提供的手势识别原型网络输出结果的示意图；

图9是本申请实施例提供的图像识别装置的结构示意图之一；

图10是本申请实施例提供的图像识别装置的结构示意图之二；

图11是本申请实施例提供的图像识别装置的结构示意图之三；

图12是本申请实施例提供的图像识别装置的结构示意图之四；

图13是本申请实施例提供的图像识别装置的结构示意图之五；

图14是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，本申请中使用“和/或”表示所连接对象的至少其中之一，例如A和/或B和/或C，表示包含单独A，单独B，单独C，以及A和B都存在，B和C都存在，A和C都存在，以及A、B和C都存在的7种情况。

请参阅图1，图1是本申请实施例提供的一种图像识别方法，如图1所示，包括以下步骤：

步骤101、获取深度图像的手部点云。

其中，上述深度图像可以是任意图像采集设备获取的以图像采集设备到各点的距离作为像素值的图像，例如：立体照相机、TOF(Time of flight，飞行时间)照相机或者激光扫描照相机等，另外，可以通过上述图像采集设备内部参数将上述深度图像转换成图像采集设备坐标系中的点云。并且，上述深度图像可以由图像采集设备对手部模型渲染得到，也可以是直接由其他设备输入的深度图像。

步骤102、将所述手部点云输入到预设神经网络模型中，以得到所述预设神经网络模型输出的手部关节位置。

可以理解，上述预设神经网络模型可以用于提取手部点云中的手部关节位置，上述输出的手部关节位置可以包括多个手部关节的位置坐标以及每个手部关节的类型，例如：可以将手部关节分为手掌关节和手指关节两种类型，在对上述预设神经网络模型训练过程中，不同数据集的手部关节数量也不一样。具体的，以NYU数据集的手部关节模型为例，每个手指包括3个手部关节点，手掌包括1个手部关节点，即一共16个手部关节点。这样，上述预设神经网络模型输出的手部关节位置包括16个手部关节点的位置坐标以及上述16个手部关节点的类型。

步骤103、基于所述手部关节位置确定所述深度图像的手部网格。

具体的，可以将上述手部关节位置的点云输入到图卷积神经网络中，以获取对应的手部网格。

步骤104、确定与所述手部关节位置匹配的目标手势。

本实施例中，步骤103和步骤104执行没有先后之分，上述手部网格和上述目标手势可以同时得到。

其中，上述目标手势可以根据预先获取的待匹配手势得到，例如：在多个待匹配的手势中，确定与上述手部关节位置匹配的手势，并根据该手势得到上述目标手势。

步骤105、基于所述手部网格和所述目标手势，确定所述深度图像的手部识别结果。

根据上述手部关节位置得到上述手部网格和上述目标手势之后，上述识别结果可以包括手部姿态和形状中的至少一种，例如：在仅需要识别3D(3-Dimension，三维)手姿态或3D手形状时，上述识别结果可以对应为手部姿态图或手部网格图；在需要精确识别3D手姿态和3D手形状时，上述识别结果可以同时包括手姿态图和手部网格图，本申请对此不作限制。

可选的，步骤104中所述确定与所述手部关节位置匹配的目标手势，可以具体包括：

获取手势模板数据集，其中，所述手势模板数据集包括多个手势模板；

将所述手部关节位置分别与所述多个手势模板进行配准，得到所述多个手势模板一一对应的变换矩阵；

获取所述手部关节位置分别与所述多个手势模板的匹配分数；

基于目标手势模板以及所述目标手势模板对应的变换矩阵，确定与所述手部关节位置匹配的目标手势，其中，所述目标手势模板为所述多个手势模板中匹配分数最高的手势模板。

其中，上述多个手势模板中可以包括根据同一手势生成的多个手势模板，例如：生成上述手势模板数据集时，可以获取多个手势模型，并获取每个手势模型在不同角度的多个深度图像以及对应的手部点云。具体的，可以先将手部模型放置在一个半球的中心点上，其半径为400mm，在这个半球上以10度为一个间隔放置虚拟相机进行模型渲染，生成648个深度图像，将深度图转变成点云，并采样到2048个点，保存在上述手势模板数据集中。分别对不同的手部模型进行上述步骤，从而可以得到一个完整的手势模板数据集。

其中，上述手势模板数据集和上述手部关节位置均可以以手部点云数据的形式保存和使用，通过对手部关节位置的逐一比对，确定上述匹配分数最高的目标手势模板。

本申请实施例中，通过获取匹配分数最高的所述目标手势模板，并基于所述目标手势模板以及所述目标手势模板对应的变换矩阵，确定与所述手部关节位置匹配的目标手势，可以将两个相差较大的点云成功匹配的可能性降到最低，提升了手势模板匹配的准确性。

可选的，所述获取所述手部关节位置分别与所述多个手势模板的匹配分数，可以包括：

获取手部关节位置分别与所述多个手势模板的对应点对集合；

获取所述对应点对集合中每个对应点对的距离；

获取所述对应点对集合中的第一对应点对，其中，所述第一对应点对的距离小于第一预设阈值；

基于所述第一对应点对的数量确定所述匹配分数。

其中，上述每个对应点对集合中可以包括上述每个手部关节点以及在手势模板中的对应点，例如：上述获取的手部关节位置包括16个手部关节点时，逐一获取每个手部关节点与对应点之间的距离，并累计上述距离小于上述第一预设阈值的第一对应点对数量，第一对应点对数量占对应点对总数占的比例越高，可以表示对应的手势模板可以成功匹配的可能性越高。

现有的点云配准算法是基于点对点的ICP(Iterative Closest Point，迭代最近点)配准算法，算法迭代速度慢，且易陷入局部最优。

本申请实施例中，每个上述对应点对集合可以包括上述手部关节位置中每个手部关节点与一个手势模板中的对应点的对应点对，上述距离小于第一预设阈值的第一对应点对可以理解为匹配成功的对应点对，这样，每个对应点对集合中的上述第一对应点的数量越多，对应点对集合对应的手势模板与上述手部关节位置匹配准确的概率越高。选取匹配分数最高的手势模板作为上述目标手势模板，可以将两个相差较大的点云成功匹配的可能性降到最低，且有效降低了计算量，可以提升手势模板匹配的实时性和准确性。

可选的，步骤105中所述基于所述手部网格和所述目标手势，确定所述深度图像的手部识别结果之前，所述方法还可以包括以下步骤：

获取所述目标手势与所述手部点云的平均距离；

步骤105中所述基于所述手部网格和所述目标手势，确定所述深度图像的手部识别结果，可以具体包括：

若所述平均距离小于第二预设阈值，基于所述手部网格和所述目标手势确定所述深度图像的手部识别结果。

其中，基于目标手势模板以及所述目标手势模板对应的变换矩阵，确定与所述手部关节位置匹配的目标手势之后，上述目标手势可以理解为配准后与上述深度图像的手部点云在同一参考系下的匹配手势，通过比较上述目标手势与所述手部点云的平均距离是否小于上述第二预设阈值，可以验证上述目标手势是否是正确的手部位姿。

该实施方式中，获取所述目标手势与所述手部点云的平均距离，并在所述平均距离小于第二预设阈值的情况下，确定所述深度图像的手部识别结果，可以提高所述目标手势匹配的实时性和准确性。

可选的，所述预设神经网络模型可以包括依次连接的多个提取模块和全连接层，每个提取模块包括第一卷积层和池化层，第一提取模块的池化层与第二提取模块的第一卷积层之间连接有第二卷积层，其中，所述多个提取模块包括所述第一提取模块和所述第二提取模块，且所述第二提取模块为所述第一提取模块的下一级提取模块。

该实施方式中，通过所述第二卷积层连接所述第一提取模块的池化层与所述第二提取模块的第一卷积层，可以将上层特征与下层特征进行融合，保证手部关节提取时能够考虑细微的手部特征，从而提高所述手部关节位置的准确性。

可选的，步骤103中所述基于所述手部关节位置确定所述深度图像的手部网格，包括：

基于所述手部关节位置，确定手部关节点之间的位置关系；

基于所述位置关系扩大所述手部关节点的数量，以得到预设数量的手部网格坐标点；

基于所述手部网格坐标点，确定所述深度图像的手部网格。

该实施方式中，基于所述位置关系扩大所述手部关节点的数量，以得到预设数量的手部网格坐标点，可以获取大量的手部网格坐标点，从而恢复所述深度图像的手部网格，提高所述手部网格的准确性。

本申请实施例中介绍的多种可选的实施方式，在彼此不冲突的情况下可以相互结合实现，也可以单独实现，对此本申请实施例不作限定。

为方便理解，具体示例如下：

如图2所示，本申请提供一种基于单张深度图的点云识别三维手部形状和姿态的手势识别神经网络，并将手势识别神经网络的结构分为两部分：第一部分是手部关节提取网络和手势模板匹配，第二部分是手部网格恢复网络。

第一部分中手部关节提取网络的输入为深度图转化的手部点云，该深度图可以由图像采集设备对手部模型渲染得到，为了考虑结构深度信息，深度图像被转化为点云，手部关节提取网络根据手部点云输出手部关节的空间位置信息。

可以理解，手部关节可分为手掌，手指两部分，不同数据集的手部关节数量也不一样。上述手部关节的空间位置信息包括每个手部关节的三维位置坐标以及类型。本申请使用NYU数据集手部关节模型，每个手指分别包括3个节点，手掌使用1个关节点，因此，一共16个手部关节点。手部关节提取包括预测关节位置并对其进行分类，可视为一种多目标的目标检测任务。如图3所示，手部关节提取网络以手部深度图转化的手部点云为输入，输出为手部关节位置。

具体的，如图3所示，手部关节提取网络输入的深度图大小为128×128，手部关节提取部分由5个模块组成，每个模块包括2个3×3的卷积层和一个最大值池化层，第一个模块中的卷积层通道数为4，后面的模块在此基础上依次翻倍，因此第一个全连接层的通道数为128，第二个全连接层的通道数为37(包括16个关节参数和21个固定参数)。

其中，手部关节提取网络共包括15个卷积层、1个全连接层和5个池化层。1×1卷积层连接在池化层和下一组的卷积层和池化层之间，这种短连接结构可以将上层特征与下层特征融合，保证关节提取时能够考虑细微的手部特征。

其中，手部关节提取网络通过多层卷积和多次池化操作得到特征图，将特征图输入到全连接层，从输入的深度图得到手部关节的空间位置信息。损失函数采用L1损失(Least Abosulote Error，最小化绝对误差)：使用16个关节位置与真值之间的欧式距离的平均值作为总损失进行反向传播。

根据上述手部关节提取网络输出的手部关节位置，可以匹配手势模板以获取手部位姿。首先要生成手势模板点云数据集，具体可以包括以下过程：将手部模型放置在一个半球的中心点上，其半径为400mm，在这个半球上以10度为一个间隔放置虚拟相机进行模型渲染，生成648个深度图像，将深度图转变成点云，并采样到2048个点，保存在手部模板点云数据集中。重复上述步骤，得到不同手部模型的手势模板点云。

其次，将手部关节提取网络得到的手部关节位置与手势模板点云数据集进行匹配，并输出与每个手势模板点云的匹配评分，评分最高的手势模板点云乘以点云配准的变换矩阵，即可得到目标手势的3D位姿。其中，获取评分最高的手势模板点云具体可以包括以下步骤：步骤a：对手部关节位置和手势模板点云进行一次配准，得到初始配准的旋转矩阵和平移矩阵；步骤b：获取手部关节位置和手势模板点云之间最近点的对应点对集合，并分别计算每个最近点对的距离，如果最近点对的距离小于阈值距离，将该最近点对删除，否则终止迭代；步骤c：重复步骤b，并记录被删除的最近点对的数量为N_del，点云匹配评分为：

其中，N_del表示被删除的最近点对的数量，N表示最近点对的总数。

其中，初始配准的旋转矩阵乘以匹配评分最高的手势模板点云的旋转矩阵即为最终点云配准的旋转矩阵，初始配准的旋转矩阵乘以真实目标手部的点云中点加上初始点云配准的平移矩阵即为最终点云配准的平移矩阵，真实目标手部的点云中点为上述手部关节位置中各手部关节点的中点。

通过将删除最近点的对数占点云总数的百分比作为点云匹配评分，可以将两个相差较大的点云成功匹配的可能性降到最低，且有效降低了计算量，提升了手势模板匹配的实时性和准确性。本申请采用ADD(Average Distance，平均距离)评分验证分数最高的模板是否是正确的位姿，ADD评分小于1cm即为正确手部位姿估计，其中：

其中，R_est表示目标手势旋转矩阵估计值，由点云配准得到的旋转矩阵乘以手势模板点云的旋转矩阵得到；t_est表示目标手势平移矩阵估计值；M表示手部关节点的坐标；R_gt表示目标手势的旋转矩阵真值；t_gt表示目标手势的平移矩阵真值，手势模板由NYU数据集提供。

如图4所示，第二部分是具有线性图卷积神经网络的手部网格恢复网络，该网络可以从三维手部关节位置恢复手部网格。

手部网格恢复网络的输入是手部关节的3D位置坐标，经过全连接层和图卷积获取关节点之间的位置关系，然后经过上采样将关节点数量扩大4倍，经过3次上采样，最后得到2368个手部网格坐标点。

本申请还提供一种对手势识别神经网络的实验验证方法，通过与其他方法的对比，验证本申请中手势识别神经网络的有效性。对手势识别神经网络的实验验证包括两部分，第一部分使用合成数据集进行验证，第二部分使用真实数据集进行验证，在验证过程中，使用的三个评价标准为平均3D关节定位误差(Joint Location Error，JLE)、3D顶点定位误差(Vertex Location Error，VLE)和图像在特定阈值内的百分比。

使用合成数据集进行验证具体包括以下过程：

选择SynHand5M数据集来训练和测试手势识别神经网络。为了验证本文提出的算法对存在遮挡的手势估计的有效性，对SynHand5M数据集中的真值网格顶点进行随机删除。SynHand5M数据集中的原始顶点数量为1193，3D手关节数量为22，经过随机删除后，顶点数量为800，3D手关节数量为16。其中，使用80％的合成深度图像训练，20％的合成深度图像用于测试。为了粗化图，将图卷积神经网络层的节点数参数设置为98、392和1568。另外在SynHand5M数据集上训练了目前效果最好的方法来进行比较。

手势识别神经网络训练期间，将批次大小设置为64，并使用初始学习率为0.001的Adam优化器，每隔10代，学习率降低一半。使用单个英伟达Nvidia Geforce GTX 1080Ti训练，结果显示生成3D手关节和3D手形位置的速率超过30Hz。本申请的手势识别神经网络识别结果如图5所示，第一列为从深度图像获取的手部点云，第二列为手部三维网格真值，第三列为手部三维网格的预测值视图之一，第四列为手部三维网格的预测值视图之二，第五列手部三维手势真值，第六列为手部三维手势预测值。图6为本申请的手势识别神经网络结果与其他现有的识别网络结果的示意图，如图6所示，本申请的手势识别神经网络恢复的手形与真值手形相似，识别关节位置接近关节真值。并且，由图6可以看出，本申请的手势识别神经网络在3D顶点位置误差方面优于现有的多种手姿态和形状识别方法，并且在SynHand5M数据集上具有较小的平均3D关节位置误差。

使用真实数据集进行验证具体包括以下过程：

使用三个真实世界的数据集来训练和测试本申请的手势识别神经网络：NYU数据集，MSRA数据集和ICVL数据集；

NYU数据集有72757个训练数据和8252个测试数据，每条数据包含一个深度图像和一个彩色图像，并带有16个带注释的关节位置，通常选择14个关节进行比较。为了从深度图像中获得手部的分割，预先计算出手的质心来删除背景。

MSRA包含76375个数据，每条数据包含21个带注释的关节，该数据集包含手的分割。

ICVL数据集包含330866个训练数据和1596个测试数据，使用简单深度阈值分割删除背景。

由于所有现实世界的数据集都缺乏真值，因此提供了MSRA数据集，ICVL数据集和NYU数据集上的三个定量结果用于姿势比较。上述三个数据集上3D关节位置误差结果如图7所示，图7为本申请的手势识别网络与其他现有的识别网络结果的示意图，可以看出本申请的手势识别神经网络优于现有的其他手势识别网络。

本申请还提供一种手势识别原型系统，包括硬件和软件两部分。硬件部分包括Intel realsense D415相机和相机支架以及台式机，D415相机用于获取手部的深度图像，相机支架用来调整相机位姿，台式电脑运行软件，识别手部位姿并恢复手部网格。软件部分将本申请提出的手势识别神经网络嵌入到图形界面中，一键实现识别手部姿态与恢复手部网格的功能。软件图形界面使用Python的Tkinter编写，包括相机姿态调整、图像放大缩小、截图、显示手部关节与恢复手部网格这五个功能。通过软件获取手势并恢复手部模型如图8所示，可以从输入的深度图像识别手部姿态和手部形状。在Nvidia Geforce GTX 1080 Ti的条件下，手势识别速度可以达到30fps，手势识别系统具有较高的实时性和准确性，其复原的手部模型也有很高的精确度。

为了验证手势识别原型系统的实用性，将该系统应用于工业零件二次分拣。对于难以识别的零件，需要进行二次分拣，需要人工输入待分拣的物体类型来指挥机械臂抓取，手势识别可减少工人在产线与输入屏幕之间的切换次数，有效提高人机交互的效率。

具体的，将需要二次分拣的零件按指定位姿放置在指定的区域内，即机械臂夹爪的正下方位置。然后将右手放置在Intel realsense D415相机前，输入该零件类型对应的手势，使用软件判断手势关节点的相对位置，获取手势信息。根据不同手势指引机械臂抓取相应的零件，结果表明，手势识别软件能够正确识别不同的手势信息，具有一定的实用价值。

请参阅图9，图9是本申请实施例提供的图像识别装置的结构示意图之一，如图9所示，图像识别装置900包括：

第一获取模块901，用于获取深度图像的手部点云；

输入模块902，用于将所述手部点云输入到预设神经网络模型中，以得到所述预设神经网络模型输出的手部关节位置；

第一确定模块903，用于基于所述手部关节位置确定所述深度图像的手部网格；

第二确定模块904，用于确定与所述手部关节位置匹配的目标手势；

第三确定模块905，用于基于所述手部网格和所述目标手势，确定所述深度图像的手部识别结果。

可选的，如图10所示，所述第二确定模块904具体可以包括：

第一获取单元9041，用于获取手势模板数据集，其中，所述手势模板数据集包括多个手势模板；

配准单元9042，用于将所述手部关节位置分别与所述多个手势模板进行配准，得到所述多个手势模板一一对应的变换矩阵；

第二获取单元9043，用于获取所述手部关节位置分别与所述多个手势模板的匹配分数；

第一确定单元9044，用于基于目标手势模板以及所述目标手势模板对应的变换矩阵，确定与所述手部关节位置匹配的目标手势，其中，所述目标手势模板为所述多个手势模板中匹配分数最高的手势模板。

可选的，如图11所示，所述第二获取单元9043具体可以包括：

第一获取子单元90431，用于获取手部关节位置分别与所述多个手势模板的对应点对集合；

第二获取子单元90432，用于获取所述对应点对集合中每个对应点对的距离；

第三获取子单元90433，用于获取所述对应点对集合中的第一对应点对，其中，所述第一对应点对的距离小于第一预设阈值；

确定子单元90434，用于基于所述第一对应点对的数量确定所述匹配分数。

可选的，如图12所示，图像识别装置900还包括：

第二获取模块906，用于获取所述目标手势与所述手部点云的平均距离；

所述确定模块905可以具体包括：

第二确定单元9051，用于若所述平均距离小于第二预设阈值，基于所述手部网格和所述目标手势确定所述深度图像的手部识别结果。

可选的，所述预设神经网络模型包括依次连接的多个提取模块和全连接层，每个提取模块包括第一卷积层和池化层，第一提取模块的池化层与第二提取模块的第一卷积层之间连接有第二卷积层，其中，所述多个提取模块包括所述第一提取模块和所述第二提取模块，且所述第二提取模块为所述第一提取模块的下一级提取模块。

可选的，如图13所示，所述第一确定模块903具体可以包括：

第三确定单元9031，用于基于所述手部关节位置，确定手部关节点之间的位置关系；

第三获取单元9032，用于基于所述位置关系扩大所述手部关节点的数量，以得到预设数量的手部网格坐标点；

第四确定单元9033，用于基于所述手部网格坐标点，确定所述深度图像的手部网格。

图像识别装置900能够实现本申请实施例中图1方法实施例的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

本申请实施例还提供一种电子设备。请参见图14，该电子设备1400包括处理器1401，存储器1402，存储在存储器1402上并可在处理器1401上运行的程序或指令，该程序或指令被处理器1401执行时实现上述图像识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法的全部或者部分步骤是可以通过程序指令相关的硬件来完成，所述的程序可以存储于一可读取介质中。

本申请实施例还提供一种计算机可读存储介质，用于存储程序，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时可实现上述图1对应的方法实施例中的任意步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

所述的存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

以上所述是本申请实施例的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图像识别方法，其特征在于，包括：

获取深度图像的手部点云；

基于所述手部关节位置确定所述深度图像的手部网格；

确定与所述手部关节位置匹配的目标手势；

2.如权利要求1所述的方法，其特征在于，所述确定与所述手部关节位置匹配的目标手势，包括：

3.如权利要求2所述的方法，其特征在于，所述获取所述手部关节位置分别与所述多个手势模板的匹配分数，包括：

获取所述对应点对集合中每个对应点对的距离；

基于所述第一对应点对的数量确定所述匹配分数。

4.如权利要求3所述的方法，其特征在于，所述基于所述手部网格和所述目标手势，确定所述深度图像的手部识别结果之前，所述方法还包括：

获取所述目标手势与所述手部点云的平均距离；

所述基于所述手部网格和所述目标手势，确定所述深度图像的手部识别结果，包括：

5.如权利要求1所述的方法，其特征在于，所述预设神经网络模型包括依次连接的多个提取模块和全连接层，每个提取模块包括第一卷积层和池化层，第一提取模块的池化层与第二提取模块的第一卷积层之间连接有第二卷积层，其中，所述多个提取模块包括所述第一提取模块和所述第二提取模块，且所述第二提取模块为所述第一提取模块的下一级提取模块。

6.如权利要求1所述的方法，其特征在于，所述基于所述手部关节位置确定所述深度图像的手部网格，包括：

基于所述手部关节位置，确定手部关节点之间的位置关系；

基于所述手部网格坐标点，确定所述深度图像的手部网格。

7.一种图像识别装置，其特征在于，包括：

第一获取模块，用于获取深度图像的手部点云；

8.如权利要求7所述的装置，其特征在于，所述第二确定模块包括：

第一获取单元，用于获取手势模板数据集，其中，所述手势模板数据集包括多个手势模板；

配准单元，用于将所述手部关节位置分别与所述多个手势模板进行配准，得到所述多个手势模板一一对应的变换矩阵；

第二获取单元，用于获取所述手部关节位置分别与所述多个手势模板的匹配分数；

确定单元，用于基于目标手势模板以及所述目标手势模板对应的变换矩阵，确定与所述手部关节位置匹配的目标手势，其中，所述目标手势模板为所述多个手势模板中匹配分数最高的手势模板。

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的图像识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储程序，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的图像识别方法中的步骤。