CN114241510A

CN114241510A - 姿态识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114241510A
Application number: CN202110572180.0A
Authority: CN
Inventors: 刘伟恒; 毛亚敏; 刘志花; 王强; 吴宝罗; 金允泰; 李洪硕
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-09-08
Filing date: 2021-05-25
Publication date: 2022-03-25

Abstract

本申请实施例提供了一种姿态识别方法、装置、电子设备及计算机可读存储介质，其中方法包括：获取对象的深度图像；获取深度图像的特征信息以及特征信息对应的位置信息；基于特征信息和位置信息，获取对象的姿态识别结果，其中，获取深度图像的特征信息以及特征信息对应的位置信息的步骤可以采用人工智能模块进行相关处理。该方案通过在获取深度图像的特征信息的同时获取特征信息对应的位置信息，使姿态识别过程充分利用了特征信息中各位置的特征对应的具体位置信息，提高了姿态识别的精度。

Description

姿态识别方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种姿态识别方法、装置、电子设备及计算机可读存储介质。

背景技术

人机交互是进行人与计算机之间的信息交换的途径，计算机通过预设的交互界面以及人体部位在交互界面上的姿态，理解人对计算机的输入。具体来说，计算机接收包含人体部位的深度图像并对深度图像进行特征提取，然后利用提取到的特征进行人体部位的姿态识别。但是，现有姿态识别方法中提取到的特征中包含的与姿态相关的信息有限，导致最终姿态识别结果的精度较低，因此，有必要对现有的姿态识别方法进行改进。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，本申请实施例所提供的技术方案如下：

第一方面，本申请实施例提供了一种姿态识别方法，包括：

获取对象的深度图像；

获取深度图像的特征信息以及特征信息对应的位置信息；

基于特征信息和位置信息，获取对象的姿态识别结果。

在本申请的一种可选实施例中，获取深度图像的特征信息以及特征信息对应的位置信息，包括：

基于深度图像，获取对应的初始三维坐标图；

针对深度图像，进行至少一次特征提取和至少一次基于对应的聚合权重的特征下采样，得到特征信息；

针对初始三维坐标图，在进行每次特征下采样时，基于该特征下采样对应的聚合权重进行坐标下采样，得到位置信息。

在本申请的一种可选实施例中，该方法还包括：

基于每次特征下采样对应的输入特征图和下采样信息，获取该特征下采样对应的输入特征图中各位置的特征对应的聚合权重。

在本申请的一种可选实施例中，任意一次特征提取，包括：

基于特征提取对应的输入特征图所对应的三维坐标图，获取输入特征图中各位置的特征对应的三维距离；

基于三维距离，获取输入特征图中各位置的特征对应的距离权重；

基于距离权重，对输入特征图进行特征提取得到对应的输出特征图。

在本申请的一种可选实施例中，获取对象的深度图像，包括：

获取对象的第一图像和第二图像；

对第一图像和第二图像进行粗糙匹配，得到对应的最小视差图和最大视差图；

基于最小视差图和最大视差图，获取对应的匹配搜索范围；

基于匹配搜索范围对第一图像和第二图像进行精细匹配，得到对应的视差图；

基于视差图，获取对象的深度图像。

在本申请的一种可选实施例中，基于特征信息和位置信息，获取对象的姿态识别结果，包括：

获取深度图像中每个点的法向量特征信息；

将法向量特征信息、特征信息和位置信息进行特征拼接，得到对应的融合特征；

基于融合特征，获取对象的姿态识别结果。

第二方面，本申请实施例提供了一种姿态识别装置，包括：

深度图像获取模块，用于获取对象的深度图像；

特征及位置获取模块，用于获取深度图像的特征信息以及特征信息对应的位置信息；

姿态识别结果获取模块，用于基于特征信息和位置信息，获取对象的姿态识别结果。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器；

存储器中存储有计算机程序；

处理器，用于执行计算机程序以实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

本申请提供的技术方案带来的有益效果是：

通过在获取深度图像的特征信息的同时获取特征信息对应的位置信息，使姿态识别过程充分利用了特征信息中各位置的特征对应的具体位置信息，提高了姿态识别的精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种姿态识别方法的流程示意图；

图2a为现有技术中提取的低分辨率高维度特征信息与深度图像中位置的对应关系的示意图；

图2b为本申请实施例中提取的低分辨率高维度特征信息的示意图；

图2c为本申请实施例中提取的低分辨率高维度特征信息与深度图像中位置的对应关系的示意图；

图3a为本申请实施例的一个示例中的手部姿态识别网络的结构示意图；

图3b为本申请实施例的另一个示例中的手部姿态识别网络的结构示意图；

图3c为本申请实施例的一个示例中网络训练过程中稠密监督示意图；

图4a为图3a中一种坐标维护模块的示意图；

图4b为图3a中另一种坐标维护模块的示意图；

图5为本申请实施例的一个示例中特征提取过程示意图；

图6为本申请实施例的一个示例中特征拼接的示意图；

图7为本申请实施例的一个示例中一种姿态识别系统的结构示意图；

图8为本申请实施例的一个示例中另一种姿态识别系统的结构示意图；

图9a为本申请实施例的一个示例中立体匹配深度生成流程示意图；

图9b为本申请实施例的一个示例中深度图像获取流程示意图；

图10为本申请实施例提供的基于级联的匹配代价网络预估的视差图；

图11a为本申请实施例提供的一种包括两个阶段的匹配代价网络的结构示意图；

图11b为本申请实施例提供的一种包括三个阶段的匹配代价网络的结构示意图；

图12为本申请实施例中单个像素的沿着视差维度的概率分布示意图；

图13a为本申请实施例提供的一种最小最大视差预测网络的结构示意图；

图13b为本申请实施例提供的一种基于不确定分布引导的范围预测网络的结构示意图；

图14a为本申请实施例提供的一种基于概率的离散化策略的流程示意图；

图14b为本申请实施例提供的一种基于不确定性的离散化策略的示意图；

图15为本申请实施例的一个示例中姿态识别方法的流程示意图；

图16为本申请实施例提供的一种姿态识别装置的结构框图；

图17为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

现有技术中，基于深度图像的姿态识别方法使用2D CNN(2-DimensionalConvolution Neural Network，二维卷积神经网络)进行特征提取，得到的低分辨率高维度的特征图像，该低分辨率高维度的特征图像中每个位置的特征对应于深度图像中较大面积的输入纹理，即无法确定特征提取得到的低分辨率高维度特征图中各位置的特征与深度图像中纹理的对应关系，丢失了特征的具体位置信息，导致姿态识别的精度下降。此外现有姿态识别方法中还存在以下问题，第一，由于难以满足高精度深度估计的海量内存需求，以及难以平衡深度估计的精度和速度，使得获取用于姿态识别的高精度深度图像较为困难。第二，现有的姿态识别网络精度和效率都难以满足要求，具体来说，基于2D CNN的特征提取方法将输入的深度图视为传统二维图像，使用与RGB图像相同的卷积结构处理2.5维深度图像，这种方法无法有效地利用深度图像提供的深度信息。基于PointNet的特征提取方法虽然可以提取三维结构信息，但是三维结构信息是在网络中隐式表达，不利于分析和设计，且PointNet的方法首先要将输入数据转换为无序一维向量，破坏了数据本身的邻接关系。基于3D CNN虽然可以充分地对2.5维深度数据进行建模，但是3D CNN却需要消耗更多的内存和计算参数，这是因为3D CNN比2D CNN多处理一个维度，这额外的维度会带来十倍甚至百倍的额外计算量，因此，通常进行3D CNN的特征图分辨率会比2D CNN低很多，以降低时间复杂度和空间复杂度。针对上述问题本申请实施例提供了一种姿态识别方法。

图1为本申请实施例提供的一种姿态识别方法的流程示意图，如图1所示，该方法可以包括：

步骤S101，获取对象的深度图像。

其中，对象可以是人体的各个部位，例如，手。具体地，在该步骤中，获取包含对象的深度图像，例如，获取包含手的深度图像。

步骤S102，获取深度图像的特征信息以及特征信息对应的位置信息。

具体地，对包含对象的深度图像提取其对应的特征信息，同时获取特征信息中每个位置的特征的位置信息，该位置信息可以是特征的位置坐标，具体来说，可以是特征的三维位置坐标。

步骤S103，基于特征信息和位置信息，获取对象的姿态识别结果。

具体地，基于特征提取获取到的特信息以及特征信息中各位置的特征对应的位置信息，获取姿态识别结果，即在姿态识别过程中既利用了特征信息，也利用了特征信息中各位置特征对应的位置信息，增加了特征识别过程中的输入信息。

举例来说，在手部姿态识别中，图2a为现有技术中获取的不带位置信息的特征信息，其对应于深度图像中较大面积的输入纹理，即无法确定特征提取得到的低分辨率高维度特征图中各位置的特征与深度图像中纹理的对应关系；图2b为通过本申请实施例提供的方案获取的带有位置信息的特征信息(可以看到，其中两个位置的特征分别对应的位置坐标为(x_i，y_i，z_i)和(x_j，y_j，z_j))，根据图2b可以确定出特征信息中各位置的特征与深度图像中具体位置的对应关系(如图2c所示)，即采用本申请实施例提供的方法，可以进一步获取了该低分辨率高维度的特征图每一位置的特征在深度图像中对应的位置坐标(即可解释三维坐标)，那么在姿态识别过程中可以根据这些位置坐标进一步利用各位置的特征的位置信息，进而提高姿态识别精度。

本申请提供的方案，通过在获取深度图像的特征信息的同时获取特征信息对应的位置信息，使姿态识别过程充分利用了特征信息中各位置的特征对应的具体位置信息，提高了姿态识别的精度。

基于深度图像，获取对应的初始三维坐标图；

其中，每次特征下采样所采用的聚合权重为该次特征下采样区域中各位置的特征对应的权重。

具体地，对深度图像进行特征提取(包含至少一次特征提取和至少一次特征下采样)得到对应的特征信息，为了保证获取到特征信息的各位置的特征的位置信息(即获取到各位置的特征的三维坐标)，需要对基于深度图像获取到的初始三维坐标图进行至少一次坐标下采样。具体来说，需要在每次特征下采样的同时，采用该次特征下采样的聚合权重对特征下采样区域中各位置的坐标同步进行坐标下采样。

其中，基于深度图像获取对应的初始三维坐标图具有x,y,z三个维度，且大小和深度图像一致。x维度代表着三维坐标中的横坐标，y维度代表着三维坐标中的横坐标，且x，y维度可以都被归一化到[-1,1]的范围内。假设深度图像的高度是H，宽度是W，i表示初始三维坐标图中的横坐标，j表示初始三维坐标图中的纵坐标。则对于初始三维坐标图上的点(i，j)，其x维度坐标值可以通过以下公式计算:

初始三维坐标图上的点(i，j)，其y维度坐标值可以通过以下公式计算：

初始三维坐标图上的点(i，j)，其z维度坐标值是归一化的深度值，具体可以通过以下公式计算：

其中，(D_(i，j)是基于深度图像捕捉的深度图数值，D_min是有效深度的最小值，D_max是有效深度的最大值。有效深度可以采用多种方法确定，例如，在手部姿态识别中，有效深度可以通过预设的算法确定，也可以在检测到手的中心位置之后，通过手的预设有效深度范围来来确定，具体如下式:

D_min＝z_center-D_thresh/2

D_min＝z_center+D_thresh/2

其中，z_center是检测到的手的中心点深度，D_thresh是手的预设深度范围。手的中心点可以为中指指根MMCP(Middle Finger Metacarpophalangeal Joint)，那么，此时z_center＝z_MMCP，那么，上式可以变换为：

D_min＝z_MMCP-D_thresh/2

D_min＝z_MMCP+D_thresh/2。

进一步地，本申请实施例中可以基于姿态识别网络，获取深度图像的特征信息以及特征信息对应的位置信息。

下面通过一种手部姿态识别网络进行手部姿态识别的过程来对本申请实施例进行进一步说明，如图3a所示为一种手部姿态识别网络的结构示意图。从图中可以看出，该手部姿态识别网络包括特征提取骨干和姿态估计头，特征提取骨干由堆叠设置的卷积模块和坐标维护模块组成，姿态估计头可以使用Anchor-to-Joint(A2J)回归网络。其中，如图3b所示(图中仅示出了两个坐标维护模块，但本申请实施例的方案并不以此为限)，坐标维护模块包括特征下采样单元和坐标下采样单元两个分支，且这两个分支是并行的，彼此共享聚合权重，以获得一致的特征图和坐标信息(即位置信息)。具体来说，卷积模块用于对其对应的输入特征图进行特征提取，特征下采样单元用于对其对应的输入特征图进行特征下采样操作，且为了保证坐标下采样和特征下采样同步进行，坐标下采样单元一一对应设置，那么，坐标下采样单元用于基于对应的特征下采样单元对应的聚合权重，对对应的特征下采样单元对应的输入特征图的三维坐标图进行同步坐标下采样。该坐标维护模块的关键点在于，使用空间自注意力合并对输入特征图进行特征下采样，并提取对应的三维坐标信息以增强特征图三维表示。最后，姿势估计头将上述带有三维坐标信息的特征信息作为输入并回归手部姿势。

在特征下采样单元中，基于每个特征下采样单元对应的输入特征图和下采样信息，获取对应的下采样区域各位置的特征对应的聚合权重，且该聚合权重将与对应的坐标下采样单元共享。如图4a所示，为图3a中的一个坐标维护模块的示例。其中，输入特征图大小为(4，4)，特征下采样的卷积核大小为(2，2)，步幅等于2。首先，利用下采样感知卷积核对输入特征图进行卷积处理，该下采样感知卷积核与该特征下采样单元的特征下采样卷积核大小、步幅和填充值都相同，同时，该卷积处理的输出通道数与特征下采样区域的面积相同，即k×k。直观地，上述卷积处理输出的每个特征点都对应于输入特征图的一个特征下采样区域。每个特征点的每个通道都对应于特征下采样区域中一个点的聚合权重。这一过程可以被建模成:

其中，z_i是指k×k维度的i点的输出，x_j是C维度输入特征图，j∈N_i枚举了i点附近的池化区域，n_ij是对应的邻域，

为邻域内对应聚合权重。

需要说明的是，在获取上述聚合权重的卷积处理过程中，也可以采用1×1卷积核替代下采样感知卷积核，对应的坐标维护模块的示例如图4b所示。

然后，对聚合权重进行空间散播操作，并通过softmax进行归一化处理得到聚合权重w_i，公式如下:

w_i＝Softmax(z_i)

另一方面，对输入特征图也进行散播和基于聚合权重的聚合(即特征下采样)，过程如下：

其中，y_i是位置索引为i的输出特征，w_ij是聚合权重。

在坐标下采样单元中，通过共享聚合权重保留每个特征下采样区域的输出特征图的坐标信息(即位置信息)。如图4a和4b的顶部所示，坐标下采样单元的输入是对应的高分辨率的三维坐标图和对应的聚合权重，基于对应的三维坐标图和聚合权重进行坐标下采样得到输入特征图对应的三维坐标图。此过程可以表示为：

其中，w_ij是聚合权重，c_ij,j是输入的三维坐标，c_out,i是输出的三维坐标。

对于坐标维护模块中的同步下采样过程，详细描述如下，如图4a所示，在该特征下采样单元中，首先，基于该特征下采样单元的下采样参数，对输入特征图做卷积操作，得到对应的多维特征，具体来说，该卷积操作所采用的卷积核与特征下采样的卷积核相同，且卷积操作的输出通道数等于特征下采样区域的尺寸大小。然后，参考需要进行特征下采样的空间位置进行区域划分，将输入特征图和对应的多维特征进行散播和变形，将输入特征图拆分成若干个小的集合，将多维特征拆分成若干个对应的小的一维特征。根据每个小集合对应的小的一维特征，通过Softmax归一化处理各小的一维特征，得到各小的集合对应的聚合权重W(即得到了输入特征所有位置的特征对应的聚合权重)，并通过聚合权重W将各小的集合聚合为空间分辨率为1的高维特征。最后将各高维特征通过重组和变形，得到该特征下采样单元的输出特征图。

如图4b所示，在该特征下采样单元中，首先，对输入特征图做1x1卷积操作，获得与输入特征图大小一致的一维特征。然后，参考需要进行特征下采样的空间位置进行区域划分，将输入特征图和对应的一维特征进行散播和变形，将输入特征图拆分成若干个小的集合，将一维特征拆分成若干个对应的小的一维特征。根据每个小集合对应的小的一维特征，通过Softmax归一化处理各小的一维特征，得到各小的集合对应的聚合权重W(即得到了输入特征图所有位置的特征对应的聚合权重)，并通过聚合权重W将各小的集合聚合为空间分辨率为1的高维特征。最后将各高维特征通过重组和变形，得到该特征下采样单元的输出特征图。

需要说明的是，上述示例中，通过聚合权重W将各小的集合聚合为空间分辨率为1的高维特征具体为：将各小的集合中各位置的特征与对应的聚合权重相乘后求和，即得到该小的集合对应的高维特征。

在特征下采样单元中进行特征下采样的同时，在坐标下采样单元中，利用特征下采样单元获取到的聚合权重，对输入特征图对应的三维坐标图进行坐标下采样，可以理解的是，输入特征图对应的三维坐标图由级联的上一级坐标下采样单元输入。具体来说，将输入特征图对应的三维坐标图，进行与输入特征图相同的散播和变形处理，将该三维坐标图拆分成若干个小的集合，再对每个小的集合，基于与输入特征图对应的聚合权重征进行聚合，得到对应的空间分辨率为1的坐标。最后将每个小的集合对应的坐标通过重组和变形，得到与输出特征图空间分辨率一致的对应的三维坐标图，即得到了输出特征图的中各位置的特征对应的位置信息。

需要说明的是，上述示例中，对每个小的集合，基于与输入特征图对应的聚合权重征进行聚合，得到对应的空间分辨率为1的坐标，具体包括：将每个小的集合中各位置的坐标值与对应的聚合权重相乘后求和，得到对应的空间分辨率为1的坐标。

上述特征提取和坐标下采样过程的表达式分别如下：

其中x_i,x_j是输入特征图中的特征，y是输出特征图中的特征，c_i是输入特征图中特征的位置坐标，d是输出特征图中特征的位置坐标，f是非线性方程，w,b是学习的权重和偏置，n是抽象特征维度，Ω是需要进行特征下采样的区域，f(w·x^T+b)也可以采用多层感知机MLP(Multilayer Perceptron)算法替代

需要说明的是，聚合权重应在姿态识别网络学习阶段，通过误差反向传播的方式进行学习。反向传播的误差可以沿坐标下采样单元和特征下采样单元进行传播，因此聚合权重W也可以通过这两个分支进行更新。公式化表达如下:

w＝w-λ(λ₁Delta₁+λ₂Delta₂)

其中，Delta₁是来自坐标下采样单元分支的权重梯度，而Delta₂是来自特征下采样单元分支的权重梯度，λ₁和λ₂是各自对应的学习率，λ是整体学习率。

对于姿态估计头(使用Anchor-to-Joint(A2J)回归网络)，最终要素地图上的每个点都分配有多个锚点，并且每个锚点被迫退回每个关节的平面内偏移和深度值。使用UVD坐标系，可以根据相机固有参数将其转换回3D世界坐标系，某些关节的最终定位是从所有锚点的输出中汇总的。此过程可以表述为：

其中，i是索引，j是关节点索引，A是全体锚点集.U_A,i和V_A,i是预设的锚点位置。

是估计的关机点位置。

是估计平面内平移和深度值。

如图3c所示，在得到有效的特征之后，进行手部姿态估计，但是仅用简单的手部姿态作为监督信号对网络进行监督，网络得不到充分的训练。因此，在通过估计锚点与关节点偏移，再进行结果聚合的基础上，添加面向偏移的监督信号，能获得精度更高的结果，对应的损失函数的计算公式如下：

L_final＝L₁+L₂

其中L_final是整体的损失函数，L₁是对所有锚点估计结果进行加权聚合后的损失函数，L₂是提出的面向稠密监督的损失函数。

是关节索引和关节集合，i,Ω是锚点索引和锚点集合，w_ij是对第i个锚点和第j各关节的聚合权重,Anchor_ij是平面内的锚点位置，Off_ij是平面内的偏移量，d_ij是针对第i个锚点第j个关节的深度估计，GT_P_j是第j个关节平面内的标注位置，GT_D_j是第j个关节标注的深度，

是损失方程。

进一步地，再次参考图3a，在该手部姿态识别网络的训练过程中，可以设置三个损失函数，包括联合位置估计损失、锚点周围损失以及密集锚回归损失，具体来说，联合位置估计损失迫使网络在最后阶段输出准确的关节位置，该损失的计算公式如下：

其中，

表示损失函数，U_GT,j,V_GT,j,D_GT,j表示关节点位置的真值。

锚点周围损失用以增强网络的泛化能力，同时还监督网络以获取位于关节周围的信息锚点，该损失的计算公式如下：

密集锚回归损失用于强制每个锚点估计一个准确的联合位置，该损失还迫使每个特征点从输入的深度图像中提取合理的表示形式。换言之，密集锚回归损失通过在深度图像和平面内偏移图上构建像素级回归损失，来显式地监督每个锚生成过程，损失还有助于每个特征点从输入图像中提取合理的表示，该损失的计算公式如下：

整体的损失函数为上述3个损失函数的加权和，计算公式如下:

Loss_total＝λ₁Loss_final-joint+λ₂Loss_surrounding+λ₃Loss_anchor-joint

其中，各损失函数的权重可以分别设置为λ₁＝3,λ₂＝1,λ₃＝1。

现有的基于深度图像姿态识别方法基于2D CNN进行特征提取，其将输入的深度图像视为传统的二维图像，使用与RGB图像相同的卷积结构处理2.5维深度图像，无法有效地利用深度图像提供的深度信息。

针对上述问题，在本申请的一种可选实施例中，任意一次特征提取，包括：

具体地，该特征提取过程为每次卷积处理增加了一个重新加权的过程，该重新加权过程所使用的距离权重是基于输入特征图的三维坐标图得到。具体来说，对于每个卷积处理的区域，获取该区域中各位置与待输出位置之间的三维距离，再基于各三维距离获取对应的各位置的距离权重，其中，待输出位置为卷积处理后得到的特征所处的位置，例如，可以将卷积处理区域的中心点的位置作为待输出位置。

在通过上述方法获取到输入特征中各位置的特征的距离权重后，基于该距离权重，对输入特征图进行特征提取得到对应的输出特征图。具体来说，如图5所示，首先，基于输入特征图对应的三维坐标图，将所述输入特征图展开为至少一个一维向量；然后，将各一维向量中各特征位置的特征值与特征提取单元所采用的卷积核中对应的权重相乘，得到对应的一维投影向量；最后，将各一维投影向量中各特征位置的特征值与对应的几何权重相乘后求和(即重新加权的过程)，得到对应的输出特征图。

其中，上述相关过程公式化如下:

其中，w，h是卷积核滤波器尺寸，c是输入坐标，I，O是卷积处理的输入及输出通道数目，W_f是学习的卷积核的权重，x，y是输入输出特征，W_c是计算得到的距离权重，M是尺寸为wxh的卷积权重矩阵，n(m,i)是和输出位置i相关的第m个邻域的索引。

获取深度图像中每个点的法向量特征信息；

基于融合特征，获取对象的姿态识别结果。

具体地，如图6所示，在获取到深度图像对应的特征信息(即图中二维特征图)以及特征信息(即图中三维坐标)对应的位置信息同时，获取深度图像中每个点的法向量特征信息(即图中法向量图)，将上述三者进行拼接，从而获得更具有三维表达能力的融合特征。上述特征拼接计算公式如下：

y＝[x,c,nv],x∈Rⁿ,c∈R³,nv∈R³,y∈Rⁿ⁺⁶

其中，x是输入的高维抽象特征，特征维数是n，c是输入的三维坐标特征，nv是输入的法向量特征。

进一步地，本申请提供的姿态识别方案可以通过如图7所示的系统执行，该系统可以包括坐标维护模块、特征提取模块、法向量估计模块以及二维特征与三维特征融合模块，其输入为深度图，输出为手部姿态估计结果。

深度图像除了通过专用传感器获得，还可以通过立体匹配算法获得。基于立体匹配的深度估计能够获得稠密的深度估计，现有精度较高的多是基于深度学习网络的方法，但现有的相关算法存在计算量大，且精度有限等问题。

针对上述问题，在本申请的一种可选实施例中，获取对象的深度图像，包括：

获取对象的第一图像和第二图像；

基于最小视差图和最大视差图，获取对应的匹配搜索范围；

基于视差图，获取对象的深度图像。

具体地，可以基于本申请实施例提供的立体匹配深度生成算法，对传感器获取的原始图像进行增强，进而得到高精度的深度图像，那么，本申请提供的姿态识别方案可以通过如图8所示的系统执行，该系统可以包括深度传感器、双目立体匹配模块、坐标维护模块、特征提取模块、法向量估计模块以及二维特征与三维特征融合模块，其输入为深度传感器采集的深度图，输出为手部姿态估计结果。

具体地，如图9a所示为本申请提供的高精度立体匹配深度生成算法的总体流程图，具体来说，如图9b所示，首先利用低分辨率的像素特征进行全范围匹配，构造粗糙匹配代价，以较低的计算代价估计左图每个像素在右图中的对应范围，即最小最大视差图；然后根据获取的最小最大视差图，得到每个像素的对应搜索范围，建立高分辨像素特征的左右像素之间的匹配代价，即自适应的精细匹配代价，避免了全范围的搜索，大幅度减少内存消耗的同时，将计算集中在有效匹配区域，以此获得高分辨率的视差图。最后，将获得的高分辨率视差图转换成高分辨率的深度图。

下面将对上述最小最大视差估计进行进一步说明。

基于立体匹配的视差估计是要在视差范围内找到两幅图像之间的像素对应关系。大多数现有方法选择一个固定的视差范围，想要获得高精度输出就需要在该范围内进行密集的视差采样，这导致了巨大的存储需求。有些方法会先采用低分辨率的视差预测结果来缩小视差候选范围，但可能导致正确的匹配视差不在此范围内。

因此，本申请实施例提供了一种最小视差和最大视差预测方法，自适应调整每个像素的视差范围，该范围可以覆盖几乎每个像素的真实视差。此外，预测的搜索空间过大也将引起另一个问题，就是视差间隔太大而无法采样到正确的视差值。因此，本申请实施例还提供了一种基于概率的离散化策略，而非均匀的离散化策略，即在概率较大的区间进行相对精细的划分，概率小的区间进行粗略的划分。具体来说，本申请实施例中的网络分为两个阶段：第一阶段处理低分辨率的匹配代价，预测每个像素的最小视差和最大视差。然后，利用基于概率的离散化策略，获取候选范围内每个像素的采样视差；第二阶段构建自适应匹配代价，具有高分辨率和低内存消耗的特点，本申请实施例使用堆叠的沙漏网络结构来处理匹配代价并获取最终的视差图。

如图10所示，左边是彩色图像，中间是采用固定的收窄范围的级联匹配代价网络预测的视差值，右边是采用本申请实施例提供的方法预测的视差值。其中一些区域，例如边界和重复纹理的区域，正确的匹配视差不在收窄的视差候选范围内，导致视差值预测错误，而本申请实施例提供的方法解决了该问题。

图11a显示了本申请实施例提供的一种两个阶段的网络结构图，本申请实施例提供的网络采用一种从低分辨率到高分辨率级联的方式来预估视差图。首先利用特征提取器来提取多尺度特征，每个尺度对应的分辨率为原始输入图像的1/16和1/4。然后用1/16低分辨率特征构造低分辨率的匹配代价，通过视差预测网络预测最小视差值和最大视差值，从而获得每个像素的候选视差范围。此外，本申请实施例在候选视差范围内采用一种基于概率的离散化策略对视差值离散化，获得视差采样。基于视差采样和1/4高分辨率特征图，构建了高分辨率的匹配代价。最后，采用一种堆叠的沙漏网络结构来获取最终的高分辨率视差。

图11b显示了本申请实施例提供另外一种三个阶段的网络结构图，它由三个阶段构成，每个阶段的匹配代价的空间分辨率从原始输入图像大小的1/16、1/4到1倍依此增加。网络首先通过特征金字塔模块提取多尺度特征。在第一阶段，首先利用低分辨率的像素特征进行全范围搜索，建立左右像素之间的粗糙匹配代价。然后，从匹配代价中学习匹配概率，以预测相应分辨率的视差图。在第二阶段，将上采样的视差图和匹配概率通过不确定分布引导的范围预测(URP，Uncertainty Distribution-guided range Prediction)和基于不确定性的离散化策略(UDS,Uncertainty-based Disparity Sampler)传递，以生成新的视差取样。基于视差取样，建立高分辨率的匹配代价来预测视差图。在最后阶段，构建全分辨率匹配代价，并预测全分辨率视差图。

下面从视差预测网络、离散化策略以及网络输出和损失函数等几个方面进行详细说明。

(1)视差预测网络

在粗略到精细的立体匹配方式下，大多数工作基于早期预测的视差进行扩展，获得下一阶段的视差范围，但对于每个像素的扩展空间是一样的。实际上，可以更多的利用上一阶段的信息来自适应的推断每个像素的视差范围。因此，本申请实施例提出了最小最大视差预测网络来预测每个像素的最小和最大视差。

首先基于第一阶段构建的匹配代价，用三个堆叠的3D沙漏结构对匹配代价进行处理，然后应用两个三维卷积将匹配代价从四维矩阵(高H*宽W*特征维度C*视差维度D)降到三维矩阵(高H*宽W*视差维度D)。最后，用softmax函数将匹配代价变成概率矩阵。

如图12所示，沿着视差维度的概率分布是不相同的。对于没有纹理的区域或重复的纹理区域，因为它们通常具有多个匹配像素，因此像素的成本分布倾向于具有几个小的峰值。对于遮挡区域，由于它们没有匹配的像素，因此像素的概率分布趋于平坦。对于只有一个匹配位置的像素，其概率分布很陡峭。因此，可以利用视差采样与其概率分布之间的关系来推断每个像素的视差范围。

具体来说，如图13a所示，本申请实施例提供的一种最小和最大视差的预测网络将匹配代价、取样视差和初始视差值作为输入。首先，计算取样视差和初始视差值之间的距离矩阵；然后，将距离矩阵与匹配代价相乘，获得方差矩阵；再然后，利用特定编解码器结构，输入方差矩阵，输出每个像素的视差范围。其中，每个像素的视差范围估计是最小和最大视差预测网络的重要组成部分，该网络会根据方差的分布自动调整每个像素的视差范围。通过从初始视差图减去视差范围图来获得最小视差图，并且通过将初始视差图和视差范围图相加来获取最大视差图。

如图13b所示，本申请实施例提供的另外一个基于不确定分布引导的范围预测网络。该网络将每个像素的基于不确定性的偏移矩阵UO^l-1作为输入，该值是将每个像素的概率矩阵(H*W*D)与偏移矩阵(H*W*D)相乘得到的，其中偏移矩阵是由每一个像素在上一阶段预测的视差值与视差取样点之间的偏移量(视差维度D)计算所得。然后，利用特定编解码器结构，输入基于不确定性的偏移矩阵UO^l-1，输出每个像素的偏移量O^l。再然后，通过从初始视差图减去偏移量O^l来获得视差范围r^l的下界，并且通过将初始视差图和偏移量O^l相加来获取视差范围r^l的上界。具体的偏移矩阵UO^l-1计算如下：

其中,

和

指的是上一阶段预测的视差取样点与视差值，p^l-1指的是概率矩阵，l表示阶段序号。

(2)离散化策略

为了预测更准确的结果，本申请实施例采用高分辨率特征构造高分辨率的匹配代价。但是，更高的空间分辨率会伴随更大的视差维度，从而导致计算量和内存成本的增加。为了解决这个问题，可以减少视差维度，可以将视差维度设置为固定数量，该数量比通常的做法小8倍以上。具体来说，通常的立体匹配方法将全分辨率匹配代价的视差维度设为192，而1/4分辨率的匹配代价的视差维度为96，可以设置为12。为了在减小视差维度的同时不降低精度，自适应地缩小了每个像素的视差假设范围，该范围是通过上一个模块预测的最大视差图中减去预测的最小视差图来计算的。

然而，如果搜索空间过大将会引入另一个问题，即视差候选者太粗糙而无法采样到正确的视差。

因此，对于预测范围大于一定值的像素，本申请实施例使用基于概率的离散化策略而不是均匀离散化，对于概率较大的区域进行相对精细的离散化。对于预测范围小于该值的像素，仍然可以使用均匀化的离散化策略。

其中，图14a显示了一种基于概率的离散化策略，以单个像素i为例，首先获得它的最小视差值，最大视差值及其概率分布。然后，将视差范围均匀地分为三个子区域s_i1，s_i2和s_i3。然后，计算每个子区域的概率，公式如下：

p_ij＝P(d_j＜d＜d_j+1)

其中，d_j和d_j+1是子区域s_ij的上边界和下边界，P()是概率分布函数，p_ij是对于像素i而言其视差值位于d_j到d_j+1区间范围内的概率。

计算每个子区域的视差间隔，公式如下：

k_ij＝d_sub-interval(p_ij×N)

其中，k_ij是子区域s_ij的视差取样间隔，d_sub-interval是子区域s_ij的区域范围，N是总的取样数量。

获取每个子区域的视差采样，公式如下：

d_ijl＝s_ij+l×k_ij,l∈[0,(p_ij×N)]

其中，d_ijl是子区域s_ij的视差采样。

再将所有子区域的视差采样合并，获取最终的视差采样。

此外，本申请实施例还提出了另外一种更加通用的离散化策略，如图14b所示，称为基于不确定性的离散化策略。以单个像素i为例，首先从概率矩阵中获得单个像素的视差概率分布，然后将视差范围内的概率截取出来并归一化。然后从视差范围的下界开始，如果累积概率直方图的面积相应地达到

其中i＝0,1，...，N-1，则将每个端点视为视差采样s_i。最后，获得N个视差采样s₀，s₁，...，s_N-1。通过这种方式，高概率的区域的视差采样比较密集。具体的累积概率计算如下图公式所示：

i＝1，2，...，N-1，k＝1，2，...，d_max-d_min

其中，p(d≤d_k-1)是指对于单个像素而言其视差值位于d_min到d_k-1区间范围内的概率，d_min与d_max是指预测的视差范围的下界和上界。

(3)网络输出和损失函数

该网络分为两个阶段，每个阶段都包含四个模块：沙漏前模块和三个堆叠的沙漏模块。每个模块都产生一个四维匹配代价，并通过视差回归函数获取了预测的视差图，公式如下：

其中，

是预测的视差值，d采样视差，c_d是匹配代价，σ()是sigmoid函数。

此外，对于第一阶段，最小和最大视差预测网络输出最小视差图和最大视差图。在训练过程中，网络的所有分支都将输出视差图并计算损失以进行反向传播。在测试期间，只有最后阶段的最后一个分支会输出视差图。同时，无论在训练阶段还是测试阶段，最后一个分支都将输出最小视差图和最大视差图。

Scene Flow和KITTI数据集上训练网络，采用像素误差(EPE)对网络进行训练，公式如下：

其中，

是预测的视差值，d_gt是真实的视差值，SmoothL₁函数的定义如下：

本申请实施例的网络分为两个阶段，每个阶段都包含四个模块，因此总共输出8个预测的视差值。总的视差损失函数定义如下：

其中，λ_ij是权重系数。

对于最小最大视差预测网络，应用了最小和最大视差损失。该损失包括两部分：松弛损失和绝对损失，其中松弛损失允许视差范围足够大，以确保覆盖真实视差，而绝对损失则确保覆盖范围足够小，以确保精确的采样间隔，以免采样过程中漏掉正确的采样值。

因此为了覆盖真实视差，期望预测的最小视差值应该小于真实视差值，而预测的最大视差值应该大于真实视差值。因此，对于预测的最小视差图，如果预测结果小于真实视差，则松弛损失将提供较小的惩罚；如果预测结果大于真实视差，则将采用较大的惩罚约束。相对应的，对于预测的最大视差图，松弛损失则鼓励其大于真实视差值。

其中，λ₁和λ₂是权重系数，d_gt是真实视差值，d_min是预测的最小视差值，d_max是预测的最大视差值。

同时，使用绝对损失函数来保证预测的视差范围足够小。

最终的最小最大损失如下：

l_{min_max_loss}＝λ_relax·(l_{relax_min}+l_{relax_max})+λ_absolute·(l_{absolute_min}+l_{absolute_max})

其中，λ_relax和λ_absolute是权重系数。

最终，整个网络的损失函数如下：

L＝l_{min_max_loss}+l_disp

下面再通过一个基于手部姿态识别网络进行手部姿态识别的示例来对本申请实施例的方案做进一步说明，其整体流程如图15所示，可以包括以下步骤：

通过深度传感器获取包含手部的原始深度图像，并利用上述基于立体匹配深度生成算法对原始深度图像进行增强，得到对应的高精度深度图像。将得到的深度图像输入姿态识别网络，在网络中，基于深度图像获取对应的高分辨率坐标图以及对应的法向量。通过多个特征提取模块(Feature Extractor Block，FEB)和特征下采样单元(Feature MapDownsample，FMD)，提取深度图像对应的特征信息(即二维特征)，同时，利用多个坐标下采样单元，即坐标保留层(Coordinate Preserving Layer，CPL)在特征下采样时同步进行坐标下采样，得到特征信息对应的位置信息(即低分辨率三维坐标图)，将二维特征、三维坐标图以及法向量进行特征拼接，得到融合特征，基于融合特征进行锚点偏移估计得到姿态估计结果，进而完成手部姿态估计。

图16为本申请实施例提供的一种姿态识别装置的结构框图，如图16所示，该装置1600可以包括：深度图像获取模块1601、特征及位置获取模块1602以及姿态识别结果获取模块1603，其中：

深度图像获取模块1601用于获取对象的深度图像；

特征及位置获取模块1602用于获取深度图像的特征信息以及特征信息对应的位置信息；

姿态识别结果获取模块1603用于基于特征信息和位置信息，获取对象的姿态识别结果。

在本申请的一种可选实施例中，特征及位置获取模块具体用于：

基于深度图像，获取对应的初始三维坐标图；

在本申请的一种可选实施例中，该装置还可以包括聚合权重获取模块，用于：

在本申请的一种可选实施例中，特征及位置获取模块进一步用于：

在本申请的一种可选实施例中，深度图像获取模块具体用于：

获取对象的第一图像和第二图像；

基于最小视差图和最大视差图，获取对应的匹配搜索范围；

基于视差图，获取对象的深度图像。

在本申请的一种可选实施例中，姿态识别结果获取模块具体用于：

获取深度图像中每个点的法向量特征信息；

基于融合特征，获取对象的姿态识别结果。

下面参考图17，其示出了适于用来实现本申请实施例的电子设备(例如执行图1所示方法的终端设备或服务器)1700的结构示意图。本申请实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴设备等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图17示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

电子设备包括：存储器以及处理器，存储器用于存储执行上述各个方法实施例所述方法的程序；处理器被配置为执行存储器中存储的程序。其中，这里的处理器可以称为下文所述的处理装置1701，存储器可以包括下文中的只读存储器(ROM)1702、随机访问存储器(RAM)1703以及存储装置1708中的至少一项，具体如下所示：

如图17所示，电子设备1700可以包括处理装置(例如中央处理器、图形处理器等)1701，其可以根据存储在只读存储器(ROM)1702中的程序或者从存储装置1708加载到随机访问存储器(RAM)1703中的程序而执行各种适当的动作和处理。在RAM1703中，还存储有电子设备1700操作所需的各种程序和数据。处理装置1701、ROM 1702以及RAM1703通过总线1704彼此相连。输入/输出(I/O)接口1705也连接至总线1704。

通常，以下装置可以连接至I/O接口1705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置1707；包括例如磁带、硬盘等的存储装置1708；以及通信装置1709。通信装置1709可以允许电子设备1700与其他设备进行无线或有线通信以交换数据。虽然图17示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置1709从网络上被下载和安装，或者从存储装置1708被安装，或者从ROM 1702被安装。在该计算机程序被处理装置1701执行时，执行本申请实施例的方法中限定的上述功能。

需要说明的是，本申请上述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

获取对象的深度图像；获取深度图像的特征信息以及特征信息对应的位置信息；基于特征信息和位置信息，获取对象的姿态识别结果。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块或单元的名称在某种情况下并不构成对该单元本身的限定，例如，深度图像获取模块还可以被描述为“获取深度图像的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

本申请实施例中所提供的装置，可以通过AI模型来实现多个模块中的至少一个模块。可以通过非易失性存储器、易失性存储器和处理器来执行与AI相关联的功能。

该处理器可以包括一个或多个处理器。此时，该一个或多个处理器可以是通用处理器，例如中央处理单元(CPU)、应用处理器(AP)等、或者是纯图形处理单元，例如，图形处理单元(GPU)、视觉处理单元(VPU)、和/或AI专用处理器，例如神经处理单元(NPU)。

该一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义的操作规则或人工智能(AI)模型来控制对输入数据的处理。通过训练或学习来提供预定义的操作规则或人工智能模型。

这里，通过学习来提供指的是通过将学习算法应用于多个学习数据来得到预定义的操作规则或具有期望特性的AI模型。该学习可以在其中执行根据实施例的AI的装置本身中执行，和/或可以通过单独的服务器/系统来实现。

该AI模型可以包含多个神经网络层。每一层具有多个权重值，一个层的计算是通过前一层的计算结果和当前层的多个权重来执行的。神经网络的示例包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、生成对抗网络(GAN)、以及深度Q网络。

学习算法是一种使用多个学习数据训练预定目标装置(例如，机器人)以使得、允许或控制目标装置进行确定或预测的方法。该学习算法的示例包括但不限于监督学习、无监督学习、半监督学习、或强化学习。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的计算机可读介质被电子设备执行时实现的具体方法，可以参考前述方法实施例中的对应过程，在此不再赘述。

Claims

1.一种姿态识别方法，其特征在于，包括：

获取对象的深度图像；

获取所述深度图像的特征信息以及所述特征信息对应的位置信息；

基于所述特征信息和所述位置信息，获取所述对象的姿态识别结果。

2.根据权利要求1所述的方法，其特征在于，获取所述深度图像的特征信息以及所述特征信息对应的位置信息，包括：

基于所述深度图像，获取对应的初始三维坐标图；

针对所述深度图像，进行至少一次特征提取和至少一次基于对应的聚合权重的特征下采样，得到所述特征信息；

针对所述初始三维坐标图，在进行每次特征下采样时，基于该特征下采样对应的聚合权重进行坐标下采样，得到所述位置信息。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，任意一次特征提取，包括：

基于特征提取对应的输入特征图所对应的三维坐标图，获取所述输入特征图中各位置的特征对应的三维距离；

基于所述三维距离，获取所述输入特征图中各位置的特征对应的距离权重；

基于所述距离权重，对所述输入特征图进行特征提取得到对应的输出特征图。

5.根据权利要求1所述的方法，其特征在于，获取对象的深度图像，包括：

获取所述对象的第一图像和第二图像；

对所述第一图像和所述第二图像进行粗糙匹配，得到对应的最小视差图和最大视差图；

基于所述最小视差图和所述最大视差图，获取对应的匹配搜索范围；

基于所述匹配搜索范围对所述第一图像和所述第二图像进行精细匹配，得到对应的视差图；

基于所述视差图，获取所述对象的深度图像。

6.根据权利要求1所述的方法，其特征在于，基于所述特征信息和所述位置信息，获取所述对象的姿态识别结果，包括：

获取所述深度图像中每个点的法向量特征信息；

将所述法向量特征信息、所述特征信息和所述位置信息进行特征拼接，得到对应的融合特征；

基于所述融合特征，获取所述对象的姿态识别结果。

7.一种姿态识别装置，其特征在于，包括：

深度图像获取模块，用于获取对象的深度图像；

特征及位置获取模块，用于获取所述深度图像的特征信息以及所述特征信息对应的位置信息；

姿态识别结果获取模块，用于基于所述特征信息和所述位置信息，获取所述对象的姿态识别结果。

8.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器中存储有计算机程序；

所述处理器，用于执行所述计算机程序以实现权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。