CN106846403B

CN106846403B - 一种三维空间中手部定位的方法、装置及智能设备

Info

Publication number: CN106846403B
Application number: CN201710005689.0A
Authority: CN
Inventors: 孙铮
Original assignee: Beijing Untouched Technology Co Ltd
Current assignee: Beijing Untouched Technology Co Ltd
Priority date: 2017-01-04
Filing date: 2017-01-04
Publication date: 2020-03-27
Anticipated expiration: 2037-01-04
Also published as: CN106846403A

Abstract

本发明公开了一种三维空间中手部定位的方法、装置及智能设备，用以降低三维空间中手部定位的计算量，提高手部定位的鲁棒性，且减少手部定位受环境的干扰。所述三维空间中手部定位的方法，包括：采集包含手部的深度图像；从所述深度图像中截取仅包含手部的目标深度图像，并基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标；根据预先确定的所述相机在空间中的位姿数据以及所述目标深度图像中手部各关节点相对于所述相机的三维空间坐标，确定所述目标深度图像中手部各关节点在空间中的三维空间坐标。

Description

一种三维空间中手部定位的方法、装置及智能设备

技术领域

本发明涉及智能设备技术领域，尤其涉及一种三维空间中手部定位的方法、装置及智能设备。

背景技术

随着虚拟现实技术(Virtual Reality，VR)以及增强现实技术(AugmentedReality，AR)的发展，VR和AR渐渐被公众所熟知。VR设备与AR设备有望成为下一代人机交互界面，但是在输入端，也就是用户该如何在虚拟环境中发出指令和进行操作，依然面临许多瓶颈，例如：定位手部在三维空间中的位置。

现有技术中，定位手部在三维空间中的位置的主流方法是基于普通2D图像进行定位，具体来说：从两个视角分别采集两张包含手部的2D图像，然后从第一视角的2D图像提取二维的手部骨架(骨架由关节点和关节点之间的连接线组成)，从第二视角的2D图像中提取不同于第一视角的二维手部骨架，将两个不同视角下的二维手部骨架通过双目视觉原理建立三维手部骨架，从而确定手部在三维空间中的位置。但是发明人在实现本发明的过程中，发现现有基于普通2D图像定位手部在三维空间中位置的方法，计算量大，鲁棒性差，且容易受环境干扰。

综上所述，现有基于普通2D图像定位手部在三维空间中位置的方法，计算量大，鲁棒性差，且容易受环境干扰。

发明内容

本发明实施例提供了一种三维空间中手部定位的方法、装置及智能设备，用以降低三维空间中手部定位的计算量，提高手部定位的鲁棒性，且减少手部定位受环境的干扰。

本发明实施例提供的一种三维空间中手部定位的方法，该方法包括：采集包含手部的深度图像；从所述深度图像中截取仅包含手部的目标深度图像，并基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标；根据预先确定的所述相机在空间中的位姿数据以及所述目标深度图像中手部各关节点相对于所述相机的三维空间坐标，确定所述目标深度图像中手部各关节点在空间中的三维空间坐标。

本发明实施例提供的上述方法中，采集包含手部的深度图像，从深度图像中截取仅包含手部的目标深度图像，基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，进而根据预先确定的相机在空间中的位姿数据以及目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，确定目标深度图像中手部各关节点在空间中的三维空间坐标，与现有技术中基于普通2D图像定位手部在三维空间中位置的方法，需要分别基于第一视角和第二视角的2D图像提取二维的手部骨架，将两个不同视角下的二维手部骨架通过双目视觉原理建立三维手部骨架相比，本发明实施例无需提取手部骨架以及通过双目视觉建立三维手部骨架，降低了三维空间中手部定位的计算量，提高手部定位的鲁棒性，且在手部定位时，截取仅包含手部的目标深度图像，并基于目标深度图像进行定位，减少了手部定位受环境的干扰。

在一种可能的实施方式中，本发明实施例提供的上述方法中，该方法还包括：基于所述目标深度图像中手部各关节点在空间中的三维空间坐标，确定手部关节点之间的空间距离关系；基于确定出的手部关节点之间的空间距离关系以及预先训练生成的手势模型，确定所述目标深度图像中所包含手部在空间中的手势。

在一种可能的实施方式中，本发明实施例提供的上述方法中，该方法还包括：基于预先训练生成的手部动作模型以及连续多帧深度图像中所包含手部在空间中的手势，确定采集多帧深度图像对应时长内手部的动作。

在一种可能的实施方式中，本发明实施例提供的上述方法中，在基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标之前，该方法还包括：判断所述目标深度图像中所包含的手部为左手或者右手；则所述基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标，包括：在判定所述目标深度图像中所包含的手部为左手的条件下，基于预先训练的左手关节点模型以及所述目标深度图像，确定所述目标深度图像中左手手部各关节点相对于采集所述深度图像的相机的三维空间坐标；以及在判定所述目标深度图像中所包含的手部为右手的条件下，基于预先训练的右手手部关节点模型以及所述目标深度图像，确定所述目标深度图像中右手手部各关节点相对于采集所述深度图像的相机的三维空间坐标。

在一种可能的实施方式中，本发明实施例提供的上述方法中，所述判断目标深度图像中所包含的手部为左手或者右手，包括：在采集所述深度图像的时刻采集包含手部的彩色图像；根据所述包含手部的彩色图像和/或包含手部的深度图像，基于预先训练生成的左右手模型，判断目标深度图像中所包含的手部为左手或者右手。

在一种可能的实施方式中，本发明实施例提供的上述方法中，所述从所述深度图像中截取仅包含手部的目标深度图像，包括：在所述深度图像中确定包含手部的目标区域，从所述深度图像中截取目标区域的深度图像；对所述目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像。

在一种可能的实施方式中，本发明实施例提供的上述方法中，所述对所述目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像，包括：检测所述目标区域的深度图像中是否存在连通域；在确定所述目标区域的深度图像中存在连通域的条件下，将所述目标区域的深度图像中最大的连通域确定为手部连通域，从所述目标区域的深度图像中截取手部连通域的目标深度图像，生成仅包含手部的目标深度图像。

在一种可能的实施方式中，本发明实施例提供的上述方法中，在确定所述目标区域的深度图像中存在连通域之后，将所述目标区域的深度图像中最大的连通域确定为手部连通域之前，该方法还包括：判断所述目标区域的深度图像中最大的连通域是否大于预设连通域阈值，并在判定所述目标区域的深度图像中最大的连通域大于预设连通域阈值的条件下，执行将所述目标区域的深度图像中最大的连通域确定为手部连通域的操作。

在一种可能的实施方式中，本发明实施例提供的上述方法中，所述在所述深度图像中确定包含手部的目标区域，包括：在当前帧之前采集的多帧深度图像中均包含手部的条件下，根据当前帧之前采集的多帧深度图像中包含手部的目标区域的移动轨迹，确定当前帧深度图像中包含手部的目标区域；和/或在当前帧的前一帧深度图像中未包含手部或者在当前帧之前采集的多帧深度图像中仅当前帧的前一帧深度图像中包含手部的条件下，基于预先训练的手部检测模型以及当前帧深度图像，确定当前帧深度图像中包含手部的目标区域。

在一种可能的实施方式中，本发明实施例提供的上述方法中，在采集包含手部的深度图像之后，从所述深度图像中截取仅包含手部的目标深度图像之前，该方法还包括：对所述包含手部的深度图像进行预处理，其中，所述预处理包括平滑处理和去噪处理；则所述从所述深度图像中截取仅包含手部的目标深度图像，包括：从经过预处理之后的深度图像中截取仅包含手部的目标深度图像。

在一种可能的实施方式中，本发明实施例提供的上述方法中，所述基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标，包括：基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点的像素坐标与像素值；利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理，得到所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标。

在一种可能的实施方式中，本发明实施例提供的上述方法中，在确定所述目标深度图像中手部各关节点的像素坐标与像素值之后，在利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理之前，该方法还包括：对确定出的手部各关节点的像素坐标与像素值进行优化处理，其中，所述优化处理包括：平滑处理和纠错处理；则所述利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理，得到所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标，包括：利用反投影算法对优化后的手部各关节点的像素坐标与像素值进行处理，得到所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标。

本发明实施例提供的一种三维空间中手部定位的装置，该装置包括：采集单元，用于采集包含手部的深度图像；处理单元，用于从所述深度图像中截取仅包含手部的目标深度图像，并基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标；空间位置确定单元，用于根据预先确定的所述相机在空间中的位姿数据以及所述目标深度图像中手部各关节点相对于所述相机的三维空间坐标，确定所述目标深度图像中手部各关节点在空间中的三维空间坐标。

本发明实施例提供的上述装置中，采集包含手部的深度图像，从深度图像中截取仅包含手部的目标深度图像，基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，进而根据预先确定的相机在空间中的位姿数据以及目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，确定目标深度图像中手部各关节点在空间中的三维空间坐标，与现有技术中基于普通2D图像定位手部在三维空间中位置的方法，需要分别基于第一视角和第二视角的2D图像提取二维的手部骨架，将两个不同视角下的二维手部骨架通过双目视觉原理建立三维手部骨架相比，本发明实施例无需提取手部骨架以及通过双目视觉建立三维手部骨架，降低了三维空间中手部定位的计算量，提高手部定位的鲁棒性，且在手部定位时，截取仅包含手部的目标深度图像，并基于目标深度图像进行定位，减少了手部定位受环境的干扰。

在一种可能的实施方式中，本发明实施例提供的上述装置中，该装置还包括：关节点关系确定单元，用于基于所述目标深度图像中手部各关节点在空间中的三维空间坐标，确定手部关节点之间的空间距离关系；手势确定单元，用于基于确定出的手部关节点之间的空间距离关系以及预先训练生成的手势模型，确定所述目标深度图像中所包含手部在空间中的手势。

在一种可能的实施方式中，本发明实施例提供的上述装置中，该装置还包括：手部动作确定单元，用于基于预先训练生成的手部动作模型以及连续多帧深度图像中所包含手部在空间中的手势，确定采集多帧深度图像对应时长内手部的动作。

在一种可能的实施方式中，本发明实施例提供的上述装置中，该装置还包括：左右手判断单元，用于在所述处理单元基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标之前，判断所述目标深度图像中所包含的手部为左手或者右手；所述处理单元基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标，具体用于：在所述左右手判断单元判定所述目标深度图像中所包含的手部为左手的条件下，基于预先训练的左手关节点模型以及所述目标深度图像，确定所述目标深度图像中左手手部各关节点相对于采集所述深度图像的相机的三维空间坐标；以及在所述左右手判断单元判定所述目标深度图像中所包含的手部为右手的条件下，基于预先训练的右手手部关节点模型以及所述目标深度图像，确定所述目标深度图像中右手手部各关节点相对于采集所述深度图像的相机的三维空间坐标。

在一种可能的实施方式中，本发明实施例提供的上述装置中，所述左右手判断单元，具体用于：在采集所述深度图像的时刻采集包含手部的彩色图像；根据所述包含手部的彩色图像和/或包含手部的深度图像，基于预先训练生成的左右手模型，判断目标深度图像中所包含的手部为左手或者右手。

在一种可能的实施方式中，本发明实施例提供的上述装置中，所述处理单元从所述深度图像中截取仅包含手部的目标深度图像，具体用于：在所述深度图像中确定包含手部的目标区域，从所述深度图像中截取目标区域的深度图像；对所述目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像。

在一种可能的实施方式中，本发明实施例提供的上述装置中，所述处理单元对所述目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像，具体用于：检测所述目标区域的深度图像中是否存在连通域；在确定所述目标区域的深度图像中存在连通域的条件下，将所述目标区域的深度图像中最大的连通域确定为手部连通域，从所述目标区域的深度图像中截取手部连通域的目标深度图像，生成仅包含手部的目标深度图像。

在一种可能的实施方式中，本发明实施例提供的上述装置中，该装置还包括：判断单元，用于在所述处理单元确定所述目标区域的深度图像中存在连通域之后，将所述目标区域的深度图像中最大的连通域确定为手部连通域之前，判断所述目标区域的深度图像中最大的连通域是否大于预设连通域阈值；通知单元，用于在所述判断单元判定所述目标区域的深度图像中最大的连通域大于预设连通域阈值的条件下，通知所述处理单元将所述目标区域的深度图像中最大的连通域确定为手部连通域。

在一种可能的实施方式中，本发明实施例提供的上述装置中，所述处理单元在所述深度图像中确定包含手部的目标区域，具体用于：在当前帧之前采集的多帧深度图像中均包含手部的条件下，根据当前帧之前采集的多帧深度图像中包含手部的目标区域的移动轨迹，确定当前帧深度图像中包含手部的目标区域；和/或在当前帧的前一帧深度图像中未包含手部或者在当前帧之前采集的多帧深度图像中仅当前帧的前一帧深度图像中包含手部的条件下，基于预先训练的手部检测模型以及当前帧深度图像，确定当前帧深度图像中包含手部的目标区域。

在一种可能的实施方式中，本发明实施例提供的上述装置中，该装置还包括：第一优化处理单元，用于在采集包含手部的深度图像之后，从所述深度图像中截取仅包含手部的目标深度图像之前，对所述包含手部的深度图像进行预处理，其中，所述预处理包括平滑处理和去噪处理；则所述处理单元从所述深度图像中截取仅包含手部的目标深度图像，具体用于：从经过预处理之后的深度图像中截取仅包含手部的目标深度图像。

在一种可能的实施方式中，本发明实施例提供的上述装置中，所述处理单元基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标，具体用于：基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点的像素坐标与像素值；利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理，得到所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标。

在一种可能的实施方式中，本发明实施例提供的上述装置中，该装置还包括：第二优化处理单元，用于在确定所述目标深度图像中手部各关节点的像素坐标与像素值之后，在利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理之前，对确定出的手部各关节点的像素坐标与像素值进行优化处理，其中，所述优化处理包括：平滑处理和纠错处理；则所述处理单元利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理，得到所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标，具体用于：利用反投影算法对优化后的手部各关节点的像素坐标与像素值进行处理，得到所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标。

本发明实施例提供一种智能设备，所述智能设备包括本发明上述实施例提供的三维空间中手部定位的装置。

本发明实施例提供的上述系统中，通过在智能设备中增加本发明实施例提供的三维空间中手部定位的装置，使得智能设备能够采集包含手部的深度图像，从深度图像中截取仅包含手部的目标深度图像，基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，进而根据预先确定的相机在空间中的位姿数据以及目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，确定目标深度图像中手部各关节点在空间中的三维空间坐标，与现有技术中基于普通2D图像定位手部在三维空间中位置的方法，需要分别基于第一视角和第二视角的2D图像提取二维的手部骨架，将两个不同视角下的二维手部骨架通过双目视觉原理建立三维手部骨架相比，本发明实施例无需提取手部骨架以及通过双目视觉建立三维手部骨架，降低了三维空间中手部定位的计算量，提高手部定位的鲁棒性，且在手部定位时，截取仅包含手部的目标深度图像，并基于目标深度图像进行定位，减少了手部定位受环境的干扰。

附图说明

图1为本发明实施例提供的一种三维空间中手部定位的方法的示意流程图；

图2为本发明一实施例提供的手部关节点的位置示意图；

图3为本发明一实施例提供的三维空间中手部定位的方法的具体流程的示意流程图；

图4为本发明另一实施例提供的三维空间中手部定位的方法的具体流程的示意流程图；

图5为本发明实施例提供的一种三维空间中手部定位的装置的的结构示意图。

具体实施方式

下面结合附图，对本发明实施例提供的一种三维空间中手部定位的方法、装置及智能设备的具体实施方式进行详细地说明。

需要说明的是，本发明实施例中提到的手部关节点模型(包括左手手部关节点模型和右手手部关节点模型)、手势模型、手部动作模型、左右手模型以及手部检测模型均是基于深度神经网络算法预先输入大量样本数据训练生成的，其中，基于深度神经网络算法训练生成各个模型可以采用现有技术中的方法，此处不再赘述。

本发明实施例提供的一种三维空间中手部定位的方法，如图1所示，该方法包括：

步骤102，采集包含手部的深度图像。

本步骤中，采集包含手部的深度图像，是通过安装在智能设备上的一个或多个深度摄像头进行采集的，其中，智能设备包括但不限于：VR设备、AR设备、机器人、无人机以及移动终端(例如：手机、平板电脑等)。

步骤104，从深度图像中截取仅包含手部的目标深度图像，并基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标。

由于深度摄像头采集到的包含手部的深度图像中，不但包含手部的深度图像，还可能包含手部所在空间中其它物体的深度图像，因此，为了减少手部定位受外部环境的干扰，本步骤中先从采集的深度图像中截取仅包含手部的目标深度图像，然后基于预先训练生成的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标。

值得说明的是，为了提高手部定位的准确性，在从采集的深度图像中截取仅包含手部的目标深度图像之前，该方法还包括：对包含手部的深度图像进行预处理，其中，预处理包括平滑处理和去噪处理，则从深度图像中截取仅包含手部的目标深度图像，包括：从经过预处理之后的深度图像中截取仅包含手部的目标深度图像。其中，对深度图像进行平滑处理和去噪处理可以采用现有技术中的方法，此处不再赘述。当然，本领域技术人员应当理解的是，在从采集的深度图像中截取仅包含手部的目标深度图像之前，对包含手部的深度图像进行预处理，预处理不仅包括平滑处理和去噪处理，还可以包括其它用于提高图像质量的处理，此处并不用于具体限定。

具体实施时，从采集的深度图像中截取仅包含手部的深度图像，包括：在深度图像中确定包含手部的目标区域，从深度图像中截取目标区域的深度图像，对目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像。

值得说明的是，本发明实施例中，在深度图像中确定包含手部的目标区域，目标区域中不仅包含手部，还可能包含一部分背景，而在对目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像之后，目标深度图像中仅包含手部的深度图像，不包括背景部分的深度图像。

在包含手部的深度图像中确定包含手部的目标区域，目标区域可以略大于手部的大小，具体实施时可以采用以下两种实施方式，具体来说：

实施方式一、在当前帧之前采集的多帧深度图像中均包含手部的条件下，根据当前帧之前采集的多帧深度图像中包含手部的目标区域的移动轨迹，确定当前帧深度图像中包含手部的目标区域。

较为优选地，本实施方式中提到的当前帧之前采集的多帧深度图像是与当前帧深度图像连续采集的，也即本实施方式中提到的当前帧之前采集的多帧深度图像是连续采集的多帧深度图像，且多帧深度图像中的最后一帧是当前帧的前一帧。

作为较为具体的实施例，当前帧之前采集的两帧深度图像为深度图像A和深度图像B，在深度图像A和深度图像B中均包含手部的条件下，可以根据深度图像A和深度图像B中包含手部的目标区域所在的位置，确定深度图像A和深度图像B中手部的移动速度，进而根据手部的移动速度以及当前帧深度图像与前一帧深度图像(深度图像A或者深度图像B)之间的采集时刻之差，确定当前帧深度图像中手部可能出现的区域范围，将当前帧深度图像中手部可能出现的区域范围作为包含手部的目标区域。

作为另一较为具体的实施例，当前帧之前采集的三帧深度图像为深度图像A、深度图像B以及深度图像C，在深度图像A、深度图像B以及深度图像C中均包含手部的条件下，可以根据深度图像A、深度图像B以及深度图像C中包含手部的目标区域所在的位置，确定深度图像A、深度图像B以及深度图像C中手部的移动速度和移动加速度，进而根据手部的移动速度、移动加速度以及当前帧深度图像与前一帧深度图像(深度图像A、深度图像B或者深度图像C)之间的采集时刻之差，确定当前帧深度图像中手部可能出现的区域范围，将当前帧深度图像中手部可能出现的区域范围作为包含手部的目标区域。

值得说明的是，本实施方式中提到的当前帧之前采集的多帧深度图像中均包含手部的条件下，根据当前帧之前采集的多帧深度图像中包含手部的目标区域的移动轨迹，确定当前帧深度图像中包含手部的目标区域，在采用此实施方式进行确定包含手部的目标区域时，当前帧之前采集的深度图像中包含手部的图像帧越多，则可以确定出的手部的移动信息越多，进而确定出的当前帧深度图像中手部可能出现的区域越准确。

在当前帧之前采集的多帧深度图像中仅当前帧的前一帧深度图像中包含手部的条件下，或者在当前帧的前一帧深度图像中未包含手部的条件下，不能使用实施方式一的方法确定包含手部的目标区域，则此种情况，可以使用实施方式二确定包含手部的目标区域。

实施方式二、在当前帧的前一帧深度图像中未包含手部或者在当前帧之前采集的多帧深度图像中仅当前帧的前一帧深度图像中包含手部或者在当前帧深度图像中新出现手部的条件下，基于预先训练的手部检测模型以及当前帧深度图像，确定当前帧深度图像中包含手部的目标区域。

具体实施时，在前一帧深度图像中未包含手部的条件下，在当前帧深度图像中可能包含手部，因此，基于预先训练的手部检测模型，确定当前帧深度图像中是否包含手部，在确定当前帧深度图像中包含手部的条件下，确定当前帧深度图像中包含手部的目标区域。

由于采用实施方式一的方式在当前帧深度图像中确定包含手部的目标区域时，至少需要当前帧之前的两帧深度图像中包含手部，因此，在当前帧之前采集的多帧深度图像中仅当前帧的前一帧深度图像中包含手部的条件下，在确定当前帧深度图像中包含手部的目标区域时，需要基于预先训练的手部检测模型，确定当前帧深度图像中是否包含手部，并在确定当前帧深度图像中包含手部的条件下，确定当前帧深度图像中包含手部的目标区域。

当然，值得说明的是，具体实施时，为了避免漏检深度图像中包含的手部，本发明其它实施例中，在深度图像中确定包含手部的深度图像时，无论当前帧之前采集的多帧深度图像是否包含手部，可以仅采用实施方式二的方法，基于预先训练的手部检测模型，在当前帧深度图像中确定包含手部的目标区域。

较为优选地，在深度图像中确定包含手部的目标区域时，可以采用实施方式一与实施方式二相结合的方式进行确定，如此以来，无论是当前帧之前多帧深度图像中出现过的手部，还是当前帧深度图像中首次出现的手部均可以被确定出来，从而避免漏检，提高准确性。

在当前帧深度图像中确定包含手部的目标区域之后，由于目标区域中不仅包含手部的深度图像，还可能包含背景部分的深度图像，因此，为了提高手部定位的准确性，减少外部环境的干扰，本发明实施例还可以对目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像。

具体实施时，对目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像，包括：检测目标区域的深度图像中是否存在连通域，在确定目标区域的深度图像中存在连通域的条件下，将目标区域的深度图像中最大的连通域确定为手部连通域，从目标区域的深度图像中截取手部连通域的目标深度图像，生成仅包含手部的目标深度图像。

值得说明的是，目标区域的深度图像为包含手部的目标区域，该目标区域是以手部为主，因此，在目标区域的深度图像中存在连通域的条件下，则将目标区域的深度图像中最大的连通域确定为手部连通域，然后从目标区域的深度图像中截取手部连通域的目标深度图像，生成仅包含手部的目标深度图像。其中，在目标区域的深度图像中确定连通域可以采用现有技术中的方法，此处不再赘述。

较为优选地，在确定目标区域的深度图像中存在连通域之后，将目标区域的深度图像中最大的连通域确定为手部连通域之前，该方法还包括：判断目标区域的深度图像中最大的连通域是否大于预设连通域阈值，并在判定目标区域的深度图像中最大的连通域大于预设连通域阈值的条件下，执行将目标区域的深度图像中最大的连通域确定为手部连通域的操作。

具体实施时，在确定目标区域的深度图像中存在连通域之后，为了提高确定出的手部连通域的准确性，在将目标区域的深度图像中最大的连通域确定为手部连通域之前，还需要判断目标区域的深度图像中最大的连通域是否大于预设连通域阈值，若判定目标区域的深度图像中最大的连通域大于预设连通域阈值，则确定目标区域的深度图像中最大的连通域为手部的连通域，若目标区域的深度图像中最大的连通域小于预设连通域阈值，则确定目标区域的深度图像中最大的连通域不为手部的连通域。其中，预设连通域阈值可以根据手部连通域的最小值进行设定，例如：预设连通域阈值为5000个像素。

具体实施时，步骤104中基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，包括：基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点的像素坐标与像素值，利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理，得到目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标。

具体来说，深度图像上的每个像素用(U，V，D)表示，其中，(U，V)代表像素坐标，(D)代表深度值，也可称为像素值，将目标深度图像输入到预先训练生成的手部关节点模型中，即可确定出目标深度图像中手部各关节点的像素(U’，V’，D’)，也即确定目标深度图像中手部各关节点的像素坐标与像素值，然后利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理，得到目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标。其中，反投影算法可以采用现有技术中的方法，此处不再赘述。

值得说明的是，本发明实施例中，手部关节点模型中包括23个关节点，如图2所示，手部选取23个关节点a，每个手指上包含4个关节点a，手心包含一个关节点a，手腕包含两个关节点a，每个手部一共包含23个关节点a。当然，在本发明其它实施例中，为了降低计算量，手部关节点模型中手部关节点的数量也可以少于23个，而为了提高手部定位的准确性，手部关节点模型中手部关节点的数量也可以多于23个，本发明实施例中手部关节点模型中包括23个关节点，并不用于具体限定。

较为优选地，为了提高确定出的手部关节点像素坐标和像素值的准确性，本发明实施例在确定目标深度图像中手部各关节点的像素坐标与像素值之后，在利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理之前，该方法还包括：对确定出的手部各关节点的像素坐标与像素值进行优化处理，其中，优化处理包括：平滑处理和纠错处理；则利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理，得到目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，包括：利用反投影算法对优化后的手部各关节点的像素坐标与像素值进行处理，得到目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标。

具体实施时，对确定出的手部各关节点的像素坐标与像素值进行平滑处理和纠错处理，可以优化和校准错误手部关节点的像素坐标与像素值，在对确定出的手部各关节点的像素坐标与像素值进行平滑处理和纠错处理时，可以使用以下技术中的一种或多种：卡尔曼滤波器、前后帧时序限制以及手部的关节点限制，当然，还可以采用现有技术中的其它技术进行优化，此处并不用于具体限定。其中，前后帧时序限制是指深度摄像头在较高的图像采集帧率下(例如：图像采集帧率大于或等于每秒30帧)，根据手部所有关节点确定的手部姿态不可能在前后帧之间发生突变，例如：前一帧右手手背朝上，下一帧不可能出现同一右手手背朝下，因为前后帧之间的时间间隙非常小(图像采集帧率大于或等于每秒30帧时，采集前后帧图像之间的时间间隙小于33毫秒)的情况下，手部的移动与手势的改变是一个逐渐变化的过程。而手部的关节点限制是指手部各关节点的位置不能违反手部的生理特征或者人体的骨骼限制，手部各个关节点不能出现在不可能出现的位置，例如：手指上的关节点以超大角度向后弯曲，不符合人体骨骼的限制；再例如：手指上的关节点近乎都处于手指可弯曲的平面上，其中某个手指关节点不可能严重偏离这个平面。

值得说明的是，本发明实施例中，对确定出的手部各关节点的像素坐标与像素值进行优化处理，优化处理可以循环优化多次，以提高确定出的手部各关节点的像素坐标与像素值的准确性。

较为优选地，在基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标时，为了提高计算速度，本发明实施例中，在基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标之前，该方法还包括：判断目标深度图像中所包含的手部为左手或者右手；则基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，包括：在判定目标深度图像中所包含的手部为左手的条件下，基于预先训练的左手关节点模型以及目标深度图像，确定目标深度图像中左手手部各关节点相对于采集深度图像的相机的三维空间坐标；以及在判定目标深度图像中所包含的手部为右手的条件下，基于预先训练的右手手部关节点模型以及目标深度图像，确定目标深度图像中右手手部各关节点相对于采集深度图像的相机的三维空间坐标。

具体实施时，在基于深度神经网络训练生成手部关节点模型时，可以将左手和右手分开训练，也即生成左手手部关节点模型和右手手部关节点模型。在确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标之前，可以先确定目标深度图像中的手部为左手或右手，在确定目标深度图像中手部为左手的条件下，就可以基于左手手部关节点模型以及目标深度图像，确定目标深度图像中左手手部各关节点相对于采集深度图像的相机的三维空间坐标，而在确定目标深度图像中手部为右手的条件下，就可以基于右手手部关节点模型以及目标深度图像，确定目标深度图像中右手手部各关节点相对于采集深度图像的相机的三维空间坐标。

更为优选地，若在确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标之前，先确定目标深度图像中的手部为左手或右手，则为了降低训练手部关节点模型的工作量，在基于深度神经网络训练生成手部关节点模型时，也可以仅训练左手或者右手，也即仅生成左手手部关节点模型或者仅生成右手手部关节点模型。

以仅生成左手手部关节点模型为例，若确定目标深度图像中的手部为左手，则基于左手手部关节点模型以及目标深度图像，确定目标深度图像中左手手部各关节点相对于采集深度图像的相机的三维空间坐标，若确定目标深度图像中的手部为右手，则根据人左右手部的镜像原理，将包含右手的目标深度图像转换为包含左手的目标深度图像，并基于左手手部关节点模型以及转换生成的包含左手的目标深度图像，确定转换生成的包含左手的目标深度图像中左手的手部关节点像素坐标与像素值，然后再根据人左右手部的镜像原理以及确定出的左手手部关节点的像素坐标与像素值，将确定出的左手的手部关节点的像素坐标与像素值根据手部镜像原理对应到右手的手部关节点，进而确定目标深度图像中右手手部各关节点相对于采集深度图像的相机的三维空间坐标。

具体实施时，判断目标深度图像中所包含的手部为左手或者右手，包括：在采集深度图像的时刻同时采集包含手部的彩色图像，根据包含手部的彩色图像和/或包含手部的深度图像，基于预先训练生成的左右手模型，判断目标深度图像中所包含的手部为左手或者右手。

步骤106，根据预先确定的相机在空间中的位姿数据以及目标深度图像中手部各关节点相对于相机的三维空间坐标，确定目标深度图像中手部各关节点在空间中的三维空间坐标。

本步骤中，根据预先确定的相机在空间中的位姿数据，可以确定相机在以预设位置(例如：初始位置)为原点的空间坐标系中的位置与姿态，根据目标深度图像中手部各关节点相对于相机的三维空间坐标，可以确定手部各关节点在以相机为原点的空间坐标系中的位置，通过转换即可得到手部各关节点在以预设位置(例如：初始位置)为原点的空间坐标系中的位置，也即确定出目标深度图像中手部各关节点在空间中的三维空间坐标。

本发明实施例提供的方法中，采集包含手部的深度图像，从深度图像中截取仅包含手部的目标深度图像，基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，进而根据预先确定的相机在空间中的位姿数据以及目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，确定目标深度图像中手部各关节点在空间中的三维空间坐标，与现有技术中基于普通2D图像定位手部在三维空间中位置的方法，需要分别基于第一视角和第二视角的2D图像提取二维的手部骨架，将两个不同视角下的二维手部骨架通过双目视觉原理建立三维手部骨架相比，本发明实施例无需提取手部骨架以及通过双目视觉建立三维手部骨架，降低了三维空间中手部定位的计算量，提高手部定位的鲁棒性，且在手部定位时，截取仅包含手部的目标深度图像，并基于目标深度图像进行定位，减少了手部定位受环境的干扰。

在确定出目标深度图像中手部各关节点在空间中的三维空间坐标之后，本发明实施例进一步还可以：基于目标深度图像中手部各关节点在空间中的三维空间坐标，确定手部关节点之间的空间距离关系，基于确定出的手部关节点之间的空间距离关系以及预先训练生成的手势模型，确定目标深度图像中所包含手部在空间中的手势。

需要说明的是，现有技术中基于深度图像确定深度图像中包含手部手势的方法为：采集包含手部的深度图像，分割出仅包含手部的目标深度图像，然后对预先存储的三维手部模型的参数进行调整(参数调整可以使手指弯曲、手掌平移旋转等)，并生成对应的特定手势参考深度图像，将特定手势参考深度图像与目标深度图像匹配，若在一定条件下匹配成功，则将此时特定手势参考深度图像对应的三维手部模型的手势认为是该目标深度图像对应时刻的手势，若没有匹配成功，则继续对预先存储的三维手部模型进行参数调整形成不同的特定手势参考深度图像，直至匹配成功。此种方案，虽然可以在深度图像中包含手部的条件下，确定出深度图像中的手势，但是，通常需要对预先存储的三维手部模型参数进行多次调整，并将生成的特定手势参考深度图像与目标深度图像进行多次匹配，才能确定目标深度图像中的手势，计算量较大，而且手势识别误识别率较高。

与现有技术中基于深度图像确定深度图像中包含手部手势的方法相比，本发明实施例中，首先确定目标深度图像中手部各关节点在空间中的三维空间坐标，然后基于目标深度图像中手部各关节点在空间中的三维空间坐标，确定手部关节点之间的空间距离关系，基于确定出的手部关节点之间的空间距离关系以及预先训练生成的手势模型，确定目标深度图像中所包含手部在空间中的手势，不但计算量小，而且手势误识别率低。

在确定出多帧深度图像中所包含手部在空间中的手势之后，本发明实施例进一步还可以：基于预先训练生成的手部动作模型以及连续多帧深度图像中所包含手部在空间中的手势，确定采集多帧深度图像对应时长内手部的动作。

需要说明的是，本发明实施例在确定出目标深度图像中手部各关节点在空间中的三维空间坐标之后，不仅可以确定深度图像中所包含手部在空间中的手势，而且可以进一步根据多帧深度图像中包含手部在空间中的手势变化，确定采集多帧深度图像对应时长内手部的动作，无需手柄或外部辅助设备，即可确定手势和手部的动作，有效解决了智能设备中的人机交互输入问题。

下面结合图3对本发明一实施例提供的三维空间中手部定位的方法进行详细说明，本实施例中预先训练左手关节点模型和右手关节点模型，如图3所示，本发明一实施例提供的三维空间中手部定位的方法的具体步骤，包括：

步骤302，采集包含手部的深度图像；可选地，还可以同时采集包含手部的彩色图像；

步骤304，对采集到的深度图像进行预处理，其中，预处理包括但不限于：去噪处理和平滑处理；

步骤306，在深度图像中确定包含手部的目标区域；具体来说，包括：在当前帧之前采集的多帧深度图像中均包含手部的条件下，根据当前帧之前采集的多帧深度图像中包含手部的目标区域的移动轨迹，确定当前帧深度图像中包含手部的目标区域；和/或在当前帧的前一帧深度图像中未包含手部或者在当前帧之前采集的多帧深度图像中仅当前帧的前一帧包含手部的条件下，基于预先训练的手部检测模型以及当前帧深度图像，确定当前帧深度图像中包含手部的目标区域；

步骤308，从采集到的深度图像中截取目标区域的深度图像；

步骤310，对目标区域的深度图像进行基于手部的语义分割，生成仅包含手部的目标深度图像；

步骤312，基于包含手部的深度图像以及预先训练生成的左右手模型，判断目标深度图像中的手部为左手或右手，若判定目标深度图像中的手部为左手，则执行步骤314，若判定目标深度图像中的手部为右手，则执行步骤316；当然，需要说明的是，若步骤302中，在采集包含手部的深度图像的同时，采集了包含手部的彩色图像，则本步骤中，也可以基于包含手部的彩色图像以及预先训练生成的左右手模型，判断目标深度图像中的手部为左手或右手，当然，步骤312为可选步骤，在本发明其它实施例中也可以不执行此步骤；

步骤314，在判定目标深度图像中的手部为左手的条件下，基于预先训练的左手关节点模型以及目标深度图像，确定目标深度图像中左手手部各关节点相对于采集深度图像的相机的三维空间坐标；

步骤316，在判定目标深度图像中的手部为右手的条件下，基于预先训练的右手关节点模型以及目标深度图像，确定目标深度图像中右手手部各关节点相对于采集深度图像的相机的三维空间坐标；

当然，在本发明其它实施例中，若未执行步骤312，则步骤314和步骤316可以合并为一个步骤，具体为：基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，其中，预先训练的手部关节点模型包括左手关节点模型和右手关节点模型。

步骤318，对目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标进行优化处理；其中，优化处理包括但不限于：平滑处理和纠错处理；可选地，优化处理可以为循环优化处理，也即可以优化处理多次，在优化处理次数达到预设次数(例如：10次)或者优化处理结果符合特定条件(例如：两次优化结果相似度大于95％)时，停止优化处理；

步骤320，根据预先确定的相机在空间中的位姿数据以及目标深度图像中手部各关节点相对于相机的三维空间坐标，确定目标深度图像中手部各关节点在空间中的三维空间坐标。

下面结合图4对本发明另一实施例提供的三维空间中手部定位的方法进行详细说明，本实施例中预先训练左手关节点模型或者右手关节点模型，以预先训练左手关节点模型为例，本实施例中在确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标之前，需要先确定目标深度图像中的手部为左手或者右手，如图4所示，本发明另一实施例提供的三维空间中手部定位的方法的具体步骤，包括：

步骤402，采集包含手部的深度图像；可选地，还可以同时采集包含手部的彩色图像；

步骤404，对采集到的深度图像进行预处理，其中，预处理包括但不限于：去噪处理和平滑处理；

步骤406，在深度图像中确定包含手部的目标区域；具体来说，包括：在当前帧之前采集的多帧深度图像中均包含手部的条件下，根据当前帧之前采集的多帧深度图像中包含手部的目标区域的移动轨迹，确定当前帧深度图像中包含手部的目标区域；和/或在当前帧的前一帧深度图像中未包含手部或者在当前帧之前采集的多帧深度图像中仅当前帧的前一帧包含手部的条件下，基于预先训练的手部检测模型以及当前帧深度图像，确定当前帧深度图像中包含手部的目标区域；

步骤408，从采集到的深度图像中截取目标区域的深度图像；

步骤410，对目标区域的深度图像进行基于手部的语义分割，生成仅包含手部的目标深度图像；

步骤412，基于包含手部的深度图像以及预先训练生成的左右手模型，判断目标深度图像中的手部为左手或右手，若判定目标深度图像中的手部为左手，则执行步骤414，若判定目标深度图像中的手部为右手，则执行步骤416；当然，需要说明的是，若步骤402中，在采集包含手部的深度图像的同时，采集了包含手部的彩色图像，则本步骤中，也可以基于包含手部的彩色图像以及预先训练生成的左右手模型，判断目标深度图像中的手部为左手或右手；

步骤414，在判定目标深度图像中的手部为左手的条件下，基于预先训练的左手关节点模型以及目标深度图像，确定目标深度图像中左手手部各关节点相对于采集深度图像的相机的三维空间坐标；

步骤416，在判定目标深度图像中的手部为右手的条件下，基于预先训练的左手关节点模型、人左右手部的镜像原理以及目标深度图像，确定目标深度图像中右手手部各关节点相对于采集深度图像的相机的三维空间坐标；具体来说，在判定目标深度图像中的手部为右手的条件下，则根据人左右手部的镜像原理，将包含右手的目标深度图像转换为包含左手的目标深度图像，并基于左手手部关节点模型以及转换生成的包含左手的目标深度图像，确定转换生成的包含左手的目标深度图像中左手的手部关节点像素坐标与像素值，然后再根据人左右手部的镜像原理以及确定出的左手手部关节点的像素坐标与像素值，将确定出的左手的手部关节点的像素坐标与像素值根据手部镜像原理对应到右手的手部关节点，进而确定目标深度图像中右手手部各关节点相对于采集深度图像的相机的三维空间坐标；

步骤418，对目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标进行优化处理；其中，优化处理包括但不限于：平滑处理和纠错处理；可选地，优化处理可以为循环优化处理，也即可以优化处理多次，在优化处理次数达到预设次数(例如：10次)或者优化处理结果符合特定条件(例如：两次优化结果相似度大于95％)时，停止优化处理；

步骤420，根据预先确定的相机在空间中的位姿数据以及目标深度图像中手部各关节点相对于相机的三维空间坐标，确定目标深度图像中手部各关节点在空间中的三维空间坐标。

本发明实施例提供的一种三维空间中手部定位的装置，如图5所示，该装置包括：采集单元502，用于采集包含手部的深度图像；处理单元504，用于从深度图像中截取仅包含手部的目标深度图像，并基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标；空间位置确定单元506，用于根据预先确定的相机在空间中的位姿数据以及目标深度图像中手部各关节点相对于相机的三维空间坐标，确定目标深度图像中手部各关节点在空间中的三维空间坐标。

本发明实施例提供的装置中，采集包含手部的深度图像，从深度图像中截取仅包含手部的目标深度图像，基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，进而根据预先确定的相机在空间中的位姿数据以及目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，确定目标深度图像中手部各关节点在空间中的三维空间坐标，与现有技术中基于普通2D图像定位手部在三维空间中位置的方法，需要分别基于第一视角和第二视角的2D图像提取二维的手部骨架，将两个不同视角下的二维手部骨架通过双目视觉原理建立三维手部骨架相比，本发明实施例无需提取手部骨架以及通过双目视觉建立三维手部骨架，降低了三维空间中手部定位的计算量，提高手部定位的鲁棒性，且在手部定位时，截取仅包含手部的目标深度图像，并基于目标深度图像进行定位，减少了手部定位受环境的干扰。

在一种可能的实施方式中，本发明实施例提供的装置中，该装置还包括：关节点关系确定单元508，用于基于目标深度图像中手部各关节点在空间中的三维空间坐标，确定手部关节点之间的空间距离关系；手势确定单元510，用于基于确定出的手部关节点之间的空间距离关系以及预先训练生成的手势模型，确定目标深度图像中所包含手部在空间中的手势。

在一种可能的实施方式中，本发明实施例提供的装置中，该装置还包括：手部动作确定单元512，用于基于预先训练生成的手部动作模型以及连续多帧深度图像中所包含手部在空间中的手势，确定采集多帧深度图像对应时长内手部的动作。

在一种可能的实施方式中，本发明实施例提供的装置中，该装置还包括：左右手判断单元514，用于在处理单元504基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标之前，判断目标深度图像中所包含的手部为左手或者右手；处理单元504基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，具体用于：在左右手判断单元514判定目标深度图像中所包含的手部为左手的条件下，基于预先训练的左手关节点模型以及目标深度图像，确定目标深度图像中左手手部各关节点相对于采集深度图像的相机的三维空间坐标；以及在左右手判断单元514判定目标深度图像中所包含的手部为右手的条件下，基于预先训练的右手手部关节点模型以及目标深度图像，确定目标深度图像中右手手部各关节点相对于采集深度图像的相机的三维空间坐标。

在一种可能的实施方式中，本发明实施例提供的装置中，左右手判断单元514，具体用于：在采集深度图像的时刻采集包含手部的彩色图像；根据包含手部的彩色图像和/或包含手部的深度图像，基于预先训练生成的左右手模型，判断目标深度图像中所包含的手部为左手或者右手。

在一种可能的实施方式中，本发明实施例提供的装置中，处理单元504从深度图像中截取仅包含手部的目标深度图像，具体用于：在深度图像中确定包含手部的目标区域，从深度图像中截取目标区域的深度图像；对目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像。

在一种可能的实施方式中，本发明实施例提供的装置中，处理单元504对目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像，具体用于：检测目标区域的深度图像中是否存在连通域；在确定目标区域的深度图像中存在连通域的条件下，将目标区域的深度图像中最大的连通域确定为手部连通域，从目标区域的深度图像中截取手部连通域的目标深度图像，生成仅包含手部的目标深度图像。

在一种可能的实施方式中，本发明实施例提供的装置中，该装置还包括：判断单元516，用于在处理单元504确定目标区域的深度图像中存在连通域之后，将目标区域的深度图像中最大的连通域确定为手部连通域之前，判断目标区域的深度图像中最大的连通域是否大于预设连通域阈值；通知单元518，用于在判断单元516判定目标区域的深度图像中最大的连通域大于预设连通域阈值的条件下，通知处理单元504将目标区域的深度图像中最大的连通域确定为手部连通域。

在一种可能的实施方式中，本发明实施例提供的装置中，处理单元504在深度图像中确定包含手部的目标区域，具体用于：在当前帧之前采集的多帧深度图像中均包含手部的条件下，根据当前帧之前采集的多帧深度图像中包含手部的目标区域的移动轨迹，确定当前帧深度图像中包含手部的目标区域；和/或在当前帧的前一帧深度图像中未包含手部或者在当前帧之前采集的多帧深度图像中仅当前帧的前一帧深度图像中包含手部的条件下，基于预先训练的手部检测模型以及当前帧深度图像，确定当前帧深度图像中包含手部的目标区域。

在一种可能的实施方式中，本发明实施例提供的装置中，该装置还包括：第一优化处理单元520，用于在采集包含手部的深度图像之后，从深度图像中截取仅包含手部的目标深度图像之前，对包含手部的深度图像进行预处理，其中，预处理包括平滑处理和去噪处理；则处理单元504从深度图像中截取仅包含手部的目标深度图像，具体用于：从经过预处理之后的深度图像中截取仅包含手部的目标深度图像。

在一种可能的实施方式中，本发明实施例提供的装置中，处理单元504基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，具体用于：基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点的像素坐标与像素值；利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理，得到目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标。

在一种可能的实施方式中，本发明实施例提供的装置中，该装置还包括：第二优化处理单元522，用于在确定目标深度图像中手部各关节点的像素坐标与像素值之后，在利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理之前，对确定出的手部各关节点的像素坐标与像素值进行优化处理，其中，优化处理包括：平滑处理和纠错处理；则处理单元504利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理，得到目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，具体用于：利用反投影算法对优化后的手部各关节点的像素坐标与像素值进行处理，得到目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标。

本发明实施例提供的三维空间中手部定位的装置，可以集成在智能设备中，智能设备包括但不限于：VR设备、AR设备、机器人、无人机以及移动终端(例如：手机、平板电脑等)，也可以集成在与智能设备相连接的控制器中，其中，处理单元504、空间位置确定单元506、关节点关系确定单元508、手势确定单元510、手部动作确定单元512、左右手判断单元514、判断单元516、通知单元518、第一优化处理单元520以及第二优化处理单元522可以采用同一硬件或者设备，也可以采用不同的硬件或者设备，采集单元502可以采用深度摄像头。

本发明实施例提供一种智能设备，智能设备包括本发明实施例提供的三维空间中手部定位的装置。

本发明实施例提供的系统中，通过在智能设备中增加本发明实施例提供的三维空间中手部定位的装置，使得智能设备能够采集包含手部的深度图像，从深度图像中截取仅包含手部的目标深度图像，基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，进而根据预先确定的相机在空间中的位姿数据以及目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，确定目标深度图像中手部各关节点在空间中的三维空间坐标，与现有技术中基于普通2D图像定位手部在三维空间中位置的方法，需要分别基于第一视角和第二视角的2D图像提取二维的手部骨架，将两个不同视角下的二维手部骨架通过双目视觉原理建立三维手部骨架相比，本发明实施例无需提取手部骨架以及通过双目视觉建立三维手部骨架，降低了三维空间中手部定位的计算量，提高手部定位的鲁棒性，且在手部定位时，截取仅包含手部的目标深度图像，并基于目标深度图像进行定位，减少了手部定位受环境的干扰。

综上所述，本发明实施例提供的一种三维空间中手部定位的方法、装置及智能设备，采集包含手部的深度图像，从深度图像中截取仅包含手部的目标深度图像，基于预先训练的手部关节点模型以及目标深度图像，确定目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，进而根据预先确定的相机在空间中的位姿数据以及目标深度图像中手部各关节点相对于采集深度图像的相机的三维空间坐标，确定目标深度图像中手部各关节点在空间中的三维空间坐标，本发明实施例无需提取手部骨架以及通过双目视觉建立三维手部骨架，降低了三维空间中手部定位的计算量，提高手部定位的鲁棒性，且在手部定位时，截取仅包含手部的目标深度图像，并基于目标深度图像进行定位，减少了手部定位受环境的干扰。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种三维空间中手部定位的方法，其特征在于，该方法包括：

采集包含手部的深度图像；

从所述深度图像中截取仅包含手部的目标深度图像，并基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标；

根据预先确定的所述相机在空间中的位姿数据以及所述目标深度图像中手部各关节点相对于所述相机的三维空间坐标，确定所述目标深度图像中手部各关节点在空间中的三维空间坐标；

所述基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标，包括：

基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点的像素坐标与像素值；

利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理，得到所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标。

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

基于所述目标深度图像中手部各关节点在空间中的三维空间坐标，确定手部关节点之间的空间距离关系；

基于确定出的手部关节点之间的空间距离关系以及预先训练生成的手势模型，确定所述目标深度图像中所包含手部在空间中的手势。

3.根据权利要求2所述的方法，其特征在于，该方法还包括：

基于预先训练生成的手部动作模型以及连续多帧深度图像中所包含手部在空间中的手势，确定采集多帧深度图像对应时长内手部的动作。

4.根据权利要求1-3中任一项所述的方法，其特征在于，在基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标之前，该方法还包括：

判断所述目标深度图像中所包含的手部为左手或者右手；

则所述基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标，包括：

在判定所述目标深度图像中所包含的手部为左手的条件下，基于预先训练的左手关节点模型以及所述目标深度图像，确定所述目标深度图像中左手手部各关节点相对于采集所述深度图像的相机的三维空间坐标；以及

在判定所述目标深度图像中所包含的手部为右手的条件下，基于预先训练的右手手部关节点模型以及所述目标深度图像，确定所述目标深度图像中右手手部各关节点相对于采集所述深度图像的相机的三维空间坐标。

5.根据权利要求4所述的方法，其特征在于，所述判断所述目标深度图像中所包含的手部为左手或者右手，包括：

在采集所述深度图像的时刻采集包含手部的彩色图像；

根据所述包含手部的彩色图像和/或包含手部的深度图像，基于预先训练生成的左右手模型，判断目标深度图像中所包含的手部为左手或者右手。

6.根据权利要求1-3中任一项所述的方法，其特征在于，所述从所述深度图像中截取仅包含手部的目标深度图像，包括：

在所述深度图像中确定包含手部的目标区域，从所述深度图像中截取目标区域的深度图像；

对所述目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像。

7.根据权利要求6所述的方法，其特征在于，所述对所述目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像，包括：

检测所述目标区域的深度图像中是否存在连通域；

在确定所述目标区域的深度图像中存在连通域的条件下，将所述目标区域的深度图像中最大的连通域确定为手部连通域，从所述目标区域的深度图像中截取手部连通域的目标深度图像，生成仅包含手部的目标深度图像。

8.根据权利要求7所述的方法，其特征在于，在确定所述目标区域的深度图像中存在连通域之后，将所述目标区域的深度图像中最大的连通域确定为手部连通域之前，该方法还包括：

判断所述目标区域的深度图像中最大的连通域是否大于预设连通域阈值，并在判定所述目标区域的深度图像中最大的连通域大于预设连通域阈值的条件下，执行将所述目标区域的深度图像中最大的连通域确定为手部连通域的操作。

9.根据权利要求6所述的方法，其特征在于，所述在所述深度图像中确定包含手部的目标区域，包括：

在当前帧之前采集的多帧深度图像中均包含手部的条件下，根据当前帧之前采集的多帧深度图像中包含手部的目标区域的移动轨迹，确定当前帧深度图像中包含手部的目标区域；和/或

在当前帧的前一帧深度图像中未包含手部或者在当前帧之前采集的多帧深度图像中仅当前帧的前一帧深度图像中包含手部的条件下，基于预先训练的手部检测模型以及当前帧深度图像，确定当前帧深度图像中包含手部的目标区域。

10.根据权利要求1-3中任一项所述的方法，其特征在于，在采集包含手部的深度图像之后，从所述深度图像中截取仅包含手部的目标深度图像之前，该方法还包括：

对所述包含手部的深度图像进行预处理，其中，所述预处理包括平滑处理和去噪处理；

则所述从所述深度图像中截取仅包含手部的目标深度图像，包括：

从经过预处理之后的深度图像中截取仅包含手部的目标深度图像。

11.根据权利要求1所述的方法，其特征在于，在确定所述目标深度图像中手部各关节点的像素坐标与像素值之后，在利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理之前，该方法还包括：

对确定出的手部各关节点的像素坐标与像素值进行优化处理，其中，所述优化处理包括：平滑处理和纠错处理；

则所述利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理，得到所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标，包括：

利用反投影算法对优化后的手部各关节点的像素坐标与像素值进行处理，得到所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标。

12.一种三维空间中手部定位的装置，其特征在于，该装置包括：

采集单元，用于采集包含手部的深度图像；

处理单元，用于从所述深度图像中截取仅包含手部的目标深度图像，并基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标；

空间位置确定单元，用于根据预先确定的所述相机在空间中的位姿数据以及所述目标深度图像中手部各关节点相对于所述相机的三维空间坐标，确定所述目标深度图像中手部各关节点在空间中的三维空间坐标；

所述处理单元基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标，具体用于：

13.根据权利要求12所述的装置，其特征在于，该装置还包括：

关节点关系确定单元，用于基于所述目标深度图像中手部各关节点在空间中的三维空间坐标，确定手部关节点之间的空间距离关系；

手势确定单元，用于基于确定出的手部关节点之间的空间距离关系以及预先训练生成的手势模型，确定所述目标深度图像中所包含手部在空间中的手势。

14.根据权利要求13所述的装置，其特征在于，该装置还包括：

手部动作确定单元，用于基于预先训练生成的手部动作模型以及连续多帧深度图像中所包含手部在空间中的手势，确定采集多帧深度图像对应时长内手部的动作。

15.根据权利要求12-14中任一项所述的装置，其特征在于，该装置还包括：

左右手判断单元，用于在所述处理单元基于预先训练的手部关节点模型以及所述目标深度图像，确定所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标之前，判断所述目标深度图像中所包含的手部为左手或者右手；

在所述左右手判断单元判定所述目标深度图像中所包含的手部为左手的条件下，基于预先训练的左手关节点模型以及所述目标深度图像，确定所述目标深度图像中左手手部各关节点相对于采集所述深度图像的相机的三维空间坐标；以及

在所述左右手判断单元判定所述目标深度图像中所包含的手部为右手的条件下，基于预先训练的右手手部关节点模型以及所述目标深度图像，确定所述目标深度图像中右手手部各关节点相对于采集所述深度图像的相机的三维空间坐标。

16.根据权利要求15所述的装置，其特征在于，所述左右手判断单元，具体用于：

在采集所述深度图像的时刻采集包含手部的彩色图像；

17.根据权利要求12-14中任一项所述的装置，其特征在于，所述处理单元从所述深度图像中截取仅包含手部的目标深度图像，具体用于：

18.根据权利要求17所述的装置，其特征在于，所述处理单元对所述目标区域的深度图像进行基于手部的语义分割处理，生成仅包含手部的目标深度图像，具体用于：

检测所述目标区域的深度图像中是否存在连通域；

19.根据权利要求18所述的装置，其特征在于，该装置还包括：

判断单元，用于在所述处理单元确定所述目标区域的深度图像中存在连通域之后，将所述目标区域的深度图像中最大的连通域确定为手部连通域之前，判断所述目标区域的深度图像中最大的连通域是否大于预设连通域阈值；

通知单元，用于在所述判断单元判定所述目标区域的深度图像中最大的连通域大于预设连通域阈值的条件下，通知所述处理单元将所述目标区域的深度图像中最大的连通域确定为手部连通域。

20.根据权利要求17所述的装置，其特征在于，所述处理单元在所述深度图像中确定包含手部的目标区域，具体用于：

21.根据权利要求12-14中任一项所述的装置，其特征在于，该装置还包括：

第一优化处理单元，用于在采集包含手部的深度图像之后，从所述深度图像中截取仅包含手部的目标深度图像之前，对所述包含手部的深度图像进行预处理，其中，所述预处理包括平滑处理和去噪处理；

则所述处理单元从所述深度图像中截取仅包含手部的目标深度图像，具体用于：

22.根据权利要求12所述的装置，其特征在于，该装置还包括：

第二优化处理单元，用于在确定所述目标深度图像中手部各关节点的像素坐标与像素值之后，在利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理之前，对确定出的手部各关节点的像素坐标与像素值进行优化处理，其中，所述优化处理包括：平滑处理和纠错处理；

则所述处理单元利用反投影算法对确定出的手部各关节点的像素坐标与像素值进行处理，得到所述目标深度图像中手部各关节点相对于采集所述深度图像的相机的三维空间坐标，具体用于：

23.一种智能设备，其特征在于，所述智能设备包括如权利要求12-22中任一项所述的三维空间中手部定位的装置。