CN108594997A

CN108594997A - 手势骨架构建方法、装置、设备及存储介质

Info

Publication number: CN108594997A
Application number: CN201810339747.8A
Authority: CN
Inventors: 赵世杰; 左小祥; 李峰; 程君
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-16
Filing date: 2018-04-16
Publication date: 2018-09-28
Anticipated expiration: 2038-04-16
Also published as: CN108594997B

Abstract

本申请公开了一种手势骨架构建方法、装置、设备及存储介质，属于手势识别领域。该方法包括：将深度图片输入手势分割神经网络，输出手部置信区域，深度图片中包含各个像素点的深度值，深度值用于表征像素点对应物体与深度摄像头之间的距离；根据手部置信区域中各个像素点的深度值，从深度图片中提取出手部图像；将手部图像输入手势识别神经网络，得到手部各个关节的三维坐标；根据所述三维坐标在三维空间中构建手势骨架。相较于在指定区域进行手势交互，本申请实施例中，借助手势分割神经网络输出的手部置信区域进行手部图像提取，用户可以在深度摄像头前任意区域进行手势交互，有助于提高识别手势图像以及构建手势骨架的准确率，以及后续手势交互的交互效果。

Description

手势骨架构建方法、装置、设备及存储介质

技术领域

本申请实施例涉及手势识别技术领域，特别涉及一种手势骨架构建方法、装置、设备及存储介质。

背景技术

随着人工智能技术的不断成熟，越来越多的应用场景开始支持人机交互，而手势交互则是一种常见的人机交互方式。

手势交互的关键在于三维手势骨架构建。在一种手势构建方式中，终端通过深度摄像头进行图像采集，并标记出深度图片中手指关节的三维坐标，从而绘制出手势对应的三维手势骨架。为了提高深度图片中手势图像的识别准确性，用户需要在距离深度摄像头预定距离的区域进行手势交互，比如，在距离摄像头1至1.5米处进行手势交互。后续终端即根据深度图片中各个像素点的深度值去除深度图片中的干扰因素，进而提取出深度图片中的手势图像。

然而，采用上述方法进行手势交互时，若用户未在预定距离处进行手势交互，终端识别手势图像的准确率降低，导致三维手势骨架构建的准确率较低，甚至无法构建，影响手势交互的交互效果。

发明内容

本申请实施例提供了一种手势骨架构建方法、装置、设备及存储介质，可以解决相关技术中，用户未在预定距离处进行手势交互时，终端识别手势图像的准确率降低，导致三维手势骨架构建的准确率较低，甚至无法构建，影响手势交互效果的问题。所述技术方案如下：

第一方面，提供了一种手势骨架构建方法，所述方法包括：

将深度图片输入手势分割神经网络，输出手部置信区域，所述深度图片中包含各个像素点的深度值，所述深度值用于表征像素点对应物体与深度摄像头之间的距离；

根据所述手部置信区域中各个像素点的所述深度值，从所述深度图片中提取出手部图像；

将所述手部图像输入手势识别神经网络，得到手部各个关节的三维坐标；

根据所述三维坐标在三维空间中构建手势骨架。

第二方面，提供了一种手势骨架构建装置，所述装置包括：

第一输入模块，用于将深度图片输入手势分割神经网络，输出手部置信区域，所述深度图片中包含各个像素点的深度值，所述深度值用于表征像素点对应物体与深度摄像头之间的距离；

提取模块，用于根据所述手部置信区域中各个像素点的所述深度值，从所述深度图片中提取出手部图像；

第二输入模块，用于将所述手部图像输入手势识别神经网络，得到手部各个关节的三维坐标；

构建模块，用于根据所述三维坐标在三维空间中构建手势骨架。

第三方面，提供了一种手势骨架构建设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如第一方面所述的手势骨架构建方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如第一方面所述的手势骨架构建方法。

本申请实施例提供的技术方案带来的有益效果包括：

通过将深度图片输入手势分割神经网络，从而利用该手势分割神经网络识别深度图片中的手部置信区域，并基于该手部置信区域中各个像素点的深度值，提取出深度图片中的手部图像，进而将手部图像输入手势识别神经网络，得到手部各个关键的三维坐标，最终根据三维坐标构建出手势骨架。相较于相关技术中需要在指定区域进行手势交互，本实施例中，借助手势分割神经网络输出的手部置信区域进行手部图像提取，用户可以在深度摄像头前任意区域进行手势交互，有助于提高识别手势图像以及构建手势骨架的准确率，以及后续手势交互的交互效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的手势骨架构建方法所涉及实施环境的示意图；

图2是本申请实施例提供的手势骨架构建方法的流程示意图；

图3A示出了本申请一个实施例提供的手势骨架构建方法的流程图；

图3B是样本深度图片的示意图；

图4示出了本申请另一个实施例提供的手势骨架构建方法的流程图；

图5是对深度图片进行去背景处理的实施示意图；

图6是本申请一个实施例提供的手势分割神经网络的网络结构图；

图7是对概率矩阵进行二值化处理的实施示意图；

图8是本申请一个实施例提供的手势识别神经网络的网络结构图；

图9示出了本申请一个实施例提供的手势骨架构建装置的框图；

图10示出了本申请一个示例性实施例提供的终端的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了方便理解，下面对本申请实施例中涉及的名词进行解释。

深度图片：指通道中存储有深度信息(即深度值)的图片，深度图片采用专用深度拍摄设备拍摄得到。常见的深度拍摄设备基于结构光拍摄深度图片。深度拍摄设备拍摄深度图片的原理为：深度拍摄设备将结构光(点、线、面等模式图案)投射到拍摄场景，并通过其深度摄像头采集带有结构光的图像。由于结构光的模式图案会因物体的形状发生形变，因此根据采集到图像的形变程度即可计算出场景中各个物体的深度信息。

本发明实施例中，该深度图片是采用无符号16位整数型(Unsigned Integer 16，UINT16)存储的单通道图，其中，深度图片中每个像素点的深度值表示该像素点对应的物体与深度摄像头之间的距离，深度值越大，表示该像素点对应的物体与深度摄像头之间的距离越远。

在一种可能的实施方式中，该深度图片采用32位的红绿蓝(Red Green Blue，RGB)图进行存储。其中，第一个R通道中存储标签信息，对于判断为手部区域的像素点，且取值为255，其他非手部区域像素点的取值为0。G通道和B通道分别存储深度值的前8位以及后8位信息，进行组合后可以得到UINT16格式的深度值，采用这种方式，一张32位RGB图片就可以同时存储标签信息和深度值。

卷积(convolution)激活(activation)层：卷积神经网络中用于提取特征的层，分为卷积操作和激活操作两部分。其中，进行卷积操作时，使用预先经过训练学习得到的卷积核进行特征提取，进行激活操作时，使用激活函数(activation function)对卷积得到的特征图进行激活处理，常用的激活函数包括线性整流(Rectified Linear Unit，ReLU)函数、S型(Sigmoid)函数和双曲正切(Tanh)函数。

池化(pooling)层：通常位于卷积神经网络中卷积激活层之后，用于降低卷积激活层输出的特征向量(即缩小特征图的尺寸)，同时改善过拟合问题。常用的池化方式包括平均池化(mean-pooling)、最大池化(max-pooling)和随机池化(stochastic-pooling)。

反卷积层(deconvolution)层：卷积神经网络中用于对特征向量进行上采样的层，即用于增大特征图的尺寸。

拼接：本申请实施例中，拼接是指将两张同尺寸的多通道特征图进行融合过程。

残差网络(Residual Network，ResNet)：一种通过ResNet结构进行特征提取的层结构，本申请实施例中，ResNet用于对提取出的手部图像进行特征提取。

内积层：又称为全连接层。在卷积神经网络中，经过卷积激活层、池化层处理后，图片被映射到隐藏层的特征空间中，内积层则是用于将学习训练得到的特征映射到样本分类空间中。

请参考图1，其示出了本申请一个实施例提供的手势骨架构建方法所涉及实施环境的示意图。该实施环境中包括至少一个终端110和服务器120。

终端110是具有深度图片采集功能的电子设备，该电子设备可以为配置有深度摄像头的智能手机、平板电脑、体感游戏设备或个人计算机等等。比如，如图1所示，当终端110为配置有深度摄像头111的手机时，该深度摄像头可以为前置深度摄像头(位于手机屏幕一侧)或后置深度摄像头(位于手机屏幕背对侧)。

在一种可能的使用场景下，当启动预设应用程序(支持手势交互功能)时，终端110即通过深度摄像头采集深度图片，或，通过深度摄像头采集由连续深度图片帧构成的深度视频；当启动的应用程序不支持手势交互时，终端110即通过深度摄像头采集普通RGB图片。比如，当启动支持手势交互的体感游戏时，终端110即启用深度摄像头的深度图片采集功能。

终端110与服务器120之间通过有线或无线网络相连。

服务器120是一台服务器、若干台服务器构成的服务器集群或云计算中心。在一种可能的实施方式中，服务器120是终端110中预设应用程序的后台服务器。

在一种可能的应用场景下，如图1所示，终端110通过深度摄像头111采集到深度图片后，即将深度图片发送至服务器120。服务器120通过手势识别功能构建深度图片中手部的手势骨架，从而基于手势骨架实现手势识别。进一步的，服务器120将手势识别结果反馈给终端110。

在另一种可能的应用场景下，当终端110具备手势识别功能时，对于采集到的深度图片，终端110即在本地进行手势骨架构建以及手势识别，而无需借助服务器120。

可选的，终端110或服务器120通过神经网络芯片实现手势识别功能。

可选地，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

本申请各个实施例提供的手势骨架构建方法可以由终端110执行，也可以由服务器120执行，为了方便表述，下述各个实施例以手势骨架构建方法用于终端进行示意性说明。

本申请实施例提供了一种基于两级网络结构的手势骨架构建方法，其中，该两级网络结构包括手势分割神经网络和手势识别神经网络。如图2所示，对于采集到的深度图片21，终端首先对其进行去背景处理，减少背景对手部区域提取造成的干扰；完成去背景处理后，终端即将处理后的深度图片21输入手势分割神经网络22，由手势分割神经网络22输出深度图片21中的手部置信区域23；基于手部置信区域23，终端从深度图片21中提取出包含手部的候选图像24，并进一步从该候选图像24中提取出手部图像25。

终端将提取到的手部图像25输入手势识别神经网络26，由手势识别神经网络26对手部图像25进行手势识别，输出各个手部关节的三维坐标，进而在三维空间中构建相应的手势骨架27。

在实际应用中，用户在任意区域进行手势交互时，终端都可以通过手势分割神经网络从深度图片中提取出用户的手部区域，并借助手势识别神经网络实现手势识别；相较于相关技术中需要在指定区域进行手势交互，本申请实施例提供的方法对手势交互区域的限制较小，适用于更大的应用场景，且在手势识别准确率具有较大提升。

请参考图3，其示出了本申请一个实施例提供的手势骨架构建方法的流程图。本实施例以该手势骨架构建方法应用于图1所示的终端110来举例说明，该方法可以包括以下几个步骤：

步骤301，将深度图片输入手势分割神经网络，输出手部置信区域，深度图片中包含各个像素点的深度值，深度值用于表征像素点对应物体与深度摄像头之间的距离。

可选的，该深度图片是拍摄的照片，或是从拍摄的视频中提取的某一图像帧，且该深度图片由终端通过深度摄像头实时采集，或，该深度图片由终端通过网络下载。

该手部置信区域用于表征深度图片中的手部区域，可选的，该手部置信区域采用评分图(scoremap)的形式表示，且区域的评分越高，表示该区域为手部区域的概率越高。

该深度图片中除了包含用户手势之外，还包括用户身体躯干、背景等其他物体。深度图片中各个像素点的深度值即可表征对应物体与深度摄像头之间的距离。其中，像素点的深度值越大，表示该像素点对应的物体距离深度摄像头越远，反之，像素点对应的物体距离深度摄像头越近。

该手势分割神经网络预先根据若干张存储有标签信息以及深度信息的样本深度图片，通过机器学习算法训练得到。其中，该标签信息用于表征像素点是否对应手部区域，且该标签信息为手动或自动标注。在一种可能的存储方式中，样本深度图片存储为32位三通道的RGB图，其中，R通道用于存储标签信息，G通道和B通道分别存储深度信息的前8位和后8位，G通道和B通道组合后即可得到UINT16格式的深度值。图3B示出了一张样本深度图片，其中，样本深度图片中的区域31即为标注出的手部区域。步骤302，根据手部置信区域中各个像素点的深度值，从深度图片中提取出手部图像。

终端获取深度图片中，手部置信区域中各个像素点的深度值，进而根据该深度值从深度图片中提取出手部图像，后续即针对提取出的手部图像进行手势识别。

步骤303，将手部图像输入手势识别神经网络，得到手部各个关节的三维坐标。

该手势识别神经网络预先根据若干张样本手部图像(即训练样本)，以及样本手部图像中各个手部关节对应的三维坐标训练得到。示意性的，各个手部关节与三维坐标的对应关系如表一所示。

表一

可选的，为了增强训练出的手势识别神经网络在深度方向的抗扰动性，训练过程中向样本手部图像的深度方向加入均匀分布的随机扰动，即通过加入扰动的方式进行数据增强。

比如，在训练过程中，向样本手部图像的深度方向(Z轴方向)加入[-50,50]均匀分布的随机扰动。

将手部图像输入手势识别神经网络后，该网络即可回归得到各个手部关节的三维坐标。

步骤304，根据三维坐标在三维空间中构建手势骨架。

根据手势识别神经网络输入的三维坐标，终端即可在三维空间(XYZ轴坐标空间)中构建相应的手势骨架。

综上所述，本实施例中，通过将深度图片输入手势分割神经网络，从而利用该手势分割神经网络识别深度图片中的手部置信区域，并基于该手部置信区域中各个像素点的深度值，提取出深度图片中的手部图像，进而将手部图像输入手势识别神经网络，得到手部各个关键的三维坐标，最终根据三维坐标构建出手势骨架。相较于相关技术中需要在指定区域进行手势交互，本实施例中，借助手势分割神经网络输出的手部置信区域进行手部图像提取，用户可以在深度摄像头前任意区域进行手势交互，有助于提高识别手势图像以及构建手势骨架的准确率，以及后续手势交互的交互效果。

在一种可能的实施方式中，手势分割神经网络是U型网络(UNET)结构的卷积神经网络(Convolutional Neural Networks，CNN)，其中包括2n+1级卷积激活层、n级池化层和n级反卷积层。利用手势分割神经网络分割手部置信区域时，即通过2n+1级卷积激活层、n级池化层和n级反卷积层，对深度图片进行处理(提取深度图片的特征)，得到深度图片对应的目标特征图，进而根据该目标特征图输出手部置信区域。下面采用示意性的实施例进行说明。

请参考图4，其示出了本申请另一个实施例提供的手势骨架构建方法的流程图。本实施例以该手势骨架构建方法应用于图1所示的终端110来举例说明，该方法可以包括以下几个步骤：

步骤401，获取深度图片中各个像素点的深度值，并对深度值大于深度阈值的像素点进行过滤。

深度图片中除了包含用户手势外，还包括背景等干扰元素，而这些干扰元素将影响后续提取手部图像的速度以及准确性。因此，为了提高手部图像的提取速度以及准确性，终端获取到深度图片后，首先对深度图片进行去背景处理。

通常情况下，深度图片中的背景距离深度摄像头较远，即背景区域的深度值较大，因此终端获取深度图片中各个像素点的深度值，并对深度值大于深度阈值的像素点进行过滤，从而达到去背景的效果。

示意性的，如图5所示，深度图片51中包含背景图像511，终端根据深度阈值1000(单位为mm，表示距离深度摄像头的距离为1m)，将背景图像511去除，从而得到去背景处理后的深度图像51。

可选的，为了降低后续计算量，完成去背景处理后，终端根据处理后深度图片中像素点的深度值范围，对各个像素点的深度值进行调整。比如，去背景处理前深度图片中像素点的深度值范围为(1，2000)，去背景处理后深度图片中像素点的深度值范围为(1,1000)，终端即将处理后深度图片中各个像素点的深度值缩小至二分之一。

步骤402，将深度图片输入手势分割神经网络，通过第1至第n级卷积激活层和n级池化层，对深度图片进行卷积激活以及池化处理，得到中间特征图。

完成去背景处理后，终端将深度图片输入手势分割神经网络。本申请实施例中的手势分割神经网络分包含2n+1级卷积激活层、n级池化层和n级反卷积层，其中，第1至第n级卷积激活层中，每级卷积激活层之后设置有一级池化层，即前n级卷积激活层与n级池化层交替设置。可选的，每级卷积激活层用于进行至少一次卷积激活处理。相应的，深度图片经过n级卷积激活层和n即池化层处理后，即得到深度图片对应的中间特征图，其中，中间特征图的通道数大于深度图片的通道数，且中间特征图的尺寸小于深度图片的尺寸。

示意性的，如图6所示，该手势分割神经网络中包含5级卷积激活层、2级池化层和2级反卷积层，构成U型的网络结构。为了方便描述，下述各个实施例均基于图6所示的手势分割神经网络进行示意性说明。

在一种可能的实施方式中，通过第1至第n级卷积激活层和n级池化层，对深度图片进行卷积激活以及池化处理包括如下步骤：

一、通过第i级卷积激活层对第i-1特征图进行卷积激活处理，并将处理后的第i-1特征图输入第i级池化层，2≤i≤n。

对于第一级卷积激活层，其输入为深度图片；而对于第i级卷积激活层，其输入则为第i-1级池化层输出的特征图。

可选的，第一级卷积激活层获取到深度图片后，通过预设卷积核对深度图片进行卷积操作，再通过预设激活函数进行激活操作；第i级卷积激活层获取第i-1池化层输出的第i-1特征图后，通过预设卷积核对第i-1特征图进行卷积操作，再通过预设激活函数进行激活操作，从而起到提取特征的作用，其中，进行卷积处理后，特征图的通道数增加。

示意性的，如图6所示，第一级卷积激活层对深度图片进行两次卷积激活处理；第二级卷积激活层对第一池化层输出的第一特征图进行两次卷积激活处理。其中，多通道特征图的高度用于表示尺寸，而宽度则用于表示通道数。

可选的，各级卷积激活层使用ReLU函数进行激活操作。本申请实施例并不对使用的具体激活函数进行限定。

二、通过第i级池化层对处理后的第i-1特征图进行池化处理，得到第i特征图。

第i级卷积激活层完成卷积激活处理后，将处理后的第i-1特征图输入第i-1级池化层，由第i-1级池化层进行池化处理，从而输出第i特征图。

其中，各级池化层用于缩小特征图的尺寸，并保留特征图中的重要信息。可选的，各级池化层对输入的特征图进行最大池化处理。

比如，当以2×2块，2为步长对特征图进行池化处理时，即提取特征图中2×2块中的最大值，将特征图的尺寸缩小至四分之一。

示意性的，如图6所示，第二级池化层对第二级卷积激活层输出特征图进行处理，得到第二特征图。

可选的，各级池化层还可以采用平均池化或随机池化进行池化处理，本实施例并不对此构成限定。

三、将第i特征图输入第i+1级卷积激活层。

完成池化处理后，第i级池化层将第i特征图输入下一级卷积激活层，由下一级卷积激活层进一步进行特征提取。

示意性的，如图6所示，深度图片依次经过第一级卷积激活层、第一级池化层、第二级卷积激活层和第二级池化层，由第二级池化层将第二特征图输入第三级卷积激活层。

上述实施例仅以进行两次卷积激活、池化操作为例进行说明，在其他可能的实施方式中，手势分割神经网络可以进行至少三次卷积激活、池化操作，本实施例并不对此构成限定。

步骤403，通过第n+1至第2n+1级卷积激活层和n级反卷积层，对中间特征图进行卷积激活以及反卷积处理，得到目标特征图。

对于第n级池化层输出的第n特征图，手势分割神经网络进一步通过第n+1至第2n+1级卷积激活层和n级反卷积层，对其进行卷积激活以及反卷积处理，最终得到深度图片对应的目标特征图。其中，目标特征图的尺寸等于深度图片的尺寸。

在一种可能的实施方式中，通过第n+1至第2n+1级卷积激活层和n级反卷积层进行卷积激活以及反卷积处理时包括如下步骤：

一、通过第j级反卷积层对第j+n级卷积激活层输出的特征图进行反卷积处理，1≤j≤n。

示意性的，如图6所示，终端通过第一级反卷积层对第三级卷积激活层输出的特征图进行反卷积处理；通过第二级反卷积层对第四级卷积激活层输出的特征图进行反卷积处理。

其中，反卷积处理作为卷积处理的逆过程，用于对特征图进行上采样，从而缩小特征图的尺寸。如图6所示，经过反卷积层处理后，特征图的尺寸减小。

二、对反卷积处理后的特征图与第n-j+1级卷积激活层输出的特征图进行拼接，并将拼接后的特征图输入第j+n+1级卷积激活层，反卷积处理后的特征图与第n-j+1级卷积激活层输出的特征图的尺寸相同。

本实施例中，第j+n+1级卷积激活层的输入为第j反卷积层输出的特征图以及第n-j+1级卷积激活层输出的特征图。第j+n+1级卷积激活层进行卷积激活处理前，首先对尺寸相同的反卷积处理后的特征图与第n-j+1级卷积激活层输出的特征图进行通道拼接，然后对拼接后的特征图进行卷积激活处理。其中，经过第n-j+1级卷积激活层处理后，特征图的通道数减少。

示意性的，如图6所示，终端将第二级卷积激活层输出的特征图以及第一级反卷积层输出的特征图拼接，作为第四级卷积激活层的输入；终端将第一级卷积激活层输出的特征图以及第二级反卷积层输出的特征图拼接，作为第五级卷积激活层的输入。

三、通过第j+n+1级卷积激活层对拼接后的特征图进行卷积激活处理。

第j+n+1级卷积激活层对拼接后的特征图进行卷积激活处理，并将处理后的特征图输入第j+1级反卷积层

示意性的，如图6所示，依次经过第一级反卷积层、第四级卷积激活层、第二级反卷积层和第五级卷积激活层，最终由第五级卷积激活层输出与原始深度图像尺寸一致的目标特征图。

上述实施例仅以进行两次反卷积操作为例进行说明，在其他可能的实施方式中，手势分割神经网络可以进行至少三次反卷积操作，本实施例并不对此构成限定。

步骤404，根据目标特征图输出手部置信区域。

进一步的，根据输出的目标特征图，终端确定深度图片中的手部置信区域。在一种可能的实施方式中，终端根据目标特征图进行像素级的识别和分类，确定各个像素点对应手部区域的概率，从而根据概率确定出深度图片中的手部置信区域。可选的，本步骤包括如下步骤：

一、根据目标特征图对深度图片中的各个像素点进行识别分类，生成概率矩阵。

其中，该概率矩阵用于表征深度图片中各个像素点是手部的概率，该概率矩阵与深度图片的尺寸相同。

本实施例中的手势分割神经网络由存储有标签信息以及深度信息的样本深度图片训练得到，因此得到目标特征图后，终端根据手势分割神经网络和目标特征图，对深度图片中的像素点进行分类识别，得到深度图片中各个像素点为手部区域的概率。

二、对概率矩阵进行二值化处理，输出手部区域对应的评分图，评分图用于指示深度图片中的手部置信区域。

关于进行二值化处理的方式，在一种可能的实施方式中，终端比较概率矩阵中各个概率与概率阈值之间的大小关系，若概率大于概率阈值，则将该概率设置为1，若概率小于概率阈值，则将该概率设置为0。经过二值化处理后，该概率矩阵被转化为只包含两个数值(0和1)的评分图，其中数值为1的区域即指示手部置信区域。比如，如图2所示，手部置信区域23中白色区域为手部区域，黑色区域为非手部区域。

示意性的，如图7所示，终端根据概率阈值0.6对概率矩阵71进行二值化处理，将概率大于0.6的区域设置为1，将概率小于0.6的区域设置为0，得到评分图72，评分图72中，值为1的区域即为手部置信区域。

步骤405，根据手部置信区域从深度图片中提取出候选图像，候选图像中包含手部置信区域，且候选图像的尺寸大于手部置信区域的尺寸。

根据手势分割神经网络输出的手部置信区域，终端从深度图片中提取包含手部置信区域的候选图像，以便后续从该候选图像中进一步分割出手部图像。

上述步骤中，通过二值化处理得到手部置信区域时，可能会将部分手部区域的像素点错误划分为非手部区域，将部分非手部区域的像素点划分为手部区域，而这些错误划分通常位于实际手部区域的边缘位置，因此，在一种可能的实施方式中，终端根据手部置信区域的坐标，从深度图片得XY平面上提取出尺寸略大于手部置信区域的候选图像。

可选的，终端对提取到的候选图像进行缩放处理，确保候选图像的尺寸与手势识别神经网络的输入一致。

如图2所示，终端根据手部置信区域23从深度图片21中提取候选图像24，并对候选图像24进行放大，使得候选图像24的尺寸与手势识别神经网络26的输入一致。

步骤406，根据手部置信区域中各个像素点的深度值，计算平均深度值。

基于候选图像，终端进一步从中分割出更加精确的手部图像。

在一种可能的实施方式中，终端根据手部置信区域的坐标，从候选图像中获取手部置信区域处各个像素点的深度值，并计算得到手部置信区域的平均深度值。

比如，终端计算得到手部置信区域的平均深度值为400。

步骤407，根据平均深度值和深度切割阈值，从候选图像中提取手部图像。

由于用户手势仅占据三维空间中的部分空间区域，因此，终端以手部置信区域的平均深度值为切割的中心深度，从候选图像中切割出预设深度取件的手部图像。

在一种可能的实施方式中，终端根据平均深度值和深度切割阈值，从候选图像中提取深度值位于(平均深度值-深度切割阈值，平均深度值+深度切割阈值)这一深度区间的手部图像。

比如，终端根据平均深度值400以及深度切割阈值150，将候选图像中位于(250，550)这一深度区间的图像确定为手部图像。

可选的，对于切割出的手部图像，终端进一步对手部图像的深度值进行标准化处理，实现深度方向的自适应切割。比如，标准化处理后，手部图像的深度值位于(-1,1)这一区间。

通过上述步骤401至407，终端即从深度图片中提出手部图像，采用上述手势分割神经网络进行手部图像分割，即便用户未在指定区域进行手势交互，终端也可以分割出较为准确的手部图像，提高了手势识别的应用场景；并且，相较于相关技术中直接根据深度值进行手部图像提取，本实施例中分割手部图像的准确性更高。

步骤408，通过ResNet对手部图像进行特征提取，输出手势特征图。

完成手部图像提取后，终端即将手部图像输入手势识别神经网络，以进行后续手势识别。

手部图像输入手势识别神经网络后，首先通过ResNet对手部图像进行特征提取，输出手部图像对应的手势特征图。其中，终端可以采用成熟的ResNet进行特征提取，本实施例在此不再赘述。

步骤409，通过手势识别神经网络的切片层将手势特征图切分为至少两个手势区域特征图，各个手势区域特征图的尺寸相同。

对于ResNet输出的手势特征图，终端并非直接使用回归器对其进行处理，而是通过首先通过手势识别神经网络的切片层，将该手势特征图切分为至少两个尺寸相同的手势区域特征图，然后使用不同的回归器对不同的手势区域特征图进行处理。

示意性的，如图8所示，终端在长度方向上进行切割，将手势特征图81划切分为尺寸相同的手势区域特征图82和83。

在其他可能的实施方式中，终端还可以在宽度方向上进行切割，本实施例并不对具体的切割方式进行限定。

步骤410，通过手势识别神经网络的内积层分别对各个手势特征图进行内积处理。

本实施例中，手势识别神经网络的内积层设置有至少两个回归器，用于对不同手势区域对应的手势区域特征图进行回归计算(内积处理)。经过回归器的内积处理后，即输出指示手部关节三维坐标的手势特征图。

示意性的，如图8所示，终端使用两个回归器分别对手势区域特征图82和83进行内积处理。

相较于使用一个回归器进行内积处理，本实施例中，针对不同的手势区域使用不同的回归器进行处理的准确性更高。

步骤411，对至少两个内积处理后的手势区域特征图进行拼接。

示意性的，如图8所示，终端对内积处理后的多个手势区域特征图进行拼接(全连接)处理。

步骤412，对拼接后的手势区域特征图进行内积处理，输出各个手部关节的三维坐标。

进一步的，终端对拼接后的手势区域特征图再次进行内积处理，最终输出手部各个关节的三维坐标。其中，终端采用成熟的内积算法对手势区域特征图进行内积处理，本实施例在此不再赘述。

步骤413，根据三维坐标在三维空间中构建手势骨架。

终端构建三维空间坐标系，从而根据各个手部关节的三维坐标，在三维空间坐标系中构建出手势骨架。

可选的，终端根据构建出的手势骨架，分析出手势含义，从而根据手势含义进行进一步人机交互。比如，终端在三维空间中构建出手势骨架27后，分析出其手势含义为“OK”，从而根据执行与确认相关的操作。

本实施例中，即便用户未在指定区域进行手势交互，终端也可以利用手势分割神经网络分割出较为准确的手部图像，提高了手势识别的应用场景；并且，相较于相关技术中直接根据预设深度值进行手部图像提取，本实施例实现了手部图像在深度方向上的自适应分割，手部图像的准确性更高。

本实施例中，手势识别神经网络使用不同的回归器对应不同的手势区域进行回归处理，相较于使用单一回归器的准确率更高，有助于提高构建出的手势骨架的准确性。

本实施例中，在手势识别神经网络训练阶段，通过在深度方向上增加随机扰动，实现了深度方向上的数据增强，有助于提高手势识别神经网络的手势识别准确性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图9，其示出了本申请一个实施例提供的手势骨架构建装置的框图。该装置具有执行上述方法示例的功能，功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

第一输入模块910，用于将深度图片输入手势分割神经网络，输出手部置信区域，所述深度图片中包含各个像素点的深度值，所述深度值用于表征像素点对应物体与深度摄像头之间的距离；

提取模块920，用于根据所述手部置信区域中各个像素点的所述深度值，从所述深度图片中提取出手部图像；

第二输入模块930，用于将所述手部图像输入手势识别神经网络，得到手部各个关节的三维坐标；

构建模块940，用于根据所述三维坐标在三维空间中构建手势骨架。

可选的，所述手势分割神经网络包括2n+1级卷积激活层、n级池化层和n级反卷积层，n≥2，n为整数；

所述第一输入模块910，包括：

图片处理单元，用于通过2n+1级所述卷积激活层、n级所述池化层和n级所述反卷积层，对所述深度图片进行处理，得到所述深度图片对应的目标特征图；

输出单元，用于根据所述目标特征图输出所述手部置信区域；

其中，所述卷积激活层用于提取特征，所述池化层用于缩小特征图的尺寸，所述反卷积层用于放大特征图的尺寸。

可选的，图片处理单元，包括：

卷积池化子单元，用于通过第1至第n级卷积激活层和所述n级池化层，对所述深度图片进行卷积激活以及池化处理，得到中间特征图，所述中间特征图的通道数大于所述深度图片的通道数，且所述中间特征图的尺寸小于所述深度图片的尺寸；

反卷积子单元，用于通过第n+1至第2n+1级卷积激活层和所述n级反卷积层，对所述中间特征图进行卷积激活以及反卷积处理，得到目标特征图，所述中间特征图的通道数等于所述深度图片的通道数，且所述目标特征图的尺寸等于所述深度图片的尺寸。

可选的，所述卷积池化子单元，用于：

通过第i级卷积激活层对第i-1特征图进行卷积激活处理，并将处理后的所述第i-1特征图输入第i级池化层，2≤i≤n；

通过所述第i级池化层对处理后的所述第i-1特征图进行池化处理，得到第i特征图；

将所述第i特征图输入第i+1级卷积激活层。

可选的，所述反卷积子单元，用于：

通过第j级反卷积层对第j+n级卷积激活层输出的特征图进行反卷积处理，1≤j≤n；

对反卷积处理后的特征图与第n-j+1级卷积激活层输出的特征图进行拼接，并将拼接后的特征图输入第j+n+1级卷积激活层，所述反卷积处理后的特征图与所述第n-j+1级卷积激活层输出的特征图的尺寸相同；

通过第j+n+1级卷积激活层对所述拼接后的特征图进行卷积激活处理。

可选的，所述输出单元，用于：

根据所述目标特征图对所述深度图片中的各个像素点进行识别分类，生成概率矩阵，所述概率矩阵用于表征所述深度图片中各个像素点是手部的概率，所述概率矩阵与所述深度图片的尺寸相同；

对所述概率矩阵进行二值化处理，输出评分图，所述评分图用于指示所述深度图片中的所述手部置信区域。

可选的，所述提取模块920，包括：

第一提取单元，用于根据所述手部置信区域从所述深度图片中提取出候选图像，所述候选图像中包含所述手部置信区域，且所述候选图像的尺寸大于所述手部置信区域的尺寸；

计算单元，用于根据所述手部置信区域中各个像素点的深度值，计算平均深度值；

第二提取单元，用于根据所述平均深度值和深度切割阈值，从所述候选图像中提取所述手部图像；

其中，所述平均深度值-所述深度切割阈值≤所述手部图像中像素点的深度值≤所述平均深度值+所述深度切割阈值。

可选的，所述第二输入模块930，包括：

特征提取单元，用于通过残差网络ResNet对所述手部图像进行特征提取，输出手势特征图；

切分单元，用于通过所述手势识别神经网络的切片层将所述手势特征图切分为至少两个手势区域特征图，各个所述手势区域特征图的尺寸相同；

第一内积单元，用于通过所述手势识别神经网络的内积层分别对各个所述手势特征图进行内积处理；

拼接单元，用于对至少两个内积处理后的所述手势区域特征图进行拼接；

第二内积单元，用于对拼接后的所述手势区域特征图进行内积处理，输出各个手部关节的三维坐标。

可选的，所述装置还包括：

获取模块，用于获取所述深度图片中各个像素点的所述深度值；

过滤模块，用于对所述深度值大于深度阈值的像素点进行过滤。

图10示出了本申请一个示例性实施例提供的终端1000的结构框图。该终端1000可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器。终端1000还可能被称为用户设备、便携式终端等其他名称。

通常，终端1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。可选的，本申请实施例中，该AI处理器为具有手势识别功能的神经网络处理器(芯片)。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中提供的视频编码方法。

在一些实施例中，终端1000还可选包括有：外围设备接口1003和至少一个外围设备。具体地，外围设备包括：射频电路1004、触摸显示屏1005、摄像头1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

触摸显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏1005还具有采集在触摸显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。触摸显示屏1005用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏1005可以为一个，设置终端1000的前面板；在另一些实施例中，触摸显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在再一些实施例中，触摸显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，触摸显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。本申请实施例中，该摄像头组件1006包括至少一个深度摄像头。

音频电路1007用于提供用户和终端1000之间的音频接口。音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测终端1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在终端1000的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时，可以检测用户对终端1000的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时，可以根据用户对触摸显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制触摸显示屏1005的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1005的显示亮度；当环境光强度较低时，调低触摸显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在终端1000的正面。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时，由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时，由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供一种手势骨架构建设备，该设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述各个实施例提供的手势骨架构建方法。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述各个实施例提供的手势骨架构建方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

Claims

1.一种手势骨架构建方法，其特征在于，所述方法包括：

根据所述三维坐标在三维空间中构建手势骨架。

2.根据权利要求1所述的方法，其特征在于，所述手势分割神经网络包括2n+1级卷积激活层、n级池化层和n级反卷积层，n≥2，n为整数；

所述将深度图片输入手势分割神经网络，输出手部置信区域，包括：

通过2n+1级所述卷积激活层、n级所述池化层和n级所述反卷积层，对所述深度图片进行处理，得到所述深度图片对应的目标特征图；

根据所述目标特征图输出所述手部置信区域；

3.根据要求2所述的方法，其特征在于，所述通过2n+1级所述卷积激活层、n级所述池化层和n级所述反卷积层，对所述深度图片进行处理，得到所述深度图片对应的目标特征图，包括：

通过第1至第n级卷积激活层和所述n级池化层，对所述深度图片进行卷积激活以及池化处理，得到中间特征图，所述中间特征图的通道数大于所述深度图片的通道数，且所述中间特征图的尺寸小于所述深度图片的尺寸；

通过第n+1至第2n+1级卷积激活层和所述n级反卷积层，对所述中间特征图进行卷积激活以及反卷积处理，得到所述目标特征图，所述中间特征图的通道数等于所述深度图片的通道数，且所述目标特征图的尺寸等于所述深度图片的尺寸。

4.根据权利要求23所述的方法，其特征在于，所述通过第1至第n级卷积激活层和所述n级池化层，对所述深度图片进行卷积激活以及池化处理，得到中间特征图，包括：

将所述第i特征图输入第i+1级卷积激活层。

5.根据权利要求3所述的方法，其特征在于，所述通过第n+1至第2n+1级卷积激活层和所述n级反卷积层，对所述中间特征图进行卷积激活以及反卷积处理，得到所述目标特征图，包括：

6.根据权利要求2所述的方法，其特征在于，所述根据所述目标特征图输出所述手部置信区域，包括：

对所述概率矩阵进行二值化处理，输出所述手部区域对应的评分图，所述评分图用于指示所述深度图片中的所述手部置信区域。

7.根据权利要求1至6任一所述的方法，其特征在于，所述根据所述手部置信区域的深度值，从所述深度图片中提取出手部图像，包括：

根据所述手部置信区域从所述深度图片中提取出候选图像，所述候选图像中包含所述手部置信区域，且所述候选图像的尺寸大于所述手部置信区域的尺寸；

根据所述手部置信区域中各个像素点的深度值，计算平均深度值；

根据所述平均深度值和深度切割阈值，从所述候选图像中提取所述手部图像；

8.根据权利要求1至6任一所述的方法，其特征在于，所述将所述手部图像输入手势识别神经网络，得到手部各个关节的三维坐标，包括：

通过残差网络ResNet对所述手部图像进行特征提取，输出手势特征图；

通过所述手势识别神经网络的切片层将所述手势特征图切分为至少两个手势区域特征图，各个所述手势区域特征图的尺寸相同；

通过所述手势识别神经网络的内积层分别对各个所述手势特征图进行内积处理；

对至少两个内积处理后的所述手势区域特征图进行拼接；

对拼接后的所述手势区域特征图进行内积处理，输出各个手部关节的三维坐标。

9.根据权利要求1至6任一所述的方法，其特征在于，所述将深度图片输入手势分割神经网络，得到手部置信区域之前，所述方法还包括：

获取所述深度图片中各个像素点的所述深度值；

对所述深度值大于深度阈值的像素点进行过滤。

10.一种手势骨架构建装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述手势分割神经网络包括2n+1级卷积激活层、n级池化层和n级反卷积层，n≥2，n为整数；

所述第一输入模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述图片处理单元，包括：

反卷积子单元，用于通过第n+1至第2n+1级卷积激活层和所述n级反卷积层，对所述中间特征图进行卷积激活以及反卷积处理，得到所述目标特征图，所述中间特征图的通道数等于所述深度图片的通道数，且所述目标特征图的尺寸等于所述深度图片的尺寸。

13.一种手势骨架构建设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至9任一所述的手势骨架构建方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至9任一所述的手势骨架构建方法。