CN112131965B

CN112131965B - 一种人体姿态估计方法、装置、电子设备及存储介质

Info

Publication number: CN112131965B
Application number: CN202010897969.9A
Authority: CN
Inventors: 冯展鹏; 吴天舒; 胡文泽; 王孝宇
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2023-10-13
Anticipated expiration: 2040-08-31
Also published as: CN112131965A

Abstract

本发明涉及体感游戏技术领域，提供人体姿态估计方法、装置、电子设备及存储介质，其方法包括：获取人体位置，对所述人体位置初始化，所述人体位置包括人体关键点；检测移动过程中所述人体关键点对应的人体关键点图像，通过多层深度可分离卷积网络对所述人体关键点图像进行多层深度可分离卷积，提取语义信息，得到人体语义特征图；将所述人体语义特征图进行多层重新排列组合与多层所述深度可分离卷积，提取位置信息；基于所述位置信息与所述语义信息对目标人体姿态进行估计，并根据所述目标人体姿态控制虚拟对象。本发明能够节约成本，降低人体姿态估计过程中的计算量。

Description

一种人体姿态估计方法、装置、电子设备及存储介质

技术领域

本发明涉及体感游戏技术领域，尤其涉及一种人体姿态估计方法、装置、电子设备及存储介质。

背景技术

目前，在大城市的快节奏下，上班族难以挤出时间安排健身，且健身房年卡开销大，成本高。基于此背景，体感类的健身游戏越来越受到年轻人的青睐。体感游戏感知用户的动作在现有的技术中主要有两类：1、手持手柄传感器感知玩家的姿态变化；2、3D/双目等特殊摄像头捕捉玩家的姿态变化。上述两类在硬件成本上较高。此外，在深度学习领域中常见的人体估计姿态模型主要由语义提取模块以及位置信息获取模块构成，在语义提取过程中常常与位置信息无关，但图像经过语义信息提取后其位置信息发生变化，因此需要其保持原有的大小。现有的做法是使用多层反卷积操作，该方式会增加计算量，引起模型预测时间增加。可见，现有技术中，在体感游戏进行人体姿态估计方面，存在硬件成本高、计算量大的问题。

发明内容

本发明实施例提供一种人体姿态估计方法，能够降低提高游戏在人体姿态估计上的硬件成本，降低计算量。

第一方面，本发明实施例提供一种人体姿态估计方法，包括：

获取人体位置，对所述人体位置初始化，所述人体位置包括人体关键点；

检测移动过程中所述人体关键点对应的人体关键点图像，通过多层深度可分离卷积网络对所述人体关键点图像进行多层深度可分离卷积，提取语义信息，并得到人体语义特征图；

将所述人体语义特征图进行多层重新排列组合与多层所述深度可分离卷积，提取位置信息；

基于所述位置信息与所述语义信息对目标人体姿态进行估计，并根据所述目标人体姿态控制虚拟对象。

第二方面，本发明实施例提供一种人体姿态估计装置，包括：

初始化模块，用于获取人体位置，对所述人体位置初始化，所述人体位置包括人体关键点；

语义提取模块，用于检测移动过程中所述人体关键点对应的人体关键点图像，通过多层深度可分离卷积网络对所述人体关键点图像进行多层深度可分离卷积，提取语义信息，并得到人体语义特征图；

位置提取模块，用于将所述人体语义特征图进行多层重新排列组合与多层所述深度可分离卷积，提取位置信息；

控制模块，用于基于所述位置信息与所述语义信息对目标人体姿态进行估计，并根据所述目标人体姿态控制虚拟对象。

第三方面，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例提供的人体姿态估计方法中的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现发明实施例提供的人体姿态估计方法中的步骤。

在本发明实施例中，获取人体位置，对所述人体位置初始化，所述人体位置包括人体关键点；检测移动过程中所述人体关键点对应的人体关键点图像，通过多层深度可分离卷积网络对所述人体关键点图像进行多层深度可分离卷积，提取语义信息，并得到人体语义特征图；将所述人体语义特征图进行多层重新排列组合与多层所述深度可分离卷积，提取位置信息；基于所述位置信息与所述语义信息对目标人体姿态进行估计，并根据所述目标人体姿态控制虚拟对象。本发明实施例主要是基于2D摄像头执行的人体姿态估计，相对需配置手柄传感器、3D/双目摄像头等硬件而言，成本低；且在获取到语义信息后对人体语义特征图进行还原获取位置信息的过程中，结合了深度可分离卷积网络以及重新排列组合进行处理，深度可分离卷积网络的计算复杂度远低于多层反卷积的计算复杂度，且对人体语义特征图进行重新排列组合只涉及重组问题，并不增加计算量，结合深度可分离卷积网络以及重新排列组合处理后所需计算次数远低于多层反卷积的计算次数，从而降低计算量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例提供的一种人体姿态估计方法的流程图；

图1b为本发明实施例提供人体位置初始化的结构示意图；

图2a为本发明实施例提供的另一种人体姿态估计方法的流程图；

图2b为本发明实施例提供的另一种人体姿态估计方法的流程图；

图3a为本发明实施例提供的另一种人体姿态估计方法的流程图；

图3b为本发明实施例提供的一种深度可分离卷积计算的结构示意图；

图4为本发明实施例提供的一种人体姿态估计装置的结构示意图；

图5为本发明实施例提供的另一种人体姿态估计装置的结构示意图；

图6为本发明实施例提供的另一种人体姿态估计装置的结构示意图；

图7为本发明实施例提供的另一种人体姿态估计装置的结构示意图；

图8为本发明实施例提供的另一种人体姿态估计装置的结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1a，图1a是本发明实施例提供的一种人体姿态估计方法的流程图，如图1a所示，包括以下步骤：

S101、获取人体位置，对人体位置初始化，人体位置包括人体关键点。

在本发明实施例中，人体姿态估计方法运行于其上的电子设备可以通过有线连接方式或者无线连接方式获取用户所在的人体位置等信息。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi(Wireless-Fidelity)连接、蓝牙连接、WiMA×(Worldwide Interoperability forMicrowaveAccess)连接、Zigbee(低功耗局域网协议，又称紫峰协议)连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。

本发明实施例提供的人体姿态估计方法可以运用在各种体感游戏机中。当用户开启体感游戏机后，通过2D摄像头可以获取用户的人体位置并进行初始化，通过采集人体位置的人体关键点，进行人体语义特征图提取与计算，根据最终计算得到的结果实现对用户的人体姿态估计，进而控制用户在虚拟界面中的动作。上述的2D摄像头可以是在两个维度(x，y)上成像的摄像头。

具体的，参考图1b所示，当用户开启体感游戏机后，在体感游戏机的屏幕上会出现一个人体轮廓图像，用户需要站在指定位置完成人体位置初始化，这样可以定位用户的人体位置。初始化人体位置后，可以基于人体位置定位人体关键点，人体关键点可以有17个具体的关键点，包括：鼻子、左眼、右眼、左耳、右耳、左手腕、右手腕、左肘、右肘、左肩膀、右肩膀、左胯、右胯、左膝盖、右膝盖、左脚踝以及右脚踝。

S102、检测移动过程中人体关键点对应的人体关键点图像，通过多层深度可分离卷积网络对人体关键点图像进行多层深度可分离卷积，提取语义信息，并得到人体语义特征图。

其中，检测人体关键点图像的过程中可以通过跟踪算法对移动过程中的人体关键点进行实时跟踪，采集在移动过程中不同时间、不同位置处多个人体关键点所对应的位置信息。上述的跟踪算法的种类在本发明实施例中不做具体限定，例如：卡尔曼滤波算法等。

上述的多层深度可分离卷积网络属于卷积神经网络中的一种。卷积神经网络算法(ConvolutionalNeuralNetwork，CNN)是一种前馈神经网络，可以进行图像特征的识别。上述进行多层深度可分离卷积(Deconv)具体可以分解为一个深度卷积(depthwiseconvolution)与一个1×1的卷积核卷积(pointwise convolution)，且进行多层卷积运算。上述的语义信息可以包括多个人体关键点的识别等。上述的人体语义特征图可以是包含有简化后用户的各个特征部位的图，其中包括人体关键点。

具体的，人体姿态估计的模型结构主要由两部分组成：语义提取模块与位置信息获取模块。其中，语义提取模块通常由多个卷积层、池化层组成，通过卷积和池化层、激活等运算提取图片的语义特征。其语义特征指的是模型对图片中物体的认知。而语义提取模块对语义信息的提取常常与位置无关，即使物体变换了位置对于模型来说，语义特征也必须相同。因此，需要在语义信息提取之后，将图片进行还原以获取位置信息。位置信息可以包括人体关键点在移动过程中所对应的位置，可以用坐标点的方式表示。

且对一个深度神经网络而言，网络层数越多，模型所能获取的语义信息越丰富，模型对于分类的效果越好。然而语义信息提取过程中带来了位置信息的丢失，因此需要将进行语义提取后的人体语义特征图(Featuremap)还原为人体位置初始化后的原图以便于提取位置信息，例如：通常来说，一张256×192的图片经过语义信息提取以后会缩小成8×6大小的特征图，而要获取准确的位置信息需要对应恢复原图尺寸，即需要将8×6大小的特征图还原到256×192大小。

通过预定的跟踪算法跟踪到人体关键点对应的人体关键点图像后，可以基于上述的多层可分离卷积网络进行多层深度可分离卷积，将人体关键点图像一层一层缩小直到得到人体语义特征图，并在卷积过程中提取出语义信息，例如：输入的人体关键点图像大小为256,×192，进行多层深度可分离卷积后依次可以得到32×128×96，……，1024×8×6，即最后得到人体语义特征图的大小为8×6，在每次卷积时可以从图中提取语义信息，完成多层可分离卷积之后得到的特征图则为最终的人体语义特征图。提取出语义信息之后，可再将人体语义特征图的大小还原到人体位置初始化后的原图。

S103、将人体语义特征图进行多层重新排列组合与多层深度可分离卷积，提取位置信息。

其中，重新排列组合(Reshape)不涉及具体的计算，只需要改变人体语义特征图的维度。因语义提取过程会改变位置信息，因此通过还原原图的方式对位置信息进行提取。上述进行多层深度可分离卷积常用于增加特征图的宽高同时还能提取位置信息。上述对人体语义特征图进行多层重新排列组合以及多层深度可分离卷积可以是依次交错进行，例如：先第1次依序将featuremap进行Reshape与深度可分离卷积，在第一次之后再次依序将进行Reshape与深度可分离卷积，一直进行到还原为人体位置初始化后的原图大小。通过多次的Reshape与深度可分离卷积之后，可以将人体语义特征图还原为人体位置初始化后的原图，从原图中可以提取出位置信息，例如：在复原人体语义特征图的过程中将8×6的人体语义特征图依次复原到16×12，32×24，64×48，…，直到恢复为人体位置初始化后的原图大小。

S104、基于位置信息与语义信息对目标人体姿态进行估计，并根据目标人体姿态控制虚拟对象。

其中，获取到用户在移动过程中的语义信息与位置信息后，便可以估计出与用户动作对应的目标人体姿态，并控制体感游戏机的屏幕上的虚拟对象的动作，体感游戏机检测到屏幕上显示的虚拟对象的动作后可以判断动作的准确度，根据准确度对用户的目标人体姿态进行评分等操作。

在本发明实施例中，获取人体位置，对人体位置初始化，人体位置包括人体关键点；检测移动过程中人体关键点对应的人体关键点图像，通过多层深度可分离卷积网络对人体关键点图像进行多层深度可分离卷积，提取语义信息，并得到人体语义特征图；将人体语义特征图进行多层重新排列组合与多层深度可分离卷积，提取位置信息；基于位置信息与语义信息对目标人体姿态进行估计，并根据目标人体姿态控制虚拟对象。本发明实施例主要是基于2D摄像头执行的人体姿态估计，相对需配置手柄传感器、3D/双目摄像头等硬件而言，成本低；且在获取到语义信息后对人体语义特征图进行还原获取位置信息的过程中，结合了深度可分离卷积网络以及重新排列组合进行处理，深度可分离卷积网络的计算复杂度远低于多层反卷积的计算复杂度，且对人体语义特征图进行重新排列组合只涉及重组问题，并不增加计算量，结合深度可分离卷积网络以及重新排列组合处理后所需计算次数远低于多层反卷积的计算次数，从而降低计算量。

参见图2a，图2a是本发明实施例中提供的另一种人体姿态估计方法的流程图，如图2a所示，包括以下步骤：

S201、获取人体位置，对人体位置初始化，人体位置包括人体关键点。

S202、基于预设跟踪算法对移动过程中人体关键点图像进行跟踪，获取移动过程中的人体关键点图像。

其中，在移动过程中，人体关键点可能会经过平移、旋转、尺度变换等转变。预设的跟踪算法可以是Struck算法、相关滤波算法、CSK(Exploiting the Circulant StructureofTracking-by-detection with Kernels)跟踪算法等。预设的跟踪算法中的特征提取适用于目标跟踪的特征一般要求，既能较好地描述跟踪目标又能快速计算。常见的图像特征有灰度特征、颜色特征、纹理特征、Haar-like矩形特征、兴趣点特征、超像素特征等，当然也还有许多其他特征。在实施例中特征提取主要是实时获取该变化过程中各个人体关键点，定位当前移动位置人体关键点对应的人体关键点图像。

S203、通过多层深度可分离卷积网络对人体关键点图像进行多层深度可分离卷积，从每次的深度可分离卷积中提取语义信息。

S204、基于多层深度可分离卷积后，提取人体语义特征图。

其中，对人体关键点图像进行多层深度可分离卷积可以是一个特征图提取并且特征图逐渐缩小的过程。在本发明实施例中，以原始图像为256×192为例，参考图2b所示，在图2b中，通过输入原始图像256×192通过深度可分离卷积提取特征得到特征图32×128×96，继续进行深度可分离卷积得到32×128×96，然后再继续进行多次的深度可分离卷积计算，从每次的深度可分离卷积中可以提取语义信息，最后缩小得到的特征图则为上述的人体语义特征图。

S205、将人体语义特征图进行多层重新排列组合与多层深度可分离卷积，提取位置信息。

S206、基于位置信息与语义信息对目标人体姿态进行估计，并根据目标人体姿态控制虚拟对象。

可选的，上述步骤S201可以包括：

检测指定位置是否存在人体。

当体感游戏机开启后，可以实施检测指定位置是否有人体使用，例如：配套的跳舞机台面，家用的跳舞机垫子等。

若检测到指定位置存在人体，则对人体位置进行初始化，人体位置初始化包括对人体关键点进行初始化。

在体感游戏机开启之后，可以在屏幕中出现人体轮廓，用户只需要站在指定的位置即可以完成初始化。且初始化过程中，对整个人体位置进行初始化也包括对人体关键点进行初始化，锁定人体关键点初始所在位置。初始化完成后，用户可以自由移动(左右移动、上下移动等等)，用户移动过程中的位置信息的更新可以通过预设跟踪算法进行更新。完成人体位置的初始化，便于后续准确的跟踪人体位置的人体关键点的位置变化。

在本发明实施例中，主要是基于2D摄像头执行的人体姿态估计，相对需配置手柄传感器、3D/双目摄像头等硬件而言，成本低；且在获取到语义信息后对人体语义特征图进行还原获取位置信息的过程中，结合了深度可分离卷积网络以及重新排列组合进行处理，深度可分离卷积网络的计算复杂度远低于多层反卷积的计算复杂度，且对人体语义特征图进行重新排列组合只涉及重组问题，并不增加计算量，结合深度可分离卷积网络以及重新排列组合处理后所需计算次数远低于多层反卷积的计算次数，从而降低计算量。

请参见图3a所示，图3a是本发明实施例提供的另一种人体姿态估计方法的流程图，如图3a所示，包括以下步骤：

S301、获取人体位置，对人体位置初始化，人体位置包括人体关键点。

S302、检测移动过程中人体关键点对应的人体关键点图像，通过多层深度可分离卷积网络对人体关键点图像进行多层深度可分离卷积，提取语义信息，并得到人体语义特征图。

S303、对人体语义特征图进行重新排列组合，得到重组人体语义特征图。

上述对人体语义特征图进行重新排列组合可以是将人体语义特征图在多个通道上进行挤压，增加经过挤压后多个通道的维度。

具体的，人体语义特征图中可以包括N，C，H，W四个维度，其中N表示batch size，即N个样本数据，C表示人体语义特征图的通道数，H表示人体语义特征图的高度，W表示人体语义特征图的宽度。人体语义特征图可以基于第二维度进行挤压使其在H与W维度增加，挤压后的人体语义特征图大小为N，C/4，H*2，W*2。这样处理是为了还原人体语义特征图的大小，同时在挤压过程中融合了不同通道之间的语义信息，增强人体姿态估计模型对于位置信息的感知。经过通道压缩之后可以得到重组人体语义特征图，此处的重组人体语义特征图可以指经过第一次通道压缩后得到的特征图，在后续进行深度分离卷积之后还可以进行通道压缩。属于交替执行的过程。

S304、将重组人体语义特征图进行深度可分离卷积，并基于人体语义特征图以及人体位置初始化后原始图的大小有序的多层执行重新排列组合以及深度可分离卷积，以得到目标重组特征图。

具体的，深度可分离卷积的方式可以参考图3b所示。将经过reshape得到的重组人体语义特征图(Input feature map)输入后先进行DepthwiseConvolution处理，一张人体语义特征图对应一次DepthwiseConvolution处理，然后将经过DepthwiseConvolution处理之后的特征图再次进行PointwiseConvolution处理，进行PointwiseConvolution处理时是进行1：N的形式进行，也即是经过DepthwiseConvolution卷积处理后的特征图需要通过N个卷积核卷积。

上述进行reshape、DepthwiseConvolution以及PointwiseConvolution的次数具体可以根据人体语义特征图以及人体位置初始化后的原图的大小来确定，例如：人体位置初始化后的原图的大小为256×192，提取语义信息后的人体语义特征图的大小为8×6，根据每次缩小的比例可以计算出需要执行的次数。每进行一次reshape后接着执行一次DepthwiseConvolution与PointwiseConvolution处理，然后将处理得到的特征图继续进行reshape，这样反复执行计算出的次数后，可以得到上述的目标重组特征图。

S305、根据预设比率变换将目标重组特征图进行转换，提取位置信息。

其中，预设比率变换可以是一个变换比值，以8×6的人体语义特征图为例，在复原人体语义特征图的过程中将8×6的人体经过多次的reshape、DepthwiseConvolution以及PointwiseConvolution卷积计算后，特征图复原到64×48，然后直接将64×48的特征图通过比率的变换映射回256×192的原图上。

S306、基于位置信息与语义信息对目标人体姿态进行估计，并根据目标人体姿态控制虚拟对象。

可选的，上述S304的步骤可以包括：

设置多层深度可分离卷积网络的卷积参数，多层深度可分离卷积网络包括特征图分组卷积以及卷积核卷积。

其中，特征图分组卷积可以是将人体语义特征图分为多组进行卷积，卷积核卷积可以是使用N个1×1的卷积核对经过特征图分组卷积后的人体语义特征图进行卷积操作，具体参考图3b所示。

上述设置多层深度可分离卷积网络的卷积参数也即是设置特征图分组卷积的卷积参数与卷积核卷积的卷及参数。特征图分组卷积的卷积参数可以包括M、K、Cin以及Cout。其卷积核卷积的卷积参数K表示卷积核的大小，本实施例取1×1；M为卷积核卷积前人体语义特征图扩增后的特征图大小－卷积核大小+1；Cin为卷积核卷积操作前人体语义特征图的通道数；Cout为卷积核的数量。

基于特征图分组卷积的分组卷积参数对重组人体语义特征图进行特征图分组卷积。

完成特征图分组卷积后，基于卷积核卷积的卷积核参数对重组人体语义特征图进行卷积核卷积。

一般来说神经网络的计算复杂度由FLOPs(浮点运算次数来衡量)，浮点运算次数常用来衡量算法复杂度，FLOPs越小计算开销越小，计算速度越快，为计算方便以下使用8×8的人体语义特征图举例说明。对于一个8×8的人体语义特征图来说想要通过现有技术提供的反卷积得到16×16的特征图需要设置反卷积参数kernel(卷积核大小)＝4，stride(卷积核步长)＝2，padding(卷积之前特征图补0的数量)＝1。反卷积操作所需的FLOPs为O，O＝M^2×K^2×Cin×Cout)。反卷积操作首先扩增特征图，然后再进行一般的卷积运算达到特征图扩大的效果，基于以上反卷积参数扩增后的特征图大小为8+(8-1)×(stride-1)+2×(kernel–1–padding)＝19。经过扩增后特征图为19，效果等同于在19×19的特征图上做卷积运算，此时kernel＝4，stride＝1，卷积后得到16×16的特征图。假设Cin和Cout都为512，此时M＝16，故反卷积对应的flops为O＝(16^2×4^2×512×512)。对于一张8×8的特征图来说，将其扩增到16×16的特征图所需的FLOPs为1，073，741，824。

在本发明实施例中，使用reshape+深度可分离卷积替代反卷积操作，其计算量可大大减少，对于reshape操作来说只是将featuremap进行有规则的排列组合，不涉及额外的计算操作。主要的计算操作都在深度可分离卷积中，而深度可分离卷积主要由两部分组成：depthwiseconvolution和pointwiseconvolution。

其中，对于depthwiseconvolution，其FLOPs为O(M^2×K^2×C)；对于pointwiseconvolution，其FLOPs为O(1×1×M^2×Cin×Cout)，其和为：O＝(M^2×K^2×C+1×1×M^2×Cin×Cout)。

在本发明实施例中，例如将8×8的特征图变换为16×16的特征图，可以先使用reshape操作将8×8的人体语义特征图reshape成16×16大小的人体语义特征图，多余的像素可以来源于通道压缩(将人体语义特征图在多个通道上挤压)。设置depthwiseconvolution的卷积参数为C＝512，K＝3，此时对应M＝16，计算复杂度FLOPs为1，179，648。然后继续设置pointwiseconvolution的卷积参数Cin与Cout均为512，此时对应的M＝16，计算复杂度FLOPs为67，108，864。综合两个FLOPs最终的FLOPs为68，288，512。

对比反卷积操作与本发明实施例提供的reshape+深度可分离卷积操作两者的复杂度可得：(1，073，741，824)/(68，288，512)＝15。

综述，即对于同样将一个8×8的特征图放大到16×16，反卷积操作所需的计算资源是reshape+深度可分离卷积的15倍。此外，根据上述的方式若将8×6的人体语义特征图使用反卷积到256×192，一共需要做五次反卷积计算且人体语义特征图在不断的放大导致所需的FLOPs呈指数级增长。而本发明实施例提出的reshape+深度可分离卷积操作，只需要做三次reshape和三次深度可分离卷积，然后再做一次根据预设比率变换进行映射，即可得到256×192的人体位置初始化后的原图。

作为一种可能的实施例，在实际测试中，优化前的人体姿态估计模型的预测速度为50ms/图，优化后速度提升到7ms/图。提出的人体姿态估计模型只需要输入人体图片即可在极短的时间内(7ms)得到该人体所有的关键点位置，极大地加快了整个人体姿态估计的流程，减少了计算量。

在本发明实施例中，主要是基于2D摄像头执行的人体姿态估计，相对需配置手柄传感器、3D/双目摄像头等硬件而言，成本更低。且在获取到语义信息后对人体语义特征图进行还原获取位置信息的过程中，结合了深度可分离卷积网络以及重新排列组合进行处理，深度可分离卷积网络的计算复杂度远低于多层反卷积的计算复杂度，且对人体语义特征图进行重新排列组合只涉及重组问题，并不增加计算量，结合深度可分离卷积网络以及重新排列组合处理后所需计算次数远低于多层反卷积的计算次数，从而降低计算量。

请参见图4，图4是本发明实施例提供的一种人体姿态估计装置的结构示意图，如图4所示，装置400包括：

初始化模块401，用于获取人体位置，对人体位置初始化，人体位置包括人体关键点；

语义提取模块402，用于检测移动过程中人体关键点对应的人体关键点图像，通过多层深度可分离卷积网络对人体关键点图像进行多层深度可分离卷积，提取语义信息，并得到人体语义特征图；

位置提取模块403，用于将人体语义特征图进行多层重新排列组合与多层深度可分离卷积，提取位置信息；

控制模块404，用于基于位置信息与语义信息对目标人体姿态进行估计，并根据目标人体姿态控制虚拟对象。

可选的，图5是本发明实施例提供的另一种人体姿态估计装置的结构示意图，如图5所示，上述语义提取模块402包括：

跟踪单元4021，用于基于预设跟踪算法对移动过程中人体关键点图像进行跟踪，获取当前移动位置的人体关键点图像；

语义提取单元4022，用于通过多层深度可分离卷积网络对人体关键点图像进行多层深度可分离卷积，从每次的深度可分离卷积中提取语义信息；

特征图提取单元4023，用于基于多层深度可分离卷积后，提取人体语义特征图。

可选的，图6是本发明实施例提供的另一种人体姿态估计装置的结构示意图，如图6所示，位置提取模块403包括：

排列组合单元4031，用于对人体语义特征图进行重新排列组合，得到重组人体语义特征图；

计算单元4032，用于将重组人体语义特征图进行深度可分离卷积，并基于人体语义特征图以及人体位置初始化后原始图的大小有序的多层执行重新排列组合以及深度可分离卷积，以得到目标重组特征图；

变换单元4033，用于根据预设比率变换将目标重组特征图进行转换，提取位置信息。

可选的，上述排列组合单元4031还用于将人体语义特征图在多个通道上进行挤压，增加经过挤压后多个通道的维度。

可选的，图7是本发明实施例提供的另一种人体姿态估计装置的结构示意图，如图7所示，计算单元4032包括：

参数设置子单元40321，用于设置多层深度可分离卷积网络的卷积参数，多层深度可分离卷积网络包括特征图分组卷积以及卷积核卷积；

第一计算子单元40322，用于基于特征图分组卷积的分组卷积参数对重组人体语义特征图进行特征图分组卷积；

第二计算子单元40323，用于完成特征图分组卷积后，基于卷积核卷积的卷积核参数对重组人体语义特征图进行卷积核卷积。

可选的，图8是本发明实施例提供的另一种人体姿态估计装置的结构示意图，如图8所示，初始化模块401包括：

检测单元4011，用于检测指定位置是否存在人体；

初始化单元4012，用于若检测到指定位置存在人体，则对人体位置进行初始化，人体位置初始化包括对人体关键点进行初始化。

本发明还提供一种电子设备900，且本发明实施例提供的电子设备900能够实现上述方法实施例中人体姿态估计方法实现的各个过程，为避免重复，这里不再赘述。且可以达到相同的有益效果。

如图9所示，图9是本发明实施例提供的一种电子设备的结构示意图，该电子设备900包括：处理器901、存储器902、网络接口903及存储在存储器902上并可在处理器901上运行的计算机程序，处理器901执行计算机程序时实现实施例提供的人体姿态估计方法中的步骤。具体的，处理器901用于调用存储器902存储的计算机程序，并执行如下步骤：

获取人体位置，对人体位置初始化，人体位置包括人体关键点；

检测移动过程中人体关键点对应的人体关键点图像，通过多层深度可分离卷积网络对人体关键点图像进行多层深度可分离卷积，提取语义信息，并得到人体语义特征图；

将人体语义特征图进行多层重新排列组合与多层深度可分离卷积，提取位置信息；

基于位置信息与语义信息对目标人体姿态进行估计，并根据目标人体姿态控制虚拟对象。

可选的，处理器901执行的检测移动过程中人体关键点对应的人体关键点图像，通过多层深度可分离卷积网络对人体关键点图像进行多层深度可分离卷积，提取语义信息，并得到人体语义特征图的步骤包括：

基于预设跟踪算法对移动过程中人体关键点图像进行跟踪，获取移动过程中的人体关键点图像；

通过多层深度可分离卷积网络对人体关键点图像进行多层深度可分离卷积，从每次的深度可分离卷积中提取语义信息；

基于多层深度可分离卷积后，提取人体语义特征图。

可选的，处理器901执行的将人体语义特征图进行多层重新排列组合与多层深度可分离卷积，提取位置信息的步骤包括：

对人体语义特征图进行重新排列组合，得到重组人体语义特征图；

将重组人体语义特征图进行深度可分离卷积，并基于人体语义特征图的大小以及人体位置初始化后的原图的大小有序的多层执行重新排列组合以及深度可分离卷积，得到目标重组特征图；

根据预设比率变换，将目标重组特征图还原为人体位置初始化后的原图，并提取人体位置初始化后的原图的位置信息。

可选的，处理器901执行的将重组人体语义特征图进行深度可分离卷积的步骤包括：

设置多层深度可分离卷积网络的卷积参数，多层深度可分离卷积网络包括特征图分组卷积以及卷积核卷积；

基于特征图分组卷积的分组卷积参数对重组人体语义特征图进行特征图分组卷积；

可选的，901执行的对人体语义特征图进行重新排列组合的步骤包括：

将人体语义特征图在多个通道上进行挤压，增加经过挤压后多个通道的维度。

可选的，处理器901执行的获取人体位置，对人体位置初始化的步骤包括：

检测指定位置是否存在人体；

本发明实施例提供的电子设备900能够实现人体姿态估计方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

需要说明的是，图中仅示出了具有组件的901-903，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的电子设备900是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

电子设备900可以是桌上型计算机、笔记本及掌上电脑等计算设备。电子设备900可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器902至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器902可以是电子设备900的内部存储单元，例如该电子设备900的硬盘或内存。在另一些实施例中，存储器902也可以是电子设备900的外部存储设备，例如该电子设备900上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器902还可以既包括电子设备900的内部存储单元也包括其外部存储设备。本实施例中，存储器902通常用于存储安装于电子设备900的操作系统和各类应用软件，例如一种人体姿态估计方法的程序代码等。此外，存储器902还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器901在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器901通常用于控制电子设备900的总体操作。本实施例中，处理器901用于运行存储器902中存储的程序代码或者处理数据，例如运行一种人体姿态估计方法的程序代码。

网络接口903可包括无线网络接口或有线网络接口，该网络接口903通常用于在电子设备900与其他电子设备之间建立通信连接。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器901执行时实现本发明实施例提供的人体姿态估计方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，人体姿态估计方法的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(RandomAccess Memory，简称RAM)等。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。且本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种人体姿态估计方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述检测移动过程中所述人体关键点对应的人体关键点图像，通过多层深度可分离卷积网络对所述人体关键点图像进行多层深度可分离卷积，提取语义信息，并得到人体语义特征图的步骤包括：

基于预设跟踪算法对移动过程中所述人体关键点图像进行跟踪，获取移动过程中的所述人体关键点图像；

通过所述多层深度可分离卷积网络对所述人体关键点图像进行所述多层深度可分离卷积，从每次的深度可分离卷积中提取所述语义信息；

基于所述多层深度可分离卷积后，提取所述人体语义特征图。

3.如权利要求1所述的方法，其特征在于，所述将所述人体语义特征图进行多层重新排列组合与多层深度可分离卷积，提取位置信息的步骤包括：

对所述人体语义特征图进行所述重新排列组合，得到重组人体语义特征图；

将所述重组人体语义特征图进行所述深度可分离卷积，并基于所述人体语义特征图以及所述人体位置初始化后原图的大小有序的多层执行所述重新排列组合以及所述深度可分离卷积，以得到目标重组特征图；

根据预设比率变换将所述目标重组特征图进行转换，提取所述位置信息。

4.如权利要求3所述的方法，其特征在于，所述将所述重组人体语义特征图进行所述深度可分离卷积的步骤包括：

设置所述多层深度可分离卷积网络的卷积参数，所述多层深度可分离卷积网络包括特征图分组卷积以及卷积核卷积；

基于所述特征图分组卷积的分组卷积参数对所述重组人体语义特征图进行所述特征图分组卷积；

完成所述特征图分组卷积后，基于所述卷积核卷积的卷积核参数对所述重组人体语义特征图进行所述卷积核卷积。

5.如权利要求3所述的方法，其特征在于，所述对所述人体语义特征图进行重新排列组合的步骤包括：

将所述人体语义特征图在多个通道上进行挤压，增加经过挤压后所述多个通道的维度。

6.如权利要求1所述的方法，其特征在于，所述获取人体位置，对所述人体位置初始化的步骤包括：

检测指定位置是否存在人体；

若检测到所述指定位置存在人体，则对所述人体位置进行初始化，所述人体位置初始化包括对所述人体关键点进行初始化。

7.一种人体姿态估计装置，其特征在于，包括：

8.如权利要求7所述的人体姿态估计装置，其特征在于，所述语义提取模块包括：

跟踪单元，用于基于预设跟踪算法对移动过程中所述人体关键点图像进行跟踪，获取当前移动位置的所述人体关键点图像；

语义提取单元，用于通过所述多层深度可分离卷积网络对所述人体关键点图像进行所述多层深度可分离卷积，从每次的深度可分离卷积中提取语义信息；

特征图提取单元，用于基于所述多层深度可分离卷积后，提取所述人体语义特征图。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的人体姿态估计方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的人体姿态估计方法中的步骤。