CN112149477A

CN112149477A - 姿态估计方法、装置、介质及设备

Info

Publication number: CN112149477A
Application number: CN201910578612.1A
Authority: CN
Inventors: 张瑞; 黄冠; 武锐
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-12-29

Abstract

公开了一种姿态估计方法、装置、介质及设备，方法包括：提取图像中的人体特征数据；将所述人体特征数据分别输入第一卷积层和第二卷积层，通过所述第一卷积层估计人体关键点的位置数据，通过所述第二卷积层估计所述人体关键点的偏移量数据，其中，所述人体关键点为所述人体特征数据表征的人体的关键部位成像点；融合所述位置数据和所述偏移量数据，以获得所述人体关键点的坐标数据，并根据所述坐标数据确定所述图像中的人体姿态。本申请用于解决现有技术存在的识别精确度不高及输出精确度对带宽要求高的问题。实现了提高输出精确度和有效降低了对网络带宽的要求的技术效果。

Description

姿态估计方法、装置、介质及设备

技术领域

本说明书实施例涉及计算机视觉领域，尤其涉及一种姿态估计方法、装置、介质及设备。

背景技术

随着科技的发展，人与计算机或人工智能等设备的交互场景越来越多，交互方式也更加丰富。其中一种重要的交互方式为人体姿态交互，即电子设备通过对人体姿态进行估计来与人进行人机交互和行为识别，从而提高电子设备的交互便利度和智能水平。

目前主要的人体姿态估计方法有自顶向下和自底向上两种，其中自顶向下的准确率相对较高，但仍然存在识别精确度不够及输出精确度对带宽要求高的问题。

发明内容

为了解决上述技术问题，提出了本申请。本说明书实施例提供及一种姿态估计方法、装置、介质及设备。

根据本申请的第一个方面，提供了一种姿态估计方法，包括：

提取图像中的人体特征数据；

将所述人体特征数据分别输入第一卷积层和第二卷积层，通过所述第一卷积层估计人体关键点的位置数据，通过所述第二卷积层估计所述人体关键点的偏移量数据，其中，所述人体关键点为所述人体特征数据表征的人体的关键部位成像点；

融合所述位置数据和所述偏移量数据，以获得所述人体关键点的坐标数据，并根据所述坐标数据确定所述图像中的人体姿态。

根据本申请的第二个方面，提供了一种人体位姿识别装置，包括：

提取模块，用于提取图像中的人体特征数据；

估计模块，用于将所述人体特征数据分别输入第一卷积层和第二卷积层，通过所述第一卷积层估计人体关键点的位置数据，通过所述第二卷积层估计所述人体关键点的偏移量数据，其中，所述人体关键点为所述人体特征数据表征的人体的关键部位成像点；

融合模块，用于融合所述位置数据和所述偏移量数据，以获得所述人体关键点的坐标数据，并根据所述坐标数据确定所述图像中的人体姿态。

根据本申请的第三个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一个方面的姿态估计方法。

根据本申请的第四个方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述第一个方面的姿态估计方法。

本说明书实施例有益效果如下：

通过本发明实施例提供的姿态估计方法、装置、介质及设备，在提取出人体特征数据后，分两个卷积层分支，一个估计出关键点的位置数据，一个估计出关键点的偏移量数据，再对这两个数据进行融合来确定出关键点的坐标数据。通过将位置数据和偏移量数据进行结合来提高确定出的关键点的坐标数据的准确性，从而提高基于关键点坐标数据进行的人体姿态估计的准确性。进一步，两个卷积层分支的结合有效降低了对网络带宽的要求。通过预测偏移量数据，可以在位置数据占用网络带宽较小的情况下，对关键点的坐标数据进行修正，从而减少输出精确度对带宽要求高的问题。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请的姿态估计方法的示例性系统框图。

图2是本申请图1中预测模块的示例性系统框图。

图3是本申请实施例提供的姿态估计方法的流程示意图。

图4是本申请将人体特征数据分别输入第一卷积层和第二卷积层过程的示意性流程图。

图5是本申请融合位置数据和偏移量数据过程的示意性流程图。

图6是本申请反馈位置数据和/或偏移量数据过程的示意性流程图。

图7是本申请的姿态估计装置的示意图。

图8是本申请的估计模块的示意图。

图9是本申请的反馈单元的示意图。

图10是本申请的融合模块的示意图。

图11是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，现有技术在对人体姿态估计时，存在识别精确度不够及输出精确度对带宽要求高的技术问题。

基于上述技术问题，本申请提供的姿态估计方法、装置、介质及设备，在提取出图像中的人体特征数据后，分别输入两个卷积层，通过第一卷积层估计人体关键点的位置数据，通过第二卷积层估计人体关键点的偏移量数据，再融合位置数据和偏移量数据，以获得所述人体关键点的坐标数据，并根据坐标数据进行人体姿态估计。

这样通过融合位置数据和偏移量数据来提高确定出的关键点的坐标数据的准确性，从而提高基于关键点坐标数据进行的人体姿态估计的准确性。进一步，可以在位置数据占用网络带宽较小的情况下，采用预测偏移数据对关键点的位置数据进行修正，从而解决关键点的坐标数据的输出精确度对计算网络带宽要求高的问题，有效降低了对网络带宽的要求。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图1示出了本申请的姿态估计方法的示例性系统框图，根据图1可知，该系统可以包括三个模块：人体检测模块11、特征提取模块12和预测模块13。其中，人体检测模块11先对视频或图像中的人体区域进行检测，再将检测出的人体区域划分为单人图像，即保证划分出的每个图像中仅包含一个人的图像。然后，将划分出的单人图像输入特征提取模块12进行特征提取，得到对应单人的人体特征数据。最后再将人体特征数据输入预测模块13进行合理上采样，以输出关键点的位置数据以及相应的关键点的偏移量数据，并通过对位置数据和偏移量数据的融合得到人体关键点的坐标，从而根据人体关键点的坐标进行人体姿态估计，提高人体姿态估计的准确性。

需要说明的是，上述的人体检测模块11可以是基于实例分割模型Mask R-CNN来进行单人图像的划分的。上述的特征提取模块12可以执行深度卷积神经网络(VGG神经网络)或残差网络(ResNet)等模型对应的计算流程。特征提取模块12较优的可以执行残差网络模型所对应的计算流程，通过残差网络的高深度特性在提取深度增加的情况下维持较高的准确率。

图2示出了预测模块13的示例性系统框图，根据图2可知，预测模块13可以包括：放大单元131、位置数据预测单元132、偏移量数据预测单元133和融合单元134。其中，放大单元131对输入的人体特征数据进行放大以提高输入分辨率。放大后的人体特征数据再分别输入位置数据预测单元132和偏移量数据预测单元133进行关键点的位置数据和偏移量数据的预测。最后，再通过融合单元134将位置数据和偏移量数据进行融合处理获得关键点的坐标，以用于准确的人体姿态估计。

需要说明的是，上述放大单元131可以执行转置卷积对应的计算流程，例如，可以为两个转置卷积来实现4倍的放大。上述位置数据预测单元132可以执行第一卷积层对应的计算流程，该第一卷积层的卷积核数量等于预设的人体关键点的数量，例如，预设人体有17个关键点，则位置数据预测单元132有17个卷积核。上述偏移量数据预测单元133可以执行第二卷积层对应的计算流程，该第二卷积层的卷积核数量等于预设的人体关键点的数量的两倍，例如，预设人体有17个关键点，则卷积层有34个卷积核。

上述系统可以设置在GPU上或者专用于神经网络加速计算的芯片上，在此不作限制。

示例性方法

图3是本申请一示例性实施例提供的姿态估计方法的流程示意图。本实施例可应用在电子设备上，该电子设备为具有分析处理图像能力的终端或服务器设备，例如，手机、平板电脑或计算机等设备。如图3所示，包括如下步骤：

步骤301，提取图像中的人体特征数据。

步骤301可以通过图1中的特征提取模块12执行。特征提取模块12可以执行基于人体图像和/或视频集合训练而得到的特征提取模型对应的计算流程。在本实施例中，将步骤301中的图像作为特征提取模块12的输入，经过特征提取模块12提取出人体特征数据作为输出。

其中，用于提取人体特征数据的图像可以为单独的图像，也可以为视频中的一帧图像，还可以为分割处理后的图像等等。例如，在执行步骤301之前，可以先通过图1中的人体检测模块11对视频或图像中的人体区域进行检测，再将检测出的人体区域分割为单人图像所在的区域作为特征提取模块12的输入。具体可以基于Mask R-CNN对图像或视频中可能存在的人体区域进行检测并判断，对特征不符合人体特征规律的不合理的区域进行抑制，然后得到相对可靠的人体区域，并将该人体区域划分为单人所在的区域。

其中，提取出的人体特征数据为与人体相关的特征数据，具体来讲，人体特征数据可以包括下述一种或多种的组合：描述人体的全局结构信息的数据，描述局部人体关键点信息的数据以及描述人与环境交互信息的数据等等。

具体从图像中提取人体特征数据的方法，可以通过特征提取模块12执行深度卷积神经网络(VGG神经网络)或残差网络(ResNet)等神经网络模型来进行特征提取，例如可以如图1所示，采用多层卷积计算层来进行特征提取。随着网络中卷积层数的加深，底层特征进行组合得到较高层次的特征作为人体特征数据。当然，也可以采用其他特征提取方法，例如，采用特征提取模块12中的支持向量机等进行特征提取，在此不作限制。

步骤302，将所述人体特征数据分别输入第一卷积层和第二卷积层，通过所述第一卷积层估计人体关键点的位置数据，通过所述第二卷积层估计所述人体关键点的偏移量数据，其中，所述人体关键点为所述人体特征数据表征的人体的关键部位成像点；

上述步骤302可以通过图1中预测模块13的位置数据预测单元132和偏移量数据预测单元133执行。人体特征数据分别输入图2所示的预测模块13中的位置数据预测单元132和偏移量数据预测单元133。位置数据预测单元132可以执行基于人体特征数据集合训练而得到的模型对应的计算流程，该模型具体由带有多个卷积核的第一卷积层组成。在本实施例中，将步骤301中经过特征提取模块12提取出的人体特征数据作为位置数据预测单元132的输入，经过位置数据预测单元132合理上采样预测出关键点的位置数据作为位置数据预测单元132的输出。偏移量数据预测单元133可以执行基于人体特征数据集合训练而得到的模型对应的计算流程，该模型具体由带有多个卷积核的第二卷积层组成。在本实施例中，将步骤301中经过特征提取模块12提取出的人体特征数据作为偏移量数据预测单元133的输入，经过偏移量数据预测单元133合理上采样预测出关键点的偏移量数据作为偏移量数据预测单元133的输出。

其中，人体关键点为预先设置的人体关键部位的成像点，通常可以设置人体关键点包含头部、颈部、肩部、肘部、手掌部、臀部、膝关节和脚部等部位的中心点或轮廓顶点。位置数据预测单元132预测出的位置数据为上述人体关键点的粗略坐标或坐标区间数据。偏移量数据预测单元133预测出的偏移量数据为位置数据预测单元132预测的位置数据相对于图像中的真实人体关键点的成像点的偏移量。即偏移量数据位置数据预测单元132预测的偏移量数据是用于对粗略的位置数据的精准矫正，从而提高后续输出的关键点坐标的准确度和精确度。

步骤303，融合所述位置数据和所述偏移量数据，以获得所述人体关键点的坐标数据，并根据所述坐标数据确定所述图像中的人体姿态。

上述步骤303可以通过图1中预测模块13的融合单元134执行。在本实施例中，将步骤302中预测的关键点位置数据和偏移量数据作为融合单元134的输入，经过融合单元134的计算输出准确的人体关键点的坐标数据。

其中，获得的人体关键点的坐标数据即为最终确定的人体关键点的准确坐标。根据各人体关键点的准确坐标就能够确定该图像中的人体姿态，具体的人体姿态确定方法可以采用机器学习算法或姿态图像匹配算法等。

本实施例通过设置两个卷积层来分别预测位置数据和偏移量数据，并将位置数据和偏移量数据进行融合来获得关键点坐标，即以偏移量数据来修正位置数据能提高确定出的关键点的坐标数据的准确性，从而提高基于关键点坐标数据进行的人体姿态估计的准确性。进一步，由于偏移量数据提供的修正作用，即使由于网络带宽较小的限制导致预测出的位置数据不准确，也能通过偏移量数据对关键点的位置数据进行修正，从而获得精确度较高的关键点坐标，解决输出精确度对带宽要求高的问题。

考虑到进一步提高预测模块13的输入分辨率，以提高输出结果的精确度，本申请如图4所示，在上述图3所示实施例的基础上，设置步骤302中的将人体特征数据分别输入第一卷积层和第二卷积层，可包括如下步骤：

步骤3021，采用转置卷积对所述人体特征数据进行放大。

步骤3022，将放大后的人体特征数据分别输入第一卷积层和第二卷积层。

具体来讲，随着图像或视频复杂度的增加，特征提取模块12中的网络卷积层数也需要加深，底层特征进行组合得到较高层次的特征，每加深一层输出分辨率也在不断降低，通道数不断增加。为了适当提高后续预测模块13的输入分辨率，本实施例采用转置卷积对特征提取模块12输出的人体特征数据进行放大后，再分别输入位置数据预测单元132和偏移量数据预测单元133进行预测，以提高预测结果的精确度，能够在强光源，密集人群遮挡，人体多尺度等各种复杂场景下获得较好的预测准确度。

上述步骤3021和步骤3022可以通过图1中预测模块13的放大单元131执行。放大单元131的输入为特征提取模块12提取出的人体特征数据，输出为放大后的人体特征数据。

在步骤3021中，考虑到人体特征数据往往为特征向量形式，故采用转置卷积对人体特征数据上采样以获得长和宽更大的特征向量。举例来讲，假设特征提取模块12提取出的人体特征数据为4*4的特征向量矩阵，设置放大单元131可以执行两个转置卷积对应的计算流程，则通过转置卷积可将人体特征数据放大4倍，输出16*16的特征向量矩阵作为放大后的人体特征数据。当然，具体实施过程中，可以根据需要放大的倍数设置放大单元131执行的转置卷积的数量，在此不作限制。

在步骤3022中，通过位置数据预测单元132来执行第一卷积层的卷积计算流程，通过偏移量数据预测单元133来执行第二卷积层的卷积计算流程。

可见，通过放大单元131对人体特征数据放大后再进行位置数据和偏移量数据的预测，能显著提高位置数据预测单元132和偏移量数据预测单元133的输入分辨率，从而保证其输出数据的精确性。

进一步，考虑到提高预测的位置数据和偏移量数据的精确性，本申请在上述图3所示实施例的基础上，设置步骤302中的第一卷积层的卷积核数量为N，N为预设的人体关键点的数量，其中，第一卷积层的N个卷积核与预设的N个人体关键点一一对应；还设置第二卷积层的卷积核数量为N组，其中，第二卷积层中的N组卷积核与第一卷积层的N个卷积核一一对应。较优的，可以设置第二卷积层中的每组卷积核包括两个卷积核，分别预测X轴方向和Y轴方向的偏移量数据。

具体来讲，第一卷积层(通过位置数据预测单元132来执行第一卷积层的卷积计算流程)中的一个卷积核对应预设的一个关键点。举例来讲，假设人体关键点有两个头部关键点、一个颈部关键点、两个肩部关键点、两个肘部、两个手部关键点、两个腰部关键点、两个臀部关键点、两个膝关节关键点和两个脚部关键点，共17个关键点。则第一卷积层的每个卷积核对应一个关键点，共设置17个卷积核。其中，每个卷积核的具体数值基于其对应的人体关键点的图像集合训练而得到。例如，颈部关键点对应的卷积核的数值根据包含颈部的图像集合训练来得到。人体特征数据输入第一卷积层后，通过不同卷积核的卷积计算分别预测出对应的人体关键点的位置数据。例如，与17个人体关键点一一对应的17个卷积核的卷积中，与头部两个关键点对应的两个卷积核的卷积输出头部两个关键点的位置数据，与颈部关键点对应的卷积核的卷积输出颈部关键点的位置数据。

较优的，可设置上述位置数据为人体关键点的坐标的置信图，置信图包括预测的该人体关键点的坐标，以及置信图中每个坐标的置信度。即每一个关键点对应的卷积会预测一个L_k∈R_W*H的置信图，其中，W和H分别表示输出的置信图的宽和高，R为输出的置信图L_k的有效区域半径，k为关键点的标号。

具体来讲，第二卷积层中的一组卷积核对应预设的一个关键点，也就是说，一个关键点与第一卷积层中的一个卷积核以及第二卷积层中的一组卷积核三者互相对应，其中，可通过偏移量数据预测单元133执行第二卷积层对应的卷积计算流程。举例来讲，同样假设人体有上述17个关键点，则第二卷积层的每组卷积核对应一个关键点，共设置17组卷积核。其中，每组卷积核的具体数值基于其对应的人体关键点的图像集合训练而得到。例如，颈部关键点对应的一组卷积核的数值根据包含颈部的图像集合训练来得到。人体特征数据输入第二卷积层后，通过不同组卷积核的卷积分别预测出其对应的第一卷积层中的卷积核输出的该关键点的位置数据与真实关键点所处坐标之间的偏移量。

较优的，可以设置第二卷积层中每组卷积核有两个卷积核，分别用于预测X轴方向上的偏移量O_kx和Y轴方向上的偏移量O_ky。

举例来讲，假设预设17个关键点a1(头部一)，a2(头部二)，a3(颈部)……a17(脚部二)；人体特征数据输入第一卷积层的17个卷积核后分别输出L₁，L₂，L₃……L₁₇；人体特征数据输入第二卷积层的34个卷积核后分别输出O_1x，O_2x，O_3x……O_17x和O_1Y，O_2Y，O_3Y……O_17Y。其中，L₁为预测出的关键点a1的位置数据，O_1x为预测出的L₁与真实的关键点a1的坐标在X轴方向的偏移量数据，O_1Y为预测出的L₁与真实的关键点a1的坐标在Y轴方向的偏移量数据。

具体来讲，偏移量数据可以辅助位置数据预测单元132预测的关键点位置数据的修正，以期预测的位置数据更接近真实位置坐标。预测的位置数据则可以帮助偏移量数据的预测更关注于有效区域，提高偏移量数据预测单元133的学习能力。也就是说，位置数据预测单元132预测的位置数据是一个粗略位置数据，偏移量数据预测单元133预测的偏移量数据是对粗略位置数据的精准矫正，达到比较高的精度。

在本申请实施例中，融合位置数据和偏移量数据的方法可以有多种。例如，当位置数据为关键点的初始坐标时，可以以初始坐标加上偏移量数据作为融合后的坐标数据。在一种较优的实施方式中，如图5所示，在上述图3所示实施例的基础上，设置位置数据为人体关键点的坐标的置信图，而步骤303中的融合所述位置数据和所述偏移量数据，可包括如下步骤：

步骤3031，以置信图中置信度最高的点的坐标作为初始坐标；

步骤3032，以偏移量数据修正所述初始坐标，获得所述人体关键点的坐标数据。

可以通过图1中预测模块13的融合单元134执行上述步骤3031和步骤3032。融合单元134的输入为位置数据预测单元132和偏移量数据预测单元133输出的位置数据和偏移量数据，融合单元134的输出为融合后的关键点的坐标数据。

在步骤3031中，采用置信图作为位置数据预测单元132的输出，即输出的位置数据为置信图格式，其中，该置信图包括预测的关键点可能的坐标，及每个坐标的置信度，每个坐标的置信度表征该坐标为关键点的真实坐标的概率。本实施例中以置信度最高的点的坐标作为初始坐标，即假设置信图中置信度最高的点记作(T_w,T_h)，则以(T_w,T_h)＝argmax(L_k),k＝1,2,…,K作为初始坐标，argmax为置信度最大点。

举例来讲，同样采用上述例子中的关键点划分方式，第一卷积层中颈部关键点a3对应的卷积核输出的颈部关键点位置数据为L₃∈R_W*H，以(T_w,T_h)＝argmax(L₃)作为颈部关键点a3的初始坐标。

当然，在具体实施过程中，初始坐标的确定不限于上述方式，还可以采用置信度作为每个坐标的权重来计算出置信图L_k中的中值坐标，以中值坐标作为初始坐标，在此不作限制。

在步骤3032中，以偏移量数据修正所述初始坐标的方式可以有多种，例如，颈部关键点a3的初始坐标为(T_w,T_h)，颈部关键点a3对应的第二卷积层输出的偏移量数据为O_3x和O_3Y，则以(T_w+O_3X,T_h+O_3Y)作为修正后的颈部关键点a3的坐标数据。

较优的，可以设置偏移量数据为除以置信图有效区域半径进行分辨率调节后，获得的与置信图分辨率相同的数据，此时，以偏移量数据修正初始坐标，包括：以偏移量数据与置信图有效区域半径的乘积作为修正项，以初始坐标加上修正项的和作为人体关键点的坐标数据。

具体来讲，为了使偏移量数据预测单元133执行的第二卷积层对应的卷积运算能更快的收敛，提高整个系统的预测效率，可以预先对偏移量数据进行处理，将偏移量数据除以置信图有效区域半径进行分辨率调节使O_kx和O_ky具有和L_k相同的分辨率。这种情况下，在融合位置数据和偏移量数据的步骤中，采用公式

来获得人体关键点的坐标数据。其中，(F_X,F_y)即为最终计算出的人体关键点的坐标数据，T_w为初始坐标的X轴坐标,T_h为初始坐标的Y轴坐标，

为(T_w,T_h)对应的X轴偏移量，

为(T_w,T_h)对应的Y轴偏移量，R为置信图有效区域半径。

考虑到进一步提高输出结果的精确度，本申请如图6所示，在上述图3所示实施例的基础上，设置步骤302估计出人体关键点的位置数据和偏移量数据之后，可包括如下步骤：

步骤601，根据所述位置数据和/或所述偏移量数据，采用梯度反向传播方法反馈修正所述人体特征数据。

具体来讲，如果第二卷积层预测出的偏移量数据比较大，那么说明第一卷积层输出的粗略位置数据的偏差很大，可以通过偏移量数据来帮助第一卷积层找到最合适的位置数据。如果第一卷积层预测的位置数据合适，则第二卷积层偏移量数据的预测就应该在真实点的附近预测一个较小值，这样偏移量数据的预测计算量就会比较小。也就是说，位置数据或偏移量数据越准确则对另一个数据是预测也会相应准确或高效。

故为了提高位置数据和/或偏移量数据的预测精确度，可以采用梯度反向传播方法将预测的位置数据和/或偏移量数据反馈至特征提取模块12，以修正提取出的人体特征数据，使得提取出的人体特征数据输入预测模块13后，能获得精确度更高的位置数据和/或偏移量数据，从而获得更接近真实位置的关键点坐标数据。具体来讲，可以持续以预测模块13输出的位置数据和/或偏移量数据对特征提取模块12进行反馈，直至相邻两次获得的偏移量数据不再减小为止。

本实施例提供的姿态估计方法、装置、介质及设备，在提取出人体特征数据后，分两个卷积层分支，一个估计出关键点的位置数据，一个估计出关键点的偏移量数据，再对这两个数据进行融合来确定出关键点的坐标数据。通过将位置数据和偏移量数据进行结合来提高确定出的关键点的坐标数据的准确性，从而提高基于关键点坐标数据进行的人体姿态估计的准确性。进一步，两个卷积层分支的结合有效降低了对网络带宽的要求。通过预测偏移量数据，可以在位置数据占用网络带宽较小的情况下，对关键点的坐标数据进行修正，从而减少输出精确度对带宽要求高的问题。

示例性装置

基于同一发明构思，本申请实施例还提供一种姿态估计装置，如图7所示，该装置包括：

提取模块701，用于提取图像中的人体特征数据；

估计模块702，用于将所述人体特征数据分别输入第一卷积层和第二卷积层，通过所述第一卷积层估计人体关键点的位置数据，通过所述第二卷积层估计所述人体关键点的偏移量数据，其中，所述人体关键点为所述人体特征数据表征的人体的关键部位成像点；

融合模块703，用于融合所述位置数据和所述偏移量数据，以获得所述人体关键点的坐标数据，并根据所述坐标数据确定所述图像中的人体姿态。

其中，估计模块702，如图8所示，包括：

转置单元7021，采用转置卷积对所述人体特征数据进行放大；

输入单元7022，将放大后的所述人体特征数据分别输入所述第一卷积层和所述第二卷积层。

其中，估计模块702中的第一卷积层的卷积核数量为N，N为预设的人体关键点的数量，其中，第一卷积层的N个卷积核与预设的N个人体关键点一一对应；

第二卷积层的卷积核数量为N组，其中，第二卷积层中的N组卷积核与第一卷积层的N个卷积核一一对应。

其中，姿态估计装置如图9所示，还包括：

反馈单元901，根据所述位置数据和/或所述偏移量数据，采用梯度反向传播方法反馈修正所述人体特征数据。

其中，当位置数据为人体关键点的坐标的置信图时，融合模块703，如图10所示，包括：

初始单元7031，以所述置信图中置信度最高的点的坐标作为初始坐标；

获得单元7032，以所述偏移量数据修正所述初始坐标，获得所述人体关键点的坐标数据。

其中，所述偏移量数据为除以所述置信图有效区域半径进行分辨率调节后，获得的与所述置信图分辨率相同的数据。此时，获得单元7032还用于：以所述偏移量数据与所述置信图有效区域半径的乘积作为修正项，以所述初始坐标加上所述修正项的和作为所述人体关键点的坐标数据。

示例性电子设备

下面，参考图11来描述根据本申请实施例的电子设备。

图11图示了根据本申请实施例的电子设备的框图。

如图11所示，电子设备1101包括一个或多个处理器1102和存储器1103。

处理器1102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1101中的其他组件以执行期望的功能。

存储器1103可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1102可以运行所述程序指令，以实现上文所述的本申请的各个实施例的姿态估计方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备1101还可以包括：输入装置1104和输出装置1105，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置1104可以是麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置1104可以是通信网络连接器，用于接收所采集的输入信号。

此外，该输入装置1104还可以包括例如键盘、鼠标等等。

该输出装置1104可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置1105可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图11中仅示出了该电子设备1101中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1101还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的姿态估计方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的姿态估计方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种姿态估计方法，包括：

提取图像中的人体特征数据；

2.如权利要求1所述的方法，其中，所述将所述人体特征数据分别输入第一卷积层和第二卷积层，包括：

采用转置卷积对所述人体特征数据进行放大；

将放大后的所述人体特征数据分别输入所述第一卷积层和所述第二卷积层。

3.如权利要求1所述的方法，其中，所述位置数据包括：所述人体关键点的坐标的置信图，和所述置信图中每个坐标的置信度。

4.如权利要求1所述的方法，其中：

所述第一卷积层的卷积核数量为N，N为预设的所述人体关键点的数量，其中，所述第一卷积层的N个卷积核与预设的N个所述人体关键点一一对应；

所述第二卷积层的卷积核数量为N组，其中，所述第二卷积层中的N组卷积核与所述第一卷积层的N个卷积核一一对应。

5.如权利要求1所述的方法，还包括：

根据所述位置数据和/或所述偏移量数据，采用梯度反向传播方法反馈修正所述人体特征数据。

6.如权利要求1所述的方法，其中，所述位置数据为所述人体关键点的坐标的置信图，所述融合所述位置数据和所述偏移量数据，包括：

以所述置信图中置信度最高的点的坐标作为初始坐标；

以所述偏移量数据修正所述初始坐标，获得所述人体关键点的坐标数据。

7.如权利要求6所述的方法，其中，所述偏移量数据为除以所述置信图有效区域半径进行分辨率调节后，获得的与所述置信图分辨率相同的数据；

所述以所述偏移量数据修正所述初始坐标，包括：

以所述偏移量数据与所述置信图有效区域半径的乘积作为修正项，以所述初始坐标加上所述修正项的和作为所述人体关键点的坐标数据。

8.一种姿态估计装置，包括：

提取模块，用于提取图像中的人体特征数据；

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的姿态估计方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-7任一所述的姿态估计方法。