CN113822097B

CN113822097B - 单视角人体姿态识别方法、装置、电子设备和存储介质

Info

Publication number: CN113822097B
Application number: CN202010558470.5A
Authority: CN
Inventors: 赵培尧; 曹炎培
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2024-01-26
Anticipated expiration: 2040-06-18
Also published as: CN113822097A

Abstract

本公开公开了一种单视角人体姿态识别方法、装置、电子设备和存储介质。用于解决相关技术中单视角的人体姿态识别结果不够准确、容易产生畸变等问题。本公开中采用神经网络估计出人体的三维姿态，并以此来设定预设目标函数的初值，完成对预设目标函数的求解优化，然后根据求和优化结果得到人体三维姿态。也即本公开提供了一种能够将神经网络识别人体姿态和解优化的方法识别人体姿态进行结合的方法。基于此，能够得到更为准确的人体姿态识别结果。

Description

单视角人体姿态识别方法、装置、电子设备和存储介质

技术领域

本公开涉及图像处理技术领域，特别涉及一种单视角人体姿态识别方法、装置、电子设备和存储介质。

背景技术

动作捕捉是虚拟内容生产的重要环节，传统动作捕捉技术如光学动作捕捉、运动传感器动作捕捉等技术的成本较高。近年来，基于单张图片或单个视频的单视角动作捕捉技术发展较快，通过手机、相机等便携式设备对人体动作进行采集，重建出人体三维姿态，用于后期的多媒体制作等。故此，单视角动作捕捉技术有效地降低了虚拟内容生产成本。

目前，单视角动作捕捉方法主要分为两类：

1、基于神经网络的方法，通过标注数据训练神经网络从单张图片或单个视频中预测人体三维姿态。通过大量标注数据训练神经网络方法一般能够预测出大致正确的三维姿态，但在估计精度上，特别是和二维图片内容对齐的精度上往往难以满足需求。当部分肢体姿态估计错误时，也通常难以修正。此外，神经网络方法也难以处理拍摄设备焦距、相机畸变等因素造成的影响。

2、基于优化的方法，通过构造预设目标函数并求解预设目标函数最小化问题获得人体三维姿态估计结果。常用的预设目标函数包括人体三维关键点投影到图片后的位置和人体二维关键点的差异、人体三维姿态的先验约束等。此类方法的优点是估计得到的三维姿态和二维图片内容对齐精度高，易于处理拍摄设备焦距、相机畸变等因素的影响。然而由于优化问题的非凸性，很容易获得错误的估计结果。

发明内容

本公开的目的是提供一种单视角人体姿态识别方法、装置、电子设备和存储介质，用于解决相关技术中基于神经网络的方法在估计精度上无法满足需求，也难以处理拍摄设备焦距、相机畸变等因素造成的影响，以及基于优化的方法由于优化问题的非凸性，很容易获得错误的估计结果的问题。

第一方面，本公开实施例提供了一种单视角人体姿态识别方法，包括：

获取目标图像中的人体图像区域；

对所述人体图像区域分别进行三维姿态估计和二维人体关键点识别，得到三维人体姿态参数和二维关键点位置信息；

将所述三维人体姿态参数设定为预设目标函数的初值，根据所述二维关键点位置信息对所述预设目标函数进行求解优化，得到人体三维姿态的识别结果。

可选的，所述三维人体姿态参数包括关节旋转参数、人体体态参数、人体大小参数和表示人体在所述图像区域中的位置参数；其中，所述人体体态参数用于表示人体的体态特征；

所述将所述三维人体姿态参数设定为预设目标函数的初值，包括：

将所述人体大小参数和所述位置参数作为预设转换函数的输入参数，得到指定人体位置在相机坐标系下的三维位置坐标，其中所述指定人体位置用于表示人体中心点的位置；

将所述指定人体位置在相机坐标系下的三维位置坐标、以及所述关节旋转参数和所述人体体态参数设定为所述预设目标函数的初值。

可选的，所述二维关键点位置信息中包括多个二维人体关键点位置以及各所述二维人体关键点位置分别对应的置信度，所述对所述人体图像区域分别进行三维姿态估计和二维人体关键点识别，得到三维人体姿态参数和二维关键点位置信息之后，所述方法还包括：

根据各所述二维人体关键点位置的置信度确定各所述二维人体关键点位置的调整因子；所述调整因子用于调整所述三维人体姿态参数对应的多个三维人体关键点在二维空间的投影和所述多个二维人体关键点位置之间的位置差异度；

其中，第一类二维人体关键点的调整因子大于第二类二维人体关键点的调整因子，其中，所述置信度大于预设置信度的所述二维人体关键点位置为所述第一类二维人体关键点，所述置信度小于或等于所述预设置信度的所述二维人体关键点位置为所述第二类人体关键点。

可选的，所述预设目标函数中，包括用于表示所述三维人体姿态和二维人体姿态之间的姿态差别的函数项，且所述函数项为：

E_data＝w_2D·‖K·J_3D(θ,β,r)-J_2D‖²

其中，E_data表示所述姿态差别，w_2D表示各所述二维人体关键点位置的调整因子构成的调整矩阵，K表示相机投影矩阵；J_3D(θ,β,r)表示三维人体关键点；J_2D表示所述二维人体关键点位置。

可选的，所述预设转换函数是基于预设条件确定的，所述预设条件为保持第一人体位置信息和第二人体位置信息一致；

所述第一人体位置信息为将所述三维人体姿态参数对应的多个三维人体关键点投射到图像坐标系中得到的位置信息；

所述第二人体位置信息为所述目标图像的人体在相机坐标系中的位置信息投射到所述图像坐标系中的位置信息。

可选的，所述预设转换函数为：

其中：(r_x0，r_y0，r_z0)表示所述指定人体位置的三维位置坐标；W为所述人体图像区域的宽度或长度；(b_x,b_y)表示所述人体图像区域的左上角在所述目标图像中的坐标；(c_x,c_y)为所述目标图像的中心坐标；f为所述目标图像的拍摄焦距；s表示人体大小参数、(p_x,p_y)表示人体在所述图像区域中的位置参数。

可选的，所述预设目标函数为多个函数项的加权求和结果，其中，每个函数项代表一种约束条件；

所述约束条件中包括用于表示所述三维人体姿态和二维人体姿态之间的姿态差别的函数项以及以下中的至少一种：

所述关节旋转参数的估计值与所述关节旋转参数的差异度、所述人体体态参数的估计值与所述人体体态参数的差异度、先验约束条件和适用于视频的时域约束目标函数；

其中，所述先验约束条件是根据人体动作的自然规律得到的。

可选的，当所述目标图像为视频中的一帧图像时，所述时域约束目标函数为所述目标图像与上一帧图像之间的三维关键点之间的位置差异度。

第二方面，本公开还提供一种单视角人体姿态识别装置，所述装置包括：

获取模块，被配置为执行获取目标图像中的人体图像区域：

识别模块，被配置为执行对所述人体图像区域分别进行三维姿态估计和二维人体关键点识别，得到三维人体姿态参数和二维关键点位置信息；

估计模块，被配置为执行将所述三维人体姿态参数设定为预设目标函数的初值，根据所述二维关键点位置信息对所述预设目标函数进行求解优化，得到人体三维姿态的识别结果。

所述估计模块，被配置为执行将所述人体大小参数和所述位置参数作为预设转换函数的输入参数，得到指定人体位置在相机坐标系下的三维位置坐标，其中所述指定人体位置用于表示人体中心点的位置；

可选的，所述二维关键点位置信息中包括多个二维人体关键点位置以及各所述二维人体关键点位置分别对应的置信度；所述装置还包括：

优化模块，被配置为在对所述人体图像区域分别进行三维姿态估计和二维人体关键点识别，得到三维人体姿态参数和二维关键点位置信息之后，执行根据各所述二维人体关键点位置的置信度确定各所述二维人体关键点位置的调整因子；所述调整因子用于调整所述三维人体姿态参数对应的多个三维人体关键点在二维空间的投影和所述多个二维人体关键点位置之间的位置差异度；

E_data＝w_2D·‖K·J_3D(θ,β,r)-J_2D‖²

可选的，所述预设转换函数为：

第三方面，本公开另一实施例还提供了一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器能够执行本公开实施例提供的任一单视角人体姿态识别方法。

第四方面，本公开另一实施例还提供了非临时性计算机可读存储介质，其中，所述存储介质中的指令由所述电子设备的处理器执行时，使得所述电子设备执行本公开实施例中的任一单视角人体姿态识别方法。

本公开实施例，本公开公开了一种单视角人体姿态识别方法、装置、电子设备和存储介质。用于解决相关技术中单视角的人体姿态识别不够准确的问题。本公开中采用神经网络估计出人体的三维姿态，并以此来设定预设目标函数的初值，完成对预设目标函数的求解优化，然后根据求和优化结果得到人体三维姿态。也即本公开提供了一种能够将神经网络识别人体姿态和解优化的方法识别人体姿态进行结合的方法。基于此，能够得到更为准确的人体姿态识别结果。

本公开的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开一个实施例的应用环境的示意图；

图2为根据本公开一个实施例的单视角人体姿态识别的流程框图；

图3为根据本公开一个实施例的单视角人体姿态识别的流程图；

图4为根据本公开一个实施例的单视角人体姿态识别的流程图；

图5为根据本公开一个实施例的单视角人体姿态识别装置的示意图；

图6为根据本公开一个实施例的电子设备的示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1为根据本公开一个实施例的应用环境的示意图。

如图1所示，该应用环境中例如可以包括至少一个服务器20和多个终端设备30。其中，各终端设备30可用来进行网络访问的任何合适的电子设备，包括但不限于计算机、笔记本电脑、智能电话、平板电脑或是其它类型的终端。服务器20则是能够通过网络访问提供交互服务的任何服务器。终端设备30可以经由网络40实现与服务器20的信息收发，例如从服务器20下载魔法表情包，通过检测人体姿态对魔法表情中的虚拟对象进行控制。服务器20可以通过访问数据库50来获取并提供终端设备30所需的内容，例如拍摄类应用软件、多媒体资源等。终端设备之间(例如，30_1与30_2或30_N之间)也可以经由网络40彼此通信。网络40可以是广义上的用于信息传递的网络，可以包括一个或多个通信网络，诸如无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等。

在随后的描述中仅就单个服务器或终端设备加以详述，但是本领域技术人员应当理解的是，示出的单个服务器20、终端设备30和数据库50旨在表示本公开的技术方案涉及终端设备、服务器及数据库的操作。对单个终端设备以及单个服务器和数据库加以详述至少为了说明方便，而非暗示对终端设备和服务器的类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本公开的示例实施例的底层概念。另外，虽然为了方便说明而在图中示出了从数据库50到服务器20的双向箭头，但本领域技术人员可以理解的是，上述数据的收发也是可以通过网络40实现的。

发明人研究发现，当解优化的初值设置不当时，很容易获得错误的估计结果。故此，本公开实施例中为了提单视角动作捕捉方法中人体三维姿态估计的精度和合理性，提出了传统神经网络方法和解优化方法进行结合的方案。实施时，通过本公开提供的方案，能够通过合理设置解优化的预设目标函数的初值，提高解优化的预设目标函数的方案识别三维姿态的准确性。

为便于理解本公开实施例提供的技术方案，这里先对涉及的一些知识名词进行简单说明。

SMPL(Skinned Multi-Person Linear)模型：一种描述人体三维姿态的模型。该模型描述人体三维网格M(θ,β,r)，其中θ是长度为72的向量，表示模型中24个关节旋转的轴角，在本公开中称为关节旋转参数；β是长度为10的向量，表示blendshape系数(本公开中称为人体体态参数)，用于描述人的高矮胖瘦等体态特征信息；r＝[r_x,r_y,r_z]表示相机坐标系中模型根节点的三维坐标。在本公开实施例中，根节点可称之为人体中心点位置。三维网格M(θ,β,r)包含6890个顶点，用6890×3大小的矩阵描述。

此外，定义与2D人体关键点对应的K个3D人体关键点，3D人体关键点的位置表示为J_3D(θ,β,r)＝T·M(θ,β,r)，其中J_3D(θ,β,r)为K×3大小的矩阵，T表示从三维网格顶点到3D关键点的回归矩阵，大小为K×6890。

如图2所示，为本公开实施例中提供的单视角人体姿态识别方法的发明构思图。本公开中首先对输入的原始图片进行人体目标检测，得到人体图像区域，然后将人体图像区域分别输入到2D(dimension)关键点检测网络以及3D姿态估计网络，以进行二维人体关键点识别和三维姿态估计。

通过二维人体关键点识别可得到2D关键点位置信息，三维姿态估计可得到三维人体姿态参数。并以此三维人体姿态参数来设定预设目标函数的初值，然后通过求解优化预设目标函数，估计出更为准确的人体三维姿态作为识别结果。

在实施时，可以由终端设备独自完成本公开实施例提供的单视角人体姿态识别方法。也可以由图1所示的应用场景中的终端设备和服务器协作来完成本公开实施例提供的单视角人体姿态识别方法。例如终端设备的处理能力有限时，可由终端设备采集原始图像，然后通过网络传输给服务器，由服务器对原始图像进行识别和处理得到三维人体姿态的估计结果，并返回给终端设备。以便于终端设备根据三维人体姿态的估计结果对虚拟对象进行控制。

为便于理解，下面进一步结合附图，对本公开实施例提供的单视角人体姿态识别方法进行说明，如图3所示，可包括以下步骤：

步骤301：获取目标图像中的人体图像区域。

在一些实施例中，类似前文所述，可通过对输入的原始图像进行人体目标检测，来获取原始图像中的检测框，然后从目标图像中裁剪出检测框，得到人体图像区域。当然，实施时，为了满足三维姿态估计和二维人体关键点识别对图像尺寸的要求，人体图像区域还可以进一步进行缩放。

步骤302：对所述人体图像区域分别进行三维姿态估计和二维人体关键点识别，得到三维人体姿态参数和二维关键点位置信息。

其中，所述三维人体姿态参数中包括关节旋转参数θ、人体体态参数β、人体大小参数s、表示人体在所述图像区域中的位置参数p。

在一些实施例中，预设目标函数中一般有三个待估计参数，分别为关节旋转参数θ、人体体态参数β以及根节点r。其中，三维姿态估计出的关节旋转参数θ、人体体态参数β可用于作为相应待估计参数的初值。r值可以预设为默认值。本公开中，为了能够合理设置根节点r的初值，r值可以参照三维人体姿态参数来确定。例如，可以预先构建预设转换函数，将所述人体大小参数和所述位置参数作为预设转换函数的输入参数得到r值的初值。

所述预设转换函数是基于预设条件确定的，所述预设条件基于实际人体在相机中的位置、以及三维识别模型识别的三维人体姿态对应的三维关键点和图像中人体位置之间的关系设置的，该预设条件用于保持第一人体位置信息和第二人体位置信息一致；

所述第一人体位置信息为将所述三维人体姿态参数对应的多个三维人体关键点投射到图像坐标系中得到的位置信息；其中：可以通过弱投影的方法将所述三维人体姿态参数对应的多个三维人体关键点投射到图像坐标系中得到的位置信息；

实施时，所述预设转换函数可表示为公式(1)所示：

由上述方法，确定各个待估计参数的初值以后，在步骤302中，可以对目标函数进行求解。得到θ,β,r的估计结果。

步骤303：将所述三维人体姿态参数设定为预设目标函数的初值，根据所述二维关键点位置信息对所述预设目标函数进行求解优化，得到人体三维姿态的识别结果。

需要说明的是，设置预设目标函数的初值时，可以仅优化部分待估计参数的初值，例如，仅采用本公开提供的关节旋转参数θ、人体体态参数β以及根节点r的初值中的一部分初值。当然，也可以将将所有该估计参数的初值都进行优化。

其中，所述预设目标函数中包括用于表示所述三维人体姿态和二维人体姿态之间的姿态差别的函数项，该函数项用于表示三维人体姿态参数对应的多个三维人体关键点在二维空间的投影和所述多个二维人体关键点位置之间的位置差异度。

其中，所述三维人体关键点的三维位置表示可根据以下方法确定：

步骤A1：根据所述待估计三维位置坐标，构建人体模型中的三维网格矩阵，所述三维网格矩阵中包括所述待估计关节旋转参数、所述待估计人体体态参数以及所述待估计三维位置坐标。也即，确定出M(θ,β,r)。

步骤A2：获取所述人体模型中三维网格顶点集合到所述三维人体关键点的回归矩阵。也即，获取前文所述的回归矩阵T。

步骤A3：确定所述回归矩阵与所述三维网格矩阵的乘积，得到所述三维关键点集合的所述三维位置表示。也即，3D人体关键点的位置表示为J_3D(θ,β,r)＝T·M(θ,β,r)。

综上可知，本公开实施例中，设置的初值是用于三维姿态估计的神经网络识别的结果，而神经网络识别的结果从一定程度上是接近实际值的且能够反映人体姿态的基本情况，故此，本公开实施例中对预设目标函数的初值设置更为合理，从而能够一定程度上解决优化的方法的非凸性。由此，本公开提供了能够将基于神经网络的方法和基于优化的方法进行结合的方法来提高单视角人体姿态识别的准确性。

在一些实施例中，本公开实施例中的预设目标函数为多个函数项的加权求和结果，其中，每个函数项代表一种约束条件，所述约束条件中包括用于表示所述三维人体姿态和二维人体姿态之间的姿态差别的函数项以及以下中的至少一种：(1)所述关节旋转参数的估计值与所述关节旋转参数的差异度；(2)所述人体体态参数的估计值与所述人体体态参数的差异度；(3)先验约束条件，例如人体动作的极限，如胳膊关节的旋转仅能够在一定范围内旋转，而不能够向后弯折胳膊，故此，先验约束条件例如是人体的关节旋转方向和旋转角度要符合人体构造，即符合人体动作的自然规律。先验约束条件可以根据先验知识设定，本申请对此不作具体限定；(4)适用于视频的时域约束目标函数。

其中，在一些实施例中，关节旋转参数的估计值与所述关节旋转参数的差异度可表示为如公式(2)所示：

E_θ＝‖θ-θ₀‖² (2)

其中，E_θ表示待估计关节旋转参数与识别的所述关节旋转参数的差异度，θ表示待估计关节旋转参数；θ₀表示待估计关节旋转参数的初值，即通过三维姿态估计得到的关节旋转参数。

类似的，在一些实施例中，人体体态参数的估计值与所述人体体态参数的差异度可如公式(3)所示：

E_β＝‖β-β₀‖² (3)

其中，E_β表示与识别的所述人体体态参数的差异度，β表示待估计人体体态参数；β₀表示待估计人体体态参数的初值，即通过三维姿态估计得到的人体体态参数。

时域约束目标函数的引入是为了更加适用视频的处理需求。当输入为视频时，可以逐帧进行获取每帧图片的人体三维姿态。由于视频相邻帧之间的相关性，可以在预设目标函数中加入时域约束目标函数，使得估计的人体三维姿态更加平滑。

在一些实施例中，所述时域约束目标函数为所述目标图像与上一帧图像之间的三维关键点之间的位置差异度。实施时，时域约束目标函数约束相邻帧3D关键点位置的差别，可以表示为如公式(4)所示：

E_temporal＝‖J_3D(θ_t,β_t,r_t)-J_3D(θ_t-1,β_t-1,r_t-1)‖² (4)

其中，θ_t,β_t,r_t表示第t帧的待估计参数的估计结果，θ_t-1,β_t-1,r_t-1第t-1帧的待估计参数的估计结果。

综上而言，本公开实施例中，通过增加预设目标函数中的约束条件，使得求解的估计结果能够满足实际需求，提高估计结果的准确性。

相关技术中，采用预设目标函数求解待估计参数时，当遮挡导致人体2D关键点无法被检测到时，此类方法估计的三维人体姿态容易出现错误。本公开实施例为解决该问题，可通过配置不同2D关键点位置的贡献(如w_2D)，来弱化被遮挡的2D关键点的影响。实施时，若将裁剪后的图片输入2D关键点检测网络，获取K个2D关键点位置并将2D关键点位置换算回原输入图片坐标系，表示为J_2D。则表示所述三维人体姿态和二维人体姿态之间的姿态差别的函数项可表示为如公式(4)所示：

E_data＝w_2D·‖K·J_3D(θ,β,r)-J_2D‖² (4)

其中，为相机投影矩阵；J_3D(θ,β,r)表示三维人体关键点，w_2D为调整因子构成的调整矩阵，用于调整不同关键点对姿态差别的影响。

调整因子可以根据二维人体关键点位置信息的识别结果来确定。二维关键点位置信息中除了保护各二维人体关键点位置，还包括二维人体关键点位置分别对应的置信度。故此，实施时，调整因子可以根据置信度来确定。例如：假设置信度大于预设置信度的二维人体关键点位置为第一类二维人体关键点，置信度小于或等于所述预设置信度的所述二维人体关键点位置为第二类人体关键点。那么，第一类二维人体关键点的调整因子大于第二类二维人体关键点的调整因子。

在一些实施例中，对于置信度低于或等于预设置信度η的二维人体关键点，将其调整因子置为0；对于可信度高于预设置信度η的二维人体关键点，将其调整因子置为1。则二维人体关键点的调整矩阵表示为w_2D。

在介绍了预设目标函数可能表达的各项内容后，在另一个实施例中，不同的约束条件对估计结果的影响比重可不同。可通过配置不同约束条件的权重，可以对一些约束条件有所侧重。

综上所述，总的预设目标函数可表示为如公式(5)所示：

E＝w_dataE_data+w_θE_θ+w_βE_β+w_priorE_prior+w_temporalE_temporal (5)

其中，E_data、E_θ、E_β、E_prior、E_temporal的含义已在前文说明，这里不再赘述。E为预设目标函数值，w_data、w_θ、w_β、w_prior、w_prior均为权重系数。权重系数值可为经验值。

综上所述，本公开实施例提供的单视角人体姿态识别方法可如图4所示，包括以下步骤：

步骤401：获取目标图像中的人体图像区域。

步骤402：对人体图像区域分别进行三维姿态估计和二维人体关键点识别，得到三维人体姿态参数和二维关键点位置信息。

步骤403：根据二维人体关键点位置的置信度得到调整因子。

步骤404：将三维人体姿态参数中人体大小参数和位置参数作为预设转换函数的输入参数，得到根节点在相机坐标系下的三维位置坐标。

步骤405：将根节点在相机坐标系下的三维位置坐标、以及关节旋转参数和人体体态参数设定为预设目标函数的初值。

步骤406：根据二维关键点位置信息对预设目标函数进行求解优化，得到人体三维姿态的识别结果。

其中，预设目标函数中，采用调整因子构成的调整矩阵对表示所述三维人体姿态和二维人体姿态之间的姿态差别进行调整。

基于相同的构思，本公开实施例还提出了一种单视角人体姿态识别装置。

图5为根据本公开一个实施例的单视角人体姿态识别装置的示意图。

如图5所示，该推荐装置500可以包括：

获取模块501，被配置为执行获取目标图像中的人体图像区域：

识别模块502，被配置为执行对所述人体图像区域分别进行三维姿态估计和二维人体关键点识别，得到三维人体姿态参数和二维关键点位置信息；

估计模块503，被配置为执行将所述三维人体姿态参数设定为预设目标函数的初值，根据所述二维关键点位置信息对所述预设目标函数进行求解优化，得到人体三维姿态的识别结果。

可选的，所述三维人体姿态参数包括关节旋转参数、人体体态参数、人体大小参数和表示人体在所述图像区域中的位置参数；其中，所述人体体态参数用于表示人体的体态特征：

E_data＝w_2D·‖K·J_3D(θ,β,r)-J_2D‖²

可选的，所述预设转换函数为：

关于单视角人体姿态识别装置中各操作的实施以及有益效果可参见前文方法中的描述，此处不再赘述。

在介绍了本公开示例性实施方式的一种单视角人体姿态识别方法和装置之后，接下来，介绍根据本公开的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本公开的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本公开各种示例性实施方式的单视角人体姿态识别方法中的步骤。例如，处理器可以执行如图3-图4所示的步骤。

下面参照图6来描述根据本公开的这种实施方式的电子设备130。图6显示的电子设备130仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本公开提供的一种单视角人体姿态识别方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的一种单视角人体姿态识别方法中的步骤，例如，计算机设备可以执行如图3-图4所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本公开的实施方式的用于单视角人体姿态识别的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

本公开还提供一种非临时性计算机可读存储介质，所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备执行上述所述的任一方法。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本公开的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种单视角人体姿态识别方法，其特征在于，所述方法包括：

获取目标图像中的人体图像区域；

将所述三维人体姿态参数设定为预设目标函数的初值，根据所述二维关键点位置信息对所述预设目标函数进行求解优化，得到人体三维姿态的识别结果；

所述二维关键点位置信息中包括多个二维人体关键点位置以及各所述二维人体关键点位置分别对应的置信度，所述对所述人体图像区域分别进行三维姿态估计和二维人体关键点识别，得到三维人体姿态参数和二维关键点位置信息之后，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述三维人体姿态参数包括关节旋转参数、人体体态参数、人体大小参数和表示人体在所述图像区域中的位置参数；其中，所述人体体态参数用于表示人体的体态特征；

3.根据权利要求1所述的方法，其特征在于，所述预设目标函数中，包括用于表示所述三维人体姿态和二维人体姿态之间的姿态差别的函数项，且所述函数项为：

E_data＝w_2D·‖K·J_3D(θ,β,r)-J_2D‖²

4.根据权利要求2所述的方法，其特征在于，所述预设转换函数是基于预设条件确定的，所述预设条件为保持第一人体位置信息和第二人体位置信息一致；

5.根据权利要求4所述的方法，其特征在于，所述预设转换函数为：

6.根据权利要求2所述的方法，其特征在于，所述预设目标函数为多个函数项的加权求和结果，其中，每个函数项代表一种约束条件；

7.根据权利要求6所述的方法，其特征在于，当所述目标图像为视频中的一帧图像时，所述时域约束目标函数为所述目标图像与上一帧图像之间的三维关键点之间的位置差异度。

8.一种单视角人体姿态识别装置，其特征在于，所述装置包括：

获取模块，被配置为执行获取目标图像中的人体图像区域：

估计模块，被配置为执行将所述三维人体姿态参数设定为预设目标函数的初值，根据所述二维关键点位置信息对所述预设目标函数进行求解优化，得到人体三维姿态的识别结果；

所述二维关键点位置信息中包括多个二维人体关键点位置以及各所述二维人体关键点位置分别对应的置信度；所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述三维人体姿态参数包括关节旋转参数、人体体态参数、人体大小参数和表示人体在所述图像区域中的位置参数；其中，所述人体体态参数用于表示人体的体态特征：

10.根据权利要求8所述的装置，其特征在于，所述预设目标函数中，包括用于表示所述三维人体姿态和二维人体姿态之间的姿态差别的函数项，且所述函数项为：

E_data＝w_2D·‖K·J_3D(θ,β,r)-J_2D‖²

11.根据权利要求9所述的装置，其特征在于，所述预设转换函数是基于预设条件确定的，所述预设条件为保持第一人体位置信息和第二人体位置信息一致；

12.根据权利要求11所述的装置，其特征在于，所述预设转换函数为：

13.根据权利要求9所述的装置，其特征在于，所述预设目标函数为多个函数项的加权求和结果，其中，每个函数项代表一种约束条件；

14.根据权利要求13所述的装置，其特征在于，当所述目标图像为视频中的一帧图像时，所述时域约束目标函数为所述目标图像与上一帧图像之间的三维关键点之间的位置差异度。

15.一种电子设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任何一项所述的方法。

16.一种非临时性计算机可读存储介质，其特征在于，所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备执行权利要求1-7中任何一项所述的方法。