CN113569781A

CN113569781A - 人体姿态的获取方法、装置、电子设备及存储介质

Info

Publication number: CN113569781A
Application number: CN202110887526.6A
Authority: CN
Inventors: 周严
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-10-29

Abstract

本公开关于一种人体姿态的获取方法、装置、电子设备及存储介质，属于计算机技术领域。本公开通过在人体姿态识别时，先基于每帧人体图像获取到目标人体的关键点的二维位置信息和初始的人体姿态信息，该初始的人体姿态信息包括目标人体三维位置信息和三维网格信息，以及获取光流信息来指示相邻帧人体图像之间的像素点变化情况，再基于关键点的二维位置信息、关键点的空间分布信息、光流信息中的至少一项对该初始的人体姿态信息进行调整，也即是，对关键点的三维位置信息和三维网格信息进行调整，得到更为准确的人体姿态，提高人体姿态识别结果的准确率。

Description

人体姿态的获取方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术，尤其涉及人体姿态的获取方法、装置、电子设备及存储介质。

背景技术

人体姿态是指人体外在形态的基本表现形式，包括走路、跑步、跳跃、坐立、下蹲等，人体姿态的获取在生产生活中具有广泛应用，例如，应用在智能监控、虚拟现实、动作捕捉、自动驾驶等场景中。

目前，电子设备通常是对视频、图像中人体的关键点进行检测，得到人体的姿态信息。但是，通过这种方式所获取到的人体姿态信息通常伴随有关节抖动、人体质心漂移等噪声，即获取到的人体姿态信息并不准确，因此，如何消除人体姿态信息中的噪声，获取到更准确的人体姿态信息是一个重要研究方向。

发明内容

本公开提供一种人体姿态的获取方法、装置、电子设备及存储介质，能够提高获取到的人体姿态识别结果的准确度。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种人体姿态的获取方法，包括：

获取连续的至少两帧人体图像，该至少两帧人体图像包括目标人体；

分别对该至少两帧人体图像进行人体姿态识别，得到每帧该人体图像中该目标人体的关键点的二维位置信息、关键点的三维位置信息以及该目标人体的三维网格信息，该三维网格信息用于指示该目标人体的外形；

分别获取每帧人体图像的光流信息，每帧该人体图像的该光流信息用于指示对应人体图像与相邻帧人体图像之间的像素点变化；

基于每帧该人体图像中该关键点的二维位置信息、关键点的空间分布信息、每帧该人体图像的光流信息中的至少一项，对该关键点的三维位置信息以及该目标人体的三维网格信息进行调整，该关键点的空间分布信息基于该关键点的三维位置信息确定，调整后的该关键点的三维位置信息以及该目标人体的三维网格信息用于指示该目标人体的人体姿态。

本公开实施例提供的技术方案，通过在人体姿态识别时，先基于每帧人体图像获取到目标人体的关键点的二维位置信息和初始的人体姿态信息，该初始的人体姿态信息包括目标人体三维位置信息和三维网格信息，以及获取光流信息来指示相邻帧人体图像之间的像素点变化情况，再基于关键点的二维位置信息、关键点的空间分布信息、光流信息中的至少一项对该初始的人体姿态信息进行调整，也即是，对关键点的三维位置信息和三维网格信息进行调整，得到更为准确的人体姿态，提高人体姿态识别结果的准确率。

在一种可能实现方式中，该分别获取每帧人体图像的光流信息，包括：

分别获取每帧人体图像的初始光流信息，该初始光流信息中的每个元素用于指示相邻两帧人体图像中对应位置的像素点之间的变化信息；

基于该至少两帧人体图像的该初始光流信息，分别获取该至少两帧人体图像的该光流信息。

在本公开实施例中，通过对人体图像的初始光流信息进行进一步处理后，得到人体图像的光流信息，能够有效降低单帧人体图像的光流信息中的噪声。

在一种可能实现方式中，该分别获取每帧人体图像的初始光流信息，包括：

分别获取每帧人体图像中各个像素点对应的初始光流元素，每个初始光流元素用于指示相邻两帧人体图像中对应位置的像素点之间的变化信息；

对于任一人体图像，基于该任一人体图像中各个像素点对应的初始光流元素，确定该各个像素点对应的中间光流元素，该各个像素点对应的中间光流元素用于构成该人体图像的初始光流信息。

在本公开实施例中，通过基于光流法确定出人体图像中各个像素点对应的初始光流元素后，再对像素点的初始光流元素进行进一步处理后，获取到人体图像的初始光流信息，能够提高初始光流信息的准确度。

在一种可能实现方式中，该对于任一人体图像，基于该任一人体图像中各个像素点对应的初始光流元素，确定该各个像素点对应的中间光流元素，包括：

对于该任一人体图像中的任一像素点，在该任一人体图像中确定位于该任一像素点的邻域区域内的至少一个目标像素点；

对该任一像素点对应的初始光流元素以及该至少一个目标像素点对应的初始光流元素取平均值，得到该任一像素点对应的中间光流元素。

在本公开实施例中，通过基于某一像素点的邻域区间内多个像素点对应的初始光流元素，确定该某一像素点对应的中间光流元素，能够有效提高获取到的各个像素点的初始光流信息的准确性。

在一种可能实现方式中，该基于该至少两帧人体图像的该初始光流信息，分别获取该至少两帧人体图像的该光流信息，包括：

对于任一人体图像，在该至少两帧人体图像中确定至少一帧目标人体图像，该至少一帧目标人体图像是位于该任一人体图像之前或之后的至少一帧人体图像；

对该任一人体图像的初始光流信息、该至少一帧目标人体图像的初始光流信息取平均值，得到该任一人体图像的该光流信息。

在本公开实施例中，通过基于多帧相邻的人体图像的初始光流信息，确定单帧人体图像的光流信息，能够有效降低单帧人体图像的光流信息中的噪声，提高光流信息的准确性，在后续基于光流信息对关键点的位置信息、三维网格信息进行调整时，能够取得更好的效果。

在一种可能实现方式中，该基于每帧该人体图像中该关键点的二维位置信息、关键点的空间分布信息、每帧该人体图像的光流信息中的至少一项，对该关键点的三维位置信息以及该目标人体的三维网格信息进行调整，包括下述至少一项：

基于该关键点的三维位置信息的二维投影与该关键点的二维位置信息之间的误差，对该关键点的三维位置信息进行调整；

分别基于每帧该人体图像的光流信息，对每帧该人体图像中该关键点的三维位置信息进行调整；

分别基于每帧该人体图像的光流信息，对每帧该人体图像中目标人体的三维网格信息进行调整；

基于该关键点的空间分布信息与参考分布信息之间的误差，对该关键点的三维位置信息进行调整。

在本公开实施例中，通过从多个维度对关键点的三维位置信息、目标人体的三维网格信息进行调整，能够有效提高获取到的人体姿态的准确度。

在一种可能实现方式中，该基于该关键点的三维位置信息的二维投影与该关键点的二维位置信息之间的误差，对该关键点的三维位置信息进行调整，包括：

分别基于每帧该人体图像的光流信息，对每帧该人体图像中该关键点的二维位置信息进行调整；

基于该关键点的三维位置信息的二维投影，与调整后的该关键点的二维位置信息之间的误差，对该关键点的三维位置信息进行调整。

在公开实施例中，通过基于光流信息对关键点的二维位置信息进行调整，再基于调整后的二维位置信息对关键点的三维位置信息进行投影约束，能够有效提高关键点的三维位置信息的准确度。

在一种可能实现方式中，该分别基于每帧该人体图像的光流信息，对每帧该人体图像中该关键点的三维位置信息进行调整，包括：

基于任一人体图像的该光流信息，确定该任一人体图像相对于前一帧人体图像中各个关键点的第一变化权重；

基于该各个关键点的该第一变化权重，分别对该各个关键点的三维位置信息进行调整。

在本公开实施例中，通过应用光流信息对关键点的三维位置信息进行调整，能够有效提高关键点的三维位置信息的准确度。

在一种可能实现方式中，该分别基于每帧该人体图像的光流信息，对每帧该人体图像中目标人体的三维网格信息进行调整，包括：

基于任一人体图像的该光流信息，确定该任一人体图像相对于前一帧人体图像的三维网格信息的第二变化权重；

基于该三维网格信息的该第二变化权重，对该三维网格信息进行调整。

在本公开实施例中，通过应用光流信息对目标人体的三维网格信息进行调整，能够有效提高三维网络中各个顶点的位置的准确度。

根据本公开实施例的第二方面，提供一种人体姿态的获取装置，包括：

第一获取模块，被配置为执行获取连续的至少两帧人体图像，该至少两帧人体图像包括目标人体；

第二获取模块，被配置为执行分别对该至少两帧人体图像进行人体姿态识别，得到每帧该人体图像中该目标人体的关键点的二维位置信息、关键点的三维位置信息以及该目标人体的三维网格信息，该三维网格信息用于指示该目标人体的外形；

第三获取模块，被配置为执行分别获取每帧该人体图像的光流信息，每帧该人体图像的该光流信息用于指示对应人体图像与相邻帧人体图像之间的像素点变化；

调整模块，被配置为执行基于每帧该人体图像中该关键点的二维位置信息、关键点的空间分布信息、每帧该人体图像的光流信息中的至少一项，对该关键点的三维位置信息以及该目标人体的三维网格信息进行调整，该关键点的空间分布信息基于该关键点的三维位置信息确定，调整后的该关键点的三维位置信息以及该目标人体的三维网格信息用于指示该目标人体的人体姿态。

在一种可能实现方式中，该第三获取模块，包括：

第一获取子模块，被配置为执行分别获取每帧该人体图像的初始光流信息，该初始光流信息中的每个元素用于指示相邻两帧人体图像中对应位置的像素点之间的变化信息；

第二获取子模块，被配置为执行基于该至少两帧人体图像的该初始光流信息，分别获取该至少两帧人体图像的该光流信息。

在一种可能实现方式中，该第一获取子模块，包括：

第一获取单元，被配置为执行分别获取每帧该人体图像中各个像素点对应的初始光流元素，每个该初始光流元素用于指示相邻两帧人体图像中对应位置的像素点之间的变化信息；

第二获取单元，被配置为执行对于任一人体图像，基于该任一人体图像中各个像素点对应的初始光流元素，确定该各个像素点对应的中间光流元素，该各个像素点对应的中间光流元素用于构成该人体图像的初始光流信息。

在一种可能实现方式中，该第二获取单元，被配置为执行：

在一种可能实现方式中，该第二获取子模块，被配置为执行：

在一种可能实现方式中，该调整模块，包括下述至少一项：

第一调整子模块，被配置为执行基于该关键点的三维位置信息的二维投影与该关键点的二维位置信息之间的误差，对该关键点的三维位置信息进行调整；

第二调整子模块，被配置为执行分别基于每帧该人体图像的光流信息，对每帧该人体图像中该关键点的三维位置信息进行调整；

第三调整子模块，被配置为执行分别基于每帧该人体图像的光流信息，对每帧该人体图像中目标人体的三维网格信息进行调整；

第四调整子模块，被配置为执行基于该关键点的空间分布信息与参考分布信息之间的误差，对该关键点的三维位置信息进行调整。

在一种可能实现方式中，该第一调整子模块，被配置为执行：

在一种可能实现方式中，该第二调整子模块，被配置为执行：

在一种可能实现方式中，该第三调整子模块，被配置为执行：

根据本公开实施例的第三方面，提供一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述的人体姿态的获取方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，该计算机可读存储介质包括：当该计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得计算机可读能够执行上述的人体姿态的获取方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的人体姿态的获取方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种人体的关键点的示意图；

图2是根据一示例性实施例示出的一种人体姿态的获取方法的实施环境示意图；

图3是根据一示例性实施例示出的一种人体姿态的获取方法的流程图；

图4是根据一示例性实施例示出的一种人体姿态的获取方法的流程图；

图5是根据一示例性实施例示出的一种人体姿态获取方法的示意图；

图6是根据一示例性实施例示出的一种人体姿态示意图；

图7是根据一示例性实施例示出的一种人体姿态的获取装置框图；

图8是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所涉及的信息可以为经用户授权或者经过各方充分授权的信息。

为了便于解释本公开实施例的技术过程，下面对本公开实施例所涉及的一些名词进行解释：

三维网格(3D mesh)：一种在三维空间中表示物体的外形的数据。在三维空间中表示物体的外形时，可以应用一组多边形来表示物体的边界，以区分哪些是物体的内部，哪些是物体的外部，构造一个物体边界的一组多边形被称为“mesh(网格)”。在三维网格中多个多边形是相互连接在一起的，两个多边形会共用一条边，多边形的顶点(也称为三维网格的顶点)是物体轮廓上的点。可选的，该三维网格是三角形构成的，或者是四边形构成的，本公开实施例对此不作限定。在本公开实施例中，涉及人体的三维网格信息，也即是，通过三维网格来表示人体在三维空间的外观。

人体的关键点：包括人体的各个关节点，基于人体的关键点的位置，能够确定出人体的姿态。在一些实施例中，人体的关键点还包括人体面部的关键点，例如，包括用于指示左眼、右眼、鼻子的关键点。图1是根据一示例性实施例示出的一种人体的关键点的示意图，图1中示出了人体的25个关键点。需要说明的是，本公开实施例对具体采用哪些关键点不作限定。

图2是根据一示例性实施例示出的一种人体姿态的获取方法的实施环境示意图，如图2所示，该实施环境包括终端201和服务器202。

终端201安装和运行有支持人体姿态识别的目标应用程序，例如，该目标应用程序是视频类应用程序、购物类应用程序、图像采集类应用程序、虚拟现实(Virtual Reality，VR)类应用程序等，本公开实施例对此不作限定。示例性的，终端201能够对一段视频或一组图像中所包括的人体进行人体姿态识别。示例性的，终端201是任一用户所使用的终端，终端201中运行的目标应用程序内登录有用户账户。终端201可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能眼镜等，该终端201还可以是AR(Augmented Reality，增强现实)互动设备、VR互动设备等，本公开实施例对此不作限定。终端201可以泛指多个终端中的任一个，本公开实施例仅以终端201来举例说明。

服务器202用于为上述目标应用程序提供后台服务，能够提供人体姿态识别功能。可选的，服务器202可以是一台或多台服务器，示例性的，服务器202包括：接入服务器、人体姿态识别服务器和数据库。接入服务器用于为终端201提供接入服务；人体姿态识别服务器用于提供人体姿态识别有关的后台服务器，人体姿态识别服务器中可以设置有至少一个能够提供人体姿态识别功能的神经网络模型。示例性的，上述服务器可以是是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。

上述终端201和服务器202之间可以通过有线或无线通信方式进行直接或间接的连接，本公开实施例对此不作限定。

本公开实施例提供的技术方案，能够应用在多种应用场景中，与任一种人体姿态识别方法相结合，基于多个维度的信息对获取到的初始的人体姿态信息进行调整，以得到更准确的人体姿态，提高人体姿态识别结果的准确率。

图3是根据一示例性实施例示出的一种人体姿态的获取方法的流程图，如图3所示，该人体姿态的获取方法能够应用于上述实施环境，而上述终端和服务器均能够视为一种电子设备，在本公开实施例中，以电子设备为执行主体，对该人体姿态的获取方法进行介绍。在一种可能实现方式中，该方法包括以下步骤：

在步骤301中，电子设备获取连续的至少两帧人体图像，该至少两帧人体图像包括目标人体。

其中，该目标人体可以是真实人物形象，也可以是虚拟人物形象，本公开实施例对此不作限定。在本公开示例中，该连续的至少两帧人体图像能够呈现目标人体的人体姿态变化过程。

在步骤302中，电子设备分别对该至少两帧人体图像进行人体姿态识别，得到每帧该人体图像中该目标人体的关键点的二维位置信息、关键点的三维位置信息以及该目标人体的三维网格信息，该三维网格信息用于指示该目标人体的外形。

其中，二维位置信息用于指示关键点人体图像中的平面位置，该二维位置信息由横坐标(x轴坐标)和纵坐标(y轴坐标)表示；三维位置信息用于指示关键点的空间位置，该三维位置坐标由横坐标(x轴坐标)、纵坐标(y轴坐标)和深度坐标表示；目标人体的三维网格信息用于指示目标人体在三维空间的外观，该三维网格信息包括各个网格顶点的空间位置坐标。

在一种可能实现方式中，该电子设备中部署有能够提供人体姿态识别功能的神经网络模型，该电子设备通过神经网络模型分别对该至少两帧人体图像进行识别，得到人体图像中目标人体的关键点，输出关键点的二维位置信息、关键点的三维位置信息以及目标人体的三维网格信息。示例性的，该关键点是目标人体的关节点、五官的关键点。需要说明的是，本公开实施例对采用哪种方式进行人体姿态识别不作限定。

在步骤303中，电子设备分别获取每帧人体图像的光流信息，每帧人体图像的光流信息用于指示对应人体图像与相邻帧人体图像之间的像素点变化。

在一种可能实现方式中，电子设备基于光流法获取任意相邻两帧人体图像之间的光流信息，一帧人体图像的光流信息中的各个元素用于指示该一帧人体图像与前一帧人体图像之间对应像素点的变化信息。需要说明的是，本公开实施例对电子设备通过哪种方式获取光流信息不作限定。

在步骤304中，电子设备基于每帧人体图像中关键点的二维位置信息、关键点的空间分布信息、每帧人体图像的光流信息中的至少一项，对关键点的三维位置信息以及目标人体的三维网格信息进行调整，该关键点的空间分布信息基于关键点的三维位置信息确定，调整后的关键点的三维位置信息以及目标人体的三维网格信息用于指示该目标人体的人体姿态。

示例性的，对于任一帧人体图像，该电子设备基于关键点的二维位置信息对关键点的三维位置信息进行调整。示例性的，电子设备基于该任一帧人体图像的光流信息，确定该任一帧人体图像中关键点相对于前一帧人体图像中的关键点的位置变化幅度，从而对该任一帧人体图像中关键点的三维位置信息进行调整。示例性的，电子设备基于该任一帧人体图像的光流信息，确定该任一帧人体图像所对应的三维网格的顶点相对于前一帧人体图像所对应的三维网格的顶点的位置变化幅度，从而对该任一帧人体图像中三维网格的顶点的位置信息进行调整。示例性的，电子设备基于关键点的空间分布信息与参考空间分布信息之间的误差，对关键点的三维位置信息进行调整，其中，该参考空间分布信息由开发人员进行设置，本公开实施例对此不作限定。需要说明的是，上述对关键点的三维位置信息和目标人体的三维网格信息进行调整的方法的说明，仅是一种可能实现方式的示例性说明，上述可能实现方式可以任意组合。

上述实施例仅是对本公开实施例的简要介绍，以下结合图4，对本公开实施例的方案进行进一步阐述，图4是根据一示例性实施例示出的一种人体姿态的获取方法的流程图，参见图4，该方法包括以下步骤：

在步骤401中，电子设备获取连续的至少两帧人体图像，该至少两帧人体图像包括目标人体。

在一种可能实现方式中，电子设备响应于人体姿态识别指令，获取连续的至少两帧人体图像。该人体姿态识别指令可以由任一用户触发，本公开实施例对此不作限定。示例性的，该至少两帧人体图像是预先存储在电子设备中的一组图像，或者是通过具有图像生成功能的应用程序所生成的图像，或者是从视频中所获取的图像，或者是应用具有图像采集功能的设备在目标人体的运动过程中所连续采集的图像，本公开实施例对此不作限定。

以该连续的至少两帧人体图像是从视频中所获取的图像为例，该视频能够呈现目标人体的人体姿态变化过程，在一种可能实现方式中，该电子设备获取该视频的各个视频帧图像，作为该连续的至少两帧人体图像；或者该电子设备基于第一参考频率对该视频的视频帧图像进行抽取，将抽取出的视频帧图像作为该连续的至少两帧人体图像。其中，该第一参考频率由开发人员进行设置，本公开实施例对此不作限定。需要说明的是，该视频可以是已存储在电子设备中的视频，也可以是实时采集的视频流，本公开实施例对此不作限定。

以该连续的至少两帧人体图像是具有图像采集功能的设备在目标人体的运动过程中所连续采集的图像为例，在一种可能实现方式中，该具体图像采集功能的设备在该目标人体的运动过程中，按照第二参考频率对该目标人体进行拍摄，得到连续的至少两帧人体图像。其中，该第二参考频率由开发人员进行设置，本公开实施例对此不作限定。在一种可能实现方式中，该具有图像采集功能的设备在该目标人体的运动过程中，对该目标人体拍摄第一视频，该第一视频用于记录该目标人体在运动过程中的人体姿态变化，电子设备基于该第一视频获取该连续的至少两帧人体图像。需要说明的是，基于该第一视频获取该连续的至少两帧人体图像的过程，与上述电子设备基于视频获取该连续的至少两帧人体图像的过程同理，在此不作赘述。

以该连续的至少两帧人体图像是具有图像生成功能的应用程序所生成的图像为例，在一种可能实现方式中，该电子设备安装和运行有支持三维模型渲染的第一应用程序，该第一应用程序包括该目标人体的三维模型，电子设备控制该目标人体的三维模型运动，对该三维模型的运动过程进行录制得到第二视频，电子设备基于该第二视频获取该连续的至少两帧人体图像。需要说明的是，基于该第二视频获取该连续的至少两帧人体图像的过程，与上述电子设备基于视频获取该连续的至少两帧人体图像的过程同理，在此不作赘述。

需要说明的是，上述对人体图像获取方法的说明，仅是一种可能实现方式的示例性说明，本公开实施例对具体采用哪种方法获取连续的至少两帧人体图像不作限定。在本公开实施例中，获取连续的多帧人体图像，该连续的多帧人体图像所呈现出的人体姿态变化也具有良好的连续性，在后续对人体姿态调整过程中，便于借助于相邻帧的人体图像对某一帧人体图像的人体姿态进行调整，也即是，基于人体姿态变化过程的连续性，对各帧人体图像的人体姿态进行调整。

在步骤402中，电子设备分别对至少两帧人体图像进行人体姿态识别，得到每帧人体图像中该目标人体的关键点的二维位置信息。

在一种可能实现方式中，该电子设备上部署有第一识别模型，该第一识别模型用于对人体图像进行人体姿态识别，得到目标人体的二维人体姿态信息，该二维人体姿态信息也即是目标人体的各个关键点的二维位置信息。在一种可能实现方式中，该第一识别模型是基于卷积神经网络构建的模型，该第一识别模型包括多个卷积层能够对人体图像进行特征提取，对人体图像的图像特征进行处理得到关键点在该人体图像中的位置。示例性的，以该第一识别模型是openpose(一种人体姿态识别模型)为例，对获取一帧人体图像中关键点的二维位置信息的过程进行说明。在一种可能实现方式中，首先，电子设备通过openpose对人体图像进行特征提取，得到人体图像的特征图；然后，电子设备通过openpose中的两个数据处理分支分别对特征图进行处理，示例性的，电子设备通过第一数据处理分支对特征图进行进一步卷积处理，得到关节点置信图(Part Confidence Maps，PCM)，该关节点置信图用于指示人体图像中各个像素点对应的高斯响应，距离关键点越近的像素点所对应高斯响应的数值越大，距离关键点越远的像素点所对应的高斯响应的数值越小；电子设备通过第二数据处理分支对特征图进行进一步卷积处理，得到关节亲和场(Part AffinityFields，PAF)，该关节亲和场用于指示骨架位置和方向，能够体现两两关键点之间的关联关系；最后，电子设备通过openpose基于关节点置信图和关节亲和场对两两关键点进行匹配，得到关键点的联接结果，得到关键点的二维位置信息。需要说明的是，上述对关键点的二维位置信息获取方法的说明，仅是一种可能实现方式的示例性说明，本公开实施例对采用哪种方法获取二维位置信息不作限定。

在步骤403中，电子设备分别对至少两帧人体图像进行人体姿态识别，得到每帧人体图像中该目标人体的关键点的三维位置信息以及该目标人体的三维网格信息。

在一种可能实现方式中，该电子设备上部署有第二识别模型，该第二识别模型用于对人体图像进行人体姿态识别，得到目标人体的三维姿态信息，该三维姿态信息也即是目标人体的各个关键点的三维位置信息以及目标人体的三维网格信息。在一种可能实现方式中，该第二识别模型是基于卷积神经网络构建的模型，示例性的，该第二识别模型是HMR(Human Mesh Recovery，人体网格恢复)模型，或SPIN(SMPL oPtimization IN the loop，SMPL人体模型的循环优化)模型，本公开实施例对采用哪种模型作为第二识别模型不作限定。示例性的，以该第二识别模型是HMR模型为例，对获取人体图像中关键点的三维位置信息和三维网格信息的过程进行说明。在一种可能实现方式中，电子设备通过HMR模型中的encoder(编码网络)分别对至少两帧人体图像进行特征提取，得到每帧人体图像的图像特征，通过regression(回归网络)对各个图像特征进行迭代3D回归，得到每一帧人体图像中目标人体的三维网格信息，基于该三维网格信息确定目标人体的关键点的三维位置信息。需要说明的是，上述对关键点的三维位置信息和目标人体的三维网格信息的获取方法的说明，仅是一种可能实现方式的示例性说明，本公开实施例对采用哪种方法获取关键点的三维位置信息和目标人体的三维网格信息不作限定。在一些实施例中，电子设备也可以通过一个用于进行人体姿态识别的模型获取到上述关键点的二维位置信息、关键点的三维位置信息以及三维网格信息。

需要说明的是，上述步骤402和步骤403是，分别对该至少两帧人体图像进行人体姿态识别，得到每帧该人体图像中该目标人体的关键点的二维位置信息、关键点的三维位置信息以及该目标人体的三维网格信息的步骤。在本公开实施例中，通过分别获取二维的人体姿态信息和三维的人体姿态信息，后续基于二维的人体姿态信息对三维的人体姿态信息进行调整，能够有效提高三维的人体姿态信息的准确度，即提高人体姿态识别结果的准确度。

在步骤404中，电子设备分别获取每帧人体图像的光流信息。

在一种可能实现方式中，电子设备获取该至少两帧人体图像的光流信息的过程包括以下步骤：

步骤一、电子设备分别获取每帧图像的初始光流信息，其中，该初始光流信息中的每个元素用于指示相邻两帧人体图像中对应位置的像素点之间的变化信息。

在一种可能实现方式中，电子设备分别获取每帧人体图像中各个像素点对应的初始光流元素，对于任一人体图像，基于该任一人体图像中各个像素点对应的初始光流元素，确定该各个像素点对应的中间光流元素，各个像素点对应的中间光流元素用于构成人体图像的初始光流信息，也即是，任一人体图像的初始光流信息包括该任一人体图像中各个像素点的中间光流元素。其中，该初始光流元素用于指示相邻两帧人体图像中对应位置的像素点之间的变化信息，示例性的，该初始光流元素表示为向量的形式。在一种可能实现方式中，对于任一人体图像，电子设备基于光流法获取该任一人体图像中的各个像素点，相对于前一帧人体图像中各个像素点的变化信息，也即是，获取到该任一人体图像中各个像素点的初始光流元素。对于该任一人体图像中的任一像素点，电子设备在该任一人体图像中确定位于该任一像素点的邻域区域内的至少一个目标像素点；再对该任一像素点对应的初始光流元素以及该至少一个目标像素点对应的初始光流元素取平均值，得到该任一像素点对应的中间光流元素，示例性的，该中间光流元素表示为向量的形式。在本公开实施例中，通过基于某一像素点的邻域区间内多个像素点对应的初始光流元素，确定该某一像素点对应的中间光流元素，从而能够有效提高获取到的各个像素点的初始光流信息的准确性。在一种可能实现方式中，上述基于像素点的初始光流元素确定中间光流元素的过程表示为下述公式(1)：

其中，I_t(x₀,y₀)表示第t帧人体图像中像素点(x₀,y₀)的中间光流元素，I_t(x,y)表示第t帧人体图像中像素点(x,y)的初始光流元素，(x₀-border,x₀+border)和(y₀-border,y₀+border)用于指示像素点(x₀,y₀)的邻域区域。需要说明的是，上述对获取人体图像的初始光流信息的方法的说明，仅是一种可能实现方式的示例性说明，本公开实施例对采用哪种方法获取人体图像的初始光流信息不作限定。在本公开实施例中，通过基于光流法确定出人体图像中各个像素点对应的初始光流元素后，再对像素点的初始光流元素进行进一步处理后，获取到人体图像的初始光流信息，能够提高初始光流信息的准确度。

步骤二、电子设备基于该至少两帧人体图像的该初始光流信息，分别获取该至少两帧人体图像的该光流信息。

在一种可能实现方式中，对于任一人体图像，电子设备在该至少两帧人体图像中确定至少一帧目标人体图像，该至少一帧目标人体图像是位于该任一人体图像之前或之后的至少一帧人体图像，该至少一帧目标人体图像与该任一人体图像之间的位置关系满足第一参考条件；电子设备对该任一人体图像的初始光流信息、该至少一帧目标人体图像的初始光流信息取平均值，得到该任一人体图像的该光流信息。其中，该第一参考条件由开发人员设置，本公开实施例对该第一参考条件的内容不作限定，例如，该第一参考条件设置为，在连续的至少两帧人体图像中获取位于该任一人体图像之前的m帧人体图像以及位于该任一人体图像之后的n帧人体图像作为该目标人体图像，其中，m和n均为整数，m和n的数值由开发人员进行设置，当然，也可以设置为在连续的至少两帧人体图像中获取位于该任一人体图像之前的m帧人体图像，或者，获取位于该任一人体图像之后的n帧人体图像作为该目标人体图像。在一种可能实现方式中，上述获取人体图像的光流信息的过程表示为下述公式(2)：

其中，I_t’表示第t帧人体图像的光流信息，I_j表示第j帧人体图像的初始光流信息，第j帧人体图像为目标人体图像。需要说明的是，上述对获取人体图像的光流信息的方法的说明，仅是一种可能实现方式的示例性说明，本公开实施例对采用哪种方法获取人体图像的光流信息不作限定。

在步骤405中，电子设备基于该关键点的三维位置信息的二维投影与该关键点的二维位置信息之间的误差，对该关键点的三维位置信息进行调整。

在一种可能实现方式中，基于该第一误差对该关键点的三维位置信息进行调整的过程包括以下步骤：

步骤一、电子设备分别基于每帧该人体图像的光流信息，对每帧该人体图像中该关键点的二维位置信息进行调整。在一种可能实现方式中，电子设备应用卡尔曼滤波实现对关键点的二维位置信息进行调整，示例性的，卡尔曼滤波过程表示为下述公式(3)：

其中，t表示第t帧；X_t表示预设的计算状态量，能够用于指示关键点对应的位置和变化速度；F_t表示系统方程，

H_t表示观测方程，观测量为关键点的位置，H_t＝[10]；Z_t表示观测状态量；w_t表示系统过程噪声，v_t表示观测噪声，w_t和v_t的取值由开发人员进行设置，w_t和v_t的取值受光流信息的影响，光流信息取值较大时，减小w_t的取值，增大v_t的取值，光流信息取值较小时，增大w_t的取值，减小v_t的取值。

需要说明的是，上述对关键点的二维位置信息进行调整的方法的说明，仅是一种可能实现方式的示例性说明，本公开实施例对采用哪种方法对关键点的二维位置信息进行调整不作限定。在本公开实施例中，通过应用卡尔曼滤波对关键点的二维位置信息进行滤波处理，能够，能够有效提高关键点的二维位置信息的准确度。

步骤二、电子设备基于该关键点的三维位置信息的二维投影，与调整后的该关键点的二维位置信息之间的第一误差，对该关键点的三维位置信息进行调整。在一种可能实现方式中，该步骤二的过程表示为下述公式(4)：

Loss_投影约束＝π(P_3d,P_2d) (4)

其中，Loss_投影约束表示第一误差，π表示关键点的三维位置信息对应的投影矩阵，P_3d表示关键点的三维位置信息，P_2d表示关键点的二维位置信息。在一种可能实现方式中，电子设备通过最小化第一误差，来调整关键点的三维位置信息。在公开实施例中，通过基于光流信息对关键点的二维位置信息进行调整，再基于调整后的二维位置信息对关键点的三维位置信息进行投影约束，能够有效提高关键点的三维位置信息的准确度。

在步骤406中，电子设备分别基于每帧人体图像的光流信息，对每帧人体图像中该关键点的三维位置信息进行调整。

在一种可能实现方式中，电子设备基于任一人体图像的光流信息，确定该任一人体图像相对于前一帧人体图像中各个关键点的第一变化权重；基于各个关键点的第一变化权重，分别对各个关键点的三维位置信息进行调整。其中，该第一变化权重与关键点所对应的光流信息的取值正相关。在一种可能实现方式中，上述对关键点的三维位置信息进行调整的过程表示为下述公式(5)：

其中，Loss_{joints时域约束}表示第二误差；W1_t,i表示第t帧人体图像中关键点i对应的第一变化权重；

表示第t帧人体图像中关键点i的三维位置信息，

表示第t-1帧人体图像中关键点i的三维位置信息。在一种可能实现方式中，电子设备通过最小化第二误差，来调整关键点的三维位置信息。在本公开实施例中，通过应用光流信息对关键点的三维位置信息进行调整，能够有效提高关键点的三维位置信息的准确度。

在步骤407中，电子设备对分别基于每帧人体图像的光流信息，对每帧人体图像中目标人体的三维网格信息进行调整。

在一种可能实现方式中，电子设备基于任一人体图像的光流信息，确定该任一人体图像相对于前一帧人体图像的三维网格信息的第二变化权重；基于该三维网格信息的第二变化权重，对该三维网格信息进行调整。其中，该第二变化权重与三维网格的顶点处的光流信息的取值正相关。在一种可能实现方式中，上述对关键点的三维位置信息进行调整的过程表示为下述公式(6)：

其中，Loss_{mesh时域约束}表示第三误差；W2_t,i表示第t帧人体图像的三维网格中顶点i对应的第二变化权重；

表示第t帧人体图像的三维网格中顶点i的三维位置信息，

表示第t-1帧人体图像的三维网格中顶点i的三维位置信息。在一种可能实现方式中，电子设备通过最小化第三误差，来调整三维网格信息中各个顶点的位置信息。在本公开实施例中，通过应用光流信息对目标人体的三维网格信息进行调整，能够有效提高三维网络中各个顶点的位置的准确度。

在步骤408中，电子设备基于该关键点的空间分布信息与参考分布信息之间的误差，对该关键点的三维位置信息进行调整。

在一种可能实现方式中，该步骤408的过程表示为下述公式(7)：

Loss_分布约束＝f(P_3d) (7)

其中，Loss_分布约束表示关键点的空间分布信息与参考分布信息之间的第四误差，f()表示先验约束函数，由开发人员进行设置，示例性的，f()用于限定肘关节、膝关节等位置对应的关键点不能反转；P_3d表示关键点的空间分布信息。在一种可能实现方式中，电子设备通过最小化第四误差，来调整关键点的三维位置信息。

需要说明的是，上述步骤405至步骤408，是基于每帧人体图像中关键点的二维位置信息、关键点的空间分布信息、每帧人体图像的光流信息中的至少一项，对关键点的三维位置信息以及目标人体的三维网格信息进行调整的步骤。需要说明的是，上述几种方式可以任意组合，例如，在一些实施例中，采用上述步骤405至步骤408所示的四种调整方式，电子设备基于上述公式(4)至公式(7)，最小化上述第一误差、第二误差、第三误差以及第四误差，来调整关键点的三维位置信息和目标人体的三维网格信息。

需要说明的是，本公开实施例对上述步骤405至步骤408的执行顺序不作限定。

在步骤409中，电子设备获取每帧人体图像对应的调整后的关键点的三维位置信息和目标人体的三维网格信息，该调整后的关键点的三维位置信息和三维网格信息用于指示目标人体的人体姿态。

在本公开实施例中，调整后的关键点的三维位置信息和三维网格信息，能够准确度指示目标人体的各个关节点的所在位置，也即是，能够准确度指示目标人体的人体姿态。

图5是根据一示例性实施例示出的一种人体姿态获取方法的示意图，以下结合图5对上述人体姿态获取过程进行说明，如图5所示，人体姿态获取过程包括三个阶段，在第一阶段501中，电子设备通过神经网络获取到人体图像中关键点的二维位置信息、关键点的三维位置信息以及三维网格信息，基于光流法获取人体图像的光流信息，也即是，在第一阶段501中电子设备执行上述步骤402、403和404；在第二阶段502中，基于卡尔曼滤波对关键点的二维位置信息进行调整；在第三阶段503中，电子设备从不同维度对关键点的三维位置信息和目标人体的三维网格信息进行调整，得到调整后的关键点的三维位置信息和三维网格信息，也即是，在第二阶段502和第三阶段503中，电子设备执行上述步骤405、406、407和408。图6是根据一示例性实施例示出的一种人体姿态示意图，图6示出了采用不同方法所获取到的人体姿态的示意图，如图6所示，神经网络直接输出的人体姿态信息如601所示，未应用光流信息进行优化时，人体姿态信息如602所示，采用本方案所获取到的人体姿态信息如603所示。本公开实施例提供的技术方案，充分利用人体图像的光流信息，对获取到的初始的人体姿态信息进行去噪，消除初始的人体姿态信息中关节抖动、人体质心漂移、脚滑等噪声，消除人体姿态变化不连续的现象。本公开实施例提供的技术方案，能够与不同的3dmesh神经网络、人体关键点2d神经网络相结合，也能够满足实时人体姿态识别的需求。

图7是根据一示例性实施例示出的一种人体姿态的获取装置框图。参照图7，该装置包括第一获取模块701、第二获取模块702、第三获取模块703和调整模块704。

第一获取模块701，被配置为执行获取连续的至少两帧人体图像，该至少两帧人体图像包括目标人体；

第一获取模块702，被配置为执行分别对该至少两帧人体图像进行人体姿态识别，得到每帧该人体图像中该目标人体的关键点的二维位置信息、关键点的三维位置信息以及该目标人体的三维网格信息，该三维网格信息用于指示该目标人体的外形；

第三获取模块703，被配置为执行分别获取每帧该人体图像的光流信息，每帧人体图像的该光流信息用于指示对应人体图像与相邻帧人体图像之间的像素点变化；

调整模块704，被配置为执行基于每帧该人体图像中该关键点的二维位置信息、关键点的空间分布信息、每帧该人体图像的光流信息中的至少一项，对该关键点的三维位置信息以及该目标人体的三维网格信息进行调整，该关键点的空间分布信息基于该关键点的三维位置信息确定，调整后的该关键点的三维位置信息以及该目标人体的三维网格信息用于指示该目标人体的人体姿态。

在一种可能实现方式中，该第三获取模块703，包括：

第一获取子模块，被配置为执行分别获取每帧人体图像的初始光流信息，该初始光流信息中的每个元素用于指示相邻两帧人体图像中对应位置的像素点之间的变化信息；

在一种可能实现方式中，该第一获取子模块，包括：

第一获取单元，被配置为执行分别获取每帧人体图像中各个像素点对应的初始光流元素，每个该初始光流元素用于指示相邻两帧人体图像中对应位置的像素点之间的变化信息；

在一种可能实现方式中，该第二获取单元，被配置为执行：

在一种可能实现方式中，该调整模块704，包括下述至少一项：

本公开实施例提供的装置，通过在人体姿态识别时，先基于每帧人体图像获取到目标人体的关键点的二维位置信息和初始的人体姿态信息，该初始的人体姿态信息包括目标人体三维位置信息和三维网格信息，以及获取光流信息来指示相邻帧人体图像之间的像素点变化情况，再基于关键点的二维位置信息、关键点的空间分布信息、光流信息中的至少一项对该初始的人体姿态信息进行调整，也即是，对关键点的三维位置信息和三维网格信息进行调整，得到更为准确的人体姿态，提高人体姿态识别结果的准确率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种电子设备的框图，该电子设备800可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central ProcessingUnits，CPU)801和一个或多个的存储器802，其中，该一个或多个存储器802中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器801加载并执行以实现上述各个方法实施例提供的人体姿态的获取方法中电子设备执行的过程。当然，该电子设备800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备800还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括程序代码的计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由电子设备800的处理器801执行以完成上述人体姿态的获取方法。可选地，计算机可读存储介质可以是只读内存(read-only memory，ROM)、随机存取存储器(random access memory)，RAM)、只读光盘(compact-disc read-onlymemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的人体姿态的获取方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种人体姿态的获取方法，其特征在于，包括：

获取连续的至少两帧人体图像，所述至少两帧人体图像包括目标人体；

分别对所述至少两帧人体图像进行人体姿态识别，得到每帧所述人体图像中所述目标人体的关键点的二维位置信息、关键点的三维位置信息以及所述目标人体的三维网格信息，所述三维网格信息用于指示所述目标人体的外形；

分别获取每帧所述人体图像的光流信息，每帧所述人体图像的所述光流信息用于指示对应人体图像与相邻帧人体图像之间的像素点变化；

基于每帧所述人体图像中所述关键点的二维位置信息、关键点的空间分布信息、每帧所述人体图像的光流信息中的至少一项，对所述关键点的三维位置信息以及所述目标人体的三维网格信息进行调整，所述关键点的空间分布信息基于所述关键点的三维位置信息确定，调整后的所述关键点的三维位置信息以及所述目标人体的三维网格信息用于指示所述目标人体的人体姿态。

2.根据权利要求1所述的人体姿态的获取方法，其特征在于，所述分别获取每帧所述人体图像的光流信息，包括：

分别获取每帧所述人体图像的初始光流信息，所述初始光流信息中每个元素用于指示相邻两帧人体图像中对应位置的像素点之间的变化信息；

基于所述至少两帧人体图像的所述初始光流信息，分别获取所述至少两帧人体图像的所述光流信息。

3.根据权利要求2所述的人体姿态的获取方法，其特征在于，所述分别获取每帧所述人体图像的初始光流信息，包括：

分别获取每帧所述人体图像中各个像素点对应的初始光流元素，每个所述初始光流元素用于指示相邻两帧人体图像中对应位置的像素点之间的变化信息；

对于任一人体图像，基于所述任一人体图像中各个像素点对应的初始光流元素，确定所述各个像素点对应的中间光流元素，所述各个像素点对应的中间光流元素用于构成所述人体图像的初始光流信息。

4.根据权利要求3所述的人体姿态的获取方法，其特征在于，所述对于任一人体图像，基于所述任一人体图像中各个像素点对应的初始光流元素，确定所述各个像素点对应的中间光流元素，包括：

对于所述任一人体图像中的任一像素点，在所述任一人体图像中确定位于所述任一像素点的邻域区域内的至少一个目标像素点；

对所述任一像素点对应的初始光流元素以及所述至少一个目标像素点对应的初始光流元素取平均值，得到所述任一像素点对应的中间光流元素。

5.根据权利要求2所述的人体姿态的获取方法，其特征在于，所述基于所述至少两帧人体图像的所述初始光流信息，分别获取所述至少两帧人体图像的所述光流信息，包括：

对于任一人体图像，在所述至少两帧人体图像中确定至少一帧目标人体图像，所述至少一帧目标人体图像是位于所述任一人体图像之前或之后的至少一帧人体图像；

对所述任一人体图像的初始光流信息、所述至少一帧目标人体图像的初始光流信息取平均值，得到所述任一人体图像的所述光流信息。

6.根据权利要求1所述的人体姿态的获取方法，其特征在于，所述基于每帧所述人体图像中所述关键点的二维位置信息、关键点的空间分布信息、每帧所述人体图像的光流信息中的至少一项，对所述关键点的三维位置信息以及所述目标人体的三维网格信息进行调整，包括下述至少一项：

基于所述关键点的三维位置信息的二维投影与所述关键点的二维位置信息之间的误差，对所述关键点的三维位置信息进行调整；

分别基于每帧所述人体图像的光流信息，对每帧所述人体图像中所述关键点的三维位置信息进行调整；

分别基于每帧所述人体图像的光流信息，对每帧所述人体图像中目标人体的三维网格信息进行调整；

基于所述关键点的空间分布信息与参考分布信息之间的误差，对所述关键点的三维位置信息进行调整。

7.一种人体姿态的获取装置，其特征在于，包括：

第一获取模块，被配置为执行获取连续的至少两帧人体图像，所述至少两帧人体图像包括目标人体；

第二获取模块，被配置为执行分别对所述至少两帧人体图像进行人体姿态识别，得到每帧所述人体图像中所述目标人体的关键点的二维位置信息、关键点的三维位置信息以及所述目标人体的三维网格信息，所述三维网格信息用于指示所述目标人体的外形；

第三获取模块，被配置为执行分别获取每帧所述人体图像的光流信息，每帧所述人体图像的所述光流信息用于指示对应人体图像与相邻帧人体图像之间的像素点变化；

调整模块，被配置为执行基于每帧所述人体图像中所述关键点的二维位置信息、关键点的空间分布信息、每帧所述人体图像的光流信息中的至少一项，对所述关键点的三维位置信息以及所述目标人体的三维网格信息进行调整，所述关键点的空间分布信息基于所述关键点的三维位置信息确定，调整后的所述关键点的三维位置信息以及所述目标人体的三维网格信息用于指示所述目标人体的人体姿态。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至6中任一项所述的人体姿态的获取方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的人体姿态的获取方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的人体姿态的获取方法。