CN114612612A

CN114612612A - 人体姿态估计方法及装置、计算机可读介质、电子设备

Info

Publication number: CN114612612A
Application number: CN202210213265.4A
Authority: CN
Inventors: 陈立梁; 黄晗; 郭彦东
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-06-10

Abstract

本公开具体涉及计算机技术领域，具体涉及一种人体姿态估计方法及装置、计算机可读介质以及电子设备。所述方法包括：采集待处理对象对应的彩色图像，以及对应的稀疏深度图像；对所述彩色图像估计对应的初始三维数据，并基于所述初始三维数据进行重建以获取重建三维模型；以及获取包含分割标签的稀疏深度图像，并基于该分割标签的稀疏深度图像构建对应的包含分割标签的三维点云；将所述重建三维模型向所述三维点云进行拟合，以获取目标三维数据。本方案能够实现联合单目彩色相机和单个LiDAR传感器实现低成本、高精度的三维人体姿态估计。

Description

人体姿态估计方法及装置、计算机可读介质、电子设备

技术领域

本公开涉及计算机技术领域，具体涉及一种人体姿态估计方法、一种人体姿态估计装置、一种计算机可读介质以及一种电子设备。

背景技术

随着三维视觉和深度学习的发展，通过单目相机来估计三维人体姿态的方案不断涌现出来，并持续完善。使用经大量数据训练过的神经网络可以对普通单目彩色相机拍摄的RGB图片中的人体提取三维姿态，然而，由于普通彩色图片缺少深度信息，估计出的人体姿态在深度方向上误差较大。在现有的一些技术方案中，完全依赖彩色图像结合参数化人体模型进行三维人体姿态估计，在深度学习的帮助下获得了不错的效果，但仅依赖彩色图像始终无法很好地解决深度歧义问题，估计出的人体三维姿态在深度方向上误差较大，难以满足一些对姿态精度要求高的任务需求。另外一些基于深度点云的方案对点云的质量要求较高，难以在低成本低功耗条件下实现工程落地。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种人体姿态估计方法、一种人体姿态估计装置、一种计算机可读介质以及一种电子设备，能够实现联合单目彩色相机和单个LiDAR传感器实现低成本、高精度的三维人体姿态估计。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种人体姿态估计方法，包括：

采集待处理对象对应的彩色图像，以及对应的稀疏深度图像；

对所述彩色图像估计对应的初始三维数据，并基于所述初始三维数据进行重建以获取重建三维模型；以及

获取包含分割标签的稀疏深度图像，并基于该分割标签的稀疏深度图像构建对应的包含分割标签的三维点云；

将所述重建三维模型向所述三维点云进行拟合，以获取目标三维数据。

根据本公开的第二方面，提供一种人体姿态估计装置，包括：

图像采集模块，用于采集待处理对象对应的彩色图像，以及对应的稀疏深度图像；

三维模型重建模块，用于对所述彩色图像估计对应的初始三维数据，并基于所述初始三维数据进行重建以获取重建三维模型；以及

三维点云构建模块，用于获取包含分割标签的稀疏深度图像，并基于该分割标签的稀疏深度图像构建对应的包含分割标签的三维点云；

拟合运算模块，用于将所述重建三维模型向所述三维点云进行拟合，以获取目标三维数据。

根据本公开的第三方面，提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的人体姿态估计方法。

根据本公开的第四方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令时实现上述的人体姿态估计方法。

本公开的一种实施例所提供的人体姿态估计方法，利用采集的彩色图像预估初始三维数据，并进行重建得到重建三维模型；同时利用彩色图像对应的稀疏深度图像映射对应的包含分割标签的三维点云；使得重建的三维模型向三维点云拟合，最终得到准确的三维人体和对应的三维姿态数据。从而实现仅利用一个单目彩色相机和单个LiDAR传感器实现低成本、高精度的三维人体姿态估计。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种人体姿态估计方法的示意图；

图2示意性示出本公开示例性实施例中一种重建人体三维模型的方法的示意图；

图3示意性示出本公开示例性实施例中一种处理稀疏深度图像的方法的示意图；

图4示意性示出本公开示例性实施例中一种将重建三维模型向三维点云进行拟合的方法的示意图；

图5示意性示出本公开示例性实施例中一种人体姿态估计方法的流程示意图；

图6示意性示出本公开示例性实施例中一种人体姿态估计装置的组成示意图；

图7示意性示出本公开示例性实施例中一种电子设备的组成示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在相关技术中，在进行三维人体姿态估计时，大多是完全依赖彩色图像结合参数化人体模型进行三维人体姿态估计，在深度学习的帮助下获得了不错的效果，但仅依赖彩色图像始终无法很好地解决深度歧义问题，估计出的人体三维姿态在深度方向上误差较大，难以满足一些对姿态精度要求高的任务需求。另外一些基于深度点云的方案对点云的质量要求较高，难以在低成本低功耗条件下实现工程落地。。

针对上述的现有技术的缺点和不足，本示例实施方式中提供了一种人体姿态估计方法。参考图1中所示，上述的人体姿态估计方法可以包括：

步骤S11，采集待处理对象对应的彩色图像，以及对应的稀疏深度图像；

步骤S12，对所述彩色图像估计对应的初始三维数据，并基于所述初始三维数据进行重建以获取重建三维模型；以及

步骤S13，获取包含分割标签的稀疏深度图像，并基于该分割标签的稀疏深度图像构建对应的包含分割标签的三维点云；

步骤S14，将所述重建三维模型向所述三维点云进行拟合，以获取目标三维数据。

本示例实施方式所提供的人体姿态估计方法，仅利用一个单目彩色相机和单个LiDAR传感器，利用采集的彩色图像预估初始三维数据，并进行重建得到重建三维模型；同时利用彩色图像对应的稀疏深度图像映射对应的包含分割标签的三维点云；使得重建的三维模型向三维点云拟合，最终得到准确的三维人体和对应的三维姿态数据；实现低成本、高精度的三维人体姿态估计。

下面，将结合附图及实施例对本示例实施方式中的人体姿态估计方法的各个步骤进行更详细的说明。

在步骤S11中，采集待处理对象对应的彩色图像，以及对应的稀疏深度图像。

本示例实施方式中上述的方法可以应用于手机、平板电脑等智能终端设备。终端设备可以装配有摄像头，以及LiDAR(Light detection and ranging，光探测和测距)传感器。其中，摄像头为单目彩色相机。在进行原始图像数据的采集时，可以仅利用终端设备的一单目彩色相机采集所述彩色图像；同时，仅利用终端设备的一LiDAR传感器采集所述稀疏深度图像。

在步骤S12中，对所述彩色图像估计对应的初始三维数据，并基于所述初始三维数据进行重建以获取重建三维模型。

本示例实施方式中，参考图2所示，上述的步骤S12可以包括：

步骤S121，利用SMPL参数回归网络对所述彩色图像进行处理，以获取所述初始三维数据；

步骤S122，将所述初始三维数据输入SMPL模型进行重建，以获取包含预设数量的顶点的重建三维模型。

具体而言，对于采集的RGB图像，可以利用自顶向下结构的SMPL(A SkinnedMulti-Person Linear Model，一个蒙皮的多人线性模型)参数回归网络进行处理。将RGB图像输入SMPL参数回归网络，输出RGB图形对应的初始三维数据。其中，上述的初始三维数据可以包括该网络预测出姿态参数θ和体态参数β以及全局偏移量t。上述的SMPL参数回归网络可以采用预先训练的HRM(Human Mesh Recovery，人体网格恢复模型)、SPIN(SMPLoPtimization IN the loop，SMPL循环优化模型)或者GCMR(Graph Convolutional MeshRegression，图卷积网格回归模型)，等模型。

在获取预测的姿态参数θ和体态参数β以及全局偏移量t，可以将其作为输入参数，使用可微分的SMPL模型，进行人体三维模型重建，重建出包含目标数量顶点的三维人体模型。例如，重建的三维模型可以是由6890个顶点组成的三维人体模型。

在一些示例性实施方式中，也可以预先训练一SMPL参数回归网络。具体的，可以采集一定数量的RGB图像和对应的LiDAR深度图，并对图像进行对齐，来构建训练样本；将对齐的LiDAR与RGB图像在通道维度上拼接。将HMR的网络结构的输入通道数从3通道改为4通道，使用该网络结构训练。通过渲染3D扫描模型生成合成数据作为训练数据使用；利用训练完成的SMPL参数回归网络对当前采集的彩色图像进行预估，得到对应的初始三维数据。

在步骤S13中，获取包含分割标签的稀疏深度图像，并基于该分割标签的稀疏深度图像构建对应的包含分割标签的三维点云。

本示例实施方式中，参考图3所示，上述的获取包含分割标签的稀疏深度图像可以包括：

步骤S131，将所述稀疏深度图像与所述彩色图像进行对齐；

步骤S132，基于所述稀疏深度图像与所述彩色图像的对齐结果，对所述稀疏深度图像和所述彩色图像进行同步的图像分割，以获取包含分割标签的彩色图像分割结果和包含分割标签的稀疏深度图像。

具体而言，在对人体三维模型进行重建时，同步的，可以将采集的彩色图像和稀疏深度图像进行图像对齐；例如，可以通过RGB相机的相机参数和LiDAR传感器的相机参数将稀疏深度图与RGB图像对齐。在图像对齐后，可以利用身体分割网络对RGB图像进行图像分割，每个像素获得对应的人体部分标签。例如，可以使用使用在Pascal-Person-Part数据集上预训练过的Self-Correction网络将彩色图分割成人头、身体、大臂、小臂、大腿、小腿、背景7个类别。由于预先对彩色图像和稀疏深度图像进行对齐，此时可以同步对稀疏深度图像进行图像分割，得到包含分割标签的稀疏深度图像。

本示例实施方式中，在获取包含分割标签的稀疏深度图后，便可以将稀疏深度图投影成对应的三维点云。具体的，可以使用LIDAR传感器的内参中包含的投影矩阵，结合相机参数，将稀疏深度图中的每个像素点的深度值转换为对应的三维点，从而完成三维点云的构建。

在步骤S14中，将所述重建三维模型向所述三维点云进行拟合，以获取目标三维数据。

本示例实施方式中，参考图4所示，上述的步骤S14可以包括：

步骤S141，将所述重建三维模型与所述三维点云进行粗对齐；

步骤S142，使用梯度下降法对所述初始三维参数进行优化，并在迭代结束时获取优化后的SMPL模型；

步骤S143，利用所述优化后的SMPL模型输出所述目标三维数据。

具体而言，可以将上述步骤得到的重建的三维人体模型和LiDAR点云粗对齐。然后，使用梯度下降法对姿态参数θ、体态参数β和全局偏移量t进行迭代优化。优化过程可以使用Adam优化器。迭代结束得到优化后的SMPL模型，输出对应三维关节点坐标。

其中，迭代优化过程中，优化过程使用Adam优化器，最小化损失函数。损失函数包括：数据项损失，以及基于分割标签的分割类别语义损失。具体的，损失函数的公式可以包括：

E(θ,β,t)＝E_data+w_partE_part

其中，E_data为数据项，可以用于数据项SMPL模型顶点(S1)与LiDAR点云(S2)的最近邻点距离。如上述的E_data公式中所示，可以进行双向查找最近邻点；即从S1向S2查找，也从S2向S1查找，对应公式中加号前后两项。E_part为身体各部分类别相关的语义项。x、y分别代表SMPL顶点集合S₁和LiDAR点云S₂中的三维点。S^I指代点集S中属于类别I的三维点集合。w为超参数；例如，配置w＝0.3等等。

在一些示例性实施方式中，还可以识别所述彩色图像的图像类型，根据图像类型来配置数据项损失和语义项损失的权重w。例如，上述的图像类型可以根据光照类型、背景的亮度、背景类型、背景分割的难易程度等级来划分。由于在不同的背景亮度、不同的背景内容或者光照类型，可能使得对人体在RGB图像分割过程中导致不同的难易程度和计算量，因此，可以基于此来配置数据项损失和语义项损失的权重。例如，在光照类型为自然光，背景等级为简单的图像中，对人体进行分割的难易程度相对较低，此时可以向语义项损失分配权重为0.6，等等。当然，上述的数值只是示例性的说明，具体可以根据图像的实际情况来配置对应的w。

或者，在一些示例性实施方式中，在迭代优化过程中，还可以在上述的损失函数中添加基于二维关节点坐标的关节点投影损失。

具体的，在采集RGB图像后，可以估计图像中的2D关节点坐标；例如，可以使用Openpose、Alphapose等模型估计RGB图像上2D关节点坐标。具体的，关节点的投影损失可以包括：

其中，x表示在RGB图像上估计出的2D关键点，x^代表SMPL模型上3D关节点投影到图像上的投影坐标。

通过在损失函数中添加关节点投影损失，增加了对人体关节点的特征信息，可以进一步的提升姿态识别的精度。

此外，还可以在迭代优化的损失函数中加入正则项，来增强优化的稳定性，提升算法的整体鲁棒性。

本公开实施例所提供的人体姿态估计方法，参考图5所示，可以将采集的RGB图像501、LiDAR稀疏深度图像502作为模型的输入，可以通过RGB相机和LiDAR传感器的相机参数将LiDAR稀疏深度图像与RGB图像对齐。一方面，将RGB图像输入SMPL参数回归网络503，得到初始三维图像；另一方面，将对齐的LiDAR稀疏深度图像与RGB图像输入身体分割网络504，使RGB图像得到每个像素获得对应的人体部分标签，同步完成对LiDAR深度图的身体分割。利用相机参数将带有身体部分标签的LiDAR深度图投影成三维的LiDAR点云505。同时，将预测得的初始三维参数输入可微分的SMPL模型，重建三出由6890个顶点组成的三维人体模型506，并将重建的三维人体与LiDAR点云粗对齐。再使用梯度下降法迭代优化θ、β和t参数，优化过程使用Adam优化器；迭代结束得到优化后的SMPL模型，输出对应三维关节点坐标。

通过在计算过程中使用RGB图像和LiDAR稀疏深度图像，联合RGB数据与LiDAR数据来兼顾低成本与高精度，预测的三维人体姿态精度大幅高于仅基于RGB图像进行估计的算法；在很大程度上解决了三维人体姿态的深度歧义问题。可以满足更高精度的工程要求。通过对RGB图像进行语义分割将语义信息关联到LiDAR点云上，使得优化过程更可靠，精度更高。另外，由于使用LiDAR传感器，相比于使用像Kinect这种质量较高的深度相机，具有功耗低、成本低的优点，更有利于在手机、AR眼镜等移动端实设备上部署。同时由于结合了RGB信息进行推理，可以使推理精度不低于使用高质量深度相机的方案。此外，相比于从随机或全零的初始化SMPL参数开始优化，本方法使用通过RGB数据预测的SMPL参数作为初始值，加速了优化过程，提升了优化精度。

需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图6所示，本示例的实施方式中还提供一种人体姿态估计装置60，所述装置包括：图像采集模块601、三维模型重建模块602、三维点云构建模块603和拟合运算模块604。其中，

所述图像采集模块601可以用于采集待处理对象对应的彩色图像，以及对应的稀疏深度图像。

所述三维模型重建模块602用于对所述彩色图像估计对应的初始三维数据，并基于所述初始三维数据进行重建以获取重建三维模型；以及

所述三维点云构建模块603可以用于获取包含分割标签的稀疏深度图像，并基于该分割标签的稀疏深度图像构建对应的包含分割标签的三维点云。

所述拟合运算模块604可以用于将所述重建三维模型向所述三维点云进行拟合，以获取目标三维数据。

在一些示例性实施方式中，所述图像采集模块601可以包括：利用终端设备的一单目彩色相机采集所述彩色图像；以及利用终端设备的一LiDAR传感器采集所述稀疏深度图像。

在一些示例性实施方式中，所述初始三维数据包括：姿态参数θ、体态参数β、全局偏移量t。

所述三维模型重建模块602包括：利用SMPL参数回归网络对所述彩色图像进行处理，以获取所述初始三维数据；将所述初始三维数据输入SMPL模型进行重建，以获取包含预设数量的顶点的重建三维模型。

在一些示例性实施方式中，所述三维点云构建模块603可以包括将所述稀疏深度图像与所述彩色图像进行对齐；基于所述稀疏深度图像与所述彩色图像的对齐结果，对所述稀疏深度图像和所述彩色图像进行同步的图像分割，以获取包含分割标签的彩色图像分割结果和包含分割标签的稀疏深度图像。

在一些示例性实施方式中，所述三维点云构建模块603可以包括：利用预设的投影矩阵对所述深度图像进行投影计算，以获取所述三维点云。

在一些示例性实施方式中，所述拟合运算模块604可以包括：将所述重建三维模型与所述三维点云进行粗对齐；使用梯度下降法对所述初始三维参数进行优化，并在迭代结束时获取优化后的SMPL模型；利用所述优化后的SMPL模型输出所述目标三维数据。

在一些示例性实施方式中，所述使用梯度下降法对所述初始三维参数进行优化时，其损失函数包括：数据项损失，以及基于分割标签的分割类别语义损失。

在一些示例性实施方式中，所述装置还包括：权重配置模块。

所述权重配置模块可以用于识别所述彩色图像的图像类型，根据所述图像类型配置各部分损失函数的权重。

在一些示例性实施方式中，所述装置还包括：关节点处理模块。

所述关节点处理模块可以用于获取所述彩色图像对应的二维关节点坐标。

所述损失函数还包括：基于所述二维关节点坐标的关节点投影损失。

上述的人体姿态估计装置60、中各模块的具体细节已经在对应的人体姿态估计方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

图7示出了适于用来实现本发明实施例的电子设备的示意图。

需要说明的是，图7示出的电子设备1000仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备1000包括中央处理单元(Central Processing Unit，CPU)1001，其可以根据存储在只读存储器(Read-Only Memory，ROM)1002中的程序或者从储存部分1008加载到随机访问存储器(Random Access Memory，RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU 1001、ROM1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output，I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的储存部分1008；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入储存部分1008。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的系统中限定的各种功能。

具体来说，上述的电子设备可以是手机、平板电脑或者笔记本电脑等智能移动终端设备。或者，上述的电子设备也可以是台式电脑等智能终端设备。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

需要说明的是，作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图1所示的各个步骤。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种人体姿态估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的人体姿态估计方法，其特征在于，所述采集待处理对象对应的彩色图像，以及对应的稀疏深度图像，包括：

利用终端设备的一单目彩色相机采集所述彩色图像；以及

利用终端设备的一LiDAR传感器采集所述稀疏深度图像。

3.根据权利要求1所述的人体姿态估计方法，其特征在于，所述初始三维数据包括：姿态参数θ、体态参数β、全局偏移量t；

所述对所述彩色图像估计对应的初始三维数据，并基于所述初始三维数据进行重建以获取重建三维模型，包括：

利用SMPL参数回归网络对所述彩色图像进行处理，以获取所述初始三维数据；

将所述初始三维数据输入SMPL模型进行重建，以获取包含预设数量的顶点的重建三维模型。

4.根据权利要求1所述的人体姿态估计方法，其特征在于，所述获取包含分割标签的稀疏深度图像，包括：

将所述稀疏深度图像与所述彩色图像进行对齐；

基于所述稀疏深度图像与所述彩色图像的对齐结果，对所述稀疏深度图像和所述彩色图像进行同步的图像分割，以获取包含分割标签的彩色图像分割结果和包含分割标签的稀疏深度图像。

5.根据权利要求1或4所述的人体姿态估计方法，其特征在于，所述基于该分割标签的稀疏深度图像构建对应的包含分割标签的三维点云，包括：

利用预设的投影矩阵对所述深度图像进行投影计算，以获取所述三维点云。

6.根据权利要求1所述的人体姿态估计方法，其特征在于，所述将所述重建三维模型向所述三维点云进行拟合，以获取目标三维数据，包括：

将所述重建三维模型与所述三维点云进行粗对齐；

使用梯度下降法对所述初始三维参数进行优化，并在迭代结束时获取优化后的SMPL模型；

利用所述优化后的SMPL模型输出所述目标三维数据。

7.根据权利要求6所述的人体姿态估计方法，其特征在于，所述使用梯度下降法对所述初始三维参数进行优化时，其损失函数包括：数据项损失，以及基于分割标签的分割类别语义损失。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：识别所述彩色图像的图像类型，根据所述图像类型配置各部分损失函数的权重。

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：获取所述彩色图像对应的二维关节点坐标；

10.一种人体姿态估计装置，其特征在于，所述装置包括：

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的人体姿态估计方法。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至9中任一项所述的人体姿态估计方法。