CN111739161A

CN111739161A - 一种有遮挡情况下的人体三维重建方法、装置及电子设备

Info

Publication number: CN111739161A
Application number: CN202010717560.4A
Authority: CN
Inventors: 於其之; 朱世强
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-10-02
Anticipated expiration: 2040-07-23
Also published as: CN111739161B

Abstract

本发明公开了一种有遮挡情况下的人体三维重建方法、装置及电子设备，包括：获取目标人体的单帧RGB‑D图像，RGB‑D图像包含彩色图像和深度图像；对彩色图像进行实例分割，得到目标人体部分及遮挡物体部分的分割像素掩码，根据分割像素掩码对深度图像进行分割，得到目标人体深度图像和遮挡物体深度图像；将遮挡物体深度图像转换为表面法向图像，再使用卷积神经网络进行遮挡物体姿态估计；基于遮挡物体的姿态估计，对遮挡物体进行三维重建，获得遮挡物体三维模型；根据彩色图像、目标人体深度图像和遮挡物体三维模型进行三维人体重建，获得三维人体模型。本发明通过对遮挡物体的三维重建，提高了有遮挡情形下的单视角人体三维重建的准确性和可靠性。

Description

一种有遮挡情况下的人体三维重建方法、装置及电子设备

技术领域

本发明涉及计算机视觉领域，尤其涉及一种有遮挡情况下的人体三维重建方法、装置及电子设备。

背景技术

在计算机视觉领域里根据单个视角的观察进行三维人体重建的技术有广泛应用。例如服务机器人与人交互的时候需要从自身的视角方向估计交互对象的三维人体模型。再譬如增强现实应用需要从自身的视角方向估计目标人体的三维模型用于叠加其他三维物体。由于单视角图像只观察到正面的人体表面，重建三维模型需要依赖人体几何形状的先验知识。一种比较常用的方法是使用RGB-D相机从单个视角拍摄人体的RGB-D图像，包括彩色图像和深度图像，再将基于统计的参数化人体模型拟合到RGB-D图像中。这类方法利用了统计意义上的信息，对不可见部分进行了一定程度的补全，在无遮挡情形下取得了较好的效果。但在有物体遮挡情况下，不仅人体可见表面较小使得模型拟合时约束不足，而且遮挡物体的图像信息会带来混淆，使得上述方法不能可靠的实现单视角三维人体重建。遮挡问题在室内场景特别突出，因为在室内人体非常容易受到桌子和椅子等家具的遮挡。这给服务机器人和增强现实等室内常见应用带来困难。

发明内容

本发明实施例的目的是提供一种有遮挡情况下的人体三维重建方法、装置及电子设备，以解决现有在有物体遮挡情况下不能可靠的实现单视角三维人体重建的问题。

为了达到上述目的，本发明实施例所采用的技术方案来如下：

第一方面，本发明实施例提供一种有遮挡情况下的人体三维重建方法，包括：

获取目标人体的单帧RGB-D图像，所述RGB-D图像包含彩色图像和深度图像；

对彩色图像进行实例分割，得到目标人体部分及遮挡物体部分的分割像素掩码，根据分割像素掩码对深度图像进行分割，得到目标人体深度图像和遮挡物体深度图像；

将遮挡物体深度图像转换为表面法向图像，再使用预训练的卷积神经网络进行遮挡物体姿态估计；

基于遮挡物体的姿态估计，对遮挡物体进行三维重建，获得遮挡物体三维模型；

根据彩色图像、目标人体深度图像和遮挡物体三维模型进行三维人体重建，获得三维人体模型。

进一步地，所述预训练的训练卷积神经网络的获取包括：

构建常见物体的三维模型库，其中三维模型使用三维扫描仪扫描获取，或使用三维建模软件制作；

使用计算机图形学三维绘制的方法，将三维模型库中每一个三维模型使用多种姿态绘制得到多幅表面法向图像；

使用表面法向图像与三维姿态的对应数据，训练获得预训练的卷积神经网络。

进一步地，基于遮挡物体的姿态估计，对遮挡物体进行三维重建，获得遮挡物体的三维模型，包括：

使用分割像素掩码所包含的遮挡物体类别信息，将三维模型库中与遮挡物体同类的模型加入候选模型集合；

对候选模型集合中每一个模型，以遮挡物体的姿态估计作为模型放置参数的初始值，使用ICP方法计算该模型与遮挡物体的最小差异，该最小差异称为候选模型与遮挡物体的距离；将取得最小差异时的放置参数作为为候选模型的最优放置参数；

选择候选模型集合中与遮挡物体的距离最小者为最匹配模型；

使用最优放置参数对最匹配模型进行几何变换，得到遮挡物体的三维模型。

进一步地，对于候选模型集合中每一个模型，以初步估计的遮挡物体姿态作为模型放置参数的初始值，使用ICP方法计算该模型与遮挡物体的最小差异，包括：

步骤（1），以初步估计的遮挡物体姿态作为候选模型放置参数的初始值；

步骤（2），根据当前的放置参数对候选模型进行几何变换；

步骤（3），绘制经过几何变换后的候选模型，保留可见表面的深度值得到候选模型深度图像；

步骤（4），对于候选模型深度图像每一个点，在遮挡物体深度图像找到距离最小的点作为对应点，构成两幅深度图像间的对应点集合；

步骤（5），以对应点集合中所有对应点的距离之和为候选模型与遮挡物体的差异；

步骤（6），调整候选模型的放置参数使得所述差异最小。

进一步地，还包括以下步骤：

步骤（7），重复步骤（2）-步骤（6）直到迭代结束标准被满足。

进一步地，所述迭代结束标准为在一定的迭代次数内候选模型与遮挡物体的差异变化率小于一个预先设定的阈值。

进一步地，根据彩色图像、目标人体深度图像、和遮挡物体三维模型进行三维人体重建，获得三维人体模型，包括：

在彩色图像中估计二维人体姿态，再从目标人体深度图像获取各关节点的三维坐标，从而得到三维人体姿态估计；

以估计的三维人体姿态为初始值，以遮挡物体三维模型为几何约束，使用优化方法将参数化人体模型拟合到目标人体深度图像，获得三维人体模型。

进一步地，优化方法的目标函数主要包括关节约束项、表面约束项、及人体与遮挡物体相交惩罚项，

其中关节约束项是为了使拟合得到的三维人体模型关节位置与从彩色图像及目标人体深度图像估计的关节位置一致；

表面约束项是为了使拟合得到的三维人体模型可见表面与深度图像一致；

人体与遮挡物体相交惩罚项是为了使拟合得到的三维人体模型与遮挡物在空间上不冲突，其计算方法为：

建立遮挡物体的符号距离场，所述符号距离场由均匀体素栅格表示，每个格子

储存了该格子中心到物体表面最近点的距离及该最近点的法向量，当格子在物体内部时距离为负值，反之为正值；

对于三维人体模型表面的每个顶点，在上述距离场中插值得到距离

和法向量

，则相交惩罚项

为：

第二方面，本发明实施例还提供一种有遮挡情况下的人体三维重建装置，包括：

图像获取模块，用于获取目标人体的单帧RGB-D图像，所述RGB-D图像包含彩色图像和深度图像；

图像分割模块，用于对彩色图像进行实例分割，得到目标人体部分及遮挡物体部分的分割像素掩码，根据分割像素掩码对深度图像进行分割，得到目标人体深度图像和遮挡物体深度图像；

姿态估计模块，用于将遮挡物体深度图像转换为表面法向图像，再使用预训练的卷积神经网络进行遮挡物体姿态估计；

遮挡物体三维重建模块，用于基于遮挡物体的姿态估计，对遮挡物体进行三维重建，获得遮挡物体三维模型；人体三维重建模块，用于根据彩色图像、目标人体深度图像和遮挡物体三维模型进行三维人体重建，获得三维人体模型。

第三方面，本发明实施例还提供一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的一种有遮挡情况下的人体三维重建方法。

本发明的有益效果是，本发明根据单视角RGB-D图像重建前景中的遮挡物体三维模型，再使用彩色图像、目标人体深度图像和遮挡物体三维模型为约束进行三维人体模型的重建。一般的基于单视角RGB-D图像的三维人体重建没有考虑遮挡物体三维模型对三维人体模型的约束。在遮挡情形下三维人体模型重建可能因为约束信息不足导致结果不合理。本发明的创新点在于将遮挡物体三维重建后作为三维人体重建的几何约束，提高了有遮挡情形下的单视角人体三维重建的准确性和可靠性。本发明适用于在有较多遮挡情形的室内场景工作的服务机器人或增强现实系统。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例提供的一种有遮挡情况下的人体三维重建方法的流程框图；

图2是本发明实施例提供的一种有遮挡情况下的人体三维重建方法的流程图；

图3是本发明实施例提供的一种有遮挡情况下的人体三维重建装置的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。

实施例1：

图1是本发明实施例提供的一种有遮挡情况下的人体三维重建方法的流程框图；图2是本发明实施例提供的一种有遮挡情况下的人体三维重建方法的流程图；该方法包括以下步骤：

步骤S101，获取目标人体的单帧RGB-D图像，所述RGB-D图像包含彩色图像和深度图像；

具体地，在本实施例中，使用单个深度相机获取被部分遮挡的目标人体的单帧RGB-D图像，包含彩色图像和深度图像。其中彩色图像为目标人体和遮挡物体的分割步骤及目标人体的姿态估计步骤提供所需的信息，深度图像为遮挡物体的三维重建和目标人体三维重建步骤提供所需的几何信息。常见的深度相机有RealSense、Kinect、ZED等。本实施例中，所述的深度相机使用英特尔的RealSense。

步骤S102，对彩色图像进行实例分割，得到目标人体部分及遮挡物体部分的分割像素掩码，根据分割像素掩码对深度图像进行分割，得到目标人体深度图像和遮挡物体深度图像；

具体地，对彩色图像进行实例分割，得到目标人体部分及遮挡物体部分的分割像素掩码。由于使用了实例分割方法，分割像素掩码包含了像素所属实例的类别信息，在本实施例中遮挡物体部分所属实例的类别为椅子。根据分割像素掩码对深度图像进行分割，得到目标人体深度图像和椅子的深度图像。判断出遮挡物体的类别为椅子，以及分割出椅子的深度图像是后续对椅子进行三维重建的必要基础。其中常见的彩色图像实例分割方法包括MASK R-CNN，SegNet，DeepMask等。本实施例中，所述彩色图像实例分割使用开源的MASK R-CNN 实现。

步骤S103，将遮挡物体深度图像转换为表面法向图像，再使用预训练的卷积神经网络进行遮挡物体姿态估计；

具体地，在本实施例中，对于椅子深度图像中的每个像素，根据周边像素的深度值拟合出一个局部平面，将该局部平面的法向量作为当前像素位置的法向量，并写入到输出图像的相应位置。处理完所有像素后，将输出得到椅子三通道的表面法向图像，三个通道分别保存法向量的三个元素。将椅子的表面法向图像输入预训练的卷积神经网络。由于椅子等家具在水平地面的正常摆放的姿态仅有一个自由度，即方位角，因此预训练的卷积神经网络输出的椅子的姿态仅包含椅子在水平地面正常摆放时绕水平地面的法向旋转的方位角。水平地面的法向量和绕水平地面的法向旋转的方位角即椅子的完整的姿态估计。

进一步地，所述预训练的训练卷积神经网络的获取包括：

A1，构建常见物体的三维模型库，其中三维模型使用三维扫描仪扫描获取，或使用三维建模软件制作；

具体地，本实例构建了一个常见家具三维模型库。家具三维模型库包括10类家具，分别是椅子、沙发、凳子、茶几、大班桌、书桌、床、衣柜、书柜和电视柜。每一类家具包含50种三维模型。本实例的家具三维模型库一部分使用手持三维扫描仪Artec3D扫描得到，也有一部分使用3D Max三维建模软件制作得到。

A2，使用计算机图形学三维绘制的方法，将三维模型库中每一个三维模型使用多种姿态绘制得到多幅表面法向图像；

在本实施例中，由于家具在水平地面正常摆放的姿态仅有一个自由度，因此本步骤里家具三维模型的姿态指家具三维模型在水平地面正常摆放时绕水平地面法向旋转的方位角。对于家具三维模型库的每一个三维模型，根据随机生成的方位角作几何变换后，使用透视投影绘制的方法将三维模型表面的法向量写入帧缓冲，再将帧缓冲输出得到表面法向图像。对家具三维模型库的每一个三维模型，重复上述步骤100次，生成100幅不同方位角下的模型表面法向图像。

A3，使用表面法向图像与三维姿态的对应数据，训练获得预训练的卷积神经网络。

具体地，在本实施例中，上一步骤生成的成对的表面法向图像和方位角构成一个数据集。基于该数据集使用Caffe框架获得预训练的卷积神经网络。该卷积神经网络的初始参数通过Imagenet的分类任务训练得到。

步骤S104，基于遮挡物体的姿态估计，对遮挡物体进行三维重建，获得遮挡物体三维模型，包括以下子步骤：

B1，使用分割像素掩码所包含的遮挡物体类别信息，将三维模型库中与遮挡物体同类的模型加入候选模型集合；

具体地，在本实施例中遮挡物体部分所属实例的类别为椅子，因此本实施例将三维模型库中椅子类的模型加入候选模型集合。

B2，对候选模型集合中每一个模型，以遮挡物体的姿态估计作为模型放置参数的初始值，使用ICP方法计算该模型与遮挡物体的最小差异，该最小差异称为候选模型与遮挡物体的距离；将取得最小差异时的放置参数作为为候选模型的最优放置参数；

步骤（1），以初步估计的遮挡物体姿态作为候选模型放置参数的初始值；具体地，放置参数包括了候选模型的姿态和偏移。在本实施例中，使用步骤S103初步估计的椅子的姿态作为候选模型放置参数中姿态的初始值。候选模型放置参数中的偏移初始值设置为遮挡物体深度图像的中心坐标。

步骤（2），根据当前的放置参数对候选模型进行几何变换；具体地，集使用当前放置参数中的姿态对候选模型进行旋转操作，使用当前放置参数中的偏移对候选模型进行偏移操作。

步骤（3），绘制经过几何变换后的候选模型，保留可见表面的深度值得到候选模型深度图像；具体地，使用三维图形绘制系统绘制几何变换后的候选模型，并输出经过消隐处理的深度图像。由于只需要深度信息，因此绘制过程只在深度缓冲写入深度值，无需计算和输出颜色图像。经过消隐处理的深度图像只保留了可见表面的深度值, 这一步可通过一般三维图形绘制系统都具备的Z-buffer消隐功能实现。

步骤（6），调整候选模型的放置参数使得所述差异最小。具体地，候选模型的放置参数包括了姿态和偏移。以步骤（5）的距离最小化为目标，用一般优化方法可求得候选模型放置参数中最优的姿态和偏移。

进一步地，还包括以下步骤：

步骤（7），重复步骤（2）-步骤（6）直到迭代结束标准被满足。进一步地，所述迭代结束标准为在一定的迭代次数内候选模型与遮挡物体的差异变化率小于一个预先设定的阈值。

B3，选择候选模型集合中与遮挡物体的距离最小者为最匹配模型；具体地，在本实施例中，椅子类候选模型集合中一种无扶手靠背椅与遮挡物体的距离最小，选择该无扶手靠背椅为最匹配模型。

B4，使用最优放置参数对最匹配模型进行几何变换，得到遮挡物体的三维模型。具体地，在本实施例中，使用当前放置参数中的姿态对无扶手靠背椅模型进行旋转操作，使用当前放置参数中的偏移对无扶手靠背椅模型进行偏移操作。

步骤S105，根据彩色图像、目标人体深度图像和遮挡物体三维模型进行三维人体重建，获得三维人体模型，包括以下子步骤：

C1，在彩色图像中估计二维人体姿态，再从目标人体深度图像获取各关节点的三维坐标，从而得到三维人体姿态估计；具体地，使用彩色图像二维人体姿态估计方法在彩色图像中估计二维人体姿态，得到每个关节在相机空间中的二维坐标（x, y），再以深度图像中各个关节二维坐标处的深度值为各个关节在相机空间中的z坐标，从而得到所有关节的三维坐标，即三维人体姿态。常见的彩色图像二维人体姿态估计方法包括OpenPose，Hourglass，HRNet等。本实施例中，所述彩色图像二维人体姿态估计使用开源的OpenPose 进行。

C2，以估计的三维人体姿态为初始值，以遮挡物体三维模型为几何约束，使用优化方法将参数化人体模型拟合到目标人体深度图像，获得三维人体模型。具体地，本实例以估计的三维人体姿态为初始值，以无扶手靠背椅的三维模型为几何约束，使用常见的参数化人体模型有SMPL-X，SMPL，SCAPE等。本实施例中，所述参数化人体模型使用SMPL-X进行实例说明。

本实施例中，优化方法的目标函数主要包括关节约束项、表面约束项、及人体与无扶手靠背椅的三维模型相交惩罚项，

其中关节约束项是为了使参数化人体模型SMPL-X关节位置与从RGB-D图像估计的关节位置一致；

表面约束项是为了使参数化人体模型SMPL-X可见表面与深度图像间一致；

人体与遮挡物体椅子相交惩罚项是为了使参数化人体模型SMPL-X与无扶手靠背椅在空间上不冲突，其计算方法为：

建立无扶手靠背椅的符号距离场，所述符号距离场由均匀体素栅格表示，每个格子

对于人体模型表面的每个顶点，在上述距离场中插值得到距离

和法向量

，则相交惩罚项

为：

根据以上技术方案，根据单视角RGB-D图像重建前景中遮挡物体三维模型，得到无扶手靠背椅的三维模型，再使用无扶手靠背椅三维模型为几何约束进行三维人体模型的重建，提高了有椅子遮挡情形下的单视角人体三维重建的准确性和可靠性。本发明适用于在有较多遮挡情形的室内场景工作的服务机器人或增强现实系统。

实施例2：

参考图3，本实施例还提供一种有遮挡情况下的人体三维重建装置，该装置为实施例1提供的一种有遮挡情况下的人体三维重建方法的虚拟装置，具备执行该方法相应的功能模块和有益效果，该装置包括：

图像获取模块91，用于获取目标人体的单帧RGB-D图像，所述RGB-D图像包含彩色图像和深度图像；

图像分割模块92，用于对彩色图像进行实例分割，得到目标人体部分及遮挡物体部分的分割像素掩码，根据分割像素掩码对深度图像进行分割，得到目标人体深度图像和遮挡物体深度图像；

姿态估计模块93，用于将遮挡物体深度图像转换为表面法向图像，再使用预训练的卷积神经网络进行遮挡物体姿态估计；

遮挡物体三维重建模块94，用于基于遮挡物体的姿态估计，对遮挡物体进行三维重建，获得遮挡物体三维模型；

人体三维重建模块95，用于根据彩色图像、目标人体深度图像和遮挡物体三维模型进行三维人体重建，获得三维人体模型。

实施例3：

本发明实施例还提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如实施例1所述的一种有遮挡情况下的人体三维重建方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。