CN111968169B

CN111968169B - 动态人体三维重建方法、装置、设备和介质

Info

Publication number: CN111968169B
Application number: CN202010838902.8A
Authority: CN
Inventors: 方璐; 苏卓; 许岚; 温建伟; 袁潮
Original assignee: Beijing Zhuohe Technology Co Ltd
Current assignee: Beijing Zhuohe Technology Co Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2024-01-19
Anticipated expiration: 2040-08-19
Also published as: CN111968169A

Abstract

本发明公开了一种动态人体三维重建方法、装置、设备和介质，涉及计算机视觉、计算机图形学、三维重建、虚拟现实及增强现实等技术领域。具体实施方案为：根据基于单视角采集的目标人体的RGB图像和深度图像重建人体三维模型；根据所述RGB图像对所述目标人体进行姿态估计；根据估计得到的二维姿态和三维姿态分别与人体三维模型之间的对应关系，估计人体三维模型的骨骼运动和非刚性运动，以提高基于单视角的动态人体三维重建的鲁棒性。通过根据运动前后目标节点的语义信息的匹配结果对运动后的人体三维模型进行体素融合，从而避免对错误人体表面的融合。

Description

动态人体三维重建方法、装置、设备和介质

技术领域

本发明实施例涉及计算机视觉、计算机图形学、三维重建、虚拟现实及增强现实等技术领域。尤其涉及一种动态人体三维重建方法、装置、设备和介质。

背景技术

在计算机视觉和计算机图形学中，从静态场景的重建、渲染问题到运动物体(尤其是人)的跟踪和表面重建，重建一直是两个学科的重要研究问题。

目前的单视角重建设备虽然简单，但是却一定程度上限制了重建人体运动的复杂度和速度。如何提高基于单视角的动态人体三维重建的鲁棒性成为当前本领域亟待解决的问题之一。

发明内容

本发明提供一种动态人体三维重建方法、装置、设备和介质，以提高基于单视角的动态人体三维重建的鲁棒性。

第一方面，本发明实施例提供了动态人体三维重建方法，该方法包括：

根据目标人体的RGB图像和深度图像重建人体三维模型，得到所述目标人体的目标三维模型，其中所述目标人体的RGB图像和深度图像由至少一个深度图像采集设备采集得到；

根据所述RGB图像对所述目标人体进行姿态估计，得到二维人体关节点表征的二维姿态和/或三维人体关节点表征的第一三维姿态；

若所述目标三维模型的完整度大于设定完整度阈值，则建立所述目标三维模型与所述二维姿态之间的二维对应关系和/或所述目标三维模型与所述第一三维姿态之间的第一三维对应关系；

基于所述二维对应关系和/或所述第一三维对应关系，估计所述目标三维模型的骨骼运动，并基于所述二维对应关系，估计所述目标三维模型的非刚性运动；

根据估计得到的骨骼运动和非刚性运动，对所述目标三维模型进行变形，得到所述目标人体运动后的三维模型。

第二方面，本发明实施例还提供了动态人体三维重建装置，该装置包括：

模型重建模块，用于根据目标人体的RGB图像和深度图像重建人体三维模型，得到所述目标人体的目标三维模型，其中所述目标人体的RGB图像和深度图像由至少一个深度图像采集设备采集得到；

姿态估计模块，用于根据所述RGB图像对所述目标人体进行姿态估计，得到二维人体关节点表征的二维姿态和/或三维人体关节点表征的第一三维姿态；

关系建立模块，用于若所述目标三维模型的完整度大于设定完整度阈值，则建立所述目标三维模型与所述二维姿态之间的二维对应关系和/或所述目标三维模型与所述第一三维姿态之间的第一三维对应关系；

运动估计模块，用于基于所述二维对应关系和/或所述第一三维对应关系，估计所述目标三维模型的骨骼运动，并基于所述二维对应关系，估计所述目标三维模型的非刚性运动；

模型确定模块，用于根据估计得到的骨骼运动和非刚性运动，对所述目标三维模型进行变形，得到所述目标人体运动后的三维模型。

第三方面，本发明实施例还提供了一种电子设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的动态人体三维重建方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例中任一所述的动态人体三维重建方法。

本发明通过充分利用人体姿态先验求解人体骨骼运动和表面的非刚性运动，从而提高人体运动参数的确定准确率，进而提高基于单视角的动态人体三维重建的鲁棒性。

附图说明

图1为本发明实施例一提供的一种动态人体三维重建方法的流程图；

图2是本申请实施例二提供的一种动态人体三维重建方法的流程图；

图3是本发明实施例三提供的一种动态人体三维重建方法的流程图；

图4是本发明实施例四提供的一种动态人体三维重建方法的流程图；

图5是本发明实施例五提供的一种动态人体三维重建方法的流程图；

图6是本发明实施例五提供的一种动态人体三维重建的效果示意图；

图7是本申请实施例六提供的一种动态人体三维重建装置的结构示意图；

图8为本发明实施例七提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种动态人体三维重建方法的流程图。本实施例可适用于对动态人体进行三维重建的情况。该方法可以由一种动态人体三维重建装置来执行，该装置可以由软件和/或硬件的方式实现。参见图1，本申请实施例提供的动态人体三维重建方法，包括：

S110、根据目标人体的RGB图像和深度图像重建人体三维模型，得到所述目标人体的目标三维模型，其中所述目标人体的RGB图像和深度图像由至少一个深度图像采集设备采集得到。

其中，目标人体是指待进行三维重建的人体。

目标三维模型是指对目标人体进行三维重建得到的模型。该模型用于描述目标人体的外表面。

可选地，目标人体的RGBD图像可以由一个深度图像采集设备采集得到，也可以由两个深度图像采集设备采集得到，还可以由多个深度图像采集设备采集得到。目标人体的RGBD图像包括目标人体的RGB图像和与RGB图像对应的深度图像。

典型地，目标人体的RGBD图像可以由一个深度图像采集设备采集得到，以实现基于单视角度实现对目标人体的三维重建。该方式可以降低重建的成本，使得利用一个消费级的RGBD相机即可实现对人体的动态三维重建。

可选地，可以通过维护空间中的TSDF截断符号距离函数体素化模型表征重建人体的几何，通过人体在单视角下自扫描(也即旋转一周)得到完整模型或者通过正面RGBD序列和模型补全重建目标三维模型。

其中，RGBD序列是指采集的包括目标人体的RGB图像和与RGB图像对应的深度图像的序列。

S120、根据所述RGB图像对所述目标人体进行姿态估计，得到二维人体关节点表征的二维姿态和/或三维人体关节点表征的第一三维姿态。

其中，第一三维姿态是根据上述RGB图像对目标人体进行三维姿态估计得到的。

可选地，可以基于任意二维人体姿态估计算法，根据目标人体的RGB图像确定目标人体的二维姿态。也可以基于任意三维人体姿态估计算法，根据目标人体的RGB图像确定目标人体的第一三维姿态。

示例性地，该二维人体姿态估计算法可以是Openpose算法。该三维人体姿态估计算法可以是HMR算法。

S130、若所述目标三维模型的完整度大于设定完整度阈值，则建立所述目标三维模型与所述二维姿态之间的二维对应关系和/或所述目标三维模型与所述第一三维姿态之间的第一三维对应关系。

其中，目标三维模型的完整度用于描述目标三维模型的完整程度。

设定完整度阈值可以根据实际需要设定。

二维对应关系也即目标三维模型与二维姿态之间的关系。

具体地，所述建立所述目标三维模型与所述二维姿态之间的二维对应关系，包括：

根据所述深度图像，将所述二维姿态转换为三维人体关节点表征的第二三维姿态；

在所述目标三维模型中查找距离所述第二三维姿态中各关节点最近的顶点；

建立查找到的顶点与所述第二三维姿态中各关节点之间的第二三维对应关系；

根据所述三维对应关系以及所述二维姿态与所述三维姿态之间的转换关系，确定所述目标三维模型与所述二维姿态之间的二维对应关系。

其中，第二三维姿态是根据二维姿态转换得到的。

第二三维对应关系是目标三维模型中查找到的顶点与第二三维姿态中各关节点之间的对应关系。

第一三维对应关系是目标三维模型中查找到的顶点与第一三维姿态中各关节点之间的对应关系。

可选地，若所述目标三维模型的完整度小于或等于设定完整度阈值，则建立目标SMPL(Skinned Multi-Person Linear，参数化人体)模型与上述二维姿态之间的对应关系，并将该关系作为目标三维模型与上述二维姿态之间的二维对应关系。

其中，目标SMPL模型与目标三维模型对应，用于描述目标人体的骨架。

目标SMPL模型与上述二维姿态之间对应关系的建立包括：

在目标SMPL模型中查找距离三维姿态中各关节点最近的顶点；

建立查找到的顶点与三维姿态中各关节点之间的三维对应关系；

根据该三维对应关系以及二维姿态与三维姿态之间的转换关系，确定目标SMPL模型与二维姿态之间的二维对应关系。

S140、基于所述二维对应关系和/或所述第一三维对应关系，估计所述目标三维模型的骨骼运动，并基于所述二维对应关系，估计所述目标三维模型的非刚性运动。

其中，骨骼运动是指目标人体的骨骼运动。

非刚性运动是指目标人体在骨骼运动的带动下，目标人体的外表面发生的形变。例如目标人体的衣服的形变。

具体地，基于所述二维对应关系，估计所述目标三维模型的骨骼运动和非刚性运动，包括：

基于二维对应关系确定目标三维模型在运动前后的误差；

将该误差作为一个约束项，利用该约束项对描述骨骼运动的能量方程和描述非刚性运动的能量方程进行优化，得到目标三维模型的骨骼运动和非刚性运动。

S150、根据估计得到的骨骼运动和非刚性运动，对所述目标三维模型进行变形，得到所述目标人体运动后的三维模型。

本实施例的技术方案，通过充分利用人体姿态先验求解人体骨骼运动和表面的非刚性运动，从而提高人体运动参数的确定准确率，进而提高基于单视角的动态人体三维重建的鲁棒性。

为实现重新初始化功能，以处理跟丢或者人体离开相机视野一段时间的情形，所述方法还包括：

若检测到的所述目标人体的二维人体关节点的数量减少至0，则停止重建所述目标人体的，并保存该时刻目标人体的人体三维模型数据；

若检测到所述目标人体的二维人体关节点的数量增加至设定数量阈值，则将该时刻采集的目标人体的数据作为当前帧目标人体数据，将保存的人体三维模型数据作为上一帧目标人体数据；

在上一帧目标人体数据中的人体三维模型的基础上，根据当前帧目标人体数据继续进行动态人体三维重建。

其中，目标人体的二维人体关节点的数量减少至0，说明目标人体离开了相机视野。

目标人体的二维人体关节点的数量增加至设定数量阈值，说明说明目标人体重新进入了相机视野。

设定数量阈值可以根据实际需要设定。

基于该技术特征，本实施的技术方案通过将进入时刻采集的目标人体的数据作为当前帧目标人体数据，将离开时刻采集的人体三维模型数据作为上一帧目标人体数据。在上一帧目标人体数据中的人体三维模型的基础上，根据当前帧目标人体数据继续进行动态人体三维重建，从而避免了对目标人体三维模型的重新建立，实现了对目标人体的持续跟踪。

实施例二

图2是本申请实施例二提供的一种动态人体三维重建方法的流程图。本实施例是在上述实施例的基础上，对步骤“基于所述二维对应关系和所述第一三维对应关系，估计所述目标三维模型的骨骼运动”的具体优化。参见图2，本申请实施例提供的动态人体三维重建方法，包括：

S210、根据目标人体的RGB图像和深度图像重建人体三维模型，得到所述目标人体的目标三维模型，其中所述目标人体的RGB图像和深度图像由至少一个深度图像采集设备采集得到。

S220、根据所述RGB图像对所述目标人体进行姿态估计，得到二维人体关节点表征的二维姿态和三维人体关节点表征的第一三维姿态。

S230、若所述目标三维模型的完整度大于设定完整度阈值，则建立所述目标三维模型与所述二维姿态之间的二维对应关系和所述目标三维模型与所述第一三维姿态之间的第一三维对应关系。

S240、基于所述二维对应关系、所述目标三维模型与所述目标人体的第二三维姿态之间的三维对应关系和所述目标三维模型与姿态估计模型之间的姿态参数对应关系，估计所述目标三维模型的骨骼运动；

其中，所述第二三维姿态是根据所述二维姿态转换得到的，所述姿态估计模型是根据所述第一三维姿态确定的SMPL模型。

在一个实施例中，所述基于所述二维对应关系、所述目标三维模型与所述目标人体的第一三维姿态之间的三维对应关系和所述目标三维模型与姿态估计模型之间的姿态参数对应关系，估计所述目标三维模型的骨骼运动，可以包括：

根据所述二维对应关系、所述三维对应关系和所述姿态参数对应关系，确定经过骨骼运动后骨架与姿态之间的误差；

根据确定的误差估计所述目标三维模型的骨骼运动。

具体地，依照如下公式，确定经过骨骼运动后骨架与姿态之间的误差：

其中，ψ(.)是惩罚函数，Φ是φ(l)在全部关节点组合构成的向量，φ(l)是一个常量，θ所述目标三维模型经过骨骼运动后的姿态参数，θ_d是所述姿态估计模型经过骨骼运动后的姿态参数，N_J是人体关节点的总数，π(.)是投影函数，是经过骨骼运动后的所述目标三维模型中与人体关节点对应的顶点，/>是与/>对应的骨骼运动后的二维人体关节点，是与/>对应的骨骼运动后的三维人体关节点；

相应地，依照如下公式，估计所述目标三维模型的骨骼运动：

E_smot(θ)＝λ_sdE_sdata+λ_poseE_pose+λ_priorE_prior+λ_tempE_temp

其中，E_sdata表示目标TSDF模型经过骨骼运动后与骨骼运动后的深度图之间点到面的误差，所述目标TSDF模型是所述目标三维模型的TSDF体素化模型表征，E_prior为人体先验运动约束项，用于惩罚人体运动过程中产生的不自然的人体姿态，E_tempt表示上一帧的非刚性变形结果和当前帧经过骨骼变形后的结果误差，以使上一帧的非刚性变形结果和当前帧经过骨骼变形后的结果具一致性，λ_sd、λ_pose、λ_prior和λ_temp是对应的权值系数。

S250、基于所述二维对应关系，估计所述目标三维模型的非刚性运动。

S260、根据估计得到的骨骼运动和非刚性运动，对所述目标三维模型进行变形，得到所述目标人体运动后的三维模型。

本实施例的技术方案，通过基于所述二维对应关系、所述目标三维模型与所述目标人体的第一三维姿态之间的三维对应关系和所述目标三维模型与姿态估计模型之间的姿态参数对应关系，估计所述目标三维模型的骨骼运动，从而提高骨骼运动的准确率。

实施例三

图3是本发明实施例三提供的一种动态人体三维重建方法的流程图。本实施例是在上述实施例的基础上，对步骤“基于所述二维对应关系，估计所述目标三维模型的非刚性运动”的具体优化。参见图3，本申请实施例提供的动态人体三维重建方法，包括：

S310、根据目标人体的RGB图像和深度图像重建人体三维模型，得到所述目标人体的目标三维模型，其中所述目标人体的RGB图像和深度图像由至少一个深度图像采集设备采集得到。

S320、根据所述RGB图像对所述目标人体进行姿态估计，得到二维人体关节点表征的二维姿态和三维人体关节点表征的第一三维姿态。

S330、若所述目标三维模型的完整度大于设定完整度阈值，则建立所述目标三维模型与所述二维姿态之间的二维对应关系和所述目标三维模型与所述第一三维姿态之间的第一三维对应关系。

S340、基于所述二维对应关系和所述第一三维对应关系，估计所述目标三维模型的骨骼运动。

S350、根据所述二维对应关系，确定经过非刚性运动后的所述目标三维模型与所述二维姿态之间的投影误差。

具体地，依照如下公式计算所述投影误差：

其中，是经过非刚性运动后的所述目标三维模型中与二维人体关节点对应的顶点；

相应地，依照如下公式计算所述目标三维模型的非刚性运动：

E_emot(G)＝λ_edE_edata+λ_regE_reg+λ_tempE_temp

其中，G为描述所述非刚性运动的图模型，E_edata表示目标TSDF模型经过非刚性运动后与非刚性运动后的深度图之间点到面的误差以及所述投影误差，所述目标TSDF模型是所述目标三维模型的TSDF体素化模型表征，E_reg为平滑非刚性运动后模型表面的正则项，E_temp表示上一帧的非刚性变形结果和当前帧经过非刚性变形后的结果误差，以使上一帧的非刚性变形结果和当前帧经过非刚性变形后的结果具一致性。

S360、根据所述投影误差，估计所述目标三维模型的非刚性运动。

S370、根据估计得到的骨骼运动和非刚性运动，对所述目标三维模型进行变形，得到所述目标人体运动后的三维模型。

本实施例的技术方案，通过根据二维对应关系，确定经过非刚性运动后的目标三维模型与二维姿态之间的投影误差；根据投影误差，估计目标三维模型的非刚性运动，从而确定非刚性运动。

为提高二维对应关系的准确率，所述根据所述二维对应关系，确定经过非刚性运动后的所述目标三维模型与所述二维姿态之间的投影误差之后，所述方法还包括：

若所述二维姿态的置信度大于设定置信度阈值，且所述投影误差大于设定误差阈值，则重新建立所述目标三维模型与所述二维姿态之间的二维对应关系。

其中，设定置信度阈值和设定误差阈值可以根据实际需要确定。

二维姿态的置信度大于设定置信度阈值，说明二维姿态的准确率高。

投影误差大于设定误差阈值，说明二维对应关系的准确率低。

本实施例在二维姿态的准确率高，二维对应关系的准确率低的情况下，重新建立目标三维模型与二维姿态之间的二维对应关系，从而提高二维对应关系的准确率。

实施例四

图4是本发明实施例四提供的一种动态人体三维重建方法的流程图。本实施例是在上述实施例的基础上，对上述方案的扩展。参见图4，本发明实施例提供的动态人体三维重建方法，包括：

S410、根据目标人体的RGB图像和深度图像重建人体三维模型，得到所述目标人体的目标三维模型，其中所述目标人体的RGB图像和深度图像由至少一个深度图像采集设备采集得到。

S420、根据所述RGB图像对所述目标人体进行姿态估计，得到二维人体关节点表征的二维姿态和/或三维人体关节点表征的第一三维姿态。

S430、若所述目标三维模型的完整度大于设定完整度阈值，则建立所述目标三维模型与所述二维姿态之间的二维对应关系和/或所述目标三维模型与所述第一三维姿态之间的第一三维对应关系。

S440、基于所述二维对应关系和/或所述第一三维对应关系，估计所述目标三维模型的骨骼运动，并基于所述二维对应关系，估计所述目标三维模型的非刚性运动。

S450、根据估计得到的骨骼运动和非刚性运动，对所述目标三维模型进行变形，得到所述目标人体运动后的三维模型。

S460、根据变形后的RGB图像确定该RGB图像中人体各个部分的分割图；将目标人体运动后的三维模型上的目标节点投影至该分割图上。

示例性地，人体各个部分的分割图包括，目标人体脚部的分割图、腿部的分割图、身体和手臂的分割图、手的分割图以及头部的分割图。

目标节点是从目标三维模型上采样嵌入变形图模型的节点。

S470、根据投影结果，确定变形后所述目标节点的语义信息。

其中，该语义信息用于描述目标节点属于人体的哪一部分。

S480、匹配该语义信息与所述目标节点的初始语义信息。

其中，初始语义信息是与目标三维模型中的目标节点关联的语义信息。该语义信息可以是头、胳膊和脚等。

为确定目标节点的初始语义信息，所述匹配该语义信息与所述目标节点的初始语义信息之前，所述方法还包括：

在所述目标三维模型上采样嵌入变形图模型的节点，并将该节点作为所述目标节点；

根据所述RGB图像确定该RGB图像中人体各个部分的分割图；

将所述目标三维模型上的目标节点投影至该分割图上；

根据投影结果，确定所述目标节点的初始语义信息。

S490、根据匹配结果对所述目标人体运动后的三维模型进行体素融合。

具体地，根据匹配结果对所述目标人体运动后的三维模型进行体素融合，包括：

根据匹配结果确定匹配度，根据匹配度确定融合系数；

根据融合系数对所述目标人体运动后的三维模型进行体素融合。

其中，匹配度与融合系数正相关。

本实施的技术方案，通过匹配运动前后目标节点的语义信息；根据匹配结果对所述目标人体运动后的三维模型进行体素融合，从而避免对错误人体表面的融合，进一步提高人体模型的准确率。

实施例五

图5是本发明实施例五提供的一种动态人体三维重建方法的流程图。本实施例是在上述实施例的基础上，提供的一种可选方案。参见图5，本发明实施例提供的动态人体三维重建方法，主要包括初始化、骨架运动估计、非刚性运动估计和体素化融合四部分，具体如下：

初始化部分：通过维护空间中的TSDF体素化模型表征重建人体的目标三维模型，通过人体在单视角下自扫描(旋转一周)得到目标三维模型或者通过正面RGBD序列和模型补全得到描述目标人体外表面的目标三维模型。

在目标三维模型上采样ED嵌入变形图模型的目标节点并由之构成图G。

为了初始化姿态先验，利用Openpose(二维人体姿态估计算法，可被其他二维姿态估计方法替代)得到二维人体关节点表征的二维姿态和通过RGBD关系对应转换的3D关节点位置构成的3d姿态，分别表示成和/>同时还得到二维姿态得置信权重C_l，其中l表示关节点的索引。在目标三维模型上寻找离/>最近的顶点，记录该顶点的索引，构成与/>一一对应的关系。

为了利用语义视觉先验信息，利用人体各个部分分割算法(human parsing)，将RGB图像输入，得到一个人体分割的语义图像；然后通过把采用得到目标节点投影到人体部分分割结果图像上来绑定人体每个部分对应的语义信息(也即目标节点属于哪个部分)。

其中，对部分分割算法不做限定，可以是BodyPix，也可以是其他算法。

骨骼运动估计部分：通过ICP迭代算法来求解人体的运动参数(也即运动场)。首先优化人体骨架运动，即对体骨架姿态参数θ的估计。具体通过下面的优化方程实现：

E_smot(θ)＝λ_sdE_sdata+λ_poseE_pose+λ_priorE_prior+λ_tempE_temp

其中，E_sdata表示目标TSDF模型经过骨骼运动后与骨骼运动后的深度图之间点到面的误差，所述目标TSDF模型是所述目标三维模型的TSDF体素化模型表征。具体通过如下公式确定：

其中，P是把目标三维模型的顶点投影到二维图像上，在深度图像上的对应点，u是在深度图上采样的点，v_c表示目标三维模型上的三维点，表示经过骨骼运动变形的三维点。ψ(.)是惩罚函数。

E_pose表示经过骨骼运动后骨架与姿态之间的误差，具体计算公式如下：

其中，ψ(.)是惩罚函数，Φ是φ(l)在全部关节点组合构成的向量，φ(l)是一个常量，θ是所述目标三维模型经过骨骼运动后的姿态参数，θ_d是所述姿态估计模型经过骨骼运动后的姿态参数，N_J是人体关节点的总数，π(.)是投影函数，是经过骨骼运动后的所述目标三维模型中与人体关节点对应的顶点，/>是与/>对应的骨骼运动后的二维人体关节点，/>是与/>对应的骨骼运动后的三维人体关节点；具体φ(l)的确定逻辑为：对于一个关节点，若二维人体关节点的置信度大0.5，则为1，否则为0。

E_temp表示上一帧的非刚性变形结果和当前帧经过骨骼变形后的结果误差，具体计算公式如下：

其中，x_i表示目标节点的语义信息。表示骨骼运动后目标节点的语义信息，/>表示非刚性运动后目标节点的语义信息。该误差项用于鼓励时域上的平滑，使得上一帧的非刚性变形结果和当前帧经过骨骼变形后的结果具有一定一致性。

E_prior是使用高斯混合模型(GMM)得到的人体姿态先验约束项，用来惩罚人体运动过程中产生的不自然的人体姿态。具体E_prior定义如下：

其中j表示第j个正态分布模型，ω_j为混合权值，μ_j为混合均值，δ_j为混合方差。

非刚性运动估计部分：为了获得更贴近真实的非刚性运动(衣物褶皱等)在姿态估计(骨架运动估计)的基础上，求解如下的优化问题来估计非刚性运动G：

E_emot(G)＝λ_edE_edata+λ_regE_reg+λ_tempE_temp

其中E_edata表示目标TSDF模型经过非刚性运动后与非刚性运动后的深度图之间点到面的误差以及所述投影误差，具体计算公式如下：

其中，是经过非刚性运动后的所述目标三维模型中与二维人体关节点对应的顶点，/>是投影计算。/>是与/>对应的非刚性运动后的二维人体关节点。

正则项E_reg用于鼓励局部尽可能刚性。

而E_temp为和上述中不同的是，上述中的/>是待优化参数，是前一次迭代中的固定值。而这里/>是固定值，/>是待优化参数。

骨骼运动估计部分和非刚性运动部分中的所有方程都是利用LM求解的，通过PCG求解器，在GPU上进行求解。

重新初始化功能：一旦C_l比较大的时候，而投影误差也很大的时候，说明之前绑定的顶点的匹配关系的准确率低了，需要重新绑定。绑定策略和初始化中的一致。

此外，当被重建的人从相机视野中出去，也可以通过判断相机视野中关节点的数量来决定是否暂停程序运行。等人消失回来后，通过若多关节点数量大于一个阈值，则继续开始对动态人体进行跟踪重建。其中的阈值均可以根据实际需要确定。

体素化融合部分：为了在时域上更新模型的几何细节，在上述优化后，基于TSDF把深度信息通过运动场变形到参考帧做TSDF融合。除了检测碰撞和无效深度信息逻辑外，为了避免生长错误表面，本方案还增加了自适应的融合策略：每一帧通过RGB和人体分割算法获得一个人体语义信息图，每个目标节点都投影到当前的分割图上，得到对应的语义信息(索引对应哪个身体部分)。由于初始化时每个节点已经绑定了一个语义信息。所以此时判断二者的区别即可知道是否匹配的不好。降低或者停止匹配不好的地方的深度信息的融合，从而极大的降低错误表面生长的现象。具体公式如下：

对每个体素v,依照如下公式，确定最终三维模型的TSDF体素化模型表征中体素的距离值D(v)和置信度权重W(v）：

其中。θ^*是优化的姿态，N(v_c)是v_c的knn得到的最近邻节点，表示只有两个输入相等才为1，否则为零。经过计算后再判断ω(v)与一个阈值比较(0.2可选)，当小于这个阈值时，我们认为不够匹配，就将ω(v)置于0，以避免错误融合导致错误表面生长。最后可选通过纹理贴图得到更栩栩如生的结果。

其中，检测碰撞和无效深度信息对应的问题包括：只要精度足够，通过TSDF融合能够对于静态场景或者简单运动场景的重建是能够胜任的，但是对于日常中经常出现的碰撞运动会因错误的TSDF融合重建出错误的模型几何表面。对于人体来说，身体各个部位之间的相互触碰是不可避免的(比如击掌、敲打甚至手臂与身体的并拢等动作)，仅仅依靠上述融合方法更新表面几何往往会在碰撞的体素中生成错误表面。其原因是，在当前帧中两个表面靠的很近并且对应同一处深度观测的时候，可能只有一个体素与真实表面对应，而且两个体素在参考帧中相距较远。在这种情形下，其中一个体素的SDF值会被错误更新，产生了错误的表面。错误明显的时候，人们会看到人体表面发生碰撞的区域生长出一个奇怪的不属于人体的面。

检测碰撞和无效深度信息对应的逻辑包括：

基于非刚性运动场对人体表面模型进行变形，得到动态人体三维模型之前，根据骨骼刚性运动场将其他帧人体表面模型转换至参考帧人体表面模型的姿态下；

对姿态转换后的其他帧人体表面模型进行均匀体素化，得到均匀且离散的晶格；

将参考帧人体表面模型与姿态转换后的其他帧人体表面模型进行融合，其中若检测到参考帧人体表面模型中有超过一个体素移动到其他帧人体表面模型的相同晶格中，则停止对该体素的融合。

虽然碰撞会经常发生，但对于每秒30帧的深度数据而言，仍有大量的有效数据进行融合计算。故严格停止碰撞部位的体素SDF值更新有效地保证了模型的几何准确性，使得算法更加鲁棒。

本发明通过结合各种基于数据的人体视觉先验与传统的基于体素的非刚性动态场景重建，得到即使应对复杂有挑战性的运动同样具有较好的动态人体重建效果。并且具有通过重新初始化功能以处理严重的跟踪失败或消失重现的情况，同时仍保持轻量级计算和单目设置。

本方案的关键点总结如下：

1.模型初始化：在目标三维模型的正面视角下，通过拟合SMPL骨架，采样nodegraph和通过投影到人体部分分割结果图像，绑定人体每个部分对应的语义信息(即属于哪个部分)。若目标三维模型的完整度小于设定完整度阈值，则通过拟合SMPL骨架，采样nodegraph进行同样操作。

2.鲁棒跟踪：框架的核心即求解从参考帧到当前帧的混合运动参数(骨架和非刚性表面运动)。以迭代flip-flop的形式充分利用人体姿态先验求解人体骨架运动和表面的非刚性运动，设计创新的优化策略求解人体的运动参数，并且获得重新初始化的能力。

3.基于语义的体素融：估计运动场后，算法将深度数据融合入参考帧下的TSDF模型中，基于人体分割先验信息，并以自适应的策略融合新的信息，以避免由于复杂快速运动导致的易错信息的融合。

本发明通过设计算法利用消费级的RGBD相机即可实现快速的、高质量的人体动态模型重建:(1)单视角，配置简单，(2)面向以人体运动为核心的动态场景，(3)同时实现人体运动捕捉及表面重建，(4)得到具有高质量的几何和纹理的模型，(5)方法可以充分利用基于数据学习的人体视觉先验，重建复杂、快速、有挑战性的人体运动，(6)方法具有重新初始化功能，可以处理跟丢或者人体离开相机视野一段时间的情形，效果如图6所示。

实施例六

图7是本申请实施例六提供的一种动态人体三维重建装置的结构示意图。参见图7本申请实施例提供的动态人体三维重建装置，包括：模型重建模块701、姿态估计模块702、关系建立模块703、运动估计模块704和模型确定模块705。

其中，模型重建模块701，用于根据目标人体的RGB图像和深度图像重建人体三维模型，得到所述目标人体的目标三维模型，其中所述目标人体的RGB图像和深度图像由至少一个深度图像采集设备采集得到；

姿态估计模块702，用于根据所述RGB图像对所述目标人体进行姿态估计，得到二维人体关节点表征的二维姿态和/或三维人体关节点表征的第一三维姿态；

关系建立模块703，用于若所述目标三维模型的完整度大于设定完整度阈值，则建立所述目标三维模型与所述二维姿态之间的二维对应关系和/或所述目标三维模型与所述第一三维姿态之间的第一三维对应关系；

运动估计模块704，用于基于所述二维对应关系和/或所述第一三维对应关系，估计所述目标三维模型的骨骼运动，并基于所述二维对应关系，估计所述目标三维模型的非刚性运动；

模型确定模块705，用于根据估计得到的骨骼运动和非刚性运动，对所述目标三维模型进行变形，得到所述目标人体运动后的三维模型。

进一步地，所述装置还包括：

模型保存模块，用于若检测到的所述目标人体的二维人体关节点的数量减少至0，则停止重建所述目标人体的，并保存该时刻目标人体的人体三维模型数据；

数量采集模块，用于若检测到所述目标人体的二维人体关节点的数量增加至设定数量阈值，则将该时刻采集的目标人体的数据作为当前帧目标人体数据，将保存的人体三维模型数据作为上一帧目标人体数据；

继续重建模块，用于在上一帧目标人体数据中的人体三维模型的基础上，根据当前帧目标人体数据继续进行动态人体三维重建。

进一步地，所述关系建立模块，包括：

姿态转换单元，用于根据所述深度图像，将所述二维姿态转换为三维人体关节点表征的第二三维姿态；

顶点查找单元，用于在所述目标三维模型中查找距离所述第二三维姿态中各关节点最近的顶点；

关系建立单元，用于建立查找到的顶点与所述第二三维姿态中各关节点之间的第二三维对应关系；

关系确定单元，用于根据所述第二三维对应关系以及所述二维姿态与所述三维姿态之间的转换关系，确定所述目标三维模型与所述二维姿态之间的二维对应关系。

进一步地，所述运动估计模块，包括：

运动估计单元，用于基于所述二维对应关系、所述目标三维模型与所述目标人体的第二三维姿态之间的三维对应关系和所述目标三维模型与姿态估计模型之间的姿态参数对应关系，估计所述目标三维模型的骨骼运动；

其中，所述第二三维姿态是根据所述二维姿态转换得到的，所述姿态估计模型是根据所述第一三维姿态确定的SMPL参数化模型。

进一步地，所述运动估计单元具体用于：

根据确定的误差估计所述目标三维模型的骨骼运动。

进一步地，依照如下公式，确定经过骨骼运动后骨架与姿态之间的误差：

其中，ψ(.)是惩罚函数，Φ是φ(l)在全部关节点组合构成的向量，φ(l)是一个常量，θ是所述目标三维模型经过骨骼运动后的姿态参数，θ_d是所述姿态估计模型经过骨骼运动后的姿态参数，N_J是人体关节点的总数，π(.)是投影函数，是经过骨骼运动后的所述目标三维模型中与人体关节点对应的顶点，/>是与/>对应的骨骼运动后的二维人体关节点，/>是与/>对应的骨骼运动后的三维人体关节点；

E_smot(θ)＝λ_sdE_sdata+λ_poseE_pose+λ_priorE_prior+λ_tempE_temp

进一步地，所述运动估计模块，包括：

误差确定单元，用于根据所述二维对应关系，确定经过非刚性运动后的所述目标三维模型与所述二维姿态之间的投影误差；

运动估计单元，用于根据所述投影误差，估计所述目标三维模型的非刚性运动。

进一步地，依照如下公式计算所述投影误差：

E_emot(G)＝λ_edE_edata+λ_regE_reg+λ_tempE_temp

进一步地，所述根据所述二维对应关系，确定经过非刚性运动后的所述目标三维模型与所述二维姿态之间的投影误差之后，所述装置还包括：

阈值判断模块，用于若所述二维姿态的置信度大于设定置信度阈值，且所述投影误差大于设定误差阈值，则重新建立所述目标三维模型与所述二维姿态之间的二维对应关系。

进一步地，所述装置还包括：

进一步地，所述根据估计得到的骨骼运动和非刚性运动，对所述目标三维模型进行变形，得到所述目标人体运动后的三维模型之后，所述装置还包括：

分割图确定模块，用于根据变形后的RGB图像确定该RGB图像中人体各个部分的分割图；将目标人体运动后的三维模型上的目标节点投影至该分割图上；

语义信息确定模块，用于根据投影结果，确定变形后所述目标节点的语义信息；

语义匹配模块，用于匹配该语义信息与所述目标节点的初始语义信息；

体素融合模块，用于根据匹配结果对所述目标人体运动后的三维模型进行体素融合。

进一步地，所述装置还包括：

目标节点确定模块，用于所述匹配该语义信息与所述目标节点的初始语义信息之前，在所述目标三维模型上采样嵌入变形图模型的节点，并将该节点作为所述目标节点；

分割图确定模块，用于根据所述RGB图像确定该RGB图像中人体各个部分的分割图；

节点投影模块，用于将所述目标三维模型上的目标节点投影至该分割图上；语义信息确定模块，用于根据投影结果，确定所述目标节点的初始语义信息。

本发明实施例所提供的动态人体三维重建装置可执行本发明任意实施例所提供的动态人体三维重建方法，具备执行方法相应的功能模块和有益效果。

实施例七

图8为本发明实施例8提供的一种设备的结构示意图，如图8所示，该设备包括处理器80、存储器81、输入装置82和输出装置83；设备中处理器80的数量可以是一个或多个，图8中以一个处理器80为例；设备中的处理器80、存储器81、输入装置82和输出装置83可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储器81作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的动态人体三维重建对应的程序指令/模块(例如，动态人体三维重建装置中的模型重建模块701、姿态估计模块702、关系建立模块703、运动估计模块704和模型确定模块705)。处理器80通过运行存储在存储器81中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的动态人体三维重建方法。

存储器81可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器81可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器81可进一步包括相对于处理器80远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置82可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置83可包括显示屏等显示设备。

实施例八

本发明实施例八还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种动态人体三维重建方法，该方法包括：

根据所述RGB图像对所述目标人体进行姿态估计，得到二维人体关节点表征的二维姿态；

若所述目标三维模型的完整度大于设定完整度阈值，则建立所述目标三维模型与所述二维姿态之间的二维对应关系；

基于所述二维对应关系，估计所述目标三维模型的骨骼运动和非刚性运动；

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的动态人体三维重建方法中的相关操作.

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种动态人体三维重建方法，其特征在于，包括：

根据估计得到的骨骼运动和非刚性运动，对所述目标三维模型进行变形，得到所述目标人体运动后的三维模型；

其中，若检测到的所述目标人体的二维人体关节点的数量减少至0，则停止重建所述目标人体的，并保存关节点数量减少至0时刻目标人体的人体三维模型数据；

2.根据权利要求1所述的方法，其特征在于，所述建立所述目标三维模型与所述二维姿态之间的二维对应关系，包括：

根据所述第二三维对应关系以及所述二维姿态与所述三维姿态之间的转换关系，确定所述目标三维模型与所述二维姿态之间的二维对应关系。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述二维对应关系和所述第一三维对应关系，估计所述目标三维模型的骨骼运动，包括：

基于所述二维对应关系、所述目标三维模型与所述目标人体的第二三维姿态之间的三维对应关系和所述目标三维模型与姿态估计模型之间的姿态参数对应关系，估计所述目标三维模型的骨骼运动；

4.根据权利要求3所述的方法，其特征在于，所述基于所述二维对应关系、所述目标三维模型与所述目标人体的第二三维姿态之间的三维对应关系和所述目标三维模型与姿态估计模型之间的姿态参数对应关系，估计所述目标三维模型的骨骼运动，包括：

根据确定的误差估计所述目标三维模型的骨骼运动。

5.根据权利要求4所述的方法，其特征在于，依照如下公式，确定经过骨骼运动后骨架与姿态之间的误差：

其中，ψ(.)是惩罚函数，Φ是φ(l)在全部关节点组合构成的向量，φ(l)是一个常量，θ是所述目标三维模型经过骨骼运动后的姿态参数，θ_d是所述姿态估计模型经过骨骼运动后的姿态参数，N_J是人体关节点的总数，π(.)是投影函数，是经过骨骼运动后的所述目标三维模型中与人体关节点对应的顶点，P_l ^2D是与/>对应的骨骼运动后的二维人体关节点，P_l ^3D是与/>对应的骨骼运动后的三维人体关节点；

E_smot(θ)＝λ_sdE_sdata+λ_poseE_pose+λ_priorE_prior+λ_temptE_tempt

其中，E_sdata表示目标TSDF模型经过骨骼运动后与骨骼运动后的深度图之间点到面的误差，所述目标TSDF模型是所述目标三维模型的TSDF体素化模型表征，E_prior为人体先验运动约束项，用于惩罚人体运动过程中产生的不自然的人体姿态，E_tempt表示上一帧的非刚性变形结果和当前帧经过骨骼变形后的结果误差，以使上一帧的非刚性变形结果和当前帧经过骨骼变形后的结果具一致性，λ_sd、λ_pose、λ_prior和λ_tempt是对应的权值系数。

6.根据权利要求1或2所述的方法，其特征在于，所述基于所述二维对应关系，估计所述目标三维模型的非刚性运动，包括：

根据所述二维对应关系，确定经过非刚性运动后的所述目标三维模型与所述二维姿态之间的投影误差；

根据所述投影误差，估计所述目标三维模型的非刚性运动。

7.根据权利要求6所述的方法，其特征在于，依照如下公式计算所述投影误差：

E_emot(G)＝λ_edE_edata+λ_regE_reg+λ_tempE_temp

8.根据权利要求6所述的方法，其特征在于，所述根据所述二维对应关系，确定经过非刚性运动后的所述目标三维模型与所述二维姿态之间的投影误差之后，所述方法还包括：

9.根据权利要求1或2所述的方法，其特征在于，所述根据估计得到的骨骼运动和非刚性运动，对所述目标三维模型进行变形，得到所述目标人体运动后的三维模型之后，所述方法还包括：

根据变形后的RGB图像确定该RGB图像中人体各个部分的分割图；

将目标人体运动后的三维模型上的目标节点投影至该分割图上；

根据投影结果，确定变形后所述目标节点的语义信息；

匹配该语义信息与所述目标节点的初始语义信息；

根据匹配结果对所述目标人体运动后的三维模型进行体素融合。

10.根据权利要求9所述的方法，其特征在于，所述匹配该语义信息与所述目标节点的初始语义信息之前，所述方法还包括：

根据所述RGB图像确定该RGB图像中人体各个部分的分割图；

将所述目标三维模型上的目标节点投影至该分割图上；

根据投影结果，确定所述目标节点的初始语义信息。

11.一种动态人体三维重建装置，其特征在于，包括：

模型确定模块，用于根据估计得到的骨骼运动和非刚性运动，对所述目标三维模型进行变形，得到所述目标人体运动后的三维模型；

模型保存模块，用于若检测到的所述目标人体的二维人体关节点的数量减少至0，则停止重建所述目标人体的，并保存关节点数量减少至0时刻目标人体的人体三维模型数据；

12.根据权利要求11所述的装置，其特征在于，所述关系建立模块，包括：

13.根据权利要求11或12所述的装置，其特征在于，所述运动估计模块，包括：

14.根据权利要求13所述装置，其特征在于，所述运动估计单元具体用于：

根据确定的误差估计所述目标三维模型的骨骼运动。

15.根据权利要求14所述装置，其特征在于，依照如下公式，确定经过骨骼运动后骨架与姿态之间的误差：

E_smot(θ)＝λ_sdE_sdata+λ_poseE_pose+λ_priorE_prior+λ_temptE_tempt

16.根据权利要求11或12所述的装置，其特征在于，所述运动估计模块，包括：

17.根据权利要求16所述的装置，其特征在于，依照如下公式计算所述投影误差：

E_emot(G)＝λ_edE_edata+λ_regE_reg+λ_tempE_temp

18.根据权利要求16所述的装置，其特征在于，所述装置还包括：

阈值判断模块，用于所述根据所述二维对应关系，确定经过非刚性运动后的所述目标三维模型与所述二维姿态之间的投影误差之后，若所述二维姿态的置信度大于设定置信度阈值，且所述投影误差大于设定误差阈值，则重新建立所述目标三维模型与所述二维姿态之间的二维对应关系。

19.根据权利要求11或12所述的装置，其特征在于，所述装置还包括：

分割图确定模块，用于所述根据估计得到的骨骼运动和非刚性运动，对所述目标三维模型进行变形，得到所述目标人体运动后的三维模型之后，根据变形后的RGB图像确定该RGB图像中人体各个部分的分割图；

节点投影模块，用于将目标人体运动后的三维模型上的目标节点投影至该分割图上；

20.根据权利要求19所述的装置，其特征在于，所述装置还包括：

节点投影模块，用于将所述目标三维模型上的目标节点投影至该分割图上；

语义信息确定模块，用于根据投影结果，确定所述目标节点的初始语义信息。

21.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的动态人体三维重建方法。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的动态人体三维重建方法。