CN109840940B

CN109840940B - 动态三维重建方法、装置、设备、介质和系统

Info

Publication number: CN109840940B
Application number: CN201910110062.0A
Authority: CN
Inventors: 方璐; 苏卓; 许岚
Original assignee: Tsinghua-Berkeley Shenzhen Institute
Current assignee: Tsinghua-Berkeley Shenzhen Institute
Priority date: 2019-02-11
Filing date: 2019-02-11
Publication date: 2023-06-27
Anticipated expiration: 2039-02-11
Also published as: CN109840940A

Abstract

本发明实施例公开了一种动态三维重建方法、装置、设备、介质和系统，涉及计算机视觉技术领域。该方法包括：基于至少两个姿态矩阵，对获取的至少两路深度图进行坐标系统一，其中所述至少两个姿态矩阵根据至少两路深度图，对采集所述深度图的至少两个图像采集设备进行动态在线标定得到；对经过坐标系统一的至少两路深度图进行骨骼变形的非刚性对齐；基于非刚性对齐的至少两路深度图进行动态三维模型的重建。本发明实施例提供了一种动态三维重建方法、装置、设备、介质和系统，实现了基于非结构化的至少两个图像采集设备，对快速运动人体的动态三维重建。其中，非结构化是指图像采集设备不需要固定,和复杂的预标定工作。

Description

动态三维重建方法、装置、设备、介质和系统

技术领域

本发明实施例涉及计算机视觉技术领域，尤其涉及一种动态三维重建方法、装置、设备、介质和系统。

背景技术

三维重建是计算机视觉领域的重点问题。高质量的三维模型在AR、VR、游戏、影视娱乐、文物保护、机械加工等各个领域都有着重要的应用价值。尤其实时的重建工作对于交互式(如远程立体视频会议，体感游戏、远程教学等)应用具有重要价值。而关于人体三维重建方法，由于人本身运动情况的复杂多变、表面非刚性运动较多，因此是三维重建领域的一个较大的难题。

当前重建方法及不足描述如下：

单相机实时动态重建：

DynamicFusion，该工作通过将动态重建分为物体运动场估计与参考帧下表面融合这两部分，解决了单帧无法观测到完整模型的问题。该方法虽然可以处理一般的运动场景，但是面对快速的人体运动则无能为力，原因是其严重依赖非刚性ICP算法，在帧间快速运动时往往会丢失对应关系，存在固有的局限，它使这种重建技术很难鲁棒的用于快速运动的场景。

多相机实时动态重建：

Fusion4d简化系统设备，用24个相机组成8对定制的结构光相机，实现了较好的实时重建结果。并在后续工作Holoportation中将这种实时算法在远程会议和教学中的应用加以展示，系统的缺点在于微软定制的结构光相机系统配置仍然非常复杂，结构化，难以搭建。

发明内容

本发明实施例提供一种动态三维重建方法、装置、设备、介质和系统，以实现基于非结构化的至少两个图像采集设备，对快速运动人体的动态三维重建。其中，非结构化是指图像采集设备不需要固定。

第一方面，本发明实施例提供了一种动态三维重建方法，该方法包括：

基于至少两个姿态矩阵，对获取的至少两路深度图进行坐标系统一，其中所述至少两个姿态矩阵根据至少两路深度图，对采集所述深度图的至少两个图像采集设备进行动态实时标定得到；

对经过坐标系统一的至少两路深度图进行骨骼变形的非刚性对齐；

基于非刚性对齐的至少两路深度图进行动态三维模型的重建。

第二方面，本发明实施例还提供了一种动态三维重建装置，该装置包括：

在线标定模块，用于基于至少两个姿态矩阵，对获取的至少两路深度图进行坐标系统一，其中所述至少两个姿态矩阵根据至少两路深度图，对采集所述深度图的至少两个图像采集设备进行动态实时标定得到；

非刚性对齐模块，用于对经过坐标系统一的至少两路深度图进行骨骼变形的非刚性对齐；

三维重建模块，用于基于非刚性对齐的至少两路深度图进行动态三维模型的重建。

第三方面，本发明实施例还提供了一种终端，所述终端包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的动态三维重建方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的动态三维重建方法。

第五方面，本发明实施例还提供了一种动态三维重建系统，所述系统包括：

至少二个终端，所述至少二个终端包括一个主终端和至少一个辅终端，其中所述主终端是权利要求14所述的终端，所述至少二个终端的一端各连接一个消费级的图像采集设备，所述至少一个辅终端的另一端与所述主终端连接，用于将通过图像采集设备采集到的深度图进行预处理，并将预处理后的深度图发送给所述主终端，由所述主终端根据采集的至少两路深度图进行重建人体的动态三维重建；

至少二个图像采集设备，分别与所述至少二个终端连接用于实时采集动态重建人体不同视角的深度图。

本发明实施例通过根据至少两路深度图，对采集所述深度图的至少两个图像采集设备进行动态实时标定。从而实现图形采集设备的给结构化，甚至手持图像采集设备运动也可以。

通过对经过坐标系统一的至少两路深度图进行骨骼变形的非刚性对齐，实现对不同路数据的时间同步。

最后，基于非刚性对齐的至少两路深度图进行动态三维模型的重建。

附图说明

图1为本发明实施例一提供的一种动态三维重建方法的流程图；

图2是本发明实施例一提供的一种动态标定的流程图；

图3是本发明实施例一提供的一种非刚性对齐的流程图；

图4本发明实施例二提供的一种动态三维重建方法的流程图；

图5是本发明实施例三提供的动态三维重建方法的流程图；

图6是本发明实施例三提供的对各路数据进行同步的示意图；

图7是本发明实施例四提供的一种动态三维重建装置的结构示意图；

图8为本发明实施例五提供的一种终端的结构示意图；

图9是本发明实施例七提供的一种动态三维重建系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在实施例说明之前首先介绍表征动态模型的嵌入变形图模型和SMPL，由嵌入变形模型表征人体表面的非刚性运动，通过人体先验引入SMPL模型表征人体骨骼的刚性运动。

嵌入变形模型是一种基于图(Graph)的模型，记为g，可以表达出物体表面发生的任意形状的非刚性变形，同时还可以变形体素。具体来说，从几何模型v(v为TSDF融合得到的体素距离场表示的人体几何模型)中采样得到若干(上千个)节点，每个节点彼此相连构成g，当每个节点具有一个空间变化关系，整个图则在空间中发生非刚性的形变，非刚性运动场可描述为：w^t＝{[p_j∈R³，σ_j∈R⁺，T_j∈SE(3)]}

其中j表示图g的第j个节点的序号,p_j表示第j个节点三维坐标。σ_j表示与第j个节点的作用半径，是个预定义参数，它影响体素x相对于第j个节点的置信权重。这个权重定义为w_j(x,σ_j)＝exp(-‖x-p_j‖²/(2σ_j ²))。T_j是第j个节点的6自由度变换(三个自由度的平移变换和三个自由度的旋转变换)。

引入SMPL是本发明工作能够更准确、鲁棒重建人体快速运动的一个关键点。SMPL是一个基于大量人体数据学习得到的统计模型，全称为蒙皮多人体线性模型(A SkinnedMulti-Person Linear Model)，是一个十分高效的线性人体模型。SMPL模型具有6890个顶点及蒙皮的权值w，其骨架由24个关节构成。人体骨架构成刚性运动，其中每个关节有3个旋转自由度，选择其中一个作为参考，具有三个空间自由度，故就整个人体模型的骨架运动而言，姿态参数总数为75(3×24+3)。人体平均模板记为

通过人体形状参数β和人体姿态参数θ可得到特有的人体模板，记作T(β,θ)，具体表示为：/>

这里，B_s(β)和B_p(θ)是顶点偏移向量，分别表示基于形状的变形和基于姿态的变形。人体模型M(β,θ)被表示为：M(β,θ)＝W(T(β,θ),J(β),θ,w)

其中W(·)是一个通用的混合蒙皮函数，输入中，T(β,θ)为变形后的体型、J(β)为关节位置、θ为姿态参数、w为蒙皮权值，最终可得到每个顶点的定位信息。由于所有参数都是从数据中学习的，因此该模型会以不同姿势生成非常逼真的形状。具体到顶点经过刚性运动场变形求解由下面的式子求出：

和/>

分别为LBS蒙皮求得的顶点位置和法向量，/>

和/>

则为使用线性混合蒙皮(LBS)来从骨骼运动蒙皮中获取，由SMPL定义，表示如下：

其中B为骨骼部分的索引集合，是人体骨架和关节划分的；G_i是第i个骨骼部分相对根骨架的刚性级联运动；

表示每块骨骼部分对于顶点V_c的蒙皮权重(该顶点附近的knn最近邻的节点蒙皮权值的平均)；K_i是第i个骨骼部分反向运动链的父级部分；exp(θ_kξ_k)为第k个骨骼部分旋量的指数映射。

故求解运动场被定义为求解SMPL运动及嵌入变形图的非刚性运动，二者可以导出每个顶点的运动。

实施例一

图1为本发明实施例一提供的一种动态三维重建方法的流程图。本实施例可适用于基于非结构化的至少二个图像采集设备对快速运动人体进行动态三维重建的情况。典型地，可适用于基于非结构化的三个图像采集设备对快速运动人体进行三维重建的情况。该方法可以由一种动态三维重建装置来执行，该装置可以由软件和/或硬件的方式实现。典型地，该装置可以是具有显卡，且运算速度满足运算要求的电脑。参见图1，本实施例提供的动态三维重建方法包括：

S110、基于至少两个姿态矩阵，对获取的至少两路深度图进行坐标系统一。

其中所述至少两个姿态矩阵根据至少两路深度图，对采集所述深度图的至少两个图像采集设备进行动态实时标定得到。

图像采集设备可以是任意采集图像或视频的设备。典型地，图像采集设备可以是消费级RGB-D相机。

动态实时标定是指，即便图像采集设备处于运动状态，也可以实现对图像采集设备的标定。

典型地，参见图2根据至少两路深度图，对采集所述深度图的至少两个图像采集设备进行动态实时标定，包括：

S111、获取至少两路深度图；基于所述深度图对采集所述深度图的至少两个图像采集设备进行标定，生成至少两个初始姿态矩阵。

具体地，基于所述深度图确定针对各路深度图的内部人体模型。根据各路深度图的内部人体模型，确定坐标系统一的内部人体模型。根据各路深度图的内部人体模型和坐标系统一的内部人体模型之间的差值，确定初始姿态矩阵。

其中，内部人体模型是描述重建人体骨骼运动的模型。典型地，内部人体模型可以基于SMPL模型(SMPL模型是一种参数化人体模型)确定。

具体地，内部人体模型可以根据确定的人体表面模型估算得到。

S112、基于初始姿态矩阵，将所述深度图进行坐标系统一；基于统一后的所述深度图确定人体表面模型，并根据人体表面模型确定内部人体模型的初始参数。

人体表面模型是描述重建人体外表的模型。

根据深度图对重建人体进行外表面重建，生成人体表面模型。

具体过程可以描述为：根据深度图中的深度信息，确定重建人体的外部轮廓表面，将确定的外部轮廓表面作为人体表面模型。

典型地，基于截断符合距离函数(Truncated Signed Distance Function，TSDF)和Marching Cubes算法，根据深度图中的深度信息，确定重建人体的外部轮廓表面。

S113、根据姿态约束项对所述初始姿态矩阵进行优化，生成优化姿态矩阵，其中所述姿态约束项包括：所述人体表面模型与所述内部人体模型之间的位置差，所述内部人体模型和统一后的所述深度图之间的位置差，基于内部人体模型确定的同一关节点在不同图像采集设备观测中的位置误差，以及人体姿态先验中的至少一种。

具体地，所述根据姿态约束项对所述初始姿态矩阵进行优化，生成优化姿态矩阵，包括：

根据所述姿态约束项构造如下姿态能量方程：

E_init(T,β₀,θ₀)＝λ_vdataE_vdata+λ_sdataE_sdata+λ_pdataE_pdata+λ_priorE_prior

其中，T是姿态矩阵，β₀是形状参数，θ₀是姿态参数，λ_vdata、λ_sdata、λ_pdata、λ_prior是权值系数，E_vdata是基于体素的能量项，用于衡量人体表面模型与所述内部人体模型之间的匹配误差，E_sdata表征基于内部人体模型确定的同一关节点在不同图像采集设备观测中的位置误差，E_pdata是投影数据项，表征基于内部人体模型确定的同一关节点在不同图像采集设备观测中的位置误差，E_prior表征人体姿态先验。

具体E_vdata定义如下：

其中D(·)函数表示输入内部人体模型的体素，输出为双线性插值的TSDF值.并且ψ(·)表示为鲁棒Geman-McClure惩罚函数，

为SMPL平均模板/>

上的顶点。

具体E_pdata定义如下：

其中，

是第i个图像采集设备观测中的对应点对，其中u_i为深度观测中的采样点，/>

为内部人体模型上的顶点。

E_sdata是通过人体骨架的检测引入的，J_p，i为在第i个相机中的人体第j个骨架关节的位置。具体E_sdata定义如下：

其中，Np是人体的骨骼关节的数量，τ(p；i,j)为调配因子，只取0或1。当仅当第p个关节在第i和第j个相机中都观测到时取1，否则取0。

人体姿态先验约束项中使用高斯混合模型(GMM)得到的约束项，用来惩罚人体运动过程中产生的不自然的人体姿态。具体定义如下：

其中，j表示第j个正态分布模型，ω_j为混合权值，μ_j为混合均值，δ_j为混合方差。

S120、对经过坐标系统一的至少两路深度图进行骨骼变形的非刚性对齐。

典型地，参见图3所述对经过坐标系统一的至少两路深度图进行骨骼变形的非刚性对齐，包括：

S121、根据时间戳分别从经过坐标系统一的至少两路深度图中，获取至少二张待同步的深度图。

具体地，根据时间戳从至少二路数据中的每路数据中获取一张时间较为接近的深度图，作为待同步的深度图。

S122、根据所述至少二张待同步的深度图，分别确定至少二个待同步的人体表面模型；基于所述至少二个待同步的人体表面模型，确定针对各路数据的运动姿态增量。

具体地，基于所述至少二个待同步的人体表面模型，确定针对各路数据的运动姿态增量，包括：

根据所述待同步的人体表面模型确定统一的内部人体模型；

将根据至少二个待同步的人体表面模型确定的至少二个待同步的内部人体模型，与统一的内部人体模型进行比较，确定针对各路数据的运动姿态增量。

S123、根据运动姿态增量对所述至少二张待同步的深度图进行骨骼变形的非刚性对齐。

典型地，通过优化如下数据项

得到/>

其中，

和上述逻辑相同。具体为：E_prior＝-log(∑_jω_jN(θ_i；μ,δ_j))。

而E_fit项如下：

其中，P_i为第i个视角下对应点对的集合，u_i为从当前帧的深度图得到的顶点图(Vmap)中的顶点；V_c为几何表面或者SMPL模型上的顶点；(V_c，u_i)表示ICP(Iterativeclosest point，迭代最近点算法)迭代过程中的最近点对，ψ(·)表示为鲁棒Geman-MClure惩罚函数。；

和/>

分别为欧式变换得到的顶点位置和法向量；/>

和/>

分别为LBS蒙皮求得的顶点位置和法向量。

Vmap是描述人体表面模型运动的顶点图，通过对人体表面模型进行顶点抽样得到。

τ₁(v_c)和τ₂(v_c)为数据项双层优化的调配因子，只取0或1。其中，调配因子配置如下：

(1)当经过同步后的Vmap上的顶点与根据当前帧深度图得到的Vmap中最近的顶点在当前帧人体表面模型上时，τ₁(v_c)＝1；

(2)当经过同步后的Vmap上的顶点与根据当前帧深度图得到的Vmap中最近的顶点在当前帧内部人体模型上时，τ₂(v_c)＝1。

和/>

为使用对偶四元数混合方法通过K最近邻(kNN，k-NearestNeighbor)分类算法的临近节点得到的顶点位置和法向向量。

然后，基于各路

优化出统一的全局姿态参数θ，并据此利用如下公式对Vmap进行变形：

其中，G(·)及其他参数同上所述。

S130、基于非刚性对齐的至少两路深度图进行动态三维模型的重建。

实施例二

图4本发明实施例二提供的一种动态三维重建方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图4，本实施例提供的动态三维重建方法，包括：

S210、基于至少两个姿态矩阵，对获取的至少两路深度图进行坐标系统一。

S220、对经过坐标系统一的至少两路深度图进行骨骼变形的非刚性对齐。

S230、根据经过非刚性对齐的参考帧深度图，确定参考帧人体表面模型和参考帧内部人体模型。

其中，参考帧深度图可以根据从目标视频中获取的第一帧深度图确定。

目标视频是包括重建人体的视频。

根据参考帧深度图对参考帧中重建人体进行外表面重建，生成参考帧人体表面模型。

换而言之，参考帧人体表面模型是描述参考帧中重建人体外表的模型。

具体过程可以描述为：根据参考帧深度图中的深度信息，确定重建人体的外部轮廓表面，将确定的外部轮廓表面作为参考帧人体表面模型。

典型地，基于截断符合距离函数(Truncated Signed Distance Function，TSDF)和Marching Cubes算法，根据参考帧深度图中的深度信息，确定重建人体的外部轮廓表面。

参考帧内部人体模型是描述参考帧中重建人体骨骼运动的模型。典型地，人体骨骼模型可以基于SMPL模型(SMPL模型是一种参数化人体模型)确定。

具体地，参考帧内部人体模型可以根据确定的参考帧人体表面模型估算得到。

S240、根据目标视频中除参考帧深度图外的其他帧深度图，确定其他帧人体表面模型和其他帧内部人体模型。

其中所述其他帧深度图经过非刚性对齐。

其他帧人体表面模型是描述其他帧中重建人体外表的模型。其他帧是指目标视频中除参考帧以外的其他帧图像。

其他帧内部人体模型是描述其他帧中重建人体骨骼运动的模型，这里是SMPL。

其他帧人体表面模型和其他帧内部人体模型的确定，与上述参考帧人体表面模型和参考帧内部人体模型的逻辑相同。此处不再赘述。

S250、根据其他帧内部人体模型与参考帧内部人体模型，确定重建人体在参考帧和其他帧之间的骨骼刚性运动场。

具体地，匹配其他帧内部人体模型与参考帧内部人体模型；

根据匹配误差确定重建人体在参考帧和其他帧之间的骨骼刚性运动场。

其中骨骼刚性运动场描述的是重建人体的在参考帧和其他帧之间的姿态运动。骨骼刚性运动场实质描述的是重建人体的刚性运动，也即骨骼运动。

S260、基于骨骼刚性运动场将其他帧内部人体模型和参考帧人体表面模型转换至同一姿态。

可选地，基于骨骼刚性运动场可以将其他帧内部人体模型转换至参考帧人体表面模型所属姿态下，也可以将参考帧内部人体模型转换至其他帧人体表面模型所属姿态下。

S270、根据运动约束项对所述骨骼刚性运动场进行优化，得到完整的非刚性运动场(这个运动场包括刚性的骨骼运动)，其中所述运动约束项包括：其他帧内部人体模型与参考帧内部人体模型之间的运动姿态增量、参考帧人体表面模型与其他帧内部人体模型之间的位置关系、预设正则项、人体姿态先验，以及各路深度图中重建人体的姿态参数与经过各路深度图中重建人体的姿态参数共同优化出的全局姿态参数之间的联系中的至少一种。

其中，其他帧内部人体模型与参考帧内部人体模型之间的运动姿态增量，也可以描述为其他帧内部人体模型与参考帧内部人体模型之间的匹配误差。

参考帧人体表面模型与其他帧内部人体模型之间的位置关系，也可以描述为参考帧人体表面模型与其他帧内部人体模型之间的匹配误差。

具体地，根据运动约束项对所述骨骼刚性运动场进行优化，得到非刚性运动场，包括：

根据运动约束项构造如下运动能量方程，

E_mot(G，θ)＝λ_dataE_data+λ_bindE_bind+λ_regE_reg+λ_priorE_prior+λ_skeleE_skele

其中λ_data、λ_bind、λ_reg、λ_prior和λ_skele是权值系数，G是一种表达物体表面发生任意形状的非刚性变形的模型，θ是姿态参数，E_data是数据项，表征其他帧内部人体模型与参考帧内部人体模型之间的运动姿态增量，E_bind是捆绑项，表征参考帧人体表面模型与其他帧内部人体模型之间的位置关系，E_reg是正则项，表征对参考帧人体表面模型加设关节运动惩罚因子，E_prior是人体先验运动约束项，用于惩罚人体运动过程中产生的不自然的人体姿态，E_skele是骨骼项，表征各路深度图中重建人体的姿态参数与经过各路深度图中重建人体的姿态参数共同优化出的全局姿态参数之间的联系；

最小化所述运动能量方程，将确定的G作为非刚性运动场。

其中，通过E_bind可以更好地以人体骨骼运动先验，限制身体表面的非刚性运动，E_bind定义如下:

其中，L_s表示人体表面节点的索引集合,x_i表示根据LBS蒙皮得到的节点位置，T(x_i)表示x_i节点的非刚性变形矩阵。

E_reg为正则项，是因为考虑到每个非刚性的变形都可以分成细小的局部刚性变形。为了使得模型表面具有一定的平滑，对身体表面节点图加设关节运动惩罚因子，以减弱关节处的平滑效应。具体E_reg定义如下：

其中，L_s表示人体表面节点的索引集合；N(i)表示i节点的邻域；T_i和T_j分别为第i和j个节点的六自由度转换矩阵；W_i和W_j分别为这两个节点相对身体各个骨骼部分的蒙皮权值向量；ρ(·)为Huber惩罚函数，是针对身体表面节点在身体的不同部位(按照关节划分)的节点间不需要有这种平滑而引入，它会减弱来自身体不同部分的节点的正则项效应。

其中，节点是的是嵌入变形图模型的节点，可以从人体表面模型的顶点中采样得到，用于描述人体表面模型的运动。

E_prior是使用高斯混合模型(GMM)得到的人体姿态先验约束项，用来惩罚人体运动过程中产生的不自然的人体姿态。具体E_prior定义如下：

其中j表示第j个正态分布模型，ω_j为混合权值，μ_j为混合均值，δ_j为混合方差。

E_data为数据项，表征每一帧新的深度观测与已有的表面模型间的运动增量。具体E_data定义如下表述为：

p_i为第i个视角下对应点对的集合，u_i为从当前帧深度图得到的顶点图(记为Vmap，通过对当前帧人体表面模型进行顶点抽样得到)中的顶点，u′_j为经过同步后的Vmap上的顶点，v_c为参考帧人体表面模型或者参考帧内部人体模型上的顶点；(v_c，u_i)表示ICP迭代过程中的最近点对，

和/>

分别为欧式变换得到的顶点位置和法向量，同时也为LBS蒙皮求得的顶点位置和法向量。

E_skele为骨骼项，表征

之间的联系。/>

为路深度图中重建人体的姿态参数。θ为经过各路深度图中重建人体的姿态参数共同优化出的全局姿态参数。具体E_skele定义如下表述为：

其中

为u_i点对应的LBS蒙皮权值向量。

S280、基于非刚性运动场对参考帧人体表面模型进行变形，得到动态人体三维模型。

本发明实施例的技术方案，通过首先基于最小化其他帧内部人体模型与参考帧内部人体模型的匹配误差确定骨骼刚性运动场。然后基于其他帧内部人体模型与参考帧内部人体模型之间的运动姿态增量、参考帧人体表面模型与其他帧内部人体模型之间的位置关系、预设正则项、人体姿态先验，以及各路深度图中重建人体的姿态参数与经过各路深度图中重建人体的姿态参数共同优化出的全局姿态参数之间的联系中的至少一个约束维度，对骨骼刚性运动场进行优化，得到非刚性运动场。

其中，因为内部人体模型包括的关节的数量远小于人体表面模型对应的表面嵌入变形图模型的节点数量，所以相比直接基于人体表面模型的运动场确定方法，本发明实施例提供的方案通过内部人体模型进行骨骼刚性运动场以及非刚性运动场的确定，可以提高运动场的计算速度。从而实现对较快人体运动的重建和跟踪。此外，多个约束维度的限定，提高了非刚性运动场的确定准确率。

发明人在实现本发明的过程中发现：只要精度足够，通过TSDF融合能够对于静态场景或者简单运动场景的重建是能够胜任的，但是对于日常中经常出现的碰撞运动会因错误的TSDF融合重建出错误的模型几何表面。对于人体来说，身体各个部位之间的相互触碰是不可避免的(比如击掌、敲打甚至手臂与身体的并拢等动作)，仅仅依靠上述融合方法更新表面几何往往会在碰撞的体素中生成错误表面。其原因是，在当前帧中两个表面靠的很近并且对应同一处深度观测的时候，可能只有一个体素与真实表面对应，而且两个体素在参考帧中相距较远。在这种情形下，其中一个体素的SDF值会被错误更新，产生了错误的表面。错误明显的时候，人们会看到人体表面发生碰撞的区域生长出一个奇怪的不属于人体的面。

为解决上述问题，基于非刚性运动场对参考帧人体表面模型进行变形，得到动态人体三维模型之前，还包括：

根据骨骼刚性运动场将其他帧人体表面模型转换至参考帧人体表面模型的姿态下；

对姿态转换后的其他帧人体表面模型进行均匀体素化，得到均匀且离散的晶格；

将参考帧人体表面模型与姿态转换后的其他帧人体表面模型进行融合，其中若检测到参考帧人体表面模型中有超过一个体素移动到其他帧人体表面模型的相同晶格中，则停止对该体素的融合。

虽然碰撞会经常发生，但对于每秒30帧的深度数据而言，仍有大量的有效数据进行融合计算。故严格停止碰撞部位的体素SDF值更新有效地保证了模型的几何准确性，使得算法更加鲁棒。

实施例三

图5是本发明实施例三提供的动态三维重建方法的流程图。本实施例是在上述实施例的基础上，以基于三路数据进行三维重建，图像采集设备为消费级RGB-D相机，以及利用SMPL模型描述内部人体模型为例提出的一种可选方案。其中，多路相机不需要复杂的预标定工作，同时重建过程中不需要强制相机静止。参见图5，本实施例提供的三维重建方法包括：

在人体运动输入的第一帧三路序列到达时，标定三路数据并利用人体先验将SMPL模型(人体模板)嵌入到重建模型中。通过联合优化相机姿态，人体嵌入SMPL的初始姿态和形状参数，得到良好的初始条件。

具体地，为使得通过采集的第一帧RGBD图可以获取到更多人体表面模型参数。初始帧需要人体保持一个大致的A姿态，即双臂双腿张开，(如双臂张开约45度双腿张开约30度)。此时分别利用来自三台相机的数据求出三台相机的姿态矩阵，T＝{Ti},i＝1,2,3即可实现三路数据的标定工作，同时还在第一帧优化求解出了人体嵌入的SMPL模型的特定参数，θ₀和β₀。

其中，联合求解T以及θ₀和β₀的优化方程如下：

具体方程的各项解释见上述实施例，本实施例对此不在赘述。

综上，通过求解如上的优化问题即可求解出T以及θ₀和β₀。

基于求解出的T对获取的各路数据进行坐标系统一。

对统一后的各路数据记性时间上的同步，具体过程如下：

基于数据异步的三个消费级深度相机，获取三路数据中时间戳最接近的三张深度图像及彩色图像。

其中，时间戳最近，但仍不同步。

参见图6，对三路当前获取的深度图(

和/>

)和对应彩色图(/>

和/>

)进行表面化处理：基于TSDF融合得到了三个人体表面模型；

基于三路深度数据共同优化得到统一的骨骼运动姿态，也即统一的人体骨骼模型；

然后根据统一的骨骼运动姿态和每一路的深度图，确定基于各路深度数据的三个骨骼运动姿态：第一姿态、第二姿态和第三姿态；

根据统一的骨骼运动姿态和基于各路深度数据的三个骨骼运动姿态，确定基于各路深度数据的三个运动姿态增量；基于三个运动增量对三路数据进行非刚性变形，即可得到对齐后的三路数据统一的顶点图(Vmap)、法向图(Nmap)和颜色图(Cmap)。

具体实现表述如下：

通过优化如下数据项

得到/>

其中

表示面向不同相机视角的姿态参数，i＝1,2,3代表三个相机。换而言之，

表示将SMPL模型描述骨架的姿态过拟合到当前帧的RGBD输入中，也就是第i个相机的当前深度观测。

对于当前帧深度图构成的Vmap中每一个点u_i,将三个过拟合的姿态参数

共同优化出一个全局姿态参数θ。变形后得到的统一Vmap上的点通过骨架变形表示为：

其中，G(·)同上所述。

基于如下能量方程和求解出的

优化求解全局姿态参数θ和人体表面模型的非刚性运动场：

通过阻尼最小二乘法(LM)优化求解如上的能量方程，确定非刚性运动场。

在得到非刚性运动场后，可以将多路深度观测融合到参考帧人体表面模型中，并且通过该时刻的运动场可以将参考帧人体表面模型变形到当前帧下，构成动态的运动模型。

在得到了TSDF模型后，经过传统的marching cubes算法生成三角面片后得到了人体的几何模型，即完成了动态三维重建的工作。

为了避免碰撞运动因错误的TSDF融合重建出错误的模型几何表面，在将多路深度观测融合到参考帧人体表面模型的过程中，将在当前帧人体表面模型做均匀体素化，得到均匀且离散的晶格。若检测到参考帧人体表面模型中有超过一个体素移动到了当前帧人体表面模型中相同的晶格，则停止对该体素的融合。

本实施例中涉及的与上述实施例中相同的参数的解释也相同，本实施例对此不在赘述。

本实施例的技术方案，通过基于人体骨骼模型确定的运动姿态增量实现自动在线标定和对各路数据的时间同步。通过多维度运动约束项对基于人体骨骼模型确定的骨骼刚性运动场进行优化，实现对快速运动的重建效率。在人体表面模型融合的过程中，通过对发生碰撞的体素不做融合处理，从而避免融合错误。

需要说明的是，基于上述实施例的技术教导，本领域技术人员有动机将上述实施方式进行组合，以提高动态三维重建的鲁棒性。

实施例四

图7是本发明实施例四提供的一种动态三维重建装置的结构示意图。参见图7，本实施例提供的动态三维重建装置包括：在线标定模块10、非刚性对齐模块20和三维重建模块30.

其中，在线标定模块10，用于基于至少两个姿态矩阵，对获取的至少两路深度图进行坐标系统一，其中所述至少两个姿态矩阵根据至少两路深度图，对采集所述深度图的至少两个图像采集设备进行动态实时标定得到；

非刚性对齐模块20，用于对经过坐标系统一的至少两路深度图进行骨骼变形的非刚性对齐；

三维重建模块30，用于基于非刚性对齐的至少两路深度图进行动态三维模型的重建。

进一步地，在线标定模块，包括：深度图获取单元、初始标定单元、统一单元、初始参数确定单元和优化标定单元。

其中，深度图获取单元，用于获取至少两路深度图；

初始标定单元，用于基于所述深度图对采集所述深度图的至少两个图像采集设备进行标定，生成至少两个初始姿态矩阵；

统一单元，用于基于初始姿态矩阵，将所述深度图进行坐标系统一；

初始参数确定单元，用于基于统一后的所述深度图确定人体表面模型，并根据人体表面模型确定内部人体模型的初始参数；

优化标定单元，用于根据姿态约束项对所述初始姿态矩阵进行优化，生成优化姿态矩阵，其中所述姿态约束项包括：所述人体表面模型与所述内部人体模型之间的位置差，所述内部人体模型和统一后的所述深度图之间的位置差，基于内部人体模型确定的同一关节点在不同图像采集设备观测中的位置误差，以及人体姿态先验中的至少一种。

进一步地，所述非刚性对齐模块，包括：深度图获取单元、模型确定单元、增量确定单元和非刚性对齐单元。

其中，深度图获取单元，用于根据时间戳分别从经过坐标系统一的至少两路深度图中，获取至少二张待同步的深度图；

模型确定单元，用于根据所述至少二张待同步的深度图，分别确定至少二个待同步的人体表面模型；

增量确定单元，用于基于所述至少二个待同步的人体表面模型，确定针对各路深度图的运动姿态增量；

非刚性对齐单元，用于根据运动姿态增量对所述至少二张待同步的深度图进行骨骼变形的非刚性对齐。

进一步地，增量确定单元具体用于：

根据所述待同步的人体表面模型确定统一的内部人体模型；

进一步地，所述三维重建模块，包括：参考帧模型确定单元、其他帧模型确定单元、刚性运动确定单元、姿态转换单元、非刚性运动场确定单元和模型重建单元。

其中，参考帧模型确定单元，用于根据经过非刚性对齐的参考帧深度图，确定参考帧人体表面模型和参考帧内部人体模型；

其他帧模型确定单元，用于根据目标视频中除参考帧深度图外的其他帧深度图，确定其他帧人体表面模型和其他帧内部人体模型，其中所述其他帧深度图经过非刚性对齐；

刚性运动确定单元，用于根据其他帧内部人体模型与参考帧内部人体模型，确定重建人体在参考帧和其他帧之间的骨骼刚性运动场；

姿态转换单元，用于基于骨骼刚性运动场将其他帧内部人体模型和参考帧人体表面模型转换至同一姿态；

非刚性运动场确定单元，用于根据运动约束项对所述骨骼刚性运动场进行优化，得到最终的非刚性运动场，其中所述运动约束项包括：其他帧内部人体模型与参考帧内部人体模型之间的运动姿态增量、参考帧人体表面模型与其他帧内部人体模型之间的位置关系、预设正则项、人体姿态先验，以及各路深度图中重建人体的姿态参数与经过各路深度图中重建人体的姿态参数共同优化出的全局姿态参数之间的联系中的至少一种；

模型重建单元，用于基于非刚性运动场对参考帧人体表面模型进行变形，得到动态人体三维模型。

进一步地，所述的装置，还包括：运动姿态转换模块、晶格化模块和模型融合模块。

其中，运动姿态转换模块，用于基于非刚性运动场对参考帧人体表面模型进行变形，得到动态人体三维模型之前，根据骨骼刚性运动场将其他帧人体表面模型转换至参考帧人体表面模型的姿态下；

晶格化模块，用于对姿态转换后的其他帧人体表面模型进行均匀体素化，得到均匀且离散的晶格；

模型融合模块，用于将参考帧人体表面模型与姿态转换后的其他帧人体表面模型进行融合，其中若检测到参考帧人体表面模型中有超过一个体素移动到其他帧人体表面模型的相同晶格中，则停止对该体素的融合。

进一步地，优化标定单元具体用于：

根据所述姿态约束项构造如下姿态能量方程：

其中，T是姿态矩阵，β₀是形状参数，θ₀是姿态参数，λ_vdata、λ_sdata、λ_pdata、λ_prior是权值系数，E_vdata是基于体素的能量项，用于衡量人体表面模型与所述内部人体模型之间的匹配误差，E_sdata表征基于内部人体模型确定的同一关节点在不同图像采集设备观测中的位置误差，E_pdata是投影数据项，表征基于内部人体模型确定的同一关节点在不同图像采集设备观测中的位置误差，E_prior表征人体姿态先验；

最小化所述姿态能量方程，生成优化姿态矩阵。

进一步地，非刚性运动场确定单元具体用于：

根据运动约束项构造如下运动能量方程，

其中λ_data、λ_bind、λ_reg、λ_prior和λ_skele是权值系数，G是一种表达物体表面发生任意形状的非刚性变形的模型，即非刚性运动场，θ是人体模型姿态参数，表征了每个关节的位置，E_data是数据项，表征其他帧内部人体模型与参考帧内部人体模型之间的运动姿态增量，E_bind是捆绑项，表征参考帧人体表面模型与其他帧内部人体模型之间的位置关系，E_reg是正则项，表征对参考帧人体表面模型加设关节运动惩罚因子，E_prior是人体先验运动约束项，用于惩罚人体运动过程中产生的不自然的人体姿态，E_skele是骨骼项，表征各路深度图中重建人体的姿态参数与经过各路深度图中重建人体的姿态参数共同优化出的全局姿态参数之间的联系；

最小化所述运动能量方程，将确定的G作为求解的非刚性运动场。

本发明实施例所提供的动态三维重建装置可执行本发明任意实施例所提供的动态三维重建方法，具备执行方法相应的功能模块和有益效果。

实施例五

图8为本发明实施例五提供的一种终端的结构示意图，如图8所示，该终端包括处理器70、存储器71、输入装置72和输出装置73；终端中处理器70的数量可以是一个或多个，图8中以一个处理器70为例；终端中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储器71作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的动态三维重建方法对应的程序指令/模块(例如，动态三维重建装置中的在线标定模块10、非刚性对齐模块20和三维重建模块30)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块，从而执行终端的各种功能应用以及数据处理，即实现上述的动态三维重建方法。

存储器71可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器71可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器71可进一步包括相对于处理器70远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置72可用于接收输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。

实施例六

本发明实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种动态三维重建方法，该方法包括：

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的动态三维重建方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述动态三维重建装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例七

图9是本发明实施例七提供的一种动态三维重建系统的结构示意图。参见图9，本实施例提供的动态三维重建系统100包括：至少二个终端110和至少二个图像采集设备120，其中所述至少二个终端110包括一个主终端111和至少一个辅终端112。

其中，至少二个终端110，所述至少二个终端110包括一个主终端111和至少一个辅终端112，其中所述主终端111是上述实施例所述的终端，所述至少二个终端110的一端各连接一个消费级的图像采集设备120，所述至少一个辅终端112的另一端与所述主终端111连接，用于将通过图像采集设备120采集到的深度图进行预处理，并将预处理后的深度图发送给所述主终端111，由所述主终端111根据采集的至少两路深度图进行重建人体的动态三维重建，并显示；

至少二个图像采集设备120，分别与所述至少二个终端110连接用于实时采集动态重建人体不同视角的深度图。

其中，图像采集设备120可以是任意可采集深度图的设备。

本实施例的技术方案，通过基于至少两个消费级RGBD图像采集设备的实时人体运动捕捉和表面重建，解决了现有多视角系统的环境配置复杂。图像采集设备组合结构化和计算资源大的问题以及单视角对快速、遮挡和拓扑变化运动不鲁棒等问题。最终系统可以做到不需要复杂系统配置，做到无结构化的相机配置，面向以人体为核心的动态场景，准确捕捉人体运动并得到较高质量几何和材质模型。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种动态三维重建方法，其特征在于，包括：

基于至少两个姿态矩阵，对获取的至少两路深度图进行坐标系统一，其中所述至少两个姿态矩阵根据至少两路深度图，对采集所述深度图的至少两个图像采集设备进行动态实时标定得到；所述动态实时标定指所述图像采集设备处于运动状态时，对所述图像采集设备进行的标定；

基于非刚性对齐的至少两路深度图进行动态三维模型的重建；

其中，所述对经过坐标系统一的至少两路深度图进行骨骼变形的非刚性对齐，包括：

根据时间戳分别从经过坐标系统一的至少两路深度图中，获取至少二张待同步的深度图；

根据所述至少二张待同步的深度图，分别确定至少二个待同步的人体表面模型；

基于所述至少二个待同步的人体表面模型，确定针对各路深度图的运动姿态增量；

根据运动姿态增量对所述至少二张待同步的深度图进行骨骼变形的非刚性对齐。

2.根据权利要求1所述的方法，其特征在于，根据至少两路深度图，对采集所述深度图的至少两个图像采集设备进行动态实时标定，包括：

获取至少两路深度图；

基于所述深度图对采集所述深度图的至少两个图像采集设备进行标定，生成至少两个初始姿态矩阵；

基于初始姿态矩阵，将所述深度图进行坐标系统一；

基于统一后的所述深度图确定人体表面模型，并根据人体表面模型确定内部人体模型的初始参数；

根据姿态约束项对所述初始姿态矩阵进行优化，生成优化姿态矩阵，其中所述姿态约束项包括：所述人体表面模型与所述内部人体模型之间的位置差，所述内部人体模型和统一后的所述深度图之间的位置差，基于内部人体模型确定的同一关节点在不同图像采集设备观测中的位置误差，以及人体姿态先验中的至少一种。

3.根据权利要求2所述的方法，其特征在于，所述根据姿态约束项对所述初始姿态矩阵进行优化，生成优化姿态矩阵，包括：

根据所述姿态约束项构造如下姿态能量方程：

最小化所述姿态能量方程，生成优化姿态矩阵。

4.根据权利要求1所述的方法，其特征在于，基于所述至少二个待同步的人体表面模型，确定针对各路深度图的运动姿态增量，包括：

根据所述待同步的人体表面模型确定统一的内部人体模型；

5.根据权利要求1所述的方法，其特征在于，所述基于非刚性对齐的至少两路深度图进行动态三维模型的重建，包括：

根据经过非刚性对齐的参考帧深度图，确定参考帧人体表面模型和参考帧内部人体模型；

根据目标视频中除参考帧深度图外的其他帧深度图，确定其他帧人体表面模型和其他帧内部人体模型，其中所述其他帧深度图经过非刚性对齐；

根据其他帧内部人体模型与参考帧内部人体模型，确定重建人体在参考帧和其他帧之间的骨骼刚性运动场；

基于骨骼刚性运动场将其他帧内部人体模型和参考帧人体表面模型转换至同一姿态；

根据运动约束项对所述骨骼刚性运动场进行优化，得到最终的非刚性运动场，其中所述运动约束项包括：其他帧内部人体模型与参考帧内部人体模型之间的运动姿态增量、参考帧人体表面模型与其他帧内部人体模型之间的位置关系、预设正则项、人体姿态先验，以及各路深度图中重建人体的姿态参数与经过各路深度图中重建人体的姿态参数共同优化出的全局姿态参数之间的联系中的至少一种；

基于非刚性运动场对参考帧人体表面模型进行变形，得到动态人体三维模型。

6.根据权利要求5所述的方法，其特征在于，根据运动约束项对所述骨骼刚性运动场进行优化，得到非刚性运动场，包括：

根据运动约束项构造如下运动能量方程，

7.根据权利要求5所述的方法，其特征在于，基于非刚性运动场对参考帧人体表面模型进行变形，得到动态人体三维模型之前，还包括：

8.一种动态三维重建装置，其特征在于，包括：

在线标定模块，用于基于至少两个姿态矩阵，对获取的至少两路深度图进行坐标系统一，其中所述至少两个姿态矩阵根据至少两路深度图，对采集所述深度图的至少两个图像采集设备进行动态实时标定得到；所述动态实时标定指所述图像采集设备处于运动状态时，对所述图像采集设备进行的标定；

三维重建模块，用于基于非刚性对齐的至少两路深度图进行动态三维模型的重建；

所述非刚性对齐模块，包括：

深度图获取单元，用于根据时间戳分别从经过坐标系统一的至少两路深度图中，获取至少二张待同步的深度图；

9.根据权利要求8所述的装置，其特征在于，在线标定模块，包括：

深度图获取单元，用于获取至少两路深度图；

10.根据权利要求8所述的装置，其特征在于，增量确定单元具体用于：

根据所述待同步的人体表面模型确定统一的内部人体模型；

11.根据权利要求8所述的装置，其特征在于，所述三维重建模块，包括：

参考帧模型确定单元，用于根据经过非刚性对齐的参考帧深度图，确定参考帧人体表面模型和参考帧内部人体模型；

12.根据权利要求11所述的装置，其特征在于，还包括：

运动姿态转换模块，用于基于非刚性运动场对参考帧人体表面模型进行变形，得到动态人体三维模型之前，根据骨骼刚性运动场将其他帧人体表面模型转换至参考帧人体表面模型的姿态下；

13.一种终端，其特征在于，所述终端包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的动态三维重建方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的动态三维重建方法。

15.一种动态三维重建系统，其特征在于，包括：

至少二个终端，所述至少二个终端包括一个主终端和至少一个辅终端，其中所述主终端是权利要求13所述的终端，所述至少二个终端的一端各连接一个消费级的图像采集设备，所述至少一个辅终端的另一端与所述主终端连接，用于将通过图像采集设备采集到的深度图进行预处理，并将预处理后的深度图发送给所述主终端，由所述主终端根据采集的至少两路深度图进行重建人体的动态三维重建；