CN111462302A

CN111462302A - 基于深度编码网络的多视点人体动态三维重建方法及系统

Info

Publication number: CN111462302A
Application number: CN202010147764.9A
Authority: CN
Inventors: 于涛; 刘烨斌; 郑泽荣; 戴琼海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-07-28
Anticipated expiration: 2040-03-05
Also published as: CN111462302B

Abstract

本发明公开了一种基于深度编码网络的多视点人体动态三维重建方法及系统，其中，方法包括：利用训练数据对深度编码网络进行训练；使用多个标定好的彩色深度相机采集重建对象的多视点彩色深度信息；根据彩色深度相机的标定信息，将多视点彩色深度信息输入融合到一个统一的坐标系空间中，生成多视点观测信息的输入数据体；将参数化人体模型与输入数据体进行配准，得到对应人体的体态信息，生成输入特征体；将输入数据体和输入特征体作为训练后的深度编码网络的输入，通过深度编码网络得到重建对象的高精度模型。该方法包括高质量深度编码网络的训练和高效推理，可以实现高质量且完整的人体动态三维重建，可以用于虚拟导购员的重建和人体表演捕捉等。

Description

基于深度编码网络的多视点人体动态三维重建方法及系统

技术领域

本发明涉及计算机视觉和图形学技术领域，特别涉及一种基于深度编码网络的多视点人体动态三维重建方法及系统。

背景技术

现有人体动态三维重建方法和系统均采用传统的基于多视点立体匹配或者深度体融合的方法进行重建，这类方法需要对具有复杂运动的动态场景进行准确跟踪，并且融合过程会导致重建结果平滑，最终导致重建精度降低。更为重要的是，给定多视点输入的数据，传统方法无法直接获得完整的重建模型，即便使用传统的模型补全方法(比如泊松重建)可以得到完整的重建模型，但仍然包含较大的重建误差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度编码网络的多视点人体动态三维重建方法，该方法使用深度编码技术将采集对象进行高质量预先编码，通过训练深度编码网络，可以在多视点输入的情况下产生高质量的、完整的人体动态三维重建效果。

本发明的另一个目的在于提出一种基于深度编码网络的多视点人体动态三维重建系统。

为达到上述目的，本发明一方面实施例提出了一种基于深度编码网络的多视点人体动态三维重建方法，包括：

S1，利用训练数据对深度编码网络进行训练；

S2，使用多个预先标定好的彩色深度相机采集重建对象的多视点彩色深度信息；

S3，根据所述彩色深度相机的标定信息，将所述多视点彩色深度信息输入融合到一个统一的坐标系空间中，并生成多视点观测信息的输入数据体；

S4，将参数化人体模型与所述输入数据体进行配准，得到对应人体的体态信息，并生成输入特征体；

S5，将所述输入数据体和所述输入特征体作为所述训练后的深度编码网络的输入，通过所述深度编码网络得到所述重建对象的高精度模型。

本发明实施例的基于深度编码网络的多视点人体动态三维重建方法，通过利用多视点彩色深度相机对人体进行拍摄，通过参数化模型配准及多视点信息体融合等方式获得深度编码网络所需的输入信息，并最终通过编解码实现人体动态三维信息完整且精确的重建。该方法重建精度高，鲁棒性高，任意时刻均可以获得完整的动态三维重建结果，应用广泛，可以在单台PC机、工作站或者云端计算卡等硬件系统上实现。

另外，根据本发明上述实施例的基于深度编码网络的多视点人体动态三维重建方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，在步骤S1中，所述训练数据为同一采集对象在不同姿态下的高精度三维扫描结果，对所述高精度三维扫描数据进行彩色深度图像渲染和传感器噪声叠加，再根据能量函数进行参数化模型的配准。

进一步地，在本发明的一个实施例中，所述传感器噪声的模型包括切向噪声模型和径向噪声模型，均使用高斯模型进行描述，所述切向噪声模型的方差为：

σ_L(θ)[m]＝σ_L(θ)[px]·z·p_x/f_x

其中，σ_L(θ)[px]为像素域切向高斯噪声模型的方差，σ_L(θ)[m]为以米为单位的切向高斯噪声模型的方差，θ为场景观测点的法向与相机观测方向的夹角，z为场景观测点的深度值，p_x为像素尺寸，f_x为相机焦距，p_x与f_x的单位相同；

所述径向噪声模型的方差为：

σ_z(z,θ)＝0.0012+0.0019(z-0.4)²,10°≤θ≤60°

其中，z为场景观测点的深度值。

进一步地，在本发明的一个实施例中，所述能量函数为：

E_fitting＝E_p2p+E_skeleton+E_reg+E_prior

其中，E_fitting为参数化模型配准总能量，E_p2p为参数化模型与高质量扫描结果之间最近邻点对之间所构造的欧式距离能量项，E_skeleton为骨架关节点能量项，E_reg为正则项内，E_prior为先验能量项。

进一步地，在本发明的一个实施例中，在步骤S1中，所述深度编码网络使用深度神经网络结构进行搭建，其训练损失函数包括三维损失函数和二维渲染损失函数，具体为：

其中，m为深度编码网络输出三维模型的顶点总数，v_i为深度编码网络输出三维模型顶点，p_i为v_i在高质量扫描模型上的最近点；

为图像前景分割掩膜，约束该渲染能量项仅作用于图像中的前景区域，R为使用深度编码网络输出三维模型渲染出的彩色图像，C为对应视点相机采集到的真实彩色图像。

进一步地，在本发明的一个实施例中，在步骤S2中，相机标定过程使用彩色深度相机同时采集彩色和红外图像对，然后使用棋盘格进行标定。

进一步地，在本发明的一个实施例中，在所述S3中，所述多视点彩色深度信息的融合采用体融合的方式，具体过程为：遍历采样体中的所有采样点，将其投影至多视点深度图像中计算其平均符号距离函数值，并存储在该采样点所对应的数据空间中，具体公式为：

其中，SDF(v)表示融合后的采样点符号距离函数值；N为采集视点数量；v.z为采样点z方向坐标值；

为二维图像采样函数，给定二维坐标点，返回图像值；

为相机透视投影函数，给定三维空间坐标点v，获得其在二维图像上的投影点坐标，i为视角索引。

进一步地，在本发明的一个实施例中，在所述S4中，进行配准使用的能量函数与所述S1使用的能量函数相同。

进一步地，在本发明的一个实施例中，所述S5进一步包括：将所述输入特征体与所述输入数据体进行逐体素合并，获得所述深度编码网络的编码体，所述编码体经过所述深度编码网络的编码和解码过程，得到高精度模型的输出体表达，从所述输出体表达中提取出高精度模型。

为达到上述目的，本发明另一方面实施例提出了一种基于深度编码网络的多视点人体动态三维重建系统，包括：

深度编码网络训练模块，用于利用训练数据对深度编码网络进行训练；

多视点彩色深度相机，用于采集重建对象的多视点彩色深度信息；

多视点信息融合模块，用于根据所述彩色深度相机的标定信息，将所述多视点彩色深度信息输入融合到一个统一的坐标系空间中，并生成多视点观测信息的输入数据体；

参数化模型配准模块，用于将参数化人体模型与所述输入数据体进行配准，得到对应人体的体态信息，并生成输入特征体；

深度编码网络高质量模型推理模块，用于使用所述深度编码网络从所述输入特征体和所述输入数据体中编解码出高质量人体模型的体表达，并通过遍历体素的方式获得所述重建对象的高精度模型。

本发明实施例的基于深度编码网络的多视点人体动态三维重建系统，通过利用多视点彩色深度相机对人体进行拍摄，通过参数化模型配准及多视点信息体融合等方式获得深度编码网络所需的输入信息，并最终通过编解码实现人体动态三维信息完整且精确的重建。该方法重建精度高，鲁棒性高，任意时刻均可以获得完整的动态三维重建结果，应用广泛，可以在单台PC机、工作站或者云端计算卡等硬件系统上实现。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于深度编码网络的多视点人体动态三维重建方法流程图；

图2为根据本发明一个实施例的基于深度编码网络的多视点人体动态三维重建系统结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于深度编码网络的多视点人体动态三维重建方法及系统。

首先将参照附图描述根据本发明实施例提出的基于深度编码网络的多视点人体动态三维重建方法。

图1为根据本发明一个实施例的基于深度编码网络的多视点人体动态三维重建方法流程图。

如图1所示，该基于深度编码网络的多视点人体动态三维重建方法包括以下步骤：

S1，利用训练数据针对特定采集对象进行深度编码网络的训练。

其中，使用的训练数据为采集对象在不同姿态下的一组高质量扫描数据。

训练数据为同一采集对象在不同姿态下的高精度三维扫描结果，对高精度三维扫描数据进行彩色深度图像渲染和传感器噪声叠加，再根据能量函数进行参数化模型的配准。

具体地，训练数据的生成使用光栅化渲染方法，给定多视点采集相机位置，使用高质量扫描模型渲染多视点彩色深度图像。为渲染出的彩色深度图像加入传感器噪声，以模拟真实传感器采集结果，具体噪声模型包括切向噪声模型和径向噪声模型两部分，均使用高斯模型进行描述，切向高斯噪声模型的方差为：

σ_L(θ)[m]＝σ_L(θ)[px]·z·p_x/f_x

其中，σ_L(θ)[px]为像素域切向高斯噪声模型的方差，σ_L(θ)[m]为以米为单位的切向高斯噪声模型的方差，θ为场景观测点的法向与相机观测方向的夹角，z为场景观测点的深度值，p_x为像素尺寸，f_x为相机焦距，p_x与f_x的单位相同(以像素或者以米为单位)。

径向高斯噪声模型的方差为：

σ_z(z,θ)＝0.0012+0.0019(z-0.4)²,10°≤θ≤60°

其中，z为观测点深度值。

对高质量扫描结果进行参数化模型配准，构造参数化模型到高质量扫描结果之间的匹配能量项，包括点到点三维欧式距离的数据项，骨架关节点匹配数据项还有参数化模型参数的合理分布正则项，具体能量函数如下：

E_fitting＝E_p2p+E_skeleton+E_reg+E_prior

其中，E_fitting为参数化模型配准总能量，E_p2p为参数化模型与高质量扫描结果之间最近邻点对之间所构造的欧式距离能量项，E_skeleton为骨架关节点能量项，用于约束配准后的参数化模型骨架关节点与高质量扫描结果的骨架关节点相互匹配，防止参数化模型在配准过程中陷入局部极小范围，E_reg为正则项，用于约束参数化模型在配准过程中的参数变化满足时域平滑，并且配准结束后的参数化模型参数在正常方差范围内，E_prior为先验能量项，用于约束配准后的参数化人体模型的姿态在人体姿态先验的正常分布范围以内，避免产生歧义人体姿态。

参数化模型配准以后，即可得到用于深度编码网络训练的多视点彩色深度图像和对应参数化模型的输入对以及对应的高质量三维扫描结果(真值)。

可以理解的是，在深度编码网络训练中，所使用的训练数据集为同一采集对象在不同姿态下的高精度三维扫描数据，并在此基础上进行彩色深度图像渲染和传感器噪声叠加，以生成符合实际观测的训练数据

深度编码网络使用深度神经网络结构进行搭建，属于隐式模型，其训练损失函数包括三维损失函数和二维渲染损失函数，具体如下：

其中，对于三维损失函数E_3D，m为深度编码网络输出三维模型(后文简称为重建模型)的顶点总数，v_i为重建模型顶点，p_i为v_i在高质量扫描模型上的最近点；对于二维渲染损失函数，

为图像前景分割掩膜，约束该渲染能量项仅作用于图像中的前景区域，R为使用重建模型渲染出的彩色图像，C为对应视点相机采集到的真实彩色图像。

针对高质量深度编码的需求，针对不同输入体分辨率，统一使用8层全连接编码网络和8层全连接解码网络实现深度编码网络，结合双曲正切非线性激活进行高质量模型推理。

S2，使用多个预先标定好的彩色深度相机采集重建对象的多视点彩色深度信息作为输入信息。

可以理解的是，使用多个预先标定好的彩色深度相机对人体进行拍摄，获得多视点彩色深度观测信息。

具体地，相机标定过程使用彩色深度相机同时采集彩色和红外图像对，然后使用棋盘格进行标定。

S3，根据彩色深度相机的标定信息，将多视点彩色深度信息输入融合到一个统一的坐标系空间中，并生成多视点观测信息的输入数据体。

多视点深度信息的融合采用体融合的方式，具体操作方式为：遍历采样体中的所有采样点，将其投影至多视点深度图像中计算其平均符号距离函数值，并存储在该采样点所对应的数据空间中，具体公式为：

为二维图像采样函数，给定二维坐标点，返回图像值；

S4，将参数化人体模型与输入数据体进行配准，得到对应人体的体态信息，并生成输入特征体。

其中，在配准时，使用的能量函数与上述配准使用的能量函数相同，具体为：

E_fitting＝E_p2p+E_skeleton+E_reg+E_prior

其中，E_skeleton中高质量扫描模型三维骨架计算方法：首先使用环绕相机视点对高质量扫描模型进行彩色图像渲染，然后使用二维骨架关键点检测算法进行二维骨架关键点检测，最后通过对极几何的约束将多视点二维骨架关键点检测结果进行匹配，计算出三维骨架关键点位置。

在参数化人体配准过程中，使用能量最小化的方法，衡量匹配程度的数据项为所有参数化人体模型顶点到其在高质量扫描结果上的最近点的距离之和。

S5，将输入数据体和输入特征体作为训练后的深度编码网络的输入，通过深度编码网络得到重建对象的高精度模型。

根据预训练的深度编码网络，使用输入数据体作为输入，结合参数化人体模型生成的输入特征体，得到高精度动态三维重建结果。

具体地，首先使用参数化人体模型生成特征体，即将参数化人体模型的顶点索引存入特征体中对应体素位置，然后使用三维高斯模型对特征体进行平滑操作，使参数化模型顶点索引特征分布到整个特征体中。获得特征体以后，将特征体与输入数据体进行逐体素合并，获得深度编码网络的编码体，编码体经过深度编码网络的编码和解码过程，得到高精度模型的输出体表达。最后从输出体表达中提取出高精度模型，使用遍历立方体的方法。

上述方法包括高质量深度编码网络的训练和高效推理，可以实现高质量且完整的人体动态三维重建效果，可以应用于诸多领域中，包括虚拟导购员的重建，人体表演捕捉等等。

根据本发明实施例提出的基于深度编码网络的多视点人体动态三维重建方法，通过利用多视点彩色深度相机对人体进行拍摄，通过参数化模型配准及多视点信息体融合等方式获得深度编码网络所需的输入信息，并最终通过编解码实现人体动态三维信息完整且精确的重建。该方法重建精度高，鲁棒性高，任意时刻均可以获得完整的动态三维重建结果，应用广泛，可以在单台PC机、工作站或者云端计算卡等硬件系统上实现。

其次参照附图描述根据本发明实施例提出的基于深度编码网络的多视点人体动态三维重建系统。

如图2所示，该基于深度编码网络的多视点人体动态三维重建系统10包括：深度编码网络训练模块100、多视点彩色深度相机200、多视点信息融合模块300、参数化模型配准模块400和深度编码网络高质量模型推理模块500。

其中，深度编码网络训练模块100，用于利用训练数据对深度编码网络进行训练。

多视点彩色深度相机200，用于采集重建对象的多视点彩色深度信息。

多视点信息融合模块300，用于根据彩色深度相机的标定信息，将多视点彩色深度信息输入融合到一个统一的坐标系空间中，并生成多视点观测信息的输入数据体。

参数化模型配准模块400，用于将参数化人体模型与输入数据体进行配准，得到对应人体的体态信息，并生成输入特征体。

深度编码网络高质量模型推理模块500，用于使用深度编码网络从特征体和输入数据体中编解码出高质量人体模型的体表达，并最终通过遍历体素的方式获得完整且高质量的动态三维模型。

需要说明的是，前述对基于深度编码网络的多视点人体动态三维重建方法实施例的解释说明也适用于该实施例的系统，此处不再赘述。

根据本发明实施例提出的基于深度编码网络的多视点人体动态三维重建系统，通过利用深度神经网络对复杂数据的编解码能力，将高质量扫描结果进行高效编码，并具有在新的人体姿态下进行高质量模型推理的能力。使用多视点低质量彩色深度信息作为输入，重建出完整且精确的人体动态三维信息，可以应用于人体表演捕捉、自由视点渲染以及影视游戏制作等领域，可以在单台PC机、工作站或者云端计算服务器上快速实现执行。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度编码网络的多视点人体动态三维重建方法，其特征在于，包括以下步骤：

S1，利用训练数据对深度编码网络进行训练；

2.根据权利要求1所述的基于深度编码网络的多视点人体动态三维重建方法，其特征在于，在步骤S1中，所述训练数据为同一采集对象在不同姿态下的高精度三维扫描结果，对所述高精度三维扫描数据进行彩色深度图像渲染和传感器噪声叠加，再根据能量函数进行参数化模型的配准。

3.根据权利要求2所述的基于深度编码网络的多视点人体动态三维重建方法，其特征在于，所述传感器噪声的模型包括切向噪声模型和径向噪声模型，均使用高斯模型进行描述，所述切向噪声模型的方差为：

σ_L(θ)[m]＝σ_L(θ)[px]·z·p_x/f_x

所述径向噪声模型的方差为：

σ_z(z，θ)＝0.0012+0.0019(z-0.4)²，10°≤θ≤60°

60°＜θ≤90°

其中，z为场景观测点的深度值。

4.根据权利要求2所述的基于深度编码网络的多视点人体动态三维重建方法，其特征在于，所述能量函数为：

E_fitting＝E_p2p+E_skeleton+E_reg+E_prior

5.根据权利要求1所述的基于深度编码网络的多视点人体动态三维重建方法，其特征在于，在步骤S1中，所述深度编码网络使用深度神经网络结构进行搭建，其训练损失函数包括三维损失函数和二维渲染损失函数，具体为：

6.根据权利要求1所述的基于深度编码网络的多视点人体动态三维重建方法，其特征在于，在步骤S2中，相机标定过程使用彩色深度相机同时采集彩色和红外图像对，然后使用棋盘格进行标定。

7.根据权利要求1所述的基于深度编码网络的多视点人体动态三维重建方法，其特征在于，在所述S3中，所述多视点彩色深度信息的融合采用体融合的方式，具体过程为：遍历采样体中的所有采样点，将其投影至多视点深度图像中计算其平均符号距离函数值，并存储在该采样点所对应的数据空间中，具体公式为：

为二维图像采样函数，给定二维坐标点，返回图像值；

8.根据权利要求4所述的基于深度编码网络的多视点人体动态三维重建方法，其特征在于，在所述S4中，进行配准使用的能量函数与所述S1使用的能量函数相同。

9.根据权利要求1所述的基于深度编码网络的多视点人体动态三维重建方法，其特征在于，所述S5进一步包括：将所述输入特征体与所述输入数据体进行逐体素合并，获得所述深度编码网络的编码体，所述编码体经过所述深度编码网络的编码和解码过程，得到高精度模型的输出体表达，从所述输出体表达中提取出高精度模型。

10.一种基于深度编码网络的多视点人体动态三维重建系统，其特征在于，包括：