CN113689539B

CN113689539B - 基于隐式光流场的动态场景实时三维重建方法

Info

Publication number: CN113689539B
Application number: CN202110761086.XA
Authority: CN
Inventors: 徐枫; 林文镔; 雍俊海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2024-04-19
Anticipated expiration: 2041-07-06
Also published as: CN113689539A

Abstract

本发明公开了一种基于隐式光流场的动态场景实时三维重建方法，其中，方法包括：对动态场景进行拍摄获得深度图像，并将深度图像转换为三维点云；使用预先训练的光流估计网络，计算得到相邻两帧图像之间的稠密光流；根据稠密光流和深度图像，反投影得到图像可见部分的三维场景流；根据图像可见部分的三维场景流和重建得到的三维模型，使用隐式光流估计网络预测三维模型表面上所有顶点的三维运动；构建能量函数，优化从标准模型到三维点云的非刚性变形参数；通过深度图像对标准模型进行更新和补全，得到更新后的三维模型。该方法基于隐式光流场的动态场景实时三维重建方法能够准确鲁棒地完成对动态场景的重建，具有实时的运算性能，适用性广。

Description

基于隐式光流场的动态场景实时三维重建方法

技术领域

本发明涉及计算机视觉和计算机图形学技术领域，特别涉及一种基于隐式光流场的动态场景实时三维重建方法与装置。

背景技术

动态场景三维重建是计算机视觉和计算机图形学领域的基础且重要问题。高质量的动态场景三维重建在虚拟现实与增强现实、体育游戏、影视娱乐等领域有广泛的应用前景和重要的应用价值。

相关技术中，基于激光扫描仪或多相机阵列等系统要求扫描过程中要求待扫描对象保持绝对静止，难以处理动态场景，且这类设备价格昂贵，难以普及到普通民众的日常生活中。基于消费级RGBD相机的重建系统则更有利于普通用户的使用，且可实现对动态场景的实时重建。但对于单视角的RGBD相机而言，由于遮挡的存在，现有的基于单视角RGBD相机的动态重建方法无法保证对运动跟踪的鲁棒性，尤其在存在遮挡的情况下，重建系统往往难以准确地进行运动跟踪。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于隐式光流场的动态场景实时三维重建方法，通过隐式光流场估计所有模型表面顶点的三维运动，为重建过程中的运动跟踪提供的更充分的引导，使得动态重建系统能够准确、鲁棒地在存在遮挡的情况下完成对运动的非刚性目标的重建。

本发明的另一个目的在于提出一种基于隐式光流场的动态场景实时三维重建装置。

为达到上述目的，本发明一方面实施例提出了一种基于隐式光流场的动态场景实时三维重建方法，包括以下步骤：

对动态场景进行拍摄获得深度图像，并将所述深度图像转换为三维点云；

使用预先训练的光流估计网络，计算得到相邻两帧图像之间的稠密光流；

根据所述稠密光流和所述深度图像，反投影得到图像可见部分的三维场景流；

根据所述图像可见部分的三维场景流和重建得到的三维模型，使用隐式光流估计网络预测所述三维模型表面上所有顶点的三维运动；

构建能量函数，优化从标准模型到所述三维点云的非刚性变形参数；

通过所述深度图像对所述标准模型进行更新和补全，得到更新后的三维模型。

本发明实施例的基于隐式光流场的动态场景实时三维重建方法，通过对动态场景进行拍摄获得深度图像，并将深度图像转换为三维点云，使用预先训练的光流估计网络，计算得到相邻两帧图像之间的稠密光流，根据深度图像，反投影得到图像可见部分的三维场景流，和重建得到的三维模型，使用隐式光流估计网络预测三维模型表面上所有顶点的三维运动，构建能量函数，优化从标准模型到三维点云的非刚性变形参数，通过深度图像对标准模型进行更新和补全，得到更新后的三维模型，本发明提升了动态场景重建系统对于遮挡的鲁棒性，且具有实时的运算性能，适用性广。

另外，根据本发明上述实施例的基于隐式光流场的动态场景实时三维重建方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述将所述深度图像转换为三维点云，包括：

根据相机的内参矩阵，将深度图像投影到三维空间中，得到三维点云：

其中，为三维顶点坐标，/>为像素坐标，/>为像素深度值。

进一步地，在本发明的一个实施例中，所述使用预先训练的光流估计网络，计算得到相邻两帧图像之间的稠密光流，包括：

记所述稠密光流的映射函数为，对于图像/>上的像素/>，估计所述稠密光流在图像/>上的对应像素位置为/>，结合所述深度图像和所述内参矩阵/>进行反投影，得到像素/>对应的场景流：

。

进一步地，在本发明的一个实施例中，所述隐式光流估计网络，包括：

以的体素作为输入，其中/>为三维体素网络长度，4通道输入中的前3个通道编码图像可见部分的三维运动，最后一个通道编码三维模型的几何形状。

进一步地，在本发明的一个实施例中，所述预测所述三维模型表面上所有顶点的三维运动，包括：

在对某一个顶点的运动进行估计时，通过三线性插值的方式，从不同尺度的特征体中抽取与所述顶点位置相对应的特征向量，并连接各个层级的特征向量，得到一个特征向量，将所述特征向量输入到多层全连接网络中，输出一个3维向量。

进一步地，在本发明的一个实施例中，所述预测所述三维模型表面上所有顶点的三维运动，还包括：

对于大规模顶点的三维运动进行估计，进行一次多层级特征提取，不同的顶点并行地进行特征向量的索引，并将索引得到的特征向量并行地输入后续的多层全连接网络。

进一步地，在本发明的一个实施例中，所述构建能量函数，包括：

根据相邻两帧之间三维模型表面顶点的运动构建约束，并结合深度图像和二维图像光流构建所述能量函数，所述能量函数构建方式如下：

其中，为总能量项，/>为/>时刻的非刚性运动场参数,/>为深度数据项，约束变形后的标准模型与第/>帧深度图像之间的一致性，/>为二维光流数据项，约束第帧与第/>帧之间三维模型表面点投影位置与二维图像光流之间的一致性，/>为三维场景光流数据项，约束第/>帧与第/>帧之间三维模型表面点的三维运动与隐式光流场的估计值一致，/>为对非刚性运动场局部刚性运动的约束，/>、/>、/>和/>分别为各项能量函数的权重。

进一步地，在本发明的一个实施例中，所述通过深度图像对所述标准模型进行更新和补全，得到更新后的三维模型，包括：

通过优化得到所述第帧的非刚性运动场参数/>，所述非刚性变形将所述标准模型变形到与所述第/>帧的深度图像接近的状态。

为达到上述目的，本发明另一方面实施例提出了一种基于隐式光流场的动态场景实时三维重建装置，包括：

获取模块，用于对动态场景进行拍摄获得深度图像，并将深度图像转换为三维点云；

计算模块，用于使用预先训练的光流估计网络，计算得到相邻两帧图像之间的稠密光流；

反投影模块，用于根据稠密光流和深度图像，反投影得到图像可见部分的三维场景流；

预测模块，用于根据图像可见部分的三维场景流和重建得到的三维模型，使用隐式光流估计网络预测三维模型表面上所有顶点的三维运动；

构建模块，用于构建能量函数，优化从标准模型到三维点云的非刚性变形参数；

更新模块，用于通过深度图像对所述标准模型进行更新和补全，得到更新后的三维模型。

本发明实施例的基于隐式光流场的动态场景实时三维重建装置，通过对动态场景进行拍摄获得深度图像，并将深度图像转换为三维点云，使用预先训练的光流估计网络，计算得到相邻两帧图像之间的稠密光流，根据深度图像，反投影得到图像可见部分的三维场景流，和重建得到的三维模型，使用隐式光流估计网络预测三维模型表面上所有顶点的三维运动，构建能量函数，优化从标准模型到三维点云的非刚性变形参数，通过深度图像对标准模型进行更新和补全，得到更新后的三维模型，本发明提升了动态场景重建系统对于遮挡的鲁棒性，且具有实时的运算性能，适用性广。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于隐式光流场的动态场景实时三维重建方法的流程图；

图2为根据本发明一个实施例的基于隐式光流场的动态场景实时三维重建装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于隐式光流场的动态场景实时三维重建方法与装置，首先将参照附图描述根据本发明实施例提出的基于隐式光流场的动态场景实时三维重建方法。

图1是本发明一个实施例的基于隐式光流场的动态场景实时三维重建方法的流程图。

如图1所示，该基于隐式光流场的动态场景实时三维重建方法包括以下步骤：

在步骤S1中，对动态场景进行拍摄获得深度图像，并将深度图像转换为三维点云。

具体的，使用RGBD相机对动态场景进行拍摄，获得彩色、深度图像序列，并将每帧深度图像转换为三维点云。根据相机的内参矩阵，可以将深度图像投影到三维空间中，得到三维点云：

其中，为三维顶点坐标，/>为像素坐标，/>为像素深度值。

在步骤S2中，使用预先训练的光流估计网络，计算得到相邻两帧图像之间的稠密光流。

其中，预先训练的光流估计网络为Teed等人提出的RAFT光流估计网络框架。原始的RAFT网络框架以RGB彩色图像对为输入，当RGB彩色图像出现运动模糊时，光流估计精度将产生明显的下降。本发明以RGBD图像作为输入，使用带有深度信息的合成数据集重新训练RAFT网络，利用深度图像的信息，提升了光流估计网络的精度。

在步骤S3中，根据稠密光流和深度图像，反投影得到图像可见部分的三维场景流。

本发明一个实施例，记稠密光流的映射函数为，对于图像/>上的像素，可估计出其在图像/>上的对应像素位置为/>，要得到对应的三维场景流，需要结合深度图像和内参矩阵/>进行反投影，得到像素/>对应的场景流：

。

在步骤S4中，根据图像可见部分的三维场景流和重建得到的三维模型，使用隐式光流估计网络预测三维模型表面上所有顶点的三维运动。

具体而言，隐式光流估计网络以的体素作为输入，其中/>为三维体素网络长度，4通道输入中的前3个通道编码图像可见部分的三维运动，最后一个通道编码三维模型的几何形状。具体而言，对于其中一个体素所对应的4维向量，若其所处位置在可见部分的顶点附近，则将可见部分的三维运动赋值到该体素对应4维向量的前3维，若不在可见部分的顶点附近，则将其前3维赋值为0；若该体素位于三维模型的表面附近，则将该体素对应4维向量的第4维赋值为1，否则赋值为0。

进一步的，对于输入的体素，本发明通过多层级三维卷积模块提取不同尺度的特征体。在对某一个顶点的运动进行估计时，通过三线性插值的方式，从不同尺度的特征体中抽取与其位置相对应的特征向量，并连接各个层级的特征向量，得到一个特征向量。将该特征向量输入到多层全连接网络中，最终输出一个3维向量，该3维向量即为对该顶点对应的三维运动的估计值。通过以上方式，可以获取空间中任意一点的三维运动，而不需要显式地存储每个顶点的运动，因此将该光流场称为隐式光流场。

由于隐式光流场的训练需要使用物体表面顶点的真实运动信息作为监督，而真实场景中的物体表面的三维运动难以获取，本发明使用合成人体运动数据集AMASS作为训练数据。借助该数据集可合成网络输入所需的图像可见部分的运动以及完整的物体三维模型，同时计算每个顶点的运动作为监督信息。在网络训练时，使用L1损失函数，约束通过网络估计得到的三维运动和真实三维运动一致。

进一步的，对于大规模顶点的三维运动进行估计，仅需要进行一次多层级特征提取。不同的顶点可并行地进行特征向量的索引，并将索引得到的特征向量并行地输入后续的多层全连接网络。因此该隐式光流场可以实时地估计大规模顶点的三维运动。

在步骤S5中，构建能量函数，优化从标准模型到三维点云的非刚性变形参数。

具体的，根据相邻两帧之间三维模型表面顶点的运动构建约束，并结合深度图像和二维图像光流构建能量函数，优化从标准模型到当前三维点云的非刚性变形参数，其中标准模型的姿态通过图像序列的第一帧确定。

能量函数构建方式如下：

其中为总能量项，/>为/>时刻的非刚性运动场参数,/>为深度数据项，约束变形后的标准模型与第/>帧深度图像之间的一致性，/>为二维光流数据项，约束第帧与第/>帧之间三维模型表面点投影位置与二维图像光流之间的一致性，/>为三维场景光流数据项，约束第/>帧与第/>帧之间三维模型表面点的三维运动与隐式光流场的估计值一致，/>为对非刚性运动场局部刚性运动的约束，/>、/>、/>和/>分别为各项能量函数的权重。

具体而言，运动场通过稀疏的变形结点表示，记变形结点集合为/>，变形结点的位置可通过在标准模型表面均匀采样得到。

对于深度数据项有：

其中为标准模型上的顶点，/>为其经过运动场/>进行非刚性变形后的坐标，/>为第/>帧深度图像上的一个像素反投影得到的三维点，其法向量为/>，该像素坐标为，其中/>为投影矩阵。/>为所有模型可见部分顶点/>与其对应深度图像顶点/>之间构成的点对集合，该项能量函数约束顶点/>到点/>所在平面的距离。

对于二维图像光流约束有：

该能量函数约束点对集合所对应的二维投影坐标一致。

对于三维场景光流约束有：

其中和/>分别表示/>和/>帧顶点/>所在位置的变换矩阵，/>为标准模型上的所有表面顶点构成的集合，/>为顶点/>所在位置的隐式三维场景流。该能量函数约束第/>帧与第/>帧之间模型表面顶点运动与隐式光流场之间的一致性。

对于局部刚性运动约束有：

其中表示变形结点/>的邻接结点集，/>和/>分别表示变形结点/>和/>的变换矩阵，和/>分别为变形结点/>和/>的位置。该约束项使得邻近结点的非刚性变形效果尽可能保持一致。

相较于仅使用可见部分的运动对重建系统的非刚性运动进行约束，使用隐式光流场可以对所有的模型表面顶点的运动进行约束，在出现遮挡时，能够更好地引导三维模型的运动场优化，进而提高运动跟踪的鲁棒性。

在步骤S6中，通过深度图像对标准模型进行更新和补全，得到更新后的三维模型。

具体而言，通过步骤S5优化得到了第帧的非刚性运动场参数/>，该非刚性变形可将标准模型变形到与第/>帧的深度图像接近的状态，用于表示标准三维模型的截断有向距离场可根据变形后三维模型到相应深度观测的距离进行加权更新。

综上，通过隐式光流场估计所有模型表面顶点的三维运动，为重建过程中的运动跟踪提供的更充分的引导，使得动态重建系统能够准确、鲁棒地在存在遮挡的情况下完成对运动的非刚性目标的重建。此外，该隐式光流场可在GPU上进行运算加速，具有较高的实时性。本发明提出的基于隐式光流场的动态场景实时三维重建方法能够准确鲁棒地完成对动态场景的重建，且具有实时的运算性能，适用性广。

根据本发明提出的基于隐式光流场的动态场景实时三维重建方法，通过对动态场景进行拍摄获得深度图像，并将深度图像转换为三维点云，使用预先训练的光流估计网络，计算得到相邻两帧图像之间的稠密光流，根据深度图像，反投影得到图像可见部分的三维场景流，和重建得到的三维模型，使用隐式光流估计网络预测三维模型表面上所有顶点的三维运动，构建能量函数，优化从标准模型到三维点云的非刚性变形参数，通过深度图像对标准模型进行更新和补全，得到更新后的三维模型，本发明提升了动态场景重建系统对于遮挡的鲁棒性，且具有实时的运算性能，适用性。

其次参照附图描述根据本发明实施例提出的基于隐式光流场的动态场景实时三维重建装置。

图2是本发明一个实施例的基于隐式光流场的动态场景实时三维重建装置的结构示意图。

如图2所示，该基于隐式光流场的动态场景实时三维重建装置10包括：获取模块100、计算模块200、反投影模块300、预测模块400、构建模块500和更新模块600。

获取模块100，用于对动态场景进行拍摄获得深度图像，并将深度图像转换为三维点云；

计算模块200，用于使用预先训练的光流估计网络，计算得到相邻两帧图像之间的稠密光流；

反投影模块300，用于根据稠密光流和深度图像，反投影得到图像可见部分的三维场景流；

预测模块400，用于根据图像可见部分的三维场景流和重建得到的三维模型，使用隐式光流估计网络预测三维模型表面上所有顶点的三维运动；

构建模块500，用于构建能量函数，优化从标准模型到三维点云的非刚性变形参数；

更新模块600，用于通过深度图像对标准模型进行更新和补全，得到更新后的三维模型。

进一步地，该装置还包括：投影模块，用于根据相机的内参矩阵，将深度图像投影到三维空间中，得到三维点云：

其中，为三维顶点坐标，/>为像素坐标，/>为像素深度值。

需要说明的是，前述对基于隐式光流场的动态场景实时三维重建方法实施例的解释说明也适用于该实施例的基于隐式光流场的动态场景实时三维重建装置，此处不再赘述。

根据本发明实施例提出的基于隐式光流场的动态场景实时三维重建装置，通过对动态场景进行拍摄获得深度图像，并将深度图像转换为三维点云，使用预先训练的光流估计网络，计算得到相邻两帧图像之间的稠密光流，根据深度图像，反投影得到图像可见部分的三维场景流，和重建得到的三维模型，使用隐式光流估计网络预测三维模型表面上所有顶点的三维运动，构建能量函数，优化从标准模型到三维点云的非刚性变形参数，通过深度图像对标准模型进行更新和补全，得到更新后的三维模型，本发明提升了动态场景重建系统对于遮挡的鲁棒性，且具有实时的运算性能，适用性。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于隐式光流场的动态场景实时三维重建方法，其特征在于，包括以下步骤：

通过所述深度图像对所述标准模型进行更新和补全，得到更新后的三维模型；

其中，所述将所述深度图像转换为三维点云，包括：

其中，为三维顶点坐标，/>为像素坐标，/>为像素深度值；

其中，所述使用预先训练的光流估计网络，计算得到相邻两帧图像之间的稠密光流，包括：

；

所述构建能量函数，包括：

其中，, 为总能量项，/>为/>时刻的非刚性运动场参数,/>为深度数据项，约束变形后的标准模型与第/>帧深度图像之间的一致性，/>为二维光流数据项，约束第帧与第/>帧之间三维模型表面点投影位置与二维图像光流之间的一致性，/>为三维场景光流数据项，约束第/>帧与第/>帧之间三维模型表面点的三维运动与隐式光流场的估计值一致，/>为对非刚性运动场局部刚性运动的约束，/>、/>、/>和/>分别为各项能量函数的权重。

2.根据权利要求1所述的基于隐式光流场的动态场景实时三维重建方法，其特征在于，所述隐式光流估计网络，包括：

3.根据权利要求1所述的基于隐式光流场的动态场景实时三维重建方法，其特征在于，所述预测所述三维模型表面上所有顶点的三维运动，包括：

4.根据权利要求1所述的基于隐式光流场的动态场景实时三维重建方法，其特征在于，所述预测所述三维模型表面上所有顶点的三维运动，还包括：

5.根据权利要求1所述的基于隐式光流场的动态场景实时三维重建方法，其特征在于，所述通过深度图像对所述标准模型进行更新和补全，得到更新后的三维模型，包括：