CN113538667A - 动态场景光场重建方法及装置 - Google Patents

动态场景光场重建方法及装置 Download PDF

Info

Publication number
CN113538667A
CN113538667A CN202111090962.7A CN202111090962A CN113538667A CN 113538667 A CN113538667 A CN 113538667A CN 202111090962 A CN202111090962 A CN 202111090962A CN 113538667 A CN113538667 A CN 113538667A
Authority
CN
China
Prior art keywords
human body
model
rigid
tracking
light field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111090962.7A
Other languages
English (en)
Other versions
CN113538667B (zh
Inventor
方璐
仲大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202111090962.7A priority Critical patent/CN113538667B/zh
Publication of CN113538667A publication Critical patent/CN113538667A/zh
Application granted granted Critical
Publication of CN113538667B publication Critical patent/CN113538667B/zh
Priority to US17/932,544 priority patent/US20230086928A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/557Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/506Illumination models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/344Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10052Images from lightfield camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出一种动态场景光场重建方法和装置,其中,方法包括:通过预训练的语义分割的网络获取人体分割的结果,根据预先获取的场景背景获取物体分割结果,并融合多帧深度图得到几何模型,根据预训练的人体模型补全网络得到完整的人体模型,通过点云配准对准并将对准后的模型进行融合得到物体模型,从而获得具有几何细节并完整的人体模型和物体模型,通过点云配准跟踪刚性物体的运动,以及通过人体骨架跟踪和人体表面节点的非刚性跟踪,重建具有几何细节并完整的人体模型,在时间序列上进行融合操作,通过融合得到重建后的人体模型和重建后的刚性物体模型。本发明针对人与物体交互现象行了优化处理,提升在人与物体交互场景下的动态光场重建的鲁棒性,实现了实时高质量的动态场景的光场重建。

Description

动态场景光场重建方法及装置
技术领域
本发明涉及计算机视觉等技术领域,特别涉及一种动态场景光场重建方法及装置。
背景技术
AR技术首先需要对真实场景进行高质量的建模,然后可以在虚拟空间对重建的模型进行各种操作。然而真实的动态场景包含复杂的人与物体的交互,对这样的动态场景光场重建仍难是一个困难的问题。以往的方法需要使用复杂且昂贵的相机阵列采集数据,然后通过专用服务器进行离线计算来获取高质量的重建结果,然而这样的设备难以推广使用。
高质量的实时三维人体重建对沉浸式VR/AR应用有着重要意义。然而在单目RGBD的输入下,高质量的动态人体重建仍然是一个困难的问题,尤其是在有物体交互和遮挡的时候,重建结果会不稳定。早期的基于模型的方法都会受到预扫描的模板或低效的运行时性能不适用于日常交互应用程序。通过大量的相机和专门的计算服务器高端可以提供高质量的人体重建解决方案这些方法通过大量的相机,借助多视图几何的计算以解决具有挑战性的交互和遮挡模糊问题。然而,它们的计算效率低而且需要昂贵,繁琐的数据采集设备,导致不能应用到日常使用中。单目立体视觉方法采用最轻便的商用RGBD摄像机采集数据,通过时间上的融合管道来构建完整模型。早期处理一般的动态场景的方法没有利用人体的先验信息,重建的动态物体需要运动非常缓慢,而且不能有严重遮挡,结果非常不鲁棒。为了增强对人体重建的鲁棒性,新的工作引入了人体参数模型的先验来处理更复杂的运动,不过这些方法不能重建人与物体交互的情况,在有物体遮挡的时候容易失败。
传统技术有如下缺点:
1. 基于单张RGB或者RGBD的模型学习得到的模型是基于训练数据的先验的,与真实的情况不完全一致,重建模型在正面观测的效果较好,在其他角度的效果往往较差;在时间序列上缺少平滑性。
2. 对物体的处理:不加入人体先验的动态重建方法虽然能够同时重建人和物体,但需要运动场景非常简单,场景不存在明显遮挡,否则非常容易跟踪失败。而引入人体先验信息的方法不能将与人交互的物体重建出来,而且在有物体遮挡的时候容易跟踪失败。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种动态场景光场重建方法,从单目RGBD的输入得到人与物体交互的动态场景的重建模型。针对人与物体交互的场景带来的遮挡问题进行了优化处理,在重建动态人体的同时将刚性物体也重建出来,通过重建的物体模型的先验信息来提升遮挡情况下人体模型的鲁棒性。同时在人体骨架跟踪上引入时序信息的先验来提升鲁棒性。
本发明的第二个目的在于提出一种动态场景光场重建装置。
为达上述目的,本发明第一方面实施例提出了一种动态场景光场重建方法,包括以下步骤:
通过预训练的语义分割的网络获取人体分割的结果,根据预先获取的场景背景获取物体分割结果;
融合所述人体分割的结果和所述物体分割结果的多帧深度图得到几何模型,根据预训练的人体模型补全网络得到完整的人体模型,通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型,以获得具有几何细节并完整的人体模型和物体模型;
通过所述点云配准跟踪刚性物体的运动;以及
通过人体骨架的先验和非刚性点云跟踪重建所述具有几何细节并完整的人体模型;
在获得所述具有几何细节并完整的人体模型的运动场和所述刚性物体的运动后,在时间序列上进行融合操作,通过所述融合操作得到重建后的人体模型和重建后的刚性物体模型。
另外,根据本发明上述实施例的动态场景光场重建方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述方法还包括:根据重建的刚性物体在当前视角下投影的结果,去除所述人体分割的结果中错误的部分。
进一步地,在本发明的一个实施例中,所述根据预训练的人体模型补全网络得到完整的人体模型,包括:
当所述几何模型的平均权重达到特定预设阈值时,触动当前帧的人体模型经过一个训练好的深度学习网络,得到一个完整的人体模型。
进一步地,在本发明的一个实施例中,通过优化函数求解得到所述刚性物体的运动;
所述点云配准的优化函数包含颜色和几何两个优化项,所述优化函数表达式如下:
Figure 892736DEST_PATH_IMAGE001
Figure 219813DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
其中,N是物体的数量,R是通过最近搜索找到的对应点集合,p、q是帧t和帧t−1的对应点,函数C返回点的颜色q,Cp是一个点p的切面上连续的预计算函数,函数f将三维点投影到切线平面,Ti为刚性物体的运动,λcolor是颜色优化项的系数,设置为0.1,λgeo是几何优化项的系数,设置为0.9,Ecolor是颜色优化项的计算表达式,由邻近点的颜色差异计算得到;Egeo是几何优化项的计算表达式,由临近点的空间位置差异计算得到。
进一步地,在本发明的一个实施例中,所述通过人体骨架跟踪包括:通过人体骨架的先验和非刚性点云跟踪以重建所述具有几何细节并完整的人体模型,并在求解人体骨架节点的位置时加入新的约束项:
Figure 35322DEST_PATH_IMAGE004
其中,Egmm是在人与物体交互的情况下采集的人体姿态数据,Elstm是通过时序上的约束项,Esp_h是几何上的交叉项,λgmm,λlstm,λsp_h1分别是优化项的系数。
进一步地,在本发明的一个实施例中,所述通过人体表面节点的非刚性跟踪,包括:
通过联合求解优化方程,优化变量为体型:
Figure DEST_PATH_IMAGE005
,姿势:
Figure 854373DEST_PATH_IMAGE006
,ED非刚性运动场:
Figure DEST_PATH_IMAGE007
,所述优化方程为:
Figure 616793DEST_PATH_IMAGE008
其中,第一项,体素数据项,λvd是优化系数,
Figure DEST_PATH_IMAGE009
描述的是SMPL模型和重建的几何模型之间的误差:
Figure 329534DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE011
的输入为一个点坐标,输出为这个点坐标在TSDF体里面的双线性插值的SDF值,
Figure 191311DEST_PATH_IMAGE012
表示
Figure DEST_PATH_IMAGE013
罚函数。
进一步地,在本发明的一个实施例中,相互作用项
Figure 91134DEST_PATH_IMAGE014
,由如下的点到面距离表示:
Figure DEST_PATH_IMAGE015
其中,C为SMPL上的点
Figure 188403DEST_PATH_IMAGE016
和完整模型上的点u的最近点对集合,P为部分模型的顶点
Figure DEST_PATH_IMAGE017
和完整模型上的点u最近点对集合,
Figure 628087DEST_PATH_IMAGE018
是点的法向量。
进一步地,在本发明的一个实施例中,对每个3D体素
Figure DEST_PATH_IMAGE019
Figure 785399DEST_PATH_IMAGE020
表示通过ED非刚性运动变形后的位置,
Figure DEST_PATH_IMAGE021
表示这个体素周围非空体素的数量;
Figure 172518DEST_PATH_IMAGE022
表示v的TSDF值;
计算当前的SDF值
Figure DEST_PATH_IMAGE023
和更新权重,由下面公式计算:
Figure 683264DEST_PATH_IMAGE024
其中,u是与
Figure DEST_PATH_IMAGE025
对应的在完整上的模型的三维点,
Figure 370598DEST_PATH_IMAGE018
是它的法向量,
Figure 167652DEST_PATH_IMAGE026
是符号函数,由SDF值的正负决定。
进一步地,在本发明的一个实施例中,通过所述SDF值和更新权重,根据融合策略进行融合,通过marching cubes算法,得到完整并且有几何细节的网格模型,所述融合策略为:
Figure DEST_PATH_IMAGE027
其中,
Figure 183013DEST_PATH_IMAGE028
表示v的TSDF值,
Figure DEST_PATH_IMAGE029
表示当前累积的权重。
本发明实施例的动态场景光场重建方法,通过预训练的语义分割的网络获取人体分割的结果,根据预先获取的场景背景获取物体分割结果;融合人体分割的结果和物体分割结果的多帧深度图得到几何模型,根据预训练的人体模型补全网络得到完整的人体模型,通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型,以获得具有几何细节并完整的人体模型和物体模型;通过点云配准跟踪刚性物体的运动;以及通过人体骨架的先验和非刚性点云跟踪重建具有几何细节并完整的人体模型;在获得具有几何细节并完整的人体模型的运动场和刚性物体的运动后,在时间序列上进行融合操作,通过融合操作得到重建后的人体模型和重建后的刚性物体模型。本发明通过在人和物体交互的动态场景下,对刚性物体进行点云跟踪并重建出三维模型,在得到三维模型之后根据模型的先验信息约束人体骨架的跟踪,提升在人与物体交互场景下的动态光场重建的鲁棒性;利用时序信息的先验和采集的人与物体交互的pose先验来增强物体遮挡情况下的人体骨架跟踪效果,在得到遮挡情况下鲁棒的人体骨架跟踪,可以实现在遮挡情况下动态场景的光场重建。
为达上述目的,本发明第二方面实施例提出了一种动态场景光场重建装置,包括:
分割模块,通过预训练的语义分割的网络获取人体分割的结果,根据预先获取的场景背景获取物体分割结果;
配准模块,用于融合所述人体分割的结果和所述物体分割结果的多帧深度图得到几何模型,根据预训练的人体模型补全网络得到完整的人体模型,通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型,以获得具有几何细节并完整的人体模型和物体模型;
跟踪模块,用于通过所述点云配准跟踪刚性物体的运动;以及,
重建模块,用于人体骨架的先验和非刚性点云跟踪重建所述具有几何细节并完整的人体模型;
融合模块,用于在获得所述具有几何细节并完整的人体模型的运动场和所述刚性物体的运动后,在时间序列上进行融合操作,通过所述融合操作得到重建后的人体模型和重建后的刚性物体模型。
本发明实施例的动态场景光场重建装置,通过分割模块,通过预训练的语义分割的网络获取人体分割的结果,根据预先获取的场景背景获取物体分割结果;配准模块,用于融合人体分割的结果和物体分割结果的多帧深度图得到几何模型,根据预训练的人体模型补全网络得到完整的人体模型,通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型,以获得具有几何细节并完整的人体模型和物体模型;跟踪模块,用于通过点云配准跟踪刚性物体的运动;以及,重建模块,用于人体骨架的先验和非刚性点云跟踪重建具有几何细节并完整的人体模型;融合模块,用于在获得具有几何细节并完整的人体模型的运动场和刚性物体的运动后,在时间序列上进行融合操作,通过融合操作得到重建后的人体模型和重建后的刚性物体模型。本发明通过在人和物体交互的动态场景下,对刚性物体进行点云跟踪并重建出三维模型,在得到三维模型之后根据模型的先验信息约束人体骨架的跟踪,提升在人与物体交互场景下的动态光场重建的鲁棒性;利用时序信息的先验和采集的人与物体交互的pose先验来增强物体遮挡情况下的人体骨架跟踪效果,在得到遮挡情况下鲁棒的人体骨架跟踪,可以实现在遮挡情况下动态场景的光场重建。
本发明的有益效果为:
本发明通过设计算法实现适用于基于单目RGBD相机的人与物体交互场景下的动态场景光场重建,具体实现了利用RGBD相机(RGB+深度图像)即可实现快速的、完整的、准确的、高质量的动态人体3D模型和刚性物体模型。具体包括:
1)通过点云配准重建刚性物体;
2)通过人体骨架先验和非刚性跟踪重建人体;
3)通过重建的刚性物体在空间上约束人体骨架跟踪的结果,提升鲁棒性。在人与物体交互并且互相遮挡的情况下可以根据光场重建结果得到动态场景模型。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的动态场景光场重建方法的流程图;
图2为根据本发明一个实施例的动态场景光场重建的总体设计示意图;
图3为根据本发明一个实施例的三维模型重建结果示意图;
图4为根据本发明一个实施例的动态场景光场重建装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的动态场景光场重建方法和装置。
本申请实施例的动态场景光场重建方法,通在单目RGBD相机的输入下,通过非刚性跟踪与人体骨架的先验信息来重建动态人体,通过点云配准来跟踪并重建刚性物体,在得到重建的刚性物体后通过在空间上的优化项来限制人体模型的位置,防止人体模型插入到物体模型中。同时通过重建的刚性物体模型调整原始数据中人体mask提取的结果。如图2所示。
图1为本发明实施例所提供的一种动态场景光场重建方法的流程图。
如图1所示,该方法包括以下步骤:
步骤S1,通过预训练的语义分割的网络获取人体分割的结果,根据预先获取的场景背景获取物体分割结果。
具体的,本发明首先应用语义分割网络获取人体分割部分,根据预先知道的场景背景和人体分割的结果获取场景中存在的物体。
进一步地,语义分割网络的到的人体分割结果有时候会错误的包含物体,我们根据重建的刚性物体在当前视角下投影的结果来去除人体分割中错误的部分。
步骤S2,融合人体分割的结果和物体分割结果的多帧深度图得到几何模型,根据预训练的人体模型补全网络得到完整的人体模型,通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型,以获得具有几何细节并完整的人体模型和物体模型。
可以理解的是,首先得到具有高质量几何细节的人体模型:利用单视角非刚性动态重建技术(ED node-graph based)融合多帧深度图得到当前帧的几何模型(TSDF形式)。例如(1~3s的人体正面视频得到的人体前面的部分模型)。
其次,得到完整的人体模型:也就是说一旦TSDF体的平均权重达到某个阈值(32,可调),就触动当前帧过一个训练好的深度学习网络,得到一个完整的人体模型。具体做法如下:
网络模型参考PiFu,由一个图像编码器和一个MLP构成,不同的是,我们的输入不仅仅是RGB,还加入了D(深度图)和human parsing(人体部分分割图),这样的目的是能够得到尺度以及人体姿态和真实情况(也就是上述融合的几何模型)更逼近的模型。训练数据集可以通过大量的3D人体模型,渲染得到Depth和RGB,经过人体部分分割得到human parsing得到,然后通过该改变的Pifu网络训练得到这个深度学习模型。
最后,得到人体模型融合:在获得了上述两个模型后,通过点云配准来对准这两个模型,然后将对准后的模型进行融合,即通过学习的完整模型补全我们重建的不完整模型,一起构成既有几何细节又完整的人体模型。
步骤S3,通过点云配准跟踪刚性物体的运动。
可以理解的是,对于刚性物体,我们通过点云配准来跟踪它的运动,点云配准的优化函数包含颜色和几何两个优化项,优化函数表达式如下:
Figure 887664DEST_PATH_IMAGE001
Figure 898345DEST_PATH_IMAGE030
Figure 866301DEST_PATH_IMAGE031
其中,N是物体的数量,R是通过最近搜索找到的对应点集合。p、q是帧t和帧t−1的对应点。函数C返回点的颜色q而Cp是一个点p的切面上连续的预计算函数,函数f将三维点投影到切线平面。通过优化上面的误差函数可以求解得到Ti,即刚性物体的运动,λcolor是颜色优化项的系数,设置为0.1,λgeo是几何优化项的系数,设置为0.9,Ecolor是颜色优化项的计算表达式,由邻近点的颜色差异计算得到,Egeo是几何优化项的计算表达式,由临近点的空间位置差异计算得到。
步骤S4,通过人体骨架跟踪和人体表面节点的非刚性跟踪,重建具有几何细节并完整的人体模型。
可以理解的是,通过人体骨架的先验和非刚性点云跟踪可以重建人体模型,在求解人体骨架节点的位置时加入新的约束项:
Figure 368958DEST_PATH_IMAGE032
其中,λgmm,λlstm,λsp_h1分别是优化项的系数,Egmm是在人与物体交互的情况下采集的人体姿态数据,通过高斯混合模型得到在交互场景下的姿态分布,约束当前的姿态估计与高斯混合模型的先验信息尽量保持一致;
Elstm是通过时序上的约束项,我们训练了一个LSTM网络来根据历史的姿态估计预测当前的姿态估计,通过当前姿态估计的预测值来约束当前姿态估计的求解,在人体被物体遮挡的情况下可以根据时序上的连续性来实现较好的骨架运动估计;Esp_h是几何上的交叉项,在得到刚性物体的模型之后,约束人体与物体模型不能在空间中交叉,避免在遮挡的情况下人体模型错误的插入到物体中。
进一步地,人体表面节点的非刚性跟踪,非刚性运动估计: 为了获得更贴近真实的非刚性运动(衣物褶皱等)在姿态估计(骨架运动估计)的基础上,我们求解的优化问题来估计非刚性运动G。我们使用ED node graph和SMPL模型表示整体的人体模型,对于任意3D顶点
Figure 814983DEST_PATH_IMAGE033
Figure 945750DEST_PATH_IMAGE034
表示的是通过ED node graph变形后的位置,
Figure 615765DEST_PATH_IMAGE035
是非刚性运动场。对于SMPL模型,
Figure 199194DEST_PATH_IMAGE036
是统一模板,
Figure 855434DEST_PATH_IMAGE037
是通过形状和姿态参数变形后的模板,其中β表示的是形状参数(体型),θ表示的是姿态参数,对于任顶点
Figure 840707DEST_PATH_IMAGE038
Figure 150466DEST_PATH_IMAGE039
是通过变形后的3D坐标位置。
匹配TSDF形式的部分模型和完整的mesh(网格模型)的具体操作是通过联合求解优化方程,优化变量为体型:
Figure 752349DEST_PATH_IMAGE005
,姿势:
Figure 805755DEST_PATH_IMAGE006
,ED非刚性运动场(从TSDF部分模型到完整模型mesh):
Figure 645535DEST_PATH_IMAGE040
。优化方程为:
Figure 532720DEST_PATH_IMAGE041
其中第一项,体素数据项,λvd是优化系数,
Figure 825161DEST_PATH_IMAGE009
描述的是SMPL模型和重建的几何模型(TSDF体的部分模型)之间的误差:
Figure 213417DEST_PATH_IMAGE010
其中,
Figure 907704DEST_PATH_IMAGE011
的输入为一个点坐标,输出为这个点坐标在TSDF体里面的双线性插值的SDF值,(越小表明离表面越近)。
Figure 559265DEST_PATH_IMAGE012
表示
Figure 11106DEST_PATH_IMAGE013
罚函数。
相互作用项
Figure 406315DEST_PATH_IMAGE014
进一步衡量了部分TSDF模型和SMPL到完整mesh的误差,具体由如下的点到面距离表示:
Figure 955108DEST_PATH_IMAGE042
其中,C为SMPL上的点
Figure 574308DEST_PATH_IMAGE016
和完整模型上的点u的最近点对集合,P为部分模型的顶点
Figure 841342DEST_PATH_IMAGE017
和完整模型上的点u最近点对集合,
Figure 774662DEST_PATH_IMAGE018
是点的法向量,λmdata是相互作用项的系数。
步骤S5,在获得具有几何细节并完整的人体模型的运动场和刚性物体的运动后,在时间序列上进行融合操作,通过融合操作得到重建后的人体模型和重建后的刚性物体模型。
具体的,在获得了人体模型的运动场和刚性物体的运动之后需要在时间序列上进行融合操作,我们在TSDF域下进行融合,通过融合可以得到完整的人体模型和刚性物体模型。
可以理解的是,对每个3D体素
Figure 850066DEST_PATH_IMAGE019
Figure 109009DEST_PATH_IMAGE020
表示它通过ED非刚性运动变形后的位置,
Figure 128918DEST_PATH_IMAGE043
表示这个体素周围非空体素的数量,这个数量越大表示该部分观测越多,越可靠,随着部分模型的一点点融合,从中间到边缘这个数越来越小,所以用它的反比表示融合权重可以达到无缝融合的效果。
Figure 131509DEST_PATH_IMAGE022
表示v的TSDF值,
Figure 654894DEST_PATH_IMAGE044
表示的则是他的当前累积的权重。我们按照如下公式计算对应的当前的SDF值
Figure 234473DEST_PATH_IMAGE023
,和更新权重:
Figure 476098DEST_PATH_IMAGE045
这里,u是与
Figure 16801DEST_PATH_IMAGE025
对应的在完整上的模型的三维点,
Figure 925851DEST_PATH_IMAGE018
是它的法向量。
Figure 526597DEST_PATH_IMAGE046
是符号函数,由SDF值的正负决定。通过上述新的SDF值和跟新权重,按照TSDF融合策略融合:
Figure 396464DEST_PATH_IMAGE047
然后通过marching cubes算法即可从TSDF体中得到一个完整并且有几何细节的网格模型。
根据本发明实施例的动态场景光场重建方法,通过预训练的语义分割的网络获取人体分割的结果,根据预先获取的场景背景获取物体分割结果;融合人体分割的结果和物体分割结果的多帧深度图得到几何模型,根据预训练的人体模型补全网络得到完整的人体模型,通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型,以获得具有几何细节并完整的人体模型和物体模型;通过点云配准跟踪刚性物体的运动;以及通过人体骨架的先验和非刚性点云跟踪重建具有几何细节并完整的人体模型;在获得具有几何细节并完整的人体模型的运动场和刚性物体的运动后,在时间序列上进行融合操作,通过融合操作得到重建后的人体模型和重建后的刚性物体模型。本发明通过在人和物体交互的动态场景下,对刚性物体进行点云跟踪并重建出三维模型,在得到三维模型之后根据模型的先验信息约束人体骨架的跟踪,提升在人与物体交互场景下的动态光场重建的鲁棒性;利用时序信息的先验和采集的人与物体交互的pose先验来增强物体遮挡情况下的人体骨架跟踪效果,在得到遮挡情况下鲁棒的人体骨架跟踪,可以实现在遮挡情况下动态场景的光场重建。
图4为根据本发明一个实施例的动态场景光场重建装置结构示意图。
如图4所示,该装置10包括:分割模块100、配准模块200、跟踪模块300、重建模块400和融合模块500。
分割模块100,通过预训练的语义分割的网络获取人体分割的结果,根据预先获取的场景背景获取物体分割结果;
配准模块200,用于融合人体分割的结果和物体分割结果的多帧深度图得到几何模型,根据预训练的人体模型补全网络得到完整的人体模型,通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型,以获得具有几何细节并完整的人体模型和物体模型;
跟踪模块300,用于通过点云配准跟踪刚性物体的运动;
重建模块400,用于通过人体骨架跟踪和人体表面节点的非刚性跟踪,重建具有几何细节并完整的人体模型;
融合模块500,用于在获得具有几何细节并完整的人体模型的运动场和刚性物体的运动后,在时间序列上进行融合操作,通过融合操作得到重建后的人体模型和重建后的刚性物体模型。
根据本发明实施例提出的动态场景光场重建装置,通过分割模块,通过预训练的语义分割的网络获取人体分割的结果,根据预先获取的场景背景获取物体分割结果;配准模块,用于融合人体分割的结果和物体分割结果的多帧深度图得到几何模型,根据预训练的人体模型补全网络得到完整的人体模型,通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型,以获得具有几何细节并完整的人体模型和物体模型;跟踪模块,用于通过点云配准跟踪刚性物体的运动;以及,重建模块,用于人体骨架的先验和非刚性点云跟踪重建具有几何细节并完整的人体模型;融合模块,用于在获得具有几何细节并完整的人体模型的运动场和刚性物体的运动后,在时间序列上进行融合操作,通过融合操作得到重建后的人体模型和重建后的刚性物体模型。本发明通过在人和物体交互的动态场景下,对刚性物体进行点云跟踪并重建出三维模型,在得到三维模型之后根据模型的先验信息约束人体骨架的跟踪,提升在人与物体交互场景下的动态光场重建的鲁棒性;利用时序信息的先验和采集的人与物体交互的pose先验来增强物体遮挡情况下的人体骨架跟踪效果,在得到遮挡情况下鲁棒的人体骨架跟踪,可以实现在遮挡情况下动态场景的光场重建。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种动态场景光场重建方法,其特征在于,所述方法包括以下步骤:
通过预训练的语义分割的网络获取人体分割的结果,根据预先获取的场景背景获取物体分割结果;
融合所述人体分割的结果和所述物体分割结果的多帧深度图得到几何模型,根据预训练的人体模型补全网络得到完整的人体模型,通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型,以获得具有几何细节并完整的人体模型和物体模型;
通过所述点云配准跟踪刚性物体的运动;以及
通过人体骨架的先验和非刚性点云跟踪重建所述具有几何细节并完整的人体模型;
在获得所述具有几何细节并完整的人体模型的运动场和所述刚性物体的运动后,在时间序列上进行融合操作,通过所述融合操作得到重建后的人体模型和重建后的刚性物体模型。
2.根据权利要求1所述的动态场景光场重建方法,其特征在于,所述方法还包括:
根据重建的刚性物体在当前视角下投影的结果,去除所述人体分割的结果中错误的部分。
3.根据权利要求1所述的动态场景光场重建方法,其特征在于,所述根据预训练的人体模型补全网络得到完整的人体模型,包括:
当所述几何模型的平均权重达到特定预设阈值时,触动当前帧的人体模型经过一个训练好的深度学习网络,得到一个完整的人体模型。
4.根据权利要求1所述的动态场景光场重建方法,其特征在于,通过优化函数求解得到所述刚性物体的运动;
所述点云配准的优化函数包含颜色和几何两个优化项,所述优化函数表达式如下:
Figure 227884DEST_PATH_IMAGE001
Figure 29618DEST_PATH_IMAGE002
Figure 578411DEST_PATH_IMAGE003
其中,N是物体的数量,R是通过最近搜索找到的对应点集合,p、q是帧t和帧t−1的对应点,函数C返回点的颜色q,Cp是一个点p的切面上连续的预计算函数,函数f将三维点投影到切线平面,Ti为刚性物体的运动,λcolor是颜色优化项的系数,设置为0.1,λgeo是几何优化项的系数,设置为0.9,Ecolor是颜色优化项的计算表达式,由邻近点的颜色差异计算得到,Egeo是几何优化项的计算表达式,由临近点的空间位置差异计算得到。
5.根据权利要求1所述的动态场景光场重建方法,其特征在于,所述通过人体骨架跟踪包括:通过人体骨架的先验和非刚性点云跟踪,并在求解人体骨架节点的位置时加入新的约束项:
在求解人体骨架节点的位置时加入新的约束项:
Figure 197611DEST_PATH_IMAGE004
其中,Egmm是在人与物体交互的情况下采集的人体姿态数据,Elstm是通过时序上的约束项,Esp_h是几何上的交叉项,λgmm,λlstm,λsp_h1分别是优化项的系数。
6.根据权利要求1所述的动态场景光场重建方法,其特征在于,所述通过人体表面节点的非刚性跟踪,包括:
通过联合求解优化方程,优化变量为体型:
Figure 464644DEST_PATH_IMAGE005
,姿势:
Figure 663544DEST_PATH_IMAGE006
,ED非刚性运动场:
Figure 473368DEST_PATH_IMAGE007
,所述优化方程为:
Figure 732311DEST_PATH_IMAGE008
其中,第一项,体素数据项,λvd是优化系数,
Figure 486641DEST_PATH_IMAGE009
描述的是SMPL模型和重建的几何模型之间的误差:
Figure 754811DEST_PATH_IMAGE010
其中,
Figure 278196DEST_PATH_IMAGE011
的输入为一个点坐标,输出为这个点坐标在TSDF体里面的双线性插值的SDF值,
Figure 114565DEST_PATH_IMAGE012
表示
Figure 90612DEST_PATH_IMAGE013
罚函数。
7.根据权利要求6所述的动态场景光场重建方法,其特征在于,相互作用项
Figure 631314DEST_PATH_IMAGE014
,由如下的点到面距离表示:
Figure 805944DEST_PATH_IMAGE015
其中,C为SMPL上的点
Figure 141110DEST_PATH_IMAGE016
和完整模型上的点u的最近点对集合,P为部分模型的顶点
Figure 870032DEST_PATH_IMAGE017
和完整模型上的点u最近点对集合,
Figure 355371DEST_PATH_IMAGE018
是点的法向量。
8.根据权利要求6所述的动态场景光场重建方法,其特征在于,对每个3D体素
Figure 853348DEST_PATH_IMAGE019
Figure 359416DEST_PATH_IMAGE020
表示通过ED非刚性运动变形后的位置,
Figure 106792DEST_PATH_IMAGE021
表示这个体素周围非空体素的数量;
Figure 989297DEST_PATH_IMAGE022
表示v的TSDF值;
计算当前的SDF值
Figure 748306DEST_PATH_IMAGE023
和更新权重,由下面公式计算:
Figure 690854DEST_PATH_IMAGE024
其中,u是与
Figure 128789DEST_PATH_IMAGE025
对应的在完整上的模型的三维点,
Figure 80564DEST_PATH_IMAGE018
是它的法向量,
Figure 553134DEST_PATH_IMAGE026
是符号函数,由SDF值的正负决定。
9.根据权利要求8所述的动态场景光场重建方法,其特征在于,通过所述SDF值和更新权重,根据融合策略进行融合,通过marching cubes算法,得到完整并且有几何细节的网格模型,所述融合策略为:
Figure 401004DEST_PATH_IMAGE027
其中,
Figure 732760DEST_PATH_IMAGE028
表示v的TSDF值,W(v)表示当前累积的权重。
10.一种动态场景光场重建装置,其特征在于,包括:
分割模块,用于通过预训练的语义分割的网络获取人体分割的结果,根据预先获取的场景背景获取物体分割结果;
配准模块,用于融合所述人体分割的结果和所述物体分割结果的多帧深度图得到几何模型,根据预训练的人体模型补全网络得到完整的人体模型,通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型,以获得具有几何细节并完整的人体模型和物体模型;
跟踪模块,用于通过所述点云配准跟踪刚性物体的运动;以及,
重建模块,用于通过人体骨架的先验和非刚性点云跟踪重建所述具有几何细节并完整的人体模型;
融合模块,在获得所述具有几何细节并完整的人体模型的运动场和所述刚性物体的运动后,在时间序列上进行融合操作,通过所述融合操作得到重建后的人体模型和重建后的刚性物体模型。
CN202111090962.7A 2021-09-17 2021-09-17 动态场景光场重建方法及装置 Active CN113538667B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111090962.7A CN113538667B (zh) 2021-09-17 2021-09-17 动态场景光场重建方法及装置
US17/932,544 US20230086928A1 (en) 2021-09-17 2022-09-15 Light field reconstruction method and apparatus of a dynamic scene

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111090962.7A CN113538667B (zh) 2021-09-17 2021-09-17 动态场景光场重建方法及装置

Publications (2)

Publication Number Publication Date
CN113538667A true CN113538667A (zh) 2021-10-22
CN113538667B CN113538667B (zh) 2021-12-24

Family

ID=78092873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111090962.7A Active CN113538667B (zh) 2021-09-17 2021-09-17 动态场景光场重建方法及装置

Country Status (2)

Country Link
US (1) US20230086928A1 (zh)
CN (1) CN113538667B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724078A (zh) * 2022-03-28 2022-07-08 西南交通大学 基于目标检测网络与知识推理的人员行为意图识别方法
WO2024007523A1 (zh) * 2022-07-08 2024-01-11 北京大学深圳研究生院 一种点云运动的估计方法、装置、电子设备及存储介质
CN117647788A (zh) * 2024-01-29 2024-03-05 北京清雷科技有限公司 一种基于人体3d点云的危险行为识别方法及设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058366B (zh) * 2023-07-04 2024-03-01 南京航空航天大学 基于预训练大模型的大型飞机大部件点云语义分割方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130250050A1 (en) * 2012-03-23 2013-09-26 Objectvideo, Inc. Video surveillance systems, devices and methods with improved 3d human pose and shape modeling
CN111739161A (zh) * 2020-07-23 2020-10-02 之江实验室 一种有遮挡情况下的人体三维重建方法、装置及电子设备
CN111815696A (zh) * 2019-04-11 2020-10-23 曜科智能科技(上海)有限公司 基于语义实例分割的深度图优化方法、装置、设备和介质
CN111968165A (zh) * 2020-08-19 2020-11-20 北京拙河科技有限公司 动态人体三维模型补全方法、装置、设备和介质
CN111968169A (zh) * 2020-08-19 2020-11-20 北京拙河科技有限公司 动态人体三维重建方法、装置、设备和介质
WO2021077295A1 (zh) * 2019-10-21 2021-04-29 中国科学院自动化研究所 三维人体模型重建方法及存储设备、控制设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130250050A1 (en) * 2012-03-23 2013-09-26 Objectvideo, Inc. Video surveillance systems, devices and methods with improved 3d human pose and shape modeling
CN111815696A (zh) * 2019-04-11 2020-10-23 曜科智能科技(上海)有限公司 基于语义实例分割的深度图优化方法、装置、设备和介质
WO2021077295A1 (zh) * 2019-10-21 2021-04-29 中国科学院自动化研究所 三维人体模型重建方法及存储设备、控制设备
CN111739161A (zh) * 2020-07-23 2020-10-02 之江实验室 一种有遮挡情况下的人体三维重建方法、装置及电子设备
CN111968165A (zh) * 2020-08-19 2020-11-20 北京拙河科技有限公司 动态人体三维模型补全方法、装置、设备和介质
CN111968169A (zh) * 2020-08-19 2020-11-20 北京拙河科技有限公司 动态人体三维重建方法、装置、设备和介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724078A (zh) * 2022-03-28 2022-07-08 西南交通大学 基于目标检测网络与知识推理的人员行为意图识别方法
WO2024007523A1 (zh) * 2022-07-08 2024-01-11 北京大学深圳研究生院 一种点云运动的估计方法、装置、电子设备及存储介质
CN117647788A (zh) * 2024-01-29 2024-03-05 北京清雷科技有限公司 一种基于人体3d点云的危险行为识别方法及设备
CN117647788B (zh) * 2024-01-29 2024-04-26 北京清雷科技有限公司 一种基于人体3d点云的危险行为识别方法及设备

Also Published As

Publication number Publication date
CN113538667B (zh) 2021-12-24
US20230086928A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
CN113538667B (zh) 动态场景光场重建方法及装置
Newcombe et al. Dynamicfusion: Reconstruction and tracking of non-rigid scenes in real-time
Koch Dynamic 3-D scene analysis through synthesis feedback control
US9613420B2 (en) Method for locating a camera and for 3D reconstruction in a partially known environment
Liu et al. A point-cloud-based multiview stereo algorithm for free-viewpoint video
CN110223370B (zh) 一种从单视点图片生成完整人体纹理贴图的方法
Hadfield et al. Scene particles: Unregularized particle-based scene flow estimation
CN108932725B (zh) 基于卷积神经网络的场景流估计方法
CN113421328B (zh) 一种三维人体虚拟化重建方法及装置
Jordt et al. Direct model-based tracking of 3d object deformations in depth and color video
Azad et al. Stereo-based markerless human motion capture for humanoid robot systems
Plankers et al. Automated body modeling from video sequences
CN115496864B (zh) 模型构建方法、重建方法、装置、电子设备及存储介质
CN114450719A (zh) 人体模型重建方法、重建系统及存储介质
Habermann et al. Hdhumans: A hybrid approach for high-fidelity digital humans
Li et al. Three-dimensional motion estimation via matrix completion
Remondino et al. 3D reconstruction of human skeleton from single images or monocular video sequences
CN107767393B (zh) 一种面向移动硬件的场景流估计方法
CN111460741B (zh) 一种基于数据驱动的流体模拟方法
Seeber et al. Realistichands: A hybrid model for 3d hand reconstruction
CN112927348A (zh) 一种基于多视点rgbd相机高分辨率人体三维重建方法
CN115761116B (zh) 一种基于单目相机的透视投影下三维人脸重建方法
Lee et al. High-quality depth estimation using an exemplar 3d model for stereo conversion
Sekkati et al. Joint optical flow estimation, segmentation, and 3d interpretation with level sets
Li et al. Zoom in to the details of human-centric videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant