CN115423924A

CN115423924A - 基于多视点视频和动态神经辐射场生成三维动态场景方法

Info

Publication number: CN115423924A
Application number: CN202211096135.3A
Authority: CN
Inventors: 黄来响; 李宁; 马玉广; 苟振兴
Original assignee: Yaozai Shandong Digital Technology Co ltd
Current assignee: Yaozai Shandong Digital Technology Co ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2022-12-02

Abstract

本发明适用于场景构建技术领域，提供了一种基于多视点视频和动态神经辐射场生成三维动态场景方法，包括以下步骤：通过多台相机捕获多视图视频；获得相机的内在和外在参数；通过15个视图来训练动态神经辐射场，其中14个视图观察多人移动，1个视图对所有数据集进行定性和定量评估；使用时变潜代码对动态场景进行建模；根据输入视频的时间变化对具有不同重要性的光线进行跨时间采样；使用MLP架构和分层策略训练动态神经辐射场；生成表示真实世界的三维动态场景。本发明能够以紧凑且富有表现力的形式来表示动态场景的真实世界，使用一组潜代码来表示场景动态，通过结合光线重要性采样的分层训练方案，显著提高生成图像的训练速度和感知质量。

Description

基于多视点视频和动态神经辐射场生成三维动态场景方法

技术领域

本发明涉及场景构建技术领域，具体是涉及一种基于多视点视频和动态神经辐射场生成三维动态场景方法。

背景技术

从电影制作到虚拟现实（VR）和增强现实（AR），真实世界动态场景的真实感表示和渲染是极具挑战性的难题。动态现实世界场景很难使用经典的基于网格的表示进行建模，因为它们通常包含薄结构、半透明对象、镜面反射曲面和拓扑结构，这些结构由于多个对象和人的复杂场景运动而不断演变。

神经辐射场（NeRF）是一种深度渲染方法，其主要特点是场景隐式表达和图像的体积渲染。不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达，NeRF将场景建模成一个连续的5D辐射场隐式存储在神经网络中，输入稀疏的多角度带pose的图像训练得到一个神经辐射场模型，根据这个模型可以渲染出任意视角下的清晰的照片。通俗来讲，就是构造一个隐式的渲染流程，其输入是某个视角下发射的光线的位置o，方向d以及对应的坐标(x,y,z)，送入神经辐射场Fθ得到体积密度和颜色，最后再通过体渲染得到最终的图像。NeRF采用隐式表示3D场景，隐式表示通常用一个函数来描述场景几何，可以理解为将复杂的三维场景表达信息存储在函数的参数中。隐式表示函数是种连续化的表达，对于场景的表达会更为精细。NeRF做到了利用”隐式表示“实现了照片级的视角合成效果，它选择了Volume作为中间3D场景表征，然后再通过体积渲染（Volume Rendering）实现了特定视角照片合成效果。

光场是关于光的某个物理量在空间内的分布，光场描述空间中任意一点向任意方向的光线的强度。完整描述光场的全光函数(Plenoptic Function)是个一个7维函数，包含任意一点的位置(x, y, z)、任意方向、波长(λ)和时间(t)，其中颜色和时间维度的信息通常是被RGB通道和不同帧表示。相机阵列是最经典的光场采集办法，其获取的信息不再是一幅简单的2D像素阵列，而是三维空间中的光线，也就是说光场中是包含三维信息的。6D全光函数是渲染真实世界动态场景的合适表示，因为它完全解释了我们视觉的真实性，并能够在每个时刻渲染每个可能的视图。完全测量光场需要在空间中的每个位置、时间放置一个广角相机。NeRF提供了一种规避此问题的方法：不是直接编码全光函数，而是将场景的辐射场编码为隐式的、基于坐标的函数，可以通过光线投射进行采样以近似全光函数。表示3D视频的问题包括学习3D位置x、方向d、时间t、RGB辐射c和不透明度σ的6D光学函数。基于NeRF学习函数近似静态场景的5D全光函数，向函数添加时间依赖性可以表示动态场景。

但是从动态场景三维重建的角度来看，NeRF有几个较为明显的不足：1.NeRF存在训练速度慢、渲染速度慢的问题，只能用于静态场景、泛化性能差、需要大量视角。使用光场对输入图像光线进行重新采样以生成新视图的方法，其缺点是需要密集采样才能高质量渲染复杂场景。2.直接将动态场景重建为每帧的神经辐射场序列是不可能的，因为其存储空间和训练时间是随时间线性增加的。对视频数据进行基于射线投射的神经渲染需要大量的训练时间，每个epoch的训练迭代次数与输入多视图视频中的像素总数成线性关系。例如，用18台相机记录10秒、30帧/秒的多视图视频，每帧NeRF需要GPU大约15000个小时的训练和1GB的存储。这个10秒、30FPS的多视图视频序列，大约有74亿个射线样本，使用8个NVIDIAVolta级GPU处理大约需要半周时间。更重要的是，这种方式获得的表示只能将世界再现为一组离散的快照，无法再现其真实世界。同时，处理动态对象、渲染密集均匀的体素网格，具有很高的内存复杂性，其限制了重建场景的分辨率和大小。3.采样是基于射线的神经重建方法训练三维视频的最大问题之一。对于自然视频，大部分动态场景要么是不变的，要么在整个观察到的视频中的特定时间戳中仅包含很小的时变辐射变化。因此，均匀采样射线会导致时不变观测值和时变观测值之间的不平衡。这意味着它非常低效并且影响其重建质量：时变区域会更快地达到高重建质量并且被过度采样，而时变区域需要额外的采样，这大大增加了训练时间。

因此，需要提供一种基于多视点视频和动态神经辐射场生成三维动态场景方法，旨在解决上述问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于多视点视频和动态神经辐射场生成三维动态场景方法，以解决上述背景技术中存在的问题。

本发明是这样实现的，一种基于多视点视频和动态神经辐射场生成三维动态场景方法，所述方法包括以下步骤：

通过多台相机捕获多视图视频；

获得相机的内在和外在参数；

通过15个视图来训练动态神经辐射场，其中14个视图观察多人移动，1个视图对所有数据集进行定性和定量评估；

使用时变潜代码对动态场景进行建模；

根据输入视频的时间变化对具有不同重要性的光线进行跨时间采样；

使用MLP架构和分层策略训练动态神经辐射场；

生成表示真实世界的三维动态场景。

作为本发明进一步的方案：通过多台相机捕获多视图视频时，以2k×2k的分辨率和30FPS的帧速率捕获时间同步的多视图视频。

作为本发明进一步的方案：使用时变潜代码zt对动态场景进行建模中，学习了一组时间相关的潜代码FΘ：（x，d，zt）→（c，σ），其中t为离散时间变量，x表示位置，d表示方向，c为RGB辐射，σ为不透明度。

作为本发明进一步的方案：根据输入视频的时间变化对具有不同重要性的光线进行跨时间采样中，对于在时间t内观察到的每条射线r计算权重ω(t)(r)，具体的，每次训练迭代中随机选择一个时间范围t，先对帧t的所有输入视图中的光线权重进行归一化，然后根据这些权重应用逆变换采样来选择光线，根据每条光线的颜色与其在时间上的全局中值的残差来计算每条光线的权重，同时也计算每两个连续帧中的色差均值和方差以计算每条光线的权重，结合上述两种策略对具有不同重要性的光线进行跨时间采样。

作为本发明进一步的方案：使用MLP架构和分层策略训练动态神经辐射中，实现对前8个MLP层使用512个激活函数的神经元，并使用1024维潜在代码进行训练；；在分层策略训练中，只训练相隔K=30帧的关键帧。

作为本发明进一步的方案：所述生成表示真实世界的三维动态场景的具体步骤为：使用体积渲染技术来渲染在空间和时间上给定查询视图的神经辐射场，以生成表示真实世界的三维动态场景。

与现有技术相比，本发明的有益效果是：

本发明提供了一种使用多视点视频和动态神经辐射场以实现重建三维动态场景的方法，提出了一种新的神经3D视频合成方法，能够以紧凑且富有表现力的形式来表示动态场景的真实世界。本发明的关键技术是一种新的时间调节神经辐射场，它使用潜在代码来表示场景动态，通过结合光线重要性采样的新分层训练方案，能够显著提高生成图像的训练速度和感知质量，是学习动态潜在条件神经辐射场的有效算法，该算法显著提高了训练速度，导致快速收敛，并获得高质量的结果。

附图说明

图1为一种基于多视点视频和动态神经辐射场生成三维动态场景方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，本发明实施例提供了一种基于多视点视频和动态神经辐射场生成三维动态场景方法，所述方法包括以下步骤：

S100，通过多台相机捕获多视图视频；

S200，获得相机的内在和外在参数；

S300，通过15个视图来训练动态神经辐射场，其中14个视图观察多人移动，1个视图对所有数据集进行定性和定量评估；

S400，使用时变潜代码zt对动态场景进行建模；

S500，根据输入视频的时间变化对具有不同重要性的光线进行跨时间采样；

S600，使用MLP架构和分层策略训练动态神经辐射场；

S700，生成表示真实世界的三维动态场景。

本发明实施例中，通过多台相机捕获多视图视频时，以2k×2k的分辨率和30FPS的帧速率捕获时间同步的多视图视频，通过COLMAP获得相机的内在和外在参数；使用时变潜代码zt对动态场景进行建模中，学习了一组时间相关的潜代码FΘ：（x，d，zt）→（c，σ），其中t为离散时间变量，x表示位置，d表示方向，c为RGB辐射，σ为不透明度，潜在代码（latentcodes）提供了动态场景在特定时间状态的紧凑表示，可以处理各种复杂的场景动态，包括变形、拓扑和辐射变化。本发明将位置编码应用于输入位置坐标，以将其映射到更高维的向量。在训练动态神经辐射场之前，本发明在所有帧中独立地随机初始化潜在代码zt。

本发明实施例中，根据输入视频的时间变化对具有不同重要性的光线进行跨时间采样中，对于在时间t内观察到的每条射线r计算权重ω(t)(r)，具体的，每次训练迭代中随机选择一个时间范围t，先对帧t的所有输入视图中的光线权重进行归一化，然后根据这些权重应用逆变换采样来选择光线，根据每条光线的颜色与其在时间上的全局中值的残差来计算每条光线的权重，同时也计算每两个连续帧中的色差均值和方差以计算每条光线的权重，结合上述两种策略，所述采样方法可以快速恢复动态细节。

本发明实施例中，使用与NeRF中相同的MLP架构，实现对前8个MLP层使用512个激活函数的神经元，并使用1024维潜在代码进行训练；在分层策略训练中，只训练相隔K=30帧的关键帧。具体的，使用参数β1=0.9和β2=0.999的Adam优化器，在关键帧训练阶段，设置了5e-4的学习率并训练了300K次迭代。MLP（Multi-Layer Perception）表示多层感知器，是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。

本发明首先使用关键帧执行分层训练，然后在完整序列上执行训练，在这两个阶段，本发明应用光线重要性采样技术来关注具有高时变信息的光线，该光线基于测量时间外观变化的权重图。

另外，为解决时间冗余，本发明提出了两种加速训练过程的策略：（1）分层训练，通过从粗到细的帧选择来优化数据；（2）重要性采样，采样时间变化较大的区域周围的光线。这些策略更关注时间帧集S和像素集I中的“重要”射线来进行训练，这两种策略结合起来可以看作是一种自适应采样方法，有助于显着加快训练速度并提高渲染质量。需要注意的是，本发明不是在所有视频帧上训练动态神经辐射场，而是首先在关键帧上训练，以固定的时间间隔K等距采样所有图像。一旦模型与关键帧监督收敛，本发明使用它来初始化最终模型，所述模型具有与完整视频相同的时间分辨率。由于每个片段中场景的每帧运动（除以相邻关键帧）是平滑的，因此本发明通过在粗略嵌入之间进行线性插值来初始化精细级别的潜在嵌入。最后，本发明使用来自所有帧的数据联合训练，进一步优化网络权重和潜在嵌入。粗略的关键帧模型已经捕获了视频中时不变信息的近似值。因此，精细的全帧训练只需要学习每帧的时变信息。网络参数Θ和潜在代码zt通过最小化渲染颜色^C(r)和真实颜色C(r)之间的ℓ2-loss来同时训练，并对与图像像素对应的所有射线r求和从所有训练摄像机视图R和整个记录的所有时间帧t∈T。本发明评估粗略和精细级别的损失，通过随机采样射线数据并优化每个射线批次的损失，使用此损失函数进行训练动态神经辐射场模型。

最后，使用体积渲染技术来渲染在空间和时间上给定查询视图的神经辐射场，以生成表示真实世界的三维动态场景，用户可从任意视点、任意时间点渲染照片级真实感图像。

综上，本发明通过使用多视点视频和动态神经辐射场改进了基于神经渲染的3D建模和渲染技术，创新性的将神经辐射场NeRF技术用于重建三维动态场景。从多相机记录中重建三维场景，用户可从任意视点、任意时间点渲染照片级真实感图像。

针对NeRF不能用于静态场景的问题，本发明基于NeRF提出了动态神经辐射场：一种新的连续时空神经辐射场表示法。动态神经辐射场直接从多个相机捕获的输入视频中优化，将来自多个相机的大量视频输入压缩为紧凑的6D坐标表示，可以在空间和时间上连续查询。本发明通过动态神经辐射场学习6D全光函数，该场根据位置、视图方向和时变潜码（time-variant latent code）进行调节。本发明能够以紧凑且富有表现力的表示形式表示动态场景的真实世界多视图视频记录。

针对DyNeRF训练复杂、需要大量训练时间的问题，本发明改进了采样的过程。使用分层抽样策略，在粗略层次上进行分层抽样，然后在精细层次上进行重要性抽样。同时使用光线重要性采样技术来关注具有高时变信息的光线，该光线基于测量时间外观变化的权重图，来主要采样时间变化较大的区域周围的光线，更关注时间帧集S和像素集I中的“重要”射线来进行训练，形成了不同的损失函数。本发明通过随机采样射线数据并优化每个射线批次的损失，使用此损失函数进行训练。这种多策略结合的自适应采样方法，有助于显著加快训练速度并提高渲染质量。

以上仅对本发明的较佳实施例进行了详细叙述，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.基于多视点视频和动态神经辐射场生成三维动态场景方法，其特征在于，所述方法包括以下步骤：

通过多台相机捕获多视图视频；

获得相机的内在和外在参数；

使用时变潜代码对动态场景进行建模；

使用MLP架构和分层策略训练动态神经辐射场；

生成表示真实世界的三维动态场景。

2.根据权利要求1所述的基于多视点视频和动态神经辐射场生成三维动态场景方法，其特征在于，通过多台相机捕获多视图视频时，以2k×2k的分辨率和30FPS的帧速率捕获时间同步的多视图视频。

3.根据权利要求1所述的基于多视点视频和动态神经辐射场生成三维动态场景方法，其特征在于，使用时变潜代码zt对动态场景进行建模中，学习了一组时间相关的潜代码FΘ：（x，d，zt）→（c，σ），其中t为离散时间变量，x表示位置，d表示方向，c为RGB辐射，σ为不透明度。

4.根据权利要求1所述的基于多视点视频和动态神经辐射场生成三维动态场景方法，其特征在于，根据输入视频的时间变化对具有不同重要性的光线进行跨时间采样中，对于在时间t内观察到的每条射线r计算权重ω(t)(r)，具体的，每次训练迭代中随机选择一个时间范围t，先对帧t的所有输入视图中的光线权重进行归一化，然后根据这些权重应用逆变换采样来选择光线，根据每条光线的颜色与其在时间上的全局中值的残差来计算每条光线的权重，同时也计算每两个连续帧中的色差均值和方差以计算每条光线的权重，结合上述两种策略对具有不同重要性的光线进行跨时间采样。

5.根据权利要求1所述的基于多视点视频和动态神经辐射场生成三维动态场景方法，其特征在于，使用MLP架构和分层策略训练动态神经辐射场中，实现对前8个MLP层使用512个激活函数的神经元，并使用1024维潜在代码进行训练；在分层策略训练中，只训练相隔K=30帧的关键帧。

6.根据权利要求1所述的基于多视点视频和动态神经辐射场生成三维动态场景方法，其特征在于，所述生成表示真实世界的三维动态场景的具体步骤为：使用体积渲染技术来渲染在空间和时间上给定查询视图的神经辐射场，以生成表示真实世界的三维动态场景。