CN114863038A

CN114863038A - 基于显式几何形变的实时动态自由视角合成方法及装置

Info

Publication number: CN114863038A
Application number: CN202210792906.6A
Authority: CN
Inventors: 徐震; 孙佳明; 鲍虎军; 周晓巍
Original assignee: Hangzhou Xiangyan Technology Co ltd
Current assignee: Hangzhou Xiangyan Technology Co ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-08-05
Anticipated expiration: 2042-07-07
Also published as: CN114863038B

Abstract

本发明公开了一种基于显式几何形变的实时动态场景自由视角合成方法及装置，在预处理阶段，获得基准坐标系下的神经辐射场与对应显式几何表示；同时提取实时辐射场和显式几何形变，在运行阶段，首先将显式几何从基准坐标系映射到世界坐标系下，获得从基准坐标系到世界坐标系的矩阵变换关系，并通过相机投影将世界坐标系下的显示几何映射到屏幕空间，对于有投影的所有像素点，根据投影矩阵与变换矩阵的逆，逆映射到基准坐标系下，并根据视角获得少量需要查询实时辐射场的坐标，查询后通过体渲染获得每个像素点的颜色值。本发明在实时获得自由视角合成的同时能够很好的控制储存空间与内存开销，并能够高质量的将实时辐射场拓展到动态场景。

Description

基于显式几何形变的实时动态自由视角合成方法及装置

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于显式几何形变的实时动态自由视角合成方法及装置。

背景技术

自由视角合成（即动态场景的自由视角合成）在增强现实、虚拟现实领域及体育转播和远程会议上有着众多实际应用场景。近年来元宇宙概念的兴起，实时动态场景下的自由视角合成技术成为连接人体感官与真实虚拟场景的桥梁。

静态场景的自由视角合成的目的是：给定一系列同一场景不同视角下的图像，获取该场景在任意新视角（即新的相机位姿）下的图像。动态场景的自由视角合成解决的是给定同一动态场景在不同视角下的图像（例如足球场上运动的球员、视频会议中进行演讲的汇报人、或草坪上玩耍的猫），获取该场景在任意新视角以及场景中物体任意新动作下的图像。而实时动态场景自由视角合成便是要求输入新视角与新动作后即时获得上述图像。

现有解决自由视角合成问题的方法可以分为基于基图片绘制和基于场景重建两类。基于基图片的方法可以获得较好的自由视角图像质量，但其视角与时序连续性受到基图片数量限制。基于场景重建方法通过三维重建技术获得场景集合并通过图形学渲染得到新视角下的图像，但此类方法往往只能处理静态场景的自由视角合成，且其真实感依赖于渲染管线。

神经辐射场是近年来兴起的通过体渲染对场景的颜色与几何进行隐式重建的方法，这类方法将静态场景表达为3维坐标点与2维视角方向的5维函数（用神经网络拟合获得），通过对屏幕采样射线进行体渲染获得自由视角合成结果，能够生成具有真实感且视角连续的新视角合成结果，但受网络查询效率与体渲染的限制，其运行时速度很慢且无法处理动态环境。

为了提高神经辐射场的运行时速度，有方法提出通过离散并缓存神经辐射场，并通过数据压缩与投影方法提高神经辐射场的运行时速度，达到实时静态场景的真实感自由视角合成，但该类方法往往有很大的储存开销与内存开销，无法应用于动态场景。

为了将神经辐射场应用于动态场景的自由视角合成，还有一类方法提出使用神经形变场或动态神经辐射场对动态场景进行恢复与自由视角合成，但这类方法的运行时速度仍受限于体渲染的大量采样与神经网络的时间开销，且由于神经形变场的可延伸性较弱，此类方法一般不能处理场景中原本不存在的新动作。

发明内容

本发明针对现有技术的不足，提供一种基于显式几何形变的实时动态自由视角合成方法及装置，本发明方法基于显式几何（例如三角网格模型等显式表面模型）的形变场（即不同坐标系下的矩阵变换关系），将有效神经辐射场采样点映射到基准场景坐标系，同时采用离散化与缓存方法加速基准神经辐射场渲染效率。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种基于显式几何形变的实时动态自由视角合成方法，该方法包括预处理阶段和运行阶段；

(1)预处理阶段，包括：

(1.1)给定动态场景的多视角视频，重建出基准坐标系下的神经辐射场与对应显式几何表示；

(1.2)根据基准坐标系下的神经辐射场，提取动态场景对应的基准坐标系下的实时辐射场；提取基准坐标系下显示几何和动态场景对应的形变场；

(2)运行阶段，包括：

(2.1)将显式几何从基准坐标系映射到世界坐标系下，获得从基准坐标系到世界坐标系的变换关系，并通过投影将世界坐标系下的显示几何映射到屏幕空间；

(2.2)对于有投影的所有像素点，根据投影矩阵与变换矩阵的逆，逆映射到基准坐标系下，并根据视角信息获得需要查询实时辐射场的坐标，查询后通过体渲染获得每个像素点的颜色值。

进一步地，步骤(1.1)中，所述神经辐射场的输入为三维空间点位置以及二维观察方向，输出为三维空间点的颜色以及空间点透明度。

进一步地，步骤(1.1)中，在重建基准坐标系下的神经辐射场的过程中，引入对神经辐射场几何部分的相似性约束，使得空间中邻近点的基准坐标系法向、世界坐标系法向以及位移场空间运动速度相近。

进一步地，步骤(1.1)中，神经辐射场的颜色坐标多层感知机的输入为基准坐标系下的观察方向。

进一步地，步骤(1.2)中，提取实时辐射场的过程中，过滤距离显式几何超过设定距离阈值的网格点，将实时辐射场中八叉树同一叶子节点下不同三维空间位置的采样点均用于该叶子节点的球谐函数投影。

进一步地，步骤(1.2)中，利用参数化梯度下降算法结合位移场的连续性，优化获得显式几何位移场的逆，基于自动梯度求解算法进行求解初始化。

进一步地，步骤(2.1)中，利用顶点着色器并行应用显式几何形变场，并进行投影变换，以获得从基准坐标系到屏幕空间的变换关系。

进一步地，步骤(2.1)中，对于人体数据，利用顶点着色器并行应用线性骨骼蒙皮动画的正向算法的变换关系，获得从形变坐标系到世界坐标系的变换关系。

进一步地，步骤(2.2)中，利用渲染过程以及形变过程的变换关系的逆，通过片段着色器并行地将体渲染所需的采样点以及射线映射到基准坐标系，采样基准坐标系下实时辐射场，利用片段着色器并行运行体渲染算法。

根据本发明的第二方面，提供一种基于显式几何形变的实时动态自由视角合成装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述基于显式几何形变的实时动态自由视角合成方法。

本发明的有益效果是：

由于本发明方法基于显式几何的形变场进行动态场景与抽象基准场景的映射，可以完成任意动作下的新视角合成，包括场景中原本不存在的动作。

由于运行时渲染的所有步骤都可通过GPU并行加速进行，本发明方法可以达成实时动态场景的自由视角合成。

本发明提出的方法无需对不同动作进行缓存与离散化，在实时获得自由视角视频的同时能很好的控制储存空间与内存开销，能很好的将实时辐射场拓展到动态场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的整体流程示意图。

图2是本发明实施例的动态神经辐射场重建流程示意图。

图3是本发明实施例的形变场与实时辐射场提取流程示意图。

图4是本发明实施例的动态神经辐射场实时渲染流程示意图。

图5为本发明实施例提供的基于显式几何形变的实时动态自由视角合成装置结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1所示，本发明提供一种基于显式几何形变的实时动态自由视角合成方法，主要包含两个阶段和四个技术流程，其中流程（1.1）、（1.2）离线运行，流程（2.1）、（2.2）实时运行。本发明方法可以在任意能够通过显式几何形变控制的场景下运行，下述为在动态人体自由视角合成下的实施方式。

一、预处理阶段：

（1.1）动态神经辐射场重建

对于给定动态场景的多视角视频，重建出基准坐标系下的神经辐射场及其对应的显式几何表示（“对应”的含义是：显式几何表示和神经辐射场在基准坐标系下是对齐的）。对于方法中描述的人体的例子，假设有同步的多视角视频及其对应的人体位姿估计和前景蒙版（mask）作为输入。

动态场景神经辐射场重建流程如图2所示。神经辐射场通过坐标多层感知机（多层感知机MLP）将静态场景表达为一个连续的体表示，对三维空间中的任意一点，坐标多层感知机的输入为空间点位置x以及二维观察方向d，输出该点的颜色以及体密度。本发明将动态场景表达为由空间点透明度坐标多层感知机F _o和颜色坐标多层感知机F _c构成的基准静态神经辐射场，以及输入为时间编码θ的形变场T _i（对于人体，时间编码θ为人体位姿特征

）；Peng等人

将形变场表达为一个基于线性人体参数化模型SMPL和人体骨骼蒙皮动画的粗糙运动形变场，以及可优化的蒙皮权重场，本发明将蒙皮权重场替换为可优化的位移场，以获得更优的重建效果，同时，将体密度变换为空间点透明度o可以很好的简化体渲染过程，同时为后续我们从位移场中提取显式几何的形变打下了基石。

具体而言，对于视频的每一帧

，N为视频总帧数，将第i帧对应的几何F _o 定义为：

其中

表示以空间点x和时间编码θ为输入的形变场，

分别为第i帧空间点x处的空间点透明度和高维几何特征向量；

基准坐标系下的颜色坐标多层感知机F _c的输入为几何的法向

，高维几何特征向量

，基准观察方向

，以及时间编码θ，输出为空间点的颜色

。其中的法向

通过对空间点x求导获得，而高维几何特征向量

是F _o的输出，

为T _i的旋转部分。

为了在重建过程中考虑到动态场景中空间点辐射度随着时间发生的变化，本发明设计了一个时间编码提取模块P。具体而言，在人体的例子上，本发明通过一个短小的一维卷积层配合全连接层整合了当前时间戳及其前两帧的

下的位姿参数。选取前两帧的原因是位移对于时间的二次导数是加速度，可以更好的处理动态场景中的运动信号。

在人体数据上本发明利用人体骨骼蒙皮动画来处理粗糙的人体运动。具体而言，给定某一帧i下SMPL三角形网格各个顶点上对于K个（本实施例中K取24）关节点的人体蒙皮权重，本发明将世界坐标系下空间中任意一点x对应的骨骼

的蒙皮权重

定义为距离其最近的M个（本实施例中M取16）顶点的蒙皮权重的加权平均

，其中权重

定义为第m个顶点到该空间点x的距离的倒数，该权重

在被应用于计算蒙皮权重前会首先被正则化到和为一；

为给定的第m个顶点对于骨骼k的人体蒙皮权重。

接着，本发明利用线性骨骼蒙皮动画的正向算法（LBS）获得从形变坐标系到世界坐标系下的映射关系，并通过此映射关系的逆将世界坐标系空间点x映射到形变坐标系空间点

。

其中

和

分别为形变坐标系及世界坐标系下空间点的齐次坐标，

为第i帧下骨骼k的变换（transform）。获得形变坐标系下空间点后，本发明使用一个基于坐标多层感知机的位移场

处理线性骨骼蒙皮动画的正向算法无法处理的高频小型形变

：

，其中的

为人体位姿特征，将形变坐标系空间点

映射到基准坐标系。在重建过程时的动态形变场被定义为：

其中

表示基准坐标系下的空间点坐标；

本发明在将三维空间坐标点以及二维观察方向输入坐标多层感知机之前利用位置编码投影到更高维的坐标系下。对于需要渲染视点下的任意一个像素，本发明定义一条从相机中心点

到世界坐标系下像素坐标的连线，并在其上均匀采样N个（本实施例中N取 64）点，将该连线所在的射线定义为r。在实际实现过程中，本发明将采样点限制在人体位姿所定义的包围盒中。神经辐射场使用体渲染算法的离散近似进行渲染像素值的可微运算，数学意义上其体渲染算法是一种透明度合成算法：

其中

和

分别代表相应采样点处的空间点透明度和颜色；

通过优化每一帧i下对应像素的射线r经过上述体渲染算法渲染出的颜色

和实际图片颜色值

的差距

，可以获得一个动态场景的神经辐射场表示。

其中

表示前景蒙版中的像素点。在优化过程中，为了获得高质量的显式几何，以及高质量的位移场表达，本发明进一步加入对基准坐标系神经辐射场几何部分的相似性约束

：

其中S为所有空间点透明度在一定阈值内的接近表面的点，实际实现中阈值选取

。

表示一个一定范围内随机的三维扰动，实际实现中选取0.02作为随机扰动的最大值。计算该相似性约束时使用到的基准坐标系法向

、世界坐标系法向

，以及位移场空间运动速度

可以通过对空间点x求导获得：

（1.2）实时辐射场转换与显式几何提取

通过任何现有加速结构处理上一步骤中提取出的基准坐标系下的神经辐射场，可以获得该动态场景对应的可高效查询的实时辐射场。本发明中，获得动态场景的神经辐射场F _o，F _c后，在Yu等人[plenoctree: https://alexyu.net/plenoctrees/]的工作的基础上将基准坐标系下的神经辐射场转换为实时辐射场。形变场与实时辐射场的提取流程如图3所示。

Yu等人将神经辐射场中的几何部分F _o用八叉树实时实现，并将二维观察方向d输入的颜色函数用球谐函数投影实时实现。具体而言，当获得某空间点的透明度o及球谐函数系数后，该点的随观察方向d变换的颜色值

可以通过插值球谐函数的基获得；

给定空间中任意一点

的实数表示，利用八叉树实时获得空间中颜色值的过程如下：

(1)获得当前层级level下的子节点的索引index以及整数表示

，根据该索引index便可以获得下一层级next的体素的信息存储指针

，并获取下一层级next的八叉树信息

；

(2)将当前层级level的坐标转换为下一层级next的坐标，并重复上述过程直至到达叶子节点；

由于该八叉树结构对空间中每一点的查询没有依赖关系，且能够将查询空间点的时间复杂度控制在

级别，其中n为体素空间的分辨率，可以实现对静态场景神经辐射场的实时渲染。本发明将神经辐射场表示的空间中点x的空间点透明度

以及该点颜色

投影到对应的八叉树结构以及球谐函数上。其具体实现过程为：

(1)根据八叉树最深层的分辨率构建一个假想的稠密三维格点，格点数记为

，对格点中任意一点都采样神经辐射场的几何部分F _o；

(2)根据一个预先设定好的阈值（在本实施例中使用

）过滤阈值之外的格点；

(3)根据过滤后的格点初步构建八叉树；

(4)对八叉树的任意一个叶子节点采样

个三维空间点，对每个三维空间点采样

个观察方向用以进行球谐函数投影，获得该空间点的球谐函数系数，投影过程通过函数点乘的离散版本实现：

其中

表示第l层第m个球谐函数系数，

指整个可观察球面，

表示第i个观察方向，

表示步骤（1.1）中的颜色部分，即F _c输出的空间点颜色。

(5)对每一个格点中的空间点透明度o以及球谐函数系数

。Yu等人提出的球谐函数投影过程总计需要

次神经网络查询，且在构建八叉树阶段需要稠密的查询三维网格点上的空间点透明度值，使用能获得合理的投影结果的参数（

）约需要4小时。

在本发明方法中，为了加速实时辐射场的提取速度，我们提出，(1)通过显式几何先验过滤稠密网格点采样，(2)将同一叶子节点下不同三维空间位置的采样点都用于上述球谐函数投影。这样的操作可以让稠密网格查询时间减半，并将球谐函数系数投影过程压缩至15分钟。

具体而言，本发明利用KNN算法计算空间点到显式几何的距离（在实际实现中使用SMPL三角形网格以简化管线），并将高于一定阈值（本实施例中阈值取0.1米）的格点提前过滤。同时，本发明将球谐函数投影算法更改为：

这种投影方式使得使用远小于Yu等人提出的参数的设置，即设置为

就能获得更为高质量的球谐函数投影。在这种参数组合下，我们能够在将投影时间降低为1/16的同时将有效的球谐函数投影数目提高到原来的4倍。类似Peng等人的工作，本发明使用移动立方体Marching Cubes算法将空间点透明度场转换为显式三角形网格。

显示几何上每个顶点的蒙皮权重可以方便的通过步骤（1.1）中的蒙皮权重提取方法得到。为了实现线性骨骼蒙皮动画的正向算法在图形处理器上的实时运算，本发明将获得的蒙皮权重从K维（对应了SMPL定义的K个（24）人体骨骼）降维到4，以进一步压缩所需数据量和计算要求。具体而言，本发明会选取显式几何上任意顶点上蒙皮权重最大的4个骨骼的权重，将这4个权重归一化到和为一，并存储对应的骨骼索引。

接着，为了高效的获取显式几何的形变场，本发明提出了一种基于三角形网格优化以及参数化梯度下降的三维坐标多层感知机求逆算法。在步骤（1.1）中介绍了通过坐标多层感知机表达的位移场

。值得注意的是，该位移场表达的是从形变坐标系到基准坐标系的映射，而由于本发明期望在渲染过程中保持显式几何的拓扑结构不变以保持高效的渲染性能，需要得到从基准坐标系到形变坐标系的映射，即逆位移场

，

表示对

求逆，对位移场求逆是一个没有直接解的问题，因此本发明采用优化算法来获取每一帧基准坐标系顶点

对应的形变坐标系顶点

，即将使用移动立方体Marching Cubes算法得到的显式三角形网格顶点

变换到形变坐标系；本发明的优化变量是

，优化目标

定义为：

其中

为显示几何上的所有顶点；

为了保证优化的平滑度，本发明使用Nicolet等[https://bnicolet.com/ publications/Nicolet2021Large.html]提出的参数化梯度下降将优化目标利用三角形网格的拉普拉斯矩阵进行平滑参数化；同时，由于逆位移场

在人体位姿变化下是连续变化的，本发明采取了连续优化的策略，即，获得第一帧的逆位移场

后，本发明以此为下一帧位移场的优化初始值。为了使得优化更为稳定和鲁棒，本发明提出了一种基于自动梯度求解的初始化方法，对于基准坐标系顶点

，将其初始形变坐标系坐标

进行如下设置：

其中

是将

看作一个完整函数找到的表面点位置，接着，利用步骤（1.1）中提到的相似性约束

，在原始基准坐标系

下去除位移场，获得近似的形变坐标系顶点

。值得注意的是，本发明提出的从基准坐标系到形变坐标系的形变提取方法可以用于人体之外的一般动态场景的形变场提取，例如基于nerfies[https:// nerfies.github.io/]的方法实现的动态神经辐射场的形变场提取。

二、运行阶段：

动态神经辐射场的实时渲染流程如图4所示。

（2.1）显式几何的实时动作映射

在本节将介绍本发明的核心：实时渲染动态场景神经辐射场的方法。在步骤（1.1）与步骤（1.2）中提到的，动态神经辐射场与其对应的显式几何以及形变场提取方法都是为了更高效，更高质量的完成对动态神经辐射场的实时渲染。

在运行时，通过任意现有的实时驱动方法将基准坐标系下的显式几何（基准坐标系顶点集合用

表示）映射到形变坐标系（形变坐标系顶点集合用

表示），并从形变坐标系映射到世界坐标系（世界坐标系顶点集合用

表示）。在人体的动态场景中，使用混合形状（即，用显式几何的位移场表达的形变场）完成从

到

的映射（该混合形状算法可以用于一般形变场（一般动态场景神经辐射场的实时渲染）），通过线性骨骼蒙皮动画的正向算法以及运动树完成从

到

的映射。本发明将分别用

、

以及

表达三个显式三角形网格顶点集合中的某一个具体顶点。具体而言，利用步骤（1.2）中获得的逆位移场

通过图形处理器的并行渲染管线并行应用到

上：

其中

表示将

并行应用到

中的每一个三维点上所表达的三维位移集合。在实际实现中，可通过OpenGL提供的顶点着色器完成这一并行的加法运算。

接着，对于形变坐标系中的任意一个顶点

，使用步骤（1.1）中提到的线性骨骼蒙皮动画的正向算法完成这一过程。具体而言，将步骤（1.2）中获得的任意顶点的蒙皮权重应用到线性骨骼蒙皮动画的正向算法中，获得世界坐标系下的顶点位置x：

其中

和

分别表示

以及

中顶点的齐次坐标。将应用线性骨骼蒙皮动画变换的矩阵

提取成集合

，上述运算便可以被并行表达为：

对应的，

代表了从位姿坐标系到世界坐标系的变换关系，其中包括全局的旋转

与平移

。位姿坐标系代指应用线性骨骼蒙皮动画的正向算法的运动树部分后，应用全局变换前的坐标系。

类似对形变场加法运算的并行处理，本发明同样使用OpenGL的顶点着色器并行运行上述计算。在步骤（1.2）中，本发明将蒙皮权重

从K维压缩到了4维度（以方便将蒙皮权重直接存储到顶点着色器的一个属性中作为输入（一个顶点着色器属性的最高维度为 RGBA：4维）），在实际读取蒙皮权重时需要进行对应的逆索引：

其中

为蒙皮权重索引，

为通过

索引得到的蒙皮权重值，

为通过

索引得到的线性骨骼蒙皮动画变换的矩阵。

当获得了显式几何在世界坐标系下的顶点

，便可对顶点应用相机投影矩阵

获得顶点在相机坐标系下的位置

，其中V会将空间点变换到以相机为原点的观察坐标系，

会将观察坐标系下的点投影到进行了正则化的相机坐标系，接着运行由图形处理器硬件并行加速的栅格化处理。具体而言，在顶点着色器中并行的对所有

进行如下运算：

此后，片段着色器将根据相机坐标系顶点位置

以及顶点间连接关系

，进行面片在相机坐标系下的属性与空间位置插值，进而通过屏幕空间变换

映射到对应的像素点集合

上。根据连接关系

，每个屏幕像素点对应某一面片中的一个坐标，该坐标可以与面片的顶点位置配合进行重心坐标插值。

上述

表示在显式几何

上有映射的屏幕空间像素点集合（进行栅格化后有面片映射的），

表示重心坐标插值运算。

（2.2）像素颜色值的逆向查询

为了将世界坐标系下的体渲染方程映射到基准坐标系，本发明新颖的提出利用上述渲染过程以及形变的变换关系的逆（往往通过矩阵表示），将体渲染所需采样的点以及射线实时、准确地映射到基准坐标系。具体而言，对于屏幕空间中有显式几何对应的每一个像素点

，本发明构建如下的映射关系以描述像素点

从屏幕空间到基准坐标系的映射关系。

其中

表示重心坐标插值运算，

表示显式三角形网格顶点之间的连接关系，

表示将

并行应用到

中的每一个三维点上所表达的三维位移集合，

以及

分别表示屏幕空间变换

，相机坐标系变换

，观察坐标系变换

，世界坐标系变换

，骨骼蒙皮变换

的逆变换，可以方便的通过矩阵求逆得到。

在实际实现中，由于屏幕空间的每一个像素点都进行过步骤（2.1）中提到的各个正向变换，其对应的三角形网格面片上三个顶点的世界坐标系空间点，基准坐标系空间点可以直接通过读取步骤（2.1）的输入得到。由于OpenGL在将顶点着色器的输出转换为片段着色器的输入时，会自动根据

和

进行重心坐标插值

，只需要将像素点

对应的三个顶点坐标

作为顶点着色器的输出，便可自动在片段着色器中获得需要的进行过重心坐标插值

后的基准坐标系三维空间点位置。

获得像素对应的基准坐标系空间点后，运行实时动态场景体渲染的另一要求便是将观察方向（即体渲染射线方向）从世界坐标系转换到基准坐标系，使得片段着色器能够运行体渲染算法。为了重复利用各个逆变换以提高效率，本发明将射线方向变换表达为相机中心点从世界坐标系到基准坐标系的变换关系。具体而言：

其中

为基准坐标系下的相机中心点位置，

是

维度均为0，但

为1的相机中心点齐次坐标，即观察坐标系的原点。

，

以及

的含义与上述对像素点应用逆变换时的含义相同。类似的，本发明利用OpenGL的特性直接进行对

的重心坐标插值。

获得基准坐标系下的相机中心点位置

，三维空间点位置

后，便可获得每个像素点对应的基准坐标系下的观察方向

，这一观察方向用于接下来产生基于观察方向的不同渲染效果（这种效果往往由光线反射造成，指的是三维空间中某点从不同方向观察会呈现出不同的颜色值）。

其中

表示将观察方向归一化为长度为1的向量。

获得每个像素点对应的基准坐标系空间点

以及观察方向

后，本发明按照如下流程进行步骤（1.2）中获得的基准坐标系下实时辐射场的实时渲染。

1.首先，通过

和

计算得到的基准坐标系观察方向

确定射线方向与位置。

2.接着，根据观察方向和射线原点位置（即基准坐标系下显示几何三维空间点位置

），本发明按照预先设定好的采样范围在实际显式几何一定范围内进行采样，本发明使用

表示某个像素点对应的射线上的某个采样点，使用

表示对应的观察方向，获得射线r，在本发明中将射线深度范围限制在

。

3.由于本发明通过片段着色器以及OpenGL并行实现体渲染算法，每个片段着色器的实例仅仅需要处理一条射线r的颜色渲染，分配对应渲染射线到图形处理器硬件的过程由OpenGL及图形处理器驱动实现。

4.接着，利用步骤（1.2）中

级别速度采样实时八叉树的算法获得对应每一个球谐函数系数

以及空间点透明度

。

5.对于每一个采样点

与观察方向

，获得球谐函数系数

后可以通过球谐函数投影算法获得对应采样点的颜色

，通过步骤（1.1）中介绍的体渲染方程获得像素的最终颜色。

对于上述的体渲染过程，本发明在利用离散积分、八叉树以及球谐函数投影的基础上进一步做出如下优化：

1.提前结束渲染，当射线上的累积空间点透明度达到一定阈值时，停止从该点到相机射线上最远点的空间点透明度累积。

2.通过几何缩小渲染范围，将渲染整个动态神经辐射场所需的采样点集中在显式几何附近，这可以将采样点数量减少一个数量级。

本发明提出方法的具体实现形式为一套实时辐射场重建管线，与一个运行于PC或手机等电子设备的渲染程序。

其中步骤（1.1）中描述的重建过程可基于任何现有重建方法；步骤（1.2）中的实时加速过程也可基于任意现有神经辐射场加速方法。若有直接从动态场景多视角视频中恢复实时辐射场与对应显式几何的算法，本发明中描述的步骤（1.1）和步骤（1.2）可以合并为一，直接获得基准坐标系下场景的实时辐射场与显示几何表示。步骤（2.1）中描述的驱动方法可以是任意显式几何（例如三角形网格）的形变驱动方法（例如线性骨骼蒙皮动画、关键帧位移、混合形状或形变向量场等）。

与前述基于显式几何形变的实时动态自由视角合成方法的实施例相对应，本发明还提供了基于显式几何形变的实时动态自由视角合成装置的实施例。

参见图5，本发明实施例提供的基于显式几何形变的实时动态自由视角合成装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述实施例中的基于显式几何形变的实时动态自由视角合成方法。

本发明基于显式几何形变的实时动态自由视角合成装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于显式几何形变的实时动态自由视角合成装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于显式几何形变的实时动态自由视角合成方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种基于显式几何形变的实时动态自由视角合成方法，其特征在于，包括预处理阶段和运行阶段；

(1)预处理阶段，包括：

(2)运行阶段，包括：

2.根据权利要求1所述的基于显式几何形变的实时动态自由视角合成方法，其特征在于，步骤(1.1)中，所述神经辐射场的输入为三维空间点位置以及二维观察方向，输出为三维空间点的颜色以及空间点透明度。

3.根据权利要求1所述的基于显式几何形变的实时动态自由视角合成方法，其特征在于，步骤(1.1)中，在重建基准坐标系下的神经辐射场的过程中，引入对神经辐射场几何部分的相似性约束，使得空间中邻近点的基准坐标系法向、世界坐标系法向以及位移场空间运动速度相近。

4.根据权利要求1所述的基于显式几何形变的实时动态自由视角合成方法，其特征在于，步骤(1.1)中，神经辐射场的颜色坐标多层感知机的输入为基准坐标系下的观察方向。

5.根据权利要求1所述的基于显式几何形变的实时动态自由视角合成方法，其特征在于，步骤(1.2)中，提取实时辐射场的过程中，过滤距离显式几何超过设定距离阈值的网格点，将实时辐射场中八叉树同一叶子节点下不同三维空间位置的采样点均用于该叶子节点的球谐函数投影。

6.根据权利要求1所述的基于显式几何形变的实时动态自由视角合成方法，其特征在于，步骤(1.2)中，利用参数化梯度下降算法结合位移场的连续性，优化获得显式几何位移场的逆，基于自动梯度求解算法进行求解初始化。

7.根据权利要求1所述的基于显式几何形变的实时动态自由视角合成方法，其特征在于，步骤(2.1)中，利用顶点着色器并行应用显式几何形变场，并进行投影变换，以获得从基准坐标系到屏幕空间的变换关系。

8.根据权利要求1所述的基于显式几何形变的实时动态自由视角合成方法，其特征在于，步骤(2.1)中，对于人体数据，利用顶点着色器并行应用线性骨骼蒙皮动画的正向算法的变换关系，获得从形变坐标系到世界坐标系的变换关系。

9.根据权利要求1所述的基于显式几何形变的实时动态自由视角合成方法，其特征在于，步骤(2.2)中，利用渲染过程以及形变过程的变换关系的逆，通过片段着色器并行地将体渲染所需的采样点以及射线映射到基准坐标系，采样基准坐标系下实时辐射场，利用片段着色器并行运行体渲染算法。

10.一种基于显式几何形变的实时动态自由视角合成装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，用于实现如权利要求1-9中任一项所述的基于显式几何形变的实时动态自由视角合成方法。