CN115034381A

CN115034381A - 一种基于多分辨率网络结构的神经绘制方法

Info

Publication number: CN115034381A
Application number: CN202210579759.4A
Authority: CN
Inventors: 周昆; 吴鸿智; 任重; 马晟杰
Original assignee: Faceunity Technology Co ltd; Zhejiang University ZJU
Current assignee: Faceunity Technology Co ltd; Zhejiang University ZJU
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-09-09

Abstract

本发明公开了一种基于多分辨率网络结构的神经绘制方法，该方法首先拍摄待建模对象在不同视角和光照下的图像，得到相机参数及光源位置、代理几何及神经纹理、前景抠图、辐射度线索和UV图数据，用于搭建和训练神经渲染管线模型，最后拍摄指定相机参数和光照条件下的图像，处理并得到辐射度线索和UV图，用神经渲染管线模型合成新图像或动画。本发明与传统的神经网络相比，显式地拆分了不同的空间频率成分，使得合成图像序列在时域上有更好的稳定性；本发明解决了传统方法混杂编码不同频率成分导致的高频丢失问题，使得合成图像保留了更多的细节纹理，达到了更高的保真度。

Description

一种基于多分辨率网络结构的神经绘制方法

技术领域

本发明涉及基于图像的渲染以及材质捕捉和建模领域，尤其涉及一种在新视角和新光照条件下合成建模对象图像的方法。

背景技术

重新照明技术支持现实世界场景的数字化，使得创作者能够任意修改被摄对象观察视角和照明，并合成符合物理规律的新图像，有广阔的应用前景。现有的工作主要可以分为两类：基于模型和基于图像的方法。

基于模型的方法将先验模型拟合到测量数据，并依靠先验模型执行插值和外推到新的视角和照明条件。然而，这类方法的重建质量有较大的局限性，因为先验模型通常是人手工设计的，无法完美解释所有测量数据，并且重建质量还很大程度上受到多个因素的影响，比如几何模型和相机校准的准确度，会影响拟合参数的可靠性。

基于图像的方法不依赖于先验模型，而采用更直接和数据驱动的思路。和基于模型的方法相比，此类方法不受许多因素估计准确性的影响。近年来，随着深度学习的发展，这种数据驱动方法合成的图像质量得到了很大的提升。然而，尽管能合成看上去十分逼真的图像，现存方法存在着高频细节模糊和时域稳定性问题。

发明内容

本发明的目的在于针对现存重新照明技术的不足，提供了一种基于多分辨率网络结构的神经绘制方法。解决了高频细节模糊和时域稳定性欠佳的问题，达到了最先进的重新照明技术水平，具有很高的实用价值。

本发明的目的是通过以下技术方案来实现的，包括以下步骤：

(1)图像采集和预处理：拍摄待建模对象在不同视角和光照下的图像，处理数据并得到：相机参数及光源位置、代理几何及神经纹理、前景抠图、辐射度线索和UV图；

(2)神经渲染管线模型的搭建和训练：搭建包含神经纹理采样模块和多分辨率神经网络的神经渲染管线模型，所述神经纹理采样模块将UV图和神经纹理作为输入，生成投影后神经纹理，继而与辐射度线索拼接，输入多分辨率神经网络并得到绘制结果，将绘制结果与对应的真实采集图像计算损失函数和反传梯度，根据反传梯度联合优化神经纹理和多分辨率神经网络参数，实现神经渲染管线模型的训练；

(3)新图像和动画的生成：生成指定相机参数和光照条件下的辐射度线索和UV图，用神经渲染管线模型合成新图像或动画。

进一步地，所述步骤1包括如下子步骤：

(1.1)采集图像：在黑暗环境中用两台相机一起同步拍摄待建模对象，其中一台相机同时负责打光，保持闪光灯常开，另一台相机保持闪光灯关闭；拍摄并获得待建模对象的两组关联的图像序列；在自然光照下用一台相机拍摄待建模对象的额外图像序列，该序列仅用于生成代理几何；

(1.2)生成相机参数、光源位置：生成两台相机的内参及外参序列，由打光相机的外参序列推算光源的空间轨迹；

(1.3)生成代理几何：由COLMAP算法(

Johannes L.,and Jan-Michael Frahm.Structure-from-motion revisited.Proceedings of the IEEEconference on computer vision and pattern recognition.2016.)(

Johannes L.,et al.Pixelwise view selection for unstructured multi-viewstereo.European Conference on Computer Vision.Springer,Cham,2016.)生成待建模对象的一个不准确的几何模型，称为代理几何；用UV展开算法(Kun Zhou,John Synder,Baining Guo,et al.Iso-charts:stretch-driven mesh parameterization usingspectral analysis.In ACM SIGGRAPH symposium on Geometry processing.2004:45-54.)为代理几何计算顶点UV坐标；为代理几何绑定一张可优化的纹理贴图，称为神经纹理。

(1.4)计算前景抠图：对于拍摄图像序列的每一帧，由相机参数将代理几何绘制到屏幕获得前景、背景和待定区域，以此作为依据运行闭式解抠图算法，获得前景遮罩。将前景遮罩和图像相乘，得到拍摄图像的前景抠图，同时移除背景，作为算法的拟合目标。

(1.5)生成辐射度线索：对于拍摄图像序列的每一帧，由相机参数和光照参数，渲染设置不同材质的代理几何图像，将结果拼接，作为辐射度线索。

所述材质包括理想漫射表面模型及4种粗糙度分别为0.02、0.05、0.13和0.34的库克-托伦斯模型(Cook-Torrance BRDF)。所述渲染过程由基于物理的路径追踪渲染器实现。

(1.6)生成UV图：对于拍摄图像序列的每一帧，由相机参数将代理几何绘制到屏幕，根据模型顶点UV坐标，插值计算每个屏幕像素对应的UV坐标值，生成一张屏幕空间的UV图。

进一步地，所述步骤(2)包括如下子步骤：

(2.1)定义训练数据：将每一帧对应的辐射度线索,UV图和前景抠图

作为一组训练数据,其中辐射度线索和UV图作为神经渲染管线模型输入，前景抠图

作为拟合目标；

(2.2)搭建神经纹理采样模块：采样模块将步骤(1.6)得到的UV图作为输入，对于每个像素，以UV图中的值作为坐标，在步骤(1.3)所述的神经纹理的对应位置取值，得到投影后神经纹理。

(2.3)搭建多分辨率神经网络：神经网络模型以投影后神经纹理和步骤(1.5)所述的辐射度线索的拼接作为输入，生成一组多分辨率表示；对于多分辨率表示中的每一个层次，通过一个特征变换模块，将输入处理为中间特征，中间特征经过一个后处理模块，输出相应分辨率的输出图像；中间特征经由一个上采样模块，传递到下一个更高分辨率层次，并与该层次的表示拼接，作为该层次的输入；对于前景抠图

同样应用一组空间滤波器，生成一组多分辨率表示，作为每个分辨率层次输出图像的拟合目标；

所述特征变换模块，包括以下结构：首先是输出通道数为128、卷积核尺寸为3、步长为1的卷积层，然后是单独归一化层，最后是修正线性激活层；

所述后处理层模块为输出通道数128、卷积核尺寸为3、步长为1的卷积层；

所述上采样模块，包括以下结构：首先是放大两倍的最近邻上采样操作，然后是输出通道数为128、卷积核尺寸为3、步长为1的卷积层，单独归一化层，最后是修正线性激活层；

(2.4)定义损失函数：对每个多分辨率层次的输出图像施加约束，并联合优化神经纹理以及多分辨率神经网络参数，数学描述为：

其中，

表示L1损失函数，N表示训练图像总数，L表示多分辨率表示的总层数，

表示多分辨率神经网络，θ_T表示神经纹理参数，

表示多分辨率神经网络参数；i是图片序号；l表示分辨率层次序号，

表示不同分辨率层次的前景抠图,作为拟合目标，

表示网络输出的不同分辨率层次的预测图像，λ_l表示不同分辨率层次损失的加权因子。

本发明的有益效果如下：本发明是首次将多分辨率表示这一有效的先验模型结构用于重新照明领域，与传统的神经网络相比，多分辨率神经网络显式地拆分了不同的空间频率成分，减少了潜在的互相干扰，并对不同分辨率层级施加额外的正则约束，使得合成图像序列在时域上有更好的稳定性；且由于有独立的高频处理模块，解决了传统方法混杂编码不同频率成分导致的高频丢失问题，使得合成图像保留了更多的细节纹理，达到了更高的保真度。本方法达到当前最先进的重新照明技术的水平，可以用于电子商务、文物数字化保护、虚拟现实及增强现实等应用。

附图说明

图1是应用本发明的方法合成第一个采集对象的重新照明图像的中间结果及结果图，其中，(a)为辐射度线索图，(b)为神经纹理图，(c)为UV图，(d)为投影后神经纹理图，(e)为合成图像；

图2是应用本发明的方法合成第二个采集对象的重新照明图像的中间结果及结果图，其中，(a)为辐射度线索图，(b)为神经纹理图，(c)为UV图，(d)为投影后神经纹理图，(e)为合成图像；

图3是应用本发明的方法合成第三个采集对象的重新照明图像的中间结果及结果图，其中，(a)为辐射度线索图，(b)为神经纹理图，(c)为UV图，(d)为投影后神经纹理图，(e)为合成图像；

图4是应用本发明的方法合成第四个采集对象的重新照明图像的中间结果及结果图，其中，(a)为辐射度线索图，(b)为神经纹理图，(c)为UV图，(d)为投影后神经纹理图，(e)为合成图像；

图5是应用本发明的方法合成第五个采集对象的重新照明图像的中间结果及结果图，其中，(a)为辐射度线索图，(b)为神经纹理图，(c)为UV图，(d)为投影后神经纹理图，(e)为合成图像。

具体实施方式

本发明的核心技术在于一个新颖的多分辨率神经网络，在给定视角、光照、代理几何的情况下，先合成投影后神经纹理(projected neural texture)和辐射度线索(radiance cues)作为网络输入，然后通过多分辨率网络将输入处理成最终的合成图像。该多分辨率神经网络结构在合成动画的图像细节和时域稳定性上优于现有其他网络结构。该方法主要分为如下三个主要步骤：图像采集和预处理，神经渲染管线模型的搭建和训练，新图像和动画的生成。

下面结合附图1-5详细说明发明的各个步骤：

图像采集和预处理

1.1采集图像

本发明参考神经重照明算法(Duan Gao,Guojun Chen,Yue Dong,Pieter Peers,Kun Xu,and Xin Tong.2020.Deferred neural lighting:free-viewpoint relightingfrom unstructured photographs.ACM Transactions on Graphics(TOG)39,6(2020),1–15)采集待建模对象的在不同光照和不同视角下的图像。具体做法是：确保采集场地全黑，没有其他光源干扰，需要两台相机(其中一个相机C₁需要闪光灯常亮，另外一个C₂关闭)拍摄待建模对象的视频，记作序列A₁和A₂。拍摄过程中，两台相机应按一定模式围绕待建模对象移动，确保图像覆盖各种不同的观察视角和打光组合。典型的图像采集数量为几千张，由对象的几何和材质复杂度决定，复杂度越高，需要的图像数量就越多。接着用自然光照明待建模对象，用单个关闭闪光灯的相机从各个角度拍摄对象的照片记作序列B，用于后继代理几何的生成，需要采集的图像规模为几十张。

1.2生成相机姿态、光源位置

本发明在序列A₁和A₂上执行多视图立体视觉算法(Steven M.Seitz,BrianCurless,James Diebel,Daniel Scharstein,and Richard Szeliski.2006.A Comparisonand Evaluation of Multi-View Stereo Reconstruction Algorithms.In CVPR.519–528.)，标定相机内参，并获得整个拍摄过程中两个相机的移动轨迹和姿态(P₁和P₂)，由于光源位置和其中一个相机(C₁)绑定，同时可获得拍摄过程中光源的移动轨迹(即P₁)。

1.3生成代理几何

本发明在序列B上执行COLMAP算法(Johannes Lutz

and Jan-MichaelFrahm.2016.Structure-from-Motion Revisited.In CVPR.)，能够获得待建模对象的一个不准确的几何模型，称为代理几何(proxy geometry)。本发明继而用UV展开算法为代理几何的模型顶点生成UV坐标，并为模型绑定一张分辨率为512*512，通道数为16的纹理贴图并随机初始化，由于该贴图将和神经网络参数共同优化，称之为神经纹理(neural texture)，优化后的神经纹理参考附图1-5(b)。

1.4计算前景抠图

由于拍摄会不可避免地拍到待建模对象外的背景物体，需要生成前景遮罩将它们除去，对每张图像，本发明用光栅化着色器结合该帧的相机参数绘制代理几何，并通过膨胀和腐蚀操作将物体轮廓周围区域标记为待定区域，最后运行闭式解抠图(closed formmatting)算法(Anat Levin,Dani Lischinski,and Yair Weiss.2008.A Closed-FormSolution to Natural Image Matting.IEEE PAMI 30,2(Feb 2008),228–242.)获得前景遮罩。训练神经网络模型只需要序列A₂，本发明只生成序列A₂的对应遮罩序列M₂，对于序列的每张图像，计算图像和遮罩的乘积，最终得到移除背景的前景抠图的图像序列A′₂。

1.5生成辐射度线索

本发明构建了一个基于物理的路径追踪渲染器(NVidia OptiX框架)。本发明给代理几何设置5种不同的材质，分别为理想漫反射模型(Lambertian BRDF)和粗糙度分别为0.02、0.05、0.13、0.34的库克-托伦斯模型(Cook-Torrance BRDF)。对于A′₂的每一帧，给定光源位置(P₁)和相机参数(P₂)，用路径追踪渲染器可绘制5张图像，对应5种预设材质。将5张图像拼接在一起，组成一个三维张量，称为辐射度线索，见附图1-5(a)。将A′₂处理后的辐射度线索序列记作R₂。

1.6UV图生成

本发明对于训练图像序列A′₂的每一帧，结合该帧的相机参数应用光栅化着色器将代理几何绘制到屏幕空间，根据1.3所述的模型顶点UV坐标，对于每个屏幕像素，插值并填入相应的UV坐标，得到UV图，请参考附图1-5(c)，然后将UV图序列记作U₂。

神经渲染管线模型的搭建和训练

2.1神经纹理采样模块

2.2本发明以步骤1.6得到的UV图作为输入，对于每个像素，以UV图中的值作为坐标，在步骤1.3所述的神经纹理对应位置取值，得到一个三维张量，称为投影后神经纹理，参考附图1-5(d)。由于训练过程中将不断更新神经纹理，因此在每次迭代中，都需要重新计算投影后神经纹理。多分辨率神经网络模型，本发明使用的多分辨率神经网络以拼接的投影后神经纹理和辐射度线索作为输入，输入经过一组窗口尺寸为2，步长为2的均值池化操作(mean pooling)，生成一组5层的多分辨率表示(mipmap)。对于多分辨率表示中的每个层次，输入会经过一个特征变换模块，输出中间特征，中间特征经过一个后处理模块，输出相应分辨率的输出图像。此外，中间特征还将经过一个上采样模块，传递到下一个更精细的层次，并与该层的表示拼接，输入下一个特征变换模块，以此类推，最后输出完整分辨率的图像。每一层次的特征变换模块是独立的，互相不共享参数。多分辨率神经网络工作在对数域中，以表示更大的动态范围，因此需要提前将输入映射到对数域，并将网络输出映射回线性空间。

本发明使用是输出通道数128，卷积核尺寸为3，步长为1的卷积层,然后是单独归一化层(Instance Normalization),最后是修正线性激活层(ReLU),作为特征变换模块。所述上采样模块，首先是放大两倍的最近邻上采样操作，后接输出通道数是128，卷积核尺寸为3，步长为1的卷积层，单独归一化层，最后是修正线性激活层；

2.3网络训练

本发明使用的多分辨率神经网络的完整训练数据包括：前景抠图序列A′₂，由2.1所述神经纹理采样模块实时生成的投影后神经纹理，辐射度线索序列R₂。我们适当裁剪和拉伸训练数据，将其分辨率调整到512*512。本发明使用的多分辨率神经网络在每个分辨率层次中都有对应的图像输出，我们对每一层的结果都施加L1损失函数。每层的目标图像可由图像序列A′₂生成，我们记A′₂序列中的单张图像为

i表示图像的序号，上标表示图像的分辨率层次。，我们采用一组窗口尺寸为2，步长为2的均值池化操作，生成一组5层的多分辨率表示

u_i表示1.6所述UV图，i表示图像的序号。我们联合优化神经纹理和多分辨率神经网络的参数，训练过程的数学描述如下：

R₂＝{r_i|i＝1,2,…N}

U₂＝{u_i|i＝1,2,…N}

其中

表示L1损失函数，N表示训练图像总数，S表示神经纹理采样模块，

表示多分辨率神经网络，θ_T表示神经纹理参数，

表示多分辨率神经网络参数，

表示多分辨率神经网络输出的一组5层的多分辨率预测图像；λ_l表示不同分辨率损失的加权因子，我们将最精细分辨率层次的权设为1，其余层次设为0.01。

新图像和动画的生成

3.1网络输入的准备

合成新的图像或动画需要指定相应的相机内参，相机移动轨迹和姿态，光源的移动轨迹和姿态。进而需要合成辐射度线索和UV图作为神经渲染管线模型的输入，辐射度线索和UV图的生成方法与1.5，1.6所述方法是完全类似的，只需将相机和光源参数改成需要生成的新序列即可。

3.2运行神经渲染管线模型

将3.1节中生成的UV图和辐射度线索输入神经渲染管线模型，即可合成指定视角和光照条件下建模对象的新图像，参考附图1-5(e)。

实施实例

发明人在一台配备Intel Xeon Platinum 8268中央处理器，NVidia Tesla V100图形处理器(32GB)的服务器上实现了本发明的实施实例。发明人采用了所有在具体实施方案中列出的参数值，得到了附图1-5中所示的所有实验结果。本发明可以合成出建模对象在不同视角和光照条件下的图像以及时域稳定的图像序列(动画)。对于一张512*512的图像，整个处理流程大概需要1.9秒：其中UV图和辐射度线索分别由光栅化着色器和路径追踪渲染器生成，大概需要1.4秒；神经渲染管线模型前向由Tensorflow实现，总共大约需要460毫秒，其中数据IO占用385毫秒，网络前向占用75毫秒。另外针对特定的建模对象，训练一个多分辨率神经网络需要20小时。

Claims

1.一种基于多分辨率网络结构的神经绘制方法，其特征在于，包括以下步骤：

(3)新图像和动画的生成：拍摄指定相机参数和光照条件下的图像，处理并得到辐射度线索和UV图，用神经渲染管线模型合成新图像或动画。

2.根据权利要求1所述的基于多分辨率网络结构的神经绘制方法，其特征在于，所述步骤(1)包括如下子步骤：

(1.1)采集图像：在黑暗环境中用两台相机一起同步拍摄待建模对象，其中一台相机同时负责打光，保持闪光灯常开，另一台相机保持闪光灯关闭；拍摄并获得待建模对象的两组关联的图像序列；在自然光照下用一台相机拍摄待建模对象的额外图像序列，该额外图像序列仅用于生成代理几何；

(1.3)生成代理几何及神经纹理：由COLMAP算法生成待建模对象的一个不准确的几何模型为代理几何；再使用UV展开算法计算代理几何的顶点UV坐标；为代理几何绑定一张可优化的纹理贴图，得到神经纹理；

(1.4)计算前景抠图：对于拍摄图像序列的每一帧，由相机参数将代理几何绘制到屏幕获得前景、背景和待定区域，以此作为依据运行闭式解抠图算法，获得前景遮罩，将前景遮罩和图像相乘，得到拍摄图像的前景抠图；

(1.5)生成辐射度线索：对于拍摄图像序列的每一帧，由相机参数和光照参数，渲染设置不同材质的代理几何图像，将结果拼接，作为辐射度线索；所述材质包括：理想漫射表面模型及4种粗糙度分别为0.02、0.05、0.13和0.34的库克-托伦斯模型；渲染过程使用基于路径追踪算法的光线追踪渲染器；

(1.6)生成UV图：对于拍摄图像序列的每一帧，由相机参数和代理几何生成一张屏幕空间的UV图。

3.根据权利要求2所述的基于多分辨率网络结构的神经绘制方法，其特征在于，所述步骤(2)中搭建并训练神经渲染管线模型如下步骤：

作为拟合目标；

(2.2)搭建神经纹理采样模块：采样模块将步骤(1.6)得到的UV图作为输入，对于每个像素，以UV图中的值作为坐标，在步骤(1.3)所述的神经纹理的对应位置取值，得到投影后神经纹理；

所述上采样模块，包括以下结构：首先是放大两倍的最近邻上采样操作，然后是输出通道数为128、卷积核尺寸为3、步长为1的卷积层，然后是单独归一化层，最后是修正线性激活层；

其中，

表示多分辨率神经网络，θ_T表示神经纹理参数，

表示不同分辨率层次的前景抠图,作为拟合目标，