CN115428027A

CN115428027A - 神经不透明点云

Info

Publication number: CN115428027A
Application number: CN202080099954.6A
Authority: CN
Inventors: 王岑; 虞晶怡
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2022-12-02
Also published as: WO2021226862A1; US11727628B2; US20230071559A1

Abstract

提供一种新颖实用的神经渲染(NR)技术，称为神经不透明点云(NOPC)，其可在任何视角下实现毛茸对象高质量渲染。NOPC采用基于学习的方案提取三维点云的包括其不透明度在内的几何形状和外观特征。随后，其将所述三维特征映射至以新的基于U‑Net的NR在处理高噪声和不完整几何形状的同时保持平移同变的虚拟视角。与现有基于图像的技术，如需要拍摄大量的密集采样视角才能对不准确的几何形状进行处理的基于图像的不透明外壳(IBOH)技术不同，NOPC即使在低质量重建情形中，仍能实现高质量的渲染。

Description

神经不透明点云

技术领域

本发明总体涉及图像处理、计算机图形学及计算机视觉领域，尤其涉及经神经不透明点云实现的多视角毛茸对象渲染。

背景技术

随着被动式和主动式三维扫描的最新进展，复杂对象的高质量三维重建变得越来越触手可及。然而，逼真且准确的外观捕获仍是个难题。最新的解决方案要么依赖于使用复杂的照明系统及数据处理技术，要么需要通过大量的人工参与实现参数化外观模型与实际对象的拟合。一种尤为困难的情形为毛发、毛皮及羽毛等毛茸物质。此类对象表现出强烈的取决于视角的不透明性，在几何形状和外观两方面均难以建模。

本发明实施方式将基于图像的建模和渲染(IBMR)与神经渲染(NR)相融合，以生成毛茸对象的照片级写实程度的外观。流明图和光场等传统IBMR技术直接使用真实场景下拍摄的图像，并在使用或不使用几何形状代替物的情形下，根据所拍摄的视角插值生成新的视角。为了处理不透明对象，基于图像的不透明外壳(IBOH)技术在不同视角下获取对象的图像及其相应的阿尔法遮罩(Alpha Matte)，构建体积表现形式，并计算每一体素的角度性不透明度图。IBOH最常见的视觉伪影为视角样本不足导致的重影或混叠。这一问题通常可通过高质量的几何形状代替物得到缓解。然而，由于毛皮和毛发包含数以万计的细小纤维，而且其彼此之间的遮挡是造成半透明性的根本原因，因此对于毛茸对象而言，极其难以获得其精准的几何形状。在无毛茸对象的精准几何形状代替物模型的情况下，IBOH所渲染的阿尔法遮罩存在模糊之处过多的问题。

需要注意的是，本背景技术部分公开的以上信息仅旨在促进对本发明背景技术的理解，因此其可能包含本领域普通技术人员已经了解的信息。

发明内容

鉴于现有技术的上述限制，本发明提供解决上述限制的经神经不透明点云实现的多视角毛茸对象渲染。本发明的其他特征和优点将根据以下详细描述变得显而易见。

本发明的一个方面涉及一种对象渲染方法。该方法可包括：在对象点云中的每一点中编码特征向量；将所述点云中的各点以及所述相应特征向量投影至目标视角，以计算特征图；以及利用神经渲染网络，将所述特征图解码为RGB图像和阿尔法遮罩且更新所述各点的向量。所述特征向量可包括阿尔法遮罩。

在一些实施方式中，该方法可进一步包括：将所述点云中的点栅格化为所述特征图的图块。所述图块的尺寸可由所述点的深度值决定。

在一些实施方式中，该方法可进一步包括：将所述点云中的每一点与所述特征图的一组像素相关联。

在一些实施方式中，该方法可进一步包括：将所述特征图的损失函数的梯度反向传播至所述点云的梯度。

在一些实施方式中，所述神经渲染网络可包括用于处理所述RGB图像的第一编码器和第一解码器，以及用于处理所述阿尔法遮罩的第二编码器和第二解码器。

在一些实施方式中，所述第一编码器可采用U-Net架构，且同时将U-Net架构中的卷积层替换为门控卷积层。

在一些实施方式中，所述第一编码器可包括一个输入卷积模块和四个下采样模块。

在一些实施方式中，所述第一解码器可包括一个输出卷积模块和四个上采样模块。

在一些实施方式中，该方法可进一步包括：通过将来自所述第一编码器和前一上采样模块这两者的过渡特征图相联合，获得所述第一解码器的上采样模块的输入。

在一些实施方式中，所述第二编码器可包括一个输入卷积模块和两个下采样模块。

在一些实施方式中，所述第二解码器可包括一个输出卷积模块和两个上采样模块.

在一些实施方式中，该方法可进一步包括：通过将来自所述第一编码器和所述第二编码器这两者的过渡特征图相联合，获得所述第二解码器的上采样模块的输入。

在一些实施方式中，该方法可进一步包括：由多台相机在多个视角下拍摄所述对象的多幅图像；以及通过基于图像的可见外壳构建，构建所述点云。

在一些实施方式中，该方法可进一步包括：以恒定速度转动所述对象；以及由所述多台相机在多个视角下以固定间隔拍摄所述对象的所述多幅图像。

在一些实施方式中，该方法可进一步包括：由校准相机以所述固定间隔拍摄以所述恒定速度转动的校准图案的图像。

在一些实施方式中，该方法可进一步包括：通过以运动恢复结构(SFM)技术计算所述校准相机的外参，对所述多幅图像进行校准。

在一些实施方式中，该方法可进一步包括：通过获得二进制前景掩模的初始值且以深度神经网络将所述二进制前景掩模精细化，生成每幅图像的阿尔法遮罩。

在一些实施方式中，该方法可进一步包括：根据所述二进制前景掩模生成三色图。

在一些实施方式中，所述深度神经网络可包括用于局部特征提取和全局情境信息的两个并行编码分支。

在一些实施方式中，该方法可进一步包括：通过所述基于图像的可见外壳构建，根据所述二进制前景掩模构建所述对象的所述点云。

在一些实施方式中，该方法可进一步包括：利用所述图像以及所述相应阿尔法遮罩，训练所述深度神经网络。

在一些实施方式中，所述多台相机当中的一台设置为目标相机。

在一些实施方式中，该方法可进一步包括：将所述图像的损失函数的梯度反向传播至所述点云。

在一些实施方式中，该方法可进一步包括：对所述图像进行二维图像变换。

在一些实施方式中，所述对象可包括毛发。

需要理解的是，以上概述与以下详述均仅在于例示和说明，而不在于限制所要求保护的发明。

附图说明

所附各图并入本文并构成其一部分，用于对本发明的实施方式进行说明，并与本文一道阐明所公开的原理。显而易见的是，这些附图仅展示出本发明的部分实施方式，本领域普通技术人员可根据这些附图，在没有做出创造性劳动的前提下获得其他实施方式的附图。

图1为根据本发明一种实施方式的神经不透明点云(NOPC)渲染工具的例示说明图。

图2为根据本发明一种实施方式的NOPC框架的例示说明图。

图3为根据本发明一种实施方式的(a)包括已校准相机的拍摄系统以及(b)拍摄图像样本的例示说明图。

图4为根据本发明一种实施方式采用深度情境感知抠图生成训练数据(即本底真图)的例示说明图，其中，根据对象掩模生成三色图。

图5为根据本发明一种实施方式所采用的多分支编解码网络的例示说明图，其中，将U-net双卷积模块中的卷积层替换为用于去噪和孔洞填补的门控卷积层。

图6为根据本发明一种实施方式(a)因绿屏的使用而引入的颜色渗漏以及(b)颜色渗漏的修复的例示说明图。

图7为根据本发明一种实施方式针对猫、人发及发型1的NOPC与现有技术视觉比较的例示说明图。

图8为根据本发明一种实施方式针对合成毛发及狼这两种数据集的NOPC与本底真图视觉比较的例示说明图。

图9为根据本发明一种实施方式针对猫、人发、发型2及发型3这四种真实数据集的NOPC与本底真图视觉比较的例示说明图，其中，将绿屏替换为采用NOPC阿尔法遮罩的新背景。

图10为根据本发明一种实施方式三种毛茸模型的自由视角渲染例示说明图，其中，渲染出的RGB和阿尔法遮罩在视角之间保持高度的连贯性。

图11为根据本发明一种实施方式使用不同训练数据规模时的NOPC渲染结果的例示说明图。

图12为根据本发明一种实施方式使用不同训练规模时针对发型2数据集的渲染质量定量比较(PSNR和SSIM)的例示折线图。

具体实施方式

以下，参考附图，更加全面地说明各种例示实施方式。然而，这些例示实施方式能够以多种形式实施，不应理解为仅局限于本文中给出的形式。相反地，这些实施方式旨在使人能够全面透彻地理解本发明，并将这些例示实施方式的概念完全传达给本领域其他技术人员。

另外，此处描述的特征、结构和特性能够在一种或多种实施方式中以任何适当的方式组合。为了使人能够透彻地理解本发明，下文中给出了许多具体细节，但是本领域技术人员需意识到的是，各种实施方式还可在省去所述具体细节中的一项或多项的情况下，或者在加入其他方法、部件、材料等物的情况下付诸实践。在各实施方式中，为了避免对本发明各个方面的描述造成干扰，有时并不示出或详细描述已经广为人知的结构、材料或操作。

1.简介

本发明实施方式采用神经渲染(NR)，并提供一种新技术，称为神经不透明点云(NOPC)。最近的NR技术采用图像/场景表现形式，并将渲染过程和规则编码成深度网络，且消除了对高精度三维几何形状的使用需求。例如，一种现有方法提出一种基于低级别二维图像表现形式显著提高最终渲染结果图像质量的NR技术。然而，该方法依旧无法处理需进行三维空间卷积的三维毛发/毛皮纤维所导致的不透明性。基于三维几何形状的替代性NR技术严重依赖三维网格的质量。在仅有毛发纤维的高噪声点云可供使用的当前情形中，此类方法无法获得令人满意的结果。

与此相较，NOPC将点云及通过相对稀疏的视角采样拍摄的RGBA(RGB+Alpha)图像一道用作训练数据。NOPC由两个模块组成。第一模块旨在基于围绕三维点的局部几何形状及外观学习神经特征。通过将特征描述量嵌入所有点中，可获得每一新视角下的特征图。第二模块侧重于渲染，并通过增强基于U-Net的NR的平移同变能力，扩展该技术，以实现任意视角下的渲染。具体而言，通过添加门控卷积层，稳健地处理高噪声且已损坏的三维几何形状。与此同时，以能够有效提高整个模型性能的阿尔法(Alpha)预测分支，扩展网络中的RGB采样分支。

此处，利用NOPC进行了综合实验，其中，对人发和毛绒玩具等各种传统上较难渲染的对象进行了渲染。具体而言，提供一种多视角拍摄系统，以及配套的样本视角下点云生成方法及自动遮罩生成方案。相应数据集由7种不同发型或毛绒玩具组成，每种共有400多幅校准后图像，各图像带有其相应的阿尔法遮罩，该数据集开创了同类数据集当中专门针对神经不透明渲染的先河。结果表明，NOPC能够以真实数据实现照片级写实程度的不透明渲染效果。针对合成数据进行的额外实验表明，NOPC在精确度和外观两方面的表现均优于现有神经渲染及IBOH等基于图像的渲染技术。

2.相关工作

2.1基于图像的渲染(IBR)

IBR技术旨在通过融合采样视角而合成新的视角。对于密集采样或外观相似的图像，简单的插值方案便可产生合理的结果。然而，当图像之间存在较大的差异或邻近图像具有少量重叠时，插值结果可产生重影和混叠等强烈的视觉伪影。虽然可利用对应匹配法减少此类伪影，但是所得图像可能会显得过度平滑。作为替代方案，可以利用几何形状对插值方案进行引导。例如，非结构化流明图法以几何形状代替物辅助视角/光线的选择，以进行交叉投影及取决于视角的融合。当几何形状代替物极其趋近本底真图时，渲染质量可与本底真图相媲美。然而，对于毛发等毛茸对象而言，几乎无法生成其代替几何形状。此外，也可将光流法与IBR相结合，以减少重影伪影，但其依赖于纹理的丰富性。一些最新方法提出一种同时将深度和可见性考虑在内的软性三维模型。然而，这些方法仅能改善遮挡边界，但无法改善不透明性。其他技术要么利用针对特定视角的几何形状，要么依赖于常规光线采样(如光场法)。然而，这些方法当中，没有任何方法专门用于处理具有不透明性的对象，而且其结果也差强人意。

作为另一方法，IBOH生成取决于视角的体积表现形式。其构思在于，相对于背景，拍摄前景对象取决于视角的部分遮挡状况。与可将多边形用作几何形状代替物的传统可见外壳不同，IBOH必须使用体积代替物。针对每一体素，均存储取决于视角的阿尔法图，其中，可对该图进行新阿尔法值的插值。该方法类似于表面光场法，其区别在于，后者利用网格表现形式显著降低存储要求。IBOH的结果在超密集采样情形中大有可为，但在稀疏采样情形中存在不足。这是因为体素的取决于视角的阿尔法图可能存在高度的不连续性，而插值仅在密集采样时才有效用。

2.2神经渲染

最近一系列对神经网络的去噪和超分辨率能力加以利用的神经渲染(NR)技术也与本发明有关，其甚至可例如通过改善融合权重的估算，或通过改善光流的预测，实现IBR与NR的融合。与传统的IBR技术类似，由于此类技术依赖于对毛茸对象难以奏效的高准确度光流和/或代替几何形状估算，因此其对不透明渲染的改善效果有限。最近的NR技术尝试通过将渲染过程和规则直接编码成深度网络而消除对高保真几何形状的需求。例如，一些现有方法采用低级别的二维特征，并成功产生超高质量的渲染效果。然而，三维遮挡会固有地导致不透明性，而且二维特征还不足以产生高质量的半透明效果。基于三维几何形状的NR技术依赖于网格的完整性和质量。对于毛茸对象，几乎无法将几何形状表示为网格。

2.3抠图

NOPC针对每一输入视角均采用已知的阿尔法遮罩，并有利地运用最近的自动遮罩生成技术。自然抠图通常要求在图像之外，还同时输入涂鸦图(Scribble)或三色图(Trimap)。传统的阿尔法抠图一般分为两类：颜色采样法及阿尔法传播法。颜色采样法针对未知区域的给定像素，在附近已知区域中进行颜色的采样。此类采样颜色可用于根据前景与背景颜色的局部平滑假设计算相应的阿尔法值。包括贝叶斯(Bayesian)抠图法、共享采样抠图法、全局采样抠图法及稀疏编码抠图法在内的许多颜色采样法均基于这一假设。阿尔法传播法利用像素之间关系的密切程度，将阿尔法值从已知区域传播至未知区域。此类方法包括封闭式(Closed-Form)抠图法、泊松(Poisson)抠图法、随机游走(Random Walk)抠图法、KNN抠图法以及信息流抠图法。最近，已有人提出针对抠图的若干深度学习方案。与使用需要过多手动输入的基于涂鸦图或三色图的技术时的情况不同，自动抠图技术通过深度学习自动生成三色图。例如，一些现有方法利用端到端CNN自动计算肖像照片的阿尔法遮罩，其结果可与手动标记的结果相媲美。在本发明实施方式中，NOPC也采用最新自动遮罩生成技术当中的一种生成RGBA输入。

3.神经不透明点云

在本发明中，提出一种新的NOPC框架，用于渲染毛茸对象。图1为根据本发明一种实施方式的神经不透明点云(NOPC)渲染工具的例示说明图。如图1所示，根据本发明一种实施方式的NOPC渲染工具可根据稀疏采样图像，实现毛茸对象的照片级写实程度的自由视角渲染。

图2为根据本发明一种实施方式的NOPC框架的例示说明图。如图2所示，NOPC的输入为对象的三维重建点云及其校准后的多视角图像数据。随后，NOPC在任何新视角下生成对象的RGBA(RGB+Alpha)渲染效果。

以下，对下文使用的符号进行解释。对于不透明对象，

和

分别表示点的点云和m维特征。具体而言，

其中，n_p为点数。训练数据包含n_q幅各种视角下的图像。I_q和A_q分别表示第q个视角V_q下的RGB图像和阿尔法遮罩，而K_q和E_q表示V_q的相机内参和外参。Ψ表示3.2节中描述的点的投影。

表示生成所得RGB图像

和阿尔法遮罩

的神经渲染工具：

3.1训练数据的获取

不同于传统的三维渲染，毛茸对象无法通过运动恢复结构(SFM)等标准的多视角立体技术直接重建。此外，飞行时间传感器或结构化光传感器等有源深度传感器也会使得重建结果存在极高的噪声，而且极不稳定。与此相反，本发明依赖于可见外壳类型的重建。在构建可见外壳时，需要在每一输入视角下，获得对象掩模。在本发明实施方式中，首先利用自动抠图技术提取每一视角下的阿尔法遮罩，然后通过为该遮罩设置阈值而获得二进制前景掩模。在所有的实验中，阈值可设置为0.2，以在无需引入过多背景的情况下，使前景几乎被全部覆盖。实验表明，本渲染技术对几何形状的质量不敏感，即使在几何形状不准确的情况下，也能获得满意的渲染效果。

根据前景掩模，并通过相机校准，可以构建对象的可见外壳表现形式。需要注意的是，可利用自阴影，构建多边形网格(如基于图像的可见外壳)或体积点云。在本发明中，出于以下若干原因选择后者：首先，毛茸对象，尤其由毛皮或毛发构成的对象，可能会包含数千条纤维，而多边形表现形式的平滑度过强，使得阿尔法估算结果无法贴近这些纤维；其次，多边形表现形式强制三维点位于分段平面上，而真实的毛发纤维在深度排序和形状上更加随机。事实上，由于目的在于精确学习每一体素的不透明度分布，因此点的表现形式更加合适。

拍摄系统：不透明对象数据与现有方法中的三维重建数据有很大不同。图3为根据本发明一种实施方式的(a)包括已校准相机的拍摄系统以及(b)拍摄图像样本的例示说明图。图3中，(a)所示为包括已校准相机的拍摄系统，(b)所示为拍摄图像样本。具体而言，以绿屏为背景，将对象放置于匀速旋转的转盘上。在拍摄图像时，相机保持静止。可通过以不同视角朝向对象的五台16mm C口相机以及一台朝向校准图案的8mm相机搭建简易转盘系统，该系统为稀疏多视角拍摄系统。拍摄速度为每秒两帧。五台16mm C口相机拍摄的图像包含RGB和阿尔法(见下节内容)通道图像，并用作训练数据。8mm C口相机拍摄的图像仅用于相机校准。

校准：使用辅助校准相机的原因在于，毛茸对象极其难以通过运动恢复结构(SFM)技术进行重建。虽然其他半球型系统能够通过重建处理直接进行相机的校准，但是对于毛茸对象，其可靠性不高。需要注意的是，虽然本发明训练图像比现有的NR或IBR输入更为稀疏，但是结果证明，本发明的阿尔法估算更为可靠。校准过程分为三步。首先，在校准相机坐标系下计算六台相机的相机内参和外参。该校准方法基于布盖(Bouguet)工具箱以及张氏相机校准法。第i台相机的内参为K_i，外参为E′_i(从校准相机坐标系至第i台相机的坐标系)。其后，针对每一帧，在模型坐标系下，通过SFM流程，计算校准相机外参。与第f帧对应的视角在模型坐标系下的外参为

最后，第i台相机的第f帧在模型坐标系下的外参

可计算为：

其表示每台相机的与视角V_q对应的帧。

遮罩的生成：各个视角的对应阿尔法遮罩用于在本发明网络内进行监督学习。然而，抠图在公式化后为一种不适定问题。此类问题可通过将深度学习与绿屏相融合的方式求解。具体而言，利用绿屏，可通过色度键控分割和背景减除，获得最初的二进制前景掩模。然而，此类二进制掩模无法与前景对象的边界完美对齐。为此，先通过深度情境感知抠图将掩模精细化，然后生成终的阿尔法遮罩。

图4为根据本发明一种实施方式采用深度情境感知抠图生成训练数据(即本底真图)的例示说明图，其中，根据对象掩模生成三色图。如图4所示，在生成本底真图等训练数据时，采用深度情境感知抠图，其中，根据对象掩模生成三色图。具体而言，根据精细化后的二进制掩模，通过形态学算子(腐蚀与膨胀)生成三色图：腐蚀后的图像区域作为前景，膨胀后掩模之外的区域作为背景，其余区域作为未知区域。随后，可利用情境感知网络，根据三色图和RGB图像预测阿尔法遮罩。

简而言之，情境感知网络内含用于同时进行前景和阿尔法遮罩估算双编码双解码深度神经网络。该网络建于Xception65架构之上，同时具有局部传播与全局情境信息的优点。该网络由如下两个并行编码分支构成：抠图编码器和情境编码器。抠图编码器使用的下采样因子为4，以侧重于局部特征提取，并同时保持足够的空间连贯性，而情境编码器使用的下采样因子为16，以捕获更大的感受野，从而提取全局情境信息。

情境编码器输出的编码特征图通过双线性上采样处理，以具有与抠图编码器相同的大小，然后将两特征图联合。所得结果发送给两个解码器分支，用于生成前景图像和阿尔法遮罩。具体而言，如图4所示，解码器使用相同的网络架构，该架构具有两个双线性上采样层，每一层均与来自情境编码器的过渡特征联合，情境编码器采用下游为由64个通道组成的3×3层的跳跃连接。该网络以遮罩数据集训练，并为每一视角生成阿尔法遮罩α。

图6为根据本发明一种实施方式(a)因绿屏的使用而引入的颜色渗漏以及(b)颜色渗漏的修复的例示说明图。如图6(a)所示，绿屏可实现更高效且更加可靠的背景分割，但会引入颜色渗漏问题。抠图时，I＝αF+(1-α)B,α∈[0,1]，其中，背景B预先拍摄。为了减少颜色渗漏，I′计算为：

其中，j为像素位置；∈为噪声抑制阈值(在本发明实施方式中设为0.2)。如图6(b)所示，颜色渗漏得到修复。

3.2特征投影

本发明神经渲染的第一步为，向每个三维点p_i分配编码对象外观、其阿尔法遮罩及其情境信息的特征向量f_i。在渲染新的目标视角V时，将所有点(因而其所有特征)投影至取决于视角的特征图M_q。随后，神经渲染网络

将所述特征图解码为带有阿尔法遮罩的RGB图像。

取决于视角的特征图：在给定特征为

的点云

中心为c_q的视角V_q以及已知相机内参和外参K_q和E_q时，每一点p_i的投影为：

[x_i；y_i；z_i]＝E_qp_i

其中，u_i和v_i为p_i的投影像素坐标。

首先，计算具有m+3个通道的取决于视角的特征图M_q。其目标在于，利用栅格化技术将所有点投影至像素，以形成前m个通道(具有正确顺序)。这一做法类似于基于栅格化的渲染中的Z缓冲，但区别在于，应用对象为点云，而非三角形，而且投影值为其特征图，而非颜色。最后的三个通道用于记录该点的归一化视角方向

特征图M_q初始化为[f₀；0]，其中f₀为训练所得的默认特征。与基于点的渲染技术类似，还通过抛雪球法(Splatting)减少孔洞。这一步骤将点栅格化成图像块(正方块)，其尺寸取决于p_i的深度值z_i，z_i越小，尺寸越大。抛雪球法还用于z值的插值，以及通过Z缓冲保持正确的深度顺序，并因而保持正确的遮挡。这一过程使得每一三维点均与一组像素相关联。假设在抛雪球法中，

(抛于(u，v)上且可见)为该视角下映射至同一三维点p_i的一组像素。

所得特征图M_q则为：

点特征的更新：在将像素与点关联之后，则将图像空间内特定损失函数的梯度反向传播至点云上的梯度：像素上的梯度映射至M_q中的可见点，不可见点分配零梯度。

假设

为相对于特征图的损失梯度，则相对于f_i的损失梯度可计算如下：

其中，ρ(·)表示对向量的前m个维度进行切片。

在这种形式下，网络成功获得可分辨性，因此能够进行端到端训练。

3.3神经不透明渲染

最近的基于学习的自然抠图技术已经表明，其尚不足以仅利用局部特征进行自动阿尔法预测。例如，一些现有方法采用全局特征进行可靠的阿尔法及前景估算。这一点不足为怪，这是因为RGB图像合成通常依赖于全局语义等高级别特征，而且其准确性会对阿尔法估算产生直接影响。基于这一观察，本发明采用一种新的神经渲染网络

其将取决于视角的特征图M_q作为输入，并且利用局部和全局特征生成RGB图像和阿尔法遮罩。

图5为根据本发明一种实施方式所采用的多分支编解码网络的例示说明图，其中，将U-net双卷积模块中的卷积层替换为用于去噪和孔洞填补的门控卷积层。图5所示为根据本发明一种实施方式的NOPC网络

阿尔法遮罩解码器同时使用来自其自身编码层的输出以及来自RGB编码器的浅层过渡表现形式。其中，通过将源自RGB的高级别特征与源自阿尔法的低级别特征相互整合而进行阿尔法推断，不会对RGB图像合成产生影响。

RGB编码器和解码器：对于RGB图像合成，经观察，体积重建仍然存在孔洞和噪声。因此，在采用最近的U-Net架构的同时，将其原本的卷积功能替换为门控卷积功能。这一替换增强了该网络的去噪及图像补全能力，以使得即使在低质量三维点云的情况下，所得RGB渲染效果仍然显得非常逼真。如图5所示，RGB编码器由一个输入卷积模块以及四个用于提取高级别特征的下采样模块组成。

输入卷积模块保持输入图像的图像大小，而下采样模块将图像大小减少一半，各通道将输入图像变为两份。解码器采用四个上采样模块以及一个输出卷积模块，以对通过将提取自RGB编码器相应层以及解码器前一层的过渡特征相联合而生成的特征图进行上采样。利用四个上采样模块，可生成与M_q具有相同分辨率的特征图。输出卷积模块将通道数减至3。

阿尔法编码器和解码器：经观察阿尔法遮罩对图像梯度及边缘等低级别特征较为敏感。因此，相应减小编码器的深度，并减小每一层的通道数。具体而言，仅采用一个输入卷积模块以及两个下采样模块，以使得通道数仅为RGB编码器的2/3。RGB编码器和阿尔法编码器彼此分离，以允许对相应的高级别和低级别特征分别进行独立学习。阿尔法编码器层数的减少还进一步减小了计算和内存开销。阿尔法解码器的深度与阿尔法编码器的深度相同，并具有两个上采样模块和一个输出卷积模块。每一上采样模块的输入均通过将来自阿尔法编码器和RGB编码器的过渡特征图相联合的方式获得。这一结构可实现情境信息以及更加可靠的阿尔法遮罩估算，而且在图像具有强烈的高级别特征时尤为如此。

损失函数：由于训练过程使用真实相机拍摄的RGB图像I和阿尔法遮罩A，因此拍摄图像中经常可观察到含有边框、光线及阴影等背景元素。为了避免这些元素对网络的训练产生影响，在计算损失之前，先计算对象的有效ROI掩模G。G为阿尔法遮罩A与点云深度图相互结合的产物。随后，通过膨胀将该掩模扩展，并计算该掩模所覆盖的区域内的损失Ω(I,G)。

此处，目标在于渲染毛发等存在许多精微细节的毛茸对象。为了更好地保留神经渲染中的细节，损失函数内加入具有均方差(MSE)的感知项。设f_vgg(·)表示预先训练好的VGG-19的第三层的输出特征，则感知损失可定义为：

最终损失函数定义为：

数据增强：为了将网络训练至在任意视角下具有更佳的适应性，还通过二维图像变换进一步对训练数据进行增强。具体而言，共使用包括随机平移、随机缩放及随机旋转在内的三种变换，这些变换可易于通过修改目标相机的内参/外参实现。

训练与推断：在训练时，将其中一个采样相机设置为目标相机，以能够利用本底真图I_q和A_q进行监督训练。端到端网络通过将损失函数的梯度从二维图像反向传播至三维点云的方式进行参数的更新。训练中使用亚当(Adam)优化器，学习率为3e^-5，权重衰减为2e^-4，同时还设置预热期。所有训练均在单个2080Ti上进行，批次大小为3。每一对象的网络均独立训练。训练花费的时间大约为24小时。在推断时，所有网络参数均为固定参数，而且所期望的目标视角设为点投影。渲染每一新视角的结果所花费的时间大约为100ms。

4.实验结果

所有实验均针对拍摄系统所采集的新的毛茸对象数据集以及合成数据进行。具体而言，共采集了7种不同人发发型及毛绒玩具。

对于合成数据，还对毛发和狼这两种额外模型进行渲染。虚拟相机置于围绕对象的球面上，并使用Blender渲染201幅作为训练数据的RGBA图像，以及另外200幅对每种合成场景进行测试的RGBA图像。毛发的点云模型采样自其原始产线模型，而狼的点云模型通过可见外壳重建法重建。

对于真实数据，共拍摄猫、人发、发型1、发型2及发型3这五种对象。其中，以3.1节描述的拍摄系统共采集600幅同时作为训练数据和测试数据的图像。其中，猫和人发的训练使用224幅图像，发型1至3的训练使用245幅图像，其余图像用于定量评估。对于每一真实场景，对象均重建为具有30万个点的点云。需要注意的是，NOPC能够以在RGB和阿尔法两方面均具有极其平滑的过渡效果的方式，渲染任意的新视角。在网络训练和前向预测步骤中，目标渲染分辨率设为720×450，点特征维度m设为32。

4.1比较

以下，对根据本发明实施方式的NOPC与若干种现有IBR和NR方法进行比较。

本底真图(GT)：拍摄/渲染图像的大小调节至与NOPC输出相同的720×450分辨率。

点云渲染(PCR)：通过直接投影至目标相机而向原始点云中的每一点分配RGB颜色，并根据需要进行结果的融合。PCR用于展示，与高质量的NOPC渲染结果相比，恢复后对象几何形状的质量较差。

基于图像的不透明外壳(IBOH)：使用MetaShape将点云三角剖分，并以与NOPC相同的多视角输入实现IBOH。

RGB神经渲染工具(RGB-NR)：用于NOPC的消融研究，其中，以采用各点的原始颜色而非学习所得特征(3.2节)的NOPC的神经渲染工具对渲染网络进行训练。该研究旨在展现，与颜色相比，通过NOPC网络学习得到的特征所揭示的信息更有价值。

RGBA-NR：将最近的神经渲染工具也扩展至同时输出RGB和阿尔法。该方法称作RGBA-NR，并用作将阿尔法编码器和解码器移除的消融研究。结果表明，与NOPC相比，RGBA-NR无法生成精微细节，而且各视角的阿尔法遮罩之间缺乏连贯性。

图7为根据本发明一种实施方式针对猫、人发及发型1的NOPC与现有技术视觉比较的例示说明图。如图7所示，针对猫、人发及发型1的真实采样数据集，不同方法之间呈现出视觉差异。与PCR和IBOH相比，NOPC针对相同的高噪声点云输入，成功校正了许多视觉伪影，并且保留了精微的纹理以及几何形状方面的细节。RGB-NR部分减少了噪声和视觉伪影，但却引入了过多的模糊之处，而非阿尔法遮罩。相较之下，RGBA-NR和NOPC均可更好地保留细节，而非模糊之处。这表明，通过网络学习得到的基于点的特征能够在原本的RGB颜色之外同时嵌入局部和情境信息。与RGBA-NR相比，NOPC在阿尔法遮罩中捕获到极其精微的细节，这主要得益于使用了单独的阿尔法预测分支，而RGBA-NR不存在这一分支。

表1所示为定量比较结果，其中，NOPC在准确度上优于所有的现有技术。表中，PSNR和SSIM测量结果越高越好。

表一

图8为根据本发明一种实施方式针对合成毛发及狼这两种数据集的NOPC与本底真图视觉比较的例示说明图。图9为根据本发明一种实施方式针对猫、人发、发型2及发型3这四种真实数据集的NOPC与本底真图视觉比较的例示说明图，其中，将绿屏替换为采用NOPC阿尔法遮罩的新背景。如图8所示，针对合成毛发及狼这两种数据集的NOPC与本底真图视觉比较表明，NOPC可生成与本底真图相当的高质量阿尔法遮罩。在获得新视角下的阿尔法遮罩后，便可改换背景。如图9所示，绿屏被替换为采用NOPC阿尔法遮罩的新背景，针对猫、人发、发型2及发型3这四种真实数据集的NOPC与本底真图视觉比较表明，NOPC能够在新背景上合成照片级写实程度的图像。

与包括RGBA-NR在内的现有技术相比，NOPC的一项独特优势在于，其能够保留视角之间的连贯性。图10为根据本发明一种实施方式三种毛茸模型的自由视角渲染例示说明图，其中，所渲染的RGB和阿尔法遮罩在视角之间保持高度的连贯性。如图10所示，所渲染的RGB和阿尔法遮罩在视角之间保持高度的连贯性。需要注意的是，由于样本视角下生成的原始阿尔法遮罩分别单独处理，因此其甚至可不具有连贯性。然而，NOPC在学习到贯穿所有帧的特征后，可在对所述样本视角进行渲染时，强制其具有连贯性。传统的IBR无法实现这一点，因为其渲染结果与样本视角下的样本相同。相比之下，NOPC通过以训练后的网络在这些视角下进行重新渲染而生成连贯性更高的阿尔法遮罩。

最后，对不同训练规模的影响进行说明。具体而言，其中随机抽取不同规模的训练数据子集。图11为根据本发明一种实施方式使用不同训练数据规模时的NOPC渲染结果的例示说明图。图12为根据本发明一种实施方式使用不同训练规模时针对发型2数据集的渲染质量定量比较(PSNR和SSIM)的例示折线图。如图11所示，使用不同训练数据规模时的NOPC渲染结果表明，训练数据越多，视觉质量越佳且精确度越高，但只要训练规模达到约200幅图像时，NOPC便可产生令人满意的结果。此类稀疏数据情形极其适合于例如通过使用智能手机进行的手持拍摄。然而，其中的难点在于毛茸对象的可靠图像配准。图12中的折线图所示为使用不同训练规模时针对发型2数据集的渲染质量定量比较(PSNR和SSIM)。

Claims

1.一种对象渲染方法，其特征在于，该方法包括：

在针对对象的点云的每一点中编码特征向量，其中，所述特征向量包括阿尔法遮罩；

将所述点云中的各点以及相应的所述特征向量投影至目标视角，以计算特征图；以及

利用神经渲染网络，将所述特征图解码为RGB图像和阿尔法遮罩且更新所述各点的向量。

2.如权利要求1所述的方法，其特征在于，还包括：

将所述点云中的点栅格化为所述特征图的图块，其中，所述图块的尺寸由所述点的深度值决定。

3.如权利要求1所述的方法，其特征在于，还包括：

将所述点云中的每一点与所述特征图的一组像素相关联。

4.如权利要求1所述的方法，其特征在于，还包括：

将所述特征图的损失函数的梯度反向传播至所述点云的梯度。

5.如权利要求1所述的方法，其特征在于，所述神经渲染网络包括用于处理所述RGB图像的第一编码器和第一解码器，以及用于处理所述阿尔法遮罩的第二编码器和第二解码器。

6.如权利要求5所述的方法，其特征在于，所述第一编码器采用U-Net架构，且同时将U-Net架构中的卷积层替换为门控卷积层。

7.如权利要求6所述的方法，其特征在于，所述第一编码器包括一个输入卷积模块和四个下采样模块。

8.如权利要求6所述的方法，其特征在于，所述第一解码器包括一个输出卷积模块和四个上采样模块。

9.如权利要求5所述的方法，其特征在于，还包括：

通过将来自所述第一编码器和前一上采样模块的过渡特征图相联合，获得所述第一解码器的上采样模块的输入。

10.如权利要求5所述的方法，其特征在于，所述第二编码器包括一个输入卷积模块和两个下采样模块。

11.如权利要求10所述的方法，其特征在于，所述第二解码器包括一个输出卷积模块和两个上采样模块。

12.如权利要求10所述的方法，其特征在于，还包括：

通过将来自所述第一编码器和所述第二编码器的过渡特征图相联合，获得所述第二解码器的上采样模块的输入。

13.如权利要求1所述的方法，其特征在于，还包括：

由多台相机在多个视角下拍摄所述对象的多幅图像；以及

通过基于图像的可见外壳构建，构建所述点云。

14.如权利要求13所述的方法，其特征在于，还包括：

以恒定速度转动所述对象；以及

由所述多台相机在多个视角下以固定间隔拍摄所述对象的所述多幅图像。

15.如权利要求14所述的方法，其特征在于，还包括：

由校准相机以所述固定间隔拍摄以所述恒定速度转动的校准图案的图像。

16.如权利要求13所述的方法，其特征在于，还包括：

通过以运动恢复结构技术计算所述校准相机的外参，对所述多幅图像进行校准。

17.如权利要求13所述的方法，其特征在于，还包括：

通过获得二进制前景掩模的初始值且以深度神经网络将所述二进制前景掩模精细化，生成每幅图像的阿尔法遮罩。

18.如权利要求17所述的方法，其特征在于，还包括：

根据所述二进制前景掩模生成三色图。

19.如权利要求17所述的方法，其特征在于，所述深度神经网络包括用于局部特征提取和全局情境信息的两个并行编码分支。

20.如权利要求17所述的方法，其特征在于，还包括：

通过所述基于图像的可见外壳构建，根据所述二进制前景掩模构建所述对象的所述点云。

21.如权利要求17所述的方法，其特征在于，还包括：

利用所述图像以及相应的所述阿尔法遮罩，训练所述深度神经网络。

22.如权利要求21所述的方法，其特征在于，所述多台相机当中的一台设置为目标相机。

23.如权利要求21所述的方法，其特征在于，还包括：

将所述图像的损失函数的梯度反向传播至所述点云。

24.如权利要求21所述的方法，其特征在于，还包括：

对所述图像进行二维图像变换。

25.如权利要求1所述的方法，其特征在于，所述对象包括毛发。