CN115482368A

CN115482368A - 一种利用语义图进行三维场景编辑的方法

Info

Publication number: CN115482368A
Application number: CN202211195116.6A
Authority: CN
Inventors: 陆忆憧; 黄嘉欣; 叶江南; 廖依伊; 万世雄; 史治国
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-16

Abstract

本发明公开了一种利用语义图进行三维场景编辑的方法。该方法能够允许用户通过编辑一张二维语义图完成对隐式三维场景的编辑，在任意新视角下渲染出编辑后的二维照片。本方法主要包括泛化训练、微调、优化和渲染四个步骤。泛化训练时，本方法利用多个场景的数据进行训练，提升网络对场景几何的学习能力，进而加快对新场景的训练收敛速度。微调时，本方法把新场景的RGB图片和语义图作为监督，对网络中的MLP进行训练，提升网络对新场景的表达能力。优化时，本方法把用户编辑后的语义图作为监督，对网络中的MLP进行训练，完成三维场景的编辑。渲染时，本方法可以根据输入的任意相机位姿渲染出场景编辑后的二维RGB照片。本方法可在AR/VR设备中用于场景编辑。

Description

一种利用语义图进行三维场景编辑的方法

技术领域

本发明属于三维重建与编辑领域，尤其涉及一种利用语义图进行三维场景编辑的方法。

背景技术

随着元宇宙热潮的出现，实现现实场景的高质量三维重建对于现实世界数字化起到至关重要的作用。2020年，神经辐射场(NeRF)技术率先将神经网络引入三维重建领域，实现了仅使用几张RGB图片就可以对现实场景进行高质量重建，用户可以在新视角下得到高分辨率的渲染结果；2021年，MVSNeRF技术把MVSnet这一用于深度预测的网络融入到NeRF框架中，大幅提升了网络的训练速度；2021年，semanticNeRF技术使NeRF不仅可以渲染新视角的RGB图片，还可以渲染新视角的语义图片。近年来，还有其他很多技术研究了如何提高NeRF的渲染质量，如何提升NeRF的训练速度，如何扩大NeRF的应用场景等等，但目前还很少有技术尝试通过编辑语义图，来完成对NeRF中三维隐式场景的编辑。

实现对三维场景的编辑具有非常高的商业应用价值，在AR应用中添加场景编辑功能可以极大提升用户的体验，目前对三维场景进行编辑的技术主要包括建模师构建三维物体模型，手机APP通过ARcore等工具包将三维物体放入场景中；建模师手动构造三维场景，再通过三维编辑软件手动修改三维物体的信息等。但针对NeRF技术构建的三维隐式场景进行编辑的技术还较少，最近的技术包括为每个物体构建MLP，通过操作每个物体对应MLP进行场景编辑的object-NeRF；使用GAN进行人脸编辑的IDE-3D技术。但目前还没有技术能够通过编辑语义图完成室内外隐式三维场景的可泛化编辑，并实现任意视角下具有视角一致性的二维照片渲染功能。

发明内容

本发明的目的在于针对使用NeRF技术构建的三维隐式场景，提供一种利用语义图进行三维场景编辑的方法。

本发明的目的是通过以下技术方案实现的：一种利用语义图进行三维场景编辑的方法，其特征在于，包括以下步骤：

(1)泛化训练阶段，构建由2D卷积模块、3D卷积模块和MLP构成的三维场景语义编辑网络，输入场景的RGB图片、语义图和每张图对应的相机位姿，训练2D卷积模块、3D卷积模块和MLP，提升网络对场景几何信息的学习能力，进而加快后续步骤的训练速度，包括：

(1.1)通过2D卷积模块获取输入RGB图片的2D特征图；

(1.2)使用单应性变换把不同视角的2D特征图转换到参考视角，然后通过计算不同视角2D特征图之间的方差得到损失立方体；

(1.3)通过3D卷积模块提取损失立方体的特征得到神经编码立方体；

(1.4)根据某张图片对应的相机位姿形成一条射线，在射线上对神经编码立方体进行均匀采样，得到每个采样点的特征值f_k和三维坐标x_k，对采样点三维坐标x_k、射线方向d_k进行位置编码；

(1.5)将采样点的特征值f_k、采样点三维坐标的位置编码结果γ(x_k)、射线方向的位置编码结果γ(d_k)和输入图片的RGB值作为多层感知机MLP的输入，其中γ(·)为位置编码函数，输出体密度值σ_k、颜色值r_k和语义值sk；

(1.6)根据MLP输出的体密度值σ_k、颜色值r_k和语义值s_k，使用体渲染方法得到一条射线对应二维像素点的颜色值c_t和语义值s_t：透明度

对该颜色值c_i与真实颜色值

计算L2范数得到颜色损失值：

对该语义值s_i与真实语义值

计算交叉熵损失函数得到语义损失值

其中

代表体渲染得到的该点语义是l类别的概率，

代表真实语义图在该点是l类别的概率，L为语义类别总数；对颜色损失值和语义损失值加权求和得到总损失值：L_total＝L_c+λL_s，λ为语义损失权重；

(1.7)通过梯度反向传播方法使用总损失值更新2D卷积模块、3D卷积模块和MLP内的参数；

(1.8)利用数据集中的多场景数据重复以上步骤训练网络，提升网络对场景几何信息学习的能力，进而提高场景泛化能力；

(2)微调阶段，输入待编辑场景的RGB图片、语义图和对应的相机位姿，重复步骤(1.1)～(1.6)得到总损失值，但梯度反向传播时不更新2D卷积模块和3D卷积模块内的参数，只更新MLP内的参数，提升三维场景语义编辑网络对该待编辑场景的表达能力；

(3)优化阶段，具体为：用户对语义图进行编辑；将采样点的特征值f_k、采样点三维坐标的位置编码结果γ(x_k)、射线方向的位置编码结果γ(d_k)和输入图片的RGB值作为MLP的输入，从MLP的输出得到体密度值σ_k和语义值s_k，使用体渲染方法得到射线对应像素的语义值s_i：透明度

计算得到优化阶段的损失值

其中

代表体渲染得到的该点语义是l类别的概率，

代表编辑后的语义图在该点是l类别的概率，再通过梯度反向传播方法使用该损失值更新MLP内的参数，完成对隐式三维场景的编辑；

(4)渲染阶段，用户给定任意相机位姿后，利用新的相机位姿对神经编码立方体进行采样得到特征值f′_k，将采样点的特征值f′_k、采样点三维坐标的位置编码结果γ(x′_k)、射线方向的位置编码结果γ(d′_k)和待编辑场景图片的RGB值输入MLP，输出场景编辑后的体密度值σ′_k和颜色值r′_k，使用体渲染公式

即可得到用户指定相机位姿下场景编辑后的RGB图片某个像素点的RGB值c′_i，对图片所有像素点都进行上述操作后即得到整张场景编辑后的RGB图片。

进一步地，所述步骤(1)中，泛化训练的场景可以与编辑的场景不同，实验证明三维场景语义编辑网络的结构可以显著提高后续功能的训练速度。

进一步地，所述步骤(1.1)中使用2D卷积模块提取图像特征的方法为F_i＝T(I_i)，其中T代表带4倍下采样结构的2D CNN网络，I_i代表尺寸是H_i×W_i×3的RGB图片，F_i代表尺寸是H_i/4×W_i/4×C的2D特征图，其中H_i和W_i分别代表图片的长和宽，C代表2D特征图的通道数同时也代表2D CNN网络卷积核的数量。

进一步地，所述步骤(1.2)中单应性变换的方法为已知相机内外参数得到参数矩阵Φ＝[K，R，t]，其中K代表内参矩阵，R和t分别代表相机的旋转和平移，两者合在一起组成外参矩阵；可以通过以下公式得到单应性变换矩阵：

其中

代表在深度z上从视角i变换到参考视角的单应性变换矩阵，K_i代表视角i对应的内参矩阵，R_i代表视角i对应的相机旋转矩阵，t_i代表视角i对应的相机平移向量，n₁代表考视角图片对应的相机光轴；所有特征图F_i都可以通过以下方式变换到参考视角：

其中(u，v)代表参考视角的像素点坐标，F_i，z代表视角i对应的特征图变换到参考视角后在深度z的特征图。

进一步地，所述步骤(1.2)中计算不同视角特征图之间的方差得到损失立方体的方法为P(u，v，z)＝Var(F_i，z(u，v))，其中P(u，v，z)代表损失立方体在(u，v，z)点的值，F_i，z(u，v)代表视角i特征图经过单应性变换后在参考视角(u，v)点z深度处的值，Var代表计算多个视角特征图之间的方差。

进一步地，所述步骤(1.4)中，位置编码函数γ(·)的公式如下：

γ(p)＝(sin(2⁰πp)，cos(2⁰πp)，…，sin(2^Q-1πp)，cos(2^Q-1πp))

对三维坐标x_k进行位置编码时Q置为10，对射线方向d_k进行位置编码时Q置为4。

进一步地，所述步骤(1.5)中，输入图片的RGB值指的是将所有输入图片叠加在一起，在像素点pixel处取到的高维RGB向量，其中pixel与体渲染得到图片的像素点相对应。

进一步地，所述步骤(1)和(2)中场景的语义图是通过pspnet语义分割技术对RGB图片进行语义分割后得到的。

进一步地，所述步骤(3)中，使用编辑后的语义图作为网络的监督，梯度反向传播只更新MLP内的参数来实现对隐式三维场景的编辑。

进一步地，所述步骤(3)中，用户使用可视化的脚本程序或PS软件完成对语义图颜色的编辑。

进一步地，所述步骤(4)中，用户能够得到任意视角下编辑后隐式三维场景的二维渲染图片。

本发明的有益效果是：本发明方法能够允许用户通过编辑一张二维语义图完成对隐式三维场景的编辑，在任意新视角下渲染出编辑后的二维照片。本方法主要包括泛化训练、微调、优化和渲染四个步骤。泛化训练时，本方法利用多个场景的数据进行训练，提升网络对场景几何的学习能力，进而加快对新场景的训练收敛速度。微调时，本方法把新场景的RGB图片和语义图作为监督，对网络中的MLP进行训练，提升网络对新场景的表达能力。优化时，本方法把用户编辑后的语义图作为监督，对网络中的MLP进行训练，完成三维场景的编辑。渲染时，本方法可以根据任意输入的相机位姿渲染出场景编辑后的二维RGB照片。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一实施例提供的利用语义图进行三维场景编辑的方法流程图；

图2为一实施例提供的2D卷积网络结构；

图3为一实施例提供的3D卷积网络结构；

图4为一实施例提供的MLP网络结构。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

本发明提供一种利用语义图进行三维场景编辑的方法，如图1所示，该方法包括以下步骤：

(1)泛化训练阶段，构建由2D卷积模块、3D卷积模块和MLP构成的三维场景语义编辑网络，输入场景的RGB图片，语义图和每张图对应的相机位姿，训练2D卷积模块、3D卷积模块和MLP，提升网络对场景几何信息的学习能力，进而加快后续步骤的训练速度，包括：

(1.1)通过2D卷积模块获取输入RGB图片的2D特征图，2D卷积模块的结构如图2所示；

(1.3)通过3D卷积模块提取损失立方体的特征得到神经编码立方体；本实施例中，3D卷积模块的具体结构为模型以损失立方体f′_2d和图像I为输入，依次通过7个ConvBnRelu层，记为CBR0-CBR6，其中，CBR0的输出向量维度为8，CBR1与CBR2的输出维度为16，CBR3与CBR4的输出维度为32，CBR5与CBR6的输出维度为64。由此得到的特征向量将经过3层ConvTransposeBn处理，记为CTB0-CBT2，其中，CBT0的输出维度为32，其输出将与CBR4层的输出相加，作为CBT1的输入，由其处理后输出一个16维的向量，并与CBR2层的输出相加，交给CTB2处理，最终输出8维向量，与CBR1的输出相加，作为神经编码立方体的特征向量f_3d，具体如图3所示；

(1.4)根据某张图片对应的相机位姿形成一条射线，在射线上对神经编码立方体进行均匀采样，得到每个采样点的特征值f_k和三维坐标x_k，对采样点三维坐标x_k、射线方向d_k进行位置编码，具体操作为：γ(p)＝(sin(2⁰πp)，cos(2⁰πp)，…，sin(2^Q-1πp)，cos(2^Q-1πp))，其中对三维坐标x_k进行位置编码时Q置为10，对射线方向d_k进行位置编码时Q置为4；

本实施例中，采样的细节为先根据场景类型确定采样范围[near，far]，室外场景near＝0，far＝100，室内场景near＝0，far＝10；对相机位姿形成的射线在[near，far]范围内均匀采样128个点，得到128个采样点三维坐标x_k；根据三维坐标x_k在神经编码立方体中找到最近的8个点，对这些点的特征值进行双线性插值得到采样点的特征值f_k。

(1.5)将采样点的特征值f_k、采样点三维坐标的位置编码结果γ(x_k)、射线方向的位置编码结果γ(d_k)和输入图片的RGB值作为多层感知机MLP的输入，输出体密度值σ_k，颜色值r_k和语义值s_k；本实施例中，多层感知机MLP的具体结构主要由7部分组成，记为bias_linears，pts_linears，feature_linears，views_linears，rgb_linears，alpha_linears以及semantic_linears。其中，bias_linears由一层线性层组成，其将采样点特征值映射为256维的偏置向量bias；pts_linears由6层线性层依次连接组成，第一层以采样点三维坐标的位置编码作为输入，第五层由前一层输出乘上bias再加上采样点三维坐标的位置编码作为输入，其余层由前一层输出乘上bias作为输入，所有层的输出维度都为256；feature_linears由1层线性层组成，其输入为pts_linears得到的向量与bias的乘积，而输出的256维向量将加上射线方向的位置编码，输入到1层线性层构成的views_linears，得到128维输出，再经一层rgb_linears映射为3维rgb颜色值；alpha_linears与feature_linears的输入相同，并输出一个1维的体密度值；同理，semantic_linears将该输入经过6个线性层，输出维度分别为256/256/256/256/128/45，得到最终的语义输出，具体如图4所示；

(1.6)根据MLP输出的体密度值σ_k，颜色值r_k和语义值s_k，使用体渲染方法得到一条射线对应二维像素点的颜色值c_t和语义值s_t：透明度

对该颜色值c_t与真实颜色值

计算L2范数得到颜色损失值：

对该语义值s_t与真实语义值

计算交叉熵损失函数得到语义损失值

其中

代表体渲染得到的该点语义是l类别的概率，

代表真实语义图在该点是l类别的概率，L为语义类别总数；对颜色损失值和语义损失值加权求和得到总损失值：L_total＝L_c+λL_s，λ为语义损失权重；本实施例中，真实语义值通过pspnet技术对RGB图片进行语义分割得到，λ取0.04。

(1.7)通过梯度反向传播方法使用总损失值更新2D卷积模块，3D卷积模块和MLP内的参数；

本实施例中，针对室外待编辑场景，采用kitti-360开源数据集进行泛化训练，针对室内待编辑场景，采用replica开源数据集进行泛化训练。

(3)优化阶段，具体为：用户使用可视化的脚本程序或PS软件等工具完成对语义图颜色的编辑；将采样点的特征值f_k、采样点三维坐标的位置编码结果γ(x_k)、射线方向的位置编码结果γ(d_k)和输入图片的RGB值作为MLP的输入，从MLP的输出得到体密度值σ_k和语义值s_k，使用体渲染方法得到射线对应像素的语义值s_t：

计算得到优化阶段的损失值

其中

代表体渲染得到的该点语义是l类别的概率，

即可得到用户指定相机位姿下场景编辑后的RGB图片某个像素点的RGB值c′_t，对图片所有像素点都进行上述操作后即得到整张场景编辑后的RGB图片。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在......时”或“当......时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种利用语义图进行三维场景编辑的方法，其特征在于，包括以下步骤：

(1)泛化训练阶段，构建由2D卷积模块、3D卷积模块和MLP构成的三维场景语义编辑网络，输入场景的RGB图片、语义图和每张图对应的相机位姿，训练2D卷积模块、3D卷积模块和MLP，包括：

(1.1)通过2D卷积模块获取输入RGB图片的2D特征图；

(1.5)将采样点的特征值f_k、采样点三维坐标的位置编码结果γ(x_k)、射线方向的位置编码结果γ(d_k)和输入图片的RGB值作为多层感知机MLP的输入，其中γ(·)为位置编码函数，输出体密度值σ_k、颜色值r_k和语义值s_k；

对该颜色值c_t与真实颜色值

计算L2范数得到颜色损失值：

对该语义值s_t与真实语义值

计算交叉熵损失函数得到语义损失值

其中

代表体渲染得到的该点语义是l类别的概率，

(1.8)利用多场景数据重复以上步骤训练网络，提升网络对场景几何信息学习的能力，进而提高场景泛化能力；

(3)优化阶段，具体为：用户对语义图进行编辑；将采样点的特征值f_k、采样点三维坐标的位置编码结果γ(x_k)、射线方向的位置编码结果γ(d_k)和输入图片的RGB值作为MLP的输入，从MLP的输出得到体密度值σ_k和语义值s_k，使用体渲染方法得到射线对应像素的语义值s_t：透明度

计算得到优化阶段的损失值

其中

代表体渲染得到的该点语义是l类别的概率，

2.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法，其特征在于，所述步骤(1)中，泛化训练的场景可以与编辑的场景不同。

3.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法，其特征在于，所述步骤(1.4)中，位置编码函数γ(·)的公式如下：

γ(p)＝(sin(2⁰πp)，cos(2⁰πp)，…，sin(2^Q-1πp)，cos(2^Q-1πp))

4.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法，其特征在于，所述步骤(1.5)中，输入图片的RGB值指的是将所有输入图片叠加在一起，在像素点pixel处取到的高维RGB向量，其中pixel与体渲染得到图片的像素点相对应。

5.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法，其特征在于，所述步骤(1)和(2)中场景的语义图是通过pspnet语义分割技术对RGB图片进行语义分割后得到的。

6.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法，其特征在于，所述步骤(3)中，使用编辑后的语义图作为网络的监督，梯度反向传播只更新MLP内的参数来实现对隐式三维场景的编辑。

7.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法，其特征在于，所述步骤(3)中，用户使用可视化的脚本程序或PS软件完成对语义图颜色的编辑。

8.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法，其特征在于，所述步骤(4)中，用户能够得到任意视角下编辑后隐式三维场景的二维渲染图片。