CN115482368A - 一种利用语义图进行三维场景编辑的方法 - Google Patents

一种利用语义图进行三维场景编辑的方法 Download PDF

Info

Publication number
CN115482368A
CN115482368A CN202211195116.6A CN202211195116A CN115482368A CN 115482368 A CN115482368 A CN 115482368A CN 202211195116 A CN202211195116 A CN 202211195116A CN 115482368 A CN115482368 A CN 115482368A
Authority
CN
China
Prior art keywords
semantic
scene
value
dimensional
editing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211195116.6A
Other languages
English (en)
Inventor
陆忆憧
黄嘉欣
叶江南
廖依伊
万世雄
史治国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211195116.6A priority Critical patent/CN115482368A/zh
Publication of CN115482368A publication Critical patent/CN115482368A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Geometry (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用语义图进行三维场景编辑的方法。该方法能够允许用户通过编辑一张二维语义图完成对隐式三维场景的编辑,在任意新视角下渲染出编辑后的二维照片。本方法主要包括泛化训练、微调、优化和渲染四个步骤。泛化训练时,本方法利用多个场景的数据进行训练,提升网络对场景几何的学习能力,进而加快对新场景的训练收敛速度。微调时,本方法把新场景的RGB图片和语义图作为监督,对网络中的MLP进行训练,提升网络对新场景的表达能力。优化时,本方法把用户编辑后的语义图作为监督,对网络中的MLP进行训练,完成三维场景的编辑。渲染时,本方法可以根据输入的任意相机位姿渲染出场景编辑后的二维RGB照片。本方法可在AR/VR设备中用于场景编辑。

Description

一种利用语义图进行三维场景编辑的方法
技术领域
本发明属于三维重建与编辑领域,尤其涉及一种利用语义图进行三维场景编辑的方法。
背景技术
随着元宇宙热潮的出现,实现现实场景的高质量三维重建对于现实世界数字化起到至关重要的作用。2020年,神经辐射场(NeRF)技术率先将神经网络引入三维重建领域,实现了仅使用几张RGB图片就可以对现实场景进行高质量重建,用户可以在新视角下得到高分辨率的渲染结果;2021年,MVSNeRF技术把MVSnet这一用于深度预测的网络融入到NeRF框架中,大幅提升了网络的训练速度;2021年,semanticNeRF技术使NeRF不仅可以渲染新视角的RGB图片,还可以渲染新视角的语义图片。近年来,还有其他很多技术研究了如何提高NeRF的渲染质量,如何提升NeRF的训练速度,如何扩大NeRF的应用场景等等,但目前还很少有技术尝试通过编辑语义图,来完成对NeRF中三维隐式场景的编辑。
实现对三维场景的编辑具有非常高的商业应用价值,在AR应用中添加场景编辑功能可以极大提升用户的体验,目前对三维场景进行编辑的技术主要包括建模师构建三维物体模型,手机APP通过ARcore等工具包将三维物体放入场景中;建模师手动构造三维场景,再通过三维编辑软件手动修改三维物体的信息等。但针对NeRF技术构建的三维隐式场景进行编辑的技术还较少,最近的技术包括为每个物体构建MLP,通过操作每个物体对应MLP进行场景编辑的object-NeRF;使用GAN进行人脸编辑的IDE-3D技术。但目前还没有技术能够通过编辑语义图完成室内外隐式三维场景的可泛化编辑,并实现任意视角下具有视角一致性的二维照片渲染功能。
发明内容
本发明的目的在于针对使用NeRF技术构建的三维隐式场景,提供一种利用语义图进行三维场景编辑的方法。
本发明的目的是通过以下技术方案实现的:一种利用语义图进行三维场景编辑的方法,其特征在于,包括以下步骤:
(1)泛化训练阶段,构建由2D卷积模块、3D卷积模块和MLP构成的三维场景语义编辑网络,输入场景的RGB图片、语义图和每张图对应的相机位姿,训练2D卷积模块、3D卷积模块和MLP,提升网络对场景几何信息的学习能力,进而加快后续步骤的训练速度,包括:
(1.1)通过2D卷积模块获取输入RGB图片的2D特征图;
(1.2)使用单应性变换把不同视角的2D特征图转换到参考视角,然后通过计算不同视角2D特征图之间的方差得到损失立方体;
(1.3)通过3D卷积模块提取损失立方体的特征得到神经编码立方体;
(1.4)根据某张图片对应的相机位姿形成一条射线,在射线上对神经编码立方体进行均匀采样,得到每个采样点的特征值fk和三维坐标xk,对采样点三维坐标xk、射线方向dk进行位置编码;
(1.5)将采样点的特征值fk、采样点三维坐标的位置编码结果γ(xk)、射线方向的位置编码结果γ(dk)和输入图片的RGB值作为多层感知机MLP的输入,其中γ(·)为位置编码函数,输出体密度值σk、颜色值rk和语义值sk;
(1.6)根据MLP输出的体密度值σk、颜色值rk和语义值sk,使用体渲染方法得到一条射线对应二维像素点的颜色值ct和语义值st:透明度
Figure BDA0003869160370000021
Figure BDA0003869160370000022
对该颜色值ci与真实颜色值
Figure BDA0003869160370000023
计算L2范数得到颜色损失值:
Figure BDA0003869160370000024
对该语义值si与真实语义值
Figure BDA0003869160370000025
计算交叉熵损失函数得到语义损失值
Figure BDA0003869160370000026
其中
Figure BDA0003869160370000027
代表体渲染得到的该点语义是l类别的概率,
Figure BDA0003869160370000028
代表真实语义图在该点是l类别的概率,L为语义类别总数;对颜色损失值和语义损失值加权求和得到总损失值:Ltotal=Lc+λLs,λ为语义损失权重;
(1.7)通过梯度反向传播方法使用总损失值更新2D卷积模块、3D卷积模块和MLP内的参数;
(1.8)利用数据集中的多场景数据重复以上步骤训练网络,提升网络对场景几何信息学习的能力,进而提高场景泛化能力;
(2)微调阶段,输入待编辑场景的RGB图片、语义图和对应的相机位姿,重复步骤(1.1)~(1.6)得到总损失值,但梯度反向传播时不更新2D卷积模块和3D卷积模块内的参数,只更新MLP内的参数,提升三维场景语义编辑网络对该待编辑场景的表达能力;
(3)优化阶段,具体为:用户对语义图进行编辑;将采样点的特征值fk、采样点三维坐标的位置编码结果γ(xk)、射线方向的位置编码结果γ(dk)和输入图片的RGB值作为MLP的输入,从MLP的输出得到体密度值σk和语义值sk,使用体渲染方法得到射线对应像素的语义值si:透明度
Figure BDA0003869160370000031
计算得到优化阶段的损失值
Figure BDA0003869160370000032
其中
Figure BDA0003869160370000033
代表体渲染得到的该点语义是l类别的概率,
Figure BDA0003869160370000034
代表编辑后的语义图在该点是l类别的概率,再通过梯度反向传播方法使用该损失值更新MLP内的参数,完成对隐式三维场景的编辑;
(4)渲染阶段,用户给定任意相机位姿后,利用新的相机位姿对神经编码立方体进行采样得到特征值f′k,将采样点的特征值f′k、采样点三维坐标的位置编码结果γ(x′k)、射线方向的位置编码结果γ(d′k)和待编辑场景图片的RGB值输入MLP,输出场景编辑后的体密度值σ′k和颜色值r′k,使用体渲染公式
Figure BDA0003869160370000035
即可得到用户指定相机位姿下场景编辑后的RGB图片某个像素点的RGB值c′i,对图片所有像素点都进行上述操作后即得到整张场景编辑后的RGB图片。
进一步地,所述步骤(1)中,泛化训练的场景可以与编辑的场景不同,实验证明三维场景语义编辑网络的结构可以显著提高后续功能的训练速度。
进一步地,所述步骤(1.1)中使用2D卷积模块提取图像特征的方法为Fi=T(Ii),其中T代表带4倍下采样结构的2D CNN网络,Ii代表尺寸是Hi×Wi×3的RGB图片,Fi代表尺寸是Hi/4×Wi/4×C的2D特征图,其中Hi和Wi分别代表图片的长和宽,C代表2D特征图的通道数同时也代表2D CNN网络卷积核的数量。
进一步地,所述步骤(1.2)中单应性变换的方法为已知相机内外参数得到参数矩阵Φ=[K,R,t],其中K代表内参矩阵,R和t分别代表相机的旋转和平移,两者合在一起组成外参矩阵;可以通过以下公式得到单应性变换矩阵:
Figure BDA0003869160370000036
其中
Figure BDA0003869160370000038
代表在深度z上从视角i变换到参考视角的单应性变换矩阵,Ki代表视角i对应的内参矩阵,Ri代表视角i对应的相机旋转矩阵,ti代表视角i对应的相机平移向量,n1代表考视角图片对应的相机光轴;所有特征图Fi都可以通过以下方式变换到参考视角:
Figure BDA0003869160370000037
其中(u,v)代表参考视角的像素点坐标,Fi,z代表视角i对应的特征图变换到参考视角后在深度z的特征图。
进一步地,所述步骤(1.2)中计算不同视角特征图之间的方差得到损失立方体的方法为P(u,v,z)=Var(Fi,z(u,v)),其中P(u,v,z)代表损失立方体在(u,v,z)点的值,Fi,z(u,v)代表视角i特征图经过单应性变换后在参考视角(u,v)点z深度处的值,Var代表计算多个视角特征图之间的方差。
进一步地,所述步骤(1.4)中,位置编码函数γ(·)的公式如下:
γ(p)=(sin(20πp),cos(20πp),…,sin(2Q-1πp),cos(2Q-1πp))
对三维坐标xk进行位置编码时Q置为10,对射线方向dk进行位置编码时Q置为4。
进一步地,所述步骤(1.5)中,输入图片的RGB值指的是将所有输入图片叠加在一起,在像素点pixel处取到的高维RGB向量,其中pixel与体渲染得到图片的像素点相对应。
进一步地,所述步骤(1)和(2)中场景的语义图是通过pspnet语义分割技术对RGB图片进行语义分割后得到的。
进一步地,所述步骤(3)中,使用编辑后的语义图作为网络的监督,梯度反向传播只更新MLP内的参数来实现对隐式三维场景的编辑。
进一步地,所述步骤(3)中,用户使用可视化的脚本程序或PS软件完成对语义图颜色的编辑。
进一步地,所述步骤(4)中,用户能够得到任意视角下编辑后隐式三维场景的二维渲染图片。
本发明的有益效果是:本发明方法能够允许用户通过编辑一张二维语义图完成对隐式三维场景的编辑,在任意新视角下渲染出编辑后的二维照片。本方法主要包括泛化训练、微调、优化和渲染四个步骤。泛化训练时,本方法利用多个场景的数据进行训练,提升网络对场景几何的学习能力,进而加快对新场景的训练收敛速度。微调时,本方法把新场景的RGB图片和语义图作为监督,对网络中的MLP进行训练,提升网络对新场景的表达能力。优化时,本方法把用户编辑后的语义图作为监督,对网络中的MLP进行训练,完成三维场景的编辑。渲染时,本方法可以根据任意输入的相机位姿渲染出场景编辑后的二维RGB照片。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一实施例提供的利用语义图进行三维场景编辑的方法流程图;
图2为一实施例提供的2D卷积网络结构;
图3为一实施例提供的3D卷积网络结构;
图4为一实施例提供的MLP网络结构。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
本发明提供一种利用语义图进行三维场景编辑的方法,如图1所示,该方法包括以下步骤:
(1)泛化训练阶段,构建由2D卷积模块、3D卷积模块和MLP构成的三维场景语义编辑网络,输入场景的RGB图片,语义图和每张图对应的相机位姿,训练2D卷积模块、3D卷积模块和MLP,提升网络对场景几何信息的学习能力,进而加快后续步骤的训练速度,包括:
(1.1)通过2D卷积模块获取输入RGB图片的2D特征图,2D卷积模块的结构如图2所示;
(1.2)使用单应性变换把不同视角的2D特征图转换到参考视角,然后通过计算不同视角2D特征图之间的方差得到损失立方体;
(1.3)通过3D卷积模块提取损失立方体的特征得到神经编码立方体;本实施例中,3D卷积模块的具体结构为模型以损失立方体f′2d和图像I为输入,依次通过7个ConvBnRelu层,记为CBR0-CBR6,其中,CBR0的输出向量维度为8,CBR1与CBR2的输出维度为16,CBR3与CBR4的输出维度为32,CBR5与CBR6的输出维度为64。由此得到的特征向量将经过3层ConvTransposeBn处理,记为CTB0-CBT2,其中,CBT0的输出维度为32,其输出将与CBR4层的输出相加,作为CBT1的输入,由其处理后输出一个16维的向量,并与CBR2层的输出相加,交给CTB2处理,最终输出8维向量,与CBR1的输出相加,作为神经编码立方体的特征向量f3d,具体如图3所示;
(1.4)根据某张图片对应的相机位姿形成一条射线,在射线上对神经编码立方体进行均匀采样,得到每个采样点的特征值fk和三维坐标xk,对采样点三维坐标xk、射线方向dk进行位置编码,具体操作为:γ(p)=(sin(20πp),cos(20πp),…,sin(2Q-1πp),cos(2Q-1πp)),其中对三维坐标xk进行位置编码时Q置为10,对射线方向dk进行位置编码时Q置为4;
本实施例中,采样的细节为先根据场景类型确定采样范围[near,far],室外场景near=0,far=100,室内场景near=0,far=10;对相机位姿形成的射线在[near,far]范围内均匀采样128个点,得到128个采样点三维坐标xk;根据三维坐标xk在神经编码立方体中找到最近的8个点,对这些点的特征值进行双线性插值得到采样点的特征值fk
(1.5)将采样点的特征值fk、采样点三维坐标的位置编码结果γ(xk)、射线方向的位置编码结果γ(dk)和输入图片的RGB值作为多层感知机MLP的输入,输出体密度值σk,颜色值rk和语义值sk;本实施例中,多层感知机MLP的具体结构主要由7部分组成,记为bias_linears,pts_linears,feature_linears,views_linears,rgb_linears,alpha_linears以及semantic_linears。其中,bias_linears由一层线性层组成,其将采样点特征值映射为256维的偏置向量bias;pts_linears由6层线性层依次连接组成,第一层以采样点三维坐标的位置编码作为输入,第五层由前一层输出乘上bias再加上采样点三维坐标的位置编码作为输入,其余层由前一层输出乘上bias作为输入,所有层的输出维度都为256;feature_linears由1层线性层组成,其输入为pts_linears得到的向量与bias的乘积,而输出的256维向量将加上射线方向的位置编码,输入到1层线性层构成的views_linears,得到128维输出,再经一层rgb_linears映射为3维rgb颜色值;alpha_linears与feature_linears的输入相同,并输出一个1维的体密度值;同理,semantic_linears将该输入经过6个线性层,输出维度分别为256/256/256/256/128/45,得到最终的语义输出,具体如图4所示;
(1.6)根据MLP输出的体密度值σk,颜色值rk和语义值sk,使用体渲染方法得到一条射线对应二维像素点的颜色值ct和语义值st:透明度
Figure BDA0003869160370000061
Figure BDA0003869160370000062
对该颜色值ct与真实颜色值
Figure BDA0003869160370000063
计算L2范数得到颜色损失值:
Figure BDA0003869160370000064
对该语义值st与真实语义值
Figure BDA0003869160370000065
计算交叉熵损失函数得到语义损失值
Figure BDA0003869160370000066
其中
Figure BDA0003869160370000067
代表体渲染得到的该点语义是l类别的概率,
Figure BDA0003869160370000068
代表真实语义图在该点是l类别的概率,L为语义类别总数;对颜色损失值和语义损失值加权求和得到总损失值:Ltotal=Lc+λLs,λ为语义损失权重;本实施例中,真实语义值通过pspnet技术对RGB图片进行语义分割得到,λ取0.04。
(1.7)通过梯度反向传播方法使用总损失值更新2D卷积模块,3D卷积模块和MLP内的参数;
(1.8)利用数据集中的多场景数据重复以上步骤训练网络,提升网络对场景几何信息学习的能力,进而提高场景泛化能力;
本实施例中,针对室外待编辑场景,采用kitti-360开源数据集进行泛化训练,针对室内待编辑场景,采用replica开源数据集进行泛化训练。
(2)微调阶段,输入待编辑场景的RGB图片、语义图和对应的相机位姿,重复步骤(1.1)~(1.6)得到总损失值,但梯度反向传播时不更新2D卷积模块和3D卷积模块内的参数,只更新MLP内的参数,提升三维场景语义编辑网络对该待编辑场景的表达能力;
(3)优化阶段,具体为:用户使用可视化的脚本程序或PS软件等工具完成对语义图颜色的编辑;将采样点的特征值fk、采样点三维坐标的位置编码结果γ(xk)、射线方向的位置编码结果γ(dk)和输入图片的RGB值作为MLP的输入,从MLP的输出得到体密度值σk和语义值sk,使用体渲染方法得到射线对应像素的语义值st
Figure BDA0003869160370000071
Figure BDA0003869160370000072
计算得到优化阶段的损失值
Figure BDA0003869160370000073
其中
Figure BDA0003869160370000074
代表体渲染得到的该点语义是l类别的概率,
Figure BDA0003869160370000075
代表编辑后的语义图在该点是l类别的概率,再通过梯度反向传播方法使用该损失值更新MLP内的参数,完成对隐式三维场景的编辑;
(4)渲染阶段,用户给定任意相机位姿后,利用新的相机位姿对神经编码立方体进行采样得到特征值f′k,将采样点的特征值f′k、采样点三维坐标的位置编码结果γ(x′k)、射线方向的位置编码结果γ(d′k)和待编辑场景图片的RGB值输入MLP,输出场景编辑后的体密度值σ′k和颜色值r′k,使用体渲染公式
Figure BDA0003869160370000076
即可得到用户指定相机位姿下场景编辑后的RGB图片某个像素点的RGB值c′t,对图片所有像素点都进行上述操作后即得到整张场景编辑后的RGB图片。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在......时”或“当......时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (8)

1.一种利用语义图进行三维场景编辑的方法,其特征在于,包括以下步骤:
(1)泛化训练阶段,构建由2D卷积模块、3D卷积模块和MLP构成的三维场景语义编辑网络,输入场景的RGB图片、语义图和每张图对应的相机位姿,训练2D卷积模块、3D卷积模块和MLP,包括:
(1.1)通过2D卷积模块获取输入RGB图片的2D特征图;
(1.2)使用单应性变换把不同视角的2D特征图转换到参考视角,然后通过计算不同视角2D特征图之间的方差得到损失立方体;
(1.3)通过3D卷积模块提取损失立方体的特征得到神经编码立方体;
(1.4)根据某张图片对应的相机位姿形成一条射线,在射线上对神经编码立方体进行均匀采样,得到每个采样点的特征值fk和三维坐标xk,对采样点三维坐标xk、射线方向dk进行位置编码;
(1.5)将采样点的特征值fk、采样点三维坐标的位置编码结果γ(xk)、射线方向的位置编码结果γ(dk)和输入图片的RGB值作为多层感知机MLP的输入,其中γ(·)为位置编码函数,输出体密度值σk、颜色值rk和语义值sk
(1.6)根据MLP输出的体密度值σk、颜色值rk和语义值sk,使用体渲染方法得到一条射线对应二维像素点的颜色值ct和语义值st:透明度
Figure FDA0003869160360000011
Figure FDA0003869160360000012
对该颜色值ct与真实颜色值
Figure FDA0003869160360000013
计算L2范数得到颜色损失值:
Figure FDA0003869160360000014
对该语义值st与真实语义值
Figure FDA0003869160360000015
计算交叉熵损失函数得到语义损失值
Figure FDA0003869160360000016
其中
Figure FDA0003869160360000017
代表体渲染得到的该点语义是l类别的概率,
Figure FDA0003869160360000018
代表真实语义图在该点是l类别的概率,L为语义类别总数;对颜色损失值和语义损失值加权求和得到总损失值:Ltotal=Lc+λLs,λ为语义损失权重;
(1.7)通过梯度反向传播方法使用总损失值更新2D卷积模块、3D卷积模块和MLP内的参数;
(1.8)利用多场景数据重复以上步骤训练网络,提升网络对场景几何信息学习的能力,进而提高场景泛化能力;
(2)微调阶段,输入待编辑场景的RGB图片、语义图和对应的相机位姿,重复步骤(1.1)~(1.6)得到总损失值,但梯度反向传播时不更新2D卷积模块和3D卷积模块内的参数,只更新MLP内的参数,提升三维场景语义编辑网络对该待编辑场景的表达能力;
(3)优化阶段,具体为:用户对语义图进行编辑;将采样点的特征值fk、采样点三维坐标的位置编码结果γ(xk)、射线方向的位置编码结果γ(dk)和输入图片的RGB值作为MLP的输入,从MLP的输出得到体密度值σk和语义值sk,使用体渲染方法得到射线对应像素的语义值st:透明度
Figure FDA0003869160360000021
计算得到优化阶段的损失值
Figure FDA0003869160360000022
其中
Figure FDA0003869160360000023
代表体渲染得到的该点语义是l类别的概率,
Figure FDA0003869160360000024
代表编辑后的语义图在该点是l类别的概率,再通过梯度反向传播方法使用该损失值更新MLP内的参数,完成对隐式三维场景的编辑;
(4)渲染阶段,用户给定任意相机位姿后,利用新的相机位姿对神经编码立方体进行采样得到特征值f′k,将采样点的特征值f′k、采样点三维坐标的位置编码结果γ(x′k)、射线方向的位置编码结果γ(d′k)和待编辑场景图片的RGB值输入MLP,输出场景编辑后的体密度值σ′k和颜色值r′k,使用体渲染公式
Figure FDA0003869160360000025
即可得到用户指定相机位姿下场景编辑后的RGB图片某个像素点的RGB值c′t,对图片所有像素点都进行上述操作后即得到整张场景编辑后的RGB图片。
2.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法,其特征在于,所述步骤(1)中,泛化训练的场景可以与编辑的场景不同。
3.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法,其特征在于,所述步骤(1.4)中,位置编码函数γ(·)的公式如下:
γ(p)=(sin(20πp),cos(20πp),…,sin(2Q-1πp),cos(2Q-1πp))
对三维坐标xk进行位置编码时Q置为10,对射线方向dk进行位置编码时Q置为4。
4.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法,其特征在于,所述步骤(1.5)中,输入图片的RGB值指的是将所有输入图片叠加在一起,在像素点pixel处取到的高维RGB向量,其中pixel与体渲染得到图片的像素点相对应。
5.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法,其特征在于,所述步骤(1)和(2)中场景的语义图是通过pspnet语义分割技术对RGB图片进行语义分割后得到的。
6.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法,其特征在于,所述步骤(3)中,使用编辑后的语义图作为网络的监督,梯度反向传播只更新MLP内的参数来实现对隐式三维场景的编辑。
7.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法,其特征在于,所述步骤(3)中,用户使用可视化的脚本程序或PS软件完成对语义图颜色的编辑。
8.根据权利要求1所述的一种利用语义图进行三维场景编辑的方法,其特征在于,所述步骤(4)中,用户能够得到任意视角下编辑后隐式三维场景的二维渲染图片。
CN202211195116.6A 2022-09-28 2022-09-28 一种利用语义图进行三维场景编辑的方法 Pending CN115482368A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211195116.6A CN115482368A (zh) 2022-09-28 2022-09-28 一种利用语义图进行三维场景编辑的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211195116.6A CN115482368A (zh) 2022-09-28 2022-09-28 一种利用语义图进行三维场景编辑的方法

Publications (1)

Publication Number Publication Date
CN115482368A true CN115482368A (zh) 2022-12-16

Family

ID=84394907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211195116.6A Pending CN115482368A (zh) 2022-09-28 2022-09-28 一种利用语义图进行三维场景编辑的方法

Country Status (1)

Country Link
CN (1) CN115482368A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958492A (zh) * 2023-07-12 2023-10-27 数元科技(广州)有限公司 一种基于NeRf重建三维底座场景渲染的VR编辑应用

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958492A (zh) * 2023-07-12 2023-10-27 数元科技(广州)有限公司 一种基于NeRf重建三维底座场景渲染的VR编辑应用
CN116958492B (zh) * 2023-07-12 2024-05-03 数元科技(广州)有限公司 一种基于NeRf重建三维底座场景渲染的VR编辑方法

Similar Documents

Publication Publication Date Title
CN109389671B (zh) 一种基于多阶段神经网络的单图像三维重建方法
US11367239B2 (en) Textured neural avatars
WO2022267641A1 (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
CN110599395B (zh) 目标图像生成方法、装置、服务器及存储介质
CN113962858B (zh) 一种多视角深度获取方法
CN113762147B (zh) 人脸表情迁移方法、装置、电子设备及存储介质
CN115187638B (zh) 一种基于光流遮罩的无监督单目深度估计方法
CN117496072B (zh) 一种三维数字人生成和交互方法及系统
CN112967373B (zh) 一种基于非线性3dmm的人脸图像特征编码方法
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
Kang et al. Competitive learning of facial fitting and synthesis using uv energy
JP2024510230A (ja) 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測
CN115482368A (zh) 一种利用语义图进行三维场景编辑的方法
CN116681839B (zh) 一种基于改进NeRF的实景三维目标重建与单体化方法
CN117372644A (zh) 基于周期隐式表示的三维内容生成方法
CN112686830A (zh) 基于图像分解的单一深度图的超分辨率方法
Tu et al. Unpaired image-to-image translation with improved two-dimensional feature
CN116452715A (zh) 动态人手渲染方法、装置及存储介质
CN115239857B (zh) 图像生成方法以及电子设备
CN116091762A (zh) 一种基于rgbd数据和视锥体的三维目标检测方法
CN115937429A (zh) 一种基于单张图像的细粒度3d人脸重建方法
EP4285331A1 (en) Neural radiance field rig for human 3d shape and appearance modelling
Li et al. Point-Based Neural Scene Rendering for Street Views
CN116958451B (zh) 模型处理、图像生成方法、装置、计算机设备和存储介质
CN115909045B (zh) 一种基于对比学习的two-stage滑坡图谱特征智能识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination