CN118135122B - 基于3dgs的无界场景重建和新视角合成方法和系统 - Google Patents
基于3dgs的无界场景重建和新视角合成方法和系统 Download PDFInfo
- Publication number
- CN118135122B CN118135122B CN202410549901.XA CN202410549901A CN118135122B CN 118135122 B CN118135122 B CN 118135122B CN 202410549901 A CN202410549901 A CN 202410549901A CN 118135122 B CN118135122 B CN 118135122B
- Authority
- CN
- China
- Prior art keywords
- scene
- view
- point cloud
- far
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims description 11
- 238000000034 method Methods 0.000 claims abstract description 89
- 238000009877 rendering Methods 0.000 claims abstract description 67
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 28
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 28
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 8
- 239000002131 composite material Substances 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 38
- 238000009826 distribution Methods 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013138 pruning Methods 0.000 claims description 6
- 238000009966 trimming Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000002834 transmittance Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 22
- 238000012360 testing method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2012—Colour editing, changing, or manipulating; Use of colour codes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2021—Shape modification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Image Generation (AREA)
Abstract
本发明公开了一种基于3DGS的无界场景重建和新视角合成方法和系统,属于三维场景重建和新视角合成领域。采用结构化的场景表示方法生成初始化的场景远景点云和场景近景点云;利用场景远景点云、场景近景点云和多视角图像对应的相机参数进行两阶段可微渲染得到最终图像,计算图像损失,优化场景远景点云和场景近景点云,优化后的场景远景点云和场景近景点云作为无界场景重建结果;利用优化后的场景远景点云和新视角相机参数渲染得到新视角远景图像,根据优化后的场景近景点云、新视角相机参数和新视角远景图像渲染得到新视角合成图像。本发明解决了无界场景重建和新视角合成中存在的伪影和瑕疵问题,明显提升场景重建和新视角合成的效率。
Description
技术领域
本发明涉及三维场景重建和新视角合成领域,尤其涉及一种基于3DGS的无界场景重建和新视角合成方法和系统。
背景技术
三维场景重建和新视角合成在增强现实与虚拟现实、自动驾驶以及三维内容生成等大量领域取得了广泛应用。通过有限视角的场景图像快速而准确地得到场景的几何表示和色彩属性,从而得到同一场景中未拍摄视角的图像一直是众多科研人员的研究热点。在计算机视觉与计算机图形学的领域中,场景重建和新视角合成是一项重要且具有挑战性的任务。对于大范围复杂场景和无界场景,其空间结构的复杂性更加提高了这些场景的重建难度。如何更准确地表示和重建无界场景越来越得到研究者的关注。传统的场景重建和新视角合成方法一般采用将输入的场景图像重新投影和混合到新的相机视角上,在重投影的同时使用场景的几何先验信息作为辅助和引导。Snavely等提出的运动恢复结构(Structure from Motion, SfM)能够从输入图像中以点云的形式提取场景信息从而实现场景重建。Goesele等提出的多目立体视觉(Multi-view Stereo, MVS)对多视角合成算法的研究产生了巨大的推动作用,通过估计每张输入图像中每个像素的深度重建场景的稠密三维结构。
神经辐射场(Neural Radiance Fields, NeRF)的提出为三维场景重建和新视角合成的研究带来了强大的驱动力。基于多层感知机(multilayer perceptron, MLP)连续的场景表示方式和基于光线投射的体渲染方法使得基于NeRF的方法能够自然地支持逆向渲染,带来了高质量的渲染结果。Jonathan等为了解决NeRF渲染时可能出现的模糊或失真,借鉴纹理滤波的多级渐远纹理(mipmap)的思想提出了MipNeRF。NeRF++使用反球面参数化(inverted sphere parameterization)的方法极大程度地避免了场景重建过程中会出现的几何辐射二义性(shape-radiance ambiguity)问题,在360度大规模无界场景地渲染上取得了良好成果。在MipNeRF的基础上,Jonathan等提出了MipNeRF 360以实现NeRF对无界场景高质量重建。Peng等提出的F2-NeRF(Fast-Free-NeRF)通过对场景中不同区域的光线采样密度进行调整和分配实现了兼具高质量和高效的场景重建,对于无界场景和户外大场景的重建也取得了显著进步。但是由于体渲染过程需要对NeRF的MLP进行相当多次数的采样,这使得基于NeRF的场景重建和新视角合成方法难以在保持高质量渲染的前提下实现实时渲染。
三维高斯泼溅(3D Gaussian Splatting, 3DGS)的提出极大降低了兼顾高质量和高效率渲染的难度。3DGS使用3D高斯点云对场景进行建模,基于splatting算法对点云进行渲染,在渲染过程中图形的每个像素对应的高斯点可以被快速确定,保证了场景能够进行实时渲染。但目前基于3DGS的方法仍无法较好的处理无界场景中较远位置上的景物。
发明内容
本发明的目的在于提出一种基于3DGS的无界场景重建和新视角合成方法和系统,其由三维高斯点云作为场景重建和新视角合成的载体,采用结构化的场景表示方法分别表示场景中的近景和远景,使用基于三维高斯泼溅的渲染方法实现具有真实感且不含远景伪影和瑕疵的渲染结果。
为了实现上述目的,本发明采用的技术方案如下:
第一方面,本发明提出了一种基于3DGS的无界场景重建和新视角合成方法,包括:
采用结构化的场景表示方法,根据场景的多视角图像生成初始化的场景远景点云和场景近景点云,所述的场景远景点云采用球面结构限制点云中高斯点的空间位置分布;
由场景远景点云和多视角图像对应的相机参数渲染得到远景图像,再由场景近景点云、多视角图像对应的相机参数和所述的远景图像渲染得到最终图像,根据最终图像和场景的多视角图像之间的损失优化场景远景点云和场景近景点云,优化后的场景远景点云和场景近景点云作为无界场景重建结果;
利用优化后的场景远景点云和新视角相机参数渲染得到新视角远景图像,根据优化后的场景近景点云、新视角相机参数和所述的新视角远景图像渲染得到新视角合成图像。
进一步地,所述的场景远景点云的初始化过程包括:
使用固定点云数量以球面均匀随机分布的方式在单位球面上生成高斯点,对高斯点渲染后生成的渲染图像与输入的多视角场景图像计算损失,迭代更新单位球面上生成的高斯点,将更新后的结果作为初始化的远景点云。
进一步地,所述的场景近景点云的初始化过程采用SfM方法,场景近景点云中高斯点的空间位置不受限制。
进一步地,所述的场景远景点云和场景近景点云中的高斯点具有空间位置、透明度、颜色、旋转和缩放五种属性,所述的场景远景点云中高斯点的空间位置、透明度属性在优化过程中固定不变,颜色属性采用第0阶球谐函数。
进一步地,所述的根据最终图像和场景的多视角图像之间的损失优化场景远景点云和场景近景点云时,采用显式计算导数方法计算损失函数对于近景图像中各像素点颜色和远景图像中各像素点颜色的偏导数,再基于偏导数通过链式法则计算近景点云和远景点云的优化梯度。
进一步地,根据最终图像和场景的多视角图像之间的损失优化场景近景点云时,每进行预设迭代轮次后,需要对当前保留的近景点云进行修剪。
进一步地,所述的近景点云的修剪方法包括:
近景点云优化过程中,记录优化时的颜色属性梯度值;
计算当前修剪轮次与前一次修剪轮次之间记录的颜色属性梯度值的平均值,将平均累积梯度值大于预设阈值的高斯点从近景点云中去除。
第二方面,本发明提出了一种基于3DGS的无界场景重建和新视角合成系统,用于实现上述的无界场景重建和新视角合成方法。
本发明具备的有益效果是:
(1)本发明采用基于高斯点云的场景结构化表示方法,使用球面结构控制场景远景高斯点云中高斯点的空间位置分布,从而减少场景重建和新视角合成过程中场景远景部分的伪影与瑕疵。
(2)本发明采用了用于高斯点云渲染的两阶段可微渲染管线,使用两个渲染通道分别渲染场景远景和整体场景,整个渲染过程可快速反向传播,提高了场景重建和渲染的效率。
附图说明
图1是本实施例示出的基于3DGS的无界场景重建的方法流程示意图。
图2是本实施例示出的两阶段渲染管线流程示意图。
图3是本实施例示出的远景点云的结构及其渲染结果。
图4是本实施例示出的在公园场景下与现有方法的新视角合成结果对比图。
图5是本实施例示出的在街道场景下与现有方法的新视角合成结果对比图。
图6是本实施例示出的在火车场景下与现有方法的新视角合成结果对比图。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。
附图仅为本发明的示意性图解,并非一定是按比例绘制。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本发明提出了一种基于3DGS的无界场景重建和新视角合成方法,在现有的3DGS基础上提出了三项设计思路:
(1)采用基于高斯点云的场景结构化表示方法,使用球面结构控制场景远景高斯点云中高斯点的空间位置分布,并使用其进行场景远景的渲染。
(2)采用针对无界场景远景重建的优化方法,结合远景结构化点云预训练和近景点云修剪的方式,提升场景远景和整体的重建质量。
(3)在传统3DGS的基础上采用用于高斯点云渲染的两阶段可微渲染管线,使用两个渲染通道分别渲染场景远景和整体场景,并且保证整个渲染过程可微和快速反向传播。
如图1所示,无界场景重建和新视角合成方法主要包括以下步骤:
S1,采用结构化的场景表示方法,根据场景的多视角图像生成初始化的场景远景点云和场景近景点云,所述的场景远景点云采用球面结构限制点云中高斯点的空间位置分布。
传统的基于高斯点云的场景重建工作往往将整个场景,无论是近景还是像天空这样的远景表示为同一个点云,在面对范围较大或包含较远处景物的场景时,远景部分会出现较为明显的伪影。这一问题出现的原因是在对既包含近景又远景的场景进行拍摄时,相机在较小范围内移动不会使较远处的景物在相机成像平面上产生明显的位置变化,这使得使用这样的图像数据进行场景重建时,很难使用具有一定空间范围的点云准确地重建远景部分。
在本发明的一项具体实施中,结构化的场景表示方法是指使用两组结构化的高斯点云分别表示场景近景和场景远景,对于场景近景使用无约束的高斯点云分布进行表示,对于场景远景使用球面结构的高斯点云分布进行表示,具体为:
S11,近景点云结构
对于近景点云,使用无约束的点云分布进行表示,点云中高斯点的空间位置在场景重建过程中不受限制。近景点云中高斯点的属性与三维高斯泼溅3DGS基准实现中的高斯点属性相同。对输入的多视角场景图像采用SfM方法初始化得到稀疏的近景点云,其位置属性由SfM方法生成,其他属性设置为默认值。
S12,远景点云结构
对于远景点云,使用单位球面结构对点云的空间分布进行约束,称之为球面环境高斯SEG。远景点云中高斯点的属性与三维高斯泼溅3DGS基准实现相同,但空间位置和透明度属性在训练过程中不进行优化,颜色属性只使用第0阶球谐(SH)函数进行表示。
空间位置不进行优化,这使得SEG中的高斯点在训练过程中能够始终保持单位球面的空间结构,这种结构带来两个优势:一是减少训练过程中需要优化的参数数量,提高场景重建速度;二是单层的SEG结构能够提升其渲染速度。本发明无需考虑高斯点颜色的各向异性,所以SEG中高斯点的颜色属性仅使用第0阶SH表示,这相比使用3阶SH表示颜色减少了93.75%的参数数量。此外,SEG中高斯点的透明度属性设置为1(即不透明),并且在训练过程中保持不变,从而保证SEG的渲染结果不会出现空洞。在实际使用过程中,由于SEG中的高斯点始终分布在单位球面上,所以无论对于小场景还是大场景,SEG均可使用固定数量的高斯点表示远景,这使得在对场景的重建过程中不需要使用更大数量的高斯点去表现场景的远景细节,对于无界场景来说更有优势。
由于本发明不使用近景掩模或背景掩模作为先验条件,近景点云和远景点云SEG均在训练过程中进行优化。同时由于使用基于点的体渲染方式,近景和远景均会对最终的渲染结果产生影响,这样使得由近景和远景的颜色二义性以及颜色与透明度的二义性造成的优化损失不收敛的问题相当严重。为了解决近景和远景的二义性问题,本发明采取了对远景点云SEG进行预训练初始化的优化方式,在对整个场景进行训练前,先使用较少的迭代次数单独对SEG进行训练,从而得到一个能够渲染得到较为模糊背景图像的SEG,在对整个场景进行训练时使用预训练的SEG,从而提升训练损失的收敛速度,减少由近景和远景二义性导致的损失震荡。近景点云在预训练过程中不参与渲染,预训练过程采用固定的训练轮次,当达到预设的训练轮次时结束训练,预训练过程使用随机梯度下降法对远景点云的属性进行优化。
因此,本发明对远景点云的初始化过程为:使用固定点云数量以球面均匀随机分布的方式在单位球面上生成高斯点。对高斯点的渲染结果与输入的多视角场景图像计算损失,迭代更新单位球面上的高斯点,将更新后的结果作为初始化的远景点云。
S2,利用场景远景点云和多视角图像对应的相机参数渲染得到远景图像,再利用场景近景点云、多视角图像对应的相机参数和所述的远景图像渲染得到最终图像,根据最终图像和场景的多视角图像之间的损失优化场景远景点云和场景近景点云,优化后的场景远景点云和场景近景点云作为无界场景重建结果。
由于场景分为近景点云与远景点云SEG,原有的高斯点云渲染管线无法满足同时渲染近景和远景的需求。本发明设计了一个两阶段可微的高斯点云渲染管线,通过两个渲染通道先后对远景部分和整个场景进行渲染。
在本发明的一项具体实施中,使用点云splatting算法作为高斯点云的基础渲染算法,渲染流程如图2所示,在前向过程中,计算过程包括下述步骤S21-S22,反向过程中,计算过程包括下述步骤S23-S24,具体为:
S21,利用背景渲染器渲染远景点云生成远景图像。
首先将远景点云中的高斯点(下文简称为远景高斯点)的空间位置坐标从世界坐
标系转换到相机坐标系下,即将远景高斯点坐标转化为齐次坐标:
其中,为透视投影矩阵,为相机空间变换矩阵,两个矩阵由相机参数计
算得到;上角标T表示转置。
对转换坐标系后的点云进行透视除法和NDC空间变换得到屏幕空间的投影后的远
景高斯点,获得每个像素对应的远景高斯点,将每个像素对应的远景高斯点按照深度顺序
进行排序,得到每个像素对应的有序高斯点序列,记为。
渲染得到的远景图像中每个像素的颜色计算公式如下:
其中,为有序高斯点序列中第i个远景高斯点的颜色,为有序高斯点序列中第
j个高斯点对于该像素的透明度,其由有序高斯点序列中第j个远景高斯点的高斯分布和透
明度计算得到,即:
其中,为有序高斯点序列中第j个远景高斯点的透明度,x为着色点相对高斯点
中心的位移,为远景高斯点的二维高斯分布的协方差矩阵。
远景点云的结构及其渲染结果如图3所示,其中左侧为SEG的空间分布,SEG中的高斯点的中心以球面均匀随机分布的方式排布在以坐标系原点为球心的单位球面上,中间为对高斯点的颜色属性进行初始化后的SEG,右侧为SEG在特定相机视角下渲染得到的远景图像。
S22,利用远景图像和近景点云,采用整体渲染器渲染得到最终图像。
对于近景点云的渲染过程与远景点云类似,同样将其空间位置坐标从世界坐标系转换到相机坐标系下,将近景高斯点坐标(x,y,z)转化为齐次坐标:
其中,为透视投影矩阵,为相机空间变换矩阵,为将高斯点坐标转
换到以相机位置为坐标系原点的坐标系下的位移矩阵,三个矩阵由相机参数计算得到;上
角标T表示转置。
采用与远景点云相同的计算方式渲染得到近景图像中每个像素的颜色;将
与叠加,得到最终图像中每个像素点的颜色,表示近景点云透过率。
S23,计算最终图像与相机参数对应的视角图像之间的损失,迭代优化远景点云和近景点云;远景点云的迭代优化过程中,空间位置和透明度属性(不透明)固定。
本实施例中,根据最终图像和场景的多视角图像之间的损失优化场景远景点云和
场景近景点云时,采用显式计算导数方法计算损失函数对于近景图像中各像素点颜色和远
景图像中各像素点颜色的偏导数,再基于偏导数通过链式法则计算近景点云和远景点云的
优化梯度。其中,损失函数对于近景颜色的偏导数为:,损失函数
对于远景颜色的偏导数。与3DGS使用了相同的计算方法,这里
不再进行赘述。
在对近景点云进行优化的过程中,部分本应是远景的图像区域(如天空)也会被视作近景的一部分,但由于这部分远景区域作为近景部分训练时,不同的训练图像可能会使得其颜色属性向不同方向优化,从而导致训练损失震荡而难以收敛,因此本发明对这部分远景区域进行特殊处理,在训练过程中记录近景点云颜色属性的梯度变化,将固定迭代次数内近景点云中颜色属性梯度变化过大的点去除,使得近景点云中尽量不存在会异常遮挡远景的点,从而同时提升近景点云和远景点云SEG的重建质量。
由于近景点云使用多阶SH对点云的颜色属性进行建模,但由于其第0阶对颜色属性的贡献最大,因此在计算近景点云的颜色属性梯度时,在忽略各向异性造成的影响的前提下可近似只考虑其第0阶估计颜色属性梯度值,即:
其中,为第0阶SH参数,为第0阶SH系数。
对近景点云的修剪过程可以设置在整个优化轮次的后半段,记录优化时的颜色属
性梯度值,计算当前修剪轮次与前一次修剪轮次之间记录的颜色属性梯度值的平均值,将
平均累积梯度值大于预设阈值的高斯点从近景点云中去除。即对于满足的高斯点,从近景点云中将其去除,为颜色属性梯度值的累积次数,为高斯点的颜色属性梯度值,为预设阈值。
S24,优化结束得到远景点云和近景点云作为无界场景重建结果。
S3,利用优化后的场景远景点云和新视角(即未知视角)相机参数渲染得到新视角远景图像,根据优化后的场景近景点云、新视角相机参数和所述的新视角远景图像渲染得到新视角合成图像。
为了测试本发明的效果,在Tanks and Temples、Waymo等公开数据集上进行训练和测试。此外,还使用了多个互联网上包含无界场景的视频作为测试数据,这些数据均为环绕特定建筑物进行拍摄的形式,通过固定时间间隔的采样方式对视频进行采样得到场景的多视角图像,对于不包含相机参数的图像数据,使用COLMAP生成相机位姿和初始化点云。与3DGS相同,对于每个场景的输入图像选取图片数量的八分之一作为测试集,其余图像作为训练集。将本发明与3DGS、MipNeRF 360方法进行对比,使用峰值信噪比(PSNR)、结构相似性(SSIM)和学习感知图像块相似度(LPIPS)3种常见的图像质量评价指标作为场景重建和新视角合成的质量评价标准,对比结果如表1所示。
表1 多个数据集上的对比结果
作为评价标准,PSNR和SSIM的值越大说明图像相似度越高,LPIPS的值越小说明参与比较的图像越接近。从表1可以看出,本发明在上述数据集的3个评价指标上均优于3DGS和MipNeRF 360,且在包含较多室外无界场景的Waymo和视频采集数据集上,本发明方法的优势更加明显。
不同方法的新视角合成结果细节对比如图4-图6所示,图4为本发明方法在公园场景下与现有方法的新视角合成结果对比,图5为本发明方法在街道场景下与现有方法的新视角合成结果对比,图6为本发明方法在火车场景下与现有方法的新视角合成结果对比。图4-图6中从左至右分别为测试数据的基准图像、本发明方法结果、3DGS方法结果和MipNeRF360方法结果,从上至下分别为a测试视角渲染结果、a测试视角渲染结果细节、b测试视角渲染结果和b测试视角渲染结果细节。可以看出,本发明相比3DGS和MipNeRF 360,在不降低近景部分重建和新视角合成质量的前提下,对于远景部分的重建和新视角合成质量有相当明显的提升,对于3DGS无法高质量处理的天空、云、远处的山坡和建筑等远景对象,本发明能够成功地进行重建,得到较为准确的新视角合成结果。
在本实施例中还提供了一种基于3DGS的无界场景重建和新视角合成系统,该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能的。
本实施例提供的一种基于3DGS的无界场景重建和新视角合成系统,包括:
结构化场景表示模块,其用于采用结构化的场景表示方法,根据场景的多视角图像生成初始化的场景远景点云和场景近景点云,所述的场景远景点云采用球面结构限制点云中高斯点的空间位置分布。
无界场景重建模块,其用于利用场景远景点云和多视角图像对应的相机参数渲染得到远景图像,再利用场景近景点云、多视角图像对应的相机参数和所述的远景图像渲染得到最终图像,根据最终图像和场景的多视角图像之间的损失优化场景远景点云和场景近景点云,优化后的场景远景点云和场景近景点云作为无界场景重建结果。本实施例中,所述的场景远景点云中高斯点的空间位置、透明度属性在所述的无界场景重建模块的优化过程中固定不变,颜色属性采用第0阶球谐函数。
新视角合成模块,其用于利用优化后的场景远景点云和新视角相机参数渲染得到新视角远景图像,根据优化后的场景近景点云、新视角相机参数和所述的新视角远景图像渲染得到新视角合成图像。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可,其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明的系统的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
显然,以上所述实施例和附图只是本申请的一些例子,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于3DGS的无界场景重建和新视角合成方法,其特征在于,包括:
采用结构化的场景表示方法,根据场景的多视角图像生成初始化的场景远景点云和场景近景点云,所述的场景远景点云采用球面结构限制点云中高斯点的空间位置分布;所述的结构化的场景表示方法是指使用两组结构化的高斯点云分别表示场景近景和场景远景,对于场景近景使用无约束的高斯点云分布进行表示,对于场景远景使用球面结构的高斯点云分布进行表示;
由场景远景点云和多视角图像对应的相机参数渲染得到远景图像,再由场景近景点云、多视角图像对应的相机参数和所述的远景图像渲染得到最终图像,根据最终图像和场景的多视角图像之间的损失优化场景远景点云和场景近景点云,优化后的场景远景点云和场景近景点云作为无界场景重建结果;
所述的最终图像中各像素点的颜色表示为:
C=Cfg+TfgCbg
其中,C表示最终图像中各像素点颜色,Cfg表示近景图像中各像素点颜色,Cbg表示远景图像中各像素点颜色,Tfg表示近景点云透过率;
所述的根据最终图像和场景的多视角图像之间的损失优化场景远景点云和场景近景点云时,采用显式计算导数方法计算损失函数对于近景图像中各像素点颜色和远景图像中各像素点颜色的偏导数,再基于偏导数通过链式法则计算近景点云和远景点云的优化梯度;
利用优化后的场景远景点云和新视角相机参数渲染得到新视角远景图像,根据优化后的场景近景点云、新视角相机参数和所述的新视角远景图像渲染得到新视角合成图像。
2.根据权利要求1所述的基于3DGS的无界场景重建和新视角合成方法,其特征在于,所述的场景远景点云的初始化过程包括:
使用固定点云数量以球面均匀随机分布的方式在单位球面上生成高斯点,对高斯点渲染后生成的渲染图像与输入的多视角场景图像计算损失,迭代更新单位球面上生成的高斯点,将更新后的结果作为初始化的远景点云。
3.根据权利要求1所述的基于3DGS的无界场景重建和新视角合成方法,其特征在于,所述的场景近景点云的初始化过程采用SfM方法,场景近景点云中高斯点的空间位置不受限制。
4.根据权利要求1所述的基于3DGS的无界场景重建和新视角合成方法,其特征在于,所述的场景远景点云和场景近景点云中的高斯点具有空间位置、透明度、颜色、旋转和缩放五种属性,所述的场景远景点云中高斯点的空间位置、透明度属性在优化过程中固定不变,颜色属性采用第0阶球谐函数。
5.根据权利要求1所述的基于3DGS的无界场景重建和新视角合成方法,其特征在于,根据最终图像和场景的多视角图像之间的损失优化场景近景点云时,每进行预设迭代轮次后,需要对当前保留的近景点云进行修剪。
6.根据权利要求5所述的基于3DGS的无界场景重建和新视角合成方法,其特征在于,所述的近景点云的修剪方法包括:
近景点云优化过程中,记录优化时的颜色属性梯度值;
计算当前修剪轮次与前一次修剪轮次之间记录的颜色属性梯度值的平均值,将平均累积梯度值大于预设阈值的高斯点从近景点云中去除。
7.一种基于3DGS的无界场景重建和新视角合成系统,其特征在于,包括:
结构化场景表示模块,其用于采用结构化的场景表示方法,根据场景的多视角图像生成初始化的场景远景点云和场景近景点云,所述的场景远景点云采用球面结构限制点云中高斯点的空间位置分布;所述的结构化的场景表示方法是指使用两组结构化的高斯点云分别表示场景近景和场景远景,对于场景近景使用无约束的高斯点云分布进行表示,对于场景远景使用球面结构的高斯点云分布进行表示;
无界场景重建模块,其用于利用场景远景点云和多视角图像对应的相机参数渲染得到远景图像,再利用场景近景点云、多视角图像对应的相机参数和所述的远景图像渲染得到最终图像,根据最终图像和场景的多视角图像之间的损失优化场景远景点云和场景近景点云,优化后的场景远景点云和场景近景点云作为无界场景重建结果;
所述的最终图像中各像素点的颜色表示为:
C=Cfg+TfgCbg
其中,C表示最终图像中各像素点颜色,Cfg表示近景图像中各像素点颜色,Cbg表示远景图像中各像素点颜色,Tfg表示近景点云透过率;
所述的根据最终图像和场景的多视角图像之间的损失优化场景远景点云和场景近景点云时,采用显式计算导数方法计算损失函数对于近景图像中各像素点颜色和远景图像中各像素点颜色的偏导数,再基于偏导数通过链式法则计算近景点云和远景点云的优化梯度;
新视角合成模块,其用于利用优化后的场景远景点云和新视角相机参数渲染得到新视角远景图像,根据优化后的场景近景点云、新视角相机参数和所述的新视角远景图像渲染得到新视角合成图像。
8.根据权利要求7所述的基于3DGS的无界场景重建和新视角合成系统,其特征在于,所述的场景远景点云和场景近景点云中的高斯点具有空间位置、透明度、颜色、旋转和缩放五种属性,所述的场景远景点云中高斯点的空间位置、透明度属性在所述的无界场景重建模块的优化过程中固定不变,颜色属性采用第0阶球谐函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410549901.XA CN118135122B (zh) | 2024-05-06 | 2024-05-06 | 基于3dgs的无界场景重建和新视角合成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410549901.XA CN118135122B (zh) | 2024-05-06 | 2024-05-06 | 基于3dgs的无界场景重建和新视角合成方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118135122A CN118135122A (zh) | 2024-06-04 |
CN118135122B true CN118135122B (zh) | 2024-07-26 |
Family
ID=91237984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410549901.XA Active CN118135122B (zh) | 2024-05-06 | 2024-05-06 | 基于3dgs的无界场景重建和新视角合成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118135122B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118298115B (zh) * | 2024-06-06 | 2024-09-10 | 浙江大学 | 一种基于欧拉运动场的三维微动效果图的生成方法 |
CN118365805B (zh) * | 2024-06-19 | 2024-10-15 | 淘宝(中国)软件有限公司 | 三维场景重建方法及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051740A (zh) * | 2023-01-04 | 2023-05-02 | 华南理工大学 | 一种基于神经辐射场的室外无界场景三维重建方法及系统 |
CN117593436A (zh) * | 2024-01-18 | 2024-02-23 | 深圳市其域创新科技有限公司 | 辐射场模型重建方法、装置、计算机设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2011224051B2 (en) * | 2011-09-14 | 2014-05-01 | Canon Kabushiki Kaisha | Determining a depth map from images of a scene |
US10304002B2 (en) * | 2016-02-08 | 2019-05-28 | Youspace, Inc. | Depth-based feature systems for classification applications |
CN105933678B (zh) * | 2016-07-01 | 2019-01-15 | 湖南源信光电科技有限公司 | 基于多目标智能跟踪的多焦距镜头联动成像装置 |
CN111988598B (zh) * | 2020-09-09 | 2022-06-21 | 江苏普旭科技股份有限公司 | 一种基于远近景分层渲染的视景图像生成方法 |
CN116977536A (zh) * | 2023-08-14 | 2023-10-31 | 北京航空航天大学 | 一种基于混合神经辐射场的无边界场景新视角合成方法 |
CN117649479A (zh) * | 2023-11-16 | 2024-03-05 | 杭州当虹科技股份有限公司 | 动态阈值的高斯散射辐射场建模方法 |
-
2024
- 2024-05-06 CN CN202410549901.XA patent/CN118135122B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051740A (zh) * | 2023-01-04 | 2023-05-02 | 华南理工大学 | 一种基于神经辐射场的室外无界场景三维重建方法及系统 |
CN117593436A (zh) * | 2024-01-18 | 2024-02-23 | 深圳市其域创新科技有限公司 | 辐射场模型重建方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN118135122A (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112465955B (zh) | 一种动态人体三维重建和视角合成方法 | |
CN118135122B (zh) | 基于3dgs的无界场景重建和新视角合成方法和系统 | |
CN108876814B (zh) | 一种生成姿态流图像的方法 | |
Li et al. | Read: Large-scale neural scene rendering for autonomous driving | |
Klenk et al. | E-nerf: Neural radiance fields from a moving event camera | |
CN110070595B (zh) | 一种基于深度学习的单张图像3d对象重建方法 | |
CN112862736B (zh) | 一种基于点的实时三维重建与优化方法 | |
CN117274501B (zh) | 一种可驱动数字人建模方法、装置、设备及介质 | |
CN114429538A (zh) | 交互式编辑神经辐射场几何的方法 | |
Li et al. | Symmnerf: Learning to explore symmetry prior for single-view view synthesis | |
CN112927348A (zh) | 一种基于多视点rgbd相机高分辨率人体三维重建方法 | |
CN116934936A (zh) | 一种三维场景风格迁移方法、装置、设备及存储介质 | |
Choi et al. | Balanced spherical grid for egocentric view synthesis | |
Zhang et al. | Gs-lrm: Large reconstruction model for 3d gaussian splatting | |
Sarkar et al. | LitNeRF: Intrinsic Radiance Decomposition for High-Quality View Synthesis and Relighting of Faces | |
WO2024152649A1 (zh) | 一种基于光学感知的波浪场重构方法 | |
CN116758202A (zh) | 人手图像合成方法、装置、电子设备及存储介质 | |
CN116385577A (zh) | 虚拟视点图像生成方法及装置 | |
Li et al. | Point-Based Neural Scene Rendering for Street Views | |
He et al. | MMPI: a Flexible Radiance Field Representation by Multiple Multi-plane Images Blending | |
Colom et al. | 3D shape reconstruction from non-realistic multiple-view depictions using NVDiffRec | |
Cai et al. | DynaSurfGS: Dynamic Surface Reconstruction with Planar-based Gaussian Splatting | |
Poirier‐Ginter et al. | A Diffusion Approach to Radiance Field Relighting using Multi‐Illumination Synthesis | |
Zhu et al. | RPBG: Towards Robust Neural Point-based Graphics in the Wild | |
Wang et al. | Learning View Synthesis for Desktop Telepresence with Few RGBD Cameras |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |