CN116152442A - 一种三维点云模型生成方法及装置 - Google Patents

一种三维点云模型生成方法及装置 Download PDF

Info

Publication number
CN116152442A
CN116152442A CN202310328647.6A CN202310328647A CN116152442A CN 116152442 A CN116152442 A CN 116152442A CN 202310328647 A CN202310328647 A CN 202310328647A CN 116152442 A CN116152442 A CN 116152442A
Authority
CN
China
Prior art keywords
depth map
depth
dimensional point
point cloud
color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310328647.6A
Other languages
English (en)
Other versions
CN116152442B (zh
Inventor
赵飞飞
周鑫
于金波
王梦魁
刘祥德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Digital City Research Center
Original Assignee
Beijing Digital City Research Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Digital City Research Center filed Critical Beijing Digital City Research Center
Priority to CN202310328647.6A priority Critical patent/CN116152442B/zh
Publication of CN116152442A publication Critical patent/CN116152442A/zh
Application granted granted Critical
Publication of CN116152442B publication Critical patent/CN116152442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20028Bilateral filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种三维点云模型生成方法及装置,涉及计算机图形学和三维视觉技术领域。该方法包括:获取场景图像集合和相机参数;根据场景图像集合和相机参数,基于神经辐射场模型生成深度图;根据深度图,生成三维点云模型。该方法能够有效提升神经辐射场生成的深度图质量,解决深度图投影后的几何一致性问题,从而高效和快速地从神经辐射场隐式表示中获得更加准确的场景三维点云模型。

Description

一种三维点云模型生成方法及装置
技术领域
本申请涉及计算机图形学和三维视觉技术领域,特别涉及一种三维点云模型生成方法及装置。
背景技术
神经辐射场(NeRF)通常使用多层感知器来隐式表征三维场景,即将三维场景表示为一个由神经网络建模的辐射场,由辐射场描述场景中每个点在任意观察方向的颜色和体积密度,并通过体积渲染来合成任意视角下的新视图,在新视图合成领域和三维场景重建领域获得了广泛关注。
然而,上述神经辐射场采用的场景隐式表征和体积渲染流程决定了神经辐射场无法直接输出以三维点云模型为例的显式模型。现有的获取三维点云模型的方法大多数是直接利用深度图投影的方法提取场景的三维点云模型,并未考虑到神经辐射场生成的深度信息的不准确性,因此生成的三维点云模型通常会存在不完整、分层冗余、离群点噪声等问题。
发明内容
有鉴于此,本申请实施例提供了一种三维点云模型生成方法及装置,能够生成完整性较好,几何精度较高的三维点云模型。
本申请实施例公开了如下技术方案:
第一方面,本申请公开了一种三维点云模型生成方法,所述方法包括:
获取场景图像集合和相机参数;
根据所述场景图像集合和相机参数,基于神经辐射场模型生成深度图;
根据所述深度图,生成三维点云模型。
可选的,所述神经辐射场模型使用联合损失函数进行训练,所述联合损失函数的公式具体如下:
Figure BDA0004154132190000011
其中,Lθ为损失函数,r为发射射线,R为射线的集合,Lcolor为光度一致性损失函数,Lsmooth为深度平滑损失函数,λ为权重因子。
可选的,所述光度一致性函数的公式具体如下:
Figure BDA0004154132190000012
其中,Lcolor为光度一致性损失函数,r为发射射线,R为射线的集合,
Figure BDA0004154132190000021
为渲染像素颜色,C(r)为真实像素颜色。
可选的,所述深度平滑损失函数的公式具体如下:
Figure BDA0004154132190000022
其中,Lsmooth为深度平滑损失函数,Spatch为渲染区域面积大小,r为发射射线,R为射线的集合,i为像素的横坐标点,j为像素的纵坐标点,d(rij)为像素(i,j)的预测深度,d(ri+1j)为像素(i+1,j)的预测深度,d(rij+1)为像素(i,j+1)的预测深度。
可选的,所述根据所述场景图像集合和相机参数,基于神经辐射场模型生成深度图,包括:
根据视角稀疏选择策略筛选用于生成深度图的相机视角,所述视角稀疏选择策略为相机视场角不低于第一预设阈值,和,相邻的所述相机视场角的交叉重叠区域不超过第二预设阈值;
根据筛选后的相机视角和所述相机参数,基于神经辐射场模型生成原始深度图;
对所述原始深度图进行滤波处理,以生成处理后的深度图。
可选的,所述原始深度图的深度计算公式具体如下:
Figure BDA0004154132190000023
其中,d(r)为光线r的深度值,t1为场景近边界,t2为场景远边界,T(t)为沿光线的累积透射率,σ(r(t))为相机光线r(t)的密度值。
可选的,所述对所述原始深度图进行滤波处理,以生成处理后的深度图,包括:
基于联合双边滤波方法对所述原始深度图进行滤波处理,以生成处理后的深度图;
所述联合双边滤波方法的公式具体如下:
Figure BDA0004154132190000024
其中,
Figure BDA0004154132190000025
为处理后的深度图,Dp为原始深度图,S为中心像素p的邻域,p和q是原始深度图上的点,Ip为p像素点的颜色值,Iq为q像素点的颜色值,Kp为归一化系数,wd为空间距离权重,wr为颜色距离权重。
可选的,所述方法还包括:
获取所述三维点云模型中每个三维点的置信度;
判断所述每个三维点的置信度是否低于第三预设阈值;
若是,则剔除所述置信度低于第三预设阈值的三维点,以形成更新后的三维点云模型。
可选的,所述置信度的计算公式具体如下:
Pconf=λ1Sdepth2Scolor
其中,Pconf为三维点云的置信度,Sdepth为深度置信度,Scolor为颜色置信度,λ1为深度置信度的权重因子,λ2为颜色置信度的权重因子。
第二方面,本申请公开了一种三维点云模型生成装置,所述装置包括:获取模块、深度模块、模型模块;
所述获取模块,用于获取场景图像集合和相机参数;
所述深度模块,用于根据所述场景图像集合和相机参数,基于神经辐射场模型生成深度图;
所述模型模块,用于根据所述深度图,生成三维点云模型。
相较于现有技术,本申请具有以下有益效果:
本申请公开了一种三维点云模型生成方法及装置,首先获取场景图像集合和相机参数,随后根据该场景图像集合和相机参数,基于神经辐射场模型生成深度图,最后根据生成的深度图生成三维点云模型。由此,该方法能够有效提升神经辐射场生成的深度图质量,解决深度图投影后的几何一致性问题,从而高效和快速地从神经辐射场隐式表示中获得更加准确的场景三维点云模型。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种三维点云模型生成方法的流程图;
图2为本申请实施例提供的一种三维点云模型生成装置的示意图。
具体实施方式
下面先对本申请所涉及的技术术语进行介绍。
多层感知器(MLP,Multilayer Perceptron)是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。
运动结构恢复(SFM,Structure from motion),即给出多幅图像及其图像特征的一个稀疏对应集合,从而估计3D点(三维点)的位置,这个求解过程通常涉及3D几何(结构)和摄像机姿态(运动)的同时估计。
神经辐射场使用多层感知器来隐式表征三维场景,即将场景中每一个点的三维位置和方向映射到其密度和辐射度,并通过体积渲染来合成任意视角下的新视图,实现了最先进的图像视觉质量,在新视图合成和三维场景重建领域获得了广泛关注,激发了许多由这种新方法衍生而来的后续工作,在城市建图、虚拟现实、增强现实和机器人技术等领域具有广泛的应用。
然而,正如前文描述,尽管神经辐射场在新视图合成任务中取得了出色的性能,但是上述神经辐射场采用的场景隐式表征和体积渲染流程决定了神经辐射场无法直接输出以三维点云模型为例的显式模型。而三维点云等显式模型在机器人、虚拟现实、增强现实和自动驾驶等任务中具有重要的应用价值,因此无法输出显式模型在一定程度上限制了神经辐射场方法的发展和应用。
目前,尚未有成熟的算法可用于从神经辐射场隐式表征中直接提取三维点云模型。由于神经辐射场模型的训练没有深度信息进行显式监督,所以神经辐射场模型通常会存在形状辐射模糊问题,即神经辐射场预测的密度最大值点并不一定准确位于物体表面位置。这种深度不确定性给直接利用深度图投影的方法提取场景的三维点云模型造成了困难,提出的三维点云模型往往会存在不完整、分层冗余、离群点噪声等问题。
有鉴于此,本申请公开了一种三维点云模型生成方法及装置,首先获取场景图像集合和相机参数,随后根据该场景图像集合和相机参数,基于神经辐射场模型生成深度图,最后根据生成的深度图生成三维点云模型。由此,该方法能够有效提升神经辐射场生成的深度图质量,解决深度图投影后的几何一致性问题,从而高效和快速地从神经辐射场隐式表示中获得更加准确的场景三维点云模型。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,该图为本申请实施例提供的一种三维点云模型生成方法的流程图。该方法包括:
S101:获取场景图像集合。
基于真实的场景采集N张场景图像,得到如下公式(1)的场景图像集合I。需要说明的是,对于上述场景图像的个数,本申请不做限定。
I={Ik|k=1,2,…,N} (1)
需要说明的是,上述场景图像集合中包含的所有场景图像均为同一个场景的不同视角的图像,上述场景图像可以是RGB图像,也可以是其他格式的图像,对于具体的图像格式,本申请不做限定。
需要说明的是,上述场景图像集合中包含的所有场景图像可以是一系列不同方位的相机同时进行拍摄,也可以是单个相机进行移动拍摄,对于场景图像的具体拍摄方法,本申请不做限定。
需要说明的是,上述场景图片集合可以是对场景视频进行抽帧处理后拆分形成的图像帧集合,也可以是两张及以上的场景图像组成的集合。对于具体的场景图像集合,本申请不做限定。
S102:基于场景图像集合,获取相机参数。
相机参数可以分为相机内参和相机外参。相机内参可以表征相机的固定参数,是一个3×3的矩阵,相机外参可以表征当前相机旋转和置相对于世界坐标系的参数,是一个4×4的矩阵。
在一些具体的实现方式中,可以基于SFM中的Colmap方法对S101步骤中获取的场景图像集合进行数据预处理,以获取相机参数。具体的,Colmap方法是一种通用的运动结构恢复(SFM)和多视图立体(MVS)管道的方法,它为有序和无序图像集合的重建提供了广泛的功能。
在另一些具体的实现方式中,还可以由本领域技术人员直接输入相机参数。需要说明的是,对于相机参数的具体获取方法,本申请不做限定。
可以理解的是,除了获取上述的相机参数,还可以基于SFM中的Colmap方法对S101步骤中获取的场景图像集合进行数据预处理,以获取场景图像集合中各个场景图片的场景边界范围。在一些示例中,上述场景边界范围可以是[-1,1]之间的任意范围。
S103:使用光度一致性损失和深度平滑损失训练神经辐射场模型。
神经辐射场模型通常为多层感知器MLP网络。对于具体的模型层数和宽度,本申请不做限定。
在一些具体的实施方式中,由于神经辐射场模型渲染出的渲染像素颜色可能与室内场景图像中的真实像素颜色存在差异,因此对于每个像素,可以通过最小化渲染像素颜色与真实像素颜色之间的距离,并添加深度平滑损失来训练神经辐射场模型,即利用总损失函数优化全连接网络。
在一些示例中,训练神经辐射场模型的损失函数可以如公式(2)所示:
Figure BDA0004154132190000061
其中,Lθ为损失函数,r为发射射线,R为射线的集合,Lcolor为光度一致性损失函数,Lsmooth为深度平滑损失函数,λ为权重因子。
具体的,光度一致性损失函数
Figure BDA0004154132190000066
的计算方法可以如公式(3)所示:
Figure BDA0004154132190000062
其中,Lcolor为光度一致性损失函数,r为发射射线,R为射线的集合,
Figure BDA0004154132190000063
为渲染像素颜色,C(r)为真实像素颜色。
具体的,深度平滑损失函数
Figure BDA0004154132190000064
的计算方法可以如公式(4)所示:
Figure BDA0004154132190000065
其中,Lsmooth为深度平滑损失函数,Spatch为渲染区域面积大小,r为发射射线,R为射线的集合,i为像素的横坐标点,j为像素的纵坐标点,d(rij)为像素(i,j)的预测深度,d(ri+1j)为像素(i+1,j)的预测深度,d(rij+1)为像素(i,j+1)的预测深度。
需要说明的是,实际执行上述步骤时,可以先执行S102后执行S103,也可以先执行S103后执行S102,也可以S102、S103同时执行,对于具体的先后顺序,本申请不做限定。
S104:利用视角稀疏选择策略选择相机视角,并结合相机参数生成原始深度图。
在一些具体的实现方式中,视角稀疏选择策略可以为:第一,相机视场角不低于第一预设阈值,示例性的,第一预设阈值可以是45度,以确保使用最少数量的相机视角即可覆盖全部场景。第二,相邻相机视场角的交叉重叠区域不超过第二预设阈值,示例性的,第二预设阈值可以是10%,以便进行点云融合,同时不明显增加计算量。
需要说明的是,所选相机的视场角需要保证能够在交叉重叠条件下覆盖整个场景,即所选相机的视野范围能够覆盖场景的所占空间,以生成完整的三维点云模型。除此之外,对于具体的视角稀疏选择策略,本申请不做限定。
由此,在所有相机视野范围能够完全覆盖场景的前提下,可以选择更少的相机视角,以避免大量的冗余计算,使得点云模型生成速度更快。
S105:根据相机位姿信息渲染原始深度图。
在一些具体的实现方式中,可以根据如下公式(5),使用累积的透射率计算光线的预期深度,以渲染S104步骤中生成的原始深度图。
Figure BDA0004154132190000071
其中,d(r)为光线r的深度值,t1为场景近边界,t2为场景远边界,T(t)为沿光线的累积透射率,σ(r(t))为相机光线r(t)的密度值。
S106:利用联合双边滤波方法,对原始深度图进行滤波预处理。
联合双边滤波方法指的是将原始深度图及对应视角下的彩色图像作为输入,利用高斯核函数计算出原始深度图的空间距离权值和RGB图像颜色距离权值,并将权值相乘得到联合滤波权重。由于S105步骤中获得的原始深度图存在噪声的影响,因此可以使用联合双边滤波方法对上述原始深度图进行滤波预处理。由此,通过联合双边滤波优化初始深度信息,获得更加清晰一致的深度图,即处理后的深度图。
在一些具体的实现方式中,令D表示S105步骤中获取的原始深度图,滤波后的深度图(即处理后的深度图)
Figure BDA0004154132190000072
如下公式(6)所示:
Figure BDA0004154132190000073
其中,
Figure BDA0004154132190000074
为处理后的深度图,Dp为原始深度图,S为中心像素p的邻域,p和q是原始深度图上的点,Ip为p像素点的颜色值,Iq为q像素点的颜色值,Kp为归一化系数,wd为空间距离权重,wr为颜色距离权重。
在一些示例中,上述原始深度图中点p与其邻域中点q的空间距离权值的公式可以如下公式(7)所示,上述RGB彩色图像中点p与其邻域中点q的颜色距离权值可以如下公式(8)所示:
Figure BDA0004154132190000075
Figure BDA0004154132190000076
其中,wd(p,q)为原始深度图中点p与其邻域中点q的空间距离权值,wr(Ip,Iq)表示RGB彩色图像中点p与其邻域中点q的颜色距离权值,Ip和Iq分别为点p和其邻域中点q的颜色值,σd为空间距离权值的高斯函数标准差、σr为颜色距离权值的高斯函数标准差。
S107:对处理后的深度图投影,生成三维点云模型。
根据S102步骤中获取到的相机参数中的相机内参进行坐标变换,即将图像坐标系中的二维像素点(u,v)映射到相应坐标系下的三维点(X,Y,Z),从而生成三维点云数据。
在一些具体的实现方式中,转换后的三维点云对应的坐标计算公式可以如下公式(9)所示:
Figure BDA0004154132190000081
其中,z为二维图像点(u,v)对应的深度,(u0,v0)为图像的中心像素坐标,fx和fy为相机焦距。
S108:计算三维点云模型中每个三维点的置信度。
对于每一个三维点,其置信度由颜色置信度和重投影误差共同组成。三维点云的置信度可以如下公式(10)所示:
Pconf=λ1Sdepth2Scolor (10)
其中,Pconf为三维点云的置信度,Sdepth为深度置信度,Scolor为颜色置信度,λ1为深度置信度的权重因子,λ2为颜色置信度的权重因子。
具体的,颜色置信度Scolor为颜色误差,即如下公式(11)所示:
Figure BDA0004154132190000082
其中,Scolor为颜色置信度(即颜色误差),
Figure BDA0004154132190000083
为渲染像素颜色,C(r)为真实像素颜色,||·||L1为L1距离。
S109:剔除置信度小于阈值的三维点,形成最终的三维点云模型。
当将所有的深度图反向投影到三维空间中时,会出现大量冗余信息,因此可以根据S108步骤中计算得到的置信度值,将置信度值小于第三预设阈值的三维点从点云模型中剔除,从而提高点云精度。
在一些具体的实现方式中,可以将上述剔除置信度小于第三预设阈值的三维点后的点云模型保存为最终的点云模型,将最终生成的点云模型保存为ply文件。
本申请公开了一种三维点云模型生成方法,首先获取场景图像集合和相机参数,随后根据该场景图像集合和相机参数,基于神经辐射场模型生成深度图,最后根据生成的深度图生成三维点云模型。由此,该方法能够有效提升神经辐射场生成的深度图质量,解决深度图投影后的几何一致性问题,从而高效和快速地从神经辐射场隐式表示中获得更加准确的场景三维点云模型。
参见图2,该图为本申请实施例提供的一种三维点云模型生成装置的示意图。该三维点云模型生成装置200包括:获取模块201、深度模块202、模型模块203。其中,获取模块201,用于获取场景图像集合和相机参数;深度模块202,用于根据场景图像集合和相机参数,基于神经辐射场模型生成深度图;模型模块203,用于根据深度图,生成三维点云模型。
在一些可能的实现方式中,神经辐射场模型使用联合损失函数进行训练,上述联合损失函数的公式具体如下公式(12):
Figure BDA0004154132190000091
其中,Lθ为损失函数,r为发射射线,R为射线的集合,Lcolor为光度一致性损失函数,Lsmooth为深度平滑损失函数,λ为权重因子。
在一些可能的实现方式中,上述光度一致性损失函数的公式具体如下公式(13):
Figure BDA0004154132190000092
其中,Lcolor为光度一致性损失函数,r为发射射线,R为射线的集合,
Figure BDA0004154132190000093
为渲染像素颜色,C(r)为真实像素颜色。
在一些可能的实现方式中,上述深度平滑损失函数的公式具体如下公式(14):
Figure BDA0004154132190000094
其中,Lsmooth为深度平滑损失函数,Spatch为渲染区域面积大小,r为发射射线,R为射线的集合,i为像素的横坐标点,j为像素的纵坐标点,d(rij)为像素(i,j)的预测深度,d(ri+1j)为像素(i+1,j)的预测深度,d(rij+1)为像素(i,j+1)的预测深度。
在一些可能的实现方式中,上述深度模块202具体包括:第一子模块、第二子模块、第三子模块。
其中,第一子模块用于:根据视角稀疏选择策略筛选用于生成深度图的相机视角,视角稀疏选择策略为相机视场角不低于第一预设阈值,和,相邻的上述相机视场角的交叉重叠区域不超过第二预设阈值;
第二子模块用于:根据筛选后的场景图片集合和相机参数,基于神经辐射场模型生成原始深度图;
第三子模块用于:对上述原始深度图进行滤波处理,以生成处理后的深度图。
在一些可能的实现方式中,上述原始深度图的深度计算公式具体如下公式(15):
Figure BDA0004154132190000101
其中,d(r)为光线r的深度值,t1为场景近边界,t2为场景远边界,T(t)为沿光线的累积透射率,σ(r(t))为相机光线r(t)的密度值。
在一些可能的实现方式中,上述第三子模块具体用于:
基于联合双边滤波方法对上述原始深度图进行滤波处理,以生成处理后的深度图;
上述联合双边滤波方法的公式具体如下公式(16):
Figure BDA0004154132190000102
其中,
Figure BDA0004154132190000103
为处理后的深度图,Dp为原始深度图,S为中心像素p的邻域,p和q是原始深度图上的点,Ip为p像素点的颜色值,Iq为q像素点的颜色值,Kp为归一化系数,wd为空间距离权重,wr为颜色距离权重。
在一些可能的实现方式中,上述三维点云模型生成装置200还包括:计算模块、判断模块、更新模块。
其中,计算模块用于:获取三维点云模型中每个三维点的置信度;
判断模块用于:判断每个三维点的置信度是否低于第三预设阈值;
更新模块用于:若是,则剔除上述置信度低于第三预设阈值的三维点,以形成更新后的三维点云模型。
在一些可能的实现方式中,上述置信度的计算公式具体如下公式(17)所示:
Pconf=λ1Sdepth2Scolor (17)
其中,Pconf为三维点云的置信度,Sdepth为深度置信度,Scolor为颜色置信度,λ1为深度置信度的权重因子,λ2为颜色置信度的权重因子。
本申请公开了一种三维点云模型生成装置,包括:获取模块、深度模块、模型模块。该装置能够有效提升神经辐射场生成的深度图质量,解决深度图投影后的几何一致性问题,从而高效和快速地从神经辐射场隐式表示中获得更加准确的场景三维点云模型。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种三维点云模型生成方法,其特征在于,所述方法包括:
获取场景图像集合和相机参数;
根据所述场景图像集合和相机参数,基于神经辐射场模型生成深度图;
根据所述深度图,生成三维点云模型。
2.根据权利要求1所述的方法,其特征在于,所述神经辐射场模型使用联合损失函数进行训练,所述联合损失函数的公式具体如下:
Figure FDA0004154132170000011
其中,Lθ为损失函数,r为发射射线,R为射线的集合,Lcolor为光度一致性损失函数,Lsmooth为深度平滑损失函数,λ为权重因子。
3.根据权利要求2所述的方法,其特征在于,所述光度一致性损失函数的公式具体如下:
Figure FDA0004154132170000012
其中,Lcolor为光度一致性损失函数,r为发射射线,R为射线的集合,
Figure FDA0004154132170000013
为渲染像素颜色,C(r)为真实像素颜色。
4.根据权利要求2所述的方法,其特征在于,所述深度平滑损失函数的公式具体如下:
Figure FDA0004154132170000014
其中,Lsmooth为深度平滑损失函数,Spatch为渲染区域面积大小,r为发射射线,R为射线的集合,i为像素的横坐标点,j为像素的纵坐标点,d(rij)为像素(i,j)的预测深度,d(ri+1j)为像素(i+1,j)的预测深度,d(rij+1)为像素(i,j+1)的预测深度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述场景图像集合和相机参数,基于神经辐射场模型生成深度图,包括:
根据视角稀疏选择策略筛选用于生成深度图的相机视角,所述视角稀疏选择策略为相机视场角不低于第一预设阈值,和,相邻的所述相机视场角的交叉重叠区域不超过第二预设阈值;
根据筛选后的相机视角和所述相机参数,基于神经辐射场模型生成原始深度图;
对所述原始深度图进行滤波处理,以生成处理后的深度图。
6.根据权利要求5所述的方法,其特征在于,所述原始深度图的深度计算公式具体如下:
Figure FDA0004154132170000021
其中,d(r)为光线r的深度值,t1为场景近边界,t2为场景远边界,T(t)为沿光线的累积透射率,σ(r(t))为相机光线r(t)的密度值。
7.根据权利要求5所述的方法,其特征在于,所述对所述原始深度图进行滤波处理,以生成处理后的深度图,包括:
基于联合双边滤波方法对所述原始深度图进行滤波处理,以生成处理后的深度图;
所述联合双边滤波方法的公式具体如下:
Figure FDA0004154132170000022
其中,
Figure FDA0004154132170000023
为处理后的深度图,Dp为原始深度图,S为中心像素p的邻域,p和q是原始深度图上的点,Ip为p像素点的颜色值,Iq为q像素点的颜色值,Kp为归一化系数,wd为空间距离权重,wr为颜色距离权重。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述三维点云模型中每个三维点的置信度;
判断所述每个三维点的置信度是否低于第三预设阈值;
若是,则剔除所述置信度低于第三预设阈值的三维点,以形成更新后的三维点云模型。
9.根据权利要求8所述的方法,其特征在于,所述置信度的计算公式具体如下:
Pconf=λ1Sdepth2Scolor
其中,Pconf为三维点云的置信度,Sdepth为深度置信度,Scolor为颜色置信度,λ1为深度置信度的权重因子,λ2为颜色置信度的权重因子。
10.一种三维点云模型生成装置,其特征在于,所述装置包括:获取模块、深度模块、模型模块;
所述获取模块,用于获取场景图像集合和相机参数;
所述深度模块,用于根据所述场景图像集合和相机参数,基于神经辐射场模型生成深度图;
所述模型模块,用于根据所述深度图,生成三维点云模型。
CN202310328647.6A 2023-03-30 2023-03-30 一种三维点云模型生成方法及装置 Active CN116152442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310328647.6A CN116152442B (zh) 2023-03-30 2023-03-30 一种三维点云模型生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310328647.6A CN116152442B (zh) 2023-03-30 2023-03-30 一种三维点云模型生成方法及装置

Publications (2)

Publication Number Publication Date
CN116152442A true CN116152442A (zh) 2023-05-23
CN116152442B CN116152442B (zh) 2023-09-08

Family

ID=86340950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310328647.6A Active CN116152442B (zh) 2023-03-30 2023-03-30 一种三维点云模型生成方法及装置

Country Status (1)

Country Link
CN (1) CN116152442B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452758A (zh) * 2023-06-20 2023-07-18 擎翌(上海)智能科技有限公司 一种神经辐射场模型加速训练方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689540A (zh) * 2021-07-22 2021-11-23 清华大学 基于rgb视频的物体重建方法和装置
WO2022155933A1 (en) * 2021-01-22 2022-07-28 Shanghaitech University Accelerated training of neural radiance fields-based machine learning models
US20220301252A1 (en) * 2021-03-17 2022-09-22 Adobe Inc. View synthesis of a dynamic scene
CN115330940A (zh) * 2022-08-09 2022-11-11 北京百度网讯科技有限公司 一种三维重建方法、装置、设备和介质
CN115393410A (zh) * 2022-07-18 2022-11-25 华东师范大学 一种基于神经辐射场和语义分割的单目视图深度估计方法
CN115423946A (zh) * 2022-11-02 2022-12-02 清华大学 大场景弹性语义表征与自监督光场重建方法及装置
CN115619928A (zh) * 2022-09-27 2023-01-17 北京易航远智科技有限公司 用于多相机系统的三维场景重建装置的训练方法
CN115690324A (zh) * 2022-11-15 2023-02-03 广州中思人工智能科技有限公司 一种基于点云的神经辐射场重建优化方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022155933A1 (en) * 2021-01-22 2022-07-28 Shanghaitech University Accelerated training of neural radiance fields-based machine learning models
US20220301252A1 (en) * 2021-03-17 2022-09-22 Adobe Inc. View synthesis of a dynamic scene
CN113689540A (zh) * 2021-07-22 2021-11-23 清华大学 基于rgb视频的物体重建方法和装置
CN115393410A (zh) * 2022-07-18 2022-11-25 华东师范大学 一种基于神经辐射场和语义分割的单目视图深度估计方法
CN115330940A (zh) * 2022-08-09 2022-11-11 北京百度网讯科技有限公司 一种三维重建方法、装置、设备和介质
CN115619928A (zh) * 2022-09-27 2023-01-17 北京易航远智科技有限公司 用于多相机系统的三维场景重建装置的训练方法
CN115423946A (zh) * 2022-11-02 2022-12-02 清华大学 大场景弹性语义表征与自监督光场重建方法及装置
CN115690324A (zh) * 2022-11-15 2023-02-03 广州中思人工智能科技有限公司 一种基于点云的神经辐射场重建优化方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MICHAEL NIEMEYER ET AL.: "RegNeRF: RegNeRF Regularizing Neural Radiance Fields for View Synthesis from Sparse Inputs", ARXIV:2112.00724V1 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452758A (zh) * 2023-06-20 2023-07-18 擎翌(上海)智能科技有限公司 一种神经辐射场模型加速训练方法、装置、设备及介质
CN116452758B (zh) * 2023-06-20 2023-10-20 擎翌(上海)智能科技有限公司 一种神经辐射场模型加速训练方法、装置、设备及介质

Also Published As

Publication number Publication date
CN116152442B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN111063021B (zh) 一种空间运动目标的三维重建模型建立方法及装置
CN111462329B (zh) 一种基于深度学习的无人机航拍影像的三维重建方法
CN110223370B (zh) 一种从单视点图片生成完整人体纹理贴图的方法
CN113572962B (zh) 室外自然场景光照估计方法及装置
CN107204010A (zh) 一种单目图像深度估计方法与系统
CN113077505B (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN117456136A (zh) 一种基于多模态视觉识别的数字孪生场景智能生成方法
CN108648264A (zh) 基于运动恢复的水下场景重建方法及存储介质
CN116402942A (zh) 一种融合多尺度图像特征的大规模建筑物三维重建方法
CN115147709B (zh) 一种基于深度学习的水下目标三维重建方法
CN116152442B (zh) 一种三维点云模型生成方法及装置
CN111860651A (zh) 一种基于单目视觉的移动机器人半稠密地图构建方法
CN115082254A (zh) 一种变电站精益管控数字孪生系统
CN110033483A (zh) 基于dcnn深度图生成方法及系统
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
CN112862736A (zh) 一种基于点的实时三维重建与优化方法
CN116883565A (zh) 一种数字孪生场景的显隐式模型融合渲染方法及应用
CN117911618A (zh) 一种基于神经辐射场的三维场景模型构建方法
CN112750155B (zh) 基于卷积神经网络的全景深度估计方法
CN118247429A (zh) 一种空地协同快速三维建模方法及系统
Zhou et al. Single-view view synthesis with self-rectified pseudo-stereo
CN117274514A (zh) 基于地空视角几何变换的遥感图像生成方法及装置
CN117156298A (zh) 一种基于人虫复合仿生的低慢小目标感知方法及系统
CN115908731A (zh) 一种基于云边协同的双无人机三维重建方法
CN116704112A (zh) 一种用于对象重建的3d扫描系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant