CN112613609B - 基于联合位姿优化的神经辐射场增强方法 - Google Patents
基于联合位姿优化的神经辐射场增强方法 Download PDFInfo
- Publication number
- CN112613609B CN112613609B CN202011510924.8A CN202011510924A CN112613609B CN 112613609 B CN112613609 B CN 112613609B CN 202011510924 A CN202011510924 A CN 202011510924A CN 112613609 B CN112613609 B CN 112613609B
- Authority
- CN
- China
- Prior art keywords
- camera
- pose
- sampling
- points
- radiation field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Abstract
本发明属于计算机图形学领域下的神经渲染领域以及计算机视觉领域下的相机位姿优化领域,更具体地,涉及一种基于联合位姿优化的神经辐射场增强方法。通过结合神经渲染的方法,结合神经网络的表达能力,可以进一步有效的优化相机位姿,在更准确的相机位姿下,训练出的神经辐射场更接近真实场景,渲染出的图像质量更高,细节更清晰。
Description
技术领域
本发明属于计算机图形学领域下的神经渲染领域以及计算机视觉领域下的相机位姿优化领域,更具体地,涉及一种基于联合位姿优化的神经辐射场增强方法。
背景技术
新视角合成是计算机视觉领域以及计算机图形学领域中一项极具挑战性的任务。它的定义是,从一系列的对某一场景的捕获图像中,合成新的视角下的图像。神经辐射场(NeRF)在新视角合成的任务中取得了显著的成果。而在实际应用中,相机位姿往往是通过SfM算法得到的,由于SfM算法依赖于关键点的检测以及匹配,在一些重复纹理较多的场景中,往往会产生很多外点导致错误匹配,这对SfM的性能会造成很大的不良影响。简而言之,通过SfM得到的位姿是不够准确的,使用这样的位姿采样出的点也是不准确的,而这些点的坐标就是NeRF的输入,也就导致NeRF难以拟合真实场景的神经辐射场。因此我们需要更准确的位姿,来辅助NeRF得到更准确的输入。
现有的一些方法中,隐式表达聚焦在几何属性,而不能模拟更复杂的属性,比如颜色,密度。神经渲染方法大部分需要3D显示信息作为输入,而准确的几何又很难获取,不利于位姿计算。相机位姿依赖图像之间的匹配点,如果有错误匹配被考虑到算法流程中,就会引入不同程度的误差。
发明内容
本发明为克服上述现有技术中的至少一个缺陷,提供一种基于联合位姿优化的神经辐射场增强方法,从渲染的角度,同时优化辐射场和位姿。
为解决上述技术问题,本发明采用的技术方案是:一种基于联合位姿优化的神经辐射场增强方法,包括以下步骤:
S2.对图像使用colmap进行数据预处理,得到相机位姿、内参、近平面和远平面的参数,相机位姿集合相机位姿具体表示为Mk={Rk,ok};假定所有的图像共享同一个相机内参K,此时的位姿只是作为初始值,后续步骤中需要进一步优化;
S3.对每一幅图,光心与像素点连线即为一条光线,任意选择n条光线;对某一条从相机光心射出的光线r(t)=o+td,使其通过给定的像素点;o为相机的位置,d为视角方向,t为大于0的实数,在采样时选取;
S4.对每一条光线进行两次采样,分别为粗采样和细采样;此时所有的采样点坐标以及视角观察方向的坐标都是在相机坐标系之下;
S5.将相机坐标系下的点以及视角方向的坐标转换到世界坐标系下,世界坐标系与colmap坐标系一致;这一过程中引入相机位姿以及相机内参;此时将相机位姿转化为可优化的变量;
S6.在得到全局坐标之后,将这些坐标输入到两个MLP之中,第一个MLP以采样点的位置坐标作为输入,输出这个点的密度以及一个高维向量,第二个MLP以采样点的观测方向的坐标以及第一个MLP输出的高维向量作为输入,输出这个点在这个视角下的颜色值;
S7.对一条光线,采用离散的体绘制渲染积分,得到像素对应的颜色估计值;
S8.通过反向传播,同时更新网络参数以及相机位姿参数。
现有技术主要是通过捆集调整的方法来优化位姿,使用基于图像渲染的方法来合成新视角的图像。本发明通过结合神经渲染的方法,结合神经网络的表达能力,可以进一步有效的优化相机位姿,在更准确的相机位姿下,训练出的神经辐射场更接近真实场景,渲染出的图像质量更高,细节更清晰。
进一步的,所述的步骤S1中拍摄的所有的图像均近似为向前拍摄或者360度向内拍摄;使用旋转矩阵来表示相机的朝向;使用3维坐标表示相机位置;(·)w表示在世界坐标系下的坐标点;(·)c表示相机坐标系下的坐标点;表示基于小孔成像的相机内参矩阵。
进一步的,所述的步骤S3中,根据体绘制的原理,任意像素点的颜色通过以下积分求得:
进一步的,所述的步骤S4中,粗采样在光线上采64个点,细采样在这个64个点的基础上,根据粗采样密度分布,额外再采128个点。
进一步的,对连续积分式(1)离散化后得:
进一步的,在所述的步骤S5中,将输入的参数表达为位姿相关的函数:
r(t,R,o)=o+tRK-1p, (4)
式中,p=[u,v,1]T表示像素的齐次坐标,t表示对应采样点的深度值。
进一步的,所述的步骤S6中,使用MLP模型来模拟场景属性,对场景中任意点的密度和颜色进行拟合,定义为Fθ,Fθ以空间中点的坐标x=(x,y,z)以及观察视角方向d=(dx,dy,dz)作为输入,输出该点的密度σ以及颜色c=(r,g,b);MLP的表达式为:
式中,γ(·)表示对位置的编码。
进一步的,所述的步骤S7中,使用下式(7)计算积分:
式中,wi=Ti(1-exp(-σiδi))。
进一步的,在所述的步骤S8中,对于网络的loss函数,采用与NeRF相同的残差loss:
与现有技术相比,有益效果是:本发明提供的一种基于联合位姿优化的神经辐射场增强方法,通过结合神经渲染的方法,结合神经网络的表达能力,可以进一步有效的优化相机位姿,在更准确的相机位姿下,训练出的神经辐射场更接近真实场景,渲染出的图像质量更高,细节更清晰。
附图说明
图1是本发明中算法的示意图,描述了位姿与神经辐射场同时优化的过程。
图2是本发明使用的网络结构示意图。
图3是本发明网络配置示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
一种基于联合位姿优化的神经辐射场增强方法,包括以下步骤:
S1.针对真实场景,首先对场景拍摄一系列的图像,得到图像集合一共NI张图像;所有的图像均近似为向前拍摄或者360度向内拍摄;使用旋转矩阵来表示相机的朝向;使用3维坐标表示相机位置;(·)w表示在世界坐标系下的坐标点;(·)c表示相机坐标系下的坐标点;表示基于小孔成像的相机内参矩阵;
S2.对图像使用colmap进行数据预处理,得到相机位姿、内参、近平面和远平面的参数,相机位姿集合相机位姿具体表示为Mk={Rk,ok};假定所有的图像共享同一个相机内参K,此时的位姿只是作为初始值,后续步骤中需要进一步优化;
S3.对每一幅图,光心与像素点连线即为一条光线,任意选择4096条光线;具体需要根据显存大小选取,例如24G显卡可选用4096条光线;对某一条从相机光心射出的光线r(t)=o+td,使其通过给定的像素点;o为相机的位置,d为视角方向,t为大于0的实数,根据体绘制的原理,任意像素点的颜色通过以下积分求得:
S4.连续积分不能计算,因此需要离散化。对每一条光线进行两次采样,分别为粗采样和细采样。粗采样在光线上采64个点,细采样在这个64个点的基础上,根据粗采样密度分布,额外再采128个点,注意此时所有的采样点坐标以及视角观察方向的坐标都是在相机坐标系之下。然后即可离散化计算公式(1)这个积分:
S5.接着是本发明的关键步骤,在其他任务中,普遍任务colmap的位姿足够准,不需要再继续优化。而本发明任务,在渲染任务中,只要渲染过程对相机位姿可微,那么就能够继续优化,同步提高位姿精度和渲染质量。本发明将相机坐标系下的点以及视角方向的坐标转换到世界坐标系下,世界坐标系与colmap坐标系一致。这一过程中需要引入相机位姿以及相机内参。此时需要将相机位姿转化为可优化的变量。将模型的输入表达为位姿相关的函数:
r(t,R,o)=o+tRK-1p, (4)
式中,p=[u,v,1]T表示像素的齐次坐标,t表示对应采样点的深度值。
S6.在得到全局坐标之后,将这些坐标输入到两个MLP之中,第一个MLP以采样点的位置坐标作为输入,输出这个点的密度以及一个高维向量,第二个MLP以采样点的观测方向的坐标以及第一个MLP输出的高维向量作为输入,输出这个点在这个视角下的颜色值;
使用MLP模型来模拟场景属性,对场景中任意点的密度和颜色进行拟合,定义为Fθ,Fθ以空间中点的坐标x=(x,y,z)以及观察视角方向d=(dx,dy,dz)作为输入,输出该点的密度σ以及颜色c=(r,g,b);MLP的表达式为:
式中,γ(·)表示对位置的编码。
两个MLP的具体配置如图3所示,γ(x)需要两次输入,也就是存在skipconnection操作。+表示级联操作。位姿变量参数和网络的权重参数都使用Adam优化器来优化。具体的Adam优化器参数配置为:
对网络权重参数,学习率以5×10-4为初始值,对位姿变量参数,学习率以1×10-4为初始值,随着优化的进行,学习率以5×10-5的速度进行指数衰减。其他Adam的超参数设为默认值。
S7.对一条光线,采用离散的体绘制渲染积分,得到像素对应的颜色估计值;这里估计值有两个,一个对应于粗采样,一个对应于细采样。尽管最后在渲染新视角的图像时,我们使用的是细采样的颜色值,但是粗采样依然是必要的。具体的,使用下式计算积分:
式中,wi=Ti(1-exp(-σiδi))。
S8.通过反向传播,同时更新网络参数以及相机位姿参数。体绘制渲染等式对于相机位姿使可微的,通过利用反向传播算法,我们可以同时优化相机位姿以及网络的参数,从而使得输入到网络中的坐标点更为准确。
对于网络的loss函数,采用与NeRF相同的残差loss:
本发明的方法模型对λ的不同配置并不敏感,实际配置中选取λ=1作为正则项的权重。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于联合位姿优化的神经辐射场增强方法,其特征在于,包括以下步骤:
S2.对图像使用colmap进行数据预处理,得到相机位姿、内参、近平面和远平面的参数,相机位姿集合相机位姿具体表示为Mk={Rk,ok};假定所有的图像共享同一个相机内参K,此时的位姿只是作为初始值,后续步骤中需要进一步优化;
S3.对每一幅图,光心与像素点连线即为一条光线,任意选择n条光线;对某一条从相机光心射出的光线r(t)=o+td,使其通过给定的像素点,o为相机的位置,d为视角方向,t为大于0的实数,在采样时选取;
S4.对每一条光线进行两次采样,分别为粗采样和细采样;此时所有的采样点坐标以及视角观察方向的坐标都是在相机坐标系之下;
S5.将相机坐标系下的点以及视角方向的坐标转换到世界坐标系下,世界坐标系与colmap坐标系一致;这一过程中引入相机位姿以及相机内参;此时将相机位姿转化为可优化的变量;
S6.在得到全局坐标之后,将这些坐标输入到两个MLP之中,第一个MLP以采样点的位置坐标作为输入,输出这个点的密度以及一个高维向量,第二个MLP以采样点的观测方向的坐标以及第一个MLP输出的高维向量作为输入,输出这个点在这个视角下的颜色值;
S7.对一条光线,采用离散的体绘制渲染积分,得到像素对应的颜色估计值;
S8.通过反向传播,同时更新网络参数以及相机位姿参数。
4.根据权利要求3所述的基于联合位姿优化的神经辐射场增强方法,其特征在于,所述的步骤S4中,粗采样在光线上采64个点,细采样在这个64个点的基础上,根据粗采样密度分布,额外再采128个点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011510924.8A CN112613609B (zh) | 2020-12-18 | 2020-12-18 | 基于联合位姿优化的神经辐射场增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011510924.8A CN112613609B (zh) | 2020-12-18 | 2020-12-18 | 基于联合位姿优化的神经辐射场增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112613609A CN112613609A (zh) | 2021-04-06 |
CN112613609B true CN112613609B (zh) | 2022-05-06 |
Family
ID=75241095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011510924.8A Active CN112613609B (zh) | 2020-12-18 | 2020-12-18 | 基于联合位姿优化的神经辐射场增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613609B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327299B (zh) * | 2021-07-07 | 2021-12-14 | 北京邮电大学 | 一种基于联合采样结构的神经网络光场方法 |
CN113592991B (zh) * | 2021-08-03 | 2023-09-05 | 北京奇艺世纪科技有限公司 | 一种基于神经辐射场的图像渲染方法、装置及电子设备 |
CN113706714B (zh) * | 2021-09-03 | 2024-01-05 | 中科计算技术创新研究院 | 基于深度图像和神经辐射场的新视角合成方法 |
CN113971719B (zh) * | 2021-10-26 | 2024-04-12 | 上海脉衍人工智能科技有限公司 | 一种神经辐射场采样与重建的系统、方法及设备 |
CN114118367B (zh) * | 2021-11-16 | 2024-03-29 | 上海脉衍人工智能科技有限公司 | 增量式神经辐射场构建的方法及设备 |
CN114004941B (zh) * | 2022-01-04 | 2022-08-16 | 苏州浪潮智能科技有限公司 | 一种基于神经辐射场的室内场景三维重建系统及方法 |
CN114549731B (zh) * | 2022-04-22 | 2022-09-16 | 清华大学 | 视角图像的生成方法、装置、电子设备及存储介质 |
CN115100360B (zh) * | 2022-07-28 | 2023-12-01 | 中国电信股份有限公司 | 图像生成方法及装置、存储介质和电子设备 |
CN115147577A (zh) * | 2022-09-06 | 2022-10-04 | 深圳市明源云科技有限公司 | Vr场景生成方法、装置、设备及存储介质 |
CN115578515B (zh) * | 2022-09-30 | 2023-08-11 | 北京百度网讯科技有限公司 | 三维重建模型的训练方法、三维场景渲染方法及装置 |
CN116168137B (zh) * | 2023-04-21 | 2023-07-11 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于神经辐射场的新视角合成方法、装置及存储器 |
CN117058049B (zh) * | 2023-05-04 | 2024-01-09 | 广州图语信息科技有限公司 | 新视角图像合成方法、合成模型训练方法及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109461180A (zh) * | 2018-09-25 | 2019-03-12 | 北京理工大学 | 一种基于深度学习的三维场景重建方法 |
CN110490928A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的相机姿态估计方法 |
CN111311666A (zh) * | 2020-05-13 | 2020-06-19 | 南京晓庄学院 | 一种融合边缘特征和深度学习的单目视觉里程计方法 |
US10701394B1 (en) * | 2016-11-10 | 2020-06-30 | Twitter, Inc. | Real-time video super-resolution with spatio-temporal networks and motion compensation |
-
2020
- 2020-12-18 CN CN202011510924.8A patent/CN112613609B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10701394B1 (en) * | 2016-11-10 | 2020-06-30 | Twitter, Inc. | Real-time video super-resolution with spatio-temporal networks and motion compensation |
CN109461180A (zh) * | 2018-09-25 | 2019-03-12 | 北京理工大学 | 一种基于深度学习的三维场景重建方法 |
CN110490928A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的相机姿态估计方法 |
CN111311666A (zh) * | 2020-05-13 | 2020-06-19 | 南京晓庄学院 | 一种融合边缘特征和深度学习的单目视觉里程计方法 |
Non-Patent Citations (2)
Title |
---|
Free View Synthesis;Gernot Riegler et.al;《arXiv:2008.05511v1 [cs.CV]》;20200812;第1-2页 * |
HEVC的高效分像素运动补偿;朝红阳 等;《软件学报》;20170831;第28卷(第8期);第1-2页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112613609A (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112613609B (zh) | 基于联合位姿优化的神经辐射场增强方法 | |
EP3057066B1 (en) | Generation of three-dimensional imagery from a two-dimensional image using a depth map | |
US11210804B2 (en) | Methods, devices and computer program products for global bundle adjustment of 3D images | |
CN112509115B (zh) | 序列图像动态场景三维时变无约束重建方法及系统 | |
WO1995006297A1 (en) | Example-based image analysis and synthesis using pixelwise correspondence | |
JPH10320588A (ja) | 画像処理装置および画像処理方法 | |
EP3769265A1 (en) | Localisation, mapping and network training | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
CN113421328B (zh) | 一种三维人体虚拟化重建方法及装置 | |
CN110070578B (zh) | 一种回环检测方法 | |
US11321960B2 (en) | Deep learning-based three-dimensional facial reconstruction system | |
US20220189104A1 (en) | Methods and Systems for Rendering View-Dependent Images Using 2D Images | |
Crispell et al. | Pix2face: Direct 3d face model estimation | |
CN114581571A (zh) | 基于imu和前向变形场的单目人体重建方法及装置 | |
CN115661246A (zh) | 一种基于自监督学习的姿态估计方法 | |
CN113538682B (zh) | 模型训练、头部重建方法、电子设备及存储介质 | |
CN115018989A (zh) | 基于rgb-d序列的三维动态重建方法、训练装置及电子设备 | |
KR20230150867A (ko) | 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측 | |
CN111260765A (zh) | 一种显微手术术野的动态三维重建方法 | |
CN112396694B (zh) | 一种基于单目摄像头的3d人脸视频生成方法 | |
CN114935316B (zh) | 基于光学跟踪与单目视觉的标准深度图像生成方法 | |
CN115953460A (zh) | 基于自监督深度学习的视觉里程计方法 | |
WO2022018811A1 (ja) | 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム | |
JP2022036075A (ja) | 画像のラベルなしペアを使用して物体の視点を伝達するようにニューラルネットワークを訓練するための方法、及び対応するシステム | |
CN113034675A (zh) | 一种场景模型构建方法、智能终端及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |