CN113971719B

CN113971719B - 一种神经辐射场采样与重建的系统、方法及设备

Info

Publication number: CN113971719B
Application number: CN202111251212.3A
Authority: CN
Inventors: 王骥; 熊文昌
Original assignee: Shanghai Maiyan Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Maiyan Artificial Intelligence Technology Co ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2024-04-12
Anticipated expiration: 2041-10-26
Also published as: CN113971719A

Abstract

本发明公开了一种神经辐射场采样与重建的系统、方法及设备，涉及光学成像领域。系统包括光偏转装置、摄像头和处理器，其中：光偏转装置调整入射光线的方向，传送给摄像头，摄像头接收光线后得到不同角度的图像，然后处理器依据偏转参数及拍摄图像重构出场景的神经辐射场。在该系统中，仅采用一个摄像头，利用光偏转装置的各向异性，能够低功耗地、更高精度地重建恢复出目标场景的神经辐射场。

Description

一种神经辐射场采样与重建的系统、方法及设备

技术领域

本发明涉及光学成像领域，特别是涉及一种神经辐射场采样与重建的系统、方法及设备。

背景技术

BenMildenhall等人于ECCV 2020提出了神经辐射场(Neural Radiance Field)方法，该方法采用神经网络对静态场景进行隐式建模，训练好网络后，可以从任意角度渲染出清晰的场景图片。

作为三维视觉的新范式，神经辐射场对现实场景进行非显式表达，基于离散角度拍摄的二维图片，可以渲染出全角度的高拟真度场景图片，结合现阶段的计算机视觉技术，能够在三维场景建模中发挥重要的作用。

目前，神经辐射场的主要方法是根据给定的相机参数和拍摄角度，然后基于各拍摄角度下的拍摄图像进行训练，重建恢复出神经辐射场的模型参数。

然而，在实际应用中，相机的拍摄角度获取难度较高，通过外部设备的测量估计的精度较低，从而给神经辐射场的应用推广带来了一些障碍。

发明内容

有鉴于此，本发明提供了一种神经辐射场采样与重建的系统、方法及设备，搭建一套由光偏转器、摄像头及处理器构成的系统，将不同角度获取的入射光线经由光偏转器校准到统一的方向传送给摄像头，摄像头拍摄不同角度的图像后，由处理器依照重建方法生成神经辐射场。此过程中，光偏转器可以提供较高精度的光线偏转角，从而能够有效提升神经辐射场的重建精度。

本发明采用的技术方案如下：

根据本发明的第一方面，提出了一种神经辐射场采样与重建的系统，系统包括光偏转装置、摄像头和处理器。

光偏转装置对外接收入射光线，对各个角度进入的入射光线进行调整，并传送给摄像头。

光偏转装置由光学组件和控制装置构成。其中，光学组件用于光线偏转，可以为透镜，也可以为反射镜；控制装置用于控制光线偏转的角度θ，控制方式包括手动控制或电动控制。

对于透镜光学组件，非平行结构的透镜能够改变光束的传播方向。其中，楔形棱镜能够进行光束偏转，可以用于本实施例中的光偏转装置中。

对于反射镜光学组件，当镜面与摄像头入射方向呈一定夹角时候，反射镜可以将外界特定方向的入射光线偏转到摄像头入射方向。

本发明中，以反射镜来说明本实施例中的光偏转装置。令为反射镜与镜头入射方向的夹角，调整光偏转装置，在不同夹角φ₁,φ₂,...,φ_N条件下依次采样，对应地，摄像头拍摄的图像分别为I₁,I₂,...,I_N，其中，N≥2为采样的次数。

根据本发明的第二方面，提出了一种神经辐射场采样与重建的方法，该方法根据拍摄到的图像，重建出神经辐射场模型，其步骤如下：

1)相机镜头中心为C，以反射镜中心为原点坐标O，反射镜平面为XY平面，OC连线为Z轴建立XYZ笛卡尔直角坐标系。

2)计算夹角φ_i对应的旋转矩阵R_i和平移矩阵T_i，计算公式如下：

公式(1)中，l_OC为OC连线的长度。

3)令d₀为夹角为0时场景的观测方向，则依据旋转矩阵R_i和平移矩阵T_i可计算得到夹角φ_i对应的观测方向d_i，计算方法可参考如下公式：

s₁p₁＝KP₁,s₂p₂＝K(RP₂+t) (2)

公式(2)中，P₁＝[X₁,Y₁,Z₁]^T与P₂＝[X₂,Y₂,z₂]^T为空间变换后的三维空间坐标点，K为相机内参矩阵，t为平移矩阵T的平移分量，p₁为原始像素坐标，p₂为经过旋转矩阵R和平移矩阵T后的像素坐标，s₁与s₂分别为p₁和p₂对应比例因子，根据该公式，可以计算出空间变换后新的观测方向。

4)依据观测方向d_i以及相机参数，训练神经辐射场，得到神经网络模型，其中，神经辐射场拟合的隐性函数为：

F_θ(P,d)＝(r,σ) (3)

公式(3)中，θ为网络超参数，F_θ为神经网络映射函数，该函数将三维体素坐标P与观测方向d映射为RGB颜色r与表征体素密度的参数σ。

上述步骤中，在已知旋转矩阵和平移矩阵时，通过特征点匹配后，可根据三角测量得到匹配特征点的深度，计算公式如下：

s₂K^-1p₂＝s₁RK^-1p₁+t (4)

在公式(4)中，s₁与s₂对应着像素点p₁与p₂两个匹配特征点的深度，当相机运动的旋转矩阵与平移矩阵已知时，根据三角测量的关系可以求解得出匹配特征点的深度值。

根据本发明的第三方面，提出了一种电子设备，该电子设备包括：

处理器；

以及用于存储计算机可执行指令的存储器；

以及计算机程序，其计算机程序存储在上述存储器中，由一个或多个处理器执行；

该计算机程序被所述处理执行时实现上述的任一方法。

根据本发明的再一方面，提出了一种计算机可读存储介质，该计算机可读存储介质上存储有可实现一种神经辐射场采样与重建的方法的计算机程序，

该计算机程序被所述处理执行时实现上述的一种神经辐射场采样与重建的方法中任一方法。

综上所述，根据本发明，光偏转装置收集各个角度的光场信息，集中输入到摄像头中，在处理器中，通过神经辐射场的采样与重建方法，可以可靠有效的重建出目标场景的三维外观信息。

由于本发明使用了光偏转装置，在系统内部容易得到相对精度较高的光场偏转角度，从而为神经辐射场重建提供了先验已知的观测角度，此外，光偏转装置也使得单个摄像头能够全面多角度的拍摄目标场景，从而有利于低功耗地、更高精度地重建恢复出目标场景的神经辐射场。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明一些实施例的神经辐射场采样系统与方法的示意图。

图2示出了根据本发明一些实施例的三角测量方法的示意图。

图3示出了根据本发明一些实施例的计算设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明的实施例进行详细的描述说明。其描述涉及附图时，相同的附图标记通常表示相同或者相似的元素。

应当理解，本示例性实施例所描述的实施方式不应被本公开所阐述的实施例所限制，提供实施例是为了更透彻的理解本公开，并且能将本公开的范围完整的传达给本领域的技术人员。各种形式的实现方式仅是如所附权利要求书中所详述的，本公开的某些方面相一致的方法、装置或设备的样例。

神经辐射场构建与渲染作为三维视觉的新范式，越来越受人们的观测。该方法，通过相机参数和相机的拍摄角度，拍摄样本图像，然后基于神经辐射场网络构建隐性映射函数，使得各角度高精度图像渲染成为可能。

为提高相机拍摄角度的测量精度，本发明实施例提出了一种神经辐射场采样与重建的系统、方法及设备。基于本发明提出的系统与方法，利用光偏转装置的内置参数，可以有效的获取各观测角度的拍摄角度，更高精度地实现神经辐射场采样与重建。

以下结合附图，详细说明本发明各实施例提供的技术方案。

图1中，光偏转装置110对外接收入射光线，对各个角度进入的入射光线进行调整，并传送给摄像头120，得到各角度对应的采样图像130。

其中，光偏转装置110由光学组件和控制装置构成。其中，光学组件用于光线偏转，可以为透镜，也可以为反射镜；控制装置用于控制光线偏转的角度θ，控制方式包括手动控制或电动控制。

本发明中，以反射镜来说明本实施例中的光偏转装置110。令为反射镜与镜头入射方向的夹角，调整光偏转装置，在不同夹角φ₁,φ₂,...,φ_N条件下依次采样，对应地，摄像头拍摄的图像分别为I₁,I₂,...,I_N，其中，N≥2为采样的次数。

具体地，图1给出了φ＝30^°、φ＝45^°、φ＝60^°三种夹角情况下，入射光线经过光偏转装置110后的采样成像过程。

三种夹角条件下，光偏转装置110获取了三种不同的观测方向的入射光线，经过光偏转装置110转化为平行光线输入到摄像头120中，得到三种不同的采样图像130。

公式(1)中，l_OC为OC连线的长度。

s₁p₁＝KP₁,s₂p₂＝K(RP₂+t) (2)

F_θ(P,d)＝(r,σ) (3)

s₂K^-1p₂＝s₁RK^-1p₁+t (4)

图2示意了三角测量的原理图，其中，C₁与C₂分别为旋转平移变换后的摄像头镜头坐标，坐标点P在两张图像中的像素位置为p₁与p₂，由于噪声的影响，C₁p₁与C₂p₂的连线交点与P不重合，通过最小二乘法能够求得深度s₁与s₂的最优解。

图3是一种可以任选地用来执行本发明技术描述的一个或者多个方面的示例计算设备。计算设备300包括以下一个或者多个子系统：输入设备子系统310，输出设备子系统320，外存储器子系统330，处理器子系统350，主存储器子系统360，应用软件子系统370，通信设备子系统380，以及各子系统之间数据交换的总线子系统，包括I/O总线341，系统总线342和内存总线343。其中，计算设备300的应用软件370中包含执行根据本发明的上述方法的多条程序指令。

输入设备子系统310包括但不限于鼠标312、键盘311、触摸笔、触摸屏或触摸板、扫描器、用于获取图像视频的前置或者后置摄像头314、用于音频输入的麦克风313、各类信号传感器、和其他类型的输入设备。传感器包括并不限于光传感器(CMOS或CCD图像传感器)、加速度传感器、磁传感器、压力传感器或温度传感器。一般地，输入设备子系统由所有可能类型的设备部分或者自由组合所构成，该子系统旨在将外界信息经编码转换后输入到计算设备300中。

输出设备子系统320包括但不限于打印机、传真机、扫描机、用于显示视频图像的显示器321、用于音频输出的扬声器322、和其他类型的输出设备。显示器可包括阴极射线管(CRT)、液晶显示器(LCD)的平板设备、投影设备、或用于产生视频图像的其他设备。一般地，输出设备子系统由所有可能类型的设备部分或者自由组合所构成，该子系统旨在将计算设备300内的信息经转换后输出到用户或者外界环境中。

外存储器子系统330包括但不限于硬盘驱动器、软盘驱动器以及关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒、和其他磁盘332和磁盘控制器331等存储设备。一般地，外存储器子系统由所有可能类型的设备或者自由组合所构成，该子系统旨在将计算设备300内的产生的信息存储到相关设备中，为程序和数据文件提供持久存储。

处理器子系统350包括但不限于处理器核351、高速缓存352、总线接口353、寄存器、和其他处理设备。处理器350可以被中央处理器(CPU)、图形处理器(GPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、微处理器(MPU)、控制器、微控制器或其他电子元件的部分或者自由组合实现。

处理器核351包括但不限于运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)、CUDA核或者它们的自由组合。高速缓存包括直接映射高速缓存、组相联高速缓存和全相联高速缓存，实现处理器核351与系统总线342之间的数据交换。总线接口353与系统总线342相连接。一般地，处理器子系统由所有可能类型的设备或者自由组合所构成，该子系统旨在为计算设备300提供串行或者并行的信息处理能力。

主存储器子系统360包括但不限于在程序执行期间存储指令和数据的主随机存取存储器(SRAM，RAM)和存储有固定指令的只读存储器(ROM、EEP-ROM、PROM、闪存等)。主随机存储器和只读存储器均与内存总线343相连接。一般地，主存储器子系统由所有可能类型的设备或者自由组合所构成，该子系统旨在将计算设备300内的产生的过程信息临时存储到相关设备中。

应用软件子系统370包括但不限于程序数据371、计算机程序372、操作系统373。这些软件模块一般地由处理器350进行执行。在一些实施方式中，应用软件370可以布置为在操作系统上由一个或多个处理器350利用计算机程序370执行指令。一般地，应用软件子系统由所有可能类型的计算机程序的部分或者自由组合所构成，该子系统旨在对处理器350子系统生成的信息进行逻辑加工处理，提供本文中所描述模块中的一些或全部的功能性的数据构造、加工和编程。

通信设备380子系统包括但不限于网络接口381。网络接口381提供与外部网络或者其他计算设备通信的接口及设备。通信设备380子系统可以接入基于通信标准的无线网络，如WiFi、4G、5G、6G，或它们的组合。网络通信通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频、微波、红外、激光或者其它无线介质在内的各种无线介质。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。一般地，通信设备子系统由所有可能类型的设备或者自由组合所构成，该子系统旨在将计算设备300内的信息通过通信网络输出到外部网络或者其他计算设备中。

总线子系统包括但不限于I/O总线341，系统总线342和内存总线343。各类总线通过I/O桥340进行桥接，基于340系统总线342连接总线接口353，内存总线343连接主存储器360，I/O总线341连接输入设备310、输出设备320、外存储器330、以及通信设备380。一般地，总线子系统由所有可能类型的总线设备或者自由组合所构成，该子系统旨在提供计算设备300内各个组件和子系统之间的内部信息通信，总线子系统的实施方式可选择使用多条总线。

计算设备300可具有各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器群，或任何其它数据处理系统或计算设备。计算设备300也可以实现为小尺寸便携或者移动等微型电子设备的一部分，诸如蜂窝电话、数码照相机、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。由于计算机和网络的不断变化的性质，图3中描绘的计算设备300的描述仅旨在作为用于图示一些实施方式的目的的具体示例。计算设备300的许多其它配置可能具有比图3中描绘的计算设备更多或更少的组件。

根据本发明的第三方面，在根据本发明的实施例中，计算设备300被配置为执行根据本发明的一种神经辐射场采样与重建的方法。其中，计算设备300包含执行根据本发明的上述方法的多条程序指令。

本领域技术人员可以理解，为了详细描述本公开的技术特征，本公开提供了大量具体的实施细节，依据部分细节即可对一些实施例进行实践。同时，为了突出本公开的关键技术特征，一些实施例中，并未详尽地示出公知的实施细节。

本公开并不局限于已经描述并在附图中示出的具体特征，应该理解到，本领域技术人员可以依据本公开中所描述优点中的一个或者多个的技术特征，在不脱离其范围进行各种修改和改变，这样的变化或修改的每一个均被视为在本公开描述的实施方式的范围内。

本公开所述的一些实施例可以包括其它实施例中所包括的某些特征，不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。应当理解，本公开的实施方式涉及本文中描述的每个单独的设备、系统和方法，如果所描述的设备、系统和方法不相互矛盾，则两个或多个设备、系统和方法的任何组合都被包括在本公开的范围内。

应当理解的，本公开的示例中的设备模块、单元或组件可以布置在如实施例中所描述的设备中，或者可替换地布置在与示例设备不同的一个或多个设备中。示例中的模块可以组合为一个模块或者拆分为多个子模块。

应当理解的，本公开的示例中的系统可以由计算机系统的处理器或者相同功能的其他装置，以及实施方法或方法元素的组合构成。示例中的装置或方法元素可以自由组合，或者拆解装置为多个子模块，以及转化方法元素为近似元素。

应当理解的，本公开所描述的所有参数、结构和配置均为示例性的，并且实际的参数、结构和配置将取决于一个或多个具体的应用。

在本发明的描述中，需要理解的是，术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，不能理解为对本发明的限制。

本领域技术人员可以理解，在本公开描述的本发明范围内，，可以设想到本公开的其他实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种神经辐射场采样与重建的方法，其特征在于，实现神经辐射场采集及重建的系统包括光偏转装置、摄像头和处理器：

所述光偏转装置调整入射光线的方向，并传送给所述摄像头；

所述摄像头接收调整方向后的所述入射光线，得到不同方向的图像；

所述处理器依据所述不同方向的图像，生成神经辐射场；

所述光偏转装置由光学组件与控制装置构成；所述光学组件为透镜或反射镜；所述控制装置可以控制所述光学组件的偏转角度，控制方式包括手动控制或电动控制；

所述摄像头垂直接收所述光偏转装置传送的光线，由所述控制装置生成不同观测方向的观测图像；

神经辐射场采样与重建的方法为：采样图像不同观测方向的所述观测图像，所述采样图像经过预处理操作，再经由神经网络模型训练后，重建得到神经辐射场；

当光学组件为反射镜时，令为反射镜与镜头入射方向的夹角，调整光偏转装置，在不同夹角φ₁、φ₂，…,φ_N条件下依次采样，对应地，摄像头拍摄的图像分别为I₁、I₂，…,I_N，其中，N≥2为采样的次数；

具体实现过程为：

1)摄像头中心为C，以反射镜中心为原点坐标O，反射镜平面为XY平面，OC连线为Z轴建立XYZ笛卡尔直角坐标系；

公式(1)中，l_OC为OC连线的长度；

s₁p₁＝KP₁，s₂p₂＝K(RP₂+t) (2)

公式(2)中，P₁＝[X₁，Y₁，Z₁]^T与P₂＝[X₂，Y₂，Z₂]^T为空间变换后的三维空间坐标点，K为相机内参矩阵，t为平移矩阵T的平移分量，p₁为原始像素坐标，p₂为经过旋转矩阵R和平移矩阵T后的像素坐标，s₁与s₂分别为p₁和p₂对应比例因子，根据该公式，可以计算出空间变换后新的观测方向；

F_θ(P，d)＝(r，σ) (3)

公式(3)中，θ为网络超参数，F_θ为神经网络映射函数，该函数将三维体素坐标P与观测方向d映射为RGB颜色r与表征体素密度的参数σ；

S₂K^-1p₂＝s₁RK^-1p₁+t (4)

2.根据权利要求1所述的一种神经辐射场采样与重建的方法，其特征在于：

所述预处理操作采用2张或多张采样图像，利用双目或多目视觉的方法进行深度估计以及三维重建。

3.根据权利要求1所述的一种神经辐射场采样与重建的方法，其特征在于：

所述神经辐射场为所述观测方向到所述观测图像的非显式拟合函数，其中，非显式拟合函数为训练好的所述神经网络模型。

4.一种电子设备，包括：

处理器；

以及用于存储计算机可执行指令的存储器；

计算机程序，所述计算机程序存储在所述存储器中，由所述一个或多个处理器执行；

所述计算机程序被所述处理执行时实现如权利要求1-3中任一项所述的一种神经辐射场采样与重建的方法中任一方法。

5.一种计算机可读存储介质，其特征在于：

所述计算机可读存储介质上存储有可实现一种神经辐射场采样与重建的方法的计算机程序；

所述计算机程序被处理执行时实现如权利要求1-3中任一项所述的一种神经辐射场采样与重建的方法中任一方法。