CN116597097B

CN116597097B - 用于自动驾驶的三维场景重建方法、电子设备和存储介质

Info

Publication number: CN116597097B
Application number: CN202310864387.4A
Authority: CN
Inventors: 徐勋农; 莘祯睿; 周光; 刘轩
Original assignee: DeepRoute AI Ltd
Current assignee: DeepRoute AI Ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-12-22
Anticipated expiration: 2043-07-14
Also published as: CN116597097A

Abstract

本申请公开了一种用于自动驾驶的三维场景重建方法。该方法包括获取自动驾驶的多个图像，其中所述多个图像是时序上连续的时序数据；将所述多个图像用作输入，对神经网络进行训练，得到训练后的神经网络，从而学习自动驾驶中物体的辐射场模型；获取自动驾驶的目标图像，以使用所述训练后的神经网络，对所述目标图像进行三维重建。本申请还公开了电子设备和存储介质。本申请实现了连续的时序数据的三维场景重建。

Description

用于自动驾驶的三维场景重建方法、电子设备和存储介质

技术领域

本申请的所公开实施例涉及自动驾驶技术领域，且更具体而言，涉及一种用于自动驾驶的三维场景重建方法、电子设备和存储介质。

背景技术

使用神经辐射场对三维场景进行重建和渲染是近几年计算机视觉的一个重要研究方向，它使用神经网络描述三维场景，并通过体渲染方法从重建的三维场景中合成图像数据。当前的主要方案：主流的方案以Nerf（Neural Radiance Fields，三维重建技术）为代表，其原理是利用神经网络来对物体进行建模，从而实现高质量的三维重建，即可以将物体看作是一个辐射场，通过对辐射场的建模实现三维重建。目前，通过体渲染方法重建的三维场景所使用的数据多数是以待重建的物体为中心进行360度拍摄的图像，进行了一些多尺度数据的场景重建，但仍然未考虑到关于连续的时序数据的场景重建。

发明内容

根据本申请的实施例，本申请提出一种用于自动驾驶的三维场景重建方法、电子设备和存储介质，以实现连续的时序数据的三维场景重建。

本申请的第一方面公开了用于自动驾驶的三维场景重建方法，包括：获取自动驾驶的多个图像，其中所述多个图像是时序上连续的时序数据；将所述多个图像用作输入，对神经网络进行训练，得到训练后的神经网络，从而学习自动驾驶中物体的辐射场模型；获取自动驾驶的目标图像，以使用所述训练后的神经网络，对所述目标图像进行三维重建。

在一些实施例中，所述将所述多个图像用作输入，包括：基于所述多个图像时序上连续，确定在所述多个图像中每个图像中，将所述物体在相应的三维场景中的点与所述物体对应的射线原点之间的距离用作输入，以使得所述物体的辐射场模型表示为与所述距离相关的体密度函数。

在一些实施例中，所述将所述多个图像用作输入，进一步包括：对于所述多个图像中每个图像，将所述物体的位置用作输入，以使得所述物体的辐射场模型所表示的所述体密度函数还与所述位置相关。在一些实施例中，

在一些实施例中，所述体密度函数的变量包括以所述距离为变量的距离网络函数，从而所述体密度函数表示与所述距离相关；其中，所述距离网络函数用于描述从不同的所述距离观察所述三维场景时的预设效应。

在一些实施例中，所述体密度函数的变量还包括仅与所述物体的位置相关的中间网络函数，其中所述中间网络函数以位置网络函数为变量，所述位置网络函数以所述距离为变量，从而所述体密度函数还表示与所述位置相关。

在一些实施例中，所述使用所述训练后的神经网络，对所述目标图像进行三维重建，包括：使用体渲染方式，对所述目标图像进行三维渲染，从而实现三维重建，其中所述体渲染方式与所述体密度函数的积分与所述距离网络函数相关。

在一些实施例中，所述物体的辐射场模型还表示为与所述物体的位置和所述物体在三维空间中的点的方向相关的色彩函数。

在一些实施例中，所述使用所述训练后的神经网络，对所述目标图像进行三维重建，包括：将所述目标图像用作输入，通过所述训练后的神经网络，计算所述物体在所述目标图像中每个点的辐射强度；利用所述物体在所述目标图像中每个点的辐射强度，重建所述物体的三维模型。

本申请第三方面公开了一种电子设备，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现第一方面中所述的用于自动驾驶的三维场景重建方法。

本申请第四方面公开了一种非易失性计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现第一方面中所述的用于自动驾驶的三维场景重建方法

本申请的有益效果有：通过获取自动驾驶的多个图像，其中多个图像是时序上连续的时序数据，将多个图像用作输入，对神经网络进行训练，得到训练后的神经网络，并学习自动驾驶中物体的辐射场模型，得到训练后的神经网络，进一步地利用训练后的神经网络对目标图像进行三维重建，实现了连续的时序数据的三维场景重建。

附图说明

下面将结合附图及实施方式对本申请作进一步说明，附图中：

图1是本申请实施例的用于自动驾驶的三维场景重建方法的流程示意图；

图2是本申请实施例的电子设备的结构示意图；

图3是本申请实施例的非易失性计算机可读存储介质的结构示意图。

具体实施方式

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。另外，本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

为使本领域的技术人员更好地理解本申请的技术方案，下面结合附图和具体实施方式对本申请的技术方案做进一步详细描述。

请参阅图1，图1是本申请实施例的用于自动驾驶的三维场景重建方法的流程示意图。该方法的执行主体可以是有计算功能的电子设备，例如，微型计算机、服务器，以及笔记本电脑、平板电脑等移动设备等。

需注意的是，若有实质上相同的结果，本申请的方法并不以图1所示的流程顺序为限。

在一些可能的实现方式中，该方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现，如图1所示，该方法可以包括如下步骤：

S11：获取自动驾驶的多个图像，其中多个图像是时序上连续的时序数据。

图像即图像数据，可以是自动驾驶车辆在行驶过程中采集到的数据，例如是自动驾驶车辆是沿着道路行驶时拍摄的多个视角的图像，均包括行驶场景中的任一物体，其中行驶场景由远及近，再到远，例如，可以通过传统的SFM（structure from motion，运动结构法则）方法从图像中估计相机的位姿和内参，并获取稀疏点云特征用于场景重建的深度指导。多个图像是时序上连续的时序数据，即可以自动驾驶车辆是沿着道路行驶时拍摄的多个连续时序对应的多个视角的图像。

S12：将多个图像用作输入，对神经网络进行训练，得到训练后的神经网络，从而学习自动驾驶中物体的辐射场模型。

将多个图像用作输入，即将时序上连续的时序数据输入网络，对神经网络进行训练，即输入层神经元接收输入信息，传递给中间层神经元,最后传递到输出层神经元,由输出层输出信息处理结果的过程，得到训练后的神经网络，进一步学习自动驾驶中物体的辐射场模型，并将其表示为相关函数，例如辐射场模型（Neural Radiance Field Model），利用Nerf模型输出的结果，可以输出一个对三维场景的拍照，即从任意角度拍摄的照片。

S13：获取自动驾驶的目标图像，以使用训练后的神经网络，对目标图像进行三维重建。

获取自动驾驶的目标图像，即可以是自动驾驶车辆在行驶过程中采集到的计划用于进行三维场景重建的一段连续图像，以使用训练后的神经网络，即完成自动驾驶中物体的辐射场模型学习的训练后的神经网络，对目标图像进行三维重建，得重建后的三维场景，其中，重建后的三维场景可以用于合成新的图像数据。

在本实施例中，获取自动驾驶的多个图像，其中多个图像是时序上连续的时序数据，将多个图像用作输入，对神经网络进行训练，得到训练后的神经网络，并学习自动驾驶中物体的辐射场模型，得到训练后的神经网络，进一步地利用训练后的神经网络对目标图像进行三维重建，实现了连续的时序数据的三维场景重建。

在一些实施例中，将多个图像用作输入，包括：基于多个图像时序上连续，确定在多个图像中每个图像中，将物体在相应的三维场景中的点与物体对应的射线原点之间的距离用作输入，以使得物体的辐射场模型表示为与距离相关的体密度函数。

基于多个图像时序上连续，确定在多个图像中每个图像中，物体在相应的三维场景中的点与物体对应的射线原点之间的距离，例如一图像中物体在相应的三维场景中的像素点与该物体对应的射线原点（辐射点）之间的距离，射线原点可以是自动驾驶车辆上相应的传感器。进一步地，将物体在相应的三维场景中的点与物体对应的射线原点之间的距离用作输入，以使得物体的辐射场模型表示为与距离相关的体密度函数，例如表示的体密度函数

具体地，在一些实施例中，将多个图像用作输入，进一步包括：对于多个图像中每个图像，将物体的位置用作输入，以使得物体的辐射场模型所表示的体密度函数还与位置相关。

对于多个图像中每个图像，即可以是自动驾驶车辆沿着道路行驶时拍摄的多个连续时序对应的多个视角的图像，将物体的位置用作输入，例如将每个图像中的物体位置坐标信息作为输入，以使得物体的辐射场模型所表示的体密度函数还与位置相关，例如表示的位置函数，其中，o代表射线的起点向量，d代表射线的方向向量，t代表距离（t为非负标量），射线上的任意一点在三维场景中的位置可用函数表达式进行描述。

在一些实施例中，体密度函数的变量包括以距离为变量的距离网络函数，从而体密度函数表示与距离相关；其中，距离网络函数用于描述从不同的距离观察三维场景时的预设效应。

体密度函数的变量包括以距离为变量的距离网络函数，例如距离函数，其中，/>距离函数，t代表距离（t为非负标量），/>为网络参数，进而使得体密度函数表示与距离相关。其中，距离网络函数用于描述从不同的距离观察三维场景时的预设效应，例如，距离网络函数可以用于描述从不同的距离观察三维场景时的近大远小等的效应。

在一些实施例中，体密度函数的变量还包括仅与物体的位置相关的中间网络函数，其中中间网络函数以位置网络函数为变量，位置网络函数以距离为变量，从而体密度函数还表示与位置相关。

体密度函数的变量还包括仅与物体的位置相关的中间网络函数，例如位置相关中间网络函数，其中，z代表只和位置相关的中间网络，/>为位置函数，t代表距离（t为非负标量），/>为网络参数，即中间网络函数以位置网络函数为变量，位置网络函数以距离为变量，从而体密度函数还表示与位置相关，也就是说，以/>为输入。

进一步地，可以理解地，代表三维场景中的体密度，/>代表观测距离，和传统的Nerf不同，它不仅是位置的函数，也是/>的函数，将连着合并输入，既描述了三维场景的平移特性，又描述了观察距离不同带来的缩放效应，其中网络的参数为/>。也就是说，根据自动驾驶时序以及场景由远及近的特性，显式将距离加入到网络的输入中。具体地，计算每个目标图像三维场景中的点和射线原点的距离，将对应的距离和标志位置的坐标信息传至下游的网络。

在一些实施例中，使用训练后的神经网络，对目标图像进行三维重建，包括：使用体渲染方式，对目标图像进行三维渲染，从而实现三维重建，其中体渲染方式与体密度函数的积分与距离网络函数相关。

将多个图像用作输入，对神经网络进行训练，得到训练后的神经，网络，并学习自动驾驶中物体的辐射场模型，得到训练后的神经网络，进而使用训练后的神经网络，对目标图像进行三维重建。对目标图像进行三维重建，使用体渲染方式，即体积渲染方式，体积渲染是一种用于显示三维离散采样数据集（通常是三维标量场）的二维投影技术，通过对目标图像进行三维渲染，从而实现三维重建，其中体渲染方式与体密度函数的积分与距离网络函数相关，例如体渲染积分公式如下：

（1）

其中，T表示射线从原点到当前物体在相应的三维场景中的点位置r的透射率，即其可以进一步通过对体密度的积分以实现，如下：

（2）

c代表RGB通道的值，即像素值，像素值，其输入为位置相关的函数/>方向向量d以及网路参数为/>。

进一步地，在本实施例中，通过使用了距离函数作为体密度函数的输入之后，可以将以上计算进行简化，得到体渲染积分公式如下：

（3）

具体地，可以利用，对目标图像进行三维渲染，从而实现三维重建，其中，体密度函数/>是将整个场景缩放至一个直径为1的球体后代表的体密度函数。距离函数/>体现了不同的观察视角带来的缩放效应和其他直接与距离相关的效应，例如空气对光线的吸收和透射率等。

在一些实施例中，物体的辐射场模型还表示为与物体的位置和物体在三维空间中的点的方向相关的色彩函数。

将多个图像用作输入，对神经网络进行训练，得到训练后的神经网络，从而学习自动驾驶中物体的辐射场模型，其中，物体的辐射场模型还表示为与物体的位置和物体在三维空间中的点的方向相关的色彩函数，例如，与位置和方向向量（观察一个三维空间中的点的方向）相关的色彩函数，例如RGB函数，即计算机颜色函数，可返回代表RGB颜色值的整数，从而更好地实现三维场景重建。

在一些实施例中，使用训练后的神经网络，对目标图像进行三维重建，包括：将目标图像用作输入，通过训练后的神经网络，计算物体在目标图像中每个点的辐射强度；利用物体在目标图像中每个点的辐射强度，重建物体的三维模型。

将目标图像用作输入，自动驾驶的目标图像，即可以是自动驾驶车辆在行驶过程中采集到的计划用于进行三维场景重建的一段连续图像，进而通过训练后的神经网络，计算物体在目标图像中每个点的辐射强度，即神经网络每次输入一组位姿，可以对应得到一组辐射场值，使用目标图像中对应的三维点的位姿，通过训练后的神经网络，可以得到完整的辐射场，即物体在目标图像中每个点的辐射强度。利用物体在目标图像中每个点的辐射强度，重建物体的三维模型，即通过对辐射场的建模来实现三维重建，进而完成相关连续的时序数据的三维场景重建，并可以通过体渲染方法从重建的三维场景中合成图像数据。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

请参阅图2，图2是本申请实施例的电子设备的结构示意图。电子设备20包括相互耦接的存储器21和处理器22，处理器22用于执行存储器21中存储的程序指令，以实现上述的用于自动驾驶的三维场景重建方法实施例的步骤。在一个具体的实施场景中，电子设备20可以包括但不限于：微型计算机、服务器，在此不做限定。

具体而言，处理器22用于控制其自身以及存储器21以实现上述用于自动驾驶的三维场景重建方法实施例的步骤。处理器22还可以称为CPU（Central Processing Unit，中央处理单元），处理器22可能是一种集成电路芯片，具有信号的处理能力。处理器22还可以是通用处理器、数字信号处理器（Digital Signal Processor, DSP）、专用集成电路（Application Specific Integrated Circuit, ASIC）、现场可编程门阵列（Field-Programmable Gate Array, FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器22可以由集成电路芯片共同实现。

请参阅图3，图3为本申请实施例的非易失性计算机可读存储介质的结构示意图。非易失性计算机可读存储介质30用于存储计算机程序301，计算机程序301在被处理器执行时，例如被上述图2实施例中的处理器22执行时，用于实现上述用于自动驾驶的三维场景重建方法实施例的步骤。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和相关设备，可以通过其它的方式实现。例如，以上所描述的相关设备实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信断开连接可以是通过一些接口，装置或单元的间接耦合或通信断开连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

所属领域的技术人员易知，可在保持本申请的教示内容的同时对装置及方法作出诸多修改及变动。因此，以上公开内容应被视为仅受随附权利要求书的范围的限制。

Claims

1.一种用于自动驾驶的三维场景重建方法，其特征在于，包括：

获取自动驾驶的多个图像，其中所述多个图像是时序上连续的时序数据；

将所述多个图像用作输入，对神经网络进行训练，得到训练后的神经网络，从而学习自动驾驶中物体的辐射场模型，其中基于所述多个图像时序上连续，确定在所述多个图像中每个图像中，将所述物体在相应的三维场景中的点与所述物体对应的射线原点之间的距离用作输入，以使得所述物体的辐射场模型表示为与所述距离相关的体密度函数；

获取自动驾驶的目标图像，以使用所述训练后的神经网络，对所述目标图像进行三维重建；

所述体密度函数的变量包括以所述距离为变量的距离网络函数，从而所述体密度函数表示与所述距离相关，其中，所述距离网络函数用于描述从不同的所述距离观察所述三维场景时的缩放效应；

所述体密度函数的变量还包括仅与位置相关的中间网络函数，其中所述中间网络函数以位置网络函数为变量，所述位置网络函数以所述距离为变量，从而所述体密度函数还表示与所述位置相关。

2.根据权利要求1所述的方法，其特征在于，所述将所述多个图像用作输入，进一步包括：

对于所述多个图像中每个图像，将所述物体的位置用作输入，以使得所述物体的辐射场模型所表示的所述体密度函数还与所述位置相关。

3.根据权利要求1所述的方法，其特征在于，所述使用所述训练后的神经网络，对所述目标图像进行三维重建，包括：

使用体渲染方式，对所述目标图像进行三维渲染，从而实现三维重建，其中所述体渲染方式与所述体密度函数的积分与所述距离网络函数相关。

4.根据权利要求1所述的方法，其特征在于，所述物体的辐射场模型还表示为与所述物体的位置和所述物体在三维空间中的点的方向相关的色彩函数。

5.根据权利要求1所述的方法，其特征在于，所述使用所述训练后的神经网络，对所述目标图像进行三维重建，包括：

将所述目标图像用作输入，通过所述训练后的神经网络，计算所述物体在所述目标图像中每个点的辐射强度；

利用所述物体在所述目标图像中每个点的辐射强度，重建所述物体的三维模型。

6.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现如权利要求1至5中任一项所述的用于自动驾驶的三维场景重建方法。

7.一种非易失性计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序指令，所述程序指令在被处理器执行时，用于实现如权利要求1至5中任一项所述的用于自动驾驶的三维场景重建方法。