CN117576199A

CN117576199A - 一种驾驶场景视觉重建方法、装置、设备及介质

Info

Publication number: CN117576199A
Application number: CN202311622704.8A
Authority: CN
Inventors: 刘建林; 戚明旭; 代波; 沈莉霞
Original assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Zeekr Intelligent Technology Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Zeekr Intelligent Technology Co Ltd
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-02-20

Abstract

本申请提供一种驾驶场景视觉重建方法、装置、设备及介质。其中，所述方法包括：获取由多个相机组成的相机阵列采集的驾驶场景的多个图像；对采集到的所述多个图像进行分别进行图像语义分割，将驾驶场景分割成多个语义区域；获取所述多个图像分别对应相机的相机位姿；基于所述多个图像和所述多个图像分别对应的相机位姿，利用神经网络模型分别针对所述多个语义区域进行处理，以建立所述驾驶场景的三维表示。

Description

一种驾驶场景视觉重建方法、装置、设备及介质

技术领域

本申请涉及智能驾驶技术领域，尤其涉及一种驾驶场景视觉重建方法、装置、设备及介质。

背景技术

在智能驾驶系统中，通常需要准确地感知其周围环境，包括道路、障碍物、交通标志、行人和其他车辆等。这种感知是通过使用各种传感器(如激光雷达、摄像头、雷达和超声波传感器)来获取环境信息实现的。三维重建技术可以将环境中的三维结构转化为数字三维模型，包括道路、建筑物、地形和其他物体。这有助于自动驾驶系统更好地理解和建模车辆所处的环境。

在一种相关技术中，通常采用基于激光里程计的稠密重建方法，进行驾驶场景的三维重建。但是，因为激光雷达的跨传感器外参、时间同步、安装位置的差异等原因，激光雷达到图像的投影关系不够准确，且成本较高。

发明内容

有鉴于此，本说明书提供以下方法、装置、设备及介质。

在本申请的第一方面，提供一种基于语义分割的驾驶场景视觉重建方法，所述方法包括：

获取由多个相机组成的相机阵列采集的驾驶场景的多个图像；

对采集到的所述多个图像进行分别进行图像语义分割，将驾驶场景分割成多个语义区域；

获取所述多个图像分别对应相机的相机位姿；

基于所述多个图像和所述多个图像分别对应的相机位姿，利用神经网络模型分别针对所述多个语义区域进行处理，以建立所述驾驶场景的三维表示。

在本申请的第二方面，提供了一种基于语义分割的驾驶场景视觉重建装置，所述装置包括：

图像采集单元，用于获取由多个相机组成的相机阵列采集的驾驶场景的多个图像；对采集到的所述多个图像进行分别进行图像语义分割，将驾驶场景分割成多个语义区域；

语义分割单元，用于对采集到的所述多个图像进行分别进行图像语义分割，将驾驶场景分割成多个语义区域；

位姿获取单元，用于获取所述多个图像分别对应相机的相机位姿；

三维重建单元，用于基于所述多个图像和所述多个图像分别对应的相机位姿，利用神经网络模型分别针对所述多个语义区域进行处理，以建立所述驾驶场景的三维表示。

在本申请的第三方面，提供了一种电子设备，包括通信接口、处理器、存储器和总线，所述通信接口、所述处理器和所述存储器之间通过总线相互连接；

所述存储器中存储机器可读指令，所述处理器通过调用所述机器可读指令，执行以下方法：

获取由多个相机组成的相机阵列采集的驾驶场景的多个图像；对采集到的所述多个图像进行分别进行图像语义分割，将驾驶场景分割成多个语义区域；

获取所述多个图像分别对应相机的相机位姿；

在本申请的第四方面，提供了一种机器可读存储介质，所述机器可读存储介质存储有机器可读指令，所述机器可读指令在被处理器调用和执行时，实现以下方法：

获取所述多个图像分别对应相机的相机位姿；

基于所述多个图像和所述多个图像分别对应的相机位姿，利用神经辐射场模型分别针对所述多个语义区域进行处理，以建立所述驾驶场景的三维表示。

本申请通过将语义分割引入三维重建过程，分别针对不同的语义区域，如地面区域进行针对性处理，使三维重建过程能够更准确地理解场景中不同物体或区域的语义信息，生成的三维场景具有更高的语义一致性，能够分辨不同物体并保留其特定特征，如重建的路面的具有更好的完整性和平整性。

附图说明

图1是一示意性的实施例示出的一种基于语义分割的驾驶场景视觉重建方法的流程图；

图2是一示意性的实施例示出的一种基于语义分割的驾驶场景视觉重建方法的图像匹配对构建的示意图；

图3是一示意性的实施例示出的一种基于语义分割的驾驶场景视觉重建方法的相机位姿估计的示意图；

图4是一示意性的实施例示出的一种基于语义分割的驾驶场景视觉重建方法的示意图；

图5是一示意性的实施例示出的一种基于语义分割的驾驶场景视觉重建装置所在电子设备的硬件结构图；

图6是一示意性的实施例示出的一种基于语义分割的驾驶场景视觉重建装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

为了使本技术领域的人员更好地理解本说明书实施例中的技术方案，下面先对本说明书实施例涉及的相关技术，进行简要说明。

自动驾驶是指借助各种传感器、计算机视觉、机器学习、控制系统等技术，使汽车能够在没有人类驾驶员干预的情况下，自主地感知周围环境、做出决策并安全地驾驶。自动驾驶的实现旨在提高交通安全性、交通效率和出行便利性。

三维重建：三维重建是将现实世界中的物体、场景或环境转化为数字三维模型的过程。这个过程通常通过采集传感器数据和使用计算机视觉和计算机图形技术来实现。

语义分割是计算机视觉领域的一项重要任务，其目标是将图像中的每个像素分配到其对应的语义类别中。与普通的图像分割任务不同，语义分割关注的是对图像中不同物体和区域进行像素级别的精确标记，使得每个像素都被分配到表示其所属对象或区域的语义标签上。

相机外参(Camera Extrinsic Parameters)，也称为相机外部参数，是指相机在世界坐标系中的位置和方向，以及相机与世界坐标系之间的转换关系。这些参数描述了相机的位置、姿态和观察方向，以便将相机拍摄的图像中的点映射到世界坐标系中的三维点。

在一种相关技术中，通常采用激光里程计稠密重建方法，进行驾驶场景的三维重建。但是，因为激光雷达的跨传感器外参、时间同步、安装位置的差异等原因，激光雷达到图像的投影关系不够准确，且成本较高。

在另一种相关技术中，通常采用基于Multiview Stereo(MVS，多视图立体重建)的视觉稠密重建算法，进行驾驶场景的三维重建。但是，MVS算法依赖纹理信息，对于弱纹理的区域(如路面)效果不佳。

有鉴于此，本说明书旨在提出一种基于语义分割的驾驶场景视觉重建方法，通过将语义分割引入三维重建过程，分别针对不同的语义区域，如地面区域进行针对性处理，使三维重建过程能够更准确地理解场景中不同物体或区域的语义信息，生成的三维场景具有更高的语义一致性，能够分辨不同物体并保留其特定特征，如重建的路面的具有更好的完整性和平整性。

下面通过具体实施例，并结合具体的应用场景对本申请进行描述。

请参见图1，图1是一示意性的实施例示出的一种基于语义分割的驾驶场景视觉重建方法的流程图。

上述方法可以执行以下步骤：

步骤102：获取目标车辆上部署的由多个相机组成的相机阵列采集的驾驶场景的多个图像；

要对驾驶场景进行三维重建，需要使用合适的传感器采集驾驶场景的数据。通常可以使用激光雷达、摄像头、雷达和超声波传感器等。

使用相机阵列作为传感器，成本较为低廉，并且可以通过与采集到的图像进行比对的方式，直观地对三维重建的结果进行评价。

相机阵列可以由多个相机组成，固定在目标车辆上或驾驶环境中。相机阵列作为采集设备，为算法提供不同空间位置下的多视角图像信号。相机之间可以存在部分共视区域，相机阵列的可视区域相互结合，可以实现目标车辆的360度视场。

通过视觉图像进行的三维重建过程，可以称之为视觉重建。

多个相机以固定的位置和角度进行固定，可以确定相机相对于目标车辆的初始位姿。相机阵列可以由中控统一进行控制，以使相机阵列中的多个相机可以在同一时刻采集图像。

获取到由多个相机组成的相机阵列采集的多个图像后，就可以对其进行处理，以进行驾驶场景的三维重建。

步骤104：对采集到的所述多个图像进行分别进行图像语义分割，将驾驶场景分割成多个语义区域。

图像的语义分割可以将图像中的每个像素分配到其对应的语义类别中。具体在本说明书的场景中，可以将相机阵列采集到的各个图像中的物体和实例进行区分，区分图像中的路面、栏杆、树木、天空、建筑物等。

由于图像中的语义信息指示了图像的内容的一些特定的性质，例如路面的性质可以包括平整，栏杆的性质可以包括长和直等。

通过这些语义信息指示的特定的性质，可以引入额外的信息，来指导视觉重建的过程，使视觉重建得到的三维数字模型更为准确。

本说明书不对图像语义分割的具体方式进行限定，例如，可以采用MaskFormer，Mask2Former和OneFormer等图像分割神经网络模型进行图像语义分割。

步骤106：获取所述多个图像分别对应相机的相机位姿。

相机阵列采集到的图像是二维的图像，是三维的驾驶场景在特定的二维平面上的投影。

要通过二维的图像建立三维的场景，即还原二维图像上的点在三维空间中的位置，只有二维图像上该点的坐标是无法求解的，还需要知道该二维图像对应的相机位姿。

相机位姿是相机的位置和姿态的合称，它描述了世界坐标系与相机坐标系之间的转换关系。利用位姿不同的两个相机采集到的三维空间中的同一点的图像，通过两个相机的位姿，以及该点在两个图像上的位置，就可以推断出该点在三维空间中的位置。

步骤108：基于所述多个图像和所述多个图像分别对应的相机位姿，利用神经网络模型分别针对所述多个语义区域进行处理，以建立所述驾驶场景的三维表示。

当获取到相机阵列采集到的多个图像，以及多个图像分别对应的相机的相机位姿，就可以进行驾驶场景的视觉重建。

可以利用神经网络模型实现三维重建，基于相机阵列采集到的图像建立三维立体模型。可以根据需要选择采用的神经网络模型，本申请不对此进行具体限定。例如，可以采用三维卷积神经网络(3D CNN)，基于点的神经网络(PointNet、PointNet++)，生成对抗网络模型(GANs)，神经辐射场模型(NeRF)等神经网络模型。

并且，上述多个图像已经进行了语义分割，对图像中的内容的语义进行了区分，将图像分割为多个代表不同类型语义内容的语义区域。因此，在进行三维重建时，可以一个或多个语义区域分别进行特定的处理。

本说明书不对进行特定处理的方式和对象进行具体限定。例如，可以对语义区域确定为路面的路面区域额外引入约束，使路面平整，或者对语义区域确定为电线杆的区域引入额外约束，使电线杆直立等。

以上实施例，通过将语义分割得到的先验信息加入到神经网络模型的视觉重建过程中，可以分别针对不同的语义区域，如地面区域进行针对性处理，使三维重建过程能够更准确地理解场景中不同物体或区域的语义信息，生成的三维场景具有更高的语义一致性，能够分辨不同物体并保留其特定特征，如重建的路面的具有更好的完整性和平整性。

在本说明示出的一个示意性的实施例中，多个相机包括目标车辆上部署的多个车载相机，相机阵列包括多个车载相机组成的相机阵列。由于相机阵列中的多个车载相机是以固定的方式，包括固定的位置和固定的朝向，固定在目标车辆上的，因此可以利用车载相机和车体的位姿相对关系，来确定车载相机采集图像时的位姿信息。

已知车载相机和车体的相对关系，求解车载相机的位姿只需知道车载相机采集图像时目标车辆的车体的位姿。

因此，目标车辆上可以部署惯性导航系统(INS)。惯性导航系统是一种不依赖于外部信息、也不向外部辐射能量的自主式导航系统。其基本工作原理是以牛顿力学定律为基础，通过测量载体在惯性参考系的加速度，将它对时间进行积分，且把它变换到导航坐标系中，就能够得到在导航坐标系中的速度、偏航角和位置等信息。

惯性导航系统可以测量任意时刻车体的位姿。车载相机会记录其采集图像时的时刻，通过该时刻可以获取车体的位姿，再通过车体的位姿和车载相机和车体的位姿相对关系，就可以求解车载相机的位姿。

在本说明示出的一个示意性的实施例中，控制系统控制相机阵列中的多个车载相机进行图像采集时，可能会存在一定的时间差，使得不同的车载相机采集图像的时刻存在差异。这种时间差异通常不大，例如50ms以内，但是在车速较快时，仍可能对视觉重建造成较大的影响，产生不可忽视的误差。

因此，相机阵列中的每台车载相机需要分别根据其采集图像的时刻，从惯性导航系统获取车体位姿，再推断该车载相机的位姿。

上述方法得到的相机的位姿可以称为先验位姿，通过相机阵列的先验位姿和采集的图像，可以进行三维重建。但是，先验位姿往往精确度不够，不能满足较高精度的车辆行驶环境稠密视觉重建的需求。因此，可以继续对各个车载相机的位姿进行进一步优化。

在本说明示出的一个示意性的实施例中，可以采用光束平差法进行位姿优化。

首先，可以对采集到的图像进行匹配和特征点提取。

请参见图2，图2是一示意性的实施例示出的一种基于语义分割的驾驶场景视觉重建方法的图像匹配对构建的示意图。

如前所述，利用位姿不同的两个车载相机采集到的三维空间中的同一点的图像，通过两个车载相机的位姿，以及该点在两个图像上的位置，就可以推断出该点在三维空间中的位置。

因此，在不同图像中的位置的确定三维空间中的同一点，是三维重建的重要步骤。

可以先确定存在三维空间中同一点的图像，即存在共视区域的车载相机采集的图像。车载相机与其相邻的车载相机之间应存在共视区域。可以在存在共视区域的相机在同一时刻采集的图像中确定三维空间中的同一点。

例如，在某相机阵列方案中，采用8个相机组成的相机阵列，分别固定于车辆前、左前、左、左后、后、右后、右、右前八个位置。

与前视相机相邻的左前、右前相机分别存在共视区域。可以将前视相机分别与左前、右前的相机在同一时刻采集的图像进行匹配，作为图像对。

此外，相机阵列一次可以采集驾驶场景不同方向的多个图像，相机阵列可以在不同的时刻多次进行图像采集。

也可以将车载相机在相邻时间拍摄的图像，作为图像对。

如图2所示，图2中展示了前视相机、左前相机和右前的相机在t-1，t，t+1三个时刻采集的9张图像中进行配对，得到16个图像对的示意图。

在任意图像对中，可以使用SIFT算法提取三维空间中相同的点，即SIFT特征点。

SIFT(Scale-invariant feature transform，尺度不变特征变换)方法是一种检测、描述、匹配图像局部特征点的算法，通过在尺度空间中检测极值点，提取位置、尺度、旋转不变量，并抽象成特征向量加以描述，最后用于图像特征点的匹配。SIFT特征点对灰度、对比度变换、旋转、尺度缩放等保持不变性，对视角变化、仿射变化、噪声也具有一定的鲁棒性。

基于提取出的SIFT特征点，可以使用光束平差法(Bundle Adjustment)，对相机进行位姿优化。

特别的，针对相机之间的相对位置固定的相机阵列，可以使用固定光束平差法(Rig Bundle Adjustment)，将整个相机阵列作为整体进行位姿优化。

在本说明书的方案中，车载相机之间的相对位置是固定的，当相机阵列中的各车载相机在同一时刻进行图像采集时，得到的图像即可以直接用固定光速平差法进行位姿优化。

当相机阵列采集图像的时间存在差异时，可以对每个时刻的相机的外参进行运动补偿，如前所述，可以采用如下方法使用车体位姿对相机的外参进行运动补偿。

对于相机阵列采集的第i帧图像，选取一个相机a作为参考，相机a的图像对应时间戳的车体位姿T_a。则相机a的标定外参为E_a，不需要补偿。同理可得到相机b的第i帧图像对应的车体位姿T_b,相机外参为E_b。则相机b的外参应该补偿为E′_a＝ΔE·E_b。其中车体位姿可以通过惯性制导系统获取。

进行运动补偿后的相机阵列，也可以看做是车载相机之间的相对位置是固定的相机阵列，可以使用固定光束平差法整体进行位姿优化。

请参见图3，图3是一示意性的实施例示出的一种基于语义分割的驾驶场景视觉重建方法的相机位姿估计的示意图。

惯性制导系统提供了粗略的先验位姿，但其精度不能满足视觉重建的需求。因此可以将先验位姿作为初始值，对相机进行位姿优化，以得到更准确的相机位姿。

具体的，可以利用先验位姿，将上述SIFT算法得到的图像中的特征点进行三角化，建立驾驶场景的精度较低的稀疏重建结果。

建立起稀疏重建结果后，再使用固定光束平差法对相机阵列的相机位姿进行优化。

位姿优化的过程可以采用重投影误差和帧间的相邻位姿进行约束。

重投影误差是指通过位姿优化得到的相机位姿与采集到的图像进行三维重建后，根据特征点在三维重建得到三维模型中的三维空间坐标，以及上述相机位姿，重新计算投影到二维图像上的投影点，和该特征点在采集到的图像上的位置的误差。

先验位姿在短时间内的相邻帧运动中比较准确，因此可以使用先验位姿在相邻帧间的位姿差，与优化后的位姿在相邻帧间的位姿差，两者间的误差作为相邻帧间的相邻位姿约束。

在一个示意性的实施例中，相邻帧间的相邻位姿约束可以使用如下方式进行计算：

若从先验位姿中得到第i和第j帧的相对旋转四元数为相对平移向量为/>设算法估计的第i和第j帧之间的相对旋转四元数为q_ij,相对平移向量为t_ij。

则相邻帧间的相邻位姿约束定义为：其中，v(·)表示取四元数的虚部。其中，/>

在一个示意性的实施例中，可以采用神经辐射场模型作为神经网络模型进行三维重建。

神经辐射场(NeRF，Neural Radiance Field)模型，是一种常见的用于三维重建的算法模型。神经辐射场是一种三维隐式空间建模。三维空间可以被表示为一组可学习且连续的辐射场。神经辐射场模型可以通过一组图像，和这组图像对应的相机位姿，进行视觉重建，实现三维立体模型(神经辐射场)的建立。当建立神经辐射场后，可以基于输入的相机位姿，输出对应的二维图像，实现渲染。

当完成图像语义分割和确定相机的位姿后，可以将完成了语义分割的图像，和相机的位姿作为输入，以模型渲染的图像和真实图像的误差作为损失，通过梯度下降算法优化神经辐射场模型的参数，重建出驾驶场景的三维场景模型，同时进一步调整相机的位姿。

神经辐射场模型作为常见的三维重建模型，本说明书不对其进行赘述。

以下仅对神经辐射场中的一些常见概念进行介绍：

1.像素与射线：每个2D图像像素可以通过相机位姿可以转为一个3D射线r，沿着射线方向可以采样N个3D点p。

2.密度(density)：NeRF模型中用来表示某个采样点p的不透明程度的一个值，用σ表示。

3.渲染方程：其中/>表示光线不被遮挡到达采样点i处的概率，α_i＝1-exp(-σ_iδ_i)表示不考虑遮挡情况下的采样点颜色权重。δ表示两个采样点之间的间隔，c标识采样点颜色。C(r)表示模型渲染出的二维图像中射线r对应的像素点的颜色。

4.累计密度(accumulation)：NeRF渲染方程中整条射线上所有颜色权重之和，用表示。也即C(r)＝Ac_i。

NeRF模型通常采用模型渲染的图像和真实图像的误差，即光度误差作为损失函数，例如平方差光度损失

其中，R为构成渲染的图像的射线r的集合。为渲染的图像中射线r对应的像素点的颜色值，C_gt(r)为真实图像中对应点的颜色值。

引入了图像的语义分割信息后，可以额外加入与语义相关的损失项，来指导神经辐射场模型的三维重建和渲染。

可以使用语义渲染误差，即模型渲染的图像和真实图像中各点语义类别的误差作为损失项，例如可以使用交叉熵误表示语义渲染误差： CE代表交叉熵，/>代表渲染的语义类别，l代表真实图像分割的语义类别。

针对图像中的不同语义区域，也可以引入与语义相关的损失项。

驾驶场景中，图像中通常都包含路面。而路面通常具备如下特点：平整、不透明。对应的图像中构成路面的像素点在三维模型中对应的空间点构成的路面，应该是不透明的、薄的、光滑的面。

神经辐射场模型应当使被语义划分为路面区域的像素点尽量满足上述条件。

具体的，可以采用如下约束来实现：

路面上的点不透明，则在渲染时累计密度A应接近1，因此可以采用如下路面密度损失：L_{road_acc}＝1-1/N_R∑_r∈RA_r。

路面在三维模型中应该为无限薄的曲面，那么构成路面的点对应的射线上的采样点，沿着射线的密度分布的熵应该最小化，即密度尽量集中，因此可以采用路面密度分布熵作为损失项：其中/>

路面应该是光滑的曲面，即路面每处的法向量和其他点的法向量应大致接近，距离越近的点，法向量越接近。并且路面大致应该是接近水平的，法向量朝上。在优化开始时，由于路面尚未重建，无法确定哪些是路面点。因此可以先将像素点对应的射线的所有采样点的法向量朝上作为约束条件，对应的损失项为：其中，采样点的法向量为密度关于空间位置的导数/>P0是R的所有采样点集合。

在进行一定的优化步数后，例如500步或1000步后，每个像素都有了粗略的初始深度估计，可以只保留射线中深度值对应的一个采样点计算光滑性约束,该采样点大致落在地面附近，通过这种方式可以减少大量的二阶梯度计算。

路面光滑损失定义可以为：其中P1是通过渲染的深度计算出的路面附近的采样点集合,N_P1是其点的数量。P1′是将P1随机打乱的点集合。ω_ij＝exp(-0.5*||p_i-p_j||²/d²)为每个点对之间的约束强度，其中p_i∈P1,p_j∈P1′，d是人为设定的超参数，本实施例可以取100。

综上，路面光滑损失可以为：

除了地面外，天空也是一个具有明显特征的区域。在相机采集到的图片中天空可以看做无限远，也即，在神经辐射场中，天空对应的射线上的采样点的密度为0。天空像素对应的射线r∈S的累计权重为A_r为0。

因此可以设定天空密度损失：L_sky＝1/N_s∑_r∈sA_r。

天空区域中的像素点对应的射线，可以采用朝向编码(Direction Encoding)和单独的多层感知机(MLP)建模其颜色C_sky。最终天空处的渲染颜色值可以由整体模型的渲染颜色和天空模型渲染的颜色加权得到C_r＝A_rC_whole+(1-A_r)C_sky。

综上，对于包含天空区域和地面区域的图像进行视觉重建时，神经辐射场模型的损失函数L可以由平方差光度损失L_rgb，语义渲染误差L_semantic，路面密度损失L_{road_acc}，路面密度分布熵L_{road_entropy}，路面光滑损失L_{road_entropy}，和天空密度损失L_sky等损失项构成。

L＝L_rgb+L_semantic+L_{road_acc}+L_{road_entropy}+L_{road_smooth}+L_sky

在本说明示出的一个示意性的实施例中，由于相邻相机的共视区域可能较小，在估计位姿阶段，由相机标定的外参可能不够准确，将会导致前后视相机的轨迹存在一个系统性的偏移。

为了应对这种潜在的风险，在NeRF模型进行三维重建的过程中，优化器可以对每个相机的位姿进行单独优化。

具体的，由于NeRF模型利用光度误差作为损失项，当前后视相机位姿存在偏差时会得到与观测不一致的渲染结果，此时优化器会调整相机的位姿以达到全局一致。

请参见图4，图4是一示意性的实施例示出的一种基于语义分割的驾驶场景视觉重建方法的示意图。

以下结合图4介绍本说明示出的一个示例性的实施例。

基于语义分割的驾驶场景重建方法可以分为以下几个步骤：

预处理阶段：包括对车载相机阵列采集到的图像进行图像语义分割，相邻图像中特征点提取和匹配；

位姿估计阶段：基于惯性导航系统获取的初始位姿，对特征点进行三角化，构建低精度的稀疏三维重建，并通过固定光束平差法进行相机位姿优化。

三维重建阶段：将图像语义引入神经辐射场模型，结合不同语义区域的特征对神经辐射场模型的参数和相机位姿参数进行联合优化。

生成结果阶段：通过神经渲染技术，通过神经辐射场模型将神经辐射场渲染成深度图，并结合图像语义分割对动态物体进行过滤，然后把深度图反投影成三维点云。

请参见图5，图5是一示意性的实施例示出的一种基于语义分割的驾驶场景视觉重建装置所在电子设备的硬件结构图。在硬件层面，该设备包括处理器502、内部总线504、网络接口506、内存508以及非易失性存储器510，当然还可能包括其他业务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现，比如由处理器502从非易失性存储器510中读取对应的计算机程序到内存508中然后运行。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参见图6，图6是一示意性的实施例示出的一种基于语义分割的驾驶场景视觉重建装置的框图。

上述基于语义分割的驾驶场景视觉重建装置可以包括：

图像采集单元610，用于获取由多个相机组成的相机阵列采集的驾驶场景的多个图像；对采集到的所述多个图像进行分别进行图像语义分割，将驾驶场景分割成多个语义区域；

语义分割单元620，用于对采集到的所述多个图像进行分别进行图像语义分割，将驾驶场景分割成多个语义区域；

位姿获取单元630，用于获取所述多个图像分别对应相机的相机位姿；

三维重建单元640，用于基于所述多个图像和所述多个图像分别对应的相机位姿，利用神经网络模型分别针对所述多个语义区域进行处理，以建立所述驾驶场景的三维表示。

在一个实施例中，所述多个相机包括目标车辆上部署的多个车载相机，所述相机阵列包括所述多个车载相机组成的相机阵列。

在一个实施例中，所述位姿获取单元630，具体用于：

基于所述目标车辆的搭载的惯性导航系统确定的车载相机的位置，以及所述多个车载相机的安装角度，确定所述多个图像分别对应的车载相机的相机位姿。

在一个实施例中，所述多个车载相机采集图像的时刻存在差异；

所述位姿获取单元630，具体用于：

分别将所述多个车载相机中的每个车载相机作为目标相机，获取所述目标相机采集图像的时刻，从所述惯性导航系统获取所述时刻对应的所述目标相机的位置。

在一个实施例中，所述装置还包括：

位姿优化单元650，用于分别将所述多个车载相机中的每个车载相机作为目标相机，提取所述目标相机采集的图像和与所述目标相机存在共视区域的车载相机采集的图像的SIFT特征点，基于所述SIFT特征点，使用光束法平差对所述目标相机进行位姿优化。

在一个实施例中，所述相机阵列采集了多个时刻的驾驶场景的多个图像；

所述位姿优化单元650，具体用于：

分别将所述多个车载相机中的每个车载相机作为目标相机，获取所述目标相机在目标时刻的相机位姿和在与目标时刻相邻的时刻的相机位姿；确定所述目标相机在所述相邻的时刻相对于所述目标时刻的相邻位姿；

将所述相邻位姿作为所述光束平差法的约束，对所述目标相机进行位姿优化，以使进行位姿优化后的目标相机的相邻位姿变化最小。

在一个实施例中，所述神经网络模型包括神经辐射场模型；利用神经辐射场模型针对语义区域进行处理时，将语义区域为路面区域的像素点构成的路面确定为不透明的，薄的，光滑的面。

在一个实施例中，所述多个语义区域还包括天空区域。

在一个实施例中，利用神经辐射场模型针对语义区域进行处理时，将语义区域为天空区域的像素点确定为无限远的点。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例只是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、家具或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、家具或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、家具或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种基于语义分割的驾驶场景视觉重建方法，其特征在于，所述方法包括：

获取多个相机组成的相机阵列采集的驾驶场景的多个图像；

对采集到的所述多个图像进行分别进行图像语义分割，将驾驶场景分割成多个语义区域；所述多个语义区域至少包括路面区域；

获取所述多个图像分别对应相机的相机位姿；

2.根据权利要求1所述的方法，其特征在于，

所述多个相机包括目标车辆上部署的多个车载相机，所述相机阵列包括所述多个车载相机组成的相机阵列。

3.根据权利要求2所述的方法，其特征在于，

所述获取所述多个图像分别对应的车载相机的相机位姿，包括：

基于所述目标车辆搭载的惯性导航系统确定车载相机的位置，以及所述多个车载相机的安装角度，确定所述多个图像分别对应的车载相机的相机位姿。

4.根据权利要求3所述的方法，其特征在于，所述多个车载相机采集图像的时刻存在差异；

所述基于所述目标车辆的搭载的惯性导航系统确定的车载相机的位置，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

分别将所述多个车载相机中的每个车载相机作为目标相机，提取所述目标相机采集的图像和与所述目标相机存在共视区域的车载相机采集的图像的SIFT特征点，基于所述SIFT特征点，使用光束法平差对所述目标相机进行位姿优化。

6.根据权利要求5所述的方法，其特征在于，

所述相机阵列采集了多个时刻的驾驶场景的多个图像；

所述使用光束法平差对所述目标相机进行位姿优化，包括：

7.根据权利要求1所述的方法，其特征在于，

所述神经网络模型包括神经辐射场模型；

利用神经辐射场模型针对语义区域进行处理时，将语义区域为路面区域的像素点构成的路面确定为不透明的，薄的，光滑的面。

8.根据权利要求7所述的方法，其特征在于，

所述多个语义区域还包括天空区域。

9.根据权利要求8所述的方法，其特征在于，

利用神经辐射场模型针对语义区域进行处理时，将语义区域为天空区域的像素点确定为无限远的点。

10.一种基于语义分割的驾驶场景视觉重建装置；其特征在于，所述装置包括：

11.一种存储介质，其特征在于，其上存储有计算机程序，该计算机程序执行时实现如权利要求1-9中任一项所述方法的步骤。

12.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-9中任一项所述的方法。