CN116503825A

CN116503825A - 自动驾驶场景下基于图像与点云融合的语义场景补全方法

Info

Publication number: CN116503825A
Application number: CN202310366203.1A
Authority: CN
Inventors: 王好谦; 秦明汉; 刘奕凡; 李沛昊; 李洋
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-28

Abstract

一种自动驾驶场景下基于图像与点云融合的语义场景补全方法，包括如下步骤：将图像与点云数据作为输入，经过搭建的语义场景补全网络，将图像与点云信息进行融合，并通过最小化目标损失函数对网络进行训练；将来自采集设备的图像与点云数据输入到训练好的网络中，得到场景中各个物体的语义分割结果以及场景补全结果。本方法能够提升自动驾驶场景下语义场景补全任务的分类正确率和定位准确率，还具有成本低，鲁棒性高，操作便捷等优点。

Description

自动驾驶场景下基于图像与点云融合的语义场景补全方法

技术领域

本发明涉及计算机视觉与自动驾驶领域，特别涉及一种自动驾驶场景下基于图像与点云融合的语义场景补全方法。

背景技术

自动驾驶(Automatically Driving)是目前计算机视觉领域一个重要的应用领域。然而，在自动驾驶过程中，由于路况复杂，车辆之间存在严重的遮挡问题，对环境中难以直接观测到的车辆行人部分进行补全就显得尤为重要。因此，需要语义场景补全技术对该问题进行针对性解决。随着自动驾驶的技术发展，语义场景补全技术已成为目前自动驾驶过程中一项最关键技术之一。利用先进的计算机视觉技术，融合点云和图像两种信息模态，完成语义场景补全是目前自动驾驶领域需要解决的一大问题。

语义场景补全技术，就是一种利用观测到部分信息，对整个场景的完整信息进行补全的技术。该技术的目标是获得对环境的完整几何和语义理解。该技术将点云语义分割与体素场景补全任务进行了耦合，实现了场景语义化的同时，补充了物体的完整几何形状。利用物体的语义信息，车辆驾驶员可以更好的获取周围物体的类型；利用物体的完整几何形状信息，车辆驾驶员可以获取车辆与物体之间的空间几何位置关系，进而安全驾驶。过去十年以来，作为一项有前途的技术，自动驾驶在全球范围内引起了人们的兴趣。特别是在深度学习的出现和急速发展之后，计算机辅助自动驾驶技术的革命正式开始并在许多汽车公司的实际应用中产生巨大效益。

在实际驾驶场景中，对周围近处遮挡物体的位置与形状，车辆驾驶员往往可以靠经验迅速准确的做出判断。但是对于远处遮挡物体，特别是在快速行驶的环境下(如：高速公路上)以及恶劣天气下(如：雨天、雾天)，车辆驾驶员往往很难迅速准确的进行决策。这可能导致严重的人身安全问题。基于图像的方法，可以通过高精度的摄像头，对远处人眼难以辨认的物体进行准确的语义分割，但是难以获取位置信息，并且容易受到环境光照条件的影响；基于点云的方法，可以通过高线数的雷达，对周围的物体准确测距，得到精确的深度信息，但是对于被遮挡的物体无能为力。基于以上背景信息，可以得出结论，目前的语义场景补全仍是一项很有应用价值并且极具挑战的任务，主要难点如下：

1)受恶劣天气及光照影响，基于图像的语义场景补全方法难以获取足够的视觉信息，利用图像对场景进行补全本质上是一个病态估计问题，无法得到高性能的结果。

2)受到遮挡影响，基于点云的方法难以对远处的物体进行准确的估计，同时基于点云的方法缺少RGB颜色信息，无法对物体类型进行准确识别。

3)在自动驾驶场景下，恶劣天气以及路况中的突发情况都不可忽视，需要高精度，高性能的方法才能保证人员安全。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的主要目的在于克服上述背景技术的缺陷，提供一种自动驾驶场景下基于图像与点云融合的语义场景补全方法，提升语义场景补全任务的分类正确率和定位准确率。

为实现上述目的，本发明采用以下技术方案：

一种自动驾驶场景下基于图像与点云融合的语义场景补全方法，包括如下步骤：

将图像与点云数据作为输入，经过搭建的语义场景补全网络，将图像与点云信息进行融合，并通过最小化目标损失函数对网络进行训练；

将来自采集设备的图像与点云数据输入到训练好的网络中，得到场景中各个物体的语义分割结果以及场景补全结果。

进一步地：

所述图像与点云数据输入前经过预处理以减少噪音的影响。

所述图像与点云数据输入前经过最远点采样，对点云数据进行降采样处理；优选地，所述最远点采样包括如下步骤：

1)读取点云集合P＝{p₁,2,…,_n}；

2)随机选择一个点p_s；

3)在集合P-p_s中找到与p_s最远的点p_i；

4)在集合P-p_s-p_i中找到与p_s,i最远的点p_l；

以此类推，直到在集合中取预定k个点。

所述语义场景补全网络为基于图像点云融合的深度网络模型，包含图像语义特征提取模块、图像点云映射模块、点云深度补全模块以及语义场景补全模块；其中，所述图像语义特征提取模块将输入的图像进行残差学习网络和全连接网络的处理得到图像的语义分割特征；所述图像点云映射模块通过对三维空间中每个点云进行投射变换，将三维空间的点云投影到图像的二维空间，将三维空间下的点云数据与二维空间下的图像数据建立连接形成耦合；所述点云深度补全模块生成稠密点云并将语义信息与点云进行融合；所述语义场景补全模块根据带有语义信息的点云，生成稠密的体素化的具有语义的场景补全结果。

所述图像语义特征提取模块在网络中加入局部残差学习和全局跳跃连接。

所述图像点云映射模块利用相机的内外参矩阵将三维空间的点云投影到图像的二维空间，其中，先利用外参矩阵，将点云对应其相机坐标系，然后利用内参矩阵，将点云从三维空间变换到二维空间。

所述点云深度补全模块根据原始图像信息以及稀疏的原始点云信息，利用所述图像点云映射模块，将两者信息进行对应，进而通过图像上稠密的像素，对每个像素进行深度估计，从而生成图像空间上的稠密点云，并将语义信息与点云进行融合。

在所述深度估计的过程中设置了两分支的架构，一个分支由图像信息进行主导，另一个分支由深度信息进行主导；通过图像信息主导的分支输出一个稠密的深度图，然后将这个稠密深度图作为输入通过深度信息主导的分支，对预测得到的深度图进行优化和校准；根据所述图像语义特征提取模块获得的图像上每一个点的类别特征，将图像特征与深度信息拼接，然后经过所述图像点云映射模块的逆运算，将得到的稠密深度图投影回点云的三维空间，获得带有语义信息的点云数据。

所述语义场景补全模块基于体素网络，通过三维卷积神经网络，使用带有跳跃连接的编码器-解码器结构，以提取全局信息或对场景补全进行信息的补充；在预测过程中，输出多尺度的预测结果，并从粗到细进行优化，得到最终的语义分割结果和体素化场景。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序由处理器执行时实现所述的语义场景补全方法。

本发明与现有技术对比的有益效果包括：

本发明提出了一种自动驾驶场景下基于图像与点云融合的语义场景补全方法，显著地提升了深度学习技术在自动驾驶场景下语义场景补全任务的分类正确率和定位准确率；本发明能够作为自动驾驶辅助系统的关键技术之一，所提出的基于图像与点云融合的语义场景补全方法，将针对输入的图像与点云信息，为车辆驾驶员提供车辆周围的情况，包括物体的类别，几何形状，距离等信息，方便车辆驾驶员更准确的进行判断和驾驶，降低了由于恶劣天气，人眼视力等因素所造成事故的概率，提升了车辆驾驶的安全性。本发明的方法还具有成本低，鲁棒性高，操作便捷等优点。

附图说明

图1是本发明一种实施例的自动驾驶场景下基于图像与点云融合的语义场景补全方法的流程简图。

图2是本发明一种实施例的语义场景补全方法的四个主要模块组成示意图。

图3是本发明一种实施例的自动驾驶场景下基于图像与点云融合的语义场景补全方法的四个主要模块工作方式示意图。

具体实施方式

下面结合具体实施方式并对照附图对本专利申请作进一步详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本专利申请的范围及其应用。

参照以上附图，将描述非限制性和非排他性的实施例，其中相同的附图标记表示相同的部件，除非另外特别说明。

本领域技术人员将认识到，对以上描述做出众多变通是可能的，所以实施例仅是用来描述一个或多个特定实施方式。

参阅图1，本发明实施例提供一种基于点云图像融合的语义场景补全方法，包括如下步骤：

第一步：将训练数据集进行读取和预处理，主要内容是读取来自采集的数据或来自自动驾驶公开数据集的数据，对点云进行下采样。

第二步：将预处理后的图像点云数据作为输入，经过搭建的语义场景补全网络，将图像与点云信息进行融合，并通过最小化目标损失函数对网络参数进行训练。

第三步：将来自采集设备的图像与点云数据输入到训练好的网络模型中，得到场景中各个物体的语义分割结果以及场景补全结果。本步骤可输出车辆周围的体素化场景。

输入的数据类型包括图像与点云两种类型。在一些实施例中，训练数据集为公开的大规模数据集或自采集的数据集。

在优选实施例中，所述图像与点云数据输入前经过最远点采样，对点云数据进行降采样处理。

在优选实施例中，所述语义场景补全网络包含四个模块：图像特征提取模块、图像点云映射模块、点云深度补全模块以及语义场景补全模块。所述语义场景补全网络为基于图像点云融合的深度网络模型，包含图像语义特征提取模块、图像点云映射模块、点云深度补全模块以及语义场景补全模块；其中，所述图像语义特征提取模块将输入的图像进行残差学习网络和全连接网络的处理得到图像的语义分割特征；所述图像点云映射模块通过对三维空间中每个点云进行投射变换，将三维空间的点云投影到图像的二维空间，将三维空间下的点云数据与二维空间下的图像数据建立连接形成耦合；所述点云深度补全模块生成稠密点云并将语义信息与点云进行融合；所述语义场景补全模块根据带有语义信息的点云，生成稠密的体素化的具有语义的场景补全结果。

以下进一步描述本发明具体实施例。

在一些具体实施例中，本发明自动驾驶场景下基于图像与点云融合的语义场景补全方法包括以下步骤：

将输入的点云和图像进行预处理操作。在一些实施例中，使用由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办的KITTI数据集，是目前国际上影响最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。通过将点云进行降采样处理，这是由于采集到的点云数据量达百万级，直接处理难度大。适当减少数据，对性能影响可以忽略，但是能大幅减少模型规模，使其能更好应用在实际场景中；

利用深度学习技术，搭建基于图像点云融合的深度网络模型，所述网络模型包括图像语义特征提取模块、图像点云映射模块、点云深度补全模块和语义场景补全模块四部分。

在图像语义特征提取模块，将输入图像进行残差学习网络和全连接网络的处理得到图像的语义分割特征，此外，为尽可能保留原始信息，网络中加入局部残差学习和全局跳跃连接增加网络中信息流动；

在图像点云映射模块，为了后续图像与点云信息的融合，建立点云与图像两种不同模态沟通的媒介，利用相机的内外参矩阵，通过对三维空间中每个点云进行投射变换，把三维空间的点云投影到图像的二维空间，将3D空间下的点云数据与2D空间下的图像数据建立连接形成耦合；

在点云深度补全模块，输入原始图像信息以及稀疏的原始点云信息，利用图像点云映射模块，将两者信息进行对应，进而通过图像上稠密的像素，对每个像素进行深度估计，从而生成图像空间上的稠密点云，并将语义信息与点云进行融合；

在语义场景补全模块，将前面得到的带有语义信息的点云输入，并输出稠密的体素化的具有语义的场景补全结果。由于结合了图像额外的语义信息，这样的分割结果更准确，同时由于补充了更多的点云，提升了补全的准确性。

语义场景补全是一项结合了三维形状补全与三维语义分割的计算机视觉任务，可以帮助机器人感知三维世界，并和环境交互。本发明实施例中，对十九种自动驾驶场景下的常见物体进行语义场景补全，包括汽车、自行车、摩托车、卡车、其他车辆、行人、自行车驾驶员、摩托车驾驶员、道路、停车场、人行道、其他地面、建筑物、栅栏、植被、树干、地形、电线杆和交通标志。本发明实施例中，将输入的点云和图像进行预处理，减少噪音的影响，使其能更好的表征其图像特征；其次利用深度学习技术，搭建基于图像点云融合的深度网络模型，所述网络模型包括图像语义特征提取、图像点云映射、点云深度补全和语义场景补全四部分，在图像语义特征提取过程中，将输入图像进行残差学习网络和全连接网络的处理得到图像的语义分割特征；其次在图像点云映射部分，通过内外参矩阵，将3D空间下的点云数据与2D空间下的图像数据建立连接形成耦合；然后在点云深度补全部分，生成稠密点云并将语义信息与点云进行融合；最终在语义场景补全部分，将前面得到的带有语义信息的点云输入，并输出稠密的体素化的具有语义的场景补全结果。本发明实施例中，采用一个单目相机与一个48线激光雷达的配置，充分利用图像的语义信息与点云的深度信息。本发明实施例具有成本低，鲁棒性高，操作便捷等优点。

读取数据与预处理：

读取来自采集的数据或来自自动驾驶公开数据集的数据，对点云进行下采样。通过将点云进行降采样处理，利用最远点采样方法对点云进行采样。这是由于采集到的点云数据量达百万级，直接处理难度大。适当减少数据，对性能影响可以忽略，但是能大幅减少模型规模，使其能更好应用在实际场景中。

最远点采样方法采样k个点的步骤如下：

1)读取点云集合P＝{p₁,p₂,…,p_n}；

2)随机选择一个点p_s；

3)在集合P-p_s中找到与p_s最远的点p_i；

4)在集合P-p_s-p_i中找到与p_s,p_i最远的点p_l；

以此类推，直到在集合中取k个点。

语义场景补全网络：

如图2所示，语义场景补全网络的整体结构可分为四个模块：图像语义特征提取模块、图像点云映射模块、点云深度补全模块以及语义场景补全模块。如图3所示，为该四个模块的工作方式示意图：

A.图像语义特征提取模块

特征提取部分选取的是训练好的语义分割网络，利用KITTI数据集提供的十九种自动驾驶场景下常见类别的语义标签与图像数据，训练一个101层的残差网络，定义F_E(·)为该处理过程的函数，所以提取的二维语义分割特征为：

x_E＝F_E(x)

其中x为输入的原始图像数据，x_E为经过图像语义特征提取模块得到的每张图像中的语义分割结果。

B.图像点云映射模块

为了后续图像与点云信息的融合，建立点云与图像两种不同模态沟通的媒介，利用相机的内外参矩阵，通过对三维空间中每个点云进行投射变换，把三维空间的点云投影到图像的二维空间。首先利用外参矩阵，将点云对其相机坐标系，然后利用内参矩阵，将点云从三维空间变换到二维空间。具体实现公式如下：

C.点云深度补全模块

输入原始图像信息以及稀疏的原始点云信息，利用图像点云映射模块，将两者信息进行对应，进而通过图像上稠密的像素，对每个像素进行深度估计。在深度估计的过程中，本发明设置了两分支的架构，一个分支由图像信息进行主导，另一个分支则由深度信息进行主导。首先通过图像信息主导的分支输出一个稠密的深度图，然后将这个稠密深度图作为输入通过深度信息主导的分支，对预测得到的深度图进行优化和校准。由于在图像语义特征提取模块中，我们已经获得了图像上每一个点的类别特征。此时首先将图像特征与深度信息拼接。

然后经过图像点云映射模块的逆运算，将得到的稠密深度图投影回点云的三维空间，获得带有语义信息的点云数据。

D.语义场景补全模块

将前面得到的带有语义信息的点云输入到语义场景补全模块中，输出稠密的体素化的具有语义的场景补全结果。该模块基于体素网络，通过三维卷积神经网络，使用带有跳跃连接的编码器-解码器结构，有利于提取全局信息，也可以对场景补全进行信息的补充。在预测过程中，输出多尺度的预测结果，并从粗到细进行优化，得到最终的语义分割结果和体素化场景。

语义场景补全实现：

将采集到的图像与点云数据输入到训练好的基于点云图像融合的语义场景补全网络，即可得到高质量的语义分割结果和体素化场景。本发明实施例经测试，在semanticKITTI数据集上取得了准确率71.7，mIoU＝24.1的效果。

上述具体实施方式完整阐释了本申请的自动驾驶场景下基于图像与点云融合的语义场景补全方法。

本发明实施例的应用和优势主要体现为：

1)利用深度学习方法，构建一种新的深度神经网络模型，完成对汽车、自行车、摩托车、卡车、其他车辆、行人、自行车驾驶员、摩托车驾驶员、道路、停车场、人行道、其他地面、建筑物、栅栏、植被、树干、地形、电线杆和交通标志十九种自动驾驶场景下常见物体的语义场景补全。

2)对于输入的图像和点云数据，该模型可以对其中物体进行分类，对物体的形状进行补全，并对物体的距离进行获取和计算。便于车辆驾驶员安全行驶。

3)通过可用于自动驾驶辅助系统的语义场景补全技术来得到车辆周围语义分割结果以及场景补全结果等信息。

本领域技术人员应理解，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明的背景部分可以包含关于本发明的问题或环境的背景信息，而不一定是描述现有技术。因此，在背景技术部分中包含的内容并不是申请人对现有技术的承认。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中，参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点，但应当理解，在不脱离专利申请的保护范围的情况下，可以在本文中进行各种改变、替换和变更。

Claims

1.一种自动驾驶场景下基于图像与点云融合的语义场景补全方法，其特征在于，包括如下步骤：

2.如权利要求1所述的语义场景补全方法，其特征在于，所述图像与点云数据输入前经过预处理以减少噪音的影响。

3.如权利要求1所述的语义场景补全方法，其特征在于，所述图像与点云数据输入前经过最远点采样，对点云数据进行降采样处理；优选地，所述最远点采样包括如下步骤：

1)读取点云集合P＝{p₁,2,…,_n}；

2)随机选择一个点p_s；

3)在集合P-p_s中找到与p_s最远的点p_i；

4)在集合P-p_s-p_i中找到与p_s,i最远的点p_l；

以此类推，直到在集合中取预定k个点。

4.如权利要求1至3任一项所述的语义场景补全方法，其特征在于，所述语义场景补全网络为基于图像点云融合的深度网络模型，包含图像语义特征提取模块、图像点云映射模块、点云深度补全模块以及语义场景补全模块；其中，所述图像语义特征提取模块将输入的图像进行残差学习网络和全连接网络的处理得到图像的语义分割特征；所述图像点云映射模块通过对三维空间中每个点云进行投射变换，将三维空间的点云投影到图像的二维空间，将三维空间下的点云数据与二维空间下的图像数据建立连接形成耦合；所述点云深度补全模块生成稠密点云并将语义信息与点云进行融合；所述语义场景补全模块根据带有语义信息的点云，生成稠密的体素化的具有语义的场景补全结果。

5.如权利要求3所述的语义场景补全方法，其特征在于，所述图像语义特征提取模块在网络中加入局部残差学习和全局跳跃连接。

6.如权利要求3所述的语义场景补全方法，其特征在于，所述图像点云映射模块利用相机的内外参矩阵将三维空间的点云投影到图像的二维空间，其中，先利用外参矩阵，将点云对应其相机坐标系，然后利用内参矩阵，将点云从三维空间变换到二维空间。

7.如权利要求3所述的语义场景补全方法，其特征在于，所述点云深度补全模块根据原始图像信息以及稀疏的原始点云信息，利用所述图像点云映射模块，将两者信息进行对应，进而通过图像上稠密的像素，对每个像素进行深度估计，从而生成图像空间上的稠密点云，并将语义信息与点云进行融合。

8.如权利要求7所述的语义场景补全方法，其特征在于，在所述深度估计的过程中设置了两分支的架构，一个分支由图像信息进行主导，另一个分支由深度信息进行主导；通过图像信息主导的分支输出一个稠密的深度图，然后将这个稠密深度图作为输入通过深度信息主导的分支，对预测得到的深度图进行优化和校准；根据所述图像语义特征提取模块获得的图像上每一个点的类别特征，将图像特征与深度信息拼接，然后经过所述图像点云映射模块的逆运算，将得到的稠密深度图投影回点云的三维空间，获得带有语义信息的点云数据。

9.如权利要求4至7任一项所述的语义场景补全方法，其特征在于，所述语义场景补全模块基于体素网络，通过三维卷积神经网络，使用带有跳跃连接的编码器-解码器结构，以提取全局信息或对场景补全进行信息的补充；在预测过程中，输出多尺度的预测结果，并从粗到细进行优化，得到最终的语义分割结果和体素化场景。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序由处理器执行时实现如权利要求1至9任一项所述的语义场景补全方法。