CN115205633A

CN115205633A - 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法

Info

Publication number: CN115205633A
Application number: CN202210889746.7A
Authority: CN
Inventors: 王勇涛; 林志威; 汤帜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-10-18

Abstract

本发明公开了一种基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法，属于计算机视觉技术领域。该方法利用不同的数据增广对LiDAR点云数据和图像数据进行变换，经过网络分别提取特征后，将两个模态特征投影到同一个鸟瞰图(BEV)空间中，之后利用反变换将两者的特征对齐，通过细粒度的对比学习来使得网络能够学习到通用的LiDAR点云和图像表征。在实际应用中，训练得到的具有强表征能力的网络能够被应用在多种自动驾驶的下游任务中，包括但不限于3d目标检测、3d实例分割、语义分割等任务。上述预训练的网络能够被用来初始化检测器的骨干网络，加速模型在训练时的收敛速度，同时提高网络性能。

Description

基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法

技术领域

本发明属于计算机视觉技术领域，涉及利用计算机视觉及深度学习技术对自动驾驶神经网络模型进行预训练，尤其涉及一种基于鸟瞰图对比学习的多模态自监督预训练方法，可用于自动驾驶通用神经网络模型。

背景技术

近年来，机器学习研究和应用得到了蓬勃发展。其中，深度学习方法已在许多应用领域(例如计算机视觉，语音处理和机器翻译)中取得了关键性的进步。深度学习在感知任务中的成功很大程度上归功于卷积神经网络对于图像视觉强大的表征和学习能力。这种强大的表征和学习能力能够使得网络在不同任务之间进行迁移。因此，在实际应用中，对于神经网络的训练一般分为两步，首先对网络在大规模的分类任务数据集上进行预训练，使得网络能够学习到适用于图像理解任务的强大视觉表征，之后，将该网络在大规模数据集上学习到的表征能力，迁移到相对来说具有较小规模数据集的下游任务中，例如目标检测、语义分割和示例分割等任务。这种结合预训练和微调的训练范式，相比于直接在下游任务上进行训练来说，能够取得更好的效果。

然而，对网络进行大规模的分类任务预训练时，依赖了大量的手工标记数据。即使当前有像ImageNet这样的大规模分类数据集，但是随着网络架构的复杂化和规模的增加，使得ImageNet逐渐无法满足网络的训练要求。然而，获取更大规模的有标注数据集是非常费时费力的。因此，为了减轻数据标注的工作量，如何有效利用大量的无标签数据成为了学者关注的焦点。于是，不使用任何人工标注来学习图像视觉表征的自监督学习也应运而生。

自监督学习作为无监督学习的一种方法，其目标是在不使用图像标注的前提下，通过设计的自监督任务，自动地为无标签数据生成伪标签，通过该伪标签以及对应的自监督任务，对神经网络进行预训练。通过自监督预训练获取的图像表征，相比于监督预训练来说，具有更好的泛化能力，在迁移到下游任务时，往往能够取得更好的效果。

在实际应用中，现有的自监督预训练方法，通常采用对比学习的自监督任务。对于自动驾驶中的下游任务(例如3d目标检测)来说，高精度网络架构通常拥有对LiDAR点云和图像数据分别处理的部分，虽然利用基于对比学习的自监督预训练方法能够对LiDAR和图像网络分别进行预训练，但是这种预训练方法通常对LiDAR网络架构有较强的约束，且缺少两个模态之间的交互，导致预训练效率低下。

因此，现有的基于对比学习的自监督预训练方法对于自动驾驶中的下游任务来说，技术上还存在一定瓶颈，网络约束过大，预训练效率不高。

发明内容

为了克服上述现有技术的不足，本发明提供一种针对自动驾驶的基于鸟瞰图对比学习的多模态自监督预训练方法，提出利用不同的数据增广对LiDAR点云数据和图像数据进行变换，经过网络分别提取特征后，将两个模态特征投影到同一个鸟瞰图(BEV)空间中，之后利用反变换将两者的特征对齐，通过细粒度的对比学习来使得网络能够学习到通用的LiDAR点云和图像表征，从而提高自动驾驶的下游任务(如3d目标检测、3d实例分割、点云语义分割等)的性能。

本发明的技术方案是：

一种自动驾驶多模态自监督预训练方法，包括如下步骤：

1)根据所需要的任务，选择针对LiDAR点云输入和图像输入的两个骨干网络，在图像骨干网络额外增加一个深度预测器；

2)构建多模态数据增广策略，对于LiDAR输入，采用旋转、平移和对称的数据增广策略，对于图像输入，采用裁切、颜色变换和对称的数据增广策略；

3)将自动驾驶数据(包括LiDAR和图像)输入到步骤2)中的多模态数据增广策略中，得到增广后的数据，将该数据输入到对应模态的骨干网络中，得到对应模态的特征表示。将图像的特征表示输入到深度预测器中，获得图像表征在像素空间上的深度图；

4)构建多模态鸟瞰图特征，利用步骤3)中获得的深度图，将2维图像表征转换为3维图像表征，同时利用LiDAR空间和像素空间的转换矩阵，将3维图像表征转换到LiDAR空间。之后压缩操作，将转换空间后的3维图像表征和原本的LiDAR表征转换为鸟瞰图表示；

5)多模态鸟瞰图特征对齐，对两个模态的鸟瞰图特征用逆数据变换进行变换，得到对齐的鸟瞰图特征；

6)多模态细粒度对比学习，将两个模态鸟瞰图特征的余弦相似度与绝对距离作为权重，利用匈牙利算法对两个模态的鸟瞰图表征进行匹配，将匹配上的表征作为正样本，非匹配表征作为负样本，进行对比学习，实现自动驾驶多模态自监督预训练。

进一步，预训练结束后，对于不同的下游任务(例如3d目标检测、3d实例分割和点云语义分割等)，将预训练权重载入到下游任务网络的骨干网络部分，按照下游任务的训练流程进行微调，得到最终的下游任务相关的神经网络模型。

上述预训练算法可广泛应用于自动驾驶中实际应用的计算机视觉任务(如3d物体检测、3d实例分割、点云语义分割)中，提高任务的性能表现(如检测、分割精度)。

与现有技术相比，本发明的有益效果是：

本发明提供一种针对自动驾驶的基于鸟瞰图对比学习的多模态自监督预训练方法，提出利用不同的数据增广对LiDAR点云数据和图像数据进行变换，经过网络分别提取特征后，将两个模态特征投影到同一个鸟瞰图(BEV)空间中，之后利用反变换将两者的特征对齐，通过细粒度的对比学习来使得网络能够学习到通用的LiDAR点云和图像表征，从而提高自动驾驶的下游任务(如3d目标检测、3d实例分割、点云语义分割等)的性能。本发明方法打破了常规针对自动驾驶数据集的单模态预训练思路，建立了基于鸟瞰图对比学习的多模态联合预训练方法，实现高效、有效的预训练。本发明的预训练方法具有通用性，不依赖与特定的网络架构，适用于当前所有的针对自动驾驶数据集的网络模型，且能被应用到多种计算机视觉任务(3d目标检测、3d实例分割、点云语义分割等)，方法简单方便，能有效提高精度，加快模型收敛速度。

附图说明

图1是本发明提出的预训练方法流程图。

图2是本发明提供的预训练模型应用到下游任务时的流程框图。

具体实施方式

本发明提出了一种针对自动驾驶的基于鸟瞰图对比学习的多模态自监督预训练方法，下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明的具体实施方式包括如下步骤(如图1所示)：

1)构建LiDAR骨干网络，基于所需要的下游任务，选择对应的LiDAR骨干网络，例如PointPillar、SECOND等。

2)构建多视角图像骨干网络，基于所需要的下游任务，选择对应的图像骨干网络，例如ResNet、SwinTransformer等。同时构建由单层线性层组成的深度预测器。

3)构建多模态数据增广策略，对于LiDAR输入，采用旋转、平移和对称的数据增广策略，记为R_L，对于图像输入，采用裁切、颜色变换和对称的数据增广策略，记为R_I。

4)将自动驾驶数据(包括LiDAR和图像)输入到步骤(3)中的多模态数据增广策略中，得到增广后的数据，将该数据输入到对应模态的骨干网络中，其中，LiDAR骨干网络的输出记为F_L，图像骨干网络的输出记为F_I。此时，F_L为体素(voxel)特征，F_I为2维像素特征。

5)构建多模态鸟瞰图特征，将F_I输入到深度预测器中，得到每个像素点在像素空间上的深度。利用该深度，将F_I从2维像素特征，转换为3维特征。之后根据相机内外参，将F_I从像素空间转换到LiDAR空间。此时F_L与F_I的坐标已经在同一个LiDAR空间中。将F_L和F_I均沿Z轴进行压缩，将其转换为2维鸟瞰图特征F_LBEV和F_IBEV。

6)多模态鸟瞰图特征对齐，将鸟瞰图特征F_LBEV和F_IBEV分别用逆数据变换

和

进行变换，得到对齐的鸟瞰图特征

和

7)多模态细粒度对比学习，将两个模态鸟瞰图特征的余弦相似度与归一化的绝对距离

作为权重，利用匈牙利算法在对齐的鸟瞰图特征

和

中，对每个位置进行全局匹配M＝assign(cost＝w)，将匹配对记为

将匹配对作为正样本，非匹配对作为负样本，采用InfoNCE作为损失函数：

来更新网络进行预训练，其中v_i为特征

中的特征向量，

为特征

中的特征向量，

表示为两者的向量点乘，τ为温度系数，设置为0.5。

8)预训练结束后，如图2所示，对于不同的下游任务(例如3d目标检测、3d实例分割和点云语义分割等)，将预训练权重载入到下游任务网络的骨干网络部分，按照下游任务的训练流程进行微调，得到最终的下游任务相关的神经网络模型。

本发明提供的针对自动驾驶的多模态自监督预训练方法，能够使网络学习到通用的LiDAR点云和图像表征，实现高效、有效的预训练，提高自动驾驶的下游任务(如3d目标检测、3d实例分割、点云语义分割等)的性能。

在3d目标检测任务中，对目标检测数据集nuScenes具体实施了本发明方法。在nuScenes上的实施结果表明，以CenterPoint检测器为例，在相同的训练情况下，使用本发明方法进行预训练，能够将CenterPoint检测器在验证集val上mAP值可以从56.03提高到57.25。(注：nuScenes是一个大规模的自动驾驶数据集，包含3d目标检测、2d目标检测、分割等任务，见https://www.nuscenes.org/box的mAP值是衡量检测性能的一个指标，见http://cocodataset.org/#detection-eval)。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种自动驾驶多模态自监督预训练方法，其特征在于，包括如下步骤：

1)根据所需要的任务，选择针对LiDAR点云输入和图像输入的两个骨干网络，且在图像骨干网络额外增加一个深度预测器；

2)构建多模态数据增广策略；

3)将自动驾驶数据输入到步骤2)中的多模态数据增广策略中，得到增广后的数据，再将该数据输入到对应模态的骨干网络中，得到对应模态的特征表示，并将图像的特征表示输入到深度预测器中，获得图像表征在像素空间上的深度图；

4)构建多模态鸟瞰图特征，利用步骤3)中获得的深度图，将2维图像表征转换为3维图像表征，同时利用LiDAR空间和像素空间的转换矩阵，将3维图像表征转换到LiDAR空间，之后压缩操作，将转换空间后的3维图像表征和原本的LiDAR表征转换为鸟瞰图表示；

2.如权利要求1所述的自动驾驶多模态自监督预训练方法，其特征在于，步骤6)中采用InfoNCE作为损失函数：

来更新网络进行预训练，其中v_i为特征

中的特征向量，

为特征

中的特征向量，

表示为两者的向量点乘，τ为温度系数。

3.如权利要求1所述的自动驾驶多模态自监督预训练方法，其特征在于，步骤2)中对于LiDAR输入，采用旋转、平移和对称的数据增广策略。

4.如权利要求1所述的自动驾驶多模态自监督预训练方法，其特征在于，步骤2)中对于图像输入，采用裁切、颜色变换和对称的数据增广策略。

5.如权利要求1所述的自动驾驶多模态自监督预训练方法，其特征在于，步骤6)预训练结束后，对于不同的下游任务，将预训练权重载入到下游任务网络的骨干网络部分，按照下游任务的训练流程进行微调，得到下游任务相关的神经网络模型。