CN115205633A - 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 - Google Patents
基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 Download PDFInfo
- Publication number
- CN115205633A CN115205633A CN202210889746.7A CN202210889746A CN115205633A CN 115205633 A CN115205633 A CN 115205633A CN 202210889746 A CN202210889746 A CN 202210889746A CN 115205633 A CN115205633 A CN 115205633A
- Authority
- CN
- China
- Prior art keywords
- training
- network
- aerial view
- automatic driving
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法,属于计算机视觉技术领域。该方法利用不同的数据增广对LiDAR点云数据和图像数据进行变换,经过网络分别提取特征后,将两个模态特征投影到同一个鸟瞰图(BEV)空间中,之后利用反变换将两者的特征对齐,通过细粒度的对比学习来使得网络能够学习到通用的LiDAR点云和图像表征。在实际应用中,训练得到的具有强表征能力的网络能够被应用在多种自动驾驶的下游任务中,包括但不限于3d目标检测、3d实例分割、语义分割等任务。上述预训练的网络能够被用来初始化检测器的骨干网络,加速模型在训练时的收敛速度,同时提高网络性能。
Description
技术领域
本发明属于计算机视觉技术领域,涉及利用计算机视觉及深度学习技术对自动驾驶神经网络模型进行预训练,尤其涉及一种基于鸟瞰图对比学习的多模态自监督预训练方法,可用于自动驾驶通用神经网络模型。
背景技术
近年来,机器学习研究和应用得到了蓬勃发展。其中,深度学习方法已在许多应用领域(例如计算机视觉,语音处理和机器翻译)中取得了关键性的进步。深度学习在感知任务中的成功很大程度上归功于卷积神经网络对于图像视觉强大的表征和学习能力。这种强大的表征和学习能力能够使得网络在不同任务之间进行迁移。因此,在实际应用中,对于神经网络的训练一般分为两步,首先对网络在大规模的分类任务数据集上进行预训练,使得网络能够学习到适用于图像理解任务的强大视觉表征,之后,将该网络在大规模数据集上学习到的表征能力,迁移到相对来说具有较小规模数据集的下游任务中,例如目标检测、语义分割和示例分割等任务。这种结合预训练和微调的训练范式,相比于直接在下游任务上进行训练来说,能够取得更好的效果。
然而,对网络进行大规模的分类任务预训练时,依赖了大量的手工标记数据。即使当前有像ImageNet这样的大规模分类数据集,但是随着网络架构的复杂化和规模的增加,使得ImageNet逐渐无法满足网络的训练要求。然而,获取更大规模的有标注数据集是非常费时费力的。因此,为了减轻数据标注的工作量,如何有效利用大量的无标签数据成为了学者关注的焦点。于是,不使用任何人工标注来学习图像视觉表征的自监督学习也应运而生。
自监督学习作为无监督学习的一种方法,其目标是在不使用图像标注的前提下,通过设计的自监督任务,自动地为无标签数据生成伪标签,通过该伪标签以及对应的自监督任务,对神经网络进行预训练。通过自监督预训练获取的图像表征,相比于监督预训练来说,具有更好的泛化能力,在迁移到下游任务时,往往能够取得更好的效果。
在实际应用中,现有的自监督预训练方法,通常采用对比学习的自监督任务。对于自动驾驶中的下游任务(例如3d目标检测)来说,高精度网络架构通常拥有对LiDAR点云和图像数据分别处理的部分,虽然利用基于对比学习的自监督预训练方法能够对LiDAR和图像网络分别进行预训练,但是这种预训练方法通常对LiDAR网络架构有较强的约束,且缺少两个模态之间的交互,导致预训练效率低下。
因此,现有的基于对比学习的自监督预训练方法对于自动驾驶中的下游任务来说,技术上还存在一定瓶颈,网络约束过大,预训练效率不高。
发明内容
为了克服上述现有技术的不足,本发明提供一种针对自动驾驶的基于鸟瞰图对比学习的多模态自监督预训练方法,提出利用不同的数据增广对LiDAR点云数据和图像数据进行变换,经过网络分别提取特征后,将两个模态特征投影到同一个鸟瞰图(BEV)空间中,之后利用反变换将两者的特征对齐,通过细粒度的对比学习来使得网络能够学习到通用的LiDAR点云和图像表征,从而提高自动驾驶的下游任务(如3d目标检测、3d实例分割、点云语义分割等)的性能。
本发明的技术方案是:
一种自动驾驶多模态自监督预训练方法,包括如下步骤:
1)根据所需要的任务,选择针对LiDAR点云输入和图像输入的两个骨干网络,在图像骨干网络额外增加一个深度预测器;
2)构建多模态数据增广策略,对于LiDAR输入,采用旋转、平移和对称的数据增广策略,对于图像输入,采用裁切、颜色变换和对称的数据增广策略;
3)将自动驾驶数据(包括LiDAR和图像)输入到步骤2)中的多模态数据增广策略中,得到增广后的数据,将该数据输入到对应模态的骨干网络中,得到对应模态的特征表示。将图像的特征表示输入到深度预测器中,获得图像表征在像素空间上的深度图;
4)构建多模态鸟瞰图特征,利用步骤3)中获得的深度图,将2维图像表征转换为3维图像表征,同时利用LiDAR空间和像素空间的转换矩阵,将3维图像表征转换到LiDAR空间。之后压缩操作,将转换空间后的3维图像表征和原本的LiDAR表征转换为鸟瞰图表示;
5)多模态鸟瞰图特征对齐,对两个模态的鸟瞰图特征用逆数据变换进行变换,得到对齐的鸟瞰图特征;
6)多模态细粒度对比学习,将两个模态鸟瞰图特征的余弦相似度与绝对距离作为权重,利用匈牙利算法对两个模态的鸟瞰图表征进行匹配,将匹配上的表征作为正样本,非匹配表征作为负样本,进行对比学习,实现自动驾驶多模态自监督预训练。
进一步,预训练结束后,对于不同的下游任务(例如3d目标检测、3d实例分割和点云语义分割等),将预训练权重载入到下游任务网络的骨干网络部分,按照下游任务的训练流程进行微调,得到最终的下游任务相关的神经网络模型。
上述预训练算法可广泛应用于自动驾驶中实际应用的计算机视觉任务(如3d物体检测、3d实例分割、点云语义分割)中,提高任务的性能表现(如检测、分割精度)。
与现有技术相比,本发明的有益效果是:
本发明提供一种针对自动驾驶的基于鸟瞰图对比学习的多模态自监督预训练方法,提出利用不同的数据增广对LiDAR点云数据和图像数据进行变换,经过网络分别提取特征后,将两个模态特征投影到同一个鸟瞰图(BEV)空间中,之后利用反变换将两者的特征对齐,通过细粒度的对比学习来使得网络能够学习到通用的LiDAR点云和图像表征,从而提高自动驾驶的下游任务(如3d目标检测、3d实例分割、点云语义分割等)的性能。本发明方法打破了常规针对自动驾驶数据集的单模态预训练思路,建立了基于鸟瞰图对比学习的多模态联合预训练方法,实现高效、有效的预训练。本发明的预训练方法具有通用性,不依赖与特定的网络架构,适用于当前所有的针对自动驾驶数据集的网络模型,且能被应用到多种计算机视觉任务(3d目标检测、3d实例分割、点云语义分割等),方法简单方便,能有效提高精度,加快模型收敛速度。
附图说明
图1是本发明提出的预训练方法流程图。
图2是本发明提供的预训练模型应用到下游任务时的流程框图。
具体实施方式
本发明提出了一种针对自动驾驶的基于鸟瞰图对比学习的多模态自监督预训练方法,下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明的具体实施方式包括如下步骤(如图1所示):
1)构建LiDAR骨干网络,基于所需要的下游任务,选择对应的LiDAR骨干网络,例如PointPillar、SECOND等。
2)构建多视角图像骨干网络,基于所需要的下游任务,选择对应的图像骨干网络,例如ResNet、SwinTransformer等。同时构建由单层线性层组成的深度预测器。
3)构建多模态数据增广策略,对于LiDAR输入,采用旋转、平移和对称的数据增广策略,记为RL,对于图像输入,采用裁切、颜色变换和对称的数据增广策略,记为RI。
4)将自动驾驶数据(包括LiDAR和图像)输入到步骤(3)中的多模态数据增广策略中,得到增广后的数据,将该数据输入到对应模态的骨干网络中,其中,LiDAR骨干网络的输出记为FL,图像骨干网络的输出记为FI。此时,FL为体素(voxel)特征,FI为2维像素特征。
5)构建多模态鸟瞰图特征,将FI输入到深度预测器中,得到每个像素点在像素空间上的深度。利用该深度,将FI从2维像素特征,转换为3维特征。之后根据相机内外参,将FI从像素空间转换到LiDAR空间。此时FL与FI的坐标已经在同一个LiDAR空间中。将FL和FI均沿Z轴进行压缩,将其转换为2维鸟瞰图特征FLBEV和FIBEV。
7)多模态细粒度对比学习,将两个模态鸟瞰图特征的余弦相似度与归一化的绝对距离
8)预训练结束后,如图2所示,对于不同的下游任务(例如3d目标检测、3d实例分割和点云语义分割等),将预训练权重载入到下游任务网络的骨干网络部分,按照下游任务的训练流程进行微调,得到最终的下游任务相关的神经网络模型。
上述预训练算法可广泛应用于自动驾驶中实际应用的计算机视觉任务(如3d物体检测、3d实例分割、点云语义分割)中,提高任务的性能表现(如检测、分割精度)。
本发明提供的针对自动驾驶的多模态自监督预训练方法,能够使网络学习到通用的LiDAR点云和图像表征,实现高效、有效的预训练,提高自动驾驶的下游任务(如3d目标检测、3d实例分割、点云语义分割等)的性能。
在3d目标检测任务中,对目标检测数据集nuScenes具体实施了本发明方法。在nuScenes上的实施结果表明,以CenterPoint检测器为例,在相同的训练情况下,使用本发明方法进行预训练,能够将CenterPoint检测器在验证集val上mAP值可以从56.03提高到57.25。(注:nuScenes是一个大规模的自动驾驶数据集,包含3d目标检测、2d目标检测、分割等任务,见https://www.nuscenes.org/box的mAP值是衡量检测性能的一个指标,见http://cocodataset.org/#detection-eval)。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (5)
1.一种自动驾驶多模态自监督预训练方法,其特征在于,包括如下步骤:
1)根据所需要的任务,选择针对LiDAR点云输入和图像输入的两个骨干网络,且在图像骨干网络额外增加一个深度预测器;
2)构建多模态数据增广策略;
3)将自动驾驶数据输入到步骤2)中的多模态数据增广策略中,得到增广后的数据,再将该数据输入到对应模态的骨干网络中,得到对应模态的特征表示,并将图像的特征表示输入到深度预测器中,获得图像表征在像素空间上的深度图;
4)构建多模态鸟瞰图特征,利用步骤3)中获得的深度图,将2维图像表征转换为3维图像表征,同时利用LiDAR空间和像素空间的转换矩阵,将3维图像表征转换到LiDAR空间,之后压缩操作,将转换空间后的3维图像表征和原本的LiDAR表征转换为鸟瞰图表示;
5)多模态鸟瞰图特征对齐,对两个模态的鸟瞰图特征用逆数据变换进行变换,得到对齐的鸟瞰图特征;
6)多模态细粒度对比学习,将两个模态鸟瞰图特征的余弦相似度与绝对距离作为权重,利用匈牙利算法对两个模态的鸟瞰图表征进行匹配,将匹配上的表征作为正样本,非匹配表征作为负样本,进行对比学习,实现自动驾驶多模态自监督预训练。
3.如权利要求1所述的自动驾驶多模态自监督预训练方法,其特征在于,步骤2)中对于LiDAR输入,采用旋转、平移和对称的数据增广策略。
4.如权利要求1所述的自动驾驶多模态自监督预训练方法,其特征在于,步骤2)中对于图像输入,采用裁切、颜色变换和对称的数据增广策略。
5.如权利要求1所述的自动驾驶多模态自监督预训练方法,其特征在于,步骤6)预训练结束后,对于不同的下游任务,将预训练权重载入到下游任务网络的骨干网络部分,按照下游任务的训练流程进行微调,得到下游任务相关的神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210889746.7A CN115205633A (zh) | 2022-07-27 | 2022-07-27 | 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210889746.7A CN115205633A (zh) | 2022-07-27 | 2022-07-27 | 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115205633A true CN115205633A (zh) | 2022-10-18 |
Family
ID=83584104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210889746.7A Pending CN115205633A (zh) | 2022-07-27 | 2022-07-27 | 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205633A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115761144A (zh) * | 2022-12-08 | 2023-03-07 | 上海人工智能创新中心 | 一种基于自监督几何建模的自动驾驶策略预训练方法 |
CN115860102A (zh) * | 2023-02-10 | 2023-03-28 | 北京百度网讯科技有限公司 | 一种自动驾驶感知模型的预训练方法、装置、设备和介质 |
CN115907009A (zh) * | 2023-02-10 | 2023-04-04 | 北京百度网讯科技有限公司 | 一种自动驾驶感知模型的迁移方法、装置、设备和介质 |
CN116229118A (zh) * | 2023-05-04 | 2023-06-06 | 泉州装备制造研究所 | 一种基于流形匹配的鸟瞰图目标检测方法 |
CN116664825A (zh) * | 2023-06-26 | 2023-08-29 | 北京智源人工智能研究院 | 面向大场景点云物体检测的自监督对比学习方法及系统 |
CN116664824A (zh) * | 2023-06-26 | 2023-08-29 | 北京智源人工智能研究院 | 基于多尺度roi投影的物体检测任务bev特征提取方法及系统 |
CN116740498A (zh) * | 2023-06-13 | 2023-09-12 | 北京百度网讯科技有限公司 | 模型预训练方法、模型训练方法、对象处理方法及装置 |
CN115761144B (zh) * | 2022-12-08 | 2024-06-04 | 上海人工智能创新中心 | 一种基于自监督几何建模的自动驾驶策略预训练方法 |
-
2022
- 2022-07-27 CN CN202210889746.7A patent/CN115205633A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115761144A (zh) * | 2022-12-08 | 2023-03-07 | 上海人工智能创新中心 | 一种基于自监督几何建模的自动驾驶策略预训练方法 |
CN115761144B (zh) * | 2022-12-08 | 2024-06-04 | 上海人工智能创新中心 | 一种基于自监督几何建模的自动驾驶策略预训练方法 |
CN115860102A (zh) * | 2023-02-10 | 2023-03-28 | 北京百度网讯科技有限公司 | 一种自动驾驶感知模型的预训练方法、装置、设备和介质 |
CN115907009A (zh) * | 2023-02-10 | 2023-04-04 | 北京百度网讯科技有限公司 | 一种自动驾驶感知模型的迁移方法、装置、设备和介质 |
CN116229118A (zh) * | 2023-05-04 | 2023-06-06 | 泉州装备制造研究所 | 一种基于流形匹配的鸟瞰图目标检测方法 |
CN116740498A (zh) * | 2023-06-13 | 2023-09-12 | 北京百度网讯科技有限公司 | 模型预训练方法、模型训练方法、对象处理方法及装置 |
CN116664825A (zh) * | 2023-06-26 | 2023-08-29 | 北京智源人工智能研究院 | 面向大场景点云物体检测的自监督对比学习方法及系统 |
CN116664824A (zh) * | 2023-06-26 | 2023-08-29 | 北京智源人工智能研究院 | 基于多尺度roi投影的物体检测任务bev特征提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115205633A (zh) | 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN111062951A (zh) | 一种基于语义分割类内特征差异性的知识蒸馏方法 | |
CN111968217B (zh) | 基于图片的smpl参数预测以及人体模型生成方法 | |
CN110689008A (zh) | 一种面向单目图像的基于三维重建的三维物体检测方法 | |
CN111985376A (zh) | 一种基于深度学习的遥感影像舰船轮廓提取方法 | |
CN111127538B (zh) | 一种基于卷积循环编码-解码结构的多视影像三维重建方法 | |
CN111461212A (zh) | 一种用于点云目标检测模型的压缩方法 | |
CN113361645B (zh) | 基于元学习及知识记忆的目标检测模型构建方法及系统 | |
Liu et al. | RockFormer: A U-shaped transformer network for Martian rock segmentation | |
CN117274388B (zh) | 基于视觉文本关系对齐的无监督三维视觉定位方法及系统 | |
CN116052095B (zh) | 一种用于智慧城市全景视频监控的车辆重识别方法 | |
CN113554032A (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN116071747A (zh) | 一种基于3d点云数据和2d图像数据融合匹配语义分割方法 | |
CN115564801A (zh) | 一种基于注意力的单目标跟踪方法 | |
CN115115917A (zh) | 基于注意力机制和图像特征融合的3d点云目标检测方法 | |
CN110633706A (zh) | 一种基于金字塔网络的语义分割方法 | |
CN116362318B (zh) | 基于自适应深度修正的纯视觉三维目标检测方法和系统 | |
CN117745944A (zh) | 预训练模型确定方法、装置、设备以及存储介质 | |
CN110390336B (zh) | 一种提高特征点匹配精度的方法 | |
CN117011515A (zh) | 基于注意力机制的交互式图像分割模型及其分割方法 | |
CN116580184A (zh) | 一种基于YOLOv7的轻量化模型 | |
CN114758135A (zh) | 一种基于注意力机制的无监督图像语义分割方法 | |
Tan et al. | 3D detection transformer: Set prediction of objects using point clouds | |
Li et al. | Study on semantic image segmentation based on convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |