CN115761144B

CN115761144B - 一种基于自监督几何建模的自动驾驶策略预训练方法

Info

Publication number: CN115761144B
Application number: CN202211570122.5A
Authority: CN
Inventors: 陈立; 李弘扬; 吴鹏浩; 贾萧松; 严骏驰; 乔宇
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2024-06-04
Anticipated expiration: 2042-12-08
Also published as: CN115761144A

Abstract

本发明涉及自动驾驶技术领域，具体公开了一种基于自监督几何建模的自动驾驶策略预训练方法，包括：步骤S1，自监督的几何建模,几何建模框架同时生成姿态和深度预测，两个连续两帧作为输入；步骤S2，视觉运动策略预训练,经过S1的训练后,视觉编码器通过预测未来的自车运动，并通过视觉图像重建的光度误差进行优化，来学习驾驶策略表示；本发明通过完全自监督的预训练框架的针对视觉运动驾驶任务的预训练范式，可在不需要任何标签同时实现充分利用大规模数据；本发明中经过预训练的视觉编码器，能够基于当前的视觉输入预测自车运动，并提取与驾驶策略密切相关的特征表征；这种视觉编码器的设计可以灵活地扩展到各种下游应用任务。

Description

一种基于自监督几何建模的自动驾驶策略预训练方法

技术领域

本发明涉及自动驾驶技术领域，具体是一种基于自监督几何建模的自动驾驶策略预训练方法。

背景技术

策略学习是指智能体获取决策策略，在特定环境中执行特定任务的学习过程。视觉运动策略学习将原始传感器观察作为输入，并预测动作，同时以端到端方式协作和训练感知和控制模块。对于视觉运动策略模型，从头开始学习是很困难的，它通常需要大量的标注数据或环境交互才能达到令人满意的性能。

为了缓解视觉运动策略学习中的样本效率问题，预先对视觉感知网络进行预训练是一种很有效的解决方案。最近的研究证明了应用流行的视觉预训练方法，可以在机器人策略学习任务中有优越表现，例如在灵巧操作、运动控制技能和视觉导航任务中。然而，对于一个关键的和具有挑战性的视觉运动任务-自动驾驶，仍缺乏研究。

ACO是唯一为自动驾驶定制的预训练方法。他通过首先在nuScenes上训练一个逆动力模型得到驾驶视频的伪转向标签，然后基于MoCo方法构建对比学习的转向条件辨别。然而，ACO忽略了其他关键的驱动因素，如油门和刹车，其性能在很大程度上受到逆动态模型的限制。Se l fD并不是严格为预训练而设计的，但它也同时利用大量的视频通过半监督学习来学习驾驶策略。它从目标域获取伪标记知识。这两种方法都依赖于伪标记的准确性。相比之下，我们通过密集的几何重建实现了完全的自监督学习，避免了可能的不利影响。

对于一般视觉任务中传统的预训练方法，如分类、分割和检测，通常采用广泛的数据增强来实现平移和视图不变性。对于机器人控制任务，输入序列一般分辨率较小；环境设置简单且集中于对象上。这两个特点不符合自动驾驶场景的高动态与复杂性，现有的一般视觉预训练方法不适用。

之前的工作ACO、Se l fD通过在开放数据集或目标域数据上进行伪标记训练来解决监督问题。然而，伪标记方法容易受到校准不佳的模型噪声的影响。

综上所述，本发明提出一种基于自监督几何建模的自动驾驶策略预训练方法。

发明内容

本发明旨在提出一个完全自监督的驾驶策略预训练框架，从未标注的驾驶视频中学习；它不需要任何标签，充分利用大规模数据进行预训练；我们旨在设计一种视觉编码器，能够基于单一的视觉输入预测自车运动，并提取与驾驶策略密切相关的特征表征；这种视觉编码器的设计可以灵活地扩展到各种下游应用程序；在不同的类型和难度级别的下游任务上，各指标较先前方法有大幅度提升。

为实现上述目的，本发明提供如下技术方案：一种基于自监督几何建模的自动驾驶策略预训练方法，所述方法包括如下步骤：

步骤S1，自监督的几何建模,几何建模框架同时生成姿态和深度预测，两个连续两帧作为输入；

步骤S2，视觉运动策略预训练,经过S1的训练后,视觉编码器通过预测未来的自车运动，并通过视觉图像重建的光度误差进行优化，来学习驾驶策略表示。

作为本发明所述的一种优选实施方案，在本方法中几何建模的数据采用未校准的视频数据，所述视频数据来源于无标注和未校准互联网驾驶视频。

作为本发明所述的一种优选实施方案，所述步骤S1详细步骤如下：

首先给定一个目标图像和源图像，估计目标图像的深度、相机的内参，以及这两帧之间的六自由度自车运动；根据这些估计结果，对场景的三维几何形状进行建模，并通过在源图像中投影像素来重建目标图像；根据重建的光度误差计算损失进行自监督训练，此时估计深度的DepthNet和估计自车运动的PoseNet经过训练，拟合了驾驶视频数据。

作为本发明所述的一种优选实施方案，所述步骤S2详细步骤如下：

经过步骤S1训练，将用于下游驾驶策略学习任务的视觉编码器替换PoseNet；现在，视觉编码器只接受单帧图像作为输入，并预测当前帧和后续帧之间的自车运动；这个单帧的输入设置与下游任务相一致；视觉编码器通过与步骤S1中的光度重建误差进行优化，除了一个修改-DepthNet和内参估计网络被冻结而不反向传播；使得视觉编码器被强制学习实际的驾驶策略。

作为本发明所述的一种优选实施方案，步骤S1中经过大量未校准的视频数据资料库上训练的DepthNet和PoseNet也可以用于深度和测程估计任务。

作为本发明所述的一种优选实施方案，步骤S2中学习过驾驶策略的视觉编码器可应用于下游的视觉运动自动驾驶任务作为初始权重。

作为本发明所述的一种优选实施方案，所述步骤S1基于多帧输入和两个子网络有变化来推断自车运动情况，为步骤S2作参考，其中两个所述子网络为姿态和深度；所述步骤S2基于单帧输入预测自车运动来编码与驾驶策略相关的信息。

与现有技术相比，本发明的有益效果是：

1.通过完全自监督的预训练框架的针对视觉运动驾驶任务的预训练范式，可在不需要任何标签同时实现充分利用大规模数据。

2.经过预训练的视觉编码器，能够基于单一的视觉输入预测自车运动，并提取与驾驶策略密切相关的特征表征；这种视觉编码器的设计可以灵活地扩展到各种下游应用任务。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明一种基于自监督几何建模的自动驾驶策略预训练方法流程图；

图2为本发明一种基于自监督几何建模的自动驾驶策略预训练方法实施流程图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1-图2，本发明提供一种基于自监督几何建模的自动驾驶策略预训练方法，所述方法包括如下步骤：

进一步的，在本方法中几何建模的数据采用未校准的视频数据，所述视频数据来源于无标注和未校准互联网驾驶视频，互联网驾驶视频可来源于YouTube驾驶视频等。

进一步的，所述步骤S1详细步骤如下：

进一步的，所述步骤S2详细步骤如下：

进一步的，步骤S1中经过大量未校准的视频数据资料库上训练的DepthNet和PoseNet也可以用于深度和测程估计任务。

进一步的，步骤S2中学习过驾驶策略的视觉编码器可应用于下游的视觉运动自动驾驶任务作为初始权重。

进一步的，所述步骤S1基于多帧输入和两个子网络有变化来推断自车运动情况，为步骤S2作参考，其中两个所述子网络为姿态和深度；所述步骤S2基于单帧输入预测自车运动来编码与驾驶策略相关的信息。

综上所述，并结合图1所示，本方法原理概述如下：

本方法区分为两个阶段，下述第一阶段和第二阶段分别表示步骤S1和步骤S2。

(a)我们关注于预训练一个有效的视觉编码器，通过基于单帧输入，预测自车运动来编码与驾驶策略相关的信息(a.2，第二阶段)。

第二阶段视觉编码器的训练优化需要第一阶段(a.1，第一阶段)多帧输入和两个子网络(姿态和深度)的帮助。在这个说明性的例子中，自车需要采取停止行动。自车运动(a.1)通过判断连续两帧几乎没有变化来推断；而自车运动(a.2)基于单一视觉输入进行预测，重点关注驾驶策略相关信息。

(b)视觉编码器可以被微调并应用于广泛的下游任务中。

两阶段的自监督训练

第一阶段：自监督的几何建模。在第一阶段，给定一个目标图像和源图像，估计目标图像的深度、相机的内参，以及这两帧之间的六自由度自运动。根据这些估计结果，我们可以对场景的三维几何形状进行建模，并通过在源图像中投影像素来重建目标图像。根据重建的光度误差计算损失进行自监督训练。

第二阶段：视觉运动策略预训练。经过第一阶段的训练后，估计深度的DepthNet和估计自车运动的PoseNet经过良好的训练，已经拟合了驾驶视频数据。在第二阶段，我们将用于下游驾驶策略学习任务的视觉编码器替换PoseNet。现在，视觉编码器只接受单帧图像作为输入，并预测当前帧和后续帧之间的自车运动。这个单帧的输入设置与下游任务相一致。视觉编码器通过类似于第一阶段的光度重建误差进行优化，除了一个修改-DepthNet和内参估计网络被冻结而不反向传播。通过这样做，视觉编码器被强制学习实际的驾驶策略，因为两个连续帧之间的自车运动直接与当前时间戳下的驾驶决策或行动相关。

至此，视觉编码器已经从不同的驾驶视频中获得了关于驾驶策略的知识。然后，它可以应用于下游的视觉运动自动驾驶任务作为初始权重。此外，在这大量未校准的视频数据语料库上训练的DepthNet和PoseNet也可以用于深度和测程估计任务。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于自监督几何建模的自动驾驶策略预训练方法，其特征在于，所述方法包括如下步骤：

步骤S2，视觉运动策略预训练,经过S1的训练后,视觉编码器通过预测未来的自车运动，并通过视觉图像重建的光度误差进行优化，来学习驾驶策略表示；

几何建模的数据采用未校准的视频数据，所述视频数据来源于无标注和未校准互联网驾驶视频；

所述步骤S1详细步骤如下：

首先给定一个目标图像和源图像，估计目标图像的深度、相机的内参，以及两帧之间的六自由度自车运动；根据这些估计结果，对场景的三维几何形状进行建模，并通过在源图像中投影像素来重建目标图像；根据重建的光度误差计算损失进行自监督训练，此时估计深度的DepthNet和估计自车运动的PoseNet经过训练，拟合了驾驶视频数据；

所述步骤S2详细步骤如下：

经过步骤S1训练，将用于下游驾驶策略学习任务的视觉编码器替换PoseNet；视觉编码器只接受单帧图像作为输入，并预测当前帧和后续帧之间的自车运动；这个单帧的输入设置与下游任务相一致；视觉编码器通过与步骤S1中的光度重建误差进行优化，除了一个修改-DepthNet和内参估计网络被冻结而不反向传播；使得视觉编码器被强制学习实际的驾驶策略；

步骤S1中经过大量未校准的视频数据资料库上训练的DepthNet和PoseNet用于深度和测程估计任务；

步骤S2中学习过驾驶策略的视觉编码器应用于下游的视觉运动自动驾驶任务作为初始权重；

所述步骤S1基于多帧输入和两个子网络有变化来推断自车运动情况，为步骤S2作参考，其中两个所述子网络为姿态和深度；

所述步骤S2基于单帧输入预测自车运动来编码与驾驶策略相关的信息。