CN115761144A - 一种基于自监督几何建模的自动驾驶策略预训练方法 - Google Patents

一种基于自监督几何建模的自动驾驶策略预训练方法 Download PDF

Info

Publication number
CN115761144A
CN115761144A CN202211570122.5A CN202211570122A CN115761144A CN 115761144 A CN115761144 A CN 115761144A CN 202211570122 A CN202211570122 A CN 202211570122A CN 115761144 A CN115761144 A CN 115761144A
Authority
CN
China
Prior art keywords
visual
training
self
motion
supervision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211570122.5A
Other languages
English (en)
Other versions
CN115761144B (zh
Inventor
陈立
李弘扬
吴鹏浩
贾萧松
严骏驰
乔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai AI Innovation Center
Original Assignee
Shanghai AI Innovation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai AI Innovation Center filed Critical Shanghai AI Innovation Center
Priority to CN202211570122.5A priority Critical patent/CN115761144B/zh
Publication of CN115761144A publication Critical patent/CN115761144A/zh
Application granted granted Critical
Publication of CN115761144B publication Critical patent/CN115761144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及自动驾驶技术领域,具体公开了一种基于自监督几何建模的自动驾驶策略预训练方法,包括:步骤S1,自监督的几何建模,几何建模框架同时生成姿态和深度预测,两个连续两帧作为输入;步骤S2,视觉运动策略预训练,经过S1的训练后,视觉编码器通过预测未来的自车运动,并通过视觉图像重建的光度误差进行优化,来学习驾驶策略表示;本发明通过完全自监督的预训练框架的针对视觉运动驾驶任务的预训练范式,可在不需要任何标签同时实现充分利用大规模数据;本发明中经过预训练的视觉编码器,能够基于当前的视觉输入预测自车运动,并提取与驾驶策略密切相关的特征表征;这种视觉编码器的设计可以灵活地扩展到各种下游应用任务。

Description

一种基于自监督几何建模的自动驾驶策略预训练方法
技术领域
本发明涉及自动驾驶技术领域,具体是一种基于自监督几何建模的自动驾驶策略预训练方法。
背景技术
策略学习是指智能体获取决策策略,在特定环境中执行特定任务的学习过程。视觉运动策略学习将原始传感器观察作为输入,并预测动作,同时以端到端方式协作和训练感知和控制模块。对于视觉运动策略模型,从头开始学习是很困难的,它通常需要大量的标注数据或环境交互才能达到令人满意的性能。
为了缓解视觉运动策略学习中的样本效率问题,预先对视觉感知网络进行预训练是一种很有效的解决方案。最近的研究证明了应用流行的视觉预训练方法,可以在机器人策略学习任务中有优越表现,例如在灵巧操作、运动控制技能和视觉导航任务中。然而,对于一个关键的和具有挑战性的视觉运动任务-自动驾驶,仍缺乏研究。
ACO是唯一为自动驾驶定制的预训练方法。他通过首先在nuScenes上训练一个逆动力模型得到驾驶视频的伪转向标签,然后基于MoCo方法构建对比学习的转向条件辨别。然而,ACO忽略了其他关键的驱动因素,如油门和刹车,其性能在很大程度上受到逆动态模型的限制。Se l fD并不是严格为预训练而设计的,但它也同时利用大量的视频通过半监督学习来学习驾驶策略。它从目标域获取伪标记知识。这两种方法都依赖于伪标记的准确性。相比之下,我们通过密集的几何重建实现了完全的自监督学习,避免了可能的不利影响。
对于一般视觉任务中传统的预训练方法,如分类、分割和检测,通常采用广泛的数据增强来实现平移和视图不变性。对于机器人控制任务,输入序列一般分辨率较小;环境设置简单且集中于对象上。这两个特点不符合自动驾驶场景的高动态与复杂性,现有的一般视觉预训练方法不适用。
之前的工作ACO、Se l fD通过在开放数据集或目标域数据上进行伪标记训练来解决监督问题。然而,伪标记方法容易受到校准不佳的模型噪声的影响。
综上所述,本发明提出一种基于自监督几何建模的自动驾驶策略预训练方法。
发明内容
本发明旨在提出一个完全自监督的驾驶策略预训练框架,从未标注的驾驶视频中学习;它不需要任何标签,充分利用大规模数据进行预训练;我们旨在设计一种视觉编码器,能够基于单一的视觉输入预测自车运动,并提取与驾驶策略密切相关的特征表征;这种视觉编码器的设计可以灵活地扩展到各种下游应用程序;在不同的类型和难度级别的下游任务上,各指标较先前方法有大幅度提升。
为实现上述目的,本发明提供如下技术方案:一种基于自监督几何建模的自动驾驶策略预训练方法,所述方法包括如下步骤:
步骤S1,自监督的几何建模,几何建模框架同时生成姿态和深度预测,两个连续两帧作为输入;
步骤S2,视觉运动策略预训练,经过S1的训练后,视觉编码器通过预测未来的自车运动,并通过视觉图像重建的光度误差进行优化,来学习驾驶策略表示。
作为本发明所述的一种优选实施方案,在本方法中几何建模的数据采用未校准的视频数据,所述视频数据来源于无标注和未校准互联网驾驶视频。
作为本发明所述的一种优选实施方案,所述步骤S1详细步骤如下:
首先给定一个目标图像和源图像,估计目标图像的深度、相机的内参,以及这两帧之间的六自由度自车运动;根据这些估计结果,对场景的三维几何形状进行建模,并通过在源图像中投影像素来重建目标图像;根据重建的光度误差计算损失进行自监督训练,此时估计深度的DepthNet和估计自车运动的PoseNet经过训练,拟合了驾驶视频数据。
作为本发明所述的一种优选实施方案,所述步骤S2详细步骤如下:
经过步骤S1训练,将用于下游驾驶策略学习任务的视觉编码器替换PoseNet;现在,视觉编码器只接受单帧图像作为输入,并预测当前帧和后续帧之间的自车运动;这个单帧的输入设置与下游任务相一致;视觉编码器通过与步骤S1中的光度重建误差进行优化,除了一个修改-DepthNet和内参估计网络被冻结而不反向传播;使得视觉编码器被强制学习实际的驾驶策略。
作为本发明所述的一种优选实施方案,步骤S1中经过大量未校准的视频数据资料库上训练的DepthNet和PoseNet也可以用于深度和测程估计任务。
作为本发明所述的一种优选实施方案,步骤S2中学习过驾驶策略的视觉编码器可应用于下游的视觉运动自动驾驶任务作为初始权重。
作为本发明所述的一种优选实施方案,所述步骤S1基于多帧输入和两个子网络有变化来推断自车运动情况,为步骤S2作参考,其中两个所述子网络为姿态和深度;所述步骤S2基于单帧输入预测自车运动来编码与驾驶策略相关的信息。
与现有技术相比,本发明的有益效果是:
1.通过完全自监督的预训练框架的针对视觉运动驾驶任务的预训练范式,可在不需要任何标签同时实现充分利用大规模数据。
2.经过预训练的视觉编码器,能够基于单一的视觉输入预测自车运动,并提取与驾驶策略密切相关的特征表征;这种视觉编码器的设计可以灵活地扩展到各种下游应用任务。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为本发明一种基于自监督几何建模的自动驾驶策略预训练方法流程图;
图2为本发明一种基于自监督几何建模的自动驾驶策略预训练方法实施流程图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1-图2,本发明提供一种基于自监督几何建模的自动驾驶策略预训练方法,所述方法包括如下步骤:
步骤S1,自监督的几何建模,几何建模框架同时生成姿态和深度预测,两个连续两帧作为输入;
步骤S2,视觉运动策略预训练,经过S1的训练后,视觉编码器通过预测未来的自车运动,并通过视觉图像重建的光度误差进行优化,来学习驾驶策略表示。
进一步的,在本方法中几何建模的数据采用未校准的视频数据,所述视频数据来源于无标注和未校准互联网驾驶视频,互联网驾驶视频可来源于YouTube驾驶视频等。
进一步的,所述步骤S1详细步骤如下:
首先给定一个目标图像和源图像,估计目标图像的深度、相机的内参,以及这两帧之间的六自由度自车运动;根据这些估计结果,对场景的三维几何形状进行建模,并通过在源图像中投影像素来重建目标图像;根据重建的光度误差计算损失进行自监督训练,此时估计深度的DepthNet和估计自车运动的PoseNet经过训练,拟合了驾驶视频数据。
进一步的,所述步骤S2详细步骤如下:
经过步骤S1训练,将用于下游驾驶策略学习任务的视觉编码器替换PoseNet;现在,视觉编码器只接受单帧图像作为输入,并预测当前帧和后续帧之间的自车运动;这个单帧的输入设置与下游任务相一致;视觉编码器通过与步骤S1中的光度重建误差进行优化,除了一个修改-DepthNet和内参估计网络被冻结而不反向传播;使得视觉编码器被强制学习实际的驾驶策略。
进一步的,步骤S1中经过大量未校准的视频数据资料库上训练的DepthNet和PoseNet也可以用于深度和测程估计任务。
进一步的,步骤S2中学习过驾驶策略的视觉编码器可应用于下游的视觉运动自动驾驶任务作为初始权重。
进一步的,所述步骤S1基于多帧输入和两个子网络有变化来推断自车运动情况,为步骤S2作参考,其中两个所述子网络为姿态和深度;所述步骤S2基于单帧输入预测自车运动来编码与驾驶策略相关的信息。
综上所述,并结合图1所示,本方法原理概述如下:
本方法区分为两个阶段,下述第一阶段和第二阶段分别表示步骤S1和步骤S2。
(a)我们关注于预训练一个有效的视觉编码器,通过基于单帧输入,预测自车运动来编码与驾驶策略相关的信息(a.2,第二阶段)。
第二阶段视觉编码器的训练优化需要第一阶段(a.1,第一阶段)多帧输入和两个子网络(姿态和深度)的帮助。在这个说明性的例子中,自车需要采取停止行动。自车运动(a.1)通过判断连续两帧几乎没有变化来推断;而自车运动(a.2)基于单一视觉输入进行预测,重点关注驾驶策略相关信息。
(b)视觉编码器可以被微调并应用于广泛的下游任务中。
两阶段的自监督训练
第一阶段:自监督的几何建模。在第一阶段,给定一个目标图像和源图像,估计目标图像的深度、相机的内参,以及这两帧之间的六自由度自运动。根据这些估计结果,我们可以对场景的三维几何形状进行建模,并通过在源图像中投影像素来重建目标图像。根据重建的光度误差计算损失进行自监督训练。
第二阶段:视觉运动策略预训练。经过第一阶段的训练后,估计深度的DepthNet和估计自车运动的PoseNet经过良好的训练,已经拟合了驾驶视频数据。在第二阶段,我们将用于下游驾驶策略学习任务的视觉编码器替换PoseNet。现在,视觉编码器只接受单帧图像作为输入,并预测当前帧和后续帧之间的自车运动。这个单帧的输入设置与下游任务相一致。视觉编码器通过类似于第一阶段的光度重建误差进行优化,除了一个修改-DepthNet和内参估计网络被冻结而不反向传播。通过这样做,视觉编码器被强制学习实际的驾驶策略,因为两个连续帧之间的自车运动直接与当前时间戳下的驾驶决策或行动相关。
至此,视觉编码器已经从不同的驾驶视频中获得了关于驾驶策略的知识。然后,它可以应用于下游的视觉运动自动驾驶任务作为初始权重。此外,在这大量未校准的视频数据语料库上训练的DepthNet和PoseNet也可以用于深度和测程估计任务。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于自监督几何建模的自动驾驶策略预训练方法,其特征在于,所述方法包括如下步骤:
步骤S1,自监督的几何建模,几何建模框架同时生成姿态和深度预测,两个连续两帧作为输入;
步骤S2,视觉运动策略预训练,经过S1的训练后,视觉编码器通过预测未来的自车运动,并通过视觉图像重建的光度误差进行优化,来学习驾驶策略表示。
2.根据权利要求1所述的一种基于自监督几何建模的自动驾驶策略预训练方法,其特征在于,在本方法中几何建模的数据采用未校准的视频数据,所述视频数据来源于无标注和未校准互联网驾驶视频。
3.根据权利要求2所述的一种基于自监督几何建模的自动驾驶策略预训练方法,其特征在于,所述步骤S1详细步骤如下:
首先给定一个目标图像和源图像,估计目标图像的深度、相机的内参,以及这两帧之间的六自由度自车运动;根据这些估计结果,对场景的三维几何形状进行建模,并通过在源图像中投影像素来重建目标图像;根据重建的光度误差计算损失进行自监督训练,此时估计深度的DepthNet和估计自车运动的PoseNet经过训练,拟合了驾驶视频数据。
4.根据权利要求3所述的一种基于自监督几何建模的自动驾驶策略预训练方法,其特征在于,所述步骤S2详细步骤如下:
经过步骤S1训练,将用于下游驾驶策略学习任务的视觉编码器替换PoseNet;现在,视觉编码器只接受单帧图像作为输入,并预测当前帧和后续帧之间的自车运动;这个单帧的输入设置与下游任务相一致;视觉编码器通过与步骤S1中的光度重建误差进行优化,除了一个修改-DepthNet和内参估计网络被冻结而不反向传播;使得视觉编码器被强制学习实际的驾驶策略。
5.根据权利要求4所述的一种基于自监督几何建模的自动驾驶策略预训练方法,其特征在于,步骤S1中经过大量未校准的视频数据资料库上训练的DepthNet和PoseNet也可用于深度和测程估计任务。
6.根据权利要求5所述的一种基于自监督几何建模的自动驾驶策略预训练方法,其特征在于,步骤S2中学习过驾驶策略的视觉编码器可应用于下游的视觉运动自动驾驶任务作为初始权重。
7.根据权利要求6所述的一种基于自监督几何建模的自动驾驶策略预训练方法,其特征在于,所述步骤S1基于多帧输入和两个子网络有变化来推断自车运动情况,为步骤S2作参考,其中两个所述子网络为姿态和深度。
8.根据权利要求7所述的一种基于自监督几何建模的自动驾驶策略预训练方法,其特征在于,所述步骤S2基于单帧输入预测自车运动来编码与驾驶策略相关的信息。
CN202211570122.5A 2022-12-08 2022-12-08 一种基于自监督几何建模的自动驾驶策略预训练方法 Active CN115761144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211570122.5A CN115761144B (zh) 2022-12-08 2022-12-08 一种基于自监督几何建模的自动驾驶策略预训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211570122.5A CN115761144B (zh) 2022-12-08 2022-12-08 一种基于自监督几何建模的自动驾驶策略预训练方法

Publications (2)

Publication Number Publication Date
CN115761144A true CN115761144A (zh) 2023-03-07
CN115761144B CN115761144B (zh) 2024-06-04

Family

ID=85344496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211570122.5A Active CN115761144B (zh) 2022-12-08 2022-12-08 一种基于自监督几何建模的自动驾驶策略预训练方法

Country Status (1)

Country Link
CN (1) CN115761144B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152752A (zh) * 2023-10-30 2023-12-01 之江实验室 一种自适应权重的视觉深度特征重建方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200372822A1 (en) * 2019-01-14 2020-11-26 Polixir Technologies Limited Training system for autonomous driving control policy
CN113344069A (zh) * 2021-05-31 2021-09-03 成都快眼科技有限公司 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法
CN114170482A (zh) * 2022-02-11 2022-03-11 阿里巴巴达摩院(杭州)科技有限公司 模型训练方法、装置、设备及介质
CN115131753A (zh) * 2022-04-19 2022-09-30 中山大学·深圳 一种自动驾驶场景下的异构多任务协同系统
CN115205633A (zh) * 2022-07-27 2022-10-18 北京大学 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200372822A1 (en) * 2019-01-14 2020-11-26 Polixir Technologies Limited Training system for autonomous driving control policy
CN113344069A (zh) * 2021-05-31 2021-09-03 成都快眼科技有限公司 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法
CN114170482A (zh) * 2022-02-11 2022-03-11 阿里巴巴达摩院(杭州)科技有限公司 模型训练方法、装置、设备及介质
CN115131753A (zh) * 2022-04-19 2022-09-30 中山大学·深圳 一种自动驾驶场景下的异构多任务协同系统
CN115205633A (zh) * 2022-07-27 2022-10-18 北京大学 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LUO, CX ET.AL: "Self-Supervised Pillar Motion Learning for Autonomous Driving", 2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 31 January 2021 (2021-01-31), pages 3182 - 3191 *
程阳 等: "基于改进DarkNet框架的YOLO安全帽检测模型", 机器人技术与应用, no. 1, 31 January 2022 (2022-01-31), pages 29 - 34 *
颜俊琦 等: "基于强化学习的对抗预训练语言建模方法", 中文信息学报, vol. 36, no. 4, 30 April 2022 (2022-04-30), pages 20 - 28 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152752A (zh) * 2023-10-30 2023-12-01 之江实验室 一种自适应权重的视觉深度特征重建方法和装置
CN117152752B (zh) * 2023-10-30 2024-02-20 之江实验室 一种自适应权重的视觉深度特征重建方法和装置

Also Published As

Publication number Publication date
CN115761144B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
Li et al. End-to-end united video dehazing and detection
JP6957624B2 (ja) ターゲット・ドメイン画像へのソース・ドメイン画像の変換
Wang et al. Sne-roadseg+: Rethinking depth-normal translation and deep supervision for freespace detection
Akan et al. Stretchbev: Stretching future instance prediction spatially and temporally
Yang et al. Spatio-temporal domain awareness for multi-agent collaborative perception
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
KR20200018283A (ko) 컨볼루션 순환 신경망을 훈련시키는 방법 및 훈련된 컨볼루션 순환 신경망을 사용하는 입력된 비디오의 의미적 세그먼트화 방법
Wozniak et al. Scene recognition for indoor localization of mobile robots using deep CNN
WO2020088766A1 (en) Methods for optical flow estimation
CN110675329B (zh) 基于视觉语义引导的图像去模糊方法
CN111696110A (zh) 场景分割方法及系统
CN115761144B (zh) 一种基于自监督几何建模的自动驾驶策略预训练方法
Han et al. Streaming object detection for 3-d point clouds
Chen et al. Sim-to-real 6d object pose estimation via iterative self-training for robotic bin picking
KR20200097618A (ko) 신경망 학습을 통한 데이터 처리 장치, 신경망 학습을 통한 데이터 처리 방법, 및 동일 방법을 기록한 기록 매체
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
JP2022164640A (ja) マルチモーダル自動ラベル付けと能動的学習のためのデータセットとモデル管理のためのシステムと方法
Sünderhauf et al. Predicting the change–a step towards life-long operation in everyday environments
Wenzel et al. Modular vehicle control for transferring semantic information between weather conditions using gans
Lu et al. Label-efficient video object segmentation with motion clues
Gu et al. A robust attention-enhanced network with transformer for visual tracking
Zhang et al. Diff-tracker: Text-to-image diffusion models are unsupervised trackers
Schenkel et al. Domain adaptation for semantic segmentation using convolutional neural networks
Khan et al. Towards generalizing sensorimotor control across weather conditions
Wang et al. PPTtrack: Pyramid pooling based Transformer backbone for visual tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant