CN115761144B - 一种基于自监督几何建模的自动驾驶策略预训练方法 - Google Patents
一种基于自监督几何建模的自动驾驶策略预训练方法 Download PDFInfo
- Publication number
- CN115761144B CN115761144B CN202211570122.5A CN202211570122A CN115761144B CN 115761144 B CN115761144 B CN 115761144B CN 202211570122 A CN202211570122 A CN 202211570122A CN 115761144 B CN115761144 B CN 115761144B
- Authority
- CN
- China
- Prior art keywords
- visual
- self
- training
- driving strategy
- geometric modeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000000007 visual effect Effects 0.000 claims abstract description 54
- 230000033001 locomotion Effects 0.000 claims abstract description 33
- 230000008859 change Effects 0.000 claims description 3
- 230000009012 visual motion Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 3
- 238000012512 characterization method Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 229910015234 MoCo Inorganic materials 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及自动驾驶技术领域,具体公开了一种基于自监督几何建模的自动驾驶策略预训练方法,包括:步骤S1,自监督的几何建模,几何建模框架同时生成姿态和深度预测,两个连续两帧作为输入;步骤S2,视觉运动策略预训练,经过S1的训练后,视觉编码器通过预测未来的自车运动,并通过视觉图像重建的光度误差进行优化,来学习驾驶策略表示;本发明通过完全自监督的预训练框架的针对视觉运动驾驶任务的预训练范式,可在不需要任何标签同时实现充分利用大规模数据;本发明中经过预训练的视觉编码器,能够基于当前的视觉输入预测自车运动,并提取与驾驶策略密切相关的特征表征;这种视觉编码器的设计可以灵活地扩展到各种下游应用任务。
Description
技术领域
本发明涉及自动驾驶技术领域,具体是一种基于自监督几何建模的自动驾驶策略预训练方法。
背景技术
策略学习是指智能体获取决策策略,在特定环境中执行特定任务的学习过程。视觉运动策略学习将原始传感器观察作为输入,并预测动作,同时以端到端方式协作和训练感知和控制模块。对于视觉运动策略模型,从头开始学习是很困难的,它通常需要大量的标注数据或环境交互才能达到令人满意的性能。
为了缓解视觉运动策略学习中的样本效率问题,预先对视觉感知网络进行预训练是一种很有效的解决方案。最近的研究证明了应用流行的视觉预训练方法,可以在机器人策略学习任务中有优越表现,例如在灵巧操作、运动控制技能和视觉导航任务中。然而,对于一个关键的和具有挑战性的视觉运动任务-自动驾驶,仍缺乏研究。
ACO是唯一为自动驾驶定制的预训练方法。他通过首先在nuScenes上训练一个逆动力模型得到驾驶视频的伪转向标签,然后基于MoCo方法构建对比学习的转向条件辨别。然而,ACO忽略了其他关键的驱动因素,如油门和刹车,其性能在很大程度上受到逆动态模型的限制。Se l fD并不是严格为预训练而设计的,但它也同时利用大量的视频通过半监督学习来学习驾驶策略。它从目标域获取伪标记知识。这两种方法都依赖于伪标记的准确性。相比之下,我们通过密集的几何重建实现了完全的自监督学习,避免了可能的不利影响。
对于一般视觉任务中传统的预训练方法,如分类、分割和检测,通常采用广泛的数据增强来实现平移和视图不变性。对于机器人控制任务,输入序列一般分辨率较小;环境设置简单且集中于对象上。这两个特点不符合自动驾驶场景的高动态与复杂性,现有的一般视觉预训练方法不适用。
之前的工作ACO、Se l fD通过在开放数据集或目标域数据上进行伪标记训练来解决监督问题。然而,伪标记方法容易受到校准不佳的模型噪声的影响。
综上所述,本发明提出一种基于自监督几何建模的自动驾驶策略预训练方法。
发明内容
本发明旨在提出一个完全自监督的驾驶策略预训练框架,从未标注的驾驶视频中学习;它不需要任何标签,充分利用大规模数据进行预训练;我们旨在设计一种视觉编码器,能够基于单一的视觉输入预测自车运动,并提取与驾驶策略密切相关的特征表征;这种视觉编码器的设计可以灵活地扩展到各种下游应用程序;在不同的类型和难度级别的下游任务上,各指标较先前方法有大幅度提升。
为实现上述目的,本发明提供如下技术方案:一种基于自监督几何建模的自动驾驶策略预训练方法,所述方法包括如下步骤:
步骤S1,自监督的几何建模,几何建模框架同时生成姿态和深度预测,两个连续两帧作为输入;
步骤S2,视觉运动策略预训练,经过S1的训练后,视觉编码器通过预测未来的自车运动,并通过视觉图像重建的光度误差进行优化,来学习驾驶策略表示。
作为本发明所述的一种优选实施方案,在本方法中几何建模的数据采用未校准的视频数据,所述视频数据来源于无标注和未校准互联网驾驶视频。
作为本发明所述的一种优选实施方案,所述步骤S1详细步骤如下:
首先给定一个目标图像和源图像,估计目标图像的深度、相机的内参,以及这两帧之间的六自由度自车运动;根据这些估计结果,对场景的三维几何形状进行建模,并通过在源图像中投影像素来重建目标图像;根据重建的光度误差计算损失进行自监督训练,此时估计深度的DepthNet和估计自车运动的PoseNet经过训练,拟合了驾驶视频数据。
作为本发明所述的一种优选实施方案,所述步骤S2详细步骤如下:
经过步骤S1训练,将用于下游驾驶策略学习任务的视觉编码器替换PoseNet;现在,视觉编码器只接受单帧图像作为输入,并预测当前帧和后续帧之间的自车运动;这个单帧的输入设置与下游任务相一致;视觉编码器通过与步骤S1中的光度重建误差进行优化,除了一个修改-DepthNet和内参估计网络被冻结而不反向传播;使得视觉编码器被强制学习实际的驾驶策略。
作为本发明所述的一种优选实施方案,步骤S1中经过大量未校准的视频数据资料库上训练的DepthNet和PoseNet也可以用于深度和测程估计任务。
作为本发明所述的一种优选实施方案,步骤S2中学习过驾驶策略的视觉编码器可应用于下游的视觉运动自动驾驶任务作为初始权重。
作为本发明所述的一种优选实施方案,所述步骤S1基于多帧输入和两个子网络有变化来推断自车运动情况,为步骤S2作参考,其中两个所述子网络为姿态和深度;所述步骤S2基于单帧输入预测自车运动来编码与驾驶策略相关的信息。
与现有技术相比,本发明的有益效果是:
1.通过完全自监督的预训练框架的针对视觉运动驾驶任务的预训练范式,可在不需要任何标签同时实现充分利用大规模数据。
2.经过预训练的视觉编码器,能够基于单一的视觉输入预测自车运动,并提取与驾驶策略密切相关的特征表征;这种视觉编码器的设计可以灵活地扩展到各种下游应用任务。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为本发明一种基于自监督几何建模的自动驾驶策略预训练方法流程图;
图2为本发明一种基于自监督几何建模的自动驾驶策略预训练方法实施流程图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1-图2,本发明提供一种基于自监督几何建模的自动驾驶策略预训练方法,所述方法包括如下步骤:
步骤S1,自监督的几何建模,几何建模框架同时生成姿态和深度预测,两个连续两帧作为输入;
步骤S2,视觉运动策略预训练,经过S1的训练后,视觉编码器通过预测未来的自车运动,并通过视觉图像重建的光度误差进行优化,来学习驾驶策略表示。
进一步的,在本方法中几何建模的数据采用未校准的视频数据,所述视频数据来源于无标注和未校准互联网驾驶视频,互联网驾驶视频可来源于YouTube驾驶视频等。
进一步的,所述步骤S1详细步骤如下:
首先给定一个目标图像和源图像,估计目标图像的深度、相机的内参,以及这两帧之间的六自由度自车运动;根据这些估计结果,对场景的三维几何形状进行建模,并通过在源图像中投影像素来重建目标图像;根据重建的光度误差计算损失进行自监督训练,此时估计深度的DepthNet和估计自车运动的PoseNet经过训练,拟合了驾驶视频数据。
进一步的,所述步骤S2详细步骤如下:
经过步骤S1训练,将用于下游驾驶策略学习任务的视觉编码器替换PoseNet;现在,视觉编码器只接受单帧图像作为输入,并预测当前帧和后续帧之间的自车运动;这个单帧的输入设置与下游任务相一致;视觉编码器通过与步骤S1中的光度重建误差进行优化,除了一个修改-DepthNet和内参估计网络被冻结而不反向传播;使得视觉编码器被强制学习实际的驾驶策略。
进一步的,步骤S1中经过大量未校准的视频数据资料库上训练的DepthNet和PoseNet也可以用于深度和测程估计任务。
进一步的,步骤S2中学习过驾驶策略的视觉编码器可应用于下游的视觉运动自动驾驶任务作为初始权重。
进一步的,所述步骤S1基于多帧输入和两个子网络有变化来推断自车运动情况,为步骤S2作参考,其中两个所述子网络为姿态和深度;所述步骤S2基于单帧输入预测自车运动来编码与驾驶策略相关的信息。
综上所述,并结合图1所示,本方法原理概述如下:
本方法区分为两个阶段,下述第一阶段和第二阶段分别表示步骤S1和步骤S2。
(a)我们关注于预训练一个有效的视觉编码器,通过基于单帧输入,预测自车运动来编码与驾驶策略相关的信息(a.2,第二阶段)。
第二阶段视觉编码器的训练优化需要第一阶段(a.1,第一阶段)多帧输入和两个子网络(姿态和深度)的帮助。在这个说明性的例子中,自车需要采取停止行动。自车运动(a.1)通过判断连续两帧几乎没有变化来推断;而自车运动(a.2)基于单一视觉输入进行预测,重点关注驾驶策略相关信息。
(b)视觉编码器可以被微调并应用于广泛的下游任务中。
两阶段的自监督训练
第一阶段:自监督的几何建模。在第一阶段,给定一个目标图像和源图像,估计目标图像的深度、相机的内参,以及这两帧之间的六自由度自运动。根据这些估计结果,我们可以对场景的三维几何形状进行建模,并通过在源图像中投影像素来重建目标图像。根据重建的光度误差计算损失进行自监督训练。
第二阶段:视觉运动策略预训练。经过第一阶段的训练后,估计深度的DepthNet和估计自车运动的PoseNet经过良好的训练,已经拟合了驾驶视频数据。在第二阶段,我们将用于下游驾驶策略学习任务的视觉编码器替换PoseNet。现在,视觉编码器只接受单帧图像作为输入,并预测当前帧和后续帧之间的自车运动。这个单帧的输入设置与下游任务相一致。视觉编码器通过类似于第一阶段的光度重建误差进行优化,除了一个修改-DepthNet和内参估计网络被冻结而不反向传播。通过这样做,视觉编码器被强制学习实际的驾驶策略,因为两个连续帧之间的自车运动直接与当前时间戳下的驾驶决策或行动相关。
至此,视觉编码器已经从不同的驾驶视频中获得了关于驾驶策略的知识。然后,它可以应用于下游的视觉运动自动驾驶任务作为初始权重。此外,在这大量未校准的视频数据语料库上训练的DepthNet和PoseNet也可以用于深度和测程估计任务。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (1)
1.一种基于自监督几何建模的自动驾驶策略预训练方法,其特征在于,所述方法包括如下步骤:
步骤S1,自监督的几何建模,几何建模框架同时生成姿态和深度预测,两个连续两帧作为输入;
步骤S2,视觉运动策略预训练,经过S1的训练后,视觉编码器通过预测未来的自车运动,并通过视觉图像重建的光度误差进行优化,来学习驾驶策略表示;
几何建模的数据采用未校准的视频数据,所述视频数据来源于无标注和未校准互联网驾驶视频;
所述步骤S1详细步骤如下:
首先给定一个目标图像和源图像,估计目标图像的深度、相机的内参,以及两帧之间的六自由度自车运动;根据这些估计结果,对场景的三维几何形状进行建模,并通过在源图像中投影像素来重建目标图像;根据重建的光度误差计算损失进行自监督训练,此时估计深度的DepthNet和估计自车运动的PoseNet经过训练,拟合了驾驶视频数据;
所述步骤S2详细步骤如下:
经过步骤S1训练,将用于下游驾驶策略学习任务的视觉编码器替换PoseNet;视觉编码器只接受单帧图像作为输入,并预测当前帧和后续帧之间的自车运动;这个单帧的输入设置与下游任务相一致;视觉编码器通过与步骤S1中的光度重建误差进行优化,除了一个修改-DepthNet和内参估计网络被冻结而不反向传播;使得视觉编码器被强制学习实际的驾驶策略;
步骤S1中经过大量未校准的视频数据资料库上训练的DepthNet和PoseNet用于深度和测程估计任务;
步骤S2中学习过驾驶策略的视觉编码器应用于下游的视觉运动自动驾驶任务作为初始权重;
所述步骤S1基于多帧输入和两个子网络有变化来推断自车运动情况,为步骤S2作参考,其中两个所述子网络为姿态和深度;
所述步骤S2基于单帧输入预测自车运动来编码与驾驶策略相关的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211570122.5A CN115761144B (zh) | 2022-12-08 | 2022-12-08 | 一种基于自监督几何建模的自动驾驶策略预训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211570122.5A CN115761144B (zh) | 2022-12-08 | 2022-12-08 | 一种基于自监督几何建模的自动驾驶策略预训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115761144A CN115761144A (zh) | 2023-03-07 |
CN115761144B true CN115761144B (zh) | 2024-06-04 |
Family
ID=85344496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211570122.5A Active CN115761144B (zh) | 2022-12-08 | 2022-12-08 | 一种基于自监督几何建模的自动驾驶策略预训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115761144B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152752B (zh) * | 2023-10-30 | 2024-02-20 | 之江实验室 | 一种自适应权重的视觉深度特征重建方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344069A (zh) * | 2021-05-31 | 2021-09-03 | 成都快眼科技有限公司 | 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法 |
CN114170482A (zh) * | 2022-02-11 | 2022-03-11 | 阿里巴巴达摩院(杭州)科技有限公司 | 模型训练方法、装置、设备及介质 |
CN115131753A (zh) * | 2022-04-19 | 2022-09-30 | 中山大学·深圳 | 一种自动驾驶场景下的异构多任务协同系统 |
CN115205633A (zh) * | 2022-07-27 | 2022-10-18 | 北京大学 | 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109765820B (zh) * | 2019-01-14 | 2019-08-09 | 南栖仙策(南京)科技有限公司 | 一种用于自动驾驶控制策略的训练系统 |
-
2022
- 2022-12-08 CN CN202211570122.5A patent/CN115761144B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344069A (zh) * | 2021-05-31 | 2021-09-03 | 成都快眼科技有限公司 | 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法 |
CN114170482A (zh) * | 2022-02-11 | 2022-03-11 | 阿里巴巴达摩院(杭州)科技有限公司 | 模型训练方法、装置、设备及介质 |
CN115131753A (zh) * | 2022-04-19 | 2022-09-30 | 中山大学·深圳 | 一种自动驾驶场景下的异构多任务协同系统 |
CN115205633A (zh) * | 2022-07-27 | 2022-10-18 | 北京大学 | 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 |
Non-Patent Citations (3)
Title |
---|
Self-Supervised Pillar Motion Learning for Autonomous Driving;Luo, CX et.al;2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION;20210131;第3182-3191页 * |
基于强化学习的对抗预训练语言建模方法;颜俊琦 等;中文信息学报;20220430;第36卷(第4期);第20-28页 * |
基于改进DarkNet框架的YOLO安全帽检测模型;程阳 等;机器人技术与应用;20220131(第1期);第29-34页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115761144A (zh) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Red: Reinforced encoder-decoder networks for action anticipation | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
Wang et al. | Sne-roadseg+: Rethinking depth-normal translation and deep supervision for freespace detection | |
Chen et al. | Efficient movement representation by embedding dynamic movement primitives in deep autoencoders | |
CN115761144B (zh) | 一种基于自监督几何建模的自动驾驶策略预训练方法 | |
CN107292918B (zh) | 基于视频在线学习的跟踪方法和装置 | |
Yang et al. | Spatio-temporal domain awareness for multi-agent collaborative perception | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN113795851A (zh) | 具有针对使用对抗训练的表示学习的推理的大规模生成神经网络模型 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
Farhadi et al. | TKD: Temporal knowledge distillation for active perception | |
WO2021009293A1 (en) | Training a neural network to control an agent using task-relevant adversarial imitation learning | |
CN115588237A (zh) | 一种基于单目rgb图像的三维手部姿态估计方法 | |
CN116595871A (zh) | 基于动态时空交互图的车辆轨迹预测建模方法与装置 | |
Lu et al. | Label-efficient video object segmentation with motion clues | |
Gu et al. | A robust attention-enhanced network with transformer for visual tracking | |
Eze et al. | Learning by Watching: A Review of Video-based Learning Approaches for Robot Manipulation | |
CN114241606A (zh) | 一种基于自适应集学习预测的人物交互检测方法 | |
Khan et al. | Latent space reinforcement learning for steering angle prediction | |
Schenkel et al. | Domain adaptation for semantic segmentation using convolutional neural networks | |
Li | Moving object detection for unseen videos via truncated weighted robust principal component analysis and salience convolution neural network | |
KR20200097618A (ko) | 신경망 학습을 통한 데이터 처리 장치, 신경망 학습을 통한 데이터 처리 방법, 및 동일 방법을 기록한 기록 매체 | |
Xu et al. | PCformer: A parallel convolutional transformer network for 360 depth estimation | |
Khan et al. | Towards generalizing sensorimotor control across weather conditions | |
Zhong et al. | Unsupervised learning for forecasting action representations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |