CN116563807A

CN116563807A - 模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN116563807A
Application number: CN202310450915.1A
Authority: CN
Inventors: 肖华辉; 李雪
Original assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Current assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-08-08

Abstract

本公开提供了一种模型训练方法、装置、电子设备及存储介质。本公开实施例的模型训练方法，包括：获取车辆的环视图像及对应环视图像的激光雷达点云；利用环视图像通过教师学生模型获得强增强BEV特征和弱增强BEV特征，教师学生模型包括教师模型和学生模型；利用激光雷达点云通过点云模型获得点云3D特征；根据点云3D特征和强增强BEV特征确定迁移损失；根据强增强BEV特征和弱增强BEV特征确定图像模态内损失；根据迁移损失和图像模态内损失得到整体损失；利用整体损失更新点云模型和学生模型的参数，利用更新后的学生模型的参数更新教师模型的参数；其中，学生模型用于提取环视图像的BEV特征。本公开实施例训练得到的模型所获得的环视图像的BEV特征可直接用于3D目标检测。

Description

模型训练方法、装置、电子设备及存储介质

技术领域

本公开涉及一种模型训练方法、装置、电子设备及存储介质。

背景技术

目前，根据数据源的不同，3D目标检测可分为基于点云数据的3D目标检测和基于图像数据的3D目标检测，由于图像无法保留3D数据的空间结构信息，因此，传统的基于单幅2D图像的3D目标检测在精度上一直落后与基于点云的3D目标检测算法。

近年来，随着车载摄像头数量增多，许多研究尝试融合多个车载摄像头的图像数据，提取车辆360°范围内的BEV特征，由于部分摄像头存在交叉视野，在一定程度上缓解了2D图像深度缺失的影响，因此，基于BEV特征检测车辆行驶范围内3D目标的技术成为基于图像数据的3D目标检测技术的主流。

基于BEV特征检测车辆行驶范围内3D目标的相关技术，根据在模型训练阶段是否使用激光雷达数据矫正深度，可大致分为两种，BEVDepth为代表的3D目标检测和以BEVDet、PETR为代表的3D目标检测。在以BEVDepth为代表的3D目标检测技术中，使用激光雷达数据对图像的深度预测进行监督矫正，能大幅度提高3D目标检测模型的预测精度，而采用Transformer隐式获取BEV特征的PETR算法，在NuScenes检测分数(NuScenes DetectionScore,NDS)指标上同BEVDepth对比，仅落后1％，这表明使用多个车载摄像头能够在很大程度上弥补2D图像深度缺失的固有缺陷。然而，在NuScenes数据上，基于多个车载摄像头生成的环视BEV特征进行3D目标检测，所达到的NDS精度只有0.664；而基于激光雷达点云的NDS精度达到了0.734。因此，即使车载相机存在交叉视野，2D图像数据依旧存在本质性的表征缺陷。由此，使用包含激光雷达数据和图像数据等的多模态数据训练3D目标检测模型，成为提高3D目标检测模型精度的主要手段。

在论文UVTR：Unifying Voxel-based Representation with Transformer for3D ObjectDetection公开的技术方案，通过将来自图像数据的BEV特征与来自激光雷达数据的点云特征进行对齐提升3D目标检测模型的精度，结果并不理想。因此，如何在BEV特征中既保留2D图像特征在纹理、色彩上的表征优势，又充分挖掘3D结构特征并包含该BEV特征中，是目前使用多模态数据提升3D目标检测模型精度的关键。

目前，使用多模态数据训练3D目标检测模型时主要采用有监督的方式。在呈几何增长的数据量和复杂场景的压力下，有监督的训练方式很大程度上限制了3D目标检测模型的泛化能力，导致3D目标检测模型精度低、训练成本高且难以应用到多种场景中。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种模型训练方法、装置、电子设备及存储介质。

根据本公开的一个方面，提供了一种模型训练方法，包括：

获取车辆的环视图像及对应所述环视图像的激光雷达点云；

利用环视图像通过教师学生模型获得强增强BEV特征和弱增强BEV特征，所述教师学生模型包括教师模型和学生模型；

利用激光雷达点云通过点云模型获得点云3D特征；

根据点云3D特征和强增强BEV特征确定迁移损失；

根据强增强BEV特征和弱增强BEV特征确定图像模态内损失；

根据迁移损失和图像模态内损失得到整体损失；

利用所述整体损失更新所述点云模型和所述学生模型的参数，利用更新后的学生模型的参数更新所述教师模型的参数；

其中，所述学生模型用于提取环视图像的BEV特征。

在本公开实施例的模型训练方法的一些实现方式中，利用所述整体损失更新所述点云模型和所述学生模型的参数，利用更新后的学生模型的参数更新所述教师模型的参数，包括：在所述整体损失的反向传播过程中，阻断所述教师模型的梯度回传，仅在学生模型和点云模型中进行梯度回传以更新学生模型和点云模型的参数；以及，利用更新后的学生模型的参数采用EMA方式更新教师模型的参数。

在本公开实施例的模型训练方法的一些实现方式中，所述利用更新后的学生模型的参数采用EMA方式更新教师模型的参数，包括：按照下式基于更新后的学生模型中的参数ω更新所述教师模型中相应参数ξ：

ξ＝τξ+(1-τ)ω

其中，τ为衰减率，τ∈[0,1]。

在本公开实施例的模型训练方法的一些实现方式中，所述强增强BEV特征包括强增强3D BEV特征和强增强2D BEV特征，所述弱增强3D特征包括弱增强3D BEV特征和弱增强2D BEV特征；所述根据强增强BEV特征和弱增强BEV特征确定图像模态内损失，包括：计算强增强3D BEV特征与弱增强3D BEV特征之间的对比损失，以得到3D特征对比损失；计算强增强2D BEV特征与弱增强2D BEV特征之间的对比损失，以得到2D特征对比损失；根据3D特征对比损失和2D特征对比损失获得强增强BEV特征和弱增强BEV特征间的图像模态内损失。

在本公开实施例的模型训练方法的一些实现方式中，所述强增强BEV特征包括强增强3D BEV特征；根据点云3D特征和强增强BEV特征确定迁移损失，包括：计算强增强3DBEV特征和点云3D特征间的对比损失。

在本公开实施例的模型训练方法的一些实现方式中，所述利用环视图像通过教师学生模型获得强增强BEV特征和弱增强BEV特征，包括：对所述环视图像中各视角图像进行不同程度的数据增强处理，以获得所述环视图像中各视角图像的弱增强图像数据和强增强图像数据；利用所述环视图像中各视角图像的弱增强图像数据经所述教师模型处理得到各个视角图像的弱增强BEV特征；利用所述环视图像中各视角图像的强增强图像数据经所述学生模型处理得到各个视角图像的强增强BEV特征。

在本公开实施例的模型训练方法的一些实现方式中，所述对所述环视图像中各视角图像进行不同程度的数据增强处理，包括：分别对各视角图像进行缩放和裁剪，以得到统一大小的缩放裁剪后的视角图像；对缩放裁剪后的视角图像进行随机翻转和不同程度的旋转操作，以得到各视角图像的弱增强图像和弱增强图像。

在本公开实施例的模型训练方法的一些实现方式中，所述不同程度的旋转操作包括弱操作，所述弱操作包括：在用于采集环视图像中各视角图像的多个相机中选定一个相机作为基准相机，根据预定的图像旋转角度确定基准相机的旋转矩阵；将基准相机的旋转矩阵转换到其他各相机的图像坐标系下以得到其他各相机的旋转矩阵；对缩放裁剪后的各视角图像进行随机翻转后，基于相应相机的旋转矩阵对随机翻转后的视角图像处理以得到各视角图像的弱增强图像。

在本公开实施例的模型训练方法的一些实现方式中，所述教师模型的处理与所述学生模型的处理分别包括：提取各视角图像的2D图像特征；利用各视角图像的2D图像特征预测深度信息以得到各视角图像的3D图像特征；利用各视角图像的3D图像特征得到环视图像的3D BEV特征；将环视图像的3D BEV特征塌陷为2D BEV特征。

本公开实施例的模型训练方法的一些实现方式中，环视图像的BEV特征用于3D目标检测。

本公开的第二方面，提供了一种模型训练装置，包括：

获取单元，用于获取车辆的环视图像及对应所述环视图像的激光雷达点云；

图像处理单元，用于利用环视图像通过教师学生模型获得强增强BEV特征和弱增强BEV特征，所述教师学生模型包括教师模型和学生模型；

点云处理单元，用于利用激光雷达点云通过点云模型获得点云3D特征；

迁移损失确定单元，用于根据点云3D特征和强增强BEV特征确定迁移损失；

模态内损失确定单元，用于根据强增强BEV特征和弱增强BEV特征确定图像模态内损失；

整体损失确定单元，用于根据迁移损失和图像模态内损失得到整体损失；

参数更新单元，用于利用所述整体损失更新所述点云模型和所述学生模型的参数，利用更新后的学生模型的参数更新所述教师模型的参数；

其中，所述学生模型用于提取环视图像的BEV特征。

本公开的第三方面，提供了一种电子设备，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述模型训练方法。

本公开的第四方面，提供了一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述模型训练方法。

本公开实施例结合了2D图像的模态内对比损失和2D图像与点云的跨模态对比损失实现BEV特征提取模型(即，本文的学生模型)的预训练，不仅能够加速模型收敛，有效提高模型精度，同时还可提升BEV特征的表征能力。此外，本公开实施例仅在训练阶段使用激光点云数据，在应用阶段则仅需环视图像等图像数据即可实现提取到BEV特征，从而实现例如3D目标检测等目的，能够大大降低自动驾驶场景中诸如3D目标检测等应用所需的计算资源，同时提高例如3D目标检测等应用的精度。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是根据本公开的一个实施方式的模型训练方法的流程示意图。

图2是根据本公开的一个实施方式的深度学习网络的架构示意图。

图3是根据本公开的一个实施方式的教师学生模型获得3D图像特征的过程示意图。

图4是根据本公开的一个实施方式的整体损失计算过程以及EMA算法更新教师模型参数过程的示意图。

图5是根据本公开的一个实施方式的采用处理系统的硬件实现方式的3D目标检测装置的结构示意框图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

目前，自动驾驶领域可直接用于3D目标检测的传感器数据主要有车载相机采集的图像数据、激光点云数据、雷达点云数据等。任何单一的数据源都存在相应的优势：

图像数据属于稠密数据，能保留现实场景下丰富的纹理、色彩、光照等信息；激光点云数据能够精确的计算和检测出空间物体的距离。

当下，对图像BEV特征提取的技术较为成熟，主流方向为直接在BEV特征阶段，对点云BEV特征和图像BEV特征进行融合。但此方法在3D目标检测过程中需同时对激光点云数据和车载相机数据进行处理，对车载设备的计算能力要求较高，目前不能满足实时性的现实需求。

其次，现有的多模态3D目标检测局限于有监督，论文BYOL:Bootstrap yourownlatent:A new approach to self-supervised Learning已经证实仅使用正例计算对比损失，结合EMA算法进行预训练能显著提高3D目标检测模型的表征能力。然而，直接使用车载摄像头的环视BEV特征进行模型预训练，仍是空白，主要原因如下：一，BEV特征提取需要占用大量计算资源；二，BEV特征缺乏一种有效的损失评测算法。

下面针对自动驾驶领域多模态的无监督3D目标检测模型训练技术做简要说明。

2021年末公开的论文BEVDet:High-performance Multi-camera 3D ObjectDetectionin Bird-Eye-View作为BEV的先行者，继承了Lift-splat的范式，首先提取图像的2D特征，然后使用视觉Transformer将2D特征从图像视图转换到BEV视角，最后，基于BVE特征构建特定于任务的头部，并预测3D目标。2022年出现的BEVDepth则是在BEVDet的基础上综合了CaDDN的思想，基于图像的2D特征预测深度信息，并使用激光雷达点云数据对预测深度进行监督，实验结果证明，此方法在相较于BEVDet在nuScenes数据集的NDS指标上提升了近10％。然而，虽然BEVDepth在3D目标检测模型训练阶段引入了点云进行深度监督，但并未有效利用点云中前景物体的结构信息，因此，结果并不理想。

针对BEVDet和BEVDepth的缺陷，2022年公开的论文UVTR:Unifying Voxel-basedRepresentation with Transformer for 3D Object Detection，则从多模态特征融合的角度出发，旨在统一体素空间的多模态表示，实现准确、稳健的单模态或跨模态3D检测。该论文提出了跨模态交互，利用不同传感器的固有特征，实现知识迁移和模态融合。2022年11月发表的BEVDistill进一步提出了BEV特征蒸馏的概念，其使用点云提取的3D BEV特征作为教师，多视角图像提取的2D BEV特征作为学生，分别计算BEV特征蒸馏损失和实例目标预测蒸馏损失，达到将点云特征知识迁移到图像特征中的目的。BEVDistill在nuScenes数据集上的NDS指标较UVTR提升了近1％，为后续BEV知识蒸馏提出了研究范式。2022年末公开的论文TiGBEV:Multi-viewBEV 3D Object Detection via Target Inner-GeometryLearning，通过分析BEVDepth和UVTR的不足，提出前景目标内部结构的深度约束，提升2D图像特征的深度预测准确度，使得NDS指标提升1％。此外，其还提出了基于BEV特征的通道蒸馏和目标关键点蒸馏的思想，有效地将点云结构信息迁移到2D BEV特征中。然而，以上论文公开的技术主要将知识蒸馏应用于BEV特征中，由于BEV特征只能表征某特定高度的物体特征，即关注的前景物体(车辆、行人等)，对整个3D空间的表征能力不足，因此，丢失了空间结构信息，这导致3D目标检测模型的精度提升仍不够理想。

2022年CVPR的论文CrossPoint:Self-Supervised Cross-Modal ContrastiveLearningfor 3D Point Cloud Understanding则首次将激光点云模态内对比学习与激光点云同2D渲染图像对比学习相结合，提出了模态内和跨模态对比学习范式。然而，由于该方法仅适用于3D点云单目标检测，无法实现自动驾驶等复杂场景中多3D目标的检测，并且该方法对3D目标检测模型的精度提升效果欠佳。

本公开提出了一种新的模型训练方法，将激光点云的特征迁移到车载相机的环视BEV特征中，从而提升环视图像BEV特征的表征能力，不仅改进了教师学生模型的结构及其处理过程，同时改进了其损失的计算方式，挖掘深层次特征，实现了基于多模态的环视图像BEV特征提取模型的无监督预训练。经验证，本公开实施例能够有效提高环视图像BEV特征的表征能力，进而提升例如3D目标检测等应用的精度和泛化能力，本公开实施例训练得到的模型适用于自动驾驶的各类复杂场景，可应用于例如基于2D多视角图像的多3D目标检测等应用，同时提升例如3D目标检测等应用的精度。此外，本公开还采用EMA算法更新师生模型中教师模型的参数，能够进一步提升提高模型表征能力。

图1是根据本公开的一个实施方式的模型训练方法的流程示意图。如图1所示，本公开实施例的模型训练方法可以包括如下步骤S102～步骤S110：

步骤S102，获取车辆的环视图像及对应环视图像的激光雷达点云；

步骤S104，利用环视图像通过教师学生模型获得强增强BEV特征和弱增强BEV特征，所述教师学生模型包括教师模型和学生模型；

步骤S106，利用激光雷达点云通过点云模型获得点云3D特征；

步骤S108，根据点云3D特征和强增强BEV特征确定迁移损失；

步骤S110，根据强增强BEV特征和弱增强BEV特征确定图像模态内损失；

步骤S112，根据迁移损失和图像模态内损失得到整体损失；

步骤S114，利用整体损失更新点云模型和学生模型的参数，利用更新后的学生模型的参数更新教师模型的参数。

其中，学生模型用于获得环视图像的BEV特征。这里，学生模型获得的环视图像的BEV特征可以是但不限于环视图像的2D BEV特征和/或3D BEV特征。

具体应用中，本公开实施例的步骤S102～步骤S114可以迭代执行，直到模型收敛。迭代过程中，本轮经步骤S114更新得到的教师模型的参数可应用到下轮学生模型的训练过程。

具体应用中，经本公开实施例训练得到的模型，其获得的环视图像的BEV特征可用于例如3D目标检测等各类应用。例如，在完成学生模型的预训练之后，也即模型收敛、训练结束后，可以通过在学生模型的输出端连接检测头等模块，通过检测头对环视图像的BEV特征处理即可得到3D目标信息，该3D目标信息可以是但不限于单3D目标信息、多3D目标信息，3D目标信息可以表示为3D检测框的关键点坐标、尺寸等信息。该应用中，可以通过预训练的学生模型训练该检测头。检测头可以是但不限于语义分割网络等目标检测网络，对于检测头的架构、训练方式等，本公开实施例均不作限制。

本公开实施例提出一种深度学习网络，该深度学习网络用于训练上述的学生模型。该深度学习网络可以包括点云模型、教师学生模型，点云模型用于提取激光雷达点云的点云3D特征，教师学生模型包括教师模型和学生模型，教师模型可以用于提取环视图像的弱增强3D特征，学生模型可用于提取环视图像的强增强3D特征，点云模型和教师模型用于实现学生模型的无监督多模态训练，训练好的学生模型可部署于在应用端作为3D目标检测模型的一部分，其可用于提取环视图像的BEV特征，以便3D目标检测模型的检测头等模块可通过环视图像的BEV特征直接得到车辆四周的3D目标信息。

图2示出了本公开实施例的深度学习网络的整体结构示意图。如图2所示，深度学习网络中的教师学生模型可以包括强数据增强的分分支网络和弱数据增强的分支网络，强数据增强的分支网络作为教师学生模型(teacher-student)中的学生模型，弱数据增强的分支网络作为教师模型，深度学习网络中的点云模型可以采用诸如SECOND FeatureEncoder、DGCNN和PointPillars等点云特征提取网络来实现。强数据增强的分支网络和弱数据增强的分支网络，也即学生模型和教师模型，可以采用相同的网络结构，例如，分别可以采用但不限于BEVDepth、BEVDet等特征提取网络。

如图2所示，教师模型和学生模型的网络结构分别可以包括：2D特征提取网络、深度预测网络、BEV网络模块和塌陷模型，2D特征提取网络用于提取各视角图像的2D图像特征，深度预测网络可用于基于各视角图像的2D图像特征估计各视角图像的深度信息以得到各视角图像的3D特征，BEV网络模块用于利用各视角图像的3D特征获得环视图像的3D BEV特征，塌陷模型可用于将环视图像的3D BEV特征塌陷为2D BEV特征。其中，2D特征提取网络可以是但不限于ResNet50，ResNet101等；深度预测网络可以是但不限于多层感知机(MLP)、DepthNet等；BEV网络模块可以是但不限于体素池化网络(voxel pooling)，塌陷模块可以是但不限于卷积网络等。

步骤S102中，环视图像包含多个视角的2D图像。以NuScenes数据集为例，每帧环视图像包含6个车载摄像头同时采集的视角图像，也即，同一帧环视图像包含6幅视角图像，分别是：前左视角图像I_{front_left}、前方视角图像I_front、前右视角图像I_{front_right}、后右视角图像I_{back_right}、后方视角图像I_back、后左视角图像I_{back_left}，此时，单帧环视图像数据可以表示为其中，C表示图像通道数，H表示图像高度，W表示图像宽度。

步骤S102中，对应环视图像的激光雷达点云是指通过车载激光雷达采集的车辆周围环境的点云数据，该点云数据的采集时间与环视图像的采集时间相同或时间差在预定范围内，激光雷达的覆盖范围与用于采集环视图像的车载摄像头的视野部分地或全部地重叠。

步骤S104可以包括：对环视图像中各视角图像进行不同程度的数据增强处理，以获得环视图像中各视角图像的弱增强图像数据和强增强图像数据；利用环视图像中各视角图像的弱增强图像数据经教师模型处理得到各个视角图像的弱增强3D特征；以及，利用环视图像中各视角图像的强增强图像数据经学生模型处理得到各个视角图像的强增强3D特征。

步骤S104中，可以采用旋转、灰度等数据增强手段对环视图像进行不同程度的数据增强来获得强增强图像数据I_strong和弱增强图像数据I_weak。

一些实施方式中，步骤S104中的数据增强可以包括但不限于：图像的缩放、随机裁剪、翻转、旋转等操作。

一些实施方式中，步骤S104中数据增强的过程可以包括如下的步骤a1和步骤a2：

步骤a1，分别对各视角图像进行缩放和裁剪，以获取统一大小的缩放裁剪后的视角图像；

具体地，可以先按照预先设定的图像缩放比范围缩放图像，之后再对缩放后的图像I_r进行随机裁剪，从而得到统一大小的缩放裁剪后的各视角图像

一些实施方式中，假如设定图像的缩放比范围为(0.386，0.55)，如下式(1)所示，可以通过OpenCV的resize算法获得各个视角图像的缩放图像。

I_r＝R(I) (1)

其中，I为某一视角图像(例如，I_{front_left})，R表示resize操作，I_r为I的缩放图像。

一些实施方式中，如下式(2)所示，还可以采用双线性插值进行图像尺度缩放以得到各视角图像的缩放图像。

f(i+u，j+v)＝(1-u)*(1-v)*f(i，j)+(1-u)*v*f(i，j+1)+u*(1-v*f(i+1，j)+u*v*f(i+1，j+1) (2)

其中，(i，j)为缩放像素坐标的整数部分，(u，v)为缩放像素坐标的小数部分。f(i，j)表示图像坐标为i，j的像素值。

步骤a2，对步骤a1得到的缩放裁剪后的各视角图像进行随机翻转和不同程度的旋转操作，得到各视角图像的强增强图像I_strong和弱增强图像I_weak。

以前方视角图像为例，对视角图像进行随机翻转的过程可以如下式(3)所示：

其中，Randomflip表示随机左右翻转操作，为随机翻转后的前方视角图像，表示随机翻转前的前方视角图像。

具体地，可以预先设定旋转角度区间，在该旋转角度区间内对随机翻转后的图像执行弱操作OP_w以得到弱增强图像I_weak，在该旋转角度区间内对随机翻转后的图像执行强操作OP_s以得到强增强图像I_weak。

例如，旋转角度区间可以设定为(-5.4°，5.4°)或其他值，对此，本公开实施例不作限制。

一些实施方式中，强操作OP_s可以是以图像左上角为原点、以角度θ绕图像中心坐标(C_x，C_y)旋转的操作。具体地，强操作后的像素点坐标可以通过下式(4)得到。

其中，(x₀，y₀)表示原始像素坐标，也即强操作前像素点的坐标，(x，y)表示强操作后像素点的坐标，为齐次化的原始像素坐标，C_x为W₀/2，C_y为H₀/2，(x，y，1)表示旋转操作后的像素齐次坐标。

一些实施方式中，弱操作OP_w可以包括：在用于采集环视图像中各视角图像的多个相机(nuScenes数据集中是6个相机)中选定一个相机作为基准相机，根据预定的图像旋转角度确定基准相机的旋转矩阵，再将该基准相机的旋转矩阵转换到其他各相机的图像坐标系下以得到其他各相机的旋转矩阵，对缩放裁剪后的各视角图像进行随机翻转后基于相应相机的旋转矩阵对随机翻转后的视角图像处理以得到各视角图像的弱增强图像I_weak。由此，可以保持各个视角图像的数据增强一致性。

仍以前方视角图像为例，获得各视角图像的弱增强图像的过程可以是：

假设相机A为预先选定的基准相机，采集前方视角图像的相机为相机B，相机A图像旋转角度θ的旋转矩阵可以表示为下式(5)：

先根据下式(6)确定相机B的旋转矩阵R′_z，再通过下式(7)得到随机翻转后的前方视角图像的弱增强图像：

P′_B＝R′_zP_B (7)

其中，R_t表示相机B采集的图像上的像素点到相机A中图像坐标系的变换矩阵，R_z表示相机A的图像旋转矩阵，R′_z表示相机B的图像旋转矩阵。R_A和R_B分别为相机A和相机B的外参矩阵，记为/>K_A和K_B分别为相机A、B的内参矩阵，记为通过式(6)可见，相机B的旋转矩阵R′_z是相机A的图像变换矩阵在相机B的图像坐标系的投影。

其中，P_B表示随机翻转后的前方视角图像中某个像素点的坐标，P′_B表示前方视角图像的弱增强图像数据中对应P_B的像素点的坐标。

其中，式(6)可以通过下式(8)～(11)推导得到：

相机A与相机B的图像坐标系中点的坐标满足下式(8)～(9)：

P_A＝K_AR_AP_W (8)

P_B＝K_BR_BP_W (9)

其中，P_w为世界坐标系中的某个点，P_A和P_B分别为P_W在相机A和相机B的图像坐标系的投影点。

假设相机A中图像旋转矩阵为R_z，相机B的对应旋转矩阵为R′_z，则满足下式(10)～(11)所示：

P′_A＝R_zP_A＝R_zK_AR_AP_W (10)

P′_B＝R′_zP_B＝R′_zK_BR_BP_W (11)

其中，P′_B表示前方视角图像的弱增强图像中对应P_B的像素点的坐标，P′_A表示A相机的视角图像的弱增强图像中对应P_A的像素点的坐标。P_A表示随机翻转后的相机A的视角图像中某个像素点的坐标。

由于2D图像变换不影响深度，因此，上述推导过程中可以进行深度不变假设。

步骤S104中，教师模型的处理和学生模型的处理相同，分别可以包括步骤b1～步骤b4：步骤b1，提取各视角图像的2D图像特征步骤b2，利用各视角图像的2D图像特征预测深度信息D_pred以得到各视角图像的3D图像特征步骤b3，利用各视角图像的3D图像特征得到环视图像的3DBEV特征；以及，步骤b4，将环视图像的3D BEV特征塌陷为2D BEV特征。

具体地，步骤S104中，教师模型针对各视角图像的弱增强图像I_weak依次执行步骤b1～步骤b4获得各视角图像的弱增强BEV特征，该弱增强3D特征包括弱增强3D BEV特征和弱增强2D BEV特征/>学生模型针对各视角图像的强增强图像I_strong依次执行步骤b1～步骤b4获得各视角图像的强增强3D特征，该强增强3D特征包括强增强3D BEV特征和强增强2D BEV特征/>

图3示出了步骤b1～步骤b2的示例性处理过程。如图3所示，步骤b1～步骤b2的过程可以通过下式(12)～(13)实现：

其中，DepthNet1表示学生模型中的深度提取网络，DepthNet2表示教师模型中的深度提取网络，表示环视图像的强增强图像的3D图像特征(下文简称为强增强3D图像特征)，/>表示环视图像的弱增强图像的3D图像特征，/>表示环视图像的弱增强图像的2D图像特征(下文简称为弱增强3D图像特征)，/>表示环视图像的强增强图像的2D图像特征。

步骤b3中，将同一帧环视图像中各视角图像的3D图像特征统一到BEV平面下得到该帧环视图像的3D BEV特征。例如，可以将强增强3D图像特征输入学生模型的体素池化网络以提取到强增强3D BEV特征/> 将弱增强3D图像特征/>输入教师模型的体素池化网络以提取到弱增强3D BEV特征

例如，步骤b3可以通过下式(14)～(15)实现：

其中，Voxel Pooling1和Voxel Pooling2为相同结构的3D到bev特征转换算子。Voxel Pooling1表示学生模型的体素池化网络中的操作，Voxel Pooling2表示教师模型的体素池化网络中的操作。

步骤b4中，可以使用例如卷积网络等压缩3D BEV特征的D维度从而将3DBEV特征塌陷为2D BEV特征，该卷积网络得到的BEV特征的尺寸可以是(1，H₀，W₀)。

具体地，可以将环视图像的强增强3D BEV特征输入学生模型的卷积网络以压缩其D维度，使得环视图像的强增强3D BEV特征塌陷(Collapse)为强增强2DBEV特征/>将环视图像的弱增强3D BEV特征/>输入教师模型的卷积网络以压缩其D维度，使得环视图像的弱增强3D BEV特征塌陷(Collapse)为弱增强2D BEV特征/>

例如，用于实现塌陷的卷积网络可以是Conv2d或Conv3d，此时，步骤b4的过程可以表示为下式(16)～(17)：

其中，Collapse1和Collapse2表示塌陷操作。

步骤S106中，可以先对激光雷达点云进行数据预处理获得点云的体素数据P，再利用例如SECOND Feature Encoder等点云模型提取该体素数据P的3D特征F_p∈R^C×D×h×w。

步骤S108中，计算点云3D特征和强增强3D BEV特征间的对比损失CLLoss，该对比损失即为迁移损失，也即属于跨模态迁移损失，通过加入该损失，可以实现激光点云数据到2D图像数据的跨模态特征迁移。

例如，可以通过下式(18)所示的L1范数损失函数计算点云3D特征F_p和强增强3DBEV特征间的对比损失L_inter：

一些实施方式中，步骤S110中的图像模态内损失可以包括两个部分：1)由强增强3DBEV特征与弱增强3DBEV特征直接计算得到的3D特征间的对比损失；2)由强增强2DBEV特征与弱增强2DBEV特征计算得到的2D特征间的对比损失。

该实施方式中，步骤S110可以包括如下的步骤c1～步骤c3：

步骤c1，计算强增强3DBEV特征与弱增强3DBEV特征之间的对比损失，以得到3D特征对比损失；

步骤c2，计算强增强2DBEV特征与弱增强2D BEV特征之间的对比损失，以得到2D特征对比损失；

步骤c3，根据3D特征对比损失和2D特征对比损失获得强增强BEV特征和弱增强BEV特征间的图像模态内损失。

例如，可以通过下式(19)的L1范数损失函数计算强增强3D BEV特征与弱增强3DBEV特征之间的对比损失通过下式(20)的L1范数损失函数计算强增强2DBEV特征与弱增强2DBEV特征之间的对比损失/>

/>

步骤c3中，可以将3D特征对比损失和2D特征对比损失进行合并，以得到图像模态内损失。

例如，可以通过下式(21)计算强增强BEV特征和弱增强BEV特征间的图像模态内损失L_intra：

其中，γ为平衡因子，γ取经验值。例如，可以取γ＝2。

步骤S112中，可以通过下式(22)计算整体损失L_all：

L_all＝αL_inter+βL_intra (22)

其中，α表示迁移损失L_inter的权重值，β表示图像模态内损失L_intra的权重值，均可取经验值。例如，可以取α＝2，β＝1。

步骤S112中，可以采用梯度下降法通过反向传播的方式，基于整体损失更新模型参数。具体地，整体损失的反向传播过程中，阻断教师模型的梯度回传，仅在学生模型和点云模型中进行梯度回传以更新学生模型和点云模型的参数，然后利用更新后的学生模型的参数使用EMA算法更新教师模型的参数。

图4示出了本公开实施例中整体损失的计算和教师模型参数的EMA更新过程。图4中，f_ξ，f_ω为3D特征提取网络，q_ξ和q_ω为MLP网络，用于BEV特征压缩。f_η为用于提取点云3D特征的点云模型。图4中实线箭头表示整体损失的整个计算过程，“//”表示阻断。

一些实施方式中，可以通过下式(23)更新教师模型的参数：

ξ＝τξ+(1-τ)ω (23)

其中，ξ为教师模型中对应ω的参数，ω表示更新后的学生模型的某个参数，τ为衰减率，τ∈[0，1]。例如，τ可以取0.9。

本公开实施例采用强、弱数据增强的方式对环视图像进行处理，获取其BEV特征并计算损失，从BEV角度发掘3D信息。同时，使用迁移学习方法使2D图像特征与点云特征进行对齐，辅助模型收敛。并且，本公开实施例结合了2D图像的模态内对比损失和2D图像与点云的跨模态对比损失进行模型的预训练，不仅能够加速模型收敛，而且可以有效提高模型精度。

本公开实施例通过将激光点云的特征迁移到环视图像的BEV特征中来提升学生模型的特征表征能力，使得学生模型从环视图像中提取到的BEV特征不仅含有2D图像的纹理、色彩、光照等信息，同时还隐含有点云的空间结构信息，因此，通过本公开实施例训练得到的学生模型提取环视图像的BEV特征，能够有效提高3D目标信息的准确性，提升3D目标检测的精度。

本公开实施例在训练阶段通过将激光点云数据特征迁移到图像数据的BEV特征来提高3D目标检测模型中BEV特征提取部分的精度，而在检测阶段在仅需使用图像数据，这能大大降低模型对计算资源的需要，同时提高基于图像的环视BEV特征的检测精度。

图5示出了采用处理系统的硬件实现方式的模型训练装置示例图。

该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线600将包括一个或多个处理器700、存储器800和/或硬件模块的各种电路连接到一起。总线600还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路900连接。

总线600可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

图5是根据本公开的一个实施方式的模型训练装置的一种结构示意图。如图5所示，根据本公开的模型训练装置500可以包括：

获取单元502，用于获取车辆的环视图像及对应环视图像的激光雷达点云；

图像处理单元504，用于利用环视图像通过教师学生模型获得强增强BEV特征和弱增强BEV特征，教师学生模型包括教师模型和学生模型；

点云处理单元506，用于利用激光雷达点云通过点云模型获得点云3D特征；

迁移损失确定单元508，用于根据点云3D特征和强增强BEV特征确定迁移损失；

模态内损失确定单元510，用于根据强增强BEV特征和弱增强BEV特征确定图像模态内损失；

整体损失确定单元512，用于根据迁移损失和图像模态内损失得到整体损失；

参数更新单元514，用于利用整体损失更新点云模型和学生模型的参数，利用更新后的学生模型的参数更新教师模型的参数；

其中，学生模型用于提取环视图像的BEV特征。具体应用中，该环视图像的BEV特征可直接用于3D目标检测。

模型训练装置500中各个单元的具体技术细节可参见前文方法部分，此处不再赘述。

本公开还提供了一种电子设备，包括：存储器，存储器存储执行指令；以及处理器或其他硬件模块，处理器或其他硬件模块执行存储器存储的执行指令，使得处理器或其他硬件模块执行上述模型训练方法。

本公开还提供了一种可读存储介质，可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述模型训练方法。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种模型训练方法，其特征在于，包括：

获取车辆的环视图像及对应所述环视图像的激光雷达点云；

利用激光雷达点云通过点云模型获得点云3D特征；

根据点云3D特征和强增强BEV特征确定迁移损失；

根据强增强BEV特征和弱增强BEV特征确定图像模态内损失；

根据迁移损失和图像模态内损失得到整体损失；

其中，所述学生模型用于提取环视图像的BEV特征。

2.根据权利要求1所述模型训练方法，其特征在于，利用所述整体损失更新所述点云模型和所述学生模型的参数，利用更新后的学生模型的参数更新所述教师模型的参数，包括：

在所述整体损失的反向传播过程中，阻断所述教师模型的梯度回传，仅在学生模型和点云模型中进行梯度回传以更新学生模型和点云模型的参数；以及，

利用更新后的学生模型的参数采用EMA方式更新教师模型的参数。

3.根据权利要求2所述模型训练方法，其特征在于，所述利用更新后的学生模型的参数采用EMA方式更新教师模型的参数，包括：

按照下式基于更新后的学生模型中的参数ω更新所述教师模型中相应参数ξ：

ξ＝τξ+(1-τ)ω

其中，τ为衰减率，τ∈[0,1]。

4.根据权利要求1所述模型训练方法，其特征在于，

所述强增强BEV特征包括强增强3D BEV特征和强增强2D BEV特征，所述弱增强3D特征包括弱增强3D BEV特征和弱增强2D BEV特征；

所述根据强增强BEV特征和弱增强BEV特征确定图像模态内损失，包括：

计算强增强3D BEV特征与弱增强3D BEV特征之间的对比损失，以得到3D特征对比损失；

计算强增强2D BEV特征与弱增强2D BEV特征之间的对比损失，以得到2D特征对比损失；

根据3D特征对比损失和2D特征对比损失获得强增强BEV特征和弱增强BEV特征间的图像模态内损失。

5.根据权利要求1所述模型训练方法，其特征在于，

所述强增强BEV特征包括强增强3D BEV特征；

根据点云3D特征和强增强BEV特征确定迁移损失，包括：计算强增强3DBEV特征和点云3D特征间的对比损失。

6.根据权利要求1所述模型训练方法，其特征在于，所述利用环视图像通过教师学生模型获得强增强BEV特征和弱增强BEV特征，包括：

对所述环视图像中各视角图像进行不同程度的数据增强处理，以获得所述环视图像中各视角图像的弱增强图像数据和强增强图像数据；

利用所述环视图像中各视角图像的弱增强图像数据经所述教师模型处理得到各个视角图像的弱增强BEV特征；

利用所述环视图像中各视角图像的强增强图像数据经所述学生模型处理得到各个视角图像的强增强BEV特征。

7.根据权利要求6所述模型训练方法，其特征在于，所述对所述环视图像中各视角图像进行不同程度的数据增强处理，包括：

分别对各视角图像进行缩放和裁剪，以得到统一大小的缩放裁剪后的视角图像；

对缩放裁剪后的视角图像进行随机翻转和不同程度的旋转操作，以得到各视角图像的弱增强图像和弱增强图像。

8.根据权利要求7所述模型训练方法，其特征在于，所述不同程度的旋转操作包括弱操作，所述弱操作包括：

在用于采集环视图像中各视角图像的多个相机中选定一个相机作为基准相机，根据预定的图像旋转角度确定基准相机的旋转矩阵；

将基准相机的旋转矩阵转换到其他各相机的图像坐标系下以得到其他各相机的旋转矩阵；

对缩放裁剪后的各视角图像进行随机翻转后，基于相应相机的旋转矩阵对随机翻转后的视角图像处理以得到各视角图像的弱增强图像。

9.根据权利要求6所述模型训练方法，其特征在于，

所述教师模型的处理与所述学生模型的处理分别包括：

提取各视角图像的2D图像特征；

利用各视角图像的2D图像特征预测深度信息以得到各视角图像的3D图像特征；

利用各视角图像的3D图像特征得到环视图像的3D BEV特征；

将环视图像的3D BEV特征塌陷为2D BEV特征。

10.一种模型训练装置，其特征在于，包括：

其中，所述学生模型用于提取环视图像的BEV特征。

11.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行如权利要求1至9中任一项所述模型训练方法。

12.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如权利要求1至9中任一项所述模型训练方法。