CN115860102B

CN115860102B - 一种自动驾驶感知模型的预训练方法、装置、设备和介质

Info

Publication number: CN115860102B
Application number: CN202310133636.2A
Authority: CN
Inventors: 张伟; 谭啸; 林相如; 叶晓青; 韩钧宇; 王井东; 丁二锐; 吴甜; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-05-23
Anticipated expiration: 2043-02-10
Also published as: CN115860102A

Abstract

本公开提供了一种自动驾驶感知模型的预训练方法、装置、设备和介质，涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域，可应用于自动驾驶、无人驾驶等场景。具体实现方案为：获取至少两种模态的训练样本；其中，所述训练样本包括无标注数据；按照设定的自监督学习顺序，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习和模态间自监督学习，以形成预训练完成的感知模型。本方案为自动驾驶感知模型提供了一种预训练方案，能够采用无标注数据，分别进行模态内自监督学习和模态间自监督学习，实现自动驾驶感知模型的预训练。

Description

一种自动驾驶感知模型的预训练方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域，可应用于自动驾驶、无人驾驶等场景。

背景技术

在自动驾驶车辆中，感知系统是最为重要的组成部分，其作用是帮助自动驾驶车辆理解周边的环境。

现有的自动驾驶感知模型，其生产方式基于少量训练数据，对小模型进行训练的传统模式。这无法发挥自动驾驶场景海量数据样本的优势。在数据方面，现有人工标注方法效率低、价格高、周期长，因此，也难以将海量数据标注为样本数据，满足模型训练的数据建设需求。

发明内容

本公开提供了一种自动驾驶感知模型的预训练方法、装置、设备以及介质。

根据本公开的一方面，提供了一种自动驾驶感知模型的预训练方法，包括：

获取至少两种模态的训练样本；其中，所述训练样本包括无标注数据；

按照设定的自监督学习顺序，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习和模态间自监督学习，以形成预训练完成的感知模型。

根据本公开的一方面，提供了一种自动驾驶感知模型的预训练装置，包括：

获取模块，用于获取至少两种模态的训练样本；其中，所述训练样本包括无标注数据；

预训练模块，用于按照设定的自监督学习顺序，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习和模态间自监督学习，以形成预训练完成的感知模型。

根据本公开的另一方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开任一实施例的自动驾驶感知模型的预训练方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开任一实施例的自动驾驶感知模型的预训练方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现本公开任一实施例的自动驾驶感知模型的预训练方法。

本方案为自动驾驶感知模型提供了一种预训练方案，能够采用无标注数据，分别进行模态内自监督学习和模态间自监督学习，实现自动驾驶感知模型的预训练。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1A为本公开实施例提供的一种自动驾驶感知模型的训练方法的流程图；

图1B为本公开实施例所适用的自动驾驶感知模型的架构示意图一；

图1C为本公开实施例所适用的自动驾驶感知模型的架构示意图二；

图1D为本公开实施例所适用的基于CNN的感知模型架构示意图；

图1E为本公开实施例所适用的基于自动编码解码器的感知模型架构示意图；

图1F为本公开实施例所提供自动驾驶感知模型的训练方法的流程环节示意图；

图2是根据本公开实施例提供的一种自动驾驶感知模型的预训练方法的流程图；

图3是根据本公开实施例提供的一种自动驾驶感知模型的预训练方法的流程图；

图4A是根据本公开实施例提供的一种自动驾驶感知模型的预训练方法的流程图；

图4B是根据本公开实施例提供的一种自动驾驶感知模型预训练的过程示意图；

图5是根据本公开实施例提供的一种自动驾驶感知模型的预训练装置的结构示意图；

图6是用来实现本公开实施例的自动驾驶感知模型的预训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在自动驾驶车辆中，感知系统是最为重要的组成部分，其作用是帮助自动驾驶车辆理解周边的环境。自动驾驶感知模型通常利用多模态数据作为输入，例如摄像头采集的图像以及激光雷达采集的点云数据，完成对路面上障碍物的空间定位以及语义理解等。为了能对路面环境进行充分理解，自动驾驶感知模型需要包括多种视觉任务，例如3D检测、车道线分割、道路要素分割等。其中3D检测目的是预测障碍物的长宽高、3D位置以及类别，车道线分割与道路要素分割则是通过像素级别细粒度解析，定位车道线以及路面等区域。障碍物通常则包括机动车辆、行人、非机动车、交通锥筒等。对于整个自动驾驶车辆而言，准确、可靠的感知结果，对下游规划与控制至关重要，影响自动驾驶车辆的行驶安全。

本公开实施例的技术方案，充分利用大数据与大模型，构建一套全新的基于大模型知识迁移的自动驾驶感知模型的生产流程。整体方案分为两个阶段：首先，借助自动驾驶积累的海量数据，训练感知模型，借助作为大模型的感知模型的强大特征表达能力，突破自动驾驶感知效果天花板。然后，通过知识迁移技术，形成大数据，大模型和知识迁移的模型生产流程闭环，使得大模型的感知能力可以迁移到车端的小模型。大模型赋能后的车端模型，能大幅提升感知效果同时保持较好的实时性与功耗约束，实现规模化的落地应用。

首先介绍感知模型训练的整体流程：

图1A为本公开实施例提供的一种自动驾驶感知模型的训练方法的流程图。图1B为本公开实施例所适用的自动驾驶感知模型的架构示意图一；图1C为本公开实施例所适用的自动驾驶感知模型的架构示意图二；图1D为本公开实施例所适用的基于CNN的感知模型架构示意图；图1E为本公开实施例所适用的基于自动编码解码器的感知模型架构示意图；图1F为本公开实施例所提供自动驾驶感知模型的训练方法的流程环节示意图。该方法可以由自动驾驶感知模型的训练装置来执行，该装置可采用硬件和/或软件的方式来实现，可配置于电子设备中，一般为具有大规模数据处理能力的服务器或服务器集群。参考图1A，该方法具体包括如下：

S110、获取一种或多种模态的训练样本；其中，所述训练样本包括有标注数据和无标注数据；

S120、采用设定场景的有标注数据对感知模型进行场景化训练；

S130、采用所述训练样本对场景化后的感知模型进行半监督训练，以更新所述感知模型并形成伪标注数据，且将所述伪标注数据更新至所述训练样本中；

S140、采用所述训练样本，基于半监督训练后的感知模型，进行知识迁移，以形成车端模型。

其中，本公开实施例所涉及的训练样本可包括一种或多种模态。可选的，多种模态的训练样本至少包括图像和点云。点云又可分为激光雷达点云和毫米波雷达点云等模态。不同模态的数据之间可以具有时空关联，也可以不具有时空关联。可以是时序的视频，也可以是单帧图像。例如由同一采集车同时进行采集的点云和视频图像，具有时空配置信息，即具有对应的时间戳和空间坐标对应关系。或者，单独采集的某个模态的数据也可以作为训练样本。

训练样本包括有标注数据和无标注数据。标注数据是指在采集的图像或点云等原始数据中，标注出的需要预测出的结果。例如，标注数据可以包括物体在图像中的2D框，物体在点云中的3D框，图像中的车道线等。一个原始数据中可以包括一项或多项标注数据。准确的标注数据需要大量的人工成本，所以海量的车辆采集数据以无标注数据居多。本公开实施例能够有效利用海量无标注数据，再结合少量的有标注数据，对模型进行训练。

本公开实施例涉及感知模型和车端模型。其中，感知模型为大模型，即模型结构为具有大规模参数的模型。在大模型的网络结构方面，例如Swim-V2基于采用基于transformer模型的网络结构，参数量级一般是千万级、亿级别以上，可能到达十亿级别、百亿级别。在大模型的网络结构方面，例如采用UFO（统一特征优化，Unified FeatuerOptimization）、DWNet（数据仓库网络）等网络结构。采用大模型作为感知模型，能够充分发挥大模型的强大特征表达能力，提高感知模型的预测准确性。

本公开实施例的技术方案，可选采用如图1B所示的大模型架构，该大模型可以是单模态大模型，也可以是多模态大模型，以分别适应单模态或多模态数据联合训练的需求。感知模型具体可包括预处理网络、主体网络和多任务输出网络。从而通过预处理网络对输入数据进行数据形式的预先处理，能够适配主体网络的输入需求。主体网络能够对单模态数据或多模态数据进行联合处理，提取特征。多任务输出网络可包括多个子任务分支模块，能够选择性的使用，适配于自动驾驶场景的多种任务预测需求。

可以预先训练多个版本的感知模型，从而形成感知模型库，在知识迁移和数据标注环节，可有效利用多版本感知模型的优势。所述感知模型的版本数量可以为多个，各版本感知模型之间包括如下至少一项区别：

预处理网络的网络结构；

主体网络的网络结构；

感知模型的训练超参数；

感知模型所采用的训练样本。

为了形成多个版本的感知模型，可以通过预设不同的预处理网络的网络结构、和/或主体网络的网络结构，并分别进行训练，从而形成不同版本的感知模型，例如单模态大模型、多模态大模型。另外，还可以设置不同的训练超参数，例如迭代次数、损失目标、或参数更新梯度等参数，从而得到不同版本的感知模型。当然，也可以从全部训练样本中进行选择，以不同的训练样本子集对感知模型进行训练，得到不同版本的感知模型。

在感知模型库中，除了包括各个版本的感知模型，还可以进一步收集其他相关的模型，例如处理单模态数据的感知模型，其他已训练的小规模模型等，从而能够在半监督训练过程、半自动化数据标注、知识迁移等环节发挥辅助性作用。

在本公开实施例中，感知模型的网络结构可选如下：

所述预处理网络中包括一个或多个预处理分支模块，用于分别处理对应模态的训练样本，形成预处理样本；所述主体网络用于对输入的预处理样本进行特征处理；所述多任务输出网络包括多个子任务分支模块，用于分别根据所述主体网络的输出数据，识别对应子任务的自动驾驶感知结果。

上述网络结构，如果所述感知模型为单模态感知模型，则所述单模态感知模型的输入为一种模态的训练样本，进行数据的预处理、特征提取和转换、以及多任务识别。

上述网络结构，如果所述感知模型为多模态感知模型，则由主体网络对分别预处理后的各个模态数据进行融合，再进行特征提取和转换。该融合模式为前置融合，优选可以在主体网络中对单模态的预处理样本分别进行特征提取，将提取后的特征进行融合，再对融合后的特征进行转换表达。

在感知模型库中，也可以包括部分感知模型，采用后置融合的方式来融合多模态数据的信息。对于不同模态数据，可以在预处理网络和主体网络中分别进行处理，并分别输出各模态数据所提取和转换的特征，当各模态特征输入至多任务输出网络的子任务分支模块后，进行识别得到任务识别结果；此后再对各个模态所输出的任务识别结果进行融合。

可选的，主体网络中包括融合子网络、特征提取模块和特征转换模块，所述融合子网络包括多个特征提取网络和融合模块；所述特征提取网络用于分别从预处理后的单模态训练样本中提取单模态特征；所述融合模块用于将多个单模态特征进行融合，形成融合特征；所述特征提取模块用于对融合特征进行特征提取；所述特征转换模块用于对所述特征提取模块提取的特征进行转换处理。

需要说明的是，预处理后的单模态训练样本输入主体网络后，先通过融合子网络的特征提取网络进行处理，再通过融合模块进行处理，形成融合特征，融合特征进一步输入主体网络的特征提取模块和特征转换模块进行特征提取和特征转换。一种优选情况是，本方案中需要进行预训练的是融合子网络中的特征提取网络，可以不包含后续的特征提取模块。

感知模型中，主体网络是进行特征提取和转换的主要部分，网络结构的整体参数量可选的是超过亿级且可进一步扩展。预处理网络主要用于根据主体网络的需要，对输入的训练样本进行预处理。多任务输出网络用于基于主体网络提取的特征进行各种子任务的识别，所以多任务输出网络可包括一个或多个子任务分支模块，可采用特定任务输出头（task-specific heads）来实现。在自动驾驶感知场景中，子任务分支模块对应的子任务可选的包括下述至少一种：2D框检测任务、3D框检测任务、语义分割任务、车道线分割任务、以及物体跟踪任务。

在本公开实施例中，主体网络可选的是包括多层专家子网络，如图1C所示；所述感知模型还包括门控网络，所述门控网络配置在多层专家子网络与所述多任务输出网络之间，用于基于门控网络参数选择至少一个专家子网络的输出数据，传输给所述多任务输出网络中的至少一个任务输出子网络子任务分支模块。

上述网络架构中，每个专家子网络可输入预处理数据进行特征提取和变换，专家子网络的输出结果经过门控网络输入多任务输出网络。其中门控网络可与多个专家子网络相连，且与多个子任务模块相连，从而选择性的连接专家子网络和子任务分支模块。例如，可以选择某个专家子网络的输出结果，提供给2D框检测的子任务分支模块；或者，也可以选择某两个专家子网络的输出结果，按照设定权重参数进行叠加或拼合后，提供给某个子任务分支模块。门控网络在主体网络和多任务输出网络之间的选择性连接参数和权重参数等，也可以在感知模型的训练过程中进行优化。

可选的是，所述主体网络中包括融合子网络，所述融合子网络用于分别从预处理后的单模态训练样本中提取单模态特征，并将单模态特征进行融合，形成融合特征；所述专家子网络中的特征提取模块和特征转换模块，用于对融合特征进行特征提取和特征转换。

具体是，融合子网络可包括多个特征提取网络和融合模块。特征提取网络分别与各个单模态预处理样本对应，用于从单模态预处理样本中提取特征，输出单模态特征。而后输出的多个单模态特征输入融合模块，融合模块用于将单模态特征进行融合，以形成融合特征。融合方式可以有多种，例如进行特征拼接。专家子网络中的特征提取模块用于对融合特征继续进行特征提取处理；特征转换模块用于对融合特征的提取特征进行转换表达。当专家子网络只有一个时，特征提取网络、融合模块、特征提取模块和特征转换模块，共同构成专家子网络。

可选的，所述主体网络包括多层专家子网络；将一个所述融合子网络以共用形式设置在多层专家子网络中；或所述融合子网络的数量为多个，分别对应设置在所述多层专家子网络中。即，多个专家子网络所包括的融合子网络可以是共用的一个，也可以是独立的多个。

需要说明的是，若融合子网络的数量为多个，则每个专家子网络中设置有一个融合子网络，若融合子网络的数量为一个，则将这一个融合子网络以共用形式设置在多层专家子网络中。

主体网络中的专家子网络可以有多种选择。

如图1D所示，可选的，所述主体网络的专家子网络为卷积神经网络，包括骨干网络和多尺度特征收集网络。

如图1E所示，可选的，所述主体网络的专家子网络为自动编码解码网络，包括编码器和解码器。

参考图1D，为基于CNN（卷积神经网络）的大模型方案，其中，在预处理网络中可以首先通过预处理分支模块分别对图像或点云信号进行预处理。由于数字图像信号本身为高维度张量，与CNN网络相适配，可以进行空间尺度放缩等简单预处理操作。由于点云信号稀疏且无序的特点，预处理过程中需要进行采样与空间栅格化，转化成高维度张量，再作为CNN网络的输入。主体网络基于混合专家（Mixture-of-Experts）思想构建，其中每一个专家子网络采用CNN的残差网络实现骨干网络（backbone）和多尺度特征收集网络（neck）。再由门控网络选取全部专家子网络的一个子集，输出到相应的一个或者多个子任务分支模块。该感知模型的整体结构，既能够灵活实现任务的切分，也能实现不同专家特征的共享。最后，多任务输出网络中：2D框检测子任务（2D Object detection head）可输出2D包围框与分类得分；3D框检测子任务（3D Object detection head）可输出3D包围框、朝向角与分类得分；分割子任务（Segmentation head）可输出每个类别像素级别的分割区域（mask）；车道线分割子任务（Lane Detection head）可输出每一条车道线的实例分割结果；跟踪子任务（Tracking head）可输出每一个物体的帧间运动偏移量。

参考图1E，为基于自动编码解码网络的大模型方案。自动编码解码网络可选是采用注意力机制（例如Transformer）模型来实现。其中，在预处理阶段，由于自动编码解码网络结构依赖序列化的数据输入，需将图像或点云转为序列化的数据格式，例如采用Tokenizer等预处理网络来实现。主干网络可采用基于Transformer的大模型实现特征的编码与解码，并构建混合专家模型实现任务的拆分与特征共享。模型输出端与基于CNN的大模型方案类似，采用多任务输出网络实现不同的感知任务。

本公开实施例的感知模型网络架构方案，具有较强的可扩展性，以及丰富的变化，能够满足各种自动驾驶感知场景下的感知需求。

由于训练样本中包括有大量的无标注数据，为了有效利用无标注数据且提高训练的效率，可选的采用无标注数据对感知模型进行预训练。由此来提升感知模型主干网络的特征提取能力。感知模型的预训练可主要用于训练特征提取部分的网络，可通过两个阶段来实现自监督学习：1）模态内自监督学习。即通过大量无标注数据增强模型主干网络的泛化能力，提升模型在跨场景、跨传感器应用时的效果；2）跨模态的模态间自监督对比学习。通过跨模态对比学习，通过增强模态之间特征一致性，提升模型在下游多任务中的预测效果。大规模预训练中的模态内自监督学习和模态间自监督对比学习可以采用先模态内自监督学习，再联合跨模态自监督对比学习共同训练的方式开展。

经过预训练后的感知模型，进一步基于设定场景的有标注数据进行场景化训练。可选的，所述设定场景的有标注数据的标注结果，对应于至少一个子任务的预测结果。设定场景可以是自动驾驶的任意感知需求场景。例如，识别车辆周围的车道线的场景，从而在训练样本中标注有车道线；对车辆周围物体进行识别和跟踪的场景，从而在训练样本的多帧数据中标注有物体以及物体的帧间位移。因此，不同的场景可具有不同的标注结果，标注结果对应于至少一个子任务的预测结果。利用各种具有标注结果的有标注数据，能够对感知模型进行整体训练，提升模型的准确性。对应于不同子任务场景的有标注数据，可以对该子任务分支模块进行单独训练。通过场景化训练，能够在预训练的大模型基础上，进行下游任务的调整。

在感知模型的训练环节，还可以引入对感知模型的自迭代训练，进一步提升感知模型效果以及新场景下的泛化能力。类似的，也可以迁移训练得到车端模型后，对车端模型进行半监督训练。半监督训练，也可称为半监督学习(Semi-Supervised Learning，SSL)，结合了监督训练和无监督训练。半监督训练采用大量的无标记数据进行预测形成伪标注数据，以及同时使用有标记数据来进行训练监督。

下面将通过实施例进行详细介绍。

当感知模型达到训练完成的条件时，可根据需求进行知识迁移，来生成以小规模模型结构为主的车端模型。车端模型的模型参数量小于作为大模型的感知模型模型参数。

本公开实施例，相对于基于少量有标注数据和小模型的模型生成方式，提供了全新的车端模型生成方式，如图1F所示，对感知模型首先可以基于海量的无标注数据进行大规模预训练，而后进行场景化（finetune）训练，再进行半监督训练。对于训练完成的感知模型，通过模型结构搜索技术确定车端模型网络结构，进而基于感知模型进行知识前行，训练完成车端模型。上述全新的车端模型生成方式，充分发挥了自动驾驶场景海量数据和大模型的优势。在本实施例的技术方案中，引入了多模态数据对大模型的训练技术，当多模态数据包括3D模态数据时，则能够输出3D的任务感知结果。本公开实施例的技术方案，能够形成感知模型，甚至能够形成多版本的感知模型库，其泛化能力强，方便按照车端个性化需求进行知识迁移。如图1F所示，基于训练的感知模型，可增设半自动化标注平台，形成伪标注数据。

在上述技术方案的基础上，本公开实施例可选择多种半监督训练方式对感知模型进行训练，并具体可对不同感知模型选择适用不同的半监督训练方式。可选的，采用所述训练样本对场景化后的感知模型进行半监督训练，以更新所述感知模型并形成伪标注数据，且将所述伪标注数据更新至所述训练样本中之前，还包括：确定场景化后的感知模型的性能指标；根据所述性能指标从多种半监督训练方式中选择与所述性能指标匹配的一种半监督训练方式。

对半监督训练方式的选择，可基于当前训练需求的多种因素来进行筛选，优选可基于场景化训练后感知模型的性能指标来选择适合的半监督训练方式。兼顾模型性能、样本准确性和训练速度等。

具体是，根据所述性能指标从多种半监督训练方式中选择与所述性能指标匹配的一种半监督训练方式可包括：根据所述性能指标中的均值平均精度值（mAP）和预设选择策略，从所述自迭代训练方式和在线半监督训练方式中进行半监督训练方式的选择。

例如，当场景化后的感知模型检测mAP值大于设定阈值，则选择自迭代训练方式，若检测mAP值小于设定阈值，则选择在线半监督训练方式。由此，本公开实施例提出了将多种半监督训练方式进行组合或者单独使用的技术方案。针对大规模训练感知模型的情况，能够兼顾模型训练的多方面需求。

感知模型的预训练主要是指对感知模型的预处理网络和主体网络中的特征提取网络部分进行预训练，例如，对于基于CNN（卷积神经网络）的大模型，是指对预处理网络和骨干网络（backbone）部分的预训练，对于基于自动编码解码网络的大模型，是指对预处理网络和特征编码器部分的预训练。下面就对感知模型进行预训练的部分，进行详细介绍：

图2是根据本公开实施例提供的一种自动驾驶感知模型的预训练方法的流程图；本公开实施例在上述实施例的基础上，可适用于对自动驾驶感知模型进行预训练的情况，尤其适用于采用多种模态的无标注数据分别进行模态内自监督学习和模态间自监督学习的情况，该方法可由一种自动驾驶感知模型的预训练装置来执行，该装置可采用硬件和/或软件的方式来实现，可配置于具有自动驾驶感知模型的预训练功能的电子设备中。参考图2，该方法具体包括如下：

S201，获取至少两种模态的训练样本。

其中，训练样本包括无标注数据。训练样本包括至少两种模态。训练样本至少包括图像和点云。点云又可分为激光雷达点云和毫米波雷达点云等模态。

可选的，可以分别采用激光雷达和/或毫米波雷达，进行车辆数据采集，从而获取模态为点云的训练样本，采用预设的图像采集设备，进行车辆数据采集，从而获取模态为图像的训练样本，即获取至少两种模态的训练样本。

示例性的，可以在车辆周围预先设置一定数量的摄像头（如4到6个），进行视频图像采集，从而获取模态为图像的训练样本。

S202，按照设定的自监督学习顺序，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习和模态间自监督学习，以形成预训练完成的感知模型。

可选的，预先设定的自监督学习顺序可以是先进行单一模态的模态内自监督学习，再进行模态间自监督学习，也可以是先进行模态间自监督学习，再进行单一模态的模态内自监督学习，本申请对此不做限制。在实际应用场景中，优选先进行单一模态的模态内自监督学习，再进行模态间自监督学习的预训练方式。

可选的，可以采用至少两种模态的无标注数据，分别对感知模型中的特征提取网络，进行单一模态的模态内自监督学习。

其中，无标注数据是指没有在采集的图像或点云等原始数据中标注出需要预测出结果的数据。特征提取网络是指感知模型主体网络中用于将无标注数据进行特征提取处理的网络部分。模态内自监督学习是指对单独一种模态的无标注数据进行的自监督学习，例如，采用模态为点云的无标注数据进行的自监督学习属于模态内自监督学习。

可选的，可以预先为每种模态的无标注数据确定至少一种学习方式，进一步的，针对每种模态的无标注数据，采用对应的学习方式，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习。其中，学习方式可以包括掩码（Masked Image Modeling，简称MIM）自监督学习方式和对比自监督学习方式。

可选的，若预先为对应模态的无标注数据确定的学习方式为至少两种，则针对该模态的无标注数据，可以基于预设的学习方式顺序，先后采用不同的学习方式，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习；也可以针对该模态的无标注数据，并行地基于不同的学习方式，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习。

示例性的，若无标注数据的模态包括点云和图像，则可以将点云模态的无标注数据，输入感知模型，通过感知模型中的特征提取网络，进行3D特征提取，并根据3D特征提取结果，进行点云模态的模态内自监督学习；可以将图像模态的无标注数据，输入感知模型，通过感知模型中的特征提取网络，进行2D特征提取，并根据2D特征提取结果，进行图像模态的模态内自监督学习。

可选的，可以采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行模态间自监督学习。

其中，模态间自监督学习是指对至少两种模态的无标注数据进行对比学习的自监督学习。

可选的，可以将至少两种模态的无标注数据先后输入感知模型，也可以将至少两种模态的无标注数据同时输入感知模型，进一步的，通过感知模型中的特征提取网络进行特征提取，并根据特征提取的结果，进行模态间自监督学习。

本公开实施例的方案，获取至少两种模态的训练样本，按照设定的自监督学习顺序，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习和模态间自监督学习，以形成预训练完成的感知模型。通过这样的方式，可以有效利用训练样本中大量的无标注数据，对感知模型中特征提取网络进行自监督学习，从而提高感知模型预训练的训练效率，提升感知模型主体网络的特征提取能力，具体的，通过模态内自监督学习，可以增强模型主干网络的泛化能力，提升模型在跨场景、跨传感器应用时的效果；通过跨模态的模态间自监督学习，可以增强模态之间特征一致性，提升模型在下游多任务中的预测效果。

可选的，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习和进行模态间自监督学习包括：

对所述感知模型中的一个专家子网络中的特征提取网络，进行单一模态的模态内自监督学习和进行模态间自监督学习；

采用自监督学习后的专家子网络，对其他专家子网络进行初始化。

上述方案中，能够对一个专家子网络进行预训练，而后可适用到其他专家子网络中，减少了预训练工作量。

图3是根据本公开实施例提供的一种自动驾驶感知模型的预训练方法的流程图，本实施例在上述实施例的基础上，进一步对“采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习”进行详细的解释说明，如图3所示，该方法包括：

S301，获取至少两种模态的训练样本。

S302，针对每种模态的无标注数据，并行采用掩码自监督学习方式和对比自监督学习方式，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习。

其中，掩码自监督学习方式是指预设的基于掩码处理技术的自监督学习方式。对比自监督学习方式是指将不同的扰动情况下的特征提取结果进行对比学习的自监督学习方式。

可选的，针对每种模态的无标注数据，可以确定对应的自监督学习方式为：掩码自监督学习方式、对比自监督学习方式，或掩码自监督学习方式和对比自监督学习方式相结合的学习方式。进一步的，针对每种模态的无标注数据，可以并行的执行确定的自监督学习方式，从而对感知模型中的特征提取网络，进行单一模态的模态内自监督学习。

可选的，针对每种模态的无标注数据，采用掩码自监督学习方式，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习包括：针对每种模态的无标注数据，进行掩码处理，将非掩码处理数据输入感知模型的特征提取网络，以输出掩码提取特征；将掩码提取特征输入信息补全模块，以补全掩码信息并复原为模态数据；将该模态的无标注数据与复原的模态数据进行比对学习，以进行单一模态的模态内自监督学习。

其中，掩码处理是指将经过序列化转换的无标注数据中的某些位通过赋值处理进行掩码的处理方式。非掩码处理数据是指没有通过赋值处理进行掩码的数据。信息补全模块可以是预设的一种用于自监督学习的解码模块。信息补全模块用于利用非掩码处理数据的提取特征，对经过掩码处理后的掩码数据进行补全，输出复原后的模态数据。例如，若无标注数据的模态为点云，则对应复原后的模态数据对应的模态也为点云。

可选的，针对每种模态的无标注数据，可以先进行预处理的序列化转换，进一步基于预设的赋值处理方式，如赋固定数值或赋随机数值的方式，对经过序列化转换的无标注数据进行掩码处理。

可选的，可以将非掩码处理数据对应的掩码提取特征输入信息补全模块，使得信息补全模块利用非掩码处理数据的提取特征，对经过掩码处理后的掩码数据进行补全，输出复原后的模态数据。

可选的，可以基于预设的规则，将该模态的无标注数据与复原的模态数据进行比对学习，使得该模态的无标注数据与复原的模态数据趋于一致，也就是进行掩码自监督学习方式，即进行单一模态的模态内自监督学习。

需要说明的是，通过进行掩码处理，利用信息补全模块对经过掩码处理后的掩码数据进行补全得到复原的模态数据，最后将该模态的无标注数据与复原的模态数据进行比对学习，以进行单一模态的模态内自监督学习，给出了基于掩码自监督学习方式进行模态内自监督学习的一种可实施方式，提高了感知模型预训练过程的丰富性，可以有效提高模型的泛化性能。

可选的，针对每种模态的无标注数据，采用对比自监督学习方式，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习包括：针对每种模态的无标注数据，采用至少两种扰动方式进行扰动处理，将至少两种扰动处理数据分别输入感知模型的特征提取网络，以分别输出至少两种扰动提取特征；将至少两种扰动提取特征比对学习，以进行单一模态的模态内自监督学习。

其中，扰动方式是指预设的对无标注数据进行扰动处理的方式。扰动处理数据是指基于预设的扰动方式对无标注数据进行扰动处理之后生成的数据。扰动提取特征是指对扰动处理数据进行特征提取得到的特征。

示例性的，对于模态为点云的无标注数据，其扰动方式可以为视角随机变化，也就是基于与采集原始点云时不同的相位角进行采集的方式，从而可以得到对应的扰动处理数据，其扰动方式还可以为对原始点云所在坐标系坐标轴和相关夹角等进行调整从而进行扰动的方式。对于模态为图像的无标注数据，其空间/几何扰动的方式包括但不限于图片翻转(flip)、图片旋转(rotation)、图片挖剪(cutout)以及图片剪切并放大(crop andresize)。

可选的，可以将至少两种扰动提取特征进行对比，确定其差异或损失，以进行单一模态的模态内自监督学习。

需要说明的是，通过采用至少两种扰动方式进行扰动处理，并提取的至少两种扰动提取特征比对进行学习，可以实现：对于相同的无标注数据，尽管经过不同的扰动，无标注数据中相同空间的特征信息也是趋于一致的，从而可以提高感知模型中特征提取网络的泛化性。

可选的，针对每种模态的无标注数据，并行采用掩码自监督学习方式和对比自监督学习方式，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习包括：针对每种模态的无标注数据，进行掩码处理，将非掩码处理数据输入感知模型的特征提取网络，以输出掩码提取特征；将掩码提取特征输入信息补全模块，以补全掩码信息并复原为模态数据；将该模态的无标注数据与复原的模态数据，采用至少一种扰动方式进行扰动处理，以分别形成第一扰动数据和第二扰动数据；将第一扰动数据和第二扰动数据进行比对学习，以进行单一模态的模态内自监督学习。

其中，第一扰动数据为将该模态的无标注数据进行扰动处理得到的数据。第二扰动数据为将复原的模态数据进行扰动处理得到的数据。

具体的，若将该模态的无标注数据与复原的模态数据，采用一种扰动方式进行扰动处理，则可以形成一组第一扰动数据和一组第二扰动数据；若将该模态的无标注数据与复原的模态数据，分别采用至少两种扰动方式进行扰动处理，则可形成至少两组第一扰动数据和至少两组第二扰动数据。

可选的，可以基于预设的规则，确定第一扰动数据和第二扰动数据的差异或损伤，并基于该差异或损失，进行单一模态的模态内自监督学习。

需要说明的是，通过采用掩码自监督学习方式确定复原的模态数据，并将原始模态数据和复原的模态数据，分别基于对比自监督学习方式，确定第一扰动数据和第二扰动数据，从而进行单一模态的模态内自监督学习，给出了采用掩码自监督学习方式和对比自监督学习方式相结合的方式，进行模态内自监督学习的一种可实施方式，提高了感知模型预训练过程的丰富性，可以有效提高模型的泛化性能。

可选的，也可以采用掩码自监督学习方式得到第一模态数据，采用掩膜自监督学习方式和对比自监督学习方式相结合的方式得到第二模态数据，并将第一模态数据和第二模态数据进行对比学习，以进行单一模态的模态内自监督学习。示例性的，将模态为点云的无标注数据称为原始点云，第一分支：将原始点云按照一定的视角（如旋转30度后的视角）进行扰动，进一步输入特征提取网络进行特征提取，将特征提取的结果采用信息补全模块，得到恢复后的扰动后的点云，即复原的第一模态数据。第二分支：将原始点云进行掩码，掩码之后提取特征，再进行点云信息补全，补全之后的点云再经过视角随机变化的扰动（如基于如旋转30度后的视角进行扰动），然后特征提取，采用信息补全模块，得到复原的第二模态数据。将第一分支和第二分支得到的第一模态数据和第二模态数据进行对比学习，以进行单一模态的模态内自监督学习。

可选的，针对每种模态的无标注数据，并行采用掩码自监督学习方式和对比自监督学习方式，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习包括：针对每种模态的无标注数据，采用掩码自监督学习方式对感知模型中的特征提取网络进行学习，以得到掩码损失；针对每种模态的无标注数据，采用对比自监督学习方式对感知模型中的特征提取网络进行学习，以得到对比损失；将掩码损失和对比损失进行加权累加，形成总损失；根据总损失对特征提取网络进行更新。

其中，掩码损失是指基于掩码自监督学习方式进行预训练时，对应模态的无标注数据与复原的模态数据进行比对学习得到的损失。对比损失是指基于对比自监督学习方式进行预训练时，对应模态的无标注数据的至少两种扰动提取特征进行对比学习得到的损失。

需要说明的是，针对每种模态的无标注数据，通过分别对其执行基于掩码自监督学习方式的自监督学习，以及基于对比自监督学习方式的自监督学习，可以分别得到掩码损失和对比损失，根据掩码损失和对比损失累加形成的总损失对特征提取网络进行更新，可以有效提高模型的泛化性能。

S303，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行模态间自监督学习。

本公开实施例的方案，在获取至少两种模态的训练样本之后，针对每种模态的无标注数据，并行采用掩码自监督学习方式和对比自监督学习方式，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行模态间自监督学习。通过这样的方式，给出了并行采用掩码自监督学习方式和对比自监督学习方式，进行模态内自监督学习的一种可实施方式，通过模态内自监督学习，可以增强模型主干网络的泛化能力，提升模型在跨场景、跨传感器应用时的效果。

图4A是根据本公开实施例提供的一种自动驾驶感知模型预训练方法的流程图，图4B是根据本公开实施例提供的一种自动驾驶感知模型预训练的过程示意图。本实施例在上述实施例的基础上，进一步对“采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行模态间自监督学习”进行详细的解释说明，如图4A所示，该方法包括：

S401，获取至少两种模态的训练样本。

S402，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习。

S403，将至少两种模态的无标注数据同时输入感知模型，通过感知模型中的特征提取网络进行特征提取，以获取至少两种模态特征。

示例性的，可以将模态为点云的无标注数据，输入感知模型，通过感知模型中的特征提取网络进行特征提取，获取点云模态特征，同时，将模态为图像的无标注数据，输入感知模型，通过感知模型中的特征提取网络进行特征提取，获取图像模态特征，即获取至少两种模态特征。

S404，将至少两种模态特征进行比对学习，以进行模态间自监督学习。

可选的，可以基于预设的识别算法，对无标注数据进行识别，进一步针对同一区域的无标注数据，采用无标注数据同一区域对应的至少两种模态特征进行比对学习，以进行模态间自监督学习。

可选的，将至少两种模态特征进行比对学习，以进行模态间自监督学习包括：识别至少两种模态特征分别在对应模态的无标注数据中的所属物体；根据归属于同一物体的不同模态的模态特征进行对比学习，以进行模态间自监督学习。

其中，所属物体可以为小车、大车、行人、路牌以及建筑物等物体。

可选的，可以基于预设的识别算法，如轮廓检测算法，识别至少两种模态特征分别在对应模态的无标注数据中的所属物体，根据归属于同一物体的不同模态的模态特征进行对比学习，以进行模态间自监督学习。

示例性的，在图像模态下，确定小车在对应图像中的区域，并将对应区域下的模态特征，与点云模态下确定的小车的模态特征进行比对学习，以进行模态间自监督学习。同时，还可以在图像模态下，确定大车在对应图像中的区域，并将对应区域下的模态特征，与点云模态下确定的大车的模态特征进行比对学习，以进行模态间自监督学习。

需要说明的是，通过识别至少两种模态特征分别在对应模态的无标注数据中的所属物体，进一步将归属于同一物体的不同模态的模态特征进行对比学习，也就是进行物体级别的特征比对学习，可以缩小特征比对自学习的区域，确定出更准确的损失，从而可以更好地对感知模型进行预训练。

可选的，识别至少两种模态特征分别在对应模态的无标注数据中的所属物体包括：采用已训练模型或物体轮廓检测模型，在无标注数据中识别物体的轮廓位置；根据至少两种模态数据之间的时空配准信息，将轮廓位置达到匹配条件的区域，确定为属于同一物体；确定位于同一物体所在区域中的无标注数据所提取的模态特征归属于同一物体。

其中，已训练模型是指预先训练的可以粗略识别数据对应的各物体轮廓信息的模型。物体轮廓检测模型是指预先配置好参数的可以检测到无标注数据中物体轮廓信息的模型。物体轮廓检测模型是指不经过样本训练即可以检测出物体轮廓的检测模型，例如，基于图像中物体轮廓边缘梯度变化情况，将物体从图像中识别出来的检测模型。时空配准信息是指表征至少两种模态数据在时空维度上对应关系的信息。

可选的，基于预设的匹配规则，将至少两种模态数据进行时空配准，从而建立至少两种模态数据之间的时空对应关系。例如，具有相同的时间戳，以及转换至相同的空间坐标系下。在具有时空对应关系的多种模态数据中，如果识别到的物体所在区域匹配，且轮廓形状也匹配，则认为在不同模态数据中识别到的物体是同一物体。从而将轮廓位置达到匹配条件的区域，确定为属于同一物体，最后确定位于同一物体所在区域中的无标注数据所提取的模态特征归属于同一物体。

需要说明的是，通过采用其他已训练好的模型或常规的规则化的检测器（如物体轮廓检测模型），对无标注数据进行初步的物体识别，可以较粗略的识别出无标注数据中的物体，也就是在无标注数据中识别物体的轮廓位置，从而将无标注数据所提取的模态特征进行归类，即属于同一物体的模态特征归属于一类，有助于后续进行物体级别的特征比对学习，从而缩小特征比对自学习的区域，确定出更准确的损失，更好地对感知模型进行预训练。

本公开实施例的方案，将至少两种模态的无标注数据同时输入感知模型，通过感知模型中的特征提取网络进行特征提取，以获取至少两种模态特征，最后将至少两种模态特征进行比对学习，以进行模态间自监督学习。通过这样的方式，给出了一种进行模态间自监督学习的可实施方式，通过跨模态的模态间自监督对比学习，可以增强模态之间特征一致性，提升模型在下游多任务中的预测效果。

可选的，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习包括：采用至少两种模态的无标注数据，分别通过感知模型中的特征提取网络进行特征提取，以形成特征提取结果；识别特征提取结果在无标注数据中的所属物体；根据归属于同一物体的特征提取结果，进行单一模态的模态内自监督学习。

示例性的，可以采用点云模态的无标注数据，通过感知模型中的特征提取网络进行特征提取，以形成点云特征提取结果，采用图像模态的无标注数据，通过感知模型中的特征提取网络进行特征提取，以形成图像特征提取结果。

可选的，可以采用已训练模型或物体轮廓检测模型，在无标注数据中识别物体的轮廓位置；将轮廓位置达到匹配条件的区域，确定为属于同一物体，确定位于同一物体所在区域中的无标注数据所提取的模态特征归属于同一物体，从而识别特征提取结果在无标注数据中的所属物体，进一步根据归属于同一物体的特征提取结果，进行单一模态的模态内自监督学习。

需要说明的是，通过这样的方式，给出了进行模态内自监督学习的一种可实施方式，通过模态内自监督学习，可以增强模型主干网络的泛化能力，提升模型在跨场景、跨传感器应用时的效果。

示例性的，参见图4B，点云模态时，无标注数据为同一帧点云，对于点云，可以进行掩码处理，并利用感知模型的特征提取网络，进行3D特征提取，进一步采用信息补全模块，进行点云信息补全，生成复原后的点云，即采用掩码自监督学习方式进行学习；对于点云，还可以进行视角随机变化等至少两种扰动处理，并利用感知模型的特征提取网络，进行3D特征提取，最后将至少两种扰动提取特征比对学习，即采用对比自监督学习方式进行学习，根据得到的对比学习损失，进行模态内自监督学习，也就是同模态自监督学习。

示例性的，参见图4B，图像模态时，无标注数据为同一帧图像，对于图像，可以进行掩码处理，并利用感知模型的特征提取网络，进行2D特征提取，进一步采用信息补全模块，进行图像信息补全，生成复原后的图像，即采用掩码自监督学习方式进行学习；对于图像，还可以进行crop等至少两种扰动处理，并利用感知模型的特征提取网络，进行2D特征提取，最后将至少两种扰动提取特征比对学习，即采用对比自监督学习方式进行学习，根据得到的对比学习损失，进行模态内自监督学习，也就是同模态自监督学习。

示例性的，对2D特征提取结果进行识别处理，确定图像的2D包围框，例如可以是二维矩形检测框，不同的二维矩形检测框中包含不同的物体，从而识别图像中的不同物体；对3D特征提取结果进行识别处理，识别点云的3D包围块，例如可以是三维的立方体，从而点云中的不同物体。

示例性的，参见图4B，可以将点云模态和图像模态的无标注数据同时输入感知模型，通过感知模型中的特征提取网络进行特征提取，以获取两种模态特征；最后将至少两种模态特征进行比对学习，根据跨模态间的对比损失，进行模态间自监督学习。

需要说明的是，参见图4B，不同分支的自监督学习之间可以共享信息，以保证共同处理同一个大模型的预训练，也就是说，共享的含义为：对同一个感知模型进行的预训练，可以实现对同一个感知模型先后或同时进行掩码自监督学习方式和对比自监督学习方式的预训练。

图5是根据本公开实施例提供的一种自动驾驶感知模型的预训练装置的结构示意图。本公开实施例可适用于对自动驾驶感知模型进行预训练的情况，尤其适用于采用多种模态的无标注数据分别进行模态内自监督学习和模态间自监督学习的情况，该装置可以采用软件和/或硬件的方式实现。具体可以集成于具有自动驾驶感知模型的预训练功能的电子设备中。如图5所示，该自动驾驶感知模型的预训练装置500包括：

获取模块501，用于获取至少两种模态的训练样本；其中，所述训练样本包括无标注数据；

预训练模块502，用于按照设定的自监督学习顺序，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习和模态间自监督学习，以形成预训练完成的感知模型。

本公开实施例的方案，获取至少两种模态的训练样本，按照设定的自监督学习顺序，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习和模态间自监督学习，以形成预训练完成的感知模型。通过这样的方式，可以有效利用训练样本中大量的无标注数据，对感知模型中特征提取网络进行自监督学习，从而提高感知模型预训练的训练效率，提升感知模型主体网络的特征提取能力，具体的，通过模态内自监督学习，可以增强模型主干网络的泛化能力，提升模型在跨场景、跨传感器应用时的效果；通过跨模态的模态间自监督对比学习，可以增强模态之间特征一致性，提升模型在下游多任务中的预测效果。

进一步的，多模态的训练样本至少包括图像和点云；

进一步的，所述感知模型包括预处理网络、主体网络和多任务输出网络；

进一步的，所述预处理网络中的每个预处理分支模块用于分别处理对应模态的训练样本，以形成预训练样本；

所述主体网络用于对输入的预训练样本进行特征处理；

所述多任务输出网络包括多个子任务分支模块，用于分别根据所述主体网络的输出数据，识别对应子任务的自动驾驶感知结果；

进一步的，所述主体网络中包括融合子网络、特征提取模块和特征转换模块，所述融合子网络包括多个特征提取网络和融合模块；

所述特征提取网络用于分别从预处理后的单模态训练样本中提取单模态特征；

所述融合模块用于将多个单模态特征进行融合，形成融合特征；

所述特征提取模块用于对融合特征进行特征提取；

所述特征转换模块用于对所述特征提取模块提取的特征进行转换处理。

进一步的，所述子任务分支模块对应的子任务包括下述至少一种：2D框检测任务、3D框检测任务、语义分割任务、车道线分割任务、以及物体跟踪任务。

进一步的，所述主体网络包括多层专家子网络；

所述融合子网络的数量为一个，将一个所述融合子网络以共用形式设置在多层专家子网络中；或所述融合子网络的数量为多个，分别对应设置在所述多层专家子网络中。

进一步的，所述预训练模块具体用于：对所述感知模型中的一个专家子网络中的特征提取网络，进行单一模态的模态内自监督学习和进行模态间自监督学习；

采用自监督学习后的所述专家子网络，对其他专家子网络进行初始化。

进一步的，预训练模块包括：

模态内学习单元，用于针对每种模态的无标注数据，并行采用掩码自监督学习方式和对比自监督学习方式，对所述感知模型中的特征提取网络，进行单一模态的模态内自监督学习。

进一步的，所述模态内学习单元具体用于：

针对每种模态的无标注数据，进行掩码处理，将非掩码处理数据输入所述感知模型的特征提取网络，以输出掩码提取特征；

将所述掩码提取特征输入信息补全模块，以补全掩码信息并复原为模态数据；

将该模态的无标注数据与复原的模态数据进行比对学习，以进行单一模态的模态内自监督学习。

进一步的，所述模态内学习单元还用于：

将该模态的无标注数据与复原的模态数据，采用至少一种扰动方式进行扰动处理，以分别形成第一扰动数据和第二扰动数据；

将所述第一扰动数据和第二扰动数据进行比对学习，以进行单一模态的模态内自监督学习。

进一步的，所述模态内学习单元还用于：

针对每种模态的无标注数据，采用掩码自监督学习方式对所述感知模型中的特征提取网络进行学习，以得到掩码损失；

针对每种模态的无标注数据，采用对比自监督学习方式对所述感知模型中的特征提取网络进行学习，以得到对比损失；

将所述掩码损失和对比损失进行加权累加，形成总损失；

根据所述总损失对所述特征提取网络进行更新。

进一步的，预训练模块还用于：

采用至少两种模态的无标注数据，分别通过感知模型中的特征提取网络进行特征提取，以形成特征提取结果；

识别特征提取结果在所述无标注数据中的所属物体；

根据归属于同一物体的特征提取结果，进行单一模态的模态内自监督学习。

进一步的，预训练模块还包括：

提取单元，用于将至少两种模态的无标注数据同时输入所述感知模型，通过所述感知模型中的特征提取网络进行特征提取，以获取至少两种模态特征；

模态间学习单元，用于将所述至少两种模态特征进行比对学习，以进行模态间自监督学习。

进一步的，模态间学习单元包括：

识别子单元，用于识别至少两种模态特征分别在对应模态的无标注数据中的所属物体；

学习子单元，用于根据归属于同一物体的不同模态的模态特征进行对比学习，以进行模态间自监督学习。

进一步的，识别子单元具体用于：

采用已训练模型或物体轮廓检测模型，在无标注数据中识别物体的轮廓位置；

根据至少两种模态数据之间的时空配准信息，将轮廓位置达到匹配条件的区域，确定为属于同一物体；

确定位于同一物体所在区域中的无标注数据所提取的模态特征归属于同一物体。

上述产品可执行本公开任意实施例所提供的自动驾驶感知模型的预训练方法，具备执行方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6是用来实现本公开实施例的自动驾驶感知模型的预训练方法的电子设备的框图。图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器（ROM）602中的计算机程序或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如自动驾驶感知模型的预训练方法。例如，在一些实施例中，自动驾驶感知模型的预训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的自动驾驶感知模型的预训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行自动驾驶感知模型的预训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算（cloud computing），指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种自动驾驶感知模型的预训练方法，包括：

获取至少两种模态的训练样本；其中，所述训练样本包括无标注数据；多模态的训练样本至少包括图像和点云；

按照设定的自监督学习顺序，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习和模态间自监督学习，以形成预训练完成的感知模型；所述模态内自监督学习是指对单独一种模态的无标注数据进行的自监督学习；所述模态间自监督学习是指对至少两种模态的无标注数据进行对比学习的自监督学习；

其中，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习包括：

针对每种模态的无标注数据，并行采用掩码自监督学习方式和对比自监督学习方式，对所述感知模型中的特征提取网络，进行单一模态的模态内自监督学习；或

采用至少两种模态的无标注数据，分别通过感知模型中的特征提取网络进行特征提取，以形成特征提取结果；识别特征提取结果在所述无标注数据中的所属物体；根据归属于同一物体的特征提取结果，进行单一模态的模态内自监督学习。

2.根据权利要求1所述的方法，其中，所述感知模型包括预处理网络、主体网络和多任务输出网络。

3.根据权利要求2所述的方法，其中：

所述预处理网络中的每个预处理分支模块用于分别处理对应模态的训练样本，以形成预训练样本；

所述主体网络用于对输入的预训练样本进行特征处理；

所述多任务输出网络包括多个子任务分支模块，用于分别根据所述主体网络的输出数据，识别对应子任务的自动驾驶感知结果。

4.根据权利要求3所述的方法，其中，所述主体网络中包括融合子网络、特征提取模块和特征转换模块，所述融合子网络包括多个特征提取网络和融合模块；

所述特征提取模块用于对融合特征进行特征提取；

5.根据权利要求3所述的方法，其中，所述子任务分支模块对应的子任务包括下述至少一种：2D框检测任务、3D框检测任务、语义分割任务、车道线分割任务、以及物体跟踪任务。

6.根据权利要求4所述的方法，其中：

所述主体网络包括多层专家子网络；

7.根据权利要求6所述的方法，其中，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习和进行模态间自监督学习包括：

8.根据权利要求1所述的方法，其中，针对每种模态的无标注数据，采用掩码自监督学习方式，对所述感知模型中的特征提取网络，进行单一模态的模态内自监督学习包括：

9.根据权利要求1所述的方法，其中，针对每种模态的无标注数据，采用对比自监督学习方式，对所述感知模型中的特征提取网络，进行单一模态的模态内自监督学习包括：

针对每种模态的无标注数据，采用至少两种扰动方式进行扰动处理，将至少两种扰动处理数据分别输入所述感知模型的特征提取网络，以分别输出至少两种扰动提取特征；

将至少两种所述扰动提取特征比对学习，以进行单一模态的模态内自监督学习。

10.根据权利要求1所述的方法，其中，针对每种模态的无标注数据，并行采用掩码自监督学习方式和对比自监督学习方式，对所述感知模型中的特征提取网络，进行单一模态的模态内自监督学习包括：

11.根据权利要求1所述的方法，其中，针对每种模态的无标注数据，并行采用掩码自监督学习方式和对比自监督学习方式，对所述感知模型中的特征提取网络，进行单一模态的模态内自监督学习包括：

将所述掩码损失和对比损失进行加权累加，形成总损失；

根据所述总损失对所述特征提取网络进行更新。

12.根据权利要求1-7任一所述的方法，其中，采用至少两种模态的无标注数据，对所述感知模型中的特征提取网络，进行模态间自监督学习包括：

将至少两种模态的无标注数据同时输入所述感知模型，通过所述感知模型中的特征提取网络进行特征提取，以获取至少两种模态特征；

将所述至少两种模态特征进行比对学习，以进行模态间自监督学习。

13.根据权利要求12所述的方法，其中，将所述至少两种模态特征进行比对学习，以进行模态间自监督学习包括：

识别至少两种模态特征分别在对应模态的无标注数据中的所属物体；

根据归属于同一物体的不同模态的模态特征进行对比学习，以进行模态间自监督学习。

14.根据权利要求13所述的方法，其中，识别至少两种模态特征分别在对应模态的无标注数据中的所属物体包括：

15.一种自动驾驶感知模型的预训练装置，包括：

获取模块，用于获取至少两种模态的训练样本；其中，所述训练样本包括无标注数据；多模态的训练样本至少包括图像和点云；

预训练模块，用于按照设定的自监督学习顺序，采用至少两种模态的无标注数据，对感知模型中的特征提取网络，进行单一模态的模态内自监督学习和模态间自监督学习，以形成预训练完成的感知模型；所述模态内自监督学习是指对单独一种模态的无标注数据进行的自监督学习；所述模态间自监督学习是指对至少两种模态的无标注数据进行对比学习的自监督学习；

其中，预训练模块包括：

模态内学习单元，用于针对每种模态的无标注数据，并行采用掩码自监督学习方式和对比自监督学习方式，对所述感知模型中的特征提取网络，进行单一模态的模态内自监督学习；或

预训练模块还用于：

16.根据权利要求15所述的装置，其中，所述感知模型包括预处理网络、主体网络和多任务输出网络。

17.根据权利要求16所述的装置，其中：

所述主体网络用于对输入的预训练样本进行特征处理；

18.根据权利要求17所述的装置，其中：所述主体网络中包括融合子网络、特征提取模块和特征转换模块，所述融合子网络包括多个特征提取网络和融合模块；

所述特征提取模块用于对融合特征进行特征提取；

19.根据权利要求17所述的装置，其中，所述子任务分支模块对应的子任务包括下述至少一种：2D框检测任务、3D框检测任务、语义分割任务、车道线分割任务、以及物体跟踪任务。

20.根据权利要求18所述的装置，其中：

所述主体网络包括多层专家子网络；

21.根据权利要求20所述的装置，其中，所述预训练模块具体用于：对所述感知模型中的一个专家子网络中的特征提取网络，进行单一模态的模态内自监督学习和进行模态间自监督学习；

22.根据权利要求15所述的装置，其中，所述模态内学习单元具体用于：

23.根据权利要求15所述的装置，其中，所述模态内学习单元还用于：

24.根据权利要求15所述的装置，其中，所述模态内学习单元还用于：

25.根据权利要求15所述的装置，其中，所述模态内学习单元还用于：

将所述掩码损失和对比损失进行加权累加，形成总损失；

根据所述总损失对所述特征提取网络进行更新。

26.根据权利要求15-21任一所述的装置，其中，预训练模块还包括：

27.根据权利要求26所述的装置，其中，模态间学习单元包括：

28.根据权利要求27所述的装置，其中，识别子单元具体用于：

29. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-14中任一项所述的方法。