CN115879535B

CN115879535B - 一种自动驾驶感知模型的训练方法、装置、设备和介质

Info

Publication number: CN115879535B
Application number: CN202310134421.2A
Authority: CN
Inventors: 张伟; 谭啸; 林相如; 叶晓青; 韩钧宇; 王井东; 丁二锐; 吴甜; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-05-23
Anticipated expiration: 2043-02-10
Also published as: CN115879535A

Abstract

本公开提供了一种自动驾驶感知模型的训练方法、装置、设备和介质，涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域，可应用于自动驾驶、智慧城市等场景。该训练方法包括：获取一种或多种模态的训练样本；采用设定场景的有标注数据对感知模型进行场景化训练；采用所述训练样本对场景化后的感知模型进行半监督训练，以更新所述感知模型并形成伪标注数据，且将所述伪标注数据更新至所述训练样本中；采用训练样本，基于半监督训练后的感知模型，进行知识迁移，以形成车端模型。本公开提供的方案充分发挥了自动驾驶场景海量数据和大模型的优势。

Description

一种自动驾驶感知模型的训练方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域，可应用于自动驾驶、智慧城市等场景。

背景技术

在自动驾驶车辆中，感知系统是最为重要的组成部分，其作用是帮助自动驾驶车辆理解周边的环境。

现有的自动驾驶感知模型，其生产方式是基于少量训练数据，对小模型进行训练的传统模式。这无法发挥自动驾驶场景海量数据样本的优势。在数据方面，现有人工标注方法效率低、价格高、周期长，因此，也难以将海量数据标注为样本数据，满足模型训练的数据建设需求。

发明内容

本公开提供了一种自动驾驶感知模型的训练方法、装置、设备和介质。

根据本公开的一方面，提供了一种自动驾驶感知模型的训练方法，包括：

获取一种或多种模态的训练样本；其中，所述训练样本包括有标注数据和无标注数据；

采用设定场景的有标注数据对感知模型进行场景化训练；

采用所述训练样本对场景化后的感知模型进行半监督训练，以更新所述感知模型并形成伪标注数据，且将所述伪标注数据更新至所述训练样本中；

采用训练样本，基于半监督训练后的感知模型，进行知识迁移，以形成车端模型。

根据本公开的另一方面，提供了一种自动驾驶感知模型的训练装置，包括：

训练样本获取模块，用于获取一种或多种模态的训练样本；其中，所述训练样本包括有标注数据和无标注数据；

场景化训练模块，用于采用设定场景的有标注数据对感知模型进行场景化训练；

半监督训练模块，用于采用所述训练样本对场景化后的感知模型进行半监督训练，以更新所述感知模型并形成伪标注数据，且将所述伪标注数据更新至所述训练样本中；

知识迁移模块，用于采用训练样本，基于半监督训练后的感知模型，进行知识迁移，以形成车端模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任一实施例所提供的自动驾驶感知模型的训练方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开任一实施例所提供的自动驾驶感知模型的训练方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现本公开任一实施例所提供的自动驾驶感知模型的训练方法。

本公开实施例提供了一种自动驾驶感知模型训练的完整方案，能够充分发挥自动驾驶海量无标注数据的作用，以及大规模感知模型的强大特征提取和表达能力，兼顾小规模车端模型的性能和训练效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1A为本公开实施例提供的一种自动驾驶感知模型的训练方法的流程图；

图1B为本公开实施例所适用的自动驾驶感知模型的架构示意图一；

图1C为本公开实施例所适用的自动驾驶感知模型的架构示意图二；

图1D为本公开实施例所适用的基于CNN的感知模型架构示意图；

图1E为本公开实施例所适用的基于自动编码解码器的感知模型架构示意图；

图1F为本公开实施例所提供自动驾驶感知模型的训练方法的流程环节示意图；

图2A为本公开实施例提供的一种自动驾驶感知模型的训练方法的流程图；

图2B为本公开实施例所适用的感知模型自迭代训练过程示意图一；

图2C为本公开实施例所适用的感知模型自迭代训练过程示意图二；

图3A为本公开实施例提供的一种自动驾驶感知模型的训练方法的流程图；

图3B为本公开实施例所适用的感知模型在线半监督训练过程示意图；

图4A为本公开实施例提供的一种自动驾驶感知模型的训练方法的流程图；

图4B为本公开实施例提供的多模态半自动化标注过程示意图；

图4C为本公开实施例提供的单模态半自动化标注过程示意图；

图4D为本公开实施例提供的3D框半自动化标注过程示意图；

图5A为本公开实施例提供的一种自动驾驶感知模型的训练方法的流程图；

图5B为本公开实施例所适用的模型结构搜索过程示意图；

图5C为本公开实施例所提供的车端模型蒸馏架构示意图；

图5D为本公开实施例所提供的同构车端模型蒸馏过程示意图；

图5E为本公开实施例所提供的异构车端模型蒸馏过程示意图；

图6为本公开实施例所提供的一种自动驾驶感知模型的训练装置的结构示意图；

图7为本公开实施例所提供的电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在自动驾驶车辆中，感知系统是最为重要的组成部分，其作用是帮助自动驾驶车辆理解周边的环境。自动驾驶感知模型通常利用多模态数据作为输入，例如摄像头采集的图像以及激光雷达采集的点云数据，完成对路面上障碍物的空间定位以及语义理解等。为了能对路面环境进行充分理解，自动驾驶感知模型需要包括多种视觉任务，例如3D检测、车道线分割、道路要素分割等。其中3D检测目的是预测障碍物的长宽高、3D位置以及类别，车道线分割与道路要素分割则是通过像素级别细粒度解析，定位车道线以及路面等区域。障碍物通常则包括机动车辆、行人、非机动车、交通锥筒等。对于整个自动驾驶车辆而言，准确、可靠的感知结果，对下游规划与控制至关重要，影响自动驾驶车辆的行驶安全。

本公开实施例的技术方案，充分利用大数据与大模型，构建一套全新的基于大模型知识迁移的自动驾驶感知模型的生产流程。整体方案分为两个阶段：首先，借助自动驾驶积累的海量数据，训练感知模型，借助作为大模型的感知模型的强大特征表达能力，突破自动驾驶感知效果天花板。然后，通过知识迁移技术，形成大数据，大模型和知识迁移的模型生产流程闭环，使得大模型的感知能力可以迁移到车端的小模型。大模型赋能后的车端模型，能大幅提升感知效果同时保持较好的实时性与功耗约束，实现规模化的落地应用。

图1A为本公开实施例提供的一种自动驾驶感知模型的训练方法的流程图。该方法可以由自动驾驶感知模型的训练装置来执行，该装置可采用硬件和/或软件的方式来实现，可配置于电子设备中，一般为具有大规模数据处理能力的服务器或服务器集群。参考图1A，该方法具体包括如下：

S110、获取一种或多种模态的训练样本；其中，所述训练样本包括有标注数据和无标注数据；

S120、采用设定场景的有标注数据对感知模型进行场景化训练；

S130、采用所述训练样本对场景化后的感知模型进行半监督训练，以更新所述感知模型并形成伪标注数据，且将所述伪标注数据更新至所述训练样本中；

S140、采用训练样本，基于半监督训练后的感知模型，进行知识迁移，以形成车端模型。

其中，本公开实施例所涉及的训练样本可包括一种或多种模态。可选的，多种模态的训练样本至少包括图像和点云。点云又可分为激光雷达点云和毫米波雷达点云等模态。不同模态的数据之间可以具有时空关联，也可以不具有时空关联。可以是时序的视频，也可以是单帧图像。例如由同一采集车同时进行采集的点云和视频图像，具有时空配准信息，即具有对应的时间戳和空间坐标对应关系。或者，单独采集的某个模态的数据也可以作为训练样本。

训练样本包括有标注数据和无标注数据。标注数据是指在采集的图像或点云等原始数据中，标注出的需要预测出的结果。例如，标注数据可以包括物体在图像中的2D框，物体在点云中的3D框，图像中的车道线等。一个原始数据中可以包括一项或多项标注数据。准确的标注数据需要大量的人工成本，所以海量的车辆采集数据以无标注数据居多。本公开实施例能够有效利用海量无标注数据，再结合少量的有标注数据，对模型进行训练。

本公开实施例涉及感知模型和车端模型。其中，感知模型为大模型，即模型结构为具有大规模参数的模型，参数量级一般是千万级、亿级别以上，可能到达十亿级别、百亿级别。在大模型的网络结构方面，例如采用UFO（统一特征优化，

）、DWNet（数据仓库网络）等网络结构。采用大模型作为感知模型，能够充分发挥大模型的强大特征表达能力，提高感知模型的预测准确性。

本公开实施例的技术方案，可选采用如图1B所示的大模型架构，该大模型可以是单模态大模型，也可以是多模态大模型，以分别适应单模态或多模态数据联合训练的需求。感知模型具体可包括预处理网络、主体网络和多任务输出网络。从而通过预处理网络对输入数据进行数据形式的预先处理，能够适配主体网络的输入需求。主体网络能够对单模态数据或多模态数据进行联合处理，提取特征。多任务输出网络可包括多个子任务分支模块，能够选择性的使用，适配于自动驾驶场景的多种任务预测需求。

可以预先训练多个版本的感知模型，从而形成感知模型库，在知识迁移和数据标注环节，可有效利用多版本感知模型的优势。所述感知模型的版本数量可以为多个，各版本感知模型之间包括如下至少一项区别：

预处理网络的网络结构；

主体网络的网络结构；

感知模型的训练超参数；

感知模型所采用的训练样本。

为了形成多个版本的感知模型，可以通过预设不同的预处理网络的网络结构、和/或主体网络的网络结构，并分别进行训练，从而形成不同版本的感知模型，例如单模态大模型、多模态大模型。另外，还可以设置不同的训练超参数，例如迭代次数、损失目标、或参数更新梯度等参数，从而得到不同版本的感知模型。当然，也可以从全部训练样本中进行选择，以不同的训练样本子集对感知模型进行训练，得到不同版本的感知模型。

在感知模型库中，除了包括各个版本的感知模型，还可以进一步收集其他相关的模型，例如处理单模态数据的感知模型，其他已训练的小规模模型等，从而能够在半监督训练过程、半自动化数据标注、知识迁移等环节发挥辅助性作用。

在本公开实施例中，感知模型的网络结构可选如下：

所述预处理网络中包括一个或多个预处理分支模块，用于分别处理对应模态的训练样本，形成预处理样本；所述主体网络用于对输入的预处理样本进行特征处理；所述多任务输出网络包括多个子任务分支模块，用于分别根据所述主体网络的输出数据，识别对应子任务的自动驾驶感知结果。

上述网络结构，如果所述感知模型为单模态感知模型，则所述单模态感知模型的输入为一种模态的训练样本，进行数据的预处理、特征提取和转换、以及多任务识别。

上述网络结构，如果所述感知模型为多模态感知模型，则由主体网络对分别预处理后的各个模态数据进行融合，再进行特征提取和转换。该融合模式为前置融合，优选可以在主体网络中对单模态的预处理样本分别进行特征提取，将提取后的特征进行融合，再对融合后的特征进行转换表达。

在感知模型库中，也可以包括部分感知模型，采用后置融合的方式来融合多模态数据的信息。对于不同模态数据，可以在预处理网络和主体网络中分别进行处理，并分别输出各模态数据所提取和转换的特征，当各模态特征输入至多任务输出网络的子任务分支模块后，进行识别得到任务识别结果；此后再对各个模态所输出的任务识别结果进行融合。

感知模型中，主体网络是进行特征提取和转换的主要部分，网络结构的整体参数量可选的是超过亿级且可进一步扩展。预处理网络主要用于根据主体网络的需要，对输入的训练样本进行预处理。多任务输出网络用于基于主体网络提取的特征进行各种子任务的识别，所以多任务输出网络可包括一个或多个子任务分支模块，可采用特定任务输出头（task-specific heads）来实现。在自动驾驶感知场景中，子任务分支模块对应的子任务可选的包括下述至少一种：2D框检测任务、3D框检测任务、语义分割任务、车道线分割任务、以及物体跟踪任务。

在本公开实施例中，主体网络可选的是包括多层专家子网络，如图1C所示；所述感知模型还包括门控网络，所述门控网络配置在多层专家子网络与所述多任务输出网络之间，用于基于门控网络参数选择至少一个专家子网络的输出数据，传输给所述多任务输出网络中的至少一个子任务分支模块。

上述网络架构中，每个专家子网络可输入预处理样本进行特征提取和转换，专家子网络的输出结果经过门控网络输入多任务输出网络。其中门控网络可与多个专家子网络相连，且与多个子任务分支模块相连，从而选择性的连接专家子网络和子任务分支模块。例如，可以选择某个专家子网络的输出结果，提供给2D框检测的子任务分支模块；或者，也可以选择某两个专家子网络的输出结果，按照设定权重参数进行叠加或拼合后，提供给某个子任务分支模块。门控网络在主体网络和多任务输出网络之间的选择性连接参数和权重参数等，也可以在感知模型的训练过程中进行优化。

可选的是，所述主体网络中包括融合子网络，所述融合子网络用于分别从预处理后的单模态训练样本中提取单模态特征，并将单模态特征进行融合，形成融合特征；所述专家子网络中的特征提取模块和特征转换模块，用于对融合特征进行特征提取和特征转换。

具体是，融合子网络可包括多个单模态特征提取模块和融合模块。单模态特征提取模块分别与各个单模态预处理样本对应，用于从单模态预处理样本中提取特征，输出单模态特征。而后输出的多个单模态特征输入融合模块，融合模块用于将单模态特征进行融合，以形成融合特征。融合方式可以有多种，例如进行特征拼接。专家子网络中的特征提取模块用于对融合特征继续进行特征提取处理；特征转换模块用于对融合特征的提取特征进行转换表达。当专家子网络只有一个时，单模态特征提取模块、融合模块、特征提取模块和特征转换模块，共同构成专家子网络。

可选的，所述融合子网络的数量为一个，由多层专家子网络共用一个融合子网络；或所述融合子网络的数量为多个，分别对应设置在所述多层专家子网络中。即，多个专家子网络所包括的融合子网络可以是共用的一个，也可以是独立的多个。

主体网络中的专家子网络可以有多种选择。

如图1D所示，可选的，所述主体网络的专家子网络为卷积神经网络，包括骨干网络和多尺度特征收集网络。

如图1E所示，可选的，所述主体网络的专家子网络为自动编码解码网络，包括编码器和解码器。

参考图1D，为基于CNN（卷积神经网络）的大模型方案，其中，在预处理网络中可以首先通过预处理分支模块分别对图像或点云信号进行预处理。由于数字图像信号本身为高维度张量，与CNN网络相适配，可以进行空间尺度放缩等简单预处理操作。由于点云信号稀疏且无序的特点，预处理过程中需要进行采样与空间栅格化，转化成高维度张量，再作为CNN网络的输入。主体网络基于混合专家（Mixture-of-Experts）思想构建，其中每一个专家子网络采用CNN的残差网络实现骨干网络（backbone）和多尺度特征收集网络（neck）。再由门控网络选取全部专家子网络的一个子集，输出到相应的一个或者多个子任务分支模块。该感知模型的整体结构，既能够灵活实现任务的切分，也能实现不同专家特征的共享。最后，多任务输出网络中：2D框检测子任务（2D Object detection head）可输出2D包围框与分类得分；3D框检测子任务（3D Object detection head）可输出3D包围框、朝向角与分类得分；分割子任务（Segmentation head）可输出每个类别像素级别的分割区域（mask）；车道线分割子任务（Lane Detection head）可输出每一条车道线的实例分割结果；跟踪子任务（Tracking head）可输出每一个物体的帧间运动偏移量。

参考图1E，为基于自动编码解码网络的大模型方案。自动编码解码网络可选是采用注意力机制（例如Transformer）模型来实现。其中，在预处理阶段，由于自动编码解码网络结构依赖序列化的数据输入，需将图像或点云转为序列化的数据格式，例如采用Tokenizer等预处理网络来实现。主干网络可采用基于Transformer的大模型实现特征的编码与解码，并构建混合专家模型实现任务的拆分与特征共享。模型输出端与基于CNN的大模型方案类似，采用多任务输出网络实现不同的感知任务。

本公开实施例的感知模型网络架构方案，具有较强的可扩展性，以及丰富的变化，能够满足各种自动驾驶感知场景下的感知需求。

由于训练样本中包括有大量的无标注数据，为了有效利用无标注数据且提高训练的效率，可选的采用无标注数据对感知模型进行预训练。由此来提升感知模型主干网络的特征提取能力。感知模型的预训练可主要用于训练特征提取部分的网络，可通过两个阶段来实现自监督学习：1）模态内自监督学习。即通过大量无标注数据增强模型主干网络的泛化能力，提升模型在跨场景、跨传感器应用时的效果；2）跨模态的模态间自监督对比学习。通过跨模态对比学习，通过增强模态之间特征一致性，提升模型在下游多任务中的预测效果。大规模预训练中的模态内自监督学习和模态间自监督对比学习可以采用先模态内自监督学习，再联合跨模态自监督对比学习共同训练的方式开展。

针对经过或未经过预训练的感知模型，基于设定场景的有标注数据进行场景化训练。可选的，所述设定场景的有标注数据的标注结果，对应于至少一个子任务的预测结果。设定场景可以是自动驾驶的任意感知需求场景。例如，识别车辆周围的车道线的场景，从而在训练样本中标注有车道线；对车辆周围物体进行识别和跟踪的场景，从而在训练样本的多帧数据中标注有物体以及物体的帧间位移。因此，不同的场景可具有不同的标注结果，标注结果对应于至少一个子任务的预测结果。利用各种具有标注结果的有标注数据，能够对感知模型进行整体训练，提升模型的准确性。对应于不同子任务场景的有标注数据，可以对该子任务分支模块进行单独训练。通过场景化训练，能够在预训练的大模型基础上，进行下游任务的调整。

在感知模型的训练环节，还可以引入对感知模型的半监督训练，进一步提升感知模型效果以及新场景下的泛化能力。类似的，也可以迁移训练得到车端模型后，对车端模型进行半监督训练。半监督训练，也可称为半监督学习(Semi-Supervised Learning，SSL)，结合了监督训练和无监督训练。半监督训练采用大量的无标记数据进行预测形成伪标注数据，以及同时使用有标记数据来进行训练监督。在对车端模型进行知识迁移时，可以选择适用更新前的训练样本的集合，也可以选择更新后的训练样本的集合，还可以从训练样本的集合中优选子集进行知识迁移。下面将通过实施例进行详细介绍。

当感知模型达到训练完成的条件时，可根据需求进行知识迁移，来生成以小规模模型结构为主的车端模型。车端模型的模型参数量小于作为大模型的感知模型模型参数。

本公开实施例，相对于基于少量有标注数据和小模型的模型生成方式，提供了全新的车端模型生成方式，如图1F所示，对感知模型首先可以基于海量的无标注数据进行大规模预训练，而后进行场景化（finetune）训练，再进行半监督训练。对于训练完成的感知模型，通过模型结构搜索技术确定车端模型网络结构，进而基于感知模型进行知识迁移，训练完成车端模型。上述全新的车端模型生成方式，充分发挥了自动驾驶场景海量数据和大模型的优势。在本实施例的技术方案中，引入了多模态数据对大模型的训练技术，当多模态数据包括3D模态数据时，则能够输出3D的任务感知结果。本公开实施例的技术方案，能够形成感知模型，甚至能够形成多版本的感知模型库，其泛化能力强，方便按照车端个性化需求进行知识迁移。如图1F所示，基于训练的感知模型，可增设半自动化标注平台，形成伪标注数据，将通过后续实施例对半自动化标注过程进行介绍。

在上述技术方案的基础上，本公开实施例可选择多种半监督训练方式对感知模型进行训练，并具体可对不同感知模型选择适用不同的半监督训练方式。可选的，采用所述训练样本对场景化后的感知模型进行半监督训练，以更新所述感知模型并形成伪标注数据，且将所述伪标注数据更新至所述训练样本中之前，还包括：确定场景化后的感知模型的性能指标；根据所述性能指标从多种半监督训练方式中选择与所述性能指标匹配的一种半监督训练方式。

对半监督训练方式的选择，可基于当前训练需求的多种因素来进行筛选，优选可基于场景化训练后感知模型的性能指标来选择适合的半监督训练方式。兼顾模型性能、样本准确性和训练速度等。

具体是，根据所述性能指标从多种半监督训练方式中选择与所述性能指标匹配的一种半监督训练方式可包括：根据所述性能指标中的均值平均精度值（mAP）和预设选择策略，从自迭代训练方式和在线半监督训练方式中进行半监督训练方式的选择。

例如，当场景化后的感知模型检测mAP值大于设定阈值，则选择自迭代训练方式，若检测mAP值小于设定阈值，则选择在线半监督训练方式。由此，本公开实施例提出了将多种半监督训练方式进行组合或者单独使用的技术方案。针对大规模训练感知模型的情况，能够兼顾模型训练的多方面需求。

图2A为本公开实施例提供的一种自动驾驶感知模型的训练方法的流程图，本实施例以前述实施例为基础，进一步介绍采用自迭代训练方式对感知模型进行半监督训练的环节。如图2A所示，该方法包括如下：

S210、获取一种或多种模态的训练样本；其中，所述训练样本包括有标注数据和无标注数据；

S220、采用所述无标注数据对感知模型进行预训练；

S230、采用设定场景的有标注数据对预训练后的感知模型进行场景化训练；

S241、将场景化后的感知模型作为教师模型，从所述训练样本中获取第一无标注数据；

S242、采用第一无标注数据对所述教师模型进行训练，输出预测结果；

S243、根据当前输出的预测结果进行性能测试，并确定测试的性能指标是否收敛；若收敛则执行S244，若不收敛则执行S245；

S244、如果确定测试的性能指标收敛，则将当前输出的预测结果，作为第一无标注数据的伪标注结果，以形成伪标注数据并添加至训练样本中；此时可以停止采用第一无标注数据的自迭代训练；

S245、如果确定测试的性能指标不收敛，则根据当前输出的预测结果对所述教师模型进行更新，并返回执行采用第一无标注数据对更新后教师模型进行训练的操作。

S250、采用所述训练样本，基于自迭代训练后的感知模型，进行知识迁移，以形成车端模型。

本公开实施例中，感知模型训练可采用自迭代（Self-training）方式进行。如图2B所示，以已训练的感知模型（可称为教师模型）、有标注数据和无标注数据作为输入，训练新版本的感知模型。自迭代训练所用的初始已训练感知模型，可以是经过场景化训练的感知模型；而后的已训练模型可以是经过迭代训练后被再次更新的感知模型。在一次自迭代训练过程中，该感知模型可称为教师模型。

首先，从训练样本中获取适当数量的无标注数据，作为本轮训练的训练样本，第一无标注数据。将第一无标注数据输入至教师模型，输出预测结果。计算预测结果的性能指标。将第一次输出的预测结果进行记录，而后基于预测结果对教师模型的参数进行更新。更新的教师模型如图2B所示为新版本感知模型；再次向更新后的教师模型输入第一无标注数据，输出预测结果；根据当前输出的预测结果和记录的历史预测结果，可计算性能指标，并判断性能指标是否收敛，例如性能指标是否不再增长。如果性能指标收敛，表明本轮的第一无标注数据对感知模型的训练已经完成，则当前输出的预测结果可以作为第一无标注数据的伪标注结果，产出新的伪标注数据。该伪标注数据可添加至训练样本中，作为后续自迭代训练或其他训练的训练样本。如果性能指标还未收敛，则本轮第一无标注数据仍然有训练价值，则返回继续更新教师模型并继续采用第一无标注数据进行训练。

性能指标可以是在各个任务的测试样本集上，评测预测结果的效果指标，具体可根据需求设置，例如，性能指标可以包括：检测均值平均精度（Mean Average Precision ，mAP），精度（Precision），查全率（Recal），分割均交并比(Mean Intersection over Union，MIoU)。

对于教师模型基于第一无标注数据输出的预测结果，由于经过多任务输出网络的归一化处理，以及根据分类概率值等操作而进行的处理，所以每次计算过程的预测结果仍然是有变化的，具有对教师模型的更新训练价值。

上述过程也可参照图2C所示。首先，利用有标注数据训练感知模型，作为教师模型，再不断将无标注数据输入教师模型进行训练；当教师模型的预测结果满足性能指标收敛的要求时，作为无标注数据的伪标注结果，形成伪标注数据添加到训练样本中，实现了在线伪标注；将伪标注数据与有标注数据混合后，可进行感知模型的训练，训练完成后更新作为教师模型，以开始新一轮的训练。

在通过满足性能指标要求的当前感知模型进行伪标注时，可以进一步对伪标注数据进行精炼筛选。可选的，将当前输出的预测结果作为第一无标注数据的伪标注结果，以形成伪标注数据并添加至训练样本中包括：

将当前输出的预测结果作为第一无标注数据的伪标注结果，对所述伪标注结果按照设定规则进行筛选；

将筛选后的无标注数据和伪标注结果，形成为伪标注数据，并添加至训练样本中。

上述操作中，可以按照需求进行筛选规则的设置，从而对伪标注结果进行筛选。优选是，对所述伪标注结果按照设定规则进行筛选包括：

验证所述伪标注结果中不同子任务标注结果的一致性；

根据一致性结果筛选伪标注结果。

具体的，筛选规则可以基于伪标注结果的一致性来实现。一致性可体现在感知模型所输出不同子任务标注结果之间的一致性。例如，感知模型的多任务输出网络可处理2D框检测子任务和3D框检测子任务，这两种子任务都会在样本数据中预测出物体的包围框位置，理论上，2D框和3D框应该位置和轮廓是一致的。所以可基于2D框和3D框的一致性来确定该输出的预测结果是否是比较准确的。可以利用2D框和3D框之间的交并比，将一致性匹配度比较高的预测结果筛选出来作为伪标注结果。

图3A为本公开实施例提供的一种自动驾驶感知模型的训练方法的流程图，本实施例以前述实施例为基础，进一步介绍采用在线半监督训练方式对感知模型进行半监督训练的环节。如图3A所示，该方法包括如下：

S310、获取一种或多种模态的训练样本；其中，所述训练样本包括有标注数据和无标注数据；

S320、采用所述无标注数据对感知模型进行预训练；

S330、采用设定场景的有标注数据对预训练后的感知模型进行场景化训练；

S341、根据场景化后的感知模型分别初始化教师模型和学生模型，从所述训练样本中获取第二无标注数据；

S342、对第二无标注数据采用两种不同扰动方式进行扰动处理，以分别形成教师训练数据和学生训练数据；

S343、将所述教师训练数据输入所述教师模型，输出教师预测结果；

S344、将所述学生训练数据输入所述学生模型，输出学生预测结果；

S345、计算所述教师预测结果和所述学生预测结果之间的损失，作为伪标签损失；

S346、根据所述教师模型和学生模型中输出的特征，进行特征一致性计算，以获取特征一致性损失；

S347、根据所述伪标签损失和特征一致性损失，确定梯度；

S348、根据所述梯度和所述伪标签损失，对所述学生模型的参数进行更新；

S349、根据所述学生模型的更新后参数引导所述教师模型的参数进行更新；

S350、采用所述训练样本，基于在线半监督训练后的感知模型，进行知识迁移，以形成车端模型。

本公开实施例，感知模型的在线半监督训练方式，可参考图3B所示，首先，用场景化后的感知模型分别对教师模型与学生模型进行初始化处理；而后，对于输入的无标注数据（点云数据或者图像数据）进行两种不同的扰动处理，例如不同的随机扰动；经过扰动后的数据分别输入教师模型与学生模型，输出预测结果；最后利用教师模型输出的教师预测结果，作为伪标注数据，对学生模型进行监督训练，同时，伪标注数据也可以添加进入训练样本；同时计算教师模型与学生模型之间的特征一致性损失。其中，教师模型和学生模型的特征，可以是模型任意环节输出的特征，例如主体网络中特征提取模块或特征转换模块输出的特征。梯度的计算方式可以是神经网络训练中所采用的反向传播方法，具体是根据构建的伪标签损失以及特征一致性损失，反向回传梯度。梯度可以用于控制学生模型中参数的更新梯度。

本实施例中，可以通过学生模型的参数引导教师模型的参数更新，进一步降低教师模型参数的波动。在训练过程中，可能学生模型的更新频率较高，导致波动比较大。为此，可以用学生模型的参数来引导教师模型的参数更新，使得教师模型的参数变化趋势总体与学生模型一致，通过设定的调整策略使得教师模型的参数波动小一些。调整策略例如可以采取滑动平均等方式，采用学生模型的参数随训练轮次的滑动平均值，作为教师的参数，达到减小教师模型参数波动的效果。教师模型和学生模型共同进行更新，直至采用第二无标注数据训练达到模型收敛条件为止。可以采用教师模型或学生模型作为半监督训练后的感知模型。

采用本实施例的技术方案，能够以在线半监督训练方式，对感知模型进行迭代训练，充分利用大量无标注数据的优势，能够优化感知模型。

图4A为本公开实施例提供的一种自动驾驶感知模型的训练方法的流程图，本实施例以前述实施例为基础，进一步增设了半自动化数据标注环节。如图4A所示，该方法还包括如下：

S410、获取具有时空关联的至少两种模态的无标注数据，以及不同模态无标注数据之间的配准信息；

S420、将所述至少两种模态的无标注数据，输入训练后的感知模型中，以输出预测结果，作为所述无标注数据的伪标注结果；

S430、根据所述配准信息建立至少两种模态对应的伪标注结果，形成多模态伪标注结果。

训练感知模型的效果，依赖于高质量、大规模的训练样本，本公开实施例在提供了感知模型训练方案的前提下，还提供了基于感知模型进行半自动化标注的方案。该半自动化标注方案，可以为感知模型的半监督训练，或后续版本感知模型的训练，提供可靠的训练样本。还可以为车端模型迁移训练提供训练样本。此外，也可以将半自动化标注的训练样本满足其他模型的训练需求。该方案，极大的节省了标注成本，进而加速感知模型知识迁移的速度，降低感知模型的优化成本。

可选的是，半自动化标注过程还可以包括：对各模态对应的伪标注结果进行人工纠错或人工标注。从而提升伪标注结果的正确性。

本公开实施例的半自动化标注方案，利用具有配准信息的多模态数据，例如点云和图像的时序信号，通过感知模型可形成多模态伪标注结果。多模态伪标注结果可以通过多模态融合的感知模型直接预测输出，或者也可以利用感知模型中的单模态分支分别预测输出单模态的伪标注结果，再进行关联形成多模态伪标注结果。

具体的，将所述至少两种模态的无标注数据，输入训练后的感知模型中，以输出预测结果，作为所述无标注数据的伪标注结果包括：

将所述至少两种模态的无标注数据，分别输入训练后感知模型中的单模态分支，以分别输出至少两个模态的伪标注结果；或

将所述至少两种模态的无标注数据，同时输入训练后感知模型，以输出多模态的伪标注结果。

其中，感知模型的单模态分支，可以是只采用单模态数据对感知模型训练后，形成的单模态版本的感知模型，也可以是多模态数据训练后的感知模型，只输入单模态数据，利用感知模型中对应模态的预处理网络和主体网络进行单模态数据的特征提取，从而形成单模态数据的伪标注结果。

如图4B所示，为采用多模态感知模型得到统一的伪标注结果。具体可以将多模态时序的无标注数据输入多模态感知模型，输出多模态伪标注结果；将各个模态的伪标注结果分别进行人工修正或人工弱标注的处理；而后基于多模态数据之间的配准信息，将各个模态的伪标注结果进行时空关联，具体可建立统一空间坐标系下的空间对应关系，以及通过时间戳建立时序上的对应关系；最终形成半自动化标注后的伪标注数据。

如图4C所示，为采用多个单模态感知模型得到多模态伪标注结果。具体可以是将各个模态时序的无标注数据，分别输入对应模态的单模态感知模型中，分别得到单模态伪标注结果；将伪标注结果通过人工修正，以对伪标注结果中的错误进行直接修正，和/或进行人工弱标注，得到目标物体的辅助信息；而后将伪标注结果，结合多模态数据的配准信息，进行时空关联，利用物体的时空一致性，对结果进行最终的融合和修正，得到最终伪标注结果。

图4D以3D框检测为例说明半自动化标注方案。如图4D所示，为针对3D框检测任务的多模态半自动化标注流程图，需要完成针对无标注点云和无标注图像，进行2D框和3D框的联合标注。高质量标注的难点在于3D框不直观，导致标注困难成本高。为此，对于无标注点云数据，本公开实施例首先利用感知模型，对无标注点云数据进行预测，得到点云伪标注结果，即点云下的3D框。对于无标注图像，利用感知模型进行预测，输出2D框预测结果、3D框预测结果、以及时序跟踪结果，作为图像伪标注结果。随后，对单帧图像下的2D框与3D框进行关联，再利用时序跟踪结果，进行帧间目标物体的关联，以便利用时序信息进一步剔除误检和补充漏检。最后将图像的2D框、3D框与点云3D框进行融合，输出点云-图像的多模态2D框和3D框联合标注结果。还可将人工标注与伪标注结果进行目标关联与优化。

图5A为本公开实施例提供的一种自动驾驶感知模型的训练方法的流程图，本实施例以前述实施例为基础，具体介绍基于感知模型进行知识迁移。采用所述训练样本，基于半监督训练后的感知模型，进行知识迁移，以形成车端模型可以是包括：采用所述训练样本，输入基于半监督训练后的感知模型进行预测，以输出伪标注结果；采用所述训练样本，输入初始的车端模型，以输出预测结果，根据所述伪标注结果和所述预测结果对所述车端模型进行训练。具体的，可以从感知模型网络的任意环节中提取预测结果，作为监督车端模型训练的伪标注结果。

如图5A所示，该方法包括：

S510、获取一种或多种模态的训练样本；其中，所述训练样本包括有标注数据和无标注数据；

S520、采用所述无标注数据对感知模型进行预训练；

S530、采用设定场景的有标注数据对预训练后的感知模型进行场景化训练；

S540、采用所述训练样本对场景化后的感知模型进行半监督训练，以更新所述感知模型并形成伪标注数据，且将所述伪标注数据更新至所述训练样本中；

S551、采用模型搜索网络确定车端模型的网络配置参数；

S552、如果确定的车端模型与训练后的感知模型为同构模型，则采用特征蒸馏、关系蒸馏和伪标签蒸馏方式，基于所述训练样本和训练后的感知模型进行知识迁移，以形成车端模型；

S553、如果确定的车端模型与训练后的感知模型为异构模型，则采用伪标签蒸馏方式，基于所述训练样本和训练后的感知模型进行知识迁移，以形成车端模型。

由于大规模感知模型的推理需要的计算资源大，所以在自动驾驶车辆中难以实际部署，为了将感知模型的感知能力成功应用在自动驾驶车端感知系统中，需要将感知模型的感知能力迁移到小规模的车端模型中。本公开实施例提出了基于知识迁移技术的模型小型化方法，整体分为两个阶段：首先需要依据车端推理硬件计算资源（如算力、存储、功耗等）的约束，以及实时性要求，进行车端模型的网络结构选择；然后通过蒸馏和伪标签的知识迁移技术，将感知模型的感知能力迁移到特定结构的小模型中，以形成车端模型。

模型结构搜索阶段：

本公开实施例可采用基于模型结构搜索的技术，确定车端模型的网络结构，包括选取最优中间层通道数、卷积核大小以及中间层堆叠层数等网络配置超参数。如图5B所示，整体方案采用神经网络搜索技术（例如once-for-all方法），先进行超网络训练，其中，针对车端模型网络的参数量、FLOPS（每秒所执行的浮点运算次数，floating-point operationsper second）、时延等约束，定义超网络覆盖的网络结构超参数变化范围；在完成超网络训练后，采样不同网络配置超参数，得到一系列特定结构的小模型，选择符合车端推理耗时约束并且效果满足预测推理需求的网络超参数配置，作为车端模型的网络结构。

知识迁移阶段：

本公开实施例可提供统一的蒸馏框架来蒸馏得到车端模型，尤其是可以基于多模态数据，联合蒸馏2D和3D感知任务。

知识迁移的技术方案根据感知模型的结构和搜索得出的车端模型的结构是否相同，可采用不用的知识迁移设计方案。如果感知模型的结构和车端模型的结构属于同类模型结构，则可选是采用同构知识迁移技术方案。如果感知模型的结构和车端模型的结构不属于同类模型结构，则可以采用异构知识迁移技术方案。车端模型进行蒸馏的整体方案如图5C。

同构知识迁移方案可选的是：包含特征蒸馏、伪标签蒸馏和关系蒸馏三种方式。其中，伪标签蒸馏中，伪标签，即伪标注结果，可以通过单个感知模型或多个版本的感知模型的预测结果融合获得。单个感知模型的优势在于推理成本低迭代速度快，多版本感知模型的伪标签融合，优势在于可以结合不同感知模型的优势获得最优的伪标签。同构知识迁移整体方案如图5D所示。将各个模态数据（例如图像或点云）输入感知模型和车端模型，根据感知模型和车端模型中提取的特征进行特征损失计算，从而实现特征蒸馏；从感知模型和车端模型中，提取相同层特征中不同通道之间的相关系数矩阵，或者提取不同物体之间特征的相关系数矩阵，实现相关系数矩阵蒸馏；根据感知模型对输入数据输出的预测结果，作为伪标签，以伪标签作为车端模型的标注结果计算车端模型输出结果的损失。当然，在进行标注结果损失计算时，也可以利用有标注数据进行辅助进行训练。

其中，特征蒸馏旨在用车端模型中间层特征拟合感知模型中检测特征，关系蒸馏则约束车端模型与感知模型特征关系之间的一致性，伪标签蒸馏实现了车端模型与感知模型网络输出端的一致性约束。

异构知识迁移方案，由于感知模型与车端模型网络结构存在差异，例如感知模型采用基于Transformer的网络结构，车端模型采用基于CNN的网络结构，则中间层无法一一对应，可通过伪标签蒸馏方式，在网络输出端实现知识迁移。异构知识蒸馏也支持多个模型的伪标签融合获得更优的效果。如图5E所示，将模态数据输入多个版本的感知模型，从而分别输出伪标签，伪标签中可包括一个或多个子任务的预测结果。而后，将多个伪标签进行融合，融合策略可以为根据设定规则进行优质伪标签的筛选，也可以基于伪标注结果之间的一致性，确定各个伪标注结果的置信度。而后基于融合伪标签对车端模型进行蒸馏训练。

图6为本公开实施例所提供的一种自动驾驶感知模型的训练装置的结构示意图。该装置包括：训练样本获取模块610、场景化训练模块620、半监督训练模块630和知识迁移模块640。

其中，训练样本获取模块610，用于获取一种或多种模态的训练样本；其中，所述训练样本包括有标注数据和无标注数据；场景化训练模块630，用于采用设定场景的有标注数据对感知模型进行场景化训练；半监督训练模块640，用于采用所述训练样本对场景化后的感知模型进行半监督训练，以更新所述感知模型并形成伪标注数据，且将所述伪标注数据更新至所述训练样本中；知识迁移模块650，用于采用训练样本，基于半监督训练后的感知模型，进行知识迁移，以形成车端模型。

可选的，还包括模型预训练模块，用于采用所述无标注数据对感知模型进行预训练。

可选的，多种模态的训练样本至少包括图像和点云。

可选的，所述感知模型包括预处理网络、主体网络和多任务输出网络。

可选的：所述预处理网络中的每个预处理分支模块用于分别处理对应模态的训练样本，形成预处理样本；所述主体网络用于对输入的预处理样本进行特征处理；所述多任务输出网络包括多个子任务分支模块，用于分别根据所述主体网络的输出数据，识别对应子任务的自动驾驶感知结果。

可选的，所述子任务分支模块对应的子任务包括下述至少一种：2D框检测任务、3D框检测任务、语义分割任务、车道线分割任务、以及物体跟踪任务。

可选的，所述设定场景的有标注数据的标注结果，对应于至少一个子任务的预测结果。

可选的，所述主体网络包括多层专家子网络；所述感知模型还包括门控网络，所述门控网络配置在多层专家子网络与所述多任务输出网络之间，用于基于门控网络参数选择至少一个专家子网络的输出数据，传输给所述多任务输出网络中的至少一个子任务分支模块。

可选的，所述感知模型为单模态感知模型，则所述单模态感知模型的输入为一种模态的训练样本。

可选的，所述感知模型为多模态感知模型，所述主体网络中包括融合子网络，所述主体网络中包括融合子网络，所述融合子网络用于分别从预处理后的单模态训练样本中提取单模态特征，并将单模态特征进行融合，形成融合特征；所述专家子网络中的特征提取模块和特征转换模块，用于对融合特征进行特征提取和特征转换；

所述融合子网络的数量为一个，由多层专家子网络共用一个融合子网络；或所述融合子网络的数量为多个，分别对应设置在所述多层专家子网络中。

可选的：

所述主体网络的专家子网络为卷积神经网络，包括骨干网络和多尺度特征收集网络；或

所述主体网络的专家子网络为自动编码解码网络，包括编码器和解码器。

可选的，所述感知模型的版本数量为多个，各版本感知模型之间包括如下至少一项区别：

预处理网络的网络结构；

主体网络的网络结构；

感知模型的训练超参数；

感知模型所采用的训练样本。

可选的，所述半监督训练模块包括：

本轮数据获取单元，用于将场景化后的感知模型作为教师模型，从所述训练样本中获取第一无标注数据；

教师模型训练单元，用于采用第一无标注数据对所述教师模型进行训练，输出预测结果；

性能测试单元，用于根据当前输出的预测结果进行性能测试，并确定测试的性能指标是否收敛；

伪标注单元，用于如果确定测试的性能指标收敛，则将当前输出的预测结果，作为第一无标注数据的伪标注结果，以形成伪标注数据并添加至训练样本中；此时可以停止采用第一无标注数据的自迭代训练；

模型迭代单元，用于如果确定测试的性能指标不收敛，则根据当前输出的预测结果对所述教师模型进行更新，并返回执行采用第一无标注数据对更新后教师模型进行训练的操作。

可选的，所述伪标注单元包括：

伪标注结果筛选子单元，用于将当前输出的预测结果作为无标注数据的伪标注结果，对所述伪标注结果按照设定规则进行筛选；

样本添加子单元，用于将筛选后的无标注数据和伪标注结果，形成为伪标注数据，并添加至训练样本中。

可选的，所述伪标注结果筛选子单元具体用于：

验证所述伪标注结果中不同子任务标注结果的一致性；

根据一致性结果筛选伪标注结果。

可选的，所述半监督训练模块包括：

模型初始单元，用于根据场景化后的感知模型分别初始化教师模型和学生模型，从所述训练样本中获取第二无标注数据；

数据扰动单元，用于对第二无标注数据采用两种不同扰动方式进行扰动处理，以分别形成教师训练数据和学生训练数据；

教师预测单元，用于将所述教师训练数据输入所述教师模型，输出教师预测结果；

学生预测单元，用于将所述学生训练数据输入所述学生模型，输出学生预测结果；

伪标签损失计算单元，用于计算所述教师预测结果和所述学生预测结果之间的损失，作为伪标签损失；

特征损失计算单元，用于根据所述教师模型和学生模型中输出的特征，进行特征一致性计算，以获取特征一致性损失；

梯度计算单元，用于根据所述伪标签损失和特征一致性损失，确定梯度；

学生模型更新单元，用于根据所述梯度和所述伪标签损失，对所述学生模型的参数进行更新；

教师模型更新单元，用于根据所述学生模型的更新后参数引导所述教师模型的参数进行更新。

可选的，该装置，还包括：

性能确定单元，用于确定场景化后的感知模型的性能指标；

训练方式选择单元，用于根据所述性能指标从多种半监督训练方式中选择与所述性能指标匹配的一种半监督训练方式。

可选的，所述训练方式选择单元具体用于：根据所述性能指标中的均值平均精度值和预设选择策略，从自迭代训练方式和在线半监督训练方式中进行半监督训练方式的选择。

可选的，该装置还包括半自动化标注模块，所述半自动化标注模块包括：

数据获取单元，用于获取具有时空关联的至少两种模态的无标注数据，以及不同模态无标注数据之间的配准信息；

感知伪标注单元，用于将所述至少两种模态的无标注数据，输入训练后的感知模型中，以输出预测结果，作为所述无标注数据的伪标注结果；

配准单元，用于根据所述配准信息建立至少两种模态对应的伪标注结果，形成多模态伪标注结果。

可选的，所述半自动化标注模块还包括：

人工修正单元，用于对各模态对应的伪标注结果进行人工纠错或人工标注。

可选的，所述感知伪标注单元具体用于：

可选的，所述知识迁移模块具体用于：

采用所述训练样本，输入基于半监督训练后的感知模型进行预测，以输出伪标注结果；

采用所述训练样本，输入初始的车端模型，以输出预测结果，根据所述伪标注结果和所述预测结果对所述车端模型进行训练。

可选的，所述知识迁移模块包括：

模型搜索单元，用于采用模型搜索网络确定车端模型的网络配置参数；

同构模型蒸馏单元，用于如果确定的车端模型与训练后的感知模型为同构模型，则采用特征蒸馏、关系蒸馏和伪标签蒸馏方式，基于所述训练样本和训练后的感知模型进行知识迁移，以形成车端模型；

异构模型蒸馏单元，用于如果确定的车端模型与训练后的感知模型为异构模型，则采用伪标签蒸馏方式，基于所述训练样本和训练后的感知模型进行知识迁移，以形成车端模型。

本公开实施例所提供的自动驾驶感知模型的训练装置，可用于执行本公开任意实施例所提供的自动驾驶感知模型的训练方法，具备相应的功能和有益效果。

本公开实施例，相对于基于少量有标注数据和小模型的模型生成方式，提供了全新的车端模型生成方式，充分发挥了自动驾驶场景海量数据和大模型的优势。在本实施例的技术方案中，引入了多模态数据对大模型的训练技术，能够形成感知模型，甚至能够形成多版本的感知模型库，其泛化能力强，方便按照车端个性化需求进行知识迁移。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备700包括计算单元701，其可以根据存储在只读存储器（ROM）702中的计算机程序或者从存储单元708加载到随机访问存储器（RAM）703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如自动驾驶感知模型的训练方法。例如，在一些实施例中，自动驾驶感知模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的自动驾驶感知模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行自动驾驶感知模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算（cloud computing），指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种自动驾驶感知模型的训练方法，包括：

采用设定场景的有标注数据对感知模型进行场景化训练；

确定场景化后的感知模型的性能指标；

根据所述性能指标从多种半监督训练方式中选择与所述性能指标匹配的一种半监督训练方式；其中，所述多种半监督训练方式包括自迭代训练方式和在线半监督训练方式；

2.根据权利要求1所述的方法，其中，多种模态的训练样本至少包括图像和点云。

3.根据权利要求1所述的方法，其中，采用所述训练样本对场景化后的感知模型进行半监督训练，以更新感知模型并形成伪标注数据，且将所述伪标注数据更新至所述训练样本中包括：

将场景化后的感知模型作为教师模型，从所述训练样本中获取第一无标注数据；

采用第一无标注数据对所述教师模型进行训练，输出预测结果；

根据当前输出的预测结果进行性能测试，并确定测试的性能指标是否收敛；

如果确定测试的性能指标收敛，则将当前输出的预测结果，作为第一无标注数据的伪标注结果，以形成伪标注数据并添加至训练样本中；

如果确定测试的性能指标不收敛，则根据当前输出的预测结果对所述教师模型进行更新，并返回执行采用第一无标注数据对更新后教师模型进行训练的操作。

4.根据权利要求3所述的方法，其中，将当前输出的预测结果作为第一无标注数据的伪标注结果，以形成伪标注数据并添加至训练样本中包括：

5.根据权利要求4所述的方法，其中，对所述伪标注结果按照设定规则进行筛选包括：

验证所述伪标注结果中不同子任务标注结果的一致性；

根据一致性结果筛选伪标注结果。

6.根据权利要求1所述的方法，其中，所述感知模型包括预处理网络、主体网络和多任务输出网络。

7.根据权利要求6所述的方法，其中：

所述预处理网络中包括一个或多个预处理分支模块，用于分别处理对应模态的训练样本，形成预处理样本；

所述主体网络用于对输入的预处理样本进行特征处理；

所述多任务输出网络包括多个子任务分支模块，用于分别根据所述主体网络的输出数据，识别对应子任务的自动驾驶感知结果。

8.根据权利要求7所述的方法，其中，所述子任务分支模块对应的子任务包括下述至少一种：2D框检测任务、3D框检测任务、语义分割任务、车道线分割任务、以及物体跟踪任务。

9.根据权利要求7所述的方法，其中，所述设定场景的有标注数据的标注结果，对应于至少一个子任务的预测结果。

10.根据权利要求7所述的方法，其中，所述主体网络包括多层专家子网络；所述感知模型还包括门控网络，所述门控网络配置在多层专家子网络与所述多任务输出网络之间，用于基于门控网络参数选择至少一个专家子网络的输出数据，传输给所述多任务输出网络中的至少一个子任务分支模块。

11.根据权利要求1所述的方法，其中，采用所述训练样本对场景化后的感知模型进行半监督训练，以更新感知模型并形成伪标注数据，且将所述伪标注数据更新至所述训练样本中包括：

根据场景化后的感知模型分别初始化教师模型和学生模型，从所述训练样本中获取第二无标注数据；

对第二无标注数据采用两种不同扰动方式进行扰动处理，以分别形成教师训练数据和学生训练数据；

将所述教师训练数据输入所述教师模型，输出教师预测结果；

将所述学生训练数据输入所述学生模型，输出学生预测结果；

计算所述教师预测结果和所述学生预测结果之间的损失，作为伪标签损失；

根据所述教师模型和学生模型中输出的特征，进行特征一致性计算，以获取特征一致性损失；

根据所述伪标签损失和特征一致性损失，确定梯度；

根据所述梯度和所述伪标签损失，对所述学生模型的参数进行更新；

根据所述学生模型的更新后参数引导所述教师模型的参数进行更新。

12.根据权利要求6-10任一所述的方法，其中：所述感知模型为单模态感知模型，所述单模态感知模型的输入为一种模态的训练样本。

13.根据权利要求10所述的方法，其中，所述感知模型为多模态感知模型，所述主体网络中包括融合子网络，所述融合子网络用于分别从预处理后的单模态训练样本中提取单模态特征，并将单模态特征进行融合，形成融合特征；所述专家子网络中的特征提取模块和特征转换模块，用于对融合特征进行特征提取和特征转换；

14.根据权利要求10所述的方法，其中：

15.根据权利要求10所述的方法，其中，所述感知模型的版本数量为多个，各版本感知模型之间包括如下至少一项区别：

预处理网络的网络结构；

主体网络的网络结构；

感知模型的训练超参数；

感知模型所采用的训练样本。

16.根据权利要求1所述的方法，其中，根据所述性能指标从多种半监督训练方式中选择与所述性能指标匹配的一种半监督训练方式包括：

根据所述性能指标中的均值平均精度值和预设选择策略，从自迭代训练方式和在线半监督训练方式中进行半监督训练方式的选择。

17.根据权利要求1所述的方法，还包括：

获取具有时空关联的至少两种模态的无标注数据，以及不同模态无标注数据之间的配准信息；

将所述至少两种模态的无标注数据，输入训练后的感知模型中，以输出预测结果，作为所述无标注数据的伪标注结果；

根据所述配准信息建立至少两种模态对应的伪标注结果，形成多模态伪标注结果。

18.根据权利要求17所述的方法，还包括：

对各模态对应的伪标注结果进行人工纠错或人工标注。

19.根据权利要求18所述的方法，其中，将所述至少两种模态的无标注数据，输入训练后的感知模型中，以输出预测结果，作为所述无标注数据的伪标注结果包括：

20.根据权利要求1所述的方法，其中，采用所述训练样本，基于半监督训练后的感知模型，进行知识迁移，以形成车端模型包括：

21.根据权利要求1所述的方法，其中，采用所述训练样本，基于半监督训练后的感知模型，进行知识迁移，以形成车端模型包括：

采用模型搜索网络确定车端模型的网络配置参数；

如果确定的车端模型与训练后的感知模型为同构模型，则采用特征蒸馏、关系蒸馏和伪标签蒸馏方式，基于所述训练样本和训练后的感知模型进行知识迁移，以形成车端模型；

如果确定的车端模型与训练后的感知模型为异构模型，则采用伪标签蒸馏方式，基于所述训练样本和训练后的感知模型进行知识迁移，以形成车端模型。

22.根据权利要求1所述的方法，还包括：

采用所述无标注数据对感知模型进行预训练。

23.一种自动驾驶感知模型的训练装置，包括：

性能确定单元，用于确定场景化后的感知模型的性能指标；

训练方式选择单元，用于根据所述性能指标从多种半监督训练方式中选择与所述性能指标匹配的一种半监督训练方式；其中，所述多种半监督训练方式包括自迭代训练方式和在线半监督训练方式；

24.根据权利要求23所述的装置，其中，多种模态的训练样本至少包括图像和点云。

25.根据权利要求23所述的装置，其中，所述半监督训练模块包括：

伪标注单元，用于如果确定测试的性能指标收敛，则将当前输出的预测结果，作为第一无标注数据的伪标注结果，以形成伪标注数据并添加至训练样本中；

26.根据权利要求25所述的装置，其中，所述伪标注单元包括：

伪标注结果筛选子单元，用于将当前输出的预测结果作为第一无标注数据的伪标注结果，对所述伪标注结果按照设定规则进行筛选；

27.根据权利要求26所述的装置，其中，所述伪标注结果筛选子单元具体用于：

验证所述伪标注结果中不同子任务标注结果的一致性；

根据一致性结果筛选伪标注结果。

28.根据权利要求23所述的装置，其中，所述感知模型包括预处理网络、主体网络和多任务输出网络。

29.根据权利要求28所述的装置，其中：

所述主体网络用于对输入的预处理样本进行特征处理；

30.根据权利要求29所述的装置，其中，所述子任务分支模块对应的子任务包括下述至少一种：2D框检测任务、3D框检测任务、语义分割任务、车道线分割任务、以及物体跟踪任务。

31.根据权利要求29所述的装置，其中，所述设定场景的有标注数据的标注结果，对应于至少一个子任务的预测结果。

32.根据权利要求29所述的装置，其中，所述主体网络包括多层专家子网络；所述感知模型还包括门控网络，所述门控网络配置在多层专家子网络与所述多任务输出网络之间，用于基于门控网络参数选择至少一个专家子网络的输出数据，传输给所述多任务输出网络中的至少一个子任务分支模块。

33.根据权利要求23所述的装置，其中，所述半监督训练模块包括：

34.根据权利要求28-32任一所述的装置，其中，所述感知模型为单模态感知模型，所述单模态感知模型的输入为一种模态的训练样本。

35.根据权利要求32所述的装置，其中，所述感知模型为多模态感知模型，所述主体网络中包括融合子网络，所述融合子网络用于分别从预处理后的单模态训练样本中提取单模态特征，并将单模态特征进行融合，形成融合特征；所述专家子网络中的特征提取模块和特征转换模块，用于对融合特征进行特征提取和特征转换；

36.根据权利要求32所述的装置，其中：

37.根据权利要求32所述的装置，其中，所述感知模型的版本数量为多个，各版本感知模型之间包括如下至少一项区别：

预处理网络的网络结构；

主体网络的网络结构；

感知模型的训练超参数；

感知模型所采用的训练样本。

38.根据权利要求23所述的装置，其中，所述训练方式选择单元具体用于：根据所述性能指标中的均值平均精度值和预设选择策略，从自迭代训练方式和在线半监督训练方式中进行半监督训练方式的选择。

39.根据权利要求23所述的装置，还包括半自动化标注模块，所述半自动化标注模块包括：

40.根据权利要求39所述的装置，所述半自动化标注模块还包括：

41.根据权利要求39所述的装置，其中，所述感知伪标注单元具体用于：

42.根据权利要求23所述的装置，其中，所述知识迁移模块具体用于：

43.根据权利要求23所述的装置，其中，所述知识迁移模块包括：

44.根据权利要求23所述的装置，还包括：

模型预训练模块，用于采用所述无标注数据对感知模型进行预训练。

45.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-22中任一项所述的自动驾驶感知模型的训练方法。

46.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-22中任一项所述的自动驾驶感知模型的训练方法。