CN116665025B

CN116665025B - 数据闭环方法和系统

Info

Publication number: CN116665025B
Application number: CN202310950622.XA
Authority: CN
Inventors: 李帅君; 朱子凌
Original assignee: Foss Hangzhou Intelligent Technology Co Ltd
Current assignee: Foss Hangzhou Intelligent Technology Co Ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-11-14
Anticipated expiration: 2043-07-31
Also published as: CN116665025A

Abstract

本申请涉及一种数据闭环方法和系统。所述方法应用在云端，云端上部署有预标注模型和云端感知大模型，所述方法包括：接收车端发送的异常驾驶数据，异常驾驶数据的确定方式包括通过部署在车端上的车端感知小模型对驾驶数据进行数据筛选确定；对异常驾驶数据进行标注，得到目标标注数据；根据目标标注数据对车端感知小模型、部署在云端的预标注模型和部署在云端的云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型。采用本方法能够提高数据筛选有效性、数据标注效率、数据标注质量以及模型训练迭代效率和迭代效果。

Description

数据闭环方法和系统

技术领域

本申请涉及智能驾驶技术领域，特别是涉及一种数据闭环方法和系统。

背景技术

随着智能驾驶技术的不断发展，对智能驾驶的稳定性、准确性以及安全性等方面的要求也越来越高。为了确保智能驾驶各方面的性能，越来越多的自动驾驶算法从传统算法逐步向以数据为驱动的算法演进。例如，以感知算法为代表的基于深度学习的模型训练，其对于数据的需求日益增长。通过数据闭环来驱动感知算法的性能的提升占据十分重要的位置。

以感知算法为核心的数据闭环系统主要包括数据筛选、数据标注和模型训练和评测等模块。为了实现高效运转的数据闭环系统，对数据筛选有效性、数据标注效率以及成本、模型训练效率和效果等方面提出了较高的要求。然而，目前采用分离式的数据闭环系统，存在难以精准有效地筛选出有效数据、数据标注效率低以及模型训练迭代效率低和迭代效果差的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种数据闭环方法和系统。

第一方面，本申请提供了一种数据闭环方法。应用在云端，所述云端上部署有预标注模型和云端感知大模型，所述方法包括：

接收车端发送的异常驾驶数据，所述异常驾驶数据的确定方式包括通过部署在所述车端上的车端感知小模型对驾驶数据进行数据筛选确定；

对所述异常驾驶数据进行标注，确定目标标注数据；

根据所述目标标注数据对所述车端感知小模型、所述预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型。

在其中一个实施例中，所述根据所述目标标注数据对所述车端感知小模型、所述预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型，包括：

将所述目标标注数据作为所述云端感知大模型的训练数据，对所述云端感知大模型进行训练，得到训练好的云端感知大模型；

以所述训练好的云端感知大模型为教师模型，所述预标注模型或所述车端感知小模型为学生模型，基于师生网络训练方式，利用所述教师模型对所述学生模型进行训练，得到训练好的预标注模型或训练好的车端感知小模型；或

以所述训练好的云端感知大模型为教师模型，所述预标注模型和所述车端感知小模型为学生模型，基于师生网络训练方式，利用所述教师模型对所述学生模型进行训练，得到训练好的预标注模型和训练好的车端感知小模型。

将所述目标标注数据作为所述预标注模型的训练数据，对所述预标注模型进行训练，得到训练好的预标注模型；

以所述训练好的预标注模型为教师模型，所述车端感知小模型为学生模型，基于师生网络训练方式，利用所述教师模型对所述学生模型进行训练，得到训练好的车端感知小模型；或

以所述训练好的预标注模型为教师模型，所述云端感知大模型和所述车端感知小模型为学生模型，基于师生网络训练方式，利用所述教师模型对所述学生模型进行训练，得到训练好的云端感知大模型和训练好的车端感知小模型。

在其中一个实施例中，根据所述目标标注数据对所述车端感知小模型、所述预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型，包括：

将所述目标标注数据作为所述云端感知大模型的训练数据，对所述云端感知大模型进行训练，得到训练好的云端感知大模型；以及

以所述训练好的预标注模型和所述训练好的云端感知大模型为教师模型，所述车端感知小模型为学生模型，基于师生网络训练方式，利用所述教师模型对所述学生模型进行训练，得到训练好的车端感知小模型。

在其中一个实施例中，所述对所述异常驾驶数据进行标注，确定目标标注数据，包括：

基于所述预标注模型，对所述异常驾驶数据中每帧异常驾驶数据帧中的目标对象特征提取，得到所述目标对象的特征数据；

根据所述异常驾驶数据中每帧异常驾驶数据帧之间的时序信息和所述时序信息，确定所述目标对象中的异常目标对象，并对所述异常目标对象的进行修正，得到所述修正后的目标对象；

对所述修正后的目标对象的特征数据进行预标注，得到预标注数据；

通过对所述预标注数据进行再标注，得到目标标注数据；其中所述目标标注数据的精度大于所述预标注数据的精度，所述目标标注数据的数据属性维度大于所述预标注数据的数据属性维度。

在其中一个实施例中，所述预标注数据包括预标注标签和所述预标注标签对应的特征数据，所述通过对所述预标注数据进行再标注，得到目标标注数据，包括：

对所述预标注标签和所述特征数据进行时序处理，得到目标标注数据。

第二方面，本申请还提供了一种数据闭环系统。所述数据闭环系统包括车端和云端，所述车端包括数据筛选模块，所述云端包括标注模块、训练模块和云端感知模块，所述标注模块上部署有预标注模型，所述云端感知模块部署有云端感知大模型，其中：

所述数据筛选模块，用于通过部署在所述数据筛选模块上的所述车端感知小模型对获取的驾驶数据进行数据筛选，得到异常驾驶数据；

所述标注模块，用于对所述异常驾驶数据进行标注，得到目标标注数据；

所述训练模块，用于根据所述目标标注数据对所述车端感知小模型、所述预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对所述异常驾驶数据进行标注，得到目标标注数据；

根据所述目标标注数据对所述车端感知小模型、部署在云端上的预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

对所述异常驾驶数据进行标注，确定目标标注数据；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

对所述异常驾驶数据进行标注，确定目标标注数据；

上述数据闭环方法和系统，通过部署在车端上的车端感知小模型对驾驶数据进行数据筛选确定异常驾驶数据，即通过耦合车端感知小模型进行异常驾驶数据筛选，避免人工筛选导致的数据筛选效率低以及数据有效性低；在提高筛选数据有效性的基础上，减少待标注数据的处理量，以及可以直接对筛选的异常驾驶数据进行标注不需要对异常驾驶数据进行额外处理，提高了数据标注效率以及降低了数据标注成本；基于数据筛选步骤以及数据标注步骤确定的目标标注数据，对车端感知小模型、预标注模型和云端感知大模型中的至少两个模型进行耦合训练，也就是说，在提高筛选数据有效性、数据标注效率以及降低了数据标注成本的基础上进行模型训练，提高了模型迭代效果以及迭代效率，进而基于训练好的模型可以进一步提高数据筛选有效性、数据标注效率和数据标注质量，从而提高数据闭环的高效性。

附图说明

图1为一个实施例中数据闭环方法的应用环境图；

图2为一个实施例中数据闭环方法的流程示意图；

图3为另一个实施例中数据闭环方法的流程示意图；

图4为一个实施例中数据闭环方法的应用示意图；

图5为一个实施例中数据闭环系统的结构框图；

图6为另一个实施例中数据闭环系统的架构示意框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的数据闭环方法，可以应用于如图1所示的应用环境中。其中，车端102通过网络与云端104进行通信。车端上部署有车端感知小模型，云端上部署有预标注模型和云端感知大模型，接收车端发送的异常驾驶数据，异常驾驶数据的确定方式包括通过部署在车端上的车端感知小模型对驾驶数据进行数据筛选确定；确定根据异常驾驶数据确定的目标标注数据；根据目标标注数据对车端感知小模型、预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型。其中，车端102可以但不限于是各种类型的车端。

在一个实施例中，如图2所示，提供了一种数据闭环方法，以该方法应用于图1中的云端为例进行说明，云端上部署有预标注模型和云端感知大模型，包括以下步骤：

步骤202，接收车端发送的异常驾驶数据，异常驾驶数据的确定方式包括通过部署在车端上的车端感知小模型对驾驶数据进行数据筛选确定。

其中，异常驾驶数据可以是感知弱项场景中的驾驶数据。感知弱项场景可以理解为自动驾驶或智能车辆技术在某些特殊或复杂场景下无法高效和准确地感知和判断。感知弱项场景包括光照弱、高楼或大型建筑物等复杂背景、非结构化道路等场景。异常驾驶数据能够提高模型迭代的效果，也就是说，异常驾驶数据可以是车端漏检、误检、检测精度低于设定精度的数据等。

在对异常数据进行筛选时，通过耦合车端感知小模型进行筛选。车端感知小模型包括不同传感器的目标感知模型、不同传感器的辅助模型以及道路结构提取模型等模型进行提取。目标感知模型包括激光目标感知模型、相机目标感知模型和雷达目标感知模型等不同类型的感知模型。道路结构提取模型包括Lidar道路结构提取模型和Radar道路结构提取模型等不同类型的道路结构提取模型。

车端感知小模型可以理解为是部署在车端的较小的感知模型，可以通过云端感知大模型进行裁剪，量化，蒸馏，师生网络等处理方式后获得。车端感知小模型要求低算力消耗及高推理速度，且易于车端部署。

具体地，通过不同传感器采集车辆在不同场景下的原始驾驶数据，原始驾驶数据中包括图像信息、激光雷达点云及毫米波雷达点云等数据；通过部署在车端的车端感知小模型对采集的驾原始驾驶数据进行筛选，得到异常驾驶数据，将得到的异常驾驶数据通过有线或者无线的方式上传至云端。

进一步地，可以通过不同传感器采集车辆在不同场景下的驾驶数据，基于预设筛选规则对驾驶数据进行筛选，得到第一筛选数据，在此基础上，通过部署在车端的车端感知小模型对采集的驾驶数据进行筛选，得到第二筛选数据，根据第一筛选数据和第二筛选数据确定异常驾驶数据，将得到的异常驾驶数据通过有线或者无线的方式上传至云端。

步骤204，对异常驾驶数据进行标注，确定目标标注数据。

其中，异常驾驶数据的标注方式可以通过部署在云端的预标注模型进行标注实现，也可以是通过结合预标注模型和人工标注方法实现，还可以是在预标注模型标注的基础上再结合自动化精标注及人工修正。预标注模型的预标注方式可以通过现有的方式实现，也可以基于构建的预标注模型来实现。云端上部署的预标注模型的数量可以是一个，也可以是多个，在此，对预标注模型的数量不做限定。异常驾驶数据中包括多帧数据。可以理解的是，在基于预标注模型进行标注时，会根据不同的预设标注任务调用不同的预标注模型进行标注。预设标注任务包括如2D/3D单帧标注和2D/3D连续帧标注等业务，包括了对象检测（Object Detection，OD）、路面标线检测（Lane Detection，LD）和交通标志识别（Traffic Sign Recognition，TSR）等多种标注任务类型。

具体地，根据预设的标注任务，通过与预设的标注任务匹配的预标注模型对异常驾驶数据进行预标注，对车端发送的异常驾驶数据进行目标对象识别，识别出目标对象，并提取出目标对象不同维度的特征，例如，不同维度的特征包括多通道直方图（如图像的RGB，点云的x，y，z和intensity等）、目标位置及大小和深度特征信息。基于提取的不同维度的特征结合异常驾驶数据中连续帧的时序信息，关联并跟踪场景中各个目标的运动情况，对前后帧中漏检，误检的目标进行修正，对精度较低的识别进行调整，得到预标注数据，通过人工标注方法，对预标注数据进行修正，完成真值构建，得到目标标注数据；或者对预标注数据进行再结合自动化精标注及人工修正，完成对数据的真值构建过程，得到目标标注数据。

进一步地，精标注也可以理解为再标注，再标注包括对目标障碍物的标注，以及对静态环境的标注等，目标障碍物再标注包括动态障碍物再标注。在对目标障碍物的精标注过程中，首先结合多传感器如激光雷达，图像，毫米波雷达采集的多传感器数据，例如，多传感器数据包括激光雷达点云和毫米波雷达数据；通过深度学习模型进行目标对象的特征提取并进行特征级融合，得到融合特征，基于融合特征对目标障碍物的预标注数据进行再标注，同时补充相关传感器缺失的信息。如2D图像标注对于目标距离及速度的结果，可以通过3D激光雷达的标注后进行补充。对于静态环境的精标注，可以基于如激光slam等算法，对场景进行重构后，对需要识别的目标，如车道线，TSR，交通灯等进行提取，并结合预标注数据，完成对于场景中关键静态目标的标注工作。

步骤206，根据目标标注数据对车端感知小模型、预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型。

具体地，在确定标注好的目标标注数据后，基于标注好的目标标注数据自动对车端感知小模型、预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练。其中，耦合迭代训练的训练方式可以是基于师生网络训练方式实现的，其中教师模型确定以及学生模型的确定可以根据实际需求进行确定，例如，可以将云端感知大模型和/或预标注模型作为教师模型，车端感知小模型作为学生模型进行训练。

可以理解的是，目标标注数据是基于筛选出高价值数据进行标注确定的，在此基础上，基于高质量的目标标注数据进行模型训练，可以提高模型训练的效果和迭代的效率，进而提高数据闭环的有效性。

上述数据闭环方法中，通过部署在车端上的车端感知小模型对驾驶数据进行数据筛选确定异常驾驶数据，根据异常驾驶数据确定用于训练的模型的目标标注数据，即通过耦合车端感知小模型进行异常驾驶数据筛选，避免人工筛选导致的数据筛选效率低以及数据有效性低；在提高筛选数据有效性的基础上，可以直接对筛选的异常驾驶数据进行标注不需要对异常驾驶数据进行额外处理，提高了数据标注效率以及降低了数据标注成本；基于数据筛选步骤以及数据标注步骤确定的目标标注数据，对车端感知小模型、预标注模型和云端感知大模型中的至少两个模型进行耦合训练，也就是说，在提高筛选数据有效性、数据标注效率以及降低了数据标注成本的基础上进行模型训练，提高了模型迭代效果以及迭代效率，进而基于训练好的模型可以进一步提高数据筛选有效性、数据标注效率和数据标注质量，从而提高数据闭环的高效性。

可以理解的是，现有的数据闭环中，基于模型测评的结果，人工识别一些感知弱项场景，按弱项场景进行数据采集，直接进入标注环节，导致用于标注的数据精度不高、以及数据的有效性低，不能满足实际需求，进而导致标注成本高，获取的预标注数据的有效性以及标注成本也高，直接影响模型迭代效率和效果。因此，在通过部署在车端上的车端感知小模型对驾驶数据进行筛选，可以更加直接、更精准的实现帧级的感知弱项数据筛选，得到异常驾驶数据，确保筛选数据的有效性以及完整性。通过云端上部署预标注模型结合云端感知大模型，可以感知具体的任务对异常驾驶数据进行标注，提高了数据标注的自动化程度以及降低标注成本。在得到目标标注数据基础上，利用目标标注数据对车端模型和云端模型实现模型耦合迭代训练，即利用数据筛选以及数据标注的优势使得模型训练和算法迭代速度更快、效果更好，也就是说提高模型训练效率和训练效果，其中，利用目标标注数据实现模型耦合迭代训练包括以下情况：

情况一：根据目标标注数据对车端感知小模型、预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型，包括：

将目标标注数据作为云端感知大模型的训练数据，对云端感知大模型进行训练，得到训练好的云端感知大模型；以训练好的云端感知大模型为教师模型，车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的车端感知小模型；或者以训练好的云端感知大模型为教师模型，预标注模型和车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的预标注模型和训练好的车端感知小模型。

例如，智能驾驶车辆会从车端采集原始驾驶数据，原始驾驶数据包括视觉的图像信息，激光雷达点云及毫米波雷达点云相关信息；通过部署在车端的车端感知小模型筛选出对当前车端感知小模型识别低于预设值的异常驾驶数据，以及一些少见场景，作为异常驾驶数据（也可以理解为是高价值数据）上传至云端；云端预标注模型会对筛选后的数据进行预标注，再结合自动化精标注及人工审核，完成对数据的真值构建过程。可以理解的是，可以跳过预标注环节，通过人工标注的方式，实现对高价值数据的真值构建。将标注好的真值数据（即目标标注数据）进行云端感知大模型的训练，并通过师生网络优化车端感知小模型，并将优化后的车端感知小模型部署在车端，实现闭环。

又如，智能驾驶车辆会从车端采集原始驾驶数据，原始驾驶数据包括视觉的图像信息，激光雷达点云数据。通过人工方式进行数据筛选（例如，以固定频率采样，或者人工选取部分数据片段）得到异常驾驶数据；用云端预标注模型对待标注数据进行自动化标注，再结合人工标注方法，对预标注数据进行审核修正，完成真值构建，即得到目标标注数据；将真值用于训练云端感知大模型，同时基于训练后的云端感知大模型进一步优化训练预标注模型；将训练好的预标注模型，迭代式的用于预标注环节，不断提升预标注模型的标注能力。

上述实施例中，通过基于师生网络训练方式，以训练好的云端感知大模型为教师模型，车端感知小模型为学生模型，或者，预标注模型和车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的预标注模型或训练好的车端感知小模型。在提高数据筛选有效性、数据标注效率以及降低标注成本的基础上，利用目标标注数据和师生网络训练方式，实现云端和车端模型的耦合迭代训练，提高模型训练的效率和效果，进一步地，将训练好的车端感知小模型迭代式用于数据筛选，可以持续提高数据筛选的有效性，以及将训练好的预标注模型迭代式用于数据标注，可以持续提高数据预标注能力。

情况二：根据目标标注数据对车端感知小模型、预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型，包括：

将目标标注数据作为预标注模型的训练数据，对预标注模型进行训练，得到训练好的预标注模型；以训练好的预标注模型为教师模型，车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的车端感知小模型；或者，以训练好的预标注模型为教师模型，云端感知大模型和车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的云端感知大模型和训练好的车端感知小模型。

上述实施例中，通以训练好的预标注模型为教师模型，车端感知小模型为学生模型，或者云端感知大模型和车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，对车端感知小模型，或者云端感知大模型和车端感知小模型进行训练，得到训练好的模型。在提高筛选数据有效以及提高标注效率以及降低标注成本的基础上，利用目标标注数据和师生网络训练方式，实现云端和车端模型的耦合迭代训练，提高模型训练的效率和效果。将训练好的车端感知小模型迭代式用于数据筛选可以提高车端感知小模型的数据筛选的有效性，将训练好的云端感知大模型进行迭代式应用，持续提高云端感知大模型的感知性能。

情况三：根据目标标注数据对车端感知小模型、预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型，包括：

将目标标注数据作为云端感知大模型的训练数据，对云端感知大模型进行训练，得到训练好的云端感知大模型；以及将目标标注数据作为预标注模型的训练数据，对预标注模型进行训练，得到训练好的预标注模型；以训练好的预标注模型和训练好的云端感知大模型为教师模型，车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的车端感知小模型。

可以理解的是，获取再标注后的高价值数据，将首先用于对云端感知大模型的训练工作。由于筛选出来的数据往往是模型识别效果较差的数据，所以基于再标注后的目标标注数据，可以有效的提升云端感知大模型的性能。同时这些再标注后的目标标注数据也会用来优化云端预标注模型的性能，持续提升标注的精度，并且不断基于业务更新标注的需求。也就是说，在云端感知大模型及预标注模型优化以后，基于师生网络训练，使车端感知小模型同时从云端感知大模型及预标注模型中学习优化网络，提升算法性能。进一步地，将优化后的车端感知小模型部署在车端，并在后续数据采集过程中，以及数据挖掘和数据筛选中确定出新的对模型优化有帮助的有效数据，从而形成完整闭环，提高了数据闭环的高效性。

上述实施例中，以训练好的预标注模型和训练好的云端感知大模型为教师模型，车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的车端感知小模型。在提高筛选数据的有效性、数据标注效率以及降低标注成本的基础上，利用目标标注数据和师生网络训练方式，实现云端和车端模型的耦合迭代训练，在提高模型训练的效率和效果的基础上，进一步地可以提高数据筛选的有效性以及降低数据标注成本，进而提高了数据闭环的高效性。

可以理解的是，上述师生网络训练方式可以通过现有的方式实现，也可以通过其他方式实现，在此不做限定。

在对异常驾驶数据进行标注，得到目标标注数据可以通过部署在云端上的预标注模型对异常驾驶数据进行预标注和结合精标注以及人工标注的方式实现。具体实现原理如下：基于预标注模型，对异常驾驶数据中每帧异常驾驶数据帧中的目标对象特征提取，得到各目标对象的特征数据，根据异常驾驶数据中每帧异常驾驶数据帧之间的时序信息和目标对象的特征数据，对目标对象进行关联匹配，得到各目标对象的连续特征信息，根据连续特征信息对目标对象进行预标注，得到预标注数据，通过对预标注数据进行再标注，得到目标标注数据。其中，目标标注数据的精度大于预标注数据的精度，目标标注数据的数据属性维度大于预标注数据的数据属性维度。可以理解的是，在对异常驾驶数据进行标注时，基于不同预设标注任务，需要从云端确定对应的预设标注模型。

预标注数据包括预标注标签和预标注标签对应的特征数据，对预标注数据进行再标注，得到目标标注数据的再标注方式包括：通过对预标注标签和所述特征数据进行时序处理，得到目标标注数据。换言之，再标注是基于获取的多传感器感知结果和根据异常驾驶数据确定的特征数据，通过时序处理的优化方法对特征数据进行进一步的优化处理，得到时序维度上更好的感知结果和特征数据；再通过时序回归处理方法得到最终的精标注数据，即目标标注数据。

进一步地，在对预标注数据进行再标注时，由于预标注数据中包括不同类型的目标对象，为了确保标注的效率以及降低标注成本，在进行再标注前，需要对预标注数据进行目标分类，对不同类型的目标对象执行相应的再标注处理操作，具体包括：获取多传感器数据针对每种类型的目标对象的传感器数据进行特征提取，得到各自对应的提取特征，并对提取特征进行特征融合处理，得到每种类型的目标对象的融合特征，根据每种类型的目标对象的融合特征对预标注数据进行分类，得到目标障碍物的第一预标注数据和静态环境的第二预标注数据，分别对第一预标注数据和第二预标注数据进行优化处理，得到各自对应的目标标注数据，分别对第一预标注数据和第二预标注数据进行优化处理，得到各自对应的目标标注数据。通过对目标对象进行分类，对于不同分类的目标对象进行标注处理，可以提高标注效率以及降低标注的成本。

其中，对于不同类型的预标注数据进行优化处理时，具体的优化处理方式包括：对第一预标注数据进行回归优化处理，得到第一目标标注数据；根据第二预标注数据和融合特征构建与第二预标注数据对应的静态环境场景图；对静态环境场景图中的静态环境信息特征进行处理，得到与第二预标注数据对应的第二目标标注数据。

可以理解的是，为了进一步确定目标标注数据的可靠性以及有效性，响应于目标标注数据的修正指令，对目标标注数据进行修正，得到最终的目标标注数据；修正指令可以用户在界面上触发生成的。整个精标注流程，通过自动化精标注工具链，高效完成数据在各个维度的标注工作，仅需要少量的人力成本微调，即可完成对车端筛选的高价值数据的标注工作。

上述实施例中，采用多传感器数据融合进行精标注，对目标障碍物标注及静态环境信息的有进一步的提升，真值精度更高。对目标障碍物和静态环境信息进行分类识别，并采用不同的精标注方式，结合分类识别特性，实现更高精度的结果输出。

在另一个实施例中，如图3所示，提供了一种数据闭环方法，以该方法应用于图1中的云端为例进行说明，云端上部署有预标注模型和云端感知大模型，包括以下步骤：

步骤302，接收车端发送的异常驾驶数据，异常驾驶数据的确定方式包括通过部署在车端上的车端感知小模型对驾驶数据进行数据筛选确定。

步骤304，基于预标注模型，对异常驾驶数据中每帧异常驾驶数据帧中的目标对象特征提取，得到各目标对象的特征数据。

步骤306，根据异常驾驶数据中连续帧时序信息和目标对象的特征数据，对目标对象进行关联匹配，得到各目标对象的连续特征信息。

其中，异常驾驶数据可以是图像数据，连续特征信息是根据异常驾驶数据中相邻两帧中目标对象的像素分布特征、深度特征以及属性特征，对连续多帧所述待处理图像进行目标关联匹配确定的，属性特征包括目标对象在对应的每帧异常驾驶数据的位置和大小中的至少一种。

步骤308，根据连续特征信息对目标对象进行预标注，得到预标注数据。

步骤310，通过对预标注数据进行再标注，得到目标标注数据。

步骤312，将目标标注数据作为云端感知大模型的训练数据，对云端感知大模型进行训练，得到训练好的云端感知大模型。

步骤314，将目标标注数据作为预标注模型的训练数据，对预标注模型进行训练，得到训练好的预标注模型。

步骤316，以训练好的预标注模型和训练好的云端感知大模型为教师模型，车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的车端感知小模型。

步骤318，将训练好的车端感知小模型发送至车端。

以下为一个实施例中，基于上述数据闭环方法的应用，如图4所示，车端上部署有车端感知小模型，云端部署有云端感知大模型和预标注模型，通过车端对车辆行驶场景中的数据进行采集挖掘，得到原始驾驶数据，通过车端感知小模型对原始驾驶数据进行数据筛选，得到异常驾驶数据，即高价值数据。将异常驾驶数据上传至云端，依据不同的标注任务，确定与标注任务匹配的目标预标注模型，首先基于感知模型实现对目标的识别，同时结合时序信息，关联并跟踪场景中各个目标的运动情况，对前后帧中漏检，误检的目标进行修正，对精度较低的识别进行调整，得到预标注数据；结合多传感器数据对预标注数据进行分类，得到动态障碍物的预标注数据和静态环境的预标注数据，分别动态障碍物的预标注数据和静态环境的预标注数据进行再标注，得到各自对应的再标标注数据，在此基础上，通过人工审核，对标注结果做最后一步的人工审核和微调，完成对数据的标注工作，得到目标标注数据，基于这一标注方式，可以高效完成在各个维度的标注工作，减少了人力成本，提高了标注的效率。

将得到的目标标注数据作为训练数据，对云端感知大模型进行训练，得到训练好的云端感知大模型；以及对预标注模型进行训练，得到训练好的预标注模型，以训练好的预标注模型和训练好的云端感知大模型为教师模型，车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的车端感知小模型，将训练好的车端感知小模型发送至车端，以完成车端感知小模型在车端的部署。

上述实施例中，通过部署在车端上的车端感知小模型对驾驶数据进行数据筛选确定异常驾驶数据，避免人工筛选导致的数据筛选效率低以及数据有效性低；根据异常驾驶数据确定用于训练的模型的目标标注数据，在提高筛选数据有效性的基础上，降低了待标注数据量以及可以直接对筛选的异常驾驶数据进行标注，不需要对异常驾驶数据进行额外处理，提高了数据标注效率以及降低了数据标注成本；基于目标标注数据实现耦合迭代训练，在云端感知大模型及预标注模型优化以后，基于师生网络训练和目标标注数据，使车端感知小模型同时从云端感知大模型及预标注模型中学习优化网络，提升算法性能。进一步地，将优化后的云端感知大模型及预标注模型重新部署在云端，可以持续提高数据标注效率，将优化后的车端感知小模型部署在车端，并在后续数据采集过程中，以及数据挖掘和数据筛选中确定出新的对模型优化有帮助的有效数据，持续提升数据筛选的有效性，以及提高模型迭代效率和效果，从而进一步提高数据闭环的高效性。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据闭环方法的数据闭环系统。该系统所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据闭环系统实施例中的具体限定可以参见上文中对于数据闭环方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种数据闭环系统，数据闭环系统包括车端和云端，车端包括数据筛选模块502，云端包括标注模块504、训练模块506，标注模块上部署有预标注模型，训练模块506部署有云端感知大模型，其中：

数据筛选模块502，用于通过部署在数据筛选模块上的车端感知小模型对获取的驾驶数据进行数据筛选，得到异常驾驶数据。

标注模块504，用于对异常驾驶数据进行标注，得到目标标注数据。

训练模块506，用于根据目标标注数据对车端感知小模型、预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型。

上述数据闭环系统中，通过部署在车端上的车端感知小模型对驾驶数据进行数据筛选确定异常驾驶数据，即通过耦合车端感知小模型进行异常驾驶数据筛选，避免人工筛选导致的数据筛选效率低以及数据有效性低；在提高筛选数据有效性的基础上，可以直接对筛选的异常驾驶数据进行标注不需要对异常驾驶数据进行额外处理，提高了数据标注效率以及降低了数据标注成本；基于数据筛选步骤以及数据标注步骤确定的目标标注数据，对车端感知小模型、预标注模型和云端感知大模型中的至少两个模型进行耦合训练，也就是说，在提高筛选数据有效性、数据标注效率以及降低了数据标注成本的基础上进行模型训练，提高了模型迭代效果以及迭代效率，进而基于训练好的模型可以进一步提高数据筛选有效性、数据标注效率和数据标注质量，从而提高数据闭环的高效性。

在另一个实施例中，如图6所示，提供了数据闭环系统的架构示意图，数据闭环系统包括数据筛选模块502，标注模块504包括预标注模块5041和再标注模块5042，以及训练模块506，数据筛选模块502部署有车端感知小模型，预标注模块5041上部署有预标注模型，其中：

数据筛选模块502，用于通过部署在数据筛选模块上的车端感知小模型对获取的驾驶数据进行数据筛选，得到异常驾驶数据；将异常驾驶数据输出至预标注模块5041，通过预标注模块5041用于对异常驾驶数据进行预标注，得到预标注数据，将预标注数据输出至再标注模块5042，通过再标注模块5042对预标注数据进行再标注以及结合人工标注，得到目标标注数据，将目标标注数据输出至训练模块506，通过训练模块506将得到的目标标注数据作为训练数据，对云端感知大模型进行训练，得到训练好的云端感知大模型；以及对预标注模型进行训练，得到训练好的预标注模型，以训练好的预标注模型和训练好的云端感知大模型为教师模型，车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的车端感知小模型，将训练好的车端感知小模型发送至车端，以完成车端感知小模型在车端的部署。

上述实施例中，通过将车端感知小模型，云端感知大模型和预标注模型以紧耦合的方式，内嵌在数据闭环系统的各个环节中，通过车端感知小模型实现数据筛选，以及利用预标注模型进行批量的数据标注，节省人工标注成本，基于标注得到的目标标注数据，在云端感知大模型及预标注模型优化以后，基于师生网络训练，使车端感知小模型同时从云端感知大模型及预标注模型中学习优化网络，提升算法性能。换言之，上述紧耦合式的数据闭环系统实现对自动驾驶数据的高效挖掘，从海量的数据中，精准地提炼出高价值数据，实现更强的自动化标注能力，且标注能力可更智能化的持续提升，实现更加高效的云端和车端的模型迭代效率。

在另一个实施例中，提供了一种数据闭环系统，数据闭环系统包括车端和云端，车端包括数据筛选模块502，云端包括标注模块504和训练模块506，标注模块上部署有预标注模型，训练模块506部署有云端感知大模型，标注模块504包括预标注模块5041和再标注模块5042，其中：

可选地，在一个实施例中，训练模块506还用于根据目标标注数据对云端感知大模型进行训练，得到训练好的云端感知大模型；

以训练好的云端感知大模型为教师模型，车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的车端感知小模型；

以训练好的云端感知大模型为教师模型，预标注模型和车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的预标注模型和训练好的车端感知小模型。

可选地，在一个实施例中，训练模块506还用于将目标标注数据作为预标注模型的训练数据，对预标注模型进行训练，得到训练好的预标注模型；

以训练好的预标注模型为教师模型，车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，对车端感知小模型进行训练，得到训练好的车端感知小模型；

以训练好的预标注模型为教师模型，云端感知大模型和车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的云端感知大模型和训练好的车端感知小模型。

可选地，在一个实施例中，训练模块506还用于将目标标注数据作为云端感知大模型的训练数据，对云端感知大模型进行训练，得到训练好的云端感知大模型；以及

将目标标注数据作为预标注模型的训练数据，对预标注模型进行训练，得到训练好的预标注模型；

以训练好的预标注模型和训练好的云端感知大模型为教师模型，车端感知小模型为学生模型，基于师生网络训练方式，利用教师模型对学生模型进行训练，得到训练好的车端感知小模型。

预标注模块5041还用于基于预标注模型，对异常驾驶数据中每帧异常驾驶数据帧中的目标对象特征提取，得到各目标对象的特征数据；根据异常驾驶数据中连续帧时序信息和目标对象的特征数据，对目标对象进行关联匹配，得到各目标对象的连续特征信息；根据连续特征信息对目标对象进行预标注，得到预标注数据。

再标注模块5042，通过对预标注数据进行再标注，得到目标标注数据；其中，目标标注数据的精度大于预标注数据的精度，目标标注数据的数据属性维度大于预标注数据的数据属性维度。

再标注模块5042，用于对预标注标签和特征数据进行时序处理，得到目标标注数据。

上述数据闭环系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储异常智能驾驶数据、目标标注数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据闭环方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric RandomAccess Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccessMemory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据闭环方法，其特征在于，应用在云端，所述云端上部署有预标注模型和云端感知大模型，所述方法包括：

对所述异常驾驶数据进行标注，确定目标标注数据；

所述对所述异常驾驶数据进行标注，确定目标标注数据，包括：

基于所述预标注模型，对所述异常驾驶数据中每帧异常驾驶数据帧中的目标对象特征提取，得到各所述目标对象的特征数据；

根据所述异常驾驶数据中连续帧时序信息和所述目标对象的特征数据，对所述目标对象进行关联匹配，得到各所述目标对象的连续特征信息；

根据所述连续特征信息对所述目标对象进行预标注，得到预标注数据；

通过对所述预标注数据进行再标注，得到目标标注数据；其中，所述目标标注数据的精度大于所述预标注数据的精度，所述目标标注数据的数据属性维度大于所述预标注数据的数据属性维度；

所述预标注数据包括预标注标签和所述预标注标签对应的特征数据，所述通过对所述预标注数据进行再标注，得到目标标注数据，包括：对所述预标注标签和所述特征数据进行时序处理，得到目标标注数据；

根据所述目标标注数据对所述车端感知小模型、所述预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型；

根据所述目标标注数据对所述车端感知小模型、所述预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标标注数据对所述车端感知小模型、所述预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型，包括：

以所述训练好的云端感知大模型为教师模型，所述车端感知小模型为学生模型，基于师生网络训练方式，利用所述教师模型对所述学生模型进行训练，得到训练好的车端感知小模型；或

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标标注数据对所述车端感知小模型、所述预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型，包括：

4.一种数据闭环系统，其特征在于，所述数据闭环系统包括车端和云端，所述车端包括数据筛选模块，所述云端包括标注模块和训练模块，所述标注模块上部署有预标注模型，所述训练模块部署有云端感知大模型，其中：

所述数据筛选模块，用于通过部署在所述数据筛选模块上的车端感知小模型对获取的驾驶数据进行数据筛选，得到异常驾驶数据；

所述标注模块包括再标注模块和预标注模块，所述预标注模块，用于基于所述预标注模型，对所述异常驾驶数据中每帧异常驾驶数据帧中的目标对象特征提取，得到各所述目标对象的特征数据；

所述再标注模块，用于通过对所述预标注数据进行再标注，得到目标标注数据；其中，所述目标标注数据的精度大于所述预标注数据的精度，所述目标标注数据的数据属性维度大于所述预标注数据的数据属性维度；

所述预标注数据包括预标注标签和所述预标注标签对应的特征数据，所述再标注模块，用于对所述预标注标签和所述特征数据进行时序处理，得到目标标注数据；

所述训练模块，用于根据所述目标标注数据对所述车端感知小模型、所述预标注模型和云端感知大模型中的至少两个模型进行耦合迭代训练，得到训练好的至少两个模型；

所述训练模块还用于：将所述目标标注数据作为所述云端感知大模型的训练数据，对所述云端感知大模型进行训练，得到训练好的云端感知大模型；以及

5.根据权利要求4所述的数据闭环系统，其特征在于，所述训练模块还用于将所述目标标注数据作为所述云端感知大模型的训练数据，对所述云端感知大模型进行训练，得到训练好的云端感知大模型；

以所述训练好的云端感知大模型为教师模型，所述车端感知小模型为学生模型，基于师生网络训练方式，利用所述教师模型对所述学生模型进行训练，得到训练好的车端感知小模型；

6.根据权利要求4所述的数据闭环系统，其特征在于，所述训练模块还用于将所述目标标注数据作为所述预标注模型的训练数据，对所述预标注模型进行训练，得到训练好的预标注模型；

以所述训练好的预标注模型为教师模型，所述车端感知小模型为学生模型，基于师生网络训练方式，利用所述教师模型对所述学生模型进行训练，得到训练好的车端感知小模型；