CN116524210A

CN116524210A - 自动驾驶数据筛选方法、系统、电子设备和存储介质

Info

Publication number: CN116524210A
Application number: CN202310527851.0A
Authority: CN
Inventors: 王尔辛
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-08-01

Abstract

本发明涉及数据筛选技术领域，尤其涉及自动驾驶数据筛选方法、系统、电子设备和存储介质，自动驾驶数据筛选方法包括：接收原始数据，将原始数据进行存储，并通过深度学习模型对原始数据进行推理获得元数据；将元数据作为逻辑数据筛选器的输入进行筛选，筛选后输出为保留元数据的索引，所述保留元数据为通过逻辑筛选器筛选出需要保留的元数据；生成待标注数据子集；对外分发进行人工标注，审核质检，入库。本发明旨在降低标注成本和提高标注数据的质量，还能够加快深度学习模型的性能迭代和对于特定场景的泛化性能。

Description

自动驾驶数据筛选方法、系统、电子设备和存储介质

技术领域

本发明涉及数据筛选技术领域，尤其涉及自动驾驶数据筛选方法、系统、电子设备和存储介质。

背景技术

自动驾驶的感知系统高度依赖于深度学习模型，比如车道线检测、车辆行人检测、可行驶区域检测等，其对于标注数据的需求是巨大的。深度学习由于不需要人为设计特征器而强依赖于数据因而比起传统的算法有着更好的鲁棒性，在分类、目标检测、分割等计算机视觉以及点云领域达到了SOTA的性能。然而，现阶段的深度学习广泛依赖于监督学习，其意味着需要使用大量的监督数据，以达到自动识别的对于场景的覆盖性和泛化性能。因此，感知系统对于优质的标注数据量有着高度的需求。

车端采集的数据服务于感知各个模块的训练。对于模型训练，需要百万级数据量以保证模型训练的有效性。数据筛选用于对采集回传数据进行数据分析，例如剔除重复不重要的数据，增加对提高精度有利的数据，自动化将原始数据处理筛选成模型需要的数据再送至人工标注员进行数据标注。

当前的数据抽样送标是对于每个工程按人为设定的固定比例进行抽取，这种方式是比较不合理的。因为对于不同场景，例如高速/高架、城市道路、乡村等需要的采样率是不同的。对于同一场景的不同路段，比如空旷、车流密集、十字路口等所获得的信息密度是不同的。一个简单的例子是红绿灯路口会采集到大量重复的数据，但是考虑到横向车流，又不可一概认为此场景都是重复数据；对于高速/高架采集的数据，由于车速较快，场景变化快速，需要适时提高采样频率，又不可一概认为此场景的数据重复率低。所以传统的抽帧无法根据场景的变化来得到合适的采样频率以及非冗余的采样数据。

因此，抽帧频率静态的抽帧服务可能会带来大量的重复数据对于训练损失会有偏重，在不明确哪些数据重复的情况下，会对训练的效率和性能有比较大的影响。对此带来的问题便是标注成本上的浪费，同样的训练效果会因为相同或近似数据的重复标注带来成本的上升。另外，对于已经训练好的模型，也许对于简单场景性能良好，但是在实际场景中可能有很多更复杂场景，比如夜间虚线的车道线场景中、夜间光线比较弱，那么识别这些车道线其实是很难的，即使去做标注也很难去准确地把车道线给标出来。特别是有时候一辆大车会完全挡住所有的视线，这对车道线的算法会带来很大的挑战。如果数据端不对数据进行分析，暴力地以所有数据作为训练输入，同样会对预测效果带来偏移。

发明内容

有鉴于此，本发明的目的是提供自动驾驶数据筛选方法、系统、电子设备和存储介质，旨在降低标注成本和提高标注数据的质量，还能够加快深度学习模型的性能迭代和对于特定场景的泛化性能。

本发明通过以下技术手段解决上述技术问题：

第一方面，本发明公开了一种自动驾驶数据筛选方法，包括以下步骤：

接收原始数据，将所述原始数据进行存储，并通过深度学习模型对原始数据进行推理获得元数据；

将元数据作为逻辑数据筛选器的输入进行筛选，筛选后输出为保留元数据的索引，所述保留元数据为通过逻辑筛选器筛选出需要保留的元数据；

生成待标注数据子集；

对外分发进行人工标注，审核质检。

结合第一方面，在一些可选的实施方式中，所述将原始数据进行存储，包括以下步骤：

制定标注计划，并将标注计划下发分配，以便获取原始数据；

接收采集获取的原始数据，并将所述原始数据进行存储。

结合第一方面，在一些可选的实施方式中，所述元数据为图像目标检测的物体尺寸、类别、置信度，点云目标检测的物体尺寸、类别、偏航角、置信度，车道线的几何尺寸以及置信度，时间戳信息，GPS坐标，车辆的行驶速度，相机与激光雷达的内外参矩阵中的至少一种。

结合第一方面，在一些可选的实施方式中，所述逻辑数据筛选器经过逻辑计算单元，根据数据适用法的需求进行灵活组合。

第二方面，本发明还提供了一种自动驾驶数据筛选系统，包括：

数据接收模块，用于接收采集上传的原始数据；

数据管理平台，与数据接收模块连接，用于将所述原始数据进行存储，并通过深度学习模型对原始数据进行推理获得元数据，以及用于生成待标注数据子集；

逻辑数据筛选器，与数据管理平台连接，用于将元数据作为逻辑数据筛选器的输入进行筛选，筛选后输出为保留元数据的索引，所述保留元数据为通过逻辑筛选器筛选出需要保留的元数据，并将保留元数据传输至数据管理平台；

标注平台，用于接收数据管理平台生成的待标注数据子集并进行人工标注。

结合第二方面，在一些可选的实施方式中，所述自动驾驶数据筛选系统还包括：

标注计划模块，与数据管理平台通信连接，用于拟定标注计划任务并将标注计划任务下发到数据管理平台中；

审核质检模块，用于对人工标注的结果进行审核和质检；

标注数据库，用于存储经审核质检的标注数据。

结合第二方面，在一些可选的实施方式中，所述深度学习模型对原始数据进行推理获取的元数据为图像目标检测的物体尺寸、类别、置信度，点云目标检测的物体尺寸、类别、偏航角、置信度，车道线的几何尺寸以及置信度，时间戳信息，GPS坐标，车辆的行驶速度，相机与激光雷达的内外参矩阵中的至少一种。

第三方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述的自动驾驶数据筛选方法。

第四方面，本发明还提供了一种电子设备，包括：

一个或多个处理器；

与所述处理器通信连接的存储器，所述存储器用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述的自动驾驶数据筛选方法。

本发明的自动驾驶数据筛选方法、系统、电子设备和存储介质，具有如下优点：

(1)本发明提供的自动驾驶数据筛选方法中使用了逻辑数据筛选器对元数据进行筛选，即提供了MISO(多输入单输出)的设计，旨在满足多种筛选策略的逻辑组合，且可以做到无限扩增，所有的筛选器都基于同一种元数据的输入以及是否选择一种输出，模式上简介统一，通过对逻辑组合的定义可扩展出多种筛选场景，例如加塞、拥堵、岔道口等场景的定向筛选，再基于筛选出的保留元数据生成待标注数据子集，进行人工标注，极大的减少了人工标注的数据量，有效提高了标注的效率，降低标注成本；同时由于逻辑数据筛选器对于多种筛选场景的定义，使得保留元数据的场景明确，能够提高标注数据的质量。因此，本发明能够加快深度学习模型的性能迭代和对于特定场景的泛化性能。

(2)经过实际测试，本发明提供的自动驾驶数据筛选方法在图像目标检测领域的标注数据量能够减少到常规数据的30％左右，在100万量级的目标检测数据集上，经过此数据筛选过程，可以去除冗余的30万数据，并且剩余的70万数据可以达到与100万数据集相同的模型精度，即相同的检测精度下，训练所需的数据减少70％，有效提高了标注的效率，降低标注成本。

附图说明

本发明可以通过附图给出的非限定性实施例进一步说明。应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的自动驾驶数据筛选方法的流程示意图；

图2为本发明实施例提供的自动驾驶数据筛选系统的框图；

图3为本发明实施例的逻辑数据筛选流程图；

其中，图中各数字分别代表：

自动驾驶数据筛选系统200，数据接收模块210、数据管理平台220、逻辑数据筛选器230、标注计划模块240、标注平台250、审核质检模块260、标注数据库270。

具体实施方式

以下将结合附图和具体实施例对本发明进行详细说明：

以下通过特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容了解本发明的优点和功效。需要说明的是，以下实施例中所提供的图示仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制，为了更好地说明本发明的实施例，图中某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，图中某些公知结构及其说明可能省略是可以理解的。

应当理解，本发明实施例的图中相同或相似的标号对应相同或相似的部件，在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述用语的具体含义。

应当理解，尽管在本公开实施例中可能采用术语第一、第二、第三等来描述……，但这些……不应限于这些术语。这些术语仅用来将……区分开。例如，在不脱离本公开实施例范围的情况下，第一……也可以被称为第二……，类似地，第二……也可以被成为第一……。

请参照图1，本发明实施例提供了一种自动驾驶数据筛选方法，包括以下步骤：

步骤110，接收原始数据，将接收到的原始数据存储在私有云存储中，并通过私有云存储的深度学习模型对原始数据进行推理获得元数据；

步骤120，将元数据作为逻辑数据筛选器的输入进行筛选，筛选后输出为保留元数据的索引，所述保留元数据为通过逻辑筛选器筛选出需要保留的元数据；

步骤130，生成待标注数据子集；

步骤140，对外分发进行人工标注，审核质检，入库。

在上述实施例方式中，使用了逻辑数据筛选器对元数据进行筛选，即提供了MISO(多输入单输出)的设计，旨在满足多种筛选策略的逻辑组合，且可以做到无限扩增，所有的筛选器都基于同一种元数据的输入以及是否选择一种输出，模式上简介统一，通过对逻辑组合的定义可扩展出多种筛选场景，例如加塞、拥堵、岔道口等场景的定向筛选，再基于筛选出的保留元数据生成待标注数据子集，进行人工标注，极大的减少了人工标注的数据量，有效提高了标注的效率，降低标注成本；同时由于逻辑数据筛选器对于多种筛选场景的定义，使得保留元数据的场景明确，能够提高标注数据的质量。因此，本发明能够加快深度学习模型的性能迭代和对于特定场景的泛化性能。

下面将对自动驾驶数据筛选方法的各步骤进行详细阐述，如下：

步骤110可以包括，制定标注计划，并将标注计划下发分配，以便获取原始数据，接收采集获取的原始数据，并将所述原始数据存储于私有云的分布式存储平台内，采集完毕的数据经由数据管理平台将数据存储于私有云的分布式存储平台内，例如alluxio等平台，并由SQL数据库进行基本的元信息管理。

通过私有云存储的深度学习模型对原始数据进行推理获得元数据，元数据提取中，需要将图像检测、分割，点云检测、分割等模型部署至私有云，用来承接数据推理的服务。其中，数据推理服务将由数据管理平台进行自动化调度，所有的数据一经上传，都会经过数据推理进而提取更加丰富的元数据。元数据包括但不限于以下信息：图像目标检测的物体尺寸、类别、置信度，点云目标检测的物体尺寸、类别、偏航角、置信度，车道线的几何尺寸以及置信度，时间戳信息，GPS坐标，车辆的行驶速度，相机与激光雷达的内外参矩阵等。这些元数据被存储于非结构化数据库比如MongoDB中。

步骤120可以包括，将元数据作为逻辑数据筛选器的输入进行筛选，筛选后输出为保留元数据的索引。逻辑数据筛选中，元数据信息将作为输入，并输出每帧数据的筛选与否的信息，并更新至元数据数据库中。此步骤可以详见图3。数据筛选器由多个人工定义的规则构成，比如语义相似度筛选器，将模型输出的嵌入向量进行两两比对，得到距离度量较大的两者通过筛选器，类似于最远点采样(FPS)。又比如车辆的转弯筛选器，提取本车在转弯场景的数据。再比如间隔筛选器，其提供了固定比例的抽帧策略。以上的数据筛选器可以经过类似于一个逻辑电路的逻辑计算单元中，根据数据适用法的需求进行灵活组合。得到的筛选与否的结果将在此步骤之后更新至原始帧的元数据数据库中。

步骤130可以包括，获取完筛选结果后，数据管理平台可以根据元数据信息进行待标注数据子集的生成。

步骤140可以包括，得到的待标注数据子集数据经过平台的对外分发，发送至标注平台进行人工标注。人工标注完的结果经过审核质检进入到内部的标注数据库中。至此完成了整个的筛选标注流程。

为了更进一步理解方法的实现过程，下面将基于图1举例阐述方法的实现过程：

采集完毕的数据经由数据管理平台将数据存储于私有云的分布式存储平台内，例如alluxio等平台，并由SQL数据库进行基本的元信息管理。元数据提取中，需要将图像检测、分割，点云检测、分割等模型部署至私有云，用来承接数据推理的服务。其中，数据推理服务将由数据管理平台进行自动化调度，所有的数据一经上传，都会经过数据推理进而提取更加丰富的元数据，元数据被存储于非结构化数据库比如MongoDB中。逻辑数据筛选中，元数据信息将作为输入，并输出每帧数据的筛选与否的信息，并更新至元数据数据库中。数据筛选器由多个人工定义的规则构成，比如语义相似度筛选器，将模型输出的嵌入向量进行两两比对，得到距离度量较大的两者通过筛选器，类似于最远点采样(FPS)。又比如车辆的转弯筛选器，提取本车在转弯场景的数据。再比如间隔筛选器，其提供了固定比例的抽帧策略。以上的筛选器可以经过类似于一个逻辑电路的逻辑计算单元中，根据数据适用法的需求进行灵活组合。得到的筛选与否的结果将在此步骤之后更新至原始帧的元数据数据库中。获取完筛选结果后，数据管理平台可以根据元数据信息进行待标注数据子集的生成。再经过平台的对外分发，发送至标注平台进行人工标注。人工标注完的结果经过审核质检进入到内部的标注数据库中，至此完成了整个的筛选标注流程。

经检测，上述自动驾驶数据筛选方法在图像目标检测领域的标注数据量能够减少到常规数据的30％左右，在100万量级的目标检测数据集上，经过此数据筛选过程，可以去除冗余的30万数据，并且剩余的70万数据可以达到与100万数据集相同的模型精度，即相同的检测精度下，训练所需的数据减少70％。

对应于上述的自动驾驶数据筛选方法，本发明实施例还提供了自动驾驶数据筛选系统200，请参照图2，该系统包括：数据接收模块210、数据管理平台220、逻辑数据筛选器230、标注计划模块240、标注平台250、审核质检模块260、标注数据库270。

数据接收模块210用于接收采集上传的原始数据；数据管理平台220用于将原始数据和深度学习模型存储于私有云中，以及根据元数据信息进行待标注数据子集的生成，所述元数据由深度学习模型对原始数据进行推理获取；逻辑数据筛选器230用于将元数据作为逻辑数据筛选器的输入进行筛选，筛选后输出为保留元数据的索引，保留元数据为通过逻辑筛选器筛选出需要保留的元数据，并将保留元数据传输至数据管理平台；标注计划模块240与数据管理平台通信连接，用于拟定标注计划任务并将标注计划任务下发到数据管理平台中；标注平台250，用于接收数据管理平台生成的待标注数据子集并进行人工标注；审核质检模块260，用于对人工标注的结果进行审核和质检；标注数据库270，用于存储经审核质检的标注数据。

本发明实施例还提供了一种计算机可读存储介质。计算机可读存储介质中存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行如上述实施例中所述的自动驾驶数据筛选方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现，基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，控制设备，或者网络设备等)执行本申请各个实施场景所述的方法。

基于同一发明构思，本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述自动驾驶数据筛选方法。

上述电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等移动终端以及诸如数字TV、台式计算机等固定终端。

在本发明所提供的实施例中，应该理解到，所揭露的装置、系统和方法，也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种自动驾驶数据筛选方法，其特征在于，包括以下步骤：

生成待标注数据子集；

对外分发进行人工标注，审核质检。

2.根据权利要求1所述的一种自动驾驶数据筛选方法，其特征在于，所述将原始数据进行存储，包括以下步骤：

接收采集获取的原始数据，并将所述原始数据进行存储。

3.根据权利要求2所述的一种自动驾驶数据筛选方法，其特征在于，所述元数据为图像目标检测的物体尺寸、类别、置信度，点云目标检测的物体尺寸、类别、偏航角、置信度，车道线的几何尺寸以及置信度，时间戳信息，GPS坐标，车辆的行驶速度，相机与激光雷达的内外参矩阵中的至少一种。

4.根据权利要求3所述的一种自动驾驶数据筛选方法，其特征在于，所述逻辑数据筛选器经过逻辑计算单元，根据数据适用法的需求进行灵活组合。

5.一种自动驾驶数据筛选系统，其特征在于，包括：

数据接收模块，用于接收采集上传的原始数据；

数据管理平台，用于将所述原始数据进行存储，并通过深度学习模型对原始数据进行推理获得元数据，以及用于生成待标注数据子集；

逻辑数据筛选器，用于将元数据作为逻辑数据筛选器的输入进行筛选，筛选后输出为保留元数据的索引，所述保留元数据为通过逻辑筛选器筛选出需要保留的元数据，并将保留元数据传输至数据管理平台；

6.根据权利要求5所述的一种自动驾驶数据筛选系统，其特征在于，还包括：

标注计划模块，用于拟定标注计划任务并将标注计划任务下发到数据管理平台中；

审核质检模块，用于对人工标注的结果进行审核和质检；

标注数据库，用于存储经审核质检的标注数据。

7.根据权利要求5所述的一种自动驾驶数据筛选系统，其特征在于，所述深度学习模型对原始数据进行推理获取的元数据为图像目标检测的物体尺寸、类别、置信度，点云目标检测的物体尺寸、类别、偏航角、置信度，车道线的几何尺寸以及置信度，时间戳信息，GPS坐标，车辆的行驶速度，相机与激光雷达的内外参矩阵中的至少一种。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4任一项所述的自动驾驶数据筛选方法。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

与所述处理器通信连接的存储器，所述存储器用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4任一项所述的自动驾驶数据筛选方法。