CN116206282A

CN116206282A - 数据处理方法、装置、设备及计算机存储介质

Info

Publication number: CN116206282A
Application number: CN202211693176.0A
Authority: CN
Inventors: 吴双; 黄露莹; 丁文博
Original assignee: SAIC Motor Corp Ltd; Shanghai Automotive Industry Corp Group
Current assignee: SAIC Motor Corp Ltd; Shanghai Automotive Industry Corp Group
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-06-02

Abstract

本申请公开了一种数据处理方法、装置、设备及计算机存储介质。可获取车辆在行驶过程中由相机传感器以及雷达传感器采集到的多个场景数据。再通过点云检测模型以及图像检测模型对场景数据分别进行目标检测，得到第一目标检测结果以及第二目标检测结果，从而确定每个场景数据的价值评分。最后，根据价值评分较高的n个场景数据，确定目标检测模型的训练数据。根据本申请实施例，能够基于价值评分较高的若干场景数据，确定该目标检测模型的训练数据。而该价值评分是基于多种目标检测模型对场景数据进行目标检测的结果确定出的。可见，通过由多种传感器采集到的场景数据，更准确、高效的确定价值评分较高的场景数据，从而更准确、高效的确定训练样本。

Description

数据处理方法、装置、设备及计算机存储介质

技术领域

本申请属于数据处理领域，尤其涉及一种数据处理方法。

背景技术

随着计算机技术、信息技术的发展，无人驾驶设备越发成熟。无人驾驶设备在行驶过程中，通常通过相机、雷达等传感器采集周围环境的数据，再通过目标检测模型从采集到的数据中识别障碍物，从而减少与障碍物发生碰撞的可能性。因此，目标检测模型对障碍物进行检测时的准确性，关乎着无人驾驶设备的行驶安全。

通常情况下，在对目标检测模型进行训练时，为了提高效率，用户会通过部分难以识别的样本以及部分具有长尾效应的样本训练目标检测模型。

但是，用户在确定难以识别的样本以及具有长尾效应的样本时，往往仅基于单一传感器采集到的数据进行确定，忽视了不同传感器采集到的数据之间的关联，准确率、效率较低。

发明内容

本申请实施例提供一种数据处理方法、装置、设备及计算机存储介质，能够提高确定目标检测模型的训练样本的效率。

一方面，本申请实施例提供一种数据处理方法，方法包括：

获取车辆在行驶过程中采集的多个场景数据，所述场景数据是由所述车辆配置的相机传感器以及雷达传感器采集到的；

针对每个场景数据，通过点云检测模型对该场景数据进行目标检测，得到第一目标检测结果；通过图像检测模型对该场景数据进行目标检测，得到第二目标检测结果；

根据所述第一目标检测结果以及所述第二目标检测结果，确定该场景数据的价值评分；

按照价值评分从大到小的顺序，对多个场景数据排序，得到第一序列；

根据所述第一序列中前n个场景数据，确定目标检测模型的训练数据。

可选的，所述根据所述第一目标检测结果以及所述第二目标检测结果，确定该场景数据的价值评分，具体包括：

通过目标检测模型对该场景数据进行目标检测，得到第三目标检测结果，所述目标检测模型的输入数据为雷达点云或相机图像；

根据所述第三目标检测结果，确定该场景数据的检测准确性评分；

根据所述第一目标检测结果、所述第二目标检测结果以及所述第三目标检测结果，确定检测难易度评分；

根据所述检测准确性评分以及所述检测难易度评分，通过如下公式，确定该场景数据的价值评分：

S＝c₁S_confidence+c₂S_rarity

其中，S为所述价值评分，c₁以及c₂为常数，S_confidence为所述检测准确性评分，S_rarity为所述检测难易度评分。

可选的，所述第三目标检测结果包括目标框以及所述目标框对应的置信度，所述根据所述第三目标检测结果，确定该场景数据的检测准确性评分，具体包括：

将所述第三目标检测结果包含的目标框的数量，确定为目标框数量；

根据所述目标框数量以及所述目标框对应的置信度，通过如下公式，确定该场景数据的检测准确性评分：

其中，S_confidence为所述检测准确性评分，n_obj为所述目标框数量，ss_camera为所述目标框对应的置信度。

可选的，所述根据所述第一目标检测结果、所述第二目标检测结果以及所述第三目标检测结果，确定检测难易度评分，具体包括：

当所述目标检测模型的输入数据为相机图像时，将所述第二目标检测结果，确定为对比目标检测结果；

当所述目标检测模型的输入数据为雷达点云时，将所述第一目标检测结果，确定为对比目标检测结果；

根据所述第一目标检测结果以及所述第二目标检测结果，确定第一检测难易度评分；

根据所述第三目标检测结果以及所述对比目标检测结果，确定第二检测难易度评分；

根据所述第一检测难易度评分以及所述第二检测难易度评分，通过如下公式，确定所述场景数据的检测难易度评分：

S_rarity＝αLS_rarity+βSS_rarity

其中，S_rarity为所述检测难易度评分，α以及β为常数，LS_rarity为第一检测难易度评分，SS_rarity为第二检测难易度评分。

可选的，所述第一目标检测结果，包括目标框以及所述目标框对应的置信度，所述第二目标检测结果，包括目标框以及所述目标框对应的置信度，所述根据所述第一目标检测结果以及所述第二目标检测结果，确定第一检测难易度评分，具体包括：

将所述第一目标检测结果中包含的目标框的数量，确定为目标框数量；

从所述第一目标检测结果包含的目标框中，将与所述第二目标检测结果包含的任一目标框匹配的目标框，确定为匹配目标框；

确定所述匹配目标框的数量、所述匹配目标框在所述第一目标检测结果中对应的置信度以及所述第二目标检测结果中与所述匹配目标框匹配的目标框的匹配置信度；

将所述匹配目标框的置信度与所述匹配置信度的和，确定为匹配值；

根据所述匹配目标框的数量、所述目标框数量以及所述匹配值，通过如下公式，确定该场景数据的第一检测难易度评分：

其中，LS_rarity为所述第一检测难易度评分，nll_match为所述匹配目标框的数量，lsmatch_i为第i个匹配目标框的匹配值，n_lidar为所述目标框数量。

可选的，所述第三目标检测结果，包括目标框以及所述目标框对应的置信度，所述对比目标检测结果，包括目标框以及所述目标框对应的置信度，所述根据所述第三目标检测结果以及所述对比目标检测结果，确定第二检测难易度评分，具体包括：

将所述对比目标检测结果中包含的目标框的数量，确定为目标框数目；

从所述对比目标检测结果包含的目标框中，将与所述第三目标检测结果包含的任一目标框匹配的目标框，确定为类似目标框；

确定所述类似目标框的数量、所述类似目标框在所述对比目标检测结果中对应的置信度以及所述第三目标检测结果中与所述类似目标框匹配的目标框的类似置信度；

将所述类似目标框的置信度与所述类似置信度的和，确定为类似值；

根据所述类似目标框的数量、所述目标框数目以及所述类似值，通过如下公式，确定该场景数据的第一检测难易度评分：

其中，SS_rarity为所述第二检测难易度评分，nls_match为所述类似目标框的数量，ssmatch_i为第i个类似目标框的类似值，nl_camera为所述目标框数目。

可选的，所述根据所述第一序列中前n个场景数据，确定目标检测模型的训练数据，具体包括：

对所述第一序列中的前n个场景数据分别进行标注，得到多个训练数据；

通过所述多个训练数据，训练目标检测模型。

可选的，所述根据所述第一序列中前n个场景数据，确定目标检测模型的训练数据之后，所述方法还包括：

获取所述训练数据的采集时间标识；

按照所述采集时间标识的先后顺序，对所述训练数据进行排序，得到第二序列；

将所述第二序列中每前后相邻的两个训练数据，确定为训练样本组；

将所述训练样本组包含的两个训练数据中排序靠前的训练数据，确定为第一训练数据，将排序靠后的训练数据，确定为第二训练数据；

针对所述第二序列中的每个训练样本组，当确定该训练样本组包含的两个训练数据的结构相似性大于预设的相似阈值时，删除该训练样本组包含的第二训练数据，直至所述第二序列中任一个训练样本组包含的两个训练数据的结构相似性均小于或等于该相似阈值为止。

另一方面，本申请实施例提供了一种数据处理装置，装置包括：

获取单元，用于获取车辆在行驶过程中采集的多个场景数据，所述场景数据是由所述车辆配置的相机传感器以及雷达传感器采集到的；

检测单元，用于针对每个场景数据，通过点云检测模型对该场景数据进行目标检测，得到第一目标检测结果；通过图像检测模型对该场景数据进行目标检测，得到第二目标检测结果；

评分单元，用于根据所述第一目标检测结果以及所述第二目标检测结果，确定该场景数据的价值评分；

排序单元，用于按照价值评分从大到小的顺序，对多个场景数据排序，得到第一序列；

确定单元，用于根据所述第一序列中前n个场景数据，确定目标检测模型的训练数据。

再一方面，本申请实施例提供了一种数据处理设备，设备包括：

处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如上述一方面所述的数据处理方法。

再一方面，本申请实施例提供了一种计算机存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如上述一方面的任意一项所述的数据处理方法。

再一方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备实现如上述一方面的任意一项所述的数据处理方法。

本申请实施例的数据处理方法、装置、设备及计算机存储介质，能够基于价值评分较高的若干场景数据，确定该目标检测模型的训练数据。而该价值评分是基于第一目标检测结果以及第二目标检测结果确定出的。该第一目标检测结果是通过点云检测模型对场景数据进行目标检测得到的，该第二目标检测结果是通过图像检测模型对场景数据进行目标检测得到的。可见，通过由多种传感器采集到的场景数据，更准确、高效的确定价值评分较高的场景数据，从而更准确、高效的确定训练样本。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的数据处理方法的流程示意图；

图2是本申请一个实施例提供的另一种数据处理方法的流程示意图；

图3是本申请一个实施例提供的数据处理装置的结构示意图；

图4是本申请一个实施例提供的数据处理设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如背景技术所述，无人驾驶设备感知的精确性至关重要，其依赖于海量的训练数据，然而，多数数据为重复、低质量或无效数据，直接对这些数据进行标注，会造成资源的浪费，降低效率。因此，在对目标检测模型进行训练时，用户会通过部分难以识别的样本以及部分具有长尾效应的样本训练目标检测模型。

为了解决现有技术问题，本申请实施例提供了一种数据处理方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的数据处理方法进行介绍。

图1示出了本申请一个实施例提供的数据处理方法的流程示意图。如图1所示，本申请实施例提供的数据处理方法包括以下步骤：S101至S105。

S101：获取车辆在行驶过程中采集的多个场景数据，场景数据是由车辆配置的相机传感器以及雷达传感器采集到的。

在本申请的一个或多个实施例中，场景数据可以是车辆在行驶过程中，由车辆配置的相机传感器以及雷达传感器采集到的对当前场景的感知数据，该数据处理方法可由电子设备确定。当然，该电子设备可以为车辆控制中心、手机、平板电脑、服务器等设备，该电子设备具体为何种设备，本申请在此不做限制，可根据需要设置。其中，该场景数据包括图像数据以及点云数据。该图像数据与该点云数据是对应的。即，该图像数据中的第一位置存在第一障碍物，该点云数据中与该第一位置相同的位置也存在与该第一障碍物相同的障碍物。

采用上述方式，可以获取车辆在行驶过程中采集的多个场景数据。

S102：针对每个场景数据，通过点云检测模型对该场景数据进行目标检测，得到第一目标检测结果；通过图像检测模型对该场景数据进行目标检测，得到第二目标检测结果。

在本申请的一个或多个实施例中，点云检测模型是根据已完成标注的多模态数据集，对点云三维检测网络进行训练得到的。第一目标检测结果是通过点云检测模型对该场景数据进行目标检测得到的目标检测结果。图像检测模型是根据已完成标注的多模态数据集，对视觉三维检测网络进行训练得到的。第二目标检测结果是通过图像检测模型对该场景数据进行目标检测得到的检测结果。

作为一个示例，上述点云检测模型和图像检测模型的训练过程可以是获取大量训练样本数据得到初步训练模型，即该点云检测模型以及该图像检测模型。再用初步训练模型通过步骤S101至步骤S105筛选训练数据，通过筛选后得到的训练数据训练该初步训练模型。将上述步骤重复进行迭代训练，直至该初步训练模型收敛。

采用上述方式，可以得到场景数据的第一目标检测结果和第二目标检测结果，用于确定场景数据的价值评分。

S103：根据第一目标检测结果以及第二目标检测结果，确定该场景数据的价值评分。

在本申请的一个或多个实施例中，可以根据第一目标检测结果以及第二目标检测结果进行运算，计算得到该场景数据的价值评分。

采用上述方式，可以确定场景数据的价值评分，用于对场景数据进行排序。

S104：按照价值评分从大到小的顺序，对多个场景数据排序，得到第一序列。

在本申请的一个或多个实施例中，根据价值评分，将价值评分对应的场景数据从大到小进行排序。第一序列可以是多个场景数据的经过排序后的序列。

作为一个示例，场景数据A，其对应的价值评分为90，场景数据B，其对应的价值评分为97，场景数据C，其对应的价值评分为80，则第一序列为：场景数据B、场景数据A、场景数据C。

采用上述方式，可以得到场景数据的第一序列，用于确定目标检测模型的训练数据。

S105：根据第一序列中前n个场景数据，确定目标检测模型的训练数据。

在本申请的一个或多个实施例中，可以直接将第一序列中前n个场景数据作为目标检测模型的训练数据，也可以是将第一序列中前n个场景数据进行处理后，例如可以是将场景数据中的重复数据等进行筛选，得到目标检测模型的训练数据，此处不做限定。

以上为本申请实施例提供的数据处理方法的具体实现方式，可见，在上述实施例中，能够基于价值评分较高的若干场景数据，确定该目标检测模型的训练数据。而该价值评分是基于第一目标检测结果以及第二目标检测结果确定出的。该第一目标检测结果是通过点云检测模型对场景数据进行目标检测得到的，该第二目标检测结果是通过图像检测模型对场景数据进行目标检测得到的。可见，通过由多种传感器采集到的场景数据，更准确、高效的确定价值评分较高的场景数据，从而更准确、高效的确定训练样本。

为了更准确、高效的确定该目标检测模型的训练样本，作为本申请的另一种实现方式，本申请还提供了S103的一种实现方式，该实现方式包括：

通过目标检测模型对该场景数据进行目标检测，得到第三目标检测结果，目标检测模型的输入数据为雷达点云或相机图像。

根据第三目标检测结果，确定该场景数据的检测准确性评分。

根据第一目标检测结果、第二目标检测结果以及第三目标检测结果，确定检测难易度评分。

根据检测准确性评分以及检测难易度评分，通过如下公式，确定该场景数据的价值评分：

S＝c₁S_confidence+c₂S_rarity (1)

其中，S为价值评分，c₁以及c₂为常数，S_confidence为检测准确性评分，S_rarity为检测难易度评分。

在上述实现方式中，目标检测模型可以是以雷达点云数据或相机图像数据作为输入，以第三目标检测结果作为输出的检测模型。当该目标检测模型是图像目标检测模型时，输入为相机图像，当该目标检测模型是雷达目标检测模型时，输入为雷达点云数据。第三目标检测结果可以是场景数据的检测结果，例如可以包括当前场景中的目标框数量等。

在一些实施例中，由于在目标检测模型对场景数据进行检测时存在一定的误差，例如对于某个障碍物的判断，可能会出现判断正确和判断错误两种情况。此时，将目标检测模型输出的第三目标检测结果进行统计并计算为分数，该分数即为检测准确性评分。检测准确性评分可以是用于表征该场景数据的检测准确度的评分。根据第三目标检测结果，确定该场景数据的检测准确性评分，可以是计算第三目标检测结果的准确度，从而确定该场景数据的检测准确性评分。

在一些实施例中，由于目标检测模型与点云检测模型和雷达检测模型的精度不同，在对同一个场景数据进行检测时，可能会产生不同的预测结果。如果目标检测模型与其对应的点云检测模型和雷达检测模型，对于同一个场景数据中的某一个障碍物的判断结果相同时，表示该场景的检测难易度较低，反之亦然。因此，检测难易度评分可以是用于表征该场景数据的检测难易度的评分。可以将第一目标检测结果、第二目标检测结果以及第三目标检测结果进行运算，从而确定检测难易度评分。

在一些实施例中，可以是将赋权后的检测准确性评分，与赋权后的检测难易度评分进行加和，得到场景数据的价值评分，具体如公式(1)所示，其中，常数c₁以及c₂为权重值，其取值可以是目标检测模型的输出结果，即为超参数。也可以根据实际情况自定义，即响应于用户的操作，确定c₁以及c₂的值。需要说明的是，由于该价值评分越高，表示通过该场景数据对该目标检测模型进行训练的效果越好，因此，为了实现上述效果，在本申请的一个或多个实施例中，该c₁以及c₂为负数。

如此，通过目标检测模型对该场景数据进行目标检测，得到第三目标检测结果，再根据检测准确性评分以及检测难易度评分确定该场景数据的价值评分，而场景准确度评分是根据第三目标检测结果得到的，检测难易度评分是根据第一目标检测结果、第二目标检测结果以及第三目标检测结果得到的，提高了价值评分的准确性，从而更准确、高效的确定该目标检测模型的训练样本。

为了更准确、高效的确定该目标检测模型的训练样本，作为本申请的另一种实现方式，第三目标检测结果包括目标框以及目标框对应的置信度，根据第三目标检测结果，确定该场景数据的检测准确性评分，具体可以包括：

将第三目标检测结果包含的目标框的数量，确定为目标框数量。

根据目标框数量以及目标框对应的置信度，通过如下公式，确定该场景数据的检测准确性评分：

其中，S_confidence为检测准确性评分，n_obj为目标框数量，ss_camera为目标框对应的置信度。

在上述实现方式中，目标框是指检测模型将检测出的障碍物进行标注，具体可以表征当前场景下检测出的障碍物所处的位置，目标框对应的置信度为当前目标框中是否存在障碍物的准确度，当该场景下的目标框内确实存在障碍物时，表示目标框对应的置信度较高。

可以是将第三检测结果中的所有目标框对应的置信度进行加和，再与目标框数量进行求商，如此计算得到该场景数据的检测准确性评分，具体如公式(2)所示。

可以理解的是，使用上述公式计算得出的检测准确性评分越低，表示该场景的数据具有训练的价值，即其场景数据的价值越高。

如此，通过将第三目标检测结果包含的目标框的数量确定为目标框数量，再根据目标框数量以及目标框对应的置信度，确定该场景数据的检测准确性评分，由于目标框的置信度与检测准确性评分关联性较强，可以更准确地确定检测准确性评分，从而更准确、高效的确定该目标检测模型的训练样本。

为了更准确、高效的确定该目标检测模型的训练样本，作为本申请的另一种实现方式，根据第一目标检测结果、第二目标检测结果以及第三目标检测结果，确定检测难易度评分，具体包括：

当目标检测模型的输入数据为相机图像时，将第二目标检测结果，确定为对比目标检测结果。

当目标检测模型的输入数据为雷达点云时，将第一目标检测结果，确定为对比目标检测结果。

根据第一目标检测结果以及第二目标检测结果，确定第一检测难易度评分。

根据第三目标检测结果以及对比目标检测结果，确定第二检测难易度评分。

根据第一检测难易度评分以及第二检测难易度评分，通过如下公式，确定场景数据的检测难易度评分：

S_rarity＝αLS_rarity+βSS_rarity (3)

其中，S_rarity为检测难易度评分，α以及β为常数，LS_rarity为第一检测难易度评分，SS_rarity为第二检测难易度评分。

在上述实现方式中，对比目标检测结果可以是用于与第三目标检测结果进行对比的目标检测结果，当对比检测结果与第三目标检测结果一致时，表示对于该场景的检测结果较为准确，即检测难易度较低，反之亦然。第一检测难易度评分可以是根据第一目标检测结果和第二目标检测结果计算得到的检测难易度评分，当第一目标检测结果与第二目标检测结果一致时，表示对于该场景的检测结果较为准确，即检测难易度较低，反之亦然。第二检测难易度评分可以是根据第三目标检测结果和当前场景数据的数据类型对应的对比目标检测结果计算得到的检测难易度评分。

在一些实施例中，可以第一检测难易度评分以及第二检测难易度评分进行赋权加和，将计算的值作为场景数据的检测难易度评分，具体如公式(3)所示，其中，α以及β为常数，其取值可以是目标检测模型的输出结果，即为超参数，也可以根据实际情况自定义，即响应于该用户的操作，确定该α以及该β的值。

可以理解的是，检测难易度评分越低，表示该场景的数据具有训练的价值，即其场景数据的价值越高。

如此，通过第一检测难易度评分以及第二检测难易度评分，确定场景数据的检测难易度评分，而第一检测难易度评分是由第一目标检测结果和第二目标检测结果确定的，第二检测难易度评分是由第三目标检测结果以及对比目标检测结果确定的，这样确定的检测难易度评分包含了多个检测模型的检测结果，使评分更加精确，从而更准确、高效的确定该目标检测模型的训练样本。

为了更准确、高效的确定该目标检测模型的训练样本，作为本申请实施例的另一种实现方式，第一目标检测结果，包括目标框以及目标框对应的置信度，第二目标检测结果，包括目标框以及目标框对应的置信度，根据第一目标检测结果以及第二目标检测结果，确定第一检测难易度评分，具体包括：

将第一目标检测结果中包含的目标框的数量，确定为目标框数量。

从第一目标检测结果包含的目标框中，将与第二目标检测结果包含的任一目标框匹配的目标框，确定为匹配目标框。

确定匹配目标框的数量、匹配目标框在第一目标检测结果中对应的置信度以及第二目标检测结果中与匹配目标框匹配的目标框的匹配置信度。

将匹配目标框的置信度与匹配置信度的和，确定为匹配值。

根据匹配目标框的数量、目标框数量以及匹配值，通过如下公式，确定该场景数据的第一检测难易度评分：

其中，LS_rarity为第一检测难易度评分，nll_match为匹配目标框的数量，lsmatch_i为第i个匹配目标框的匹配值，n_lidar为目标框数量。

在上述实现方式中，从第一目标检测结果包含的目标框中，将与第二目标检测结果包含的任一目标框匹配的目标框，确定为匹配目标框，具体可以是当第一目标检测结果与第二目标检测结果的目标框的三维重叠体积大于或等于预设阈值时，确定第二目标检测结果中的目标框为匹配目标框。其中，预设阈值可以根据实际情况自定义设置，该三维重叠体积为两个目标检测结果中的两个目标框通过对比得到的参数。当然，由于确定至少两个目标框是否匹配的技术已经较为成熟，因此，该电子设备也可采用其他方式确定该第一目标检测结果与该第二目标检测结果的目标框是否匹配，具体如何确定，为了简要起见，本申请在此不再赘述。并且，本申请中的其他步骤或实施例中在对至少两个目标框进行匹配时，也可仿照上述实施例的内容。

作为一个示例，第一目标检测结果中包含的目标框数量为3，分别为目标框A、目标框B与目标框C，其中目标框A与第二目标检测结果中包含的一个目标框相匹配，则目标框A为匹配目标框，其置信度为匹配目标框A的置信度。此时第二目标检测结果的该目标框为目标框A2，其置信度为匹配置信度。

在一些实施例中，目标框和匹配目标框，分别表示对于该场景的同一个位置进行判断，得到第一检测结果和第二检测结果，如果第一检测结果和第二检测结果均判断该目标框存在障碍物，并且判断结果正确，则目标框和匹配目标框的置信度均较高。因此，将匹配目标框的置信度与匹配置信度的和，确定为匹配值，匹配值越高，表明对于该场景的检测置信度越高，也就是说，对于该场景的检测难易度较低。可以将所有匹配目标框的匹配值进行加和，再与目标框数量进行求商，从而得到第一检测难易度评分，具体如公式(4)所示。

如此，通过匹配目标框的数量、目标框数量以及匹配值，计算得到第一检测难易度评分，而匹配值是由匹配目标框的置信度与匹配置信度的和得到的，可以更加准确高效的确定该目标检测模型的训练样本。

为了更准确、高效的确定该目标检测模型的训练样本，作为本申请的另一种实现方式，第三目标检测结果，包括目标框以及目标框对应的置信度，对比目标检测结果，包括目标框以及目标框对应的置信度，根据第三目标检测结果以及对比目标检测结果，确定第二检测难易度评分，具体包括：

将对比目标检测结果中包含的目标框的数量，确定为目标框数目。

从对比目标检测结果包含的目标框中，将与第三目标检测结果包含的任一目标框匹配的目标框，确定为类似目标框。

确定类似目标框的数量、类似目标框在对比目标检测结果中对应的置信度以及第三目标检测结果中与类似目标框匹配的目标框的类似置信度。

将类似目标框的置信度与类似置信度的和，确定为类似值。

根据类似目标框的数量、目标框数目以及类似值，通过如下公式，确定该场景数据的第一检测难易度评分：

其中，SS_rarity为第二检测难易度评分，nls_match为类似目标框的数量，ssmatch_i为第i个类似目标框的类似值，nl_camera为目标框数目。

上述实现方式中与第一检测难易度评分确定过程类似，在此不再赘述。

如此，通过类似目标框的数量、目标框数量以及类似值，计算得到第二检测难易度评分，而类似值是由类似目标框的置信度与类似置信度的和得到的，可以更加准确高效的确定该目标检测模型的训练样本。

为了更加准确、高效的确定该目标检测模型的训练样本，作为本申请的另一种实现方式，根据第一序列中前n个场景数据，确定目标检测模型的训练数据，具体包括：

对第一序列中的前n个场景数据分别进行标注，得到多个训练数据。

通过多个训练数据，训练目标检测模型。

在上述具体实现方式中，标注可以是对第一序列中的前n个场景数据分别进行人工标注，得到多个训练数据，训练目标检测模型。

如此，通过将未被标注的场景数据进行标注，可以将筛选出来的场景数据作为输入数据，对目标检测模型进行训练，可以更加准确、高效的确定该目标检测模型的训练样本。

为了更加准确、高效的确定该目标检测模型的训练样本，作为本申请的另一种实现方式，根据第一序列中前n个场景数据，确定目标检测模型的训练数据之后，方法还包括：

获取训练数据的采集时间标识。

按照采集时间标识的先后顺序，对训练数据进行排序，得到第二序列。

将第二序列中每前后相邻的两个训练数据，确定为训练样本组。

将训练样本组包含的两个训练数据中排序靠前的训练数据，确定为第一训练数据，将排序靠后的训练数据，确定为第二训练数据。

针对第二序列中的每个训练样本组，当确定该训练样本组包含的两个训练数据的结构相似性大于预设的相似阈值时，删除该训练样本组包含的第二训练数据，直至第二序列中任一个训练样本组包含的两个训练数据的结构相似性均小于或等于该相似阈值为止。

在上述实现方式中，采集时间标识可以是用于表征采集该训练数据的时刻的标识，获取训练数据的采集时间标识；按照采集时间标识的先后顺序，对训练数据进行排序，得到第二序列，将前后相邻的两个训练数据，确定为训练样本组。

在一些实施例中，针对每个训练样本组，其预设的相似阈值可以表示两个训练数据的结构相似性，其可以根据实际情况进行设置，也可以利用公式计算得到，作为一个示例，其相似阈值如公式(6)、(7)、(8)和(9)所示：

其中，对于第一训练数据x以及第二训练数据y，μ_x为x的均值，μ_y为y的均值，σ_x ²为x的方差，σ_y ²为y的方差，σ_xy为x和y的协方差，C₁＝(k₁L)²,C₂＝(k₂L)²,C₃＝C₂/2为三个常数，用来避免除零，L为图像像素值的动态范围，k₁与k₂为远小于1的常数，l(x,y)为亮度对比函数，c(x,y)为对比度对比函数，s(x,y)为结构对比函数，S(x,y)为对比函数。

需要说明的是，两个训练数据的结构相似性可采用自相似矩阵(Self-SimilarityMatrix，SSM)算法、感知哈希算法(Perceptual hash algorithm)等算法或模型计算得到，具体采用何种算法或模型，本申请在此不做限定，可根据需要设置。该相似阈值可以是响应于用户的操作设置的，也可以基于训练数据的结构相似性的平均值、中位数等确定出的，该相似阈值具体如何确定，本申请在此不做限制，可根据需要设置。

如此，通过计算每个训练样本的数据的相似度，将相似度较高的数据进行过滤，可以去除重复度较高的场景，从而更加准确、高效的确定该目标检测模型的训练样本。

如图2所示，图2是本申请一个实施例提供的另一种数据处理方法的流程示意图。具体包括如下步骤：

S201，采集场景数据。

S202，计算第一目标检测结果。

S203，计算第二目标检测结果。

S204，计算第三目标检测结果。

S205，计算价值评分。

S206，筛选数据。

S207选择训练样本数据。

另外，本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

基于上述实施例提供的数据处理方法，相应地，本申请还提供了数据处理装置的具体实现方式。请参见以下实施例。

首先参见图3，本申请实施例提供的数据处理装置包括以下单元：

获取单元301，用于获取车辆在行驶过程中采集的多个场景数据，场景数据是由车辆配置的相机传感器以及雷达传感器采集到的；

检测单元302，用于针对每个场景数据，通过点云检测模型对该场景数据进行目标检测，得到第一目标检测结果；通过图像检测模型对该场景数据进行目标检测，得到第二目标检测结果；

评分单元303，用于根据第一目标检测结果以及第二目标检测结果，确定该场景数据的价值评分；

排序单元304，用于按照价值评分从大到小的顺序，对多个场景数据排序，得到第一序列；

确定单元305，用于根据第一序列中前n个场景数据，确定目标检测模型的训练数据。

以上为本申请实施例提供的数据处理方法的具体实现方式，可见，在上述实施例中，该确定单元305能够基于价值评分较高的若干场景数据，确定该目标检测模型的训练数据。而该价值评分是该评分单元303基于第一目标检测结果以及第二目标检测结果确定出的。该第一目标检测结果是该检测单元302通过点云检测模型对场景数据进行目标检测得到的，该第二目标检测结果是该检测单元302通过图像检测模型对场景数据进行目标检测得到的。可见，通过由多种传感器采集到的场景数据，更准确、高效的确定价值评分较高的场景数据，从而更准确、高效的确定训练样本。

作为本申请的另一种实现方式，为了更准确、高效的确定该目标检测模型的训练样本，上述装置还可以具体包括：评分子单元3031。

评分子单元3031，用于通过目标检测模型对该场景数据进行目标检测，得到第三目标检测结果，目标检测模型的输入数据为雷达点云或相机图像，根据第三目标检测结果，确定该场景数据的检测准确性评分，根据第一目标检测结果、第二目标检测结果以及第三目标检测结果，确定检测难易度评分，根据检测准确性评分以及检测难易度评分，通过如下公式，确定该场景数据的价值评分：

S＝c₁S_confidence+c₂S_rarity

作为本申请的另一种实现方式，为了更准确、高效的确定该目标检测模型的训练样本，上述装置还可以具体包括：评分子单元3032。

评分子单元3032，用于将第三目标检测结果包含的目标框的数量，确定为目标框数量，根据目标框数量以及目标框对应的置信度，通过如下公式，确定该场景数据的检测准确性评分：

作为本申请的另一种实现方式，为了更准确、高效的确定该目标检测模型的训练样本，上述装置还可以具体包括：评分子单元3033。

评分子单元3033，用于当目标检测模型的输入数据为相机图像时，将第二目标检测结果，确定为对比目标检测结果，当目标检测模型的输入数据为雷达点云时，将第一目标检测结果，确定为对比目标检测结果，根据第一目标检测结果以及第二目标检测结果，确定第一检测难易度评分，根据第三目标检测结果以及对比目标检测结果，确定第二检测难易度评分，根据第一检测难易度评分以及第二检测难易度评分，通过如下公式，确定场景数据的检测难易度评分：

S_rarity＝αLS_rarity+βSS_rarity

作为本申请的另一种实现方式，为了更准确、高效的确定该目标检测模型的训练样本，上述装置还可以具体包括：评分子单元3034。

评分子单元3034，用于将第一目标检测结果中包含的目标框的数量，确定为目标框数量，从第一目标检测结果包含的目标框中，将与第二目标检测结果包含的任一目标框匹配的目标框，确定为匹配目标框，确定匹配目标框的数量、匹配目标框在第一目标检测结果中对应的置信度以及第二目标检测结果中与匹配目标框匹配的目标框的匹配置信度，将匹配目标框的置信度与匹配置信度的和，确定为匹配值，根据匹配目标框的数量、目标框数量以及匹配值，通过如下公式，确定该场景数据的第一检测难易度评分：

作为本申请的另一种实现方式，为了更准确、高效的确定该目标检测模型的训练样本，上述装置还可以具体包括：评分子单元3035。

评分子单元3035，用于将对比目标检测结果中包含的目标框的数量，确定为目标框数目，从对比目标检测结果包含的目标框中，将与第三目标检测结果包含的任一目标框匹配的目标框，确定为类似目标框，确定类似目标框的数量、类似目标框在对比目标检测结果中对应的置信度以及第三目标检测结果中与类似目标框匹配的目标框的类似置信度，将类似目标框的置信度与类似置信度的和，确定为类似值，根据类似目标框的数量、目标框数目以及类似值，通过如下公式，确定该场景数据的第一检测难易度评分：

/>

作为本申请的另一种实现方式，为了更准确、高效的确定该目标检测模型的训练样本，上述装置还可以具体包括：确定子单元3051。

确定子单元3051，用于对第一序列中的前n个场景数据分别进行标注，得到多个训练数据，通过多个训练数据，训练目标检测模型。

作为本申请的另一种实现方式，为了更准确、高效的确定该目标检测模型的训练样本，上述装置还可以具体包括：确定子单元3052。

确定子单元3052，用于获取训练数据的采集时间标识，按照采集时间标识的先后顺序，对训练数据进行排序，得到第二序列，将第二序列中每前后相邻的两个训练数据，确定为训练样本组，将训练样本组包含的两个训练数据中排序靠前的训练数据，确定为第一训练数据，将排序靠后的训练数据，确定为第二训练数据，针对第二序列中的每个训练样本组，当确定该训练样本组包含的两个训练数据的结构相似性大于预设的相似阈值时，删除该训练样本组包含的第二训练数据，直至第二序列中任一个训练样本组包含的两个训练数据的结构相似性均小于或等于该相似阈值为止。

图4示出了本申请实施例提供的数据处理的硬件结构示意图。

在数据处理设备可以包括处理器401以及存储有计算机程序指令的存储器402。

具体地，上述处理器401可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在综合网关容灾设备的内部或外部。在特定实施例中，存储器402是非易失性固态存储器。

在特定实施例中，存储器402可包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本公开的一方面的方法所描述的操作。

处理器401通过读取并执行存储器402中存储的计算机程序指令，以实现上述实施例中的任意一种数据处理方法。

在一个示例中，数据处理设备还可包括通信接口403和总线410。其中，如图4所示，处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。

通信接口403，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线410包括硬件、软件或两者，将数据处理设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线410可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该数据处理设备可以基于当前已拦截的垃圾短信以及用户举报的短信执行本申请实施例中的数据处理方法，从而实现结合图1和图3描述的数据处理方法和装置。

另外，结合上述实施例中的数据处理方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一目标检测结果以及所述第二目标检测结果，确定该场景数据的价值评分，具体包括：

S＝c₁S_confidence+c₂S_rarity

3.根据权利要求2所述的方法，其特征在于，所述第三目标检测结果包括目标框以及所述目标框对应的置信度，所述根据所述第三目标检测结果，确定该场景数据的检测准确性评分，具体包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一目标检测结果、所述第二目标检测结果以及所述第三目标检测结果，确定检测难易度评分，具体包括：

S_rarity＝αLS_rarity+βSS_rarity

5.根据权利要求4所述的方法，其特征在于，所述第一目标检测结果，包括目标框以及所述目标框对应的置信度，所述第二目标检测结果，包括目标框以及所述目标框对应的置信度，所述根据所述第一目标检测结果以及所述第二目标检测结果，确定第一检测难易度评分，具体包括：

6.根据权利要求4所述的方法，其特征在于，所述第三目标检测结果，包括目标框以及所述目标框对应的置信度，所述对比目标检测结果，包括目标框以及所述目标框对应的置信度，所述根据所述第三目标检测结果以及所述对比目标检测结果，确定第二检测难易度评分，具体包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一序列中前n个场景数据，确定目标检测模型的训练数据，具体包括：

通过所述多个训练数据，训练目标检测模型。

8.根据权利要求1所述的方法，其特征在于，所述根据所述第一序列中前n个场景数据，确定目标检测模型的训练数据之后，所述方法还包括：

获取所述训练数据的采集时间标识；

9.一种数据处理装置，其特征在于，所述装置包括：

10.一种数据处理设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-8任意一项所述的数据处理方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的数据处理方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如权利要求1-8任意一项所述的数据处理方法。