CN115294368A

CN115294368A - 数据筛选方法、装置、电子设备及计算机存储介质

Info

Publication number: CN115294368A
Application number: CN202210967720.XA
Authority: CN
Inventors: 祝露
Original assignee: Zero Beam Technology Co ltd
Current assignee: Zero Beam Technology Co ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-04

Abstract

本发明实施例提供了一种数据筛选方法、装置、电子设备及计算机存储介质。通过特征提取模型提取一组车辆采集图像的高维特征。并对一组车辆采集图像的高维特征进行降维，得到所述一组车辆采集图像的低维特征。基于所述一组车辆采集图像的低维特征，计算所述一组车辆采集图像之间的相似度。从所述一组车辆采集图像中，筛选相似度小于预设相似度阈值的车辆采集图像。本发明的方案提高了数据筛选的精确度，进而提高了数据筛选的效率，便于后续模型的开发和训练。

Description

数据筛选方法、装置、电子设备及计算机存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种数据筛选方法、装置、电子设备及计算机存储介质。

背景技术

为了满足自动驾驶需求，现在的车辆很多都安装了摄像头等图像获取设备。随着这些车辆驾驶里程数的递增，车辆采集的真实世界的图像数据越来越多，此时若不加以筛选直接上传至云端，既增大了车端到云端的通讯费用，也增加了云端存储费用，并且有很多数据包含的信息是相似的，对后续算法模型的开发训练无较大意义。为此，进行图像数据的筛选就十分有必要。

目前主流的图像数据筛选方法主要分为在车端、云端两侧进行数据筛选：在车端对视频数据进行抽帧处理，从而降低图像数据上传的数量。但是该方法并未利用图像本身包含的信息，随机抽样的方式会使得筛选结果不准确，筛选效果较差，影响后续的算法模型的开发和训练。在云端对图像进行清洗后进行数据筛选分为人工筛选和基于灰度图特征去重两种方式：人工筛选通过人工比较图像的相似度，然后对重叠度比较高的图像予以删除。这种方法主观性较强，且工作量大，筛选效率低，人力成本高。基于灰度图特征去重基于图像的灰度图特征计算图像的相似度，然后根据相似度找到相似图像并完成去重操作。该方法仅利用了图像的灰度信息，即图像的低层特征，所以找到的相似图像也只是在低层特征上相似，无法真实反映图像包含的内容，因此基于该方法得到的筛选结果不准确。

因此，如何提高数据筛选的准确度成为亟待解决的技术问题。

发明内容

有鉴于此，本发明实施例提供一种数据筛选方法、装置、电子设备及计算机存储介质，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种数据筛选方法，包括通过特征提取模型提取一组车辆采集图像的高维特征，特征提取模型基于自监督学习方法训练得到。对一组车辆采集图像的高维特征进行降维，得到一组车辆采集图像的低维特征。基于一组车辆采集图像的低维特征，计算一组车辆采集图像之间的相似度。从一组车辆采集图像中，筛选相似度小于预设相似度阈值的车辆采集图像。

在一种实现方式中，对一组车辆采集图像的高维特征进行降维，得到一组车辆采集图像的低维特征，包括将一组车辆采集图像的高维特征进行投影，得到一组车辆采集图像的低维特征。

在另一种实现方式中，将一组车辆采集图像的高维特征进行投影，得到一组车辆采集图像的低维特征，包括将一组车辆采集图像的高维特征在第一坐标系中的图像特征向量投影到第二坐标系的投影坐标轴上，得到一组车辆采集图像在第三坐标系中的低维特征对应的图像特征向量。第二坐标系的维度与第三坐标系的维度之和等于第一坐标系的维度。

在另一种实现方式中，基于一组车辆采集图像的低维特征，计算一组车辆采集图像之间的相似度，包括构建低维特征对应的图像特征向量的向量距离矩阵和向量密度图。向量距离矩阵用于查找一组车辆采集图片中的图像特征向量之间的距离，向量密度图用于指示一组车辆采集图片中的各图像特征向量的分布密度。根据向量距离矩阵和向量密度图计算一组车辆采集图片之间的相似度。

在另一种实现方式中，构建低维特征对应的图像特征向量的向量距离矩阵和向量密度图，包括计算一组车辆采集图像中的任意两个图像特征向量之间的距离，构建低维特征对应的图像特征向量的向量距离矩阵。根据一组车辆采集图像中的多个相邻的图像特征向量之间的距离以及相邻的图像特征向量的数量，计算所述一组车辆采集图像的各图像特征向量密度。基于所述各图像特征向量密度的分布构建所述向量密度图。

在另一种实现方式中，根据向量距离矩阵和向量密度图计算一组车辆采集图片之间的相似度，包括根据所述向量密度图，确定一组车辆采集图像中密度最大的图像特征向量。将一组车辆采集图像中密度最大的图像特征向量移动至一组车辆采集图像的筛选图像集合中。根据向量距离矩阵查找筛选图像集合中密度最小的图像特征向量与一组车辆采集图像中各个图像特征向量之间的距离。若距离小于预设距离，则判定一组车辆采集图像中该图像特征向量与筛选图像集合中密度最小的图像特征向量相似。

在另一种实现方式中，根据向量距离矩阵和向量密度图计算一组车辆采集图像之间的相似度，还包括将判定为相似的图像特征向量从一组车辆采集图像中删除，以确定待处理的车辆采集图像组。

在另一种实现方式中，根据向量距离矩阵和向量密度图计算一组车辆采集图像之间的相似度，还包括判断待处理的车辆采集图像组是否为空。若待处理的车辆采集图像组不为空，将待处理的车辆采集图像组中密度最大的图像特征向量移动至筛选图像集合中。根据向量距离矩阵查找筛选图像集合中密度最小的图像特征向量与待处理的车辆采集图像中各个图像特征向量之间的距离。若距离小于预设距离，则判定待处理的车辆采集图像中该图像特征向量与筛选图像集合中密度最小的图像特征向量相似。将判定为相似的图像特征向量从待处理的车辆采集图像组中删除，再次判断直至待处理的车辆采集图像组为空。

在另一种实现方式中，从一组车辆采集图像中，筛选相似度小于预设相似度阈值的车辆采集图像，包括将每次得到的待处理的车辆采集图像组中密度最大的图像特征向量移动至一组车辆采集图像的先前筛选图像集合中，得到当前筛选图像集合。当前筛选图像集合中的各个图像特征向量之间的距离均大于预设距离。

根据本发明实施例的第二方面，提供了一种数据筛选装置，包括数据采集模块，用于通过特征提取模型提取一组车辆采集图像的高维特征，特征提取模型基于自监督学习方法训练得到。数据降维模块，用于对一组车辆采集图像的高维特征进行降维，得到一组车辆采集图像的低维特征。数据计算模块，用于基于一组车辆采集图像的低维特征，计算一组车辆采集图像之间的相似度。数据筛选模块，用于从一组车辆采集图像中，筛选相似度小于预设相似度阈值的车辆采集图像。

根据本发明实施例的第三方面，提供了一种电子设备，包括处理器、存储程序的存储器。其中，程序包括指令，指令在由处理器执行时使处理器执行如第一方面的方法。

根据本发明实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面的方法。

在本发明实施例的方案中，通过对车辆采集图像的高维特征进行降维，并基于降维后得到的低维特征计算车辆采集图像之间的相似度，以筛选相似度小于预设相似度阈值的车辆采集图像，提高了数据筛选的精确度，进而提高了数据筛选的效率，便于后续模型的开发和训练。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的一种场景示例的示意图。

图2为本发明实施例的数据筛选方法的步骤流程图。

图3为与图2实施例对应的数据筛选装置的结构框图。

图4为根据本发明的另一实施例的一种电子设备的结构示意图。

附图标记说明：

10、云端；11、车端；310、数据采集模块；320、数据降维模块；330、数据计算模块；340、数据筛选模块；400、电子设备；402、处理器；404、通信接口；406、存储器；408、总线；410、程序。

具体实施方式

为了对本申请实施例的技术特征、目的和效果有更加清楚的理解，现对照附图说明本申请实施例的具体实施方式。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。

为使图面简洁，各图中只示意性地表示出了与本申请相关的部分，它们并不代表其作为产品的实际结构。另外，为使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个或多个，或仅标示出了其中的一个或多个。

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

根据本发明实施例的第一方面，提供了一种数据筛选方法。参见图1，图1为本发明实施例中的一种场景示例的示意图。

首先，车端11从云端10获取已经训练好的基于自监督学习方法得到的特征提取模型。其次，将车端11的车辆采集图像输入到特征提取模型，获得车辆采集图像的高维特征。对车辆采集图像的高维特征进行降维，并基于降维后的低维特征进行数据筛选。数据筛选完成后，获得当前筛选图像集合，针对当前筛选图像集合有两种操作方式，一种是将当前筛选图像集合对应的图像高维特征上传到云端10进行再次筛选；另一种情况是将当前筛选图像集合中部分原始车辆采集图像上传到云端。

具体地，在云端10进行再次筛选，包括：通过3G/4G/5G网络，车端11将当前筛选图像集合中各图像对应的图像高维特征、图像识别码、车辆唯一识别码上传至云端10。对上传的图像高维特征进行降维，得到各图像的低维特征。基于各图像的低维特征，计算当前筛选图像集合中图像之间的相似度，筛选相似度小于预设相似度阈值的车辆采集图像。

具体地，根据云端筛选结果将车端当前筛选图像集合的部分原始车辆采集图像上传至云端，包括云端10根据车辆唯一识别码向车端11发送图像上传请求，并将相应的图像识别码下发至车端11。车端11在接收到云端10发送的图像上传请求后，根据图像识别码从当前筛选图像集合中找出对应的原始车辆采集图像，并将其打包发送至云端10，以供云端10更新数据集，从而不断调整特征提取模型。

应理解，当前筛选图像集合中的车辆采集图像的图像信息包括车辆唯一识别码、图像识别码、高维特征，与原始车辆采集图像的图像信息具有对应关系。车辆唯一识别码用于识别车辆身份。图像识别码用于查找与之对应的车辆的原始采集图像。高维特征为车辆的原始采集图片中具有的例如颜色、纹理、形状等丰富的信息。

应理解，高维特征具有高维特征向量，低维特征具有低维特征向量。高维特征与低维特征是相对的高低维关系，例如：600维的特征向量相对于64维的特征向量，其是600维高维特征向量。

应理解，在数据筛选完成后，当前筛选图像集合上传到云端10再次进行筛选。此时上传的是当前筛选图像集合中与原始车辆采集图像对应的高维图像特征，并非是当前筛选图像集合对应的原始车辆采集图像。

图2为本发明实施例的数据筛选方法的步骤流程图。如图所示，本实施例主要包括以下步骤：

步骤S210，通过特征提取模型提取一组车辆采集图像的高维特征，特征提取模型基于自监督学习方法训练得到。

示例性地，特征提取模型可以通过如下步骤训练得到：

(1)首先基于自监督学习方法设计主体网络(backbone)、投射头网络(projector)等，搭建模型。

(2)其次，在云端10利用数据集Dataset进行模型训练。

(3)训练完成后，将backbone模型下发至车端11，用于对车端图像的特征提取。数据筛选完成后，将车端11的原始采集图像上传至云端10。

(4)云端10接收到图像后，更新数据集Dataset。重复步骤(2)、(3)、(4)，根据数据集的更新而不断调整特征提取模型backbone。

应理解，自监督学习方法属于无监督学习，模型直接从无标签数据中，如从一组车辆采集图像中，自行学习一个特征提取器，无需标注数据。自监督学习不同于传统的无监督学习，自监督学习利用无标签数据本身构造一个辅助的任务，利用这个辅助任务从大规模的无标签数据本身中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。

应理解，本发明的特征提取模型不限定具体的自监督学习方法，适用于无标签图像数据的特征学习的自监督学习方法均可使用，如SimCLR、MoCo、BYOL、SimSiam等自监督学习方法。

还应理解，主体网络backbone不限定具体的深度学习网络模型，可根据数据分布或应用场景而自行选择。主体网络backbone还可以包括：ResNet，AlexNet，VGG等。

进一步地，通过特征提取模型提取一组车辆采集图像的高维特征，首先由云端10通过OTA(Over the air，空中下载技术)将基于自监督学习方法训练得到的特征提取模型backbone下发至车端11，其次车端11在接收到backbone后，将车端11的视频数据每一帧图像输入至backbone模型，此时每张图像都可得到对应的车辆采集图像的高维表征。车辆采集图像的来源可以是车端11的行车记录仪所记录的视频数据经过处理后得到的每一帧图像，也可以是车端11通过有线或无线的方式接收到的车辆采集图像。

特征提取模型主要用于图像高级语义特征的提取，即用于提取本发明中所指的车辆采集图像的高维特征。高维特征包含的信息丰富，能够真实反映车辆采集图像包含的内容，有利于提高数据筛选结果的精确度，便于后续模型的开发和训练。

步骤S220，对一组车辆采集图像的高维特征进行降维，得到一组车辆采集图像的低维特征。

应理解，在本发明中涉及“一组车辆采集图像”的描述仅为示例性描述车辆采集图像并非是一幅图像，可以是一组图像或者几组图像，而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。

还应理解，在一组车辆采集图像的原始高维空间中，包含有冗余信息、记忆噪声信息等，对高维特征进行可视化分析的难度大。

因此通过对一组车辆采集图像的高维特征进行降维，降低了数据处理的难度，以更精确地进行后续数据筛选。

步骤S230，基于一组车辆采集图像的低维特征，计算一组车辆采集图像之间的相似度。

通过一组车辆采集图像的低维特征计算一组车辆采集图像之间的相似度，以便后续通过对车辆采集图像之间的相似度进行对比，筛选出所需的车辆采集图像，降低车辆采集图像相似度对比的难度。

步骤S240，从一组车辆采集图像中，筛选相似度小于预设相似度阈值的车辆采集图像。

筛选相似度小于预设相似度阈值的车辆采集图像，是为了将判定为相似的车辆采集图像尽可能多的过滤、删除，筛选出判定为不相似的的车辆采集图像，以保证筛选筛选出的车辆采集图像的多样性，避免将大量的冗余的车辆采集图像不加筛选地上传至云端10，有效降低了通信成本。

综上，本发明的实施例通过对车辆采集图像的高维特征进行降维，并基于降维后得到的低维特征计算车辆采集图像之间的相似度，以筛选相似度小于预设相似度阈值的车辆采集图像，提高了数据筛选的精确度，进而提高了数据筛选的效率，便于后续模型的开发和训练。

通过投影将高维数据映射到低维空间，从而实现降维的目的，有利于减少降维过程中车辆采集图像的数据丢失，最大化地保留车辆采集图像的有效数据信息。

应理解，上述降维方式属于线性降维的一种，通过投影将高维数据映射到低维空间中表示，并期望在所投影的维度上数据方差最大，方差越大，信息量越多，以此使用较少的数据维度，同时保留较多的原有的样本特征。所以，降维后的一组车辆采集图像的低维特征能够最大化地保留车辆采集图像的有效数据信息，有利于提高后续筛选数据的精确度。

此外，还可以通过主成分分析算法(PCA)对一组车辆采集图像的高维特征进行降维。主成分分析的降维是指经过正交变换后，形成新的特征集合，然后从中选择比较重要的一部分子特征集合，去掉其中无关的部分，从而实现降维。这种方式并非是在原始特征中选择，所以主成分分析这种线性降维方式最大程度上保留了原有的样本特征。

此外，还可以采用ICA、LDA等算法对一组车辆采集图像的高维特征进行降维。

相较于人工筛选方式和基于灰度特征筛选，通过与低维特征的对应的图像特征向量的向量距离矩阵和向量密度图计算一组车辆采集图片之间的相似度，提高了数据筛选效率和精确度。

在另一种实现方式中，构建低维特征对应的图像特征向量的向量距离矩阵和向量密度图，包括计算一组车辆采集图像中的任意两个图像特征向量之间的距离，构建低维特征对应的图像特征向量的向量距离矩阵。根据一组车辆采集图像中的多个相邻的图像特征向量之间的距离以及相邻的图像特征向量的数量，计算一组车辆采集图像的各图像特征向量密度。基于各图像特征向量密度的分布构建所述向量密度图。

示例性地，可通过如下方式计算一组车辆采集图像中的各图像特征向量密度：

一组车辆采集图像的数据集中共有n个图像特征向量，分别计算每个图像特征向量的密度。对于图像特征向量i，首先找到离图像特征向量i最近的m个图像特征向量，将这m个图像特征向量的集合记为φ_i；然后计算图像特征向量i与相邻图像特征向量的距离d_ij,j∈φ_i；最后按如下公式可计算图像特征向量i的密度：

其中，ε＝1/n，n表示一组车辆采集图像的数据集中图像特征向量的个数。

进一步地，基于各图像特征向量的分布密度构建向量密度图。

应理解，向量密度图中各图像特征向量的分布越稀疏，代表各图像特征向量之间的相似度越低。

在另一种实现方式中，根据向量距离矩阵和向量密度图计算一组车辆采集图片之间的相似度，包括根据向量密度图，确定一组车辆采集图像中密度最大的图像特征向量。将一组车辆采集图像中密度最大的图像特征向量移动至一组车辆采集图像的筛选图像集合中。根据向量距离矩阵查找筛选图像集合中密度最小的图像特征向量与一组车辆采集图像中各个图像特征向量之间的距离。若距离小于预设距离，则判定一组车辆采集图像中该图像特征向量与筛选图像集合中密度最小的图像特征向量相似。

应理解，此时的筛选图像集合中只有一个图像特征向量，所以该筛选图像集合中密度最小的图像特征向量即为从一组车辆采集图像中确定的密度最大的图像特征向量。

应理解，在一组车辆采集图像中，两个图像特征向量之间的距离越大，则认为两个图像特征向量差异越大，则两个图像特征向量对应的原始车辆采集图像的差异越大，即两个图像特征向量对应的原始车辆采集图像不相似。

还应理解，预设距离是人为设定的最小距离阈值，该距离阈值可以根据实际应用中的不同场景确定，在此不做限制。

应理解，将一组车辆采集图像中相似的图像特征向量删除，得到待处理的车辆采集图像组。被判定为相似的图像特征向量被删除一次，待处理的车辆采集图像组也对应更新一次，直至待处理的车辆采集图像组中的车辆采集图像为空。通过此种筛选方式，能够最大化地对一组车辆采集图像进行全面筛选，以避免筛选过程中产生遗漏，有效地提高了数据筛选的精确度。

应理解，由于待处理的车辆采集图像组中的图像特征向量随着更新而不断减少，筛选图像集合中的图像特征向量随之增加，而待处理的车辆采集图像组更新后，所确定密度最大的图像特征向量相比更新前确定的密度最大的图像特征向量较小，则从每次更新后的筛选图像集合中确定的密度最小的图像特征向量即为每次更新后的待处理的车辆采集图像组中密度最大的图像特征向量。

示例性地，设置一个预设距离即最小距离阈值mindis，按照如下方式进行数据筛选：

(1)被选点集合记作select，此时为空集，全体点集合记作rest，此时包含n个点；

(2)根据点密度图找到rest集合中密度最大的点，将该点记作target；

(3)将target加入select，从rest中删除target；

(4)根据点距离矩阵查找target与rest集合中剩余点的距离，若某点与target的距离<mindis，则从rest中删除该点，直至rest集合中的点与target的距离均≥mindis；

(5)重复(2)-(4)，直至rest集合为空；

(6)筛选结束，此时被选点集合为select。

其中，被选点集合select即筛选图像集合；全体点集合rest即一组车辆采集图像；n个点即n个图像特征向量；rest集合中密度最大的点target即一组车辆采集图像中密度最大的图像特征向量。从rest中删除距离<min_dis的点后，rest更新一次，此时的rest代指待处理的车辆采集图像组，此后，距离<min_dis的点被删除一次，rest更新一次。

在本实施例中，通过删除一组车辆采集图像中距离小于预设距离的图像特征向量，筛选出一组车辆采集图像中距离大于预设距离的图像特征向量，降低了图像特征向量筛选的难度。

在另一种实现方式中，从一组车辆采集图像中，筛选相似度小于预设相似度阈值的车辆采集图像，包括将待处理的车辆采集图像组中密度最大的图像特征向量移动至一组车辆采集图像的先前筛选图像集合中，得到当前筛选图像集合。当前筛选图像集合中的各个图像特征向量之间的距离均大于预设距离。

应理解，将一组车辆采集图像中密度最大的图像特征向量移动至一组车辆采集图像的筛选图像集合中，该筛选图像集合即所述先前筛选图像集合。将待处理的车辆采集图像组中密度最大的图像特征向量移动至一组车辆采集图像的先前筛选图像集合中，得到当前筛选图像集合。其中，待处理的车辆采集图像组更新一次，则会从更新后的待处理的车辆采集图像组中产生一个新的密度最大的图像特征向量，将该密度最大的图像特征向量移动到先前筛选图像集合中，直至待处理的车辆采集图像组为空，即待处理的车辆采集图像组不存在车辆采集图片时，此时，每一次更新产生的密度最大的图像特征向量都已被移动到先前筛选图像集合中，得到了当前筛选图像集合。通过该筛选方式，提高了数据筛选的精确度。

根据本发明实施例的第二方面，提供了一种数据筛选装置，参见图3，图3为与图2实施例对应的数据筛选装置的结构框图。本实施例的数据筛选装置，包括：

数据采集模块310，用于通过特征提取模型提取一组车辆采集图像的高维特征，特征提取模型基于自监督学习方法训练得到。

数据降维模块320，用于对一组车辆采集图像的高维特征进行降维，得到一组车辆采集图像的低维特征。

数据计算模块330，用于基于一组车辆采集图像的低维特征，计算一组车辆采集图像之间的相似度。

数据筛选模块340，用于从一组车辆采集图像中，筛选相似度小于预设相似度阈值的车辆采集图像。

在本发明实施例的方案中，通过对车辆采集图像的高维特征进行降维，并基于降维后得到的低维特征计算车辆采集图像之间的相似度，以筛选相似度小于预设相似度阈值的车辆采集图像，提高了数据筛选的精确度，进而提高了数据筛选的效率。

本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

根据本发明实施例的第三方面，提供了一种电子设备，参见图4，现将描述可以作为本申请的服务器或客户端的电子设备400的结构框图，其是可以应用于本申请的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

该电子设备400可以包括：处理器(processor)402、通信接口(CommunicationsInterface)404、存储器(memory)406、以及通信总线408。

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404，用于与其它电子设备或服务器进行通信。

处理器402，用于执行程序410，具体可以执行上述方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是处理器CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行以下操作：通过特征提取模型提取一组车辆采集图像的高维特征，所述特征提取模型基于自监督学习方法训练得到；对所述一组车辆采集图像的高维特征进行降维，得到所述一组车辆采集图像的低维特征；基于所述一组车辆采集图像的低维特征，计算所述一组车辆采集图像之间的相似度；从所述一组车辆采集图像中，筛选相似度小于预设相似度阈值的车辆采集图像。

此外，程序410中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

应当理解，虽然本说明书是按照各个实施例描述的，但并非每个实施例仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种数据筛选方法，其特征在于，包括：

通过特征提取模型提取一组车辆采集图像的高维特征，所述特征提取模型基于自监督学习方法训练得到；

对所述一组车辆采集图像的高维特征进行降维，得到所述一组车辆采集图像的低维特征；

基于所述一组车辆采集图像的低维特征，计算所述一组车辆采集图像之间的相似度；

从所述一组车辆采集图像中，筛选相似度小于预设相似度阈值的车辆采集图像。

2.根据权利要求1所述的方法，其特征在于，所述对所述一组车辆采集图像的高维特征进行降维，得到所述一组车辆采集图像的低维特征，包括：

将所述一组车辆采集图像的高维特征进行投影，得到所述一组车辆采集图像的低维特征。

3.根据权利要求2所述的方法，其特征在于，所述将所述一组车辆采集图像的高维特征进行投影，得到所述一组车辆采集图像的低维特征，包括：

将所述一组车辆采集图像的高维特征在第一坐标系中的图像特征向量投影到所述第二坐标系的投影坐标轴上，得到所述一组车辆采集图像在第三坐标系中的低维特征对应的图像特征向量，所述第二坐标系的维度与第三坐标系的维度之和等于所述第一坐标系的维度。

4.根据权利要求1所述的方法，其特征在于，所述基于所述一组车辆采集图像的低维特征，计算所述一组车辆采集图像之间的相似度，包括：

构建所述低维特征对应的图像特征向量的向量距离矩阵和向量密度图，所述向量距离矩阵用于查找所述一组车辆采集图像中的图像特征向量之间的距离，所述向量密度图用于指示所述一组车辆采集图像中的各图像特征向量的分布密度；

根据所述向量距离矩阵和所述向量密度图计算所述一组车辆采集图像之间的相似度。

5.根据权利要求4所述的方法，其特征在于，所述构建所述低维特征对应的图像特征向量的向量距离矩阵和向量密度图，包括：

计算所述一组车辆采集图像中的任意两个所述图像特征向量之间的距离，构建所述低维特征对应的所述图像特征向量的向量距离矩阵；

根据所述一组车辆采集图像中的多个相邻的图像特征向量之间的距离以及相邻的图像特征向量的数量，计算所述一组车辆采集图像的各图像特征向量密度；

基于所述各图像特征向量密度的分布构建所述向量密度图。

6.根据权利要求5所述的方法，其特征在于，所述根据所述向量距离矩阵和所述向量密度图计算所述一组车辆采集图像之间的相似度，包括：

根据所述向量密度图，确定所述一组车辆采集图像中密度最大的图像特征向量；

将所述一组车辆采集图像中密度最大的图像特征向量移动至所述一组车辆采集图像的筛选图像集合中；

根据所述向量距离矩阵查找所述筛选图像集合中所述密度最小的图像特征向量与所述一组车辆采集图像中各个图像特征向量之间的距离；

若所述距离小于预设距离，则判定所述一组车辆采集图像中该图像特征向量与所述筛选图像集合中密度最小的图像特征向量相似。

7.根据权利要求6所述的方法，其特征在于，所述根据所述向量距离矩阵和向量密度图计算所述一组车辆采集图像之间的相似度，还包括：

将判定为相似的所述图像特征向量从所述一组车辆采集图像中删除，以确定待处理的车辆采集图像组。

8.根据权利要求7所述的方法，其特征在于，所述根据所述向量距离矩阵和向量密度图计算所述一组车辆采集图像之间的相似度，还包括：

判断所述待处理的车辆采集图像组是否为空；

若所述待处理的车辆采集图像组不为空，将所述待处理的车辆采集图像组中密度最大的图像特征向量移动至所述筛选图像集合中；

根据所述向量距离矩阵查找所述筛选图像集合中密度最小的图像特征向量与所述待处理的车辆采集图像组中各个图像特征向量之间的距离；

若所述距离小于预设距离，则判定所述待处理车辆采集图像中该图像特征向量与所述筛选图像集合中密度最小的图像特征向量相似；

将判定为相似的所述图像特征向量从所述待处理的车辆采集图像组中删除，再次判断直至所述待处理的车辆采集图像组为空。

9.根据权利要求8所述的方法，其特征在于，所述从所述一组车辆采集图像中，筛选相似度小于预设相似度阈值的车辆采集图像，包括：

将每次得到的所述待处理的车辆采集图像组中密度最大的图像特征向量移动至所述一组车辆采集图像的先前筛选图像集合中，得到当前筛选图像集合；

所述当前筛选图像集合中的各个图像特征向量之间的距离均大于所述预设距离。

10.一种数据筛选装置，包括：

数据采集模块，用于通过特征提取模型提取一组车辆采集图像的高维特征，所述特征提取模型基于自监督学习方法训练得到；

数据降维模块，用于对所述一组车辆采集图像的高维特征进行降维，得到所述一组车辆采集图像的低维特征；

数据计算模块，用于基于所述一组车辆采集图像的低维特征，计算所述一组车辆采集图像之间的相似度；

数据筛选模块，用于从所述一组车辆采集图像中，筛选相似度小于预设相似度阈值的车辆采集图像。

11.一种电子设备，包括：

处理器；

存储程序的存储器；

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的方法。

12.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。