CN109993234B

CN109993234B - 一种无人驾驶训练数据分类方法、装置及电子设备

Info

Publication number: CN109993234B
Application number: CN201910284609.9A
Authority: CN
Inventors: 鞠策; 陶睿涓
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2021-05-28
Anticipated expiration: 2039-04-10
Also published as: CN109993234A

Abstract

本发明提供一种无人驾驶训练数据分类方法、装置及电子设备，该方法包括：获得N个数据集，其中，N个数据集包括采集的数据样本中的数据，每个数据样本包括N种属性信息的数据，属于同一数据集的数据的属性信息相同，N为大于1的整数；对N个数据集逐个进行聚类，得到N个数据集中最后进行聚类的数据集的M个数据类别，且不同数据类别中的数据所对应的数据样本用于不同预测模型的训练，其中，第K+1个数据集的聚类是基于第K个数据集的聚类结果进行聚类，K为小于N的正整数，M为大于1的整数。这样，不仅可以提升训练预测模型的效率，还可以提升训练得到的预测模型的准确性。

Description

一种无人驾驶训练数据分类方法、装置及电子设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种无人驾驶训练数据分类方法、装置及电子设备。

背景技术

随着计算机、图像处理以及无线通信等技术的飞速发展，目前汽车行业正朝着智能化方向发展，自动驾驶则是汽车智能化发展的方向。现有的自动驾驶汽车，通常是应用深度学习技术，通过预先对预测模型的训练，来根据具体驾驶场景的需求输出车辆的控制指令，从而实现车辆的自动驾驶。

其中，现有的预测模型的训练过程中，为保证得到的预测模型的准确性，通常需要通过包含丰富的测试场景的训练数据训练预测模型。但是，目前为实现对训练数据的场景选择，通常是由人工进行标注，操作繁琐，尤其是所需的训练数据较多时，直接导致训练预测模型的效率降低。

可见，目前在预测模型的训练过程中，存在训练预测模型的效率低的问题。

发明内容

本发明实施例提供一种无人驾驶训练数据分类方法、装置及电子设备，以解决目前在预测模型的训练过程中，存在训练预测模型的效率低的问题。

为解决上述问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种无人驾驶训练数据分类方法，包括：

获得N个数据集，其中，所述N个数据集包括采集的数据样本中的数据，每个数据样本包括N种属性信息的数据，属于同一数据集的数据的属性信息相同，所述N为大于1的整数；

对所述N个数据集逐个进行聚类，得到所述N个数据集中最后进行聚类的数据集的M个数据类别，且不同数据类别中的数据所对应的数据样本用于不同预测模型的训练，其中，第K+1个数据集的聚类是基于第K个数据集的聚类结果进行聚类，所述K为小于N的正整数，M为大于1的整数。

第二方面，本发明实施例还提供了一种无人驾驶训练数据分类装置，包括：

数据集获取模块，用于获得N个数据集，其中，所述N个数据集包括采集的数据样本中的数据，每个数据样本包括N种属性信息的数据，属于同一数据集的数据的属性信息相同，所述N为大于1的整数；

聚类模块，用于对所述N个数据集逐个进行聚类，得到所述N个数据集中最后进行聚类的数据集的M个数据类别，且不同数据类别中的数据所对应的数据样本用于不同预测模型的训练，其中，第K+1个数据集的聚类是基于第K个数据集的聚类结果进行聚类，所述K为小于N的正整数，M为大于1的整数。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述无人驾驶训练数据分类方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述无人驾驶训练数据分类方法的步骤。

本发明实施例，通过获得N个数据集，并对N个数据集逐个进行聚类，从而得到M个数据类别，且电子设备可以使用该M个数据类别中各数据类别的数据所对应的数据样本分别训练预测模型，实现对采集的数据的分类，且使聚类后的每一数据类别的数据的场景更丰富，操作便捷且简单，不仅可以提升训练预测模型的效率，还可以提升训练得到的预测模型的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的无人驾驶训练数据分类方法的流程图；

图2是本发明实施例提供的无人驾驶训练数据分类方法实际应用实例的流程图；

图3是本发明实施例中对车辆动力学数据进行聚类的聚类结果示意图；

图4是本发明实施例中对环境场景数据进行聚类的聚类结果示意图；

图5是本发明实施例提供的无人驾驶训练数据分类装置的结构示意图之一；

图6是本发明实施例提供的聚类模块的结构示意图；

图7是本发明实施例提供的无人驾驶训练数据分类装置的结构示意图之二；

图8是本发明实施例提供的无人驾驶训练数据分类装置的结构示意图之三；

图9是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种无人驾驶训练数据分类方法的流程图，如图1所示，方法包括以下步骤：

步骤101、获得N个数据集，其中，所述N个数据集包括采集的数据样本中的数据，每个数据样本包括N种属性信息的数据，属于同一数据集的数据的属性信息相同，所述N为大于1的整数；

步骤102、对所述N个数据集逐个进行聚类，得到所述N个数据集中最后进行聚类的数据集的M个数据类别，且不同数据类别中的数据所对应的数据样本用于不同预测模型的训练，其中，第K+1个数据集的聚类是基于第K个数据集的聚类结果进行聚类，所述K为小于N的正整数，M为大于1的整数。

这里，电子设备通过获得N个数据集，并对N个数据集逐个进行聚类，从而得到M个数据类别，且电子设备可以使用该M个数据类别中各数据类别的数据所对应的数据样本分别训练预测模型，实现对采集的数据的分类，且使聚类后的每一数据类别的数据的场景更丰富，操作便捷且简单，不仅可以提升训练预测模型的效率，还可以提升训练得到的预测模型的准确性。

需要说明的是，上述电子设备可以是任何能够实现上述无人驾驶训练数据分类方法的设备或者系统，例如：上述电子设备可以是一台服务器或者车载智能终端，等等，在此并不进行限定。

本发明实施例中，在上述步骤101中，可以是电子设备接收操作人员的筛选操作，该筛选操作为：操作人员在数据样本的采集过程中，基于预设的N种属性信息对各数据样本中的数据进行筛选和标注的操作，且电子设备基于该筛选操作将每一数据样本中的数据进行分类，从而得到N个不同类别的数据集，即属于同一数据集的数据的属性信息相同。

或者，上述获得N个数据集，也可以是电子设备根据预设的N种属性信息，将采集的所有数据样本中属于同一属性信息的数据分类至同一数据集，从而得到上述N个数据集，操作更便捷且省时。

另外，上述数据样本可以是在模型训练过程中人工采集，或者也可以是在在线驾驶过程中车辆自动采集，且每一数据样本包括上述N中属性信息的数据，在此并不进行限定。

需要说明的是，上述N种属性信息可以是预设的任何能够用于对数据样本中的数据进行分类的信息，而在自动驾驶中，用于预测模型训练的数据包括环境数据和车辆动力学数据，其中，环境数据包括由摄像头，激光雷达，毫米波雷达和全球定位系统(GlobalPositioning System，GPS)等收集得到的数据；车辆动力学数据包括由车辆的惯性测量单元(Inertial measurement unit，IMU)和车身物理装置等收集得到的数据，故上述N种属性信息可以包括环境数据和车辆动力学数据，或者，也可以是将环境数据和车辆动力学数据中的至少一种划分为两种或者两种以上的数据，从而形成的两种以上的属性信息，在此并不进行限定。

可选的，上述N个数据集包括车辆动力学数据集和环境数据集，例如：将所有数据样本中每一数据样本的车辆动力学数据作为第一数据集中的数据，以及每一数据样本的环境数据作为第二数据集中的数据，从而可以降低对数据样本中数据分类的工作量，且每一数据集中数据之间的关联性高，使聚类后得到的数据类别合理。

本发明实施例中，在上述步骤101之后，即电子设备获取N个数据集之后，电子设备可以对上述N个数据集逐个进行聚类，从而得到M个数据类别，且该M个数据类别用于分别训练预测模型，其中，在上述电子设备对N个数据集逐个进行聚类的过程中，当前数据集(即第K+1个数据集)的聚类是基于上一次聚类的数据集的聚类结果进行。

具体地，上述对所述N个数据集逐个进行聚类，包括：对第K个数据集进行聚类，得到多个第一数据类别；确定所述第K+1个数据集中的目标数据，其中，所述目标数据与目标第一数据类别的数据关联，所述目标第一数据类别为所述多个第一数据类别中的任一第一数据类别；对所述目标数据进行聚类，从而使最终聚类结果中每一数据类别中的数据可以包含更多场景的数据，使得每一数据类别中的数据场景更丰富，进而提升训练得到的预测模型的预测准确度。

示例性地，以上述N个数据集包括车辆动力学数据集和环境数据集为例，在对N个数据集逐个进行聚类的过程中，电子设备首先对车辆动力学数据集(即第K个数据集)进行第一阶段聚类，得到L1个数据类别1(即第一数据类别)，L1为大于1的整数；在第一阶段聚类的基础上，电子设备确定环境数据集中与L1个数据类别中每一数据类别中的数据关联的数据(即目标数据)，形成环境数据集的L1个数据子集；最后电子设备分别对L个数据子集中每一数据子集的数据进行第二阶段聚类，且每一数据自己的聚类结果包括至少两个聚类类别2，且该最终通过L1个数据子集聚类得到的聚类类别2为上述M个数据类别。

其中，上述目标数据与目标第一数据类别的数据关联，可以理解为：处于同一数据样本中的不同数据集中的数据为相互关联的数据，即目标数据与相关联的目标第一数据类别的数据是同一数据样本的数据，例如：以上述N个数据集包括车辆动力学数据集和环境数据集为例，同一数据样本中的车辆动力学数据和环境数据相关联。

另外，上述对N个数据集逐个进行聚类，可以是通过K均值(即K-means)聚类算法、均值漂移聚类算法、基于密度的聚类算法(DBSCAN)以及凝聚层次聚类算法以及其他聚类算法中的任一聚类算法实现。由于上述聚类算法为本领域技术人员熟知，在此并不进行赘述。

需要说明的是，上述对N个数据集逐个进行聚类，可以是对N个数据集中的全部数据进行聚类，例如：上述目标数据可以是与所述目标第一数据类别中的部分数据关联的数据。

当然，上述对N个数据集逐个进行聚类，也可以是对N个数据集中的部分数据进行聚类，具体地，上述目标数据可以为：与所述目标第一数据类别中的部分数据关联的数据，在保证数据量足够的情况下，从而可以降低聚类复杂度，提升聚类效率，进而进一步提升训练预测模型的效率。

其中，上述目标第一数据类别中的部分数据，可以是电子设备在第一数据类别中随机挑选的一批数据，或者，也可以是电子设备按照某一预设规则挑选的特定的数据，在此并不进行限定。

另外，上述N个数据集中各数据集中的数据维度可能较高，尤其是包含有图像数据的情况下，具体地，在上述对所述N个数据集逐个进行聚类之前，还可以包括：对所述N个数据集中至少一个数据集进行降维处理，电子设备通过对N个数据集中至少一个数据集进行降维处理，从而可以降低聚类过程中的数据维度，提升聚类效率，进而进一步提升训练预测模型的效率。

示例性地，以上述N个数据集包括车辆动力学数据集和环境数据集为例，在对完成对上述车辆动力学数据集的聚类之后，电子设备可以对环境数据集中的数据进行降维处理，并对降维处理后的环境数据进行聚类。

需要说明的是，上述对所述N个数据集中至少一个数据集进行降维处理，可以是通过主成分分析算法以及流型学习算法等数据降维算法实现，由于各数据降维算法为本领域技术人员熟知，在此并不进行赘述。

本发明实施例中，上述对N个数据集逐个进行聚类，可以是直接对每一数据集中的数据进行聚类。

或者，所述获得N个数据集之后，还可以包括：对所述N个数据集中的目标数据集进行数据预处理，生成所述目标数据集的多个场景片段；其中，所述多个场景片段中场景片段包括预设时间间隔内的数据；所述目标数据集中的多个场景片段为所述目标数据集的聚类数据。

这里，电子设备可以通过数据预处理，将每一数据集中预设时间间隔内的数据分成一个场景片段，并在后续聚类过程中，对每一数据集中的场景片段进行聚类，从而也可以降低聚类过程中的数据维度，提升聚类效率，进而进一步提升训练预测模型的效率，且保证数据的全面性。

为便于对上述无人驾驶训练数据分类方法的实现过程的理解，如图2中所示，为本发明实施例提供无人驾驶训练数据分类方法的实际应用示例的流程，具体如下：

步骤201、数据预处理；

该过程中，电子设备将数据分成环境数据和车辆动力学数据。选取时间区间宽度T并将每个时间间隔为T的连续的传感器数据合并在一起形成一个场景片段。

步骤202、车辆动力学数据聚类；

该过程中，电子设备采用聚类算法(K-Means,凝聚层次等等)，且从每一类中随机选出一些样本作为第二阶段聚类。

步骤203、环境数据二次聚类；

该过程中，电子设备可以采用(主成分分析，流型学习，等等)对全部环境数据进行降维处理，选取车辆动力学聚类后的样本所对应的降维后的数据进行二次聚类，以及从二次聚类的类别中随机选出样本构成最终测试场景样本(即M个数据类别中某一数据类别的数据对应的数据样本)，并可以通过最终测试场景样本训练预测模型；

其中，如图3中所示，图中每个数据点代表一个车辆动力学场景片段，表示在时间间隔T内的车辆动力学数据，且经过无监督聚类算法K-Means处理之后，用t-SNE算法降低到三维后观察发现，车辆动力学数据在聚类空间中形成一条连续的链，可以设定为五个类别，因此步骤202完成聚类后得到的链条包括链条31、链条32、链条33、链条34以及链条35(即得到5个第一数据类别)，按照算法，可以会在五个类别中随机选取一些样本(如链条5中的场景片段对应的环境数据的场景片段)将序号传入环境数据二次聚类；

另外，如图4中所示，图中每个数据点代表一个环境场景片段，表示在时间间隔T内的环境数据，且经过无监督聚类算法K-Means处理之后，用t-SNE算法降低到三维后观察发现环境数据在聚类空间形成零散的点。虽然有一些不同形状的点混在一起，但是依然可以看到聚类的趋势，可以设定为五个类别，因此零散得点呈现五种形状(即分别用圆形、三角形、方形、五边形以及星形标记)。按照算法，可以在五个类别中随机选取一些样本，这里可以选一些混杂区域的样本，这些样本代表了不同环境下相似的驾驶行为，也是需要重点分析的场景。

参见图5，图5是本发明实施例提供的无人驾驶训练数据分类装置的结构图，如图5所示，无人驾驶训练数据分类装置500包括：

数据集获取模块501，用于获得N个数据集，其中，所述N个数据集包括采集的数据样本中的数据，每个数据样本包括N种属性信息的数据，属于同一数据集的数据的属性信息相同，所述N为大于1的整数；

聚类模块502，用于对所述N个数据集逐个进行聚类，得到所述N个数据集中最后进行聚类的数据集的M个数据类别，且不同数据类别中的数据所对应的数据样本用于不同预测模型的训练，其中，第K+1个数据集的聚类是基于第K个数据集的聚类结果进行聚类，所述K为小于N的正整数，M为大于1的整数。

可选的，如图6所示，所述聚类模块502，包括：

第一聚类单元5021，用于对第K个数据集进行聚类，得到多个第一数据类别；

数据确定单元5022，用于确定所述第K+1个数据集中的目标数据，其中，所述目标数据与目标第一数据类别的数据关联，所述目标第一数据类别为所述多个第一数据类别中的任一第一数据类别；

第二聚类单元5023，用于对所述目标数据进行聚类。

可选的，所述目标数据为：与所述目标第一数据类别中的部分数据关联的数据。

可选的，如图7所示，所述装置500，还包括：

预处理模块503，用于对所述N个数据集中的目标数据集进行数据预处理，生成所述目标数据集的多个场景片段；

其中，所述多个场景片段中场景片段包括预设时间间隔内的数据；所述目标数据集中的多个场景片段为所述目标数据集的聚类数据。

可选的，所述N个数据集包括车辆动力学数据集和环境数据集。

可选的，如图8所示，所述装置500，还包括：

降维模块504，用于对所述N个数据集中至少一个数据集进行降维处理。

本发明实施例提供的无人驾驶训练数据分类装置500能够实现上述方法实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

图9为实现本发明各个实施例的一种电子设备的硬件结构示意图。

该电子设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、处理器910、以及电源911等部件。本领域技术人员可以理解，图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，处理器910，用于：

可选的，处理器910，具体用于：

对第K个数据集进行聚类，得到多个第一数据类别；

确定所述第K+1个数据集中的目标数据，其中，所述目标数据与目标第一数据类别的数据关联，所述目标第一数据类别为所述多个第一数据类别中的任一第一数据类别；

对所述目标数据进行聚类。

可选的，处理器910，还用于：

对所述N个数据集中的目标数据集进行数据预处理，生成所述目标数据集的多个场景片段；

可选的，处理器910，还用于：

对所述N个数据集中至少一个数据集进行降维处理。

应理解的是，本发明实施例中，射频单元901可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器910处理；另外，将上行的数据发送给基站。通常，射频单元901包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元901还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块902为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元903可以将射频单元901或网络模块902接收的或者在存储器909中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元903还可以提供与电子设备900执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元903包括扬声器、蜂鸣器以及受话器等。

输入单元904用于接收音频或视频信号。输入单元904可以包括图形处理器(Graphics Processing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图片捕获模式中由图片捕获装置(如摄像头)获得的静态图片或视频的图片数据进行处理。处理后的图片帧可以显示在显示单元906上。经图形处理器9041处理后的图片帧可以存储在存储器909(或其它存储介质)中或者经由射频单元901或网络模块902进行发送。麦克风9042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元901发送到移动通信基站的格式输出。

电子设备900还包括至少一种传感器905，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板9061的亮度，接近传感器可在电子设备900移动到耳边时，关闭显示面板9061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器905还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元906用于显示由用户输入的信息或提供给用户的信息。显示单元906可包括显示面板9061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板9061。

用户输入单元907可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板9071上或在触控面板9071附近的操作)。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器910，接收处理器910发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板9071。除了触控面板9071，用户输入单元907还可以包括其他输入设备9072。具体地，其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板9071可覆盖在显示面板9061上，当触控面板9071检测到在其上或附近的触摸操作后，传送给处理器910以确定触摸事件的类型，随后处理器910根据触摸事件的类型在显示面板9061上提供相应的视觉输出。虽然在图9中，触控面板9071与显示面板9061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板9071与显示面板9061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元908为外部装置与电子设备900连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元908可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备900内的一个或多个元件或者可以用于在电子设备900和外部装置之间传输数据。

存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图片播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器909可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器910是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器909内的软件程序和/或模块，以及调用存储在存储器909内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器910可包括一个或多个处理单元；优选的，处理器910可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

电子设备900还可以包括给各个部件供电的电源911(比如电池)，优选的，电源911可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备900包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器910，存储器909，存储在存储器909上并可在所述处理器910上运行的计算机程序，该计算机程序被处理器910执行时实现上述无人驾驶训练数据分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述无人驾驶训练数据分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种无人驾驶训练数据分类方法，其特征在于，应用于自动驾驶场景，包括：

获得自动驾驶过程中车辆的N个数据集，其中，所述N个数据集包括采集的数据样本中的数据，每个数据样本包括N种属性信息的数据，属于同一数据集的数据的属性信息相同，所述N为大于1的整数；

2.根据权利要求1所述的方法，其特征在于，所述对所述N个数据集逐个进行聚类，包括：

对第K个数据集进行聚类，得到多个第一数据类别；

对所述目标数据进行聚类。

3.根据权利要求2所述的方法，其特征在于，所述目标数据为：与所述目标第一数据类别中的部分数据关联的数据。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述获得N个数据集之后，还包括：

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述N个数据集包括车辆动力学数据集和环境数据集。

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述对所述N个数据集逐个进行聚类之前，还包括：

对所述N个数据集中至少一个数据集进行降维处理。

7.一种无人驾驶训练数据分类装置，其特征在于，应用于自动驾驶场景，包括：

数据集获取模块，用于获得自动驾驶过程中车辆的N个数据集，其中，所述N个数据集包括采集的数据样本中的数据，每个数据样本包括N种属性信息的数据，属于同一数据集的数据的属性信息相同，所述N为大于1的整数；

8.根据权利要求7所述的装置，其特征在于，所述聚类模块，包括：

第一聚类单元，用于对第K个数据集进行聚类，得到多个第一数据类别；

数据确定单元，用于确定所述第K+1个数据集中的目标数据，其中，所述目标数据与目标第一数据类别的数据关联，所述目标第一数据类别为所述多个第一数据类别中的任一第一数据类别；

第二聚类单元，用于对所述目标数据进行聚类。

9.根据权利要求8所述的装置，其特征在于，所述目标数据为：与所述目标第一数据类别中的部分数据关联的数据。

10.根据权利要求7至9中任一项所述的装置，其特征在于，所述装置，还包括：

预处理模块，用于对所述N个数据集中的目标数据集进行数据预处理，生成所述目标数据集的多个场景片段；

11.根据权利要求7至9中任一项所述的装置，其特征在于，所述N个数据集包括车辆动力学数据集和环境数据集。

12.根据权利要求7至9中任一项所述的装置，其特征在于，所述装置，还包括：

降维模块，用于对所述N个数据集中至少一个数据集进行降维处理。

13.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的无人驾驶训练数据分类方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的无人驾驶训练数据分类方法的步骤。