CN112286925A

CN112286925A - 无人驾驶车辆所收集数据的清洗方法

Info

Publication number: CN112286925A
Application number: CN202011425567.5A
Authority: CN
Inventors: 王伟宝
Original assignee: Neolithic Huiyi Zhixing Zhichi Beijing Technology Co ltd
Current assignee: Neolithic Huiyi Zhixing Zhichi Beijing Technology Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-01-29

Abstract

本发明提供了一种无人驾驶车辆所收集数据的清洗方法，涉及无人车、无人驾驶和自动驾驶的技术领域。该清洗方法包括：通过主动学习模型从无人驾驶车辆收集的数据中提取出对训练无人驾驶车辆的自动驾驶模型有效的有效数据；根据有效数据的优先级确定有效数据的发送时段；在有效数据的发送时段将有效数据发送给训练自动驾驶模型的平台；其中，若有效数据不即时发送到平台，则通过本地存储装置存储有效数据。本发明能够有效节约自动驾驶技术中数据流转和存储的成本。

Description

无人驾驶车辆所收集数据的清洗方法

技术领域

本发明涉及无人车、无人驾驶和自动驾驶的技术领域，具体涉及一种无人驾驶车辆所收集数据的清洗方法。

背景技术

无人车，又称无人驾驶车辆或自动驾驶车辆，是一种利用自动驾驶模型实现自动驾驶的车辆，而自动驾驶模型的精度依赖于训练数据，因而，无人车往往通过激光雷达、摄像头、毫米波雷达等众多数据收集装置来收集各种数据以供模型训练。

据统计，一辆无人车行驶8个小时收集的数据约有20T。相关技术中，无人车通过车端外挂移动硬盘来存储收集的大量数据，然后在每天的数据收集结束后由现场测试人员把移动硬盘寄给存储中心，再由存储中心将数据最终拷贝到存储服务器，从而完成了训练数据的获取过程。然而，上述过程中，车端外挂移动硬盘在数据存储方面的可靠性较低，移动硬盘的购买和邮寄成本较高，存储中心进行数据拷贝的时间较长，存储服务器的存储空间占用较大，这使得自动驾驶技术的快速发展受到严重制约。

发明内容

有鉴于此，本发明实施例提供了一种无人驾驶车辆所收集数据的清洗方法，能够效节约自动驾驶技术中数据流转和存储的成本。

根据本发明，提供一种一种无人驾驶车辆所收集数据的清洗方法，包括：

通过主动学习模型从所述无人驾驶车辆收集的数据中提取出对训练所述无人驾驶车辆的自动驾驶模型有效的有效数据；

根据所述有效数据的优先级确定所述有效数据的发送时段；

在所述有效数据的发送时段将所述有效数据发送给训练所述自动驾驶模型的平台；

其中，若所述有效数据不即时发送到所述平台，则通过所述无人驾驶车辆的本地存储装置存储所述有效数据。

可选地，所述清洗方法还包括：

对所述无人驾驶车辆行驶时是否发生预定事件进行识别；

若识别出在所述无人驾驶车辆行驶时发生了预定事件，则从所述无人驾驶车辆收集的数据中提取预定事件数据；

将所述预定事件数据发送给所述平台，其中，所述预定事件数据和所述有效数据通过同一个发送装置发送。

可选地，所述预定事件包括所述无人驾驶车辆异常行驶、所述无人驾驶车辆被远程接管中的至少一个；

所述预定事件数据包括所述预定事件发生时所述无人驾驶车辆的车身状况数据、运行数据和周围环境数据中的至少一个。

可选地，将所述预定事件数据发送给所述平台，包括：

将所述预定事件数据和所述有效数据这两种数据按数据种类进行优先级分级，以得到所述预定事件数据和所述有效数据各自的优先级；

根据所述预定事件数据的优先级确定所述预定事件数据的发送时段；

在所述预定事件数据的发送时段将所述预定事件数据发送给所述平台。

可选地，如果所述有效数据或所述预定事件数据的优先级为一级，即时发送所述有效数据或所述预定事件数据；

如果所述有效数据或所述预定事件数据的优先级为二级，在第一预定时间后发送所述有效数据或所述预定事件数据；

如果所述有效数据或所述预定事件数据的优先级为二级以上，在该优先级对应的时间后发送所述有效数据或所述预定事件数据。

可选地，所述预定事件数据的优先级被预定为一级，所述有效数据的优先级被预定为大于一级。

可选地，将所述预定事件数据发送给所述平台，包括：

根据所述预定事件的事件种类，确定所述预定事件数据的优先级；

可选地，所述有效数据的优先级由优先级模型输出，所述优先级模型通过以下方式预先训练：

构造有效数据样本集合，所述集合中的有效数据样本贴有预先识别出的优先级标签；

将所述集合中的有效数据样本输入优先级模型，由所述优先级模型识别出该有效数据样本对应的优先级，与贴有的优先级标签进行比较，如果所述集合中识别出的优先级与优先级标签一致的样本比率超过预定比率阈值，则认为所述优先级模型训练成功；如果不超过，则调整所述优先级模型的系数，使得该样本比率超过预定比率阈值。

可选地，所述主动学习模型通过以下方式预先训练：

构造车辆行驶数据样本集合，所述集合中的车辆行驶数据样本包括所述无人驾驶车辆在一次行驶中的数据，并贴有预先识别出的有效数据的标签；

将所述集合中的车辆行驶数据样本输入主动学习模型，由所述主动学习模型识别出车辆行驶数据样本中的有效数据，与贴有的标签进行比较，如果所述集合中识别出的有效数据与标签一致的样本比率超过预定比率阈值，则认为所述主动学习模型训练成功；如果不超过，则调整所述主动学习模型的系数，使得该样本比率超过预定比率阈值。

可选地，所述清洗方法还包括：通过车端缓存缓存所述无人驾驶车辆收集的数据，其中，输入所述主动学习模型的数据是从所述车端缓存中取出的。

本发明的实施例具有以下优点或有益效果：

主动学习模型从无人驾驶车辆收集的数据中得到对训练无人驾驶车辆的自动驾驶模型有效的有效数据，由于无人驾驶车辆收集的数据中存在大量对训练无人驾驶车辆的自动驾驶模型无效的无效数据，因而相较于无人驾驶车辆收集的数据来说有效数据的数据量得到大幅度缩减，即待存储到平台的数据量得到大幅度缩减，从而避免了大量无效数据的流转与存储所造成的资源浪费，有效节约了自动驾驶技术中数据流转和存储的成本。

附图说明

通过参照以下附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为现有技术中无人驾驶车辆的结构示意图；

图2为本发明实施例一所提供清洗方法的流程图；

图3为本发明实施例二所提供清洗方法的流程图；

图4为本发明实施例四将预定事件数据发送给平台的方法流程图；

图5为本发明实施例七将预定事件数据发送给平台的方法流程图；

图6为执行本发明实施例所提供清洗方法的一种无人驾驶车辆的结构示意图；

图7为图6所示无人驾驶车辆上各装置的一种可选连接结构的示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以通过不同的形式来实现，并不限于本文所描述的实施例。相反的，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

图1所示为现有技术中自动行进的一辆无人驾驶车辆100，该无人驾驶车辆100会通过激光雷达、毫米波雷达以及摄像头等多种数据收集装置来收集无人驾驶车辆100行驶过程中的数据，以便后续对自动驾驶模型进行训练。然而，随着算法能力的提升，训练自动驾驶模型的数据质量需要逐渐提高，无人驾驶车辆收集的数据中存在大量对训练自动驾驶模型无效的无效数据，无人驾驶车辆收集的数据直接通过移动硬盘110流转的过程中大量无效数据的流转浪费了大量资源且最终还占用了大量存储空间，从而使得自动驾驶技术的快速发展受到严重制约。针对此，本发明提供了一种无人驾驶车辆所收集数据的清洗方法，以有效节约自动驾驶技术中数据流转和存储的成本。

以下基于实施例对本发明提供的无人驾驶车辆所收集数据的清洗方法进行详细描述。

实施例一：

图2所示为本发明实施例提供的无人驾驶车辆所收集数据的清洗方法流程图。参照图2，该无人驾驶车辆所收集数据的清洗方法在无人驾驶车辆收集数据后对所述数据进行如下处理步骤：

步骤S110，通过主动学习模型从无人驾驶车辆收集的数据中提取出对训练无人驾驶车辆的自动驾驶模型有效的有效数据。

具体地，无人驾驶车辆采用车身上安装的数据收集装置收集数据，数据收集装置是指能够收集无人驾驶车辆行驶过程中数据的装置，例如激光雷达，通过发射激光束及接受被障碍物反射回的激光形成激光点云数据；又例如摄像头，通过对周围环境进行拍照获取周围环境的图像数据。然而，无论是激光点云数据还是图像数据，其中都会存在大量对训练自动驾驶模型无效的无效数据，例如一些模糊的图像，也就是说，数据收集装置收集的数据包括对训练自动驾驶模型有效的有效数据和对训练自动驾驶模型无效的无效数据。

主动学习模型即执行主动学习（Active Learning）相关算法的模型，可以搭建在无人驾驶车辆安装的终端设备上，包括但不限于通过具有一个或多个处理器的终端设备运行该主动学习模型。主动学习是人工智能的一个子领域，在统计学领域也称查询学习或最优实验设计，能够从大量数据中查询到需要的未标记数据。本发明采用的主动学习模型在相应的训练完成后则能够从无人驾驶车辆收集的数据中查询到有效数据，使得待存储数据得以大幅度缩减。经统计，无人驾驶车辆上的数据收集装置在无人驾驶车辆行驶8个小时的过程中可以收集到约20T的数据，主动学习模型从这20T的数据中常常得到约10G的有效数据，一些特殊情况下有效数据的数量甚至会降低到约1G，10G或者1G相对于20T的减幅使得数据流转和存储都更节省资源，且现阶段的数据传输技术完全支持在一个时间段内将该时间段产生的所有有效数据都上传到训练自动驾驶模型的平台。

步骤S120，根据有效数据的优先级确定有效数据的发送时段。

需要说明的是，有效数据具有至少一个待选优先级，各待选优先级被配置为对应一个发送时段，因而从至少一个待选优先级中确定有效数据的优先级后，可以根据待选优先级和发送时段的对应关系确定有效数据的发送时段。

步骤S130，在有效数据的发送时段将有效数据发送给训练自动驾驶模型的平台，其中，若有效数据不即时发送到平台，则通过无人驾驶车辆的本地存储装置存储有效数据。

步骤S130通过无人驾驶车辆上安装的发送装置执行，发送装置是指具有数据发送能力的通信设备，可以采用第五代移动通信技术（5th Generation，简称5G）的相关设备（例如交换机）来确保数据传送的流畅性。发送装置通信连接训练自动驾驶模型的平台从而将有效数据发送到平台上，其中，发送装置可以是和平台上存储服务器通信连接，这样存储服务器接收并进行存储以便平台训练自动驾驶模型时使用。

需要强调的是，本发明各实施例的无人驾驶车辆所收集数据的清洗方法，其各个步骤是通过无人驾驶车辆上安装的装置来执行，可以是通过一个多功能集成的组件执行；也可以是通过多个组件分别执行一部分步骤来执行，各组件在无人驾驶车辆200上的具体安装位置不属于本发明各实施例的限定内容。在实践中，上述数据收集装置、运行主动学习模型的终端设备、发送装置和本地存储装置等组件以各自功能实现的便利性以及无人驾驶车辆性能的实现需求为依据进行安装位置的选定并进行安装。

本实施例通过网络通信传输替代现有的移动硬盘流转，并且主动学习模型先从无人驾驶车辆收集的数据中得到对训练无人驾驶车辆的自动驾驶模型有效的有效数据，其中，由于无人驾驶车辆收集的数据中存在大量对训练无人驾驶车辆的自动驾驶模型无效的无效数据，因而相较于无人驾驶车辆收集的数据来说有效数据的数据量得到大幅度缩减，即待存储数据量得到大幅度缩减，从而避免了大量无效数据的流转与存储所造成的资源浪费，有效节约了自动驾驶技术中数据流转和存储的成本。

实施例二：

本实施例所提供的清洗方法基本采用与上述实施例一相同的流程，因此不再赘述。

区别之处在于：参照图3，清洗方法还包括：

步骤S140，对无人驾驶车辆行驶时是否发生预定事件进行识别；

步骤S150，若识别出在无人驾驶车辆行驶时发生了预定事件，则从无人驾驶车辆收集的数据中提取预定事件数据；

步骤S160，将预定事件数据发送给平台，其中，预定事件数据和有效数据通过同一个发送装置发送。

应当理解的是，步骤S140执行后若未识别出在无人驾驶车辆行驶时发生了预定事件，则不从无人驾驶车辆收集的数据中提取预定事件数据。

具体地，步骤S140可以通过预定事件识别装置执行，步骤S150可以通过预定事件数据提取装置执行，预定事件识别装置和预定事件数据提取装置之间直接连接，这样预定事件识别装置识别出预定事件后直接向预定事件数据提取装置发送数据提取指令，以便预定事件数据提取装置根据数据提取指令及时从无人驾驶车辆所收集中提取预定事件数据。其中，预定事件识别装置识别预定事件可以是和无人驾驶车辆的控制器连接以接收无人驾驶车辆的行驶参数，从而通过行驶参数来确定预定事件是否发生；也可以是和远程操控端连接以接收远程操控端发送的操控指令，从而通过操控指令来确定预定事件是否发生。

上述预定事件识别装置和预定事件数据提取装置同样可以是两个独立的装置，也可以是集成在一个设备上的两个组件，预定事件识别装置和预定事件数据提取装置之间的连接结构不构成对本发明实施例的限定。

上述预定事件数据为预定事件的对应数据，多为预定事件发生时与车辆行驶相关的数据，可以为图像数据，也可以为参数及对应取值。

需要说明的是，无人驾驶车辆收集的数据为无人驾驶车辆行驶过程中的数据，无人驾驶车辆被配置为因训练自动驾驶模型所需以及车辆安全行驶所需而收集数据，因而，无人驾驶车辆收集的数据包括训练自动驾驶模型的数据（包括有效数据和无效数据）以及对车辆行驶监控而获得的数据，步骤S110是从训练自动驾驶模型的数据中提取有效数据，步骤S150是从监控车辆行驶而获得的数据中提取预定事件数据。其中，无人驾驶车辆因训练自动驾驶模型所需而收集数据，多是通过提前配置收集间隔时间来执行，例如每间隔1分钟收集一次；无人驾驶车辆因车辆安全行驶所需而收集数据，可以是通过提前配置间隔时间来执行，也可以是在预定事件发生时执行，若预定事件发生时执行则可以是数据收集装置根据预定事件识别装置生成的数据收集命令来执行，这里预定事件识别装置生成数据收集命令当然是在识别出无人驾驶车辆行驶时发生了预定事件的情况下生成的。

需要强调的是，本发明实施例中远程操控端布置在训练自动驾驶模型的平台上，因而将预定事件数据发送到平台即发送给无人驾驶车辆的操控端，这样操控端根据预定事件数据能够及时确定无人驾驶车辆当前的行驶状态，即实现对无人驾驶车辆行驶状态的有效监控。

本实施例中，预定事件数据和有效数据通过同一个发送装置发送到平台，即有效数据的传输路线和预定事件数据的传输路线合并，从而无人驾驶车辆无需增加额外成本来实现预定事件数据的发送，这其中由于上传的训练自动驾驶模型的数据只有有效数据，有效数据的数据量较少，因而预定事件数据流转所需的资源较为宽裕。

实施例三：

本实施例所提供的清洗方法基本采用与上述实施例二相同的流程，因此不再赘述。

区别之处在于：预定事件包括无人驾驶车辆异常行驶、无人驾驶车辆200被远程接管中的至少一个，预定事件数据包括预定事件发生时无人驾驶车辆的车身状况数据、运行数据和周围环境数据中的至少一个。

具体地，无人驾驶车辆是一种能够自动行驶的车辆，其自动行驶功能是由自身安装的控制器和识别系统相结合实现的，其中，识别系统识别车辆周围路况，控制器根据识别系统的识别结果确定无人驾驶车辆的行驶速度和行驶方向，无人驾驶车辆在控制器的控制下以该行驶速度和行驶方向平稳地行驶在道路上。

上述无人驾驶车辆会异常行驶的状况，包括无人驾驶车辆因车身损坏（例如轮胎破裂时无人驾驶车辆首先会行驶不稳）或路况突变（例如前方突然蹿出来行人时无人驾驶车辆会紧急刹车）等出现的异常行驶状况。

上述无人驾驶车辆被远程接管的状况，包括无人驾驶车辆主动请求远程接管和被动接受远程接管两种情况，其中，无人驾驶车辆主动请求远程接管，例如有无人驾驶车辆自动行驶过程中遇到识别系统无法识别的路况，为了行驶的安全性会主动请求远程接管；无人驾驶车辆被动接受远程接管，例如有工作人员需要无人驾驶车辆以地图上没有出现的路线行驶以节省时间，则会控制无人驾驶车辆被动接收远程接管。这里的远程接管，是指工作人员在远程操控无人驾驶车辆行驶，即相当于工作人员驾驶无人驾驶车辆的状态，这不同于无人驾驶车辆的自动行驶过程。

需要说明的是，对于无人驾驶车辆异常行驶或无人驾驶车辆被远程接管这类预定事件，预定事件数据包括预定事件发生时无人驾驶车辆的车身状况数据、运行数据和周围环境数据中的至少一个，其中，车身状况数据例如车身的图像数据，运行数据例如无人驾驶车辆的速度，周围环境数据例如无人驾驶车辆前轮前方的图像数据。

本实施例中，预定事件包括无人驾驶车辆异常行驶、无人驾驶车辆被远程接管中的至少一个，这样无人驾驶车辆异常行驶或无人驾驶车辆被远程接管相对应的预定事件数据会通过网络传输到平台，从而使得平台能够及时监控车辆状态以避免运输中断和交通事故的发生。

实施例四：

区别之处在于：参照图4，步骤S160，将预定事件数据发送给平台，包括：

步骤S16a1，将预定事件数据和有效数据这两种数据按数据种类进行优先级分级，以得到预定事件数据和有效数据各自的优先级。

需要说明的是，将预定事件数据和有效数据这两种数据按数据种类进行优先级分级后，预定事件数据的优先级和有效数据的优先级不同。

步骤S16a2，根据预定事件数据的优先级确定预定事件数据的发送时段。

需要说明的是，预定事件数据同样具有至少一个待选优先级，各待选优先级被配置为对应一个发送时段，因而从至少一个待选优先级中确定预定事件数据的优先级后，可以根据待选优先级和发送时段的对应关系确定预定事件数据的发送时段。

步骤S16a3，在预定事件数据的发送时段将预定事件数据发送给平台。

应当理解的是，预定事件数据的优先级和有效数据的优先级不同的情况下，预定事件数据的发送时段也不同于有效数据的发送时段，因而在预定事件数据的发送时段有效数据不发送。

本实施例中有效数据和预定事件数据各自具有对应的优先级，且预定事件数据和有效数据这两种数据按数据种类具有不同的优先级，从而使得不同数据在不同发送时段发送，有利于确保预定事件数据和有效数据中紧急度较高的数据被优先发送到平台。

实施例五：

本实施例所提供的清洗方法基本采用与上述实施例四相同的流程，因此不再赘述。

区别之处在于：如果有效数据或预定事件数据的优先级为一级，即时发送有效数据或预定事件数据；如果有效数据或预定事件数据的优先级为二级，在第一预定时间后发送有效数据或预定事件数据；如果有效数据或预定事件数据的优先级为二级以上，在该优先级对应的时间后发送有效数据或预定事件数据。

应当理解的是，对于有效数据或预定事件数据的优先级为一级的情况，这里规定为：如果有效数据的优先级为一级，则即时发送有效数据；如果预定事件数据的优先级为一级，则即时发送预定事件数据。对于有效数据或预定事件数据的优先级为二级的情况，以及，有效数据或预定事件数据的优先级为二级的情况，采取上述有效数据或预定事件数据的优先级为一级的解释。

具体地，即时发送优先级为一级的有效数据或预定事件数据，是指：优先级为一级的有效数据或预定事件数据在生成的瞬时即被发送出去；在第一预定时间后发送优先级为二级的有效数据或预定事件数据，是指：优先级为二级的有效数据或预定事件数据延时发送，进一步可以选择在数据生成后的各个网络传输空闲时段内尽早发送，这里可以通过实时监控发送装置对数据的上传情况确定网络传输空闲时段；在优先级对应的时间后发送优先级为二级以上的有效数据或预定事件数据，是指：优先级为二级以上的有效数据或预定事件数据在一个指定的与数据生成时刻不关联的时段发送，多选定无人驾驶车辆处于停放状态的一个固定时段，例如一天的夜间时段。夜间时段可以为晚上10点到第二天6点，夜间时段内无人驾驶车辆多处于停放状态，无人驾驶车辆的数据收集装置一般情况下不再收集数据，因而有充足的时间供白天时段内积压的数据上传，对应于此，优先级为二级以上的有效数据或预定事件数据设定为占最大比例的数据。

以上午9点生成的有效数据和预定事件数据为例，对于优先级为二级的一部分数据在9点后首个网络传输空闲时段（例如10点到10点一刻）发送，对于优先级为二级以上的一部分数据在当天的夜间时段发送。

需要说明的是，对于优先级为二级或二级以上的有效数据或预定事件数据，在发送之前是存储在无人驾驶车辆的本地存储设备里，然后发送装置从该本地存储设备里读取当前要发送的数据并发送出去。其中，由于发送到平台的用于训练自动驾驶模型的数据得以大幅度缩减，因而这里本地存储设备无需较大存储空间，采用无人驾驶车辆的自带存储设备即可，例如无人驾驶车辆上插的卡片式的存储卡（memory card）。

本实施例中，将有效数据或预定事件数据划分为优先级为一级的数据、优先级为二级的数据以及优先级为二级以上的数据，即无人驾驶车辆向平台发送的数据划分为三部分，三部分数据的上传时段在不会造成网络堵塞的情况下完成了所有数据的有序上传，其中优先级为一级的有效数据或预定事件数据还能够保障及时被上传到平台而得以利用。

实施例六：

本实施例所提供的清洗方法基本采用与上述实施例五相同的流程，因此不再赘述。

区别之处在于：预定事件数据的优先级被预定为一级，有效数据的优先级被预定为大于一级，即所有预定事件数据在生成的瞬时被发送到平台上，而有效数据延迟发送，这样平台及时获取到预定事件数据，登录平台的工作人员对预定事件发生时车辆行驶的相关状况得以及时掌握，从而有利于无人驾驶车辆的安全平稳行驶。

实施例七：

区别之处在于：参照图5，步骤S160，将预定事件数据发送给平台，包括：

步骤S16b1，根据预定事件的事件种类，确定预定事件数据的优先级；

步骤S16b2，根据预定事件数据的优先级确定预定事件数据的发送时段；

步骤S16b3，在预定事件数据的发送时段将预定事件数据发送给平台。

需要说明的是，预定事件数据为预定事件的对应数据，多为预定事件发生时监控车辆行驶状况而获得的数据。由于车辆行驶状况并非都需要及时处理，也就是说，预定事件可以为无人驾驶车辆需要被及时处理的事件，也可以为不需要及时处理的事件，因而预定事件数据上传的及时性不同。这里预定事件数据的优先级可以根据预定事件处理的及时性要求来确定。

例如，预定事件包括无人驾驶车辆异常行驶和无人驾驶车辆送的外卖被接收，其中，无人驾驶车辆异常行驶涉及到安全性问题，而无人驾驶车辆送的外卖被接收属于任务监控，因而无人驾驶车辆异常行驶的优先级高于无人驾驶车辆送的外卖被接收。

本实施例中，根据预定事件的事件种类确定预定事件数据的优先级，使得预定事件数据的发送及时程度和预定事件种类相关，从而将待处理紧急程度的预定事件数据进行了进一步详细划分，确保待处理紧急程度较大的预定事件数据能被及时发送，又不会出现所有预定事件数据发送而导致网络堵塞的问题。

实施例八：

本实施例所提供的清洗方法基本采用与上述实施例七相同的流程，因此不再赘述。

区别之处在于：有效数据的优先级根据有效数据的类型确定，且有效数据的优先级由优先级模型输出，优先级模型通过大量有效数据样本构成的有效数据样本集合训练得到，精度足以保证，通过有效数据样本集合训练优先级模型的过程如下：构造有效数据样本集合，集合中的有效数据样本贴有预先识别出的优先级标签；将集合中的有效数据样本输入优先级模型，由优先级模型识别出该有效数据样本对应的优先级，与贴有的优先级标签进行比较，如果集合中识别出的优先级与优先级标签一致的样本比率超过预定比率阈值，则认为优先级模型训练成功；如果不超过，则调整优先级模型的系数（例如优先级模型各隐藏层的权重系数），使得该样本比率超过预定比率阈值。

具体地，有效数据会因数据收集装置的不同而呈现不同的形式，例如激光雷达收集的有效数据为360°的激光点云帧，摄像头拍摄的有效数据为某一角度的实物图片。对于一些字符形式的有效数据来说，参数本身具有区别。因而，优先级模型可以基于有效数据的不同特征识别有效数据并对识别出的有效数据配设优先级。

本实施例中，有效数据的优先级不由人工标定，而是由优先级模型输出，这样实现了有效数据优先级的自动标注，使得无人驾驶车辆的数据流转和存储实现完全自动化，不仅节省了人工成本而且提高了数据流转和存储的速率。

实施例九：

本实施例所提供的清洗方法基本采用与上述实施例一至实施例八中任一实施例相同的流程，因此不再赘述。

区别之处在于：主动学习模型通过以下方式预先训练：构造车辆行驶数据样本集合，集合中的车辆行驶数据样本包括无人驾驶车辆在一次行驶中的数据，并贴有预先识别出的有效数据的标签；将集合中的车辆行驶数据样本输入主动学习模型，由主动学习模型识别出车辆行驶数据样本中的有效数据，与贴有的标签进行比较，如果集合中识别出的有效数据与标签一致的样本比率超过预定比率阈值，则认为主动学习模型训练成功；如果不超过，则调整主动学习模型的系数（例如主动学习模型各隐藏层的权重系数），使得该样本比率超过预定比率阈值。

本实施例中，主动学习模型以集合中的车辆行驶数据样本作为训练数据，而集合中的车辆行驶数据样本包括无人驾驶车辆在一次行驶中的数据，由于同一车辆采集的数据会因车辆自身固定原因而无法训练自动驾驶模型，因而同一车辆采集的无效数据具有共性，这样通过车辆行驶数据样本集合训练得到的主动模型能够更加精确地识别出数据收集装置收集的无效数据。

实施例十：

本实施例所提供的清洗方法基本采用与上述实施例一至实施例九中任一实施例相同的结构，因此不再赘述。

区别之处在于：还包括通过车端缓存缓存无人驾驶车辆收集的数据，其中，输入主动学习模型的数据是从车端缓存中取出的。

具体地，无人驾驶车辆的数据收集装置会在无人驾驶车辆行驶过程中不断收集数据并将收集到的数据缓存到车端缓存里，主动学习模型会按照数据的缓存顺序不断从车端缓存中读取数据以得到有效数据。由于无人驾驶车辆行驶过程中数据收集装置采集数据的频率很高，主动学习模型相应地也需较快地从车端缓存中读取数据以避免待处理数据的积压。

本实施例中，车端缓存设置在数据收集装置和运行主动学习模型的终端设备之间，由于车端缓存支持数据的快速存取，因而较好地支持了数据收集装置存数据以及主动学习模型读数据，对于使主动学习模型快速处理数据收集装置收集的数据起到促进作用。

图6所示为执行上述清洗方法的一种无人驾驶车辆的结构示意图。参照图6，该无人驾驶车辆200同时包括数据收集装置210、运行主动学习模型的终端设备220、发送装置230、预定事件识别装置240、预定事件数据提取装置250、优先级模型的运行装置260、车端缓存270和本地存储设备280，其中，各装置的用途参照上述清洗方法各实施例的描述，这里不再赘述。需要强调的是，图6中在无人驾驶车辆200上标示了数据收集装置210、运行主动学习模型的终端设备220、发送装置230、预定事件识别装置240、预定事件数据提取装置250、优先级模型的运行装置260、车端缓存270和本地存储设备280，这只是表示这些装置安装在无人驾驶车辆200上，并不限定各装置在无人驾驶车辆200上的安装位置。

图7所示为图6所示无人驾驶车辆200上各装置的一种可选连接结构的示意图。参照图7，预定事件识别装置240和预定事件数据提取装置250如前所述相互连接；数据收集装置210作为无人驾驶车辆200的车辆数据采集设备，和车端缓存270连接以将收集的数据缓存在车端缓存270中；终端设备220分别和车端缓存270以及优先级模型运行装置260连接，以从车端缓存270里读取数据收集装置210收集的数据并将精简到的有效数据输入优先级模型的运行装置260，而优先级模型的运行装置260和本地存储设备280连接以向本地存储设备280输出标注有优先级的有效数据；预定事件数据提取装置250分别和车端缓存270以及本地存储设备280连接，以从车端缓存270里提取预定事件数据并将提取到的预定事件数据输入到本地存储设备280；以及，优先级模型的运行装置260以及预定事件数据收集装置250还分别和发送装置230连接，以便优先级为一级的有效数据以及预定事件数据能及时通过发送装置230发送到平台。

需要再次强调的是，图7只是无人驾驶车辆200内多个装置的一种可选连接方式，并不表示对多个装置连接方式的限定。多个装置可以依据以上各实施例描述的功能以其他方式连接，例如，若所有预定事件数据的优先级皆为一级，则预定事件数据提取装置250可以不再和本地存储设备280连接，也就是说，预定事件数据提取装置250可以直接和发送装置230连接以便及时将预定事件数据通过发送装置230发送到平台。

应当说明的是，在本文中，所含术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后应说明的是：显然，上述实施例仅仅是为清楚地说明本发明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims

1.一种无人驾驶车辆所收集数据的清洗方法，包括：

根据所述有效数据的优先级确定所述有效数据的发送时段；

2.根据权利要求1所述的清洗方法，还包括：

对所述无人驾驶车辆行驶时是否发生预定事件进行识别；

3.根据权利要求2所述的清洗方法，其中，

所述预定事件包括所述无人驾驶车辆异常行驶、所述无人驾驶车辆被远程接管中的至少一个；

4.根据权利要求2所述的清洗方法，其中，将所述预定事件数据发送给所述平台，包括：

5.根据权利要求4所述的清洗方法，其中，

如果所述有效数据或所述预定事件数据的优先级为一级，即时发送所述有效数据或所述预定事件数据；

6.根据权利要求5所述的清洗方法，其中，所述预定事件数据的优先级被预定为一级，所述有效数据的优先级被预定为大于一级。

7.根据权利要求2所述的清洗方法，其中，将所述预定事件数据发送给所述平台，包括：

8.根据权利要求7所述的清洗方法，其中，所述有效数据的优先级由优先级模型输出，所述优先级模型通过以下方式预先训练：

9.根据权利要求1-8中任一个所述的清洗方法，其中，所述主动学习模型通过以下方式预先训练：

10.根据权利要求1-8中任一个所述的清洗方法，还包括：通过车端缓存缓存所述无人驾驶车辆收集的数据，其中，输入所述主动学习模型的数据是从所述车端缓存中取出的。