CN112633518B

CN112633518B - 基于多主体互学习的自动驾驶模型训练方法及系统

Info

Publication number: CN112633518B
Application number: CN202110092965.8A
Authority: CN
Inventors: 潘晏涛; 韩晓健; 冉雪峰; 包哈达
Original assignee: Guoqi Intelligent Control Beijing Technology Co Ltd
Current assignee: Guoqi Intelligent Control Beijing Technology Co Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2024-03-01
Anticipated expiration: 2041-01-25
Also published as: CN112633518A

Abstract

本发明公开了一种基于多主体互学习的自动驾驶模型训练方法及系统，方法包括：通过获取目标车辆及其周边车辆的感知结果、时间、空间基准数据；将周边车辆的感知结果转化到目标车辆的时间、空间基准上；通过目标车辆及其周边车辆的感知结果，判断目标车辆与其周边车辆是否存在矛盾；当存在矛盾时，根据矛盾数据进行模型再训练，当训练结果满足预设条件时，更新目标车辆的自动驾驶模型。本发明提出了直接在常规驾驶状态下挖掘感知结果的矛盾数据，相比失效处理、接管处理触发的数据回传逻辑，本发明提供的方法不再局限于极限情况和临界情况及目标车辆本身的感知数据，提高了再训练数据集的构建效率及覆盖面。

Description

基于多主体互学习的自动驾驶模型训练方法及系统

技术领域

本发明涉及自动驾驶技术领域，具体涉及一种基于多主体互学习的自动驾驶模型训练方法及系统。

背景技术

当前，自动驾驶系统与传统信息系统的本质区别是信息物理系统与信息系统之间的区别，作为在实际道路交通环境中运行的智能机器人系统，自动驾驶系统缺少传统信息系统所具有的明确边界、传统机器人系统运行的场景边界。在自动驾驶架构中，作为车辆路径规划的依据，车辆的感知和定位是至关重要的两个环节，而在高级别自动驾驶中广泛采用的基于高精地图的高精度定位方案很大程度上依赖于对地图定位元素的视觉感知能力，因此提高视觉感知水平是提升自动驾驶能力关键。

基于深度学习的计算机视觉技术是主流视觉感知技术，其感知能力的高低主要取决于所采用的网络模型和训练的质量，深度学习模型训练质量依赖于所采用的数据集和标注的质量。当前所采用的模型训练如图1所示，分为交付前和交付后两个阶段。原始感知数据量巨大，量产车不具备专业采集车的车载高性能计算、大容量存储和车云高速通信能力，不可能回传所有数据。何时触发数据回传，回传哪些数据，成为交付后训练的关键问题。目前常见的以系统失效或用户接管触发数据回传的方式存在矛盾事件发现效率低下、覆盖面小的问题。

发明内容

因此，本发明提供的一种基于多主体互学习的自动驾驶模型训练方法及系统，克服了现有系统失效或用户接管触发数据回传方式存在矛盾事件发现效率低下、覆盖面小的缺陷。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供一种基于多主体互学习的自动驾驶模型训练方法，包括：

获取目标车辆及其周边车辆的感知数据及时间、空间基准数据；

根据目标车辆及其周边车辆的感知数据，获取目标车辆及其周边车辆的感知结果；

通过目标车辆及其周边车辆的感知结果、时间、空间基准数据，判断目标车辆与其周边车辆是否存在矛盾，所述矛盾包括：感知结果的不足及潜在的感知结果的不足；

当存在矛盾时，根据矛盾数据进行模型再训练，当训练结果满足预设条件时，更新目标车辆的自动驾驶模型。

在一实施例中，所述获取目标车辆及其周边车辆的感知数据，包括：分别获取目标车辆及其周边车辆自身的感知数据、独立于目标车辆及其周边车辆自身的感知设备获取的数据。

在一实施例中，获取目标车辆及其周边车辆的感知数据及时间、空间基准数据的过程，包括：

目标车辆及其周边车辆通过传感器及独立于目标车辆及其周边车辆自身的感知设备获取各自的感知数据；

将统一的时间基准数据下发至目标车辆及其周边车辆；

将统一的空间基准数据下发至目标车辆及其周边车辆。

在一实施例中，空间基准数据的获取包括：载波相位差分技术和局部地图定位技术；时间基准数据的获取包括：网络时间服务技术和卫星授时技术。

在一实施例中，感知数据包括：视觉感知数据、超声波感知数据、毫米波感知数据及红外感知数据；感知结果数据包括：感知对象的空间位置、姿态、时间戳，对象属性。

在一实施例中，感知结果采用将目标车辆及其周边车辆的感知数据，转换成统一的语义和语法、统一的时空基准、统一的标识符，并采用统一的交互协议。

在一实施例中，统一的语义和语法中，语义包括：高级语义、中级语义、初级语义；其中，初级语义包括：识别的对象和感知元数据；中级语义包括：事件发生时间、地点和对象分类；高级语义包括：静态对象的描述，交通参与者的状态认知、行为预测结果；

统一的标识符包括：前缀集和随机ID，其中，前缀集包括：空间、时间、类别、感知主体ID；

统一的交互协议包括：帧头和有效数据，其中，帧头部分的字段包括数据来源、分发类型、语义类别、数据格式、地域标识、时间戳、有效期、置信度和协议版本。

在一实施例中，通过目标车辆及其周边车辆的感知结果、时间、空间基准数据，判断目标车辆与其周边车辆是否存在矛盾的过程，包括：

目标车辆接收周边车辆的感知结果，根据帧头进行初筛，根据各感知对象的时间、空间基准数据筛选出和目标车辆感知有交集的部分，利用占据栅格进行多源感知结果的融合和比对，识别出未被当前自动驾驶模型识别出或识别错误的对象，判断目标车辆与其周边车辆是否存在矛盾。

在一实施例中，当存在矛盾时包括：利用占据栅格进行多源感知结果的融合和比对，识别出未被目标车辆当前自动驾驶模型识别出或识别错误的对象。

第二方面，本发明实施例提供一种基于多主体互学习的自动驾驶模型训练系统，包括：

数据获取模块，用于获取目标车辆及其周边车辆的感知数据及时间、空间基准数据；

感知结果获取模块，用于根据目标车辆及其周边车辆的感知数据，获取目标车辆及其周边车辆的感知结果；

矛盾判断模块，通过目标车辆及其周边车辆的感知结果、时间、空间基准数据，判断目标车辆与其周边车辆是否存在矛盾，所述矛盾包括：感知结果的不足及潜在的感知结果的不足；

再训练自动驾驶模型更新模块，用于当存在矛盾时，根据矛盾数据进行模型再训练，当训练结果满足预设条件时，更新目标车辆的自动驾驶模型。

第三方面，本发明实施例提供一种终端，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明实施例第一方面所述的基于多主体互学习的自动驾驶模型训练方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的基于多主体互学习的自动驾驶模型训练方法。

本发明技术方案，具有如下优点：

本发明提供的基于多主体互学习的自动驾驶模型训练方法及系统，通过获取目标车辆及其周边车辆的感知结果、时间、空间基准数据；将周边车辆的感知结果转化到目标车辆的时间、空间基准上；通过目标车辆及其周边车辆的感知结果，判断目标车辆与其周边车辆是否存在矛盾；当存在矛盾时，根据矛盾数据进行模型再训练，当训练结果满足预设条件时，更新目标车辆的自动驾驶模型。本发明提出了直接在常规驾驶状态下挖掘感知结果的矛盾数据，相比失效处理、接管处理触发的数据回传逻辑，本发明提供的方法不再局限于极限情况和临界情况及目标车辆本身的感知数据，提高了再训练数据集的构建效率及覆盖面。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术采用的模型训练流程图；

图2为本发明实施例提供的一种基于多主体互学习的自动驾驶模型训练方法的一个具体示例的流程图；

图3为本发明实施例提供的交互协议的示意图；

图4为本发明实施例提供的一种基于多主体互学习的自动驾驶模型训练方法的另一具体示例的流程图；

图5为本发明实施例提供的一种基于多主体互学习的自动驾驶模型训练系统的模块组成图；

图6为本发明实施例提供的一种基于多主体互学习的自动驾驶模型训练终端一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供的一种基于多主体互学习的自动驾驶模型训练方法，如图2所示，本发明主要是将处在统一交通环境中的其它具有环境感知能力的车辆（周边车辆）及具有感知能力的设备，作为检验自车（目标车辆）感知结果的监督者，包括如下步骤：

步骤S1：获取目标车辆及其周边车辆的感知数据及时间、空间基准数据。

在本发明实施例中，目标车辆及其周边车辆自身的感知数据、独立于目标车辆及其周边车辆自身的感知设备获取的数据，感知数据包括：视觉感知数据、超声波感知数据、毫米波感知数据及红外感知数据，仅以此举例，不以此为限，在实际应用中根据实际需求获取相应的感知数据，其感知数据的获取通过传感器、摄像头等装置，获取设备的选取根据获取的数据进行相应的选择，在此不作限制。

在本发明实施例中，将统一的时间基准数据下发至目标车辆及其周边车辆；将统一的空间基准数据下发至目标车辆及其周边车辆。例如，将云端时间服务获取的时间基准数据（经由路测设备）通过网络时间服务同步至目标车辆及其周边车辆，或由目标车辆及其周边车辆通过全球导航卫星系统（Global Navigation Satellite System，GNSS）取得统一授时；由目标车辆及其周边车辆通过GNSS取得统一空间基准下的全局定位，或将云端地图服务获取的各个车辆所用地图的空间基准数据（通过路测设备）无线传输至目标车辆及其周边车辆。路测设备设置在路边，相邻路测设备之间的距离根据实际需要探测的范围进行相应选择，通过路测设备完成云端和目标车辆及其周边车辆的无线通信，从而进行数据的传递，云端将全局时间通过路测设备传递给目标车辆及其周边车辆，使得目标车辆及其周边车辆在统一的时间基准，时间基准主要依靠全局和路测的时间服务器进行传递。

在本发明实施例中，各个车辆的空间基准数据通过卫星定位、自定位或路测定位获得。其中卫星定位由车辆借助导航卫星获得，期间可以借助路测的载波相位差分（Realtime kinematic，RTK）设施获得精度提升。自定位通过局部定位地图结合车辆感知获得。其中，局部定位地图可由车辆预装或从云端获得。确定应使用的定位用局部地图依赖于车辆的粗略定位。定位用局部地图的空间基准可包含在地图内部，也可由云端下发。路测定位由路测设备根据载波相位差分技术或局部地图定位技术获取各个车辆的定位，下发给车辆使用；时间基准数据的获取包括：网络时间服务技术和卫星授时技术。

步骤S2：根据目标车辆及其周边车辆的感知数据，获取目标车辆及其周边车辆的感知结果。

在本发明实施例中，感知结果数据包括：感知对象的空间位置、姿态、时间戳，对象属性，仅以此举例，不以此为限，在实际应用中根据实际需求获取相应的感知结果数据。

在本发明实施例中，将目标车辆及其周边车辆的感知数据，转换成统一的语义和语法、统一的时空基准、统一的标识符，并采用统一的交互协议，支持目标车辆及其周边车辆交换感知结果。

在本发明实施例中，统一的语义和语法包括：高级语义、中级语义、初级语义。在交互学习过程中，统一的语义保证交互双方对同一事物有相同的理解。在自动驾驶领域，感知处于认知的早期阶段，其概念较为具象和简单，通常是某一帧图上障碍物识别模块所给出的bndbox像素坐标和分类结果。为了理解这一感知结果所描述的对象或事件还需要知道车辆的世界坐标、传感器的内外参以及观测时间。把感知语义分为高级语义、中级语义和初级语义三个级别，使用时根据实际情况选择其中某种语义进行相应的转换和交互。

在本发明实施例中，初级语义包括：识别的对象和感知元数据；初级语义对应原始感知结果，识别的对象用像素坐标+对象进行分类描述，感知元数据包括事件或对象的观测时间、目标车辆的坐标和传感器内外参数，在此不作限制，其中，对象类型的分类进行统一规定，以方便交互。

在本发明实施例中，中级语义包括：事件发生时间、地点和对象分类；中级语义对应转换到全局坐标系和世界时间下的对象描述，包括对象或事件发生时间、地点和对象分类；由于视觉感知的对象分类和测距、测角精度都会随着被观测对象与摄像头之间的位置关系和运动关系而不同，所以上述结果需要标注置信度。

在本发明实施例中，高级语义包括：对静态对象（包括道路、标志标线、信号、路障等交通设施）的描述，对动态对象（包括各类车辆和其它交通参与者）的当前状态及预测的描述，对交通规则（如交通管制下的车道可用状态等）的描述。其中，对动态对象的描述如“前方路口处对向来车将要左转进入自车行驶路线”、“右侧岔路有车辆汇入”等。仅以此举例，不以此为限，在实际应用中根据实际需求选择相应的状态认知和行为预测结果，后者高级语义从定性的角度为目标车辆的决策提供判断的信息。

在本发明实施例中，高级语义采用简化的一阶谓词逻辑进行描述，仅以此举例，不以此为限，在实际应用中根据实际需求进行相应的语法选择，语法包括：

（1）论域和名词（names）：论域为一切出现在车辆交通场景中的事物及其类属，包括：道路设施类、交通工具类、行人类、其它类；其它类指出现在道路交通场景中的其它对象，包括影响道路交通的自然现象（如路面积水、积雪），出现在道路上的非交通参与者（如宠物等）等，仅以此举例，不以此为限，在实际应用中根据实际需求选择相应的其它对象。

（2）谓词(predicate)：描述个体（名词）的属性，以及个体之间的关系。

（3）逻辑符号(operators)：¬ ∧ ∨ 等。

（4）量词(quantifiers)：只支持特称量词 [∃]，不支持全称量词 [∀] 。

（5）变元(variable)：只支持受量词约束的约束变元，不支持不受量词约束的自由变元。

在一具体实施例中，以下谓词描述的是：发现有一辆小轿车，位于东经116.32490379度、北纬39.99220953度、海拔57米，车辆朝向东北，正以15米/秒的速度向东北方向行驶。

∃x, isCar(class(x))∧isWhite(color(x))∧

(post(x)=(39.99220953N,116.32490379E,57m)∧(attitude

(x)=(45°,0,0)∧(speed(x)=15m/s)∧(direct(x)=45°)。

在本发明实施例中，统一的标识符包括：前缀集和随机ID，其中，前缀集包括：空间、时间、类别、感知主体ID；感知结果进入交互学习系统后，其中的静态对象观测结果可以以空间信息的形式长时间驻留在系统中，用于校验之后进入该场景的其它自动驾驶系统的感知结果；其中的动态对象从进入场景到离开场景也会先后与一系列交通参与者进行交互，进入其自动驾驶系统的感知范围，因此，采用统一的标识符，方便在空间和时间上进行对象/事件的关联，可采用前缀集+随机ID的形式，如：空间-时间-类别-感知主体ID-随机ID，仅以此举例，不以此为限，在实际应用中根据实际需求选择相应的前缀集。

在本发明实施例中，如图3所示，统一的交互协议包括：帧头和有效数据，其中，帧头部分的字段包括数据来源、分发类型、语义类别、数据格式、地域标识、时间戳、有效期、置信度和协议版本。其中，数据源包括：车厂识别码、车型编码和车辆VIN码（用户可根据隐私保护需要选填车辆VIN码），仅以此举例，不以此为限，在实际应用中根据实际需求选择相应的数据源内容。分发类型包括：分发方式、共享范围等子字段，仅以此举例，不以此为限，在实际应用中根据实际需求选择相应的分发类型。分发方式包括广播、单播和多播；其中广播和多播的范围可由共享范围和目的地址共同决定。共享范围包括：同一区域或路段上的其它自动驾驶主体、同一厂家或同一车型的自动驾驶主体、采用同一类型传感器或感知算法/模型的自动驾驶主体，以及实现相同或类似功能的自动驾驶主体，仅以此举例，不以此为限，在实际应用中根据实际需求选择相应的共享范围。语义类别指明协议报文所承载数据属于哪一语义级别，地域标识为使用者筛选与自己有时空交集的感知结果提供方便。传感器型号等信息则包含在有效数据部分，有效数据的内容在此不作限制，根据实际需求进行相应的选择。

步骤S3：通过目标车辆及其周边车辆的感知结果、时间、空间基准数据，判断目标车辆与其周边车辆是否存在矛盾，所述矛盾包括：感知结果的不足及潜在的感知结果的不足。

在本发明实施例中，感知结果的不足，包括：感知误检、漏检，其中误检包括对象分类错误、属性错误、位置错误、姿态错误等；潜在的感知结果的不足包括：目标车辆及其周边车辆对感知的结果不能确定对错，比如：对于周边车辆感知到的数据，其不能判断感知到的结果数据是对是错。出现感知结果不足的情况时，车辆可能处于碰撞或碰撞边缘的场景，也可能处在常规驾驶状态下还未处于危险以及碰撞等的临界状况，在此不作限制。因感知结果不足及潜在的感知结果的不足和车辆状态不直接相关，所以可以直接在常规驾驶状态下挖掘感知结果的矛盾数据，相比失效处理、接管处理触发的数据回传逻辑，不再局限于极限情况和临界情况，提高了再训练数据集的构建效率及覆盖面，仅以此举例，不以此为限，在实际应用中根据实际需求选择相应的不足数据。

通过目标车辆及其周边车辆的感知结果、时间、空间基准数据，判断目标车辆与其周边车辆是否存在矛盾的过程，包括：目标车辆接收周边车辆及其它具有感知能力设备的感知结果，根据帧头进行初筛，根据各感知对象的时间、空间基准数据筛选出和目标车辆感知有交集的部分，进行占据栅格的比对，识别出未被当前自动驾驶模型识别出或识别错误的对象，判断目标车辆与其周边车辆是否存在矛盾，仅以此举例，不以此为限，在实际应用中根据实际需求选择感知结果的对比方式。

步骤S4：当存在矛盾时，根据矛盾数据进行模型再训练，当训练结果满足预设条件时，更新目标车辆的自动驾驶模型。

在本发明实施例中，当存在矛盾时包括：利用占据栅格进行多源感知结果的融合和比对，识别出未被目标车辆当前自动驾驶模型识别出或识别错误的对象。其中，根据感知矛盾，将目标车辆的感知数据、感知结果以及其它车辆感知结果回传到云端，并通过自动或半自动标注制作再训练数据进行训练，当训练结果满足预设条件时，更新目标车辆的自动驾驶模型。

在本发明实施例中，目标车辆根据感知结果的比对结果回传数据后，所述比对结果指目标车辆与周围车辆的感知结果进行比对，云端对回传数据进行自动化筛选和标注，在此过程中周围车辆的感知结果具有不同权重，该权重取决于周围车辆历史上对其它目标车辆感知错误发现过程的贡献大小。例如，把周边车辆当作学习监督者，目标车辆当作学习者，监督者给出的建议有不同的权重，这个权重取决于目标车辆最终确定的感知错误中有多少是与该监督者的“建议”是一致的。

本发明提出了直接在常规驾驶状态下挖掘感知结果的矛盾数据，相比失效处理、接管处理触发的数据回传逻辑，本发明提供的方法不再局限于极限情况和临界情况，提高了再训练数据集的构建效率及覆盖面。

在一具体实施例中，如图4所示，以中级语义交互学习为例，其中，云端和路测提供互学习所需的一致时空基准，时间基准主要依靠全局和路测的时间服务器；空间基准包括RTK定位服务和高精度地图服务两部分。参与互学习的车辆获取一致的时空基准，并将它们各自的感知结果处理为该时空基准下的感知结果，然后以中级语义（多层占据栅格尺度地图）进行描述，并通过交互协议进行交互。收到其它车辆发来的感知结果后，自车首先根据帧头进行初筛，然后根据其内容中各感知对象的时空标记筛选出和自车感知有交集的部分，接着进行占据栅格的比对，识别出未被自身感知模型识别出或识别错误的对象，构造上报数据并回传给云端的再训练服务。

本发明实施例中提供的基于多主体互学习的自动驾驶模型训练方法，通过获取目标车辆及其周边车辆的感知结果、时间、空间基准数据；将周边车辆的感知结果转化到目标车辆的时间、空间基准上；通过目标车辆及其周边车辆的感知结果，判断目标车辆与其周边车辆是否存在矛盾；当存在矛盾时，根据矛盾数据进行模型再训练，当训练结果满足预设条件时，更新目标车辆的自动驾驶模型。本发明提出了直接在常规驾驶状态下挖掘感知结果的矛盾数据，相比失效处理、接管处理触发的数据回传逻辑，本发明提供的方法不再局限于极限情况和临界情况及目标车辆本身的感知数据，提高了再训练数据集的构建效率及覆盖面。

实施例2

本发明实施例提供一种基于多主体互学习的自动驾驶模型训练系统，如图5所示，包括：

数据获取模块1，用于获取目标车辆及其周边车辆的感知数据及时间、空间基准数据；此模块执行实施例1中的步骤S1所描述的方法，在此不再赘述。

感知结果获取模块2，用于根据目标车辆及其周边车辆的感知数据，获取目标车辆及其周边车辆的感知结果；此模块执行实施例1中的步骤S2所描述的方法，在此不再赘述。

矛盾判断模块3，用于通过目标车辆及其周边车辆的感知结果、时间、空间基准数据，判断目标车辆与其周边车辆是否存在矛盾，所述矛盾包括：感知结果的不足及潜在的感知结果的不足；此模块执行实施例1中的步骤S3所描述的方法，在此不再赘述。

再训练自动驾驶模型更新模块4，用于当存在矛盾时，根据矛盾数据进行模型再训练，当训练结果满足预设条件时，更新目标车辆的自动驾驶模型；此模块执行实施例1中的步骤S4所描述的方法，在此不再赘述。

本发明实施例提供一种基于多主体互学习的自动驾驶模型训练系统，通过获取目标车辆及其周边车辆的感知结果、时间、空间基准数据；将周边车辆的感知结果转化到目标车辆的时间、空间基准上；通过目标车辆及其周边车辆的感知结果，判断目标车辆与其周边车辆是否存在矛盾；当存在矛盾时，根据矛盾数据进行模型再训练，当训练结果满足预设条件时，更新目标车辆的自动驾驶模型。本发明提出了直接在常规驾驶状态下挖掘感知结果的矛盾数据，相比失效处理、接管处理触发的数据回传逻辑，本发明提供的系统不再局限于极限情况和临界情况及目标车辆本身的感知数据，提高了再训练数据集的构建效率及覆盖面。

实施例3

本发明实施例提供一种终端，如图6所示，包括：至少一个处理器401，例如CPU（Central Processing Unit，中央处理器），至少一个通信接口403，存储器404，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，通信接口403可以包括显示屏（Display）、键盘（Keyboard），可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器（Random Access Memory，易挥发性随机存取存储器），也可以是非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的基于多主体互学习的自动驾驶模型训练方法。存储器404中存储一组程序代码，且处理器401调用存储器404中存储的程序代码，以用于执行实施例1中的基于多主体互学习的自动驾驶模型训练方法。其中，通信总线402可以是外设部件互连标准（peripheralcomponent interconnect，简称PCI）总线或扩展工业标准结构（extended industrystandard architecture，简称EISA）总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。其中，存储器404可以包括易失性存储器（英文：volatile memory），例如随机存取存储器（英文：random-access memory，缩写：RAM）；存储器也可以包括非易失性存储器（英文：non-volatile memory），例如快闪存储器（英文：flash memory），硬盘（英文：hard diskdrive，缩写：HDD）或固降硬盘（英文：solid-state drive，缩写：SSD）；存储器404还可以包括上述种类的存储器的组合。其中，处理器401可以是中央处理器（英文：centralprocessing unit，缩写：CPU），网络处理器（英文：network processor，缩写：NP）或者CPU和NP的组合。

其中，存储器404可以包括易失性存储器（英文：volatile memory），例如随机存取存储器（英文：random-access memory，缩写：RAM）；存储器也可以包括非易失性存储器（英文：non-volatile memory），例如快闪存储器（英文：flash memory），硬盘（英文：hard diskdrive，缩写：HDD）或固态硬盘（英文：solid-state drive，缩写：SSD）；存储器404还可以包括上述种类的存储器的组合。

其中，处理器401可以是中央处理器（英文：central processing unit，缩写：CPU），网络处理器（英文：network processor，缩写：NP）或者CPU和NP的组合。

其中，处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路（英文：application-specific integrated circuit，缩写：ASIC），可编程逻辑器件（英文：programmable logic device，缩写：PLD）或其组合。上述PLD可以是复杂可编程逻辑器件（英文：complex programmable logic device，缩写：CPLD），现场可编程逻辑门阵列（英文：field-programmable gate array，缩写：FPGA），通用阵列逻辑（英文：generic arraylogic, 缩写：GAL）或其任意组合。

可选地，存储器404还用于存储程序指令。处理器401可以调用程序指令，实现如本申请执行实施例1中的基于多主体互学习的自动驾驶模型训练方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行实施例1中的基于多主体互学习的自动驾驶模型训练方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（Random Access Memory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于多主体互学习的自动驾驶模型训练方法，其特征在于，包括：

获取目标车辆及其周边车辆的感知数据及时间、空间基准数据，包括：

将统一的时间基准数据下发至目标车辆及其周边车辆；

将统一的空间基准数据下发至目标车辆及其周边车辆；

2.根据权利要求1所述的基于多主体互学习的自动驾驶模型训练方法，其特征在于，空间基准数据的获取包括：载波相位差分技术和局部地图定位技术；时间基准数据的获取包括：网络时间服务技术和卫星授时技术。

3.根据权利要求2所述的基于多主体互学习的自动驾驶模型训练方法，其特征在于，感知数据包括：视觉感知数据、超声波感知数据、毫米波感知数据及红外感知数据；感知结果数据包括：感知对象的空间位置、姿态、时间戳，对象属性。

4.根据权利要求1所述的基于多主体互学习的自动驾驶模型训练方法，其特征在于，感知结果采用将目标车辆及其周边车辆的感知数据，转换成统一的语义和语法、统一的时空基准、统一的标识符，并采用统一的交互协议。

5.根据权利要求4所述的基于多主体互学习的自动驾驶模型训练方法，其特征在于，统一的语义和语法中，语义包括：高级语义、中级语义、初级语义；其中，初级语义包括：识别的对象和感知元数据；中级语义包括：事件发生时间、地点和对象分类；高级语义包括：静态对象的描述，交通参与者的状态认知、行为预测结果；

6.根据权利要求5所述的基于多主体互学习的自动驾驶模型训练方法，其特征在于，通过目标车辆及其周边车辆的感知结果、时间、空间基准数据，判断目标车辆与其周边车辆是否存在矛盾的过程，包括：

7.根据权利要求1所述的基于多主体互学习的自动驾驶模型训练方法，其特征在于，当存在矛盾时包括：利用占据栅格进行多源感知结果的融合和比对，识别出未被目标车辆当前自动驾驶模型识别出或识别错误的对象。

8.一种基于多主体互学习的自动驾驶模型训练系统，其特征在于，包括：

数据获取模块，用于获取目标车辆及其周边车辆的感知数据及时间、空间基准数据，包括：

将统一的时间基准数据下发至目标车辆及其周边车辆；

将统一的空间基准数据下发至目标车辆及其周边车辆；

9.一种终端，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-7任一所述的基于多主体互学习的自动驾驶模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-7任一所述的基于多主体互学习的自动驾驶模型训练方法。