CN115951587A

CN115951587A - 自动驾驶控制方法、装置、设备、介质及自动驾驶车辆

Info

Publication number: CN115951587A
Application number: CN202310226674.2A
Authority: CN
Inventors: 邓琪; 李茹杨; 胡奇夫; 张亚强; 赵雅倩; 李仁刚
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-04-11
Anticipated expiration: 2043-03-10
Also published as: CN115951587B

Abstract

本申请涉及交通运输技术领域，具体公开了一种自动驾驶控制方法、装置、设备、介质及自动驾驶车辆，通过用于采集自动驾驶环境特征的自动驾驶环境感知网络和驾驶决策网络构建初始驾驶决策模型，自初始驾驶决策模型起，在每次迭代训练中采用量化后的驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成包括驾驶状态、驾驶动作和环境奖励的训练数据以更新驾驶决策模型，降低了驾驶决策模型训练过程中的内存占用和通信任务量，从而可以在满足环境交换量的同时占用更少的计算资源得到可以执行自动驾驶任务的最终驾驶决策模型，实现更少的计算资源需求和更高效的自动驾驶方案落地，利用自动驾驶技术的推广与应用。

Description

自动驾驶控制方法、装置、设备、介质及自动驾驶车辆

技术领域

本申请涉及交通运输技术领域，特别是涉及一种自动驾驶控制方法、装置、设备、介质及自动驾驶车辆。

背景技术

自动驾驶技术是一个集环境感知、决策规划、控制执行等门类于一体的技术领域。在当前交通运输领域，让车辆能够脱离人为控制，实现自动安全行驶，从而提高道路交通智能化水平，是自动驾驶技术的研究目标。

自动驾驶的准确决策依赖于对环境信息的准确感知以及基于环境信息准确得到驾驶策略。由于自动驾驶的环境存在较大的多样性和复杂性，采用打破了先验规则与专家数据的性能限制、可实现超越人类的决策水平的基于深度强化学习的智能决策方法实现自动驾驶的自动决策，是现今自动驾驶领域研究的一个热点。

基于深度强化学习的自动驾驶技术，结合了强化学习的决策能力与深度学习的抽象表达能力，能够处理自动驾驶技术中高维复杂非线性的决策问题，通过车辆与环境交互产生训练样本，在环境反馈奖励的指导下，以得到最大化累计奖励的驾驶策略为目标迭代优化决策模型。基于深度强化学习的自动驾驶技术对车辆的自动驾驶具有良好的自学习能力，但同时要求足够大的探索规模来保证训练效果。具体来说，由于车辆所处的驾驶环境是多变而复杂的，基于深度强化学习的自动驾驶的学习任务需求也会随之发生动态变化。针对差异化场景的感知复杂性，现有方案通过融合越来越多样化的传感数据来提高环境上下文表征能力，实现更全面的感知状态描述，降低环境差异影响。但与此同时，决策模型将要处理更高维度的状态空间，导致训练复杂度成倍上升。此外，为确保决策模型面对多场景需求的鲁棒性与泛化性，要求足够大的探索规模来覆盖所有可能的决策情况，导致一次训练过程要耗费上百小时甚至数十天，不仅不利于方案迭代，也对计算资源提出了更高的要求。这导致自动驾驶方案的部署成本居高不下，落地效率较低，不利于自动驾驶技术的推广。

提供一种高效的基于深度强化学习的自动驾驶决策方案，是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的是提供一种自动驾驶控制方法、装置、设备、介质及自动驾驶车辆，用于实现更高效的自动驾驶控制。

为解决上述技术问题，本申请提供一种自动驾驶控制方法，包括：

构建用于采集自动驾驶环境特征的自动驾驶环境感知网络；

构建以自动驾驶环境特征为状态输入数据的驾驶决策网络，用于基于采集到的所述自动驾驶环境特征来生成驾驶动作的决策；

根据所述自动驾驶环境感知网络和所述驾驶决策网络生成初始驾驶决策模型；

自所述初始驾驶决策模型起，对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，并采用所述量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成训练数据，再利用所述训练数据更新所述驾驶决策模型，直至训练结束，得到最终驾驶决策模型；

将实时自动驾驶环境特征输入所述最终驾驶决策模型，得到自动驾驶策略，并根据所述自动驾驶策略控制车辆的驾驶动作；

其中，所述自动驾驶环境特征包括特征融合后的环境状态信息与车辆状态信息；每个所述训练数据均包括驾驶状态、驾驶动作和环境奖励。

可选的，所述环境状态信息具体为车辆鸟瞰图；

所述环境状态信息的获取过程，具体包括：

获取车辆监控视频；

对所述车辆监控视频进行目标检测处理、数据融合处理以及语义分割处理，自原始多模态感知信息中构建得到包含关键环境语义信息的所述车辆鸟瞰图。

可选的，所述关键环境语义信息具体包括：目标车辆的车辆信息、所述目标车辆的背景建筑信息、可行驶区域信息、交通标志信息、所述目标车辆的交通参与者信息中的至少一种。

可选的，采集所述自动驾驶环境特征具体包括：

利用车载传感设备和/或路面监控设备采集所述环境状态信息；

利用所述自动驾驶环境感知网络中的卷积网络自所述环境状态信息中提取低维潜在关键环境特征；

利用所述自动驾驶环境感知网络中的第一全连接网络对所述车辆状态信息进行编码，得到车辆状态特征；

利用所述自动驾驶环境感知网络中的第二全连接网络对所述低维潜在关键环境特征和所述车辆状态特征进行特征融合，得到所述自动驾驶环境特征。

可选的，所述低维潜在关键环境特征具体包括：目标车辆与前方车辆的距离、所述目标车辆到最近停车位置的距离、所述目标车辆与车道标识的距离、距离所述目标车辆最近的交通灯状态中的至少一种。

可选的，所述根据所述自动驾驶环境感知网络和所述驾驶决策网络生成初始驾驶决策模型，具体为：

将所述自动驾驶环境感知网络嵌入所述驾驶决策网络的训练中，利用梯度传播与所述驾驶决策网络一同更新参数。

可选的，所述驾驶决策网络具体为近端策略优化网络；

所述近端策略优化网络具体包括：用于选取车辆动作的策略网络以及用于评估动作优劣以指导所述驾驶决策模型优化的价值网络。

可选的，所述根据所述自动驾驶环境感知网络和所述驾驶决策网络生成初始驾驶决策模型，具体包括：

构建随机生成初始化参数的所述初始驾驶决策模型；

采用所述初始驾驶决策模型执行所述环境交互推理任务，生成初始交互数据；

将所述初始交互数据存入数据缓存区，直至填满所述数据缓存区后，进入所述自所述初始驾驶决策模型起，对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，并采用所述量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成训练数据，再利用所述训练数据更新所述驾驶决策模型，直至训练结束，得到最终驾驶决策模型的步骤。

可选的，所述利用所述训练数据更新所述驾驶决策模型，具体为：

采用分布式随机梯度下降法利用所述训练数据更新所述驾驶决策模型。

可选的，所述采用分布式随机梯度下降法利用所述训练数据更新所述驾驶决策模型，具体包括：

自当前迭代训练的所述训练数据中随机抽取小批量数据分别发送至多个第一计算节点以计算得到局部梯度；

对各所述局部梯度进行聚合得到全局梯度；

利用所述全局梯度更新所述驾驶决策模型。

可选的，所述自当前迭代训练的所述训练数据中随机抽取小批量数据分别发送至多个第一计算节点以计算得到局部梯度，具体为：

根据各所述第一计算节点的硬件资源，自当前迭代训练的所述训练数据中随机抽取相应数量的小批量数据并对应发送至所述第一计算节点以计算得到所述局部梯度；

相应的，所述对各所述局部梯度进行聚合得到全局梯度，具体为：

根据对各所述第一计算节点分配小批量数据的分配量对各所述局部梯度进行加权梯度聚合得到所述全局梯度。

可选的，所述对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，具体包括：

预先接收根据执行所述环境交互推理任务的第二计算节点的硬件资源情况确定的量化位数；

对所述驾驶决策模型执行所述量化位数的量化处理，得到所述量化驾驶决策模型。

可选的，所述对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，具体通过下式计算：

；

；

其中， n为量化位数，

为 n位量化操作，

为取整操作，

为量化参数，

为所述驾驶决策模型的模型参数。

对所述驾驶决策模型中的卷积层部分采用逐信道量化方式对权重进行量化；

对所述驾驶决策模型中的全连接层的权重以及所述驾驶决策模型中的所有激活值均采用逐层方式进行量化。

可选的，所述采用所述量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成训练数据，具体为：

通过多进程采用所述量化驾驶决策模型执行所述环境交互推理任务，生成所述训练数据。

可选的，所述通过多进程采用所述量化驾驶决策模型执行所述环境交互推理任务，生成所述训练数据，具体包括：

预先将多个负责执行动作的执行器与一个负责决策推理的推理器相关联；

基于各所述执行器分别对应一个环境交互进程以执行从所述推理器获取的决策动作控制环境中的智能体进行状态转移；

基于所述推理器根据各所述执行器反馈的新状态，采用所述量化驾驶决策模型执行统一决策推理，得到各环境中所述智能体下一步执行的动作。

可选的，所述基于各所述执行器分别对应一个环境交互进程以执行从推理器获取的决策动作控制环境中智能体进行状态转移，具体为：

基于各所述执行器以并行进程运行自动驾驶模拟器，从城市设施、道路拓扑、交通流中至少两个方面构建差异化环境，并以同步方式控制车辆执行驾驶动作。

通过多进程、每个进程开启多组交替执行的决策环境并交互的方式，采用所述量化驾驶决策模型执行所述环境交互推理任务，生成所述训练数据。

可选的，所述自所述初始驾驶决策模型起，对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，并采用所述量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成训练数据，再利用所述训练数据更新所述驾驶决策模型，直至训练结束，得到最终驾驶决策模型，具体包括：

自所述初始驾驶决策模型起，基于第三计算节点执行对每次迭代训练中的所述驾驶决策模型进行量化处理得到所述量化驾驶决策模型的任务，基于第四计算节点交替执行采用所述量化驾驶决策模型执行所述环境交互推理任务生成所述训练数据的任务以及利用所述训练数据更新所述驾驶决策模型的任务，直至训练结束，得到所述最终驾驶决策模型。

为解决上述技术问题，本申请还提供一种自动驾驶控制装置，包括：

感知网络构建单元，用于构建用于采集自动驾驶环境特征的自动驾驶环境感知网络；

决策网络构建单元，用于构建以自动驾驶环境特征为状态输入数据的驾驶决策网络，用于基于采集到的所述自动驾驶环境特征来生成驾驶动作的决策；

初始模型构建单元，用于根据所述自动驾驶环境感知网络和所述驾驶决策网络生成初始驾驶决策模型；

训练单元，用于自所述初始驾驶决策模型起，对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，并采用所述量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成训练数据，再利用所述训练数据更新所述驾驶决策模型，直至训练结束，得到最终驾驶决策模型；

控制单元，用于将实时自动驾驶环境特征输入所述最终驾驶决策模型，得到自动驾驶策略，并根据所述自动驾驶策略控制车辆的驾驶动作；

为解决上述技术问题，本申请还提供一种自动驾驶控制设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，所述计算机程序被所述处理器执行时实现如上述任意一项所述自动驾驶控制方法的步骤。

为解决上述技术问题，本申请还提供一种介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述自动驾驶控制方法的步骤。

为解决上述技术问题，本申请还提供一种自动驾驶车辆，包括控制器，所述控制器用于执行如上述任意一项所述自动驾驶控制方法的步骤。

本申请所提供的自动驾驶控制方法，通过构建用于采集特征融合后的环境状态信息与车辆状态信息的自动驾驶环境特征的自动驾驶环境感知网络，以自动驾驶环境特征为状态输入数据，构建驾驶决策网络，根据自动驾驶环境感知网络和驾驶决策网络生成初始驾驶决策模型；在初始驾驶决策模型的基础上进行迭代训练，并在每次迭代训练中采用量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成包括驾驶状态、驾驶动作和环境奖励的训练数据以更新驾驶决策模型，降低了每次迭代中需要部署的驾驶决策模型的数据量，从而可以在满足环境交换量的同时占用更少的计算资源得到最终驾驶决策模型；利用该最终驾驶决策模型输入实时自动驾驶环境特征得到自动驾驶策略，并根据自动驾驶策略控制车辆的驾驶动作，实现更少的计算资源需求和更高效的自动驾驶方案落地。

本申请还提供一种自动驾驶控制装置、设备、介质及自动驾驶车辆，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种自动驾驶控制方法的流程图；

图2为一种传统训练方法示意图；

图3为一种分布式训练方法示意图；

图4为本申请实施例提供的一种并行量化加速后的驾驶决策模型分布式训练方法示意图；

图5为本申请实施例提供的一种多GPU分布式并行更新驾驶决策模型示意图；

图6为本申请实施例提供的一种多进程并行交互框架示意图；

图7为本申请实施例提供的一种自动驾驶控制装置的结构示意图；

图8为本申请实施例提供的一种自动驾驶控制设备的结构示意图。

具体实施方式

本申请的核心是提供一种自动驾驶控制方法、装置、设备、介质及自动驾驶车辆，用于实现更高效的自动驾驶控制。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面对本申请实施例一进行说明。

图1为本申请实施例提供的一种自动驾驶控制方法的流程图；图2为一种传统训练方法示意图；图3为一种分布式训练方法示意图；图4为本申请实施例提供的一种并行量化加速后的驾驶决策模型分布式训练方法示意图。

如图1所示，本申请实施例提供的自动驾驶控制方法包括。

S101：构建用于采集自动驾驶环境特征的自动驾驶环境感知网络。

S102：构建以自动驾驶环境特征为状态输入数据的驾驶决策网络，用于基于采集到的自动驾驶环境特征来生成驾驶动作的决策。

S103：根据自动驾驶环境感知网络和驾驶决策网络生成初始驾驶决策模型。

S104：自初始驾驶决策模型起，对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，并采用量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成训练数据，再利用训练数据更新驾驶决策模型，直至训练结束，得到最终驾驶决策模型。

S105：将实时自动驾驶环境特征输入最终驾驶决策模型，得到自动驾驶策略，并根据自动驾驶策略控制车辆的驾驶动作。

其中，自动驾驶环境特征包括特征融合后的环境状态信息与车辆状态信息；每个训练数据均包括驾驶状态、驾驶动作和环境奖励。

基于深度强化学习的自动驾驶决策模型训练加速依赖大量硬件资源，导致计算成本过高，不利于技术迭代与应用落地。本申请实施例提供一种量化加速的驾驶决策模型训练方法，通过对驾驶决策模型进行量化后再进行车辆与环境交互产生训练数据的任务，降低每次迭代中需要部署的驾驶决策模型的数据量，以更少的计算资源更快地得到训练数据以更新驾驶决策模型，进而加快最终驾驶决策模型的训练进度，更快地实现自动驾驶方案的落地，投入实际驾驶环境中根据自动驾驶环境特征实现对车辆的驾驶动作的自动控制。

为实现上述目的，首先要搭建初始驾驶决策模型。

对于S101来说，自动驾驶车辆要实现自动驾驶，需要能够获取驾驶环境的信息。则需要构建用于采集自动驾驶环境特征的自动驾驶环境感知网络。要采集的自动驾驶环境特征来源于环境状态信息与车辆状态信息。其中，环境状态信息可以包括但不限于自动驾驶车辆的车载传感设备所采集的环境状态信息、道路辅助设备提供的环境状态信息、云端提供的环境状态信息等。车载传感设备可以包括但不限于摄像头、雷达等，采用多种车载传感设备采集环境状态信息，获取到如RGB图像、雷达点云等多模态环境感知信息。同时利用车辆内置状态测量装置记录驾驶过程中车辆状态信息，包括位置、速度、转向角等观测数据。将环境状态信息与车辆状态信息相结合用于表征驾驶状态，作为驾驶动作选取和评估的重要依据。

考虑到自动驾驶场景多样性与随机性，环境状态信息具体可以采用车辆鸟瞰图（BEV图）。则环境状态信息的获取过程，具体包括：获取车辆监控视频；对车辆监控视频进行目标检测处理、数据融合处理以及语义分割处理，自原始多模态感知信息中构建得到包含关键环境语义信息的车辆鸟瞰图。

具体来说，采用车辆鸟瞰图来表示环境状态信息，降低环境感知差异影响，然后与车辆状态信息一同作为驾驶状态表示。其中车辆鸟瞰图主要通过目标检测、数据融合、语义分割等技术从多种感知设备所获取的车辆的原始多模态感知信息中构建得到，可以包含目标车辆的车辆信息、目标车辆的背景建筑信息、可行驶区域信息、交通标志信息、目标车辆的交通参与者信息中的至少一种关键环境语义信息，保留道路空间布局以及车辆决策所需的大部分信息。

对于S102来说，构建以自动驾驶环境特征为状态输入数据的驾驶决策网络，用于基于采集到的自动驾驶环境特征来生成驾驶动作的决策。

对于S103来说，根据自动驾驶环境感知网络和驾驶决策网络生成初始驾驶决策模型，实现自动驾驶中自动采集自动驾驶环境特征并进行驾驶动作决策。

对于S104来说，针对基于深度强化学习的自动驾驶决策模型训练加速依赖大量硬件资源，导致计算成本过高的问题，在每次迭代训练时均将驾驶决策模型进行量化处理后再进行与自动驾驶环境的环境交互推理任务，生成的训练数据用于更新驾驶决策模型。S103中生成的初始驾驶决策模型没有训练数据来源，可以先随机生成初始化参数。则S104中根据自动驾驶环境感知网络和驾驶决策网络生成初始驾驶决策模型，具体可以包括：

构建随机生成初始化参数的初始驾驶决策模型；

采用初始驾驶决策模型执行环境交互推理任务，生成初始交互数据；

将初始交互数据存入数据缓存区，直至填满数据缓存区后，进入自初始驾驶决策模型起，对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，并采用量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成训练数据，再利用训练数据更新驾驶决策模型，直至训练结束，得到最终驾驶决策模型的步骤。

其中，初始驾驶决策模型是随机生成初始化参数的模型，可以采用全精度的初始驾驶决策模型先生成一次初始交互数据，而后的驾驶决策模型再进行量化处理后再投入环境交互推理任务中。或者，也可以自初始驾驶决策模型开始就每次均先量化再投入环境交互推理任务。

模型量化是将占用计算资源多的高比特数据转换为占用计算资源少的低比特数据的过程。在本申请实施例中，将驾驶决策模型进行量化得到量化驾驶决策模型，即将全精度的驾驶决策模型进行n位量化后得到n位量化编码的驾驶决策模型，降低了模型本身的数据量。这在执行环境交互推理任务时相较于采用全精度的驾驶决策模型既减少了部署模型所需的资源和时间，又加快了与环境交互推理产生训练任务的时间，从而可以在更少的计算资源上产生更多的训练数据。产生的训练数据存于数据缓存区，而后发送至用于执行模型更新任务的更新模块以对全精度的驾驶决策模型进行模型参数更新。

请参考图2和图3。其中图2为一种传统训练方法，这种传统训练方法是在一个计算模块中循环执行采集样本和模型参数更新两个步骤，即在一个计算模块部署更新模块和执行模块，执行模块从更新模块获取第 t次迭代的驾驶决策模型，利用该驾驶决策模型与驾驶决策环境交互，自驾驶决策环境中执行驾驶动作 a _t，接收到驾驶决策环境的环境奖励 r _t和驾驶状态 s _t+1（ s _t），则得到交互数据包括（ a _t， r _t， s _t+1）存储于数据缓存区；更新模块自数据缓存区获取交互数据进行驾驶决策模型的更新，进入下一次迭代。由于资源限制，这种传统的自动驾驶训练方案的训练效率极低。图3提供一种分布式训练方案，相较于图1来说，将样本采集和驾驶模型训练交给不同的计算模块，引入执行器（Actor）和推理器（Learner）的概念，其中执行器为执行模块，负责与环境交互产生训练样本，推理器为更新模块，负责模型训练，该架构此采用多个执行器进程，每个执行器分别执行交互过程，并将训练样本发送给推理器统一实现模型优化，推理器完成优化后将新的模型参数发送给所有执行器，继续下一轮交互过程，通过并行交互加速模型训练过程，该方法能显著缩短训练时长并提高学习效果，但由于多执行器进程的并行计算需要通过部署数百甚至数千个计算节点来实现，且要使用大量硬件资源，导致硬件计算量、功耗过高，驾驶决策模型训练成本高昂。

参考上述两种传统训练方案，本申请实施例提供的自动驾驶控制方法可以在对驾驶决策模型进行量化后再执行环境交互推理任务的同时，引入分布式训练方案，且除了实现分布式交互外，还可以实现分布式更新，即如图4所示的一种并行加速量化的驾驶决策模型分布式训练方案，其中更新模块可以包括多个第一计算节点，第一计算节点可以采用图形处理器（Graphics Processing Unit，GPU），由多个第一计算节点执行对驾驶决策模型的参数更新任务，可以显著提升模型更新效率；执行模块也可以由多个第二计算节点组成，以并行执行环境交互推理任务。在更新模块和执行模块之间增加量化模块，将全精度的驾驶决策模型进行 n位量化编码转换为低精度参数的量化驾驶决策模型。基于此并行量化加速后的驾驶决策模型分布式训练框架，在执行S104时，自初始驾驶决策模型开始，每次迭代训练中将更新模块得到的驾驶决策模型输入量化模块进行 n位量化编码后得到量化驾驶决策模型，执行模块将量化驾驶决策模型部署于多个环境中并行执行环境交互推理任务，不断从环境中采集观测值，并做出驾驶动作的决策，以得到的交互数据作为训练数据，包括驾驶状态、驾驶动作和环境奖励，存入数据缓存区，更新模块利用数据缓存区的数据更新驾驶决策模型，如此循环，直至达到训练结束条件。

训练结束条件可以为达到驾驶决策模型的交互-更新周期达到预设迭代次数，或模型参数达到预设收敛值。

对于S105来说，当迭代训练次数达到驾驶决策模型的交互-更新周期达到预设迭代次数时，将最终驾驶决策模型部署于自动驾驶应用，通过自动驾驶车辆的车载传感设备、道路辅助设备、云端等提供的实时环境状态信息，以及自动驾驶车辆内置的状态测量装置记录驾驶过程中的实时车辆状态信息，经过特征融合后得到实时自动驾驶环境特征，具体处理过程可以参考上述对S101的说明。将实时自动驾驶环境特征输入最终驾驶决策模型，得到自动驾驶策略，如加速、减速、转弯等，并根据当前驾驶控制模式，如处于自动驾驶模式则执行相应的驾驶动作，如处于手动驾驶模式则可以将自动驾驶策略提供给驾驶员参考。

本申请实施例提供的自动驾驶控制方法，通过构建用于采集特征融合后的环境状态信息与车辆状态信息的自动驾驶环境特征的自动驾驶环境感知网络，以自动驾驶环境特征为状态输入数据，构建驾驶决策网络，根据自动驾驶环境感知网络和驾驶决策网络生成初始驾驶决策模型；在初始驾驶决策模型的基础上进行迭代训练，并在每次迭代训练中采用量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成包括驾驶状态、驾驶动作和环境奖励的训练数据以更新驾驶决策模型，降低了每次迭代中需要部署的驾驶决策模型的数据量，从而可以在满足环境交换量的同时占用更少的计算资源得到最终驾驶决策模型；利用该最终驾驶决策模型输入实时自动驾驶环境特征得到自动驾驶策略，并根据自动驾驶策略控制车辆的驾驶动作，实现更少的计算资源需求和更高效的自动驾驶方案落地。

下面对本申请实施例二进行说明。

在上述实施例的基础上，本申请实施例进一步对生成初始驾驶决策模型的过程进行说明。

在本申请实施例中，S101中采集自动驾驶环境特征具体可以包括：

利用车载传感设备和/或路面监控设备采集环境状态信息；

利用自动驾驶环境感知网络中的卷积网络自环境状态信息中提取低维潜在关键环境特征；

利用自动驾驶环境感知网络中的第一全连接网络对车辆状态信息进行编码，得到车辆状态特征；

利用自动驾驶环境感知网络中的第二全连接网络对低维潜在关键环境特征和车辆状态特征进行特征融合，得到自动驾驶环境特征。

如本申请实施例一所介绍的，可以采用自动驾驶车辆的车载传感设备、道路辅助设备、云端等采集环境状态信息，构建自动驾驶环境感知网络来从环境状态信息中提取环境特征。则该自动驾驶环境感知网络可以由一个六层卷积网络和两个二层全连接网络组成，由一个六层卷积网络从车辆鸟瞰图提取低维潜在关键特征，例如目标车辆与前方车辆的距离、目标车辆到最近停车位置的距离、目标车辆与车道标识的距离、距离目标车辆最近的交通灯状态中的至少一种；同时采用第一全连接网络对位置、速度、转向角等多种观测数据进行融合处理，合成为一个车辆状态特征（即车辆观测向量编码）；再利用第二全连接网络对低维潜在关键环境特征和车辆状态特征进行特征融合，合成一个包含环境状态信息和车辆状态信息的自动驾驶环境特征作为驾驶决策模型的输入。

为构建端到端的训练模型，本申请实施例不对上述自动驾驶环境感知网络进行预训练，而是将其嵌入驾驶决策模型的训练中，利用梯度传播与驾驶决策模型一同实现参数更新。即S103：根据自动驾驶环境感知网络和驾驶决策网络生成初始驾驶决策模型，具体为：将自动驾驶环境感知网络嵌入驾驶决策网络的训练中，利用梯度传播与驾驶决策网络一同更新参数。

针对驾驶决策模型，采用深度强化学习进行构建，常用算法有深度Q网络（Deep Q-network，DQN）DQN、近端策略优化（Proximal Policy Optimization，PPO）、深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）、柔性动作-评价（Soft Actor-Critic，SAC）等，考虑驾驶动作连续性和驾驶决策模型收敛性，可以选用经典的近端策略优化算法。

在近端策略优化算法框架下，包含1个策略网络（Policy_Net）和1个价值网络（Value_Net）。则在本申请实施例中，S102中构建的驾驶决策网络采用近端策略优化网络时，具体可以包括用于选取车辆动作的策略网络以及用于评估动作优劣以指导驾驶决策模型优化的价值网络。其中，策略网络和价值网络均由二层全连接层构成，输入为前述的融合后的自动驾驶环境特征，策略网络输出为车辆加速和转向2个控制量，价值网络输出为1个价值量。

则在训练开始阶段，在利用随机初始化参数的初始驾驶决策模型进行环境交互推理任务，产生初始训练数据，并将其放入数据缓存区中。其中，每个训练数据 τ包含驾驶状态 s、驾驶动作 a和环境奖励 r，表示为 τ=( s, a, r)，状态 s包含对应时刻的车辆鸟瞰图与车辆状态信息（车辆观测向量），驾驶动作 a包含车辆加速控制量和车辆转向控制量。当交互产生的训练数据填满数据缓存区，则进入驾驶决策模型更新阶段。

下面对本申请实施例三进行说明。

图5为本申请实施例提供的一种多GPU分布式并行更新驾驶决策模型示意图。

在上述实施例的基础上，本申请实施例进一步对更新模块更新驾驶决策模型的参数的过程进行说明。

根据本申请实施例一所介绍的并行量化加速后的驾驶决策模型分布式训练框架，以及本申请实施例二所介绍的端到端的训练模型框架，请参考图4，假设数据缓存区大小为 N，基于训练数据

，在进行模型更新时，更新模块从数据缓存区提取小批量数据，通过多第一计算节点并行执行对驾驶决策模型的参数更新任务，则S104中利用训练数据更新决策模型，具体可以为：采用分布式随机梯度下降法（D-SGD）利用训练数据更新驾驶决策模型。通过这种方法，可以实现梯度参数的快速更新，进一步提高训练效率。

如图5所示，在本申请实施例中，采用分布式随机梯度下降法利用训练数据更新驾驶决策模型，具体可以包括：

自当前迭代训练的训练数据中随机抽取小批量数据分别发送至多个第一计算节点（第一计算节点1、第一计算节点2……第一计算节点 M）以计算得到局部梯度（

、

……

）；

对各局部梯度（

、

……

）进行聚合得到全局梯度；

利用全局梯度更新驾驶决策模型。

具体地，利用多个第一计算节点从数据缓存区中随机抽取小批量数据分别计算梯度，然后将局部梯度发送给充当协调器的中心计算节点（可以从第一计算节点中选一个作为中心计算节点），利用聚合后的全局梯度更新驾驶决策模型，为确保学习收敛性，以上更新过程将基于全精度浮点运算进行。

在局部梯度计算部分，由 M个第一计算节点构成分布式计算模块，第一计算节点的数量 M≥2可以根据实际硬件资源进行设置。在该分布式计算模块中，所有第一计算节点均保持相同的参数值，利用随机梯度估计的数据并行性地在每个第一计算节点上更新局部梯度，进而通过聚合局部梯度来估计全局梯度，降低单个第一计算节点内存需求与计算负担，提高驾驶决策模型更新效率。首先，每个第一计算节点从数据缓存区中随机抽取的小批量数据

，其中

为第 j个第一计算节点抽取的批数据大小。为充分利用硬件计算资源，在本申请实施例中，自当前迭代训练的训练数据中随机抽取小批量数据分别发送至多个第一计算节点以计算得到局部梯度，具体可以为：

根据各第一计算节点的硬件资源，自当前迭代训练的训练数据中随机抽取相应数量的小批量数据并对应发送至第一计算节点以计算得到局部梯度；

相应的，对各局部梯度进行聚合得到全局梯度，具体为：

根据对各第一计算节点分配小批量数据的分配量对各局部梯度进行加权梯度聚合得到全局梯度。

通过根据第一计算节点的算力合理分配计算任务，而后加权聚合，充分、合理地利用各第一计算节点的硬件资源。第一计算节点的计算资源可以为第一计算节点的全部计算资源，也可以为每次执行参数更新任务前的剩余计算资源，在后者的情况下即在每次执行参数更新任务前根据各第一计算节点的剩余计算资源灵活分配小批量数据，并根据分配情况确定对应的权值，从而灵活地利用各第一计算节点的硬件计算资源。

各第一计算节点计算局部梯度时，使用近端策略优化裁减目标函数：

；

其中，

(·)为期望函数，

为保守策略迭代目标，

为更新前的策略参数，

为优势函数， clip(·)为裁剪操作，

为限制参数。

在第 k次驾驶决策模型的迭代更新过程中，假设第 j个第一计算节点基于批数据计算得到的局部梯度表示为

，将其发送给负责协调的中心计算节点进行加权梯度聚合：

；

其中，

为聚合后的全局梯度，

为第 j个第一计算节点被分配的批数据，

为在一次更新过程中所有第一计算节点抽取训练数据的总数量。

若各第一计算节点抽取的数据量相等，则全局梯度可以表示为：

。

进一步的，中心计算节点利用全局梯度更新驾驶决策模型，并将更新后的模型参数

发送给负责局部梯度计算的各第一计算节点，然后各第一计算节点继续基于新的模型参数进行下一次梯度计算。当迭代次数 k达到预设上限，得到当前迭代训练次数的驾驶决策模型，将该驾驶决策模型发送给量化模块进行精度转换，以供后续交互产生新的训练数据。

下面对本申请实施例四进行说明。

在上述实施例的基础上，本申请实施例进一步对量化模块对全精度的驾驶决策模型进行量化处理得到量化驾驶决策模型的过程进行说明。

在本申请实施例中，S104中对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，具体可以包括：

预先接收根据执行环境交互推理任务的第二计算节点的硬件资源情况确定的量化位数；

对驾驶决策模型执行量化位数的量化处理，得到量化驾驶决策模型。

针对更新后的驾驶决策模型参数，采用量化技术将全精度浮点数转换为低精度数，减小驾驶决策模型对内存的占用，从而降低更新模块和执行模块间的模型传输时间与通信开销。由于量化位数决定了量化驾驶决策模型的精度以及量化驾驶决策模型对执行模块的内存占用情况。在本申请实施例中，不论采用单个第二计算节点用于执行环境交互推理任务还是采用多个第二计算节点来执行环境交互推理任务，均根据各第二计算节点的硬件资源确定要进行量化的量化位数。

常用模型量化方法有均匀量化、聚类量化、残差量化、对数量化等，考虑到硬件实现性与可操作性，本申请实施例以均匀量化为例进行说明。

在均匀量化过程中，对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，具体通过下式计算：

；

；

其中， n为量化位数，

为 n位量化操作，

为取整操作，

为量化参数，

为驾驶决策模型的模型参数。

在实际操作时，驾驶决策模型待量化的参数主要包括权重和激活值两部分，二者均以相同精度进行量化。

具体地，对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，具体包括：

对驾驶决策模型中的卷积层部分采用逐信道量化方式对权重进行量化；

对驾驶决策模型中的全连接层的权重以及驾驶决策模型中的所有激活值均采用逐层方式进行量化。

通过采用逐信道量化方式对驾驶决策模型中的卷积层部分的权重进行量化，将量化操作

单独应用于每个卷积信道，避免精度大幅下降。对于全连接层的权重以及所有激活值，则采用逐层方式进行量化。

通过量化权重和激活值减少驾驶决策模型的内存占用，能快速将更新后的模型参数传输至执行模块，降低通信成本与内存访问功耗，同时基于量化驾驶决策模型，能有效降低交互期间的硬件计算需求，加快交互推理过程。

下面对本申请实施例五进行说明。

图6为本申请实施例提供的一种多进程并行交互框架示意图。

在上述实施例的基础上，本申请实施例进一步对执行模块利用量化驾驶决策模型执行环境交互推理任务的过程进行说明。

为进一步提高模型落地效率，在本申请实施例中，S104中采用量化驾驶决策模型执行环境交互推理任务，生成训练数据，具体可以为：

通过多进程采用量化驾驶决策模型执行环境交互推理任务，生成训练数据。

基于量化驾驶决策模型，构建多进程并行交互框架，通过多进程实现驾驶决策模型与多个任务环境间的并行交互，利用得到的交互数据作为训练数据更新数据缓存区，提升交互效率与数据多样性。

如图6所示，本申请实施例提供一种分布执行-集中推理的交互模式。如本申请实施例一所介绍的一种传统的分布式训练方案中，一个执行器（Actor）对应一个推理器（Learner），在分布式交互中需要将驾驶决策模型部署在多个推理器，即重复占用了内存资源，又增加了通信任务。而本申请实施例提供的分布执行-集中推理的交互模式，则通过多进程采用量化驾驶决策模型执行环境交互推理任务，生成训练数据，具体可以包括：

基于各执行器分别对应一个环境交互进程以执行从推理器获取的决策动作控制环境中的智能体进行状态转移；

基于推理器根据各执行器反馈的新状态，采用量化驾驶决策模型执行统一决策推理，得到各环境中智能体下一步执行的动作。

通过将多个负责执行动作的执行器与一个负责决策推理的推理器相关联，每个执行器对应一个环境交互进程以执行交互任务，则执行器只需进行环境渲染任务，不需要如现有技术中那样要将驾驶决策模型部署在每个执行器上，只需要一个推理器部署量化驾驶决策模型，从而既减少了需要部署推理器的计算节点数，又进一步减少了部署驾驶决策模型的数据量。

对于自动驾驶问题，为避免实车训练的危险性与高昂成本，驾驶决策模型的训练仍需基于模拟环境来完成。为尽可能模拟车辆驾驶的实际环境，在本申请实施例中，基于各执行器分别对应一个环境交互进程以执行从推理器获取的决策动作控制环境中智能体进行状态转移，具体为：基于各执行器以并行进程运行自动驾驶模拟器，从城市设施、道路拓扑、交通流中至少两个方面构建差异化环境，并以同步方式控制车辆执行驾驶动作。在此基础上，将所有环境中对应的驾驶状态发送给推理器进行集中推理。

考虑到执行器在模拟驾驶环境的渲染过程的高计算需求，同时放置计算资源闲置浪费，执行器与推理器所部署于的第二计算节点同样可以基于图形处理器来实现。

为了充分利用第二计算节点的硬件资源，通过多进程采用量化驾驶决策模型执行环境交互推理任务，生成训练数据，具体可以为：通过多进程、每个进程开启多组交替执行的决策环境并交互的方式，采用量化驾驶决策模型执行环境交互推理任务，生成训练数据。

为避免并行进程数量增加后产生严重的落后效应，本申请实施例提供一种在各执行器中开启多组驾驶环境，即各执行器在多组驾驶环境中交替执行交互过程，当一组驾驶环境等待执行动作或重置时，另一组驾驶环境正在执行最新接收的动作，推理器会在多组环境间交替完成驾驶动作的决策，从而保持高利用率。当各驾驶环境的交互步数总和达到数据缓存区留给训练数据的设定大小，则数据采集完成，交互过程结束，转至更新模块继续进行驾驶决策模型的全精度参数更新。如图6所示，以在各执行器中开启两组驾驶环境（环境1、环境2）为例，共有 n个执行器对应 n个交互进程（进程1、进程2……进程 n），则在每个执行器中，按照各进程分别对环境2（环境1_2、环境2_2…… n_2）并行执行驾驶动作、同时对环境1（环境1_1、环境2_1…… n_1）并行观测状态（获取环境奖励），在下一时刻，各进程分别对环境1（环境1_1、环境2_1…… n_1）并行执行驾驶动作、同时对环境2（环境1_2、环境2_2…… n_2）并行观测状态（获取环境奖励），以此循环，推理器在两组驾驶环境间交替完成驾驶动作的决策，推理器和执行器均可以始终保持工作状态。

下面对本申请实施例六进行说明。

在上述实施例的基础上，在本申请实施例提供的自动驾驶控制方法中，为进一步提高硬件资源利用率，S104：自初始驾驶决策模型起，对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，并采用量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成训练数据，再利用训练数据更新所述驾驶决策模型，直至训练结束，得到最终驾驶决策模型，具体可以包括：

自初始驾驶决策模型起，基于第三计算节点执行对每次迭代训练中的驾驶决策模型进行量化处理得到量化驾驶决策模型的任务，基于第四计算节点交替执行采用量化驾驶决策模型执行环境交互推理任务生成训练数据的任务以及利用训练数据更新驾驶决策模型的任务，直至训练结束，得到最终驾驶决策模型。

需要说明的是，本申请实施例中的第三计算节点和第四计算节点可以分别指不同的物理节点，也可以指位于同样宿主机上的虚拟节点。第四计算节点可以理解为包含本申请上述实施例中所介绍的第一计算节点和第二计算节点二者的功能，交替执行参数更新任务和环境交互推理任务，从而进一步提高对硬件资源的利用率。

第三计算节点和第四计算节点也均可以采用图形处理器。

在本申请上述实施例的基础上，可以在分布式集群中，在整合所有计算资源后，划分更新模块、量化模块、执行模块以及用于存储当前迭代训练次数对应的训练数据的数据缓存区，而后执行本申请各实施例所提供的自动驾驶控制方法。

鉴于本申请实施例提供的自动驾驶控制方法的并行与分布式特点，还可以推广至多智能体以及联邦学习问题中。

上文详述了自动驾驶控制方法对应的各个实施例，在此基础上，本申请还公开了与上述方法对应的自动驾驶控制装置、设备、介质及自动驾驶车辆。

下面对本申请实施例七进行说明。

图7为本申请实施例提供的一种自动驾驶控制装置的结构示意图。

如图7所示，本申请实施例提供的自动驾驶控制装置包括：

感知网络构建单元701，用于构建用于采集自动驾驶环境特征的自动驾驶环境感知网络；

决策网络构建单元702，用于构建以自动驾驶环境特征为状态输入数据的驾驶决策网络，用于基于采集到的自动驾驶环境特征来生成驾驶动作的决策；

初始模型构建单元703，用于根据自动驾驶环境感知网络和驾驶决策网络生成初始驾驶决策模型；

训练单元704，用于自初始驾驶决策模型起，对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，并采用量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成训练数据，再利用训练数据更新驾驶决策模型，直至训练结束，得到最终驾驶决策模型；

控制单元705，用于将实时自动驾驶环境特征输入最终驾驶决策模型，得到自动驾驶策略，并根据自动驾驶策略控制车辆的驾驶动作；

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

下面对本申请实施例八进行说明。

如图8所示，本申请实施例提供的自动驾驶控制设备包括：

存储器810，用于存储计算机程序811；

处理器820，用于执行计算机程序811，该计算机程序811被处理器820执行时实现如上述任意一项实施例所述自动驾驶控制方法的步骤。

其中，处理器820可以包括一个或多个处理核心，比如3核心处理器、8核心处理器等。处理器820可以采用数字信号处理DSP（Digital Signal Processing）、现场可编程门阵列FPGA（Field－Programmable Gate Array）、可编程逻辑阵列PLA（Programmable LogicArray）中的至少一种硬件形式来实现。处理器820也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器CPU（CentralProcessing Unit）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器820可以集成有图像处理器GPU（Graphics Processing Unit），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器820还可以包括人工智能AI（Artificial Intelligence）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器810可以包括一个或多个介质，该介质可以是非暂态的。存储器810还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器810至少用于存储以下计算机程序811，其中，该计算机程序811被处理器820加载并执行之后，能够实现前述任一实施例公开的自动驾驶控制方法中的相关步骤。另外，存储器810所存储的资源还可以包括操作系统812和数据813等，存储方式可以是短暂存储或者永久存储。其中，操作系统812可以为Windows。数据813可以包括但不限于上述方法所涉及到的数据。

在一些实施例中，自动驾驶控制设备还可包括有显示屏830、电源840、通信接口850、输入输出接口860、传感器870以及通信总线880。

本领域技术人员可以理解，图8中示出的结构并不构成对自动驾驶控制设备的限定，可以包括比图示更多或更少的组件。

本申请实施例提供的自动驾驶控制设备，包括存储器和处理器，处理器在执行存储器存储的程序时，能够实现如上所述的自动驾驶控制方法，效果同上。

下面对本申请实施例九进行说明。

需要说明的是，以上所描述的装置、设备实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个介质中，执行本申请各个实施例所述方法的全部或部分步骤。

为此，本申请实施例还提供一种介质，该介质上存储有计算机程序，计算机程序被处理器执行时实现如自动驾驶控制方法的步骤。

该介质可以包括：U盘、移动硬盘、只读存储器ROM（Read-Only Memory）、随机存取存储器RAM（Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例中提供的介质所包含的计算机程序能够在被处理器执行时实现如上所述的自动驾驶控制方法的步骤，效果同上。

下面对本申请实施例十进行说明。

本申请实施例进一步提供一种自动驾驶车辆，该自动驾驶车辆包括控制器，该控制器用于执行如上述任一实施例提供的自动驾驶控制方法的步骤，效果同上。

以上对本申请所提供的一种自动驾驶控制方法、装置、设备、介质及自动驾驶车辆进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备、介质及自动驾驶车辆而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种自动驾驶控制方法，其特征在于，包括：

构建用于采集自动驾驶环境特征的自动驾驶环境感知网络；

2.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述环境状态信息具体为车辆鸟瞰图；

所述环境状态信息的获取过程，具体包括：

获取车辆监控视频；

3.根据权利要求2所述的自动驾驶控制方法，其特征在于，所述关键环境语义信息具体包括：目标车辆的车辆信息、所述目标车辆的背景建筑信息、可行驶区域信息、交通标志信息、所述目标车辆的交通参与者信息中的至少一种。

4.根据权利要求1所述的自动驾驶控制方法，其特征在于，采集所述自动驾驶环境特征具体包括：

5.根据权利要求4所述的自动驾驶控制方法，其特征在于，所述低维潜在关键环境特征具体包括：目标车辆与前方车辆的距离、所述目标车辆到最近停车位置的距离、所述目标车辆与车道标识的距离、距离所述目标车辆最近的交通灯状态中的至少一种。

6.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述根据所述自动驾驶环境感知网络和所述驾驶决策网络生成初始驾驶决策模型，具体为：

7.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述驾驶决策网络具体为近端策略优化网络；

8.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述根据所述自动驾驶环境感知网络和所述驾驶决策网络生成初始驾驶决策模型，具体包括：

构建随机生成初始化参数的所述初始驾驶决策模型；

9.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述利用所述训练数据更新所述驾驶决策模型，具体为：

10.根据权利要求9所述的自动驾驶控制方法，其特征在于，所述采用分布式随机梯度下降法利用所述训练数据更新所述驾驶决策模型，具体包括：

对各所述局部梯度进行聚合得到全局梯度；

利用所述全局梯度更新所述驾驶决策模型。

11.根据权利要求10所述的自动驾驶控制方法，其特征在于，所述自当前迭代训练的所述训练数据中随机抽取小批量数据分别发送至多个第一计算节点以计算得到局部梯度，具体为：

12.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，具体包括：

13.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，具体通过下式计算：

；

；

其中，n为量化位数，

为n位量化操作，

为取整操作，

为量化参数，

为所述驾驶决策模型的模型参数。

14.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，具体包括：

15.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述采用所述量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成训练数据，具体为：

16.根据权利要求15所述的自动驾驶控制方法，其特征在于，所述通过多进程采用所述量化驾驶决策模型执行所述环境交互推理任务，生成所述训练数据，具体包括：

17.根据权利要求16所述的自动驾驶控制方法，其特征在于，所述基于各所述执行器分别对应一个环境交互进程以执行从推理器获取的决策动作控制环境中智能体进行状态转移，具体为：

18.根据权利要求15所述的自动驾驶控制方法，其特征在于，所述通过多进程采用所述量化驾驶决策模型执行所述环境交互推理任务，生成所述训练数据，具体包括：

19.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述自所述初始驾驶决策模型起，对每次迭代训练中的驾驶决策模型进行量化处理，得到量化驾驶决策模型，并采用所述量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务，生成训练数据，再利用所述训练数据更新所述驾驶决策模型，直至训练结束，得到最终驾驶决策模型，具体包括：

20.一种自动驾驶控制装置，其特征在于，包括：

21.一种自动驾驶控制设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至19任意一项所述自动驾驶控制方法的步骤。

22.一种介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至19任意一项所述自动驾驶控制方法的步骤。

23.一种自动驾驶车辆，其特征在于，包括控制器，所述控制器用于执行如权利要求1至19任意一项所述自动驾驶控制方法的步骤。