CN114120653A

CN114120653A - 一种集中式车群决策控制方法、装置及电子设备

Info

Publication number: CN114120653A
Application number: CN202210089243.1A
Authority: CN
Inventors: 李茹杨; 赵坤; 李雪雷; 邓琪; 魏辉; 卢丽华
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-03-01

Abstract

本申请提供的集中式车群决策控制方法、装置及电子设备，应用于路侧智能设备，通过获取当前控制区域中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息，以得到当前控制区域下交通环境的全局感知信息；基于预设的车群决策控制模型，根据全局感知信息，确定各车辆的驾驶决策，并将驾驶决策发送到各车辆；在各车辆按照驾驶决策行驶后，重新检测当前控制区域下交通环境的全局感知信息，得到更新后的全局感知信息；根据更新后的全局感知信息和各车辆的驾驶决策，优化车群决策控制模型。通过利用路侧智能设备对车群进行集中决策控制，每次模型优化也仅针对路侧智能设备中的车群决策控制模型，提高了车辆自动驾驶决策的控制效率。

Description

一种集中式车群决策控制方法、装置及电子设备

技术领域

本申请涉及车辆控制技术领域，尤其涉及一种集中式车群决策控制方法、装置及电子设备。

背景技术

现代城市交通中，辅助驾驶/自动驾驶作为最有潜力改善交通状况、提升出行安全与便捷程度的方式，受到越来越多的关注。现代社会的道路交通条件十分复杂，存在机动车数量多且车流密度大的特点，因此，为了提高车辆行车安全，如何基于全局信息进行车群决策控制成为了重点研究内容。

在现有技术中，通常是当前车辆将获取的感知信息与其他车辆进行共享，每辆车基于全局环境状态信息分别进行决策。

但是，基于全局环境信息同时训练多个自动驾驶策略的难度大、时间长，且车载计算设备难以满足算力需求，无法保证车辆自动驾驶决策的控制效率。

发明内容

本申请提供一种集中式车群决策控制方法、装置及电子设备，以解决现有技术无法保证车辆自动驾驶决策的控制效率等缺陷。

本申请第一个方面提供一种集中式车群决策控制方法，应用于路侧智能设备，所述方法包括：

获取当前控制区域中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息，以得到所述当前控制区域下交通环境的全局感知信息；

基于预设的车群决策控制模型，根据所述全局感知信息，确定各所述车辆的驾驶决策，并将所述驾驶决策发送到各所述车辆，以使各所述车辆按照所述驾驶决策行驶；

在各所述车辆按照所述驾驶决策行驶后，重新检测所述当前控制区域下交通环境的全局感知信息，以得到更新后的全局感知信息；

根据所述更新后的全局感知信息和各所述车辆的驾驶决策，优化所述车群决策控制模型。

可选的，所述基于预设的车群决策控制模型，根据所述全局感知信息，确定各所述车辆的驾驶决策，包括：

将所述全局感知信息输入到所述车群决策控制模型，以得到车群的联合动作集合；

根据所述联合动作集合，确定各所述车辆的驾驶决策；其中，所述驾驶决策包括驾驶动作。

可选的，在根据所述更新后的全局感知信息和各所述车辆的驾驶决策，优化所述车群决策控制模型之前，所述方法包括：

根据更新后的全局感知信息和各所述车辆的驾驶决策，确定车群的联合奖励；

对所述更新后的全局感知信息、当前各所述车辆的驾驶决策、车群的联合奖励和原始的全局感知信息进行数据整合，得到所述车群决策控制模型的学习经历数据；

将所述学习经历数据存储至回放缓冲区。

可选的，所述根据所述更新后的全局感知信息和各所述车辆的驾驶决策，优化所述车群决策控制模型，包括：

从所述回放缓冲区中提取多条学习经历数据，并将所述多条学习经历数据作为模型训练样本；

计算各所述模型训练样本的目标价值；

根据各所述模型训练样本的目标价值，更新所述车群决策控制模型中的评价网络和策略网络的参数，以优化所述车群决策控制模型。

可选的，所述计算各所述模型训练样本的目标价值，包括：

针对每个模型训练样本，基于预设的目标策略网络，根据所述模型训练样本中包含的原始的全局感知信息，确定各所述车辆的目标驾驶决策；

基于预设的目标评价网络，根据各所述车辆的目标驾驶决策，评价所述目标策略网络；

根据所述模型训练样本中包含的车群的联合奖励和所述目标策略网络的评价结果，确定所述模型训练样本的目标价值。

可选的，所述根据各所述模型训练样本的目标价值，更新所述车群决策控制模型中的评价网络的参数，包括：

基于预设的评价网络损失函数，根据各所述模型训练样本的目标价值和该评价网络得到的当前策略网络的评价结果，确定所述评价网络的损失；

以最小化所述评价网络的损失为目标，更新所述评价网络的参数。

可选的，所述更新所述车群决策控制模型中的策略网络的参数，包括：

基于预设的策略网络目标函数，参照更新后的评价网络，更新所述策略网络的参数。

本申请第二个方面提供一种集中式车群决策控制装置，应用于路侧智能设备，所述装置包括：

获取模块，用于获取当前控制区域中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息，以得到所述当前控制区域下交通环境的全局感知信息；

决策模块，用于基于预设的车群决策控制模型，根据所述全局感知信息，确定各所述车辆的驾驶决策，并将所述驾驶决策发送到各所述车辆，以使各所述车辆按照所述驾驶决策行驶；

信息更新模块，用于在各所述车辆按照所述驾驶决策行驶后，重新检测所述当前控制区域下交通环境的全局感知信息，以得到更新后的全局感知信息；

优化控制模块，用于根据所述更新后的全局感知信息和各所述车辆的驾驶决策，优化所述车群决策控制模型。

可选的，所述决策模块，具体用于：

可选的，所述装置还包括：

数据缓存模块，用于根据更新后的全局感知信息和各所述车辆的驾驶决策，确定车群的联合奖励；对所述更新后的全局感知信息、当前各所述车辆的驾驶决策、车群的联合奖励和原始的全局感知信息进行数据整合，得到所述车群决策控制模型的学习经历数据；将所述学习经历数据存储至回放缓冲区。

可选的，所述优化控制模块，具体用于：

计算各所述模型训练样本的目标价值；

可选的，所述优化控制模块，具体用于：

本申请第三个方面提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一个方面以及第一个方面各种可能的设计所述的方法。

本申请第四个方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一个方面以及第一个方面各种可能的设计所述的方法。

本申请技术方案，具有如下优点：

本申请提供一种集中式车群决策控制方法、装置及电子设备，应用于路侧智能设备，该方法包括：获取当前控制区域中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息，以得到当前控制区域下交通环境的全局感知信息；基于预设的车群决策控制模型，根据全局感知信息，确定各车辆的驾驶决策，并将驾驶决策发送到各车辆，以使各车辆按照驾驶决策行驶；在各车辆按照驾驶决策行驶后，重新检测当前控制区域下交通环境的全局感知信息，以得到更新后的全局感知信息；根据更新后的全局感知信息和各车辆的驾驶决策，优化车群决策控制模型。上述方案提供的方法，通过利用路侧智能设备对车群进行集中决策控制，每次模型优化也仅针对路侧智能设备中的车群决策控制模型，提高了车辆自动驾驶决策的控制效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例基于的集中式车群决策控制系统的结构示意图；

图2为本申请实施例提供的集中式车群决策控制方法的流程示意图；

图3为本申请实施例提供的示例性的集中式车群决策控制方法的流程示意图；

图4为本申请实施例提供的集中式车群决策控制装置的结构示意图；

图5为本申请实施例提供的电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

现代城市交通中，辅助驾驶/自动驾驶作为最有潜力改善交通状况、提升出行安全与便捷程度的方式，受到越来越多的关注。自动驾驶是一项十分复杂的集成性技术，涵盖车载传感器、数据处理器、控制器等硬件装置，借助现代移动通信与网络技术实现各交通参与者之间的信息传递与共享，通过复杂算法完成环境感知、决策规划和控制执行等功能，实现车辆的自动变速、转向、变道等操作。

现有的自动驾驶研究和应用主要分为两类，即模块化方法和端到端方法。其中，模块化方法将自动驾驶系统分解成几个独立但互相关联的模块，具有良好的可解释性，系统发生故障时能快速定位到问题模块，是现阶段业界广泛使用的方法；主要借助深度学习技术的端到端方法中，又划分为开环训练的模仿学习方法和闭环更新的强化学习方法。随着人工智能技术的快速发展，深度学习凭借其针对大规模输入数据，如视频、图像、雷达点云等数据的表征能力，已经被广泛应用于自动驾驶汽车的环境感知、特征提取、障碍物识别、路径规划和智能决策等任务场景，并在仿真模拟器和简单真实交通场景下较好实现。

在深度强化学习的闭环更新技术路线中，自动驾驶车辆作为智能体，无需人类驾驶员提供的海量环境状态-驾驶动作数据对

训练驾驶策略，而是从头开始与交通环境持续交互，根据观测到的环境状态

，利用神经网络表示的驾驶策略选取动作

，环境给予车辆动作奖励

并转移为新的状态

，以此做出序列决策。由于深度强化学习的学习样本闭环产生，不受人类驾驶员样本的限制，因此基于深度强化学习的自动驾驶策略具备超越人类表现的潜力。

目前，针对深度强化学习的自动驾驶技术探索中，学术界和产业界多采用单智能体强化学习模型的对单车决策进行模拟。然而，现代社会的道路交通条件十分复杂，机动车数量多、车流密度大，仅靠单个车辆的传感器装置无法对周围环境进行充分感知，也很难准确判断其他交通参与者的运动意图，无法为复杂交通场景提供安全、稳定的驾驶策略。另外，一些采用多智能体强化学习技术方案的自动驾驶探索中，每辆车都作为一个智能体，将获取的感知信息与其他车辆进行共享，每辆车基于全局环境状态信息分别进行决策。这类方法能够帮助每辆车获取更全面的交通环境信息，做出更安全的驾驶行为。然而，基于全局环境信息同时训练多个自动驾驶策略的难度大、时间长，且车载计算设备难以满足算力需求。

针对上述问题，本申请实施例提供的集中式车群决策控制方法、装置及电子设备，应用于路侧智能设备，通过获取当前控制区域中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息，以得到当前控制区域下交通环境的全局感知信息；基于预设的车群决策控制模型，根据全局感知信息，确定各车辆的驾驶决策，并将驾驶决策发送到各车辆，以使各车辆按照驾驶决策行驶；在各车辆按照驾驶决策行驶后，重新检测当前控制区域下交通环境的全局感知信息，以得到更新后的全局感知信息；根据更新后的全局感知信息和各车辆的驾驶决策，优化车群决策控制模型。上述方案提供的方法，通过利用路侧智能设备对车群进行集中决策控制，每次模型优化也仅针对路侧智能设备中的车群决策控制模型，提高了车辆自动驾驶决策的控制效率。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明实施例进行描述。

首先，对本申请所基于的集中式车群决策控制系统的结构进行说明：

本申请实施例提供的集中式车群决策控制方法、装置及电子设备，适用于对固定控制区域内的车群进行自动驾驶决策控制。如图1所示，为本申请实施例基于的集中式车群决策控制系统的结构示意图，主要包括路侧智能设备、路侧感知设备和多台车辆组成的车群，其中，路侧智能设备用部署有进行集中式车群决策控制的集中式车群决策控制装置。具体地，路侧智能设备收集车群中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息，以得到全局感知信息，进而根据得到的全局感知信息，为车群中的每个车辆提供驾驶决策。

本申请实施例提供了一种集中式车群决策控制方法，用于对固定控制区域内的车群进行自动驾驶决策控制。本申请实施例的执行主体为电子设备，比如服务器、台式电脑、笔记本电脑、平板电脑及其他可用于可作为路侧智能设备的电子设备。

如图2所示，为本申请实施例提供的集中式车群决策控制方法的流程示意图，该方法包括：

步骤201，获取当前控制区域中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息，以得到当前控制区域下交通环境的全局感知信息。

需要说明的是，当前控制区域可以是某一个交通路段。车辆行驶信息包括通过摄像头、雷达、全球定位系统、惯性测量单元等车载传感器，获得的自身实时位置、速度信息和周围交通环境状态等，同时也可以包括任务信息，如导航目的地和规划路径等。路侧感知设备分为高清摄像头、激光雷达和毫米波雷达等感知设备，其采集的道路交通状态信息包括当前控制区域的2D原始图像和3D雷达点云等数据，以对当前控制区域的道路交通状态进行初步描述。此外，也可以预先将道路拓扑结构、交通规则和高精地图等静态信息存储在路侧智能设备中，以为后续的决策控制工作提供数据基础。

具体地，基于路侧-车辆获取的环境状态以及静态信息，通过深度学习技术对原始数据进行特征提取、信息融合以及路侧-车辆的盲区信息相互补充，获得当前控制区域内处理后的交通环境状态，如交通事件、交通信号灯、各类交通参与者的识别和分类信息。以上原始数据和处理后的数据，共同构成当前控制区域下交通环境的全局感知信息

。

步骤202，基于预设的车群决策控制模型，根据全局感知信息，确定各车辆的驾驶决策，并将驾驶决策发送到各车辆，以使各车辆按照驾驶决策行驶。

其中，该车群决策控制模型可以采用深度确定策略梯度算法（DeepDeterministic Policy Gradient，简称：DDPG）框架来构建。

具体地，可以将上述全局感知信息输入到该车群决策控制模型，以利用该车群决策控制模型中的策略网络和评价网络，确定各车辆的驾驶决策。然后再基于无线通信技术，向每个车辆发送其对应的驾驶策略，具体可以将驾驶策略发送到车辆的自动驾驶控制模块，以使该车辆能够按照驾驶决策自动行驶。

步骤203，在各车辆按照驾驶决策行驶后，重新检测当前控制区域下交通环境的全局感知信息，以得到更新后的全局感知信息。

需要说明的是，在各车辆按照驾驶决策行驶后，车群的运行状态发生了改变，那也必然导致交通环境的全局感知信息发生改变，为了可以进一步评判车群决策控制模型所输出的驾驶决策的可靠性，可以基于步骤201提供的方式重新检测当前控制区域下交通环境的全局感知信息，以得到更新后的全局感知信息。

步骤204，根据更新后的全局感知信息和各车辆的驾驶决策，优化车群决策控制模型。

具体地，可以根据更新后的全局感知信息，分析当前车辆所采用的驾驶决策是否合适。例如，若更新后的全局感知信息所表征交通状态变得更拥堵了，则可以确定当前车辆所采用的驾驶决策不合适，相反的，若更新后的全局感知信息所表征交通状态变得更通畅了，则可以确定当前车辆所采用的驾驶决策是合适的。

进一步地，可以根据更新后的全局感知信息所表征的车辆驾驶决策应用效果，结合当前车辆所采用的驾驶决策，确定车群策略控制模块的优化方向，进而对其进行优化训练。

在上述实施例的基础上，作为一种可实施的方式，在一实施例中，基于预设的车群决策控制模型，根据全局感知信息，确定各车辆的驾驶决策，包括：

步骤2021，将全局感知信息输入到车群决策控制模型，以得到车群的联合动作集合；

步骤2022，根据联合动作集合，确定各车辆的驾驶决策；其中，驾驶决策包括驾驶动作。

示例性的，假设每辆车的驾驶策略包括3个连续的驾驶动作，即

。对于包含N辆自动驾驶车辆的集中式决策过程，车群决策控制模型中的策略网络的输出维度为3N，车群的联合动作空间集为

。

借助路侧智能设备的强计算能力，集中式决策控制模型利用4层的价值网络

，选取策略网络输出的车群的联合动作集合

，

，第1层为输入层，读取上述实施例得到的全局感知信息

；第2-3层为隐藏层，使用ReLU函数作为激活函数；第4层为输出层，不使用激活函数，直接计算得到车群的联合动作集合

。

进一步地，联合动作集合

分解为各辆车的驾驶动作

，并将对应的动作控制指令发送至各车辆的自动驾驶控制模块。车辆的自动驾驶控制模块根据收到的动作控制命令，执行相应的驾驶动作。

上述实施例提供的集中式车群决策控制方法，面向单车/车群的深度强化学习自动驾驶决策面临着环境感知不全、多策略训练难度大的困境，造成了复杂交通场景下自动驾驶车辆的高效、安全驾驶难题。这是一种车路协同的集中式车群决策控制方法，在路侧及车端部署不同功能模块，完成全局环境感知、车群集中式智能决策控制，以及车辆分布式执行。通过路侧-车辆联合感知交通环境及互相补全盲区，为驾驶决策提供高质量的全局交通环境信息输入；利用具有充足算力的路侧智能设备，基于交通环境的全局感知信息，采用集中式的车群决策控制模型，完成基于深度强化学习的车群行为决策，并由各辆车分布式执行驾驶命令，从而实现自动驾驶车群的高效、安全驾驶。

在上述实施例的基础上，作为一种可实施的方式，在一实施例中，在根据更新后的全局感知信息和各车辆的驾驶决策，优化车群决策控制模型之前，该方法包括：

步骤301，根据更新后的全局感知信息和各车辆的驾驶决策，确定车群的联合奖励；

步骤302，对更新后的全局感知信息、当前各车辆的驾驶决策、车群的联合奖励和原始的全局感知信息进行数据整合，得到车群决策控制模型的学习经历数据；

步骤303，将学习经历数据存储至回放缓冲区。

具体地，可以根据更新后的全局感知信息，分析各辆车是否行驶于车道中央、是否符合当前路段限速要求，以及是否对周围交通环境造成干扰、甚至发生碰撞事故等因素，计算各辆车采取当前驾驶动作（驾驶决策）获得的即时奖励

，并计算得到车群的联合奖励

。同时，交通环境进入新的状态

。

对于包含N辆自动驾驶车辆的集中式决策控制过程，所有车辆的行驶目标均是高效、安全地完成驾驶任务。简单起见，所有车辆可以采用同一个奖励函数形式，即

。也可以针对不同车型、不同驾驶任务，对奖励函数的形式进行分别设计，具体本申请实施例不做限定。

示例性的，以车辆变道的仿真场景举例，考虑到自动驾驶车辆变道是否成功、是否扰乱交通，甚至发生碰撞等因素，可以将奖励函数设计为：

其中，

表示自动驾驶车辆的行驶速度，

是根据道路限速设定的参考速度，

是预设系数。

进一步地，在车群完成上述驾驶动作选取、执行及交通环境更新后，可以将学习经历数据

存储在路侧智能设备的回放缓冲区D。

进一步地，在一实施例中，为了确保模型训练的稳定性，可以根据更新后的全局感知信息和各车辆的驾驶决策，优化车群决策控制模型，包括：

步骤2041，从回放缓冲区中提取多条学习经历数据，并将多条学习经历数据作为模型训练样本；

步骤2042，计算各模型训练样本的目标价值；

步骤2043，根据各模型训练样本的目标价值，更新车群决策控制模型中的评价网络和策略网络的参数，以优化车群决策控制模型。

其中，目标价值表征模型训练样本所记录的驾驶决策的可靠程度。

具体地，在一实施例中，针对每个模型训练样本，均可以基于预设的目标策略网络，根据模型训练样本中包含的原始的全局感知信息，确定各车辆的目标驾驶决策；基于预设的目标评价网络，根据各车辆的目标驾驶决策，评价目标策略网络；根据模型训练样本中包含的车群的联合奖励和目标策略网络的评价结果，确定模型训练样本的目标价值。

需要说明的是，在车群决策控制模型所选用的DDPG算法框架下，包含2个策略网络和2个评价网络，分别是在线学习的策略网络

和评价网络

，以及与之具有相同结构，但更新方式不同的目标策略网络

和目标评价网络

。其中，策略网络用于选取车辆动作，以确定各车辆的驾驶决策，评价网络用于对策略网络所确定的驾驶决策进行评估，指导策略网络持续优化，

、

、

和

为对应的网络参数。

具体地，可以从回放缓冲区D中随机抽取m条学习经历数据

，在将这些学习经历数据作为模型训练样本后，计算相应的目标价值

。其中，可以使用上述目标策略网络计算动作

，使用上述目标评价网络计算价值

。

需要进一步说明的是，本申请实施例所采用的评价网络使用5层网络结构：输入层获取交通环境的全局感知信息

；第1个隐藏层由100个神经元组成，使用ReLU函数作为激活函数；第2个隐藏层将第1个隐藏层的输出与车群联合动作集合

进行融合，获得逐点相加的结果；第3个隐藏层与第1个隐藏层相同；输出层不使用激活函数，直接计算得到表示基于全局感知信息s确定的车群联合动作集合a的价值。

进一步地，在一实施例中，可以基于预设的评价网络损失函数，根据各模型训练样本的目标价值和该评价网络得到的当前策略网络的评价结果，确定评价网络的损失；以最小化评价网络的损失为目标，更新评价网络的参数。

具体地，可以根据如下评价网络损失函数

，计算评价网络的损失：

其中，

是使用在线学习评价网络（确定各车辆的驾驶决策时所采用的评价网络），计算得到的当前策略网络的评价结果（价值），

为折扣因子，通常取为介于0-1之间的常数。

具体地，可以通过最小化目标评价网络与在线学习评价网络的损失函数，更新在线学习评价网络的参数

。

相应地，在一实施例中，可以基于预设的策略网络目标函数，参照更新后的评价网络，更新策略网络的参数。

具体地，可以最大化策略网络目标函数

得到如下策略梯度，通过

更新策略网络参数

：

其中，

为固定的时间步参数。

具体地，在一实施例中，通过如下软更新的方式更新目标评价网络和目标策略网络：

其中，

，能够使目标评价网络和目标策略网络缓慢地跟随在线学习评价网络和在线学习策略网络，以极大提升训练的稳定性。

具体地，可以在车群决策控制的过程中，可以重复进行上述模型训练步骤，直至达到终止状态，如发生任意车辆发生碰撞、冲出车道等事故，或达到设定训练步数，自动驾驶训练（模型训练）结束。

示例性的，如图3所示，为本申请实施例提供的示例性的集中式车群决策控制方法的流程示意图，考虑车辆行为的连续性，在实际应用中有DDPG、SAC和TD3等深度强化学习算法可供选择，本申请上述实施例选用的是经典的DDPG算法进行说明。图3中的路侧集中式决策控制表示车群决策控制模型，路侧集中式决策控制模型训练即为车群决策控制模型训练，路侧感知信息表示道路交通状态信息，车端感知信息表示车辆行驶信息，如图3所示的方法是如图2所示的方法的一种示例性的实施方式，二者实现原理相同，不再赘述。

本申请实施例提供的集中式车群决策控制方法，通过获取当前控制区域中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息，以得到当前控制区域下交通环境的全局感知信息；基于预设的车群决策控制模型，根据全局感知信息，确定各车辆的驾驶决策，并将驾驶决策发送到各车辆，以使各车辆按照驾驶决策行驶；在各车辆按照驾驶决策行驶后，重新检测当前控制区域下交通环境的全局感知信息，以得到更新后的全局感知信息；根据更新后的全局感知信息和各车辆的驾驶决策，优化车群决策控制模型。上述方案提供的方法，通过利用路侧智能设备对车群进行集中决策控制，每次模型优化也仅针对路侧智能设备中的车群决策控制模型，提高了车辆自动驾驶决策的控制效率。本申请实施例提供的车群决策控制模型优化训练方式，保证了模型训练的稳定性，为进一步保证车辆的行车安全奠定了基础。

本申请实施例提供了一种集中式车群决策控制装置，用于执行上述实施例提供的集中式车群决策控制方法。

如图4所示，为本申请实施例提供的集中式车群决策控制装置的结构示意图。该集中式车群决策控制装置40包括：获取模块401、决策模块402、信息更新模块403和优化控制模块404。

其中，获取模块，用于获取当前控制区域中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息，以得到当前控制区域下交通环境的全局感知信息；决策模块，用于基于预设的车群决策控制模型，根据全局感知信息，确定各车辆的驾驶决策，并将驾驶决策发送到各车辆，以使各车辆按照驾驶决策行驶；信息更新模块，用于在各车辆按照驾驶决策行驶后，重新检测当前控制区域下交通环境的全局感知信息，以得到更新后的全局感知信息；优化控制模块，用于根据更新后的全局感知信息和各车辆的驾驶决策，优化车群决策控制模型。

具体地，在一实施例中，决策模块，具体用于：

将全局感知信息输入到车群决策控制模型，以得到车群的联合动作集合；

根据联合动作集合，确定各车辆的驾驶决策；其中，驾驶决策包括驾驶动作。

具体地，在一实施例中，该装置还包括：

数据缓存模块，用于根据更新后的全局感知信息和各车辆的驾驶决策，确定车群的联合奖励；对更新后的全局感知信息、当前各车辆的驾驶决策、车群的联合奖励和原始的全局感知信息进行数据整合，得到车群决策控制模型的学习经历数据；将学习经历数据存储至回放缓冲区。

具体地，在一实施例中，优化控制模块，具体用于：

从回放缓冲区中提取多条学习经历数据，并将多条学习经历数据作为模型训练样本；

计算各模型训练样本的目标价值；

根据各模型训练样本的目标价值，更新车群决策控制模型中的评价网络和策略网络的参数，以优化车群决策控制模型。

具体地，在一实施例中，优化控制模块，具体用于：

针对每个模型训练样本，基于预设的目标策略网络，根据模型训练样本中包含的原始的全局感知信息，确定各车辆的目标驾驶决策；

基于预设的目标评价网络，根据各车辆的目标驾驶决策，评价目标策略网络；

根据模型训练样本中包含的车群的联合奖励和目标策略网络的评价结果，确定模型训练样本的目标价值。

具体地，在一实施例中，优化控制模块，具体用于：

基于预设的评价网络损失函数，根据各模型训练样本的目标价值和该评价网络得到的当前策略网络的评价结果，确定评价网络的损失；

以最小化评价网络的损失为目标，更新评价网络的参数。

具体地，在一实施例中，优化控制模块，具体用于：

基于预设的策略网络目标函数，参照更新后的评价网络，更新策略网络的参数。

关于本实施例中的集中式车群决策控制装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例提供的集中式车群决策控制装置，用于执行上述实施例提供的集中式车群决策控制方法，其实现方式与原理相同，不再赘述。

本申请实施例提供了一种电子设备，用于执行上述实施例提供的集中式车群决策控制方法。

如图5所示，为本申请实施例提供的电子设备的结构示意图。该电子设备50包括：至少一个处理器51和存储器52；

存储器存储计算机执行指令；至少一个处理器执行存储器存储的计算机执行指令，使得至少一个处理器执行如上实施例提供的集中式车群决策控制方法。

本申请实施例提供的一种电子设备，用于执行上述实施例提供的集中式车群决策控制方法，其实现方式与原理相同，不再赘述。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上任一实施例提供的集中式车群决策控制方法。

本申请实施例的包含计算机可执行指令的存储介质，可用于存储前述实施例中提供的集中式车群决策控制方法的计算机执行指令，其实现方式与原理相同，不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种集中式车群决策控制方法，应用于路侧智能设备，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预设的车群决策控制模型，根据所述全局感知信息，确定各所述车辆的驾驶决策，包括：

3.根据权利要求1所述的方法，其特征在于，在根据所述更新后的全局感知信息和各所述车辆的驾驶决策，优化所述车群决策控制模型之前，所述方法包括：

将所述学习经历数据存储至回放缓冲区。

4.根据权利要求3所述的方法，其特征在于，所述根据所述更新后的全局感知信息和各所述车辆的驾驶决策，优化所述车群决策控制模型，包括：

计算各所述模型训练样本的目标价值；

5.根据权利要求4所述的方法，其特征在于，所述计算各所述模型训练样本的目标价值，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据各所述模型训练样本的目标价值，更新所述车群决策控制模型中的评价网络的参数，包括：

7.根据权利要求4所述的方法，其特征在于，所述更新所述车群决策控制模型中的策略网络的参数，包括：

8.一种集中式车群决策控制装置，应用于路侧智能设备，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至7任一项所述的方法。