CN114283607B

CN114283607B - 一种基于分布式群智学习的多车协同规划方法

Info

Publication number: CN114283607B
Application number: CN202111563958.8A
Authority: CN
Inventors: 李静林; 袁泉; 罗贵阳; 王艳涛; 朱毕川; 王尚广; 周傲; 刘志晗
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-12-21
Filing date: 2021-12-20
Publication date: 2022-09-20
Anticipated expiration: 2041-12-20
Also published as: CN114283607A

Abstract

本发明公开了一种基于群智学习的多车协同规划方法，属于多车路协同决策技术领域。本发明中，利用边缘服务器减轻了车辆计算能力与通信能力的要求；利用演化博弈来建模路由规划中车辆之间不断博弈的过程，当博弈状态形成一个稳定局面时，每辆车得到自身利益最大化的路由决策；在每辆车上部署路口通行驾驶决策模块，将车辆看成一个独立决策的个体，利用深度强化学习强大的策略学习能力建模多车在路口的协同驾驶行为；在路侧边缘计算部署交通态势预测模块，利用多车路的通信能力来扩大车辆有限视野下对交通态势的感知。本发明优化了道路资源的不同方面，优化了路口的时空利用，优化了路口周围道路资源的时空利用，增大路口的吞吐量。

Description

一种基于分布式群智学习的多车协同规划方法

技术领域

本发明涉及道路交通网络、多车协同技术领域，具体涉及一种基于分布式群智学习的多车协同规划方法。

背景技术

城市交通空间资源有限，机动车的急剧增加，打破了脆弱的道路供求平衡关系，导致交通拥堵。因此如何协同车辆的行驶轨迹，充分地利用有限的道路资源，提高交通的通行效率，缓解道路交通拥堵的现状是当前的一个研究方向。

车辆路由规划已被证明是缓解城市交通拥堵的有效途径。受益于智能交通系统和智能网联车辆，路由规划技术已经从静态路由演化为基于实时交通信息的动态路由，但一些利用实时道路网络信息为车辆规划源-目的地的最优路径算法没有考虑车辆之间的相互影响。近年来，有研究学者提出了一些考虑了多车路由的相互影响的算法，但它们采用了集中控制框架，并假设驾驶员具有完美的个体理性，即驾驶员完全按照系统推荐的路由行驶，然而在实践中，由于驾驶员的有限理性，他们可能会根据自己有限的知识和局部信息来规划路由，而不一定会遵循系统推荐的最优路由。而且，随着路网规模的扩大，集中控制的计算复杂度呈指数级增长，使得这种控制方法不适用于实时交通。

公开号为CN105313891A的专利文献在2016年2月10日公开了一种多车协同避撞方法及装置，包括：1)行驶车辆监测自车的制动工况；2)当某辆车的制动工况超过设定制动阈值时，则该车为首车，首车后方的车辆为后车；否则返回1)；3)首车将其作为首车的信息输送至后车；4)各后车接收到首车信息后，将自车的车况信息输送给首车；5)首车接收各后车的车况信息后集中规划后车的制动加速度，并将期望加速度输送给相应的后车；6)后车接收期望加速度，并按照期望加速度对自车进行控制。7)若后车停止，停止控制；否则返回4)。该技术方案可以有效利用制动车辆队列中各车间的制动空间进行控制，实现车辆相对位置的均匀分布，从而有效避免碰撞或者减轻碰撞损伤程度并提高制动过程的乘坐舒适性。但不足之处在于，在多车协同控制过程中，选择一个首车来协同多车在路口的驾驶行为，集中式控制的方式存在车辆驾驶安全隐患的问题。首先，多车协同的驾驶决策的任务由一辆车完成，这对首车造成了严重的计算和通信负担。首车需要具备同时与多车进行信息交互的通信能力，还需要具备计算多车协同驾驶策略的计算能力。其次，车辆的驾驶行为是由首车控制的，车辆没有独立的决策能力，并且假定车辆完全服从首车的驾驶指令。交通路口的态势复杂多变，车辆之间的通信质量受环境影响。在可能产生干扰路段的环境中，可能导致通信延迟，车辆不能及时接收首车发送的驾驶指令，导致交通故事的发生。

公开号为CN112040392A的专利文献在2020年12月4日公开了一种基于车车通信的多车协同换道控制系统及方法，包括感知单元、通信单元、决策单元、控制单元和提示单元，设定场景内的所有车辆通过车车通信共享行驶信息，换道车辆在发出请求后根据所述信息进行可行性判断，判断可行后通过求解本发明设计的一个二次规划问题确定三辆协同车辆的期望控制输入即纵向期望加速度，并共享给协同车辆。该技术方案假设每辆车的控制单元能够根据所需的控制输入实现精确的纵向和横向车辆控制，不详细设计控制的实现，充分利用了车车通信技术，改善了车辆换道时的安全性与舒适性。该技术方案不足之处在于，车辆之间需要实时的交互关于速度，加速度，位置等信息，对车辆的通行能力提出了一定的要求，当车辆有变道需求时，需要车辆通过感知单元收集的自车信息和通信单元接收的其他车辆的信息来做出协同变道的决策，变道车辆将决策信息下发给协同车辆，协同车辆需按照协同决策规定的加速度行驶，这有可能损害了协同车辆的利益。

公开号为CN107274720A的专利文献在2017年10月20日公开了一种自动驾驶汽车及多车协同控制方法、系统，本车接收预定距离内多辆其他自动驾驶汽车分别进行广播发送的各自实时行车数据，根据接收的其他自动驾驶汽车的实时行车数据和本车实时行车数据判断本车是否有协同控制需求，如有则向目标自动驾驶汽车发送协同控制请求；本车接收和解析目标自动驾驶汽车反馈的针对所述协同控制请求的响应信息，如果目标自动驾驶汽车确定进入协同控制模式，则本车进入协同控制模式，控制本车行驶状态以达到协同控制目的。该技术方案中多辆自动驾驶汽车之间采用广播和两次定向反馈，使自动驾驶汽车之间的信息交互更加全面、便捷，进一步提高了自动驾驶汽车辆行驶的安全性、舒适性。但车辆实时广播自身的行车数据，并接收一定范围内车辆的行车数据，车辆需要实时发送接收行车数据，并调整协同驾驶方案，对发起协同驾驶请求的车辆的计算能力和通信能力都提出了一定的要求，导致车辆的造价比较高。

公开号为CN111724602A的专利文献在2020年9月29日公开了一种城市非信控多交叉路口环境下的多车协同控制方法，包括：获取各交叉路口子区域间的宏观交通网络运行态势预测状态信息和短时交通网络边界控制状态预测信息；构建各交叉路口子区域网络内部及边界交通流的引导及协作控制方法；设计一种综合考虑宏观交通状态与微观多车系统协同控制的多交叉路口多车系统协同行驶的多目标优化控制方法。该技术方案能够节省计算资源，提高多交叉路口通行效率及改善车辆性能。但是，这种集中式控制生成的全局最优协同驾驶方案有可能会损害某个车辆的利益，全局最优的驾驶策略对于车辆个体来说可能不是最优的，从而导致车辆的遵从度不高。

现有技术对多车协同驾驶规划大多采取车车相互实时通信，并且利用某种机制来选定生成协同驾驶方案的车辆，即，采用集中式控制来协同多车驾驶。集中式控制利用车辆相互通信获得全局的交通态势信息来做出最优化的决策。这种协同方式需要车辆具有强大的计算能力和通信能力，并且对于通信环境的提出了一定的要求，需要良好的通信环境为驾驶指令的及时传送提供基础。但实际车辆行驶环境较复杂，不能稳定保持良好的通信环境。

发明内容

本发明针对目前多车协同驾驶时存在对车辆需要具有强大计算能力和通信能力要求，存在通信环境不好将导致多车之间相互影响，出现车辆扎堆、交通效率不高的问题，提供了一种基于分布式群智学习的多车协同规划方法，构建车辆拥有自主决策的能力，在与其他车辆协同的过程中，保持自身利益的最大化。

本发明提供的一种基于分布式群智学习的多车协同规划方法，所应用的道路交通网络中，在路口部署边缘计算节点，在道路侧部署接入点，在车辆上配置辅助驾驶系统，车辆、接入点和边缘计算节点三者之间可以相互通信。本发明方法包括如下步骤：

步骤1：接入点收集车辆信息发送给边缘计算节点，边缘计算节点预测路口周围的交通态势；

车辆信息包括车辆的位置、速度和路由决策；边缘计算节点中设置多车路由规划决策汇聚模块和预测路口周边交通态势模块；多车路由规划决策汇聚模块将多车路由规划建模成一个种群博弈模型，根据车辆的位置及目的地将车辆划分到不同的种群中，每辆车作为种群博弈中的一个代理，利用演化博弈中的最优回应动态得到种群博弈的纳什均衡状态，获得车辆的路由决策；预测路口周边交通态势模块所获得的多车的路由决策，预测路口周围的交通态势。

步骤2：车辆上的辅助驾驶系统接收边缘计算节点下发的路口周围的交通态势预测报告，计算最优路由决策，同时与周围车辆进行信息交互，获取路口通行驾驶决策；

在车辆的辅助驾驶系统中设置基于演化博弈的路由规划决策模块以及路口通行驾驶决策模块；基于演化博弈的路由规划决策模块根据接收的路口周围的交通态势预测报告，利用演化博弈中的最优回应动态计算出当前最优路由决策，调整自身的路由策略并发送出去；路口通行驾驶决策模块将车辆视野范围内的交通态势和与其他车辆交互得到的交通态势输入训练好的神经网络模型Actor中，输出车辆驾驶决策的概率分布，选取概率最大的驾驶策略；

其中，Actor网络先通过注意力机制对输入的交通态势处理得到车辆交互关系权重图，利用该权重图来对交互车辆输入的交通态势进行融合，再输入神经网络进行驾驶决策；

步骤3：预先在交通环境仿真器下，利用全局车辆路由规划信息对路口通行驾驶决策模块中的Actor网络进行训练。

相对于现有技术，本发明的优点与积极效果在于：(1)本发明在多车路由规划中引入边缘计算，将车辆路由规划的计算负载下放到边缘计算节点上，减轻了车辆计算能力与通信能力的要求，使得车辆自身的硬件设备能力可以专注于车辆安全驾驶方面的任务。(2)本发明在多车协同驾驶控制任务中，利用强化学习强大的策略学习能力得到协同驾驶策略，车辆搭载已经训练完成的神经网络模型即可参与到协同驾驶任务中。(3)本发明方法能够充分的利用交通道路资源，缩短车辆到达目的地的通行时间，多车协同驾驶机制能够充分利用路口的时空资源，增大路口的吞吐量；两者优化了道路资源的不同方面，当路口的车辆完成路由规划，再协同车辆快速的通过路口，起到了道路资源的充分利用，既优化了路口的时空利用，又优化了路口周围道路资源的时空利用。

附图说明

图1是本发明的基于分布式群智学习的多车协同规划方法的整体实现框架图；

图2是本发明中边缘计算节点中的博弈演化过程示意图；

图3是本发明的车辆在协同驾驶中的决策流程图；

图4是本发明深度强化学习训练时的Critic网络结构图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明为了降低在多车协同时对车辆的计算能力和通信能力的要求，保证车辆自身利益最大化，提供了一种基于分布式群智学习的多车协同驾驶规划方法。本发明技术的实现涉及了演化博弈论、多代理深度强化学习等技术。利用演化博弈来建模路由规划中车辆之间不断博弈的过程，当博弈状态形成一个稳定局面时，即每辆车都得到了自身利益最大化的路由决策，博弈中的纳什均衡形成了。利用深度强化学习强大的策略学习能力建模多车在路口的协同驾驶，车辆看成是一个独立决策的个体，并利用多车的通信能力来扩大车辆有限视野对交通态势的感知。本发明为了提高神经网络模型的训练效果，利用全局的路由决策信息来辅助模型训练。

本发明实现的一种基于分布式群智学习的多车协同规划方法，需要道路交通网络中部署边缘计算节点，在道路侧部署接入点。接入点负责收集车辆相关信息，如车辆的位置，速度，驾驶决策等，并将车辆信息发送给边缘计算节点。边缘计算节点负责接收接入点传递的信息，生成关于路口及其周围道路资源的交通态势报告。道路交通网络中的车辆配有辅助驾驶系统，使得车辆具备通信计算的能力，并且车辆，接入点和边缘计算节点三者之间可以相互通信。本发明利用这些基础设施和通信技术，采用种群博弈和演化博弈理论建模多车路由规划，利用深度强化学习模型建模多车协同驾驶。

本发明方法在实现时，考虑的问题和采取的解决方案思路如下。

(1)现存的对车辆路由规划的研究，大多是根据实时的交通态势，预测未来一段时间的交通状态，进而为车辆规划最优的路线；或者根据历史车辆行驶轨迹来为车辆规划路线。这些都是对O-D对(一对源-目的地)的研究。当多辆源-目的地对相近的车辆同时选择系统推荐的最优路由时，会造成某条道路的拥堵，使得道路资源没有被充分的利用。考虑多车之间的相互影响，一些集中式的车辆路由算法被提出。车辆上配备丰富的传感器，实时的将道路信息传送给边缘计算节点。这些算法根据全局的交通信息来为每辆车做出决策。这种方法有两个缺点：一是可扩展性差，当路网扩大时，全局的车辆调度策略的计算复杂度是不可接受的，导致不能真正的应用在实际的场景中。二是需要假设车辆具有完全理性，完全服从中央控制器发送的指令。为了解决这样的缺点，本发明考虑了一种分布式边缘协助的车辆路由架构，将交叉口作为分布式节点，完成路口车辆分流。将交叉口作为分布式节点，完成路口车辆分流。车辆实时将位置、目的地和车辆速度发送给路侧接入点。接入点收集车辆的信息并汇总整合后发送给边缘计算节点。边缘计算节点中的虚拟代理代表车辆进行博弈，将博弈的最终结果发送给车辆。车辆根据系统推荐的混合策略来做出路由决策。由于系统推荐是混合策略，一定程度上，车辆可以根据自己的路由偏好进行路由的选择。将车辆从源点到目的地的路由规划任务分散到每个路口，同时计算负载也分配到各个路口上，使得本发明方法具有扩展性，可应用于真实的交通环境中。

(2)现存的对无信号灯下多车协同驾驶的研究，一般将控制端放在边缘计算节点上，车辆执行边缘传送的指令。这种方法有两个缺陷：一是当车辆由于网络原因不能及时接收边缘计算传送的指令，这可能导致灾难性的结果。二是当道路上的车辆增多时，对边缘计算资源的需求增加，此时边缘计算节点可能不能及时或者根本无法计算出可行的驾驶策略。本发明利用多代理强化学习建模路口多车协同驾驶。将车辆看作具有自主决策的代理，车辆自主决定协同的驾驶策略，这既保证了车辆的安全性，同时也将协同驾驶决策的计算分担在各个车辆上，减轻边缘计算节点的负载。

(3)单车的视野信息是有限的，需要利用车辆的有限信息来获得关于道路交通网更加全面的信息。因此，需要利用车辆之间、车辆与边缘计算之间的相互通信，让车辆自主决策，保证车辆的安全性。本发明利用深度强化学习方法训练一个自主决策的模型，利用车辆有限的视野信息来协同多车通过路口，车辆将自身观察到的交通状态与其它车辆进行交流，将数据输入到自主决策的网络模型中，来得到驾驶决策。

如图1所示，本发明的一种基于分布式群智学习的多车协同规划方法中，在路口的边缘计算节点中设置有多车路由规划决策汇聚模块和预测路口周边交通态势模块，在车辆的辅助驾驶系统中设置有基于演化博弈的路由规划决策模块、路口周边态势模块、路口通行驾驶决策模块以及视野范围态势模块。下面分三个步骤来说明本发明方法的实现。

步骤一：边缘计算节点收集车辆信息，进行博弈演化，预测路口周围的交通态势。

路口边缘计算节点，通过接入点接收路口周围道路上车辆相关信息，包括车辆的位置、速度和目的地，以及车辆路由决策等，并根据这些信息进行博弈过程的演化计算，从而预测路口周围的交通态势。如图1所示，首先，边缘计算节点通过V2I(车辆与基础设施)通信技术，收集路口周围道路上车辆传送的路由决策信息。图1中省略接入点的示意。其次，根据车辆的位置及目的地信息将车辆划分到不同的种群中，并计算各个种群的策略分布。最后，根据各个种群的策略分布信息来预测路口周围道路资源的利用情况，生成路口周边态势预测性报告，通过I2V(基础设施与车辆)通信技术发送给车辆。

多车路由规划决策汇聚模块，接收参与此次博弈的种群的车辆的路由决策，并根据种群博弈模型整合数据，建立博弈的演化过程。车辆的路由决策包括下一步车辆的动作和行驶的道路。

预测路由周围交通态势模块，根据多车路由规划决策汇聚模块建立的博弈演化过程，得到车辆的路由决策，进而可预测路口及其周围道路的资源利用情况，包括交通流分布、车流密度等。

在本发明中，将多车路由规划建模成一个种群博弈模型，表示为G＝(P，A)，其中P表示一个社会，即种群的集合，|P|为种群的数量，A表示P可能的动作集。在多车协同路口规划场景中，每辆车看作种群博弈中的一个代理，参与博弈的所有车辆组成一个社会。根据车辆当前所处的道路和车辆目的地的方向，将车辆划分到对应的种群中。本发明实施例中，车辆目的地的方向分为西北，北，东北，东，东南，南，西南，西八个方向。本发明实施例的应用场景为连接四条道路的十字交叉路口，所以博弈车辆组成了32个种群。

每个种群p包含一组代理V^p，p∈P。V^p为种群p中车辆集合。让

代表种群p的动作集，

表示种群p的状态集，其中，

表示选择动作

的车辆数，

为种群p的第k个可选动作。车辆在路口有直行，右转，左转，掉头四个动作。所以每个种群的动作集都是{直行，左转，右转，掉头}。

种群博弈G的社会状态可以用X＝{X¹，X²，…，X^|P|}表示。博弈的目的是发现纳什均衡状态，用公式表示如下：

其中，F表示种群博弈的收益函数，NE(F)表示种群博弈G，在种群收益函数F下的纳什均衡状态。F_i ^p(x)、

分别表示在社会状态x下，种群p中的动作i、动作j的收益。利用演化博弈中的最优回应动态(best response dynamic)得到种群博弈的纳什均衡状态。最优回应动态表示为

即演化过程为从x^p到|V^p|·B^p(x)，x^p表示种群p的社会状态，即种群p的动作分布，

其中b^p(x)表示在社会状态x下，种群p中收益最高的动作的集合，Δ^p表示动作全集，B^p是Δ^p的子集，表示所有代理都选择了各自种群中最优的策略，即代价最小的策略。

表示种群中代理可采用的策略集合，n^p表示种群的策略个数，

代表代理选择各种策略的集合。|V^p|代表种群p中的车辆数目，

代表种群p中选择策略

的代理的个数，y^p代表

的集合。

图2展示了博弈演化过程。车辆根据路口周围道路交通态势同时做出自身最优的路由决策，形成了新的路由策略分布，边缘计算节点根据新的路由策略分布预测未来一段时间内路口周边交通态势。不断循环这个过程，直到博弈达到纳什均衡，形成稳定的路由决策方案。此时，获得路口所有车辆的路由决策，确定车辆下一步的动作和行驶的道路。

在边缘计算节点，和车辆辅助驾驶系统等基础设备以及5G通信技术的支持下，本发明将多车协同路由规划看成是一个大型的分布式决策系统。路口部署的边缘计算节点提供多车协同路由算法需要的计算能力。路口边缘计算节点根据多车的路由决策策略来计算未来路口周围道路上资源的利用情况。本发明将路由规划所需的计算能力下放到边缘计算节点，使得车辆搭载的辅助驾驶系统可以关注于车辆安全方面的计算。利用路口边缘计算节点收集车辆及交通态势的相关信息，减轻了车辆的通信负载。车辆可以随时将位置，速度，驾驶决策等信息传送给路口边缘计算节点，而不需要通过频繁的多车交互来获得全局的交通态势信息。

步骤二：车辆上的辅助驾驶系统接收边缘计算节点下发的路口周围的交通态势预测报告，计算最优驾驶决策，同时与周围车辆进行信息交互，获取路口通行的驾驶决策。

在路口多车协同驾驶的场景下，一定距离范围内的车辆之间相互通信，通信内容包括车辆位置，车辆路由等信息。利用车车之间的通信机制扩大车辆对交通态势的感知。在神经网络模型中，利用视野范围内的交通态势信息和车车通信获得的额外的交通态势信息来学习协同驾驶决策。

车载辅助驾驶系统实现：1)接收路口边缘计算节点下发的路口周边态势预测性报告，并基于接收的预测性报告，使用演化博弈中的最优回应动态来做出最优驾驶决策。最后将调整后的路由决策信息上传至路口边缘计算节点。2)利用V2V(车辆与车辆)通信技术，与视野范围内的车辆进行信息交互，并将交互信息输入多代理强化学习模型来得到路口通行的驾驶决策。

路口周边态势模块，接收路口边缘计算节点发送的路口周边道路态势预测性报告，包括交通流的分布、车流密度等，发送给基于演化博弈的路由规划决策模块。

基于演化博弈的路由规划决策模块，根据路口周边态势预测性报告，利用最优回应动态演化技术计算出当前博弈阶段的最优路由决策，然后调整自身的路由策略，并上报路口边缘计算节点。

视野范围态势模块，与视野范围内的车辆进行信息交互，并整合成路口通行驾驶决策模块中神经网络模型需要的数据格式。车车交互获取的信息包括：车辆的位置，车辆的路由信息，车辆的速度等。车辆的路由信息如，车辆当前所处的道路以及通过路口后行驶的道路。所整合获取的数据包括本车当前观察的交通态势和与其他车辆交互得到的交通态势，如视野内车辆数，车辆与本车的距离，车辆的速度等。

路口通行驾驶决策模块，装载已经训练完成的神经网络模型，将视野范围内的交通态势转化成路口通行驾驶决策。神经网络模型预先在仿真实验中进行训练，然后将训练完成的模型搭载到各个车辆上。神经网络模型是一个深度多代理强化学习的神经网络。神经网络模型的输入是车辆视野范围内的交通态势，以及与其他车辆交互获得的交通态势信息，输出车辆路口通行的驾驶决策，如下一时刻车辆是行驶还是原地不动。

本发明在路口通行驾驶决策模块中实现有限视野范围强化学习决策方法。利用多代理强化学习方法生成路口多车协同驾驶方案。将车辆作为一个独立决策的代理，车辆之间协同过路口可以建模成多代理协同决策的任务，分布式的决策系统便形成了。交通道路的态势复杂多变，车辆根据全局交通态势信息做出决策是不可行的。如何在车辆对交通态势有限认知的情况下，协同其他车辆完成路口的驾驶方案是本发明解决的问题。本发明利用V2V通信技术扩大车辆对交通态势的感知，并且在多代理强化学习模型中利用LSTM等具有记忆功能的神经网络进一步辅助车辆的决策。独立决策的车辆拥有各自的神经决策网络结构，输入为自身视野范围内的交通态势和与其他车辆交流得到的额外的交通态势信息，输出为决策的概率分布，车辆根据输出做出协同驾驶决策。

在多代理系统中，代理之间的交互通常是偶然发生，这意味着代理不需要和所有其他代理合作，也不需要一直和其他所有代理合作。本发明提出利用神经网络结构中的注意力机制来简化车辆的交互过程。在图3展示了车辆在协同驾驶控制中的决策流程。首先，车车之间相互通信位置、速度、路由等信息。神经网络结构中的注意力机制根据这些信息得到车辆之间交互关系权重图，利用交互关系权重图来形成车辆之间新的交互关系。即，删减了一些不必要的交互关系，并且得到交互内容的权重。车辆利用这些信息来交互并融合交互车辆传送的其视野范围内的交通时态信息。

步骤三：实现路口通行驾驶决策模块中神经网络模型的训练。

本发明的路口通行驾驶决策模块中神经网络模型，采用车辆路由规划感知的强化学习决策训练方法。深度强化学习的神经网络模型一般是在交通环境仿真器中进行训练。在这种训练环境下，本发明可以利用额外的信息来辅助训练。车辆在路口的通行驾驶决策与其他车辆的决策是相互影响的。但是车辆的通行驾驶决策不是与所有车辆相关。例如：相向而行的两车辆的右转是互不冲突的。本发明利用车辆路由信息来简化神经网络的学习过程。在仿真器中对神经网络模型进行训练时，利用全局的路由信息来辅助车辆通行的驾驶决策的训练，以辅助神经网络模型能学到更好的驾驶决策。将全局的路由信息用于强化学习的Actor-Critic方法中的Critic网络中。即，利用全局路由信息来评判车辆策略网络的优劣，从而引导策略网络的训练方向。Critic网络的输入是全局路由信息和车辆当前观察的交通态势。如图4所示，利用多层感知机对全局路由信息进行预处理之后，利用处理过后的路由信息对Critic网络中每一个神经节点的输入和神经网路参数进行调节，得到代理的动作值函数。利用平行的多个线性层来提取路由信息的不同方面，并不同线性层提取的不同特征作用于Critic网络的多层感知机的输入和各层的神经节点的参数，最终输出动作值函数Q。利用Critic网络的输出进行车辆策略网络Actor的训练。在训练完成后，将得到的Actor网络部署在车辆上。

Claims

1.一种基于分布式群智学习的多车协同规划方法，在道路交通网络中部署边缘计算节点，在道路侧部署接入点，在车辆上配置辅助驾驶系统；所述方法包括：

步骤1：接入点收集车辆信息发送给边缘计算节点，边缘计算节点预测路口周围的交通态势；车辆信息包括车辆的位置、速度和路由决策；

边缘计算节点中设置多车路由规划决策汇聚模块和预测路口周边交通态势模块；多车路由规划决策汇聚模块将多车路由规划建模成一个种群博弈模型，根据车辆的位置及目的地将车辆划分到不同的种群中，每辆车作为种群博弈中的一个代理，利用演化博弈中的最优回应动态得到种群博弈的纳什均衡状态，获得车辆的路由决策；预测路口周边交通态势模块根据所获得的多车的路由决策，预测路口周围的交通态势；

其中，Actor网络先通过注意力机制对输入的交通态势处理得到车辆交互关系权重图，利用该权重图来对交互车辆输入的交通态势进行融合，再由神经网络进行驾驶决策；

2.根据权利要求1所述的方法，其特征在于，所述的步骤1中，根据车辆当前所处的道路和车辆目的地的方向，将车辆划分到对应的种群中，建立种群博弈模型如下：

种群博弈模型G＝(P,A)，P为种群的集合，A为动作集；

每个种群p包含一组代理V^p，p∈P；种群p的动作集

种群p的状态集

其中，

表示种群p中选择动作

的车辆数；

G的社会状态表示为X＝{X¹,X²,…,X^|P|}；

利用演化博弈中的最优回应动态得到种群博弈的纳什均衡状态；纳什均衡状态用公式表示为：

其中，F表示种群博弈的收益函数，F_i ^p(x)表示在社会状态x下种群p中的动作i的收益，

表示在社会状态x下种群p中的动作j的收益。

3.根据权利要求1所述的方法，其特征在于，所述的步骤3中，采用强化学习决策训练方法对路口通行驾驶决策模块中的神经网络模型进行训练，在训练时，将全局路由信息和车辆观察的交通态势输入Critic网络，对全局路由信息利用多层感知机预处理后，再利用平行的多个线性层提取路由信息的特征，将不同线性层提取的特征作用于Critic网络的多层感知机的输入和各层的神经节点的参数，最终输出动作值函数Q；利用Critic网络的输出进行Actor的训练；将训练完成后得到的Actor网络部署在车辆上。