CN113867354A

CN113867354A - 一种自动驾驶多车智能协同的区域交通流导引方法

Info

Publication number: CN113867354A
Application number: CN202111180306.6A
Authority: CN
Inventors: 冷甦鹏; 廖熙雯; 成泽坤; 张科
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2021-12-31
Anticipated expiration: 2041-10-11
Also published as: CN113867354B

Abstract

本发明公开一种自动驾驶多车智能协同的区域交通引导方法，应用于智能车联网领域，针对传统路径规划算法的短视性，以及其忽略通信资源约束的问题；本发明提出了一种具有自演进功能的多智能体深度确定性策略梯度模型，能够对路网数据进行集中式训练，分布式执行，即每辆自动驾驶车辆可以有不同的奖励结构，并依据自己的局部信息进行决策，一定程度上避免了策略的冲突引发的策略性拥塞；区域服务器对区域内的车辆建立数字孪生进行路况推演，并对车辆产生周期性反馈；本发明通过数字孪生迭代车辆策略，精准推测多车作用下未来交通状况，作为输入反馈给车辆用以分布式决策；本发明在考虑个人出行安全与时间约束前提下，使系统内多车出行效率显著提升。

Description

一种自动驾驶多车智能协同的区域交通流导引方法

技术领域

本发明属于智能车联网领域，具体涉及一种多车智能协同区域交通流导引技术。

背景技术

有效的路径规划对于提高运输效率起到关键性作用。如果没有全面的实时交通信息，驾驶员只能根据自己有限的视野做出路线决定，这些短期和非协同的路线选择不可避免地会造成规划路线上的大量冲突，降低道路网络的资源利用效率。近年来，车辆感测，计算和通信能力的不断提高为改善城市交通提供了机会。具体来说，启用5G的车载自组织网络(5G-VANET)有助于在车辆和基础设施之间交换实时交通信息。此外，云计算和边缘计算范式可协助车辆进行复杂的信息处理(例如，数据融合和交通预测)和实时决策能力。结合这些最先进的技术，大数据和机器学习在减少交通拥堵，改善道路安全和提高驾驶舒适性方面发挥着越来越重要的作用。

自动驾驶车辆能够更加迅速且精准的感知周边环境，从而对潜在的威胁做出反应，同时驾驶员无需操纵车辆，从而节约人力成本，因此，自动驾驶正以迅猛之势发展。再结合智能车联网技术，未来交通将会呈现出多车协同自动驾驶与人工驾驶并存的新模式。该模式下的路网除了要支持基础的交通功能，还需要具备车辆网络通信能力来保障智能汽车行驶安全。所以面对未来自动驾驶的路径规划，不仅需要考虑车辆密度、行驶速度、道路拥塞等常规路网状态，还需要将道路通信带宽以及区域内其余车辆的行为等因素纳入考虑。因此设计同时考虑交通与通信资源来避免未来交通拥堵的多车在线路径规划策略对提高交通路网运输效率至关重要。

目前已有研究中，已出现许多交通流导引方法，较为经典的方法为用户最优和系统最优两种，往往满足其中一者，就需要牺牲另一者的利益。在IET Intell.Transp.Syst.,2019,Vol.13Iss.12,pp.1851-1859中提出一种强制节点的交通流导引方法，类似于计算机网络中的路由算法，用以均衡用户和系统的利益。但在大多数情况下，这些规划策略并没有考虑到未来道路拥堵或出行安全会受到通信资源的约束，当通信资源不足时可能导致车辆在规划道路上产生通信延迟高难以保障诸如感知、控制、安全等车联网业务需求，形成安全隐患，同时会导致车辆为保证安全降低速度进而引发拥塞。另一方面，传统路径规划算法普遍存在仅根据当前交通状况提供最快/最短路径，这些看似最优的路线可能吸引大量的车辆，存在短视性问题，使得规划后的路线变得极度拥挤。

数字孪生最初是为了通过虚拟和学习网络空间物理空间的数据来实现智能制造而设计的。数字孪生现在是物联网里面的一个概念，通过集成物理反馈数据，辅以人工智能、机器学习和软件分析，在信息化平台内建立一个数字化模拟。这个模拟会根据反馈，随着物理实体的变化而自动做出相应的变化。理想状态下，数字孪生可以根据多重的反馈源数据进行自我学习，几乎实时地在数字世界里呈现物理实体的真实状况。

多智能体深度确定性策略梯度模型是深度确定性策略模型的一个改进，是由OpenAI2017发表在NIPS上的文章《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》所提出的。该模型由多个深度确定性策略模型所构成，其最核心的部分就是每个智能体采用单独的神经网络，分别构建策略网络和评价网络，每个智能体的评价网络能够获取其余所有智能体的动作信息，进行中心化训练和非中心化执行，即在训练的时候，引入可以观察全局的评价网络来指导策略网络训练，而测试的时候只使用有局部观测的评价网络采取行动。目前，该模型尚未在智能交通流导引中得到应用。

发明内容

为解决传统交通流控制的短视性以及其忽略通信资源约束等问题，本发明提供一种基于交通与通信资源感知的自动驾驶多车智能协同区域交通流导引方法，通过结合深度确定性策略梯度模型的多智能体强化学习技术，在区域服务器中对自动驾驶车辆建立数字孪生体，对未来一段时间内的道路状况进行演算，将结果反馈给车辆供其分布式决策，并将通信资源加入传统路网，实现了区域内自动驾驶车辆对未来交通状况的感知与决策，在满足个人需求的前提下，提高了系统内的多车出行效率。

本发明采用的技术方案为：一种自动驾驶多车智能协同的区域交通流导引方法，应用的场景为：城市道路划分为多个路网区域，每个路网区域中配置一个区域服务器，每个自动驾驶车辆对应一个策略网络和一个评价网络；路网区域的交通引导方法具体包括以下步骤：

S1、当自动驾驶车辆进入当前路网区域时，向该路网区域的区域服务器发送出行需求，所述出行需求包括：需求产生时刻、出发位置、终点位置、出行最大时长限制；

S2、区域服务器将终点位置与该路网区域所覆盖范围进行比对，若终点位置在当前路网区域中，则记终点位置为自动驾驶车辆在当前路网区域内的目标位置，然后执行步骤S4，否则执行步骤S3；

S3、区域服务器根据其存储的其他路网区域的历史交通流信息，为自动驾驶车辆选择到达终点位置所途经的当前路网区域的边缘位置，将该边缘位置作为自动驾驶车辆在当前路网区域内的目标位置；然后执行步骤S4；

S4、自动驾驶车辆向当前路网区域的区域服务器发送当前局部交通资源与通信资源状态、该自动驾驶车辆的当前真实策略、该自动驾驶车辆的当前决策；

S5、区域服务器根据路网区域内所有自动驾驶车辆所发送的各自的当前真实策略，为每个自动驾驶车辆建立数字孪生，区域服务器中的这些数字孪生根据路网区域内所有自动驾驶车辆所发送的各自的当前决策进行推演，并将获得的未来持续时段路网区域内交通资源和通信资源状态存入经验回放池；

S6、各自动机驾驶车辆从经验回放池中采集样本，并输入各自的评价网络中，计算各自的损失函数；

S7、各自动驾驶车辆的决策网络根据损失函数进行更新；自动驾驶车辆根据更新后的决策网络输出的决策进行驾驶；

S8、重复步骤S3-S7，直到自动驾驶车辆到达当前路网区域内的目标位置。

经验回放池存放的样本为四元组样本，具体为(S_t,a_t,y^,S′_t+K)的四元组，其中，S_t表示t时刻的局部交通与通信资源状态，a_t表示t时刻的自动驾驶车辆当前决策，y^表示推演得到的自动驾驶车辆的目标Q值，S′_t+K表示t时刻开始的未来持续时段K内当前路网区域内交通资源和通信资源状态。

车辆在策略网络完成决策后，将按照以下规则行驶：

其中，道路r长度为l_r，最大限速为

最大安全密度约束为

当r上的车辆密度ρ_r小于等于道路车辆密度阈值

车辆转移时间等于道路长度l_r除以r上的最大限速

当r上车辆密度超过

时路段发生拥堵，其中ω为道路拥堵系数。

的计算式为：

其中，

表示在道路r上前后相邻两车最小安全距离，l_c表示车辆长度，l_r表示道路长度。

的计算式为：

其中，B表示最大减速度，b表示相比于B较小的减速度，τ表示经过前车发出告警信号的传输时间与后车反应时间之和。

本发明的有益效果：本发明的方法，通过对交通与通信资源感知加强对自动驾驶车辆的交通流导引，把通信资源用以加强路网状况，通过自演进模块对未来一段时间的路网状况进行推演，通过将策略与价值评价模块训练分离避免自动驾驶汽车决策冲突，可以考虑个人出行安全性与时间约束前提下，使得系统内多车出行效率最高。

附图说明

图1为本发明的应用场景。

图2是基于交通与通信资源感知的自动驾驶多车智能协同交通流导引算法流程图。

图3是具有自演进功能的多智能体深度确定性策略梯度模型示意图。

图4是区域服务器选择区域内目的地流程图。

具体实施方式

为了便于本领域的普通技术人员理解本发明的内容，下面结合附图对本发明内容进一步阐释。

由于针对传统路径规划算法的短视性，以及其忽略通信资源约束的问题，本发明提出了一种具有自演进功能的多智能体深度确定性策略梯度模型对自动驾驶车辆进行交通流导引，在有通信资源增强的路网状况下，选用集中式训练，分布式决策的方法来避免车辆间的策略冲突，并在区域服务器上对车辆建立数字孪生体，用以推演未来一段时间的道路状况，从而尽可能的减少拥堵，在满足个人出行需求的前提下，提高了系统的整体出车效率。

如图1所示为本发明的应用场景，城市路网包括若干条交错的道路，本发明将城市划分为多个路网区域，每个路网区域的覆盖范围受无线通信和区域服务器算力的限制，每个自动驾驶车辆的行进路线被划分成多个路段，每个路段的长度由该自动驾驶车辆的速度确定，一般设置为自动驾驶车辆1-2分钟的行驶距离。

本发明技术方案包括三个部分，分别是：具有分布式决策能力的自动驾驶车辆，根据车辆真实策略建立数字孪生、并进行路况推演的区域服务器，以及有通信资源增强的路网结构。本发明将城市道路交通划分为多个路网区域，每个路网区域中配置有一个区域服务器，自动驾驶车辆按照其出行需求产生源、目的地以及出行时间约束，并其当前所在区域的区域服务器发送相关信息。技术方案采用了多智能体深度确定性策略梯度模型进行决策，并对其进行改进加入自演进功能，区域服务器能够周期性地从自动驾驶车辆获取其策略以及路网状况，由此建立数字孪生，模拟区域内所有车辆未来一段时间的驾驶状况，以达到车辆间协作出行的目的。同时，考虑到自动驾驶车辆间通信的问题，将通信资源约束加入路网中，完善了在自动驾驶环境下的安全距离模型。具体步骤如下：

首先，每个区域的区域服务器具有城市所有区域的历史不同时段车辆密度数据，当自动驾驶车辆产生出行需求时，先由区域服务器判断是否为区域内出行，如果为区域内，则直接设置为当前出行目的地，若不在当前区域内，则根据出行需求和城市历史时序交通状况为其选择最优的区域边缘目的地，以驶出区域。

其次，结合自动驾驶场景，为了保证车辆在危险情况下不发生碰撞，两车必须保证一定的安全行驶距离，当发生前车急刹车并向后车发送警告信息时，后车可以及时解析报警数据帧并做出制动响应，信息传输会占用一定的带宽，将路网状况描述为如下几点：附近道路车辆密度、未来区域内道路车辆密度、附近无线信道通信流量、未来区域内无线信道通信流量，用通信资源增强路网状况，以便后续演进和决策。

最后，采用多智能体深度确定性策略梯度模型进行决策，并对其进行改进加入自演进功能对一段时间内的道路状况进行推演，可以对路网数据进行集中式训练，分布式执行。具体为：每个自动驾驶车辆在本地维护一个策略网络与评价网络，自动驾驶车辆在移动过程中策略网络针对当前局部获取的路网状态，来主动选择规划路线，并按照一定周期将其当前策略和观察到的路况发送给区域服务器，区域服务器收集其覆盖区域内当前所有车辆的策略和路网状况，建立数字孪生，构建虚拟映射来模拟真实场景下的车辆和路网状况，进一步推演一段时间内的交通状况，将其反馈给每个自动驾驶车辆的评价网络。由于区域服务器对所有车辆都建立了数字孪生，车辆的策略将在孪生网络中进行迭代，因此能够同时考虑到区域内所有车辆的行为，精准地推测出多车相互作用下未来一段时间内的交通状况，从而对各个车辆的当前策略进行客观评估。最后评价网络根据车辆个体的出行时间约束、对区域路网系统上其他车辆的出行约束和对交通堵塞的全局影响，对路线做出评价，从而对其策略网络进行调整。每辆自动驾驶车辆在决策时只需要利用局部信息；由此汽车可以有不相同的奖励结构，包括在竞争环境中的冲突奖励，一定程度上避免了策略的冲突性引发的策略性拥塞。

本发明的实现过程如下：

1.具有自演进功能的多智能体深度确定性策略梯度模型

首先本方法需要对自动驾驶车辆建立多智能体深度确定性策略梯度模型，如图3所示，每个自动驾驶车辆都拥有一个策略网络和评价网络，评价网络能够获取区域内其余所有智能体的动作信息，进行中心化训练和非中心化执行，即在训练的时候用全局的评价网络来指导策略网络进行决策，而测试时只需要用具有局部观察能力的策略网络独立决策。

自动驾驶车辆i可以通过最大化车辆j的动作日志概率来对其真实策略μ_j进行逼近，表示为

按照多智能体深度确定性策略梯度模型，每次迭代中的目标Q值y_i可以表示为

其中，r_i表示车辆i当前策略的奖励值，N表示区域中车辆总数，x_i′表示在多智能体复杂策略下，车辆i执行当前行为后对环境进行观察，

表示了车辆i的评论网络从中心角度对其策略网络的当前决策所做出的评估，γ表示车辆i的折扣因子，用于调整评估的影响程度。从一方面来说，由于

并非是车辆j的真实策略，因此对于车辆i，这个目标Q值不具有很强的连续性和准确性。另一方面。当折扣因子γ取到1时，评价网络对于未来的预测将会有持续性的影响，从而失去时序上的意义。

为了解决这个问题，本发明选用了数字孪生的方案，用数字孪生的方法构造物理世界的虚拟映射，用以模拟车辆和路网状况，使车辆当前的策略能够在虚拟场景中进行测试与验证。具体的方法为在传统的多智能体深度确定性策略模型中添加了一个自演进模块，图2展示了改进后的模型示意图。区域服务器对区域中的每一辆自动驾驶车辆i维护了一个目标策略μ_i，从而建立其对区域内车辆的数字孪生。当车辆驶过路口时，会向区域服务器发送其动作以及其真实策略的更新。

区域服务器收集区域内所有车辆的真实策略和动作，并进行推演，计算目标Q值

获取未来一段时间内的路网状况，最后将这些数据存入经验池中用于评价网络的采样和训练。其中

和

分别为真实环境和推演环境下的奖励值。

由于区域服务器所获得的策略都是真实的，因此推演得到的路况与真实路况十分接近。区域服务器将推演得到的结果反馈给车辆的评价网络计算损失函数，从而完成对车辆策略网络的更新。

2.有通信资源增强的路网状况

其次，本发明考虑了在自动驾驶情形下路网状况的变化，由于自动驾驶车辆与区域服务器、自动驾驶车辆与前后车之间都需要通信，道路的通信资源约束也应该被加入路网状况的考虑范围内。

如图2所示，点划线圈出部分即自动驾驶车辆局部交通资源与通信资源状态，区域内所有自动车辆都把自己的策略和局部信息发给区域服务器，区域服务器对区域内全局路况进行推演和反馈。

具体来说，对于每一辆车i，请求区域服务器返回车辆行驶下一路段r中的最大安全交通密度

该密度受道路上通信容量制约，表达式如下：

其中，

表示在路段r上前后相邻两车最小安全距离，l_c表示车辆长度，l_r表示道路长度，在自动驾驶场景下，为防止安全信息处理不及时发生追尾，车辆需要保持适当安全距离。

为了获得安全距离的下限，本发明研究了这种情况：前车在时间T＝0时以急停，以最大减速度B开始减速，在后车做出反应后使用略小减速度b进行减速，为避免两车相撞，最小安全距离

应该为经过前车发出告警信号的传输时间与后车反应时间之和τ后两车相对行驶的距离，车辆初始速度为v，则两车之间的安全距离动力学公式如式(3)所示。式(4)表示最小反应时间，其中K表示安全告警信息bit数，

代表后方车辆k的预留通信带宽，用于自动驾驶汽车V2V通信，η表示任务的计算复杂性系数，f_i ^s表示车辆k的安全告警业务的预留计算频率，τ随着

或

的增加而减少。

根据上面推导的最大安全密度，车辆在策略网络完成决策后，车辆通过区域中某条路段v的通行时间T_v如下：

其中，道路r长度为l_r，最大限速为

且最大安全密度约束为

当r上的车辆密度ρ_r小于等于道路车辆密度阈值

车辆转移时间等于道路长度l_r除以r上的最大限速

当r上车辆密度超过

时路段发生拥堵，其中ω为道路拥堵系数，发生拥堵时道路通行时间无法完全按照既定的规则计算，因此通过该系数来进估算。

ρ_r在本实施例中取值为道路r上的车辆数量；关于拥堵系数ω的理解：比如通过历史数据统计得到路段r的拥堵系数为1.2，那么当r上的车辆密度

即发生拥堵时，车辆经过该路段的时间并不是严格按照理论

来计算，而是在这个时间基础上乘以拥堵系数ω＝1.2，来近似发生拥堵情况下车辆需要进行制动、等待操作的真实通过时间。

3.基于交通与通信资源感知的自动驾驶多车协作智能交通流导引算法流程

本算法是基于城市道路环境的交通流导引方法，包含两个框架，两个框架可以理解为：第一个框架为自动驾驶车辆需要跨区域通行，对应算法1；第二个框架为自动驾驶车辆在当前区域内通行，对应算法2；

算法1为区域服务器预处理车辆信息的过程，如图4所示，包括以下步骤：

Step 1：当自动驾驶车辆进入路网区域，向所在区域的中心服务器发送出行需求，包括需求产生时刻、出发位置、终点位置、出行最大时长限制。

Step 2：区域服务器获得车辆发送的信息，将终点位置与区域覆盖位置进行比对。若终点位置也在同一区域内，则直接进入算法2，若终点位置不在该区域内，则进入Step 3。

Step 3：区域服务器有城市内其他区域的历史交通流信息，包括不同时刻的车辆密度统计学信息，根据车辆所产生的出行需求，为其选择到达终点所途经的本区域边缘位置，作为在当前区域内的目标位置，进入算法2。

算法2为区域内自动驾驶多车智能交通流导引的过程：

Step 1：当自动车辆i进入指定路网区域时，已经拥有区域内目的地和最大时长限制。车辆向区域服务器发送局部交通与通信资源状态S_t,、其当前真实策略μ_i以及其当前决策a_t(路口的方向选择)。

Step2：区域服务器维护区域内所有车辆所发送的策略，建立数字孪生体并结合车辆所发送的当前决策a_t进行推演，获得未来持续时段K区域内交通资源和通信资源状态S′_t+K，计算车辆采取当前决策a_t与其余车辆策略共同作用所对应的目标Q值y^，并按照(S_t,a_t,y^,S′_t+K)的四元组存入经验回放池

Step3：车辆从经验回放池中采样并输入各自的评价网络中，并计算损失函数。

Step4：车辆的决策网络根据损失函数进行更新，从而更新车辆的深度确定性策略梯度模型。

Step5：重复Step1至Step4过程，直至到达区域内目标位置。当训练时间足够长，经验回放池中的数据足够多时可以跳过Step2。

经验回放池中的数据足够多是指经验回放池中的数据样本趋于稳定，即经验回放池中车辆出现大量重复的策略、行为的时候就不需要再放入了。

本发明与其他的交通流导引方法相比具有以下创新：首先，本发明考虑了自动驾驶情景下有通信资源增强的路网状况，能够在增强的道路通行容量下进行交通流导引。其次，本发明提出了具有自演进功能的多智能体深度确定性策略梯度模型，在区域服务器中对自动驾驶车辆建立数字孪生，用以推演未来区域内的交通状况，通过海量数据的观测和预测、递归学习、实时验证以及物理网络和虚拟网络之间的交互，评估各个车辆决策结果在未来对路况的影响，再进行迭代，以达到实现更加智能的交通流导引目的。最后，本发明兼顾了个人出行与系统出行利益，车辆在做出决策时考虑了其余车辆的行为，减少了车辆间的策略冲突。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种自动驾驶多车智能协同的区域交通流导引方法，其特征在于，应用的场景为：城市道路划分为多个路网区域，每个路网区域中配置一个区域服务器，每个自动驾驶车辆对应一个策略网络和一个评价网络；路网区域的交通引导方法具体包括以下步骤：

2.根据权利要求1所述的一种自动驾驶多车智能协同的区域交通流导引方法，其特征在于，经验回放池存放的样本为四元组样本，具体为(S_t,a_t,y^,S′_t+K)的四元组，其中，S_t表示t时刻的局部交通与通信资源状态，a_t表示t时刻的自动驾驶车辆当前决策，y^表示推演得到的自动驾驶车辆的目标Q值，S′_t+K表示t时刻开始的未来持续时段K内当前路网区域内交通资源和通信资源状态。

3.根据权利要求2所述的一种自动驾驶多车智能协同的区域交通流导引方法，其特征在于，车辆在策略网络完成决策后，车辆通过路网区域中某条路段v的通行时间T_v为：