CN114463997B

CN114463997B - 一种无信号灯交叉路口车辆协同控制方法及系统

Info

Publication number: CN114463997B
Application number: CN202210132425.2A
Authority: CN
Inventors: 吴艳; 郭子涵; 王丽芳; 张俊智; 李芳�
Original assignee: Institute of Electrical Engineering of CAS
Current assignee: Institute of Electrical Engineering of CAS
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2023-06-16
Anticipated expiration: 2042-02-14
Also published as: CN114463997A

Abstract

本发明涉及一种无信号灯交叉路口车辆协同控制方法及系统，方法包括：将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程；搭建十字交叉路口场景模型；获取车辆的状态信息、动作信息以及ID信息；构建神经网络模型；所述神经网络模型包括：动作值神经网络和混合神经网络；将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值；基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息；将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络，得到近似共享奖赏值。本发明中的上述方法能够降低计算复杂度。

Description

一种无信号灯交叉路口车辆协同控制方法及系统

技术领域

本发明涉及人工智能领域，特别是涉及一种无信号灯交叉路口车辆协同控制方法及系统。

背景技术

能否有效地进行城市交叉路口管控对造成交通系统是否拥堵现象和是否出现安全事故起着至关重要的作用。城市化的深入大幅增加了城市中的人口数量，城市中的车辆数量，不可避免地引起交通拥堵问题，进而造成社会生产效率的降低，带来环境污染，增加交通事故发生的概率，影响市容市貌。在交叉路口设置交通信号灯是普遍情况下有效缓解上述问题的方法之一，为了使交通流有效和安全，学术界在优化交通信号灯的时间与相位上做了大量探索(包括基于优化理论的算法和人工智能算法)。在1992年，MichaelG.H.Bell在其论文中论述仅靠交通信号灯本身是无法解决交通拥堵问题，而是需要集成一些其他信息，例如车辆能够获取当前道路的一些拥堵情况信息。

在有交通信号灯的交叉路口中，车辆的等待时间无法被消除。因此，这也激发了科学家们对车辆在无信号灯交叉路口的有效协同控制的探索。如今智能网联车技术的不断发展，如V2V(Vehicles to Vehicles)，V2I(Vehicles to Infrastructure)等技术促进了该场景下的车辆协同技术的发展。从场景角度来看，仅仅是单一城市交叉路口中车辆之间的冲突关系就已经比较复杂，建立起路网层面对各网联车进行协调就更为困难。

现如今无信号灯交叉路口大多尝试用集中式协同方法(例如，基于经典控制方法MPC)组织各车辆的决策。但传统方法的局限性在于计算复杂度高，实时性与鲁棒性较差。机器学习技术的发展与应用(尤其是基于深度学习的机器学习算法)解决了过往较为困难的问题，例如目标识别、图像生成，自然语言处理、癌症检测、机器人控制等领域。目前学术界也有用多智能体深度强化学习解决交叉路口协同控制问题的方法，即集中式多智能体深度强化学习算法，但随着车辆的数量增加，算法的复杂度会指数级上升，遇到维数灾难的问题。集中式多智能体深度强化学习算法在解决合作任务时候会遇到智能体之间的信用分配问题，通过公平并且有效地分配信用，智能体之间能够更有效地合作。分布式多智能体强化学习是另一种方法思路，但该类方法会严重受环境的非平稳性所影响(即每个智能体把其他智能体当作环境的一部分，其他智能体的策略发生变化的同时环境一直在发生变化)。目前在多智能体强化学习领域中的一类流行的算法范式是集中式训练，分布式执行，该方法假设每个智能体只能观测到部分环境信息，而在算法的训练阶段可以获取环境完整的状态信息。此类方法能够避免环境非平稳性带来的问题，一般通过参数共享的方式在一定程度上缓解维数灾难问题。

本发明尝试采用基于值分解方法的多智能体深度强化学习方法，集中式训练分布式执行的架构解决无交通信号灯下单交叉路口多车辆协同控制问题。旨在解决非智能算法中的高计算复杂度问题，多智能体强化学习集中式算法中的维数灾难、信用分配问题。

发明内容

本发明的目的是提供一种无信号灯交叉路口车辆协同控制方法及系统，旨在解决非智能算法中的高计算复杂度问题，多智能体强化学习集中式算法中的维数灾难、信用分配问题。

为实现上述目的，本发明提供了如下方案：

一种无信号灯交叉路口车辆协同控制方法，所述控制方法包括：

将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程；所述部分可观察马尔可夫决策过程由元组G＝(S,U,P,r,Z,O,n,γ)组成；其中S表示环境的全局状态信息，U表示联合离散的动作空间，P表示状态转移的概率，r表示智能体分享同一个奖赏值函数，Z表示观测信息，O表示观测函数，n表示智能体的索引，γ表示折扣因子；

搭建十字交叉路口场景模型；

获取车辆的状态信息、动作信息以及ID信息；

构建神经网络模型；所述神经网络模型包括：动作值神经网络和混合神经网络；

将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值；

基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息；

将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络，得到近似共享奖赏值。

可选的，所述十字交叉路口场景模型的具体参数包括：受管控的车道，长度为100m；左转车道；直行车道；车辆，数量为8辆，长度为5米，最大速度为15m/s，最小速度为0m/s，最大加速度为3.5m/s²，最大减速度为-5m/s²。

可选的，所述共享奖赏值函数为：

其中，α₁,α₂,α₃,α₄,α₅均为可调节参数，

为指示函数，/>

表示当所有智能体成功完成通过交叉路口任务时其会得到一个奖赏值C＝(#max_episode_steps)-(#real_episode_steps)，#max_episode_step表示环境设置中的每个回合的最大步长；#real_episode_step表示实际情况下所有智能体完成任务所需要的总步长数量；

表示如果智能体当前的速度v_i小于规定的最小速度V_min＝2m/s，给予其惩罚数值α₁；/>

表示如果智能体之间发生碰撞，受到惩罚数值α₂；∑_iα₃*waiting_time_i表示智能体在任务中停留的时间越长，所受惩罚的积累数值越大，可调参数为α₃；#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量，并与相对应的奖赏系数α₄相乘，α₅表示每一个时间步长给予所有智能体一个惩罚数值α₅。

可选的，基于所述当前状态下各车辆动作的评估值采用以下公式作为动作选择机制以确定各车辆具体的动作信息：

其中，

表示基于车辆观测值/>

下输出当前时刻动作/>

的概率分布函数(简称为策略函数)，|U|表示车辆动作空间的维度，/>

表示获取能够使动作评估值/>

最大的动作，∈表示概率。

可选的，所述动作值网络包括三层神经网络，第一层为全连接前馈神经网络，输入维度取决于输入向量，输出维度为32；第二层为门控循环神经网络，输出维度为64，隐藏层维度为64；第三层为全连接前馈神经网络，输入维度为64，输出维度取决于动作序列维度。

基于本发明中的上述方法，本发明另外提供一种无信号灯交叉路口车辆协同控制系统，其特征在于，所述控制系统包括：

建模模块，用于将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程；所述部分可观察马尔可夫决策过程由元组G＝(S,U,P,r,Z,O,n,γ)组成；其中S表示环境的全局状态信息，U表示联合离散的动作空间，P表示状态转移的概率，r表示智能体分享同一个奖赏值函数，Z表示观测信息，O表示观测函数，n表示智能体的索引，γ表示折扣因子；

场景模型搭建模块，用于搭建十字交叉路口场景模型；

车辆信息获取模块，用于获取车辆的状态信息、动作信息以及ID信息；

神经网络构建模块，用于构建神经网络模型；所述神经网络模型包括：动作值神经网络和混合神经网络；

车辆动作值的评估值确定模块，用于将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值；

动作信息确定模块，用于基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息；

近似共享奖赏值确定模块，用于将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络，得到近似共享奖赏值。

可选的，所述共享奖赏值函数为：

其中，α₁,α₂,α₃,α₄,α₅均为可调节参数，

为指示函数，/>

可选的，所述动作信息确定模块具体采用以下公式：

其中，

表示基于车辆观测值/>

下输出当前时刻动作/>

表示获取能够使动作评估值/>

最大的动作，∈表示概率。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明中的上述方法及系统在无信号灯交叉路口下的多车协同问题中，基于经典控制论的解法一般对智能体的动作空间的假设为连续动作空间，若直接使用一般的多智能体强化学习算法对其求解会造成解空间维数灾难及算法搜索效率低下的问题，而本发明在建模过程中将该实际问题的动作空间进行离散化，在不损失求解精度的同时提高了求解效率；

在无信号灯交叉路口下的多车协同问题中，基于经典控制论的解法缺乏让智能体自主探索并自主适应环境的能力，因此本发明采用强化学习框架解决该问题可以让智能体在训练中有自主探索、自主适应环境的能力；

基于集中式的经典控制论的方法的计算复杂度较高，可扩展性差。而本发明的算法采用了参数共享这一技术，其可以有效提升算法的可扩展性，即扩展到涉及更多车辆的无交通信号灯的交叉路口场景；而算法训练后得到的模型其本质上只进行有限的矩阵乘法运算，从而大幅度降低了经典控制论算法中的高计算复杂度问题；

集中式的多智能体强化学习算法存在信用分配差的问题，本发明采用的基于值分解的多智能体强化学习算法可以有效对智能体的贡献度进行估算。

分布式的多智能体强化学习算法(未应用到该实际场景)存在受环境非平稳性影响严重的问题，本发明采用的是集中式训练，分布式执行的算法框架，在训练过程中，智能体能够获取全局信息，因此环境非平稳性可以得到有效缓解。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种无信号灯交叉路口车辆协同控制方法流程图；

图2为本发明实施例于值分解的多智能体深度强化学习算法进行交互式训练流程图；

图3为本发明实施例∈-greedy策略算法流程图；

图4为本发明实施例一种无信号灯交叉路口车辆协同控制系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例一种无信号灯交叉路口车辆协同控制方法流程图，如图1所示，所述方法包括：

步骤101：将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程；

具体而言，将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process,Dec-POMDP)，由元组G＝(S,U,P,r,Z,O,n,γ)组成，其中s∈S代表与算法交互的仿真环境中的所有智能体的状态信息，其中包含所有智能体的位置、速度等信息。每一步中每个智能体a∈A≡{1,2,...,N}选择动作u^a∈U，其联合动作为u∈U≡Uⁿ，做出动作选择之后会使环境以概率P(s'|s,u):S×U×S→[0,1]进入下一个状态，所有智能体分享同一个奖赏值函数

γ∈[0,1)。每个智能体只能观测到它局部信息z∈Z，该观测是状态和动作的函数O(s,a):S×U→Z，每个智能体的历史观测信息轨迹记为τ^a∈T≡(Z×U)^*，智能体的策略基于历史观测信息，记作π^a(u^a|τ^a):T×U→[0,1]，由于该方法使用的是基于值分解的方法，所以每个智能体的策略都对应着一个Q值函数，即/>

式子中/>

这里γ表示折扣因子，一般设置为0.99。

步骤102：搭建十字交叉路口场景模型。

具体的，是在SimulationofUrbanMobility(SUMO)仿真器中搭建一个8车道的十字交叉路口场景，场景具体参数如下：

1、受管控的车道长度为100m。

2、每一路包含左转车道和直行车道。

3、车辆为乘用车；受算法管控的车辆数为8；车身长度为5m

4、车辆的最大速度为15m/s，最小速度为0m/s，最大加速度为3.5m/s²，最大减速度为-5m/s²

5、每一步交互的时间为0.1s；每个回合的最大长度为200。

6、成功完成交叉路口管理任务的条件：车辆进入交叉路口并无碰撞地安全驶出路口。

定义各智能体(即各车辆)的状态空间为：s＝[z¹,z²,...,z⁸]；

每个智能体的初始ID为：a∈{0,1,2,...,7}；

每个智能体a的动作空间为：u^a＝[accel,keep,decel]，分别代表以恒定的加速度加速、保持上一步的速度、以恒定加速度减速；

每个智能体只能观测到它局部信息z∈Z，具体包含的信息如下：z^a＝[x,y,vel,safe_dist,waiting_time,enter_flag,out_flag]，其中[x,y,vel]代表该智能体的绝对坐标与速度信息(智能体的最大速度为15m/s，加速度为可调参数，最多不能超过5m/s²)，safe_dist表示与距该智能体最近的智能体的相对距离，waiting_time表示该智能体在经过交叉路口过程中累计等待的时间，[enter_flag,out_flag]表示智能体是否进入或驶出交叉路口；

每个智能体的历史轨迹为：τ^a＝(z^a×u^a)

每个智能体的策略记作π^a(u^a|τ^a)，本方案中的算法对每个智能体的策略计算一个Q值函数，其物理意义代表对当前时刻当前状态下智能体动作的评估

其值反映智能体采取动作的优劣。其中/>

所有智能体在每一步算法与仿真环境交互中获得的共享奖赏值函数定义如下：

式中α₁,α₂,α₃,α₄,α₅均为可调节参数,

为指示函数。奖赏函数的第一项

表示当所有智能体成功完成通过交叉路口任务时其会得到一个较大的奖赏值C＝(#max_episode_steps)-(#real_episode_steps)，该式第一项表示环境设置中的每个回合的最大步长，第二项表示实际情况下所有智能体完成任务所需要的总步长数量。第二项的意义是如果智能体当前的速度v_i小于规定的最小速度V_min＝2m/s，给予其惩罚数值α₁。第三项表示如果智能体之间发生碰撞(碰撞检测的条件是当前智能体距该智能体最近的智能体的相对距离小于4m)，其受到惩罚数值α₂。第四项的物理意义表示智能体在任务中停留的时间越长，所受惩罚的积累数值越大，可调参数为α₃。第五项中#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量，并与相对应的奖赏系数α₄相乘。最后一项表示每一个时间步长给予所有智能体一个惩罚数值α₅，一般该值较小。

微观上，该奖赏函数机制能够让每一个车辆安全无碰撞地通过交叉路口(奖赏函数第三项)，并鼓励车辆快速通过路口，即尽可能以最短的通行时间经过路口。宏观上意义上该奖赏函数可以提高整体交通效率和交通安全。

步骤103：获取车辆的状态信息、动作信息以及ID信息。

步骤104：构建神经网络模型；所述神经网络模型包括：动作值神经网络和混合神经网络。

步骤105：将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值；

步骤106：基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息；

步骤107：将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络，得到近似共享奖赏值。

基于上述构建的数学模型和搭建的仿真场景，利用基于值分解的多智能体深度强化学习算法进行交互式训练，流程图如图2所示。

步骤102中搭建的仿真场景在交互的每一步中为该算法提供车辆的状态信息，即步骤101中的z_t,s_t(其中包含的具体信息见步骤101建模过程)；算法的输出为各车辆下一时刻的动作信息，用于控制仿真器中车辆的行为。具体来说，算法的输入为

经过动作值神经网络后输出/>

表示该网络对当前状态下各车辆动作值的评估值，并通过以下动作选择机制(∈-greedy策略)选择要输出的动作：

∈为概率，它表示由程序从[0,1]区间内按均匀分布采样得到的数值。

算法框架的具体过程图3所示：

该算法主要由两个网络构成，一个是动作值网络，一个是混合网络。动作值网络由三层神经网络构成，第一层为全连接前馈神经网络，输入维度取决于输入向量(见下文)，输出维度为32；第二层为门控循环神经网络(Gated RecurrentNetwork,GRU)，其网络输出维度为64，隐藏层维度也为64；第三层为全连接前馈神经网络，输入维度为64，输出维度取决于动作序列维度。最后使用上述探索策略，即∈-greedy策略输出所有智能体已选动作的具体Q值。

动作值网络的输入向量如下：

其中

表示智能体a的观测，/>

表示智能体a在上一时刻的动作序列，agentID_a表示由one-hot向量组成的智能体a的ID，例如，智能体1的ID为[1,0,0,...,0]。经过最后一层全连接前馈神经网络之后输出[Q₁(τ¹,·),Q₂(τ²,·),…,Q_N(τ^N,·)]，表示每个智能体的每个可选动作的值。经过∈-greedy策略后输出为/>

混合网络由全连接前馈神经网络构成，其输入合并了环境的全局状态信息和动作值网络的输出，具体形式为：/>

其中s_t输入给全连接神经网络后输出网络参数权重W₁,W₂(包含对输出进行绝对值操作)，网络参数偏置b₁,b₂，与动作值网络的输出做矩阵乘法运算后得到Q_tot(τ,u)，该值的物理意义是对步骤102中的共享奖赏值的近似，q_tot＝Q_tot(τ,u,s,Q₁,...,Q_N；θ)其中q_tot表示整个混合网络模型Q_tot(·)的输出值，是一个隐式的非线性函数，是对所有智能体共享的奖赏值r的近似估计值，与r的值越接近，说明算法训练的效果越好。并根据如下损失函数公式，利用随机梯度下降算法更新各层动作值网络、混合网络参数(随机梯度下降算法的公式见下文)：

随机梯度下降算法的公式如下：

θ表示混合网络模型的所有参数，

代表损失函数的梯度，α表示学习率，本发明采用深度学习框架Pytorch中autograd模组(其功能为自动求解自定义损失函数的梯度)对该值进行自动计算并将/>

通过线性变换传递给动作值网络Q(·)，所使用的是Adam优化器，学习率设置为5×10^-4。动作值网络参数的更新过程公式为：

其中θ^Q表示动作值网络的所有参数，f(·)表示利用深度学习框架pytorch中自动求解梯度机制后，将混合网络的损失值映射到动作值网络的函数

b代表每次用于算法训练的一批数据的总维数，r代表仿真环境中所有智能体得到的共享奖赏值，γ表示折扣因子，Q_tot(·)代表整个混合网络模型(该模型本质上是一个复杂的非线性函数)，其中τ′表示下一时刻的历史信息轨迹，s'代表下一时刻环境的状态信息，u′表示智能体在下一时刻的动作序列，θ、θ′分别代表混合网络及目标混合网络的参数，每一次算法与仿真环境交互之后两者之间的关系如下，其中β为可调节参数，其物理意义代表目标网络参数更新的快慢：

θ′＝β*θ+(1-β)*θ′

argmax_u′Q_tot(τ',u',s'；θ)表示从参数为θ的混合网络模型的输出向量中，根据所有智能体在下一时刻不同环境状态s'下的不同动作输出中挑选一个能使该模型输出值最大的动作序列。

图4为本发明实施例一种无信号灯交叉路口车辆协同控制系统结构示意图，如图4所示所述系统包括：

建模模块201，用于将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程；所述部分可观察马尔可夫决策过程由元组G＝(S,U,P,r,Z,O,n,γ)组成；其中S表示环境的全局状态信息，U表示联合离散的动作空间，P表示状态转移的概率，r表示智能体分享同一个奖赏值函数，Z表示观测信息，O表示观测函数，n表示智能体的索引，γ表示折扣因子；

场景模型搭建模块202，用于搭建十字交叉路口场景模型；

车辆信息获取模块203，用于获取车辆的状态信息、动作信息以及ID信息；

神经网络构建模块204，用于构建神经网络模型；所述神经网络模型包括：动作值神经网络和混合神经网络；

车辆动作值的评估值确定模块205，用于将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值；

动作信息确定模块206，用于基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息；

近似共享奖赏值确定模块207，用于将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络，得到近似共享奖赏值。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种无信号灯交叉路口车辆协同控制方法，其特征在于，所述控制方法包括：

搭建十字交叉路口场景模型，具体为在Simulation ofUrban Mobility仿真器中搭建一个8车道的十字交叉路口场景；

获取车辆的状态信息、动作信息以及ID信息，所述车辆的状态信息包括：绝对坐标与速度信息、距所述车辆最近的智能体的相对距离、所述车辆在经过交叉路口过程中累计等待的时间以及所述车辆是否进入或驶出交叉路口；所述车辆的动作信息包括：所述车辆以恒定的加速度加速、保持上一步的速度以及以恒定加速度减速；

将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络，得到近似共享奖赏值函数；

所述十字交叉路口场景模型的具体参数包括：受管控的车道，长度为100m；左转车道；直行车道；车辆，数量为8辆，长度为5米，最大速度为15m/s，最小速度为0m/s，最大加速度为3.5m/s²，最大减速度为-5m/s²；

基于所述当前状态下各车辆动作的评估值采用以下公式作为动作选择机制以确定各车辆具体的动作信息：

其中，

表示基于车辆观测值/>

下输出当前时刻动作/>

的概率分布函数，|U|表示车辆动作空间的维度，/>

表示获取能够使动作评估值/>

最大的动作，∈表示概率。

2.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法，其特征在于，所述共享奖赏值函数为：

其中，α₁,α₂,α₃,α₄,α₅均为可调节参数，

为指示函数，/>

表示当所有智能体成功完成通过交叉路口任务时其会得到一个奖赏值C＝(#max_episode_steps)-(#real_episode_steps)，#max_episode_step表示环境设置中的每个回合的最大步长；#real_episode_step表示实际情况下所有智能体完成任务所需要的总步长数量，

3.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法，其特征在于，所述动作值神经网络包括三层神经网络，第一层为全连接前馈神经网络，输入维度取决于输入向量，输出维度为32；第二层为门控循环神经网络，输出维度为64，隐藏层维度为64；第三层为全连接前馈神经网络，输入维度为64，输出维度取决于动作序列维度。

4.一种无信号灯交叉路口车辆协同控制系统，其特征在于，所述控制系统包括：

场景模型搭建模块，用于搭建十字交叉路口场景模型，具体为在Simulation ofUrbanMobility仿真器中搭建一个8车道的十字交叉路口场景；

车辆信息获取模块，用于获取车辆的状态信息、动作信息以及ID信息，所述车辆的状态信息包括：绝对坐标与速度信息、距所述车辆最近的智能体的相对距离、所述车辆在经过交叉路口过程中累计等待的时间以及所述车辆是否进入或驶出交叉路口；所述车辆的动作信息包括：所述车辆以恒定的加速度加速、保持上一步的速度以及以恒定加速度减速；

近似共享奖赏值确定模块，用于将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络，得到近似共享奖赏值函数；

所述动作信息确定模块具体采用以下公式：

其中，

表示基于车辆观测值/>

下输出当前时刻动作/>

的概率分布函数，|U|表示车辆动作空间的维度，/>

表示获取能够使动作评估值/>

最大的动作。

5.根据权利要求4所述的无信号灯交叉路口车辆协同控制系统，其特征在于，所述共享奖赏值函数为：

其中，α₁,α₂,α₃,α₄,α₅均为可调节参数，

为指示函数，/>

6.根据权利要求4所述的无信号灯交叉路口车辆协同控制系统，其特征在于，所述动作值神经网络包括三层神经网络，第一层为全连接前馈神经网络，输入维度取决于输入向量，输出维度为32；第二层为门控循环神经网络，输出维度为64，隐藏层维度为64；第三层为全连接前馈神经网络，输入维度为64，输出维度取决于动作序列维度。