CN115116240A - 一种无信号灯交叉路口车辆协同控制方法及系统 - Google Patents

一种无信号灯交叉路口车辆协同控制方法及系统 Download PDF

Info

Publication number
CN115116240A
CN115116240A CN202210734289.4A CN202210734289A CN115116240A CN 115116240 A CN115116240 A CN 115116240A CN 202210734289 A CN202210734289 A CN 202210734289A CN 115116240 A CN115116240 A CN 115116240A
Authority
CN
China
Prior art keywords
network model
action
vehicle
value
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210734289.4A
Other languages
English (en)
Inventor
吴艳
郭子涵
王丽芳
张俊智
苟晋芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Electrical Engineering of CAS
Original Assignee
Institute of Electrical Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Electrical Engineering of CAS filed Critical Institute of Electrical Engineering of CAS
Priority to CN202210734289.4A priority Critical patent/CN115116240A/zh
Publication of CN115116240A publication Critical patent/CN115116240A/zh
Priority to PCT/CN2023/081191 priority patent/WO2024001301A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles

Abstract

本发明公开了一种无信号灯交叉路口车辆协同控制方法及系统。该方法包括:获取各车辆的车辆信息;构建动作值网络模型;将车辆信息输入至动作值网络模型,输出各车辆当前状态下的动作评估值;构建混合网络模型;将动作评估值以及所有车辆的状态信息输入至混合网络模型,得到混合网络模型的输出;基于混合网络模型的输出以及动作评估值,采用基于夏普里值的贡献度分配机制模组对动作值网络模型进行训练,得到训练好的动作值网络模型;基于训练好的动作值网络模型以及ε‑贪婪策略确定各车辆下一时刻的动作。通过上述方法能够解决基于值分解的多智能体深度强化学习中可解释性差,其算法训练过程中收敛速度慢、对最优策略搜索效率低下的问题。

Description

一种无信号灯交叉路口车辆协同控制方法及系统
技术领域
本发明涉及车辆控制技术领域,特别是涉及一种无信号灯交叉路口车辆协同控制方法及系统。
背景技术
城市化的深入大幅增加了城市中的人口数量,城市中的车辆数量,不可避免地引起交通拥堵问题,进而造成社会生产效率的降低,带来环境污染,增加交通事故发生的概率,影响市容市貌,这对目前的交通系统提出了挑战,尤其是如何高效地对城市交叉路口进行车辆管控。一般地,搭建交通信号灯等基础设施是普遍情况下有效缓解交叉路口车辆拥堵甚至事故频发问题的解法之一。基于基础设施,学者们在优化交通信号灯的时间与相位上做了大量的探索(包括基于优化理论的算法和基于深度强化学习的人工智能算法)。1992年,Michael G.H.Bell在其论文中论述仅靠交通信号灯本身是无法解决交通拥堵问题的,而是需要集成一些其他信息,例如未来自动驾驶车辆能够获取当前道路的一些其他信息(路况信息、其他车辆的位置、速度等相关信息)。
尽管交通信号灯一直是交叉路口管控的主流解法,但在该情况下车辆的等待时间无法被消除。因此,这也激发了大量相关专家们对基于无信号灯的交叉路口车辆协同控制的探索。如今智能网联车相关技术正在不断发展,如V2V(Vehicles to Vehicles),V2I(Vehicles to Infrastructure)等技术促进了无信号灯下车辆协同技术的发展。
目前针对无信号灯交叉路口的车辆协同管控的问题,学术界相关学者大多尝试用集中式协同方法(例如,基于经典控制方法MPC)。但这类方法的局限性在于其计算复杂度高,实时性与鲁棒性较差。而机器学习技术的发展与应用(尤其是基于深度学习的机器学习算法)解决了过往一些较为困难的问题,例如目标识别、图像生成,自然语言处理、癌症检测、机器人控制等领域。目前也有学者创造性地使用了多智能体深度强化学习解决交叉路口协同控制问题,具体而言,采用集中式多智能体深度强化学习算法。但随着经过交叉路口的车辆数增加,这类算法的计算复杂度会指数级上升,从而遇到维数灾难的问题。此外,集中式多智能体深度强化学习算法在解决合作任务时候会遇到智能体之间的信用分配问题,如何在合作的过程中公平有效地分配各智能体的信用是目前的一个难题之一。分布式多智能体强化学习是另一种方法思路,但该类方法严重受环境的非平稳性所影响(该问题指的是每个智能体把其他智能体当作环境的一部分,其他智能体的策略发生变化的同时环境一直在发生变化)。目前在多智能体强化学习领域中一类流行的算法范式是集中式训练,分布式执行,该方法假设每个智能体只能观测到部分环境信息,而在算法的训练阶段可以获取环境完整的状态信息。此类方法能够避免环境非平稳性带来的问题,一般通过参数共享的方式在一定程度上缓解维数灾难问题。但其也存在一些问题,其无法明确解释合作过程中各智能体的贡献度。
发明内容
基于上述问题,本发明提供了一种无信号灯交叉路口车辆协同控制方法及系统。
为实现上述目的,本发明提供了如下方案:
一种无信号灯交叉路口车辆协同控制方法,包括:
根据给定的真实十字交叉路口场景搭建十字交叉路口仿真场景,并获取所述仿真场景中各车辆的车辆信息;所述车辆信息包括各车辆状态信息、各车辆上一时刻动作信息以及各车辆ID信息;
构建动作值网络模型;所述动作值网络模型包括三层神经网络,第一层为全连接前馈神经网络,第二层为门控循环神经网络,第三层为全连接前馈神经网络;
将所述车辆信息输入至所述动作值网络模型,输出各车辆当前状态下的动作评估值;
构建混合网络模型;所述混合网络模型包括多个全连接前馈神经网络;
将所述动作评估值以及所有车辆的状态信息输入至所述混合网络模型,得到所述混合网络模型的输出;
基于所述混合网络模型的输出以及所述动作评估值,采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练,得到训练好的动作值网络模型;
基于训练好的动作值网络模型以及∈-贪婪策略确定各车辆下一时刻的动作。
可选地,基于所述混合网络模型的输出以及所述动作评估值,采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练,得到训练好的动作值网络模型,具体包括:
将所述混合网络模型的输出以及所述动作评估值输入至所述基于夏普里值的贡献度分配机制模组中,得到所述基于夏普里值的贡献度分配机制模组的输出;
根据所述基于夏普里值的贡献度分配机制模组的输出确定所述动作值网络模型的损失函数;
根据所述动作值网络模型的损失函数,采用随机梯度下降法更新所述动作值网络模型的参数,得到训练好的动作值网络模型。
可选地,还包括:
基于所述混合网络模型的输出确定所述混合网络模型的损失函数;
根据所述混合网络模型的损失函数,采用随机梯度下降法调整所述混合网络模型的参数。
可选地,所述动作值网络模型的损失函数
Figure BDA0003714672560000033
如下:
Figure BDA0003714672560000031
其中,Qij表示由动作值网络输出的智能体i的动作估计值,j表示所取数据批量的索引,
Figure BDA0003714672560000032
表示由基于夏普里值的贡献度分配机制模组输出的智能体i的目标动作估计值,b表示用于训练的数据批量的总维数。
可选地,所述混合网络模型的损失函数
Figure BDA0003714672560000034
如下:
Figure BDA0003714672560000041
其中,r表示所有车辆得到的共享奖赏值,γ表示折扣因子,Qtot(·)表示整个混合网络模型,τ'表示下一时刻的历史信息轨迹,s'表示下一时刻环境的状态信息,u′表示车辆在下一时刻的动作序列,θ、θ′分别表示混合网络模型的参数和目标参数。
可选地,所述∈-贪婪策略如下:
Figure BDA0003714672560000042
其中,
Figure BDA0003714672560000043
表示第a个车辆的策略,
Figure BDA0003714672560000044
表示第a个车辆在t-1时刻的动作,
Figure BDA0003714672560000045
表示第a个车辆在t-1时刻的状态信息,∈表示从[0,1]区间内按照均匀分布采样得到的概率值,U表示车辆动作集合,
Figure BDA0003714672560000046
表示第a个车辆的动作评估值。
本发明还提供了一种无信号灯交叉路口车辆协同控制系统,包括:
车辆信息获取模块,用于无信号灯交叉路口中各车辆的车辆信息;所述车辆信息包括各车辆状态信息、各车辆上一时刻动作信息以及各车辆ID信息;
第一输入模块,用于将所述车辆信息输入至动作值网络模型,输出各车辆当前状态下的动作评估值;所述动作值网络模型包括三层神经网络,第一层为全连接前馈神经网络,第二层为门控循环神经网络,第三层为全连接前馈神经网络;
第二输入模块,用于将所述动作评估值以及所有车辆的状态信息输入至混合网络模型,得到所述混合网络模型的输出;所述混合网络模型包括多个全连接前馈神经网络;
动作确定模块,用于基于训练好的动作值网络模型以及∈-贪婪策略确定各车辆下一时刻的动作;动作值网络模型是通过混合网络模型的输出以及动作评估值,采用基于夏普里值的贡献度分配机制模组进行训练的。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种无信号灯交叉路口车辆协同控制方法,包括:根据给定的真实十字交叉路口场景搭建十字交叉路口仿真场景,并获取所述仿真场景中各车辆的车辆信息;构建动作值网络模型;将所述车辆信息输入至所述动作值网络模型,输出各车辆当前状态下的动作评估值;构建混合网络模型;将所述动作评估值以及所有车辆的状态信息输入至所述混合网络模型,得到所述混合网络模型的输出;基于所述混合网络模型的输出以及所述动作评估值,采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练,得到训练好的动作值网络模型;基于训练好的动作值网络模型以及∈-贪婪策略确定各车辆下一时刻的动作。通过上述方法能够解决基于值分解的多智能体深度强化学习中可解释性差,其算法训练过程中收敛速度慢、对最优策略搜索效率低下的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的无信号灯交叉路口车辆协同控制方法的流程图;
图2为本发明提供的无信号灯交叉路口车辆协同控制方法的原理图;
图3为本发明提供的动作值网络模型的具体组成以及动作值网络模型与夏普里值贡献度分配机制的关系图;
图4为本发明提供的基于夏普里值的贡献度分配机制模组的流程图;
图5为本发明提供的混合网络模型的结构图;
图6为本发明提供的训练好的动作值网络模型的评估流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1-2所示,本发明提供的无信号灯交叉路口车辆协同控制方法包括以下步骤:
步骤101:根据给定的真实十字交叉路口场景搭建十字交叉路口仿真场景,并获取所述仿真场景中各车辆的车辆信息;所述车辆信息包括各车辆状态信息、各车辆上一时刻动作信息以及各车辆ID信息。
步骤102:构建动作值网络模型;所述动作值网络模型包括三层神经网络,第一层为全连接前馈神经网络,第二层为门控循环神经网络,第三层为全连接前馈神经网络。
步骤103:将所述车辆信息输入至所述动作值网络模型,输出各车辆当前状态下的动作评估值。
步骤104:构建混合网络模型;所述混合网络模型包括多个全连接前馈神经网络。
步骤105:将所述动作评估值以及所有车辆的状态信息输入至所述混合网络模型,得到所述混合网络模型的输出。
步骤106:基于所述混合网络模型的输出以及所述动作评估值,采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练,得到训练好的动作值网络模型。
步骤107:基于训练好的动作值网络模型以及∈-贪婪策略确定各车辆下一时刻的动作。
其中,步骤106具体包括:
将所述混合网络模型的输出以及所述动作评估值输入至所述基于夏普里值的贡献度分配机制模组中,得到所述基于夏普里值的贡献度分配机制模组的输出;
根据所述基于夏普里值的贡献度分配机制模组的输出确定所述动作值网络模型的损失函数;
根据所述动作值网络模型的损失函数,采用随机梯度下降法更新所述动作值网络模型的参数,得到训练好的动作值网络模型。
其中,所述动作值网络模型的损失函数
Figure BDA00037146725600000710
如下:
Figure BDA0003714672560000071
Qij表示由动作值网络输出的智能体i的动作估计值(其中j表示所取数据批量的索引),
Figure BDA0003714672560000072
表示由基于夏普里值的贡献度分配机制模组输出的智能体i的目标动作估计值(其中j表示所取数据批量的索引),b表示用于训练的数据批量的总维数。
所述混合网络模型的损失函数
Figure BDA0003714672560000073
如下:
Figure BDA0003714672560000074
r表示所有车辆得到的共享奖赏值,γ表示折扣因子,Qtot(·)表示整个混合网络模型,τ'表示下一时刻的历史信息轨迹,s'表示下一时刻环境的状态信息,u′表示车辆在下一时刻的动作序列,θ、θ′分别表示混合网络模型的参数和目标参数。
所述∈-贪婪策略如下:
Figure BDA0003714672560000075
Figure BDA0003714672560000076
表示第a个车辆的策略,
Figure BDA0003714672560000077
表示第a个车辆在t-1时刻的动作,
Figure BDA0003714672560000078
表示第a个车辆在t-1时刻的状态信息,∈表示从[0,1]区间内按照均匀分布采样得到的概率值,U表示车辆动作集合,
Figure BDA0003714672560000079
表示第a个车辆的动作评估值。
下面将详细介绍本发明的原理:
步骤1、通过给定的任一真实十字交叉路口,在Simulation of Urban Mobility(SUMO)仿真器中搭建一个对应的场景,场景具体参数如下:
受管控的车道长度为200m。
每一路包含左转车道和直行车道。
车辆为乘用车;受算法管控的车辆数为8;车身长度为5m
车辆的最大速度为15m/s,最小速度为6m/s,最大加速度为3.5m/s2,最大减速度为-5m/s2
每一步交互的时间为0.5s;每个回合的最大长度为100
成功完成交叉路口管理任务的条件:车辆进入交叉路口并无碰撞地安全驶出路口
步骤2、将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process,Dec-POMDP),由元组G=(S,U,P,r,Z,O,n,γ)组成,其中s∈S代表与算法交互的仿真环境中的所有智能体的状态信息,其中包含所有智能体的位置、速度等信息。每一步中每个智能体a∈A≡{1,2,...,N}选择动作ua∈U,其联合动作为u∈U≡Un,做出动作选择之后会使环境以概率P(s'|s,u):S×U×S→[0,1]进入下一个状态,所有智能体分享同一个奖赏值函数
Figure BDA0003714672560000081
γ∈[0,1)。每个智能体只能观测到它局部信息z∈Z,该观测是状态和动作的函数O(s,a):S×U→Z,每个智能体的历史观测信息轨迹记为τa∈T≡(Z×U)*,智能体的策略基于历史观测信息,记作πa(uaa):T×U→[0,1],由于该方法使用的是基于值分解的方法,所以每个智能体的策略都对应着一个Q值函数,即
Figure BDA0003714672560000082
式子中
Figure BDA0003714672560000083
这里γ表示折扣因子,一般设置为0.99。
步骤1所搭建的场景与步骤2中所建模型的关系如下:
1)各智能体(即各车辆)的状态空间为:s=[z1,z2,...,z8]
2)每个智能体的初始ID为:a∈{0,1,2,...,7}
3)每个智能体a的动作空间为:ua=[accel,keep,decel],分别代表以恒定的加速度加速、保持上一步的速度、以恒定加速度减速;
4)每个智能体只能观测到它局部信息z∈Z,具体包含的信息如下:za=[xa,ya,va,dsafe,twait,fenter,fout],其中[xa,ya,va]代表该智能体的绝对坐标与速度信息(智能体的最大速度为15m/s,加速度为可调参数,最多不能超过5m/s2),dsafe表示与距该智能体最近的智能体的相对距离,twait表示该智能体在经过交叉路口过程中累计等待的时间,[fenter,fout]表示智能体是否进入或驶出交叉路口;
5)每个智能体的历史轨迹为:τa=(za×ua)
6)每个智能体的策略记作πa(uaa),本方案中的算法对每个智能体的策略计算一个Q值函数,其物理意义代表对当前时刻当前状态下智能体动作的评估
Figure BDA0003714672560000091
其值反映智能体采取动作的优劣。其中
Figure BDA0003714672560000092
7)所有智能体在每一步算法与仿真环境交互中获得的共享奖赏值函数定义如下:
Figure BDA0003714672560000093
式中α12345均为可调节参数,I(·)为指示函数。奖赏函数的第一项
Figure BDA0003714672560000094
表示当所有智能体成功完成通过交叉路口任务时其会得到一个较大的奖赏值C=(#max_episode_steps)-(#real_episode_steps)。该式第一项
Figure BDA0003714672560000095
表示环境设置中的每个回合的最大步长,第二项
Figure BDA0003714672560000096
表示实际情况下所有智能体完成任务所需要的总步长数量。第二项的意义是如果智能体当前的速度vi小于规定的最小速度Vmin=2m/s,给予其惩罚数值α1。第三项
Figure BDA0003714672560000097
表示如果智能体之间发生碰撞(碰撞检测的条件是当前智能体距该智能体最近的智能体的相对距离小于4m),其受到惩罚数值α2。第四项∑iα3*twaiti的物理意义表示智能体在任务中停留的时间
Figure BDA0003714672560000098
越长,所受惩罚的积累数值越大,可调参数为α3。第五项α4*(#vehicles_pass_through)中#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量,并与相对应的奖赏系数α4相乘。最后一项表示每一个时间步长给予所有智能体一个惩罚数值α5,一般该值较小。
该奖赏函数机制能够让每一个车辆安全无碰撞地通过交叉路口(奖赏函数第三项),并鼓励车辆快速通过路口,即尽可能以最短的通行时间经过路口。宏观上意义上该奖赏函数可以提高整体交通效率和交通安全。
步骤3、如图2所示,步骤1中搭建的仿真场景在与算法交互的每一步中为该算法提供车辆的状态信息,即步骤1中的zt,st,算法的输出为各车辆下一时刻的动作信息,用于控制仿真器中车辆的行为。具体而言,算法的输入为
Figure BDA0003714672560000101
经过动作值神经网络模型后的输出为
Figure BDA0003714672560000102
表示该网络模型对当前状态下各车辆动作值的评估值,并通过以下动作选择机制(∈-greedy策略)选择要输出的动作:
Figure BDA0003714672560000103
其中∈表示从[0,1]区间内按照均匀分布采样得到的概率值。
动作值网络模型的具体组成,及与夏普里值贡献度分配机制的关系如图3所示。动作值网络模型由三层神经网络构成,第一层为全连接前馈神经网络,输入维度取决于输入向量,输出维度为32;第二层为门控循环神经网络(Gated Recurrent Network,GRU),其网络输出维度为64,隐藏层维度也为64;第三层为全连接前馈神经网络,输入维度为64,输出维度取决于动作序列维度。最后使用上述∈-greedy策略输出所有智能体已选动作的具体Q值。
动作值网络的输入向量如下:
Figure BDA0003714672560000104
其中
Figure BDA0003714672560000105
表示智能体a的观测,
Figure BDA0003714672560000106
表示智能体a在上一时刻的动作序列,agentID_a表示由one-hot向量组成的智能体a的ID,例如,智能体1的ID为[1,0,0,...,0]。经过最后一层全连接前馈神经网络之后输出[Q11,·),Q22,·),…,QNN,·)],表示每个智能体的每个可选动作的值。经过∈-greedy策略后输出为
Figure BDA0003714672560000107
基于夏普里值的贡献度分配机制模组的输入是
Figure BDA0003714672560000108
和Qtot(τ,u),输出是
Figure BDA0003714672560000109
该输出将根据损失函数
Figure BDA0003714672560000111
及随机梯度下降算法指导动作值网络模型参数的更新。
具体而言,基于夏普里值的贡献度分配机制模组的流程如图3所示。首先,计算群组S的反事实项:
Figure BDA0003714672560000112
其中Qtot(·)表示混合网络,
Figure BDA0003714672560000113
表示将特定群组S对应的动作值网络输出替换为0(例如S={1,2,4},且最初的动作值网络输出是
Figure BDA0003714672560000114
则将输出替换为0后的动作值网络的输出为:
Figure BDA0003714672560000115
第二步是计算在群组S的前提下某个智能体i的边缘贡献度Δv(i,S),其计算公式为:
Figure BDA0003714672560000116
其中
Figure BDA0003714672560000117
表示上述反事实项,而
Figure BDA0003714672560000118
表示将智能体i从群组S中剔除后得到的反事实项,两者相减并带入上述定义式化简后可以得到
Figure BDA0003714672560000119
最后一步是对夏普里值进行近似计算。近似计算的思路是对设定好的全体智能体群组进行均匀分布抽样,利用每次抽样后计算得到的边缘贡献度对夏普里值进行近似计算,其公式为:
Figure BDA00037146725600001110
代入上述表达式可以得到如下公式:
Figure BDA00037146725600001111
对所有智能体分别计算
Figure BDA00037146725600001112
就可以得到最终的输出向量
Figure BDA00037146725600001113
并指导动作值网络模型的参数更新。
混合网络模型由全连接前馈神经网络构成,结构图如图4所示。其输入合并了车辆的全局状态信息和动作值网络的输出,具体形式为:
Figure BDA00037146725600001114
其中st输入给全连接神经网络后输出网络参数权重W1,W2(包含对输出进行绝对值操作),网络参数偏置b1,b2,与动作值网络的输出做矩阵乘法运算后得到Qtot(τ,u),该值的物理意义是对步骤2中的共享奖赏值r的近似。并根据如下损失函数公式,利用随机梯度下降算法更新混合网络中各层的参数:
Figure BDA00037146725600001115
b代表每次用于算法训练的一批数据的总维数,r代表仿真环境中所有智能体得到的共享奖赏值,γ表示折扣因子,Qtot(·)代表整个混合网络模型(该模型本质上是一个复杂的非线性函数),其中τ′表示下一时刻的历史信息轨迹,s'代表下一时刻环境的状态信息,u′表示智能体在下一时刻的动作序列,θ、θ′分别代表混合网络模型的参数和目标参数,每一次算法与仿真环境交互之后两者之间的关系如下,其中β为可调节参数,其物理意义表示目标网络参数更新的快慢:
θ′=β*θ+(1-β)*θ′
argmaxu′Qtot(τ',u',s';θ)表示从参数为θ的混合网络模型的输出向量中,根据所有智能体在下一时刻不同环境状态s'下的不同动作输出中挑选一个能使该模型输出值最大的动作序列。
混合网络的输出值qtot与Q1~QN之间的关系如下公式所示:
qtot=Qtot(τ,u,s,Q1,...,QN;θ)
其中qtot表示整个混合网络模型Qtot(·)的输出值,是一个隐式的非线性函数。
将输出的动作应用与实际场景:
由于本方法的限定条件是所有车辆均为无人驾驶车辆,所以在实际应用当中车辆通过路口的轨迹为固定曲线,例如直行的车辆轨迹固定为直线,左转的车辆轨迹固定为直线与以转弯半径r的四分之一圆弧。在本方案下,车辆只需要考虑其纵向运动学行为,即ua=[accel,keep,decel],加速,保持上一时刻的速度或减速。
Qtot与奖赏值r的关系:
qtot=Qtot(τ,u,s,Q1,...,QN;θ)是对所有智能体共享的奖赏值r的近似估计值,与r的值越接近,说明算法训练的效果越好。
随机梯度下降算法的公式如下:
Figure BDA0003714672560000121
θ表示混合网络模型的所有参数,
Figure BDA0003714672560000122
代表损失函数的梯度,α表示学习率,本方案采用深度学习框架Pytorch中autograd模组(其功能为自动求解自定义损失函数的梯度)对该值进行自动计算并将
Figure BDA0003714672560000123
通过线性变换传递给动作值网络Q(·),所使用的是Adam优化器,学习率设置为5×10-4。动作值网络模型参数的更新过程公式为:
Figure BDA0003714672560000131
其中θQ表示动作值网络的所有参数,f(·)表示利用深度学习框架pytorch中自动求解梯度机制后,将混合网络的损失值映射到动作值网络的函数。
算法训练后的评估过程如图6所示,将车辆的状态信息、动作信息、各智能体的ID信息,即:
Figure BDA0003714672560000132
输入给训练好的动作值神经网络,基于其输出的
Figure BDA0003714672560000133
采用∈-greedy策略,
Figure BDA0003714672560000134
进行动作选择并输出动作序列
Figure BDA0003714672560000135
将其传输给SUMO仿真环境,以此控制仿真环境中车辆的协同。
步骤4:将步骤3的训练好的模型进行存储并按照该步骤中的算法评估框架将模型部署到SUMO仿真环境中。
本发明采用对夏普里值进行近似计算的方式加速基于值分解的多智能体强化学习算法,其可以对智能体的贡献度进行有效计算和解释,并提升算法训练过程中的收敛速度和对最优策略的搜索效率。
本发明采用的是集中式训练,分布式执行的算法框架,在训练过程中,智能体能够获取全局信息,因此环境非平稳性可以得到有效缓解。
本发明还提供了一种无信号灯交叉路口车辆协同控制系统,包括:
车辆信息获取模块,用于无信号灯交叉路口中各车辆的车辆信息;所述车辆信息包括各车辆状态信息、各车辆上一时刻动作信息以及各车辆ID信息;
第一输入模块,用于将所述车辆信息输入至动作值网络模型,输出各车辆当前状态下的动作评估值;所述动作值网络模型包括三层神经网络,第一层为全连接前馈神经网络,第二层为门控循环神经网络,第三层为全连接前馈神经网络;
第二输入模块,用于将所述动作评估值以及所有车辆的状态信息输入至混合网络模型,得到所述混合网络模型的输出;所述混合网络模型包括多个全连接前馈神经网络;
动作确定模块,用于基于训练好的动作值网络模型以及∈-贪婪策略确定各车辆下一时刻的动作;动作值网络模型是通过混合网络模型的输出以及动作评估值,采用基于夏普里值的贡献度分配机制模组进行训练的。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种无信号灯交叉路口车辆协同控制方法,其特征在于,包括:
根据给定的真实十字交叉路口场景搭建十字交叉路口仿真场景,并获取所述仿真场景中各车辆的车辆信息;所述车辆信息包括各车辆状态信息、各车辆上一时刻动作信息以及各车辆ID信息;
构建动作值网络模型;所述动作值网络模型包括三层神经网络,第一层为全连接前馈神经网络,第二层为门控循环神经网络,第三层为全连接前馈神经网络;
将所述车辆信息输入至所述动作值网络模型,输出各车辆当前状态下的动作评估值;
构建混合网络模型;所述混合网络模型包括多个全连接前馈神经网络;
将所述动作评估值以及所有车辆的状态信息输入至所述混合网络模型,得到所述混合网络模型的输出;
基于所述混合网络模型的输出以及所述动作评估值,采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练,得到训练好的动作值网络模型;
基于训练好的动作值网络模型以及∈-贪婪策略确定各车辆下一时刻的动作。
2.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法,其特征在于,基于所述混合网络模型的输出以及所述动作评估值,采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练,得到训练好的动作值网络模型,具体包括:
将所述混合网络模型的输出以及所述动作评估值输入至所述基于夏普里值的贡献度分配机制模组中,得到所述基于夏普里值的贡献度分配机制模组的输出;
根据所述基于夏普里值的贡献度分配机制模组的输出确定所述动作值网络模型的损失函数;
根据所述动作值网络模型的损失函数,采用随机梯度下降法更新所述动作值网络模型的参数,得到训练好的动作值网络模型。
3.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法,其特征在于,还包括:
基于所述混合网络模型的输出确定所述混合网络模型的损失函数;
根据所述混合网络模型的损失函数,采用随机梯度下降法调整所述混合网络模型的参数。
4.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法,其特征在于,所述动作值网络模型的损失函数
Figure FDA0003714672550000021
如下:
Figure FDA0003714672550000022
其中,Qij表示由动作值网络输出的智能体i的动作估计值,j表示所取数据批量的索引,
Figure FDA0003714672550000023
表示由基于夏普里值的贡献度分配机制模组输出的智能体i的目标动作估计值,b表示用于训练的数据批量的总维数。
5.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法,其特征在于,所述混合网络模型的损失函数
Figure FDA0003714672550000024
如下:
Figure FDA0003714672550000025
其中,r表示所有车辆得到的共享奖赏值,γ表示折扣因子,Qtot(·)表示整个混合网络模型,τ'表示下一时刻的历史信息轨迹,s'表示下一时刻环境的状态信息,u′表示车辆在下一时刻的动作序列,θ、θ′分别表示混合网络模型的参数和目标参数。
6.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法,其特征在于,所述∈-贪婪策略如下:
Figure FDA0003714672550000026
其中,
Figure FDA0003714672550000027
表示第a个车辆的策略,
Figure FDA0003714672550000028
表示第a个车辆在t-1时刻的动作,
Figure FDA0003714672550000029
表示第a个车辆在t-1时刻的状态信息,∈表示从[0,1]区间内按照均匀分布采样得到的概率值,U表示车辆动作集合,
Figure FDA0003714672550000031
表示第a个车辆的动作评估值。
7.一种无信号灯交叉路口车辆协同控制系统,其特征在于,包括:
车辆信息获取模块,用于无信号灯交叉路口中各车辆的车辆信息;所述车辆信息包括各车辆状态信息、各车辆上一时刻动作信息以及各车辆ID信息;
第一输入模块,用于将所述车辆信息输入至动作值网络模型,输出各车辆当前状态下的动作评估值;所述动作值网络模型包括三层神经网络,第一层为全连接前馈神经网络,第二层为门控循环神经网络,第三层为全连接前馈神经网络;
第二输入模块,用于将所述动作评估值以及所有车辆的状态信息输入至混合网络模型,得到所述混合网络模型的输出;所述混合网络模型包括多个全连接前馈神经网络;
动作确定模块,用于基于训练好的动作值网络模型以及∈-贪婪策略确定各车辆下一时刻的动作;动作值网络模型是通过混合网络模型的输出以及动作评估值,采用基于夏普里值的贡献度分配机制模组进行训练的。
CN202210734289.4A 2022-06-27 2022-06-27 一种无信号灯交叉路口车辆协同控制方法及系统 Pending CN115116240A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210734289.4A CN115116240A (zh) 2022-06-27 2022-06-27 一种无信号灯交叉路口车辆协同控制方法及系统
PCT/CN2023/081191 WO2024001301A1 (zh) 2022-06-27 2023-03-14 一种无信号灯交叉路口车辆协同控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210734289.4A CN115116240A (zh) 2022-06-27 2022-06-27 一种无信号灯交叉路口车辆协同控制方法及系统

Publications (1)

Publication Number Publication Date
CN115116240A true CN115116240A (zh) 2022-09-27

Family

ID=83331608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210734289.4A Pending CN115116240A (zh) 2022-06-27 2022-06-27 一种无信号灯交叉路口车辆协同控制方法及系统

Country Status (2)

Country Link
CN (1) CN115116240A (zh)
WO (1) WO2024001301A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024001301A1 (zh) * 2022-06-27 2024-01-04 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932840A (zh) * 2018-07-17 2018-12-04 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法
CN111967199A (zh) * 2020-09-23 2020-11-20 浙江大学 一种强化学习多代理合作任务下的代理贡献分配的方法
CN113919886A (zh) * 2021-11-11 2022-01-11 重庆邮电大学 基于夏普利值的数据特征组合定价方法、系统及电子设备
CN114021464A (zh) * 2021-11-09 2022-02-08 京东科技信息技术有限公司 数据处理方法、装置和存储介质
CN114463997A (zh) * 2022-02-14 2022-05-10 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11137762B2 (en) * 2018-11-30 2021-10-05 Baidu Usa Llc Real time decision making for autonomous driving vehicles
CN112116072A (zh) * 2020-09-16 2020-12-22 上海交通大学 一种量化神经网络中多个输入变量之间相互作用的方法
CN113345221B (zh) * 2021-05-13 2023-03-28 北京航空航天大学 基于平行车道的无信号交叉口进口道车辆匹配与组织方法
CN115116240A (zh) * 2022-06-27 2022-09-27 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932840A (zh) * 2018-07-17 2018-12-04 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法
CN111967199A (zh) * 2020-09-23 2020-11-20 浙江大学 一种强化学习多代理合作任务下的代理贡献分配的方法
CN114021464A (zh) * 2021-11-09 2022-02-08 京东科技信息技术有限公司 数据处理方法、装置和存储介质
CN113919886A (zh) * 2021-11-11 2022-01-11 重庆邮电大学 基于夏普利值的数据特征组合定价方法、系统及电子设备
CN114463997A (zh) * 2022-02-14 2022-05-10 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI J等: "Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning", 《REINFORCEMENT LEARNING》, 10 March 2022 (2022-03-10), pages 934 - 942 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024001301A1 (zh) * 2022-06-27 2024-01-04 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统

Also Published As

Publication number Publication date
WO2024001301A1 (zh) 2024-01-04

Similar Documents

Publication Publication Date Title
CN112099496B (zh) 一种自动驾驶训练方法、装置、设备及介质
CN111061277B (zh) 一种无人车全局路径规划方法和装置
CN110745136B (zh) 一种驾驶自适应控制方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN112365724B (zh) 一种基于深度强化学习的连续交叉口信号协同控制方法
CN114463997B (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
CA3065617C (en) Method for predicting car-following behavior under apollo platform
Odeh et al. A hybrid fuzzy genetic algorithm for an adaptive traffic signal system
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN115019523B (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
Huo et al. Cooperative control for multi-intersection traffic signal based on deep reinforcement learning and imitation learning
WO2024001301A1 (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
Shamsi et al. Reinforcement learning for traffic light control with emphasis on emergency vehicles
CN116476863A (zh) 基于深度强化学习的自动驾驶横纵向一体化决策方法
CN114919578B (zh) 智能车行为决策方法、规划方法、系统及存储介质
CN114267191B (zh) 缓解交通拥堵驾驶员控制系统、方法、介质、设备及应用
Chen et al. Decision making for overtaking of unmanned vehicle based on deep Q-learning
Huo et al. Tensor-based cooperative control for large scale multi-intersection traffic signal using deep reinforcement learning and imitation learning
Si et al. A deep coordination graph convolution reinforcement learning for multi-intelligent vehicle driving policy
Huang et al. Application of deep reinforcement learning in optimization of traffic signal control
CN110750877B (zh) 一种Apollo平台下的车辆跟驰行为预测方法
Bhattacharyya Modeling Human Driving from Demonstrations
Wu et al. Lane Change Decision-Making through Deep Reinforcement Learning with Driver’s Inputs
CN113189998B (zh) 一种基于深度强化学习的多乘客动态车辆路径优化方法
Xu et al. Research on Optimization of Intersection Signal Control Based on Traffic Flow Forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination