CN114463997B - 一种无信号灯交叉路口车辆协同控制方法及系统 - Google Patents
一种无信号灯交叉路口车辆协同控制方法及系统 Download PDFInfo
- Publication number
- CN114463997B CN114463997B CN202210132425.2A CN202210132425A CN114463997B CN 114463997 B CN114463997 B CN 114463997B CN 202210132425 A CN202210132425 A CN 202210132425A CN 114463997 B CN114463997 B CN 114463997B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- action
- value
- information
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000009471 action Effects 0.000 claims abstract description 108
- 238000013528 artificial neural network Methods 0.000 claims abstract description 56
- 238000011156 evaluation Methods 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 239000003795 chemical substances by application Substances 0.000 claims description 102
- 230000006870 function Effects 0.000 claims description 38
- 230000001133 acceleration Effects 0.000 claims description 13
- 238000004088 simulation Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract 1
- 230000002787 reinforcement Effects 0.000 description 16
- 238000012549 training Methods 0.000 description 11
- 238000000354 decomposition reaction Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种无信号灯交叉路口车辆协同控制方法及系统,方法包括:将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;搭建十字交叉路口场景模型;获取车辆的状态信息、动作信息以及ID信息;构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络;将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值。本发明中的上述方法能够降低计算复杂度。
Description
技术领域
本发明涉及人工智能领域,特别是涉及一种无信号灯交叉路口车辆协同控制方法及系统。
背景技术
能否有效地进行城市交叉路口管控对造成交通系统是否拥堵现象和是否出现安全事故起着至关重要的作用。城市化的深入大幅增加了城市中的人口数量,城市中的车辆数量,不可避免地引起交通拥堵问题,进而造成社会生产效率的降低,带来环境污染,增加交通事故发生的概率,影响市容市貌。在交叉路口设置交通信号灯是普遍情况下有效缓解上述问题的方法之一,为了使交通流有效和安全,学术界在优化交通信号灯的时间与相位上做了大量探索(包括基于优化理论的算法和人工智能算法)。在1992年,MichaelG.H.Bell在其论文中论述仅靠交通信号灯本身是无法解决交通拥堵问题,而是需要集成一些其他信息,例如车辆能够获取当前道路的一些拥堵情况信息。
在有交通信号灯的交叉路口中,车辆的等待时间无法被消除。因此,这也激发了科学家们对车辆在无信号灯交叉路口的有效协同控制的探索。如今智能网联车技术的不断发展,如V2V(Vehicles to Vehicles),V2I(Vehicles to Infrastructure)等技术促进了该场景下的车辆协同技术的发展。从场景角度来看,仅仅是单一城市交叉路口中车辆之间的冲突关系就已经比较复杂,建立起路网层面对各网联车进行协调就更为困难。
现如今无信号灯交叉路口大多尝试用集中式协同方法(例如,基于经典控制方法MPC)组织各车辆的决策。但传统方法的局限性在于计算复杂度高,实时性与鲁棒性较差。机器学习技术的发展与应用(尤其是基于深度学习的机器学习算法)解决了过往较为困难的问题,例如目标识别、图像生成,自然语言处理、癌症检测、机器人控制等领域。目前学术界也有用多智能体深度强化学习解决交叉路口协同控制问题的方法,即集中式多智能体深度强化学习算法,但随着车辆的数量增加,算法的复杂度会指数级上升,遇到维数灾难的问题。集中式多智能体深度强化学习算法在解决合作任务时候会遇到智能体之间的信用分配问题,通过公平并且有效地分配信用,智能体之间能够更有效地合作。分布式多智能体强化学习是另一种方法思路,但该类方法会严重受环境的非平稳性所影响(即每个智能体把其他智能体当作环境的一部分,其他智能体的策略发生变化的同时环境一直在发生变化)。目前在多智能体强化学习领域中的一类流行的算法范式是集中式训练,分布式执行,该方法假设每个智能体只能观测到部分环境信息,而在算法的训练阶段可以获取环境完整的状态信息。此类方法能够避免环境非平稳性带来的问题,一般通过参数共享的方式在一定程度上缓解维数灾难问题。
本发明尝试采用基于值分解方法的多智能体深度强化学习方法,集中式训练分布式执行的架构解决无交通信号灯下单交叉路口多车辆协同控制问题。旨在解决非智能算法中的高计算复杂度问题,多智能体强化学习集中式算法中的维数灾难、信用分配问题。
发明内容
本发明的目的是提供一种无信号灯交叉路口车辆协同控制方法及系统,旨在解决非智能算法中的高计算复杂度问题,多智能体强化学习集中式算法中的维数灾难、信用分配问题。
为实现上述目的,本发明提供了如下方案:
一种无信号灯交叉路口车辆协同控制方法,所述控制方法包括:
将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;所述部分可观察马尔可夫决策过程由元组G=(S,U,P,r,Z,O,n,γ)组成;其中S表示环境的全局状态信息,U表示联合离散的动作空间,P表示状态转移的概率,r表示智能体分享同一个奖赏值函数,Z表示观测信息,O表示观测函数,n表示智能体的索引,γ表示折扣因子;
搭建十字交叉路口场景模型;
获取车辆的状态信息、动作信息以及ID信息;
构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络;
将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;
基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;
将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值。
可选的,所述十字交叉路口场景模型的具体参数包括:受管控的车道,长度为100m;左转车道;直行车道;车辆,数量为8辆,长度为5米,最大速度为15m/s,最小速度为0m/s,最大加速度为3.5m/s2,最大减速度为-5m/s2。
可选的,所述共享奖赏值函数为:
其中,α1,α2,α3,α4,α5均为可调节参数,为指示函数,/>表示当所有智能体成功完成通过交叉路口任务时其会得到一个奖赏值C=(#max_episode_steps)-(#real_episode_steps),#max_episode_step表示环境设置中的每个回合的最大步长;#real_episode_step表示实际情况下所有智能体完成任务所需要的总步长数量;表示如果智能体当前的速度vi小于规定的最小速度Vmin=2m/s,给予其惩罚数值α1;/>表示如果智能体之间发生碰撞,受到惩罚数值α2;∑iα3*waiting_timei表示智能体在任务中停留的时间越长,所受惩罚的积累数值越大,可调参数为α3;#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量,并与相对应的奖赏系数α4相乘,α5表示每一个时间步长给予所有智能体一个惩罚数值α5。
可选的,基于所述当前状态下各车辆动作的评估值采用以下公式作为动作选择机制以确定各车辆具体的动作信息:
可选的,所述动作值网络包括三层神经网络,第一层为全连接前馈神经网络,输入维度取决于输入向量,输出维度为32;第二层为门控循环神经网络,输出维度为64,隐藏层维度为64;第三层为全连接前馈神经网络,输入维度为64,输出维度取决于动作序列维度。
基于本发明中的上述方法,本发明另外提供一种无信号灯交叉路口车辆协同控制系统,其特征在于,所述控制系统包括:
建模模块,用于将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;所述部分可观察马尔可夫决策过程由元组G=(S,U,P,r,Z,O,n,γ)组成;其中S表示环境的全局状态信息,U表示联合离散的动作空间,P表示状态转移的概率,r表示智能体分享同一个奖赏值函数,Z表示观测信息,O表示观测函数,n表示智能体的索引,γ表示折扣因子;
场景模型搭建模块,用于搭建十字交叉路口场景模型;
车辆信息获取模块,用于获取车辆的状态信息、动作信息以及ID信息;
神经网络构建模块,用于构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络;
车辆动作值的评估值确定模块,用于将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;
动作信息确定模块,用于基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;
近似共享奖赏值确定模块,用于将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值。
可选的,所述十字交叉路口场景模型的具体参数包括:受管控的车道,长度为100m;左转车道;直行车道;车辆,数量为8辆,长度为5米,最大速度为15m/s,最小速度为0m/s,最大加速度为3.5m/s2,最大减速度为-5m/s2。
可选的,所述共享奖赏值函数为:
其中,α1,α2,α3,α4,α5均为可调节参数,为指示函数,/>表示当所有智能体成功完成通过交叉路口任务时其会得到一个奖赏值C=(#max_episode_steps)-(#real_episode_steps),#max_episode_step表示环境设置中的每个回合的最大步长;#real_episode_step表示实际情况下所有智能体完成任务所需要的总步长数量;表示如果智能体当前的速度vi小于规定的最小速度Vmin=2m/s,给予其惩罚数值α1;/>表示如果智能体之间发生碰撞,受到惩罚数值α2;∑iα3*waiting_timei表示智能体在任务中停留的时间越长,所受惩罚的积累数值越大,可调参数为α3;#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量,并与相对应的奖赏系数α4相乘,α5表示每一个时间步长给予所有智能体一个惩罚数值α5。
可选的,所述动作信息确定模块具体采用以下公式:
可选的,所述动作值网络包括三层神经网络,第一层为全连接前馈神经网络,输入维度取决于输入向量,输出维度为32;第二层为门控循环神经网络,输出维度为64,隐藏层维度为64;第三层为全连接前馈神经网络,输入维度为64,输出维度取决于动作序列维度。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明中的上述方法及系统在无信号灯交叉路口下的多车协同问题中,基于经典控制论的解法一般对智能体的动作空间的假设为连续动作空间,若直接使用一般的多智能体强化学习算法对其求解会造成解空间维数灾难及算法搜索效率低下的问题,而本发明在建模过程中将该实际问题的动作空间进行离散化,在不损失求解精度的同时提高了求解效率;
在无信号灯交叉路口下的多车协同问题中,基于经典控制论的解法缺乏让智能体自主探索并自主适应环境的能力,因此本发明采用强化学习框架解决该问题可以让智能体在训练中有自主探索、自主适应环境的能力;
基于集中式的经典控制论的方法的计算复杂度较高,可扩展性差。而本发明的算法采用了参数共享这一技术,其可以有效提升算法的可扩展性,即扩展到涉及更多车辆的无交通信号灯的交叉路口场景;而算法训练后得到的模型其本质上只进行有限的矩阵乘法运算,从而大幅度降低了经典控制论算法中的高计算复杂度问题;
集中式的多智能体强化学习算法存在信用分配差的问题,本发明采用的基于值分解的多智能体强化学习算法可以有效对智能体的贡献度进行估算。
分布式的多智能体强化学习算法(未应用到该实际场景)存在受环境非平稳性影响严重的问题,本发明采用的是集中式训练,分布式执行的算法框架,在训练过程中,智能体能够获取全局信息,因此环境非平稳性可以得到有效缓解。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种无信号灯交叉路口车辆协同控制方法流程图;
图2为本发明实施例于值分解的多智能体深度强化学习算法进行交互式训练流程图;
图3为本发明实施例∈-greedy策略算法流程图;
图4为本发明实施例一种无信号灯交叉路口车辆协同控制系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种无信号灯交叉路口车辆协同控制方法及系统,旨在解决非智能算法中的高计算复杂度问题,多智能体强化学习集中式算法中的维数灾难、信用分配问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例一种无信号灯交叉路口车辆协同控制方法流程图,如图1所示,所述方法包括:
步骤101:将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;
具体而言,将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process,Dec-POMDP),由元组G=(S,U,P,r,Z,O,n,γ)组成,其中s∈S代表与算法交互的仿真环境中的所有智能体的状态信息,其中包含所有智能体的位置、速度等信息。每一步中每个智能体a∈A≡{1,2,...,N}选择动作ua∈U,其联合动作为u∈U≡Un,做出动作选择之后会使环境以概率P(s'|s,u):S×U×S→[0,1]进入下一个状态,所有智能体分享同一个奖赏值函数γ∈[0,1)。每个智能体只能观测到它局部信息z∈Z,该观测是状态和动作的函数O(s,a):S×U→Z,每个智能体的历史观测信息轨迹记为τa∈T≡(Z×U)*,智能体的策略基于历史观测信息,记作πa(ua|τa):T×U→[0,1],由于该方法使用的是基于值分解的方法,所以每个智能体的策略都对应着一个Q值函数,即/>式子中/>这里γ表示折扣因子,一般设置为0.99。
步骤102:搭建十字交叉路口场景模型。
具体的,是在SimulationofUrbanMobility(SUMO)仿真器中搭建一个8车道的十字交叉路口场景,场景具体参数如下:
1、受管控的车道长度为100m。
2、每一路包含左转车道和直行车道。
3、车辆为乘用车;受算法管控的车辆数为8;车身长度为5m
4、车辆的最大速度为15m/s,最小速度为0m/s,最大加速度为3.5m/s2,最大减速度为-5m/s2
5、每一步交互的时间为0.1s;每个回合的最大长度为200。
6、成功完成交叉路口管理任务的条件:车辆进入交叉路口并无碰撞地安全驶出路口。
定义各智能体(即各车辆)的状态空间为:s=[z1,z2,...,z8];
每个智能体的初始ID为:a∈{0,1,2,...,7};
每个智能体a的动作空间为:ua=[accel,keep,decel],分别代表以恒定的加速度加速、保持上一步的速度、以恒定加速度减速;
每个智能体只能观测到它局部信息z∈Z,具体包含的信息如下:za=[x,y,vel,safe_dist,waiting_time,enter_flag,out_flag],其中[x,y,vel]代表该智能体的绝对坐标与速度信息(智能体的最大速度为15m/s,加速度为可调参数,最多不能超过5m/s2),safe_dist表示与距该智能体最近的智能体的相对距离,waiting_time表示该智能体在经过交叉路口过程中累计等待的时间,[enter_flag,out_flag]表示智能体是否进入或驶出交叉路口;
每个智能体的历史轨迹为:τa=(za×ua)
所有智能体在每一步算法与仿真环境交互中获得的共享奖赏值函数定义如下:
式中α1,α2,α3,α4,α5均为可调节参数,为指示函数。奖赏函数的第一项表示当所有智能体成功完成通过交叉路口任务时其会得到一个较大的奖赏值C=(#max_episode_steps)-(#real_episode_steps),该式第一项表示环境设置中的每个回合的最大步长,第二项表示实际情况下所有智能体完成任务所需要的总步长数量。第二项的意义是如果智能体当前的速度vi小于规定的最小速度Vmin=2m/s,给予其惩罚数值α1。第三项表示如果智能体之间发生碰撞(碰撞检测的条件是当前智能体距该智能体最近的智能体的相对距离小于4m),其受到惩罚数值α2。第四项的物理意义表示智能体在任务中停留的时间越长,所受惩罚的积累数值越大,可调参数为α3。第五项中#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量,并与相对应的奖赏系数α4相乘。最后一项表示每一个时间步长给予所有智能体一个惩罚数值α5,一般该值较小。
微观上,该奖赏函数机制能够让每一个车辆安全无碰撞地通过交叉路口(奖赏函数第三项),并鼓励车辆快速通过路口,即尽可能以最短的通行时间经过路口。宏观上意义上该奖赏函数可以提高整体交通效率和交通安全。
步骤103:获取车辆的状态信息、动作信息以及ID信息。
步骤104:构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络。
步骤105:将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;
步骤106:基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;
步骤107:将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值。
基于上述构建的数学模型和搭建的仿真场景,利用基于值分解的多智能体深度强化学习算法进行交互式训练,流程图如图2所示。
步骤102中搭建的仿真场景在交互的每一步中为该算法提供车辆的状态信息,即步骤101中的zt,st(其中包含的具体信息见步骤101建模过程);算法的输出为各车辆下一时刻的动作信息,用于控制仿真器中车辆的行为。具体来说,算法的输入为经过动作值神经网络后输出/>表示该网络对当前状态下各车辆动作值的评估值,并通过以下动作选择机制(∈-greedy策略)选择要输出的动作:
∈为概率,它表示由程序从[0,1]区间内按均匀分布采样得到的数值。
算法框架的具体过程图3所示:
该算法主要由两个网络构成,一个是动作值网络,一个是混合网络。动作值网络由三层神经网络构成,第一层为全连接前馈神经网络,输入维度取决于输入向量(见下文),输出维度为32;第二层为门控循环神经网络(Gated RecurrentNetwork,GRU),其网络输出维度为64,隐藏层维度也为64;第三层为全连接前馈神经网络,输入维度为64,输出维度取决于动作序列维度。最后使用上述探索策略,即∈-greedy策略输出所有智能体已选动作的具体Q值。
动作值网络的输入向量如下:
其中表示智能体a的观测,/>表示智能体a在上一时刻的动作序列,agentID_a表示由one-hot向量组成的智能体a的ID,例如,智能体1的ID为[1,0,0,...,0]。经过最后一层全连接前馈神经网络之后输出[Q1(τ1,·),Q2(τ2,·),…,QN(τN,·)],表示每个智能体的每个可选动作的值。经过∈-greedy策略后输出为/>混合网络由全连接前馈神经网络构成,其输入合并了环境的全局状态信息和动作值网络的输出,具体形式为:/>其中st输入给全连接神经网络后输出网络参数权重W1,W2(包含对输出进行绝对值操作),网络参数偏置b1,b2,与动作值网络的输出做矩阵乘法运算后得到Qtot(τ,u),该值的物理意义是对步骤102中的共享奖赏值的近似,qtot=Qtot(τ,u,s,Q1,...,QN;θ)其中qtot表示整个混合网络模型Qtot(·)的输出值,是一个隐式的非线性函数,是对所有智能体共享的奖赏值r的近似估计值,与r的值越接近,说明算法训练的效果越好。并根据如下损失函数公式,利用随机梯度下降算法更新各层动作值网络、混合网络参数(随机梯度下降算法的公式见下文):
随机梯度下降算法的公式如下:
θ表示混合网络模型的所有参数,代表损失函数的梯度,α表示学习率,本发明采用深度学习框架Pytorch中autograd模组(其功能为自动求解自定义损失函数的梯度)对该值进行自动计算并将/>通过线性变换传递给动作值网络Q(·),所使用的是Adam优化器,学习率设置为5×10-4。动作值网络参数的更新过程公式为:
其中θQ表示动作值网络的所有参数,f(·)表示利用深度学习框架pytorch中自动求解梯度机制后,将混合网络的损失值映射到动作值网络的函数
b代表每次用于算法训练的一批数据的总维数,r代表仿真环境中所有智能体得到的共享奖赏值,γ表示折扣因子,Qtot(·)代表整个混合网络模型(该模型本质上是一个复杂的非线性函数),其中τ′表示下一时刻的历史信息轨迹,s'代表下一时刻环境的状态信息,u′表示智能体在下一时刻的动作序列,θ、θ′分别代表混合网络及目标混合网络的参数,每一次算法与仿真环境交互之后两者之间的关系如下,其中β为可调节参数,其物理意义代表目标网络参数更新的快慢:
θ′=β*θ+(1-β)*θ′
argmaxu′Qtot(τ',u',s';θ)表示从参数为θ的混合网络模型的输出向量中,根据所有智能体在下一时刻不同环境状态s'下的不同动作输出中挑选一个能使该模型输出值最大的动作序列。
图4为本发明实施例一种无信号灯交叉路口车辆协同控制系统结构示意图,如图4所示所述系统包括:
建模模块201,用于将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;所述部分可观察马尔可夫决策过程由元组G=(S,U,P,r,Z,O,n,γ)组成;其中S表示环境的全局状态信息,U表示联合离散的动作空间,P表示状态转移的概率,r表示智能体分享同一个奖赏值函数,Z表示观测信息,O表示观测函数,n表示智能体的索引,γ表示折扣因子;
场景模型搭建模块202,用于搭建十字交叉路口场景模型;
车辆信息获取模块203,用于获取车辆的状态信息、动作信息以及ID信息;
神经网络构建模块204,用于构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络;
车辆动作值的评估值确定模块205,用于将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;
动作信息确定模块206,用于基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;
近似共享奖赏值确定模块207,用于将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种无信号灯交叉路口车辆协同控制方法,其特征在于,所述控制方法包括:
将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;所述部分可观察马尔可夫决策过程由元组G=(S,U,P,r,Z,O,n,γ)组成;其中S表示环境的全局状态信息,U表示联合离散的动作空间,P表示状态转移的概率,r表示智能体分享同一个奖赏值函数,Z表示观测信息,O表示观测函数,n表示智能体的索引,γ表示折扣因子;
搭建十字交叉路口场景模型,具体为在Simulation ofUrban Mobility仿真器中搭建一个8车道的十字交叉路口场景;
获取车辆的状态信息、动作信息以及ID信息,所述车辆的状态信息包括:绝对坐标与速度信息、距所述车辆最近的智能体的相对距离、所述车辆在经过交叉路口过程中累计等待的时间以及所述车辆是否进入或驶出交叉路口;所述车辆的动作信息包括:所述车辆以恒定的加速度加速、保持上一步的速度以及以恒定加速度减速;
构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络;
将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;
基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;
将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值函数;
所述十字交叉路口场景模型的具体参数包括:受管控的车道,长度为100m;左转车道;直行车道;车辆,数量为8辆,长度为5米,最大速度为15m/s,最小速度为0m/s,最大加速度为3.5m/s2,最大减速度为-5m/s2;
基于所述当前状态下各车辆动作的评估值采用以下公式作为动作选择机制以确定各车辆具体的动作信息:
2.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法,其特征在于,所述共享奖赏值函数为:
其中,α1,α2,α3,α4,α5均为可调节参数,为指示函数,/>表示当所有智能体成功完成通过交叉路口任务时其会得到一个奖赏值C=(#max_episode_steps)-(#real_episode_steps),#max_episode_step表示环境设置中的每个回合的最大步长;#real_episode_step表示实际情况下所有智能体完成任务所需要的总步长数量,表示如果智能体当前的速度vi小于规定的最小速度Vmin=2m/s,给予其惩罚数值α1;/>表示如果智能体之间发生碰撞,受到惩罚数值α2;∑iα3*waiting_timei表示智能体在任务中停留的时间越长,所受惩罚的积累数值越大,可调参数为α3;#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量,并与相对应的奖赏系数α4相乘,α5表示每一个时间步长给予所有智能体一个惩罚数值α5。
3.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法,其特征在于,所述动作值神经网络包括三层神经网络,第一层为全连接前馈神经网络,输入维度取决于输入向量,输出维度为32;第二层为门控循环神经网络,输出维度为64,隐藏层维度为64;第三层为全连接前馈神经网络,输入维度为64,输出维度取决于动作序列维度。
4.一种无信号灯交叉路口车辆协同控制系统,其特征在于,所述控制系统包括:
建模模块,用于将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;所述部分可观察马尔可夫决策过程由元组G=(S,U,P,r,Z,O,n,γ)组成;其中S表示环境的全局状态信息,U表示联合离散的动作空间,P表示状态转移的概率,r表示智能体分享同一个奖赏值函数,Z表示观测信息,O表示观测函数,n表示智能体的索引,γ表示折扣因子;
场景模型搭建模块,用于搭建十字交叉路口场景模型,具体为在Simulation ofUrbanMobility仿真器中搭建一个8车道的十字交叉路口场景;
车辆信息获取模块,用于获取车辆的状态信息、动作信息以及ID信息,所述车辆的状态信息包括:绝对坐标与速度信息、距所述车辆最近的智能体的相对距离、所述车辆在经过交叉路口过程中累计等待的时间以及所述车辆是否进入或驶出交叉路口;所述车辆的动作信息包括:所述车辆以恒定的加速度加速、保持上一步的速度以及以恒定加速度减速;
神经网络构建模块,用于构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络;
车辆动作值的评估值确定模块,用于将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;
动作信息确定模块,用于基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;
近似共享奖赏值确定模块,用于将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值函数;
所述十字交叉路口场景模型的具体参数包括:受管控的车道,长度为100m;左转车道;直行车道;车辆,数量为8辆,长度为5米,最大速度为15m/s,最小速度为0m/s,最大加速度为3.5m/s2,最大减速度为-5m/s2;
所述动作信息确定模块具体采用以下公式:
5.根据权利要求4所述的无信号灯交叉路口车辆协同控制系统,其特征在于,所述共享奖赏值函数为:
其中,α1,α2,α3,α4,α5均为可调节参数,为指示函数,/>表示当所有智能体成功完成通过交叉路口任务时其会得到一个奖赏值C=(#max_episode_steps)-(#real_episode_steps),#max_episode_step表示环境设置中的每个回合的最大步长;#real_episode_step表示实际情况下所有智能体完成任务所需要的总步长数量,表示如果智能体当前的速度vi小于规定的最小速度Vmin=2m/s,给予其惩罚数值α1;/>表示如果智能体之间发生碰撞,受到惩罚数值α2;∑iα3*waiting_timei表示智能体在任务中停留的时间越长,所受惩罚的积累数值越大,可调参数为α3;#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量,并与相对应的奖赏系数α4相乘,α5表示每一个时间步长给予所有智能体一个惩罚数值α5。
6.根据权利要求4所述的无信号灯交叉路口车辆协同控制系统,其特征在于,所述动作值神经网络包括三层神经网络,第一层为全连接前馈神经网络,输入维度取决于输入向量,输出维度为32;第二层为门控循环神经网络,输出维度为64,隐藏层维度为64;第三层为全连接前馈神经网络,输入维度为64,输出维度取决于动作序列维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210132425.2A CN114463997B (zh) | 2022-02-14 | 2022-02-14 | 一种无信号灯交叉路口车辆协同控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210132425.2A CN114463997B (zh) | 2022-02-14 | 2022-02-14 | 一种无信号灯交叉路口车辆协同控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114463997A CN114463997A (zh) | 2022-05-10 |
CN114463997B true CN114463997B (zh) | 2023-06-16 |
Family
ID=81412961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210132425.2A Active CN114463997B (zh) | 2022-02-14 | 2022-02-14 | 一种无信号灯交叉路口车辆协同控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114463997B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114919581B (zh) * | 2022-05-11 | 2024-04-26 | 中南大学 | 智能车辆无序交叉路口的行为决策方法、计算机装置 |
CN115077549B (zh) * | 2022-06-16 | 2024-04-26 | 南昌智能新能源汽车研究院 | 车辆状态跟踪方法、系统、计算机及可读存储介质 |
CN115116240A (zh) * | 2022-06-27 | 2022-09-27 | 中国科学院电工研究所 | 一种无信号灯交叉路口车辆协同控制方法及系统 |
CN115145281A (zh) * | 2022-07-19 | 2022-10-04 | 江苏大学 | 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法 |
US11862016B1 (en) | 2022-07-19 | 2024-01-02 | Jiangsu University | Multi-intelligence federal reinforcement learning-based vehicle-road cooperative control system and method at complex intersection |
CN117523847A (zh) * | 2023-12-29 | 2024-02-06 | 苏州观瑞汽车技术有限公司 | 一种混行交通环境下信控交叉口多车协同控制方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2019009397A (es) * | 2017-02-10 | 2019-12-05 | Nissan North America Inc | Gestion operacional de vehiculo autonomo que incluye operar una instancia de modelo de proceso de decision de markov parcialmente observable. |
CN111445692B (zh) * | 2019-12-24 | 2021-01-29 | 清华大学 | 一种无信号灯路口智能网联汽车的速度协同优化方法 |
CN112015174B (zh) * | 2020-07-10 | 2022-06-28 | 歌尔股份有限公司 | 一种多agv运动规划方法、装置和系统 |
CN111695690B (zh) * | 2020-07-30 | 2023-04-18 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN113264064B (zh) * | 2021-03-31 | 2022-05-10 | 志行千里(北京)科技有限公司 | 用于交叉路口场景的自动驾驶方法及相关设备 |
CN113487857B (zh) * | 2021-06-18 | 2022-10-18 | 杭州远眺科技有限公司 | 一种区域多路口可变车道协同控制决策方法 |
CN113313267B (zh) * | 2021-06-28 | 2023-12-08 | 浙江大学 | 一种基于值分解和注意力机制的多智能体强化学习方法 |
-
2022
- 2022-02-14 CN CN202210132425.2A patent/CN114463997B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114463997A (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114463997B (zh) | 一种无信号灯交叉路口车辆协同控制方法及系统 | |
CN110750877B (zh) | 一种Apollo平台下的车辆跟驰行为预测方法 | |
Ma et al. | Trajectory planning for connected and automated vehicles at isolated signalized intersections under mixed traffic environment | |
CN114407931B (zh) | 一种高度类人的自动驾驶营运车辆安全驾驶决策方法 | |
CN110992695B (zh) | 基于冲突消解的车辆城市交叉口通行决策多目标优化方法 | |
Guan et al. | Integrated decision and control: toward interpretable and computationally efficient driving intelligence | |
CN112233413B (zh) | 一种面向智能网联车辆的多车道时空轨迹优化方法 | |
Odeh et al. | A hybrid fuzzy genetic algorithm for an adaptive traffic signal system | |
Lin et al. | Traffic signal optimization based on fuzzy control and differential evolution algorithm | |
Wu et al. | Cooperative multiagent deep deterministic policy gradient (CoMADDPG) for intelligent connected transportation with unsignalized intersection | |
CN111899509B (zh) | 一种基于车路信息耦合的智能网联汽车状态向量计算方法 | |
Peng et al. | An integrated model for autonomous speed and lane change decision-making based on deep reinforcement learning | |
Wang et al. | Vehicle trajectory prediction by knowledge-driven LSTM network in urban environments | |
CN114781072A (zh) | 一种无人驾驶车辆的决策方法和系统 | |
WO2024001301A1 (zh) | 一种无信号灯交叉路口车辆协同控制方法及系统 | |
Jiang et al. | Learning the policy for mixed electric platoon control of automated and human-driven vehicles at signalized intersection: A random search approach | |
Shi et al. | Efficient Lane-changing Behavior Planning via Reinforcement Learning with Imitation Learning Initialization | |
Zhang et al. | Coordination Between Connected Automated Vehicles and Pedestrians to Improve Traffic Safety and Efficiency at Industrial Sites | |
Zhang et al. | PlanLight: learning to optimize traffic signal control with planning and iterative policy improvement | |
Zhancheng | Research on application of deep reinforcement learning in traffic signal control | |
Liu et al. | Graph reinforcement learning application to co-operative decision-making in mixed autonomy traffic: Framework, survey, and challenges | |
Chen et al. | Platoon separation strategy optimization method based on deep cognition of a driver’s behavior at signalized intersections | |
CN114701517A (zh) | 基于强化学习的多目标复杂交通场景下自动驾驶解决方法 | |
CN114919578A (zh) | 智能车行为决策方法、规划方法、系统及存储介质 | |
Karimov | " GREEN WAVE" MODULE FOR CREATING AN ARTIFICIAL INTELLIGENCE-BASED ADAPTIVE COMPLEX OF ROAD NETWORK PERMEABILITY TO IMPROVE ROAD TRAFFIC SAFETY |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |