CN114463997B - 一种无信号灯交叉路口车辆协同控制方法及系统 - Google Patents

一种无信号灯交叉路口车辆协同控制方法及系统 Download PDF

Info

Publication number
CN114463997B
CN114463997B CN202210132425.2A CN202210132425A CN114463997B CN 114463997 B CN114463997 B CN 114463997B CN 202210132425 A CN202210132425 A CN 202210132425A CN 114463997 B CN114463997 B CN 114463997B
Authority
CN
China
Prior art keywords
vehicle
action
value
information
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210132425.2A
Other languages
English (en)
Other versions
CN114463997A (zh
Inventor
吴艳
郭子涵
王丽芳
张俊智
李芳�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Electrical Engineering of CAS
Original Assignee
Institute of Electrical Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Electrical Engineering of CAS filed Critical Institute of Electrical Engineering of CAS
Priority to CN202210132425.2A priority Critical patent/CN114463997B/zh
Publication of CN114463997A publication Critical patent/CN114463997A/zh
Application granted granted Critical
Publication of CN114463997B publication Critical patent/CN114463997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种无信号灯交叉路口车辆协同控制方法及系统,方法包括:将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;搭建十字交叉路口场景模型;获取车辆的状态信息、动作信息以及ID信息;构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络;将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值。本发明中的上述方法能够降低计算复杂度。

Description

一种无信号灯交叉路口车辆协同控制方法及系统
技术领域
本发明涉及人工智能领域,特别是涉及一种无信号灯交叉路口车辆协同控制方法及系统。
背景技术
能否有效地进行城市交叉路口管控对造成交通系统是否拥堵现象和是否出现安全事故起着至关重要的作用。城市化的深入大幅增加了城市中的人口数量,城市中的车辆数量,不可避免地引起交通拥堵问题,进而造成社会生产效率的降低,带来环境污染,增加交通事故发生的概率,影响市容市貌。在交叉路口设置交通信号灯是普遍情况下有效缓解上述问题的方法之一,为了使交通流有效和安全,学术界在优化交通信号灯的时间与相位上做了大量探索(包括基于优化理论的算法和人工智能算法)。在1992年,MichaelG.H.Bell在其论文中论述仅靠交通信号灯本身是无法解决交通拥堵问题,而是需要集成一些其他信息,例如车辆能够获取当前道路的一些拥堵情况信息。
在有交通信号灯的交叉路口中,车辆的等待时间无法被消除。因此,这也激发了科学家们对车辆在无信号灯交叉路口的有效协同控制的探索。如今智能网联车技术的不断发展,如V2V(Vehicles to Vehicles),V2I(Vehicles to Infrastructure)等技术促进了该场景下的车辆协同技术的发展。从场景角度来看,仅仅是单一城市交叉路口中车辆之间的冲突关系就已经比较复杂,建立起路网层面对各网联车进行协调就更为困难。
现如今无信号灯交叉路口大多尝试用集中式协同方法(例如,基于经典控制方法MPC)组织各车辆的决策。但传统方法的局限性在于计算复杂度高,实时性与鲁棒性较差。机器学习技术的发展与应用(尤其是基于深度学习的机器学习算法)解决了过往较为困难的问题,例如目标识别、图像生成,自然语言处理、癌症检测、机器人控制等领域。目前学术界也有用多智能体深度强化学习解决交叉路口协同控制问题的方法,即集中式多智能体深度强化学习算法,但随着车辆的数量增加,算法的复杂度会指数级上升,遇到维数灾难的问题。集中式多智能体深度强化学习算法在解决合作任务时候会遇到智能体之间的信用分配问题,通过公平并且有效地分配信用,智能体之间能够更有效地合作。分布式多智能体强化学习是另一种方法思路,但该类方法会严重受环境的非平稳性所影响(即每个智能体把其他智能体当作环境的一部分,其他智能体的策略发生变化的同时环境一直在发生变化)。目前在多智能体强化学习领域中的一类流行的算法范式是集中式训练,分布式执行,该方法假设每个智能体只能观测到部分环境信息,而在算法的训练阶段可以获取环境完整的状态信息。此类方法能够避免环境非平稳性带来的问题,一般通过参数共享的方式在一定程度上缓解维数灾难问题。
本发明尝试采用基于值分解方法的多智能体深度强化学习方法,集中式训练分布式执行的架构解决无交通信号灯下单交叉路口多车辆协同控制问题。旨在解决非智能算法中的高计算复杂度问题,多智能体强化学习集中式算法中的维数灾难、信用分配问题。
发明内容
本发明的目的是提供一种无信号灯交叉路口车辆协同控制方法及系统,旨在解决非智能算法中的高计算复杂度问题,多智能体强化学习集中式算法中的维数灾难、信用分配问题。
为实现上述目的,本发明提供了如下方案:
一种无信号灯交叉路口车辆协同控制方法,所述控制方法包括:
将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;所述部分可观察马尔可夫决策过程由元组G=(S,U,P,r,Z,O,n,γ)组成;其中S表示环境的全局状态信息,U表示联合离散的动作空间,P表示状态转移的概率,r表示智能体分享同一个奖赏值函数,Z表示观测信息,O表示观测函数,n表示智能体的索引,γ表示折扣因子;
搭建十字交叉路口场景模型;
获取车辆的状态信息、动作信息以及ID信息;
构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络;
将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;
基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;
将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值。
可选的,所述十字交叉路口场景模型的具体参数包括:受管控的车道,长度为100m;左转车道;直行车道;车辆,数量为8辆,长度为5米,最大速度为15m/s,最小速度为0m/s,最大加速度为3.5m/s2,最大减速度为-5m/s2
可选的,所述共享奖赏值函数为:
Figure BDA0003503275010000031
其中,α12345均为可调节参数,
Figure BDA0003503275010000032
为指示函数,/>
Figure BDA0003503275010000033
表示当所有智能体成功完成通过交叉路口任务时其会得到一个奖赏值C=(#max_episode_steps)-(#real_episode_steps),#max_episode_step表示环境设置中的每个回合的最大步长;#real_episode_step表示实际情况下所有智能体完成任务所需要的总步长数量;
Figure BDA0003503275010000034
表示如果智能体当前的速度vi小于规定的最小速度Vmin=2m/s,给予其惩罚数值α1;/>
Figure BDA0003503275010000035
表示如果智能体之间发生碰撞,受到惩罚数值α2;∑iα3*waiting_timei表示智能体在任务中停留的时间越长,所受惩罚的积累数值越大,可调参数为α3;#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量,并与相对应的奖赏系数α4相乘,α5表示每一个时间步长给予所有智能体一个惩罚数值α5
可选的,基于所述当前状态下各车辆动作的评估值采用以下公式作为动作选择机制以确定各车辆具体的动作信息:
Figure BDA0003503275010000041
其中,
Figure BDA0003503275010000042
表示基于车辆观测值/>
Figure BDA0003503275010000043
下输出当前时刻动作/>
Figure BDA0003503275010000044
的概率分布函数(简称为策略函数),|U|表示车辆动作空间的维度,/>
Figure BDA0003503275010000045
表示获取能够使动作评估值/>
Figure BDA0003503275010000046
最大的动作,∈表示概率。
可选的,所述动作值网络包括三层神经网络,第一层为全连接前馈神经网络,输入维度取决于输入向量,输出维度为32;第二层为门控循环神经网络,输出维度为64,隐藏层维度为64;第三层为全连接前馈神经网络,输入维度为64,输出维度取决于动作序列维度。
基于本发明中的上述方法,本发明另外提供一种无信号灯交叉路口车辆协同控制系统,其特征在于,所述控制系统包括:
建模模块,用于将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;所述部分可观察马尔可夫决策过程由元组G=(S,U,P,r,Z,O,n,γ)组成;其中S表示环境的全局状态信息,U表示联合离散的动作空间,P表示状态转移的概率,r表示智能体分享同一个奖赏值函数,Z表示观测信息,O表示观测函数,n表示智能体的索引,γ表示折扣因子;
场景模型搭建模块,用于搭建十字交叉路口场景模型;
车辆信息获取模块,用于获取车辆的状态信息、动作信息以及ID信息;
神经网络构建模块,用于构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络;
车辆动作值的评估值确定模块,用于将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;
动作信息确定模块,用于基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;
近似共享奖赏值确定模块,用于将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值。
可选的,所述十字交叉路口场景模型的具体参数包括:受管控的车道,长度为100m;左转车道;直行车道;车辆,数量为8辆,长度为5米,最大速度为15m/s,最小速度为0m/s,最大加速度为3.5m/s2,最大减速度为-5m/s2
可选的,所述共享奖赏值函数为:
Figure BDA0003503275010000051
其中,α12345均为可调节参数,
Figure BDA0003503275010000052
为指示函数,/>
Figure BDA0003503275010000053
表示当所有智能体成功完成通过交叉路口任务时其会得到一个奖赏值C=(#max_episode_steps)-(#real_episode_steps),#max_episode_step表示环境设置中的每个回合的最大步长;#real_episode_step表示实际情况下所有智能体完成任务所需要的总步长数量;
Figure BDA0003503275010000054
表示如果智能体当前的速度vi小于规定的最小速度Vmin=2m/s,给予其惩罚数值α1;/>
Figure BDA0003503275010000055
表示如果智能体之间发生碰撞,受到惩罚数值α2;∑iα3*waiting_timei表示智能体在任务中停留的时间越长,所受惩罚的积累数值越大,可调参数为α3;#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量,并与相对应的奖赏系数α4相乘,α5表示每一个时间步长给予所有智能体一个惩罚数值α5
可选的,所述动作信息确定模块具体采用以下公式:
Figure BDA0003503275010000056
其中,
Figure BDA0003503275010000057
表示基于车辆观测值/>
Figure BDA0003503275010000058
下输出当前时刻动作/>
Figure BDA0003503275010000059
的概率分布函数(简称为策略函数),|U|表示车辆动作空间的维度,/>
Figure BDA00035032750100000510
表示获取能够使动作评估值/>
Figure BDA00035032750100000511
最大的动作,∈表示概率。
可选的,所述动作值网络包括三层神经网络,第一层为全连接前馈神经网络,输入维度取决于输入向量,输出维度为32;第二层为门控循环神经网络,输出维度为64,隐藏层维度为64;第三层为全连接前馈神经网络,输入维度为64,输出维度取决于动作序列维度。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明中的上述方法及系统在无信号灯交叉路口下的多车协同问题中,基于经典控制论的解法一般对智能体的动作空间的假设为连续动作空间,若直接使用一般的多智能体强化学习算法对其求解会造成解空间维数灾难及算法搜索效率低下的问题,而本发明在建模过程中将该实际问题的动作空间进行离散化,在不损失求解精度的同时提高了求解效率;
在无信号灯交叉路口下的多车协同问题中,基于经典控制论的解法缺乏让智能体自主探索并自主适应环境的能力,因此本发明采用强化学习框架解决该问题可以让智能体在训练中有自主探索、自主适应环境的能力;
基于集中式的经典控制论的方法的计算复杂度较高,可扩展性差。而本发明的算法采用了参数共享这一技术,其可以有效提升算法的可扩展性,即扩展到涉及更多车辆的无交通信号灯的交叉路口场景;而算法训练后得到的模型其本质上只进行有限的矩阵乘法运算,从而大幅度降低了经典控制论算法中的高计算复杂度问题;
集中式的多智能体强化学习算法存在信用分配差的问题,本发明采用的基于值分解的多智能体强化学习算法可以有效对智能体的贡献度进行估算。
分布式的多智能体强化学习算法(未应用到该实际场景)存在受环境非平稳性影响严重的问题,本发明采用的是集中式训练,分布式执行的算法框架,在训练过程中,智能体能够获取全局信息,因此环境非平稳性可以得到有效缓解。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种无信号灯交叉路口车辆协同控制方法流程图;
图2为本发明实施例于值分解的多智能体深度强化学习算法进行交互式训练流程图;
图3为本发明实施例∈-greedy策略算法流程图;
图4为本发明实施例一种无信号灯交叉路口车辆协同控制系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种无信号灯交叉路口车辆协同控制方法及系统,旨在解决非智能算法中的高计算复杂度问题,多智能体强化学习集中式算法中的维数灾难、信用分配问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例一种无信号灯交叉路口车辆协同控制方法流程图,如图1所示,所述方法包括:
步骤101:将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;
具体而言,将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process,Dec-POMDP),由元组G=(S,U,P,r,Z,O,n,γ)组成,其中s∈S代表与算法交互的仿真环境中的所有智能体的状态信息,其中包含所有智能体的位置、速度等信息。每一步中每个智能体a∈A≡{1,2,...,N}选择动作ua∈U,其联合动作为u∈U≡Un,做出动作选择之后会使环境以概率P(s'|s,u):S×U×S→[0,1]进入下一个状态,所有智能体分享同一个奖赏值函数
Figure BDA0003503275010000071
γ∈[0,1)。每个智能体只能观测到它局部信息z∈Z,该观测是状态和动作的函数O(s,a):S×U→Z,每个智能体的历史观测信息轨迹记为τa∈T≡(Z×U)*,智能体的策略基于历史观测信息,记作πa(uaa):T×U→[0,1],由于该方法使用的是基于值分解的方法,所以每个智能体的策略都对应着一个Q值函数,即/>
Figure BDA0003503275010000081
式子中/>
Figure BDA0003503275010000082
这里γ表示折扣因子,一般设置为0.99。
步骤102:搭建十字交叉路口场景模型。
具体的,是在SimulationofUrbanMobility(SUMO)仿真器中搭建一个8车道的十字交叉路口场景,场景具体参数如下:
1、受管控的车道长度为100m。
2、每一路包含左转车道和直行车道。
3、车辆为乘用车;受算法管控的车辆数为8;车身长度为5m
4、车辆的最大速度为15m/s,最小速度为0m/s,最大加速度为3.5m/s2,最大减速度为-5m/s2
5、每一步交互的时间为0.1s;每个回合的最大长度为200。
6、成功完成交叉路口管理任务的条件:车辆进入交叉路口并无碰撞地安全驶出路口。
定义各智能体(即各车辆)的状态空间为:s=[z1,z2,...,z8];
每个智能体的初始ID为:a∈{0,1,2,...,7};
每个智能体a的动作空间为:ua=[accel,keep,decel],分别代表以恒定的加速度加速、保持上一步的速度、以恒定加速度减速;
每个智能体只能观测到它局部信息z∈Z,具体包含的信息如下:za=[x,y,vel,safe_dist,waiting_time,enter_flag,out_flag],其中[x,y,vel]代表该智能体的绝对坐标与速度信息(智能体的最大速度为15m/s,加速度为可调参数,最多不能超过5m/s2),safe_dist表示与距该智能体最近的智能体的相对距离,waiting_time表示该智能体在经过交叉路口过程中累计等待的时间,[enter_flag,out_flag]表示智能体是否进入或驶出交叉路口;
每个智能体的历史轨迹为:τa=(za×ua)
每个智能体的策略记作πa(uaa),本方案中的算法对每个智能体的策略计算一个Q值函数,其物理意义代表对当前时刻当前状态下智能体动作的评估
Figure BDA0003503275010000091
其值反映智能体采取动作的优劣。其中/>
Figure BDA0003503275010000092
所有智能体在每一步算法与仿真环境交互中获得的共享奖赏值函数定义如下:
Figure BDA0003503275010000093
式中α12345均为可调节参数,
Figure BDA0003503275010000094
为指示函数。奖赏函数的第一项
Figure BDA0003503275010000095
表示当所有智能体成功完成通过交叉路口任务时其会得到一个较大的奖赏值C=(#max_episode_steps)-(#real_episode_steps),该式第一项表示环境设置中的每个回合的最大步长,第二项表示实际情况下所有智能体完成任务所需要的总步长数量。第二项的意义是如果智能体当前的速度vi小于规定的最小速度Vmin=2m/s,给予其惩罚数值α1。第三项表示如果智能体之间发生碰撞(碰撞检测的条件是当前智能体距该智能体最近的智能体的相对距离小于4m),其受到惩罚数值α2。第四项的物理意义表示智能体在任务中停留的时间越长,所受惩罚的积累数值越大,可调参数为α3。第五项中#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量,并与相对应的奖赏系数α4相乘。最后一项表示每一个时间步长给予所有智能体一个惩罚数值α5,一般该值较小。
微观上,该奖赏函数机制能够让每一个车辆安全无碰撞地通过交叉路口(奖赏函数第三项),并鼓励车辆快速通过路口,即尽可能以最短的通行时间经过路口。宏观上意义上该奖赏函数可以提高整体交通效率和交通安全。
步骤103:获取车辆的状态信息、动作信息以及ID信息。
步骤104:构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络。
步骤105:将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;
步骤106:基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;
步骤107:将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值。
基于上述构建的数学模型和搭建的仿真场景,利用基于值分解的多智能体深度强化学习算法进行交互式训练,流程图如图2所示。
步骤102中搭建的仿真场景在交互的每一步中为该算法提供车辆的状态信息,即步骤101中的zt,st(其中包含的具体信息见步骤101建模过程);算法的输出为各车辆下一时刻的动作信息,用于控制仿真器中车辆的行为。具体来说,算法的输入为
Figure BDA0003503275010000101
经过动作值神经网络后输出/>
Figure BDA0003503275010000102
表示该网络对当前状态下各车辆动作值的评估值,并通过以下动作选择机制(∈-greedy策略)选择要输出的动作:
Figure BDA0003503275010000103
∈为概率,它表示由程序从[0,1]区间内按均匀分布采样得到的数值。
算法框架的具体过程图3所示:
该算法主要由两个网络构成,一个是动作值网络,一个是混合网络。动作值网络由三层神经网络构成,第一层为全连接前馈神经网络,输入维度取决于输入向量(见下文),输出维度为32;第二层为门控循环神经网络(Gated RecurrentNetwork,GRU),其网络输出维度为64,隐藏层维度也为64;第三层为全连接前馈神经网络,输入维度为64,输出维度取决于动作序列维度。最后使用上述探索策略,即∈-greedy策略输出所有智能体已选动作的具体Q值。
动作值网络的输入向量如下:
Figure BDA0003503275010000111
其中
Figure BDA0003503275010000112
表示智能体a的观测,/>
Figure BDA0003503275010000113
表示智能体a在上一时刻的动作序列,agentID_a表示由one-hot向量组成的智能体a的ID,例如,智能体1的ID为[1,0,0,...,0]。经过最后一层全连接前馈神经网络之后输出[Q11,·),Q22,·),…,QNN,·)],表示每个智能体的每个可选动作的值。经过∈-greedy策略后输出为/>
Figure BDA0003503275010000114
混合网络由全连接前馈神经网络构成,其输入合并了环境的全局状态信息和动作值网络的输出,具体形式为:/>
Figure BDA0003503275010000115
其中st输入给全连接神经网络后输出网络参数权重W1,W2(包含对输出进行绝对值操作),网络参数偏置b1,b2,与动作值网络的输出做矩阵乘法运算后得到Qtot(τ,u),该值的物理意义是对步骤102中的共享奖赏值的近似,qtot=Qtot(τ,u,s,Q1,...,QN;θ)其中qtot表示整个混合网络模型Qtot(·)的输出值,是一个隐式的非线性函数,是对所有智能体共享的奖赏值r的近似估计值,与r的值越接近,说明算法训练的效果越好。并根据如下损失函数公式,利用随机梯度下降算法更新各层动作值网络、混合网络参数(随机梯度下降算法的公式见下文):
随机梯度下降算法的公式如下:
Figure BDA0003503275010000116
θ表示混合网络模型的所有参数,
Figure BDA0003503275010000117
代表损失函数的梯度,α表示学习率,本发明采用深度学习框架Pytorch中autograd模组(其功能为自动求解自定义损失函数的梯度)对该值进行自动计算并将/>
Figure BDA0003503275010000118
通过线性变换传递给动作值网络Q(·),所使用的是Adam优化器,学习率设置为5×10-4。动作值网络参数的更新过程公式为:
Figure BDA0003503275010000119
其中θQ表示动作值网络的所有参数,f(·)表示利用深度学习框架pytorch中自动求解梯度机制后,将混合网络的损失值映射到动作值网络的函数
Figure BDA00035032750100001110
b代表每次用于算法训练的一批数据的总维数,r代表仿真环境中所有智能体得到的共享奖赏值,γ表示折扣因子,Qtot(·)代表整个混合网络模型(该模型本质上是一个复杂的非线性函数),其中τ′表示下一时刻的历史信息轨迹,s'代表下一时刻环境的状态信息,u′表示智能体在下一时刻的动作序列,θ、θ′分别代表混合网络及目标混合网络的参数,每一次算法与仿真环境交互之后两者之间的关系如下,其中β为可调节参数,其物理意义代表目标网络参数更新的快慢:
θ′=β*θ+(1-β)*θ′
argmaxu′Qtot(τ',u',s';θ)表示从参数为θ的混合网络模型的输出向量中,根据所有智能体在下一时刻不同环境状态s'下的不同动作输出中挑选一个能使该模型输出值最大的动作序列。
图4为本发明实施例一种无信号灯交叉路口车辆协同控制系统结构示意图,如图4所示所述系统包括:
建模模块201,用于将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;所述部分可观察马尔可夫决策过程由元组G=(S,U,P,r,Z,O,n,γ)组成;其中S表示环境的全局状态信息,U表示联合离散的动作空间,P表示状态转移的概率,r表示智能体分享同一个奖赏值函数,Z表示观测信息,O表示观测函数,n表示智能体的索引,γ表示折扣因子;
场景模型搭建模块202,用于搭建十字交叉路口场景模型;
车辆信息获取模块203,用于获取车辆的状态信息、动作信息以及ID信息;
神经网络构建模块204,用于构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络;
车辆动作值的评估值确定模块205,用于将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;
动作信息确定模块206,用于基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;
近似共享奖赏值确定模块207,用于将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种无信号灯交叉路口车辆协同控制方法,其特征在于,所述控制方法包括:
将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;所述部分可观察马尔可夫决策过程由元组G=(S,U,P,r,Z,O,n,γ)组成;其中S表示环境的全局状态信息,U表示联合离散的动作空间,P表示状态转移的概率,r表示智能体分享同一个奖赏值函数,Z表示观测信息,O表示观测函数,n表示智能体的索引,γ表示折扣因子;
搭建十字交叉路口场景模型,具体为在Simulation ofUrban Mobility仿真器中搭建一个8车道的十字交叉路口场景;
获取车辆的状态信息、动作信息以及ID信息,所述车辆的状态信息包括:绝对坐标与速度信息、距所述车辆最近的智能体的相对距离、所述车辆在经过交叉路口过程中累计等待的时间以及所述车辆是否进入或驶出交叉路口;所述车辆的动作信息包括:所述车辆以恒定的加速度加速、保持上一步的速度以及以恒定加速度减速;
构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络;
将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;
基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;
将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值函数;
所述十字交叉路口场景模型的具体参数包括:受管控的车道,长度为100m;左转车道;直行车道;车辆,数量为8辆,长度为5米,最大速度为15m/s,最小速度为0m/s,最大加速度为3.5m/s2,最大减速度为-5m/s2
基于所述当前状态下各车辆动作的评估值采用以下公式作为动作选择机制以确定各车辆具体的动作信息:
Figure FDA0004192534470000021
其中,
Figure FDA0004192534470000022
表示基于车辆观测值/>
Figure FDA0004192534470000023
下输出当前时刻动作/>
Figure FDA0004192534470000024
的概率分布函数,|U|表示车辆动作空间的维度,/>
Figure FDA0004192534470000025
表示获取能够使动作评估值/>
Figure FDA0004192534470000026
最大的动作,∈表示概率。
2.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法,其特征在于,所述共享奖赏值函数为:
Figure FDA0004192534470000027
其中,α12345均为可调节参数,
Figure FDA0004192534470000028
为指示函数,/>
Figure FDA0004192534470000029
表示当所有智能体成功完成通过交叉路口任务时其会得到一个奖赏值C=(#max_episode_steps)-(#real_episode_steps),#max_episode_step表示环境设置中的每个回合的最大步长;#real_episode_step表示实际情况下所有智能体完成任务所需要的总步长数量,
Figure FDA00041925344700000210
表示如果智能体当前的速度vi小于规定的最小速度Vmin=2m/s,给予其惩罚数值α1;/>
Figure FDA00041925344700000211
表示如果智能体之间发生碰撞,受到惩罚数值α2;∑iα3*waiting_timei表示智能体在任务中停留的时间越长,所受惩罚的积累数值越大,可调参数为α3;#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量,并与相对应的奖赏系数α4相乘,α5表示每一个时间步长给予所有智能体一个惩罚数值α5
3.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法,其特征在于,所述动作值神经网络包括三层神经网络,第一层为全连接前馈神经网络,输入维度取决于输入向量,输出维度为32;第二层为门控循环神经网络,输出维度为64,隐藏层维度为64;第三层为全连接前馈神经网络,输入维度为64,输出维度取决于动作序列维度。
4.一种无信号灯交叉路口车辆协同控制系统,其特征在于,所述控制系统包括:
建模模块,用于将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观察马尔可夫决策过程;所述部分可观察马尔可夫决策过程由元组G=(S,U,P,r,Z,O,n,γ)组成;其中S表示环境的全局状态信息,U表示联合离散的动作空间,P表示状态转移的概率,r表示智能体分享同一个奖赏值函数,Z表示观测信息,O表示观测函数,n表示智能体的索引,γ表示折扣因子;
场景模型搭建模块,用于搭建十字交叉路口场景模型,具体为在Simulation ofUrbanMobility仿真器中搭建一个8车道的十字交叉路口场景;
车辆信息获取模块,用于获取车辆的状态信息、动作信息以及ID信息,所述车辆的状态信息包括:绝对坐标与速度信息、距所述车辆最近的智能体的相对距离、所述车辆在经过交叉路口过程中累计等待的时间以及所述车辆是否进入或驶出交叉路口;所述车辆的动作信息包括:所述车辆以恒定的加速度加速、保持上一步的速度以及以恒定加速度减速;
神经网络构建模块,用于构建神经网络模型;所述神经网络模型包括:动作值神经网络和混合神经网络;
车辆动作值的评估值确定模块,用于将所述车辆的状态信息、动作信息以及ID信息输入至所述动作值神经网络得到当前状态下各车辆动作值的评估值;
动作信息确定模块,用于基于所述当前状态下各车辆动作值的评估值采用动作选择机制确定各车辆的动作信息;
近似共享奖赏值确定模块,用于将所述环境的全局状态信息和所述各车辆的动作信息输入至所述混合神经网络,得到近似共享奖赏值函数;
所述十字交叉路口场景模型的具体参数包括:受管控的车道,长度为100m;左转车道;直行车道;车辆,数量为8辆,长度为5米,最大速度为15m/s,最小速度为0m/s,最大加速度为3.5m/s2,最大减速度为-5m/s2
所述动作信息确定模块具体采用以下公式:
Figure FDA0004192534470000041
其中,
Figure FDA0004192534470000042
表示基于车辆观测值/>
Figure FDA0004192534470000043
下输出当前时刻动作/>
Figure FDA0004192534470000044
的概率分布函数,|U|表示车辆动作空间的维度,/>
Figure FDA0004192534470000045
表示获取能够使动作评估值/>
Figure FDA0004192534470000046
最大的动作。
5.根据权利要求4所述的无信号灯交叉路口车辆协同控制系统,其特征在于,所述共享奖赏值函数为:
Figure FDA0004192534470000047
其中,α12345均为可调节参数,
Figure FDA0004192534470000048
为指示函数,/>
Figure FDA0004192534470000049
表示当所有智能体成功完成通过交叉路口任务时其会得到一个奖赏值C=(#max_episode_steps)-(#real_episode_steps),#max_episode_step表示环境设置中的每个回合的最大步长;#real_episode_step表示实际情况下所有智能体完成任务所需要的总步长数量,
Figure FDA00041925344700000410
表示如果智能体当前的速度vi小于规定的最小速度Vmin=2m/s,给予其惩罚数值α1;/>
Figure FDA00041925344700000411
表示如果智能体之间发生碰撞,受到惩罚数值α2;∑iα3*waiting_timei表示智能体在任务中停留的时间越长,所受惩罚的积累数值越大,可调参数为α3;#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量,并与相对应的奖赏系数α4相乘,α5表示每一个时间步长给予所有智能体一个惩罚数值α5
6.根据权利要求4所述的无信号灯交叉路口车辆协同控制系统,其特征在于,所述动作值神经网络包括三层神经网络,第一层为全连接前馈神经网络,输入维度取决于输入向量,输出维度为32;第二层为门控循环神经网络,输出维度为64,隐藏层维度为64;第三层为全连接前馈神经网络,输入维度为64,输出维度取决于动作序列维度。
CN202210132425.2A 2022-02-14 2022-02-14 一种无信号灯交叉路口车辆协同控制方法及系统 Active CN114463997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210132425.2A CN114463997B (zh) 2022-02-14 2022-02-14 一种无信号灯交叉路口车辆协同控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210132425.2A CN114463997B (zh) 2022-02-14 2022-02-14 一种无信号灯交叉路口车辆协同控制方法及系统

Publications (2)

Publication Number Publication Date
CN114463997A CN114463997A (zh) 2022-05-10
CN114463997B true CN114463997B (zh) 2023-06-16

Family

ID=81412961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210132425.2A Active CN114463997B (zh) 2022-02-14 2022-02-14 一种无信号灯交叉路口车辆协同控制方法及系统

Country Status (1)

Country Link
CN (1) CN114463997B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114919581B (zh) * 2022-05-11 2024-04-26 中南大学 智能车辆无序交叉路口的行为决策方法、计算机装置
CN115077549B (zh) * 2022-06-16 2024-04-26 南昌智能新能源汽车研究院 车辆状态跟踪方法、系统、计算机及可读存储介质
CN115116240A (zh) * 2022-06-27 2022-09-27 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
CN115145281A (zh) * 2022-07-19 2022-10-04 江苏大学 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法
US11862016B1 (en) 2022-07-19 2024-01-02 Jiangsu University Multi-intelligence federal reinforcement learning-based vehicle-road cooperative control system and method at complex intersection
CN117523847A (zh) * 2023-12-29 2024-02-06 苏州观瑞汽车技术有限公司 一种混行交通环境下信控交叉口多车协同控制方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2019009397A (es) * 2017-02-10 2019-12-05 Nissan North America Inc Gestion operacional de vehiculo autonomo que incluye operar una instancia de modelo de proceso de decision de markov parcialmente observable.
CN111445692B (zh) * 2019-12-24 2021-01-29 清华大学 一种无信号灯路口智能网联汽车的速度协同优化方法
CN112015174B (zh) * 2020-07-10 2022-06-28 歌尔股份有限公司 一种多agv运动规划方法、装置和系统
CN111695690B (zh) * 2020-07-30 2023-04-18 航天欧华信息技术有限公司 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN113264064B (zh) * 2021-03-31 2022-05-10 志行千里(北京)科技有限公司 用于交叉路口场景的自动驾驶方法及相关设备
CN113487857B (zh) * 2021-06-18 2022-10-18 杭州远眺科技有限公司 一种区域多路口可变车道协同控制决策方法
CN113313267B (zh) * 2021-06-28 2023-12-08 浙江大学 一种基于值分解和注意力机制的多智能体强化学习方法

Also Published As

Publication number Publication date
CN114463997A (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN114463997B (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
CN110750877B (zh) 一种Apollo平台下的车辆跟驰行为预测方法
Ma et al. Trajectory planning for connected and automated vehicles at isolated signalized intersections under mixed traffic environment
CN114407931B (zh) 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN110992695B (zh) 基于冲突消解的车辆城市交叉口通行决策多目标优化方法
Guan et al. Integrated decision and control: toward interpretable and computationally efficient driving intelligence
CN112233413B (zh) 一种面向智能网联车辆的多车道时空轨迹优化方法
Odeh et al. A hybrid fuzzy genetic algorithm for an adaptive traffic signal system
Lin et al. Traffic signal optimization based on fuzzy control and differential evolution algorithm
Wu et al. Cooperative multiagent deep deterministic policy gradient (CoMADDPG) for intelligent connected transportation with unsignalized intersection
CN111899509B (zh) 一种基于车路信息耦合的智能网联汽车状态向量计算方法
Peng et al. An integrated model for autonomous speed and lane change decision-making based on deep reinforcement learning
Wang et al. Vehicle trajectory prediction by knowledge-driven LSTM network in urban environments
CN114781072A (zh) 一种无人驾驶车辆的决策方法和系统
WO2024001301A1 (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
Jiang et al. Learning the policy for mixed electric platoon control of automated and human-driven vehicles at signalized intersection: A random search approach
Shi et al. Efficient Lane-changing Behavior Planning via Reinforcement Learning with Imitation Learning Initialization
Zhang et al. Coordination Between Connected Automated Vehicles and Pedestrians to Improve Traffic Safety and Efficiency at Industrial Sites
Zhang et al. PlanLight: learning to optimize traffic signal control with planning and iterative policy improvement
Zhancheng Research on application of deep reinforcement learning in traffic signal control
Liu et al. Graph reinforcement learning application to co-operative decision-making in mixed autonomy traffic: Framework, survey, and challenges
Chen et al. Platoon separation strategy optimization method based on deep cognition of a driver’s behavior at signalized intersections
CN114701517A (zh) 基于强化学习的多目标复杂交通场景下自动驾驶解决方法
CN114919578A (zh) 智能车行为决策方法、规划方法、系统及存储介质
Karimov " GREEN WAVE" MODULE FOR CREATING AN ARTIFICIAL INTELLIGENCE-BASED ADAPTIVE COMPLEX OF ROAD NETWORK PERMEABILITY TO IMPROVE ROAD TRAFFIC SAFETY

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant