CN113362618A - 基于策略梯度的多模式交通自适应信号控制方法及装置 - Google Patents

基于策略梯度的多模式交通自适应信号控制方法及装置 Download PDF

Info

Publication number
CN113362618A
CN113362618A CN202110619439.2A CN202110619439A CN113362618A CN 113362618 A CN113362618 A CN 113362618A CN 202110619439 A CN202110619439 A CN 202110619439A CN 113362618 A CN113362618 A CN 113362618A
Authority
CN
China
Prior art keywords
time
data
flow
pedestrians
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110619439.2A
Other languages
English (en)
Other versions
CN113362618B (zh
Inventor
王昊
王雷震
董长印
杨朝友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou Fama Intelligent Equipment Co ltd
Southeast University
Original Assignee
Yangzhou Fama Intelligent Equipment Co ltd
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou Fama Intelligent Equipment Co ltd, Southeast University filed Critical Yangzhou Fama Intelligent Equipment Co ltd
Priority to CN202110619439.2A priority Critical patent/CN113362618B/zh
Publication of CN113362618A publication Critical patent/CN113362618A/zh
Application granted granted Critical
Publication of CN113362618B publication Critical patent/CN113362618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Traffic Control Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于策略梯度的多模式交通自适应信号控制方法及装置,方法包括:获取目标交叉口和多模式交通流信息;根据交叉口信息进行仿真建模还原;构建多模式交通仿真流量生成函数;依据公交、社会车辆、行人及非机动车的不同特性提取多模式交通状态;构建优化人均延误变化量的奖励值;设计基于流量的经验回放池并进行采样;以改进的策略梯度框架训练神经网络;输出多模式交通自适应信号控制智能体。本发明提供的方法综合考虑了公交、社会车辆、行人及非机动车等多模式交通的权益,为道路交通管理者提供决策依据。

Description

基于策略梯度的多模式交通自适应信号控制方法及装置
技术领域
本发明属于城市交通信号控制领域。
背景技术
城市交通拥堵已经成为困扰全球的问题,为市民的生存环境、经济和社会都带来严重的负面影响。城市交通灯信号控制是缓解道路拥堵的重要方式,加强和优化交通信号管控可以充分提升现有设施的利用率,对促进城市经济活动和提升人民生活水平都起到至关重要的作用。
近年来,一些研究证明使用强化学习方法训练交通信号控制智能体可以有效提升交叉口车辆通行效率。然而,此类方法多以小汽车的延误、拥堵、通过量等为优化指标,缺乏对公交、行人及非机动车的考量,难以适应混合交通状况的实际需求。另外,当前基于强化学习的信控方法中交通流量输入数据单一,经验回放池抽样随机,导致智能体训练速度慢且泛化性差。已有研究中,专利申请文件中202010294012.5通过构建深度Q学习框架,采用卷积神经网络用于值函数逼近,训练出最优策略智能体,实现针对车辆的时变交通信号控制;同样的,专利申请文件中201910629489.1通过建立交通仿真环境,设计评判网络和交通信号生成网络,以车辆排队长度变化为奖励,基于仿真数据训练出适应复杂交通状况的自适应信号控制方法,可在一定程度上缓解拥堵。但是都偏向于针对社会车辆的模型和优化目标,缺乏公交、行人及非机动车等多模式交通在交叉口的利益考量,同时训练框架中交通流量输入缺乏多样性,训练数据的存储和抽样学习方法中存在缺陷,导致训练速度慢且不充分。
发明内容
发明目的:为了解决上述现有技术存在的问题,本发明提供了一种基于策略梯度的多模式交通自适应信号控制方法及装置。
技术方案:本发明提供了一种基于策略梯度的多模式交通自适应信号控制方法,具体包括如下步骤:
步骤1:获取目标交叉口数据和多模式交通流数据;所述目标交叉口数据包括目标交叉口机动车进口道各方向上机动车数量及排队长度、公交站位置、非机动车道及人行道位置;所述多模式交通流数据包括公交的班次,路线,速度,靠站时间,流量以及在目标交叉口的排队长度,社会车辆的流量,速度和在目标交叉口的排队长度,行人及非机动车的流量,速度和在目标交叉口的排队长度;
步骤2:对目标交叉口建立仿真模型,在仿真模型中标定公交车,社会车辆和行人及非机动车的参数,并设置公交车,社会车辆和行人及非机动车的生成规则;
步骤3:初始化仿真模型,并在仿真模型中生成公交车,社会车辆和行人及非机动车;
步骤4:在仿真模型中计算目标叉口的多模式交通状态
Figure BDA0003099168490000021
其中
Figure BDA0003099168490000022
表示时刻tk时的机动车的状态列表,所述机动车包括公交车和社会车辆,
Figure BDA0003099168490000023
表示时刻tk时行人及非机动车的状态列表,k=1,2,…sim,sim表示仿真时间的总个数;
步骤5:在仿真模型中根据社会车辆、公交车和行人及非机动车的平均载客人数计算时刻tk时目标交叉口的拥挤度系数
Figure BDA0003099168490000024
以及公交车和行人的排队长度比例系数
Figure BDA0003099168490000025
步骤6:将时刻tk时的目标叉口的多模式交通状态
Figure BDA0003099168490000026
输入至神经网络中,得到时刻tk时的动作相位
Figure BDA0003099168490000027
步骤7:仿真模型以行人及非机动车,社会车辆和公交车延误最小为目标执步骤6中的动作相位Δt秒,在时刻tk+1时得到奖励值
Figure BDA0003099168490000028
tk+1=tk+Δt;
步骤8:根据步骤4计算时刻tk+1时的多模式交通状态
Figure BDA0003099168490000029
Figure BDA00030991684900000210
作为一组数据;若
Figure BDA00030991684900000211
小于预设的低流量阈值,则将
Figure BDA00030991684900000212
放入预设的低流量经验回放池,若
Figure BDA00030991684900000213
大于预设的高流量阈值,则将
Figure BDA00030991684900000214
放入预设的高流量经验回放池,若
Figure BDA00030991684900000215
大于等于低流量阈值小于等于高流量阈值,则将
Figure BDA00030991684900000216
放入预设的中流量经验回放池;
步骤9:令k=k+1,判断k是否大于等于sim,若是则转步骤10,否则返回骤5;
步骤10:从每个经验回放池从每个经验回放池采集
Figure BDA00030991684900000217
组数据,Nbatch为被采集的数据组的总个数,根据采集的数据更新神经网络的参数,从而得到更新后的神经网络;
步骤11:判断神经网络参数的更新数次是否大于预设的阈值Nepisode;若是则停止计算,否则返回步骤3。
进一步的,所述步骤3在仿真模型中生成公交车,机动车,行人及非机动车具体为:
生成公交车:第i班次公交车按照时间间隔
Figure BDA0003099168490000031
进入仿真模型中,
Figure BDA0003099168490000032
其中
Figure BDA0003099168490000033
是第i班次公交车的发车间隔时间,ei表示第i班次公交车到站时间的误差,
Figure BDA0003099168490000034
N(.)表示高斯分布;
生成行人及非机动车:根据行人及非机动车的流量和到达率在仿真模型口中随机生成行人及非机动车,所述行人及非机动车的到达率随仿真时间的分布为
Figure BDA0003099168490000035
其中Tsim表示总仿真时间,
Figure BDA0003099168490000036
其中fp表示行人及非机动车的高峰小时流量;
生成社会车辆:根据社会车辆的流量和到达率在仿真模型中随机生成社会车辆,社会车辆到达率随仿真时间的分布为
Figure BDA0003099168490000037
其中fc表示社会车辆的高峰小时流量。
进一步的,所述步骤4中时刻tk时的机动车的状态列表
Figure BDA0003099168490000038
dm表示仿真模型的目标交叉口中时刻tk时第m个车道组的首车延误时长,g表示车道组的总数量,lm表示仿真模型的目标交叉口中时刻tk时第m个车道组的排队长度,
Figure BDA0003099168490000039
其中
Figure BDA00030991684900000310
表示时刻tk时第m个车道组中排队的社会车辆的数量,Kcar为时刻tk时社会车辆的平均载客人数,Kbus为时刻tk时公交车的平均载客人数,
Figure BDA00030991684900000311
表示时刻tk时第m个车道组中排队的公交车数量;时刻tk时行人及非机动车状态列表
Figure BDA00030991684900000312
其中pn表示仿真模型的目标交叉口中时刻tk时第n个人行道入口的排队人数,N表示目标交叉口中人行道的总数量。
进一步的,所述步骤5中的
Figure BDA0003099168490000041
其中
Figure BDA0003099168490000042
Kperson表示行人及非机动车的平均载客人数,
Figure BDA0003099168490000043
Cmax为预设的目标交叉口能够容纳行人的最大数值;公交车和行人的排队长度比例系数
Figure BDA0003099168490000044
其中
Figure BDA0003099168490000045
round(.)表示向近取整。
进一步的,所述步骤7中
Figure BDA0003099168490000046
Figure BDA0003099168490000047
其中
Figure BDA0003099168490000048
分别表示时刻tk时第u辆社会车辆、第b辆公交车、第c个行人或非机动车在时刻tk时的延误,A、B、C分别表示时刻tk时仿真模型中目标交叉口范围内的社会车辆总数量、公交车总数量、行人及非机动车的总数量。
进一步的,所述步骤10中根据第h个经验回放池中的每组数据被采集概率的大小进行数据采集,第h个经验回放池中的第v组数据被采集的概率
Figure BDA0003099168490000049
其中V为第h个经验回放池中数据的总个数,Cv表示第v组数据中公交车及行人的排队长度比例系数的值,N(Cv)表示公交车及行人的排队长度比例系数为Cv的数据被采样的次数;ξ为小于1的参数;h=1,2,3;h=1时表示低流量经验回放池,h=2时表示中流量经验回放池;h=3时表示高流量经验回放池。
进一步的,所述步骤10中更新神经网络的参数具体为:根据第y组数据中动作相位对应的时刻tw,将第y组数据对应的神经网络参数下从时刻t1~tw的数据组的集合作为第y个数据集,y=1,2…Nbatch,然后基于如下公式更新的神经网络的参数:
Figure BDA0003099168490000051
θ’为更新后的神经网络的参数,θ为更新前的神经网络的参数,α为学习率,
Figure BDA0003099168490000052
的表达式如下所示:
Figure BDA0003099168490000053
其中
Figure BDA0003099168490000054
表示第y个数据集中时刻tj时的动作相位,
Figure BDA0003099168490000055
表示第y个数据集合中时刻tj时的多模式交通状态,
Figure BDA0003099168490000056
表示策略的梯度;
Figure BDA0003099168490000057
表示在状态
Figure BDA0003099168490000058
和动作相位
Figure BDA0003099168490000059
下的奖励值。
基于策略梯度的多模式交通自适应信号控制装置,包括:多模式交叉口感知模块,数据存储模块,多模式交通自适应信号控制智能体计算模块;所述多模式交叉口感知模块包括交叉口信息感知单元和多模式交通流感知单元;所述数据存储模块包括交叉口数据单元和多模式交通流数据单元;所述多模式交通自适应信号控制智能体计算模块包括多模式流量生成单元和多模式智能体计算和存储单元;所述多模式智能体计算和存储单元内设有神经网络;
所述交叉口信息感知单元用于获取目标交叉口数据,并将目标交叉口数据传送至交叉口数据单元存储,所述多模式交通流感知单元用于获取多模式交通流数据,并将多模式交通流数据传送至多模式交通流数据单元进行存储;所述交叉口数据单元和多模式交通流数据单元将存储的数据传送至多模式流量生成单元和多模式智能体计算和存储单元,多模式流量生成单元根据收到的数据生成公交车,社会车辆和行人及非机动车,并发送至多模式智能体计算和存储单元;所述多模式智能体计算和存储单元根据收到的数据对神经网络进行迭代计算,并将迭代计算后的神经网络输出并保存。
有益效果:本发明提出的一种基于策略梯度的多模式交通自适应信号控制方法及装置,仿真建模目标交叉口;构建多模式交通仿真流量生成函数;权衡公交、社会车辆、行人及非机动车等多模式交通的权益;以人均延误最小化为目标的多模式交通自适应信号控制方法;适应混合交通环境,为交通管理者提供决策依据,实现以人为本的交通管控目标,提升交叉口服务水平和公平性。
附图说明
图1是本发明实施例的方法流程图。
图2是本发明实施例的多模式交通交叉口仿真示意图。
图3是本发明实施例的策略梯度学习框架的流程图。
图4是本发明实施例的装置结构示意图。
具体实施方式
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
如图1所示,本实施例提供一种基于策略梯度的多模式交通自适应信号控制方法,具体包括如下步骤:
步骤1:获取目标交叉口数据、多模式交通流数据,所述交叉口数据包括目标交叉口中机动车进口道各方向上的机动车数量及排队长度,以及公交站位置、非机动车道及人行道位置,多模式交通流数据包括公交的班次及路线、速度、靠站时间、流量、排队长度,社会车辆、行人及非机动车(将行人及非机动车看做整体)的流量、速度、排队长度等;本实施例中:某一交叉口的四个进口均为双向八车道,其中包括1个左转专用道,两个直行专用道和一个直左车道,另外各单独有一条行人及非机动车道,交叉口在东进口和东出口距离60米的路测各有公交站,有一班101号公交,发车间隔为600秒,该交叉口的社会车辆高峰小时流量为2400辆/小时,行人及非机动车高峰小时流量为600人/小时。
具体的,标交叉口数据和多模式交通流数据可以通过感知设备自动获取或者实地调研获取。
步骤2:如图2所示,根据目标交叉口数据在交通仿真软件中对目标交叉口建模,依据多模式交通流数据标定仿真中公交、社会车辆、行人及非机动车的参数(所述公交的参数就是指公交的班次及路线、速度、靠站时间、流量、排队长度,公交站台位置等,社会车辆的参数为流量、速度、排队长度,行人及非机动车的参数为流量、速度、排队长度)
步骤3:根据公交参数在仿真交叉口中还原各班次公交路线,第i班次公交车进入仿真的时间间隔
Figure BDA0003099168490000061
其中
Figure BDA0003099168490000062
是第i班次公交车的发车间隔时间,本实施例中
Figure BDA0003099168490000063
ei表示第i班次公交车到站时间的误差(指实际到站时间与预期到站时间之间的误差),
Figure BDA0003099168490000071
其中N(·)表示高斯分布;
行人及非机动车流量按照到达率随机进入仿真交叉口(也既根据行人及非机动车的流量和到达率在仿真模型口中生成行人及非机动车),行人及非机动车到达率随仿真时间的分布为
Figure BDA0003099168490000076
其中Tsim表示总仿真时间,kp表示行人及非机动车的高峰小时流量生成系数,kp表示行人及非机动车的高峰小时流量,
Figure BDA0003099168490000072
其中fp表示行人及非机动车的高峰小时流量,本实施例中其中fp=2400,本实施例中Tsim=7200秒;
社会车辆流量按照到达率随机进入仿真交叉口(也既根据社会车辆的流量和到达率在仿真模型口中生成行社会车辆),社会车辆到达率随仿真时间的分布为
Figure BDA0003099168490000073
kc表示社会车辆的高峰小时流量生成系数,
Figure BDA0003099168490000074
中fc表示社会车辆的高峰小时流量;本实施例中fc=600。
步骤4:如图3所示,循环迭代训练多模式交通自适应信号控制智能体(神经网络),具体的,初始化上述的多模式交通交叉口的仿真和生成公交车,社会车辆和行人及非机动车,设定初始时间t0,总仿真时间Tsim
步骤5:获取当前仿真交叉口各进口道多模式交通流数据,提取关键信息作为状态输入;
步骤5.1:具体的,获取时刻tk的机动车(社会车辆+公交这)状态列表
Figure BDA0003099168490000075
dm表示仿真模型的目标交叉口中时刻tk时第m个车道组的首车延误时长(所述延误时长为预期通过目标交叉口所用时间与实际通过目标交叉口所用时间之差,所述通过目标交叉口所用时间包括在目标交叉口等待时间与在目标交叉口的行驶时间),g表示车道组的总数量,lm表示时刻tk时第m个车道组的排队长度,
Figure BDA0003099168490000081
其中
Figure BDA0003099168490000082
表示时刻tk时第m个车道组中排队的社会车辆的数量,Kcar为时刻tk时社会车辆的平均载客人数,Kbus为时刻tk时公交车的平均载客人数,
Figure BDA0003099168490000083
表示时刻tk时第m个车道组中排队的公交车数量;时刻tk时行人及非机动车状态列表
Figure BDA0003099168490000084
其中pn表示时刻tk时目标交叉口中第n个人行道入口的排队人数,N表示目标交叉口中人行道的总数量。
步骤5.2:根据行人及非机动车流量,获取时刻tk的行人及非机动车状态列表
Figure BDA0003099168490000085
其中pn表示时刻tk第n个人行道入口的排队人数,N表示人行道的数量;
步骤5.3:计算时刻tk时交叉口排队长度拥挤系数
Figure BDA0003099168490000086
其中
Figure BDA0003099168490000087
表示交叉口排队总数,
Figure BDA0003099168490000088
其中Kcar、Kbus、Kperson分别表示社会车辆内、公交车内、行人及非机动车的平均载客人数,
Figure BDA0003099168490000089
本实施例中分别取Kcar=2、Kbus=10、Kperson=1;Cmax为预设的目标交叉口能够容纳行人的最大数值,本实施例中取200;
步骤5.4:计算时刻tk时公交及行人的排队长度比例系数
Figure BDA00030991684900000810
其中
Figure BDA00030991684900000811
表示公交及行人的总排队人数,
Figure BDA00030991684900000812
round(.)表示向近取整即四舍五入;
步骤5.5:输出目标交叉口在时刻tk的多模式交通状态
Figure BDA00030991684900000813
目标交叉口排队长度拥挤系数
Figure BDA00030991684900000814
公交及行人的排队长度比例系数
Figure BDA00030991684900000815
步骤6:将步骤5获取的多模式交通状态
Figure BDA00030991684900000816
输入神经网络中(本实施例中神经网络采用全连接神经网络),神经网络输出时刻tk的动作相位
Figure BDA0003099168490000091
所述动作相位为需要执行动作a的车道;本实施例中动作a为绿灯相位;具体为根据概率
Figure BDA0003099168490000092
选择选择一个车道执行动作a,πθ(a|s)表示在神经网络的参数θ下,以及在状态
Figure BDA0003099168490000093
已经发生的条件下,目标交叉口各个车道执行动作a的概率;
步骤7:将步骤6获得的动作相位
Figure BDA0003099168490000094
放入仿真中执行Δt秒,时刻tk+1=tk+Δt,仿真返回以人均(所述的人均指的是包括行人,非机动车,社会车辆和公交车)延误最小为目标的奖励值
Figure BDA0003099168490000095
后续将
Figure BDA0003099168490000096
简写为
Figure BDA0003099168490000097
其中
Figure BDA00030991684900000920
表示时刻tk时的人均延误,
Figure BDA0003099168490000098
其中
Figure BDA0003099168490000099
Figure BDA00030991684900000910
分别表示第u辆社会车辆、第b辆公交车、第c个行人或非机动车在时刻tk时的延误,A、B、C分别表示时刻tk时目标交叉口范围内的社会车辆数量、公交数量、行人及非机动车的数量。
步骤8:根据步骤5获取时刻tk+1的多模式交通状态
Figure BDA00030991684900000911
Figure BDA00030991684900000912
作为一组数据保存至经验回放池;本实施例中的经验回放池包括低流量经验回放池,中流量经验回放池和高流量经验回放池;若目标交叉口的拥挤度系数
Figure BDA00030991684900000913
小于预设的低流量阈值,则将
Figure BDA00030991684900000914
放入预设的低流量经验回放池,若
Figure BDA00030991684900000915
大于预设的高流量阈值,则将
Figure BDA00030991684900000916
放入预设的高流量经验回放池,若
Figure BDA00030991684900000917
大于等于低流量阈值小于等于高流量阈值,则将
Figure BDA00030991684900000918
放入预设的中流量经验回放池。
步骤9:令k=k+1,判断k是否大于等于sim,若是则转步骤10,否则返回骤5
步骤10:从每个经验回放池中采样
Figure BDA00030991684900000919
组数据,Nbatch为被采集数据的总个数,更新神经网络中的参数,具体为:根据第y组数据中动作相位对应的时刻tw,将第y组数据对应的神经策略网络参数下从时刻t1~tw的数据组的集合作为第y个数据集,y=1,2…Nbatch,然后基于如下公式更新的神经网络的参数:
Figure BDA0003099168490000101
θ表示更新前的神经网络的参数,θ’表示更新后的神经网络的参数,α表示学习率,
Figure BDA0003099168490000102
的表达式如下所示:
Figure BDA0003099168490000103
其中
Figure BDA0003099168490000104
表示第y个数据集中时刻tj时的动作相位,
Figure BDA0003099168490000105
表示第y个数据集合中时刻tj时的多模式交通状态,
Figure BDA0003099168490000106
表示策略的梯度;
Figure BDA0003099168490000107
表示在状态
Figure BDA0003099168490000108
和动作相位
Figure BDA0003099168490000109
下的奖励值。
本实施例中于流量占比优先级别从低流量经验回放池、中等流量经验回放池和高流量经验回放池中分别采样
Figure BDA00030991684900001010
对数据,本例取Nbatch=30。即在每个经验池采样时,则第h个经验回放池中第v组数据被采样的概率
Figure BDA00030991684900001011
其中V为第h个经验回放池中数据的总个数,Cv表示第v组数据中公交车及行人的排队长度比例系数的值,N(Cv)表示公交车及行人的排队长度比例系数为Cv的数据被采样的次数;ξ为小于1的参数,本实施例中ξ取0.001;h=1,2,3;h=1时表示低流量经验回放池,h=2时表示中流量经验回放池;h=3时表示高流量经验回放池;根据第h个经验回放池中每个数据的被采样概率,对第h个经验回放池中的数据进行采集。
步骤11:完成步骤10一次即为1轮更新,判断更新次数否达到预设训练轮数Nepisode,本例中取Nepisode=500,如果未达到预设训练轮数Nepisode,返回步骤4,将更新后的神经网络进行重复迭代,直至达到预设训练轮数Nepisode,输出多模式交通自适应信号控制智能体(所述智能体为神经网络)。
如图4所示基于策略梯度的多模式交通自适应信号控制装置,包括:多模式交叉口感知模块,数据存储模块和多模式交通自适应信号控制智能体计算模块;
多模式交叉口感知模块,所述多模式交叉口感知模块包括交叉口信息感知单元和多模式交通流感知单元,叉口信息感知单元用于获取目标交叉口机动车进口道各方向数量及长度、公交站位置、非机动车道及人行道位置,多模式交通流感知单元用于获取公交的班次及路线、速度、靠站时间、流量、排队长度,社会车辆、行人及非机动车的流量、速度、排队长度等;
数据存储模块,包括交叉口数据单元和多模式交通流数据单元,分别用于存储交叉口感知单元、多模式交通流数据感知单元获取的数据;
多模式交通自适应信号控制智能体计算模块,包括多模式流量生成单元、多模式智能体计算和存储单元,多模式流量生成单元用于计算步骤3中的流量,多模式智能体计算和存储单元设有神经网络,并对神经网络进行迭代训练,并将训练好的神经网络保存并输出。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (8)

1.基于策略梯度的多模式交通自适应信号控制方法,其特征在于,具体包括如下步骤:
步骤1:获取目标交叉口数据和多模式交通流数据;所述目标交叉口数据包括目标交叉口机动车进口道各方向上机动车数量及排队长度、公交站位置、非机动车道及人行道位置;所述多模式交通流数据包括公交的班次,路线,速度,靠站时间,流量以及在目标交叉口的排队长度,社会车辆的流量,速度和在目标交叉口的排队长度,行人及非机动车的流量,速度和在目标交叉口的排队长度;
步骤2:对目标交叉口建立仿真模型,在仿真模型中标定公交车,社会车辆和行人及非机动车的参数,并设置公交车,社会车辆和行人及非机动车的生成规则;
步骤3:初始化仿真模型,并在仿真模型中生成公交车,社会车辆和行人及非机动车;
步骤4:在仿真模型中计算目标叉口的多模式交通状态
Figure FDA0003099168480000011
其中
Figure FDA0003099168480000012
表示时刻tk时的机动车的状态列表,所述机动车包括公交车和社会车辆,
Figure FDA0003099168480000013
表示时刻tk时行人及非机动车的状态列表,k=1,2,…sim,sim表示仿真时间的总个数;
步骤5:在仿真模型中根据社会车辆、公交车和行人及非机动车的平均载客人数计算时刻tk时目标交叉口的拥挤度系数
Figure FDA0003099168480000014
以及公交车和行人的排队长度比例系数
Figure FDA0003099168480000015
步骤6:将时刻tk时的目标叉口的多模式交通状态
Figure FDA0003099168480000016
输入至神经网络中,得到时刻tk时的动作相位
Figure FDA0003099168480000017
步骤7:仿真模型以行人及非机动车,社会车辆和公交车延误最小为目标执步骤6中的动作相位Δt秒,在时刻tk+1时得到奖励值
Figure FDA0003099168480000018
tk+1=tk+Δt;
步骤8:根据步骤4计算时刻tk+1时的多模式交通状态
Figure FDA0003099168480000019
Figure FDA00030991684800000110
作为一组数据;若
Figure FDA00030991684800000111
小于预设的低流量阈值,则将
Figure FDA00030991684800000112
放入预设的低流量经验回放池,若
Figure FDA00030991684800000113
大于预设的高流量阈值,则将
Figure FDA00030991684800000114
放入预设的高流量经验回放池,若
Figure FDA00030991684800000115
大于等于低流量阈值小于等于高流量阈值,则将
Figure FDA00030991684800000116
放入预设的中流量经验回放池;
步骤9:令k=k+1,判断k是否大于等于sim,若是则转步骤10,否则返回骤5;
步骤10:从每个经验回放池采集
Figure FDA0003099168480000021
组数据,Nbatch为被采集的数据组的总个数,根据采集的数据更新神经网络的参数,从而得到更新后的神经网络;
步骤11:判断神经网络参数的更新数次是否大于预设的阈值Nepisode;若是则停止计算,否则返回步骤3。
2.根据权利要求1所述的基于策略梯度的多模式交通自适应信号控制方法,其特征在于,所述步骤3在仿真模型中生成公交车,机动车,行人及非机动车具体为:
生成公交车:第i班次公交车按照时间间隔
Figure FDA0003099168480000022
进入仿真模型中,
Figure FDA0003099168480000023
其中
Figure FDA0003099168480000024
是第i班次公交车的发车间隔时间,ei表示第i班次公交车到站时间的误差,
Figure FDA0003099168480000025
N(.)表示高斯分布;
生成行人及非机动车:根据行人及非机动车的流量和到达率在仿真模型口中随机生成行人及非机动车,所述行人及非机动车的到达率随仿真时间的分布为
Figure FDA0003099168480000026
其中Tsim表示总仿真时间,
Figure FDA0003099168480000027
其中fp表示行人及非机动车的高峰小时流量;
生成社会车辆:根据社会车辆的流量和到达率在仿真模型中随机生成社会车辆,社会车辆到达率随仿真时间的分布为
Figure FDA0003099168480000028
其中fc表示社会车辆的高峰小时流量。
3.根据权利要求1所述的基于策略梯度的多模式交通自适应信号控制方法,其特征在于,所述步骤4中时刻tk时的机动车的状态列表
Figure FDA0003099168480000029
dm表示仿真模型的目标交叉口中时刻tk时第m个车道组的首车延误时长,g表示车道组的总数量,lm表示仿真模型的目标交叉口中时刻tk时第m个车道组的排队长度,
Figure FDA0003099168480000031
其中
Figure FDA0003099168480000032
表示时刻tk时第m个车道组中排队的社会车辆的数量,Kcar为时刻tk时社会车辆的平均载客人数,Kbus为时刻tk时公交车的平均载客人数,
Figure FDA0003099168480000033
表示时刻tk时第m个车道组中排队的公交车数量;时刻tk时行人及非机动车状态列表
Figure FDA0003099168480000034
其中pn表示仿真模型的目标交叉口中时刻tk时第n个人行道入口的排队人数,N表示目标交叉口中人行道的总数量。
4.根据权利要求3所述的基于策略梯度的多模式交通自适应信号控制方法,其特征在于,所述步骤5中的
Figure FDA0003099168480000035
其中
Figure FDA0003099168480000036
Kperson表示行人及非机动车的平均载客人数,
Figure FDA0003099168480000037
Cmax为预设的目标交叉口能够容纳行人的最大数值;公交车和行人的排队长度比例系数
Figure FDA0003099168480000038
其中
Figure FDA0003099168480000039
round(.)表示向近取整。
5.根据权利要求1所述的基于策略梯度的多模式交通自适应信号控制方法,其特征在于,所述步骤7中
Figure FDA00030991684800000310
其中
Figure FDA00030991684800000311
分别表示时刻tk时第u辆社会车辆、第b辆公交车、第c个行人或非机动车在时刻tk时的延误,A、B、C分别表示时刻tk时仿真模型中目标交叉口范围内的社会车辆总数量、公交车总数量、行人及非机动车的总数量。
6.根据权利要求1所述的基于策略梯度的多模式交通自适应信号控制方法,其特征在于,所述步骤10中根据第h个经验回放池中的每组数据被采集概率的大小进行数据采集,第h个经验回放池中的第v组数据被采集的概率
Figure FDA00030991684800000312
其中V为第h个经验回放池中数据的总个数,Cv表示第v组数据中公交车及行人的排队长度比例系数的值,N(Cv)表示公交车及行人的排队长度比例系数为Cv的数据被采样的次数;ξ为小于1的参数;h=1,2,3;h=1时表示低流量经验回放池,h=2时表示中流量经验回放池;h=3时表示高流量经验回放池。
7.根据权利要求1所述的基于策略梯度的多模式交通自适应信号控制方法,其特征在于,所述步骤10中更新神经网络的参数具体为:根据第y组数据中动作相位对应的时刻tw,将第y组数据对应的神经网络参数下从时刻t1~tw的数据组的集合作为第y个数据集,y=1,2…Nbatch,然后基于如下公式更新的神经网络的参数:
Figure FDA0003099168480000041
θ’为更新后的神经网络的参数,θ为更新前的神经网络的参数,α为学习率,
Figure FDA0003099168480000042
的表达式如下所示:
Figure FDA0003099168480000043
其中
Figure FDA0003099168480000044
表示第y个数据集中时刻tj时的动作相位,
Figure FDA0003099168480000045
表示第y个数据集合中时刻tj时的多模式交通状态,
Figure FDA0003099168480000046
表示策略的梯度;
Figure FDA0003099168480000047
表示在状态
Figure FDA0003099168480000048
和动作相位
Figure FDA0003099168480000049
下的奖励值。
8.基于策略梯度的多模式交通自适应信号控制装置,其特征在于,包括:多模式交叉口感知模块,数据存储模块,多模式交通自适应信号控制智能体计算模块;所述多模式交叉口感知模块包括交叉口信息感知单元和多模式交通流感知单元;所述数据存储模块包括交叉口数据单元和多模式交通流数据单元;所述多模式交通自适应信号控制智能体计算模块包括多模式流量生成单元和多模式智能体计算和存储单元;所述多模式智能体计算和存储单元内设有神经网络;
所述交叉口信息感知单元用于获取目标交叉口数据,并将目标交叉口数据传送至交叉口数据单元存储,所述多模式交通流感知单元用于获取多模式交通流数据,并将多模式交通流数据传送至多模式交通流数据单元进行存储;所述交叉口数据单元和多模式交通流数据单元将存储的数据传送至多模式流量生成单元和多模式智能体计算和存储单元,多模式流量生成单元根据收到的数据生成公交车,社会车辆和行人及非机动车,并发送至多模式智能体计算和存储单元;所述多模式智能体计算和存储单元根据收到的数据对神经网络进行迭代计算,并将迭代计算后的神经网络输出并保存。
CN202110619439.2A 2021-06-03 2021-06-03 基于策略梯度的多模式交通自适应信号控制方法及装置 Active CN113362618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110619439.2A CN113362618B (zh) 2021-06-03 2021-06-03 基于策略梯度的多模式交通自适应信号控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110619439.2A CN113362618B (zh) 2021-06-03 2021-06-03 基于策略梯度的多模式交通自适应信号控制方法及装置

Publications (2)

Publication Number Publication Date
CN113362618A true CN113362618A (zh) 2021-09-07
CN113362618B CN113362618B (zh) 2022-08-09

Family

ID=77531626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110619439.2A Active CN113362618B (zh) 2021-06-03 2021-06-03 基于策略梯度的多模式交通自适应信号控制方法及装置

Country Status (1)

Country Link
CN (1) CN113362618B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495577A (zh) * 2022-01-21 2022-05-13 华设设计集团股份有限公司 预防快速路二次事故的车路协同动态车道控制系统及方法
CN116229724A (zh) * 2023-05-06 2023-06-06 华东交通大学 考虑旅客平均时延的交通信号控制方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225502A (zh) * 2015-11-02 2016-01-06 招商局重庆交通科研设计院有限公司 一种基于多智能体的交叉口信号控制方法
CN106251649A (zh) * 2016-08-09 2016-12-21 南京航空航天大学 基于缓解过饱和状态下道路交叉口拥堵状况的控制策略
CN108831168A (zh) * 2018-06-01 2018-11-16 江苏数翰信息科技有限公司 一种基于关联路口视觉识别的交通信号灯控制方法与系统
CN110910662A (zh) * 2019-12-17 2020-03-24 哈尔滨工业大学 车路协同环境下单点自适应交通信号优化控制方法
CN112400192A (zh) * 2018-04-20 2021-02-23 多伦多大学理事会 多模态深度交通信号控制的方法和系统
CN112614343A (zh) * 2020-12-11 2021-04-06 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN112632858A (zh) * 2020-12-23 2021-04-09 浙江工业大学 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225502A (zh) * 2015-11-02 2016-01-06 招商局重庆交通科研设计院有限公司 一种基于多智能体的交叉口信号控制方法
CN106251649A (zh) * 2016-08-09 2016-12-21 南京航空航天大学 基于缓解过饱和状态下道路交叉口拥堵状况的控制策略
CN112400192A (zh) * 2018-04-20 2021-02-23 多伦多大学理事会 多模态深度交通信号控制的方法和系统
CN108831168A (zh) * 2018-06-01 2018-11-16 江苏数翰信息科技有限公司 一种基于关联路口视觉识别的交通信号灯控制方法与系统
CN110910662A (zh) * 2019-12-17 2020-03-24 哈尔滨工业大学 车路协同环境下单点自适应交通信号优化控制方法
CN112614343A (zh) * 2020-12-11 2021-04-06 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN112632858A (zh) * 2020-12-23 2021-04-09 浙江工业大学 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495577A (zh) * 2022-01-21 2022-05-13 华设设计集团股份有限公司 预防快速路二次事故的车路协同动态车道控制系统及方法
CN116229724A (zh) * 2023-05-06 2023-06-06 华东交通大学 考虑旅客平均时延的交通信号控制方法及系统

Also Published As

Publication number Publication date
CN113362618B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN103593535B (zh) 基于多尺度融合的城市交通复杂自适应网络平行仿真系统及方法
Wen A dynamic and automatic traffic light control expert system for solving the road congestion problem
CN113362618B (zh) 基于策略梯度的多模式交通自适应信号控制方法及装置
CN109272745B (zh) 一种基于深度神经网络的车辆轨迹预测方法
CN109118787A (zh) 一种基于深度神经网络的车辆速度预测方法
CN113299078B (zh) 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN112926768B (zh) 基于时空注意力机制的地面道路车道级交通流预测方法
CN115662113A (zh) 一种信号交叉口人车博弈冲突风险评估与预警方法
CN113487902B (zh) 一种基于车辆规划路径的强化学习区域信号控制方法
Nakka et al. A multi-agent deep reinforcement learning coordination framework for connected and automated vehicles at merging roadways
CN111798687A (zh) 一种基于5g技术的远程控制车辆的方法及系统
CN116895158A (zh) 一种基于多智能体Actor-Critic和GRU的城市大路网交通信号控制方法
CN109410608A (zh) 基于卷积神经网络的图片自学习交通信号控制方法
CN111009140A (zh) 一种基于开源路况信息的智能交通信号控制方法
Yang et al. Optimization model for the freeway-exiting position decision problem of automated vehicles
CN114495486A (zh) 一种基于层次强化学习的微观交通流预测系统及方法
CN113724507A (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
Kim et al. Agent-based mesoscopic urban traffic simulation based on multi-lane cell transmission model
CN117636651A (zh) 基于时空图神经网络强化学习的匝道合流区混合交通流控制方法
CN109447352B (zh) 一种公交出行od矩阵反推的组合方法
CN114360290B (zh) 一种基于强化学习的交叉口前车辆群体车道选择方法
Mohammadi et al. Controlling of traffic lights using RFID technology and neural network
CN115376308A (zh) 一种汽车行驶时间的预测方法
CN113870589A (zh) 一种交叉路口信号灯及可变车道联合控制系统和方法
Dündar et al. Modelling the Effects of E-Scooters in Urban Traffic Using Artificial Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant