CN112201060B - 一种基于Actor-Critic的单交叉口交通信号控制方法 - Google Patents

一种基于Actor-Critic的单交叉口交通信号控制方法 Download PDF

Info

Publication number
CN112201060B
CN112201060B CN202011030399.XA CN202011030399A CN112201060B CN 112201060 B CN112201060 B CN 112201060B CN 202011030399 A CN202011030399 A CN 202011030399A CN 112201060 B CN112201060 B CN 112201060B
Authority
CN
China
Prior art keywords
actor
critic
signal
now
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011030399.XA
Other languages
English (en)
Other versions
CN112201060A (zh
Inventor
全江伟
刘运杰
王喆冰
郑喆
金智多
冯远静
李永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Science And Technology Guangxin Intelligent Technology Co ltd
Original Assignee
Aerospace Science And Technology Guangxin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Science And Technology Guangxin Intelligent Technology Co ltd filed Critical Aerospace Science And Technology Guangxin Intelligent Technology Co ltd
Priority to CN202011030399.XA priority Critical patent/CN112201060B/zh
Publication of CN112201060A publication Critical patent/CN112201060A/zh
Application granted granted Critical
Publication of CN112201060B publication Critical patent/CN112201060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于Actor‑Critic的单交叉口交通信号控制方法,包括如下步骤:1)获取固定时间间隔的路网车辆位置信息和速度信息,以及对应时刻的信号灯状态;2)数据预处理,获得车辆队列‑信号灯状态的集合;3)利用车辆队列‑信号灯状态集,更新Actor网络和Critic网络参数;4)根据最终的收敛模型,可以得到基于Actor‑Critic的单交叉口交通信号最优配时方案,即下一时刻的最优信号。与现有技术相比,本发明通过人工智能方法,获取了交通运行过程中所隐藏的重要交通信息,最终得到了比传统定时方法通行效率更高的配时方案。

Description

一种基于Actor-Critic的单交叉口交通信号控制方法
技术领域
本发明涉及智能交通、最优控制领域,具体来说是一种基于Actor-Critic的单交叉口交通信号控制方法。
背景技术
在全球的大部分地区和城市,交通拥堵早已成为了一个棘手而复杂的问题,给人们的生活带来了很多麻烦。尽管现在很多GPS导航会提醒驾驶员前方的拥堵情况,以及通行需要花费的时间(提前进行了信号的传输),但是拥堵仍然是很难避免的。交通信号控制一般是指通过对信号灯的调节,来直接或间接的调控和引导车流,目的是保证人员和货物的安全,提高交通网络的整体运行效率。而日常生活中应用最广泛的定时控制方法,它主要是根据不同时段从交通路网采集的历史交通数据,使用数学方法来确定信号灯不同相位的持续时间,然而这种离线方法只考虑了长期的交通状况,对交通的动态性却没有响应。
发明内容
为了缓解路口处的交通拥堵以及解决定时控制对交通动态性的无响应问题,借助实时获取的交通信息,本发明提出一种基于当前路网车辆排队信息和 Actor-Critic算法的信号灯配时优化方法,通过获取的路网交通数据,基于Actor-Critic方法,设计了一种应对交通动态性的信号灯实时优化方案,以此提高交通流的运行效率。
本发明所采用的技术方案是:
一种基于Actor-Critic的单交叉口交通信号控制方法,包括以下步骤:
1)对于一段连续时间,每隔相同时间间隔step,获取路网内的所有车辆的位置信息和速度信息,以及信号灯所处的灯态;
2)原始数据预处理,根据车辆的速度信息获取处于停车状态的车辆编号,通过停止车的位置信息获取各条车道上的排队状态信息,最终获取车辆队列-信号灯状态的集合{Vk,Sk},其中,Vk为k时刻各个车道车辆的排队长度集合,Sk为k时刻的信号灯状态,k=1,2,…,N,N为路网中进入交叉口的车道总数;
3)利用车辆队列-信号灯状态的集合{Vk,Sk},根据Actor-Critic的方法,初始化关于策略的目标函数
Figure BDA0002703439440000021
Q(Vt,St)以及St,其中,θ为参数化的策略,τ为一个采样周期,Q(Vt,St)为参数化的值函数;
4)根据最终得到的神经网络模型,可以给出基于Actor-Critic的单交叉口信号灯最优配时方案:在现实场景中,根据各车道中车辆的排队信息和当前的灯态,通过下式确定下一个状态所需的信号灯状态信息:
Snext=argmax(Q(Vnow,Snow))
其中,Snext表示下个时刻要执行的信号灯状态,Vnow表示当前时刻的各个车道车辆的排队长度集合,Snow表示当前时刻的信号灯状态表示,Q(Vnow,Snow)表示由当前时刻的各个车道车辆的排队长度集合和信号灯状态决定的Q值函数,argmax(Q(Vnow,Snow))指的是使Q值函数取到最大值的信号灯状态。
进一步,所述步骤3)的实现过程如下:
3.1)首先,设置基本训练参数,奖励折扣γ=0.9,Actor的学习率α=0.001,Critic的学习率β=0.005,训练步长step=10;Actor的神经网络结构为三层全连接层,神经元个数呈300-200-100的递减趋势;Critic的神经网络结构也为三层全连接层,神经元个数呈100-50-25的递减趋势;Actor-Critic训练过程中的奖励函数定义为:
Figure BDA0002703439440000023
3.2)根据当前车辆队列-信号灯状态的集合{Vk,Sk},奖励值rk以及下一时刻的车辆队列-信号灯状态的集合{Vk+1,Sk+1}更新Critic网络参数w,得到用来评价 Actor执行策略的好坏的指标TD;更新公式如下:
δ←rk+1+γQ(Vt+1,St+1)-Q(Vt,St)
w=w+β*δ*Φ(s,a)
3.3)根据车辆队列-信号灯状态的集合{Vk,Sk},以及动作St和Critic返回的 TD进行Actor网络参数的更新;更新公式如下:
θ=θ+α▽J(θ)
3.4)不断进行迭代更新神经网络,直到迭代次数达到预设的最大迭代次数 M=60000为止,得到优化的信号灯配时方案。
本发明的技术构思为:首先收集路网中的车辆信息以及信号灯的灯态,对其进行预处理得到能真实反映路网交通状况的数据集。然后基于该数据集,使用 Actor-Critic学习方法训练优化参数,根据最终训练好结果,通过选取使得奖励值最大的信号灯切换动作用于信号灯控制台,使得交通信号的控制可以适应交通的动态性变化。
本发明的有益效果为:挖掘交通大数据中隐藏的重要交通信息,利用 Actor-Critic方法得到能应对交通随机性的信号灯配时方案。
附图说明
图1显示了基于Actor-Critic的交通信号控制系统流程图;
图2显示了仿真路网示意图,用于下文的分析。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于Actor-Critic的单交叉口交通信号控制方法,包括以下步骤:
1)参照图2的仿真路网,对于一段连续时间,每隔相同时间间隔step,获取路网内的所有车辆的位置信息和速度信息,以及信号灯所处的灯态;
2)原始数据预处理,根据车辆的速度信息获取处于停车状态的车辆编号,通过停止车的位置信息获取各条车道上的排队状态信息,最终获取车辆队列-信号灯状态的集合{Vk,Sk},其中,Vk为k时刻各个车道车辆的排队长度集合,Sk为k时刻的信号灯状态,k=1,2,…,N,N为路网中进入交叉口的车道总数。
3)利用车辆队列-信号灯状态的集合{Vk,Sk},根据Actor-Critic的方法,初始化关于策略的目标函数
Figure BDA0002703439440000031
Q(Vt,St)以及St,其中,θ为参数化的策略,τ为一个采样周期,Q(Vt,St)为参数化的值函数,实现过程如下:
3.1)首先,设置基本训练参数,奖励折扣γ=0.9,Actor的学习率α=0.001,Critic的学习率β=0.005,训练步长step=10;Actor的神经网络结构为三层全连接层,神经元个数呈300-200-100的递减趋势;Critic的神经网络结构也为三层全连接层,神经元个数呈100-50-25的递减趋势,Actor-Critic训练过程中的奖励函数定义为:
Figure BDA0002703439440000032
3.2)根据当前车辆队列-信号灯状态的集合{Vk,Sk},奖励值rk以及下一时刻的车辆队列-信号灯状态的集合{Vk+1,Sk+1}更新Critic网络参数w,得到用来评价 Actor执行策略的好坏的指标TD,更新公式如下:
δ←rk+1+γQ(Vt+1,St+1)-Q(Vt,St)
w=w+β*δ*Φ(s,a)
3.3)根据车辆队列-信号灯状态的集合{Vk,Sk},以及动作St和Critic返回的 TD进行Actor网络参数的更新,更新公式如下:
θ=θ+α▽J(θ)
3.4)不断进行迭代更新神经网络,直到迭代次数达到预设的最大迭代次数 M=60000为止,得到优化的信号灯配时方案;
4)根据最终得到的神经网络模型,可以给出基于Actor-Critic的单交叉口信号灯最优配时方案:在现实场景中,根据各车道中车辆的排队信息和当前的灯态,通过下式确定下一个状态所需的信号灯状态信息:
Snext=argmax(Q(Vnow,Snow))
其中,Snext表示下个时刻要执行的信号灯状态,Vnow表示当前时刻的各个车道车辆的排队长度集合,Snow表示当前时刻的信号灯状态表示,Q(Vnow,Snow)表示由当前时刻的各个车道车辆的排队长度集合和信号灯状态决定的Q值函数,argmax(Q(Vnow,Snow))指的是使Q值函数取到最大值的信号灯状态。
本实施例以使用微观交通仿真软件SUMO搭建的路网所获得的实时数据为实施例,进行仿真,一种基于Actor-Critic的单交叉口交通信号控制方法,包括以下步骤:
1)通过python与SUMO的交互,对于一段连续时间,每隔相同时间间隔step,获取路网内的所有车辆的位置信息和速度信息,以及信号灯所处的灯态;
2)原始数据预处理,根据车辆的速度信息获取处于停车状态的车辆编号,通过停止车的位置信息获取各条车道上的排队状态信息,最终获取车辆队列-信号灯状态的集合{Vk,Sk},其中,Vk为k时刻各个车道车辆的排队长度集合,Sk为k时刻的信号灯状态,k=1,2,…,N,N为路网中进入交叉口的车道总数。
3)利用车辆队列-信号灯状态的集合{Vk,Sk},根据Actor-Critic的方法,初始化关于策略的目标函数
Figure BDA0002703439440000051
Q(Vt,St)以及St,其中,θ为参数化的策略,τ为一个采样周期,Q(Vt,St)为参数化的值函数,实现过程如下:
3.1)首先,设置基本训练参数,奖励折扣γ=0.9,Actor的学习率α=0.001,Critic的学习率β=0.005,训练步长step=10;Actor的神经网络结构为三层全连接层,神经元个数呈300-200-100的递减趋势;Critic的神经网络结构也为三层全连接层,神经元个数呈100-50-25的递减趋势;Actor-Critic训练过程中的奖励函数定义为:
Figure BDA0002703439440000052
3.2)根据当前车辆队列-信号灯状态的集合{Vk,Sk},奖励值rk以及下一时刻的车辆队列-信号灯状态的集合{Vk+1,Sk+1}更新Critic网络参数w,得到用来评价 Actor执行策略的好坏的指标TD,更新公式如下:
δ←rk+1+γQ(Vt+1,St+1)-Q(Vt,St)
w=w+β*δ*Φ(s,a)
3.3)根据车辆队列-信号灯状态的集合{Vk,Sk},以及动作St和Critic返回的 TD进行Actor网络参数的更新,更新公式如下:
θ=θ+α▽J(θ)
3.4)不断进行迭代更新神经网络,直到迭代次数达到预设的最大迭代次数 M=60000为止,得到优化的信号灯配时方案;
4)根据最终得到的神经网络模型,可以给出基于Actor-Critic的单交叉口信号灯最优配时方案:在现实场景中,根据各车道中车辆的排队信息和当前的灯态,通过下式确定下一个状态所需的信号灯状态信息:
Snext=argmax(Q(Vnow,Snow))。
其中,Snext表示下个时刻要执行的信号灯状态,Vnow表示当前时刻的各个车道车辆的排队长度集合,Snow表示当前时刻的信号灯状态表示,Q(Vnow,Snow)表示由当前时刻的各个车道车辆的排队长度集合和信号灯状态决定的Q值函数, argmax(Q(Vnow,Snow))指的是使Q值函数取到最大值的信号灯状态。
以SUMO仿真软件为实施例,运用以上方法得到了基于Actor-Critic的交通信号控制器,结果显示不论是车辆的平均旅行时间,还是车辆的平均等待时间,甚至是车辆的平均停车次数,都比定时控制有了一定的改善,其中,平均旅行时间减少了15%。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于Actor-Critic的单交叉口交通信号控制方法,其特征在于,所述方法包括以下步骤:
1)对于一段连续时间,每隔相同时间间隔step,获取路网内的所有车辆的位置信息和速度信息,以及信号灯所处的灯态;
2)原始数据预处理,根据车辆的速度信息获取处于停车状态的车辆编号,通过停止车的位置信息获取各条车道上的排队状态信息,最终获取车辆队列-信号灯状态的集合{Vk,Sk},其中,Vk为k时刻各个车道车辆的排队长度集合,Sk为k时刻的信号灯状态,k=1,2,…,N,N为路网中进入交叉口的车道总数;
3)利用车辆队列-信号灯状态的集合{Vk,Sk},根据Actor-Critic的方法,初始化关于策略的目标函数
Figure FDA0003536036060000011
Q(Vt,St)以及St,其中,θ为参数化的策略,τ为一个采样周期,Q(Vt,St)为参数化的值函数;
4)根据最终得到的神经网络模型,可以给出基于Actor-Critic的单交叉口信号灯最优配时方案:在现实场景中,根据各车道中车辆的排队信息和当前的灯态,通过下式确定下一个状态所需的信号灯状态信息:
Snext=argmax(Q(Vnow,Snow))
其中,Snext表示下个时刻要执行的信号灯状态,Vnow表示当前时刻的各个车道车辆的排队长度集合,Snow表示当前时刻的信号灯状态表示,Q(Vnow,Snow)表示由当前时刻的各个车道车辆的排队长度集合和信号灯状态决定的Q值函数,argmax(Q(Vnow,Snow))指的是使Q值函数取到最大值的信号灯状态;
所述步骤3)的实现过程如下:
3.1)首先,设置基本训练参数,奖励折扣γ=0.9,Actor的学习率α=0.001,Critic的学习率β=0.005,训练步长step=10;Actor的神经网络结构为三层全连接层,神经元个数呈300-200-100的递减趋势;Critic的神经网络结构也为三层全连接层,神经元个数呈100-50-25的递减趋势;Actor-Critic训练过程中的奖励函数定义为:
Figure FDA0003536036060000012
3.2)根据当前车辆队列-信号灯状态的集合{Vk,Sk},奖励值rk以及下一时刻的车辆队列-信号灯状态的集合{Vk+1,Sk+1}更新Critic网络参数w,得到用来评价Actor执行策略的好坏的指标TD;更新公式如下:
δ←rk+1+γQ(St+1,At+1)-Q(St,At)
w=w+β*δ*Φ(s,a)
3.3)根据车辆队列-信号灯状态的集合{Vk,Sk},以及动作At和Critic返回的TD进行Actor网络参数的更新;更新公式如下:
Figure FDA0003536036060000021
3.4)不断进行迭代更新神经网络,直到迭代次数达到预设的最大迭代次数M=60000为止,得到优化的信号灯配时方案。
CN202011030399.XA 2020-09-27 2020-09-27 一种基于Actor-Critic的单交叉口交通信号控制方法 Active CN112201060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011030399.XA CN112201060B (zh) 2020-09-27 2020-09-27 一种基于Actor-Critic的单交叉口交通信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011030399.XA CN112201060B (zh) 2020-09-27 2020-09-27 一种基于Actor-Critic的单交叉口交通信号控制方法

Publications (2)

Publication Number Publication Date
CN112201060A CN112201060A (zh) 2021-01-08
CN112201060B true CN112201060B (zh) 2022-05-20

Family

ID=74007321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011030399.XA Active CN112201060B (zh) 2020-09-27 2020-09-27 一种基于Actor-Critic的单交叉口交通信号控制方法

Country Status (1)

Country Link
CN (1) CN112201060B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113246121B (zh) * 2021-04-08 2022-04-08 浙江工业大学 一种基于Actor-Critic深度强化学习的同心管机器人控制方法
CN113269963B (zh) * 2021-05-20 2021-12-10 东南大学 一种基于强化学习的网联车辆信号灯控路口经济通行方法
CN113487860A (zh) * 2021-06-28 2021-10-08 南京云创大数据科技股份有限公司 一种智能交通信号控制方法
CN113628458B (zh) * 2021-08-10 2022-10-04 四川易方智慧科技有限公司 基于群体智能强化学习的交通信号灯优化方法
CN114639255B (zh) * 2022-03-28 2023-06-09 浙江大华技术股份有限公司 一种交通信号控制方法、装置、设备和介质
CN115171408B (zh) * 2022-07-08 2023-05-30 华侨大学 一种交通信号优化控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081035A (zh) * 2019-12-17 2020-04-28 扬州市鑫通智能信息技术有限公司 一种基于q学习的交通信号控制方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428615B (zh) * 2019-07-12 2021-06-22 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置
CN111653106A (zh) * 2020-04-15 2020-09-11 南京理工大学 一种基于深度q学习的交通信号控制方法
CN111696370B (zh) * 2020-06-16 2021-09-03 西安电子科技大学 基于启发式深度q网络的交通灯控制方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081035A (zh) * 2019-12-17 2020-04-28 扬州市鑫通智能信息技术有限公司 一种基于q学习的交通信号控制方法

Also Published As

Publication number Publication date
CN112201060A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN112201060B (zh) 一种基于Actor-Critic的单交叉口交通信号控制方法
WO2021227502A1 (zh) 一种信号交叉口交通信号灯和车辆轨迹控制方法
CN108657189B (zh) 基于bp神经网络和安全距离移线工况自动驾驶转向系统及其控制方法
CN109213148B (zh) 一种基于深度强化学习的车辆低速跟驰决策方法
CN107577234B (zh) 一种驾驶员在环的汽车燃油经济性控制方法
CN110745136A (zh) 一种驾驶自适应控制方法
CN112365714B (zh) 一种智轨通行主支路交叉口交通信号控制方法
CN111028504A (zh) 一种城市快速路智慧交通管控方法和系统
CN110497914A (zh) 自动驾驶的驾驶员行为模型开发方法、设备和存储介质
CN112950965A (zh) 一种用于交叉路口黄灯困境的车速控制和信号灯配时方法
CN111524345B (zh) 一种车辆实时排队长度约束下多目标优化的感应控制方法
CN109064760B (zh) 一种数据驱动的智能鲁棒车速实时规划方法及系统
CN116176572A (zh) 一种基于dqn深度强化学习的汽车紧急避撞控制方法
CN115188204A (zh) 一种异常天气条件下高速公路车道级可变限速控制方法
CN109410608B (zh) 基于卷积神经网络的图片自学习交通信号控制方法
CN112614357B (zh) 一种智能车交叉口左转相位信号优化方法及装置
CN113936475A (zh) 一种多道路资源优化的交通控制方法和系统
CN113487889A (zh) 基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法
CN115083149B (zh) 一种实时监测的强化学习可变时长信号灯控制方法
CN109572697B (zh) 基于模糊控制的特殊路段行进车辆的油门自动控制方法
CN113077642B (zh) 一种交通信号灯控制方法、装置及计算机可读存储介质
CN115426149A (zh) 基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法
CN116597672B (zh) 基于多智能体近端策略优化算法的区域信号灯控制方法
Yang et al. Decision-making in autonomous driving by reinforcement learning combined with planning & control
CN117576904B (zh) 一种由智能网联车辆引导其它车辆高效通过红绿灯的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant