CN112216124A - 一种基于深度强化学习的交通信号控制方法 - Google Patents

一种基于深度强化学习的交通信号控制方法 Download PDF

Info

Publication number
CN112216124A
CN112216124A CN202010978481.9A CN202010978481A CN112216124A CN 112216124 A CN112216124 A CN 112216124A CN 202010978481 A CN202010978481 A CN 202010978481A CN 112216124 A CN112216124 A CN 112216124A
Authority
CN
China
Prior art keywords
network
traffic
value
model
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010978481.9A
Other languages
English (en)
Other versions
CN112216124B (zh
Inventor
刘端阳
申思
沈国江
徐卫
刘志
杨曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010978481.9A priority Critical patent/CN112216124B/zh
Publication of CN112216124A publication Critical patent/CN112216124A/zh
Application granted granted Critical
Publication of CN112216124B publication Critical patent/CN112216124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于深度强化学习的交通信号控制方法,首先采用了近端策略优化和广义优势估计等技术提升了模型的整体性能,其次设计了新的奖励值函数,显著提升了模型的收敛速度,而且,模型生成的信号配时方案相位顺序固定,相邻周期配时差异较小,具有更高的安全性和实用性,最后,训练好的模型可以在实际交通环境中进行持续优化,更好地满足变化的交通需求。基于真实交通流量数据的实验结果表明:该方法能够有效应对平峰和高峰两种流量模式,与其它模型相比,平均排队长度、平均旅行时间和车辆平均延误等常见评价指标明显降低,而且模型收敛的时间也明显缩短。

Description

一种基于深度强化学习的交通信号控制方法
技术领域
本发明涉及智能交通的交通信号控制方法,交通信号控制方法主要用于城市道路交通管理,不仅可以引导和调度交通流,也可以缓解交通拥堵、提高交通通行效率、减少交通事故。
背景技术
交通信号控制是在无法实现道路交通流空间分离的地方,主要是指平面道路交叉口,在时间上给相互冲突的交通流分配通行权的一种交通管理措施。交通信号控制是城市交通管理的重要手段,交通信号控制的水平在很大程度上决定了城市道路网络的运行质量。优质的交通信号控制方法能够有效引导和调度交通流,增加道路交叉口的通行能力、降低道路交叉口碰撞事故的发生率,提高交通系统的整体通行效率;而设计不完善的交通信号控制方法则会降低城市道路利用率、增加车辆延误和加重交通拥堵。
人工智能技术的快速发展,也为交通信号控制带来了新的发展。强化学习(RL:Reinforcement Learning)是机器学习的一个重要分支,它不需要建立环境模型,可以通过智能体与外部环境的不断交互与试错完成顺序决策,能够在时变性和随机性较强的城市道路交通系统中实现高效的自适应控制,由此成为了交通信号控制的研究热点。基于强化学习的交通信号控制方法可以分为两类:第一类方法是基于值函数的强化学习方法,如Q学习、SARSA等方法。这类方法必须依靠状态值函数或状态-动作值函数才能完成决策,但是在实际应用中这类值函数很难准确估计,而且算法时间复杂度与状态和动作空间相关,在面对高维行为空间建模时,就会表现出收敛速度慢和时间复杂度高等缺陷;第二类方法是基于策略的强化学习方法,如策略梯度法,TRPO算法等。虽然这类方法的时间复杂度较低,但采样轨迹方差大、模型训练效率低、模型收敛效果差。
目前,现有的基于强化学习的交通信号控制方法存在以下问题:1)现有方法的交通信号控制效果有待提升。基于值函数的强化学习算法在复杂的城市路网系统中很难训练出准确的值函数,而且状态和动作空间过高时会导致维度灾难;基于策略的强化学习算法时间复杂度较低,但采样轨迹方差大,模型训练效率低且收敛效果差;2)现有方法的可行性和安全性都偏低。目前大多数强化学习方法都采用相位顺序不固定的信号控制方案,这种方案不符合国内的实际交通环境,同时也会引发驾驶员和行人的误解和不满,增加道路交叉口安全事故的发生概率。
发明内容
本发明要克服现有技术的上述不足之处,提供一种基于深度强化学习的交通信号控制方法,适用于城市道路交叉口的自适应信号控制。
本发明采用深度强化学习方法,提出了一种基于行动者-评论家框架的自适应交通信号控制方法,该方法首先采用了近端策略优化和广义优势估计等技术提升了模型的整体性能,其次设计了新的奖励值函数,显著提升了模型的收敛速度,而且,模型生成的信号配时方案相位顺序固定,相邻周期配时差异较小,具有更高的安全性和实用性,最后,训练好的模型可以在实际交通环境中进行持续优化,更好地满足变化的交通需求。基于真实交通流量数据的实验结果表明:该方法能够有效应对平峰和高峰两种流量模式,与其它模型相比,平均排队长度、平均旅行时间和车辆平均延误等常见评价指标明显降低,而且模型收敛的时间也明显缩短。
本发明是通过以下技术方案达到上述目的,即一种基于深度强化学习的交通信号控制方法,具体的实施步骤如下:
(1)建立基于深度强化学习的交通信号控制模型。强化学习是智能体与环境之间不断交互不断试错的学习方法,其基本过程为:智能体获取外部环境的状态信息,依据策略选择合适的执行动作,从而获得相应的奖励,并进入新的状态和下一次交互,整个交互的过程即为智能体的一个轨迹。在强化学习过程中,模型的训练包含若干轮回合,一轮回合包含若干个时间步,一个时间步进行一次交互并生成一个轨迹。智能体的学习目标是通过若干轮回合的交互,学习到最优策略,从而使累积奖励的期望最大化。深度强化学习则是在强化学习基础上,应用深度学习神经网络的方法。具体包括:
s11.定义模型的状态。模型的状态st定义为时间步t时目标道路交叉口各个相位的平均车辆到达数和平均车辆速度,具体如下:
Figure BDA0002686696160000031
Figure BDA0002686696160000032
其中,Ni表示时间步t时相位i中允许通行的车道数量,
Figure BDA0002686696160000033
Figure BDA0002686696160000034
分别表示时间步t时相位i下车道j的车辆到达数和平均车辆速度,
Figure BDA0002686696160000035
Figure BDA0002686696160000036
则分别表示时间步t时相位i的平均车辆到达数和平均车辆速度,相位i的取值范围为[1,P],P是一个信号周期内的相位数,时间步t的取值范围为[0,T-1],T是一轮回合中的时间步数。因此,公式(1)和(2)定义的模型状态空间为S∈R2P,时间步t时的交通状态为
Figure BDA0002686696160000037
且st∈S。
s12.定义模型的动作。模型的动作at定义为时间步t时下一个信号周期的执行动作,而且每个信号周期只有一个执行动作,具体说来,对于包含P个相位的信号控制方案,相位顺序固定,则共有2P+1个可选动作,具体如下:
Figure BDA0002686696160000038
其中,A表示可选动作集合,动作at∈A,
Figure BDA0002686696160000039
表示将下一信号周期中相位i的绿灯时间缩短5秒,
Figure BDA00026866961600000310
表示将下一信号周期中相位i的绿灯时间延长5秒,a0则表示下一信号周期的配时方案保持不变,i的取值范围为[1,P]。说明:不同于其它强化学习算法,本发明的信号相位顺序是固定的,且每次只以5秒的幅度改变某一个相位的绿灯时间,这种方案具有更强的实用性和更高的安全性。
s13.定义模型的奖励值函数。模型的奖励值函数rt定义为时间步t时上一轮回合所有时间步的平均排队长度与当前时间步平均排队长度的差值,具体如下:
Figure BDA0002686696160000041
其中,qk是上一轮回合中某个时间步的平均排队长度,qt是当前时间步t的平均排队长度。说明:奖励值函数的第一项是常量,第二项是变量,这种设计没有增加模型的训练难度,但使得模型在上一轮回合训练的基础上进行优化,提高了训练效率。
s14.设计策略网络、旧策略网络和值函数网络。整个模型采用了行动者-评论家框架,其中,策略网络和旧策略网络属于行动者模块,值函数网络属于评论家模块。策略网络、旧策略网络和值函数网络都包含三层神经网络,即输入层、中间层和输出层,中间层都是带线性整流激活函数的单层全连接层神经网络。策略网络采用了近端策略优化,其目标函数为:
Figure BDA0002686696160000042
其中,
Figure BDA0002686696160000043
是时间步t时的数学期望估计,min()是最小值函数,rt(θ)是时间步t时新旧策略概率比率,具体如下:
Figure BDA0002686696160000044
其中πθ(at|st)表示策略网络中智能体在状态st下选择动作at的概率,代表智能体的当前策略,πoldθ(at|st)表示旧策略网络中智能体在状态st下执行动作at的概率,代表智能体的旧策略,θ和θold分别为策略网络和旧策略网络的参数,clip()是修剪函数,用于将rt(θ)的取值限定在[1-ε,1+ε],ε是超参数,如果rt(θ)<1-ε,则rt(θ)=1-ε,如果rt(θ)>1+ε时,则rt(θ)=1+ε,
Figure BDA0002686696160000045
是时间步t时的优势函数估计,采用广义优势估计来计算,具体如下:
Figure BDA0002686696160000051
其中,优势函数估计是按批进行处理,B是每批处理的轨迹数量,mod是取模运算,
Figure BDA0002686696160000052
是通过值函数网络获得的预测值,表示智能体依据策略πθ从状态st出发获得的平均奖励,用于评估智能体状态st的好坏,γ∈[0,1]是折扣因子,用于体现时间延迟对于值函数估计值的影响,λ∈[0,1]是超参数,合理调整λ的取值能够有效平衡状态值函数的方差和偏差。策略网络的输入是道路交叉口状态st,输出是2P+1个动作的概率πθ(at|st)。旧策略网络的输入也是道路交叉口的状态st,输出是2P+1个动作的概率πoldθ(at|st),旧策略网络无需训练,只需要定时复制策略网络参数。值函数网络的目标函数为:
Figure BDA0002686696160000053
其中,公式(8)的第一项是智能体的累积奖励值,即状态值函数的真实值,第二项是值函数网络的预测值,通过最小化二者的差值就可以逐步缩小真实值和预测值之间的差距。值函数网络的输入是道路交叉口的状态st,输出是状态值函数的估计值
Figure BDA0002686696160000054
Figure BDA0002686696160000055
为值函数网络参数。
(2)训练基于深度强化学习的交通信号控制模型,具体包括:
s21.构建交通仿真环境。根据目标道路交叉口的交通环境和车辆流量数据,配置交通仿真软件,建立与目标道路交叉口相似的交通仿真环境,其中,车辆流量数据是指目标道路交叉口在一定时间段内各个车道的车辆流量数据。交通仿真软件负责模拟目标道路交叉口交通环境的运行,生成各个信号周期的交通状态信息。
s22.初始化交通信号控制模型。采用随机方法初始化策略网络、旧策略网络和值函数网络,并初始化算法参数,包括模型训练的最大回合数N、一个回合包含的时间步数T、每一批处理的轨迹数量B、以及策略网络和值函数网络的迭代次数K。
s23.初始化训练回合数。训练回合数初始化为EP=1。
s24.初始化训练时间步数。训练时间步数初始化为t=0。
s25.运行旧策略网络采集轨迹。从交通仿真软件中依次采集目标道路交叉口的交通状态信息作为输入,运行旧策略网络生成相应的动作、奖励和轨迹,输出2P+1个动作的概率πoldθ(at|st),并计算t=t+1。如此循环,直至采集B个轨迹,即一批轨迹,然后执行下一步。
s26.计算优势函数估计并更新策略网络和值函数网络。基于步骤s25采集的B个轨迹,依次把目标道路交叉口的交通状态信息输入策略网络和值函数网络,分别获得2P+1个动作的概率πθ(at|st)和相应的状态值函数估计
Figure BDA0002686696160000061
如此重复,直到处理完B个轨迹。然后,根据步骤s25采集的B个轨迹的奖励值和公式(7),计算优势函数估计
Figure BDA0002686696160000062
再根据公式(5)、(6)和(8),计算策略网络和值函数网络的训练误差,反向传递误差,进行K次迭代,更新策略网络和值函数网络参数。
s27.检查训练时间步数。如果t<T,则执行步骤s25,否则,把策略网络参数复制到旧策略网络,更新旧策略网络参数,完成一轮回合的训练,继续执行下一步。
s28.检查训练回合数。如果EP<N,则计算EP=EP+1,并执行步骤s24,开始新一轮回合的训练,否则,完成交通信号控制模型的训练,继续执行下一步。
(3)信号配时方案的生成和模型的持续优化。利用步骤(2)训练好的交通信号控制模型,以目标道路交叉口的当前交通状态信息为输入,基于旧策略网络选择相应的动作,生成下一个信号周期的信号配时方案并实施。同时,交通信号控制模型将在实际交通环境中继续进行训练和优化,模型的输入是实时的交通状态信息,当训练次数达到一批处理数量时,则重新计算优势函数估计,并更新策略网络和值函数网络,当训练次数达到一轮回合处理数量,则更新旧策略网络。如此不断循环,可以持续优化交通信号控制模型,更好地满足道路交叉口信号控制的要求。
优选地,步骤s14中,ε的取值为0.2,γ的最佳取值范围为[0.96,0.99],λ的最佳取值范围为[0.92,0.99]。
本发明的有益效果在于:(1)本发明采用了近端策略优化和广义优势估计等强化学习技术,提升了交通信号控制模型的控制效果,降低了平均排队长度、平均旅行时间和车辆平均延误等指标;(2)本发明提出了新的奖励值函数,提升模型的训练效率;(3)本发明生成的交通信号配时方案相位顺序稳定,而且相邻周期的配时方案变化幅度不大,具有较高的实用性和安全性。
附图说明
图1是本发明方法的总体流程图。
图2为本发明方法的模型训练结构示意图;
具体实施方式
下面结合附图进一步说明本发明的技术方案。
本发明的一种基于深度强化学习的交通信号控制方法,具体的实施步骤如下:
(1)建立基于深度强化学习的交通信号控制模型。强化学习是智能体与环境之间不断交互不断试错的学习方法,其基本过程为:智能体获取外部环境的状态信息,依据策略选择合适的执行动作,从而获得相应的奖励,并进入新的状态和下一次交互,整个交互的过程即为智能体的一个轨迹。在强化学习过程中,模型的训练包含若干轮回合,一轮回合包含若干个时间步,一个时间步进行一次交互并生成一个轨迹。智能体的学习目标是通过若干轮回合的交互,学习到最优策略,从而使累积奖励的期望最大化。深度强化学习则是在强化学习基础上,应用深度学习神经网络的方法。具体包括:
s11.定义模型的状态。模型的状态st定义为时间步t时目标道路交叉口各个相位的平均车辆到达数和平均车辆速度,具体如下:
Figure BDA0002686696160000081
Figure BDA0002686696160000082
其中,Ni表示时间步t时相位i中允许通行的车道数量,
Figure BDA0002686696160000083
Figure BDA0002686696160000084
分别表示时间步t时相位i下车道j的车辆到达数和平均车辆速度,
Figure BDA0002686696160000085
Figure BDA0002686696160000086
则分别表示时间步t时相位i的平均车辆到达数和平均车辆速度,相位i的取值范围为[1,P],P是一个信号周期内的相位数,时间步t的取值范围为[0,T-1],T是一轮回合中的时间步数。因此,公式(1)和(2)定义的模型状态空间为S∈R2P,时间步t时的交通状态为
Figure BDA0002686696160000087
且st∈S。
s12.定义模型的动作。模型的动作at定义为时间步t时下一个信号周期的执行动作,而且每个信号周期只有一个执行动作,具体说来,对于包含P个相位的信号控制方案,相位顺序固定,则共有2P+1个可选动作,具体如下:
Figure BDA0002686696160000088
其中,A表示可选动作集合,动作at∈A,
Figure BDA0002686696160000089
表示将下一信号周期中相位i的绿灯时间缩短5秒,
Figure BDA00026866961600000810
表示将下一信号周期中相位i的绿灯时间延长5秒,a0则表示下一信号周期的配时方案保持不变,i的取值范围为[1,P]。说明:不同于其它强化学习算法,本发明的信号相位顺序是固定的,且每次只以5秒的幅度改变某一个相位的绿灯时间,这种方案具有更强的实用性和更高的安全性。
s13.定义模型的奖励值函数。模型的奖励值函数rt定义为时间步t时上一轮回合所有时间步的平均排队长度与当前时间步平均排队长度的差值,具体如下:
Figure BDA0002686696160000091
其中,qk是上一轮回合中某个时间步的平均排队长度,qt是当前时间步t的平均排队长度。说明:奖励值函数的第一项是常量,第二项是变量,这种设计没有增加模型的训练难度,但使得模型在上一轮回合训练的基础上进行优化,提高了训练效率。
s14.设计策略网络、旧策略网络和值函数网络。整个模型采用了行动者-评论家框架,其中,策略网络和旧策略网络属于行动者模块,值函数网络属于评论家模块。策略网络、旧策略网络和值函数网络都包含三层神经网络,即输入层、中间层和输出层,中间层都是带线性整流激活函数的单层全连接层神经网络。策略网络采用了近端策略优化,其目标函数为:
Figure BDA0002686696160000092
其中,
Figure BDA0002686696160000093
是时间步t时的数学期望估计,min()是最小值函数,rt(θ)是时间步t时新旧策略概率比率,具体如下:
Figure BDA0002686696160000094
其中πθ(at|st)表示策略网络中智能体在状态st下选择动作at的概率,代表智能体的当前策略,πoldθ(at|st)表示旧策略网络中智能体在状态st下执行动作at的概率,代表智能体的旧策略,θ和θold分别为策略网络和旧策略网络的参数,clip()是修剪函数,用于将rt(θ)的取值限定在[1-ε,1+ε],ε是超参数,取值一般为0.2,如果rt(θ)<1-ε,则rt(θ)=1-ε,如果rt(θ)>1+ε时,则rt(θ)=1+ε,
Figure BDA0002686696160000095
是时间步t时的优势函数估计,采用广义优势估计来计算,具体如下:
Figure BDA0002686696160000096
其中,优势函数估计是按批进行处理,B是每批处理的轨迹数量,mod是取模运算,
Figure BDA0002686696160000101
是通过值函数网络获得的预测值,表示智能体依据策略πθ从状态st出发获得的平均奖励,用于评估智能体状态st的好坏,γ∈[0,1]是折扣因子,用于体现时间延迟对于值函数估计值的影响,γ的最佳取值范围为[0.96,0.99],λ∈[0,1]是超参数,合理调整λ的取值能够有效平衡状态值函数的方差和偏差,λ的最佳取值范围为[0.92,0.99]。策略网络的输入是道路交叉口状态st,输出是2P+1个动作的概率πθ(at|st)。旧策略网络的输入也是道路交叉口的状态st,输出是2P+1个动作的概率πoldθ(at|st),旧策略网络无需训练,只需要定时复制策略网络参数。值函数网络的目标函数为:
Figure BDA0002686696160000102
其中,公式(8)的第一项是智能体的累积奖励值,即状态值函数的真实值,第二项是值函数网络的预测值,通过最小化二者的差值就可以逐步缩小真实值和预测值之间的差距。值函数网络的输入是道路交叉口的状态st,输出是状态值函数的估计值
Figure BDA0002686696160000103
Figure BDA0002686696160000104
为值函数网络参数。
(2)训练基于深度强化学习的交通信号控制模型,具体包括:
s21.构建交通仿真环境。根据目标道路交叉口的交通环境和车辆流量数据,配置交通仿真软件,建立与目标道路交叉口相似的交通仿真环境,其中,车辆流量数据是指目标道路交叉口在一定时间段内各个车道的车辆流量数据。交通仿真软件负责模拟目标道路交叉口交通环境的运行,生成各个信号周期的交通状态信息。
s22.初始化交通信号控制模型。采用随机方法初始化策略网络、旧策略网络和值函数网络,并初始化算法参数,包括模型训练的最大回合数N、一个回合包含的时间步数T、每一批处理的轨迹数量B、以及策略网络和值函数网络的迭代次数K。
s23.初始化训练回合数。训练回合数初始化为EP=1。
s24.初始化训练时间步数。训练时间步数初始化为t=0。
s25.运行旧策略网络采集轨迹。从交通仿真软件中依次采集目标道路交叉口的交通状态信息作为输入,运行旧策略网络生成相应的动作、奖励和轨迹,输出2P+1个动作的概率πoldθ(at|st),并计算t=t+1。如此循环,直至采集B个轨迹,即一批轨迹,然后执行下一步。
s26.计算优势函数估计并更新策略网络和值函数网络。基于步骤s25采集的B个轨迹,依次把目标道路交叉口的交通状态信息输入策略网络和值函数网络,分别获得2P+1个动作的概率πθ(at|st)和相应的状态值函数估计
Figure BDA0002686696160000111
如此重复,直到处理完B个轨迹。然后,根据步骤s25采集的B个轨迹的奖励值和公式(7),计算优势函数估计
Figure BDA0002686696160000112
再根据公式(5)、(6)和(8),计算策略网络和值函数网络的训练误差,反向传递误差,进行K次迭代,更新策略网络和值函数网络参数。
s27.检查训练时间步数。如果t<T,则执行步骤s25,否则,把策略网络参数复制到旧策略网络,更新旧策略网络参数,完成一轮回合的训练,继续执行下一步。
s28.检查训练回合数。如果EP<N,则计算EP=EP+1,并执行步骤s24,开始新一轮回合的训练,否则,完成交通信号控制模型的训练,继续执行下一步。
(3)信号配时方案的生成和模型的持续优化。利用步骤(2)训练好的交通信号控制模型,以目标道路交叉口的当前交通状态信息为输入,基于旧策略网络选择相应的动作,生成下一个信号周期的信号配时方案并实施。同时,交通信号控制模型将在实际交通环境中继续进行训练和优化,模型的输入是实时的交通状态信息,当训练次数达到一批处理数量时,则重新计算优势函数估计,并更新策略网络和值函数网络,当训练次数达到一轮回合处理数量,则更新旧策略网络。如此不断循环,可以持续优化交通信号控制模型,更好地满足道路交叉口信号控制的要求。
如附图1,本发明方法的总体流程图。首先,建立基于深度强化学习的交通信号控制模型。定义模型的状态、动作和奖励值函数,并设计策略网络、旧策略网络和值函数网络。其次,训练基于深度强化学习的交通信号控制模型。在构建交通仿真环境的基础上,初始化交通信号控制模型和相关算法参数,包括模型训练的最大回合数N、一个回合包含的时间步数T、每一批处理的轨迹数量B、以及策略网络和值函数网络的迭代次数K、训练回合数EP和训练时间步数t等,随后运行旧策略网络从交通仿真软件中采集B个轨迹,并在此基础上,计算优势函数估计并更新策略网络和值函数网络,检查训练时间步数t,如果t<T,则重复运行旧策略网络采集轨迹,否则,复制策略网络参数至旧策略网络,更新旧策略网络参数,完成一轮回合的训练,再检查训练回合数EP,如果EP<N,则重新初始化训练时间步数t,开启新一轮回合的训练,直到训练回合数满足要求,则完成交通信号控制模型的训练。最后,使用交通信号控制模型并持续优化。根据实际交通环境中的当前交通状态信息,运行旧策略网络选择相应动作,生成下一个信号周期的信号配时方案并实施。同时,交通信号控制模型也将在此次输入的实时交通状态信息的基础上,继续进行训练和优化,当训练次数达到相应数量时,进行相应的更新操作和处理,持续不断地优化模型,更好地满足道路交叉口信号控制的要求。
如附图2,本发明方法的模型训练结构示意图。由策略网络、旧策略网络和值函数网络组成的深度神经网络是整个模型的智能体,它从仿真交叉口环境中获取交通状态信息st,并根据策略选择合适的执行动作at,从而获得相应的奖励值rt,这就是智能体与环境交互的一次轨迹。智能体不断地与环境进行交互,通过神经网络的迭代更新和学习,可以优化策略直到最优策略,实现累积奖励值的最大化。策略网络、旧策略网络和值函数网络都包含三层神经网络,即输入层、中间层和输出层,中间层都是带线性整流激活函数的单层全连接层神经网络。三个网络的输入都是道路交叉口状态st,策略网络的输出是2P+1个动作的概率πθ(at|st),θ为策略网络参数,旧策略网络的输出是2P+1个动作的概率πoldθ(at|st),θold为旧策略网络参数,值函数网络的输出是状态值函数的估计值
Figure BDA0002686696160000121
Figure BDA0002686696160000122
为值函数网络参数。策略网络和旧策略网络是行动者模块,策略网络采用了近端策略优化,改进了目标函数,减少了时间复杂度,提高了样本利用率,优化了模型训练效果。旧策略网络则不需要训练,只需要定时复制策略网络参数,但整个模型的决策是由旧策略网络作出的。值函数网络是评论家模块,目标函数是缩小状态值函数真实值和预测值之间的差距,可以对策略网络的决定进行评价,值函数网络的预测值用于优势函数估计,优势函数估计采用广义优势估计方法,可以提高模型的收敛速度,提升模型的训练效率。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (2)

1.一种基于深度强化学习的交通信号控制方法,包括如下步骤:
(1)建立基于深度强化学习的交通信号控制模型,具体包括:
s11.定义模型的状态;模型的状态st定义为时间步t时目标道路交叉口各个相位的平均车辆到达数和平均车辆速度,具体如下:
Figure FDA0002686696150000011
Figure FDA0002686696150000012
其中,Ni表示时间步t时相位i中允许通行的车道数量,
Figure FDA0002686696150000013
Figure FDA0002686696150000014
分别表示时间步t时相位i下车道j的车辆到达数和平均车辆速度,
Figure FDA0002686696150000015
Figure FDA0002686696150000016
则分别表示时间步t时相位i的平均车辆到达数和平均车辆速度,相位i的取值范围为[1,P],P是一个信号周期内的相位数,时间步t的取值范围为[0,T-1],T是一轮回合中的时间步数;因此,公式(1)和(2)定义的模型状态空间为S∈R2P,时间步t时的交通状态为
Figure FDA0002686696150000017
且st∈S;
s12.定义模型的动作;模型的动作at定义为时间步t时下一个信号周期的执行动作,而且每个信号周期只有一个执行动作,具体说来,对于包含P个相位的信号控制方案,相位顺序固定,则共有2P+1个可选动作,具体如下:
Figure FDA0002686696150000018
其中,A表示可选动作集合,动作at∈A,
Figure FDA0002686696150000019
表示将下一信号周期中相位i的绿灯时间缩短5秒,
Figure FDA00026866961500000110
表示将下一信号周期中相位i的绿灯时间延长5秒,a0则表示下一信号周期的配时方案保持不变,i的取值范围为[1,P];
s13.定义模型的奖励值函数;模型的奖励值函数rt定义为时间步t时上一轮回合所有时间步的平均排队长度与当前时间步平均排队长度的差值,具体如下:
Figure FDA0002686696150000021
其中,qk是上一轮回合中某个时间步的平均排队长度,qt是当前时间步t的平均排队长度;
s14.设计策略网络、旧策略网络和值函数网络;整个模型采用了行动者-评论家框架,其中,策略网络和旧策略网络属于行动者模块,值函数网络属于评论家模块;策略网络、旧策略网络和值函数网络都包含三层神经网络,即输入层、中间层和输出层,中间层都是带线性整流激活函数的单层全连接层神经网络;策略网络采用了近端策略优化,其目标函数为:
Figure FDA0002686696150000022
其中,
Figure FDA0002686696150000023
是时间步t时的数学期望估计,min()是最小值函数,rt(θ)是时间步t时新旧策略概率比率,具体如下:
Figure FDA0002686696150000024
其中πθ(at|st)表示策略网络中智能体在状态st下选择动作at的概率,代表智能体的当前策略,πoldθ(at|st)表示旧策略网络中智能体在状态st下执行动作at的概率,代表智能体的旧策略,θ和θold分别为策略网络和旧策略网络的参数,clip()是修剪函数,用于将rt(θ)的取值限定在[1-ε,1+ε],ε是超参数,如果rt(θ)<1-ε,则rt(θ)=1-ε,如果rt(θ)>1+ε时,则rt(θ)=1+ε,
Figure FDA0002686696150000025
是时间步t时的优势函数估计,采用广义优势估计来计算,具体如下:
Figure FDA0002686696150000031
其中,优势函数估计是按批进行处理,B是每批处理的轨迹数量,mod是取模运算,
Figure FDA0002686696150000035
是通过值函数网络获得的预测值,表示智能体依据策略πθ从状态st出发获得的平均奖励,用于评估智能体状态st的好坏,γ∈[0,1]是折扣因子,用于体现时间延迟对于值函数估计值的影响,λ∈[0,1]是超参数,合理调整λ的取值能够有效平衡状态值函数的方差和偏差;策略网络的输入是道路交叉口状态st,输出是2P+1个动作的概率πθ(at|st);旧策略网络的输入也是道路交叉口的状态st,输出是2P+1个动作的概率πoldθ(at|st),旧策略网络无需训练,只需要定时复制策略网络参数;值函数网络的目标函数为:
Figure FDA0002686696150000032
其中,公式(8)的第一项是智能体的累积奖励值,即状态值函数的真实值,第二项是值函数网络的预测值,通过最小化二者的差值就可以逐步缩小真实值和预测值之间的差距;值函数网络的输入是道路交叉口的状态st,输出是状态值函数的估计值
Figure FDA0002686696150000033
Figure FDA0002686696150000034
为值函数网络参数;
(2)训练基于深度强化学习的交通信号控制模型,具体包括:
s21.构建交通仿真环境;根据目标道路交叉口的交通环境和车辆流量数据,配置交通仿真软件,建立与目标道路交叉口相似的交通仿真环境,其中,车辆流量数据是指目标道路交叉口在一定时间段内各个车道的车辆流量数据;交通仿真软件负责模拟目标道路交叉口交通环境的运行,生成各个信号周期的交通状态信息;
s22.初始化交通信号控制模型;采用随机方法初始化策略网络、旧策略网络和值函数网络,并初始化算法参数,包括模型训练的最大回合数N、一个回合包含的时间步数T、每一批处理的轨迹数量B、以及策略网络和值函数网络的迭代次数K;
s23.初始化训练回合数;训练回合数初始化为EP=1;
s24.初始化训练时间步数;训练时间步数初始化为t=0;
s25.运行旧策略网络采集轨迹;从交通仿真软件中依次采集目标道路交叉口的交通状态信息作为输入,运行旧策略网络生成相应的动作、奖励和轨迹,输出2P+1个动作的概率πoldθ(at|st),并计算t=t+1;如此循环,直至采集B个轨迹,即一批轨迹,然后执行下一步;
s26.计算优势函数估计并更新策略网络和值函数网络;基于步骤s25采集的B个轨迹,依次把目标道路交叉口的交通状态信息输入策略网络和值函数网络,分别获得2P+1个动作的概率πθ(at|st)和相应的状态值函数估计
Figure FDA0002686696150000041
如此重复,直到处理完B个轨迹;然后,根据步骤s25采集的B个轨迹的奖励值和公式(7),计算优势函数估计
Figure FDA0002686696150000042
再根据公式(5)、(6)和(8),计算策略网络和值函数网络的训练误差,反向传递误差,进行K次迭代,更新策略网络和值函数网络参数;
s27.检查训练时间步数;如果t<T,则执行步骤s25,否则,把策略网络参数复制到旧策略网络,更新旧策略网络参数,完成一轮回合的训练,继续执行下一步;
s28.检查训练回合数;如果EP<N,则计算EP=EP+1,并执行步骤s24,开始新一轮回合的训练,否则,完成交通信号控制模型的训练,继续执行下一步;
(3)信号配时方案的生成和模型的持续优化;利用步骤(2)训练好的交通信号控制模型,以目标道路交叉口的当前交通状态信息为输入,基于旧策略网络选择相应的动作,生成下一个信号周期的信号配时方案并实施;同时,交通信号控制模型将在实际交通环境中继续进行训练和优化,模型的输入是实时的交通状态信息,当训练次数达到一批处理数量时,则重新计算优势函数估计,并更新策略网络和值函数网络,当训练次数达到一轮回合处理数量,则更新旧策略网络;如此不断循环,可以持续优化交通信号控制模型,更好地满足道路交叉口信号控制的要求。
2.如权利要求1所述的一种基于深度强化学习的交通信号控制方法,其特征在于:步骤s14中,ε的取值为0.2,γ的最佳取值范围为[0.96,0.99],λ的最佳取值范围为[0.92,0.99]。
CN202010978481.9A 2020-09-17 2020-09-17 一种基于深度强化学习的交通信号控制方法 Active CN112216124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010978481.9A CN112216124B (zh) 2020-09-17 2020-09-17 一种基于深度强化学习的交通信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010978481.9A CN112216124B (zh) 2020-09-17 2020-09-17 一种基于深度强化学习的交通信号控制方法

Publications (2)

Publication Number Publication Date
CN112216124A true CN112216124A (zh) 2021-01-12
CN112216124B CN112216124B (zh) 2021-07-27

Family

ID=74048954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010978481.9A Active CN112216124B (zh) 2020-09-17 2020-09-17 一种基于深度强化学习的交通信号控制方法

Country Status (1)

Country Link
CN (1) CN112216124B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819215A (zh) * 2021-01-26 2021-05-18 北京百度网讯科技有限公司 推荐策略训练方法、装置、电子设备及可读存储介质
CN112949933A (zh) * 2021-03-23 2021-06-11 成都信息工程大学 一种基于多智能体强化学习的交通组织方案优化方法
CN113052312A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 深度强化学习模型的训练方法、装置、介质及电子设备
CN113257008A (zh) * 2021-05-12 2021-08-13 兰州交通大学 基于深度学习的行人流量动态控制系统及方法
CN113299069A (zh) * 2021-05-28 2021-08-24 广东工业大学华立学院 一种基于历史误差反向传播的自适应交通信号控制方法
CN113299059A (zh) * 2021-04-08 2021-08-24 四川国蓝中天环境科技集团有限公司 一种数据驱动的道路交通管控决策支持方法
CN113436443A (zh) * 2021-03-29 2021-09-24 东南大学 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
CN114141028A (zh) * 2021-11-19 2022-03-04 哈尔滨工业大学(深圳) 智能红绿灯车流调控系统
CN114495577A (zh) * 2022-01-21 2022-05-13 华设设计集团股份有限公司 预防快速路二次事故的车路协同动态车道控制系统及方法
CN115016263A (zh) * 2022-05-27 2022-09-06 福州大学 连续微流控生物芯片下基于drl的控制逻辑设计方法
CN115291508A (zh) * 2022-06-16 2022-11-04 扬州大学 一种基于分布式深度强化学习的动态公交控制系统及方法
CN115631638A (zh) * 2022-12-07 2023-01-20 武汉理工大学三亚科教创新园 管控区域基于多智能体强化学习的交通灯控制方法及系统
CN116592883A (zh) * 2023-04-25 2023-08-15 三峡大学 一种基于注意力和循环ppo实现的导航决策方法
CN115016263B (zh) * 2022-05-27 2024-06-04 福州大学 连续微流控生物芯片下基于drl的控制逻辑设计方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260708A1 (en) * 2015-11-12 2018-09-13 Deepmind Technologies Limited Asynchronous deep reinforcement learning
US10133275B1 (en) * 2017-03-01 2018-11-20 Zoox, Inc. Trajectory generation using temporal logic and tree search
CN109190720A (zh) * 2018-07-28 2019-01-11 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
CN109299237A (zh) * 2018-09-26 2019-02-01 苏州大学 基于行动者评论家强化学习算法的循环网络人机对话方法
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN110299008A (zh) * 2019-07-19 2019-10-01 浙江工业大学 一种基于强化学习的交通流多步预测方法
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110428615A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260708A1 (en) * 2015-11-12 2018-09-13 Deepmind Technologies Limited Asynchronous deep reinforcement learning
US10133275B1 (en) * 2017-03-01 2018-11-20 Zoox, Inc. Trajectory generation using temporal logic and tree search
CN109190720A (zh) * 2018-07-28 2019-01-11 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
CN109299237A (zh) * 2018-09-26 2019-02-01 苏州大学 基于行动者评论家强化学习算法的循环网络人机对话方法
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN110428615A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置
CN110299008A (zh) * 2019-07-19 2019-10-01 浙江工业大学 一种基于强化学习的交通流多步预测方法
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MOHAMMAD ASLANI ETC.: ""Adaptive traffic signal control with actor-critic methods in a real-world traffic network with different traffic disruption events"", 《TRANSPORTATION RESEARCH PART C: EMERGING TECHNOLOGIES》 *
T. CHU ETC: ""Multi-Agent Deep Reinforcement Learning for Large-Scale Traffic Signal Control"", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》 *
舒凌洲: ""基于深度强化学习的城市道路交通控制算法研究"", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819215B (zh) * 2021-01-26 2024-01-12 北京百度网讯科技有限公司 推荐策略训练方法、装置、电子设备及可读存储介质
CN112819215A (zh) * 2021-01-26 2021-05-18 北京百度网讯科技有限公司 推荐策略训练方法、装置、电子设备及可读存储介质
CN112949933A (zh) * 2021-03-23 2021-06-11 成都信息工程大学 一种基于多智能体强化学习的交通组织方案优化方法
CN112949933B (zh) * 2021-03-23 2022-08-02 成都信息工程大学 一种基于多智能体强化学习的交通组织方案优化方法
CN113436443A (zh) * 2021-03-29 2021-09-24 东南大学 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
CN113052312A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 深度强化学习模型的训练方法、装置、介质及电子设备
CN113299059A (zh) * 2021-04-08 2021-08-24 四川国蓝中天环境科技集团有限公司 一种数据驱动的道路交通管控决策支持方法
CN113257008A (zh) * 2021-05-12 2021-08-13 兰州交通大学 基于深度学习的行人流量动态控制系统及方法
CN113299069A (zh) * 2021-05-28 2021-08-24 广东工业大学华立学院 一种基于历史误差反向传播的自适应交通信号控制方法
CN113299069B (zh) * 2021-05-28 2022-05-13 广东工业大学华立学院 一种基于历史误差反向传播的自适应交通信号控制方法
CN114141028A (zh) * 2021-11-19 2022-03-04 哈尔滨工业大学(深圳) 智能红绿灯车流调控系统
CN114495577A (zh) * 2022-01-21 2022-05-13 华设设计集团股份有限公司 预防快速路二次事故的车路协同动态车道控制系统及方法
CN115016263A (zh) * 2022-05-27 2022-09-06 福州大学 连续微流控生物芯片下基于drl的控制逻辑设计方法
CN115016263B (zh) * 2022-05-27 2024-06-04 福州大学 连续微流控生物芯片下基于drl的控制逻辑设计方法
CN115291508A (zh) * 2022-06-16 2022-11-04 扬州大学 一种基于分布式深度强化学习的动态公交控制系统及方法
CN115291508B (zh) * 2022-06-16 2023-08-29 扬州大学 一种基于分布式深度强化学习的动态公交控制系统及方法
CN115631638A (zh) * 2022-12-07 2023-01-20 武汉理工大学三亚科教创新园 管控区域基于多智能体强化学习的交通灯控制方法及系统
CN116592883A (zh) * 2023-04-25 2023-08-15 三峡大学 一种基于注意力和循环ppo实现的导航决策方法
CN116592883B (zh) * 2023-04-25 2024-04-30 三峡大学 一种基于注意力和循环ppo实现的导航决策方法

Also Published As

Publication number Publication date
CN112216124B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN112216124B (zh) 一种基于深度强化学习的交通信号控制方法
CN112365724B (zh) 一种基于深度强化学习的连续交叉口信号协同控制方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
Liang et al. A deep reinforcement learning network for traffic light cycle control
Casas Deep deterministic policy gradient for urban traffic light control
CN112632858A (zh) 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法
CN109272157A (zh) 一种基于门控神经网络的高速公路交通流参数预测方法及系统
CN112419726B (zh) 一种基于交通流预测的城市交通信号控制系统
CN113643553B (zh) 基于联邦强化学习的多路口智能交通信号灯控制方法及系统
CN110570672B (zh) 一种基于图神经网络的区域交通信号灯控制方法
CN112071062B (zh) 一种基于图卷积网络和图注意力网络的行车时间估计方法
CN116235229A (zh) 自适应周期级交通信号控制的方法和系统
CN113554875B (zh) 一种基于边缘计算的高速公路异质交通流可变限速控制方法
CN112991750B (zh) 基于强化学习与生成式对抗网络的局部交通优化方法
Mashayekhi et al. A multiagent auction-based approach for modeling of signalized intersections
CN115019523B (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
Wu et al. ES-CTC: A deep neuroevolution model for cooperative intelligent freeway traffic control
Huo et al. Cooperative control for multi-intersection traffic signal based on deep reinforcement learning and imitation learning
CN115691167A (zh) 一种基于交叉口全息数据的单点交通信号控制方法
CN115731724A (zh) 一种基于强化学习的区域交通信号配时方法及系统
Shamsi et al. Reinforcement learning for traffic light control with emphasis on emergency vehicles
CN113724507A (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
CN115273502B (zh) 一种交通信号协同控制方法
CN110021168B (zh) 一种车联网下实现实时智能交通管理的分级决策方法
Chen et al. Traffic signal optimization control method based on adaptive weighted averaged double deep Q network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant