CN113077642B - 一种交通信号灯控制方法、装置及计算机可读存储介质 - Google Patents

一种交通信号灯控制方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN113077642B
CN113077642B CN202110355167.XA CN202110355167A CN113077642B CN 113077642 B CN113077642 B CN 113077642B CN 202110355167 A CN202110355167 A CN 202110355167A CN 113077642 B CN113077642 B CN 113077642B
Authority
CN
China
Prior art keywords
neural network
deep neural
action
distribution
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110355167.XA
Other languages
English (en)
Other versions
CN113077642A (zh
Inventor
褚端峰
袁珊珊
陆丽萍
吴超仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Wurong Technology Co.,Ltd.
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110355167.XA priority Critical patent/CN113077642B/zh
Publication of CN113077642A publication Critical patent/CN113077642A/zh
Application granted granted Critical
Publication of CN113077642B publication Critical patent/CN113077642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/095Traffic lights

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种交通信号灯控制方法、装置及计算机可读存储介质,所述方法包括以下步骤:获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述车辆位置、车辆速度、车辆转向灯色及信号灯色确定状态矩阵;确定动作要素及奖励要素,构建深度神经网络,根据所述状态矩阵、动作要素及奖励要素对所述深度神经网络进行训练,得到基于信号灯动作的深度神经网络模型;重新获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述基于信号灯动作的深度神经网络模型,获取当前信号灯最优动作,根据所述信号灯最优动作控制信号灯,提高了交通信号灯控制的有效性和效率。

Description

一种交通信号灯控制方法、装置及计算机可读存储介质
技术领域
本发明涉及信号灯控制技术领域,尤其涉及一种交通信号灯控制方法、装置及计算机可读存储介质。
背景技术
快速的城市化导致私家车保有量持续增加,路网压力增大,随之而来的交通拥堵已是限制我国各大城市发展面临的公共问题。交叉口作为城市道路交通流汇聚和疏散必经之处,其控制方式的管理成了治理交通问题的重点。在现有路网资源下,如何通过提高对城市路网的智能管理水平来提高路网运行效率,是当下交通信号控制需要解决的关键问题。
人工建模依赖大量专家规则,其策略常伴有局限性,难以满足动态调整的要求。强化学习具有无模型、从真实环境状态中在线学习等优势,能在有限的感知条件下学习拟合出高效的决策,并有广泛的环境适应性,很好地契合了交通的动态特性。人工智能方法中的强化学习算法能够得到良好的学习效果,但是也面临着一些问题,1)现有的强化学习交通信号控制模型大多集中在对基于值函数的方法研究,然而强化学习是基于不确定性马尔科夫环境的,后续动作的奖励遵循一个概率分布,相同的动作值函数背后代表的分布可能是不同的,因此用Q值代替拟合奖励实际上是不准确的,造成了部分信息丢失,使模型难以找到最优策略,2)状态空间通常取整个交叉口,导致状态矩阵较大、训练速度慢;同时未考虑实际交叉口进口道变道问题,笼统获取较大长度范围内的车辆信息不够准确,3)动作设计为每一步中随机选择一个相位,而不考虑其顺序,不符合交通规则中信号灯色是按照顺序变化的规则;同时跳跃式的灯色变化会让司机感到困惑,导致不能提前为下一相位做准备;这些使得交通信号灯控制的有效性和效率较差。
发明内容
有鉴于此,有必要提供一种交通信号灯控制方法、装置及计算机可读存储介质,用以解决现有交通信号控制的有效性和高效性较差的问题。
本发明提供一种交通信号灯控制方法,包括以下步骤:
获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述车辆位置、车辆速度、车辆转向灯色及信号灯色确定状态矩阵;
确定动作要素及奖励要素,构建深度神经网络,根据所述状态矩阵、动作要素及奖励要素对所述深度神经网络进行训练,得到基于信号灯动作的深度神经网络模型;
重新获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述基于信号灯动作的深度神经网络模型,获取当前信号灯最优动作,根据所述信号灯最优动作控制信号灯。
进一步地,所述状态矩阵包括可变道区中车辆位置、车辆速度和信号灯色三个矩阵以及不可变道区中车辆位置、车辆速度和车辆转向灯色三个矩阵的堆叠。
进一步地,所述动作要素为信号灯下一相位是否改变,所述奖励要素为所有进口道上排队车辆的总和与所有出口道上排队车辆总和之差的负值。
进一步地,所述构建深度神经网络具体包括,根据值分布强化学习算法构建深度神经网络,所述深度神经网络的输入为状态矩阵,将所述状态矩阵输入至深度神经网络后,经过两层卷积神经网络提取状态特征,通过激活函数激活,经过全连接层,再次经过激活函数后,经回归输出与动作对应的原子概率。
进一步地,所述根据所述状态矩阵、动作要素及奖励要素对所述深度神经网络进行训练,具体包括:
根据所述状态矩阵、动作要素及奖励要素建立经验池,利用均匀随机采样,从所述经验池中抽取样本数据;设置两个结构相同、参数不同的神经网络,分别形成训练网络和目标网络,根据抽取的样本数据、训练网络和目标网络,对深度神经网络的参数进行更新,完成对深度神经网络的训练。
进一步地,所述根据抽取的样本数据、训练网络和目标网络,对深度神经网络的参数进行更新,具体包括:
将抽取的样本数据输入至训练网络和目标网络中,训练网络拟合当前状态和动作分布,同时目标网络计算出下一状态最佳动作相位分布,将下一状态最佳动作相位分布进行收缩和移位,获取当前目标分布,通过投影操作获取与当前目标分布处在相同支撑向量的目标分布,并将其作为最终目标分布,以当前目标分布与最终目标分布之间的误差最小化为优化目标,对深度神经网络的参数进行更新。
进一步地,所述交通信号灯控制方法还包括,以KL散度表示当前目标分布与最终目标分布之间的误差,所述KL散度为
Figure BDA0003003353500000031
其中,DKL(qθ||p)为KL散度,q(i)为第i个支点当前分布的概率,p(i)为第i个支点目标分布的概率。
进一步地,所述当前目标分布与最终目标分布之间的误差最小化为优化目标,对深度神经网络的参数进行更新,具体包括:以KL散度最小化为优化目标,通过梯度下降法对深度神经网络的参数进行更新,目标函数的梯度为
Figure BDA0003003353500000041
其中,qθ为当前当前状态和动作分布。
本发明还提供了一种交通信号灯控制装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上述任一技术方案所述的交通信号灯控制方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机该程序被处理器执行时,实现如上述任一技术方案所述的交通信号灯控制方法。
与现有技术相比,本发明的有益效果包括:通过获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述车辆位置、车辆速度、车辆转向灯色及信号灯色确定状态矩阵;确定动作要素及奖励要素,构建深度神经网络,根据所述状态矩阵、动作要素及奖励要素对所述深度神经网络进行训练,得到基于信号灯动作的深度神经网络模型;重新获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述基于信号灯动作的深度神经网络模型,获取当前信号灯最优动作,根据所述信号灯最优动作控制信号灯;提高了交通信号灯控制的有效性和效率。
附图说明
图1为本发明提供的交通信号灯控制方法的流程示意图;
图2为本发明提供的进口道划区及矩阵设置示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
实施例1
本发明实施例提供了一种交通信号灯控制方法,其流程示意图,如图1所示,所述方法包括以下步骤:
S1、获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述车辆位置、车辆速度、车辆转向灯色及信号灯色确定状态矩阵;
S2、确定动作要素及奖励要素,构建深度神经网络,根据所述状态矩阵、动作要素及奖励要素对所述深度神经网络进行训练,得到基于信号灯动作的深度神经网络模型;
S3、重新获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述基于信号灯动作的深度神经网络模型,获取当前信号灯最优动作,根据所述信号灯最优动作控制信号灯。
一个具体实施例中,对十字路口进行建模,分别定义强化学习三要素,即状态、动作及奖励;状态要素的定义包含车辆位置、车辆速度和车辆转向灯色或信号灯色,把四条进口道划分成网格,同时划分可变道区和不可变道区,不可变道区长度取为可变道区长度的若干倍(例如4倍),可变道区分为左转、直行和右转;
优选的,所述状态矩阵包括可变道区中车辆位置、车辆速度和信号灯色三个矩阵以及不可变道区中车辆位置、车辆速度和车辆转向灯色三个矩阵的堆叠。
具体实施时,状态矩阵为可变道区中车辆位置、车辆速度和信号灯色三个矩阵以及不可变道区中车辆位置、车辆速度和车辆转向灯色三个矩阵的堆叠,进口道划区及矩阵设置示意图,如图2所示,最后构成[矩阵一、矩阵二、矩阵三];图2中,单个网格长度为8m,车辆长度为5m,车辆之间保持最小间距2.5m;图2中的状态矩阵为
Figure BDA0003003353500000051
矩阵一中信号灯色为绿灯的车道网格设为1,红灯车道网格设为0;矩阵二中,在可变道区有车的网格记为1,没有车的网格记为0;在不可变道区考虑车辆转向灯而不考虑信号灯色,同时车辆只可变换到相邻车道;车辆转向灯亮,该位置记为1,否则记为0;将记为1的值堆叠到该车相邻车道可变道区的位置矩阵中;矩阵三中,将车辆转向灯亮的车归一化处理的速度,堆叠到该车相邻车道可变道区的归一化速度矩阵中;
优选的,所述动作要素为信号灯下一相位是否改变,所述奖励要素为所有进口道上排队车辆的总和与所有出口道上排队车辆总和之差的负值。
具体实施时,动作要素的定义是下一相位是否改变,动作要素A=[1,0],其中1表示改变信号灯下一相位,0表示维持当前相位;考虑到人们的驾驶习惯,信号灯以一定顺序循环变化,NSG→NSLG→EWG→EWLG,依次代表南北向路段绿灯、南北向左转绿灯、东西向路段绿灯、东西向左转绿灯;相位不允许维持超过3轮,当相位发生改变时,增加3秒的黄灯;奖励要素的定义为,Reward=-P,P为所有进口道上排队车辆的总和与所有出口道上排队车辆的总和之差,
Figure BDA0003003353500000061
n和m分别表示车流i的进车道和出车道,xn和xm表示进口道和出口道的车辆数;
优选的,所述构建深度神经网络具体包括,根据值分布强化学习算法构建深度神经网络,所述深度神经网络的输入为状态矩阵,将所述状态矩阵输入至深度神经网络后,经过两层卷积神经网络提取状态特征,通过激活函数激活,经过全连接层,再次经过激活函数后,经回归输出与动作对应的原子概率。
一个具体实施例中,根据值分布强化学习算法构建深度神经网络;所述深度神经网络的输入是状态矩阵,经过两层卷积神经网络提取状态特征,应用ReLU激活函数,经过全连接层,应用ReLU激活函数,最后经softmax回归输出与动作对应的原子概率pi(x,a);
优选的,根据所述状态矩阵、动作要素及奖励要素对所述深度神经网络进行训练,具体包括:
根据所述状态矩阵、动作要素及奖励要素建立经验池,利用均匀随机采样,从所述经验池中抽取样本数据;设置两个结构相同、参数不同的神经网络,分别形成训练网络和目标网络,根据抽取的样本数据、训练网络和目标网络,对深度神经网络的参数进行更新,完成对深度神经网络的训练。
一个具体实施例中,训练过程中采用经验回放和目标网络,强化学习过程中,所有的经验(st,at,rt,st+1)都存储在一个可回顾记忆模块(经验池),当记忆模块被填满,旧的经验会被新的经验替代;神经网络样本训练过程采用均匀随机采样,从经验池中抽取一组样本数据,用抽取的数据对网络进行训练;设置两个结构相同、参数不同的网络,即训练网络和目标网络,训练网络用于预测当前交叉口状态下相位动作at的价值分布Z(st,at),每一个训练时间步结束后更新一次网络参数;目标网络用于拟合下一时刻交叉口状态分布Z(st+1,at+1),每执行一定训练步长的迭代,将训练网络参数赋值给目标网络。
优选的,根据抽取的样本数据、训练网络和目标网络,对深度神经网络的参数进行更新,具体包括:
将抽取的样本数据输入至训练网络和目标网络中,训练网络拟合当前状态和动作分布,同时目标网络计算出下一状态最佳动作相位分布,将下一状态最佳动作相位分布进行收缩和移位,获取当前目标分布,通过投影操作获取与当前目标分布处在相同支撑向量的目标分布,并将其作为最终目标分布,以当前目标分布与最终目标分布之间的误差最小化为优化目标,对深度神经网络的参数进行更新。
优选的,所述交通信号灯控制方法还包括,以KL散度表示当前目标分布与最终目标分布之间的误差,所述KL散度为
Figure BDA0003003353500000081
其中,DKL(qθ||p)为KL散度,q(i)为第i个支点当前分布的概率,p(i)为第i个支点目标分布的概率。
一个具体实施例中,训练网络拟合当前分布qθ=Z(st,at),同时目标网络计算出下一状态最佳动作相位分布Z(st+1,at+1),将下一状态最佳动作相位分布Z(st+1,at+1)经过折扣因子γ收缩和rt+1移位,得当前目标分布rt+1+γZ(st+1,at+1),通过投影操作得到与当前目标分布处在相同支撑向量下的目标分布p=φTπZ′(st+1,at+1),两个分布之间的误差用KL散度来表示;
Figure BDA0003003353500000082
其中,DKL(qθ||p)为KL散度,用来衡量当前分布和目标分布之间的误差,Natoms为原子数量。
优选的,当前目标分布与最终目标分布之间的误差最小化为优化目标,对深度神经网络的参数进行更新,具体包括:以KL散度最小化为优化目标,通过梯度下降法对深度神经网络的参数进行更新,目标函数的梯度为
Figure BDA0003003353500000083
其中,qθ为当前当前状态和动作分布。
需要说明的是,深度神经网络模块训练及优化的最终目的是找出一组最优的神经网络参数,使KL散度最小;
Figure BDA0003003353500000091
其中,
Figure BDA0003003353500000092
表示使得KL散度最小时,对应的动作;以最小化KL散度为优化目标,通过梯度下降法对参数进行更新,目标函数的梯度为
Figure BDA0003003353500000093
该模型输出为经softmax计算后得到的2个动作(下一相位是否改变)对应的离散支撑分布,其中期望值最大的动作为当前最优动作
Figure BDA0003003353500000094
a*表示最优动作。动作选择遵循∈-greedy策略,随机概率大于∈时执行最优动作,其他情况选择随机动作;动作选择策略遵循ε-greedy策略,是为了避免模型陷入局优并保证学习率,每次迭代选择过程中产生一个随机数,若随机数小于ε,从动作空间中随机选择动作,若随机数大于ε,执行当前最拟合真实分布的动作。随机数ε由以下公式确定
Figure BDA0003003353500000095
其中,N为训练总回合数,n为当前训练回合数,训练起始,ε较大,动作选择策略偏向对环境的随机探索以积累经验,随着训练次数增加,ε的值随之衰减,动作选择策略偏向Q值最大的动作。
实施例2
本发明实施例提供了一种交通信号灯控制装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如实施例1所述的交通信号灯控制方法。
实施例3
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如实施例1所述的交通信号灯控制方法。
本发明公开了一种交通信号灯控制方法、装置及计算机可读存储介质;通过获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述车辆位置、车辆速度、车辆转向灯色及信号灯色确定状态矩阵;确定动作要素及奖励要素,构建深度神经网络,根据所述状态矩阵、动作要素及奖励要素对所述深度神经网络进行训练,得到基于信号灯动作的深度神经网络模型;重新获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述基于信号灯动作的深度神经网络模型,获取当前信号灯最优动作,根据所述信号灯最优动作控制信号灯;提高了交通信号控制中强化学习过程的学习效率,保证了动作选择的准确性,从而提高了交通信号灯控制的有效性和效率。
本发明技术方案针对实际信号交叉口交通特征及深度强化学习特性,设计了信号控制与交叉口环境的交互方式,并建立基于价值分布的强化学习交通信号决策优化控制模型,可以根据当前状态决定当下交通信号灯控制最优策略;将状态空间划分为可变道区和不可变道区,分别取不同的状态指标,考虑了实际交叉口进口道的变道问题,同时取合适大小的状态矩阵提高了模型训练效率;能够通过与环境交互,连续地感知交通环境的实时状态并自动提取交叉口状态信息;将动作空间设置为信号灯色是否改变,这考虑了实际中信号灯色是按相序变化的规律,同时司机也能提前为下一相位提前做出准备,训练结果更符合实际情况,同时也提高道路交叉口的安全性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种交通信号灯控制方法,其特征在于,包括以下步骤:
获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述车辆位置、车辆速度、车辆转向灯色及信号灯色确定状态矩阵;
确定动作要素及奖励要素,构建深度神经网络,根据所述状态矩阵、动作要素及奖励要素对所述深度神经网络进行训练,得到基于信号灯动作的深度神经网络模型;
重新获取车辆位置、车辆速度、车辆转向灯色及信号灯色,根据所述基于信号灯动作的深度神经网络模型,获取当前信号灯最优动作,根据所述信号灯最优动作控制信号灯;
所述状态矩阵包括可变道区中车辆位置、车辆速度和信号灯色三个矩阵以及不可变道区中车辆位置、车辆速度和车辆转向灯色三个矩阵的堆叠。
2.根据权利要求1所述的交通信号灯控制方法,其特征在于,所述动作要素为信号灯下一相位是否改变,所述奖励要素为所有进口道上排队车辆的总和与所有出口道上排队车辆总和之差的负值。
3.根据权利要求1所述的交通信号灯控制方法,其特征在于,所述构建深度神经网络具体包括,根据值分布强化学习算法构建深度神经网络,所述深度神经网络的输入为状态矩阵,将所述状态矩阵输入至深度神经网络后,经过两层卷积神经网络提取状态特征,通过激活函数激活,经过全连接层,再次经过激活函数后,经回归输出与动作对应的原子概率。
4.根据权利要求1所述的交通信号灯控制方法,其特征在于,所述根据所述状态矩阵、动作要素及奖励要素对所述深度神经网络进行训练,具体包括:
根据所述状态矩阵、动作要素及奖励要素建立经验池,利用均匀随机采样,从所述经验池中抽取样本数据;设置两个结构相同、参数不同的神经网络,分别形成训练网络和目标网络,根据抽取的样本数据、训练网络和目标网络,对深度神经网络的参数进行更新,完成对深度神经网络的训练。
5.根据权利要求4所述的交通信号灯控制方法,其特征在于,所述根据抽取的样本数据、训练网络和目标网络,对深度神经网络的参数进行更新,具体包括:
将抽取的样本数据输入至训练网络和目标网络中,训练网络拟合当前状态和动作分布,同时目标网络计算出下一状态最佳动作相位分布,将下一状态最佳动作相位分布进行收缩和移位,获取当前目标分布,通过投影操作获取与当前目标分布处在相同支撑向量的目标分布,并将其作为最终目标分布,以当前目标分布与最终目标分布之间的误差最小化为优化目标,对深度神经网络的参数进行更新。
6.根据权利要求5所述的交通信号灯控制方法,其特征在于,还包括,以KL散度表示当前目标分布与最终目标分布之间的误差,所述KL散度为
Figure FDA0003589081830000021
其中,DKL(qθ||p)为KL散度,q(i)为第i个支点当前分布的概率,p(i)为第i个支点目标分布的概率。
7.根据权利要求6所述的交通信号灯控制方法,其特征在于,所述当前目标分布与最终目标分布之间的误差最小化为优化目标,对深度神经网络的参数进行更新,具体包括:以KL散度最小化为优化目标,通过梯度下降法对深度神经网络的参数进行更新,目标函数的梯度为
Figure FDA0003589081830000022
其中,qθ为当前当前状态和动作分布。
8.一种交通信号灯控制装置,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-7任一所述的交通信号灯控制方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如权利要求1-7任一所述的交通信号灯控制方法。
CN202110355167.XA 2021-04-01 2021-04-01 一种交通信号灯控制方法、装置及计算机可读存储介质 Active CN113077642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110355167.XA CN113077642B (zh) 2021-04-01 2021-04-01 一种交通信号灯控制方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110355167.XA CN113077642B (zh) 2021-04-01 2021-04-01 一种交通信号灯控制方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113077642A CN113077642A (zh) 2021-07-06
CN113077642B true CN113077642B (zh) 2022-06-21

Family

ID=76614463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110355167.XA Active CN113077642B (zh) 2021-04-01 2021-04-01 一种交通信号灯控制方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113077642B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823099B (zh) * 2021-09-10 2023-03-21 上海商汤智能科技有限公司 信控方案调整方法、装置、设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063796A (zh) * 2010-09-26 2011-05-18 广西工学院 基于无线Mesh自组网的智能交通控制系统及控制方法
CN110264750A (zh) * 2019-06-14 2019-09-20 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CA3097771A1 (en) * 2018-04-20 2019-10-24 The Governing Council Of The University Of Toronto Method and system for multimodal deep traffic signal control
CN110428615A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置
CN111260937A (zh) * 2020-02-24 2020-06-09 武汉大学深圳研究院 一种基于强化学习的十字路口交通信号灯控制方法
CN111653106A (zh) * 2020-04-15 2020-09-11 南京理工大学 一种基于深度q学习的交通信号控制方法
CN112489464A (zh) * 2020-11-19 2021-03-12 天津大学 一种具有位置感知的路口交通信号灯调控方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX344434B (es) * 2011-12-16 2016-12-15 Pragmatek Transp Innovations Inc Aprendizaje por refuerzo de agentes multiples para control de señales de transito adaptable, integrado y conectado en red.

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063796A (zh) * 2010-09-26 2011-05-18 广西工学院 基于无线Mesh自组网的智能交通控制系统及控制方法
CA3097771A1 (en) * 2018-04-20 2019-10-24 The Governing Council Of The University Of Toronto Method and system for multimodal deep traffic signal control
CN110264750A (zh) * 2019-06-14 2019-09-20 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN110428615A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置
CN111260937A (zh) * 2020-02-24 2020-06-09 武汉大学深圳研究院 一种基于强化学习的十字路口交通信号灯控制方法
CN111653106A (zh) * 2020-04-15 2020-09-11 南京理工大学 一种基于深度q学习的交通信号控制方法
CN112489464A (zh) * 2020-11-19 2021-03-12 天津大学 一种具有位置感知的路口交通信号灯调控方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Distributed Cooperative Reinforcement Learning-Based Traffic Signal Control That Integrates V2X Networks’ Dynamic Clustering;Weirong Liu等;《IEEE》;20171031;第66卷(第10期);第8667-8681页 *
基于深度强化学习的城市区域交通信号控制研究;刘洁锐;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20210215;第21-46页 *

Also Published As

Publication number Publication date
CN113077642A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN110032782B (zh) 一种城市级智能交通信号控制系统及方法
CN112365724B (zh) 一种基于深度强化学习的连续交叉口信号协同控制方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN110047278B (zh) 一种基于深度强化学习的自适应交通信号控制系统及方法
CN112099496B (zh) 一种自动驾驶训练方法、装置、设备及介质
CN114038212B (zh) 基于双阶段注意力机制和深度强化学习的信号灯控制方法
CN113257016B (zh) 一种交通信号控制方法、装置以及可读存储介质
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN114360266B (zh) 一种网联车探测状态感知的交叉口强化学习信号控制方法
CN110570672A (zh) 一种基于图神经网络的区域交通信号灯控制方法
CN115019523B (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
CN113077642B (zh) 一种交通信号灯控制方法、装置及计算机可读存储介质
CN111126687A (zh) 一种交通信号的单点离线优化系统及方法
Kao et al. A self-organizing map-based adaptive traffic light control system with reinforcement learning
CN115691167A (zh) 一种基于交叉口全息数据的单点交通信号控制方法
CN114970058A (zh) 一种基于信赖域贝叶斯的大规模网络信号控制优化方法
CN116758767B (zh) 基于多策略强化学习的交通信号灯控制方法
CN111507499B (zh) 预测用模型的构建方法、测试方法、装置及系统
CN114120670A (zh) 用于交通信号控制的方法和系统
CN115331460B (zh) 一种基于深度强化学习的大规模交通信号控制方法及装置
CN115762128B (zh) 一种基于自注意力机制的深度强化学习交通信号控制方法
CN115116240A (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
CN114267191A (zh) 缓解交通拥堵驾驶员控制系统、方法、介质、设备及应用
Xu et al. Research on Optimization of Intersection Signal Control Based on Traffic Flow Forecasting
Tsiougkranas et al. Comparative study on classical and modern ways of traffic signal control with the use of a simulator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231201

Address after: 401135 No. 618 Liangjiang Avenue, Longxing Town, Yubei District, Chongqing

Patentee after: Chongqing Research Institute of Wuhan University of Technology

Address before: 430070 Hubei Province, Wuhan city Hongshan District Luoshi Road No. 122

Patentee before: WUHAN University OF TECHNOLOGY

TR01 Transfer of patent right

Effective date of registration: 20240430

Address after: No. 19 Zhuoyue Road, Longxing Town, Yubei District, Chongqing, 404100 (cluster registration)

Patentee after: Chongqing Wurong Technology Co.,Ltd.

Country or region after: China

Address before: 401135 No. 618 Liangjiang Avenue, Longxing Town, Yubei District, Chongqing

Patentee before: Chongqing Research Institute of Wuhan University of Technology

Country or region before: China