CN115762128A - 一种基于自注意力机制的深度强化学习交通信号控制方法 - Google Patents

一种基于自注意力机制的深度强化学习交通信号控制方法 Download PDF

Info

Publication number
CN115762128A
CN115762128A CN202211189215.3A CN202211189215A CN115762128A CN 115762128 A CN115762128 A CN 115762128A CN 202211189215 A CN202211189215 A CN 202211189215A CN 115762128 A CN115762128 A CN 115762128A
Authority
CN
China
Prior art keywords
self
attention mechanism
state
reinforcement learning
signal control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211189215.3A
Other languages
English (en)
Other versions
CN115762128B (zh
Inventor
周大可
任安妮
杨欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202211189215.3A priority Critical patent/CN115762128B/zh
Publication of CN115762128A publication Critical patent/CN115762128A/zh
Application granted granted Critical
Publication of CN115762128B publication Critical patent/CN115762128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于自注意力机制的深度强化学习智能交通信号控制方法,包括路网环境及车流数据建模、深度强化学习算法选择与三要素设计、引入自注意力机制、训练模型的步骤,通过引入自注意力机制,使得神经网络自动地关注重要的状态分量以增强网络的感知能力,提升了信号控制效果,并减少了状态向量设计的难度。

Description

一种基于自注意力机制的深度强化学习交通信号控制方法
技术领域
本发明涉及智能交通控制技术领域,尤其涉及结合深度强化学习方法的交通信号控制方法。
背景技术
当前,城市的交通拥堵问题日趋严重,造成了巨大的经济成本和时间浪费。交通拥堵是由多种因素引起的,如交通超载、车道结构设计不良等。有些因素需要复杂的政策或长期规划。而有效的交通信号控制是提高车道通行效率、缓解交通拥堵最直接、成本最低的途径。
随着人工智能技术的发展,基于强化学习(Reinforcement Learning,RL)的信号控制成为一种很有前途的交通信号控制解决方案。强化学习是一种“试错”的学习方法,通过与环境交互来学习最优策略。在交通信号控制中,可以把一个或几个交叉口看成一个智能体(Agent),智能体观测路网状态后做出决策,通过最大化环境反馈的奖励来学习最优的信号控制方案。受到人脑工作模式的启发,深度学习(Deep Learning,DL)能够把底层特征组合形成更加抽象的高层特征,从而有效地处理高维数据。深度强化学习(DeepReinforcement Learning,DRL)是深度学习和强化学习相结合的产物,它集成了深度学习感知问题上强大的理解能力,以及强化学习的强决策能力,实现了端到端学习,十分适用于交通信号控制领域。
近年来,深度强化学习方法在交通信号灯控制问题上取得了一定的进展。如Zheng等(ZHENG G,XIONG Y,ZANG X,et al.Learning phase competition for traffic signalcontrol[C]//Proceedings of the 28th ACM International Conference onInformation and Knowledge Management.2019:1963-1972.)提出FRAP模型,通过捕捉不同相位信号之间的竞争关系,实现在交通流中翻转、旋转等对称情况的不变性。Jamil等(JAMIL A,GANGULY K K,NOWER N.Adaptive traffic signal control system usingcomposite reward architecture based deep reinforcement learning[J].IETIntelligent Transport Systems,2021:2030-2041)提出了一种复合奖励结构(CRA)来优化多个目标,并提出了一种新的协调方法,以获得整体畅通的交通流。但现有的DRL交通信号控制方法中,仅仅使用传统的深度神经网络,复杂交通场景下其感知能力有限;并且,状态作为强化学习的三要素之一,现有方法中的交通状态的设计难度较大,如何使交通状态的参数设计的更加精准也存在改进空间。
发明内容
发明目的:针对以上缺点,本发明提供一种基于自注意力机制的深度强化学习交通信号控制方法,目的是增强神经网络的感知能力进而提升交通信号控制效果,并且降低了状态向量设计的难度。
为实现上述目的,本发明采用以下技术方案:
一种基于自注意力机制的深度强化学习智能交通信号控制方法,包括如下步骤:
(1)路网环境、车流数据建模;对路网进行建模,建模的路网中包括单交叉口和多交叉口,并在路网建模中模拟车辆的生成;
(2)深度强化学习算法选择与包括状态、动作、奖励的三要素设计;选择基于DQN的DRL模型控制交通信号;
对该DRL模型中的智能体状态的设计为:将车道均匀划分成网格,统计每个网格中车辆的数目作为状态向量,该状态向量作为输入状态,并对应状态设计动作与奖励;其中,智能体的动作为从预定义的动作集中选择动作;
(3)智能体观察环境得到输入状态后,使用自注意力机制层Self Attention-Layer将各条车道的状态向量视为自然语言处理技术中的词分量,显式的捕捉全局状态的关系;将各条车道的若干输入状态经过注意力机制层后形成输出状态;
(4)DQN使用经验回放机制来进行训练学习,将智能体与环境交互获得的样本存入经验池中,从经验池均匀采样批量样本,使用随机梯度下降方法训练深度神经网络得到目标Q网络作为最终控制模型。
进一步的,步骤(1)中,用SUMO仿真软件对交叉口进行建模,每个交叉口都是双向六车道;车流数据包括仿真时长、车辆生成方式、车辆数目以及行驶轨迹,本发明中车辆的生成服从韦伯分布,设置三种车辆密度,分别对应低、中、高三种流量条件,每辆车以一定的概率直行或是转弯。
进一步的,步骤(2)中DRL模型采用DQN,使用经验回放来更新目标Q值,智能体状态如下设计,首先将车道均匀划分成网格,统计每个网格中车辆的数目作为状态向量;动作定义为选择一个可能的绿灯相位,包含4种相位,为南北方向直行和右转绿灯、南北方向左转绿灯、东西方向直行和右转绿灯、东西方向左转绿灯,每个绿灯相位设置最小持续时间与最大持续时间,绿灯和红灯切换期间会执行一定时长的黄灯;奖励定义为相邻时间步的所有车道车辆排队长度之差。
进一步的,步骤(3)中,自注意力机制层将n条车道的d个状态视为n个词的d维分量,输入状态表示为s=(s1,s2,...,sn),si∈Rd,输出状态表示为sam=(s1 am,s2 am,...,sn am),si am∈Rd,其中si和si am分别为经过注意力机制层前、后的第i条车道的d维状态向量;输出状态sam中的分量
Figure BDA0003868524640000031
是由输入状态分量si经过线性变换后并计算其加权和得到:
Figure BDA0003868524640000032
进一步的,步骤(4)中DRL相关超参数包括训练回合数、经验池最小尺寸、最大尺寸、折扣因子;深度Q网络为全连接神经网络,均方误差作为损失函数,选用Adam优化器,相关超参数包括深度、宽度、学习率、批处理大小、训练迭代次数。
有益效果:本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明提出了一种基于自注意力机制的深度强化学习交通信号控制模型,其中的DQN算法在计算效率、算法可靠性和实现难易程度之间取得较好的平衡,适用于各种情景的交通信号灯控制;为了增强控制模型对于复杂交通场景的感知能力,本发明创新性地在DQN中引入了自注意力机制,使得深度神经网络自动地关注重要的状态分量,提升了模型的信号控制效果,并且降低了状态向量设计的难度。
2、在单交叉口、多交叉口的两种交通流量条件下验证了所提模型的有效性,仅仅使用简单的交通状态,本发明的控制效果也有较为显著的提升。车流数据模拟了现实中高低峰的情况,具有工程应用价值。
附图说明
图1是本发明的基于自注意力机制的DRL交通信号控制方法网络结构图。
图2是本发明的以十字交叉口西向车道为例的状态设计图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1所示,一种基于自注意力机制的DRL智能交通信号控制方法,具体步骤如下:
步骤1:用SUMO建模产生交叉口模型,交叉口为双向6车道,车道长500m,沿着车辆的行驶方向,左边车道为左转车道,中间车道为直行车道,右边车道为直行加右转车道。车流数据包括车辆生成方式、仿真时长、车辆数目和行驶轨迹。本发明中车辆的生成服从韦伯分布,可以模拟现实生活中交通高低峰的情形,具有工程应用价值,其概率密度函数为:
Figure BDA0003868524640000041
其中λ是比例参数,设定为1,δ是形状参数,设定为2。仿真一个回合数为300回,车辆数目设为1000、2000、3000,分别对应低、中、高三种流量条件。车辆长度为5m,加速度为1m/s2,最大速度为50km/h,进入路网速度为36km/h,车辆之间的最小间距为2.5m,车辆行驶时以75%的概率直行,12.5%的概率左转,12.5%的概率右转。
步骤2:本发明以深度Q网络(Deep Q-Network,DQN)为基准算法,该网络主要结合了值函数近似和神经网络技术,并采用了目标网络和经历回放的方法进行训练。
接下来定义强化学习的三要素:状态、动作和奖励。
本发明中,由于使用自注意力机制,可以使用简单方法来设计状态向量。如图2所示,以双向6车道、长为500米的单交叉口的西进口道为例,该西进口道分成两条车道,左转车道看成一条车道,其余两条车道整体看成另一条车道;将两条车道分割成长度相同的d个(本发明中d=10)网格,则第i条车道对应的状态向量为si=(si1,si2,...,sid),si∈Rd,其中标量sij代表第i条车道的第j个网格中的车辆数量。该单交叉口共有n(该例中n=8)条车道,因此,其状态向量为:s=(s1,s2,...,sn),s∈Rnd
智能体在获得状态s后,根据一定的策略从预定义的动作集中选择动作a。本发明动作集合包含4个动作(相位),即南北方向直行和右转绿灯、南北方向左转绿灯、东西方向直行和右转绿灯、东西方向左转绿灯。每个相位的最短持续时间设为10s,同时为了交通安全,绿灯和红灯切换期间会有时长3s的黄灯。
智能体在t时刻执行动作后,得到环境对该动作的奖励。t时刻奖励定义为相邻时间步的所有车道车辆排队长度之差:
rt=αqt-qt+1 (2)
其中,qt表示t时刻路网中所有车道的排队长度之和,α为折扣系数,通过经验和多次实验后设为0.9。
在本实施例中,对于多交叉口情况,采用多智能体强化学习(Multi-AgentReinforcement Learning,MARL)的方法控制交通信号,每个交叉口的交通信号都由一个智能体控制,采用状态信息交互和空间折扣因子来实现多智能体协作。以2×2的井字形路网为例,对于左上方的交叉口,其智能体的输入状态除了当地交叉口的交通信息,还包括右上方交叉口以及左下方交叉口相连车道的交通信息;其t时刻奖励为所有相邻交叉口奖励的加权和,表示为:
rt=β1rt tl2rt tr3rt ll4rt lr (3)
其中rt表示t时刻左上方交叉口智能体的奖励,rt tl、rt tr、rt ll和rt lr分别表示各交叉口独立情况下左上、右上、左下、右下交叉口的奖励,β1、β2、β3、β4表示加权系数,本发明中分别定义为0.5、0.2、0.2、0.1。
步骤3:智能体观察环境得到输入状态后,本发明使用自注意力机制层SelfAttention-Layer(SAL)将各条车道的状态视为NLP(自然语言处理技术)中的词分量,显式的捕捉全局状态的关系,从而增加状态表达准确度。
自注意力机制层将n条车道的d个状态视为n个词的d维分量(本发明中n设为8,d设为10),输入状态(Input state)表示为s=(s1,s2,...,sn),si∈Rd;Rd,代表d维实向量,输出状态(state)表示为sam=(s1 am,s2 am,...,sn am),si am∈Rd,其中si和si am分别为经过注意力机制层前、后的第i条车道的d维状态向量。自注意力机制层中,Q、K、V分别表示query、key、value,它们是用于计算注意力分数的高维向量,dk为其维度(本发明中dk设为64)。Q,K,V分别定义如下:
Qi=Wqsi T (4)
Ki=Wksi T (5)
Vi=Wvsi T (6)
其中,T代表转置运算,
Figure BDA0003868524640000051
Wv∈Rd×d是在训练过程中学习得到的权重矩阵。
接下来对每一个Qi和Kj做Attention计算,如图1所示,其中的αi,j定义为:
Figure BDA0003868524640000052
输出状态sam中的分量
Figure BDA0003868524640000053
是由输入状态分量si经过线性变换后并计算其加权和得到:
Figure BDA0003868524640000061
上式中,首先计算相似度Qi TKj,再除以
Figure BDA0003868524640000062
这样可以使渐变更加稳定,接着用softmax函数归一化,最后乘以权值Vj。图1中,α′i,j是αi,j经过softmax函数归一化后的对应值。
步骤4:DQN使用经验回放机制进行训练学习来更新目标价值网络,将智能体与环境交互获得的样本(sam,a,r,s)存入经验池中,从经验池均匀采样小批量样本,使用随机梯度下降方法训练深度神经网络使其逼近Q值,随机采样能够打破样本间的强相关性,使训练收敛稳定。在本实施例中,DRL训练的相关超参数设置如下:训练回合数为300、经验池最小尺寸为600、最大尺寸为50000、折扣因子为0.75。Q网络为全连接神经网络,使用均方误差损失函数,选用Adam优化器,相关参数设置如下:隐藏层数为400、学习率为0.001、批处理大小为100、训练迭代次数为800。
在DQN模型中,使用神经网络得到最佳Q函数:
Figure BDA0003868524640000063
其中,γ为衰减系数。智能体在观察状态sam并采取动作a后,通过行为策略π=P(a|sam),以得到的最大累积奖励。
当前Q网络用Q(sam,a;θi)表示,目标Q网络用Q′(sam,a';θi -)表示,其中θi和θi -表示第i次迭代的网络参数。DQN的误差函数为:
Figure BDA0003868524640000064
其中,(sam,a,r,s)表示经验数据,U(D)表示经验数据的回放记忆单元。在训练过程中,DQN从回放记忆单元中随机少量地抽取经验数据进行训练,误差函数对参数θ求偏导得到:
Figure BDA0003868524640000065
其中,
Figure BDA0003868524640000066
神经网络的参数采用梯度下降的方式进行更新。
模型训练完成后,用SUMO生成的车流数据对上述训练好的模型进行测试:将上述实施例中形成训练好的模型相比于著名的基于深度强化学习的CRA模型(Jamil等.IETIntelligent Transport Systems,2021:2030-2041),本发明中的模型在队列长度、等待时间、燃油消耗、CO2排放这四个交通指标上,分别减小了14.71%、14.78%、6.98%、6.97%,能够实现预期的技术效果。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (5)

1.一种基于自注意力机制的深度强化学习智能交通信号控制方法,其特征在于,包括如下步骤:
(1)路网环境、车流数据建模;对路网进行建模,建模的路网中包括单交叉口和多交叉口,并在路网建模中模拟车辆的生成;
(2)深度强化学习算法选择与包括状态、动作、奖励的三要素设计;选择基于DQN的DRL模型控制交通信号;
对该DRL模型中的智能体状态的设计为:将车道均匀划分成网格,统计每个网格中车辆的数目作为状态向量,该状态向量作为输入状态,并设计动作与奖励;其中,智能体的动作为从预定义的动作集中选择动作;
(3)智能体观察环境得到输入状态后,使用自注意力机制层Self Attention-Layer将各条车道的状态向量视为自然语言处理技术中的词分量,显式的捕捉全局状态的关系;将各条车道的输入状态经过注意力机制层处理后形成输出状态;
(4)DQN使用经验回放机制来进行训练学习,将智能体与环境交互获得的样本存入经验池中,从经验池均匀采样批量样本,使用随机梯度下降方法训练深度神经网络得到目标Q网络作为最终控制模型。
2.根据权利要求1所述的基于自注意力机制的深度强化学习智能交通信号控制方法,其特征在于:
步骤(1)中,用SUMO仿真软件对交叉口进行建模,每个交叉口都是双向六车道;车流数据包括仿真时长、车辆生成方式、车辆数目以及行驶轨迹,本发明中车辆的生成服从韦伯分布,设置三种车辆密度,分别对应低、中、高三种流量条件,每辆车以一定的概率直行或是转弯。
3.根据权利要求1所述的基于自注意力机制的深度强化学习智能交通信号控制方法,其特征在于:步骤(2)中DRL模型采用DQN,使用经验回放来更新目标Q值,智能体的状态如下设计,首先将车道均匀划分成网格,统计每个网格中车辆的数目作为状态向量;动作定义为选择一个可能的绿灯相位,包含4种相位,为南北方向直行和右转绿灯、南北方向左转绿灯、东西方向直行和右转绿灯、东西方向左转绿灯,每个绿灯相位设置最小持续时间与最大持续时间,绿灯和红灯切换期间会执行一定时长的黄灯;奖励定义为相邻时间步的所有车道车辆排队长度之差。
4.根据权利要求1所述的基于自注意力机制的深度强化学习智能交通信号控制方法,其特征在于:步骤(3)中,自注意力机制层将n条车道的d个状态视为n个词的d维分量,输入状态表示为s=(s1,s2,...,sn),si∈Rd,输出状态表示为sam=(s1 am,s2 am,...,sn am),si am∈Rd,其中si和si am分别为经过注意力机制层前、后的第i条车道的d维状态向量;输出状态sam中的分量
Figure FDA0003868524630000021
是由输入状态分量si经过线性变换后并计算其加权和得到:
Figure FDA0003868524630000022
5.根据权利要求1所述的基于自注意力机制的深度强化学习智能交通信号控制方法,其特征在于:步骤(4)中DRL相关超参数包括训练回合数、经验池最小尺寸、最大尺寸、折扣因子;深度Q网络为全连接神经网络,均方误差作为损失函数,选用Adam优化器,相关参数包括网络深度、宽度、学习率、批处理大小、训练迭代次数。
CN202211189215.3A 2022-09-28 2022-09-28 一种基于自注意力机制的深度强化学习交通信号控制方法 Active CN115762128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211189215.3A CN115762128B (zh) 2022-09-28 2022-09-28 一种基于自注意力机制的深度强化学习交通信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211189215.3A CN115762128B (zh) 2022-09-28 2022-09-28 一种基于自注意力机制的深度强化学习交通信号控制方法

Publications (2)

Publication Number Publication Date
CN115762128A true CN115762128A (zh) 2023-03-07
CN115762128B CN115762128B (zh) 2024-03-29

Family

ID=85350422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211189215.3A Active CN115762128B (zh) 2022-09-28 2022-09-28 一种基于自注意力机制的深度强化学习交通信号控制方法

Country Status (1)

Country Link
CN (1) CN115762128B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524745A (zh) * 2023-05-10 2023-08-01 重庆邮电大学 一种云边协同区域交通信号动态配时系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059323A (zh) * 2019-04-22 2019-07-26 苏州大学 基于自注意力机制的多领域神经机器翻译方法
CN113963555A (zh) * 2021-10-12 2022-01-21 南京航空航天大学 一种结合状态预测的深度强化学习交通信号控制方法
CN114038212A (zh) * 2021-10-19 2022-02-11 南京航空航天大学 基于双阶段注意力机制和深度强化学习的信号灯控制方法
US20220092973A1 (en) * 2020-09-18 2022-03-24 Soheil MOHAMAD ALIZADEH SHABESTARY Method and system for adaptive cycle-level traffic signal control
CN114627657A (zh) * 2022-03-09 2022-06-14 哈尔滨理工大学 一种基于图深度强化学习的自适应交通信号控制方法
WO2022121510A1 (zh) * 2020-12-11 2022-06-16 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备
KR20220102395A (ko) * 2021-01-13 2022-07-20 부경대학교 산학협력단 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치 및 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059323A (zh) * 2019-04-22 2019-07-26 苏州大学 基于自注意力机制的多领域神经机器翻译方法
US20220092973A1 (en) * 2020-09-18 2022-03-24 Soheil MOHAMAD ALIZADEH SHABESTARY Method and system for adaptive cycle-level traffic signal control
WO2022121510A1 (zh) * 2020-12-11 2022-06-16 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备
KR20220102395A (ko) * 2021-01-13 2022-07-20 부경대학교 산학협력단 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치 및 방법
CN113963555A (zh) * 2021-10-12 2022-01-21 南京航空航天大学 一种结合状态预测的深度强化学习交通信号控制方法
CN114038212A (zh) * 2021-10-19 2022-02-11 南京航空航天大学 基于双阶段注意力机制和深度强化学习的信号灯控制方法
CN114627657A (zh) * 2022-03-09 2022-06-14 哈尔滨理工大学 一种基于图深度强化学习的自适应交通信号控制方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524745A (zh) * 2023-05-10 2023-08-01 重庆邮电大学 一种云边协同区域交通信号动态配时系统及方法
CN116524745B (zh) * 2023-05-10 2024-01-23 重庆邮电大学 一种云边协同区域交通信号动态配时系统及方法

Also Published As

Publication number Publication date
CN115762128B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN112700664B (zh) 一种基于深度强化学习的交通信号配时优化方法
CN110060475B (zh) 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN113110592B (zh) 一种无人机避障与路径规划方法
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN113963555B (zh) 一种结合状态预测的深度强化学习交通信号控制方法
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN104575021B (zh) 基于邻域优化城市路网系统的分布式模型预测控制方法
CN112216108A (zh) 一种基于属性增强的时空图卷积模型的交通预测方法
CN111696370A (zh) 基于启发式深度q网络的交通灯控制方法
CN110570672B (zh) 一种基于图神经网络的区域交通信号灯控制方法
CN111931902A (zh) 一种生成对抗网络模型、及利用该生成对抗网络模型的车辆轨迹预测方法
Wang et al. A genetic timing scheduling model for urban traffic signal control
CN115762128B (zh) 一种基于自注意力机制的深度强化学习交通信号控制方法
Kao et al. A self-organizing map-based adaptive traffic light control system with reinforcement learning
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
Zhang et al. Direction-decision learning based pedestrian flow behavior investigation
CN116758767B (zh) 基于多策略强化学习的交通信号灯控制方法
CN110021168B (zh) 一种车联网下实现实时智能交通管理的分级决策方法
CN115331460B (zh) 一种基于深度强化学习的大规模交通信号控制方法及装置
Zhancheng Research on application of deep reinforcement learning in traffic signal control
CN113077642B (zh) 一种交通信号灯控制方法、装置及计算机可读存储介质
CN114701517A (zh) 基于强化学习的多目标复杂交通场景下自动驾驶解决方法
Faqir et al. Deep q-learning approach for congestion problem in smart cities
Qi et al. Traffic Signal Control with Deep Q-Learning Network (DQN) Algorithm at Isolated Intersection
Wang et al. Research on intelligent traffic control methods at intersections based on game theory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant