CN115273502B - 一种交通信号协同控制方法 - Google Patents
一种交通信号协同控制方法 Download PDFInfo
- Publication number
- CN115273502B CN115273502B CN202210903865.3A CN202210903865A CN115273502B CN 115273502 B CN115273502 B CN 115273502B CN 202210903865 A CN202210903865 A CN 202210903865A CN 115273502 B CN115273502 B CN 115273502B
- Authority
- CN
- China
- Prior art keywords
- network
- agent
- action
- actor
- critic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/081—Plural intersections under common control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提出了一种交通信号协同控制方法,主要解决现有集中式评价MARL方法在交通信号协同控制中各智能体具有相同信誉导致合作效率低的问题。其实现方案为:构建路网交通信号控制仿真环境,获取训练样本集;构建由Critic神经网和Actor神经网络并行排布的DRMA网络模型;设计该网络模型的目标优化函数,为各智能体分配不同的信誉并计算各自在协作中的差异贡献;用训练样本集和目标优化函数对DRMA网络模型进行迭代更新,获得训练好的DRMA模型;用训练好的网络模型从环境中获取交通信号协同控制方案。本发明提高了路网的交通信号协同控制效率,降低了路网的平均车辆行程延迟,可用于城市路网的自适应交通信号控制。
Description
技术领域
本发明属于多智能体强化学习技术领域,特别涉及一种交通信号协同控制方法,可用于城市路网的自适应交通信号控制。
背景技术
目前我国大型城市交通拥堵问题日益严重,更新缓慢的道路基础设施以及无法适应交通流变化的固定相位交通信号灯使得城市路网中的交通流无法被有效疏导从而造成大面积的交通拥堵。针对这一问题,自适应交通信号控制ATSC技术被提出用于应对实时多变的交通流。传统的自适应交通信号控制方法通常是基于时间间隔或时间损耗的。基于时间损耗的控制方法根据路口驶来车辆的时间损失来控制交通信号的相位状态延长。基于时间间隔的方法选择在检测到连续的车流间有足够的时间间隔时切换交通信号相位。
近年来,强化学习RL方法在ATSC领域兴起。与传统的基于时间损失或时间间隔的方法不同,RL采用参数化的网络模型,其输入来自真实的交通场景,输出是通过最大化奖励函数所得到的控制策略。经典的RL方法以Q-learning为代表,采用Q-table存储动作价值,但该方法在高维数据问题中的应用受到限制。针对这一问题,深度神经网络端到端的学习方式被应用于RL算法中,得到改进后的RL算法被称为深度强化学习DRL算法,其在众多复杂的高维数据任务中取得了突破性的表现。深度强化学习DRL可分为两种主要的方法:基于价值的和基于策略的。基于价值的方法,例如深度Q-learning,采用深度神经网络拟合状态价值函数并采用一步时间误差来更新网络参数。基于策略的方法,例如策略迭代和策略梯度,采用深度神经网络对状态价值函数进行参数化,并利用随机梯度下降的优化方法更新其参数。后来,一种AC方法被提出,该方法是基于价值和基于策略两种学习方法的结合体,通过使用Critic网络对每个Actor的动作价值进行评估,并引导他们优化自己的策略。AC方法在价值估计上的方差更小,且比基于策略的方法收敛更快,在交通信号控制方面优于Q-learning方法。
申请公布号为CN112201060A的专利中提出了一种基于AC方法的单交叉口交通信号控制方法,其实现步骤为:获取固定时间间隔的路网车辆位置信息和速度信息,以及对应时刻的信号灯状态;对采集的训练数据进行预处理,获得车辆队列-信号灯状态的集合;利用车辆队列-信号灯状态集,更新Actor网络和Critic网络参数;根据最终的收敛模型,可以得到基于AC的单交叉口交通信号最优配时方案,即下一时刻的最优信号。与现有技术相比,该发明通过人工智能方法,获取了交通运行过程中所隐藏的重要交通信息,最终得到了比传统定时方法通行效率更高的配时方案。但该专利只研究了单交叉路口信号控制问题,无法实现多交叉路口的协同控制,不适用于城市路网。
尽管DRL方法在交通信号控制中表现良好,但对于城市路网,训练所需的联合动作空间随所控制的交通信号灯数量呈指数级增长,极其高维的联合动作空间对于单一集中式的DRL方法在训练上难以达到收敛。在这种情况下,多智能体强化学习MARL方法被提出。该方法在早期采用分布式独立控制的DRL对城市路网中各路口的交通信号进行独立控制。但由于各智能体之间没有通信,每个智能体只考虑最大化自己的回报,在同时与环境交互而不相互协作的情况下,这种早期分布式独立控制的MARL算法在收敛性上表现很差。为了获得更好的收敛性,MARL方法得到了改进,即在分布控制的基础上加入了集中评价机制,主要思想是利用集中式的Critic网络和分布式的Actor网络来控制路网中的交通信号,通过提高每个智能体的环境观测能力使智能体能够在控制策略中考虑彼此的动作,从而实现各路口信号灯控制的有限合作。然而,目前集中式评价的MARL方法仍存在信誉分配问题,即中心Critic网络只能根据联合动作策略向所有智能体返回相同的价值,这样每个智能体单独对全局网络的贡献无法被准确地评估,导致每个智能体的策略改进的方向不准确,因此目前的集中式MARL方法在路网交通信号控制中的合作效率低,导致在交通效率上路网的平均车辆行程延迟较高。
发明内容
本发明目的在于针对上述现有技术的不足,提出一种交通信号协同控制方法,以集中式Critic网络中高效的协作奖励分配机制设计,为路网中分布控制的信号灯智能体提供准确的个体协作策略改进指导,提高信号灯智能体间的合作效率,降低路网的平均车辆行程延迟,实现路网中交通信号的高效协同控制。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)构建路网交通信号控制仿真环境:
构建由路口集合I={I1,I2,…,In,…,IN}及与其对应智能体集合 a={a1,a2,…,an,…,aN}组成的交通信号协同控制场景,其中,N为路口集合中的路口总数,an表示对应N个智能体中的第n个智能体,In表示N个路口中的第n个路口,每个路口中均存在车道集合表示路口In的M个车道中的第m个车道,M为车道集合中的车道总数,0≤n≤N,0≤m≤M,N≥2,M≥2;
(2)获取训练样本集Y:
每个智能体an采集T个时间步长的交通状态信息,每个时间步长的交通状态信息包括:各路口智能体在每个时刻t下的交通状态观察st n、执行动作ut n、执行动作后得到的协作奖励0≤t≤T,用T个时间步长的交通状态信息构成样本规模为N×T的训练样本集Y;
(3)构建DRMA网络模型H:
(3a)建立由7个全连接层依次级联组成的Critic神经网络;
(3b)建立由5个全连接层依次级联组成的Actor神经网络;
(3c)将Critic神经网络和Actor神经网络并行排布构成DRMA网络模型H;
(4)设计DRMA网络模型H的目标优化函数J:
根据路网中的信号灯智能体通过Actor网络π输出策略执行相应动作的机制,采用动作价值Qπ评估智能体在交通状态st下执行动作ut的价值,设计DRMA网络模型H的如下目标优化函数,以使智能体的动作价值Qπ的期望达到最大:
其中,J(θπ)为Actor网络π输出策略条件下路网中智能体动作价值Qπ的期望值,θπ为Actor网络π的神经网络参数;
(5)对DRMA网络模型H进行迭代训练:
(5a)初始化迭代次数为e,最大迭代次数为E,E≥2000,e=1;
(5b)将训练集Y作为DRMA网络模型H的输入,Actor网络根据当前时刻t的联合交通状态信息st输出每个智能体要执行的动作概率分布pθπ,同时Critic网络根据当前时刻 t每个智能体选择执行的动作ut n和联合交通状态信息st评估智能体执行动作ut n后获得的价值Qπ,随后Critic网络根据Qπ得到每个智能体在合作中的个体贡献并反馈给 Actor网络,Actor网络根据每个时刻的/>得到其参数θπ的更新方向/>
(5c)采用梯度上升法并行更新Actor网络参数θπ和Critic网络参数θc,更新过程按照时间步长依次进行,每T个时间步长更新记作一次迭代训练,其中,T≥3000,为一次迭代训练的最大时间步长,执行一次迭代训练后,e=e+1;
(5d)重复执行(5b)和(5c),直到满足e≥E,则训练结束,得到的训练好的DRMA 网络模型为H*;
(6)获取交通信号协同控制方案:
(6a)采集路网当前最新的交通状态信息,构建与(2)中训练样本Y结构相同的测试样本F;
(6b)将测试样本F输入至训练好的DRMA网络模型H*,该模型中的Actor网络根据测试样本F输出每个时刻全局智能体的动作概率分布;
本发明与现有技术相比,具有以下优点:
1)本发明通过集中式Critic网络评估每个智能体在路网交通信号协同控制中不同的个体贡献,对各智能体的Actor网络参数反馈各自相应的改进方向,能够激励各智能体高效地进行协作学习,克服了现有集中式评价方法存在的信誉分配问题,提高了路网中信号灯智能体间的合作效率,降低了路网的平均车辆行程延迟。
2)本发明在所构建的训练样本中对各智能体的奖励进行了空间加权以加强各彼此间的合作,通过该空间加权奖励,各智能体能够接收周围邻居在同一时刻所执行的动作以及返回的奖励,将彼此独立的奖励机制相互耦合,进一步加强了智能体在路网交通信号控制中的协作效率。
附图说明
图1为本发明的实现流程图;
图2为本发明中DRMA网络模型H的结构示意图;
图3为分别用本发明和现有方法对目标路网进行交通信号控制的仿真对比图;
图4为分别用本发明和现有方法对目标路网进行车辆行程延迟的仿真对比图。
具体实施方式
具体实现方式
以下结合附图对本发明的实施例和效果进一步详细描述。
参照图1,本实例的实现步骤如下:
步骤1,构建路网交通信号控制仿真环境。
构建由路口集合I及与其对应智能体集合a组成的交通信号协同控制场景,公式表示如下:
I={I1,I2,…,In,…,IN}
a={a1,a2,…,an,…,aN}
其中,N为路口集合中的路口总数,an表示对应N个智能体中的第n个智能体,In表示N个路口中的第n个路口,每个路口中均存在车道集合Ln,公式表示如下:
本实施例中,采用LuST城市路网作为交通信号控制场景,K=22,M=24。
步骤2,获取训练样本集Y。
式中,st n记作智能体an在时刻t下的交通状态观察;
2.2)采集智能体an在时刻t下的执行动作ut n,即该时刻交通灯的相位信号动作,本实施例中,交通灯的信号动作采用8相位模式;
式中,rt n记作智能体an在t时刻执行动作后收到的奖励;
2.6)对N个智能体重复进行步骤2.1)至步骤2.5),按照时间步长共进行T步,本实施例中,T=3600,获得N×T个训练样本,构成训练样本集Y,形式如下:
其中,yn,t表示智能体an在t时刻构建的一个训练样本。
步骤3,构建DRMA网络模型H。
参照图2,本步骤的具体实现如下:
3.1)建立由7个全连接层依次级联组成的Critic神经网络;
该Critic神经网络中顺次级联的7个全连接层为:输入层→第一隐藏层→第二隐藏层→第三隐藏层→第四隐藏层→第五隐藏层→线性输出层;
该Critic神经网络的输入数据是规模为N×M+N维的联合状态向量,五个隐藏层的神经元规模依次为380、250、160、80、20,每个隐藏层的输出均使用ReLU函数激活,输出层输出的数据为N维的联合价值向量。
3.2)建立由5个全连接层依次级联组成的Actor神经网络;
该Actor神经网络中顺次级联的5个全连接层为:输入层→第一隐藏层→第二隐藏层→第三隐藏层→SoftMax输出层;
该Actor神经网络的输入数据是M维的局部交通状态观察向量,三个隐藏层的神经元规模依次为256、128、64,每个隐藏层的输出均使用ReLU函数激活,SoftMax层输出智能体执行动作的概率分布向量;
3.3)将Critic神经网络和Actor神经网络并行排布构成DRMA网络模型H,其中:
Actor网络负责收集局部交通状态并执行局部最优协作控制动作;
Critic网络负责根据全局交通状态对Actor网络输出的动作策略进行价值评估并反馈给Actor网络,为Actor网络提供参数优化方案。
步骤4,设计DRMA网络模型H的目标优化函数J。
根据路网中的信号灯智能体通过Actor网络π输出策略执行相应动作的机制,采用动作价值Qπ评估智能体在交通状态st下执行动作ut的价值,设计DRMA网络模型H的如下目标优化函数,以使智能体的动作价值Qπ的期望达到最大:
其中,J(θπ)为Actor网络π输出策略条件下路网中智能体动作价值Qπ的期望值,θπ为Actor网络π的神经网络参数。
步骤5,对DRMA网络模型H进行迭代训练。
5.1)初始化迭代次数为e,最大迭代次数为E,E≥2000,e=1,本实施例中,E=2000;
5.2.1)将训练集Y作为DRMA网络模型H的输入,Critic网络根据当前时刻t路网中智能体的联合动作ut和全局交通状态信息st计算全局动作价值Qπ:
式中,表示对除智能体an自身外其他智能体在t时刻后的联合动作价值估计,ut=(ut n,ut -n)表示全局的执行动作分为两个部分:自身执行动作ut n和其他智能体的执行动作集合ut -n,/>表示Actor网络根据当前时刻t智能体an的局部观察st n输出执行动作/>的概率分布;
5.3)采用梯度上升法并行更新Actor网络参数θπ和Critic网络参数θc,公式如下:
其中,θ'π为更新后的Actor网络参数,θ'c为更新后的Critic网络参数;为智能体an获得的未来折扣回报期望的梯度,其作为Actor网络的优化步长,βπ为Actor 网络的学习率,/>为Critic网络的优化步长,βc为Critic网络的学习率,本实施例中,βπ=0.05,βc=0.001;δt表示一步时间误差,作为Critic网络进行优化的损失函数,根据空间加权奖励/>和动作价值Qπ计算得到:/>
本步骤的更新过程按照时间步长依次进行,每T个时间步长更新记作一次迭代训练,本实施例中,T=3600,为一次迭代训练的最大时间步长,执行一次迭代训练后,e=e+1;
5.4)重复执行5.2)和5.3),直到满足e≥E,则训练结束,得到的训练好的DRMA 网络模型为H*。
步骤6,获取交通信号协同控制方案。
6.1)采集路网当前最新的交通状态信息,构建与(2)中训练样本Y结构相同的测试样本F;
6.2)将测试样本F输入至训练好的DRMA网络模型H*,该模型中的Actor网络根据测试样本F输出每个时刻全局智能体的动作概率分布;
以下结合仿真对本发明的效果作进一步说明:
一、仿真条件
本发明仿真实验的硬件条件为:Intel Xeon Gold 5218CPU和GEFORCE RTX2080Ti GPU。
本发明仿真实验的软件条件为:Ubuntu20.04操作系统和SUMO1.14.1交通仿真平台。
仿真实验的具体参数如表1所示:
表1:仿真实验参数表
二、仿真实验内容及结果分析:
仿真实验1:在上述仿真条件下,分别使用本发明和现有方法IA2C和MA2C,在目标路网中获取交通信号协同控制方案,结果如图3,其中,纵坐标为全局动作价值Qπ表示所使用方法对路网交通效率提升的收益,横坐标为迭代训练次数;
现有的IA2C方法是一种分布式独立控制的交通信号控制方法,该方法中的每个智能体在路网中彼此独立,只负责优化各自局部的交通信号控制方案,同时与环境交互而不相互协作。
现有的MA2C方法是一种集中式评价的交通信号控制方法,该方法中的每个智能体能够在控制策略中考虑彼此的动作并以此进行协作,每个智能体通过合作收到统一的奖励回报来更新参数,即每个智能体被分配相同的信誉。
从图3可以看出,本发明的训练曲线最先收敛,且收敛后的全局动作价值Qπ最高,表明本发明在交通信号协同控制中的智能体协作效率是最高的,且获得的交通效率提升收益是最大的。
仿真实验2,在上述仿真条件下,分别使用本发明和现有方法IA2C、MA2C和FixedPhase,在目标路网中进行车辆行程延迟对比,结果如图4,其中左侧纵坐标为车辆平均行程延迟D,计算公式为:式中V为路网中导入的最大车辆数,TTi o为每辆车的实际行程时间,TTi f为每辆车的理想行程时间;右侧纵坐标为车辆数,横坐标为时刻。
现有的Fixed Phase方法是一种采用固定相位模型信号的交通灯控制方案。
从图4可以看出,随着路网中车辆数的变化趋势,本发明的交通信号协同控制方案在目标路网中的车辆平均行程延迟是最低的,表明本发明对目标路网的交通疏导是最有效的。
以上描述仅使本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可以在不背离本发明原理、结构的请看下,进行形式和细节上的各中修改和改变,但是这些基于本发明思想的修正和改变仍然在本发明的权利要求保护范围之内。
Claims (6)
1.一种交通信号协同控制方法,其特征在于,包括如下步骤:
(1)构建路网交通信号控制仿真环境:
构建由路口集合I={I1,I2,…,In,…,IN}及与其对应智能体集合a={a1,a2,…,an,…,aN}组成的交通信号协同控制场景,其中,N为路口集合中的路口总数,an表示对应N个智能体中的第n个智能体,In表示N个路口中的第n个路口,每个路口中均存在车道集合 表示路口In的M个车道中的第m个车道,M为车道集合中的车道总数,0≤n≤N,0≤m≤M,N≥2,M≥2;
(2)获取训练样本集Y:
每个智能体an采集T个时间步长的交通状态信息,每个时间步长的交通状态信息包括:各路口智能体在每个时刻t下的交通状态观察st n、执行动作ut n、执行动作后得到的协作奖励用T个时间步长的交通状态信息构成样本规模为N×T的训练样本集Y;
(3)构建DRMA网络模型H:
(3a)建立由7个全连接层依次级联组成的Critic神经网络;
(3b)建立由5个全连接层依次级联组成的Actor神经网络;
(3c)将Critic神经网络和Actor神经网络并行排布构成DRMA网络模型H;
(4)设计DRMA网络模型H的目标优化函数J:
根据路网中的信号灯智能体通过Actor网络π输出策略执行相应动作的机制,采用动作价值Qπ评估智能体在交通状态st下执行动作ut的价值,设计DRMA网络模型H的如下目标优化函数,以使智能体的动作价值Qπ的期望达到最大:
其中,J(θπ)为Actor网络π输出策略条件下路网中智能体动作价值Qπ的期望值,θπ为Actor网络π的神经网络参数;
(5)对DRMA网络模型H进行迭代训练:
(5a)初始化迭代次数为e,最大迭代次数为E,E≥2000,e=1;
(5c)采用梯度上升法并行更新Actor网络参数θπ和Critic网络参数θc,更新过程按照时间步长依次进行,每T个时间步长更新记作一次迭代训练,其中,T≥3000,为一次迭代训练的最大时间步长,执行一次迭代训练后,e=e+1;
(5d)重复执行(5b)和(5c),直到满足e≥E,则训练结束,得到的训练好的DRMA网络模型为H*;
(6)获取交通信号协同控制方案:
(6a)采集路网当前最新的交通状态信息,构建与(2)中训练样本Y结构相同的测试样本F;
(6b)将测试样本F输入至训练好的DRMA网络模型H*,该模型中的Actor网络根据测试样本F输出每个时刻全局智能体的动作概率分布;
2.根据权利要求1所述的方法,其特征在于,步骤(2)中用T个时间步长的交通状态信息构成样本规模为N×T的训练样本集Y,实现如下:
其中,M为每个路口具有的车道总数,st n记作智能体an在时刻t下的交通状态观察;
(2b)采集智能体an在时刻t下的执行动作ut n,即该时刻交通灯的相位动作;
其中,rt n记作智能体an在t时刻执行动作后收到的奖励;
(2f)对N个智能体重复进行(2a)至(2e),按照时间步长共进行T步,获得N×T个训练样本,构成训练样本集Y,形式如下:
其中,yn,t表示智能体an在t时刻构建的一个训练样本。
3.根据权利要求1所述的方法,其特征在于,步骤(3a)中建立由7个全连接层依次级联组成的Critic神经网络,具体结构和参数如下:
该Critic神经网络中顺次级联的7个全连接层为:输入层→第一隐藏层→第二隐藏层→第三隐藏层→第四隐藏层→第五隐藏层→线性输出层;
该Critic神经网络的输入数据是规模为N×M+N维的联合状态向量,五个隐藏层的神经元规模依次为380、250、160、80、20,每个隐藏层的输出均使用ReLU函数激活,输出层输出的数据为N维的联合价值向量。
4.根据权利要求1所述的方法,其特征在于,步骤(3b)中建立由5个全连接层依次级联组成的Actor神经网络,具体结构和参数如下:
该Actor神经网络中顺次级联的5个全连接层为:输入层→第一隐藏层→第二隐藏层→第三隐藏层→SoftMax输出层;
该Actor神经网络的输入数据是M维的局部交通状态观察向量,三个隐藏层的神经元规模依次为256、128、64,每个隐藏层的输出均使用ReLU函数激活,SoftMax层输出智能体执行动作的概率分布向量。
表示智能体an在t时刻根据全局的交通状态观察st和全局的执行动作ut计算得出的自身个体贡献,其计算为/>式中,ut=(ut n,ut -n)表示全局的执行动作ut分为两个部分:自身执行动作ut n和其他智能体的执行动作集合ut -n,Qπ(st,ut)表示对全局智能体在t时刻后执行动作的价值估计,表示对除智能体an自身外其他智能体在t时刻后执行动作的价值估计,两者之差即为t时刻智能体an在协同控制中的个体贡献/>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210903865.3A CN115273502B (zh) | 2022-07-28 | 2022-07-28 | 一种交通信号协同控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210903865.3A CN115273502B (zh) | 2022-07-28 | 2022-07-28 | 一种交通信号协同控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115273502A CN115273502A (zh) | 2022-11-01 |
CN115273502B true CN115273502B (zh) | 2023-06-30 |
Family
ID=83771779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210903865.3A Active CN115273502B (zh) | 2022-07-28 | 2022-07-28 | 一种交通信号协同控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115273502B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116056285B (zh) * | 2023-03-23 | 2023-06-23 | 浙江芯源交通电子有限公司 | 一种基于神经元电路的信号灯控制系统及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487860A (zh) * | 2021-06-28 | 2021-10-08 | 南京云创大数据科技股份有限公司 | 一种智能交通信号控制方法 |
WO2022126940A1 (zh) * | 2020-12-20 | 2022-06-23 | 东南大学 | 一种重型营运车辆的后向防撞驾驶决策方法 |
-
2022
- 2022-07-28 CN CN202210903865.3A patent/CN115273502B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022126940A1 (zh) * | 2020-12-20 | 2022-06-23 | 东南大学 | 一种重型营运车辆的后向防撞驾驶决策方法 |
CN113487860A (zh) * | 2021-06-28 | 2021-10-08 | 南京云创大数据科技股份有限公司 | 一种智能交通信号控制方法 |
Non-Patent Citations (1)
Title |
---|
基于超级网络的空铁联合交通流分布模型;戴福青;庞笔照;袁婕;赵元棣;;武汉理工大学学报(交通科学与工程版)(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115273502A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112216124B (zh) | 一种基于深度强化学习的交通信号控制方法 | |
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN112365724B (zh) | 一种基于深度强化学习的连续交叉口信号协同控制方法 | |
Abdulhai et al. | Reinforcement learning: Introduction to theory and potential for transport applications | |
CN109215355A (zh) | 一种基于深度强化学习的单点交叉口信号配时优化方法 | |
CN113643553B (zh) | 基于联邦强化学习的多路口智能交通信号灯控制方法及系统 | |
CN113223305B (zh) | 基于强化学习的多路口交通灯控制方法、系统及存储介质 | |
Ge et al. | Multi-agent transfer reinforcement learning with multi-view encoder for adaptive traffic signal control | |
CN113436443B (zh) | 一种基于生成对抗网络和强化学习的分布式交通信号控制方法 | |
CN113538910A (zh) | 一种自适应的全链条城市区域网络信号控制优化方法 | |
CN110444022A (zh) | 交通流数据分析模型的构建方法和装置 | |
CN115273502B (zh) | 一种交通信号协同控制方法 | |
CN112071062A (zh) | 一种基于图卷积网络和图注意力网络的行车时间估计方法 | |
Zhang et al. | Independent reinforcement learning for weakly cooperative multiagent traffic control problem | |
CN113780624A (zh) | 一种基于博弈均衡理论的城市路网信号协调控制方法 | |
CN115731724A (zh) | 一种基于强化学习的区域交通信号配时方法及系统 | |
CN115019523A (zh) | 基于最小化压力差的深度强化学习交通信号协调优化控制方法 | |
CN108944940B (zh) | 基于神经网络的驾驶员行为建模方法 | |
CN117133138A (zh) | 一种多交叉口交通信号协同控制方法 | |
CN116128028A (zh) | 一种连续决策空间组合优化的高效深度强化学习算法 | |
CN115512558A (zh) | 一种基于多智能体强化学习的交通灯信号控制方法 | |
CN113393667B (zh) | 一种基于Categorical-DQN乐观探索的交通控制方法 | |
Li et al. | Multi-intersections traffic signal intelligent control using collaborative q-learning algorithm | |
Huo et al. | Tensor-based cooperative control for large scale multi-intersection traffic signal using deep reinforcement learning and imitation learning | |
CN116137103B (zh) | 基于图元学习和深度强化学习的大规模交通灯信号控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |