CN115035710A - 一种针对稀疏路网的基于q学习的交通信号控制方法 - Google Patents

一种针对稀疏路网的基于q学习的交通信号控制方法 Download PDF

Info

Publication number
CN115035710A
CN115035710A CN202210384148.4A CN202210384148A CN115035710A CN 115035710 A CN115035710 A CN 115035710A CN 202210384148 A CN202210384148 A CN 202210384148A CN 115035710 A CN115035710 A CN 115035710A
Authority
CN
China
Prior art keywords
road network
xml
learning
vehicle
signal control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210384148.4A
Other languages
English (en)
Inventor
龙水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pingjia Technology Co ltd
Original Assignee
Shanghai Pingjia Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pingjia Technology Co ltd filed Critical Shanghai Pingjia Technology Co ltd
Priority to CN202210384148.4A priority Critical patent/CN115035710A/zh
Publication of CN115035710A publication Critical patent/CN115035710A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种针对稀疏路网的基于Q学习的交通信号控制方法,包括以下步骤:路网的建立和车辆数据的生成;建立Q函数的数学表达式;在得到Q函数的数学表达式之后,利用迭代的方法求得Q值;使SUMO模拟平台仿真,使得Q值收敛模拟结束。本方法具有适应道路车流动态变化的自适应控制策略,更加充分的压榨路网性能。同时,基于稀疏路网的特征,假定交叉路口之间的车流数据是相互独立的,这样便可以针对每个交叉路口进行单独的自适应调节,而不需要考虑路口与路口之间的数据共享问题,从最终实现了分布式的信号控制策略,减少了算力资源的需求。

Description

一种针对稀疏路网的基于Q学习的交通信号控制方法
技术领域
本发明涉及一种交通信号控制方法,具体为一种针对稀疏路网的基于Q学 习的交通信号控制方法,属于交通控制技术领域。
背景技术
随着私家车保有量的逐年上升,城市交通拥堵问题也变得日益严重,可 能的缓解逐渐严重的城市拥堵问题的方式是大力修建公共基础设施如地铁和 公交站台或者不断拓展现有路网,但是这种方式往往建设周期长同时成本高 昂。另一种较好的缓解方式是充分压榨现有道路的吞吐能力,最容易想到的 方式就是针对交叉路口的信号控制算法进行优化。同时,现在的城市交叉路 口的配时方式大都基于定时控制的方法,而这种方法固定配时信号的不足, 如难以根据变化的车流量实时调节信号灯的配时策略等缺点。因此对该类方 法进行替换或者改进具有十分重要的现实意义。
发明内容
本发明的目的就在于为了解决问题而提供一种针对稀疏路网的基于Q学 习的交通信号控制方法,通过恰当的选取奖励函数,自适应的调节信号策略 并最终达到提升路网吞吐率的目的。
本发明通过以下技术方案来实现上述目的:一种针对稀疏路网的基于Q 学习的交通信号控制方法,包括以下步骤:
步骤1)路网的建立和车辆数据的生成;
步骤2)建立Q函数的数学表达式;
步骤3)在得到Q函数的数学表达式之后,利用迭代的方法求得Q值;
步骤4)使SUMO模拟平台仿真,使得Q值收敛模拟结束。
作为本发明的进一步技术方案:所述步骤1中,路网的建立和车辆数据 的生成,包括:
路网和车辆数据的生成采用xml文件的形式定义,分别命名为net.xml 和rou.xml,其中net.xml文件表示道路网络信息文件,rou.xml文件表示车 辆路由信息,即车辆流动信息文件;
路网信息的文件采用SUMO自带的绘图工具进行绘制然后保存并最终生成net.xml文件,rou.xml文件自定义车流数据,包括车辆类型和起始点信息。
作为本发明的进一步技术方案:所述步骤2中,建立Q函数的数学表达 式,包括:
某个交叉道口的压力具体定义为:该交叉路口进入车道的车辆排队数目 总数目和离开车道的交叉道口排队总数目,即p(i,t)=nin(i,t)+nout(i,t), 其中:p(i,t)为在t时刻交叉路口i的压强,nin(i,t)为t时刻进入i交叉道 口车道的车辆排队数目,nout(i,t)为t时刻出交叉道口的车辆排队数目;
交叉道口为i,则路口i的压强为p(i)=3+2-1=4,每个智能体/信号控 制器的奖励函数为r=-p;
求得预期回报,即Q函数:
q(s,a)=R(s,a)+γ∑s′∈sP(s′|s,a)∑a′∈Aπ(a′|s′)q(s′,a′) (1)
作为本发明的进一步技术方案:所述步骤3中,在得到Q函数的数学表 达式之后,利用迭代的方法求得Q值,包括:式(1)写成如下的迭代式:
Q(St,At)←Q(St,At)+α[Rt+1+γmaxQ(St+1,At+1)-Q(St,At)];
其中,α为学习率,γ为贴现因子,R为奖励函数。
作为本发明的进一步技术方案:所述步骤4中,使SUMO模拟平台仿真, 使得q值收敛模拟结束,包括:使用Simulation of Urban Mobility作为模 拟平台,路网文件net.xml和车流数据rou.xml作为输入,当所有状态的q 值收敛模拟结束。
本发明的有益效果是:
1)针对稀疏路网的交叉路口进行建模,建立了交叉路口拥堵通畅的状态 模型,并最终将交通信号控制问题抽象为一个马尔科夫决策过程,同时通过 设计建立回报函数的数值模型,利用Q学习算法针对稀疏交叉路口求解最优 策略并利用这一最优策略调节交叉道口的信号指示灯;
2)通过直觉和实际观察发现,稀疏路网的交叉路口之间的交通流是互相 独立的但是未必是同分布的,因此针对每个交叉路口单独设立智能体(agent) 进行调节,采用去中心化的学习方式,使学习时间大大缩短。
附图说明
图1为本发明的方法组织过程示意图;
图2为本发明实施例建立的一个4*4的双交叉路口的稀疏路网示意图;
图3为本发明压力的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
一种针对稀疏路网的基于Q学习的交通信号控制方法,包括以下步骤:
第一:路网的建立和车辆数据的生成。
其包括:路网和车辆数据的生成采用xml文件的形式定义,分别命名为 net.xml和rou.xml,其中net.xml文件表示道路网络信息文件,rou.xml文 件表示车辆路由信息,即车辆流动信息文件;
路网信息的文件采用SUMO自带的绘图工具进行绘制然后保存并最终生成net.xml文件,rou.xml文件自定义车流数据,包括车辆类型和起始点信息。
第二:建立Q函数的数学表达式。
其包括:某个交叉道口的压力具体定义为:该交叉路口进入车道的车辆 排队数目总数目和离开车道的交叉道口排队总数目,即p(i,t)=nin(i,t)+ nout(i,t),其中:p(i,t)为在t时刻交叉路口i的压强,nin(i,t)为t时刻进 入i交叉道口车道的车辆排队数目,nout(i,t)为t时刻出交叉道口的车辆排队 数目;
交叉道口为i,则路口i的压强为p(i)=3+2-1=4,每个智能体/信号控 制器的奖励函数为r=-p;
求得预期回报,即Q函数:
q(s,a)=R(s,a)+γ∑s′∈sP(s′|s,a)∑a′∈Aπ(a′|s′)q(s′,a′) (1)。
第三:在得到Q函数的数学表达式之后,利用迭代的方法求得Q值。
其包括:式(1)写成如下的迭代式:
Q(St,At)←Q(St,At)+α[Rt+1+Y maxQ(St+1,At+1)-Q(St,At)];
其中,α为学习率,Y为贴现因子,R为奖励函数。
第四:使SUMO模拟平台仿真,使得Q值收敛模拟结束。
使SUMO模拟平台仿真,使得q值收敛模拟结束,包括:使用Simulation of UrbanMobility作为模拟平台,路网文件net.xml和车流数据rou.xml作 为输入,当所有状态的q值收敛模拟结束。
实施例二
如图1至图3所示:一种针对稀疏路网的基于Q学习的交通信号控制方 法,步骤1)路网的建立和车辆数据的生成。路网和车辆数据的生成采用xml 文件的形式定义。分别命名为net.xml和rou.xml。其中,net.xml文件表示 道路网络信息文件,rou.xml文件表示车辆路由信息,即车辆流动信息文件。 此外,路网信息的文件我们采用SUMO自带的绘图工具进行绘制然后保存并最 终生成net.xml文件。rou.xml文件自定义车流数据,车辆类型和起始点等各 种信息。如图1所示,是一个4*4的稀疏路网的示意简图。通过rou.xml文 件定义的车流从不同的起点在路网上移动到不同的终点。根据真实世界的统 计结果,设置直行左转弯和右转弯的车辆比例分别为执行60%,左转弯20%, 右转弯20%。
步骤2)得到Q函数的数学表达式。
某个交叉道口的压力具体定义为:该交叉路口进入车道的车辆排队数目 总数目和离开车道的交叉道口排队总数目,即p(i,t)=nin(i,t)+nout(i,t), 其中:p(i,t)为在t时刻交叉路口i的压强,nin(i,t)为t时刻进入i交叉道 口车道的车辆排队数目,nout(i,t)为t时刻出交叉道口的车辆排队数目。
如图3所示,交叉道口为i,则路口i的压强为p(i)=3+2-1=4,每个 智能体/信号控制器的奖励函数为r=-p。
定义了奖励函数之后,便可以求得预期回报,即Q函数:
Figure BDA0003594065210000061
这个方程也被称为动作-状态(action-value)的贝尔曼方程(BellmanEquation)。通过最优化q(s,a)即可得到最优的信号控制策略(q表)。
步骤3)在得到Q函数的数学表达式之后,利用迭代的方法求得Q值。
上式可以写成如下的迭代式:
Q(St,At)←Q(St,At)+α[Rt+1+Y maxQ(St+1,At+1)-Q(St,At)]。其 中α为学习率,Y为贴现因子,R即为我们定义的奖励函数。
本实施例中,α被设置为0。05,Y被设置为0。8。通过不断迭代更新Q 值表并最终收敛并形成稳定的控制策略。
步骤4)本方法在使用Simulation of Urban Mobility(SUMO)作为我们的 模拟平台,路网文件net.xml和车流数据rou.xml作为输入。所有状态的q 值收敛模拟结束。
本方法具有适应道路车流动态变化的自适应控制策略,更加充分的压榨 路网性能。同时,基于稀疏路网的特征,假定交叉路口之间的车流数据是相 互独立的,这样便可以针对每个交叉路口进行单独的自适应调节,而不需要 考虑路口与路口之间的数据共享问题,从最终实现了分布式的信号控制策略, 减少了算力资源的需求。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节, 而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实 现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且 是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨 在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。 不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施 方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见, 本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以 经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种针对稀疏路网的基于Q学习的交通信号控制方法,其特征在于:包括以下步骤:
步骤1)路网的建立和车辆数据的生成;
步骤2)建立Q函数的数学表达式;
步骤3)在得到Q函数的数学表达式之后,利用迭代的方法求得Q值;
步骤4)使SUMO模拟平台仿真,使得Q值收敛模拟结束。
2.根据权利要求1所述的一种针对稀疏路网的基于Q学习的交通信号控制方法,其特征在于:所述步骤1中,路网的建立和车辆数据的生成,包括:
路网和车辆数据的生成采用xml文件的形式定义,分别命名为net.xml和rou.xml,其中net.xml文件表示道路网络信息文件,rou.xml文件表示车辆路由信息,即车辆流动信息文件;
路网信息的文件采用SUMO自带的绘图工具进行绘制然后保存并最终生成net.xml文件,rou.xml文件自定义车流数据,包括车辆类型和起始点信息。
3.根据权利要求1所述的一种针对稀疏路网的基于Q学习的交通信号控制方法,其特征在于:所述步骤2中,建立Q函数的数学表达式,包括:
某个交叉道口的压力具体定义为:该交叉路口进入车道的车辆排队数目总数目和离开车道的交叉道口排队总数目,即p(i,t)=nin(i,t)+nout(i,t),其中:p(i,t)为在t时刻交叉路口i的压强,nin(i,t)为t时刻进入i交叉道口车道的车辆排队数目,nout(i,t)为t时刻出交叉道口的车辆排队数目;
交叉道口为i,则路口i的压强为p(i)=3+2–1=4,每个智能体/信号控制器的奖励函数为r=-p;
求得预期回报,即Q函数:
q(s,a)=R(s,a)+γ∑s′∈SP(s′|s,a)∑a′∈Aπ(a′|s′)q(s′,a′) (1)。
4.根据权利要求1所述的一种针对稀疏路网的基于Q学习的交通信号控制方法,其特征在于:所述步骤3中,在得到Q函数的数学表达式之后,利用迭代的方法求得Q值,包括:式(1)写成如下的迭代式:
Q(St,At)←Q(St,At)+α[Rt+1+γmaxQ(St+1,At+1)-Q(St,At)];
其中,α为学习率,γ为贴现因子,R为奖励函数。
5.根据权利要求1所述的一种针对稀疏路网的基于Q学习的交通信号控制方法,其特征在于:所述步骤4中,使SUMO模拟平台仿真,使得q值收敛模拟结束,包括:使用Simulationof Urban Mobility作为模拟平台,路网文件net.xml和车流数据rou.xml作为输入,当所有状态的q值收敛模拟结束。
CN202210384148.4A 2022-04-13 2022-04-13 一种针对稀疏路网的基于q学习的交通信号控制方法 Pending CN115035710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210384148.4A CN115035710A (zh) 2022-04-13 2022-04-13 一种针对稀疏路网的基于q学习的交通信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210384148.4A CN115035710A (zh) 2022-04-13 2022-04-13 一种针对稀疏路网的基于q学习的交通信号控制方法

Publications (1)

Publication Number Publication Date
CN115035710A true CN115035710A (zh) 2022-09-09

Family

ID=83118555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210384148.4A Pending CN115035710A (zh) 2022-04-13 2022-04-13 一种针对稀疏路网的基于q学习的交通信号控制方法

Country Status (1)

Country Link
CN (1) CN115035710A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092297A (zh) * 2023-04-07 2023-05-09 南京航空航天大学 一种低渗透率分布式差分信号控制的边缘计算方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092297A (zh) * 2023-04-07 2023-05-09 南京航空航天大学 一种低渗透率分布式差分信号控制的边缘计算方法及系统

Similar Documents

Publication Publication Date Title
CN108847037B (zh) 一种面向非全局信息的城市路网路径规划方法
CN112489464B (zh) 一种具有位置感知的路口交通信号灯调控方法
Khamis et al. Enhanced multiagent multi-objective reinforcement learning for urban traffic light control
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN111785045A (zh) 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN115035710A (zh) 一种针对稀疏路网的基于q学习的交通信号控制方法
Yu et al. Signal timing optimization based on fuzzy compromise programming for isolated signalized intersection
CN114463997A (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
CN110517510A (zh) 基于改进Webster函数和遗传算法的交叉口信号灯配时优化方法
CN104700634A (zh) 基于最小生成树聚类改进遗传算法的相邻交叉口干道协调控制方法
CN113179175A (zh) 一种电力通信网业务的实时带宽预测方法及装置
CN113160585A (zh) 交通灯配时优化方法、系统及存储介质
JP3520331B2 (ja) 交通流シミュレーション装置
CN115019523A (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
Yin et al. A reinforcement learning method for traffic signal control at an isolated intersection with pedestrian flows
Wang et al. Cell transmission model based traffic signal timing in oversaturated conditions
Zhang et al. Solving multi-class traffic assignment problem with genetic algorithm
CN102158413B (zh) 基于邻域免疫克隆选择的多智能体组播路由方法
Shahriar et al. Intersection traffic efficiency enhancement using deep reinforcement learning and V2X communications
Li et al. Multi-intersections traffic signal intelligent control using collaborative q-learning algorithm
Caligaris et al. Model predictive control for multiclass freeway traffic
Kupsizewska et al. 101 uses for path-based assignment
CN111915889A (zh) 一种基于遗传蚁群混合算法的车联网路侧单元部署方法
CN115691110B (zh) 一种面向动态车流的基于强化学习的交叉口信号周期稳定配时方法
CN112149865B (zh) 一种教室灯照明功率预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination