CN113963553A - 一种道路交叉口信号灯绿信比控制方法、装置和设备 - Google Patents

一种道路交叉口信号灯绿信比控制方法、装置和设备 Download PDF

Info

Publication number
CN113963553A
CN113963553A CN202111219227.1A CN202111219227A CN113963553A CN 113963553 A CN113963553 A CN 113963553A CN 202111219227 A CN202111219227 A CN 202111219227A CN 113963553 A CN113963553 A CN 113963553A
Authority
CN
China
Prior art keywords
green
intersection
signal
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111219227.1A
Other languages
English (en)
Inventor
任安虎
李珊
任洋洋
王宇林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Technological University
Original Assignee
Xian Technological University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Technological University filed Critical Xian Technological University
Priority to CN202111219227.1A priority Critical patent/CN113963553A/zh
Publication of CN113963553A publication Critical patent/CN113963553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles

Abstract

本发明公开了一种道路交叉口信号灯绿信比控制方法,其涉及交通信号控制领域,包括:通过检测器提取交叉口各进口道的车流量、平均车速和平均排队长度表征交通状态,在信号周期结束时上传数据;基于深度强化学习算法,以绿信比方案为动作,以平均延误时间最小为目标,使用深度全连接神经网络对实时交通流状态进行动作价值估计,选择价值最大的动作控制下一周期的信号配时;通过离线训练以及冻结训练的方式提高网络收敛的稳定性,使用探索率余弦衰减以及引入零奖赏延误因子提高网络的收敛能力,最后拷贝决策网络到实际信号控制机上。本发明充分考虑了常规检测器数据和倒计时显示器的因素,相对控制相位的方法来说更具有实用性,可以减少交通拥堵。

Description

一种道路交叉口信号灯绿信比控制方法、装置和设备
技术领域
本发明涉交通信号控制技术领域,特别涉及一种基于深度强化学习的道路交叉口信号灯绿信比控制方法、装置和计算机设备。
背景技术
当前大部分城市的交叉口信号灯仍然在使用传统的分段定时控制方法,虽然简单但却无法适应实时变化的交通流,容易造成交通拥堵。随着智慧城市建设的推进,对城市道路的信控交叉口进行自适应配时优化控制已经成为一个研究热点,以遗传算法为代表的智能寻优算法,以模糊控制为代表的模糊逻辑算法,以Petri网为代表的图论算法,以Q学习为代表的强化学习算法是当前的几种主流解决方案。其中,深度强化学习融合了深度神经网络强大的感知能力和强化学习优异的序贯决策能力,通过与环境交互反馈寻找最优控制策略,在解决城市交通信号控制这种复杂的系统优化问题方面有着独特的优势。
目前,使用深度强化学习对信号灯进行控制的研究主要用速度矩阵和位置矩阵定义交通状态,通过切换相位或直接增减相位绿灯时长控制信号灯。在当前的技术条件下,这种方式对交通状态的提取成本较高,且没有考虑实际交叉口可能存在倒计时显示器,同时频繁切换相位还会增加交通事故的风险,所以该方法在实际应用时受到了一定的限制。
发明内容
基于此,针对现有深度强化学习方法在实际应用中交通状态提取成本高,难以应用在有倒计时显示器的路口,以及当前探索率的线性和指数衰减方法容易造成网络收敛效果差等问题,本发明提供了一种基于深度强化学习的道路交叉口信号灯绿信比控制方法、装置和计算机设备。
本发明实施例提供一种道路交叉口信号灯绿信比控制方法,包括:
构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε-greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差;
获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度;
通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络;
根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。
在其中一个实施例中,一种道路交叉口信号灯绿信比控制方法,还包括:
根据真实的平面十字交叉口的几何渠化结构、通行限制要求、交通流检测器铺设信息,在Vissim软件中建立仿真路网;
基于仿真路网,通过交通流检测器获取各进口道在信号周期内的车流量、平均车速、平均排队长度,并构建基于车流量、平均车速、平均排队长度的状态矩阵。
在其中一个实施例中,一种道路交叉口信号灯绿信比控制方法,还包括:
对基于车流量、平均车速、平均排队长度的状态矩阵进行线性归一化处理。
在其中一个实施例中,所述根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案,具体包括:
根据道路交叉口设计的饱和流量与当前实际检测流量,计算出最大流量比之和Y:
Figure BDA0003311940290000021
计算在一个周期内的信号损失时间Le
Figure BDA0003311940290000031
利用韦伯斯特公式,计算最佳周期C:
Figure BDA0003311940290000032
计算有效绿灯时间Ge
Ge=C-Le
根据最小绿灯时间g0、最大绿灯时间g1,绿灯时间取值最小间隔g2,计算各相位绿信比:
Figure BDA0003311940290000033
确定绿信比配时方案P:
[k,C,Ta(Tc1,Tc2,···Tci),(λ01···λi)]
其中,n为相位数目;i为当前相位;Yi为当前相位的最大流量比;fi1为当前相位第一方向的实测小时流量;fi2为当前相位第一方向的饱和小时流量;fi3为当前相位第二方向的实测小时流量;fi4为当前相位第二方向的饱和小时流量;Ls为车辆启动损失时间,取值为0~3秒之间,此处取0秒;Tc为清场全红时间,取值为2秒,此处取2秒;Ta为黄灯时间,取值取2~3秒,此处取3秒;最佳周期C取值5的倍数;Ti为相位绿灯时长,且各相位绿灯时长之和为有效绿灯时长Ge;k为方案编号。
在其中一个实施例中,所述探索率ε的表达式为:
Figure BDA0003311940290000034
其中,探索率ε的动态衰减曲线符合三角余弦函数变化规律;ε0为最小探索率,ε1为最大探索率,m为当前迭代回合,M为最大迭代回合。
在其中一个实施例中,所述零延误时间因子与交叉口平均延误时间d之差的表达式为:
Figure BDA0003311940290000041
其中,零延误时间因子δ为在随机选择的绿信比配时方案下、多次测试周期时长后得到的交叉口平均延误时间;Ln为交叉口进口道数目,j为当前进口道,dj为当前进口道的周期平均延误时间。
在其中一个实施例中,所述通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络,具体包括:
基于仿真路网、深度强化学习模型、训练数据,并设置各进口道输入的交通流数据,包括各车型比例、各时段的小时交通流量,通过DQN算法进行一定时长的离线训练,得到一个决策神经网络;
其中,所述DQN算法主干网络由3层全连接层深度神经网络构成,其最后一层的节点数与绿信比配时方案数目一致。
在其中一个实施例中,所述DQN算法,包括:
初始化训练过程中的超参数学习率、折扣率、探索率、测试频率、经验池大小;
初始化在线网络和目标网络为相同的权重,且权值为服从高斯正态分布的随机值;
开始迭代Episode,重置Vissim环境,并随机运行5个仿真周期进行热身后正式训练;
智能体获取交通流参数表征状态并线性归一化处理;
根据归一化状态,智能体使用ε-greed策略选择一种最优动作;
根据最优动作,智能体选择对应的绿信比方案配时运行一周期,得到新状态、延误时间;
将延误时间转换为奖赏值,判断是否达到回合结束条件,得到结束标志;
存储样本状态、动作、新状态、奖赏值、结束标志到经验池并更新经验池;
经验池已满时,智能体从经验池中随机取出一批样本进行学习;
根据误差结果反向传播更新在线网络权重,并根据冻结步长覆盖目标网络;
用新状态覆盖状态;
判断是否收敛,若是,Episode加1,进入下步骤,否则Step加1,从步骤智能体获取交通流参数表征状态并线性归一化处理重新开始;
判断是否达到测试频率条件并测试网络性能,并保存网络模型测试数据;
连续多个回合满足收敛要求或已达到设定的最大训练回合数,训练结束,测试训练结果,否则从步骤开始迭代Episode,重置Vissim环境,并随机运行5个仿真周期进行热身后正式训练重新开始。
一种道路交叉口信号灯绿信比控制装置,包括:
模型构建模块,用于构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε-greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差;
数据获取模块,用于获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度;
最优网络确定模块,用于通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络;
最优绿信比确定模块,用于根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε-greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差;
获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度;
通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络;
根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。
本发明实施例提供的上述道路交叉口信号灯绿信比控制方法,与现有技术相比,其有益效果如下:
本发明针对现有深度强化学习采用速度矩阵和位移矩阵作为交通状态,提取成本高且未有效利用现有常规检测器数据的问题,采用各进口道周期车流量、平均车速、平均排队长度表征交通流状态,可在实际应用中减少检测成本;本发明针对现有深度强化学习采用相位控制的方案难以应用在有倒计时显示器的路口,且频繁切换相位有发生安全事故隐患的问题,采用绿信比控制的方案,不同的绿信比方案一起构成动作空间,在信号周期内,绿信比保持不变,可以使得深度强化学习也能应用在有倒计时显示器的交叉口;本发明针对现有深度强化学习采用的探索率线性衰减或指数衰减导致网络学习难以收敛的问题,采用余弦衰减的方式提高收敛的效果。
附图说明
图1为一个实施例中提供的交叉口仿真路网图;
图2为一个实施例中提供的决策神经网络训练流程示意图;
图3为一个实施例中提供的深度神经网络结构示意图;
图4为一个实施例中提供的迭代训练10000回合的延误时间变化曲线图;
图5为一个实施例中提供的迭代训练10000回合的损失函数变化曲线图;
图6为一个实施例中提供的迭代训练10000回合的最优奖赏变化曲线图;
图7为一个实施例中提供的测试100周期的固定配时与DQN配时的延误时间2D对比图;
图8为一个实施例中提供的测试100周期的固定配时与DQN配时的延误时间3D对比图;
图9为一个实施例中提供的测试100周期的固定配时与DQN配时的延误时间分布箱线图;
图10为一个实施例中提供的一种道路交叉口信号灯绿信比控制方法原理示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参见图10,一个实施例中,提供的一种道路交叉口信号灯绿信比控制方法,该方法具体包括:
步骤1:对真实交叉口环境进行建模,根据待控交叉口的实际几何渠化特征、通行限制以及交通流检测器铺设等要素,在Vissim软件中建立仿真路网,尽可能贴近真实环境。
步骤2:构建强化学习模型四要素,即状态(State)、动作(Action)、策略(Policy)、奖赏(Reward):
状态:各进口道在信号周期内的车流量F、平均车速V、平均排队长度L。
动作:根据交叉口参数及绿时约束等条件计算出不同的绿信比方案。
策略:使用ε-greedy贪心策略,探索率ε随着训练时长动态余弦衰减。
奖赏:零延误时间因子δ与交叉口平均延误时间d之差。
步骤3:通过检测器提取实际交叉口的每条进口道在一个信号周期内的车流量、平均车速、平均排队长度,并上传足够的数据到算法训练机。
步骤4:在算法训练机上借助Vissim交通仿真平台,利用步骤1的路网,步骤2的强化学习模型以及步骤3的数据,通过DQN(Deep Q Network)算法进行一定时长的离线训练,得到最优决策神经网络,即训练最优决策神经网络就是为了实现从实时交通状态到最优绿信比方案的映射。
上述步骤的具体说明如下:
步骤1:获取一个真实的平面十字交叉口的几何渠化结构、通行限制要求以及交通流检测器铺设等信息,在Vissim软件中建立仿真路网,设置交通流检测器,设置车型分配以及期望车速分布,由于本实施例中右转车辆的通行不受红绿灯限制,故路网中不设置右转车道,本实施例建立的仿真路网见附图1;
步骤2:构建强化学习模型四要素,即状态(State)、动作(Action)、策略(Policy)、奖赏(Reward)。
状态:各进口道在信号周期内的车流量F、平均车速V、平均排队长度L,本实施例建立的仿真路网共检测8条进口道的交通参数,其状态矩阵S表示如下:
Figure BDA0003311940290000081
为提高网络训练后的泛化能力,以及应对奇异样本的干扰,需要对状态矩阵S,即检测器采集车流量、平均车速、平均排队长度进行线性归一化处理,处理方法为当前检测值与该参数最大上限值之间的比值,其状态归一化处理公式表示为:
Figure BDA0003311940290000091
Fm为最大周期车流量,Vm为车速上限,Lm为最大排队长度,*运算符表示前一矩阵中的每一个元素均与后一矩阵中对应行的元素相乘,在Python编程中可使用Numpy的广播机制实现该操作。
动作:根据交叉口参数及绿时约束等条件计算出不同的绿信比方案:
首先根据交叉口设计的饱和流量与当前实际检测流量计算出最大流量比之和Y,公式如下:
Figure BDA0003311940290000092
n为相位数目,i为当前相位,Yi为当前相位的最大流量比,fi1为当前相位第一方向的实测小时流量,fi2为当前相位第一方向的饱和小时流量,fi3为当前相位第二方向的实测小时流量,fi4为当前相位第二方向的饱和小时流量。
然后计算在一个周期内的信号损失时间Le,公式如下:
Figure BDA0003311940290000093
n为相位数目,i为当前相位,Ls为车辆启动损失时间,一般为0~3秒之间,此处取0秒,Tc为清场全红时间,一般为2秒,此处取2秒,Ta为黄灯时间,一般取2~3秒,此处取3秒。
然后利用韦伯斯特(Webster)公式计算最佳周期C,公式如下:
Figure BDA0003311940290000094
Le表示在一个周期内的全部损失时间,Y为交叉口所有相位的最大流量比之和,同时最优周期C一般取5的倍数。
然后计算有效绿灯时间Ge,其计算公式为:
Ge=C-Le (6)
最后根据最小绿灯时间g0、最大绿灯时间g1,绿灯时间取值最小间隔g2,计算一组符合要求的各相位绿信比取值方案,其计算公式为:
Figure BDA0003311940290000101
Ti为相位绿灯时长,各相位绿灯时长之和为有效绿灯时长Ge,公式如下:
Figure BDA0003311940290000102
最终计算的绿信比配时方案信息包括:方案编号,周期时间,黄灯时间,各相位清场红灯时间,各相位绿信比,时间单位为秒,配时方案P可表示为:[k,C,Ta(Tc1,Tc2,···Tci),(λ01···λi)],一个具体的方案例如:
Figure BDA0003311940290000103
动作空间A可表示为{p1,p2,p3...pN}。
策略:使用ε-greedy贪心策略,探索率ε随着训练时长动态余弦衰减,公式如下:
Figure BDA0003311940290000104
ε0为最小探索率,ε1为最大探索率,m为当前迭代回合,M为最大迭代回合。
奖赏:零延误时间因子δ与交叉口平均延误时间d之差,公式为:
Figure BDA0003311940290000105
零延误时间因子δ为在步骤1建立的交叉口仿真环境下,随机选择步骤2计算的绿信比方案下,多次测试一定周期时长后得到的交叉口平均延误时间,Ln为交叉口进口道数目,j为当前进口道,dj为当前进口道的周期平均延误时间。
步骤3:通过检测器提取实际交叉口的每条进口道在一个信号周期内的车流量、平均车速、平均排队长度,并上传足够的数据到算法训练机。
步骤4:在算法训练机上借助Vissim交通仿真平台,利用步骤1的路网,步骤2的强化学习模型以及步骤3的数据,设置各进口道输入的交通流数据,包括各车型比例、各时段的小时交通流量,通过DQN(Deep Q Network)算法进行一定时长的离线训练,得到一个决策神经网络,网络训练流程见附图2。
其中,上述步骤4的训练算法具体包括以下子步骤:
步骤4.1:初始化训练过程中的学习率α、折扣率γ、探索率ε、测试频率f、经验池大小m、批处理大小b、目标网络更新步长μ等超参数,同时设置最大训练回合Episode,每回合最大步长Step。
步骤4.2:初始化在线网络(Online Network)和目标网络(Target Network)为相同的权重,且权值服从分布X~N(0,0.12),即均值为0,标准差为0.1的高斯正态分布的随机值。
步骤4.3:开始迭代Episode,重置Vissim环境,为加快仿真速度,设置不显示仿真画面,同时将仿真速度设置为最大,并随机运行5个仿真周期进行热身,等待交通流稳定,然后开始正式训练。
步骤4.4:智能体获取车流量、平均车速、平均排队长度表征状态并线性归一化处理。
步骤4.5:根据归一化状态,智能体使用ε-greed策略选择一种最优动作,即一种绿信比配时方案编号,在ε-greed策略中对动作a的选择策略公式描述如下:
Figure BDA0003311940290000111
ε为当前回合探索率,x为在区间[0,1)上随机采样得到的随机浮点数,n为在区间[0,N)上随机采样得到的随机整数,N为动作空间中的绿信比方案数目,argmaxaQ(s,a,θ)表示在状态s下,通过权值为θ0的在线网络前向传播计算各动作a下的Q值,并返回Q值最大的动作a。
为ReLu,节点数分别为100,100,N,其中N为步骤2计算出的绿信比方案数目,深度神经网络结构见附图3。
步骤4.6:根据最优动作,智能体选择对应的绿信比方案数据对信号控制机的各相位进行配时,然后运行一周期,通过检测器获取得到新状态s1、以及交叉口延误时间d。
步骤4.7:将延误时间d转换为奖赏值r,计算收敛计数器值(p,q),其计算公式如下:
Figure BDA0003311940290000121
rl表示收敛奖励值下限,r≤rl表示学习效果太差,学习失败计数器p的值加1,ru表示收敛奖励值上限,r≥ru表示学习效果很好,学习成功计数器q的值加1。
判断是否达到回合结束条件,得到结束标志h,其公式为:
Figure BDA0003311940290000122
Cf为最大连续失败次数,Cs为最大连续成功次数,当h的值为1时结束当前训练回合,开始下一回合训练,否则继续当前回合训练,直到达到回合最大步长Step。
步骤4.8:存储样本(状态,动作,新状态,奖赏值,结束标志),即五元组(s,a,s1,r,h)到经验池并更新经验池,若经验池已满,则抛弃旧数据,并在对应位置放入新数据。
步骤4.9:当经验池已满时,智能体开始从经验池中随机取出一批样本进行学习,首先通过权值为θ0的在线网络计算在当前样本状态的下选择动作a得到的Q现实值Q(s,a,θ0),然后通过权值为θ1的目标网络计算在当前样本新状态下选择动作a得到的的Q估计值Q(s1,a,θ1),则目标Q值计算公式如下:
Figure BDA0003311940290000131
r为即时奖励,γ为折扣奖励,
Figure BDA0003311940290000132
为所有动作中,Q估计值最大的动作对应的Q值,则Q值误差计算公式为:
Figure BDA0003311940290000133
为提高收敛效果,使用Huber函数作为误差损失函数,计算公式为:
Figure BDA0003311940290000134
步骤4.10:将损失函数计算结果反向传播更新在线网络权重,梯度更新优化器为Adam,然后判断当前步数是否满足目标网络更新步长μ的整数倍,若是,则将在线网络权值覆盖目标网络,否则不覆盖。
步骤4.11:用新状态覆盖状态。
步骤4.12:判断是否收敛,若是,Episode加1,进入步骤4.13,否则Step加1,回到步骤4.4。
步骤4.13:判断是否达到测试频率条件,若是,开始测试在线网络性能,测试阶段,不再有随机选择动作的可能,每次均选择价值最大的动作,根据测试结果,保存历史最优网络模型以及测试回合平均延误、测试回合平均奖赏等数据信息。
步骤4.14:连续多个回合满足收敛要求或已达到设定的最大训练回合数,训练结束,测试最优训练结果,并与固定配时方案比较,否则回到步骤4.3继续下一回合训练,训练过程中的平均延误见附图4,训练过程中的平均误差见附图5、训练过程中的最优奖励见附图6,绿信比DQN与固定配时平均延误比较测试2D结果见附图7,绿信比DQN与固定配时平均延误比较测试3D结果见附图8,绿信比DQN与固定配时平均延误比较数据分布箱线图测试结果见附图9。
本领域技术人员容易知道,除了使用Vissim软件作为本发明中使用的仿真平台外,也可以使用常见的SUMO等软件根据本发明实施例步骤进行仿真,可以得到类似的仿真结果。
综上所述,绿信比是交通配时的重要参数,表示各相位有效绿灯时间在整个周期中所占的比例。因为倒计时显示器数字只能以1秒为间隔递减到零,然后开始下一次倒计时,而不能随便上下跳变,所以在一个周期内,绿信比最好保持不变,本发明考虑到这种情况,将现有深度强化学习中的相位动作空间改为不同绿信比的配时方案,同时利用常规检测器的数据作为状态输入,可降低基于深度强化学习的控制方法在实际中的应用成本,而且能兼容存在倒计时显示器的交叉口,对加快相关理论的实际应用落地有一定的参考价值。
还有,本发明通过检测器提取交叉口各进口道的车流量、平均车速和平均排队长度表征交通状态,在信号周期结束时上传数据;基于深度强化学习算法,以绿信比方案为动作,以平均延误时间最小为目标,使用深度全连接神经网络对实时交通流状态进行动作价值估计,选择价值最大的动作控制下一周期的信号配时;通过离线训练以及冻结训练的方式提高网络收敛的稳定性,使用探索率余弦衰减以及引入零奖赏延误因子提高网络的收敛能力,最后拷贝决策网络到实际信号控制机上。本发明充分考虑了常规检测器数据和倒计时显示器的因素,相对控制相位的方法来说更具有实用性,可以减少交通拥堵。
一个实施例中,提供的一种道路交叉口信号灯绿信比控制装置,该装置具体包括:
模型构建模块,用于构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε-greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差。
数据获取模块,用于获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度。
最优网络确定模块,用于通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络
需要说明的是,关于道路交叉口信号灯绿信比控制装置的具体限定可以参见上文中对于道路交叉口信号灯绿信比控制方法的限定,在此不再赘述。上述道路交叉口信号灯绿信比控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
一个实施例中,提供的一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε-greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差。
获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度。
通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络。
根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。还有,以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种道路交叉口信号灯绿信比控制方法,其特征在于,包括:
构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε-greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差;
获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度;
通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络;
根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。
2.如权利要求1所述的道路交叉口信号灯绿信比控制方法,其特征在于,还包括:
根据真实的平面十字交叉口的几何渠化结构、通行限制要求、交通流检测器铺设信息,在Vissim软件中建立仿真路网;
基于仿真路网,通过交通流检测器获取各进口道在信号周期内的车流量、平均车速、平均排队长度,并构建基于车流量、平均车速、平均排队长度的状态矩阵。
3.如权利要求2所述的道路交叉口信号灯绿信比控制方法,其特征在于,还包括:
对基于车流量、平均车速、平均排队长度的状态矩阵进行线性归一化处理。
4.如权利要求1所述的道路交叉口信号灯绿信比控制方法,其特征在于,所述根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案,具体包括:
根据道路交叉口设计的饱和流量与当前实际检测流量,计算出最大流量比之和Y:
Figure FDA0003311940280000021
计算在一个周期内的信号损失时间Le
Figure FDA0003311940280000022
利用韦伯斯特公式,计算最佳周期C:
Figure FDA0003311940280000023
计算有效绿灯时间Ge
Ge=C-Le
根据最小绿灯时间g0、最大绿灯时间g1,绿灯时间取值最小间隔g2,计算各相位绿信比λi
Figure FDA0003311940280000024
确定绿信比配时方案P:
[k,C,Ta(Tc1,Tc2,…Tci),(λ01…λi)]
其中,n为相位数目;i为当前相位;Yi为当前相位的最大流量比;fi1为当前相位第一方向的实测小时流量;fi2为当前相位第一方向的饱和小时流量;fi3为当前相位第二方向的实测小时流量;fi4为当前相位第二方向的饱和小时流量;Ls为车辆启动损失时间,取值为0~3秒之间,此处取0秒;Tc为清场全红时间,取值为2秒,此处取2秒;Ta为黄灯时间,取值取2~3秒,此处取3秒;最佳周期C取值5的倍数;Ti为相位绿灯时长,且各相位绿灯时长之和为有效绿灯时长Ge;k为方案编号。
5.如权利要求1所述的道路交叉口信号灯绿信比控制方法,其特征在于,所述探索率ε的表达式为:
Figure FDA0003311940280000031
其中,探索率ε的动态衰减曲线符合三角余弦函数变化规律;ε0为最小探索率,ε1为最大探索率,m为当前迭代回合,M为最大迭代回合。
6.如权利要求1所述的道路交叉口信号灯绿信比控制方法,其特征在于,所述零延误时间因子与交叉口平均延误时间之差的表达式为:
Figure FDA0003311940280000032
其中,零延误时间因子δ为在随机选择的绿信比配时方案下、多次测试周期时长后得到的交叉口平均延误时间d;Ln为交叉口进口道数目,j为当前进口道,dj为当前进口道的周期平均延误时间。
7.如权利要求2所述的道路交叉口信号灯绿信比控制方法,其特征在于,所述通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络,具体包括:
基于仿真路网、深度强化学习模型、训练数据,并设置各进口道输入的交通流数据,包括各车型比例、各时段的小时交通流量,通过DQN算法进行一定时长的离线训练,得到一个决策神经网络;
其中,所述DQN算法主干网络由3层全连接层深度神经网络构成,其最后一层的节点数与绿信比配时方案数目一致。
8.如权利要求7所述的道路交叉口信号灯绿信比控制方法,其特征在于,所述DQN算法,包括:
初始化训练过程中的超参数学习率、折扣率、探索率、测试频率、经验池大小;
初始化在线网络和目标网络为相同的权重,且权值为服从高斯正态分布的随机值;
开始迭代Episode,重置Vissim环境,并随机运行5个仿真周期进行热身后正式训练;
智能体获取交通流参数表征状态并线性归一化处理;
根据归一化状态,智能体使用ε-greed策略选择一种最优动作;
根据最优动作,智能体选择对应的绿信比方案配时运行一周期,得到新状态、延误时间;
将延误时间转换为奖赏值,判断是否达到回合结束条件,得到结束标志;
存储样本状态、动作、新状态、奖赏值、结束标志到经验池并更新经验池;
经验池已满时,智能体从经验池中随机取出一批样本进行学习;
根据误差结果反向传播更新在线网络权重,并根据冻结步长覆盖目标网络;
用新状态覆盖状态;
判断是否收敛,若是,Episode加1,进入下步骤,否则Step加1,从步骤智能体获取交通流参数表征状态并线性归一化处理重新开始;
判断是否达到测试频率条件并测试网络性能,并保存网络模型测试数据;
连续多个回合满足收敛要求或已达到设定的最大训练回合数,训练结束,测试训练结果,否则从步骤开始迭代Episode,重置Vissim环境,并随机运行5个仿真周期进行热身后正式训练重新开始。
9.一种道路交叉口信号灯绿信比控制装置,其特征在于,包括:
模型构建模块,用于构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε-greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差;
数据获取模块,用于获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度;
最优网络确定模块,用于通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络;
最优绿信比确定模块,用于根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~8中任一项所述的方法的步骤。
CN202111219227.1A 2021-10-20 2021-10-20 一种道路交叉口信号灯绿信比控制方法、装置和设备 Pending CN113963553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111219227.1A CN113963553A (zh) 2021-10-20 2021-10-20 一种道路交叉口信号灯绿信比控制方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111219227.1A CN113963553A (zh) 2021-10-20 2021-10-20 一种道路交叉口信号灯绿信比控制方法、装置和设备

Publications (1)

Publication Number Publication Date
CN113963553A true CN113963553A (zh) 2022-01-21

Family

ID=79465605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111219227.1A Pending CN113963553A (zh) 2021-10-20 2021-10-20 一种道路交叉口信号灯绿信比控制方法、装置和设备

Country Status (1)

Country Link
CN (1) CN113963553A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550546A (zh) * 2022-02-26 2022-05-27 河北水利电力学院 一种教学用交叉口信号配时方法
CN114613169A (zh) * 2022-04-20 2022-06-10 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法
CN114973698A (zh) * 2022-05-10 2022-08-30 阿波罗智联(北京)科技有限公司 控制信息的生成方法和机器学习模型的训练方法、装置
CN115188179A (zh) * 2022-04-14 2022-10-14 大连海事大学 一种基于识别及疏导的一体化信号灯控制系统
CN115291508A (zh) * 2022-06-16 2022-11-04 扬州大学 一种基于分布式深度强化学习的动态公交控制系统及方法
CN115830887A (zh) * 2023-02-14 2023-03-21 武汉智安交通科技有限公司 一种自适应交通信号控制方法、系统及可读存储介质
CN116110228A (zh) * 2023-04-06 2023-05-12 齐鲁云商数字科技股份有限公司 一种基于区块链的城市交通快速化引导系统
CN115171408B (zh) * 2022-07-08 2023-05-30 华侨大学 一种交通信号优化控制方法
CN117727190A (zh) * 2024-02-05 2024-03-19 浙江黄氏建设科技股份有限公司 一种智慧城市车辆分流红绿灯控制方法及系统
CN117727190B (zh) * 2024-02-05 2024-05-03 浙江黄氏建设科技股份有限公司 一种智慧城市车辆分流红绿灯控制方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809958A (zh) * 2016-03-29 2016-07-27 中国科学院深圳先进技术研究院 一种基于交叉口群的交通控制方法及系统
CN106023608A (zh) * 2016-06-08 2016-10-12 吉林大学 一种十字路口交通信号灯实时动态配时的方法
CN109872544A (zh) * 2017-12-05 2019-06-11 杭州海康威视数字技术股份有限公司 一种交通信号的控制方法及装置
CN110032782A (zh) * 2019-03-29 2019-07-19 银江股份有限公司 一种城市级智能交通信号控制系统及方法
CN110533932A (zh) * 2019-08-06 2019-12-03 银江股份有限公司 一种基于滚动优化的城市级全域交通信号推荐方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809958A (zh) * 2016-03-29 2016-07-27 中国科学院深圳先进技术研究院 一种基于交叉口群的交通控制方法及系统
CN106023608A (zh) * 2016-06-08 2016-10-12 吉林大学 一种十字路口交通信号灯实时动态配时的方法
CN109872544A (zh) * 2017-12-05 2019-06-11 杭州海康威视数字技术股份有限公司 一种交通信号的控制方法及装置
CN110032782A (zh) * 2019-03-29 2019-07-19 银江股份有限公司 一种城市级智能交通信号控制系统及方法
CN110533932A (zh) * 2019-08-06 2019-12-03 银江股份有限公司 一种基于滚动优化的城市级全域交通信号推荐方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘皓;吕宜生;: "基于深度强化学习的单路口交通信号控制" *
李珊,任安虎,白静静: "基于DQN算法的倒计时交叉口信号灯配时研究" *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550546A (zh) * 2022-02-26 2022-05-27 河北水利电力学院 一种教学用交叉口信号配时方法
CN115188179B (zh) * 2022-04-14 2023-06-27 大连海事大学 一种基于识别及疏导的一体化信号灯控制系统
CN115188179A (zh) * 2022-04-14 2022-10-14 大连海事大学 一种基于识别及疏导的一体化信号灯控制系统
CN114613169B (zh) * 2022-04-20 2023-02-28 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法
CN114613169A (zh) * 2022-04-20 2022-06-10 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法
CN114973698A (zh) * 2022-05-10 2022-08-30 阿波罗智联(北京)科技有限公司 控制信息的生成方法和机器学习模型的训练方法、装置
CN114973698B (zh) * 2022-05-10 2024-04-16 阿波罗智联(北京)科技有限公司 控制信息的生成方法和机器学习模型的训练方法、装置
CN115291508A (zh) * 2022-06-16 2022-11-04 扬州大学 一种基于分布式深度强化学习的动态公交控制系统及方法
CN115291508B (zh) * 2022-06-16 2023-08-29 扬州大学 一种基于分布式深度强化学习的动态公交控制系统及方法
CN115171408B (zh) * 2022-07-08 2023-05-30 华侨大学 一种交通信号优化控制方法
CN115830887A (zh) * 2023-02-14 2023-03-21 武汉智安交通科技有限公司 一种自适应交通信号控制方法、系统及可读存储介质
CN116110228A (zh) * 2023-04-06 2023-05-12 齐鲁云商数字科技股份有限公司 一种基于区块链的城市交通快速化引导系统
CN117727190A (zh) * 2024-02-05 2024-03-19 浙江黄氏建设科技股份有限公司 一种智慧城市车辆分流红绿灯控制方法及系统
CN117727190B (zh) * 2024-02-05 2024-05-03 浙江黄氏建设科技股份有限公司 一种智慧城市车辆分流红绿灯控制方法及系统

Similar Documents

Publication Publication Date Title
CN113963553A (zh) 一种道路交叉口信号灯绿信比控制方法、装置和设备
CN112614343B (zh) 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN113299085A (zh) 一种交通信号灯控制方法、设备及存储介质
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN115713856B (zh) 一种基于交通流预测与实际路况的车辆路径规划方法
CN113012449B (zh) 基于多榜样学习粒子群的智慧城市信号灯配时优化方法
CN113762578A (zh) 流量预测模型的训练方法、装置和电子设备
CN114613169B (zh) 一种基于双经验池dqn的交通信号灯控制方法
CN112309138A (zh) 交通信号控制方法、装置、电子设备及可读存储介质
CN115578870A (zh) 一种基于近端策略优化的交通信号控制方法
CN113724507B (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
Liu et al. A deep reinforcement learning approach for ramp metering based on traffic video data
CN113299079B (zh) 一种基于ppo和图卷积神经网络区域交叉口信号控制方法
CN115019523A (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
CN111507499B (zh) 预测用模型的构建方法、测试方法、装置及系统
CN115472023B (zh) 一种基于深度强化学习的智能交通灯控制方法及装置
JPH08171694A (ja) 交通信号制御方法及び制御装置
CN115547050A (zh) 一种基于马尔科夫决策过程的智能交通信号控制优化方法、软件
CN113077642B (zh) 一种交通信号灯控制方法、装置及计算机可读存储介质
KR102346507B1 (ko) 다중 교차로 환경에서의 강화학습 기반의 분산 교통 신호 제어 방법 및 장치
KR20230024392A (ko) 주행 의사 결정 방법 및 장치 및 칩
CN115083149B (zh) 一种实时监测的强化学习可变时长信号灯控制方法
CN114299714B (zh) 一种基于异策略强化学习的多匝道协调控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination