CN115762199B - 一种基于深度强化学习和逆强化学习的交通灯控制方法 - Google Patents

一种基于深度强化学习和逆强化学习的交通灯控制方法 Download PDF

Info

Publication number
CN115762199B
CN115762199B CN202211145915.2A CN202211145915A CN115762199B CN 115762199 B CN115762199 B CN 115762199B CN 202211145915 A CN202211145915 A CN 202211145915A CN 115762199 B CN115762199 B CN 115762199B
Authority
CN
China
Prior art keywords
reinforcement learning
expert
state
value
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211145915.2A
Other languages
English (en)
Other versions
CN115762199A (zh
Inventor
张亚
顾诗怡
陈国浠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202211145915.2A priority Critical patent/CN115762199B/zh
Publication of CN115762199A publication Critical patent/CN115762199A/zh
Application granted granted Critical
Publication of CN115762199B publication Critical patent/CN115762199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B20/00Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
    • Y02B20/40Control techniques providing energy savings, e.g. smart controller or presence detection

Landscapes

  • Feedback Control In General (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习和逆强化学习的交通灯控制方法,首先建立交通灯控制系统的马尔科夫决策模型,并依据现有深度网络模型,搭建基于深度强化学习的交通灯控制框架。本发明的创新点在于引入了相对熵逆强化学习算法以优化奖励函数设计。根据专家决策生成的系统状态转移轨迹,通过逆强化学习算法提取专家内含的决策逻辑,即隐藏奖励函数,实现了对专家经验的有效利用,算法对专家轨迹中的噪声具有较好的鲁棒性。本发明能够在单个交叉路口的均衡车流和非均衡车流场景下,取得优于传统控制方案的效果,并进一步提升深度强化学习算法的控制性能。

Description

一种基于深度强化学习和逆强化学习的交通灯控制方法
技术领域
本发明属于智能交通控制领域,特别涉及了一种基于深度强化学习和逆强化 学习的交通灯控制方法。
背景技术
传统的交通灯多采用固定相位顺序与相位时长的控制模式,面对动态环境的 灵活性较差,难以有效解决交通拥堵问题。为缓解拥堵和提高通行效率,深度强 化学习已被应用于交通灯调控问题中,并取得了不少优于传统控制方案的成果, 这是本发明的技术基础。
选择合适的奖励函数是深度强化学习算法实现的一大关键,它影响着算法收 敛性、训练效率和控制性能,而现有交通灯控制方案中,奖励函数的设计大多依 赖经验和反复测试,缺少高效率、低人工的解决方案。逆强化学习方法利用专家 控制产生的示例轨迹,提取出隐含的奖励函数信息,并用于深度强化学习的训练 过程中,是一种自适应的奖励函数设计方法。通过将专家经验融入决策过程,逆 强化学习能够进一步优化深度强化学习的算法表现。
在逆强化学习算法中,基于熵的逆强化学习算法能够找到专家示例轨迹对应 的唯一最优策略,其应用价值较大。由于交通灯控制的环境模型是未知的,而相 对熵逆强化学习算法适用于解决无模型问题,因此,本发明利用该算法来实现奖 励函数的构造。
发明内容
为了解决上述背景技术提出的技术问题,本发明研究了基于深度强化学习和 逆强化学习的交通灯控制方法,旨在缓解道路拥堵,提高通行效率。为了实现上 述技术目的,本发明的技术方案如下:
一种基于深度强化学习和逆强化学习的交通灯控制方法,其特征在于:该方 法包括以下步骤
步骤1:设置超参数,搭建双决斗深度Q神经网络,初始化主网络和目标网 络;
步骤2:初始化交通灯控制系统,初始化相位长度;
步骤3:交通灯控制系统按本周期预设各相位长度进行相位切换,完成一周 期运行;获取本周期状态,利用主网络评估各动作价值,并依据ε-贪心方式选择 动作,即:以概率ε随机选择动作,以概率1-ε选择价值最大的动作执行;
步骤4:智能体获得奖励,保存上一周期状态、上一周期动作、上一周期奖 励、本周期状态,作为样本放入重放缓存区;
步骤5:若重放缓存区满,则依据样本优先级,从重放缓存区中抽取小批量 样本,进行神经网络训练和参数更新;
步骤6:根据步骤3的动作选择结果,设置交通系统下一周期各相位长度。
步骤7:重复步骤3-6,当本回合结束后,记录本回合折扣回报;
步骤8:当训练回合数达到预设值后停止。
具体地,步骤1中使用的主网络对状态s下动作a的价值Q(s,a;θ,θva)表示 为:
其中θ,θva是主网络参数,V(s;θ,θv)表示当前状态下的未来期望回报, A(s,a;θ,θa)表示状态s下采取动作a的期望回报,表示动作空间维数;目标网 络的动作价值近似为/>其网络参数θ-,/>初值与主网络参数 θ,θva相同。
步骤4中使用的奖励函数由F个线性特征加权组合而成:
其中,s是本周期状态量,fi(s)是关于状态s的特征函数f(s)的第i维分量,此处取f(s)=s,wi为权重,wi的计算过程使用相对熵逆强化学习实现,具体包含以 下步骤:
步骤4.1:配置交通灯控制环境,执行专家策略,生成长度为L的专家轨迹τE共NE条;执行均匀策略,生成长度为L的采样轨迹τS共NS条。在均匀策略中,状 态st条件下动作at的执行概率为#(a(st))表示状态st下可选动 作总数;
步骤4.2:提取专家轨迹折扣特征之和、采样轨迹折扣特征之和。其中,专 家轨迹折扣特征之和定义为
其中为专家轨迹t时刻所处状态,γ为折扣因子,取γ=0.9。采样轨迹折扣特征之和定义为
其中为采样轨迹t时刻所处状态;
步骤4.3:计算NE条专家轨迹的特征期望折扣和:
其中表示第j个专家在t时刻的状态;
步骤4.4:初始化奖励函数权重wi
步骤4.5:搜索的最大最小值,计算∈i
其中Δ表示的置信概率上界,其中D是专家轨迹集合,/>是对奖励函数权重向量为w时专家轨迹τE的发生概率的估计,实 际取Δ=0.1;
步骤4.6:计算权重更新次梯度:
其中是采样联合策略,用来产生NS条轨迹τS,采样过程如 步骤4.1所述;αi由wi的符号决定,当wi≥0时,αi=1;当wi<0时,αi=0;
步骤4.7:更新奖励函数权重wi,取学习率lr=0.01:
步骤4.8:重复步骤4.6-4.7,直到奖励函数权重wi收敛。
步骤5中样本优先级定义如下,定义TD目标Q值为:
其中a(s′)表示状态s′下的可选动作集合;TD误差表示为:
δ(si,ai)=Qtarget(si,ai)-Q(si,ai;θ,θva)
其中si,ai分别表示第i个样本的状态值和动作值;对于重放缓存区内的第k个样本, 根据其TD误差的绝对值大小进行降序排列,定义其优先级pk为排序序号的倒数。 若重放缓存区满,则依据样本优先级,从重放缓存区中抽取小批量样本,并进行 神经网络训练和参数更新,具体步骤为:
步骤5.1:计算第k个样本被采样的概率为:
其中μ是超参数指数,取为1;R是重放缓存区大小,取为20000;
步骤5.2:在重放缓存区中,依据每个样本被采样的概率,抽取小批量样本, 批大小B=64;
步骤5.3:主网络参数以小批量样本上的均方TD误差
J(θ,θva)=(Qtarget(si,ai)-Q(si,ai;θ,θva))2
为损失函数进行反向传播更新;
步骤5.4:目标网络参数θ-,以主网络参数为更新目标,按以下方式更 新:
θ-=αθ-+(1-α)θ
其中α是超参数学习率,取α=0.001;
步骤5.5:更新ε-贪心方式的探索率ε:
ε=max(εmax-nt·εstepmin)
其中εmax和εmin为预设的ε可取的最大值与最小值,nt为当前训练步数,εstep为 下降步长;取εmax=1,εmin=0.01,εstep=10000。
采用上述技术方案带来的有益效果:
(1)本发明在单独使用基于深度强化学习的交通灯控制方法时,能够在均 衡车流场景下实现最优控制性能,在非均衡车流场景下取得优于固定均匀相位方 案的控制性能。
(2)本发明在综合使用基于深度强化学习和逆强化学习的交通灯控制方法 时,能够有效提取专家奖励函数,实现了对专家经验的有效利用,算法对专家轨 迹中存在的控制或观测噪声有较强的鲁棒性。用逆强化学习提取的奖励函数指导 深度强化学习算法,在相同的训练条件下,在均衡车流和非均衡车流场景下的实 验表明,逆强化学习算法的引入均能提升原深度强化学习算法的控制性能,取得 不低于专家方案性能的控制效果。
附图说明
图1是本发明的算法框图;
图2是本发明的算法流程图;
图3是实验测试环境CityFlow。
具体实施方式
下面将结合附图,进一步阐明本发明。下述具体实施方式仅用于说明本发明 而不用于限制本发明的范围。
实施例1:本发明提供了一种基于深度强化学习和逆强化学习的交通灯控制 方法,总体算法结构见图1和图2。
假设交通灯每个周期的相位顺序是固定的,相位时长是可变的,交通灯控制 通过调整各相位时长实现。受控道路交叉口的马尔科夫决策模型建立如下:
(1)状态量。第i个控制周期的状态量表示为si=[si,1,si,2],其中si,1表征道 路拥堵程度,si,2表征当前各相位长度大小。具体地,si,1=[qi,1,qi,2,…,qi,Nl], 其中ti表示第i个控制周期的开始时刻,lj(t)表示车道 j在t时刻的静止排队车辆数,/>表示车道j可容纳的最大车辆数,Nl是道路交叉口 车道总数。si,2=[hi,1,hi,2,hi,3,hi,4],其中/>bi,m表示第i周期内相 位m的时长,/>表示相位m允许的最大时长,取/>在四相位控制方案下, m的最大值为4。
(2)动作量。动作量指定下一周期各相位时长相对本周期的变化量,可选 的变化方式有:以5s的幅度调整单个相位的长度,或者保持当前各相位长度不 变。对于M相位控制的路口,可选动作共有2M+1种,包括对M种相位单独增、 减5s,或者保持当前各相位长度。
(3)奖励函数。在单独使用基于深度强化学习的交通灯控制方法时,第i周 期获得的奖励为:
该奖励函数惩罚排队长度较大的状态。由于深度强化学习的训练目标是最大化累积奖励,该奖励函数能够有效降低车辆排队长度。在使用基于深度强化学习和逆 强化学习的交通灯控制方法时,奖励函数由逆强化学习过程得到。
本发明使用深度神经网络近似动作价值函数,进行深度强化学习训练,并为 相对熵逆强化学习的应用搭建基本框架,具体包括以下步骤:
步骤1:设置超参数,搭建双决斗深度Q神经网络,初始化主网络和目标网 络;
步骤2:初始化交通灯控制系统,初始化相位长度;
步骤3:交通灯控制系统按本周期预设各相位长度进行相位切换,完成一周 期运行;获取本周期状态,利用主网络评估各动作价值,并依据ε-贪心方式选择 动作,即:以概率ε随机选择动作,以概率1-ε选择价值最大的动作执行;
步骤4:智能体获得奖励,保存上一周期状态、上一周期动作、上一周期奖 励、本周期状态,作为样本放入重放缓存区;
步骤5:若重放缓存区满,则依据样本优先级,从重放缓存区中抽取小批量 样本,进行神经网络训练和参数更新;
步骤6:根据步骤3的动作选择结果,设置交通系统下一周期各相位长度。
步骤7:重复步骤3-6,当本回合结束后,记录本回合折扣回报;
步骤8:当训练回合数达到预设值后停止。
其中,步骤1中使用的主网络对状态s下动作a的价值Q(s,a;θ,θva)表示为:
其中θ,θva是主网络参数,V(s;θ,θv)表示当前状态下的未来期望回报,A(s,a;θ,θa)表示状态s下采取动作a的期望回报,表示动作空间维数;目标网 络的动作价值近似为/>其网络参数θ-,/>初值与主网络参数 θ,θva相同。
在此基础上,使用逆强化学习算法设计奖励函数。假设奖励函数由F个线性 特征加权组合而成:
其中,s是本周期状态量,fi(s)是关于状态s的特征函数f(s)的第i维分量, 此处取f(s)=s,wi为权重。wi的计算过程包含以下步骤:
步骤4.1:配置交通灯控制环境,执行专家策略,生成长度为L的专家轨迹τE共NE条;执行均匀策略,生成长度为L的采样轨迹τS共NS条。在均匀策略中,状 态st条件下动作at的执行概率为#(a(st))表示状态st下可选动 作总数;
步骤4.2:提取专家轨迹折扣特征之和、采样轨迹折扣特征之和。其中,专 家轨迹折扣特征之和定义为
其中为专家轨迹t时刻所处状态,γ为折扣因子,取γ=0.9。采样轨迹折扣特征之和定义为
其中为采样轨迹t时刻所处状态;
步骤4.3:计算NE条专家轨迹的特征期望折扣和:
其中表示第j个专家在t时刻的状态;
步骤4.4:初始化奖励函数权重wi
步骤4.5:搜索的最大最小值,计算∈i
其中Δ表示的置信概率上界,其中D是专家轨迹集合,/>是对奖励函数权重向量为w时专家轨迹τE的发生概率的估计,实 际取Δ=0.1;
步骤4.6:计算权重更新次梯度:
其中是采样联合策略,用来产生NS条轨迹τS,采样过程如 步骤4.1所述;αi由wi的符号决定,当wi≥0时,αi=1;当wi<0时,αi=0;
步骤4.7:更新奖励函数权重wi,取学习率lr=0.01:
步骤4.8:重复步骤4.6-4.7,直到奖励函数权重wi收敛。
步骤5中样本优先级定义如下。定义TD目标Q值为:
其中a(s′)表示状态s′下的可选动作集合;TD误差表示为:
δ(si,ai)=Qtarget(si,ai)-Q(si,ai;θ,θva)
其中si,ai分别表示第i个样本的状态值和动作值;对于重放缓存区内的第k个样本, 根据其TD误差的绝对值大小进行降序排列,定义其优先级pk为排序序号的倒数。 若重放缓存区满,则依据样本优先级,从重放缓存区中抽取小批量样本,并进行 神经网络训练和参数更新,具体步骤为:
步骤5.1:计算第k个样本被采样的概率为:
其中μ是超参数指数,取为1;R是重放缓存区大小,取为20000;
步骤5.2:在重放缓存区中,依据每个样本被采样的概率,抽取小批量样本, 批大小B=64;
步骤5.3:主网络参数以小批量样本上的均方TD误差
J(θ,θva)=(Qtarget(si,ai)-Q(si,ai;θ,θva))2
为损失函数进行反向传播更新;
步骤5.4:目标网络参数θ-,以主网络参数为更新目标,按以下方式更 新:
θ-=αθ-+(1-α)θ
其中α是超参数学习率,取α=0.001;
步骤5.5:更新ε-贪心方式的探索率ε:
ε=max(εmax-nt·εstepmin)
其中εmax和εmin为预设的ε可取的最大值与最小值,nt为当前训练步数,εstep为 下降步长;取εmax=1,εmin=0.01,εstep=10000。
下文将通过实例说明本发明的先进性,测试比较传统交通灯控制算法、单独 使用深度强化学习的控制算法和综合使用逆强化学习与深度强化学习的改进算 法的效果。
(1)基本设置
测试环境选择CityFlow平台,如图3,该平台支持智能体获取各车道车辆 数、行驶速度、所处位置等多种信息,并通过指定交叉口切换到某种信号灯组合 来实现控制。在变周期控制方案下,规定各相位绿灯时长的合法值为10~60s, 取值间隔为5s。每相位结束后,将设置5s的全场红灯,以此起到清场作用。交 叉口由四条垂直道路构成,考虑以下场景:
A.单车道均衡车流场景:交叉口的每条道路仅直行车道通行,车辆平均到 达间隔为20s。相位顺序为:东西向直行,南北向直行;
B.单车道非均衡车流场景:交叉口的每条道路仅直行车道通行,东西向车 辆平均到达间隔为5s,南北向车辆平均到达间隔为15s。相位顺序为: 东西向直行,南北向直行。
(2)专家数据
在均衡车流下,固定均匀相位控制方案是最优方案。对于场景A而言,专家 方案为东西直行10s,南北直行10s。而非均衡车流场景不存在固定最优均匀相 位控制方案,场景B中取实际测试后相对较好的方案“东西直行15s,南北直行 15s”作为假定专家。为了测试逆强化学习的鲁棒性,在场景A的专家方案中另 增10%的随机性,作为次优专家方案。设置专家轨迹长度为100,在场景A和B 下分别使用上述专家方案进行控制,得到专家示例轨迹集合并保存。
(3)评价指标
本发明中,交通灯控制的目标是缓解交叉口拥堵状况、提高通行效率。选择 两个常用指标评估交通灯控制性能,分别为4000s内平均排队长度和所有车辆的 平均通行时间。
在奖励函数学习方面,选择皮尔逊相似系数衡量逆强化学习结果与专家实际 奖励函数的相似性。
(4)测试结果与分析
在场景A中,专家特征权重为wgt=[-1,-1,-1,-1,0,0]。生成专家示例轨 迹共900条,重要性采样轨迹共900条。经逆强化学习过程,奖励函数的特征权 重w收敛至对次优专家轨 迹进行学习,特征权重w收敛至 />另取服从-0.5~0.5均匀分 布的随机权重wrand=[-0.18,0.29,0.47,0.22,-0.48,0.08]作为对照。计算以 上三者与wgt的皮尔逊相似系数如表1,表1是专家实际奖励权重与逆强化学习 所得奖励权重、随机权重的皮尔曼相似系数对比表格;
表1:
逆强化学习结果能够反映专家真实奖励函数,并且当专家数据含噪声时也能 取得很好的学习效果,具有较好的鲁棒性。
记固定均匀相位控制方案为Fixed time,单独使用深度强化学习的方案为 DRL,综合使用逆强化学习与深度强化学习的改进方案为IRL-DRL。对三种算法 分别进行4000s仿真实验,表2给出了其控制效果。表2是单车道均衡车流场景下 使用固定均匀相位方案、深度强化学习方案、综合逆强化学习和深度强化学习方 案测试下,车辆平均通行时间和交叉口平均排队长度的数据对比表格;
表2:
相比固定均匀相位方案,DRL和IRL-DRL控制都能将平均排队长度降低50%, 且IRL-DRL优于DRL。
在场景B中,由于车流不均衡,专家实际奖励函数未知,因此只能通过交通 灯实际控制效果来说明逆强化学习过程的有效性。生成专家示例轨迹共600条, 重要性采样轨迹共900条,经逆强化学习得到收敛后的奖励函数特征权重为了研究专家轨迹对逆强化学习 算法的影响,在场景B这种特殊的固定不均衡车流中,引入比固定均匀相位有明 显优势的不均匀相位专家轨迹2“东西直行25s,南北直行10s”进行学习,得到
利用和/>进行深度强化学习训练,其结果分别记为/>对两种专家方案、DRL和IRL-DRL方案分别进行4000s仿真实验,
表3:是单车道非均衡车流场景下使用固定均匀相位方案、深度强化学习方 案、综合逆强化学习和深度强化学习方案测试下,车辆平均通行时间和交叉口平 均排队长度的数据对比表格。
表3:
表3所示结果表明:使用固定均匀的专家方案时,IRL-DRL的效果能够优于该 专家方案;使用固定不均匀专家方案时,IRL-DRL能够取得与专家方案同等的控 制效果,进一步提升深度强化学习的性能;显著不同的专家轨迹也会影响逆强化 学习的结果。
实例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按 照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保 护范围之内。

Claims (1)

1.一种基于深度强化学习和逆强化学习的交通灯控制方法,其特征在于:该方法包括以下步骤:
步骤1:设置超参数,搭建双决斗深度Q神经网络,初始化主网络和目标网络,其中主网络对状态s下动作a的价值Q(s,a;θ,θva)表示为:
其中θ,θva是主网络参数,V(s;θ,θv)表示当前状态下的未来期望回报,A(s,a;θ,θa)表示状态s下采取动作a的期望回报,表示动作空间,/>表示动作空间维数;目标网络的动作价值近似为/>其网络参数/>初值与主网络参数θ,θva相同;
步骤2:初始化交通灯控制系统,初始化相位长度;
步骤3:交通灯控制系统按本周期预设各相位长度进行相位切换,完成一周期运行;获取本周期状态,利用主网络评估各动作价值,并依据ε-贪心方式选择动作,即:以概率ε随机选择动作,以概率1-ε选择价值最大的动作执行;
步骤4:智能体获得奖励,保存上一周期状态、上一周期动作、上一周期奖励、本周期状态,作为样本放入重放缓存区;奖励函数由F个特征线性加权组合而成:
其中,s是本周期状态量,fi(s)是关于状态s的特征函数f(s)的第i维分量,此处取f(s)=s,wi为权重,wi的计算过程使用相对熵逆强化学习实现,具体包含以下步骤:
步骤4.1:配置交通灯控制环境,执行专家策略,生成长度为L的专家轨迹τE共NE条;执行均匀策略,生成长度为L的采样轨迹τS共NS条,在均匀策略中,状态st条件下动作at的执行概率为#(a(st))表示状态st下可选动作总数;
步骤4.2:提取专家轨迹折扣特征之和、采样轨迹折扣特征之和,其中,专家轨迹折扣特征之和定义为
其中为专家轨迹t时刻所处状态,γ为折扣因子,取γ=0.9;采样轨迹折扣特征之和定义为
其中为采样轨迹t时刻所处状态;
步骤4.3:计算NE条专家轨迹的特征期望折扣和:
其中表示第j个专家在t时刻的状态;
步骤4.4:初始化奖励函数权重wi
步骤4.5:搜索的最大最小值,计算∈i
其中,Δ表示的置信概率上界,其中D是专家轨迹集合,是对奖励函数权重向量为w时专家轨迹τE的发生概率的估计,实际取Δ=0.1;
步骤4.6:计算权重更新次梯度:
其中是采样联合策略,用来产生NS条轨迹τS,采样过程如步骤4.1所述;αi由wi的符号决定,当wi≥0时,αi=1;当wi<0时,αi=0;
步骤4.7:更新奖励函数权重wi
其中学习率lr=0.01;
步骤4.8:重复步骤4.6-4.7,直到奖励函数权重wi收敛;
步骤5:若重放缓存区满,则依据样本优先级,从重放缓存区中抽取小批量样本,进行神经网络训练和参数更新;样本优先级定义如下:
定义TD目标Q值为:
其中,a(s′)表示状态s′下的可选动作集合;TD误差表示为:
δ(si,ai)=Qtarget(si,αi)-Q(si,ai;θ,θv,θa)
其中si,ai分别表示第i个样本的状态值和动作值;对于重放缓存区内的第k个样本,根据其TD误差的绝对值大小进行降序排列,定义其优先级pk为排序序号的倒数;若重放缓存区满,则依据样本优先级,从重放缓存区中抽取小批量样本,并进行神经网络训练和参数更新,具体步骤为:
步骤5.1:计算第k个样本被采样的概率为:
其中μ是超参数指数,取为1;R是重放缓存区大小,取为20000;
步骤5.2:在重放缓存区中,依据每个样本被采样的概率,抽取小批量样本,批大小B=64;
步骤5.3:主网络参数以小批量样本上的均方TD误差
J(θ,θv,θa)=(Qtarget(si,ai)-Q(si,ai;θ,θv,θa))2
为损失函数进行反向传播更新;
步骤5.4:目标网络参数以主网络参数为更新目标,按以下方式更新:
θ-=αθ-+(1-α)θ
其中α是超参数学习率,取α=0.001;
步骤5.5:更新ε-贪心方式的探索率ε:
ε=max(εmax-ntεstep,εmin)
其中εmax和εmin为预设的ε可取的最大值与最小值,nt为当前训练步数,εstep为下降步长;取εmax=1,εmin=0.01,εstep=10000;
步骤6:根据步骤3的动作选择结果,设置交通系统下一周期各相位长度;
步骤7:重复步骤3-6,当本回合结束后,记录本回合折扣回报;
步骤8:当训练回合数达到预设值后停止。
CN202211145915.2A 2022-09-20 2022-09-20 一种基于深度强化学习和逆强化学习的交通灯控制方法 Active CN115762199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211145915.2A CN115762199B (zh) 2022-09-20 2022-09-20 一种基于深度强化学习和逆强化学习的交通灯控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211145915.2A CN115762199B (zh) 2022-09-20 2022-09-20 一种基于深度强化学习和逆强化学习的交通灯控制方法

Publications (2)

Publication Number Publication Date
CN115762199A CN115762199A (zh) 2023-03-07
CN115762199B true CN115762199B (zh) 2023-09-29

Family

ID=85350327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211145915.2A Active CN115762199B (zh) 2022-09-20 2022-09-20 一种基于深度强化学习和逆强化学习的交通灯控制方法

Country Status (1)

Country Link
CN (1) CN115762199B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575174B (zh) * 2024-01-15 2024-04-02 山东环球软件股份有限公司 智能农业监测与管理系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018126323A1 (en) * 2017-01-06 2018-07-12 Sportlogiq Inc. Systems and methods for behaviour understanding from trajectories
CN111445695A (zh) * 2019-10-16 2020-07-24 北京航空航天大学 一种智能车路系统的运行状况监测方法
CN112200089A (zh) * 2020-10-12 2021-01-08 西南交通大学 一种基于车辆计数感知注意力的稠密车辆检测方法
CN112308005A (zh) * 2019-11-15 2021-02-02 电子科技大学 基于gan的交通视频显著性预测方法
CN113269322A (zh) * 2021-05-24 2021-08-17 东南大学 一种基于自适应超参数的深度强化学习改进方法
CN113436443A (zh) * 2021-03-29 2021-09-24 东南大学 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
WO2021243568A1 (en) * 2020-06-02 2021-12-09 Beijing Didi Infinity Technology And Development Co., Ltd. Multi-objective distributional reinforcement learning for large-scale order dispatching
CN114141028A (zh) * 2021-11-19 2022-03-04 哈尔滨工业大学(深圳) 智能红绿灯车流调控系统
CN114330868A (zh) * 2021-12-27 2022-04-12 西北工业大学 基于自注意力的个性化增强图卷积网络的客流预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733511B1 (en) * 2019-01-30 2020-08-04 StradVision, Inc. Learning method and learning device for updating HD map by reconstructing 3D space by using depth estimation information and class information on each object, which have been acquired through V2X information integration technique, and testing method and testing device using the same

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018126323A1 (en) * 2017-01-06 2018-07-12 Sportlogiq Inc. Systems and methods for behaviour understanding from trajectories
CN111445695A (zh) * 2019-10-16 2020-07-24 北京航空航天大学 一种智能车路系统的运行状况监测方法
CN112308005A (zh) * 2019-11-15 2021-02-02 电子科技大学 基于gan的交通视频显著性预测方法
WO2021243568A1 (en) * 2020-06-02 2021-12-09 Beijing Didi Infinity Technology And Development Co., Ltd. Multi-objective distributional reinforcement learning for large-scale order dispatching
CN112200089A (zh) * 2020-10-12 2021-01-08 西南交通大学 一种基于车辆计数感知注意力的稠密车辆检测方法
CN113436443A (zh) * 2021-03-29 2021-09-24 东南大学 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
CN113269322A (zh) * 2021-05-24 2021-08-17 东南大学 一种基于自适应超参数的深度强化学习改进方法
CN114141028A (zh) * 2021-11-19 2022-03-04 哈尔滨工业大学(深圳) 智能红绿灯车流调控系统
CN114330868A (zh) * 2021-12-27 2022-04-12 西北工业大学 基于自注意力的个性化增强图卷积网络的客流预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于手势识别的工业机器人操作控制方法;蒋穗峰;李艳春;肖南峰;;计算机应用(12);全文 *

Also Published As

Publication number Publication date
CN115762199A (zh) 2023-03-07

Similar Documents

Publication Publication Date Title
CN111243271A (zh) 一种基于深度循环q学习的单点交叉口信号控制方法
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN115762199B (zh) 一种基于深度强化学习和逆强化学习的交通灯控制方法
CN110562301B (zh) 基于q学习的地铁列车节能驾驶曲线计算方法
CN110570672A (zh) 一种基于图神经网络的区域交通信号灯控制方法
Pang et al. Deep deterministic policy gradient for traffic signal control of single intersection
CN113436443A (zh) 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
CN110428093A (zh) 基于改进的布谷鸟算法的城市轨道列车运行优化方法
CN113963555A (zh) 一种结合状态预测的深度强化学习交通信号控制方法
CN113112823A (zh) 一种基于mpc的城市路网交通信号控制方法
Chen et al. Engineering a large-scale traffic signal control: A multi-agent reinforcement learning approach
CN113392577B (zh) 一种基于深度强化学习的区域边界主交叉口信号控制方法
CN113724507B (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
CN115019523A (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
CN113299079B (zh) 一种基于ppo和图卷积神经网络区域交叉口信号控制方法
CN114613169A (zh) 一种基于双经验池dqn的交通信号灯控制方法
CN110220527A (zh) 一种基于公众活动预测的路径规划方法和装置
CN115472023B (zh) 一种基于深度强化学习的智能交通灯控制方法及装置
CN111273251B (zh) 一种基于多核dsp的粒子群交换长时间积累实现方法
CN116758768A (zh) 一种全十字路口红绿灯动态调控方法
CN112216126A (zh) 一种基于sarsa的干线交通控制优化方法
CN115691110B (zh) 一种面向动态车流的基于强化学习的交叉口信号周期稳定配时方法
Li et al. Research on signal control method of deep reinforcement learning based on value distribution
CN116137103B (zh) 基于图元学习和深度强化学习的大规模交通灯信号控制方法
CN115171408B (zh) 一种交通信号优化控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant