CN116189464A - 基于精细化回报机制的交叉熵强化学习可变限速控制方法 - Google Patents

基于精细化回报机制的交叉熵强化学习可变限速控制方法 Download PDF

Info

Publication number
CN116189464A
CN116189464A CN202310130498.2A CN202310130498A CN116189464A CN 116189464 A CN116189464 A CN 116189464A CN 202310130498 A CN202310130498 A CN 202310130498A CN 116189464 A CN116189464 A CN 116189464A
Authority
CN
China
Prior art keywords
bottleneck
return
return value
value
efficiency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310130498.2A
Other languages
English (en)
Other versions
CN116189464B (zh
Inventor
郑思
李志斌
冯汝怡
黎萌
王顺超
王秉通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202310130498.2A priority Critical patent/CN116189464B/zh
Publication of CN116189464A publication Critical patent/CN116189464A/zh
Application granted granted Critical
Publication of CN116189464B publication Critical patent/CN116189464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/065Traffic control systems for road vehicles by counting the vehicles in a section of the road or in a parking area, i.e. comparing incoming count with outgoing count
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,首先获得连续多瓶颈路段高速公路的交通流信息
Figure ZY_1
;再设计同时考虑安全和效率的孤立瓶颈路段的综合回报值函数;接着设计附加修正函数对综合回报值精细化处理;再计算各个瓶颈的基于历史交通流和道路线型设计的重要性系数,得到各个瓶颈回报值的组成重要性系数并计算出高速公路全局回报值;然后采用交叉熵强化学习算法训练神经网络模型直至收敛;神经网络计算得到各瓶颈路段的最优协同控制值,对各个控制区进行限速控制生成新的交通流状态。本发明提出的可变限速控制方法能够获得最优的协调控制动作,能够有效地降低系统的总通行时间,改善道路安全性能。

Description

基于精细化回报机制的交叉熵强化学习可变限速控制方法
技术领域
本发明属于智能交通和交通控制技术领域,具体涉及一种基于精细化回报机制的交叉熵强化学习可变限速控制方法。
背景技术
在过去的几十年里,交通拥堵已成为高速公路上常见的交通问题。拥堵发生在高速公路瓶颈附近,有时会向上游和下游蔓延。当今可用的高速公路实时交通流数据使智能交通系统(ITS)服务的实际应用能够用作改善交通的交通控制措施。可变限速(VSL)控制已被引入作为缓解拥堵和改善高速公路瓶颈处交通运营的有效方法。高速公路中经常出现连续瓶颈的场景,但是以往的可变限速控制策略针对局部的瓶颈路段进行控制,缺乏对于不同瓶颈处限速控制器的协同控制。
发明内容
为了解决上述背景技术提到的技术问题,本发明提出了一种基于精细化回报机制的交叉熵强化学习可变限速控制方法。
为了实现上述技术目的,本发明的技术方案为:
一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,其特征在于,包括以下步骤:
S1、获得连续多瓶颈高速公路各路段的交通流数据,对交通流数据归一化处理并生成当前时间步交通流状态信息s;
S2、在每个瓶颈路段部署一个智能体进行限速控制,建立每个瓶颈路段的综合回报值函数,综合回报值rj包括道路通行效率回报值refficiency和道路安全回报值rsafety
S3、建立refficiency和rsafety的附加修正函数,对步骤S2建立的每个瓶颈路段的回报值进行精细化处理,得到修正后的综合回报值r′j
S4、根据交通状态信息s计算得到各瓶颈回报值并存储在数据集中,计算各个瓶颈回报值的历史交通流重要性系数ws(j)和道路线型设计重要性系数wp(j),得到组成重要性系数w(j),计算整条高速公路所有瓶颈的全局回报值R;
S5、设计用于训练智能体的深度强化学习算法神经网络,为所有的智能体建立一个回放记忆库
Figure BDA0004083616340000021
存放训练过程中产生的数据;其中,所述回放记忆库存放的数据包括:当前时间步交通流状态信息s、限速控制动作值α、全局回报值R;选取回放记忆库/>
Figure BDA0004083616340000022
中位于前20%的R对应的数据进行训练,以交叉熵作为损失函数更新神经网络直至收敛;
S6、根据步骤S5收敛后的神经网络计算得到各瓶颈的最优协同限速控制动作,对整条高速公路各个控制区执行限速动作,生成新的交通流状态。
优选地,步骤S1具体包括以下步骤:
S11、通过GPS每30秒获取一次当前车辆的经、纬度以及海拔高度,确定当前车辆的位置信息,将车辆位置信息进行封装,封装的格式包括:车辆标识、速度、车辆GPS信息和时间戳;
S12、对步骤S11采集的数据进行归一化处理,生成道路的实时交通状态信息s,s信息包括:瓶颈j上游主路的需求dj up,瓶颈j上游匝道的需求dj ramp,瓶颈上游主路的密度kj up,瓶颈处密度kj,瓶颈j上游匝道的密度kj ramp,瓶颈区域每辆车d的速度vd(k),位置xd(k)。
优选地,步骤S2具体包括以下步骤:
S21、计算高速公路瓶颈路段通行效率的回报值,公式表达如下:
Figure BDA0004083616340000023
式中,kcr是瓶颈路段的关键密度,当高速公路瓶颈路段的密度在关键密度附近时,高速公路的通行效率回报值最高,回报值为1;当高速公路瓶颈路段的密度大于40辆/英里,即高速公路非常拥堵时,回报值为-1,表示惩罚。其它情况下,高速公路的通行效率回报值为0;
S22、获得瓶颈区域内道路车辆i的实时位置和速度信息,计算出车辆d碰撞时间TTC,公式表达如下:
Figure BDA0004083616340000024
式中,TTCd(t)表示两辆车相撞之前的剩余时间量,其中d为车辆编号,xd-1(t)表示前车的位置,xd(t)表示后车的位置,xd-1(t)-xd(t)表示两车间的距离,vd(t)表示后车的速度,vd-1(t)表示前车的速度,vd(t)-vd-1(t)表示两车的相对速度;
S23、计算累计碰撞时间TET(t),公式表达如下:
Figure BDA0004083616340000031
式中,TET(t)指的是前后车处于危险跟随状态所花费的总时间,即实际值TTC小于设定TTC*阈值所持续的时间,TTC*安全阈值设定为5秒,N为瓶颈路段的车辆总数;
S24、计算瓶颈路段安全的回报值,公式表达如下:
Figure BDA0004083616340000032
式中,N为瓶颈路段的车辆总数,ξ为安全回报的阈值;
S25、计算孤立瓶颈的安全和效率的综合回报值,公式表达如下:
rj=ε1rsafety2refficiency
式中,rj表示第j个瓶颈的回报值,ε1为安全回报系数;ε2为效率回报系数,且ε1和ε2都是正数。
优选地,步骤S3具体包括以下步骤:
S31、设计效率性能函数,设计S2中回报值refficiency的附加修正函数,公式表达如下:
Figure BDA0004083616340000033
/>
Figure BDA0004083616340000034
式中,f1(s→s′)是回报refficiency的附加修正函数,表示从s状态到s′的效率性能差,Θ1(s)表示在s状态下的效率性能,Θ1(s′)表示在s′状态下的效率性能,γ1,a1和β1为系数,且都是正数,ks表示瓶颈路段在s状态下的密度,kcr表示瓶颈路段的关键密度;
S32、设计安全性能函数,并构造回报值rsafety的附加修正函数,公式表达如下:
Figure BDA0004083616340000035
Figure BDA0004083616340000036
式中,f2(s→s′)是回报rsafety的附加修正函数,表示从s状态到s′的安全性能差,Θ2(s)表示在s状态下的安全性能,Θ2(s′)表示在s′状态下的安全性能,γ2,a2和β2为系数,且都是正数。TET(s)表示在s状态下前后车处于危险跟随状态所花费的总时间,N为瓶颈路段的车辆总数;
S33、计算修正后的效率回报函数r′efficiency,公式表达如下:
r′efriciency=refficiency+f1(s→s′)
S34、计算修正后的安全回报函数r′safety,公式表达如下:
r′safety=rsafety+f2(s→s′)
S35、计算瓶颈处修正后的安全和效率的综合回报值,公式表达如下:
r′j=ε1r′safety2r′efficiency
式中,ε1为安全回报系数;ε2为效率回报系数,且ε1和ε2都是正数。
优选地,步骤S4具体包括以下步骤:
S41、根据实时收集的交通状态信息计算获得各瓶颈回报值并存储在数据集中,计算各个瓶颈的回报值的历史交通流重要性系数ws(j),公式表达如下:
Figure BDA0004083616340000041
Figure BDA0004083616340000042
Figure BDA0004083616340000043
式中,i为数据集中利用随机抽样法获取的回报值编号,n为回报值总数,j为高速公路瓶颈编号,m为瓶颈总数,r′ij为经过去量纲化处理后的第i条数据的第j个瓶颈的回报值,pij为第j个瓶颈回报值在第i条数据中占总回报值的比例,Ej为第j个瓶颈回报值函数的信息熵;
S42、依据三项指标:道路曲率变化率、纵坡坡度、单向车道数,通过标度法得到各个瓶颈指标分数计算各个瓶颈回报值的道路线型设计重要性系数wp(j),公式表达如下:
Figure BDA0004083616340000044
式中,
Figure BDA0004083616340000045
是瓶颈j的道路曲率变化率分数、/>
Figure BDA0004083616340000046
是瓶颈j的纵坡坡度分数、/>
Figure BDA0004083616340000047
是瓶颈j的单向车道数分数;
当道路曲率变化率取值区间为0~100(gon/km)时,评分为4;当道路曲率变化率取值区间为101~200(gon/km)时,评分为3;当道道路曲率变化率取值区间为201~300(gon/km)时,评分为2;当道路曲率变化率取值大于301(gon/km)时,评分为1;
当纵坡坡度的取值区间为0~2.9%时,评分为4;当纵坡坡度的取值区间为3~5.9%时,评分为3;当纵坡坡度的取值区间为6~8.9%时,评分为2;当纵坡坡度的取值区间大于≥9%时,评分为1;
当单向车道数为4条时,评分为4;当单向车道数为3条时,评分为3;当单向车道数为2条时,评分为2;当单向车道数为1条时,评分为1;
S43、利用基于历史交通流数据得到的重要性系数ws(j)以及道路线型设计得到的重要性系数wp(j),计算组成重要性系数w(j),公式表达如下:
Figure BDA0004083616340000051
式中,j为高速公路瓶颈编号,m为瓶颈总数,;
根据组成重要性系数w(j)计算出整个路段的全局回报值R,公式表达如下:
Figure BDA0004083616340000052
式中,R表示整条公路的全局回报值,r′j表示第j个瓶颈的回报值,ωj表示第j个瓶颈回报值权重,m为瓶颈总数。
优选地,步骤S5具体包括以下步骤:
S51、设计一个用于智能体训练的神经网络,神经网络包含一个输入层、一个输出层和一个隐藏层,初始化神经网络;
S52、每隔一个仿真步长k=30秒,可变限速控制的m个智能体同时与真实的道路场景进行实时交互,智能体神经网络计算出限速控制动作a,收集每个仿真步长产生的数据,包括交通状态s、限速控制动作a,以及回报值R,并以元祖的形式存储在回放记忆库
Figure BDA0004083616340000053
中,元祖的具体形式为(s,s′,a,R),其中s′为下一时间步交通流状态信息;再判断仿真步数是否大于10000,若是则进入步骤S53,若不是则智能体继续回到S52;
限速控制动作值应在路段允许的最高和最低限速值之间,即av∈{Vmin,Vmax},同时考虑到驾驶员对限速值的接受情况,发布的限速值取为5或10的整数倍;大量测试可知动作集合中限速值的取值范围为5mph至65mph,选取步长定为5mph,因此动作集合中元素为{5mph,10mph,15mph,20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph};
S53、判断仿真步数是否为100的倍数,若是则进入S54,若不是则依然以当前神经网络生成下一步的限速动作。
S54、选取回放记忆库
Figure BDA0004083616340000062
中位于前20%的R对应的元祖数据,以这20%的经验数据中所采用的控制策略(本质是动作选择的概率分布)作为标签,以交叉熵作为损失函数来更新智能体的神经网络,神经网络生成下一步的限速动作,交叉熵的计算公式如下:/>
Figure BDA0004083616340000061
式中,H(y,g)为交叉熵,y(av)为选取的位于前20%的数据中动作的概率,g(av)为智能体未来选择动作的概率,v为动作的编码,L为可选的限速动作的总数;
重复S53-S54直至神经网络收敛。
采用上述技术方案带来的有益效果:
本发明公开了一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,设计附加修正函数对综合回报值函数精细化处理,计算各个瓶颈智能体回报值的组成重要性系数并得到全局回报值函数,然后采用交叉熵强化学习算法训练神经网络模型得到最优限速值。本发明提出的可变限速控制方法能够平衡不同瓶颈限速值公平性,收敛速度快,控制动作精准,有效地提升了连续多瓶颈高速公路的通行效率、改善了交通安全。
附图说明
图1是发明的流程示意图;
图2是基于精细化回报机制的交叉熵强化学习可变限速控制方法与真实道路的交互模块图;
图3是不同控制策略下的道路系统总行程时间图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
本发明公开了一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,具体步骤如图1所示。
本发明的以高速公路路段作为实施例,如图2所示,该路段包含四个连续的瓶颈。高速公路的长度为4.2英里。在高速公路上布设了检测器,实时地采集道路的交通流的数据。仅考虑东行交通,四个瓶颈分别位于距路段起点0.7、1.7、2.7和3.7英里处。在瓶颈区域上游路段设置了可变限速控制指示牌。主线包含四个车道。高速公路的自由流速度为65英里/小时。通行能力下降前高速公路主路的通行能力为1750辆/小时/英里。通行能力下降的幅度为7.6%,运动波的速度估计为9.5英里/小时。
结合图1的流程图,实施例的具体步骤如下:
步骤1,通过GPS每30秒获取一次当前车辆的经、纬度以及海拔高度,确定当前车辆的位置信息,将车辆位置信息进行封装,封装的格式包括:车辆标识、速度、车辆GPS信息和时间戳。
步骤2,对采集的交通流状态进行归一化处理,生成道路的实时交通状态信息s,s信息包括:瓶颈j上游主路的需求dj up,瓶颈j上游匝道的需求dj ramp,瓶颈上游主路的密度kj up,瓶颈处密度kj,瓶颈j上游匝道的密度kj ramp,瓶颈区域每辆车d的速度vd(k),位置xd(k)。采用最大最小标准化(Min-Max Normalization)的方法进行归一化的方式,计算方法如下:
Figure BDA0004083616340000071
/>
分别列出各个值的区间:
瓶颈j上游主路的需求dj up∈{4000,6500}辆/小时,
瓶颈j上游匝道的需求di ramp∈{350,1200}辆/小时,
瓶颈上游主路的密度kj up∈{10,80}辆/英里,
瓶颈处密度kj∈{10,80}辆/英里,
瓶颈j上游匝道的密度ki ramp∈{10,50}辆/英里,
瓶颈区域每辆车d的速度vd(k)∈{5,65}英里/小时,位置xd(k)。
步骤3,计算回报值;
计算通行效率的回报值,关键密度kcr为26.75辆/英里/车道。
Figure BDA0004083616340000072
计算安全的回报值。
获取瓶颈路段所有车辆的速度、位置,计算碰撞时间TTC。
Figure BDA0004083616340000081
计算累计碰撞时间TET,TTC*为5秒。
Figure BDA0004083616340000082
Figure BDA0004083616340000083
其中,ξ的缺省值为3.5;
计算瓶颈处安全和效率的综合回报值:
rj=ε1rsafety2refficiency
其中,ε1和ε2的缺省值均为0.5。
步骤4,对综合回报函数进行精细化处理,获取瓶颈位置分别在s和s′状态下的密度,通过refficiency的附加修正函数计算出更新的回报值。
Figure BDA0004083616340000084
Figure BDA0004083616340000085
r′efficiency=refficiency+f1(s→s′)
其中,参数的缺省值分别为:a1=0.7,β1=1,γ1=0.9,kcr=26.75。
获取瓶颈位置分别在s和s′状态下的所有车辆的速度、位置,通过rsafety的附加修正函数更新回报值。
Figure BDA0004083616340000086
Figure BDA0004083616340000087
/>
r′safety=rsafety+f2(s→s′)
其中,参数的缺省值分别为:a2=0.5,β2=1,γ2=0.9
r′j=ε1r′safety2refficiency
其中,参数的缺省值分别为:ε1=0.5,ε2=0.5
步骤5,构造整条高速公路所有(4个)瓶颈的全局回报函数
Figure BDA0004083616340000088
基于历史的交通数据计算各个瓶颈回报值的重要性系数ws(j)。
Figure BDA0004083616340000089
Figure BDA0004083616340000091
Figure BDA0004083616340000092
计算得到ws(1)=0.11,ws(2)=0.32,ws(3)=0.21,ws(4)=0.36。
依据三项指标:道路曲率变化率、纵坡坡度、单向车道数,通过标度法得到各个瓶颈线型设计指标分数,如表1所示。
表1
Figure BDA0004083616340000093
wj(1)=0.92,wj(2)=0.58,wj(3)=0.58,wj(4)=0.75。
综合利用基于历史交通流数据得到的重要性系数ws(j)以及道路线型设计得到的重要性系数wp(j),得到组合重要性系数。
Figure BDA0004083616340000094
得到组合重要性系数,ω1=0.23,ω2=0.25,ω3=0.24,ω4=0.28。
最终计算出整个路段的全局回报值。
Figure BDA0004083616340000095
步骤6,进行训练。训练参数如表2所示
表2
参数 数值
学习率 0.01
折扣系数 0.9
经验池大小 1000000
单次训练的样本数 1024
神经网络参数更新频率 1次/100回合
计算机处理器型号 AMD Ryzen 7 3700X 8-Core Processor 3.60GHz
步骤6.1,设计一个用于智能体训练的神经网络,神经网络包含一个输入层、一个输出层和一个隐藏层,初始化神经网络。
步骤6.2,能体神经网络计算出限速控制动作a,收集每个仿真步长产生的数据,包括交通状态s、限速控制动作a,以及回报值R,并以元祖的形式存储在回放记忆库
Figure BDA0004083616340000101
中,元祖的具体形式为(s,s′,a,R),其中s′为下一时间步交通流状态信息。
限速控制动作集合中元素为{5mph,10mph,15mph,20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph};
步骤6.3,判断仿真周期数目是否大于10000,若是则进入步骤6.4,若不是则智能体继续回到步骤6.2。
步骤6.4,判断仿真步数是否为100的倍数,若是则进入步骤6.5,若不是则依然以当前神经网络生成下一步的限速动作。
步骤6.5,选取回放记忆库
Figure BDA0004083616340000104
中位于前20%的R对应的元祖数据,以这20%的经验数据中所采用的控制策略作为标签,以交叉熵作为损失函数来更新智能体的神经网络,神经网络生成下一步的限速动作,交叉熵的计算公式如下:
Figure BDA0004083616340000102
重复步骤6.4-步骤6.5直至神经网络收敛。
步骤7,利用收敛后的神经网络进行可变限速控制,基于采集到的交通流数据,智能体神经网络实时计算高速公路各个控制区最优限速值,将限速值传输到可变限速控制板进行发布。
据统计,不同控制方式下(无可变限速控制、交叉熵强化学习、传统强化学习、反馈算法)的高速公路内车辆总通行时间、事故风险如表3所示,由下表可知,在稳定需求下,交叉熵强化学习控制下通行时间比无控情况减少了14.84%;在波动需求下,比无控情况减少了19.68%。交叉熵强化学习控制和其它控制策略相比,更有效改善瓶颈路段的通行效率,降低了事故风险。不同控制策略下的总行程时间,事故风险对比如图3,在稳定需求和波动需求两种场景中,所提出的交叉熵强化学习方法有效地降低了总行程时间,提升了通行效率,改善了道路行车安全。
表3
Figure BDA0004083616340000103
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (6)

1.一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,其特征在于,包括以下步骤:
S1、获得连续多瓶颈高速公路各路段的交通流数据,对交通流数据归一化处理并生成当前时间步交通流状态信息s;
S2、在每个瓶颈路段部署一个智能体进行限速控制,建立每个瓶颈路段的综合回报值函数,综合回报值rj包括道路通行效率回报值refficiency和道路安全回报值rsafety
S3、建立refficiency和rsafety的附加修正函数,对步骤S2建立的每个瓶颈路段的回报值进行精细化处理,得到修正后的综合回报值r′j
S4、根据交通状态信息s计算得到各瓶颈回报值并存储在数据集中,计算各个瓶颈回报值的历史交通流重要性系数ws(j)和道路线型设计重要性系数wp(j),得到组成重要性系数w(j),计算整条高速公路所有瓶颈的全局回报值R;
S5、设计用于训练智能体的深度强化学习算法神经网络,为所有的智能体建立一个回放记忆库
Figure FDA0004083616330000011
存放训练过程中产生的数据;其中,所述回放记忆库存放的数据包括:当前时间步交通流状态信息s、限速控制动作值a、全局回报值R;选取回放记忆库D中位于前20%的R对应的数据进行训练,以交叉熵作为损失函数更新神经网络直至收敛;
S6、根据步骤S5收敛后的神经网络计算得到各瓶颈的最优协同限速控制动作,对整条高速公路各个控制区执行限速动作,生成新的交通流状态。
2.根据权利要求1所述一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,其特征在于,步骤S1具体包括以下步骤:
S11、通过GPS每30秒获取一次当前车辆的经、纬度以及海拔高度,确定当前车辆的位置信息,将车辆位置信息进行封装,封装的格式包括:车辆标识、速度、车辆GPS信息和时间戳;
S12、对步骤S11采集的数据进行归一化处理,生成道路的实时交通状态信息s,s信息包括:瓶颈j上游主路的需求dj up,瓶颈j上游匝道的需求dj ramp,瓶颈上游主路的密度kj up,瓶颈处密度kj,瓶颈j上游匝道的密度kj ramp,瓶颈区域每辆车d的速度vd(k),位置xd(k)。
3.根据权利要求1所述一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,其特征在于,步骤S2具体包括以下步骤
S21、计算高速公路瓶颈路段通行效率的回报值,公式表达如下:
Figure FDA0004083616330000021
式中,kcr是瓶颈路段的关键密度,当高速公路瓶颈路段的密度在关键密度附近时,高速公路的通行效率回报值最高,回报值为1;当高速公路瓶颈路段的密度大于40辆/英里,即高速公路非常拥堵时,回报值为-1,表示惩罚;其它情况下,高速公路的通行效率回报值为0;
S22、获得瓶颈区域内道路车辆i的实时位置和速度信息,计算出车辆d碰撞时间TTC,公式表达如下:
Figure FDA0004083616330000022
式中,TTCd(t)表示两辆车相撞之前的剩余时间量,其中d为车辆编号,xd-1(t)表示前车的位置,xd(t)表示后车的位置,xd-1(t)-xd(t)表示两车间的距离,vd(t)表示后车的速度,vd-1(t)表示前车的速度,vd(t)-vd-1(t)表示两车的相对速度;
S23、计算累计碰撞时间TET(t),公式表达如下:
Figure FDA0004083616330000023
式中,TET(t)指的是前后车处于危险跟随状态所花费的总时间,即实际值TTC小于设定TTC*阈值所持续的时间,TTC*安全阈值设定为5秒,N为瓶颈路段的车辆总数;
S24、计算瓶颈路段安全的回报值,公式表达如下:
Figure FDA0004083616330000031
式中,N为瓶颈路段的车辆总数,ξ为安全回报的阈值;
S25、计算孤立瓶颈的安全和效率的综合回报值,公式表达如下:
rj=ε1rsarety2refficiency
式中,rj表示第j个瓶颈的回报值,ε1为安全回报系数;ε2为效率回报系数,且ε1和ε2都是正数。
4.根据权利要求1所述一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,其特征在于,步骤S3具体包括以下步骤:
S31、设计效率性能函数,设计S2中回报值refficiency的附加修正函数,公式表达如下:
Figure FDA0004083616330000032
Figure FDA0004083616330000033
式中,f1(s→s′)是回报refficiency的附加修正函数,表示从s状态到s′的效率性能差,Θ1(s)表示在s状态下的效率性能,Θ1(s′)表示在s′状态下的效率性能,γ1,a1和β1为系数,且都是正数,ks表示瓶颈路段在s状态下的密度,kcr表示瓶颈路段的关键密度;
S32、设计安全性能函数,并构造回报值rsafety的附加修正函数,公式表达如下:
Figure FDA0004083616330000034
Figure FDA0004083616330000035
式中,f2(s→s′)是回报rsafety的附加修正函数,表示从s状态到s′的安全性能差,Θ2(s)表示在s状态下的安全性能,Θ2(s′)表示在s′状态下的安全性能,γ2,a2和β2为系数,且都是正数;TET(s)表示在s状态下前后车处于危险跟随状态所花费的总时间,N为瓶颈路段的车辆总数;
S33、计算修正后的效率回报函数r′efficiency,公式表达如下:
r′efficiency=refficiency+f1(s→s′)
S34、计算修正后的安全回报函数r′safety,公式表达如下:
r′safety=rsafety+f2(s→s′)
S35、计算瓶颈处修正后的安全和效率的综合回报值,公式表达如下:
r′j=ε1r′safety2r′efficiency
式中,ε1为安全回报系数;ε2为效率回报系数,且ε1和ε2都是正数。
5.根据权利要求1所述一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,其特征在于,步骤S4具体包括以下步骤:
S41、根据实时收集的交通状态信息计算获得各瓶颈回报值并存储在数据集中,计算各个瓶颈的回报值的历史交通流重要性系数ws(j),公式表达如下:
Figure FDA0004083616330000041
Figure FDA0004083616330000042
Figure FDA0004083616330000043
式中,i为数据集中利用随机抽样法获取的回报值编号,n为回报值总数,i为高速公路瓶颈编号,m为瓶颈总数,r′ij为经过去量纲化处理后的第i条数据的第j个瓶颈的回报值,pij为第j个瓶颈回报值在第i条数据中占总回报值的比例,Ej为第/个瓶颈回报值函数的信息熵;
S42、依据三项指标:道路曲率变化率、纵坡坡度、单向车道数,通过标度法得到各个瓶颈指标分数计算各个瓶颈回报值的道路线型设计重要性系数wp(j),公式表达如下:
Figure FDA0004083616330000044
式中,
Figure FDA0004083616330000045
是瓶颈j的道路曲率变化率分数、/>
Figure FDA0004083616330000046
是瓶颈j的纵坡坡度分数、/>
Figure FDA0004083616330000047
是瓶颈j的单向车道数分数;
当道路曲率变化率取值区间为0~100(gon/km)时,评分为4;当道路曲率变化率取值区间为101~200(gon/km)时,评分为3;当道道路曲率变化率取值区间为201~300(gon/km)时,评分为2;当道路曲率变化率取值大于301(gon/km)时,评分为1;
当纵坡坡度的取值区间为0~2.9%时,评分为4;当纵坡坡度的取值区间为3~5.9%时,评分为3;当纵坡坡度的取值区间为6~8.9%时,评分为2;当纵坡坡度的取值区间大于≥9%时,评分为1;
当单向车道数为4条时,评分为4;当单向车道数为3条时,评分为3;当单向车道数为2条时,评分为2;当单向车道数为1条时,评分为1;
S43、利用基于历史交通流数据得到的重要性系数ws(j)以及道路线型设计得到的重要性系数wp(j),计算组成重要性系数w(j),公式表达如下:
Figure FDA0004083616330000051
式中,i为高速公路瓶颈编号,m为瓶颈总数,;
根据组成重要性系数w(j)计算出整个路段的全局回报值R,公式表达如下:
Figure FDA0004083616330000052
式中,R表示整条公路的全局回报值,r′j表示第j个瓶颈的回报值,ωj表示第j个瓶颈回报值权重,m为瓶颈总数。
6.根据权利要求1所述一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,其特征在于,步骤S5具体包括以下步骤:
S51、设计一个用于智能体训练的神经网络,神经网络包含一个输入层、一个输出层和一个隐藏层,初始化神经网络;
S52、每隔一个仿真步长k=30秒,可变限速控制的m个智能体同时与真实的道路场景进行实时交互,智能体神经网络计算出限速控制动作a,收集每个仿真步长产生的数据,包括交通状态s、限速控制动作a,以及回报值R,并以元祖的形式存储在回放记忆库
Figure FDA0004083616330000053
中,元祖的具体形式为(s,s′,a,R),其中s′为下一时间步交通流状态信息;再判断仿真步数是否大于10000,若是则进入步骤S53,若不是则智能体继续回到S52;
限速控制动作值应在路段允许的最高和最低限速值之间,即av∈{Vmin,Vmax},同时考虑到驾驶员对限速值的接受情况,发布的限速值取为5或10的整数倍;大量测试可知动作集合中限速值的取值范围为5mph至65mph,选取步长定为5mph,因此动作集合中元素为{5mph,10mph,15mph,20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph};
S53、判断仿真步数是否为100的倍数,若是则进入S54,若不是则依然以当前神经网络生成下一步的限速动作;
S54、选取回放记忆库D中位于前20%的R对应的元祖数据,以这20%的经验数据中所采用的控制策略(本质是动作选择的概率分布)作为标签,以交叉熵作为损失函数来更新智能体的神经网络,神经网络生成下一步的限速动作,交叉熵的计算公式如下:
Figure FDA0004083616330000061
式中,H(y,g)为交叉熵,y(av)为选取的位于前20%的数据中动作的概率,g(av)为智能体未来选择动作的概率,v为动作的编码,L为可选的限速动作的总数;
重复S53-S54直至神经网络收敛。
CN202310130498.2A 2023-02-17 2023-02-17 基于精细化回报机制的交叉熵强化学习可变限速控制方法 Active CN116189464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310130498.2A CN116189464B (zh) 2023-02-17 2023-02-17 基于精细化回报机制的交叉熵强化学习可变限速控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310130498.2A CN116189464B (zh) 2023-02-17 2023-02-17 基于精细化回报机制的交叉熵强化学习可变限速控制方法

Publications (2)

Publication Number Publication Date
CN116189464A true CN116189464A (zh) 2023-05-30
CN116189464B CN116189464B (zh) 2023-09-12

Family

ID=86450255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310130498.2A Active CN116189464B (zh) 2023-02-17 2023-02-17 基于精细化回报机制的交叉熵强化学习可变限速控制方法

Country Status (1)

Country Link
CN (1) CN116189464B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106128095A (zh) * 2016-06-13 2016-11-16 东南大学 一种快速道路孤立瓶颈路段的可变限速控制方法
US20200363800A1 (en) * 2019-05-13 2020-11-19 Great Wall Motor Company Limited Decision Making Methods and Systems for Automated Vehicle
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN113554875A (zh) * 2021-03-12 2021-10-26 北京航空航天大学 一种基于边缘计算的高速公路异质交通流可变限速控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106128095A (zh) * 2016-06-13 2016-11-16 东南大学 一种快速道路孤立瓶颈路段的可变限速控制方法
US20200363800A1 (en) * 2019-05-13 2020-11-19 Great Wall Motor Company Limited Decision Making Methods and Systems for Automated Vehicle
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN113554875A (zh) * 2021-03-12 2021-10-26 北京航空航天大学 一种基于边缘计算的高速公路异质交通流可变限速控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑思: "面向快速道路远距离瓶颈的深度强化学习交通流控制策略研究", 中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑), pages 034 - 1521 *

Also Published As

Publication number Publication date
CN116189464B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN102360522B (zh) 一种高速公路优化控制方法
CN109272157A (zh) 一种基于门控神经网络的高速公路交通流参数预测方法及系统
CN107067759B (zh) 一种基于acp的平行交通信号灯实时控制方法
CN103050016B (zh) 一种基于混合推荐的交通信号控制方案实时选取方法
CN107194491A (zh) 一种基于公交客流和站间行程时间预测的动态调度方法
CN103593535A (zh) 基于多尺度融合的城市交通复杂自适应网络平行仿真系统及方法
CN112201033B (zh) 一种道路交通运行主动管控策略选择方法
CN106971566A (zh) 基于遗传算法的自适应控制方法
CN113487902B (zh) 一种基于车辆规划路径的强化学习区域信号控制方法
CN106710220A (zh) 一种城市道路分层动态协调控制算法及控制方法
Ghods et al. Adaptive freeway ramp metering and variable speed limit control: a genetic-fuzzy approach
CN110570672A (zh) 一种基于图神经网络的区域交通信号灯控制方法
CN116432448B (zh) 基于智能网联车和驾驶员遵从度的可变限速优化方法
CN110427690A (zh) 一种基于全局粒子群算法生成ato速度曲线的方法及装置
CN115188204B (zh) 一种异常天气条件下高速公路车道级可变限速控制方法
CN115862322A (zh) 一种车辆可变限速控制优化方法、系统、介质及设备
CN116189464B (zh) 基于精细化回报机制的交叉熵强化学习可变限速控制方法
CN112446538B (zh) 一种基于个性化避险的最优路径获取方法
CN112750304A (zh) 一种基于交通仿真的交叉口数据采集区间确定方法及装置
CN114463978A (zh) 一种基于轨道交通信息处理终端的数据监测方法
Pan et al. Model predictive control-based multivariable controller for traffic flows in automated freeway systems
CN109754603A (zh) 行程时间计算方法、装置和终端设备
Tan et al. Coordinated Ramp Metering Control Based on Multi-Agent Reinforcement Learning
CN115565372B (zh) 基于车联网的丘陵道路经济性巡航车速规划方法及系统
CN113753049B (zh) 基于社会偏好的自动驾驶超车决策确定方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant