CN113744527B - 一种面向高速公路合流区的智能靶向疏堵方法 - Google Patents

一种面向高速公路合流区的智能靶向疏堵方法 Download PDF

Info

Publication number
CN113744527B
CN113744527B CN202111015899.0A CN202111015899A CN113744527B CN 113744527 B CN113744527 B CN 113744527B CN 202111015899 A CN202111015899 A CN 202111015899A CN 113744527 B CN113744527 B CN 113744527B
Authority
CN
China
Prior art keywords
network
highway
traffic
state
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111015899.0A
Other languages
English (en)
Other versions
CN113744527A (zh
Inventor
林�源
李虹波
任毅龙
曲桂娴
刘润坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202111015899.0A priority Critical patent/CN113744527B/zh
Publication of CN113744527A publication Critical patent/CN113744527A/zh
Application granted granted Critical
Publication of CN113744527B publication Critical patent/CN113744527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/052Detecting movement of traffic to be counted or controlled with provision for determining speed or overspeed
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本专利涉及一种面向高速公路合流区的智能靶向疏堵方法,包括:步骤100,将高速公路上的自动无人驾驶车辆CAV作为检测器对状态空间进行采样,并通过多个独立的检测器进行分布式采样;步骤200,对高速公路合流区的容量状况进行判断,若容量下降,则进行匝道控制方法,所述匝道控制方法通过对当前时刻合流区占用率以及上一时刻入口匝道流率的计算,控制入口匝道的交通流量;步骤300,对高速公路上游的交通密度和临界密度进行比较,若上游的交通密度大于临界密度,则使用D4PG算法作为差分可变限速策略,来输出不同车道的限速策略;步骤400,经过匝道控制方法和差分可变限速的协调优化控制,向高速公路交通流发布智能靶向疏堵策略。

Description

一种面向高速公路合流区的智能靶向疏堵方法
技术领域
本发明属于智能交通控制技术领域,具体而言涉及一种面向高速公路合流区的智能靶向疏堵方法。
背景技术
随着交通大数据及人工智能技术的兴起,智能车辆快速发展,在交通需求过大的情况下,合流区极易发生交通拥堵,是制约高速公路交通发展的主要因素。近年来,缓解高速公路拥堵的交通控制方法取得了显著成果,但目前的研究主要针对高速公路主路路段和入口匝道,缺乏对高速公路整体路况的有效协同。尤其在合流区可能会发生容量下降,即瓶颈的通行能力下降到正常通行能力以下,使用现有的控制方法,在主路路段设置统一的速度控制策略,将无法精准消除车辆汇流产生的干扰。不仅如此,随着CAV(Connected andAutonomous Vehicle),即自动无人驾驶车辆和人工车辆混行的加剧,使得传统交通控制策略失效。因此,针对复杂环境下的高速公路合流区交通流特性,需要一种智能靶向疏堵策略来动态响应交通流的变化,实时输出控制策略以保障交通流的平稳运行。
发明内容
本专利正是基于现有技术的上述需求而提出的,本专利要解决的技术问题是提供一种面向高速公路合流区的智能靶向疏堵方法来动态响应复杂环境下的高速公路合流区的交通流变化,实时输出控制策略以保障交通流的平稳运行。
为了解决上述问题,本专利提供的技术方案包括:
提供了一种面向高速公路合流区的智能靶向疏堵方法,包括:步骤100,将高速公路上的自动无人驾驶车辆CAV作为检测器对状态空间进行采样,并通过多个独立的检测器进行分布式采样;步骤200,对高速公路合流区的容量状况进行判断,若容量下降,则进行匝道控制方法,所述匝道控制方法通过对当前时刻合流区占用率以及上一时刻入口匝道流率的计算,控制入口匝道的交通流量;步骤300,若在步骤200中判断合流区未发生容量下降,则对高速公路上游的交通密度和临界密度进行比较;若上游的交通密度小于临界密度,则统一设置主路限速为自由流速度;若上游的交通密度大于临界密度,则使用D4PG网络为高速公路上游每条车道动态设置限速策略;所述使用D4PG网络为高速公路上游每条车道动态设置限速策略包括:步骤301,使用分层卷积神经网络将空间状态分组,并对每组分别卷积以提取交通流深层特征,并设置训练的奖励函数;步骤302,使用D4PG网络接收交通流状态,在不同车道采取不同的速度限制策略,所述D4PG网络包括预测网络以及目标网络,所述预测网络以及所述目标网络都包括一套Actor网络和Critic网络,所述Actor网络检测交通流信息,并将其储存在存储器中,经过离线训练后,从所述储存器上批次采样,得到更新的权重后将其同步到各个Actor网络上,通过Critic网络得到当前高速公路交通状态的最优值分布
Figure BDA0003239874080000021
其中,θ是Actor网络的参数,
Figure BDA0003239874080000022
是贝尔曼方程,π为动作策略,
Figure BDA0003239874080000023
为状态s下执行动作a时动作策略πθ的参数价值分布,Zπ(s,a)为状态s下执行动作a时在动作策略π下的分布式价值分布,通过当前高速公路交通状态的最优分布迭代Actor网络的新动作策略参数;得到奖励函数值以及下一时刻的交通流状态,步骤303,交通状态更改为下一时刻的交通流状态,并获得奖励,将得到的交通流状态信息储存在存储器中,通过最小化价值分布与目标价值分布之间的距离计算价值分布的损失函数;步骤304,通过随机梯度下降更新Actor网络和Critic网络的参数,使用优化器用预测网络的权重更新目标网络的权重,训练D4PG网络使得损失函数最小化;步骤400,经过匝道控制方法和差分可变限速的协调优化控制,向高速公路交通流发布智能靶向疏堵策略。针对复杂环境下的高速公路合流区交通流特性,通过智能靶向疏堵策略来动态响应交通流的变化,实时输出控制策略以保障交通流的平稳运行。
进一步地,当检测器CAV检测到当前合流区通行能力q相较于正常通行能力qc减少20%时,则判断为发生容量下降。
进一步地,通过实时获取合流区的交通占用率,来调节入口匝道的交通流量为y(t):y(t)=y(t-Δt)+KR(o'-oout(t)),其中,t为时刻,Δt是更新的时间间隔,y(t)和y(t-Δt)是当前和先前时间步长的交通流量;o'和oout(t)分别是高速公路合流区的目标占用率和当前时间步长占用率;KR是由运算符定义的常数。使下游区域的占有率保持在阈值附近,从而消除合流区拥堵并提高交通效率。
进一步地,步骤301中将总行程时间Ts作为D4PG的奖励函数,描述为:
Figure BDA0003239874080000031
其中Ts为总行程时间,T为每辆车的行程时间,N(t)是在时间t下高速公路的车辆总数,t为D4PG控制周期的时间,K为控制周期时间范围的最大值。
进一步地,步骤302中,D4PG网络包括Critic网络和Actor网络,所述Critic网络通过计算当前高速公路交通状态的最优价值分布
Figure BDA0003239874080000032
θ是Actor网络的参数,
Figure BDA0003239874080000033
是贝尔曼方程,π为动作策略,
Figure BDA0003239874080000034
为动作策略πθ的参数价值分布,Zπ(s,a)为在动作策略π下的分布式价值分布,迭代更新Actor网络的动作策略参数θ,进而选择当前状态下高速公路主路路段不同车道的最优动作值,并得到奖励函数值和下一时刻的状态。通过D4PG网络来学习连续动作空间中的大量离散速度限制,从而发布不同车道之间的动态限速策略,可以有效减小高速公路合流区的交通拥堵。
进一步地,价值分布函数的训练遵循贝尔曼期望函数迭代和拟合,贝尔曼TπZ方程为:
Figure BDA0003239874080000041
其中,Tπ为分布式贝尔曼算子,Z为分布式价值分布,r(s,a)为在状态s下执行动作策略a获得的奖励函数,γ表示折扣因子,s'表示目标网络的状态空间。
进一步地,步骤303中,结合分布式价值分布的损失函数以及n步更新策略步长计算得到损失函数:
Figure BDA0003239874080000042
其中,
Figure BDA0003239874080000043
为Critic函数的损失函数,r(s0,a0)为在t=0时刻下,状态空间为s0,执行动作a0获得的奖励函数,r(sn,an)为在t=n时刻下,状态空间为sn,执行动作an获得的奖励函数,N为采样的长度,n为更新策略的步长。通过使用n步更新替换了单步更新,以计算Critic函数的损失函数,从而更好地平衡了偏差和方差。
进一步地,步骤304中,训练完一个批次的数据样本后,定期更新Actor和Critic的参数:
Figure BDA0003239874080000044
其中,δw为更新Critic网络中的Q值参数,δθ为Actor网络中的动作策略更新,M为批次采样的大小,R为Prioritized replay buffer的大小,pt为采样的权重,d为最小化价值分布与目标价值分布的距离,Yt为目标网络的参数分布,
Figure BDA0003239874080000045
Figure BDA0003239874080000046
分别为参数w,θ和a的梯度,Zw(st,at)为在状态s时执行动作a获得的分布式价值分布;利用预测网络的参数定期更新目标网络的权重:θ←θ+αtδθ,w←w+βtδw,(θ',w')←(θ,w),其中,θ,w分别为预测网络的Actor与Critic参数,θ',w'分别为目标网络的参数,αt和βt分别为预测网络中Actor和Critic的学习率。以加强高速公路主路路段差分可变限速控制方法的鲁棒性。
进一步地,通过最小化Critic网络的损失函数,以最大化D4PG策略的预期值
Figure BDA0003239874080000047
ρ为与动作策略相关的状态访问分布,
Figure BDA0003239874080000048
为状态访问分布ρ的贝尔曼方程,Qw(s,a)为在状态s时执行动作a获得的价值分布,πθ(s)为在状态s时,预测网络执行的具有参数θ的动作策略。通过大量的离线训练最小化Critic网络的损失函数,以最大化
Figure BDA0003239874080000051
函数,使D4PG网络可以适应复杂环境下交通流特性,从而加强高速公路主路路段差分可变限速控制方法的鲁棒性。
进一步地,在步骤200使用D4PG算法作为差分可变限速策略时,通过将状态空间进行分层提取,采用ReLU函数进行作为激活函数来激活神经元,并采用最大池化的方式,并将结果输入至下一层线性层中以生成动作策略。
与现有技术相比,本发明发布主路不同车道的速度限制策略,可以有效防止高速公路合流区出现容量下降的现象,同时能有效捕捉高速公路合流区交通流的动态特性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的一种面向高速公路合流区的智能靶向疏堵方法步骤流程图;
图2为本发明使用D4PG算法进行差分可变限速策略的步骤流程图;
图3为本发明的一种面向高速公路合流区的智能靶向疏堵方法总流程结构框图;
图4为本发明的一种面向高速公路合流区的智能靶向疏堵方法算法结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于对本申请实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本申请实施例的限定。
实施例1
本实施例提供了一种面向高速公路合流区的智能靶向疏堵方法,参照图1-4。
所述一种面向高速公路合流区的智能靶向疏堵方法包括以下步骤:
步骤100,将高速公路上的自动无人驾驶车辆CAV作为检测器对状态空间进行采样,并通过多个独立的检测器进行分布式采样。
由于交通流动力学的复杂性,很难用状态方程来精确描述高速公路交通流如何从一种状态变化到另一种状态的状态。将高速公路CAV作为检测器对状态空间进行采样,通过多个独立的检测器进行分布式采样,从而有效捕获交通流的动态特性。本实施例中,将状态空间设置为时间t时刻下高速公路上游主路路段、合流区路段以及入口匝道的空间占用率,所述占用率为即在时刻t下,入口匝道中所有车辆的总长度与入口匝道道路长度的比率。将其定义为st,st∈S,其中状态空间的矩阵大小为C*H*W,其中,C、H、W为常数,S为状态空间。
步骤200,对高速公路合流区的容量状况进行判断,若容量下降,则进行匝道控制方法,所述匝道控制方法通过对当前时刻合流区占用率以及上一时刻入口匝道流率的计算,控制入口匝道的交通流量。
定义q为检测器检测到的当前合流区通行能力,qc为正常通行能力,当q相较于qc减少20%时,认定发生容量下降。
对高速公路合流区的容量状况进行判断,若发生容量下降,使用算法作为智能靶向疏堵方法中的匝道控制策略,采用积分控制理论,以降低高速公路合流区实际占用率和期望占用率之间的误差。
通过实时获取合流区的交通占用率,来调节入口匝道的交通流量y(t),使下游区域的占有率保持在阈值附近,从而消除合流区拥堵并提高交通效率。
y(t)=y(t-Δt)+KR(o'-oout(t))
其中,t为时刻,Δt是更新的时间间隔,y(t)和y(t-Δt)是当前和先前时间步长的交通流量;o'和oout(t)分别是高速公路合流区的目标占用率和当前时间步长占用率;KR是由运算符定义的常数。
步骤300,若在步骤200中判断合流区未发生容量下降,则对高速公路上游的交通密度和临界密度进行比较;若上游的交通密度小于临界密度,则统一设置主路限速为自由流速度;若上游的交通密度大于临界密度,则使用D4PG网络为高速公路上游每条车道动态设置限速策略。
若在步骤200中,判断合流区未发生容量下降,则判断主路上游交通流是否因为交通拥堵形成排队。
定义k为检测器检测到的当前的交通密度,kc为临界密度。
若k小于kc,则统一设置主路限速策略为自由流速度,即80km/h,以最大化交通效率。
若k大于kc,则使用D4PG算法作为差分可变限速策略,来输出不同车道的限速策略。
所述使用D4PG网络为高速公路上游每条车道动态设置限速策略包括:步骤301,使用分层卷积神经网络将空间状态分组,并对每组分别卷积以提取交通流深层特征,并设置训练的奖励函数。
在本实施例中,使用分层卷积神经网络将状态空间分成G组,然后对每组状态空间分别卷积,可以有效提取复杂交通流深层特征。其中,分组卷积神经网络的卷积核尺寸由C*K*K变为C/G*K*K,可以在减少参数量的同时取得更好的效果,其中,K为卷积核的大小。
通过将状态空间进行分层提取,采用ReLU函数进行作为激活函数来激活神经元,采用最大池化的方式,在保留交通流信息最显著特征的同时,降低特征维度,防止训练过程中发生过拟合,并将结果输入至下一层线性层中以生成动作策略。
深度强化学习通过大量学习选择最大化给定奖励函数的动作。本实施例将总行程时间TS作为D4PG网络的奖励函数,可以有效提高合流区交通流速度并减少延误。奖励函数计算公式如下:
Figure BDA0003239874080000081
其中Ts为总行程时间,T为每辆车的行程时间,N(t)是在时间t下高速公路的车辆总数,t为D4PG控制周期的时间,K为控制周期时间范围的最大值。
步骤302,使用D4PG网络为高速公路上游每条车道动态设置限速策略,获取当前交通流状态的价值分布。
使用D4PG网络接收交通流状态,在不同车道采取不同的速度限制策略,所述D4PG网络包括预测网络以及目标网络,所述预测网络以及所述目标网络都包括一套Actor网络和Critic网络,所述Actor网络检测交通流信息,并将其储存在存储器中,经过离线训练后,从所述储存器上批次采样,得到更新的权重后将其同步到各个Actor网络上,通过Critic网络得到当前高速公路交通状态的最优值分布
Figure BDA0003239874080000082
其中,θ是Actor网络的参数,
Figure BDA0003239874080000083
是贝尔曼方程,π为动作策略,
Figure BDA0003239874080000085
为状态s下执行动作a时动作策略πθ的参数价值分布,Zπ(s,a)为状态s下执行动作a时在动作策略π下的分布式价值分布,通过当前高速公路交通状态的最优分布迭代Actor网络的新动作策略参数;得到奖励函数值以及下一时刻的交通流状态。
在每个时间步长t,D4PG接收交通流状态s,且s∈St,在高速公路不同车道上采取不同的速度限制策略
Figure BDA0003239874080000084
随后根据行动π为条件的预期回报,并获得奖励rt∈R。其中,在t时刻下,St为高速公路交通流的状态空间,at为动作策略,rt为执行动作后获得的奖励,
Figure BDA0003239874080000091
为动作空间。
在网络设置中,动作空间为60-80km/h,固定间隔为5km/h。D4PG的行为由策略
Figure BDA0003239874080000092
控制,该策略将每个状态映射到一个动作。
在D4PG中使用Uhlenbeck-Ornstein随机过程,作为训练过程中引入的随机噪声,因其在时间序列上具备较好的相关性,用于实现在复杂高速公路合流区环境下深度强化学习的探索。通过D4PG网络来学习连续动作空间中的大量离散速度限制,从而发布不同车道之间的动态限速策略,可以有效减小高速公路合流区的交通拥堵。
D4PG网络中包括Actor网络和Critic网络。
Actor网络通过与高速公路环境交互,生成动作策略,并将检测到的交通流信息存储在同一个Prioritized replay buffer中。在经过大量的离线训练时,从存储器中进行批次采样,再将更新后的权重同步到各个Actor上。Critic网络通过计算当前高速公路交通状态的最优价值分布
Figure BDA0003239874080000093
使得Actor网络来迭代更新动作策略的参数θ,从而选择当前状态下高速公路主路路段不同车道的最优动作值,并得到奖励函数值和下一时刻的状态。
本发明使用Critic网络用于评估动作的效果,通过选择Natoms∈N+个等距的向量原子,N+为向量原子的集合,Natoms为选择等距的向量原子的个数,用分布式价值分布Zπ作为
Figure BDA0003239874080000094
函数,即
Figure BDA0003239874080000095
其中,θ是Actor网络的参数,
Figure BDA0003239874080000098
是贝尔曼方程,π为动作策略,
Figure BDA0003239874080000096
为状态s下执行动作a时动作策略πθ的参数价值分布,Zπ(s,a)为状态s下执行动作a时在动作策略π下的分布式价值分布。价值分布函数的训练遵循贝尔曼期望函数进行迭代和拟合,贝尔曼TπZ方程如下所示:
Figure BDA0003239874080000097
其中,γ表示折扣因子,s,s'分别表示预测网络和目标网络的状态空间,r(s,a)为在状态s下执行动作策略a获得的奖励函数,Tπ为分布式贝尔曼算子,Z为分布式价值分布。
步骤303,存储交通流状态信息,通过结合分布式价值分布以及n步更新策略计算损失函数。
交通状态更改为下一时刻的交通流状态,并获得奖励,将得到的交通流状态信息储存在存储器中,通过最小化价值分布与目标价值分布之间的距离计算价值分布的损失函数。
高速公路交通流执行差分可变速度策略,交通状态从st更改为新状态st+1,获得奖励rt+1,在Prioritized replay buffer中存储当前时刻的状态信息<st,at,rt,st+1>。传统强化学习在计算价值函数时直接逼近其期望或均值,分布式强化学习的价值分布的损失函数L(w):
Figure BDA0003239874080000101
其中,θ,w和θ',w'分别表示预测网络和目标网络的Actor和Critic权重,ρ为与动作策略相关的状态访问分布,
Figure BDA0003239874080000104
为状态访问分布ρ的贝尔曼方程,d为最小化价值分布与目标价值分布的距离。Tπθ'为目标网络的分布式贝尔曼算子,Zw'(s,a)在状态s下执行动作a时形成的分布式价值分布,ρ是与行为策略相关的状态访问分布。
通过使用预测网络和目标网络,使得D4PG在训练的过程中更加稳定,加快算法的收敛速度。通过使用n步更新替换了单步更新,以计算Critic函数的损失函数,从而更好地平衡了偏差和方差。
Figure BDA0003239874080000102
其中,
Figure BDA0003239874080000103
为Critic函数的损失函数,r(s0,a0)为在t=0时刻下,状态空间为s0,N为采样的长度,n为更新策略的步长,r(sn,an)为在t=n时刻下,状态空间为sn,执行动作an获得的奖励函数,执行动作a0获得的奖励函数。
步骤304,使用随机梯度下降更新D4PG网络参数。
通过随机梯度下降更新Actor网络和Critic网络的参数,使用优化器用预测网络的权重更新目标网络的权重,训练D4PG网络使得损失函数最小化。
在训练完一个批次的数据样本后,基于奖励函数和下一阶段的交通流状态,使用随机梯度下降更新Actor和Critic参数,通过使用中的确定性策略梯度训练神经网络策略并训练D4PG网络以最小化损失函数。Actor和Critic的参数更新计算如下:
Figure BDA0003239874080000111
Figure BDA0003239874080000112
其中,δw为更新Critic网络中的Q值参数,δθ为Actor网络中的动作策略更新,M为批次采样的大小,R为Prioritized replay buffer的大小,pt为采样的权重,d为最小化价值分布与目标价值分布的距离,Yt为目标网络的参数分布,
Figure BDA0003239874080000115
Figure BDA0003239874080000116
分别为参数w,θ和a的梯度,Zw(st,at)为Zw(st,at)为在状态s时执行动作a获得的分布式价值分布;
通过D4PG训练,使用ADAM优化器,用预测网络的权重更新目标网络的权重,即:
θ←θ+αtδθ,w←w+βtδw
(θ',w')←(θ,w)
其中,αt和βt分别为预测网络中Actor和Critic的学习率。
基于分布式的Critic网络,D4PG在更新动作策略时,通过计算价值分布得到的期望进行。虽然传统强化学习可以直接从Qπ推导出更新的策略,但由于连续动作空间而使得最大化此函数变得复杂,本发明采用参数化策略πθ并通过优化梯度
Figure BDA0003239874080000113
来最大化该策略的预期值。
Figure BDA0003239874080000114
其中,J(θ)为具有参数θ的目标函数,Qw(s,a)和Zw(s,a)分别为在状态s时执行动作a获得的价值分布和分布式价值分布,πθ(s)为在状态s时,预测网络执行的具有参数θ的动作策略。
通过大量的离线训练最小化Critic网络的损失函数,以最大化
Figure BDA0003239874080000121
函数,使D4PG网络可以适应复杂环境下交通流特性,从而加强高速公路主路路段差分可变限速控制方法的鲁棒性。
步骤400,经过匝道控制方法和差分可变限速的协调优化控制,向高速公路交通流发布智能靶向疏堵策略。
通过实时检测交通流的动态变化,输出当前时刻匝道流量控制策略和主路不同车道的限速策略,利用先进无线通信技术将智能靶向疏堵策略发送至车载无线通信终端和交通可变信息诱导屏,来分别控制高速公路匝道和主路路段的交通流量,以有效缓解高速公路合流区反复出现的拥堵。因此,面向高速公路合流区拥堵的智能靶向疏堵策略可以有效降低交通流的行程延误,并提高道路交通的运行效率。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种面向高速公路合流区的智能靶向疏堵方法,其特征在于,包括:
步骤100,将高速公路上的自动无人驾驶车辆CAV作为检测器对状态空间进行采样,并通过多个独立的检测器进行分布式采样;
步骤200,对高速公路合流区的容量状况进行判断,若容量下降,则进行匝道控制方法,所述匝道控制方法通过对当前时刻合流区占用率以及上一时刻入口匝道流率的计算,控制入口匝道的交通流量;
步骤300,若在步骤200中判断合流区未发生容量下降,则对高速公路上游的交通密度和临界密度进行比较;若上游的交通密度小于临界密度,则统一设置主路限速为自由流速度;若上游的交通密度大于临界密度,则使用D4PG网络为高速公路上游每条车道动态设置限速策略;
所述使用D4PG网络为高速公路上游每条车道动态设置限速策略包括:步骤301,使用分层卷积神经网络将空间状态分组,并对每组分别卷积以提取交通流深层特征,并设置训练的奖励函数;步骤302,使用D4PG网络接收交通流状态,在不同车道采取不同的速度限制策略,所述D4PG网络包括预测网络以及目标网络,所述预测网络以及所述目标网络都包括一套Actor网络和Critic网络,所述Actor网络检测交通流信息,并将其储存在存储器中,经过离线训练后,从所述存储 器上批次采样,得到更新的权重后将其同步到各个Actor网络上,通过Critic网络得到当前高速公路交通状态的最优值分布
Figure FDA0003239874070000011
其中,θ是Actor网络的参数,
Figure FDA0003239874070000012
是贝尔曼方程,π为动作策略,
Figure FDA0003239874070000013
为状态s下执行动作a时动作策略πθ的参数价值分布,Zπ(s,a)为状态s下执行动作a时在动作策略π下的分布式价值分布,通过当前高速公路交通状态的最优分布迭代Actor网络的新动作策略参数;得到奖励函数值以及下一时刻的交通流状态;步骤303,交通状态更改为下一时刻的交通流状态,并获得奖励,将得到的交通流状态信息储存在存储器中,通过最小化价值分布与目标价值分布之间的距离计算价值分布的损失函数;步骤304,通过随机梯度下降更新Actor网络和Critic网络的参数,使用优化器用预测网络的权重更新目标网络的权重,训练D4PG网络使得损失函数最小化;
步骤400,经过匝道控制方法和差分可变限速的协调优化控制,向高速公路交通流发布智能靶向疏堵策略。
2.根据权利要求1所述的一种面向高速公路合流区的智能靶向疏堵方法,其特征在于,当检测器CAV检测到当前合流区通行能力q相较于正常通行能力qc减少20%时,则判断为发生容量下降。
3.根据权利要求2所述的一种面向高速公路合流区的智能靶向疏堵方法,其特征在于,通过实时获取合流区的交通占用率,来调节入口匝道的交通流量为y(t):y(t)=y(t-Δt)+KR(o'-oout(t)),其中,t为时刻,Δt是更新的时间间隔,y(t)和y(t-Δt)是当前和先前时间步长的交通流量;o'和oout(t)分别是高速公路合流区的目标占用率和当前时间步长占用率;KR是由运算符定义的常数。
4.根据权利要求1所述的一种面向高速公路合流区的智能靶向疏堵方法,其特征在于,步骤301中将总行程时间Ts作为D4PG的奖励函数,描述为:
Figure FDA0003239874070000021
其中Ts为总行程时间,T为每辆车的行程时间,N(t)是在时间t下高速公路的车辆总数,t为D4PG控制周期的时间,K为控制周期时间范围的最大值。
5.根据权利要求1所述的一种面向高速公路合流区的智能靶向疏堵方法,其特征在于,步骤302中,所述Critic网络通过计算当前高速公路交通状态的最优价值分布
Figure FDA0003239874070000022
θ是Actor网络的参数,
Figure FDA0003239874070000023
是贝尔曼方程,π为动作策略,
Figure FDA0003239874070000024
为动作策略πθ的参数价值分布,Zπ(s,a)为在动作策略π下的分布式价值分布。
6.根据权利要求5所述的一种面向高速公路合流区的智能靶向疏堵方法,其特征在于,价值分布函数的训练遵循贝尔曼期望函数迭代和拟合,贝尔曼TπZ方程为:
Figure FDA0003239874070000031
其中,Tπ为分布式贝尔曼算子,Z为分布式价值分布,r(s,a)为在状态s下执行动作策略a获得的奖励函数,γ表示折扣因子,s'表示目标网络的状态空间。
7.根据权利要求1所述的一种面向高速公路合流区的智能靶向疏堵方法,其特征在于,步骤303中,结合分布式价值分布的损失函数以及n步更新策略步长计算得到损失函数:
Figure FDA0003239874070000032
其中,(Tπ NQ)(s0,a0)为Critic函数的损失函数,r(s0,a0)为在t=0时刻下,状态空间为s0,执行动作a0获得的奖励函数,r(sn,an)为在t=n时刻下,状态空间为sn,执行动作an获得的奖励函数,N为采样的长度,n为更新策略的步长。
8.根据权利要求1所述的一种面向高速公路合流区的智能靶向疏堵方法,其特征在于,步骤304中,训练完一个批次的数据样本后,定期更新Actor和Critic的参数:
Figure FDA0003239874070000033
其中,δw为更新Critic网络中的Q值参数,δθ为Actor网络中的动作策略更新,M为批次采样的大小,R为Prioritized replay buffer的大小,pt为采样的权重,d为最小化价值分布与目标价值分布的距离,Yt为目标网络的参数分布,
Figure FDA0003239874070000034
Figure FDA0003239874070000035
分别为参数w,θ和a的梯度,Zw(st,at)为在状态s时执行动作a获得的分布式价值分布;利用预测网络的参数定期更新目标网络的权重:θ←θ+αtδθ,w←w+βtδw,(θ',w')←(θ,w),其中,θ,w分别为预测网络的Actor与Critic参数,θ',w'分别为目标网络的参数,αt和βt分别为预测网络中Actor和Critic的学习率。
9.根据权利要求8所述的一种面向高速公路合流区的智能靶向疏堵方法,其特征在于,通过最小化Critic网络的损失函数,以最大化D4PG策略的预期值
Figure FDA0003239874070000036
ρ为与动作策略相关的状态访问分布,
Figure FDA0003239874070000037
为状态访问分布ρ的贝尔曼方程,Qw(s,a)为在状态s时执行动作a获得的价值分布,πθ(s)为在状态s时,预测网络执行的具有参数θ的动作策略。
10.根据权利要求1所述的一种面向高速公路合流区的智能靶向疏堵方法,其特征在于,在步骤200使用D4PG算法作为差分可变限速策略时,通过将状态空间进行分层提取,采用ReLU函数进行作为激活函数来激活神经元,并采用最大池化的方式,并将结果输入至下一层线性层中以生成动作策略。
CN202111015899.0A 2021-08-31 2021-08-31 一种面向高速公路合流区的智能靶向疏堵方法 Active CN113744527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111015899.0A CN113744527B (zh) 2021-08-31 2021-08-31 一种面向高速公路合流区的智能靶向疏堵方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111015899.0A CN113744527B (zh) 2021-08-31 2021-08-31 一种面向高速公路合流区的智能靶向疏堵方法

Publications (2)

Publication Number Publication Date
CN113744527A CN113744527A (zh) 2021-12-03
CN113744527B true CN113744527B (zh) 2022-07-12

Family

ID=78734460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111015899.0A Active CN113744527B (zh) 2021-08-31 2021-08-31 一种面向高速公路合流区的智能靶向疏堵方法

Country Status (1)

Country Link
CN (1) CN113744527B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7205460B2 (ja) * 2019-12-26 2023-01-17 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN114241778B (zh) * 2022-02-23 2022-05-17 东南大学 高速公路网联车协同匝道汇入多目标优化控制方法和系统
CN114973650B (zh) * 2022-04-13 2023-05-23 东南大学 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN115100850A (zh) * 2022-04-21 2022-09-23 浙江省交通投资集团有限公司智慧交通研究分公司 基于深度强化学习的混合交通流控制方法、介质及设备
CN114863708B (zh) * 2022-05-09 2023-04-18 东南大学 一种面向营运车辆的道路合流区路侧实时精准诱导方法
CN115116225B (zh) * 2022-06-23 2023-08-04 上海交通大学 一种面向混合交通流的数据驱动随机模型预测控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000052808A (ja) * 1998-08-12 2000-02-22 Mitsubishi Electric Corp 車両交通管理装置
CN110853371A (zh) * 2019-10-22 2020-02-28 天津易华录信息技术有限公司 一种基于可变限速的快速路交通优化方法及装置
CN111091721A (zh) * 2019-12-23 2020-05-01 清华大学 一种面向智慧车列交通系统的匝道合流控制方法及系统
CN111710191A (zh) * 2020-07-28 2020-09-25 江苏大学 一种面向城市快速路的匝道合流控制方法及系统
CN112927512A (zh) * 2021-02-24 2021-06-08 山东科技大学 一种高速公路匝道合流控制系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000052808A (ja) * 1998-08-12 2000-02-22 Mitsubishi Electric Corp 車両交通管理装置
CN110853371A (zh) * 2019-10-22 2020-02-28 天津易华录信息技术有限公司 一种基于可变限速的快速路交通优化方法及装置
CN111091721A (zh) * 2019-12-23 2020-05-01 清华大学 一种面向智慧车列交通系统的匝道合流控制方法及系统
CN111710191A (zh) * 2020-07-28 2020-09-25 江苏大学 一种面向城市快速路的匝道合流控制方法及系统
CN112927512A (zh) * 2021-02-24 2021-06-08 山东科技大学 一种高速公路匝道合流控制系统及方法

Also Published As

Publication number Publication date
CN113744527A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN113744527B (zh) 一种面向高速公路合流区的智能靶向疏堵方法
Wei et al. A survey on traffic signal control methods
Jin et al. A group-based traffic signal control with adaptive learning ability
Ramezani et al. Dynamics of heterogeneity in urban networks: aggregated traffic modeling and hierarchical control
Gokulan et al. Distributed geometric fuzzy multiagent urban traffic signal control
Touhbi et al. Adaptive traffic signal control: Exploring reward definition for reinforcement learning
CN111260118B (zh) 一种基于量子粒子群优化策略的车联网交通流量预测方法
de Oliveira et al. Reinforcement Learning based Control of Traffic Lights in Non-stationary Environments: A Case Study in a Microscopic Simulator.
Chen et al. Dyetc: Dynamic electronic toll collection for traffic congestion alleviation
Khedkar et al. Prediction of traffic generated by IoT devices using statistical learning time series algorithms
Bull et al. Towards distributed adaptive control for road traffic junction signals using learning classifier systems
CN112991750B (zh) 基于强化学习与生成式对抗网络的局部交通优化方法
Kušić et al. A comparison of different state representations for reinforcement learning based variable speed limit control
Egea et al. Assessment of reward functions for reinforcement learning traffic signal control under real-world limitations
Fluri et al. Learning to operate a fleet of cars
Song et al. Traffic signal control under mixed traffic with connected and automated vehicles: a transfer-based deep reinforcement learning approach
Wu et al. ES-CTC: A deep neuroevolution model for cooperative intelligent freeway traffic control
Ducrocq et al. Deep reinforcement Q-learning for intelligent traffic signal control with partial detection
Gao et al. Travel time prediction with immune genetic algorithm and support vector regression
Hu et al. Learning model parameters for decentralized schedule-driven traffic control
Shabestary et al. Cycle-level vs. second-by-second adaptive traffic signal control using deep reinforcement learning
Wen et al. Intelligent traffic signal controller based on type-2 fuzzy logic and NSGAII
Renfrew et al. Traffic signal control with swarm intelligence
CN117134978A (zh) 基于局部和全局行为模式分析的车辆身份验证方法及系统
CN116229720A (zh) 一种智能车路系统的交通事故判别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant