CN113744527B

CN113744527B - 一种面向高速公路合流区的智能靶向疏堵方法

Info

Publication number: CN113744527B
Application number: CN202111015899.0A
Authority: CN
Inventors: 林�源; 李虹波; 任毅龙; 曲桂娴; 刘润坤
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2022-07-12
Anticipated expiration: 2041-08-31
Also published as: CN113744527A

Abstract

本专利涉及一种面向高速公路合流区的智能靶向疏堵方法，包括：步骤100，将高速公路上的自动无人驾驶车辆CAV作为检测器对状态空间进行采样，并通过多个独立的检测器进行分布式采样；步骤200，对高速公路合流区的容量状况进行判断，若容量下降，则进行匝道控制方法，所述匝道控制方法通过对当前时刻合流区占用率以及上一时刻入口匝道流率的计算，控制入口匝道的交通流量；步骤300，对高速公路上游的交通密度和临界密度进行比较，若上游的交通密度大于临界密度，则使用D4PG算法作为差分可变限速策略，来输出不同车道的限速策略；步骤400，经过匝道控制方法和差分可变限速的协调优化控制，向高速公路交通流发布智能靶向疏堵策略。

Description

一种面向高速公路合流区的智能靶向疏堵方法

技术领域

本发明属于智能交通控制技术领域，具体而言涉及一种面向高速公路合流区的智能靶向疏堵方法。

背景技术

随着交通大数据及人工智能技术的兴起，智能车辆快速发展，在交通需求过大的情况下，合流区极易发生交通拥堵，是制约高速公路交通发展的主要因素。近年来，缓解高速公路拥堵的交通控制方法取得了显著成果，但目前的研究主要针对高速公路主路路段和入口匝道，缺乏对高速公路整体路况的有效协同。尤其在合流区可能会发生容量下降，即瓶颈的通行能力下降到正常通行能力以下，使用现有的控制方法，在主路路段设置统一的速度控制策略，将无法精准消除车辆汇流产生的干扰。不仅如此，随着CAV(Connected andAutonomous Vehicle)，即自动无人驾驶车辆和人工车辆混行的加剧，使得传统交通控制策略失效。因此，针对复杂环境下的高速公路合流区交通流特性，需要一种智能靶向疏堵策略来动态响应交通流的变化，实时输出控制策略以保障交通流的平稳运行。

发明内容

本专利正是基于现有技术的上述需求而提出的，本专利要解决的技术问题是提供一种面向高速公路合流区的智能靶向疏堵方法来动态响应复杂环境下的高速公路合流区的交通流变化，实时输出控制策略以保障交通流的平稳运行。

为了解决上述问题，本专利提供的技术方案包括：

提供了一种面向高速公路合流区的智能靶向疏堵方法，包括：步骤100，将高速公路上的自动无人驾驶车辆CAV作为检测器对状态空间进行采样，并通过多个独立的检测器进行分布式采样；步骤200，对高速公路合流区的容量状况进行判断，若容量下降，则进行匝道控制方法，所述匝道控制方法通过对当前时刻合流区占用率以及上一时刻入口匝道流率的计算，控制入口匝道的交通流量；步骤300，若在步骤200中判断合流区未发生容量下降，则对高速公路上游的交通密度和临界密度进行比较；若上游的交通密度小于临界密度，则统一设置主路限速为自由流速度；若上游的交通密度大于临界密度，则使用D4PG网络为高速公路上游每条车道动态设置限速策略；所述使用D4PG网络为高速公路上游每条车道动态设置限速策略包括：步骤301，使用分层卷积神经网络将空间状态分组，并对每组分别卷积以提取交通流深层特征，并设置训练的奖励函数；步骤302，使用D4PG网络接收交通流状态，在不同车道采取不同的速度限制策略，所述D4PG网络包括预测网络以及目标网络，所述预测网络以及所述目标网络都包括一套Actor网络和Critic网络，所述Actor网络检测交通流信息，并将其储存在存储器中，经过离线训练后，从所述储存器上批次采样，得到更新的权重后将其同步到各个Actor网络上，通过Critic网络得到当前高速公路交通状态的最优值分布

其中，θ是Actor网络的参数，

是贝尔曼方程，π为动作策略，

为状态s下执行动作a时动作策略π_θ的参数价值分布，Z_π(s,a)为状态s下执行动作a时在动作策略π下的分布式价值分布，通过当前高速公路交通状态的最优分布迭代Actor网络的新动作策略参数；得到奖励函数值以及下一时刻的交通流状态，步骤303，交通状态更改为下一时刻的交通流状态，并获得奖励，将得到的交通流状态信息储存在存储器中，通过最小化价值分布与目标价值分布之间的距离计算价值分布的损失函数；步骤304，通过随机梯度下降更新Actor网络和Critic网络的参数，使用优化器用预测网络的权重更新目标网络的权重，训练D4PG网络使得损失函数最小化；步骤400，经过匝道控制方法和差分可变限速的协调优化控制，向高速公路交通流发布智能靶向疏堵策略。针对复杂环境下的高速公路合流区交通流特性，通过智能靶向疏堵策略来动态响应交通流的变化，实时输出控制策略以保障交通流的平稳运行。

进一步地，当检测器CAV检测到当前合流区通行能力q相较于正常通行能力q_c减少20％时，则判断为发生容量下降。

进一步地，通过实时获取合流区的交通占用率，来调节入口匝道的交通流量为y(t)：y(t)＝y(t-Δt)+K_R(o'-o_out(t))，其中，t为时刻，Δt是更新的时间间隔，y(t)和y(t-Δt)是当前和先前时间步长的交通流量；o'和o_out(t)分别是高速公路合流区的目标占用率和当前时间步长占用率；K_R是由运算符定义的常数。使下游区域的占有率保持在阈值附近，从而消除合流区拥堵并提高交通效率。

进一步地，步骤301中将总行程时间T_s作为D4PG的奖励函数，描述为：

其中T_s为总行程时间，T为每辆车的行程时间，N(t)是在时间t下高速公路的车辆总数，t为D4PG控制周期的时间，K为控制周期时间范围的最大值。

进一步地，步骤302中，D4PG网络包括Critic网络和Actor网络，所述Critic网络通过计算当前高速公路交通状态的最优价值分布

θ是Actor网络的参数，

是贝尔曼方程，π为动作策略，

为动作策略π_θ的参数价值分布，Z_π(s,a)为在动作策略π下的分布式价值分布，迭代更新Actor网络的动作策略参数θ，进而选择当前状态下高速公路主路路段不同车道的最优动作值，并得到奖励函数值和下一时刻的状态。通过D4PG网络来学习连续动作空间中的大量离散速度限制，从而发布不同车道之间的动态限速策略，可以有效减小高速公路合流区的交通拥堵。

进一步地，价值分布函数的训练遵循贝尔曼期望函数迭代和拟合，贝尔曼T_πZ方程为：

其中，T_π为分布式贝尔曼算子，Z为分布式价值分布，r(s，a)为在状态s下执行动作策略a获得的奖励函数，γ表示折扣因子，s'表示目标网络的状态空间。

进一步地，步骤303中，结合分布式价值分布的损失函数以及n步更新策略步长计算得到损失函数：

其中，

为Critic函数的损失函数，r(s₀，a₀)为在t＝0时刻下，状态空间为s₀，执行动作a₀获得的奖励函数，r(s_n，a_n)为在t＝n时刻下，状态空间为s_n，执行动作a_n获得的奖励函数，N为采样的长度，n为更新策略的步长。通过使用n步更新替换了单步更新，以计算Critic函数的损失函数，从而更好地平衡了偏差和方差。

进一步地，步骤304中，训练完一个批次的数据样本后，定期更新Actor和Critic的参数：

其中，δ_w为更新Critic网络中的Q值参数，δ_θ为Actor网络中的动作策略更新，M为批次采样的大小，R为Prioritized replay buffer的大小，p_t为采样的权重，d为最小化价值分布与目标价值分布的距离，Y_t为目标网络的参数分布，

和

分别为参数w,θ和a的梯度，Z_w(s_t,a_t)为在状态s时执行动作a获得的分布式价值分布；利用预测网络的参数定期更新目标网络的权重：θ←θ+α_tδ_θ,w←w+β_tδ_w，(θ',w')←(θ,w)，其中，θ,w分别为预测网络的Actor与Critic参数，θ',w'分别为目标网络的参数，α_t和β_t分别为预测网络中Actor和Critic的学习率。以加强高速公路主路路段差分可变限速控制方法的鲁棒性。

进一步地，通过最小化Critic网络的损失函数，以最大化D4PG策略的预期值

ρ为与动作策略相关的状态访问分布，

为状态访问分布ρ的贝尔曼方程，Q_w(s，a)为在状态s时执行动作a获得的价值分布，π_θ(s)为在状态s时，预测网络执行的具有参数θ的动作策略。通过大量的离线训练最小化Critic网络的损失函数，以最大化

函数，使D4PG网络可以适应复杂环境下交通流特性，从而加强高速公路主路路段差分可变限速控制方法的鲁棒性。

进一步地，在步骤200使用D4PG算法作为差分可变限速策略时，通过将状态空间进行分层提取，采用ReLU函数进行作为激活函数来激活神经元，并采用最大池化的方式，并将结果输入至下一层线性层中以生成动作策略。

与现有技术相比，本发明发布主路不同车道的速度限制策略，可以有效防止高速公路合流区出现容量下降的现象，同时能有效捕捉高速公路合流区交通流的动态特性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明的一种面向高速公路合流区的智能靶向疏堵方法步骤流程图；

图2为本发明使用D4PG算法进行差分可变限速策略的步骤流程图；

图3为本发明的一种面向高速公路合流区的智能靶向疏堵方法总流程结构框图；

图4为本发明的一种面向高速公路合流区的智能靶向疏堵方法算法结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本申请实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本申请实施例的限定。

实施例1

本实施例提供了一种面向高速公路合流区的智能靶向疏堵方法，参照图1-4。

所述一种面向高速公路合流区的智能靶向疏堵方法包括以下步骤：

步骤100，将高速公路上的自动无人驾驶车辆CAV作为检测器对状态空间进行采样，并通过多个独立的检测器进行分布式采样。

由于交通流动力学的复杂性，很难用状态方程来精确描述高速公路交通流如何从一种状态变化到另一种状态的状态。将高速公路CAV作为检测器对状态空间进行采样，通过多个独立的检测器进行分布式采样，从而有效捕获交通流的动态特性。本实施例中，将状态空间设置为时间t时刻下高速公路上游主路路段、合流区路段以及入口匝道的空间占用率，所述占用率为即在时刻t下，入口匝道中所有车辆的总长度与入口匝道道路长度的比率。将其定义为s_t，s_t∈S，其中状态空间的矩阵大小为C*H*W，其中，C、H、W为常数，S为状态空间。

步骤200，对高速公路合流区的容量状况进行判断，若容量下降，则进行匝道控制方法，所述匝道控制方法通过对当前时刻合流区占用率以及上一时刻入口匝道流率的计算，控制入口匝道的交通流量。

定义q为检测器检测到的当前合流区通行能力，q_c为正常通行能力，当q相较于q_c减少20％时，认定发生容量下降。

对高速公路合流区的容量状况进行判断，若发生容量下降，使用算法作为智能靶向疏堵方法中的匝道控制策略，采用积分控制理论，以降低高速公路合流区实际占用率和期望占用率之间的误差。

通过实时获取合流区的交通占用率，来调节入口匝道的交通流量y(t)，使下游区域的占有率保持在阈值附近，从而消除合流区拥堵并提高交通效率。

y(t)＝y(t-Δt)+K_R(o'-o_out(t))

其中，t为时刻，Δt是更新的时间间隔，y(t)和y(t-Δt)是当前和先前时间步长的交通流量；o'和o_out(t)分别是高速公路合流区的目标占用率和当前时间步长占用率；K_R是由运算符定义的常数。

步骤300，若在步骤200中判断合流区未发生容量下降，则对高速公路上游的交通密度和临界密度进行比较；若上游的交通密度小于临界密度，则统一设置主路限速为自由流速度；若上游的交通密度大于临界密度，则使用D4PG网络为高速公路上游每条车道动态设置限速策略。

若在步骤200中，判断合流区未发生容量下降，则判断主路上游交通流是否因为交通拥堵形成排队。

定义k为检测器检测到的当前的交通密度，k_c为临界密度。

若k小于k_c，则统一设置主路限速策略为自由流速度，即80km/h，以最大化交通效率。

若k大于k_c，则使用D4PG算法作为差分可变限速策略，来输出不同车道的限速策略。

所述使用D4PG网络为高速公路上游每条车道动态设置限速策略包括：步骤301，使用分层卷积神经网络将空间状态分组，并对每组分别卷积以提取交通流深层特征，并设置训练的奖励函数。

在本实施例中，使用分层卷积神经网络将状态空间分成G组，然后对每组状态空间分别卷积，可以有效提取复杂交通流深层特征。其中，分组卷积神经网络的卷积核尺寸由C*K*K变为C/G*K*K，可以在减少参数量的同时取得更好的效果，其中，K为卷积核的大小。

通过将状态空间进行分层提取，采用ReLU函数进行作为激活函数来激活神经元，采用最大池化的方式，在保留交通流信息最显著特征的同时，降低特征维度，防止训练过程中发生过拟合，并将结果输入至下一层线性层中以生成动作策略。

深度强化学习通过大量学习选择最大化给定奖励函数的动作。本实施例将总行程时间T_S作为D4PG网络的奖励函数，可以有效提高合流区交通流速度并减少延误。奖励函数计算公式如下：

步骤302，使用D4PG网络为高速公路上游每条车道动态设置限速策略，获取当前交通流状态的价值分布。

使用D4PG网络接收交通流状态，在不同车道采取不同的速度限制策略，所述D4PG网络包括预测网络以及目标网络，所述预测网络以及所述目标网络都包括一套Actor网络和Critic网络，所述Actor网络检测交通流信息，并将其储存在存储器中，经过离线训练后，从所述储存器上批次采样，得到更新的权重后将其同步到各个Actor网络上，通过Critic网络得到当前高速公路交通状态的最优值分布

其中，θ是Actor网络的参数，

是贝尔曼方程，π为动作策略，

为状态s下执行动作a时动作策略π_θ的参数价值分布，Z_π(s，a)为状态s下执行动作a时在动作策略π下的分布式价值分布，通过当前高速公路交通状态的最优分布迭代Actor网络的新动作策略参数；得到奖励函数值以及下一时刻的交通流状态。

在每个时间步长t，D4PG接收交通流状态s，且s∈S_t，在高速公路不同车道上采取不同的速度限制策略

随后根据行动π为条件的预期回报，并获得奖励r_t∈R。其中，在t时刻下，S_t为高速公路交通流的状态空间，a_t为动作策略，r_t为执行动作后获得的奖励，

为动作空间。

在网络设置中，动作空间为60-80km/h，固定间隔为5km/h。D4PG的行为由策略

控制，该策略将每个状态映射到一个动作。

在D4PG中使用Uhlenbeck-Ornstein随机过程，作为训练过程中引入的随机噪声，因其在时间序列上具备较好的相关性，用于实现在复杂高速公路合流区环境下深度强化学习的探索。通过D4PG网络来学习连续动作空间中的大量离散速度限制，从而发布不同车道之间的动态限速策略，可以有效减小高速公路合流区的交通拥堵。

D4PG网络中包括Actor网络和Critic网络。

Actor网络通过与高速公路环境交互，生成动作策略，并将检测到的交通流信息存储在同一个Prioritized replay buffer中。在经过大量的离线训练时，从存储器中进行批次采样，再将更新后的权重同步到各个Actor上。Critic网络通过计算当前高速公路交通状态的最优价值分布

使得Actor网络来迭代更新动作策略的参数θ，从而选择当前状态下高速公路主路路段不同车道的最优动作值，并得到奖励函数值和下一时刻的状态。

本发明使用Critic网络用于评估动作的效果，通过选择N_atoms∈N⁺个等距的向量原子，N⁺为向量原子的集合，N_atoms为选择等距的向量原子的个数，用分布式价值分布Z_π作为

函数，即

其中，θ是Actor网络的参数，

是贝尔曼方程，π为动作策略，

为状态s下执行动作a时动作策略π_θ的参数价值分布，Z_π(s,a)为状态s下执行动作a时在动作策略π下的分布式价值分布。价值分布函数的训练遵循贝尔曼期望函数进行迭代和拟合，贝尔曼T_πZ方程如下所示：

其中，γ表示折扣因子，s，s'分别表示预测网络和目标网络的状态空间，r(s,a)为在状态s下执行动作策略a获得的奖励函数，T_π为分布式贝尔曼算子，Z为分布式价值分布。

步骤303，存储交通流状态信息，通过结合分布式价值分布以及n步更新策略计算损失函数。

交通状态更改为下一时刻的交通流状态，并获得奖励，将得到的交通流状态信息储存在存储器中，通过最小化价值分布与目标价值分布之间的距离计算价值分布的损失函数。

高速公路交通流执行差分可变速度策略，交通状态从s_t更改为新状态s_t+1，获得奖励r_t+1，在Prioritized replay buffer中存储当前时刻的状态信息<s_t,a_t,r_t,s_t+1>。传统强化学习在计算价值函数时直接逼近其期望或均值，分布式强化学习的价值分布的损失函数L(w)：

其中，θ,w和θ',w'分别表示预测网络和目标网络的Actor和Critic权重，ρ为与动作策略相关的状态访问分布，

为状态访问分布ρ的贝尔曼方程，d为最小化价值分布与目标价值分布的距离。Tπ_θ'为目标网络的分布式贝尔曼算子，Z_w'(s,a)在状态s下执行动作a时形成的分布式价值分布，ρ是与行为策略相关的状态访问分布。

通过使用预测网络和目标网络，使得D4PG在训练的过程中更加稳定，加快算法的收敛速度。通过使用n步更新替换了单步更新，以计算Critic函数的损失函数，从而更好地平衡了偏差和方差。

其中，

为Critic函数的损失函数，r(s₀,a₀)为在t＝0时刻下，状态空间为s₀，N为采样的长度，n为更新策略的步长，r(s_n,a_n)为在t＝n时刻下，状态空间为s_n，执行动作a_n获得的奖励函数，执行动作a₀获得的奖励函数。

步骤304，使用随机梯度下降更新D4PG网络参数。

通过随机梯度下降更新Actor网络和Critic网络的参数，使用优化器用预测网络的权重更新目标网络的权重，训练D4PG网络使得损失函数最小化。

在训练完一个批次的数据样本后，基于奖励函数和下一阶段的交通流状态，使用随机梯度下降更新Actor和Critic参数，通过使用中的确定性策略梯度训练神经网络策略并训练D4PG网络以最小化损失函数。Actor和Critic的参数更新计算如下：

和

分别为参数w,θ和a的梯度，Z_w(s_t,a_t)为Z_w(s_t,a_t)为在状态s时执行动作a获得的分布式价值分布；

通过D4PG训练，使用ADAM优化器，用预测网络的权重更新目标网络的权重，即：

θ←θ+α_tδ_θ,w←w+β_tδ_w

(θ',w')←(θ,w)

其中，α_t和β_t分别为预测网络中Actor和Critic的学习率。

基于分布式的Critic网络，D4PG在更新动作策略时，通过计算价值分布得到的期望进行。虽然传统强化学习可以直接从Q_π推导出更新的策略，但由于连续动作空间而使得最大化此函数变得复杂，本发明采用参数化策略π_θ并通过优化梯度

来最大化该策略的预期值。

其中，J(θ)为具有参数θ的目标函数，Q_w(s,a)和Z_w(s,a)分别为在状态s时执行动作a获得的价值分布和分布式价值分布，π_θ(s)为在状态s时，预测网络执行的具有参数θ的动作策略。

通过大量的离线训练最小化Critic网络的损失函数，以最大化

步骤400，经过匝道控制方法和差分可变限速的协调优化控制，向高速公路交通流发布智能靶向疏堵策略。

通过实时检测交通流的动态变化，输出当前时刻匝道流量控制策略和主路不同车道的限速策略，利用先进无线通信技术将智能靶向疏堵策略发送至车载无线通信终端和交通可变信息诱导屏，来分别控制高速公路匝道和主路路段的交通流量，以有效缓解高速公路合流区反复出现的拥堵。因此，面向高速公路合流区拥堵的智能靶向疏堵策略可以有效降低交通流的行程延误，并提高道路交通的运行效率。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种面向高速公路合流区的智能靶向疏堵方法，其特征在于，包括：

步骤100，将高速公路上的自动无人驾驶车辆CAV作为检测器对状态空间进行采样，并通过多个独立的检测器进行分布式采样；

步骤200，对高速公路合流区的容量状况进行判断，若容量下降，则进行匝道控制方法，所述匝道控制方法通过对当前时刻合流区占用率以及上一时刻入口匝道流率的计算，控制入口匝道的交通流量；

步骤300，若在步骤200中判断合流区未发生容量下降，则对高速公路上游的交通密度和临界密度进行比较；若上游的交通密度小于临界密度，则统一设置主路限速为自由流速度；若上游的交通密度大于临界密度，则使用D4PG网络为高速公路上游每条车道动态设置限速策略；

所述使用D4PG网络为高速公路上游每条车道动态设置限速策略包括：步骤301，使用分层卷积神经网络将空间状态分组，并对每组分别卷积以提取交通流深层特征，并设置训练的奖励函数；步骤302，使用D4PG网络接收交通流状态，在不同车道采取不同的速度限制策略，所述D4PG网络包括预测网络以及目标网络，所述预测网络以及所述目标网络都包括一套Actor网络和Critic网络，所述Actor网络检测交通流信息，并将其储存在存储器中，经过离线训练后，从所述存储器上批次采样，得到更新的权重后将其同步到各个Actor网络上，通过Critic网络得到当前高速公路交通状态的最优值分布

其中，θ是Actor网络的参数，

是贝尔曼方程，π为动作策略，

为状态s下执行动作a时动作策略π_θ的参数价值分布，Z_π(s,a)为状态s下执行动作a时在动作策略π下的分布式价值分布，通过当前高速公路交通状态的最优分布迭代Actor网络的新动作策略参数；得到奖励函数值以及下一时刻的交通流状态；步骤303，交通状态更改为下一时刻的交通流状态，并获得奖励，将得到的交通流状态信息储存在存储器中，通过最小化价值分布与目标价值分布之间的距离计算价值分布的损失函数；步骤304，通过随机梯度下降更新Actor网络和Critic网络的参数，使用优化器用预测网络的权重更新目标网络的权重，训练D4PG网络使得损失函数最小化；

2.根据权利要求1所述的一种面向高速公路合流区的智能靶向疏堵方法，其特征在于，当检测器CAV检测到当前合流区通行能力q相较于正常通行能力q_c减少20％时，则判断为发生容量下降。

3.根据权利要求2所述的一种面向高速公路合流区的智能靶向疏堵方法，其特征在于，通过实时获取合流区的交通占用率，来调节入口匝道的交通流量为y(t)：y(t)＝y(t-Δt)+K_R(o'-o_out(t))，其中，t为时刻，Δt是更新的时间间隔，y(t)和y(t-Δt)是当前和先前时间步长的交通流量；o'和o_out(t)分别是高速公路合流区的目标占用率和当前时间步长占用率；K_R是由运算符定义的常数。

4.根据权利要求1所述的一种面向高速公路合流区的智能靶向疏堵方法，其特征在于，步骤301中将总行程时间T_s作为D4PG的奖励函数，描述为：

5.根据权利要求1所述的一种面向高速公路合流区的智能靶向疏堵方法，其特征在于，步骤302中，所述Critic网络通过计算当前高速公路交通状态的最优价值分布

θ是Actor网络的参数，

是贝尔曼方程，π为动作策略，

为动作策略π_θ的参数价值分布，Z_π(s,a)为在动作策略π下的分布式价值分布。

6.根据权利要求5所述的一种面向高速公路合流区的智能靶向疏堵方法，其特征在于，价值分布函数的训练遵循贝尔曼期望函数迭代和拟合，贝尔曼T_πZ方程为：

其中，T_π为分布式贝尔曼算子，Z为分布式价值分布，r(s,a)为在状态s下执行动作策略a获得的奖励函数，γ表示折扣因子，s'表示目标网络的状态空间。

7.根据权利要求1所述的一种面向高速公路合流区的智能靶向疏堵方法，其特征在于，步骤303中，结合分布式价值分布的损失函数以及n步更新策略步长计算得到损失函数：

其中，(T_π ^NQ)(s₀,a₀)为Critic函数的损失函数，r(s₀,a₀)为在t＝0时刻下，状态空间为s₀，执行动作a₀获得的奖励函数，r(s_n,a_n)为在t＝n时刻下，状态空间为s_n，执行动作a_n获得的奖励函数，N为采样的长度，n为更新策略的步长。

8.根据权利要求1所述的一种面向高速公路合流区的智能靶向疏堵方法，其特征在于，步骤304中，训练完一个批次的数据样本后，定期更新Actor和Critic的参数：

和

分别为参数w,θ和a的梯度，Z_w(s_t,a_t)为在状态s时执行动作a获得的分布式价值分布；利用预测网络的参数定期更新目标网络的权重：θ←θ+α_tδ_θ,w←w+β_tδ_w，(θ',w')←(θ,w)，其中，θ,w分别为预测网络的Actor与Critic参数，θ',w'分别为目标网络的参数，α_t和β_t分别为预测网络中Actor和Critic的学习率。

9.根据权利要求8所述的一种面向高速公路合流区的智能靶向疏堵方法，其特征在于，通过最小化Critic网络的损失函数，以最大化D4PG策略的预期值

ρ为与动作策略相关的状态访问分布，

为状态访问分布ρ的贝尔曼方程，Q_w(s,a)为在状态s时执行动作a获得的价值分布，π_θ(s)为在状态s时，预测网络执行的具有参数θ的动作策略。

10.根据权利要求1所述的一种面向高速公路合流区的智能靶向疏堵方法，其特征在于，在步骤200使用D4PG算法作为差分可变限速策略时，通过将状态空间进行分层提取，采用ReLU函数进行作为激活函数来激活神经元，并采用最大池化的方式，并将结果输入至下一层线性层中以生成动作策略。