CN116150639B

CN116150639B - 基于行为趋向聚类和特征映射的多智能体可变限速控制方法

Info

Publication number: CN116150639B
Application number: CN202310130501.0A
Authority: CN
Inventors: 郑思; 李志斌; 黎萌; 冯汝怡; 王顺超; 杨逸飞
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-12-19
Anticipated expiration: 2043-02-17
Also published as: CN116150639A

Abstract

本发明公开了一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法，有如下步骤：设计同时考虑效率和安全的智能体奖励函数，再设计出整条公路的全局奖励函数；采集连续多瓶颈路段的交通流数据；采用结合参数再梯度化的多智能体深度强化学习算法对可变限速控制智能体训练；设计能够持久记忆和信息交换的神经网络计算交通流运行趋向，再用高斯混合模型进行趋向聚类并对智能体分组；对同组内的源智能体与共享智能体间进行横向特征映射，加快学习过程；同组内的智能体同步更新神经网络直至收敛；最后对道路限速控制。结果表明，提出的可变限速控制方法具有协调性能好，收敛速度快，有效地提升了道路通行效率、改善了交通安全。

Description

基于行为趋向聚类和特征映射的多智能体可变限速控制方法

技术领域

本发明属于智能交通和交通控制技术领域，具体涉及一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法，用来提升高速公路的效率和安全。

背景技术

高速公路是交通运输系统的动脉，饱和通行需求下车辆之间相互干扰与冲突加剧，导致普遍存在多种类型的交通瓶颈。改善高速公路交通问题的主要既有手段为交通流主动控制技术(Active Traffic Management)，即通过主动干预交通流运行状态，疏解瓶颈区域交通供需矛盾，常见技术手段包括匝道流量控制、主线可变限速控制、动态车道功能控制等，形成了丰富的理论研究成果。然而，现有的协同控制策略，一方面存在控制动作延迟、计算量大等缺点；另一方面缺乏对多个控制点的动作协同，上述局限与约束导致该技术无法在连续多瓶颈路段集成控制与多种方式协同控制场景中取得良好的效果，其控制精度与实施效果受到较大限制。

发明内容

针对现有研究不足，本发明提出一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法包括以下步骤：

S10：在每个瓶颈路段部署一个智能体进行限速控制，计算各个智能体奖励值r，各个智能体奖励值r包括道路通行效率奖励r_efficiency和道路安全奖励r_safety，根据各个智能体的奖励值f计算得到整条公路的全局奖励值R；

S20：获得连续多瓶颈高速公路各路段的交通流数据，对交通流数据归一化处理并生成当前时间步交通流状态信息s和各个智能体奖励值r；

S30：采用结合参数再梯度化的多智能体深度强化学习算法，利用S20中生成的当前时间步交通流状态信息s和各个智能体奖励值r对模型进行训练最大化全局奖励值R，生成各瓶颈路段当前时间步协同限速控制动作，为所有的智能体建立一个回放记忆库D存放步骤S30训练过程中产生的数据；其中，所述深度强化学习算法为演员神经网络Net_a和批评家神经网络Net_c，所述回放记忆库存放的数据包括：当前时间步交通流状态信息s、限速控制动作值a和各个智能体奖励值r；

S40：从回放记忆库中采集奖励值r位于前30％的序列数据记为f，设计具有持久记忆和信息交换功能的神经网络Net_Θ，以Γ为输入数据，通过网络Net_Θ计算实时交通流运行行为趋向Θ，使用高斯混合模型对Θ聚类，将Θ最大后验概率所属分布相同的智能体分到一个组；

S50：随机选择同组内一个智能体为源智能体，将组内其它智能体设计为共享智能体，共享智能体网络net_t和源智能体网络net_s的结构相同，但net_t没有权重w，对net_s和net_t进行横向特征映射；

S60：将同组内智能体同步更新演员神经网络Net_a和批评家神经网络Net_c，进入下一个学习时间步，重复执行步骤S20-S60直至Net_a和Net_c收敛；

S70：利用收敛后的神经网络Net_a和Net_c进行可变限速控制，基于采集到的交通流数据，Net_a和Net_c实时计算高速公路各个控制区最优限速值，将限速值传输到可变限速控制板进行发布。

有益效果：

本发明公开了一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法，设计同时考虑效率以及安全的奖励函数，使用高斯混合模型对交通流运行趋向聚类并对智能体分组，对同组内的源智能体与共享智能体神经网络间进行横向特征映射，加快学习过程最后获得道路最优协同限速控制值。本发明提出的可变限速控制方法具有协调性能好，收敛速度快，有效地提升了道路通行效率、改善了交通安全。

附图说明

图1为发明的流程示意图。

图2为多智能体深度强化学习可变限速控制方法与真实道路的交互模块图。

图3为稳定需求情景下不同控制条件下的总行程时间。

图4为波动需求情景下不同控制条件下的总行程时间。

图5为稳定需求场景下瓶颈处交通流运行状态。

图6为波动需求场景下瓶颈处交通流运行状态。

具体实施方式

现结合实施例和说明书附图进一步说明本发明。

图1为本发明的流程示意图，一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法包括以下步骤：

S10：在每个瓶颈路段部署一个智能体进行限速控制，计算各个智能体奖励值r，各个智能体奖励值r包括道路通行效率奖励r_efficiency和道路安全奖励r_safety，根据各个智能体的奖励值r计算得到整条公路的全局奖励值R；

S40：从回放记忆库中采集奖励值r位于前30％的序列数据记为Γ，设计具有持久记忆和信息交换功能的神经网络Net_Θ，以Γ为输入数据，通过网络Net_Θ计算实时交通流运行行为趋向Θ，使用高斯混合模型对Θ聚类，将Θ最大后验概率所属分布相同的智能体分到一个组；

所述步骤S10中的通行效率奖励r_efficiency表示为：

其中，k_cr是瓶颈路段的关键密度，k为瓶颈实际密度，b为参数，且b>0。

所述步骤S10中的道路安全奖励r_safety表示为：

其中，TTC_i(t)表示两辆车相撞之前的剩余时间量，其中i为车辆编号，x_i-1(t)表示前车的位置，x_i(t)表示后车的位置，x_i-1(t)-x_i(t)表示两车间的距离，v_i(t)表示后车的速度，v_i-1(t)表示前车的速度，v_i(t)-v_i-1(t)表示两车的相对速度，TTC_i(t)在后车速度大于前车速度的时候才有意义，否则为无穷大，TTC_i(t)表示在t时刻第i辆车的TTC，M表示瓶颈路段内的车辆数。

所述步骤S10中的全局奖励函数表示为：

r_j＝ε₁r_safety+ε₂r_efficiency

其中，R表示整条公路的全局奖励值，r_j表示第j个智能体的奖励值，ω_j表示第j个智能体奖励值权重，N为智能体个数，ε₁和ε₂为常数。

所述S20具体包括：

S21：通过GPS每30秒获取一次当前车辆的经、纬度以及海拔高度，确定当前车辆的位置信息，将车辆位置信息进行封装，封装的格式包括：车辆标识、速度、车辆GPS信息、时间戳；

S22：对封装的数据进行归一化处理，生成道路的实时交通状态信息s，s信息包括：主路瓶颈上游的需求d_up，匝道的需求d_ramp，主路瓶颈上游的密度k_up，主路瓶颈下游的密度k_down，入口匝道的密度k_ramp，主路瓶颈区域每辆车i的速度v_i(k)和位置x_i(k)。

所述步骤S30具体方法如下：

S31：控制算法初始化演员神经网络Net_a和批评家神经网络Net_c；

S32：每个时间步，可变限速控制的每个智能体i同时与真实的道路场景进行交互，智能体共有N个，输入所有全局交通状态信息s，奖励值r；

S33：每个智能体有m个可选动作，演员神经网络Net_a生成每个智能体i的动作输出概率值结合参数再梯度化的方法，生成m个服从均值为0，方差为1的正态分布的独立样本/>通过公式/>计算得到/>其中，u∈[1，m]，得到新的动作概率/>再通过带温度控制的梯度对数归一化函数进行光滑近似，得到最终的动作概率/>

其中τ是温度参数，且满足τ>0，c为常数；

在动作集合内选取最大概率对应限速值为智能体i的动作a_i，进而得到所有智能体下一时间步的限速控制动作值(a′₁，a′₂，...，a′_n)；

S34：为所有的智能体建立一个回放记忆库并在回放记忆库内以元组的形式存储训练的数据，元组的具体形式为(s₁，s₂，...，s_m，s′₁，s′₂，...，s′_n，a₁，a₂，...，a_n，r₁，r₂，...，r_n)，其中，(s′₁，s′₂，...，s′_n)为下一时间步交通流状态信息；

S35：每隔200个时间步更新演员神经网络Net_a，判断累积时间步长是否为200的倍数，若是则进入步骤S36，若不是，则智能体继续以演员神经网络Net_a生成控制动作并执行；

S36：从回放记忆库中随机地取出H条元组数据，训练并更新演员神经网络Net_a，获得最大全局奖励值R，最大化目标函数

其中为智能体i的总时间累计回报值，/>表示从回放记忆库/>中取出的元组数据总时间累计回报值的数学期望；

进一步对函数求导可得到梯度为：

其中，为集中的可变限速控制动作Q值函数，表示演员神经网络在s_i的策略；

S37：批评家神经网络Net_c根据函数对演员的限速动作进行评估，通过基于时间差(TD)误差最小化损失来更新批评家神经网络Net_c，

是时间差分误差，/>表示数学期望，r_i表示基于当前状态的真实奖励，γ是折扣因子，a′_i＝μ′(s′_i)表示批评家神经网络的策略应用到s′_i的时候，它产生下一时间步动作a′_i，Q_i ^μ′(s′₁，s′₂，...s′_n，a′₁，a′₂，...，a′_n)是批评家神经网络在下一时间步的Q值。

S38：在整个控制过程中，重复过程S32-S37，积累回放记忆库中的样本数据。

所述步骤S40具体过程如下：

S41：设计一个具有持久记忆和信息交换功能的神经网络Net_Θ，输入从回放记忆库中采集奖励值r位于前30％的序列数据Γ，并在隐藏层中先进行正向运算：

得到正向隐藏层状态I′_P，其中，权重和偏置/>都是模型参数；

再进行反向运算：

得到反向隐藏层状态I′_n，其中，权重和偏置/>都是模型参数；

将正向隐藏层状态I′_P和反向隐藏层状态I′_n进行连接，获得需要送入输出层的隐状态I，并将该信息输入传递到下一个双向层，最后，输出层计算得到输出交通流运行行为趋向Θ

Θ＝K_mpI+b_p

其中，权重K_mp和偏置b_p都是输出层的模型参数；

S42：对行为趋向Θ进行相似性对比，使用高斯混合模型进行聚类获得k个分组；

所述S50的具体过程如下：

S51：在同一分组内随机选择一个智能体为源智能体，组内其它智能体为共享智能体；

S52：设计共享智能体网络net_t，net_t和源智能体网络net_s的结构一样，但net_t没有权重w；

S53：对组内共享智能体的神经网络net_t进行横向特征映射；

如果n是net_s的一个输入节点，将net_s中的交通流状态变量映射到net_t中最相似的交通流状态变量，如果n是网络的一个输出节点，将net_s中的每个可变限速控制动作映射到net_t中最相似的可变限速动作，如果n是网络的一个隐藏层节点，net_t与net_s隐藏层节点之间一一对应；

S54：遍历共享智能体的神经网络net_t中的每一个节点对(n_i，n_j)，如果节点对(n_i，n_j)存在于源神经网络net_s中且(n_i，n_j)之间存在网络权重，那么在共享智能体网络节点对(n_i，n_j)中设置相同的权重值；

S55：进一步训练共享神经网络net_t；

如图2所示，本研究的对象是高速公路路段，该路段包含四个连续的瓶颈。高速公路的长度为4.2英里。高速公路管理中心实时获得道路的交通流的数据，仅考虑东行交通，四个瓶颈分别位于距路段起点0.7、1.7、2.7和3.7英里处。在瓶颈区域上游路段设置可变限速控制指示牌，主线包含四个车道，高速公路的自由流速度为65英里/小时。通行能力下降前高速公路主路的通行能力为1750辆/小时/英里。通行能力下降的幅度为7.6％，运动波的速度估计为9.5英里/小时。

设计通行效率的奖励函数，关键密度k_cr为26.75辆/英里/车道，b＝1，

设计安全的奖励函数，获取瓶颈路段所有车辆的速度、位置，计算碰撞时间TTC和r_safety。

设计瓶颈处安全和效率的综合奖励函数，计算方式如下：

r_j＝ε₁r_safety+ε₂r_efficiency

其中，ε₁和ε₂的缺省值分别为0.5，0.5。

设计整个路段的全局总奖励值，计算方法如下：

其中，ω₁＝ω₂＝ω₃＝ω₄＝0.25。

通过车辆感知模块，每30秒获取道路实际行驶的车辆的交通流状态信息。对交通流状态信息进行预处理以及封装，封装的格式为(车辆标识、速度、车辆GPS信息、时间戳)。

对封装后的数据进行归一化处理，采用最大最小标准化(Min-MaxNormalization)的方法，计算方法如下：

分别列出各个值的区间，所述各个值的区间如下：

瓶颈上游的需求d_up∈{4000,6500}辆/小时，匝道的需求d_ramp∈{350,1200}辆/小时，瓶颈上游的密度k_up∈{10,80}辆/英里/车道，瓶颈下游的密度k_down∈{10,80}辆/英里/车道，匝道的密度k_ramp∈{10,50}辆/英里/车道，瓶颈区域每辆车i的速度v_i(k)∈{5,65}英里/小时，位置x_i(k)。

对演员神经网络Net_a和批评家神经网络Net_c模型进行训练，训练参数如表1所示：

表1演员神经网络和批评家神经网络模型训练参数

控制算法初始化演员神经网络Net_a和批评家神经网络Net_c。

可变限速控制的4个智能体同时与真实的道路场景进行交互，输入所有全局交通状态信息s＝(s₁，s₂，s₃，s₄)，奖励值r＝(r₁，r₂，r₃，r₄)。每个智能体有13个可选动作，限速动作集合为{5mph，10mph，15mph，20mph，25mph，30mph，35mph，40mph，45mph，50mph，55mph，60mph，65mph}。

演员神经网络Net_a生成智能体i的动作输出概率值结合参数再梯度化的方法，生成13个服从均值为0，方差为1的正态分布的独立样本/>通过公式/>计算得到/>得到新的动作概率/> 再通过带温度控制的梯度对数归一化函数进行光滑近似，得到最终的动作概率/>

其中τ＝0.05，c＝0.1；

在动作集合内选取最大概率对应限速值为智能体i的动作a_i，进而得到所有智能体的限速动作值(a₁，a₂，a₃，a₄)；

在回放记忆库D内以元组(s₁，s₂，s₃，s₄，s′₁，s′₂，s′₃，s′₄，a₁，a₂，a₃，a₄，r₁，r₂，r₃，r₄)的形式存储训练的数据。

每隔200个时间步更新演员神经网络Net_a。判断累积时间步数是否为200的倍数，若是则进入下一步，若不是，则智能体继续以当前演员神经网络Net_a生成控制动作并执行。

从回放记忆库中随机地取出1024条元组的数据，训练并更新演员神经网络Net_a权重，获得最大全局奖励值R，最大化目标函数

其中为智能体i的总时间累计回报值，/>表示从回放记忆库/>中取出的元组数据总时间累计回报值的数学期望值。

进一步对函数求导可得到梯度

其中，为集中的可变限速控制动作Q值函数，表示演员神经网络在s_i的策略。

每个智能体的批评家神经网络Net_c根据函数对演员的限速动作进行评估，通过基于时间差(TD)误差最小化损失来更新更新批评家神经网络

y＝r^s+γQ_i ^μ′(s′₁，s′₂，s′₃，s′₄，a′₁，a′₂，a′₃，a′₄)|a′_i＝μ′(s′_i)

是时间差分误差，/>表示数学期望，r_i表示基于当前状态的真实奖励，γ＝0.9，a′_i＝μ′(s′_i)表示批评家神经网络的策略应用到s′_i的时候，它产生下一时刻动作a′_i，Q_i ^μ′(s′₁，s′₂，s′₃，s′₄，a′₁，a′₂，a′₃，a′₄)是批评家神经网络在下一时刻的Q值。

在整个控制过程中，重复上述过程，不断更新Net_c和Net_a，积累回放记忆池中的数据。再判断元组的条数是否大于200000，若是则进入下一步，若不是则智能体继续作为存储的数据进行训练。

输入从回放记忆池中采集的若干智能体的奖励值r位于前30％的序列数据(Γ₁，Γ₂，Γ₃，Γ₄)，运用具有持久记忆和信息交换功能的神经网络Net_Θ进行计算，在隐藏层中先进行正向运算：

得到正向隐藏层状态I′_P，再进行反向运算：

得到反向隐藏层状态I′_n，将正向隐藏层状态I′_P和反向隐藏层状态I′_n进行连接，获得需要送入输出层的隐状态I，并将该信息输入传递到下一个双向层，最后，再进行输出层计算：

Θ＝K_mpI+b_p

得到交通流行为趋向(Θ₁，Θ₂，Θ₃，Θ₄)，进一步对行为趋向使用高斯混合模型进行聚类分组，将Θ最大后验概率所属分布相同的智能体分到一个组，一共分成2组数据。A组：智能体1和2；B组：智能体3、4。

对2组的智能体进行训练横向特征映射，各组中，分别确定智能体1和智能体3为源智能体，其它各组内的智能体为共享智能体。将源智能体的神经网络net_s横向特征映射至其它共享智能体神经网络net_t。各组内的智能体，进入下一个学习时间步，循环上述过程至Net_a和Net_c收敛。

利用收敛后的神经网络Net_a和Net_c进行可变限速控制，基于采集到的交通流数据，Net_a和Net_c实时计算高速公路各个控制区最优限速值，将限速值传输到可变限速控制板进行发布。

据统计，不同控制方式下(无可变限速控制、反馈控制、独立智能体控制、本文提出的基于行为趋向聚类和特征映射的多智能体控制)的高速公路内车辆总通行时间如表2所示，由下表可知，在稳定需求下，多智能体控制下通行时间比无控情况减少了17.61％；在波动需求下，比无控情况减少了18.56％。多智能体的控制和其它控制策略相比，更有效改善瓶颈路段的通行效率。不同控制策略下的总行程时间对比如图3和图4，在稳定需求和波动需求两种场景中，所提出的多智能体的控制方法有效地降低了总行程时间，提升了通行效率。不同控制策略下瓶颈位置的交通流运行状态如图5和图6所示，在多智能体的控制方法下，瓶颈处交通流速度高，流量大，所提出的方法有效地改善了交通安全。

统计结果：

表2不同控制方式下高速公路内车辆总通行时间表

Claims

1.一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法，其特征在于，包括以下步骤：

S30：采用结合参数再梯度化的多智能体深度强化学习算法，利用S20中生成的当前时间步交通流状态信息s和各个智能体奖励值r对模型进行训练最大化全局奖励值R，生成各瓶颈路段当前时间步协同限速控制动作，为所有的智能体建立一个回放记忆库存放步骤S30训练过程中产生的数据；其中，所述深度强化学习算法为演员神经网络Net_a和批评家神经网络Net_c，所述回放记忆库存放的数据包括：当前时间步交通流状态信息s、限速控制动作值a和各个智能体奖励值r；

2.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法，其特征在于，所述步骤S10中的通行效率奖励r_efficiency表示为：

3.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法，其特征在于，所述步骤S10中的道路安全奖励r_safety表示为：

4.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法，其特征在于，所述步骤S10中的全局奖励函数表示为：

r_j＝ε₁r_safety+ε₂r_efficiency

5.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法，其特征在于，所述的S20具体包括：

6.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法，其特征在于，所述步骤S30具体方法如下：

其中τ是温度参数，且满足τ>0，c为常数；

S34：为所有的智能体建立一个回放记忆库并在回放记忆库内以元组的形式存储训练的数据，元组的具体形式为(s₁，s₂，...，s_n，s′₁，s′₂，...，s′_n，a₁，a₂，...，a_n，r₁，r₂，...，r_n)，其中，(s′₁，s′₂，...，s′_n)为下一时间步交通流状态信息；

进一步对函数求导可得到梯度为：

其中，为集中的可变限速控制动作Q值函数，/>表示演员神经网络在s_i的策略；

是时间差分误差，/>表示数学期望，r_i表示基于当前状态的真实奖励，γ是折扣因子，a′_i＝μ′(s′_i)表示批评家神经网络的策略应用到s′_i的时候，它产生下一时间步动作a′_i，Q_i ^μ′(s′₁，s′₂，...s′_n，a′₁，a′₂，...，a′_n)是批评家神经网络在下一时间步的Q值；

7.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法，其特征在于，所述步骤S40具体过程如下：

再进行反向运算：

Θ＝K_mpI+b_p

其中，权重K_mp和偏置b_p都是输出层的模型参数；

S42：对行为趋向Θ进行相似性对比，使用高斯混合模型进行聚类获得k个分组。

8.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法，其特征在于，所述S50的具体过程如下：

S53：对组内共享智能体的神经网络net_t进行横向特征映射；

如果n是net_s的一个输入节点，将net_s中的交通流状态变量映射到net_t中最相似的交通流状态变量，如果n是网络的一个输出节点，将net_s中的每个可变限速动作映射到net_t中最相似的可变限速动作，如果n是网络的一个隐藏层节点，net_t与net_s隐藏层节点之间一一对应；

S55：进一步训练共享神经网络net_t。