CN114973650A

CN114973650A - 车辆匝道入口合流控制方法、车辆、电子设备及存储介质

Info

Publication number: CN114973650A
Application number: CN202210386804.4A
Authority: CN
Inventors: 殷国栋; 周闪星; 庄伟超; 李兵兵; 刘昊吉; 刘帅鹏; 丁昊楠; 李志翰; 邱春龙
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-08-30
Anticipated expiration: 2042-04-13
Also published as: CN114973650B

Abstract

本发明公开了一种车辆匝道入口合流控制方法、车辆、电子设备及存储介质，其中车辆匝道入口合流控制方法，包括以下步骤：获取环境车辆的状态信息：包括位置、速度及加速度；搭建高速匝道入口合流场景的多智能体马尔科夫决策模型；利用多智能体深度确定性策略梯度算法构建匝道入口协同合流策略，以求解包含横向碰撞安全、纵向碰撞安全、整车能耗最小及通行时间最短的多目标优化问题，从而得到最优合流轨迹。本发明将多智能体深度强化学习算法应用于匝道入口协同合流控制中，使得面向高动态高随机的匝道入口合流场景时达到协同合流的能耗最低，通行时间最短。

Description

车辆匝道入口合流控制方法、车辆、电子设备及存储介质

技术领域

本发明涉及智能交通车辆运动控制技术领域，尤其涉及一种匝道入口合流的控制方法。

背景技术

随着我国汽车工业的迅速发展，与发展缓慢的交通设施之间产生了不匹配的矛盾，由此造成了环境污染及交通事故现象日益严重。随着科学技术的进步，发展智能网联车为此提供了一个有效的解决途径，我国智能汽车创新发展战略等文指出：智能化网联化亦是国家的战略发展方向。

匝道合流区是城市典型复杂的交通场景之一，由于匝道车辆的突然汇入而导致主道车辆紧急停车甚至发生碰撞，使得匝道合流区的事故发生率日益提高，如何有效解决匝道合流区车辆的协同合流控制已成为解决此区域交通事故的有效手段。而现有的技术中多采用最优控制的方法来解决合流问题，但是基于最优控制的方法计算量大且针对单一特定场景，无法实时适应动态变化的交通环境。

多智能体深度确定性策略梯度算法(multi-agent deep deterministic policygradient，简称MADDPG)，是一种多智能体强化学习算法。无需环境模型，将智能体放入环境中，通过最大化智能体与环境交互后得到的奖励值，使其能够自主探索最优合流策略，大大提高了对动态交通环境的适应性，但如何将这一之智能强化学习算法应用到车辆控制尤其是匝道入口合流上，还处于概念上，还没有人提出过可实现的方案。

发明内容

本发明提供了一种基于多智能体深度确定性策略梯度的车辆匝道入口合流控制方法、车辆、电子设备及存储介质，其技术目的是在考虑使得车辆适应动态交通环境的前提下，提高匝道入口合流的效率和安全性能，并降低能耗。

本发明上述技术目的是通过以下技术方案得以实现的：

本发明首先提供一种车辆匝道入口合流控制方法，包括：

步骤S1：搭建车辆运动学模型并获取自车及周围环境车辆的状态信息；

步骤S2：基于所获取车辆状态信息，构建高速匝道入口合流场景的多智能体马尔可夫决策模型；构建的多智能体马尔可夫决策模型为：

其中，

代表匝道合流区内网联车的数量；S代表所有网联车的状态集合，S＝{s_i},s_i＝[x_i,x_r,x_e]^T,x_i＝[p_i,v_i],其中x_i代表自车的状态，由位置p_i和速度v_i组成；x_r代表位于异车道前车的状态信息；x_e代表位于异车道后车的状态信息；U代表所有网联车的动作集合，U＝{u_i},u_i＝a_i，a_i表示车辆i的加速度；

代表所有网联车的奖励函数集合，

r_i为每个智能网联车的奖励函数；

步骤S3：基于所述多智能体马尔可夫决策模型，利用多智能体深度确定性策略梯度算法构建匝道入口协同合流策略，求解包含横向碰撞安全、纵向碰撞安全、整车能耗最小及通行时间最短的多目标优化问题，从而得到车辆最优合流轨迹。

本发明还提供一种车辆，其特征在于，包括：

信息采集单元，用于获取自车及周围环境车辆的状态信息；

信息处理单元，基于所述匝道入口合流控制方法，得到自车的最优合流轨迹；

控制器，根据所述信息处理单元得到的最优合流轨迹控制车辆进行匝道入口合流。

本发明还提供一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如所述的匝道入口合流控制方法。

最后，本发明还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述的匝道入口合流控制方法。

本发明的有益效果在于：

构建了高速匝道合流场景的多智能体马尔可夫决策模型，创新性利用多智能体深度确定性策略梯度算法构建匝道入口协同合流策略，求解包含横向碰撞安全、纵向碰撞安全、整车能耗最小及通行时间最短的多目标优化问题，实现能耗最优，安全最优以及通行效率最优。

附图说明

图1为本发明所述方法的流程图。

具体实施方式

下面将结合附图对本公开技术方案进行详细说明。

本实施例提供一种基于多智能体深度确定性策略梯度的匝道入口合流控制方法，包括：

具体地，车辆运动学模型如下：

其中，i代表车辆编号，即进入高速匝道入口场景的先后顺序，p_i表示车辆i的位置，v_i表示车辆i的速度，a_i表示车辆i的加速度；v_min,v_max分别表示道路允许的车辆的最小速度、最大速度，a_min,a_max分别表示道路允许的车辆的最小加速度、最大加速度；

相邻车辆间的状态信息通过无线短波通讯进行信息交换，以获得周围环境车辆的速度及位置信息。

步骤S2：基于所获取车辆状态信息，构建高速匝道入口合流场景的多智能体马尔可夫决策模型(RM-MMDP)；

具体地，RM-MMDP模型构建如下：

其中，

代表匝道合流区内车辆的数量，即智能网联车(CAV)的数量；S代表所有CAV的状态集合，S＝{s_i},s_i＝[x_i,x_r,x_e]^T,x_i＝[p_i,v_i],其中x_i代表自车的状态，由位置和速度信息组成；x_r代表位于异车道前车的状态信息；x_e代表位于异车道后车的状态信息；每个车辆的状态空间都由自车及周围两个车辆的信息构成，所有车辆的状态空间构成了整个状态空间集合S；U代表所有CAV的动作集合，U＝{u_i},u_i＝a_i；

为每个智能网联车的奖励函数。

具体地，RM-MMDP模型中每个CAV的奖励函数组成如下：

其中，

表示各项组成的权重因子。

代表能耗项，保证车辆在合流过程中达到能耗较小的目标；

代表行驶效率速度项，为了保证较高的合流效率，尽可能让车辆的速度达到道路限制的最高时速行驶；

代表异车道车辆横向碰撞安全项，d_e表示异车道后车距离合流终点的距离，d_i表示车距离合流终点的距离；

代表同车道车辆纵向碰撞安全项，d_r表示同车道前车距离合流终点的距离；

代表安全行驶距离效率项，d_safe为行车安全行驶距离，p_r为同车道前车的位置，尽可能保证前后两车的间距始终维持在安全行驶距离范围内，以保证较高的车流密度；

步骤S3：基于RM-MMDP模型，利用多智能体深度确定性策略梯度算法构建匝道入口协同合流策略，以求解包含横向碰撞安全、纵向碰撞安全、整车能耗最小及通行时间最短的多目标优化问题，从而得到车辆最优合流轨迹。

具体地，多智能体深度确定性策略梯度算法中Actor网络与Critic网络更新规则如下：

Actor网络更新规则为：

Critic网络更新规则为：

其中，k代表离散时间步，

分别代表车辆i采取动作从时间步k到下一状态k+1时的网络更新策略，

表示在在线网络参数为

时对其求梯度，

是车辆i在时间步k时的延迟软更新参数的目标策略，

表示车辆i在时间步k时的状态，

表示对其求期望，

表示在延迟软更新参数的目标策略

下对其求梯度，

表示异车道前车r在时间步k时的状态，

表示车辆i在状态

时的延迟软更新参数的目标策略，

表示车辆i在时间步k时价值目标网络计算的行为-动作函数值，

代表车辆i在时间步k+1时价值目标网络计算的行为-动作函数值，其值大小仅与当前车辆i与其异车道前车有关；

中间参数，

为车辆i在时间步k时获得的奖励函数值，γ为折扣因子,

表示车辆r在时间步k+1时的位置，

表示车辆r在时间步k+1时的位置。

具体的，作为具体实施例之一地，多智能体深度确定性策略梯度算法流程包括如下步骤：

步骤一：随机初始化每个车辆的在线策略网络参数

和在线评价网络参数

其中μ代表策略网络，Q代表评价网络，θ为在线网络参数；

步骤二：初始化每个车辆的目标策略网络参数

初始化目标评价网络参数

其中

为初始化的目标策略网络参数，

为目标评价网络参数；

步骤三：初始化每个车辆的经验回放缓存池H_i，用于存储合流车辆经验数据；

步骤四：离散动作序列，即加速度序列，以[a_min，a_max]为基础，每隔0.1大小进行离散，得到备选动作序列；

步骤五：进行训练，设置M个训练回合，每个训练回合包含k步，其中对于每步：

1)每个车辆随机从动作序列中选取一个值进行动作的执行，到达下一个状态，计算并返回即时奖励

以及下一时刻车辆状态

2)将每个车辆状态转移过程

作为经验数据存入经验回放区H_i；

3)从经验回放区域H_i中小批量随机取样，抽出当前车辆与其前一车辆的样本数据

更新每辆车的Actor网络与Critic网络。

4)完成k步训练之后，即可开始下一回合训练，完成M个训练回合后，观察每辆车的奖励函数是否已经收敛，若收敛则训练结束，保存训练好的匝道入口协同合流策略，用于匝道合流场景的运用；若不收敛则在M个训练回合的基础上增加M/2个训练回合并重复步骤一到四。

本实施例提供一种智能车辆，包括：

信息采集单元，用于获取自车及周围环境车辆的状态信息；

信息处理单元，基于实施例的匝道入口合流控制方法，得到自车的最优合流轨迹；

控制器，根据信息处理单元得到的最优合流轨迹控制车辆进行匝道入口合流。

本实施例提供一种电子设备或终端，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如实施例的匝道入口合流控制方法。

通过该电子设备或终端将得到的处理结果即最优合流轨迹发送给智能车辆，使智能车辆按照接收的控制信号进行车辆的行车速度及轨迹行驶。

本实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例的匝道入口合流控制方法。

Claims

1.一种车辆匝道入口合流控制方法，其特征在于，包括：

其中，

代表匝道合流区内网联车的数量；S代表所有网联车的状态集合，S＝{s_i}，s_i＝[x_i，x_r，x_e]^T，x_i＝[p_i，v_i]，其中x_i代表自车的状态，由位置p_i和速度v_i组成；x_r代表位于异车道前车的状态信息；x_e代表位于异车道后车的状态信息；U代表所有网联车的动作集合，U＝{u_i}，u_i＝a_i，a_i表示车辆i的加速度；