CN116935671A

CN116935671A - 一种基于投影式约束策略优化的自动道路交叉口管理方法

Info

Publication number: CN116935671A
Application number: CN202311055163.5A
Authority: CN
Inventors: 赵睿; 王骙; 高菲; 李云; 高镇海; 张天瑶
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-10-24

Abstract

本发明适用于智能交通系统技术领域，提供了一种基于投影式约束策略优化的自动道路交叉口管理方法，引入风险网络，在更新策略时划分安全等级，在满足安全性的前提下最大化奖励值，解决了强化学习算法在追求通行效率与舒适性会违背安全性的问题。除此之外，策略神经网络应用LSTM神经网络捕获每辆车之间的关系并且集中调控复杂路口中的全部车辆以获得性能更加优良的策略。通过实验测试，并将与基于非风险感知的PPO和PPO‑SC、基于MPC的车辆交叉口协调方案算法以及基于MIP的MICA算法的性能进行对比，实验表明本方法具有更加优秀的表现。

Description

一种基于投影式约束策略优化的自动道路交叉口管理方法

技术领域

本发明属于智能交通系统技术领域，尤其涉及一种基于投影式约束策略优化(Multi-Agent Projection-Based Constrained Policy Optimization,MAPCPO)的自动道路交叉口管理方法。

背景技术

互联自动驾驶汽车(Connected Automatic Vehicle，CAV)近年来快速发展，为控制和管理城市内外的车辆、人员和货物流动带来了新的机遇，交通控制正在迅速发生变化。新的智能交通系统面临的挑战是提供新的方法来控制自动驾驶汽车，以提高城市内车辆通行的安全性、效率与舒适性。因此，改进和引入新的控制策略对于有效的交通管理决策至关重要。其中，道路复杂路口是城市路段中一个极为重要的场景，据统计，中国复杂路口发生的交通事故约占全部交通事故的30％，因此提高复杂路口通行的安全性具有重要意义。自动交叉口管理(Autonomous Intersection Management,AIM)系统旨在有效管理城市复杂路口的自动驾驶汽车，消除碰撞，优化整体交通流。

目前AIM使用的多为基于规定规则的方法，如先到先服务等，仍然存在大量等待延迟，在非均衡路口性能甚至低于传统信号灯；或是基于公式化的传统方法，但是真实道路复杂路口通行状态千变万化，基于公式的传统方法如模型预测控制(Model PredictiveControl，MPC)、混合整数规划(Mixed Integer Programming，MIP)等遇到较为复杂的场景时存在计算量较大，延时较高的问题。近年来深度神经网络异军突起，深度神经网络需要庞大的数据集训练，但当网络训练完成后只要极短的时间就可以根据当前的交通状态控制车辆，解决了传统公式化方法需要计算时间较多的问题。但是同时出现两个问题：1)深度神经网络属于黑盒技术，人们无法直观地看到深度神经网络的工作原理，当应用在智能驾驶领域时存在安全风险，而安全又是智能驾驶中极其重要的一部分，这个问题限制了深度神经网络在实际交通场景中应用；2)大多数深度神经网络的训练是有监督的训练，在数据集中完成训练后直接应用策略，缺乏从实际交通场景中持续学习的能力。

强化学习(Reinforcement Learning，RL)的出现解决了第二个问题，RL是一种无监督学习，拥有策略、价值、奖励和模型四个要素。智能体在模型中探索不同的行为，价值函数评估智能体当前行为的收益，算法根据价值函数评估的收益更新智能体当前的策略。RL具有持续学习的能力，能够从交通场景中不断更新策略，解决了深度神经网络不能持续更新的问题。但是强化学习算法在学习的过程中没有对智能体探索行为进行约束，智能体可能会因为奖励函数赋予不恰当进行危险行为的探索，这在自动驾驶领域是极为致命的，而赋予一个恰当的奖励函数并不是一个容易解决的问题，除此之外，训练出的策略只能保证奖励最大化不能保证策略的安全性。如目前较为主流的强化学习算法有DDPG(DeepDeterministic Policy Optimization)和A3C(Asynchronous Advantage Actor-Critic)等，这些算法都是通过设计奖励函数更新策略，由于通行效率、舒适性与安全性在一定程度上呈矛盾关系，策略在追求奖励最大化的过程中无法保证在满足安全性的前提下提高通行效率与舒适性，算法在追求更高效率与舒适性时会违背安全性这个优先级更高的条件。

发明内容

本发明实施例的目的在于提供一种基于投影式约束策略优化的自动道路交叉口管理方法，旨在解决上述背景技术中提出的问题。

本发明实施例是这样实现的，一种基于投影式约束策略优化的自动道路交叉口管理方法，包括以下步骤：

步骤1、投影式约束策略优化：

共包含六个要素：策略网络、模型、奖励函数、风险函数、价值估计网络和风险估计网络；策略网络使用LSTM神经网络，用于根据智能体的当前的状态决定智能体下一步的行为；模型是智能体与环境交互的场景，智能体在模型中探索以学习到最优策略；奖励函数用于引导智能体学习，使智能体达到预期目标；价值估计网络用于对智能体当前的策略做出评价以更新策略网络；风险函数用于保证智能体探索过程的安全；风险估计网络用于评估智能体当前行为的危险程度以在一定程度上限制策略网络的更新；

策略网络在更新时，首先会判断当前策略的安全风险，安全风险划分为三个等级：安全、相对安全以及危险；若当前策略处于安全范围，则策略更新时不考虑风险函数，策略将会朝奖励最大化的方向更新；若当前策略处于相对安全范围，此时策略网络先进行奖励最大化更新，之后将策略在风险约束集上进行投影，使策略重新回到安全范围内；若当前策略处于危险范围，则通过回溯寻找适合网络更新的参数；

步骤2、基于投影式约束策略优化的自动交叉口管理：

在Carla环境中搭建一个复杂路口场景作为模型，设计奖励函数与风险函数，奖励函数兼顾车辆的通行效率、舒适性、碰撞安全性以及横向控制稳定性，风险函数兼顾车辆的碰撞风险以及车辆间距小于安全车距的风险；

策略训练过程为：在一定时间内让车辆探索行为，策略网络通过输入车辆距离目标地点的距离以及车辆当前的速度控制环境中所有车辆的速度，车辆行驶的路线由仿真器设计，如果发生碰撞或者车辆全部通过则重置场景，搜集这段时间内策略网络的输入、策略网络的输出、得分、风险值、价值估计值以及风险估计值，用以更新策略网络、价值估计网络和风险估计网络。

本发明实施例提供的一种基于投影式约束策略优化的自动道路交叉口管理方法，该方法引入风险网络，在更新策略时划分安全等级，在满足安全性的前提下最大化奖励值，解决了强化学习算法在追求通行效率与舒适性时会违背安全性的问题。除此之外，策略神经网络应用LSTM神经网络捕获每辆车之间的关系并且集中调控复杂路口中的全部车辆以获得性能更加优良的策略。并通过实验将该方法的性能与基于非风险感知的PPO和PPO-SC、基于MPC的车辆交叉口协调方案(Vehicle-Intersection Coordination Scheme，VICS)算法以及基于MIP的MICA(Mixed integer programming based Intersection CoordinationAlgorithm，MICA)算法的性能进行对比，实验表明该方法具有更加优秀的表现，与PPO算法相比首次实现了零碰撞，舒适性提高46.15％，与传统方法相比通行效率提高34.54％。

附图说明

图1为本发明实施例提供的一种基于投影式约束策略优化的自动道路交叉口管理方法的架构图；

图2为策略神经网络结构图；

图3为复杂路口结构示意图；

图4为在训练阶段MAPCPO、MAPPO-SC和MAPPO的回合平均奖励值；

图5为在训练阶段MAPCPO、MAPPO-SC和MAPPO的回合平均风险值；

图6为在训练阶段MAPCPO、MAPPO-SC和MAPPO的回合平均碰撞率；

图7为在训练阶段MAPCPO、MAPPO-SC和MAPPO的TTC违背频率；

图8为在训练阶段MAPCPO、MAPPO-SC和MAPPO的加速度的变化趋势；

图9为当车流密度为λ₁时，各方法的平均回合碰撞率图；

图10为当车流密度为λ₁时，各方法的TTC违背频率图；

图11为当车流密度为λ₁时，各方法的平均回合加速度图；

图12为当车流密度为λ₁时，各方法的平均回合长度图；

图13为当车流密度为λ₂时，各方法的平均回合碰撞率图；

图14为当车流密度为λ₂时，各方法的TTC违背频率图；

图15为当车流密度为λ₂时，各方法的平均回合加速度图；

图16为当车流密度为λ₂时，各方法的平均回合长度图；

图17为当车流密度为λ₃时，各方法的平均回合碰撞率图；

图18为当车流密度为λ₃时，各方法的TTC违背频率图；

图19为当车流密度为λ₃时，各方法的平均回合加速度图；

图20为当车流密度为λ₃时，各方法的平均回合长度图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，为本发明一个实施例提供的一种基于投影式约束策略优化的自动道路交叉口管理方法，包括以下步骤：

步骤1、投影式约束策略优化：

共包含六个要素：策略网络、模型、奖励函数、风险函数、价值估计网络和风险估计网络；策略网络使用LSTM神经网络，负责根据智能体的当前的状态决定智能体下一步的行为；模型是智能体与环境交互的场景，智能体在模型中探索以学习到最优策略；奖励函数负责引导智能体学习，使智能体达到预期目标；价值估计网络负责对智能体当前的策略做出评价以更新策略网络；风险函数负责保证智能体探索过程的安全；风险估计网络负责评估智能体当前行为的危险程度以在一定程度上限制策略网络的更新；

策略网络在更新时首先会判断当前策略的安全风险，安全风险划分为三个等级：安全、相对安全以及危险。若当前策略处于安全范围则策略更新时不考虑风险函数，策略将会朝奖励最大化的方向更新；若当前策略处于相对安全范围，代表策略网络可以通过更新回到或者保持在安全范围内，此时策略网络先进行奖励最大化更新，之后将策略在风险约束集上进行投影使策略重新回到安全范围内；若当前策略处于危险范围则代表策略不能通过更新回到安全范围，此时通过回溯寻找适合网络更新的参数；

步骤2、基于投影式约束策略优化的自动交叉口管理：

在Carla环境中搭建一个复杂路口场景作为模型，并设计了科学的奖励函数与风险函数，奖励函数考虑了车辆的通行效率、舒适性、碰撞安全性与横向控制稳定性，风险函数考虑了车辆的碰撞风险与车辆间距小于安全车距的风险；

作为本发明的一种优选实施例，所述步骤1包括以下具体步骤：

步骤1.1、算法定义：将投影式约束策略优化问题表述为一个约束马尔可夫博弈(CMG)，在传统的约束马尔可夫博弈的基础上，通过附加约束来限制允许策略的集合；一个用于运行智能体的CMG被定义为一个元组{S，A，R，C，P，μ，γ}，其中S表示全局状态空间，定义为表示所有智能体的联合动作空间的集合；代表联合奖励函数，描述了状态s_t采取联合行动a_t到下一个状态s_t+1的即时奖励，/>代表风险函数的集合定义的特定环境安全约束(每个智能体都有N_i，c风险函数)，/>过渡元组映射到风险成本阈值P表示从(s_t，a_t)过渡到状态s_t+1的概率，μ表示三个神经网络参数的初始分布，γ表示折扣因子；

步骤1.2、构建策略神经网络：策略神经网络的输入为所有智能体在当前时刻的联合状态，输出为所有智能体下一时刻的行为；策略神经网络的结构如图2所示，共包含三个Linear层和一个LSTM层，假设复杂路口场景中共N个智能体，策略神经网络的输入为每个智能体在第n个时间步内搜集到的信息，表示为每一个时间步搜集到的所有智能体状态是一个(1，N×2)的矩阵，首先通过输入一个Linear层变为(1，512)的矩阵，然后通过Relu函数进行激活，接着通过LSTM层输出维度变为(n×1×512)，将LSTM的输出结果进行值域调整(Range Adjustment，RA)以确保LSTM网络的输出结果适用于真实场景，将适应化操作后的结果送入Linear层并且进行Relu激活操作，最后将输出结果的维度通过Linear层变化为(n×N)并且进行Sigmoid激活作为策略网络最终的输出结果；

步骤1.3、构建价值估计与风险估计神经网络：价值估计与风险估计神经网络的作用是根据当前收集的轨迹信息判断更新后的策略神经网络是否有更高的奖励与更低的风险，采用全连接层神经网络模型作为价值估计与风险估计神经网络。首先网络输入的状态与策略网络模型相同，输入每辆车距离目标地点的距离与车辆当前的速度，维度为(1，N×2)，经过三个连接层并进行Relu激活操作后得到最终输出结果，维度变化依次为(1，512)，(1，512)，(1，1)；价值估计与风险估计神经网络的更新原理如下：

价值估计与风险估计神经网络通过预测值与真实值之间的差值进行更新，更新的目的为减小预测值与真实值间的差值，表示为：

作为本发明的一种优选实施例，在所述步骤1.2中，为保证策略神经网络更新的安全性，将策略神经网络的更新分为三种情况：KL散度信任域在风险信任域内，KL散度信任域与风险信任域交叉，KL散度信任域与风险信任域无交集；首先为奖励值定义价值函数V^π(s)＝E_τ～π[R(τ_π|s₀＝s)]，表示状态s对应的期望奖励值，其中τ＝(s₀，a₀，s₁，...)表示依赖与策略π的轨迹，R(τ_π)＝∑_tγ^tR(s_t，a_t，s_t+1)表示轨迹τ对应的折扣过的奖励值。定义行为价值函数为Q^π(s，a)＝E_τ～π[R(τ_π)|s₀＝s，a₀＝a]表示状态s与行为a对应的期望奖励值，定义优势函数为表示在状态s一致的前提下，行为a对应的奖励与期望奖励的差值，若A^π(s，a)为正值表明通过动作a获得的整体奖励值可以更高，若A^π(s，a)为负值表明通过动作a获得的整体奖励值低于平均奖励，定义具有神经网络参数θ的策略神经网络π_θ对应的期望收益为/>同理，为风险定义价值函数、行为函数与优势函数分别为/>相对于风险函数/>的折扣过的风险期望值为则CMGs模型的可行策略集合可以表示为其中/>表示在i时刻第j个智能体的风险闺值。

通过F综合判断更新方式，其中表示风险函数/>的梯度，表示智能体在当前策略下的风险值与风险阖值的接近程度。定义定义/>则/>其作用为KL散度信任域与风险信任域是否呈交叉关系，其中H表示新旧策略间KL散度的Hessian矩阵。

当极小时/>表示当前策略及策略周围邻域都处于危险势能较低的状态，此时朝任意方向更新策略均不会有危险；当F＜0并且/>时表示当前策略的KL散度信任域在风险信任域内，此时朝任意方向更新策略也不会有危险。本发明将这两种情况归结为情况3，当策略处于情况3时，应用信任域策略优化算法更新策略网络参数：

根据二阶近似的KL散度约束对π_k处的目标函数线性化，得到以下更新：

θ_k+1＝argmax_θg^T(θ-θ_k) (2)

其中表示奖励优势函数的梯度，利用凸优化方法解方程(2)得到网络更新公式：

当F＞0时表示风险信任域与KL散度信任域为交叉关系，此时若最大化期望奖励值更新可能导致策略进入比较危险区域的情况，将此种情况归结为情况2。若策略神经网络处于情况2，则使用投影式约束策略优化更新策略网络，分为两步：奖励提升步骤与投影步骤。奖励提升步骤通过信任域策略优化算法(Trust Region Policy Optimization，TRPO)最大化奖励值，投影步骤将通过奖励提升步骤后的策略网络投影到风险信任域内。首先，在KL散度信任域内最大化优势函数A^π(s，a)：

其次，通过最小化中间策略与风险信任域的距离将策略/>投影到风险信任域内：

将二阶近似的KL散度约束对π_k处的目标函数线性化，得到奖励提升步骤更新近似：

用KL散度衡量与风险信任域的距离，同样应用二阶近似的KL散度对π_k处的成本约束进行线性化：

使用凸优化方法解方程(6)与(7)：

若F＜0且则表示当前策略处于较为危险的状态并且KL散度信任域与风险信任域无交叉，此种情况下策略朝任意方向更新都不会处于安全状态，将该情况归结为情况1。若策略处于情况1，使用线性回溯的方法更新策略神经网络以最小化风险值：

作为本发明的一种优选实施例，所述步骤2包括以下具体步骤：

步骤2.1、状态空间与行为空间的设计：

定义状态空间为代表进入复杂路口区域的智能驾驶汽车距离离去点的距离，q∈(0，1，2)代表智能驾驶汽车的行驶方向，分别表示智能驾驶汽车右转、直行与左转行为。

如图3所示，由于路口的不规则性，的计算分两种情况：车辆从东、南和北向三个方向的直道驶入，以及车辆从西侧弯道驶入。当车辆从直道驶入时，如图3.a所示，分为右转、直行与左转三种行为。三种行为的计算公式为：

D_q＝d₁+d₂ (11)

当车辆从弯道驶入时，如图3.b所示同样分为右转、直行与左转三种行为，计算公式为：

D′_q＝d′₁+d′₂ (12)

代表智能驾驶汽车i在当前时间步下的实时速度。每辆车经过复杂路口时只有一种行驶方向，将剩余两个行驶方向的状态空间用零向量填充，例如智能驾驶汽车i发生右转行为/>q能够赋予策略智能驾驶汽车的转向信息，结合d策略能够判断智能驾驶汽车当前处于复杂路口的位置，同时状态空间包括每个智能驾驶汽车当前的速度信息。综合状态空间中的全部信息，一个合理的复杂路口协同控制策略能够协调全部智能驾驶汽车在不发生碰撞的前提下，较为舒适高效的通过复杂路口。

行为空间定义为由于智能驾驶汽车的横向控制由仿真器中的路径规划模块管理，且仿真器能够利用PID算法得到合理的节气门开度与制动力大小控制智能驾驶汽车平顺地达到期望速度，为使策略更加容易地聚焦本问题的关键信息，模型的联合行为空间只选择复杂路口区域全部智能驾驶汽车未来的联合期望速度。

步骤2.2、定义风险函数与奖励函数：

定义的复杂路口协同控制问题是一个多属性问题，包括智能驾驶汽车通过复杂路口时的安全性、高效性与舒适性。其中安全性是高效性与舒适性的先决条件，因此风险函数负责监管复杂路口协同控制中的安全性，奖励函数应包括安全性、高效性与舒适性三个属性。

首先定义风险函数，智能驾驶汽车在通过复杂路口时潜在的安全风险包括碰撞与侧滑，因此风险函数针对这两个安全风险设计。

碰撞：碰撞与策划相比危险性更高，会对人身安全及财产安全造成极大的威胁，因此风险分值应占较大比重：

其中risk_collision＝125代表发生碰撞时赋予的风险值，目的是防止智能驾驶汽车发生碰撞；代表在时间步t下存在碰撞风险的智能驾驶汽车违背安全车距时赋予的风险值，m代表存在碰撞风险且违背安全距离智能驾驶汽车的对数，目的是防止存在碰撞风险的智能驾驶汽车间距离较小，以保证智能驾驶汽车在将要发生碰撞时有足够的刹车距离。

侧滑：当智能驾驶汽车发生左转或右转行为时，过高的车速或纵向加速度将导致地面提供的摩擦力不足从而造成侧滑事故，因此风险函数的设计应防止智能驾驶汽车在转向时拥有过高的车速或纵向加速度：

其中代表智能驾驶汽车i在时间步t下的瞬时加速度，g代表重力加速度，μ代表复杂路口路面的摩擦系数。综上，风险函数定义为：

C＝C_collision+C_steer (15)

接着定义奖励函数，安全性：智能驾驶汽车安全性的奖励分为引导性奖励与决定性奖励。引导性奖励意在减小训练的难度，加快训练的速度，决定性奖励意在让策略明白人们期待的最优解，防止因为贪心引导性奖励而造成的激进行为：

其中代表引导性奖励，/>代表决定性奖励。

高效性：在保证安全性的前提下，提高道路通行效率至关重要，算法定义效率属性的奖励为：

其中δ_v为折扣因子，Δv^t，i＝v^t，i-v_expect代表在时间步t下智能驾驶汽车i的车速与期望车速的差值，代表时间积累造成的奖励损失。

平顺性：平顺性与乘客的舒适性息息相关，算法定义平顺属性的奖励为：

其中δ_v为折扣因子，代表一个时间步智能驾驶汽车i的加速度。

综上，奖励函数定义为

R＝R_safety+R_efficiency+R_smoothness (19)。

作为本发明的一种优选实施例，在实验的每个时间步中，给定场景中道路的静态信息，包括道路的长度、宽度与道路上每个点的位置坐标，通过V2通信技术传输场景中所有车辆的动态信息，包括车辆在该时间步下的位置坐标、车速、车辆的行为模式与车辆到驶离点的距离，AIM通过这些已知信息控制车辆的下一个时间步的期望速度。车辆的运动控制层通过AIM系统给出的期望速度计算车辆下一个时间步的节气门开度与制动力大小，车辆的转向盘角度由仿真器中的路径规划模块自主控制。本发明的工作旨在通过AIM系统调控车辆的期望速度使所有车辆在无碰撞的前提下高效且舒适的通过。

为更好的展现MAPCPO算法的优越性，在此将MAPCPO与多智能体近端策略优化算法(multi-agent Proximal Policy Optimization，MAPPO)和考虑安全约束奖励的多智能体近端策略优化(Multi-Agent Proximal Policy Optimization-Safety Constraints,MAPPO-SC)算法的训练过程进行对比，其中MAPPO-SC有用与MAPCPO相同的奖励函数设置，表明MAPCPO算法与MAPPO算法相比拥有更好的整体性能。除此之外将MAPCPO训练出的最优策略分别与MAPPO和MAPPO-SC训练出的最优策略、基于MPC的VICS方法以及基于MIP的MICA方法进行安全性、舒适性、通行效率以及方法推理时间的对比。以下将从实验设置、训练性能对比及AIM系统性能对比详细介绍。

(1)实验设置：所有的实验均在Carla0.9.11仿真环境中进行，并且使用‘TOWN5’地图搭建复杂路口交通场景，MAPCPO模型使用基于PyTorch的框架建立。车辆的动态信息依赖Carla内置传感器传递，并使用BasicAgent类为车辆进行轨迹规划并控制车辆的方向盘转角。在实验进行时，车辆每个时间步的期望速度由AIM系统输出，通过Carla内置的PID算法转换为节气门开度与制动力矩的大小进而控制车辆的运行。操作系统为Ubuntu18.04，GPU型号为NVIDIA GeForce RTX 3090。

选择了‘TOWN5’中的四向双车道无信号复杂路口作为RL模型的训练和测试环境。该复杂路口的特性如下：道路宽度为14.2米，东西方向的车道(出发区)长度为65米，南北方向的车道(出发区)长度为50米。考虑到Carla地图中的道路特性和V2I通信的覆盖范围，将东西方向控制区域长度设定为70米，南北方向控制区域长度设定为60米。

为了尽可能模拟真实的交通流，在模拟环境中选择了多种车型进行实验。这些车辆的长度在3.6到5.4米之间，宽度在1.8到2.2米之间，高度在1.5到2米之间。假设车辆的到达服从泊松分布。根据设定的每小时平均交通流量λ，本发明使用numpy包中的泊松函数生成了一个随机数λ′。这个随机数用于确定车辆进入复杂路口的时间间隔。进一步地，考虑了车辆在进入控制区域之前的自由行驶速度，以此来计算相邻两辆车之间的距离。然后，连续生成车辆的位置坐标，以在Carla中创建符合泊松分布的连续交通流。为模仿真实交通车辆的控制，本发明在仿真器中选择0.1s的时间步长。

对于MAPCPO算法的策略神经网络，采用LSTM网络结构，除此之外，MAPCPO、MAPPO及MAPPO-SC的策略与值神经网络均才有具有两个隐藏层的傅里叶神经网络。对于每个策略迭代，将收集2048个时间步的轨迹数据，策略神经网络依赖MAPCPO算法进行更新，值神经网络将使用Adam优化器进行策略更新。此外，基于MPC的VICS算法和基于MIP的MICA算法的参数设置与原方法相同。

(2)训练过程性能对比：本部分展示了MAPCPO、MAPPO及MAPPO-SC之间训练性能的差异。MAPPO算法将PPO算法用于复杂路口车辆协同控制，MAPPO-SC算法则是在原MAPPO算法的基础上将奖励函数替换为MAPCPO方法的奖励函数(包括相关的安全约束)。

虽然MAPPO-SC与MAPCPO共享相同的安全相关约束，但它采用了MAPPO所使用的策略更新机制和参数。也就是说，这些约束通过将其纳入奖励函数的惩罚项的形式，影响策略的更新，而不是作为需要明确遵守的独立约束。图4-8展示了在训练阶段MAPCPO、MAPPO-SC和MAPPO的性能指标的比较分析。线条表示训练轨迹的平均值，而阴影区域代表相关的方差。

MAPCPO算法采用渐进式训练，首先使用中车流量场景进行训练，当车辆的碰撞率稳定在0后采用高车流量场景进行第二阶段训练，MAPPO与MAPPO-SC算法则是直接采用高车流量场景进行训练，每种算法共迭代2000轮。

图4展示了三种算法回合平均奖励值的差异。由于MAPPO算法的奖励函数与原文相同，奖励函数的数值与MAPCPO、MAPPO-SC相比偏低，故MAPPO算法的奖励值普遍偏低。在策略以达到的最优性能方面可以看出，曲线收敛后MAPCPO算法的奖励值高于MAPPO-SC算法，其主要原因为MAPCPO算法在策略更新时会满足风险约束，最终能够将风险值保持在0附近，而MAPPO-SC算法更新时追求奖励最大化无法保证最小化风险值。在策略的稳定性方面可以看出，由于MAPCPO算法在策略更新时有严格的风险约束，曲线在收敛后基本没有波动，而MAPPO与MAPPO-SC算法均具有较大的波动。从这两个方面分析，强化学习的基本算法的安全性以及稳定性均不满足自动驾驶的要求。

图5展示了三种算法回合平均风险值的差异。图中底部的深色水平虚直线代表风险阈值，从最终的训练效果来看，只有在策略更新时加入风险约束的MAPCPO算满能够将风险值维持在风险阈值以下。由于MAPPO-SC算法与MAPPO算法相比在奖励函数中加入风险约束，故风险值低于MAPPO算法。

碰撞率是评价算法安全性最直接的指标，如图6所示。碰撞率曲线与风险值曲线相对应，更低的风险值意味着更低的碰撞率。在强化学习奖励函数的设计中，发生碰撞对奖励值的惩罚越大，算法学习到的策略越安全，但是无法将碰撞率保持在0。如MAPPO算法与MAPPO-SC算法，MAPPO-SC算法在奖励函数中加入了MAPCPO算法得安全约束，故拥有更低得碰撞率，但是两种算法都无法将碰撞率维持在0，而本发明的方法做到了这一点。

TTC(Time to Collision)违背频率表征车辆行驶过程潜在风险的大小，如图7所示。TTC违背频率与碰撞率没有直接联系，但高的TTC违背频率意味着具有更大的概率发生碰撞，故其拥有与图5和6相同的趋势，再次说明了MAPCPO算法具有更高的安全性。

图8展示了三种算法训练过程中加速度的变化趋势。加速度是表征乘坐舒适性的一个关键性指标，由于原MAPPO算法中奖励函数的设计不包括乘坐舒适性，故训练并不能使加速度降低并且曲线波动较大。MAPCPO算法中设计了科学的奖励函数，其中包括乘坐舒适性，故训练可以改善该性能。与拥有同样奖励函数的MAPPO-SC算法相比，曲线收敛后MAPCPO算法拥有更低的回合加速度均值，表征着MAPCPO算法的优越性。

(3)AIM系统性能对比：对比了由MAPCPO、MAPPO与MAPPO-SC算法训练出的策略，以及基于MPC的VICS和基于MIP的MICA这五种方法在三种不同的车流密度下的AIM系统性能，其中包括平均碰撞率(MCR)，平均TTC违背次数(TTCVF)，平均回合长度(MEL)以及平均加速度(MEA)。每种方法进行十组实验，每组实验包括十次车流通行尝试，全部车辆无碰撞安全通过或者出现碰撞作为一次车流通行尝试，上述评价指标分别取十组实验的均值得出。实验设置低中高车流密度分别为λ₁＝600veh/hlane，λ₂＝1200veh/hlane，λ₃＝1800veh/hlane。实验结果如图9-20所示。箱型图的上下限分别代表测试数据的最高值与最低值，箱子的上下边界通过四分位距计算，代表数据的波动大小。

在安全性方面，从MCR与TTCVF指标的均值与波动上看，无论哪种车流密度，MAPCPO方法训练出的策略、基于MPC方法和基于MIP方法的策略相较于另两种方法相比具有绝对的优势，MAPPO与MAPPO-SC算法训练出的策略因其高危险性阻碍了实车的应用。基于MPC和基于MIP的通行策略相较于MAPCPO方法训练出的策略拥有相同安全等级的代价是高推理时间导致的高MEL，有时甚至因为行为空间过大而得不到最优解。从车流密度的变化趋势上看更小的车流意味着更小的碰撞风险。

在平顺性方面，MAPCPO算法具有最小的加速度和最小的加速度波动，MAPPO-SC方法因在奖励函数中加入了舒适性限制故其波动小于MAPPO算法，但总体MAPCPO算法表现出了最佳性能。MPC算法因为出现过多车辆急刹等待与加速驶离的现象，所以呈现出最初的乘坐舒适性。从车流密度的变化趋势上看更小的车流拥有更好的平顺性，原因在于车流的增加时行为空间呈指数级增加，策略较难探索到好的控制方式。

在通行效率方面MAPPO算法表现出最优性能，原因在于MAPPO方法的奖励函数中没有加入TTC违背的安全约束因而出现较多的TTC违背次数，三种强化学习算法的MEL相差较少性能基本持平，而另两种传统控制方法拥有过高的MEL意味着通行效率与强化学习方法相比有较大的差距。从车流的变化趋势上看，小的车流拥有更高的通行效率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于投影式约束策略优化的自动道路交叉口管理方法，其特征在于，包括以下步骤：

步骤1、投影式约束策略优化：

包含六个要素：策略网络、模型、奖励函数、风险函数、价值估计网络和风险估计网络；策略网络使用LSTM神经网络，用于根据智能体的当前的状态决定智能体下一步的行为；模型用于为智能体与环境的交互提供场景；奖励函数用于引导智能体学习，使智能体达到预期目标；价值估计网络用于对智能体当前的策略做出评价以更新策略网络；风险函数用于保证智能体探索过程的安全；风险估计网络用于评估智能体当前行为的危险程度以限制策略网络的更新；

步骤2、基于投影式约束策略优化的自动交叉口管理：

搭建一个复杂路口场景作为模型，设计奖励函数与风险函数，奖励函数兼顾车辆的通行效率、舒适性、碰撞安全性以及横向控制稳定性，风险函数兼顾车辆的碰撞风险以及车辆间距小于安全车距的风险；

策略训练过程为：在预定时间内让车辆探索行为，策略网络通过输入车辆距离目标地点的距离以及车辆当前的速度控制环境中所有车辆的速度，车辆行驶的路线由仿真器设计，如果发生碰撞或者车辆全部通过则重置场景，搜集这段时间内策略网络的输入、策略网络的输出、得分、风险值、价值估计值以及风险估计值，用以更新策略网络、价值估计网络和风险估计网络。

2.根据权利要求1所述的基于投影式约束策略优化的自动道路交叉口管理方法，其特征在于，所述步骤1包括以下具体步骤：

步骤1.1、算法定义：将投影式约束策略优化问题表述为CMG，一个用于运行智能体的CMG被定义为一个元组{S，A，R，C，P，μ，γ}，其中S表示全局状态空间，定义为表示所有智能体的联合动作空间的集合；代表联合奖励函数，用于描述状态s_t采取联合行动a_t到下一个状态s_t+1的即时奖励，/>表示风险函数的集合定义的特定环境安全约束，每个智能体都有N_i，c风险函数，/>过渡元组映射到风险成本阈值P表示从(s_t，a_t)过渡到状态s_t+1的概率，μ表示三个神经网络参数的初始分布，γ表示折扣因子；

步骤1.2、构建策略神经网络：策略神经网络的输入为所有智能体在当前时刻的联合状态，输出为所有智能体下一时刻的行为；策略神经网络共包含三个Linear层和一个LSTM层，假设复杂路口场景中共N个智能体，策略神经网络的输入为每个智能体在第n个时间步内搜集到的信息，表示为每一个时间步搜集到的所有智能体状态是一个(1，N×2)的矩阵，首先通过输入一个Linear层变为(1，512)的矩阵，然后通过Relu函数进行激活，接着通过LSTM层输出维度变为(n×1×512)，将LSTM的输出结果进行值域调整，以确保LSTM网络的输出结果适用于真实场景，将适应化操作后的结果送入Linear层并且进行Relu激活操作，最后将输出结果的维度通过Linear层变化为(n×N)并进行Sigmoid激活作为策略网络最终的输出结果；

步骤1.3、构建价值估计与风险估计神经网络：价值估计与风险估计神经网络通过当前收集的轨迹信息判断更新后的策略神经网络是否有更高的奖励以及更低的风险，采用全连接层神经网络模型作为价值估计与风险估计神经网络；首先网络输入的状态与策略网络模型相同，输入每辆车距离目标地点的距离与车辆当前的速度，维度为(1，N×2)，经过三个连接层并进行Relu激活操作后得到最终输出结果，维度变化依次为(1，512)，(1，512)，(1，1)。

3.根据权利要求2所述的基于投影式约束策略优化的自动道路交叉口管理方法，其特征在于，在所述步骤1.2中，将策略神经网络的更新分为三种情况：KL散度信任域在风险信任域内，KL散度信任域与风险信任域交叉，KL散度信任域与风险信任域无交集；

首先为奖励值定义价值函数V^π(s)＝E_τ～π[R(τ_π|s₀＝s)]，表示状态s对应的期望奖励值，其中τ＝(s₀，a₀，s₁，...)表示依赖与策略π的轨迹，R(τ_π)＝∑_tγ^tR(s_t，a_t，s_t+1)表示轨迹τ对应的折扣过的奖励值，定义行为价值函数为Q^π(s，a)＝E_τ～π[R(τ_π)|s₀＝s，a₀＝a]，表示状态s与行为a对应的期望奖励值，定义优势函数为表示在状态s一致的前提下，行为a对应的奖励与期望奖励的差值，若A^π(s，a)为正值表明通过动作a获得的整体奖励值更高，若A^π(s，a)为负值表明通过动作a获得的整体奖励值低于平均奖励，定义具有神经网络参数θ的策略神经网络π_θ对应的期望收益为/>同理，为风险定义价值函数、行为函数和优势函数分别为/>相对于风险函数/>的折扣过的风险期望值为/>则CMGs模型的可行策略集合表示为其中/>表示在i时刻第j个智能体的风险闺值；

通过F综合判断更新方式，其中/>表示风险函数/>的梯度，/>表示智能体在当前策略下的风险值与风险阖值的接近程度；定义/>则/>用于判断KL散度信任域与风险信任域是否呈交叉关系，其中H表示新旧策略间KL散度的Hessian矩阵；

当时，此时朝任意方向更新策略均不会有危险；当F＜0并且/>时此时朝任意方向更新策略也不会有危险，将这两种情况归结为情况3，当策略处于情况3时，应用信任域策略优化算法更新策略网络参数：

θ_k+1＝argmax_θg^T(θ-θ_k) (2)

当F＞0时，若最大化期望奖励值更新可能导致策略进入比较危险区域的情况，将此种情况归结为情况2；若策略神经网络处于情况2，则使用投影式约束策略优化更新策略网络：奖励提升步骤与投影步骤；奖励提升步骤通过信任域策略优化算法最大化奖励值，投影步骤将通过奖励提升步骤后的策略网络投影到风险信任域内；首先，在KL散度信任域内最大化优势函数A^π(s，a)：

使用凸优化方法解方程(6)和(7)：

若F＜0且时，此种情况下策略朝任意方向更新都不会处于安全状态，将该情况归结为情况1；若策略处于情况1，使用线性回溯的方法更新策略神经网络以最小化风险值：

4.根据权利要求3所述的基于投影式约束策略优化的自动道路交叉口管理方法，其特征在于，在所述步骤1.3中，价值估计与风险估计神经网络的更新原理如下：

价值估计与风险估计神经网络通过预测值与真实值之间的差值进行更新，表示为：

5.根据权利要求2所述的基于投影式约束策略优化的自动道路交叉口管理方法，其特征在于，所述步骤2包括以下具体步骤：

步骤2.1、状态空间与行为空间的设计：

定义状态空间为代表进入复杂路口区域的智能驾驶汽车距离离去点的距离，q∈(0，1，2)代表智能驾驶汽车的行驶方向，分别表示智能驾驶汽车右转、直行与左转行为；

的计算分两种情况：车辆从直道驶入以及车辆从弯道驶入；当车辆从直道驶入时，分为右转、直行与左转三种行为，三种行为的计算公式为：

D_q＝d₁+d₂ (11)

当车辆从弯道驶入时，同样分为右转、直行与左转三种行为，计算公式为：

D′_q＝d′₁+d′₂ (12)

代表智能驾驶汽车i在当前时间步下的实时速度，每辆车经过复杂路口时只有一种行驶方向，将剩余两个行驶方向的状态空间用零向量填充；q赋予策略智能驾驶汽车的转向信息，结合d策略判断智能驾驶汽车当前处于复杂路口的位置，同时状态空间包括每个智能驾驶汽车当前的速度信息；

行为空间定义为模型的联合行为空间只选择复杂路口区域全部智能驾驶汽车未来的联合期望速度；

步骤2.2、定义风险函数与奖励函数：

首先定义风险函数，智能驾驶汽车在通过复杂路口时潜在的安全风险包括碰撞与侧滑：

碰撞：

其中risk_collision＝125代表发生碰撞时赋予的风险值；代表在时间步t下存在碰撞风险的智能驾驶汽车违背安全车距时赋予的风险值，m代表存在碰撞风险且违背安全距离的智能驾驶汽车的对数；

侧滑：

其中代表智能驾驶汽车i在时间步t下的瞬时加速度，g代表重力加速度，μ代表复杂路口路面的摩擦系数；则风险函数定义为：

C＝C_collision+C_steer (15)

接着定义奖励函数，安全性：智能驾驶汽车安全性的奖励分为引导性奖励与决定性奖励：

其中代表引导性奖励，/>代表决定性奖励；

高效性：

其中δ_v为折扣因子，Δv^t，i＝v^t，i-v_expect代表在时间步t下智能驾驶汽车i的车速与期望车速的差值，代表时间积累造成的奖励损失；

平顺性：

其中δ_v为折扣因子，代表一个时间步智能驾驶汽车i的加速度；综上，奖励函数定义为

R＝R_safety+R_efficiency+R_smoothness (19)。