CN117636661A

CN117636661A - 一种无信号交叉口完全自主交通流通行控制方法

Info

Publication number: CN117636661A
Application number: CN202311687482.8A
Authority: CN
Inventors: 高镇海; 郝鹤声; 赵睿; 高菲
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-03-01

Abstract

本发明适用于智能交通技术领域，提供了一种无信号交叉口完全自主交通流通行控制方法，包括如下步骤：交叉口几何拓扑建模与交通流场景建模；交叉口交通流通行控制问题的约束马尔科夫建模及安全强化学习问题转换；交通流通行控制网络模型设计；利用安全改进的深度强化学习方法训练交叉口交通流通行控制方法。通过仿真实验测试结果表明，本发明提出的方法可以在贴近真实场景的交通流仿真环境中有效地训练得到安全性改进且高效舒适的无信号交叉口自动驾驶交通流通行策略。

Description

一种无信号交叉口完全自主交通流通行控制方法

技术领域

本发明属于智能交通技术领域，尤其涉及一种无信号交叉口完全自主交通流通行控制方法。

背景技术

无信号交叉口汇集了多来向、多流向和多车道交通流的行驶冲突点，造成了交通拥堵、事故和经济损耗。信号交叉口虽能避免绝大多数行驶冲突，但牺牲了一定程度的交通资源利用率，在高车流量时易造成拥堵。随着车路协同技术的快速发展，具备车联网功能的高度自动化车辆数量将迅速增加，由其组成的完全自主交通流被期望完全依靠控制器在无信号交叉口实现无碰撞、零拥堵的高效通行。

深度强化学习方法是无信号交叉口通行研究的热点。因其在普适性、计算效率、通行效率和模型复杂度等方面相较于传统的基于规则的通行策略(如通行预约)有控制优势，因而深度强化学习得以广泛应用。但其也有着无安全保障的缺陷。由于算法将车辆行驶安全性作为一项系统性能而非约束引入其中，算法无限制地在可行域中探索，不可避免会搜集到不安全行为轨迹，可能会学习到高风险的通行策略。因此，传统的深度强化学习方法无法保证汽车的绝对行驶安全。

发明内容

本发明实施例的目的在于提供一种无信号交叉口完全自主交通流通行控制方法，旨在解决上述背景技术中提出的问题。

本发明实施例是这样实现的，一种无信号交叉口完全自主交通流通行控制方法，包括以下步骤：

步骤1、交叉口几何拓扑建模与交通流场景建模：

通过定义交叉口的道路方向、道路数量、道路所含车道数量以及道路宽度，构建出由六车道道路交汇形成的十字交叉口场景；设定车辆的被控区域为距离交叉口一定距离内的区域，设定到达交叉口的车辆密度符合真实交通场景，车辆到达交叉口的概率服从泊松分布，以此构建贴近真实交通的交叉口交通流场景模型。

步骤2、交叉口交通流通行控制问题的约束马尔科夫建模及安全强化学习问题转换：

设定适合交叉口交通流通行控制问题的状态空间、动作空间、奖励函数以及成本函数，将交叉口通行控制问题转变为安全深度强化学习问题。状态空间表示智能体在环境中的所有状态特征，动作空间表示智能体在环境中可以采取的动作，奖励函数用于对智能体在某一状态下采取某一动作的性能进行评价，成本函数用于对智能体采取的动作的风险进行评估。

步骤3、交通流通行控制网络模型设计：

设计具有策略-价值-成本架构的神经网络模型。其中，策略网络为交通流通行控制的决策模块，基于当前环境状态输出智能体拟采用的动作；价值网络和成本网络分别用于近似通行策略的性能评价函数和风险评估函数，用来指导策略网络的更新方向。

步骤4、利用安全性改进的深度强化学习方法训练交叉口交通流通行控制方法：

将拉格朗日乘子法融合进深度强化学习方法，以得到安全性改进的深度强化学习方法。该方法的输入为环境状态，基于当前策略网络为智能体选择拟采用的动作，智能体执行所选取的动作，进而得到下一个时间步的状态。搜集智能体与环境交互的状态和动作轨迹得到采样样本，进而基于价值网络和成本网络对当前策略的性能和风险进行评估。计算策略网络，价值网络及成本网络的损失函数，利用梯度下降法对策略进行迭代更新。

本发明实施例提供的一种无信号交叉口完全自主交通流通行控制方法，其有益效果如下：

(1)通过将拉格朗日乘子法融合进近端策略优化算法，将车辆通行风险作为约束项引入算法的策略迭代过程中，限定通行策略采样的安全域，改善了深度强化学习算法固有的无安全保障问题，加速了算法的安全性能提升；

(2)提出了具有策略-价值-成本架构的网络模型，更有效地利用所采集的数据样本，加速强化学习的训练效率，使用价值网络对当前策略的性能进行评价，使用成本网络对当前策略的风险进行评估，以指导策略网络的安全性更新，训练性能安全、高效且舒适的交叉口交通流通行控制策略；

(3)提出成本优势函数来量化车辆通行策略的风险水平，在策略迭代过程中进一步加强算法的安全性提升，通过搭建贴近真实交通场景的仿真环境并进行实验，证明了该方法能够实现无信号交叉口完全自主交通流的安全高效行驶，说明其具有实际应用价值。

附图说明

图1为本发明实施例提供的一种无信号交叉口完全自主交通流通行控制方法的流程图；

图2为本发明实施例提供的一种无信号交叉口完全自主交通流通行控制方法中的交叉口几何拓扑及交通流通行建模图；

图3为本发明实施例提供的一种无信号交叉口完全自主交通流通行控制方法中的神经网络架构示意图；

图4为本发明实施例提供的一种无信号交叉口完全自主交通流通行控制方法中的算法流程图；

图5为奖励值-迭代次数实验曲线图；

图6为成本值-迭代次数实验曲线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，为本发明一个实施例提供的一种无信号交叉口完全自主交通流通行控制方法，包括以下步骤：

步骤1、交叉口几何拓扑建模与交通流场景建模：

步骤3、交通流通行控制网络模型设计：

作为本发明的一种优选实施例，所述步骤1包括以下具体步骤：

步骤1.1、交叉口几何拓扑建模：

以右侧通行双向六车道交汇形成的十字形交叉口为例，对交叉口的几何拓扑结构进行建模。所提出的方法对其他拓扑结构的交叉口同样适用。如图2所示，连接交叉口的道路所包含的车道由内侧到外侧分别记为N₁、N₂、N₃、E₁、E₂、E₃、S₁、S₂、S₃、W₁、W₂和W₃，车道宽度为w，以交叉口的几何中心点作为交通流通行控制问题的局部坐标系原点。在车道N₁、E₁、S₁和W₁上行驶的汽车仅允许左转，在车道N₂、E₂、S₂和W₂上行驶的汽车仅允许直行，在车道N₃、E₃、S₃和W₃上行驶的汽车只能采取右转的行驶方向。车辆的行驶方向由驶入车道和驶出车道的标识来表示，如N₁S₁表示车辆的期望行驶路径为由N₁车道驶向S₁车道。车辆的行驶路径为设定的车道参考中心线。车辆在交叉口内通行的潜在冲突点如图中圆点所示，共16种碰撞可能。车辆在交叉口通行的被控区域为交叉口内部和道路上距交叉口入口距离d_b的范围所涵盖的区域。上述交叉口几何拓扑信息提前存储于交叉口路侧单元，为车辆运动协同控制提供数据支持。

步骤1.2、交通流场景建模：

区别于当前大多数研究基于回合制进行交叉口车辆通行研究，且仅控制固定数量的车辆在交叉口的通行，本方法提出基于可持续交通流的被控车辆数量可变的高随机度动态交叉口仿真实验场景。在交叉口被控区域的边缘，源源不断地生成伴有随机到达速度的车辆，所有车辆在本方法所提供的算法的控制下行驶通过交叉口。当车辆驶出交叉口后，算法放弃该车辆的控制接管，车辆在自身控制器作用下恢复到巡航行驶速度。由于本方法使用强化学习算法来进行交通流通行控制，当策略训练迭代前需停止采样，为保证仿真环境交通场景的连贯性，在采样结束时保存道路上所有车辆的运动状态，包括位置、速度、航向角、所在车道、驶入车道和驶出车道信息，在下个迭代的采样阶段开始时，恢复所保存的交通环境，以此实现可持续的交叉口交通流场景。

为进一步实现真实的交通场景，本方法设定交叉口车辆到达率为每车道每小时ρ辆，且车辆在每个时间点的到达概率服从泊松分布，即：

其中X表示在某时间点是否有车辆到达交叉口，若有车辆到达，则X为1，若无车辆到达，则X为0；k＝0，1，即X的所有可能的取值；t_d为离散时间步间隔。

车辆在交叉口的运动状态建模如下。在时间步t，车辆V_i的速度为v_i(t)，加速度为a_i(t)，加加速度为j_i(t)，航向角为h_i(t)，以车辆几何中心坐标表示车辆所处的位置(下述为车辆中心)。车辆V_i中心距交叉口入口距离为车辆V_i中心距其期望路径在交叉口内中点的距离为/>车辆V_i与车辆V_j中心的距离为d_ij(t)。接近交叉口的车辆总数最大值为N。

为了测试验证所提出方法的性能，本发明的仿真试验依赖于以下基本假设：可以实时准确地获得所有车辆的位置、速度、加速度和航向角等运动状态信息；由车辆底层的路径跟踪模块进行横向运动控制；所有车辆均配备车辆网通信设备且忽略通信延迟和丢包。

作为本发明的一种优选实施例，在所述步骤2中，约束马尔科夫决策过程由一个六元素的元组构成是智能体在环境中的状态s的集合，即/>将交叉口交通流通行控制问题的状态空间表示为：

其中I_i和O_i分别为车辆V_i在交叉口的驶入车道信息和驶出车道信息，共同表示车辆在交叉口的行驶方向，使用独热编码表示。当交叉口通行车辆数量小于N时，状态s中的空缺车辆位置由对应状态空间的下限补充。

是智能体可采取的动作a的集合，即/>将动作空间表示为：

其中a_i为车辆V_i拟采用的纵向加速度，范围是(a_min，a_max)。

状态转移概率P表示智能体由状态s采取动作a转移到状态s′的概率；奖励函数R用于量化智能体在状态s采取动作a的性能。本方法的奖励函数设置分为目标奖励R_g，速度奖励R_v和舒适奖励R_c。其中目标奖励R_g为稀疏奖励，速度奖励R_v和舒适奖励R_c为密集奖励。

目标奖励R_g表示车辆通过交叉口这一通行目标的达成情况，用于引导策略向车辆无碰撞地安全通过交叉口的方向优化。目标奖励R_g的计算公式为：

R_g＝[N_p，N_c][r_p，r_c]^T (5)

其中N_p和N_c分别为在当前时间步通过交叉口的车辆数量和发生碰撞的车辆数量，r_p和r_c分别为单车通过奖励和单车碰撞奖励。

速度奖励R_v表示车辆行驶速度相对设定的推荐车速的偏离情况，用于引导车辆以适当的车速行驶，避免车速过慢导致通行效率低下，或是车速过快导致的行驶舒适性降低，降低行车风险。假设推荐车速为(v_min，v_max)，速度奖励R_v的计算公式为：

其中k_v＜0为速度奖励系数。

舒适奖励R_c表示车辆行驶的加速度变化剧烈程度，用于引导策略向更优行驶舒适性的方向优化。舒适奖励R_c的计算公式为：

其中k_c＜0为舒适奖励系数。

综上，本发明所提出的强化学习算法在单个时间步的奖励函数为：

R＝R_g+R_v+R_c (8)

同时，通过设计成本函数C，将交叉口交通流通行控制问题的行车风险以约束的形式引入强化学习的策略训练过程中，来增强算法在迭代过程中的安全优化性能。成本函数C的计算公式为：

其中，d_a表示车间距成本函数的激活阈值，当两车距离d_ij(t)小于d_a时，计算车辆的行车风险；表示取余运算；/>表示两车所在车道的位置关系，若两车在同一车道，则否则/>通过累加每个车辆对的相对距离与两车航向角夹角正弦值的乘积，来评估交叉口交通流通行的车辆行驶碰撞风险。在成本函数中加入车辆碰撞奖励的分值作为碰撞成本，来强化车辆碰撞事件的高成本。

约束马尔科夫决策过程的元素γ∈[0，1]是折扣因子，表示未来奖励/成本相比近期奖励/成本的重要程度。引入策略π，表示在时间步t的状态s下，从动作空间中选取动作a的概率分布，数学表达式为：

从时间步t至最终时间步的整个(s，a，R，C，s′，...)序列的累计奖励称为价值回报

V_π(s)为状态价值函数，表示在状态s下遵循策略π至回合结束所获得的期望价值回报：

类似地，定义成本回报表示从时间步t至最终时间步的累计成本：

定义状态成本函数CV_π(s)，表示在状态s遵循策略π至回合结束时的期望成本回报：

安全深度强化学习的目标是利用智能体与环境交互收集的样本数据，不断训练优化神经网络所代表的策略，寻找出使得整个交互过程的价值回报最大，同时成本回报保持在一定约束值的最佳策略π^*：

其中C_l为期望约束。

如图3所示，作为本发明的一种优选实施例，在所述步骤3中，策略网络、价值网络和成本网络均包括输入层、两个隐藏层和输出层。输入层用于输入当前时间步的环境信息，即车辆实时位置、速度、驶入车道及驶出车道等信息，隐藏层用于进行输入层到输出层的映射，输出层用于输出车辆控制指令、状态价值或状态成本。

作为本发明的一种优选实施例，所述步骤4包括以下具体步骤：

步骤4.1、状态、动作、奖励和成本轨迹搜集：

安全深度强化学习以智能体所处的环境状态s(即步骤1中的状态)作为输入，基于当前策略网络为智能体选择拟采用的动作a，智能体执行所选取的动作，进而得到下一个时间步的环境状态s′。对所经历的状态、动作、奖励、成本轨迹(s，a，R，C，s′，...)进行搜集，用于所提出的神经网络的训练和迭代。

步骤4.2、基于价值网络和成本网络的策略评估：

结合拉格朗日乘子法和深度强化学习方法近端策略优化来训练神经网络。在每次迭代的训练过程中，首先将搜集到的轨迹数据批乱序并均分成若干份最小数据批，依次利用每份最小数据批进行更新幅度受限的策略优化。将采集的轨迹数据重复利用若干次，来提高采样样本的训练效率。分别利用价值网络和成本网络对当前策略的性能和风险进行评估，以指引策略网络的迭代优化方向。使用均方误差回归拟合方法计算价值网络损失函数：

成本网络的损失函数为：

步骤4.3、神经网络参数更新：

拉格朗日乘子λ的损失函数为：

利用梯度下降方法更新拉格朗日乘子λ：

其中α_λ为拉格朗日乘子学习率。

计算价值优势函数

表示在状态s_t下采取动作a_t，实际得到的折扣奖励相对价值网络拟合的状态价值的优势。类似地，计算成本优势函数/>

计算新旧策略的变化比例：

通过裁剪函数限制策略的更新变化比例，策略网络损失函数为：

其中∈∈[0，1]为裁剪系数。

将策略网络、价值网络和成本网络的隐藏层参数共享，因此结合各个网络的损失函数，建立新的损失函数利用梯度下降方法来实现网络参数的更新。结合式(16)、(17)和(23)，建立策略-价值-成本网络的损失函数/>

利用梯度下降方法更新网络参数：

其中α为神经网络学习率。

本方法所提出的算法如图4所示。首先初始化拉格朗日乘子为λ₀，使用网络参数θ₀初始化所提出的策略-价值-成本网络为π₀，设置神经网络学习率α，折扣因子γ，裁剪范围∈，总采样时间步T，数据批大小B，最小数据批大小MB，数据批利用次数U。每次迭代的采样阶段使用当前策略π_k与环境交互直至收集到长度为B的轨迹，将采集的样本数据存入到缓冲区中。使用近端策略优化数据训练方法，将缓冲区中的数据均分为B/MB份，接下来利用每一份最小数据批进行策略更新。使用裁剪函数限制策略的更新变化幅度，并融入拉格朗日乘子法的约束求解理念，计算含有被约束值的策略网络损失函数随后，使用均方误差回归拟合方法计算价值网络和成本网络的损失函数/>和/>经测试，共享策略网络、价值网络、成本网络的隐藏层网络参数能够获得更好的训练效果，因此本发明提出了适合所提出策略-价值-成本网络架构的损失函数/>通过梯度下降方法，使用Adam优化器更新策略-价值-成本网络参数。重复以上步骤直至采集的样本数据被利用U次，进入下一次迭代。循环进行迭代，直至总采样时间步达到T。

作为本发明的一种优选实施例，基于自动驾驶仿真软件Highway-Env测试了本方法的性能。仿真实验在Windows 11系统上进行，所提出的方法基于Python3编写实现。

1.实验参数设置

针对六车道十字形交叉口场景进行了仿真实验，实验参数如表1。交叉口被控区域范围设置为交叉口内部及路段上距交叉口入口20米内的范围。设定交通流密度为1000辆/小时/车道，以复现真实的交通场景。仿真实验的离散时间步间隔为0.1秒，设定同时在交叉口通行的车辆总数为12辆。受车辆动力学约束，车辆行驶的加速度最大值与最小值分别为-5米/秒²和5米/秒²。设定强化学习的奖励、成本折扣因子为0.99。神经网络采用两层具有512个神经元的全连接隐藏层，使用tanh作为输出层的激活函数。神经网络参数学习率设为由0.00003线性衰减到0，以便于训练的收敛。拉格朗日乘子初始值为1.0，学习率为0.04。设置策略成本的期望约束边界为0。每次迭代中采集2048个时间步长的轨迹数据，以64个时间步长作为最小批训练的尺寸，当总采样时间步达到2048000时，训练停止。

表1

2.实验结果

图5与图6分别展示了本发明仿真实验的奖励值-迭代次数实验曲线及成本值-迭代次数实验曲线。策略训练的初期，交叉口通行车辆无法认知危险交通状态，无法进行安全的驾驶行为决策并与存在路径冲突的车辆间实现减速避撞。因此，大量的通行碰撞和危险的驾驶行为带来了较低的奖励值和较高的成本值。在碰撞奖励函数、通过奖励函数、车间距成本函数以及碰撞成本函数的引导下，策略训练中后期车辆成功学习到安全的驾驶策略，避免在车辆间的交互过程中陷入危险的交通状态，奖励值迅速增大，成本值显著降低。最后，在速度奖励函数和舒适奖励函数的设置下，策略不断向更高通行效率的方向迭代更新，奖励值缓慢增大，成本值基本不变。由此，本发明所提算法能够有效地训练安全性改进且高效舒适的无信号交叉口交通流通行策略，实现良好的训练效果。经测试，本发明在单个离散时间步的计算时间约为0.04s，能够满足交叉口自动驾驶通行决策的高实时性要求。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种无信号交叉口完全自主交通流通行控制方法，其特征在于，包括以下步骤：

步骤1、交叉口几何拓扑建模与交通流场景建模：

通过定义交叉口的道路方向、道路数量、道路所含车道数量以及道路宽度，构建出由道路交汇形成的十字交叉口场景；设定车辆的被控区域以及到达交叉口的车辆密度，车辆到达交叉口的概率服从泊松分布；

设定交叉口交通流通行控制问题的状态空间、动作空间、奖励函数以及成本函数，将交叉口通行控制问题转变为安全深度强化学习问题；其中，状态空间表示智能体在环境中的所有状态特征，动作空间表示智能体在环境中可以采取的动作，奖励函数用于对智能体在某一状态下采取某一动作的性能进行评价，成本函数用于对智能体采取的动作的风险进行评估；

步骤3、交通流通行控制网络模型设计：

设计具有策略-价值-成本架构的神经网络模型；其中，策略网络为交通流通行控制的决策模块，基于当前环境状态输出智能体拟采用的动作；价值网络和成本网络分别用于近似通行策略的性能评价函数和风险评估函数，用来指导策略网络的更新方向；

将拉格朗日乘子法融合进深度强化学习方法，以得到安全性改进的深度强化学习方法；其输入为环境状态，基于当前策略网络为智能体选择拟采用的动作，智能体执行所选取的动作，进而得到下一个时间步的状态；搜集智能体与环境交互的状态和动作轨迹得到采样样本，进而基于价值网络和成本网络对当前策略的性能和风险进行评估；计算策略网络、价值网络以及成本网络的损失函数，利用梯度下降法对策略进行迭代更新。

2.根据权利要求1所述的无信号交叉口完全自主交通流通行控制方法，其特征在于，所述步骤1包括以下具体步骤：

步骤1.1、交叉口几何拓扑建模：

基于右侧通行双向六车道交汇形成的十字形交叉口，对交叉口的几何拓扑结构进行建模；连接交叉口的道路所包含的车道由内侧到外侧分别记为N₁、N₂、N₃、E₁、E₂、E₃、S₁、S₂、S₃、W₁、W₂和W₃，车道宽度为w，以交叉口的几何中心点作为交通流通行控制问题的局部坐标系原点；在车道N₁、E₁、S₁和W₁上行驶的汽车仅允许左转，在车道N₂、E₂、S₂和W₂上行驶的汽车仅允许直行，在车道N₃、E₃、S₃和W₃上行驶的汽车只能采取右转的行驶方向；车辆的行驶方向由驶入车道和驶出车道的标识来表示，车辆的行驶路径为设定的车道参考中心线；车辆在交叉口通行的被控区域为交叉口内部和道路上距交叉口入口距离d_b的范围所涵盖的区域；

步骤1.2、交通流场景建模：

在交叉口被控区域的边缘，源源不断地生成伴有随机到达速度的车辆，所有车辆在本方法所提供的算法的控制下行驶通过交叉口；当车辆驶出交叉口后，算法放弃该车辆的控制接管，车辆在自身控制器作用下恢复到巡航行驶速度；

设定交叉口车辆到达率为每车道每小时ρ辆，且车辆在每个时间点的到达概率服从泊松分布，即：

其中X表示在某时间点是否有车辆到达交叉口，若有车辆到达，则X为1，若无车辆到达，则X为0；k＝0，1，即X的所有可能的取值；t_d为离散时间步间隔；

车辆在交叉口的运动状态建模如下：在时间步t，车辆V_i的速度为v_i(t)，加速度为a_i(t)，加加速度为j_i(t)，航向角为h_i(t)，以车辆几何中心坐标表示车辆所处的位置，车辆V_i中心距交叉口入口距离为车辆V_i中心距其期望路径在交叉口内中点的距离为/>车辆V_i与车辆V_j中心的距离为d_ij(t)，接近交叉口的车辆总数最大值为N。

3.根据权利要求2所述的无信号交叉口完全自主交通流通行控制方法，其特征在于，在所述步骤2中，约束马尔科夫决策过程由一个六元素的元组构成是智能体在环境中的状态s的集合，即/>将交叉口交通流通行控制问题的状态空间表示为：

其中I_i和O_i分别为车辆V_i在交叉口的驶入车道信息和驶出车道信息，共同表示车辆在交叉口的行驶方向，使用独热编码表示；当交叉口通行车辆数量小于N时，状态s中的空缺车辆位置由对应状态空间的下限补充；

是智能体可采取的动作a的集合，即/>将动作空间表示为：

其中，a_i为车辆V_i拟采用的纵向加速度，范围是(a_min，a_max)；

状态转移概率P表示智能体由状态s采取动作a转移到状态s′的概率；奖励函数R用于量化智能体在状态s采取动作a的性能；奖励函数设置分为目标奖励R_g、速度奖励R_v和舒适奖励R_c；其中目标奖励R_g为稀疏奖励，速度奖励R_v和舒适奖励R_c为密集奖励；

目标奖励R_g表示车辆通过交叉口这一通行目标的达成情况，用于引导策略向车辆无碰撞地安全通过交叉口的方向优化，目标奖励R_g的计算公式为：

R_g＝[N_p，N_c][r_p，r_c]^T (5)

其中N_p和N_c分别为在当前时间步通过交叉口的车辆数量和发生碰撞的车辆数量，r_p和r_c分别为单车通过奖励和单车碰撞奖励；

速度奖励R_v表示车辆行驶速度相对于设定的推荐车速的偏离情况，用于引导车辆以适当的车速行驶，设推荐车速为(v_min，v_max)，速度奖励R_v的计算公式为：

其中k_v＜０为速度奖励系数；

舒适奖励R_c表示车辆行驶的加速度变化剧烈程度，用于引导策略向更优行驶舒适性的方向优化，舒适奖励R_c的计算公式为：

其中k_c＜0为舒适奖励系数；

综上，所提出的强化学习算法在单个时间步的奖励函数为：

R＝R_g+R_v+R_c (8)

同时，设计成本函数C，将交叉口交通流通行控制问题的行车风险以约束的形式引入强化学习的策略训练过程中，成本函数C的计算公式为：

其中，d_a表示车间距成本函数的激活阈值，当两车距离d_ij(t)小于d_a时，计算车辆的行车风险；表示取余运算；/>表示两车所在车道的位置关系，若两车在同一车道，则/>否则/>通过累加每个车辆对的相对距离与两车航向角夹角正弦值的乘积，来评估交叉口交通流通行的车辆行驶碰撞风险；在成本函数中加入车辆碰撞奖励的分值作为碰撞成本，来强化车辆碰撞事件的高成本；

约束马尔科夫决策过程的元素γ∈[0，1]是折扣因子，表示未来奖励/成本相比近期奖励/成本的重要程度；引入策略π，表示在时间步t的状态s下，从动作空间中选取动作a的概率分布，数学表达式为：

定义成本回报表示从时间步t至最终时间步的累计成本：

安全深度强化学习的目标是利用智能体与环境交互收集的样本数据，不断训练优化神经网络所代表的策略，寻找出使得整个交互过程的价值回报最大，同时成本回报保持在约束值的最佳策略π^*：

其中C_l为期望约束。

4.根据权利要求3所述的无信号交叉口完全自主交通流通行控制方法，其特征在于，在所述步骤3中，策略网络、价值网络和成本网络均包括输入层、两个隐藏层和输出层；输入层用于输入当前时间步的环境信息，即车辆实时位置、速度、驶入车道及驶出车道信息，隐藏层用于进行输入层到输出层的映射，输出层用于输出车辆控制指令、状态价值或状态成本。

5.根据权利要求4所述的无信号交叉口完全自主交通流通行控制方法，其特征在于，所述步骤4包括以下具体步骤：

步骤4.1、搜集状态、动作、奖励和成本轨迹：

安全深度强化学习以智能体所处的环境状态s作为输入，基于当前策略网络为智能体选择拟采用的动作a，智能体执行所选取的动作，进而得到下一个时间步的环境状态s′；对所经历的状态、动作、奖励和成本轨迹(s，a，R，C，s′，...)进行搜集，用于神经网络的训练和迭代；

步骤4.2、基于价值网络和成本网络的策略评估：

在每次迭代的训练过程中，首先将搜集到的轨迹数据批乱序并均分成若干份最小数据批，依次利用每份最小数据批进行更新幅度受限的策略优化；将采集的轨迹数据重复利用若干次，分别利用价值网络和成本网络对当前策略的性能和风险进行评估，以指引策略网络的迭代优化方向；使用均方误差回归拟合方法计算价值网络损失函数：

成本网络的损失函数为：

步骤4.3、神经网络参数更新：

拉格朗日乘子λ的损失函数为：

利用梯度下降方法更新拉格朗日乘子λ：

其中α_λ为拉格朗日乘子学习率；

计算价值优势函数

表示在状态s_t下采取动作a_t，实际得到的折扣奖励相对价值网络拟合的状态价值的优势；

计算成本优势函数

计算新旧策略的变化比例：

其中∈∈[0，1]为裁剪系数；

将策略网络、价值网络和成本网络的隐藏层参数共享，因此结合各个网络的损失函数，建立新的损失函数利用梯度下降方法来实现网络参数的更新；结合式(16)、(17)和(23)，建立策略-价值-成本网络的损失函数/>

利用梯度下降方法更新网络参数：

其中α为神经网络学习率。