CN117609093A

CN117609093A - 一种自动驾驶场景下交通参与者动态切入行为的生成方法

Info

Publication number: CN117609093A
Application number: CN202311730921.9A
Authority: CN
Inventors: 黄鹤; 黄泽辰; 蔡雄风; 杨迪; 尹成昊; 曹旭东; 石琴; 郑文婷
Original assignee: Hefei University of Technology; Weilai Automobile Technology Anhui Co Ltd
Current assignee: Hefei University of Technology; Weilai Automobile Technology Anhui Co Ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-02-27

Abstract

本发明公开了一种自动驾驶场景下交通参与者动态切入行为的生成方法，包括：1、构建切入场景仿真环境，并采集环境信息；2、构建状态量，动作量，对动作量处理生成预期轨迹；3、奖励函数设计；4、构建策略‑评价网络，并基于PPO算法训练神经网络，从而动态生成切入行为。本发明使用深度强化学习方法，生成无人驾驶测试车辆在道路上遭遇激进切入行为的测试场景，能够有效验证被测车辆的自动驾驶功能的可靠性。

Description

一种自动驾驶场景下交通参与者动态切入行为的生成方法

技术领域

本发明涉及无人驾驶测试领域，具体说就是一种自动驾驶场景下交通参与者动态切入行为的生成方法。

背景技术

无人驾驶已经在相对简单的场景中得到了广泛应用，然而对于复杂的驾驶场景，如实际公路，考虑到障碍物、交通标识、地面路况和不同场景下不同驾驶风格的交通流车辆，无人驾驶算法的可靠性变得更加不确定，且存在着许多潜在的危险，需要对自动驾驶算法可能出现是危险进行测试验证。现有自动驾驶测试的方式主要包括实车道路测试或虚拟仿真场景测试。其中,实车道路测试很难收集到出现几率较小但容易造成危险的场景数据，同时在面对危险场景时，驾驶员往往会过早进行人为介入以避免实车碰撞造成损失。这导致验证自动驾驶功能的安全性和可靠性变得低效且成本高昂。在仿真中，传统方法在构建仿真场景方面存在局限性，无法自动学习和适应新的场景，对于较少出现但危险性较高的情况，传统方法往往无法充分考虑和覆盖，导致测试结果的不全面和偏差。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种自动驾驶场景下交通参与者动态切入行为的生成方法，以期在测试场景中模拟实车场景下的危险对抗情况，以更加有效地评估自动驾驶车辆在面对危险行为时的应对能力，从而能够有效验证被测车辆的自动驾驶功能的可靠性，为自动驾驶功能的改进和优化提供参考。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种自动驾驶场景下交通参与者动态切入行为的生成方法的特点也在于，包括如下步骤：

步骤1、根据交通车辆的动力学模型，构建高速切入工况的仿真环境，并采集仿真环境道路和车辆信息；定义仿真环境中的训练车辆为agent车，测试车辆为ego车，agent车位于左侧车道行驶，ego车位于agent车的右侧相邻车道，并与agent车同向行驶；

步骤2、以车辆自身中心为原点，以车辆沿着道路行驶的方向为纵向、以垂直于道路行驶的方向为横向，建立Frenet坐标系；

定义状态参数集中的每一步的状态量包括：agent车与ego车的横向距离、agent车与ego车在纵向距离、ego车的速度和加速度，agent车的速度和航向角；

定义动作参数集的每一步的动作量，包括：agent车的加速度，agent车的预瞄距离；

步骤3、根据每一步动作量，生成每一步的纵向、横向预期轨迹；

步骤4、设定奖励数R；

步骤5、构建策略-评价网络，并设定学习率为η；

基于所述状态参数集和动作参数集，利用PPO算法对所述策略-评价网络进行训练，得到最优策略-评价模型；

步骤6、将所述最优策略-评价模型部署到agent车的规划模块上，将当前状态量输入规划模块，输出agent车当前的动作量，并根据步骤3的过程得到当前的纵向、横向预期轨迹后，发送给agent车的控制模块执行，以产生当前的最优动态切入行为，逼迫ego车做出反应，以验证ego车辆的自动驾驶功能在面对危险情况下的可靠性。

本发明所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法的特点也在于，所述步骤3包括：

步骤3.1：构建每一步的动作量中agent车的加速度的范围；

步骤3.2：利用三次多项式构建agent车在每一步的纵向、横向预期轨迹；

步骤3.3：定义每一步的纵向、横向预期轨迹的起点条件，每一步的纵向、横向预期轨迹的终点条件；

步骤3.4：基于起点条件和终点条件对纵向、横向预期轨迹分别进行求解，相应得到纵向、横向多项式系数。

根据权利要求2所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法，其特征在于，所述步骤3中的奖励函数R是由碰撞奖励、到达目标车道奖励和加速度平滑奖励组成，其中；碰撞奖励是根据agent车是否与ego发生碰撞决定，若发生碰撞，则将所设定的碰撞惩罚赋予碰撞奖励，否则，根据agent车与ego发生碰撞的预测时间计算碰撞奖励；

所述到达目标车道奖励与agent到ego车所在车道的距离的平方成反比；

所述加速度平滑奖励与agent车的加速度的导数平方成正比。

所述步骤5包括：

步骤5.1：所述策略-评价网络包括：评价网络和策略网络；

搭建所述评价网络是由两层全连接层以及输出层组成，且所有全连接层之间的激活函数均为Relu函数，评价网络的输入为状态量，输出为当前状态价值；

搭建所述策略网络包括：输出均值部分的神经网络和输出方差部分的神经网络；其中，输出均值部分的神经网络包含：两层全连接层以及输出层，且输出层激活函数为Tanh函数；所述输出方差部分的神经网络包含：两层全连接层和输出层，且输出层激活函数为Softplus激活函数；所有全连接层之间的激活函数为Relu函数；且策略网络输出的当前动作量服从高斯分布；

步骤5.3：按照步骤5.2的过程直到经验池容量达到设定最大值为止；

步骤5.4：从经验池中随机抽取一条样本；

用价值网络计算所抽取的每条样本中前、后两个状态对应的状态价值；

用前、后状态价值计算相应样本的优势函数；

用新、旧策略在同一状态下选择同一动作的概率比值，与所述同一动作对应的优势函数的乘积，得到策略网络的梯度，所述旧策略是在训练过程中更新前的策略网络，而新策略指的是在训练过程中更新后的策略网络；在第一次更新之前，所述新策略与旧策略是相同的，即它们在初始阶段具有相同的网络参数；

步骤5.5：根据策略网络的梯度，通过梯度下降的方法更新策略网络的参数，同时通过最小平方差损失的方法更新价值网络的参数，得到更新后的策略网络和价值网络；

步骤5.6：若当前步数未达到总迭代次数，则清空经验池，返回步骤5.2顺序执行，否则，结束训练，并得到训练结束后的网络参数构成的最优策略-评价网络模型。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述生成方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述生成方法的步骤。

与现有技术相比，本发明的有益效果在于：

本发明利用深度强化学习PPO算法构建了网络，并训练得到交通参与者的动态切入行为生成模型。该模型能够实时生成具有多样性的轨迹，控制交通参与车辆在意外切入、激进加塞等动态道路切入行为方面表现出的动态性。与传统方法相比，本发明利用深度强化学习的探索性和自动驾驶虚拟仿真方法，构建了不同的仿真测试场景，并重复生成危险驾驶行为，从而有效提升了测试场景中小概率的动态交互性在，评估自动驾驶系统性能时更准确地模拟了真实场景，提高了测试效率，并验证了自动驾驶功能的可靠性。

附图说明

图1为本发明场景示意图；

图2为本发明实施的PPO算法框架示意图；

图3为本发明实施的算法训练流程示意图；

图4为本发明实施的agent车和ego车在道路行驶中的车辆轨迹示意图。

具体实施方式

本实施例中，一种自动驾驶场景下交通参与者动态切入行为的生成方法，包括如下步骤：

步骤1、根据交通车辆的动力学模型，构建高速切入工况的仿真环境，并采集仿真环境道路和车辆信息；定义仿真环境中的训练车辆为agent车，测试车辆为ego车，agent车位于左侧车道行驶，ego车位于agent车的右侧相邻车道，并与agent车同向行驶；场景如图1所示，图中呈现了道路的结构以及agent车和ego车在道路上的初始位置。

定义状态参数集S＝{s₁,s₂...,s_i,...,s_m}，i＝1,2,…,m，m为总迭代次数，定义状态参数中的每一步的状态量包括：agent车与ego车的横向距离、agent车与ego车在纵向距离、ego车的速度和加速度，agent车的速度和航向角；

s_i为第i步的状态量，并有其中，Δl_i为agent车与ego车在第i步的横向距离、Δd_i为agent车与ego车在第i步的纵向距离、为ego车在第i步的速度和加速度，/>为agent车在第i步的速度和航向角；

定义动作参数集A＝{a₁,a₂...,a_i,...,a_m}，定义动作参数集的每一步的动作量，包括：agent车的加速度，agent车的预瞄距离；

a_i为第i步的状态量，并有其中，/>为agent车在第i步的加速度，/>为agent车在第i步的预瞄距离。

步骤3.1：构建每一步的动作量中agent车的加速度的范围；第i步动作量中agent车的加速度/>的范围为/>acc_max为agent车的最大加速度的上限，acc_min为最大制动加速度上限。

步骤3.2.1：利用式(1)构建agent车在第i步的纵向预期轨迹d_i(t)：

d_i(t)＝a₀ ⁱ+a₁ ⁱt+a₂ ⁱt²+a₃ ⁱt³ (1)

式(1)中，t为三次多项式的参数，a₀ ⁱ～a₃ ⁱ为第i步的纵向预期轨迹的多项式系数；

步骤3.2.2：利用式(2)构建agent车在第i步的横向预期轨迹l_i(t)：

l_i(t)＝b₀ ⁱ+b₁ ⁱt+b₂ ⁱt²+b₃ ⁱt³ (2)

式(2)中，b₀ ⁱ～b₃ ⁱ为第i步的横向预期轨迹的多项式系数。

步骤3.3.1：定义第i步的纵向预期轨迹d_i(t)的起点条件为第i步的纵向预期轨迹d_i(t)的终点条件为其中，/>为agent车在frenet坐标系下第i步的纵坐标，d′_i(0)为d_i(t)在t＝0时的导数，d′_i(T)为d_i(t)在t＝T时的导数，T为轨迹时间。

步骤3.3.2：定义第i步的横向预期轨迹l_i(t)的起点条件为第i步的横向预期轨迹l_i(t)的终点条件为/>其中，/>为agent车在frenet坐标系下第i步的横坐标，l_i(0)为l_i(t)在t＝0时的导数，l′_i(T)为l_i(t)在t＝T时的导数。

步骤3.4：基于起点条件和终点条件对纵向、横向预期轨迹分别进行求解，相应得到纵向、横向多项式系数。求解横纵向轨迹的流程图如图2所示；

步骤4、在强化学习算法中，奖励函数是指导智能体学习最优策略的关键部分，为了鼓励agent车产生合理的切入动作，利用式(3)设定奖励数R，奖励函数R是由碰撞奖励、到达目标车道奖励和加速度平滑奖励组成；

R＝ω₁R_c+ω₂R_g+ω₃R_smoth (3)

式(3)中，R_c表示碰撞奖励，R_g表示到达目标车道奖励，R_smoth表示加速度平滑奖励，ω₁,ω₂,ω₃为相应三个奖励的权重；其中；碰撞奖励是根据agent车是否与ego发生碰撞决定，若发生碰撞，则将所设定的碰撞惩罚赋予碰撞奖励，否则，根据agent车与ego发生碰撞的预测时间计算碰撞奖励；agent车换道过程中，会与ego车进行碰撞检测，当发生碰撞的预测时间较大，同时ego车的加速度没有明显变化，此时无碰撞奖励较小。当发生碰撞的预测时间较小，同时ego车的加速度发生明显变化，无碰撞奖励较大，鼓励agent车产生激进的切入行为，并且能够对ego车的状态产生影响。同时，agent车与ego车发生碰撞时会有惩罚，避免agent车产生过激行为。

到达目标车道奖励与agent到ego车所在车道的距离的平方成反比；当agent车到ego车所在车道的距离较远，奖励函数值较小，agent到ego车所在车道的距离越近，奖励函数值越大，鼓励agent车向ego车所在车道产生切入行为，同时避免agent车进入错误道路。

加速度平滑奖励与agent车的加速度的导数平方成正比。在实施中定义一个惩罚系数与agent车的加速度导数平方相乘，通过对惩罚系数的调整，可以避免agent车的加速度产生较大的突变。

步骤5、构建策略-评价网络，并设定学习率为η；

基于状态参数集S和动作参数集A，利用PPO算法对策略-评价网络进行训练，得到最优策略-评价模型；

步骤5.1：策略-评价网络包括：评价网络和策略网络；

搭建评价网络是由两层全连接层以及输出层组成，且所有全连接层之间的激活函数均为Relu函数，令评价网络的参数记为评价网络的输入为状态量，输出为当前状态价值；

搭建策略网络包括：输出均值部分的神经网络和输出方差部分的神经网络；其中，输出均值部分的神经网络包含：两层全连接层以及输出层，且输出层激活函数为Tanh函数；输出方差部分的神经网络包含：两层全连接层和输出层，且输出层激活函数为Softplus激活函数；所有全连接层之间的激活函数为Relu函数；且策略网络输出的当前动作量服从高斯分布，令策略网络的参数记为θ。

步骤5.2：将当前第i步的状态量s_i输入策略网络中进行处理，第i步动作量a_i以及第i步奖励R_i；

将当前第i步的动作量处理后得到当前预期轨迹，车辆动力学模型执行当前预期轨迹后，得到第i+1步的状态量s_i+1；如果两车发生碰撞或者agent车成功切入ego车所在车道，则第i+1步，两车返回场景初始位置；

将(s_i,a_i,s_i+1,R_i)作为第i条样本存入经验池中。

步骤5.4：从经验池中抽取任意第i条样本，从而利用式(4)计算该样本的优势函数

式(4)中，V_φ(s_i)为将第i条样本中的s_i输入价值网络后得到的状态价值，V_φ(s_i+1)为将第i条样本中的s_i+1输入价值网络后得到的状态价值；γ为奖励折扣系数；

定义在状态量s_i下的新策略选取动作a_i的概率与在状态量s_i下的旧策略选取动作a_i的概率的比值为r_i(θ)；旧策略是在训练过程中更新前的策略网络，而新策略指的是在训练过程中更新后的策略网络；在第一次更新之前，新策略与旧策略是相同的，即它们在初始阶段具有相同的网络参数。

步骤5.5：根据策略网络的梯度，通过梯度下降的方法利用式(8)更新策略网络的参数，得到策略网络在第i+1步的更新后的网络参数θ_i+1：

式(5)中，为策略网络参数θ的梯度算子，clip(r(θ_i),1-ε,1+ε)为范围限制函数，是将r_i(θ)限制在1-ε到1+ε范围内，ε为设定的阈值，/>为期望。

通过最小平方差损失的方法更新价值网络的参数利用式(8)更新价值网络的参数，得到价值网络在第i+1步的更新后的网络参数

式(6)中，为价值网络参数/>的梯度算子。

步骤5.6：将i+1赋值给i后，若i<m时，当前步数未达到总迭代次数，则清空经验池，返回步骤5.2顺序执行，否则，结束训练，表示得到训练结束后第m步的网络参数θ_m和构成最优策略-评价网络模型。策略-评价网络训练的流程如图3所示；

步骤6、将最优策略-评价模型部署到agent车的规划模块上，将当前状态量输入规划模块，输出agent车当前的动作量，并根据步骤3的过程得到当前的纵向、横向预期轨迹后，发送给agent车的控制模块执行，以产生当前的最优动态切入行为，逼迫ego车做出反应，以验证ego车辆的自动驾驶功能在面对危险情况下的可靠性。图4为本发明实施的agent车和ego车在道路行驶中的车辆轨迹示意图，图中的虚线和实现轨迹分别展示了agent车和ego车的在大地坐标下的行驶路径，图中可以看出agent车向ego车方向产生了激进的切入行为。

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行上述方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

Claims

1.一种自动驾驶场景下交通参与者动态切入行为的生成方法，其特征在于，包括如下步骤：

步骤4、设定奖励数R；

步骤5、构建策略-评价网络，并设定学习率为η；

2.根据权利要求1所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法，其特征在于，所述步骤3包括：

步骤3.1：构建每一步的动作量中agent车的加速度的范围；

所述加速度平滑奖励与agent车的加速度的导数平方成正比。

3.根据权利要求2所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法，其特征在于，所述步骤5包括：

步骤5.1：所述策略-评价网络包括：评价网络和策略网络；

步骤5.4：从经验池中随机抽取一条样本；

用前、后状态价值计算相应样本的优势函数；

4.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-3中任一所述生成方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

5.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-3中任一所述生成方法的步骤。