CN115906655A

CN115906655A - 基于ddpg的自动驾驶边缘测试场景生成方法

Info

Publication number: CN115906655A
Application number: CN202211611529.8A
Authority: CN
Inventors: 李江坤; 谭二龙; 邓伟文; 丁娟
Original assignee: Zhejiang Tianxingjian Intelligent Technology Co ltd
Current assignee: Zhejiang Tianxingjian Intelligent Technology Co ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-04-04

Abstract

本发明公开了一种基于DDPG的自动驾驶边缘测试场景生成方法，涉及自动驾驶技术领域。该方法将被测车辆与切入车辆随时间动态变化的运动场景以一组基于微分方的场景动力学模型进行描述，然后构建Actor网络和Critic网络作为神经网络逼近器进行仿真场景的控制，并基于强化学习算法DDPG训练得到自动驾驶边缘测试场景的生成模型。本发明通过神经网络作为函数逼近控制器，得益于神经网络对非线性函数的有效逼近，可实现自动驾驶边缘场景特征的良好表征，且基于数字虚拟仿真实现边缘驾驶场景测试，可有效提升边缘场景的动态博弈行为模拟及可重复测试能力。

Description

基于DDPG的自动驾驶边缘测试场景生成方法

技术领域

本发明涉及自动驾驶技术领域，特别涉及一种基于DDPG的自动驾驶边缘测试场景生成方法。

背景技术

自动驾驶系统在应用于车辆前，往往需要进行全方位道路测试来保证其安全性和稳定性。

现有道路测试方式主要包括：传统道路测试方式和基于数字虚拟仿真技术的驾驶场景测试方法。其中，传统道路测试方式需要从海量的道路测试场景中挖掘发现可能导致自动驾驶失效甚至引发安全问题的系统性特征，这种测试方式在一定程度上覆盖了常见的交通场景，但几乎很难收集到出现几率较小但产生后果较大的边缘性场景的产生、发展和演变数据，另外，其面临周期长、成本高、场景单调、安全无法保障等技术问题，难以满足高级别自动驾驶系统安全可靠性的测试要求；而基于数字虚拟仿真技术的驾驶场景测试方法通过精确物理建模、高效数值仿真、高逼真图像渲染等技术，可逼真地构建包括车辆、道路、自然等要素之间的交互关系，按照研究意愿生成各类所需场景，可满足多种需求的仿真测试。

在基于数字虚拟仿真技术的驾驶场景测试方法中，边缘场景是逻辑场景参数空间中介于碰撞危险和安全边界附近区域的场景集合，通过对边缘场景进行测试能够加速测试自动驾驶系统能力边界，但由于其风险性较高且在真实世界发生概率较小，难以收集到有效的边缘场景数据并进行对应场景的构建。

发明内容

针对现有技术存在的上述问题，本发明提供了一种基于DDPG的自动驾驶边缘测试场景生成方法，可模拟实际驾驶场景下车辆间对抗与博弈行为的驾驶特征，从而提供自动驾驶边缘场景的自动生成方案。

根据本发明实施例的一个方面，提供一种基于DDPG的自动驾驶边缘测试场景生成方法，其特征在于，所述方法包括：

S1：选取被测车辆对应的环境状态变量，根据所述环境状态变量构建场景动力学模型；

S2：基于深度确定性策略梯度强化学习算法构建Actor网络和Critic网络；

S3：随机选取一组环境状态变量数据作为当前时间点对应的第一环境状态变量数据；

S4：通过所述Actor网络计算第一环境状态变量数据对应的动作信息，通过所述Critic网络评估所述动作信息对应的评价信息；

S5：根据所述评价信息与预设奖励更新所述Critic网络对应的第一网络参数，同时，根据所述评价信息更新所述Actor网络对应的第二网络参数；

S6：根据所述动作信息与所述场景动力学模型计算得到下一时间点对应的第二环境状态变量数据，将所述第二环境状态变量数据更新为第一环境状态变量数据，执行步骤S4；

S7：当检测到满足第一预设训练终止条件后，终止训练，执行步骤S3；

S8：当检测到满足第二预设训练终止条件后，终止训练，得到自动驾驶边缘测试场景的生成模型。

在一种优选的实施方式中，所述环境状态变量包括切入车辆至预期切入点的距离d，切入车辆的车头速度v_tra，被测车辆的车头速度v_sut，被测车辆的制动加速度a_sut，以及切入车辆与被测车辆的纵向相对距离d_ref，且切入车辆相对被测车辆位置在前时纵向相对距离d_ref为负，在后则为正。

在一种优选的实施方式中，所述场景动力学模型所对应的状态方程如公式1：

其中，A为系统的状态矩阵，用于表达系统内部各状态变量之间的耦合关系；B为输入矩阵，用于表达输入量对各状态变量的影响微型；C为输出矩阵，用于表达状态变量至输出的转换关系，a_eb为被测车辆的紧急制动加速度。

在一种优选的实施方式中，所述方法还包括：通过软更新策略更新所述Actor网络和所述Critic网络，软更新策略表达式如公式2：

其中，τ为更新系数，ω和ω'分别为Critic网络Q和目标Critic网络π的网络参数，θ和θ'分别为Actor网络和目标Actor网络的网络参数。

在一种优选的实施方式中，所述Critic网络中loss的计算公式J(w)如公式3：

其中，m、R_i、S_i、S_i′、γ分别为采样的BatchSize值、当前时刻的奖励、当前时刻的状态、下一时刻的状态和折扣系数；

所述Actor网络的梯度表达式

如公式4：

其中，G_ai、G_πi分别为Critic网络输出的动作梯度、Actor网络输出相对于Actor网络参数的梯度。

在一种优选的实施方式中，所述预设奖励的函数表达式如公式5：

R＝w₁r₁-w₂r₂+w₃r₃ 公式5

其中r₁、r₂、r₃分别为对抗性奖励、探索失败奖励和不合理碰撞奖励，w₁,w₂,w₃分别为各项奖励对应的权重系数；

所述对抗性奖励用于表示被测车辆与切入车辆在单轮训练中的相互影响程度，所述对抗性奖励的表达式如公式6：

其中，

表示制动加速度的导数，被测车辆的制动加速度a_sut绝对值大于3m/s²时确定为紧急制动行为；

所述探索失败奖励用于表示被测车辆在单轮训练中是否发生紧急制动行为，所述探索失败奖励的表达式如公式7：

其中，p为常数；

所述不合理碰撞奖励用于表示被测车辆与切入车辆在单轮训练中是否发生碰撞，所述不合理碰撞奖励的表达式如公式8：

其中，q为常数。

在一种优选的实施方式中，单轮训练周期为30s，采样步长为0.1s，最大训练次数为5000次。

在一种优选的实施方式中，所述第一预设训练终止条件包括：

被测车辆与切入车辆发生碰撞；或，

训练时间超过30s；或，

被测车辆的最大行驶距离超过80m。

在一种优选的实施方式中，所述第二预设训练终止条件包括：

训练总轮次达到预设次数；或，

训练总轮次达到预设时长。

在一种优选的实施方式中，所述方法还包括：

将第一环境状态变量数据、第一环境状态变量数据对应的动作信息，动作信息对应的评价信息以及第二环境状态变量数据作为一组经验数据存入经验回放池；

此时，步骤S4中通过所述Actor网络计算第一环境状态变量数据对应的动作信息包括：

根据所述经验回放池中各组经验数据，从中选择与所述第一环境状态变量数据相对应，且评价信息最优的动作信息。

与现有技术相比，本发明提供的一种基于DDPG的自动驾驶边缘测试场景生成方法具有以下优点：

本发明将被测车辆与切入车辆随时间动态变化的运动场景以一组基于微分方的场景动力学模型进行描述，然后构建Actor网络和Critic网络作为神经网络逼近器进行仿真场景的控制，并基于强化学习算法DDPG训练得到自动驾驶边缘测试场景的生成模型。本发明通过神经网络作为函数逼近控制器，得益于神经网络对非线性函数的有效逼近，可实现自动驾驶边缘场景特征的良好表征，且基于数字虚拟仿真实现边缘驾驶场景测试，可有效提升边缘场景的动态博弈行为模拟及可重复测试能力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于DDPG的自动驾驶边缘测试场景生成方法的流程示意图。

图2是根据本发明一示例性实施例示出的一种DDPG算法框架示意图。

图3是根据本发明一示例性实施例示出的一种不规则切入场景示意图。

图4是本发明实施例被测车辆-切入车辆博弈对抗过程中被测车辆速度变化示意图。

图5是本发明实施例被测车辆-切入车辆博弈对抗过程中被测车辆加速度变化示意图。

图6是本发明实施例被测车辆-切入车辆博弈对抗过程中切入车辆速度变化示意图。

图7是本发明实施例被测车辆-切入车辆博弈对抗过程中车辆间相对距离变化示意图。

具体实施方式

以下结合具体实施例(但不限于所举实施例)与附图详细描述本发明，本实施例的具体方法仅供说明本发明，本发明的范围不受实施例的限制，本发明在应用中可以作各种形态与结构的修改与变动，这些基于本发明基础上的等价形式同样处于本发明申请权利要求保护范围。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个第一位置是指两个或两个以上的第一位置。

以下，对本申请实施例所涉及的术语进行解释说明。

深度确定性策略梯度强化学习算法(Deep Deterministic Policy Gradient，DDPG)：一种将深度学习神经网络融合进DPG的策略学习方法。

被测车辆：自动驾驶边缘测试场景的生成模型训练过程中的虚拟被测对象。

切入车辆：自动驾驶边缘测试场景的生成模型训练过程中的虚拟干扰对象。

本发明实施例涉及到自动驾驶技术领域的基于DDPG的自动驾驶边缘测试场景生成方法，由于相关技术仅针对使用范围较广的驾驶场景进行自动驾驶测试，而对于风险性较高，且在真实世界发生概率较小，难以收集有效的边缘场景数据的自动驾驶边缘测试场景无法实现有效的生成和测试。

有鉴于此，本发明实施例提供了一种基于DDPG的自动驾驶边缘测试场景生成方法，通过模拟真实世界中车辆间的对抗与博弈行为的特征以实现边缘场景的自动生成，可解决自动驾驶测试中小概率高风险边缘测试场景的长尾问题。

图1是本发明实施例提供的一种基于DDPG的自动驾驶边缘测试场景生成方法的流程示意图。参见图1，该一种基于DDPG的自动驾驶边缘测试场景生成方法，其特征在于，所述方法包括：

S1：选取被测车辆对应的环境状态变量，根据所述环境状态变量构建场景动力学模型。

S2：基于深度确定性策略梯度强化学习算法构建Actor网络和Critic网络。

S3：随机选取一组环境状态变量数据作为当前时间点对应的第一环境状态变量数据。

S4：通过所述Actor网络计算第一环境状态变量数据对应的动作信息，通过所述Critic网络评估所述动作信息对应的评价信息。

S5：根据所述评价信息与预设奖励更新所述Critic网络对应的第一网络参数，同时，根据所述评价信息更新所述Actor网络对应的第二网络参数。

其中，τ为更新系数，ω和ω'分别为Critic网络和目标Critic网络的网络参数，θ和θ'分别为Actor网络和目标Actor网络的网络参数。

在网络训练过程中也需要基于目标网络进行计算，为了防止硬更新策略导致目标网络中Actor网络和Critic网络出现不稳定情况，使得算法偏离预想方向，本发明中DDPG通过软更新策略更新Actor网络和Critic网络，需要说明的是，更新系数τ的取值通常较小。

所述Actor网络的梯度表达式

如公式4：

需要说明的是，奖励在强化学习中至关重要，其在训练过程中引导智能体向设定目标逼近，为了使生成的自动驾驶边缘场景同时兼顾合理性和危险性，在一种优选的实施方式中，所述预设奖励的函数表达式如公式5：

R＝w₁r₁-w₂r₂+w₃r₃ 公式5

其中r₁、r₂、r₃分别为对抗性奖励、探索失败奖励和不合理碰撞奖励，w₁,w₂,w₃分别为各项奖励对应的权重系数，由仿真试验调参获取。

所述对抗性奖励用于表示被测车辆与切入车辆在单轮训练中的相互影响程度，本发明通过被测车辆紧急制动过程中的制动加速度进行表征，所述对抗性奖励的表达式如公式6：

其中，

表示制动加速度的导数。在一种可行的实施方式中，被测车辆的制动加速度a_sut绝对值大于3m/s²时，确定为紧急制动行为。

其中，p为常数，通过仿真试验调参选取具体值。在一种可行的实施方式中，被测车辆在单轮训练中发生未紧急制动行为时，确定为探索失败。

其中，q为常数，通过仿真试验调参选取具体值。在一种可行的实施方式中，被测车辆与切入车辆在单轮训练中发生碰撞时，确定为不合理碰撞。

S6：根据所述动作信息与所述场景动力学模型计算得到下一时间点对应的第二环境状态变量数据，将所述第二环境状态变量数据更新为第一环境状态变量数据，执行步骤S4。

S7：当检测到满足第一预设训练终止条件后，终止训练，执行步骤S3。

由于DDPG中包含了Actor网络和Critic网络两个神经网络，其中任何一个神经网络的结构都可能对另外一个神经网络结果造成影响。因此，本发明通过多次网格测试，最终确定了DDPG中Actor网络和Critic网络的最佳参数。如下表所示：

DDPG网络结构

需要说明的是，在本发明实施例中，单轮训练指步骤S3至步骤S7中终止训练的步骤。

被测车辆与切入车辆发生碰撞；或，

训练时间超过30s；或，

被测车辆的最大行驶距离超过80m。

训练总轮次达到预设次数；或，

训练总轮次达到预设时长。

在一种优选的实施方式中，所述方法还包括：

本发明经过多次训练后，得到自动驾驶边缘测试场景的生成模型对应的最优参数如下表所示。

DDPG网络训练参数

为了便于理解，本发明还示出DDPG算法框架示意图如图2所示。

综上所述，本发明提供的基于DDPG的自动驾驶边缘测试场景生成方法，通过将被测车辆与切入车辆随时间动态变化的运动场景以一组基于微分方的场景动力学模型进行描述，然后构建Actor网络和Critic网络作为神经网络逼近器进行仿真场景的控制，并基于强化学习算法DDPG训练得到自动驾驶边缘测试场景的生成模型。本发明通过神经网络作为函数逼近控制器，得益于神经网络对非线性函数的有效逼近，可实现自动驾驶边缘场景特征的良好表征，且基于数字虚拟仿真实现边缘驾驶场景测试，可有效提升边缘场景的动态博弈行为模拟及可重复测试能力。

上述所有可选技术方案，能够采用任意结合形成本公开的可选实施例，在此不再一一赘述。

进一步的，本发明以典型应用场景为例，示出自动驾驶边缘测试场景的生成模型的应用实施例示意如下：

不规则场景描述：将切入车辆的切入干扰运动过程抽象为“试探切入-安全驶离-最终切入”三个阶段。在此过程中，相邻车辆换道切入时会存在试探行为，在试探切入过程中车辆如发现存在安全风险，则会终止试探行为并驶离目标车道，然后等待合适的时机再次进行切入换道。

不规则场景实验参数设置：在本实施例中，DDPG的状态空间为[v₁,a₁,[d₁,d₂,d₃],[Δt₁,Δt₂,Δt₃]],动作空间为A＝a_agent。预设奖励函数中的各个参数取值为：p＝1,q＝1,w₁＝10,w₂＝20,w₃＝20。

不规则场景下车辆博弈过程分析：不规则切入场景示意图如图3所示，从驻车速度变化来看，被测车辆在整个过程中经历了加速-减速-加速-减速4个阶段。在首次切入时，被测车辆和切入车辆的相对距离小于5m，此时被测车辆减速避让，而当切入车辆距离被测车辆距离较远时被测车辆又加速行驶。在被测车辆加速行驶过程中，切入车辆的切入使得被测车辆发生了紧急制动行为。当切入车辆驶离被测车辆时，被测车辆的激进型加速能够保证其具有相当高的行驶效率但这在一定程度上带来了安全隐患。相反，如果被测车辆保守加速虽然能够保证驾驶安全，但是这种方式使得被测车辆行驶效率降低。

进一步的，示出图3所对应被测车辆-切入车辆博弈对抗过程中各车辆的驾驶状态变化示意图如图4、5、6、7(各图示中，主车即为被测车辆，交通车即为切入车辆)。其中，图4是本发明实施例被测车辆-切入车辆博弈对抗过程中被测车辆速度变化示意图，图5是本发明实施例被测车辆-切入车辆博弈对抗过程中被测车辆加速度变化示意图，图6是本发明实施例被测车辆-切入车辆博弈对抗过程中切入车辆速度变化示意图，图7是本发明实施例被测车辆-切入车辆博弈对抗过程中车辆间相对距离变化示意图。

虽然，前文已经用一般性说明、具体实施方式及试验，对本发明做了详尽的描述，但在本发明基础上，可以对之进行修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

本领域技术人员在考虑说明书及实践这里的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种基于DDPG的自动驾驶边缘测试场景生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述环境状态变量包括切入车辆至预期切入点的距离d，切入车辆的车头速度v_tra，被测车辆的车头速度v_sut，被测车辆的制动加速度a_sut，以及切入车辆与被测车辆的纵向相对距离d_ref，且切入车辆相对被测车辆位置在前时纵向相对距离d_ref为负，在后则为正。

3.根据权利要求2所述的方法，其特征在于，所述场景动力学模型所对应的状态方程如公式1：