CN115906655A - 基于ddpg的自动驾驶边缘测试场景生成方法 - Google Patents

基于ddpg的自动驾驶边缘测试场景生成方法 Download PDF

Info

Publication number
CN115906655A
CN115906655A CN202211611529.8A CN202211611529A CN115906655A CN 115906655 A CN115906655 A CN 115906655A CN 202211611529 A CN202211611529 A CN 202211611529A CN 115906655 A CN115906655 A CN 115906655A
Authority
CN
China
Prior art keywords
vehicle
network
scene
training
state variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211611529.8A
Other languages
English (en)
Inventor
李江坤
谭二龙
邓伟文
丁娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tianxingjian Intelligent Technology Co ltd
Original Assignee
Zhejiang Tianxingjian Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Tianxingjian Intelligent Technology Co ltd filed Critical Zhejiang Tianxingjian Intelligent Technology Co ltd
Priority to CN202211611529.8A priority Critical patent/CN115906655A/zh
Publication of CN115906655A publication Critical patent/CN115906655A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于DDPG的自动驾驶边缘测试场景生成方法,涉及自动驾驶技术领域。该方法将被测车辆与切入车辆随时间动态变化的运动场景以一组基于微分方的场景动力学模型进行描述,然后构建Actor网络和Critic网络作为神经网络逼近器进行仿真场景的控制,并基于强化学习算法DDPG训练得到自动驾驶边缘测试场景的生成模型。本发明通过神经网络作为函数逼近控制器,得益于神经网络对非线性函数的有效逼近,可实现自动驾驶边缘场景特征的良好表征,且基于数字虚拟仿真实现边缘驾驶场景测试,可有效提升边缘场景的动态博弈行为模拟及可重复测试能力。

Description

基于DDPG的自动驾驶边缘测试场景生成方法
技术领域
本发明涉及自动驾驶技术领域,特别涉及一种基于DDPG的自动驾驶边缘测试场景生成方法。
背景技术
自动驾驶系统在应用于车辆前,往往需要进行全方位道路测试来保证其安全性和稳定性。
现有道路测试方式主要包括:传统道路测试方式和基于数字虚拟仿真技术的驾驶场景测试方法。其中,传统道路测试方式需要从海量的道路测试场景中挖掘发现可能导致自动驾驶失效甚至引发安全问题的系统性特征,这种测试方式在一定程度上覆盖了常见的交通场景,但几乎很难收集到出现几率较小但产生后果较大的边缘性场景的产生、发展和演变数据,另外,其面临周期长、成本高、场景单调、安全无法保障等技术问题,难以满足高级别自动驾驶系统安全可靠性的测试要求;而基于数字虚拟仿真技术的驾驶场景测试方法通过精确物理建模、高效数值仿真、高逼真图像渲染等技术,可逼真地构建包括车辆、道路、自然等要素之间的交互关系,按照研究意愿生成各类所需场景,可满足多种需求的仿真测试。
在基于数字虚拟仿真技术的驾驶场景测试方法中,边缘场景是逻辑场景参数空间中介于碰撞危险和安全边界附近区域的场景集合,通过对边缘场景进行测试能够加速测试自动驾驶系统能力边界,但由于其风险性较高且在真实世界发生概率较小,难以收集到有效的边缘场景数据并进行对应场景的构建。
发明内容
针对现有技术存在的上述问题,本发明提供了一种基于DDPG的自动驾驶边缘测试场景生成方法,可模拟实际驾驶场景下车辆间对抗与博弈行为的驾驶特征,从而提供自动驾驶边缘场景的自动生成方案。
根据本发明实施例的一个方面,提供一种基于DDPG的自动驾驶边缘测试场景生成方法,其特征在于,所述方法包括:
S1:选取被测车辆对应的环境状态变量,根据所述环境状态变量构建场景动力学模型;
S2:基于深度确定性策略梯度强化学习算法构建Actor网络和Critic网络;
S3:随机选取一组环境状态变量数据作为当前时间点对应的第一环境状态变量数据;
S4:通过所述Actor网络计算第一环境状态变量数据对应的动作信息,通过所述Critic网络评估所述动作信息对应的评价信息;
S5:根据所述评价信息与预设奖励更新所述Critic网络对应的第一网络参数,同时,根据所述评价信息更新所述Actor网络对应的第二网络参数;
S6:根据所述动作信息与所述场景动力学模型计算得到下一时间点对应的第二环境状态变量数据,将所述第二环境状态变量数据更新为第一环境状态变量数据,执行步骤S4;
S7:当检测到满足第一预设训练终止条件后,终止训练,执行步骤S3;
S8:当检测到满足第二预设训练终止条件后,终止训练,得到自动驾驶边缘测试场景的生成模型。
在一种优选的实施方式中,所述环境状态变量包括切入车辆至预期切入点的距离d,切入车辆的车头速度vtra,被测车辆的车头速度vsut,被测车辆的制动加速度asut,以及切入车辆与被测车辆的纵向相对距离dref,且切入车辆相对被测车辆位置在前时纵向相对距离dref为负,在后则为正。
在一种优选的实施方式中,所述场景动力学模型所对应的状态方程如公式1:
Figure BDA0003998977510000031
其中,A为系统的状态矩阵,用于表达系统内部各状态变量之间的耦合关系;B为输入矩阵,用于表达输入量对各状态变量的影响微型;C为输出矩阵,用于表达状态变量至输出的转换关系,aeb为被测车辆的紧急制动加速度。
在一种优选的实施方式中,所述方法还包括:通过软更新策略更新所述Actor网络和所述Critic网络,软更新策略表达式如公式2:
Figure BDA0003998977510000032
其中,τ为更新系数,ω和ω'分别为Critic网络Q和目标Critic网络π的网络参数,θ和θ'分别为Actor网络和目标Actor网络的网络参数。
在一种优选的实施方式中,所述Critic网络中loss的计算公式J(w)如公式3:
Figure BDA0003998977510000033
其中,m、Ri、Si、Si′、γ分别为采样的BatchSize值、当前时刻的奖励、当前时刻的状态、下一时刻的状态和折扣系数;
所述Actor网络的梯度表达式
Figure BDA0003998977510000035
如公式4:
Figure BDA0003998977510000034
其中,Gai、Gπi分别为Critic网络输出的动作梯度、Actor网络输出相对于Actor网络参数的梯度。
在一种优选的实施方式中,所述预设奖励的函数表达式如公式5:
R=w1r1-w2r2+w3r3   公式5
其中r1、r2、r3分别为对抗性奖励、探索失败奖励和不合理碰撞奖励,w1,w2,w3分别为各项奖励对应的权重系数;
所述对抗性奖励用于表示被测车辆与切入车辆在单轮训练中的相互影响程度,所述对抗性奖励的表达式如公式6:
Figure BDA0003998977510000041
其中,
Figure BDA0003998977510000042
表示制动加速度的导数,被测车辆的制动加速度asut绝对值大于3m/s2时确定为紧急制动行为;
所述探索失败奖励用于表示被测车辆在单轮训练中是否发生紧急制动行为,所述探索失败奖励的表达式如公式7:
Figure BDA0003998977510000043
其中,p为常数;
所述不合理碰撞奖励用于表示被测车辆与切入车辆在单轮训练中是否发生碰撞,所述不合理碰撞奖励的表达式如公式8:
Figure BDA0003998977510000044
其中,q为常数。
在一种优选的实施方式中,单轮训练周期为30s,采样步长为0.1s,最大训练次数为5000次。
在一种优选的实施方式中,所述第一预设训练终止条件包括:
被测车辆与切入车辆发生碰撞;或,
训练时间超过30s;或,
被测车辆的最大行驶距离超过80m。
在一种优选的实施方式中,所述第二预设训练终止条件包括:
训练总轮次达到预设次数;或,
训练总轮次达到预设时长。
在一种优选的实施方式中,所述方法还包括:
将第一环境状态变量数据、第一环境状态变量数据对应的动作信息,动作信息对应的评价信息以及第二环境状态变量数据作为一组经验数据存入经验回放池;
此时,步骤S4中通过所述Actor网络计算第一环境状态变量数据对应的动作信息包括:
根据所述经验回放池中各组经验数据,从中选择与所述第一环境状态变量数据相对应,且评价信息最优的动作信息。
与现有技术相比,本发明提供的一种基于DDPG的自动驾驶边缘测试场景生成方法具有以下优点:
本发明将被测车辆与切入车辆随时间动态变化的运动场景以一组基于微分方的场景动力学模型进行描述,然后构建Actor网络和Critic网络作为神经网络逼近器进行仿真场景的控制,并基于强化学习算法DDPG训练得到自动驾驶边缘测试场景的生成模型。本发明通过神经网络作为函数逼近控制器,得益于神经网络对非线性函数的有效逼近,可实现自动驾驶边缘场景特征的良好表征,且基于数字虚拟仿真实现边缘驾驶场景测试,可有效提升边缘场景的动态博弈行为模拟及可重复测试能力。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种基于DDPG的自动驾驶边缘测试场景生成方法的流程示意图。
图2是根据本发明一示例性实施例示出的一种DDPG算法框架示意图。
图3是根据本发明一示例性实施例示出的一种不规则切入场景示意图。
图4是本发明实施例被测车辆-切入车辆博弈对抗过程中被测车辆速度变化示意图。
图5是本发明实施例被测车辆-切入车辆博弈对抗过程中被测车辆加速度变化示意图。
图6是本发明实施例被测车辆-切入车辆博弈对抗过程中切入车辆速度变化示意图。
图7是本发明实施例被测车辆-切入车辆博弈对抗过程中车辆间相对距离变化示意图。
具体实施方式
以下结合具体实施例(但不限于所举实施例)与附图详细描述本发明,本实施例的具体方法仅供说明本发明,本发明的范围不受实施例的限制,本发明在应用中可以作各种形态与结构的修改与变动,这些基于本发明基础上的等价形式同样处于本发明申请权利要求保护范围。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上,例如,多个第一位置是指两个或两个以上的第一位置。
以下,对本申请实施例所涉及的术语进行解释说明。
深度确定性策略梯度强化学习算法(Deep Deterministic Policy Gradient,DDPG):一种将深度学习神经网络融合进DPG的策略学习方法。
被测车辆:自动驾驶边缘测试场景的生成模型训练过程中的虚拟被测对象。
切入车辆:自动驾驶边缘测试场景的生成模型训练过程中的虚拟干扰对象。
本发明实施例涉及到自动驾驶技术领域的基于DDPG的自动驾驶边缘测试场景生成方法,由于相关技术仅针对使用范围较广的驾驶场景进行自动驾驶测试,而对于风险性较高,且在真实世界发生概率较小,难以收集有效的边缘场景数据的自动驾驶边缘测试场景无法实现有效的生成和测试。
有鉴于此,本发明实施例提供了一种基于DDPG的自动驾驶边缘测试场景生成方法,通过模拟真实世界中车辆间的对抗与博弈行为的特征以实现边缘场景的自动生成,可解决自动驾驶测试中小概率高风险边缘测试场景的长尾问题。
图1是本发明实施例提供的一种基于DDPG的自动驾驶边缘测试场景生成方法的流程示意图。参见图1,该一种基于DDPG的自动驾驶边缘测试场景生成方法,其特征在于,所述方法包括:
S1:选取被测车辆对应的环境状态变量,根据所述环境状态变量构建场景动力学模型。
在一种优选的实施方式中,所述环境状态变量包括切入车辆至预期切入点的距离d,切入车辆的车头速度vtra,被测车辆的车头速度vsut,被测车辆的制动加速度asut,以及切入车辆与被测车辆的纵向相对距离dref,且切入车辆相对被测车辆位置在前时纵向相对距离dref为负,在后则为正。
在一种优选的实施方式中,所述场景动力学模型所对应的状态方程如公式1:
Figure BDA0003998977510000071
其中,A为系统的状态矩阵,用于表达系统内部各状态变量之间的耦合关系;B为输入矩阵,用于表达输入量对各状态变量的影响微型;C为输出矩阵,用于表达状态变量至输出的转换关系,aeb为被测车辆的紧急制动加速度。
S2:基于深度确定性策略梯度强化学习算法构建Actor网络和Critic网络。
S3:随机选取一组环境状态变量数据作为当前时间点对应的第一环境状态变量数据。
S4:通过所述Actor网络计算第一环境状态变量数据对应的动作信息,通过所述Critic网络评估所述动作信息对应的评价信息。
S5:根据所述评价信息与预设奖励更新所述Critic网络对应的第一网络参数,同时,根据所述评价信息更新所述Actor网络对应的第二网络参数。
在一种优选的实施方式中,所述方法还包括:通过软更新策略更新所述Actor网络和所述Critic网络,软更新策略表达式如公式2:
Figure BDA0003998977510000081
其中,τ为更新系数,ω和ω'分别为Critic网络和目标Critic网络的网络参数,θ和θ'分别为Actor网络和目标Actor网络的网络参数。
在网络训练过程中也需要基于目标网络进行计算,为了防止硬更新策略导致目标网络中Actor网络和Critic网络出现不稳定情况,使得算法偏离预想方向,本发明中DDPG通过软更新策略更新Actor网络和Critic网络,需要说明的是,更新系数τ的取值通常较小。
在一种优选的实施方式中,所述Critic网络中loss的计算公式J(w)如公式3:
Figure BDA0003998977510000082
其中,m、Ri、Si、Si′、γ分别为采样的BatchSize值、当前时刻的奖励、当前时刻的状态、下一时刻的状态和折扣系数;
所述Actor网络的梯度表达式
Figure BDA0003998977510000083
如公式4:
Figure BDA0003998977510000084
其中,Gai、Gπi分别为Critic网络输出的动作梯度、Actor网络输出相对于Actor网络参数的梯度。
需要说明的是,奖励在强化学习中至关重要,其在训练过程中引导智能体向设定目标逼近,为了使生成的自动驾驶边缘场景同时兼顾合理性和危险性,在一种优选的实施方式中,所述预设奖励的函数表达式如公式5:
R=w1r1-w2r2+w3r3    公式5
其中r1、r2、r3分别为对抗性奖励、探索失败奖励和不合理碰撞奖励,w1,w2,w3分别为各项奖励对应的权重系数,由仿真试验调参获取。
所述对抗性奖励用于表示被测车辆与切入车辆在单轮训练中的相互影响程度,本发明通过被测车辆紧急制动过程中的制动加速度进行表征,所述对抗性奖励的表达式如公式6:
Figure BDA0003998977510000091
其中,
Figure BDA0003998977510000092
表示制动加速度的导数。在一种可行的实施方式中,被测车辆的制动加速度asut绝对值大于3m/s2时,确定为紧急制动行为。
所述探索失败奖励用于表示被测车辆在单轮训练中是否发生紧急制动行为,所述探索失败奖励的表达式如公式7:
Figure BDA0003998977510000093
其中,p为常数,通过仿真试验调参选取具体值。在一种可行的实施方式中,被测车辆在单轮训练中发生未紧急制动行为时,确定为探索失败。
所述不合理碰撞奖励用于表示被测车辆与切入车辆在单轮训练中是否发生碰撞,所述不合理碰撞奖励的表达式如公式8:
Figure BDA0003998977510000094
其中,q为常数,通过仿真试验调参选取具体值。在一种可行的实施方式中,被测车辆与切入车辆在单轮训练中发生碰撞时,确定为不合理碰撞。
S6:根据所述动作信息与所述场景动力学模型计算得到下一时间点对应的第二环境状态变量数据,将所述第二环境状态变量数据更新为第一环境状态变量数据,执行步骤S4。
S7:当检测到满足第一预设训练终止条件后,终止训练,执行步骤S3。
S8:当检测到满足第二预设训练终止条件后,终止训练,得到自动驾驶边缘测试场景的生成模型。
由于DDPG中包含了Actor网络和Critic网络两个神经网络,其中任何一个神经网络的结构都可能对另外一个神经网络结果造成影响。因此,本发明通过多次网格测试,最终确定了DDPG中Actor网络和Critic网络的最佳参数。如下表所示:
DDPG网络结构
Figure BDA0003998977510000101
需要说明的是,在本发明实施例中,单轮训练指步骤S3至步骤S7中终止训练的步骤。
在一种优选的实施方式中,单轮训练周期为30s,采样步长为0.1s,最大训练次数为5000次。
在一种优选的实施方式中,所述第一预设训练终止条件包括:
被测车辆与切入车辆发生碰撞;或,
训练时间超过30s;或,
被测车辆的最大行驶距离超过80m。
在一种优选的实施方式中,所述第二预设训练终止条件包括:
训练总轮次达到预设次数;或,
训练总轮次达到预设时长。
在一种优选的实施方式中,所述方法还包括:
将第一环境状态变量数据、第一环境状态变量数据对应的动作信息,动作信息对应的评价信息以及第二环境状态变量数据作为一组经验数据存入经验回放池;
此时,步骤S4中通过所述Actor网络计算第一环境状态变量数据对应的动作信息包括:
根据所述经验回放池中各组经验数据,从中选择与所述第一环境状态变量数据相对应,且评价信息最优的动作信息。
本发明经过多次训练后,得到自动驾驶边缘测试场景的生成模型对应的最优参数如下表所示。
DDPG网络训练参数
Figure BDA0003998977510000111
为了便于理解,本发明还示出DDPG算法框架示意图如图2所示。
综上所述,本发明提供的基于DDPG的自动驾驶边缘测试场景生成方法,通过将被测车辆与切入车辆随时间动态变化的运动场景以一组基于微分方的场景动力学模型进行描述,然后构建Actor网络和Critic网络作为神经网络逼近器进行仿真场景的控制,并基于强化学习算法DDPG训练得到自动驾驶边缘测试场景的生成模型。本发明通过神经网络作为函数逼近控制器,得益于神经网络对非线性函数的有效逼近,可实现自动驾驶边缘场景特征的良好表征,且基于数字虚拟仿真实现边缘驾驶场景测试,可有效提升边缘场景的动态博弈行为模拟及可重复测试能力。
上述所有可选技术方案,能够采用任意结合形成本公开的可选实施例,在此不再一一赘述。
进一步的,本发明以典型应用场景为例,示出自动驾驶边缘测试场景的生成模型的应用实施例示意如下:
不规则场景描述:将切入车辆的切入干扰运动过程抽象为“试探切入-安全驶离-最终切入”三个阶段。在此过程中,相邻车辆换道切入时会存在试探行为,在试探切入过程中车辆如发现存在安全风险,则会终止试探行为并驶离目标车道,然后等待合适的时机再次进行切入换道。
不规则场景实验参数设置:在本实施例中,DDPG的状态空间为[v1,a1,[d1,d2,d3],[Δt1,Δt2,Δt3]],动作空间为A=aagent。预设奖励函数中的各个参数取值为:p=1,q=1,w1=10,w2=20,w3=20。
不规则场景下车辆博弈过程分析:不规则切入场景示意图如图3所示,从驻车速度变化来看,被测车辆在整个过程中经历了加速-减速-加速-减速4个阶段。在首次切入时,被测车辆和切入车辆的相对距离小于5m,此时被测车辆减速避让,而当切入车辆距离被测车辆距离较远时被测车辆又加速行驶。在被测车辆加速行驶过程中,切入车辆的切入使得被测车辆发生了紧急制动行为。当切入车辆驶离被测车辆时,被测车辆的激进型加速能够保证其具有相当高的行驶效率但这在一定程度上带来了安全隐患。相反,如果被测车辆保守加速虽然能够保证驾驶安全,但是这种方式使得被测车辆行驶效率降低。
进一步的,示出图3所对应被测车辆-切入车辆博弈对抗过程中各车辆的驾驶状态变化示意图如图4、5、6、7(各图示中,主车即为被测车辆,交通车即为切入车辆)。其中,图4是本发明实施例被测车辆-切入车辆博弈对抗过程中被测车辆速度变化示意图,图5是本发明实施例被测车辆-切入车辆博弈对抗过程中被测车辆加速度变化示意图,图6是本发明实施例被测车辆-切入车辆博弈对抗过程中切入车辆速度变化示意图,图7是本发明实施例被测车辆-切入车辆博弈对抗过程中车辆间相对距离变化示意图。
虽然,前文已经用一般性说明、具体实施方式及试验,对本发明做了详尽的描述,但在本发明基础上,可以对之进行修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
本领域技术人员在考虑说明书及实践这里的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。

Claims (10)

1.一种基于DDPG的自动驾驶边缘测试场景生成方法,其特征在于,所述方法包括:
S1:选取被测车辆对应的环境状态变量,根据所述环境状态变量构建场景动力学模型;
S2:基于深度确定性策略梯度强化学习算法构建Actor网络和Critic网络;
S3:随机选取一组环境状态变量数据作为当前时间点对应的第一环境状态变量数据;
S4:通过所述Actor网络计算第一环境状态变量数据对应的动作信息,通过所述Critic网络评估所述动作信息对应的评价信息;
S5:根据所述评价信息与预设奖励更新所述Critic网络对应的第一网络参数,同时,根据所述评价信息更新所述Actor网络对应的第二网络参数;
S6:根据所述动作信息与所述场景动力学模型计算得到下一时间点对应的第二环境状态变量数据,将所述第二环境状态变量数据更新为第一环境状态变量数据,执行步骤S4;
S7:当检测到满足第一预设训练终止条件后,终止训练,执行步骤S3;
S8:当检测到满足第二预设训练终止条件后,终止训练,得到自动驾驶边缘测试场景的生成模型。
2.根据权利要求1所述的方法,其特征在于,所述环境状态变量包括切入车辆至预期切入点的距离d,切入车辆的车头速度vtra,被测车辆的车头速度vsut,被测车辆的制动加速度asut,以及切入车辆与被测车辆的纵向相对距离dref,且切入车辆相对被测车辆位置在前时纵向相对距离dref为负,在后则为正。
3.根据权利要求2所述的方法,其特征在于,所述场景动力学模型所对应的状态方程如公式1:
Figure FDA0003998977500000021
其中,A为系统的状态矩阵,用于表达系统内部各状态变量之间的耦合关系;B为输入矩阵,用于表达输入量对各状态变量的影响微型;C为输出矩阵,用于表达状态变量至输出的转换关系,aeb为被测车辆的紧急制动加速度。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:通过软更新策略更新所述Actor网络和所述Critic网络,软更新策略表达式如公式2:
Figure FDA0003998977500000022
其中,τ为更新系数,ω和ω'分别为当前Critic网络和目标Critic网络的网络参数,θ和θ'分别为当前Actor网络和目标Actor网络的网络参数。
5.根据权利要求4所述的方法,其特征在于,所述Critic网络中loss的计算公式J(w)如公式3:
Figure FDA0003998977500000023
其中,m、Ri、Si、Si′、γ分别为采样的BatchSize值、当前时刻的奖励、当前时刻的状态、下一时刻的状态和折扣系数;
所述Actor网络的梯度表达式
Figure FDA0003998977500000026
如公式4:
Figure FDA0003998977500000025
其中,Gai、Gπi分别为Critic网络输出的动作梯度、Actor网络输出相对于Actor网络参数的梯度。
6.根据权利要求1所述的方法,其特征在于,所述预设奖励的函数表达式如公式5:
R=w1r1-w2r2+w3r3              公式5
其中r1、r2、r3分别为对抗性奖励、探索失败奖励和不合理碰撞奖励,w1,w2,w3分别为各项奖励对应的权重系数;
所述对抗性奖励用于表示被测车辆与切入车辆在单轮训练中的相互影响程度,所述对抗性奖励的表达式如公式6:
Figure FDA0003998977500000031
其中,
Figure FDA0003998977500000032
表示制动加速度的导数,被测车辆的制动加速度asut绝对值大于3m/s2时确定为紧急制动行为;
所述探索失败奖励用于表示被测车辆在单轮训练中是否发生紧急制动行为,所述探索失败奖励的表达式如公式7:
Figure FDA0003998977500000033
其中,p为常数;
所述不合理碰撞奖励用于表示被测车辆与切入车辆在单轮训练中是否发生碰撞,所述不合理碰撞奖励的表达式如公式8:
Figure FDA0003998977500000034
其中,q为常数。
7.根据权利要求1所述的方法,其特征在于,单轮训练周期为30s,采样步长为0.1s,最大训练次数为5000次。
8.根据权利要求1所述的方法,其特征在于,所述第一预设训练终止条件包括:
被测车辆与切入车辆发生碰撞;或,
训练时间超过30s;或,
被测车辆的最大行驶距离超过80m。
9.根据权利要求1所述的方法,其特征在于,所述第二预设训练终止条件包括:
训练总轮次达到预设次数;或,
训练总轮次达到预设时长。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将第一环境状态变量数据、第一环境状态变量数据对应的动作信息,动作信息对应的评价信息以及第二环境状态变量数据作为一组经验数据存入经验回放池;
此时,步骤S4中通过所述Actor网络计算第一环境状态变量数据对应的动作信息包括:
根据所述经验回放池中各组经验数据,从中选择与所述第一环境状态变量数据相对应,且评价信息最优的动作信息。
CN202211611529.8A 2022-12-14 2022-12-14 基于ddpg的自动驾驶边缘测试场景生成方法 Pending CN115906655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211611529.8A CN115906655A (zh) 2022-12-14 2022-12-14 基于ddpg的自动驾驶边缘测试场景生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211611529.8A CN115906655A (zh) 2022-12-14 2022-12-14 基于ddpg的自动驾驶边缘测试场景生成方法

Publications (1)

Publication Number Publication Date
CN115906655A true CN115906655A (zh) 2023-04-04

Family

ID=86472536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211611529.8A Pending CN115906655A (zh) 2022-12-14 2022-12-14 基于ddpg的自动驾驶边缘测试场景生成方法

Country Status (1)

Country Link
CN (1) CN115906655A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665847A (zh) * 2023-08-02 2023-08-29 南京元域绿洲科技有限公司 基于vr的围绕精神障碍的情绪调节训练系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665847A (zh) * 2023-08-02 2023-08-29 南京元域绿洲科技有限公司 基于vr的围绕精神障碍的情绪调节训练系统
CN116665847B (zh) * 2023-08-02 2023-10-24 南京元域绿洲科技有限公司 基于vr的围绕精神障碍的情绪调节训练系统

Similar Documents

Publication Publication Date Title
CN110686906B (zh) 车辆自动驾驶测试方法及装置
CN113561986B (zh) 自动驾驶汽车决策方法及装置
CN110245406B (zh) 行驶仿真方法、装置及存储介质
CN110764494A (zh) 一种基于SCANeR的人机混驾自动驾驶虚拟测试平台
US20220009510A1 (en) Method for training at least one algorithm for a control device of a motor vehicle, computer program product, and motor vehicle
CN115906655A (zh) 基于ddpg的自动驾驶边缘测试场景生成方法
US20090287466A1 (en) Process For Carrying Out A Task For Calculating A Signal To Be Simulated In Real Time
CN104102776A (zh) 一种城市轨道交通列车的模型自动辨识方法
CN111348034B (zh) 基于生成对抗模仿学习的自动泊车方法及系统
CN115268296A (zh) 一种提高自动驾驶开发测试效率的并行仿真系统
CN115496201A (zh) 一种基于深度强化学习的列车精确停车控制方法
CN108665069B (zh) 一种用于无人车训练模拟的突发性事件触发机制
CN114174935A (zh) 用于近似计算测试结果的子集的计算机实现的方法和测试单元
CN117373243A (zh) 地下道路的立体路网交通诱导与应急救援协同管理方法
KR102006755B1 (ko) 정보 엔트로피의 비교를 통한 차량 내 외부 데이터 침입 탐지 장치 및 그 동작 방법
CN111767630A (zh) 一种应用于智能驾驶的虚拟仿真测试方法及装置
US20230394896A1 (en) Method and a system for testing a driver assistance system for a vehicle
CN115309074A (zh) 一种自动驾驶仿真测试方法、装置、仿真设备及储存介质
CN114896802A (zh) 基于VISSIM和Python的混合自动驾驶交通流仿真方法
US11280828B2 (en) Method for testing a system for a requirement
CN114148349A (zh) 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
CN113065240B (zh) 一种自适应巡航仿真方法、装置、电子设备和存储介质
CN116107915B (zh) 车辆高速公路巡航功能安全可控性指标的量化方法及装置
US20240010210A1 (en) Computer-implemented method for terminating a scenario-based test process of a driving assistance system
CN117609093A (zh) 一种自动驾驶场景下交通参与者动态切入行为的生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination