CN117609093A - 一种自动驾驶场景下交通参与者动态切入行为的生成方法 - Google Patents
一种自动驾驶场景下交通参与者动态切入行为的生成方法 Download PDFInfo
- Publication number
- CN117609093A CN117609093A CN202311730921.9A CN202311730921A CN117609093A CN 117609093 A CN117609093 A CN 117609093A CN 202311730921 A CN202311730921 A CN 202311730921A CN 117609093 A CN117609093 A CN 117609093A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- network
- strategy
- agent
- transverse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000006399 behavior Effects 0.000 title claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 45
- 230000009471 action Effects 0.000 claims abstract description 33
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000004088 simulation Methods 0.000 claims abstract description 13
- 239000003795 chemical substances by application Substances 0.000 claims description 67
- 230000001133 acceleration Effects 0.000 claims description 27
- 230000004913 activation Effects 0.000 claims description 15
- 239000003153 chemical reaction reagent Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 238000013210 evaluation model Methods 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 125000003275 alpha amino acid group Chemical group 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3684—Test management for test design, e.g. generating new test cases
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01M—TESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
- G01M17/00—Testing of vehicles
- G01M17/007—Wheeled or endless-tracked vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3696—Methods or tools to render software testable
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Biophysics (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种自动驾驶场景下交通参与者动态切入行为的生成方法,包括:1、构建切入场景仿真环境,并采集环境信息;2、构建状态量,动作量,对动作量处理生成预期轨迹;3、奖励函数设计;4、构建策略‑评价网络,并基于PPO算法训练神经网络,从而动态生成切入行为。本发明使用深度强化学习方法,生成无人驾驶测试车辆在道路上遭遇激进切入行为的测试场景,能够有效验证被测车辆的自动驾驶功能的可靠性。
Description
技术领域
本发明涉及无人驾驶测试领域,具体说就是一种自动驾驶场景下交通参与者动态切入行为的生成方法。
背景技术
无人驾驶已经在相对简单的场景中得到了广泛应用,然而对于复杂的驾驶场景,如实际公路,考虑到障碍物、交通标识、地面路况和不同场景下不同驾驶风格的交通流车辆,无人驾驶算法的可靠性变得更加不确定,且存在着许多潜在的危险,需要对自动驾驶算法可能出现是危险进行测试验证。现有自动驾驶测试的方式主要包括实车道路测试或虚拟仿真场景测试。其中,实车道路测试很难收集到出现几率较小但容易造成危险的场景数据,同时在面对危险场景时,驾驶员往往会过早进行人为介入以避免实车碰撞造成损失。这导致验证自动驾驶功能的安全性和可靠性变得低效且成本高昂。在仿真中,传统方法在构建仿真场景方面存在局限性,无法自动学习和适应新的场景,对于较少出现但危险性较高的情况,传统方法往往无法充分考虑和覆盖,导致测试结果的不全面和偏差。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种自动驾驶场景下交通参与者动态切入行为的生成方法,以期在测试场景中模拟实车场景下的危险对抗情况,以更加有效地评估自动驾驶车辆在面对危险行为时的应对能力,从而能够有效验证被测车辆的自动驾驶功能的可靠性,为自动驾驶功能的改进和优化提供参考。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种自动驾驶场景下交通参与者动态切入行为的生成方法的特点也在于,包括如下步骤:
步骤1、根据交通车辆的动力学模型,构建高速切入工况的仿真环境,并采集仿真环境道路和车辆信息;定义仿真环境中的训练车辆为agent车,测试车辆为ego车,agent车位于左侧车道行驶,ego车位于agent车的右侧相邻车道,并与agent车同向行驶;
步骤2、以车辆自身中心为原点,以车辆沿着道路行驶的方向为纵向、以垂直于道路行驶的方向为横向,建立Frenet坐标系;
定义状态参数集中的每一步的状态量包括:agent车与ego车的横向距离、agent车与ego车在纵向距离、ego车的速度和加速度,agent车的速度和航向角;
定义动作参数集的每一步的动作量,包括:agent车的加速度,agent车的预瞄距离;
步骤3、根据每一步动作量,生成每一步的纵向、横向预期轨迹;
步骤4、设定奖励数R;
步骤5、构建策略-评价网络,并设定学习率为η;
基于所述状态参数集和动作参数集,利用PPO算法对所述策略-评价网络进行训练,得到最优策略-评价模型;
步骤6、将所述最优策略-评价模型部署到agent车的规划模块上,将当前状态量输入规划模块,输出agent车当前的动作量,并根据步骤3的过程得到当前的纵向、横向预期轨迹后,发送给agent车的控制模块执行,以产生当前的最优动态切入行为,逼迫ego车做出反应,以验证ego车辆的自动驾驶功能在面对危险情况下的可靠性。
本发明所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法的特点也在于,所述步骤3包括:
步骤3.1:构建每一步的动作量中agent车的加速度的范围;
步骤3.2:利用三次多项式构建agent车在每一步的纵向、横向预期轨迹;
步骤3.3:定义每一步的纵向、横向预期轨迹的起点条件,每一步的纵向、横向预期轨迹的终点条件;
步骤3.4:基于起点条件和终点条件对纵向、横向预期轨迹分别进行求解,相应得到纵向、横向多项式系数。
根据权利要求2所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法,其特征在于,所述步骤3中的奖励函数R是由碰撞奖励、到达目标车道奖励和加速度平滑奖励组成,其中;碰撞奖励是根据agent车是否与ego发生碰撞决定,若发生碰撞,则将所设定的碰撞惩罚赋予碰撞奖励,否则,根据agent车与ego发生碰撞的预测时间计算碰撞奖励;
所述到达目标车道奖励与agent到ego车所在车道的距离的平方成反比;
所述加速度平滑奖励与agent车的加速度的导数平方成正比。
所述步骤5包括:
步骤5.1:所述策略-评价网络包括:评价网络和策略网络;
搭建所述评价网络是由两层全连接层以及输出层组成,且所有全连接层之间的激活函数均为Relu函数,评价网络的输入为状态量,输出为当前状态价值;
搭建所述策略网络包括:输出均值部分的神经网络和输出方差部分的神经网络;其中,输出均值部分的神经网络包含:两层全连接层以及输出层,且输出层激活函数为Tanh函数;所述输出方差部分的神经网络包含:两层全连接层和输出层,且输出层激活函数为Softplus激活函数;所有全连接层之间的激活函数为Relu函数;且策略网络输出的当前动作量服从高斯分布;
步骤5.3:按照步骤5.2的过程直到经验池容量达到设定最大值为止;
步骤5.4:从经验池中随机抽取一条样本;
用价值网络计算所抽取的每条样本中前、后两个状态对应的状态价值;
用前、后状态价值计算相应样本的优势函数;
用新、旧策略在同一状态下选择同一动作的概率比值,与所述同一动作对应的优势函数的乘积,得到策略网络的梯度,所述旧策略是在训练过程中更新前的策略网络,而新策略指的是在训练过程中更新后的策略网络;在第一次更新之前,所述新策略与旧策略是相同的,即它们在初始阶段具有相同的网络参数;
步骤5.5:根据策略网络的梯度,通过梯度下降的方法更新策略网络的参数,同时通过最小平方差损失的方法更新价值网络的参数,得到更新后的策略网络和价值网络;
步骤5.6:若当前步数未达到总迭代次数,则清空经验池,返回步骤5.2顺序执行,否则,结束训练,并得到训练结束后的网络参数构成的最优策略-评价网络模型。
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述生成方法的步骤。
与现有技术相比,本发明的有益效果在于:
本发明利用深度强化学习PPO算法构建了网络,并训练得到交通参与者的动态切入行为生成模型。该模型能够实时生成具有多样性的轨迹,控制交通参与车辆在意外切入、激进加塞等动态道路切入行为方面表现出的动态性。与传统方法相比,本发明利用深度强化学习的探索性和自动驾驶虚拟仿真方法,构建了不同的仿真测试场景,并重复生成危险驾驶行为,从而有效提升了测试场景中小概率的动态交互性在,评估自动驾驶系统性能时更准确地模拟了真实场景,提高了测试效率,并验证了自动驾驶功能的可靠性。
附图说明
图1为本发明场景示意图;
图2为本发明实施的PPO算法框架示意图;
图3为本发明实施的算法训练流程示意图;
图4为本发明实施的agent车和ego车在道路行驶中的车辆轨迹示意图。
具体实施方式
本实施例中,一种自动驾驶场景下交通参与者动态切入行为的生成方法,包括如下步骤:
步骤1、根据交通车辆的动力学模型,构建高速切入工况的仿真环境,并采集仿真环境道路和车辆信息;定义仿真环境中的训练车辆为agent车,测试车辆为ego车,agent车位于左侧车道行驶,ego车位于agent车的右侧相邻车道,并与agent车同向行驶;场景如图1所示,图中呈现了道路的结构以及agent车和ego车在道路上的初始位置。
步骤2、以车辆自身中心为原点,以车辆沿着道路行驶的方向为纵向、以垂直于道路行驶的方向为横向,建立Frenet坐标系;
定义状态参数集S={s1,s2...,si,...,sm},i=1,2,…,m,m为总迭代次数,定义状态参数中的每一步的状态量包括:agent车与ego车的横向距离、agent车与ego车在纵向距离、ego车的速度和加速度,agent车的速度和航向角;
si为第i步的状态量,并有其中,Δli为agent车与ego车在第i步的横向距离、Δdi为agent车与ego车在第i步的纵向距离、为ego车在第i步的速度和加速度,/>为agent车在第i步的速度和航向角;
定义动作参数集A={a1,a2...,ai,...,am},定义动作参数集的每一步的动作量,包括:agent车的加速度,agent车的预瞄距离;
ai为第i步的状态量,并有其中,/>为agent车在第i步的加速度,/>为agent车在第i步的预瞄距离。
步骤3、根据每一步动作量,生成每一步的纵向、横向预期轨迹;
步骤3.1:构建每一步的动作量中agent车的加速度的范围;第i步动作量中agent车的加速度/>的范围为/>accmax为agent车的最大加速度的上限,accmin为最大制动加速度上限。
步骤3.2:利用三次多项式构建agent车在每一步的纵向、横向预期轨迹;
步骤3.2.1:利用式(1)构建agent车在第i步的纵向预期轨迹di(t):
di(t)=a0 i+a1 it+a2 it2+a3 it3 (1)
式(1)中,t为三次多项式的参数,a0 i~a3 i为第i步的纵向预期轨迹的多项式系数;
步骤3.2.2:利用式(2)构建agent车在第i步的横向预期轨迹li(t):
li(t)=b0 i+b1 it+b2 it2+b3 it3 (2)
式(2)中,b0 i~b3 i为第i步的横向预期轨迹的多项式系数。
步骤3.3:定义每一步的纵向、横向预期轨迹的起点条件,每一步的纵向、横向预期轨迹的终点条件;
步骤3.3.1:定义第i步的纵向预期轨迹di(t)的起点条件为第i步的纵向预期轨迹di(t)的终点条件为其中,/>为agent车在frenet坐标系下第i步的纵坐标,d′i(0)为di(t)在t=0时的导数,d′i(T)为di(t)在t=T时的导数,T为轨迹时间。
步骤3.3.2:定义第i步的横向预期轨迹li(t)的起点条件为第i步的横向预期轨迹li(t)的终点条件为/>其中,/>为agent车在frenet坐标系下第i步的横坐标,li(0)为li(t)在t=0时的导数,l′i(T)为li(t)在t=T时的导数。
步骤3.4:基于起点条件和终点条件对纵向、横向预期轨迹分别进行求解,相应得到纵向、横向多项式系数。求解横纵向轨迹的流程图如图2所示;
步骤4、在强化学习算法中,奖励函数是指导智能体学习最优策略的关键部分,为了鼓励agent车产生合理的切入动作,利用式(3)设定奖励数R,奖励函数R是由碰撞奖励、到达目标车道奖励和加速度平滑奖励组成;
R=ω1Rc+ω2Rg+ω3Rsmoth (3)
式(3)中,Rc表示碰撞奖励,Rg表示到达目标车道奖励,Rsmoth表示加速度平滑奖励,ω1,ω2,ω3为相应三个奖励的权重;其中;碰撞奖励是根据agent车是否与ego发生碰撞决定,若发生碰撞,则将所设定的碰撞惩罚赋予碰撞奖励,否则,根据agent车与ego发生碰撞的预测时间计算碰撞奖励;agent车换道过程中,会与ego车进行碰撞检测,当发生碰撞的预测时间较大,同时ego车的加速度没有明显变化,此时无碰撞奖励较小。当发生碰撞的预测时间较小,同时ego车的加速度发生明显变化,无碰撞奖励较大,鼓励agent车产生激进的切入行为,并且能够对ego车的状态产生影响。同时,agent车与ego车发生碰撞时会有惩罚,避免agent车产生过激行为。
到达目标车道奖励与agent到ego车所在车道的距离的平方成反比;当agent车到ego车所在车道的距离较远,奖励函数值较小,agent到ego车所在车道的距离越近,奖励函数值越大,鼓励agent车向ego车所在车道产生切入行为,同时避免agent车进入错误道路。
加速度平滑奖励与agent车的加速度的导数平方成正比。在实施中定义一个惩罚系数与agent车的加速度导数平方相乘,通过对惩罚系数的调整,可以避免agent车的加速度产生较大的突变。
步骤5、构建策略-评价网络,并设定学习率为η;
基于状态参数集S和动作参数集A,利用PPO算法对策略-评价网络进行训练,得到最优策略-评价模型;
步骤5.1:策略-评价网络包括:评价网络和策略网络;
搭建评价网络是由两层全连接层以及输出层组成,且所有全连接层之间的激活函数均为Relu函数,令评价网络的参数记为评价网络的输入为状态量,输出为当前状态价值;
搭建策略网络包括:输出均值部分的神经网络和输出方差部分的神经网络;其中,输出均值部分的神经网络包含:两层全连接层以及输出层,且输出层激活函数为Tanh函数;输出方差部分的神经网络包含:两层全连接层和输出层,且输出层激活函数为Softplus激活函数;所有全连接层之间的激活函数为Relu函数;且策略网络输出的当前动作量服从高斯分布,令策略网络的参数记为θ。
步骤5.2:将当前第i步的状态量si输入策略网络中进行处理,第i步动作量ai以及第i步奖励Ri;
将当前第i步的动作量处理后得到当前预期轨迹,车辆动力学模型执行当前预期轨迹后,得到第i+1步的状态量si+1;如果两车发生碰撞或者agent车成功切入ego车所在车道,则第i+1步,两车返回场景初始位置;
将(si,ai,si+1,Ri)作为第i条样本存入经验池中。
步骤5.3:按照步骤5.2的过程直到经验池容量达到设定最大值为止;
步骤5.4:从经验池中抽取任意第i条样本,从而利用式(4)计算该样本的优势函数
式(4)中,Vφ(si)为将第i条样本中的si输入价值网络后得到的状态价值,Vφ(si+1)为将第i条样本中的si+1输入价值网络后得到的状态价值;γ为奖励折扣系数;
定义在状态量si下的新策略选取动作ai的概率与在状态量si下的旧策略选取动作ai的概率的比值为ri(θ);旧策略是在训练过程中更新前的策略网络,而新策略指的是在训练过程中更新后的策略网络;在第一次更新之前,新策略与旧策略是相同的,即它们在初始阶段具有相同的网络参数。
步骤5.5:根据策略网络的梯度,通过梯度下降的方法利用式(8)更新策略网络的参数,得到策略网络在第i+1步的更新后的网络参数θi+1:
式(5)中,为策略网络参数θ的梯度算子,clip(r(θi),1-ε,1+ε)为范围限制函数,是将ri(θ)限制在1-ε到1+ε范围内,ε为设定的阈值,/>为期望。
通过最小平方差损失的方法更新价值网络的参数利用式(8)更新价值网络的参数,得到价值网络在第i+1步的更新后的网络参数
式(6)中,为价值网络参数/>的梯度算子。
步骤5.6:将i+1赋值给i后,若i<m时,当前步数未达到总迭代次数,则清空经验池,返回步骤5.2顺序执行,否则,结束训练,表示得到训练结束后第m步的网络参数θm和构成最优策略-评价网络模型。策略-评价网络训练的流程如图3所示;
步骤6、将最优策略-评价模型部署到agent车的规划模块上,将当前状态量输入规划模块,输出agent车当前的动作量,并根据步骤3的过程得到当前的纵向、横向预期轨迹后,发送给agent车的控制模块执行,以产生当前的最优动态切入行为,逼迫ego车做出反应,以验证ego车辆的自动驾驶功能在面对危险情况下的可靠性。图4为本发明实施的agent车和ego车在道路行驶中的车辆轨迹示意图,图中的虚线和实现轨迹分别展示了agent车和ego车的在大地坐标下的行驶路径,图中可以看出agent车向ego车方向产生了激进的切入行为。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
Claims (5)
1.一种自动驾驶场景下交通参与者动态切入行为的生成方法,其特征在于,包括如下步骤:
步骤1、根据交通车辆的动力学模型,构建高速切入工况的仿真环境,并采集仿真环境道路和车辆信息;定义仿真环境中的训练车辆为agent车,测试车辆为ego车,agent车位于左侧车道行驶,ego车位于agent车的右侧相邻车道,并与agent车同向行驶;
步骤2、以车辆自身中心为原点,以车辆沿着道路行驶的方向为纵向、以垂直于道路行驶的方向为横向,建立Frenet坐标系;
定义状态参数集中的每一步的状态量包括:agent车与ego车的横向距离、agent车与ego车在纵向距离、ego车的速度和加速度,agent车的速度和航向角;
定义动作参数集的每一步的动作量,包括:agent车的加速度,agent车的预瞄距离;
步骤3、根据每一步动作量,生成每一步的纵向、横向预期轨迹;
步骤4、设定奖励数R;
步骤5、构建策略-评价网络,并设定学习率为η;
基于所述状态参数集和动作参数集,利用PPO算法对所述策略-评价网络进行训练,得到最优策略-评价模型;
步骤6、将所述最优策略-评价模型部署到agent车的规划模块上,将当前状态量输入规划模块,输出agent车当前的动作量,并根据步骤3的过程得到当前的纵向、横向预期轨迹后,发送给agent车的控制模块执行,以产生当前的最优动态切入行为,逼迫ego车做出反应,以验证ego车辆的自动驾驶功能在面对危险情况下的可靠性。
2.根据权利要求1所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法,其特征在于,所述步骤3包括:
步骤3.1:构建每一步的动作量中agent车的加速度的范围;
步骤3.2:利用三次多项式构建agent车在每一步的纵向、横向预期轨迹;
步骤3.3:定义每一步的纵向、横向预期轨迹的起点条件,每一步的纵向、横向预期轨迹的终点条件;
步骤3.4:基于起点条件和终点条件对纵向、横向预期轨迹分别进行求解,相应得到纵向、横向多项式系数。
根据权利要求2所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法,其特征在于,所述步骤3中的奖励函数R是由碰撞奖励、到达目标车道奖励和加速度平滑奖励组成,其中;碰撞奖励是根据agent车是否与ego发生碰撞决定,若发生碰撞,则将所设定的碰撞惩罚赋予碰撞奖励,否则,根据agent车与ego发生碰撞的预测时间计算碰撞奖励;
所述到达目标车道奖励与agent到ego车所在车道的距离的平方成反比;
所述加速度平滑奖励与agent车的加速度的导数平方成正比。
3.根据权利要求2所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法,其特征在于,所述步骤5包括:
步骤5.1:所述策略-评价网络包括:评价网络和策略网络;
搭建所述评价网络是由两层全连接层以及输出层组成,且所有全连接层之间的激活函数均为Relu函数,评价网络的输入为状态量,输出为当前状态价值;
搭建所述策略网络包括:输出均值部分的神经网络和输出方差部分的神经网络;其中,输出均值部分的神经网络包含:两层全连接层以及输出层,且输出层激活函数为Tanh函数;所述输出方差部分的神经网络包含:两层全连接层和输出层,且输出层激活函数为Softplus激活函数;所有全连接层之间的激活函数为Relu函数;且策略网络输出的当前动作量服从高斯分布;
步骤5.3:按照步骤5.2的过程直到经验池容量达到设定最大值为止;
步骤5.4:从经验池中随机抽取一条样本;
用价值网络计算所抽取的每条样本中前、后两个状态对应的状态价值;
用前、后状态价值计算相应样本的优势函数;
用新、旧策略在同一状态下选择同一动作的概率比值,与所述同一动作对应的优势函数的乘积,得到策略网络的梯度,所述旧策略是在训练过程中更新前的策略网络,而新策略指的是在训练过程中更新后的策略网络;在第一次更新之前,所述新策略与旧策略是相同的,即它们在初始阶段具有相同的网络参数;
步骤5.5:根据策略网络的梯度,通过梯度下降的方法更新策略网络的参数,同时通过最小平方差损失的方法更新价值网络的参数,得到更新后的策略网络和价值网络;
步骤5.6:若当前步数未达到总迭代次数,则清空经验池,返回步骤5.2顺序执行,否则,结束训练,并得到训练结束后的网络参数构成的最优策略-评价网络模型。
4.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1-3中任一所述生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
5.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-3中任一所述生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311730921.9A CN117609093A (zh) | 2023-12-15 | 2023-12-15 | 一种自动驾驶场景下交通参与者动态切入行为的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311730921.9A CN117609093A (zh) | 2023-12-15 | 2023-12-15 | 一种自动驾驶场景下交通参与者动态切入行为的生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117609093A true CN117609093A (zh) | 2024-02-27 |
Family
ID=89957951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311730921.9A Pending CN117609093A (zh) | 2023-12-15 | 2023-12-15 | 一种自动驾驶场景下交通参与者动态切入行为的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609093A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117933096A (zh) * | 2024-03-21 | 2024-04-26 | 山东省科学院自动化研究所 | 一种无人驾驶对抗测试场景生成方法及系统 |
-
2023
- 2023-12-15 CN CN202311730921.9A patent/CN117609093A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117933096A (zh) * | 2024-03-21 | 2024-04-26 | 山东省科学院自动化研究所 | 一种无人驾驶对抗测试场景生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197027B (zh) | 一种自动驾驶测试方法、装置、智能设备和服务器 | |
CN111123735B (zh) | 自动驾驶仿真运行方法和装置 | |
CN109492763B (zh) | 一种基于强化学习网络训练的自动泊车方法 | |
CN113561986B (zh) | 自动驾驶汽车决策方法及装置 | |
CN117609093A (zh) | 一种自动驾驶场景下交通参与者动态切入行为的生成方法 | |
CN112382165B (zh) | 驾驶策略生成方法、装置、介质、设备及仿真系统 | |
CN114511999B (zh) | 一种行人行为预测方法及装置 | |
CN111539087A (zh) | 自动驾驶系统仿真测试平台和自动驾驶系统评价方法 | |
CN110686906A (zh) | 车辆自动驾驶测试方法及装置 | |
CN113879339A (zh) | 自动驾驶的决策规划方法、电子设备及计算机存储介质 | |
US20230162539A1 (en) | Driving decision-making method and apparatus and chip | |
CN114973650A (zh) | 车辆匝道入口合流控制方法、车辆、电子设备及存储介质 | |
US20230394896A1 (en) | Method and a system for testing a driver assistance system for a vehicle | |
CN117227755A (zh) | 基于强化学习的复杂交通场景下自动驾驶决策方法及系统 | |
CN115204455A (zh) | 适用于高速与环路交通场景的长时域驾驶行为决策方法 | |
CN113110359B (zh) | 约束型智能汽车自主决策系统在线训练方法及装置 | |
CN116680979A (zh) | 一种基于强化学习的无人驾驶测试场景自动生成方法 | |
CN116562175A (zh) | 车辆配置对自动驾驶系统安全性影响的评估方法 | |
CN114174935A (zh) | 用于近似计算测试结果的子集的计算机实现的方法和测试单元 | |
CN114117944B (zh) | 一种模型更新方法、装置、设备及可读存储介质 | |
CN115906655A (zh) | 基于ddpg的自动驾驶边缘测试场景生成方法 | |
CN114701517A (zh) | 基于强化学习的多目标复杂交通场景下自动驾驶解决方法 | |
CN116611533A (zh) | 一种面向高速公路开放场景的自动驾驶汽车控制方法 | |
CN117232531B (zh) | 机器人导航规划方法及存储介质和终端设备 | |
CN112380724B (zh) | 无人驾驶车横向自主变道辅助系统仿真测试方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |