CN116680979A - 一种基于强化学习的无人驾驶测试场景自动生成方法 - Google Patents

一种基于强化学习的无人驾驶测试场景自动生成方法 Download PDF

Info

Publication number
CN116680979A
CN116680979A CN202310656166.8A CN202310656166A CN116680979A CN 116680979 A CN116680979 A CN 116680979A CN 202310656166 A CN202310656166 A CN 202310656166A CN 116680979 A CN116680979 A CN 116680979A
Authority
CN
China
Prior art keywords
network
agent
actor
action
critic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310656166.8A
Other languages
English (en)
Inventor
汪海博
江贺
任志磊
周志德
邹沛煜
王景博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202310656166.8A priority Critical patent/CN116680979A/zh
Publication of CN116680979A publication Critical patent/CN116680979A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于无人驾驶测试技术领域,尤其涉及一种基于强化学习的无人驾驶测试场景自动生成方法。本发明将场景中的动态要素视为智能体,通过强化学习在仿真过程中不断的训练模型,让智能体学会在驾驶过程中与自我车辆发生交互,从而让无人驾驶车辆面对更为复杂的场景。因为场景中存在多个行人和多辆车,所以采用中心化训练去中心化执行的架构和演员‑评论家思想来使各智能体之间协同合作。在训练阶段,每个动态元素都需要把自己观测值和当前做出的动作通知给中央处理器模块,通过这些信息决定每个智能体在下一步应该做出的动作;在执行阶段,动态元素不需要再提供自己的观测值和动作给中央控制器,而是自行决策,从而提高测试效率。

Description

一种基于强化学习的无人驾驶测试场景自动生成方法
技术领域
本发明涉及无人驾驶测试技术领域,尤其涉及一种基于强化学习的无人驾驶测试场景自动生成方法。
背景技术
无人驾驶是当前国际的前沿热点和经济转型发展的重要支撑,众多汽车企业都投入到了无人驾驶领域中。在无人驾驶的开发过程中,验证无人驾驶的安全性,特别是无人驾驶在面对一些意外情况的处理能力是一个巨大的挑战。
为了保障无人驾驶的安全性,许多工作都致力于为无人驾驶生成大量复杂且多样的驾驶场景来对其进行安全性测试,以提前发现无人驾驶中存在的缺陷。然而,由于无人驾驶所能遇到的场景是无穷的,在真实世界中生成这些场景所需要的成本是无法承受的,因此现在的无人驾驶测试一般都采用虚拟仿真技术进行。现在的一些发明专利,如自动驾驶仿真测试场景随机自动生成方法及系统(专利号:CN202211301843.6)、一种自动驾驶仿真测试场景的生成方法及生成系统(专利号:CN201910797521.7)、一种面向自动驾驶系统的仿真测试场景生成方法(专利号:CN202210644626.0)等主要是对自然驾驶的车辆数据进行处理,利用随机采样或启发式的方法来生成新的测试场景,但是这些方法会生成大量重复且无用的测试场景。还有一些发明专利,如一种基于强化学习的自动驾驶关键场景生成方法(专利号:CN202110082493.8)、一种基于强化学习的自动驾驶车辆碰撞测试方法(专利号:CN202110799952.4)等主要通过调整环境参数来生成测试场景,但无人驾驶车辆在运行过程中与环境缺少交互。
综合上述现有技术情况,可以发现针对无人驾驶的测试场景生成技术存在测试效率低的问题。因此,提高无人驾驶测试场景生成效率十分的急迫且必要。
发明内容
为了克服现有无人驾驶测试场景生成在多样性和效率上的不足,本发明提供了一种基于强化学习的无人驾驶场景自动生成方法。强化学习是人工智能学习领域的一个重要的分支,它被用于控制能够在某个环境下自主行动的智能体,通过和环境之间的互动,不断改进自身的行为。
在本发明中,自我车辆是指在测试场景中被无人驾驶系统操控的车辆,其运动轨迹和行为模式是由无人驾驶系统中的决策模块控制的。动态的场景要素包括行人和其他行使车辆,它们会对自我车辆的行驶产生干扰。
本发明将场景中的动态要素视为智能体,通过强化学习在仿真过程中不断的训练模型,让这些智能体学会在驾驶过程中与自我车辆发生交互,从而让无人驾驶车辆面对更为复杂的场景,尤其是那些容易做出错误决策的场景。因为场景中存在多个行人和多辆车,所以采用中心化训练去中心化执行的架构来使各智能体之间协同合作。在训练阶段,每个动态元素都需要把自己观测值和当前做出的动作通知给中央处理器模块,这个模块可以通过这些信息决定每个智能体在下一步应该做出的动作;在执行阶段,动态元素不需要再提供自己的观测值和动作给中央控制器,而是自行决策,从而提高了测试效率。
本发明的技术方案如下:
一种基于强化学习的无人驾驶测试场景自动生成方法,包括以下步骤:
步骤100,启动仿真模拟器,并初始化仿真器中的世界环境,包括地形、天气以及能见度等。
步骤200,在仿真模拟器上随机生成自我车辆所在位置,并在自我车辆周围随机的生成其他车辆和行人。这些车辆和行人的位置和朝向都是随机的,如果有车辆发生重叠,则重新生成,直到车辆彼此之间都不冲突。
步骤300,迭代训练过程,迭代次数i∈[1,N]。
当同时存在多个智能体与环境交互时,整个系统就变成了一个多智能体系统(Multi-Agent System)。此时,每个智能体仍然是遵循着强化学习的目标,也就是最大化能够获得的回报,而此时环境全局状态的改变和所有智能体的联合动作相关了。因此在智能体策略学习的过程中,需要考虑联合动作的影响。本发明使用中心化训练去中心化执行的框架来有效地将多个智能体的动作进行协调。其主要思想是利用一个中央处理器模块来学习全局状态和局部状态之间的关系从而最大化所有智能体的总体回报。为了得到最大的回报,智能体需要根据某种策略来选择每一步的动作。这种策略会随着训练不断更新,按照更新方式的不同,可以分为基于价值的(value based)和基于策略的(policy based)两种方法。本发明采用演员-评论家(Actor-Critic)框架的思想,它既可以像基于策略的方法那样从连续动作中选取合适的动作,也可以像基于价值的方法那样根据智能体做出的每个动作来更新网络参数。在这个框架中,演员(Actor)指智能体,它使用基于策略的方法,根据环境状态来决定动作。而评论家(Critic)使用基于价值的方法来给这个动作打分,智能体根据这个分数来更新自己的策略。去中性化执行的策略框架(Centralized Training withDecentralized Execution,CTDE),由中央处理器模块来训练所有智能体的Critic网络,由智能体自行训练自己的Actor网络。环境接收状态作为输入,并由Actor网络生成动作。这些动作被环境执行,同时计算出奖励和下一步状态。Critic网络使用当前状态和下一个状态来预测奖励,并计算时间差分(Temporal Difference,TD)误差。TD误差被用于衡量在一个状态下采取某个行动的预期收益与实际收益之间的差异。TD误差δ计算公式如下:
δ=r+γV(s′)-V(s)
其中,V(s)是当前状态的估计值,V(s′)是下一个状态的估计值,r表示当前的奖励,γ表示折扣因子。之后Actor网络和Critic网络会根据TD误差的值来更新网络参数。
Critic网络的参数更新公式如下:
其中,θc表示Critic网络的参数,αc是Critic网络的学习率,表示梯度,st表示每一次动作执行后的状态。
Actor网络的参数更新公式如下:
其中,θa表示Actor网络的参数,π(at|st)是Actor网络输出的动作概率分布,αa是Actor网络的学习率。
具体训练过程如下:
步骤301,运行仿真模拟器,给自我车辆一个随机的目标地点,并将每一个行人和其他车辆都视为智能体;
步骤302,将所有智能体在当前帧所做的动作拼接在一起,并将其保存在数组a中,a=[a1,a2,…,am]。其中,m表示环境中共有m个智能体,ai表示第i个智能体在当前帧的动作;
步骤303,将所有智能体在当前帧的观测值拼接在一起,并将其保存在数组o中,o=[o1,o2,…,om];其中,m表示环境中共有m个智能体,oi表示第i个智能体在当前帧的观测值;
步骤304,将所有智能体的观测值和动作传递给中央控制器模块,中央控制器模块知道所有智能体当前帧执行的动作、观测的信息以及获得的奖励;其中,每个智能体都根据状态和动作获得奖励,每个智能体的目的都是最大化自己的总预期的回报,计算公式如下:
其中,Ri是每个智能体的总预期回报,γ是折扣因子,t是时间,T是时间范围,ri t是每个智能体每一步的回报。
步骤305,中央处理器中的Critic结构接收到每个智能体传递的环境状态和动作,其中包含有所有智能体的价值网络q(o,a;wi),wi表示网络的权重参数,o表示观测值,a表示动作,价值网络可以对智能体的每一个动作打分;其中价值网络利用动作值函数Qπ(s,a)=E[R|St=s,at=a]来生成策略π,并通过最小化损失来学习到最优策略对应的动作值函数Q*
步骤306,智能体依据中央控制器模块传回的价值网络的数据,训练自身的决策网络π(ai|oi;θi),其中θi表示决策网络的权重参数;决策网络可以根据中央控制器模块的打分,来决定下一步的执行动作。决策网络通过直接调整策略的参数θ来通过沿着方向来最大化目标。
步骤307,一次循环结束时,通过自我车辆和其他车辆以及行人的表现来对本次仿真打分,如果其他车辆和行人彼此相撞,则奖励为-1;如果其他车辆与自我车辆相撞,则奖励+10000;程序还通过检测运行过程中车辆的驾驶质量,来获得相应的分数作为奖励,其中驾驶质量包括自动驾驶车辆在行使过程中急刹车,急加速以及急转弯的次数;
重复步骤301~307,直到达到规定的迭代次数;
步骤400,在执行过程中,中央控制器模块将不起作用,由智能体自己来进行决策,决定每一步的动作。
本发明的有益效果:本发明方法能够通过产生有效且复杂的驾驶测试场景,对无人驾驶测试进行自动化测试,能够高效检测出无人驾驶车辆在面对复杂道路情况时做出的错误决策,以供开发人员快速的修复缺陷。
附图说明
图1是本发明的基于强化学习的无人驾驶场景生成方法的工作流程图;
图2是仿真模拟器的工作方式;
图3(a)~图3(d)是仿真器中的四种道路类别;
图4是CTDE框架的工作流程图;
图5是Actor-Critic网络的工作流程图;
图6是多智能体强化学习的工作流程图;
图7是车辆碰撞类别。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
图1是本发明提供的基于强化学习的无人驾驶场景生成方法的工作流程图。首先启动仿真器,仿真器用于模仿现实生活中的物理规律,可以用来低成本的对无人驾驶进行测试。本发明选用了Carla仿真软件,它是一款开源的自动驾驶仿真器,支持各种规范的传感器,环境,动态和静态场景元素的生成和控制。图2展示了Carla的工作方式,从图中可以看出,仿真器由服务端和客户端组成。服务端主要负责对现实世界的模拟仿真,而客户端主要用来控制仿真世界的运转,用户可以通过书写Python脚本来向服务器发送指令,服务器则会根据用户的指令去执行。仿真器中提供了丰富复杂的道路环境,如图3(a)~图3(d)所展示的,是较为常见的四种道路类别:直行道路,十字路口,三岔路以及拐角。
在训练过程中,包括以下过程:
步骤301,运行仿真模拟器,给自我车辆一个随机的目标地点,并将每一个行人和其他车辆都视为智能体;
步骤302,将所有智能体在当前帧所做的动作拼接在一起,并将其保存在数组a中,a=[a1,a2,…,am]。其中,智能体被规定的动作有:前进,后退,左转,右转,以及刹车五个动作。
步骤303,将所有智能体在当前帧的观测值拼接在一起,并将其保存在数组o中,o=[o1,o2,…,om]。其中,每个智能体可以观测到的信息都来自于车载的传感器,这些传感器包括激光雷达(LIDAR),惯性测量仪(Inertial Measurement Unit,IMU),障碍物检测器(Obstacle Detector)等,可用来检测车辆的速度,转向角以及周围障碍物的信息。
在步骤304~307步骤中,采用了CTDE框架,该框架的工作流程如图4所示。在中央控制器模块中训练着多个Critic网络结构,这些Critic网络结构采用价值网络的结构,可以接受每个智能体传递的观测值和动作,给每一个动作打分,并将评分返回给智能体。采用演员-评论家(Actor-Critic)框架的思想,结构如图5所示,它既可以像基于策略的方法那样从连续动作中选取合适的动作,也可以像基于价值的方法那样根据智能体做出的每个动作来更新网络参数。智能体按照所得的分数来更新自己的Actor网络结构,这些Actor网络采用策略网络的结构,可以根据Critic网络给出的分数更新自己的网络参数。为了让多智能体之间可以协同合作,本发明使用的强化学习算法框架如图6所示。首先定义智能体数量为N,在本实例中N的大小为8。每个智能体包含一个Actor网络结构,Actor网络结构中包含一个目标策略网络和一个Actor网络。中央处理器中包含N个Critic网络结构,每个Critic网络结构中包含一个目标价值网络和Critic网络。同时初始化经验池D,经验池主要用于解决深度强化学习中的样本相关性和样本不平衡问题。
步骤304,将所有智能体的观测值和动作传递给中央控制器模块,中央控制器模块知道所有智能体当前帧执行的动作、观测的信息以及获得的奖励。
步骤305中,中央处理器中的Critic结构接收到每个智能体传递的环境状态和动作。其中Critic网络将当前环境中的状态和每个智能体的动作作为输入,输出用于评估智能体动作的价值Q。根据对于每个时间步t,每个智能体i基于当前策略μi选择动作,并与环境互动得到奖励/>和下一个状态st+1,将经验(st,at,rt,st+1)存入经验池D中。对于每个智能体i,从经验池D中随机采样一个批次的经验,使用目标价值网络计算其目标价值/>,计算公式如下所示:
其中γ是折扣因子,和/>分别表示目标价值网络和目标策略网络,是目标网络的参数,使用目标网络可以增强学习的稳定性和效果。
考虑到策略由θ={θ1,…,θn}参数化的表示具有N个智能体的博弈,令所有智能体策略的集合为μ={μ1,…,μn}。通过学习获得的经验,计算损失函数L(θi)来更新评论家网络参数,损失函数按照如下公式计算:
其中,y表示获得的总体奖励,E表示数学期望,s是当前的状态,a是当前选择的动作,r是当前的奖励,s′是下一步的状态,是一个集中式的动作值函数,它将环境中所有智能体的动作a1,…,an,加上状态信息s作为自己的输入,之后输出智能体i的Q值。
然后计算价值函数梯度,并通过这些梯度值来更新价值网络的参数。重复上述操作直至网络收敛。
步骤306,智能体依据中央控制器模块传回的价值网络的数据,训练自身的决策网络π(ai|oi;θi),其中θi表示决策网络的权重参数;决策网络可以根据中央控制器模块的打分,来决定下一步的执行动作。决策网络通过直接调整策略的参数θ来通过沿着方向来最大化目标。
步骤307,一次循环结束时,通过自我车辆和其他车辆以及行人的表现来对本次仿真打分。可以通过仿真器客户端提供的应用程序接口来查到车辆是否发生碰撞,以及碰撞是在哪两辆车辆之间发生的,还可以获取到自我车辆急刹车,急加速,急转弯的次数以及相对于不同车辆的距离,通过这些数据,可以计算出汽车的驾驶质量分数。如图7所示,自我车辆与其他车辆的碰撞主要分为五种类别:追尾了其他车辆,被其他车辆追尾,直行时被转向的车辆碰撞,转向时碰到了直行的车辆以及转向时碰撞到了转向的车辆。驾驶质量分数主要包括自我车辆急刹车,急加速,急转弯的次数。对于急刹车和急加速检测器ka来说,可以通过计算以下公式得出:
其中Ax是车辆纵向加速比,g是重力常数。如果ka值超过阈值,就认为发生了一次急加速或急刹车。当无人驾驶试图以较快的速度让车辆转向时,就会发生急转弯。由于急转弯与施加到车辆的侧向力有关,所以急转弯检测器kt的计算公式如下所示:
其中Vy和SWA分别表示横向速度和方向盘角度。如果kt大于阈值,则认为发生了一次急转弯。可以认为驾驶质量分数越高,就给自我车辆创造了越危险的驾驶环境。
本发明通过自动化上述过程,完成了对于无人驾驶测试场景的自动生成。使用强化学习可以得到更复杂和更多样的驾驶场景,提高了无人驾驶测试场景的效率。

Claims (2)

1.一种基于强化学习的无人驾驶测试场景自动生成方法,其特征在于,包括以下步骤:
步骤100,启动仿真模拟器,并初始化仿真器中的世界环境,包括地形、天气以及能见度;
步骤200,在仿真模拟器上随机生成自我车辆所在位置,并在自我车辆周围随机的生成其他车辆和行人;这些车辆和行人的位置和朝向都是随机的,如果有车辆发生重叠,则重新生成,直到车辆彼此之间都不冲突;
步骤300,迭代训练过程,迭代次数i∈[1,N];
具体训练过程如下:
步骤301,运行仿真模拟器,给自我车辆一个随机的目标地点,并将每一个行人和其他车辆都视为智能体;
步骤302,将所有智能体在当前帧所做的动作拼接在一起,并保存在数组a中,a=[a1,a2,…,am];其中,m表示环境中共有m个智能体,ai表示第i个智能体在当前帧的动作;
步骤303,将所有智能体在当前帧的观测值拼接在一起,并保存在数组o中,o=[o1,o2,…,om];其中,m表示环境中共有m个智能体,oi表示第i个智能体在当前帧的观测值;
步骤304,将所有智能体的观测值和动作传递给中央控制器模块,中央控制器模块知道所有智能体当前帧执行的动作、观测的信息以及获得的奖励;其中,每个智能体都根据状态和动作获得奖励,每个智能体的目的都是最大化自己的总预期的回报,计算公式如下:
其中,Ri是每个智能体的总预期回报,γ是折扣因子,t是时间,T是时间范围,是每个智能体每一步的回报;
步骤305,中央处理器中的Critic结构接收到每个智能体传递的环境状态和动作,其中包含有所有智能体的价值网络q(o,a;wi),wi表示网络的权重参数,o表示观测值,a表示动作,价值网络对智能体的每一个动作打分;其中价值网络利用动作值函数Qπ(s,a)=E[R|St=s,at=a]来生成策略π,并通过最小化损失来学习到最优策略对应的动作值函数Q*
步骤306,智能体依据中央控制器模块传回的价值网络的数据,训练自身的决策网络π(ai|oi;θi),其中θi表示决策网络的权重参数;决策网络根据中央控制器模块的打分,来决定下一步的执行动作;决策网络通过直接调整策略的参数θ来通过沿着方向来最大化目标;
步骤307,一次循环结束时,通过自我车辆和其他车辆以及行人的表现来对本次仿真打分,如果其他车辆和行人彼此相撞,则奖励为-1;如果其他车辆与自我车辆相撞,则奖励+10000;程序还通过检测运行过程中车辆的驾驶质量,来获得相应的分数作为奖励,其中驾驶质量包括自动驾驶车辆在行使过程中急刹车,急加速以及急转弯的次数;
重复步骤301~307,直到达到规定的迭代次数;
其中,在步骤304~307步骤中,采用去中性化执行的策略框架CTDE和演员-评论家框架Actor-Critic;在中央控制器模块中训练着多个Critic网络结构,Critic网络结构采用价值网络的结构,接受每个智能体传递的观测值和动作,给每一个动作打分,并将评分返回给智能体;智能体按照所得的分数来更新自己的Actor网络结构,Actor网络采用策略网络的结构,根据Critic网络给出的分数更新自己的网络参数;每个智能体包含一个Actor网络结构,Actor网络结构中包含一个目标策略网络和一个Actor网络;中央处理器中包含N个Critic网络结构,每个Critic网络结构中包含一个目标价值网络和Critic网络;同时初始化经验池D,用于解决深度强化学习中的样本相关性和样本不平衡问题;
步骤400,在执行过程中,中央控制器模块将不起作用,由智能体自己来进行决策,决定每一步的动作。
2.根据权利要求1所述的一种基于强化学习的无人驾驶测试场景自动生成方法,其特征在于,所述的步骤300中,使用中心化训练去中心化执行的框架CTDE将多个智能体的动作进行协调,即利用一个中央处理器模块来学习全局状态和局部状态之间的关系从而最大化所有智能体的总体回报;为了得到最大的回报,智能体需要根据某种策略来选择每一步的动作;这种策略会随着训练不断更新,按照更新方式的不同,分为基于价值的和基于策略的两种方法;采用演员-评论家框架Actor-Critic的思想,基于策略的方法从连续动作中选取合适的动作,或基于价值的方法根据智能体做出的每个动作来更新网络参数;其中,演员Actor指智能体,使用基于策略的方法,根据环境状态来决定动作;评论家Critic使用基于价值的方法来给这个动作打分,智能体根据这个分数来更新自己的策略;去中性化执行的策略框架由中央处理器模块来训练所有智能体的Critic网络,由智能体自行训练自己的Actor网络,环境接收状态作为输入,并由Actor网络生成动作,这些动作被环境执行,同时计算出奖励和下一步状态;Critic网络使用当前状态和下一个状态来预测奖励,并计算时间差分TD误差;TD误差被用于衡量在一个状态下采取某个行动的预期收益与实际收益之间的差异;TD误差δ计算公式如下:
δ=r+γV(s′)-V(s)
其中,V(s)是当前状态的估计值,V(s′)是下一个状态的估计值,r表示当前的奖励,γ表示折扣因子;之后Actor网络和Critic网络会根据TD误差的值来更新网络参数;
Critic网络的参数更新公式如下:
其中,θc表示Critic网络的参数,αc是Critic网络的学习率,表示梯度,st表示每一次动作执行后的状态;
Actor网络的参数更新公式如下:
其中,θa表示Actor网络的参数,π(at|st)是Actor网络输出的动作概率分布,αa是Actor网络的学习率。
CN202310656166.8A 2023-06-05 2023-06-05 一种基于强化学习的无人驾驶测试场景自动生成方法 Pending CN116680979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310656166.8A CN116680979A (zh) 2023-06-05 2023-06-05 一种基于强化学习的无人驾驶测试场景自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310656166.8A CN116680979A (zh) 2023-06-05 2023-06-05 一种基于强化学习的无人驾驶测试场景自动生成方法

Publications (1)

Publication Number Publication Date
CN116680979A true CN116680979A (zh) 2023-09-01

Family

ID=87778610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310656166.8A Pending CN116680979A (zh) 2023-06-05 2023-06-05 一种基于强化学习的无人驾驶测试场景自动生成方法

Country Status (1)

Country Link
CN (1) CN116680979A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117933096A (zh) * 2024-03-21 2024-04-26 山东省科学院自动化研究所 一种无人驾驶对抗测试场景生成方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117933096A (zh) * 2024-03-21 2024-04-26 山东省科学院自动化研究所 一种无人驾驶对抗测试场景生成方法及系统

Similar Documents

Publication Publication Date Title
CN110297494B (zh) 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统
CN111898211B (zh) 基于深度强化学习的智能车速度决策方法及其仿真方法
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
Zhang et al. Reinforcement learning-based motion planning for automatic parking system
CN109976340B (zh) 一种基于深度增强学习的人机协同动态避障方法及系统
Nishi et al. Merging in congested freeway traffic using multipolicy decision making and passive actor-critic learning
CN107063280A (zh) 一种基于控制采样的智能车辆路径规划系统及方法
CN112784485B (zh) 一种基于强化学习的自动驾驶关键场景生成方法
CN112382165B (zh) 驾驶策略生成方法、装置、介质、设备及仿真系统
Stanley et al. Neuroevolution of an automobile crash warning system
CN111645673B (zh) 一种基于深度强化学习的自动泊车方法
CN113665593B (zh) 一种车辆智能驾驶纵向控制方法、系统及存储介质
CN116680979A (zh) 一种基于强化学习的无人驾驶测试场景自动生成方法
Sun et al. Human-like highway trajectory modeling based on inverse reinforcement learning
CN113110359B (zh) 约束型智能汽车自主决策系统在线训练方法及装置
CN115204455A (zh) 适用于高速与环路交通场景的长时域驾驶行为决策方法
CN117609093A (zh) 一种自动驾驶场景下交通参与者动态切入行为的生成方法
Barbier et al. Probabilistic decision-making at road intersections: Formulation and quantitative evaluation
CN117227754A (zh) 一种针对环岛通行的自动驾驶决策模型构建方法
Bhattacharjee et al. Autonomous drifting RC car with reinforcement learning
Hu et al. Decision-making for connected and automated vehicles in chanllenging traffic conditions using imitation and deep reinforcement learning
Guo et al. Modeling, learning and prediction of longitudinal behaviors of human-driven vehicles by incorporating internal human DecisionMaking process using inverse model predictive control
CN111857112A (zh) 一种汽车局部路径规划方法及电子设备
Ransiek et al. GOOSE: Goal-Conditioned Reinforcement Learning for Safety-Critical Scenario Generation
CN114701517A (zh) 基于强化学习的多目标复杂交通场景下自动驾驶解决方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination